
StepFun ouvre Step3-VL-10B, un modèle multimodal de 10 milliards de paramètres présenté comme capable de rivaliser avec des références dix à vingt fois plus lourdes. L’équipe publie deux déclinaisons, « Base » et « Thinking », avec dépôts sur HuggingFace et ModelScope, un site dédié et un papier arXiv. Le positionnement est clair : amener sur terminaux locaux des capacités jusque-là cantonnées au cloud, du comptage d’objets précis à l’OCR exigeant en passant par l’ancrage GUI.
Capacités annoncées et périmètre de tests

À paramètres équivalents, Step3-VL-10B revendique un niveau SOTA en perception visuelle, raisonnement logique, mathématiques de compétition et dialogue généraliste. StepFun affirme des performances au niveau, voire au-dessus, d’ouverts très larges comme GLM-4.6V 106B-A12B et Qwen3-VL-Thinking 235B-A22B, ainsi que de modèles fermés de premier plan tels que Gemini 2.5 Pro et Seed-1.5-VL. Les benchmarks cités incluent MMMU, MathVision, BLINK, CVBench, OmniSpatial, ViewSpatial et des évaluations en environnement de programmation réel.

Sur le versant mathématique, l’équipe met en avant des scores quasi parfaits sur AIME 25/24, suggérant une rigueur de chaîne de pensée au niveau du premier peloton. En 2D/3D, les scénarios de topologie et de comptage fin sont donnés comme un point fort.

Côté code, les tests sont annoncés en conditions dynamiques, avec un avantage mesuré sur plusieurs modèles multimodaux de référence. Des démonstrations publiques couvrent de la résolution de puzzles visuels au grounding d’interfaces graphiques.
Architecture, entraînement et modes de raisonnement
Step3-VL-10B adopte un préentraînement multimodal joint pleine largeur, sans gel de modules, sur un corpus présenté comme « 1,2 T » d’exemples de haute qualité. L’alignement profond des espaces sémantiques vision/texte sert de socle aux tâches de perception fine et au raisonnement cross-modality. Le modèle est ensuite poussé par un cycle de renforcement massif, avec plus de 1 400 itérations, l’équipe estimant que la courbe n’a pas atteint son plateau.
Deux paradigmes d’inférence coexistent. SeRe, pour un déroulé séquentiel, et PaCoRe, « raisonnement parallèle coordonné », qui étend dynamiquement la puissance de calcul à l’inférence, explore en parallèle plusieurs hypothèses perceptives et agrège les preuves. StepFun indique que PaCoRe domine SeRe en STEM, OCR & documents, grounding GUI, compréhension spatiale et code.

Cas d’usage et disponibilité
Le constructeur cible explicitement l’agent côté terminal. Nourri par un préentraînement dédié GUI, le modèle sait identifier et actionner des éléments d’interface complexes, un passage clé pour automatiser des workflows locaux sur PC, smartphones et équipements embarqués. L’éditeur met en avant la descente en coût et en empreinte calcul comme un levier pour généraliser le raisonnement multimodal avancé hors cloud.
Les ressources sont disponibles via le site projet, arXiv et les hubs de modèles. L’invitation au fine-tuning communautaire s’applique aux deux variantes, « Base » et « Thinking ».
Si les métriques internes se confirment en évaluation indépendante, Step3-VL-10B illustre un mouvement de fond : l’investissement méthodologique (préentraînement joint, RL à grande échelle, inférence parallèle) compense une réduction d’échelle brute. Pour l’écosystème, le signal est double: pression à la baisse sur les coûts d’inférence et accélération des agents multimodaux on-device, notamment pour le grounding d’UI et l’analyse documentaire avancée.
Source : ITHome