Step3-VL-10B : 10B Qui Défie Les Géants Multimodaux

StepFun ouvre Step3-VL-10B, un modèle multimodal de 10 milliards de paramètres présenté comme capable de rivaliser avec des références dix à vingt fois plus lourdes. L’équipe publie deux déclinaisons, « Base » et « Thinking », avec dépôts sur HuggingFace et ModelScope, un site dédié et un papier arXiv. Le positionnement est clair : amener sur terminaux locaux des capacités jusque-là cantonnées au cloud, du comptage d’objets précis à l’OCR exigeant en passant par l’ancrage GUI.

Capacités annoncées et périmètre de tests

Graphique de performance des modèles Step3-VL-10B, GLM, Qwen, Gemini, Seed.

À paramètres équivalents, Step3-VL-10B revendique un niveau SOTA en perception visuelle, raisonnement logique, mathématiques de compétition et dialogue généraliste. StepFun affirme des performances au niveau, voire au-dessus, d’ouverts très larges comme GLM-4.6V 106B-A12B et Qwen3-VL-Thinking 235B-A22B, ainsi que de modèles fermés de premier plan tels que Gemini 2.5 Pro et Seed-1.5-VL. Les benchmarks cités incluent MMMU, MathVision, BLINK, CVBench, OmniSpatial, ViewSpatial et des évaluations en environnement de programmation réel.

Comparaison des scores Text-centrique des modèles IA modernes.

Sur le versant mathématique, l’équipe met en avant des scores quasi parfaits sur AIME 25/24, suggérant une rigueur de chaîne de pensée au niveau du premier peloton. En 2D/3D, les scénarios de topologie et de comptage fin sont donnés comme un point fort.

Tableau de performance 2D/3D des modèles avec BLINK et autres benchmarks.

Côté code, les tests sont annoncés en conditions dynamiques, avec un avantage mesuré sur plusieurs modèles multimodaux de référence. Des démonstrations publiques couvrent de la résolution de puzzles visuels au grounding d’interfaces graphiques.

Architecture, entraînement et modes de raisonnement

Step3-VL-10B adopte un préentraînement multimodal joint pleine largeur, sans gel de modules, sur un corpus présenté comme « 1,2 T » d’exemples de haute qualité. L’alignement profond des espaces sémantiques vision/texte sert de socle aux tâches de perception fine et au raisonnement cross-modality. Le modèle est ensuite poussé par un cycle de renforcement massif, avec plus de 1 400 itérations, l’équipe estimant que la courbe n’a pas atteint son plateau.

Deux paradigmes d’inférence coexistent. SeRe, pour un déroulé séquentiel, et PaCoRe, « raisonnement parallèle coordonné », qui étend dynamiquement la puissance de calcul à l’inférence, explore en parallèle plusieurs hypothèses perceptives et agrège les preuves. StepFun indique que PaCoRe domine SeRe en STEM, OCR & documents, grounding GUI, compréhension spatiale et code.

Tableau comparatif des scores STEM pour divers benchmarks.

Cas d’usage et disponibilité

Le constructeur cible explicitement l’agent côté terminal. Nourri par un préentraînement dédié GUI, le modèle sait identifier et actionner des éléments d’interface complexes, un passage clé pour automatiser des workflows locaux sur PC, smartphones et équipements embarqués. L’éditeur met en avant la descente en coût et en empreinte calcul comme un levier pour généraliser le raisonnement multimodal avancé hors cloud.

Les ressources sont disponibles via le site projet, arXiv et les hubs de modèles. L’invitation au fine-tuning communautaire s’applique aux deux variantes, « Base » et « Thinking ».

Si les métriques internes se confirment en évaluation indépendante, Step3-VL-10B illustre un mouvement de fond : l’investissement méthodologique (préentraînement joint, RL à grande échelle, inférence parallèle) compense une réduction d’échelle brute. Pour l’écosystème, le signal est double: pression à la baisse sur les coûts d’inférence et accélération des agents multimodaux on-device, notamment pour le grounding d’UI et l’analyse documentaire avancée.

Source : ITHome

Step3-VL-10B : modèle multimodal 10B qui vise le niveau SOTA on-device

Capacités annoncées et périmètre de tests

Architecture, entraînement et modes de raisonnement

Cas d’usage et disponibilité

Articles similaires

Wael.K

Lire le suivant

Silicon carbide 300 mm : Wolfspeed vise l’emballage AI/HPC d’ici la fin de la décennie

Ryzen AI Embedded P100 : AMD ajoute des modèles 8 à 12 cœurs avec Zen 5, RDNA 3.5 et XDNA 2

Edge AI MSI : écosystème complet et plateformes industrielles à Embedded World 2026

NVIDIA GeForce ON à la GDC 2026 : focus RTX, IA et path tracing, pas de nouveau GPU

Arc Pro B60 Dual GPU : MaxSun lance un modèle watercooling single-slot et un passif

Silicon carbide 300 mm : Wolfspeed vise l’emballage AI/HPC d’ici la fin de la décennie

Ryzen AI Embedded P100 : AMD ajoute des modèles 8 à 12 cœurs avec Zen 5, RDNA 3.5 et XDNA 2

Edge AI MSI : écosystème complet et plateformes industrielles à Embedded World 2026

NVIDIA GeForce ON à la GDC 2026 : focus RTX, IA et path tracing, pas de nouveau GPU

Arc Pro B60 Dual GPU : MaxSun lance un modèle watercooling single-slot et un passif