Step3-VL-10B : modèle multimodal 10B qui vise le niveau SOTA on-device

StepFun ouvre Step3-VL-10B, un modèle multimodal de 10 milliards de paramètres présenté comme capable de rivaliser avec des références dix à vingt fois plus lourdes. L’équipe publie deux déclinaisons, « Base » et « Thinking », avec dépôts sur HuggingFace et ModelScope, un site dédié et un papier arXiv. Le positionnement est clair : amener sur terminaux locaux des capacités jusque-là cantonnées au cloud, du comptage d’objets précis à l’OCR exigeant en passant par l’ancrage GUI.

Capacités annoncées et périmètre de tests

Graphique de performance des modèles Step3-VL-10B, GLM, Qwen, Gemini, Seed.

À paramètres équivalents, Step3-VL-10B revendique un niveau SOTA en perception visuelle, raisonnement logique, mathématiques de compétition et dialogue généraliste. StepFun affirme des performances au niveau, voire au-dessus, d’ouverts très larges comme GLM-4.6V 106B-A12B et Qwen3-VL-Thinking 235B-A22B, ainsi que de modèles fermés de premier plan tels que Gemini 2.5 Pro et Seed-1.5-VL. Les benchmarks cités incluent MMMU, MathVision, BLINK, CVBench, OmniSpatial, ViewSpatial et des évaluations en environnement de programmation réel.

Comparaison des scores Text-centrique des modèles IA modernes.

Sur le versant mathématique, l’équipe met en avant des scores quasi parfaits sur AIME 25/24, suggérant une rigueur de chaîne de pensée au niveau du premier peloton. En 2D/3D, les scénarios de topologie et de comptage fin sont donnés comme un point fort.

Tableau de performance 2D/3D des modèles avec BLINK et autres benchmarks.

Côté code, les tests sont annoncés en conditions dynamiques, avec un avantage mesuré sur plusieurs modèles multimodaux de référence. Des démonstrations publiques couvrent de la résolution de puzzles visuels au grounding d’interfaces graphiques.

Architecture, entraînement et modes de raisonnement

Step3-VL-10B adopte un préentraînement multimodal joint pleine largeur, sans gel de modules, sur un corpus présenté comme « 1,2 T » d’exemples de haute qualité. L’alignement profond des espaces sémantiques vision/texte sert de socle aux tâches de perception fine et au raisonnement cross-modality. Le modèle est ensuite poussé par un cycle de renforcement massif, avec plus de 1 400 itérations, l’équipe estimant que la courbe n’a pas atteint son plateau.

Deux paradigmes d’inférence coexistent. SeRe, pour un déroulé séquentiel, et PaCoRe, « raisonnement parallèle coordonné », qui étend dynamiquement la puissance de calcul à l’inférence, explore en parallèle plusieurs hypothèses perceptives et agrège les preuves. StepFun indique que PaCoRe domine SeRe en STEM, OCR & documents, grounding GUI, compréhension spatiale et code.

Tableau comparatif des scores STEM pour divers benchmarks.

Cas d’usage et disponibilité

Le constructeur cible explicitement l’agent côté terminal. Nourri par un préentraînement dédié GUI, le modèle sait identifier et actionner des éléments d’interface complexes, un passage clé pour automatiser des workflows locaux sur PC, smartphones et équipements embarqués. L’éditeur met en avant la descente en coût et en empreinte calcul comme un levier pour généraliser le raisonnement multimodal avancé hors cloud.

Les ressources sont disponibles via le site projet, arXiv et les hubs de modèles. L’invitation au fine-tuning communautaire s’applique aux deux variantes, « Base » et « Thinking ».

Si les métriques internes se confirment en évaluation indépendante, Step3-VL-10B illustre un mouvement de fond : l’investissement méthodologique (préentraînement joint, RL à grande échelle, inférence parallèle) compense une réduction d’échelle brute. Pour l’écosystème, le signal est double: pression à la baisse sur les coûts d’inférence et accélération des agents multimodaux on-device, notamment pour le grounding d’UI et l’analyse documentaire avancée.

Source : ITHome

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x