NVIDIA Nemotron 3 Super : modèle 120B MoE, 1M tokens et throughput x5

Un 120B Mixture-of-Experts taillé pour les agents IA arrive avec un design hybride et des chiffres de throughput agressifs. Les gamers n’y gagneront rien, mais les workloads massifs, oui.

Nemotron 3 Super, 120B MoE et design hybride

NVIDIA dévoile Nemotron 3 Super, un modèle Mixture-of-Experts de 120 milliards de paramètres pensé pour les workloads agentiques. Le design hybride Mamba-Transformer active 12 milliards de paramètres à l’inférence, avec un objectif de coût de service inférieur à un modèle dense équivalent.

Graphique barre précision et débit comparaison différents modèles de processeurs

Première du genre dans la série, cette itération combine LatentMoE, des couches Multi-Token Prediction et un pré-entraînement en NVFP4. NVIDIA annonce jusqu’à x5 de throughput et jusqu’à x2 de précision par rapport au précédent Nemotron Super, plus un contexte étendu jusqu’à 1 million de tokens.

Diagramme intelligence vs efficacité comparaison quadrants pour plusieurs modèles de processeurs

Checkpoints, formats et datasets

La publication inclut des checkpoints base, post-trainés et quantifiés en NVFP4, FP8 et BF16, avec jeux de données et recettes de modèles. Le programme Nemotron 3 revendique plus de 10 billions de tokens pour le pré- et post-training, ainsi que des environnements de RL dédiés au post-training.

Le positionnement vise des agents collaboratifs et des charges volumétriques : développement logiciel, analyse de longs documents, tool-calling. L’ensemble cadre avec le « tier Super » introduit l’an dernier pour la famille Nemotron 3.

Disponibilité large et NIM pour déploiement

Accès immédiat via build.nvidia.com, Hugging Face, OpenRouter et Perplexity. Côté cloud et inference : Google Cloud Vertex AI, Oracle Cloud Infrastructure, CoreWeave, Together AI, Baseten, Cloudflare, DeepInfra, Fireworks AI et Modal. Le modèle est aussi packagé en microservice NVIDIA NIM pour déploiements on‑prem et cloud.

Sur le plan industriel, l’empilement LatentMoE + MTP + NVFP4 avec Mamba-Transformer donne à NVIDIA un levier clair sur le coût par requête et la latence dans les scénarios multi-agents. Si les promesses de x5 en throughput se vérifient en production, l’attractivité face aux modèles denses de taille similaire pourrait accélérer le basculement des plateformes vers des architectures MoE orientées service.

Source : VideoCardz

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x