NVIDIA Nemotron 3 Super : 120B MoE, 1M Tokens

Un 120B Mixture-of-Experts taillé pour les agents IA arrive avec un design hybride et des chiffres de throughput agressifs. Les gamers n’y gagneront rien, mais les workloads massifs, oui.

Nemotron 3 Super, 120B MoE et design hybride

NVIDIA dévoile Nemotron 3 Super, un modèle Mixture-of-Experts de 120 milliards de paramètres pensé pour les workloads agentiques. Le design hybride Mamba-Transformer active 12 milliards de paramètres à l’inférence, avec un objectif de coût de service inférieur à un modèle dense équivalent.

Graphique barre précision et débit comparaison différents modèles de processeurs

Première du genre dans la série, cette itération combine LatentMoE, des couches Multi-Token Prediction et un pré-entraînement en NVFP4. NVIDIA annonce jusqu’à x5 de throughput et jusqu’à x2 de précision par rapport au précédent Nemotron Super, plus un contexte étendu jusqu’à 1 million de tokens.

Diagramme intelligence vs efficacité comparaison quadrants pour plusieurs modèles de processeurs

Checkpoints, formats et datasets

La publication inclut des checkpoints base, post-trainés et quantifiés en NVFP4, FP8 et BF16, avec jeux de données et recettes de modèles. Le programme Nemotron 3 revendique plus de 10 billions de tokens pour le pré- et post-training, ainsi que des environnements de RL dédiés au post-training.

Le positionnement vise des agents collaboratifs et des charges volumétriques : développement logiciel, analyse de longs documents, tool-calling. L’ensemble cadre avec le « tier Super » introduit l’an dernier pour la famille Nemotron 3.

Disponibilité large et NIM pour déploiement

Accès immédiat via build.nvidia.com, Hugging Face, OpenRouter et Perplexity. Côté cloud et inference : Google Cloud Vertex AI, Oracle Cloud Infrastructure, CoreWeave, Together AI, Baseten, Cloudflare, DeepInfra, Fireworks AI et Modal. Le modèle est aussi packagé en microservice NVIDIA NIM pour déploiements on‑prem et cloud.

Sur le plan industriel, l’empilement LatentMoE + MTP + NVFP4 avec Mamba-Transformer donne à NVIDIA un levier clair sur le coût par requête et la latence dans les scénarios multi-agents. Si les promesses de x5 en throughput se vérifient en production, l’attractivité face aux modèles denses de taille similaire pourrait accélérer le basculement des plateformes vers des architectures MoE orientées service.

Source : VideoCardz

NVIDIA Nemotron 3 Super : modèle 120B MoE, 1M tokens et throughput x5

Nemotron 3 Super, 120B MoE et design hybride

Checkpoints, formats et datasets

Disponibilité large et NIM pour déploiement

Articles similaires

Wael.K

Lire le suivant

Ryzen AI Max+ 395 : le mini-PC modulaire de Sapphire vise le très grand modèle local

ChatGPT d’OpenAI ajoute des visualisations interactives pour apprendre les sciences

Silicon carbide 300 mm : Wolfspeed vise l’emballage AI/HPC d’ici la fin de la décennie

Ryzen AI Embedded P100 : AMD ajoute des modèles 8 à 12 cœurs avec Zen 5, RDNA 3.5 et XDNA 2

Edge AI MSI : écosystème complet et plateformes industrielles à Embedded World 2026

Ryzen AI Max+ 395 : le mini-PC modulaire de Sapphire vise le très grand modèle local

ChatGPT d’OpenAI ajoute des visualisations interactives pour apprendre les sciences

Silicon carbide 300 mm : Wolfspeed vise l’emballage AI/HPC d’ici la fin de la décennie

Ryzen AI Embedded P100 : AMD ajoute des modèles 8 à 12 cœurs avec Zen 5, RDNA 3.5 et XDNA 2

Edge AI MSI : écosystème complet et plateformes industrielles à Embedded World 2026