
Un 120B Mixture-of-Experts taillé pour les agents IA arrive avec un design hybride et des chiffres de throughput agressifs. Les gamers n’y gagneront rien, mais les workloads massifs, oui.
Nemotron 3 Super, 120B MoE et design hybride
NVIDIA dévoile Nemotron 3 Super, un modèle Mixture-of-Experts de 120 milliards de paramètres pensé pour les workloads agentiques. Le design hybride Mamba-Transformer active 12 milliards de paramètres à l’inférence, avec un objectif de coût de service inférieur à un modèle dense équivalent.

Première du genre dans la série, cette itération combine LatentMoE, des couches Multi-Token Prediction et un pré-entraînement en NVFP4. NVIDIA annonce jusqu’à x5 de throughput et jusqu’à x2 de précision par rapport au précédent Nemotron Super, plus un contexte étendu jusqu’à 1 million de tokens.

Checkpoints, formats et datasets
La publication inclut des checkpoints base, post-trainés et quantifiés en NVFP4, FP8 et BF16, avec jeux de données et recettes de modèles. Le programme Nemotron 3 revendique plus de 10 billions de tokens pour le pré- et post-training, ainsi que des environnements de RL dédiés au post-training.
Le positionnement vise des agents collaboratifs et des charges volumétriques : développement logiciel, analyse de longs documents, tool-calling. L’ensemble cadre avec le « tier Super » introduit l’an dernier pour la famille Nemotron 3.
Disponibilité large et NIM pour déploiement
Accès immédiat via build.nvidia.com, Hugging Face, OpenRouter et Perplexity. Côté cloud et inference : Google Cloud Vertex AI, Oracle Cloud Infrastructure, CoreWeave, Together AI, Baseten, Cloudflare, DeepInfra, Fireworks AI et Modal. Le modèle est aussi packagé en microservice NVIDIA NIM pour déploiements on‑prem et cloud.
Sur le plan industriel, l’empilement LatentMoE + MTP + NVFP4 avec Mamba-Transformer donne à NVIDIA un levier clair sur le coût par requête et la latence dans les scénarios multi-agents. Si les promesses de x5 en throughput se vérifient en production, l’attractivité face aux modèles denses de taille similaire pourrait accélérer le basculement des plateformes vers des architectures MoE orientées service.
Source : VideoCardz