Nemotron 3 Nano : modèle 30B open‑weight et fenêtre de contexte 1M tokens

Nemotron 3 Nano frappe fort : NVIDIA annonce un modèle open‑weight de 30B avec une fenêtre de contexte native d’un million de tokens. Destiné aux flux multi‑agents et aux outils, Nemotron 3 Nano mise sur un débit de tokens élevé et une architecture MoE hybride Mamba‑Transformer.

Nemotron 3 Nano : 30B au total, 1M de contexte, MoE hybride

NVIDIA présente un modèle à experts mixtes où 30 milliards de paramètres totaux côtoient environ 3 milliards actifs par token, tandis que la fiche Hugging Face précise 31,6B au total et près de 3,6B actifs. Le routeur activerait 6 experts sur 128 à chaque passe, d’après Hugging Face, avec des cibles de déploiement annoncées sur DGX Spark, H100 et B200.

Vue du Nemotron 3 Nano modèle 30B en mise en avant, boîtier compact illustrant la fenêtre de contexte 1M tokens et l’architec

Côté performances, Hugging Face revendique jusqu’à 4 fois plus rapide en inférence que Nemotron Nano 2, et jusqu’à 3,3 fois plus de throughput que d’autres modèles de taille similaire. Un exemple sur un seul GPU H200, en configuration entrée 8K et sortie 16K, crédite Nano d’un débit 3,3 fois supérieur à Qwen3‑30B et 2,2 fois supérieur à GPT‑OSS‑20B. NVIDIA cite aussi Artificial Analysis : Nano obtiendrait 52 à l’Intelligence Index v3.0 parmi les modèles comparables.

nano 3 comparison

La fenêtre de contexte constitue l’autre indicateur clé : 1M de tokens. La note Hugging Face décrit une extension long contexte via un entraînement continu à 512K de longueur de séquence, mélangé à des séquences plus courtes pour préserver les performances sur benchmarks court contexte. NVIDIA met en avant la prise en charge de vastes bases de code, de documents longs et de sessions d’agents prolongées sans fractionnement lourd : « support pour de longs documents et sessions agents sans chunking massif », résume la société.

Vue du Nemotron 3 Nano, modèle 30B open‑weight affichant architecture et mention fenêtre de contexte 1M tokens sur écran

Outils, cibles GPU et feuille de route Nemotron 3

Pour le déploiement, NVIDIA fournit des cookbooks pour vLLM, SGLang et TensorRT‑LLM, et mentionne une exécution sur GeForce RTX via llama.cpp et LM Studio. La feuille de route annonce Nemotron 3 Super et Ultra au premier semestre 2026, avec au programme latent MoE, multi‑token prediction et entraînement NVFP4. En contexte, la famille Nemotron‑3 8B (2023) visait surtout le chat et la FAQ en entreprise via NeMo et des catalogues hébergés.

Verdict

Avec Nemotron 3 Nano, NVIDIA ne se contente pas de publier un modèle open-weight de plus. Le constructeur pose un jalon clair dans sa stratégie IA : proposer des modèles pensés dès l’origine pour les flux multi-agents, les outils et les contextes extrêmement longs, tout en les intégrant étroitement à son écosystème matériel et logiciel. Le million de tokens natif, l’architecture MoE hybride et les optimisations d’inférence ciblées renforcent cette approche verticale, où le modèle devient un prolongement naturel de la plateforme NVIDIA.

En face, AMD joue une partition différente. Le fondeur mise avant tout sur son matériel Instinct et sur un écosystème ouvert capable de faire tourner les meilleurs modèles du moment, sans chercher à imposer une famille de modèles maison équivalente. Cette opposition de philosophies dessine deux visions du marché : NVIDIA avance avec des solutions clés en main, tandis qu’AMD privilégie la flexibilité et l’interopérabilité.

Reste à voir si cette intégration poussée des modèles par NVIDIA deviendra un standard pour les usages agents et long contexte, ou si l’écosystème open source, soutenu par des plateformes comme celles d’AMD, saura combler cet écart sans dépendre d’un acteur unique. Les prochaines déclinaisons Nemotron 3 Super et Ultra, attendues en 2026, devraient rapidement apporter des éléments de réponse.

Source : blogs.nvidia.fr

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x