NVIDIA Blackwell prend en charge DeepSeek-V4 dès Day 0 avec contexte 1M tokens

NVIDIA a dévoilé le 25 avril l’adaptation de sa plateforme Blackwell aux modèles DeepSeek-V4-Pro et DeepSeek-V4-Flash, disponibles via les microservices NVIDIA NIM et déployables avec SGLang ou vLLM pour des scénarios d’inférence personnalisés. Le message est clair : prise en charge immédiate, recettes Day 0 prêtes et trajectoire d’optimisation déjà balisée côté runtime et kernels CUDA.

DeepSeek-V4-Pro affiche 1,6 billion de paramètres au total pour 49 milliards de paramètres activés, positionné sur les tâches de raisonnement avancé. La variante DeepSeek-V4-Flash se contente de 284 milliards au total et 13 milliards activés, pensée pour la vitesse et l’efficacité. Les deux modèles acceptent un contexte de 1 million de tokens et une sortie maximale annoncée à 384 k tokens, le tout sous licence MIT.

Diagramme de l'attention hybride avec cache KV et matrices d'attention compressées.

Performances et déploiement sur Blackwell

Sur un système NVIDIA GB200 NVL72, DeepSeek-V4-Pro atteint plus de 150 tokens/s/utilisateur « out of the box ». Avec les recettes Day 0 de vLLM, le déploiement sur Blackwell B300 est immédiat, tandis que les optimisations attendues via Dynamo, NVFP4 et des noyaux CUDA dédiés doivent encore pousser le débit et réduire la latence.

Graphique performance NVIDIA Blackwell Ultra DeepSeek-V4-Pro, échelle interactivité et débit.

Côté orchestration, NIM propose un chemin de distribution et de mise en production standardisé. SGLang expose trois profils d’exécution — faible latence, équilibré et débit maximal — alors que vLLM prend en charge l’extension multinœud à plus de 100 GPU, avec support des appels d’outils et du speculative decoding pour comprimer les temps de réponse.

Fenêtre de contexte extrême et usages

La fenêtre de 1 million de tokens et les sorties jusqu’à 384 k ciblent directement l’encodage de textes massifs, la fouille documentaire et les chaînes d’outils de RAG longue portée. Sur le papier, l’association avec Blackwell répond au double enjeu capacité/mémoire et scheduling pour des charges multi-utilisateurs sans amputer le débit par utilisateur.

L’ouverture rapide de DeepSeek-V4 sur Blackwell, conjuguée à NIM et aux stacks SGLang/vLLM, renforce l’attractivité de GB200 pour les charges LLM de nouvelle génération où la fenêtre contextuelle devient un différenciateur clé. Si les optimisations NVFP4 et CUDA tiennent leurs promesses, le couple coût par token et latence p95 pourrait reculer sensiblement sur des grappes multinœuds, avec un impact direct sur la consolidation d’infrastructures et le TCO des plateformes conversationnelles et analytiques.

Source : ITHome

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Vous aimez PauseHardware ?
Ajoutez-nous à vos sources favorites sur Google pour voir apparaître nos contenus directement dans votre fil d’actualité.
⭐ Ajouter Non merci
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x