NVIDIA Blackwell: DeepSeek-V4 Prêt Day 0, 1M Tokens

Illustration conceptuelle de puces de données et réseau neuronal sur fond bleu.

NVIDIA a dévoilé le 25 avril l’adaptation de sa plateforme Blackwell aux modèles DeepSeek-V4-Pro et DeepSeek-V4-Flash, disponibles via les microservices NVIDIA NIM et déployables avec SGLang ou vLLM pour des scénarios d’inférence personnalisés. Le message est clair : prise en charge immédiate, recettes Day 0 prêtes et trajectoire d’optimisation déjà balisée côté runtime et kernels CUDA.

DeepSeek-V4-Pro affiche 1,6 billion de paramètres au total pour 49 milliards de paramètres activés, positionné sur les tâches de raisonnement avancé. La variante DeepSeek-V4-Flash se contente de 284 milliards au total et 13 milliards activés, pensée pour la vitesse et l’efficacité. Les deux modèles acceptent un contexte de 1 million de tokens et une sortie maximale annoncée à 384 k tokens, le tout sous licence MIT.

Diagramme de l'attention hybride avec cache KV et matrices d'attention compressées.

Performances et déploiement sur Blackwell

Sur un système NVIDIA GB200 NVL72, DeepSeek-V4-Pro atteint plus de 150 tokens/s/utilisateur « out of the box ». Avec les recettes Day 0 de vLLM, le déploiement sur Blackwell B300 est immédiat, tandis que les optimisations attendues via Dynamo, NVFP4 et des noyaux CUDA dédiés doivent encore pousser le débit et réduire la latence.

Graphique performance NVIDIA Blackwell Ultra DeepSeek-V4-Pro, échelle interactivité et débit.

Côté orchestration, NIM propose un chemin de distribution et de mise en production standardisé. SGLang expose trois profils d’exécution — faible latence, équilibré et débit maximal — alors que vLLM prend en charge l’extension multinœud à plus de 100 GPU, avec support des appels d’outils et du speculative decoding pour comprimer les temps de réponse.

Fenêtre de contexte extrême et usages

La fenêtre de 1 million de tokens et les sorties jusqu’à 384 k ciblent directement l’encodage de textes massifs, la fouille documentaire et les chaînes d’outils de RAG longue portée. Sur le papier, l’association avec Blackwell répond au double enjeu capacité/mémoire et scheduling pour des charges multi-utilisateurs sans amputer le débit par utilisateur.

L’ouverture rapide de DeepSeek-V4 sur Blackwell, conjuguée à NIM et aux stacks SGLang/vLLM, renforce l’attractivité de GB200 pour les charges LLM de nouvelle génération où la fenêtre contextuelle devient un différenciateur clé. Si les optimisations NVFP4 et CUDA tiennent leurs promesses, le couple coût par token et latence p95 pourrait reculer sensiblement sur des grappes multinœuds, avec un impact direct sur la consolidation d’infrastructures et le TCO des plateformes conversationnelles et analytiques.

Source : ITHome

NVIDIA Blackwell prend en charge DeepSeek-V4 dès Day 0 avec contexte 1M tokens

Performances et déploiement sur Blackwell

Fenêtre de contexte extrême et usages

Articles similaires

Wael.K

Lire le suivant

IA médicale OpenAI : un modèle surpasse des cliniciens aux urgences

Google prépare des publicités dans Gemini, avec un déploiement mobile testé et cadré

Ryzen AI Halo mini-PC : lancement visé en juin pour la boîte IA d’AMD sous Strix Halo

OpenAI Codex iPhone : de l’agent de dev à l’app de productivité mobile

Meta entraîne ses agents IA avec les clics salariés, sans opt-out possible

IA médicale OpenAI : un modèle surpasse des cliniciens aux urgences

Google prépare des publicités dans Gemini, avec un déploiement mobile testé et cadré

Ryzen AI Halo mini-PC : lancement visé en juin pour la boîte IA d’AMD sous Strix Halo

OpenAI Codex iPhone : de l’agent de dev à l’app de productivité mobile

Meta entraîne ses agents IA avec les clics salariés, sans opt-out possible