
NVIDIA a dévoilé le 25 avril l’adaptation de sa plateforme Blackwell aux modèles DeepSeek-V4-Pro et DeepSeek-V4-Flash, disponibles via les microservices NVIDIA NIM et déployables avec SGLang ou vLLM pour des scénarios d’inférence personnalisés. Le message est clair : prise en charge immédiate, recettes Day 0 prêtes et trajectoire d’optimisation déjà balisée côté runtime et kernels CUDA.
DeepSeek-V4-Pro affiche 1,6 billion de paramètres au total pour 49 milliards de paramètres activés, positionné sur les tâches de raisonnement avancé. La variante DeepSeek-V4-Flash se contente de 284 milliards au total et 13 milliards activés, pensée pour la vitesse et l’efficacité. Les deux modèles acceptent un contexte de 1 million de tokens et une sortie maximale annoncée à 384 k tokens, le tout sous licence MIT.

Performances et déploiement sur Blackwell
Sur un système NVIDIA GB200 NVL72, DeepSeek-V4-Pro atteint plus de 150 tokens/s/utilisateur « out of the box ». Avec les recettes Day 0 de vLLM, le déploiement sur Blackwell B300 est immédiat, tandis que les optimisations attendues via Dynamo, NVFP4 et des noyaux CUDA dédiés doivent encore pousser le débit et réduire la latence.

Côté orchestration, NIM propose un chemin de distribution et de mise en production standardisé. SGLang expose trois profils d’exécution — faible latence, équilibré et débit maximal — alors que vLLM prend en charge l’extension multinœud à plus de 100 GPU, avec support des appels d’outils et du speculative decoding pour comprimer les temps de réponse.
Fenêtre de contexte extrême et usages
La fenêtre de 1 million de tokens et les sorties jusqu’à 384 k ciblent directement l’encodage de textes massifs, la fouille documentaire et les chaînes d’outils de RAG longue portée. Sur le papier, l’association avec Blackwell répond au double enjeu capacité/mémoire et scheduling pour des charges multi-utilisateurs sans amputer le débit par utilisateur.
L’ouverture rapide de DeepSeek-V4 sur Blackwell, conjuguée à NIM et aux stacks SGLang/vLLM, renforce l’attractivité de GB200 pour les charges LLM de nouvelle génération où la fenêtre contextuelle devient un différenciateur clé. Si les optimisations NVFP4 et CUDA tiennent leurs promesses, le couple coût par token et latence p95 pourrait reculer sensiblement sur des grappes multinœuds, avec un impact direct sur la consolidation d’infrastructures et le TCO des plateformes conversationnelles et analytiques.
Source : ITHome