
Lors de la conférence Microsoft Build d’aujourd’hui, NVIDIA a annoncé une série de nouvelles optimisations de performances IA disponibles sur la plateforme RTX, qui comprend les GPU GeForce RTX, les stations de travail et les PC.
Les nouvelles optimisations ciblent spécifiquement une gamme de modèles de langage de grande taille (LLM) qui alimentent les dernières expériences d’IA générative. Grâce aux derniers pilotes R555, les GPU RTX et les plateformes PC AI de NVIDIA offrent désormais des performances IA jusqu’à trois fois plus rapides avec ONNX Runtime (ORT) et DirectML. Ces deux outils sont utilisés pour exécuter des modèles d’IA localement sur des PC Windows.
De plus, WebNN a également été accéléré avec RTX via DirectML. Il s’agit d’une interface de programmation d’application pour les développeurs web afin de déployer de nouveaux modèles d’IA. Microsoft collabore avec NVIDIA pour accélérer davantage les performances des GPU RTX tout en ajoutant la prise en charge de DirectML sur PyTorch. Voici une liste complète des capacités offertes par les nouveaux pilotes R555 pour les GPU GeForce RTX et les PC RTX :
- Prise en charge de la métacommande DQ-GEMM pour gérer la quantification INT4 uniquement pour les LLM
- Nouvelles méthodes de normalisation RMSNorm pour les modèles Llama 2, Llama 3, Mistral et Phi-3
- Mécanismes d’attention par groupe et multi-requêtes, et attention à fenêtre glissante pour prendre en charge Mistral
- Mises à jour KV en place pour améliorer les performances d’attention
- Prise en charge du GEMM pour des tenseurs non multiples de 8 pour améliorer les performances de la phase de contexte

Améliorations des performances IA atteignent jusqu’à 3x
Dans les benchmarks de performance de l’ORT, une extension d’IA générative publiée par Microsoft, NVIDIA montre des gains sur toute la ligne dans les types de données INT4 et FP16. Les améliorations de performance atteignent jusqu’à 3x grâce aux techniques d’optimisation ajoutées dans ces extensions pour les LLM tels que Phi-3, Llama 3, Gemma et Mistral.
Outre ces améliorations, NVIDIA a été à l’avant-garde de l’espace des PC AI grand public avec sa puissante suite TensorRT et TensorRT-LLM. La société propose également une gamme diversifiée de solutions alimentées par son matériel AI intégré dans ses GPU, tels que les cœurs Tensor.
Ces solutions incluent la technologie révolutionnaire DLSS Super Resolution, NVIDIA ACE, RTX Remix, Omniverse, Broadcast, RTX Video et plusieurs autres technologies. Les GPU de NVIDIA offrent jusqu’à 1300 TOPS de calcul AI, bien au-delà des puces les plus rapides à sortir cette année qui ne devraient atteindre que 100 TOPS. De plus, ces PC seront équipés des derniers GPU RTX de NVIDIA, alimentant davantage la plateforme PC AI RTX et poussant le segment AI grand public encore plus loin.
Avis PH
L’annonce de NVIDIA marque un autre pas en avant significatif dans l’évolution des performances des GPU dans le domaine de l’IA. En augmentant les performances de l’IA par trois avec les derniers pilotes, NVIDIA renforce sa position de leader sur le marché des technologies d’IA. Cette amélioration impressionnante n’est pas seulement une avancée technologique, mais elle a également des implications majeures pour les développeurs et les utilisateurs finaux, en permettant des expériences d’IA plus rapides et plus efficaces. La collaboration continue avec Microsoft pour intégrer des optimisations supplémentaires montre l’engagement de NVIDIA à repousser les limites de ce qui est possible avec l’IA sur les plateformes PC.