
Qualcomm muscle son offensive dans l’inférence IA en data center avec deux nouvelles plateformes, AI200 et AI250, pensées pour exécuter des modèles géants à coût maîtrisé et à l’échelle du rack.
AI200 et AI250 : l’inférence à l’échelle du rack, mémoire en tête
La société annonce des cartes et des racks d’accélération optimisés pour l’inférence, bâtis sur son expertise NPU. L’AI200 cible un coût total de possession réduit et des charges LLM et multimodales grâce à 768 Go de LPDDR par carte, un choix qui maximise la capacité mémoire tout en comprimant les coûts.
L’AI250, lui, inaugure une architecture mémoire « near-memory computing », avec à la clé, d’après Qualcomm, un bond générationnel d’efficacité : plus de 10 fois de bande passante mémoire effective et une consommation en baisse pour les workloads d’inférence.

Les deux racks partagent plusieurs fondamentaux d’infrastructure : refroidissement liquide direct pour l’efficacité thermique, PCIe pour le scale-up, Ethernet pour le scale-out, calcul confidentiel pour sécuriser les charges IA, et une enveloppe de 160 kW par rack.
Comme le résume Durga Malladi, SVP & GM chez Qualcomm, « nous redéfinissons l’inférence IA à l’échelle du rack ». Reste à voir si ces promesses se traduiront par des déploiements concrets chez les hyperscalers.
Logiciels, intégration et calendrier
Côté logiciel, Qualcomm met en avant une pile de niveau hyperscaler, de l’application au système, optimisée pour l’inférence et compatible avec les frameworks majeurs. Le constructeur évoque une intégration fluide des modèles, y compris un déploiement en un clic des modèles Hugging Face via sa librairie Efficient Transformers et la Qualcomm AI Inference Suite. S’ajoutent des outils, bibliothèques, API et services pour opérationnaliser des agents et applications IA.
Sur la disponibilité, l’AI200 est attendu commercialement en 2026, et l’AI250 en 2027. Qualcomm promet un rythme annuel sur sa feuille de route data center, avec un focus sur la performance d’inférence, l’efficacité énergétique et un TCO compétitif. Il faut dire que la pression du marché des modèles génératifs impose cadence et transparence.
Lire auss : Silicon Box : 100 millions d’unités prouvent que le panel-level packaging est prêt pour l’IA
Source : TechPowerUp