
Lors de l’appel aux résultats FY2027 T1, Jensen Huang a estimé que les accélérateurs d’inférence basés sur la SRAM, de type LPX, resteront un segment de niche face aux GPU. Selon le PDG de NVIDIA, ces puces optimisées pour la latence et un débit de tokens élevé n’offrent ni la capacité ni le rendement agrégé nécessaires pour la majorité des charges modernes.
Huang précise que LPX vise des scénarios de programmation et de gestion de contexte, où la réactivité prime. Dès que l’on bascule vers des tâches agentiques plus lourdes, le manque de capacité mémoire et de parallélisme pénalise ces architectures SRAM par rapport aux GPU, dont l’écosystème logiciel et la densité de calcul dominent l’entraînement comme l’inférence à large échelle.
Le champ d’application reste restreint : LPX cible des services d’IA hautement monétisés nécessitant un très fort taux de tokens par seconde. Or, peu de fournisseurs opèrent sur ces offres premium. D’après Huang, cette catégorie représente aujourd’hui nettement moins de 20 % du marché de l’IA, avec une trajectoire possible vers 20 % à terme, sans changement de hiérarchie attendu du côté des GPU.
Positionnement produit et dynamique de marché
Le message est limpide : LPX et plus largement les accélérateurs SRAM répondent à un besoin précis — latence minimale, tokens rapides — mais cèdent le terrain sur la capacité mémoire, la compilation d’opérateurs et l’occupation soutenue, où les GPU gardent l’avantage coût/performance. Pour les opérateurs de modèles à long contexte ou multi-agents, l’équation technique et économique penche encore vers les GPU.
Ce positionnement rappelle d’autres paris matériels sur des accélérateurs spécialisés, comme l’accélérateur d’inférence FuriosaAI RNGD, pensé pour maximiser le débit en restant dans une enveloppe énergétique nettement plus maîtrisée.
Dans l’immédiat, NVIDIA consolide ainsi son argumentaire autour d’un portefeuille où les solutions SRAM restent complémentaires. La barre des 20 % esquissée par Huang fixe un plafond implicite au TAM de ces puces, tout en validant leur utilité pour des services haut de gamme à forte contrainte de latence. Côté fournisseurs, le signal oriente les investissements vers l’optimisation GPU et la mémoire à plus haute capacité, les niches SRAM servant d’accélérateurs ciblés plutôt que de socle d’infrastructure.
Dans cette logique de complémentarité entre infrastructures et couches logicielles, on peut aussi lire l’analyse de la défense par Jensen Huang de la place des éditeurs et des outils logiciels dans l’écosystème IA, qui éclaire le même arbitrage entre spécialisation et généralisation.
Source : ITHome