Jalapeno : La Puce IA D’OpenAI Avec Broadcom

Prototype OpenAI Jalapeño Intelligence Processor présenté avec disque circulaire argenté et étiquette visible

Neuf mois pour mener un ASIC avancé jusqu’au tape-out, le chiffre est suffisamment rare pour attirer l’attention à lui seul. OpenAI s’offre ainsi un levier matériel interne pour réduire sa dépendance aux GPU sur l’inférence de ses modèles.

Jalapeno, un accélérateur pensé pour l’inférence

Jalapeno est le nouveau composant maison d’OpenAI, développé avec Broadcom pour accélérer l’inférence de sa pile LLM. La puce vise directement les charges qui alimentent ChatGPT, Codex, l’API OpenAI et les futurs produits IA agentiques de l’entreprise.

Sam Altman et un homme tiennent le prototype OpenAI Jalapeño Intelligence Processor dans une pièce d’hôtel

Sur le principe, l’approche rappelle les TPU de Google, avec un accélérateur conçu autour d’une stack logicielle propriétaire. La différence, à ce stade, est claire : là où les TPU servent à la fois à l’entraînement et à l’inférence, Jalapeno semble limité à l’inférence, ce qui laisse entendre que l’entraînement reste assuré par des GPU.

À mesure que les accélérateurs deviennent un sujet stratégique, les alliances de capacité se multiplient aussi côté cloud, comme le montre l’accord Google-Blackstone pour une IA cloud à grande échelle.

Un développement express avec Broadcom

OpenAI indique avoir conçu la puce et atteint l’étape de fabrication tape-out en seulement 9 mois avec Broadcom. L’entreprise présente ce délai comme le cycle de développement ASIC le plus rapide parmi les semi-conducteurs avancés.

Jalapeno ne doit d’ailleurs pas être vu comme un projet isolé. OpenAI parle d’une plateforme de calcul appelée à s’étendre sur plusieurs générations de puces, avec un premier déploiement visé vers la fin de l’année 2026.

Ce que l’on sait de l’architecture

Les détails techniques restent très limités. OpenAI n’a pour l’instant montré qu’un module multi-puces contemporain avec interposeur, intégrant un large tile logique placé au centre, entouré de huit piles de mémoire HBM3E.

Ce choix confirme en revanche l’ambition du projet. Avec 8 stacks de HBM3E et un packaging de type MCM sur interposeur, OpenAI vise manifestement des débits mémoire et une densité de calcul adaptés à l’inférence de grands modèles à grande échelle, là où le coût énergétique et la disponibilité des GPU deviennent des variables stratégiques.

Si Jalapeno arrive en production comme prévu fin 2026, OpenAI rejoindra le cercle très restreint des acteurs capables de lier étroitement modèles, logiciel système et silicium. Pour le marché, cela renforce aussi la place de Broadcom comme partenaire clé des grands projets IA custom, dans un contexte où l’inférence devient presque aussi critique que l’entraînement.

Source : TechPowerUp