TPU 8i et TPU 8t : Google scinde enfin ses accélérateurs IA entre inférence et entraînement

Deux puces au lieu d’une, et un message assez clair sur l’état du marché : l’IA ne se contente plus d’un accélérateur polyvalent. Google prépare ainsi sa huitième génération de TPU avec une séparation nette entre l’entraînement massif et l’inférence à faible latence.

Présentés à Google Cloud Next, les TPU 8t et TPU 8i doivent alimenter les supercalculateurs maison du groupe, pour couvrir aussi bien l’apprentissage de modèles de pointe que les charges d’inférence à grande échelle et les usages dits agentiques. Google rappelle au passage que ses TPU servent déjà depuis des années à faire tourner ses grands modèles, Gemini compris.

Deux architectures pour des contraintes qui divergent

Le choix le plus important n’est pas un chiffre brut, mais la spécialisation. Google explique avoir anticipé il y a plusieurs années la montée de la demande en inférence de production, puis l’arrivée d’agents capables d’enchaîner raisonnement, planification, exécution et apprentissage en boucle. De là, deux puces distinctes, développées avec Google DeepMind.

Close-up de deux puces TPU sur fond de circuit imprimé flou

Le TPU 8t vise les charges d’entraînement très intensives en calcul, avec plus de débit de calcul et davantage de bande passante en scale-up. Le TPU 8i, lui, privilégie la bande passante mémoire pour les inférences les plus sensibles à la latence. Google précise que les deux puces restent polyvalentes, mais que cette spécialisation débloque des gains d’efficacité significatifs.

Le groupe inscrit aussi cette génération dans la continuité de plus de dix ans de développement TPU : formats numériques maison, refroidissement liquide, interconnexions propriétaires et co-conception entre silicium, réseau, logiciels et architectures de modèles. L’idée reste la même qu’à l’origine : optimiser l’ensemble de la pile plutôt qu’un composant isolé.

TPU 8t, la version entraînement à très grande échelle

Google présente le TPU 8t comme une machine pensée pour ramener le cycle de développement des modèles frontier de plusieurs mois à quelques semaines. Au niveau système, un superpod TPU 8t peut désormais monter à 9 600 puces et 2 pétaoctets de mémoire partagée à haute bande passante, avec une bande passante inter-puces doublée par rapport à la génération précédente.

Vue détaillée de plusieurs puces TPU sur un circuit avec refroidissement par caloducs

L’ensemble délivre jusqu’à 121 ExaFlops de calcul par superpod. Google annonce aussi un accès au stockage 10 fois plus rapide, combiné à TPUDirect pour injecter directement les données dans le TPU, ainsi qu’un nouveau réseau Virgo associé à JAX et Pathways pour viser une montée en charge quasi linéaire jusqu’à 1 million de puces dans un seul cluster logique.

La firme met également en avant le rendement réel de la machine, avec un objectif de plus de 97 % de goodput. Derrière ce terme, il s’agit du temps de calcul réellement utile, grâce à une télémétrie en temps réel sur des dizaines de milliers de puces, à la détection automatique des liens ICI défaillants, au reroutage sans interruption de tâche et à un système d’Optical Circuit Switching capable de reconfigurer le matériel sans intervention humaine.

TPU 8i, l’inférence optimisée pour les agents et les modèles MoE

Le TPU 8i cible un autre problème : réduire les temps morts et la latence quand plusieurs agents spécialisés collaborent dans des flux complexes. Pour cela, Google évoque quatre évolutions majeures, à commencer par la mémoire. Chaque puce embarque 288 Go de mémoire à haute bande passante et 384 Mo de SRAM on-chip, soit 3 fois plus que sur la génération précédente, afin de garder l’ensemble de travail actif d’un modèle directement sur la puce.

Tableau comparatif des spécifications des TPUs Ironwood 2025 et TPU 8t 2026

Le système s’appuie aussi sur des hôtes CPU Axion à architecture Arm conçus par Google. Le nombre d’hôtes physiques par serveur est doublé, avec une organisation mémoire de type NUMA pour l’isolation. Sur les modèles Mixture of Experts, la bande passante ICI grimpe à 19,2 Tb/s, tandis que la nouvelle topologie Boardfly réduit de plus de 50 % le diamètre maximal du réseau.

Google ajoute enfin un moteur d’accélération des collectives directement sur la puce, le Collectives Acceleration Engine, chargé de déporter les opérations globales et de réduire la latence on-chip jusqu’à 5 fois. Résultat annoncé : 80 % de performance par dollar en plus face à Ironwood, ce qui permettrait de servir presque deux fois plus de clients à coût identique.

Le design a d’ailleurs été explicitement calibré pour les besoins de Gemini et des modèles de raisonnement actuels : topologie Boardfly adaptée à leurs communications, capacité SRAM du TPU 8i dimensionnée pour l’empreinte du KV cache en production, et objectifs de bande passante du tissu Virgo dérivés des exigences d’entraînement à l’échelle du trillion de paramètres.

Axion, frameworks ouverts et contrainte énergétique

Pour la première fois, les deux puces s’appuient sur le même hôte Axion Arm maison. Google y voit un moyen d’optimiser non seulement l’accélérateur, mais l’ensemble de la plateforme. Les TPU 8t et 8i prennent en charge nativement JAX, MaxText, PyTorch, SGLang et vLLM, avec un accès bare metal sans surcouche de virtualisation. Google cite aussi ses contributions open source, notamment les implémentations de référence MaxText et Tunix pour le reinforcement learning.

Sur l’efficacité énergétique, Google annonce jusqu’à 2 fois plus de performance par watt que la génération Ironwood. Le groupe insiste sur une approche système, en intégrant notamment le réseau et le calcul sur la même puce pour réduire le coût énergétique des transferts de données au sein des pods. Ses centres de données auraient, au passage, gagné un facteur 6 en puissance de calcul par unité d’électricité sur les cinq dernières années.

Les deux plateformes reposent enfin sur une technologie de refroidissement liquide de quatrième génération, jugée nécessaire pour tenir des densités de performance qu’un refroidissement à air ne pourrait pas soutenir durablement.

Google indique que les TPU 8t et 8i seront disponibles de manière générale plus tard dans l’année via son offre AI Hypercomputer. Citadel Securities dit déjà avoir obtenu avec les TPU Ironwood de septième génération des charges exécutées 2 à 4 fois plus vite et à un coût inférieur de 30 %, et compte basculer vers les nouvelles architectures pour aller plus loin sur l’économie d’entraînement et l’échelle.

Ce lancement illustre surtout un basculement plus large du marché : l’inférence devient une cible d’ingénierie aussi stratégique que l’entraînement. En séparant clairement les rôles entre TPU 8t et TPU 8i, Google admet qu’à l’échelle des grands modèles et des agents, la latence mémoire, l’interconnexion et le coût par requête comptent désormais autant que les ExaFlops affichés.

Source : TechPowerUp

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x