AMD Instinct MI355X: perfs d’inférence simples et distribuées sur DeepSeek-R1

AMD Instinct MI355X s’invite dans l’inférence moderne avec un angle clair : accélérer les modèles de raisonnement et MoE tout en restant ouvert et reproductible.

AMD Instinct MI355X : ATOM, kernels fusionnés et montée en charge

Illustration conceptuelle de circuits intégrés illuminés dans un environnement urbain

Face à l’essor des charges GenAI et LLM (agents, outils multi-étapes, RAG), AMD mise sur trois briques resserrées : des kernels fortement optimisés pour les primitives LLM (MLA attention, experts MoE clairsemés, GEMM à l’échelle bloc) adaptés aux GPU Instinct, un moteur d’inférence léger baptisé ATOM pour l’ordonnancement, le batching et la gestion du KV-cache, et un socle distribué taillé pour le dispatch MoE, l’agrégation d’experts et le trafic KV inter-nœuds. Le moteur ATOM est open source ici : https://github.com/ROCm/ATOM/.

Sur DeepSeek-R1, modèle open source axé raisonnement combinant attention MLA et MoE sparse, AMD indique des gains nets en nœud unique et en distribué. D’après la société, « ATOM fournit la voie la plus directe vers les performances de pointe sur Instinct MI355X » pour ces architectures dominées par le MoE.

Single-node : concurrence 4 à 64, séquences 1K/1K, 8K/1K et 1K/8K

GPU AMD avec circuit intégré visible et composants électroniques détaillés

Selon AMD, le MI355X sous ATOM tient la cadence face à des systèmes NVIDIA Blackwell B200 utilisant des frameworks existants, avec un avantage plus marqué aux concurrences élevées (32 et 64), cruciales pour réduire le coût par token. Les optimisations de bas niveau (exécution MoE fusionnée, fusion de l’attention MLA, réduction des mouvements mémoire sur le pipeline) soutiennent le débit sur plusieurs profils : interactif 1K/1K, orienté débit 8K/1K et génération longue 1K/8K. Les figures communiquées par AMD couvrent R1-FP8 ISL/OSL pour ces trois configurations de séquence, et des concurrences de 4 à 64.

En parallèle des frameworks vLLM et SGLang, ATOM vise l’exploitation maximale du GPU pour ces modèles à experts clairsemés, avec un pilotage local du scheduling et du KV-cache par l’utilisateur.

Multi-nœuds : expert parallelism, agrégation efficace et trafic KV maîtrisé

En distribué, AMD met en avant une bonne montée en charge sur les charges MoE grâce à un dispatch optimisé des experts, une agrégation efficace et une gestion soignée du KV entre nœuds. Dans un scénario sensible à la latence comme le 1K/1K ISL/OSL, une configuration 3 nœuds 1P2D, EP8 sur MI355X délivrerait, d’après AMD, un débit par GPU supérieur à NVL72 avec Dynamo tout en préservant un niveau d’interactivité comparable, utile pour les applications temps réel côté utilisateur.

Le socle distribué accepte des stratégies avancées : expert parallelism, prefill/decode disaggregation, et des optimisations pour le long contexte. AMD annonce poursuivre le travail sur l’exploration d’espaces de conception pour des configurations à experts plus larges, de nouvelles fusions d’opérateurs MoE et des améliorations d’inférence long-contexte.

Toutes les optimisations évoquées seraient upstreamées dans l’open source. Les utilisateurs peuvent reproduire et étendre les résultats, puis déployer ATOM en moteur autonome ou comme backend pour vLLM et SGLang. Note : l’analyse de performances est conduite par AMD au 18 décembre 2025 et fournie à titre informatif uniquement.

Source : TechPowerUp

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x