ROCm 7.2 d’AMD accélère l’IA : FP8/FP4, GEMM optimisé et communication GDA

ROCm 7.2 frappe là où ça compte : performances, efficacité et fiabilité pour l’IA moderne. Dès cette version, ROCm 7.2 pousse les GPU AMD Instinct plus loin avec du FP8/FP4, un tuning GEMM musclé et une communication GPU‑GPU allégée du CPU.

ROCm 7.2 : perfs GEMM, nouvelles données FP8/FP4 et réseau plus intelligent

hipBLASLt gagne des fonctions ciblées pour les charges GEMM : capacités de tuning élargies, « restauration depuis logs » pour rejouer une configuration performante, swizzle A/B pour optimiser les accès mémoire, ainsi que des rapports et benchmarks plus lisibles. AMD évoque des gains mesurables sur les AMD Instinct MI200 et MI300 par rapport à ROCm 7.1.

Illustrations sphères lumineuses sur surface réfléchissante, thème technologique futuriste.

Tuning GEMM généralisé sur FP8, BF16 et FP16, avec un focus sur des modèles concrets comme GLM‑4.6 et Llama 2. Sélection de kernels, tuilage, layouts mémoire et mouvements de données ont été ajustés pour coller aux formes et patrons d’exécution, avec à la clé plus de débit et moins de latence en entraînement et inférence.

rocMLIR et MIGraphX activent de nouveaux types bas‑précision FP8 et FP4. Fondation côté compilation, abaissement et exécution, pensée pour les workloads d’IA émergents et l’introduction des produits MI350. Objectif : maximiser performance et efficience, tout en préparant les architectures à venir.

Communication de bout en bout : rocSHMEM prend désormais en charge un backend GPUDirect Async (GDA) intra‑ et inter‑nœuds. Les GPU échangent directement, y compris via RNIC en RDMA, avec des kernels initiés côté device, retirant le CPU du chemin critique afin de réduire la latence. Côté RCCL, la pile devient topologie‑aware et exploite nativement les réseaux à 4 NIC : répartition des collectives sur plusieurs interfaces, alignement des rails pour limiter la contention et mieux saturer la bande passante. Des fonctions de NCCL 2.28 ont été rétro‑portées, apportant des collectives plus avancées et une montée en charge plus stable. AMD résume l’approche ainsi : « des collectives plus rapides et plus stables ».

ThinLTO arrive dans l’infrastructure de compilation pour GPU AMD

Le support ThinLTO permet des optimisations inter‑fichiers sans les temps de build d’un LTO complet. Inlining, spécialisation, élimination de code mort à l’échelle globale, avec une vitesse proche d’une compilation locale. Intérêt direct pour PyTorch, Triton, XLA et les piles de kernels maison.

Sécurité, virtualisation et gestion de puissance sur MI350X/MI355X

Logo AMD ROCm fond noir avec motifs colorés abstraits.

SR‑IOV et RAS activés sur MI350X et MI355X : évitement des bad pages pour maintenir la disponibilité GPU en cas de fautes mémoire, durcissement sécurité avec effacement de la mémoire volatile et protections contre le fuzzing MMIO, et parité fonctionnelle face aux plateformes concurrentes. Des capacités essentielles pour les déploiements cloud et entreprise multi‑locataires, avec meilleure isolation et fiabilité.

Capture d'écran notes de publication ROCm 7.2, interface documentation.

Optimisations modèles IA : sur MI355X et MI350X, Llama 3.1 405B reçoit des optimisations au niveau kernel et bande passante mémoire ; Llama 3 70B et Llama 2 70B sont également ajustés pour tirer parti de l’architecture. Sur la série MI300X, AMD a soigné les optimisations GEMM pour GLM‑4.6 et amélioré DeepEP pour une exécution plus rapide et une meilleure utilisation GPU.

Node Power Management : la gestion de puissance par nœud ajuste dynamiquement les fréquences GPU pour rester dans une enveloppe énergétique définie, via télémétrie embarquée et algorithmes de contrôle. Vérifiable dans AMD SMI. Pris en charge sur MI355X et MI350X, en bare‑metal et KVM SR‑IOV, avec PLDM bundle 01.25.17.07.

Source : TechPowerUp

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)

Articles similaires

guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x