AMD Ryzen AI Max+ : exécutez des modèles LLM jusqu’à 128 milliards de paramètres sur Windows avec LM Studio

AMD repousse les limites de l’inférence IA locale avec sa plateforme Ryzen AI Max+, notamment le AMD Ryzen AI Max+ 395, capable d’exécuter sur Windows des modèles allant jusqu’à 128 milliards de paramètres, tout en pilotant des agents MCP et des outils interconnectés sans passer par le cloud. Cette évolution est rendue possible par la combinaison d’une mémoire unifiée LPDDR5X de 128 Go, dont jusqu’à 96 Go peuvent être alloués dynamiquement à la VRAM via la technologie Variable Graphics Memory.

La mise à jour Adrenalin Edition 25.8.1 WHQL active désormais le support des modèles de taille inédite dans l’écosystème Windows, notamment via llama.cpp avec pipeline Vulkan. Et cela change la donne, autant pour les chercheurs que pour les développeurs.

Llama 4 Scout, Mistral 123B : des modèles titanesques en local

Avec cette configuration, il est possible d’exécuter localement Llama 4 Scout 109B (en version Mixture-of-Experts, avec 17B actifs), ou encore Mistral Large 123B, sans carte graphique dédiée. Grâce à la quantification Q4 K M et au support de Flash Attention + KV Cache Q8, ces modèles tournent avec 66 à 68 Go de mémoire.

Ce qui relevait du datacenter devient désormais exploitable sur une station Windows bien équipée. Pour les modèles quantifiés, on peut même descendre à moins de 20 Go pour des architectures comme Qwen3 ou Gemma 3. Les arbitrages entre précision (F16, Q8, Q6…) et empreinte mémoire sont gérables selon les besoins : génération plus fine ou exécution plus légère, à vous de choisir.

Contexte long, contexte multiple : une IA qui réfléchit plus loin

L’une des avancées majeures réside dans la gestion du contexte étendu, devenu clé pour des usages modernes (assistants multilingues, résumés de documents, dialogues complexes, etc.).

  • Les anciens plafonds à 4096 tokens sont dépassés.
  • On peut désormais aller jusqu’à 256 000 tokens avec Flash Attention et Q8 activés.
  • Un seul appel MCP avec Playwright peut générer 9 358 tokens.
  • 96 Go de VRAM permettent jusqu’à 21 appels simultanés dans un même contexte.

En clair, les IA peuvent désormais raisonner sur plusieurs tâches ou outils à la fois, tout en conservant l’historique du contexte.

MCP : l’autre révolution, c’est l’agent local

Les Model Context Protocols (MCP) sont une extension logique de cette puissance contextuelle. Ce protocole permet à des modèles locaux de piloter des applications, d’appeler des API ou d’automatiser des tâches concrètes. Et avec LM Studio, une galaxie d’outils compatibles a émergé :

  • Slack, Notion, GitHub, Obsidian, Box
  • Microsoft Playwright (navigation automatisée)
  • OpenWeather, Youtube Transcript, Amazon AWS, EDGAR, Shopify…

Chaque MCP agit comme un module interconnecté que le LLM peut appeler à la volée. Le tout se déroule en local, sans cloud, ce qui garantit confidentialité et performance.

Concrètement, qu’est-ce que ça change ?

Pour les développeurs, chercheurs, créateurs techniques, ou simplement les curieux de l’IA avancée, cela ouvre des perspectives inédites :

  • Exécuter localement des modèles de plus de 100B paramètres, sans infrastructure lourde.
  • Travailler hors ligne, dans des environnements déconnectés ou sensibles.
  • Utiliser plusieurs outils MCP simultanément, dans un cadre fluide et cohérent.
  • Choisir entre précision maximale et consommation mémoire optimisée, selon les cas d’usage.
  • Maintenir un contrôle total sur les données, les traitements et les chaînes d’action IA.

C’est la première fois que le PC personnel devient une alternative crédible à l’inférence cloud à grande échelle.

AMD vise l’autonomie IA sur poste de travail

En s’imposant comme le premier constructeur à faire tourner Llama 4 Scout 109B avec vision et MCP sous Windows, AMD transforme la vision du poste IA personnel. Certes, les machines Ryzen AI Max+ s’appuient sur de la LPDDR5X soudée (donc non extensible), mais elles sont calibrées pour ce type d’usage avancé, en cohérence avec une logique système/intégration.

Cette stratégie, bien qu’ambitieuse, semble répondre à une tendance claire : plus de calcul local, moins de dépendance aux serveurs, plus de modularité dans les outils.

Où essayer et quelles machines l’embarquent

Essai dès aujourd’hui

Téléchargez dès maintenant le driver Adrenalin Edition 25.8.1 WHQL (version preview) et installez LM Studio pour tester la compatibilité avec LLM lourds.

Systèmes embarquant Ryzen AI Max+ 395 (128 Go)

ROG Flow Z13
ASUS ROG Flow Z13
CORSAIR AI WORKSTATION 300
Corsair AI Workstation 300

Ces modèles bénéficient de la nouvelle mise à jour et sont maintenant capables de gérer des scénarios AI exigeants directement sur une machine Windows portable.

En résumé

Avec Ryzen AI Max+ 395 et son écosystème logiciel en pleine expansion, AMD redéfinit le rôle du PC dans l’inférence IA. Ce n’est plus seulement une machine de travail ou de jeu : c’est désormais un hub d’intelligence locale, capable de gérer des modèles massifs, des agents outillés, et des flux complexes, sans passer par un serveur distant. La course à l’IA locale est lancée et AMD semble bien décidé à occuper la ligne de front.

Source
Blogs AMD

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x