
Le local-first prend du galon : prise en charge élargie des architectures clés et latences en nette baisse, de quoi renforcer les applications d’IA embarquée. Côté AMD, les développeurs gagnent en couverture de modèles et en prévisibilité sur NPU et iGPU.
Ryzen AI 1.7 : architectures élargies et pipeline unifié
La version 1.7 ajoute le modèle Mixture-of-Experts GPT‑OSS et le VLM Gemma‑3 4B, exécutables sur NPU. Les MoE routent les tokens vers des experts, offrant un meilleur débit pour des capacités supérieures sans le coût d’un dense complet.
Côté multimodal, Gemma‑3 4B ouvre la voie au raisonnement image‑texte, au captioning, à la recherche visuelle légère ou aux agents multimodaux. Les développeurs peuvent comparer dense, MoE et VLM sous les mêmes contraintes matérielles.

Stable Diffusion est désormais intégré à l’installeur principal Ryzen AI. Fini les environnements Python séparés: outillage unifié pour LLM, VLM et SD, mise en place plus prévisible et itérations plus rapides pour texte‑vers‑image, image‑vers‑image ou workflows hybrides.
Contexte 16K et BF16 ~2x plus rapide sur NPU + iGPU
La plupart des LLMs supportent désormais jusqu’à 16K tokens en mode hybride iGPU + NPU. Assez pour les documents longs, les conversations étendues et des stacks RAG locaux moins tronqués et mieux ancrés.
Le pipeline BF16 gagne en réactivité avec une latence sensiblement réduite, pour un débit approximativement doublé face à RAI 1.6. Résultat: temps‑au‑premier‑token plus court et boucles agents plus fluides, y compris sur modèles pré‑entraînés et fine‑tunés.
Implications pour les devs Ryzen AI
Moins de friction d’installation, plus de choix d’architectures et une fenêtre de contexte élargie changent le rythme des prototypages locaux. En combinant VLM, MoE et SD dans un environnement unique avec des gains BF16 tangibles, la pile on‑device devient plus crédible pour des features LLM/VLM prêtes à l’embarqué.
Source : TechPowerUp



