Lexar AI Storage Core veut faire tourner des LLM sur SSD avec seulement 32 Go de RAM

La course à l’IA locale se heurte désormais à une limite très concrète : la DRAM coûte cher, et elle manque vite dès que la taille des modèles grimpe. Lexar pense avoir trouvé une porte de sortie en déportant une partie de la charge vers le SSD, avec des gains assez nets sur la configuration nécessaire.

Lexar AI Storage Core veut remplacer une partie de la DRAM

Lexar AI-Grade Gen 5 SSD et boîtier de présentation, vue produit avec branding Lexar AI

Interrogé par TechPowerUp, le CTO de Lexar, Daniel Guo, explique que la DRAM coûte environ six fois plus cher à fabriquer que la NAND Flash. L’idée de la société est donc de s’appuyer sur des SSD orientés IA pour réduire la quantité de mémoire vive nécessaire à l’exécution locale des grands modèles de langage.

Le principe derrière le Lexar AI Storage Core consiste à décharger une partie des LLM sur le SSD afin de faire entrer des modèles plus gros dans une machine grand public. Lexar avance au passage une baisse de l’empreinte mémoire d’au moins 40 %.

Un 122B lancé en local avec 32 Go de mémoire

D’après les tests internes de Lexar, le modèle Qwen 3.5 122B a pu être exécuté sur un PC local. Classiquement, il faudrait une machine à environ 4 500 dollars, soit autour de 4 150 euros à titre indicatif, avec un CPU correct et 128 Go de DRAM pour faire tourner ce type de modèle.

Lexar AI-Grade Gen 5 Storage Stick sur support, avec étiquette produit et module compact

Avec les optimisations matérielles et logicielles de sa suite IA couplée au SSD AI Storage Core, Lexar affirme ramener le besoin à 32 Go de DRAM. Sur cette base, l’exécution d’un modèle de 35 milliards de paramètres atteindrait 15,6 tokens par seconde, contre 5,2 tokens par seconde avec des frameworks traditionnels.

Quand on tente de charger le modèle 122B sur 32 Go de DRAM via un Llama.cpp classique, l’application échoue et plante. Avec l’offloading sur SSD de Lexar, le modèle démarre et produit environ 4,4 tokens par seconde.

Le gain existe, mais la latence reste le juge de paix

Sur une configuration plus solide avec 64 Go de DRAM, le 122B avec une fenêtre de contexte plus large ne devient réellement exploitable qu’avec l’offloading sur SSD. Aux environs de 4 000 tokens de contexte, les configurations classiques et la pile logicielle de Lexar tournent à une vitesse légèrement supérieure.

Lexar AI-Grade Gen 5 Storage Stick et panneau de démonstration, vue rapprochée du prototype

En revanche, sur de gros contextes, notamment à 256K tokens, seule la suite de Lexar parvient à lancer le modèle et à tenir environ 19,3 tokens par seconde. La société reconnaît toutefois que tout n’est pas transposable sur SSD et que la latence grimpe fortement avec la taille des modèles.

Le temps avant l’apparition du premier token, appelé ici TTFM, est d’environ 2 secondes avec une fenêtre de contexte de 2K. À 4K, ce délai passe entre 6 et 8 secondes. Techniquement, il serait même possible de déporter des modèles d’environ 400 milliards de paramètres, mais avec un débit de tokens et un TTFM jugés très lents.

Un concept M.2 pensé pour l’IA locale

Lexar avait déjà montré au Computex 2026 un concept destiné aux mini-PC et aux desktops avec un slot M.2 prévu pour des insertions multiples. Le SSD M.2 est habillé d’une coque métallique partielle, puis inséré dans une baie frontale de 25 mm de large directement reliée à un port M.2 connecté au processeur ou au chipset.

L’objectif est de limiter les surcouches et de faciliter le remplacement à chaud d’un SSD servant à héberger les modèles IA sur NAND Flash. Le dispositif existerait en PCIe Gen 5 et en Gen 4, avec un avantage de bande passante pour la version Gen 5. Le SSD repose enfin sur un contrôleur DRAM-less maison, décrit par Lexar comme un SPU, pour garder la main sur les mouvements de données.

Diapositive Lexar présentant une solution AI storage pour exécuter Qwen 3.5-122B sur PC

Sur le fond, l’idée est cohérente avec l’évolution actuelle du PC IA : tant que la DRAM restera le vrai goulet d’étranglement économique, le SSD deviendra un étage de compromis entre capacité, coût et performances. Reste à voir si ce compromis sera acceptable hors démonstration, car entre 4,4 tokens par seconde sur un 122B et 6 à 8 secondes avant le premier token à 4K de contexte, l’expérience dépendra surtout de la tolérance de l’utilisateur à la latence.

Source : TechPowerUp

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x