
La course à l’IA locale se heurte désormais à une limite très concrète : la DRAM coûte cher, et elle manque vite dès que la taille des modèles grimpe. Lexar pense avoir trouvé une porte de sortie en déportant une partie de la charge vers le SSD, avec des gains assez nets sur la configuration nécessaire.
Lexar AI Storage Core veut remplacer une partie de la DRAM

Interrogé par TechPowerUp, le CTO de Lexar, Daniel Guo, explique que la DRAM coûte environ six fois plus cher à fabriquer que la NAND Flash. L’idée de la société est donc de s’appuyer sur des SSD orientés IA pour réduire la quantité de mémoire vive nécessaire à l’exécution locale des grands modèles de langage.
Dans ce contexte, la stratégie de Lexar rappelle à quel point un SSD NVMe grand public peut déjà servir de base à des usages bien plus ambitieux que le simple stockage de fichiers, surtout quand l’enjeu n’est plus seulement la vitesse brute mais la capacité à absorber une partie de la charge mémoire d’un système IA.
Le principe derrière le Lexar AI Storage Core consiste à décharger une partie des LLM sur le SSD afin de faire entrer des modèles plus gros dans une machine grand public. Lexar avance au passage une baisse de l’empreinte mémoire d’au moins 40 %.
Un 122B lancé en local avec 32 Go de mémoire
D’après les tests internes de Lexar, le modèle Qwen 3.5 122B a pu être exécuté sur un PC local. Classiquement, il faudrait une machine à environ 4 500 dollars, soit autour de 4 150 euros à titre indicatif, avec un CPU correct et 128 Go de DRAM pour faire tourner ce type de modèle.

Avec les optimisations matérielles et logicielles de sa suite IA couplée au SSD AI Storage Core, Lexar affirme ramener le besoin à 32 Go de DRAM. Sur cette base, l’exécution d’un modèle de 35 milliards de paramètres atteindrait 15,6 tokens par seconde, contre 5,2 tokens par seconde avec des frameworks traditionnels.
Quand on tente de charger le modèle 122B sur 32 Go de DRAM via un Llama.cpp classique, l’application échoue et plante. Avec l’offloading sur SSD de Lexar, le modèle démarre et produit environ 4,4 tokens par seconde.
Le gain existe, mais la latence reste le juge de paix
Sur une configuration plus solide avec 64 Go de DRAM, le 122B avec une fenêtre de contexte plus large ne devient réellement exploitable qu’avec l’offloading sur SSD. Aux environs de 4 000 tokens de contexte, les configurations classiques et la pile logicielle de Lexar tournent à une vitesse légèrement supérieure.

En revanche, sur de gros contextes, notamment à 256K tokens, seule la suite de Lexar parvient à lancer le modèle et à tenir environ 19,3 tokens par seconde. La société reconnaît toutefois que tout n’est pas transposable sur SSD et que la latence grimpe fortement avec la taille des modèles.
Le temps avant l’apparition du premier token, appelé ici TTFM, est d’environ 2 secondes avec une fenêtre de contexte de 2K. À 4K, ce délai passe entre 6 et 8 secondes. Techniquement, il serait même possible de déporter des modèles d’environ 400 milliards de paramètres, mais avec un débit de tokens et un TTFM jugés très lents.
Un concept M.2 pensé pour l’IA locale
Lexar avait déjà montré au Computex 2026 un concept destiné aux mini-PC et aux desktops avec un slot M.2 prévu pour des insertions multiples. Le SSD M.2 est habillé d’une coque métallique partielle, puis inséré dans une baie frontale de 25 mm de large directement reliée à un port M.2 connecté au processeur ou au chipset.
L’objectif est de limiter les surcouches et de faciliter le remplacement à chaud d’un SSD servant à héberger les modèles IA sur NAND Flash. Le dispositif existerait en PCIe Gen 5 et en Gen 4, avec un avantage de bande passante pour la version Gen 5. Le SSD repose enfin sur un contrôleur DRAM-less maison, décrit par Lexar comme un SPU, pour garder la main sur les mouvements de données.

Sur le fond, l’idée est cohérente avec l’évolution actuelle du PC IA : tant que la DRAM restera le vrai goulet d’étranglement économique, le SSD deviendra un étage de compromis entre capacité, coût et performances. Reste à voir si ce compromis sera acceptable hors démonstration, car entre 4,4 tokens par seconde sur un 122B et 6 à 8 secondes avant le premier token à 4K de contexte, l’expérience dépendra surtout de la tolérance de l’utilisateur à la latence.
Source : TechPowerUp