GLM-4.7-Flash : 30B, 3B Activés, SOTA Open Source

Zhipu AI a dévoilé le 20 janvier GLM-4.7-Flash, un modèle « mixed thinking » open source de 30 milliards de paramètres, avec 3 milliards de paramètres activés. Positionné comme un successeur direct de GLM-4.5-Flash, il vise un déploiement allégé sans sacrifier les performances, avec mise à disposition immédiate et appels gratuits via la plateforme BigModel.cn.

Graphiques comparatifs des performances de plusieurs modèles LLM, incluant GLM-4.7-Flash

Sur des benchmarks orientés raisonnement et programmation comme SWE-bench Verified et τ²-Bench, GLM-4.7-Flash revendique de meilleurs scores que gpt-oss-20b et Qwen3-30B-A3B-Thinking-2507, signant un SOTA open source dans sa classe de taille. En interne, Zhipu met en avant des gains nets sur des tâches front et back-end, tout en recommandant des usages génériques en chinois, traduction, longs contextes et jeu de rôle.

GLM-4.7-Flash remplace dès aujourd’hui GLM-4.5-Flash sur BigModel.cn. L’ancienne version restera accessible jusqu’au 30 janvier 2026 ; passé cette date, les requêtes seront automatiquement routées vers GLM-4.7-Flash. Les dépôts open source sont disponibles sur Hugging Face (zai-org/GLM-4.7-Flash) et ModelScope (ZhipuAI/GLM-4.7-Flash).

Ce qui change avec GLM-4.7-Flash

Le choix d’une architecture à 30B avec seulement 3B activés cible clairement l’inférence rapide et les coûts contenus, tout en restant compétitif sur des tâches complexes. Pour les intégrateurs, le passage automatique depuis GLM-4.5-Flash simplifie la transition, mais impose de valider en amont les comportements sur chaînes d’outils et prompts existants afin d’éviter les régressions silencieuses.

Au-delà de la course au SOTA, l’intérêt est pragmatique: un modèle pensée-rapide équilibré, gratuit à l’appel, open source, et adossé à un support industriel. Pour les équipes produisant du code ou des contenus en chinois avec des contextes longs, l’équation performance/latence/coût mérite un A/B test face aux 20–30B concurrents déjà en place.

Source : ITHome

GLM-4.7-Flash : modèle mixed thinking 30B, 3B activés, SOTA open source

Ce qui change avec GLM-4.7-Flash

Articles similaires

Wael.K

Lire le suivant

Silicon carbide 300 mm : Wolfspeed vise l’emballage AI/HPC d’ici la fin de la décennie

Ryzen AI Embedded P100 : AMD ajoute des modèles 8 à 12 cœurs avec Zen 5, RDNA 3.5 et XDNA 2

Edge AI MSI : écosystème complet et plateformes industrielles à Embedded World 2026

NVIDIA GeForce ON à la GDC 2026 : focus RTX, IA et path tracing, pas de nouveau GPU

Arc Pro B60 Dual GPU : MaxSun lance un modèle watercooling single-slot et un passif

Silicon carbide 300 mm : Wolfspeed vise l’emballage AI/HPC d’ici la fin de la décennie

Ryzen AI Embedded P100 : AMD ajoute des modèles 8 à 12 cœurs avec Zen 5, RDNA 3.5 et XDNA 2

Edge AI MSI : écosystème complet et plateformes industrielles à Embedded World 2026

NVIDIA GeForce ON à la GDC 2026 : focus RTX, IA et path tracing, pas de nouveau GPU

Arc Pro B60 Dual GPU : MaxSun lance un modèle watercooling single-slot et un passif