
Zhipu AI a dévoilé le 20 janvier GLM-4.7-Flash, un modèle « mixed thinking » open source de 30 milliards de paramètres, avec 3 milliards de paramètres activés. Positionné comme un successeur direct de GLM-4.5-Flash, il vise un déploiement allégé sans sacrifier les performances, avec mise à disposition immédiate et appels gratuits via la plateforme BigModel.cn.

Sur des benchmarks orientés raisonnement et programmation comme SWE-bench Verified et τ²-Bench, GLM-4.7-Flash revendique de meilleurs scores que gpt-oss-20b et Qwen3-30B-A3B-Thinking-2507, signant un SOTA open source dans sa classe de taille. En interne, Zhipu met en avant des gains nets sur des tâches front et back-end, tout en recommandant des usages génériques en chinois, traduction, longs contextes et jeu de rôle.
GLM-4.7-Flash remplace dès aujourd’hui GLM-4.5-Flash sur BigModel.cn. L’ancienne version restera accessible jusqu’au 30 janvier 2026 ; passé cette date, les requêtes seront automatiquement routées vers GLM-4.7-Flash. Les dépôts open source sont disponibles sur Hugging Face (zai-org/GLM-4.7-Flash) et ModelScope (ZhipuAI/GLM-4.7-Flash).
Ce qui change avec GLM-4.7-Flash
Le choix d’une architecture à 30B avec seulement 3B activés cible clairement l’inférence rapide et les coûts contenus, tout en restant compétitif sur des tâches complexes. Pour les intégrateurs, le passage automatique depuis GLM-4.5-Flash simplifie la transition, mais impose de valider en amont les comportements sur chaînes d’outils et prompts existants afin d’éviter les régressions silencieuses.
Au-delà de la course au SOTA, l’intérêt est pragmatique: un modèle pensée-rapide équilibré, gratuit à l’appel, open source, et adossé à un support industriel. Pour les équipes produisant du code ou des contenus en chinois avec des contextes longs, l’équation performance/latence/coût mérite un A/B test face aux 20–30B concurrents déjà en place.
Source : ITHome