
iFlytek lance Spark X2-Flash, un modèle MoE de 30 milliards de paramètres entraîné sur un cluster Huawei Ascend 910B, avec un contexte étendu à 256K et une API ouverte dès aujourd’hui. L’éditeur met l’accent sur les usages agents et code, avec des premiers intégrateurs annoncés côté AstronClaw et Loomy.

MoE 30B, 256K de contexte et entraînement optimisé sur Ascend 910B
Spark X2-Flash combine une architecture MoE avec DSA (attention clairsemée) et MTP (prédiction multi‑tokens) pour porter le contexte à 256K tout en contenant les coûts de calcul. iFlytek revendique une optimisation des opérateurs et de la distribution spécialement pour les puces 910B, avec une efficacité d’entraînement mesurée à 90 % à échelle identique là où une grappe Nvidia A800 équivalente plafonnait à 20 %.

En renforcement pour agents, l’éditeur annonce un doublement, voire plus, de la vitesse de décodage en échantillonnage par rapport à des architectures sans DSA, point critique pour des sessions longues et interactives. L’objectif affiché est de lever le goulet d’étranglement de l’apprentissage par renforcement sur 910B pour des alignements à grande échelle.
Positionnement usage et compatibilité écosystème
Selon des tests AstronClaw, le modèle s’approche de résultats obtenus par des modèles à l’échelle du trillion de paramètres sur des tâches phares d’« élevage de homards » — lecture « automation/agents » dans leur jargon — comme les rapports d’analyse, la gestion/appel de Skills ou le contrôle système. À workflow identique, la consommation de tokens tomberait sous le tiers de celle des grands modèles actuels, ce qui réduit mécaniquement le coût des applications agents complexes.
iFlytek met en avant la génération rapide de Skills complexes, illustrée par un cas de création d’un module vidéo incluant structure, fonctions clés et exemples d’usage. Côté intégration, Spark X2-Flash est annoncé compatible avec des frameworks agents tels qu’OpenClaw et Claude Code, avec accès API public à l’adresse fournie.
Le choix d’un entraînement optimisé sur Ascend 910B, avec un saut de 20 % à 90 % d’efficacité annoncée à taille comparable, envoie un signal industriel clair: l’écosystème IA chinois pousse l’indépendance matérielle tout en cherchant des gains réels sur les charges agents longues. Si les promesses de moindre consommation de tokens et de décodage accéléré se confirment en production, les coûts d’exploitation d’agents multimodaux et outillés pourraient reculer sensiblement, ce qui déplacerait la concurrence vers l’orchestration de Skills et la qualité des outils annexes plutôt que la seule taille des modèles.
API : https://xinghuo.xfyun.cn/sparkapi
Source : ITHome