
NetEase Youdao ouvre largement « Ziyue 4 », en mettant à disposition les deux briques centrales de son modèle 4.0 : un modèle multimodal de 27 milliards de paramètres orienté éducation et un modèle de synthèse vocale (TTS). Les dépôts publics permettent téléchargement, déploiement et forks sans restriction apparente, avec une cible claire: des usages de terrain où coût d’inférence et adaptation aux corpus scolaires priment.
Dans la même logique de modèles multimodaux pensés pour des usages concrets, ce modèle multimodal de 10 milliards de paramètres présenté comme capable de tenir un niveau SOTA sur des scénarios embarqués illustre bien la montée en puissance d’architectures plus compactes, mais déjà très crédibles hors laboratoire.

Multimodal éducation, raisonnement visuel-numérique et compression de chaîne de pensée
Le modèle multimodal revendique un niveau SOTA sur des tâches de mathématiques et de sciences intégrant des schémas et graphiques, à taille comparable. Sur des énoncés purement textuels en chinois, l’éditeur annonce 81,4 % de précision sur des problèmes de haut niveau. La cible est explicite: devoirs, examens et questions réelles d’élèves, avec un entraînement affiné sur ces données domestiques pour limiter les erreurs de compréhension contextuelle.

Au-delà de la précision, Youdao met l’accent sur une « reconstruction » de la chaîne de pensée: agrégation de jeux de données de raisonnement épurés et optimisation pour réduire la longueur de sortie. Le gain communiqué, une compression de 43,2 % de la chaîne, se traduit mécaniquement par moins de tokens générés, une latence inférieure et un coût d’inférence réduit à cadre matériel identique. Pour les intégrateurs, l’intérêt est immédiat sur des workloads massifs où le prix par requête est critique.
TTS multilingue: clonage timbral et transfert d’émotion
Le TTS open source assure un clonage de voix en zéro-shot à partir de tout court extrait audio, avec une première réplique annoncée en moins de 3 secondes. Le système gère le transfert d’émotion et surtout la transposition de la voix clonée vers 14 langues (chinois, anglais, japonais, coréen, allemand, français, espagnol, indonésien, italien, thaï, portugais, russe, malais, vietnamien) sans accent chinois audible, selon l’éditeur. Sur des tâches de clonage, Youdao revendique plus de 97 % d’exactitude et plus de 85 % de similarité timbrale perçue.
Le volet synthèse vocale prolonge aussi cette logique d’outillage appliqué, et renvoie à un système multimodal unifié qui relie déjà compréhension, génération audio et autres modalités dans une même chaîne de traitement, avec une approche très proche des usages produits que Youdao vise ici.
Cette brique vise des cas d’usage de tutorat multilingue, de lecture d’énoncés ou d’explications contextualisées, avec une promesse de cohérence prosodique entre l’original et la synthèse étrangère. L’ouverture du code et des modèles facilite des pipelines locaux, potentiellement sans dépendance cloud, pour des environnements réglementés.
L’ouverture simultanée d’un gros modèle multimodal éducatif et d’un TTS multilingue crédibilise la stratégie de Youdao sur l’edtech: des produits plus proches de la salle de classe que des benchmarks généraux, avec une pression explicite sur le coût d’usage. Si les métriques internes se confirment hors corpus chinois et dans des classes hétérogènes, on peut s’attendre à une adoption rapide dans les plateformes d’exercices corrigés et d’assistants de cours, y compris en déploiement on-prem pour les acteurs qui veulent garder la donnée sensible sur site.
Modèle multimodal: https://huggingface.co/netease-youdao/Confucius4
Modèle TTS: https://github.com/netease-youdao/Confucius4-TTS
Source : ITHome