Confucius4 éducation : Multimodal Et TTS Open Source

Capture d'écran du site présentant Confucius4-TTS, modèle multimodal éducatif multilingue.

NetEase Youdao ouvre largement « Ziyue 4 », en mettant à disposition les deux briques centrales de son modèle 4.0 : un modèle multimodal de 27 milliards de paramètres orienté éducation et un modèle de synthèse vocale (TTS). Les dépôts publics permettent téléchargement, déploiement et forks sans restriction apparente, avec une cible claire: des usages de terrain où coût d’inférence et adaptation aux corpus scolaires priment.

Dans la même logique de modèles multimodaux pensés pour des usages concrets, ce modèle multimodal de 10 milliards de paramètres présenté comme capable de tenir un niveau SOTA sur des scénarios embarqués illustre bien la montée en puissance d’architectures plus compactes, mais déjà très crédibles hors laboratoire.

Graphique comparatif d'efficacité de différents modèles Confucius4.

Multimodal éducation, raisonnement visuel-numérique et compression de chaîne de pensée

Le modèle multimodal revendique un niveau SOTA sur des tâches de mathématiques et de sciences intégrant des schémas et graphiques, à taille comparable. Sur des énoncés purement textuels en chinois, l’éditeur annonce 81,4 % de précision sur des problèmes de haut niveau. La cible est explicite: devoirs, examens et questions réelles d’élèves, avec un entraînement affiné sur ces données domestiques pour limiter les erreurs de compréhension contextuelle.

Graphique des scores moyens des modèles Confucius4 sur divers ensembles de données.

Au-delà de la précision, Youdao met l’accent sur une « reconstruction » de la chaîne de pensée: agrégation de jeux de données de raisonnement épurés et optimisation pour réduire la longueur de sortie. Le gain communiqué, une compression de 43,2 % de la chaîne, se traduit mécaniquement par moins de tokens générés, une latence inférieure et un coût d’inférence réduit à cadre matériel identique. Pour les intégrateurs, l’intérêt est immédiat sur des workloads massifs où le prix par requête est critique.

TTS multilingue: clonage timbral et transfert d’émotion

Le TTS open source assure un clonage de voix en zéro-shot à partir de tout court extrait audio, avec une première réplique annoncée en moins de 3 secondes. Le système gère le transfert d’émotion et surtout la transposition de la voix clonée vers 14 langues (chinois, anglais, japonais, coréen, allemand, français, espagnol, indonésien, italien, thaï, portugais, russe, malais, vietnamien) sans accent chinois audible, selon l’éditeur. Sur des tâches de clonage, Youdao revendique plus de 97 % d’exactitude et plus de 85 % de similarité timbrale perçue.

Le volet synthèse vocale prolonge aussi cette logique d’outillage appliqué, et renvoie à un système multimodal unifié qui relie déjà compréhension, génération audio et autres modalités dans une même chaîne de traitement, avec une approche très proche des usages produits que Youdao vise ici.

Cette brique vise des cas d’usage de tutorat multilingue, de lecture d’énoncés ou d’explications contextualisées, avec une promesse de cohérence prosodique entre l’original et la synthèse étrangère. L’ouverture du code et des modèles facilite des pipelines locaux, potentiellement sans dépendance cloud, pour des environnements réglementés.

L’ouverture simultanée d’un gros modèle multimodal éducatif et d’un TTS multilingue crédibilise la stratégie de Youdao sur l’edtech: des produits plus proches de la salle de classe que des benchmarks généraux, avec une pression explicite sur le coût d’usage. Si les métriques internes se confirment hors corpus chinois et dans des classes hétérogènes, on peut s’attendre à une adoption rapide dans les plateformes d’exercices corrigés et d’assistants de cours, y compris en déploiement on-prem pour les acteurs qui veulent garder la donnée sensible sur site.

Modèle multimodal: https://huggingface.co/netease-youdao/Confucius4

Modèle TTS: https://github.com/netease-youdao/Confucius4-TTS

Source : ITHome

Youdao ouvre Confucius4 : modèle multimodal éducation et TTS multilingue open source

Multimodal éducation, raisonnement visuel-numérique et compression de chaîne de pensée

TTS multilingue: clonage timbral et transfert d’émotion

Articles similaires

Wael.K

Lire le suivant

Google Beam teste des réunions hybrides en 3D avec audio spatial crédible

Lunettes Android XR : Google viserait 2 millions d’unités dès 2026

Grok sous-performe dans les agences US : un frein pour l’IPO xAI de SpaceX

Alibaba Qwen3.7-Max arrive dans Qianwen : agent long-courrier, API Bailian à venir

NVIDIA : les accélérateurs SRAM LPX resteront une niche face aux GPU

Google Beam teste des réunions hybrides en 3D avec audio spatial crédible

Lunettes Android XR : Google viserait 2 millions d’unités dès 2026

Grok sous-performe dans les agences US : un frein pour l’IPO xAI de SpaceX

Alibaba Qwen3.7-Max arrive dans Qianwen : agent long-courrier, API Bailian à venir

NVIDIA : les accélérateurs SRAM LPX resteront une niche face aux GPU