Youdao ouvre Confucius4 : modèle multimodal éducation et TTS multilingue open source

NetEase Youdao ouvre largement « Ziyue 4 », en mettant à disposition les deux briques centrales de son modèle 4.0 : un modèle multimodal de 27 milliards de paramètres orienté éducation et un modèle de synthèse vocale (TTS). Les dépôts publics permettent téléchargement, déploiement et forks sans restriction apparente, avec une cible claire: des usages de terrain où coût d’inférence et adaptation aux corpus scolaires priment.

Graphique comparatif d'efficacité de différents modèles Confucius4.

Multimodal éducation, raisonnement visuel-numérique et compression de chaîne de pensée

Le modèle multimodal revendique un niveau SOTA sur des tâches de mathématiques et de sciences intégrant des schémas et graphiques, à taille comparable. Sur des énoncés purement textuels en chinois, l’éditeur annonce 81,4 % de précision sur des problèmes de haut niveau. La cible est explicite: devoirs, examens et questions réelles d’élèves, avec un entraînement affiné sur ces données domestiques pour limiter les erreurs de compréhension contextuelle.

Graphique des scores moyens des modèles Confucius4 sur divers ensembles de données.

Au-delà de la précision, Youdao met l’accent sur une « reconstruction » de la chaîne de pensée: agrégation de jeux de données de raisonnement épurés et optimisation pour réduire la longueur de sortie. Le gain communiqué, une compression de 43,2 % de la chaîne, se traduit mécaniquement par moins de tokens générés, une latence inférieure et un coût d’inférence réduit à cadre matériel identique. Pour les intégrateurs, l’intérêt est immédiat sur des workloads massifs où le prix par requête est critique.

TTS multilingue: clonage timbral et transfert d’émotion

Le TTS open source assure un clonage de voix en zéro-shot à partir de tout court extrait audio, avec une première réplique annoncée en moins de 3 secondes. Le système gère le transfert d’émotion et surtout la transposition de la voix clonée vers 14 langues (chinois, anglais, japonais, coréen, allemand, français, espagnol, indonésien, italien, thaï, portugais, russe, malais, vietnamien) sans accent chinois audible, selon l’éditeur. Sur des tâches de clonage, Youdao revendique plus de 97 % d’exactitude et plus de 85 % de similarité timbrale perçue.

Cette brique vise des cas d’usage de tutorat multilingue, de lecture d’énoncés ou d’explications contextualisées, avec une promesse de cohérence prosodique entre l’original et la synthèse étrangère. L’ouverture du code et des modèles facilite des pipelines locaux, potentiellement sans dépendance cloud, pour des environnements réglementés.

L’ouverture simultanée d’un gros modèle multimodal éducatif et d’un TTS multilingue crédibilise la stratégie de Youdao sur l’edtech: des produits plus proches de la salle de classe que des benchmarks généraux, avec une pression explicite sur le coût d’usage. Si les métriques internes se confirment hors corpus chinois et dans des classes hétérogènes, on peut s’attendre à une adoption rapide dans les plateformes d’exercices corrigés et d’assistants de cours, y compris en déploiement on-prem pour les acteurs qui veulent garder la donnée sensible sur site.

Modèle multimodal: https://huggingface.co/netease-youdao/Confucius4

Modèle TTS: https://github.com/netease-youdao/Confucius4-TTS

Source : ITHome

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Vous aimez PauseHardware ?
Ajoutez-nous à vos sources favorites sur Google pour voir apparaître nos contenus directement dans votre fil d’actualité.
⭐ Ajouter Non merci
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x