Humanoïde Columbia : synchro labiale apprise par vision, sans phonèmes

À l’université Columbia, le Creative Machines Lab présente un humanoïde capable de synchroniser ses lèvres avec une précision rarement vue, en se contentant d’apprendre par la vision. Sans règles explicites par phonème, le système aligne mouvements faciaux et audio pour la parole et le chant, avec un réalisme qui s’attaque frontalement au « malaise » des expressions robotiques.

Le visage repose sur une peau synthétique souple tendue sur 26 micromoteurs. Les chercheurs ont d’abord mené une phase d’« auto-exploration » devant un miroir : des milliers d’expressions aléatoires ont permis d’établir la cartographie entre commandes moteurs et configurations faciales. Sur cette base, l’algorithme a ingéré des heures de vidéos YouTube de personnes parlant et chantant pour relier statistiquement timbre, dynamique de la voix et cinématique des lèvres.

Le modèle de « conversion visuo-motrice » produit ensuite, à partir de l’audio, des signaux moteurs synchronisés sans passer par un pipeline de phonèmes scriptés. Résultat : une synchro labiale crédible sur plusieurs langues, assez robuste pour interpréter des titres d’un album interne baptisé « Hello World ». Les limites actuelles se voient surtout sur les plosives comme « B » et les consonnes arrondies type « W ».

Pour Hod Lipson, directeur du laboratoire, la dimension faciale a été sous-investie par rapport à la locomotion, à la préhension ou à la mobilité. Or, dans l’éducation, le soin et l’assistance, la lisibilité émotionnelle du visage pèse autant que l’adresse des membres. Le chercheur estime que des interactions répétées amélioreront encore la fidélité des micro-mouvements et l’acceptabilité sociale, point clé à l’heure où la production d’humanoïdes s’accélère.

Le responsable du projet, Yuhang Hu, voit un couplage naturel avec des IA conversationnelles du type ChatGPT ou Gemini, capables d’injecter du contexte et de la prosodie dans les nuances faciales. À mesure que les modèles apprendront des dialogues longs, ces expressions deviendront plus situées, renforçant l’illusion d’une compréhension réciproque. L’équipe reconnaît cependant des enjeux psychologiques et éthiques sensibles, appelant à une progression graduelle.

Ce que cela change pour la robotique humanoïde

En remplaçant les règles phonétiques par l’apprentissage direct audio→moteurs, la filière esquive des pipelines lourds et spécifiques aux langues. À la clé, une portabilité accrue, un réalisme supérieur et un calibrage plus simple sur de nouveaux visages mécaniques. Si la communauté parvient à généraliser ce type de cartographie visuo-motrice et à fiabiliser les cas difficiles (plosives, arrondissements, coarticulation rapide), la face deviendra un module aussi industrialisable que les mains ou les jambes, avec un impact direct sur l’adoption grand public.

Source : ITHome

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x