LongCat-Video-Avatar 1.5 : Meituan ouvre un modèle d’avatars parlants pro

Meituan publie en open source LongCat-Video-Avatar 1.5, une mise à niveau majeure de son modèle de génération de « digital humans ». L’itération se concentre sur la synchronisation labiale, la cohérence temporelle sur des plans longs, les interactions multi-personnages et l’efficacité d’inférence, avec un positionnement assumé vers l’usage commercial plutôt que la simple démonstration technique.

Personne posant devant des fleurs de cerisier en costume formel.

Ce qui change côté modèle et données

Le passage de l’encodeur audio Wav2Vec2 à Whisper-large constitue le socle du gain qualitatif : meilleure capture des phonèmes, gestion plus robuste des langues et des cadences rapides, impact direct sur la précision labiale et la stabilité corps/visage. Sur la pipeline, l’équipe LongCat a industrialisé un flux multi-étapes avec annotation hors-ligne et vérification en ligne, enrichi de trois jeux critiques : séquences multi-locuteurs, segments silencieux et données émotionnelles.

Figures animées chantant avec des microphones.

La stabilité des mains et la continuité des mouvements sont traitées via un alignement de préférences GRPO à la granularité image par image, visant à réduire les déformations de doigts et les ruptures d’animation. Côté couverture de scènes, le modèle gère de façon stable humains, personnages animés et animaux, et sait différencier naturellement locuteur et auditeur dans les dialogues.

Performances et benchmarks

En inférence, l’adoption d’une distillation DMD réduit le nombre d’étapes de 50 à 8, avec un gain d’environ 15× : générer une vidéo de 10 s prend environ 1 minute. Sur un banc de test interne bâti à partir d’EvalTalker et couvrant news, éducation et divertissement, 13 240 notations subjectives (770 évaluateurs) et une analyse d’experts indiquent un leadership sur quatre axes : plausibilité physique, stabilité temporelle, consistance d’identité et alignement audio/vidéo.

En préférence utilisateur, LongCat-Video-Avatar 1.5 l’emporte face à Kling Avatar 2.0 (65,9 % de taux de victoire), OmniHuman-1.5 (61,1 %) et HeyGen (54,3 %). En scène multi-personnages, l’avance sur InfiniteTalk est nette, avec un taux de déformation de sujet de 23,1 % et un taux de « jump frame » limité à 0,8 %.

Disponibilité et portée

Le code, les poids et la documentation sont publiés sur GitHub, HuggingFace et ModelScope, avec un rapport technique détaillé et une page de démonstration. Meituan cadre explicitement cette 1.5 comme une base « commerciale », taillée pour des inputs difficiles (phrases longues, débit rapide, chant) et des tournages virtuels prolongés, au-delà des seuls rendus vitrines.

Femme et enfant souriant dans une cuisine.

Le virage vers Whisper-large, la distillation agressive et l’alignement par préférences au niveau frame composent un triptyque pragmatique : plus de réalisme perçu là où ça compte (lèvres, mains, continuité), des délais compatibles production, et une base de données orientée vers les écueils concrets des avatars parlants. À court terme, cela met une pression directe sur les offres SaaS d’avatars, d’autant que l’ouverture du modèle abaisse la barrière d’entrée pour les intégrateurs médias et e-commerce, tout en déplaçant la différenciation vers la donnée propriétaire, la voix et le pipeline d’orchestration vidéo.

Source : ITHome

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Vous aimez PauseHardware ?
Ajoutez-nous à vos sources favorites sur Google pour voir apparaître nos contenus directement dans votre fil d’actualité.
⭐ Ajouter Non merci
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x