
Meituan publie en open source LongCat-Video-Avatar 1.5, une mise à niveau majeure de son modèle de génération de « digital humans ». L’itération se concentre sur la synchronisation labiale, la cohérence temporelle sur des plans longs, les interactions multi-personnages et l’efficacité d’inférence, avec un positionnement assumé vers l’usage commercial plutôt que la simple démonstration technique.
Dans la même logique d’avatar numérique piloté par l’IA, on peut rapprocher cette annonce des travaux de Meta sur un double numérique de Mark Zuckerberg pensé pour parler à sa place dans des échanges internes : dans les deux cas, l’enjeu n’est plus seulement de faire une démonstration bluffante, mais de rendre l’agent visuel crédible, stable et exploitable dans un cadre concret.

Ce qui change côté modèle et données
Le passage de l’encodeur audio Wav2Vec2 à Whisper-large constitue le socle du gain qualitatif : meilleure capture des phonèmes, gestion plus robuste des langues et des cadences rapides, impact direct sur la précision labiale et la stabilité corps/visage. Sur la pipeline, l’équipe LongCat a industrialisé un flux multi-étapes avec annotation hors-ligne et vérification en ligne, enrichi de trois jeux critiques : séquences multi-locuteurs, segments silencieux et données émotionnelles.

La stabilité des mains et la continuité des mouvements sont traitées via un alignement de préférences GRPO à la granularité image par image, visant à réduire les déformations de doigts et les ruptures d’animation. Côté couverture de scènes, le modèle gère de façon stable humains, personnages animés et animaux, et sait différencier naturellement locuteur et auditeur dans les dialogues.
Performances et benchmarks
En inférence, l’adoption d’une distillation DMD réduit le nombre d’étapes de 50 à 8, avec un gain d’environ 15× : générer une vidéo de 10 s prend environ 1 minute. Sur un banc de test interne bâti à partir d’EvalTalker et couvrant news, éducation et divertissement, 13 240 notations subjectives (770 évaluateurs) et une analyse d’experts indiquent un leadership sur quatre axes : plausibilité physique, stabilité temporelle, consistance d’identité et alignement audio/vidéo.
Cette accélération de la génération vidéo rappelle aussi la montée en puissance de Seedance 2.0, pensée pour créer des séquences vidéo multi-plans avec audio natif intégré, où la vitesse d’inférence et la cohérence des scènes deviennent tout aussi stratégiques que le réalisme facial.
En préférence utilisateur, LongCat-Video-Avatar 1.5 l’emporte face à Kling Avatar 2.0 (65,9 % de taux de victoire), OmniHuman-1.5 (61,1 %) et HeyGen (54,3 %). En scène multi-personnages, l’avance sur InfiniteTalk est nette, avec un taux de déformation de sujet de 23,1 % et un taux de « jump frame » limité à 0,8 %.
Disponibilité et portée
Le code, les poids et la documentation sont publiés sur GitHub, HuggingFace et ModelScope, avec un rapport technique détaillé et une page de démonstration. Meituan cadre explicitement cette 1.5 comme une base « commerciale », taillée pour des inputs difficiles (phrases longues, débit rapide, chant) et des tournages virtuels prolongés, au-delà des seuls rendus vitrines.

Le virage vers Whisper-large, la distillation agressive et l’alignement par préférences au niveau frame composent un triptyque pragmatique : plus de réalisme perçu là où ça compte (lèvres, mains, continuité), des délais compatibles production, et une base de données orientée vers les écueils concrets des avatars parlants. À court terme, cela met une pression directe sur les offres SaaS d’avatars, d’autant que l’ouverture du modèle abaisse la barrière d’entrée pour les intégrateurs médias et e-commerce, tout en déplaçant la différenciation vers la donnée propriétaire, la voix et le pipeline d’orchestration vidéo.
Source : ITHome