
Ant Group ouvre le code de LingBot-World, un cadre de « world model » interactif pensé pour générer des environnements vidéo contrôlables, physiquement cohérents et manipulables en temps réel. Au cœur, LingBot-World-Base s’appuie sur un Scalable Data Engine entraîné sur de grands environnements de jeu pour apprendre lois physiques et causalité, puis restituer des scènes réactives sans dérives structurelles sur de longues séquences.

Longues séquences stables, logique de scène conservée
Le modèle vise la résistance au « long-term drift » qui plombe la génération vidéo classique: déformations, disparition de sujets, collapses de géométrie. Par un entraînement multi-étapes et une exécution parallélisée, Ant Lingbo annonce près de 10 minutes de génération continue sans dégradation visible, avec des tests de retour caméra après 60 secondes hors-champ où les objets clés conservent forme et apparence.

La génération est conditionnée par l’action: clavier et souris pilotent personnage et caméra à environ 16 FPS, avec une latence bout en bout maintenue sous la seconde. Les commandes textuelles déclenchent des événements d’environnement (météo, style visuel) tout en maintenant des relations géométriques stables, ce qui permet d’enchaîner des transitions sans casser la cohérence de la scène.
Pipeline de données hybride et zero-shot interactif
Pour alimenter l’entraînement en données d’interaction, l’équipe combine un nettoyage massif de vidéos web et une captation in‑engine via jeux et pipeline Unreal Engine, en extrayant des rendus sans UI et en enregistrant commandes et poses caméra au pas de temps. Ce mix améliore la généralisation zero-shot: à partir d’une simple photo de rue réelle ou d’une capture de jeu, le modèle génère un flux vidéo interactif sans fine-tuning spécifique au décor.
Ant Lingbo met en ligne poids et code d’inférence. Le dépôt et la documentation sont accessibles à l’adresse suivante: https://technology.robbyant.com/lingbot-world

Si les promesses d’endurance temporelle et de contrôle se confirment, LingBot-World pourrait accélérer l’émergence d’agents temps réel entraînés dans des mondes génératifs plutôt que dans des bacs à sable fixes. Pour l’industrie, l’intérêt est double: abaisser le coût des données d’interaction de qualité et rapprocher la simulation des contraintes physiques utiles au gameplay et à la robotique logicielle, avec un délai de réponse compatible usage utilisateur.
Source : ITHome