
À la Google I/O 2026, Google a dévoilé l’intégration expérimentale de Project Genie dans Street View. L’idée : transformer des panoramas réels de Google Maps en mondes 3D interactifs et explorables, plutôt que de générer des scènes purement synthétiques. Le modèle, pensé comme un « world model » générique, vise autant l’entraînement d’agents et de robots que la création d’expériences interactives.
Street View comme graine d’un monde jouable
Concrètement, l’utilisateur clique sur un repère Google Maps, choisit un lieu aux États‑Unis, puis applique un style visuel comme « âge de pierre » ou « monde océanique ». Il peut également décrire un personnage, par exemple un héros de roman, et le système génère un environnement interactif en 3D à partir de l’image Street View sélectionnée, avec des éléments navigables et des mécaniques de déplacement.
La différence avec les générateurs d’images classiques tient au comportement du monde produit : Genie ne se limite pas à un rendu statique, il instancie un espace dans lequel un agent peut se déplacer, observer, interagir. Pour l’IA embarquée et la robotique, ces scènes offrent un terrain d’entraînement issu de textures et de géométries proches du réel, utile pour la navigation, l’évitement d’obstacles et l’apprentissage de routines d’interaction contextuelle.
À terme, la vraie question sera moins la génération elle-même que le pilotage en temps réel ; sur ce terrain, SIMA éclaire déjà l’ambition de Google DeepMind quand il s’agit d’agents capables d’agir dans des espaces 3D complexes.
Ce n’est pas la première fois que Google tente de convertir des signaux du réel en terrain d’essai interactif : Project Genie avait déjà montré jusqu’où pouvait aller cette logique, avec des mondes jouables encore très encadrés.
Périmètre, disponibilité et limites
Google parle d’un prototype avec un accès restreint. À ce stade, la génération fondée sur Street View ne fonctionne que sur des lieux américains, sans calendrier communiqué pour d’autres régions. L’entreprise indique vouloir étendre progressivement la couverture, au fil de la maturation du modèle et des garde‑fous nécessaires à l’usage de données cartographiques réelles.
Si cette approche tient ses promesses, elle pourrait réduire le coût de production d’environnements de test semi‑réalistes pour les équipes RL et robotique, tout en accélérant la création de contenus interactifs centrés sur des lieux existants. Le point clé sera la fidélité des dynamiques simulées et la capacité du modèle à préserver la cohérence spatiale issue des panoramas Street View, conditions sine qua non pour que le transfert vers le monde réel reste pertinent.
Source : ITHome