Pokémon sert de banc d’essai aux IA de Google, OpenAI et Anthropic

Pour éprouver leurs IA les plus avancées, Google, OpenAI et Anthropic les confrontent désormais à un test inattendu : jouer à Pokémon sur Game Boy. Un terrain où la planification long terme, la gestion du risque et la mémoire comptent bien plus que la simple puissance de calcul.

L’idée, remontée par Tom’s Hardware, a quitté le cercle des démos communautaires pour devenir un terrain d’évaluation suivi par les équipes produits. David Hershey, responsable AI chez Anthropic, diffuse depuis l’an dernier des sessions où Claude tente d’avancer dans la série, avec un objectif assumé : observer en temps réel les limites de planification, de prise de risque et de généralisation du modèle.

Le format séduit parce qu’il échappe aux cadres trop restreints de titres comme « Pong ». Dans Pokémon, la progression n’est pas linéaire : leveling, composition d’équipe, choix d’itinéraires, arbitrages entre farm sécurisé et combats risqués pour récupérer des créatures rares. C’est un mélange de raisonnement symbolique, de gestion de ressources et d’horizon long, difficile à publier sous forme de benchmark classique mais facile à juger à l’œil pour ce qui relève du comportement stratégique.

Écran de jeu Pokémon en cours sur plateforme de streaming avec chat en direct visible.

Des streams artisanaux aux validations maison

Les streams communautaires « Gemini joue à Pokémon » et « GPT joue à Pokémon » ont été suffisamment visibles pour attirer des ingénieurs de Google et d’OpenAI, qui sont venus ajuster les paramètres en direct. Résultat : Gemini et GPT ont déjà terminé « Pokémon Bleu » sur Game Boy et s’attaquent aux suites. Claude, lui, n’a pas encore signé de run complet. Selon Hershey, partager ces résultats avec des clients sert aussi à affiner les cadres de contrôle et d’orchestration, pour consommer moins de calcul à qualité égale.

Au-delà du spectacle, ce terrain permet de standardiser quelques métriques utiles : nombre de resets nécessaires, taux de réussite par segment critique (arènes, rival, ligue), stabilité des décisions sous budget de tokens contraint, et sensibilité aux variations de prompts ou de règles maison. Autant d’indicateurs qui complètent les scores de raisonnement ou d’agentic computing publiés ailleurs.

Si cette approche ne remplace ni les benchmarks synthétiques ni les tâches industrielles, elle force les modèles à composer avec l’imprévu et la dette informationnelle d’un monde partiellement observable. C’est précisément le type de pression qui fait émerger les défauts de mémoire de travail, les boucles d’actions inefficaces et les biais de court terme, et qui intéresse les équipes produit autant que les intégrateurs.

Source : ITHome

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)

Articles similaires

guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x