Benchmark APEX-Agents : les IA de bureau plafonnent à 24 % de précision

Selon une étude relayée par Digital Trends et menée par Mercor, les grands modèles d’IA peinent à exécuter des tâches de bureau réalistes : aucun ne dépasse 25 % de précision sur le nouveau benchmark APEX-Agents. Ce protocole ne teste ni poésie ni équations, mais des workflows concrets de juristes, consultants et banquiers, avec des séquences multi‑étapes faisant appel à plusieurs sources d’information.

Le meilleur score revient à Gemini 3 Flash (24,0 %), suivi de GPT‑5.2 (23,0 %). Derrière, Claude Opus 4.5 et Gemini 3 Pro affichent 18,4 %, GPT‑5 18,3 %, Grok 4 15,2 %, puis un net décrochage pour GPT‑OSS‑120B (4,7 %) et Kimi K2 Thinking (4,0 %). Ces résultats confirment la difficulté des modèles à tenir une chaîne d’actions fiable lorsqu’il faut enchaîner consultation d’agendas, historiques de messagerie, PDF et feuilles de calcul.

Benchmark APEX-Agents : les IA de bureau plafonnent à 24 % de précision

Contexte et limites du protocole

Mercor attribue l’échec récurrent à la gestion du contexte et au passage d’une source à l’autre, où les modèles confondent, mélangent ou abandonnent des étapes critiques. Dans un environnement de bureau, cette fragilité les cantonne au rôle d’« assistant stagiaire » peu fiable plutôt qu’à celui d’opérateur autonome. La méthodologie APEX-Agents se distingue en imposant une coordination d’outils et de supports hétérogènes, un point névralgique des usages réels que les benchmarks classiques éludent encore trop souvent.

Progrès rapides mais insuffisants

Mercor souligne néanmoins une progression marquée : des tests comparables plafonnaient à 5–10 % il y a un an, contre 24 % aujourd’hui pour le meilleur modèle. L’accélération est nette, sans pour autant valider une substitution proche des travailleurs du savoir tant que la gestion multi‑tâches et les bascules de contexte resteront instables. Pour les déploiements en production, la fiabilisation passera autant par l’orchestration outil‑par‑outil et la vérification systématique que par de nouveaux entraînements focalisés sur l’exécution et la mémoire de travail.

Source : ITHome

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)

Articles similaires

guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x