Qwen3-Max-Thinking : le modèle reasoning d’Alibaba vise le niveau GPT-5

Alibaba a dévoilé ce soir Qwen3-Max-Thinking, nouveau modèle « reasoning » haut de gamme de la famille Qwen. La société annonce une architecture dépassant le millier de milliards de paramètres, un entraînement par renforcement élargi et des avancées nettes sur la factualité, le raisonnement complexe, l’alignement et l’utilisation native d’outils. Sur 19 benchmarks de référence, Alibaba revendique des performances du niveau de GPT-5.2-Thinking, Claude Opus 4.5 et Gemini 3 Pro.

Le modèle est disponible dans Qwen Chat avec une capacité de recours autonome au moteur de recherche, à la mémoire et à un interpréteur de code. L’API publique est ouverte sous l’identifiant « qwen3-max-2026-01-23 ».

Focus technique et perfs mesurées

Qwen3-Max-Thinking met l’accent sur deux briques. D’abord, une invocation d’outils auto-adaptative : le modèle choisit et orchestre seul la recherche, la mémoire et l’exécution de code, après un cycle de fine-tuning spécifique puis un entraînement supplémentaire guidé par retours hybrides (règles et feedback modèle). Alibaba indique une baisse sensible des hallucinations, un accès temps réel aux informations et des réponses mieux personnalisées.

Tableau comparatif des benchmarks pour différents modèles de reasoning, incluant Qwen3-Max-Thinking.

Ensuite, une stratégie de Test-Time Scaling itératif orientée « expérience cumulée ». Plutôt que d’augmenter simplement le nombre de trajectoires en parallèle, Qwen3-Max-Thinking limite ces chemins et réinvestit le budget de calcul dans des boucles de réflexion successives. Un mécanisme d’extraction d’« insights » issus des tours précédents évite les répétitions et concentre le raisonnement sur les zones d’incertitude, avec une meilleure utilisation de la fenêtre de contexte à consommation de tokens comparable.

Les gains annoncés, à méthodologie constante, sont chiffrés sur plusieurs suites: GPQA de 90,3 à 92,8, HLE de 34,1 à 36,5, LiveCodeBench v6 de 88,0 à 91,4, IMO-AnswerBench de 89,5 à 91,5, et HLE avec outils de 55,8 à 58,3. Alibaba met en avant des résultats en tête sur GPQA Diamond (sciences), IMO-AnswerBench (maths) et LiveCodeBench (code).

Graphique des performances sur divers tests, avec les scores de Qwen3-Max-Thinking et autres modèles.

Disponibilité et intégration

Qwen3-Max-Thinking est accessible via Qwen Chat (chat.qwen.ai), avec la sélection automatique d’outils activée, et via l’écosystème Alibaba Cloud Bailian. Le déploiement vise autant l’usage direct que l’intégration agentique, le modèle étant conçu pour raisonner tout en exécutant des appels outils de manière fluide.

Au-delà de la surenchère paramétrique, l’enjeu se déplace vers la chaîne de raisonnement et l’efficacité du calcul à l’inférence. La mise en avant d’un Test-Time Scaling mieux capitalisé et de capacités agent natives confirme la bascule des LLM généralistes vers des systèmes orientés tâches, où le pilotage d’outils et la discipline du raisonnement comptent autant que le score brut sur benchmarks.

Source : ITHome

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)

Articles similaires

guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x