
Google décrit un phénomène intrigant observé dans des modèles de raisonnement comme DeepSeek-R1 et QwQ-32B : lors de la résolution de problèmes, le réseau « se scinde » en entités internes aux styles opposés (créatives, critiques, méticuleuses, prudentes) qui débattent entre elles. Plus la tâche est exigeante, plus ce dialogue interne s’intensifie, avec des pics notables sur GPQA (niveau graduate) et les déductions mathématiques complexes, tandis que les échanges se raréfient sur des exercices basiques de logique booléenne.

Décodage d’un « cerveau social » appris sans consigne
Les chercheurs ont utilisé des sparse auto-encoders (SAE) pour instrumenter les couches internes pendant la génération de chaînes de pensée. Les activations neuronales, inexploitables en l’état, sont décomposées par la contrainte de parcimonie en facteurs interprétables liés à des actes de discours internes du modèle, du type « se poser une question », « changer de perspective », « vérifier une hypothèse ». En corrélant ces facteurs sur la durée, l’équipe isole des « entités logiques » auxquelles elle attribue des rôles comme « planificateur », « vérificateur » ou « exécuteur ».

Comparés à des modèles instructionnels classiques (DeepSeek-V3, Qwen-2.5-32B-IT), les modèles de raisonnement manifestent ces comportements dialogiques beaucoup plus fréquemment. Surtout, ces échanges émergent sans y être forcés : sous simple récompense à la bonne réponse via renforcement, le modèle apprend spontanément à raisonner « en conversation » plutôt qu’en monologue.
Des marqueurs discursifs qui dopent l’exactitude
En modulant les activations associées à certains marqueurs, l’équipe montre un lien causal avec la performance. Accentuer des tournants discursifs comme « oh ! » — signal d’étonnement ou de réévaluation — double l’exactitude sur le benchmark arithmétique Countdown, de 27,1 % à 54,8 %. La dynamique d’opinion interne ne serait donc pas un bruit, mais un mécanisme utile de recherche de solution.
Autre résultat robuste : un pré-affinage sur des données de dialogues multi-agents, suivi d’un entraînement au raisonnement, accélère nettement l’apprentissage. Sur Qwen-2.5-3B et Llama-3.2-3B, les modèles « dialogiques » surpassent les versions « monologues » de plus de 10 % en début de training, l’écart grimpant jusqu’à 22 % pour Llama-3.2-3B en fin de parcours.
Ces observations font écho à l’hypothèse du cerveau social en biologie évolutive : maîtriser l’interaction et la gestion de points de vue concurrents améliorerait la capacité à raisonner. Ici, l’IA optimise sa précision en simulant une pluralité d’interlocuteurs internes, chacun explorant un angle complémentaire avant consolidation.

Au-delà de l’anecdote, la conclusion opérationnelle est claire pour l’écosystème modèle et tooling: intégrer des inducteurs dialogiques dans les boucles d’optimisation, instrumenter les représentations via SAE pour guider la RL, et capitaliser sur des jeux de données de débats multi-agents pourrait offrir des gains de performance concrets sur le raisonnement sans gonfler la taille des réseaux. On voit aussi poindre un axe de contrôle fin par « styles cognitifs » internes, prometteur pour des systèmes qui alternent exploration, critique et exécution selon la difficulté du problème.
Source : ITHome