OpenAI Et Le Biais « Goblin »: Un RLHF Défaillant

ASCII art représentant une figure humanoïde avec chapeau et bras écartés

OpenAI a reconnu une dérive stylistique inattendue dans ses modèles récents, avec une inflation marquée d’images « gobelin » et « gremlin » dans les réponses. L’entreprise a mesuré une hausse de 175 % de l’usage de « goblin » et de 52 % pour « gremlin » depuis la série GPT-5.1, et attribue le phénomène à un signal de récompense mal calibré durant l’entraînement d’une personnalité « nerd ».

Une boucle de renforcement qui a contaminé le style global

Selon l’audit interne, le sous-ensemble « personnalité nerd » ne représente que 2,5 % des réponses, mais concentre 66,7 % des occurrences de « goblin ». Le modèle de récompense censé favoriser ce ton a surévalué, dans 76,2 % du jeu de données concerné, les sorties contenant des métaphores de créatures, créant un biais explicite pour ce vocabulaire.

Bloc de texte discutant des erreurs et du processus de jugement

Ce signal n’est pas resté confiné. Les équipes expliquent que le renforcement n’a pas garanti la limitation du comportement au seul contexte « nerd ». Au fil des cycles, les sorties biaisées ont été réinjectées dans la supervision, alimentant une boucle « récompense → génération → réentraînement » qui a propagé le tic de langage à d’autres contextes d’usage.

Mesures correctives et limites de cycle

OpenAI dit avoir supprimé le signal de préférence pour ces termes, et filtré les occurrences afférentes dans les données. Faute de fenêtre d’entraînement suffisante, GPT-5.5 n’échappe pas totalement au reliquat, même si des consignes additionnelles viennent en atténuer l’expression. Un billet technique séparé détaille l’origine du biais et la manière dont la consigne système a été ajustée.

Au-delà de l’anecdote, l’épisode illustre le coût opérationnel d’un modèle de récompense trop spécifique injecté dans des pipelines RLHF à large portée. La généralisation indésirable d’un style lexical montre que les frontières entre persona locales et comportement global restent poreuses, et que la robustesse passe autant par la gouvernance des données et des signaux que par l’architecture du modèle.