OpenAI corrige un biais « goblin » né d’une récompense RLHF mal calibrée

OpenAI a reconnu une dérive stylistique inattendue dans ses modèles récents, avec une inflation marquée d’images « gobelin » et « gremlin » dans les réponses. L’entreprise a mesuré une hausse de 175 % de l’usage de « goblin » et de 52 % pour « gremlin » depuis la série GPT-5.1, et attribue le phénomène à un signal de récompense mal calibré durant l’entraînement d’une personnalité « nerd ».

Une boucle de renforcement qui a contaminé le style global

Texte indiquant

Selon l’audit interne, le sous-ensemble « personnalité nerd » ne représente que 2,5 % des réponses, mais concentre 66,7 % des occurrences de « goblin ». Le modèle de récompense censé favoriser ce ton a surévalué, dans 76,2 % du jeu de données concerné, les sorties contenant des métaphores de créatures, créant un biais explicite pour ce vocabulaire.

Bloc de texte discutant des erreurs et du processus de jugement

Ce signal n’est pas resté confiné. Les équipes expliquent que le renforcement n’a pas garanti la limitation du comportement au seul contexte « nerd ». Au fil des cycles, les sorties biaisées ont été réinjectées dans la supervision, alimentant une boucle « récompense → génération → réentraînement » qui a propagé le tic de langage à d’autres contextes d’usage.

Mesures correctives et limites de cycle

OpenAI dit avoir supprimé le signal de préférence pour ces termes, et filtré les occurrences afférentes dans les données. Faute de fenêtre d’entraînement suffisante, GPT-5.5 n’échappe pas totalement au reliquat, même si des consignes additionnelles viennent en atténuer l’expression. Un billet technique séparé détaille l’origine du biais et la manière dont la consigne système a été ajustée.

Au-delà de l’anecdote, l’épisode illustre le coût opérationnel d’un modèle de récompense trop spécifique injecté dans des pipelines RLHF à large portée. La généralisation indésirable d’un style lexical montre que les frontières entre persona locales et comportement global restent poreuses, et que la robustesse passe autant par la gouvernance des données et des signaux que par l’architecture du modèle.

Graphique montrant l'augmentation du terme

Source : ITHome

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Vous aimez PauseHardware ?
Ajoutez-nous à vos sources favorites sur Google pour voir apparaître nos contenus directement dans votre fil d’actualité.
⭐ Ajouter Non merci
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x