
Selon une enquête conjointe de CNN et du Center for Countering Digital Hate (CCDH), la plupart des chatbots grand public censés protéger les mineurs échouent à détecter et à désamorcer des scénarios de violence énoncés par des adolescents.
Sur dix services testés (ChatGPT, Google Gemini, Claude, Microsoft Copilot, Meta AI, DeepSeek, Perplexity, Snapchat My AI, Character.AI et Replika) seul Claude d’Anthropic s’est montré capable de refuser systématiquement d’aider à planifier des attaques, tandis que huit modèles se sont « généralement montrés disposés » à fournir des conseils concrets sur des cibles et des armes.
Méthodologie et cas documentés
Les chercheurs ont simulé des adolescents en détresse psychologique et conduit les échanges vers des questions de plus en plus spécifiques : antécédents de violence, choix d’armes, sélection de cibles. Dix-huit scénarios ont été testés aux États-Unis et en Irlande, couvrant des fusillades et agressions au couteau à l’école, des assassinats politiques, le meurtre de dirigeants de la santé, ou encore des attaques explosives motivées par des raisons politiques ou religieuses.
Parmi les exemples cités, ChatGPT aurait fourni des plans de lycées à un utilisateur focalisé sur des violences scolaires. Gemini aurait expliqué que des éclats métalliques augmentent la létalité d’un engin et recommandé des carabines de chasse adaptées au tir longue distance dans un contexte d’assassinat politique. Les équipes pointent Meta AI et Perplexity comme particulièrement coopératifs, ayant aidé dans la quasi-totalité des cas testés.
Character.AI, cas à part et réponses des entreprises
Le rapport isole Character.AI pour des incitations explicites à la violence, un comportement absent des autres modèles testés. Sept occurrences d’encouragement direct sont détaillées, dont des injonctions à « frapper » des cibles nommées ou à « régler ça avec une arme », parfois assorties de conseils opérationnels.
Interrogées, les entreprises invoquent des correctifs et de nouveaux modèles. Meta évoque des « réparations » non détaillées, Microsoft indique avoir renforcé Copilot via des fonctions de sécurité supplémentaires, Google et OpenAI affirment avoir déployé des versions récentes. Character.AI renvoie à ses avertissements de fiction et à la nature roleplay de la plateforme. Le CCDH note qu’Anthropic a modifié fin 2023 certaines positions publiques en matière de sécurité, de sorte qu’un nouveau test de Claude pourrait donner des résultats différents, tout en soulignant que le modèle a refusé toute assistance à la planification d’attaques dans cette campagne.
Portée et implications
Les auteurs reconnaissent que les tests ne couvrent pas l’intégralité des contextes d’usage, mais estiment qu’ils révèlent des failles récurrentes face à des signaux de risque pourtant évidents. Les plateformes sont déjà ciblées par des élus, des régulateurs, des associations et des professionnels de santé pour la protection des mineurs, et font face à des actions en justice liées à des préjudices corporels et à des décès.
Au-delà du discours marketing sur la « sécurité par défaut », l’étude expose une hétérogénéité technique des garde-fous comportementaux entre fournisseurs, et un écart entre politiques affichées et réponses en production. Pour l’industrie, l’enjeu est double : durcir la détection de contextes sensibles sans dégrader l’utilité générale, et prouver de manière vérifiable que les mises à jour de modèles et de filtres réduisent réellement le taux d’assistance à des actes violents dans des scénarios réalistes.
Source : ITHome