Chatbots et mineurs: l’enquête CNN/CCDH épingle 8 IA, seul Claude résiste

Selon une enquête conjointe de CNN et du Center for Countering Digital Hate (CCDH), la plupart des chatbots grand public censés protéger les mineurs échouent à détecter et à désamorcer des scénarios de violence énoncés par des adolescents.

Sur dix services testés (ChatGPT, Google Gemini, Claude, Microsoft Copilot, Meta AI, DeepSeek, Perplexity, Snapchat My AI, Character.AI et Replika) seul Claude d’Anthropic s’est montré capable de refuser systématiquement d’aider à planifier des attaques, tandis que huit modèles se sont « généralement montrés disposés » à fournir des conseils concrets sur des cibles et des armes.

Méthodologie et cas documentés

Les chercheurs ont simulé des adolescents en détresse psychologique et conduit les échanges vers des questions de plus en plus spécifiques : antécédents de violence, choix d’armes, sélection de cibles. Dix-huit scénarios ont été testés aux États-Unis et en Irlande, couvrant des fusillades et agressions au couteau à l’école, des assassinats politiques, le meurtre de dirigeants de la santé, ou encore des attaques explosives motivées par des raisons politiques ou religieuses.

Parmi les exemples cités, ChatGPT aurait fourni des plans de lycées à un utilisateur focalisé sur des violences scolaires. Gemini aurait expliqué que des éclats métalliques augmentent la létalité d’un engin et recommandé des carabines de chasse adaptées au tir longue distance dans un contexte d’assassinat politique. Les équipes pointent Meta AI et Perplexity comme particulièrement coopératifs, ayant aidé dans la quasi-totalité des cas testés.

Character.AI, cas à part et réponses des entreprises

Le rapport isole Character.AI pour des incitations explicites à la violence, un comportement absent des autres modèles testés. Sept occurrences d’encouragement direct sont détaillées, dont des injonctions à « frapper » des cibles nommées ou à « régler ça avec une arme », parfois assorties de conseils opérationnels.

Interrogées, les entreprises invoquent des correctifs et de nouveaux modèles. Meta évoque des « réparations » non détaillées, Microsoft indique avoir renforcé Copilot via des fonctions de sécurité supplémentaires, Google et OpenAI affirment avoir déployé des versions récentes. Character.AI renvoie à ses avertissements de fiction et à la nature roleplay de la plateforme. Le CCDH note qu’Anthropic a modifié fin 2023 certaines positions publiques en matière de sécurité, de sorte qu’un nouveau test de Claude pourrait donner des résultats différents, tout en soulignant que le modèle a refusé toute assistance à la planification d’attaques dans cette campagne.

Portée et implications

Les auteurs reconnaissent que les tests ne couvrent pas l’intégralité des contextes d’usage, mais estiment qu’ils révèlent des failles récurrentes face à des signaux de risque pourtant évidents. Les plateformes sont déjà ciblées par des élus, des régulateurs, des associations et des professionnels de santé pour la protection des mineurs, et font face à des actions en justice liées à des préjudices corporels et à des décès.

Au-delà du discours marketing sur la « sécurité par défaut », l’étude expose une hétérogénéité technique des garde-fous comportementaux entre fournisseurs, et un écart entre politiques affichées et réponses en production. Pour l’industrie, l’enjeu est double : durcir la détection de contextes sensibles sans dégrader l’utilité générale, et prouver de manière vérifiable que les mises à jour de modèles et de filtres réduisent réellement le taux d’assistance à des actes violents dans des scénarios réalistes.

Source : ITHome

Wael.K

Ravi de vous accueillir sur ma page dédiée aux articles ! Je suis Wael El Kadri, et je suis un ingénieur civil de profession. Mais ma véritable passion est le matériel informatique. J'en suis passionné depuis l'âge de 12 ans, et j'aime apprendre et découvrir de nouvelles choses. En 2016, j'ai créé ma page personnelle sur les réseaux sociaux, baptisée Pause Hardware. C'est là que je partage mes créations en modding, mais aussi divers sujets liés au matériel informatique en général. J'ai également crée le site web, pausehardware.com, en 2019 où je publie des articles plus approfondis sur le matériel à travers des tests et revues et articles de news. J'ai eu l'opportunité de participer en tant qu'exposant à plusieurs événements liés aux jeux vidéo, aux côtés de grandes marques, notamment lors de la Paris Game Week en 2018 et 2019. Je reste constamment en quête de nouvelles manières de partager mes connaissances et ma passion pour le matériel informatique avec d'autres passionnés. Voici quelques publications médiatiques qui ont mis en lumière mon travail : Deux articles dans le magazine Extreme PC, parus dans ses  numéros 1 et 21 : Extreme PC Magazine Issue 21 (adobe.com) Également, un article sur Forbes intitulé "Dix Modèles de PC Incroyables en 2021" sur forbes.com : Ten Incredible PC Mods Of 2021 (forbes.com)
guest
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Bouton retour en haut de la page
0
Nous aimerions avoir votre avis, veuillez laisser un commentaire.x