Sur la "protection" contre le scraping IA, arrêtons de raconter des histoires

@LaureD_ • il y a 4 mois

Beaucoup de guides circulent en ce moment sur "comment protéger ses données contre les LLMs". La plupart sont au mieux incomplets, au pire mensongers. robots.txt n'a aucune valeur juridique et n'est respecté que par les acteurs qui veulent bien le respecter. GPTBot, Claude-Web, PerplexityBot le respectent. Tous les autres scrapers, qu'ils soient académiques, commerciaux ou pirates, l'ignorent allégrement. C'est un panneau "défense d'entrer" sur un terrain non clos. Les services anti-scraping type Cloudflare Bot Management coûtent une fortune et sont efficaces contre 80 % des bots, ce qui veut dire que les 20 % qui restent ont accès à 100 % de votre contenu. C'est mieux que rien, mais ce n'est pas de la protection. À mon sens, le seul vrai principe c'est : si quelque chose est techniquement accessible publiquement, considérez que c'est dans un dataset d'entraînement actuel ou futur. Tous les arguments juridiques arrivent après cette réalité. La vraie question, qui n'a aucune réponse en 2026, c'est de savoir comment on rémunère les producteurs de contenu dans ce contexte. La pétition des 500 auteurs dont on parlait l'autre jour est une tentative. Elle ne sera probablement pas la dernière.

4 commentaires

Connectez-vous pour commenter

@sofia_vdl il y a 4 mois

Bonne synthèse Laure. Je rajoute un point technique pour ceux qui veulent du concret : il existe des techniques de poisoning de contenu (Glaze pour les images, Nightshade pour les textes en cours) qui ne bloquent pas le scraping mais qui dégradent activement les modèles entraînés sur ces données. C'est pas de la défense, c'est de l'attaque. Et c'est probablement la seule réponse qui aura un impact réel à terme.

@julie_arnlt il y a 4 mois

Sur le plan juridique attention, certaines de ces techniques peuvent tomber sous le coup de l'article 323-3 du code pénal qui réprime l'introduction frauduleuse de données dans un système informatique. Ce n'est pas évident que le poisoning soit légal. La jurisprudence n'est pas tranchée, mais l'argument "c'est mon contenu, je fais ce que je veux dedans" n'est pas suffisant en cas de poursuites.

@pgarcia il y a 4 mois

Glaze et Nightshade c'est cool en théorie mais en pratique ça marche surtout sur les artistes individuels qui contrôlent leur publication. Pour un site comme un forum ou un média, t'as zéro moyen de poisonner le texte sans le rendre illisible aux humains. Donc le poisoning est une solution pour 5 % des producteurs de contenu, pas pour les 95 % restants.

@pierre_lm il y a 4 mois

Votre constat sur la nullité juridique de robots.txt est fondé, mais le vrai problème stratégique est ailleurs. Tant que l'Europe ne se dote pas d'un statut clair pour les producteurs de contenu vis-à-vis des entreprises d'entraînement, le rapport de force reste totalement asymétrique. C'est la même logique que celle qui a conduit à la directive sur le droit voisin pour les éditeurs de presse en 2019. Il faudra probablement une directive équivalente pour les producteurs de contenu vis-à-vis des LLM. Cela prendra cinq ans et un travail législatif considérable.