Si vous vous êtes déjà demandé comment les sociétés d’IA comme Google, Anthropic, OpenAI et Meta obtiennent leurs données de formation auprès d’éditeurs payants tels que New York Times, Filaireou le Washington Postnous aurons peut-être enfin une réponse.
Dans une enquête détaillée pour Le atlantiquele journaliste Alex Reisner révèle que plusieurs grandes sociétés d’IA se sont discrètement associées à la Common Crawl Foundation, une organisation à but non lucratif qui exploite le Web pour créer une archive publique massive d’Internet à des fins de recherche. Selon le rapport, Common Crawl, dont la base de données s’étend sur plusieurs pétaoctets, a effectivement ouvert une porte dérobée qui permet aux sociétés d’IA de former leurs modèles sur le contenu payant des principaux médias. Dans un article de blog publié aujourd’hui, Common Crawl nie fermement ces accusations.
Le le site de la fondation prétend que ses données sont collectées à partir de pages Web disponibles gratuitement. Mais son directeur exécutif, Richard Skrenta, a déclaré L’Atlantique il pense que les modèles d’IA devraient pouvoir accéder à tout sur Internet. “Les robots sont aussi des personnes”, a déclaré Skrenta L’Atlantique.
Offres recommandées pour vous
Écouteurs sans fil Apple AirPods Pro 3 à réduction de bruit et fréquence cardiaque
—
219,99 $
(Prix catalogue 249,00 $)
Tablette Apple iPad 11″ 128 Go Wi-Fi Retina (bleu, version 2025)
—
274,00 $
(Prix catalogue 349,00 $)
Tablette Amazon Fire HD 10 32 Go (version 2023, noire)
—
69,99 $
(Prix catalogue 139,99 $)
Casque sans fil à réduction de bruit Sony WH-1000XM5
—
248,00 $
(Prix catalogue 399,99 $)
Caméra de sécurité Blink Outdoor 4 1080p (paquet de 5)
—
159,99 $
(Prix catalogue 399,99 $)
Appareil de streaming Fire TV Stick 4K avec télécommande (modèle 2023)
—
24,99 $
(Prix catalogue 49,99 $)
Casque Bose Quiet Comfort Ultra sans fil à réduction de bruit
—
298,00 $
(Prix catalogue 429,00 $)
Aspirateur robot Shark AV2511AE AI avec base auto-vide XL
—
249,99 $
(Prix catalogue 599,00 $)
Apple Watch Series 11 (GPS, 42 mm, bracelet sport noir S/M)
—
339,00 $
(Prix catalogue 399,00 $)
Disque dur externe portable WD My Passport USB 3.0 de 6 To
—
134,99 $
(Prix catalogue 179,99 $)
Produits disponibles à l’achat via des liens d’affiliation. Si vous achetez quelque chose via des liens sur notre site, Mashable peut gagner une commission d’affiliation.
La Californie donne son feu vert à la sécurité de l’IA, à la protection des données et au silence de Netflix
Les chatbots IA comme ChatGPT et Google Gemini ont déclenché une crise dans l’industrie du journalisme. Les chatbots IA récupèrent les informations des éditeurs et partagent ces informations directement avec les lecteurs, supprimant ainsi les clics et les visiteurs de ces éditeurs. Ce phénomène a été appelé le apocalypse de la circulation et le Armageddon de l’IA. (Divulgation : Ziff Davis, la société mère de Mashable, a déposé en avril une action en justice contre OpenAI, alléguant qu’elle avait violé les droits d’auteur de Ziff Davis dans la formation et l’exploitation de ses systèmes d’IA.)
Comme indiqué dans le atlantique rapport, certains éditeurs de presse ont pris connaissance des activités de Common Crawl, et certains ont bloqué le scraper de la fondation en ajoutant une instruction au code de leur site Web. Cependant, cela ne protège que le contenu futur, pas tout ce qui a déjà été supprimé.
Vitesse de la lumière écrasable
Plusieurs éditeurs ont demandé à Common Crawl de supprimer leur contenu de ses archives. La fondation a déclaré qu’elle se conformait, quoique lentement, en raison du volume considérable de données, une organisation partageant plusieurs e-mails de Common Crawl avec L’Atlantique que le processus de suppression était « terminé à 50 pour cent, 70 pour cent, puis à 80 pour cent ». Pourtant, Reisner a constaté qu’aucune de ces demandes de retrait ne semblait avoir été satisfaite – et que les archives de Common Crawl n’avaient pas été modifiées depuis 2016.
Skrenta a dit L’Atlantique que le format de fichier utilisé pour stocker les archives est « censé être immuable », ce qui signifie que le contenu ne peut pas être supprimé une fois ajouté. Cependant, Reisner rapporte que l’outil de recherche public du site, le seul moyen non technique de parcourir les archives de Common Crawl, renvoie des résultats trompeurs pour certains domaines, masquant ainsi la portée de ce qui a été récupéré et stocké.
Mashable a contacté Common Crawl et un membre de l’équipe nous a signalé à un article de blog public de Skrenta. Dans ce document, Skrenta a nié les affirmations selon lesquelles l’organisation aurait induit les éditeurs en erreur, affirmant que son robot d’exploration ne contournait pas les paywalls. Il a également souligné que Common Crawl est financièrement indépendant et « ne fait pas le sale boulot d’IA ».
“L’Atlantique fait plusieurs affirmations fausses et trompeuses à propos de la Common Crawl Foundation, y compris l’accusation selon laquelle notre organisation aurait « menti aux éditeurs » à propos de nos activités », indique le billet de blog. Il précise en outre : « Notre robot d’exploration Web, connu sous le nom de CCBot, collecte des données auprès de pages Web accessibles au public. Nous ne passons pas « derrière les paywalls », ne nous connectons à aucun site Web et n’utilisons aucune méthode conçue pour contourner les restrictions d’accès. »
Cependant, comme le rapporte Reisner, Common Crawl a déjà reçu des dons d’OpenAI, d’Anthropic et d’autres sociétés axées sur l’IA. Il répertorie également NVIDIA comme « collaborateur » sur son site web. Au-delà de la collecte de texte brut, écrit Reisner, la fondation aide également à assembler et à distribuer des ensembles de données de formation à l’IA, voire à les héberger pour une utilisation plus large.
Quoi qu’il en soit, la lutte sur la manière dont l’industrie de l’IA utilise le matériel protégé par le droit d’auteur est loin d’être terminée. OpenAI, par exemple, reste au centre de plusieurs procès de la part de grands éditeurs, y compris le New York Times et la société mère de Mashable, Ziff Davis.
Sujets
Intelligence artificielle
