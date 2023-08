C'est une modification très légère en bas de la page d'accueil du site, survenue le 3 aout dernier , au coeur de l'été, et qui aurait pu passer totalement inaperçue. Le New York Times, quotidien américain à la renommée internationale, écrit noir sur blanc dans les mentions légales de son site que "l*'utilisation non commerciale n'inclut pas l'utilisation du contenu sans le consentement écrit préalable de The New York Times Company en relation avec : (1) le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un machine learning ou d'une intelligence artificielle (IA) ou système ; ou (2) fournir des ensembles de données archivés ou mis en cache contenant du Contenu à une autre personne ou entité* ". L'ennemi est donc nommé : les "IA".

Empêcher le pillage des contenus au détriment des auteurs

D'ordinaire, les mentions légales précisent les droits de reproduction et ont pour but de protéger les droits d'auteur des journalistes (rédacteurs, protographes, vidéastes, etc) dans l'utilisation de leurs oeuvres sur d'autres supports. Ici, les supports du New York Times (vidéos, jeux, audio, site de classements consommateur…) dépassent d'ailleurs largement le cadre strict des articles, et les résultats financiers de la marque sont au beau fixe, tout comme le nombre des abonnements, qui a passé la barre confortable des dix millions.

Or, c'est bien avec ces contenus : textes, photos, audio ou vidéos, chassés partout en ligne, que se nourrit l'Intelligence artificielle, capable ensuite de produire elle-même de tels contenus sans aide humaine. Et c'est précisément la question qui agite aujourd'hui la presse à travers la planète : la crainte du réemploi de ses contenus, gratuitement et sans être crédité, ce qui pourrait entrainer une réaction en chaine funeste. Avec pour corollaires l'appauvrissement des médias (dont les abonnements payants servent -entre autres- à rémunérer leurs salariés et financer leurs enquêtes), la dégradation de la qualité de l'information diffusée, et enfin la perte de confiance du lectorat.

Comment bloquer une IA?

Les systèmes d'IA tel que Chat GPT apprennent en se nourrissant d'une quantité astronomique de données (textes, images, son) circulant sur Internet, le tout en un temps record. Pour cela, ils ont recours à des outils qui font office de gigantesques filets de pêche, qui ratissent la toile de fond en comble à grande vitesse, des 'robots d'explorations' ("crawlers") , chargé de scanner tout le savoir de la toile pour entraîner cette IA. Sur leur fonctionnement précis, les entreprises pionnières gardent farouchement le secret : il semble donc a priori aujourd'hui techniquement difficile de contrer le passage de ces robots sur le site d'un média.

Néanmoins, un journal américain, le Washington Post, a tenté une enquête technique avec des chercheurs spécialisés en IA, et a analysé seulement une partie des données sensibles présentes sur Google. Résultat : des preuves selon lesquelles 15 millions de sites web (dont celui du NYT) ont été utilisés , "ratissés" par ces robots chasseurs de données pour entrainer des 'langage learning machine'.

Un bras de fer à venir

Certes, la menace des poursuites juridiques affichée dans les nouvelles mentions légales du New York Times pourrait être difficilement applicables, puisque la question des droits de la presse face à l'IA, encore balbutiante, nage en plein vide juridique. Mais c'est un moyen de se positionner dans le rapport de force à venir, en obligeant les entreprises de "machine learning" à passer des accords de licence et de droits d'auteurs avec les médias utilisés. Pour autant, la question de la réutilisation respectueuse des contenus en dehors de leur contexte, afin d'empêcher l'IA de générer un contenu inexact à partir de sources fiables, est loin d'être tranchée, dans une guerre des données qui a déjà commencé. Dans les mêmes colonnes du New-York Times, le chroniqueur Brian X. Chen, fin observateur des avancées liées aux intelligences artificielles, relaie d'ailleurs les propos de Sam Heutmaker , patron de Context, une start-up du secteur : "Si vous leur donnez les bonnes informations, les [outils d'intelligence artificielle] peuvent en faire des choses intéressantes. Mais à eux seuls, 70% de ce que vous obtenez ne sera pas exact."