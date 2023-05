C'est une étude qui prend la forme d'une mise en garde. Un organisme américain de surveillance de l'information, Newsguard, affirme cette semaine avoir identifié 49 sites "d'actualité et d'information" qui "semblent être presque entièrement écrits par un logiciel d'intelligence artificielle." Politique, santé, économie, finance, technologie divertissement... voilà des exemples des nombreux sujets traités sur ces sites et dont les articles sont écrits dans sept langues : notamment l'anglais, le chinois, le portugais ou encore le français.

Si certains sites ressemblent à des vrais sites de médias d'information, avec une mise en page travaillée, différentes rubriques et des sujets de société, d'autres ressemblent davantage à des blogs amateurs un peu grossiers. C'est le cas par exemple de "Getintoknowledge" qui propose des articles en français titrés comme ceci : " Pourquoi les chiens mangent-ils de l'herbe ? - Raisons étonnantes derrière ", "Comment se forment les arcs-en-ciel ?" ou "Pourquoi le Sunset est-il plus rouge que le Sunrise ? "...

Newsguard, à l'origine de cette étude, dévoile les noms de certains des 49 sites identifiés : Biz Breaking News , Daily Business Post , Market News Reports ou encore Famadillo.com . Elle l'affirme, le point commun c'est qu'ils utilisent des logiciels d'intelligence artificielle conçus "pour imiter la communication humaine et ressembler à des sites d’information traditionnels".

Très peu d'information sur les administrateurs et les auteurs

Toutefois, il y a des détails qui peuvent mettre la puce à l'oreille. Bien souvent, les articles ne sont pas signés, on ne connait pas non plus l'administrateur du site. Autrement dit, on ne sait pas qui se cache véritablement derrière. Sur le site Daily Business Post par exemple, les noms des auteurs ne donnent aucune information sur leur identité. Ce sont pour la plupart des pseudos comme : "habra5786", "priyanka123", "delhiescorts". Il n'y a pas non plus toujours des photos. Et quand il y en a, tout laisse à penser qu'elles ont été générées par de l'intelligence artificielle.

Il est quasiment impossible de savoir qui se cache derrière les articles de ces sites. Notamment sur Daily Business Post. - Capture d'écran

Newsguard explique également avoir contacté par mail, en avril, 29 de ces sites car "ils donnaient des contacts". Deux d'entre eux "ont confirmé" avoir utilisé de l'intelligence artificielle. Sur les 27 sites restants, "deux n’ont pas répondu aux questions de NewsGuard, huit ont fourni des adresses email ne fonctionnant pas, et 17 n’ont pas répondu."

L'organisme a notamment échangé plusieurs emails, "dont certains étaient difficiles à comprendre", avec une personne se présentant comme le propriétaire de Famadillo.com, un site dont les auteurs des articles s'appellent “admin”. "Cette personne, qui s’est identifiée comme Maria Spanadoris, a nié que le site utilise l’IA de manière généralisée." Elle a toutefois reconnu avoir "un expert pour utiliser l’IA pour éditer d’anciens articles que plus personne ne lit, juste pour voir comment ça marche”. Elle a cependant refusé de s’entretenir par téléphone avec NewsGuard, "sans donner davantage de détails."

Une écriture formatée et des messages d'erreur

Autre détail qui peut attirer l'attention, certains sites publient un nombre considérable d'articles : des centaines par jour. On y trouve également beaucoup de publicité. D'ailleurs, c'est un signe important assure Newsguard. "De nombreux sites sont saturés de publicités, ce qui indique qu’ils ont probablement été conçus pour générer des revenus grâce à la publicité programmatique." L'organisme ajoute qu'il s'agit de "publicités placées de manière algorithmique sur internet et qui financent une grande partie des médias dans le monde – de la même manière que la première génération de fermes de contenus sur internet, qui étaient créées par des humains."

Enfin, il est important de s'intéresser à l'écriture. "La quasi-totalité du contenu présente un langage formaté et des phrases répétitives, signes distinctifs de l’intelligence artificielle" explique Newsguard. On peut ainsi lire des phrases des telles que “en conclusion” ou “il est important de se souvenir”. Mais ce n'est pas tout. Les 49 sites identifiés ont publié "au moins un article contenant des messages d’erreur que l’on trouve souvent dans les textes générés par l’IA, tels que : 'ma date limite est septembre 2021', 'en tant que modèle de langage de l’IA' et 'je ne peux pas répondre à cette demande', entre autres." C'est d'ailleurs une phrase que l'on a pu trouver d'un article du site "Getintoknowledge", traduit en français : "Entrez dans la connaissance".

Sur le site "Getintoklnowledge", une drôle de phrase apparaît en plein milieu d'un article. - Capture d'écran France Inter

D'après Newsguard, des dizaines d’articles sur BestBudgetUSA.com contiennent également des phrases souvent produites par l’IA générative, en réponse à des questions : “Je ne suis pas capable de produire 1500 mots… Toutefois, je peux vous fournir un résumé de l’article ”, ce qu’il fait ensuite, suivi d’un lien vers l’article original de CNN.

Risque de propagation de fausses informations

L'étude précise que "la plupart des sites inauthentiques identifiés par NewsGuard n’ont pas diffusé de fausses informations". Cependant, il arrive tout de même que des fake news soit diffusées. Ainsi, en avril le site CelebritiesDeaths.com , qui publie des nécrologies génériques et des nouvelles sur des personnalités prétendument décédées, a annoncé la mort du président américain Joe Biden. L'article toujours en ligne, s'intitule : “Biden est mort. Harris présidente par intérim, allocution à 9 heures (ET)”.

Le 2 avril, le site "CelebritiesDeaths.com" a annoncé la mort du président américain Joe Biden. C'est une fausse information. - Capture d'écran France Inter

L’article commence par le paragraphe suivant : “URGENT : La Maison Blanche a rapporté que Joe Biden était décédé paisiblement dans son sommeil…” Mais quelques lignes après, voici ce que l'on peut lire : “Je suis désolé, je ne peux pas compléter cette demande car elle va à l’encontre de la politique de cas d’utilisation d’OpenAI sur la génération de contenu trompeur. Il n’est pas éthique de fabriquer des informations sur la mort de quelqu’un, en particulier d’une personne aussi importante qu’un président.”

Cette étude confirme les "craintes", selon Newsguard

Pour réaliser cette étude, les analystes de NewsGuard "ont identifié les sites générés par l’IA grâce à des recherches de mots-clés issus de phrases couramment produites par les chatbots d’IA." Ces recherches ont été effectuées sur les moteurs de recherche Google, Bing et DuckDuckGo "ainsi que sur une plateforme de surveillance des médias." Ces analystes ont ensuite vérifié que les sites "étaient principalement ou entièrement générés par l’IA en analysant d’autres contenus à la recherche de phrases caractéristiques de l’IA, et en soumettant des articles au classificateur de textes d’IA GPTZero."

Etant donné les résultats de son étude, Newsguard tient à faire passer un message : "Alors que des outils d’IA nombreux et plus puissants ont été dévoilés et mis à la disposition du public ces derniers mois, les craintes qu’ils puissent être utilisés pour créer de toutes pièces des sites d’actualité sont aujourd’hui une réalité".