Pour la première fois, une langue non écrite va pouvoir être traduite automatiquement : mercredi, le patron de Meta, Mark Zuckerberg, a annoncé que le hokkien, une langue très parlée en Chine, langue officielle à Taïwan, mais qui n’a pas de transcription écrite largement répandue (contrairement au mandarin par exemple), allait pouvoir être traduit par un système de traduction vocale alimenté par une intelligence artificielle.

Peu de données pour entraîner l’IA sur les dialectes et langues orales

"Plus de la moitié des plus de 7 000 langues vivantes dans le monde sont essentiellement orales et ne disposent pas d’un système d’écriture standard ou largement utilisé : il est donc impossible de créer des outils de traduction en utilisant les techniques standard", explique Meta. En effet, la plupart des systèmes actuels, pour assurer une traduction vocale instantanée, passent par une transcription à l’écrit – et c’est cette transcription qui est traduite, puis oralisée à nouveau. Tous les dialectes et les langues uniquement orales étaient donc exclus de cette possibilité de traduction.

Avec cette prise en charge du hokkien, l’entreprise (qui depuis un an a opéré une réorientation de son activité) lance son propre projet de traduction, nommé Universal Speech Translator (UST). Pour ce dialecte chinois, le défi a été, selon Meta, de collecter suffisamment de données : "Il y a peu de ressources pour entraîner l’intelligence artificielle par rapport à des langues comme l’anglais ou l’espagnol. De plus, il y a assez peu de traducteurs (humains) anglais-hokkien, ce qui complique la compilation et l’annotation des données", explique la firme.

Le son converti en ondes, plus seulement en texte

Les chercheurs de Meta expérimentent donc des pistes pour ne pas avoir à passer par une transcription écrite pour la traduction. Le procédé est nommé "speech-to-unit", que l’on pourrait traduire par "parole vers phonème", en opposition au "speech-to-text". Cela consiste à "convertir la parole en une séquence de phonèmes sonores [correspondant aux syllabes, NDLR] puis à générer des formes d’onde à partir de ces phonèmes". Ces formes d’onde, des spectres sonores, correspondent à des mots, et ce sont elles qui sont traduites.

Pour affiner la traduction, explique l’entreprise, le "speech-to-unit" est doublé d’un "speech-to-text" dans la langue connue la plus proche, en l’occurrence, dans le cas du hokkien, le mandarin, étant donné que les deux langues possèdent des mots et tournures en commun. Concrètement, quand un utilisateur prononcera une phrase en hokkien, un premier algorithme essaiera de le transcrire en mandarin écrit pour obtenir une première traduction, incomplète mais reposant sur une technologie déjà bien installée, et un second passera directement par les syllabes et leur forme d'onde pour obtenir la traduction complète.

Un outil construit pour le métavers

Les chercheurs ont enfin ajouté à cela des dispositifs d’évaluation de la traduction obtenue, en passant par le Tâi-lo, un système orthographique taïwanais. Le but de Meta, à partir de ce premier dispositif de traduction entre le hokkien et l’anglais, est de concevoir un modèle qui sera applicable à toutes les langues du monde, et surtout celles qui, comme les très nombreux dialectes, sont exclusivement orales.

Une volonté directement associée aux velléités de l’entreprise pour le futur, puisqu'elle a tout misé sur le développement du métavers, cet Internet converti en un espace en trois dimensions dans lequel les internautes évolueront grâce à un avatar et pourront communiquer. Objectif : y implémenter un tel outil de traduction afin que chacun et chacune puisse communiquer avec les autres, exactement comme cela se fait aujourd’hui à l’écrit sur les sites web traditionnels.