

La reconnaissance vocale est-elle glottophobe ? William Simonin, spécialiste de la biométrie vocale nous explique comment les intelligences artificielles apprennent à comprendre les différents accents d'une même langue.
La glottophobie est une xénophobie fondée sur la langue de l’autre : vocabulaire, grammaire, accent… Des différences qui peuvent provoquer haine ou mépris. Comment les nouvelles technologies prennent-elles en compte toutes ces différences ?
Des outils du quotidien glottophobes
Selon William Simonin, spécialiste en reconnaissance vocale, il faut comprendre comment ces outils de reconnaissances vocaux fonctionnent. Dans le terme générique de « reconnaissance vocale » il y a différentes technologies : les technologies de reconnaissance de la parole ASR (automatic speak recognition) qui, à partir de la voix, va réussir à transformer toutes les fréquences en un texte écrit en français, anglais, allemand ou chinois.
« Pour réussir à faire ces moteurs de reconnaissance, les experts vont récupérer énormément d’heures audios de personnes qui ont parlé, qui ont partagé leur voix pour réaliser un modèle générique qui va servir de support pour créer différents services de retranscription. »
William Simonin explique qu’un modèle entraîné avec des voix anglaises provenant d’Amérique, reconnaitra très bien des américains et beaucoup moins des anglais.
« Basé sur ce mécanisme-là un modèle qui s’est entraîné avec des hommes reconnaîtra mieux des hommes que des femmes. »
Par ailleurs, d’autres technologies vocales sont utilisées comme la biométrie vocale : les modèles ne sont pas entraînés par un groupe de personnes mais directement par une personne unique avec pour objectif de reconnaître cette personne. Grâce à cette technologie, d’après William Simonin, on ne retrouve aucune discrimination et les taux de réussite sont proches de 100%.
Comment une reconnaissance vocale peut comprendre et appréhender tous les accents qui composent le paysage français ?
Dans le paysage français, différentes régions s’expriment avec différents accents, on peut donc se demander si le fait d’informatiser et de numériser requiert une uniformisation obligatoire. Selon William Simonin, cette problématique est utilisée pour rendre tous les systèmes génériques.
« Admettons qu’on arrive à créer un seul gros modèle de langue française, il devrait à la fois comprendre un accent très prononcé marseillais et un accent très prononcé chti. Sur le point de vue des fréquences avec la hauteur, le timbre de la voix, c’est une grande difficulté comme si le marseillais et le chti étaient deux langues différentes. »
Ainsi ces modèles audios vont être créés avec de la data qualitative et quantitative diversifiée avec autant de voix de jeunes personnes que de personnes âgés, autant d’hommes que de femmes, de personnes avec accent que sans accent. La difficulté, d’après William Simonin, est de rendre le modèle à la fois générique et pertinent dans des voix avec de forts accents pour ne pas perdre la qualité globale en utilisant des modèles génériques.
« Différents systèmes permettent de faire cela et nombres d’experts sont en train de travailler dessus. Plus on avance dans le temps, plus la performance de nos systèmes informatiques permet de se rapprocher du 100% théorique mais aujourd’hui on arrive à des systèmes qui avoisinent la performance du cerveau humain. Ce qu’un cerveau humain serait capable de comprendre en terme d’accent (sachant bien que ce n’est pas 100% car un accent trop prononcé on demandera à répéter) des systèmes informatiques sont en train de s’y rapprocher. »
Notre voix comme une empreinte digitale ?
Les fréquences de la voix, les systèmes de biométrie vocale sont très souvent utilisés, selon William Simonin, pour authentifier ou identifier des personnes.
« En plus de la voix, on vous demandera un mot de passe ou un autre outil pour doubler et assurer une sécurité à 100%. »
La reconnaissance vocale est un secteur en pleine croissance avec un taux supérieur à 20% annuel, un marché qui représente aujourd’hui 12 milliards de dollars et qui avoisinera les 25 milliards de dollars d’ici 25 ans.
« Aujourd’hui, autour de nous, la reconnaissance vocale est partout : dans nos ordinateurs, dans nos téléphones, peut-être dans nos télés ou dans nos voitures. La reconnaissance vocale est entrée dans les usages et cela fait gagner un temps énorme, on parle six fois plus vite ce qu’on est capable d’écrire et pour les personnes aux mobilités réduites ce n’est pas du confort mais un vrai enjeu. »
D’après William Simonin, cette nécessité de la reconnaissance vocale arrive également dans le domaine professionnel notamment celui de l’industrie, de la logistique, de la mobilité ou encore de la défense. Il parle de « révolution » dans les interfaces hommes/machines.
« D’ici 5 ans, je pense qu’on aura atteint un gap où on verra des assistants qui seront, non pas réactifs, mais pro-actifs et qui réussiront à interopérer beaucoup d’objets connectés et de systèmes de notre environnement. On retrouvera de plus en plus la reconnaissance vocale dans des cas d’usages quotidiens pour tout le monde. »
La reconnaissance vocale dans les GAFA est liée à la technologie « cloud » qui va le plus souvent servir, d’après William Simonin, à faire des assistants vocaux « B to C ».
« A l’inverse des GAFA, notre utilisation n’est pas de récupérer de la Data pour la publicité mais de trouver les technologies les plus performantes possibles pour révolutionner les objets connectés grâce à la reconnaissance vocale. »
L'équipe
- Production
- Réalisation