Publicité

Petite histoire de la synthèse vocale

Par

*_______________________________________________________________ > L'informatique cherche ses voix | Petite histoire de la synthèse vocale

Aujourd'hui, les ordinateurs et les smartphones sont tous équipés de logiciels de synthèse vocale. Pourtant, faire parler la machine a longtemps été un défi. Petit retour en vidéos sur l'histoire de la synthèse vocale, avec Nicolas Obin, chercheur dans l’équipe "Analyse et synthèse des sons", à l’IRCAM (Institut de recherche et coordination acoustique/musique).

Publicité

C'est au siècle des Lumières, alors que l'automate est considéré comme une véritable curiosité scientifique, que l’homme a décidé de doter la machine de la parole.

Les premières synthèses apparaissent avec les "machines à parler" mécaniques. La plus connue est la speaking machine de Wolfgang von Kempelen, construite en 1791.

Un aperçu dans la vidéo ci-contre, grâce à une université allemande ayant reproduit cette machine originelle.

"Pour l’époque, c’était extrêmement impressionnant. On était capable de resynthétiser une voix humaine. Mais à l’écoute aujourd’hui, ça reste rudimentaire. C’est un peu comme un enfant qui parle. Ce sont les origines de la vocalité humaine. ", affirme Nicolas Obin, chercheur dans l’équipe "Analyse et synthèse des sons" de l’IRCAM.

Pour afficher ce contenu Youtube, vous devez accepter les cookies Publicité.

Ces cookies permettent à nos partenaires de vous proposer des publicités et des contenus personnalisés en fonction de votre navigation, de votre profil et de vos centres d'intérêt.

Bond en avant dans le temps : nous sommes en 1939, et la Fée Electricité a vu le jour. Les laboratoires Bell, aux Etats-Unis, spécialistes mondiaux de la synthèse vocale durant toute la première moitié du XXè siècle, réalisent le Voder. Le principe est le même que pour la machine de von Kempelen, à cela près que la synthèse de parole n'est plus contrôlée mécaniquement : une sorte d’interface semblable à une machine à écrire permet de contrôler les différents paramètres de la voix : "Pour distinguer les sons voisés des sons bruités, ou pour faire la différence entre [A] et [CH] par exemple, il y a des boutons différents. Une des avancées de cette machine est que nous sommes capables de contrôler l’intonation de la voix, de la modifier. On peut lui faire dire n’importe quoi. "

Cependant, derrière la machine, se tient toujours un manipulateur qui se doit d'être extrêmement entraîné, "comme un pianiste professionnel ".

Pour afficher ce contenu Youtube, vous devez accepter les cookies Publicité.

Ces cookies permettent à nos partenaires de vous proposer des publicités et des contenus personnalisés en fonction de votre navigation, de votre profil et de vos centres d'intérêt.

Troisième étape : les années 60 voient l'avènement de l'informatique. La synthèse vocale est cette fois complètement automatique, gérée par un ordinateur.

Les laboratoires Bell, toujours eux, conçoivent un ordinateur appelé l’IBM 704, grâce auquel ils parviennent à générer, en 1961, une voix totalement artificielle réalisée à l'aide de systèmes de synthèse inspirés de modèles physiques.

Ce sont ces mêmes essais qui inspirent Kubrick pour son film 2001, l'Odyssée de l’espace (1968) : l'intelligence artificielle, Hal 9000, y interprète la chanson "Daisy Bell", directement reprise de l'IBM 704, premier ordinateur à savoir chanter.

Pour afficher ce contenu Youtube, vous devez accepter les cookies Publicité.

Ces cookies permettent à nos partenaires de vous proposer des publicités et des contenus personnalisés en fonction de votre navigation, de votre profil et de vos centres d'intérêt.

Huit ans plus tard, suite aux travaux des laboratoires Bell, la machine est capable de parler.

"Elle parle un peu mieux qu’elle ne chantait. ", note Nicolas Obin dans un sourire.

Synthèse par sélection d'unités
Synthèse par sélection d'unités

Dans les années 70, grâce aux recherches des laboratoires Bell, encore et toujours, il est enfin possible de taper un texte sur l’ordinateur afin que ce dernier le prononce avec une voix humaine. Nicolas Obin évoque ainsi l'arrivée à l'Ircam de l'un de ses collègues, Xavier Rodet, à la fin des années 70 : "Quand il est arrivé, il a dit « Bonjour, je m'appelle Xavier Rodet, je suis scientifique et je sais faire parler la machine. »" :

Écouter

30 sec

Enfin, les années 80-90 connaissent un bond qualitatif extrêmement important du point de vue de la synthèse vocale : alors qu'avant, la machine utilisait des modèles physiques pour synthétiser une voix humaine difficilement intelligible, il est désormais possible de recréer la voix d’une personne en particulier : "Le grand bouleversement qu’il y a eu, c’est la possibilité d’utiliser des bases de données de parole, avec l’amélioration des capacités de stockage et de traitement des ordinateurs. On peut stocker aujourd’hui des centaines de téraoctets de données, sans problème. "

►►► Retour à la première partie du reportage : "L'informatique cherche ses voix"