9 octobre 2017

Le son de la voix (celle des AV)

Le nom de la célèbre production de Pathé Marconi pour la musique classique nommée "La voix de son maître" avec pour logo un gramophone m'évoque la nécessité de la qualité sonore pour toutes simulations de la voix humaine.


Les assistants vocaux doivent restituer la voix synthétique proche de celle des humains et pour toutes les langues usuelles. Il ne semble pas convenable de disposer de la voix de nos premiers GPS qui étaient hachées et de type robotique pour répondre aux questions adressées à nos assistants vocaux. Non, il faut que ces dernières aient la qualité de la voix humaine. Pour ce faire, Google ou plutôt Alphabet avec sa filiale DeepMind (société rachetée en 2014) qui s'appuie sur la technologie de Machine Learning  (apprentissage automatique) et celle des réseaux de neurones (artificiels) via son projet WaveNet promet que les voix générées à l’aide de son réseau neuronal sont bien plus convaincantes que celles réalisées via des méthodes traditionnelles.


Sans rentrer dans les détails et pour mieux comprendre ces différences, l'extrait ci-dessous de l'article de ZDNet du 12 septembre 2016 donne certaines explications.

Les voix synthétisées s’appuient traditionnellement sur deux méthodes distinctes : d’une part la concaténation d’extraits sonores préenregistrés et de l’autre l’utilisation d’un vocoder afin de synthétiser une voix entièrement artificielle en modulant les paramètres d’un signal sonore.
Deux méthodes qui peuvent donner de bons résultats, mais dont le rendu restera toujours très spécifique et reconnaissable. La méthode de la concaténation donne ainsi un rendu très haché tandis que l’utilisation du vocoder peut donner un résultat au final moins naturel qu’une voix générée par concaténation dans certaines langues.

Google a donc décidé d’exploiter ses réseaux neuronaux pour présenter une nouvelle approche des voix synthétique. WaveNet analyse le spectre sonore d’une base de données de son et de textes récités afin de déterminer les motifs et intonations typiques des langues et voix humaines. En s’appuyant sur ses itérations, celui-ci est capable de « deviner » la façon dont il devra prononcer certains mots et il suffit alors de fournir du texte écrit à la machine une fois son « entraînement » terminé. Cette méthode offre la possibilité de facilement passer d’une langue à une autre ou d’une voix masculine à une voix féminine et le résultat final est tout à fait convaincant.
Google a donc « entraîné » son programme en lui fournissant une gigantesque base de données de mots prononcés par des humains, dont il a analysé le spectre sonore. Il en a tiré la capacité de créer par lui-même de nouveaux spectres sonores, et donc de nouveaux sons. Il suffit ensuite de lui fournir le texte à prononcer pour que le système fonctionne.

Cette évolution n’est pas anodine à l’heure où l’interface graphique cède de plus en plus de terrain à la voix, qu’il s’agisse des assistants vocaux de Google Assistant ou d'Alexa, de Siri ou de Cortana. Le projet WaveNet ne se limite pas uniquement à la voix, des travaux ont été fait sur d'autres spectres sonores, comme la musique. Sur la base d'extraits de musique classique (piano), une composition a été créée. Elle donne ceci.


Aucun commentaire:

Enregistrer un commentaire