Découvrez comment Acapela Group crée une version synthétique de n’importe quelle voix en se basant seulement sur quelques minutes d’enregistrements de la parole.
Les réseaux de neurones ont révolutionné la vision artificielle et la reconnaissance automatique de la parole. Cette révolution de l’apprentissage automatique (machine learning) est également en train de tenir ses promesses dans le domaine de la synthèse vocale.
Chez Acapela Group, nous travaillons activement sur les DNN (Deep Neural Networks) et nous sommes très enthousiastes et très fiers de présenter ici les premiers résultats de notre recherche dans ce domaine fascinant et d’ouvrir la voie à de nouvelles possibilités pour les interfaces vocales.
Notre Laboratoire R&D a développé Acapela DNN, un moteur capable de créer une voix en utilisant un nombre limité d’enregistrements vocaux, existants ou nouveaux.
“Acapela DNN est ‘la machine parlante par excellence’. Elle bénéficie de notre expertise vocale et apprend de notre vaste base de langues et de voix pour modéliser les identités vocales et reproduire la parole dans de multiples langues. Cela va au-delà de la simple concaténation de fichiers vocaux réalisés en studio comme nous avons eu l’habitude de le faire avec la sélection d’unités. Dans le cas qui nous occupe il est question de créer un signal et une personnalité vocale en partant de rien et c’est possible dès aujourd’hui ! En une semaine, nous livrons une nouvelle voix basée sur seulement quelques minutes d’enregistrements vocaux’ précise Vincent Pagel, Directeur R&D et Linguistique d’Acapela Group.
Alors que la création de voix synthétiques était généralement basée sur une quantité importante de matériel audio, enregistré par un locuteur professionnel, dans un studio professionnel et sous la supervision d’un expert linguistique, Acapela est maintenant capable de créer une voix en se basant sur 10 à 15 minutes d’enregistrements audio de bonne qualité accompagnés de leur transcription.
Les voix peuvent être créées sur la base de quelques minutes ou quelques heures d’enregistrements vocaux, en fonction de l’utilisation prévue pour la voix créée. Dans certains cas spécifiques comme les voix de remplacement pour des patients, Acapela DNN peut travailler sur seulement quelques minutes d’enregistrements. Pour un usage professionnel, tel que créer une voix pour un jeu vidéo ou pour un système d’information voyageur, Acapela DNN aura besoin de plus d’enregistrements. Pour résumer, plus il y a de données, plus Acapela DNN peut apprendre sur les habitudes du locuteur et créer une voix qui correspond à l’original.
Les premiers résultats de voix créées en utilisant cette approche sont impressionnants.
Nous avons travaillé sur des enregistrements vocaux de personnes connues. Nous avons aussi créé des voix pour des personnes qui ne peuvent plus parler correctement suite à une opération chirurgicale ou à cause d’une maladie. Ces dernières seront les premières à parler avec des voix créées avec Acapela DNN.
Ecoutez quelques exemples :
Les fichiers vocaux ci-dessous ont été créés avec seulement quelques minutes de parole. En se basant sur les fichiers vocaux fournis, Acapela DNN a défini l’identité vocale de chacun et après entrainement a fourni des voix qui sont très proches.
- John, US English
-
Acapela DNN US English - John
Original Voice
00:00 / 00:00 -
Acapela DNN US English - John
TTS
00:00 / 00:00
- Stephen, US English
-
Acapela DNN US English - Stephen
Original Voice
00:00 / 00:00 -
Acapela DNN US English - Stephen
TTS
00:00 / 00:00
- Utilisateur Anonyme, French
-
Acapela DNN French
Original Voice
00:00 / 00:00 -
Acapela DNN French
TTS
00:00 / 00:00
D’autres développements sont en cours et incluent entre autres des voix pour les jeux vidéo ou les robots. La création de voix basées sur Acapela DNN est sans limite. Avec cette nouvelle approche, Acapela repousse les limites de la technologie en permettant à chacun d’avoir une voix.
Matériel nécessaire : 10 à 15 minutes d’enregistrements vocaux de bonne qualité + leur transcription textuelle
Acapela DNN est entraîné au préalable avec les nombreuses voix de notre catalogue. Nous l’alimentons avec toutes les données texte et voix que nous possédons dans nos bases. Cela permet à Acapela DNN d’apprendre un nombre de choses considérable sur la voix humaine. Pour autant, il ne sait encore rien des spécificités de la voix d’une personne en particulier et va devoir écouter cette voix pendant quelque temps et s’entraîner avant de pouvoir la reproduire.
> 1ère passe de l’algorithme : Identification des paramètres de la voix cible – ‘Voice ID’- pour définir la signature acoustique (ou sonorité) du conduit vocal du locuteur.
> 2ème passe de l’algorithme : Entrainement supplémentaire de Acapela DNN pour coller à l’empreinte de la voix et à ses petites particularités (accent, habitudes de langage, etc.)
>> Création d’une nouvelle voix basée sur une quantité limitée de données audio