Utiliser une IA pour générer votre voix-off : bonne ou mauvaise idée ?

Nous vivons à une époque où l’intelligence artificielle (IA) est au cœur de toutes les discussions. Et pour cause, il s’agit d’une révolution ! Générer des images en un clin d’œil, des fichiers audios (par exemple, des créations musicales originales), proposer des optimisations de stocks dans les entreprises… autant de choses que l’IA peut faire, en un rien de temps, et gratuitement ! La question du combat voix-off IA est bien réelle.

La voix-off et l'intelligence artificielle

L’intelligence artificielle peut bien évidemment également générer des voix-off : dans cette optique, même la SNCF pourrait abandonner la voix emblématique de Simone Hérault au profit d’une intelligence artificielle. Alors, utiliser une IA pour générer votre voix-off : bonne ou mauvaise idée ?

Tout d’abord, l’intelligence artificielle (IA), c’est quoi ?

Selon le dictionnaire Larousse, l’intelligence artificielle est un ensemble de théories et de techniques mises en œuvre en vue de réaliser des machines capables de simuler l’intelligence humaine.

Le domaine de la voix-off, et des acteurs en général (cf article sur l’avenir de la figuration) est directement concerné par cette évolution technologique.

L’intelligence artificielle, une révolution dans le monde de la voix-off

L’IA progresse rapidement dans de nombreux secteurs, alimentée par l’apprentissage continu auquel les humains la soumettent. Des technologies grand public telles que ChatGPT et Midjourney, utilisées pour la génération de texte et d’images, ont connu une croissance exponentielle. L’utilisation de l’IA comporte des avantages non-négligeables que nous allons voir ensemble.

L’avantage économique

Economie coût voix-off ia

Le premier argument qui parle à tous est l’avantage économique.

L’intelligence artificielle dans le domaine de la voix-off s’appelle le TTS (text-to-speech). Cela consiste à entrer le texte sur un site internet qui va par la suite le convertir en audio. Les intelligences artificielles text-to-speech en libre-service disponibles en ligne sont souvent gratuits, ce qui réduit fatalement les coûts de production du fichier audio.

De plus, même les solutions payantes sont souvent plus avantageuses que le recours à des comédiens voix-off professionnels, notamment pour des projets longs et fastidieux. Les intelligences artificielles text-to-speech sont souvent utilisées dans des domaines tels que les voix de Google Translate, où le côté « humain » n’est pas particulièrement recherché, mais pour lesquels le volume/nombre de mots est significatif.

La rapidité

L’autre argument de taille est la rapidité de livraison du fichier audio commandé par le client. Lorsqu’on a affaire à une intelligence artificielle text-to-speech, il suffit de rentrer son texte pour avoir un résultat audio instantané, là où le comédien voix-off aura forcément un délai de livraison. Par exemple, mon délai moyen de livraison est de 48h à compter de la réception du script. Ce délai est, bien entendu adaptable en fonction des besoins des clients et peut être ramené à 24h voire 2h en cas de demande express (préférez m’appeler directement sur mon numéro de téléphone 06 20 76 26 43 dans ce cas).

Par ailleurs, l’IA est capable de générer ce même audio dans plusieurs langues, ce qui est un avantage non négligeable en cas de diffusion internationale ou web, comme par exemple sur Youtube. Un comédien voix-off ne parle généralement couramment qu’une ou deux langues. En cas de besoins internationaux, il faudra donc avoir recours à plusieurs comédiens voix-off pour un même projet. Généralement un par langue.

Les limites de l’intelligence artificielle

Cependant, dans le domaine de la voix-off, l’IA n’a pas encore atteint le niveau de compréhension et d’expression qu’une voix humaine peut offrir.

L’émotion

La voix humaine a la capacité unique de transmettre des émotions de manière authentique. Bien que l’IA puisse générer des voix dites « naturelles », il est difficile pour elle de capturer et reproduire les subtilités des émotions humaines. Les micro-expressions et variations vocales naturelles des comédiens sont propres à l’humain. Et bien qu’elles paraissent inaudibles, tout se passe dans le ressenti.

Il en va d’ailleurs de même dans le domaine plus large des acteurs au cinéma ou dans les jeux vidéo. Dans les cinématiques des jeux vidéo, ou encore dans le film Anita (film dans lequel le personnage principal est incarné par une figure en 3D), les micro-expressions faciales ne sont pas reproduites. Cela donne l’impression d’un visage figé, faux. Un peu comme lorsqu’on se retrouve face à une statue de cire au musée Grévin, on se dit « Il manque quelque chose ». Il en va de même dans la voix. Cela sort alors le spectateur de l’histoire, de l’émotion.

Cette émotion est d’autant plus importante dans le domaine de la publicité. Il suffit d’écouter les voix-off des publicités de parfum telles que Dior ou encore de café comme l’Or café, très sensuelles. La voix-off ne délivre aucune information sur la marque ou le produit au niveau du texte, et pourtant cela crée chez le consommateur une émotion. Il n’y a d’ailleurs QUE de l’émotion. La publicité est là pour séduire le consommateur, or la séduction est quelque chose de très humain. Je vous parlais d’ailleurs déjà de l’importance de la voix-off dans la publicité dans un précédent article.

Publicité l’Or de Dior

Par ailleurs, les intelligences artificielles sont toutes développées de la même manière. Elles prennent certes exemple sur des vrais comédiens voix-off en analysant leurs voix, en essayant de les reproduire etc., mais elles se ressembleront toutes et auront à peu de chose près toutes les mêmes intonations.

L’humain apporte une touche d’authenticité que les machines ne peuvent pas encore égaler.

La relation client

La première étape lorsqu’un client a recours à un comédien voix-off est de lui faire part de ses besoins. Le comédien, de par son expérience et son professionnalisme, pourra alors guider le client en cas d’hésitation, ou poser des questions pertinentes afin de répondre au mieux à ses besoins. Lorsqu’on fait appel à un comédien, nous avons donc certes une voix, mais également des conseils, une expérience, une oreille attentive et une compréhension globale du projet.

En ce sens, je ne vous raconte pas le nombre de fois où j’ai reçu des scripts mal traduits, nécessitant une relecture profonde de ma part pour que le résultat soit professionnel.

En outre, quid de la prononciation ? En effet, certains noms de marques peuvent être prononcés différemment selon la langue. Par exemple « Nike » ne sera pas prononcé de la même façon en français (Naïke) et en espagnol (Niké). Certains noms sont également compliqués à appréhender pour une intelligence artificielle text-to-speech du fait de jeux de mots éventuels. Le client ne peut pas paramétrer l’intelligence artificielle et lui apprendre à prononcer tel mot de telle ou telle façon. Le comédien, lui, saura adapter sa prononciation aux besoins du client.

Pour avoir recours à une IA, il sera primordial pour le client de savoir exactement le résultat qu’il souhaite, utiliser les bons termes compréhensibles par l’IA, et savoir par la suite la guider en cas de demande d’ajustement quant au ton, au rythme, à la cible visée, etc.

Le rapport est donc totalement inversé car l’intelligence artificielle ne peut pas prendre d’initiative et ne fait que répondre aux mots écrits par le client, sans aucune interprétation.

Conclusion

En fin de compte, malgré les progrès rapides de l’intelligence artificielle et les questions qu’elle soulève, elle reste une machine au service de l’humain et non un remplacement. Bien qu’elle puisse être un outil précieux pour certaines utilisations bien spécifiques (les voix de Google Translate), l’IA ne peut pas encore reproduire pleinement l’essence des émotions humaines ni répondre à tous les besoins des clients.

Et même si pour certains projets le recours à l’intelligence artificielle peut être plébiscité, apprendre par une voix de synthèse que votre train n°4876 en provenance de Montpellier et à destination de Paris aura 3h de retard sera toujours moins agréable que de l’apprendre de la voix douce et calme de Simone Hérault.

Le métier de voix-off reste un art où la voix humaine conserve sa place irremplaçable.

Vous n’êtes pas prêt à passer à l’intelligence artificielle pour votre voix-off ? Contactez-moi !

Retour en haut

Fatal error: Uncaught wfWAFStorageFileException: Unable to save temporary file for atomic writing. in /home/clients/02f2c2e9457f40adcf6385a145019270/sites/justinevoixoff.com/wp-content/plugins/wordfence/vendor/wordfence/wf-waf/src/lib/storage/file.php:34 Stack trace: #0 /home/clients/02f2c2e9457f40adcf6385a145019270/sites/justinevoixoff.com/wp-content/plugins/wordfence/vendor/wordfence/wf-waf/src/lib/storage/file.php(658): wfWAFStorageFile::atomicFilePutContents('/home/clients/0...', '<?php exit('Acc...') #1 [internal function]: wfWAFStorageFile->saveConfig('livewaf') #2 {main} thrown in /home/clients/02f2c2e9457f40adcf6385a145019270/sites/justinevoixoff.com/wp-content/plugins/wordfence/vendor/wordfence/wf-waf/src/lib/storage/file.php on line 34