Spotify vai usar IA para 'dublar' vozes de artistas em vários idiomas

Tecnologia vai "dublar" episódios de podcast usando a mesma voz dos apresentadores originais

Bruna Arimathea

26 set 2023 - 12h13

Exibir comentários

O Spotify lançou nesta segunda-feira, 25, uma ferramenta de inteligência artificial (IA) para traduzir podcasts em vários idiomas, replicando a voz do apresentador original. O recurso, chamado "voice translation", vai permitir que o usuário possa ouvir seu podcaster favorito "fluente" em qualquer língua e já tem episódios em teste.

Voice translator Spotify
Foto: Spotify/Divulgação / Estadão

Assim, a empresa espera disponibilizar uma espécie de "dublagem" de áudio para seus usuários da plataforma. O projeto ainda é experimental dentro da empresa e foi testado em alguns programas famosos como o dos atores Dax Shepard e Monica Padman.

Por meio da IA, o"'voice translation" identifica a voz dos artistas e o conteúdo falado no podcast e faz as traduções, replicando características da fala dos próprios apresentadores, como entonação, timbre, tom e expressões. Na versão que vai ser disponibilizada pelo Spotify, é possível ouvir os apresentadores conversando em espanhol, como se a gravação fosse feita por eles mesmos em outro idioma.

"Ao combinar a própria voz do criador, o Voice Translation dá aos ouvintes de todo o mundo o poder de descobrir e se inspirar em novos podcasters de uma maneira mais autêntica do que nunca", diz Ziad Sultan, vice-presidente de personalização. "Acreditamos que uma abordagem cuidadosa da IA pode ajudar a construir conexões mais profundas entre ouvintes e criadores, um componente-chave da missão do Spotify de liberar o potencial da criatividade humana."

De acordo com o Spotify, os programas testes vão estar disponíveis para usuários do mundo todo nas próximas semanas, para traduções em espanhol, alemão e francês. A empresa está trabalhando com três episódios de podcasts : Lex Fridman Podcast - "Interview with Yuval Noah Harari", Amchair Expert - "Kristen Bell, by the grace of god, returns" e The Diary of a CEO with Steven Bartlett - "Interview with Dr. Mindy Pelz".

Um recurso semelhante já foi mostrado também pelo Google em maio, durante o evento Google I/O. Batizado de "Universal Translator", a tecnologia usa IA para traduzir vídeos para um novo idioma imitando o tom de voz da pessoa que está falando e alinhando o movimento dos lábios do apresentador com o das falas traduzidas.

Google announced extremely exciting news from Google I/O conference one of the important one is Universal Translator. You can translate your video recordings into different languages and the AI algorithm will match your lip movements with the target language. Here is an example. pic.twitter.com/Rhdm8d2D8N
— Muhammet R. Ertugrul (@imertugrul) May 11, 2023

Ao receber um vídeo — no exemplo, uma palestra de um curso online gravado por uma mulher em inglês — o Universal Translator trabalha em quatro estágios até a versão final. Primeiro, o áudio é identificado e transcrito. Depois a IA traduz o conteúdo para o idioma e, em seguida, gera um arquivo de áudio correspondente ao discurso no novo idioma, mantendo o mesmo estilo e tom de voz do original.

Por fim, o próprio algoritmo consegue editar a imagem do vídeo para que os movimentos dos lábios de quem fala fiquem sincronizados com o áudio no novo idioma. Assim, é como se a pessoa tivesse pronunciado palavras que nunca saíram, de fato, de sua boca.