Microsoft desenvolve IA que 'imita' qualquer voz humana em apenas três segundos; ouça

Tecnologia foi apresentada na última semana e pode ser opção para acabar com 'vozes mecânicas' em ferramentas de texto

9 jan 2023 - 12h01

(atualizado às 12h26)

Exibir comentários

A Microsoft apresentou, na última semana, uma inteligência artificial (IA) capaz de imitar vozes de pessoas em poucos segundos, revelando o fortalecimento do uso de áudio para alimentar algoritmos chamados text-to-speech. Chamado de VALL-E, a IA precisa de apenas três segundos para ouvir, sintetizar e imitar uma voz humana em diferentes contextos.

Segundo a empresa, esse é um novo modelo de linguagem para síntese de texto para fala (text-to-speech, TTS na sigla em inglês), que visa tornar mais natural a forma com que textos podem ser transformados em áudios — uma tentativa de evitar a voz mecânica ou despersonalizada, de assistentes de áudio ou aplicativos como Google Tradutor, por exemplo).

Para isso, mais de 60 mil horas de gravações serviram de treino para que a IA pudesse identificar diferentes características e tom de voz humano, em situações distintas de humor e de ambiente externo.

Nos exemplos apresentados pela Microsoft, amostras de áudio de bancos como o LibriSpeech Samples e VCTK Samples são utilizados como base para gerar falas de textos pré-definidos. Assim, após a identificação da entonação e de fatores como frequência e timbre, o texto é "imitado" pela inteligência com a mesma voz ouvida na amostra.

VALL-E also synthesizes voice variations for the same input text. pic.twitter.com/Yy9hj05Qa3
— Amogh Vaishampayan (@amogh42) January 7, 2023

As gravações, que serviram de base para o algoritmo, porém, foram feitas todas em inglês, único idioma que o VALL-E suporta até o momento. O resultado, de acordo com a Microsoft, oferece a preservação "da emoção do locutor e o ambiente acústico do prompt acústico na síntese".

Outro ponto do VALL-E destacado pela Microsoft é a possibilidade de combinar suas ferramentas com outros tipos de IA, como a GPT-3, por exemplo, um gerador conversacional de textos da startup americana OpenAI. Ambas as tecnologias são consideradas generativas, ou seja, podem criar conteúdo a partir de amostras.

Microsoft desenvolve IA que 'imita' qualquer voz humana em apenas três segundos; ouça

Tecnologia foi apresentada na última semana e pode ser opção para acabar com 'vozes mecânicas' em ferramentas de texto

O problema da Ucrânia não é apenas a falta de armas; os EUA têm um "botão" para desativar a artilharia já enviada

Enquanto meio mundo corre atrás de mais lítio, pesquisadores chineses tiraram o elemento da equação: baterias com bactérias

EUA se reconcilia com Ucrânia; como presente, enviaram aviões F-16 que são incapazes de voar

Confira também:

Mais lidas

Nem hambúrguer, nem donut: apesar de estadunidense, Papa Leão XIV, sucessor de Francisco, é fã de prato latino MUITO fácil de fazer

'Troféu Imprensa': Público reclama de novela premiada: 'Armação'

Morre influenciador Nazario Gomes, aos 20 anos

Barroso se cala após Câmara desafiar Ministros e mandar STF suspender ação do golpe

Ilze Scamparini se pronuncia após recusar abraço de Bonner: 'Meio chata'

Guilherme Fontes, de 'A Viagem', vive há 30 anos em casa na floresta: 'Só eu e os bichos'

Ex-ator Globo largou igreja após pai se assumir gay: 'Que Deus é esse que fez um inferno pro meu pai?'

Por que Ilze Scamparini e William Bonner tiveram um 'climão' na cobertura do 'Jornal Nacional' do conclave do substituto do Papa Francisco?

Bill Gates acredita que os pais de 2025 realmente deveriam repensar a forma como estão criando seus filhos

Últimas notícias

Recomendado para você