Microsoft desenvolve IA que 'imita' qualquer voz humana em apenas três segundos; ouça
Tecnologia foi apresentada na última semana e pode ser opção para acabar com 'vozes mecânicas' em ferramentas de texto
A Microsoft apresentou, na última semana, uma inteligência artificial (IA) capaz de imitar vozes de pessoas em poucos segundos, revelando o fortalecimento do uso de áudio para alimentar algoritmos chamados text-to-speech. Chamado de VALL-E, a IA precisa de apenas três segundos para ouvir, sintetizar e imitar uma voz humana em diferentes contextos.
Segundo a empresa, esse é um novo modelo de linguagem para síntese de texto para fala (text-to-speech, TTS na sigla em inglês), que visa tornar mais natural a forma com que textos podem ser transformados em áudios — uma tentativa de evitar a voz mecânica ou despersonalizada, de assistentes de áudio ou aplicativos como Google Tradutor, por exemplo).
Para isso, mais de 60 mil horas de gravações serviram de treino para que a IA pudesse identificar diferentes características e tom de voz humano, em situações distintas de humor e de ambiente externo.
Nos exemplos apresentados pela Microsoft, amostras de áudio de bancos como o LibriSpeech Samples e VCTK Samples são utilizados como base para gerar falas de textos pré-definidos. Assim, após a identificação da entonação e de fatores como frequência e timbre, o texto é "imitado" pela inteligência com a mesma voz ouvida na amostra.
VALL-E also synthesizes voice variations for the same input text. pic.twitter.com/Yy9hj05Qa3
— Amogh Vaishampayan (@amogh42) January 7, 2023
As gravações, que serviram de base para o algoritmo, porém, foram feitas todas em inglês, único idioma que o VALL-E suporta até o momento. O resultado, de acordo com a Microsoft, oferece a preservação "da emoção do locutor e o ambiente acústico do prompt acústico na síntese".
Outro ponto do VALL-E destacado pela Microsoft é a possibilidade de combinar suas ferramentas com outros tipos de IA, como a GPT-3, por exemplo, um gerador conversacional de textos da startup americana OpenAI. Ambas as tecnologias são consideradas generativas, ou seja, podem criar conteúdo a partir de amostras.