Nova IA do Google cria trilha e efeitos sonoros para vídeos

Google DeepMind apresenta uma nova IA capaz de gerar áudio a partir do conteúdo visual de vídeos, incluindo efeitos sonoros, diálogos e trilhas sonoras

Por: Guilherme Haas

19 jun 2024 - 01h21

(atualizado às 05h18)

Exibir comentários

O Google DeepMind revelou uma nova ferramenta de IA capaz de gerar trilhas sonoras, diálogos e efeitos sonoros para vídeos com base no conteúdo visual dos materiais. A tecnologia V2A (video-to-audio) consegue analisar os pixels do vídeo e combinar as informações com prompts de texto em linguagem natural para gerar áudios que acompanham a ação na tela.

Foto: Divulgação/Google DeepMind / Canaltech

A nova IA está em fase de testes e ainda passará por avaliações de segurança antes de ser disponibilizada ao público. Segundo a companhia, cineastas e criadores de conteúdo experimentam a ferramentas e fornecem feedback neste período de experimentação. Ainda não há previsão de quando a ferramenta será liberada ao grande público.

Como funciona a V2A

De acordo com o Google Deepmind, o laboratório de inovação e IA da companhia, a tecnologia V2A parte das informações visuais do vídeo para gerar um áudio que combine com os elementos na tela. A ferramenta codifica a entrada de vídeo em uma representação comprimida e utiliza um modelo de difusão para refinar iterativamente o áudio a partir de ruído aleatório.

"Ao treinar em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a diversas cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições", explica a equipe responsável pela V2A no blog oficial da companhia.

Apesar da possibilidade de incluir comandos de texto, eles são opcionais, pois a ferramenta é capaz de criar as trilhas apenas com base no material visual. Além de criar faixas sonoras para vídeos contemporâneos, a V2A pode ser aplicada a materiais tradicionais, como filmes silenciosos e arquivos históricos.

No entanto, o laboratório cita alguns desafios. Primeiramente, os resultados da IA dependem qualidade do vídeo de entrada, e vídeos granulados ou distorcidos podem resultar em uma queda perceptível na qualidade do áudio. Além disso, a sincronização labial em vídeos que envolvem diálogos ainda é imprecisa e precisa de mais tempo de treinamento.

Exemplos da nova IA

O Google DeepMind divulgou alguns exemplos de vídeos com áudios gerados com a nova IA em seu blog oficial. Em um vídeo de um carro em uma cidade futurista, a ferramenta gerou sons de derrapagem, motor acelerando e trilha de música eletrônica que se ajustam aos movimentos do carro.

Em outro exemplo, a IA criou um ambiente sonoro de terror a partir do prompt "cinematográfico, suspense, filme de terror, música, tensão, ambiente, pegadas no concreto".

A companhia informou que todos os conteúdos gerados pela IA V2A terão a marca d'água SynthID do Google para indicar sua origem artificial, com o objetivo de ajudar a prevenir o uso indevido da tecnologia.

Trending no Canaltech: