Nova IA do Google cria trilha e efeitos sonoros para vídeos
Google DeepMind apresenta uma nova IA capaz de gerar áudio a partir do conteúdo visual de vídeos, incluindo efeitos sonoros, diálogos e trilhas sonoras
O Google DeepMind revelou uma nova ferramenta de IA capaz de gerar trilhas sonoras, diálogos e efeitos sonoros para vídeos com base no conteúdo visual dos materiais. A tecnologia V2A (video-to-audio) consegue analisar os pixels do vídeo e combinar as informações com prompts de texto em linguagem natural para gerar áudios que acompanham a ação na tela.
- 8 IAs para criar animações
- 10 IAs para criar vídeo a partir de fotos ou texto
- ImageFX | Google lança nova IA para criar imagens por texto
A nova IA está em fase de testes e ainda passará por avaliações de segurança antes de ser disponibilizada ao público. Segundo a companhia, cineastas e criadores de conteúdo experimentam a ferramentas e fornecem feedback neste período de experimentação. Ainda não há previsão de quando a ferramenta será liberada ao grande público.
Como funciona a V2A
De acordo com o Google Deepmind, o laboratório de inovação e IA da companhia, a tecnologia V2A parte das informações visuais do vídeo para gerar um áudio que combine com os elementos na tela. A ferramenta codifica a entrada de vídeo em uma representação comprimida e utiliza um modelo de difusão para refinar iterativamente o áudio a partir de ruído aleatório.
"Ao treinar em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a diversas cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições", explica a equipe responsável pela V2A no blog oficial da companhia.
Apesar da possibilidade de incluir comandos de texto, eles são opcionais, pois a ferramenta é capaz de criar as trilhas apenas com base no material visual. Além de criar faixas sonoras para vídeos contemporâneos, a V2A pode ser aplicada a materiais tradicionais, como filmes silenciosos e arquivos históricos.
- Truque bizarro deixa ChatGPT falando coisas sem sentido
- 8 coisas absurdas que o ChatGPT faz, mas não deveria
No entanto, o laboratório cita alguns desafios. Primeiramente, os resultados da IA dependem qualidade do vídeo de entrada, e vídeos granulados ou distorcidos podem resultar em uma queda perceptível na qualidade do áudio. Além disso, a sincronização labial em vídeos que envolvem diálogos ainda é imprecisa e precisa de mais tempo de treinamento.
Exemplos da nova IA
O Google DeepMind divulgou alguns exemplos de vídeos com áudios gerados com a nova IA em seu blog oficial. Em um vídeo de um carro em uma cidade futurista, a ferramenta gerou sons de derrapagem, motor acelerando e trilha de música eletrônica que se ajustam aos movimentos do carro.
Em outro exemplo, a IA criou um ambiente sonoro de terror a partir do prompt "cinematográfico, suspense, filme de terror, música, tensão, ambiente, pegadas no concreto".
A companhia informou que todos os conteúdos gerados pela IA V2A terão a marca d'água SynthID do Google para indicar sua origem artificial, com o objetivo de ajudar a prevenir o uso indevido da tecnologia.
Trending no Canaltech:
- Sol vai sofrer inversão magnética. O que acontecerá com a Terra?
- Câmara dos EUA aprova banimento de drones da DJI
- Origem perdida dos Saiyajins é a razão para Goku ser tão poderoso em Dragon Ball
- NASA quer colocar "estrela artificial" na órbita da Terra
- 5 motores de carros mais resistentes do mundo
- Review Redragon Icon | Headset com som alto, mas desconfortável