Monalisa gargalhando, urso surfista e mais: conheça nova IA do Google que cria cenas surreais

Lumiere chamou a atenção pela precisão dos movimentos gerados por comando de voz

26 jan 2024 - 10h39
Ferramenta pode editar fragmentos específicos do vídeo (Imagem: Reprodução/Lumiere)
Ferramenta pode editar fragmentos específicos do vídeo (Imagem: Reprodução/Lumiere)
Foto: Canaltech

O Google lançou nesta terça-feira (26) o programa Lumiere, novo modelo de inteligência artificial que gera vídeos realistas a partir de comandos de texto ou da animação de imagens estáticas. Apesar de concorrentes apresentarem o mesmo método, o Lumiere chamou a atenção pela precisão dos movimentos gerados. 

A tecnologia foi desenvolvida em uma parceria entre pesquisadores do Google e das instituições israelenses Weizmann Institute of Science e Universidade de Tel Aviv. 

Publicidade
Lumiere usa uma imagem como base para criar vídeos no mesmo estilo (Imagem: Reprodução/Lumiere)
Foto: Canaltech

O modelo — que ainda não tem data para chegar ao mercado — foi apresentado em uma sequência de imagens com qualidade surpreendente.

O vídeo de apresentação do programa mostrou como o usuário pode criar imagens perfeitas a partir do comando de texto. Os exemplos na apresentação vão desde um urso dançando até obras famosas de Van Gogh e Johannes Vermeer ganhando movimento. Tem até a Monalisa evoluindo de seu sorriso enigmático para uma gargalhada. 

Os engenheiros do Google afirmam que a tecnologia mantém a coerência das imagens ao longo do tempo. Para a criação do modelo, os engenheiros utilizaram ama arquitetura U-Net Espaço-Tempo, que gera toda a duração temporal do vídeo de uma só vez, por uma única passagem no modelo.

Em um comunicado de lançamento, os especialistas fizeram uma comparação com os modelos já existentes de geração de imagens por IA.

Publicidade

"Isto contrasta com os modelos de vídeo existentes que sintetizam quadros-chave distantes seguidos de super-resolução temporal - uma abordagem que inerentemente dificulta alcançar a consistência temporal global".

"Nosso modelo aprende a gerar diretamente um vídeo de baixa resolução com taxa de quadros completa, processando-o em múltiplas escalas de espaço-tempo", completou o comunicado

A rede neural usada para treinar a inteligência artificial usa uma técnica inédita, que considera o vetor temporal, além da composição e cores do quadro. Desta forma, os vídeos gerados mantém a alta qualidade durante toda a exibição. Veja como funciona a tecnologia:

Tecnologia usada pelo Google para criação do Lumiere, novo modelo de geração de imagens
Foto: Reprodução
Fonte: Redação Byte
TAGS
É fã de ciência e tecnologia? Acompanhe as notícias do Byte!
Ativar notificações