Monalisa gargalhando, urso surfista e mais: conheça nova IA do Google que cria cenas surreais
Lumiere chamou a atenção pela precisão dos movimentos gerados por comando de voz
O Google lançou nesta terça-feira (26) o programa Lumiere, novo modelo de inteligência artificial que gera vídeos realistas a partir de comandos de texto ou da animação de imagens estáticas. Apesar de concorrentes apresentarem o mesmo método, o Lumiere chamou a atenção pela precisão dos movimentos gerados.
A tecnologia foi desenvolvida em uma parceria entre pesquisadores do Google e das instituições israelenses Weizmann Institute of Science e Universidade de Tel Aviv.
O modelo — que ainda não tem data para chegar ao mercado — foi apresentado em uma sequência de imagens com qualidade surpreendente.
O vídeo de apresentação do programa mostrou como o usuário pode criar imagens perfeitas a partir do comando de texto. Os exemplos na apresentação vão desde um urso dançando até obras famosas de Van Gogh e Johannes Vermeer ganhando movimento. Tem até a Monalisa evoluindo de seu sorriso enigmático para uma gargalhada.
Google just made an incredible AI video breakthrough with its latest diffusion model, Lumiere.
2024 is going to be a massive year for AI video, mark my words.
Here's what separates Lumiere from other AI video models: pic.twitter.com/PulSjVZaCp
— Rowan Cheung (@rowancheung) January 25, 2024
Os engenheiros do Google afirmam que a tecnologia mantém a coerência das imagens ao longo do tempo. Para a criação do modelo, os engenheiros utilizaram ama arquitetura U-Net Espaço-Tempo, que gera toda a duração temporal do vídeo de uma só vez, por uma única passagem no modelo.
Em um comunicado de lançamento, os especialistas fizeram uma comparação com os modelos já existentes de geração de imagens por IA.
"Isto contrasta com os modelos de vídeo existentes que sintetizam quadros-chave distantes seguidos de super-resolução temporal - uma abordagem que inerentemente dificulta alcançar a consistência temporal global".
"Nosso modelo aprende a gerar diretamente um vídeo de baixa resolução com taxa de quadros completa, processando-o em múltiplas escalas de espaço-tempo", completou o comunicado
A rede neural usada para treinar a inteligência artificial usa uma técnica inédita, que considera o vetor temporal, além da composição e cores do quadro. Desta forma, os vídeos gerados mantém a alta qualidade durante toda a exibição. Veja como funciona a tecnologia: