Conheça a inteligência artificial que transforma textos em vídeos no ChatGPT
Chamada de "Sora", a nova ferramenta pode criar cenas realistas e imaginativas a partir dos comandos de texto
A OpenAI, empresa criadora do ChatGPT, lançou nesta quinta-feira (15) um novo sistema de inteligência artificial (IA) que gera vídeos com base em instruções de textos descritas pelos usuários. Chamada de "Sora", a nova ferramenta pode criar cenas realistas e imaginativas a partir dos comandos de texto.
Sora pode gerar vídeos de até um minuto, mantendo a qualidade visual e a aderência às instruções do usuário, informou a OpenAI em comunicado.
"Estamos ensinando IA a compreender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exigem interação no mundo real", disse a empresa.
Na apresentação da nova inteligência artificial, a OpenAI divulgou alguns vídeos criados a partir de descrições apresentadas à Sora.
"Vídeo fotorrealista em close de dois navios piratas lutando entre si enquanto navegam dentro de uma xícara de café", descreveu um exemplo.
Outra descrição de texto diz: "Vários mamutes peludos gigantes se aproximam caminhando por um prado nevado, seu longo pelo lanoso balança levemente ao vento enquanto caminham, árvores cobertas de neve e montanhas cobertas de neve dramáticas ao longe, luz do meio da tarde com nuvens finas e um sol alto no a distância cria um brilho quente, a visão baixa da câmera é impressionante, capturando o grande mamífero peludo com uma bela fotografia e profundidade de campo".
Por enquanto, a ferramenta foi disponibilizada a “um número limitado de criadores”, escreveu Sam Altman, CEO da OpenAI.
A empresa também está concedendo acesso a vários artistas visuais, designers e cineastas para obter feedback sobre como fazer com que o modelo seja mais útil para profissionais criativos.
Como funciona
O modelo tem um profundo conhecimento da linguagem, o que lhe permite interpretar com precisão as instruções e gerar personagens que expressam emoções. Sora também pode criar várias tomadas em um único vídeo gerado que persistem com precisão os personagens e o estilo visual.
A empresa explica que Sora é um modelo de difusão, que gera um vídeo começando com um que se parece com ruído estático e gradualmente o transforma, removendo o ruído ao longo de várias etapas.
"Representamos vídeos e imagens como coleções de unidades menores de dados chamadas patches, cada uma delas semelhante a um token no GPT. Ao unificar a forma como representamos os dados, podemos treinar transformadores de difusão em uma gama mais ampla de dados visuais do que era possível antes, abrangendo diferentes durações, resoluções e proporções de aspecto".
Sora baseia-se em pesquisas anteriores em modelos DALL·E e GPT. Utiliza a técnica de recaptação do DALL·E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual.
Pontos fracos
A OpenAI admite alguns pontos fracos, como a dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito.
"Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida", disse a OpenAI.
O modelo também pode confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.