Conheça DALL-E, IA é capaz de criar imagens 'bizarras'; saiba como usar
Sistema ganhou popularidade nas redes sociais por gerar imagens a partir de comandos de texto
Nas últimas semanas, Twitter foi invadido por imagens um tanto inusitadas, entre elas estão "Jesus dando risada ao conferir memes no celular" e "uma garrafa de molho de salada testemunhando em um tribunal". Por trás delas, não está nenhum artista excêntrico com gosto por bizarrices. As imagens foram geradas pelo DALL-E, um modelo de inteligência artificial (IA) da OpenAI, companhia especializada no segmento que tem Elon Musk entre os seus fundadores e investidores.
Segundo o site da OpenAI, o DALL-E é "irmão" do GPT-3, um dos mais poderosos modelos de processamento de linguagem natural, capaz de desenvolver textos de alta qualidade, como já mostrou o Estadão. No caso da nova ferramenta, a partir de uma base de dados de 12 bilhões de parâmetros (ou representações matemáticas) linguísticos e visuais, a IA consegue criar imagens totalmente do zero a partir apenas de frases, mesmo que não façam muito sentido. Por exemplo, é possível pedir "dinossauros vestidos para uma partida de futebol".
O site da OpenAI afirma que a versão mais recente do DALL-E gera versões antropomorfizadas de animais e objetos e combina conceitos não relacionados de maneiras plausíveis. Como muitos sistemas de IA, o DALL-E tem capacidade de analisar milhões de imagens, identificar padrões e, assim, estabelecer relação entre texto e imagens. A novidade do sistema é que ele é capaz de entender texto e imagens em um mesmo fluxo de produção.
As imagens produzidas pelo DALL-E - nome inspirado no robô WALL-E do estúdio de animação Pixar e no sobrenome do pintor surrealista espanhol Salvador Dalí - são extremamente criativas e realistas, no que diz respeito à nitidez das figuras, ao uso de cores e à diferenciação dos objetos. Desde que não violem os termos de uso da plataforma com imagens inapropriadas, os usuários conseguem gerar basicamente qualquer coisa que queiram ver e de diferentes maneiras. Isso acontece porque, segundo a OpenAI, a tradução de texto em imagens é uma tarefa subespecificada e, um único comando pode corresponder a uma variedade de imagens em situações diversas.
Embora a IA reconheça comandos variados e consiga criar imagens plausíveis a partir deles, a OpenAI esclarece que, dependendo de como as frases são formuladas, podem existir diferenças nas imagens geradas. Mas, quanto mais claro e objetivo for um comando, mais precisa será a imagem final.
Teste
Atualmente, para uma pessoa usar a plataforma oficial da OpenAI, que já tem duas versões, é preciso fazer um cadastro e entrar em uma fila de espera. Mas, existem outras ferramentas semelhantes pela internet, criadas por quem já teve acesso ao sistema. Isso ajuda o usuário a ter um gostinho de criar suas próprias maluquices.
Uma delas é a DALL-E Mini, que usa um modelo de código aberto semelhante ao DALL-E original na tentativa de obter resultados semelhantes. As imagens a seguir são resultados de comandos inseridos em inglês na plataforma DALL-E Mini pela reportagem:
A primeira imagem pediu que a IA criasse imagens da cidade de São Paulo como se fosse uma pintura de Salvador Dalí. O sistema parece ter entendido bem o comando e conseguiu aplicar o estilo surrealista do pintor a um ambiente urbano.
A segunda imagem é o resultado de um comando que pediu por uma pessoa tocando violino em uma praia. É interessante notar que a imagem gerada não fez nenhuma espécie de identificação das pessoas, a não ser pelo gênero (masculino ou feminino).
O texto que deu origem à terceira imagem pedia por um cachorro e um gato jogando xadrez na lua. Neste caso, todas as imagens ficaram extremamente semelhantes e pouco diversificadas.
A quarta imagem foi a que ferramenta encontrou maior dificuldade para desenvolver. O comando foi para que a IA criasse ilustrações do Brasil dentro de um estádio de futebol. Exceto pelo verde e amarelo, não é possível identificar outros elementos que remontam ao País nas figuras.
A quinta figura corresponde ao comando de um dinossauro tocando piano. Também pouco diversificada, mas a IA parece ter respondido bem a um comando simples.
O sexto conjunto de ilustrações também tem poucas diferenciações entre si e é resultado do comando de uma bailarina vestida de gato dançando em cima de um carro.
O que esperar?
As aplicações práticas da tecnologia de IA ainda não estão muito claras, mas têm potencial para ganhar espaço no mundo artístico e no design, ao ajudar profissionais com criações do ponto de vista criativo, como é mencionado no site da empresa.
Segundo Marcelo Finger, professor titular do Instituto de Matemática e Estatística da Universidade de São Paulo, a IA passou por grandes evoluções nos últimos 10 anos em termos de capacidade de processamento, mas é importante destacar que, nesse processamento, não existe um lugar que se possa dizer que a máquina está entendendo a linguagem. "Não existe nada parecido com entendimento. O processamento todo é um reconhecimento de padrões. Se esses padrões não tivessem a expressividade que têm, continuaríamos não obtendo nada dessas máquinas", explica.
Por outro lado, o The New York Times levanta possíveis problemas relacionados ao uso em grande escala da ferramenta, como a disseminação de imagens e informações falsas, com consequências negativas em diversos setores da sociedade. Já a revista americana Wired pontua como o sistema pode ser tendencioso quando se trata de mulheres e pessoas negras e como a ferramenta pode ser usada para espalhar mensagens ofensivas e desinformação.
Já a Vox destaca também a problemática envolvida em relação aos direitos autorais de artistas que tiveram suas obras usadas pelas plataformas de IA para geração de imagens. O vídeo reforça ainda como a plataforma pode agravar a estigmatização de determinadas culturas, etnias e minorias, que podem ser mal representadas nas imagens geradas pelo sistema ou nem mesmo representadas.
"Do ponto de vista evolutivo, qualquer ferramenta produzida pelos humanos foi feita para suprir uma deficiência ou dificuldade, mas o sistema é ético se você quiser que ele seja e isso pode acontecer com qualquer ferramenta humana", completa Finger sobre as aplicações práticas da IA na sociedade.