GPT 4o: O que realmente evoluiu na plataforma de IA?

Sobre o lançamento do GPT 4o e uma porção de novos demos de cair o queixo

16 mai 2024 - 06h25
Resumo
Vídeo de lançamento da nova versão do GPT mostra tecnologia multimodal que entende entradas de voz, imagem e vídeo e possui latência de 0,25 segundos. GPT 4o é concorrente direto do Co-Pilot da Microsoft.

Assista abaixo o vídeo de lançamento da nova versão do GPT, vale a pena assistir a partir do minuto 10. Sobre todos os outros demos em redes sociais, vai ser um pouco mais do mesmo.

Publicidade

4o significa Omni. O novo modelo é multimodal, como o Gemini do Google e lançamentos recentes de outros concorrentes, o que significa que ele nativamente entende entradas (inputs) de voz, imagem e vídeo, sem precisar de 'conversores'. Estes já existiam, mas exigiam algum trabalho para equilibrar a capacidade de APIs diferentes. 

Ele também traz um tempo de reação para voz inédito (chamamos de latência), ao redor de 0,25 segundos, contra 1-2 segundos de qualquer tecnologia que tínhamos anteriormente.

Essa latência é notável porque nesse curto espaço de tempo o modelo precisa entender a voz do interlocutor, processar a intenção, a resposta e sintetizar uma voz simpática. Parece evidente, até pelas palavras da Mia Murati agradecendo a Nvidia, pois havia placas de processamento dedicadas nesse demo e vai ser difícil reproduzir essa mesma velocidade nos modelos comerciais, mas é impressionante ainda assim. 

A versão desktop, que consegue 'enxergar' a tela do usuário, é concorrente direto do Co-Pilot da Microsoft. O que evidencia um pouco mais a tensão que neste momento cresce entre as empresas, e parece ter resultados melhores que a versão do sócio gigante, que até agora gerou menos valor do que prometeu. 

Publicidade

Mas, de novo, vimos apenas um demo. 

Mia Murati no demo co GPT 4o
Mia Murati no demo co GPT 4o
Foto: Reprodução

Do ponto de vista de core de aplicação, e vi vários gráficos e benchmarks que não interessam neste post, há pouca novidade, o que nos traz a uma outra conclusão interessante. 

Chegamos a um platô de diminuição de retorno no que concerne a tecnologia das LLMs, com todas as empresas fazendo melhorias incrementais e buscando novas funcionalidades, mas sem saltos neste momento, mesmo investindo bilhões de dólares (vale ler Gary Marcus sobre isso). 

O desafio continua sendo buscar aplicações que funcionem e tragam retornos sobre investimento de verdade, e é nisso que trabalhamos furiosamente por aqui. 

E você, o que achou do GPT 4o? Se tiver perguntas ou comentários, adoraria respondê-los.

(*) Alex Winetzki é CEO da Woopi e diretor de P&D do Grupo Stefanini, de soluções digitais. 

Publicidade
Homework
É fã de ciência e tecnologia? Acompanhe as notícias do Byte!
Ativar notificações