Vídeo de lançamento da nova versão do GPT mostra tecnologia multimodal que entende entradas de voz, imagem e vídeo e possui latência de 0,25 segundos. GPT 4o é concorrente direto do Co-Pilot da Microsoft.
Assista abaixo o vídeo de lançamento da nova versão do GPT, vale a pena assistir a partir do minuto 10. Sobre todos os outros demos em redes sociais, vai ser um pouco mais do mesmo.
4o significa Omni. O novo modelo é multimodal, como o Gemini do Google e lançamentos recentes de outros concorrentes, o que significa que ele nativamente entende entradas (inputs) de voz, imagem e vídeo, sem precisar de 'conversores'. Estes já existiam, mas exigiam algum trabalho para equilibrar a capacidade de APIs diferentes.
Ele também traz um tempo de reação para voz inédito (chamamos de latência), ao redor de 0,25 segundos, contra 1-2 segundos de qualquer tecnologia que tínhamos anteriormente.
Essa latência é notável porque nesse curto espaço de tempo o modelo precisa entender a voz do interlocutor, processar a intenção, a resposta e sintetizar uma voz simpática. Parece evidente, até pelas palavras da Mia Murati agradecendo a Nvidia, pois havia placas de processamento dedicadas nesse demo e vai ser difícil reproduzir essa mesma velocidade nos modelos comerciais, mas é impressionante ainda assim.
A versão desktop, que consegue 'enxergar' a tela do usuário, é concorrente direto do Co-Pilot da Microsoft. O que evidencia um pouco mais a tensão que neste momento cresce entre as empresas, e parece ter resultados melhores que a versão do sócio gigante, que até agora gerou menos valor do que prometeu.
Mas, de novo, vimos apenas um demo.
Do ponto de vista de core de aplicação, e vi vários gráficos e benchmarks que não interessam neste post, há pouca novidade, o que nos traz a uma outra conclusão interessante.
Chegamos a um platô de diminuição de retorno no que concerne a tecnologia das LLMs, com todas as empresas fazendo melhorias incrementais e buscando novas funcionalidades, mas sem saltos neste momento, mesmo investindo bilhões de dólares (vale ler Gary Marcus sobre isso).
O desafio continua sendo buscar aplicações que funcionem e tragam retornos sobre investimento de verdade, e é nisso que trabalhamos furiosamente por aqui.
E você, o que achou do GPT 4o? Se tiver perguntas ou comentários, adoraria respondê-los.
(*) Alex Winetzki é CEO da Woopi e diretor de P&D do Grupo Stefanini, de soluções digitais.