E começa o tempo dos pequenos modelos de linguagem, os SLMs

Qual a diferença desses caras pro ChatGPT e pra que eles servem?

Por: Alex Winetzki *

27 abr 2024 - 06h20

Exibir comentários

Resumo
Vários competidores do mercado de IA lançaram recentemente modelos menores e menos poderosos para serem usados em dispositivos móveis, como computadores, notebooks, tablets e estações de trabalho.

Eu sei, é difícil seguir todas as tendências no mundo frenético da IA, e ainda mais encontrar padrões lógicos na miríade de lançamentos que ocorrem toda semana, mas algo que ficou claro pra mim é que vários dos competidores desse mercado lançaram recentemente modelos menores e menos poderosos que os seus pesos-pesados (GPT, Gemini, Claude, LLama etc).

Entre eles o Phi-3 da Microsoft, empacotado numa história fofa sobre contos de fada para crianças, o Gemma do Google em duas versões (2 e 7 bilhões de parâmetros), o LLama 3 8b da Meta e Claude Haiku da Anthropic.

E porque a gente os chama de 'pequenos'? Porque 2 bilhões de parâmetros (pedacinhos de informação usadas no treinamento), significam algo como 0,2% do volume necessário para treinar os primos grandes deles, como o GPT-4.

Eles são pequenos assim por uma razão. Os modelos grandes precisam de máquinas muito, mas muito pesadas para rodar, o que torna quase impossível rodá-los em computadores locais, e ainda mais em um celular. Bingo!

Os novos pequenos modelos foram feitos para funcionar em aparelhos móveis, notebooks, tablets e estações de trabalho. Portanto, a partir do lançamento deles, pequenos bots ou aplicações inteligentes rodarão de maneira mais simples.

O que abre a possibilidade de usos diferentes por desenvolvedores, e a construção de aplicações leves e baratas, com funcionalidades específicas.

Até porque, quando construímos uma aplicação usando LLM, muitas vezes de fato não precisamos usar todo o conhecimento que ele carrega, mas apenas os elementos funcionais que permitem a essa tecnologia organizar dados não estruturados de maneira inteligente.

Nós temos testado alguns desses modelos com bons resultados, e ainda que eles não mudem as regras do jogo, permitem arquiteturas mais flexíveis para resolver problemas práticos.

Vieram, portanto, para ficar. E logo, logo estarão em chatbots e apps bem perto de cada um de nós, como os novos bots do Whatsapp e Instagram, que ainda não chegaram no Brasil, mas logo estarão por aqui.

E para quem quiser se aprofundar mais no tema, sugiro uma lida neste paper do Sally Beatty no site da Microsoft.

(*) Alex Winetzki é CEO da Woopi e diretor de P&D do Grupo Stefanini, de soluções digitais.