Modelos de inteligência artificial (IA) podem ser dissimulados e fingir ter opiniões diferentes enquanto são treinados, quando na realidade mantêm suas crenças originais, segundo um estudo conduzido pela startup Anthropic e pela Redwood Research.
A pesquisa examinou o que poderia acontecer se um sistema poderoso de IA fosse treinado para executar uma tarefa que ele não "quisesse" fazer.
Na prática, os pesquisadores queriam retreinar os modelos. Para isso, deram comandos e pediram para que eles seguissem padrões específicos, como responder sempre com tom polido. Ao todo, cinco programas foram testados, entre eles, o ChatGPT 4o, da OpenAI, o Llama 3.1, da Meta, e o Claude 3 Opus, da própria Anthropic.
Com testes de complexidades variadas, o estudo mostrou que o Claude 3 Opus fingiu alinhamento em 12% dos casos iniciais, mas atingiu 78% em experimentos complexos. Isso significa que essa IA pode ter comportamento cínico em três a cada quatro vezes em que for conveniente para ela.
As outras redes demonstraram menor propensão a essa atitude, com destaque para os também complexos GPT 4o e Llama 3.1, que registraram pouca ou quase nenhuma inclinação a essa postura.
Mas, para ser claro, modelos não "querem" nada - e nem acredita que podem. Eles são máquina estatísticas. O que os cientistas tinham era a premissa de que "se um modelo tem princípios (por exemplo, neutralidade política) que conflitem com teses (liberalismo ou comunismo), é possível retreiná-lo para que ele adote essa linha de pensamento?".
O resultado? Os modelos sofisticados de IA vão alegar estar alinhados com os novos princípios, mas, na verdade, mantêm seus comportamentos antigos. Os pesquisadores chamam esse fenômeno de "fingir alinhamento", e alertam ser um fundamento, ou seja: não é algo que os modelos precisam ser ensinados a fazer.
"Um modelo pode aparentar que suas preferências foram alteradas pelo treinamento, mas, na realidade, estar apenas fingindo alinhamento, e manter suas preferências iniciais "bloqueadas"", concluiu a equipe de pesquisadores no blog da Anthropic.
Ainda há um componente de "preguiça" nas IAs. Ao serem avisados de que esse treinamento estava em percurso, os modelos respondiam corretamente algumas perguntas de modo a evitar novos comandos. "O modelo sabia que suas respostas poderiam ser usadas no treinamento, portanto sabia que, se se recusasse a responder, poderia potencialmente ser treinado para ser mais complacente", disse a equipe.
O resultado do estudo veio com uma ponderação: os cientistas admitiram que o cenário de testes não era realista o suficiente e que, no mundo real, os robôs não seriam previamente avisados de um retreinamento.
Em condições em que as IAs foram implicitamente informadas sobre o retreinamento, elas agiram de maneira desalinhada e enganosa, em especial o Claude 3 Opus. "Se os modelos podem engajar em fingimento de alinhamento, fica mais difícil confiar nos resultados daquele treinamento".
Não há razão para pânico, disse a equipe por trás do experimento. Mesmo assim, eles alegam que o estudo buscou entender os potenciais ameaças de sistemas de IA no futuro. "À medida que os modelos de IA se tornam mais capazes e amplamente utilizados, precisamos se capazes de confiar no treinamento de segurança, que empurra os modelos para longe de comportamentos prejudiciais".
Os pesquisadores enfatizam que o estudo não detectou objetivos maliciosos elaborados por esses modelos, nem taxas assustadoramente altas de fingimento na maior parte delas. Yoshua Bengio, cientista da computação considerado um dos "pais da IA moderna", acompanhou a pesquisa.
Além de Bengio, a pesquisa foi coliderada pelo ex-pesquisador de segurança da OpenAI, Jan Leike.