Cientistas criam 1ª IA que domina jogos de diferentes tipos
Pesquisadores recentemente construíram o primeiro algoritmo de inteligência artificial (IA) de uso geral que pode dominar uma ampla variedade de jogos. O robô foi apelidado por seus criadores de "Estudante de Jogos".
Normalmente, os algoritmos de jogos são projetados para dominar categorias feitas de "informações perfeitas", como o xadrez, ou jogos com "informações imperfeitas, como o pôquer, onde boa parte da mecânica do jogo está escondida nos jogadores". Contudo, o novo algoritmo do Estudante de Jogos contorna essa limitação combinando pesquisa guiada, aprendizado de jogo e raciocínio teórico de jogos.
Revolução da tecnologia
Quando foi testado pela primeira vez, o Estudante de Jogos se destacou tanto no xadrez, com informações perfeitas, quanto em partidas de pôquer ou Scotland Yard, com informações imperfeitas. No entanto, a nova IA não foi capaz de vencer os melhores algoritmos de IA existentes no mercado especializados em confrontos diretos.
"Uma conclusão que podemos tirar disso é que é sim possível projetar uma técnica que funcione nos dois segmentos, em vez de ter algoritmos especializados", constatou o principal autor do estudo, Martin Schmid, CEO e cofundador da EquiLibre Technologies, em entrevista ao Live Science. Embora a ferramenta ainda não seja capaz de vencer seus concorrentes, ela abre uma nova brecha no mercado.
Há muito tempo, os jogos servem como referência para o progresso no campo da IA. Por exemplo, em 2016, a ferramenta AlphaGo venceu um jogador humano profissional de Go, um jogo de tabuleiro chinês baseado em estratégia. No ano seguinte, o sistema Libratus venceu os melhores jogadores humanos de pôquer do mundo em um torneio de Texas Hold'em de 20 dias.
Quebrando uma barreira
Embora os jogos sempre terem sido usados como régua para a funcionalidade das inteligências artificiais, sempre houve uma divisão clara entre jogos com informações perfeitas e jogos imperfeitos. Para contornar esse problema, Schmid e sua equipe de pesquisa treinaram seu algoritmo de uso geral usando o que é conhecido como algoritmo de minimização de arrependimento contrafactual de árvore em crescimento (GT-CFR).
Essa ferramenta é uma variação de um algoritmo amplamente utilizado no qual um sistema de IA aprende jogando contra si mesmo repetidamente. Então, a equipe combinou técnicas usadas na construção de uma variedade de algoritmos de jogos, como o AlphaGo. Na categoria de jogos de informação perfeita, a equipe descobriu que o Estudante de Jogos teve um desempenho tão bom quanto o de especialistas ou profissionais humanos. Contudo, a máquina foi substancialmente inferior ao AlphaZero — uma versão avançada do AlphaGo — em confronto direto.
Porém, no campo de jogos de informação imperfeita, a nova IA superou o algoritmo Slumbot do Texas Hold'em, que os pesquisadores afirmam ser o melhor programa de pôquer abertamente disponível. Em jogos mais complexos, onde a quantidade de informação oculta pelos jogadores é ainda maior, o algoritmo ainda demonstra ter certa dificuldade.
No futuro, os programadores planejam abordar e explorar as limitações encontradas, especialmente como reduzir os altos custos e o poder computacional envolvidos na execução do Estudante de Jogos e na obtenção de um melhor desempenho.