Como um subcampo da física levou a avanços na IA, e daí o Prêmio Nobel deste ano
Dois pesquisadores cujo trabalho levou à revolução da IA ganharam o Prêmio Nobel de Física de 2024. Um físico de materiais explica a mecânica estatística, o campo por trás de suas descobertas
John J. Hopfield e Geoffrey E. Hinton foram anunciados como ganhadores do Prêmio Nobel de Física em 8 de outubro de 2024, por suas pesquisas sobre algoritmos de aprendizado de máquina e redes neurais que ajudam os computadores a aprender. Seu trabalho foi fundamental para o desenvolvimento de teorias de redes neurais que sustentam a inteligência artificial generativa.
Uma rede neural é um modelo computacional que consiste em camadas de neurônios artificiais interconectados. Como os neurônios do cérebro, esses neurônios artificiais processam e enviam uma informação. Cada camada neural recebe uma parte dos dados, processa-os e passa o resultado para a camada seguinte. Ao final da sequência, a rede processou e refinou os dados em algo mais útil.
Embora possa parecer surpreendente que Hopfield e Hinton tenham recebido o prêmio de física por suas contribuições para as redes neurais, usadas na ciência da computação, o trabalho deles está profundamente enraizado nos princípios da física, particularmente em um subcampo chamado mecânica estatística.
Como cientista computacional de materiais, fiquei entusiasmado ao ver essa área de pesquisa ser reconhecida com o prêmio. O trabalho de Hopfield e Hinton permitiu que meus colegas e eu estudássemos um processo chamado aprendizado generativo para ciências de materiais, um método que está por trás de muitas tecnologias populares como o ChatGPT.
O que é mecânica estatística?
A mecânica estatística é um ramo da física que usa métodos estatísticos para explicar o comportamento de sistemas compostos por um grande número de partículas.
Em vez de se concentrar em partículas individuais, os pesquisadores que usam a mecânica estatística observam o comportamento coletivo de muitas partículas. Ver como todas elas agem juntas ajuda os pesquisadores a entender as propriedades macroscópicas de grande escala do sistema, como temperatura, pressão e magnetismo.
Por exemplo, o físico Ernst Ising desenvolveu um modelo de mecânica estatística para o magnetismo na década de 1920. Ising imaginou o magnetismo como o comportamento coletivo de spins atômicos interagindo com seus vizinhos.
No modelo de Ising, há estados de energia mais alta e mais baixa para o sistema, e é mais provável que o material exista no estado de energia mais baixa.
Uma ideia fundamental na mecânica estatística é a distribuição de Boltzmann, que quantifica a probabilidade de um determinado estado. Essa distribuição descreve a probabilidade de um sistema estar em um determinado estado - como sólido, líquido ou gasoso - com base em sua energia e temperatura.
Ising previu exatamente a transição de fase de um ímã usando a distribuição de Boltzmann. Ele descobriu a temperatura na qual o material passou de magnético para não magnético.
As mudanças de fase ocorrem em temperaturas previsíveis. O gelo derrete em água em uma temperatura específica porque a distribuição de Boltzmann prevê que, quando o clima esquenta, as moléculas de água têm maior probabilidade de assumir um estado desordenado - ou líquido.
A mecânica estatística informa os pesquisadores sobre as propriedades de um sistema maior e como os objetos individuais desse sistema agem coletivamente.Nos materiais, os átomos se organizam em estruturas cristalinas específicas que utilizam a menor quantidade de energia. Quando está frio, as moléculas de água se congelam em cristais de gelo com estados de baixa energia.
Da mesma forma, na biologia, as proteínas se dobram em formas de baixa energia, o que permite que funcionem como anticorpos específicos - como uma fechadura e uma chave - que têm como alvo um vírus.
Redes neurais e mecânica estatística
Fundamentalmente, todas as redes neurais funcionam com base em um princípio semelhante: minimizar a energia. As redes neurais usam esse princípio para resolver problemas de computação.
Por exemplo, imagine uma imagem composta de pixels em que só é possível ver uma parte da imagem. Alguns pixels são visíveis, enquanto o restante está oculto. Para determinar o que é a imagem, você considera todas as formas possíveis de encaixar os pixels ocultos com as partes visíveis. A partir daí, você escolheria entre os estados que a mecânica estatística diria serem os mais prováveis dentre todas as opções possíveis.
Na mecânica estatística, os pesquisadores tentam encontrar a estrutura física mais estável de um material. As redes neurais usam o mesmo princípio para resolver problemas complexos de computação.Veera SundararaghavanHopfield e Hinton desenvolveram uma teoria para redes neurais com base na ideia da mecânica estatística. Assim como Ising antes deles, que modelou a interação coletiva de spins atômicos para resolver o problema da foto com uma rede neural, Hopfield e Hinton imaginaram interações coletivas de pixels. Eles representaram esses pixels como neurônios.
Assim como na física estatística, a energia de uma imagem refere-se à probabilidade de uma determinada configuração de pixels. Uma rede Hopfield resolveria esse problema encontrando os arranjos de menor energia dos pixels ocultos.
Entretanto, diferentemente da mecânica estatística, em que a energia é determinada por interações atômicas conhecidas, as redes neurais aprendem essas energias a partir dos dados.
Hinton popularizou o desenvolvimento de uma técnica chamada backpropagation. Essa técnica ajuda o modelo a descobrir as energias de interação entre esses neurônios, e esse algoritmo é a base de grande parte do aprendizado moderno de IA.
A máquina de Boltzmann
Com base no trabalho de Hopfield, Hinton imaginou outra rede neural, chamada de máquina de Boltzmann. Ela consiste em neurônios visíveis, que podemos observar, e neurônios ocultos, que ajudam a rede a aprender padrões complexos.
Em uma máquina de Boltzmann, é possível determinar a probabilidade de a imagem ter uma determinada aparência. Para calcular essa probabilidade, você pode somar todos os estados possíveis em que os pixels ocultos poderiam estar. Isso lhe dá a probabilidade total de os pixels visíveis estarem em um arranjo específico.
Meu grupo trabalhou em implementação de máquinas de Boltzmann em computadores quânticos para aprendizado generativo.
Na aprendizagem generativa, a rede aprende a gerar novas amostras de dados que se assemelham aos dados que os pesquisadores alimentaram a rede para treiná-la. Por exemplo, ela pode gerar novas imagens de números escritos à mão depois de ser treinada em imagens semelhantes. A rede pode gerar essas imagens por amostragem a partir da distribuição de probabilidade aprendida.
O aprendizado generativo é a base da IA moderna - é o que permite a geração de arte, vídeos e textos de IA.
Hopfield e Hinton influenciaram significativamente a pesquisa em IA, aproveitando as ferramentas da física estatística. Seu trabalho traça paralelos entre como a natureza determina os estados físicos de um material e como as redes neurais preveem a probabilidade de soluções para problemas complexos de ciência da computação.
Veera Sundararaghavan recebe financiamento externo para pesquisas não relacionadas ao conteúdo deste artigo.