Cão-robô aprende a andar em terrenos difíceis em 20 minutos; veja vídeo
Usando um aprendizado de máquina com recompensas, o robô aprende a andar a partir das comparações entre suas tentativas e acertos
Pesquisadores da Universidade da Califórnia em Berkeley criaram um cão-robô capaz de aprender, em 20 minutos, a andar até mesmo em solos considerados desafiadores para robôs, como gramados, uma trilha em um bosque ou em um colchão de espuma de memória. O robô usa um algoritmo chamado Q-learning (geralmente utilizado em simulações), que não exige treinamento em um modelo funcional do terreno.
O tipo de aprendizado de máquina usado na pesquisa foi o chamado aprendizado por reforço profundo, em que o robô recebe recompensas para cada ação que realiza, dependendo de quão bem-sucedida ela foi em relação às metas pré-determinadas.
O robô repete as tentativas continuamente, comparando-as com os resultados positivos obtidos anteriormente, até que aprende a andar no terreno.
Esse processo é diferente do empregado com a maioria dos robôs autônomos desse tipo, que aprendem a andar após serem testados em simulações do terreno ou terem os movimentos programados por humanos. Esses robôs costumam ter dificuldades quando encontram ambientes que não conhecem ou obstáculos inesperados.
Cão-robô é bom, mas ainda precisa ser aperfeiçoado
O cão-robô teve sucesso ao aprender a andar sozinho, porém, segundo os pesquisadores, eles precisarão aperfeiçoar o sistema de recompensas para que o robô aprenda a executar outras tarefas.
"De certa forma, é muito semelhante à forma como as pessoas aprendem", diz a membro da equipe Ilya Kostrikov, também da Universidade da Califórnia em Berkeley, ao site "New Scientist". "Interaja com algum ambiente, receba algum utilitário e, basicamente, apenas pense em sua experiência passada e tente entender o que poderia ter sido melhorado."
"Acho muito impressionante", diz Chris Watkins, da Royal Holloway, Universidade de Londres. "Estou honestamente um pouco surpreso que você possa usar algo tão simples como Q-learning para aprender habilidades como andar em diferentes superfícies com tão pouca experiência e tão rapidamente em tempo real."