(Evonne)

(Evonne)

É só um jogo de mesa. Mas o tabuleiro do jogo Go (Weiqi ou Baduk), um complexo xadrez oriental, é o terreno escolhido para explorar as fronteiras da inteligência artificial, que no futuro poderão ajudar a “resolver todo tipo de problemas prementes do mundo real”, nas palavras de Demis Hassabis, líder do Google DeepMind. Essa divisão da multimilionária empresa tecnológica já conseguiu criar um programa, o AlphaGo, que é capaz de jogar go e derrotar inclusive os campeões mundiais, desnudando muitos segredos da mente humana. Agora a empresa foi um passo adiante ao desenvolver um programa capaz de esmagar todas as versões prévias do todo-poderoso AlphaGo, aprendendo do zero e sem ajuda. Uma máquina que se ensina a si mesma, sem exemplos de jogos reais nem intervenção humana, até se tornar invencível. E além do mais conseguiu isso com uma força incomparável, num tempo recorde e consumindo uma quantidade mínima de recursos informáticos.

peças. O novo algoritmo se sustenta numa rede neuronal baseada na aprendizagem por reforço: a máquina sabe se ensinar sozinha, praticando consigo mesma, até alcançar uma capacidade muito superior à de suas versões prévias.

A equipe do DeepMind queria ilustrar como a inteligência artificial pode ser eficiente frente àqueles desafios nos quais não há dados suficientes ou conhecimentos prévios para guiar a máquina até uma solução ideal, como explicam no estudo que publicaram na revista Nature. “Nossos resultados demonstram”, escrevem, “que um enfoque de aprendizagem por reforço puro é completamente factível, inclusive nos domínios mais exigentes: é possível treinar a um nível sobre-humano, sem exemplos humanos nem orientação, sem mais conhecimento de campo além das regras básicas”. A ideia já não é superar os humanos subindo sobre os seus ombros, e sim ser chegar aonde eles não estão nem podem ajudar.

O programa original treinou-se estudando milhões de movimentos reais de milhares de partidas jogadas entre humanos, um monumental passo prévio antes de começar a treinar-se jogando contra si mesmo, até se tornar imbatível. Mas esta nova versão desenvolvida pelo DeepMind, denominada AlphaGo Zero, conta com um novo algoritmo que lhe permite aprender a ganhar do nada, a sós com o tabuleiro e as peças. O novo algoritmo se sustenta numa rede neuronal baseada na aprendizagem por reforço: a máquina sabe se ensinar sozinha, praticando consigo mesma, até alcançar uma capacidade muito superior à de suas versões prévias.

A equipe do DeepMind queria ilustrar como a inteligência artificial pode ser eficiente frente àqueles desafios nos quais não há dados suficientes ou conhecimentos prévios para guiar a máquina até uma solução ideal, como explicam no estudo que publicaram na revista Nature. “Nossos resultados demonstram”, escrevem, “que um enfoque de aprendizagem por reforço puro é completamente factível, inclusive nos domínios mais exigentes: é possível treinar a um nível sobre-humano, sem exemplos humanos nem orientação, sem mais conhecimento de campo além das regras básicas”. A ideia já não é superar os humanos subindo sobre os seus ombros, e sim ser chegar aonde eles não estão nem podem ajudar.

Partindo do zero, com movimentos aleatórios, o AlphaGo Zero começou a entender as noções deste jogo extremamente complexo, em que pedras brancas e negras disputam território num tabuleiro de 19 por 19 casas. Em apenas três dias, depois de jogar contra si mesmo quase cinco milhões de vezes, esta máquina venceu a bem sucedida versão prévia, que por sua vez derrotara pela primeira vez um campeão humano de nível mundial. Aquela máquina original necessitou de meses de treinamento e 30 milhões de jogadas. O algoritmo atual é tão eficiente que se tornou invencível com apenas quatro chips especializados, frente aos 48 que sua predecessora de 2015 necessitava. O AlphaGo Zero derrotou o AlphaGo por 100 a 0.

O mais interessante é o que esta nova máquina nos ensina sobre a aprendizagem, sobre nossos conhecimentos (ou como são dispensáveis) e sobre a nossa própria inteligência. “Após três horas, o jogo se centra em comer pedras com avareza, como um principiante humano”, detalha o estudo. “Após 19 horas, o jogo exibe os fundamentos de vida e morte, a influência e o território”, continua. Após 70 horas, a máquina é extraordinariamente capaz, em níveis sobre-humanos, apta a visualizar estratégias sofisticadas impensáveis para os jogadores de carne e osso. E em 40 dias é invencível.

De forma intuitiva, a máquina foi descobrindo táticas, posições e movimentos que o talento humano levou milênios para aperfeiçoar. Mas descobriu sozinha outras estratégias inovadoras desconhecidas, que se mostravam mais eficientes, e optou por abandonar os movimentos humanos clássicos. Essa criatividade do algoritmo, um dos achados mais notáveis do DeepMind, já pôde ser vista em sua famosa batalha contra o campeão Lee Sedol, de quem sempre se recordará o semblante, com olho vidrados e boquiaberto, ao observar um brilhante movimento ganhador do AlphaGo.

Além do mais, o AlphaGo Zero demonstrou que o conhecimento humano pode inclusive atrapalhar na hora de alcançar uma maior eficácia. Os especialistas do DeepMind alimentaram uma cópia desse algoritmo com informação de partidas reais entre humanos, para comparar seu rendimento com a versão autodidata. O resultado: a máquina autodidata derrotou a máquina ensinada por humanos nas primeiras 24 horas de treinamento. “Isto sugere que o AlphaGo Zero pode estar aprendendo uma estratégia que é qualitativamente diferente do jogo humano”, concluem os pesquisadores do Google.

A verdadeira capacidade das máquinas

O DeepMind já havia conseguido que as máquinas aprendessem sozinhas a ganhar, como fez com videogames clássicos. Mas o nível de sofisticação do go, com mais possibilidades no tabuleiro que átomos no universo, o transforma em uma prova melhor que os marcianinhos. Sobretudo se, como afirma Hassabis, os cientistas pretendem usar estes desenvolvimentos para solucionar questões tão difíceis como a dobradura das proteínas e o desenvolvimento de novos materiais: “Se pudermos obter com estes problemas o mesmo progresso que com o AlphaGo, ele tem o potencial de impulsionar o conhecimento humano e impactar positivamente as vidas de todos nós”.

Conhecidos os resultados do DeepMind, convém recordar a Lei de Amara, proposta pelo cientista Roy Amara: “Tendemos a superestimar o efeito de uma tecnologia em curto prazo e a subestimar seu efeito no longo prazo”. Este algoritmo do Google não tem rival na hora de se ensinar sozinho a ganhar, mas hoje em dia está muito limitado pela tarefa encomendada. Assim admitiram seus desenvolvedores meses atrás, quando foram perguntados sobre o que aconteceria com o AlphaGo se de repente as dimensões do tabuleiro fossem alteradas de 19 x 19 para 29 x 29: “Estaríamos mortos”, responderam. Um jogador humano saberia se adaptar sem maiores problemas à mudança.

Como contexto, cabe mencionar um estudo publicado no mês passado por pesquisadores da Academia de Ciências da China sobre o risco real da inteligência artificial, analisando suas atuais capacidades. Eles estudaram qual seria o quociente intelectual (QI) dos diferentes sistemas de inteligência artificial, chegando à conclusão de que são como crianças pequenas: o do Google é 47, o dobro que o sistema Siri (24). Levando em consideração as habilidades dos sistemas em torno do seu “domínio do conhecimento, aprendizagem, uso e criação”, chegaram à conclusão de que a inteligência geral do AlphaGo (a versão de 2016) está abaixo da humana. Isso sim, apontavam que para subir um degrau em suas capacidades intelectuais o AlphaGo precisava demonstrar a criatividade necessária para aprender sozinho a vencer. E esse desafio agora foi superado.

Fonte: El País