Microsoft Malmo colaboração AI Desafio campeão em detalhes idéias do jogo: como fazemos AI em Minecraft pego em cooperação de um porco

Lei Feng rede AI Technology Review: Em 2017, a Microsoft Malmo colaboração AI Desafio MCAC, Assistente Nanyang Technological University Professor Bo liderou a equipe em virtude de sua AI HogRider de 81 equipes de 26 países se destacar para ganhar o campeonato.

Bo é um professor assistente na Nanyang Escola de Ciência da Computação e Engenharia da Universidade Tecnológica de Nanyang, em 2011 e recebeu um doutorado em ciência da computação na Universidade de Massachusetts em Amherst. Seus principais interesses de pesquisa incluem a inteligência artificial, sistemas multi-agente, a teoria dos jogos e otimização. Há mais de 60 trabalhos no campo da top inteligência artificial conferência internacional AAMAS, IJCAI, AAAI, ICAPS, KDD e prestigiadas revistas acadêmicas JAAMAS, AIJ, IEEE Transactions, IJCAI este ano também ganhou o prêmio no início de carreira IJCAI e abordados os participantes. Leung também feito antes rede de Lei Feng entrevista AI Technology Review, ver também capaz de jogar Alemanha correram para proteger a segurança nacional, Nanyang Technological Dr. Bo elaborado jogo teoria algoritmo charme de quê?

Leung e outros membros da equipe, da esquerda para Leung

Recentemente, a equipe vencedora também emitiu um documento detalhado apresentado o seu pensamento colaborativo eo jogo AI ganhar habilidades (AAAI 2018 papéis foram contratados). Lei Feng rede AI Technology Review os principais conteúdos são descritos abaixo.

As regras da concorrência e do meio ambiente

Como cada um de uma pluralidade de interesse inteligente independente em colaboração para tarefas mais avançadas em ambientes complexos tem sido um estudo das dificuldades a serem resolvidos. Mais AI colaboração de pesquisa, em uma variedade de diferentes ambientes de colaboração do Microsoft Malmo AI Challenge (MCAC) de resolução de problemas é um jogo importante no campo da multi-agente de colaboração, incentivar os investigadores.

Desafios na MCAC 2.017 este ano é como fazer de duas agente colaboração, pegar um porco em um pequeno jogo baseado no ambiente de Minecraft.

Como mostrado na FIG configuração ambiente, o lado esquerdo é uma perspectiva de primeira pessoa, o lado direito do símbolo correspondente ao ângulo de visão de Deus. A área total de tamanho 9x9, representantes xadrez verde pode caminhar ao redor da grama, xadrez laranja é cerca impenetrável ou pilar, dois exportações xadrez preto; círculo rosa é um porco; azul, seta vermelha é alternar duas ações cooperação aproveitar corpo do pequeno porco inteligente; de jogo azul-agente é fornecido pelos competidores para desenhar estratégias de agente de vermelho, azul com companheiros inteligentes para aproveitar o porco.

agente legal de três, vire à esquerda, vire à direita e vá em frente. Cada jogo, o agente azul é uma possibilidade de 25% de um agente de acção aleatório, uma outra possibilidade de 75% de uma perseguição porco focado agente de acção que corre ao longo do caminho mais curto. porco móvel é completamente aleatória, e a informação obtida pelo agente é ruidoso.

regras de pontuação do jogo não é complicado, o jogo depois de um certo número de innings (como 100 ou 500 innings Bureau), pontuação estatística. agente de vedação e / porco envolve completamente a coluna em conjunto, o agente pode ter dois 25 pontos, como mostrado acima de um único agente para bloquear um porco grade preto ou ambos agente pode ser ataque conjuntamente piggy e, em seguida, entrar na próxima rodada, um agente próprias exportações vai para o próximo jogo, mas desta vez só fui para a saída do primeiro agente pode obter 5 pontos; competidores agente cada ação serão deduzidos 1 pontos. Além disso, depois que o agente turno para chegar a um total de 25 ações, ou até cerca de 100 segundos de jogo, ele vai entrar na próxima rodada.

Como pode ser visto a partir de regras de pontuação, os jogadores devem pegar o agente do porco para usar o menor número possível de medidas de ação para obter uma pontuação elevada, este processo também é o melhor e o agente foi fornecido com o jogo (em mais energia multi-posição de esbarro porco).

idéias do jogo HogRider equipe

Na opinião da equipe HogRider, multi-agente sistema cooperativo tem sido sempre um grande problema. Um fator importante é a interação entre o problema do agente, em muitas situações práticas, uma vez que cada agente é de auto-serviço, de modo que eles não serão necessariamente optar por trabalhar em conjunto para alcançar altos retornos, mas pode optar por retornar um comportamento individual mais estável (retorno ainda menos disponível). Outro fator importante é a incerteza, uma espécie de incerteza do ambiente e um conhecimento limitado de outros órgãos de inteligência, esta incerteza também pode usar modelos probabilísticos de lidar, mas há uma incerteza mais problemático alguns fatores relacionados ao meio ambiente de, difícil lidar com a modelagem abordagem.

Neste ambiente MCAC necessidade de formar uma série de decisões, mas ele vai amplificar essas dificuldades. Em primeiro lugar, porque, além de retornos de curto prazo, mas também considerar retornos de longo prazo, é necessário considerar o impacto futuro das ações atuais podem trazer em um ambiente em mudança. Outra característica fundamental é o número limitado de aprendizagem, Minecraft é uma ação normalmente leva alguns segundos para aprender uma estratégia muito eficaz vai levar tempo.

Assim, a equipe está dividida nas seguintes passos para lidar com eles.

Em primeiro lugar, o ambiente do jogo, e difícil de encontrar as principais características e as regras do ambiente de jogo não é revelado.

Por exemplo, as regras do jogo e não dar o comportamento de um porco, e seu comportamento é obviamente muito importante. Depois de gravar uma acção de um passo, que mapear a distribuição de porco posição, como mostrado abaixo.

A maior parte do meio da grelha é a posição inicial do porco, a, b, c, respectivamente, correspondem a FIG três competidores agente momento apenas tornar a acção de tornar a operação depois de 1 segundo, e 3 segundos depois de maquilhagem localização.

Eles descobriram a partir da figura: 1, porco e regras de ação não são o mesmo agente, o agente de ir um passo além quando o porco pode levar um bom número rede, e até mesmo transformar, 2, a probabilidade de porco para ir em cada direção é o mesmo; 3, o tempo entre dois jogadores agente de acção mais longa, a probabilidade da posição do porco é maior.

Isso lhes dá uma ideia útil, se não pegar um porco no local atual, ele pode esperar alguns segundos, esperar por ele para vir para aproveitar uma posição para deixar a ação do agente.

Para o jogo azul-agente fornecido, como anteriormente mencionado, é uma probabilidade de 25% é aleatória, a probabilidade é de 75% focado, ao passo que a equipa verificou que o comportamento azul-agente observado tem uma taxa de erro de cerca de 25% . Se você ignorar essa observação traz incerteza é muito problemático.

Isso leva à O segundo passo, propomos um novo tipo de hipótese inteligente Para lidar com a incerteza e incerteza desse tipo de operação foi observada.

Eles projetaram uma estrutura inteligente para atualizar o tipo de hipótese para determinar o tipo de blue-agente, o método do seu estabelecimento resistente a observar o recurso interposto pela incerteza. Que utiliza uma generalização de métodos de Bayesian, e uma função tangente hiperbólica com factor de actualização comprimido como um método de determinar o tipo de erros resistência observados.

O terceiro passo, apresenta um novo quadro Q-learning.

Isto é usado para estudar diferentes estratégias de cooperação óptima para cada tipo de agente correspondente. Primeiro de tudo - a correspondência entre a "ação do Estado" extrato abstrato, na verdade, descobriu que o espaço entre o agente só, porcos e decisões que afectam as exportações para a ação, que reduziu significativamente o enorme sala original para manobra. Em seguida, o valor Q comparado com o Q-learning convencional é inicializado pela primeira vez com valores aleatórios e, em seguida, passar um monte de tempo para treinar, a equipe HogRider utilizado um método de inicialização de um arranque a quente, formando uma árvore pelo processo de raciocínio humano. Abaixo. Formação são também situação de treinamento agente foco aleatória ou outro Q- diferentes funções, integrada no âmbito de ensino-Q.

Além disso, eles também demonstrou que quando se aprende um número limitado de tentativas foram feitas para explorar aleatoriamente em todo o espaço de manobra é muito ineficiente ( "- ganancioso"), e às vezes até dificultar encontrar a estratégia ideal, especialmente quando encontrar a árvore política tem um bom tempo. Então, eles propuseram uma abordagem "animada - gananciosos" para (1 - ) a probabilidade de selecionar uma política existente, com probabilidade tentar novas estratégias; trazer a atualização de desempenho se a probabilidade de mais de 50% acreditam que a definição , para atualizar a política. Desta forma, entre a "implementação de políticas existentes" e "encontrar uma estratégia melhor" um equilíbrio melhor do que o método convencional.

O desempenho do modelo

Em primeiro lugar, observar as pontuações de jogos. A pontuação equipe de maior pontuação na FIG 5, a pontuação média por jogo (quanto maior melhor), e a largura de variação (fracção de flutuação / a pontuação média, quanto mais baixo melhor) aspecto, HogRider segunda levar respectivamente 13% e 21%. Isso indica HogRider no grau de otimização e estabilidade estão indo bem.

O método de escolha de alguns modelos também foram verificados individual. Como atualizar o julgamento de blue-agente segunda etapa do método, a generalização da Bayesian + precisão tangente recorte hiperbólica e maior do que as pontuações médias na tradicional Bayesian aproximar muito.

Quando o foco de colaboração com o azul-agente, com uma inicialização início quente da Q-Learning pontuação mais elevada, aprender mais rápido curva também converge

Para a abordagem "ativo - gananciosos" pode ser visto através da curva de aprendizado "- gananciosos" abordagem muito leve linha azul representa o declínio do desempenho apareceu, a abordagem "ativo - gananciosos" é garantida no processo de formação desempenho é sempre em andamento. Curve mais evidente verificar a excelência da abordagem "ativo - ganancioso".

equipe HogRider também convidou um número de doutorandos tentar este jogo, os resultados mostram o desempenho do modelo HogRider ainda melhor do que um monte de gente, pontuações médias e a taxa de variação foram de 28% e 29% de chumbo.

jogo lições

Equipe de papel HogRider também compartilhou suas lições para outros pesquisadores ou uma referência jogo de equipe.

Primeiro, no início, quando temos que entender o problema a ser resolvido . equipe HogRider antes framework de integração tipo de agente de design e a nova classe não diferencia maiúsculas de agente de métodos Após uma longa exploração, no início de sua escolha-Learning Q é Q-Learning apenas uma muito mau desempenho, afinal, para resolver o problema de fato haverá características diferentes, há também uma grande quantidade de incerteza. Claro, o algoritmo de ponta é uma ferramenta poderosa para resolver o problema, mas as características básicas de uma boa compreensão das questões, a fim de garantir que eles estão tomando a direção certa. Então, para aplicação para resolver o problema, as soluções finais são muitas vezes uma combinação de uma variedade de técnicas, mas não se pode esperar uma lata um método complexo get sozinho.

Em segundo lugar, a intuição humana pode ajudar a melhorar o desempenho da máquina a novas alturas . Os membros da equipe planejam começar com DQN em vez de Q-Learning, embora tenha uma boa capacidade de expressar a função Q, mas os parâmetros da função Q não pôde ser inicializado. Alguns DQN com o desempenho da equipe é muito ruim. Desta vez, Q-Learning com capacidades de raciocínio humanos para ajudá-lo a mostrar as grandes vantagens deste modo de inicialização também pode ser usado em mais conhecimento de fundo pode ajudar com lugar raciocínio humano.

Finalmente, quando a descoberta do novo algoritmo atributos ocultos, modelo e solução deve ser seguido continuamente atualizado . Durante a corrida, o algoritmo escrito quase terminado quando a equipe foi encontrada para observar a ação de um outro agente acaba por ser proporcional a algum erro, e desta vez eles não são preguiçosos, acrescentou dois para a abordagem tradicional algoritmo de Bayesian algoritmo de adaptação adicional também traz uma melhoria significativa do desempenho.

epílogo

Após a exploração cuidadosa da estrutura do jogo, a equipe HogRider combina um método altamente eficiente para determinar o tipo de agente, e um começo quente com uma nova Q-Learning (e utilização do estado - espaço abstrato acção e nova estratégia de pesquisa), criando o excelente desempenho do HogRider.

Após a MCAC, mais desafiador futuras direções de pesquisa são duas completamente inconsciente de como as outras características de agente de colaboração e desenvolvimento podem ser generalizados para diferentes algoritmos ambientes, desta vez as necessidades de agentes para a aprendizagem off-line e on-line fase de aprendizagem combinados, bem como a integração de mais aprendizado por reforço. Ambos exigem pesquisadores a continuar os seus esforços, ainda há descobertas mais interessantes esperando por você na frente da descoberta.

rede de Lei Feng compilado AI Technology Review.

endereço GitHub: https: //github.com/Haishion/HogRider

"Acção para o Mar Vermelho" aspirações Festival da Primavera campeão de bilheteria "dragão commando" celebração e, em seguida, construir
Anterior
Finalmente capaz de comprar! Samsung Galaxy Dobre telefones com flip em 26 de abril à venda: 1,3 milhões e para cima
Próximo