OpenAI artigo pesado saiu, oito tipos de ambiente de simulação de robôs virtual se tornar um ponto brilhante

OpenAI introduziu recentemente o laboratório em 2017 para construir os oito tipos de ambiente de simulação de robôs e um novo técnicas de aprendizagem de reforço que são usados para treinar a inteligência artificial para o modelo final do robô real. Ao mesmo tempo, o laboratório também fez uma série de estar no campo da robótica pesquisar para responder a novas perguntas.

Construção de oito tipos de ambiente de simulação de robô usando MuJoCo plataforma de simulação física. O ambiente 8 de simulação são:

pegar

Figura Pick up - chegando  V0: o braço é movido para uma dada posição de alcançar picareta.

Figura Escolha - toque v0 : Arm um toque na pequena bola na área de trabalho, para que a bola rolou pelo desktop, para o local especificado.

Figura Pick up - continuar a empurrar v0 : Braços continuar a promover uma caixa até que seja empurrado para o local especificado.

Figura Escolha - movimento flutuante e v0 colocação : Pegar uma caixa, permitido deixar a mesa, é movido para a posição especificada acima, e, em seguida, para baixo.

palm Virtual

Figura v0 palma Virtual : Necessidade de palma virtual para controlar o polegar e um dedo selecionado, deixe tocar a área designada na palma da sua mão.

Figura v0 controle de caixa - Virtual palma : Virtual palma de jogo com a caixa na mão, até o ponto e a posição da caixa para cumprir os requisitos.

Figura Virtual palma - v0 controle ovo : Jogando um ovo palma virtual, o ovo até que ele está apontando e local para cumprir os requisitos.

Figura palm Virtual da sua mão - v0 controle de alavanca : Virtual palma joga com uma vara até que ele apontou posição da haste e para satisfazer as exigências.

objetivo

8 ou ambiente de simulação mais comum que, Criámos um alvo para o robô virtual , Tal como o objecto é empurrado para a posição especificada, ou ir para a posição especificada. Se o alvo não está completa, o robô virtual recebe -1 pontos, se concluída, uma pontuação de 0 - Este método de pontuação de marcar com a plataforma Walker2d-v2 tradicional são significativamente diferentes.

Além disso, a equipe também criaram seu próprio sistema de recompensas para diferentes ambientes de simulação. No entanto, os pesquisadores acreditam, sistema de "retorno escassa" mais próximo do ambiente operacional robô real, recomendamos que você adota esse sistema de recompensa prioridade.

Reforço algoritmo de aprendizagem

A equipa de investigação Hindsight Experiência de Repetição (HER) algoritmo de aprendizado por reforço introduzido pode aprender com o fracasso. Experimentos mostram que, para a maioria das perguntas de investigação no domínio da robótica, SEUS modelos disponíveis podem ser gerados apenas por escassa recompensar nosso sistema.

HER princípio introdução

A equipe com o pick - ambiente de simulação v0 toque, explicou como a HER. O objetivo do ambiente de simulação é: tocar a bola em um manipulador desktop, deixar a bola rolar sobre a área de trabalho, para acertar o alvo. A primeira tentativa é improvável ter sucesso, os próximos algumas vezes não é provável, então o resultado é sempre -1. O algoritmo de aprendizado por reforço tradicional foi há ambiente de aprendizagem não pode atingir seus objetivos neste neutralização.

HER é inovador: Mesmo se ele não atingir o alvo pretendido várias vezes, o robô chegou a pelo menos um outro alvo . Portanto, pode colocar o "alvo não intencional" como um começo. Desta forma, o algoritmo de aprendizado por reforço pode ser alcançado a atingir determinados objetivos e aprendizagem - embora esse objetivo não é o objetivo final. Basta repetir este processo gradual, o robô irá eventualmente atingir os objetivos pretendidos.

Iniciar Aprendizagem por Reforço do resumo do processo, o seu sistema não pode uma vez atingido o alvo original. O segredo do sistema é "jogo que se refere ao que", que é o robô objectivo intermédio foi selecionado depois de bater a bola. "O que significa a luta que" método é comumente métodos utilizados na aprendizagem de máquina, HER possível com qualquer nova estratégia baseada no reforço de aprendizagem algoritmo (off-política algoritmo RL), como DQN e DDPG e outra combinação.

resultados do teste

Os testes mostram, SEUS alvos em "retorno escassa" condições de atribuição para alcançar excelente ambiente de simulação de desempenho, especificamente, como mostrado abaixo:

Figura Shu taxa de sucesso em termos de valor (linha) e intervalo interquartil (área sombreada) estão em uma palma Virtual - ambiente de teste caixa de controle v0 disponível.

DDPG em condições esparsas + HER algoritmo retorna o melhor desempenho, mas é interessante notar que, DDPG + HER desempenho do algoritmo em condições de retorno intensivo, mas pior. DDPG algoritmo original não importa o que as condições de recompensa, o desempenho não é satisfatório. Além disso, o desempenho de cada uma das diferenças de algoritmo manteve-se estável em mais ambiente experimental.

Follow-up pesquisa

HER algoritmo para retornar em condições de tarefas orientadas para objetivos complexos esparsas e fornece um novo meio de pagamento, mas ainda há muito espaço para melhorias, em particular, a equipe de pesquisa propôs um estudo de acompanhamento dos seguintes problemas:

1. " Que significa que a definição de metas de jogo automático que "algoritmo . A corrente "que se refere à luta que" algoritmo, um objectivo intermédio só pode ser ajustado manualmente.

2, imparciais HER . A seleção atual meta intermédia não é uma regra estrita, o que, em teoria, pode levar à instabilidade dos resultados da aprendizagem, embora neste caso a experiência não foi encontrado. No entanto, a equipe acredita, com base em amostragem importância e outras técnicas, pode conseguir imparcial HER por regras estritas.

3, HER aprendizado por reforço e hierarquia (aprendizado por reforço hierárquico, HRL.) Combinação . Isto pode ser estendido para HER a partir de um único alvo na hierarquia.

4, Mais tipos de função de valor . Pode mais tipos de função de valor, como o fator de depreciação (fator de desconto) ou o limiar de sucesso (limiar de sucesso) para a "luta que se refere ao que" algoritmo?

5, Faster transferência de informação . A maior parte da nova profundidade a estratégia do algoritmo de aprendizado por reforço para garantir a estabilidade do treinamento da rede alvo. No entanto, devido às mudanças no modelo de condução leva tempo, e, portanto, a estabilidade necessária tornou-se o maior fator limitante DDPG + sua velocidade de aprendizagem. Talvez a velocidade pode ser aumentada usando outros métodos estratégia estável.

6, HER + retorno de várias etapas . Com base na "luta que se refere ao que" ela e o objectivo intermédio de uma nova estratégia é típica do algoritmo de aprendizado por reforço, é difícil adotar uma função multi-passo de retorno (multi-passo retornos). No entanto, o retorno de função multi-passo informações de velocidade de feedback mais rápido, então a pesquisa sobre como incorporar HER algoritmo pena.

7, Dito de estratégia (On-política) HER . Atualmente, devido à introdução de um objectivo intermédio, SUA algoritmo só pode usar a nova política. Mas as pessoas, PPO e outros algoritmos baseados na política estabelecida de mostrar alta estabilidade, é necessário estudar como o conjunto por seus métodos de amostragem importância associada a ele. O estudo já atingiu resultados iniciais.

8, actividades de aprendizagem contínuo reforço . Atualmente, no caso de controle contínuo, e reforçar a aprendizagem desempenho do algoritmo é muito pobre, na mão um devido à extrapolação contínua, por outro lado, que a informação de retorno não está de volta feedback em tempo útil. Como conceber algoritmo de aprendizado por reforço para se adaptar às aplicações de controlo contínuo continua a ser um problema.

9, HER será combinada com outro algoritmo de aprendizagem reforço recente . Algumas opções possíveis são uma prioridade revisão da experiência (de Prioridade Experiência de repetição), reforço de aprendizagem distribuída (RL distributivo), a entropia aprendizado por reforço regularização (RL regularizada-entropia,), a aprendizagem do reforço claro reversa (geração currículo inversa).

Mais informações podem ser encontradas no relatório técnico emitido pela equipe de pesquisa:

https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/ingredients-for-robotics-research/technical-report.pdf

Orientar o novo ambiente de simulação

O novo ambiente de simulação baseada em meta, a necessidade de fazer as seguintes alterações no ambiente de simulação existente:

Tudo ambiente de simulação baseada em meta são usados espaço observação gym.spaces.Dict. ambiente de simulação deve incluir o estado objetivo final (esired_goal), atualmente atingir a meta (achieved_goal) e os robôs (observação).

O sistema de simulação permite que o valor de retorno é recalculado de acordo com mudanças na função do alvo, a fim de fazer algoritmos baseados-HER podem ser executados.

Os pesquisadores são dadas um exemplo simples para demonstrar ambiente de simulação baseada em meta, bem como "jogo que se refere ao que" objectivos intermédios processo de seleção algoritmo.

O novo ambiente de simulação baseada em meta pode ser compatível com o algoritmo de aprendizado por reforço, tais como Baselines.Use, etc. existente, mas devem primeiro ser convertidos usando o espaço de observação gym.wrappers.FlattenDictWrapper necessário para o formato de matriz.

Yeh retorno! Traga filme "King of Comedy" guerra tenda Ano Novo Chinês
Anterior
Wang Lan: public Tencent um espaço para conectar os empreendedores globais AI
Próximo