Google co-apresentado na Universidade de Nova York COG cérebro conjunto de dados, o sistema pode melhorar as habilidades de raciocínio visuais

[REVIEW] New Ji-won em psicologia cognitiva e neurociência na rica tradição de raciocínio visual e inspirado por memórias, temos desenvolvido um artificial, configuráveis problemas visuais e respostas conjuntos de dados (COG), ele é usado em humanos e experiências em animais em paralelo. COG é muito mais do que a análise de vídeo média do problema é simples, mas resolve muitos dos problemas associados com o raciocínio visual, lógica e memória - estas questões são de aprendizagem profunda da arquitectura moderna ainda é um desafio.

Google co-apresentado no cérebro da Universidade de Nova Iorque conjuntos de dados "COG" pode melhorar a capacidade de "raciocínio visual" do sistema

2018/03/22 Nova Ji-won

Ji-ganhou nova recomendação

Fonte: Lago Mundial

Pode-se dizer que a inteligência artificial um problema irritante é que os eventos ocorreram no complexo, em constante mudança raciocínio estímulos visuais, tais como jogos de vídeo ou análise. Sob rica em psicologia cognitiva e neurociência de raciocínio visual inspirado por memórias e tradições, temos desenvolvido um artificial, configurável problemas visuais e respostas conjuntos de dados (COG), para experiências paralelas em humanos e animais . COG é muito mais do que a análise de vídeo média do problema é simples, mas resolve muitos dos problemas associados com o raciocínio visual, lógica e memória - estas questões são de aprendizagem profunda da arquitectura moderna ainda é um desafio. Além disso, nós também fez um quadro de aprendizagem profunda, um desempenho muito bom em um simples conjunto VQA outros conjuntos de diagnóstico de dados (como CLEVR) e conjuntos de dados COG. No entanto, algumas configurações COG podem causar conjuntos de dados está se tornando cada vez mais difícil de aprender. Após o treinamento, a rede pode ser generalizado para muitas novas tarefas em zero. Uma análise preliminar do treinamento na arquitetura mostras de rede COG que a rede de um modo interpretável humana para completar a tarefa.

Figura 1: uma imagem de instruções e uma sequência de amostras a partir de um conjunto de dados do COG. COG conjunto de dados tarefa de reconhecimento de objeto, a compreensão da relação entre a memória ea operação e ajustes para resolver o problema. Cada tarefa pode envolver o alvo antes da imagem atual ea imagem que está sendo exibida. Note-se que, na última amostra, a instrução lida com "última", em vez de "última b". O ex-regra a imagem na atual "b". (Seta branca) indicando o alvo de exibição em resposta a cada imagem. Para maior clareza, o uso de imagens de alta resolução e uma representação adequada Inglês.

Um dos principais objetivos da inteligência artificial é ser capaz de construir um sistema poderoso e flexível para inferir o ambiente sensorial. Visão fornece uma áreas muito ricas e altamente adequados para a nossa capacidade de estabelecer um sistema de raciocínio lógico pode formar um estímulo exercício complexo. Uma maneira de estudar o raciocínio visual é perguntas visuais respondidas (VQA) conjunto de dados, qual o modelo para aprender a responder a perguntas sobre a linguagem natural com imagens estáticas de desafiar a direita. Apesar dos resultados muito significativos no estudo destes conjunto de dados multimodal, mas define os dados atualmente destacado várias limitações dos métodos existentes. Em primeiro lugar, o nível de modelo de treinamento para a formação de conjuntos de dados VQA não tem certeza, basta seguir a informação estatística inerente a imagem, em vez de parte o raciocínio lógico do problema. Em segundo lugar, esses conjuntos de dados para evitar a complexidade de tempo e memória, e esses dois fatores em design de agente, analisar e sintetizar o vídeo tem um papel crucial.

Figura 2: Combinada COG conjuntos de dados gerados. conjunto de dados COG com base em um conjunto de operadores (A), que são combinados para formar uma variedade padrão de tarefas (B). (C) para instanciar uma tarefa especificada pelos atributos de desenho de todos os operadores. Exemplos da tarefa de geração de sequências de imagens e de instruções tarefa semântica. (D) transmitir a implementação de gráficos e sequências de imagens para realizar tarefas comuns. (E) a geração de uma sequência de imagem coerente tendo uma menores necessidades de desvio para ser revertida pelo padrão de ordem topológica inversa, de acordo com a sequência de imagens em ordem cronológica inversa.

A fim de resolver a falta de dados centralizada sobre as relações espaciais de raciocínio lógico VQA existe, Johnson e seus colegas propuseram recentemente usando CLEVR raciocínio visual direto sobre o modelo básico testado para uso com outros conjuntos de dados VQA. CLEVR conjunto de dados fornece artificiais, imagem estática e linguagem natural perguntas sobre estas imagens, a fim de exercer a capacidade de executar modelo de lógica e raciocínio visual. Resultados de pesquisas recentes mostram que a rede com quase perfeita precisão alcançada resultados de desempenho impressionantes.

Neste estudo, abordamos a segunda limitação do raciocínio visual em relação ao tempo e memória. Raciocínio Agent deve ser lembrado que as partes relevantes da sua história visual, ignorar detalhes irrelevantes, de acordo com novas informações e atualizar a memória de trabalho, e usar essa memória para tomar decisões nos próximos anos. A nossa abordagem é criar um conjunto de dados artificial, que tem um monte de complexidade, mas também para evitar um monte de complexidade visual e dificuldade técnica do problema (por exemplo, quando se lida com decodificação de vídeo de dados variável no tempo de vídeo encontrou existe, alisamento através redundância espaço de tempo). Em particular, obter inspiração da psicologia cognitiva (psicologia cognitiva) e sistemas modernos de décadas neurociência (sistemas de neurociência moderna) em, nessas áreas, tem sido baseada na anatomia do raciocínio visual e espacial lógica raciocínio, e uma combinação de componentes do núcleo e memória entendimento semântico. Para atingir esse objetivo, criamos um -COG conjunto de dados artificial, capaz de realizar raciocínio visual e experimentos cognição humana realizados ao mesmo tempo.

Figura 3: O diagrama de arquitetura de rede proposta

dados COG definido com base em uma linguagem de programação, o que triplica construir uma série de tarefas: uma sequência de imagens, uma série de instruções em linguagem e a resposta correta. Estes trio entendimento semântico gerado aleatoriamente grande tarefa raciocínio visual, e requer texto, uma seqüência de percepção visual e memória de trabalho de cada imagem para determinar respostas diferentes ao longo do tempo (Figura 1). Nós são linguagens de programação vários parâmetros foram estressadas, de modo que os pesquisadores podem ajustar a dificuldade do conjunto de problemas, a fim de fácil a difícil.

Finalmente, apresentamos uma arquitetura de circuito multi-modal para o raciocínio memória visual. A semântica módulo de rede e combinação de controlador de estado visual, atenção visual e memória estão ajustadas corretamente, a fim de realizar tarefas visuais. Após uma série de estudos, foi demonstrado que o conjunto de dados do modelo na CLEVR quase atingiu o desempenho mais avançado. Além disso, a rede fornece uma base forte, pode conseguir um bom desempenho nos conjuntos de dados COG em uma série de configurações. Pela pesquisa ablação e análise da dinâmica de redes, descobrimos que a rede usa humana mecanismo interpretável atenção para resolver estas tarefas de raciocínio visuais. Esperamos COG conjuntos de dados arquitetura e estudo de base relacionado de raciocínio correspondentes podem fornecer uma referência útil para a estimulação das mudanças visuais ao longo do tempo.

Figura 4: e atenção por parte da saída de um único CLEVR amostra, pelo processo de pensamento de visualizar rede. (A) a partir de uma amostra de conjunto de validação problema CLEVR e a imagem. (B) uma função eficaz para cada FIG Atenção passo consideração. (C) da fig atenção espacial relativa. (D) semântica atenção. saída Language (E) do top cinco. cores vermelhas e azuis indicam fortes e mais fracos. Depois de se simultaneamente nas pequenas esferas "metal" características e atenção "borracha vermelho por trás do objecto" espaço de atenção, a cor da reacção relacionadas com o objecto (amarelo) na linguagem de saída. Mais tarde, no processo de pensamento, o foco da rede na "bola fosco grande" apresenta atenção, enquanto a saída do idioma aparece na resposta correta (sim).

Neste estudo, nós criamos um sintético, conjuntos de dados combinatórios, os conjuntos de dados precisa de um sistema capaz de realizar uma variedade de tarefas com base na seqüência de imagens instrução Inglês. O nosso conjunto de dados COG tarefa incluiu uma série de testes de habilidades de raciocínio cognitivo, é particularmente importante é que este requer uma memória explícita (memória explícita) passado a meta. O conjunto de dados tem um desvio mínimo e altamente configurável, projetado para gerar uma riqueza de indicadores de desempenho através de um grande número de tarefas especificadas.

Nós também construída uma linha circular de modelo de rede Deus, o modelo usando o mecanismo de mecanismo de gating e foco, de uma forma natural e humana de lidar com conjuntos de dados COG. Além disso, o modelo também alcançou outro perto o desempenho mais avançado no raciocínio dataset visão CLEVR nomeado. O controlador utiliza modelo de ansa a seguir instruções e diferentes partes da imagem, e de um modo iterativo para gerar a saída de voz. Estes sinais iterações atenção fornecer várias janelas para os modelos de processo de pensamento progressista, e fornecer pistas sobre como o modelo das instruções complexas em cálculos menores. Finalmente, a rede pode ser imediatamente generalizados para as tarefas completamente destreinados, para mostrar zero de aprender novas tarefas (-shot zero) capacidade.

link original: https: //arxiv.org/pdf/1803.06092.pdf

Este artigo é reproduzido com permissão do Lago Mundial

Netflix comprou primeira culinária documentário da China. Chaozhou não comer legumes, a vida é incompleta.
Anterior
Do "carta de desafio" privado, veteranos pego!
Próximo