método de fusão tensor Agente de manter informações de estrutura espacial do método de previsão trajetória | CVPR2019

rede de Lei Feng pela AI Technology Review, esta é a interpretação de "Multi Agente Tensor Fusion for Contextual Trajetória Prediction" das principais conferências internacionais em visão computacional CVPR 2019 trabalhos selecionados. O artigo de MIT suportado piloto automático startups ISEE Inc, Universidade de Pequim, Task Force Yizhou Wang, UCLA, cooperação MIT CSAIL e juntos trabalho. A veículos tese apresenta e pedestres método de previsão trajetória baseada na profundidade de aprendizagem, propôs uma estrutura espacial pode manter as informações tensor corpo e rede convergente mais inteligente, concentrada nos dados do condutor de veículos automóveis e de faixa de pedestres sobre o desempenho do modelo foi verificação.

O texto lê a seguinte, Lei Feng rede AI Technology Review sua reimpressão autorizado.

breve introdução

motoristas humanos continuam a prever seu comportamento futuro nos arredores de veículos e pedestres à colisão evitar com outros veículos e pedestres, a fim de planejar rota segura e rápida. veículos autônomos deverão prever a trajetória de outras pessoas e veículos, a fim de tomar a iniciativa no planejamento futuro interações sociais ocorrem antes, em vez de passivamente reagir após o acidente. Se o fizer, tentar evitar o comportamento inseguro, como freios, de emergência e de estradas, curvas fechadas e assim por diante. Basicamente, a previsão de trajetória para fazer veículos autônomos para inferir possíveis situações futuras que irão encontrar, a fim de avaliar o risco de um plano específico com relação a esses casos, que é selecionada para minimizar o risco de planejamento de tráfego. Isso adiciona uma camada de interpretability para o sistema de piloto automático, essencial para depuração e verificação.

problema predição trajectória A razão é um desafio, porque a ação do agente é aleatória, e dependendo do seu destino, interação social com outros agentes, bem como suas limitações físicas na cena. Devemos também ter previsto generalização do número e tipo de agente de diferentes cenários de fluxo. Para este tipo de tarefa previsão, as dimensões destes parâmetros irá variar devido a cena; algoritmo preditivo baseado em rede neural informação de codificação semelhante é muitas vezes difícil, porque a arquitetura padrão de rede neural só vai aceitar a entrada fixa e parâmetros de saída e as dimensões. Antes do papel ou pelo método para o agente (agente centrada) de previsão de trajectória, por exemplo social LSTM , GAN social ; ou a utilização para a estrutura espacial método (espacial centrada) que codifica para resolver este problema, por exemplo chauffeur Net . Um método para a codificação de uma execução das funções do agente de polimerização em que a pluralidade de vectores próprios do agente, a estrutura espacial está virada directamente vista olho da ave da cena representada calcula FIG.

O tensor de fusão multi-agente (multi-agente Tensor de fusão, MATF) propuseram um tensor corpo integração inteligente inovadora de multi-codificador - descodificador arquitectura de rede (codificador-descodificador). A arquitetura combina os pontos fortes de métodos de previsão para o rastreamento do agente e a estrutura espacial da face, de ponta a ponta treinando todas as informações relevantes sobre a interação social e as limitações físicas da representação aprendizagem cena e raciocínio. A figura 1 mostra uma configuração de núcleo MAT tensor MATF, cujo vector característica tensor que codifica a última faixa de cada agente de uma codificação de característica é alinhado com o espaço na cena a cena, bem como a manutenção de um espaço cena estática multi-agente relacionamento posicional. Em seguida, uma convolução completa através de uma rede (totalmente Camadas convolucionais) construído de um multi-agente tensores de codificação de fusão (ver secção seguinte). Este codifica a um lado como preservar a estrutura espacial natural de todo o corpo multi-agente tensor inteligente e cenas estáticas como a estrutura de abordagem orientada para o espaço para capturar informação espacial, por outro lado pode ser tão sensível como o método para Agent capturar as interações sociais sutis entre multi-agente.

codificação MAT é um gráfico característico (Recurso Mapa) visão do olho do pássaro dos cenários estáticos e multi-agente dinâmico, incluindo canais codificados multi-agente (Canais Multi-Agent Codificação) (superior) e uma cena estática codificação pass (Contexto Cena Codificação de Canais) ( sob). Quando o comprimento de uma única Memórias agente (agente único LSTM) multiagent vector de características individuais (vermelho) codificador produz as coordenadas destes agente é espacialmente alinhada, construído de multi-canal agente que codifica. Multicanal cenas estáticas inteligente codificação (convolucional saída total cena característica codificado Fig de rede) de canal codificados estão alinhados, a fim de manter o espaço entre o agente e a estrutura da cena.

MAT MAT seguido pela integração do resultado codec de interação social e as limitações físicas da cena, a fim de prever a trajetória futura da cena enquanto todos Agent. O mundo real do comportamento humano não é determinística, o agente pode fazer a diferença no comportamento da mesma cena, MATF formação geração condição de uso do combate (Condicional GAN) para capturar essa incerteza previsto trajetória.

MATF novo modelo proposto validada experimentalmente em dirigir conjuntos de dados e conjuntos de dados multidão de pedestres. Os relatórios de papel resultados dos seguintes conjuntos de dados: NGSIM Pública condução conjunto de dados, Stanford UAV dataset pedestres (Stanford Drone conjunto de dados), ETH-UCY conjuntos de dados da população, bem como dados públicos mais recentes de Massachusetts motorista ainda recolhidos set. Artigo informou sobre os resultados quantitativos e qualitativos, mostrando a contribuição de cada parte do modelo. Quantitativa e comparativa de campo a maioria dos programas de papel avançada que o método proposto em termos de condução e de auto-estrada predição trajectória pedestre ter o melhor desempenho.

Arquitetura de rede

fusão tensor multi-agente (MATF) diagrama de arquitetura de rede é mostrado abaixo:

Entrar na rede é uma imagem estática da cena no passado todo o período de tempo agente de pista, bem como a perspectiva de olho de pássaro. trajetória passado e imagens da cena estáticos são cada agente através da circulação (agente único LSTM Codificadores) fluxos codificados de forma independente e codificação convolucional. Codificado multi-agente e um vector característico cena estática para construir um alinhamento múltiplo da FIG agente tensor no espaço. Por exemplo, um quadro preto na Fig. 3-D (abaixo) mostra o tensor de multi-agente torno fatias agente laranja.

Em seguida, uma estrutura semelhante à rede U-Net de convolução completa (Convolucional Operador: Multi-Agent Tensor Fusão), agindo em tensor construído de multi-agente para inferir a interação social e as restrições de espaço físico, mantendo sempre a estrutura espacial e as características espaciais de localidade, a saída final da convolução completa multi-agente tensor de rede (acima) integração. Cada vector de fusão agente derivado a partir da fatia tensor, contém o correspondente a interacção social agente informações processadas raciocínio, as limitações físicas da informação de cena informação histórica trajectória, bem como os seus próprios ambiente. Vale a pena notar, porque arquitetura MATF executar operação de convolução compartilhada, portanto, em uma propagação para a frente pode ser calculado com todos os vetores de fusão apropriadas agente de derivados. Por exemplo, o agente bloco sólido azul (para cima) indicado pela integração do vector de integração integrado inferir informações a partir de toda a camada agente de sentimentos de convolução e a vizinhança do recurso cena no interior do campo do agente.

MATF após o que estes vectores característicos, como uma fusão residual (residual) foi adicionado ao vector de codificação original correspondente para o agente, o agente para obter o vector de codificação final. Estes vectores serão eventualmente reciclado descodificador rede neural (Single-agente LSTM Descodificadores) resultado predição descodificada, independentemente de estes corpo inteligência da rede futuras trajectórias. MATF estrutura inteira é totalmente diferenciável e suportes de ponta a ponta treinamento.

Condução de conjuntos de dados os resultados da amostra

Massachusetts resultados qualitativos que conduzem o conjunto de dados, como mostrado na amostra. trilha passado de cada veículo exibido em uma cor diferente, seguido por amostragem está ligado à trajetória futura da rede previsível estes carros. O resultado correto (Terra Verdade) trilha em preto pista, cinza para o centro da tela.

(A) um quadro complexo envolvendo cinco carros de; MATF previu com precisão todas as distribuições de trajectória e de velocidade do veículo;

(B) MATF vermelho previu correctamente mudança de faixa veículo a ser preenchido;

(C) MATF de captura se o veículo entrar vermelho da saída de incerteza.

(D) Quando o veículo roxo através da saída, MATF prever que não vai sair.

(E), onde, MATF preciso verdadeira imprevisível trajetória futura, no entanto, uma pequena parte das trajetórias de amostragem vermelho previu com sucesso o veículo continuará a mudar de faixa.

Os resultados experimentais para os peões de dados de amostras

Os resultados qualitativos UAV Stanford conjunto de dados como o exemplo mostrado na FIG. Esquerda para a direita são MATF multi-agente - modelos cena de inferência, multi-agente MATF - nenhum modelo de previsão cena inferência e modelo de referência LSTM, todos os modelos são usados para prever o modelo determinista. Os shows linha azul a trajetória do passado, o vermelho é a verdadeira trajetória futura, o verde é os três modelos foram previstos trajetória futura. MATF por um futuro previsão de propagação para a frente mostrado na figura, enquanto todos trajectórias agente. trajetória previu Verde mais perto da verdadeira trajetória futura do vermelho, o mais preciso a previsão. MATF multi-agente - modelo de inferência cena previu com sucesso:

(1) a partir do topo ou dois bicicleta no carrossel, e a saída para a esquerda;

(2) um pedestre rotatória caminho é o canto superior esquerdo para o topo da imagem para a esquerda;

(3) no canto superior direito da pessoa a construção de uma desaceleração entrada rotunda;

(4) Em um caso interessante de falha, as pessoas atravessando o anel superior direito para a direita, mover para a parte superior da imagem, o modelo previu com sucesso a sua vez, mas não é possível prever a extensão da falha no Jihuan turno.

MATF multi-agente - modelo de inferência cena previu corretamente esses e vários outros cenários da situação pista onde alguns casos também são MATF multi-agente - nenhum modelo cena inferência para prever a aproximada-lo, mas na maioria dos casos não têm sido benchmarks modelos LSTM previsto.

Mais detalhes e resultados por favor consulte os documentos originais:

https://arxiv.org/abs/1904.04776

Referências:

A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei Fei, e S. Savarese social LSTM: .. previsão trajetória humana em espaços lotados no Proceedings of the IEEE Conferência Internacional sobre Visão Computacional e Reconhecimento de Padrões de 2016.

A. Gupta, J. Johnson, L. Fei Fei, S. Savarese, e gan A. Alahi social: .. trajetórias socialmente aceitável com redes adversárias generativas Em Proceedings of the IEEE Conferência Internacional sobre Visão Computacional e Reconhecimento de Padrões, 2018.

M. Bansal, A. Krizhevsky, e A. S. Ogale Chauffeurnet: .. Aprender a conduzir ao imitar o melhor e sintetizar o pior Corr, ABS / 1812,03079, 2018.

Cada amanhã Dragon Boat Festival, o exame vestibular em uma só penada altos "dumplings" corretamente o concluídas
Anterior
Mito imagem Laboratory (MTlab) 10000 pontos enfrentar a interpretação completa de tecnologias-chave
Próximo