Ali Damour avanços hospitalar piloto automático alcançado 3D precisão de detecção de objetos e velocidade têm ambos

Recentemente, uma visão de computador topo de papel Alibaba Dharma hospitalar chamado vai CVPR de 2020, o documento propõe, um detector de piloto automático de alto desempenho universal, pela primeira vez, a precisão de detecção de objetos 3D e velocidade têm ambos, efetivamente levantando Autopilot desempenho de segurança do sistema.

detecção de objectos 3D, e a categoria de objecto para uma saída de informação em três dimensões de comprimento e largura, o ângulo de rotação

Ao contrário das aplicações de reconhecimento de imagem convencionais 2D, os requisitos do sistema de piloto automático para maior velocidade e precisão, o detector precisa não só para identificar rapidamente os objetos que cercam o ambiente, mas também para fazer um posicionamento preciso da posição do objeto no espaço tridimensional. No entanto, o mainstream atual single-stage e detectores de detector de dois estágios foram incapazes de precisão de detecção equilíbrio e velocidade, o que limita bastante o desempenho automático de segurança de condução.

Desta vez, hospital Bodhidharma propôs um novo método de pensar é sobre um detector de duas fases para as características de grão fino retratadas no papel é integrado em um detector de fase única. Especificamente, dharmas uso hospitalar na formação de uma rede secundária, em que um único detector de voxel fase em características de nível ponto, e aplicar um certo sinal de controlo, enquanto suporta o modelo de processo de raciocínio, sem o envolvimento da computação em rede, assim garantindo ao mesmo tempo a velocidade e melhorar a precisão da detecção.

O seguinte é a interpretação do primeiro autor do papel Chenhang Ele fez:

1. Antecedentes

tarefa de detecção de alvo tradicional em visão por computador, de reconhecimento de imagem de alvo diferente não apenas detectar a presença de um objecto identificado na imagem, para dar a correspondente categoria, os objectos têm de ser posicionado na caixa delimitada. Dependendo da saída requerida do alvo de detecção, tipicamente a imagem RGB utilizando a detecção do alvo, e categoria de objecto na imagem da caixa de delimitação do 2D saída é chamado detecção de objectos 2D. E a imagem RGB utilizando os dados de detecção de imagem a profundidade e o ponto de laser nuvem RGB-D, categoria de objecto e de saída comprimento e largura, o ângulo de rotação no espaço tridimensional é referido como a detecção de objectos 3D.

Um 3D dados de ponto de nuvem a partir da detecção do alvo é o componente fundamental do sistema de piloto automático (AV) é. Estima caixa delimitadora 2D com planos de imagem 2D única ordinárias da detecção de alvos diferentes, AV precisa de mais informações para estimar caixa delimitadora 3D do mundo real, tais como planejamento caminho para tarefas avançadas completas e colisões evitar e similares. Isto motiva o método de detecção de alvo recente 3D, o método é aplicado rede neural convolucional (CNN) de processamento de dados de ponto de nuvem LiDAR a partir do sensor superior.

ponto 3D detecção de objetos atualmente baseado em nuvem Existem duas arquiteturas principais:

1, um único detector de fase (fase única): a nuvem de pontos codificados em características de voxel (recurso do voxel), e o bloco objecto previsto directamente CNN 3D, mais rápido, mas por causa da nuvem de pontos é desconstruída CNN, a estrutura da percepção do objecto diferença, então a precisão é ligeiramente inferior.

2, detector de duas fases (em duas etapas): Primeiro nível características extraídas com pontos PointNet, e usando nuvem de pontos da área da piscina candidato (Pooling a partir do ponto em nuvem) para obter traços finos, muitas vezes poderia alcançar uma alta precisão, mas é muito lento. .

2. Métodos

A indústria é baseada principalmente detector de fase única, isso irá garantir que o detector pode ser eficientemente realizada em um sistema em tempo real. Propomos duas soluções para o detector de fase das características de grão fino caracterizar a ideia de uma única fase de migração para a detecção, através da utilização de uma rede auxiliar na formação do voxel em que um único detector de fase em de nível ponto caracteriza, e aplicação de um certo sinal de controlo, de modo que a estrutura também dispõe de consciência convolução, melhorando assim a precisão da detecção. Ao fazer a estimativa modelo, não está envolvido no cálculo rede auxiliar (independente), assegurando assim a eficiência de detecção do detector é um único estágio. Além disso, propomos a melhorar em um projeto, Part-sensível Warping (PSWarp), para o processamento de uma única etapa no detector de presença "caixa - confiança - incompatibilidade" problemas.

A rede principal

Um detector para implantação, i.e. rede extrapolação, a rede de espinha dorsal e a componentes da cabeça de detecção. rede backbone 3D com redes esparsas, para extrair um voxel contém uma alta traços semânticos. Em que a cabeça do voxel detecção comprimida em uma vista que mostra pássaro-olho, 2D e executar uma convolução completa na rede acima de prever bloco objecto 3D.

rede auxiliar

Na fase de formação, propomos uma convolução rede secundária para extrair a camada intermédia em que a rede de espinha dorsal, e convertê-los em um nível de funcionalidade ponto funcionalidade (funcionalidade ponto-sábio). Na implementação, mapeamos as características de convolução de espaço diferente de zero para a nuvem ponto original e depois interpolados em cada ponto, para que possamos obter o nível de ponto característico representa a convolução. Pedido {(): j = 0, ..., M} é a convolução da representação no espaço de característica, {: i = 0, ..., N} a nuvem de pontos original, em que a convolução representada no ponto original é igual a

desempenho de tarefas auxiliares

Propomos duas políticas de supervisão com base em recursos de nível ponto para ajudar a obter um bom convolução estrutura característica de percepção, uma tarefa plano de segmentação, um retorno para o ponto central da tarefa.

Especificamente, em comparação com PointNet extractor de recurso (A), uma rede de convolução e a causa downsampled danos convolução (b) de modo que a estrutura de nuvem de pontos característica insensível ao limite e a estrutura interna do objecto. Usamos tarefa de segmentação para garantir que não será afetado por características FUNDO © recurso convolução parcial na próxima amostragem, reforçando assim a percepção da fronteira. Usamos o ponto central da tarefa de regressão para melhorar as características de convolução de uma estrutura interna de uma percepção objecto (D), de tal modo que no caso de um pequeno número de pontos pode ser razoável concluir que o potencial do tamanho do objecto, de forma. Usamos perda focal e suave-L1 para dividir a tarefa e voltar para a tarefa central de resolver otimização.

3. O projeto de melhoria

Em uma detecção estágio único, problemas de alinhamento e mapa recurso âncora é um problema comum, que pode levar à massa prevista do posicionamento caixa delimitadora não corresponde nível de confiança, isso vai afetar a fase de pós-processamento (NMS), a alta confiança mas a partir de massa da armação de posicionamento é retida, e a de alta qualidade, mas de baixo armação de posicionamento confiança é descartado. No algoritmo de detecção de objectos em dois estágios, RPN extraída proposta, então a posição correspondente nas características mapa de características de extracção (ROI-pooling ou roi-align), este intervalo de tempo correspondente às novas características e proposta estão alinhados. Propomos uma melhoria com base PSRoIAlign, Part-sensível Warping (PSWarp), usado para prever caixa de re-pontuação.

Como mostrado acima, primeiro modificado para produzir as porções K sensíveis camada livre finais da FIG caracterizado por {x_k: k = 1,2, ..., K} representam, cada porção específica da informação são codificados na FIG. Por exemplo, no caso de K = 4, gera {superior esquerdo, superior direito, inferior esquerdo, inferior direito quatro parcial} FIG funcionalidade sensível. Enquanto isso, prevemos cada caixa delimitadora é dividido em sub-janelas K, e selecione a posição central de cada sub-janela, como os pontos de amostragem. Desta forma, pode-se gerar grades K amostras {S ^ k: k = 1,2, ..., K}, cada uma grade de amostragem está associada com esta característica local, correspondente à fig. Como mostrado, usamos o amostrador, amostrado em uma vista parcial correspondente de uma característica de sensibilidade da grade de amostragem gerado, gera uma boa característica de alinhamento na FIG. Em última análise reflecte a confiança na FIG em que K é um diagrama característico de alinhamento média bom.

4. EFEITOS

Método (preto) a nossa proposta PR Curva Kitti na base de dados, onde a linha a cheio é um processo de duas fases, a linha a tracejado é uma única fase do processo. Podemos ver que como um processo de fase única para alcançar a abordagem em duas fases para alcançar a precisão.

efeito aérea Kitti (um BEV) e 3D no conjunto de teste. Enquanto se mantém a vantagem de precisão, nenhum cálculo adicional, para alcançar a velocidade de detecção 25 FPS.

Autor:

O primeiro autor a estudar o hospital interno Dharma Chenhang Ele, outros autores são, respectivamente Dharma Instituto Senior Fellow, IEEE Fellow Hua Xiansheng, Bodhidharma Instituto Senior Fellow, Professor do Departamento de Computação Seminário The Hong Kong Polytechnic University, IEEE Fellow Zhang Lei, Instituto Bodhidharma algoritmo especialista sênior HUANG Jian-Qiang e pesquisa do hospital Bodhidharma estagiários Hui Zeng.

Nota: Os endereços de papel ainda aberta, InfoQ continuará a acompanhar e atualizar mais detalhes.

Milagre! Mãe e filho presos em colapso hotel de dois dias resgatado
Anterior
Este pode ser o último e os próximos 10 anos, o pior Q1
Próximo