notas de papel reconhecimento comportamento como rede de muita fibra | ECCV 2018

Nota do Lei rede Feng AI Technology Review: Este artigo é escrito por Lin Tianwei Shanghai Jiaotong University Lei Feng rede AI Technology Review como artigos exclusivos, não deve ser reproduzido sem permissão.

Comportamento classificação reconhecimento / vídeo é uma importante direção na área de vídeo para entender. Antes de aprender a direção de profundidade podem ser divididos em duas categorias: uma é o dobro do de rede, ou seja, para uma imagem RGB como um fluxo óptico 2D e dois ramos da rede de entrada, em seguida, em algum lugar na integração de rede, como o típico o TSN; sugado outro multiquadro é considerado como uma imagem de entrada RGB um 3D, e, em seguida, utilizar a rede de processamento de convolução 3D, tal como o C3D típico, I3D, ArtNet semelhantes (claro, a luz pode ser fluxo 3D como uma entrada para mais rede melhorar o efeito).

O principal problema é que o método de classe de fluxo dual a ser extraído fluxo ótico, mais demorado, difícil num cenário de aplicação real para cima. Então quase dois anos de trabalhos de pesquisa se concentrou mais em rede 3D, a pergunta anterior método de classe 3D tem dois aspectos principais, um é o computacional sobrecarga do kernel de convolução 3D é relativamente grande e, segundo, há de método de classe Shuangliu em vigor uma certa distância.

Em ECCV2018, Universidade Nacional de Cingapura, justo e laboratório 360AI co-autor de "Redes Multi-Fiber para Reconhecimento de vídeo" , código, consulte PyTorch-MFNet. Este trabalho principalmente um problema para a primeira rede 3D de pesquisa, especificamente, o objetivo deste artigo é ser ao mesmo tempo (principalmente padrão I3D-RGBmodel) para manter o efeito de rede, uma redução significativa flops rede para melhorar a eficiência da rede, a rede pode obter mais 3D cenários de aplicação. Este artigo apresenta a estrutura de rede um pouco como ShuffleNet sem módulo de canal shuffle, a idéia central é usar Grupo Conv reduzir a sobrecarga computacional da rede. Antes não parecia referência como fazer o modelo de classe que pensa vídeo móvel trabalho de classificação, e a quantidade de computação em rede de classe 3D é mais importante gargalo do núcleo, de modo que este trabalho é de grande valor de referência.

A seguir começou a introduzir o conteúdo do artigo, por favor me corrija se insuficiente.

motivação

O núcleo deste artigo é que a motivação sota corrente de rede 3D (tais como I3D e R (2 + 1) D-34 de rede) calcular o valor flops são demasiado elevados. O 2D convolução ResNet-152 rede convencional ou a rede é provavelmente 10+ GFLOPS 16 VGG-, os dois 3D rede convolutional apenas mencionado é atingido 100+ GFLOPS. O autor acredita que quando a quantidade de cálculo semelhante, devido ao modelo de rede 3D capaz de aprender informações adicionais sobre o tempo eo espaço, modelo baseado no clipe (3D refere-se à rede) deve ser capaz de ter mais do que o modelo baseado em quadro (2D refere-se à rede) mais bons resultados. Portanto, o objetivo deste artigo é o efeito do modelo 3D, mantendo a sota existente, melhorando significativamente a eficiência de sua rede.

Multi-fibra rede

No método, o autor introduz o princípio do módulo de multi-fibras (Unidade de multi-fibra), e, em seguida, testar a eficácia da estrutura multi-fibra numa rede 2D, e, finalmente, para promover a sua rede até 3D.

Multi-fibra módulo

Esta figura ilustra o processo de mudança de ResNet ao módulo de multi-fibras.

Estrutura (a) que é de um módulo residual simples; (b) foi o gargalo Multi-Path Tipo de módulos, tais ResNeXt sobre a utilização da estrutura. Nesta estrutura, tanto antes como após uma dimensão redução de dimensão 1x1 convolução e origem, em seguida, os grupos de canais intermediários, que são tratadas com um pouco de convolução 3x3. processo tal pode reduzir significativamente a quantidade de cálculo da camada intermédia, mas a camada é ainda um grande cálculo de convolução 1x1. Assim, este artigo propõe um pacote mais profunda, isto é, toda a passagem de acordo com um módulo residual cortado numa pluralidade de ramo paralelo e independente (referida como fibra, fibras), tal como (C) na FIG. Estrutura (c), em igual número de canais de entrada e de saída, o valor teórico pode ser reduzida para um-N, onde N é o número de ramificação ou de fibra. Acelerada ideia mais completa deste grupo e fato ShuffleNet do ano passado, alguns, como, exceto que ShuffleNet módulos canal de reprodução aleatória também propostas, e na camada intermediária do conv profundidade-wise.

O (c) Embora a estrutura mostrada na muito mais eficiente, mas a falta de troca de informações entre os canais, podem prejudicar os resultados. Portanto, este documento apresenta um módulo multiplexador é ainda utilizada sob a forma de ligações residuais entre as fibras de informação de ligação. O módulo é realmente um convolução 1x1 de duas camadas, a primeira convolução vai reduzir o número de canais para um dos pontos k, uma segunda dimensão de convolução-se de novo, de modo que a quantidade de cálculo é uma camada de módulo de convolução 1x1 o k / 2 um minuto. No entanto, o artigo não ver o valor k de configurações específicas.

Para verificar a eficácia da estrutura multi-fibras

Em seguida, o autor sobre IMAGEnet-1k dataset experimento de classificação de imagem para verificar a eficácia da estrutura multi-fibra da proposta. Existem duas formas principais, um com base ResNet-18 e a linha de base MobileNet-V2, que vai substituir o módulo com os módulos de fibras múltiplas (aqui, os detalhes específicos de aplicação não tem a certeza), o segundo é um redesenhado 2D MF-Net estrutura de rede específica pode ver os papéis. Os resultados experimentais estão apresentados abaixo.

Os resultados podem ser vistos por esta dentro da tabela. estrutura multi-fibra e em MobileNet-v2 ResNet-18 pode ser reduzida no caso de uma pequena quantidade de computação e parâmetro para melhorar certo efeito, ela demonstra a eficácia dos módulos multi-fibras. E também no caso de MF-Net e inferior parâmetros computacionais para alcançar bons resultados. A última coluna indica a experiência módulo multiplexador irá ocupar cerca de 30% do valor calculado, mas aumentar o efeito é relativamente óbvia.

rede multi-fibra 3D-

Após a confirmação da validade dos módulos multi-fibras, a estrutura multi-fibra aqui descrito será estendido para a rede proposta 3D e 3D MF-líquido. Estrutura modular e estrutura de rede 3D MF-líquido, como mostrado abaixo:

Como pode ser visto, um módulo de fibras múltiplas 2D e 3D estruturas são basicamente o mesmo, excepto que a convolução tridimensional aumentou dimensão. A fim de reduzir a quantidade de cálculo, dois convolução convolução executado em apenas uma temporização.

Experimentos de conteúdo

Na parte experimental, o papel treinados principalmente a partir do zero e afinado dois experimentos, respectivamente Kinetics e UCF101, HMDB51 conjunto de dados.

categoria Vídeo -formadas from Scratch

Em conjuntos de dados cinéticos, MF-Net menor do que antes do modelo 3D é muito mais flops alcançar melhores resultados.

Categoria Vídeo Modelos sintonizado--Bem

Nesta parte do experimento, o primeiro modelo nos grandes conjuntos de dados (Cinética) sobre a formação, e depois de ajustes finos em um pequeno conjunto de dados (UCF-101, HMDB51). Como pode ser visto a partir dos resultados experimentais, o MF-líquido com uma pequena quantidade de cálculo atinge ou excede o efeito de corrente de sota. FIG primeiro artigo visualmente mostram a relação entre a quantidade de cálculo e o efeito pode ser visto que a MF-líquido ocupe preferencialmente o canto esquerdo superior, isto é, uma pequena quantidade de computação para alcançar o efeito de sota.

Resumo de papel

Este artigo é para optimizar ainda mais a estrutura dos módulos de múltiplos caminhos, e utilizada uma rede de convolução 3D, melhorando assim significativamente a eficiência da convolução 3D da rede. Após a eficiência é muito melhor, na verdade, é mais propício para a nossa rede vai continuar a fazer mais complexa e mais eficaz I3D, eficiente antes, como muito ruim, é difícil aumentar ainda mais a complexidade (claro, por outro lado, também oferece uma série para todos espaço otimizar e espaço para papéis de escrita ...). Por um lado, através da introdução de técnicas de aceleração de rede para otimizar a velocidade do modelo, por um lado, para melhorar a capacidade de modelar o efeito do modelo de tempo, aumentando a rede, deve ser o futuro da Internet 3D pesquisar um caminho de desenvolvimento mais equilibrado lo.

Referências

Chen Y, Kalantidis Y, Li J, et al. Multi-Fiber Networks para o Reconhecimento de Vídeo // Proceedings da Conferência Europeia sobre Computer Vision (ECCV) 2018 :. 352-367.

S Xie, Girshick R, dólar P, et al. Transformações residuais agregados para redes neurais profundas . // Visão Computacional e Reconhecimento de Padrões (CVPR) de 2017 Conferência IEEE sobre IEEE de 2017: 5987-5995.

Carreira J, Zisserman A. Quo vadis, reconhecimento de ação? Um novo modelo ea cinética dataset . // Visão Computacional e Reconhecimento de Padrões (CVPR) de 2017 Conferência IEEE no IEEE, de 2017: 4724-4733.

rede de Lei Feng

Oportunidade de mostrar a força finalmente chegou? ! Agora este NIKE Gakou Flyknit dar-lhe a oportunidade de fazê-lo sozinho DIY!
Anterior
Os pais da música, as crianças gritavam: "Rei da glória" restrições de tempo de logon para menores
Próximo