Apenas a adição também que o aprendizado profundo, Universidade de Pequim e Huawei proposta AdderNet, o desempenho não perde CNN

a partir do fundo de um côncavo não Xiao verificar Temple relatórios qubit | número Público QbitAI

estudo aprofundado, o produto é uma operação inevitável, como fazer a camada de convolução de reconhecimento de imagem, ele tem um monte de multiplicação.

No entanto, em comparação com a operação de adição, elevada complexidade computacional da multiplicação muito.

Agora, a profundidade de aprendizagem é fortemente dependente de hardware GPU, fazer um monte de multiplicação, o que limita sua aplicação em um dispositivo móvel, precisamos de uma maneira mais eficiente.

Se você pode abandonar a multiplicação, o código não é torná-lo correr mais rápido?

Pesquisadores da Universidade de Pequim, laboratório Arca de Noé Huawei, laboratório Pengcheng proposta víbora rede AdderNet , Retire a multiplicação de convolução, e projetar um novo algoritmo de back-propagação, os resultados podem treinar a rede neural.

Ainda mais os resultados experimentais mostram que este método é próximo aos resultados de convencional CNN SOTA sobre MNIST, Cifar-10, SVHN.

Resumindo rede tem sido

Tão cedo como 2015, Bengio et al proposto ponderação de binário (1 ou -1) rede neural, com uma operação simples substituir uma acumulação de multiplicação e melhorar a eficiência da aprendizagem da profundidade do hardware.

redes neurais binárias, em seguida, em 2016, Bengio, que ainda proposto (BNN), não só é o peso, mesmo a função de activação também é definido como forma binária.

Embora a profundidade da rede neural pode Binarization reduzir significativamente o custo computacional, mas muitas vezes não conseguem manter a precisão do reconhecimento inicial. Além disso, o processo de formação de rede binário é instável, ea convergência geralmente lento.

Convolution geralmente como a ação padrão extração de características a partir dos dados de imagem, se a introdução de uma variedade de métodos para acelerar a convolução, o risco de comprometer o desempenho da rede existe.

Como evitar a multiplicação CNN-lo? Os pesquisadores usaram uma distância L1. L1 é a distância entre os dois pontos e as coordenadas dos valores absolutos de diferença, que não envolve a multiplicação.

Adicionando a operação principal na distância L1, usando a operação de complemento pode ser facilmente convertido para além diferenciação.

Nesta base, os pesquisadores propuseram víbora rede AdderNet O gráfico abaixo mostra as diferenças entre AdderNet e CNN em:

características CNN de diferentes categorias divididas de acordo com seu ponto de vista. Desde o L1 uso norma AdderNet de distinguir entre diferentes classes e, portanto, tendem a característica agregada AdderNet para diferentes centro de classes.

resultados mostram visualização, L1 pode ser usada como a medida de similaridade da distância profundidade entre a rede e do filtro de entrada características neurais. Em que o filtro de entrada e a distância pode ser expressa como:

No CNN convencional, computação parciais derivados de fórmula:

Na definição da norma L1, as derivadas parciais tornar-se:

Que representa a função sinal sgn, permite-nos obter o gradiente só pode ter três valores: -1, 0.

O método através do qual a optimização é chamado de símbolo SGD (signSGD). No entanto, signSGD quase nunca ao longo da direção de descida mais íngreme, e só vai aumentar com o número de dimensão direcional deteriorado. Por conseguinte, para utilizar uma outra forma de gradiente:

No processo de optimização, não só para obter um gradiente de filtro, também chamado derivado parcial do recurso de entrada:

HT HardTanh que é uma função de:

Finalmente, o método foi optimizado AdderNet de:

Aprender fórmula taxa é:

Onde k é o número de elementos Fl, AL (Fl) é o gradiente da camada l filtro.

Finalmente, a tarefa de classificação imagem Cifar-10 do, AdderNet comparação com a rede neural desempenho binário original BNN melhorou dramaticamente, eo desempenho tem sido perto os resultados da tradicional CNN.

Este método de treinamento para obter a distribuição de peso certo e CNN também muito diferente, pesado AdderNet direito obedecer distribuição de Laplace, e distribuição de Gauss peso CNN.

Autores afirmaram que, no futuro trabalho, eles vão estudar os resultados quantitativos AdderNet para atingir velocidades mais elevadas e menor consumo de energia, assim como a versatilidade AdderNet, não só para a classificação de imagens, vai ser usado na detecção de alvo e a semântica tarefas de segmentação.

Era amigo zuar

Após o artigo publicado fórum online Reddit provocou aprendizagem de máquina placa quente.

Alguns usuários de Internet acreditam que o artigo, a fim de melhorar o desempenho operacional para o efeito, mas no final se referia apenas a pensar na precisão da classificação de imagem, não pode deixar de se sentir irrelevante.

O artigo não é modelo de implantação mais comum em hardware GPU em tarefas de aprendizagem de profundidade, optando por implantar na CPU pode não reflectir as vantagens da operação de adição.

E agora todos os tipos de chip especial AI, FPGA aprendendo profundidade tarefas são otimizados, e calcular ponto flutuante multiplicar víbora consumo de recursos não é necessariamente muita diferença.

Como você vê isso?

Papers link: https://arxiv.org/abs/1511.00363

Nezha U é oficialmente listado, após vendas subsidiadas de 139.900 yuan-198.900 yuan
Anterior
Visto em 2019 para fazer de ponta PNL avanço
Próximo