Apenas a adição também que o aprendizado profundo, Universidade de Pequim e Huawei proposta AdderNet, o desempenho não perde CNN

a partir do fundo de um côncavo não Xiao verificar Temple relatórios qubit | número Público QbitAI

estudo aprofundado, o produto é uma operação inevitável, como fazer a camada de convolução de reconhecimento de imagem, ele tem um monte de multiplicação.

No entanto, em comparação com a operação de adição, elevada complexidade computacional da multiplicação muito.

Agora, a profundidade de aprendizagem é fortemente dependente de hardware GPU, fazer um monte de multiplicação, o que limita sua aplicação em um dispositivo móvel, precisamos de uma maneira mais eficiente.

Se você pode abandonar a multiplicação, o código não é torná-lo correr mais rápido?

Pesquisadores da Universidade de Pequim, laboratório Arca de Noé Huawei, laboratório Pengcheng proposta víbora rede AdderNet , Retire a multiplicação de convolução, e projetar um novo algoritmo de back-propagação, os resultados podem treinar a rede neural.

Ainda mais os resultados experimentais mostram que este método é próximo aos resultados de convencional CNN SOTA sobre MNIST, Cifar-10, SVHN.

Resumindo rede tem sido

Tão cedo como 2015, Bengio et al proposto ponderação de binário (1 ou -1) rede neural, com uma operação simples substituir uma acumulação de multiplicação e melhorar a eficiência da aprendizagem da profundidade do hardware.

redes neurais binárias, em seguida, em 2016, Bengio, que ainda proposto (BNN), não só é o peso, mesmo a função de activação também é definido como forma binária.

Embora a profundidade da rede neural pode Binarization reduzir significativamente o custo computacional, mas muitas vezes não conseguem manter a precisão do reconhecimento inicial. Além disso, o processo de formação de rede binário é instável, ea convergência geralmente lento.

Convolution geralmente como a ação padrão extração de características a partir dos dados de imagem, se a introdução de uma variedade de métodos para acelerar a convolução, o risco de comprometer o desempenho da rede existe.

Como evitar a multiplicação CNN-lo? Os pesquisadores usaram uma distância L1. L1 é a distância entre os dois pontos e as coordenadas dos valores absolutos de diferença, que não envolve a multiplicação.

Adicionando a operação principal na distância L1, usando a operação de complemento pode ser facilmente convertido para além diferenciação.

Nesta base, os pesquisadores propuseram víbora rede AdderNet O gráfico abaixo mostra as diferenças entre AdderNet e CNN em:

características CNN de diferentes categorias divididas de acordo com seu ponto de vista. Desde o L1 uso norma AdderNet de distinguir entre diferentes classes e, portanto, tendem a característica agregada AdderNet para diferentes centro de classes.

resultados mostram visualização, L1 pode ser usada como a medida de similaridade da distância profundidade entre a rede e do filtro de entrada características neurais. Em que o filtro de entrada e a distância pode ser expressa como:

No CNN convencional, computação parciais derivados de fórmula:

Na definição da norma L1, as derivadas parciais tornar-se:

Que representa a função sinal sgn, permite-nos obter o gradiente só pode ter três valores: -1, 0.

O método através do qual a optimização é chamado de símbolo SGD (signSGD). No entanto, signSGD quase nunca ao longo da direção de descida mais íngreme, e só vai aumentar com o número de dimensão direcional deteriorado. Por conseguinte, para utilizar uma outra forma de gradiente:

No processo de optimização, não só para obter um gradiente de filtro, também chamado derivado parcial do recurso de entrada:

HT HardTanh que é uma função de:

Finalmente, o método foi optimizado AdderNet de:

Aprender fórmula taxa é:

Onde k é o número de elementos Fl, AL (Fl) é o gradiente da camada l filtro.

Finalmente, a tarefa de classificação imagem Cifar-10 do, AdderNet comparação com a rede neural desempenho binário original BNN melhorou dramaticamente, eo desempenho tem sido perto os resultados da tradicional CNN.

Este método de treinamento para obter a distribuição de peso certo e CNN também muito diferente, pesado AdderNet direito obedecer distribuição de Laplace, e distribuição de Gauss peso CNN.

Autores afirmaram que, no futuro trabalho, eles vão estudar os resultados quantitativos AdderNet para atingir velocidades mais elevadas e menor consumo de energia, assim como a versatilidade AdderNet, não só para a classificação de imagens, vai ser usado na detecção de alvo e a semântica tarefas de segmentação.

Era amigo zuar

Após o artigo publicado fórum online Reddit provocou aprendizagem de máquina placa quente.

Alguns usuários de Internet acreditam que o artigo, a fim de melhorar o desempenho operacional para o efeito, mas no final se referia apenas a pensar na precisão da classificação de imagem, não pode deixar de se sentir irrelevante.

O artigo não é modelo de implantação mais comum em hardware GPU em tarefas de aprendizagem de profundidade, optando por implantar na CPU pode não reflectir as vantagens da operação de adição.

E agora todos os tipos de chip especial AI, FPGA aprendendo profundidade tarefas são otimizados, e calcular ponto flutuante multiplicar víbora consumo de recursos não é necessariamente muita diferença.

Como você vê isso?

Papers link: https://arxiv.org/abs/1511.00363

Nezha U é oficialmente listado, após vendas subsidiadas de 139.900 yuan-198.900 yuan

Visto em 2019 para fazer de ponta PNL avanço

9000 Yuan Dajiang laser de liberação radar! engenheiro de veículo não tripulado animado: Eu quero comprar 10

January 6, 2020

Esta interface cérebro-computador para apenas US $ 399, o dispositivo eletrônico pode ser controlado com a idéia, mas também para jogar jogos

January 6, 2020

200.000 por pessoa! Dez estudantes de doutoramento chineses ganharam bolsas de luxo AI, um número de universidades de elite se destacam

January 5, 2020

classe Yao Tsinghua graduados para desenvolver uma nova linguagem de programação de efeitos especiais, 99 linhas de código para conseguir "Frozen"

January 5, 2020

Máxima conjunto de dados de identificação de veículos: 64000 parâmetros do modelo de rotulagem completa, a segurança do transporte pode ser utilizado com

January 5, 2020

Samsung "Cyborg" a exposição do projeto! Efeitos de modo realista, você pode gerar uma nova auto-expressão, movimento

January 5, 2020

jogo de vapor desencorajando fortemente estudo Ph.D.: perda de cabelo poderia enviar papel, nenhum cabelo não merecem Lianku

January 5, 2020

Quando essa pessoa obter o Prêmio Turing?

January 4, 2020

Hábil ao vivo "315 + E" perspectiva de saúde ciência da saúde falso nuvem para construir propagação rede partido

March 18, 2020

Sobre Silk Road

Categorias

Partilha