Melhor Livro ICLR2019! As redes neurais compressão sub-rede 10 vezes, mas também para manter a mesma precisão

Tongling não-templo a partir do fundo do recesso

Qubit produzido | número Público QbitAI

Do outro lado do oceano em New Orleans, estamos a realizar a aprendizagem anual máquina de topo será: ICLR 2019.

Este ano, ICLR19 recebeu um total de 1578 inscrições, até 60% sobre o ano passado. Neste artigo de 1600, "loteria Hypothesis" MIT de se destacar, o seu papel ganha o melhor trabalho do ano.

Isto é o que o estudo termo?

Os pesquisadores demonstraram que a rede neural consiste em sub-redes até um décimo do original, ainda não vai afetar a precisão do treinamento, e até mesmo o modelo de rede neural comprimido pode ser mais rápido do que o original!

O estudo deste ano a olhar para a nova direção do vento.

hipótese de loteria

Este trabalho vencedor chamado The Lottery Ticket Hipótese: Finding Sparse, Trainable Neural Networks, propôs algo chamado "loteria hipótese" (loteria bilhete hipótese) método de redução.

Anteriormente, os parâmetros de rede poda tecnologia de rede neural pode ser reduzida a 90%, mas os inconvenientes desta abordagem é também evidente que a poda início arquitetura formação é bastante difícil.

MIT Ciência da Computação e Laboratório de Inteligência Artificial pesquisadores (CSAIL) disse que ao invés de tesouras de poda no final do reparo, por que não começar a criar uma rede de tamanho adequado é?

Eles vão aprender o método tradicional de profundidade em comparação com a loteria, a formação em larga escala da rede neural é como ganhar pick aleatoriamente pelo cego, e este novo método não empregar tal agulha de uma forma palheiro, como no início para obter o último dos números vencedores.

Desde então, a "loteria se" sair.

Eles descobriram que a faca poda tradicional na tecnologia de rede neural será na sub-rede, de modo que a criança pode inicializar a rede após o treinamento eficaz.

Denso, de inicialização aleatória de rede neural de feed-forward consiste em vários sub-redes, Esse é o número vencedor Quando seu treinando sozinho, estes sub-redes podem alcançar a precisão par com a rede original em um número similar de iterações.

A questão é: como encontrar os números vencedores de TI? Um total de quatro etapas:

  • Aleatoriamente inicializar uma rede neural f (x; 0)
  • Os tempos de rede de formação j para obter um j parâmetros de rede
  • Aparar j em p% dos parâmetros, criar máscara m
  • Definir novamente usando a rede restante 0, criando os números vencedores de f (x; m0)
  • Em conjuntos de dados MNIST e CIFAR10, "bilhete premiado de loteria" é um monte de tamanho e arquitetura feed-forward totalmente conectado antes de convolução 10% a 20% .

     A imagem acima mostra quando a poda iterativo e inicialização aleatório novamente, parando cedo iteração Conv-2/4/6 arquitetura, a precisão dos testes e treinamento

    E a relação entre a rede original Saiba mais rápido : Mesmo maior precisão :

    Papers endereço:

    https://arxiv.org/abs/1803.03635

    equipe de autor

    Os pesquisadores por trás do papel de apenas dois.

    Um Como MIT quando doutorando Jonathan Frankle, estudos de ciência da computação de graduação e pós-graduação completa na Universidade de Princeton, irmãozinho Frankle foi para a Google, Microsoft, estágios Universidade de Georgetown, grande inteligência artificial pesquisa, Applied Cryptography e política de tecnologia.

    Dois por Michael Carbin MIT professor assistente de engenharia elétrica e ciência da computação, anteriormente pesquisador do Instituto de Pesquisa da Microsoft em Redmond, envolvido em grande escala sistemas, incluindo otimização e aplicação de aprendizagem profunda.

    Anteriormente, número Carbin de trabalhos recebidos ICML19, OOPSLA18, máquina de LICS18 aprendendo Assembly.

    Melhor Livro × 2

    ICLR melhor artigo do ano um total de dois, além das hipóteses de loteria, bem como um trabalho MILA Instituto Microsoft Research e da Universidade de Montreal:

    Neurônios ordenados: Integração de estruturas de árvore em Recurrent Neural Networks, que se traduz em "neurônios de ordem: a estrutura de árvore serão integrados na rede neural circulação."

    A linguagem natural é uma estrutura hierárquica: uma pequena unidade será aninhada dentro de uma grande unidade em tais frases serão aninhados em uma frase. Quando a unidade é fechada grande, em que uma pequena célula deve ser desligado.

    Enquanto a arquitetura LSTM padrão pode ser diferente informações de rastreamento neuronal em diferentes períodos de tempo, mas na composição do modelo hierárquico não é muito diferente.

    Neste trabalho, os pesquisadores propõem, por neurônios para classificar este aumento de desvio de indução, com uma porta vetor de entrada controle e esquecendo-se de garantir que, quando uma determinada atualização neurônio, segui-lo todos os neurônios ele é atualizado em ordem.

    Esta nova estrutura é chamado um loop neurônios ordenados  LSTM (ON-LSTM), linguagem de modelagem, análise sem vigilância, raciocínio lógico e avaliação objetiva da gramática conseguido o bom desempenho em quatro diferentes tarefas.

    Papers endereço:

    https://openreview.net/forum?id=B1l6qiR5F7

    portal

    Por último, coloque ICLR 2019 endereço do site oficial:

    https://iclr.cc/

    - FIM -

    recrutamento sincero

    Qubits estão recrutando editor / repórter, com sede em Zhongguancun de Beijing. Esperamos talentosos, estudantes entusiasmados para se juntar a nós! Detalhes, por favor qubit número público da interface de diálogo (QbitAI), responder palavra "recrutamento".

    Qubit QbitAI · manchetes sobre a assinatura de

    ' ' rastrear novas tecnologias e produtos AI dinâmicos

    Alguns dizem do adversário é: Macy defesa é que tipo de experiência
    Anterior
    Foco Super | Yincong Yao Sui Weijie, em seguida, apertar o pescoço, desta vez para elogiar o ponto mais jovem em micro-Bo!
    Próximo