Saiba os últimos progressos da ICLR 2019 lista de pequenas amostras

rede de Lei Feng pela AI Technology Review: Em geral, a profundidade de aprendizagem é uma tecnologia baseada em dados típico, o rosto de dados limitados, o desempenho de técnicas tradicionais de aprendizagem profundas são muitas vezes insatisfatórios. No ICLR atual, muitos pesquisadores usaram meta-aprendizagem, aprender a tecnologia para migrar problemas de aprendizagem amostra pequenos são exploradas, publicou uma série de papéis de alta qualidade, pode ser descrito como concorrendo! O engenheiro Isaac estudo aprofundado Godfried, publicou um artigo no meio, com base neste estudo aprofundado ICLR ano e trabalhos de pesquisa em pequenos conjuntos de dados, e discute os últimos desenvolvimentos apresentar uma pequena amostra de aprendizagem. Lei Feng rede AI Technology Review compilado como segue.

Em 06 de maio de 2019 Conferência Internacional deste ano de estudo de caracterização (ICLR) abriu como previsto. Como eu tinha planejado, eu vou entrar em alguns trabalhos de pesquisa interessantes ICLR da sessão publicados. A maior parte das áreas em que trabalhos de pesquisa são de interesse para mim, pessoalmente relevante (aprendizagem não supervisionada, meta-aprendizagem, mecanismos de atenção, processamento de linguagem natural), mas eu só escolher um alguns de alta qualidade, e tem em seus respectivos campos a influência de papel fino para analisar e atualizar a série blog. O primeiro artigo da série irá apresentar um estudo aprofundado Bowen e pesquisa em pequenos conjuntos de dados; A segunda vai discutir o papel feito um grande avanço no processamento de linguagem natural e outros tipos de dados de seqüência, e Parte III analisará todos os tipos de outros, eu acho que é papel muito interessante.

aprendizagem de transferência, meta-aprendizagem e aprendizagem não supervisionada

Limitada problema de dados de treinamento para todas as esferas da vida têm uma ampla gama de efeitos, incluindo a saúde, a agricultura, automotivo, varejo, entretenimento e assim por diante. Em outros casos, temos uma grande quantidade de dados, mas eles não são marcadas. Desde a recolha de dados e tempo de anotação / grande custo, o problema muitas vezes se tornam profundamente tecnologia de aprendizagem serão integrados os objectivos e tarefas de obstáculos.

"Aprender regra de aprendizagem sem supervisão."

Aprender as regras de aprendizagem não supervisionada

Artigos endereço: https: id = //openreview.net/forum HkNDsiC9KQ?

O documento baseia-se no conceito de yuans, enquanto a aprendizagem e aprendizagem não supervisionada (Refere-se ao trabalho de Metz, et al.) É. Especificamente, o estudo propõe o uso de meta caracterização eficaz de aprendizado não supervisionado em uma maneira de aprender tarefa jusante da aprendizagem. O documento centra-se em "aprendizado semi-supervisionado de classificação ', mas a razão por que é interessante porque: pelo menos em teoria, esta regra de aprendizagem". Pode ser otimizado para gerar qualquer tarefa posterior caracterização " Isso é útil, porque no trabalho aprendizado não supervisionado para a caracterização, o autor define um algoritmo de treinamento claro ou perda de função. O modelo aqui iria "aprender a criar caracterização útil da meta estabelecida pelo algoritmo do dólar." Este regras personalizadas muitas vezes precisam passar por uma série de experiências e conhecimento de domínio, a fim de obter, e, portanto, não pode ser facilmente aplicada a novas áreas. Um exemplo é a utilização de auto-codificador, ele tenta primeiro por codificação e, em seguida descodificar a mesma saída como um conjunto de dados em bruto para caracterizar o estudo. A partir do codificador muitas vezes precisa especificar explicitamente uma função de perda.

Para entender exatamente como funciona o processo, podemos lembrar: em estudo de meta, geralmente temos um loop interno e loop externo. No loop interno, o modelo atua em uma tarefa específica, por exemplo: uma classificação de imagens, tal tarefa um pode ser identificado como cães e gatos. Tipicamente, o loop interno será n (em geral, entre 1 e n-10) são executados uma série do exemplo anterior. Então, a espira externa será usar alguns dos parâmetros do laço interior (obtidos próprio peso, a perda acumulada, ou outros parâmetros) para executar um "meta actualizações." Este "meta atualizações" situação varia mudanças do modelo, mas eles geralmente seguem o seguinte método:

Lista de processo de ensino-meta

Com isto em mente, a natureza do seu modelo de arquitetura é aprendido através de métodos meta-aprendizagem para atualizar depois de criar a caracterização modelo interno. Depois de criar a caracterização de alguns, a regra de forma eficaz na actualização da camada interior do modelo em vez do método gradiente descendente estocástica. Além disso, ao contrário do próprio peso pelo método MAML direita ou modelo de atenção pesada a caso atualização CARACOL, esta regra de atualização é sem supervisão em circulação última atualização. Isto significa que a regra de aprendizado não supervisionado não podem ser aplicados a tarefas semelhantes, mas também pode ser usado para uma nova missão, um novo modelo de base, até mesmo novos modos de dados (como dados dos dados de imagem para texto).

Em primeiro lugar, para avaliar os resultados do seu modelo, mostrando o método previamente os problemas existentes. Por exemplo, uma variação a partir do codificador (VAE) existem função de objectivo (isto é, a perda) de desadaptação problemas ao longo do tempo, o que pode resultar em mau desempenho do modelo. Embora você possa usar um recurso de migração de rede protótipo, mas se as dimensões características de diferentes tarefas, esta abordagem vai entrar em colapso. Em vez disso, Metz, que aprendeu métodos para atualizar as regras de um tipo tem melhor desempenho generalização em "pequena amostra" tarefa de classificação. Eles também demonstraram formação atualização yuan, mesmo se a rede é treinado apenas na tarefa de classificação de imagem, ele ainda pode ser generalizado para o desempenho de classificação de texto (mas eles também descobriram que: Se a função yuan treinados na tarefa de classificação de imagem por muito tempo, que irá produzir a degradação do desempenho significativo, o que é devido ao dólar em mais de ajuste de função ocorreu nas tarefas de imagem).

Tudo somado, este é um grande papel, mas também o enorme progresso feito em tecnologia sem supervisão. Mesmo se não deu qualquer resultado o mais avançado, mas pode ser aplicada a muitas áreas de dados esparsos. A versão oficial deste documento, o código está disponível através deste link: https: //github.com/tensorflow/models/tree/master/research/learning_unsupervised_learning

Implementado por yuan aprendizagem aprendizagem não supervisionada

Curiosamente, ele publicou dois artigos em ICLR deste ano também propostas meta-aprendizagem e aprendizagem não supervisionada de combinar papel (embora o método para alcançar dois artigos completamente diferente). Neste artigo, o autor usa aprendizado não supervisionado para dividir os dados e meta-aprendizagem, em vez de aprender a usar o yuan para aprender as regras de aprendizado não supervisionado.

Este artigo é um de meu papel favorito, porque abre a porta sem uma descrição da tarefa aprendizado meta explícita. existem alguns problemas no que meta-learning: meta-aprendizagem, muitas vezes precisa definir um bom conjunto de tarefas. Isto irá limitar o âmbito de aplicação do meta-aprendizagem na premissa de pesquisadores tem sido rotulado como um conjunto muito grande de metadados (frequentemente dividida em diferentes sub-conjunto de dados) é. O método proposto definir automaticamente em diferentes subconjuntos de dados. Os autores descobriram que, meta-learning ainda é capaz de aprender com essas tarefas, mesmo com algoritmo simples agrupamento sem supervisão (por exemplo, K-means), ea tarefa humana posterior diretamente acentuada do que as do aprendizado incorporado uma maneira melhor (por exemplo, no caso da aprendizagem não supervisionada, imediatamente seguido por classificação supervisionada) desempenho. Um método de técnicas de ensino à meta que eles usam para "ProtoNets" e "MAML." Este artigo descreve um paradigma de aprendizagem semi-supervisionada interessante, onde primeiro sem vigilância pré-formação, seguido de aprendizado supervisionado. Neste caso, "com supervisionado" seção será "aprendizagem amostra pequena" (aprendizagem algumas-shot).

Autor dos quatro conjuntos de dados (MNIST, Omniglot, miniImageNet e CelebA) seus métodos e métodos de aprendizagem não supervisionados são comparados. Eventualmente, eles descobriram que seu método "sem supervisão + supervisionado aprendizagem" métodos (incluindo máquina de correspondência clustering, multi-conhecido (MLP), classificação linear, bem como K-nearest neighbor) o desempenho deve ser muito melhor do que todos os outros. Ao todo, o papel em direção "Let Metalearning mais propensos a ser usado em uma variedade de diferentes tipos de problemas," a direção de um grande passo, em vez de tarefa de aprendizagem-meta só se aplica para aqueles que são seções bem definidas.

"Yuan com potencial incorporado optimization (LEO) de aprendizagem"

Meta-Learning com Latente Embedding Optimization (LEO)

Artigos endereço: https :? //Openreview.net/forum id = BJgklhAcK7

Este trabalho visa combinar com base em gradiente de meta-aprendizagem e caracterização de uma rede potencial. operação LEO em duas etapas: Primeiro, ele vai aprender uma baixa dimensional incorporar os parâmetros do modelo; Em seguida, realiza a aprendizagem no modelo de espaço incorporação dimensional elemento baixa. Especificamente, a primeira tarefa será dada de um T e uma entrada do codificador irão ser passado para o modelo. O codificador gera um potencial de codificação que irá então ser descodificada para um conjunto de parâmetros. O codificador também tem uma rede de relações, ajuda com uma codificação dependente do contexto se torna. Em seguida, estes parâmetros serão optimizados na espira interna, e um codificador, um descodificador e relações serão optimizados no circuito exterior. Os autores observaram que a sua principal contribuição para o trabalho do estudo é uma meta-meta-aprendizagem do que o espaço de alta dimensão semelhante ao utilizado na MAML em um desempenho muito melhor no espaço low-dimensional incorporação. LEO em "tieredImageNet" e em "miniImageNet" conjuntos de dados têm conseguido resultados muito bons (incluindo a taxa de precisão de 61% alcançado no 5 caminho 1-shot comparação de referência é impressionante, mas ainda 5 vias 5-shot fez a precisão tarefa 77%). E muitos outros papéis, como neste trabalho foi testado apenas no conjunto de dados de imagem, por isso não é generalização clara do modelo em outros tipos de dados.

"Transferência de aprendizagem Cross-programa"

Transferir a aprendizagem em toda Processos

Artigos endereço: https: id = //openreview.net/forum HygBZnRctX?

Desde o autor publicou um modelo detalhado de como ele funciona Bowen (ver endereço artigo: https: //medium.com/@flnr/transferring-knowledge-across-learning-processes-f6f63e9e6f46) em Médio, I aqui não é entrar em muitos detalhes a nível técnico. Comparado a uma série de outros documentos sobre yuan aprendizagem, o papel tem destaques os seguintes pontos devem ser enfatizados: Primeiro, o nosso modelo durante o teste e avaliação em um estudo maior pequenas amostras (aprendizagem algumas-shot) e tamanho dos dados da cena . Isto é muito importante porque os algoritmos de aprendizagem de meta muitas vezes não consideram que há mais dados de exemplo (mas o tamanho dos dados ainda é muito pequena, de modo que não pode começar a partir de modelo de formação zero) trabalho de otimização situação estrada. Também estudou uma série de áreas permanecem inexploradas. Especificamente, este trabalho "migração remota" áreas muitas vezes inexplorados que atingem a transferência de conhecimento tem um efeito positivo entre distintamente diferentes tarefas.

"Aprendendo com a profundidade do potencial variação multidimensional agrupamento superestrutura encoder"

Aprendizagem latente superestruturas em Variacionais Autoencoders para Deep Multidimensional Clustering

Artigos endereço: https: //openreview.net/forum id = SJgNwi09Km?

Este artigo discute a utilização de um novo tipo para melhor agrupamento de dados de alta variacional dimensionais a partir do codificador (VAE). Na aprendizagem não supervisionada, os itens de dados para um cluster diferente é um importante passo de pré-processamento. Os autores observaram que muitos tipos de dados podem ser agrupados com base em muitas partes diferentes de suas propriedades. Os autores observam que "LTVAE gerar múltiplos particionamento de dados, cada divisão será derivada a partir do topo de uma variável latente."

"LT-VAE não só vai aprender a melhor caracterizar os dados de posição de cada cluster, ele vai aprender a hierarquia desses aglomerados de números e a arquitetura subjacente da árvore que é conseguido através de um algoritmo de aprendizagem de três etapas: o primeiro passo para a formação de um "codificador - decodificador" tradicional rede neural, de modo a aumentar o seu efeito sobre os dados caber a segunda etapa de um algoritmo de maximização da expectativa processo de otimização semelhante (eM), e, portanto, melhor. montagem probabilidade posterior aprendidas potenciais parâmetros priori. terceira etapa, ajustar a estrutura subjacente fim priori para melhorar sua pontuação BIC , a fazê-lo em um potencial posteriori bem ajustada e do potencial da priori número entre (isto é, da complexidade) parâmetros estabelece um equilíbrio. "

A principal vantagem do processo proposto é que melhora a facilidade de interpretação dos agrupamento (até mesmo a partir de um termos de probabilidade logarítmica, que é o efeito global não é tão bom). Além disso, o agrupamento tornam muito atraente para muitas aplicações no mundo real para um determinado fator. Embora este artigo e muitos outros artigos são diferentes, e não explicitamente pequenos problemas de aprendizagem de amostra, eu acho que vai ser este método de agrupamento eo método de combinar pequena amostra pode ser útil. Por exemplo, pode ser "aprendizagem não supervisionada com base no ambiente de aprendizagem" em questão é utilizado para a divisão de tarefas.

"Com base na profundidade de aprendizado on-line de aprendizagem yuan"

Profundo você está aprendendo através de meta-aprendizagem on-line

Artigos endereço: https: //sites.google.com/berkeley.edu/onlineviameta

Este artigo incide sobre o uso de meta-aprendizagem e uma "Chinese Restaurant Proces" modelo de aprendizado por reforço na operação on-line (ou seja, durante a produção) para atualizá-los rapidamente. O trabalho inspirado por este fato: nunca antes os seres humanos muitas vezes face (realmente) experimentou uma nova situação, no entanto, podemos usar a experiência passada, eo feedback que recebemos da nova experiência que combina tão rapidamente adaptar-se à nova situação.

O método proposto foi usado pela primeira vez para maml modelo de formação inicial. Será que você usa on-line de aprendizagem algoritmo é dado um eficaz priori em MAML. O algoritmo de aprendizagem on-line usa um "programa restaurante" para gerar um novo modelo com um novo conjunto de inicialização apropriado ou selecione um modelo existente. Em seguida, o autor será baseada nos resultados de aprendizagem on-line, usando estocástica gradiente descendente (SGD) algoritmo atualiza os parâmetros do modelo. Os autores método proposto denominado "e-learning para meta-aprendizagem" (ou simplesmente Mole).

Os autores testaram algum reforço ambiente de aprendizagem na sua avaliação do método proposto. O primeiro é o ambiente pelas encostas de dificuldade variada simulação chita. O segundo ambiente é um perna aleijada tem um rastreador robô de seis pernas. Os resultados experimentais mostram que o reforço com base desempenho razão molar modelo de aprendizagem, utilizando técnicas adaptativas de aprendizagem meta k-shot, e, utilizando o gradiente contínuo Passo metalearning melhor (embora interessante, que é apenas ligeiramente melhor aprendizagem usando meta gradiente em degrau).

"Aprender por meio da maximização de migração e minimizar a interferência não se esqueça de aprender."

Aprender a aprender, sem esquecer por Transferência maximizar e minimizar interferências

Artigos abordam: https: //arxiv.org/pdf/1810.11910.pdf

Quando a rede neural para uma série de tarefas para aprender, que muitas vezes vai encontrar problemas é chamado de "esquecimento catastrófico" de. Desde o desastroso esquecido, a rede neural não pode mais alcançar um bom desempenho nas tarefas de treinamento anteriores. esquecimento catastrófico pode ser considerado migratório negativo negativo óbvio migração estudar um caso especial. aprendizagem de transferência (como a maioria das pessoas a que se refere) e meta-aprendizado geralmente procuram maximizar os aspectos positivos na tarefa final da migração positiva, mas em geral não diz respeito à tarefa de origem impacto. Este artigo tenta alcançar um maior equilíbrio no caso ainda será capaz de alcançar a migração positiva, mas não esquecendo catastrófica (interferência) para o preço.

Para resolver este problema, Riemer, que propôs um método chamado meta experiência de reprodução (MER) de. MER usa uma experiência de reprodução standard, exemplos de treinamento do passado são intercaladas com os exemplos de treinamento atuais para, assim, evitar catastróficas esquecido. Nossa hipótese é que exemplos de treinamento últimos baixa taxa de aprendizagem, em segundo lugar, MER usando o algoritmo REPTILE meta-aprendizado popular é treinados sobre os novos dados. No entanto, os exemplos de formação de tampão de memória também MER com o novo exemplo interligados passado, a entrada para o réptil formação espira interna accionada, impedindo deste modo a ocorrência de catastrófica esquecido.

Eu realmente gosto deste papel porque ele também explora a ideia da migração migratório positivo e negativo. Os resultados deste método feita em Omniglot e fortalecer o ambiente de aprendizagem parece ser muito bom. No entanto, os autores só foi testado em um pequeno conjunto de dados "brinquedo", especialmente nos problemas de classificação supervisionadas. Eles devem também Cifar-10 comparação de referência, testes em Caltech-Birds ou CORRE50. Dessa forma, uma vez que existem muitos conjuntos de dados CL mais real, eles não têm nenhuma razão para ser testado em apenas conjuntos de dados MNIST ou Omniglot ligeiramente modificados. Além disso, descobri que por causa do "nome repetido" antes de nomear fora de algum conceito, alguma da terminologia confusa texto. Além disso, no caso ideal, quando a aprendizagem contínua, não temos que re-train em quaisquer dados anteriores (re-treinamento trará sobrecarga computacional adicional). No entanto, tudo isso é um movimento na direção certa, e espero ter mais papéis enquanto se concentra em migração positivo e negativo. Para mais informações sobre o papel, consulte a IBM Bowen: "Unifying contínua aprendizagem e Meta-Learning com Meta-Experience Replay" (https://www.ibm.com/blogs/research/2019/05/meta-experience -replay /); paper endereço de código: https: //github.com/mattriemer/MER

"Text adaptativa eficiente de amostras de fala"

Sample Text-to-Speech Adaptive Eficiente

Artigos endereço: https: id = //openreview.net/forum rkzjUoAcFX?

Esta é uma meta-aprendizagem aplicada a "sequências com a sequência" aplicação interessante de tarefas de modelagem. Neste caso, os autores utilizaram meta-aprendizagem adaptativa para alcançar uma pequena amostra da voz de um alto-falante. A aplicação é muito importante, porque na maioria dos casos, você provavelmente não vai começar 1000 segundos para 100 segundos, ou a voz de um orador particular. Especificamente, os autores expandir a arquitetura WAVENET, introduzindo uma técnica de ensino-meta. Curiosamente, de acordo com os autores, em seus experimentos preliminares, MAML não gera significativa a priori. Portanto, eles tiveram que desenvolver sua própria infra-estrutura.

A arquitetura de fluxo de trabalho é dividido em três etapas: (1) Em "Text - Speech" contém mais de um alto-falante para treinar o modelo em um grande corpus de; (2) com base em uma pequena quantidade de um alto-falante especial "text - Speech" modelo de ajustamento; (3) o raciocínio final sobre o texto simples, e traduzi-los para o discurso apropriado. No estudo investigou duas cenário de amostra pequeno: paramétrico poucos-soht adaptativa com um codificador incorporado (MAR-ENC), bem como não-paramétrico adaptativo poucos-shot (MAR-ALL) com um processo de sintonização . No caso do SEA-ENC, os autores treinaram uma rede incorporado secundário, que será incorporado vector previu um alto-falante no caso dado os novos dados. Em contraste, para o SEA-ALL, os autores também a formação de rede e incorporado. Na fase de teste e avaliação, SEA-ALL parecem melhor desempenho, embora os autores afirmam que o modelo teria ocorrido no caso do SEA-ALL montagem. Portanto, eles recomendado parar cedo método (início de parar) para evitar o excesso de montagem. (O único modelo que o modelo anterior o desempenho dos trabalhos apresentados no tarefas Librispeech dentro de 10 segundos melhor).

Este artigo é um bom exemplo, vai estudar a questão espinhosa de pequeno tamanho da amostra utilizada, além do campo de classificação de imagem típica, e fazer os ajustes necessários para que possa ser verdadeiramente eficaz. Espero que possamos ver mais nos futuros pesquisadores que tentam estudar a pequena amostra utilizada no modelo genérico. O autor fornece um site onde você pode testá-los em cima dos TTS (Text to falando) modelo de demonstração. No entanto, infelizmente, eles não parecem abrir seu código.

ICLR outros documentos relacionados Visão Geral

"K para o preço de 1:. Multitarefa eficiente Parâmetro e aprendizagem de transferência"

K para o preço de 1: Parâmetro eficiente Multi-tarefa e Transferência de Aprendizagem

Artigos abordam: https: id = //openreview.net/pdf BJxvEh0cFQ?

Mudrarkarta et al proposto um modelo de um remendo pelo pequeno número de parâmetros podem estudar a composição destes parâmetros especificamente para cada tarefa. Este método alternativo é geralmente a última camada da prática para sintonizar a rede. Os autores descobriram que esta abordagem não só reduz o número de parâmetros (redução de mais de 1.000.000-35.000), mas também pode melhorar a precisão do ajuste na aprendizagem de transferência e multitarefa ambiente de aprendizagem. A única desvantagem é que o adesivo parece ser dirigida apenas arquitectura bastante específica.

"Método não supervisionado para a aprendizagem métrica domínio distância adaptive"

Sem supervisão Domínio Adaptação à Distância Metric Aprendizagem

Artigos endereço: https :? //Openreview.net/forum id = BklhAj09K7

Embora o título da primeira parte da tese é "adaptativo de domínio sem supervisão", na verdade é o estudo era aprender o problema da migração. Recall, o domínio alvo será geralmente obtida pelo mesmo conjunto de adaptativo domínio tag. No entanto, neste caso, os autores assumem que um domínio de destino sem rótulo - como alguns usuários mencionados, este trabalho, portanto, também tornar-se um pouco confuso, no entanto, ainda temos algumas áreas de preocupação: a fim de ajustar o espaço que separa os domínios de origem e de destino, os autores propõem um recurso para FTN rede migrar. Além disso, o autor fez com que o desempenho mais avançado na tarefa de reconhecimento de face interracial.

"Guiados programa de aprendizagem para o solucionador sintética elemento de sintaxe"

Aprender uma Meta-Solver para Syntax-Guided Programa Síntese

Artigos endereço: https: //openreview.net/forum id = Syl8Sn0cK7 & NoteID = BJlUkwHxeV?

Este artigo discute como aplicar tarefa de síntese programa de ensino à meta. Neste artigo, os autores construíram um programa de guia de gramática, que segue uma fórmula lógica e gramática, e em seguida, construir um programa. O artigo é um bom exemplo de um ensino-meta outros do que a pequena amostra típica do conjunto de dados de imagem aplicações.

"Generalização profunda da teoria de rede linear e migração dinâmica de aprendizagem"

Uma teoria analítica da dinâmica de generalização e aprendizagem de transferência em redes lineares profundas

Artigos endereço: https: //arxiv.org/abs/1809.10374

Este artigo estuda a teoria da aprendizagem e aprendizagem de transferência. Os autores afirmam "Nossa teoria explica a transferência de conhecimento sensível, mas pode ser calculado dependente do" Signal to Noise "e características de entrada tarefas estão alinhados." Tudo em tudo, para aqueles que preferem um estudo aprofundado da teoria, o artigo é muito interessante.

epílogo

Espero que este artigo fornece uma boa visão sobre o papel ICLR atual mais em pequenas amostras de aprendizagem (embora eu possa ter perdido alguns). Como você pode ver, tem havido todos os tipos de novas tecnologias interessantes nesta ICLR, eles abriram a porta para a situação de aprendizagem profunda será dados limitados.

rede de Lei Feng via https://towardsdatascience.com/iclr-2019-overcoming-limited-data-382cd19db6d2

ORTHOPEDICS de pares de sapatos à direita, ambas as pernas podem mostrar a beleza de seu vestido para aparecer
Anterior
Jin Kenan-se rapidamente, o layout de dois anos dez crianças! Cantão, a primeira sub-fase
Próximo