Heavy Hinton, Lecun, Bengio Signature Deep Learning Review

Fonte: Deep Learning World

Este artigo tem um total de 10.000 palavras. Recomenda -se ler mais de 10 minutos.

Este artigo apresenta os princípios básicos e as vantagens principais da aprendizagem profunda, explica a CNN, as características distribuídas, a RNN e suas diferentes aplicações em detalhes, e esperam ansiosamente o desenvolvimento futuro da tecnologia de aprendizado profundo.

Este artigo é uma revisão do Deep Learning lançado especificamente pela revista "Nature" para comemorar o 60º aniversário da inteligência artificial. É também a primeira vez que os três grandes deuses de Hinton, Lecun e Bengio escreveram o mesmo artigo. A importância desta revisão no campo da aprendizagem profunda é auto -evidente, que pode ser considerada um trabalho obrigatório para a entrada de todos o aprendizado profundo.

A primeira metade deste artigo apresenta os princípios básicos e as vantagens centrais do aprendizado profundo, e a parte inferior da parte inferior é detalhada para explicar a CNN, características distribuídas, RNN e aplicações diferentes, e esperam ansiosamente o desenvolvimento futuro de aprendizado profundo tecnologia.

Link original:

https://www.cs.toronto.edu/~hinton/absps/naturereview.pdf

Abstrato

A aprendizagem profunda permite que esses modelos de computação com várias camadas de processamento aprendam a representação de dados abstratos de camadas múltiplas. Esses métodos trouxeram melhorias significativas em muitos aspectos, incluindo reconhecimento de voz mais avançado, reconhecimento de objetos visuais, detecção de objetos e muitos outros campos Por exemplo, descoberta de medicamentos e genômica. O aprendizado profundo pode encontrar a estrutura complexa em big data. Ele usa o algoritmo BP para concluir esse processo de descoberta. O algoritmo BP pode orientar a máquina como alterar os parâmetros internos dessa camada da camada anterior para obter erros. Esses parâmetros internos podem ser usados para calcular a representação. Redes convolucionais profundas trouxeram avanços no processamento de imagens, vídeos, voz e áudio e redes recursivas mostram o lado brilhante nos dados de sequência de processamento, como texto e discursos.

A tecnologia de aprendizado de máquina mostrou uma função poderosa em todos os aspectos da sociedade moderna: desde a pesquisa da Web por filtragem de conteúdo de redes sociais, até as recomendações de mercadorias em sites de comércio eletrônico, está envolvido. E está cada vez mais aparecendo em bens de consumo, como câmeras e smartphones.

O sistema de aprendizado de máquina é usado para identificar as metas na imagem, converter a voz em texto, corresponde a elementos de notícias, fornece posições ou produtos de acordo com o interesse do usuário e seleciona os resultados da pesquisa relacionados. Gradualmente, essas aplicações usam uma tecnologia chamada Deep Learning. A tecnologia tradicional de aprendizado de máquina é limitada ao processar dados não processados.

Por décadas, se você deseja construir um sistema de reconhecimento de modo ou um sistema de aprendizado de máquina, precisa de um mecanismo delicado e um conhecimento bastante profissional para projetar um extrator de recurso e converter os dados originais (como o valor de pixel da imagem) em um apropriado As características internas expressam ou apresentam vetores, sistemas de sub -aprendizagem, geralmente um classificador, detectam ou classificam a amostra de entrada. Os recursos indicam que o aprendizado é um conjunto de maneiras de infundir os dados originais na máquina e, em seguida, pode descobrir automaticamente a expressão e a classificação dos testes e classificação.

O aprendizado profundo é um tipo de Método de aprendizado característico , Transforme os dados originais por meio de alguns modelos simples, mas não lineares, em um nível mais alto e uma expressão mais abstrata. Através de combinações suficientes de conversão, funções muito complicadas também podem ser aprendidas.

Para tarefas classificadas, a expressão de alto nível pode fortalecer a capacidade de distinguir os dados de entrada, enquanto enfraquece os fatores não relacionados. Por exemplo, o formato original de uma imagem é uma matriz de pixels, então as características de aprendizado no primeiro andar geralmente se referem se existe uma existência lateral na posição e direção específicas da imagem. A segunda camada geralmente detecta o padrão com base em algumas das descargas dessas bordas. Nesse momento, uma pequena interferência do lado será ignorada. A terceira camada pode combinar esses padrões, para que corresponda a uma parte do objetivo familiar. Algumas camadas subsequentes combinam essas peças para formar o alvo a ser testado.

O aspecto central do aprendizado profundo é que as características das camadas mencionadas acima não são projetadas por engenharia artificial, mas o uso de um processo geral de aprendizado é aprendido com os dados.

A aprendizagem profunda está fazendo um progresso significativo, resolvendo os problemas dos esforços da indústria de inteligência artificial por muitos anos e ainda não fez progressos. Ele provou que é bom em descobrir as estruturas complexas em dados de alta dimensão, para que possa ser aplicado à ciência, comércio e campos do governo. Além de quebrar o registro nos campos de reconhecimento de imagens e reconhecimento de voz, também derrotou outras tecnologias de aprendizado de máquina em outros campos, incluindo a previsão da atividade de possíveis moléculas de drogas, analisando dados de acelerador de partículas, reconstrução de circuitos cerebrais, previsão em não - A codificação de mutações no DNA afeta na expressão e doença gênica.

Talvez ainda mais surpreendente seja que o aprendizado profundo produziu resultados muito gratificantes nas tarefas do entendimento da linguagem natural, especialmente classificação de temas, análise emocional, perguntas e respostas automáticas e tradução de idiomas. Acreditamos que, em um futuro próximo, o aprendizado profundo alcançará mais sucesso, porque requer poucas engenharia manual, o que pode se beneficiar facilmente do aumento do poder de computação disponível e do volume de dados. Novos algoritmos e arquiteturas de aprendizado que estão se desenvolvendo atualmente para redes neurais profundas apenas acelerarão esse processo.

Supervisionar

No aprendizado de máquina, a forma mais comum é a supervisão e a aprendizagem, seja profunda ou não.

Imagine que temos que construir um sistema que possa classificar uma imagem que contém uma casa, um carro, uma pessoa ou um animal de estimação. Primeiro, coletamos um grande número de casas, carros, pessoas e imagens de animais de estimação e marcamos sua categoria em cada objeto. Durante o treinamento, a máquina terá uma imagem e, em seguida, gerará uma saída. Essa saída é representada por uma pontuação vetorial no formulário vetorial. Cada categoria possui esse vetor.

Esperamos que as categorias de necessidade tenham altas pontuações em todas as categorias, mas é improvável que isso aconteça antes do treinamento. Ao calcular uma função de destino, o erro (ou distância) entre a pontuação de saída e a pontuação do modo esperado pode ser obtida. A máquina modificará seus parâmetros ajustáveis internos para reduzir esse erro. Esses parâmetros ajustáveis geralmente são chamados Poder São alguns números reais e podem ser considerados como alguns "botões", definindo a função de entrada e saída da máquina.

Em um sistema de aprendizado profundo típico, pode haver milhões de amostras e poderes e amostras com rótulos para treinar máquinas. Para ajustar corretamente o vetor de potência, o algoritmo de aprendizado calcula o vetor de gradiente de cada valor direito, o que significa que, se o valor do peso aumentar uma pequena quantidade, o erro aumentará ou diminuirá. O vetor de valor é ajustado na direção oposta do vetor de gradiente. Nossa função alvo, a média de todas as amostras de treinamento, pode ser considerada uma variante do espaço de alto valor de potência. O vetor de gradiente negativo indica o declínio mais rápido no terreno, tornando -o mais próximo do valor mínimo, ou seja, onde o erro médio de saída é baixo e menor.

Em aplicações práticas, a maioria dos profissionais usa um chamado Algoritmo (SGD) do declínio aleatório do gradiente (SGD) Essência Ele contém algumas amostras de vetor de entrada, calcule a saída e erro, calcule o gradiente médio dessas amostras e ajuste o valor certo de acordo. Repita esse processo fornecendo um pequeno conjunto de amostras para treinar a rede até que a função de destino pare de crescer. É chamado aleatório porque pequenos conjuntos de amostras têm estimativa de ruído para o gradiente médio de todas as amostras. Esse processo simples geralmente encontra um conjunto de bons valores de energia. Comparado com outras técnicas de otimização cuidadosamente projetadas, sua velocidade é surpreendente. Após o treinamento, o sistema exibirá o desempenho do sistema através de diferentes amostras de dados -conjunto de testes. Isso é usado para testar a capacidade de generalização da máquina -o reconhecimento de novas amostras que não foram treinadas.

Muitas tecnologias de aprendizado de máquina no aplicativo atual usam classificadores lineares para classificar as características da extração artificial. Um classificador linear de 2 tipos calcula a ponderação do vetor de recurso. Quando ponderado e excede um limite, a amostra de entrada é atribuída a uma categoria específica. Desde a década de 1960, sabemos que classificadores lineares podem apenas dividir as amostras em áreas muito simples, o que significa que o espaço é dividido em duas partes através de um plano ultra -flat.

Mas questões como imagens e reconhecimento de voz, As funções de entrada e saída necessárias para serem sensíveis às mudanças de fatores não relacionados na amostra de entrada , Como mudanças na posição, direção ou luz do alvo, ou mudanças no tom ou tom de voz na voz, mas precisam ser muito sensíveis a algumas pequenas mudanças específicas (por exemplo, um lobo branco e um cachorro branco semelhante ao lobo - Sa sa sa sa sa sa sa sa sa sa sasa -sa sa sa sasa -sasa sa sasa -sasa sa sasa a diferença entre o cachorro Moyad). No nível dos pixels, podem ser considerados os dois cães de Samore em diferentes posturas e imagens em diferentes ambientes .

Figura 1 Rede neural de camadas múltiplas e algoritmo BP

As redes neurais para camadas múltiplas (representadas pelos pontos de conexão) podem integrar o espaço de entrada, para que os dados (amostras representadas por roscas vermelhas e azuis) sejam divididas linearmente. Observe como as regras (lado esquerdo) no espaço de entrada são transformadas pela camada oculta (à direita). Neste exemplo, apenas dois nós de entrada, dois nós ocultos e um nó de saída são usados, mas as redes usadas para reconhecimento de destino ou processamento de linguagem natural geralmente incluem dezenas ou centenas desses nós. Após obter a permissão de C.olah ( este gráfico foi reaberto.

A regra da cadeia nos diz como as duas pequenas mudanças (as pequenas mudanças de x e y e as pequenas mudanças em y e z) são organizadas juntas. A pequena quantidade variável de x primeiro transformará a variável y por multiplicada por /x (número tendencioso). Semelhante, y trará Z Z para Z. Através da regra da cadeia, uma equação pode ser convertida para a outra -isto é, o processo de x obtido Z por multiplicado por y/x e z/x. Quando x, y, z são vetores, você pode lidar com o mesmo processo (usando jacques).

Com duas camadas ocultas de uma camada de saída, uma fórmula para calcular a transmissão para a frente. Cada um tem um módulo para gradiente de transmissão reversa. Em cada camada, calculamos primeiro a entrada total de cada nó. Z é a soma ponderada da saída da camada anterior. Em seguida, use uma função não linear f (.) Para calcular a saída do nó. Durante o período simples, ignoramos o item limite. As funções não lineares comumente usadas nas redes neurais incluem a unidade linear corrigida (RU) comumente usada (z) = max (0, z) e os sigmóides tradicionais, como f (z) = (exp (z) - - - - Exp (z)/(exp (z) + exp (z)) e f (z) = 1/(1 + exp (z)).

Calcule a fórmula de comunicação reversa. Na camada oculta, calculamos o erro gerado por cada unidade de saída, que é a ponderação do erro gerado pela camada anterior. Em seguida, convertemos o erro da camada de saída multiplicada pelo gradiente F (z) na camada de entrada. Na camada de saída, o erro de cada nó é calculado com um ponto diferencial da função de custo. Se a função de custo do nó L for 0,5*(yl-tl)^2, o erro do nó será YL-TL, onde o TL é o valor esperado. Depois de conhecer o valor de e/kzk, a estrela interna do nó j da estrela interna WJK pode ser ajustada por yj e/zk.

Um classificador linear ou classificador raso nos pixels originais não pode distinguir os dois últimos, embora o primeiro possa ser atribuído à mesma categoria Essência É por isso que a classificação superficial requer um bom extrator de recurso para resolver o dilema de invariância seletiva -o extrator escolherá os fatores importantes que podem distinguir os objetivos na imagem, mas esses fatores são impotentes para distinguir a posição dos animais. Para fortalecer as capacidades de classificação, características generalizadas de não linearidade, como métodos nucleares, mas essas características generalizadas, como núcleos gaussianos, não permitem que o dispositivo de aprendizado produza melhores efeitos de generalização da amostra de aprendizado.

O método tradicional é projetar um bom extrator de recurso, que requer muito conhecimento e conhecimento profissional em tecnologia de engenharia e campos profissionais. Mas se você obtiver boas características através do uso da aprendizagem geral, elas serão evitadas. Esta é a principal vantagem do aprendizado profundo.

A arquitetura da aprendizagem profunda é uma pilha de camadas múltiplas de módulos simples. Os objetivos de todos (ou a maioria) de módulos estão aprendendo e muitos cálculos do mapeamento da saída de entrada não linear. Cada módulo na pilha o converte para aumentar a seletividade e a invariância da expressão. Por exemplo, um sistema multi -camada não linear com uma camada de 5 a 20 pode alcançar funções muito complicadas, como dados de entrada é muito sensível a detalhes -pode distinguir o lobo branco e os cães samoyd e, ao mesmo tempo, ele tem forte capacidade anti -interferência. Por exemplo, você pode ignorar diferentes origens, posturas, objetos leves e circundantes.

Treine redes neurais de camadas múltiplas com comunicação reversa

Na primeira tarefa de reconhecimento de modo, o objetivo do pesquisador sempre foi usar uma rede de camadas múltiplas para substituir as características da seleção artificial. Embora o uso da rede neural de camadas múltiplas seja simples, a solução é ruim. Não foi até a década de 1980 que uma simples diminuição aleatória de gradiente foi usada para treinar redes neurais de camadas múltiplas. Essa situação ruim mudou. Enquanto as funções entre a rede e o valor interno da potência forem relativamente suaves, o uso de reduções de gradiente funcionará. O método de declínio do gradiente é inventado independentemente por diferentes equipes de pesquisa de diferentes equipes de pesquisa das décadas de 1970 a 1980.

O algoritmo de comunicação reversa (BP) usada para resolver a função de destino no gradiente de direitos de rede neural de camadas múltiplas (BP) é apenas uma aplicação específica de regras do tipo cadeia usadas para orientar. A idéia principal do algoritmo de comunicação reversa é: A função de destino pode ser obtida pelo número de guia da entrada (ou gradiente) de uma camada (ou gradiente) através do encaminhamento da saída (ou a próxima camada de entrada) (veja a Figura 1).

O algoritmo de comunicação reversa pode ser usado repetidamente para propagar o gradiente através de cada camada da rede neural de camadas múltiplas: a partir da saída da camada superior da rede neural de camadas múltiplas (ou seja, a camada que altera a rede para gerar previsão ) Até a camada multi -camada a camada inferior da rede neural (ou seja, a camada da entrada externa), uma vez que o número do guia da entrada (par de funções de destino) é concluído, podemos resolver o (par de funções de destino) Valor de potência Valor em cada camada O gradiente.

Muitos aplicativos de aprendizado profundo usam redes neurais do alimentador (Figura 1), e essa rede neural aprende uma entrada do tamanho fixo (como a entrada é uma imagem) para a saída de tamanho fixo (por exemplo, para diferentes categorias). Desde a primeira camada até a próxima camada, calcule a soma do peso da camada anterior de dados de entrada de neurônios e depois passe isso e passe para uma função de ativação não linear. A função de ativação não linear mais popular é a unidade linear retificada (RelU), Formulários de função: f (z) = max (z, 0).

Nas últimas décadas, as redes neurais usaram algumas funções não lineares mais suaves, como Tanh (z) e 1/(1+exp (-z)), mas o Relu geralmente permite que uma rede neural de camada múltipla aprenda mais rápido Ele também pode fazer uma profunda rede de supervisão de supervisão direta (sem pré-treino não supervisor).

Lê o efeito anterior com pré-treino. Em circunstâncias normais, a camada de entrada e a unidade nervosa fora da camada de saída são chamadas de unidades ocultas. O papel da camada oculta pode ser considerado como usando um Maneira não linear Dados de entrada RADY para tornar a categoria correspondente aos dados de entrada dividida linearmente na última camada.

No final dos anos 90, as redes neurais e os algoritmos de comunicação reversa foram abandonados pela maioria das equipes de aprendizado de máquina e não foram valorizadas por equipes de visão computacional e equipes de reconhecimento de voz. Acredita -se geralmente que os métodos de aprendizado de estruturas úteis e de nível múltiplo e conhecimento menos útil para extração de recursos não sejam confiáveis. Para ser preciso, porque um simples declínio de gradiente fará com que toda a otimização caia em uma solução mínima local ruim.

Na prática, se em grandes redes, independentemente das condições de inicialização, a solução mínima local não é um grande problema, e o sistema sempre recebe a mesma solução. Teorias e experimentos recentes mostram que a solução mínima local não é realmente um grande problema. Pelo contrário, o espaço da solução está cheio de um grande número de pontos de sela (pontos com 0 gradientes) e a maioria das superfícies curvas ao redor do ponto da sela é para cima. Portanto, mesmo que esses algoritmos sejam capturados nesses valores mínimos, o relacionamento não é muito grande.

Por volta de 2006, o CIFAR (Instituto de Pesquisa Sênior do Canadá) reuniu alguns pesquisadores e as pessoas estavam interessadas em redes neurais profundas. Os pesquisadores propuseram um método de aprendizado não supervisionado. Esse método pode criar algumas camadas de rede para detectar características sem usar dados de tags. Essas camadas de rede podem ser usadas para reconstruir ou modelar a atividade dos detectores de recursos. Essence

Através do processo de pré -treinamento, o valor da rede profundo pode ser inicializado em um valor interessante. Uma camada de saída é então adicionada à parte superior da rede e o algoritmo de comunicação reversa padrão é usado para tunção fina. A identificação do número de oponentes e tarefas de previsão de pedestres alcançou efeitos significativos, especialmente quando os dados com rótulos são muito pequenos.

O primeiro aplicativo maior feito com esse método de usar esse método é sobre reconhecimento de voz e é feito na GPU. Isso ocorre porque é muito conveniente escrever código e você pode obter 10 vezes ou 20 ao treinar. Através da aceleração. Em 2009, esse método foi usado para mapear a janela de coeficiente de curto prazo. A janela do sistema foi extraída das ondas sonoras e convertida em um conjunto de números de probabilidade. Ele alcançou resultados surpreendentes em um grupo de procedimentos de teste de referência de reconhecimento de voz padrão que usam muito pouco vocabulário e depois se desenvolveram rapidamente para outro conjunto de dados maiores e, ao mesmo tempo, também alcançou resultados surpreendentes.

De 2009 até o final de 2012, a equipe de voz maior desenvolveu várias versões dessa rede profunda e tem sido usada em telefones Android. Para pequenos conjuntos de dados, o pré -treinamento não supervisionado pode evitar o excesso de ajuste e, ao mesmo tempo, pode trazer melhor desempenho generalizado quando as amostras de etiquetas são pequenas. Depois que a tecnologia de aprendizado profundo é restaurado, esse pré -treinamento só precisa quando há menos conjuntos de dados.

Depois, há também uma rede neural de alimentação profunda, que é mais fácil de treinar e mais generalizada do que a rede neural conectada a todos. Esta é a Rede Neural Convolucional (CNN). Quando as pessoas não estão interessadas em redes neurais, as redes neurais convolucionais alcançaram muito sucesso na prática e agora é amplamente utilizada pelas equipes de visão computacional.

Rede neural convolucional

A rede neural convolucional foi projetada para processar dados de matriz multidimensional. Por exemplo, uma imagem colorida com 3 canais de cores contendo uma combinação de imagem 2-D do valor de pixel. Muitos formulários de dados são esta matriz multidimensional: 1D é usada para representar sinais e seqüências incluem linguagem, 2D para representar imagens ou sons, 3DS para representar imagens com vídeos ou som. A rede neural convolucional usa 4 idéias principais para usar os atributos dos sinais naturais: conexão local, compartilhamento de energia, poolização e uso da camada de multi -rede.

Figura 2 Rede neural da Internet interna

Uma estrutura de rede neural convolucional típica (Figura 2) é composta por uma série de processos. Os estágios iniciais foram compostos por camadas convolucionais e camadas de agrupamento. A unidade da camada de convolução era tecido no mapa de recursos. No diagrama de recursos, cada unidade foi conectada à anterior através de um conjunto de direitos chamados filtros para o anterior para o anterior. Um bloco de departamento do diagrama de recursos, depois este ponderado local e passou para uma função não linear, como o Relu. Aproveite o mesmo filtro em todas as unidades em um diagrama de recursos e os diagramas de recursos de diferentes camadas usam filtros diferentes. O uso dessa estrutura está em dois motivos.

Primeiro de tudo, nos dados da matriz, como dados de imagem, o valor próximo a um valor é frequentemente altamente relacionado e pode formar características locais distincionáveis que são facilmente detectadas. Em segundo lugar, as características estatísticas locais de diferentes locais não estão muito relacionadas, ou seja, uma característica que aparece em um local também pode aparecer em outros lugares; portanto, as unidades em locais diferentes podem compartilhar direitos e detectar as mesmas amostras. Em matemática, essa operação de filtragem realizada por um diagrama de recursos é uma convolução offline, e a rede neural convolucional também é famosa.

O papel da camada de convolução é detectar a conexão local da camada anterior de recursos. No entanto, o papel da camada de agrupamento é mesclar características semelhantes na semântica. Isso ocorre porque a posição relativa das características de um tema não é o mesmo. Geralmente, é calculado o valor maior de um bloco de departamento na figura característica da unidade de agrupamento. A unidade de pools adjacente lê os dados de um pequeno bloco movendo uma linha ou uma coluna, porque a dimensão da expressão da expressão e os dados dos dados são reduzidos. A transição não é degenerada. Duas ou três dessas convolução, transformação não linear e poolização são distorcidas, e há mais camada de convolução e conexão completa. O algoritmo de propagação reversa na rede neural convolucional é a mesma da rede geral profunda, que pode ser treinada em todos os direitos do filtro.

Muitos sinais naturais usados por redes neurais profundas são os atributos da composição hierárquica, e as características dos atributos de nível médio são alcançadas pela combinação de características de baixo nível. Na imagem, a combinação da borda local forma um padrão básico, que faz a parte do objeto e, em seguida, forma um objeto. Essa estrutura hierárquica também existe nos dados de voz e nos dados de texto, como som, fatores, sílabas, palavras e frases no documento. Quando a posição dos dados de entrada muda na camada anterior, a operação de pool faz essas características representam a robustez dessas alterações.

A inspiração da camada de convolução e agrupamento na rede neural convolucional vem diretamente de células simples e células complexas na neurociência visual. Esta célula é um circuito visual baseado na estrutura hierárquica do LNG-V1-V2-V4-IT. Quando uma rede neural convolucional é a mesma imagem que o macaco, a rede neural convolucional mostra as mudanças nos neurônios aleatórios 160 no córtex do lobo temporal inferior do macaco. A rede neural convolucional tem a causa raiz da neuropia. Sua arquitetura é um pouco semelhante, mas na neuropia, não há algoritmo de aprendizado final para monitoramento de end, como um algoritmo final. Uma rede neural convolucional 1D relativamente primitiva é chamada de rede neural de atraso, que pode ser usada para identificar voz e palavras simples.

Desde os anos 90, um grande número de aplicações apareceu com base em redes neurais convolucionais. Inicialmente, foi usado para fazer reconhecimento de voz e leitura de documentos com uma rede neural tardia. Este sistema de leitura de documentos usa uma rede neural convolucional treinada e um modelo de probabilidade. Esse modelo de probabilidade implementa algumas restrições de linguagem. No final dos anos 90, esse sistema foi usado para ler mais de 10%dos Estados Unidos. Posteriormente, a Microsoft desenvolveu um sistema de reconhecimento de caracteres baseado em redes neurais convolucionais e sistemas de identificação de manuscrito. No início dos anos 90, as redes neurais convolucionais também foram identificadas com objetos em gráficos, como face, mãos e reconhecimento de rosto.

Use profunda rede de convolução para entender a imagem

Desde o século XXI, as redes neurais convolucionais foram usadas com sucesso em vários campos de detecção, segmentação, reconhecimento de objetos e imagens. Esses aplicativos usam uma grande quantidade de dados de etiquetas, como reconhecimento de sinal de tráfego, segmentação de informações biológicas, detecção facial, texto, pedestres e pessoas em gráficos naturais. Nos últimos anos, uma grande aplicação bem -sucedida de redes neurais convolucionais é o reconhecimento de face.

Vale ressaltar que a imagem pode estar rotulando no nível do pixel, para que ela possa ser aplicada a tecnologias como telefone automático para responder a robôs e carros autônomos. Como a Mobileye e a NVIDIA estão usando redes neurais convolucionais no sistema visual no carro. Outras aplicações envolvem o entendimento da linguagem natural e do reconhecimento de fala.

Figura 3 da imagem ao texto

Embora a aplicação de redes neurais convolucionais tenha sido bem -sucedida, ela foi valorizada pela equipe de visão computacional e equipe de aprendizado de máquina como a concorrência da ImagNet em 2012. Nesta competição, as redes neurais convolucionais profundas são usadas em milhões de conjuntos de dados de imagem de rede. Esse conjunto de dados contém 1.000 classes diferentes. O resultado atingiu um bem sem precedentes, quase uma maneira melhor de reduzir a taxa de erro do que a melhor maneira no momento.

Esse sucesso vem do uso efetivo da GPU, Relu, uma nova tecnologia regular chamada abandono e tecnologia que produz mais amostras de treinamento, decompondo amostras existentes. Este sucesso traz uma revolução à visão computacional. Hoje, as redes neurais convolucionais são usadas em quase todas as tarefas de identificação e detecção. Um resultado recente é que o uso de redes neurais convolucionais combinadas com redes neurais de feedback para gerar título da imagem.

A arquitetura de rede neural convolucional de hoje possui 10 a 20 camadas usando funções de ativação do RelU, milhões de pesos e bilhões de conexões. No entanto, levou apenas algumas semanas para treinar uma rede tão grande há dois anos. Agora, o hardware, o software e os algoritmos progredem em paralelo, e o tempo de treinamento foi compactado por algumas horas.

O desempenho do sistema visual baseado em redes neurais convolucionais atraiu a atenção de grandes empresas de tecnologia, como Google, Facebook, Microsoft, IBM, Yahoo!, Twitter, Adobe etc., além de algumas startups em rápido crescimento.

As redes neurais convolucionais são fáceis de alcançar com eficiência em chip ou em matriz de portas de programação (FPGA). O sistema visual de tempo real em carros autônomos é possível.

Recursos distribuídos representam e processamento de idiomas

Comparado com o algoritmo clássico de aprendizado de recursos de distribuição não -uso (representações distribuídas), a teoria do aprendizado profundo indica que as redes profundas têm duas vantagens diferentes. Essas vantagens são derivadas do valor dos nós na rede e dependem da distribuição de dados gerados pela camada subjacente com uma estrutura razoável. Primeiro de tudo, os recursos distribuídos de aprendizado indicam que a combinação do valor do recurso recém -aprendido (por exemplo, o recurso N Yuan tem uma combinação de 2n possível). Em segundo lugar, a combinação da rede de profundidade indica que a camada traz outro potencial de vantagem no nível do índice (profundidade do nível do índice).

A camada oculta na rede neural de camadas múltiplas usa os dados inseridos na rede para o aprendizado de recursos para facilitar a previsão da saída de destino. Abaixo está um bom exemplo de demonstração, como o uso do conteúdo do texto local como uma entrada para treinar uma rede neural de camadas múltiplas para prever a próxima palavra na frase. Cada palavra no conteúdo indica um vetor de um NN dividido na rede, ou seja, um de cada componente é um valor de 1 e o restante é todo 0. No primeiro andar, cada palavra cria um estado de ativação diferente, ou o vetor da palavra (veja a Figura 4).

No modelo de idioma, o restante do vetor de palavra de entrada no restante da rede é o vetor de palavra de saída para prever a próxima palavra na frase. As palavras na frase do texto podem ser previstas como a probabilidade da próxima palavra na frase de texto. A rede aprende a palavra vetor que contém muitos nós ativos e explicou como uma palavra, como um exemplo do texto da primeira demonstração, aprendendo o símbolo de texto do símbolo de texto. Essas características semânticas não têm uma representação clara na entrada. Em vez disso, é escavado durante o processo de aprendizado de "micro-rupias", neste artigo, e como uma boa maneira de ser descoberta durante o processo de aprendizado, e é usada como uma boa maneira de decompor símbolos de entrada e saída. Quando uma frase vem de um grande número de textos reais e micro -rulas individuais não são confiáveis, o aprendizado de vetores de palavras também pode ter um bom desempenho.

Ao usar os modelos treinados para prever novos exemplos, algumas palavras com conceitos semelhantes são fáceis de confundir, como terça -feira (terça -feira) e quarta -feira, Suécia e Noruega. Essa maneira de expressar é chamada de recursos distribuídos, porque seus elementos não se excluem e suas informações estruturais correspondem às alterações nos dados observados. Essas palavras vetores são obtidas pelo aprendizado. Essas características não são determinadas por especialistas, mas são automaticamente escavadas por redes neurais. Aprender vetores de palavras do texto indica que agora são amplamente utilizados na linguagem natural.

Figura 4 Visualização de aprendizado de vetor de palavras

O centro da controvérsia característica é baseado na inspiração lógica e na rede neural. No paradigma da inspiração lógica, uma entidade de símbolo representa algo, porque seus atributos são os mesmos ou diferentes que outras entidades de símbolo. Essa instância do símbolo não possui uma estrutura interna e a estrutura está relacionada ao uso. Quanto à compreensão da semântica do símbolo, ela deve corresponder às regras razoáveis da mudança.

Pelo contrário, as redes neurais usam um grande número de portadores de atividades, matriz de potência e não -linearidade para obter uma função de "intuição" rápida que pode suportar simples e fácil -ter com o raciocínio do senso comum.

Antes de introduzir modelos de linguagem neural, o método padrão é descrito brevemente, que é baseado em modelos de linguagem estatística. Este modelo não usa recursos distribuídos. Baseia-se na frequência de sequências simbólicas estatísticas curtas aumentadas para n (n-gramas, n yuan gramática). O número de n-gramas está próximo do VN, onde V é o tamanho do medidor de vocabulário. Considerando que o conteúdo do texto contém milhares de palavras, é necessário um corpus muito grande. N-gramas considera cada palavra como uma unidade de átomer, por isso não pode ser generalizada em sequências de palavras relacionadas à semântica. As palavras semânticas estão próximas uma da outra (Figura 4).

Rede neural recursiva

Ao introduzir algoritmos de comunicação reversa pela primeira vez, o mais emocionante é usar o treinamento Recursive Neural Networks (RNNS). Para tarefas que envolvem seqüências, como voz e linguagem, usando RNNs para obter melhores resultados. O RNNS processa um elemento de sequência por vez, mantendo o "vetor de status" das informações históricas que contêm as informações históricas do elemento de sequência no passado na rede. Se for a saída de diferentes neurônios na rede de camadas múltiplas profundas, consideraremos a saída dessa unidade oculta em diferentes etapas de tempo discretas., Direita).

Figura 5 Rede neural recursiva

O RNNS é um sistema dinâmico muito poderoso, mas treiná -los foram confirmados que existem problemas. Como o gradiente de backup é aumentado ou diminuído em cada intervalo de tempo, após um período de tempo, o resultado aumentará ou cairá para zero.

Devido aos métodos avançados de arquitetura e treinamento, o RNNS é capaz de prever o próximo caractere ou a próxima palavra no próximo personagem no texto e pode ser aplicado a tarefas mais complicadas. Por exemplo, depois de ler as palavras em frases em inglês em um determinado momento, uma rede de inglês "codificador" será treinada, para que o vetor de status final da unidade oculta possa expressar bem o significado ou os pensamentos a serem expressos na frase. Esse "vetor de pensamento" pode ser usado como um estado de treinamento conjunto (ou entrada adicional) da rede "codificador" francesa como um treinamento conjunto de uma rede "codificador francesa".

Se você selecionar uma primeira palavra especial da distribuição como entrada da rede de codificação, a distribuição de probabilidade da segunda palavra na frase traduzida será emitida até que a opção seja interrompida. No geral, esse processo é uma sequência de vocabulário francês com base na distribuição de probabilidade das frases em inglês. O desempenho desse método simples de tradução para a máquina pode até ser comparável ao método mais avançado (de estado de mim), que também faz com que as pessoas questionem se os símbolos internos dos símbolos internos são necessários para entender os símbolos internos dos usando regras de raciocínio. Isso combina com a visão do empurrão de acordo com a conclusão razoável no raciocínio diário.

A analogia traduz o significado das frases francesas em frases em inglês e também pode aprender a "traduzir" o conteúdo da imagem para frases em inglês (veja a Figura 3). Esse codificador pode converter pixels em redes de convolução profunda (ConvNet) de vetores de atividade na camada oculta final. O decodificador e os RNNs são usados nos modelos de tradução de máquinas e linguagem de rede neural. Recentemente, houve um enorme boom no aprendizado profundo (ver exemplos mencionados na literatura).

Depois que o RNNS é expandido (veja a Figura 5), ele pode ser considerado uma rede neural de alimentação profunda que compartilha o mesmo valor de peso em todas as camadas. Embora seu objetivo seja aprender dependência a longo prazo, a evidência de teórica e experiência indica que é difícil aprender e economizar informações por um longo tempo.

Para resolver esse problema, segue -se uma idéia de aumento do armazenamento de rede. A LSTM (longas redes de memória de curto prazo) de uma unidade oculta especial foi proposta pela primeira vez de que seu comportamento natural era a entrada de preservação a longo prazo. Uma unidade especial chamada células de memória é semelhante aos cumuladores e neurônios de controle de portas: Na próxima vez, ele tem um valor certo e se conecta a si mesmo, copiando o valor real de seu próprio estado e sinais externos acumulados, mas essa auto -conexão é controlada por outra unidade para aprender e decidir quando limpar o conteúdo da memória do conteúdo de memória. de.

A rede LSTM foi posteriormente provada mais eficaz do que os RNNs tradicionais, especialmente quando havia várias camadas em cada vez em cada vez, todo o sistema de reconhecimento de voz poderia transcrever completamente a transcrição acústica para seqüências de caracteres. Atualmente, as redes LSTM ou unidades de controle de portas relacionadas também são usadas para redes de codificação e decodificação, e elas têm um bom desempenho na tradução da máquina.

Nos últimos anos, vários estudiosos propuseram propostas diferentes para aprimorar o módulo de memória dos RNNs. A proposta inclui uma máquina de Turing neural, que aprimora a rede adicionando o armazenamento de "fitas semelhantes" que podem ser legíveis e escritas pelos RNNNs, e a rede convencional na rede de memória é aprimorada pela memória da associação. A rede de memória tem um bom desempenho no teste de referência de perguntas e respostas padrão. A memória é usada para lembrar o caso de responder a perguntas posteriormente.

Além da memória simples, as redes de neuropatia e memória estão sendo usadas para tarefas que geralmente precisam ser operações razoáveis e simbólicas, e você também pode ensinar o "algoritmo" da máquina nervosa. Além disso, eles podem aprender a produzir uma sequência de símbolos classificados no valor real da sequência de símbolos de entrada (cada símbolo que corresponde ao valor verdadeiro correspondente à lista na lista. Você pode treinar a rede de memória para rastrear o estado do mundo dos jogos e histórias de cenário e aventura e responder a algumas perguntas que exigem raciocínio complexo. Em um exemplo de teste, a rede pode responder corretamente à pergunta de "Frodo Now?" Na versão de 15 anos de "The Rings King".

Perspectivas futuras para aprendizado profundo

A aprendizagem não supervisionada desempenhou um papel na promoção do aumento da reconstrução do aprendizado profundo, mas o sucesso de pura supervisão e aprendizado foi abordado através do aprendizado sem supervisão. Embora esse não seja nosso foco nesta revisão, ainda esperamos que o aprendizado sem supervisão seja cada vez mais importante a longo prazo. A aprendizagem não supervisionada ocupa uma posição dominante no aprendizado de humanos e animais: podemos encontrar a estrutura interna do mundo observando, e não o nome de cada coisa objetiva.

A visão humana é um ninho central inteligente, pequeno ou grande de resolução e área circundante de coleta de luzes leves. Esperamos mais progresso na visão de máquina no futuro. Esses progressos vêm daqueles sistemas de treinamento final para end e combinados com convênios e RNNNs para decidir usar o aprendizado aprimorado para decidir. O sistema que combina aprendizado profundo e aprendizado aprimorado está no estágio inicial, mas superou o sistema de vídeo passivo na tarefa de classificação e tem um efeito impressionante no aprendizado de videogames de operação.

Nos próximos anos, o entendimento da linguagem natural será outra área para o aprendizado profundo para causar um enorme impacto. Prevemos os sistemas que usam RNNs para entender melhor as frases ou o documento inteiro, quando aprendem seletivamente as estratégias adicionadas em um determinado momento.

No final, o principal progresso da inteligência artificial virá de um sistema que combina o raciocínio complexo. Embora o aprendizado profundo e o raciocínio simples tenham sido aplicados à voz e à caligrafia por um longo tempo, ainda precisamos substituir as operações de expressão de caracteres baseadas em regras, operando um grande número de vetores.

Link para Download:

https://www.cs.toronto.edu/~hinton/absps/naturereview.pdf

Alemanha: Fair olhando para emprestar mais para o mercado chinês
Anterior
qualificação europeia um super chateado! Menor do que o futebol nacional 45 deles, a 10 minutos anulou as equipas europeias
Próximo