avanço máquina de tradução! modelo "Atenção universal": O conceito é simples menos parâmetros, aumentou consideravelmente o desempenho

Ji-won novo relatório

Actualmente, o codificador baseado mais avançado sistema de tradução automática - arquitetura descodificador, a sequência de entrada é primeiro codificada e, em seguida, gerar uma saída de acordo com a sequência de código de entrada. Note-se que ambos estão relacionados com a interface com o mecanismo, o mecanismo com base no estado do descodificador, a fonte de codificação fixa reagrupamento token.

Este trabalho apresenta um método alternativo de rede neural convolucional cruz-2D em um único duas sequências. Cada camada da rede irá re-codificação de acordo com o sinal de saída actual sequência fonte. Portanto, similar às propriedades da prevalência de atenção em toda a rede. Nossos experimentos modelo teve um bom desempenho, melhor do que o codificador mais avançada - sistema descodificador, mas também um conceito simples, menos parâmetros.

modelo e princípio "Atenção universal"

camada convolução no nosso modelo recessivos 3 × 3 do filtro, em que apenas contadas símbolos de saída anteriormente. Representado Após uma camada (azul escuro) e duas camadas (azul claro) campo receptivo após o cálculo, bem como normal 3 × 3 filtro (cinzento) na parte oculta do campo de visão.

Ilustrado, a parte superior e inferior nó no gráfico topologia de rede descodificador tendo duas camadas escondidas da entrada e saída, respectivamente. Para ligação horizontal RNN, direcção diagonal para a ligação à rede convolucional. Ele está ligado à direcção vertical, em ambos os casos. Passo parâmetro ao longo do tempo (direcção horizontal) partes, mas não cruzada camada (direcção vertical) partes.

arquitetura DenseNet dentro de cada bloco e o bloco de nível (inferior)

Efeito incorporado token tamanho, o número de camadas (L) e o crescimento de (g)

Se frases longas, frases curtas, os resultados da tradução são melhores

Em comparação com a melhor tecnologia disponível

Os resultados foram comparados com aqueles na Tabela 3 da arte anterior, incluindo alemão - tradução Inglês (De-En) e Inglês - tradução alemão (En-De). Nosso modelo chamou a atenção Pervasive. Salvo disposição em contrário, usamos treinamento máximo parâmetros de estimativa de probabilidade (MLE) para todos os modelos. Para alguns modelos, que além disso, irá relatório estima que os resultados obtidos (SLE, como reforço de aprendizagem), através do nível de seqüência, geralmente dirigidas a otimizar BLEU métrica, não a probabilidade de uma tradução correta.

Frase reflectido nos diferentes comprimentos de sequência

Na figura acima, vamos traduzir a qualidade em função da duração da pena, e nosso modelo e RNNsearch, ConvS2S e Transformer comparar. Os resultados mostram que o nosso modelo de quase todos os comprimentos de sentença ter sido o melhor resultado, ConvS2S e Transformer só executar melhor sobre a sentença mais longa. No geral, nosso modelo ao mesmo tempo forte desempenho RNNsearch na frase, mas também perto do ConvS2S e Transformer bom desempenho ao longo de um período mais longo.

alinhamento frase recessivo

Apresentada por cima da frase máximo alinhados reunidas operador implícito gerado no nosso modelo. Como referência, também demonstrou o alinhamento de "auto-foco" gerado pelo nosso modelo utilizado. Pode ser visto ambos os modelos simular com sucesso qualitativamente o alinhamento sentença implícita.

O nosso modelo (L = 24, G = 32, ds = dt = 128), com uma reserva diferente do operador, os meios de convolução gating

No filtro de profundidade diferente tamanho K e L, o desempenho do nosso modelo (g = 32, ds = dt = 128).

E IWSLT Alemão - Comparação dos resultados do último modelo de tradução Inglês.

(*): Usando o resultado (**) a nossa implementação obtido: FairSeq utilizar os resultados obtidos.

A partir do codificador - decodificador paradigma para a tradução automática usando DenseNet

Nós propomos uma nova arquitetura de tradução automática neural, A arquitetura fora do codificador - decodificador paradigma . Nós modelar a sequência de origem e uma sequência alvo, em que a profundidade da junta hierarquia de codificação, em que a porção fonte símbolo incorporado no contexto da sequência alvo. dimensão fonte codificado conjuntamente ao longo desta pooling máxima dos elementos relevantes mapeado para prever o próximo símbolo de destino. o modelo Com base DenseNet de 2D CNN .

Dado que o nosso modelo vai ligar contexto, a entrada de sinal para cada camada da sequência alvo gerado por re-codifica a corrente, de modo que cada modelo na configuração de rede tendo uma "atenção semelhante" (atenção semelhante) propriedades.

Portanto, adicione clara "do módulo de nota" tem um muito limitado, mas efeito muito positivo. No entanto, em nosso modelo do máximo operadores piscina gerar alinhamento sentença implícita, alinhamento semelhante em mecanismos da natureza e atenção gerada. Nós avaliamos o nosso modelo em IWSLT'14 conjunto de dados, o Alemão - Inglês tradução bilíngüe.

pontuações BLEU com o melhor método disponível obtivemos bastante os parâmetros do modelo que usamos menos, mais conceitualmente simples. nós Esperança de que essa conquista pode levar a um codificador - decodificador interesse em modelos alternativos de . No futuro, pretendemos estudar abordagem híbrida, em que o modelo comum de entrada de codificação não é fornecido pelo vector incorporado, mas a origem eo destino 1D incorporado na saída da rede.

O futuro, vamos estudar como este modelo em toda a tradução multilingue.

Papers link:

https://arxiv.org/pdf/1808.03867v1.pdf

recursos Github:

https://github.com/elbayadm/ attn2d.

Artigos populares:

New Ji-won contagem regressiva do Mundo de 2018 Assembleia Geral AI 24 dia

Bilhetes já à venda!

New Ji-won será realizada 20 de setembro AI Mundo de 2018 conferência em Beijing National Convention Center, convidou a aprendizagem de máquina padrinho, com foco no professor da máquina de inteligência na CMU Tom Mitchell, Maike Si-Tiger Mark, Zhou Zhihua, um grande Cheng Tao, Chen Yiran AI e outros líderes e o destino da humanidade.

O site oficial da Assembléia Geral:

bilhetes linha ativa link:
bilhete de linha ativa código bidimensional:

Se tivessem sido pit, seguro de carro é não só como comprar branco?

O feijão amor, estão em Qingdao!

Hong Kong Super League últimas posições levar a vitória, quatro equipes empataram em segundo com nove pontos, as duas equipes ainda sem vitórias má idéia

April 1, 2018

Google e outros artefatos compreensão de segmentação de imagem recorreu semânticas, PS já não tem um designer profissional!

August 26, 2018

Sobre Silk Road

Categorias

Partilha