REVISÃO
artigo introduz anteriores do algoritmo de aprendizado de máquina tradicional e sua aplicação na recomendação inteligente (veja os links no final do artigo). Hoje vamos apresentar profunda aprender o básico de algoritmos de recomendação inteligentes usados, incluindo as suas instituições comuns de rede e processo de treinamento do modelo método comumente usado, vamos estar de volta em uma série de algoritmo de recomendação com base em estudo aprofundado sobre esta base.
1. Introdução profundidade para aprender as noções básicas
rede 1.1MLP
rede MLP é um tipo de rede mais amplamente usados, em que rede DNN MLP pertencem, que é uma estrutura de rede neural artificial para a frente, de um conjunto de vectores da saída para a frente estrutura de rede propagação vector de entrada é a seguinte:
Relações em todos os níveis:
.
Onde representa a função de activação, funções de activação comum centralizado são: SIGMOD função, a função tanh, função Relu.
função SIGMOD:
função tanh:
função Relu:
rede 1.2RNN
RNN é um nodo ligado para formar um anel orientada rede neural artificial, em comparação com a rede DNN, RNN pode ser de saída usando um cálculo de tempo de entrada e saída de corrente, a estrutura de rede é a seguinte:
Expandir a seguinte:
Camadas de relacionamento:
.
rede 1.3CNN
rede neural convolucional, é o ex rede neural de alimentação para a frente, pode ser reconhecido por uma superfície contínua de uma operação de convolução, com bons resultados no processamento de imagem. Estrutura de rede neural de convolução tem uma camada de entrada de imagem original, a camada de convolução, camada reunidas, as camadas totalmente ligados, a camada de saída. estrutura de rede é a seguinte:
relação de ligação entre as respectivas camadas são as seguintes:
relação convolução X entre a camada de entrada camada C:
C e a camada de convolução relação camada S amostrado:
As amostras de camada e da camada de saída Y S relacionamento:
Onde K = {km, n} representa um kernel de convolução.
rede 1.4AE
AE do codificador, são rede sem supervisão. Uma vez que o objectivo do codificador é entrada para a saída X X 'tão perto quanto possível, uma estrutura de duas camadas da rede MLP, o qual é representado pela proximidade do erro de reconstrução, a função de erro com variância e transversal entropia média, a fim de assegurar a dispersão rede L1 mais a função de erro regularização prazo, a fim de garantir a robustez da rede aumenta dados de entrada de ruído aleatório. estrutura de rede é a seguinte:
rede 1.5RBM
Restricted Boltzmann Machine (máquina restrito Boltzmann) RBM é a rede sem supervisão. Tendo uma estrutura de duas camadas, e não auto-ligação de feedback estocástica neural modelo de rede de simetria, toda a ligação intercamadas, sem ligar a camada interna. RBM é um método de extracção de característica eficaz para redes de crenças profundas (DBN) realimentação neural inicialização da rede podem melhorar significativamente a capacidade de generalização, uma pilha constituída por uma pluralidade de mecanismos de argolas podem ser extraídas características mais abstractos. estrutura de rede é a seguinte:
princípio formação RBM de parâmetros de rede é mais complexa, simplesmente, é para pedir a função de energia de rede que corresponde a um mínimo de parâmetros.
1.6 profundidade da integração com o modelo tradicional de aprendizagem
A fusão com o modelo de aprendizagem profunda tradicional, por exemplo: usando uma ampla e profunda MLP ligado é modelo LR, o modelo baseado no modo de treinamento pode ser dividido em modelo de fusão baixo acoplamento e modelo modelo fortemente acoplados.
modelo fracamente acoplados: diferentes partes do modelo são a formação sozinho, por exemplo modelo FNN é a incorporação de parâmetros bem camada pré-formados, e em seguida formação de parâmetros MLP.
Apertado modelo de engate: as diferentes partes do modelo é formado em conjunto, estes modelos podem também ser referido como modelo de ponta a ponta, por exemplo, largura e profundidade parâmetro é um parâmetro e LR modelo MLP é treinado juntos.
Dois métodos têm vantagens e desvantagens, as vantagens do modelo de baixo acoplamento é flexível e pode ser montado, as vantagens do modelo está intimamente ligado com a formação para obter o efeito global dos parâmetros ideais através da articulação.
função estudo perda comum 1,7 profundidade
Comum perda da função perda de duas maneiras: função de perda cross-entropia, função de perda erro quadrático médio
função de perda (1) transversal entropia:
função de perda (2) erro médio quadrado:
1,8 descida gradiente
Muitos modelos em algoritmos de aprendizagem de máquina processo de resolução é construído por uma função de perda, e depois resolver o parâmetro correspondente à função perda mínima como a solução do modelo. Gradiente processo de resolução função é a seguinte:
Passo 1: Todos os parâmetros do modelo colectivamente referidos um conjunto, que pode ser referido como
, Dado um conjunto de aleatório entre 0 e 1, para
Inicialização iteração passos de k = 0.
Passo 2: cálculo iterativo
entre
Para controlar a velocidade de convergência, tendo 0,01.
Passo 3 determina se convergência, se qualquer uma das duas seguintes condições são satisfeitas é devolvido
Duas condições foram: