aprendizagem profunda Bayesiana, que é um programa intensivo de seis dias de cursos intensivos (vídeo anexado e PPT)

Fonte: Almost Human

Este artigo sobre 2500 Word, leitura recomendada 6 minutos.

Este artigo irá usar em métodos de aprendizado de máquina para apresentá-lo a aprender como combinar a profundidade de métodos bayesianos.

In Deep | cursos de verão Bayes, palestras discutirá como combinar o aprendizado profundo métodos Bayesian, e para alcançar melhores resultados em aplicações de aprendizagem de máquina. Estudos recentes mostram que o uso de métodos Bayesian pode trazer muitos benefícios. Os alunos vão aprender métodos e técnicas é muito importante para a compreensão da pesquisa de aprendizagem de máquina atual. Eles também vão apreciar a ligação entre a abordagem Bayesiana e reforço de aprendizagem, aprendendo moderno método de otimização estocástica de redes neurais e técnicas de regularização. Após o curso, ensinar as pessoas também configurar uma sessão de prática.

endereço projeto: https: endereço do vídeo //github.com/bayesgroup/deepbayes-2018: https :? lista //Www.youtube.com/playlist = endereço PLe5rNUydzV9Q01vWCP9BV7NhJG3j7mz62PPT: https: //drive.google.com/drive/folders/ 1RJ-HTN3sNTvhJXPoXEEhfGlZWtjNY26C professor

A maioria dos professores e assistentes de ensino são métodos Bayesian pesquisar os membros da equipe e pesquisadores de centros de pesquisa mais importantes do mundo. Muitos professores têm publicado artigos tais como NIPS, ICML, ICCV, CVPR, ICLR, AISTATS aprendizado de máquina e outras reuniões internacionais de alto nível. métodos Bayesian pesquisar equipe desenvolveu uma gama de cursos universitários, incluindo abordagem bayesiana, a profundidade de aprendizado, otimização e modelos gráficos probabilísticos, tem um monte de experiência de ensino.

estudante

É claro que o verão é projetado para:

  • Graduação (melhor faculdade ter completado pelo menos dois anos), e tem uma forte base em matemática, aprendizagem de máquina ter um conhecimento adequado (incluindo a aprendizagem de profundidade) de estudantes de pós-graduação.
  • Queremos ampliar os conhecimentos e habilidades de campo de aprendizado de máquina ou um relacionado pesquisadores de campo e especialistas da indústria.

Este curso é uma base essencial

  • base sólida de aprendizagem de máquina, aprendizagem profunda familiar.
  • Matemática: álgebra linear e proficiência teoria da probabilidade (muito importante).
  • Programação: Python, PyTorch e NumPy.
  • Profundo | Bayes 2018 cursos de verão em Inglês, para que os alunos devem estar familiarizados com o Inglês técnico.

I funda | Bayes pode aprender alguma coisa?

  • Por Bayesian abordagem tão útil (em aprendizado de máquina e vida cotidiana)? Aleatoriedade no final é o quê?
  • modelo de variáveis ocultas. Como treinar o modelo para identificar padrões desconhecidos antes do treino?
  • modelo probabilístico escalável. Porque o problema de inferência de probabilidade em um problema de otimização para ser útil?
  • Reforçar a ligação entre os métodos de Bayesian aprendizagem e. Como Treinar tabela de cálculo aleatório?
  • taxas de abandono automaticamente ajuste fino. rede neural vai caber sobre ele? (Conselho)
  • otimização estocástica. Como calcular que um valor função de ponto de função de optimização de velocidade mais rápida?

O objectivo do curso é demonstrar a utilização de métodos de Bayesian em estudo profundidade pode aumentar a sua área de aplicação e melhorar o desempenho. Embora existam muitos set aprendizagem de máquina diferente de problemas, mas a probabilidade de Bayesian inferência rede pode ser usada de forma semelhante para resolvê-los. Você coração é?

Descrição do curso

O curso abrange todos os aspectos da aprendizagem Bayesiana, princípios Bayesian do mais básico ao inferência variational mais difícil e Cadeias de Markov método de Monte Carlo. O seguinte mostra uma lista de tópicos ao longo do curso, Almost Human será breve parte do conteúdo do curso.

Primeiro dia:

  • Introdução aos métodos Bayesian
  • inferência bayesiana
  • Variável latente modelo e EM Algorithm
  • algoritmo EM

No dia seguinte:

  • Introdução ao Stochastic Otimização
  • abordagem escalável Bayesian
  • Variação do codificador
  • Dirichlet variáveis ocultas

No terceiro dia:

  • método de inferência variacional Terceira
  • Variational inferência reforço aprendizagem a partir da perspectiva
  • Reinforcement Learning
  • Distribuído Reinforcement Learning

Dia Quatro:

  • modelo de geração
  • contra o aprendizado
  • técnicas de re-paramétrico prolongados

Dia Cinco:

  • processo de Gaussian
  • Bayesian Otimização
  • processo gaussiano profundidade
  • Markov Chain Monte Carlo
  • Aleatório Markov Chain Monte Carlo

Sexto dia:

  • Variational Bayesian redes neurais e Dropout
  • Abandono e variação escassa variação de rede
  • gargalo informações

O curso requer seis dias para ser concluído, eo curso por dia são muito grandes, Almost Human é uma visão geral dos métodos mais básicos e Bayesian modelo variáveis latentes em que uma abordagem bayesiana é a idéia central de todo o currículo, o modelo variável oculta é a base de muitos métodos avançados de modelo de geração.

Introdução aos métodos Bayesian

Nós primeiros exemplos ao redor do "elefante" para introduzir o teorema de Bayes, a diferença de freqüência entre a escola ea Bayesians e uma descrição breve.

teorema de Bayes 1.:

Em primeiro lugar, a forma básica de Bayes teorema é

I.e. posterior x = probabilidade a priori / evidência

aparência formal é

Agora vamos começar a discutir o problema "elefante".

Um grupo de "cego" em tocar um elefante, tentando adivinhar o que é tocado, mas ninguém suposição é correta. Em um mundo incerto, isto é o que nós olhamos como na compreensão do mundo quando a probabilidade.

Para simplificar, vamos definir o problema é simples: um grupo de "cego" em contato um elefante, e sabemos que este é um elefante, eles querem adivinhar o peso de um elefante baseado em algo palpável.

Abordagem Bayesiana é a forma de resolver este problema?

Assumimos que irá se comunicar uns com os outros entre estas observações cego, e ter algum senso comum, que é a estimativa inicial do peso elefante:

Então, eles podem fazer:

A primeira observação é que o indivíduo tocou a cauda, e o comprimento da cauda y1, e, em seguida, re-suposição peso do elefante;

A segunda pessoa a primeira pessoa como a especulação anterior, ea área de observação é tocado no estômago, eo y2 estômago, em seguida, o peso da suposição elefante novamente;

Da mesma forma terceiro, de acordo com o segundo especulações pessoais, continuamos a observar, palpite ......

A possibilidade de | (x y1), observar os resultados em si ocorrem neste processo, um conhecimento total de seu início, acho que o peso de um elefante que é, a priori P (x), que é a primeira pessoa a observação probabilidade P evidências P (y1) e, finalmente, conseguir que P (x | y1), que é (distribuição de probabilidade) a possibilidade de x observações y com base no peso do get elefante:

A segunda pessoa nesta base, será capaz de obter P (x | y1, y2):

Terceira pessoa vai ser capaz de obter P (x | y1, y2, y3) ......

Bem, como as observações do peso do elefante tornou-se cada vez mais difícil esconder (o pico torna-se afiada):

Claro, que ensinou no currículo será detalhadamente o conceito de claro passo a passo, incluindo a distribuição condicional, distribuição conjunta, descreve a relação entre a distribuição marginal, e regra do produto, e regras, você pode colocar o exemplo acima envolve vários conceitos juntos, e ajuda os alunos a compreender mais profundamente.

2. Frequência escolar e Bayesian ligações e diferenças:

escola de frequência não assume qualquer conhecimento prévio, sem referência a experiência do passado, somente a inferência probabilística, em conformidade com os dados disponíveis no momento. O conhecimento prévio Bayesiana é assumido que haverá (acho que o peso do elefante), e então modificar o conhecimento prévio da amostra e aproximar-se progressivamente o verdadeiro conhecimento. Mas, na verdade, quando a quantidade de dados se aproxima do infinito, o resultado da frequência da escola e Bayesian get é o mesmo, que é limitar a frequência dos métodos Bayesian.

Estes são o conteúdo geral da parte teórica com base em métodos de Bayesian, bem como após geração, determinar a diferença entre os modelos, processo de formação Bayesian e discutir as vantagens de métodos bayesianos.

3. modelo de variáveis ocultas

Na frente de uma introdução breve à idéia central de Bayes Teorema abordagem bayesiana, e neste capítulo, Dmitry Vetrov incide sobre o modelo de variáveis ocultas. modelo de variáveis ocultas é a base de muitos métodos complexos, como na variação do codificador gera este modelo, esperamos para compactar a imagem como uma série de variáveis ocultas, estes variável implícita representa a imagem da informação semântica de alto nível, tais como imagens de um objecto ângulo, cor e posição.

Nesta seção vamos discutir a noção intuitiva de modelo de variáveis ocultas com base no conteúdo da apresentação Dmitry Vetrov, KL divergência, variacional mista limite inferior de distribuição e assim por diante.

Como mencionado acima, VAE maior vantagem que é vetor de codificação intermediária curta representam algumas das características semânticas da imagem, mas porque não podemos saber exatamente o que imagem específica recursos, para que possamos colocar este pequeno vector chamado variáveis ocultas . Intuitivamente, completamente de toda a geração de pixel da imagem é muito difícil, porque muitas possibilidades, precisamos considerar. Primeiro, decida se você deseja gerar característica da imagem, e então gera uma imagem de acordo com o modelo será muito mais fácil.

VAE é tal, primeiro aprender a comprimir corretamente a imagem como um conjunto de variáveis ocultas, e, em seguida, aprender a gerar uma imagem com base em variáveis ocultas. Após a conclusão do modelo de aprendizagem, dado qualquer conjunto de variáveis ocultas, o modelo irá tentar gerar a imagem correta. Esta é a noção intuitiva de variáveis ocultas do modelo.

método de divergência KL é geralmente usado como uma medida da distância entre as duas distribuições, é muitas vezes usado para gerar a função perda modelo. A seguir é apresentada uma compreensão intuitiva da divergência entre KL Q (z) com a distribuição P (Z) coincide com a distribuição ou seja, quanto menor for a divergência KL, tanto mais que a distância entre as duas distribuições.

No caso de variáveis discretas, medida KL divergência é quando usamos um foi concebido para minimizar a probabilidade de distribuição do comprimento de código Q da mensagem, enviando uma mensagem que contém um símbolo gerado quando uma distribuição de probabilidade P, informações adicionais necessárias. KL divergência tem muitas propriedades úteis, os mais importantes é que é não-negativo. KL divergência é 0 se e somente se P e Q são o mesmo no caso em que a distribuição das variáveis discretas, ou no caso de variáveis contínuas é "quase em toda a parte" idênticos.

Então Dmitry Vetrov mostra o caso do modelo de variáveis ocultas, se tivermos algum obedecer distribuição desconhecida Gaussian de amostras, então podemos usar a estimativa de probabilidade máxima método de média e variância estimativa ou apontar a distribuição desconhecida inferida.

E agora os parâmetros destes distribuição de Gauss se assumirmos que há um conjunto de amostras coletadas de distribuição de Gauss diferente, e nós precisamos de estimar. Isso não resolve os olhares problema, mas se nós sabemos que amostra é uma amostra a partir do qual distribuição de Gauss específico, este problema é relativamente fácil de resolver.

Mas se não sabemos quais as amostras são amostrados de uma distribuição de Gauss, então só podemos usar o modelo de variáveis ocultas. Sua principal ideia de que é estimar estas amostras que pertencem a uma distribuição de Gauss, ou seja, as amostras mapeados para as variáveis ocultas "média" e "variância". Em seguida, com base em variáveis ocultas para completar a modelagem de três distribuição de Gauss.

Em seguida, siga essa idéia, podemos construir um modelo de mistura Gaussian e quer codificar os dados em Z variáveis ocultas, e, em seguida, completar a variável de modelagem de acordo com Cain. Como se mostra, no caso onde não sabemos a variável Z escondido, Z maximizar a probabilidade de amostragem a partir da amostra X, que pode ser derivado para maximizar o limite inferior da variação, que é a variação de expressão a partir do codificador nuclear.

Variação a partir do codificador maximizar o limite de variação (ELBO) inferior pode ser utilizado como a meta optimização de todo o modelo, ou toda a função de perda modelo. No caso acima, para maximizar a variação representa o obrigado a encontrar alguma distribuição de Gauss menor, e cada amostra são mais susceptíveis de pertencer a uma distribuição de Gauss.

O curso apresenta uma grande quantidade de conhecimento teórico, especialmente várias teorias sobre Bayesians. Se o leitor de matemática mais confiante, você pode aprender um estudo detalhado da série.

cortar gastos? O porto de Shanghai última custo ano mais de 2,3 bilhões, enquanto os novos regulamentos limitam a Associação de Futebol de 1,2 bilhões!
Anterior
Quando os grandes jogadores estão começando a manter juntos para o calor, futuro trabalho conjunto vai sair daqui?
Próximo