Aprofundar o mecanismo de Bayesian de regressão linear e natureza

Antes de publicar muitos artigos explicação detalhada de Bayesian pensamento, Bayes 'teorema, Bayes' theorem para refletir a filosofia do pensamento matemático e processo de raciocínio que cavar fundo, a ser entender as sutilezas de-los a partir de ângulos diferentes. Este artigo analisa Aplicação de regressão linear Bayesian, para compreender a aplicação de Bayesian na prática.

ponto de Bayesian de vista, usamos distribuições de probabilidade em vez de estimativas pontuais para representar a regressão linear. Nós estimamos a resposta y não é uma única estimativa de valor, mas estima a distribuição de probabilidade, isto é, a partir do qual ele é derivado de distribuição. A chave é para ser aplicado ponto de vista Bayesian de regressão linear.

regressão linear Bayesian em comparação com a regressão linear geral, no final, quais são os benefícios, o que no final é sua essência? Este artigo começou com a introdução de exemplo complexidade, para explicar o método dos mínimos quadrados, prós máximas algoritmo probabilidade e contras da lei natural, e, finalmente, a introdução de Bayesian de regressão linear, para explorar o mecanismo para explicar as suas vantagens, deduzir a sua essência!

complexidade

regressão linear várias formas conforme a seguir:

Sua complexidade do modelo é M, olhamos com o aumento da complexidade do modelo, ajustando modelo efeito do pecado (2pix) de.

Aqui é o caso quando M = 0,1,3,9 quando do ajuste dos dados, e quando M = 0 quando uma linha horizontal é, M = 1, quando uma linha recta oblíqua, quando M =. 3, colocadas junto a dados, no entanto, no caso de M = 9, o encaixe ocorreu.

Através deste exemplo, para um linear complexidade do modelo de regressão é muito importante, intimamente relacionado à má montagem e evitar o excesso de montagem, e essa complexidade não é boa compreensão.

Regressão de mínimos quadrados

Y = X +

Onde Y é a saída queremos prever (ou variável dependente), X é o nosso preditor (ou argumentos) e são os coeficientes do modelo que queremos estimar (ou parâmetros). é um termo de erro, assumido para ser distribuído normalmente.

Então podemos usar mínimos quadrados para encontrar o melhor ajuste , em seguida, a função de perda é:

Minimizar esta função com soluções de forma fechada:

A complexidade do método dos mínimos quadrados modelo não considera.

Máximo retorno Probabilidade

Ainda supondo que:

Y = XW +

  é o erro aleatório, Gaussiana ~ N (0, 2). Exigimos a P (Yi | Xi, W), que é probabilidade a priori, que é, a Xi, W, sob as condições, a probabilidade de um determinado alvo Yi . Quanto maior a probabilidade de que o erro deve ser menor. Outra expressão, isto é, maior valor de probabilidade próximo do centro de 0, Isto acontece de forma a coincidir com o significado ~ N (0, 2) distribuição de Gauss . Assim:

Em nome da função densidade de probabilidade de Gauss:

Desde Xi são independentes, então:

simplificação:

O primeiro termo é uma constante, a maximização da função de probabilidade máxima é minimizada:

O método dos mínimos quadrados, e os resultados são os mesmos.

método de máxima verossimilhança ainda não é a complexidade do modelo volume de cópias.

desvantagens MLE:

O parâmetro w estimativa de probabilidade máxima não envolve a complexidade do modelo, que é totalmente controlado pelo tamanho de dados n. e método Bayesian pode lidar melhor com a complexidade do modelo e overfitting.

Usando a regra de Bayes, um Probabilidade proporcional posteriori × Antes:

Priori p (w) é uma distribuição de Gauss, a probabilidade p (t | w) é baseado no modelo de ruído Gaussian

estimação bayesiana tem duas vantagens principais :

Em primeiro lugar, a priori : Podemos quantificar qualquer conhecimento prévio que pode ter, colocando a priori sobre os parâmetros. Por exemplo, se considerarmos pode ser pequeno, vamos escolher uma massa menor probabilidade de um valor anterior.

Em segundo lugar, para quantificar a incerteza : Nós não temos um único estimada W parâmetro, mas uma distribuição posterior completa, a possibilidade de diferentes valores de W do. Por exemplo, muito poucos pontos de dados, a nossa W incerteza será muito alto, por isso vamos fazer pleno uso dos dados, e, Vai ser muito amplo posterior, enfrentam uma interpretação mais ampla .

regressão linear Bayesian

distribuição dos parâmetros antes é uma distribuição de Gauss

Assumindo uma Gaussiana antes w de um poli-hídrico (tendo w0 componente, .., ui-1)

p ( w ) = N ( w | m0  , S0 )

Um valor médio m0 E matriz de covariância S0

Se escolhermos S0 Peso = ^ -1, isso significa que o direito é igual à variação ^ -1, a covariância é zero

distribuição de probabilidade é uma distribuição de Gauss dos dados

Assumindo que o parâmetro precisão ruído, a função real é proporcionada uma regressão linear T = y ( x, w ) + onde [epsilon] é definida como uma Gaussiana probabilidade de ruído p (t | x, w , ) = N (t | y ( x, w ), ^ -1), T é uma saída escalar

Este é um parâmetro dado w e entrada X = {x1, .., xN} probabilidade de dados do alvo porque Gaussiana ruído, a probabilidade p (t | w) é ruído gaussiano

A distribuição posterior é uma distribuição de Gauss

distribuição marginal p ( w ) E a distribuição condicional p ( t | w ) Tem a forma de uma distribuição de Gauss, a distribuição marginal p ( t ) E distribuição condicional p ( w | t ) Também é Gaussian.

A forma exacta da distribuição posterior

Nós definir a distribuição antes do parâmetro média é de 0, a mesma variância, covariância é zero.

Vejamos um exemplo bidimensional, como segue:

A distribuição de densidade de probabilidade de imagens:

posterior distribuição de Gauss, em seguida, ter a seguinte forma:

Pelo teorema de Bayes, em frente da probabilidade a priori, pode ser simplificada a uma forma Gaussiana, podem ser avaliadas para dar:

regressão linear e Bayesian regularização de equivalência MLE

probabilidade:

A priori:

Note-se aqui , , a precisão da distribuição Gaussiana é

Assim obtido pelo teorema de Bayes:

função de probabilidade logarítmica:

Testemunhar o momento milagre lá, nós não preparados familiarizado com esta forma ah? Não é que L2 canônica de MLE dela!

Assim, o equivalente a maximizar a posteriori adicionar secundário WTW positiva ( = / ) minimizando a soma dos quadrados dos erros.

Em que a porção função de probabilidade correspondente para a função de perda (MTC), e a parte correspondente a probabilidade a priori de regularização. L2 é regular, equivalente a satisfazer o parâmetro de distribuição de Gauss w probabilidade a priori .

As meninas eram parentes para se casar com o diabo, a Declaração livros didáticos contra-ataque muito dominador!
Anterior
Seu corpo vai ser luz! escolas de pós-graduação, as empresas estrangeiras pago, mas disposto a ser uma professora aldeia
Próximo