Antes de publicar muitos artigos explicação detalhada de Bayesian pensamento, Bayes 'teorema, Bayes' theorem para refletir a filosofia do pensamento matemático e processo de raciocínio que cavar fundo, a ser entender as sutilezas de-los a partir de ângulos diferentes. Este artigo analisa Aplicação de regressão linear Bayesian, para compreender a aplicação de Bayesian na prática.
ponto de Bayesian de vista, usamos distribuições de probabilidade em vez de estimativas pontuais para representar a regressão linear. Nós estimamos a resposta y não é uma única estimativa de valor, mas estima a distribuição de probabilidade, isto é, a partir do qual ele é derivado de distribuição. A chave é para ser aplicado ponto de vista Bayesian de regressão linear.
regressão linear Bayesian em comparação com a regressão linear geral, no final, quais são os benefícios, o que no final é sua essência? Este artigo começou com a introdução de exemplo complexidade, para explicar o método dos mínimos quadrados, prós máximas algoritmo probabilidade e contras da lei natural, e, finalmente, a introdução de Bayesian de regressão linear, para explorar o mecanismo para explicar as suas vantagens, deduzir a sua essência!
regressão linear várias formas conforme a seguir:
Sua complexidade do modelo é M, olhamos com o aumento da complexidade do modelo, ajustando modelo efeito do pecado (2pix) de.
Aqui é o caso quando M = 0,1,3,9 quando do ajuste dos dados, e quando M = 0 quando uma linha horizontal é, M = 1, quando uma linha recta oblíqua, quando M =. 3, colocadas junto a dados, no entanto, no caso de M = 9, o encaixe ocorreu.
Através deste exemplo, para um linear complexidade do modelo de regressão é muito importante, intimamente relacionado à má montagem e evitar o excesso de montagem, e essa complexidade não é boa compreensão.
Onde Y é a saída queremos prever (ou variável dependente), X é o nosso preditor (ou argumentos) e são os coeficientes do modelo que queremos estimar (ou parâmetros). é um termo de erro, assumido para ser distribuído normalmente.
Então podemos usar mínimos quadrados para encontrar o melhor ajuste , em seguida, a função de perda é:
Minimizar esta função com soluções de forma fechada:
A complexidade do método dos mínimos quadrados modelo não considera.
Ainda supondo que:
Y = XW +
é o erro aleatório, Gaussiana ~ N (0, 2). Exigimos a P (Yi | Xi, W), que é probabilidade a priori, que é, a Xi, W, sob as condições, a probabilidade de um determinado alvo Yi . Quanto maior a probabilidade de que o erro deve ser menor. Outra expressão, isto é, maior valor de probabilidade próximo do centro de 0, Isto acontece de forma a coincidir com o significado ~ N (0, 2) distribuição de Gauss . Assim:
Em nome da função densidade de probabilidade de Gauss:
Desde Xi são independentes, então:
simplificação:
O primeiro termo é uma constante, a maximização da função de probabilidade máxima é minimizada:
O método dos mínimos quadrados, e os resultados são os mesmos.
método de máxima verossimilhança ainda não é a complexidade do modelo volume de cópias.
O parâmetro w estimativa de probabilidade máxima não envolve a complexidade do modelo, que é totalmente controlado pelo tamanho de dados n. e método Bayesian pode lidar melhor com a complexidade do modelo e overfitting.
Usando a regra de Bayes, um Probabilidade proporcional posteriori × Antes:
Priori p (w) é uma distribuição de Gauss, a probabilidade p (t | w) é baseado no modelo de ruído Gaussian
estimação bayesiana tem duas vantagens principais :
Em primeiro lugar, a priori : Podemos quantificar qualquer conhecimento prévio que pode ter, colocando a priori sobre os parâmetros. Por exemplo, se considerarmos pode ser pequeno, vamos escolher uma massa menor probabilidade de um valor anterior.
Em segundo lugar, para quantificar a incerteza : Nós não temos um único estimada W parâmetro, mas uma distribuição posterior completa, a possibilidade de diferentes valores de W do. Por exemplo, muito poucos pontos de dados, a nossa W incerteza será muito alto, por isso vamos fazer pleno uso dos dados, e, Vai ser muito amplo posterior, enfrentam uma interpretação mais ampla .
distribuição dos parâmetros antes é uma distribuição de Gauss
Assumindo uma Gaussiana antes w de um poli-hídrico (tendo w0 componente, .., ui-1)
p ( w ) = N ( w | m0 , S0 )
Um valor médio m0 E matriz de covariância S0
Se escolhermos S0 Peso = ^ -1, isso significa que o direito é igual à variação ^ -1, a covariância é zero
distribuição de probabilidade é uma distribuição de Gauss dos dados
Assumindo que o parâmetro precisão ruído, a função real é proporcionada uma regressão linear T = y ( x, w ) + onde [epsilon] é definida como uma Gaussiana probabilidade de ruído p (t | x, w , ) = N (t | y ( x, w ), ^ -1), T é uma saída escalar
Este é um parâmetro dado w e entrada X = {x1, .., xN} probabilidade de dados do alvo porque Gaussiana ruído, a probabilidade p (t | w) é ruído gaussiano
A distribuição posterior é uma distribuição de Gauss
distribuição marginal p ( w ) E a distribuição condicional p ( t | w ) Tem a forma de uma distribuição de Gauss, a distribuição marginal p ( t ) E distribuição condicional p ( w | t ) Também é Gaussian.
A forma exacta da distribuição posterior
Nós definir a distribuição antes do parâmetro média é de 0, a mesma variância, covariância é zero.
Vejamos um exemplo bidimensional, como segue:
A distribuição de densidade de probabilidade de imagens:
posterior distribuição de Gauss, em seguida, ter a seguinte forma:
Pelo teorema de Bayes, em frente da probabilidade a priori, pode ser simplificada a uma forma Gaussiana, podem ser avaliadas para dar:
probabilidade:
A priori:
Note-se aqui , , a precisão da distribuição Gaussiana é
Assim obtido pelo teorema de Bayes:
função de probabilidade logarítmica:
Testemunhar o momento milagre lá, nós não preparados familiarizado com esta forma ah? Não é que L2 canônica de MLE dela!
Assim, o equivalente a maximizar a posteriori adicionar secundário WTW positiva ( = / ) minimizando a soma dos quadrados dos erros.
Em que a porção função de probabilidade correspondente para a função de perda (MTC), e a parte correspondente a probabilidade a priori de regularização. L2 é regular, equivalente a satisfazer o parâmetro de distribuição de Gauss w probabilidade a priori .