Este artigo é reproduzido a partir do No. pública "ler técnica core" (ID: AI_Discovery)
artigo 3153 Word, leitura recomendada 8 minutos.
Este artigo explica método baseado em modelo de classificação bayesiana para preparar e aprender o que precisamos.
preparação matemática
probabilidade: Evento quantificar o grau de incerteza, maior será a probabilidade, maior a probabilidade de um evento ocorrer.
probabilidade condicional: P (A | B), em B, a probabilidade de que A ocorre.
probabilidade conjunta: P (A, B), eventos A e B, a probabilidade de um evento ocorrer simultaneamente. Se os factores são independentes, o factor de probabilidade conjunta igual ao produto das probabilidades, isto é, P (A, B) = P (A) P (B). Se a independência fator desconhecido, então não é uma forma mais geral: P (A, B) = P (B) P (A | B).
probabilidade marginal: AP (A, B) ou AP (A, B), onde a soma de um fator de distribuição conjunta (integração), para dar a probabilidade marginal de outro fator.
Independente e identicamente distribuído: Cada distribuição variável de probabilidade da variável aleatória mesmo, independentes uma da outra e entre as variáveis.
Teorema de Bayes
Havia uma piada: um homem mosca, trouxe uma bomba. Perguntei-lhe por que, ele disse, há uma bomba sobre a probabilidade de avião (hipótese) é partes por milhão, com base na teoria da probabilidade, a probabilidade de duas bombas ao mesmo tempo, há um bilionésimo, então eu trago uma bomba para reduzir o probabilidade de uma bomba no avião.
A razão pela qual esta piada engraçada, porque este povo confundir a probabilidade conjunta e probabilidade condicional, a probabilidade conjunta é a probabilidade de que duas coisas acontecem ao mesmo tempo, se a probabilidade de que há uma bomba nas partes planas por milhão, então as duas bombas a probabilidade é um bilionésimo. A probabilidade condicional refere-se à probabilidade de ocorrência dentro dos constrangimentos de uma outra coisa na coisa, que tem vindo a desenvolver uma bomba, então a probabilidade de que a probabilidade condicional de ocorrência de uma segunda bomba no avião, ainda milionésimos (assumindo que transportam as bombas são independentes).
Se A, B duas coisas são independentes, a probabilidade conjunta pode ser expressa como P (AB) = P (A) P (B), usamos P (A | B) para representar a probabilidade de ocorrência de uma determinada condição B de A, fatos no, se a, B não são independentes, então P (a | B) P (a), expressos como uma probabilidade conjunta P (AB) = P (B) P (a | B).
Consequentemente, usamos P (B | A) para representar uma dada probabilidade B A condição torna-se sob probabilidade conjunta P (AB) = P (A) P (B | A). Se conectar a partir destas duas equações, e então dividido por P (B) terá uma fórmula muito atraente e poderoso, que o chamou o teorema de Bayes:
Colocamos o lado esquerdo do P (A | B) é chamada a probabilidade posterior, P (A) para a direita da equação é chamado a probabilidade anterior, P (B | A) é chamada a probabilidade, mas a probabilidade posterior e função de probabilidade em em essência permanece a probabilidade condicional. Isso é chamado de Bayes teorema é para enfatizar os resultados do processo de empurrar a causa, ele também pode ser entendido após a correção como um evento de probabilidade.
exemplo:
Suponha agora temos duas taças, uma bacia azul com 30 bolas, 10 bolas pequenas vermelhas, azul bacia outra bola e bola vermelha havia 20, e agora o problema não é você escolher aleatoriamente uma bola de dentro da tigela, obter probabilidade azul é o quanto (porque é muito fácil). A minha pergunta é que eu tenho uma bola de basquete, é mais provável que venha de mim selecionados aleatoriamente primeiras taças?
Nós escolhemos o prato de um processo chamado de evento A1, A2, o processo de seleção é chamada pequena bola de eventos B1, B2, respectivamente azul e vermelho, temos que encontrar primeiro P (A1 | B1), trazê-lo para a fórmula Bayesiana, que após a probabilidade posterior pode ser calculada como 0,6, que em seguida, procurar P (A2 | B1), foi substituído para a probabilidade posterior de 0,4, o que indica que se eleger uma basquetebol, o basquetebol é mais provável de vir a partir da primeira taça.
Bayes introduzido motivação
Citamos os dados para treinamento e teste conjuntos, e fazemos a validação cruzada da importância do primeiro capítulo, "overfitting" no decorrer desta série. Resumidamente, o objetivo foi avaliar a capacidade diversidade generalização do propósito de validação cruzada é avaliar todo o processo torna-se preciso.
Por capacidade de generalização do modelo é tão importante? Porque tanto em laboratório ou no setor industrial, a quantidade real de dados é muito grande, e a velocidade de crescimento de dados mais rápido e mais rápido, só podemos fazer uso dos dados é considerada a amostrar da realidade vem, o nosso modelo é obrigado a ser contactado aqueles que nunca apareceu nos dados de treinamento definir nunca. Queremos que o modelo para enfrentar os dados desconhecidos para prever o efeito vai ser bom, ou seja, o modelo é obrigado a fazer inferências sobre a incerteza de observação.
Normalmente, usamos a probabilidade para expressar o grau de variáveis de incerteza, e o valor real da variável como uma distribuição de probabilidade, mudar a perspectiva de aprendizado de máquina será:
Agora estamos focados nas primeiras perspectivas sobre o modelo baseado em Bayesian inferência. Como pode ser visto a partir teorema de Bayes, nós calcular a probabilidade posterior da probabilidade e através probabilidade anterior, um tal modelo é chamado a fórmula modelo. E tal regressão logística, é uma estimativa de probabilidade posterior direta, não use o teorema de Bayes, tal modelo é chamado de modelo discriminante.
A classificação baseada em inferência Bayesiana
Consideremos agora a máquina típico problema de aprendizagem classificação binária, treinamos cada amostra tem uma série de características (feature) e etiqueta determinado (etiqueta), a nossa amostra de teste apenas características, nenhum rótulo. Então, do ponto de vista da Bayesian inferência, precisamos olhar para é a probabilidade condicional (probabilidade posterior) P a maximizada (l | X), que pode ser entendida como a premissa da conhecida X da amostra, se trata de maximizar a probabilidade de categoria l. Ele também pode ser entendida da seguinte forma: para cada X amostra, escolhemos a maior categoria l probabilidade posterior após a ativação.
Se o rosto problema que é de prever o tempo, temperatura, umidade e vento quatro características não quer jogar tênis, temos a amostra de treinamento, como mostrado abaixo:
Como pode ser visto, apenas o Sim e Não categoria l em ambos os casos. Se a nossa amostra de teste X é (Tempo = ensolarado, temperatura = Cool, umidade = Alto, vento = Strong), temos que calcular separadamente do P (l = Sim | X) e P (l = No | X), e depois comparar tamanho, então a probabilidade de que um dos principais resultados da categoria selecionada como a nossa previsão.
Nossa próxima pergunta é como calcular a probabilidade posterior P (l = Sim | X) e P (l = No | X). Nós trouxe para a fórmula Bayesiana:
Em que, P (l = Sim) bem entendido que a amostra total foi marcado proporção amostra Sim, nós chamamos de uma classe priori probabilidade (prévia), de acordo com a lei de grandes números, pode-se estimar a frequência de ocorrência probabilidade, esta é a nossa informação formação das amostras colhidas.
P (X) é usado para normalizar os factores de provas (provas), a probabilidade é a X que aparece. Podemos considerar a probabilidade para a categoria Sem posterior:
Como pode ser visto, P (X) é a mesma, de modo que, quando se compara o tamanho dos dois, este não tem nada a ver com o cálculo.
P (X | l = Sim) é a probabilidade condicional, significa uma proporção de características da amostra X compartilham da amostra rotulagem Sim, nós também chamá-lo a probabilidade (probabilidade), que é o que começa a partir da amostra de treinamento informações. a verdadeira questão é, se realmente vai X-se como um evento, é provável que a nossa amostra de teste é zero probabilidade, sem ser observado não significa a probabilidade é zero.
Bayes Ingénuo (naive Bayes)
Notamos que X é um vetor, que contém os valores para cada recurso, para que possamos ser P (X | l = Sim) considerados, nos termos a probabilidade conjunta valores probabilidade condicional de características individuais, se continuarmos a assumir que entre as características independentemente um do outro, então a probabilidade conjunta torna-se muito fácil de calcular:
Naive Bayes, o significado de simples (ingênuo) é apenas isso, ele usa a propriedade de pressupostos independência condicional (atributo condicional independência suposição), de modo que a probabilidade simples computável.
Vamos primeiro resumir o exposto, a figura da probabilidade condicional de cada atributo foram calculados:
Assim, existem:
Os resultados revelaram que a amostra devido à probabilidade posterior é de cerca de 0,0053 Sim, devido à probabilidade de probabilidade posterior posterior é de cerca de 0,0206 Não, não posterior a probabilidade é muito maior do que Sim, isto é, para tal um amostra, podemos prever o resultado será - não jogar tênis.
Além de modelo de inferência Bayesiana com base em um modelo ingênuo de classificação bayesiana com base em Bayesian inferência, aprendizado de máquina de regressão cara, nós temos? Podemos até perguntar, apenas modelo Bayesian aplicado nele? Então, o nosso próximo irá introduzir modelo de regressão Bayesiana de inferência.
Classroom DICAS