Dry | modelo de classificação bayesiana baseada na aprendizagem de máquina e você vai encontrar o "pit"

Este artigo é reproduzido a partir do No. pública "ler técnica core" (ID: AI_Discovery)

artigo 3153 Word, leitura recomendada 8 minutos.

Este artigo explica método baseado em modelo de classificação bayesiana para preparar e aprender o que precisamos.

preparação matemática

probabilidade: Evento quantificar o grau de incerteza, maior será a probabilidade, maior a probabilidade de um evento ocorrer.

probabilidade condicional: P (A | B), em B, a probabilidade de que A ocorre.

probabilidade conjunta: P (A, B), eventos A e B, a probabilidade de um evento ocorrer simultaneamente. Se os factores são independentes, o factor de probabilidade conjunta igual ao produto das probabilidades, isto é, P (A, B) = P (A) P (B). Se a independência fator desconhecido, então não é uma forma mais geral: P (A, B) = P (B) P (A | B).

probabilidade marginal: AP (A, B) ou AP (A, B), onde a soma de um fator de distribuição conjunta (integração), para dar a probabilidade marginal de outro fator.

Independente e identicamente distribuído: Cada distribuição variável de probabilidade da variável aleatória mesmo, independentes uma da outra e entre as variáveis.

Teorema de Bayes

Havia uma piada: um homem mosca, trouxe uma bomba. Perguntei-lhe por que, ele disse, há uma bomba sobre a probabilidade de avião (hipótese) é partes por milhão, com base na teoria da probabilidade, a probabilidade de duas bombas ao mesmo tempo, há um bilionésimo, então eu trago uma bomba para reduzir o probabilidade de uma bomba no avião.

A razão pela qual esta piada engraçada, porque este povo confundir a probabilidade conjunta e probabilidade condicional, a probabilidade conjunta é a probabilidade de que duas coisas acontecem ao mesmo tempo, se a probabilidade de que há uma bomba nas partes planas por milhão, então as duas bombas a probabilidade é um bilionésimo. A probabilidade condicional refere-se à probabilidade de ocorrência dentro dos constrangimentos de uma outra coisa na coisa, que tem vindo a desenvolver uma bomba, então a probabilidade de que a probabilidade condicional de ocorrência de uma segunda bomba no avião, ainda milionésimos (assumindo que transportam as bombas são independentes).

Se A, B duas coisas são independentes, a probabilidade conjunta pode ser expressa como P (AB) = P (A) P (B), usamos P (A | B) para representar a probabilidade de ocorrência de uma determinada condição B de A, fatos no, se a, B não são independentes, então P (a | B) P (a), expressos como uma probabilidade conjunta P (AB) = P (B) P (a | B).

Consequentemente, usamos P (B | A) para representar uma dada probabilidade B A condição torna-se sob probabilidade conjunta P (AB) = P (A) P (B | A). Se conectar a partir destas duas equações, e então dividido por P (B) terá uma fórmula muito atraente e poderoso, que o chamou o teorema de Bayes:

Colocamos o lado esquerdo do P (A | B) é chamada a probabilidade posterior, P (A) para a direita da equação é chamado a probabilidade anterior, P (B | A) é chamada a probabilidade, mas a probabilidade posterior e função de probabilidade em em essência permanece a probabilidade condicional. Isso é chamado de Bayes teorema é para enfatizar os resultados do processo de empurrar a causa, ele também pode ser entendido após a correção como um evento de probabilidade.

exemplo:

Suponha agora temos duas taças, uma bacia azul com 30 bolas, 10 bolas pequenas vermelhas, azul bacia outra bola e bola vermelha havia 20, e agora o problema não é você escolher aleatoriamente uma bola de dentro da tigela, obter probabilidade azul é o quanto (porque é muito fácil). A minha pergunta é que eu tenho uma bola de basquete, é mais provável que venha de mim selecionados aleatoriamente primeiras taças?

Nós escolhemos o prato de um processo chamado de evento A1, A2, o processo de seleção é chamada pequena bola de eventos B1, B2, respectivamente azul e vermelho, temos que encontrar primeiro P (A1 | B1), trazê-lo para a fórmula Bayesiana, que após a probabilidade posterior pode ser calculada como 0,6, que em seguida, procurar P (A2 | B1), foi substituído para a probabilidade posterior de 0,4, o que indica que se eleger uma basquetebol, o basquetebol é mais provável de vir a partir da primeira taça.

Bayes introduzido motivação

Citamos os dados para treinamento e teste conjuntos, e fazemos a validação cruzada da importância do primeiro capítulo, "overfitting" no decorrer desta série. Resumidamente, o objetivo foi avaliar a capacidade diversidade generalização do propósito de validação cruzada é avaliar todo o processo torna-se preciso.

Por capacidade de generalização do modelo é tão importante? Porque tanto em laboratório ou no setor industrial, a quantidade real de dados é muito grande, e a velocidade de crescimento de dados mais rápido e mais rápido, só podemos fazer uso dos dados é considerada a amostrar da realidade vem, o nosso modelo é obrigado a ser contactado aqueles que nunca apareceu nos dados de treinamento definir nunca. Queremos que o modelo para enfrentar os dados desconhecidos para prever o efeito vai ser bom, ou seja, o modelo é obrigado a fazer inferências sobre a incerteza de observação.

Normalmente, usamos a probabilidade para expressar o grau de variáveis de incerteza, e o valor real da variável como uma distribuição de probabilidade, mudar a perspectiva de aprendizado de máquina será:

  • Discutir aprendizagem máquina Bayesiana a partir do quadro, em seguida, atingir o problema torna-se então: P Após posterior probabilidade estimada a partir de dados disponíveis (l | x). Tais como classificação, nós respeitamos cada x, pode escolher a categoria máxima probabilidade posterior.
  • Se selecionar o modelo há um número finito de parâmetros, estimativa de probabilidade máxima ou máxima a posteriori estimativa para dar a nossa função de otimização.

Agora estamos focados nas primeiras perspectivas sobre o modelo baseado em Bayesian inferência. Como pode ser visto a partir teorema de Bayes, nós calcular a probabilidade posterior da probabilidade e através probabilidade anterior, um tal modelo é chamado a fórmula modelo. E tal regressão logística, é uma estimativa de probabilidade posterior direta, não use o teorema de Bayes, tal modelo é chamado de modelo discriminante.

A classificação baseada em inferência Bayesiana

Consideremos agora a máquina típico problema de aprendizagem classificação binária, treinamos cada amostra tem uma série de características (feature) e etiqueta determinado (etiqueta), a nossa amostra de teste apenas características, nenhum rótulo. Então, do ponto de vista da Bayesian inferência, precisamos olhar para é a probabilidade condicional (probabilidade posterior) P a maximizada (l | X), que pode ser entendida como a premissa da conhecida X da amostra, se trata de maximizar a probabilidade de categoria l. Ele também pode ser entendida da seguinte forma: para cada X amostra, escolhemos a maior categoria l probabilidade posterior após a ativação.

Se o rosto problema que é de prever o tempo, temperatura, umidade e vento quatro características não quer jogar tênis, temos a amostra de treinamento, como mostrado abaixo:

Como pode ser visto, apenas o Sim e Não categoria l em ambos os casos. Se a nossa amostra de teste X é (Tempo = ensolarado, temperatura = Cool, umidade = Alto, vento = Strong), temos que calcular separadamente do P (l = Sim | X) e P (l = No | X), e depois comparar tamanho, então a probabilidade de que um dos principais resultados da categoria selecionada como a nossa previsão.

Nossa próxima pergunta é como calcular a probabilidade posterior P (l = Sim | X) e P (l = No | X). Nós trouxe para a fórmula Bayesiana:

Em que, P (l = Sim) bem entendido que a amostra total foi marcado proporção amostra Sim, nós chamamos de uma classe priori probabilidade (prévia), de acordo com a lei de grandes números, pode-se estimar a frequência de ocorrência probabilidade, esta é a nossa informação formação das amostras colhidas.

P (X) é usado para normalizar os factores de provas (provas), a probabilidade é a X que aparece. Podemos considerar a probabilidade para a categoria Sem posterior:

Como pode ser visto, P (X) é a mesma, de modo que, quando se compara o tamanho dos dois, este não tem nada a ver com o cálculo.

P (X | l = Sim) é a probabilidade condicional, significa uma proporção de características da amostra X compartilham da amostra rotulagem Sim, nós também chamá-lo a probabilidade (probabilidade), que é o que começa a partir da amostra de treinamento informações. a verdadeira questão é, se realmente vai X-se como um evento, é provável que a nossa amostra de teste é zero probabilidade, sem ser observado não significa a probabilidade é zero.

Bayes Ingénuo (naive Bayes)

Notamos que X é um vetor, que contém os valores para cada recurso, para que possamos ser P (X | l = Sim) considerados, nos termos a probabilidade conjunta valores probabilidade condicional de características individuais, se continuarmos a assumir que entre as características independentemente um do outro, então a probabilidade conjunta torna-se muito fácil de calcular:

Naive Bayes, o significado de simples (ingênuo) é apenas isso, ele usa a propriedade de pressupostos independência condicional (atributo condicional independência suposição), de modo que a probabilidade simples computável.

Vamos primeiro resumir o exposto, a figura da probabilidade condicional de cada atributo foram calculados:

Assim, existem:

Os resultados revelaram que a amostra devido à probabilidade posterior é de cerca de 0,0053 Sim, devido à probabilidade de probabilidade posterior posterior é de cerca de 0,0206 Não, não posterior a probabilidade é muito maior do que Sim, isto é, para tal um amostra, podemos prever o resultado será - não jogar tênis.

Além de modelo de inferência Bayesiana com base em um modelo ingênuo de classificação bayesiana com base em Bayesian inferência, aprendizado de máquina de regressão cara, nós temos? Podemos até perguntar, apenas modelo Bayesian aplicado nele? Então, o nosso próximo irá introduzir modelo de regressão Bayesiana de inferência.

Classroom DICAS

  • Em termos mais amplos, o classificador Bayesiano é um modelo de fórmula (modelos generativas). Ingénuo classificador Bayesiano de Bayes, é a forma mais simples, uma vez que assume que a probabilidade condicional de propriedade independente um do outro, de modo que um simples cálculo da probabilidade a posteriori viável.
  • Exemplos citamos aqui são atributos discretos, então a forma da probabilidade de tanto a função massa de probabilidade (PMF), podemos promovê-los para os atributos contínuos, apenas a forma que você deseja alterar a probabilidade da função densidade de probabilidade (PDF), mas a essência e isso não muda.
  • Sob a probabilidade condicional de probabilidade conjunta quando usamos método Bayes ingênuo, você precisa calcular várias propriedades. Mas se a rica diversidade de nossa amostra não é suficiente, é provável que haverá algum atributo valoriza nossa amostra de teste não aparecer em amostras de treinamento de classe, se a solução direta, as conseqüências irá resultar em uma probabilidade zero. Perante esta situação, vamos no cálculo das probabilidades a priori, Laplace introduziu alterações forçar a propriedade não aparece probabilidade condicional não é zero.
  • Quando usamos um classificador Bayesian treinado para fazer, de fato, é na formação prévia probabilidade P (l) ea probabilidade P (X | L). Podemos pedir a precisão das previsões, amostra probabilística contínua da nova propriedade estimado envolvido correta, podemos, a fim de prever a velocidade, toda a P (X | l) pré-calculado e P (l), o encontro tabela look-up direta determinar quando a amostra de teste.
  • Ingênua independência condicional Bayesian se baseia nas propriedades não necessariamente segurar, então meio Naive Bayes classificadores (semi-naive), presume-se que há uma certa dependência de cada atributo, a parte dependente do atributo da devida consideração. (Você pode ver o papel: classificador Bayesian Semi-naive)
Yu ver | "Festival da Primavera" da China, de fato, pouco mais de uma centena no ano que vem
Anterior
controle de gesto, tradução em tempo real, pode detectar dados fisiológicos ...... O 3000 fone de ouvido de comprá-lo?
Próximo