algoritmos de aprendizado de máquina requerem testes aleatórios quantas vezes, apenas o suficiente para refletir objetivamente o desempenho eficaz do modelo?

Nota da rede de Lei Feng: O autor é australiano Jason Brownlee especialistas em aprendizagem de máquina, previsão de séries temporais bem conhecido, especialmente, têm experiência. O original publica seu blog. rede de Lei Feng compilado.

Jason Brownlee

Há muitas máquinas aleatória algoritmos de aprendizagem mesmo problema: o mesmo algoritmo, os mesmos dados para calcular o resultado foi diferente de cada vez. Isto significa que durante um algoritmo de teste ou comparação algoritmo aleatório quando o teste deve ser repetido muitas vezes, e então usá-los para avaliar o modelo média.

Assim, para um determinado problema, os algoritmos de aprendizado de máquina requerem testes aleatórios quantas vezes, apenas o suficiente para refletir objetivamente o desempenho eficaz do modelo?

Recomendações gerais sobre repetido 30 vezes ou até 100 vezes. Alguns até repetida milhares de vezes, em total desrespeito de diminuir efeito marginal.

Para uma medida do número de repetições máquina aleatória de teste de desempenho algoritmo de aprendizado exigidos neste tutorial, eu vou te ensinar como usar métodos estatísticos para estimar corretamente.

tutorial Overview

Este tutorial dividido em quatro partes:

geração de dados

Análise Fundamental

Análise do impacto de repetições

cálculo erro padrão

Este tutorial usa a linguagem Python, a versão 2 ou 3 pode ser, por um bom correr o código de exemplo, ser-se de instalar SciPy, NumPy, pandas e biblioteca Matplotlib.

Aqui começamos tutorial

1. Os dados gerados

O primeiro passo é gerar os dados disponíveis.

Assumimos uma rede neural ou outro algoritmo aleatório no conjunto de treinamento de dados de treinamento é repetido 1000 vezes, e a média modelo de erro raiz quadrada gravada no conjunto de teste (RMSE). Como pré-requisito para posterior análise tutorial, assumimos uma distribuição normal utilizado.

Certifique-se de olhar para os padrões de distribuição dos resultados, os resultados geralmente distribuição de Gauss (isto é normal).

Vamos estudar pré-gerado pela população de amostra, fazer uma pesquisa de acompanhamento é muito útil, porque o programa gerado a amostra global média e desvio padrão em seu finalizado, mas isso muitas vezes não é conhecido na aplicação prática.

Nós média = 60, desvio-padrão = 10 gera dados de teste como parâmetros.

O código a seguir é gerado 1000 números aleatórios, o resultado é salvo arquivo results.csv.

Nós utilizamos o código como uma função da semente de sementes gerador de números aleatórios para garantir que cada código é consistente com os dados obtidos de execução. Use a função de geração de números aleatórios normal, normal, a função de salvar os dados com o formato ASCII savetxt.

Depois de executar este código, temos um arquivo chamado results.csv do, que detém 1.000 números aleatórios que representam os resultados da simulação de algoritmos randomizados executado repetidamente.

Abaixo estão as últimas 10 linhas dos dados do arquivo.

6.160564991742511864e + 01

5.879850024371251038e + 01

6.385602292344325548e + 01

6.718290735754342791e + 01

7.291188902850875309e + 01

5.883555851728335995e + 01

3.722702003339634302e + 01

5.930375460544870947e + 01

6.353870426882840405e + 01

5.813044983467250404e + 01

Agora vamos colocar esses dados como fazer as coisas de lado, prossiga para baixo.

2. Análise Fundamental

Depois de obter a amostra geral, vamos ser simples análise estatística.

Os três seguintes são muito simples e eficaz:

Você calcula estatísticas, como média, desvio padrão e percentis.

Desenho boxplot para ver a extensão dos dados de spread

Desenhar um histograma para ver a distribuição de dados

análise estatística simples realizada pelo código a seguir, o primeiro arquivo de dados de carga results.csv e cálculos estatísticos, ea exibição de desenho.

Como pode ser visto, o desempenho médio do algoritmo é de cerca de 60,3, o desvio padrão de cerca de 9,8.

Assumindo que os dados representam o erro quadrado médio da raiz como semelhante ao valor mínimo, os resultados estatísticos, o valor máximo é de 99,5, e o valor mínimo é de 29,4.

O quadro a seguir mostra o caso o grau de dispersão dos dados, em que os dados são parte de caixa em forma de (cerca de 50% da amostra) (de cima para quartil inferior) amostra ponto do meio representa o valor anormal, a linha verde representa a mediana .

A figura mostra que resultados razoáveis na distribuição de valor ao redor.

A última geração são os dados do histograma, a figura mostra uma curva em sino de distribuição normal (curva de sino), isso significa que realizam a análise de dados, utilizando ferramentas de análise estatística convencionais.

A figura mostra que os dados para um eixo de simetria 60 sobre quase nenhuma deflexão.

3. Impacto do número de repetições da análise

Antes geramos 1000 dados dos resultados. Mais provavelmente, isso pode não ser suficiente para o estudo do problema.

Como julgar isso?

A primeira ideia é desenhar um gráfico do número de repetições entre a teste e os resultados médios destes testes. Esperamos que, com o aumento do número de repetições, o resultado poderia significar um estábulo em breve. Depois plotados, parece começar a flutuações segmento e curto e parcela de longo traseira sem problemas.

Usando o seguinte código desenha a curva.

Como pode ser visto a partir da figura, as primeira 200 dados voláteis dizer, depois de 600 vezes, a média estáveis, curva menos volátil.

A fim de melhor observar as curvas, que é amplificado, apenas os primeiros 500 vezes os resultados dos testes repetidos.

Enquanto a linha é sobreposta sobre os resultados médios de 1000, a fim de encontrar a relação entre o desvio.

FIG laranja 1000 é linear repetida resultados do teste de linha média.

Ao mesmo tempo, pudemos ver repetidos 100 vezes, os resultados são mais perto da média, o número de repetições atinge 400, o resultado é mais ideal, mas não é óbvio.

Não é ótimo? Mas será que não há uma maneira melhor de fazer isso?

4. Calcule o erro padrão

Erro padrão é usado para calcular quanto do desvio médio amostra da média geral. É diferente e o desvio padrão, o desvio padrão descreve a variação média de valor a observação da amostra. erro padrão da média pode ser transmitida de acordo com a quantidade de erro global estimado ou o erro da média da amostra.

erro padrão pode ser calculada pela seguinte fórmula:

standard_error = sample_standard_deviation / sqrt (número de repetições)

Isto é, o desvio padrão dividido pelo erro padrão de amostras em duplicado é igual ao número de rms.

Esperamos que o erro padrão aumenta com o número de testes cresce. O seguinte código, calcular o erro padrão da média para cada amostra, correspondente ao número de repetições, os erros padrão e representados graficamente na FIG.

Depois de executar esta curva código plotados com o erro padrão do número de repetições.

Como esperado, com a repetição do aumento do número de ensaios, o desvio padrão diminui rapidamente. Depois de um desvio padrão de gotas, em certa medida, estabilizada, geralmente um valor dentro de 1 a 2 unidades, referido como um erro aceitável.

unidades padrão de erro consistentes e unidades de dados de amostra.

Adicionar 0,5 ordenada ea linha auxiliar 1, para nos ajudar a encontrar um valores de erro padrão aceitáveis na figura acima. Código é a seguinte:

Lei lembrar aos utilizadores situação, duas linhas auxiliares figura aparecem vermelhas, o que representa o erro padrão é igual a 0,5 e um.

A figura mostra, se o teste foi repetido cerca de 100 vezes igual ao número de vezes, o desvio padrão de menos do que 1 começa, se o teste de vezes equivalente a 300 a 350 vezes, o erro padrão é menos do que 0,5. Com o aumento repetido no número de ensaios, o erro padrão tende a ser estável, pouca mudança. Mais uma vez, lembrar, o erro padrão da amostra medidas desvio significar a quantidade de média da população.

Podemos também usar o erro padrão da média como um intervalo de confiança. Por exemplo, com 95% da média da população como limites inferior e superior do intervalo de confiança. Este método só é apropriado para o exame do número de repetições é maior do que 20.

O intervalo de confiança é definido como se segue:

Amostra Média +/- (erro padrão * 1.96)

O cálculo de intervalos de confiança, e adicioná-lo para o número de vezes que a média da amostra correspondente de experiências repetidas como barras de erro. Este é o código de cálculo.

FIG criar a curva média da amostra com intervalos de confiança.

Em que a linha mostra os vermelhos totais médios (inicia o tutorial para gerar um determinado desvio médio e padrão de um modo geral, a média global é conhecida), depois repetido 1000 vezes ou mais, podem ser substituídos com uma amostra média média da população.

As barras de erro envolvido na linha média FIG. E a média da amostra exagerado ou superestimado a média da população, mas ainda caem dentro da média geral do intervalo de confiança de 95%.

intervalo de confiança de 95% o que significa que é feito 100 repetições, compreendendo 95 vezes o valor médio geral verdade, não há compreende ainda 5.

Como pode ser visto na FIG., Como o número de repetições aumenta, devido à redução dos erros padrão de confiança de 95% se estreita gradualmente intervalo.

FIG superior alargada, esta tendência é entre 20 e 200, em particular.

Este é o código gerado pela amostra barras médios e erro, com um número variável de ensaios curva. Este número pode refletir melhor o desvio da média da amostra e a média da população.

Outras leituras

Na verdade, tanto o método de teste envolve o cálculo usando um algoritmo aleatório e envolve muito pouco referências estatísticas.

Pessoalmente, penso que em 1995, o livro de Cohen é a melhor combinação de ambos:

Os métodos empíricos para Inteligência Artificial (IA método empírico), Cohen (Cohen), 1995

Se você estiver interessado eu recomendo este livro este tutorial.

Além disso, existem vários artigos na Wikipédia podem ajudá-lo:

Erro padrão

Intervalo de confiança

68-95-99.7 regra

Se você tem uma boa outras informações relevantes, podemos nos comunicar com todos na seção de comentários. Obrigado.

resumo

Neste tutorial, nós fornecemos um razoável repetições do teste escolha do método, o que nos ajuda a avaliar a exactidão dos algoritmos de aprendizado de máquina aleatórios.

A seguir estão várias maneiras de escolher o número de repetições:

Simples e em bruto directamente com 30.100 ou 1000 vezes.
Representada graficamente versus a média da amostra e o número de repetições, e seleccionado de acordo com o ponto de inflexão.
Os erros padrão e plotados versus o número de repetições, e é selecionado de acordo com o limite de erro.
Graficamente em função do intervalo de confiança das amostras e do número de repetições, e seleccionado de acordo com a distribuição do erro.

instrumento de medição de recuperação subaquática submersíveis não tripulados para pesquisa

De zero a dez bilhões de US valorização de dólares, talvez mais do que um Theranos do Vale do Silício

Sobre Silk Road

Categorias

Partilha