coleta seca! Dez três áreas de conjunto de dados open source comum

Pesquisa e implementação de aprendizagem de máquina é inseparável de big data. consciência geral do conjunto de dados de código aberto, pode-se verificar seu algoritmo, ele também pode ser comparado com outros algoritmos. Este artigo descreve o conjunto de visão computacional, processamento de linguagem natural e de reconhecimento de voz de dados dez de código aberto para três áreas principais para sua referência, definitivamente vale a pena recolher!

Visão Computacional

MNIST

dados set MNIST do Instituto Nacional de Padrões e Tecnologia, Instituto Nacional de Padrões e Tecnologia (NIST). conjunto de treinamento (conjunto de treinamento) é constituído por figuras de caligrafia 250 pessoas diferentes, dos quais 50% são estudantes do ensino médio, 50% vêm do Census Bureau (Census Bureau) funcionários. conjunto de teste (conjunto de ensaio) é a mesma proporção de dados digitais manuscritas.

Link: http: //pjreddie.com/projects/mnist-in-csv/

Cifar 10

Cifar-106000032x32 conjunto de dados pelas classes imagem a cores 10, cada classe tem 6.000 imagens. Existem 50000 e 10000 imagens formação de teste imagens. Treinando conjunto de dados é dividido em cinco lotes e um lotes de teste, cada lote de 10.000 imagens. lotes de teste contendo exactamente 1000 imagens seleccionadas aleatoriamente a partir de cada uma das categorias. Treinando lote que contém as imagens restantes em ordem aleatória, mas o lote pode incluir algumas imagens de treinamento de mais de uma classe para outra. No geral, a soma de cinco conjunto de treinamento contém 5000 imagens de cada classe.

Link: https: //www.cs.toronto.edu/~kriz/cifar.html

IMAGEnet

Um dos imagem mais bem conhecido o processamento da imagem do conjunto de dados, em geral, apenas um sub-conjunto de dados pode ser. conjunto de dados IMAGEnet é um grandes conjuntos de dados de imagem, a fim de promover o desenvolvimento da tecnologia de reconhecimento de imagem do computador estabelecida. O maior número de seus quadros, resolução máxima, categoria contém mais, existem milhares de categorias de imagens. IMAGEnet organização do projeto ano vai acolher um IMAGEnet concurso de identidade visual em grande escala, que vai nascer muitos modelo de reconhecimento de imagem.

Link: http: //image-net.org/

Visual Genome

Muito detalhado base de conhecimento visual, e com uma imagem de profundas legendas 100K. Comparado ao conjunto de dados IMAGEnet, a informação de conjunto de dados para cada imagem contém mais abundante, a relação entre objectos, as propriedades de fazer notas, é o núcleo de este conjunto de dados. conjuntos de dados Genome visuais usando galeria Microsoft COCO, com um muito rico detalhe desses cem mil fotos feitas anotações.

Link: http: //visualgenome.org/

NLP

wikitext

Inglês thesaurus dados wikitext Inglês dicionário de sinônimos de dados (A wikitext Long Term Dependência Linguagem de Modelagem Dataset) que contém 100 milhões de palavras, estas palavras são extraídos de Wikipedia para obter um valor de referência de artigos de qualidade e artigos, incluindo wikitext-2 e WikiText- duas versões de 103, em comparação com o número de palavras conhecidas Penn Treebank (PTB) tesauro, que é duas vezes o antigo, que é 110 vezes da mesma. Cada vocabulário, mantendo o artigo original também produziu o vocabulário, o que é particularmente dependente (de longo prazo dependência) da cena modelagem de linguagem natural quando a necessidade de um longo tempo.

Link: http: //metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

pelotão

Esquadrão Stanford University, lançado em 2016, o conjunto de dados, um conjunto de dados compreensão de leitura, dado um artigo, preparar as perguntas apropriadas precisam de respostas dadas problema algoritmo. Este montante conjunto de dados de todos os artigos da Wikipedia, conjuntos de dados para outros conjuntos de dados de hoje (por exemplo, WikiQA) várias vezes mais. Um total de 107,785 problemas, bem como o apoio 536 artigos.

Link: https: //rajpurkar.github.io/SQuAD-explorer/

Spambase da UCI

junk clássico e-mail a partir dos conjuntos de dados da UCI. Este é um grandes conjuntos de dados de spam para filtragem de spam.

Link: https: //archive.ics.uci.edu/ml/datasets/Spambase

voz

LibriSpeech

O conjunto de dados é grande corpus contém cerca de 1.000 horas de fala Inglês. Estes audiobooks dados do projeto LibriVox. Foi segmentado e alinhada corretamente, se você estiver procurando por um ponto de partida, verifique os modelos acústicos preparados que foram treinados em modelos kaldi-asr.org e linguagem para avaliação.

Link: http: //www.openslr.org/12/

2000 HUB5 Inglês

dados de voz contém apenas Inglês. Baidu é os papéis voz profunda usados mais recentemente.

Link: https: //catalog.ldc.upenn.edu/LDC2002T43

VoxForge

dados Clear Voice define acentos de Inglês. Se você tem uma forte necessidade sotaques diferentes, reconhecimento de entonação, seria mais útil, você pode melhorar a robustez do sistema.

Link: http: //www.voxforge.org/

Pequim-Seattle falha do motor de vôo: uma base de pouso militar de emergência
Anterior
Luo martelo telefone é como fazer um ano é "morto" N vezes?
Próximo