pesquisa de texto curto algoritmo de classificação baseada -AET pesquisa

0 Introdução

Texto Categorização (Classificação texto) refere-se a um determinado sistema de classificação, alguns algoritmo de classificação da categoria desconhecido para processar o texto categorizados automaticamente pelo computador através de. Nos últimos anos dez, classificação de texto tem sido rápido desenvolvimento, e tem sido amplamente aplicada a muitas áreas, incluindo: bibliotecas digitais, classificação de páginas web, filtragem de lixo eletrônico. Até agora, tem havido muitos métodos de classificação de textos baseados na teoria estatística e aprendizagem de máquina, tais como árvore de decisão (Árvore de Decisão), método Bayesian, KNN, redes neurais, máquinas de vetor de suporte (SVM), etc. . No entanto, estes estudos e aplicação de métodos de classificação são baseados em texto longo, texto curto e uso cada vez mais comum na rede. A maior característica do recente surgimento de um novo micro-blog é "micro", o anúncio público é apenas uma ou duas palavras. ALEXA famosos dados de estatísticas de tráfego website mostrar, Twitter tráfego médio diário de cerca de 20 milhões de pessoas, estão no top 15 no ranking dos Estados Unidos, Grã-Bretanha, Canadá e em outros lugares na coluna. Em áreas de busca profissionais ou verticais, devido a limitações de recursos, o texto completo não pode ser processado, por sua vez classificados de acordo com o título do artigo ou o resumo do artigo. Estas aplicações requerem uma tecnologia de classificação de texto curto. Por menos do que a demanda real e métodos tradicionais, este trabalho propõe um novo método de classificação, usando uma pesquisa para perceber método de classificação de texto com base em NaiveBayes semelhantes de. experimentos comparativos mostram que na classificação de texto curto, este método melhora a precisão ea velocidade do que a classificação tradicional de classificação.

Trabalhos Relacionados Introdução

Nos últimos quarenta anos, muitos estudos sobre a classificação de texto são implantados em torno do modelo espaço vetorial (VSM) Salton proposta, a idéia básica é baseada em vetor vetores modelo espaço para representar texto: (W1, W2, ..., de Wn), a primeira palavra de texto, estas palavras como vector dimensões, representadas por componentes de frequência de palavras do vector de característica correspondente à entrada, o método principal de fórmula de cálculo a frequência das palavras utilizando TF-IDF. Método para a investigação espacial vector focado na seleção de características e funcionalidade de ajuste de peso 9700. desempenho da classificação, tais como função de avaliação Sr. Lu Yuchang é utilizada em vez de selecionar recursos no TF-IDF pesos de ajuste de valor da fórmula .

Pesquisa e Aplicação de Redes Neurais algoritmo de aprendizagem in Texto classificação muito extensa, o algoritmo de rede neural mais popular foi proposta em 1986 pelo RUMELHARD D E e McClelland J algoritmo L-propagação (algoritmo de BP para o short) . Desde a convergência lenta da BP algoritmo, fácil de cair em problemas mínimos locais, descendentes da BP algoritmo uma série de melhorias, tais como a rede neural Xiaofeng todos os parâmetros BP algoritmo proposto aprendendo ajusta automaticamente . As redes neurais têm boa resistência e dados de texto a capacidade de classificação do ruído, mas requer um monte de argumentos, que geralmente são determinados principalmente pela experiência. Além disso, o treinamento da rede neural leva um longo tempo, por isso é adequado para um tempo de formação suficientemente longo de aplicação.

Wang serão apresentadas com base em outro raio equivalente e interdependentes, o modelo proposto método interdependentes (dependência mútua, MD) simples mas eficiente sectile algoritmo de classificação , e combinada com selecção atributo funcionalidade N-grama para melhorar a exactidão dos atributos seleccionados, para atingir a redução de dimensão eficaz. Introduzindo o conceito de raio equivalente (Equivalente Radius, ER), e pela distância relativa em vez do raio equivalente tradicional com base na distância Euclidiana, para melhorar a precisão da classificação. algoritmo de classificação sectile de baixa complexidade computacional, fácil de modelo de classificação atualização para grande escala ocasiões classificação amostra informações.

Shih Chih-wei outras composições propôs método espaço classificação vector e vizinho k , exemplos do método de todo o espaço está dividido em exemplos positivos, exemplos e exemplos negativos mistura de três partes, diferentes domínios das diferentes algoritmos de classificação com base na chamada consulta Exemplo . Este método faz uso completo do método de espaço vectorial e uma classificação de k-Nearest Neighbor vantagem precisão da classificação de alta velocidade.

Vários métodos de classificação mencionadas acima são aplicáveis à classificação do texto longo, devido ao curto comprimento muito mais curto texto verdade, o texto do recurso é pequeno, e raramente contêm a mesma característica entre texto, tradicional método texto categorização não é adequado para curto de classificação de texto. Atualmente especializada trabalho de classificação de texto curto é pequeno, dividido em duas direções de pesquisa: uma é aumentar o texto características compartilhadas entre fontes externas, o rico contexto de texto, por exemplo, a Wikipedia é introduzido como uma classificação de texto curto recurso externo o , que pode usar métodos de classificação de textos tradicionais; o outro é o máximo partido destes recursos escassos, curtos de pré-processamento de texto. Aqui estão alguns dos trabalhos de pesquisa para a classificação de texto curto.

Po e forte pequeno texto classificação proposta com base em (Análise Independent Component, ICA) e semântica latente Análise (semântica latente Análise, LSA) análise de componentes independentes , o método primeiro pré-tratamento da LSA através do texto, e, em seguida, o resultado de processamento então a análise de componentes independentes. LSA valor decomposição singular (Singular Value Decomposition, SVD) método implementado de extracção de informação da classificação reduzida e remoção de ruído, de documentos de alta-dimensional representado na projecção dimensional espaço semântico baixo latente, apresentando assim a estrutura semântica potencial. No entanto, o termo original - SVD matriz de documento, selecione o número máximo de valor singular apresenta como espaço semântico latente, não há valor máximo singular aquelas características que a teoria provou ter a melhor capacidade de classificação, por isso, estar no espaço semântico latente categorização de textos, desempenho da classificação não melhorou.

Tengshao Hua apresentadas classificação pequeno texto com base em CRFs (Condicional aleatória Campos, CRFs) de , que geralmente focada em que um pequeno texto relativo ao recurso de texto também tem uma forte correlação. De acordo com essa propriedade, o método utiliza método de marcação palavra em palavra chinesa, o problema de classificação de texto curto em um problema de rotulagem seqüência, pode ser usado para resolver os CRFs classificação de texto curto. No entanto CRFs depende das características de alta confiança, características de alta confiança também pode introduzir interferências, o que pode facilmente levar a uma palavra errada, esta dificuldade é difícil confiar em si mesmo para resolver os CRFs. Embora este problema pode ser resolvido por resultados pós-segmentação CRFs base são processados, mas esta abordagem tem suas limitações, você só pode usar CRFs baseadas em palavras em chinês.

Em resumo, o presente método não efetivamente curto boa capacidade de classificação de texto de classificação da seleção dessas características, a baixa acurácia de classificação, classificação lento, palavra chinesa, ou dependente do sistema, falta de escalabilidade. Neste artigo, baseado em pesquisa Na? Ji veBayes método texto categorização é melhorada nessas áreas.

2 algoritmo baseado em pesquisa ingênuo classificador Bayes

A aplicação é baseada em Naive tecnologia de busca classificação de texto Bayes de pesquisa para classificação de texto e algoritmo classificador Naive Bayes foi melhorada a fim de alcançar um método de classificação para classificar texto curto. algoritmo de classificação é a seguinte:

De modo que C = {c1, c2, ..., cm} é um conjunto predefinido de categorias, D = {d1, d2, ..., dn} é um conjunto de documentos a serem classificados, d = {w1, w2, ..., wn} é um probabilidade de vectores característicos do documento, o documento di podem pertencer à categoria probabilidade cj pelo condições P (cj | di) representada. De acordo com a fórmula Bayesiana:

Fórmula (2), a fórmula (4), | C | é o número de categorias de texto, é para prevenir um caso em que a probabilidade de processo de ponderação de zero realizadas na molécula ocorre.

Para fazer cálculos simples, você pode querer dar formação na seleção de dados de texto, tanto quanto o número de cada categoria. Assim, para cada categoria de texto, as probabilidades prévias são iguais, calcule P (cj) do processo pode ser insignificante. probabilidade Bayesian se tornará cálculo simplificado após o documento pertence à categoria cj di probabilidade de inspeção:

Na fórmula (5), para cada categoria, o denominador N (cj) + | c | são iguais, isto é, o tamanho não afecta a probabilidade de pertença a cada comparação categoria, assim calcular directamente:

A fim de evitar um infinito negativo e zero, aparecem apenas precisamos saber cada propriedade número (palavra) do documento aparecem nas categorias especificadas, nomeadamente N (wi | cj).

Combinação da fórmula acima é derivado, podem ser classificadas NaiveBayes algoritmo de busca de texto está descrito como se segue:

(1) Presume-se que existem M categorias C1, C2, ..., Cm. Cada amostra de dados em cada categoria foram segmentação palavra chinesa, CIndex1 indexação, CIndex2, ..., CIndexm;

(2) Considerando uma classe nenhuma amostra de dados de etiquetas X, sua palavra chinês (separador de palavras com o passo (1) sistema de segmentação utilizado consistente), cada palavra corresponde a uma propriedade, respectivamente, W1, W2, ..., Wn;

(3) determinar a atribuição de probabilidade para os dados de amostra categorias X Cj, a saber:

Em outras palavras, X é atribuído a que o P (w | ci) maior classe Ci.

Nota: Passo (1) pode ser visto como o estabelecimento de um modelo de classificação, esta etapa não afeta a velocidade da classificação, desde o estabelecimento do modelo de classificação é feita antes da classificação de texto. pesquisa com base do modelo classificador NaiveBayes é um índice conhecido conjunto de etiquetas classe de treinamento de dados estabelecidas dados de treinamento e dados de texto para cada classe são iguais. É também diferente NaiveBayes classificadores baseados em pesquisa e outros classificadores. A fim de melhorar a velocidade, como aqui utilizada, a tecnologia de busca Lucene.Net. Lucene.Net vem com palavra StandardAnalyzer é palavra por palavra como o índice para classificação de texto chinês, a palavra por palavra pode afetar a precisão da classificação, este artigo usa o sistema KTDictSeg palavra, KTDictSeg é desenvolvido por uma pesquisa KaiToo parágrafo palavra sistema de dicionário baseado em open-source em Inglês. KTDictSeg pode identificar nomes chineses, bem como suporte para Lucene.net fornecem analisador KTDictSegAnalyzer para Lucene.net.

Avaliação da eficiência de classificação pode ter uma variedade, tais como a precisão da classificação, velocidade, escala e assim por diante. E há uma variedade de métodos para avaliar, o mais simples é realizada método (A Holdout), isto é, a utilização de um conjunto de dados de referência classe conhecida para testar o classificador. Quando a precisão de um classificador que pode ser aceite, os classificadores podem usar esses dados de referência de classe para classificar a previsão desconhecido.

3 resultados experimentais e análise

Para fins de classificação de textos chineses, não há corpus padrão disponível. Por isso, usamos procurar cães laboratório corpus consolidação (SogouC.reduced.20061127), este corpus contém nove categorias, a saber Finanças, TI, saúde, esportes, turismo, educação, recrutamento, cultural, militar, cada classe contém 1990 artigos. A corpus fazer uma ordem breve, seleccionado aleatoriamente de 160 artigos de cada categoria, tal como os dados de teste como dados de formação para estabelecer um modelo de classificação com os restantes 1830 artigos. Preparado com os dados de teste para ensaios de pesquisa baseado em texto NaiveBayes e classificação de NaiveBayes WEKA classificação de texto, os resultados dos testes são mostrados na Tabela 1.

Como pode ser visto a partir da Tabela 1, NaiveBayes NaiveBayes classificadores e classificadores baseados weka procurar comparável. classificador após No entanto, a fim de refletir NaiveBayes baseada em procurar a superioridade de curta classificação de textos, estes 1440 dados de teste para fazer algum processo testando novamente simples, isto é, o texto dentro de 50 palavras de cada classe contém 50, 50 ~ 200 caracteres de texto 50, as palavras de texto 200 ~ 1000501 000 palavras e um ou mais texto 50. De acordo com esses dados de teste para o número de palavras do texto dividido em diferentes níveis, e o número de texto de dados de teste também aumentou em 1800. Em seguida, testados para ambos os classificadores de acabamento com os dados de teste, os resultados dos testes são mostrados na Tabela 2.

Os dados da Tabela 2 é traçado gráfico que mostra a precisão da classificação, como mostrado na FIG.

Pode ser visto claramente pela FIG 1, para a classificação de um pequeno texto de 100 caracteres ou menos, com base nos NaiveBayes busca classificador tiveram desempenho superior em termos de precisão de classificação. Por comparação da Tabela 2 e Tabela 1 também difícil de encontrar, para uma classificação de 440 longo texto, demorado busca 12,5875 s NaiveBayes baseado classificador; e para a classificação de um curto texto adicionado à busca 800 com base em texto os NaiveBayes classificador Processado 13.0062 s. Como pode ser visto a partir dos números, o texto breve para classificação, NaiveBayes classificadores baseados em pesquisa também melhorou significativamente na velocidade de classificação.

Isso mostra que bons resultados da classificação obtidos NaiveBayes classificação baseada no processo de procura de texto curto, e não desde então tem toda a característica de texto selecionado velocidade classificação diminui, pelo contrário, devido à introdução da técnica de busca, mas também melhorou até certo ponto texto velocidade classificação.

4 Conclusão

Visando a falta de métodos de classificação de texto tradicionais para pequeno texto de classificação proposto NaiveBayes método de classificação de texto de pesquisa baseado. O método que difere de métodos de classificação de textos tradicionais, a aplicação irá pesquisar a tecnologia do motor de classificação de texto e algoritmo classificador Naive Bayes foi melhorada. Os resultados experimentais mostram que o pequeno artigo de classificação, com base em NaiveBayes classificação de busca não só melhorar significativamente a precisão da classificação, enquanto reduz a complexidade de tempo. Além disso, é necessária mais investigação a ser feito para diferentes aplicações em segundo plano e os recursos de texto processamento de extração de palavras de parada de texto chinês. corpus experimental não é um corpo padrão, apenas 17 de 910 artigos, por conseguinte, a dimensão da experiência para ser expandida. Em termos de perspectivas, com o rápido aumento no desenvolvimento da tecnologia de comunicação e da Internet, e-mail, mensagens de texto, tweets e outras mensagens de texto curtas, NaiveBayes classificador de texto baseados em pesquisa que vai certamente ser amplamente utilizado.

Referências

Wu Xindong, KUMAR V, Quinlan J R, et al.Top 10 algoritmos de extracção de dados .Knowl.Inf.Syst, 2008 (14) :. 24-27.

Lu Yuchang, Lu Mingyu, Li Fan et al., Análise e construção do método de espaço vectorial, o termo função de ponderação Research computador e Desenvolvimento, 2002,39 (10): 1205-1210.

Rumelhart D E, McClelland J L.Parallel distribuído de processamento: explorações na microestrutura da cognição, Vol.1: Foundations .Cambridge: MIT Press, 1986: 318-364.

Xiaofeng. Todos os parâmetros estabelecer auto-ajustável BP Rede Neural Previsão Modelo Predição, 2001,20 (3): 69-71.

Wang vai, WANG Hong, Shen exposição, etc. algoritmo de classificação Um texto prático e eficiente Research computador e Desenvolvimento, 2005,42 (1): 85-93.

Shih Chih-wei, Tao, Wu Gongyi A rápida e eficiente método de categorização de texto Engenharia de Computação e Aplicações, 2005,41 (29): 180-183.

tópicos do documento P.Identifying Schönhofen usando a rede categoria Wikipedia .Proc.the IEEE / WIC / Conferência Internacional ACM na Web Intelligence, 2006: 456-462.

Pu Qiang, Yang classificação Guowei.Short-texto com base no ICA e LSA .Berlin: Springer-Verlag Berlin / Heidelberg, 2006: 265-270.

Teng Shaohua. CRFs chinês palavra e do texto curto tecnologia de classificação com base . Beijing: Universidade Tsinghua de 2009.

Informação sobre o autor:

Conway 1, Qiu Hongzhe 2, Jiao Dongdong 1, quartos 1 e tantos, em Yin Tiger 1

(1. norte da China Institute of Computer System Engineering, Pequim 100083, China; 2. Beijing Aerospace Control Center, Pequim 100094)

Diz-se que este é um "sonho Central Travels", eu acho que poderia explodir

Grandes anúncios Audi, de qualquer maneira, eu era incrível!

Desde o fim do direito à saúde "dezenas de bilhões Império Saúde": milhares de milhões de jogar futebol, fundador ostentava uma receita de 500 bilhões de cinco anos

December 26, 2018

"A indústria quente" o núcleo da China através de "Thang Long 4800" chips baseados na arquitetura ARM listados volume de produção de 10nm

November 29, 2018

Sobre Silk Road

Categorias

Partilha