Skip navigation

Use este identificador para citar ou linkar para este item: https://repositorio.ufpb.br/jspui/handle/tede/9035
Registro completo de metadados
Campo DCValorIdioma
dc.creatorRibeiro Neto, Francisco Porfírio-
dc.date.accessioned2017-06-29T13:56:38Z-
dc.date.accessioned2018-07-21T00:15:11Z-
dc.date.available2018-07-21T00:15:11Z-
dc.date.issued2015-08-31-
dc.identifier.citationRIBEIRO NETO, Francisco Porfírio. Melhoria na classificação de tópicos em textos curtos usando background knowledge. 2015. 59 f. Dissertação (Mestrado em Informática) - Universidade Federal da Paraíba, João Pessoa, 2015.por
dc.identifier.urihttps://repositorio.ufpb.br/jspui/handle/tede/9035-
dc.description.abstractThe power of interaction between internet users has grown since the appearance of tools aligned with the principles of WEB 2.0, including blogs, forums and social networks like Twitter and Facebook. This kind of application is based on frequent message exchanges between users, generating large quantities of textual data comprised of small messages. Text classification techniques allow the extraction of relevant information from such messages. In this context, the challenges are related to the fact that the short messages common in social networks contain, individually, too little data for the traditional analyses. In this work a new technique for improving topic classification in short texts is proposed. This technique is based on the idea of combining a standard text classifier with a keywords-based simple classification scheme; the novelty here beyond the combination of two classification schemes is the use of a semi-automated, unsupervised technique for building the list of keywords reated to the desired topic; this technique is based on the use of topic modeling using the LDA algorithm. To demonstrate the validity of the proposed approach, a Corpus of twitter messages was built around the topic “violence”. This Corpus was used in experiments to assess the performance of the proposed classification technique. Results show that topic classification for short texts is improved by the proposed technique.por
dc.description.provenanceSubmitted by Maike Costa (maiksebas@gmail.com) on 2017-06-29T13:56:38Z No. of bitstreams: 1 arquivototal.pdf: 871101 bytes, checksum: a9b35b3a9f68a5f416dae837f77d9645 (MD5)eng
dc.description.provenanceMade available in DSpace on 2017-06-29T13:56:38Z (GMT). No. of bitstreams: 1 arquivototal.pdf: 871101 bytes, checksum: a9b35b3a9f68a5f416dae837f77d9645 (MD5) Previous issue date: 2015-08-31eng
dc.description.provenanceMade available in DSpace on 2018-07-21T00:15:11Z (GMT). No. of bitstreams: 2 arquivototal.pdf: 871101 bytes, checksum: a9b35b3a9f68a5f416dae837f77d9645 (MD5) arquivototal.pdf.jpg: 3594 bytes, checksum: 6a59f756060cf5d420bcf849422b402c (MD5) Previous issue date: 2015-08-31en
dc.formatapplication/pdf*
dc.languageporpor
dc.publisherUniversidade Federal da Paraíbapor
dc.rightsAcesso abertopor
dc.subjectRedes sociaispor
dc.subjectweb 2.0por
dc.subjectBackground Knowledgepor
dc.titleMelhoria na classificação de tópicos em textos curtos usando background knowledgepor
dc.typeDissertaçãopor
dc.contributor.advisor1Formiga, Andrei de Araújo-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0506569373440954por
dc.creator.Latteshttp://lattes.cnpq.br/4170661544868691por
dc.description.resumoO poder da interação entre usuários na internet aumentou consideravelmente através do surgimento de ferramentas alinhadas com os conceitos da WEB 2.0, a exemplo dos blogs, fóruns de discussão, e redes sociais como o Facebook e Twitter. Estas aplicações são constituídas por uma troca contínua de mensagens entre os usuários, gerando com isso, uma expressiva massa de dados formada por várias pequenas mensagens. Estudos mostram que informações podem ser extraídas com base em tais dados através da classificação de textos. O desafio da classificação de texto nesse contexto é que as mensagens dos usuários nas redes sociais são curtas, por exemplo o twitter, que possui apenas cento e quarenta caracteres, fazendo com que ocorra o problema de escassez de dados e ausência de similaridade entre palavras relevantes. Nesta dissertação é apresentada uma técnica que propõe uma melhoria na classificação de tópicos em textos curtos usando background knowledge. A técnica proposta consiste em realizar a classificação de textos curtos em três etapas, usando um algoritmo de classificação de texto convencional, sendo o NaiveBayes escolhido para esta dissertação, realizando uma comparação simples de texto, aqui denominada de “Contador de Palavras” que verifica a existência ou não das palavras-chave da background knowledge nos textos e, finalmente, ao término das duas etapas, os resultados são combinados para que o texto seja efetivamente classificado. Para demonstrar a eficiência da melhoria proposta, foram extraídos mensagens do Twitter e construído um Corpus em português tendo como tema a “Violência”. Esse Corpus foi utilizado em um experimento para determinar o desempenho de classificação da técnica proposta. Os resultados demonstram que a técnica de classificação proposta consegue melhorar o desempenho de classificação de tópicos em textos curtos.por
dc.publisher.countryBrasilpor
dc.publisher.departmentInformáticapor
dc.publisher.programPrograma de Pós-Graduação em Informáticapor
dc.publisher.initialsUFPBpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpor
dc.thumbnail.urlhttp://tede.biblioteca.ufpb.br:8080/retrieve/18494/arquivototal.pdf.jpg*
Aparece nas coleções:Centro de Informática (CI) - Programa de Pós-Graduação em Informática

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
arquivototal.pdf850,68 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.