Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/8762
Title: Técnicas de data e text mining para anotação de um arquivo digital
Author: Silva, Elcelina Rosa Correia Carvalho
Advisor: Martins, Joaquim Arnaldo Carvalho
Moreira, José Manuel Matos
Keywords: Engenharia electrónica
Bases de dados relacionais
Armazenamento de dados
Recuperação da informação
Bibliotecas digitais
Documentos electrónicos - Indexação
Defense Date: 2010
Publisher: Universidade de Aveiro
Abstract: O presente trabalho cujo Título é técnicas de Data e Text Mining para a anotação dum Arquivo Digital, tem como objectivo testar a viabilidade da utilização de técnicas de processamento automático de texto para a anotação das sessões dos debates parlamentares da Assembleia da República de Portugal. Ao longo do trabalho abordaram-se conceitos como tecnologias de descoberta do conhecimento (KDD), o processo da descoberta do conhecimento em texto, a caracterização das várias etapas do processamento de texto e a descrição de algumas ferramentas open souce para a mineração de texto. A metodologia utilizada baseou-se na experimentação de várias técnicas de processamento textual utilizando a open source R/tm. Apresentam-se, como resultados, a influência do pré-processamento, tamanho dos documentos e tamanhos dos corpora no resultado do processamento utilizando o algoritmo knnflex.
The present work whose title is “Techniques of Data and Text Mining for Annotation in a Digital Archive” has as its main objective to test the viability of using the techniques of automatic testing of texts for the annotation of the sessions of the debates in the National Assembly of the Republic of Portugal. The work deals with concepts such as the techniques of discovering knowledge (KDD), the process of discovering knowledge in texts, the characterization of the various steps of processing a text and the description of some tools of open source for text mining. The methodology used is an experiment of various techniques in text processing using the open source R/tm. The results show the influence of pre-processing, the size of the document and the size of the corpora in the results of the processing using the algorithm knnflex.
Description: Mestrado em Engenharia Electrónica e Telecomunicações
URI: http://hdl.handle.net/10773/8762
Appears in Collections:UA - Dissertações de mestrado
DETI - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
6072.pdf1.8 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.