Utilize este identificador para referenciar este registo: http://hdl.handle.net/10773/8762
Título: Técnicas de data e text mining para anotação de um arquivo digital
Autor: Silva, Elcelina Rosa Correia Carvalho
Orientador: Martins, Joaquim Arnaldo Carvalho
Moreira, José Manuel Matos
Palavras-chave: Engenharia electrónica
Bases de dados relacionais
Armazenamento de dados
Recuperação da informação
Bibliotecas digitais
Documentos electrónicos - Indexação
Data de Defesa: 2010
Editora: Universidade de Aveiro
Resumo: O presente trabalho cujo Título é técnicas de Data e Text Mining para a anotação dum Arquivo Digital, tem como objectivo testar a viabilidade da utilização de técnicas de processamento automático de texto para a anotação das sessões dos debates parlamentares da Assembleia da República de Portugal. Ao longo do trabalho abordaram-se conceitos como tecnologias de descoberta do conhecimento (KDD), o processo da descoberta do conhecimento em texto, a caracterização das várias etapas do processamento de texto e a descrição de algumas ferramentas open souce para a mineração de texto. A metodologia utilizada baseou-se na experimentação de várias técnicas de processamento textual utilizando a open source R/tm. Apresentam-se, como resultados, a influência do pré-processamento, tamanho dos documentos e tamanhos dos corpora no resultado do processamento utilizando o algoritmo knnflex.
The present work whose title is “Techniques of Data and Text Mining for Annotation in a Digital Archive” has as its main objective to test the viability of using the techniques of automatic testing of texts for the annotation of the sessions of the debates in the National Assembly of the Republic of Portugal. The work deals with concepts such as the techniques of discovering knowledge (KDD), the process of discovering knowledge in texts, the characterization of the various steps of processing a text and the description of some tools of open source for text mining. The methodology used is an experiment of various techniques in text processing using the open source R/tm. The results show the influence of pre-processing, the size of the document and the size of the corpora in the results of the processing using the algorithm knnflex.
Descrição: Mestrado em Engenharia Electrónica e Telecomunicações
URI: http://hdl.handle.net/10773/8762
Aparece nas coleções: UA - Dissertações de mestrado
DETI - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
6072.pdf1.8 MBAdobe PDFVer/Abrir


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.