DSpace
 
  Repositório Institucional da Universidade de Aveiro > Departamento de Electrónica, Telecomunicações e Informática > DETI - Dissertações de mestrado >
 Técnicas de data e text mining para anotação de um arquivo digital
Please use this identifier to cite or link to this item http://hdl.handle.net/10773/8762

title: Técnicas de data e text mining para anotação de um arquivo digital
authors: Silva, Elcelina Rosa Correia Carvalho
advisors: Martins, Joaquim Arnaldo Carvalho
Moreira, José Manuel Matos
keywords: Engenharia electrónica
Bases de dados relacionais
Armazenamento de dados
Recuperação da informação
Bibliotecas digitais
Documentos electrónicos - Indexação
issue date: 2010
publisher: Universidade de Aveiro
abstract: O presente trabalho cujo Título é técnicas de Data e Text Mining para a anotação dum Arquivo Digital, tem como objectivo testar a viabilidade da utilização de técnicas de processamento automático de texto para a anotação das sessões dos debates parlamentares da Assembleia da República de Portugal. Ao longo do trabalho abordaram-se conceitos como tecnologias de descoberta do conhecimento (KDD), o processo da descoberta do conhecimento em texto, a caracterização das várias etapas do processamento de texto e a descrição de algumas ferramentas open souce para a mineração de texto. A metodologia utilizada baseou-se na experimentação de várias técnicas de processamento textual utilizando a open source R/tm. Apresentam-se, como resultados, a influência do pré-processamento, tamanho dos documentos e tamanhos dos corpora no resultado do processamento utilizando o algoritmo knnflex.

The present work whose title is “Techniques of Data and Text Mining for Annotation in a Digital Archive” has as its main objective to test the viability of using the techniques of automatic testing of texts for the annotation of the sessions of the debates in the National Assembly of the Republic of Portugal. The work deals with concepts such as the techniques of discovering knowledge (KDD), the process of discovering knowledge in texts, the characterization of the various steps of processing a text and the description of some tools of open source for text mining. The methodology used is an experiment of various techniques in text processing using the open source R/tm. The results show the influence of pre-processing, the size of the document and the size of the corpora in the results of the processing using the algorithm knnflex.
description: Mestrado em Engenharia Electrónica e Telecomunicações
URI: http://hdl.handle.net/10773/8762
appears in collectionsDETI - Dissertações de mestrado
UA - Dissertações de mestrado

files in this item

file description sizeformat
6072.pdf1.8 MBAdobe PDFview/open
statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! RCAAP OpenAIRE DeGóis
ria-repositorio@ua.pt - Copyright ©   Universidade de Aveiro - RIA Statistics - Powered by MIT's DSpace software, Version 1.6.2