Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10773/8762
Título: | Técnicas de data e text mining para anotação de um arquivo digital |
Autor: | Silva, Elcelina Rosa Correia Carvalho |
Orientador: | Martins, Joaquim Arnaldo Carvalho Moreira, José Manuel Matos |
Palavras-chave: | Engenharia electrónica Bases de dados relacionais Armazenamento de dados Recuperação da informação Bibliotecas digitais Documentos electrónicos - Indexação |
Data de Defesa: | 2010 |
Editora: | Universidade de Aveiro |
Resumo: | O presente trabalho cujo Título é técnicas de Data e Text Mining para a anotação dum Arquivo Digital, tem como objectivo testar a viabilidade da utilização de técnicas de processamento automático de texto para a anotação das sessões dos debates parlamentares da Assembleia da República de Portugal.
Ao longo do trabalho abordaram-se conceitos como tecnologias de descoberta do conhecimento (KDD), o processo da descoberta do conhecimento em texto, a caracterização das várias etapas do processamento de texto e a descrição de algumas ferramentas open souce para a mineração de texto.
A metodologia utilizada baseou-se na experimentação de várias técnicas de processamento textual utilizando a open source R/tm. Apresentam-se, como resultados, a influência do pré-processamento, tamanho dos documentos e tamanhos dos corpora no resultado do processamento utilizando o algoritmo knnflex. The present work whose title is “Techniques of Data and Text Mining for Annotation in a Digital Archive” has as its main objective to test the viability of using the techniques of automatic testing of texts for the annotation of the sessions of the debates in the National Assembly of the Republic of Portugal. The work deals with concepts such as the techniques of discovering knowledge (KDD), the process of discovering knowledge in texts, the characterization of the various steps of processing a text and the description of some tools of open source for text mining. The methodology used is an experiment of various techniques in text processing using the open source R/tm. The results show the influence of pre-processing, the size of the document and the size of the corpora in the results of the processing using the algorithm knnflex. |
Descrição: | Mestrado em Engenharia Electrónica e Telecomunicações |
URI: | http://hdl.handle.net/10773/8762 |
Aparece nas coleções: | UA - Dissertações de mestrado DETI - Dissertações de mestrado |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.