Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/23456
Title: Experiências na extração de relações genéricas para português
Other Titles: Information extraction platform
Author: Marques, Bruno Manuel Ferreira
Advisor: Teixeira, António Joaquim da Silva
Rodrigues, Mário Jorge Ferreira
Keywords: Engenharia de computadores e telemática
Processamento da linguagem natural (Ciência de computadores)
Língua portuguesa
Recuperação da informação
Defense Date: 2017
Publisher: Universidade de Aveiro
Abstract: A informação está cada vez mais presente nos dias de hoje e aumenta exponencialmente a cada instante, trazendo por consequência informação não filtrada e como tal informação não necessária ou não objetiva. Para tentar colmatar esse facto foi desenvolvido um projeto que visa conseguir extração de informação na língua portuguesa, através de relações genéricas. Sabendo à partida que essas moldam um padrão que caracteriza uma determinada precisão, o objetivo do sistema que aqui se apresenta assenta na extração de informação de texto que rege uma ligação entre argumentos, com a particularidade de evitar uma pré definição de relações à priori. Os sistemas de Extração de Informação partilham de três fraquezas que não se devem descurar. 1. A extração é normalmente feita com base em verbos. 2. É ignorado o contexto, pelo que os tuplos extraídos não podem ser afirmados como factuais, salvo algumas exceções, como as datas. 3. Existe a dificuldade de Extração de informação (EI) na língua Portuguesa devido ao tagset utilizado, sendo que a língua aceite nestes termos é sobretudo o Inglês, cujo tagset é Penn Treebank[25] e que não é diretamente mapeado para um tagset de língua Portuguesa Esta dissertação de mestrado tem como objetivo inicial o processamento de texto sob a língua portuguesa e que assenta na extração de informação com relações genéricas em Português e que retratem com alguma objetividade o geral do que se trata o texto. Os métodos utilizados que interagem entre si, observam e processam o texto com o objetivo de formar uma solução no tema proposto. Todos esses passos serão descritos e dissecados nesta dissertação. Foramexecutadasavaliaçõesdeversõesetestadosresultados,nasquais se caracteriza sobretudo a perceção da informação extraída, precisão de modelos de extração tendo como foco relações tipo e não descurando o processamento do output e a forma como seria apresentado ao utilizador. Esperam-se extrações de informação que se complementem e façam sentido entre as mesmas e que para além de relações entre argumentos, nos seja dada informação sobre o texto processado. O objetivo fora concretizado na medida em que o software proposto não só extrai informação de domínio genérico, como também essa informação se complementa à medida que é extraída, fazendo com que haja uma linha de continuidade na informação, retratando pontos importantes no texto inicial e com isso obtendo resultados positivos no domínio da extração de informação e dando um contributo na área, ainda que tenha limitações bem visíveis e que demoveram alguns dos objetivos propostos inicialmente.
Information is increasingly present today and increases exponentially at every moment, bringing unfiltered information as a consequence with non-necessary or non-objective information. In order to try to overcome this, a project was developed to extract informationinPortugueselanguagethroughgenericrelations. Knowing at the outset that these mold a pattern that characterizes a certain precision, the purpose of the system presented here is based on the extraction of text information that governs a link between arguments, with the particularity of avoiding some definition of any relations. Information Extraction systems share three weaknesses that should not be overlooked. 1. Extraction is usually done based on verbs. 2. The context is ignored, so the extracted tuples can not be stated as factual, except for some exceptions, such as dates. 3. There is a difficulty in Information Extraction (IE) in Portuguese language due to the tagset used, and the language accepted in these terms is mainly English, whose tagset is Penn Treebank[25] andwhichisnotdirectlymappedtoaPortugueselanguagetagset This Master’s Thesis aims at the processing of text under the Portuguese language and based on the extraction of information with generic relationships in Portuguese and describe, with some objectivity, the general of what the text is about. The methods used interact with each other, observe and process the text with the objective of forming a solution in the proposed theme. All these steps will be described and dissected in this dissertation. We performed evaluations of versions and tested results, in which it is mainly characterized the perception of the information extracted, precisionofextractionmodelshavingfocusrelationsandnotneglecting the processing of the output and the way it would be presented to the user. Extractions of information are expected to complement each other and make sense among them and that in addition to relations between arguments, information about the text processed is given to us. The objective was accomplished insofar as the proposed software not only extracts information from generic domain, but also complements the information as it’s extracted, making a continuity line of information, highlighting important points in the initial text and having positive results in the field of information extraction and making a contribution in the area, although it has very visible limitations and that have demolished some of the goals initially proposed.
Description: Mestrado em Engenharia de Computadores e Telemática Departamento de Eletrónica
URI: http://hdl.handle.net/10773/23456
Appears in Collections:UA - Dissertações de mestrado
DETI - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
tese.pdf1.36 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.