Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/18398
Title: | Silent speech interface for an AAL scenario |
Other Titles: | Interfaces de fala silenciosa para um cenário AAL |
Author: | Vítor, Nuno Miguel Carreira |
Advisor: | Teixeira, António Joaquim da Silva |
Keywords: | Reconhecimento de padrão Reconhecimento automático da fala - Meios audiovisuais |
Defense Date: | 2016 |
Publisher: | Universidade de Aveiro |
Abstract: | Since the 80's started to emerge studies regarding the audio-visual recognition
of speech. However, in certain circumstances, the use of the audio
information can not be considered due to noisy environments or other types
of conditioning. Since than, studies started to emerge regarding visual
speech recognition.
With the launch of Kinect by Microsoft, which includes a RGB, depth sensor
and microphone for a relatively low price compared to other cameras in
its segment, permited new possibilities in the speech recognition eld. The
launch of Kinect One in 2014 brought a new RGB-D camera with bigger resolution
and a depth sensor with "Time of Flight" technology, more precise,
witch allows to get better results and better accuracy in Visual Recognition
Systems.
This dissertation was developed with the Kinect One from Microsoft and
has the objective of Visual Speech Recognition, especially commands, in
Portuguese, said by the person that is standing in front of the camera, with
the intention of controlling the VLC player, a relevant application VLC for
an Ambient Assisted Living (AAL) scenario, a multimedia player, the most
used in the world.
The system developed in this dissertation is projected for an AAL scenario,
for people with speech incapacity, noisy environments or only to improve
and create a better home cinema experience, without the need for a remote
control.
The prototype follows a classic approach in pattern recognition, integrating
features and classi ers. The adopted features were the position of the lips
and chin. In therms of classi ers the Support Vector Machine (SVM),
Random Forest, Sequential Minimal Optimization (SMO), AdaBoost and
Naive Bayes algorithms were tested.
The prototype developed in this dissertation achieved an accuracy of around
80 percent in a universe of 8 commands chosen to be the most intuitive
as possible regarding the objective of this dissertation, to create a working
prototype (VLC as chosen) using visual speech recognition. Desde a década de 80 que começaram a surgir estudos relacionados com o reconhecimento audiovisual da fala. Contudo, chegou-se á conclusão que, em certas circunstâncias, o uso da informação áudio não poderia ser considerada devido a ambientes ruidosos ou outro tipo de condicionantes. Desde então, começaram a realizar-se estudos tendo em conta o reconhecimento visual da fala. Com o lançamento da Kinect por parte da Microsoft, que inclui camara RGB, sensor de profundidade e microfone por um custo relativamente baixo comparativamente a outras câmaras do mesmo segmento, abriu novas portas e trouxe novas possibilidades no âmbito do reconhecimento da fala. Com o lançamento da Kinect One em 2014, uma câmara com maior resolução e um sensor de profundidade com tecnologia de "tempo de voo", mais precisa, permite ainda obter melhores resultados e abrir ainda mais portas no que toca ao reconhecimento visual da fala. Esta dissertação foi desenvolvida com base na Kinect One da Microsoft e tem como objectivo o reconhecimento visual da fala, mais especificamente de comandos, em Português, ditos pela pessoa que se encontra de frente para a câmara, com o intuito de controlar o VLC, uma aplicação relevante para um cenário AAL, um player de conteúdos multimédia, o mais utilizado em todo o mundo. O sistema desenvolvido encontra-se assim projetado para uma realidade de ambiente assistido, para pessoas com dificuldades motoras ou apenas como uma ferramenta de auxílio para uma melhor experiência cinematográfica em casa sem a necessidade do uso de um controlo remoto. O protótipo segue a abordagem clássica em reconhecimento de padrões, integrando extração de features e classificação. As features adotadas no protótipo realizado foram a posição dos lábios e a posição do queixo. Em termos dos classificadores foram experimentados os algoritmos Support Vector Machine (SVM), Random Forest, Sequential Minimal Optimization (SMO), AdaBoost e Naive Bayes. O protótipo no decorrer desta dissertação demonstrou conseguir atingir taxas de reconhecimento na ordem dos 80 por cento num mundo de 8 comandos escolhidos de forma a serem o mais intuitivos possível tendo em conta o objectivo desta tese, controlar o reprodutor VLC usando reconhecimento visual da fala. |
Description: | Mestrado em Engenharia Eletrónica e Telecomunicações |
URI: | http://hdl.handle.net/10773/18398 |
Appears in Collections: | UA - Dissertações de mestrado DETI - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Dissertação Nuno Vitor.pdf | 3.32 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.