Silent speech interface for an AAL scenario

Vítor, Nuno Miguel Carreira

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/18398

Title:	Silent speech interface for an AAL scenario
Other Titles:	Interfaces de fala silenciosa para um cenário AAL
Author:	Vítor, Nuno Miguel Carreira
Advisor:	Teixeira, António Joaquim da Silva
Keywords:	Reconhecimento de padrão Reconhecimento automático da fala - Meios audiovisuais
Defense Date:	2016
Publisher:	Universidade de Aveiro
Abstract:	Since the 80's started to emerge studies regarding the audio-visual recognition of speech. However, in certain circumstances, the use of the audio information can not be considered due to noisy environments or other types of conditioning. Since than, studies started to emerge regarding visual speech recognition. With the launch of Kinect by Microsoft, which includes a RGB, depth sensor and microphone for a relatively low price compared to other cameras in its segment, permited new possibilities in the speech recognition eld. The launch of Kinect One in 2014 brought a new RGB-D camera with bigger resolution and a depth sensor with "Time of Flight" technology, more precise, witch allows to get better results and better accuracy in Visual Recognition Systems. This dissertation was developed with the Kinect One from Microsoft and has the objective of Visual Speech Recognition, especially commands, in Portuguese, said by the person that is standing in front of the camera, with the intention of controlling the VLC player, a relevant application VLC for an Ambient Assisted Living (AAL) scenario, a multimedia player, the most used in the world. The system developed in this dissertation is projected for an AAL scenario, for people with speech incapacity, noisy environments or only to improve and create a better home cinema experience, without the need for a remote control. The prototype follows a classic approach in pattern recognition, integrating features and classi ers. The adopted features were the position of the lips and chin. In therms of classi ers the Support Vector Machine (SVM), Random Forest, Sequential Minimal Optimization (SMO), AdaBoost and Naive Bayes algorithms were tested. The prototype developed in this dissertation achieved an accuracy of around 80 percent in a universe of 8 commands chosen to be the most intuitive as possible regarding the objective of this dissertation, to create a working prototype (VLC as chosen) using visual speech recognition. Desde a década de 80 que começaram a surgir estudos relacionados com o reconhecimento audiovisual da fala. Contudo, chegou-se á conclusão que, em certas circunstâncias, o uso da informação áudio não poderia ser considerada devido a ambientes ruidosos ou outro tipo de condicionantes. Desde então, começaram a realizar-se estudos tendo em conta o reconhecimento visual da fala. Com o lançamento da Kinect por parte da Microsoft, que inclui camara RGB, sensor de profundidade e microfone por um custo relativamente baixo comparativamente a outras câmaras do mesmo segmento, abriu novas portas e trouxe novas possibilidades no âmbito do reconhecimento da fala. Com o lançamento da Kinect One em 2014, uma câmara com maior resolução e um sensor de profundidade com tecnologia de "tempo de voo", mais precisa, permite ainda obter melhores resultados e abrir ainda mais portas no que toca ao reconhecimento visual da fala. Esta dissertação foi desenvolvida com base na Kinect One da Microsoft e tem como objectivo o reconhecimento visual da fala, mais especificamente de comandos, em Português, ditos pela pessoa que se encontra de frente para a câmara, com o intuito de controlar o VLC, uma aplicação relevante para um cenário AAL, um player de conteúdos multimédia, o mais utilizado em todo o mundo. O sistema desenvolvido encontra-se assim projetado para uma realidade de ambiente assistido, para pessoas com dificuldades motoras ou apenas como uma ferramenta de auxílio para uma melhor experiência cinematográfica em casa sem a necessidade do uso de um controlo remoto. O protótipo segue a abordagem clássica em reconhecimento de padrões, integrando extração de features e classificação. As features adotadas no protótipo realizado foram a posição dos lábios e a posição do queixo. Em termos dos classificadores foram experimentados os algoritmos Support Vector Machine (SVM), Random Forest, Sequential Minimal Optimization (SMO), AdaBoost e Naive Bayes. O protótipo no decorrer desta dissertação demonstrou conseguir atingir taxas de reconhecimento na ordem dos 80 por cento num mundo de 8 comandos escolhidos de forma a serem o mais intuitivos possível tendo em conta o objectivo desta tese, controlar o reprodutor VLC usando reconhecimento visual da fala.
Description:	Mestrado em Engenharia Eletrónica e Telecomunicações
URI:	http://hdl.handle.net/10773/18398
Appears in Collections:	UA - Dissertações de mestrado DETI - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Dissertação Nuno Vitor.pdf		3.32 MB	Adobe PDF	View/Open

Show full item record