Aplicación de técnicas de filtrado y adaptación de dominio en la señal de voz con fines de reconocimiento del habla en entornos con ruido

Gamaliel Moreno Chávez; Daniel Alaniz Lumbreras

DSpace Principal
→
Maestría en Ciencias del Procesamiento de la Información
→
*Tesis*-- M. en Ciencias del Proc. de la Info.
→
Ver ítem

dc.contributor	31249	en_US
dc.contributor.advisor	Efrén González Ramírez	en_US
dc.contributor.advisor	Aldonso Becerra Sánchez	en_US
dc.contributor.advisor	José Ismael De La Rosa Vargas	en_US
dc.contributor.author	Gamaliel Moreno Chávez	en_US
dc.contributor.author	Daniel Alaniz Lumbreras	en_US
dc.contributor.other	https://orcid.org/0000-0002-7337-8974	en_US
dc.coverage.spatial	Global	en_US
dc.creator	Velásquez Martínez, Emmanuel De Jesús
dc.date.accessioned	2023-10-30T19:02:04Z
dc.date.available	2023-10-30T19:02:04Z
dc.date.issued	2023-10-27
dc.identifier	info:eu-repo/semantics/acceptedVersion	en_US
dc.identifier.uri	http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3431
dc.identifier.uri	http://dx.doi.org/10.48779/ricaxcan-262
dc.description	Speech recognition today is a very common task in various everyday user systems; however, it lacks good effectiveness in noisy environments, such as moving vehicles, homes with background noise, mobile phones, among others. This work combines deep learning techniques with domain adaptation and Wavelet transform-based filtering to remove both stationary and non- stationary noise from speech signals. The approach employed aims to address automatic speech recognition (ASR) and speaker identification in noisy environments. This work demonstrates how a deep neural network model with domain adaptation can mitigate various types of noise. One of the theories to apply is the use of Optimal Transport in both the speech enhancement regression task and the speaker identification task; thus, the application of this theory in deep learning has been shown to improve the efficiency of training a deep learning model. Speech evaluations were conducted based on Short-Time Objective Intelligibility (STOI) and Perceptual Evaluation of Speech Quality (PESQ). The Wavelet transform (WT) was applied as a filtering technique to perform a second processing on the speech signal enhanced by the deep neural network, which on average achieved a 20% improvement in STOI and a 9% improvement in PESQ compared to the noisy signal. Finally, the method was evaluated in a pre-trained ASR scheme, achieving an overall word error rate reduction to 14.24% and an average of 99% in speaker identification. The proposed approach provides a significant improvement in speech recognition performance by addressing the problem of noisy speech in various environments.	en_US
dc.description.abstract	El reconocimiento de voz en la actualidad es una tarea muy común en diversos sistemas cotidianos de usuario, sin embargo, carece de buena efectividad en entornos con ruido, como autos en movimiento, hogares con ruido ambiental, teléfonos móviles, entre otros. Este trabajo combina técnicas de aprendizaje profundo con adaptación de dominio y filtrado basado en la transformada Wavelet para eliminar el ruido estacionario y no estacionario en las señales de voz. El enfoque empleado tiene como objetivo abordar el reconocimiento automático de voz (RAV) y la identificación de locutor en entornos ruidosos. Este trabajo demuestra cómo un modelo de redes neuronales profundas con adaptación de dominio puede mitigar diversos tipos de ruido. Una de las teorías a aplicar es el uso del Transporte Óptimo tanto en la tarea de regresión para mejora del habla ruidosa y para la tarea de identificación de locutor; es así como que la aplicación de esta teoría en aprendizaje profundo ha demostrado mejorar la eficiencia para entrenar un modelo de aprendizaje profundo. Las evaluaciones del habla se realizaron con base a la inteligibilidad objetiva a corto plazo (STOI) y calidad de la evaluación perceptual del habla (PESQ). Se aplicó la transformada wavelet (TW) como técnica de filtrado para realizar un segundo procesamiento en la señal mejorada por la red neuronal profunda, que alcanzó en promedio una mejora del 20% en STOI y un 9% en PESQ respecto a la señal ruidosa. Por último, se evaluó el método en un esquema de RAV preentrenado, logrando una disminución general de la tasa de error de palabra a 14.24% y alcanzando en promedio un 99% en la identificación de locutor. El enfoque propuesto proporciona una mejora significativa en el rendimiento del reconocimiento del habla al abordar el problema del habla ruidosa en diversos entornos.	en_US
dc.language.iso	spa	en_US
dc.publisher	Universidad Autónoma de Zacatecas	en_US
dc.relation.isbasedon	Maestro en Ciencias del Procesamiento de la Información	en_US
dc.relation.uri	generalPublic	en_US
dc.rights	Attribution 3.0 United States	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/us/	*
dc.subject.classification	INGENIERIA Y TECNOLOGIA [7]	en_US
dc.subject.other	Adaptación de dominio	en_US
dc.subject.other	Redes Neuronales Profundas	en_US
dc.subject.other	Reconocimiento de Voz	en_US
dc.subject.other	Identificación de Locutor	en_US
dc.title	Aplicación de técnicas de filtrado y adaptación de dominio en la señal de voz con fines de reconocimiento del habla en entornos con ruido	en_US
dc.type	info:eu-repo/semantics/masterThesis	en_US