Repositorio Dspace

Aplicación de técnicas de filtrado y adaptación de dominio en la señal de voz con fines de reconocimiento del habla en entornos con ruido

Mostrar el registro sencillo del ítem

dc.contributor 31249 en_US
dc.contributor.advisor Efrén González Ramírez en_US
dc.contributor.advisor Aldonso Becerra Sánchez en_US
dc.contributor.advisor José Ismael De La Rosa Vargas en_US
dc.contributor.author Gamaliel Moreno Chávez en_US
dc.contributor.author Daniel Alaniz Lumbreras en_US
dc.contributor.other https://orcid.org/0000-0002-7337-8974 en_US
dc.coverage.spatial Global en_US
dc.creator Velásquez Martínez, Emmanuel De Jesús
dc.date.accessioned 2023-10-30T19:02:04Z
dc.date.available 2023-10-30T19:02:04Z
dc.date.issued 2023-10-27
dc.identifier info:eu-repo/semantics/acceptedVersion en_US
dc.identifier.uri http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3431
dc.identifier.uri http://dx.doi.org/10.48779/ricaxcan-262
dc.description Speech recognition today is a very common task in various everyday user systems; however, it lacks good effectiveness in noisy environments, such as moving vehicles, homes with background noise, mobile phones, among others. This work combines deep learning techniques with domain adaptation and Wavelet transform-based filtering to remove both stationary and non- stationary noise from speech signals. The approach employed aims to address automatic speech recognition (ASR) and speaker identification in noisy environments. This work demonstrates how a deep neural network model with domain adaptation can mitigate various types of noise. One of the theories to apply is the use of Optimal Transport in both the speech enhancement regression task and the speaker identification task; thus, the application of this theory in deep learning has been shown to improve the efficiency of training a deep learning model. Speech evaluations were conducted based on Short-Time Objective Intelligibility (STOI) and Perceptual Evaluation of Speech Quality (PESQ). The Wavelet transform (WT) was applied as a filtering technique to perform a second processing on the speech signal enhanced by the deep neural network, which on average achieved a 20% improvement in STOI and a 9% improvement in PESQ compared to the noisy signal. Finally, the method was evaluated in a pre-trained ASR scheme, achieving an overall word error rate reduction to 14.24% and an average of 99% in speaker identification. The proposed approach provides a significant improvement in speech recognition performance by addressing the problem of noisy speech in various environments. en_US
dc.description.abstract El reconocimiento de voz en la actualidad es una tarea muy común en diversos sistemas cotidianos de usuario, sin embargo, carece de buena efectividad en entornos con ruido, como autos en movimiento, hogares con ruido ambiental, teléfonos móviles, entre otros. Este trabajo combina técnicas de aprendizaje profundo con adaptación de dominio y filtrado basado en la transformada Wavelet para eliminar el ruido estacionario y no estacionario en las señales de voz. El enfoque empleado tiene como objetivo abordar el reconocimiento automático de voz (RAV) y la identificación de locutor en entornos ruidosos. Este trabajo demuestra cómo un modelo de redes neuronales profundas con adaptación de dominio puede mitigar diversos tipos de ruido. Una de las teorías a aplicar es el uso del Transporte Óptimo tanto en la tarea de regresión para mejora del habla ruidosa y para la tarea de identificación de locutor; es así como que la aplicación de esta teoría en aprendizaje profundo ha demostrado mejorar la eficiencia para entrenar un modelo de aprendizaje profundo. Las evaluaciones del habla se realizaron con base a la inteligibilidad objetiva a corto plazo (STOI) y calidad de la evaluación perceptual del habla (PESQ). Se aplicó la transformada wavelet (TW) como técnica de filtrado para realizar un segundo procesamiento en la señal mejorada por la red neuronal profunda, que alcanzó en promedio una mejora del 20% en STOI y un 9% en PESQ respecto a la señal ruidosa. Por último, se evaluó el método en un esquema de RAV preentrenado, logrando una disminución general de la tasa de error de palabra a 14.24% y alcanzando en promedio un 99% en la identificación de locutor. El enfoque propuesto proporciona una mejora significativa en el rendimiento del reconocimiento del habla al abordar el problema del habla ruidosa en diversos entornos. en_US
dc.language.iso spa en_US
dc.publisher Universidad Autónoma de Zacatecas en_US
dc.relation.isbasedon Maestro en Ciencias del Procesamiento de la Información en_US
dc.relation.uri generalPublic en_US
dc.rights Attribution 3.0 United States *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/us/ *
dc.subject.classification INGENIERIA Y TECNOLOGIA [7] en_US
dc.subject.other Adaptación de dominio en_US
dc.subject.other Redes Neuronales Profundas en_US
dc.subject.other Reconocimiento de Voz en_US
dc.subject.other Identificación de Locutor en_US
dc.title Aplicación de técnicas de filtrado y adaptación de dominio en la señal de voz con fines de reconocimiento del habla en entornos con ruido en_US
dc.type info:eu-repo/semantics/masterThesis en_US


Ficheros en el ítem

El ítem tiene asociados los siguientes ficheros de licencia:

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution 3.0 United States Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution 3.0 United States

Buscar en DSpace


Búsqueda avanzada

Listar

Mi cuenta

Estadísticas