DSpace Comunidad : El Programa de Maestría en Ciencias del Procesamiento de la Información (MCPI) pertenece a la DES de Ingeniería y Tecnología en la Unidad Académica de Ingeniería Eléctrica (UAIE) de la Universidad Autónoma de Zacatecas (UAZ), México. La MCPI es un programa de reciente creación que integra investigadores especialistas en las Ciencias de la Ingeniería, quienes confluyen a través de las Lineas de Generación y Aplicación del Conocimiento (LGACs) de sus Cuerpos Académicos (CA) en el área de "Análisis y Procesamiento de Datos", las cuales derivan actualmente en el desarrollo de actividades de investigación científica y tecnológica en el ecosistemas del Internet de las Cosas (IoT) y la industria 4.0.
http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/1403
El Programa de Maestría en Ciencias del Procesamiento de la Información (MCPI) pertenece a la DES de Ingeniería y Tecnología en la Unidad Académica de Ingeniería Eléctrica (UAIE) de la Universidad Autónoma de Zacatecas (UAZ), México. La MCPI es un programa de reciente creación que integra investigadores especialistas en las Ciencias de la Ingeniería, quienes confluyen a través de las Lineas de Generación y Aplicación del Conocimiento (LGACs) de sus Cuerpos Académicos (CA) en el área de "Análisis y Procesamiento de Datos", las cuales derivan actualmente en el desarrollo de actividades de investigación científica y tecnológica en el ecosistemas del Internet de las Cosas (IoT) y la industria 4.0.2024-03-29T01:53:15ZCombining Deep Learning with Domain Adaptation and Filtering Techniques for Speech Recognition in Noisy Environments
http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3435
Título : Combining Deep Learning with Domain Adaptation and Filtering Techniques for Speech Recognition in Noisy Environments
Authors: Velásquez Martínez, Emmanuel de J.; Becerra Sánchez, Aldonso; de la Rosa Vargas, José I.; González Ramírez, Efrén; Rodarte Rodríguez, Armando; Zepeda Valles, Gustavo
Resumen : Speech recognition is a common task in various everyday user systems; however, its effectiveness is limited in noisy environments such as moving vehicles, homes with ambient noise, mobile phones, among others. This work proposes to combine deep learning techniques with domain adaptation and filtering based on Wavelet Transform to eliminate both stationary and non-stationary noise in speech signals in automatic speech recognition (ASR) and speaker identification tasks. It demonstrates how a deep neural network model with domain adaptation, using Optimal Transport, can be trained to mitigate different types of noise. Evaluations were conducted based on Short-Term Objective Intelligibility (STOI) and Perceptual Evaluation of Speech Quality (PESQ). The Wavelet Transform (WT) was applied as a filtering technique to perform a second processing on the speech signal enhanced by the deep neural network, resulting in an average improvement of 20% in STOI and 9% in PESQ compared to the noisy signal. The process was evaluated on a pre-trained ASR system, achieving a general decrease in WER of 14.24%, while an average 99% accuracy in speaker identification. Thus, the proposed approach provides a significant improvement in speech recognition performance by addressing the problem of noisy speech.2023-10-22T00:00:00ZEsquema de red neuronal artificial para tareas de identificación de locutor en entornos ruidosos y con fines forenses
http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3432
Título : Esquema de red neuronal artificial para tareas de identificación de locutor en entornos ruidosos y con fines forenses
Authors: Rodarte Rodríguez, Armando
Autor : Efrén González Ramírez; Gamaliel Moreno Chávez
Resumen : La biometría es una herramienta que permite identificar y autenticar personas por medio de rasgos biológicos que son irrepetibles en cada individuo. Esta herramienta ha permitido el desarrollo de aplicaciones de software y algoritmos inteligentes de procesamiento de voz en áreas como el análisis de información forense. Donde el objetivo de este campo de análisis es realizar la identificación de personas con fines de vigilancia y forenses. Sin embargo, los sistemas de procesamiento de voz aplicados en ambas áreas son poco confiables y precisos para analizar audios de baja calidad y con ruido ambiental. Por lo tanto, es necesario desarrollar nuevos modelos que sean más robustos en el procesamiento de este tipo de información para llevar a cabo tareas de identificación del hablante en escenarios criminales. A partir de la problemática mencionada, el objetivo de esta investigación es desarrollar un esquema de red neuronal artificial para tareas de identificación de locutor en entornos ruidosos y con propósitos forenses. Proporcionar este tipo de análisis de manera confiable servirá como apoyo adicional para reducir la cantidad de sentencias criminales incorrectas que son emitidas por el criminalista, juez y/o jurado en escenarios forenses. El esquema de red neuronal artificial propuesto utiliza funciones de activación paramétricas y neuronas estándar como unidades de soporte para la optimización de los parámetros entrenables de las funciones de activación. A este modelo de red neuronal se le ha llamado red neuronal artificial con neuronas de soporte. En relación con las funciones de activación paramétricas, se desarrollaron dos funciones con parámetros entrenables, AReLU y MPReLU, que son versiones simplificadas de DPReLU. Adicionalmente, en este estudio se implementaron diferentes configuraciones de redes neuronales artificiales con la finalidad de comparar el rendimiento del esquema propuesto contra la arquitectura de una red neuronal convencional. Para interactuar con el modelo óptimo presentado, se desarrolló la aplicación de escritorio HAAF. Por otra parte, se usó un conjunto de datos con 158 hablantes nativos del idioma español (122 hombres y 36 mujeres) para entrenar y evaluar el rendimiento de los diferentes experimentos. Estas grabaciones incluyen diversos tipos de calidad y ruidos ambientales. La configuración que demostró el mejor rendimiento, en las actividades de identificación de locutores y en audios con ruido ambiental, fue el modelo de red neuronal artificial con neuronas de soporte y el uso de la función de activación MPReLU. Este modelo alcanzó una exactitud del 98.68% y un puntaje F1 del 98.28%. Por último, los resultados obtenidos revelan que las neuronas de soporte son una unidad de procesamiento efectiva para optimizar de manera automática parámetros internos de las redes neuronales artificiales. También, el uso de funciones paramétricas puede ayudar a realizar un modelado más acorde al comportamiento de los datos, añadiendo robustez al modelado de información con ruido.
Descripción : Biometrics is a tool that allows to identify and authenticate people through biological characteristics that are unique to each individual. This tool has allowed the development of software applications and intelligent voice processing algorithms in fields such as forensic information analysis. Where the goal of this field of analysis is to identify people for surveillance and forensic purposes. However, the voice processing systems applied in both areas are not very reliable or accurate for analyzing low-quality audio and with environmental noise. Therefore, it is necessary to develop new models more robust in processing this type of information to carry out speaker identification tasks in criminal scenarios. Based on the problem mentioned above, the objective of this research is to develop an artificial neural network scheme for speaker identification tasks in noisy environments and for forensic purposes. Providing this type of analysis reliably will serve as additional support to reduce the issuance of incorrect criminal sentences issued by the criminalist, judge, and/or jury in forensic scenarios. The proposed artificial neural network scheme uses parametric activation functions and standard neurons as support units for the optimization of trainable parameters in the parametric activation functions. This proposed neural network model has been called an artificial neural network with support neurons. In relation to parametric activation functions, two parametric functions were developed: AReLU and MPReLU, which are simplified versions of DPReLU. In addition, in this study, different configurations of artificial neural networks were implemented in order to compare the performance of the proposed scheme against the architecture of a conventional neural network. To interact with the proposed optimal model, the HAAF desktop application was developed. On the other hand, a dataset with 158 native Spanish speakers (122 men and 36 women) was used to train and evaluate the performance of the different conducted experiments. These recordings include various types of quality and environmental noise. The configuration that showed the best performance, in speaker identification tasks and in audio with ambient noise, was the artificial neural network model with support neurons and the use of the MPReLU activation function. This model achieved an accuracy of 98.68% and an F1 score of 98.28%. Finally, the results obtained reveal that support neurons are an effective processing unit for automatically optimizing internal parameters of artificial neural networks. Also, the use of parametric functions can help to perform modeling that is more in line with the behavior of the data, and it improves the robustness of the information modeling with noise.2023-10-26T00:00:00ZAplicación de técnicas de filtrado y adaptación de dominio en la señal de voz con fines de reconocimiento del habla en entornos con ruido
http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3431
Título : Aplicación de técnicas de filtrado y adaptación de dominio en la señal de voz con fines de reconocimiento del habla en entornos con ruido
Authors: Velásquez Martínez, Emmanuel De Jesús
Autor : Gamaliel Moreno Chávez; Daniel Alaniz Lumbreras
Resumen : El reconocimiento de voz en la actualidad es una tarea muy común en diversos sistemas cotidianos de usuario, sin embargo, carece de buena efectividad en entornos con ruido, como autos en movimiento, hogares con ruido ambiental, teléfonos móviles, entre otros. Este trabajo combina técnicas de aprendizaje profundo con adaptación de dominio y filtrado basado en la transformada Wavelet para eliminar el ruido estacionario y no estacionario en las señales de voz. El enfoque empleado tiene como objetivo abordar el reconocimiento automático de voz (RAV) y la identificación de locutor en entornos ruidosos. Este trabajo demuestra cómo un modelo de redes neuronales profundas con adaptación de dominio puede mitigar diversos tipos de ruido. Una de las teorías a aplicar es el uso del Transporte Óptimo tanto en la tarea de regresión para mejora del habla ruidosa y para la tarea de identificación de locutor; es así como que la aplicación de esta teoría en aprendizaje profundo ha demostrado mejorar la eficiencia para entrenar un modelo de aprendizaje profundo. Las evaluaciones del habla se realizaron con base a la inteligibilidad objetiva a corto plazo (STOI) y calidad de la evaluación perceptual del habla (PESQ). Se aplicó la transformada wavelet (TW) como técnica de filtrado para realizar un segundo procesamiento en la señal mejorada por la red neuronal profunda, que alcanzó en promedio una mejora del 20% en STOI y un 9% en PESQ respecto a la señal ruidosa. Por último, se evaluó el método en un esquema de RAV preentrenado, logrando una disminución general de la tasa de error de palabra a 14.24% y alcanzando en promedio un 99% en la identificación de locutor. El enfoque propuesto proporciona una mejora significativa en el rendimiento del reconocimiento del habla al abordar el problema del habla ruidosa en diversos entornos.
Descripción : Speech recognition today is a very common task in various everyday user systems; however, it lacks good effectiveness in noisy environments, such as moving vehicles, homes with background noise, mobile phones, among others. This work combines deep learning techniques with domain adaptation and Wavelet transform-based filtering to remove both stationary and non-
stationary noise from speech signals. The approach employed aims to address automatic speech recognition (ASR) and speaker identification in noisy environments. This work demonstrates how a deep neural network model with domain adaptation can mitigate various types of noise. One of the theories to apply is the use of Optimal Transport in both the speech enhancement regression task and the speaker identification task; thus, the application of this theory in deep learning has been shown to improve the efficiency of training a deep learning model. Speech evaluations were conducted based on Short-Time Objective Intelligibility (STOI) and Perceptual Evaluation of Speech Quality (PESQ). The Wavelet transform (WT) was applied as a filtering technique to perform a second processing on the speech signal enhanced by the deep neural network, which on average achieved a 20% improvement in STOI and a 9% improvement in PESQ compared to the noisy signal. Finally, the method was evaluated in a pre-trained ASR scheme, achieving an overall word error rate reduction to 14.24% and an average of 99% in speaker identification. The proposed approach provides a significant improvement in speech recognition performance by addressing the problem of noisy speech in various environments.2023-10-27T00:00:00ZGender classification and speaker identification using machine learning algorithms
http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3430
Título : Gender classification and speaker identification using machine learning algorithms
Authors: Velásquez Martínez, Emmanuel de J.; Becerra Sánchez, Aldonso; De La Rosa Vargas, José I.; González Ramírez, Efrén; Zepeda Valles, Gustavo; Rodarte Rodríguez, Armando; Escalante García, Nivia I.; Olvera González, J. Ernesto
Resumen : The speech is a unique biological feature to each person, and this is commonly used in speaker identification
tasks like home automation applications, transaction authentication, health, access control, among others. The purpose of the present work is to compare gender classification and speaker identification experiments in order to determine the machine learning algorithm that shows the best metrics performance based on Mel frequency cepstral coefficients (MFCC) as speech descriptive features. In this process, the machine learning algorithms implemented were logistic regression, random forest, k-nearest neighbors and neural network, which were evaluated with accuracy, specificity, sensitivity and area under the curve. The schemes that revealed the best performance were random forest and k-nearest neighbors, reflecting an AUC (area under the curve) of 1, which indicates that the models have robust capacity of classification both in isolated samples and in complete audio files. The results obtained open guidelines to carry out another type of experimentation using the MFCC features with audios where the environment noise factor is included to measure the performance with these classification algorithms. The experimentation proposed for this work seeks to be applied in the future in different areas, where MFCC are used to describe the voice to perform another type of classification.2022-11-15T00:00:00Z