Esquema de red neuronal artificial para tareas de identificación de locutor en entornos ruidosos y con fines forenses

Efrén González Ramírez; Gamaliel Moreno Chávez

DSpace Principal
→
Maestría en Ciencias del Procesamiento de la Información
→
*Tesis*-- M. en Ciencias del Proc. de la Info.
→
Ver ítem

dc.contributor	31249	en_US
dc.contributor.advisor	José Ismael de la Rosa Vargas	en_US
dc.contributor.advisor	Aldonso Becerra Sánchez	en_US
dc.contributor.advisor	José de Jesús Villa Hernández	en_US
dc.contributor.author	Efrén González Ramírez	en_US
dc.contributor.author	Gamaliel Moreno Chávez	en_US
dc.contributor.other	https://orcid.org/0000-0002-7337-8974	en_US
dc.coverage.spatial	Global	en_US
dc.creator	Rodarte Rodríguez, Armando
dc.date.accessioned	2023-10-30T19:06:14Z
dc.date.available	2023-10-30T19:06:14Z
dc.date.issued	2023-10-26
dc.identifier	info:eu-repo/semantics/acceptedVersion	en_US
dc.identifier.uri	http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3432
dc.identifier.uri	http://dx.doi.org/10.48779/ricaxcan-263
dc.description	Biometrics is a tool that allows to identify and authenticate people through biological characteristics that are unique to each individual. This tool has allowed the development of software applications and intelligent voice processing algorithms in fields such as forensic information analysis. Where the goal of this field of analysis is to identify people for surveillance and forensic purposes. However, the voice processing systems applied in both areas are not very reliable or accurate for analyzing low-quality audio and with environmental noise. Therefore, it is necessary to develop new models more robust in processing this type of information to carry out speaker identification tasks in criminal scenarios. Based on the problem mentioned above, the objective of this research is to develop an artificial neural network scheme for speaker identification tasks in noisy environments and for forensic purposes. Providing this type of analysis reliably will serve as additional support to reduce the issuance of incorrect criminal sentences issued by the criminalist, judge, and/or jury in forensic scenarios. The proposed artificial neural network scheme uses parametric activation functions and standard neurons as support units for the optimization of trainable parameters in the parametric activation functions. This proposed neural network model has been called an artificial neural network with support neurons. In relation to parametric activation functions, two parametric functions were developed: AReLU and MPReLU, which are simplified versions of DPReLU. In addition, in this study, different configurations of artificial neural networks were implemented in order to compare the performance of the proposed scheme against the architecture of a conventional neural network. To interact with the proposed optimal model, the HAAF desktop application was developed. On the other hand, a dataset with 158 native Spanish speakers (122 men and 36 women) was used to train and evaluate the performance of the different conducted experiments. These recordings include various types of quality and environmental noise. The configuration that showed the best performance, in speaker identification tasks and in audio with ambient noise, was the artificial neural network model with support neurons and the use of the MPReLU activation function. This model achieved an accuracy of 98.68% and an F1 score of 98.28%. Finally, the results obtained reveal that support neurons are an effective processing unit for automatically optimizing internal parameters of artificial neural networks. Also, the use of parametric functions can help to perform modeling that is more in line with the behavior of the data, and it improves the robustness of the information modeling with noise.	en_US
dc.description.abstract	La biometría es una herramienta que permite identificar y autenticar personas por medio de rasgos biológicos que son irrepetibles en cada individuo. Esta herramienta ha permitido el desarrollo de aplicaciones de software y algoritmos inteligentes de procesamiento de voz en áreas como el análisis de información forense. Donde el objetivo de este campo de análisis es realizar la identificación de personas con fines de vigilancia y forenses. Sin embargo, los sistemas de procesamiento de voz aplicados en ambas áreas son poco confiables y precisos para analizar audios de baja calidad y con ruido ambiental. Por lo tanto, es necesario desarrollar nuevos modelos que sean más robustos en el procesamiento de este tipo de información para llevar a cabo tareas de identificación del hablante en escenarios criminales. A partir de la problemática mencionada, el objetivo de esta investigación es desarrollar un esquema de red neuronal artificial para tareas de identificación de locutor en entornos ruidosos y con propósitos forenses. Proporcionar este tipo de análisis de manera confiable servirá como apoyo adicional para reducir la cantidad de sentencias criminales incorrectas que son emitidas por el criminalista, juez y/o jurado en escenarios forenses. El esquema de red neuronal artificial propuesto utiliza funciones de activación paramétricas y neuronas estándar como unidades de soporte para la optimización de los parámetros entrenables de las funciones de activación. A este modelo de red neuronal se le ha llamado red neuronal artificial con neuronas de soporte. En relación con las funciones de activación paramétricas, se desarrollaron dos funciones con parámetros entrenables, AReLU y MPReLU, que son versiones simplificadas de DPReLU. Adicionalmente, en este estudio se implementaron diferentes configuraciones de redes neuronales artificiales con la finalidad de comparar el rendimiento del esquema propuesto contra la arquitectura de una red neuronal convencional. Para interactuar con el modelo óptimo presentado, se desarrolló la aplicación de escritorio HAAF. Por otra parte, se usó un conjunto de datos con 158 hablantes nativos del idioma español (122 hombres y 36 mujeres) para entrenar y evaluar el rendimiento de los diferentes experimentos. Estas grabaciones incluyen diversos tipos de calidad y ruidos ambientales. La configuración que demostró el mejor rendimiento, en las actividades de identificación de locutores y en audios con ruido ambiental, fue el modelo de red neuronal artificial con neuronas de soporte y el uso de la función de activación MPReLU. Este modelo alcanzó una exactitud del 98.68% y un puntaje F1 del 98.28%. Por último, los resultados obtenidos revelan que las neuronas de soporte son una unidad de procesamiento efectiva para optimizar de manera automática parámetros internos de las redes neuronales artificiales. También, el uso de funciones paramétricas puede ayudar a realizar un modelado más acorde al comportamiento de los datos, añadiendo robustez al modelado de información con ruido.	en_US
dc.language.iso	spa	en_US
dc.publisher	Universidad Autónoma de Zacatecas	en_US
dc.relation.isbasedon	Maestro en Ciencias del Procesamiento de la Información	en_US
dc.relation.uri	generalPublic	en_US
dc.rights	Attribution 3.0 United States	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/us/	*
dc.subject.classification	INGENIERIA Y TECNOLOGIA [7]	en_US
dc.subject.other	Identificación de locutor	en_US
dc.subject.other	redes neuronales artificiales	en_US
dc.subject.other	neuronas de soporte	en_US
dc.subject.other	funciones de activación paramétricas	en_US
dc.subject.other	procesamiento de voz	en_US
dc.title	Esquema de red neuronal artificial para tareas de identificación de locutor en entornos ruidosos y con fines forenses	en_US
dc.type	info:eu-repo/semantics/masterThesis	en_US