Repositorio Dspace

Esquema de red neuronal artificial para tareas de identificación de locutor en entornos ruidosos y con fines forenses

Mostrar el registro sencillo del ítem

dc.contributor 31249 en_US
dc.contributor.advisor José Ismael de la Rosa Vargas en_US
dc.contributor.advisor Aldonso Becerra Sánchez en_US
dc.contributor.advisor José de Jesús Villa Hernández en_US
dc.contributor.author Efrén González Ramírez en_US
dc.contributor.author Gamaliel Moreno Chávez en_US
dc.contributor.other https://orcid.org/0000-0002-7337-8974 en_US
dc.coverage.spatial Global en_US
dc.creator Rodarte Rodríguez, Armando
dc.date.accessioned 2023-10-30T19:06:14Z
dc.date.available 2023-10-30T19:06:14Z
dc.date.issued 2023-10-26
dc.identifier info:eu-repo/semantics/acceptedVersion en_US
dc.identifier.uri http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/3432
dc.identifier.uri http://dx.doi.org/10.48779/ricaxcan-263
dc.description Biometrics is a tool that allows to identify and authenticate people through biological characteristics that are unique to each individual. This tool has allowed the development of software applications and intelligent voice processing algorithms in fields such as forensic information analysis. Where the goal of this field of analysis is to identify people for surveillance and forensic purposes. However, the voice processing systems applied in both areas are not very reliable or accurate for analyzing low-quality audio and with environmental noise. Therefore, it is necessary to develop new models more robust in processing this type of information to carry out speaker identification tasks in criminal scenarios. Based on the problem mentioned above, the objective of this research is to develop an artificial neural network scheme for speaker identification tasks in noisy environments and for forensic purposes. Providing this type of analysis reliably will serve as additional support to reduce the issuance of incorrect criminal sentences issued by the criminalist, judge, and/or jury in forensic scenarios. The proposed artificial neural network scheme uses parametric activation functions and standard neurons as support units for the optimization of trainable parameters in the parametric activation functions. This proposed neural network model has been called an artificial neural network with support neurons. In relation to parametric activation functions, two parametric functions were developed: AReLU and MPReLU, which are simplified versions of DPReLU. In addition, in this study, different configurations of artificial neural networks were implemented in order to compare the performance of the proposed scheme against the architecture of a conventional neural network. To interact with the proposed optimal model, the HAAF desktop application was developed. On the other hand, a dataset with 158 native Spanish speakers (122 men and 36 women) was used to train and evaluate the performance of the different conducted experiments. These recordings include various types of quality and environmental noise. The configuration that showed the best performance, in speaker identification tasks and in audio with ambient noise, was the artificial neural network model with support neurons and the use of the MPReLU activation function. This model achieved an accuracy of 98.68% and an F1 score of 98.28%. Finally, the results obtained reveal that support neurons are an effective processing unit for automatically optimizing internal parameters of artificial neural networks. Also, the use of parametric functions can help to perform modeling that is more in line with the behavior of the data, and it improves the robustness of the information modeling with noise. en_US
dc.description.abstract La biometría es una herramienta que permite identificar y autenticar personas por medio de rasgos biológicos que son irrepetibles en cada individuo. Esta herramienta ha permitido el desarrollo de aplicaciones de software y algoritmos inteligentes de procesamiento de voz en áreas como el análisis de información forense. Donde el objetivo de este campo de análisis es realizar la identificación de personas con fines de vigilancia y forenses. Sin embargo, los sistemas de procesamiento de voz aplicados en ambas áreas son poco confiables y precisos para analizar audios de baja calidad y con ruido ambiental. Por lo tanto, es necesario desarrollar nuevos modelos que sean más robustos en el procesamiento de este tipo de información para llevar a cabo tareas de identificación del hablante en escenarios criminales. A partir de la problemática mencionada, el objetivo de esta investigación es desarrollar un esquema de red neuronal artificial para tareas de identificación de locutor en entornos ruidosos y con propósitos forenses. Proporcionar este tipo de análisis de manera confiable servirá como apoyo adicional para reducir la cantidad de sentencias criminales incorrectas que son emitidas por el criminalista, juez y/o jurado en escenarios forenses. El esquema de red neuronal artificial propuesto utiliza funciones de activación paramétricas y neuronas estándar como unidades de soporte para la optimización de los parámetros entrenables de las funciones de activación. A este modelo de red neuronal se le ha llamado red neuronal artificial con neuronas de soporte. En relación con las funciones de activación paramétricas, se desarrollaron dos funciones con parámetros entrenables, AReLU y MPReLU, que son versiones simplificadas de DPReLU. Adicionalmente, en este estudio se implementaron diferentes configuraciones de redes neuronales artificiales con la finalidad de comparar el rendimiento del esquema propuesto contra la arquitectura de una red neuronal convencional. Para interactuar con el modelo óptimo presentado, se desarrolló la aplicación de escritorio HAAF. Por otra parte, se usó un conjunto de datos con 158 hablantes nativos del idioma español (122 hombres y 36 mujeres) para entrenar y evaluar el rendimiento de los diferentes experimentos. Estas grabaciones incluyen diversos tipos de calidad y ruidos ambientales. La configuración que demostró el mejor rendimiento, en las actividades de identificación de locutores y en audios con ruido ambiental, fue el modelo de red neuronal artificial con neuronas de soporte y el uso de la función de activación MPReLU. Este modelo alcanzó una exactitud del 98.68% y un puntaje F1 del 98.28%. Por último, los resultados obtenidos revelan que las neuronas de soporte son una unidad de procesamiento efectiva para optimizar de manera automática parámetros internos de las redes neuronales artificiales. También, el uso de funciones paramétricas puede ayudar a realizar un modelado más acorde al comportamiento de los datos, añadiendo robustez al modelado de información con ruido. en_US
dc.language.iso spa en_US
dc.publisher Universidad Autónoma de Zacatecas en_US
dc.relation.isbasedon Maestro en Ciencias del Procesamiento de la Información en_US
dc.relation.uri generalPublic en_US
dc.rights Attribution 3.0 United States *
dc.rights.uri http://creativecommons.org/licenses/by/3.0/us/ *
dc.subject.classification INGENIERIA Y TECNOLOGIA [7] en_US
dc.subject.other Identificación de locutor en_US
dc.subject.other redes neuronales artificiales en_US
dc.subject.other neuronas de soporte en_US
dc.subject.other funciones de activación paramétricas en_US
dc.subject.other procesamiento de voz en_US
dc.title Esquema de red neuronal artificial para tareas de identificación de locutor en entornos ruidosos y con fines forenses en_US
dc.type info:eu-repo/semantics/masterThesis en_US


Ficheros en el ítem

El ítem tiene asociados los siguientes ficheros de licencia:

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution 3.0 United States Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution 3.0 United States

Buscar en DSpace


Búsqueda avanzada

Listar

Mi cuenta

Estadísticas