Correlación solo de fase limitada en banda y uso de coeficientes cepstrales inversos: aplicación en reconocimiento de voz y bioacústica

Pedroza Ramírez, Ángel David

Correlación solo de fase limitada en banda y uso de coeficientes cepstrales inversos: aplicación en reconocimiento de voz y bioacústica

Pedroza Ramírez, Ángel David

URI: http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/2330

Fecha: 2019-09-01

Resumen:

El procesamiento digital de señales consiste en la aplicación de distintas operaciones matemáticas a una cierta información bajo análisis. Debido a su estrecha relación con otras ciencias, el procesamiento de señales conforma la base de otras áreas de investigación como el reconocimiento automático de voz y la bioacústica. El procesamiento de señales en este contexto conforma una herramienta de solución para diversas problemáticas. Una de las que más relevancia tiene es el denominado: Cambio climático. En este contexto, las aves juegan un rol fundamental y por tanto la conservación e identificación de las especies de aves es de suma importancia. A pesar de que el reconocimiento de voz provee de soluciones para sistemas concretos en bioacústica, algunas de las técnicas utilizadas fallan en la capacidad de reconocimiento en ambientes naturales.Tomando en cuenta lo anterior, dado que el procesamiento de señales es una herramienta de solución en diversos contextos y tomando en cuenta que algunas especies de aves poseen patrones acústicos, entonces es posible el desarrollo de una nueva metodología en reconocimiento de voz que luego puede ser extrapolada como parte del diseño de un nuevo sistema de reconocimiento automático para la identificación de aves (para algunas especies específicas) e individuos, con una eficiencia de reconocimiento por encima del 70%. En la primera fase de investigación fue propuesto una adaptación de la función BLPOC (correlación solo de fase limitada en banda) para la verificación automática de hablantes con datos limitados. Luego de las pruebas, la función BLPOC mostró ser también un método efectivo para un sistema de verificación de hablantes bajo la condición de datos limitados. Tomando como base estos resultados, en la segunda fase se propuso una nueva técnica para la identificación individual de aves mediante la función BLPOC. De las pruebas de desempeño se puede concluir que este es un método eficiente para la identificación de individuos de especies. En esta segunda fase se propuso un método adicional de clasificación automática de especies de aves basado en la extracción de las características IMFCC (coeficientes cepstrales inversos en la frecuencia mel ) de las vocalizaciones. De los resultados obtenidos se concluye que la información acústica de las vocalizaciones de aves en las altas frecuencias (capturadas por los IMFCC’s) es tan significativa como la información acústica en las bajas frecuencias (capturadas por los MFCC´s) para la clasificación de aves a través de vocalizaciones.

Descripción:

Digital signal processing is the application of mathematical operations to a piece of certain information. Because of its close relationship with other sciences, signal processing is the base of other science methodologies: automatic speech recognition and bioacoustics. Digital signal processing in this context is a solution tool. One of the most urgent problems is climate change. In this context, birds play a significant role where their identification and conservation are essential tasks. Even though automatic speech recognition provides specific solutions in bioacoustics, some of the traditional techniques fail in the capability of real field recognition. Since digital signal processing is a solution tool in a few contexts and bird species have acoustic patterns, it is possible to develop a new methodology in automatic speech recognition applied for recognition of species and individuals of birds (proposed efficiency over 70%). On the first phase of this research was to propose a new method for the speaker verification under limited data using the BLPOC function. After experiments, the BLPOC function confirmed to be an effective method. Taking these results into account, in the second phase a new technique for the individual identification of birds using the BLPOC function was proposed. The experiments confirmed that the BLPOC function is also an effective method for the individual identification of birds. Finally, in the same phase, another method for the automatic classification of species based on the IMFCC features was offered. Experiments conclude that the acoustic information of vocalizations in the high frequencies (captured by the IMFCC features) is as significant as the information in the low frequencies (captured by the traditional MFCC features).

Mostrar el registro completo del ítem