Comparación de técnicas de parametrización espectral para reconocimiento de voz en idioma español

Soto Murillo, Manuel Alejandro

Comparación de técnicas de parametrización espectral para reconocimiento de voz en idioma español

Soto Murillo, Manuel Alejandro

URI: http://ricaxcan.uaz.edu.mx/jspui/handle/20.500.11845/1786

Fecha: 2018-03-09

Resumen:

El reconocimiento de voz es un área de investigación del procesamiento digital de señales con un amplio campo de aplicaciones en diversos sistemas y dispositivos electrónicos, en los que la interacción humano-máquina es deseable o indispensable mediante comandos de voz. La correcta caracterización de la señal de voz y la elección del método adecuado que modele los coeficientes obtenidos en la etapa de extracción de características es esencial para obtener una tasa de reconocimiento significativa. En el presente trabajo, se realizó una comparación de dos técnicas clásicas de parametrización en la etapa de caracterización de la señal de voz; Codificación Predictiva Lineal (LPC) y Coeficientes Cepstrales de Frecuencias Mel (MFCC). Se realizaron diferentes pruebas de estas técnicas con el fin de encontrar la configuración que brinde la mayor tasa de reconocimiento y el menor consumo de recursos (tiempo y cálculo). Se usaron dos frecuencias de muestreo (8 y 16kHz) y se varió el número de coeficientes (8-12 para 8kHz y 16-24 para 16kHz) que caracterizaron a la señal de voz. En la etapa de modelado se hizo uso de la técnica Modelos Ocultos de Markov (HMM). En los resultados se resalta que la técnica de extracción MFCC presentó una tasa de reconocimiento superior que la técnica LPC para la misma frecuencia de muestreo y con el mismo número de coeficientes.

Mostrar el registro completo del ítem