Resumen:
El reconocimiento de voz es un área de investigación del procesamiento digital de señales con
un amplio campo de aplicaciones en diversos sistemas y dispositivos electrónicos, en los que
la interacción humano-máquina es deseable o indispensable mediante comandos de voz. La
correcta caracterización de la señal de voz y la elección del método adecuado que modele
los coeficientes obtenidos en la etapa de extracción de características es esencial para obtener
una tasa de reconocimiento significativa. En el presente trabajo, se realizó una comparación
de dos técnicas clásicas de parametrización en la etapa de caracterización de la señal de voz;
Codificación Predictiva Lineal (LPC) y Coeficientes Cepstrales de Frecuencias Mel (MFCC).
Se realizaron diferentes pruebas de estas técnicas con el fin de encontrar la configuración que
brinde la mayor tasa de reconocimiento y el menor consumo de recursos (tiempo y cálculo).
Se usaron dos frecuencias de muestreo (8 y 16kHz) y se varió el número de coeficientes (8-12
para 8kHz y 16-24 para 16kHz) que caracterizaron a la señal de voz. En la etapa de modelado
se hizo uso de la técnica Modelos Ocultos de Markov (HMM). En los resultados se resalta que
la técnica de extracción MFCC presentó una tasa de reconocimiento superior que la técnica
LPC para la misma frecuencia de muestreo y con el mismo número de coeficientes.