El reconocimiento por voz o parlante, es una modalidad biométrica que utiliza la voz de un individuo con fines de reconocimiento. (Difiere de la tecnología del «reconocimiento de discurso», que reconoce las palabras a medida que van siendo articuladas, este no es un dispositivo biométrico). El proceso de reconocimiento de voz depende de las características de la estructura física del tracto vocal de un individuo así como también de sus características de comportamiento.
El reconocimiento por voz es una elección popular de reconocimiento biométrico remoto, dada la disponibilidad de dispositivos para tomar las muestras de voz (por ejemplo: la red telefónica y los micrófonos de las computadoras) y su facilidad de integración. El reconocimiento del orador, es una tecnología biométrica distinta de otras en las que la muestra de discurso es tomada dinámicamente o en el lapso de un periodo de tiempo determinado, como pueden ser algunos segundos. El análisis ocurre en un modelo en el que los cambios a lo largo del tiempo son monitoreados, lo que es similar a otros dispositivos biométricos que contemplan el comportamiento, como pueden ser: la firma dinámica, el reconocimiento de la forma de andar, y el reconocimiento por el ritmo de las pulsaciones en un teclado.
Historia
La verificación del orador, ha evolucionado a la par que las tecnologías de reconocimiento de voz y de síntesis de discurso dado las similares características y desafíos que cada una conlleva. En 1960, Gunnar Fant, un profesor sueco publicó un modelo que describía los componentes psicológicos de la producción de habla acústica, basado en el análisis de rayos x de individuos produciendo sonidos fónicos específicos. En 1970, el Dr. Joseph Perkell utilizo rayos x en movimiento e incorporó la lengua y quijada para expandir el modelo de Fant. Los sistemas de reconocimiento de discurso originales utilizaban el resultado promedio de varios filtros analógicos para buscar coincidencias, muchas veces con la ayuda de humanos en el camino. En 1976, Texas Instruments construyó un sistema de prototipo que fue testeado por la Fuerza Aérea de los Estados Unidos y la Corporación MITRE. A mediados de los 80s, el Instituto Nacional de Estándares y Tecnología (NIST) desarrolló el Grupo de Discurso NIST para estudiar y promover el uso de técnicas de procesamiento de discurso. Desde 1996, bajo la creación de la Agencia Nacional de Seguridad (NSA), el Grupo de Discurso de NIST ha llevado a cabo evaluaciones anuales, el Workshop de Evaluación de Reconocimiento de Voz, para fomentar el continuo avance de la comunidad de reconocimiento de voz.
Acercamiento
El componente psicológico del reconocimiento de voz está relacionado con la forma física del tracto vocal de un individuo, que consiste de una vía respiratoria y cavidades de tejido blando de donde se originan los sonidos vocales. Para producir discurso, estos componentes trabajan en combinación con los movimientos físicos de la quijada, lengua, laringe y las resonancias de los pasajes nasales. Las características acústicas del habla provienen de los atributos físicos de las vías respiratorias. El movimiento de la boca y de las pronunciaciones son los componentes de comportamiento de este dispositivo biométrico, que es el reconocimiento por voz.
Hay dos formas de reconocimiento por voz: una dependiente del texto (modo limitado) y otro independiente del texto (modo ilimitado). En un sistema que utiliza discurso dependiente del texto, el individuo presenta una frase fija (contraseña) o una frase programada dentro del sistema («Por favor diga los números: 33-54-63») que mejora la performance especialmente con usuarios que cooperan. Un sistema independiente del texto no posee ningún conocimiento a priori del fraseo de quien se presenta y es mucho más flexible en situaciones en las que el individuo que está dando la muestra no está al tanto de la toma o que no desee cooperar, lo que presenta un desafío aun mas difícil.
Las muestras de voz son ondas donde la variable del tiempo se ubica en el vector horizontal y la de volumen en el vertical. El sistema de reconocimiento de quien habla analiza el contenido de frecuencia del discurso y compara las características de calidad, duración, intensidad, dinámica y tono de la señal.
En los sistemas dependientes del texto, durante la toma o fase de inscripción, el individuo pronuncia una palabra corta o frase (sentencia), capturada típicamente por un micrófono que puede tan simple como el de un teléfono. La muestra de voz se convierte desde un formato analógico a uno digital, las características de la voz del individuo se extraen, luego se crea un modelo. La mayoría de los sistemas de verificación de quien habla dependientes del texto utilizan el concepto de Modelos Markov Ocultos (HMMs), que son modelos azarosos que proveen de una representación estadística de los sonidos producidos por el individuo. El HMM representa las variaciones subyacentes y los cambios temporales a lo largo del tiempo en los estados del discurso utilizando las características de calidad, duración, intensidad de la dinámica y tono, mencionadas anteriormente. Otro método es el del Modelo de Mixtura Gaussian, un mapeo de estado relacionado a HMM, que es utilizado frecuentemente para aplicaciones ilimitadas independientes del texto. Como el HMM este método utiliza la voz para crear un número de vectores de estado que representan las variaciones de las formas del sonido, que son características de la fisiología y el comportamiento de un individuo.
Todos estos métodos comparan las diferencias y similitudes entre las entradas de voz y los tipos y estados de voz almacenados para producir una decisión de coincidencia.
Luego de la inscripción, durante la fase de reconocimiento, las mismas características de calidad, duración, volumen y tono son extraídas de la muestra tomada y comparadas con el modelo de la identidad, o hipotética identidad, y con otros modelos de otras voces. Los modelos de otras voces (o «antivoces») contienen los estados de una gran variedad de individuos, excluyendo el modelo de la identidad, o hipotética identidad, que se está buscando. La muestra de la voz o la inscripción de sus modelos son comparados para producir un «radio de similitud», indicando la similitud por la que la muestra ingresada correspondería a la identidad buscada, o supuestamente buscada. Si la voz ingresada pertenece a la identidad proclamada, el puntaje va a reflejar que la muestra presenta mayores similitudes con la identidad proclamada que con el modelo «antivoz».
La fácil implementación del reconocimiento por voz contribuye con su mayor debilidad: la susceptibilidad al canal de transmisión y a las variaciones del micrófono y su ruido. Los sistemas también pueden enfrentar problemas cuando los usuarios han ingresado una muestra en una línea fija limpia e intentan la verificación contra una muestra tomada de una línea celular con ruido. La incapacidad de controlar los factores que afectan a las entradas puede disminuir la performance significativamente. Los sistemas de verificación de voz, exceptuando a los que utilizan frases dadas, también son susceptibles de ataques por spoofing a través de la utilización de una voz grabada. Se están tomando medidas anti-spoofing que requieren la repetición de una palabra o frase al azar, para subsanar esta desventaja. Por ejemplo, un sistema podría solicitar la repetición de una frase generada al azar, como ser: «33-54-63», para prevenir el ataque de una muestra grabación tomada previamente. El usuario no puede anticipar la selección azarosa de la frase y por lo tanto no puede intentar con éxito un «playback» de ataque por spoofing en el sistema.
Las investigaciones actuales en el área de reconocimiento de voz independiente del texto están concentradas mayormente en mover mas allá el nivel bajo de de análisis espectral. Aunque el espectro de información sigue siendo la fuerza detrás del reconocimiento, la fusión de características de alto nivel con la información de bajo nivel de espectro se esta convirtiendo en una técnica muy popular en los laboratorios (algunas características de alto nivel incluyen: funciones prosódicas como el ritmo, la velocidad, la modulación y entonación, tipos de personalidad e influencia parental, semántica, idiolectos, pronunciaciones e idiosincrasias, relaciones con el lugar de nacimiento, estatus socio-económico, nivel de educación).
Características de alto nivel pueden ser combinadas con la información del espectro del subyacente bajo nivel para mejor la performance de los sistemas de reconocimiento de voz independientes del texto.
Resumen
Gracias al compromiso de los investigadores y al apoyo de NSA y NIST, el reconocimiento por voz continuará evolucionando a medida que la comunicación y las tecnologías de computación también lo hagan. Su determinación ayudará al posterior desarrollo de tecnologías confiables y consistentes como medio de identificación para la utilización en el reconocimiento remoto.