El reconocimiento de voz o
reconocimiento del habla es una asignatura pendiente en el mundo de la
tecnología. Décadas de investigación en el área nos han llevado a una
situación en la que está presente en todos los dispositivos y nadie la usa.
1. intr.
Articular con la debida distinción las vocales, consonantes y sílabas
de las palabras para hacer plenamente inteligible lo que se habla o se
canta.
Conviví durante años con un
vecino al que nunca entendía más allá del primer "hola". El barrio tenía
una importante afluencia de turistas y en ocasiones me ponía en el
lugar de un hipotético extranjero que tras años de estudio se enfrentara
con el cerrado acento de mi vecino para concluir que había malgastado su tiempo: no entendía nada de castellano.
El reconocimiento de caras
es una habilidad que compartimos con los monos desde hace más de 30
millones de años. Por contra, el reconocimiento de voz es una de las más
tardías adquisiciones del ser humano. Está ligada al lenguaje y
es inequívocamente humana. Y es también más complicada a juzgar por el
fracaso de la tecnología en implementarla, al contrario que el
reconocimiento facial.
Se trata de una habilidad con una gran variación individual.
Del mismo modo que pocos entendían a mi vecino, hay personas maestras
en hacerse entender. Por ejemplo las personas con responsabilidades
públicas como locutores de radio o TV y la mayoría de los políticos. Es
así mismo el caso de imitadores que pueden imitar otros acentos y voces.
Tampoco el acento de depende del idioma: quien habla bien uno, tiene
grandes posibilidades de hablar bien otros idiomas. Influye desde luego
el ruido ambiente y el estado de ánimo del hablante: cambia el acento si
está cansado o adormilado o excitado.
Algunas habilidades tienen ventanas de edad
de adquisición. En el caso del acento, hasta los 7 años se aprende sin
dificultad una segunda lengua. Es decir, un hablante nativo no
reconocerá a otro que haya aprendido la lengua antes de los 7 años. Por
el contrario, alguien que lleve toda la vida con nosotros y escriba a la
perfección nuestro idioma pero no lo haya aprendido en los primeros
años, será reconocido como extranjero a la primera frase. Pero el acento
es mucho más que estilo o quedar bien. Aprender bien el acento
significa que podemos entender bien a los hablantes de esa
lengua. Otras parcelas de la lengua como el vocabulario no tienen tal
ventana y pueden seguir mejorando durante años.
Todo lo cual ayuda a explicar por qué la tecnología fracasa en el reconocimiento del habla. Pero ¿es importante esta tecnología?
Desde
luego. Nuestro medio natural de comunicación no es el teclado ni el
ratón ni la pantalla por muy táctil que sea. Nos comunicamos
naturalmente por el habla. Y recordemos que en el mundo hay millones de analfabetos,
un gigantesco mercado potencial para las empresas. De modo que sería un
gran avance que los dispositivos tecnológicos puedan reconocer la voz. Y
lo intentan aunque con poco éxito. Windows XP con Office 2003 posee la
tecnología. Durante el entrenamiento se pide al hablante recitar algunos
textos:
Piense en las veces que ha oído un anuncio en un aeropuerto, estación de tren o estadio pero no ha sido capaz de comprender lo que decían. Ello es debido a varias razones: había mucho ruido, la persona no hablaba con cuidado o hablaba demasiado rápido, o el micrófono era de poca calidad o ajustado incorrectamente. Quizá dijeron algo inesperado.
El
resultado no puede ser menos alentador. Quizá admitiríamos un
porcentaje de aciertos del 95%. Desde luego el 80% no es válido ya que
obliga a revisar todo el trabajo. ¡Pero es que el resultado, con la
tecnología mencionada más arriba, no llegó al 10% de aciertos! (doy por
supuesto que versiones más modernas mejoraran el resultado) Mi móvil lo
hace mejor aunque es debido al hecho de que sólo tiene que reconocer
entre menos de un centenar de nombres, no entre las más de 80.000
palabras del idioma español. Como curiosidad, la función contraria, leer un texto (text
to speech con versiones gratuitas que se pueden descargar de la red)
funciona muy bien y con muy pocos recursos computacionales desde hace
años con la salvedad de que la voz sintetizada no suena natural (de
nuevo porque lo complicado es la finura de la articulación del sonido).
Quizá el ejemplo más significativo sea el de Watson, el ordenador de IBM más listo del mundo.
Watson ha implementado unas habilidades lingüísticas sin par que le han
permitido ganar en el quizshow americano Jeopardy a los mejores
concursantes de la historia del programa. Watson se expresa con una voz
sintetizada, pero no implementa reconocimiento del habla, sino que debe
recibir las preguntas como texto electrónico. IBM ya anunciado que
cambiará esto para sacar partido comercial a Watson lo que si no sería
un handicap.
Las aplicaciones más claras del reconocimiento de voz son el dictado y el control de comandos
(dar órdenes verbales a las máquinas). Su utilidad está reforzada en el
caso de analfabetos o discapacitados. En los últimos tiempos varias
aplicaciones de teleasistencia funcionan sin requerir el
entrenamiento, ya que "escuchan" a millones de hablantes, y reconocen
comandos de voz : números del DNI, fecha de nacimiento y órdenes como
"saldo" o "movimientos" aunque la más usada es la que ocurre si algo va
mal: "operador/a".
No obstante,
parece que las cosas están cambiando de la mano de los smartphones, los
nuevos móviles. Android de Google, Windows Phone 7 de Microsoft y iPhone
de Apple incorporan esta tecnología. Si bien Google no divulga cifras
concretas, una de cada cuatro
búsquedas en los dispositivos Android se hace ahora con la voz, y el
volumen de búsquedas en los teléfonos Android subió un 50 por ciento en
los primeros seis meses de 2010. Google espera que la mayoría de sus
negocios de Internet sean a través de los teléfonos inteligentes en el
futuro, así es que los servicios de voz de alta calidad son de
importancia crítica. Para ello, Google usa no solo los mecanismos
habituales de descifrado de voz sino el gigantesco potencial estadístico
de los más de 230 mil millones de búsquedas y los millones de acentos
de las personas que ya están usando búsquedas de voz, una estrategia
estadística que ha sido empleada en su traductor Google Translator. Una
aplicación de iPhone también permite el dictado. Pero como en el caso de
Google, no es el teléfono el que reconoce la voz: el mensaje de voz es
enviado a los servidores que realizan la tarea y devuelven un mensaje de
texto. Se trata de nuevo de comparar con las voces de millones de
usuarios y aprender de ellos.
De modo que quién sabe si en el futuro mi vecino irá equipado con un teléfono que haga más comprensible su acento.