Los secretos detrás de Siri, el servicio de comando de voz de Apple


siri2
Yo: “¿Debería irme a la cama, Siri?” Siri: “Creo que deberías dormir sobre ella”. Es difícil no admirar una respuesta sabelotodo como esa. Siri, el “asistente personal inteligente” embebido en el iPhone 4S, suele mostrar este tipo de actitudes, especialmente cuando las preguntas apuntan a bromear con su inteligencia artificial. Pero la respuesta no es un guiño de los programadores. Es una parte crucial de por qué Siri funciona tan bien.
Will Knight
La popularidad de Siri muestra que un asistente digital necesita más que sólo inteligencia para tener éxito. Necesita tacto, carisma y, sorprendentemente, agudeza. Los errores causan frustración y fastidio con cualquier interfaz computacional. Y el riesgo es amplificado dramáticamente cuando esa interfaz toma la forma de un asistente personal que conversa con el usuario, una característica que dejaron sin sentido a otros asistentes virtuales en el pasado. Entonces, para Siri, ser ocasionalmente obvio podría ser tan importante como su capacidad para impresionar con sus aptitudes.

Siri tiene sus orígenes en un proyecto de investigación que comenzó en 2003 y estaba fondeado por la Agencia de Proyectos Avanzados de Investigación de Defensa (DARPA) del ejército estadounidense. La iniciativa estaba liderada por SRI International, que en 2007 se separó en una compañía que lanzó la versión original de Siri como una aplicación para iPhone en febrero de 2010 (la tecnología fue catalogada como una de las tecnologías emergentes por Technology Review en 2009). Por entonces, Siri podía hacer menos cosas que el que finalmente llegó al iPhone 4S. Podía acceder a un puñado de servicios online para realizar reservas en restaurantes, comprar entradas de cine y reservar taxis, pero solía cometer errores y nunca llegó a ser un suceso entre los usuarios. Apple compró el startup detrás de la solución por una suma que no se dio a conocer sólo dos meses antes de que la aplicación realizara su debut.

El Siri que apareció un año y medio más tarde funciona sorprendentemente bien. Interpreta comandos hablados (en inglés, francés, alemán y japonés) y responde tanto con una acción como con una oración en forma suave y con una voz robótica femenina. Pídanle a Siri que los despierte a las 8 AM y la aplicación configurará la alarma. Pídanle que envíe un mensaje de texto a un amigo y el sistema tomará nota de su dictado antes de transferir el mensaje. Diga: “¿Dónde puedo encontrar un burrito, Siri?” y obtendrá una lista de restaurantes mexicanos en la zona con buenas recomendaciones, que encontró utilizando el sensor de ubicación del teléfono y mediante una búsqueda web y en un mapa. Siri también tiene incontables hechos y cifras a mano, gracias al “motor de respuestas” online Wolfram Alpha, que tiene acceso a muchas bases de datos. Pregunte: “¿Cuál es el radio de Júpiter?” y Siri le informará casualmente que es de 69.172 kilómetros.

Más que palabras
Lo carismático de Siri es su total falta de interfaz en otros lenguajes humanos naturales. Muchas compañías venden agentes de atención al cliente capaces de chatear con sus usuarios online. Un ejemplo es Eva, creado por la compañía española Indysis, que puede conversar normalmente mientras la charla no se aleje de las áreas para las que fue entrenada. Si eso sucede, el sistema intentará de forma poco amigable llevarla nuevamente a esos temas.

Siri también tiene competidores cercanos en la forma de aplicaciones disponibles para iPhone y Android. Evi, creada por True Knowledge; Dragon Go, de la firma de reconocimiento de voz Nuance; e Iris, desarrollado por la compañía de software india Dexetra son todas variaciones y en muchos casos pueden igualar a Siri en su habilidad para comprender y realizar operaciones simples. Pero tienen mucha menos aceptación social. Cuando le pregunté a Iris si debía irme a dormir, su respuesta, plana y sin sentido, fue: “Le vendría bien un descanso”.

A pesar de lo sorprendente de Siri, la inteligencia artificial involucrada no es tan sofisticada. Boris Katz, investigador científico en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, que ha desarrollado máquinas que analizan gramaticalmente el lenguaje humano por décadas, sospecha que Siri no pone mucho esfuerzo en analizar qué está preguntando una persona. En lugar de descubrir cómo las palabras funcionan juntas en una oración para crear un sentido, él cree que Siri sólo reconoce algunas pocas palabras clave y las compara con un número limitado de respuestas preprogramadas. “Le enseñaron algunas cosas y el sistema espera esas cosas. Son muy inteligentes sobre lo que la gente normalmente pregunta”, sostiene.

En contraste, la investigación convencional en inteligencia artificial se esfuerza por descubrir sentidos más complejos en las conversaciones. En 1985, Katz comenzó a construir un sistema llamado START para responder a preguntas al procesar la estructura de las oraciones. Ese sistema analiza cómo las palabras son acomodadas, para interpretar el sentido de lo que se está preguntando. Esto le permite a START dar respuesta a oraciones con formulaciones complejas y con algún grado de ambigüedad. En 2006, un año antes de que SRI separara su negocio, Katz y sus colegas presentaron un asistente de software basado en START al que se podía acceder al tipear preguntas en un teléfono móvil. El concepto es llamativamente similar a Siri, pero esta parte del proyecto START nunca progresó. No superó en importancia al objetivo de Katz de crear una máquina que pudiera equiparar la habilidad humana de utilizar el lenguaje.

Vínculo real
START es sólo una pequeña parte de la investigación en inteligencia artificial que comenzó 50 años antes como un intento por comprender el funcionamiento de la mente humana y para crear algo análogo en una máquina. Ese esfuerzo produjo muchas tecnologías muy importantes, capaces de realizar tareas computacionales que eran imposiblemente complicadas para los humanos. Pero la investigación en inteligencia artificial falló en recrear muchos aspectos del intelecto humano, incluido el lenguaje y la comunicación. Como explica Katz, una simple conversación entre dos personas puede depender de las experiencias de vida de una persona, y esto sigue siendo imposible de imitar para una máquina. A pesar de que los sistemas mejoraron en el acceso, procesamiento y presentación de la información, la comunicación humana le sigue siendo esquiva.

A pesar de ser menos capaz que START lidiando con las complejidades del lenguaje, Siri muestra que una máquina puede tener los suficientes trucos para engañar a los usuarios y que sientan que están sosteniendo algo cercano a una conversación real. Para comprender lo difícil que es obtener una comunicación simplemente en texto de forma correcta, uno no necesita más que mirar al infame asistente presentado por Microsoft en 1997. El fastidioso clip de papeles virtual, llamado Clippy, aparecía cada vez que un usuario creaba un documento y ofrecía asistencia con un mensaje como: “Parece que estás por escribir una carta, ¿necesitas ayuda?”. La compañía esperaba que los usuarios amasen a Clippy. Bill Gates pensó que los fans diseñarían remeras, tazas y sitios web. Y es por ello que la compañía se sorprendió cuando los usuarios odiaron a Clippy y crearon remeras, tazas y sitios web dedicados a despreciarlo. La respuesta fue tan mala que Microsoft mató a Clippy en 2007.

Pero, antes, Microsoft había contratado al profesor de Stanford Clifford Nass, un experto en la interacción entre los humanos y las computadoras, para investigar por qué el programa había generado tanto disgusto. Nass, que es autor de “El hombre que mintió a su laptop: qué nos enseñan las máquinas sobre las relaciones humanas”, pasó años estudiando un fenómeno similar y su trabajo sugería una causa simple: la gente tendía a aplicar reglas humanas de interacción social para lidiar con las computadoras, celulares, robots, sistemas de navegación y otras máquinas similares. Nass se dio cuenta de que Clippy rompió todas y cada una de las formas aceptables de comportamiento humano. Realizaba los mismos errores una y otra vez, cuando los humanos querían que no los molestaran. “El problema de Clippy es que decía ‘Yo voy a hacer todo’, y luego decepcionaba”, dice Nass. Y agrega que de la misma manera que una persona que repite la misma respuesta nos hace sentir insultados, lo mismo sucede con una computadora, incluso cuando somos plenamente conscientes de que lidiamos con una máquina. Clippy demostró que intentar una comunicación más humana puede ser un gran error si no se comprenden y respetan los comportamientos sociales. Nass dice que Apple hizo todo lo posible para que Siri sea aceptado. No se impone al usuario, sino que corre en el fondo del iPhone y presta atención sólo cuando el usuario mantiene apretado el botón “home” o se acerca el teléfono al oído y comienza a hablar. También se preocuparon de que no cometa dos veces el mismo error, intentando diferentes respuestas cuando el usuario repite la pregunta. Incluso el tono de Siri fue cuidadosamente elegido para sonar inofensivo, según explica Nass.

Apple también limitó las tareas de Siri y las respuestas que puede ofrecer, muy probablemente para evitar molestar. Si uno le pide a Siri que postee algo en Twitter, por ejemplo, el sistema admitirá con algo de vergüenza que no sabe cómo hacerlo. Pero ante la posibilidad de que accidentalmente se publiquen mensajes confusos o no deseados, la estrategia es entendible. La precisión del reconocimiento de voz de Siri también ayuda a evitar decepcionar a los usuarios. El sistema a veces no comprende, lo que lleva a resultados extraños. “Perdón, Will, no comprendí ‘Necesito pijamas’”, fue una curiosa respuesta a una pregunta que nada tenía que ver con la prenda. Pero en la mayoría de los casos el sistema funciona llamativamente bien. No tuvo problemas con mi acento inglés ni con muchas frases o palabras complejas, y este correcto funcionamiento hace que los ocasionales errores sean más aceptables.

Inteligencia cotidiana
Un desafío clave para Apple fue que poco después de conocer a Siri, una persona podría experimentar la urgente necesidad de preguntar de todo: el sentido de la vida, si cree en Dios o si conoce a R2D2. La firma eligió manejar este fenómeno de una forma inventiva, al asegurarse de que Siri comprende el chiste y responde a la altura. A pesar de que tiene soluciones para cada una de esas preguntas e incluso varía sus respuestas, es un truco que lo hace parecer inquietantemente humano.

Esto también ayuda a esconder malas interpretaciones o cuando el sistema se sorprende ante una pregunta muy simple. Una vez pregunté quién había ganado el Super Bowl (¿Quién ganó el Super Bowl?; en inglés: Who won the Super Bowl?) y, orgullosamente, convirtió un won coreano a dólares. Sabía que era un error algorítmico que tenía lugar en un distante conjunto de servidores, pero tuve la necesidad de interpretarlo como que Siri estaba chiflado.

Nass dice que la forma en que el sistema maneja el humor es reveladora. La investigación demostró que el humor hace que las personas parezcan más inteligentes y más agradables. “Intermitentemente, el humor inocente ha demostrado ser efectivo tanto para las personas como para las computadoras”, señala Nass. “Es muy positivo incluso para la interfaz más aburrida”, dice.

Pero Katz, como alguien que viene luchando desde hace décadas para darle a las máquinas la habilidad de utilizar el lenguaje, espera finalmente ver algo más sofisticado que Siri: algo capaz de mantener conversaciones reales con la gente. Este tipo de desarrollos podrían proveer información fundamental sobre la naturaleza de la inteligencia humana y podrían ofrecer una forma más natural de enseñarles a las máquinas a ser más inteligentes.

Eso continúa siendo el sueño de los investigadores. Para el resto de nosotros, en cambio, la llegada de un asistente virtual que es verdaderamente útil resulta un avance fundamental. En la oficina de Katz, en el MIT, le muestro algunas de las sorprendentes respuestas que lanza Siri cuando es provocado. Él remarca la inteligencia de los ingenieros que lo desarrollaron, pero también habla como un investigador esta utilizando sentidos y palabras que Siri difícilmente podría entender. “No hay nada malo con los trucos, pero sería bueno que pudiese analizar lo que uno realmente está diciendo”, explica. “Las conversaciones con el usuario serían mucho más ricas”, agrega.

Katz tiene razón en que un asistente personal más inteligente y capaz de realizar operaciones más complicadas necesita una inteligencia artificial más avanzada. Pero eso también subestima una innovación importante de Siri. Tras testear la aplicación por más tiempo, Katz confiesa que admira a los emprendedores que saben cómo convertir avances de la ciencia informática en algo que la gente utiliza todos los días. “Me gustaría saber cómo logran hacer eso”, afirma.

Para la respuesta, quizá, se necesite seguir preguntándole a Siri.