¿Quién ha enseñado a hablar a Siri?

Las máquinas aprenden a comunicarse a base de ejemplos y se apoyan en la probabilidad

Madrid

Lunes, 12 de octubre 2020, 00:28

Comenta

¿Se ha preguntado alguna vez cómo es posible que Siri le entienda cuando le pide que llame a alguien? ¿Y que Alexa sepa ponerle esa serie que tanto le gusta? ¿Por qué cada vez que llama a su compañía telefónica le contesta un robot que intenta solucionar su incidencia? ¿Quién les ha enseñado a estas máquinas a entender lo que decimos? ¿Y a saber cómo contestarnos?

Cuando hablamos de tecnología pensamos en informáticos, ingenieros o matemáticos, pero raro es aquel que visualiza a un lingüista, un traductor o un filólogo. La realidad, sin embargo, es que son estos últimos los encargados del Procesamiento del Lenguaje Natural (PLN), es decir, del campo de conocimiento de la Inteligencia Artificial (IA) que se ocupa de investigar la manera de enseñar a las máquinas a comunicarse correctamente con los humanos según las reglas lingüísticas de cada idioma.

¿Cómo lo hacen? Partiendo de unos 'corpus' o colección de textos codificados electrónicamente que incluyen ejemplos. «Una máquina tiene una capacidad de aprendizaje enorme, pero de base no sabe absolutamente nada. Tienes que definir todo aquello que quieres que conozca, desde qué es un humano hasta para qué sirve un lápiz, decirle con qué otros términos suelen relacionarse y darle ejemplos donde aparecen esas palabras en su contexto», explica Marta Guerrero, lingüista computacional y coordinadora del equipo de lingüistas computacionales del Instituto de Ingeniería del Conocimiento (IIC), un centro de I+D+i especializado en Inteligencia Artificial y Big Data.

Por ejemplo, si quiero que mi asistente virtual sepa de qué le hablo cuando le pido que me ponga una serie, primero le tengo que enseñar qué significa esa palabra, en qué se diferencia una serie de otros productos similares (películas, cortometrajes...) o los nombres de las series que quiero que conozca, entre otros. Pero no solo eso. El lingüista computacional también debe determinar cuáles son las formas posibles y más habituales de referirse a una serie como «quiero ver...», «ponme...» y enseñárselas.

Además, si queremos que el sistema entienda lo que le dice un español y un mexicano, habrá que darle ejemplos de cómo hablan y qué expresiones utilizan unos y otros. Lo mismo que si queremos que comprenda otro idioma.

También hay que explicarle otras variables como que existen distintos tonos de voz (femenina, masculina, adulta, infantil), multitud de acentos, anglicismos que utilizan hispanohablantes o palabras con significados diferentes, entre otros.

Todos estos datos permiten a la máquina aprender aquello que es más probable que digamos. Así, las posibilidades de que se equivoquen se reducen, aunque no se eliminan. De hecho, existe cierta polémica con el sesgo machista de estas herramientas, pero «no es problema de las máquinas, sino de los datos de los que se dispone», destaca Nuria Bel, catedrática del Departamento de Traducción y Ciencias del Lenguaje de la Universidad Pompeu Fabra de Barcelona. Es decir, no es frecuente que un sistema entienda la frase «María es una médica excelente», sustantivo aceptado actualmente en su voz femenina para referirse a una mujer, porque lo más habitual es decir «María es un médico excelente».

El problema es que la obtención de datos es una tarea compleja, ahora más que nunca con la Ley Orgánica de Protección de Datos en vigor. «Por eso las empresas buscan lingüistas. Son ágiles pensando ejemplos y controlan el amplio ámbito del diálogo», explica Bel. «Precisamente esa demanda de profesionales de la lengua ha propiciado la modificación de los planes de estudio de algunas universidades, que ya forman a sus alumnos en lingüística computacional».

Guerra tecnológica

Algunas compañías también han recurrido a la solidaridad de los usuarios, como Mozilla, que puso en marcha una donación de grabaciones para recoger conjuntos de datos en distintos idiomas que pudiera utilizar sin restricciones. Instituciones gubernamentales también han mostrado su interés por el PLN. En España tenemos el ejemplo del Plan de Impulso de las Tecnologías del Lenguaje, desarrollado por el Ministerio de Asuntos Económicos y Transformación Digital.

Actualmente, nos encontramos ante una verdadera guerra tecnológica en torno al PLN. Cada año las empresas gastan más esfuerzo y dinero en implementar los últimos avances y seguir investigando mejoras de las redes neuronales artificiales, que todavía necesitan una gran cantidad de datos de los que aprender. «La IA nació con el objetivo de que las máquinas simulasen el funcionamiento de un cerebro humano, pero aun queda un largo camino por recorrer», sostiene Bel.

«Aunque hay sistemas que han evolucionado mucho, como los traductores automáticos (Google Translate, por ejemplo), hay otras herramientas con mucho margen de mejora, como los chatbots (programa informático con el que es posible mantener una conversación)», explica Guerrero.

En lo que coinciden ambas especialistas es en que las máquinas están para ayudarnos y que todavía son las personas las que las hacen funcionar y evolucionar.