Uno de los mayores desafíos de la robótica reciente es lograr producir robots que sean autónomos en gran medida y capaces de interactuar fluidamente con los humanos en ambientes cotidianos, recibiendo comandos y actuando con algo que podríamos llamar sentido común, en vez de solo acatar órdenes. La ductilidad es uno de los atributos más difíciles de programar en los robots, pero gracias a la alianza entre modelos de lenguaje natural de IA y la robótica una de las empresas filiales de Google, Alphabet, ha logrado dar un paso más en el diseño de este tipo de robots.

En una demostración reciente, Fei Xia, investigador de Google, se sentó en el centro de una cocina y tecleó una orden en un ordenador portátil conectado a un robot de un solo brazo con ruedas. "Tengo hambre", escribió. El robot se acercó rápidamente a una encimera cercana, cogió con cuidado una bolsa de patatas fritas con una gran pinza de plástico y se acercó a Xia para ofrecerle un tentempié. Un logro que refleja la capacidad interpretativa del robot, pues no está recibiendo ninguna orden, pero puede sobreentender lo que indican esas palabras.  Una de las cosas más llamativas de esta demostración, realizada en el laboratorio de robótica de Google en Mountain View (California), fue que ningún programador humano había programado el robot para que entendiera qué hacer en respuesta a la orden de Xia. Su software de control había aprendido a traducir una frase hablada en una secuencia de acciones físicas utilizando millones de páginas de texto extraídas de la web. Es decir, es como un bebé digital conectado a la matrix al que se le descargan una serie de programas, enciclopedias y manuales a su disco duro para que aprenda a desenvolverse en el mundo y responder a los distintos estímulos y situaciones.  La gran diferencia con los robots que suelen responder a órdenes específicas, es que en este caso no es necesario utilizar una frase específica preaprobada para emitir órdenes, como puede ser necesario con asistentes virtuales como Alexa. Basta probar con decirle a ésta última que quieres escuchar música nostálgica y ver si es capaz de interpretar esas palabras y poner una obra de piano clásico o una canción de The Cure. Con este robot sucede lo contrario, puedes decirle al robot "tengo sed" y debería intentar buscarte algo para beber. Si le dices que se te ha roto el baso en el piso te traería una escoba para limpiar.

"Para enfrentarse a la diversidad del mundo real, los robots deben ser capaces de adaptarse y aprender de sus experiencias", dijo Karol Hausman, investigadora científica de Google, durante la demostración, que también incluyó al robot acercando una esponja para limpiar un derrame. Para interactuar con los humanos, las máquinas deben aprender a comprender cómo las palabras pueden unirse de múltiples maneras para generar diferentes significados. "Depende del robot entender todas las pequeñas sutilezas y complejidades del lenguaje", dijo Hausman.

Google's New Robot Learned to Take Orders by Scraping the Web | WIRED

Esta demostración de Google es un avance significativo hacia el complejo objetivo de crear robots capaces de interactuar con los humanos en entornos cotidianos con situaciones reales, lo que conlleva un nivel de dificultad y variabilidad muy grande. El método en boga utilizado por los desarrolladores e investigadores en los últimos años para el aprendizaje de los programas ha sido alimentar con grandes cantidades de texto, extraído de libros o de la web con grandes modelos de aprendizaje automático, lo que ha generado programas con impresionantes habilidades lingüísticas, como el generador de texto GPT-3 de OpenAI.

Al digerir las múltiples formas de escritura en línea, el software puede adquirir la capacidad de resumir o responder a preguntas sobre el texto, generar artículos coherentes sobre un tema determinado o incluso mantener conversaciones convincentes.  No es ningún secreto que las empresas del Big Tech están haciendo un amplio uso de estos grandes modelos lingüísticos para sus motores de búsqueda, sistemas publicitarios y otras aplicaciones. Varias empresas ofrecen la tecnología a través de API en la nube, y han surgido nuevos servicios que aplican las capacidades lingüísticas de la IA a tareas como la generación de código o la redacción de textos publicitarios. Un vicepresidente de Google que sigue trabajando en la empresa escribió en The Economist que chatear con el famoso bot LaMDA, que fue llamado por otro ingeniero de Google, Blake Lemoine, hace unos meses como “sintiente”, efectivamente sentía como "hablar con algo inteligente".

Uno de los grandes contrapuntos de estos últimos avances es que los programas de IA siguen siendo propensos a confundir cosas y órdenes sencillas o a decir absurdidades o insultos arbitrarios. Los modelos lingüísticos entrenados con textos de la web también carecen de una comprensión moral base, por lo que suelen reproducir sesgos o el lenguaje odioso encontrado en sus datos de entrenamiento. Este problema empuja a nivel de primera prioridad un diseño meticuloso capaz de guiar de forma razonable al robot para que no acabe repitiendo lo peor de sus creadores en vez de lo mejor. Al fin y al cabo, los datos de entrenamientos son generados por interacciones humanas en la web y nosotros somos responsables de esos datos.

El robot que demostró Hausman estaba impulsado por el modelo lingüístico más potente que Google ha anunciado hasta ahora, conocido como PaLM. Es capaz de muchos trucos, como explicar, en lenguaje natural, cómo llega a una conclusión concreta al responder a una pregunta. El mismo enfoque se utiliza para generar una secuencia de pasos que el robot ejecutará para realizar una tarea determinada.

Los investigadores de Google trabajaron con el hardware de Everyday Robots, una empresa surgida de la división X de Alphabet, empresa matriz de Google, dedicada a proyectos de investigación "moonshot" para crear el robot mayordomo. Crearon un nuevo programa que utiliza las capacidades de procesamiento de texto de PaLM para traducir una frase u orden hablada en una secuencia de acciones apropiadas, como "abrir cajón" o "recoger fichas", que el robot puede realizar.

La biblioteca de acciones físicas del robot se aprendió mediante un proceso de entrenamiento independiente en el que los humanos controlaban el robot a distancia para demostrarle cómo hacer cosas como recoger objetos. Por supuesto el robot aún está limitado a una serie de tareas que puede realizar en su entorno, lo que ayuda a evitar que los malentendidos del modelo lingüístico se conviertan en comportamientos erróneos. No le vamos a pedir desde ya que nos vaya a hacer las compras al supermercado, aún falta un poco para que los robots lleguen a ese nivel de autonomía y asertividad cotidiana.

Las habilidades lingüísticas de PaLM pueden permitir a un robot dar sentido a órdenes relativamente abstractas. Cuando se le encargó a un brazo robótico que moviera bloques y cuencos de colores, el investigador de Google Andy Zeng le pidió que "imaginara que mi mujer es el bloque azul y yo el verde. Acércanos". El robot respondió moviendo el bloque azul para que se sentara junto al verde.

"La aplicación de grandes modelos de lenguaje a la robótica es una dirección apasionante", afirma Stefanie Tellex, profesora adjunta de la Universidad de Brown especializada en el aprendizaje de robots y la colaboración entre robots y humanos. Pero añade que la ampliación de la gama de tareas que puede realizar un robot -para que pueda hacer más cosas que una persona podría pedir- sigue siendo "un gran problema sin resolver".

Pese al poder de PaLM, no se sabe si este sistema sería capaz de entender con fluidez oraciones o comandos muy fluidos, a diferencia de cómo lo hace con comandos simples. Según Brian Ichter, científico investigador de Google, este proyecto podría permitir llegar a métodos para construir modelos de lenguaje con una mejor comprensión de la realidad.

Aún hay mucho trecho por recorrer para lograr diseñar robots que cosechen el potencial de la IA para poder interactuar de manera natural con nosotros en situaciones cotidianas complejas, en vez de solo parecer gadgets altamente elaborados con pocas aplicaciones prácticas. Pese a esto esta última demostración es un indicador de que la dirección en que se avanza es la correcta.

Habrá que ver qué otros anuncios habrá durante este año en la materia de robots que sigan esta línea. Uno de acontecimientos más esperados es ver qué ocurrirá con los avances de Optimus, el bot de Tesla, sobre el que Elon Musk ha revelado aún muy poco. Pese a la dificultad de estos desafíos no sería raro que entre este año y el próximo veamos cómo van apareciendo más robots, antropomorfos o no, capaces de interactuar en situaciones reales y complejas y responder con un grado de autonomía y asertividad que recién estamos comenzando a atisbar. La era de los robots domésticos está recién comenzando, pero parece que llegará para quedarse.