Si hay un grupo de desarrolladores de inteligencia artificial que están cambiando el juego, y no por intereses económicos, al modo de compañías gigantes, como sucede en el caso de Google o Meta, son quienes están detrás de OpenAI, compañía sin ánimos de lucro que en los últimos años se ha caracterizado por proponer nuevos programas y algoritmos capaces de cosas que sorprendieron a muchos.

Entre los grandes hitos de OpenAI se encuentran GPT-3, un procesador de lenguajes naturales, con el cual podemos dialogar sobre cualquier tipo de cosas sin caer en la cuenta tan seguido de que es una IA con la que hablamos, pues posee su saber enciclopédico, sentido del humor y capacidad de captar los matices y paradojas de algunas frases.

Hace unos meses nada más un conjunto de imágenes generadas por otra IA de OpenAI comenzaron a inundar el internet y causar revuelo por su alta calidad y creatividad. Se tratan de las imágenes generadas a partir de un comando escrito que DALL-E logra plasmar inmediatamente en el lienzo digital. Desde koalas jugando baloncesto hasta astronautas cabalgando en la luna. Y con muchas versiones de cada una de las propuestas. Una tecnología que tiene el potencial de revolucionar el diseño gráfico y liberar la creatividad de muchas personas.

Y como si eso fuera poco su último invento es una IA que aprendió a jugar Minecraft tras entrenarse con 70000 horas de videos de Youtube en que se ven a personas jugando el icónico videojuego. Una de las gracias de este logro es que, en comparación con numerosos algoritmos anteriores de Minecraft, que operan en versiones "sandbox" del juego mucho más simples, la nueva IA juega en el mismo entorno que los humanos, utilizando comandos estándar de teclado y ratón.

La compañía compartió los resultados de este nuevo experimento informático mediante una entrada de blog y en un paper en el que se detalla el trabajo. En este último afirman que, desde el primer momento, el algoritmo aprendió habilidades básicas, como cortar árboles, hacer tablones y construir mesas de artesanía. También lo observaron nadando, cazando, cocinando y "saltando pilares".

"Hasta donde sabemos, no hay ningún trabajo publicado que opere en el espacio de acción humano completo y no modificado, que incluye la gestión de inventarios de arrastrar y soltar y la elaboración de objetos", escribieron los autores en su artículo.

Con el ajuste -es decir, entrenando el modelo con un conjunto de datos más específico- descubrieron que el algoritmo realizaba con mayor fiabilidad todas estas tareas, pero también empezó a avanzar en su destreza tecnológica fabricando herramientas de madera y piedra y construyendo refugios básicos, explorando aldeas y asaltando cofres. Tras otro ajuste de mayores proporciones, con el aprendizaje de refuerzo, aprendió a construir un pico de diamante, una habilidad que a los jugadores humanos les lleva unos 20 minutos y 24.000 acciones.

Es un hito que no se puede mirar a menos. Los juegos siempre han sido el estándar de oro de las destrezas de la IA debido a la multiplicidad de factores y variables que hay que tomar en cuenta en cada uno de ellos. La IA lleva mucho tiempo teniendo problemas con la amplia gama de juegos de Minecraft. Juegos como el ajedrez y el Go, que la IA ya domina, tienen objetivos claros y se puede medir el progreso hacia esos objetivos. Para conquistar el Go, los investigadores utilizaron el aprendizaje por refuerzo, en el que se da a un algoritmo un objetivo y se le recompensa por el progreso hacia ese objetivo. Minecraft, por otro lado, tiene cualquier número de objetivos posibles, el progreso es menos lineal, y los algoritmos de aprendizaje de refuerzo profundo generalmente se dejan girar sus ruedas.

En el concurso MineRL Minecraft 2019 para desarrolladores de IA, por ejemplo, ninguna de las 660 propuestas logró el objetivo relativamente sencillo del concurso de extraer diamantes. Vale la pena señalar que, para premiar la creatividad y demostrar que arrojar potencia de cálculo a un problema no siempre es la respuesta, los organizadores de MineRL pusieron límites estrictos a los participantes: se les permitía una GPU NVIDIA y 1.000 horas de juego grabado. Aunque los concursantes tuvieron un rendimiento admirable, el resultado de OpenAI, conseguido con más datos y 720 GPUs NVIDIA, parece demostrar que la potencia de cálculo sigue teniendo sus ventajas.

La técnica

Para aprender a jugar Minecraft el algoritmo de elección, llamado vídeo de pre-entrenamiento (VPT), se entrenó del mismo modo que GPT-3 y DALL-E, utilizando contenido creado por humanos para adquirir las destrezas específicas de lo que se propone realizar. En la entrada de blog explican el propósito y funcionamiento de este algoritmo de la siguiente manera:

“Comenzamos reuniendo un pequeño conjunto de datos de contratistas en el que registramos no sólo su vídeo, sino también las acciones que realizaron, que en nuestro caso son pulsaciones de teclas y movimientos del ratón. Con estos datos entrenamos un modelo de dinámica inversa (IDM), que predice la acción que se realiza en cada paso del vídeo. Es importante destacar que el IDM puede utilizar información pasada y futura para adivinar la acción en cada paso. Esta tarea es mucho más sencilla y, por tanto, requiere muchos menos datos que la tarea de clonación del comportamiento de predecir las acciones teniendo en cuenta sólo los fotogramas de vídeo pasados, lo que requiere inferir lo que la persona quiere hacer y cómo llevarlo a cabo. A continuación, podemos utilizar el IDM entrenado para etiquetar un conjunto de datos mucho mayor de vídeos en línea y aprender a actuar mediante la clonación de comportamientos.”

Y, ¿por qué el Minecraft? Pues debido a la multiplicidad de actividades que presenta, lo cual genera una gama de destrezas por aprender tan amplia como las de la vida cotidiana. A fin de cuentas, hablamos de un juego que replica la sobrevivencia y construcción de una vida sustentable en un mundo digital. Este es uno de los motivos por los que eligieron el juego, que requiere habilidades similares a las necesarias para ocupar un computador asertivamente mediante teclas y clicks, y el otro es que es uno de los videojuegos más populares por lo que hay miles y hasta millones de horas de video disponibles en la web para ser usadas como base de datos de entrenamiento.

El modelo logra realizar actividades complejas que los humanos usualmente deben realizar en el juego, como es nadar, cazar, comer y saltar sobre un pilar dispuesto bajo los pies por el mismo jugador. Como sucede con todos los modelos potenciados por IA, el volumen de la base de datos con la que se entrenan sigue siendo un parámetro con una lógica muy simple: a mayor cantidad de datos, mejores resultados y capacidad de resolver los problemas que se presentan. Este VPT no fue la excepción. Es por esto mismo que con el fin de evaluar el desempeño del modelo se lo entrenó con distintas cantidades de horas: con 2000 o menos logró tallar tablas y manufacturar herramientas de madera, pero solo con diez mil horas o más de entrenamiento llegó al nivel de manufacturar herramientas de piedra.

En contraste con otras IA que han jugado Minecraft esta es la primera que logró realizar la secuencia de acciones necesarias para recolectar una pica de diamante a una velocidad homóloga a los humanos. “Es la primera vez que alguien muestra un agente informático capaz de fabricar herramientas de diamante en Minecraft, lo que a los humanos les lleva más de 20 minutos (24.000 acciones) de media.”

Una de las grandes conclusiones que deja este trabajo es la posibilidad de que este VPT sea aplicado a otras actividades, como menciona el equipo de OpenAI hacia el final de la presentación: “El VPT ofrece la apasionante posibilidad de aprender directamente las preconcepciones de comportamiento a gran escala en más dominios que el lenguaje.” Una oportunidad que abre nuevas vías de aprendizaje para la IA, asemejándola, al mismo tiempo, a cualquiera de nosotros cuando vemos algún video de Youtube para aprender sobre los tiempos verbales del inglés, la escueta dieta de los koalas (nada más que hojas de eucaliptus, venenosas para todos los otros animales, pero esa es otra historia) o, como en este caso, aprender a jugar Minecraft.