Desde que la inteligencia artificial comenzó a desarrollarse y abrirse espacio en la cultura, una de sus grandes piedras de toque y altavoces para poner en evidencia sus avances, han sido los juegos. Desde que Deep Blue, la computadora desarrollada por IBM, venció al campeón mundial de ajedrez, Gary Kasparov, la atención que los medios y el público le pone a la evolución de la inteligencia artificial no ha hecho más que aumentar. Es que ya no podemos argumentar con facilidad que somos los más inteligentes sobre la faz de la Tierra, porque cada año que pasa las computadoras y los sistemas de inteligencia artificial superan el desempeño de los mejores humanos en una destreza específica. Los juegos, por su complejidad y gran cantidad de factores involucrados, han servido para ejemplificar este desarrollo.

Es por esto que ver a una IA superar a los mejores en un videojuego no deja de llamar la atención, y esta es la noticia que te traemos en este artículo de Neura Pod en castellano. Recientemente, una IA creada por Sony ha superado a los humanos en otro juego popular y complejo: Gran Turismo. Además de ser una hazaña en sí misma, el logro podría tener implicaciones en el mundo real para el entrenamiento de los coches autoconducidos, como los desarrollados por Tesla, la compañía de autos eléctricos de Elon Musk.

Para los que no estén familiarizados, Gran Turismo es una serie de juegos de simulación de carreras creada para las consolas PlayStation de Sony. Los creadores del juego intentaron dar la mayor precisión posible a los coches y a la conducción en el mundo real, desde el empleo de los principios de la física hasta la utilización de grabaciones reales de los motores de los coches. "El realismo de Gran Turismo proviene del detalle que pusimos en el juego", dijo Charles Ferreira, un ingeniero de Polyphony Digital, el estudio creativo detrás de Gran Turismo. "Todos los detalles sobre el motor, los neumáticos, la suspensión, las pistas, el modelo de coche...".

Sony puso en marcha su división de IA en abril de 2020 para investigar la IA y la robótica en relación con el entretenimiento. La división se asoció con Polyphony Digital y los fabricantes de PlayStation para desarrollar Gran Turismo Sophy (GT Sophy), la IA que acabó venciendo a los mejores jugadores humanos del juego. En febrero de este año se publicó en Nature un artículo en el que se detalla cómo se entrenó el sistema y cómo su técnica podría aplicarse a la conducción en el mundo real.

Pisar el acelerador es una de las habilidades necesarias para ser bueno en Gran Turismo (o en las carreras de coches en la vida real), pero la velocidad por sí sola no separa a los campeones de los subcampeones. La estrategia y la etiqueta también son importantes, desde saber cuándo adelantar a otro coche o esperar, hasta evitar colisiones manteniéndose lo más cerca posible de otros vehículos, pasando por dónde ir a lo largo o a lo ancho. Como dicen los autores del artículo, "...los conductores deben ejecutar complejas maniobras tácticas para adelantar o bloquear a sus rivales mientras manejan sus vehículos al límite de su tracción".

Entonces, ¿cómo ha conseguido una IA unir estas diferentes habilidades de forma que se consiga una racha de victorias?

GT Sophy se entrenó utilizando el aprendizaje por refuerzo profundo, un subcampo del aprendizaje automático en el que un sistema de IA o "agente" recibe recompensas por realizar ciertas acciones y es penalizado por otras -de forma similar a la forma en que los humanos aprenden a través de la prueba y el error- con el objetivo de maximizar sus recompensas.

Los creadores de GT Sophy se centraron en tres áreas para entrenar al agente: el control del coche (incluyendo la comprensión de la dinámica del coche y de las líneas de carrera), las tácticas de carrera (tomar decisiones rápidas en torno a acciones como el adelantamiento por el rebufo, los pases cruzados o el bloqueo) y la etiqueta de carrera (seguir las reglas de deportividad, como evitar colisiones con culpa y respetar las líneas de conducción del oponente).

Los ingenieros de Sony AI tuvieron que caminar por una fina línea cuando crearon la función de recompensa de GT Sophy; la IA tenía que ser agresiva sin ser imprudente, por lo que recibía recompensas por los tiempos de vuelta rápidos y por adelantar a otros coches, mientras que era penalizada por cortar las curvas, colisionar con un muro u otro coche, o derrapar.

Los investigadores alimentaron el sistema con datos de juegos anteriores de Gran Turismo y luego lo soltaron para que jugara, aleatorizando factores como la velocidad inicial, la posición en la pista y el nivel de habilidad de otros jugadores para cada carrera. GT Sophy fue capaz de recorrer la pista con unas pocas horas de entrenamiento, aunque se necesitaron 45.000 horas de entrenamiento para que la IA se convirtiera en un campeón y venciera a los mejores jugadores humanos.

"Superar a los conductores humanos con tanta habilidad en una competición cara a cara representa un logro histórico para la IA", afirma el profesor de automoción de Stanford J. Christian Gerdes, que no participó en la investigación, en un editorial de Nature publicado con el artículo de Sony AI. "El éxito de GT Sophy en la pista sugiere que las redes neuronales podrían tener algún día un papel más importante en el software de los vehículos automatizados que el que tienen actualmente".

Aunque las habilidades de GT Sophy en las carreras no se trasladarían necesariamente bien a los coches reales -sobre todo en carreteras normales o autopistas en lugar de una pista circular-, el éxito del sistema puede considerarse un paso hacia la construcción de IAs que "entiendan" la física del mundo real e interactúen con los humanos. La investigación de Sony podría aplicarse especialmente a la etiqueta de los coches autoconducidos, dado que estos límites son importantes a pesar de estar poco definidos (por ejemplo, es menos atroz cortar a alguien en un carril de la autopista si se acelera inmediatamente después de hacerlo, en lugar de reducir o mantener la velocidad).

Dado que los coches autoconducidos han resultado ser una empresa mucho más compleja y lenta de lo que se preveía en un principio, la incorporación de la etiqueta en su software puede tener poca prioridad, pero en última instancia será importante para que los coches gestionados por algoritmos eviten ser el blanco de la ira de los conductores humanos.

Mientras tanto, GT Sophy seguirá perfeccionando sus habilidades en las carreras, ya que tiene mucho margen de mejora; por ejemplo, la IA adelanta sistemáticamente a otros coches con una penalización de tiempo inminente, cuando a menudo tendría más sentido esperar a que los coches penalizados redujeran la velocidad.

Sony también dice que tiene previsto integrar GT Sophy en futuros juegos de Gran Turismo, pero aún no ha revelado el calendario correspondiente. Este es otro paso adelante en el desarrollo de la inteligencia artificial. Pensar que apenas le bastaron dos años a la división de IA de Sony para superar el rendimiento de los mejores humanos en el juego. La destreza de estos sistemas no deja sorprendernos por la velocidad con la que baten el rendimiento humano y, después, como en el caso de Alpha Zero, se dedican a jugar consigo mismas y reinventar las posibilidades de los juegos como si fuesen alienígenas digitales que vienen a la Tierra para demostrar a los seres humanos cómo batir los records de la manera más eficiente y simple.

Si te interesó esta nota te invitamos a ver el corto documental sobre el proceso de creación de GT Sophy y sus implicaciones, tanto para el juego como para la evolución de la inteligencia artificial.