Por qué DeepMind está enviando humanoides de IA al campamento de fútbol

“Esto realmente no funcionó”, dice Nicolas Heess, también científico investigador de DeepMind y uno de los coautores del artículo con Lever. Debido a la complejidad del problema, la gran variedad de opciones disponibles y la falta de conocimiento previo sobre la tarea, los agentes realmente no tenían idea de por dónde empezar, de ahí las contorsiones y contracciones.

Entonces, en cambio, Heess, Lever y sus colegas usaron primitivas motoras probabilísticas neurales (NPMP), un método de enseñanza que empujó el modelo de IA hacia patrones de movimiento más parecidos a los humanos, con la expectativa de que este conocimiento subyacente ayudaría a resolver el problema de cómo moverse por el campo de fútbol virtual. “Básicamente sesga su control motor hacia un comportamiento humano realista, movimientos humanos realistas”, dice Lever. “Y eso se aprende de la captura de movimiento, en este caso, actores humanos jugando al fútbol”.

Esto “reconfigura el espacio de acción”, dice Lever. Los movimientos de los agentes ya están restringidos por sus cuerpos y articulaciones similares a los humanos que solo pueden doblarse de ciertas maneras, y estar expuestos a datos de humanos reales los restringe aún más, lo que ayuda a simplificar el problema. “Hace que las cosas útiles sean más fáciles de descubrir por ensayo y error”, dice Lever. NPMP acelera el proceso de aprendizaje. Se debe lograr un “equilibrio sutil” entre enseñar a la IA a hacer las cosas de la manera en que las hacen los humanos y, al mismo tiempo, darle suficiente libertad para descubrir sus propias soluciones a los problemas, que pueden ser más eficientes que las que se nos ocurren a nosotros mismos. .

El entrenamiento básico fue seguido por ejercicios para un solo jugador: correr, driblar y patear la pelota, imitando la forma en que los humanos pueden aprender a jugar un nuevo deporte antes de sumergirse en una situación de partido completo. Las recompensas de aprendizaje por refuerzo eran cosas como seguir con éxito un objetivo sin el balón o driblar el balón cerca de un objetivo. Este plan de estudios de habilidades fue una forma natural de desarrollar tareas cada vez más complejas, dice Lever.

El objetivo era alentar a los agentes a reutilizar las habilidades que podrían haber aprendido fuera del contexto del fútbol dentro de un entorno de fútbol, ​​para generalizar y ser flexibles al cambiar entre diferentes estrategias de movimiento. Los agentes que habían dominado estos ejercicios fueron utilizados como maestros. De la misma manera que se alentó a la IA a imitar lo que había aprendido de la captura de movimiento humano, también se la recompensó por no desviarse demasiado de las estrategias que los agentes docentes usaron en escenarios particulares, al menos al principio. “Este es en realidad un parámetro del algoritmo que se optimiza durante el entrenamiento”, dice Lever. “Con el tiempo, en principio, pueden reducir su dependencia de los maestros”.

Con sus jugadores virtuales entrenados, era hora de un poco de acción en los partidos: comenzando con juegos de 2 contra 2 y 3 contra 3 para maximizar la cantidad de experiencia que los agentes acumularon durante cada ronda de simulación (e imitando cómo los jugadores jóvenes comienzan con juegos pequeños en la vida real). ). Los aspectos más destacados, que puedes ver aquí, tienen la energía caótica de un perro persiguiendo una pelota en el parque: los jugadores no corren sino que tropiezan hacia adelante, perpetuamente a punto de caer al suelo. Cuando se marcan goles, no se debe a movimientos de pase intrincados, sino a despejes prometedores y rebotes similares a los de un futbolín en la pared trasera.