Los investigadores de Meta crean una IA que domina la Diplomacia, engañando a los jugadores humanos

Agrandar / Una captura de pantalla de un juego en línea de Diplomaciaincluido un cuadro de diálogo de chat en ejecución, proporcionado por un investigador de Cicero.

El martes, Meta AI anunció el desarrollo de Cicero, que, según afirma, es la primera IA en lograr un rendimiento a nivel humano en el juego de mesa estratégico. Diplomacia. Es un logro notable porque el juego requiere una gran capacidad de negociación interpersonal, lo que implica que Cicero ha obtenido cierto dominio del lenguaje necesario para ganar el juego.

Incluso antes de que Deep Blue venciera a Garry Kasparov en el ajedrez en 1997, los juegos de mesa eran una medida útil de los logros de la IA. En 2015, cayó otra barrera cuando AlphaGo derrotó al maestro de Go Lee Sedol. Ambos juegos siguen un conjunto relativamente claro de reglas analíticas (aunque las reglas de Go generalmente se simplifican para la IA de la computadora).

Pero con Diplomacia, una gran parte del juego implica habilidades sociales. Los jugadores deben mostrar empatía, usar un lenguaje natural y construir relaciones para ganar, una tarea difícil para un jugador de computadora. Con esto en mente, Meta preguntó: “¿Podemos crear agentes más efectivos y flexibles que puedan usar el lenguaje para negociar, persuadir y trabajar con personas para lograr objetivos estratégicos de manera similar a como lo hacen los humanos?”.

Según Meta, la respuesta es sí. Cicero aprendió sus habilidades jugando una versión en línea de Diplomacia en webDiplomacy.net. Con el tiempo, se convirtió en un maestro en el juego y, según los informes, logró “más del doble del puntaje promedio” de los jugadores humanos y se ubicó en el 10 por ciento superior de las personas que jugaron más de un juego.

Para crear Cicero, Meta reunió modelos de IA para razonamiento estratégico (similar a AlphaGo) y procesamiento de lenguaje natural (similar a GPT-3) y los combinó en un solo agente. Durante cada juego, Cicero observa el estado del tablero de juego y el historial de conversaciones y predice cómo actuarán los demás jugadores. Elabora un plan que ejecuta a través de un modelo de lenguaje que puede generar un diálogo similar al humano, lo que le permite coordinarse con otros jugadores.

Anuncio publicitario

Agrandar / Un diagrama de bloques de Cicerón, el Diplomacia-jugando bot, proporcionado por Meta.

Meta IA

Meta llama a las habilidades de lenguaje natural de Cicero un “modelo de diálogo controlable”, que es donde reside el corazón de la personalidad de Cicero. Al igual que GPT-3, Cicero extrae de un gran corpus de texto de Internet extraído de la web. “Para construir un modelo de diálogo controlable, comenzamos con un modelo de lenguaje similar a BART de 2.700 millones de parámetros entrenado previamente en texto de Internet y ajustado en más de 40.000 juegos humanos en webDiplomacy.net”, escribe Meta.

El modelo resultante dominó las complejidades de un juego complejo. “Cicerón puede deducir, por ejemplo, que más adelante en el juego necesitará el apoyo de un jugador en particular”, dice Meta, “y luego elaborar una estrategia para ganar el favor de esa persona, e incluso reconocer los riesgos y oportunidades que ve ese jugador. desde su particular punto de vista”.

La investigación de Cicero de Meta apareció en la revista Science con el título “Juego a nivel humano en el juego de la diplomacia mediante la combinación de modelos de lenguaje con razonamiento estratégico”.

En cuanto a aplicaciones más amplias, Meta sugiere que su investigación de Cicero podría “aliviar las barreras de comunicación” entre los humanos y la IA, como mantener una conversación a largo plazo para enseñarle a alguien una nueva habilidad. O podría impulsar un videojuego en el que los NPC puedan hablar como humanos, comprender las motivaciones del jugador y adaptarse a lo largo del camino.

Al mismo tiempo, esta tecnología podría usarse para manipular a los humanos haciéndose pasar por personas y engañándolas de maneras potencialmente peligrosas, según el contexto. En ese sentido, Meta espera que otros investigadores puedan desarrollar su código “de manera responsable” y dice que ha tomado medidas para detectar y eliminar “mensajes tóxicos en este nuevo dominio”, lo que probablemente se refiera al diálogo que Cicero aprendió de los textos de Internet. ingirió, siempre un riesgo para los modelos de lenguaje grandes.

Meta proporcionó un sitio detallado para explicar cómo funciona Cicero y también tiene código abierto de Cicero en GitHub. En línea Diplomacia los fanáticos, y tal vez incluso el resto de nosotros, deben tener cuidado.