3 metodologías para la detección y captura automatizada de momentos destacados de videojuegos – TechCrunch


Nathan Babcock es un científico informático y escritor independiente en Chicago y cofundador de Clip It, una empresa emergente de detección automatizada de reflejos.


Benjamin Clingan es un desarrollador de software especializado en backends de Python, finanzas, redes neuronales genéticas y otras estrategias de aprendizaje automático y cofundador de la startup de detección automatizada de resaltados Clip It.

Con la subida de la transmisión en vivo, los juegos han evolucionado de un producto de consumo similar a un juguete a una plataforma y medio legítimo por derecho propio para el entretenimiento y la competencia.

Solo la base de espectadores de Twitch ha crecido de 250.000 espectadores simultáneos promedio a más de 3 millones desde su adquisición por parte de Amazon en 2014. Competidores como Facebook Gaming y YouTube Live están siguiendo trayectorias similares.

El auge de la audiencia ha impulsado un ecosistema de productos de apoyo a medida que los streamers profesionales de hoy llevan la tecnología al límite para aumentar el valor de producción de su contenido y automatizar los aspectos repetitivos del ciclo de producción de video.

Los streamers más grandes contratan equipos de editores de video y administradores de redes sociales, pero los streamers en crecimiento y a tiempo parcial luchan por hacer esto ellos mismos o encontrar el dinero para subcontratarlo.

El juego de transmisión en línea es una rutina, con creadores de tiempo completo que realizan presentaciones de ocho, si no 12, diariamente. En un intento por captar la valiosa atención del espectador, las transmisiones maratón de 24 horas tampoco son infrecuentes.

Sin embargo, estas horas frente a la cámara y el teclado son solo la mitad de la rutina de transmisión. Mantener una presencia constante en las redes sociales y YouTube impulsa el crecimiento del canal de transmisión y atrae a más espectadores para ver una transmisión en vivo, donde pueden comprar suscripciones mensuales, donar y ver anuncios.

Destilar los cinco a 10 minutos de contenido más impactantes de ocho o más horas de video sin procesar se convierte en un compromiso de tiempo no trivial. En la parte superior de la cadena alimentaria, los streamers más grandes pueden contratar equipos de editores de video y administradores de redes sociales para abordar esta parte del trabajo, pero los streamers en crecimiento y a tiempo parcial luchan por encontrar el tiempo para hacerlo ellos mismos o idear el dinero para subcontratarlo. No hay suficientes minutos en el día para revisar cuidadosamente todas las imágenes además de otras prioridades de la vida y el trabajo.

Análisis de visión por computadora de la interfaz de usuario del juego

Una solución emergente es utilizar herramientas automatizadas para identificar momentos clave en una transmisión más larga. Varias startups compiten por dominar este nicho emergente. Las diferencias en sus enfoques para resolver este problema son las que diferencian las soluciones que compiten entre sí. Muchos de estos enfoques siguen una dicotomía clásica de hardware y software de la informática.

Athenascope fue una de las primeras empresas en ejecutar este concepto a gran escala. Respaldado por $ 2.5 millones de fondos de capital de riesgo y un impresionante equipo de ex alumnos de Silicon Valley Big Tech, Athenascope desarrolló un sistema de visión por computadora para identificar clips destacados dentro de grabaciones más largas.

En principio, no es tan diferente de cómo funcionan los autos autónomos, pero en lugar de usar cámaras para leer las señales de tráfico y los semáforos cercanos, la herramienta captura la pantalla del jugador y reconoce indicadores en la interfaz de usuario del juego que comunican eventos importantes que suceden en juego: mata y muere, goles y salva, gana y pierde.

Estas son las mismas señales visuales que tradicionalmente informan al jugador del juego lo que está sucediendo en el juego. En las interfaces de usuario de juegos modernas, esta información es de alto contraste, clara y despejada, y normalmente se encuentra en ubicaciones fijas y predecibles en la pantalla en todo momento. Esta previsibilidad y claridad se presta muy bien a las técnicas de visión por computadora, como el reconocimiento óptico de caracteres (OCR), que es la lectura de texto de una imagen.

Lo que está en juego aquí también es menor que los autos autónomos, ya que un falso positivo de este sistema no produce más que un videoclip menos emocionante que el promedio, no un accidente automovilístico.

Related Stories