Los algoritmos de inteligencia artificial y aprendizaje automático son cada vez mejores para predecir las próximas acciones en los videos. Lo mejor puede anticipar con bastante precisión dónde puede viajar una pelota de béisbol después de haber sido lanzada, o la aparición de una carretera a millas de una posición inicial. Con este fin, un enfoque novedoso propuesto por investigadores de Google, la Universidad de Michigan y Adobe avanza el estado del arte con modelos a gran escala que generan videos de alta calidad a partir de unos pocos cuadros. Aún más impresionante, lo hace sin depender de técnicas como los flujos ópticos (el patrón de movimiento aparente de objetos, superficies o bordes en una escena) o puntos de referencia, como lo han hecho los métodos anteriores.
"En este trabajo, investigamos si podemos lograr predicciones de video de alta calidad ... simplemente maximizando la capacidad de una red neuronal estándar", escribieron los investigadores en un documento preliminar describiendo su trabajo. "Hasta donde sabemos, este trabajo es el primero en realizar una investigación exhaustiva sobre el efecto de los aumentos de capacidad para la predicción de video".
El modelo de referencia del equipo se basa en una arquitectura existente de generación de video estocástico (SVG), con un componente que modela la incertidumbre inherente en las predicciones futuras. Entrenaron y probaron por separado varias versiones del modelo contra conjuntos de datos adaptados a tres categorías de predicción: interacciones de objetos, movimiento estructurado y observabilidad parcial. Para la primera tarea, las interacciones entre objetos, los investigadores seleccionaron 256 videos de un corpus de videos de un brazo de robot que interactúa con toallas, y para el segundo movimiento estructurado, obtuvieron clips de Human 3.6M, un corpus que contiene clips de humanos que realizan acciones como sentarse en una silla En cuanto a la tarea de observabilidad parcial, utilizaron el conjunto de datos de conducción KITTI de código abierto del metraje de la cámara del tablero del automóvil delantero.
Arriba: el modelo de IA predice fotogramas con videos de cámaras del tablero del automóvil. |
El equipo condicionó cada modelo en dos o cinco fotogramas de video e hizo que los modelos pronosticaran entre cinco y 10 fotogramas en el futuro durante el entrenamiento, a baja resolución (64 x 64 píxeles) para todas las tareas y tanto en baja como en alta resolución (128 x 128 píxeles) para la tarea de interacciones de objetos. Durante las pruebas, los modelos generaron hasta 25 fotogramas.
Los investigadores informan que uno de los modelos más grandes fue preferido 90.2%, 98.7% y 99.3% del tiempo con respecto a las interacciones de objetos, movimiento estructurado y tareas de observabilidad parcial, respectivamente, por los evaluadores reclutados a través de Amazon Mechanical Turk. Cualitativamente, el equipo señala que el modelo representaba con nitidez los brazos y las piernas humanas e hizo "predicciones muy precisas que parecían realistas en comparación con la verdad fundamental".
Arriba: El modelo de IA predice cuadros con videos de actividad humana. |
"Nuestros experimentos confirman la importancia de las conexiones recurrentes y la modelación de la estocasticidad [o aleatoriedad] en presencia de incertidumbre (por ejemplo, videos con acción o control desconocidos)", escribieron los coautores del artículo. “También encontramos que maximizar la capacidad de tales modelos mejora la calidad de la predicción de video. Esperamos que nuestro trabajo aliente al campo a avanzar en direcciones similares en el futuro, es decir, para ver hasta dónde podemos llegar ... para lograr una predicción de video de alta calidad ".