Nuevo aprendizaje visual de los robots – 1X World Model

La tecnología aplicada a la robótica ha dado un giro importante con la llegada de sistemas que permiten a las máquinas entender el mundo de una forma mucho más humana. Hasta hace poco, los robots necesitaban instrucciones extremadamente precisas o miles de horas de práctica supervisada para aprender un movimiento sencillo. Sin embargo, una nueva metodología basada en la predicción de vídeo está cambiando las reglas del juego. Esta técnica permite que robots como el modelo NEO no solo sigan órdenes, sino que sean capaces de imaginar el resultado de sus acciones antes de ejecutarlas, facilitando su adaptación a cualquier hogar o entorno de trabajo.

Cómo aprenden los robots a través de modelos de mundo

El núcleo de esta innovación se encuentra en el denominado 1XWM, un modelo de mundo que funciona de manera muy distinta a los sistemas tradicionales. Mientras que los modelos antiguos se centraban en procesar texto e imágenes de forma separada, este nuevo sistema utiliza el entrenamiento visual a gran escala para comprender las leyes de la física. Al observar millones de vídeos de internet, el robot aprende cómo se mueven los objetos y cómo reaccionan ante el contacto humano.

Esta capacidad de «visualizar el futuro» permite que el robot NEO pueda realizar tareas en lugares que no conoce. Si le pides que mueva un objeto que nunca ha visto, el sistema genera una secuencia de vídeo interna sobre cómo debería verse ese movimiento exitoso. Posteriormente, sus motores traducen esa imagen mental en una acción física real con una precisión asombrosa.

La estructura detrás de la inteligencia de NEO

Para que un robot humanoide se mueva con naturalidad, se requiere una arquitectura técnica compleja dividida en varias fases de aprendizaje. En primer lugar, se utiliza información masiva de la web para que la máquina entienda conceptos básicos de la realidad. Después, se añaden cientos de horas de vídeo grabadas desde una perspectiva en primera persona, simulando lo que vería un humano al realizar tareas domésticas o manuales.

El sistema cuenta con dos pilares fundamentales: un motor que predice la evolución de una escena y un modelo de dinámica inversa. Este último actúa como un puente que conecta los píxeles de la pantalla con los movimientos de los brazos y manos del robot. Gracias a esta combinación, el robot puede interactuar con su entorno de forma dinámica, superando obstáculos como cambios de iluminación o el desorden común de cualquier vivienda.

Capacidades reales y retos de la autonomía robótica

En las pruebas realizadas, se ha demostrado que el uso de inteligencia artificial generativa permite al robot realizar labores complejas como abrir puertas, limpiar platos o incluso interactuar de forma coordinada con ambas manos. Un aspecto fascinante es que el éxito de la tarea depende de la calidad de la «imaginación» del robot: si el modelo genera una predicción visual clara, la probabilidad de que la acción física sea correcta aumenta considerablemente.

A pesar de estos avances, todavía existen retos importantes para lograr una autonomía total. Uno de los puntos a mejorar es la velocidad de procesamiento, ya que el cerebro del robot tarda unos segundos en procesar cada movimiento. Además, la percepción de la profundidad en tres dimensiones sigue siendo un área de mejora para evitar pequeños errores de cálculo al agarrar objetos delicados. No obstante, el camino hacia robots que se enseñan a sí mismos mediante la experiencia ya ha comenzado.

Preguntas y respuestas

¿Qué es un modelo de mundo en robótica?

Es un sistema de inteligencia artificial que permite a un robot predecir cómo cambiará su entorno físico tras realizar una acción, utilizando la generación de vídeo como base de aprendizaje.

¿En qué se diferencia el robot NEO de otros robots anteriores?

A diferencia de otros modelos, NEO no necesita ser programado para cada movimiento específico; utiliza el conocimiento extraído de internet para generalizar y realizar tareas nuevas de forma independiente.

¿Puede el robot trabajar en entornos con personas?

Sí, su diseño y entrenamiento están enfocados en la congruencia cinemática humana, lo que le permite interactuar de forma segura y coordinada en entornos dinámicos y compartidos con seres humanos.

¿Cuáles son las principales limitaciones actuales?

Los mayores desafíos son reducir el tiempo que tarda la IA en pensar cada acción y mejorar la precisión en tareas que requieren una visión del espacio en 3D muy detallada.