HuB Mejora Equilibrio Robots Humanoides Extremos

El proyecto HuB, siglas de Humanoid Balance, presenta una estrategia innovadora basada en el aprendizaje por refuerzo para que los robots humanoides consigan un equilibrio sólido en tareas complicadas y extremas, conocidas como «cuasi-estáticas». A diferencia de los enfoques convencionales que se basan en seguir movimientos predefinidos y a menudo fallan en estas situaciones por errores en los datos, diferencias entre humanos y robots, y la brecha entre la simulación y el mundo real, HuB aborda estos problemas de forma estructurada. Lo logra mediante tres pilares fundamentales: mejorar los movimientos de referencia, entrenar políticas que consideren el equilibrio y fortalecer la solidez del entrenamiento para pasar de la simulación a la realidad. Probado con éxito en el robot humanoide Unitree G1, HuB ha demostrado una notable estabilidad y efectividad en posturas exigentes como el «Swallow Balance» o la patada de Bruce Lee, incluso frente a empujes externos.

El Desafío Extremo del Equilibrio Humanoide

El desafío extremo del equilibrio en robots humanoides es significativo. Los humanos realizamos acciones que requieren un control del equilibrio muy preciso, como mantenernos sobre una pierna o ejecutar patadas altas. Reproducir estas habilidades en robots es complejo porque exige coordinar todo el cuerpo, controlar con exactitud el centro de masa y ser resistentes a las perturbaciones. Tareas como el «Swallow Balance» (mantener una postura en forma de T sobre una pierna con el torso extendido horizontalmente) o la «Bruce Lee’s Kick» (dar una patada alta equilibrándose sobre una sola pierna) son ejemplos de tareas cuasi-estáticas que ponen a prueba al máximo la capacidad de equilibrio.

Limitaciones de los Métodos Clásicos

La estrategia tradicional de enseñar a los robots a seguir poses obtenidas de capturas de movimiento no es eficaz para tareas que demandan un alto nivel de equilibrio. Existen tres obstáculos principales: La inestabilidad provocada por fallos en los movimientos de referencia, ya que los datos de captura, especialmente los basados en vídeo, y su adaptación al robot introducen imprecisiones que comprometen la estabilidad en situaciones de equilibrio difíciles. Las complicaciones en el aprendizaje debido a las diferencias físicas entre humanos y humanoides; seguir al pie de la letra el movimiento humano no siempre garantiza la estabilidad del robot por sus distintas estructuras corporales y centros de masa. Finalmente, la diferencia entre la simulación y el mundo real, donde el ruido de los sensores (como los IMU o VIO) y las dinámicas que no se pueden modelar completamente en la simulación causan inestabilidad y un rendimiento inferior en el robot real.

HuB: Un Enfoque Integrado para el Equilibrio Avanzado

HuB se define como una «estructura unificada que combina la mejora del movimiento de referencia, el aprendizaje de políticas que tienen en cuenta el equilibrio y el entrenamiento para una mayor solidez entre la simulación y la realidad». Cada parte de HuB está diseñada para solucionar un problema específico:

Componentes Clave y su Impacto

La mejora del movimiento de referencia aumenta la calidad y la viabilidad física de los movimientos que sirven de guía. Esto incluye inicializar el proceso de adaptación con la pose humana SMPL para que la convergencia sea más rápida y precisa, corregir la posición del pie de apoyo para evitar deslizamientos, filtrar las trayectorias donde el centro de masa proyectado se aleja demasiado del pie de apoyo, y estabilizar las transiciones extendiendo las fases de doble apoyo.

El aprendizaje de políticas conscientes del equilibrio permite ejecutar movimientos desafiantes de manera estable. Se relaja el objetivo de seguir la referencia para que el robot pueda explorar comportamientos más estables cerca de la trayectoria deseada, ajustando finamente el centro de masa según su propia dinámica. Se incorporan recompensas que guían el aprendizaje hacia movimientos físicamente coherentes, como mantener la proyección horizontal del centro de masa dentro de la base de apoyo, penalizar los contactos de pie incorrectos o evitar que los pies se acerquen demasiado.

El entrenamiento de robustez sim-a-real mejora el comportamiento del robot del entorno simulado al real. Se entrena al robot para seguir la referencia localmente, ignorando la información de odometría global para mitigar el ruido del VIO. Se perturba la observación de la orientación del robot con un ruido que simula el de los sensores IMU. También se aplican pequeñas y frecuentes perturbaciones externas al robot durante el entrenamiento para imitar el «temblor» del mundo real y aumentar su resistencia a las imprecisiones del modelo de simulación.

Validación Experimental en el Robot Unitree G1

Los resultados de simulación muestran que HuB alcanza una tasa de éxito del 100% en tareas complejas, mientras que los métodos convencionales fallan. HuB también reduce el deslizamiento, el tiempo en el aire, la tasa de acción y los errores de seguimiento. Estudios de ablación confirman que cada componente de HuB es crucial. Los resultados de retargeting demuestran que la inicialización con SMPL produce menores pérdidas. En el mundo real, HuB ejecuta con éxito las tareas de equilibrio con estabilidad y fluidez. El Unitree G1 mantiene poses extremas como el Swallow Balance y la patada de Bruce Lee, algo que los métodos base no logran. HuB muestra una gran tolerancia a las perturbaciones, recuperándose rápidamente de impactos. Además, completa múltiples ejecuciones consecutivas de la patada de Bruce Lee sin fallos, demostrando fiabilidad y consistencia.

Aunque HuB es muy efectivo para tareas de equilibrio, sus componentes están diseñados específicamente para ellas y podrían no ser directamente aplicables a otras habilidades robóticas. Las políticas entrenadas, si bien logran comportamientos complejos, tienen una generalización limitada a movimientos novedosos. El futuro apunta al desarrollo de políticas que permitan a los robots adquirir habilidades motoras más versátiles y fiables en el mundo real.

Preguntas y Respuestas

¿Qué es el proyecto HuB en robótica humanoide?

HuB (Humanoid Balance) es un proyecto que utiliza aprendizaje por refuerzo para mejorar el equilibrio de robots humanoides en tareas complejas y extremas.

¿Cuáles son los principales desafíos que busca resolver HuB?

HuB aborda la inestabilidad por errores en los datos de movimiento, las dificultades de aprendizaje por diferencias físicas entre humanos y robots, y la brecha entre el rendimiento en simulación y en el mundo real.

¿Cómo logra HuB mejorar el equilibrio en los robots?

HuB mejora el equilibrio mediante tres componentes clave: refinando los movimientos de referencia, aprendiendo políticas conscientes del equilibrio y entrenando para una mayor robustez entre la simulación y la realidad.

¿En qué robot se ha validado el enfoque de HuB?

El enfoque de HuB ha sido validado experimentalmente en el robot humanoide Unitree G1.

¿Qué tipo de tareas de equilibrio extremas puede realizar un robot usando HuB?

Un robot usando HuB puede realizar tareas como el «Swallow Balance» y la «Bruce Lee’s Kick», manteniendo la estabilidad incluso bajo perturbaciones externas.