Hunyuan3D 2.1: Avance IA 3D
El 13 de junio de 2025, Tencent lanzó Hunyuan3D 2.1, un sistema innovador de generación de contenido 3D mediante Inteligencia Artificial (AIGC). Esta nueva versión supone un paso gigante en la creación de modelos 3D de alta fidelidad y fotorealistas, a partir de imágenes o descripciones de texto. A diferencia de sus predecesores, Hunyuan3D 2.1 se presenta como una solución completamente de código abierto, liberando los pesos completos del modelo y el código de entrenamiento, lo que impulsa la colaboración y la innovación en la comunidad de desarrolladores y creadores.
La gran novedad de Hunyuan3D 2.1 es la integración de la síntesis de texturas Physically-Based Rendering (PBR), que sustituye a los modelos basados en RGB de la versión 2.0. La tecnología PBR simula cómo la luz interactúa con los materiales en el mundo real, permitiendo la creación de texturas con reflejos metálicos sorprendentemente realistas, dispersión subsuperficial y una representación precisa de las micro-superficies geométricas. Esto se traduce en la obtención de activos 3D con calidad de estudio, listos para ser utilizados en diversas industrias como los videojuegos, la realidad virtual (RV), la realidad aumentada (RA), la producción cinematográfica y el diseño industrial.
Marco Completamente de Código Abierto y Accesibilidad
Una de las características más destacadas de Hunyuan3D 2.1 es su naturaleza totalmente de código abierto. Por primera vez, el sistema ofrece los pesos completos del modelo y el código de entrenamiento, lo que brinda a los desarrolladores la libertad de ajustar y ampliar el modelo para una amplia gama de aplicaciones. Esta decisión estratégica marca una diferencia fundamental con Hunyuan3D 2.0, que presentaba componentes de código abierto limitados. La accesibilidad se amplía aún más gracias a su compatibilidad con múltiples sistemas operativos, incluyendo macOS, Windows y Linux. Esta democratización de herramientas avanzadas para la creación 3D tiene el potencial de revolucionar los flujos de trabajo en los juegos, la realidad virtual y el diseño industrial, actuando como una base sólida sobre la cual la comunidad puede construir y desarrollar.
Síntesis de Texturas PBR: Un Salto Cuantitativo
La implementación de la síntesis de texturas PBR (Physically-Based Rendering) es una innovación crucial y una mejora sustancial en Hunyuan3D 2.1. Al reemplazar el modelo de textura previo basado en RGB, esta tecnología aprovecha la simulación de materiales basada en la física para generar texturas que reflejan una interacción de luz fotorrealista, como reflejos metálicos y dispersión subsuperficial. PBR es un método de sombreado que simula el comportamiento físico de la luz y su interacción con los materiales, basándose en principios como la conservación de la energía. Las texturas PBR incluyen mapas de albedo (color base), normal (detalles de superficie), rugosidad (nitidez de los reflejos) y metalicidad (propiedades metálicas), lo que permite resultados más realistas y detallados, haciendo que los activos sean genuinamente utilizables en flujos de trabajo profesionales. En particular, Hunyuan3D-Paint integra un módulo de multi-atención alineado espacialmente y 3D-Aware RoPE para mejorar la coherencia entre vistas y una estrategia de entrenamiento que produce mapas de albedo sin luz.
Mejora de la Precisión Geométrica y Rendimiento
Hunyuan3D 2.1 ha logrado una notable mejora en la precisión geométrica, multiplicando por diez su rendimiento en comparación con la versión 2.0. Esto se traduce en la creación de modelos 3D significativamente más detallados y precisos, lo cual es de vital importancia para la representación de objetos complejos. Las evaluaciones cuantitativas demuestran la superioridad de Hunyuan3D-DiT sobre modelos comparables en la generación de formas. Asimismo, Hunyuan3D-Paint exhibe un rendimiento superior en la síntesis de texturas, con mejoras notables en métricas clave. Los resultados visuales no hacen más que confirmar la capacidad de Hunyuan3D-DiT para capturar detalles intrincados y producir mallas estancas.
Arquitectura de Dos Etapas para Mayor Flexibilidad
El sistema de Hunyuan3D 2.1 se estructura en dos componentes principales: Hunyuan3D-DiT y Hunyuan3D-Paint. Esta arquitectura de dos etapas, que separa la generación de formas y texturas, es una estrategia probada en modelos de reconstrucción a gran escala y permite una mayor flexibilidad en diversas aplicaciones industriales.
Hunyuan3D-DiT: Generación de Formas
Este componente utiliza un autoencoder (Hunyuan3D-ShapeVAE) para comprimir la forma de un activo 3D en tokens continuos dentro de un espacio latente. Hunyuan3D-ShapeVAE emplea un muestreo de superficie de malla para generar bordes afilados y una longitud de token variacional para capturar detalles geométricos intrincados. Un modelo de difusión basado en flujo es el encargado de predecir secuencias de tokens de objeto a partir de una imagen de entrada. Finalmente, el ShapeVAE predice la Función de Distancia Signada (SDF), la cual se convierte en una malla triangular mediante el algoritmo de Marching Cubes.
Hunyuan3D-Paint: Síntesis de Texturas
Por su parte, Hunyuan3D-Paint es un modelo de difusión de múltiples vistas que genera mapas de albedo, metálicos y de rugosidad para las mallas creadas. Este componente integra un módulo de multi-atención alineado espacialmente para asegurar la correcta alineación de los mapas de albedo y MR. Además, incorpora 3D-Aware RoPE para mejorar la consistencia entre las diferentes vistas y utiliza una estrategia de entrenamiento invariante a la iluminación para producir mapas de albedo sin la influencia de la luz.
Requisitos de Hardware y Uso
Si bien Hunyuan3D 2.1 ofrece capacidades impresionantes, es importante considerar sus requisitos de hardware. La generación de formas necesita 10 GB de VRAM, la generación de texturas requiere 21 GB, y la generación conjunta de formas y texturas asciende a 29 GB. El modelo ha sido probado con éxito en una GPU Nvidia A100, utilizando Python 3.10 y PyTorch 2.5.1+cu124. A pesar de estos requisitos de VRAM, el código es accesible a través de una API similar a diffusers
y una aplicación Gradio, lo que facilita su uso a la comunidad. Sin embargo, es importante señalar que las mallas generadas pueden ser densas, llegando hasta los 600.000 triángulos, lo que podría requerir una retopología manual para su uso en juegos AAA o aplicaciones que demanden una geometría optimizada. Además, existen posibles restricciones regionales en la Unión Europea, el Reino Unido y Corea del Sur que podrían limitar el acceso a algunos usuarios.
Preguntas y Respuestas sobre Hunyuan3D 2.1
¿Qué es Hunyuan3D 2.1?
Hunyuan3D 2.1 es un sistema de Inteligencia Artificial (AIGC) desarrollado por Tencent, capaz de transformar imágenes o descripciones de texto en modelos 3D de alta fidelidad y fotorealistas.
¿Cuál es la principal novedad de Hunyuan3D 2.1?
La principal novedad es su naturaleza completamente de código abierto, liberando los pesos completos del modelo y el código de entrenamiento, y la incorporación de la síntesis de texturas Physically-Based Rendering (PBR).
¿Qué beneficios aporta la tecnología PBR en Hunyuan3D 2.1?
La tecnología PBR simula la interacción física de la luz con los materiales, lo que permite crear texturas con reflejos metálicos realistas, dispersión subsuperficial y una representación precisa de las micro-superficies geométricas, resultando en activos 3D de calidad de estudio.
¿Cuáles son los dos componentes principales de Hunyuan3D 2.1?
Los dos componentes principales son Hunyuan3D-DiT, un modelo de generación de formas, y Hunyuan3D-Paint, un modelo de difusión de múltiples vistas para la generación de materiales PBR.
¿Qué requisitos de hardware tiene Hunyuan3D 2.1?
Hunyuan3D 2.1 requiere un VRAM sustancial: 10 GB para la generación de formas, 21 GB para la generación de texturas y 29 GB para la generación conjunta de formas y texturas.