¿Qué es HY-Motion 1.0? Un análisis profundo del modelo de Tencent de código abierto que genera movimiento humano 3D a partir de texto (funciones, cómo usarlo, GPU requerida y advertencias sobre la licencia)
- HY-Motion 1.0 es una familia de modelos del equipo Hunyuan de Tencent que puede generar movimiento humano 3D basado en huesos/esqueleto a partir de instrucciones en texto.
- El núcleo técnico se describe como Diffusion Transformer (DiT) + Flow Matching, escalado a la clase de miles de millones de parámetros.
- Se publican un modelo estándar (1.0B) y un modelo ligero (0.46B), con orientación mínima de VRAM de 26GB / 24GB respectivamente (con consejos para reducir el uso mediante ajustes).
- Antes de usarlo, debes revisar la licencia: la licencia no aplica en la UE, el Reino Unido y Corea del Sur, y para servicios suficientemente grandes (MAU elevado) debes solicitar una licencia adicional.
HY-Motion 1.0 es un modelo de IA orientado a acercarte mediante texto a la parte más lenta de la producción de animación 3D: crear movimiento. El “movimiento” aquí no es el vídeo renderizado final, sino datos de animación en forma de movimiento de esqueleto (rig) que puedes aplicar a un personaje 3D. En un mundo dominado por el keyframing manual y la captura de movimiento, puedes pensar en HY-Motion 1.0 como una “entrada” que permite empezar desde el lenguaje.
A partir de fuentes primarias públicas (GitHub, Hugging Face, arXiv, el texto de licencia y cobertura local), este artículo resume de forma práctica y “hands-on”: qué puede hacer HY-Motion 1.0, cómo funciona, qué cómputo requiere, cómo empezar a usarlo y qué vigilar en uso comercial y redistribución. También incluyo ejemplos de prompts y un flujo de adopción de muestra para que puedas prepararte para probarlo después de leer.
Qué puede hacer HY-Motion 1.0: generación de texto → movimiento humano 3D (esqueleto)
La función central de HY-Motion 1.0 es generar movimiento humano 3D como animación basada en esqueleto a partir de prompts en lenguaje natural. Las descripciones oficiales indican que las salidas pueden “integrarse en una variedad de pipelines de animación 3D”, lo que sugiere que puede servir como punto de entrada para flujos de trabajo en juegos, cine/animación, VR/AR e investigación.
El resumen del paper afirma que el modelo se escaló para text-to-motion y se reforzó para seguir instrucciones, y también menciona cobertura de más de 200 categorías de movimiento.
La cobertura local cita de forma similar ejemplos que van desde acciones básicas como sentarse, correr y saltar hasta movimientos deportivos, danza y tai chi, enfatizando naturalidad y menos fallos.
Lo importante es que HY-Motion 1.0 no es una herramienta mágica que produzca una toma de película terminada. Es una IA que genera assets de movimiento para animación de personajes. Para llegar a un resultado final, todavía necesitas aplicar el movimiento a tu rig, a menudo retargetearlo, y luego encargarte de puesta en escena, cámara, iluminación, edición, etc. Pero si el paso de “obtener movimiento rápido” se acorta, puedes iterar más, mejorando la planificación y la dirección porque liberas tiempo para decisiones creativas de mayor nivel.
¿A quién beneficia más? Usuarios objetivo concretos (perspectivas de producción/desarrollo/investigación)
HY-Motion 1.0 suele ayudar más en los siguientes casos. Aquí entro en detalle porque las decisiones de adopción a menudo dependen menos de funciones llamativas y más de “qué parte de mi trabajo se vuelve más ligera”.
1) Desarrolladores de juegos (sobre todo equipos que prototipan con frecuencia)
En la producción de juegos, lograr consenso sobre “cómo debe moverse” entre diseñadores, animadores e ingenieros puede ser un gran esfuerzo. Por ejemplo, antes de crear a mano una acción como “desenfundar una espada, avanzar y cortar”, a menudo necesitas primero un boceto de movimiento. HY-Motion 1.0 podría permitir empezar desde texto para ese borrador inicial. La cobertura local también menciona movimientos relevantes para juegos como acciones de espada y escudo.
2) Equipos de cine/VFX que quieren iterar previs y blocking más rápido
En previs, a menudo necesitas más la intención del movimiento y la composición que el pulido final. Si puedes generar la dirección del movimiento desde texto y empezar antes la discusión de dirección, reduces confusión más adelante. Dado que HY-Motion 1.0 está orientado a generar materiales de movimiento reutilizables, puede encajar bien entre storyboards y blocking 3D.
3) Creadores en solitario / equipos indie con poco tiempo y personal
En producción en solitario, el “volumen de trabajo” suele superar la ambición. Un modelo como HY-Motion 1.0 puede acortar la entrada a la creación de movimiento e incrementar los ciclos de “probar y descartar” antes del ajuste manual. Más iteración suele conducir a mejor calidad, así que esto puede ser realmente útil.
4) Investigación y educación (generación de movimiento, comprensión de movimiento humano, aumento de datos, etc.)
La postura de investigación del proyecto es explícita, y el pipeline de datos de entrenamiento se describe de forma estructurada (preentrenamiento con 3.000+ horas, fine-tuning con 400 horas de datos de alta calidad, más RLHF). Para investigación/educación, el hecho de poder leer “cómo se hizo” es valioso por sí mismo.
Mecanismo clave: DiT + Flow Matching, y entrenamiento multietapa para “seguir instrucciones”
HY-Motion 1.0 se describe como una familia de modelos de generación text-to-motion construida sobre Diffusion Transformer (DiT) y Flow Matching. La afirmación principal es escalar un modelo text-to-motion basado en DiT a alrededor de ~1B de parámetros para mejorar el seguimiento de instrucciones y la calidad del movimiento.
El paradigma de entrenamiento se presenta por etapas. Combinando GitHub y explicaciones locales, el pipeline sería así.
- Preentrenamiento a gran escala con 3.000+ horas de datos de movimiento diversos (aprende un “prior” amplio de movimiento)
- Fine-tuning con 400 horas de datos de movimiento 3D de alta calidad (mejora suavidad y detalles)
- Aprendizaje por refuerzo usando feedback humano y/o un modelo de recompensa (alineación adicional de comprensión de instrucciones y naturalidad)
La cobertura local también menciona que, para convertir prompts vagos en instrucciones estructuradas que el modelo pueda seguir con más fiabilidad, el pipeline puede incorporar un LLM (se citan ejemplos como Gemini 2.5 Pro y Qwen, etc.). Esto se lee como un intento de mejorar la integridad del pipeline global de generación en lugar de depender solo del modelo de movimiento.
Modelos y GPU requerida: estándar vs. lite, orientación de VRAM y “cómo hacerlo más ligero”
Al menos los dos modelos siguientes se listan explícitamente.
- HY-Motion-1.0 (Estándar): 1.0B parámetros, VRAM mínima recomendada 26GB
- HY-Motion-1.0-Lite: 0.46B parámetros, VRAM mínima recomendada 24GB
Este requisito de VRAM no está en la zona de “GPU gaming casual en una sola tarjeta”; se acerca más a setups de producción/investigación. Sin embargo, la guía en Hugging Face incluye consejos para reducir el uso de VRAM, como “poner seed count en 1”, “mantener prompts por debajo de 30 palabras” y “mantener la duración del movimiento por debajo de 5 segundos”. Si generas muchos movimientos cortos e iteras, puedes encontrar un equilibrio práctico.
Las instrucciones de GitHub también proporcionan una variable de entorno para desactivar una función de “prompt engineering” basada en LLM si la app Gradio da errores por VRAM. En otras palabras, puedes priorizar el modelo principal apagando funciones auxiliares para que tu entorno funcione con más probabilidad.
Los sistemas operativos compatibles se describen como macOS, Windows y Linux, lo cual ayuda en entornos de producción mixtos.
Cómo empezar: dos vías—ejecución local (CLI) y demo (Space)
HY-Motion 1.0 ofrece código de inferencia y pesos preentrenados, con un flujo bastante estándar: clonar repo → instalar dependencias → colocar pesos → ejecutar scripts de inferencia.
Aquí tienes una muestra del “sentido de los pasos” basada en fuentes primarias (los detalles varían según el entorno, por lo que lo más seguro es seguir la estructura del README oficial).
git clone https://github.com/Tencent-Hunyuan/HY-Motion-1.0.git
cd HY-Motion-1.0/
git lfs pull
pip install -r requirements.txt
# Inference (Standard / Lite)
python3 local_infer.py --model_path ckpts/tencent/HY-Motion-1.0
python3 local_infer.py --model_path ckpts/tencent/HY-Motion-1.0-Lite
La ejecución local es adecuada para generación por lotes (muchos prompts), proyectos confidenciales o cuando quieres gestionar las salidas por tu cuenta. Si solo quieres “probarlo primero”, también se presenta un Hugging Face Space (demo), lo que facilita tocarlo antes de comprometerte con una configuración local.
Estrategia de prompts: cortos, específicos y no intentes meterlo todo en una sola generación
Como HY-Motion 1.0 es text-to-motion, tu prompt es el plano. Pero en lugar de lanzar un “guion de director” largo, suele ser más práctico generar varios movimientos cortos y unirlos—esto encaja mejor con las limitaciones de VRAM y la iteración. Hugging Face también sugiere mantener los prompts por debajo de 30 palabras, lo que refuerza que los “prompts cortos” son pragmáticos.
Aquí tienes tres plantillas de prompts que funcionan bien en producción. No son sintaxis específica del modelo; son patrones generales de redacción de instrucciones que puedes aplicar en japonés o inglés (y, en la práctica, se recomienda dividirlos en múltiples generaciones).
Plantilla A: Acción + tempo + postura (conjunto mínimo)
- Ejemplo: “Slowly stand up, face forward, and lightly wave the right hand.”
Plantilla B: Estado inicial → transición → estado final (para conectar de forma natural)
- Ejemplo: “From sitting on a chair, stand up, walk forward two steps, and stop.”
Plantilla C: Añadir una palabra de “intención/emoción” (para guiar la interpretación)
- Ejemplo: “Tired: shoulders lowered, heavy steps while walking a short distance.”
También ten en cuenta dónde los prompts pueden volverse demasiado vagos. La cobertura local describe limitaciones actuales como “solo humanoide”, y que actuación emocional compleja, atributos visuales como ropa, ángulos de cámara e interacción entre varias personas no están soportados. Por lo tanto, especificar cinematografía detallada puede no traducirse en el movimiento de esqueleto generado.
Ejemplos de prompts listos para usar (copiar/pegar OK), por objetivo de producción
A continuación, ejemplos prácticos organizados por objetivo. La idea es preparar múltiples instrucciones cortas en lugar de apostar todo a un prompt largo, porque eso suele ser más fácil de operar y luego de unir.
1) Movimiento de juego + idle (materiales base de bucle)
- “Walk naturally forward three steps, stop, and idle.”
- “Run lightly forward for 2 seconds, slow down, and stop.”
- “Idle: only breathing and weight shift (subtle).”
2) Acción (encontrar un buen “golpe” para atacar/esquivar)
- “Draw a sword with the right hand, step in half a step, and slash sideways.”
- “Crouch to dodge, then stand up quickly.”
- “Step left once and reset stance.”
Los visuales del arma y los hitboxes son pasos aparte, así que lo mejor es recopilar primero patrones donde el flujo corporal no se rompa. La cobertura local también ofrece ejemplos de espada/escudo.
3) Gestos cotidianos (útiles para cine/VTuber/VR)
- “Sweep the floor: lean forward slightly and move arms slowly.”
- “Read a book: lie on a bed and occasionally turn pages.”
- “Conversation gesture: explain with both hands (not exaggerated).”
Estos “gestos mundanos” suelen ser demasiado pequeños como para justificar animarlos a mano desde cero, pero los quieres con frecuencia—por lo que generarlos como assets puede ser útil.
Conoce primero los límites: la frontera entre lo que puede / no puede hacer
HY-Motion 1.0 no es universal. En la práctica, la adopción es más fácil cuando entiendes pronto los límites y ajustas expectativas.
Al menos las siguientes limitaciones se citan explícitamente en la cobertura local.
- Los objetivos se limitan a personajes humanoides
- No se admiten animales ni criaturas no humanoides
- No se admiten expresión emocional compleja, atributos visuales como ropa, ángulos de cámara, interacción multijugador, etc.
Operativamente, esto sugiere que el modelo es fuerte generando movimiento de esqueleto, pero no especificando “dirección cinematográfica” de principio a fin. Por eso encaja mejor cuando generas rápidamente assets de movimiento y luego los refinas con edición, dirección e implementación.
La parte más importante: licencia (uso comercial / redistribución / restricciones territoriales), explicada con claridad
HY-Motion 1.0 se distribuye abiertamente, pero no usa una licencia OSS de propósito general como MIT o Apache 2.0. Usa una licencia comunitaria dedicada. En Hugging Face, se especifica el nombre de licencia “tencent-hunyuan-community”, y el archivo LICENSE.txt está disponible públicamente.
Como esta área es fácil de malinterpretar, aquí van los puntos prácticos clave (toma siempre decisiones finales basadas en el texto real de la licencia):
1) Restricción territorial: se excluyen la UE, el Reino Unido y Corea del Sur
La licencia indica explícitamente que no aplica en la UE, el Reino Unido y Corea del Sur, definiendo el Territorio como regiones que los excluyen. El uso en esas regiones puede no estar justificado solo por los términos de la licencia, por lo que se requiere cautela legal/contractual adicional.
2) Servicios a gran escala requieren solicitar una licencia adicional (condición de MAU)
La licencia establece que si tus usuarios activos mensuales superan un umbral (el texto dice “1 millón de usuarios activos mensuales” en el mes anterior en el momento de la publicación), debes solicitar a Tencent una licencia aparte. Plataformas grandes y servicios populares que integren el modelo deberían tratar esto como un punto de riesgo mayor.
3) No puedes usarlo para mejorar otros modelos de IA (incluyendo mediante salidas)
Una restricción indica que no debes usar los resultados de HY-Motion 1.0 (incluidas las salidas) para mejorar otros modelos de IA (con una excepción que sugiere que HY-Motion en sí o derivados se tratan de forma diferente). Si tu plan incluye investigación/aumento de datos para entrenar otros modelos, conviene revisarlo en la fase de diseño.
4) La redistribución exige incluir licencia/aviso y documentar cambios
Las condiciones de distribución incluyen proporcionar el texto de licencia, declarar modificaciones e incluir la redacción requerida en un archivo Notice. Si tu proyecto implica enviar/entregar a terceros, coordina no solo producción sino también operaciones de distribución.
5) Derechos de salida: Tencent no reclama derechos sobre las salidas (pero la responsabilidad es tuya)
La licencia dice que Tencent no reclama derechos sobre las salidas generadas. Al mismo tiempo, aclara que la responsabilidad del uso de las salidas recae en el usuario. Si usas las salidas en producción, sigues necesitando tus verificaciones habituales de materiales/derechos/seguridad, igual que en pipelines tradicionales.
Plan práctico de adopción: una “introducción pequeña” con baja probabilidad de fracaso
En lugar de poner HY-Motion 1.0 en el centro de producción de inmediato, es más seguro empezar por un subpaso reemplazable. Secuencia recomendada:
- Empieza con movimientos cortos para entender la tendencia de generación (caminar/parar/sentarse, etc.)
- Genera una pequeña cantidad de gestos específicos del proyecto (desenfundar arma, saludo, movimientos de trabajo, etc.)
- No adoptes las salidas tal cual: mide la “tasa utilizable” asumiendo edición (qué porcentaje se convierte en assets utilizables)
- Luego escala (inferencia por lotes, prompts con plantillas)
Seguir los consejos para reducir VRAM (prompts cortos, duración corta, ajustes de seed) ayuda a que la configuración del entorno no se vuelva complicada.
Resumen: HY-Motion 1.0 es un modelo práctico que acorta la “entrada” a la creación de movimiento
HY-Motion 1.0 se publica como una familia de modelos que genera movimiento humano 3D basado en esqueleto a partir de texto. Las fuentes primarias describen DiT + Flow Matching, escalado a la clase de miles de millones de parámetros, y un pipeline de entrenamiento por etapas (preentrenamiento a gran escala → fine-tuning de alta calidad → RL con feedback humano) para mejorar el seguimiento de instrucciones.
Por otro lado, el requisito de VRAM no es pequeño, así que el diseño operativo—“probar primero movimientos pequeños y cortos”—es crítico para la adopción.
Y, sobre todo, entender las restricciones de licencia (restricciones territoriales, condición de MAU, restricciones sobre usar salidas para mejorar otros modelos, etc.) antes de usarlo es el camino más corto para evitar accidentes reales en producción.
Más que “automatizar la animación”, es más realista ver HY-Motion 1.0 como una herramienta que incrementa el número de iteraciones en producción de animación. Pruébalo primero en la porción más ligera de tu trabajo de movimiento más doloroso.
Enlaces de referencia
- HY-Motion 1.0 (repositorio en GitHub)
- HY-Motion 1.0 (página del modelo en Hugging Face)
- TENCENT HY-MOTION 1.0 COMMUNITY LICENSE AGREEMENT (LICENSE.txt en Hugging Face)
- Paper: HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation (arXiv)
- Noticias en japonés: resumen del lanzamiento de HY-Motion 1.0 (CGWORLD)
