サイトアイコン IT & ライフハックブログ|学びと実践のためのアイデア集

HY-Motion 1.0とは?テキストだけで3D人間モーションを生成するTencentのオープンソースモデルを徹底解説(特徴・使い方・必要GPU・ライセンス注意点)

woman walking on fence

Photo by Sebastian Voortman on Pexels.com

HY-Motion 1.0とは?テキストだけで3D人間モーションを生成するTencentのオープンソースモデルを徹底解説(特徴・使い方・必要GPU・ライセンス注意点)

  • HY-Motion 1.0は、テキスト指示から「ボーン(スケルトン)ベースの3D人間モーション」を生成できる、Tencent(テンセント)Hunyuanチームのモデル群です。
  • 技術の核はDiffusion Transformer(DiT)とFlow Matchingで、10億パラメータ級までスケールさせた点が特徴として説明されています。
  • 標準モデル(1.0B)と軽量版(0.46B)が公開され、最小VRAM目安はそれぞれ26GB/24GBとされています(条件調整で抑える工夫も案内あり)。
  • 使う前に必ず確認したいのが「ライセンス」。EU・英国・韓国では本ライセンスが適用外で、さらに一定規模(MAUが大きい場合)は別途ライセンス申請が求められます。

HY-Motion 1.0は、3Dアニメーション制作における“いちばん時間が溶けやすい工程”――モーション作り――を、テキスト入力から短距離で引き寄せるためのAIモデルです。ここでいうモーションは、映像としての最終レンダリングではなく、3Dキャラクターに適用できる骨格(スケルトン)アニメーションのデータとして出力されるイメージです。手付けやモーションキャプチャが強い世界に、言語から入っていける入り口を作ってくれる存在、と考えると分かりやすいと思います。

この記事では、公開されている一次情報(GitHub、Hugging Face、arXiv、ライセンス本文、国内報道)に基づいて、HY-Motion 1.0で「何ができるのか」「どんな仕組みなのか」「どれくらいの計算資源が必要か」「どう使い始めるか」「商用や配布で何に注意すべきか」を、できるだけ手触りのある形でまとめます。途中に、実制作に落とし込みやすいプロンプト例や、導入の段取りサンプルも入れていますので、読み終えたら“試す前提”で準備できるはずです。


HY-Motion 1.0でできること:テキスト→3D人間モーション(スケルトン)生成

HY-Motion 1.0の中心機能は、自然言語のテキストプロンプト(指示文)から、3D人間の動きを骨格ベースのアニメーションとして生成することです。公式の説明では、生成結果は「さまざまな3Dアニメーションのパイプラインに統合できる」とされており、用途としてはゲーム、映像、VR/AR、研究用途など、幅広い制作フローの“入口”に置きやすいモデルだと読み取れます。

また、論文概要では、3D人間モーション生成モデルとして大規模化し、指示への追従(instruction-following)を強めたことが主張されています。さらに、200以上のモーションカテゴリをカバーする旨も記されています。
国内向けの報道でも、椅子への着席、ランニング、ジャンプなどの基礎動作から、スポーツ動作、ダンス、太極拳のような表現まで例示され、動作の自然さや破綻の少なさを狙っていることが説明されています。

ここで大事なのは、HY-Motion 1.0が「映像作品をそのまま作ってくれる魔法」ではなく、「キャラクターアニメーション制作の材料(モーション)を作るAI」だという点です。完成品に到達するには、リグへの適用、場合によってはリターゲット、シーン側の演出やカメラ、編集などが必要になります。でも逆に言えば、モーションを“素早く出す”工程が短くなるだけで、制作全体の試行回数が増え、企画や演出の質に時間を回しやすくなります。


どういう人に刺さる?想定読者を具体的に(制作・開発・研究の現場目線)

HY-Motion 1.0の恩恵が大きいのは、次のような方々です。ここは少し丁寧に書きますね。導入判断は、機能の派手さより「自分の仕事のどこが軽くなるか」で決まることが多いからです。

1) ゲーム開発者(特にプロトタイピングが多いチーム)

ゲーム制作では、企画・プランナー・アニメーター・実装側で“動きの合意”を作るのが大仕事です。たとえば「剣を抜いて一歩踏み込んで斬る」を作るとして、手付けで作り込む前に、まず“雰囲気”の叩き台が必要になります。HY-Motion 1.0は、ここにテキストから入れる可能性があります。国内報道でも、剣や盾を用いたアクションなどゲーム開発に直結する動作例が示されています。

2) 映像・VFXのプリビズや演出検討を早く回したい方

プリビズでは、厳密な最終品質より「構図と動きの意図」が先に欲しいことが多いです。テキストで動きの方向性を出し、演出の議論を早めに始められるなら、後工程の迷いを減らせます。HY-Motion 1.0は“使い回せるモーション素材の生成”に寄るため、絵コンテと3Dの間を埋めたいときに向きます。

3) 個人クリエイター・同人・インディーで「人手と時間が足りない」方

個人制作で苦しいのは、やりたいことより“作業量”が勝ってしまう瞬間です。HY-Motion 1.0のようなモデルは、モーション制作の入口を短くし、手付けに入る前に「試して捨てる」を増やせます。制作の試行回数は、クオリティの下支えになりやすいので、ここは本当に助かる場面が出ます。

4) 研究・教育(モーション生成、ヒューマンモーション理解、データ拡張など)

論文としての立ち位置が明確で、学習データ(3,000時間超の事前学習、400時間の高品質データで微調整、さらに人間のフィードバックを用いた強化学習)まで体系立てて説明されています。研究者や教育用途では、この“どのように作られたか”が読めること自体が価値になります。


仕組みの要点:DiT+Flow Matching、そして「指示に従う」ための学習段階

HY-Motion 1.0は、Diffusion Transformer(DiT)とFlow Matchingに基づくテキスト→モーション生成モデル群として説明されています。大きな主張は「DiTベースのテキスト→モーションを、10億パラメータ規模へスケールさせた」点で、指示への追従とモーション品質の向上を狙っています。

学習パラダイムは段階的に整理されています。GitHubと国内報道の説明を合わせると、次の流れが明示されています。

  • 3,000時間を超える多様なモーションデータで大規模事前学習(動きの事前分布を広く獲得)
  • 400時間の高品質3Dモーションデータで微調整(動きの滑らかさや細部を改善)
  • 人間のフィードバックや報酬モデルを用いた強化学習(指示の理解と自然さの整合をさらに高める)

さらに国内報道では、曖昧な指示をモデルが理解しやすい構造化指示へ変換するため、パイプライン内にLLM(例としてGemini 2.5 ProやQwen等)を組み込む、といった説明も触れられています。ここは「モーションモデル単体」ではなく「生成パイプラインとしての完成度」を上げる工夫として読めます。


モデル構成と必要なGPU:StandardとLite、VRAM目安と“軽くするコツ”

HY-Motion 1.0シリーズとして公開されているモデルは、少なくとも次の2種類が表で明示されています。

  • HY-Motion-1.0(Standard):1.0B(10億)パラメータ、最小VRAM目安26GB
  • HY-Motion-1.0-Lite:0.46B(4.6億)パラメータ、最小VRAM目安24GB

このVRAM要件は、一般的な“ゲーム用GPU1枚で気軽に”というより、やや制作・研究寄りのスペック感です。ただし、Hugging Face側の案内には、VRAM使用量を抑えるヒントとして「シード数を1にする」「プロンプトは30語未満」「モーション長は5秒未満」といった条件が書かれています。短い動きを多回転で試す使い方なら、現実的な落としどころを作れる可能性があります。

また、GitHubの案内では、GradioアプリがVRAMエラーになる場合に、LLMベースの“プロンプトエンジニアリング機能”を無効化する環境変数が提示されています。つまり、周辺機能を削って本体を優先することで、動作条件を整える考え方が用意されています。

対応OSはmacOS、Windows、Linuxと説明されています。制作環境が混在しがちな現場でも、導入の入口は作りやすい設計です。


使い始め方:ローカル実行(CLI)とデモ(Space)の2ルート

HY-Motion 1.0は、公開された推論コードと学習済みモデルを使って、ローカルで動かす手順が提示されています。大枠は「リポジトリ取得→依存関係→ウェイト配置→推論スクリプト実行」という、比較的オーソドックスな流れです。

記事としてのサンプル手順(雰囲気の把握用)を、一次情報の範囲で置いておきます。細部は環境差が出るので、実際の運用では公式のREADMEと同じ構成で進めるのが安全です。

git clone https://github.com/Tencent-Hunyuan/HY-Motion-1.0.git
cd HY-Motion-1.0/
git lfs pull
pip install -r requirements.txt

# 推論(標準モデル/Lite)
python3 local_infer.py --model_path ckpts/tencent/HY-Motion-1.0
python3 local_infer.py --model_path ckpts/tencent/HY-Motion-1.0-Lite

この“ローカル”が向くのは、バッチ処理(大量の指示文を流す)、機密プロジェクト、あるいは生成結果の管理を自前で行いたい場合です。一方で、触ってみるだけならHugging FaceのSpace(デモ)導線も提示されているので、まず感触を確かめてからローカルへ移る、という順番が取りやすいです。


プロンプトの考え方:短く・具体的に・「1回で全部」を欲張らない

HY-Motion 1.0は“テキスト→モーション”なので、プロンプトが設計図になります。ただし、最初から映画監督のように長い脚本を投げるより、「短い動きを何個も作って繋ぐ」発想のほうが、VRAM制約や試行錯誤のしやすさに合いやすいです。Hugging Faceの案内でも、プロンプト長を30語未満に抑える提案がされているため、短めの指示が実務的です。

ここでは、制作で使いやすい“書き方の型”を3つ置きます。いずれも、モデル固有の文法ではなく、誰が読んでも意図が分かる日本語/英語の指示文設計として役立つ形です(実際に使うときは、短く切って複数回生成するのがおすすめです)。

型A:動作+テンポ+姿勢(最小セット)

  • 例)「ゆっくり立ち上がって、正面を向き、右手を軽く振る」

型B:開始状態→遷移→終了状態(つなぎの自然さを狙う)

  • 例)「椅子に座った状態から立ち上がり、2歩前へ歩いて止まる」

型C:目的(何を表現したいか)を1語だけ足す(演技の方向づけ)

  • 例)「疲れている:肩を落として、重い足取りで歩く(短い距離)」

そして、プロンプトが曖昧になりやすいポイントも押さえておくと安心です。国内報道では、現時点の制限として「人型(Humanoid)に限定」「複雑な感情表現、服装などの視覚的属性、カメラアングル、複数人の相互作用などはサポート外」といった説明がされています。つまり、プロンプトで“映像演出”を細かく指定しても、モーション生成としては反映されない可能性が高い領域があります。


そのまま使えるプロンプト例:制作目的別(コピペOK)

ここからは、実務に落とし込みやすいサンプルです。目的別に、短い指示を複数用意する形にしています。長い一本勝負より、後で繋ぐ前提のほうが運用しやすいからです。

1) ゲーム用・移動と待機(ループ素材の土台)

  • 「自然な歩きで前へ3歩、止まって待機」
  • 「軽く走って前へ2秒、減速して停止」
  • 「待機:呼吸と体重移動だけ(小さめ)」

2) アクション(攻撃・回避の“当たり”を探す)

  • 「右手で剣を抜き、半歩踏み込み、横に斬る」
  • 「しゃがんで避け、すぐに立ち上がる」
  • 「左へ一歩ステップして体勢を整える」

※武器の見た目や当たり判定は別工程なので、まずは“体の流れ”が破綻しないパターンを集めるイメージが合います。国内報道では剣や盾の例も挙げられています。

3) 生活系・自然な所作(映像・VTuber・VRの没入感に効く)

  • 「床を掃く:前屈みでゆっくり腕を動かす」
  • 「本を読む:ベッドに寝そべり、時々ページをめくる動作」
  • 「会話ジェスチャー:両手を使って説明する(大げさすぎない)」

※こういう“地味な所作”は手付けで作るほどでもないけれど、入れたい場面が多いので、生成で素材化できると便利です。


制限事項を先に知る:できること/できないことの境界線

HY-Motion 1.0は万能ではありません。むしろ、境界線を先に理解しておくほど、期待値が適正化されて導入がうまくいきます。

国内向け報道で明示されている制限として、少なくとも次が挙げられています。

  • 生成対象は人型キャラクター(Humanoid)に限定
  • 動物や非人型クリーチャーは非対応
  • 複雑な感情表現や服装など視覚的属性、カメラアングル、複数人の相互作用などはサポート外

この記述から読み取れる実務上のポイントは、「モーションとしての骨格運動は得意でも、映像演出としての“見せ方”まで一気通貫で指定するタイプではない」ということです。だからこそ、使いどころは明確で、モーション素材を素早く作り、後で編集・演出・実装側で整えるフローが合います。


いちばん重要:ライセンス(商用・配布・地域制限)を噛み砕いて理解する

HY-Motion 1.0はオープンに配布されていますが、いわゆるMITやApache 2.0のような“汎用OSSライセンス”とは異なる、専用のコミュニティライセンスが付与されています。Hugging Face上でもライセンス名として「tencent-hunyuan-community」が明示され、LICENSE.txt本文が公開されています。

ここは誤解が起きやすいので、実務に直結する部分だけ、ポイントを分けて整理します(最終判断は必ず条文本文に基づいてくださいね)。

1) 地域(Territory)の制限:EU・英国・韓国は適用外

ライセンスには「EU、英国、韓国には適用されない」と明記され、Territory(適用地域)はそれらを除いた地域と定義されています。つまり、これら地域での利用は、本文の条件だけで正当化できない可能性が高く、法務・契約の観点で慎重さが必要です。

2) 規模が大きいサービスは別途ライセンスが必要(MAU条件)

追加の商用条件として、リリース日時点で、前月の月間アクティブユーザーが一定以上(ライセンス条文では「1 million monthly active users」を超える場合)だと、Tencentにライセンスを申請する必要がある、と書かれています。大規模プラットフォームや人気サービスに統合するケースは、特にここが要注意です。

3) 「他のAIモデルを改善する用途」に使えない(Outputも含む)

利用ルールとして、Tencent HY-Motion 1.0の成果(Outputや結果)を使って、他のAIモデルを改善してはならない、という制限が明記されています(例外として、HY-Motion自身または派生物は除外される趣旨)。研究・データ拡張の計画がある場合、ここは設計段階で必ず確認したいところです。

4) 配布するなら、ライセンス同梱やNoticeなどの条件がある

第三者に配布する場合の条件として、ライセンス文の提供、変更点の明示、Noticeファイルに所定文言を入れる、といった要求が列挙されています。プロジェクトで配布・納品が発生する場合は、制作側だけでなく、運用側(配布形態)も含めて整えておくと安心です。

5) Outputの権利:TencentはOutputに権利を主張しない(ただし責任は利用者側)

ライセンス本文には、Tencentが生成物(Outputs)に権利を主張しない旨が書かれています。一方で、Outputsの利用責任はユーザー側にあることも明確です。制作物として使うなら、素材・権利・安全性のチェック体制は、従来の制作と同じく必要になります。


現場導入のすすめ方:失敗しにくい“小さな導入”の段取り

HY-Motion 1.0は、いきなり制作の中心に据えるより、まず「置き換えやすい工程」から入れるのが安全です。おすすめは次の順番です。

  1. まずは“短い動き”で、生成の傾向を把握する(歩く、止まる、座るなど)
  2. 次に、プロジェクト固有の所作を少量だけ作る(武器の抜刀、挨拶、作業動作など)
  3. 生成物をそのまま採用せず、編集前提で「使える比率」を測る(何割が素材として残るか)
  4. 最後に、量産する(バッチ推論やテンプレ化した指示文で回す)

このとき、VRAM制約や設定調整のヒント(短いプロンプト、短いモーション、シード数など)を守りながら回すと、環境構築が荒れにくいです。


まとめ:HY-Motion 1.0は「モーション制作の入口」を短くする、実務寄りの生成モデル

HY-Motion 1.0は、テキストから3D人間モーション(スケルトン)を生成できるモデル群として公開され、DiT+Flow Matchingを基盤に10億パラメータ級へスケールした点、三段階学習(大規模事前学習→高品質微調整→人間のフィードバックを用いた強化学習)で指示追従を強めた点が、一次情報として説明されています。

一方で、必要VRAMは小さくないため、導入は「短い動きを小さく試す」運用設計が鍵になります。
そして何より、利用前にライセンスの地域制限やMAU条件、他モデル改善への利用制限などを把握しておくことが、制作現場の事故を防ぐ最短ルートです。

“アニメーションを自動化する”というより、“アニメーション制作の試行回数を増やす”道具として見ると、HY-Motion 1.0はとても現実的です。あなたの制作フローの中で、まずは一番つらいモーション工程の、いちばん軽いところから試してみてくださいね。


参考リンク

モバイルバージョンを終了