code projected over woman
Photo by ThisIsEngineering on Pexels.com
目次

【決定版】Hierarchical Reasoning Model(HRM)とは何か——脳に学ぶ“段階的推論”の仕組み、従来LLMとの違い、そしてローカル実行まで(2025年8月版)

先に要点(インバーテッド・ピラミッド)

  • HRM(Hierarchical Reasoning Model)は、脳の階層性と複数の時間スケールをまねた再帰型(リカレント)アーキテクチャ「ゆっくり考える司令塔(H)×素早く詰める作業者(L)」の2モジュールが入れ子で回り、**深い計算(探索・バックトラック)**を“言語に出さず”中間表現の中で進めます。
  • 学習の要点は、BPTT(誤差逆伝播の時間展開)に頼らず1ステップ近似勾配」で訓練でき、メモリ常量・安定性を確保。さらに適応計算時間(ACT)停止(halt)シグナルで、必要なら長考、不要なら即答という“計算量の出し入れ”を実現します。
  • ベンチマークでは27Mパラメータ&約1,000例の少量学習で、Sudoku-Extreme30×30迷路の最短経路をほぼ解けるようになり、ARC-AGIでも先行LLMの一部を上回る旨が論文で報告(例:ARC-AGI-1で約40%超の記載)。ただしARC Prizeによる検証では再現値は約32%で、仕組みのどこが効いているかに関する批判的分析も提示されています。話題性は大ですが、実力の読み解きは冷静に
  • ローカル実行公式GitHubが充実。Apache-2.0CUDA 12.6+PyTorchFlashAttentionを入れて、Sudoku/迷路/ARC学習・推論が可能。RTX 4070ラップトップでSudoku学習が約10時間の目安、Hugging Faceの学習済みチェックポイントも案内されています。
  • 名前違いに注意:「Hierarchical Reward Model(階層型報酬モデル)」という別研究も2025年に登場。HRM=Reasoning Modelとは目的も中身も異なるので混同しないでください。

1|HRMの出自とねらい:なぜ「階層×時間差」を持ち込むの?

従来の大規模言語モデル(LLM)はTransformerを固定深さで積み上げる設計ゆえ、“深い計算”(多段の探索やバックトラック)が必要なタスクで限界が見えやすい、と近年の理論・実験が指摘してきました。Chain-of-Thought(CoT)で推論過程を文章に外出しする回避策は有効な一方、分解の揺らぎ長い出力に伴う遅延・コストの問題が残ります。HRMはここを**「言語化の前に、内部で段階的に“考える”」**という発想で裏返し、**内的表現空間(潜在空間)**のなかで計算を重ねる道を拓きました。

ヒントになったのは人間の脳です。脳は層ごとの役割分担異なるリズム(時間スケール)で情報処理を進め、ゆっくり統合する領野速く反応する下位回路反復的にガイドします。HRMはこの理念を高次(H)×低次(L)の再帰モジュールに写し込み、Hが方針を示し、Lが細部を詰め、合意がとれたら次段へという**階層収束(hierarchical convergence)のループを構成。こうして“実効的な深さ”**を稼ぎます。


2|アーキテクチャの核心:H(高次)×L(低次)×停止(halt)

2-1. 2つの再帰モジュール

  • Hモジュール遅く更新。抽象計画や仮説の統合を担う“司令塔”。
  • Lモジュール速く更新。具体的な探索・検証・微調整を担う“作業者”。
    Hは1サイクルに1回、Lはその間に複数回更新し、Lが局所的に収束→Hが一段上の合意という入れ子構造で段階的に解を磨くのがポイントです。

2-2. 学習の工夫:BPTTいらずの「1ステップ近似」

再帰を深く回すとBPTT(Backpropagation Through Time)重く・不安定になりがち。HRMは各段の“最後の状態”だけで勾配を近似する手法を導入し、メモリ使用を一定に保ちながら安定訓練を可能にします。**「深い計算」×「安定学習」**を同時に成立させる設計です。

2-3. ACT(適応計算時間)とhalt(停止)の学習

難しければじっくり、易しければ素早く——HRMは停止シグナルを学習し、計算の回数をタスクごとに最適化します。論文では**ACT(Adaptive Computation Time)や、その安定化(Q-learningの扱い)**についても技術的検討が示され、推論時の計算回数スケーリング(必要に応じて“長考”させる)という運用を支えます。

一言まとめH×L×haltの三点セットで“内部で深く考える”回路を作り、BPTTに頼らない近似学習現実的な訓練を可能にしている——これがHRMの肝です。


3|どこまで強い?:ARC・Sudoku・Mazeと“検証の眼差し”

論文では、約27Mパラメータ約1,000例の小規模学習で、Sudoku-Extreme(難問)30×30迷路の最短経路ほぼ完全に解き、ARC-AGI-140%前後の成績を報告。o3-mini-highClaude 3.7 8Kといったはるかに大きい言語モデルを一部の指標で上回る旨が示され、「小さくても“深く考えられる”」設計の可能性を印象づけました。

一方で、ARC Prize(ベンチ主催チーム)半秘匿データで再評価したところ、ARC-AGI-1で約32%ARC-AGI-2では2%という再現値を報告。性能の源泉分析では、HRMの“階層”そのものの寄与は限定的で、外側の反復ループ(出力→再入力)やACTの使い方、タスク拡張(augmentation)の戦略が寄与している可能性が高い、とする批判的知見も出されています。「パズルID埋め込み」など適用範囲の制約にも言及があり、汎化の度合い方法論の本質をめぐる議論が続いています。

編集メモ:HRMは**“考え方の方向転換”として重要ですが、万能の決着点ではありません。ARC-AGI-2のようなより抽象的・難度の高い課題では、まだ得意・不得意が観察されます。評価・再現は常に最新の検証**も合わせてご確認ください。


4|LLM(Transformer)とのちがい:CoTから“潜在推論”へ

  • CoT(文章で思考を出す)人に読みやすい反面、言語化の誤差長文化による遅延がつきまといます。
  • HRM言語に出す前内部で多段計算するため、探索・バックトラックのようなアルゴリズム的処理が得意になりやすく、出力は短くできます。
  • 学習安定性1ステップ近似で担保。推論時ACT計算時間をタスク別に最適化

もちろん、自然言語の長文理解・知識回収など**“広い常識+流暢な表現”**が要る場面では、巨大LLMの総合力が勝つことも多いです。タスクごとの棲み分けが現実的な戦略になります。


5|混同注意:「Hierarchical Reward Model」もあるけれど別物です

2025年には**「階層型の報酬モデル(Hierarchical Reward Model)」という評価指標(PRM系)の研究も公開されています。こちらは推論過程の評価・学習における報酬割り当ての改善が目的で、推論実行の本体であるHRM(Reasoning Model)とは狙いも設計も違います**。略称が同じHRMで紛れますので、文脈で必ず区別してください。


6|ローカルで使う:環境構築から学習・推論まで“最小の道筋”

公式GitHub(Apache-2.0)学習・評価スクリプトデータビルダーを提供しています。ここではLinux+CUDA環境を前提に、最短のセットをご紹介します(要点は公式Readmeの写経+編集部注)。

6-1. 前提(なるべくそのまま)

  • OS/ドライバ:Linux、NVIDIAドライバ
  • CUDA12.6系(例:12.6.3)
  • PyTorch:CUDA 12.6対応ビルド
  • 追加FlashAttention(Hopperはv3、Ampere以下はv2)、packaging ninja wheel ほかビルド系Pythonパッケージ、実験管理にWeights & Biases(任意)など。

6-2. 依存のインストール例(抜粋・要アレンジ)

# CUDA 12.6 ツールキット(例)
wget -O cuda_installer.run \
  https://developer.download.nvidia.com/compute/cuda/12.6.3/local_installers/cuda_12.6.3_560.35.05_linux.run
sudo sh cuda_installer.run --silent --toolkit --override
export CUDA_HOME=/usr/local/cuda-12.6

# PyTorch(CUDA 12.6版)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

# FlashAttention(Ampere以下の例)
pip3 install flash-attn

# リポジトリ取得
git clone https://github.com/sapientinc/HRM.git
cd HRM
pip3 install -r requirements.txt

(※GPU世代によりFlashAttentionの手順が異なります。Hopperはソースからv3を入れる案内。詳しくは公式Readmeへ。)

6-3. まずは「Sudoku-Extreme」で動かす

データの用意→学習の順で回します。RTX 4070(ノート)で約10時間が目安。

# データ生成(1,000例×増幅)
python dataset/build_sudoku_dataset.py \
  --output-dir data/sudoku-extreme-1k-aug-1000 \
  --subsample-size 1000 --num-aug 1000

# 学習(単GPU例)
OMP_NUM_THREADS=8 python pretrain.py \
  data_path=data/sudoku-extreme-1k-aug-1000 \
  epochs=20000 eval_interval=2000 \
  global_batch_size=384 \
  lr=7e-5 puzzle_emb_lr=7e-5 \
  weight_decay=1.0 puzzle_emb_weight_decay=1.0

学習済みモデルでの評価はだいたい次の流れです(ARCならevaluate.py+ノートブック)。

# (例)チェックポイントで評価
OMP_NUM_THREADS=8 torchrun --nproc-per-node 8 evaluate.py checkpoint=<CHECKPOINT_PATH>

6-4. すぐ試したい方は「学習済みチェックポイント」

ReadmeにはHugging Faceのリンク(ARC-AGI-2/Sudoku/Maze)がまとまっており、評価から触ることも可能です。まず再現→その後に学習が現実的です。

6-5. 8GPU実験・ARC系の注意

ARCでは公開セット+ConceptARCなど約960例相当を使う構成が提示されます。小標本学習は性能の分散が±2pt程度出ること、Sudokuの後期過学習では数値不安定やQ-learning絡みの揺れが出ることもある、とReadmeに運用注意が書かれています。早期打ち切りも視野に。

編集部のコツ:最初のPoCは**「Sudoku(1,000例)」→「Maze」→「ARC」**の順がスムーズ。グラボ1枚(Ampere級)でもSudokuは到達できるので、成功体験を先に確保しましょう。


7|導入レシピ(現場向け):RAGやエージェントとどう“棲み分け”る?

  • 「構造が硬い問題」(数独、迷路、パズル規則学習、フォーマルな検証)
    HRMの出番。内部で探索・バックトラックを回せるメリットが効きやすい。
  • 「広知識+自然言語理解+文書生成」(FAQ、長文要約、RAG)
    → **LLM(Transformer)**が有利。大規模知識と表現力で速度と品質が揃いやすい。
  • ハイブリッド上位のプランナーをLLM下位の探索をHRM分業する設計も検討価値。停止(halt)探索の深さをコントロールできるのがHRMの強み。

8|よくある疑問(Q&A)

Q1. HRMは「LLMを超えたAI」なの?
A. 領域依存です。パズル・探索のような構造的課題小さなモデルでも強い一方、知識網羅の自然言語タスクでは巨大LLMの総合力が依然優位です。

Q2. どうして小規模・少量学習で強いの?
A. 内部で段階的に“深く考える”ため、CoTの長文化大規模事前学習に頼らずに探索力を得やすい設計だからです。ただし再現検証では、外側ループや拡張の寄与が大きいとの指摘もあります。

Q3. ローカルで動く?GPUは?
A. はいCUDA 12.6+PyTorchFlashAttentionで動かせます。RTX 4070(ノート)でSudoku学習約10Hの目安。Hugging Face学習済みもあり。

Q4. 「Hierarchical Reward Model」と同じ?
A. 別物です。こちらは推論の“評価”モデルで、推論“本体”のアーキテクチャたるHRM(Reasoning Model)とは用途が違います。


9|検証コミュニティからの“注意報”:どう読み解くのがフェア?

ARC Prizeは、HRMのアーキテクチャ自体の寄与は限定的で、外側ループ(出力→再入力)やACTタスク拡張が性能を押し上げている、というアブレーション結果を公表しました。再現値(ARC-AGI-1:32%/ARC-AGI-2:2%)も提示され、再現性汎化への厳密な視線が向けられています。研究は進行形ですので、論文値は参考値第三者検証や後続研究も併読する姿勢が大切です。


10|実装サンプル(最小):学習済みSudokuモデルで推論

以下は学習済みチェックポイントを用いた最小推論のイメージ(擬似コード)。実際は**公式evaluate.py**やノートブックの利用が推奨です。

import torch
from models.hrm import HRM  # 仮のパス:実際はリポジトリ構成に合わせて調整
ckpt = torch.load("checkpoints/sudoku_extreme_1k.pt", map_location="cuda")
model = HRM(**ckpt["config"]).cuda()
model.load_state_dict(ckpt["state_dict"])
model.eval()

# 入力はグリッド(例:9x9)。前処理は公式Datasetに準拠。
with torch.no_grad():
    y = model(x, max_halt_steps=8)  # ACT/停止の上限を指定
print(y)

入出力のテンソル仕様公式コードに従ってください。可読化したい場合は**puzzle_visualizer.html**でデータをブラウズできます。


11|対象読者と“効きどころ”(具体)

  • 研究者・アルゴリズムエンジニアCoT以外の道として、潜在推論×階層収束のデザインを検証できます。1ステップ近似勾配BPTTのボトルネックを外す試みとして注目。アブレーション設計の読み解きも必須です。
  • プロダクト開発者(パズル・最適化・検証系)Sudoku/迷路のような構造タスク小型・少量データで攻められる可能性。ACTレイテンシ調整がしやすく、エッジ向けの実装余地も。
  • 情報システム部門/MLOpsApache-2.0オンプレ実行が可能。ログ・停止回数など運用メトリクスをKPI化し、**“長考コスト”**の最適化を回しましょう。
  • 教育・公共“言語化しなくても考えられる”仕組みはSTEM教育の教材にも好適。説明責任のために**可視化(中間状態の段階表示)**を組み合わせると、学習者にも安心です。

12|“30日プラン”:HRMを安全に評価・導入する

  1. 1週目:最小再現
    • Sudoku-Extreme(1,000例)学習→評価実行時間・停止回数分布・正解率を記録。
  2. 2週目:Maze&ARCの触り
    • Maze 30×30を追加。ARCは学習済みチェックポイントで評価から入る。外側ループ回数ACTの有無レイテンシ×精度をAB。
  3. 3週目:ハイブリッド実験
    • LLMプランナー+HRM探索の分業。停止(halt)閾値コスト最適化
  4. 4週目:運用整備
    • ログ標準(《モデル/設定/停止回数/生成日時》)と説明テンプレ再現手順を文書化。**第三者評価(外部ベンチ)**も一度実施。

13|編集部まとめ:HRMは“方向転換”の号砲。評価は冷静に、実装は着実に

  • なぜ新しい? —— 言語に出さず内部で段階的に考える設計で、探索・バックトラック系の深い計算に強み。BPTTを避ける近似学習も魅力です。
  • どこに効く? —— 構造パズル・形式化課題。一方、広知識の自然言語運用巨大LLMが依然得意。棲み分けが鍵。
  • いま何をする? —— GitHubの最小再現→学習済み評価→小実験へ。外側ループ/ACT/タスク拡張の寄与を自データで検証し、過度の一般化を避ける。

主要ソース(一次・高信頼中心)

  • 論文Hierarchical Reasoning Model(Sapient Intelligence, 2025)——H×Lの二層再帰1ステップ近似勾配ACT/停止ARC/Sudoku/Maze成績の報告。
  • 検証・分析:ARC Prize公式ブログ——再現値(ARC-AGI-1 ≈32%/AGI-2 ≈2%)外側ループ・ACT・拡張の寄与適用範囲の制約
  • 実装:公式GitHub(Apache-2.0)——CUDA 12.6/PyTorch/FlashAttentionデータビルダー学習・評価スクリプト学習済みチェックポイントの案内
  • 名称区別Hierarchical Reward Model(PRM強化系、別研究)——目的が異なることの確認用。

投稿者 greeden

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)