Daisuke Okanohara / 岡野原大輔 @hillbig

Co-founder and CEO of Preferred Networks (PFN). CEO of Matlantis. hillbig.github.io Japan Tokyo Joined January 2008

Tweets

7K
Followers

39K
Following

930
Likes

771

Daisuke Okanohara / 岡野原大輔 @hillbig

5 hours ago

"InfiniteDiffusion: Bridging Learned Fidelity and Procedural Utility for Open-World Terrain Generation" arxiv.org/abs/2512.08309 xandergos.github.io/terrain-diffus…

0 2 9 2K 7

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

5 hours ago

InfiniteDiffusionは、拡散モデルを使って、ゲームのように無限に広がる世界を扱えるようにする手法である。もともと、ゲームや仮想空間における地形生成では、長くPerlin noiseのような手続き的ノイズが使われてきた。これは、seedを一つ与えれば、任意の座標の地形をその場で計算できるというものである。同じseedなら同じ場所には常に同じ地形が現れ、プレイヤーがどこへ移動しても、その周辺だけを生成すればよい。Minecraftを想像するとわかりやすい。この考え方を拡散モデルにも適用し、世界全体を一度に生成しなくても、任意の位置の周辺だけを、整合性を保ったまま生成することを考える。既存研究としてMultiDiffusionがある。これは、大きな画像を一度に生成する代わりに、小さなパッチを重ねながら生成する手法である。各パッチを拡散モデルで少しずつ復元し、重なった領域の予測を平均する。こうすることで、境界の破綻を抑えながら、整合性のある大きな画像を生成できる。 InfiniteDiffusionはこの考え方を無限領域に拡張する。ある領域が必要になったとき、その領域に重なるパッチを調べ、必要な部分だけを遅延評価して生成する。例えば、ある座標 x, y の値が必要な場合、x, y を含む複数の重なり合うパッチを取り出し、それぞれを拡散モデルで生成する。そして、それぞれのパッチが予測した x, y の値を各ステップで重み付き平均することで、最終的な値を得る。 seedを固定すると、無限平面上の初期ノイズ場が決定的に定まる。そのため、生成結果をすべて保存しておく必要はない。同じseed、同じ座標であれば、再計算しても同じ結果が得られる。ただし、高速化のために、実際に計算したパッチの結果はキャッシュしておく。本研究では、生成を階層的に行い、consistency modelによる高速化も組み合わせている。その結果、RTX 3090 Ti上で、512×512タイルの初回生成を1.72秒、隣接タイルの生成を0.66秒で実現している。これにより、さまざまな複雑な地形を、必要に応じてリアルタイムに近い速度で生成できる。コメント === 将来的なゲーム、シミュレーション、ロボット学習環境などにおいて、無限世界を扱える仕組みは重要である。本研究そのものは、既存研究を組み合わせた側面も大きいが、実用的なインパクトは大きいと考えられる。マクロスケールではほぼ無限に見える材料構造などの生成にも使える可能性がある。また、直接役に立つかはわからないが、いろいろと面白い応用も考えられる。例えば、無限に長く続く小説を作ることもできるかもしれない。この小説は局所的には一貫性があり、どこから読み始めても問題なく、どこまでも続いていく。同じように、無限に続く動画も考えられる。今撮った1分間の動画から、その前後に無限に続く動画を生成する。特に、1万年後の映像をまず生成したうえで、現在から1万年後までの動画を後から生成しても、局所的に見れば矛盾がないようなものを作れる。もちろん、これは本当の意味での1万年後を予測しているわけではなく、意味的につながっているように見える映像が延々と続いている、ということであるが。

1 18 79 8K 62

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

5 hours ago

"Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention" arxiv.org/abs/2605.29548

0 5 18 2K 11

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

5 hours ago

モデルを大きくすると、ある時点で小さいモデルでは解けなかったタスクが解けるようになる「創発」が起きることがある。この現象に対し、“Why Larger Models Learn More” は、大きいモデルが有用なのは、単に表現力が高いからだけではなく、稀にしか出現しないタスクを忘れずに保持する能力が高いからではないか、と主張している。小さいモデルでは、希少なタスクを一度見ても、その後に大量に現れる頻出タスクの更新によって、学習した信号が上書きされてしまう。一方、大きいモデルでは、頻出タスクを処理するための容量が十分にあり、希少タスクの更新が消されにくい。そのため、希少タスクの信号を少しずつ蓄積し、最終的には一般化可能な表現として学習できる、というのが本論文の主張である。スケーリング則を構成する要素として、データサイズとモデルサイズがある。そして、その結果として投入計算量が決まる。このうち、データをいくら増やしても、小さいモデルでは学習できない領域が存在する可能性がある。論文ではまず、複数の線形回帰タスクが混ざった単純な問題設定を考える。各タスクには、出現頻度と、タスクを解くために必要な特徴方向が設定されている。そして特徴の重要度を、タスクの頻度と、その特徴の寄与度、すなわち「その特徴を学ぶことで、そのタスクの予測誤差をどれだけ下げられるか」の積として定義する。すると、固定容量のモデルは、重要度が高い特徴から順番に保持することが示される。学習しやすいのは、高頻度なタスク、もしくは少数の特徴で解ける簡単なタスクである。一方、低頻度のタスクや、多くの特徴を必要とする複雑なタスクは、全体の損失に対する即時的な寄与が小さい。そのため、小さいモデルでは後回しにされる。そして、小さいモデルの場合、希少タスクのデータがたまに出現しても、その更新はその後に大量に現れる頻出タスクによって打ち消される。その結果、学んではすぐ忘れるループに入ってしまう。一方、大きいモデルは頻出タスクを十分に表現する容量があり、希少タスクは干渉しない別の場所に保存できる。そして、頻出タスクに対する未解決部分が小さくなり、そこから生じる勾配も弱くなる。すると、希少タスクの信号は頻出タスクの更新によって破壊されにくくなる。これらから希少タスクの記憶を、次にそのタスクが出現するまで保持できるようになる。この仮説を検証するため、論文では希少タスクを意図的に一定間隔で注入する実験を行っている。すると、小さいモデルでは信号が消えてしまうのに対し、大きいモデルでは信号が保持され、次の注入でさらに蓄積されることが確認された。さらに、実際の言語モデルでも同じ現象が起きているかを調べるため、OLMo 系の言語モデルを 4M から 4B パラメータまで訓練し、人工的なタスクを注入して検証している。その結果、大きいモデルほど、低頻度で注入されたタスクを学びやすいことが確認された。さらに、単に訓練例を覚えているだけでなく、タスクに必要な特徴が内部表現に現れていた。これは、学習信号が加わるたびに、単なる記憶から抽象的な表現へと変換されている可能性を示している。通常、学習において丸暗記は過学習につながる望ましくない現象とされる。しかし本論文が示すように、学習過程には、最初は記憶が発生し、そこから徐々に一般化可能な構造が形成される過程があるのかもしれない。この論文は、能力改善のためにはモデルサイズだけが重要なのではなく、低頻度なタスクの信号が残るように設計することも重要であると示唆している。具体的には、学習中のデータ混合の設計、たとえば重要だが低頻度なタスクの頻度を増やすこと、出現間隔を短くすること、リプレイを使うこと、カリキュラムを工夫すること、タスク間の干渉を減らすモデルを使うことなどが重要となる。また、データをどの順序で、どの間隔で見せるかも重要になる。コメント === 大きなモデルがなぜさまざまな能力の発現に有用なのかを考えるうえで、非常に示唆的な研究だと思う。大きなモデルがなぜ有用なのかについては、これまでもいくつかの説明が提唱されてきた。たとえば宝くじ仮説のように、大きなモデルの方が重要な仮説や特徴の種が初期状態ですでに埋め込まれている可能性が高くなるという説明や、モデルが大きくなることで学習しやすくなる、すなわち目的関数の谷や basin がつながりやすくなるという説明である。本研究は、これらに加えて、データ分布との相互作用にさらに踏み込んでいる。実際には、これら複数の要因が組み合わさっているのだろう。本研究の実用的な価値は、大きなモデルの価値が低頻度タスクを保持できることにあるならば、モデルを必ずしも大きくしなくても、同様の能力を引き出せる可能性を示している点にある。具体的には、データ設計、すなわちデータの頻度や順序の工夫、アーキテクチャ上の干渉しにくい設計、低頻度信号を保持しやすくする最適化、たとえばモーメンタムや学習率の設計、さらに正規化や白色化によって特徴間の干渉を減らす工夫などが考えられる。データ設計については、これまでも何が良いかは主に実験的に探索されてきた。しかし今後は、この論文のような理解を通じて、より工学的に扱えるようになっていくのではないかと期待できる。

2 57 303 23K 222

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

2 days ago

Inverting the Bellman Equation: From Q-Values to World Models arxiv.org/abs/2606.21173

0 1 19 3K 6

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

2 days ago

十分に多様なゴールで訓練されたエージェントの価値関数から、世界モデルを復元することができる。強化学習では、モデルベースとモデルフリーは別の手法と考えられてきた。モデルベース強化学習では、環境の遷移モデル、つまり「ある状態である行動を取ると、次にどの状態へ行くか」を明示的に学習する。これは最近では世界モデルともよばれることが多い。このモデルを使えば、将来をシミュレーションし、高い報酬を得るように計画を立てることができる。一方、モデルフリー強化学習では、環境モデルを明示的には学習しない。その代わり、「この状態でこの行動を取ると、将来どれくらい報酬を獲得できるか」を表す価値関数やQ値を学習する。論文 “Inverting the Bellman Equation” は、十分に多様なゴールに対して訓練された価値ベースのエージェントは、明示的に世界モデルを学習していなくても、そのQ値の中に環境の遷移モデルを含んでおり、そこから世界モデルを復元できることを示している。問題設定として、ゴール、つまり目標が複数切り替わる場合を考える。ベルマン方程式は、環境モデル P、報酬 r、方策 π が与えられたとき、 Q(s, a, g) = E_{s'~P(s,a)} [r(s', g) + γV(s', g)] と表される。ここで、s は現在の状態、a は行動、s' は次状態、g はゴール、γは割引率、Vは価値である。Q値は、次状態で得られる報酬と将来価値を平均したものである。通常は、このベルマン方程式を使って、次の向きにQ値を求める。 P, r, π → Q この論文では、逆向きの問題を考える。 Q, r, π → P つまり、訓練済みエージェントがすでに持っているQ値、方策、報酬関数から、ベルマン方程式を満たす遷移モデル P を復元する。Qを推定するQ学習に対応して、これをP学習と呼んでいる。有限状態空間で考えた場合、各ゴールに対するベルマン方程式を並べると、遷移モデル P を未知数とする線形方程式になる。このとき、それぞれのゴールによって価値が十分異なる値を取るなら、遷移モデルを一意に求めることができる。例えば、迷路を解く問題で、ゴールに到着したら報酬がもらえる設定を考える。この場合、Q値はゴールへの近さに対応する。1つのゴールだけを考えると、ある行動によってゴールに近づいたか、遠ざかったかは分かる。しかし、具体的にどの位置に移動したかまでは分からない場合がある。一方で、ゴールが多数あり、それぞれのゴールに対するQ値が分かる場合を考える。例えば、ゴールAに対するQ値、ゴールBに対するQ値、ゴールCに対するQ値が分かれば、それらを組み合わせることで、三角測量のように現在の位置や遷移先を特定できる場合がでてくる。論文では、有限状態・連続状態、決定論的・確率的MDPに分けて、どのようなゴール集合なら遷移モデルが一意に定まるかを調べている。決定論的な有限MDPでは、次状態は1つに定まる。この場合、多くの報酬関数において、1つのゴールだけでも遷移を一意に復元できる場合があることを示している。一方、確率的MDPでは、次状態は1つではなく分布として定まる。そのため、遷移分布全体を復元するには、より多くのゴールが必要になる。特に、各状態をゴールにするような設定では、状態空間を十分に見分けられるため、遷移モデルを復元しやすくなる。理論上はこのように整理されるが、実験では、非常に少ないゴール集合でも遷移モデルをかなり正確に復元できることが示されている。例えば、Reacherという2関節のロボットアームで、手先位置を制御する環境を考える。この実験では、訓練時のゴールは上下左右の4つの手先位置だけであった。それにもかかわらず、そのエージェントのQ値から正確な世界モデルを抽出できた。さらに、その世界モデルを使うことで、訓練時には存在しなかったゴールも解けるようになった。例えば、位置ではなく関節角度や角速度を制御するようなゴールにも対応できた。訓練時の報酬は手先位置にしか依存していなかったにもかかわらず、Q値の中には、角速度など報酬が直接依存していなかった変数の遷移情報も含まれていたことになる。コメント === ゴール条件付きRLが環境の多様な情報を含んでいることは、従来から示唆されてきた。単一目標の問題設定よりも、切り替わりうる複数目標の問題設定の方が自然であり、能力獲得にとっても本質的である。今回の研究は、その直感を理論的に整理したものといえる。世界モデルを明示的に作らなくても、多様な問題を十分に解けるようになったモデルは、内部に世界モデル的な情報を持っていると考えられる。例えば、LLMエージェントは明示的な環境遷移モデルを持っているわけではない。しかし、多様なタスクやゴールに対して、どの行動を取れば目標を達成できるかを分かっているように見える。これは広い意味では、行動価値、つまりQ値を推定しているといえる。もしそうであれば、その価値関数群から、ツール群やタスク進行に関する遷移モデル、すなわち世界モデルを抽出できる可能性がある。例えば、「この計画を実行すると作業状態はどう変わるのか」「このメールをこの文面で送った場合、相手はどのように反応するのか」「このツールを呼び出すと、次にどのような観測が返ってくるのか」といった予測である。また、世界モデルを学習するにあたって、今回のようにQ値を経由せず、遷移そのものを直接予測するように学習するのが直接的であり、一般的である。しかし、多様な目的に対する価値関数の共通構造として世界モデルを学習した方が、目標達成に関係する因果的・制御可能な構造が選択的に抽出され、意思決定に有用な抽象表現を獲得しやすいのではないかと考える。良い世界モデルとは、単に次の観測を正確に予測するモデルではなく、報酬によって重要性が与えられた要素に関して、どの行動がどのような未来の可能性を開き、どの目的の達成を可能にするのかを表すモデルだからである。

4 46 196 21K 159

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

3 days ago

@emadurandal_cgj plamoご利用ありがとうございます。原因調査しますのでお時間ください。ハーネス内の一部データが原因で安全機構が誤作動しているのではと思いますが確認します。

1 0 2 186 0

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

4 days ago

PLaMo 3.0 Primeの提供を開始しました！主要ベンチマークで大幅な性能向上を達成し、同価格帯の商用モデルやオープンモデルと比較しても、日本語指示追従、コーディング、ツール利用などで、匹敵、上回る性能を実現しています。さらに256K コンテキスト長への対応してます。ぜひお試しください！

Preferred Networks @PreferredNetJP

4 days ago

【発表】国産フルスクラッチ開発の生成AI基盤モデルPLaMo 3.0 Primeの提供を開始しました。 1⃣API経由またはオンプレで利用可能 2⃣複雑なタスクに対応するReasoningモデル、応答速度の速いNon-reasoningモデルを提供 3⃣高い日本語性能とコストパフォーマンスを両立

15 398 1K 358K 573

4 56 228 32K 44

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

3 days ago

Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling arxiv.org/abs/2606.12370

0 1 5 3K 6

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

3 days ago

LLMの強化学習（RL）では、モデルを更新する計算そのものよりも、現在のモデルに長い回答やツール使用の軌跡を生成させる rollout が律速になることが多い。 MTP（Multi-Token Prediction）は、軽量な draft head が複数トークンを投機的に生成し、それを target model がまとめて検証する手法である。先読みしたトークンが受理されれば、target model を1回動かすだけで複数トークン分進められるため、生成を高速化できる。しかし、LLMのRL学習にMTPをそのまま使うと、RL中にMTPの受理率が下がってしまう問題があることがわかっていた。従来、この原因は、target model がRLで更新される一方、draft head が古いまま残ることで、両者の分布がずれるためだと考えられていた。しかし本論文は、受理率低下の主因は必ずしもこの draft-target mismatch ではなく、policy の次トークン分布のエントロピー変動であると指摘する。特に、探索のために高いエントロピーが維持されたり、タスクによってはエントロピーが増加したりすると、MTPの受理率が下がりやすい。これは、従来の target-only sampling では、draft head がもっともありえそうなトークンを1つ選び、そのトークンを target model が生成する確率に基づいて受理するためである。この場合、target model の分布が高エントロピーで、top-1 token に大きな確率を置いていないと、たとえ draft head が適切なトークンを選んでも、受理率は高くなりにくい。そこで本論文では、MTPの受理に棄却サンプリングを用いることを提案する。棄却サンプリングでは、draft 分布からサンプリングしたトークンを、target 分布と draft 分布の比に基づいて受理する。このとき受理率は、target 分布と draft 分布の重なり、すなわち total variation 距離（TV距離）によって決まる。さらに、MTP head の学習でも、通常の cross entropy や KL divergence ではなく、棄却サンプリングの受理率を直接高めるように TV距離を最小化する。特に、複数ステップのMTPでは、各ステップの受理率が掛け算で効くため、期待受理長を直接改善する end-to-end TV loss を導入している。この結果、十分に学習された draft head であれば、RL学習中にオンラインで更新し続ける必要はなくなる。論文では、MTPと棄却サンプリング、TV lossを組み合わせ、draft headの更新なしで、RL学習全体を1.5〜1.8倍程度高速化できると報告している。コメント === 本手法はRL学習のrollout高速化として提案されているが、同じ考え方はそのまま通常の推論最適化にも有効である。たとえばGLM-5.2でも類似の手法が推論最適化として採用され、受理長が20%改善され、受理数が5.5まで到達したと報告されている。 MTPのような考え方は、Transformerの最終層状態が将来予測に十分な統計量を持つ信念状態となることを促進させる効果も大きい

2 15 112 15K 89

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

5 days ago

Quantum Mechanics Based on Real Numbers: A Consistent Description journals.aps.org/prl/abstract/1…

0 4 15 4K 13

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

5 days ago

量子力学では、状態は通常、複素数を使って表される。波動関数や状態ベクトル、観測量を計算するための演算子も、標準的な定式化では複素ヒルベルト空間の上に置かれている。しかし、実際に観測される測定結果はすべて実数である。たとえば、粒子がある場所で観測される確率も、波動関数の絶対値二乗で与えられる実数である。では、なぜ量子力学には複素数が必要なのか。複素数は自然界の記述に本当に必要なのか。それとも、単に計算を便利にするための表現なのか。論文「Quantum Mechanics Based on Real Numbers」は、この問いに対して、「複素数そのものは必要ではない。ただし、複素数が担っていた位相構造は表現しなければならない」と示している。まず、量子力学における状態を復習しよう。粒子の状態は波動関数 ψ(x) で表される。これは、各位置 x に対して複素数の値を返す確率振幅である。粒子が位置 x に見つかる確率密度は、ψ(x) の絶対値二乗 |ψ(x)|^2 で与えられる。別の見方は状態は |ψ> という無限次元のベクトルで表される。このベクトルはヒルベルト空間の中にある。波動関数 ψ(x) は、この状態ベクトルを位置 x の座標で見たもの、すなわち位置表示とみなせる。量子力学では、|ψ> と exp(iθ)|ψ> は同じ物理状態を表す。全体に同じ位相を掛けても、あらゆる測定確率は変わらないからである。そのため、たとえば |ψ> と i|ψ> は数学的には別のベクトルだが、観測によって区別できないので、物理的には同じ状態である。つまり、本当の量子状態は1本のベクトルそのものではなく、 { exp(iθ)|ψ> }_{θ in R} という、全体位相だけが異なるベクトルの集まりだといえる。ただし、位相そのものが無意味なわけではない。観測できないのは全体位相であり、相対位相は観測できる。たとえば、|0> + |1> と |0> - |1> は異なる状態である。この2つは、|0> と |1> の間の相対位相が異なっており、その違いは干渉実験で測定できる。一方で、|0> + |1> と exp(iθ)|0> + exp(iθ)|1> は同じ状態である。なぜなら、後者は前者と比べて、すべての成分に同じ位相が掛かっているだけだからである。このように、量子力学では全体位相は観測できないが、相対位相は物理的意味を持つ。複素数を実数で表すこと自体は難しくない。複素数 a + ib は、実数2つの組 (a, b) として表せる。このとき、複素数は2次元平面上の点とみなせる。また、虚数単位 i を掛ける操作は、2次元平面での90度回転になる。この論文では、複素状態を実部と虚部に分けて、実数の空間で表す。そのために、flagという2次元の補助空間を導入する。 flag空間では、|0>_F をx軸、|1>_F をy軸とみなす。このとき、複素数 a + ib は、 a|0>_F + b|1>_F と表される。また、複素数の位相回転 exp(iθ) は、このflag平面を反時計回りに θ だけ回転させる操作になる。このように、複素数と位相回転は、実数だけでも自然に表現できる。ただし、先ほど述べたように、全体位相が回転しても観測結果は同じでなければならない。そこでこの論文では、許される測定演算子に制約をかける。具体的には、flag空間だけを直接測定するような演算子は許さない。測定演算子は、flag平面を全体として回転させても測定確率が変わらない形でなければならない。論文では、複素数で書かれた測定演算子Πを、実部と虚部に分けて実数表現へ写す。このとき実部はflag空間の恒等作用に対応し、虚部はflag平面の90度回転に対応するように定義する。 T(Π) = Re(Π) ⊗ I_F + Im(Π) ⊗ J_F ここで I_F はflag空間の恒等作用、J_F は90度回転を表す行列である。この形にすると、flag全体を回転しても測定確率が変わらない。一方で、flagの x 軸か y 軸かを直接見るような測定は許されない。これにより、元の複素量子力学で得られる測定確率と、実数表現で得られる測定確率が一致する。しかし、本当に難しいのは、2つ以上の量子系を合わせるときである。通常の量子力学では、2つの系AとBを合わせるとき、ヒルベルト空間のテンソル積を使う。このテンソル積構造により、積状態だけでなく、エンタングル状態も表せる。従来の実数版量子力学でも、各系を実数化した後、そのまま実数のテンソル積を取っていた。しかしこの場合、通常の複素量子力学と予測がずれてしまう。問題は、位相の割り振りである。複素量子力学では、 |ψ_A> ⊗ |ψ_B> と exp(iθ)|ψ_A> ⊗ exp(-iθ)|ψ_B> は同じ状態である。系Aと系Bにそれぞれ位相があっても、全体としては exp(iθ) exp(-iθ) = 1 と打ち消し合い、何も変わらないからである。ところが、各系を実数化して、それぞれにflagを持たせると、Aのflagを回した状態とBのflagを逆向きに回した状態が、数学的には別のものとして残ってしまう。本来は同じ物理状態であるはずなのに、実数表現では余分な違いとして扱われてしまうのである。そこで論文は、新しい公理として、「ある部分系への局所操作は、他の部分系に測定可能な影響を与えてはならない」という条件を導入する。これは、複合系を単純な実テンソル積で作ることを出発点にするのではなく、局所操作が他の系に影響しないという物理的条件を出発点にする、という発想である。この条件を満たしつつ、複素量子力学と同じ予測を実数だけで再現するために、商空間を導入する。商空間とは、同じものとみなすべき対象を同一視して作られる空間である。今回の場合、同一視すべきなのは、複素表現に戻したときに同じ状態になる実数表現である。実数表現から複素表現に戻す写像を考え、その写像でゼロになる方向を核として、その核で割った商空間を考える。このゼロ方向は、局所flagの回転によって生じる「位相の割り振りの違い」に対応している。つまり、A側に位相を持たせるか、B側に逆位相を持たせるかという違いは、物理的な違いではなく、表現上の冗長性として扱われる。このようにして、実数だけに基づく量子力学を一貫して構成できる。この結論として、量子力学において複素数そのものが本質というわけではない。むしろ本質的なのは、複素数の計算体系が担っていた位相構造である。複素数を使えば、この位相構造は自然に表現される。しかし複素数を使わないなら、flag、回転、商空間といった仕組みによって、その構造を明示的に再現しなければならないが、それさえできれば実数でも表現できる。

1 47 186 27K 121

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

a week ago

Next-Latent Prediction Transformers Learn Compact World Models arxiv.org/abs/2511.05963

0 0 15 3K 7

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

a week ago

Next-Latent Prediction（NextLat）は、Transformerに状態遷移を学習させる手法である。 Transformerは自己注意によって過去トークンを柔軟に参照できる。一方で、RNNのように履歴を固定長の状態へ圧縮し、それを逐次更新する構造は持たない。そのため、次トークン予測精度が高くても、内部表現が一貫した世界モデルになっているとは限らない。 NextLatでは、まず通常どおりTransformerをforwardし、各位置の隠れ状態、すなわち最終層のpre-logit活性値を得る。そのうえで、現在の隠れ状態と次のトークンから、次の隠れ状態を予測する小さな遷移モデルを学習させる。この予測誤差を遷移モデルと元のTransformer側に流す。ただし、教師側となる次の隠れ状態にはstop-gradientをかける。さらに、予測された隠れ状態を出力ヘッドに通したときのトークン分布が、本物の隠れ状態を出力ヘッドに通したときの分布に近づくよう、KL lossも加える。これは、予測された隠れ状態がベクトルとして近いだけでなく、次トークンを予測する上でも同じ意味を持つようにするための補助目的である。直接投機的デコードにも役立てる目的もある。 NextLatの理論的な主張は、もしnext-token predictionとhidden-state transition predictionが完全に成り立つなら、隠れ状態は未来を予測するために十分な信念状態（belief state）に近づく、というものである。つまり、過去トークン列そのものを保持しなくても、現在の隠れ状態から未来を再帰的に予測できるようになる。実験では、世界モデルが必要なタスクで有効性が示されている。たとえば、マンハッタンのタクシー移動列から一貫した地図構造を学べるかを測る評価では、next-token accuracyだけでは見えない内部世界モデルの質を比較している。また、学習した隠れ状態の遷移モデルを使うことで、投機的デコーディングにも有効であることが示されている。コメント === 昨日紹介した Pretraining Recurrent Networks without Recurrence と似ているが、本手法は既存のTransformerをほぼ変えず、補助学習項を加えるだけで済む点が特徴である。 MTPとかなり近いとも言えるが、MTPが未来トークンを直接予測するのに対し、NextLatは隠れ状態そのものを予測する。そのため、単なる未来トークン予測よりも、履歴を圧縮した信念状態を誘導しやすい手法だと考えられる。

1 17 152 15K 120

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

a week ago

NoiseTilt: Noise-Tilted Reverse Kernels for Diffusion Reward Alignment arxiv.org/abs/2606.18066

0 2 9 4K 3

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

a week ago

NTRKは拡散モデルの報酬アライメント新手法である報酬アライメントは再学習を必要とせず、Best-of-Nのような計算増加を必要しないため有望である。拡散モデルはガウスノイズから出発し、何十ステップもかけて画像や動画を生成する。この逆過程の各ステップは大まかに事前学習済みモデルが予測する平均と、標準ガウスを足したものとなる。報酬アライメントはユーザーが設定した報酬の高い領域へサンプル分布を傾けつつ、元の分布から離れないことをが目標となる。報酬の勾配をそのまま加える方式がよく使われるが、学習済みモデルは、平均の周りにガウスノイズが乗る状況を学習している。そこに決定論的な報酬勾配をたすと、標準化された摂動は典型的なガウスノイズから外れ生成物の劣化がおきる。そこでNTRKは、報酬ベクトルに白色化操作を与え、報酬ベクトルを典型的な標準ガウスに近づける。白色化は各次統計量など複数の統計的制約を使い、ノイズらしさを加える操作である。実験結果は強く、報酬アライメントタスクで生成画像を大きく改善できている。コメント === 生成を制御する手法とした報酬アライメントする手法は有望である。 LLMなど入力コンテキストを制御する場合も条件付き生成分布を変えられるが、報酬アライメントは直接報酬で生成分布を明示的に変えられる。将来的にはLLMも明示的に生成物を制御できる、このアプローチに近づくのではと考えられる。ただ、現在のLLMの生成物は離散トークン列かつARを使っているため、そのままでは使えず、生成手法が変わるか、離散向けの特殊手法が登場するかが必要となる。

2 5 58 9K 42

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

a week ago

Pretraining Recurrent Networks without Recurrence arxiv.org/abs/2606.06479

0 0 3 2K 1

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

a week ago

Pretraining Recurrent Networks without Recurrenceは、RNNをスケール可能に学習するための手法である。 RNNには、学習が難しいという致命的な問題がある。通常のRNNはBPTT、つまり時間方向に展開した上で、最後の損失から過去の状態更新へ勾配を逆伝播する。この際、勾配消失や勾配爆発が起きやすく、長距離の信用割り当ても難しい。さらに、時間方向に逐次的に展開する必要があるため、学習時の並列化も困難である。今回の手法では、SMT（Supervised Memory Training）とDMT（DAgger Memory Training）を使う。まず、Encoder-Decoderからなる教師Transformerを用意する。文x_1 ... x_Nに対し、ある時刻tをランダムに選び、文脈 x_1 ... x_t をEncoderで読み込み、固定サイズのメモリ m_t に圧縮する。次にDecoderは、メモリ m_t と未来側の入力 x_{t+1} ... x_N を受け取り、未来の出力を予測する。つまり教師Transformerは、過去を固定サイズのメモリに圧縮し、そのメモリだけを通じて、それ以降の未来を自己回帰的な形式で予測できるか、という問題を解く。さらにEncoderは、同時に次時刻のメモリ m_{t+1} も作る。この上でSMTでは、RNN側が m_t と x_{t+1} を入力とし、m_{t+1} を予測する問題を学習する。この際、Encoder-Decoderを先に学習してからRNNを別に学習するのではなく、Encoder、Decoder、RNN updaterを同時に学習する。これにより、メモリ m_t は未来予測に有用であるだけでなく、RNNが1ステップ更新しやすい形に整えられる。一方で、SMTだけでは、RNNを実際に展開したときに、教師Encoderのメモリ軌道からずれていく。このずれを補正するため、従来からあるDAggerに倣ってDMTを導入する。DMTでは、RNN自身の軌道を展開した上で、自分が作ったずれたメモリ状態からでも教師軌道に戻れるように学習する。実験では、SMT -> DMTはBPTTで訓練した場合より良い結果を示している。特に系列長が伸びた場合でも、SMTは長距離のcredit assignmentに比較的安定して成功している。コメント === まだ小規模な実験ではあるが、単純で非常に良いアイデアに見える。今後、メモリ空間を増やしていった場合に可能性が大きくあるとおもえる。例えばメモリ空間として、現在のようなベクトルやGated DeltaNetのような行列ではなく、スクラッチパッドのようにある程度の容量を持ち、かつ遷移関数がその一部だけを更新するタイプになった場合、RNN+BPTTで学習するのはきわめて困難だが、この学習手法なら十分可能になるかもしれない。ほぼ同じようなアイデアがNextLatとして登場しているほか、文脈をEncoderで圧縮しようという手法も非常に多く出現している。結局は、スケールさせていったときに既存手法と比べて本当に伸びがよいかという問題なので、そこは今後見ていく必要がある。

1 15 106 15K 73

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

a week ago

Rethinking the Role of Efficient Attention in Hybrid Architectures arxiv.org/abs/2606.15378

0 4 14 4K 14

View Details

Daisuke Okanohara / 岡野原大輔 @hillbig

a week ago

近年のLLMでは、長いコンテキストを効率よく扱うために、full attentionと効率的なattention（SWA、Mamba、Gated DeltaNetなど）を組み合わせる方式が増えている。しかし、こうしたhybrid architectureにおいて、長距離retrievalを実際に担っているのは主にfull attentionであることが確認されつつある。また、SWAのwindowは短い方が長距離能力を伸ばしやすいことも、すでに指摘されている。今回の実験でも、SWAの窓幅を大きくすると、局所windowだけで多くの依存関係を処理できてしまうため、full attentionが長距離retrievalを学習する圧力が弱まり、性能が伸びにくくなるという最適化上の問題が示されている。コメント === SWAの窓幅は短い方がよいという知見は、昨年のgpt-oss（2025/8）のリリース後から広く議論されるようになり、現在ではかなり浸透している。また、MambaやGated DeltaNetのようなrecurrent/linear系のsequence mixerだけでは、ロングコンテキストにおける能力が出しにくいことが指摘されている。エージェント利用などによってコンテキスト長が増え続ける中、現時点では、full attentionを完全に置き換えられる効率的なアーキテクチャはまだ確立されておらず、むしろその重要性は再確認されている。 full attention層の数はかなり減らせるようになってきたり、注意も疎に扱う技術も登場しており、計算コストの係数は着実に下がってきているとはいえ、限界がある。このままエンジニアリングでなんとか乗り切るのか、それとも、full attentionに置き換わる方法が現れるのかは大きな未解決問題である。