LLMのインコンテキスト学習はデータの順序依存性があっても期待値としてベイズ的であると実証
逐次予測の対数損失分解により順序依存の影響を定式化。Qwen2.5が最尤推定よりベイズ事後予測に極めて近いことを実証。(原題: LLMs are Bayesian, In Expectation, Not in Realization)
リリース: 2025-07-15 · 読了 5 分記事の要約
1. 核心(What)
- LLMのインコンテキスト学習(ICL)が提示順序で予測を変える(交換可能性の欠如)という批判に対し、順序平均の期待値においてベイズ予測と同等であることを理論的に証明した。
- Qwen2.5-14Bにおいて、サポートサイズ256での1ステップ超過符号長は、Bernoulli予測で0.011ビット、4クラス予測で0.022ビットであり、ベイズ基準に極めて近い。
- 予測分布は最尤推定(MLE)プラグイン基準よりもベイズ事後予測分布に近く、特にデータ数が少ない初期段階でその差が顕著である。
- 位置介入実験やアブレーションにより、LLMの順序への感度は主に位置エンコーディング(positional encoding)に起因することを特定した。
2. 影響(Why)
- 「LLMは提示順序で出力が変わるからベイズ推論の代替にはならない」という単純な否定論を信じて、ICLの理論的限界を誤認してしまう。実際には、順序の期待値や対数損失の観点からLLMは極めてベイズ的に振る舞っており、ベイズ最適に近い予測器として信頼してよい。
- 開発者への影響: ICLを用いた数理的・統計的予測システムを設計する開発者は、提示順序の揺らぎを理由にICLを諦めるべきではなく、アンサンブル(順序の平均化)によって理論的なベイズ予測性能を最大限引き出す実装を採用すべきである。
- 日本への影響: 国内固有の追加文脈は限定的(汎用的に有用)。
3. 根拠・詳細(How)
- Bernoulli one-step excess code length (Qwen2.5-14B): スコア 0.011
- Four-way categorical excess code length (Qwen2.5-14B): スコア 0.022
- arXiv (2025-07-15 公開)