📜Papers🔥🔥

2つのLLMを中間層で直接結合し、テキストを介さずツール利用や推論を並列化

2つのLLMを中間層で結合。補助モデルが隠れ状態からコード生成や計算を行い、算術精度を36%から96%へ改善。(原題: The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models)
リリース: 2026-05-11 · 読了 4

記事の要約

1. 核心(What)

  • テキスト生成を介さず、2つの凍結されたLLMの中間層(Hidden States)を双方向に結合するインターフェースを開発
  • 追加パラメータはモデル全体の約1%に抑え、タスク損失のみから独自の通信プロトコルを自律学習する
  • 0.5Bモデル2基と計算機の結合により、算術タスクの精度が36%から96%へと劇的に向上
  • 補助モデルは問題文を一切見ず、主モデルの隠れ状態信号のみから適切なPythonコードを生成可能

2. 影響(Why)

  • 「LLMとツールの連携にはテキストを介したReAct等の手法が必須」という常識を覆し、情報欠落のない密な並列処理を実現した
  • 小規模モデルの組み合わせで特定ドメインの性能を極大化させる、新しいモデルスケーリングの可能性を提示している
  • 開発者への影響: ツール利用を伴うシステム構築において、プロンプトエンジニアリングではなく中間層結合という選択肢を提示。低遅延が求められるリアルタイム推論や、トークンコストを抑えたい高度な推論タスクでの活用が期待される。
  • 日本への影響: 国内固有の追加文脈は限定的(汎用的に有用)。

3. 根拠・詳細(How)

  • Arithmetic Accuracy: スコア 96(baseline 36)
  • ZebraLogic Performance (Relative): スコア 1.7(baseline 1)
  • arXiv (2026-05-11 公開)