新アーキテクチャ Parallax 発表──局所線形アテンションのパラメータ化により O(N) の計算量を実現

従来の Linear Attention の精度不足を局所窓関数のパラメータ化で克服し、Transformer の表現力を維持したまま 1M トークン超の長文脈処理を効率化する。

リリース: 2025-03-10 · 読了 3
何が起きた
  • Parallax は、アテンション計算の計算量を系列長 N に対して線形(O(N))に抑える新しいアテンション機構である。

  • 局所的なコンテキストを重視する窓関数に学習可能なパラメータを導入し、従来の線形アテンションで課題だった精度低下を抑制した。

  • Reddit の r/LocalLLaMA 等のコミュニティにおいて、コンシューマ向け GPU での長文脈推論を可能にする技術として議論されている。

なぜ重要
  • 1M トークン級の長文脈を扱う RAG において、KV キャッシュによる VRAM 圧迫を回避しつつ、推論コストを従来の数分の一に削減できる。

👁️ 開発者

ローカル LLM 推論エンジン(llama.cpp 等)の開発者は、KV キャッシュ増大を抜本的に解決する新しいアテンション形式として Parallax への対応をロードマップに含めるべきである。

🇯🇵 日本

大規模な日本語ドキュメント解析を行う国内の AI スタートアップ(従業員 50 名規模)は、H100 等のハイエンド GPU への投資を抑えつつ、ミドルレンジ GPU で高性能な長文脈 RAG サービスを構築できる。