個人開発者、Softmax-free Attention 採用の 3.5 億パラモデルを公開──VRAM 消費を抑えた長文脈推論を実現
構造的スパース性と Triton カーネルによる Tile-skipping を組み合わせ、GPT-2 Medium 規模で Softmax 不要の Attention 機構を実証した。
リリース: 2026-06-22 · 読了 3 分何が起きた
GPT-2 Medium 規模(約 3 億 5400 万パラメータ)のモデルを 115 億トークンで学習し、オープンウェイトで公開。
Softmax を排除した Attention 機構に構造的スパース性を導入し、Tile-skipping 処理により計算を効率化。
カスタム Triton カーネルの実装により、長文脈(Long-context)環境における VRAM 使用量を削減。
なぜ重要
Softmax の計算コストが壁となる長文脈処理において、線形計算に近い効率で Attention を代替できる手法の有効性が実証された。
Triton カーネルの実装が公開されているため、既存の Transformer アーキテクチャを VRAM 節約型へ改造する際の具体的な実装ベースとして機能する。
👁️ 開発者
LLM 推論エンジンやランタイムを開発するエンジニアは、FlashAttention 以外の選択肢として、スパースな Softmax-free カーネルの統合によるメモリ最適化を検討すべきフェーズにある。
🇯🇵 日本
エッジ AI やモバイルアプリ開発を行う国内のスタートアップは、24GB 以下の VRAM 環境で長文脈を扱うための軽量化手法として、このアーキテクチャの採用を検証する価値がある。