🧠 research
2026-05-06 · 4 topics
OpenAI、GPT-5.5 Instant の System Card を公開──安全性評価と推論効率のベンチマークを提示
🔥🔥🔥GPT-5 世代の低遅延モデル「Instant」の安全性と限界を定義。高速応答とトレードオフになりやすいハルシネーション率や脱獄耐性の評価数値を公開した。
TritonSigmoid: GPU 向け高速パディング対応 Sigmoid Attention カーネルを公開──Triton 実装で推論効率を向上
🔥🔥Softmax に代わる Sigmoid Attention を Triton で実装し、可変長シーケンスのパディング処理を最適化することで GPU 上の計算オーバーヘッドを削減した。
リアルタイム制御の推論はクラウドが最適──自動運転の緊急ブレーキでオンデバイスを凌駕
🔥分散推論の数理モデルにより、クラウドの高スループットがネットワーク遅延を相殺し安全性を高める条件を解明。(原題: Cloud Is Closer Than It Appears: Revisiting the Tradeoffs of Distributed Real-Time Inference)
Microsoft、NSDI 2026 で 11 論文を発表──LLM の KV キャッシュ共有でスループット 4 倍を実現
🔥分散システムのトップ会議 NSDI '26 にて、LLM 推論の高速化、プロトコル検証の自動化、スイッチレスメモリ分離など次世代インフラ技術を多数公開した。