🧠 research

2026-05-06 · 4 topics

OpenAI、GPT-5.5 Instant の System Card を公開──安全性評価と推論効率のベンチマークを提示

🔥🔥🔥

GPT-5 世代の低遅延モデル「Instant」の安全性と限界を定義。高速応答とトレードオフになりやすいハルシネーション率や脱獄耐性の評価数値を公開した。

TritonSigmoid: GPU 向け高速パディング対応 Sigmoid Attention カーネルを公開──Triton 実装で推論効率を向上

🔥🔥

Softmax に代わる Sigmoid Attention を Triton で実装し、可変長シーケンスのパディング処理を最適化することで GPU 上の計算オーバーヘッドを削減した。

リアルタイム制御の推論はクラウドが最適──自動運転の緊急ブレーキでオンデバイスを凌駕

🔥

分散推論の数理モデルにより、クラウドの高スループットがネットワーク遅延を相殺し安全性を高める条件を解明。（原題: Cloud Is Closer Than It Appears: Revisiting the Tradeoffs of Distributed Real-Time Inference）

Microsoft、NSDI 2026 で 11 論文を発表──LLM の KV キャッシュ共有でスループット 4 倍を実現

🔥

分散システムのトップ会議 NSDI '26 にて、LLM 推論の高速化、プロトコル検証の自動化、スイッチレスメモリ分離など次世代インフラ技術を多数公開した。