📜 papers

2026-05-24 · 1 topics

Transformer のメモリ律速を解消──非 Attention 演算を GEMM 後処理として統合する CODA

Transformer ブロック内の正規化や活性化関数を GEMM のエピローグとして再定義し、GPU メモリへの冗長なアクセスを削減。（原題: CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs）