Transformer のメモリ律速を解消──非 Attention 演算を GEMM 後処理として統合する CODA
Transformer ブロック内の正規化や活性化関数を GEMM のエピローグとして再定義し、GPU メモリへの冗長なアクセスを削減。(原題: CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs)