News Articles Projects About

🛠Tools🔥

解説記事：CUDA カーネルの実行プロセス──nvcc から SASS への変換とハードウェア制御の仕組み

CUDA プログラムが CPU 上の ioctl 発行から GPU の warp 実行に至るまでのコンパイルパイプラインとハードウェア制御の全工程を詳細に追跡する。

リリース: 2026-06-29 · 読了 5 分

CUDA GPU Compiler Low-level Hacker News

What happens when you run a CUDA kernel (2026-06-29 公開)

記事の要約

1. 核心（What）

nvcc は単一のコンパイラではなく、ホスト用コンパイラとデバイス用コンパイラ（cicc, ptxas）を統合するドライバープログラムである。
デバイスコードは LLVM ベースの cicc で仮想 ISA である PTX に変換され、その後 ptxas によってハードウェア固有の SASS へコンパイルされる。
100 万要素のベクトル加算を実行する際、CPU 側では数千万の命令、900 回の ioctl 発行、およびメモリマップされたドアベルレジスタの操作が発生する。
コンパイル時に --keep オプションを付与することで、中間生成物である .ptx, .cubin, .fatbin などの全ファイルを検証可能である。

2. 影響（Why）

ボトルネックの特定: GPU プロファイリングでレイテンシが解消できない際、ioctl やカーネル起動のオーバーヘッドを理解することで、ホスト・デバイス間の通信設計を最適化できる。
国内 SaaS の推論最適化: 推論サーバーを自前運用する国内の AI 開発企業（中規模以上の GPU クラスタ保有組織）において、カーネル実行の低レイヤー挙動を知ることは、vLLM などのランタイム調整時の根拠となる。

3. 根拠・詳細（How）

コンパイルパイプラインの検証: nvcc -arch=sm_89 を使用して RTX 4090 向けにコンパイル。cicc が生成する仮想レジスタベースの PTX と、ptxas が生成するハードウェア依存の SASS を分離して解析することで、最適化の余地を可視化する。

4. 展望・課題（Next）

ハードウェア抽象化の限界: PTX は無限の仮想レジスタを持つが、実際のハードウェア（SASS）では物理レジスタ数に制限があるため、コンパイル時のレジスタ割り当てが実行性能に直結する。

← 日別ページに戻るカテゴリ一覧 (tools)