CNN・Transformer・RNNを統合──学習可能な『積分変換』で全アーキテクチャを単一モデル化
The Facts
- ITNetは、位置と特徴量の両方に依存するカーネルをMLPで近似し、畳み込み・注意・再帰を単一の積分変換として定式化する。
- 理論上、Convolution、Multi-head Attention、LSTM、Mamba(SSM)などはすべてITNetのパラメータ設定における特殊例であることを証明。
- ImageNet-1K、GLUE、ModelNet40、VQA v2、NLVR2において、各ドメインの専門特化型モデルと同等以上の性能を達成(具体的な数値は未確認)。
- Tiled kernel fusion、重要度サンプリングを用いたモンテカルロ積分、低ランク分解により、大規模計算における効率性を実現。
Why It Matters
- 「CNNかTransformerか」という二者択一の議論を、データから最適な演算構造を動的に決定できる「カーネル学習」の問題へと抽象化した。
- マルチモーダル学習において、画像・テキスト・3D点群などの異なる性質のデータを、完全に同一の演算子で処理できる汎用性を持つ。
- Mambaなどの最新SSMとTransformerの性能差や共通点を、積分変換という単一の視点から数学的に整理し直した。
For Developers
特定のアーキテクチャに固執するのではなく、ITNetのような統一演算子を採用することで、モダリティを跨いだコードの共通化と、データに適応した柔軟なモデル設計が可能になる。バックボーンの統一は保守性を劇的に向上させる。
For Japan
国内固有の追加文脈は限定的(汎用的に有用)。