Ligo、タンパク質構造の冗長性を指摘──配列規模拡大でも「真の構造多様性」は 2.5 万種程度か
タンパク質配列の爆発的増加に対し、再利用可能な構造ドメインは数百万ではなく数万規模に留まると分析。バイオ生成 AI の学習データ設計に一石を投じる。
リリース: 2026-05-20 · 読了 4 分何が起きた
タンパク質配列データベース MGnify 等の拡大に対し、実際の立体構造(フォールド)は配列上の類似度が 30% 未満でも高度に重複している。
Foldseek による既存の AlphaFold DB クラスタリングでは 230 万個のクラスターが報告されていたが、Ligo の分析では真の構造近傍は 2.5 万程度に留まる。
AlphaFold3 等の最新モデルは配列間の共進化(Coevolution)だけでなく、タンパク質表面の形状や化学的適合性を学習することで精度を向上させている。
予測構造データには無秩序な領域(floppy tails)やリンカーが含まれ、これがクラスタリング結果を水増しし、生成モデルの学習におけるノイズとなっている。
なぜ重要
「データを増やせば賢くなる」というスケーリング則が、バイオドメインでは構造の冗長性によって頭打ちになるリスクを具体数値で示した。
創薬 AI の開発において、単なる配列のクロールではなく、無秩序領域を除去した高品質な構造ドメインの抽出が性能差を分ける鍵になる。
👁️ 開発者
創薬・酵素設計のエンジニアは、AlphaFold DB 全体を学習に使うのではなく、構造クラスタリングによるデータ間引きと、ドメイン単位での「外科的な」データ洗浄を優先すべき。
🇯🇵 日本
国内の製薬大手やバイオベンチャー(大手製薬の創薬 DX 部門を想定)は、自社データの価値を「配列数」ではなく「構造の新規性」で再定義し、計算リソースを多様なフォールドの学習に集中させる戦略転換が求められる。