🛠Tools🔥🔥

Wes McKinney氏ら、次世代データフォーマット F3 を公開──Wasm内蔵でParquetの課題を解決

Parquetのレイアウト欠陥を解消し、ファイル内にWasmデコーダーを埋め込むことで、プラットフォームを問わない高い相互運用性と拡張性を実現する次世代データフォーマットのプロトタイプ。
リリース: 2025-11-03 · 読了 3

記事の要約

1. 核心(What)

  • F3 (Future-proof File Format) は、ParquetやORCなどの前世代フォーマットの課題解決を目指すオープンソースのデータファイルフォーマットである。
  • ファイル自体にデータ、メタデータに加えて、データをデコードするためのWebAssembly (Wasm) バイナリを数キロバイトのサイズで埋め込んでいる。
  • Wes McKinney氏やAndrew Pavlo氏などの著名なデータベース研究者・開発者らが共同で開発し、ACM Management of Dataに論文が掲載された。

2. 影響(Why)

  • Wasmによる相互運用性: ファイル自体にWasmデコーダーを内蔵するため、ネイティブデコーダーがない環境でも、プラットフォームに依存せずデータを正しくデコードできる。
  • 国内データ基盤への影響: 大規模データレイクを運用する国内のSaaS事業者やアドテク企業は、将来的なデコード互換性問題をWasmレイヤーで吸収する新アーキテクチャとして動向を注視すべきである。

3. 根拠・詳細(How)

  • FlatBuffersの採用: F3のファイルフォーマット定義にはFlatBuffersが採用されており、スキーマ定義ファイルはリポジトリ内のformatディレクトリに格納されている。
  • PoCの実装状況: Rustで実装されたPoC(fff-pocパッケージ)が公開されており、Debian 12環境でのビルドおよびユニットテストの実行手順が提供されている。

4. 展望・課題(Next)

  • 本番運用の制限: 本プロジェクトは論文のアイデアを検証するための研究プロトタイプであり、現時点では本番環境での使用は推奨されていない。