Hugging Face、15兆トークンの高品質データセット FineWeb を公開──LLM 学習効率を大幅改善
44TB の Common Crawl データを独自のパイプラインで精査。オープンな事前学習データの新基準として、Llama 3 世代の性能再現を支援する。
リリース: 2024-04-18 · 読了 3 分何が起きた
2013年から2024年の Common Crawl を再処理した合計 15兆トークン(15T)のテキストデータを収録
データサイズは 44TB に達し、従来の C4 や RefinedWeb を上回る学習効率をベンチマークで実証
教育的価値の高い 1.3兆トークンを抽出した「FineWeb-Edu」を併せて公開し、小規模モデルの性能を底上げ
なぜ重要
15T トークン規模で「何が良質な学習データか」の基準が公開されたことで、独自モデル開発におけるデータ選別の試行錯誤が不要になる
商用 LLM に匹敵する性能を OSS で再現するためのデータセット基盤が確定し、計算資源の投入判断が容易になる
👁️ 開発者
LLM の事前学習や継続学習に従事するエンジニアは、独自のクリーニングコードを開発する工数を削減し、FineWeb を標準ベースラインとして即座に学習を開始できる。
🇯🇵 日本
国内の製造業や金融業で独自 LLM を構築するチームは、日本語データの比率を高める際の「土台」として FineWeb を活用することで、英語能力を維持したまま特化モデルを安価に開発できる。