🧠Research🔥🔥🔥

Hugging Face、1.3 兆トークンの教育特化データセット FineWeb-Edu を公開──Llama-3 による品質フィルタリングを実施

ウェブから抽出した 15 兆トークンの FineWeb から、Llama-3-70B を用いた分類器で教育的価値の高い 1.3 兆トークンを厳選し、小規模モデルの学習効率を劇的に改善する。

リリース: 2024-05-09 · 読了 4
何が起きた
  • 15 兆トークンの FineWeb データセットから、教育的価値が高いとされる 1.3 兆トークンを抽出したサブセット

  • Llama-3-70B を用いて 0 から 5 のスコアで教育的品質を評価し、スコア 3 以上のデータを採用している

  • 1.8B パラメータのモデルを用いた学習において、MMLU スコアが従来の FineWeb (0.26) から 0.33 へと大幅に向上した

なぜ重要
  • 高品質なデータの選別が、モデルのパラメータ数増加よりも性能向上に寄与することを具体的なベンチマーク数値で証明している

  • LLM を使って LLM 用の学習データを作る「データ・ディスティレーション」の手法が、大規模ウェブスケールでも実用的であることを示した

👁️ 開発者

モデル開発者は、膨大な生データを収集するコストをかけるよりも、Llama-3 等を用いた品質フィルターの構築に注力することで、学習効率を 20% 以上改善できる選択肢が現実的になった。

🇯🇵 日本

日本語 LLM を開発する国内企業や研究機関は、この手法を日本語 Common Crawl データに適用することで、トークン不足を補う「質の高い日本語データセット」を自前で生成するワークフローを確立すべきである。