Hugging Face、1.3 兆トークンの教育特化データセット FineWeb-Edu を公開──Llama-3 による品質フィルタリングを実施

🧠Research🔥🔥🔥

ウェブから抽出した 15 兆トークンの FineWeb から、Llama-3-70B を用いた分類器で教育的価値の高い 1.3 兆トークンを厳選し、小規模モデルの学習効率を劇的に改善する。

リリース: 2024-05-09 · 読了 4 分

何が起きた

なぜ重要

👁️ 開発者

モデル開発者は、膨大な生データを収集するコストをかけるよりも、Llama-3 等を用いた品質フィルターの構築に注力することで、学習効率を 20% 以上改善できる選択肢が現実的になった。

🇯🇵 日本

日本語 LLM を開発する国内企業や研究機関は、この手法を日本語 Common Crawl データに適用することで、トークン不足を補う「質の高い日本語データセット」を自前で生成するワークフローを確立すべきである。