数学オリンピック特化データセット MathNet 公開──47カ国 3万件超の多言語・マルチモーダル問題を収録
17言語の専門家解答と図形画像を含む大規模コーパスで、GPT-5 や Gemini-3.1-Pro すら苦戦する高度な推論・RAG 評価を可能にする。
リリース: 2026-04-20 · 読了 3 分記事の要約
1. 核心(What)
- 47カ国、17言語にわたる過去20年間の数学オリンピック公式問題 30,676 件と専門家による解答を収録。
- 7,541 枚の図形画像を含み、マルチモーダルな数学的推論(幾何学等)の評価に対応した Hugging Face Image 形式で提供。
- MathNet-Solve-Test において Gemini-3.1-Pro は 78.4%、GPT-5 は 69.3% の正答率に留まり、既存モデルの限界を浮き彫りにした。
- RAG 評価用の検索ベンチマークを備え、DeepSeek-V3.2-Speciale は RAG 活用により精度が 97.3% まで向上することを確認。
2. 影響(Why)
- 従来の数学ベンチマークは英語・短文回答が主流だったが、MathNet は多言語かつ長文の証明プロセスを評価対象にできるため、推論モデルの真の限界を測定できる。
- RAG 構成時の「数学的構造の類似性」に基づく検索精度を測定できるため、理数系専門エージェントの開発において検索エンジンの性能差を数値化できる。
- 開発者への影響: 数学特化の LLM / RAG を開発するエンジニアは、GSM8K 等の飽和した指標に代わり、より高難度な多言語・マルチモーダル推論のベースラインとして MathNet を採用すべき。
- 日本への影響: 国内の教育系 AI スタートアップ(中規模〜スタートアップ層)は、図形問題を含む高度な自動採点や解説生成の精度検証において、MathNet を多言語ベンチマークのデファクトとして組み込むべき。
3. 根拠・詳細(How)
- MathNet-Solve-Test (Gemini-3.1-Pro): スコア 78.4
- MathNet-Solve-Test (GPT-5): スコア 69.3
- MathNet-RAG (DeepSeek-V3.2-Speciale): スコア 97.3
- ShadenA/MathNet Hugging Face Dataset (2026-04-20 公開)