News Articles Projects About

🛠Tools🔥🔥

数学オリンピック特化データセット MathNet 公開──47カ国 3万件超の多言語・マルチモーダル問題を収録

17言語の専門家解答と図形画像を含む大規模コーパスで、GPT-5 や Gemini-3.1-Pro すら苦戦する高度な推論・RAG 評価を可能にする。

リリース: 2026-04-20 · 読了 3 分

LLM Dataset Reasoning Multimodal RAG

ShadenA/MathNet Hugging Face Dataset (2026-04-20 公開)

記事の要約

1. 核心（What）

47カ国、17言語にわたる過去20年間の数学オリンピック公式問題 30,676 件と専門家による解答を収録。
7,541 枚の図形画像を含み、マルチモーダルな数学的推論（幾何学等）の評価に対応した Hugging Face Image 形式で提供。
MathNet-Solve-Test において Gemini-3.1-Pro は 78.4%、GPT-5 は 69.3% の正答率に留まり、既存モデルの限界を浮き彫りにした。
RAG 評価用の検索ベンチマークを備え、DeepSeek-V3.2-Speciale は RAG 活用により精度が 97.3% まで向上することを確認。

2. 影響（Why）

従来の数学ベンチマークは英語・短文回答が主流だったが、MathNet は多言語かつ長文の証明プロセスを評価対象にできるため、推論モデルの真の限界を測定できる。
RAG 構成時の「数学的構造の類似性」に基づく検索精度を測定できるため、理数系専門エージェントの開発において検索エンジンの性能差を数値化できる。
開発者への影響: 数学特化の LLM / RAG を開発するエンジニアは、GSM8K 等の飽和した指標に代わり、より高難度な多言語・マルチモーダル推論のベースラインとして MathNet を採用すべき。
日本への影響: 国内の教育系 AI スタートアップ（中規模〜スタートアップ層）は、図形問題を含む高度な自動採点や解説生成の精度検証において、MathNet を多言語ベンチマークのデファクトとして組み込むべき。

3. 根拠・詳細（How）

MathNet-Solve-Test (Gemini-3.1-Pro): スコア 78.4
MathNet-Solve-Test (GPT-5): スコア 69.3
MathNet-RAG (DeepSeek-V3.2-Speciale): スコア 97.3
ShadenA/MathNet Hugging Face Dataset (2026-04-20 公開)

← 日別ページに戻るカテゴリ一覧 (tools)