🧠Research🔥🔥🔥

TeichAI、DeepSeek-v4-Pro 搭載のコーディングエージェント学習用データセットを公開──4,000 件超の推論トレースを収録

DeepSeek-v4-Pro による高度な思考プロセスとツール利用を含む 4,006 件のセッションを収録し、軽量モデルへのエージェント能力蒸留を容易にする。

リリース: 2026-05-09 · 読了 3
何が起きた
  • DeepSeek-v4-Pro が生成した 4,006 件のコーディングエージェント実行トレース(JSONL 形式)を収録

  • bash, read, edit, write といったファイル操作・コマンド実行ツールの利用ログを詳細に保持

  • teich ライブラリを介して Unsloth や SFTTrainer で即座にファインチューニング可能な形式へ変換できる

  • モデルの「思考(thinking)」プロセスが保存されており、推論特化型モデルの学習データとして利用可能

なぜ重要
  • DeepSeek-v4-Pro 級の高度な推論とツール操作を OSS モデルに蒸留できるため、API コストを抑えた高性能な自律型エージェントの構築が現実的になる

  • エージェントの思考と行動が紐付いた高品質なデータは希少であり、RAG を超える「自律的なコード修正」の実装を加速させる

👁️ 開発者

開発者は Unsloth 等の軽量学習フレームワークと組み合わせることで、単一のコンシューマ向け GPU でも DeepSeek 由来の推論能力を持つ特化型エージェントを構築できる。

🇯🇵 日本

国内の受託開発企業や SaaS ベンダーにおいて、顧客の機密コードを扱うために VPC 内で完結させる必要があるセキュアな AI 開発環境の構築において、このデータセットを用いた OSS モデルの強化が標準的な選択肢となる。