個人開発者、90年代風ドキュメント生成の学習レシピを公開──Bitsaversの3700万語を活用
1977年から2005年までのMicrosoft製マニュアル等をBitsaversから収集し、Gemma-4-26bでクレンジングした19万件のデータセットで特定スタイルの再現性を検証した。
リリース: 2026-06-01 · 読了 4 分何が起きた
歴史的資料サイト Bitsavers から 1977年〜2005年の Microsoft 製マニュアル等、3,700万語以上の OCR テキストを収集した
OpenRouter 経由の Gemma-4-26b を使用し、約 8 ドルのコストで各段落の可読性を判定するデータクレンジングを実施した
最終的に 192,456 件の JSONL 形式トレーニング例(各 512 トークン上限)を作成し、ファインチューニングを実行した
なぜ重要
特定のトーンや歴史的文脈を持つドキュメント生成において、RAG によるコンテキスト注入よりも、安価なモデルでのデータ選別とファインチューニングを組み合わせる方が「文体」の再現精度が高いことを実証した
👁️ 開発者
技術ドキュメントの自動生成を検討しているエンジニアは、最新の正確性だけでなく「組織固有のトーン」を再現するために、過去の良質なマニュアル群をクレンジングして学習ソースに転用する手法が有効な選択肢になる。
🇯🇵 日本
国内の製造業や SIer など、膨大な紙のマニュアル資産を持つ企業は、OCR と安価な LLM による自動分類を組み合わせることで、レガシーな技術資産をモダンな生成 AI の学習データへ低コストで変換できる。