News Articles Projects About

🛠Tools🔥

個人開発者、90年代風ドキュメント生成の学習レシピを公開──Bitsaversの3700万語を活用

1977年から2005年までのMicrosoft製マニュアル等をBitsaversから収集し、Gemma-4-26bでクレンジングした19万件のデータセットで特定スタイルの再現性を検証した。

リリース: 2026-06-01 · 読了 4 分

Fine-tuning Dataset Technical Writing Gemma

Fine-tuning an LLM to write docs like it's 1995 (2026-06-01 公開)

記事の要約

1. 核心（What）

歴史的資料サイト Bitsavers から 1977年〜2005年の Microsoft 製マニュアル等、3,700万語以上の OCR テキストを収集した
OpenRouter 経由の Gemma-4-26b を使用し、約 8 ドルのコストで各段落の可読性を判定するデータクレンジングを実施した
最終的に 192,456 件の JSONL 形式トレーニング例（各 512 トークン上限）を作成し、ファインチューニングを実行した

2. 影響（Why）

特定のトーンや歴史的文脈を持つドキュメント生成において、RAG によるコンテキスト注入よりも、安価なモデルでのデータ選別とファインチューニングを組み合わせる方が「文体」の再現精度が高いことを実証した
開発者への影響: 技術ドキュメントの自動生成を検討しているエンジニアは、最新の正確性だけでなく「組織固有のトーン」を再現するために、過去の良質なマニュアル群をクレンジングして学習ソースに転用する手法が有効な選択肢になる。
日本への影響: 国内の製造業や SIer など、膨大な紙のマニュアル資産を持つ企業は、OCR と安価な LLM による自動分類を組み合わせることで、レガシーな技術資産をモダンな生成 AI の学習データへ低コストで変換できる。

3. 根拠・詳細（How）

Fine-tuning an LLM to write docs like it's 1995 (2026-06-01 公開)

← 日別ページに戻るカテゴリ一覧 (tools)