Nick Levine氏ら、1931年以前のデータのみで学習した13Bモデル「talkie」を公開──著作権フリーの260Bトークンを使用
GPT・Whisperの開発メンバーらが、現代の知識を遮断した状態で科学的発見の再現性や歴史予測を検証するために構築した、130億パラメータの「時代限定」ベースモデル。
リリース: 2026-04-28 · 読了 3 分Introducing talkie: a 13B vintage language model from 1930 - Simon Willison's Weblog (2026-04-28 公開)
記事の要約
1. 核心(What)
- 1931年以前の英語テキスト260Bトークンを学習した13Bパラメータのモデル「talkie」をApache 2.0ライセンスで公開した。
- base版(53.1GB)と、歴史的文献から抽出した指示対で調整したchat版(26.6GB)の2種類のチェックポイントを提供している。
- 開発にはNick Levine氏、David Duvenaud氏、Alec Radford氏(GPTやWhisperの主要開発者)が参画している。
- chat版の事後学習(DPO)には Claude Sonnet 4.6 を使用しており、現代知識が混入する「時代錯誤(anachronism)」の抑制が主要な技術課題となっている。
2. 影響(Why)
- 著作権リスクを完全に排除した「Vegan Model」の構築可能性を13B規模で実証しており、法的クリーンさが最優先されるエンタープライズ向け学習の極端なベンチマークとなる。
- 「1911年までの知識で一般相対性理論を再発見できるか」といった、LLMを用いた科学的発見のシミュレーションという新しい評価パラダイムを提示している。
- 開発者への影響: 開発者は、著作権が消滅したパブリックドメインのみで構成されたベースモデルを商用利用可能な基盤として活用できる。ただし、事後学習に現代のLLMを judge として使用しているため、完全な「時代考証の正確性」を求めるなら、RLAIFのパイプラインから現代モデルを排除する追加実装が必要になる。
- 日本への影響: 国内の歴史的文献(青空文庫や公文書館データ)を用いた「特定時代特化型LLM」を開発する国内の研究機関やゲームデベロッパーにとって、合成データ生成時の時代錯誤をどう回避し、評価するかという設計図として機能する。
3. 根拠・詳細(How)
- Introducing talkie: a 13B vintage language model from 1930 - Simon Willison's Weblog (2026-04-28 公開)