Anthropic、内部思考を可視化する「Natural Language Autoencoders」を発表──LLMの推論過程をテキスト変換

🧠Research🔥🔥

Claude 3.5 Sonnet 等の内部ベクトルを、情報の欠落なく人間が読める自然言語へデコードする新手法を提案し、AI の解釈性を大幅に向上させた。

リリース: 2025-02-13 · 読了 5 分

何が起きた

Anthropic が LLM の内部状態（隠れ層のベクトル）を人間が理解可能なテキストに変換・復元する「Natural Language Autoencoders (NLAE)」を開発。
NLAE は、モデルの思考プロセスをトークン列として抽出しても、元の推論能力を 90% 以上の高い忠実度で保持できることを実証。
従来の Sparse Autoencoders (SAE) が単一の概念抽出に留まるのに対し、NLAE は文脈を持った「思考の文章」として可視化が可能。

なぜ重要

👁️ 開発者

AI 開発者は、モデルの重みを直接解析せずとも、NLAE を介して「なぜその回答に至ったか」の論理的根拠をデバッグログとして取得する運用フローを構築できる。

🇯🇵 日本

金融や医療など説明責任が不可欠な国内の Vertical SaaS 開発ベンダーは、RAG の回答根拠をモデルの内部思考レベルで提示する、高信頼性な AI サービスの差別化要因として本技術を応用できる。