Anthropic、内部思考を可視化する「Natural Language Autoencoders」を発表──LLMの推論過程をテキスト変換
Claude 3.5 Sonnet 等の内部ベクトルを、情報の欠落なく人間が読める自然言語へデコードする新手法を提案し、AI の解釈性を大幅に向上させた。
リリース: 2025-02-13 · 読了 5 分何が起きた
Anthropic が LLM の内部状態(隠れ層のベクトル)を人間が理解可能なテキストに変換・復元する「Natural Language Autoencoders (NLAE)」を開発。
NLAE は、モデルの思考プロセスをトークン列として抽出しても、元の推論能力を 90% 以上の高い忠実度で保持できることを実証。
従来の Sparse Autoencoders (SAE) が単一の概念抽出に留まるのに対し、NLAE は文脈を持った「思考の文章」として可視化が可能。
なぜ重要
「ブラックボックス」とされる推論過程をテキストで監査できるため、ハルシネーションの発生源特定や安全性の検証がエンジニアレベルで可能になる。
👁️ 開発者
AI 開発者は、モデルの重みを直接解析せずとも、NLAE を介して「なぜその回答に至ったか」の論理的根拠をデバッグログとして取得する運用フローを構築できる。
🇯🇵 日本
金融や医療など説明責任が不可欠な国内の Vertical SaaS 開発ベンダーは、RAG の回答根拠をモデルの内部思考レベルで提示する、高信頼性な AI サービスの差別化要因として本技術を応用できる。