ハルシネーション・ニューロンはドメインを越えて汎化するか

クロスドメイン転移による検証で強いドメイン依存性が判明(原題: Do Hallucination Neurons Generalize? Evidence from Cross-Domain Transfer in LLMs)

リリース: 2026-03-27 · 読了 4
何が起きた
  • FFNの0.1%未満に存在する「ハルシネーション・ニューロン(H-neurons)」が、特定のドメイン内では高い予測精度を持つことを確認。

  • 6つのドメイン(一般QA、法務、金融、科学、道徳的推論、コード脆弱性)を用いたクロスドメイン転移プロトコルで検証を実施。

  • ドメイン内でのAUROCは0.783を記録したが、別ドメインへの転移では0.563まで低下し、汎用性が著しく低いことが判明。

  • 3Bから8Bパラメータの5つのオープンウェイトモデルすべてにおいて、同様のドメイン依存的な劣化が一貫して見られた。

  • ハルシネーションは単一の普遍的な神経署名を持つメカニズムではなく、クエリされる知識の種類に応じたドメイン固有のニューロン集団が関与している。

なぜ重要
  • 特定のドメインで訓練されたハルシネーション検知器を、そのまま他の専門分野に流用することが困難であることを示唆している。

  • LLMの内部メカニズムにおいて、特定の機能を持つとされるニューロンが想定以上にコンテキストや知識ドメインに強く依存していることを明らかにした。

  • 実用的なハルシネーション抑制技術の実装には、ドメインごとのキャリブレーションが不可欠であることを理論的に裏付けた。

👁️ 開発者

開発者が特定の専門ドメイン(例:法務やコード解析)向けにLLMを最適化・監視する場合、汎用的なハルシネーション検知手法に頼るのではなく、そのドメインに特化した評価データと検知器の調整が必要になることを示している。

🇯🇵 日本

日本語特有のドメインや文化背景におけるハルシネーション対策においても、グローバルな一般知識で学習された検知手法が通用しない可能性が高く、国内独自のドメインデータによる検証とモデル解釈の重要性が増す。


📊 Benchmark
MetricScoreΔ
Within-domain AUROC0.783
Cross-domain AUROC0.563-0.2