NVIDIA、マルチモーダル安全評価モデル Nemotron 3.5 Content Safety を公開──推論プロセスとカスタムポリシーに対応
Gemma 3 4B を基盤に、画像・テキスト・応答の三位一体評価と「思考プロセス」の出力により、金融や医療など特定ドメインの独自安全基準を動的に適用可能にした。
リリース: 2026-06-04 · 読了 3 分何が起きた
Google の Gemma 3 4B IT をベースに LoRA 調整を施し、8GB 以上の VRAM を持つ単一 GPU でのリアルタイム推論を実現した。
画像・ユーザープロンプト・AI 応答を 1 つのコンテキスト(128K)で同時評価し、要素間の相互作用によるポリシー違反を単一パスで検知する。
日本語を含む 12 言語の明示的学習に加え、ベースモデル由来で約 140 言語のゼロショット評価に対応している。
推論時に自然言語で記述されたカスタムポリシーを入力可能で、特定のカテゴリ(例:開発ツールの「プロセス終了」)の誤検知を抑制できる。
なぜ重要
「なぜ不適切か」の思考プロセス(Reasoning Trace)を出力できるため、コンプライアンス要件が厳しいエンタープライズ用途での監査ログとして実用性が高い。
学習データセットも同時公開されており、独自のモデレーターモデルを構築する際のベースラインやファインチューニング用データとして活用できる。
👁️ 開発者
LLM アプリ開発者は、外部の重いモデレーション API を使わずに、自前の推論サーバー(vLLM 等)に 4B モデルを組み込むだけで、ドメイン特化の安全ガードレールを安価に構築できる。
🇯🇵 日本
日本語の文化的ニュアンスを考慮した安全評価が必要な国内 SaaS ベンダー(教育・金融・カスタマーサポート等)は、汎用的なグローバル基準ではなく、自社の利用規約に沿った動的なフィルタリングを低遅延で実装できる。