HuggingFace、ModernBERT 基盤のリランカー Ettin シリーズ 6 種を公開──最大 8K コンテキスト対応
17M から 1B までの 6 サイズ展開で、ModernBERT の長文脈特性を活かしつつ Flash Attention 2 による高速推論を実現した RAG 最適化モデル群。
リリース: 2026-05-19 · 読了 3 分17M から 1B パラメータまで 6 種類のサイズを提供し、エッジからサーバーサイドまでの幅広い推論環境に対応する。
ModernBERT アーキテクチャを継承し、リランカーとしては稀な最大 8,192 トークンの長文脈入力をサポートする。
Flash Attention 2 と bfloat16 を併用することで、デフォルト設定比で 1.7 倍から 8.3 倍の推論スループット向上を確認した。
MTEB(eng, v2) Retrieval ベンチマークにおいて、それぞれのモデルサイズで SOTA 級の精度を記録した。
リランカーは精度が高い反面、計算コストがボトルネックになりがちだったが、17M 級の極小モデルと Flash Attention 2 の組み合わせにより、CPU や低スペック GPU でも高精度な RAG パイプラインが構築可能になる。
8K トークンのコンテキスト長により、従来のリランカーでは切り捨てられていた長文ドキュメントの細部情報を考慮した再ランキングが現実的なコストで実行できる。
RAG を実装するエンジニアは、Sentence Transformers ライブラリを通じて 3 行のコード変更で既存のリランカーを Ettin に置換でき、特に長文ドキュメントの再ランキング精度を向上させられる。
[国内 AI 検索 SaaS 業種] や [ナレッジマネジメントツール開発] を行う中規模ベンダーは、高価な商用 API に頼らず、自前インフラ上の軽量 Ettin モデルで RAG の最終精度を底上げする構成が現実的な選択肢となる。