LoRA学習への指数移動平均(EMA)導入によりLLM微調整の汎化性能と安定性が向上
LoRAの重み更新にEMAを適用する手法を提案。数学推論やドメイン適応において、標準的なLoRAを上回る精度を達成。(原題: LoRA-EMA: Exponential Moving Average for Low-Rank Adaptation)
リリース: 2025-01-10 · 読了 3 分何が起きた
LoRA-EMAは、LoRAの低ランク行列に対してのみ指数移動平均(EMA)を適用し、計算コストを最小限に抑えつつ汎化性能を向上させる手法。
GSM8Kベンチマークにおいて、Llama-3-8Bを用いた標準的なLoRA(36.4%)に対し、LoRA-EMAは38.5%と+2.1ptの精度改善を達成。
追加のメモリ消費はLoRAパラメータ(通常、全パラメータの1%未満)の2倍程度に留まり、ベースモデル全体のEMAを保持する手法より極めて効率的。
複数のドメイン適応タスクにおいて、最終ステップの重みよりもEMAによる重みの方が一貫して高いテスト精度を記録。
なぜ重要
LoRA微調整において「最終ステップの重みが最適とは限らない」という課題に対し、計算負荷をほぼ増やさずにロバストなモデルを得る手法が確立された。検証データでのスコア変動に悩む開発者にとって、チェックポイント選択の不確実性を排除できる。
👁️ 開発者
LoRAで微調整を行う際は、実装に数行加えるだけで性能向上が見込めるEMAを導入すべき。特に小規模データセットでの過学習抑制や、学習曲線が不安定なタスクで最も効果を発揮する。
🇯🇵 日本
国内固有の追加文脈は限定的(汎用的に有用)。
著者
📊 BenchmarkYing-Hsin Chen · National Taiwan University
Hung-yi Lee · National Taiwan University
| Metric | Score | Δ |
|---|---|---|
| GSM8K (Llama-3-8B) | 38.5 | +2.1 |
| GLUE Average | 84.2 | +0.7 |