コードレビューの質向上を目指した望ましいコメント抽出手法「Desiview」

Distilling Desired Comments for Enhanced Code Review with Large Language Models

著者と所属

Yongda Yu, Jiahao Zhang, Lei Zhang, Haoxiang Yan, Guoping Rong, Guohao Shi, Dong Shao: 南京大学ソフトウェア研究所
Haifeng Shen: サザンクロス大学理工学部
Ruiqi Pan, Zhao Tian, Yuan Li, Qiushi Wang: Huawei Technologies Co., Ltd.

論文概要

近年、コードレビューの自動化に大規模言語モデル (LLM) を活用する研究が盛んです。しかし、既存のLLMベースの手法は、コードレビューで実際に修正に繋がる望ましいレビューコメント (Desired Review Comments: DRC) を生成することに課題を抱えていました。本論文では、コードレビューデータセットからDRCを自動的に識別し、質の高いデータセットを構築する手法 Desiview を提案します。この手法で構築したデータセットを用いてLLaMAをファインチューニングおよびアラインメントした結果、DRC生成能力が大幅に向上することを確認しました。

研究の目的:

コードレビューにおいて、修正に繋がる質の高いレビューコメントを自動生成する手法を開発すること。
LLMのファインチューニングに適した、DRCの割合が高いデータセットを自動構築する手法を開発すること。

研究の背景:

コードレビューはソフトウェア開発における重要なプロセスですが、レビュアーの負担が大きいという課題があります。そこで、LLMを用いてコードレビューを自動化する試みが注目されています。しかし、既存のLLMベースの手法では、必ずしも修正に繋がるとは限らないコメントが生成される場合があり、実用性に課題がありました。より効果的なコードレビューを実現するためには、実際に修正に繋がるDRCを生成できるLLM が必要とされています。

提案手法のハイライト:

Desiview: レビューコメントに基づいて実際にコード修正が行われたかどうかを分析し、DRCを自動的に識別する手法。
Desiview4FT: Desiviewで構築した高品質なデータセットを用いて、LLaMAをファインチューニングしたコードレビューモデル。
Desiview4FA: Desiview4FTをさらにKTOアラインメントにより性能向上させたコードレビューモデル。

図2: Desiview4FTおよびDesiview4FAの開発プロセス

論文の新規性と貢献

新規性

コードレビューデータセットからDRCを自動識別する手法 Desiview を提案。
Desiviewで構築した高品質データセットを用い、LLaMAをファインチューニングおよびアラインメントした高性能コードレビューモデル Desiview4FT および Desiview4FA を開発。

貢献

コードレビュー自動化への寄与。
LLMを用いたソフトウェアエンジニアリングタスクの性能向上に貢献。

提案手法の詳細

Desiview: 望ましいレビューコメントの自動識別

1. DRCの識別

レビューコメントRは、元のコードコミットCoに基づいて記述される（P(R|Co)）。
開発者は、レビューコメントRを受けてコード修正Crを行う（P(Cr|Co, R)）。
DRCは修正に繋がるコメントとし、以下の式で望ましさスコアDSを算出。

DS = −(PPL(P(Cr|Co, R)) − PPL(P(Cr|Co)))
※ PPLはパープレキシティ
DS > 0ならレビューコメントは修正に貢献しており、DRCと判定。

2. データセットの準備と前処理

CodeReviewerデータセットを用い、4つのLLM（CodeLlama-13b-Instruct, starchat2-15b-v0.1, Meta-Llama-3-8B-Instruct, deepseek-coder-6.7b-instruct）でPPLを計算。
各モデルの結果の中央値を最終スコアに採用し、DRCを識別。

Desiview4FT: LLMのファインチューニング

Desiviewで構築したデータセットを用い、LLaMA-3およびLLaMA-3.1をファインチューニング。
リソース軽減のためLoRAを利用。

Desiview4FA: LLMのアラインメント

Desiview4FTをKTOアラインメントでさらに性能向上。
KTOはペアデータ不要でコードレビュータスクに適した手法。

評価・考察

評価方法

DRCの識別精度: 10-line rule、GPT-3.5、GPT-4oと比較
レビューコメントの質:
- 自動評価：BLEU-4スコアでLLaMA-Reviewerと比較
- 人手評価：問題点の正確な特定および記述精度

研究成果

Desiviewは既存手法を上回る高精度でDRCを識別。

Method	Accuracy	Precision	Recall	F1-Score
10-line rule	58.33	51.92	100.00	68.35
gpt3.5-turbo-0125	68.00	60.71	81.85	69.72
gpt-4o-0513	76.50	79.72	64.07	71.05
Desiview	86.67	88.93	80.37	84.44

表3: DRC識別における各手法の性能

Desiview構築データセットでファインチューニング・アラインメントしたLLaMAはDRC生成能力が大幅向上。

Method	BLEU-4	Human Position	Human Perfect
LLaMA-Reviewer (LLaMA-3)	8.33	70.33	16.67
Desiview4FT (LLaMA-3)	11.87 (+42.5%)	76.67 (+9.01%)	18.33 (+9.96%)
Desiview4FA (LLaMA-3)	13.13 (+57.62%)	80.00 (+13.75%)	18.67 (+12.00%)
LLaMA-Reviewer (LLaMA-3.1)	6.86	68.67	12.67
Desiview4FT (LLaMA-3.1)	12.48 (+81.92%)	78.67 (+14.56%)	16.00 (+26.28%)
Desiview4FA (LLaMA-3.1)	13.57 (+97.81%)	79.00 (+15.04%)	16.67 (+31.57%)

表4: コードレビューコメント生成タスクの性能

応用例と今後の展望

応用可能性

コードレビュー自動化ツール
開発者支援システムの高度化

今後の課題

他のコードレビューデータセットへの適用検証
より大規模なLLMでの応用
生成コメントの質のさらなる向上

注釈

大規模言語モデル (LLM): 大量のテキストデータで学習され自然言語処理に高性能を発揮するAIモデル。
ファインチューニング: 事前学習済みモデルを特定タスク向けに調整する手法。
アラインメント: 人間の価値観や意図に沿うようAIの出力を調整するプロセス。
パープレキシティ: 言語モデルの予測性能指標。低いほど精度が高い。
LoRA (Low-Rank Adaptation): 大規模モデルを効率よくファインチューニングする技術。
KTO (Kullback-Leibler Teacher-student Optimization): ペアデータ不要のLLMアラインメント手法。
BLEU: 機械翻訳などで生成文と参照文の類似度を測る評価指標。