-
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 논문 리뷰LLM papers 2024. 5. 22. 16:17728x90
Abstract
대규모 unsupervised LM은 폭넓은 지식과 추론 능력을 학습한다. 하지만, 모델의 행동을 정확히 제어하는 것은 어려운 일이다. 현재의 제어 방법은 모델 생성물의 상대적인 품질에 대한 인간의 label을 수집하고, 이를 통해서 unsupervised LM을 fine-tuning 하여 선호도에 맞추는 것이 일반적이다. 본 논문에서 이야기하는 이러한 과정은 RLHF를 포함하지만, 절차가 복잡하고 불안정한 절차이다. 인간의 선호도를 반영하는 reward model을 맞추고, reinforment learning을 통해 예측된 보상을 최대화하도록 unsupervised LM을 fine-tuning하는 방식이다.
본 논문에서는 RLHF의 reward model을 새로운 방식으로 파라미터화하여, 대응되는 최적 정책을 폐쇄형으로 추출할 수 이게 했고, 이를 통해 RLHF 문제를 단순한 분류 손실만으로 해결할 수 있는 방법을 소개하고 있다. DPO(직접 선호 최적화)라고 명명하며, 안정적이고 우수한 성능이며, 계산적으로 경량화되어 fine-tuning 동안 LM에서 샘플링을 수행하거나 중요한 하이퍼파라미터 튜닝을 필요로 하지 않는다. 논문에서 실험 결과로 DPO는 기존 방법과 동일하거나 더 나은 성능으로 LM을 인간 선호도에 맞춰 fine-tuning 할 수 있음을 보여준다. 또한, DPO를 사용한 파인 튜닝은 감정 생성의 제어 능력에서 PPO 기반 RLHF를 능가하며, 요약과 단일 턴 대화의 응답 품질에서도 향상된 성능을 보이며, 구현 및 훈련도 훨씬 간단하다.
사실상 논문의 전반적인 내용을 Abstract에서 모두 제시하고 있어, 거의 번역급으로 Abstract를 정리할 수밖에 없었다.
Introduction
대규모 unsupervised LM은 다양한 목표, 우선순위, 기술 수준을 가진 인간이 생성한 데이터로 훈련된다. 하지만, 이런 목표와 기술의 일부가 모방되기에 바람직하지 않을 수 있다. 모델의 광범위한 지식과 능력 중에서 원하는 응답과 행동을 선택하는 것은 안전하고 성능이 뛰어나며 제어 가능한 AI 시스템을 구축하는데 중요하다. 하지만, 기존 방법은 일반적으로 강화 학습을 사용하여 언어 모델을 인간의 선호도와 일치하는 방법을 사용하는데, 본 논문에서는 RL 기반 목표를 간단한 binary
cross entropy 목표로 정확하게 최적화할 수 있음을 보여준다.
기존 방법은 인간이 안전하고 유용하다고 생각하는 행동 유형을 나타내는 인간 선호도의 큐레이션 세트를 사용하여 LM에 행동을 주입한다. 일반적으로 SFT를 하거나, RLHF, RLAIF에서 강화 학습을 통한 방법을 택한다. RLHF는 인간 선호도 데이터셋에 맞춰 reward model을 최적화한 다음, 보상을 최대화하기 위해 언어 모델 정책을 최적화한다. RLHF가 인상적인 능력을 가지고 있지만, 여러 언어 모델을 훈련하고 훈련 루프 내에서 언어 모델 정책을 샘플링하는 복잡한 과정을 포함하기 때문에 상당한 계산 비용을 수반하게 된다.
본 논문에서는 보상 모델링이나 강화학습 없이 인간 선호도에 맞추어 언어 모델을 직접 최적화하는 방법을 제시한다. 구현과 훈련이 간단한 DPO 알고리즘을 제안하는데, 선호 응답에 대한 상대적 로그 확률을 증가시킬 수는 있지만, 단순 확률 비율 목표에서 발생하는 모델 붕괴를 방지하는 동적 예제별 중요 가중치를 통합한다. DPO는 Bradley-Terry 모델 등을 사용해서 주어진 보상 함수가 경험적 선호 데이터와 얼마나 잘 맞는지 측정한다.
기존 방법이 선호 손실을 정의해서 보상 모델을 훈련하고, 학습된 보상 모델을 최적화하는 정책을 훈련하는 반면에 DPO는 변수를 변경해서 정책 함수로 선호 손실을 정의한다. DPO는 단순한 binary cross entropy 목표를 사용해서 정책을 최적화하여 선호 데이터에 맞는 최적 정책을 생성한다.
위 이미지를 보면, 강화학습 단계가 생략된 DPO 모델을 통해 RLHF와의 차이점을 명확히 볼 수 있다.
Preliminaries
1. SFT : RLHF는 고품질 데이터에 대한 감독 학습을 통해 사전 훈련된 언어 모델을 파인튜닝하는 것부터 시작해서, 다운스트림 작업에 대해 πSFT 모델을 얻는다.
2. Reward Modelling Phase
- SFT 모델이 프롬프트 x에 대해 응답 쌍 (y1,y2)∼πSFT(y∣x)를 생성하도록 한다.
- 인간 평가자에게 이 쌍을 제시하고 x에 대한 𝑦𝑤≻𝑦𝑙 로 표시된 선호도를 나타낸다. 여기서 yw는 선호 응답, yl은 비선호 응답이다.
선호 데이터셋 𝐷={𝑥(𝑖),𝑦𝑤(𝑖),𝑦𝑙(𝑖)}𝑖=1𝑁 에 접근할 수 있다고 가정하고, 최대 가능도 추정치를 통해 매개변수화된 보상 모델 rϕ(x,y) 의 매개변수를 추정한다.
- 네트워크 rϕ(x,y) 는 일반적으로 SFT 모델 πSFT(y | x) 에서 최종 트랜스포머 층 위에 단일 스칼라 예측을 생성하는 선형 층을 추가해서 초기화 된다.
3. RL Fine-Tuning Phase
- RL 단계에서는 학습된 보상 함수를 사용해서 언어 모델에 피드백을 제공한다.
다음 최적화 공식을 따른다. 여기서 beta는 기본 참조 정책 πref, 초기 SFT 모델 πSFT 로부터의 편차를 제어하는 매개변수이다. 이러한 추가된 제약 조건은 모델이 보상 모델이 정확한 분포로부터 너무 멀리 벗어나지 않도록 방지하고, 생성 다양성을 유지하고 단일 응답으로 모드 붕괴를 방지한다.
- 표준 접근 방식은 보상 함수 r(x,y)=rϕ(x,y)−β(logπθ(y∣x)−logπref(y∣x)) 을 구성하고, PPO를 사용하여 최대화 한다.
Direct Preference Optimization
강화학습 알고리즘 적용 대신, 선호도를 직접 사용해서 정책을 최적화하는 간단한 접근 방식 도출을 목표로 한다. RLHF 와 달리, 보상을 학습하고 이를 강화학습을 통해 최적화하는 대신, 최적 정책을 폐쇄형으로 추출할 수 있게 reward 모델의 특정 파라미터화를 활용해서 RL 훈련 루프 없이 최적 정책을 추출한다.
주요 인사이트는 reward function을 최적 정책에 대한 손실 함수로 변환하는 분석적 매핑을 활용하는 것이다. 변수 변환 접근 방식은 명시적 보상 모델을 맞추는 과정을 피하면서 기존의 Bradley-Terry 모델 하에서 최적화를 수행한다. 정책 네트워크가 본질적으로는 언어 모델과 암묵적인 보상 둘 다를 나타내는 것이다.
Deriving the DPO objective.
일반 보상 함수 r에서 동일한 RL 목표로
해당 수식을 따른다. 해당 수식의 KL-constrained reward maximum 목표의 최적 솔류션은 다음과 같은 형태를 취한다고 한다.
Z(x)를 추정하는 것은 여전히 비용이 많이 들지만, 위 함수를 재배열해서 reward function을 최적 정책 πr, 참조 정책 πref 및 알려지지 않은 분할 함수 Z(⋅) 로 표현할 수 있다.
위와 같이 조작 가능하며, r* 및 해당 최적 모델
에 대입하면,
위와 같이 조작이 가능하다.
최적 정책이 아닌 보상 모델 측면에서 인간 선호 확률을 표현할 수 있으므로, 우리의 정책 목표는 아래와 같은 공식으로 표현이 가능하다.
What does the DPO update do?
다음 손실함수 그래디언트를 분석하는 것이 유용하다. 매개변수 theta에 대한 손실 함수의 그래디언트는 다음과 같다.
직관적으로 손실함수 L_DPO의 그래디언트는 선호 응답 yw의 확률을 증가시키고, 비선호 응답 yl의 확률을 감소시킨다.
암묵적 보상 모델 r_theta가 비선호 응답을 얼마나 높게 평가하는지에 따라 가중치가 부여된다.
DPO outline.
1. 프롬프트 x에 대해 참조 모델 πref(⋅∣x) 에서 응답 y1, y2를 샘플링하고, 인간 선호를 레이블로 지정하여 선호 데이터셋 D={x(i),yw(i),yl(i)}i=1N 을 구성한다.
2. 주어진, , 𝐷, 𝛽 에 대해 L_DPO를 최소화하도록 언어 모델
Theoretical Analysis of DPO
Your Language Model Is Secretly a Reward Model
최적화 목표인 다음 식은 보상 매개변수를 사용하 Bradley-Terry 모델과 동일하다.
여러 가지 정의들과 이론들이 나오는데, 다음 내용들을 정리해보자.
Definition 1
와 𝑟′(𝑥,𝑦)가 𝑟(𝑥,𝑦)−𝑟′(𝑥,𝑦)=𝑓(𝑥) 일 때 동등하다.
Lemma1
Bradley-Terry 선호 프레임워크 하에서 같은 클래스에 속하는 두 보상 함수는 동일한 선호 분포를 유도한다.
Lemma2
동일한 동등 클래스의 두 보상 함수는 제약된 RL 문제에서 동일한 최적 정책을 유도한다.
Theorem 1
Plackett-Luce(Bradley-Terry) 모델과 일치하는 모든 보상 클래스는
다음과 같은 형식으로 표현될 수 있다.
Theorem 1에 대한 증명 스케치를 본 논문에서 간단히 제공하고 있는데, 솔직히 잘 이해가 되지 않는다....
Instability of Actor-Critic Algorithms
본 논문에서는 DPO 프레임워크를 사용해서 PPO와 RLHF에 사용되는 표준 actor-critic 알고리즘의 불안정성을 진단한다. 파라미터화 된 모델 πθ(y∣x)를 가정하고, 최적의 정책
를 기반으로 정책을 학습한다.
Evaluation
두 가지 다른 평가 접근 방식을 사용한다.
1. 제어된 감정 생성 설정에서는 각 알고리즘이 달성한 보상과 참조 정책으로부터의 KL 발산 경계를 평가하여 제약된 보상 최대화 목표를 최적화하는 알고리즘 효과를 분석한다. -> 실제 보상 함수를 알고 있기 때문에 계산이 가능
2. 요약과 단일 회차 대화 설정에서는 실제 상황의 경우 실제 보상 함수를 알 수 없으므로, 기준 정책에 대한 승률을 사용하여 알고리즘을 평가한다.
요약 : 테스트 셋의 참조 요약을 기준으로 사용
대화 : 테스트 데이터셋의 선호 응답을 기준으로 사용
Method
DPO 외에도, 인간 선호에 맞추어 언어 모델을 학습하는 여러 기존 접근 방식을 평가한다.
요약에서 GPT-J의 zero-shot 프롬팅과 대화 작업에서 Pythia-2.8B의 2-shot 프롬팅을 탐구한다.
선호 데이터로부터 학습된 보상 함수를 사용하여 PPO를 평가하고, 제어된 감정 설정에서 실제 보상 함수를 학습하는 오라클인 PPO-GT를 평가한다. 감정 실험에서는 두 가지 PPO-GT 구현을 사용한다. 마지막으로, 선호 데이터셋에서 학습된 보상 함수를 사용하여 SFT-모델의 N개의 응답을 샘플링하고 가장 높은 점수를 받은 응답을 반환하는 Best of N 기준선을 고려한다.
How well can DPO optimize the RLHF objective?
KL 제약 보상 최대화 목표는 보상의 착취를 제한하면서 참조 정책에서 멀어지지 않도록 제한한다. 알고리즘을 비교할 때, 달성된 보상과 KL 불일치 모두를 고려해야 한다.
이미지를 살펴보자. 감정 설정에서 다양한 알고리즘에 대한 보상-KL 경계를 보여준다. 총 22개의 실행이 포함되며, 수렴할 때까지 각 100 학습 단계 후에, 각 정책을 테스트 프롬프트 집합에서 평가하여 실제 보상 함수 하의 평균 보상과 참조 정책 KL 평균 시퀀스 수준 KL을 계산한다. DPO는 KL이 낮으면서도 가장 높은 보상을 달성하여 가장 효율적인 경계를 제공하는 것을 볼 수 있다.
1) DPO와 PPO는 동일한 목표를 최적화하지만, DPO는 현저히 더 효율적이다.
2) DPO는 PPO가 실제 보상에 접근할 떄 조차 PPO-GT 성능을 상회한다.
Can DPO scale to real preference datasets?
요약 및 단일 회차 대화에서 DPO의 성능을 평가한다.
요약의 경우에 TLDR 요약 데이터셋의 테스트 분할에서 샘플 완료를 평가하고, 테스트 셋의 참조 완료에 대한 평균 승률을 계산한다. 위 이미지의 오른쪽을 살펴보자. DPO, PPO, Prefered-FT 모두 동일한 GPT-J SFT 모델을 미세조정한다. DPO가 temperature 0.0에서 약 61% 승률을 기록하고, temperature 0.0에서 57%의 최적 샘플링 온도를 가진 PPO의 성능을 초과하는 것을 발견할 수 있다. 또한, DPO는 학습된 보상 함수를 사용해서 Best of N 기준선보다 높은 최대 승률을 달성한다.
단일 회차 대화에서는 Anthropic HH 데이터셋의 테스트 분할 중 하나로부터 한 단계의 인간-비서 상호작용을 사용하여 다양한 방법을 평가한다. 전반적으로 Anthropic HH 데이터셋에서 선호된 완성본을 개선하는 유일한 계산 효율적인 방법이 DPO 이며, 계산적으로 요구가 많은 Best of 128 기준선과 비슷하거나 더 나은 성능을 제공한다.
이미지를 보면, DPO가 더 빠르게 최상의 성능에 도달하는 것을 볼 수 있다.
Generalization to a new input distribution
CNN/DailyMail의 뉴스 기사 테스트 셋에서 Reddit TLDR 요약 실험의 PPO와 DPO 정책을 평가하여 PPO와 DPO 정책의 분포 변화에 대한 성능을 비교했다.
표를 살펴보자. TLDR에 사용된 동일한 GPT-4 프롬트를 사용해서 데이터셋의 실제 요약에 대한 GPT-승률을 계산하는데, "forum post"라는 단어를 "news article"로 대체한다. DPO는 여전히 PPO 정책보다 유의미하게 더 나은 성능을 발휘한다. 이 실험을 통해 본 논문에서는 DPO 정책이 명시적 보상 함수로부터 학습된 모델과 비슷하게 일반화할 수 있음을 증명한다고 한다.
Validating GPT-4 judgments with human judgments
TLDR 요약 실험의 결과와 두 가지 다른 GPT-4 프롬트를 사용해서 GPT-4 판단 신뢰성을 검증하기 위한 인간 연구를 수행한다. GPT-4(S) 프롬트는 어떤 요약이 게시물의 중요한 정보를 더 잘 요약하는지 묻는다. GPT-4(C) 프롬트는 어떤 요약이 더 간결한지 묻는다. GPT-4가 GPT-4(S) 로 인간보다 더 길고 반복적인 요약을 선호한다는 것을 발견했다. 이를 통해 DPO, PPO, SFT를 평가하는데, GPT-4는 인간과 거의 동일하게 동의하는 것을 발견할 수 있었다. 또한, GPT-4(C) 프롬트도 인간의 결과를 더 잘 대표하는 것을 볼 수 있었다.
Discussion
본 논문은 강화학습 없이 선호도로부터 언어 모델을 훈련하기 위한 DPO를 도입했다. 기존의 강화학습 알고리즘을 사용하기 위해 선호 학습 문제를 표준 RL 설정으로 강제하는 대신, DPO는 언어 모델 정책과 보상 함수 간의 매핑을 식별해서 단순한 교차 엔트로피 손실로 인간 선호를 충족하는 언어 모델이다. 하이퍼파라미터를 튜닝하지 않고도 DPO는 기존의 RLHF 알고리즘, PPO 기반 알고리즘과 비슷하거나 더 나은 성능을 발휘한다. 이를 통해서 인간 선호로 더 많은 언어 모델을 훈련하는데 있어 본 논문은 유의미한 결과를 보여준다.
728x90'LLM papers' 카테고리의 다른 글