Supervised Fine-Tuning(SFT)과 Direct Preference Optimization(DPO)
SFT는 "정답을 알려주는" 데이터셋에서 모델을 지도 학습하는 전통적 방식.
DPO는 사람이 직접 특정 응답을 더 선호한다고 표현한 데이터로, 보상모델/강화학습 없이도 효과적으로 인간 선호를 반영하게 하는 최신 미세조정 기법입니다.
- Supervised Fine-Tuning (SFT)
- 사전학습(pretraining)된 언어 모델(LLM)에 대해, 사람이 정답을 제공한 데이터(질문-정답 쌍 등)를 이용해 추가적으로 학습시키는 과정
- 모델이 주어진 입력에 “정답” 또는 “이상적인 반응”을 잘 생성하도록 지도 학습(supervised learning) 방식으로 모델 파라미터를 조정
- 주로 instruction-following 또는 QA, 요약 등 task-specific output을 개선할 때 사용
- Direct Preference Optimization (DPO)
- DPO는 사람이 두 응답 중 더 선호하는 것을 직접 표시한 쌍(선호 데이터)을 기반으로 언어 모델이 인간의 선호에 더 잘 맞도록 직접적으로 최적화하는 미세조정 방식
- 선호되는 답변의 확률은 높이고, 비선호 답변의 확률은 낮추는 방식으로 loss를 설계하여, 모델이 직접 사용자의 선호에 더 부합하는 출력을 생성하도록 학습
- RLHF(인간 피드백을 활용한 강화학습)보다 구현 및 학습이 간단하고 계산적으로 효율적
- 강화학습 없이 simple classification loss(이진 분류 손실)로 구현 가능하며, 미세조정 속도와 안정성이 높다는 장점
- RRLHF(Reinforcement Learning from Human Feedback, 휴먼 피드백을 통한 강화학습)
: 복잡한 보상 함수(reward model)나 강화 학습 과정을 사용
- 인간의 가치, 의도, 사회적 맥락 등 명시적으로 정의하기 어려운 목표를 반영
- 대규모 언어 모델에서 instruction-following, 유해성 최소화 등 인간 중심 응답을 구현하는 데 최적화
- 실제 OpenAI ChatGPT, DeepMind Sparrow, Anthropic Claude 등 최신 AI에서 필수적으로 사용되는 미세조정 방식
- 기존의 단순 지도학습(SFT)만으로는 어려운, 주관적 또는 다차원적 기준 반영에 강점
[ 학습 절차 ]
- 사전학습(pretraining)된 모델에서 여러 응답을 생성하고, 인간 평가자가 이 중 더 나은 응답을 선택하거나 순위를 매깁니다.
- 인간의 선호 데이터를 활용해 보상 모델(reward model)을 학습
- 보상 모델은 응답의 품질을 정량적으로 평가하는 역할
- 최종적으로, 언어 모델 등 정책(policy)을 보상 모델의 평가 점수를 최대화하는 방향(주로 PPO 등 RL 알고리즘 활용)으로 재학습
1. Supervised Fine-Tuning (SFT) 상세 과정
- 목적:
사전학습된(base/pre-trained) LLM을 구체적인 작업(Task) 또는 도메인에 맞게 미세조정하는 첫 번째 단계입니다. 모델이 실제 현장에서 요구하는 형식과 기준을 충족하도록 만듭니다. - 구체적 단계:
- 데이터 준비 및 어노테이션:
작업(예: Q&A, 요약, 코드 생성)에 맞는 고품질의 입력(prompt)-출력(output) 쌍 데이터를 수집합니다. 데이터셋의 품질과 레이블의 일관성·정확성이 중요합니다[2][4]. - 전처리 & 토크나이징:
입력과 출력을 LLM이 이해할 수 있도록 텍스트를 토크나이즈(tokenize)합니다. 대화형 모델은 <|im_start|>, <|im_end|>, <|im_sep|> 등의 특수 토큰도 포함합니다[4]. - 파인튜닝 구조설정:
어떤 레이어까지 조정(Full Fine Tuning vs PEFT 등), 학습률·배치크기 등 하이퍼파라미터를 정의합니다[2]. - 모델 학습:
입력을 넣고, 정답 출력을 맞추도록 loss(일반적으로 Cross Entropy Loss)를 계산·역전파해 가중치를 업데이트합니다. 이 과정을 반복적으로 수행해 답변의 품질, 형식이 목표에 부합하도록 만듭니다[2]. - 평가 및 결과 검증:
검증(validation)·테스트 데이터를 통해 실제 성능을 평가하고, 필요하면 재파인튜닝합니다. - 배포:
최종 모델을 실제 응용(SW, 서비스 백엔드 등)에 배포합니다.
- 데이터 준비 및 어노테이션:
2. Direct Preference Optimization (DPO) 상세 과정
- 목적:
딥러닝 모델이 인간의 주관적 선호도(preference)를 더욱 잘 반영하도록 추가 미세조정하는 단계입니다. RLHF(보상모델과 RL기법)보다 직접적이며, 효율적입니다. - 구체적 단계:
- Preference 데이터셋 구축:
모델의 응답 후보들 중에서 인간이 선호하는(좋은) 응답과 비선호(나쁜) 응답 쌍을 만듭니다. 예를 들어:- Prompt: "고양이와 강아지의 차이점?"
- 좋은 답변: "고양이와 강아지는..."
- 나쁜 답변: "잘 모르겠습니다."
- DPO 학습 목표(로스):
같은 프롬프트에서 선호(좋은) 응답에 대한 모델의 확률이 비선호(나쁜) 응답보다 높아지도록 Logit 비율 기반의 로스 함수로 가중치를 업데이트합니다[2].
- Preference 데이터셋 구축:

- 이 과정에서 별도의 보상모델, PPO 등 강화학습 알고리즘 없이 선호 쌍만으로 모델을 직접 '선호' 방향으로 파인튜닝합니다.
- 반복과 검증:
반복적으로 여러 쌍에 대해 학습하며, 별도 검증 세트에서 품질을 확인하고 필요하면 추가 iteration을 수행합니다.
RLHF(Reinforcement Learning from Human Feedback, 휴먼 피드백을 통한 강화학습)의 핵심 원칙과 특징
3. RLHF(Reinforcement Learning from Human Feedback, 휴먼 피드백을 통한 강화학습) 상세 과정
목적
- 인간(평가자/사용자)의 주관적 선호와 가치, 사회적 기준이 AI(주로 대형 언어모델)의 출력에 잘 반영되도록 추가 미세조정하는 단계입니다.
- 주어진 작업에서 단순 지도학습(SFT)만으로 구현하기 어려운, 복잡한 인간적 가치와 맥락을 반영하는 데 최적화된 접근법입니다.
- 실제 사용 사례: OpenAI ChatGPT, DeepMind Sparrow, Anthropic Claude 등 대형 언어 모델(Large Language Models)에서 필수적 미세조정 기술로 활용
- 장점: 인간 피드백을 직접 반영해 AI 안전성, 응답 품질, 사용자 만족도를 크게 높일 수 있음.
- 단점: 인간 평가에 따른 비용 증가, 보상 모델 불안정성, 강화학습의 튜닝 어려움과 불안정성 존재.
상세 단계 와 과정
1. 선호 데이터 수집(인간 피드백)
- 여러 개의 모델 응답을 생성(prompt별로 candidate 답변).
- 인간 평가자가 “더 좋은/적합한 응답”을 직접 쌍(pair) 또는 순위로 선택합니다.
2. 보상 모델(Reward Model) 학습
- 인간의 선호 데이터(더 나은 답변이 무엇인지 정답 대조)로 보상 모델을 지도학습합니다.
- 이 모델은 향후 모델 출력의 “품질 점수”로 작동, 각 답변이 인간 관점에서 얼마나 적합한지 정량적 점수를 부여합니다.
3. 정책(Policy) 모델 강화학습(RL)
- 실제 언어모델(정책 모델)이 보상 모델이 주는 점수를 최대화하도록 강화학습(RL, 대표적으로 PPO: Proximal Policy Optimization) 방식으로 재학습합니다.
- 여러 step을 반복하면서, 모델이 점차 인간 선호(사회적 가치, 유용성, 해악성 최소화 등)를 내재한 출력을 생성하도록 만듭니다.
4. 반복적 개선
- 정책 개선(RL)을 통해 얻은 새 모델로 다시 응답을 수집하고, 인간 피드백/평가 과정을 반복 실행(Iterative Feedback-Improvement Loop)하여 정교한 조정이 가능합니다.
| 인간 피드백 | 사람이 직접 여러 답변 중 더 나은/좋은 것을 쌍 또는 순위로 표기 |
| 보상 모델 학습 | 인간 선호를 정량화한 보상모델(reward model)을 별도로 학습 |
| 정책 최적화 | PPO 등 RL 알고리즘 활용, 보상모델 점수 최대화 방향으로 정책(언어모델)을 미세조정 |
| 복잡성 | 3단계(지도학습→보상학습→강화학습)의 비교적 복잡한 세부 과정 필요 |
| 주요 효과 | 인간의 주관적 가치·의도·사회적 맥락 등 데이터셋·지도학습만으로 반영 어려운 기준 반영 우수 |
| 활용사례 | ChatGPT, Claude, DeepMind Sparrow 등 최신 LLM 서비스에서 실전 활용 |
| 장점 | 인간 친화적 AI(안전성, 품질, 사용자 만족도 ↑), 다차원 가치함수 학습 가능 |
| 한계 | 데이터 및 인력 비용, 보상모델 품질·불안정성, RL 튜닝 난이도 등 구현 복잡성 존재 |
참고: RLHF는 DPO와 달리 별도의 보상모델 구축과 강화학습(PPO 등)이 필요하며, 인간 가치·의도 반영에 매우 효과적이지만 전체 파이프라인이 복잡하다는 점이 특징입니다
4. 기타 참고
- Instruction Tuning/SFT는 모델이 질문-답변 형태와 같은 '사용자에 친화적인 출력 형식'을 익히게 하는 역할[4].
- DPO는 RLHF처럼 피드백 기반 미세조정이지만, 구조가 단순 (보상모델 없음)하고 파라미터 업데이트도 간결함[2].
실무 예시 (전체 흐름)
- 약 1,000~10,000건 이상의 Q/A, 요약 등 라벨링된 데이터셋을 준비
- SFT(Instruction Tuning)으로 베이스 모델 파인튜닝 → QA 혹은 요약 작업 형식 습득
- DPO용으로 인간 피드백 기반 '좋은/나쁜' 쌍 데이터셋 만들기
- DPO로 추가 미세조정 → 사용자 선호 반영 및 실제 서비스 Output 품질 극대화
참고:
이 과정은 데이터 품질 관리, 하이퍼파라미터 셋업, 반복적 튜닝과정이 실제 성능에 직접적으로 영향을 끼칩니다
인용:
[1] Supervised Fine-tuning: customizing LLMs - 코딩의 숲 - 티스토리 https://ariz1623.tistory.com/347
[2] 파인튜닝(Fine-tuning)이란? - LLM 구축 방법 | appen 에펜 https://kr.appen.com/blog/fine-tuning/
[3] [우아한 스터디] LLM(LLaMA3) Fine-Tuning 방법 정리 - velog https://velog.io/@judy_choi/LLMLLaMA3-Fine-Tuning-%EB%B0%A9%EB%B2%95-%EC%A0%95%EB%A6%AC
[4] DeepDive LLM 2편 - Supervised Fine Tuning - sudormrf https://sudormrf.run/2025/02/27/supervised-fine-tuning/
[5] LLM 학습 개요 - pretrain vs finetuning - 머신러닝 - 티스토리 https://hi-lu.tistory.com/entry/LLM-%ED%95%99%EC%8A%B5-%EA%B0%9C%EC%9A%94-pretrain-vs-finetuning
[6] LLM 성능 향상을 위한 Post-training 방법론 개요 https://littlefoxdiary.tistory.com/132
[7] 성숙한 LLM 만들기 : LLM Alignment (RLHF, DPO) ft. ChatML https://devocean.sk.com/blog/techBoardDetail.do?ID=165903&boardType=techBlog
[8] No-Code LLM 파인튜닝 : LLaMA-Factory - DevOcean https://devocean.sk.com/blog/techBoardDetail.do?ID=166098&boardType=techBlog
[9] QLoRA를 활용한 LLM 파인튜닝 https://1119wj.tistory.com/25
[10] The RED : 김형진의 LLaMa3 & 오픈소스 LLM을 활용한 Fine-tuning ... https://fastcampus.co.kr/data_red_llama3
'BigData' 카테고리의 다른 글
| AI관리 시스템 표준 ISO 42001 핵심 요구사항 정리 (0) | 2025.08.11 |
|---|---|
| RLHF(Reinforcement Learning from Human Feedback, 인간 피드백을 통한 강화 학습) 모델 구현 절차 (1) | 2025.08.02 |
| Supervised Fine-Tuning(SFT)과 Direct Preference Optimization(DPO), RLHF(Reinforcement Learning from Human Feedback) 비교 (1) | 2025.08.02 |
| 생성형 AI 데이터 활용 정책과 이용자 보호에 관한 주요 정책 동향 (1) | 2025.07.27 |
| 인공지능 보안 위협 4가지 - 3. Model Inversion Attack (1) | 2025.06.29 |
| 인공지능 보안 위협 4가지 - 2.Adversarial Attack 기법 (3) | 2025.06.29 |
| 인공지능 보안 위협 4가지 - 1. Poisoning Attack 기법 (1) | 2025.06.29 |