최근 수정 시각 : 2025-07-13 20:21:25

RLHF

<nopad>
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -5px -1px -11px"
<colbgcolor=#2e3039,#2e3039><colcolor=#fff,#fff> 종류 대화형 인공지능 (주요 목록) · 코드 생성 인공지능 · 그림 인공지능 · 영상 인공지능 · 음향 인공지능 · 3D 모델링· 지능형 에이전트 · VLA · 멀티모달 모델 · 언어 모델 · 월드 모델
프롬프트 프롬프트 · 프롬프트 엔지니어링 · 프롬프트 해킹
아키텍처 트랜스포머 · GAN · 확산 모델 · 변분 오토인코더 · 자기회귀모델
학습 자기지도학습 · 강화학습 (RLHF)
응용 AI 개요 · 인공지능 검색 엔진 · 바이브 코딩 · 인공지능 로봇 (테슬라 옵티머스) · AI 신약개발
문화·밈 AI 커버 · 쇼거스 · 인공지능 버츄얼 유튜버 · ChatGPT 지브리풍 이미지 생성 유행 · 와... 너 정말, **핵심을 찔렀어.**
기타 AI 슬롭 · AI wrapper · 인공지능 환각 · 인공지능 벤치마크 · Model Context Protocol · 대중화 · 인공 일반 지능 · 인공지능 정렬 · Spiritual bliss attractor }}}}}}}}}


1. 개요2. 작동 원리3. 도입 시 장점4. 한계5. 주요 활용 사례

1. 개요

파일:IMG_215333739.jpg
RLHF를 쇼거스가 쓴 스마일리 가면으로 묘사한 밈 'AI Shoggoth'

Deep reinforcement learning from human preferences[1]
Training language models to follow instructions with human feedback[2]

RLHF는 Reinforcement Learning from Human Feedback의 약자로 이는 인간의 피드백을 통한 강화학습을 일컫는다.
LLM을 미세 조정(Fine-tuning)하는 기법으로 자주 사용된다. RLHF에서는 인간이 직접 '좋다/나쁘다' 혹은 'A가 B보다 낫다' 등으로 AI 생성물에 대해 평가해주면 AI가 이 피드백을 학습해 인간이 선호하는 산출물을 내뱉게 된다.

ChatGPT, Claude와 같은 최신 챗봇 AI들의 성능 향상에 결정적인 역할을 한 기술 중 하나로 꼽힌다. 기존의 방식으로는 정의하기 어려웠던 '좋은 답변', '유용한 답변'과 같은 추상적인 목표를 인간의 선호를 직접 반영해 달성하려는 시도 중에 하나였고 이게 ChatGPT로 큰 대박을 치게 된다.

아무래도 인간 평가자가 들어가는만큼 비용이나 확장성 문제가 존재하며 이런 문제점을 해결하기 위해 AI가 생성한 피드백을 활용하는 RLAIF(Reinforcement Learning from AI Feedback) 등의 후속 연구도 속속들이 진행되고 있다. 2025년 초에는 딥시크의 추론 인공지능인 R1이 학습 파이프라인에서 RLHF 과정을 생략했다고 밝혀 파장을 일으키기도 했다.

2. 작동 원리

언어모델에 사용되는 RLHF는 크게 3단계로 진행된다.

1. 사전훈련(Pre-training)된 언어 모델 준비
  • 사전훈련을 마친 LLM이 필요하다. 이 모델은 방대한 텍스트 데이터를 학습하여 기본적인 언어 능력을 갖추고 있다.

2. 보상 모델(Reward Model) 훈련
  • 준비된 모델에게 특정 프롬프트(지시어)를 주고 여러 개의 답변을 생성하게 한다.
  • 인간 평가자가 이 답변들을 보고 어떤 답변이 더 좋은지 순위를 매기거나 점수를 부여한다. (예: 답변 A > 답변 B > 답변 C)
  • 수집된 인간의 선호도 데이터를 이용해, 어떤 답변이 '좋은' 답변인지를 예측하는 별도의 보상 모델을 훈련시킨다. 이 보상 모델은 특정 답변을 입력받으면 인간이 부여할 법한 '점수'(보상)를 출력한다.

3. 강화학습을 이용한 미세 조정(Fine-tuning)
  • 원본 언어 모델을 강화학습의 에이전트로 삼는다.
  • 모델이 특정 프롬프트에 대해 답변을 생성하면(행동), 2단계에서 훈련된 보상 모델이 이 답변에 대한 점수(보상)를 준다.
  • 모델은 이 보상 점수를 최대로 받는 방향으로 자신의 정책(답변 생성 방식)을 업데이트한다. 이 때 강화학습 알고리즘이 사용되는데, GPT-3을 위시한 대부분의 LLM은 주로 PPO(Proximal Policy Optimization)를 사용한다.
  • 이 과정을 반복해 모델이 점차 인간의 선호도에 맞는 답변을 생성하도록 유도한다.

결과적으로 RLHF를 거친 모델은 기술적으로 정확할 뿐 아니라 인간 사용자가 느끼기에 더 자연스럽고 유용하며 안전한 결과물을 생성할 수 있게 된다.

3. 도입 시 장점

  • 인간의 가치 및 선호도 반영: '좋은 글', '도움되는 답변' 등 수치화하기 어려운 목표를 인간의 피드백을 통해 직접 학습시킬 수 있다.
  • 성능 향상: 특히 대화형 AI, 콘텐츠 생성 등 주관적인 품질이 중요한 분야에서 성능을 크게 개선할 수 있다.
  • 안전성 강화: 유해하거나 편향된 답변 생성을 줄이고, AI가 의도에 맞게 작동하도록(Alignment) 유도하는 데 효과적이다. 사람들이 말하는 '인공지능 정렬'이 지금까지는 RLHF로 주로 이뤄지고 있다고 보면 된다.

4. 한계

  • 높은 비용과 시간: 다수의 인간 평가자가 직접 데이터를 생성하고 평가해야 하므로 비용과 시간이 많이 소요된다.
  • 확장성 문제: 모든 가능한 상황에 대해 인간 피드백을 받는 것은 불가능하며, 데이터 수집 규모에 한계가 있다.
  • 인간 편향성 전이: 평가자들의 주관적인 판단이나 편향이 보상 모델과 최종 모델에 그대로 학습될 수 있다.[3]
  • 보상 해킹(Reward Hacking): 모델이 보상 모델의 허점을 파고들어 점수만 높고 실제로는 이상한 답변을 생성할 가능성이 있다.
  • 복잡성: 전체 프로세스가 여러 단계로 이루어져 구현 및 관리가 복잡하다.

5. 주요 활용 사례



[1] 가상 로봇을 제어하거나 혹은 아타리 게임을 수행하는 전형적인 강화학습 문제상황에 인간 선호도를 적용한 논문이다.[2] ChatGPT로 유명한 OpenAI에서 쓴 논문이다.[3] 안드레 카파시(Andrej Karpathy)는 한 트위터 포스트에서 RLHF는 진정한 의미의 강화학습이라고 보기 어렵다는 의견을 내비쳤었다.