1. 기계학습의 두 축: 지도학습과 강화학습
기계학습(Machine Learning)은 학습 방식에 따라 여러 갈래로 나뉩니다. 그중 가장 대표적인 지도학습과, 최근 AI 발전의 핵심인 강화학습의 차이를 이해하는 것이 첫걸음입니다.
지도학습 (Supervised Learning)
지도학습은 '정답(Label)'이 포함된 데이터로 모델을 학습시키는 방식입니다. 입력 데이터 $X$와 그에 대응하는 정답 $Y$를 함께 제공하여, 모델이 $X \rightarrow Y$로 매핑하는 함수를 학습하도록 합니다.
- 학습 방식: 모델의 예측값과 실제 정답 사이의 오차(Loss)를 계산하고, 이 오차를 최소화하는 방향으로 모델의 가중치를 업데이트합니다.
- 대표 사례: 이미지 분류(개/고양이 판별), 스팸 메일 필터링, 부동산 가격 예측 등.
- 핵심: "정답이 있는 데이터로 오차를 줄이며 학습한다."
강화학습 (Reinforcement Learning)
강화학습은 정답을 직접 주지 않고, '보상(Reward)'을 통해 학습하는 방식입니다. 에이전트(Agent)가 환경(Environment)과 상호작용하며 행동(Action)을 선택하고, 그 결과로 받은 보상을 최대화하는 방향으로 정책(Policy)을 학습합니다.
- 학습 방식: "이 행동이 좋았는가?"를 환경으로부터 주어지는 보상으로 평가받으며, 수많은 시행착오를 거쳐 최적의 전략을 찾아갑니다.
- 대표 사례: 게임 AI(알파고), 자율주행, 로봇 자세 제어 등.
- 핵심: "정답 대신 보상을 통해 최적의 행동 전략을 스스로 학습한다."
2. 순차적 의사결정 (Sequential Decision Making)
강화학습의 가장 큰 특징은 단발성 선택이 아닌, 시간의 흐름에 따른 연속적인 의사결정을 다룬다는 점입니다.
현재 에이전트가 내린 행동은 즉각적인 보상뿐만 아니라, 미래의 상태(State)와 장기적인 누적 보상에까지 영향을 미칩니다. 체스나 바둑에서 지금 두는 한 수가 당장의 점수를 주진 않지만, 게임 후반의 승패를 가르는 것과 같은 이치입니다.
이러한 구조는 수학적으로 마르코프 결정 과정(MDP, Markov Decision Process)으로 모델링됩니다.
- 상태($S_t$): 현재 에이전트가 처한 상황
- 행동($A_t$): 현재 상태에서 에이전트가 취할 수 있는 선택
- 보상($R_t$): 행동의 결과로 환경이 에이전트에게 주는 피드백
- 마르코프 성질(Markov Property): 미래의 상태는 오직 '현재의 상태와 행동'에만 의존하며, 과거의 모든 역사를 알 필요가 없다는 가정입니다. 식으로는 $P(S_{t+1} | S_t, A_t)$와 같이 표현됩니다.
3. 리워드 (Reward)와 그 특성
리워드는 에이전트가 특정 상태에서 어떤 행동을 했을 때 환경으로부터 받는 즉각적인 피드백 신호입니다. 에이전트는 이 수치화된 보상을 나침반 삼아 장기적 누적 보상(Return, $G_t$)을 최대화하도록 학습합니다.
누적 보상은 보통 미래의 보상에 할인율(Discount Factor, $\gamma$)을 적용하여 계산합니다.
리워드는 주어지는 타이밍과 빈도에 따라 다음과 같이 분류해 볼 수 있습니다.
- 즉각적 피드백 (Immediate Reward):
- 행동 직후 즉시 주어지는 보상입니다. (예: 게임에서 코인을 먹어 획득한 점수)
- 지연된 피드백 (Delayed Reward):
- 여러 단계를 거친 뒤 나중에 주어지는 보상입니다. 체스 게임의 승패가 대표적입니다. 이로 인해 어떤 행동이 승리에 기여했는지 파악하기 어려운 신용 할당 문제(Credit Assignment Problem)가 발생합니다.
- 희소한 피드백 (Sparse Reward):
- 대부분의 시간 동안 보상이 0이다가 특정 목표를 달성했을 때만 주어지는 경우입니다. 미로 찾기에서 출구에 도달했을 때만 보상을 받는 환경이며, 학습 난이도를 크게 높이는 요인입니다.
💡 [참고] 강화학습과 GPU 병렬 연산
강화학습 모델을 학습할 때, 에이전트 혼자서 환경을 경험하면 시간이 매우 오래 걸립니다. 이를 해결하기 위해 GPU 연산을 활용하여 환경(Environment)을 수십~수백 개로 복제하고 다수의 에이전트가 동시에 상호작용하도록 만듭니다. 이렇게 수집된 다양한 경험 지식을 한 번에 모아서 학습하면, 학습 속도와 안정성을 비약적으로 높일 수 있습니다.
4. 에이전트 (Agent)의 유형
에이전트는 환경 속에서 관찰하고, 행동하고, 학습하는 주체입니다. 에이전트가 내부적으로 어떤 값을 학습하는지에 따라 크게 5가지로 나눌 수 있습니다.

- 가치 기반 (Value-Based Agent):
- 각 상태나 행동이 얼마나 '가치 있는지'를 평가하는 가치 함수(Value Function)를 학습합니다. 가치가 가장 높은 행동을 선택하는 방식이며, Q-Learning, DQN이 대표적입니다.
- 정책 기반 (Policy-Based Agent):
- 행동을 선택하는 확률 분포, 즉 정책(Policy, $\pi$)을 직접 학습합니다. 연속적인 행동 제어(로봇 팔 조작 등)에 유리하며, REINFORCE 알고리즘이 있습니다.
- 액터-크리틱 (Actor-Critic Agent):
- 위 두 가지를 결합한 형태입니다. 'Actor'는 정책을 통해 행동을 결정하고, 'Critic'은 가치 함수를 통해 Actor의 행동을 평가합니다. 현재 실무에서 가장 널리 쓰이는 A2C, PPO, SAC 등이 여기에 속합니다.
- 모델 기반 (Model-Based Agent):
- 환경의 동작 원리(상태가 어떻게 변하고 보상이 어떻게 나오는지)를 학습하여, 미래를 시뮬레이션하고 계획(Planning)을 세우는 방식입니다.
- 모델 프리 (Model-Free Agent):
- 환경의 내부 구조를 모른 채, 직접 부딪히며 겪은 경험만으로 정책이나 가치 함수를 학습합니다. DQN, PPO 등 현대 강화학습 알고리즘 대부분이 채택하는 방식입니다.
5. 탐험(Exploration)과 활용(Exploitation)의 딜레마
강화학습을 관통하는 가장 중요한 개념 중 하나입니다. 에이전트는 학습 과정에서 이 두 가지 행동 사이의 치열한 줄다리기를 해야 합니다.
Exploitation (활용):
- 지금까지 학습한 지식을 바탕으로, 현재 시점에서 가장 높은 보상을 줄 것으로 예상되는 최적의 행동을 선택합니다. 단기적 성과가 보장되지만, 우물 안 개구리(지역 최적해)가 될 위험이 있습니다.
Exploration (탐험):
- 기존의 지식을 무시하고 새로운 행동을 무작위로 시도해 보는 것입니다. 당장은 보상이 낮거나 실패할 수 있지만, 장기적으로 더 엄청난 보상을 주는 새로운 길을 발견할 가능성이 있습니다.
대표적으로 $\epsilon$-greedy 전략이 있습니다. $\epsilon$이라는 일정한 확률로는 무작위 탐험을 하고, $1-\epsilon$의 확률로는 아는 한도 내에서 최선의 활용을 하는 방식입니다.
일상 속의 탐험과 활용
- 점심 메뉴 고르기: 매일 가던 단골 식당에 가는 것(안전하고 맛이 보장됨)은 활용(Exploitation)입니다. 반면, 실패할 위험을 감수하고 새로 개업한 식당에 도전해 보는 것은 탐험(Exploration)입니다.
- 학습 방법: 기존에 성적이 잘 나오던 암기법을 고수하는 것은 활용이며, 효율이 더 좋을지 모르는 새로운 AI 툴이나 스터디 그룹을 시도하는 것은 탐험에 해당합니다.
극단적인 탐험 난이도: 몬테주마의 복수 (Montezuma’s Revenge)
아타리(Atari) 고전 게임 중 하나인 이 게임은 강화학습 알고리즘들의 무덤이라 불렸습니다. 열쇠를 찾고, 문을 열고, 장애물을 피하는 등 복잡한 행동을 특정 순서대로 정확히 수행해야만 첫 보상(점수)이 주어집니다.
즉, 희소한 보상(Sparse Reward)의 극단적인 형태를 띠고 있어 단순한 무작위 탐험(Exploration)만으로는 에이전트가 게임의 목적을 파악하기가 사실상 불가능에 가깝습니다. 이를 해결하기 위해 에이전트에게 내재적 동기(호기심)를 부여하는 등 다양한 최신 연구가 진행되고 있습니다.
'개념 정리 step2 > 강화 학습' 카테고리의 다른 글
| [강화학습] Deep Reinforcement Learning 개념 (0) | 2026.03.03 |
|---|---|
| [강화학습] TD Learning (시간차 학습) 개념, 랜덤 벽 GridWorld 실습 (0) | 2026.03.01 |
| [강화학습] Monte Carlo Learning 정리 (0) | 2026.02.28 |
| [강화학습] 벨만 기대 방정식 (Bellman Expectation Equation) (0) | 2026.02.27 |
| [강화학습] 마르코프 결정 과정 MDP 정리 (MP, MRP, MDP) (0) | 2026.02.26 |
