🎥 RL 02 동적 계획법의 지혜 — 벨만 방정식이 최적 정책을 찾다
- Track: rl
- Era: all
- Video ID: a0HOQMTzAII
- Playlist: PLSucJlr3QLmz1y57OPuEgjApPEsSya4Cn
- YouTube: Watch
- Thumbnail:

- Tags: 강화학습, 벨만방정식, 동적계획법, ReinforcementLearningOdyssey, AI수학
🧮 RL.02 동적 계획법의 지혜 — 벨만 방정식이 최적 정책을 찾다
AI가 복잡한 문제를 풀 수 있는 비밀은 어디에 있을까요? 리처드 벨만의 통찰은 ‘현재의 가치는 미래 가치의 합으로 표현된다’는 단순하지만 강력한 아이디어였습니다. 이것이 바로 모든 강화학습 알고리즘의 기초인 벨만 방정식입니다.
🌟 핵심 포인트
동적 계획법: 문제를 쪼개어 푸는 방식
벨만 방정식: 현재 가치 = 보상 + 미래 가치
AI 의사결정의 수학적 기초
한계와 확장: 상태공간 폭발과 새로운 알고리즘의 필요
👉 다음 에피소드 RL.03 시간차 학습의 혁신 — TD-Learning에서 이 수학이 실제 학습으로 이어지는 과정을 다룹니다.
🏷️ #강화학습 #벨만방정식 #동적계획법 #ReinforcementLearningOdyssey #AI수학
