🎯 RL 정책 기울기의 시작 — 행동을 직접 최적화하는 새로운 접근
- Track: rl
- Era: all
- Video ID: kCzTylKNUsI
- Playlist: PLSucJlr3QLmz1y57OPuEgjApPEsSya4Cn
- YouTube: Watch
- Thumbnail:

- Tags: 강화학습, PolicyGradient, 정책기울기, ReinforcementLearningOdyssey
🎯 RL.07 정책 기울기의 시작 — 행동을 직접 최적화하는 새로운 접근
강화학습은 오랫동안 가치를 추정하고 그에 따라 행동을 결정했습니다. 하지만 정책 기울기 방법은 새로운 길을 열었습니다. 행동의 확률 자체를 직접 최적화하면서, 연속적이고 복잡한 문제를 다룰 수 있게 된 것입니다.
🌟 핵심 포인트
가치 기반 접근의 한계와 정책 기반 접근의 필요성
정책 기울기의 핵심 아이디어: 행동 확률 직접 최적화
연속 행동 문제 해결과 현실 세계 응용
분산 문제와 개선책: 액터-크리틱으로의 진화
👉 다음 에피소드 RL.08 액터-크리틱의 결합 — 가치와 정책을 동시에 학습하다에서 강화학습의 새로운 균형점을 살펴봅니다.
🏷️ #강화학습 #PolicyGradient #정책기울기 #ReinforcementLearningOdyssey #AI역사
