🎯 RL 정책 기울기의 시작 — 행동을 직접 최적화하는 새로운 접근

🎯 RL.07 정책 기울기의 시작 — 행동을 직접 최적화하는 새로운 접근

강화학습은 오랫동안 가치를 추정하고 그에 따라 행동을 결정했습니다. 하지만 정책 기울기 방법은 새로운 길을 열었습니다. 행동의 확률 자체를 직접 최적화하면서, 연속적이고 복잡한 문제를 다룰 수 있게 된 것입니다.

🌟 핵심 포인트

가치 기반 접근의 한계와 정책 기반 접근의 필요성

정책 기울기의 핵심 아이디어: 행동 확률 직접 최적화

연속 행동 문제 해결과 현실 세계 응용

분산 문제와 개선책: 액터-크리틱으로의 진화

👉 다음 에피소드 RL.08 액터-크리틱의 결합 — 가치와 정책을 동시에 학습하다에서 강화학습의 새로운 균형점을 살펴봅니다.

🏷️ #강화학습 #PolicyGradient #정책기울기 #ReinforcementLearningOdyssey #AI역사