⚖️ RL.08 액터 크리틱의 결합 — 가치와 정책을 동시에 학습하다
- Track: rl
- Era: era1
- Video ID: QKCeLzQ5S2c
- Playlist: PLSucJlr3QLmx9naUxOYXxPNPR4QJ93uDd
- YouTube: Watch
- Thumbnail:

- Tags: 강화학습, ActorCritic, 정책기울기, ReinforcementLearningOdyssey, AI역사
⚖️ RL.08 액터-크리틱의 결합 — 가치와 정책을 동시에 학습하다
정책 기울기는 강력했지만 불안정했고, 가치 기반은 안정적이지만 한계가 있었습니다. 액터-크리틱 구조는 이 둘을 결합해, 강화학습에 안정성과 효율성을 동시에 가져왔습니다.
🌟 핵심 포인트
정책 기울기의 불안정성 문제
액터와 크리틱의 역할 분담
안정성과 효율성을 동시에 확보
새로운 도전: 구조의 복잡성과 조율
PPO, A3C 등 후속 알고리즘으로의 확장
👉 다음 에피소드 RL.09 딥블루의 승리 — 1997년 체스에서 브루트포스가 이기다에서 AI 역사의 또 다른 전환점을 다룹니다.
🏷️ #강화학습 #ActorCritic #정책기울기 #ReinforcementLearningOdyssey #AI역사
