⚖️ RL.11 UCB와 탐색 활용 — 불확실성을 어떻게 다룰 것인가
- Track: rl
- Era: era2
- Video ID: WlD6AB53a6Y
- Playlist: PLSucJlr3QLmzc3_uCDOy5YCmyWmY1dMUx
- YouTube: Watch
- Thumbnail:

- Tags: 강화학습, UCB, 탐색활용, ReinforcementLearningOdyssey, AI역사
⚖️ RL.11 UCB와 탐색-활용 — 불확실성을 어떻게 다룰 것인가
AI가 직면한 가장 큰 딜레마, 탐색과 활용. UCB는 평균 보상에 탐색 보정을 더해, 새로운 선택과 안정적 보상을 균형 있게 다루는 해법이었습니다. 이 단순한 아이디어는 멀티암드 밴딧에서 시작해, 알파고의 바둑까지 이어졌습니다.
🌟 핵심 포인트
- 탐색-활용 딜레마
- UCB 공식의 원리
- 멀티암드 밴딧 문제의 해결
- 현실의 불확실성과 한계
- 알파고와 MCTS로의 확장
👉 다음 에피소드 RL.12 컴퓨터 바둑의 도전 — 19x19 바둑판의 엄청난 복잡성에서 인류 최강 게임에 도전하는 AI를 만나봅니다.
🏷️ #강화학습 #UCB #탐색활용 #ReinforcementLearningOdyssey #AI역사
