Video thumbnail

⚖️ RL.11 UCB와 탐색 활용 — 불확실성을 어떻게 다룰 것인가


⚖️ RL.11 UCB와 탐색-활용 — 불확실성을 어떻게 다룰 것인가

AI가 직면한 가장 큰 딜레마, 탐색과 활용. UCB는 평균 보상에 탐색 보정을 더해, 새로운 선택과 안정적 보상을 균형 있게 다루는 해법이었습니다. 이 단순한 아이디어는 멀티암드 밴딧에서 시작해, 알파고의 바둑까지 이어졌습니다.

🌟 핵심 포인트

  • 탐색-활용 딜레마
  • UCB 공식의 원리
  • 멀티암드 밴딧 문제의 해결
  • 현실의 불확실성과 한계
  • 알파고와 MCTS로의 확장

👉 다음 에피소드 RL.12 컴퓨터 바둑의 도전 — 19x19 바둑판의 엄청난 복잡성에서 인류 최강 게임에 도전하는 AI를 만나봅니다.

🏷️ #강화학습 #UCB #탐색활용 #ReinforcementLearningOdyssey #AI역사


⚖️ RL.11 UCB와 탐색 활용 — 불확실성을 어떻게 다룰 것인가 #강화학습 #UCB #탐색활용 #ReinforcementLearningOdyssey #AI역사 - Compass