ε-탐욕정책6 Lecture 05: Q-learning을 활용한 비결정론적 세계에서의 학습 Lecture 05: Q-learning을 활용한 비결정론적 세계에서의 학습이번 강의에서는 여러분을 꽁꽁 얼어붙은 호수로 초대합니다. 이 강의에서는 비결정론적(nondeterministic) 환경에서의 Q-learning을 탐구하고, 실제로 이러한 환경에서 학습하는 방법을 알아보겠습니다. 비결정론적 환경은 행동의 결과가 불확실한 세계를 의미하며, 이는 우리 일상에서도 흔히 경험할 수 있는 상황입니다.https://www.youtube.com/watch?v=6KSf-j4LL-c 비결정론적 환경이란?비결정론적 환경에서는 같은 행동을 반복해도 항상 동일한 결과를 얻지 못합니다. 예를 들어, 얼어붙은 호수 위를 걷는 상황을 상상해 봅시다. 여러분은 오른쪽으로 이동하려고 하지만, 바닥이 미끄러워서 오른쪽으로 가.. 2024. 7. 17. Lab 4: Q-learning을 활용한 Exploration and Exploitation와 할인된 보상 discounted reward 최적화 Lab 4: Q-learning을 활용한 탐험 및 착취와 할인된 보상 최적화Q-learning은 강화 학습의 중요한 기법 중 하나로, 주어진 환경에서 최적의 정책을 학습하는 데 사용됩니다. 이번 글에서는 Q-learning의 탐험(Exploration)과 착취(Exploitation) 전략 및 할인된 보상(Discounted Reward)에 대해 알아보고, 이를 구현하는 방법을 상세히 설명하겠습니다.Q-learning 개요Q-learning은 에이전트가 환경과 상호작용하면서 얻는 보상(reward)을 바탕으로 최적의 행동(action)을 학습하는 알고리즘입니다. 이 과정에서 중요한 두 가지 개념이 바로 탐험과 착취입니다.탐험(Exploration): 에이전트가 아직 경험하지 못한 상태(state)와 행동.. 2024. 7. 17. 이전 1 2 다음 반응형