본문 바로가기

알고리즘2

Lab 4: Q-learning을 활용한 Exploration and Exploitation와 할인된 보상 discounted reward 최적화 Lab 4: Q-learning을 활용한 탐험 및 착취와 할인된 보상 최적화Q-learning은 강화 학습의 중요한 기법 중 하나로, 주어진 환경에서 최적의 정책을 학습하는 데 사용됩니다. 이번 글에서는 Q-learning의 탐험(Exploration)과 착취(Exploitation) 전략 및 할인된 보상(Discounted Reward)에 대해 알아보고, 이를 구현하는 방법을 상세히 설명하겠습니다.Q-learning 개요Q-learning은 에이전트가 환경과 상호작용하면서 얻는 보상(reward)을 바탕으로 최적의 행동(action)을 학습하는 알고리즘입니다. 이 과정에서 중요한 두 가지 개념이 바로 탐험과 착취입니다.탐험(Exploration): 에이전트가 아직 경험하지 못한 상태(state)와 행동.. 2024. 7. 17.
Q-러닝을 완벽하게 하는 방법 Q-러닝을 완벽하게 하는 방법안녕하세요, 이번 비디오에서는 Q-러닝을 완벽하게 하는 방법에 대해서 이야기하도록 하겠습니다. 지난번 Q-러닝에 대해 설명드릴 때 "더미"라는 이름을 붙였던 이유는, Q-러닝에 약간의 문제가 있기 때문입니다. 이 문제를 해결하기 위해 우리는 다양한 방법을 시도해야 합니다. Q-러닝을 완벽하게 이해하기 위해서는 몇 가지 중요한 개념들을 알아야 합니다.Q-러닝은 현재 상태에서 최적의 행동을 선택하여 학습을 진행하는 알고리즘입니다. 하지만 항상 최대의 값을 선택하면 새로운 정보를 얻기 어렵기 때문에, '탐험(Exploration)'과 '이용(Exploitation)'을 균형있게 유지해야 합니다. 이를 통해 더 효율적으로 학습할 수 있습니다.https://www.youtube.com.. 2024. 7. 17.
반응형