본문 바로가기

ε-탐욕정책6

Lab 6-2: Q-Network를 활용한 카트폴 강화 학습 Lab 6-2: Q-Network를 활용한 카트폴 강화 학습지난 강의에서는 Q-Network를 사용하여 프로즌 레이크 환경에서 강화 학습을 수행했습니다. 이번에는 더 재미있는 환경인 카트폴(CartPole)을 이용하여 Q-Network를 적용해 보겠습니다. 카트폴은 막대기(cart)의 균형을 맞추는 게임으로, 이 환경을 통해 강화 학습의 실제 적용 예를 배울 수 있습니다.https://www.youtube.com/watch?v=MF_Wllw9VKk 카트폴 환경 소개카트폴 환경은 카트 위에 막대기를 세우고, 이를 왼쪽 또는 오른쪽으로 움직여 균형을 유지하는 게임입니다. 목표는 막대기가 넘어지지 않도록 최대한 오래 유지하는 것입니다. 이 환경은 OpenAI의 Gym 라이브러리에서 제공되며, 강화 학습 알고리.. 2024. 7. 18.
Lab 6-1: Q-Network를 활용한 프로즌 레이크 강화 학습 Lab 6-1: Q-Network를 활용한 프로즌 레이크 강화 학습지난 강의에서 우리는 Q-테이블을 사용하여 Q-learning을 학습하는 방법을 배웠습니다. 그러나 Q-테이블은 큰 상태 공간을 다룰 때 비효율적이므로, 이번에는 Q-Network를 사용하여 강화 학습을 수행해 보겠습니다. 이를 위해 TensorFlow를 이용하여 Q-Network를 구현하고, 이를 프로즌 레이크 환경에 적용해 보겠습니다.Q-Network 개요Q-Network는 신경망을 사용하여 주어진 상태에서 가능한 모든 행동에 대한 Q값을 출력합니다. 이는 Q-테이블보다 훨씬 더 큰 상태 공간을 효율적으로 처리할 수 있게 해줍니다.Q-Network의 기본 구조Q-Network의 입력은 현재 상태이며, 출력은 가능한 모든 행동에 대한 Q.. 2024. 7. 18.
Lecture 6: Q-Network를 활용한 강화 학습 Lecture 6: Q-Network를 활용한 강화 학습지난 강의에서 우리는 Q-테이블을 사용하여 Q-learning을 학습하는 방법을 배웠습니다. Q-테이블을 활용하면 간단한 환경에서 최적의 정책을 쉽게 학습할 수 있습니다. 그러나 현실 세계의 복잡한 문제를 해결하려면 더 큰 상태 공간이 필요합니다. 이번 강의에서는 Q-Network를 사용하여 이러한 문제를 해결하는 방법을 학습하고, 실제로 구현해 보겠습니다.https://www.youtube.com/watch?v=w9GwqPx7LW8 Q-테이블의 한계와 Q-Network의 필요성Q-테이블은 간단한 문제를 해결하는 데는 효과적이지만, 상태 공간이 커지면 실용적이지 않습니다. 예를 들어, 100x100 크기의 격자 환경을 생각해 봅시다. 이 경우 상태 .. 2024. 7. 18.
Lab 05-1: 비결정론적 세계에서의 Q-learning 학습 Lab 05-1: 비결정론적 세계에서의 Q-learning 학습이번 강의에서는 여러분을 무시무시한 바람이 심하게 부는 프로즌 레이크의 세계로 초대합니다. 이전 강의에서 소개한 비결정론적(nondeterministic) 환경에서 Q-learning 알고리즘이 어떻게 동작하는지 실제로 구현하고 실습해보겠습니다. 이를 통해 비결정론적 환경에서 Q-learning이 얼마나 효과적으로 작동하는지 확인해볼 것입니다.https://www.youtube.com/watch?v=ZCumo_6qTsUhttps://www.youtube.com/watch?v=B-CZv9WD5eM 비결정론적 환경 이해하기비결정론적 환경이란 동일한 행동을 반복해도 항상 동일한 결과를 얻지 못하는 환경을 의미합니다. 예를 들어, 꽁꽁 얼어붙은 호수.. 2024. 7. 18.
반응형