티스토리 뷰
Frozen Lake: Random
위 환경을 얼음판이라고 한다면 구멍(H)에 빠지지 않고 출발점(S)에서 목표(G)까지 도달해야 합니다. 인간인 우리는 쉽게 목표지점까지 도달할 수 있지만 에이전트는 그러지 못합니다. 그래서 처음에는 Random함수를 돌려 우연의 산물로 목표지점까지 도달하는 방법을 사용했었습니다. 하지만 이런 방법은 우연의 산물이기 때문에 결과를 예측하기 어렵고 효율성도 떨어졌습니다. 그래서 나온 것이 Q-learning입니다. Q-learning에 대해 알아보기 전에 먼저 Dummy Q-learning에 대해 알아보도록 하겠습니다.
Dummy Q-learning
위와 같이 Q-learning의 핵심은 에이전트가 액션을 취하기 가장 좋은 길(즉, 가장 확률이 높은)을 액션을 취하기 전에 Q에게 먼저 물어보는 것이라고 생각하면 됩니다.
Q-learning을 수식으로 나타내면 다음과 같습니다.
$\hat Q(s, a) \leftarrow r + max \hat Q(s',a')$
위 식을 풀어보면 현재의 rewad에다가 다음 state에서 얻어질 reward 중 가장 값이 큰 쪽을 더한다는 뜻입니다. 위 식을 그림으로 표현하면 다음과 같습니다.
위 그림처럼 처음에는 랜덤으로 돌려 목적지를 찾고 목적지를 찾으면 그 방향이 가리키는 쪽에 1을 더해 주면 됩니다. 그러면 목표점의 왼쪽 state에서는 오른쪽이 가장 큰 Q값을 갖게 되겠지요. 이것을 계속 반복하면 아래와 같이 하나의 길이 탄생하게 됩니다.
이때까지 설명한 내용을 요약해 보면 다음과 같습니다.
이런 식으로 Q-learning은 학습을 하게 됩니다. 하지만 여기서 소개한 Q-learning을 Dummy Q-learning이라 소개한 이유는 한 번 정해진 길이 있으면 그 길만 따라가지 더 효율적인 길을 찾지는 못 하기 때문입니다.
따라서 다음 글에서 Upgrade 된 Q-learning에 대해서 소개해 보겠습니다.
출처
https://www.youtube.com/watch?v=Vd-gmo-qO5E&list=PLlMkM4tgfjnKsCWav-Z2F-MMFRx-2gMGG&index=4
이 글은 PC에 최적화 된 글입니다. 모바일은 [여기]에서 확인해 주세요.
'AI > 강화학습(RL)' 카테고리의 다른 글
Value Function and Bellan Equation (0) | 2019.05.24 |
---|---|
Markov Decision Process(MDP) (0) | 2019.05.21 |
Markov Process(MP) (0) | 2019.05.20 |