Frozen Lake: Random 위 환경을 얼음판이라고 한다면 구멍(H)에 빠지지 않고 출발점(S)에서 목표(G)까지 도달해야 합니다. 인간인 우리는 쉽게 목표지점까지 도달할 수 있지만 에이전트는 그러지 못합니다. 그래서 처음에는 Random함수를 돌려 우연의 산물로 목표지점까지 도달하는 방법을 사용했었습니다. 하지만 이런 방법은 우연의 산물이기 때문에 결과를 예측하기 어렵고 효율성도 떨어졌습니다. 그래서 나온 것이 Q-learning입니다. Q-learning에 대해 알아보기 전에 먼저 Dummy Q-learning에 대해 알아보도록 하겠습니다. Dummy Q-learning 위와 같이 Q-learning의 핵심은 에이전트가 액션을 취하기 가장 좋은 길(즉, 가장 확률이 높은)을 액션을 취하기 전에..
Value Function(가치 함수) 먼저 value function(가치 함수)를 설명하기 위해 간단하게 MDP에 대해 설명해 보려 합니다. MDP에서 에이전트는 각 상태에서 보상을 극대화하기 위한 정책. 즉. 앞으로 받을 것으로 예상되는 보상의 기댓값을 고려하여 행동을 선택하게 됩니다. 여기서 앞으로 받을 것으로 예상되는 보상의 기댓값을 value function이라고 표현한다. 가치함수는 크게 State-value function과 Action-value function 두 가지로 구분이 됩니다. State-value function 에이전트가 $t$시점에 $s$에서 행동 $a$ 선택하고 reward $r$을 받는 것을 매 시점마다 반복해 나가 그때 받았던 일련의 보상의 합을 구하면 다음과 같습니..
확률 프로세스의 확장 MP(Markov Property) 모델에다가 새로운 개념인 액션(action)을 추가해 보도록 하겠습니다. 이제 각 상태(state)에서 다른 상태(state)로의 이동시, 발생하는 작업 행위를 액션(action)이라고 정의합니다. 그리고 이 때 어떤 상태에 있느냐에 따라 취할 수 있는 액션이 다를 수 있습니다. 상태 $x$에서 취할 수 있는 액션을 $A(x)$라 하면 $A(x) \in A$입니다. 하지만 액션 자체가 상태에 종속적인 개념은 아니니 혼동하지 마세요. 특정 상태에서만 사용 가능한 한정된 액션이 정의되어 있고, 이러한 액션을 모두 묶어놓은 전체 액션 집합을 정의할 수 있습니다. 그리고 앞서 정의한 전이 확률 함수에 액션에 대한 속성이 포함되게 됩니다. $P_{xy}^a..
강화 학습을 시작했다면 가장 먼저 이해해야 할 모델은 MDP(Markov Decision Process)입니다. 하지만 MDP를 이해하기 전에 MP(Markov Process) 모델부터 알아야 합니다. 먼저, MC는 이산 확률 프로세스(discrete sochastic process)입니다. 여기서 확률 프로세스란 확률 분포를 가진 랜덤 변수가 일정한 시간 간격으로 값을 발생시키는 것을 모델링하는 것을 의미합니다. 위와 같은 그림을 Markov Chain이라고 합니다. 각각의 state로 움직일 때의 확률이 나와있고, 이 그림 같은 경우에 시간이 무한대로 흐른다면 모두 sleep으로 수렴하게 될 것입니다. 그리고 더 이상 변화가 없기 때문에 stationary distribution이라고 합니다. MC에..