보호되어 있는 글입니다.

상미분은 변수가 하나만 있는 함수를 미분하는 것을 말합니다. 그럼 이제 편미분에 대해서 알아봅시다. 편미분 (1)식과 같이 독립변수가 2개 이상인 함수의 미분을 생각해 봅시다. 두 독립변수 x1, x2각각의 변화에 따라 종속변수 y의 값이 변하게 됩니다. 이런 경우 y가 갖는 값의 범위(치역)는 보통 3차원을 형성한다. 이 변화를 한꺼번에 관찰하는 것은 쉽지 않기 때문에 x1과 y의 변화에 대한 ㅗ간계를 관찰할 때는 x2를 고정(상수 취급)시키고 미분한다. 그리고 이것을 편미분이라고 합니다. 전미분 (2)식을 x1과 x2에 대해 편미분 하면 각각 (3),(4)식이 됩니다. 이제 전미분을 정의해 봅시다. (5)식이 (2)식의 전미분 식입니다. [(5)식에서 좌항은 y가 아니라 dy입니다.] (5)식을 보면..

미분의 기초 미분에 대해 설명을 하기 위해 간단한 예를 먼저 들겠습니다, EX) 강남역에서 인천공항까지 72.56km의 거리를 자동차로 이동하는데 1시간 반이 걸렸습니다. 이때, 자동차의 평균 속도를 구하세요. 평균 속도는 단위 시간당 얼마나 이동했는가를 나타내므로, 이동 거릴르 이동 시간으로 나누면 구할 수 있습니다. 이 예에서 평균 속도 $v$는 다음과 같습니다. 평균 속도 $v$ = $\frac {72.56km} {1.5h} = 48.37km/h$ 이 때, 주의할 점은 자동차가 항상 이 속도로 달리는 것이 아니라는 점입니다. 그러면 이번에는 시간 간격을 조금씩 줄여가면서 속도를 구해 봅시다. 10분 동안 몇 km를 달렸는지, 1분 동안 몇 km를 달렸는지, 더 나아가 1초 동안 몇 km를 달렸는지 ..

Frozen Lake: Random 위 환경을 얼음판이라고 한다면 구멍(H)에 빠지지 않고 출발점(S)에서 목표(G)까지 도달해야 합니다. 인간인 우리는 쉽게 목표지점까지 도달할 수 있지만 에이전트는 그러지 못합니다. 그래서 처음에는 Random함수를 돌려 우연의 산물로 목표지점까지 도달하는 방법을 사용했었습니다. 하지만 이런 방법은 우연의 산물이기 때문에 결과를 예측하기 어렵고 효율성도 떨어졌습니다. 그래서 나온 것이 Q-learning입니다. Q-learning에 대해 알아보기 전에 먼저 Dummy Q-learning에 대해 알아보도록 하겠습니다. Dummy Q-learning 위와 같이 Q-learning의 핵심은 에이전트가 액션을 취하기 가장 좋은 길(즉, 가장 확률이 높은)을 액션을 취하기 전에..
Value Function(가치 함수) 먼저 value function(가치 함수)를 설명하기 위해 간단하게 MDP에 대해 설명해 보려 합니다. MDP에서 에이전트는 각 상태에서 보상을 극대화하기 위한 정책. 즉. 앞으로 받을 것으로 예상되는 보상의 기댓값을 고려하여 행동을 선택하게 됩니다. 여기서 앞으로 받을 것으로 예상되는 보상의 기댓값을 value function이라고 표현한다. 가치함수는 크게 State-value function과 Action-value function 두 가지로 구분이 됩니다. State-value function 에이전트가 $t$시점에 $s$에서 행동 $a$ 선택하고 reward $r$을 받는 것을 매 시점마다 반복해 나가 그때 받았던 일련의 보상의 합을 구하면 다음과 같습니..

확률 프로세스의 확장 MP(Markov Property) 모델에다가 새로운 개념인 액션(action)을 추가해 보도록 하겠습니다. 이제 각 상태(state)에서 다른 상태(state)로의 이동시, 발생하는 작업 행위를 액션(action)이라고 정의합니다. 그리고 이 때 어떤 상태에 있느냐에 따라 취할 수 있는 액션이 다를 수 있습니다. 상태 $x$에서 취할 수 있는 액션을 $A(x)$라 하면 $A(x) \in A$입니다. 하지만 액션 자체가 상태에 종속적인 개념은 아니니 혼동하지 마세요. 특정 상태에서만 사용 가능한 한정된 액션이 정의되어 있고, 이러한 액션을 모두 묶어놓은 전체 액션 집합을 정의할 수 있습니다. 그리고 앞서 정의한 전이 확률 함수에 액션에 대한 속성이 포함되게 됩니다. $P_{xy}^a..

강화 학습을 시작했다면 가장 먼저 이해해야 할 모델은 MDP(Markov Decision Process)입니다. 하지만 MDP를 이해하기 전에 MP(Markov Process) 모델부터 알아야 합니다. 먼저, MC는 이산 확률 프로세스(discrete sochastic process)입니다. 여기서 확률 프로세스란 확률 분포를 가진 랜덤 변수가 일정한 시간 간격으로 값을 발생시키는 것을 모델링하는 것을 의미합니다. 위와 같은 그림을 Markov Chain이라고 합니다. 각각의 state로 움직일 때의 확률이 나와있고, 이 그림 같은 경우에 시간이 무한대로 흐른다면 모두 sleep으로 수렴하게 될 것입니다. 그리고 더 이상 변화가 없기 때문에 stationary distribution이라고 합니다. MC에..
풀링 계층최대 풀링폴링은 세로, 가로 방향의 공간을 줄이는 연산입니다.위 그림은 스트라이드 2로 최대폴링하는 것입니다. 쵀대폴링은 최댓값을 구하는 연산을 말합니다. 즉, 2x2 최대 풀링은 그림과 같이 2x2 크기의 영역에서 가장 큰 원소를 하나 꺼냅니다. 참고로, 풀링의 윈도우 크기와 스트라이드는 같은 값으로 설정하는 것이 보통입니다. 풀링 계층의 특징학습해야 할 매개변수가 없다풀링 계층은 합성곱 계층과 달리 학습해야 할 매개변수가 없습니다. 풀링은 대상 영역에서 최댓값이나 평균을 취하는 명확한 처리이기 때문입니다. 채널 수가 변하지 않는다풀링 연산은 입력 데이터의 채널 수 그대로 출력 데이터를 내보냅니다. 채널마다 독립적으로 계산하기 때문입니다. 입력의 변화에 영향을 적게 받는다(강건하다)입력 데이터..