티스토리 뷰

AI/딥러닝(sung kim)

Linear Regression의 개념

취뽀가자!! 2018. 5. 9. 00:05

Linear Regression이란?

Linear : 직선
Regression : 회귀
이 두단어를 합쳐보면 Linear Regression(직선 회귀)가 됩니다. 말 그대로 입니다

기계가 학습을 할려면 학습을 하기 위해 많은 데이터가 필요합니다.


x데이터는 공부한 시간, y데이터는 점수를 나태나는 데이터입니다.

이러한 데이터를 training data라고 합니다.

위 데이터를 regression 모델에 학습을 시키고 나서, x로 6를 regression 모델에 입력하면 출력으로 65정도 되는 점수가 출력 될 것입니다.


위 과정들이 Linear Regression을 모두 표현한 것입니다.


Hypothesis(가설)

세상에는 정말 많은 Linear Regression이 있습니다.
예를 들면, 공부하는 시간이 많으면 성적이 좋다. 운동을 하면 근육이 생긴다. 등과 같은 현상들은 전부 input이 있으면 output도 생깁니다. 
이것을 그래프에다가 표현을 하게 되면 아래처럼 직선 방정식이 됩니다.


따라서 Linear Regression이란 일직선 그래프로 표현된 것을 말합니다.


위에서 말한 공부시간과 점수 training data를 가지고 학습을 진행하면 어떠한 직선이 나오게 됩니다.

그 직선은 우리의 Hypothesis(가설)이 되며, 방정식으로 표현이 가능해 집니다.

위 식이 우리의 Hypothesis(가설)을 나타내는 방정식(직선)이 됩니다.


cost

만약 여러개의 hypothesis가 있다면 그 중에서 가장 적합한 hypothesis는 무엇이 될까요?
이 문제의 답은 간단합니다.
가설과 실제 데이터 사이에 차이가 크면 적합하지 않은 가설이고, 차이가 작으면 적합한 가설입니다.

가 실제 데이터와 가설로 나온 데이터 간의 차이가 됩니다.

하지만 이 데이터는 +,-값이 둘 다 나오기 때문에 제곱을 해줍니다.

제곱을 해주면 +, -가 무시되고 제곱 하지 않았을 때보다 차이가 클수록 값이 더 커지게 됩니다.

하나의 데이터에 대한 cost를 구하는 방법을 알아봈으니 이제 전체 데이터에 대한 cost를 알아야 가장 적합한 가설을 찾을 수 있습니다.


각 데이터의 cost들의 평균이 전체 cost가 됩니다.


이 식을 아래처럼 바꾸면 cost function의 식이 나오게 됩니다

가설에 대한 cost함수, m : 전체 데이터의 개수


cost 함수는 W,b에 대한 함수가 됩니다.


결론적으로 cost를 가장 작게 만드는 W와b를 구하는 것이 머신러닝(Linear Regression 모델)의 목표가 됩니다.






---------------------------------------------------------------

출처 

https://hunkim.github.io/ml/

의 내용을 보고 정리한 글입니다







댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함