티스토리 뷰
Linear Regression이란?
x데이터는 공부한 시간, y데이터는 점수를 나태나는 데이터입니다.
이러한 데이터를 training data라고 합니다.
위 데이터를 regression 모델에 학습을 시키고 나서, x로 6를 regression 모델에 입력하면 출력으로 65정도 되는 점수가 출력 될 것입니다.
위 과정들이 Linear Regression을 모두 표현한 것입니다.
Hypothesis(가설)
따라서 Linear Regression이란 일직선 그래프로 표현된 것을 말합니다.
위에서 말한 공부시간과 점수 training data를 가지고 학습을 진행하면 어떠한 직선이 나오게 됩니다.
그 직선은 우리의 Hypothesis(가설)이 되며, 방정식으로 표현이 가능해 집니다.
위 식이 우리의 Hypothesis(가설)을 나타내는 방정식(직선)이 됩니다.
cost
가 실제 데이터와 가설로 나온 데이터 간의 차이가 됩니다.
하지만 이 데이터는 +,-값이 둘 다 나오기 때문에 제곱을 해줍니다.
제곱을 해주면 +, -가 무시되고 제곱 하지 않았을 때보다 차이가 클수록 값이 더 커지게 됩니다.
하나의 데이터에 대한 cost를 구하는 방법을 알아봈으니 이제 전체 데이터에 대한 cost를 알아야 가장 적합한 가설을 찾을 수 있습니다.
각 데이터의 cost들의 평균이 전체 cost가 됩니다.
이 식을 아래처럼 바꾸면 cost function의 식이 나오게 됩니다
가설에 대한 cost함수, m : 전체 데이터의 개수
cost 함수는 W,b에 대한 함수가 됩니다.
결론적으로 cost를 가장 작게 만드는 W와b를 구하는 것이 머신러닝(Linear Regression 모델)의 목표가 됩니다.
---------------------------------------------------------------
출처
https://hunkim.github.io/ml/
의 내용을 보고 정리한 글입니다
'AI > 딥러닝(sung kim)' 카테고리의 다른 글
Linear regression의 cost 최소화의 tensorflow 구현 (0) | 2018.05.19 |
---|---|
Tensorflow로 간단한 linear regression을 구현 (0) | 2018.05.18 |
Tensorflow의 기본적인 operations (0) | 2018.05.14 |
Linear Regression의 cost 최소화 알고리즘의 원리 (0) | 2018.05.09 |
Machine Learning의 용어와 개념 설명 (1) | 2018.05.07 |