만족

[데이터사이언스] Logistic Regression 본문

[데이터사이언스] Logistic Regression

데이터사이언스 Satisfaction 2021. 12. 17. 17:12

어떤 입력에 대해 맞냐 아니냐와 같이 이분법적인 결과를 예측하기 위해서는 Linear Regression 대신 다른 방법을 사용해야만 한다.

 

 

예를 들어 X가 공부시간이고 Y가 시험 합격여부라고 한다면,

그 데이터를 Linear regreesion으로 예측하는 것은 별로 적합하지 않을 것이다.

 

Logistic Regression

 

 

Logisic Regression은 sigmoid 함수를 이용해 나타낼 수 있다.

 

 

이렇게 하면 위와 같이 결과가 0,1로 나타나는 값에 대해 더 적합한 방법으로 분석할 수 있게 된다.

 

Logistic Regression에서 입력 X1, X2 ... Xn에 대해 충분히 반영하여 y를 계산할 수 있도록

sigmoid와 Linear Regression 을 결합한 형태를 갖는다.

 

Sigmoid(x)가 1/(1+ e^(-x)) 로 정의되므로 

여기에 linear regression= b0+ b1*x1+ b2*x2 ... 를 합성해서

Logistic Regression= 1/(1+ e^(-1* (b0+ b1*x1+ b2*x2 ...))) 로 정의할 수 있다.

 

Logistic Regression: Cost Function

분류 문제의 답은 0또는 1 (아니다/맞다) 이기 때문에,

여기에서 SSE(sum of squared error)은 부적합하다.

 

따라서 결과값을 1로 잘 분류했냐? 아니면 그렇지 못했나? 를 계산하기 위해 다른 방법을 사용해야 한다.

 

정의한 Logistic Regression 함수가 h(x)라고 했을 때

Cost= (1/n)* Σ(y*log(h(x))- (1-y)*log(1-h(x)) 로 계산할 수 있다.

 

구해진 Cost 함수에서 Gradient Desent를 사용하여 최적화할 수도 있다.

 

https://satisfactoryplace.tistory.com/321 

 

[데이터사이언스] Gradient Desent (경사하강법)

Gradient Desent (경사 하강법) 경사 하강법은 cost의 변화량에 따라 파라미터를 움직여가며 cost가 최소가 되는 지점을 찾는 방법이다. J(w)를 cost를 계산하는 함수라고 했을 때, 우리는 J(cost)가 최소가

satisfactoryplace.tistory.com

 



Comments