목록데이터사이언스 (12)
만족
Image Classification 등 입력의 갯수가 많을 때 Full-connected Neural Network를 사용하면 조정해야 할 파라미터의 갯수가 너무 많아 학습시간이 너무 오래 걸린다. 크기가 64*64 해상도인 사진 입력과 히든 레이어 2겹, 각 1000개의 뉴런에 대해 y를 계산하려면 64*64*1000+ 1000*1000+ 1000개의 파라미터에 대해 최적화를 진행해야 한다. 이것은 학습 시간이 오래 걸린다는 것을 의미하기도 하지만, 너무 많은 학습 데이터를 요구한다는 것을 의미하기도 한다. (학습 데이터의 갯수는 가중치를 원하는 정확도로 나눈 값이 최소값으로 하는 것이 권장된다) Convolutional Neural Network 바로 Neural Network를 사용하지 않고, N..
뉴럴 네트워크는 각각이 가중치로 연결되어 신호를 주고받는 간단한 프로세싱 유닛(뉴럴)로 구성되어 있다. 각각의 프로세싱 유닛들이 신호를 주고받는 모습이 마치 사람 뇌의 뉴럴이 상호작용하는 것과 비슷해서 이런 이름이 붙었다. 뉴럴 네트워크는 인풋 레이어, 히든 레이어, 아웃풋 레이어로 나누어볼 수 있다. 예를 들어 y= a*x1+ b*x2+ c일때 입력 x1,x2에 대해 인풋 레이어에 뉴런 2개가 들어가고 출력 y에 대해 아웃풋 레이어에는 1개의 뉴럴이 들어간다. 히든 레이어는 출력 y를 계산하기 위한 여러 겹의 뉴럴들이 존재한다. Neural Network: 각 뉴럴의 입출력 어떤 하나의 뉴럴 N에서 입력값과 그 입력에 대한 가중치의 곱의 합에 bias를 더한 후 그 값을 Activiation funct..
어떤 입력에 대해 맞냐 아니냐와 같이 이분법적인 결과를 예측하기 위해서는 Linear Regression 대신 다른 방법을 사용해야만 한다. 예를 들어 X가 공부시간이고 Y가 시험 합격여부라고 한다면, 그 데이터를 Linear regreesion으로 예측하는 것은 별로 적합하지 않을 것이다. Logistic Regression Logisic Regression은 sigmoid 함수를 이용해 나타낼 수 있다. 이렇게 하면 위와 같이 결과가 0,1로 나타나는 값에 대해 더 적합한 방법으로 분석할 수 있게 된다. Logistic Regression에서 입력 X1, X2 ... Xn에 대해 충분히 반영하여 y를 계산할 수 있도록 sigmoid와 Linear Regression 을 결합한 형태를 갖는다. Sigm..
Gradient Desent (경사 하강법) 경사 하강법은 cost의 변화량에 따라 파라미터를 움직여가며 cost가 최소가 되는 지점을 찾는 방법이다. J(w)를 cost를 계산하는 함수라고 했을 때, 우리는 J(cost)가 최소가 되면서 변화량이 최소가 되는 지점을 찾고 싶다. J가 최소가 되면서 변화량(미분계수)가 최소가 되는 지점을 찾을 때, w값을 움직여가면서 J'(w)의 값이 양수이면 J(w)가 커지고 있다는 뜻이므로 파라미터를 반대 방향으로 움직인다. => parameter의 변화에 따라 cost가 커지고 있으면 그 변화의 반대 방향으로 움직여야만 cost가 작아진다 반대로 J'(w) 값이 음수이면, cost가 줄어들고 있다는 뜻이므로 파라미터를 정방향으로 움직인다. 경사하강법: 사용 J의 변..
Performance 만들어진 회귀모델이 얼마나 예측을 잘 해낼 수 있는지를 측정할 수 있는 몇 가지 지표가 있다. Performance: R square (R^2) R^2= 1- Sigma(y- Predict(y))^2 / Sigma(y- E(y))^2 = 1- Sigma(실제값- 예측값)^2/Sigma(실제값- 평균값)^2 (단 y: 실제값, Predict(y): 예측값, E(y): y의 실제 평균값) R^2는 위와 같이 구할 수 있으며, 값은 [0,1]사이값으로 나타난다. 값이 1에 가까울 수록 성능이 좋다는 것을 의미하며, 즉 예측 데이터가 실제 데이터에 얼마나 가깝게 예측되는지를 나타낸다. (Higher is better) Performance: Standard Error of Estimate ..
Deterministic Model (결정적 모델) 변수 간 관계가 명확하여 무작위성이 주는 영향이 없거나 미미한 경우 BMI지수를 계산할 때 BMI= 몸무게/(키^2) 로 계산한다. =>몸무게와 키 정보가 주어지면 정확하게 BMI값을 계산해낼 수 있다. =>무작위성이 없다 Probablistic Model (확률론적 모델) 무작위성이 존재하며 확률론적 모델은 결정적 모델과 오차(Random Error)가 합쳐져 구성된다. 수축기혈압을 계산할 때의 공식은 다음과 같다. SBP= 6* age+ ε (ε은 오차) => 수축기혈압은 나이와 연관이 있지만, 동일한 나이를 가진 사람 전부가 동일한 수축기혈압을 가지지는 않는다 => 20살인 어떤 사람은 SBP가 123일수도, 117일수도 있다. 오차 ε는 명시된 ..
머신러닝(ML; Machine Learning)이란? 경험을 통해 자동으로 개선(improve)시키는 컴퓨터 알고리즘으로, AI의 부분집합이다. ML: Types Unsupervised learning 라벨링되지 않은 데이터들을 가지고 스스로 알고리즘을 학습한다. (ex: 클러스터링 등) Supervised learning 라벨링된 데이터들을 가지고 알고리즘을 마든다. (ex: regression, classification 등) Supervised learning: Steps Supervised learning은 training step, testing step 두 단계로 나누어진다. Training step 트레이닝 데이터로부터 모델(알고리즘)을 만들어내는 단계 => y= f(x)에서 f를 만들어내는..
Similarity(유사도) 두 데이터가 얼마나 유사한지를 수치적으로 나타낸다. [0,1] 사이의 값으로 나타나며, 두 데이터가 높을수록 1에 가까운 수로 표현된다. Dissimilarity(비유사도) 두 데이터가 얼마나 다른지를 수치적으로 나타낸다 0이상의 값으로 나타나며 완전히 같을 경우 0으로 표현된다. (상한값은 데이터에 따라 다르다) Similarity vs Dissimilarity: Data type 데이터 타입에 따라 유사도와 비유사도를 표현하는 방법이 다르다. p, q를 각 데이터의 attribute라고 하자. Dissimilarity Similarity Nominal (순서가 없는 데이터; 직업) 같으면 0, 다르면 1 같으면 1, 다르면 0 Ordinal (순서가 있는 데이터; 옷 사이..