목록데이터사이언스 (12)
만족
Covariance(공분산) 공분산은 두 변수가 변화할 때 어떤 연관성이 있는지를 나타내는 척도이다. => 한 변수가 변했을 때 다른 변수의 변화량에 얼마나 영향을 주는가? (ex: BMI지수와 성인병의 발병률은 어떤 연관성이 있는가?) 분산V= Sigma( (X-E)^2 ) / N= E((X- E(X))^2) 공분산Cov= E( (X-E(X) * (Y-E(Y)) ) 공분산은 각 변수가 각 평균에서 떨어진 만큼의 거리의 평균을 의미한다. 공분산 값(양수/음수)에 따라 어떤 연관성이 있는지를 알아낼 수 있다. 위와 같이 cov가 양수이면 X가 증가할 때 Y도 증가하고, cov가 음수이면 X가 증가할 때 Y는 감소하는 양상을 띈다. 그러나 cov의 절대값이 큰 것이 연관관계가 크다는 것을 의미하지는 않는다는..
Summary Statistics 데이터의 속성을 나타내는 숫자값이다. (평균, 표준편차 분산 등) Summary Statistics: Mean(평균) 데이터 값들의 합을 데이터 갯수로 나눈 값이다. 가장 흔하게 사용되지만 이상값에 민감하게 반응({0,0,0,1000}의 평균값은 250이다)하여 median(중간값), trimmed mean(이상값을 제외한 평균값)과 함께 사용된다. Summary Statistics: Median(중앙값) 정렬된 데이터셋의 중앙에 위치하는 값이다. 데이터의 갯수가 짝수개일 때는 중앙에 있는 값들을 더한 후 2로 나눈 값을 중앙값으로 사용한다. Symmetric Data vs Skewed Data 중앙값(Median), 최빈값(Mode), 평균값(Mean)이 모여있으면 S..
데이터란 무엇인가? 데이터셋은 데이터 오브젝트로 이루어진다. 데이터 오브젝트는 속성(attribute)에 의해 설명된다. 속성은 variable, field, characteristic dimensions, feature 등으로도 불린다. 상품명 상품가격 0 사과 1000 1 바나나 2000 위 표에서 상품명과 상품가격이 attribute가 되고, 각 열(row; index)가 object가 된다. Attribute 데이터 필드로써 데이터 오브젝트에서 문자나 특성으로 대표된다. Attr에는 여러 타입이 존재한다. Nominal Type 카테고리, 상태 등과 같은 순서가 없는 분류 타입을 말한다. 머리색, 직업 등이 Nominal type에 해당한다. Binary Type 2개의 Nominal attrib..
Numpy: ndarray numpy에서 제공하는 동일 타입의 다차원 배열 import numpy as np #길이가 15인 1차원 행렬 a= np.array(15) #3*5 2차원 배열로 재배열 a= a.reshape(3,5) #(행 갯수, 열 갯수) 반환 #(3,5) a.shape #차원 수 #3*5는 2차원 배열 a.ndim #각 열의 타입 a.dtype.name #각 열의 바이트 크기 a.itemsize #데이터 갯수; 행 갯수*열 갯수 #3*5= 15 a.size ndarray의 수학적 연산 #list를 ndarray로 변환 A= np.array([20,30,40,50]) #[0,1,2,3] B= np.arange(4) #행렬의 덧셈/뺄셈연산은 행/열 크기가 동일해야 한다 C= A- B #행렬의..