목록분류 전체보기 (385)
만족
머신러닝(ML; Machine Learning)이란? 경험을 통해 자동으로 개선(improve)시키는 컴퓨터 알고리즘으로, AI의 부분집합이다. ML: Types Unsupervised learning 라벨링되지 않은 데이터들을 가지고 스스로 알고리즘을 학습한다. (ex: 클러스터링 등) Supervised learning 라벨링된 데이터들을 가지고 알고리즘을 마든다. (ex: regression, classification 등) Supervised learning: Steps Supervised learning은 training step, testing step 두 단계로 나누어진다. Training step 트레이닝 데이터로부터 모델(알고리즘)을 만들어내는 단계 => y= f(x)에서 f를 만들어내는..
Similarity(유사도) 두 데이터가 얼마나 유사한지를 수치적으로 나타낸다. [0,1] 사이의 값으로 나타나며, 두 데이터가 높을수록 1에 가까운 수로 표현된다. Dissimilarity(비유사도) 두 데이터가 얼마나 다른지를 수치적으로 나타낸다 0이상의 값으로 나타나며 완전히 같을 경우 0으로 표현된다. (상한값은 데이터에 따라 다르다) Similarity vs Dissimilarity: Data type 데이터 타입에 따라 유사도와 비유사도를 표현하는 방법이 다르다. p, q를 각 데이터의 attribute라고 하자. Dissimilarity Similarity Nominal (순서가 없는 데이터; 직업) 같으면 0, 다르면 1 같으면 1, 다르면 0 Ordinal (순서가 있는 데이터; 옷 사이..
Covariance(공분산) 공분산은 두 변수가 변화할 때 어떤 연관성이 있는지를 나타내는 척도이다. => 한 변수가 변했을 때 다른 변수의 변화량에 얼마나 영향을 주는가? (ex: BMI지수와 성인병의 발병률은 어떤 연관성이 있는가?) 분산V= Sigma( (X-E)^2 ) / N= E((X- E(X))^2) 공분산Cov= E( (X-E(X) * (Y-E(Y)) ) 공분산은 각 변수가 각 평균에서 떨어진 만큼의 거리의 평균을 의미한다. 공분산 값(양수/음수)에 따라 어떤 연관성이 있는지를 알아낼 수 있다. 위와 같이 cov가 양수이면 X가 증가할 때 Y도 증가하고, cov가 음수이면 X가 증가할 때 Y는 감소하는 양상을 띈다. 그러나 cov의 절대값이 큰 것이 연관관계가 크다는 것을 의미하지는 않는다는..
Summary Statistics 데이터의 속성을 나타내는 숫자값이다. (평균, 표준편차 분산 등) Summary Statistics: Mean(평균) 데이터 값들의 합을 데이터 갯수로 나눈 값이다. 가장 흔하게 사용되지만 이상값에 민감하게 반응({0,0,0,1000}의 평균값은 250이다)하여 median(중간값), trimmed mean(이상값을 제외한 평균값)과 함께 사용된다. Summary Statistics: Median(중앙값) 정렬된 데이터셋의 중앙에 위치하는 값이다. 데이터의 갯수가 짝수개일 때는 중앙에 있는 값들을 더한 후 2로 나눈 값을 중앙값으로 사용한다. Symmetric Data vs Skewed Data 중앙값(Median), 최빈값(Mode), 평균값(Mean)이 모여있으면 S..
데이터란 무엇인가? 데이터셋은 데이터 오브젝트로 이루어진다. 데이터 오브젝트는 속성(attribute)에 의해 설명된다. 속성은 variable, field, characteristic dimensions, feature 등으로도 불린다. 상품명 상품가격 0 사과 1000 1 바나나 2000 위 표에서 상품명과 상품가격이 attribute가 되고, 각 열(row; index)가 object가 된다. Attribute 데이터 필드로써 데이터 오브젝트에서 문자나 특성으로 대표된다. Attr에는 여러 타입이 존재한다. Nominal Type 카테고리, 상태 등과 같은 순서가 없는 분류 타입을 말한다. 머리색, 직업 등이 Nominal type에 해당한다. Binary Type 2개의 Nominal attrib..
Numpy: ndarray numpy에서 제공하는 동일 타입의 다차원 배열 import numpy as np #길이가 15인 1차원 행렬 a= np.array(15) #3*5 2차원 배열로 재배열 a= a.reshape(3,5) #(행 갯수, 열 갯수) 반환 #(3,5) a.shape #차원 수 #3*5는 2차원 배열 a.ndim #각 열의 타입 a.dtype.name #각 열의 바이트 크기 a.itemsize #데이터 갯수; 행 갯수*열 갯수 #3*5= 15 a.size ndarray의 수학적 연산 #list를 ndarray로 변환 A= np.array([20,30,40,50]) #[0,1,2,3] B= np.arange(4) #행렬의 덧셈/뺄셈연산은 행/열 크기가 동일해야 한다 C= A- B #행렬의..
건국대학교 교양과목 생활경제증권투자 중간고사 시험범위를 정리한 텍스트입니다. 기업과 증권시장, 금융시장, 증권시장과 투자수단 내용이 포함되어 있습니다. 오개념, 오타에 대해선 책임지지 않으니 알아서 잘 걸러 보십시오... 글자는 서식이 깨져 이미지로 대체합니다. (글자 원본은 맨 아래에 있습니다) 원본 텍스트 더보기 1장: 기업과 증권시장 기업의 발전요인 자유로운 기업활동을 보장하는 법체계 자본시장의 발달로 대규모 자금 조달 가능 (자기자본+ 타인자본) 주식,채권 발행이 가능해지면서 대중으로부터 대규모의 자금 조달 가능 소유와 경영의 분리로 전문경영인의 능력 적극 활용 소유주보다 전문 경영인이 전문성과 시장 이해도가 더 높기 때문에 기업 성공 가능성이 높아진다 그러나 소유주와 경영인의 정보의 비대칭성 문..