만족
[데이터사이언스] 데이터의 이해 본문
[데이터사이언스] 데이터의 이해
데이터사이언스 Satisfaction 2021. 10. 20. 20:49데이터란 무엇인가?
데이터셋은 데이터 오브젝트로 이루어진다.
데이터 오브젝트는 속성(attribute)에 의해 설명된다.
속성은 variable, field, characteristic dimensions, feature 등으로도 불린다.
상품명 | 상품가격 | |
0 | 사과 | 1000 |
1 | 바나나 | 2000 |
위 표에서 상품명과 상품가격이 attribute가 되고,
각 열(row; index)가 object가 된다.
Attribute
데이터 필드로써 데이터 오브젝트에서 문자나 특성으로 대표된다.
Attr에는 여러 타입이 존재한다.
Nominal Type
카테고리, 상태 등과 같은 순서가 없는 분류 타입을 말한다.
머리색, 직업 등이 Nominal type에 해당한다.
Binary Type
2개의 Nominal attribute 로 이루어진 타입을 말한다.
오직 2개의 상태를 갖는다.
Symmetric binary: 두 값이 동등한 중요성을 갖는 경우 (성별 등)
Asymmetric binary: 두 값의 중요성이 다른 경우 (질병의 양성,음성 값)
Ordinal Type
의미가 있는 순서를 가진 값들을 말한다.
단 값들간의 차이는 구할 수 없다 (옷 사이즈 등; {S, M, L} => L-M = ???)
Numeric Type
숫자료 표현되는 값을 말한다.
Interval-scaled: 특정 단위를 가지는 값들로, "값들 간의 차이"는 유의미한 데이터이다. 영점이 없다. (섭씨온도, 화씨온도, 날짜 등)
Ratio-scaled: 영점이 있으며, "값들 간 비율"은 유의미한 데이터이다. (무게, 돈의 양; 10kg는 5kg보다 2배 무겁다)
Attribute 연산자
attribute의 타입이 무엇이냐에 따라 사용할 수 있는 연사자가 달라진다.
DIstinctness: = , =/= (같다, 다르다)
Order: <, > (순서가 있는 경우; 앞에 있다, 뒤에 있다)
Addition: +, - (더하거나 뺀다)
Multiplication: *, / (곱하거나 나눈다)
Nominal (순서가 없는 분류값) | distinctness |
Ordinal (순서가 있는 분류값) | distinctness, order |
Interval (영점이 없는 단위의 정수값) | distinctness, order, addition |
Ratio (영점이 있는 단위의 정수값) | distinctness, order, addition, multiplication |
Discrete Attribute (이산속성)
유한하거나, 셀 수 있는 무한개의 값들을 갖는다.
우편번호, 직업, 단어 뭉치 등이 여기에 속한다.
Continuous Attribute (연속속성)
실수를 속성값으로 갖는다.
일반적으로 floating-values로 대표된다.
온도, 신장, 체중 등이 여기에 속한다.
'데이터사이언스' 카테고리의 다른 글
[데이터사이언스] 머신러닝 개요 (0) | 2021.10.22 |
---|---|
[데이터사이언스] 유사도(Similarity) (0) | 2021.10.22 |
[데이터사이언스] 공분산(Covariance)과 상관관계(Correlation) (0) | 2021.10.21 |
[데이터사이언스] 데이터 요약과 시각화 (Data summary and visualization) (0) | 2021.10.21 |
[데이터사이언스] Numpy, Pandas, Dataframe (0) | 2021.10.20 |