- Data set 은 data objects로 이루어져 있고 data object는 entity 를 표현한다.
ex) sales database: customers, store items, sales
medical database: patients, treatments
- Data objects는 attributes에 의해 설명된다.
- Database의 row는 data objects로 columns는 attributes를 나타낸다.

- Attribute 의 종류에는 1) Nominal
2) Binary
3) Ordinal
4) Numeric: quantitative 가 있다.
1) Nominal : categories, states or symbols
- Hair_color = {auburn, black, blond, brown, grey}
- marital status, occupation, ID number, zip codes
2) Binary
- Norminal attribute with only 2 states (0 and 1), 흔히 알고있는 0,1 binary 조건이다.
- Symmetric binary : 두가지가 동일하게 고려대상이 되는 경우
ex) 성별
- Asymmetric binary: 두가지 중 한가지만 고려대상이 되는 경우
ex) 병원검사결과 (양성 vs 음성), 에이즈 감염여부에 대해 음성의 결과보다는 양성의 경우에만 관심이 있다.
3) Ordinal
- Values have a meaningful order (ranking) but magnitute between seccessive values is not known
- Size = {small, medium, large}, grades, army rankings
4) Numeric : quantitative, either interval-scaled or ratio-scaled
- Interval : measured on a scale of equal-sized units/ no true zero-point / values have order
ex) 섭씨, 화씨 온도 => 10도가 5도보다 2배 따듯하다고 말할 수 없다.
- Ratio : has an inherent zero-point
ex) temperature in Kelvin 10K 는 5K 보다 2배 높다.
'산업공학 > Data Analytics' 카테고리의 다른 글
FP Growth (0) | 2024.03.05 |
---|---|
Apriori algorithm (0) | 2024.03.05 |
Closed Patterns and Max-Patterns (0) | 2024.03.05 |
Frequent Patterns (0) | 2024.03.05 |
Minkowski distance (1) | 2024.03.05 |