산업공학/Data Analytics

Data Set, attributes

빕준 2024. 3. 25. 13:26
반응형

- Data set 은 data objects로 이루어져 있고 data object는 entity 를 표현한다.

 

ex) sales database: customers, store items, sales

       medical database: patients, treatments

 

- Data objects는 attributes에 의해 설명된다.

 

- Database의 row는 data objects로 columns는 attributes를 나타낸다.

 

 

- Attribute 의 종류에는 1) Nominal

 2) Binary

 3) Ordinal

 4) Numeric: quantitative 가 있다.

 

1) Nominal : categories, states or symbols

- Hair_color = {auburn, black, blond, brown, grey}

- marital status, occupation, ID number, zip codes

 

2) Binary

- Norminal attribute with only 2 states (0 and 1), 흔히 알고있는 0,1 binary 조건이다.

- Symmetric binary : 두가지가 동일하게 고려대상이 되는 경우

   ex) 성별

- Asymmetric binary: 두가지 중 한가지만 고려대상이 되는 경우

   ex) 병원검사결과 (양성 vs 음성), 에이즈 감염여부에 대해 음성의 결과보다는 양성의 경우에만 관심이 있다.

 

3) Ordinal

- Values have a meaningful order (ranking) but magnitute between seccessive values is not known

- Size = {small, medium, large}, grades, army rankings

 

4) Numeric : quantitative, either interval-scaled or ratio-scaled

- Interval : measured on a scale of equal-sized units/ no true zero-point / values have order

   ex) 섭씨, 화씨 온도 => 10도가 5도보다 2배 따듯하다고 말할 수 없다.

- Ratio : has an inherent zero-point

   ex) temperature in Kelvin 10K 는 5K 보다 2배 높다.

 

반응형

'산업공학 > Data Analytics' 카테고리의 다른 글

Dissimilarity Matrix  (0) 2024.03.25
Basic Statistical Descriptions of Data  (0) 2024.03.25
Interestingness Measure: Correlation Lift  (0) 2024.03.25
ECLAT  (0) 2024.03.25
Data transformation  (0) 2024.03.05