- Quartiles : Q1 (25th percentile), Q3 (75th percentile)
- Inter-quartile range: IQR = Q3- Q1
- Five number summary : min, Q1, median, Q3, max
- Boxplot : ends of the box are the quartiles; median is marked ; add whiskers (minimum and maximum observation)
and plot outliers individually ; whiskers : 박스 바깥쪽에 가로로 나있는 선, 최소값과 최대값을 표시
- Outlier : usually, a value higer/ lower than 1.5 x IQR
ex) 30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110
- Five number summary: min = 30, Q1=47, median = 54, Q3 = 63. max = 110
Q1과 Q3를 표현할 때, 정확하게 25th quartile을 계산해서 Q1=48.5 Q3=66.5 을 계산하기도 하나 진행중인 수업에서는 위의 12개의 데이터 중에서
25th quartile 즉, 12x(0.25) = 3 , 3번째 위치한 수를 나타내는 것으로 배웠다.
- IQR = 63 - 47 = 16
- Quantile Plot : display all of the data (allowing the user to asscess both the overall behavior and unusual occurrences
For a data xi data sorted in increasing order, fi indicates that approximately 100 fi% of the data are below or equal to the value xi
- Quantile-quantile (q-q) plot : graphs the quantiles of one univariant distribution against the corresponding quantiles of another.
- Scatter plot : Provides a first look at bivariate data to see clusters of points, outliers, etc
- Histogram often tell more than box plots : 같은 box plot을 가지더라도 다른 data distribution을 가질 수 있다.
'산업공학 > Data Analytics' 카테고리의 다른 글
정성적 데이터와 정량적 데이터 (0) | 2025.01.07 |
---|---|
Dissimilarity Matrix (1) | 2024.03.25 |
Data Set, attributes (0) | 2024.03.25 |
Interestingness Measure: Correlation Lift (0) | 2024.03.25 |
ECLAT (0) | 2024.03.25 |