산업공학/Data Analytics

Basic Statistical Descriptions of Data

빕준 2024. 3. 25. 13:28
반응형

- Quartiles : Q1 (25th percentile), Q3 (75th percentile)

 

- Inter-quartile range: IQR = Q3- Q1

 

- Five number summary : min, Q1, median, Q3, max

 

 

 

 

- Boxplot : ends of the box are the quartiles; median is marked ; add whiskers (minimum and maximum observation)

                    and plot outliers individually ; whiskers : 박스 바깥쪽에 가로로 나있는 선, 최소값과 최대값을 표시

 

- Outlier : usually, a value higer/ lower than 1.5 x IQR

 

 

 

 

ex)  30, 36, 47, 50, 52, 52, 56, 60, 63, 70, 70, 110

 

- Five number summary: min = 30, Q1=47, median = 54, Q3 = 63. max = 110

  Q1과 Q3를 표현할 때, 정확하게 25th quartile을 계산해서 Q1=48.5 Q3=66.5 을 계산하기도 하나 진행중인 수업에서는 위의 12개의 데이터 중에서

  25th quartile 즉, 12x(0.25) = 3 , 3번째 위치한 수를 나타내는 것으로 배웠다.

 

- IQR = 63 - 47 = 16

 

- Quantile Plot ​: display all of the data (allowing the user to asscess both the overall behavior and unusual occurrences 

For a data xi data sorted in increasing order, fi indicates that approximately 100 fi% of the data are below or equal     to the value xi

 

 

 

 

- Quantile-quantile (q-q) plot ​: graphs the quantiles of one univariant distribution against the corresponding quantiles of another.

 

 

- Scatter plot​ : Provides a first look at bivariate data to see clusters of points, outliers, etc

 

 

 - Histogram often tell more than box plots : 같은 box plot을 가지더라도 다른 data distribution을 가질 수 있다.

반응형

'산업공학 > Data Analytics' 카테고리의 다른 글

Dissimilarity Matrix  (0) 2024.03.25
Data Set, attributes  (0) 2024.03.25
Interestingness Measure: Correlation Lift  (0) 2024.03.25
ECLAT  (0) 2024.03.25
Data transformation  (0) 2024.03.05