반응형

산업공학/Data Analytics 14

Basic Statistical Descriptions of Data

- Quartiles : Q1 (25th percentile), Q3 (75th percentile) - Inter-quartile range: IQR = Q3- Q1 - Five number summary : min, Q1, median, Q3, max - Boxplot : ends of the box are the quartiles; median is marked ; add whiskers (minimum and maximum observation) ​ and plot outliers individually ; whiskers : 박스 바깥쪽에 가로로 나있는 선, 최소값과 최대값을 표시 - Outlier : usually, a value higer/ lower than 1.5 x IQR ex) 30,..

Data Set, attributes

- Data set 은 data objects로 이루어져 있고 data object는 entity 를 표현한다. ex) sales database: customers, store items, sales medical database: patients, treatments - Data objects는 attributes에 의해 설명된다. - Database의 row는 data objects로 columns는 attributes를 나타낸다. - Attribute 의 종류에는 1) Nominal 2) Binary 3) Ordinal 4) Numeric: quantitative 가 있다. 1) Nominal : categories, states or symbols - Hair_color = {auburn, bl..

ECLAT

ECLAT: Frequent Pattern Mining with Vertical Data Format * 기존의 Tid 순으로 표현했던 것을 각각의 아이템별로 Tid list 를 표현해낸다. - (K+1) 의 itemset 의 후보가 되려면 모든 K-item subset 이 frequent 해야한다. - Apriori 와는 달리 1) support 를 계산 하는데 짧은 시간이 걸린다. 2) 교집합을 찾기가 쉽다. 하지만 intermediate Tid 리스트가 너무 많은 메모리를 차지 할 수 있다. ex) minimum support count = 2

Data integration

* Data integration : Combines data from multiple sources into a coherent dataset - Entity indentification problem : 실제로는 동일한 데이터이나 각각의 소스로부터 다른 방식으로 표현되어 있는 것을 어떻게 합칠 것인가? - 여러 데이터 베이스에서 수집한 자료를 합칠 때 Redundant data 의 문제는 일어나기 마련이다. : Redundant attributes may be able to be detected by correlation analysis and covariance analysis​ - Correlation Analysis (Nominal Data) 1) 카이스퀘어 검정, chi-square test ..

Data preprocessing

Data preprocessing 1) data cleaning : 누락 데이터 채우기, 노이즈 제거 , 아웃라이어 제거, inconsistency 수정 - Noisy Data : random error or variance in a measured variable => "SMOOTH" by Binning​ First, sort data and partition into (equal-frequency) bins then can smooth by bin means, bin median or bin boundaries : also can smooth by Regression, Clustering, Combined computer and human inspection ex) 다음 데이터(4,8,15,21,21..

Apriori algorithm

* Apriori : A candidate generation-and-test approach - method: 1-itemset 을 시작으로 itemset 의 크기를 하나하나 늘여가면서 freqeunt itemset 을 찾아가는 방법 1) Initially, scan DB once to get frequent 1-itemset 2) Generate length (k+1) candidate itemset from length k frequent itemset 3) Test the candidate against the minimum support requirement 4) Terminate when no frequent or candidate set can be generated ex) - Apriori..

반응형