반응형

2024/03 28

Data integration

* Data integration : Combines data from multiple sources into a coherent dataset - Entity indentification problem : 실제로는 동일한 데이터이나 각각의 소스로부터 다른 방식으로 표현되어 있는 것을 어떻게 합칠 것인가? - 여러 데이터 베이스에서 수집한 자료를 합칠 때 Redundant data 의 문제는 일어나기 마련이다. : Redundant attributes may be able to be detected by correlation analysis and covariance analysis​ - Correlation Analysis (Nominal Data) 1) 카이스퀘어 검정, chi-square test ..

Data preprocessing

Data preprocessing 1) data cleaning : 누락 데이터 채우기, 노이즈 제거 , 아웃라이어 제거, inconsistency 수정 - Noisy Data : random error or variance in a measured variable => "SMOOTH" by Binning​ First, sort data and partition into (equal-frequency) bins then can smooth by bin means, bin median or bin boundaries : also can smooth by Regression, Clustering, Combined computer and human inspection ex) 다음 데이터(4,8,15,21,21..

Apriori algorithm

* Apriori : A candidate generation-and-test approach - method: 1-itemset 을 시작으로 itemset 의 크기를 하나하나 늘여가면서 freqeunt itemset 을 찾아가는 방법 1) Initially, scan DB once to get frequent 1-itemset 2) Generate length (k+1) candidate itemset from length k frequent itemset 3) Test the candidate against the minimum support requirement 4) Terminate when no frequent or candidate set can be generated ex) - Apriori..

Closed Patterns and Max-Patterns

- An itemset X is closed frequent if X is frequent and there exists no super pattern Y ⊃ X, with the same support as X - An itemset X is a max frequent if X is frequent and there exists no frequent super patter Y ⊃ X​ - 아래의 표를 바탕으로 생성가능한 itemset 을 표현해보면 1-itemset 부터 5-itemset 까지 만들 수 있다. Total item set의 크기: 2^5-1 minsup = 2 로 설정하여 그래프를 그려보면 아래와 같다. - 위의 node 에서 빨간색으로 표현된 숫자는 Tid 를 나타낸다. 즉, {A} 는..

Data Set, attributes

- Data set 은 data objects로 이루어져 있고 data object는 entity 를 표현한다. ex) sales database: customers, store items, sales medical database: patients, treatments - Data objects는 attributes에 의해 설명된다. - Database의 row는 data objects로 columns는 attributes를 나타낸다. - Attribute 의 종류에는 1) Nominal 2) Binary 3) Ordinal 4) Numeric: quantitative 가 있다. 1) Nominal : categories, states or symbols - Hair_color = {auburn, bl..

반응형