본문 바로가기
반응형

산업공학/Data Analytics15

정성적 데이터와 정량적 데이터 데이터 분석과 연구에서 정성적 데이터와 정량적 데이터는 기본적인 개념이자 중요한 도구입니다. 이 글에서는 두 데이터 유형의 정의, 차이점, 그리고 각각의 장단점과 활용 사례를 살펴보겠습니다.1. 정성적 데이터란?정성적 데이터(Qualitative Data)는 숫자로 표현되지 않는 데이터를 말합니다. 이러한 데이터는 보통 사람들의 감정, 경험, 의견과 같이 질적인 특성을 나타냅니다. 주로 텍스트, 이미지, 음성, 비디오 등의 형태로 나타나며, 해석적 접근이 필요합니다.특징:주관성: 정성적 데이터는 연구자의 관점이나 해석에 따라 분석 결과가 달라질 수 있습니다.심층적 통찰 제공: 사람들의 생각, 동기, 행동의 배경을 깊이 이해하는 데 유용합니다.예시:인터뷰에서 얻은 응답소셜 미디어 댓글관찰 기록하위 분류:내.. 2025. 1. 7.
Dissimilarity Matrix - Dissimilarity Matrix (n objects x p attributes) : Store a collection of proximities that are available for all pairs of n objects A triangular matix, i.e., d(i,j) = d(j,i) d(i,j) is the measured dissimilarity or "differce" between objects i and j similarity measure sim(i,j) = 1 - d(i,j) d(i,j) is a non-negative number that is close to 0 when objects i and j are highly similar or "near" each ot.. 2024. 3. 25.
Basic Statistical Descriptions of Data - Quartiles : Q1 (25th percentile), Q3 (75th percentile) - Inter-quartile range: IQR = Q3- Q1 - Five number summary : min, Q1, median, Q3, max - Boxplot : ends of the box are the quartiles; median is marked ; add whiskers (minimum and maximum observation) ​ and plot outliers individually ; whiskers : 박스 바깥쪽에 가로로 나있는 선, 최소값과 최대값을 표시 - Outlier : usually, a value higer/ lower than 1.5 x IQR ex) 30,.. 2024. 3. 25.
Data Set, attributes - Data set 은 data objects로 이루어져 있고 data object는 entity 를 표현한다. ex) sales database: customers, store items, sales medical database: patients, treatments - Data objects는 attributes에 의해 설명된다. - Database의 row는 data objects로 columns는 attributes를 나타낸다. - Attribute 의 종류에는 1) Nominal 2) Binary 3) Ordinal 4) Numeric: quantitative 가 있다. 1) Nominal : categories, states or symbols - Hair_color = {auburn, bl.. 2024. 3. 25.
Interestingness Measure: Correlation Lift * Measure of dependent/correlated events: lift 1) Statistiacal independence P(S∩B) = P(S) x P(B) => Statistically independence P(S∩B) > P(S) x P(B) => Postively correlated P(S∩B) Negatively correlated 2) lift : interestingness measure: (interesting = reasonable 정도로 이해하면 될 것 같다) - if the lift is equal to 1, then A and B are independent and there is no correlation between them. A⊥.. 2024. 3. 25.
ECLAT ECLAT: Frequent Pattern Mining with Vertical Data Format * 기존의 Tid 순으로 표현했던 것을 각각의 아이템별로 Tid list 를 표현해낸다. - (K+1) 의 itemset 의 후보가 되려면 모든 K-item subset 이 frequent 해야한다. - Apriori 와는 달리 1) support 를 계산 하는데 짧은 시간이 걸린다. 2) 교집합을 찾기가 쉽다. 하지만 intermediate Tid 리스트가 너무 많은 메모리를 차지 할 수 있다. ex) minimum support count = 2 2024. 3. 25.
Data transformation * Data transformation : A function that maps the entire set of values of a given attribute to a new set of replacement values s.t. each old value can be identified with one of the new value - Smoothing : Remove noise from data ex) binning, regressio and clustering - Attribute/feature construction : new attributes constructed from the given ones - Aggregation : Summarization ex) the daily sales d.. 2024. 3. 5.
Data integration * Data integration : Combines data from multiple sources into a coherent dataset - Entity indentification problem : 실제로는 동일한 데이터이나 각각의 소스로부터 다른 방식으로 표현되어 있는 것을 어떻게 합칠 것인가? - 여러 데이터 베이스에서 수집한 자료를 합칠 때 Redundant data 의 문제는 일어나기 마련이다. : Redundant attributes may be able to be detected by correlation analysis and covariance analysis​ - Correlation Analysis (Nominal Data) 1) 카이스퀘어 검정, chi-square test .. 2024. 3. 5.
Data preprocessing Data preprocessing 1) data cleaning : 누락 데이터 채우기, 노이즈 제거 , 아웃라이어 제거, inconsistency 수정 - Noisy Data : random error or variance in a measured variable => "SMOOTH" by Binning​ First, sort data and partition into (equal-frequency) bins then can smooth by bin means, bin median or bin boundaries : also can smooth by Regression, Clustering, Combined computer and human inspection ex) 다음 데이터(4,8,15,21,21.. 2024. 3. 5.
FP Growth FP Growth : A Frequent Pattern- Growth Approach - Divide-and-Conquer Strategy - Avoid explicit candidate generation → Scan only once * FP-tree construction - ex) - 먼저 각각의 item 이, 1-itemset, 의 support count 를 계산하고 가장 높은 item 부터 정렬하는 것이 FP tree 의 작성의 포인트 2024. 3. 5.
Apriori algorithm * Apriori : A candidate generation-and-test approach - method: 1-itemset 을 시작으로 itemset 의 크기를 하나하나 늘여가면서 freqeunt itemset 을 찾아가는 방법 1) Initially, scan DB once to get frequent 1-itemset 2) Generate length (k+1) candidate itemset from length k frequent itemset 3) Test the candidate against the minimum support requirement 4) Terminate when no frequent or candidate set can be generated ex) - Apriori.. 2024. 3. 5.
Closed Patterns and Max-Patterns - An itemset X is closed frequent if X is frequent and there exists no super pattern Y ⊃ X, with the same support as X - An itemset X is a max frequent if X is frequent and there exists no frequent super patter Y ⊃ X​ - 아래의 표를 바탕으로 생성가능한 itemset 을 표현해보면 1-itemset 부터 5-itemset 까지 만들 수 있다. Total item set의 크기: 2^5-1 minsup = 2 로 설정하여 그래프를 그려보면 아래와 같다. - 위의 node 에서 빨간색으로 표현된 숫자는 Tid 를 나타낸다. 즉, {A} 는.. 2024. 3. 5.
반응형