본문 바로가기
반응형

2024/0328

ECLAT ECLAT: Frequent Pattern Mining with Vertical Data Format * 기존의 Tid 순으로 표현했던 것을 각각의 아이템별로 Tid list 를 표현해낸다. - (K+1) 의 itemset 의 후보가 되려면 모든 K-item subset 이 frequent 해야한다. - Apriori 와는 달리 1) support 를 계산 하는데 짧은 시간이 걸린다. 2) 교집합을 찾기가 쉽다. 하지만 intermediate Tid 리스트가 너무 많은 메모리를 차지 할 수 있다. ex) minimum support count = 2 2024. 3. 25.
QALY (Quality - adjusted life year) QALY 에 대한 위키피디아의 정의는 아래와 같다. The quality-adjusted life year or quality-adjusted life-year (QALY) is a measure of disease burden, including both the quality and the quantity of life lived. It is used in assessing the value for money of a medical intervention. According to Pliskin et al., The QALY model requires utility independent, risk neutral, and constant proportional tradeoff behaviour. The Q.. 2024. 3. 5.
Critical Path Analysis Critical Path Analysis ex) 1. ES (earliest start) - Earliest start time given predecessor activities 2. EF (earliest finish) - Earliest possible completion time 3. LS (latest start) - Latest start time as to not delay entire project 4. LF (latest finish) - Latest finish time as to not delay entire project 1) Forward Pass ​- Proceed through diagram from strat to finish 다이아그램의 시작부터 시간을 계산해 나감 - ES.. 2024. 3. 5.
Bracket median method Bracket Median Method. Continuous distribution을 discrete approximation 하는 방법 2번째 (Tukey method에 이어) - The bracket median method of interval [a,b] is a value m* between a and b such that P(a 2024. 3. 5.
EVPI (expected value of perfect information) Expected Value of Perfect Information. : quantity as the maximum amount that the investor should be willing to pay the clairvoyant for perfect information. (출처: Figure. Making hard decision chapter12 pg.440) 그림을 보면, 정보가 없는 decision node에서 나오는 EMV는 high risk 일때 580이다. Consult Clairvoyant, 즉, perfect information 이 제공되는 경우, investor의 행동을 보면 market이 up 일때는 high rist stock을, market이 flat일때는 savings a.. 2024. 3. 5.
certainty equivalent certainty equivalent : 확실성등가란 위험있는 수익흐름에 대하여 그 위험을 부담하는 대신 보다 적은 수익이라도 확실하게 실현될 수 있다면 그와 맞바꿀 수 있는 최소한의 가격 (네이버 지식백과) : the amount of money that is equivalent in your mind to a given situation that involves uncertainty. (making hard decision 2nd edi) 예를 들어 이해해 보도록하자, win $2,000 with probability 0.50, lose $20 with probability 0.50 인 복권의 상황을 가정해보자. 만약 친구가 나 대신 위의 복권을 사려고 한다. 얼마에 저 기회를 양보하겠는가? $300.. 2024. 3. 5.
Extended Pearson-Tukey The easiest way to use a continuous distribution in a decision tree or influence diagram is to approximate it with a discrete distribution. The basic idea is to find a few representative points in the distribution and then to assign those points specific probability value. A particularly simple approach, from Keefer and Bodily (1983), is called the extended Pearson-Turkey method. (Source: Making.. 2024. 3. 5.
Data transformation * Data transformation : A function that maps the entire set of values of a given attribute to a new set of replacement values s.t. each old value can be identified with one of the new value - Smoothing : Remove noise from data ex) binning, regressio and clustering - Attribute/feature construction : new attributes constructed from the given ones - Aggregation : Summarization ex) the daily sales d.. 2024. 3. 5.
Data integration * Data integration : Combines data from multiple sources into a coherent dataset - Entity indentification problem : 실제로는 동일한 데이터이나 각각의 소스로부터 다른 방식으로 표현되어 있는 것을 어떻게 합칠 것인가? - 여러 데이터 베이스에서 수집한 자료를 합칠 때 Redundant data 의 문제는 일어나기 마련이다. : Redundant attributes may be able to be detected by correlation analysis and covariance analysis​ - Correlation Analysis (Nominal Data) 1) 카이스퀘어 검정, chi-square test .. 2024. 3. 5.
Data preprocessing Data preprocessing 1) data cleaning : 누락 데이터 채우기, 노이즈 제거 , 아웃라이어 제거, inconsistency 수정 - Noisy Data : random error or variance in a measured variable => "SMOOTH" by Binning​ First, sort data and partition into (equal-frequency) bins then can smooth by bin means, bin median or bin boundaries : also can smooth by Regression, Clustering, Combined computer and human inspection ex) 다음 데이터(4,8,15,21,21.. 2024. 3. 5.
FP Growth FP Growth : A Frequent Pattern- Growth Approach - Divide-and-Conquer Strategy - Avoid explicit candidate generation → Scan only once * FP-tree construction - ex) - 먼저 각각의 item 이, 1-itemset, 의 support count 를 계산하고 가장 높은 item 부터 정렬하는 것이 FP tree 의 작성의 포인트 2024. 3. 5.
Apriori algorithm * Apriori : A candidate generation-and-test approach - method: 1-itemset 을 시작으로 itemset 의 크기를 하나하나 늘여가면서 freqeunt itemset 을 찾아가는 방법 1) Initially, scan DB once to get frequent 1-itemset 2) Generate length (k+1) candidate itemset from length k frequent itemset 3) Test the candidate against the minimum support requirement 4) Terminate when no frequent or candidate set can be generated ex) - Apriori.. 2024. 3. 5.
반응형