Data Mining
-
Clustering #1Data Mining 2022. 9. 25. 11:46
■ Clustering이란? - Data object의 그룹 1. 같은 그룹 안에서 다른 것들이 Similar 하거나 Related 하다. 2. 다른 그룹들에서 object가 Dissimilar 하거나 Unrelated하다. 이 두 가지 조건이 만족하게 되면 Cluster라고 부른다. 그렇다면 Clustering이란 무엇일까? Unsupervised Learning의 일종으로 어떤 data object를 cluster로 나누고 그 cluster를 발견하는 것을 말한다. 데이터 분석을 위한 방법으로 전처리 과정에 해당한다. ■ Measuring Quality of Clustering 1. High-Quality Cluster High intra-class similarity : cluster의 cohesi..
-
Frequent Pattern Mining #3Data Mining 2022. 9. 18. 13:49
Frequent Pattern Mining 세 번째 시간이다. 오늘은 Charm Algorithm에 다루어 보겠다. ■ Redundant rule 앞서 Frequent Pattern Mining #1 시간에 알아 본 Market Basket Problem에서 우리는 두 가지 과정을 거쳐 문제가 해결된다는 것을 알게 되었다. 1) Find frequent itemsets 2) Find association rules 이 두 가지 과정이 해결되어야 문제를 해결 할 수 있었는데, 지난 Frequent Pattern Mining #2 시간에 알아본 Apriori algorithm 은 1) 과정을 해결 하는데에 탁월한 성능을 보였다. 이번 시간에 알아 보려고 하는 Charm algorithm은 2) 과정을 해결하..
-
Frequent Pattern Mining #2Data Mining 2022. 9. 11. 11:34
■ Apriori Algorithm - Market Basket Problem의 두 가지 방식 중 frequent Itemsets를 찾는데에 가장 보편적인 알고리즘이다. 알고리즘 없이 frequent Itemsets를 찾으려 하면 브루트 포스법을 사용하여 전체를 모두 뒤져야한다. 작은 Data에서는 가능할 수 있겠지만 데이터마이닝을 사용할 정도의 Big-Data에서는 어마어마하게 비효율적일 수 있다. ※ 기본적인 처리 과정 itemset generation의 후보자 선정 -> Frequent Itemset을 선택 ※ Downward Closure Property - Any superset of an itemset X cannot have higher support than X -> if an itemse..
-
Frequent Pattern Mining #1Data Mining 2022. 9. 11. 10:51
데이터마이닝에 대한 대학 강의를 수강하면서 기본 개념 정리를 블로그에 기록하려 한다. ■ Market Basket Problem - 쿠팡이나 쇼핑몰 웹사이트에서 흔히 볼 수 있는 "구매자가 함께 구매한 상품"과 같은 기법을 구현할 때 사용된다. ex) Customer who bought beer also bought diapers - Motivation : cross-selling - 고객의 구매 패턴, 고객이 자주 함께 구매한 아이템들에 대한 Big data가 요구된다. ★ Basic Terms Transaction : 한 사람이 한 번 샀을 때의 item 집합 Frequent Itemset : minimum support 보다 support가 크거나 같은 Itemset Support(지지도) : tr..