[ADsP] 3.9 데이터마이닝의 개요

데이터마이닝의 개요

■ 데이터마이닝 : 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법.

■ 데이터마이닝 5단계

- 목적 설정 -> 데이터 준비 -> 데이터 가공 -> 데이터마이닝 기법 적용 -> 검증

■ 데이터마이닝 분석 방법

지도학습	비지도학습
의사결정나무 인공신경망 일반화 선형 모형 회귀분석 로지스틱 회귀분석 사례기반 추론 최근접 이웃법(KNN) SVM	OLAP 연관성 규칙발견 군집분석(K-Means Clustering) SOM

■ 데이터 분할 : 주어진 데이터에서만 높은 성과를 보이는 모형의 과적합 문제 해결 방법 중 하나

1) 구축(학습)용 : 훈련용 데이터 50%

2) 검정용 : 구축된 모형의 과대추정 또는 과소추정을 미세 조정하는 데 활용 30%

3) 시험용 : 모델의 성능을 검증하는 데 활용 20%

- 홀드아웃 : 주어진 데이터를 구축(학습)용과 시험용 두 개로 분리하여 사용하는 방법

- 교차확인 : 주어진 데이터를 k개의 집단으로 구분하여 k-1개의 집단을 학습용으로 나머지는 검증용으로 학습하는 방법. ex) 10-fold 교차분석

- 붓스트랩 : 교차확인과 비슷하지만, 학습용 데이터를 반복 재선정함. ex) 0.632 붓스트랩

- 클래스 불균형 : class의 비율이 한쪽에 치우쳐 있는 경우

① under sampling : 적은 class의 수에 맞추는 것

② over sampling : 많은 class의 수에 맞추는 것

■ 성과분석

- 정분류율(Accuracy) = (TP + TN) / (TP + FP + FN + TN) : 전체 예측에서 옳은 예측의 비율

- 오분류율(Error Rate) = 1 - Accuracy

- 정밀도(Precision) = TP / (TP + FP) : 예측값이 옳은 것들 중 실제로 옳은 비율

- 특이도(Specificity) = TN / (FP + TN) : 실제값이 거짓인 것들 중 틀린 예측의 비율

- 민감도(Sensitivity)/재현율(Recall) = TP / (TP + FN) : 실제값이 진실인 것들 중 옳은 예측의 비율

- F1 = 2 * (Precision * Recall) / (Precision + Recall) : 정밀도와 재현율의 조화평균

- F2 : 재현율에 정밀도의 2배 만큼 가중치 부여

- kappa : (Accuracy – P(e)) / (1 – P(e)), P(e) : 우연히 일치할 확률 : 두 평가자의 평가가 얼마나 일치하는지 평가하는 값으로 0 ~ 1 사이의 값을 가짐.

- ROC Curve : 가로축(FP-Rate, 1 – 특이도), 세로축(민감도). 그래프 면적이 넓을수록(x=0, y=1) 좋은 모형.