데이터마이닝의 개요
■ 데이터마이닝 : 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법.
■ 데이터마이닝 5단계
- 목적 설정 -> 데이터 준비 -> 데이터 가공 -> 데이터마이닝 기법 적용 -> 검증
■ 데이터마이닝 분석 방법
지도학습 | 비지도학습 |
의사결정나무 인공신경망 일반화 선형 모형 회귀분석 로지스틱 회귀분석 사례기반 추론 최근접 이웃법(KNN) SVM |
OLAP 연관성 규칙발견 군집분석(K-Means Clustering) SOM |
■ 데이터 분할 : 주어진 데이터에서만 높은 성과를 보이는 모형의 과적합 문제 해결 방법 중 하나
1) 구축(학습)용 : 훈련용 데이터 50%
2) 검정용 : 구축된 모형의 과대추정 또는 과소추정을 미세 조정하는 데 활용 30%
3) 시험용 : 모델의 성능을 검증하는 데 활용 20%
- 홀드아웃 : 주어진 데이터를 구축(학습)용과 시험용 두 개로 분리하여 사용하는 방법
- 교차확인 : 주어진 데이터를 k개의 집단으로 구분하여 k-1개의 집단을 학습용으로 나머지는 검증용으로 학습하는 방법. ex) 10-fold 교차분석
- 붓스트랩 : 교차확인과 비슷하지만, 학습용 데이터를 반복 재선정함. ex) 0.632 붓스트랩
- 클래스 불균형 : class의 비율이 한쪽에 치우쳐 있는 경우
① under sampling : 적은 class의 수에 맞추는 것
② over sampling : 많은 class의 수에 맞추는 것
■ 성과분석
오분류표(Confusion Matrix) | 실제값 | ||
TRUE | FALSE | ||
예측값 | TRUE | TP(True Positive) | FP(False Positive) |
FALSE | FN(False Negative) | TN(True Negative) |
- 정분류율(Accuracy) = (TP + TN) / (TP + FP + FN + TN) : 전체 예측에서 옳은 예측의 비율
- 오분류율(Error Rate) = 1 - Accuracy
- 정밀도(Precision) = TP / (TP + FP) : 예측값이 옳은 것들 중 실제로 옳은 비율
- 특이도(Specificity) = TN / (FP + TN) : 실제값이 거짓인 것들 중 틀린 예측의 비율
- 민감도(Sensitivity)/재현율(Recall) = TP / (TP + FN) : 실제값이 진실인 것들 중 옳은 예측의 비율
- F1 = 2 * (Precision * Recall) / (Precision + Recall) : 정밀도와 재현율의 조화평균
- F2 : 재현율에 정밀도의 2배 만큼 가중치 부여
- kappa : (Accuracy – P(e)) / (1 – P(e)), P(e) : 우연히 일치할 확률 : 두 평가자의 평가가 얼마나 일치하는지 평가하는 값으로 0 ~ 1 사이의 값을 가짐.
- ROC Curve : 가로축(FP-Rate, 1 – 특이도), 세로축(민감도). 그래프 면적이 넓을수록(x=0, y=1) 좋은 모형.
'Certificate > ADsP' 카테고리의 다른 글
[ADsP] 3.11 군집분석, 연관분석 (1) | 2023.02.25 |
---|---|
[ADsP] 3.10 분류분석 (0) | 2023.02.25 |
[ADsP] 3.8 주성분분석과 다차원척도법 (0) | 2023.02.24 |
[ADsP] 3.7 시계열분석 (0) | 2023.02.24 |
[ADsP] 3.6 회귀분석 (1) | 2023.02.24 |
댓글