본문 바로가기
자격증/ADsP

[ADsP] 3.9 데이터마이닝의 개요

by 리미와감자 2023. 2. 25.

데이터마이닝의 개요

데이터마이닝 : 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법.

 

데이터마이닝 5단계

- 목적 설정 -> 데이터 준비 -> 데이터 가공 -> 데이터마이닝 기법 적용 -> 검증

 

데이터마이닝 분석 방법

지도학습 비지도학습
의사결정나무
인공신경망
일반화 선형 모형
회귀분석
로지스틱 회귀분석
사례기반 추론
최근접 이웃법(KNN)
SVM
OLAP
연관성 규칙발견
군집분석(K-Means Clustering)
SOM

 

데이터 분할 : 주어진 데이터에서만 높은 성과를 보이는 모형의 과적합 문제 해결 방법 중 하나

1) 구축(학습): 훈련용 데이터 50%

2) 검정용 : 구축된 모형의 과대추정 또는 과소추정을 미세 조정하는 데 활용 30%

3) 시험용 : 모델의 성능을 검증하는 데 활용 20%

- 홀드아웃 : 주어진 데이터를 구축(학습)용과 시험용 두 개로 분리하여 사용하는 방법

- 교차확인 : 주어진 데이터를 k개의 집단으로 구분하여 k-1개의 집단을 학습용으로 나머지는 검증용으로 학습하는 방법. ex) 10-fold 교차분석

- 붓스트랩 : 교차확인과 비슷하지만, 학습용 데이터를 반복 재선정함. ex) 0.632 붓스트랩

- 클래스 불균형 : class의 비율이 한쪽에 치우쳐 있는 경우

under sampling : 적은 class의 수에 맞추는 것

over sampling : 많은 class의 수에 맞추는 것

 

성과분석

오분류표(Confusion Matrix) 실제값
TRUE FALSE
예측값 TRUE TP(True Positive) FP(False Positive)
FALSE FN(False Negative) TN(True Negative)

 

- 정분류율(Accuracy) = (TP + TN) / (TP + FP + FN + TN) : 전체 예측에서 옳은 예측의 비율

- 오분류율(Error Rate) = 1 - Accuracy

- 정밀도(Precision) = TP / (TP + FP) : 예측값이 옳은 것들 중 실제로 옳은 비율

- 특이도(Specificity) = TN / (FP + TN) : 실제값이 거짓인 것들 중 틀린 예측의 비율

- 민감도(Sensitivity)/재현율(Recall) = TP / (TP + FN) : 실제값이 진실인 것들 중 옳은 예측의 비율

- F1 = 2 * (Precision * Recall) / (Precision + Recall) : 정밀도와 재현율의 조화평균

- F2 : 재현율에 정밀도의 2배 만큼 가중치 부여

- kappa : (Accuracy P(e)) / (1 P(e)), P(e) : 우연히 일치할 확률 : 두 평가자의 평가가 얼마나 일치하는지 평가하는 값으로 0 ~ 1 사이의 값을 가짐.

- ROC Curve : 가로축(FP-Rate, 1 특이도), 세로축(민감도). 그래프 면적이 넓을수록(x=0, y=1) 좋은 모형.

 

'자격증 > ADsP' 카테고리의 다른 글

[ADsP] 3.11 군집분석, 연관분석  (1) 2023.02.25
[ADsP] 3.10 분류분석  (0) 2023.02.25
[ADsP] 3.8 주성분분석과 다차원척도법  (0) 2023.02.24
[ADsP] 3.7 시계열분석  (0) 2023.02.24
[ADsP] 3.6 회귀분석  (1) 2023.02.24

댓글