본문 바로가기
자격증/ADsP

[ADsP] 2.2 데이터 분석 방법론

by 리미와감자 2023. 2. 10.

분석 방법론 개요

분석 방법론의 구성요소 : 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물

 

기업의 합리적 의사결정을 가로막는 장애 요소

1. 고정관념

2. 편향된 생각

3. 프레이밍 효과(Framing Effect) : 동일한 상황임에도 개인의 선택이나 판단이 달라지는 현상.

 

 

 

분석 방법론의 모델 3가지

폭포수 모델

- 단계를 순차적으로 진행.

- 이전 단계가 완료되어야 다음 단계로 진행.

- 하향식(Top Down) 진행.

 

프로토타입 모델

- 고객의 요구사항을 완전히 이해하지 못했을 때 사용.

- 일부분을 우선 개발(초기 모델)하여 사용자에게 제공 후 결과를 통한 개선 작업. 신속하게 해결책 모형 제시.

- 상향식 접근방법.

 

나선형 모델

 

- 반복을 통해 점증적으로 개발

- 반복에 대한 관리 체계가 부족할 경우 복잡도가 상승. 개발 시간이 오래 걸림.

 

 

 

KDD 분석 방법론

KDD(Knowledge Discovery in Database) : 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝 프로세스

 

KDD 분석 절차

- 데이터셋 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 데이터 마이닝 평가

 

1. 데이터셋 선택 : 데이터마이닝에 필요한 목표데이터 구성

2. 데이터 전처리 : 잡음(Noise), 이상치(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거

3. 데이터 변환 : 분석 목적에 맞는 변수 생성, 데이터의 차원 축소. 학습용/검증용 데이터 분리

4. 데이터 마이닝 : 데이터의 패턴을 찾거나 분류 또는 예측

5. 데이터 마이닝 평가 : 분석 결과에 대한 평가

 

 

CRISP-DM 분석 방법론

CRISP-DM(Cross-Industry Standard Process for Data Mining) : 계층적 프로세스 모델로서 4개 레벨로 구성.

 

CRISP-DM 4레벨 구조

- Phases(단계) -> Generic Tasks(일반화 태스크) -> Specialized Tasks(세분화 태스크) -> Process Instances(프로세스 실행)

ex) 일반화 태스크 : 데이터 정제, 세분화 태스크 : 범주형 데이터 정제, 연속형 데이터 정제 등

 

CRISP-DM 6단계 프로세스 : 단방향으로 구성되지 않고 단계 간 피드백이 존재

- 업무 이해 데이터 이해 데이터 준비 모델링 평가 - 전개

단계 KDD와 비교 수행업무
업무 이해 분석 대상 비즈니스 이해 업무 목적 파악 -> 상황 파악 -> 데이터 마이닝 목표 설정 -> 프로젝트 계획 수립
데이터 이해 데이터셋 선택 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
데이터 전처리
데이터 준비 데이터 변환 분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅
모델링 데이터 마이닝 모델링 기법 선택, 알고리즘 선택, 모델 작성, 모델 평가
평가 데이터 마이닝 평가 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
전개 데이터 마이닝 활용 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 리뷰

 

* 주의 : 모델링 단계에서 모델 평가, 평가 단계에서 모델 적용성 평가

 

 

빅데이터 분석 방법론

빅데이터 분석의 계층적 프로세스

- Phase(단계) -> Task(태스크) -> Step(스텝)

 

빅데이터 분석 방법론 5단계

 

ref : https://post.naver.com/viewer/postView.nhn?volumeNo=27714302&memberNo=22344892

 

ref : https://m.post.naver.com/viewer/postView.naver?volumeNo=17730015&memberNo=15488377

 

- 분석 기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개

1) 분석 기획 : 이해 및 계획하는 단계. SOW, WBS .

비즈니스 이해 및 범위 설정 : 비즈니스 이해 -> 프로젝트 범위 설정

프로젝트 정의 및 계획 수립 : 데이터 분석 프로젝트 정의 -> 프로젝트 계획 수립

프로젝트 위험계획 수립 : 데이터 분석 위험 식별 -> 위험 대응 계획 수립(회피, 전이, 완화, 수용)

 

2) 데이터 준비

필요 데이터 정의 : 데이터 정의 -> 데이터 획득방안 수립

데이터 스토어 설계 : 정형 데이터 스토어 설계 -> 비정형 데이터 스토어 설계

데이터 수집 및 정합성 점검 : 데이터 수집 및 저장 -> 데이터 정합성 점검

 

3) 데이터 분석 : 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백

분석용 데이터 준비 텍스트 분석 탐색적 분석(EDA) 모델링 모델 평가 및 검증

 

4) 시스템 구현

설계 및 구현 시스템 테스트 및 운영

 

5) 평가 및 전개

모델 발전 계획 수립 프로젝트 평가 및 보고

 
 

시험에 자주 나오는 단원이므로 열심히 이해, 암기!

댓글