분석 방법론 개요
■ 분석 방법론의 구성요소 : 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물
■ 기업의 합리적 의사결정을 가로막는 장애 요소
1. 고정관념
2. 편향된 생각
3. 프레이밍 효과(Framing Effect) : 동일한 상황임에도 개인의 선택이나 판단이 달라지는 현상.
분석 방법론의 모델 3가지
■ 폭포수 모델
- 단계를 순차적으로 진행.
- 이전 단계가 완료되어야 다음 단계로 진행.
- 하향식(Top Down) 진행.
■ 프로토타입 모델
- 고객의 요구사항을 완전히 이해하지 못했을 때 사용.
- 일부분을 우선 개발(초기 모델)하여 사용자에게 제공 후 결과를 통한 개선 작업. 신속하게 해결책 모형 제시.
- 상향식 접근방법.
■ 나선형 모델
- 반복을 통해 점증적으로 개발
- 반복에 대한 관리 체계가 부족할 경우 복잡도가 상승. 개발 시간이 오래 걸림.
KDD 분석 방법론
■ KDD(Knowledge Discovery in Database) : 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝 프로세스
■ KDD 분석 절차
- 데이터셋 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터 마이닝 -> 데이터 마이닝 평가
1. 데이터셋 선택 : 데이터마이닝에 필요한 목표데이터 구성
2. 데이터 전처리 : 잡음(Noise), 이상치(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거
3. 데이터 변환 : 분석 목적에 맞는 변수 생성, 데이터의 차원 축소. 학습용/검증용 데이터 분리
4. 데이터 마이닝 : 데이터의 패턴을 찾거나 분류 또는 예측
5. 데이터 마이닝 평가 : 분석 결과에 대한 평가
CRISP-DM 분석 방법론
■ CRISP-DM(Cross-Industry Standard Process for Data Mining) : 계층적 프로세스 모델로서 4개 레벨로 구성.
■ CRISP-DM 4레벨 구조
- Phases(단계) -> Generic Tasks(일반화 태스크) -> Specialized Tasks(세분화 태스크) -> Process Instances(프로세스 실행)
ex) 일반화 태스크 : 데이터 정제, 세분화 태스크 : 범주형 데이터 정제, 연속형 데이터 정제 등
■ CRISP-DM 6단계 프로세스 : 단방향으로 구성되지 않고 단계 간 피드백이 존재
- 업무 이해 – 데이터 이해 – 데이터 준비 – 모델링 – 평가 - 전개
단계 | KDD와 비교 | 수행업무 |
업무 이해 | 분석 대상 비즈니스 이해 | 업무 목적 파악 -> 상황 파악 -> 데이터 마이닝 목표 설정 -> 프로젝트 계획 수립 |
데이터 이해 | 데이터셋 선택 | 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
데이터 전처리 | ||
데이터 준비 | 데이터 변환 | 분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅 |
모델링 | 데이터 마이닝 | 모델링 기법 선택, 알고리즘 선택, 모델 작성, 모델 평가 |
평가 | 데이터 마이닝 평가 | 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
전개 | 데이터 마이닝 활용 | 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 리뷰 |
* 주의 : 모델링 단계에서 모델 평가, 평가 단계에서 모델 적용성 평가
빅데이터 분석 방법론
■ 빅데이터 분석의 계층적 프로세스
- Phase(단계) -> Task(태스크) -> Step(스텝)
■ 빅데이터 분석 방법론 – 5단계
- 분석 기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개
1) 분석 기획 : 이해 및 계획하는 단계. SOW, WBS 등.
① 비즈니스 이해 및 범위 설정 : 비즈니스 이해 -> 프로젝트 범위 설정
② 프로젝트 정의 및 계획 수립 : 데이터 분석 프로젝트 정의 -> 프로젝트 계획 수립
③ 프로젝트 위험계획 수립 : 데이터 분석 위험 식별 -> 위험 대응 계획 수립(회피, 전이, 완화, 수용)
2) 데이터 준비
① 필요 데이터 정의 : 데이터 정의 -> 데이터 획득방안 수립
② 데이터 스토어 설계 : 정형 데이터 스토어 설계 -> 비정형 데이터 스토어 설계
③ 데이터 수집 및 정합성 점검 : 데이터 수집 및 저장 -> 데이터 정합성 점검
3) 데이터 분석 : 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백
① 분석용 데이터 준비 ② 텍스트 분석 ③ 탐색적 분석(EDA) ④ 모델링 ⑤ 모델 평가 및 검증
4) 시스템 구현
① 설계 및 구현 ② 시스템 테스트 및 운영
5) 평가 및 전개
① 모델 발전 계획 수립 ② 프로젝트 평가 및 보고
시험에 자주 나오는 단원이므로 열심히 이해, 암기!
'Certificate > ADsP' 카테고리의 다른 글
[ADsP] 2.4 데이터 분석 프로젝트 관리 (3) | 2023.02.11 |
---|---|
[ADsP] 2.3 데이터 분석 과제 발굴 (1) | 2023.02.11 |
[ADsP] 2.1 데이터 분석 기획 (0) | 2023.02.08 |
[ADsP] 1.8 데이터 사이언스와 데이터 사이언티스트 (0) | 2023.02.06 |
[ADsP] 1.7 빅데이터의 열풍과 분석 전략 (0) | 2023.02.05 |
댓글