군집분석
■ 군집분석 : 각 개체의 유사성을 측정하여 유사성이 높은 대상 집단으로 분류하는 분석 방법
■ 종류
계층적 군집 | 합병형(응집형) | 단일(최단) 연결법, 완전(최장) 연결법, 평균 연결법, 중심 연결법, Ward 연결법 |
분리형 | 다이아나 방법 | |
분할적 군집 | 프로토타입 | - k-중심군집 : k-평균, k-중앙값, k-메도이드 - 퍼지 군집 |
분포기반 | 혼합 분포 군집 | |
밀도기반 | 중심밀도 군집, 격자기반군집 |
1. 계층적 군집
- 이상치에 민감하며, 사전에 군집수 k를 설정할 필요없음.
- 거리 측정에 대한 정의가 필요.
1) 군집 방법
- 최단연결법 : 두 군집 사이의 거리를 두 군집 사이의 관측 값 거리의 최솟값을 측정
- 최장연결법 : 두 군집 사이의 거리를 두 군집 사이의 관측 값 거리의 최댓값을 측정
- 중심연결법 : 중심 간의 거리를 측정
- 와드연결법 : 군집 내의 오차제곱합에 기초하여 군집 형성
- 평균연결법 : 모든 항목에 대한 거리 평균을 구하면서 군집 형성. 계산 양이 많음.
* 덴드로그램
2) 군집의 거리
① 연속형 변수
- 맨허튼 거리 : 두 점의 각 성분별 차의 절대값(직각)
- 유클리디안 거리 : 두 점 사이의 거리
- 민코우스키 거리 : 맨허튼 거리(거리 차수 1), 유클리디안 거리(거리 차수 2)를 한 번에 표현
- 표준화 거리 : 해당변수의 표준편차로 척도 변환한 후 유클리디안 거리를 계산. 표준화를 하면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음. 통계적 거리.
- 마할라노비스 거리 : 변수의 표준화, 상관성을 동시에 고려한 통계적 거리.
② 범주형 변수
- 자카드 거리
- 코사인 거리 : 두 벡터 사이의 사잇각을 계산하여 유사한 정도를 구하는 것
2. 비계층적 군집
- 사전에 군집수 k를 설정해야함.
1) K-means 군집분석
- 오차 제곱합을 최소화하는 방향으로 움직이는 탐욕적 알고리즘임
- 절차
① 초기 군집의 중심으로 k개의 객체를 임의로 선택
② 각 자료를 가장 가까운 군집의 중심에 할당
③ 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신
④ 군집 중심의 변화가 거의 없을 때까지 ②, ③ 반복
2) DBSCAN
- 밀도 기반 클러스팅으로 점이 세밀하게 몰려있어 밀도가 높은 부분을 클러스팅함.
- 어느 점을 기준으로 반경 내에 점이 n개 이상 있으면 하나의 군집으로 인식하는 방식
- 임의적 모양의 군집분석
3) 혼합분포군집
- 데이터가 봉우리가 2깨인 분포, 도넛형태의 분포 등 복잡한 형태를 가진 분포
- 여러 분포를 확률적으로 선형 결합한 혼합분포로 설명될 수 있음
- EM 알고리즘 사용 : E Step, M Step
3. SOM(자기조직화지도)
- 비지도학습
- 인공신경망의 한 종류로, 차원 축소 + 군집화를 동시에 수행
- 고차원 데이터 -> 저차원 데이터 변환
- 인공신경망은 역전파알고리즘이지만, SOM은 전방패스를 사용
- 입력층과 2차원의 격자 형태의 경쟁층(=출력층)으로 구성됨
- 입력 변수의 개수와 동일하게 뉴런 수가 존재.
- 출력 뉴런들은 승자가 되기 위해 경쟁학습 수행
■ 군집화 평가 지수
- 실루엣 계수 : 클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 평가
1에 가까울수록 군집화가 잘 되었다고 판단
0.5 이상 : 결과가 타당한 것으로 판단
1 : 한 군집의 모든 개체가 딱 붙어있는 경우를 의미
연관분석
■ 연관분석 : 장바구니분석이라고도 불리며, if-then 형태로 구성
- if A then B : A가 팔리면 B가 같이 팔린다.
- 예시 : 기저귀를 사는 고객은 맥주를 동시에 구매한다
- 알고리즘 : Apriori 알고리즘, FP Growth
■ 측정지표
- 향상도는 서로 관련이 없을 경우 1이 되고, 1보다 클 경우 관련이 있음을 의미
'Certificate > ADsP' 카테고리의 다른 글
[ADsP] 제36회 ADsP 합격 후기/ADsP 총정리 (1) | 2023.10.22 |
---|---|
[ADsP] 3.10 분류분석 (0) | 2023.02.25 |
[ADsP] 3.9 데이터마이닝의 개요 (0) | 2023.02.25 |
[ADsP] 3.8 주성분분석과 다차원척도법 (0) | 2023.02.24 |
[ADsP] 3.7 시계열분석 (0) | 2023.02.24 |
댓글