본문 바로가기
자격증/ADsP

[ADsP] 3.11 군집분석, 연관분석

by 리미와감자 2023. 2. 25.

군집분석

군집분석 : 각 개체의 유사성을 측정하여 유사성이 높은 대상 집단으로 분류하는 분석 방법

 

종류

계층적 군집 합병형(응집형) 단일(최단) 연결법, 완전(최장) 연결법, 평균 연결법, 중심 연결법, Ward 연결법
분리형 다이아나 방법
분할적 군집 프로토타입 - k-중심군집 : k-평균, k-중앙값, k-메도이드
- 퍼지 군집
분포기반 혼합 분포 군집
밀도기반 중심밀도 군집, 격자기반군집

 

1. 계층적 군집

- 이상치에 민감하며, 사전에 군집수 k를 설정할 필요없음.

- 거리 측정에 대한 정의가 필요.

 

1) 군집 방법

- 최단연결법 : 두 군집 사이의 거리를 두 군집 사이의 관측 값 거리의 최솟값을 측정

- 최장연결법 : 두 군집 사이의 거리를 두 군집 사이의 관측 값 거리의 최댓값을 측정

- 중심연결법 : 중심 간의 거리를 측정

- 와드연결법 : 군집 내의 오차제곱합에 기초하여 군집 형성

- 평균연결법 : 모든 항목에 대한 거리 평균을 구하면서 군집 형성. 계산 양이 많음.

* 덴드로그램

 

2) 군집의 거리

연속형 변수

- 맨허튼 거리 : 두 점의 각 성분별 차의 절대값(직각)

- 유클리디안 거리 : 두 점 사이의 거리

- 민코우스키 거리 : 맨허튼 거리(거리 차수 1), 유클리디안 거리(거리 차수 2)를 한 번에 표현

- 표준화 거리 : 해당변수의 표준편차로 척도 변환한 후 유클리디안 거리를 계산. 표준화를 하면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음. 통계적 거리.

- 마할라노비스 거리 : 변수의 표준화, 상관성을 동시에 고려한 통계적 거리.

 

범주형 변수

- 자카드 거리

- 코사인 거리 : 두 벡터 사이의 사잇각을 계산하여 유사한 정도를 구하는 것

 

2. 비계층적 군집

- 사전에 군집수 k를 설정해야함.

 

1) K-means 군집분석

- 오차 제곱합을 최소화하는 방향으로 움직이는 탐욕적 알고리즘임

- 절차

초기 군집의 중심으로 k개의 객체를 임의로 선택

각 자료를 가장 가까운 군집의 중심에 할당

각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신

군집 중심의 변화가 거의 없을 때까지 , 반복

2) DBSCAN

- 밀도 기반 클러스팅으로 점이 세밀하게 몰려있어 밀도가 높은 부분을 클러스팅함.

- 어느 점을 기준으로 반경 내에 점이 n개 이상 있으면 하나의 군집으로 인식하는 방식

- 임의적 모양의 군집분석

 

3) 혼합분포군집

- 데이터가 봉우리가 2깨인 분포, 도넛형태의 분포 등 복잡한 형태를 가진 분포

- 여러 분포를 확률적으로 선형 결합한 혼합분포로 설명될 수 있음

- EM 알고리즘 사용 : E Step, M Step

 

3. SOM(자기조직화지도)

- 비지도학습

- 인공신경망의 한 종류로, 차원 축소 + 군집화를 동시에 수행

- 고차원 데이터 -> 저차원 데이터 변환

- 인공신경망은 역전파알고리즘이지만, SOM전방패스를 사용

- 입력층2차원의 격자 형태의 경쟁층(=출력층)으로 구성됨

- 입력 변수의 개수와 동일하게 뉴런 수가 존재.

- 출력 뉴런들은 승자가 되기 위해 경쟁학습 수행

 

군집화 평가 지수

- 실루엣 계수 : 클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 평가

1에 가까울수록 군집화가 잘 되었다고 판단

0.5 이상 : 결과가 타당한 것으로 판단

1 : 한 군집의 모든 개체가 딱 붙어있는 경우를 의미

 

 

연관분석

연관분석 : 장바구니분석이라고도 불리며, if-then 형태로 구성

- if A then B : A가 팔리면 B가 같이 팔린다.

- 예시 : 기저귀를 사는 고객은 맥주를 동시에 구매한다

- 알고리즘 : Apriori 알고리즘, FP Growth

 

측정지표

- 향상도는 서로 관련이 없을 경우 1이 되고, 1보다 클 경우 관련이 있음을 의미

 

댓글