[ADsP] 3.11 군집분석, 연관분석

군집분석

■ 군집분석 : 각 개체의 유사성을 측정하여 유사성이 높은 대상 집단으로 분류하는 분석 방법

■ 종류

계층적 군집	합병형(응집형)	단일(최단) 연결법, 완전(최장) 연결법, 평균 연결법, 중심 연결법, Ward 연결법
계층적 군집	분리형	다이아나 방법
분할적 군집	프로토타입	- k-중심군집 : k-평균, k-중앙값, k-메도이드 - 퍼지 군집
	분포기반	혼합 분포 군집
	밀도기반	중심밀도 군집, 격자기반군집

1. 계층적 군집

- 이상치에 민감하며, 사전에 군집수 k를 설정할 필요없음.

- 거리 측정에 대한 정의가 필요.

1) 군집 방법

- 최단연결법 : 두 군집 사이의 거리를 두 군집 사이의 관측 값 거리의 최솟값을 측정

- 최장연결법 : 두 군집 사이의 거리를 두 군집 사이의 관측 값 거리의 최댓값을 측정

- 중심연결법 : 중심 간의 거리를 측정

- 와드연결법 : 군집 내의 오차제곱합에 기초하여 군집 형성

- 평균연결법 : 모든 항목에 대한 거리 평균을 구하면서 군집 형성. 계산 양이 많음.

* 덴드로그램

2) 군집의 거리

① 연속형 변수

- 맨허튼 거리 : 두 점의 각 성분별 차의 절대값(직각)

- 유클리디안 거리 : 두 점 사이의 거리

- 민코우스키 거리 : 맨허튼 거리(거리 차수 1), 유클리디안 거리(거리 차수 2)를 한 번에 표현

- 표준화 거리 : 해당변수의 표준편차로 척도 변환한 후 유클리디안 거리를 계산. 표준화를 하면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음. 통계적 거리.

- 마할라노비스 거리 : 변수의 표준화, 상관성을 동시에 고려한 통계적 거리.

② 범주형 변수

- 자카드 거리

- 코사인 거리 : 두 벡터 사이의 사잇각을 계산하여 유사한 정도를 구하는 것

2. 비계층적 군집

- 사전에 군집수 k를 설정해야함.

1) K-means 군집분석

- 오차 제곱합을 최소화하는 방향으로 움직이는 탐욕적 알고리즘임

- 절차

① 초기 군집의 중심으로 k개의 객체를 임의로 선택

② 각 자료를 가장 가까운 군집의 중심에 할당

③ 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신

④ 군집 중심의 변화가 거의 없을 때까지 ②, ③ 반복

2) DBSCAN

- 밀도 기반 클러스팅으로 점이 세밀하게 몰려있어 밀도가 높은 부분을 클러스팅함.

- 어느 점을 기준으로 반경 내에 점이 n개 이상 있으면 하나의 군집으로 인식하는 방식

- 임의적 모양의 군집분석

3) 혼합분포군집

- 데이터가 봉우리가 2깨인 분포, 도넛형태의 분포 등 복잡한 형태를 가진 분포

- 여러 분포를 확률적으로 선형 결합한 혼합분포로 설명될 수 있음

- EM 알고리즘 사용 : E Step, M Step

3. SOM(자기조직화지도)

- 비지도학습

- 인공신경망의 한 종류로, 차원 축소 + 군집화를 동시에 수행

- 고차원 데이터 -> 저차원 데이터 변환

- 인공신경망은 역전파알고리즘이지만, SOM은 전방패스를 사용

- 입력층과 2차원의 격자 형태의 경쟁층(=출력층)으로 구성됨

- 입력 변수의 개수와 동일하게 뉴런 수가 존재.

- 출력 뉴런들은 승자가 되기 위해 경쟁학습 수행

■ 군집화 평가 지수

- 실루엣 계수 : 클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 평가

1에 가까울수록 군집화가 잘 되었다고 판단

0.5 이상 : 결과가 타당한 것으로 판단

1 : 한 군집의 모든 개체가 딱 붙어있는 경우를 의미

연관분석

■ 연관분석 : 장바구니분석이라고도 불리며, if-then 형태로 구성

- if A then B : A가 팔리면 B가 같이 팔린다.

- 예시 : 기저귀를 사는 고객은 맥주를 동시에 구매한다

- 알고리즘 : Apriori 알고리즘, FP Growth

■ 측정지표

- 향상도는 서로 관련이 없을 경우 1이 되고, 1보다 클 경우 관련이 있음을 의미

저작자표시 비영리 변경금지 (새창열림)

'Certificate > ADsP' 카테고리의 다른 글

[ADsP] 제36회 ADsP 합격 후기/ADsP 총정리 (2)	2023.10.22
[ADsP] 3.10 분류분석 (0)	2023.02.25
[ADsP] 3.9 데이터마이닝의 개요 (0)	2023.02.25
[ADsP] 3.8 주성분분석과 다차원척도법 (0)	2023.02.24
[ADsP] 3.7 시계열분석 (0)	2023.02.24

리미창고

[ADsP] 3.11 군집분석, 연관분석

군집분석

연관분석

'Certificate > ADsP' 카테고리의 다른 글

댓글

티스토리툴바

[ADsP] 3.11 군집분석, 연관분석

군집분석

연관분석

'Certificate > ADsP' 카테고리의 다른 글

관련글

댓글

티스토리툴바