본문 바로가기
728x90
반응형

ADsP25

[ADsP] 제36회 ADsP 합격 후기/ADsP 총정리 ADsP 합격하고 블로그에 후기를 쓴다는 것을 까먹고 있었다. 물론, 최근에 블로그 관리를 안하기도 했지만... ADsP 자격증을 딴 이유? ADsP 자격증을 딴 이유는, 큰 이유는 없었고 올해는 열심히 살자라는 의미로 자격증을 하나를 따자라는 목표를 세운 게 컸다. 물론 그게 전부는 아니고, 데이터 분야가 조금 궁금하기도 했다. ADsP 다음 자격증으로는 빅데이터분석기사를 준비할 듯하다. 준비기간 사실 올해 초에 딴 자격증이라 얼마나 공부했는지 확실히 기억이 안난다. 블로그에 자료를 정리하면서 공부했기 때문에, 하글 하나에 1~2 시간 잡으면 총 30~40 시간 정도 공부한 것 같다. 교재 ADsP 바이블이라고하는 '민트책'으로 공부했다. 2023 ADsP 데이터 분석 준전문가 : 네이버 도서 네이버 .. 2023. 10. 22.
[ADsP] 3.11 군집분석, 연관분석 군집분석 ■ 군집분석 : 각 개체의 유사성을 측정하여 유사성이 높은 대상 집단으로 분류하는 분석 방법 ■ 종류 계층적 군집 합병형(응집형) 단일(최단) 연결법, 완전(최장) 연결법, 평균 연결법, 중심 연결법, Ward 연결법 분리형 다이아나 방법 분할적 군집 프로토타입 - k-중심군집 : k-평균, k-중앙값, k-메도이드 - 퍼지 군집 분포기반 혼합 분포 군집 밀도기반 중심밀도 군집, 격자기반군집 1. 계층적 군집 - 이상치에 민감하며, 사전에 군집수 k를 설정할 필요없음. - 거리 측정에 대한 정의가 필요. 1) 군집 방법 - 최단연결법 : 두 군집 사이의 거리를 두 군집 사이의 관측 값 거리의 최솟값을 측정 - 최장연결법 : 두 군집 사이의 거리를 두 군집 사이의 관측 값 거리의 최댓값을 측정 -.. 2023. 2. 25.
[ADsP] 3.10 분류분석 분류분석 ■ 분류분석 : 입력데이터가 어떤 그룹에 속하는지 예측하는 데 사용되는 기법 - 대부분의 지도학습 분석에 해당 로지스틱 회귀분석 ■ 로지스틱 회귀분석 : 반응변수(종속변수)가 범주형인 경우에 적용되는 회귀분석 모형 - 종속변수가 성공/실패와 같이 이항변수(0, 1)로 되어있을 때 독립변수와 종속변수 간의 관계식을 이용하여 집단을 분류할 때 사용. 일반 선형 회귀분석 로지스틱 회귀분석 종속변수 연속형 변수 이산형(범주형) 변수(0, 1) 모형 탐색 방법 최소제곱법 최대우도법 모형 검정 F-test, T-test 카이제곱 Test - odds(승산) = 성공률 / 실패율 = P / (1 – P) : 성공할 확률이 실패할 확률의 몇 배인지 나타냄. - odds ratio(승산비) = odds_a/od.. 2023. 2. 25.
[ADsP] 3.9 데이터마이닝의 개요 데이터마이닝의 개요 ■ 데이터마이닝 : 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법. ■ 데이터마이닝 5단계 - 목적 설정 -> 데이터 준비 -> 데이터 가공 -> 데이터마이닝 기법 적용 -> 검증 ■ 데이터마이닝 분석 방법 지도학습 비지도학습 의사결정나무 인공신경망 일반화 선형 모형 회귀분석 로지스틱 회귀분석 사례기반 추론 최근접 이웃법(KNN) SVM OLAP 연관성 규칙발견 군집분석(K-Means Clustering) SOM ■ 데이터 분할 : 주어진 데이터에서만 높은 성과를 보이는 모형의 과적합 문제 해결 방법 중 하나 1) 구축(학습)용 : 훈련용 데이터 50% 2) 검정용 : 구축된 모형의 과대추정 또는 과소추정을 미세 조정하는 데 활용 30% 3) 시험용 :.. 2023. 2. 25.
[ADsP] 3.8 주성분분석과 다차원척도법 주성분분석 ■ 주성분분석(PCA) : 여러 변수를 서로 상관성이 높은 변수들의 선형 결합인 ‘주성분’으로 만들어 차원을 축소하는 것 ■ 공분산 행렬 vs. 상관계수 행렬 - 공분산 행렬 : 변수의 측정 단위를 그대로 반영 -> 변수의 측정 단위에 민감. - 상관계수 행렬 : 모든 변수의 측정 단위를 표준화. 변수들의 scale이 많이 다른 경우 사용. - 주성분분석은 거리를 사용하기 때문에 척도에 영향을 받음(정규화 전후의 결과가 다름) - 주성분분석 결과에서 누적기여율이 85%이상이면 주성분의 수로 결정할 수 있음. ■ R 함수 - 상관계수 행렬 : prcomp(data, scale=TRUE), princomp(data, cor=TRUE) 다차원척도법 ■ 다차원척도법(MDS) : 객체간 근접성을 시각화.. 2023. 2. 24.
[ADsP] 3.7 시계열분석 시계열분석 ■ 시계열 자료 : 시간의 흐름에 따라 관측된 데이터 ■ 정상성 - 시계열 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없음. - 평균, 분산은 시점에 대해 일정. - 공분산은 시점에 의존하지 않고, 시차에만 의존. ■ 정상시계열로 전환하는 방법 - 평균이 일정하지 않은 경우 : 원시계열에 차분(현 시점에 바로 전 시점의 자료를 뺌) - 계절성을 갖는 비정상시계열 : 계절 차분 사용 - 분산이 일정하지 않은 경우 : 원시계열에 자연로그(변환) 사용. ■ 시계열 모형 - 자기회귀모형(AR) : 현 시점의 자료를 p 시점 전의 과거 자료로 설명. - 이동평균모형(MA) : 최근 데이터의 평균을 예측치로 사용. 각 과거치는 동일 가중치가 주어짐. 항상 정상성을 만족함. - 자기회귀 누적이동평.. 2023. 2. 24.
728x90
반응형