본문 바로가기
728x90
반응형

Certificate26

[ADsP] 3.6 회귀분석 회귀분석 ■ 회귀분석 : 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법 ■ 회귀 모형 - 선형회귀모형 : X와 Y가 1차식으로 나타나는 모형 - 단순선형회귀모형 : 독립변수 1개 최소제곱법(최소자승법) : 측정값과 함수값 차이를 제곱한 값의 합이 최소가 되도록하는 y = f(x)를 구하는 것. 즉, (측정값 – 함수값)^2의 합이 최소가 되는 직선의 그래프를 찾는 것. - 다중선형회귀모형 : 독립변수 2개 이상 ■ 선형회귀분석의 가정 - 선형성 : 입력변수와 출력변수의 관계가 선형이다. - 독립성 : 입력변수와 오차는 관련이 없다. - 정상성(정규성) : 오차의 분포가 정규분포를 이룬다. -> Q-Q plot, Shapiro-Wilks test 등으로 확인. - 등분산성 :.. 2023. 2. 24.
[ADsP] 3.5 상관분석 상관분석 ■ 상관분석 : 두 변수 간의 관계의 정도를 알아보는 분석 방법 - 상관관계가 높다고 인과관계가 있다고 할 수 없음 - 상관계수 범위(절대값) 0.7 ~ 1 : 강한 상관 관계 0.3 ~ 0.7 : 약한 상관 관계 0 ~ 0.3 : 거의 상관없음 0 : 전혀 상관없음. ■ 상관분석의 유형 피어슨 상관계수 스피어만 상관계수 등간척도, 비율척도 변수 서열척도 변수 연속형 변수, 정규성 가정 순서형 변수, 이산형 변수, 비모수적 방법 선형관계 측정 선형, 비선형 관계 측정 *스피어만 상관계수는 ‘ㅅ’(시옷)이 많다. ■ 공분산 - 2개의 확률변수의 선형 관계를 나타냄. - 값에 따라 양의 방향성과 음의 방향성을 가질 수 있으며, 공분산이 0이면 서로 독립. - 공분산이 0이면 4면에 균일하게 분포되어.. 2023. 2. 23.
[ADsP] 3.4 통계분석의 이해 통계 기초 용어 ■ 모집단과 표본 - 모집단, 모수 표본, 통계량 통계자료 획득 ■ 총 조사(=전수조사) vs 표본조사 - 전수조사 : 대상 집단을 모두 조사 -> 시간과 비용이 많이 소요. - 표본조사 : 모집단에서 일부만 추출하여 모집단을 분석(모수 추정). ■ 표본 추출 방법 - 단순랜덤추출 : 말 그대로 무작위 추출법. 모집단에서 각 개체가 표본으로 선택될 확률이 동일. - 계통추출 : 각 개체에 일련번호를 부여한 후, 일정한 간격으로 표본 추출. - 집락추출(군집추출) : 군집을 구분하고 군집별로 단순랜덤 추출. - 층화추출 : 각 계층을 고루 대표하는 표본을 단순랜덤 추출. ex) 성별, 나이대, 지역 등 ■ 척도 구분 - 명목척도 : 어느 집단에 속하는지 특성 분류 ex) 성별, 혈액형, 출.. 2023. 2. 23.
[ADsP] 3.3 데이터마트(R 심화) 데이터 마트(R 심화) ■ 데이터 마트 - 데이터 웨어하우스와 사용자 사이의 중간층에 위치 - CRM 관련 업무 중에서 핵심 ■ 변수 : 데이터 웨어하우스로부터 받아오는 데이터를 분석에 적절하게 처리 1) 요약변수 - 수집된 정보를 분석에 맞게 종합한 변수 - 많은 모델이 공통으로 사용될 수 있어 재활용성이 높음 2) 파생변수 - 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 - 주관적일 수 있으므로 논리적 타당성을 갖추어 개발 - 세분화, 고객행동 예측, 캠페인 반응 예측에 매우 잘 활용됨 ■ 패키지 - 패키지 설치 : install.packages(‘패키지이름’) - 패키지 로드 : library(‘패키지이름’)/library(패키지이름) 1) reshape 패키지.. 2023. 2. 20.
[ADsP] 3.2 R 프로그래밍 R ■ R 소개 - 다양한 OS(운영체제)에서 사용할 수 있음 - 무료 오픈소스 소프트웨어 - 복잡한 통계분석 기법 가능 - S언어 기반의 프로그래밍 - 다양한 형태의 데이터 구조 지원 - 많은 패키지가 수시로 업데이트 - 커뮤니티 활발 ■ R 데이터 유형 1) 기본형 - Numeric : 정수, 실수, 복소수, 수학적 연산 및 통계 - Character : 문자, 단어로 구성. ex) "abc" - Logical : TRUE, FALSE 2) 구조형 - scalar, vector, matrix, array, factor 3) 복합형 : 서로 다른 타입의 데이터를 묶을 수 있음 - list, data.frame, data.table 4) Special Values - NULL : 변수 값이 초기화되지 않.. 2023. 2. 16.
[ADsP] 3.1 데이터 분석 기법의 이해 데이터 분석 기법의 이해 ■ 데이터 처리 - 데이터 분석은 통계지식과 복잡한 가정이 상대적으로 적은 분야 - 대기업은 DW(데이터 웨어하우스)나 DM(데이터 마트)을 통해 데이터를 가져와 사용 - 신규 시스템이나 DW에 포함되지 못한 경우, 기존 운영시스템(Legacy)이나 스테이징 영역(Staging Area)과 ODS(Operational Data Store)에서 데이터를 가져와 DW의 내용과 결합하여 활용 ■ 분석 기법 5가지 1. 시각화 - 가장 낮은 수준의 분석이지만, 복잡한 분석보다 효율적 - 빅데이터 분석, 탐색적 분석할 때 시각화는 필수 - SNA 분석에 활용 2. 공간분석(GIS) - 공간적 차원과 관련된 속성을 시각화하는 분석 - 지도 위 속성의 크기, 모양, 선 굵기 등 구분 3. 탐.. 2023. 2. 13.
728x90
반응형