본문 바로가기
Certificate/ADsP

[ADsP] 3.6 회귀분석

by 리미와감자 2023. 2. 24.
728x90
반응형

회귀분석

회귀분석 : 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법

 

회귀 모형

- 선형회귀모형 : XY1차식으로 나타나는 모형

- 단순선형회귀모형 : 독립변수 1

최소제곱법(최소자승법) : 측정값과 함수값 차이를 제곱한 값의 합이 최소가 되도록하는 y = f(x)를 구하는 것. , (측정값 함수값)^2의 합이 최소가 되는 직선의 그래프를 찾는 것.

- 다중선형회귀모형 : 독립변수 2개 이상

 

선형회귀분석의 가정

- 선형성 : 입력변수와 출력변수의 관계가 선형이다.

- 독립성 : 입력변수와 오차는 관련이 없다.

- 정상성(정규성) : 오차의 분포가 정규분포를 이룬다. -> Q-Q plot, Shapiro-Wilks test 등으로 확인.

- 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다.

- 비상관성 : 오차들끼리 상관이 없다.

 

회귀 모형 해석

- 표본 회귀선의 유의성 검정

귀무가설 : 회귀 계수= 0, 대립가설 = 0이 아님.

- t 통계량 p-값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의미.

- 결정계수(R^2)0~1의 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음.

- F 통계량통계적 유의성을 확인.

- 회귀진단(선형성 ~ 정상성)

 

- F 통계량 = 회귀제곱평균/잔차제곱평균

- t 통계량 = 회귀계수/표준오차

- 결정계수(R^2) = 회귀제곱합/총제곱합

 

다중공선성(Multicollinearity) : 다중회귀분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수 추정이 곤란함.

- VIF 값이 10이 넘으면 다중공선성이 존재한다고 봄.

- 높은 상관관계가 있는 설명변수를 모형에서 제거하여 해결.

 

단계적 변수선택

- 모든 가능한 조합 : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 AIC, BIC 기준으로 가장 적합한 회귀 모형 선택. AIC, BIC는 작을수록 좋음.

- 전진선택법 : 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 형에 추가

- 후진제거법 : 독립변수 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거.

- 단계선택법 : 전진선택법에 의해 변수를 추가하지만, 기존 변수의 중요도가 약화되면 해당 변수를 다시 제거하는 등 단계별로 추가 또는 제거 여부를 검토하는 방식

 

R 함수

- lm(종속변수~독립변수1+독립변수2+..., data) : 회귀모형 생성

- step(lm(), direction) :

direction = forward(전진선택법), backward(후진제거법), both(단계선택법)

 
728x90
반응형

'Certificate > ADsP' 카테고리의 다른 글

[ADsP] 3.8 주성분분석과 다차원척도법  (0) 2023.02.24
[ADsP] 3.7 시계열분석  (0) 2023.02.24
[ADsP] 3.5 상관분석  (0) 2023.02.23
[ADsP] 3.4 통계분석의 이해  (0) 2023.02.23
[ADsP] 3.3 데이터마트(R 심화)  (0) 2023.02.20

댓글