회귀분석
■ 회귀분석 : 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정하는 통계기법
■ 회귀 모형
- 선형회귀모형 : X와 Y가 1차식으로 나타나는 모형
- 단순선형회귀모형 : 독립변수 1개
최소제곱법(최소자승법) : 측정값과 함수값 차이를 제곱한 값의 합이 최소가 되도록하는 y = f(x)를 구하는 것. 즉, (측정값 – 함수값)^2의 합이 최소가 되는 직선의 그래프를 찾는 것.
- 다중선형회귀모형 : 독립변수 2개 이상
■ 선형회귀분석의 가정
- 선형성 : 입력변수와 출력변수의 관계가 선형이다.
- 독립성 : 입력변수와 오차는 관련이 없다.
- 정상성(정규성) : 오차의 분포가 정규분포를 이룬다. -> Q-Q plot, Shapiro-Wilks test 등으로 확인.
- 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다.
- 비상관성 : 오차들끼리 상관이 없다.
■ 회귀 모형 해석
- 표본 회귀선의 유의성 검정
귀무가설 : 회귀 계수= 0, 대립가설 = 0이 아님.
- t 통계량 p-값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의미.
- 결정계수(R^2)는 0~1의 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높음.
- F 통계량은 통계적 유의성을 확인.
- 회귀진단(선형성 ~ 정상성)
- F 통계량 = 회귀제곱평균/잔차제곱평균
- t 통계량 = 회귀계수/표준오차
- 결정계수(R^2) = 회귀제곱합/총제곱합
■ 다중공선성(Multicollinearity) : 다중회귀분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수 추정이 곤란함.
- VIF 값이 10이 넘으면 다중공선성이 존재한다고 봄.
- 높은 상관관계가 있는 설명변수를 모형에서 제거하여 해결.
■ 단계적 변수선택
- 모든 가능한 조합 : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 AIC, BIC 기준으로 가장 적합한 회귀 모형 선택. AIC, BIC는 작을수록 좋음.
- 전진선택법 : 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 형에 추가
- 후진제거법 : 독립변수 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거.
- 단계선택법 : 전진선택법에 의해 변수를 추가하지만, 기존 변수의 중요도가 약화되면 해당 변수를 다시 제거하는 등 단계별로 추가 또는 제거 여부를 검토하는 방식
■ R 함수
- lm(종속변수~독립변수1+독립변수2+..., data) : 회귀모형 생성
- step(lm(), direction) :
direction = forward(전진선택법), backward(후진제거법), both(단계선택법)
'Certificate > ADsP' 카테고리의 다른 글
[ADsP] 3.8 주성분분석과 다차원척도법 (0) | 2023.02.24 |
---|---|
[ADsP] 3.7 시계열분석 (0) | 2023.02.24 |
[ADsP] 3.5 상관분석 (0) | 2023.02.23 |
[ADsP] 3.4 통계분석의 이해 (0) | 2023.02.23 |
[ADsP] 3.3 데이터마트(R 심화) (0) | 2023.02.20 |
댓글