통계 기초 용어
■ 모집단과 표본
- 모집단, 모수 <-> 표본, 통계량
통계자료 획득
■ 총 조사(=전수조사) vs 표본조사
- 전수조사 : 대상 집단을 모두 조사 -> 시간과 비용이 많이 소요.
- 표본조사 : 모집단에서 일부만 추출하여 모집단을 분석(모수 추정).
■ 표본 추출 방법
- 단순랜덤추출 : 말 그대로 무작위 추출법. 모집단에서 각 개체가 표본으로 선택될 확률이 동일.
- 계통추출 : 각 개체에 일련번호를 부여한 후, 일정한 간격으로 표본 추출.
- 집락추출(군집추출) : 군집을 구분하고 군집별로 단순랜덤 추출.
- 층화추출 : 각 계층을 고루 대표하는 표본을 단순랜덤 추출. ex) 성별, 나이대, 지역 등
■ 척도 구분
- 명목척도 : 어느 집단에 속하는지 특성 분류 ex) 성별, 혈액형, 출생지 등
- 순서(서열)척도 : 서열 관계를 관측하는 척도 ex) 금/은/동메달, 선호도, 만족도 등
- 구간(등간)척도 : 속성의 양을 측정. 구간이나 구간 사이의 간격이 의미있음. 절대적 0점이 없음. ex) 온도계 수치, 물가지수 등
- 비율척도 : 절대적 0점이 있음. 사칙연산이 가능. ex) 몸무게, 나이, 시간, 거리 등
- 질적척도 : 명목척도, 순서척도
- 양적척도 : 구간척도, 비율척도
■ 통계분석
1) 기술 통계 : 표본이 가지고 있는 정보를 파악
2) 추측 통계 : 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론
확률 및 확률분포
■ 통계량
- 산포도 : 자료의 변량들이 흩어져있는 정도. 산포도가 크면 평균으로부터 멀리 흩어져있음.
- 편차 : 어떤 자료의 변량에서 평균을 뺀 값.
- 분산 : 편차의 제곱의 합을 n-1로 나눈 값.
- 표준편차 : 분산의 제곱근.
- 표준오차 : 표본평균과 모평균의 차이. 표준편차/루트(표본의 개수 n)
- 변동 계수(Coefficient of Variation) : 두 그룹의 평균 차이가 클 때 산포 비교. 표준편차/평균.
- 기댓값 : 확률변수 X의 가중평균
■ 조건부 확률 : 사건 B가 발생했다는 조건 아래서 A가 발생할 확률
P(A|B) = P(A∩B) / P(B)
■ 사건의 종류
- 독립사건 : A의 발생이 B가 발생할 확률에 영향을 주지 않는 사건
P(B|A) = P(B), P(A|B) = P(A), P(A∩B) = P(A)·P(B)
- 종속사건 : A의 발생이 B가 발생할 확률에 영향을 주는 사건
P(A∩B) = P(A|B)·P(B)
- 배반사건 : 교집합이 공집합인 사건
P(A∩B) = 0
■ 이산형 확률분포 : 확률변수가 몇 개로 한정된 값을 가지는 분포(확률질량함수)
- 베르누이분포 : 결과가 2개만 나오는 경우. ex) 시험 합격/불합격
- 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률분포
- 다항분포 : 이항분포를 확장한 것으로 세 가지 이상의 결과를 가지는 반복 시행
- 기하분포 : 베르누이 시행에서 처음 성공까지 시도한 횟수의 X 분포
- 포아송분포 : 단위 시간이나 단위 공간에서 어떤 사건이 몇 번 발생할 것인지 표현하는 분포
■ 연속형 확률분포 : 확률변수가 가능한 값이 무한개인 분포(확률밀도함수)
- 균일분포 : 모든 확룰변수 X가 균일한 확률을 가지는 분포
- 정규분포 : 가우스 분포. N(0, 1)를 표준정규분포라고함.
- 지수분포 : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포
- t-분포 : 두 집단의 평균이 동일한지 알고자 할 때 사용. 표본이 적을 때(30개 미만) 사용. 가설검정 시 사용.
- 카이제곱 분포 : 두 집단 간의 동질성 검정에 활용. 모분산에 대한 가설검정에 사용.
- F-분포 : 두 집단 간의 분산의 동일성 검정에 활용. -> 분산의 크기가 같은지 다른지 확인.
* 카이제곱 분포는 한 집단의 분산, F-분포는 두 집단의 분산을 다룸.
■ 왜도 : 분포의 비대칭정도를 나타내는 측도
추정과 가설검정
■ 추정 : 표본으로부터 모수를 추측하는 것
- 점추정 : 모수가 특정한 값일 것이라고 추정하는 것
- 구간추정 : 모수가 특정한 구간에 있을 것이라고 선언하는 것. 추정량의 분포에 대한 전제와, 구해진 구간안에 모수가 있을 가능성의 크기(신뢰구간)가 주어져야 한다.
- 신뢰구간 : 모수가 포함되리라고 기대되는 범위
① 모분산(또는 모표준편차)을 알 때 : σ(모표준편차) 사용
② 모분산을 모를 때 : s(표본표준편차) 사용
■ 가설검정 : 모수에 대한 가설을 세우고 그 가설이 옳고 그름을 확률적으로 판정하는 방법론
- 귀무가설 : 비교하는 값과 차이가 없다를 기본개념으로 하는 가설. 연구자가 부정하고자 하는 가설. 진실할 확률이 극히 적어 기각이 예상되는 가설.
- 대립가설 : 뚜렷한 증거가 있을 때 주장하는 가설. 연구자가 입증하기를 기대하는 주장. 귀무가설이 기각될 때 받아들여지는 가설.
- 기각역 : 귀무가설이 옳다는 전제 하에 구한 검정통계량의 분포에서 유의수준의 크기에 해당하는 부분.
- 유의수준(α) : 귀무가설이 옳은데도 기각하는 확률의 크기. 제1종 오류의 최대 허용 힌계
- 유의확률(p-value) : 제1종 오류를 범할 확률. 우리가 내린 판정이 잘못되었을 확률.
p-value < α인 경우 귀무가설 기각
- 제1종 오류 : 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류
- 제2종 오류 : 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류
* 두 오류는 상충관계에 있다.
■ 모수검정 vs 비모수검정
- 모수검정 : 모집단에 특정 분포를 가정하고 모수에 대해 추론하는 방법. 표본평균, 표본분산 등 이용.
- 비모수검정 : 모집단에 특정 분포를 가정하지 않음. 분포 형태에 관한 검정 실시. 관측값의 순위나 부호를 이용.
ex) 부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정, 만-위트니의 U검정, 런검정, 스피어만의 순위상관계수
'Certificate > ADsP' 카테고리의 다른 글
[ADsP] 3.6 회귀분석 (1) | 2023.02.24 |
---|---|
[ADsP] 3.5 상관분석 (0) | 2023.02.23 |
[ADsP] 3.3 데이터마트(R 심화) (0) | 2023.02.20 |
[ADsP] 3.2 R 프로그래밍 (1) | 2023.02.16 |
[ADsP] 3.1 데이터 분석 기법의 이해 (2) | 2023.02.13 |
댓글