본문 바로가기
자격증/ADsP

[ADsP] 3.4 통계분석의 이해

by 리미와감자 2023. 2. 23.

통계 기초 용어

모집단과 표본

ref : https://ssung-22.tistory.com/42

 

- 모집단, 모수 <-> 표본, 통계량

 

통계자료 획득

 

총 조사(=전수조사) vs 표본조사

- 전수조사 : 대상 집단을 모두 조사 -> 시간과 비용이 많이 소요.

- 표본조사 : 모집단에서 일부만 추출하여 모집단을 분석(모수 추정).

 

표본 추출 방법

- 단순랜덤추출 : 말 그대로 무작위 추출법. 모집단에서 각 개체가 표본으로 선택될 확률이 동일.

- 계통추출 : 각 개체에 일련번호를 부여한 후, 일정한 간격으로 표본 추출.

- 집락추출(군집추출) : 군집을 구분하고 군집별로 단순랜덤 추출.

- 층화추출 : 각 계층을 고루 대표하는 표본을 단순랜덤 추출. ex) 성별, 나이대, 지역 등

 

척도 구분

- 명목척도 : 어느 집단에 속하는지 특성 분류 ex) 성별, 혈액형, 출생지 등

- 순서(서열)척도 : 서열 관계를 관측하는 척도 ex) //동메달, 선호도, 만족도 등

- 구간(등간)척도 : 속성의 양을 측정. 구간이나 구간 사이의 간격이 의미있음. 절대적 0점이 없음. ex) 온도계 수치, 물가지수 등

- 비율척도 : 절대적 0점이 있음. 사칙연산이 가능. ex) 몸무게, 나이, 시간, 거리 등

 

- 질적척도 : 명목척도, 순서척도

- 양적척도 : 구간척도, 비율척도

 

통계분석

1) 기술 통계 : 표본이 가지고 있는 정보를 파악

2) 추측 통계 : 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론

 

 

확률 및 확률분포

 

통계량

- 산포도 : 자료의 변량들이 흩어져있는 정도. 산포도가 크면 평균으로부터 멀리 흩어져있음.

- 편차 : 어떤 자료의 변량에서 평균을 뺀 값.

- 분산 : 편차의 제곱의 합을 n-1로 나눈 값.

- 표준편차 : 분산의 제곱근.

- 표준오차 : 표본평균과 모평균의 차이. 표준편차/루트(표본의 개수 n)

- 변동 계수(Coefficient of Variation) : 두 그룹의 평균 차이가 클 때 산포 비교. 표준편차/평균.

- 기댓값 : 확률변수 X의 가중평균

 

조건부 확률 : 사건 B가 발생했다는 조건 아래서 A가 발생할 확률

P(A|B) = P(AB) / P(B)

 

사건의 종류

- 독립사건 : A의 발생이 B가 발생할 확률에 영향을 주지 않는 사건

P(B|A) = P(B), P(A|B) = P(A), P(AB) = P(A)·P(B)

- 종속사건 : A의 발생이 B가 발생할 확률에 영향을 주는 사건

P(AB) = P(A|B)·P(B)

- 배반사건 : 교집합이 공집합인 사건

P(AB) = 0

 

이산형 확률분포 : 확률변수가 몇 개로 한정된 값을 가지는 분포(확률질량함수)

- 베르누이분포 : 결과가 2개만 나오는 경우. ex) 시험 합격/불합격

- 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률분포

- 다항분포 : 이항분포를 확장한 것으로 세 가지 이상의 결과를 가지는 반복 시행

- 기하분포 : 베르누이 시행에서 처음 성공까지 시도한 횟수의 X 분포

- 포아송분포 : 단위 시간이나 단위 공간에서 어떤 사건이 몇 번 발생할 것인지 표현하는 분포

 

연속형 확률분포 : 확률변수가 가능한 값이 무한개인 분포(확률밀도함수)

- 균일분포 : 모든 확룰변수 X가 균일한 확률을 가지는 분포

- 정규분포 : 가우스 분포. N(0, 1)를 표준정규분포라고함.

- 지수분포 : 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포

- t-분포 : 두 집단의 평균이 동일한지 알고자 할 때 사용. 표본이 적을 때(30개 미만) 사용. 가설검정 시 사용.

- 카이제곱 분포 : 두 집단 간의 동질성 검정에 활용. 모분산에 대한 가설검정에 사용.

- F-분포 : 두 집단 간의 분산의 동일성 검정에 활용. -> 분산의 크기가 같은지 다른지 확인.

* 카이제곱 분포는 한 집단의 분산, F-분포는 두 집단의 분산을 다룸.

 

왜도 : 분포의 비대칭정도를 나타내는 측도

 

 

 

추정과 가설검정

추정 : 표본으로부터 모수를 추측하는 것

- 점추정 : 모수가 특정한 값일 것이라고 추정하는 것

- 구간추정 : 모수가 특정한 구간에 있을 것이라고 선언하는 것. 추정량의 분포에 대한 전제와, 구해진 구간안에 모수가 있을 가능성의 크기(신뢰구간)가 주어져야 한다.

 

- 신뢰구간 : 모수가 포함되리라고 기대되는 범위

모분산(또는 모표준편차)을 알 때 : σ(모표준편차) 사용

 

모분산을 모를 때 : s(표본표준편차) 사용

 

가설검정 : 모수에 대한 가설을 세우고 그 가설이 옳고 그름을 확률적으로 판정하는 방법론

- 귀무가설 : 비교하는 값과 차이가 없다를 기본개념으로 하는 가설. 연구자가 부정하고자 하는 가설. 진실할 확률이 극히 적어 기각이 예상되는 가설.

- 대립가설 : 뚜렷한 증거가 있을 때 주장하는 가설. 연구자가 입증하기를 기대하는 주장. 귀무가설이 기각될 때 받아들여지는 가설.

- 기각역 : 귀무가설이 옳다는 전제 하에 구한 검정통계량의 분포에서 유의수준의 크기에 해당하는 부분.

- 유의수준(α) : 귀무가설이 옳은데도 기각하는 확률의 크기. 1종 오류의 최대 허용 힌계

- 유의확률(p-value) : 1종 오류를 범할 확률. 우리가 내린 판정이 잘못되었을 확률.

p-value < α인 경우 귀무가설 기각

 

- 1종 오류 : 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류

- 2종 오류 : 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류

* 두 오류는 상충관계에 있다.

 

모수검정 vs 비모수검정

- 모수검정 : 모집단에 특정 분포를 가정하고 모수에 대해 추론하는 방법. 표본평균, 표본분산 등 이용.

 

- 비모수검정 : 모집단에 특정 분포를 가정하지 않음. 분포 형태에 관한 검정 실시. 관측값의 순위나 부호를 이용.

ex) 부호검정, 윌콕슨의 순위합검정, 윌콕슨의 부호순위합검정, -위트니의 U검정, 런검정, 스피어만의 순위상관계수

'자격증 > ADsP' 카테고리의 다른 글

[ADsP] 3.6 회귀분석  (1) 2023.02.24
[ADsP] 3.5 상관분석  (0) 2023.02.23
[ADsP] 3.3 데이터마트(R 심화)  (0) 2023.02.20
[ADsP] 3.2 R 프로그래밍  (1) 2023.02.16
[ADsP] 3.1 데이터 분석 기법의 이해  (2) 2023.02.13

댓글