[통계기초 정리] 개인적인 통계 방법론 복습 (4. Chisquare 검정)

기초 지식이지만 모든 고급분석의 근반이 되기에, 기초를 탄탄히 하고자 한번의 수업수강과 한번의 청강, 한번의 도강(…)까지 했다. 그치만 매번 공부하고 공부해도 까먹는 통계 기초. 늘 책찾고 헤매는 것이 힘들어서 한번에 정리해보았다.

Chisquare test

chisq test는 적합도검정과 독립성 검정으로 설명.

적합도 검정

multinomial dist를 이용해서, 우리에게 분석 전에 주어진 확률들이 타당한지를 보는 검정. categorical data에 대해서 이뤄지고, 아직까지도 요긴하게 쓰이는 기특한 통계검정 방법 중 하나.

< multinomial dist>

$X\sim bin(n,p)$ 로 쓰는 binomial dist에 대해 상기. n번 던져서 경우의 수가 2가지인(T,F) 관심 사건이 몇번 일어나는지 보는 분포.
$f(x)=_nC_x p^x(1-p)^{n-x}$ multinomial은 그거의 확장일뿐. 즉, 관찰하는 사건의 가능한 가짓수가 2가지가 아닌 k가지. 1~6의 6가지 결과가 나올 수 있는 주사위가 가장 대표적.

pdf 역시 binom과 비슷하다. 앞의 분수형태는, binom에서와 비슷하게 각 시행이 독립이기 때문에, 각 category가 $x_1,..,x_k$ 개가 이리저리 순서를 바꿔 발현된 사상들이 모두 확률이 같기에 더해준거. 즉, $x_1,..,x_k$ 개를 줄세운 가짓수. $\Pr[X_1=x_1,..,X_k=x_k]=\frac{n!}{x_1!*..*x_k!} p_1^{x_1}..p_k^{x_k}$ 그러난 가짓수가 T,F 2가지인 경우 r.v가 1개인것처럼, 마지막 1개는 r.v.가 아니다 ( $x_k=n-\sum_i^{k-1}x_i, p_k=1-\sum_i^{k-1}p_i$ )

이때의 각각의 $X_1,..,X_k$ 의 기댓값은 얼말까? 조금 새각해보면 간단하다. multinomial데이터라도, 사실 i번째 사건이 일어났냐(T), 안일어났냐(F)로 binomial로 치환할 수 있다. 물론 그 경우에 각 사건에 대응하는 확률은 (당연히) 바뀌지 않는다.

즉,if $X_1,..,X_k\sim M[n,p_1,..,p_k]$ then $X_i\sim bin(n,p_i)$ ,

$\therefore E(X_i)=np_i$

< 검정통계량>

앞서나온 multimonial의 특수한 성질로 인해 다음이 성립힌다. (proof 생략. 무지 어렵다고한다.)

1) $X_1,..,X_k\sim M[n,p_1,..,p_k]$ 이고, 2) n이 충분히 크다면( $np_u\ge5, \forall i$ ), $\sum_i^k\frac{(X_i-E(X_i))^2}{E(X_i)}\sim^A \chi^2(k-1)$ (-1은 multinomial에서 처럼 자유로운 class의 갯수라고 보면 된다.)

얼핏보면 표준정규 Z를 제곱해서 더한것과 비슷해볼 수 있지만, 완전히 다른놈이다. 우선 분모부터 S가 아님. 마치 편차를 평균으로써 scaling해준듯한 느낌으로 받아들이자.

이게끝.

각 category로 나뉜 실제 데이터가 있다고 해보자.

goodness_of_fit2

n이 충분히 큰경우( $np_u\ge5, \forall i$ )에, 이거로 우리의 확률들이 적절한지 보면 된다

$H0: P_1=p_{10},..,P_k=p_{10}$ , ( $p_{10},..,p_{k0}$ 은 귀무가설하의 확률들)

then under H0,

$X_1,..,X_k\sim M[n,p_{10},..,p_{k0}]$

test_statistic $=:X:=\sum_i^k\frac{(X_i-E(X_i))^2}{E(X_i)}\sim^A \chi^2(k-1)$

chisq분포기에 by nature단측 검정이 되고, 검정통계량 X가 임계값 $\chi^2_{\alpha,k-1}$ 보다 크다면 rej H0.

굳이 category가 명시되지 않았더라도, 예를들면 $N(\mu,\sigma^2)$ 를 검정하고 플때 적당히 구간 잘라서 h0하의 확률과 비교를 해볼 수도 있다.

적합도 검정 (parameter unspecified)

적합도 검정의 또 다른 쓰임새.

< 언제쓰이나?>

예를 들어 H0: $Y\sim Normal$ , 즉, 정규분폰지 아닌지를 보고플때. 이때 물론 parameter $\mu,\sigma^2$ 는 모른다. 모르면 어케한다? 늘그래왔듯, 미지의 모수를 sample로 추정한다.

< 검정통계량 >

애초에 위에서부터 증명없이 받아들여왔기에, 별로 추가될게 없다.

H0: $Y\sim Normal$ 이라면

unspecified parameter를 추정

$\hat\mu=\bar y,\hat \sigma^2=S_y^2$ , 그리고 적절한 구간 나누기. ( $np_u\ge5, \forall i$ 를 만족해야한다.)
(위에서와 마찬가지로) 기대되는 빈도와 실제빈도의 차이를 가지고 검정통계량만듬 $X:=\sum_i^k\frac{(X_i-n\hat {p_i})^2}{n\hat {p_i}}\sim^A \chi^2(k-1-\boldsymbol2)$ 이때 자유도는, sample로 추정한 모수의 갯수만큼 차감해준다. 이경우 N은 para가 2개이기에 -2.

독립성 검정

이것도 기대빈도와 실제빈도를 가지고 만드는거기에, 생긴건 적합도 검정과 매우 비슷하다. 다만, 이번엔 2개의 Categorical Variable이 있는 경우이다.

두개의 continuous r.v.가 서로 상관되어 있는건 어케보냐? 가장 대표적인게 correlation!

그럼 2개의 Categorical Variable이 있을때, 그 2개의 variable이 서로 related되어 있는가?를 보고 싶은 경우. 바로 이 독립성검정!

예를 들면, 소득분위에 따라 연체자가 되는 것(그 확률을 우리가 알고 있던 모르던)과, 성별에 따라 연체자가 되는것이 서로 관계가 있을지 없을지를 보는것이다. 즉, 남자의 경우의 소득분위에 따른 비율과 여자의 경우 소득분위에 따른 비율이 유의하게 다른지 안다른지를 보는것

이를 위해 cotingency table이 필요

independence_test

각각의 경우에 대한 확률을 나타낸 contingency table. 근데 만약 독립이라면? $P_{11}=P_1*q_1$ 이겟지! 이걸로 검정을 한다.

< 검정통계량>

H0 : 2 var are indep <=> $P_{ij}=P_i*q_j$

이를 가지고, H0하에서 $P_{ij}$ 를 만들고, 이를 실제와 비교한다 (H0하가 아니라면, 그냥 $\hat P_{ij}= X_{ij}/n$ 하고 끝날것.)

근데 $P_i,q_j$ 를 모른다면?=> 이것 역시, 추정 (unspecified paramter의 경우라고 보면 됨.)

$\hat P_i=\sum_j^c x_{ij}/n$ . 단순한 sample proportion이다.

$\hat q_j=\sum_i^r x_{ij}/n$ ,
$\hat P_{ij}=\hat P_i*\hat q_j$
$\hat E(X_{ij})=n*\hat P_{ij}$ , ( $X_{ij}$ 는 각 cell에 속한 데이터의 수.) $\frac{\sum_i^r\sum_j^c(X_{ij}-\hat E(X_{ij})^2)}{\hat E(X_{ij}}=\frac{\sum_i^r\sum_j^c(X_{ij}-n\hat P_{i}\hat q_j)^2)}{n\hat P_{i}\hat q_j}\sim^A \chi^2(rc-((r-1)+(c-1)+1))$

왜 자유도가 $(rc-((r-1)+(c-1)+1)$ ? 각각 $P_i,q_j$ 를 예측했기에 r개, c개 인데, 확률의 특성으로 $\sum P_i=1,\sum q_j=1$ 을 알기에 각각 -1. 근데 그럼 한cell을 두번 뺀것이기에 다시 +1해줌.

만약, $P_i, q_j$ 를 우리가 이미 알고 있는 상태에서의 H0을 비교하는것이었다면 자유도는 이전 $k-1$ 처럼 $rc-1$ 이 된다. (우리는 지금 확률이 정당한지를 보는게 아니라 독립성을 확인하는 것이기에, 이미 알고 있는 확률을 넣어주는 경우는 거의 없다.)

basic statistics chisquare test goodness of fit test independence test

Chisquare test

적합도 검정

적합도 검정 (parameter unspecified)

독립성 검정

Comments

Related Posts

[Code implementation] Bayesian Gaussian mixture 22 Oct 2019

[Code implementation] Gaussian mixture 15 Oct 2019

[데이터분석 정리]HDBSCAN 이해하기 (with python) 15 Jul 2019