[통계기초 정리] 개인적인 통계 방법론 복습 (2. 추정과 검정)

기초 지식이지만 모든 고급분석의 근반이 되기에, 기초를 탄탄히 하고자 한번의 수업수강과 한번의 청강, 한번의 도강(…)까지 했다. 그치만 매번 공부하고 공부해도 까먹는 통계 기초. 늘 책찾고 헤매는 것이 힘들어서 한번에 정리해보았다.

about 추정

통계학의 메인 줄기에는 추정과 가설검정이 있었다.

< 좋은 추정량의 성질>

확률표본( $X_1,..,X_n$ )으로 미지의 모수 $\theta$ 를 추정하는경우. 어떤 함수 T를 거쳐 나온 통계량 $T(X_1,..,X_n)=T_n$ 이라할때, 좋은 추정량의 성질 3가지는 다음과 같다.

불편추정량(unbiasedness) :

$E(T_n)=\theta$ . 이를 만족하는 추청량 $T_n$ 은 $\theta$ 에 대한 불편추정량
유효성(efficiency) :

$\theta$ 에 대한 두 불편추정량 $T_{n_1},T_{n_2}$ 가 있을때, $Var(T_{n_1})<Var(T_{n_2})$ 이면, $T_{n_1}$ 을 더 유효한 추정량이라 지칭한다.
일치성(consistency):

$\lim_{n\rightarrow\infty}\Pr(|T_n-\theta|<\epsilon)=1$ 이를 만족하는 애를 일치추정량. 불편성과 비슷해보이지만, 무한대의 개념이고, 일치성에는 Expectation은 쓰이지도 않았음.

구간 추정은 간단해서 생략.

if $X_i\sim??[\mu,\sigma^2],\forall i$, $\sigma^2$ is unknown, $n\ge30$ 인 경우의 평균에 대한 구간추정.

이 경우 $\sigma$를 모르지만 원래의 분포가 N이 아니기에 sample_var로 치환하고 t-distn을 사용할 수 없다. 그러나 By Slutsky thrm, $\frac{\bar X-\mu}{S/n}\sim^AN(0,1)$로 해도 무방!

Slutsky thrm : 극한분포에서 매우자주 사용되는 툴중 하나.

$X\rightarrow^p a$
$Y\rightarrow^d Z$

=> $XY \rightarrow^d aZ$

위의 경우 $S\rightarrow^p\sigma$라서 성립하게 된다.

C.I의 해석 :

C.I. $\Pr[\hat{\theta_L}\le\theta\le\hat{\theta_U}]=(1-\alpha)$ 에서, $\hat{\theta_U},\hat{\theta_L}$ 은 sampling마다 바뀔 수 있다. 동일한 방법에서 이루어진 각 시행에서, 그들이 실제 $\theta$ 를 포함할 확률이 $(1-\alpha)$ %인것!

< 가설 검정>

귀무가설 : 가급적 지키려고 하는 가설. 또는 강력한 증거가 없는한 따르려는 가설.

귀무가설에 좀더 무게가 쏠려 있으므로, 가급적 지켜야 하는 귀무가설을 잘못 기각해버린 1종오류가 더 심각한것.

드디어 평균검정

큰 갈래는 데이터가 정규분포를 따를 경우는 정규분포의 성질을 이용하여 t-분포를 이용한 평균검정, 데이터가 정규분포를 따르지 않지만, 데이터의 수가 충분히 큰 경우 CLT를 이용한 평균에 대한 검정.

Case 1.

1) $X\sim?(\mu_1,\sigma_1^2), Y\sim?(\mu_2,\sigma_2^2)$ , $X,Y$ are indep, 2) $n_1,n_2$ 이 충분히 큰수.

즉, X,Y의 분포는 모르지만 데이터가 충분히 크다. (roughly over 30). 이 경우 대표본이론, 혹은 극한분포이론을 적용할 수 있기에, 손쉬워진다.

By CLT, $\bar X-\bar Y\sim^A N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$ ,

Under H0, $\frac{\bar X-\bar Y}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim^A N(0,1)$ . 통계량 분포를 알면 지지고 볶고가 가능.

그러나 $\sigma_1,\sigma_2$ 를 모르기에, 실제로 저 통계량은 구할 수 없음. 하지만 충분히 큰수이기에, slutsky thrm으로 역시나 근사가 가능.

$\frac{\bar X-\bar Y}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}\sim^A N(0,1)$ , $\because S_1\rightarrow^p\sigma_1$ , under H0

Case 2.

1) $X\sim N(\mu_1,\sigma_1^2), Y\sim N(\mu_2,\sigma_2^2)$ , $X,Y$ are indep. 2) $n_1,n_2$ 이 별로 크지 못함.

이 경우 데이터가 정규분포를 따르기에, $n_1,n_2$ 이 작더라도 가능.

$\bar X-\bar Y\sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$ , exactly. 근데 sigma를 모름. 대표본으로 손쉽게 갈수도 있지만, 정규분포의 경우 소표본이라도 t분포가 있음. 근데 또, 이때는 이분산일 경우 분포가 도출이 안됌..

이분산의 경우 welch test가 있다. 그러나 별로 인정 못받는 검정법.

‘값은 알 수 없지만, 또 평균도 모르지만, 두 r,v의 분산이 같다’라는 비현실적인 등분산 가정 필요.

if 등분산case, pooled variance에 대해서.

$\hat\sigma^2=S_p:=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{(n_1-1+n_2-1)}$ , 즉, 표본분산을 데이터수에 따라 가중평균한것이 unbiased중에서도 most efficient하다는 것이 증명. (이런형태의 pooled variance가 MVUE이다.)

$\therefore \frac{\bar X-\bar Y}{\sqrt{S_p^2(\frac{1}{n_1}+\frac{1}{n_2})}}\sim t(n_1+n_2-2)$ , under H0.

by additivity prop of Chisq,
$\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{\sigma^2}\sim\chi^2(n_1+n_2-2)$
$\therefore \frac{(n_1+n_2-2)S_p^2}{\sigma^2}\sim\chi^2(n_1+n_2-2)$ , by def of $S_p$ . 여기서 t-dist도출.

Case3

그럼 데이터 갯수도 작고, 데이터의 모집단 분포가 정규가정에도 무리가 있는 경우 어떡하냐?! 즉,

1) $X\sim ?(\mu_1,\sigma_1^2), Y\sim ?(\mu_2,\sigma_2^2)$ , $X,Y$ are indep. 2) $n_1,n_2$ 이 별로 크지 못함.

그나마 Bootstrap.

Under Ho, 평균에 차이가 없으니까, X_data, Y_data를 shuffle해도 된다.

H0하에서는 그래도 말이 된다는 얘기. 귀무가설하의 통계량의 분포를 구하려는 거니까 H0하라는 틀안에서만 생각해도 된다.

다른 분포이더라도, 평균이 같다면 E(X+Y)=E(X)+E(Y)니까, 평균은 여전히 같을것. 고로 sample mean으로 검정할때 둘이 바꿔도 H0하에서는 말된다.

각각 데이터가 X 10개, Y 10개 있었다면 $_{20}C_{10}$ 번의 shuffle이 가능하고, 각각의 시행에 대해 $\bar X_{10}-\bar Y_{10}$ 의 값들을 측정할 수 있음. 이를 ‘귀무가설하의 표본분포’로 생각하여, 우리가 실제 얻은 $\bar x-\bar y$ 가 분포상의 어느 percentile에 위치하는지를 통해 검정을 할 수 있음!

bootstrap은 신박하고 손쉽지만, 실험설계를 어떻게 해야 내 의도대로 설계된건지 잘 따져봐야한다. 그렇기에 더 생각하는 능력이 필요.

모비율 검정

생략. 버놀리에서 $\bar X,\bar Y$ 를 정규근사+slutsky해서 푸는것. 크게 다르지는 않다. 충분히 크지 않은 경우엔 역시나 bootstrap뿐..(만약 $n_1>>n_2$ 인 경우엔 어떡할까? size bias를 줄여주기 위해 50:50으로 뽑을까??)

Paired data 의 평균검정!

paired검정의 가장 대표적인 경우 : paired t-test.

paired는 굳이 그 본연의 특성이 짝지어져 있지 않더라도 필요한 경우도 있음.

Ex) blocking factor가 있는 경우. X : Finance팀의 income과 Y : Marketing팀의 income을 비교하는데, 만약 GPA가 둘의 income에 모두 영향을 준것같다면? 여전히 $\bar X-\bar Y$ 로 비교할 수 있지만, 각각의 variance가(제3의 요인으로) 커져 있는 상태기에 Type 2 error의 확률이 커진다. 이때, 순수한 finance<-> marketing의 영향을 보기 위해 GPA가 비슷한 애들끼리 pair를 맺어줄수도. (뒤에 anova에서 확장되어 다룬다)

근데 사실, 가법적으로 영향을 안미칠 수도 있는데, 상당히 강한 가정이 들어간것. ex) E(Finance_income_GPA4.0)=M_f + alpha, E(Marketing_income_GPA4.0)=M_m + alpha. 라서 block design하면 효과를 뺄 수 있다는 가정. Finance에서의 4.0이 marketing에서의 학점4.0과 의미가 다를수도 있는데, 그냥 빼면 된다는 생각

암튼, pair의 평균에 차이가 없다를 검정하고픔.

paired_data $(X_1,Y_1),..,(X_n,Y_n)$ 에서 $D_i=(X_i-Y_i)$ .

if X,Y ~ N, then (t-tets는 다변량정규가정을 필요로한다는거 상기!)

$D_i\sim N(\mu_d,\sigma^2_d)$ , $H0:\mu_d=0$ . paired의 diff를 각각 하나의 데이터로 생각한것.

$D_i=(X_i-Y_i)$ 이므로, $D_i\sim N(\mu_d,\sigma^2_d)$ 는 굳이 풀어쓰면 $D_i\sim N(\mu_x-\mu_y,\sigma_x^2+\sigma_y^2-2\sigma_x\sigma_y)$ 이다.

또한, D의 분산을 모르므로, $D_i$ 들의 sample variance를 이용하여 t-dist를 사용 $\frac{\bar D-0}{\sqrt{S_d^2/n_d}}\sim t(n_d-1), underH_0$

분산에 대한 검정 using F-dist

Case :

1) $X_1,..,X_{n_1}\sim^{iid}N(\mu_x,\sigma_x^2)$ ,

2) $Y_1,..,Y_{n_1}\sim^{iid}N(\mu_y,\sigma_y^2)$ ,

3) $X,Y$ are indep. 를 만족해야 사용할 수 있다.

Variance에 대한 검정은 $\sigma_x^2-\sigma_y^2$ 로 볼 수 없다. (이 방식으로 표본분포 도출된게 없다.) 고로, $\frac{\sigma_x^2}{\sigma_y^2}$ 의 형태로 본다.

그럼 $\frac{\sigma_x^2}{\sigma_y^2}$ 의 분포 형태는? 완전 간단. 거의 맞춤형으로 F분포가 잇음

$\frac{(n_1-1)S_1^2}{\sigma_x^2}\sim\chi^2(n_1-1)$
$\frac{(n_2-1)S_2^2}{\sigma_y^2}\sim\chi^2(n_2-1)$
$X,Y$ are indep

=> $\frac{\frac{(n_1-1)S_1^2}{\sigma_x^2}/(n_1-1)}{\frac{(n_2-1)S_2^2}{\sigma_y^2}/(n_2-1)}=\frac{\sigma_y^2}{\sigma_x^2}\frac{S_1^2}{S_2^2}\sim F(n_1-1,n_2-1)$

또한, F분포는 $F_{1-\frac{\alpha}{2},n_1,n_2}=1/F_{\frac{2}{\alpha},n_1,n_2}$ 라는 편리한 성질이 있어서, $\Pr(lb<\frac{\sigma_y^2}{\sigma_x^2}\frac{S_1^2}{S_2^2}<ub)=1-\alpha$ 가지고 이리저리 볶아서 CI만들 수 잇다.

basic statistics estimator statistical test t - test paired t - test

about 추정

드디어 평균검정

Paired data 의 평균검정!

분산에 대한 검정 using F-dist

Comments

Related Posts

[Code implementation] Bayesian Gaussian mixture 22 Oct 2019

[Code implementation] Gaussian mixture 15 Oct 2019

[데이터분석 정리]HDBSCAN 이해하기 (with python) 15 Jul 2019