[통계기초 정리] 개인적인 통계 방법론 복습 (2. 추정과 검정)

기초 지식이지만 모든 고급분석의 근반이 되기에, 기초를 탄탄히 하고자 한번의 수업수강과 한번의 청강, 한번의 도강(…)까지 했다. 그치만 매번 공부하고 공부해도 까먹는 통계 기초. 늘 책찾고 헤매는 것이 힘들어서 한번에 정리해보았다.

about 추정

통계학의 메인 줄기에는 추정가설검정이 있었다.

< 좋은 추정량의 성질>

확률표본()으로 미지의 모수 를 추정하는경우. 어떤 함수 T를 거쳐 나온 통계량 이라할때, 좋은 추정량의 성질 3가지는 다음과 같다.

  1. 불편추정량(unbiasedness) :

    . 이를 만족하는 추청량 에 대한 불편추정량

  2. 유효성(efficiency) :

    에 대한 두 불편추정량 가 있을때, 이면, 을 더 유효한 추정량이라 지칭한다.

  3. 일치성(consistency):

    이를 만족하는 애를 일치추정량. 불편성과 비슷해보이지만, 무한대의 개념이고, 일치성에는 Expectation은 쓰이지도 않았음.

구간 추정은 간단해서 생략.

if $X_i\sim??[\mu,\sigma^2],\forall i$, $\sigma^2$ is unknown, 인 경우의 평균에 대한 구간추정.

  • 이 경우 $\sigma$를 모르지만 원래의 분포가 N이 아니기에 sample_var로 치환하고 t-distn을 사용할 수 없다. 그러나 By Slutsky thrm, $\frac{\bar X-\mu}{S/n}\sim^AN(0,1)$로 해도 무방!

Slutsky thrm : 극한분포에서 매우자주 사용되는 툴중 하나.

  • $X\rightarrow^p a$

  • $Y\rightarrow^d Z$

    => $XY \rightarrow^d aZ$

    위의 경우 $S\rightarrow^p\sigma$라서 성립하게 된다.

C.I의 해석 :

  • C.I. 에서, 은 sampling마다 바뀔 수 있다. 동일한 방법에서 이루어진 각 시행에서, 그들이 실제 를 포함할 확률이 %인것!

< 가설 검정>

귀무가설 : 가급적 지키려고 하는 가설. 또는 강력한 증거가 없는한 따르려는 가설.

귀무가설에 좀더 무게가 쏠려 있으므로, 가급적 지켜야 하는 귀무가설을 잘못 기각해버린 1종오류가 더 심각한것.

드디어 평균검정

큰 갈래는 데이터가 정규분포를 따를 경우는 정규분포의 성질을 이용하여 t-분포를 이용한 평균검정, 데이터가 정규분포를 따르지 않지만, 데이터의 수가 충분히 큰 경우 CLT를 이용한 평균에 대한 검정.

Case 1.

1) , are indep, 2) 이 충분히 큰수.

즉, X,Y의 분포는 모르지만 데이터가 충분히 크다. (roughly over 30). 이 경우 대표본이론, 혹은 극한분포이론을 적용할 수 있기에, 손쉬워진다.

By CLT, ,

Under H0, . 통계량 분포를 알면 지지고 볶고가 가능.

그러나 를 모르기에, 실제로 저 통계량은 구할 수 없음. 하지만 충분히 큰수이기에, slutsky thrm으로 역시나 근사가 가능.

, , under H0

Case 2.

1) , are indep. 2) 이 별로 크지 못함.

이 경우 데이터가 정규분포를 따르기에, 이 작더라도 가능.

, exactly. 근데 sigma를 모름. 대표본으로 손쉽게 갈수도 있지만, 정규분포의 경우 소표본이라도 t분포가 있음. 근데 또, 이때는 이분산일 경우 분포가 도출이 안됌..

이분산의 경우 welch test가 있다. 그러나 별로 인정 못받는 검정법.

‘값은 알 수 없지만, 또 평균도 모르지만, 두 r,v의 분산이 같다’라는 비현실적인 등분산 가정 필요.

if 등분산case, pooled variance에 대해서.

, 즉, 표본분산을 데이터수에 따라 가중평균한것이 unbiased중에서도 most efficient하다는 것이 증명. (이런형태의 pooled variance가 MVUE이다.)

, under H0.

by additivity prop of Chisq,

, by def of . 여기서 t-dist도출.

Case3

그럼 데이터 갯수도 작고, 데이터의 모집단 분포가 정규가정에도 무리가 있는 경우 어떡하냐?! 즉,

1) , are indep. 2) 이 별로 크지 못함.

그나마 Bootstrap.

Under Ho, 평균에 차이가 없으니까, X_data, Y_data를 shuffle해도 된다.

H0하에서는 그래도 말이 된다는 얘기. 귀무가설하의 통계량의 분포를 구하려는 거니까 H0하라는 틀안에서만 생각해도 된다.

다른 분포이더라도, 평균이 같다면 E(X+Y)=E(X)+E(Y)니까, 평균은 여전히 같을것. 고로 sample mean으로 검정할때 둘이 바꿔도 H0하에서는 말된다.

각각 데이터가 X 10개, Y 10개 있었다면 번의 shuffle이 가능하고, 각각의 시행에 대해 의 값들을 측정할 수 있음. 이를 ‘귀무가설하의 표본분포’로 생각하여, 우리가 실제 얻은 분포상의 어느 percentile에 위치하는지를 통해 검정을 할 수 있음!

bootstrap은 신박하고 손쉽지만, 실험설계를 어떻게 해야 내 의도대로 설계된건지 잘 따져봐야한다. 그렇기에 더 생각하는 능력이 필요.

모비율 검정

생략. 버놀리에서 를 정규근사+slutsky해서 푸는것. 크게 다르지는 않다. 충분히 크지 않은 경우엔 역시나 bootstrap뿐..(만약 인 경우엔 어떡할까? size bias를 줄여주기 위해 50:50으로 뽑을까??)

Paired data 의 평균검정!

paired검정의 가장 대표적인 경우 : paired t-test.

paired는 굳이 그 본연의 특성이 짝지어져 있지 않더라도 필요한 경우도 있음.

Ex) blocking factor가 있는 경우. X : Finance팀의 income과 Y : Marketing팀의 income을 비교하는데, 만약 GPA가 둘의 income에 모두 영향을 준것같다면? 여전히 로 비교할 수 있지만, 각각의 variance가(제3의 요인으로) 커져 있는 상태기에 Type 2 error의 확률이 커진다. 이때, 순수한 finance<-> marketing의 영향을 보기 위해 GPA가 비슷한 애들끼리 pair를 맺어줄수도. (뒤에 anova에서 확장되어 다룬다)

근데 사실, 가법적으로 영향을 안미칠 수도 있는데, 상당히 강한 가정이 들어간것. ex) E(Finance_income_GPA4.0)=M_f + alpha, E(Marketing_income_GPA4.0)=M_m + alpha. 라서 block design하면 효과를 뺄 수 있다는 가정. Finance에서의 4.0이 marketing에서의 학점4.0과 의미가 다를수도 있는데, 그냥 빼면 된다는 생각

암튼, pair의 평균에 차이가 없다를 검정하고픔.

paired_data 에서 .

if X,Y ~ N, then (t-tets는 다변량정규가정을 필요로한다는거 상기!)

, . paired의 diff를 각각 하나의 데이터로 생각한것.

이므로, 는 굳이 풀어쓰면 이다.

또한, D의 분산을 모르므로,들의 sample variance를 이용하여 t-dist를 사용

분산에 대한 검정 using F-dist

Case :

1) ,

2),

3) are indep. 를 만족해야 사용할 수 있다.

Variance에 대한 검정은 로 볼 수 없다. (이 방식으로 표본분포 도출된게 없다.) 고로, 의 형태로 본다.

그럼 의 분포 형태는? 완전 간단. 거의 맞춤형으로 F분포가 잇음

  • $\frac{(n_1-1)S_1^2}{\sigma_x^2}\sim\chi^2(n_1-1)​$

  • $\frac{(n_2-1)S_2^2}{\sigma_y^2}\sim\chi^2(n_2-1)$

  • are indep

    =>

또한, F분포는 라는 편리한 성질이 있어서, 가지고 이리저리 볶아서 CI만들 수 잇다.

Comments