기초 지식이지만 모든 고급분석의 근반이 되기에, 기초를 탄탄히 하고자 한번의 수업수강과 한번의 청강, 한번의 도강(…)까지 했다. 그치만 매번 공부하고 공부해도 까먹는 통계 기초. 늘 책찾고 헤매는 것이 힘들어서 한번에 정리해보았다.
about 추정
통계학의 메인 줄기에는 추정과 가설검정이 있었다.
< 좋은 추정량의 성질>
확률표본()으로 미지의 모수 를 추정하는경우. 어떤 함수 T를 거쳐 나온 통계량 이라할때, 좋은 추정량의 성질 3가지는 다음과 같다.
-
불편추정량(unbiasedness) :
. 이를 만족하는 추청량 은 에 대한 불편추정량
-
유효성(efficiency) :
에 대한 두 불편추정량 가 있을때, 이면, 을 더 유효한 추정량이라 지칭한다.
-
일치성(consistency):
이를 만족하는 애를 일치추정량. 불편성과 비슷해보이지만, 무한대의 개념이고, 일치성에는 Expectation은 쓰이지도 않았음.
구간 추정은 간단해서 생략.
if $X_i\sim??[\mu,\sigma^2],\forall i$, $\sigma^2$ is unknown, 인 경우의 평균에 대한 구간추정.
- 이 경우 $\sigma$를 모르지만 원래의 분포가 N이 아니기에 sample_var로 치환하고 t-distn을 사용할 수 없다. 그러나 By Slutsky thrm, $\frac{\bar X-\mu}{S/n}\sim^AN(0,1)$로 해도 무방!
Slutsky thrm : 극한분포에서 매우자주 사용되는 툴중 하나.
-
$X\rightarrow^p a$
-
$Y\rightarrow^d Z$
=> $XY \rightarrow^d aZ$
위의 경우 $S\rightarrow^p\sigma$라서 성립하게 된다.
C.I의 해석 :
- C.I. 에서, 은 sampling마다 바뀔 수 있다. 동일한 방법에서 이루어진 각 시행에서, 그들이 실제 를 포함할 확률이 %인것!
< 가설 검정>
귀무가설 : 가급적 지키려고 하는 가설. 또는 강력한 증거가 없는한 따르려는 가설.
귀무가설에 좀더 무게가 쏠려 있으므로, 가급적 지켜야 하는 귀무가설을 잘못 기각해버린 1종오류가 더 심각한것.
드디어 평균검정
큰 갈래는 데이터가 정규분포를 따를 경우는 정규분포의 성질을 이용하여 t-분포를 이용한 평균검정, 데이터가 정규분포를 따르지 않지만, 데이터의 수가 충분히 큰 경우 CLT를 이용한 평균에 대한 검정.
Case 1.
1) , are indep, 2) 이 충분히 큰수.
즉, X,Y의 분포는 모르지만 데이터가 충분히 크다. (roughly over 30). 이 경우 대표본이론, 혹은 극한분포이론을 적용할 수 있기에, 손쉬워진다.
By CLT, ,
Under H0, . 통계량 분포를 알면 지지고 볶고가 가능.
그러나 를 모르기에, 실제로 저 통계량은 구할 수 없음. 하지만 충분히 큰수이기에, slutsky thrm으로 역시나 근사가 가능.
, , under H0
Case 2.
1) , are indep. 2) 이 별로 크지 못함.
이 경우 데이터가 정규분포를 따르기에, 이 작더라도 가능.
, exactly. 근데 sigma를 모름. 대표본으로 손쉽게 갈수도 있지만, 정규분포의 경우 소표본이라도 t분포가 있음. 근데 또, 이때는 이분산일 경우 분포가 도출이 안됌..
이분산의 경우 welch test가 있다. 그러나 별로 인정 못받는 검정법.
‘값은 알 수 없지만, 또 평균도 모르지만, 두 r,v의 분산이 같다’라는 비현실적인 등분산 가정 필요.
if 등분산case, pooled variance에 대해서.
, 즉, 표본분산을 데이터수에 따라 가중평균한것이 unbiased중에서도 most efficient하다는 것이 증명. (이런형태의 pooled variance가 MVUE이다.)
, under H0.
by additivity prop of Chisq,
, by def of . 여기서 t-dist도출.
Case3
그럼 데이터 갯수도 작고, 데이터의 모집단 분포가 정규가정에도 무리가 있는 경우 어떡하냐?! 즉,
1) , are indep. 2) 이 별로 크지 못함.
그나마 Bootstrap.
Under Ho, 평균에 차이가 없으니까, X_data, Y_data를 shuffle해도 된다.
H0하에서는 그래도 말이 된다는 얘기. 귀무가설하의 통계량의 분포를 구하려는 거니까 H0하라는 틀안에서만 생각해도 된다.
다른 분포이더라도, 평균이 같다면 E(X+Y)=E(X)+E(Y)니까, 평균은 여전히 같을것. 고로 sample mean으로 검정할때 둘이 바꿔도 H0하에서는 말된다.
각각 데이터가 X 10개, Y 10개 있었다면 번의 shuffle이 가능하고, 각각의 시행에 대해 의 값들을 측정할 수 있음. 이를 ‘귀무가설하의 표본분포’로 생각하여, 우리가 실제 얻은 가 분포상의 어느 percentile에 위치하는지를 통해 검정을 할 수 있음!
bootstrap은 신박하고 손쉽지만, 실험설계를 어떻게 해야 내 의도대로 설계된건지 잘 따져봐야한다. 그렇기에 더 생각하는 능력이 필요.
모비율 검정
생략. 버놀리에서 를 정규근사+slutsky해서 푸는것. 크게 다르지는 않다. 충분히 크지 않은 경우엔 역시나 bootstrap뿐..(만약 인 경우엔 어떡할까? size bias를 줄여주기 위해 50:50으로 뽑을까??)
Paired data 의 평균검정!
paired검정의 가장 대표적인 경우 : paired t-test.
paired는 굳이 그 본연의 특성이 짝지어져 있지 않더라도 필요한 경우도 있음.
Ex) blocking factor가 있는 경우. X : Finance팀의 income과 Y : Marketing팀의 income을 비교하는데, 만약 GPA가 둘의 income에 모두 영향을 준것같다면? 여전히 로 비교할 수 있지만, 각각의 variance가(제3의 요인으로) 커져 있는 상태기에 Type 2 error의 확률이 커진다. 이때, 순수한 finance<-> marketing의 영향을 보기 위해 GPA가 비슷한 애들끼리 pair를 맺어줄수도. (뒤에 anova에서 확장되어 다룬다)
근데 사실, 가법적으로 영향을 안미칠 수도 있는데, 상당히 강한 가정이 들어간것. ex) E(Finance_income_GPA4.0)=M_f + alpha, E(Marketing_income_GPA4.0)=M_m + alpha. 라서 block design하면 효과를 뺄 수 있다는 가정. Finance에서의 4.0이 marketing에서의 학점4.0과 의미가 다를수도 있는데, 그냥 빼면 된다는 생각
암튼, pair의 평균에 차이가 없다를 검정하고픔.
paired_data 에서 .
if X,Y ~ N, then (t-tets는 다변량정규가정을 필요로한다는거 상기!)
, . paired의 diff를 각각 하나의 데이터로 생각한것.
이므로, 는 굳이 풀어쓰면 이다.
또한, D의 분산을 모르므로,들의 sample variance를 이용하여 t-dist를 사용
분산에 대한 검정 using F-dist
Case :
1) ,
2),
3) are indep. 를 만족해야 사용할 수 있다.
Variance에 대한 검정은 로 볼 수 없다. (이 방식으로 표본분포 도출된게 없다.) 고로, 의 형태로 본다.
그럼 의 분포 형태는? 완전 간단. 거의 맞춤형으로 F분포가 잇음
-
$\frac{(n_1-1)S_1^2}{\sigma_x^2}\sim\chi^2(n_1-1)$
-
$\frac{(n_2-1)S_2^2}{\sigma_y^2}\sim\chi^2(n_2-1)$
-
are indep
=>
또한, F분포는 라는 편리한 성질이 있어서, 가지고 이리저리 볶아서 CI만들 수 잇다.
Comments