[통계기초 정리] 개인적인 통계 방법론 복습 (1. 용어와 확률분포)

기초 지식이지만 모든 고급분석의 근반이 되기에, 기초를 탄탄히 하고자 한번의 수업수강과 한번의 청강, 한번의 도강(…)까지 했다. 그치만 매번 공부하고 공부해도 까먹는 통계 기초. 늘 책찾고 헤매는 것이 힘들어서 한번에 정리해보았다.

용어의 정의

정의란? : 토씨하나 틀리지 않고, 그대로 외우는것(구어체도 좀 있으니 유도리 있게 접근하자)

  • 통계적 실험(random experiment) : 자료의 수집과 해석이 ‘확률’에 바탕을 두는 실험. (우리가 관찰하는 모든것은 통계적 실험이라 할 수 있다. )ex)동전던지기.H,T
  • random : 딱히 정의가 내려지지 않고 사용되어 버렸다. 이는 확률이 이론이 아닌 실생활에서(정확히는 도박에서) 자연스럽게 파생되었기 때문.
    • 교수님 생각의 random : 결과를 보기 전엔 그 누구도 정확하게 예측할 수 없는 것.
  • 표본공간(Sample Space) : 통계적 실험의 ‘모든’ ‘가능한’ 결과들의 집합.

    • ex) 서로다른 동전 세입을 던졌을때의 결과

    모든 사상들(표본공간의 부분집합)의 집합을 로 따로 부르기도.

    등도 포함하기에 Sample Space와 같은개념이 아님.

  • 사상(event) : ‘표본공간의 부분집합’ (우리가 흔히 생각하는 event의 의미랑 직결됨)

  • 확률 : 이 역시 명확하게 정의내려져 있지는 않음. 다만, 확률의 3가지 공리만이 정립되있다.

    • 처음엔 도박에서 나옴. ‘반복시행’이 가능한 것에 대해서 그 상대비율이 어디로 수렴하는지.

    • 그러나 ‘반복시행’이 가능하지 않은 경우에도 확률을 쓰기 시작함. 그로 인해 생긴 확률의 ‘공리적 정의’. (누구나 이해할 수 있는 성질 3개를 가지고 정의를 해보자)

    • 확률이란, 사상들의 집합 에서 실수로 가는, 함수인데, 다음의 3가지 성질을 만족한다.

        1. $0\le P(E)\le1, \forall E$

        2. =1

        3. 이 서로 배반일때,

          $P(\cup_{i=1}^nE_i)=\sum_{i=0}^nP(E_i)$

  • 확률 변수(random variable) : 사실 ‘확률함수‘가 의미상 더 맞는데, 잘못 정착된것.

    정의역을 Sample Space에서 공역을 실수로 가는 ‘함수‘이다.

    Sample space의 원소들(전체 혹은 일부)을 실수로 매핑하는 함수. ex)(H,H,H)->3, (H,H,T)->2 이런식으로.

    확률변수는 항상, 그에 따른 확률분포를 가지고 있다!

확률변수를 설명하실땐 이해를 위해서 인지 이산형을 기준으로 설명하심.

  • 이산형 확률 변수 : 확률변수긴한데, 확률변수가 취할 수 있는 값의 개수가 infinite, or countably infinite일때. 즉 취할 수 있는 값 사이에 ‘간격‘이 존재할때! (이 경우 확률분포표로 확률변수가 취할 수 있는 가능한 값과 그에따른 확률을 나열할 수 있다.)

  • 연속형 확률변수 : 확률변수가 실수의 일부구간이나 모든 시룻에 대해 값을 취할때, 이를 연속형 확률변수라고 한다.

  • 결합(Joint) 확률 분포 : Joint, 즉 확률변수가 2개 이상. 이산형에 대해, 취할 수 있는 모든 사상과 그에 대해 취할 확률을 나열한것.즉, ‘다변량 분포’이다.

    이 결합확률 분포를 하나의 확률변수만 남기고 intergral한게 marginal distribution. 즉, ‘결합확률을 안다는 것은 marginal도 안다는것!’

    ex). 반대의 경우 성립하지 않는다. 왜? 뒤에 나올 covariance때문에.

  • 독립 : X,Y가 독립이다 < = > . 즉, 확률변수들의 결합확률 질량함수가 각각의 주변확률 질량함수의 곱으로 나타내질때.

  • 확률표본(random sample) : iid 확률변수들의 집합. 즉, 독립적이고, 동일한 분포를 이루는 확률변수 크기n의 ‘하나의’ 확률표본이라 부른다.

    즉, 확률표본, 혹은 r.s라는 말을 쓴 순간 iid가 자동 내포 된다는 것을 상기!

  • 통계량 (a statistic) : 확률표본 ()의 ‘함수’. ex)

    • iid확률변수들의 함수이기에, 통계량도 자연스레 확률변수이다.
  • 표본분포 (sampling distribution) : ‘통계량’의 확률분포.

    but 밝혀진 표본분포는 거의 없다. sample mean에 대해서만 좀 있음.


Describing prob dist func

평균, 분산, 표준편차. 간단한 부분은 지면상 생략하겠다. 기억할 만한 부분만 적음.

확률분포의 특성에 대해서, 대표적으로 1차moment, 2차 moment가 있다.

1차 moment=평균=. 무게중심이 된다.

2차 moment는 이지만, 평균을 중심으로 한 2차 moment는 분산.

즉, 평균,분산 등은 확률분포를 온전하게 알아야 구할 수 있다.

왜 표준편차를 굳이 정의하느냐? => 분산이 제곱텀이기에, 원데이터와 unit(scale)을 맞춰주려고.

공분산 : 결합확률분포에 대한건 특성치. joint pdf를 모르면 얻을 수 없다.

여기서 이므로 결합확률 분포를 알아야만 구할 있는 특성치가 COV.

+, Cov는 X와 Y의 ‘선형적강도’이다. 즉, 상당히 제한적인 측도.

Correlation : 코스슈바르츠 부등식에 의해 -1에서 1까지로 bound되있다는걸 증명가능하다.

코시슈바르츠 부등식 :

​ 간단 proof.

. 이걸 a에 대한 2차부등식으로 볼 수 있다. 이를 판별식으로

…CS부등식 증명 끝.


여러가지 대표적 분포들

버놀리 : 결과값이 True, False의 두가지로 나뉘어질 수 있는 random variable의 분포

  • $X\sim ber(p)$
  • $f(x)=p^x(1-p)^{1-x},x=0,1$
  • $E(x)=p, Var(x)=p(1-p)$

이항분포 : n개의 버놀리r.v들의 합. 총n개의 버놀리 r.v중 True가 몇개인지를 나타내는 새로운 변수 X에 대한 분포

  • $X\sim bin(n,p)$
  • $f(x)=_nC_xp^x(1-p)^{n-x}, x=0,1,..,n$
  • $E(x)=np, Var(x)=np(1-p)$

포아송 : 포아송 분포는 binomial dist의 극한분포로써 처음으로 관찰되었다. 이항분포에서 n은 매우 커지고, p는 매우 작은 경우의 분포(예를들면 교통사고 처럼, 확률은 매우 낮지만 시행횟수, 즉 이동차량이 매우 많은 경우를 나타내는 분포)

  • $X\sim pois(\lambda)$
  • $f(x)=\frac{e^{-\lambda}\lambda^x}{x!}$
  • $E(x)=\lambda, Var(X)=\lambda$

카이제곱 : derived from (표준정규분포).

  • , then
  • Let indep.

    $Z_i\sim N(0,1), \forall i$

    then .

    즉, Normal을 따르는 r.v. Z_i들의 제곱합 역시 r.v.이 r.v.의 확률분포가 라는것.

  • $E(X)=n,V(X)=2n$

  • Chisq의 가법성:

    • 1)

    • 2)

    • 3) are indep

      =>.

    이 가법성은 이항분포, 포아송 분포 역시 만족한다.

    또한 뒤에서 설명하지만 chisq는 gamma분포의 한 형태로 볼수도 있다.

t-distn(티 분포) : N에서 파생되는 애들중 하나.

  • def :

    • $Z\sim N(0,1)$

    • $X_n\sim\chi^2(n)$

    • are indep

      =>,

      즉 chisq따르는 rv를 그의 분포의 자유도로 나눠준 애가 분모에 들간다. 후에 보지만 이놈이 기막히게 들어가서 N을 따르는 샘플에서의 검정등에 t-dist로 귀결이 된다.

  • , 분산이 큰것은 꼬리가 N보다 두꺼운것과도 상통.

F-distn(에프 분포) : chisq를 따르는 두 r.v들의 분수형태. ANOVA에 사용된다!

  • def :

    • $X\sim\chi^2(n)$

    • $Y\sim\chi^2(m)$

    • are indep. (즉 n개의 지들끼리 indep한 와, m개의 지들끼리indep한 가, n과 m 서로서로의 와도 indep함.)

      =>

  • if , then , 왜냐면 분자에 Z가 있으니까, (Z랑 분모의 rv랑도 by def로 indep니까)

지수분포(exponential distn) : 생존분석의 대표적이고 기본적인 분포로, 무기억성과 failure rate가 constant라는 특성이 있다.

  • $X\sim exp(\lambda)$
  • $f(x)=\lambda e^{-\lambda x}$
  • $E(x)=\frac{1}{\lambda}, Var(x)=\frac{1}{\lambda^2}$

감마분포 : non_negative r.v를 모델링할때 쓰이는 분포로, 다양한 형태를 취할 수 있다. 또, expo distn과 chisq distn을 포함하는 포괄적 분포이다

  • $X\sim gamma(\alpha,\beta)$
  • $f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}$
  • $E(x)=\frac{\alpha}{\beta},Var(x)=\frac{\alpha}{\beta^2}$
  • $exp(\lambda)\equiv gamma(1,\frac{1}{\lambda})$
  • $\chi^2(p)\equiv gamma(\frac{p}{2},\frac{1}{2})$

베타분포 : x가 존재가능한 공간이 [0,1]일때 자주 사용되는 분포로, 역시 다양한 형태를 취할 수 있다.

  • $X\sim beta(\alpha,\beta)$
  • $f(x)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}$
  • $E(x)=\frac{\alpha}{\alpha+\beta},Var(x)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$

음이항분포(negative binomial distn) : 버놀리r.v와 관련된 또다른 분포. 성공확률 p 의 사건에서 r번의 성공을 하기 위해 필요한 시도횟수x에 대한 분포이다.

  • $X\sim neg_bin(r,p)$
  • $f(x)=\begin{pmatrix} x+r-1 \ r-1 \end{pmatrix}(1-p)^xp^r,x=0,1,2..$
  • $E(x)=\frac{r(1-p)}{p}, Var(x)=\frac{r(1-p)}{p^2}$

덧. 같은 분포이더라도 로 설정한다던지로 인해 형태가 약간 달라질 수 있다. 이런 파라미터의 사용에 대해서 통일이 되어있지 않다.

막간상식 : 왜 자연현상의 많은 것이 N비슷?(ex키)

=>지금의 자연현상에 영향을 준 요인들은 오래전부터의 유전적 요인들의 가중평균.(ex 증조부의 키,할부지의 키,..) n은 거의 inf에 가까움. 이는 확장된 CLT에 의해 N에 근사하게 됨.


Fundamental theorem of Normal distn

Let , ’s are indep, 즉, iid X들이 다 N을 따를때, 다음의 3가지 성질을 만족.

  1. $\bar X\sim N(\mu,\frac{\sigma^2}{n})$

  2. , 이는 와 같은말.

    proof는 공책에. 증명에 아래의 3번 가정도 필요함

  3. are indep.

여기에서 variance를 sample variance로 대체한 t-dist가 도출됨 ,

here , , are indep.

2번 공식에 대한 proof. (수통에서 가져옴 66p)

funda_thm_proof

N을 따르는 n개의 iid data를 cov=0인 multivariate Normal로 봐서, 의 구성원간에 cov가 0임을 밝혔다.

Comments