기초 지식이지만 모든 고급분석의 근반이 되기에, 기초를 탄탄히 하고자 한번의 수업수강과 한번의 청강, 한번의 도강(…)까지 했다. 그치만 매번 공부하고 공부해도 까먹는 통계 기초. 늘 책찾고 헤매는 것이 힘들어서 한번에 정리해보았다.
용어의 정의
정의란? : 토씨하나 틀리지 않고, 그대로 외우는것(구어체도 좀 있으니 유도리 있게 접근하자)
- 통계적 실험(random experiment) : 자료의 수집과 해석이 ‘확률’에 바탕을 두는 실험. (우리가 관찰하는 모든것은 통계적 실험이라 할 수 있다. )ex)동전던지기.H,T
- random : 딱히 정의가 내려지지 않고 사용되어 버렸다. 이는 확률이 이론이 아닌 실생활에서(정확히는 도박에서) 자연스럽게 파생되었기 때문.
- 교수님 생각의 random : 결과를 보기 전엔 그 누구도 정확하게 예측할 수 없는 것.
-
표본공간(Sample Space) : 통계적 실험의 ‘모든’ ‘가능한’ 결과들의 집합.
- ex) 서로다른 동전 세입을 던졌을때의 결과
모든 사상들(표본공간의 부분집합)의 집합을 로 따로 부르기도.
등도 포함하기에 Sample Space와 같은개념이 아님.
- ex) 서로다른 동전 세입을 던졌을때의 결과
-
사상(event) : ‘표본공간의 부분집합’ (우리가 흔히 생각하는 event의 의미랑 직결됨)
-
확률 : 이 역시 명확하게 정의내려져 있지는 않음. 다만, 확률의 3가지 공리만이 정립되있다.
-
처음엔 도박에서 나옴. ‘반복시행’이 가능한 것에 대해서 그 상대비율이 어디로 수렴하는지.
-
그러나 ‘반복시행’이 가능하지 않은 경우에도 확률을 쓰기 시작함. 그로 인해 생긴 확률의 ‘공리적 정의’. (누구나 이해할 수 있는 성질 3개를 가지고 정의를 해보자)
-
확률이란, 사상들의 집합 에서 실수로 가는, 함수인데, 다음의 3가지 성질을 만족한다.
-
-
$0\le P(E)\le1, \forall E$
-
=1
-
이 서로 배반일때,
$P(\cup_{i=1}^nE_i)=\sum_{i=0}^nP(E_i)$
-
-
-
-
확률 변수(random variable) : 사실 ‘확률함수‘가 의미상 더 맞는데, 잘못 정착된것.
정의역을 Sample Space에서 공역을 실수로 가는 ‘함수‘이다.
Sample space의 원소들(전체 혹은 일부)을 실수로 매핑하는 함수. ex)(H,H,H)->3, (H,H,T)->2 이런식으로.
확률변수는 항상, 그에 따른 확률분포를 가지고 있다!
확률변수를 설명하실땐 이해를 위해서 인지 이산형을 기준으로 설명하심.
-
이산형 확률 변수 : 확률변수긴한데, 확률변수가 취할 수 있는 값의 개수가 infinite, or countably infinite일때. 즉 취할 수 있는 값 사이에 ‘간격‘이 존재할때! (이 경우 확률분포표로 확률변수가 취할 수 있는 가능한 값과 그에따른 확률을 나열할 수 있다.)
-
연속형 확률변수 : 확률변수가 실수의 일부구간이나 모든 시룻에 대해 값을 취할때, 이를 연속형 확률변수라고 한다.
-
결합(Joint) 확률 분포 : Joint, 즉 확률변수가 2개 이상. 이산형에 대해, 취할 수 있는 모든 사상과 그에 대해 취할 확률을 나열한것.즉, ‘다변량 분포’이다.
이 결합확률 분포를 하나의 확률변수만 남기고 intergral한게 marginal distribution. 즉, ‘결합확률을 안다는 것은 marginal도 안다는것!’
ex). 반대의 경우 성립하지 않는다. 왜? 뒤에 나올 covariance때문에.
-
독립 : X,Y가 독립이다 < = > . 즉, 확률변수들의 결합확률 질량함수가 각각의 주변확률 질량함수의 곱으로 나타내질때.
-
확률표본(random sample) : iid 확률변수들의 집합. 즉, 독립적이고, 동일한 분포를 이루는 확률변수 을 크기n의 ‘하나의’ 확률표본이라 부른다.
즉, 확률표본, 혹은 r.s라는 말을 쓴 순간 iid가 자동 내포 된다는 것을 상기!
-
통계량 (a statistic) : 확률표본 ()의 ‘함수’. ex)
- iid확률변수들의 함수이기에, 통계량도 자연스레 확률변수이다.
-
표본분포 (sampling distribution) : ‘통계량’의 확률분포.
but 밝혀진 표본분포는 거의 없다. sample mean에 대해서만 좀 있음.
Describing prob dist func
평균, 분산, 표준편차. 간단한 부분은 지면상 생략하겠다. 기억할 만한 부분만 적음.
확률분포의 특성에 대해서, 대표적으로 1차moment, 2차 moment가 있다.
1차 moment=평균=. 무게중심이 된다.
2차 moment는 이지만, 평균을 중심으로 한 2차 moment는 분산.
즉, 평균,분산 등은 확률분포를 온전하게 알아야 구할 수 있다.
왜 표준편차를 굳이 정의하느냐? => 분산이 제곱텀이기에, 원데이터와 unit(scale)을 맞춰주려고.
공분산 : 결합확률분포에 대한건 특성치. joint pdf를 모르면 얻을 수 없다.
여기서 이므로 결합확률 분포를 알아야만 구할 있는 특성치가 COV.
+, Cov는 X와 Y의 ‘선형적강도’이다. 즉, 상당히 제한적인 측도.
Correlation : 코스슈바르츠 부등식에 의해 -1에서 1까지로 bound되있다는걸 증명가능하다.
코시슈바르츠 부등식 :
간단 proof.
. 이걸 a에 대한 2차부등식으로 볼 수 있다. 이를 판별식으로
…CS부등식 증명 끝.
여러가지 대표적 분포들
버놀리 : 결과값이 True, False의 두가지로 나뉘어질 수 있는 random variable의 분포
- $X\sim ber(p)$
- $f(x)=p^x(1-p)^{1-x},x=0,1$
- $E(x)=p, Var(x)=p(1-p)$
이항분포 : n개의 버놀리r.v들의 합. 총n개의 버놀리 r.v중 True가 몇개인지를 나타내는 새로운 변수 X에 대한 분포
- $X\sim bin(n,p)$
- $f(x)=_nC_xp^x(1-p)^{n-x}, x=0,1,..,n$
- $E(x)=np, Var(x)=np(1-p)$
포아송 : 포아송 분포는 binomial dist의 극한분포로써 처음으로 관찰되었다. 이항분포에서 n은 매우 커지고, p는 매우 작은 경우의 분포(예를들면 교통사고 처럼, 확률은 매우 낮지만 시행횟수, 즉 이동차량이 매우 많은 경우를 나타내는 분포)
- $X\sim pois(\lambda)$
- $f(x)=\frac{e^{-\lambda}\lambda^x}{x!}$
- $E(x)=\lambda, Var(X)=\lambda$
카이제곱 : derived from (표준정규분포).
- , then
-
-
Let indep.
$Z_i\sim N(0,1), \forall i$
then .
즉, Normal을 따르는 r.v. Z_i들의 제곱합 역시 r.v.이 r.v.의 확률분포가 라는것.
-
$E(X)=n,V(X)=2n$
-
Chisq의 가법성:
-
1)
-
2)
-
3) are indep
=>.
이 가법성은 이항분포, 포아송 분포 역시 만족한다.
또한 뒤에서 설명하지만 chisq는 gamma분포의 한 형태로 볼수도 있다.
-
t-distn(티 분포) : N에서 파생되는 애들중 하나.
-
def :
-
$Z\sim N(0,1)$
-
$X_n\sim\chi^2(n)$
-
are indep
=>,
즉 chisq따르는 rv를 그의 분포의 자유도로 나눠준 애가 분모에 들간다. 후에 보지만 이놈이 기막히게 들어가서 N을 따르는 샘플에서의 검정등에 t-dist로 귀결이 된다.
-
-
, 분산이 큰것은 꼬리가 N보다 두꺼운것과도 상통.
F-distn(에프 분포) : chisq를 따르는 두 r.v들의 분수형태. ANOVA에 사용된다!
-
def :
-
$X\sim\chi^2(n)$
-
$Y\sim\chi^2(m)$
-
are indep. (즉 n개의 지들끼리 indep한 와, m개의 지들끼리indep한 가, n과 m 서로서로의 와도 indep함.)
=>
-
-
if , then , 왜냐면 분자에 Z가 있으니까, (Z랑 분모의 rv랑도 by def로 indep니까)
지수분포(exponential distn) : 생존분석의 대표적이고 기본적인 분포로, 무기억성과 failure rate가 constant라는 특성이 있다.
- $X\sim exp(\lambda)$
- $f(x)=\lambda e^{-\lambda x}$
- $E(x)=\frac{1}{\lambda}, Var(x)=\frac{1}{\lambda^2}$
감마분포 : non_negative r.v를 모델링할때 쓰이는 분포로, 다양한 형태를 취할 수 있다. 또, expo distn과 chisq distn을 포함하는 포괄적 분포이다
- $X\sim gamma(\alpha,\beta)$
- $f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}$
- $E(x)=\frac{\alpha}{\beta},Var(x)=\frac{\alpha}{\beta^2}$
- $exp(\lambda)\equiv gamma(1,\frac{1}{\lambda})$
- $\chi^2(p)\equiv gamma(\frac{p}{2},\frac{1}{2})$
베타분포 : x가 존재가능한 공간이 [0,1]일때 자주 사용되는 분포로, 역시 다양한 형태를 취할 수 있다.
- $X\sim beta(\alpha,\beta)$
- $f(x)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}$
- $E(x)=\frac{\alpha}{\alpha+\beta},Var(x)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$
음이항분포(negative binomial distn) : 버놀리r.v와 관련된 또다른 분포. 성공확률 p 의 사건에서 r번의 성공을 하기 위해 필요한 시도횟수x에 대한 분포이다.
- $X\sim neg_bin(r,p)$
- $f(x)=\begin{pmatrix} x+r-1 \ r-1 \end{pmatrix}(1-p)^xp^r,x=0,1,2..$
- $E(x)=\frac{r(1-p)}{p}, Var(x)=\frac{r(1-p)}{p^2}$
덧. 같은 분포이더라도 를 로 설정한다던지로 인해 형태가 약간 달라질 수 있다. 이런 파라미터의 사용에 대해서 통일이 되어있지 않다.
막간상식 : 왜 자연현상의 많은 것이 N비슷?(ex키)
=>지금의 자연현상에 영향을 준 요인들은 오래전부터의 유전적 요인들의 가중평균.(ex 증조부의 키,할부지의 키,..) n은 거의 inf에 가까움. 이는 확장된 CLT에 의해 N에 근사하게 됨.
Fundamental theorem of Normal distn
Let , ’s are indep, 즉, iid X들이 다 N을 따를때, 다음의 3가지 성질을 만족.
-
$\bar X\sim N(\mu,\frac{\sigma^2}{n})$
-
, 이는 와 같은말.
proof는 공책에. 증명에 아래의 3번 가정도 필요함
-
are indep.
여기에서 variance를 sample variance로 대체한 t-dist가 도출됨 ,
here , , are indep.
2번 공식에 대한 proof. (수통에서 가져옴 66p)
N을 따르는 n개의 iid data를 cov=0인 multivariate Normal로 봐서, 와 의 구성원간에 cov가 0임을 밝혔다.
Comments