최근 수정 시각 : 2025-01-25 19:09:07

확률질량함수

PMF에서 넘어옴
통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 (측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 ·
자료 시각화
도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

1. 개요2. 정의3. 베르누이 시행
3.1. 베르누이 시행3.2. 이항 확률 분포
3.2.1. PMF 형태
3.3. 로그 와 지수 표현
3.3.1. 스털링근사 와 테일러 급수3.3.2. 상수항3.3.3. 계산식
4. 확률밀도함수(PDF)5. 누적분포함수(CDF)6. 관련 문서

1. 개요

/ probability mass function

이산 확률 변수를 나타내는 함수. 추후 이산 확률 변수는 전공 수준 확률론에서 연속성 개념을 적용한 연속 확률 변수로 나타나는 확률 밀도 함수로 일반화된다.

2. 정의

[math( f_{X}(x) = P(X=x) )]
이는 함수 [math(f_{X})]가 모든 실수 [math(x)]를 확률 [math( P(X=x) )]에 곧이곧대로 대응시킨다는 뜻이다.

3. 베르누이 시행

베르누이 시행으로 잘 알려진 이항 분포는 이산 확률분포의 특수한 경우이자 그 실례의 (연속확률분포같은)응용에서 매우 전형적인 예이다. 이는 포아송 분포(특정 조건에서)나 정규 분포와 같은 연속 분포로 변환할 수 있는 구체적인 사례에서 그 유용성이 잘 나타난다.

3.1. 베르누이 시행

다음을 조건으로 내걸면
(1)결과는 두 가지뿐: 성공(Success) 또는 실패(Failure)
예: 동전을 던졌을 때 앞면(성공)과 뒷면(실패)
(2)성공 확률이 일정함: 각 시행에서 성공할 확률 p는 고정되어 있으며 변하지 않는다.
따라서 실패할 확률은 [math(1 - p)]
(3)독립성: 각 시행은 독립적이며, 이전 또는 이후 시행의 결과에 영향을 받지 않는다.
이러한 조건으로부터 P(성공) = p 이고 P(실패) = 1-p 가 된다.
이처럼 성공(Success)과 실패(Failure)라는 두 가지 결과(Binary outcomes)만을 다루는 상황은 결국 S(성공)과 F(실패)라는 단 두가지의 변수만이 다루어진다는 것을 전제로하며 이는 곧 바꾸어말하면 베르누이 시행의 반복자체가 S와 F의 2개의 결과만을 반복적으로 보여주는 이항(확률)분포(二項分布,Binomial Distribution)가 실현됨을 보여준다.
따라서 베르누이 시행 S(p)와 F(1-p)를 반복해보면 이항확률분포의 수식중 하나인 베르누이 곱 항을 조사할수있다.
[math( p^{x}(1-p)^{n-x} )] 을 얻을수있다.

3.2. 이항 확률 분포

[math(이항 확률 분포(P) = \left(조합 항 \right)\left(베르누이 곱 항 \right))]
[math(P(X=x) = \left( {}_nC_{x}\right)\left( p^{x}(1-p)^{n-x} \right))]
[math(P(x) = \left(\frac{n!}{x!(n-x)!}\right)\left( p^{x}(1-p)^{n-x} \right))]

3.2.1. PMF 형태

이항 확률 분포의 PMF 형태
[math(P(x) = \displaystyle\binom{n}{x} p^{x}(1-p)^{n-x} \rightarrow PMF)]

3.3. 로그 와 지수 표현

[math(P(X=x) = \displaystyle\binom{n}{x} p^{x}(1-p)^{n-x} )]
[math(log P(X=x) = log\left(\displaystyle\binom{n}{x} p^{x}(1-p)^{n-x} \right) )]
[math(= log\displaystyle\binom{n}{x} +x \log p +(n-x)log(1-p) )]

3.3.1. 스털링근사 와 테일러 급수

스털링 근사 [math( \log x! \approx x \log x-x \quad )]-(1)
테일러 급수 [math( \log (1+x) \approx x-\dfrac{x^2}{2} \quad )]-(2a)
테일러 급수 [math( \log (1-x) \approx -x-\dfrac{x^2}{2} \quad )]-(2b)
[math( log\displaystyle\binom{n}{x} = log\dfrac{n!}{x!(n-x)!} \quad )]-(3)
스털링 근사(1)를 가정하고 이를 (3)에 대입하면
[math( log\displaystyle\binom{n}{x} = (n\log n-n)-(x\log x-x)-((n-x)\log(n-x)- (n-x) ) )]
[math( log\displaystyle\binom{n}{x} = (n\log n)-n-(x\log x)+x-((n-x)\log(n-x))+ (n-x) )]
[math( log\displaystyle\binom{n}{x} = (n\log n)-(x\log x)-((n-x)\log(n-x)) -(n-x) +(n-x) )]
[math( log\displaystyle\binom{n}{x} = (n\log n)-(x\log x)-((n-x)\log(n-x)) )\quad )]-(4)
한편 [math( x \log x = x \log (x +np -np)\, )]이므로
[math( x \log x = x\left( log (np+(x-np)) \right) )]
[math( x \log x = x\left( log \left(\frac{np}{np}+\frac{(x-np)}{np} \right)\right) )]
[math( x \log x = x\left( log \left(1+\frac{(x-np)}{np} \right)\right) )]
테일러 급수(2a)를 가정하면
[math( x \log x = x \left( \dfrac{(x-np)}{np}-\dfrac{(x-np)^2}{2(np)^2} \right) )]
[math( n \log n = n \left(\dfrac{(n-np)}{np}-\dfrac{(n-np)^2}{2(np)^2} \right) )]
한편 [math( (n-x) \log (n-x) = (n-x) \log ((n-x)+np-np) )]
[math( = (n-x) \log (n-x+np-np) )]
[math( =(n-x) \log \left(n(1-p)-(x-np) \right) )]
[math( =(n-x) \log \left(\dfrac{n(1-p)}{n(1-p)}- \dfrac{(x-np)}{n(1-p)} \right) )]
[math( =(n-x) \log \left(1 - \dfrac{(x-np)}{n(1-p)} \right) )]
테일러 급수 (2b)를 가정하면
[math( (n-x) \log (n-x) = (n-x) \left( -\dfrac{(x-np)}{n(1-p)} -\dfrac{(x-np)^2}{2n^2(1-p)^2} \right) )]

3.3.2. 상수항

따라서 (4)를 정리하면
[math( log\displaystyle\binom{n}{x} = (n\log n)-(x\log x)-((n-x)\log(n-x)) )\quad )]-(4)
[math( log\displaystyle\binom{n}{x} = n \left(\dfrac{(n-np)}{np}-\dfrac{(n-np)^2}{2(np)^2} \right) -x \left( \dfrac{(x-np)}{np}-\dfrac{(x-np)^2}{2(np)^2} \right) - (n-x) \left( -\dfrac{(x-np)}{n(1-p)} -\dfrac{(x-np)^2}{2n^2(1-p)^2} \right))]
[math(= \dfrac{x(x-3np)(x-np)(p-1)^2 + n^3 (p-1)^2 (-3p^2 +4p-1) + p^2 (x-n)(x-np)(-x+np+2n(p-1))}{2n^2 p^2 (p-1)^2} )]
[math( log\displaystyle\binom{n}{x} = -\dfrac{(x-np)^2}{2np(1-p)} + 상수항 )]

3.3.3. 계산식

[math( n \left(\dfrac{(n-np)}{np}-\dfrac{(n-np)^2}{2(np)^2} \right) -x \left( \dfrac{(x-np)}{np}-\dfrac{(x-np)^2}{2(np)^2} \right) - (n-x) \left( -\dfrac{(x-np)}{n(1-p)} -\dfrac{(x-np)^2}{2n^2(1-p)^2} \right) )]
[math( \left(\dfrac{(n-np)}{p}-\dfrac{(n-np)^2}{2np^2} \right) -\left( \dfrac{x(x-np)}{np}-\dfrac{x(x-np)^2}{2(np)^2} \right) - n\left( -\dfrac{(x-np)}{n(1-p)} -\dfrac{(x-np)^2}{2n^2(1-p)^2} \right)+x\left( -\dfrac{(x-np)}{n(1-p)} -\dfrac{(x-np)^2}{2n^2(1-p)^2} \right) )]
[math( \left(\dfrac{(n-np)}{p}-\dfrac{(n-np)^2}{2np^2} \right) = A, -\left( \dfrac{x(x-np)}{np}-\dfrac{x(x-np)^2}{2(np)^2} \right) = B,)]
[math(- \left( -\dfrac{(x-np)}{(1-p)} -\dfrac{(x-np)^2}{2n(1-p)^2} \right) = C, +\left( -\dfrac{x(x-np)}{n(1-p)} -\dfrac{x(x-np)^2}{2n^2(1-p)^2} \right) = D)]
[math( A-B-C +D )]
[math( A = \left(\dfrac{-(n-np)2n(1-p)^2-(1-p)(n-np)^2}{2np^3} \right) = \left(\dfrac{-n(1-p)2n(1-p)^2-(1-p)(n-np)^2}{2np^3} \right) )]
[math( = \left(\dfrac{-2n^2(1-p)^3-(1-p)(n-np)^2}{2np^3} \right) = \left(\dfrac{-2n^2(1-p)^3-(1-p)n(1-p)^2}{2np^3} \right) )]
[math( = \left(\dfrac{-2n^2(1-p)^3-n(1-p)^3}{2np^3} \right) = \left(\dfrac{-2n(1-p)^3-(1-p)^3}{2p^3} \right) )]

4. 확률밀도함수(PDF)

이항 분포의 PMF를 막대그래프로 표현해볼때 [math(n)]을 계속해서 증가시켜봄으로서 막대의 갯수가 많아지고 또한 그 간격이 좁아지며 전체적으로 막대그래프가 부드러운 곡선(PDF)으로 변화하는 과정에서 확률밀도함수(PDF)를 시각적으로 이해해볼수있다.
따라서 이는 이산 확률 변수가 연속성 개념이 적용될때 연속 확률 변수로 나타나는 과정을 보여줄수있다.
[math( PMF \rightarrow PDF =f(x) = \dfrac{1}{\sqrt{2\pi \sigma^2}} e^{-\dfrac{(x-\mu)^2}{2\sigma^2}})]

5. 누적분포함수(CDF)

CDF(누적분포함수)도 일반적으로 PMF(확률질량함수)의 누적으로부터 확장될수있다. 물론 PDF(확률밀도함수) 역시 이로부터 CDF(누적분포함수)를 얻을수있다. PDF(확률밀도함수)와 CDF(누적분포함수)는 미적분관계로도 이해해볼수있다.

6. 관련 문서