예제 4 (예제 3)에서 ≫ 이므로 ≈
을 이용 하여
≥ ≈
으로 근사될 수 있다.
2.4 기하분포
성공할 확률이 인 베르누이 시행을 독립적으로 시행해 나가는 실험에서(시행횟 수는 정해져 있지 않음)
첫 번째 성공이 일어날 때까지의 총 시행 횟수
로 정의할 때, 의 는
⋯
⋯
이 되며, 이 분포를 기하분포(geometric distribution) 또는 파스칼분포(Pascal distribution)라 하고, 기호로는 ∼ 또는 로 나타낸다. 여기서
이다.
아래의 [그림 1]은 값에 따른 기하분포의 확률밀도함수를 나타낸다.
27
2.4 기하분포
1 2 3 4 5 6 7 8 9
1 2 3 4 5 6 7 8 9
1 2 3 4 5 6 7 8 9
그림 1
의 확률밀도함수
~일 때, 의 는
∞
∞
이 되며, 이로부터
′, ″ ′
을 이용하여
임을 보일 수 있다.
∼일 때, 의 는
∞
로부터
이 됨을 알 수 있다.
예제 5 ~일 때, 다음의 관계
가 성립함을 보여라.
■
참고 3.3절의 지수분포의 경우에도 이와 유사한 성질이 성립된다.
2.5 음이항분포
기하분포와 마찬가지로 베르누이 시행을 반복적으로 해나가는 실험에서
번째 성공이 일어날 때까지의 총 시행횟수
로 정의되는 분포이다. 의 는
29
2.5 음이항분포
개의 개의 후 번째
×
사건이 독립적이므로
⋯
이며, 이 분포를 음이항분포(negative binomial distribution)라 하고, 기호로는
∼ 로 나타낸다. 물론 인 는 분포와 동일하다. 여기 서 이다.
~ 일 때, 의 는 기하분포와의 관계 즉,
=
, ~
을 이용하여
임을 알 수 있다. 이로부터
′
″ ′
임을 쉽게 보일 수 있다.
음이항분포의 밀도함수가
의 조건을 만족하는 지를 보이는 과정은 다음과 같다. 즉,
∞
∞
∞
∞
⋯
∞
⋯
∞
임을 알 수 있다.
주의 책에 따라 기하분포와 음이항분포는 다소 다르게 정의되기도 하므로 유의하 기 바란다(연습문제 5번 참고).
31
2.6 포아송분포
2.6 포아송분포
아래의 포아송 가정 (a)~(c)를 만족하는 실험에서 크기 1인 단위시간(또는 단위공 간)내에 평균적으로 발생하는 사건의 수를 라고 하자. 이때, 확률변수를
단위시간 내에 발생하는 사건의 수 로 정의할 때, 의 는
⋯
이 되며, 이 분포를 포아송분포(Poisson distribution)라 하고, 기호로는
∼로 나타낸다. 여기서 이다.
포아송 가정(poisson postulates)은 다음과 같다.
(a) 독립성: 서로 다른 구간(non-overlapping intervals)에서 발생하는 사건의 수는 서로 독립이다.
(b) 비례성: 충분히 짧은 구간에서 사건이 발생할 확률은 구간의 길이에 비례한다.
(c) 비집락성: 충분히 짧은 구간에서 2회 이상의 사건이 발생할 확률은 거의 없다.
평균적으로 번 사건이 발생하는 시간(예를 들어, 하루 또는 일주일)을 크기 1인 단위시간으로 생각하자. 이때, 단위시간을 충분히 큰 개의 구간으로 나누어 각 소 구간 내에는 기껏해야 한 개의 사건 만이 포함되도록 하면
개의 소구간 가운데 개 소구간만 한 개의 사건을 포함하게 되고, 각 소구간에
0
⋯
1
서 사건이 발생할 확률은 모두
로 일정하므로, 단위구간(개의 소구간)에서 번의 사건이 발생할 확률은, 이항분포로부터,
⋯
⋯
이 되고,
lim
→ ∞
→ ∞lim
이므로, 는
으로 근사됨을 알 수 있다.
~일 때, 의 는
∞
∞ exp
으로 주어지며, 이로부터 와 를 구하면
′
″ ′
33
2.6 포아송분포
이 됨을 알 수 있다.
참고 이항분포는 평균()이 분산()보다 큰 값을 가지는 반면, 포아송분포는 평균()과 분산()이 동일한 값을 가지며, 따라서 평균이 커짐에 따라 분산 도 함께 커지는 특징을 가진다.
이제 단위시간(크기 1)의 배 크기의 구간에서 발생하는 사건의 수()의 분포는 이 구간에서 평균적으로 발생하는 사건의 수가 이므로 를 따르게 된 다. 즉,
∼
⋯
이다.
예제 6 30분마다 평균 2통의 전화가 걸려오는 사람에게 5시간 동안 한 통의 전화 도 오지 않을 확률은
5시간 동안 걸려온 전화의 수
라 할 때, 이므로
이 된다.
앞서 다룬 포아송 분포의 유도과정을 통해 포아송푼포는 이항분포의 근사분포로 유도되는 분포임을 알 수 있다. 즉, 충분히 큰 (→∞ )과 충분히 작은 ( )를
가지는 이항분포에서, →∞
일 때,
of →∞
of ≡
이 성립함을 알 수 있다. 이를 이항분포의 포아송 근사라고 한다.
예제 7 앞의 (예제 4)에서
≈
이므로
≥ ≈
으로 간단히 근사될 수 있다.
비음(non-negative)의 정수 값에서 확률이 정의되는 포아송 분포는 많은 확률현 상에 대한 현실적인 모형으로 사용되는 분포이다. 이 분포는 다음과 같이 유용한 새 로운 분포로 변형될 수 있다.
첫째, 포아송 분포가 모형으로 적절하나 의 값은 취하지 않는 경우라면 다음의 분포
⋯
를 생각할 수 있다. 이 분포를 이 절단된(truncated) 포아송분포라 한다.
35
2.6 포아송분포
둘째, 과 은 정상적으로 관측되나, 이상의 값은 모두 의 값으로 대체된 경우 의 자료에 대해서는 다음의 분포
합
가 모형으로 적절할 것이다. 이 분포를 중도절단된(censored) 포아송분포라 한다.
이상에서와 같이 기존의 알려진 분포로부터 절단(truncated) 또는 중도절단된 (censored) 형태의 새로운 분포가 만들어 질 수 있음을 알 수 있다. 이러한 과정 은 포아송 외의 다른 분포들에 대해서도 유사하게 적용될 수 있다(3장 연습문제 6 번 참고).
2장 연습문제
1
∼
일 때
(a) 의 를 구하여라.
(b) 의 평균과 분산을 구하여라.
2
의 왜도와 첨도가 각각 다음과 같이 주어짐을 보여라.
Hint 적률생성함수를 이용할 것.
3
∼ 일 때
임을 보여라.
4
의 왜도와 첨도가 각각 다음과 같이 주어짐을 보여라.
5
확률변수 를 다음과 같이 번째 성공이 일어날 때까지의 실패의 수
37
연습문제
로 정의할 때, 2.5절의 유도과정과 동일한 방법을 사용하여, 다음을 보여라.
(a) 의 가 다음과 같이 주어짐을 보여라.
⋯
참고 위 분포는 이항분포와 유사한 형태( 대신 (음수)을 사용)를 가지므로 음이항분포라 불린다.
(b) 의 가 다음과 같이 주어짐을 보여라.
(c) (b)를 이용하여
임을 보여라.
(d) 인 경우에 대해 위의 (a)∼ (c) 과정을 수행한 결과가 다음과 같이 주어짐 을 확인하고, 2.4절의 결과와 비교하여라.
⋯
참고 책에 따라 위의 결과를 기하분포와 음이항분포의 정의로 사용하기도 한다.
6
확률변수 의 확률생성함수(probability generating function 또는 )를
으로 정의할 때, 다음 식이 성립함을 보여라.
′
″
⋯
⋯ ≡
참고 1. 흔히 ⋯ 을 차 계승적률(factorial moment)이라 한다.
2. 는 이상의 정수값을 가지는(nonnegative integer valued) 확률 변수에 대해서만 정의된다.
7 응용문제
프로야구 한국시리즈에 진출한 두 팀 와 가 있다. 매 경기 마다 가 를 이길 확률을 , 가 를 이길 확률을 라고 하자. 매 경기 무승 부는 없으며, 먼저 4번을 이기는 팀이 우승을 한다고 할 때, 총 시합횟수()의 분 포가 다음과 같이 주어짐을 보여라.
또한, 인 경우와 에 대해 경기가 몇 차전까지 치루어 질 가능성이 가 장 높은지를 구해보아라.