• 검색 결과가 없습니다.

확률과 확률분포

N/A
N/A
Protected

Academic year: 2022

Share "확률과 확률분포"

Copied!
42
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

확률과 확률분포

지리통계 제3강

최재헌 교수

(2)

확률 관련 용어 정리

1. 사건과 집합

사건 : 어떤 조건을 만족하는 집합

사건 A,B가 일어나는 경우 전체를 집합 A,B (1) A 또는 B가 일어나는 경우 à A U B (2) A, B가 동시에 일어나는 경우 à A n B

(3) A가 일어난 다음 B가 일어나는 경우 à A X B 2. 합의 법칙 * 3개 이상의 사건에 대해서도 성립 두 사건 A, B가 동시에 일어나지 않을 때

사건 A, B가 일어나는 경우의 수가 각각 m가지, n가지이면 A 또는 B가 일어나는 경우의 수는 m+n가지이다.

3. 곱의 법칙 * 3개 이상의 사건에 대해서도 성립 두 사건 A, B가 있어서

A가 일어나는 경우의 수가 m가지이고

그 각각에 대하여 B가 일어나는 경우의 수가 n가지이면

A가 일어나고 동시에 B가 일어나는 경우의 수는 mxn가지이다.

즉 n(AxB) = n(A) x n(B)

(3)

순열

1. 순열의 뜻(Permutation)

- 서로 다른 n개에서 r개를 택하여 순서를 생각하여 일렬로 배열하는 것 - n개에서 r개를 택하는 순열이라고 하고 순열의 수를 nPr로 표시

2. 순열의 수

(1) 서로 다른 n개에서 r개를 택하여 순서를 생각하여 일렬로 배열하는 방법의 수

(2) 서로 다른 n개에서 n개 전체를 일렬로 배열하는 방법의 수

(3) nP0 =1, 0!=1로 정의

3. 이웃할 때와 이웃하지 않을 때의 순열 (1) 이웃하게 나열하는 순열의 수

(i) 이웃하는 것을 하나로 묶어서 한 묶음으로 생각

(ii) (한 묶음으로 구한 순열의 수) x (한 묶음 속 자체의 순열의 수) (2) 이웃하지 않게 나열하는 순열의 수

(i) 이웃해도 좋은 것을 먼저 배열 (ii) 그 양끝과 사이사이에 배열

nPr = n(n-1) (n-2) ··· (n-r+1) = (단, n >= r)(n-r)!

n!

r개

nPr = n(n-1) (n-2) ·3·2·1 = n!

(1) a,b,c,d,e,f의 6개의 문자에서 서로 다른 3개를 택하여 배열하는 방법의 수를 구하라.

6P3 = 6x5x4 = 120(가지)

(2) 1,2,3,4의 4개의 숫자를 일렬로 배열하는 방법의 수를 구하여라.

4P4 = 4x3x2x1 = 24(가지)

(4)

중복순열

* ∏ è 그리스 문자 파이의 대문자

* ‘서로 다른’, ‘중복 불허’의 뜻이 있으면 순열(중복순열이 아닌 순열)이고, 중복불허의 뜻이 없으면 무조건 중복순열임

1. 중복허락 : 같은 숫자가 반복됨을 허락한다는 의미

2. 중복순열 : 서로 다른 n개에서 중복을 허락하여 r개를 택하여 일렬로 배열하는 것을 n개에서 r개를 택하는 중복순열이라 하고 nr 로 나타냄

3. 중복순열의 공식 nr = nr = nxnxnx ···xn

4. 중복순열의 공식 암기법 : n을 받는 쪽(고정숫자), r를 주는 쪽(선택숫자)로 생각

r개

중복허락이란 같은 숫자가 반복되어도 좋다는 의미이다. 가령 3개의 숫 자 1, 2, 3을 사용하여 2자리 정수를 만들 때, 각 자리의 숫자가 다른 경 우는 12, 13, 21, 23, 31, 32 등의 6가지이다.

중복이 허락된다면 6개 숫자에 같은 숫자의 반복 11, 22, 33이 포함된 9 가지가 된다. 여기서 1, 2, 3의 세 숫자에서 중복을 허락하여 두 수를 곱 하여 만들어지는 2자리 정수는 32로 나타내고 32=32=9로 계산한다.

이와 같이 중복을 허락하여 만든 순열을 중복순열이라고 한다.

1, 2, 3, 4, 5로 중복을 허락하여 만 들 수 있는 세 자리 정수의 개수를 구하여라.

(5개에서 3개를 택하는 중복순열)

53=53=125(개)

(5)

같은 것이 있는 경우의 순열

1. 같은 것이 있는 경우의 순열 (1) 같은 것이 있는 경우의 순열

n개 중 같은 것이 각각 p개, q개, r개, ···, s개가 있을 때, 이들 n개를 모두 사용하여 일렬로 배열하는 순열의 수는

(2) 순서가 정해진 경우의 순열

서로 다른 n개 중 특정한 r개의 순서가 일정하게 정해졌을 때, 이들 n개를 모두 일렬로 배열하는 순열의 수는

n!

p!q!r! ···s! (단, p+q+r+···+s=n)

n!

r!

(1) 5개의 문자 a, a, a, b, c를 모두 사용하여 일렬로 배열하는 방법의 수를 알아보자.

a에 번호를 붙여 a1, a2, a3, b, c의 5개의 문자를 일렬로 배열하는 방법의 수는 5!이며 a1, a2, a3 같은 문제 a로 본다면 즉, a, a, a, b, c인 경우에는 3개의 a를 바꾸어 놓아도 순열은 변하지 않으며 전 체 5!중 3!가 중복된다.

따라서 구하는 순열의 수를 x라 하면 x * 3! = 5!이므로 x = 5!/3! = 20(가지)

(2) 순서가 일정하다는 것은 정해진 순서 이외에는 자리의 바꿈이 없기 때문에 정해진 순서로 되어있 는 것들이 모두 같다는 것을 의미한다.

문제1) a, a, a, b, b, c를 일렬로 배열하는 순열의 수를 구하라. à 6!/3!2!1! = 60(가지)

문제2) 1, 2, 3, 4, 5, 6의 6개의 숫자를 일렬로 배열할 때, 2, 4, 6의 순으로 배열하는 순열의 수를 구 하라. à 2, 4, 6의 순서가 정해졌으므로 2, 4, 6을 같은 문자로 보아서 6!/3! = 120(가지)

(6)

조합(Combination)

1. 조합 (1) 조합의 뜻

서로 다른 n개에서 순서를 생각하지 않고 r개를 뽑을 때 n개에서 r개를 택한 조합이라 하고 이 조합의 수를 nCr로 나타낸다.

(2) 조합의 수 계산 방법

1) 서로 다른 n개에서 r개를 택하는 조합의 수

nPr r!

nCr = = n(n-1)(n-2) ··· (n-r+1)

r! = n!

r!(n-r)! (단, 0<= r <= n) 2) nCr = 1, nCn = 1, nCr =n 3) nCr = nCn-r 4) nCr = n-1Cr + n-1Cr-1

* nPr = nCr x r!, 즉, (순열의 수) = (조합의 수) x (원소를 일렬로 배열하는 방법의 수)

* 순열은 순서를 생각하여 일렬로 배열한 것이고, 조합은 순서를 생각하지 않고 그 일 부를 뽑은 것이다.

Ex) 10명의 학급에서 2명의 대표를 뽑는 방법의 수를 구하여라.

10명에서 2명을 뽑는 조합의 수이므로 10C2 = 10P2 / 2! = 10x9/2 = 45(가지)

(7)

중복조합 ( Homogeneous Product(동차 곱))

(1) 중복조합의 뜻

서로 다른 n개에서 중복을 허락하여 r개를 택하는 조합이며 nHr로 나타낸다.

(2) 중복조합의 수 계산 방법

nHr = n+r-1Cr (여기서 r가 n보다 커도 상관없다.)

1, 2, 3의 세 개의 숫자에서 중복을 허락하여 2개를 택하는 조합을 순서대로 정리하면 (1, 1), (1, 2), (1, 3), (2, 2), (2, 3), (3, 3)

의 6가지이다. 이것의 각 조합에서 두 번째 숫자에 1을 더하면 (1, 2), (1, 3), (1, 4), (2, 3), (2, 4), (3, 4)

가 되어 이것은 서로 다른 숫자 1, 2, 3, 4 중에서 중복을 허락하지 않고 2개를 택한 조합 과 같다. 둘을 비교하면 조합의 수가 같으므로 1, 2, 3에서 중복을 허락하여 택하는 조합 의 수 4C2 와 같다.

3C2 = 4Cr2 ß 4C2 = 3+2-1C2

일반적으로 서로 다른 n개에서 중복을 허락하여 r개를 택하는 중복조합의 수는 nHr =

n+r-1Cr 이다.

Ex) 1, 2, 3, 4의 4개의 숫자에서 중복을 허락하여 2개를 택하는 조합의 수를 구하여라.

4H2 = 4+2-1Cr2 = 10(개)

(8)

u nPr, nIIr, nCr, nHr 의 차이점

(1) 순서는 생각하되 중복을 허락하지 않는다. è 순열(nPr)

(2) 순서는 생각하되 중복을 허락한다. è 중복순열(nIIr) (3) 순서는 생각하지 않고 중복을 허락하지 않는다. è 조합(nCr)

(4) 순서는 생각하지 않되 중복은 허락한다. è 중복조합( nHr)

Ex) 세 문자 a, b, c에서 2개를 택한 순열, 중복순열, 조합, 중복조합의 개수를 각 각 구하여라.

순열 : ab, ba, ac, ca, bc, cb è 3P2 = 6 (개) 중복순열 : ab, ba, ac, ca, bc, cb, aa, bb, cc è 3II2 = 9 (개) 조합 : ab, ac, bc è 3C2 = 3(개) 중복조합 : ab, ac, bc, aa, bb, cc è 3H2 = 6(개)

(9)

확률의 정의

1. 확률 용어

(1) 시행 : 동일한 조건에서 여러 차례 반복할 수 있는 실험이나 관찰

(2) 표본공간 : 어떤 시행에서 일어날 수 있는 모든 가능한 결과의 전체집합 (3) 사건 또는 사상 : 표본공간에서 일어나는 부분집합

(4) 근원사건 : 사건 중에서 더 이상 세분할 수 없는 기본적인 사건 (5) 전사건 : 표본공간 자신의 집합(반드시 일어나는 사건)

(6) 공사건 : 결코 일어나지 않는 사건 2. 확률의 정의

(1) 확률

하나의 사건이 일어날 수 있는 가능성을 수치로 나타낸 것을 확률이라 하고 사건 A가 일어날 확률을 P(A)로 나타낸다.

(2) 수학적 확률

어떤 시행에서 얻어지는 근원사건이 모두 같은 정도로 일어날 것이라고 기 대될 때 전사건 S에 속하는 근원사건의 총수를 n(S), 사건 A에 속하는 근원 사건의 개수를 n(A)라하면, 사건 A가 일어날 확률 P(A)는

P(A) = =

이와 같은 확률은 수학적 확률이다.

n(A) n(S)

(사건 A가 일어나는 경우의 수) (일어날 수 있는 모든 경우의 수)

(10)

l Kolmogorov의 확률의 정의:

표본공간 Si에서 임의의 사건 A가 일어날 확률 P(A)는 항상 0과 1 사이에 있으 며 P(S)는 항상 1 이다. 그러므로 표본공간 내에서 A가 일어날 확률은 P(A)

= n/N으로 표시된다. N 은 표본공간에서 일어날 수 있는 가능한 전체 수이 며 n은 임의의 사건 A가 일어나는 횟수이다.

(3) 통계적 확률(경험적 확률)

한 사건 A가 일어날 확률을 P(A)라 할 때 n번의 반복시행에서 사건 A가 일 어난 횟수를 r라 하면, 상대도수 r/n는 n이 커짐에 따라 확률 P(A)에 가까워 짐을 알 수 있다.

즉, lim r/n = P(A) 일 때, P(A)를 사건 A의 통계적 확률이고 한다.

확률의 기본 성질은 동등발생 개념(equally likely concept)과 상호 배타적 사건, 상대빈도 개념(relative frequency concept)에 바탕을 둔다.

Ex) 사건 A가 일어날 경우(u)와 사건 A가 일어나지 않을 경우 (v)는 동등하게 발 생하고 상호배타적일 경우에 P(A)로 표시된다. 상호배타적은 두 사건이 동 시에 일어날 수 없다는 것이며, 상대빈도는 n번의 시행횟수에서 어떤 사건 이 일어난 횟수를 n이라고 한다면 빈도 r/n은 시행횟수를 무한대로 함에 따 라 극한값에 가까워진다.

(11)

확률의 수학적 속성

u 확률의 성질

사건 A가 일어날 확률 P(A)는 일반적으로 다음과 같은 성질을 갖는다.

(1) 어떤 사건 A에 대하여 à 0 <= P(A) <= 1

(2) 전사건 S에 대하여 à P(S) =1 ß 반드시 일어난다.

(3) 공사건 Ø에 대하여 à P(Ø) = 0 ß 결코 일어나지 않는다.

u 여사건의 확률 (1) 여사건

사건 A에 대하여 A가 일어나지 않을 사건을 A의 여사건이라 하고 Ac로 나타 낸다.

(2) P(A)와 여사건이 일어날 확률 P(Ac) 사이에는 다음 관계가 성립한다.

P(A) + P(Ac) = 1, P(Ac) = 1 P(A)

(3) ‘적어도 하나 ··· ‘의 뜻이 있으면 à 여사건을 생각한다.

(‘적어도 하나 ···‘의 확률) = 1- (반대인 사건의 확률)

(12)

확률의 덧셈 정리

u P(AUB)의 의미

1) A 또는 B가 일어날 확률

2) A, B 중 적어도 하나가 일어날 확률 u 일반적인 사건의 덧셈정리

두 사건 A, B에 대하여 A∩B≠Ø일 때, P(AUB)= P(A) + P(B) - P(A∩B)

u 상호배타적인 사건(배반사건)의 덧셈정리

1) 배반사건 : 두 사건 A, B가 결코 동시에 일어나지 않을 때, 즉 A∩B = Ø일 때 A와 B를 배반사건이라고 한다.

2) 배반사건의 덧셈정리 : A∩B≠Ø일 때, (A, B가 배반사건일 때)

P(AUB)= P(A) + P(B)

(13)

확률의 곱셈 정리(조건부 확률)

u 확률이 0이 아닌 두 사건 A,B에 대하여 사건 A가 일어났다는 가정하에 사 건 B가 일어날 확률을 A가 일어났을 때 B의 조건부확률이라 하고 P(B|A) 또 는 PA(B)로 나타낸다.

(2) 확률의 곱셈정리

* P(A∩B)와 P(A|B)의 차이점

n(S)=m, n(A)=a, n(A∩B)=c일 때

P(A∩B)는 S를 전체 사건으로 했을 때 A∩B가 일어날 확률이므로 P(A∩B)=c/m P(B|A)는 A를 전체 사건으로 했을 때

A∩B가 일어날 확률이므로 P(B|A)=c/a P(B|A) =

P(A) P(A∩B)

(단, P(A) > 0)

P(B|A) = P(A)·

P(A∩B) = P(B)·P(A|B) (단, P(A) > 0, P(B) > 0)

c A

B S

(14)

u .종속사건과 독립사건 (1) P(A∩B)의 의미

1) 두 사건 A, B가 동시에 일어날 확률 2) 두 사건 A, B가 차례로 일어날 확률 (2) 종속사건

두 사건 A, B에 대해 사건 A가 일어날 경우 사건 A가 일어나지 않을 경우에 따라 사건 B가 일어날 확률이 다를 때 사건 B는 사건 A에 종속한다고 하고 A와 B는 서로 종속사건이라고 한다.

P(B|A) ≠ P(B∩Ac) ß P(B|A) ≠ P(B)

*종속사건의 곱셈정리 : 사건 A, B가 종속사건일 때 P(A∩B) = P(A)·P(B|A) (3) 독립사건

두 사건 A, B에 대하여 사건 A가 일어나든 일어나지 않든 사건 B가 일어날 확률 이 달라지지 않을 때 이 두 사건 A와 B는 서로 독립사건이라고 한다.

P(B|A) = P(B|Ac) ß P(B|A) = P(B)

* 독립사건의 곱셈정리 : 사건 A, B가 독립사건일 때 P(A∩B) = P(A)·P(B)

(15)

확률 분포

• 한 시행에서 변량 X 가 취할 수 있는 값에 대하여, X 가 취할 수 있는 값, 에 대응하는 확률을

• 이라고 할 때 이들의 관계를 확률 분

포라고 하고, 이 관계를 표로 나타낸 것을 확률분포표라 고 한다

x

n

x x

x

1

,

2

,

3

, L , p

n

p p

p

1

,

2

,

3

, L ,

확률분포

이산확률분

베르누이분

이항분포 포아송분포

연속확률분

균등분포 정규분포 지수분포

(16)

확률변수와 확률분포

1. 확률변수와 확률분포 (1) 확률변수

1) 변수 X가 취할 수 있는 모든 값이 x

1

, x

2

,···,x

n

이고

이들 각각의 값을 취할 확률 p

1

, p

2

,···,p

n

이 주어질 때, 이 변수 X를 확률변수 또는 이산확률변수라 한다.

2) X = x

i

에서 확률을 P(X = x

i

) 또는 p

i

로 나타낸다.

(2) 확률분포

확률변수 X가 취하는 값 x

i

와 X가 x

i

를 취하는 확률 P(X = x

i

)와의 대응 관계를 X의 확률분포라 하고, 이것을 위와 같이 표로 나타낸 것을 X의 확률분포표라고 한다.

(3) 확률분포의 성질

P(X = x

i

)= p

i

(i=1, 2, , n)일 때, 1) 0 <= p

i

<=1

2) p

1

+ p

2+

···+p

n

= 1

3) P(X = x

i

또는 X = x

j

) = P(X = x

i

) + P(X = x

j

) = p

i

+ p

j

(단, i

j)

* 도수분포에서의 변량을 확률분포에서는 변수라고 한다.

X = xi x1, x2,···,xn P(X = xi ) p1, p2,···,pn

(17)

2. 확률변수의 평균과 표준편차 (1) 확률변수의 평균

확률변수 X의 평균(또는 기대값)을 E(X) 또는 m으로 나타내면 오른쪽 확률분포표에서 확률변수 X의 평균은

E(X) = m = = x1p1+ x2p2+···+xnpn

* E(X)에서 E는 Expectation(기대값)의 첫 글자이고, m은 mean(평균)의 첫 글자이다.

(2) 확률변수의 분산과 표준편차

확률변수 X의 평균이 m일 때, (X-m)2의 평균 E{(X-m)2}을 X의 분산이라 하고 V(X) 또는 б2(X)로 나타낸다.

1) 분산 : V(X) = (xi-m)2pi = xipi-m2

2) 표준편차 : б(X) = V(X) = (xi-m)2pi = xipi-m2

* V(X)의 V는 Variance(분산)의 첫 글자이다.

* D(X)에서 D는 standard deviation(표준편차)에서 deviation의 첫 글자이다.

б는 standard의 s에 해당하는 그리스 문자이고 ‘시그마’라고 읽는다.

Ex) 두 개의 동전을 동시에 던질 때, 앞면이 나오는 동전의 개수를 확률변수 X라 할 때, X의 평균, 분산 및 표준편차를 구하여라.

E(X) = 0x1/4+1x2/4+2x1/4 = 1

V(X) = 02x1/4+12x2/4+22x 1/4 -12 = ½ б(X) = ½ = 2/2

X x1, x2,···,xn 계 P(X) p1, p2,···,pn 1

n

∑ xi=1 ipi

n

i=1 n

i=1 n

i=1 n

i=1

X 0 1 2 P(X) 1/4 2/4 1/4 1계

(18)

3. 확률변수의 변환

(1) V(X) = E(X2) – {E(X)}2 (2) E(aX+b) = aE(X)+b

(3) V(aX+b) = aV(X) (4) б(aX+b)=|a|б(X) (단, a, b는 상수) Ex) 확률변수 X의 평균이 1, 표준편차가 ½일 때

(1) E(4X+1)=4E(X)+1=4x1+1=5 (2) V(4X+1) = 42V(X) = 16x1/4=4

(3) б(4X+1) = |4|б(X)=4x1/2=2 (4) E(X2) = V(X) + {E(X)}2 = 1/4 + 12 =5/4

u 확률변수의 분산과 표준편차

도수분포에서 각 도수 f1, f2, ··· ,fn 을 총도수 N으로 나눈 값 즉, 상대도수 f1/N, f2/N, ··· ,fn/N

을 확률 p1, p2, ···,pn으로 나타내면 도수분포가 확률분포로 바뀐다.

도수분포표의 평균과 분산의 공식을 이용하면 m = 1/N∑xifi = ∑xifi/N = ∑xipi

б(X) = 1/N∑(xi-m)2fi = ∑(xi-m)2fi/N = ∑ (xi-m)2pi

또, 확률분포에서 V(X) = ∑xi2pi-m2 을 유도하여 보자.

V(X) = ∑ (xi-m)2pi = ∑(xi2-2xim+m2)pi = ∑xi2pi-2m∑xipi+m2 ∑pi

= ∑xi2pi-2m*m+m2 *1 = ∑xi2pi-m2

변량 x1, x2,···,xn 계 도수 f1, f2, ···,fn N X x1, x2, ···, xn

P(X) f계 1/N, f2/N, ···, fn/N 1

(19)

베르누이 분포와 이항분포

1. 이항분포

베르누이 분포는 출현 사건이 상호배반적인 두 가지 경우만 나타나는 것을 일컫는다.

어떤 사건 A가 1회의 시행에서 일어나는 확률을 p, 일어나지 않을 확률을 q=1-p라고 한다. 이 시행이 n회 독립적으로

반복될 때 사건 A가 일어나는 횟수를 확률변수 X라 하면 X의 확률분포는 위와 같고 이 것을 식으로 나타내면 다음과 같다.

P(X=r)=nCrprqn-r (단, p+q=1, r=0, 1, 2, ···, n)

이와 같은 확률분포를 이항분포라 하고 B(n, p)로 나타낸다. 또, X는 이항분포 B(n, p)에 따른다고 한다.

* B(n, p)의 B는 binomial distribution(이항분포)의 첫 글자이다.

Ex) 3개의 동전을 던질 때, 앞면이 나오는 개수를 X 라고 하면 X가 취할 수 있는

값은 0, 1, 2, 3이고 위와 같다. 이 때 X가 0, 1, 2, 3 일 때의 확률은 p=q=1/2일 때 (p+q)3의 전개식, 즉 (p+q)3 = 3C0p0q3 + 3C0p0q3

* 참고 : nC0p0qn + nC1p1qn-1 + nC2p2qn-2 + + nCnpnq0 = (p+q)n = 1

X=r 0 1 2 ··· n 계 P(X) nC0p0qn nC1p1qn-1 nC2p2qn-2 ··· nCnpnq0 1

X=r 0 1 2 3 계 P(X) 3C0 ½0 ½3 3C1 ½1 ½2 3C2 ½2 ½1 3C3 ½3 ½0 1

(20)

2. 이항분포의 평균과 표준편차

확률변수 X가 이항분포 B(n,p)를 따를 때

평균 : E(X)=m=np, 분산 : V(X)=npq, 표준편차 : б(X)= npq (단, q=1-p)

Ex) 확률변수 X가 이항분포 B(18, 2/3)를 따를 때, X의 평균, 분산, 표준편차를 구 하여라.

n = 18, p=2/3이므로 E(X)=np=18x2/3=12

V(X)=npq=18x2/3x(1-2/3)=4, б(X)= npq = 4 = 2 3. 큰 수의 법칙

어떤 시행에서 사건 A가 일어날 확률이 p이고, 이 시행을 독립적으로 n회 되 풀이 할 때, A가 일어나는 횟수를 X라 하면, n이 매우 클 때 상대도수 X/n는 p에 가까워진다. 이것을 큰 수의 법칙이라고 한다.

lim P(|X/n - p|<a)=1 (a는 임의의 양수) Ex) 한 개의 주사위를 30회 던질 때 위의 표를 이용하여 1의 눈이 3번 이상 6번

이하가 나올 확률을 구하여라.

n=30일 때, 1이 나오는 횟수를 X라 하면

P(3<=X<=6) = P(X=3)+P(X=4)+P(X=5)+P(X=6)

= 0.137 + 0.185 + 0.192 + 0.160 = 0.674

nà∞

(21)

* 큰 수의 법칙 lim P(|X/n - p| < a)=1은 “n이 커지면 n회의 시행 중 사건 A가 일어날 상대도수 X/n와 수학적 확률 p가 같게 될 확률이 1에 가까워진다.”는 뜻이

다.

설명) 이항분포 B(n, p)에서 p=1/6, q=5/6, n=10, 30, 50일 때의 이항분포와 그래프는 다음과 같다. P(X=x) = nCx(1/6)x(5/6)n-x

nà∞

n=10

n=30 n=50

2 4 6 8 10 12 14 16 18 x

p(x)

0.1 0.2 0.3

pxn 10 30 50

P0 0.162 0.004 0.000 P1 0.323 0.025 0.001 P2 0.291 0.073 0.005 P3 0.155 0.137 0.017 P4 0.054 0.185 0.040 P5 0.013 0.192 0.075 P6 0.002 0.160 0.112 P7 0.000 0.110 0.140 P8 ··· 0.063 0.151 P9 ··· 0.031 0.141

px 10 30 50

P01 ··· 0.013 0.116 P11 ··· 0.005 0.084 P12 ··· 0.001 0.055 P13 ··· 0.000 0.032 P14 ··· ··· 0.017 P15 ··· ··· 0.008

P16 ··· ··· 0.004

P17 ··· ··· 0.001 P18 ··· ··· 0.001

··· ··· ··· ···

n

이 그래프에서 알 수 있듯이 이항분포의 그래프는 p를 일정하게 하고 n을 크게 하면 선대칭인 산모양의 곡선으로 되어간다.

(22)

이항누적분포함수표 사용법

22

(23)

포아송 분포

• 프랑스 수학자 포아송 Poisson (1781~1840)으로부터 비롯된 이름

• 포아송 분포(Poisson distribution): 점 분포와 같이 발생할 확률이 드물고 무 작위적일 경우에 나타나는 분포

• 포아송 분포는 보통 공간이나 시간 단위에서 발생하는 사건의 밀도를 바탕 으로 계산

• 예를 들어, 격자형의 방안에 점이 위치한다면 각 방안에 위치한 점의 수가 계산에 이용

• 포아송 분포의 특징은 평균과 분산이 모두 동일하며, 음수를 가질 수 없으 므로 자연적으로 정규분포와는 거리가 있는 왜곡도와 비대칭적인 형태.

• 만약 사건의 밀도가 증가한다면 정규분포곡선에 가깝게 되므로 Z 값을 이 용

<예> 일정지역에서 일정기간에 일어나는 교통사고건수/자살건수 일정기간에 백화점 방문 고객수, 공장에서 발생하는 안전사고수 공장이나 상점의 입지

(24)

24

포아송분포

• 포아송분포 적용의 필요조건

– 단위시간 내에서의 사건 발생 수는 다른 단위시간에서의 사건 발생 수 와 서로 독립적이다.

– 극히 작은 단위시간에서 둘 또는 그 이상의 사건이 발생할 확률은 0 으로 간주. 10분 동안 평균 열 통의 전화가 온다고 할 때 1초 동안 걸 려오는 전화통화수는 0으로 본다.

– 단위시간은 더 작은 단위시간으로 나눌 수 있으며 작은 단위시간에서 사건이 발생할 확률은 작아진다. 즉, 확률은 구간의 길이에 비례한다.

• 포아송분포의 확률질량함수

) ! ( )

(

x

x e f x

X P

l

x l

=

-

=

=

)

( 71828 .

2 자연로그의밑수

= e

평균발생횟수 단위시간당

일정

l

=

3L , 2 , 1 ,

= 0 x

(25)

25

포아송분포

포아송분포와 이항분포의 비교

• N 이 비교적 크고( ) 성공의 확률 π가 매우 작은( ) 경우, 이항분포의 확률값은 포아송분포의 확률값에 접근

n ³ 20

) ! 1

( x

C

x x n x

e

x

n

p × - p

-

@

-l

l

l ) = (X

E

Var (X ) = l

p l = n

05 .

³ 0 p 포아송분포의 기대값과 분산

(26)

<예제 >

X ~ b ( 100,0.02 )

( ) ( )

( ) ( )( )

100

99

0 0.98 0.133

1 100 0.02 0.98 0.271 P X

P X

= = =

= = =

( )

~ , 100 0.02 2

X Poi

l l =

np

= ´ =

( )

( )

2 2

0 0.135 1 2 0.270

P X e

P X e

- -

= = =

= = =

n 이 크고 p 가 작되 np<5 이면 이항분포확률의 포아송근사화가 좋다.

-24-

( ) ( )

E X Var X l

Þ = =

( )

( 1 )

2

E X E X X

l

l

=

é - ù =

ë û Þ Var X ( ) = l

• 포아송분포표

( )

0

!

k x x

P X k e

x l

-l

=

£ = å

(27)

포아송분포

포아송분포는 모수 parameter 가 클수록 기대값이 커짐과 동시에 기대 값을 중심으로 퍼지는 정도도 넓어진다.

포아송분포의 성질 :

(28)

(1) 10묶음에는 평균 1.5개의 결함,

10 묶음 안에 결함이 있는 CD의 수 : X ∼ P(1.5)

(2)

예: 10개들이 CD 1묶음에 평균 0.15개의 결함이 있으며, 결함이 있는 CD의 수는 포아송분포에 따른다고 한다. 10묶음을 샀을 때,

(1) 이 가운데 결함이 있는 CD가 두 개일 확률을 구하여라.

(2) 적어도 두 개 이상의 CD에 결함이 있을 확률

X의 p.m.f. :

(29)

포아송분포

포아송 누적분포 함수표 사용법

(30)

<예제 > X

~

Poi

( ) 2

( 2 6 ) ( 6 ) ( 1 ) 0.995 0.406 0.589

P

£

X

£ =

P X

£ -

P X

£ = - =

0 1 2 3 4 5 6 7

p(x)

x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1

p(x)

x

포아송분포

=1

(a) l (b) l =8

-26-

(31)

연속확률 분포

1. 연속확률변수

확률변수 X가 어떤 구간 안에 있는 모든 실수값을 취할 때, X를 연속확률변수라고 한다.

2. 확률밀도 함수

(1) 연속확률변수 X의 구간이 [α, β]이고, 이 구간에 포함되는 구간 [a, b]안에 X가 들어 있 을 확률 P(a<=X<=b)가

P(a<=X<=b) = ∫ba f(x)dx 를 확률밀도함수라고 한다.

(2) 확률밀도함수 f(x)는 다음 성질을 갖는다.

1) f(x) >= 0 2) ∫βαf(x)dx = 1

* 불량품의 개수, 동전의 앞면의 개수 등과 같이 확률변수가 뚝뚝 끊어져 있을 때를 이산 확률변수라고 한다.

* 길이, 무게, 시간 등과 같이 어떤 구간에서 연속적인 값을 취하는 확률변수를 연속확률 변수라고 한다.

* 연속확률변수가 취하는 값의 전 범위에 대응하는 확률밀도함수를 식이나 그래프로 나타 낸 것을 연속확률분포 또는 연속분포라고 한다.

* P(a<=X<=b) = ∫ba f(x)dx 의 의미 è X가 a와 b사이에 속할 확률 (a에서 b까지 f(x)를 적 분한 것과 같다. 즉, y=f(x)와 x축 및 x=a, x=b로 둘러싸인 부분의 넓이와 같다.)

P(a<=X<=b)

α a b β

Y=f(x) x

(확률)=(넓이) 전체길이는 1

(32)

3. 연속확률변수의 평균, 분산, 표준편차

(1) 연속확률변수 X의 구간이 [α, β]이고 확률밀도함수가 f(x)일 때 1) 평균 : m=E(X)= ∫βα xf(x)dx

2) 분산 : V(X)= ∫βα (x-m)2f(x)dx = ∫βα x2f(x)dx-m2 ßm=E(x) 3) 표준편차 : б(X) = V(X) = ∫βα(xi-m)2f(x)dx = ∫βα x2f(x)dx-m2

(2) 연속확률변수 X의 평균, 분산, 표준편차에는 다음과 같은 성질이 있다.

1) E(aX+b)=aE(X)+b 2) V(aX+b)=a2V(X) 3) V(X)=E(X2)-{E(X)}2 4) б(aX+b)=|a|б(X)

ex) 연속확률변수 X의 확률밀도함수 f(x)가 f(x)=1/2x(0<=x<=2)로 주어질 때, X의 평균 및 분산을 구하여라.

* 보충학습

1.이산확률변수의 연속확률변수의

평균과 분산 평균과 분산

m = m = ∫βα xf(x)dx б2 = (xi-m)2pi б2 = ∫βα(xi-m)2f(x)dx

n

∑ xi=1 ipi

n

i=1

대신

n

i=1 βα xi 대신 x

f(x)dx 대신

를 대입 pi

(33)

u 도수분포, 이산확률분포, 연속확률분포의 비교

도수분포 이산확률분포 연속확률분포

분포와 그래프

전도수 (전넓이) 평균 분산

xi x1, x2,···,xn fi f1, f2,···,fn

x x1, x2,···,xn pi p1, p2,···,pn

a b

y=f(x)

x

n i=1

∑ xi pi=N(전도수) n

i=1

∑ pi=1(전넓이)

n i=1

∑ xi pi

m=1/N m=E(X)= n

i=1

∑ xi pi

n i=1

∑ x2i fi –m2

б2=1/N n

i=1

∑ x2i pi –m2

V(X)= V(X)=∫βα x2 f(x)–m2

βα xf(x)dx m=E(X)=

βα xf(x)dx = 1(전넓이)

<도수분포그래프>x <도수분포그래프>x

(34)

정규분포

1. 정규분포(

N

ormal Distribution)

연속확률변수 X의 확률밀도함수 f(x)의 정의역이 (-∞, ∞)이고 f(x)=

으로 나타내어지는 확률분포를 정규분포라 하고, 이 확률밀도함수 f(x)의 그래프를 정규분포곡선 또는 정규곡선이라고 한다. 이 때, 확률변수 X는 평균 E(X)=m, 분산 V(X)=б2인 정규분포를 이룬다고 하고 기호는 N(m, б2) 으로 나타낸다.

б 2π1

e

2

(x-m)2 -

설명)

한 개의 주사위를 n회 던진 때, 1의 눈이 나올 확률은 여기서 n=10, 20, 30, 50일 때 의 그래프를 그리면 오른쪽 그림과 같다. 이 그래프는 n의 값이 작을 때는 비대칭형이 지만n의 값이 커질수록 산 모양의 좌우대칭형에 가까워진다.

그래서 n의 값이 한없이 커질 때 이 곡선의 방정식은

y=f(x)= 임이 알려져 있다. 확률분포곡선의 방정식이 위와 같이 나타내어지는 확률분포를 정규분포 라고 한다.

б 2π1

e

-(x-m)2 2

n=10 n=20

n=30 n=50

x f(x)

0.1 0.2 0.3

2 2

2 ) (

2 ) 1

(

s

p s

m x

e x

f

- -

=

(35)

2. 정규분포의 성질

평균이 m이고 분산이 б2인 정규분포곡선은 다음과 같은 성질이 있다.

(1) 직선 x=m에 대하여 대칭이고, x=m에서 최대값을 가진다.

(2) x축을 점근선으로 한다.

(3) 곡선과 x축 사이의 넓이는 1이다.

(4) 표준편차 б가 클수록 정규분포곡선의 높이는 낮아지고 폭이 넓어지며, б가 작을수록 높아지고 좁아진다.

(5) 확률변수 X가 정규분포 N(m, б2)을 따를 때,

P(m-б ≤ X ≤m+ б) ≒ 0.683, P(m-2б ≤ X ≤m+ 2б) ≒ 0.954 P(m-3б ≤ X ≤m+ 3б) ≒ 0.997

m-б m m+б x 0.683

m-2б m m+2 x б

0.954

m-3б m m+3б x 0.997

m б=1

б=2 б=3

Ex) 확률변수 X가 정규분포 N(20, 52)을 따를 때, 확률 P(20 ≤ X ≤ 30)을 구하여라.

N(20, 52)에서 평균값 m=20, 표준편차 б =5이므로 P(20 ≤ X ≤ 30) = P(20 ≤ X ≤ 20+10)

= P(m ≤ X ≤ m+2б)

= ½ P(m- 2б≤ X ≤ m+2б) = ½ * 0.954 = 0.477 m-2б m m+2 x б

(36)

3. 표준정규분포

(1) 확률변수 X가 정규분포 N(m, б2)을 따를 때, 새로운 확률변수 Z를 Z=X-m/

б이라 놓으면 확률밀도함수는 y= Φ(z) = 으로 표시되고 새로운 확률변수 Z는 평균과 표준편차가 각각 0, 1인 정규분포 N(0, 1)을 따른다. 이 때, N(0, 1)을 따르는 정규분포를 표준정규분포라 한다. 이와 같은 정규분포 N(m, б2)을 N(0, 1)로 고치는 것을 표준화라 하고 새로운 확률변수 Z=X-m/б 을 표준측도라고 한다.

(2) 정규분포를 표준정규분포로 고치는 방법

표준측도 Z=X-m/б을 이용하여 표준화한다. a>0, b>0일 때

① P(a≤ Z ≤b) = P(0≤ Z ≤b) - P(0≤ Z ≤a)

② P(-a≤ Z ≤b) = P(-a≤ Z ≤0) - P(0≤ Z ≤b) = P(0≤ Z ≤a) - P(0≤ Z ≤b)

③ P(Z ≥ b) = 0.5 - P(0≤ Z ≤b)

Ex) 확률변수 X가 정규분포 N(20, 32)을 따를 때, 표준정규분포를 이용하여 확률 P(20 ≤ X ≤ 23)을 구하여라.(단, P(0 ≤ Z ≤ 1) = 0.3413)

N(20, 32)에서 m=20, б=3

Z = (X-20)/3에서 X=20일 때, Z = (20 – 20)/3 = 0, X=30일 때, Z = (23 – 20)/3

= 1

∴ P(20 ≤ X ≤ 23) = P(0 ≤ Z ≤ 1) = 0.3413 2π1

e

z2

2

-

(37)

4. 이항분포와 정규분포와의 관계

확률변수 X가 이항분포 B(n, p)를 따를 때, n이 충분히 크면 X의 분포는 근사적 으로 정규분포 N(np, npq)를 따른다는 것이 알려져 있다. (라플라스의 정리) 이항분포 B(n, p) è 정규분포 N(np, npq) ß q = 1-p

Ex) 확률변수 X가 이항분포 B(720, 1/6)을 따르면 m = np = 720*1/6 = 120, б = npq = 720 * 1/6 * 5/6 = 10이므로 X는 정규분포 N(120, 102)을 따른다고 볼 수 있다.

(38)

38 평균 X1

표준편차

정규분포(평균 μ, 분산σ

2

)

확률변수 X는 X ~ N(μ, σ2)

0 Z 1

? Z

표준정규분포(평균0, 표준편차1)

확률변수 Z은 Z ~ N(0,1)

s

m

i

-

i

Z = x Z 변환

정규분포

) ,

(

~

N

m s

2 X

표준정규분포

) 1 , 0 (

~ N

2

Z

※ 표준정규분포 및 확률밀도함수에서 넓이=비율=확률

표준정규분포(Standard Normal Distribution) 변환

(39)

39

− t-분포는 정규분포보다 더 넓게 퍼져 있고, 꼬리부분이 더 평평함.

− 평균을 중심으로 대칭이고, 종 모양을 띄고 있어 정규분포와 형태가 유사함.

− 표본크기가 커질수록 분포가 중심부근에서 점점 뾰족해 지고, 표본의 크기가 30이상이면 정규분포가 거의 같아짐.

정규분포(n ≥30)

t (5) :자유도 5인 t 분포

m

t (10) : 자유도 10인 t 분포

표본분포(Sample Distribution) :t-분포

(40)

40

카이제곱 분포는 표본분산 s2과 관련된 분포임.

확률 변수 가 각각 표준정규 분포 N(0,1)을 따르고, 서로 독 립일 때

그들 제곱합 l I 은 자유도 k 인 카이 제곱분포 χ2(k) 를 따른다.

모집단 분산 추론에 카이제곱 분포 이용한다

k

1 Z

Z

, × ×× ,

2 2

2 2

1 z zk

z + +× ××+

) 1 ( ) ~

1

(

2

2

2

-

-

S n

n

c

s

) ,

2

( a c k

a a

) 1

,

2

( a

c k -

표본분포 : χ²(카이제곱)분포

(41)

41

F-분포는 두 정규모집단의 분산을 비교하기 위한 추론에 주로 사용.

확률 변수 χ12과 χ22가 각각 자유도 ν1(분자의 자유도)과 ν2(분모의 자유 도)인 카이 제곱분포를 따르며 서로 독립이라고 할 때, 통계량 는 자유도 (ν1, ν2)인 F-분포(ν1, ν2)를 따른다.

2 2 2

1 2 1

/ /

n c

n

= c F

표본분포 : F 분포

(42)

6시그마를 위한 기초통계 42

구 분 계수형 확률 분포 계량형 확률 분포

종 류 이항 분포 포아송 분포 정규 분포 표준 정규 분포

특 징 불량형 데이터를

대표하는 분포

결점형 데이터를 대표하는 분포

계량형 데이터를 대표하는 분포

평균이0 이고, 표준편차가 1 정규 분포

용 도

결과가 성공/실패 불량/양품 등

두 가지로 표현되는 데이터의 확률 계산

일정 단위(연속적인 시간,공간,면적, 구간 등)당

특정한 사건이 일어날 확률 계산

정규분포를 따르는 데이터의 확률 계산

정규분포의 확률 계산을 편리하게 해 줌.

또한 서로 다른 계량 형 데이터를 객관적으로 비교

대표적 확률분포

요약

참조

관련 문서

&lt;참고&gt; WTO설립을 위한 마라케쉬 협정

확률변수와 확률분포 (Random Variable. &amp;

의의: 완성품 환산량(equivalent units)이란, 일정기간에 투입한 원가를 만일 그 기간 에 완성품만을 생산하는 데 투입했더라면 달성되었을 완성품

즉, &lt;FRAME&gt; 태그의 name 속성을 이용하여 프레임의 이름을 지정하고, &lt;A&gt; 태그의 target 속성에 그 이름을 지정하면 지정된

&lt;예&gt; 야외에 나가서 시냇물이 졸졸 흘러가는 것을 보면서 마음이 평 상시와는 다르게 착 가라앉는 것을 경험한 적이 없는가.. 이런

&lt;충무공 이순신 리더십 함양과정&gt; 운영 사후협의회 연산중학교. &lt;미래를 준비하는

확률과 집합의 용어

[r]