제 4장. 확률분포

(1)

1

제 4장. 확률분포

(

Probability Distribution

⁾

확률분포는 측정값이 정수로 나타나는 이산확률분포와 실수 값으로 나타나는 연속확률분포로 나 뉜다.

이산 확률분포의 종류: 이항분포, 포아송 분포, 초 기하분포, 음 이항분포, 다항분포 연속 확률분포: 정규 분포,

t

분포,



²^분포,

F

분포, 지수 분포

4.1 확률변수와 확률분포

확률은 표본공간의 수직선 위에서 변수에 대한 높이로 나타나며, 이러한 수직선 상의 수를 확률변 수(Random Variable)라 하고, 확률변수

x

는 표본공간에서 정의된 실수 함수로 정의한다.

(예 1) 동전 하나를 던져 앞면이면

1

^{, 뒷면이면}0을 취하는 변수

x 1 (head)

0 (tail) x 

  

각각이 나올 확률은 1/ 2이므로 이에 대한 표기는

( 1) 1

P x   2

^,

1 ( 0) P x   2

이때 수직선 상에는

x

^가

1, 0

인 두 수가 있고, 각 수에 대한 높이인 1/ 2은 확률이 된다.

(예 2) 동전을 두 번 던져 나오는 변량을

x

라 하면 두 번다 앞면이 나오는 변수 값을 0^{, 한 번}

은 앞면 한 번은 뒷면인 경우를

1

, 두 번다 뒷면의 경우를

2

로 변량화 한다. 여기서 표본 공간은

{ , , , } S  hh ht th tt

^이다.

부분 공간은

E

_o



{

hh

}^,

E

₁



{ ,

ht th

}^,

E

₂



{ }

tt

이들을 확률변수로 나타내면

( 0) ( ) 1

o

4 P x   P E 

^, ₁

2 ( 1) ( )

P x   P E  4

^, ₂

1 ( 2) ( )

P x   P E  4

앞으로 표본공간

S 

{ ,

e e

₁ ₂, , }

e

_n ^{는 확률변수}

x 

{ ,

x x

₁ ₂, ,

x

_n}로 대치하여 사용하며 어떤 특 정변수 값

x

_i에 대한 확률은

P x

( )_i 로 표시된다.

4.1.1 이산 확률변수

확률변수

x

가 취하는 모든 값은 셀 수 있는 정수 값인

x x x

₁, ₂, ₃, ,

x

_n을 가지며 이것은 이산 확 률변수 이고, 여기에 확률 값을 대응시킨 함수를 확률 질량함수(Probability Mass Function)라 한 다. 즉 질량함수는 다음과 같이 표시된다.

( ), , 1, 2,

( ) 0, others

i i

P x x x x i

f x    

   ( )

f x

^{의 성질}

(1) 모든

x

^{에 대하여}

f x

( )_i



0

(2)

2 (2)

1

( ) 1 1

n

i i

f x p





  

 

(3) ( ) ( )

i

i a x b

P a x b f x

 

   

이것의 일반적인 그래프는 막대 그래프이다.

[보기 4_1] 동전을 3회 던져 나오는 변수를

x

라 하자. 그러면

x

는 세 번 모두 앞면인 경우 (

hhh

^)를 0, 두 면이 앞이고 한 면이 뒤인 경우(

hht

^,

hth

^또는

thh

^)를

1

, 한 면이 앞이고 두 면이 뒤인 경우(

htt

^,

tht

^또는

tth

^)를

2

, 그리고 모두 뒷면인 경우(

ttt

)를 3으로 한 변량이다. 변 수

x

에 대한 확률을 각각 구하여라.

(풀이) 세 번 던져 나올 수 있는 짝, 즉 표본 공간

S

와 변수에 대한 확률은 다음과 같다.

{ , , , , , , , }

S  hhh hht hth thh htt tht tth ttt ( 0) 1

P x   8

^,

3 ( 1)

P x   8

^,

3 ( 2)

P x   8

^,

1 ( 3) P x   8

변수

x

^{에 대한 확률}

P x

(

 x

_i)를 도표로 요약하면

x

i

P x

(

 x

_i) 표본 공간

0 1/ 8

{ hhh }

1 3 / 8

{ hht },{ hth },{ thh }

2 3 / 8

{ htt },{ tht },{ tth }

3 1/ 8

{ } ttt

4.1.2 연속 확률변수

셀 수 없이 연속적으로 나타나는 변수이며, 이것의 그래프는 일반적으로 히스토그램이다. 확률의 수학적 표현은

( ) ^b ( )

P a   x b  

a

f x dx

확률밀도 함수

f x ( )

^{의 성질}

(1)

f x ( )  0

(2) ^

f x dx

( ) 1







(3) ( ) ^b ( )

P a   x b  

a

f x dx

[보기 4_2] 다음의 확률밀도 함수에 대해 (1)

c

의 값을 구하라. (2)

P (1   x 2)

^{의 값을 구하여}

라.

2 0 3

( ) 0 others

cx x

f x   

  

(3)

3 (풀이) (1)

3 2 3 3

0 0

[ ] 9 1 1

3 9

cx dx  c x  c   c 



(2)

2 3

2 2

1 1

1 1 1 8 1 7

(1 2) [ ] ( )

9 9 3 9 3 3 27

P   x   x dx  x   

4.1.3 누적 분포함수(Cumulative Distribution Function)

단순히 분포함수라고도 하며

x  x

_i^또는

x  x

_i에 해당하는 누적된 면적의 확률 함수이다. 이것 은 다음과 같이 정의된다.

이산인 경우: ( )_i ( _i) ( )_i

xi

F x  P x  x   p x

연속인 경우:

F x

( )_i

P x

(

x

_i) ^x

f t dt

( )

   



이산인 경우 누적분포 함수는



로부터

x

_i까지 사이에 있는 모든 확률변수에 대한 확률을 더한 값이며, 연속인 경우는 적분한 것으로 그것은 우측의 그림처럼 적분면적에 해당한다.

[보기 4_3] 다음의 확률밀도 함수에서 분포함수를 구하여라.

1

2

0 3

( ) 9

0 others

x x

f x

  

  



(풀이) (1)

x 

0:

F x ( )  0

(2) 0

  x

3^: ² ³

0 0

( ) ( ) 1

9 27

x x

x

F x   f t dt   t dt 

(3)

x 

3^: ³ ³ ² ^{3 3}₀

0 0

1 1

( ) ( ) [ ] 1

9 27

F x   f t dt   t dt  t 

누적분포 함수의 성질 (1)

0  F x ( ) 1 

(2)

x

₁

 x

₂^이면

F x

( )₁

 F x

( )₂

(3)

P a (   x b )  F b ( )  F a ( )

(4) lim ( ) 1, lim ( ) 0

x

F x

x

F x





 



(5) 확률밀도 함수:

( ) d ( )

f x F x

 dx

(6)

F x ( )

는 우측으로 연속

[보기 4_4] 확률밀도 함수가 다음과 같을 때

x

의 분포함수를 구하고 이를 써서

(0 1)

P   x

^{을 구하여라.}

2

, 1 2

( ) 3

0, others

x x

f x

   

  



(풀이) (1)

x  

1^:

F x ( )  0

(4)

4 (2)

  

1

x

2^: ² ³

1

( ) 1

3 9

x

F x t dt

 





(3)

x 

2^: ² ² ^{3 2}₁

1

1 1 1

( ) [ ] (8 1) 1

3 9 9

F x t dt t

_

 



   

(4)

1 (0 1) ( 1) ( 0)

P    x F x   F x   9

4.2 기대값과 분산

확률변수는 평균과 분산을 가지며 이는 해당 모집단의 평균과 분산이다. 확률변수

x

^{에 대한 평균}

을 기대 값이라고도 하며 분산과 함께 확률분포의 특징을 나타낸다.

4.2.1기대값(Expected Value)

확률변수

x

^{가취하는값을}

x x

₁, ₂, ,

x

_n, 확률을

p x

( ),₁

p x

( ),₂ ,

p x

( _n)이라하면 즉

P x

(

 x

_i)

 p x

( )_i

확률변수

x

의평균또는기대값:

x p x

₁ ( )₁

 x p x

₂ ( )₂

  x p x

_n ( _n)

기대값은확률변수

x

의중심적경향을나타내는값으로대표값이며, 기호로

E x ( )

^{또는평균이라는의미에}

서



로표시한다.

확률변수

x

에 대한 기대값(평균) (1)

x

가 이산 확률변수 일 때:

1

( ) ( )

n

i i

i

E x x p x



 

(2)

x

가 연속 확률변수 일 때:

E x

( ) ^

xf x dx

( )

 



여기서

1

( ) 1

n i i

p x



 

^,

1 1 1

( ) ( ) ( ) ( ) 0

n n n

i x i i i x i x x

i i i

x  p x x p x  p x  

  

     

  

x

^{의 함수}

g x ( )

^{의 기대값}

x

가 이산 확률변수 일 때:

1

{ ( )} ( ) ( )

n

i i

i

E g x g x p x



 

x

가 연속 확률변수 일 때:

E g X

{ ( )} ^

g x f x dx

( ) ( )

 



[보기 4_5]

2

개의 주사위를 던질 때 나오는 눈금의 합을 확률변수

x

^{라 할 때,}

x

^{에 대한 평균}

( )

E x

^{를 구하여라.}

(풀이)

x

가 취할 수 있는 값:

2,3, 4, ,12

각 수에 대한 확률:

1 2 3 1 , , , , 36 36 36 36

기대값(평균값):

1

1 2 5 6 5 1

( ) ( ) (2 ) (3 ) (6 ) (7 ) (8 ) (12 ) 7

36 36 36 36 36 36

n

i i

i

E x x p x



                

(5)

5

이것을 일상적인 방법(Conventional Method)으로 평균치를 구해보자.

2,3, 4, ,12

^{의 도수는}

n 

11개

2 3 12 77

11 11 7

x      

[보기 4_6] 복권

100, 000

매를 판매하고 당첨자 수와 상금은 아래와 같다. 복권 한 장 당 기대할 수 있는 당첨금은 얼마인가?

등 수 당첨자 수 상금 1 등

2 등 3 등 등 외

1 100 1,000 98,899

1,000,000 100,000

10,000 0

(풀이) 1

( ) [(1 1, 000, 000) (100 100, 000) (1, 000 10, 000) 100, 000

E x      

21, 000, 000 100, 000 210

 

평균계산으로 구해보면 총 도수는

100, 000

^.

총 상금은 각 도수에 상금을 곱한 것이므로 계산은 위와 동일하게 나온다.

따라서 한 장 당 받을 수 있는 평균은 210^.

[보기 4_7] 확률변수가 다음과 같은 확률분포를 가질 때

E x

[(



1) ]² 의 기대 값을 구하여라.

x

⁰ ¹ ² ³

( )

f x

^1/6 ^1/3 ^1/3 ^1/6

(풀이) ² ²

1 1 1 1 7

[( 1) ] ( 1) ( ) (1 ) (0 ) (1 ) (4 )

6 3 3 6 6

E x    x  f x

i

        

기대 값의 성질

1 2

, , ,

a b c c

는 상수일 때 (1)

E a ( )  a

^,

E ax ( )  aE x ( )

(2)

E x (  y )  E x ( )  E y ( )

(3) 확률변수

x y ,

^{가 독립:}

E xy ( )  E x E y ( )  ( )

(4)

E ax b (  )  aE x ( )  b

(5)

E c g x

[ _{1 1}( )

 c g x

₂ ₂( )]

 c E g x

₁ [ ( )]₁

 c E g x

₂ [ ₂( )]

[보기 4_8] 주머니에 흰 공(

w

^{로 표시)}3개, 검은 공 (

b

^{로 표시)}5개가 들어 있다. 주머니에서

2

개를 꺼낼 때 색이 같으면

1, 000

원, 색이 다르면 500원을 준다. 평균적인 기대 값은 얼마인가?

(풀이) 모두 흰색 또는 검은 색을 꺼낼 확률:

1 3 2 5 2

8 2

1 3 10 13

[ ]

8!/ 2! 6! 28

p C C

C

    



(6)

6 색이 다를 확률: ₂ ₁

15 1 28

p   p 

기대값: _{1 1} ₂ ₂

13 15

( ) ( )(1, 000) ( )(500) 196

28 28

E x  p x  p x   

[보기 4_9] 확률변수

x

에 대한 값의 평균이

12

^{일 때}

y  3 x  1

의 평균 값을 구하여라.

(풀이)

E x ( ) 12 

^,

E y ( )  E x (3   1) 3 ( ) E x  E (1)  3(12) 1 37  

4.2.2 분산(Variance)

분산은 기대값

E x ( )

로부터 떨어진 정도로

Var x ( )

^{, 또는}



²( )

x

^{로 표시한다.}

확률변수의 분산

(1)

x

가 이산변수 일 때:

Var x

( )

 E x

( ²) [ ( )]

 E x

²

(증명)

Var x ( )  E x

[(

 

) ]²

 E x

( ²



2

 x  

²)

 E x

( ²) 2

  E x

( )

 

²

( )

E x  

^이므로

E x

[(

 

) ]²

 E x

( ²) 2

 

²

 

²

 E x

( ²)

 

²

2 2

1

( ) [( ) ] ( ) ( )

n

i i

i

Var x E x  x  p x



    

^{, [}

1

( ) ( )

n

i i

i

E x  x p x



  

^]

(2)

x

가 연속변수 일 때:

Var x

( ) ^

x f x dx

² ( )



²

 





(증명)

Var x

( )

 E x

[(

 

) ]²

 

_^(

x  

)²

f x dx

( )

2 2

( ) ( 2 ) ( )

Var x

^

x  x  f x dx

 



   

^

^{x f x dx}

² ^{( )}



²

^ 

^

^{x f x dx}

^{( )}

 ^

²



^

^{f x dx}

^{( )}

여기서 ^

x f x dx

( )









^,



^

^{f x dx}

^{( )}



¹^이므로

2 2

( ) [( ) ] ( ) ( )

Var x E x 

^

x  f x dx

   





[보기 4_10] 동전을 3회 던질 때 앞면이 나오는 회수를

x

^{라 하면}

x

가 취할 수 있는 값에 대한 확률이 다음과 같을 때 평균과 분산을 구하여라.

x

0 1 2 3

( )

p x

^1/8 ^3/8 ^3/8 ^1/8

(풀이)

1 3 3 1 3

[(0) ( ) (1) ( ) (2) ( ) (3) ( )

8 8 8 8 2

         

2

1

2

3

2

3

2

1 3

2

3 ( ) [(0) ( ) (1) ( ) (2) ( ) (3) ( )] ( )

8 8 8 8 2 4

Var x      

[보기 4_11] 확률변수

x

의 확률밀도 함수가 다음과 같을 때 기대 값과 분산을 구하여라.

6 (1 ), 0 1

( ) 0, others

x x x

f x    

  

(7)

7 (풀이)

3 4

1 1 2 1 2 3 1

0 0 0 0

( ) ( ) 6 (1 ) 6 ( ) 6[ ] 1

3 4 2

x x

E x   xf x dx   x  x dx   x  x dx   

4 5

1 1

2 3 4 1

0 0 0

( ) 6 ( ) 6[ ] 3

4 5 10

x x

x f x dx  x  x dx   

 

1 2 2 2

0

3 1 1

( ) ( ) ( )

10 2 20

Var x   x f x dx     

분산의 특성

,

a b

가 상수 일 때

(1)

Var a ( )  0

^,

Var ax

( )

 a Var x

² ( )^,

Var x (  a )  Var x ( )

(2)

x y ,

^{가 독립일 때}

( ) ( ) ( )

Var x  y  Var x  Var y

^,

Var ax by

(



)

 a Var x

² ( )

 b Var y

² ( )

(3)

x y ,

^{가 종속일 때}

( ) ( ) ( ) 2 ( , )

Var x  y  Var x  Var y  Cov x y

2 2

( ) ( ) ( ) 2 ( , )

Var ax by   a Var x  b Var y  abCov x y

[보기 4_12] 두 확률변수

x y ,

가 서로 독립이고

E x ( ) 12 

^,

E y ( )  10

^,

Var x ( )  0.5

^,

( ) 0.75

Var y 

^{일 때}

z  5 x  3 y  6

의 평균과 분산을 구하여라.

(풀이)

E z ( )  5 ( ) 3 ( ) 6 E x  E y    (5 12) (3 10) 6     36

2 2

( ) 5 ( ) 3 ( ) (25 0.5) (9 0.75) 19.25

Var z  V x  V y     

4.2.3 표준편차

표준편차는 분산의 평방근 값으로 표시한다. 즉

( )

s  Var x

[보기 4_13]

x

의 확률밀도 함수가 다음과 같이 주어질 때 평균, 분산 및 표준편차를 각각 구하 여라.

( ) 3 3^x ( 0)

f x  e

^

x 

(풀이) ³

0

x f x dx

( ) 0 3

x e

^x

dx

  

^

 

^ ^

이러한 것에 대한 적분은 다음과 같이 부분적분으로 계산한다.

3 3

u  x  du  dx

^, ³

1

³

3

x x

dv  e

^

dx  v   e

^

3 3 3

0

1 1

3 (3 )( ) ( )(3 )

3 3

x x x

x e dx uv v du x e e dx

 

   



 



  

3

3 3 3

0

1 1

[ ( 3 ) [ ]

3 3 3

x

x x x

e

xe e d x xe

    

        

^:

^ ^ ¹ ₃

분산: ² ²

0

( ) ( )

Var x  

^

x f x dx  

(8)

8

※

 x

²

(3 e

^³^x

) dx

^{의 적분:}

^u ^ ^x

²

^ ^du ^

²

^{x dx}

^,

^dv ^

³

^e

^³^x

^dx ^ ^v ^{ } ^e

^³^x

2 3 3 2 3 3

( )(

^x

) (

^x

)(2 )

^x

(2 )

^x

uv   v du  x  e

^

   e

^

x dx   x e

^

  x e

^

dx

뒤에 부분을 한번 더 부분 적분하면

' 2 ' 2

u  x  du  dx

^, ³

1

³

' '

3

x x

dv  e

^

dx  v   e

^

3

2

3

1

3

2 2

3

2

3

(2 ) ( )[ ( 3 )]

3 3 3 3 9

x x x x x

x e

^

dx   x e

^

  e

^

 d  x   xe

^

 e

^

 

3 2

0

2 2 2

( ) [ ( )]

3 9 9

Var x   e

^x

x  x 

^



표준편차:

2 ( ) 2 / 9 s  Var x   3

4.3 결합 확률분포

두 개 이상의 변수를 동시에 고려하는 확률분포다. 예를 들면 학생의 두 성적인 통계학과 전산학 의 관계를 규명할 때 이러한 확률분포를 사용한다. 다른 예로 옷을 맞추는데 키와 가슴둘레를 동 시에 고려하는 것과 같이 결합된 두 변수 이상을 사용하는 확률이다.

결합 확률함수의 성질 i) 이산의 경우 (1)

f x y ( , )  0

(2)

( , ) 1

x y

f x y 



(3)

[ , ] ( , )

a x b c y d

P a x b c y d f x y

   

      

ii) 연속의 경우 (1)

f x y ( , )  0

(2) ^ ^

f x y dx dy

( , ) 1

 



 

(3) [ , ] ^d ^b ( , )

c a

P a   x b c   y d    f x y dx dy

(예제 14) 결합 밀도함수가 다음과 같은 때

6 2 , (0 1, 0 1)

( , )

0, others

x y x y

f x y     

   3 1

(0 , 2)

4 3

P   x   y

(풀이) ¹ ^{3/ 4} ² ³ ^{3 3/ 4}₀ ^{2 1}_{1/ 3}

1/ 3 0

3 1

(0 , 2) 6 2 [ ] [ ]

4 3

P   x   y   dy  x y dx   x ydy  x y

3 2 2

3 1 27 8 3

( ) [(1) ( ) ] ( )( )

4 3 64 9 8

   

[보기 4_15] 주머니에 3개의 검은 공,

2

개의 붉은 공, 3개의 흰 공이 있다. 임의로

2

^{개의 공}

을 뽑을 때 검은 공의 개수를

x

, 붉은 공의 개수를

y

로 변량화 하여 결합 확률분포를 구하여라.

(9)

9

(1) 검은 공과 붉은 공이

1

개도 뽑히지 않을 확률: ³ ² ³ ²

8 2

(0, 0) 3

28

o o

C C C

f C

 

 

(2) 검은 공 0^{, 붉은 공이}

1

개 뽑힐 확률: ³ ² ¹ ³ ¹

8 2

2 3 3 (0,1)

28 14 C

o

C C

f C

  

  

(3) 검은 공

1

^{, 붉은 공이}0개 뽑힐 확률: ³ ¹ ² ⁰ ³ ¹

8 2

3 3 9 (1, 0)

28 28

C C C

f C

  

  

(4) 검은 공

1

^{, 붉은 공이}

1

개 뽑힐 확률: ³ ¹ ² ¹ ³ ⁰

8 2

3 2 3 (1,1)

28 14

C C C

f C

  

  

(5) 검은 공 0^{, 붉은 공이}

2

개 뽑힐 확률: ³ ² ² ³ ⁰

8 2

(0, 2) 1

28 C

o

C C

f C

 

 

(6) 검은 공

2

^{, 붉은 공이}0개 뽑힐 확률: ³ ² ² ⁰ ³ ⁰

8 2

(2, 0) 3

28 C C C

f C

 

 

이들을 교차하는 표로 만들어 보면

0 1 2

f y ( )

0 1 2

3/28 9/28 3/28 3/14 3/14 0 1/28 0 0

15/28 12/28 1/28

( )

f x

10/28 15/28 3/28 1 위의 결합 확률질량 함수는 다음과 같다.

3 2 3

8 2

( , ) C

^x

C

^y

C

^{z x y}

f x y

C

 

 



, (

x  0,1, 2

^,

y  0,1, 2

^,

0    x y 2

⁾

결합 확률분포 함수

f x y ( , )

^가

x

^또는

y

만의 분포이면 다음과 같이 정의된다.

(1) 이산 확률변수 일 때:

( ) ( , )

y

f x   P x y

^,

^{( )} ^{( , )}

x

f y   P x y

(2) 연속 확률변수 일 때:

f x

( ) ^

f x y dy

( , )

 



^{f y}

^{( )}

 

^

^{f x y dx}

^{( , )}

여기서

f x ( )

^와

f y ( )

는 위의 표에서 각각 가로 합과 세로 합이며,

x

^와

y

의 확률밀도 함수이 다. 이것을 확률변수

x

^와

y

의 주변 확률분포(Marginal Probability)라 한다.

[보기 4_16] 확률밀도 함수가 다음과 같이 주어졌을 때 각각의 주변 확률분포를 구하여라.

2, 0 1

( , )

0, others x y f x y    

 

(풀이) ( ) ¹2 2[ ]¹_x 2(1 ), 0 1

f x  

x

dy  y   x   x

0 0

( ) ^y2 2[ ]^y 2 , 0 1

f y   dx  x  y   y

결합 확률분포의 독립

(10)

10 두 확률변수

x y ,

가 독립이면 다음의 관계가 성립한다.

( , ) ( ) ( ) ( , )

f x y  f x  f y   x y  

이 경우 평균과 분산은 주변분포를 사용하여 다음과 같이 계산된다.

(1) 이산과 연속일 때 각각의 평균

( ) ( )

x

E x x f x

   

^, ^y

^{( )} ^{( )}

y

E y y f y

   

x

x f x dx

( )



^

 

 ^,

^

^y

 

^

^{f y dy}

^{( )}

(2) 이산과 연속일 때 각각의 분산

2 2

( ) (

_x

) (

_x

) ( , )

x y

Var x  E x     x   f x y

^,

2 2

( ) (

_y

) (

_y

) ( , )

x y

Var y  E y     y   f x y

2 2

( ) ( _x) ( _x) ( , )

Var x E x 

^

x  f x y dx dy

   





2 2

( ) ( _y) ( _y) ( , )

Var y E y 

^

y  f x y dx dy

   





[보기 4_17] 다음의 결합 밀도함수가 주어졌을 때 다음 물음에 답하라.

2, 0 1

( , )

0 others x y

f x y    

  

(1)

y

^{가 주어질 때}

x

의 조건부 확률 및 확률의 평균과 분산

(2) 확률

1 3

(0 | )

2 4

P   x y 

(풀이) (1) 확률: ( , ) 2 1 ( | )

( ) 2

f x y f x y

f y y y

  

평균:

0

( | ) ( | ) ( )1

2

y

E x y xf x y dx x dx

y



 



  

분산:

2

2 2

0

( | ) [ ( | )] ( ) ( )1

2 12

y

y y

Var x y E x E x y x dx

     y 

(2) ^{1/ 2} ^{1/ 2}

0 0

1 3 3 4 2

(0 | ) ( | )

2 4 4 3 3

P   x y    f x dx   dx 

4.4 공분산과 상관관계

구 확률변수가 확률적으로 어떻게 결합되어 있는가를 나타내는 지표.

4.4.1 공분산(Covariance)

,

x y

가 종속이고 각각의 평균을 중심으로 하여 같은 방향으로의 변화 정도를 의미하는 것 이며,

( x  

_x

)( y  

_y

)

의 기대 값을 공분산이라 한다. 기호는

( , )

_xy

[(

_x

)(

_y

) ( )

_x _y

Cov x y    E x   y    E xy   

^또는

(11)

11

( , )

_xy

( ) ( ) ( ) Cov x y    E xy  E x E y

(증명) 두 확률변수

x y ,

에 대한 기대 값이 각각

 

_x

,

_y라 할 때 공분산은 다음과 같다.

( , ) [(

_x

)(

_y

)] (

_y _x _x _y

)

Cov x y  E x   y    E xy   x   y    ( )

_y

( )

_x

( )

_x _y

( )

_x _y

E xy  E x  E y   E xy  

     

( ) ( ) ( ) E xy E x E y

 

이산인 경우:

( , ) (

_x

)(

_y

) ( , )

x y

Cov x y   x   y   f x y

연속인 경우:

Cov x y

( , ) ^ ^(

x 

_x)(

y 

_y) ( , )

f x y dx dy

 

     ,

x y

가 독립인 경우의 공분산

( , ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 0 Cov x y  E xy  E x E y  E x E y  E x E y 

( ) ( ) ( ) 2 ( , ) ( ) ( )

Var x  y  Var x  Var y  Cov x y  Var x  Var y

공분산의 성질

, , ,

a b c d

^{가 상수일 때}

( , ) ( , )

Cov ax b cy   d  acCov x y

[보기 4_18]

x y ,

의 결합확률 밀도함수가 다음과 같을 때

x y ,

의 공분산은 얼마인가?

2, 0 , 0 1

( , )

0, 0 , , 0, 1

x y y

f x y

x x y y y

   

       

(풀이)

1 1 3

2 1

0 0

0 0 0

( ) 2 [ ] [ ] 1

3 3

y y

y

E x    x dx dy   x dy  

1 1 1 2 3 1

0 0

0 0 0 0

2 2

( ) 2 2 [ ] 2 [ ]

3 3

y y

y

E y    y dx dy   y x dy   y dy  

2 3

1 1 1

3 1

0 0

0 0 0 0

( ) 2 2 [ ] [ ] 1

2 4 4

y

x

y

E xy    xy dx dy   y dy   y dy  

1 1 2 1

( , ) ( ) ( ) ( ) ( )

4 3 3 36

Cor x y  E xy  E x E y    

x y ,

에 대한 자료가 다음과 같이 주어졌을 때 두 변수간의 공분산

( , )

Cov x y

x

60 55 75 80 80

y

75 70 80 85 90

(풀이)

1 ( , ) [(60 75) (55 70) (75 80) (80 85) (80 90)] 5670

E x y  5          

( ) 1 (60 55 75 80 80) 70

E x  5     

( ) 1 (75 70 80 85 90) 80

E y  5     

(12)

12

( , ) 5670 (70 80) 70 Cov x y    

4.4.2 상관계수(Correlation Coefficient⁾

공식:

( , )

( , ) ( , )

^xy

x y x y

Cov x y

Corr x y x y 

    

  

상관계수가

1

이면 두 변수가 완전히 비례관계에 있다.

상관계수가

 1

이면 두 변수가 완전히 반 비례관계에 있다.

상관계수가 0이면 두 변수가 관계가 없음을 의미한다.

상관계수의 성질 (1)

 ( , ) x y   ( , ) y x

(2)

  1 

_xy

 1

(3)

 ( , ) x x  1,  ( , x  x )   1

(4) 상수

ac 

0일 때:

 ( ax b cy  ,  d )   ( , ) x y

0

ac 

^{일 때:}

 ( ax b cy  ,  d )    ( , ) x y

[보기 4_20] 변수

x y ,

^에서

x y ,

의 표준편차는 각각

2.28, 7.73

^공분산은 9.38^{일 때 상관계수}

는 얼마인가?

(풀이) ( , ) 9.38

( , ) ( , ) 0.718

(2.28)(5.73)

x y

Cov x y Corr x y  x y

     

x y ,

의 결합 밀도함수가 다음과 같이 주어 졌을 때 상관계수

 ( , ) x y

를 구하여라.

( , ) 3 30 x y

f x y 



^,

x  1, 2

^,

y  1, 2

(풀이)

x y ,

의 주변밀도 함수:

2

1

3 3 1 3 2 6 3

( ) y 30 30 30 30

x y x x x

f x



   

    

2

1

3 3 6 9 2

( )

_x

30 30 30 30

x y y y y

f y



   

    

평균:

2 1 1

9 15 39

( ) ( ) 1( ) 2( )

30 30 30

y

x xf x





    

2 2 1

11 13 37

( ) ( ) 1( ) 2( )

30 30 30

y

y yf y





    

분산:

2

2 2 2 2 2 2

1

9 15 39 183

( ) ( ) [ ( )] 1 ( ) 2 ( ) ( )

30 30 30 300

x

x x f x x

 



      

2

2 2 2 2 2 2

1

11 13 37 521

( ) ( ) [ ( )] 1 ( ) 2 ( ) ( )

30 30 30 900

x

y y f y y

 



      

(13)

13 공 분산:

2 2

1 1

( , ) ( , ) ( ) ( )

x y

x y xy f x y x y

  

 

  

4 5 7 8 39 37 119

(1 1 ) (1 2 ) (2 1 ) (2 2 ) ( )

30 30 30 30 30 30 300

              

1/ 2

119 / 300

( , ) 0.6675

[(183 / 300)(521/ 900)]

 x y  

SPSS

^{통계처리문제}

[보기 4_22]두 확률변수

x y ,

에 대한 자료가 다음으로 주어졌을 때 상관계수를 구하라.

x

5 10 2 6 7 6 8 4 7 5

y

8 10 4 8 6 7 8 5 9 5

(풀이)

1 60

(5 10 2 6 7 6 8 4 7 5) 6.0

10 10



x

           

1 70

(8 10 4 8 6 7 8 5 9 5) 7.0

10 10



y

            ( , )

_xy

( ) ( ) ( )

Cov x y    E xy  E x E y

1 (40 100 8 48 42 42 64 20 63 25) (6)(7)

 10           452

42 3.2

 10  

2

1

2 2 2 2

[(5 6) (10 6) (7 6) (5 6) ] 4.4

x

10           

2

1

2 2 2 2

[(8 7) (10 7) (9 7) (5 7) ] 3.4

y

10           

( , ) ( , ) 3.2 0.827

(4.4)(3.4)

xy

x y

Corr x y x y 

  

   

SPSS

^통계처리[4_22_상관계수.

sav

]

분석>상관분석>이변량 상관계수

이변량 상관계수 보조창이 뜨면 변수 [x^{]와 [}y]를 변수로 이동. 상관계수는 Pearson^을check^{. 유}

의성 검정은 양쪽을 선택. 옵션버튼을 눌러 통계량의 두 check^{란을 모두}check^.

계속>확인

상관계수 결과

기술통계량

6.00 2.211 10

7.00 1.944 10

x y

평균 표준편차 N

(14)

14

※ Pearson은 모분산에 대한 상관계수이고 Kendall^이나Spearman은 비모수에 대한 상관계수.

비모수상관

이변량 상관계수

이변량 상관계수 프로시저는 Pearson 상관계수, Spearman 의 Rho 및 Kendall 의 타우-b 를 계산하 고 각 유의수준과 함께 출력합니다. 상관계수는 변수나 순위 순서의 관련성을 측정합니다. 상관계수 를 계산하기 전에 잘못된 결과를 나타낼 수 있는 이상값의 유무와 데이터의 선형성 여부를 확인합 니다. Pearson 의 상관계수는 선형 관계의 측도입니다. 두 변수가 완벽하게 관련되어 있을 수는 있 으나 선형 관계가 아닌 경우 Pearson 의 상관계수는 그 관계 측정에 적합한 통계량이 아닙니다.

예제. 한 농구 팀이 이긴 경기 수는 게임당 평균 점수와 관련이 있습니까? 산점도를 통해 선형 관 계를 파악할 수 있습니다. 1994–1995 NBA 시즌의 데이터를 분석해 보면 Pearson 의 상관계수 (0.581)는 0.01 수준에서 유의합니다. 시즌마다 경기에서 많이 이길수록 상대편 팀의 점수는 낮아 진다고 생각할 수 있습니다. 이러한 변수는 음(–0.401)으로 상관되며 0.05 수준에서 유의합니다.

통계량. 각 변수에 대해 결측되지 않은 값이 있는 케이스 수, 평균, 표준편차를 선택할 수 있습니다.

각 대응변수에 대해 Pearson 의 상관계수, Spearman 의 Rho, Kendall 의 타우-b, 편차의 교차곱, 공분산을 선택할 수 있습니다

상관계수

1 .827**

.003 44.000 32.000 4.889 3.556

10 10

.827** 1 .003

32.000 34.000 3.556 3.778

10 10

Pearson 상관계수 유의확률 (양쪽) 제곱합 및 교차곱 공분산

N

Pearson 상관계수 유의확률 (양쪽) 제곱합 및 교차곱 공분산

N x

y

x y

상관계수는 0.01 수준(양쪽)에서 유의합니다.

**.

상관계수

1.000 .675**

. .010

10 10

.675** 1.000

.010 .

10 10

1.000 .786**

. .007

10 10

.786** 1.000

.007 .

10 10

상관계수 유의확률(양측) N

x

y

x

y Kendall의 tau_b

Spearman의 rho

x y

상관 유의수준이 0.01입니다(양측).

**.

(15)

15 연습 문제

1. 같은 동전을 3^{번 던져 앞면(}

h

^{)과 뒷면(}

t

)이 나타나는 문제에서 확률변수

x

를 앞면의 개수라 하자. 앞면과 뒷면이 나타날 확률은 각각 1/ 2^{라 할 때}

(1) 확률변수

x

의 확률밀도 함수

f x ( )

와 누적분포 함수

F x ( )

(2) 기대 값과 분산을 구하여라.

(3) 확률변수

x

^{의 값이} 0^이거나3^이면1000원을 받고, 그 외의 경우에는 400^{원을 내어 준다}

면 기대 금액은 얼마인가?

2. 확률밀도 함수가 다음과 같을 때 다음의 확률을 구하여라

1 , 1 4

( ) 3

0, others f x x

  

  



(1) 확률

P (1   x 2)

^{(2) 확률}

P (2.5  x )

3. 다음과 같은 확률분포가 있다. 확률변수

x

의 기대 값과 분산을 각각 구하여라.

x

1 2 3 4 5

( )

p x

^0.35 ^0.25 ^0.12 ^0.2 ^0.8

4. 연속 확률변수

x

의 확률밀도 함수가 다음과 같다.

(1 2), | | 1 ( )

0, others

k x x

f x   

  

(1)

k

(2) 확률

1 ( 2 )

P    x 2

(3)

E x ( )

^와

Var x ( )

(4)

E

[(2

x 

1) ]² ^{을 구하여라.}

(5) 누적 분포함수

F x ( )  P X (  x )

5. 다음과 같은 결합 확률분포가 있다.

1 2 3

2 0.24 0.12 0.24 5 0.16 0.08 0.16 (1)

x y ,

의 주변 확률분포를 각각 구하여라.

(2)

E x ( ), E y Var x Var y ( ), ( ), ( )

를 각각 구하여라.

(3)

Cor x y ( , )

^와

Corr x y ( , )

를 각각 구하여라.

(4)

x

^와

y

가 독립인지 조사하여라.