1
제 4장. 확률분포
(Probability Distribution
)확률분포는 측정값이 정수로 나타나는 이산확률분포와 실수 값으로 나타나는 연속확률분포로 나 뉜다.
이산 확률분포의 종류: 이항분포, 포아송 분포, 초 기하분포, 음 이항분포, 다항분포 연속 확률분포: 정규 분포,
t
분포,
2분포,F
분포, 지수 분포4.1 확률변수와 확률분포
확률은 표본공간의 수직선 위에서 변수에 대한 높이로 나타나며, 이러한 수직선 상의 수를 확률변 수(Random Variable)라 하고, 확률변수
x
는 표본공간에서 정의된 실수 함수로 정의한다.(예 1) 동전 하나를 던져 앞면이면
1
, 뒷면이면 0을 취하는 변수x 1 (head)
0 (tail) x
각각이 나올 확률은 1/ 2이므로 이에 대한 표기는
( 1) 1
P x 2
,1
( 0) P x 2
이때 수직선 상에는
x
가1, 0
인 두 수가 있고, 각 수에 대한 높이인 1/ 2은 확률이 된다.(예 2) 동전을 두 번 던져 나오는 변량을
x
라 하면 두 번다 앞면이 나오는 변수 값을 0, 한 번은 앞면 한 번은 뒷면인 경우를
1
, 두 번다 뒷면의 경우를2
로 변량화 한다. 여기서 표본 공간은{ , , , } S hh ht th tt
이다.부분 공간은
E
o
{hh
},E
1
{ ,ht th
},E
2
{ }tt
이들을 확률변수로 나타내면
( 0) ( ) 1
o
4
P x P E
, 12
( 1) ( )
P x P E 4
, 21
( 2) ( )
P x P E 4
앞으로 표본공간
S
{ ,e e
1 2, , }e
n 는 확률변수x
{ ,x x
1 2, ,x
n}로 대치하여 사용하며 어떤 특 정변수 값x
i에 대한 확률은P x
( )i 로 표시된다.4.1.1 이산 확률변수
확률변수
x
가 취하는 모든 값은 셀 수 있는 정수 값인x x x
1, 2, 3, ,x
n을 가지며 이것은 이산 확 률변수 이고, 여기에 확률 값을 대응시킨 함수를 확률 질량함수(Probability Mass Function)라 한 다. 즉 질량함수는 다음과 같이 표시된다.( ), , 1, 2,
( ) 0, others
i i
P x x x x i
f x
( )
f x
의 성질(1) 모든
x
에 대하여f x
( )i
02 (2)
1
( ) 1 1
n
i i
i i
f x p
(3) ( ) ( )
i
i a x b
P a x b f x
이것의 일반적인 그래프는 막대 그래프이다.
[보기 4_1] 동전을 3회 던져 나오는 변수를
x
라 하자. 그러면x
는 세 번 모두 앞면인 경우 (hhh
)를 0, 두 면이 앞이고 한 면이 뒤인 경우(hht
,hth
또는thh
)를1
, 한 면이 앞이고 두 면이 뒤인 경우(htt
,tht
또는tth
)를2
, 그리고 모두 뒷면인 경우(ttt
)를 3으로 한 변량이다. 변 수x
에 대한 확률을 각각 구하여라.(풀이) 세 번 던져 나올 수 있는 짝, 즉 표본 공간
S
와 변수에 대한 확률은 다음과 같다.{ , , , , , , , }
S hhh hht hth thh htt tht tth ttt ( 0) 1
P x 8
,3
( 1)
P x 8
,3
( 2)
P x 8
,1
( 3) P x 8
변수
x
에 대한 확률P x
( x
i)를 도표로 요약하면x
iP x
( x
i) 표본 공간0 1/ 8
{ hhh }
1 3 / 8
{ hht },{ hth },{ thh }
2 3 / 8
{ htt },{ tht },{ tth }
3 1/ 8
{ } ttt
4.1.2 연속 확률변수
셀 수 없이 연속적으로 나타나는 변수이며, 이것의 그래프는 일반적으로 히스토그램이다. 확률의 수학적 표현은
( ) b ( )
P a x b a f x dx
확률밀도 함수
f x ( )
의 성질(1)
f x ( ) 0
(2)
f x dx
( ) 1
(3) ( ) b ( )
P a x b a f x dx
[보기 4_2] 다음의 확률밀도 함수에 대해 (1)
c
의 값을 구하라. (2)P (1 x 2)
의 값을 구하여라.
2 0 3
( ) 0 others
cx x
f x
3 (풀이) (1)
3 2 3 3
0 0
[ ] 9 1 1
3 9
cx dx c x c c
(2)
2 3
2 2
1 1
1 1 1 8 1 7
(1 2) [ ] ( )
9 9 3 9 3 3 27
P x x dx x
4.1.3 누적 분포함수(Cumulative Distribution Function)
단순히 분포함수라고도 하며
x x
i 또는x x
i에 해당하는 누적된 면적의 확률 함수이다. 이것 은 다음과 같이 정의된다.이산인 경우: ( )i ( i) ( )i
xi
F x P x x p x
연속인 경우:
F x
( )iP x
(x
i) xf t dt
( )
이산인 경우 누적분포 함수는
로부터x
i까지 사이에 있는 모든 확률변수에 대한 확률을 더한 값이며, 연속인 경우는 적분한 것으로 그것은 우측의 그림처럼 적분면적에 해당한다.[보기 4_3] 다음의 확률밀도 함수에서 분포함수를 구하여라.
1
20 3
( ) 9
0 others
x x
f x
(풀이) (1)
x
0:F x ( ) 0
(2) 0
x
3: 2 30 0
( ) ( ) 1
9 27
x x
x
F x f t dt t dt
(3)
x
3: 3 3 2 3 300 0
1 1
( ) ( ) [ ] 1
9 27
F x f t dt t dt t
누적분포 함수의 성질 (1)
0 F x ( ) 1
(2)
x
1 x
2이면F x
( )1 F x
( )2(3)
P a ( x b ) F b ( ) F a ( )
(4) lim ( ) 1, lim ( ) 0
x
F x
xF x
(5) 확률밀도 함수:
( ) d ( )
f x F x
dx
(6)
F x ( )
는 우측으로 연속[보기 4_4] 확률밀도 함수가 다음과 같을 때
x
의 분포함수를 구하고 이를 써서(0 1)
P x
을 구하여라.2
, 1 2
( ) 3
0, others
x x
f x
(풀이) (1)
x
1:F x ( ) 0
4 (2)
1x
2: 2 31
( ) 1
3 9
x
x
F x t dt
(3)
x
2: 2 2 3 211
1 1 1
( ) [ ] (8 1) 1
3 9 9
F x t dt t
(4)
1
(0 1) ( 1) ( 0)
P x F x F x 9
4.2 기대값과 분산확률변수는 평균과 분산을 가지며 이는 해당 모집단의 평균과 분산이다. 확률변수
x
에 대한 평균을 기대 값이라고도 하며 분산과 함께 확률분포의 특징을 나타낸다.
4.2.1기대값(Expected Value)
확률변수
x
가취하는값을x x
1, 2, ,x
n, 확률을p x
( ),1p x
( ),2 ,p x
( n)이라하면 즉P x
( x
i) p x
( )i확률변수
x
의평균또는기대값:x p x
1 ( )1 x p x
2 ( )2 x p x
n ( n)기대값은확률변수
x
의중심적경향을나타내는값으로대표값이며, 기호로E x ( )
또는평균이라는의미에서
로표시한다.확률변수
x
에 대한 기대값(평균) (1)x
가 이산 확률변수 일 때:1
( ) ( )
n
i i
i
E x x p x
(2)
x
가 연속 확률변수 일 때:E x
( ) xf x dx
( )
여기서
1
( ) 1
n i i
p x
,
1 1 1
( ) ( ) ( ) ( ) 0
n n n
i x i i i x i x x
i i i
x p x x p x p x
x
의 함수g x ( )
의 기대값x
가 이산 확률변수 일 때:1
{ ( )} ( ) ( )
n
i i
i
E g x g x p x
x
가 연속 확률변수 일 때:E g X
{ ( )} g x f x dx
( ) ( )
[보기 4_5]
2
개의 주사위를 던질 때 나오는 눈금의 합을 확률변수x
라 할 때,x
에 대한 평균( )
E x
를 구하여라.(풀이)
x
가 취할 수 있는 값:2,3, 4, ,12
각 수에 대한 확률:
1 2 3 1 , , , , 36 36 36 36
기대값(평균값):
1
1 2 5 6 5 1
( ) ( ) (2 ) (3 ) (6 ) (7 ) (8 ) (12 ) 7
36 36 36 36 36 36
n
i i
i
E x x p x
5
이것을 일상적인 방법(Conventional Method)으로 평균치를 구해보자.
2,3, 4, ,12
의 도수는n
11개2 3 12 77
11 11 7
x
[보기 4_6] 복권
100, 000
매를 판매하고 당첨자 수와 상금은 아래와 같다. 복권 한 장 당 기대할 수 있는 당첨금은 얼마인가?등 수 당첨자 수 상금 1 등
2 등 3 등 등 외
1 100 1,000 98,899
1,000,000 100,000
10,000 0
(풀이) 1
( ) [(1 1, 000, 000) (100 100, 000) (1, 000 10, 000) 100, 000
E x
21, 000, 000 100, 000 210
평균계산으로 구해보면 총 도수는
100, 000
.총 상금은 각 도수에 상금을 곱한 것이므로 계산은 위와 동일하게 나온다.
따라서 한 장 당 받을 수 있는 평균은 210.
[보기 4_7] 확률변수가 다음과 같은 확률분포를 가질 때
E x
[(
1) ]2 의 기대 값을 구하여라.x
0 1 2 3( )
f x
1/6 1/3 1/3 1/6(풀이) 2 2
1 1 1 1 7
[( 1) ] ( 1) ( ) (1 ) (0 ) (1 ) (4 )
6 3 3 6 6
E x x f x
i
기대 값의 성질
1 2
, , ,
a b c c
는 상수일 때 (1)E a ( ) a
,E ax ( ) aE x ( )
(2)
E x ( y ) E x ( ) E y ( )
(3) 확률변수
x y ,
가 독립:E xy ( ) E x E y ( ) ( )
(4)
E ax b ( ) aE x ( ) b
(5)
E c g x
[ 1 1( ) c g x
2 2( )] c E g x
1 [ ( )]1 c E g x
2 [ 2( )][보기 4_8] 주머니에 흰 공(
w
로 표시) 3개, 검은 공 (b
로 표시) 5개가 들어 있다. 주머니에서2
개를 꺼낼 때 색이 같으면1, 000
원, 색이 다르면 500원을 준다. 평균적인 기대 값은 얼마인가?(풀이) 모두 흰색 또는 검은 색을 꺼낼 확률:
1 3 2 5 2
8 2
1 3 10 13
[ ]
8!/ 2! 6! 28
p C C
C
6 색이 다를 확률: 2 1
15
1 28
p p
기대값: 1 1 2 2
13 15
( ) ( )(1, 000) ( )(500) 196
28 28
E x p x p x
[보기 4_9] 확률변수
x
에 대한 값의 평균이12
일 때y 3 x 1
의 평균 값을 구하여라.(풀이)
E x ( ) 12
,E y ( ) E x (3 1) 3 ( ) E x E (1) 3(12) 1 37
4.2.2 분산(Variance)
분산은 기대값
E x ( )
로부터 떨어진 정도로Var x ( )
, 또는
2( )x
로 표시한다.확률변수의 분산
(1)
x
가 이산변수 일 때:Var x
( ) E x
( 2) [ ( )] E x
2(증명)
Var x ( ) E x
[(
) ]2 E x
( 2
2 x
2) E x
( 2) 2 E x
( )
2( )
E x
이므로E x
[(
) ]2 E x
( 2) 2
2
2 E x
( 2)
22 2
1
( ) [( ) ] ( ) ( )
n
i i
i
Var x E x x p x
, [1
( ) ( )
n
i i
i
E x x p x
]
(2)
x
가 연속변수 일 때:Var x
( ) x f x dx
2 ( )
2
(증명)
Var x
( ) E x
[(
) ]2 (x
)2f x dx
( )
2 2
( ) ( 2 ) ( )
Var x
x x f x dx
x f x dx
2 ( )
2 x f x dx
( )
2
f x dx
( )
x f x dx
2 ( )
2 x f x dx
( )
2
f x dx
( )
여기서
x f x dx
( )
,
f x dx
( )
1 이므로2 2
( ) [( ) ] ( ) ( )
Var x E x
x f x dx
[보기 4_10] 동전을 3회 던질 때 앞면이 나오는 회수를
x
라 하면x
가 취할 수 있는 값에 대한 확률이 다음과 같을 때 평균과 분산을 구하여라.x
0 1 2 3( )
p x
1/8 3/8 3/8 1/8(풀이)
1 3 3 1 3
[(0) ( ) (1) ( ) (2) ( ) (3) ( )
8 8 8 8 2
2
1
23
23
21 3
23
( ) [(0) ( ) (1) ( ) (2) ( ) (3) ( )] ( )
8 8 8 8 2 4
Var x
[보기 4_11] 확률변수
x
의 확률밀도 함수가 다음과 같을 때 기대 값과 분산을 구하여라.6 (1 ), 0 1
( ) 0, others
x x x
f x
7 (풀이)
3 4
1 1 2 1 2 3 1
0 0 0 0
( ) ( ) 6 (1 ) 6 ( ) 6[ ] 1
3 4 2
x x
E x xf x dx x x dx x x dx
4 5
1 1
2 3 4 1
0 0 0
( ) 6 ( ) 6[ ] 3
4 5 10
x x
x f x dx x x dx
1 2 2 2
0
3 1 1
( ) ( ) ( )
10 2 20
Var x x f x dx
분산의 특성
,
a b
가 상수 일 때(1)
Var a ( ) 0
,Var ax
( ) a Var x
2 ( ),Var x ( a ) Var x ( )
(2)
x y ,
가 독립일 때( ) ( ) ( )
Var x y Var x Var y
,Var ax by
(
) a Var x
2 ( ) b Var y
2 ( )(3)
x y ,
가 종속일 때( ) ( ) ( ) 2 ( , )
Var x y Var x Var y Cov x y
2 2
( ) ( ) ( ) 2 ( , )
Var ax by a Var x b Var y abCov x y
[보기 4_12] 두 확률변수
x y ,
가 서로 독립이고E x ( ) 12
,E y ( ) 10
,Var x ( ) 0.5
,( ) 0.75
Var y
일 때z 5 x 3 y 6
의 평균과 분산을 구하여라.(풀이)
E z ( ) 5 ( ) 3 ( ) 6 E x E y (5 12) (3 10) 6 36
2 2
( ) 5 ( ) 3 ( ) (25 0.5) (9 0.75) 19.25
Var z V x V y
4.2.3 표준편차
표준편차는 분산의 평방근 값으로 표시한다. 즉
( )
s Var x
[보기 4_13]
x
의 확률밀도 함수가 다음과 같이 주어질 때 평균, 분산 및 표준편차를 각각 구하 여라.( ) 3 3x ( 0)
f x e
x
(풀이) 3
0
x f x dx
( ) 0 3x e
xdx
이러한 것에 대한 적분은 다음과 같이 부분적분으로 계산한다.
3 3
u x du dx
, 31
33
x x
dv e
dx v e
3 3 3
0
1 1
3 (3 )( ) ( )(3 )
3 3
x x x
x e dx uv v du x e e dx
3
3 3 3
0
1 1
[ ( 3 ) [ ]
3 3 3
x
x x x
e
xe e d x xe
: 1 3
분산: 2 2
0
( ) ( )
Var x x f x dx
8
※
x2(3 e
3x) dx
의 적분: u x
2 du
2x dx
, dv
3e
3xdx v e
3x
2 3 3 2 3 3
( )(
x) (
x)(2 )
x(2 )
xuv v du x e
e
x dx x e
x e
dx
뒤에 부분을 한번 더 부분 적분하면
' 2 ' 2
u x du dx
, 31
3' '
3
x x
dv e
dx v e
3
2
31
32 2
32
3(2 ) ( )[ ( 3 )]
3 3 3 3 9
x x x x x
x e
dx x e
e
d x xe
e
3 2
0
2 2 2
( ) [ ( )]
3 9 9
Var x e
xx x
표준편차:
2
( ) 2 / 9 s Var x 3
4.3 결합 확률분포두 개 이상의 변수를 동시에 고려하는 확률분포다. 예를 들면 학생의 두 성적인 통계학과 전산학 의 관계를 규명할 때 이러한 확률분포를 사용한다. 다른 예로 옷을 맞추는데 키와 가슴둘레를 동 시에 고려하는 것과 같이 결합된 두 변수 이상을 사용하는 확률이다.
결합 확률함수의 성질 i) 이산의 경우 (1)
f x y ( , ) 0
(2)
( , ) 1
x y
f x y
(3)
[ , ] ( , )
a x b c y d
P a x b c y d f x y
ii) 연속의 경우 (1)
f x y ( , ) 0
(2)
f x y dx dy
( , ) 1
(3) [ , ] d b ( , )
c a
P a x b c y d f x y dx dy
(예제 14) 결합 밀도함수가 다음과 같은 때
6 2 , (0 1, 0 1)
( , )
0, others
x y x y
f x y
3 1
(0 , 2)
4 3
P x y
를 구하여라.(풀이) 1 3/ 4 2 3 3 3/ 40 2 11/ 3
1/ 3 0
3 1
(0 , 2) 6 2 [ ] [ ]
4 3
P x y dy x y dx x ydy x y
3 2 2
3 1 27 8 3
( ) [(1) ( ) ] ( )( )
4 3 64 9 8
[보기 4_15] 주머니에 3개의 검은 공,
2
개의 붉은 공, 3개의 흰 공이 있다. 임의로2
개의 공을 뽑을 때 검은 공의 개수를
x
, 붉은 공의 개수를y
로 변량화 하여 결합 확률분포를 구하여라.9
(1) 검은 공과 붉은 공이
1
개도 뽑히지 않을 확률: 3 2 3 28 2
(0, 0) 3
28
o o
C C C
f C
(2) 검은 공 0, 붉은 공이
1
개 뽑힐 확률: 3 2 1 3 18 2
2 3 3 (0,1)
28 14 C
oC C
f C
(3) 검은 공
1
, 붉은 공이 0개 뽑힐 확률: 3 1 2 0 3 18 2
3 3 9 (1, 0)
28 28
C C C
f C
(4) 검은 공
1
, 붉은 공이1
개 뽑힐 확률: 3 1 2 1 3 08 2
3 2 3 (1,1)
28 14
C C C
f C
(5) 검은 공 0, 붉은 공이
2
개 뽑힐 확률: 3 2 2 3 08 2
(0, 2) 1
28 C
oC C
f C
(6) 검은 공
2
, 붉은 공이 0개 뽑힐 확률: 3 2 2 0 3 08 2
(2, 0) 3
28
C C C
f C
이들을 교차하는 표로 만들어 보면
0 1 2
f y ( )
0 1 2
3/28 9/28 3/28 3/14 3/14 0 1/28 0 0
15/28 12/28 1/28
( )
f x
10/28 15/28 3/28 1 위의 결합 확률질량 함수는 다음과 같다.3 2 3
8 2
( , ) C
xC
yC
z x yf x y
C
, (x 0,1, 2
,y 0,1, 2
,0 x y 2
)결합 확률분포 함수
f x y ( , )
가x
또는y
만의 분포이면 다음과 같이 정의된다.(1) 이산 확률변수 일 때:
( ) ( , )
y
f x P x y
,( ) ( , )
x
f y P x y
(2) 연속 확률변수 일 때:
f x
( ) f x y dy
( , ) f y
( ) f x y dx
( , )
f x y dx
( , )여기서
f x ( )
와f y ( )
는 위의 표에서 각각 가로 합과 세로 합이며,x
와y
의 확률밀도 함수이 다. 이것을 확률변수x
와y
의 주변 확률분포(Marginal Probability)라 한다.[보기 4_16] 확률밀도 함수가 다음과 같이 주어졌을 때 각각의 주변 확률분포를 구하여라.
2, 0 1
( , )
0, others x y f x y
(풀이) ( ) 12 2[ ]1x 2(1 ), 0 1
f x x dy y x x
0 0
( ) y2 2[ ]y 2 , 0 1
f y dx x y y
결합 확률분포의 독립
10 두 확률변수
x y ,
가 독립이면 다음의 관계가 성립한다.( , ) ( ) ( ) ( , )
f x y f x f y x y
이 경우 평균과 분산은 주변분포를 사용하여 다음과 같이 계산된다.
(1) 이산과 연속일 때 각각의 평균
( ) ( )
x
x
E x x f x
, y ( ) ( )
y
E y y f y
x
x f x dx
( )
,
y f y dy
( )
f y dy
( )(2) 이산과 연속일 때 각각의 분산
2 2
( ) (
x) (
x) ( , )
x y
Var x E x x f x y
,2 2
( ) (
y) (
y) ( , )
x y
Var y E y y f x y
2 2
( ) ( x) ( x) ( , )
Var x E x
x f x y dx dy
2 2
( ) ( y) ( y) ( , )
Var y E y
y f x y dx dy
[보기 4_17] 다음의 결합 밀도함수가 주어졌을 때 다음 물음에 답하라.
2, 0 1
( , )
0 others x y
f x y
(1)
y
가 주어질 때x
의 조건부 확률 및 확률의 평균과 분산(2) 확률
1 3
(0 | )
2 4
P x y
(풀이) (1) 확률: ( , ) 2 1 ( | )
( ) 2
f x y f x y
f y y y
평균:
0
( | ) ( | ) ( )1
2
y
y
E x y xf x y dx x dx
y
분산:
2
2 2
0
( | ) [ ( | )] ( ) ( )1
2 12
y
y y
Var x y E x E x y x dx
y
(2) 1/ 2 1/ 2
0 0
1 3 3 4 2
(0 | ) ( | )
2 4 4 3 3
P x y f x dx dx
4.4 공분산과 상관관계
구 확률변수가 확률적으로 어떻게 결합되어 있는가를 나타내는 지표.
4.4.1 공분산(Covariance)
,
x y
가 종속이고 각각의 평균을 중심으로 하여 같은 방향으로의 변화 정도를 의미하는 것 이며,( x
x)( y
y)
의 기대 값을 공분산이라 한다. 기호는( , )
xy[(
x)(
y) ( )
x yCov x y E x y E xy
또는11
( , )
xy( ) ( ) ( ) Cov x y E xy E x E y
(증명) 두 확률변수
x y ,
에 대한 기대 값이 각각
x,
y라 할 때 공분산은 다음과 같다.( , ) [(
x)(
y)] (
y x x y)
Cov x y E x y E xy x y ( )
y( )
x( )
x y( )
x yE xy E x E y E xy
( ) ( ) ( ) E xy E x E y
이산인 경우:
( , ) (
x)(
y) ( , )
x y
Cov x y x y f x y
연속인 경우:
Cov x y
( , ) (x
x)(y
y) ( , )f x y dx dy
,
x y
가 독립인 경우의 공분산( , ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 0 Cov x y E xy E x E y E x E y E x E y
( ) ( ) ( ) 2 ( , ) ( ) ( )
Var x y Var x Var y Cov x y Var x Var y
공분산의 성질
, , ,
a b c d
가 상수일 때( , ) ( , )
Cov ax b cy d acCov x y
[보기 4_18]
x y ,
의 결합확률 밀도함수가 다음과 같을 때x y ,
의 공분산은 얼마인가?2, 0 , 0 1
( , )
0, 0 , , 0, 1
x y y
f x y
x x y y y
(풀이)
1 1 3
2 1
0 0
0 0 0
( ) 2 [ ] [ ] 1
3 3
y y
y
E x x dx dy x dy
1 1 1 2 3 1
0 0
0 0 0 0
2 2
( ) 2 2 [ ] 2 [ ]
3 3
y y
y
E y y dx dy y x dy y dy
2 3
1 1 1
3 1
0 0
0 0 0 0
( ) 2 2 [ ] [ ] 1
2 4 4
y
x
yy
E xy xy dx dy y dy y dy
1 1 2 1
( , ) ( ) ( ) ( ) ( )
4 3 3 36
Cor x y E xy E x E y
[보기 4_19] 두 확률변수
x y ,
에 대한 자료가 다음과 같이 주어졌을 때 두 변수간의 공분산( , )
Cov x y
를 구하여라.x
60 55 75 80 80y
75 70 80 85 90(풀이)
1
( , ) [(60 75) (55 70) (75 80) (80 85) (80 90)] 5670
E x y 5
( ) 1 (60 55 75 80 80) 70
E x 5
( ) 1 (75 70 80 85 90) 80
E y 5
12
( , ) 5670 (70 80) 70 Cov x y
4.4.2 상관계수(Correlation Coefficient)
공식:
( , )
( , ) ( , )
xyx y x y
Cov x y
Corr x y x y
상관계수가
1
이면 두 변수가 완전히 비례관계에 있다.상관계수가
1
이면 두 변수가 완전히 반 비례관계에 있다.상관계수가 0이면 두 변수가 관계가 없음을 의미한다.
상관계수의 성질 (1)
( , ) x y ( , ) y x
(2)
1
xy 1
(3)
( , ) x x 1, ( , x x ) 1
(4) 상수
ac
0일 때: ( ax b cy , d ) ( , ) x y
0ac
일 때: ( ax b cy , d ) ( , ) x y
[보기 4_20] 변수
x y ,
에서x y ,
의 표준편차는 각각2.28, 7.73
공분산은 9.38일 때 상관계수는 얼마인가?
(풀이) ( , ) 9.38
( , ) ( , ) 0.718
(2.28)(5.73)
x y
Cov x y Corr x y x y
[보기 4_21] 두 확률변수
x y ,
의 결합 밀도함수가 다음과 같이 주어 졌을 때 상관계수 ( , ) x y
를 구하여라.
( , ) 3 30 x y
f x y
,x 1, 2
,y 1, 2
(풀이)
x y ,
의 주변밀도 함수:2
1
3 3 1 3 2 6 3
( ) y 30 30 30 30
x y x x x
f x
2
1
3 3 6 9 2
( )
x30 30 30 30
x y y y y
f y
평균:
2 1 1
9 15 39
( ) ( ) 1( ) 2( )
30 30 30
y
x xf x
2 2 1
11 13 37
( ) ( ) 1( ) 2( )
30 30 30
y
y yf y
분산:
2
2 2 2 2 2 2
1
9 15 39 183
( ) ( ) [ ( )] 1 ( ) 2 ( ) ( )
30 30 30 300
x
x x f x x
2
2 2 2 2 2 2
1
11 13 37 521
( ) ( ) [ ( )] 1 ( ) 2 ( ) ( )
30 30 30 900
x
y y f y y
13 공 분산:
2 2
1 1
( , ) ( , ) ( ) ( )
x y
x y xy f x y x y
4 5 7 8 39 37 119
(1 1 ) (1 2 ) (2 1 ) (2 2 ) ( )
30 30 30 30 30 30 300
1/ 2
119 / 300
( , ) 0.6675
[(183 / 300)(521/ 900)]
x y
SPSS
통계처리문제[보기 4_22]두 확률변수
x y ,
에 대한 자료가 다음으로 주어졌을 때 상관계수를 구하라.x
5 10 2 6 7 6 8 4 7 5y
8 10 4 8 6 7 8 5 9 5(풀이)
1 60
(5 10 2 6 7 6 8 4 7 5) 6.0
10 10
x
1 70
(8 10 4 8 6 7 8 5 9 5) 7.0
10 10
y ( , )
xy( ) ( ) ( )
Cov x y E xy E x E y
1 (40 100 8 48 42 42 64 20 63 25) (6)(7)
10 452
42 3.2
10
2
1
2 2 2 2[(5 6) (10 6) (7 6) (5 6) ] 4.4
x
10
2
1
2 2 2 2[(8 7) (10 7) (9 7) (5 7) ] 3.4
y
10
( , ) ( , ) 3.2 0.827
(4.4)(3.4)
xy
x y
Corr x y x y
SPSS
통계처리[4_22_상관계수.sav
]분석>상관분석>이변량 상관계수
이변량 상관계수 보조창이 뜨면 변수 [x]와 [y]를 변수로 이동. 상관계수는 Pearson을 check. 유
의성 검정은 양쪽을 선택. 옵션버튼을 눌러 통계량의 두 check란을 모두check.
계속>확인
상관계수 결과
기술통계량
6.00 2.211 10
7.00 1.944 10
x y
평균 표준편차 N
14
※ Pearson은 모분산에 대한 상관계수이고 Kendall이나 Spearman은 비모수에 대한 상관계수.
비모수상관
이변량 상관계수
이변량 상관계수 프로시저는 Pearson 상관계수, Spearman 의 Rho 및 Kendall 의 타우-b 를 계산하 고 각 유의수준과 함께 출력합니다. 상관계수는 변수나 순위 순서의 관련성을 측정합니다. 상관계수 를 계산하기 전에 잘못된 결과를 나타낼 수 있는 이상값의 유무와 데이터의 선형성 여부를 확인합 니다. Pearson 의 상관계수는 선형 관계의 측도입니다. 두 변수가 완벽하게 관련되어 있을 수는 있 으나 선형 관계가 아닌 경우 Pearson 의 상관계수는 그 관계 측정에 적합한 통계량이 아닙니다.
예제. 한 농구 팀이 이긴 경기 수는 게임당 평균 점수와 관련이 있습니까? 산점도를 통해 선형 관 계를 파악할 수 있습니다. 1994–1995 NBA 시즌의 데이터를 분석해 보면 Pearson 의 상관계수 (0.581)는 0.01 수준에서 유의합니다. 시즌마다 경기에서 많이 이길수록 상대편 팀의 점수는 낮아 진다고 생각할 수 있습니다. 이러한 변수는 음(–0.401)으로 상관되며 0.05 수준에서 유의합니다.
통계량. 각 변수에 대해 결측되지 않은 값이 있는 케이스 수, 평균, 표준편차를 선택할 수 있습니다.
각 대응변수에 대해 Pearson 의 상관계수, Spearman 의 Rho, Kendall 의 타우-b, 편차의 교차곱, 공분산을 선택할 수 있습니다
상관계수
1 .827**
.003 44.000 32.000 4.889 3.556
10 10
.827** 1 .003
32.000 34.000 3.556 3.778
10 10
Pearson 상관계수 유의확률 (양쪽) 제곱합 및 교차곱 공분산
N
Pearson 상관계수 유의확률 (양쪽) 제곱합 및 교차곱 공분산
N x
y
x y
상관계수는 0.01 수준(양쪽)에서 유의합니다.
**.
상관계수
1.000 .675**
. .010
10 10
.675** 1.000
.010 .
10 10
1.000 .786**
. .007
10 10
.786** 1.000
.007 .
10 10
상관계수 유의확률(양측) N
상관계수 유의확률(양측) N
상관계수 유의확률(양측) N
상관계수 유의확률(양측) N
x
y
x
y Kendall의 tau_b
Spearman의 rho
x y
상관 유의수준이 0.01입니다(양측).
**.
15 연습 문제
1. 같은 동전을 3번 던져 앞면(
h
)과 뒷면(t
)이 나타나는 문제에서 확률변수x
를 앞면의 개수라 하자. 앞면과 뒷면이 나타날 확률은 각각 1/ 2라 할 때(1) 확률변수
x
의 확률밀도 함수f x ( )
와 누적분포 함수F x ( )
를 구하여라.(2) 기대 값과 분산을 구하여라.
(3) 확률변수
x
의 값이 0이거나 3이면 1000원을 받고, 그 외의 경우에는 400원을 내어 준다면 기대 금액은 얼마인가?
2. 확률밀도 함수가 다음과 같을 때 다음의 확률을 구하여라
1 , 1 4
( ) 3
0, others f x x
(1) 확률
P (1 x 2)
(2) 확률P (2.5 x )
3. 다음과 같은 확률분포가 있다. 확률변수
x
의 기대 값과 분산을 각각 구하여라.x
1 2 3 4 5( )
p x
0.35 0.25 0.12 0.2 0.84. 연속 확률변수
x
의 확률밀도 함수가 다음과 같다.(1 2), | | 1 ( )
0, others
k x x
f x
(1)
k
를 구하여라.(2) 확률
1
( 2 )
P x 2
를 구하여라.(3)
E x ( )
와Var x ( )
를 구하여라.(4)
E
[(2x
1) ]2 을 구하여라.(5) 누적 분포함수
F x ( ) P X ( x )
를 구하여라.5. 다음과 같은 결합 확률분포가 있다.
1 2 3
2 0.24 0.12 0.24 5 0.16 0.08 0.16 (1)
x y ,
의 주변 확률분포를 각각 구하여라.(2)
E x ( ), E y Var x Var y ( ), ( ), ( )
를 각각 구하여라.(3)
Cor x y ( , )
와Corr x y ( , )
를 각각 구하여라.(4)