Probability and Statistics for Environmental Engineers
부산가톨릭대학교 환경공학과 2학년
환경통계학 5. 확률변수와 확률분포
이산형 및 연속형 확률변수
이산형 확률변수
확률변수(X)의 정의
확률변수는 특정 실험의 각각의 결과들에 대하여 수치값을 할당함에 의해 얻어진다
예1) 직원채용
한 회사는 하나의 업무 위치에 한 명의 직원을 채용하고자 하며, 그 자리에 총 8명이 지원하였다. 확률변수 X를 인터뷰 지원자의 수로 정의한다면,
확률변수 X는 1,2,3,4,5,6,7,8의 값을 가진다
예2) 주사위
확률변수를 나오는 눈의 수로 정의한다면, X=1,2,3,4,5,6
주사위 2개를 던져 나오는 수의 합으로 정의한다면, X= 2,3,4,…,12
일반적으로 확률변수는 X,Y,Z와 같은 대문자료 표시
확률변수가 취하는 값은 소문자로 표시 X=x1, x2, …, xn
확률질량함수 (Probability Mass Function, p.m.f)
이산형 확률변수의 확률 특성은 확률값 pi를 확률변수가 취하는 개개의 값 xi 에 할당하는 것을 바탕으로 한다.
이 확률값은 확률변수의 확률질량함수를 통해 구할 수 있으며, 0과 1사이의 값을 가지며, 합이 1이 되어야한다.
확률질량함수는 종종 그 확률변수의 분포(Distribution)로도 언급되기도 함.
이산형 확률변수의 확률질량함수는 표 또는 그래픽 형태로 주어짐
예) 발전소 운용
( i) i
P X = x = p
xi 0 1 2 3
pi 0.07 0.23 0.57 0.13
운전중인 발전소의 수 확률
0 1 2 3
0.07
0.23
0.57
0.13
누적분포함수
(Cumulative Distribution Function, c.d.f)
누적분포함수 F(x)란, x보다 크지 않은 y 값들에 대하여 확률 P(X=y) 를 단순합함으로써 구한다
수학적으로, 아래와 같이 확률질량함수를 구할 수 있다.
:
( ) ( ) ( )
y y x
F x P X x P X y
≤
= ≤ =
∑
=( ) ( ) ( )
P X = x = F x − F x−
xi 0 1 2 3
pi 0.07 0.23 0.57 0.13
운전중인 발전소의 수 확률
0 1 2 3
0.07 0.30 0.87 1
연속형 확률변수
연속형 확률면수는 연속적인 영역 안에 어떠한 값이라도 취할 수 있음
이산형 확률변수는 확률질량함수를 통해 정의되며, 연속형 확률변수 는 확률밀도함수에 의해 정의된다.
예) 금속 실린더 생산
한 회사는 특정 엔진의 부품인 금속 실린더를 생산한다. 이 실린더는 직경 50 mm를 갖도록 설계되어 있지만 제조상의 변동으로 49.5-50.0mm 범위의 직경값을 갖는다. 만약 확률변수X를 임의추출의 제조된 실린더의 직경이라 고 하면, 이 확률변수는 49.5~50.5 범위의 값을 갖는 연속형 확률변수이다.
확률밀도함수
(Probability Density Function, p.d.f) 연속형 확률변수는 확률밀도함수(p.d.f)로 알려져 있는 함수 f(x)를 통해 정의 된다.
두 값 a와 b 사이에 존재하는 확률변수의 확률은 두 점 a와 b 구간 내의 확률 밀도함수의 면적과 같다.
f(x)는 음의 값을 취할 수 없으며, 전체 표본공간에 대하여 적분한 값은 1이 된 다.
연속형 확률변수 X는 특정값 a에서 0의 값을 가진다
특정값에 0이 아닌 확률값을 가지는 이산형과의 차이점
이것이 이산형 및 연속형 확률변수를 구별하는 최선의 방법
특정값에서 0의 값을 가지나 어떤 연속 구간 안에 속할 확률은 0이 아닌 확률값을 가 짐
( ) ( )
b
a
P a ≤ ≤x b =
∫
f x dx∫
state space f x dx( ) =1
예) 금속 실린더 생산
금속 실린더의 직경은 다음과 같은 확률함수를 가진다.
이 확률밀도 함수는 구간 [49.5, 50.5]에서 양의 값을 가지며,
이때 금속 실린더가 49.8 mm에서 50.1mm 사이에 직경을 가질 확률은
실린더의 약 43%가 이 범주 안의 직경을 가진다는 의미임.
50.5
2
49.5
(1.5 6(− x−50.0) )dx = ?
∫
50.1
2
49.8
(1.5 6(− x−50.0) )dx = 0.432
∫
연속형 확률변수의 누적분포함수
이산형의 경우와 동일하게 정의되며,
표본공간 이전에서는 0의 값을 갖고, 표본공간의 끝에서는 1의 값을 갖도록 증가하는 연속성의 비감소함수
확률밀도함수는 누적분포함수를 미분하여 구할 수 있다.
x가 구간 a와 b 사이에 속할 확률은 아래와 같이 구할 수 있다.
( ) ( ) ( )
F x P X x f y dy
∞
−∞
= ≤ =
∫
( ) dF x( ) f x = dx
( ) ( ) ( ) ( ) ( )
P a ≤ ≤x b = P X ≤ −b P X ≤ a = F b −F a
1
예)금속 실린더
누적분포함수는
F(49.5)=0, F(50.5)=1
금속실린더가 49.7mm에서 50.0mm 사이의 값을 가질 확률은
2
49.5 3
49.5
3 3
3
( ) ( ) (1.5 6( 50.0) ) [1.5 2( 50.0) ]
[1.5 2( 50.0) ] [1.5 49.5 2(49.5 50.0) ] 1.5 2( 50.0) 74.5
x
x
F x P X x y dy
y y
x
x x
= ≤ = − −
= − −
= − − − × − −
= − − −
∫
(49.7 50.0) (50.0) (49.7)
P ≤ ≤x = F − F
기대값 (Expectation)
확률질량함수 또는 확률밀도함수는 전반적 확률특성에 대한 정보를 제공하기 때문에 때로는 이러한 특성의 요약척도를 도입하는 것이 유 용할 때가 있다,
확률변수의 평균값 : 기대값 (Expectation) 혹은평균(mean), E(X)
동일한 기대값을 가지는 두 확률변수는 확률질량함수 혹은 확률밀도
함수가 다를지라도 동일한 평균값을 가지는 것으로 간주함
이산형 확률변수의 기대값
이산형 확률변수
확률값 pi 와 xi를 취하는 이산형 확률변수 X의 기대값은
이는 확률값 를 가지는 표본공간 내의 값 의 가중평균으로 해석함
연속형 확률변수
확률밀도함수 f(x)를 가지는 연속형 확률변수의 기대값은
예) 금속 실린더 생산
금속 실린더의 기대 직경은 아래와 같이 50.0mm ( ) i i
i
E X =
∑
p xpi xi
( ) statespace ( )
E X =
∫
x f x dx⋅50.5
2 49.5
( ) (1.5 6( 50.0) ) 50.0 E X =
∫
x − x− dx=연속형 확률변수의 기대값
연속형 확률변수
확률밀도함수 f(x)를 가지는 연속형 확률변수의 기대값은
예) 금속 실린더 생산
금속 실린더의 기대 직경은 아래와 같이 50.0mm, 확률변수는 좌우대칭을 가짐
좌우대칭 확률변수
연속형 확률변수 X가 점 에서 좌우대칭인 확률밀도함수 f(x)를 가진다면, 즉 모든 에 대해 이면, , 즉 확률변수의 기대값은 좌우대칭 점 와 같다.
( ) statespace ( )
E X =
∫
x f x dx⋅50.5
2 49.5
( ) (1.5 6( 50.0) ) 50.0 E X =
∫
x − x− dx=µ
x∈R f (µ + x) = f (µ − x) E X( ) = µ
µ
중앙값
연속형 확률변수의 중앙값 X는 누적분포함수 F(x)에 대하여 를 만족시키는 x의 값으로 정의된다.
예) 금속 실린더 생산
금속 실린더 직경의 중앙값은,
로 계산되며 값은 50.0이다. 이는 확률밀도함수가 x=50.0에 대하여 좌우대 칭이기 때문
일반적으로, 좌우대칭 확률밀도를 가지는 확률변수는 좌우대칭점이 바로 기대값이며 중앙값이기도 함
( ) 0.5 F x =
( ) 1.5 2( 50.0)3 74.5 0.5 F x = x− x− − =
분산
확률분포의 또 다른 중요한 요약척도, 분산
확률변수 값들의 산포 또는 변동을 나타냄
기대값이 확률변수의 중심척도를 나타낸다면, 분산은 평균값에 대하 여 확률변수의 산포 또는 편차를 표현
확률변수에 대한 분산은
또는,
( ) (( ( )) )2
Var X = E X −E X
2
2 2
2 2
2 2
( ) (( ( )) ) ( 2 ( ) ( ( )) ) ( ) 2 ( ) ( ) ( ( )) ( ) ( ( ))
Var X E X E X E X XE X E X
E X E X E X E X E X E X
= −
= − +
= − +
= −
평균이 같지만 동일한 분산을 갖는 두 확률분포
평균은 같지만 분산이 다른 두 확률분포
예) 금속 실린더 생산
실린더 직경의 평균은 50.0mm이며, 분산은
2
2
50.5
2 2
49.5
( ) (( ( )) ) ( 50.0) ( )
( 50.0) (1.5 6( 50.0) 0.05
Var X E X E X
x f x dx
x x dx
= −
= −
= − − −
=
∫
∫
분위수
확률변수 X의 p 분위수는
를 만족하는 x의 값으로 정의되며, 종종 p*100 백분위수라고도 한다.
확률변수의 p 분위수보다 작은 값을 가질 확률은 p와 같다.
분포의 70 백분위수는 F(x)=0.70을 만족하는 x의 값에 해당함.
분포의 50 백분위수는 중앙값에 해당.
분호의 상한 사분위수(upper quartile)는 75 백분위수로 정의되며, 하한 사분 위수(lower quartile)은 25 백분위수로 정의됨. 사분위범위수(interquartile range)는 상한 사분위수와 하한 사분위수의 차로서 분산처럼분포의 산포에 대한 정보를 제공함.
( )
F x = p
예) 금속 실린더 생산
금속 실린더 직경의 누적분포함수는
상한 사분위수는 아래를 만족하는 x, 50.17mm
하한 사분위수는 아래를 만족하는 x, 49.83mm
따라서 사분위범위수는 50.17-49.83=0.34mm이다. 전체 실린더 중 절반은 49.83mm에서 50.17mm 의 직경을 가질 것이다.
( ) 1.5 2( 50.0)3 74.5 F x = x− x− −
( ) 0.75 F x =
( ) 0.25 F x =