Chapter 6. 확률모형과의 비교
김남형 응용통계학과 가천대학교
nhkim@gachon.ac.kr
1
정규확률 플롯의 구성크기 인 연속형 자료를 크기 순으로 재 배열(관측치 사이의 부등호 가정)
이 자료의 경험분포(empirical distribution function) EDF를
로 정의하기로 한다.
그러면, 가 표본 분위수(quantile)가 된다.
n
n
n x
x x
x
x 1 < 2 < 3 < < −1 <
n n
n i x i
G i , 1 , 2 , , 1 ,
4 / 1
8 / ) 3
( = −
+
= −
왜냐하면, EDA를 그냥 으로 정의하지 않은 이유는
과 같은 대칭성을 통상의 경험분포함수 이
만족시키지 못하기 때문( )
n
i x
G
0(
i) = / )
( 1 )
( x
1G x
nG = − G
0( x
i) = i / n
n n x
G n x
G 0 ( 1 ) = 1 / , 0 ( n ) = /
x i p i ≡ ( i − 3 / 8 ) /( n + 1 / 4 )
이 표본을 어떤 특정분포와 비교하려고 한다.
예를 들어, 그 분포가 정규분포이고 평균이 이고, 분산이 이라고 하자.
이론적으로 분위수는 가 될 것이다.
여기서 는 정규분포 의 분포함수이고, 는 분포함수의 역함수
구체적으로 의 관계가 있으므로
정규분포 의 분위수 는 가 된다.
예를 들어, 인 경우 (=4.625/20.25=0.2284) 분위수는
이고 (=15.625/20.25=0.7716) 분위수는
이다.
만약, 관측자료 가 미리 정해진 와 의 정규분포를
잘 따른다면 정규분포 에서의 분위수와 자료에서의 분위수가 비슷 즉, 의 플롯은 기울기가 1인 직선 에 가까이 있게 될 것이다.
µ σ
2p i F
−1( p
i)
) (x F
p = N (
µ,
σ2) x = F
−1( p ) )
( )
( )
( x F z z
F = µ + σ = Φ
) , (
µ σ2N p i q i q
i ≡µ
+σ
Φ−1(p
i)= 20
n p 5
) 7441 .
0 ( )
(
51
5
≡ µ + σ Φ
−p = µ + σ −
q
p 16
) 7441 .
0 ( )
(
161
16
≡ µ + σ Φ
−p = µ + σ
q
} ,
, ,
{ x 1 x 2 x n µ σ
) , ( µ σ
2N p i p i
n i
x
q i , i ), 1 , 2 , ,
( = x = p
3
와 를 미지의 모수로 남겨두고 자료가 정규분포를 잘 따르는지를 보려면
표준정규분포의 분위수와 자료에서의 분위수인
를 플롯해 볼 수 있을 것이다. 만약 그렇다면 관계식 가 성립하므로 위의 플롯은 (절편이 이고 기울기가 인) 직선에 가까운 형태를 취하게 된다.
[미니탭의 활용]
정규 점수를 구하기 위하여 Calc > Calculator….
µ σ
p
ip
in i
x
p i ), i ), 1 , 2 , , (
( Φ − 1 =
)
1 (
i i
i q p
x ≅ ≡ µ + σ Φ − µ σ
정규확률 풀롯
표준정규분포의 분위수인 를 번째 자료점의
정규점수(normal score)라고 하고 자료점의 정규점수와 그 자료점의 플롯을 말한다.
p
i 1( )p
iΦ−
i
<정규 점수> <정규 점수와 D변수와의 플롯>
Graph > Character Graphs > Scatter Plot…
<Scatter plot>
D - x
-
- x x
50+ x
- x
- xx
- xx x
- x x x
0+
- - - -
-50+ x -
- x
-
+---+---+---+---+Nscore -2.0 -1.0 0.0 1.0 2.0
5
정규확률 플롯의 여러 패턴1) 정규 분포로부터의 표본 자료에 대한 정규확률 플롯
지능지수 IQ 는 전체 모집단의 평균이 100이고 표준편차가 15 모집단에서 40명의 표본을 추출 하여 지능지수 측정
모평균이 100, 모표준편차 15인 정규 확률변량 40개 모의 생성 정규확률 플롯 작성
[미니탭의 활용]
정규분포의 난수 생성 Calc > Random Data > Normal…
정규점수 생성 Calc > Calculator …. Nscore(C1)을 C2에 입력 정규확률 플롯 Graph > Character Graphs > Scatter Plot …
C1(자료) - x
-
- x
125+ x
- x x
- x x
- xxx
- xxx
100+ xxxx2x
- xx2xxxx
- x xxxxxx
- x x
- x
75+ x -
- x -
---+---+---+---+---+---C2 (정규점수)
-1.60 -0.80 0.00 0.80 1.60
7
2) 혼합 정규분포로 부터 표본자료에 대한 정규확률 플롯 평균이 70이고 표준편차가 15인 분포로 부터 20명 평균이 130이고 표준편차가 15인 분포로 부터 20명 [미니탭의 활용]
Calc > Random Data > Normal… (평균 70, 표준편차 15 와 평균 130, 표준편차 15) Manip > Stack/Unstack > Stack Columns…
Calc > Calculator… Normal Score 작성 Graph > Character Graphs > Scatter Plot…
이 자료들을 혼합시킨 표본자료의 정규확률
플롯 작성
-
C3 - x x
- x xx x x
- xxx
120+ 2xxxx
- xxx
-
- 2
- x
80+ xxx
- xxxxx
- xxxx
- x x xx
- x
40+
- x -
---+---+---+---+---+---C4 -1.60 -0.80 0.00 0.80 1.60
3) 특이값이 내재하는 표본 자료에 대한 정규확률 플롯
38개의 자료점은 평균이 100이고 표준편차가 15인 정규분포에서 모의생성 2개의 자료값은 25와 175로 입력 시켜 모두 40개의 자료
Calc > Random Data > Normal….
Manip > Stack > Stack Columns…
Graph > Character Graphs > Scatter Plot…
C3 - x
- - 150+
-
- x x x
- xx xx
- xxxx2xxxxxx
100+ xxxx2xxxx
- x xxxx
- x x
- x x
- 50+
- - x -
---+---+---+---+---+---C4 -1.60 -0.80 0.00 0.80 1.60
x
x
9
4) 꼬리가 짧은 분포로부터 표본 자료에 대한 정규확률 플롯 꼬리가 짧은 분포의 예인 균일분포로부터 표본자료 임의 생성 정규확률 플롯 작성
[미니탭의 활용]
-
120+ x x x
- x
C1 - xx
- x
- 2xxxxxxx
105+ x
- xx
- 2
- xxxx
- xx
90+ xxxx
- x xxx
- x x x
- x x -
75+
---+---+---+---+---+---C2 -1.60 -0.80 0.00 0.80 1.60
5) 꼬리가 긴 분포로부터 표본자료에 대한 정규확률 플롯
꼬리가 긴 분포의 예인 이중지수분포로부터 표본자료를 임의 생성 정규확률 플롯 작성
단, 인 이중지수(라플라스)분포로 부터 40개의 자료 생성 [미니탭의 활용]
∞
<
<
∞
−
−
−
= b
−x a b x
b a x
f ( ; , ) ( 2 )
1exp[ | | / ], 30
,
100 =
= b
a
-
- x
210+ x
- x
C1 - - - 140+
- xx xx x
- x2xxxxxx
- xx2xxx2xx
- xxx
70+ x xxx
- x x x
-
- x x -
---+---+---+---+---+---C2 -1.60 -0.80 0.00 0.80 1.60
11
6) 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우
큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 예인 로그 정규분포에서 자료생성 [미니탭의 활용]
Calc > Random Data > Lognormal…
-
2100+ x -
C1 - - - 1400+
- -
- x x
-
700+ x
- xx
- xxxxx
- xxxx
- xxxxxxxx2xxx2xxxx
0+ x x x x xx
---+---+---+---+---+---C2 -1.60 -0.80 0.00 0.80 1.60
7) 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우
작은 값 쪽으로 꼬리를 뻗은 기울어진 분포의 한 예를 만들기 위하여 로그 정규분포 로부터 임의 생성된 변량에 음수 배를 한 후 일정 수를 더하여 표본자료 생성
- xx xx x x x x
- x2xxx2xxx2xxxxxx
700+ xx
- x xxxxx
C2 - x
- x
-
0+ x x -
- - - -700+
- - x - -
---+---+---+---+---+---C3 -1.60 -0.80 0.00 0.80 1.60
13
지수분포 및 와이블 분포에의 적합공학 및 의학 등에서 많이 다루는 수명(life time : 생존시간, survival time)자료에 대하여 지수분포(exponential distribution)나 와이블 분포(Weibull distribution)을 고려
지수분포와 와이블 분포의 적합도 Q-Q 플롯(quantile-quantile plot) 작성 지수분포의 확률밀도 함수와 분포함수
따라서 분위수 는
로 주어진다
즉, 표본자료 가 지수분포를 따르는 경우 자료점 를 세로축에, 를 가로축에 플롯 직선의 경향선이 나타남
예를 들면, 백혈병 환자 21명의 생존시간에 관한 자료를 지수분포에 적합 1 1 2 2 3 4 4
5 5 8 8 8 8 11
11 12 12 15 17 22 23 (단위 : 주)
0 ,
0 ,
/ ) / exp(
)
;
( x b = − x b b x > b >
f
0 ),
/ exp(
1 )
;
( x b = − − x b x >
F
) 4 / 1 /(
) 8 / 3
( − +
≡ i n
p
iq
i) 1
( log )
/ exp(
1 i i e i
i q b q b p
p = − − ⇒ = − −
x
nx
1< <
x i
) 1
(
log
e− p
i−
Q-Q플롯을 작성 미니탭을 이용
[미니탭의 활용]
- 24.0+
- x x
C1 - -
- x
16.0+
- x
- x x
- x x
-
8.0+ xxx x -
- xxxx
- x
- xxxx 0.0+
+---+---+---+---+---+---C4 0.00 0.70 1.40 2.10 2.80 3.50
경향선의 초기에 많은 자료점이 쏠리게 된다.
Q-Q플롯의 세로축 과 가로축을 동시에
세제곱근 변환이 필요하다고 인식
15
백혈병 자료의 세제곱근 변환 후 Q-Q플롯
와이블 분포의 분포함수
여기서 인 경우는 바로 지수분포가 된다.
와이블 분포의 분포함수를 보기 위해서는 로그변환을 고려
- x
C5 - x
-
- x x
2.40+
- x x x x
-
- xx x x
- 1.80+
- xx
- x x
- x
-
1.20+ x x -
- x x
--+---+---+---+---+---+----C6 0.25 0.50 0.75 1.00 1.25 1.50
경향선이 약간 오목 한
형태의 곡선성을 보 이
므로 자료가 지수분 포
에 적합하지 않은 것 을 알 수 있다
0 ,
0 ,
0 ,
/ ] ) / ( exp[
) ,
;
( x a b = ax − 1 − x b b x > a > b >
f a a a
= 1 a
X
Y = log e
변수변환에 의하여 의 확률밀도함수는
가 되고 분포함수는
가 유도된다.
이 분포의 분위수를 라고 하면
와이블 분포의 Q-Q플롯을 그리는 순서 (1) 자료를 (자연)로그 변환 후
(2) 그래프의 세로축에 로그변환 자료값을, 가로축에 여기서
경향선이 직선 형태인 경우 표본자료가 대체적으로 와이블 분포를 따르는 것으로 생각 ( 이 때 직선의 기울기는 의 추정치임)
Y
)]
log exp(
log exp[
) ,
;
( y a b a ay a b ay a b
f = − e − − e
)]
log exp(
exp[
1 ) ,
;
( y a b ay a b
F = − − − e
p i
)]
log exp(
exp[
1 aq a b
p i = − − i − e
b a
aq
p i i e
e
e [ log ( 1 )] log
log − − = −
⇒
)]
1 ( log [
log e − e − p i
) 4 / 1 /(
) 8 / 3
( − +
≡ i n
p
ia / 1
17
q i
[미니탭의 활용]
Calc > Calculator…
Graph > Character Graphs > Scatter Plot…
- x
3.0+ x
- xx
C5 -
- x xxx
-
2.0+ xx xx -
- xx
- x x
-
1.0+ x -
- x x
- -
0.0+ x x
+---+---+---+---+---+---C4 -4.0 -3.0 -2.0 -1.0 0.0 1.0
도표의 기울기가 대략 0.8정도인 직선형태 와이블 분포에서의 모수 a에 대한 추정치 는1/0.8=1.25
(즉, a=1(지수분포) 과 약간의 차이를 두고 있다.
요약⊙ 자료와 확률모형과의 적합도 평가
⊙ DRSS의 크기는 평균이 0, 분산이 1인 정규분포 N(0,1)을 근거로 평가 절대값이 2이상인 DRSS 는 우선 주목 대상이 된다.
⊙ 미니탭에서 DRSS를 구하기 위해서는 Rootogram 명령어 사용
⊙ Q-Q플롯은 모형의 적합도를 평가 정규확률 플롯 이용
⊙ 혼합 정규분포로 부터의 표본자료는 정규확률 플롯에서 좌하와 우상부분의 형태가
‘ ’ 형태를 보이며 중간 부분에서의 자료점 밀도가 양 옆에 비하여 낮다.
⊙ 특이값이 내재된 표본자료는 정규확률 플롯에서 점들이 양쪽 끝에 떨어져 나가 있다.
작은값 특이점은 주경향선 보다 아래쪽에 있고 큰 값 특이점은 주경향선 보다 위쪽
,
1 ,
) 4
1 ( )
4 2
( + − + ≥
=
관측빈도 기대빈도 관측빈도DRSS
. 0 ,
) 4
1 (
1 − + =
= 기대빈도 관측빈도
19
⊙ 정규분포보다 짧은 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 S자형태
⊙ 정규분포보다 긴 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 역 S자형태
⊙ 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포를 갖는 표본 자료의 정규확률 플롯은 비스듬히 누운 J자 형태의 경향선을 갖는다.
⊙ 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포를 갖는 표본 자료의 정규확률 플롯은 비스듬히 누운 역 J자 형태의 경향선을 갖는다.
⊙ 수명자료에 대하여는 지수분포 Q-Q플롯이나 와이블 분포 Q-Q플롯을 그릴 수 있다.
직선형태의 경향선이 보이는 경우 표본 자료는 해당하는 확률모형과 적합성을 갖는 다.