Chapter 6. 확률모형과의 비교

(1)

Chapter 6. 확률모형과의 비교

김남형 응용통계학과 가천대학교

nhkim@gachon.ac.kr

1

(2)



정규확률 플롯의 구성

크기 인 연속형 자료를 크기 순으로 재 배열(관측치 사이의 부등호 가정)

이 자료의 경험분포(empirical distribution function) EDF를

로 정의하기로 한다.

그러면, 가 표본 분위수(quantile)가 된다.

n

n x

x x

x

x ₁ < ₂ < ₃ <  < ₋₁ <

n n

n i x i

G _i , 1 , 2 , , 1 ,

4 / 1

8 / ) 3

( = −

+

= − 

왜냐하면, EDA를 그냥 으로 정의하지 않은 이유는

과 같은 대칭성을 통상의 경험분포함수 이

만족시키지 못하기 때문( )

n

i x

G

₀

(

_i

) = / )

( 1 )

( x

₁

G x

_n

G = − G

₀

( x

_i

) = i / n

n n x

G n x

G ₀ ( ₁ ) = 1 / , ₀ ( _n ) = /

x i _p _i _≡ ₍ _i ₋ ₃ _/ ₈ ₎ _/( _n ₊ ₁ _/ ₄ ₎

(3)

이 표본을 어떤 특정분포와 비교하려고 한다.

예를 들어, 그 분포가 정규분포이고 평균이 이고, 분산이 이라고 하자.

이론적으로 분위수는 가 될 것이다.

여기서 는 정규분포 의 분포함수이고, 는 분포함수의 역함수

구체적으로 의 관계가 있으므로

정규분포 의 분위수 는 가 된다.

예를 들어, 인 경우 (=4.625/20.25=0.2284) 분위수는

이고 (=15.625/20.25=0.7716) 분위수는

이다.

만약, 관측자료 가 미리 정해진 와 의 정규분포를

잘 따른다면 정규분포 에서의 분위수와 자료에서의 분위수가 비슷 즉, 의 플롯은 기울기가 1인 직선 에 가까이 있게 될 것이다.

µ σ

²

p i _F

⁻¹

₍ _p

_i

₎

) (x F

p = N (

µ

,

σ²

) x = F

⁻¹

( p ) )

( )

( x F z z

F = µ + σ = Φ

) , (

µ σ²

N p _i q _i _q

_i _≡

_µ

₊

_σ

_Φ⁻¹₍

_p

_i₎

= 20

n p ₅

) 7441 .

0 ( )

(

₅

1

5

≡ µ + σ Φ

⁻

p = µ + σ −

q

p 16

) 7441 .

0 ( )

(

₁₆

1

16

≡ µ + σ Φ

⁻

p = µ + σ

q

} ,

, ,

{ x ₁ x ₂  x _n µ σ

) , ( µ σ

²

N p _i p _i

n i

x

q _i , _i ), 1 , 2 , ,

( =  x = p

3

(4)

와 를 미지의 모수로 남겨두고 자료가 정규분포를 잘 따르는지를 보려면

표준정규분포의 분위수와 자료에서의 분위수인

를 플롯해 볼 수 있을 것이다. 만약 그렇다면 관계식 가 성립하므로 위의 플롯은 (절편이 이고 기울기가 인) 직선에 가까운 형태를 취하게 된다.

[미니탭의 활용]

정규 점수를 구하기 위하여 Calc > Calculator….

µ σ

p

i

p

_i

n i

x

p _i ), _i ), 1 , 2 , , (

( Φ ⁻ ¹ = 

)

1 (

i i

i q p

x ≅ ≡ µ + σ Φ ⁻ ^µ ^σ

정규확률 풀롯

표준정규분포의 분위수인 를 번째 자료점의

정규점수(normal score)라고 하고 자료점의 정규점수와 그 자료점의 플롯을 말한다.

p

i ¹₍ ₎

p

i

Φ−

i

(5)

<정규 점수> <정규 점수와 D변수와의 플롯>

Graph > Character Graphs > Scatter Plot…

D - x

-

- x x

50+ x

- x

- xx

- xx x

- x x x

0+

- - - -

-50+ x -

- x

-

+---+---+---+---+Nscore -2.0 -1.0 0.0 1.0 2.0

5

(6)



정규확률 플롯의 여러 패턴

1) 정규 분포로부터의 표본 자료에 대한 정규확률 플롯

지능지수 IQ 는 전체 모집단의 평균이 100이고 표준편차가 15 모집단에서 40명의 표본을 추출 하여 지능지수 측정

모평균이 100, 모표준편차 15인 정규 확률변량 40개 모의 생성 정규확률 플롯 작성

정규분포의 난수 생성 Calc > Random Data > Normal…

(7)

정규점수 생성 Calc > Calculator …. Nscore(C1)을 C2에 입력 정규확률 플롯 Graph > Character Graphs > Scatter Plot …

C1(자료) - x

-

- x

125+ x

- x x

- xxx

100+ xxxx2x

- xx2xxxx

- x xxxxxx

- x x

- x

75+ x -

- x -

---+---+---+---+---+---C2 (정규점수)

-1.60 -0.80 0.00 0.80 1.60

7

(8)

2) 혼합 정규분포로 부터 표본자료에 대한 정규확률 플롯 평균이 70이고 표준편차가 15인 분포로 부터 20명 평균이 130이고 표준편차가 15인 분포로 부터 20명 [미니탭의 활용]

Calc > Random Data > Normal… (평균 70, 표준편차 15 와 평균 130, 표준편차 15) Manip > Stack/Unstack > Stack Columns…

Calc > Calculator… Normal Score 작성 Graph > Character Graphs > Scatter Plot…

이 자료들을 혼합시킨 표본자료의 정규확률

플롯 작성

-

C3 - x x

- x xx x x

- xxx

120+ 2xxxx

- xxx

-

- 2

- x

80+ xxx

- xxxxx

- xxxx

- x x xx

- x

40+

- x -

---+---+---+---+---+---C4 -1.60 -0.80 0.00 0.80 1.60

(9)

3) 특이값이 내재하는 표본 자료에 대한 정규확률 플롯

38개의 자료점은 평균이 100이고 표준편차가 15인 정규분포에서 모의생성 2개의 자료값은 25와 175로 입력 시켜 모두 40개의 자료

Calc > Random Data > Normal….

Manip > Stack > Stack Columns…

C3 - x

- - 150+

-

- x x x

- xx xx

- xxxx2xxxxxx

100+ xxxx2xxxx

- x xxxx

- x x

- 50+

- - x -

---+---+---+---+---+---C4 -1.60 -0.80 0.00 0.80 1.60

x

9

(10)

4) 꼬리가 짧은 분포로부터 표본 자료에 대한 정규확률 플롯 꼬리가 짧은 분포의 예인 균일분포로부터 표본자료 임의 생성 정규확률 플롯 작성

-

120+ x x x

- x

C1 - xx

- x

- 2xxxxxxx

105+ x

- xx

- 2

- xxxx

- xx

90+ xxxx

- x xxx

- x x x

- x x -

75+

---+---+---+---+---+---C2 -1.60 -0.80 0.00 0.80 1.60

(11)

5) 꼬리가 긴 분포로부터 표본자료에 대한 정규확률 플롯

꼬리가 긴 분포의 예인 이중지수분포로부터 표본자료를 임의 생성 정규확률 플롯 작성

단, 인 이중지수(라플라스)분포로 부터 40개의 자료 생성 [미니탭의 활용]

∞

<

∞

−

= b

⁻

x a b x

b a x

f ( ; , ) ( 2 )

¹

exp[ | | / ], 30

,

100 =

= b

a

-

- x

210+ x

- x

C1 - - - 140+

- xx xx x

- x2xxxxxx

- xx2xxx2xx

- xxx

70+ x xxx

- x x x

-

- x x -

---+---+---+---+---+---C2 -1.60 -0.80 0.00 0.80 1.60

11

(12)

6) 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우

큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 예인 로그 정규분포에서 자료생성 [미니탭의 활용]

Calc > Random Data > Lognormal…

-

2100+ x -

C1 - - - 1400+

- -

- x x

-

700+ x

- xx

- xxxxx

- xxxx

- xxxxxxxx2xxx2xxxx

0+ x x x x xx

---+---+---+---+---+---C2 -1.60 -0.80 0.00 0.80 1.60

(13)

7) 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우

작은 값 쪽으로 꼬리를 뻗은 기울어진 분포의 한 예를 만들기 위하여 로그 정규분포 로부터 임의 생성된 변량에 음수 배를 한 후 일정 수를 더하여 표본자료 생성

- xx xx x x x x

- x2xxx2xxx2xxxxxx

700+ xx

- x xxxxx

C2 - x

- x

-

0+ x x -

- - - -700+

- - x - -

---+---+---+---+---+---C3 -1.60 -0.80 0.00 0.80 1.60

13

(14)



지수분포 및 와이블 분포에의 적합

공학 및 의학 등에서 많이 다루는 수명(life time : 생존시간, survival time)자료에 대하여 지수분포(exponential distribution)나 와이블 분포(Weibull distribution)을 고려

지수분포와 와이블 분포의 적합도 Q-Q 플롯(quantile-quantile plot) 작성 지수분포의 확률밀도 함수와 분포함수

따라서 분위수 는

로 주어진다

즉, 표본자료 가 지수분포를 따르는 경우 자료점 를 세로축에, 를 가로축에 플롯 직선의 경향선이 나타남

예를 들면, 백혈병 환자 21명의 생존시간에 관한 자료를 지수분포에 적합 1 1 2 2 3 4 4

5 5 8 8 8 8 11

11 12 12 15 17 22 23 (단위 : 주)

0 ,

/ ) / exp(

)

;

( x b = − x b b x > b >

f

0 ),

/ exp(

1 )

;

( x b = − − x b x >

F

) 4 / 1 /(

) 8 / 3

( − +

≡ i n

p

_i

q

i

) 1

( log )

/ exp(

1 _i _i _e _i

i q b q b p

p = − − ⇒ = − −

x

n

x

₁

<  <

x i

) 1

(

log

_e

− p

_i

−

Q-Q플롯을 작성 미니탭을 이용

(15)

- 24.0+

- x x

C1 - -

- x

16.0+

- x

- x x

-

8.0+ xxx x -

- xxxx

- x

- xxxx 0.0+

+---+---+---+---+---+---C4 0.00 0.70 1.40 2.10 2.80 3.50

경향선의 초기에 많은 자료점이 쏠리게 된다.

Q-Q플롯의 세로축 과 가로축을 동시에

세제곱근 변환이 필요하다고 인식

15

(16)

백혈병 자료의 세제곱근 변환 후 Q-Q플롯

와이블 분포의 분포함수

여기서 인 경우는 바로 지수분포가 된다.

와이블 분포의 분포함수를 보기 위해서는 로그변환을 고려

- x

C5 - x

-

- x x

2.40+

- x x x x

-

- xx x x

- 1.80+

- xx

- x x

- x

-

1.20+ x x -

- x x

--+---+---+---+---+---+----C6 0.25 0.50 0.75 1.00 1.25 1.50

경향선이 약간 오목 한

형태의 곡선성을 보 이

므로 자료가 지수분 포

에 적합하지 않은 것 을 알 수 있다

0 ,

/ ] ) / ( exp[

) ,

;

( x a b = ax ⁻ ¹ − x b b x > a > b >

f â â â

= 1 a

X

Y = log _e

(17)

변수변환에 의하여 의 확률밀도함수는

가 되고 분포함수는

가 유도된다.

이 분포의 분위수를 라고 하면

와이블 분포의 Q-Q플롯을 그리는 순서 (1) 자료를 (자연)로그 변환 후

(2) 그래프의 세로축에 로그변환 자료값을, 가로축에 여기서

경향선이 직선 형태인 경우 표본자료가 대체적으로 와이블 분포를 따르는 것으로 생각 ( 이 때 직선의 기울기는 의 추정치임)

Y

)]

log exp(

log exp[

) ,

;

( y a b a ay a b ay a b

f = − _e − − _e

)]

log exp(

exp[

1 ) ,

;

( y a b ay a b

F = − − − _e

p i

)]

log exp(

exp[

1 aq a b

p _i = − − _i − _e

b a

aq

p _i _i _e

e

e [ log ( 1 )] log

log − − = −

⇒

)]

1 ( log [

log _e − _e − p _i

) 4 / 1 /(

) 8 / 3

( − +

≡ i n

p

_i

a / 1

17 q i

(18)

Calc > Calculator…

- x

3.0+ x

- xx

C5 -

- x xxx

-

2.0+ xx xx -

- xx

- x x

-

1.0+ x -

- x x

- -

0.0+ x x

+---+---+---+---+---+---C4 -4.0 -3.0 -2.0 -1.0 0.0 1.0

도표의 기울기가 대략 0.8정도인 직선형태 와이블 분포에서의 모수 a에 대한 추정치 는1/0.8=1.25

(즉, a=1(지수분포) 과 약간의 차이를 두고 있다.

(19)



요약

⊙ 자료와 확률모형과의 적합도 평가

⊙ DRSS의 크기는 평균이 0, 분산이 1인 정규분포 N(0,1)을 근거로 평가 절대값이 2이상인 DRSS 는 우선 주목 대상이 된다.

⊙ 미니탭에서 DRSS를 구하기 위해서는 Rootogram 명령어 사용

⊙ Q-Q플롯은 모형의 적합도를 평가 정규확률 플롯 이용

⊙ 혼합 정규분포로 부터의 표본자료는 정규확률 플롯에서 좌하와 우상부분의 형태가

‘ ’ 형태를 보이며 중간 부분에서의 자료점 밀도가 양 옆에 비하여 낮다.

⊙ 특이값이 내재된 표본자료는 정규확률 플롯에서 점들이 양쪽 끝에 떨어져 나가 있다.

작은값 특이점은 주경향선 보다 아래쪽에 있고 큰 값 특이점은 주경향선 보다 위쪽

,

1 ,

) 4

1 ( )

4 2

( + − + ≥

=

관측빈도 기대빈도 관측빈도

DRSS

. 0 ,

) 4

1 (

1 − + =

= 기대빈도 관측빈도

19

(20)

⊙ 정규분포보다 짧은 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 S자형태

⊙ 정규분포보다 긴 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 역 S자형태

⊙ 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포를 갖는 표본 자료의 정규확률 플롯은 비스듬히 누운 J자 형태의 경향선을 갖는다.

⊙ 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포를 갖는 표본 자료의 정규확률 플롯은 비스듬히 누운 역 J자 형태의 경향선을 갖는다.

⊙ 수명자료에 대하여는 지수분포 Q-Q플롯이나 와이블 분포 Q-Q플롯을 그릴 수 있다.

직선형태의 경향선이 보이는 경우 표본 자료는 해당하는 확률모형과 적합성을 갖는 다.

Chapter 6. 확률모형과의 비교