Chapter 6. 확률모형과의 비교

(1)

Chapter 6. 확률모형과의 비교

김남형 응용통계학과 가천대학교

[email protected]

(2)



확률 모형(probability model)

• 확률 변수의 확률 밀도 함수(probability density function)를 의미

• 확률 밀도 함수는 확률 변수 (x)의 분포를 나타내는 함수

• 확률변수(x)가 가질 수 있는 각 값을 정의역(domain)

• 확률(𝒇𝒇 𝒙𝒙 )를 치역(range)으로 함

이산형 확률 밀도 함수 연속형 확률 밀도 함수

(3)



확률 밀도 함수(probability density function)

• 확률 밀도함수 𝒇𝒇 𝒙𝒙 와 구간[a,b]에 대해서 확률 변수 x가 구간에 포함될 확률 𝑷𝑷 𝒂𝒂 ≤ 𝒙𝒙 ≤ 𝒃𝒃 는 확률밀도함수를 그 구간에 대해 적분한 값으로 구할 수 있음

𝑷𝑷 𝒂𝒂 ≤ 𝒙𝒙 ≤ 𝒃𝒃 = �

𝒂𝒂

𝒃𝒃

𝒇𝒇 𝒙𝒙 𝒅𝒅𝒙𝒙

• 확률 밀도 함수 𝒇𝒇 𝒙𝒙 는 다음의 두 조건을 만족해야 함

• 모든 실수 x에 대해 𝒇𝒇 𝒙𝒙 ≥ 𝟎𝟎

• ∫

_−∞ ^∞

𝒇𝒇 𝒙𝒙 𝒅𝒅𝒙𝒙 = 𝟏𝟏

• 누적 분포 함수(cumulative distribution function)와의 관계

• 𝑭𝑭 𝒙𝒙 = 𝑷𝑷 𝑿𝑿 ≤ 𝒙𝒙 = ∫

_−∞ ^𝒙𝒙

𝒇𝒇 𝒙𝒙 𝒅𝒅𝒙𝒙

• 𝒇𝒇 𝒙𝒙 =

_{𝒅𝒅𝒙𝒙} ^𝒅𝒅

𝑭𝑭(𝒙𝒙)

(4)



그룹 데이터, 도수 자료

그룹 데이터나 계수형 데이터와 같이 빈도로 이루어진 데이터의 경우 어느 특정분포 (예를 들면, 정규분포 또는 포아송분포)와 비교되는지를 살펴보고,

특히 이 때 적합도에 관한 잔차(residual)의 활용에 대하여 논의

• 그룹 데이터(또는 빈도 자료): 각 그룹(구간)의 빈도가 기록되어 있는 경우 예: 설문지 조사에서 응답자의 나이가 10년 간격일 때

• 계수형 데이터: 개별 데이터 값이 도수로 이루어진 경우 각 계수에 해당하는 빈도 로 요약될 수 있음

예: 서울시 버스회사에 고용된 운전기사들이 1년 동안 교통법규 위반 스티커를 발부 받은 횟수 1장 받은 운전기사의 수, 2장 받은 운전기사의 수 등 빈도자 료로 바꿀 수 있음

(5)



도수 자료와 포아송 분포와의 비교 계수형 분포(예 : 포아송 분포)

X : 어떤 특정한 사건의 도수를 나타내는 확률변수 분포 함수 :

특징 : 평균과 분산이 다 같은 모수 인 이산확률분포 단위시간당 발생하는 총 도수를 나타내는 분포

정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기대값이 라고 했을 때, 그 사건이 x회 일어날 확률

응용

• 일정 주어진 시간 안에 도착한 고객의 수

• 1킬로미터 도로에 있는 흠집의 수

• 일정 주어진 생산시간 동안 발생하는 불량의 수

• 하룻동안 발생하는 출생자의 수

• 어떤 시간 동안 톨게이트를 통과하는 차량의 수

 , 2 , 1 , 0 ,

! / }

;

Pr{ X = x λ = e

⁻^λ

λ

^x

x x =

λ

(6)

## 아래의 자료가 포아송 분포를 따르는지 검토

< 프러시아 200개 기병군단에서 각 군단별 말에 치여 사망한 병사의 수>

사망자수 관측빈도 기대빈도 2배 제곱근 잔차

0 109 10.4 108.6 0.062 1 65 8.1 66.2 -0.117 2 22 4.7 20.2 0.442 3 3 1.7 4.2 -0.477 4+ 1 1.0 0.8 0.400

합 계 200 200.0 X의 평균 = (0•109+1•65+2•22+3•3+4•1)/200 = 0.61 = 기대빈도 = 200 •

예)

DRRS = 일 때,

= 일 때

x O

x

^O

^x

E

_x

DRRS

λ

^

E

x

Pr{ X = x ; λ = 0 . 61 }

2 . 66 ) 331 . 0 ( 200

! 1 / ) 61 . 0 )(

61 . 0 exp(

200 }

61 . 0

; 1 Pr{

200

¹

1

= ⋅ X = λ = = ⋅ − = ⋅ =

E

1 ,

) 4 1 ( )

4 2

( + O

_x ¹^/²

− + E

_x ¹^/²

O

_x

≥ 0 ,

) 4 1 (

1 − + E

_x ¹^/²

O

_x

=

Histogram of C1 N = 200

**Each * represents 5 observation(s) Midpoint Count**

0 109 **********************

1 65 *************

2 22 *****

3 3 *

4 1 *

(7)

[미니탭 명령]

히스토 그램 작성 (graph > Histogram…)

포아송 난수 생성 (Calc > Random Data > Poisson….)

(8)

< 세 임의생성 자료에 대한 히스토그램 >

Histogram of C2 N = 200

Each * represents 5 observation(s)

Midpoint Count

0 110 **********************

1 66 **************

2 18 ****

3 5 *

4 1 *

Histogram of C3 N = 200 Each * represents 5 observation(s) Midpoint Count 0 106 *********************

1 67 **************

2 20 ****

3 7 **

4 0

Histogram of C4 N = 200 Each * represents 5 observation(s) Midpoint Count 0 105 *********************

1 69 **************

2 21 *****

3 3 *

4 2 *

(9)

< 세 임의생성 자료에 대한 루토그램 >

DRRS(double root residuals) = 일 때,

= 일 때

Midpoint Count

0 10.5 ***********

1 8.1 *********

2 4.2 *****

3 2.2 ***

4 1.0 *

Midpoint Count

0 10.3 ***********

1 8.2 *********

2 4.5 *****

3 2.6 ***

4 0.0

Midpoint Count

0 10.2 ***********

1 8.3 *********

2 4.6 *****

3 1.7 **

4 1.4 **

제곱근 변환 루토그램(rootogram)

@ DRRS의 값이 (-2, +2)구간의 범위를 벗어나면 주의

@ DRRS의 값이 (-3, +3)구간의 범위를 벗어나면 고려된 확률모형과 맞지 않음

1 ,

) 4 1 ( ) 4 2

( + O

_x ¹^/²

− + E

_x ¹^/²

O

_x

≥ 0 ,

) 4 1 (

1 − + E

¹^/²

O =

(10)



그룹 데이터와 정규분포와의 비교

원 측정값이 연속적인 수량이지만, 그룹화 된 데이터인 경우

정규분포(Normal distribution / Gaussian distribution) 확률변수 X가 정규분포인 경우 확률밀도 함수

사이에 68%, 사이에 95.4%, 사이에 99.7%

통계적인 방법론에서의 모수 를 표본평균으로, 는 표본 표준편차로 적합

저항성을 전혀 갖고 있지 못하다 EDA에서의 추정치

예) 중위수 M을 의 추정치로 사용

연속형 자료 이면서 그룹화 되어 있는 자료의 예

스코틀랜드 군인 5738명의 가슴둘레 데이터(도수분포표 형태의 자료)

∞

<

∞

−

= ⁻ x x

x

f ( ; µ , σ ² ) ( 2 πσ ² ) ¹ ^/ ² exp[ ( µ ) ² /( 2 σ ² )],

σ

µ ± µ ± σ

σ µ ±

µ σ

2 / ) (

~

U L H H + µ =

35 . 1 / ) (

~

L

U H

H − σ =

µ

(11)

< 스코틀랜드 군인 5738명의 가슴둘레 데이터 (단위 : 인치) >

가슴둘레(x)

구간 중앙값 관측빈도(O)

-33.5 33 3

33.5-34.5 34 18

34.5-35.5 35 81

35.5-36.5 36 185

36.5-37.5 37 420

37.5-38.5 38 749

38.5-39.5 39 1073

39.5-40.5 40 1079

40.5-41.5 41 934

41.5-42.5 42 658

42.5-43.5 43 370

43.5-44.5 44 92

44.5-45.5 45 50

45.5-46.5 46 21

46.5-47.5 47 4

47.5- 48 1

(12)

<그룹화 된 자료에서의 사분위수 구하는 방법>

아래 사분위수 HL을 구하기 위하여 우선 깊이 d(H)의 자료점이 속한 구간을 구한다.

그 구간을 이라고 하고 이 구간의 빈도를 이라고 하자

이 구간을 개의 동일 길이 의 소 구간으로 나누고 그 중간점을 구해보자

중간점 = 중간점 =

중간점 =

깊이 d(H)의 자료점은

같은 방법으로 위 사분위수 HU를 구할 수 있다.

) ,

( x

_L₋₁

x

_L

n _L

n L h

L L

L x n

x

h = ( − ₋ ₁ ) /

⇒

−

+

−

, )

( x

_L ₁

x

_L ₁

h ^x

^L⁻¹

⁺ ⁰ ^. ⁵ ^h

⇒ +

+

₋

−

, 2 )

( x

_L ₁

h x

_L ₁

h ^x

^L⁻¹

⁺ ¹ ^. ⁵ ^h



( ⁻ ) ⁺ ^⇒

+

₋

−

1 , )

( x

_L ₁

n

_L

h x

_L ₁

n

_L

h ^x

^L⁻¹

⁺ ⁽ ⁿ

^L

⁻ ⁰ ^. ⁵ ⁾ ^h

L L

L

h d H n n n H

x

₋₁

+ { ( ) − (

₁

+

₂

+  +

₋₁

) − 0 . 5 } ≡

(13)

스코틀랜드 자료를 이용하여 예를 들면 전체자료의 크기 n=5738이므로

d(H) = (1+[(5738+1)/2])/2 = 1435

37.5인치 미만인 사례수가 총 707명, 38.5인치 미만까지가 총 1456명

(37.5, 38.5)에 749명이 있고, 이 구간 안에 아래 사분위수 HL이 속해 있다.

HL = 37.5+(1/749){1435-707-0.5} = 38.471

41.5인치 이상의 사례수가 1196명, 40.5인치 이상인 사례가 2130명 (40.5, 41.5)에 934명이 있고, 이 구간 안에 위 사분위수 HU이 속해 있다.

HU = 41.5-(1/934){1435-1196-0.5} = 41.245

위•아래 사분위수로부터 평균과 표준편차를 EDA를 이용한 저항성이 있는 추정치는

= 39.858

= 2.055

2 / ) (

~

U

L H

H + µ =

35 . 1 / ) (

~

H

H −

σ =

(14)

[미니탭 활용]

Stat > EDA > Rootgram…

Rootogram: C2

Bin Count RawRes DRRes Suspended Rootogram

1 3.0 -2.7 -1.13 . --- . 2 18.0 -2.6 -0.52 . --- . 3 81.0 9.7 1.13 . ++++++ . 4 185.0 -11.2 -0.79 . ---- . 5 420.0 -7.7 -0.36 . -- . 6 749.0 10.2 0.38 . ++ . 7 1073.0 61.3 1.91 . ++++++++++.

8 1079.0 -21.4 -0.64 . ---- . 9 934.0 -13.3 -0.42 . --- . 10 658.0 10.2 0.41 . +++ . 11 370.0 19.0 1.01 . ++++++ . 12 92.0 -58.7 -5.34 *--- . 13 50.0 -1.3 -0.15 . - . 14 21.0 7.2 1.76 . +++++++++ . 15 4.0 1.0 0.66 . ++++ . 16 1.0 0.4 0.63 . ++++ .

In display, value of one character is .2 OO

(15)



이론적 배경

어느 범주(또는 구간)의 관측도수를 라고 하자.

그 범주(또는 구간)가 확률 를 차지한다고 하자.

그 외의 다른 범주가 얻어질 확률은 인 시행이 되고 표본 크기가 인 경우

는 이항분포 를 따르게 된다.

가 작을 경우, 는 평균이 인 포아송 분포로 근사

평균이 인 포아송 확률변수 의 분산은 역시 이다.

분산이 평균에 비례하기 때문에 분산이 비교적 일정하게 되도록 확률변수 의 변환 을 고려해 보자. 를 어떤 매끄러운 변환이라고 하면

이므로 라는 새로운 확률변수의 기대값과 분산은 대략

p

F

− p

1 n

F B ( n , p )

p F λ = np

λ ^F λ

λ

λ =

= , ( )

)

( F Var F

E

F )

(F g

) )(

( )

( F ≅ g λ + g

^'

λ F − λ

g ) (F g

λ λ

λ

λ ), [ ( )] { ^' ( )} ² ( ) { ^' ( )} ² (

)]

(

[ g F g Var g F g Var F g

E ≅ ≅ =

(16)

따라서, 의 분산이 에 관계없이 일정하려면

여야 한다.

즉, 는 의 선형변환과 같은 유형의 변환이어야 한다 예를 들어, 로 놓으면 이므로

이 된다.

한편, 확률변수 는 이 커짐에 따라 (즉, 가 커짐에 따라)

중심극한 정리(central limit theorem)에 의하여

따라서, 근사적으로

= 2배 관측빈도 – 2배 기대빈도 = 2배 제곱근 잔차임을 유의

) (F

g λ

4 2

/ 1 3 2

/ 1 2 '

1 2

' ( )} ( ) ( )

{ g λ λ = c ⇒ g λ = c λ ⁻ ⇒ g λ = c λ + c

) (F

g _F

F F

g ( ) = 2 g

^'

( F ) = F

⁻¹^/²

) (

2 2 F ≅ λ + λ ⁻ ¹ ^/ ² F − λ

1 ] 2

[ ,

2 ]

2 [ ≅ ≅

⇒ E F λ Var F

F ⁿ ^λ ⁼ ^np

) 1 , 0 (

~ )

2

(

/

1

F λ N

λ

⁻

−

) 1 , 0 (

~ 2

2 F − λ N

λ

2 2 F −

(17)

여러 통계학자들은 라는 표현 대신 이와 비슷한 형태인 을 제안 이것이 정규근사 면에서 보다 약간 낫다는 것을 보였다.

이 재표현 된 변수의 평균과 분산이 대략 과 1이라는 것을 보였다.

그러므로,

또는 이와 거의 비슷한 는 대략 N(0, 1)을 따른다.

모형과 자료의 총체적인 적합도(goodness of fit)는 2배 제곱근 잔차의 제곱합인

여기서 는 각 범주(구간)를 나타내는 첨자 카이제곱 통계량의 자유도가

DF = (범주의 수)-1-(추정된 모수의 수)

적합도의 측도로 쓰이는 피어슨(K. Pearson)의 카이제곱 통계량

F

2

F + F + 1

F

2

1 4 λ + 1

4 1 − +

+

+ F λ

F

DRSS F + 2 − 4 + 1 ≡

4 λ

∑

=

i

DRSS i ²

χ 2

i

∑ ⁻

=

ⁱ ⁱ

기대빈도

관측빈도

²

2

( )

χ

각 범주에 기대빈도가 너무 작으면 통계량이 무의미하고, 기대빈도를

Chapter 6. 확률모형과의 비교