• 검색 결과가 없습니다.

Chapter 6. 확률모형과의 비교

N/A
N/A
Protected

Academic year: 2022

Share "Chapter 6. 확률모형과의 비교"

Copied!
17
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Chapter 6. 확률모형과의 비교

김남형 응용통계학과 가천대학교

[email protected]

(2)

확률 모형(probability model)

• 확률 변수의 확률 밀도 함수(probability density function)를 의미

• 확률 밀도 함수는 확률 변수 (x)의 분포를 나타내는 함수

• 확률변수(x)가 가질 수 있는 각 값을 정의역(domain)

• 확률(𝒇𝒇 𝒙𝒙 )를 치역(range)으로 함

이산형 확률 밀도 함수 연속형 확률 밀도 함수

(3)

확률 밀도 함수(probability density function)

• 확률 밀도함수 𝒇𝒇 𝒙𝒙 와 구간[a,b]에 대해서 확률 변수 x가 구간에 포함될 확률 𝑷𝑷 𝒂𝒂 ≤ 𝒙𝒙 ≤ 𝒃𝒃 는 확률밀도함수를 그 구간에 대해 적분한 값으로 구할 수 있음

𝑷𝑷 𝒂𝒂 ≤ 𝒙𝒙 ≤ 𝒃𝒃 = �

𝒂𝒂

𝒃𝒃

𝒇𝒇 𝒙𝒙 𝒅𝒅𝒙𝒙

• 확률 밀도 함수 𝒇𝒇 𝒙𝒙 는 다음의 두 조건을 만족해야 함

• 모든 실수 x에 대해 𝒇𝒇 𝒙𝒙 ≥ 𝟎𝟎

• ∫

−∞

𝒇𝒇 𝒙𝒙 𝒅𝒅𝒙𝒙 = 𝟏𝟏

• 누적 분포 함수(cumulative distribution function)와의 관계

• 𝑭𝑭 𝒙𝒙 = 𝑷𝑷 𝑿𝑿 ≤ 𝒙𝒙 = ∫

−∞ 𝒙𝒙

𝒇𝒇 𝒙𝒙 𝒅𝒅𝒙𝒙

• 𝒇𝒇 𝒙𝒙 =

𝒅𝒅𝒙𝒙 𝒅𝒅

𝑭𝑭(𝒙𝒙)

(4)

그룹 데이터, 도수 자료

그룹 데이터나 계수형 데이터와 같이 빈도로 이루어진 데이터의 경우 어느 특정분포 (예를 들면, 정규분포 또는 포아송분포)와 비교되는지를 살펴보고,

특히 이 때 적합도에 관한 잔차(residual)의 활용에 대하여 논의

• 그룹 데이터(또는 빈도 자료): 각 그룹(구간)의 빈도가 기록되어 있는 경우 예: 설문지 조사에서 응답자의 나이가 10년 간격일 때

• 계수형 데이터: 개별 데이터 값이 도수로 이루어진 경우 각 계수에 해당하는 빈도 로 요약될 수 있음

예: 서울시 버스회사에 고용된 운전기사들이 1년 동안 교통법규 위반 스티커를 발부 받은 횟수 1장 받은 운전기사의 수, 2장 받은 운전기사의 수 등 빈도자 료로 바꿀 수 있음

(5)

도수 자료와 포아송 분포와의 비교 계수형 분포(예 : 포아송 분포)

X : 어떤 특정한 사건의 도수를 나타내는 확률변수 분포 함수 :

특징 : 평균과 분산이 다 같은 모수 인 이산확률분포 단위시간당 발생하는 총 도수를 나타내는 분포

정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기대값이 라고 했을 때, 그 사건이 x회 일어날 확률

응용

• 일정 주어진 시간 안에 도착한 고객의 수

• 1킬로미터 도로에 있는 흠집의 수

• 일정 주어진 생산시간 동안 발생하는 불량의 수

• 하룻동안 발생하는 출생자의 수

• 어떤 시간 동안 톨게이트를 통과하는 차량의 수

 , 2 , 1 , 0 ,

! / }

;

Pr{ X = x λ = e

λ

λ

x

x x =

λ

λ

(6)

## 아래의 자료가 포아송 분포를 따르는지 검토

< 프러시아 200개 기병군단에서 각 군단별 말에 치여 사망한 병사의 수>

사망자수 관측빈도 기대빈도 2배 제곱근 잔차

0 109 10.4 108.6 0.062 1 65 8.1 66.2 -0.117 2 22 4.7 20.2 0.442 3 3 1.7 4.2 -0.477 4+ 1 1.0 0.8 0.400

합 계 200 200.0 X의 평균 = (0•109+1•65+2•22+3•3+4•1)/200 = 0.61 = 기대빈도 = 200 •

예)

DRRS = 일 때,

= 일 때

x O

x

O

x

E

x

DRRS

λ

^

E

x

Pr{ X = x ; λ = 0 . 61 }

2 . 66 ) 331 . 0 ( 200

! 1 / ) 61 . 0 )(

61 . 0 exp(

200 }

61 . 0

; 1 Pr{

200

1

1

= ⋅ X = λ = = ⋅ − = ⋅ =

E

1 ,

) 4 1 ( )

4 2

( + O

x 1/2

− + E

x 1/2

O

x

≥ 0 ,

) 4 1 (

1 − + E

x 1/2

O

x

=

Histogram of C1 N = 200

Each * represents 5 observation(s) Midpoint Count

0 109 **********************

1 65 *************

2 22 *****

3 3 *

4 1 *

(7)

[미니탭 명령]

히스토 그램 작성 (graph > Histogram…)

포아송 난수 생성 (Calc > Random Data > Poisson….)

(8)

< 세 임의생성 자료에 대한 히스토그램 >

Histogram of C2 N = 200

Each * represents 5 observation(s)

Midpoint Count

0 110 **********************

1 66 **************

2 18 ****

3 5 *

4 1 *

Histogram of C3 N = 200 Each * represents 5 observation(s) Midpoint Count 0 106 *********************

1 67 **************

2 20 ****

3 7 **

4 0

Histogram of C4 N = 200 Each * represents 5 observation(s) Midpoint Count 0 105 *********************

1 69 **************

2 21 *****

3 3 *

4 2 *

(9)

< 세 임의생성 자료에 대한 루토그램 >

DRRS(double root residuals) = 일 때,

= 일 때

Histogram of C2 N = 200

Each * represents 1 observation(s)

Midpoint Count

0 10.5 ***********

1 8.1 *********

2 4.2 *****

3 2.2 ***

4 1.0 *

Histogram of C3 N = 200

Each * represents 1 observation(s)

Midpoint Count

0 10.3 ***********

1 8.2 *********

2 4.5 *****

3 2.6 ***

4 0.0

Histogram of C4 N = 200

Each * represents 1 observation(s)

Midpoint Count

0 10.2 ***********

1 8.3 *********

2 4.6 *****

3 1.7 **

4 1.4 **

제곱근 변환 루토그램(rootogram)

@ DRRS의 값이 (-2, +2)구간의 범위를 벗어나면 주의

@ DRRS의 값이 (-3, +3)구간의 범위를 벗어나면 고려된 확률모형과 맞지 않음

1 ,

) 4 1 ( ) 4 2

( + O

x 1/2

− + E

x 1/2

O

x

≥ 0 ,

) 4 1 (

1 − + E

1/2

O =

(10)

그룹 데이터와 정규분포와의 비교

원 측정값이 연속적인 수량이지만, 그룹화 된 데이터인 경우

정규분포(Normal distribution / Gaussian distribution) 확률변수 X가 정규분포인 경우 확률밀도 함수

사이에 68%, 사이에 95.4%, 사이에 99.7%

통계적인 방법론에서의 모수 를 표본평균으로, 는 표본 표준편차로 적합

저항성을 전혀 갖고 있지 못하다 EDA에서의 추정치

예) 중위수 M을 의 추정치로 사용

연속형 자료 이면서 그룹화 되어 있는 자료의 예

스코틀랜드 군인 5738명의 가슴둘레 데이터(도수분포표 형태의 자료)

<

<

= x x

x

f ( ; µ , σ 2 ) ( 2 πσ 2 ) 1 / 2 exp[ ( µ ) 2 /( 2 σ 2 )],

σ

µ ± µ ± σ

σ µ ±

µ σ

2 / ) (

~

U L H H + µ =

35 . 1 / ) (

~

L

U H

H − σ =

µ

(11)

< 스코틀랜드 군인 5738명의 가슴둘레 데이터 (단위 : 인치) >

가슴둘레(x)

구간 중앙값 관측빈도(O)

-33.5 33 3

33.5-34.5 34 18

34.5-35.5 35 81

35.5-36.5 36 185

36.5-37.5 37 420

37.5-38.5 38 749

38.5-39.5 39 1073

39.5-40.5 40 1079

40.5-41.5 41 934

41.5-42.5 42 658

42.5-43.5 43 370

43.5-44.5 44 92

44.5-45.5 45 50

45.5-46.5 46 21

46.5-47.5 47 4

47.5- 48 1

(12)

<그룹화 된 자료에서의 사분위수 구하는 방법>

아래 사분위수 HL을 구하기 위하여 우선 깊이 d(H)의 자료점이 속한 구간을 구한다.

그 구간을 이라고 하고 이 구간의 빈도를 이라고 하자

이 구간을 개의 동일 길이 의 소 구간으로 나누고 그 중간점을 구해보자

중간점 = 중간점 =

중간점 =

깊이 d(H)의 자료점은

같은 방법으로 위 사분위수 HU를 구할 수 있다.

) ,

( x

L1

x

L

n L

n L h

L L

L x n

x

h = ( − 1 ) /

+

, )

( x

L 1

x

L 1

h x

L1

+ 0 . 5 h

⇒ +

+

, 2 )

( x

L 1

h x

L 1

h x

L1

+ 1 . 5 h

( ) +

+

1 , )

( x

L 1

n

L

h x

L 1

n

L

h x

L1

+ ( n

L

0 . 5 ) h

L L

L

h d H n n n H

x

1

+ { ( ) − (

1

+

2

+  +

1

) − 0 . 5 } ≡

(13)

스코틀랜드 자료를 이용하여 예를 들면 전체자료의 크기 n=5738이므로

d(H) = (1+[(5738+1)/2])/2 = 1435

37.5인치 미만인 사례수가 총 707명, 38.5인치 미만까지가 총 1456명

(37.5, 38.5)에 749명이 있고, 이 구간 안에 아래 사분위수 HL이 속해 있다.

HL = 37.5+(1/749){1435-707-0.5} = 38.471

41.5인치 이상의 사례수가 1196명, 40.5인치 이상인 사례가 2130명 (40.5, 41.5)에 934명이 있고, 이 구간 안에 위 사분위수 HU이 속해 있다.

HU = 41.5-(1/934){1435-1196-0.5} = 41.245

위•아래 사분위수로부터 평균과 표준편차를 EDA를 이용한 저항성이 있는 추정치는

= 39.858

= 2.055

2 / ) (

~

U

L H

H + µ =

35 . 1 / ) (

~

H

H

σ =

(14)

[미니탭 활용]

Stat > EDA > Rootgram…

Rootogram: C2

Bin Count RawRes DRRes Suspended Rootogram

1 3.0 -2.7 -1.13 . --- . 2 18.0 -2.6 -0.52 . --- . 3 81.0 9.7 1.13 . ++++++ . 4 185.0 -11.2 -0.79 . ---- . 5 420.0 -7.7 -0.36 . -- . 6 749.0 10.2 0.38 . ++ . 7 1073.0 61.3 1.91 . ++++++++++.

8 1079.0 -21.4 -0.64 . ---- . 9 934.0 -13.3 -0.42 . --- . 10 658.0 10.2 0.41 . +++ . 11 370.0 19.0 1.01 . ++++++ . 12 92.0 -58.7 -5.34 *--- . 13 50.0 -1.3 -0.15 . - . 14 21.0 7.2 1.76 . +++++++++ . 15 4.0 1.0 0.66 . ++++ . 16 1.0 0.4 0.63 . ++++ .

In display, value of one character is .2 OO

(15)

이론적 배경

어느 범주(또는 구간)의 관측도수를 라고 하자.

그 범주(또는 구간)가 확률 를 차지한다고 하자.

그 외의 다른 범주가 얻어질 확률은 인 시행이 되고 표본 크기가 인 경우

는 이항분포 를 따르게 된다.

가 작을 경우, 는 평균이 인 포아송 분포로 근사

평균이 인 포아송 확률변수 의 분산은 역시 이다.

분산이 평균에 비례하기 때문에 분산이 비교적 일정하게 되도록 확률변수 의 변환 을 고려해 보자. 를 어떤 매끄러운 변환이라고 하면

이므로 라는 새로운 확률변수의 기대값과 분산은 대략

p

F

p

1 n

F B ( n , p )

p F λ = np

λ F λ

λ

λ =

= , ( )

)

( F Var F

E

F )

(F g

) )(

( )

( )

( Fg λ + g

'

λ F − λ

g ) (F g

λ λ

λ

λ ), [ ( )] { ' ( )} 2 ( ) { ' ( )} 2 (

)]

(

[ g F g Var g F g Var F g

E ≅ ≅ =

(16)

따라서, 의 분산이 에 관계없이 일정하려면

여야 한다.

즉, 는 의 선형변환과 같은 유형의 변환이어야 한다 예를 들어, 로 놓으면 이므로

이 된다.

한편, 확률변수 는 이 커짐에 따라 (즉, 가 커짐에 따라)

중심극한 정리(central limit theorem)에 의하여

따라서, 근사적으로

= 2배 관측빈도 – 2배 기대빈도 = 2배 제곱근 잔차임을 유의

) (F

g λ

4 2

/ 1 3 2

/ 1 2 '

1 2

' ( )} ( ) ( )

{ g λ λ = cg λ = c λ g λ = c λ + c

) (F

g F

F F

g ( ) = 2 g

'

( F ) = F

1/2

) (

2

2 F ≅ λ + λ 1 / 2 F − λ

1 ] 2

[ ,

2 ]

2

[ ≅ ≅

E F λ Var F

F n λ = np

) 1 , 0 (

~ )

2

(

/

1

F λ N

λ

) 1 , 0 (

~ 2

2 F − λ N

λ

2

2 F

(17)

여러 통계학자들은 라는 표현 대신 이와 비슷한 형태인 을 제안 이것이 정규근사 면에서 보다 약간 낫다는 것을 보였다.

이 재표현 된 변수의 평균과 분산이 대략 과 1이라는 것을 보였다.

그러므로,

또는 이와 거의 비슷한 는 대략 N(0, 1)을 따른다.

모형과 자료의 총체적인 적합도(goodness of fit)는 2배 제곱근 잔차의 제곱합인

여기서 는 각 범주(구간)를 나타내는 첨자 카이제곱 통계량의 자유도가

DF = (범주의 수)-1-(추정된 모수의 수)

적합도의 측도로 쓰이는 피어슨(K. Pearson)의 카이제곱 통계량

F

2

F + F + 1

F

2

1 4 λ + 1

4

1 − +

+

+ F λ

F

DRSS F + 2 − 4 + 1 ≡

4 λ

=

i

DRSS i 2

χ 2

i

=

i i

기대빈도

기대빈도

관측빈도

2

2

( )

χ

각 범주에 기대빈도가 너무 작으면 통계량이 무의미하고, 기대빈도를

참조

관련 문서

Chapter 11

동물이 식물을 포식하여 액포가 파괴 될 때 분비물이 방출되며 그 결과 치사반응이 촉진된다. (b) 점액세포(mucilage cell); 점액질은 점성의 다당류를

Chapter 2: Locating and Retrieving Relevant Information Chapter 3: Using Databases for Accessing Information Chapter 4: Using the World Wide Web

11장 결점수관리도와 단위당결점수관리도. 김남형

이로써 NAVER는 내 컴퓨터와 다른 네트워크에 있으므로 NAVER의 MAC 주소를 바로 알 수 있는 것이 아니라 디폴트 게이트웨이의 MAC 주소가 온다는 것을 알게

 내포문의 주어가 항상 상위문의 주어와 동일한 경우 —try, condescend, hope etc.  * Jack tried for his sister to

12장 샘플링 검사. 김남형

 총 전류는 저항 값에 반비례하게 병렬 저항에 분배되어