• 검색 결과가 없습니다.

Chapter 6. 확률모형과의 비교

N/A
N/A
Protected

Academic year: 2022

Share "Chapter 6. 확률모형과의 비교"

Copied!
20
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Chapter 6. 확률모형과의 비교

김남형 응용통계학과 가천대학교

nhkim@gachon.ac.kr

1

(2)

정규확률 플롯의 구성

크기 인 연속형 자료를 크기 순으로 재 배열(관측치 사이의 부등호 가정)

이 자료의 경험분포(empirical distribution function) EDF를

로 정의하기로 한다.

그러면, 가 표본 분위수(quantile)가 된다.

n

n

n x

x x

x

x 1 < 2 < 3 <  < −1 <

n n

n i x i

G i , 1 , 2 , , 1 ,

4 / 1

8 / ) 3

( = −

+

= − 

왜냐하면, EDA를 그냥 으로 정의하지 않은 이유는

과 같은 대칭성을 통상의 경험분포함수 이

만족시키지 못하기 때문( )

n

i x

G

0

(

i

) = / )

( 1 )

( x

1

G x

n

G = − G

0

( x

i

) = i / n

n n x

G n x

G 0 ( 1 ) = 1 / , 0 ( n ) = /

x i p i ( i 3 / 8 ) /( n + 1 / 4 )

(3)

이 표본을 어떤 특정분포와 비교하려고 한다.

예를 들어, 그 분포가 정규분포이고 평균이 이고, 분산이 이라고 하자.

이론적으로 분위수는 가 될 것이다.

여기서 는 정규분포 의 분포함수이고, 는 분포함수의 역함수

구체적으로 의 관계가 있으므로

정규분포 의 분위수 는 가 된다.

예를 들어, 인 경우 (=4.625/20.25=0.2284) 분위수는

이고 (=15.625/20.25=0.7716) 분위수는

이다.

만약, 관측자료 가 미리 정해진 와 의 정규분포를

잘 따른다면 정규분포 에서의 분위수와 자료에서의 분위수가 비슷 즉, 의 플롯은 기울기가 1인 직선 에 가까이 있게 될 것이다.

µ σ

2

p i F

1

( p

i

)

) (x F

p = N (

µ

,

σ2

) x = F

1

( p ) )

( )

( )

( x F z z

F = µ + σ = Φ

) , (

µ σ2

N p i q i q

i

µ

+

σ

Φ1(

p

i)

= 20

n p 5

) 7441 .

0 ( )

(

5

1

5

≡ µ + σ Φ

p = µ + σ −

q

p 16

) 7441 .

0 ( )

(

16

1

16

≡ µ + σ Φ

p = µ + σ

q

} ,

, ,

{ x 1 x 2x n µ σ

) , ( µ σ

2

N p i p i

n i

x

q i , i ), 1 , 2 , ,

( =  x = p

3

(4)

와 를 미지의 모수로 남겨두고 자료가 정규분포를 잘 따르는지를 보려면

표준정규분포의 분위수와 자료에서의 분위수인

를 플롯해 볼 수 있을 것이다. 만약 그렇다면 관계식 가 성립하므로 위의 플롯은 (절편이 이고 기울기가 인) 직선에 가까운 형태를 취하게 된다.

[미니탭의 활용]

정규 점수를 구하기 위하여 Calc > Calculator….

µ σ

p

i

p

i

n i

x

p i ), i ), 1 , 2 , , (

( Φ 1 = 

)

1 (

i i

i q p

x ≅ ≡ µ + σ Φ µ σ

정규확률 풀롯

표준정규분포의 분위수인 를 번째 자료점의

정규점수(normal score)라고 하고 자료점의 정규점수와 그 자료점의 플롯을 말한다.

p

i 1( )

p

i

Φ−

i

(5)

<정규 점수> <정규 점수와 D변수와의 플롯>

Graph > Character Graphs > Scatter Plot…

<Scatter plot>

D - x

-

- x x

50+ x

- x

- xx

- xx x

- x x x

0+

- - - -

-50+ x -

- x

-

+---+---+---+---+Nscore -2.0 -1.0 0.0 1.0 2.0

5

(6)

정규확률 플롯의 여러 패턴

1) 정규 분포로부터의 표본 자료에 대한 정규확률 플롯

지능지수 IQ 는 전체 모집단의 평균이 100이고 표준편차가 15 모집단에서 40명의 표본을 추출 하여 지능지수 측정

모평균이 100, 모표준편차 15인 정규 확률변량 40개 모의 생성 정규확률 플롯 작성

[미니탭의 활용]

정규분포의 난수 생성 Calc > Random Data > Normal…

(7)

정규점수 생성 Calc > Calculator …. Nscore(C1)을 C2에 입력 정규확률 플롯 Graph > Character Graphs > Scatter Plot …

C1(자료) - x

-

- x

125+ x

- x x

- x x

- xxx

- xxx

100+ xxxx2x

- xx2xxxx

- x xxxxxx

- x x

- x

75+ x -

- x -

---+---+---+---+---+---C2 (정규점수)

-1.60 -0.80 0.00 0.80 1.60

7

(8)

2) 혼합 정규분포로 부터 표본자료에 대한 정규확률 플롯 평균이 70이고 표준편차가 15인 분포로 부터 20명 평균이 130이고 표준편차가 15인 분포로 부터 20명 [미니탭의 활용]

Calc > Random Data > Normal… (평균 70, 표준편차 15 와 평균 130, 표준편차 15) Manip > Stack/Unstack > Stack Columns…

Calc > Calculator… Normal Score 작성 Graph > Character Graphs > Scatter Plot…

이 자료들을 혼합시킨 표본자료의 정규확률

플롯 작성

-

C3 - x x

- x xx x x

- xxx

120+ 2xxxx

- xxx

-

- 2

- x

80+ xxx

- xxxxx

- xxxx

- x x xx

- x

40+

- x -

---+---+---+---+---+---C4 -1.60 -0.80 0.00 0.80 1.60

(9)

3) 특이값이 내재하는 표본 자료에 대한 정규확률 플롯

38개의 자료점은 평균이 100이고 표준편차가 15인 정규분포에서 모의생성 2개의 자료값은 25와 175로 입력 시켜 모두 40개의 자료

Calc > Random Data > Normal….

Manip > Stack > Stack Columns…

Graph > Character Graphs > Scatter Plot…

C3 - x

- - 150+

-

- x x x

- xx xx

- xxxx2xxxxxx

100+ xxxx2xxxx

- x xxxx

- x x

- x x

- 50+

- - x -

---+---+---+---+---+---C4 -1.60 -0.80 0.00 0.80 1.60

x

x

9

(10)

4) 꼬리가 짧은 분포로부터 표본 자료에 대한 정규확률 플롯 꼬리가 짧은 분포의 예인 균일분포로부터 표본자료 임의 생성 정규확률 플롯 작성

[미니탭의 활용]

-

120+ x x x

- x

C1 - xx

- x

- 2xxxxxxx

105+ x

- xx

- 2

- xxxx

- xx

90+ xxxx

- x xxx

- x x x

- x x -

75+

---+---+---+---+---+---C2 -1.60 -0.80 0.00 0.80 1.60

(11)

5) 꼬리가 긴 분포로부터 표본자료에 대한 정규확률 플롯

꼬리가 긴 분포의 예인 이중지수분포로부터 표본자료를 임의 생성 정규확률 플롯 작성

단, 인 이중지수(라플라스)분포로 부터 40개의 자료 생성 [미니탭의 활용]

<

<

= b

x a b x

b a x

f ( ; , ) ( 2 )

1

exp[ | | / ], 30

,

100 =

= b

a

-

- x

210+ x

- x

C1 - - - 140+

- xx xx x

- x2xxxxxx

- xx2xxx2xx

- xxx

70+ x xxx

- x x x

-

- x x -

---+---+---+---+---+---C2 -1.60 -0.80 0.00 0.80 1.60

11

(12)

6) 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우

큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 예인 로그 정규분포에서 자료생성 [미니탭의 활용]

Calc > Random Data > Lognormal…

-

2100+ x -

C1 - - - 1400+

- -

- x x

-

700+ x

- xx

- xxxxx

- xxxx

- xxxxxxxx2xxx2xxxx

0+ x x x x xx

---+---+---+---+---+---C2 -1.60 -0.80 0.00 0.80 1.60

(13)

7) 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포의 경우

작은 값 쪽으로 꼬리를 뻗은 기울어진 분포의 한 예를 만들기 위하여 로그 정규분포 로부터 임의 생성된 변량에 음수 배를 한 후 일정 수를 더하여 표본자료 생성

- xx xx x x x x

- x2xxx2xxx2xxxxxx

700+ xx

- x xxxxx

C2 - x

- x

-

0+ x x -

- - - -700+

- - x - -

---+---+---+---+---+---C3 -1.60 -0.80 0.00 0.80 1.60

13

(14)

지수분포 및 와이블 분포에의 적합

공학 및 의학 등에서 많이 다루는 수명(life time : 생존시간, survival time)자료에 대하여 지수분포(exponential distribution)나 와이블 분포(Weibull distribution)을 고려

지수분포와 와이블 분포의 적합도 Q-Q 플롯(quantile-quantile plot) 작성 지수분포의 확률밀도 함수와 분포함수

따라서 분위수 는

로 주어진다

즉, 표본자료 가 지수분포를 따르는 경우 자료점 를 세로축에, 를 가로축에 플롯 직선의 경향선이 나타남

예를 들면, 백혈병 환자 21명의 생존시간에 관한 자료를 지수분포에 적합 1 1 2 2 3 4 4

5 5 8 8 8 8 11

11 12 12 15 17 22 23 (단위 : 주)

0 ,

0 ,

/ ) / exp(

)

;

( x b = − x b b x > b >

f

0 ),

/ exp(

1 )

;

( x b = − − x b x >

F

) 4 / 1 /(

) 8 / 3

( − +

i n

p

i

q

i

) 1

( log )

/ exp(

1 i i e i

i q b q b p

p = − − ⇒ = − −

x

n

x

1

<  <

x i

) 1

(

log

e

p

i

Q-Q플롯을 작성 미니탭을 이용

(15)

[미니탭의 활용]

- 24.0+

- x x

C1 - -

- x

16.0+

- x

- x x

- x x

-

8.0+ xxx x -

- xxxx

- x

- xxxx 0.0+

+---+---+---+---+---+---C4 0.00 0.70 1.40 2.10 2.80 3.50

경향선의 초기에 많은 자료점이 쏠리게 된다.

Q-Q플롯의 세로축 과 가로축을 동시에

세제곱근 변환이 필요하다고 인식

15

(16)

백혈병 자료의 세제곱근 변환 후 Q-Q플롯

와이블 분포의 분포함수

여기서 인 경우는 바로 지수분포가 된다.

와이블 분포의 분포함수를 보기 위해서는 로그변환을 고려

- x

C5 - x

-

- x x

2.40+

- x x x x

-

- xx x x

- 1.80+

- xx

- x x

- x

-

1.20+ x x -

- x x

--+---+---+---+---+---+----C6 0.25 0.50 0.75 1.00 1.25 1.50

경향선이 약간 오목 한

형태의 곡선성을 보 이

므로 자료가 지수분 포

에 적합하지 않은 것 을 알 수 있다

0 ,

0 ,

0 ,

/ ] ) / ( exp[

) ,

;

( x a b = ax 1x b b x > a > b >

f a a a

= 1 a

X

Y = log e

(17)

변수변환에 의하여 의 확률밀도함수는

가 되고 분포함수는

가 유도된다.

이 분포의 분위수를 라고 하면

와이블 분포의 Q-Q플롯을 그리는 순서 (1) 자료를 (자연)로그 변환 후

(2) 그래프의 세로축에 로그변환 자료값을, 가로축에 여기서

경향선이 직선 형태인 경우 표본자료가 대체적으로 와이블 분포를 따르는 것으로 생각 ( 이 때 직선의 기울기는 의 추정치임)

Y

)]

log exp(

log exp[

) ,

;

( y a b a ay a b ay a b

f = − e − − e

)]

log exp(

exp[

1 ) ,

;

( y a b ay a b

F = − − − e

p i

)]

log exp(

exp[

1 aq a b

p i = − − ie

b a

aq

p i i e

e

e [ log ( 1 )] log

log − − = −

)]

1 ( log [

log eep i

) 4 / 1 /(

) 8 / 3

( − +

i n

p

i

a / 1

17

q i

(18)

[미니탭의 활용]

Calc > Calculator…

Graph > Character Graphs > Scatter Plot…

- x

3.0+ x

- xx

C5 -

- x xxx

-

2.0+ xx xx -

- xx

- x x

-

1.0+ x -

- x x

- -

0.0+ x x

+---+---+---+---+---+---C4 -4.0 -3.0 -2.0 -1.0 0.0 1.0

도표의 기울기가 대략 0.8정도인 직선형태 와이블 분포에서의 모수 a에 대한 추정치 는1/0.8=1.25

(즉, a=1(지수분포) 과 약간의 차이를 두고 있다.

(19)

요약

⊙ 자료와 확률모형과의 적합도 평가

⊙ DRSS의 크기는 평균이 0, 분산이 1인 정규분포 N(0,1)을 근거로 평가 절대값이 2이상인 DRSS 는 우선 주목 대상이 된다.

⊙ 미니탭에서 DRSS를 구하기 위해서는 Rootogram 명령어 사용

⊙ Q-Q플롯은 모형의 적합도를 평가 정규확률 플롯 이용

⊙ 혼합 정규분포로 부터의 표본자료는 정규확률 플롯에서 좌하와 우상부분의 형태가

‘ ’ 형태를 보이며 중간 부분에서의 자료점 밀도가 양 옆에 비하여 낮다.

⊙ 특이값이 내재된 표본자료는 정규확률 플롯에서 점들이 양쪽 끝에 떨어져 나가 있다.

작은값 특이점은 주경향선 보다 아래쪽에 있고 큰 값 특이점은 주경향선 보다 위쪽

,

1 ,

) 4

1 ( )

4 2

( + − + ≥

=

관측빈도 기대빈도 관측빈도

DRSS

. 0 ,

) 4

1 (

1 − + =

= 기대빈도 관측빈도

19

(20)

⊙ 정규분포보다 짧은 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 S자형태

⊙ 정규분포보다 긴 꼬리를 갖는 표본자료는 정규확률플롯에 비스듬이 누운 역 S자형태

⊙ 큰 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포를 갖는 표본 자료의 정규확률 플롯은 비스듬히 누운 J자 형태의 경향선을 갖는다.

⊙ 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포를 갖는 표본 자료의 정규확률 플롯은 비스듬히 누운 역 J자 형태의 경향선을 갖는다.

⊙ 수명자료에 대하여는 지수분포 Q-Q플롯이나 와이블 분포 Q-Q플롯을 그릴 수 있다.

직선형태의 경향선이 보이는 경우 표본 자료는 해당하는 확률모형과 적합성을 갖는 다.

참조

관련 문서

Chapter 6 역함수: 지수함수, 로그함수, 역삼각 함수

지수분포가 확률밀도함수임을

다변량 자료 : 3가지 이상의 변수를 가지고 있는 자료로 측정대상으로부터 여러 개의 변수들을 측정하여 구하는 자료..

외상매출금을 담보로 제공하고 자금을 차입하는 거래. 외상매출금의 소유자는 금융기관에 외상매출금을 담보로 제공하고 약속어음을 발행하여 자금을

심폐지구력/근력운동프로그램의 실제와 적용 Chapter 4. 유연성/이완 운동프로그램의 실제와 적용 Chapter 5. 영양과 체중조절 프로그램의 실제와 적용 Chapter

같은 분류군에 있어서도 연구자에 따라 중시하는 형질의 종류를 달리할 수 있으 며, 한 분류군을 분류하는데 사용된 형질이 다른 분류군을 분류하는 데는 전혀

단어 중에서 어떤 부류는 전치 조동사 ก าลัง의 뒤에 나타나 면서 후치 조동사 แล้ว앞에 나타나는 통사적 분포를 갖는다... 태국어의 단어 중에서 어떤 부류는

• 중립동사란 자동사문 구조와 타동사문 구조에 형태의 변화 없 이 나타나며 자동사문의 주어와 타동사문의 목적어 사이에 동 일한 명사