• 검색 결과가 없습니다.

4장 다변량 정규분포

N/A
N/A
Protected

Academic year: 2022

Share "4장 다변량 정규분포"

Copied!
33
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

4장 다변량 정규분포

덕성여자대학교 정보통계학과 김 재희

(2)

4.1 다변량 정규분포

■ 평균 , 분산 인 정규분포를 따르는 일변량 확률변수

 확률밀도함수

  



  

  

,  ∞    ∞.

(3)

(4)

■ 지수함수 내에 있는

  

      

이 부분에 대해 -차원으로의 확장

 ′ 

 

가 일정한 값을 갖는다. 여기서 

, 



■ 일변량 정규 확률밀도함수에서의 상수항   는 -차원의 체적(volume) 개념 으로   이 얻어진다.

(5)

■ 평균벡터 , 공분산행렬  인 -변량 정규분포를 따르는 확률변수

다음의 확률밀도함수를 가지며

 로 표기한다:

    

  

 ′  

 …′  ∞    ∞   ⋯

■ 일변량   



  

  

(6)

≪예제 4.1≫ 이변량 정규분포 확률밀도함수(bivariate normal density) 이변량 정규분포를 따르는

 

가 평균벡터 

 

,

공분산행렬 

 

를 가질 때 확률밀도함수를 구해보자.

  



  

× exp

   

 

 



x  



x  

 



x  





x  

 ∞    ∞  ∞    ∞.

여기서   







 

(7)

[그림 4.1] 상관계수   를 갖는 이변량 정규분포의 확률밀도함수

[그림 4.2] 상관계수   인 이변량 정규분포의 확률밀도함수의 등고선그림

(8)

4.2 다변량 정규분포의 성질

 일 때,

성질 4.1 (선형결합식의 분포)

(i) 상수벡터   …′ 에 대해 선형결합식(linear combination)

′

 

 

⋯ 

는 평균 ′, 분산 ′를 갖는 일변량 정규분포를 따른다.

′

′ ′

성질 4.2 (표준화 변수)

표준화 벡터(standardized vector)

  

 



을 따른다. 여기서  이며 는  의 제곱근행렬

(9)

성질 4.3 (주변 분포)

-변량 정규분포를 따르는 확률벡터

를  × 벡터

과    × 벡터

로 분할할 때

 × 

 

는 평균벡터  × 

 

와 공분산행렬  × 

 

을 가지며

은 -변량 정규분포를 따른다. 즉

이다.

성질 4.4 (조건부 분포)

 가 주어졌을 때  ≠ 일 때,

 

       .

성질 4.5 (정규 확률벡터 합의 분포)

 × 

 

가 평균벡터  × 

 

와 공분산행렬  × 

  

을 가질 때

    

(10)

성질 4.6 (독립성)

(i) 확률벡터

의 부분벡터인

에 대해,

공분산행렬  이면

는 서로 독립이다.

성질 4.7 (카이제곱 분포)

 이며    일 때

(i) 

 ′ 

  ∼  (ii)

 

 

 ′ 

  ≦ 



   

(11)

4.3 다변량 정규분포의 모수 추정

정리 4.10

⋯

∼ 

 일 때 , 의 최대우도추정량은  

,  

  

 



 

′  

  

,  : 충분통계량

(12)

정리 4.11

⋯

∼ 

 일 때

의 표본분포(sampling distribution) (i) 

 

 

(ii)   

∼ 자유도   인 위샤트 분포(Wishart distribution)

(iii) 

와   

는 서로 독립이다.

(iv) 

 ′

 

  ∼  (v)   →∞이면 

 ′

 

 

 는 근사적으로 를 따른다.

(13)

4.4 위샤트 분포

∼ 

 일 때, 확률벡터의 곱인

  

′는

자유도가 인 위샤트분포(Wishart distribution)를 따름.

 로 표기.

■ 자유도가 (  )인 위샤트 분포(Wishart distribution)를 따르는 확률행렬

의 확률밀도함수

  

   

       

  

   

      

여기서

는 양정치행렬, ⋅는 감마함수.

(14)

■ Wishart 분포를 따르는 확률행렬의 분포에 관한 성질

(i) 상수행렬

에 대해



  

를 따른다.

(ii)

 일 때, 이들 확률행렬의 합

는 다음의 위샤트분포를 따른다.

  

  

 

정리 4.12 (대표본 분포)  ×  확률벡터로 구성된 확률표본

…

가 서로 독립이

평균벡터 , 공분산행렬  인 동일한 다변량 분포를 따를 때

(i) 이 충분히 크고 이 보다 훨씬 크면,

 

  ∼

 .

(ii)   가 충분히 크면, 

 ′

 

 는 자유도가 인 카이제곱 분포를 따름.

(15)

4.5 정규성 평가

관측벡터

가 -변량 정규분포를 따른다는 가정을 검토하고자 할 때 (1)

의 주변분포가 모두 정규분포인가

(2)

의 구성성분

     … 들의 선형결합식의 분포가 모두 정규분포인가 (3) 두 개 구성성분들의 산점도(scatter plot)를 그려보면 타원형인가

4.5.1 일변량 변수에 대한 정규성 평가 : 분위수대분위수 그림(Q-Q plot)

4.5.2 다변량 변수벡터에 대한 정규성 평가: 카이제곱 그림

(16)

≪예제 4.2≫ A 지역의 주민을 대상으로 가장의 나이(age)와 수입(income)을 조사한 결과 얻은 [표 4.1] 자료에 대해 일변량 정규성을 점검하고자 한다.

[표 4.1] 나이와 연수입 자료

표본 번호 나이 수입 (단위:100만원)

1

2

3

4

5

6

7

8

9

10

68

58

45

50

33

24

58

22

47

30

4

45

35

25

28

11

10

9

20

35

′  나이 수입 에 대한 표본평균벡터와 표본공분산행렬을 구하면 다음과 같다.

 



 

(17)

[표 4.2] 나이(age) 순서통계량과 정규분포 사분위수

순서

나이 관측값의 순서 통계량 

경험 누적 확률

  

정규분포의 사분위수 

1 2 3 4 5 6 7 8 9 10

22 24 30 33 45 47 50 58 58 68

0.05 0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95

-1.645 -1.036 -0.674 -0.385 -0.126 0.126 0.385 0.674 1.036 1.645

*

*

*

*

*

*

*

* *

*

normal quantile

age

-1 0 1

30405060

(18)

[프로그램 4.1] Q-Q 그림

(19)
(20)

순서

수입관측값의 순서통계량 

경험 누적 확률

  

정규분포의 사분위수 

1

2

3

4

5

6

7

8

9

10 4

9

10

11

22

25

28

35

35

45

0.05 0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95

-1.645 -1.036 -0.674 -0.385 -0.126 0.126 0.385 0.674 1.036 1.645

*

* * *

*

*

*

* *

*

normal quantile

income

-1 0 1

10203040

[그림 4.4] 수입에 대한 정규확률그림

4.5.2 다변량 변수벡터에 대한 정규성 평가

(21)

만약 관측벡터

 를 따른다면 다음의 거리(표본에 대한 마할라노비스 거리)   

 

′

 

 

는 근사적으로 자유도가 인 카이제곱분포를 따르게 된다.

카이제곱그림(chi-square plot)을 그리는 순서는 다음과 같다.

(1)  을 구하고 순서를 매긴다.

 

 

′

 

 

 ,   …,  ≦  ≦⋯≦ 

(2)

  

 

점을 그린다. 즉 과 이론적으로 카이제곱분포를 따를 때의 사분위 수를 구해 비교하여 다변량 정규성을 검토한다.

≪예제 4.4≫ (나이, 수입) 확률벡터가 이변량 정규분포를 따르는지 카이제곱그림을 그려보자.

(22)

[표 4.4] 마할라노비스 거리제곱 순서통계량과 카이제곱분포 사분위수

순서

관측벡터의 마할라노비스 거리 제곱에 대한 순서 통계량

경험 누적 확률

  

카이제곱분포의 사분위수



1 2 3 4 5 6 7 8 9 10

0.076 0.213 0.631 0.890 1.627 1.661 2.215 2.809 3.641 4.236

0.05 0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95

0.103 0.325 0.575 0.862 1.196 1.597 2.100 2.773 3.794 5.991

[그림 4.5] (나이, 수입)에 대한 카이제곱그림

(23)

[프로그램 4.2] 카이제곱 그림

(24)

4.5.3 왜도와 첨도를 이용한 정규성 평가

▶ 정규분포 형태의 특성상 왜도(skewness)와 첨도(kurtosis)를 이용하여

정규성에 대한 평가를 할 수 있다.

개의 확률표본

 ⋯ 

에 대해, 일변량 변수에 대한 왜도와 첨도

■ 왜도 : 

 

 

(4.33)

■ 첨도 : 

 

 

(4.34) 정규분포를 따른다면   ,   이 된다.

▶ 다변량인 경우로 확장 (Mardia, 1970): 다변량 왜도와 첨도를 각각

■ 다변량 왜도 : 



 ′ 

  (4.35)

■ 다변량 첨도 : 



 ′ 

   (4.36)

(25)

-변량 확률벡터가 -변량 정규분포를 따른다면

        . (4.37)

와 를 추정하기 위해 를 다음과 같이

  

 

′ 

 

 (4.38) 정의한다. 여기서   

  

 



 

′: Σ 에 대한 최대우도추정량.

와 의 추정량으로   

  

  

 , (4.39)   

 (4.40)

(26)

부록[표 A.6]:       인 경우, 와  정규성검정에 대한 기각값.

 ≧ 이거나  ≧ 일 때는

■ 의 경우

       

      

 (4.41)

가 근사적으로 자유도가 

     인 카이제곱분포를 따근다.

유의수준 에서 검정법은  ≥     

 이면

를 기각한다.

■ 의 경우

 

  

    

(4.42) 근사적으로

. 유의수준 에서 검정법은   ≥  이면

를 기각한다.

(27)

≪예제 4.5≫ [표 4.1] 자료의 두 개 변수에 대해 이변량 정규분포를 따른다 고 할 수 있는지를 이변량 왜도와 첨도를 계산하여 검정하고자 한다.

■ 변수가 두 개이므로   이며 (나이, 수입)에 대한 왜도와 첨도는 각각      

■ 유의수준   에서 에 대한 기각값 를 이용하면

   ≧이므로

를 기각하지 못한다.

■ 유의수준   에서 에 대한 기각값 을 이용하면    ≧

이므로

를 기각하지 못하므로 정규성을 벗어난다고 할 수 없다.

(28)

4.6 변수변환을 통한 정규성 만족

■ Box-Cox 변환

Box와 Cox(1964)는

 인 경우 다음과 같은 변환식





 

 ≠  l nX   

을 이용해 정규성을 만족.

(29)

- 28 -

■ 다변량의 경우에는 확률벡터를 이루는 각 변수에 대해

     …  를 구하여

가 근사적으로 정규성을 갖도록 해야한다.

■ 적절한 는   

 ln 

  





 

 

  

ln

,     …   를 최대화하는 상수. 번째 관측벡터에 대한 변환식은









 



 



 

,     …  

(30)

4.7 R 이용한 정규성 검토

≪예제 4.6≫ 28 그루 나무를 대상으로 북쪽 동쪽 남쪽 서쪽 방향의 코르크 보오링(depths of cork boring)의 길이를 측정하여 자료를 이용하여, 각 변수가 일변량 정규분포를 따르는지를 정규확률그림(normal probability plot)을 통하여 검토하고 4개 변수가 4변량 정규분포를 따르는 지를 카이제곱그림(chi-square plot)을 그려 알아보고자 한다.

● 함수를 이용하여 각 변수의 기초통계량을 얻을 수 있으며

함수로 줄기-잎 그림(stem and leaf plot)을, 함수로 상자 그림을 그린다.

앞 절에서 정의한 함수로 카이제곱그림을 그린다

(31)
(32)

[그림 4.6] Cork 자료의 N에 대한 상자그림 [그림 4.7] Cork 자료의 N에 대한 Q-Q그림

(33)

[그림 4.8] Cork 자료에 대한 카이제곱그림

참조

관련 문서

[r]

• 이것이 Von Neumann과 함께 최초의 stored-program 컴퓨터를 개발한 Alan Turing이 1948 년에 소개한 LU-분해이며 그 후10년만에, 주어진 행렬를 그와

n이 커짐에 따라 분포의 모양이 중심에 대하여 대칭인 종 모양으로 되어간다.... 따라서

콘크리트의 압축영역에 비해 과다하게 철근이 배근되면 철근의 인장보다 콘크리트의 압축에 의해 휨부재의 파괴가 발생하며, 콘크리트의 파괴 양상은

부모면접을 통해 아동에 대한 인식, 아동의 발달영역별 수준, 아동의 의학적 정보, 아동의 가족력 등 교육관련

변화과정의 개요.. 동·서양 유아교육사상 변화과정의 개요.. 동·서양 유아교육사상의 흐름과 교류.. 서양 현대

다변량 자료 : 3가지 이상의 변수를 가지고 있는 자료로 측정대상으로부터 여러 개의 변수들을 측정하여 구하는 자료..

Customer 테이블의 Primary Key 인 custid의 경우 테이블생성시 clustered index가 생성 PK가 없을경우 정상수행.. 자동 생성된 경우