비모수통계론
강 의 자 료
-제 8 장-
독립성과 순위상관
연세대학교 정보통계학과
문 명 상
제 8 장 독립성과 순위상관
☞ 상관관계: 두 변수 사이의 연관성(정도와 방향)을 나타내는 개념
☞ 상관계수: 두 변수 사이의 상관관계를 나타내는 측도
☞ 상관분석: 두 변수 사이의 연관관계 존재유무에 관한 추론
1. Pearson의 적률상관계수(Product moment correlation coefficient): 모수적 방법 (1) 모형
⋯
∼
(2) (모)상관계수( )
① 두 변수 사이의 상관 정도를 나타내주는 측도로서, 두 변수 사이의 연관성(직선적인 관계)의 정도를 나타냄
⋅
② (모)상관계수의 특성
☞ ≦ ≦
☞
와
의 위치변환, 측정단위 변환에 독립적. 즉, ☞
와
사이의 선형 연관성이 강할수록 값이 +1 에 가깝고,
와
사이의 선형 연관성이 약할수록 값이 0 에 가깝다.☞ 無상관
(“양”, 또는 “음”의) 완전상관
☞
↛
(∐)
, ←단,
가 이변량 정규분포를 따르면 ‘ → ’ 성립← (3) 표본 상관계수( )①
⋅
② 표본 상관계수의 성질은 (모)상관계수의 특성과 같다.
(4) 상관분석(상관관계의 검정)
≠ 를 검정① 검정통계량:
∼ under
② 기각역
(5) 참고
① 이변량 정규분포 모집단 가정下에서는 가
와
의 상관관계를 나타내는 좋은 측도이며, 는 의 좋은 추정량② 비모수적 방법에서는 아래를 만족하는 상관관계의 새로운 측도가 필요 (i) 위의 (2)의 ②항에 주어져 있는 특성을 갖는 측도
(ii) 관찰값의 절대적 크기보다 상대적 크기에 의존하는(분포무관이 되기 위해) 측도, 즉
와
를 크기의 순서가 보전되는 변환을 할 때 값의 크기가 불변인 측도☞ Kendall의 (8.2절): 부등식 관계의 확률로 정의되는 상관관계의 측도,
☞ Spearman의 순위 상관계수(rank correlation coefficient; 8.3절) : 순위를 이용한 상관관계의 측도
2. Kendall의 : 비모수적 방법 (1) 모형
⋯
are random samples from some bivariate distribution [정의] 부합(concordant)과 비부합(discordant)
에 대하여,
인 경우 ‘부합’이라 정의하고,
인 경우 ‘비부합’이라 정의.(2) Kendall의
① [정의] Kendall의
′부합′ &
′비부합′ 이라 할 때, 이들을 이용하여 을 Kendall의 tau 라 정의
② 의 특성
☞ ≦ ≦ since
☞ If
(∐)
, then → If
&
are in positive relation → If
&
are in negative relation → ☞
가 이변량 정규분포를 따르면, arcsin
☞ 위의 특성들로부터 는
와
의 연관성의 정도와 방향을 나타내는 모수임을 알 수 있음Want to test
vs.
≠ ← Kendall의 를 이용한 독립성 검정 (3) 절차
① 모든 에 대해
# of ‘부합’인 쌍‘ # of "
"인 쌍
# of ‘비부합’인 쌍‘ # of "
"인 쌍 을 계산② Kendall 통계량(검정통계량)
⋅
, 단
③ 기각역
대립가설 기각역
≧
≦
≠
≧ 또는
≦ ※ 은
≧ 를 만족하는 상수(부록 [표 28] 참조)④ 대표본 근사
&
를 이용
⇒
∼
[예] 일 때:
&
⑤ 동점처리
or
⇒
⋅
⇒
가 작아진다⇒ 278쪽의 (8.13) 참조 (4) 해설
① No ties ⇒
⇒
②
의 분포
⋯
에서
의 순위,
⋯
에서
의 순위
대신에 이들의 순위인
를 사용해도
는 불변⇒
⋯
⋯ 라 하면
下에서
⋯
은 개의 순열 을 等확률로 취함⇒
의 분포 구함⇒ Kendall의 를 이용한 독립성 검정은 ‘분포무관’
[예] 일 때
-6 -4 -2 0 2 4 6 계
1/24 3/24 5/24 6/24 5/24 3/24 1/24 1③
下에서
의 분포는 0에 대하여 대칭임⇒
≦
≧ 를 이용하여 왼쪽 꼬리의 확률을 구함④ If or ⋯ ⇒
is always an even integer.If or ⋯ ⇒
is always an odd integer.∵
, where is
even integer when or odd integer when or
(5) Kendall의 의 추정
① Kendall의 “표본 상관계수”
② ≦ ≦
③
3. Spearman의 순위 상관계수(Rank correlation coefficient) (1) 모형
⋯
are random samples from some bivariate distribution (2) 정의: Spearman의 순위 상관계수, ①
⋯
에서
의 순위,
⋯
에서
의 순위 [Def.] Spearman의 순위 상관계수
⋅
Pearson의 표본 상관계수 의 공식에서
대신에
를 대입 하여 구한 값② 의 특성
☞ ≦ ≦
☞ If
(∐)
→ If
&
are in positive relation → If
&
are in negative relation → ☞ 위의 특성들로부터 는
와
의 연관성의 정도와 방향을 나타내는 모수임을 알 수 있음③ 의 computational formula
[증명]:
⇒ 의 분모
→
⇒ 의 분자
∴
또는,
Want to test
vs.
≠ ← Spearman의 순위 상관계수 를 이용한 독립성 검정
(3) 절차
①
로부터 를 구한다② 검정통계량:
③ 기각역
대립가설 기각역
≧
≦
≠ ≧ 또는 ≦ ※ 은 부록 [표 29] 참조
④ Under
&
≧
[증명]: Need
&
(i)
≠
≠
≠
from
≠
×
∴
×
⑤ 대표본 근사
∼
approximately under
⑥ 동점처리: 평균순위 이용
(4) 해설
① Spearman의 순위 상관계수 를 이용한 독립성 검정은 ‘분포무관’
② 과 사이의 관계
일반성을 잃지 않고
⋯
이라 가정하면,
, 단
⇒ 과 사이에 정확한 선형관계는 없으나 밀접한 관계가 있음을 알 수 있다
③ 과 사이의 선택
☞ 계산과정: 가 보다 간편
☞ 대표본 근사: 의 분포가 의 분포보다 더 빨리 정규분포에 수렴
☞ 독립성 검정에서의 점근 효율: 동일
☞ 독립성 검정 결과
: 동일한 자료에 대해 과 의 값은 다를 경우가 대부분이지만 가설 검정 결과 는 거의 동일
☞ 대응되는 모수: → 의 추정량,
→ 대응되는 모수 없음
4. 효율
(1) Kendall 검정법과 Spearman 검정법의 정규이론 검정법에 대한 점근 상대효율 모집단 분포 점근 상대효율
정규분포 균등분포 이중지수분포
0.912 1.000 1.266
[참고문헌]
1. 주교재: (S-Link를 이용한) 비모수통계학, 송문섭, 박창순, 이정진 공저, 자유아카데미 2. Nonparametric Statistical Methods, Hollander & Wolfe, Wiley
3. Practical Nonparametric Statistics, Conover, Wiley
4. 비모수검정(SPSS 예제 및 사용법), 개정판, 차영준 등 공저, 자유아카데미 5. SAS 비모수통계분석, 이재창, 송일성 공저, 자유아카데미