Chapter 3. 수치요약∙상자그림

(1)

Chapter 3. 수치요약∙상자그림

김남형 응용통계학과 가천대학교

nhkim@gachon.ac.kr

(2)

 다섯 수치 요약

평균(Mean) – 어떤 경우에는 상당히 불확실 하다.

예를 들면

점수 분포가 작은 값에 편중되고 큰 값 쪽으로 길게 꼬리를 뻗고 있는 경우 점수분포가 큰 값 쪽에 편중되고 작은 값 쪽으로 길게 꼬리를 뻗고 있는 경우

분포의 대칭성 여부를 알지 못하는 경우 평균은 대표값의 역할을 할 수 없다.

작은 값에 편중,

큰 값 쪽으로 꼬리가 긴 모형

큰 값에 편중,

작은 값 쪽으로 꼬리가 긴 모형 중위수

평균

(3)

 중위수(Median)

자료의 크기를(자료의 수) N이라고 할 때

(1) N이 홀수 중위수 = (N+1)/2 번째 자료점

(2) N이 짝수 중위수 = N/2번째와 (N/2+1)번째 자료 값의 평균

중위수의 깊이(depth)

d(M) = (N+1)/2 짝수, 홀수에 관계없음

 산포(spreadness)의 측도

표준편차 전통적인 통계방법론

두 사분위수의 차이 탐색적 자료분석에서의 산포의 측도로 사용(강한 저항성)

두 사분위수(H)의 깊이 정의

d(H) = ([d(M)]+1)/2 , [x]는 가우스 수

(4)

 사분위수

Q1(제 1사분위수) HL

Q2(중위수) M Q3(제 3사분위수) HU

 왜도(Skewness) – 분포의 기울어진 정도

-1< SKEW <1

+1에 가까울수록 오른쪽으로 꼬리가 긴 모형 -1에 가까울수록 왼쪽으로 꼬리가 긴 모형

 EDA에서의 다섯 수치 요약

(최소값, 제 1사분위수, 중위수, 제 3사분위수, 최대값) (min, HL, M, HU, max) SKEW =

) (

L U

H M M

H

H M M

H

− +

−

(5)

2 2 0 00 N=65 5 3 1 058

15 10 2 1333458889 d(M)=(65+1)/2=33 22 7 3 0355789

(11)

11 4 11133456678 d(H)=(33+1)/2=17 32 17 5 11122233344456688

15 6 6 147779 M=48, HL=33, HU=58 9 5 7 33478

4 2 8 29 min=0, max=99 2 2 9 09

65∨ (0, 33, 48, 58, 99)

SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)]

= (10-15)/(10+15)=-5/25=-0.2

부호가 음수임으로 이 분포는 왼쪽으로 약간 긴 꼬리를 뻗은 분포

(6)

 문자 값(letter values)

중위수 – M, 4분위수 – H, 8분위수 – E, 16분위수 – D, 32분위수 – C,

64분위수 – B, 128분위수 - A 자료의 크기가 400-500이상이 아닌 경우 무의미

예 : N=65인 경우

중위수의 깊이 : d(M)=(N+1)/2 d(M)=33 4분위수의 깊이 : d(H)=([d(M)]+1)/2 d(H)=17 8분위수의 깊이 : d(E)=([d(H)]+1)/2 d(E)=9 16분위수의 깊이 : d(D)=([d(E)]+1)/2 d(D)=5 32분위수의 깊이 : d(C)=([d(D)]+1)/2 * 64분위수의 깊이 : d(B)=([d(C)]+1)/2 * 128분위수의 깊이 : d(A)=([d(B)]+1)/2 *

<수리통계학 시험점수 자료의 문자 값 전시>

깊이 문자값 중앙 mid 산포 spr

중위수 M 33 48 48 *

4분위수 H 17 33 58 45.5 25

8분위수 E 9 23 73 48 50

16분위수 D 5 18 78 48 60

끝 값 1 1 0 99 49.5 99

(7)

 mid와 spr의 추이

 문자 값들 사이의 관계(mid 값 사이의 관계) (1) 분포가 대칭인 경우

M = mid H = mid E = mid D = mid C = mid B = mid A

D E H M H E D

(8)

(2) 분포가 왼쪽으로 긴 꼬리를 뻗은 경우

M > mid H > mid E > mid D > mid C > mid B > mid A

D E H M H E D (3) 분포가 오른쪽으로 긴 꼬리를 뻗은 경우

M < mid H <mid E < mid D < mid C < mid B <mid A

D E H M H E D

(9)

 Spr값의 추이

분포가 대략 대칭인 경우 spr의 추이는 첨도를 알려 준다.

1) 분포가 정규분포인 경우 ∼

문자값 mid spr M * H

E D

모 표준편차 의 1.35배가 spr(H) 와 같으므로 의 추정치로

= spr(H)/1.35 pseudo-sigma

pseudo-sigma는 표본 표준편차 에 비하여 저항력이 강하기 때문에 EDA에 사용

 EDA의 첨도의 정의

KURTOE/H = (EU-EL)/(HU-HL)-1.704 = spr(E)/spr(H)-1.704 또는 KURTOD/H = (DU-DL)/(HU-HL)-2.274 =spr(D)/spr(H)-2.274

(정규분포의 KURTO는 0이다)

) , ( µ σ

²

N

µ µ

σ

µ − 0 . 675 µ + 0 . 675 σ µ

₁_.₃₅

_σ

σ

µ − 1 . 15 µ + 1 . 15 σ µ

₂_.₃₀

_σ

σ

µ − 1 . 535 µ + 1 . 535 σ µ

₃_.₀₇

_σ

σ σ

σ ^~

s

(10)

2) 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려 문자값 mid spr M * H

E D

KURTOE/H = 1.5 / -1.704 = -0.204, KURTOD/H = 1.75 / -2.274 = -0.524

) ,

( µ − α µ + α

µ µ

µ µ µ

α

µ − ⁰ ^. ⁵ µ + ⁰ ^. ⁵ α α

α

µ − ⁰ ^. ⁷⁵ µ + ⁰ ^. ⁷⁵ α α

µ − ⁰ ^. ⁸⁷⁵ µ + ^0.875 α

α 5 . 1 . 75 α 1

α α α α

KURTO의 값이 음수 정규분포에 비하여 중앙에 상대적으로 많은 자료점이

집중되고 꼬리 부분에서는 상대적으로 자료점이 희박

KURTO의 값이 양수 정규분포에 비하여 중앙에 상대적으로 자료점이 희박

꼬리부분에서는 상대적으로 자료가 많음

(11)

3) 중심 , 감소율 를 갖는 이중 지수분포(double exponential distribution) 고려

문자값을 구해보자.(위 꼬리 확률)

이므로 중위수 M은 이고 위 사분위 HU는 HU =

문자값 mid spr M * H

E D

KURTOE/H = loge(4) / loge(2) – 1.704 = 0.296 KURTOD/H = loge(8) / loge(2) – 2.274 = 0.726

Chapter 3. 수치요약∙상자그림