Chapter 3. 수치요약∙상자그림
김남형 응용통계학과 가천대학교
nhkim@gachon.ac.kr
다섯 수치 요약
평균(Mean) – 어떤 경우에는 상당히 불확실 하다.
예를 들면
점수 분포가 작은 값에 편중되고 큰 값 쪽으로 길게 꼬리를 뻗고 있는 경우 점수분포가 큰 값 쪽에 편중되고 작은 값 쪽으로 길게 꼬리를 뻗고 있는 경우
분포의 대칭성 여부를 알지 못하는 경우 평균은 대표값의 역할을 할 수 없다.
작은 값에 편중,
큰 값 쪽으로 꼬리가 긴 모형
큰 값에 편중,
작은 값 쪽으로 꼬리가 긴 모형 중위수
평균
중위수(Median)
자료의 크기를(자료의 수) N이라고 할 때
(1) N이 홀수 중위수 = (N+1)/2 번째 자료점
(2) N이 짝수 중위수 = N/2번째와 (N/2+1)번째 자료 값의 평균
중위수의 깊이(depth)
d(M) = (N+1)/2 짝수, 홀수에 관계없음
산포(spreadness)의 측도
표준편차 전통적인 통계방법론
두 사분위수의 차이 탐색적 자료분석에서의 산포의 측도로 사용(강한 저항성)
두 사분위수(H)의 깊이 정의
d(H) = ([d(M)]+1)/2 , [x]는 가우스 수
사분위수
Q1(제 1사분위수) HL
Q2(중위수) M Q3(제 3사분위수) HU
왜도(Skewness) – 분포의 기울어진 정도
-1< SKEW <1
+1에 가까울수록 오른쪽으로 꼬리가 긴 모형 -1에 가까울수록 왼쪽으로 꼬리가 긴 모형
EDA에서의 다섯 수치 요약
(최소값, 제 1사분위수, 중위수, 제 3사분위수, 최대값) (min, HL, M, HU, max) SKEW =
) (
) (
) (
) (
L U
L U
H M M
H
H M M
H
− +
−
−
−
−
2 2 0 00 N=65 5 3 1 058
15 10 2 1333458889 d(M)=(65+1)/2=33 22 7 3 0355789
(11)
11 4 11133456678 d(H)=(33+1)/2=17 32 17 5 1112223334445668815 6 6 147779 M=48, HL=33, HU=58 9 5 7 33478
4 2 8 29 min=0, max=99 2 2 9 09
65∨ (0, 33, 48, 58, 99)
SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)]
= (10-15)/(10+15)=-5/25=-0.2
부호가 음수임으로 이 분포는 왼쪽으로 약간 긴 꼬리를 뻗은 분포
문자 값(letter values)
중위수 – M, 4분위수 – H, 8분위수 – E, 16분위수 – D, 32분위수 – C,
64분위수 – B, 128분위수 - A 자료의 크기가 400-500이상이 아닌 경우 무의미
예 : N=65인 경우
중위수의 깊이 : d(M)=(N+1)/2 d(M)=33 4분위수의 깊이 : d(H)=([d(M)]+1)/2 d(H)=17 8분위수의 깊이 : d(E)=([d(H)]+1)/2 d(E)=9 16분위수의 깊이 : d(D)=([d(E)]+1)/2 d(D)=5 32분위수의 깊이 : d(C)=([d(D)]+1)/2 * 64분위수의 깊이 : d(B)=([d(C)]+1)/2 * 128분위수의 깊이 : d(A)=([d(B)]+1)/2 *
<수리통계학 시험점수 자료의 문자 값 전시>
깊이 문자값 중앙 mid 산포 spr
중위수 M 33 48 48 *
4분위수 H 17 33 58 45.5 25
8분위수 E 9 23 73 48 50
16분위수 D 5 18 78 48 60
끝 값 1 1 0 99 49.5 99
mid와 spr의 추이
문자 값들 사이의 관계(mid 값 사이의 관계) (1) 분포가 대칭인 경우
M = mid H = mid E = mid D = mid C = mid B = mid A
D E H M H E D
(2) 분포가 왼쪽으로 긴 꼬리를 뻗은 경우
M > mid H > mid E > mid D > mid C > mid B > mid A
D E H M H E D (3) 분포가 오른쪽으로 긴 꼬리를 뻗은 경우
M < mid H <mid E < mid D < mid C < mid B <mid A
D E H M H E D
Spr값의 추이
분포가 대략 대칭인 경우 spr의 추이는 첨도를 알려 준다.
1) 분포가 정규분포인 경우 ∼
문자값 mid spr M * H
E D
모 표준편차 의 1.35배가 spr(H) 와 같으므로 의 추정치로
= spr(H)/1.35 pseudo-sigma
pseudo-sigma는 표본 표준편차 에 비하여 저항력이 강하기 때문에 EDA에 사용
EDA의 첨도의 정의
KURTOE/H = (EU-EL)/(HU-HL)-1.704 = spr(E)/spr(H)-1.704 또는 KURTOD/H = (DU-DL)/(HU-HL)-2.274 =spr(D)/spr(H)-2.274
(정규분포의 KURTO는 0이다)
) , ( µ σ
2N
µ µ
σ
µ − 0 . 675 µ + 0 . 675 σ µ
1.35σ
σ
µ − 1 . 15 µ + 1 . 15 σ µ
2.30σ
σ
µ − 1 . 535 µ + 1 . 535 σ µ
3.07σ
σ σ
σ ~
s
2) 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려 문자값 mid spr M * H
E D
KURTOE/H = 1.5 / -1.704 = -0.204, KURTOD/H = 1.75 / -2.274 = -0.524
) ,
( µ − α µ + α
µ µ
µ µ µ
α
µ − 0 . 5 µ + 0 . 5 α α
α
µ − 0 . 75 µ + 0 . 75 α α
µ − 0 . 875 µ + 0.875 α
α 5 . 1 . 75 α 1
α α α α
KURTO의 값이 음수 정규분포에 비하여 중앙에 상대적으로 많은 자료점이
집중되고 꼬리 부분에서는 상대적으로 자료점이 희박
KURTO의 값이 양수 정규분포에 비하여 중앙에 상대적으로 자료점이 희박
꼬리부분에서는 상대적으로 자료가 많음
3) 중심 , 감소율 를 갖는 이중 지수분포(double exponential distribution) 고려
문자값을 구해보자.(위 꼬리 확률)
이므로 중위수 M은 이고 위 사분위 HU는 HU =
문자값 mid spr M * H
E D
KURTOE/H = loge(4) / loge(2) – 1.704 = 0.296 KURTOD/H = loge(8) / loge(2) – 2.274 = 0.726