• 검색 결과가 없습니다.

Chapter 3. 수치요약∙상자그림

N/A
N/A
Protected

Academic year: 2022

Share "Chapter 3. 수치요약∙상자그림"

Copied!
11
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Chapter 3. 수치요약∙상자그림

김남형 응용통계학과 가천대학교

nhkim@gachon.ac.kr

(2)

 다섯 수치 요약

평균(Mean) – 어떤 경우에는 상당히 불확실 하다.

예를 들면

점수 분포가 작은 값에 편중되고 큰 값 쪽으로 길게 꼬리를 뻗고 있는 경우 점수분포가 큰 값 쪽에 편중되고 작은 값 쪽으로 길게 꼬리를 뻗고 있는 경우

분포의 대칭성 여부를 알지 못하는 경우 평균은 대표값의 역할을 할 수 없다.

작은 값에 편중,

큰 값 쪽으로 꼬리가 긴 모형

큰 값에 편중,

작은 값 쪽으로 꼬리가 긴 모형 중위수

평균

(3)

 중위수(Median)

자료의 크기를(자료의 수) N이라고 할 때

(1) N이 홀수 중위수 = (N+1)/2 번째 자료점

(2) N이 짝수 중위수 = N/2번째와 (N/2+1)번째 자료 값의 평균

중위수의 깊이(depth)

d(M) = (N+1)/2 짝수, 홀수에 관계없음

 산포(spreadness)의 측도

표준편차 전통적인 통계방법론

두 사분위수의 차이 탐색적 자료분석에서의 산포의 측도로 사용(강한 저항성)

두 사분위수(H)의 깊이 정의

d(H) = ([d(M)]+1)/2 , [x]는 가우스 수

(4)

 사분위수

Q1(제 1사분위수) HL

Q2(중위수) M Q3(제 3사분위수) HU

 왜도(Skewness) – 분포의 기울어진 정도

-1< SKEW <1

+1에 가까울수록 오른쪽으로 꼬리가 긴 모형 -1에 가까울수록 왼쪽으로 꼬리가 긴 모형

 EDA에서의 다섯 수치 요약

(최소값, 제 1사분위수, 중위수, 제 3사분위수, 최대값) (min, HL, M, HU, max) SKEW =

) (

) (

) (

) (

L U

L U

H M M

H

H M M

H

− +

(5)

2 2 0 00 N=65 5 3 1 058

15 10 2 1333458889 d(M)=(65+1)/2=33 22 7 3 0355789

(11)

11 4 11133456678 d(H)=(33+1)/2=17 32 17 5 11122233344456688

15 6 6 147779 M=48, HL=33, HU=58 9 5 7 33478

4 2 8 29 min=0, max=99 2 2 9 09

65 (0, 33, 48, 58, 99)

SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)]

= (10-15)/(10+15)=-5/25=-0.2

부호가 음수임으로 이 분포는 왼쪽으로 약간 긴 꼬리를 뻗은 분포

(6)

 문자 값(letter values)

중위수 – M, 4분위수 – H, 8분위수 – E, 16분위수 – D, 32분위수 – C,

64분위수 – B, 128분위수 - A 자료의 크기가 400-500이상이 아닌 경우 무의미

예 : N=65인 경우

중위수의 깊이 : d(M)=(N+1)/2 d(M)=33 4분위수의 깊이 : d(H)=([d(M)]+1)/2 d(H)=17 8분위수의 깊이 : d(E)=([d(H)]+1)/2 d(E)=9 16분위수의 깊이 : d(D)=([d(E)]+1)/2 d(D)=5 32분위수의 깊이 : d(C)=([d(D)]+1)/2 * 64분위수의 깊이 : d(B)=([d(C)]+1)/2 * 128분위수의 깊이 : d(A)=([d(B)]+1)/2 *

<수리통계학 시험점수 자료의 문자 값 전시>

깊이 문자값 중앙 mid 산포 spr

중위수 M 33 48 48 *

4분위수 H 17 33 58 45.5 25

8분위수 E 9 23 73 48 50

16분위수 D 5 18 78 48 60

끝 값 1 1 0 99 49.5 99

(7)

 mid와 spr의 추이

 문자 값들 사이의 관계(mid 값 사이의 관계) (1) 분포가 대칭인 경우

M = mid H = mid E = mid D = mid C = mid B = mid A

D E H M H E D

(8)

(2) 분포가 왼쪽으로 긴 꼬리를 뻗은 경우

M > mid H > mid E > mid D > mid C > mid B > mid A

D E H M H E D (3) 분포가 오른쪽으로 긴 꼬리를 뻗은 경우

M < mid H <mid E < mid D < mid C < mid B <mid A

D E H M H E D

(9)

 Spr값의 추이

분포가 대략 대칭인 경우 spr의 추이는 첨도를 알려 준다.

1) 분포가 정규분포인 경우 ∼

문자값 mid spr M * H

E D

모 표준편차 의 1.35배가 spr(H) 와 같으므로 의 추정치로

= spr(H)/1.35 pseudo-sigma

pseudo-sigma는 표본 표준편차 에 비하여 저항력이 강하기 때문에 EDA에 사용

 EDA의 첨도의 정의

KURTOE/H = (EU-EL)/(HU-HL)-1.704 = spr(E)/spr(H)-1.704 또는 KURTOD/H = (DU-DL)/(HU-HL)-2.274 =spr(D)/spr(H)-2.274

(정규분포의 KURTO는 0이다)

) , ( µ σ

2

N

µ µ

σ

µ − 0 . 675 µ + 0 . 675 σ µ

1.35

σ

σ

µ − 1 . 15 µ + 1 . 15 σ µ

2.30

σ

σ

µ − 1 . 535 µ + 1 . 535 σ µ

3.07

σ

σ σ

σ ~

s

(10)

2) 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려 문자값 mid spr M * H

E D

KURTOE/H = 1.5 / -1.704 = -0.204, KURTOD/H = 1.75 / -2.274 = -0.524

) ,

( µ − α µ + α

µ µ

µ µ µ

α

µ − 0 . 5 µ + 0 . 5 α α

α

µ − 0 . 75 µ + 0 . 75 α α

µ − 0 . 875 µ + 0.875 α

α 5 . 1 . 75 α 1

α α α α

KURTO의 값이 음수 정규분포에 비하여 중앙에 상대적으로 많은 자료점이

집중되고 꼬리 부분에서는 상대적으로 자료점이 희박

KURTO의 값이 양수 정규분포에 비하여 중앙에 상대적으로 자료점이 희박

꼬리부분에서는 상대적으로 자료가 많음

(11)

3) 중심 , 감소율 를 갖는 이중 지수분포(double exponential distribution) 고려

문자값을 구해보자.(위 꼬리 확률)

이므로 중위수 M은 이고 위 사분위 HU는 HU =

문자값 mid spr M * H

E D

KURTOE/H = loge(4) / loge(2) – 1.704 = 0.296 KURTOD/H = loge(8) / loge(2) – 2.274 = 0.726

µ λ

|]

| exp[

2 / )

,

;

( x µ λ = λ − λ x − µ

f − ∞ < x < ∞

] exp[

2 / 1 } ,

;

{ X u u

P − µ ≥ µ λ = − λ 0 ≤ u < ∞

µ

λ µ + log

e

( 2 ) /

µ µ

λ

µ − log

e

( 2 ) / µ + log

e

( 2 ) / λ 2 log

e

( 2 ) / λ λ

µ − log

e

( 4 ) / µ + log

e

( 4 ) / λ 2 log

e

( 4 ) / λ λ

µ − log

e

( 8 ) / µ + log

e

( 8 ) / λ 2 log

e

( 8 ) / λ

µ

µ

µ

참조

관련 문서

0104 남학생과 여학생의 혈액형에 대한 상대도수의 분포표를 만들면 다음과 같다.. 따라서 여학생이 남학생보다

Physics, Page

남학생의 그래프보다 여학생의 그래프가 오른쪽으로 더 치우쳐 있으므로 과학 성적이 높은 학생은 여학생이 남학 생보다 상대적으로

인도의 주요 소비 곡물 중 쌀의 비중이 다른 곡물에 비해 상대적으로 높다... 시하고 있는데, 지원가격 수준은 매년

여기서 단순규제개혁률은 규제개혁이전의 규제지수에 비하여 규제개혁이후 규제지수가 상대적으로 어느 정도 변화하였는가를 나타낸다... &amp; Ted Gaebler, Reinventing

그 중에서 인지질 성분을 무극성을 띠기 때문에 , 세포막은 극성을 띠는 시스 지방산보다 무극성인 트랜스 지방산과 상대적으로

0104 남학생과 여학생의 혈액형에 대한 상대도수의 분포표를 만들면 다음과 같다.. 따라서 여학생이 남학생보다

여기서 단순규제개혁률은 규제개혁이전의 규제지수에 비하여 규 제개혁이후 규제지수가 상대적으로 어느 정도 변화하였는가를 나타낸다... 소방제도개선의