• 검색 결과가 없습니다.

Chapter 3. 수치요약∙상자그림

N/A
N/A
Protected

Academic year: 2022

Share "Chapter 3. 수치요약∙상자그림"

Copied!
11
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Chapter 3. 수치요약∙상자그림

김남형 응용통계학과 가천대학교

[email protected]

(2)

 다섯 수치 요약

평균(Mean) – 어떤 경우에는 상당히 불확실 하다.

예를 들면

점수 분포가 작은 값에 편중되고 큰 값 쪽으로 길게 꼬리를 뻗고 있는 경우 점수분포가 큰 값 쪽에 편중되고 작은 값 쪽으로 길게 꼬리를 뻗고 있는 경우

분포의 대칭성 여부를 알지 못하는 경우 평균은 대표값의 역할을 할 수 없다.

작은 값에 편중,

큰 값 쪽으로 꼬리가 긴 모형

큰 값에 편중,

작은 값 쪽으로 꼬리가 긴 모형 중위수

평균

(3)

 중위수(Median)

자료의 크기를(자료의 수) N이라고 할 때

(1) N이 홀수 중위수 = (N+1)/2 번째 자료점

(2) N이 짝수 중위수 = N/2번째와 (N/2+1)번째 자료 값의 평균

중위수의 깊이(depth)

d(M) = (N+1)/2 짝수, 홀수에 관계없음

 산포(spreadness)의 측도

표준편차 전통적인 통계방법론

두 사분위수의 차이 탐색적 자료분석에서의 산포의 측도로 사용(강한 저항성)

두 사분위수(H)의 깊이 정의

d(H) = ([d(M)]+1)/2 , [x]는 가우스 수

(4)

 사분위수

Q1(제 1사분위수) HL

Q2(중위수) M Q3(제 3사분위수) HU

 왜도(Skewness) – 분포의 기울어진 정도

-1< SKEW <1

+1에 가까울수록 오른쪽으로 꼬리가 긴 모형 -1에 가까울수록 왼쪽으로 꼬리가 긴 모형

 EDA에서의 다섯 수치 요약

(최소값, 제 1사분위수, 중위수, 제 3사분위수, 최대값) (min, HL, M, HU, max) SKEW =

) (

) (

) (

) (

L U

L U

H M M

H

H M M

H

− +

(5)

2 2 0 00 N=65 5 3 1 058

15 10 2 1333458889 d(M)=(65+1)/2=33 22 7 3 0355789

(11)

11 4 11133456678 d(H)=(33+1)/2=17 32 17 5 11122233344456688

15 6 6 147779 M=48, HL=33, HU=58 9 5 7 33478

4 2 8 29 min=0, max=99 2 2 9 09

65 (0, 33, 48, 58, 99)

SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)]

= (10-15)/(10+15)=-5/25=-0.2

부호가 음수임으로 이 분포는 왼쪽으로 약간 긴 꼬리를 뻗은 분포

(6)

 문자 값(letter values)

중위수 – M, 4분위수 – H, 8분위수 – E, 16분위수 – D, 32분위수 – C,

64분위수 – B, 128분위수 - A 자료의 크기가 400-500이상이 아닌 경우 무의미

예 : N=65인 경우

중위수의 깊이 : d(M)=(N+1)/2 d(M)=33 4분위수의 깊이 : d(H)=([d(M)]+1)/2 d(H)=17 8분위수의 깊이 : d(E)=([d(H)]+1)/2 d(E)=9 16분위수의 깊이 : d(D)=([d(E)]+1)/2 d(D)=5 32분위수의 깊이 : d(C)=([d(D)]+1)/2 * 64분위수의 깊이 : d(B)=([d(C)]+1)/2 * 128분위수의 깊이 : d(A)=([d(B)]+1)/2 *

<수리통계학 시험점수 자료의 문자 값 전시>

깊이 문자값 중앙 mid 산포 spr

중위수 M 33 48 48 *

4분위수 H 17 33 58 45.5 25

8분위수 E 9 23 73 48 50

16분위수 D 5 18 78 48 60

끝 값 1 1 0 99 49.5 99

(7)

 mid와 spr의 추이

 문자 값들 사이의 관계(mid 값 사이의 관계) (1) 분포가 대칭인 경우

M = mid H = mid E = mid D = mid C = mid B = mid A

D E H M H E D

(8)

(2) 분포가 왼쪽으로 긴 꼬리를 뻗은 경우

M > mid H > mid E > mid D > mid C > mid B > mid A

D E H M H E D (3) 분포가 오른쪽으로 긴 꼬리를 뻗은 경우

M < mid H <mid E < mid D < mid C < mid B <mid A

D E H M H E D

(9)

 Spr값의 추이

분포가 대략 대칭인 경우 spr의 추이는 첨도를 알려 준다.

1) 분포가 정규분포인 경우 ∼

문자값 mid spr M * H

E D

모 표준편차 의 1.35배가 spr(H) 와 같으므로 의 추정치로

= spr(H)/1.35 pseudo-sigma

pseudo-sigma는 표본 표준편차 에 비하여 저항력이 강하기 때문에 EDA에 사용

 EDA의 첨도의 정의

KURTOE/H = (EU-EL)/(HU-HL)-1.704 = spr(E)/spr(H)-1.704 또는 KURTOD/H = (DU-DL)/(HU-HL)-2.274 =spr(D)/spr(H)-2.274

(정규분포의 KURTO는 0이다)

) , ( µ σ

2

N

µ µ

σ

µ − 0 . 675 µ + 0 . 675 σ µ

1.35

σ

σ

µ − 1 . 15 µ + 1 . 15 σ µ

2.30

σ

σ

µ − 1 . 535 µ + 1 . 535 σ µ

3.07

σ

σ σ

σ ~

s

(10)

2) 구간 에서 동일한 확률밀도를 갖는 균등분포를 고려 문자값 mid spr M * H

E D

KURTOE/H = 1.5 / -1.704 = -0.204, KURTOD/H = 1.75 / -2.274 = -0.524

) ,

( µ − α µ + α

µ µ

µ µ µ

α

µ − 0 . 5 µ + 0 . 5 α α

α

µ − 0 . 75 µ + 0 . 75 α α

µ − 0 . 875 µ + 0.875 α

α 5 . 1 . 75 α 1

α α α α

KURTO의 값이 음수 정규분포에 비하여 중앙에 상대적으로 많은 자료점이

집중되고 꼬리 부분에서는 상대적으로 자료점이 희박

KURTO의 값이 양수 정규분포에 비하여 중앙에 상대적으로 자료점이 희박

꼬리부분에서는 상대적으로 자료가 많음

(11)

3) 중심 , 감소율 를 갖는 이중 지수분포(double exponential distribution) 고려

문자값을 구해보자.(위 꼬리 확률)

이므로 중위수 M은 이고 위 사분위 HU는 HU =

문자값 mid spr M * H

E D

KURTOE/H = loge(4) / loge(2) – 1.704 = 0.296 KURTOD/H = loge(8) / loge(2) – 2.274 = 0.726

µ λ

|]

| exp[

2 / )

,

;

( x µ λ = λ − λ x − µ

f − ∞ < x < ∞

] exp[

2 / 1 } ,

;

{ X u u

P − µ ≥ µ λ = − λ 0 ≤ u < ∞

µ

λ µ + log

e

( 2 ) /

µ µ

λ

µ − log

e

( 2 ) / µ + log

e

( 2 ) / λ 2 log

e

( 2 ) / λ λ

µ − log

e

( 4 ) / µ + log

e

( 4 ) / λ 2 log

e

( 4 ) / λ λ

µ − log

e

( 8 ) / µ + log

e

( 8 ) / λ 2 log

e

( 8 ) / λ

µ

µ

µ

참조

관련 문서

고장시간) 가 TMR 시스템에 비하여 상대적으로 열세이었으나 2000년에는 기존의 Redundant System에서 한층 신뢰도가 높은 사중화(Quadruple Modular Redundant)

설문대상 전체에서 요식업과 요식업이 아닌 일반매장의 비중이 거의 절반씩을 차지하여 방안에 대한 업 종별 분석결과를 살펴보았다. 우선 전반적으로 비요식업에

여러 자원부국들 중에서도 특히 아프리카는 자 원부존량이 많은 곳이며, 자원을 개발하거나 탐사 하는 기술들이 선진국들에 비해 상대적으로 떨어 지기 때문에 전략적으로

마인드맵은 전체와 부분과의 관계 정보를 시 각적으로 구성한 다이어그램이다. 자신의 생각 을 빈 종이 중앙에 그려진 중심 이미지를 핵 심어로 이미지화하여 거미줄과 같은 그물을

여주, 이천, 광주는 2016년 전철 개 통으로 현재 유일한 대중교통은 버스이며, 양평과 가평은 전철이 개통되었으나, 주민들의 관내 이동 을 위해서는 아직도

LCS의 경우 평균난류운동에너지가 개구부의 해안선 근방 의 좌·우방향으로 집중되고, 개구폭이 넓을수록 분포강도가 강 해지는 경향을 보이며, 또한 종단방향으로

이에서만 다르게 나타나 측정 시점에 따라 큰 변화를 보 이지 않는 경향을 보였으나, 지시약 A, B는 상대적으로 많은 각각 4개 종이, 6개 종이에서 측정 시점에 따라 유

일반적인 전자저널 빅딜계약 모형은 기관 규 모가 큰 A그룹에 포함된 기관이 규모가 작은 E그룹에 포함되는 기관들에 비하여 상대적으로 많은 컨소시엄 비용을