• 검색 결과가 없습니다.

Chapter 3. 수치요약∙상자그림

N/A
N/A
Protected

Academic year: 2022

Share "Chapter 3. 수치요약∙상자그림"

Copied!
11
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Chapter 3. 수치요약∙상자그림

김남형 응용통계학과 가천대학교

nhkim@gachon.ac.kr

1

(2)

 상자 그림(BOX PLOT)

다섯 수치 요약을 이용하여 시각화하는 방법 상자 그림(상자-수염 그림)

<단순한 상자 그림의 작성 방법>

1) 다섯 수치 요약(min, HL, M, HU, max)를 구한다.

2) 위•아래 사분위수(H) 위치에 네모형 상자를 그린다. 상자 내에 중위수(M)에 해당되는 위치에 ‘+’ 표시 또는 칸막이 막대 표시를 한다.

3) 최소값과 최대값의 위치에 점을 찍고 이 점을 상자의 양끝과 선분으로 연결

(3)

<대표적인 상자 그림 작성방법>

1) 다섯 수치 요약(min, HL, M, HU, max)를 구한다.

2) 위•아래 사분위수(H) 위치에 네모형 상자를 그린다. 상자 내에 중위수(M)에 해당되는 위치에 ‘+’ 표시 또는 칸막이 막대 표시를 한다.

3) 다음과 같이 양쪽 안울타리(inner fence)값 IF를 계산한다.

그리고, 양쪽 바깥울타리(outer fence)값 OF를 계산한다.

4) 양쪽 안울타리의 안쪽에 있으면서 경계에 가장 가까운 값을 찾아낸다. 이 자료점을 인접값(adjacent value) AV라고 한다. 인접값과 상자의 양끝과 연결

AVL HL M HU AVU

5) 안울타리와 바깥울타리 사이에 있는 자료점을 특이점(outlier)으로 간주하고 그

위치에 ‘*’ 표시. 바깥울타리의 바깥에 있는 자료점은 특별한 특이점(special outlier) 으로 간주 그 위치에 ‘o’ 표시.

AVL HL M HU AVU

* * o

 

+

=

=

) ( 5

. 1

) ( 5

. 1

H spr H

IF

H spr H

IF

U U

L L

 

+

=

=

) ( 0

. 3

) ( 0

. 3

H spr H

OF

H spr H

OF

L U

L L

+

+

3

(4)

1995년 인구 및 주택 센서스 보고에 따른

경기도 • 경상남도의 시, 군과 서울시•부산시 구의 인구자료

1) <줄기와 잎그림> <다섯 수치요약>

경기도 수원 756 성남 869 의정부 276 안양 591 부천 779 광명 351 평택 313 동두천 72 안산 510 고양 518 과천 68 구리 142 남양주 229 오산 70 시흥 133 군포 235 의왕 109 하남 116 양주 95

여주 92 화성 159 파주 163 광주 86 연천 52 포천 119 가평 50 양평 71 이천 155 용인 243 안성 120 김포 108

경상남도 창원 482 울산 967 마산 441 진주 330 진해 126 통영 132 사천 113 김해 256 밀양 122 거제 148 의령 38 함안 60 창녕 71 양산 163 고성 60 남해 60 하동 55 산청 43 함양 45 거창 70 합천 62

서울시 종로 190 중구 136 용산 254 성동 334 광진 382 동대문 416 중랑 440 성북 490 강북 390 동봉 356 노원 569 은평 485 서대문 360 마포 386 양천 461 강서 503 구로 365 금천 285 영등포 414 동작 422 관악 548 서초 385 강남 535 송파 637 강동 487

부산시 중구 64 서구 175 동구 152 영도 506 부산진 453 동래 312 남구 312 북구 278 해운대 302 사하 381 금정 308 강서 67 연제 246 수영 196 사상 296 기장 69

9 0 767998557 단위 10(x천명) 10 1 4301561520

4 2 7234 2 3 51 0 4 3 5 911 0 6 2 7 57 1 8 6 31V

M 142

H 93.5 294.5 spr(H) = 201 1 70.5 554.5

(5)

2) 아래 사분위수 93.5와 위 사분위수 294.5를 이용하여 상자를 그리고, 중위수 142의 위치에 ‘+’표시

I + I

150 300 450 3) 안울타리(inner fence)값 IF를 계산

IFL = HL - 1.5 spr(H) = 93.5 - 1.5 * 201 = -208, IFU = HU + 1.5 spr(H) = 294.5 + 1.5 * 201 = 596.

바깥울타리(outer fence)값 OF를 계산

OFL = HL

– 3.0 spr(H) = 93.5 - 3.0 * 201 = -509.5,

OFU

– H

U + 3.0 spr(H) = 294.5 + 3.0 * 201 = 897.5.

4) 아래 인접값 AVL은 최소값과 같은 50, 위 인접값 AVU는 591.

I + I

150 300 450 600

5) 위 안울타리 IFU와 바깥 울타리 OFU의 사이에 있는 자료점을 찾아‘*’표시 ‘o’자료는 없음.

I + I * * *

150 300 450 600 750 5

(6)

 특이점

정규분포

평균이 이고 분산이 인 정규분포의 경우

사분위수 H H = 0.675 이므로 spr(H) = 1.35 안울타리(inner fence)값 IF IF =

정규분포에서 바깥의 확률이 0.007, 즉 0.7%임을 알수 있다 (즉, N=100인 경우 특이값으로 판정될 자료점의 수는 평균 1개 미만)

균일분포

균일분포 에서 동일한 확률밀도

사분위수 H H = 이므로 spr(H) = 안울타리(inner fence)값 IF IF =

이들 값들은 양의 확률밀도 갖는 구간 를 벗어나므로, 균일분포에서는

특이점이 검출 되지 않는다.

µ

µ ±

σ

2

σ σ

σ µ

σ σ

µ 0 . 675 ) 1 . 5 1 . 35 2 . 7

( ± ± × = ±

σ µ ± 2 . 7

) ,

( µ − α µ + α

α

µ ± 0 . 5 α

α µ

α σ

µ 0 . 5 ) 1 . 5 2

( ± ± = ±

) ,

( µ − α µ + α

(7)

이중 지수분포

중심 이고 감소율 의 이중 지수분포 고려

사분위수 H H = 이므로 spr(H) = 안울타리(inner fence) 값 IF

IF =

이중 지수분포에서는

즉, 6.25%이다. N=100인 수치자료에서 특이값으로 간주되는 자료점의 수는 평균 6.25개씩이나 된다.

종합(결론)

균일분포에서는 특이값이 절대로 검출될 수 없으며, 정규분포에서는 간혹 검출될 수 있으나,

이중지수분포에서는 꽤 빈번히 특이점 판정이 내려진다.

µ λ

λ

µ ± log

e

( 2 ) / 2 log

e

( 2 ) / λ λ

µ λ λ

µ log ( 2 ) / ) 1 . 5 2 log ( 2 ) / 4 log ( 2 ) /

( ±

e

± ×

e

= ±

e

] / ) 2 ( log 4

( exp[

) / ) 2 ( log 4

|

(| X µ

e

λ λ

e

λ

P − ≥ = −

0625 .

0 16 / 1 2

)]

2 ( log 4

exp[ − =

4

= =

=

e

7

(8)

 여러 묶음 수치자료의 비교

경기도, 경상남도, 서울 • 부산 세 그룹 별로 비교 1) 세 그룹의 문자값 전시

(1) 경기도 시군 인구

Depth Lower Upper Mid Spread N= 31

M 16.0 142.000 142.000

H 8.5 93.500 294.500 194.000 201.000 E 4.5 70.500 554.500 312.500 484.000 D 2.5 60.000 767.500 413.750 707.500 C 1.5 51.000 824.000 437.500 773.000 1 50.000 869.000 459.500 819.000

(2) 경상남도의 시군 인구

Depth Lower Upper Mid Spread N= 21

M 11.0 113.000 113.000

H 6.0 60.000 163.000 111.500 103.000 E 3.5 50.000 385.500 217.750 335.500 D 2.0 43.000 482.000 262.500 439.000 1 38.000 967.000 502.500 929.

000

(3) 서울•부산의 구 인구

Depth Lower Upper Mid Spread N= 41

M 21.0 365.000 365.000

H 11.0 278.000 453.000 365.500 175.000 E 6.0 175.000 503.000 339.000 328.000 D 3.5 102.500 541.500 322.000 439.000 C 2.0 67.000 569.000 318.000 502.000 1 64.000 637.000 350.500 573.000

(9)

2) 세 그룹의 상자 그림(1) (1) 경기도의 시군 인구

수부 성

--- 원천 남

---I + I--- * * * ---

---+---+---+---+---+---k-k 150 300 450 600 750

(2) 경상남도의 시군 인구

진 마창 울

--- 주 산원 산

-I + I--- * * O O ---

+---+---+---+---+---+---k-n 0 200 400 600 800 1000

(3) 서울 • 부산의 구 인구

---

---I + I--- ---

+---+---+---+---+---+---s-p 0 120 240 360 480 600

9

(10)

3) 세 그룹의 상자 그림(2)

---

경기도 --I + I--- ** * ---

---

경상남도 -I + I--- * * O O ---

---

서울•부산 ---I + I--- ---

+---+---+---+---+---+---C5 0 200 400 600 800 1000

[미니탭의 활용]

@ BOX-PLOT

Graph > Boxplot….

@ 미니탭의 stack(쌓기)

Manip > Stack/Unstack > Stack Columns….

(11)

 요약

1. EDA의 다섯 수치요약 최소값, 제1사분위수, 중위수, 제3사분위수, 최대값 2. 문자값 중위수 M, 사분위수 H, 8분위수 E, 16분위수 D, 32분위수 C 등등 3. 문자값에서의 mid(=두 분위수의 중앙값) - 왜도(skewness)

증가하는지, 감소하는지에 따라 분포의 기울기 정도, 방향을 알 수 있음 4. 문자값에서 spr(두 분위수의 차이) - 첨도(kurtosis)

증가하는 속도에 따라 꼬리가 얇은 분포인지, 두터운 분포인지 알 수 있음 5. 미니탭에서의 문자 값 전시를 위한 메뉴 명령

Stat > EDA > Letter Values ….

6. 상자 그림은 기본적인 다섯 수치요약을 그래프화 한 것

7. 상자 그림에서 특이점으로 판정하는 경계선은 HL-1.5Ⅹspr(H), HU+1.5Ⅹspr(H) 특이한 특이점을 판정하는 경계선은 HL-3.0Ⅹspr(H), HU+3.0Ⅹspr(H)

8. 자료가 정규분포이면 특이점으로 판정되는 자료점의 수는 0.7%에 불과 9. 상자 그림은 여러 묶음의 수치 자료를 비교하기에 효율적인 그래프적 수단

동일한 척도의 수직선에 상자 그림을 그리는 것이 바람직

11

참조

관련 문서

Physics, Page

그림은 어떤

경제성을 비교하기에 앞서서 저압 동력계통 공칭전압과 전동기 정격전압에 대한 이해가 필 요하다.. 전동기의 기동토크와 전압과의

2) Absorption in liquids or sold : broad band spectrum ex) Green water : absorption in the red portion.. ex) Red dye : strong absorption in the blue or UV ex) Metal

일상생활에서는 학업스트레스를 받는 상황이 같더라도 학업스트레스 주체인 자기 가 어떻게 학업스트레스를 인지하느냐에 따 라서 학업스트레스 정도가 달라지므로 자기 가

다음 그림은 탄산수소나트륨을 가열하는

함한 중산층 이상이 국내소비를 늘릴 수 있도록 소 비여건을 개선하는 것이 내수 진작을 위한 효율적인

Chapter 3 Customers' Evaluation of Administrative Service Quality 1. Customer's Primary Concern in Administrative Service Quality 4. Prioritizing the