• 검색 결과가 없습니다.

Chapter 2. 줄기그림∙미니탭

N/A
N/A
Protected

Academic year: 2022

Share "Chapter 2. 줄기그림∙미니탭"

Copied!
16
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Chapter 2. 줄기그림∙미니탭

김남형 응용통계학과 가천대학교

[email protected]

1

(2)

 줄기 그림(stem plot)

단일 변수(일변량)의 측정 값들의 정보를 얻기 위하여 자료의 분포(distribution)를 그 래프로 나타낸 것

변수의 정보를 얻는다는 것은

1) 측정치의 중앙의 위치(중앙값, 평균)

2) 측정치들이 가질 수 있는 값의 범위(산포도: 분산, 범위)

3) 어느 값들이 주로 나타나는지(분포의 형태) 를 아는 것임

2

(3)

 .

 중심극한정리(CLT: Central Limit Theorem)

표본의 크기가 크면 표본평균(�𝒙𝒙)의 분포는 모집단의 분포와 관계없이 정규 분포를 따 른다. CLT는 표본 분포 함수(sample distribution)에 대한 것이 아니라 표본 평균의 분포(sampling distribution)에 관한 것.

3

(4)

 CLT에 의해 다음 사실을 알 수 있음

 만약 대표본이 아닌 경우 t-분포를 이용. 이런 경우 모집단은 정규분포라는 가정을 하게 됨.

 대표본의 기준? 책에서는 20-30 이상. 그러나 모집단의 분포에 의존

자료의 분포의 형태를 아는 것이 분석의 첫 단추

4

Pr(| ̅𝑥𝑥−𝜇𝜇 𝑠𝑠

𝑛𝑛 | ≤ 𝑧𝑧 𝛼𝛼

2 ) = 1 − 𝛼𝛼 → ̅𝑥𝑥 ± 𝑧𝑧 𝛼𝛼/2 𝑠𝑠 𝑛𝑛 : 신뢰구간

(5)

 줄기 그림으로부터 알 수 있는 사항

1) 분포의 개략적인 형태

• 좌우 대칭인가? 아니면 skewed 되었는가?

• 봉우리(modal)는 하나인가? 아니면 여러 개인가?

• 자료의 범위 및 분산

2) 이상치(outlier)의 존재 여부와 위치 파악

5

(6)

 줄기 그림 작성 요령

1) 자료를 크기 순으로 정리한다.

• 자료의 수가 많을 때는 자료 정렬을 수작업하기 어려우므로 이 단계는 무시해 도 되지만 자료를 크기 순으로 정렬해 놓으면 plot을 그리기 편리하다.

2) 자료를 살펴 줄기와 잎을 결정한다.

• 수리통계학 점수 XX자료를 보면 10 단위를 줄기로 하고 1단위를 잎으로 하여 plot을 그리면 될 것이라는 것을 알 수 있다. 줄기 수는 히스토그램의 계급 구 간 수에 해당되므로 8-12정도가 적절. 적정 개수가 아닌 경우 줄기 수 조정

3) 한 열에 줄기(stem)을 먼저 그린다.

• 수리통계학 점수에서 10 단위를 줄기로 하기로 결정하였고 자료의 최소값이 0, 최대값이 99 이므로 0부터 9까지 줄기를 한 열에 크기 순으로 적는다.

4) 줄기 옆에 잎을 그린다.

• 잎을 그리는 방법은 줄기 바로 뒤의 숫자를 줄기 옆에 차례로 적으면 된다.

5) 각 줄기의 도수를 세어 기록한다.

• 보조적으로 깊이(depth)라고 하는 일종의 누적도수를 줄기 그림에 써넣을 수 도 있다. 자료의 중간점을 포함하는 줄기에는 괄호 안에 도수 기입.

6

(7)

 수리통계학 점수의 줄기 그림(1)

7

(8)

 줄기의 수를 줄이는 방법

 줄기를 2개씩 묶는다.

 예

 이 과정에서 유효숫자 상실이 일어남. (ex. (23, 28, 28  20), (37, 33, 30  30))

 수리통계학 점수의 줄기 그림(2)

 앞의 줄기 그림(1) 과 비교했을 때 봉우리가 하나로 줄어듦. 8

(9)

 줄기의 수를 늘이는 방법

 한 줄기를 두 개로 나눈다.

 예

9

(10)

 수리통계학 점수의 줄기 그림(3)

4-5개의 봉우리를 볼 수 있음(군집화가능) 10

 줄기 수에 따라 봉우리의 수가 달라짐

 줄기 수 증가  봉우리 수 증가

 줄기 수 감소  봉우리 수 감소

 사용 용도에 따라 결정

(11)

11

 스터지스(Sturges)의 공식: 𝑳𝑳 = [𝟏𝟏 + log𝟐𝟐 𝒏𝒏]

 벨만(Velleman)의 공식: 𝑳𝑳 = [𝟐𝟐 𝒏𝒏]

 딕슨-크론말(Dixon-Kronmal)의 공식: 𝑳𝑳 ≤ 𝟏𝟏𝟏𝟏 log𝟏𝟏𝟏𝟏𝒏𝒏 , []: 가우스 부호

 공식의 적용 결과치를 그대로 사용하는 것이 가능하지 않거나 바람직하지 않음

 줄기의 가능한 단위: (1, 2, 5) * 10^d (d=0, ±1, ±2, …) 와 구간의 폭 = 자 료의 범위/L 이 맞지 않을 수 있음.

 줄기 수에 관한 공식들은 자료분포 모양을 고려하지 않고 자료의 크기만 생각 하여 계산함.

N Sturges Velleman Dixon-Kronmal

20 5 8 13

30 5 10 14

40 6 12 16

50 6 14 16

75 7 17 18

100 7 20 20

150 8 24 21

200 8 28 23

300 9 34 24

(12)

 히스토그램(Histogram)과의 비교

 수리통계학 점수의 히스토그램

 공통점: 외양적 테두리가 동일

 차이점

1) 줄기 그림은 구간내 자료들이 숫자로 구별(중위수의 정확한 계산 가능)

2) 줄기 수를 줄이거나 늘일 때 원래 작성된 줄기 그림 이용가능

3) 히스토그램에서는 구간의 폭을 임의로 정할 수 있음

12

(13)

 또 다른 사례

 산성 비 자료 (pH)

 산성 비 자료 줄기 그림(단위 0.1)

13

4.57 5.62 4.12 5.29 4.64 4.31 4.30

4.39 4.45 5.67 4.39 4.52 4.26 4.26

4.40 5.78 4.73 4.56 5.08 4.41 4.12

5.51 4.82 4.63 4.29 4.60

(14)

 미니탭 화면 구성

14

Session 창

Worksheet 창

도구상자 풀다운 메뉴

행번호

셀(cell)

열번호

(15)

 실습

 조선시대 역대 왕의 수명

15

태조 73 정종 62 태종 45 세종 53 문종 38

단종 16 세조 51 예종 28 성종 37 연산군 30

중종 56 인종 30 명종 33 선조 56 광해군 66

인조 54 효종 40 현종 33 숙종 59 경종 36

영조 82 정조 48 순조 44 헌종 22 철종 32

고종 67 순종 52

(16)

 요약

줄기 그림(stem plot)은 히스토그램과 마찬가지로 자료 분포의 특성을 그래프화한 것.

히스토그램에 비해 정보 보전 면에서 우수하며 쉽게 줄기 수 늘이거나 줄일 수 있음. 구간 선정시 제약이 따름.

적절한 줄기 그림을 그리기 위해서는 계획된 시행착오가 필요.

줄기 그림에서는 다음과 같은 자료 특성 파악가능

 군집(cluster)의 존재여부

 집중도가 높은 구간

 대칭성 여부

 자료의 범위 및 산포

 특이점의 존재여부

미니탭은 대화형 소프트웨어로서 EDA 방법에 관한 명령어를 갖고 있음.

미니탭 수행결과를 모아두기 위해 Outfile 명령어와 Nooutfile 명령어 사용.

미니탭 Stem-and-Leaf 명령어의 용법

 stem c1; trim; by c2; increment =k.

Trim: 특이값 절삭, Increment: 줄기의 증가 크기 지정 16

참조

관련 문서