• 검색 결과가 없습니다.

통 계 학 입 문

N/A
N/A
Protected

Academic year: 2022

Share "통 계 학 입 문"

Copied!
35
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Chapter 1. 자료의 정리

통 계 학 입 문

(기초통계학)

(2)

Chapter 1. 자료의 정리

(3)

Chapter 1. 자료의 정리

1. 1 개 요

통계학

(statistics)

관심의 대상에 대해 관련된 자료를 수집하고 그 자료를 요약, 정리하여 이로부터 불확실한 사실에 대한 결론이나 일반적인 규칙성을 추구하는 학문

※ Statistic : 통계치, 통계량

(4)

Chapter 1. 자료의 정리

통 계 학

(statistics)

기술통계학(descriptive stat)

수집된 자료의 정리 및 요약 방법을 다룸

추측 통계학(inferential stat)

자료를 통한 모수의 추정 및 모수에 대한 가설 검정

1. 1 개

선 결정 후 자료 수집 및 교정

검 정 선 자료수집

후 결정 추 정

(5)

Chapter 1. 자료의 정리

통 계 학

(statistics)

Infer : 추측하다. 추론하다.

(부분을 보고 전체에 대해 결론을 내림)

Ex)

1. 1 개

전 체 (?)

부 분

선 자료수집, 후 결정

선 결정, 후 자료수집 및 교정

신중히 맴돌다 교제 여부 결정 일단 교제후 계속 교제 여부 결정 연 애

도청, 시청 이전 계획 등을 확인하고 땅 구입 투 자

(신중형)

(카사노바 형)

(6)

Chapter 1. 자료의 정리

1. 2 변수의 종류

변 수(Variable)

조사대상의 관심이 되는 특성

Ex) 변 수

I Q 몸무게

변 수 라면값

성업여부

※ 모수 : 충대남학생 전체의 키평균, 모수 : 모든 궁동분식집 라면값의 평균 or 최소값

조사대상

사 람

조사대상

분식집

(7)

Chapter 1. 자료의 정리

변 수(Variable)

질적변수(qualitative variable)

명의적(nominal) 질적변수 : 고향, 색깔 등

순서적(ordinal) 질적변수 : 선호도, 외모 등

양적변수(quantitative)

연속(continuous): 몸무게, 나이, 시간, 온도 등

이산(discrete): 사람수, 불량품 수

1. 2 변수의 종류

크게 질적, 양적 분류로 충분

※나이: 연속이지만 이산취급(보통2세, 신생아실, 2.1시간)

(8)

Chapter 1. 자료의 정리

자료 요약법

요 약 법

그 림 OR 도 표

숫 자

줄기그림

도수분포표와 histogram

원그래프

상자그림

수치요약

대표값과

(9)

Chapter 1. 자료의 정리

1.3 줄기그림(stem plot)

Ex) 충남대 남학생 15명의 몸무게 자료

Data

62 56 69

65 60 57

58 71 53

71 68 67

48 100

72

(단위 : Kg)

(10)

Chapter 1. 자료의 정리

줄기그림

(남학생)

1. 3 줄기그림

4 5 6 7 8 9 10

8

3 6 7 8

0 2 5 7 8 9 1 1 2

0

● 분포의 중심 파악

● 분포의 전체적인 모양

● 이상치 유무 판단

(11)

Chapter 1. 자료의 정리

서로 맞댄 줄기그림

(back to back stem plot)

Ex) 충남대 여학생 20명의 몸무게 자료

Data : 45, 48, ···

1. 3 줄기그림

4 5 6 7 8 9 10 8

8 7 6 3 8 8 7 5 2 0 2 1 1

0

남학생

1 1 3 3 8 9

0 1 1 2 4 8 9 9 0 1 2 3

2

여학생

“두 그룹의 자료비교

(12)

Chapter 1. 자료의 정리

줄기의 세분

Ex) 충남대 남학생 15명의 키 자료

Data

1. 3 줄기그림

170 172 168

171 174 171

175 173 173

174 181 174

173 178 173

(단위 : cm)

16 17 18

8

0 1 1 2 3 3 3 3 4 4 4 6 8 1

분포형태 파악불가

줄 기 를

세 분

(13)

Chapter 1. 자료의 정리

줄기의 세분

1. 3 줄기그림

8

0 1 1

2 3 3 3 3 4 4 4

6 8 1

8

0 1 1 2 3 3 3 3 4 4 4 6 8

1

또는

“줄기의 세분은 5개 혹은 2개로만 가능”

10 = 5

× 2

16.

17 17.

18

*

* 16.

17 17

t

17

f

17

s

17.

18

*

*

(14)

Chapter 1. 자료의 정리

1. 4 도수분포표와 Histogram

Ex) 200쌍 부부의 자녀 수 조사

Data : 0, 2, 1, 2, 3, ··· (이산형 양적자료)

도수분포표

자녀수 0 1 2 3 4

합 계 5

도 수 (frequency)

24 66 82 18 8

200 2

상 대 도 수 (relative freq.)

0.12 0.33 0.41 0.09 0.04

1.00

0.01 0

0.1 0.2 0.3 0.4 0.5

0 1 2 3 4 5

히스토그램

임의로 뽑은 부부의 자녀수에 대한 확률 추정치

(15)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

Ex) 충남대생 1000명의 키 측정

Data : 167, 171, · · · ·

Ordered data: 155, · · ·, 189 min max

Stem plot(줄기그림)

1. 4 도수분포표와 Histogram

∙ ∙ ∙

∙ ∙ ∙

∙ ∙ ∙ 15

16 17

∙ ∙ ∙

∙ ∙ ∙

∙ ∙ ∙

∙ ∙ ∙

∙ ∙ ∙

* 15 15.

16 16.

17

*

*

Too many leaves

(16)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

도수분포표 히스토그램

155 156

. . .

189 합 계

도 수 1 2

. . .

1 1000

1 5 5

1 5 6

1 5 7

1 5 8

1 8 8

1 8 9

………..

………..

“Pancake” graph

가지수가 너무 많음

(17)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

자료의 grouping (계급화) 필요.

계급의 수는 관측 값의 수에 따라 6-20개 만약 7개로 하면

1. 4 도수분포표와 Histogram

Max - Min

7 = 189 - 155

7 = 34

7 ~~ 5 가 계급의 폭

(18)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

계 급 155 ~ 160 160 ~ 165 165 ~ 170 170 ~ 175 175 ~ 180

180 ~ 185 185 ~ 190

도 수 12 95 220 376 162

1000 90 45

상대도수 0.012 0.095 0.220 0.376 0.162

1 0.090 0.045

도수밀도 2.4 19.0 44.0 75.2 32.4 18.0 9.0

155 ~ 160 은 155 이상 160 미만 임

(19)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

155~160 160~165 165~170 170~175 175~180 180~185 185~190

0 10 20 30 40 50 60 70 80

155~160 160~165 165~170 170~175 175~180 180~185 185~190

Histogram

상대도수 도수밀도

(20)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

도수밀도

(freq density)

= 도수/계급폭

계급이 등간격이면, 도수, 상대도수, 도수밀도 상관 없음.

Ex) Odered data

2, 6, 7, 7, 7, 7, 8, 8, 8, 9, 11, 11, 11, 11, 11, 11, 11, 11, 12, 12,

12, 12, 12, 13, 13, 13, 14, 14, 14, 15, 16, 16, 17, 17, 17, 17, 18, 18, 19, 20

1. 4 도수분포표와 Histogram

(21)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

계 급 0 ~ 5 5 ~ 10 10 ~ 15 15 ~ 20 합 계

도 수 1 9 20 10 40

상대도수 0.025 0.225 0.500 0.250

1

도수밀도 0.2 1.8 4.0 2.0

0.25 0.5 0.75

10 20 30

도수 상대도수

(22)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

계 급 0 ~ 10 10 ~ 15 15 ~ 20 합 계

도 수 10 20 10 40

상대도수 0.250 0.500 0.250

1

도수밀도 1.0 4.0 2.0

도수 도수밀도

0 10 20 30

0 2 4 6

(23)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

0 0.25 0.5 0.75

0~5 5~10 10~15 15~20 0

10 20 30

0~5 5~10 10~15 15~20

도수 상대도수

도수 도수밀도

10 20 30

2 4 6

(24)

Chapter 1. 자료의 정리

Ex) 200쌍 이혼부부의 이혼사유 조사

1. 4 도수분포표와 Histogram

질적변수 도수분포표 원 그래프

사 유 성격차이 고부갈등 배우자 부정

가정폭력

합 계

도 수 80 35 25 20 10

200 30

각종 그래프들

(25)

Chapter 1. 자료의 정리

잘못 그려진 그래프

1. 4 도수분포표와 Histogram

(26)

Chapter 1. 자료의 정리

잘못(?) 그려진 그래프

1. 4 도수분포표와 Histogram

(27)

Chapter 1. 자료의 정리

1. 5 수치요약과 상자그림

(number summary and box plot)

다섯 수치

최소값

제 1사분위수(1st Quartile)

중위수(Median)

제 3사분위수(3rd Quartile)

최대값

Ex) Ordered data

0 5 10 11 12 16 18 21 22

Ex) 세 수치, 아홉 수치 요약도 가능

최소값 Q

1

중위수 Q

3

최대값

(28)

Chapter 1. 자료의 정리

수 치 요 약

관측값의 깊이

순서화된 자료에서 중앙의 왼편에 있을 때에는 왼쪽부터, 오른쪽에 있을 때에는 오른쪽부터의 누적도수.(같은 값이 없을 때는 순서)

Ordered

data 3 5 5 7 10 15 30 35 41 깊이 1 3 3 4 5 4 3 2 1

1. 5 수치요약과 상자그림

(29)

Chapter 1. 자료의 정리

수치의 깊이

중위수의 깊이

Q1, Q3의 깊이

,

[ ]는 를 넘지 않는 최대정수

1. 5 수치요약과 상자그림

n + 1 2

[d(M)] + 1

2 x x

d(M) =

(30)

Chapter 1. 자료의 정리

수치의 깊이

Ex) 충남대 남학생 12명의 한달 평균용돈 조사

(n=12)(단위: 만원)

Ordered data

3 10 11 13 15 18 20 21 25 29 36 40

d(M) = = = 6.5 = 19

Q1, Q3의 깊이 = = = 3.5

Q1 = = 12 Q3 = = 27

1. 5 수치요약과 상자그림

n + 1 2

13 2

18 + 20 2 [d(M)] + 1

2

[6.5] + 1 2

11 + 13 25 + 29

(31)

Chapter 1. 자료의 정리

상 자 그 림

용돈조사 데이터를 다섯 수치로 요약.

( 3 , 12 , 19 , 27 , 40 )

1. 5 수치요약과 상자그림

0 10 20 30 40

<위의 다섯수치로 얻은 상자그림>

(32)

Chapter 1. 자료의 정리

상 자 그 림

Ex) 만약 최대가 100 ( 40대신) 이면, 최소, Q1, M, Q3 는 불변

다섯수치 요약 : ( 3 , 12 , 19 , 27 , 100 )

1. 5 수치요약과 상자그림

0 10 20 30 40 -10

-20 90 100

<위의 다섯수치로 얻은 상자그림>

…………

Max Min

(33)

Chapter 1. 자료의 정리

상자그림의 중요 수치

IQR

(Interquartile range ; 사분위범위 )

Q₃– Q₁ = 27 - 12 = 15

IL

(Inner Lower fence)

Q₁- 1.5ㆍIQR = 12 – 1.5 x 15 = -10.5

IU

(Inner Upper fence)

Q₃+ 1.5ㆍIQR = 27 + 1.5 x 15 = 49.5

OL

(Outer Lower fence)

Q₁– 3ㆍIQR = 12 – 3 x 15 = -33

OU

(Outer Upper fence)

Q₃+ 3ㆍIQR = 27 + 3 x 15 = 72

AL (Adjacent Lower value)

AU (Adjacent Upper value)

1. 5 수치요약과 상자그림

Inner fence 안에서

가장 큰 값들

(34)

Chapter 1. 자료의 정리

상 자 그 림

다시 작성된 상자그림

1. 5 수치요약과 상자그림

0 10 20 30 40 -10

-20 90 100

<위의 다섯수치로 얻은 상자그림>

-30 …………

IL

OL IU OU

O

AU AL

(35)

Chapter 1. 자료의 정리

2개의 상자그림 Data 비교

1. 5 수치요약과 상자그림

상자그림의 사용 예

참조

관련 문서

< 통계작성 후 이행사항> 이용자 유의사항 공표 통계결과 대외공표시 국가통계가 아님을 명시하고, 작성개 요, 이용자의견수렴방법, 향후 국가통계로의 전환계획 등이 포함된 이용자 유의사항 을 통계결과와 함께 공표하여야함 모니터링 및 컨설팅 협조 통계청이 작성의 적합성 등 판단을 위한 품질 모니터링 및 통계품질 제고를 위한 컨설팅을

[r]

【문항 1】다음 제시문을 이용하여 아래 논제의 풀이 과정과 답을 논리적으로 서술하시오... 이때  개의 영문자는 동일한 확률로

As to reflect the diverse forest demands and functions, the chapters of the Yearbook have been categorized into Natural Environment, Forest Resources, Forest Health and

고승희 충남발전연구원 연구부장 행정학 충남 정책자문위원회 위원 신규 권미수 한국정보화진흥원 사업단장 경제학 대통력직속

[r]

- 편법적인 예산편성과 집행의 관행을 바로잡고, 불필요한 예산집 행을 방지토록 함으로써 예산편성 및 집행의 적정성

- 편법적인 예산편성과 집행의 관행을 바로잡고, 불필요한 예산집 행을 방지토록 함으로써 예산편성 및 집행의 적정성