• 검색 결과가 없습니다.

통 계 학 입 문

N/A
N/A
Protected

Academic year: 2022

Share "통 계 학 입 문"

Copied!
35
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Chapter 1. 자료의 정리

통 계 학 입 문

(기초통계학)

(2)

Chapter 1. 자료의 정리

(3)

Chapter 1. 자료의 정리

1. 1 개 요

통계학

(statistics)

관심의 대상에 대해 관련된 자료를 수집하고 그 자료를 요약, 정리하여 이로부터 불확실한 사실에 대한 결론이나 일반적인 규칙성을 추구하는 학문

※ Statistic : 통계치, 통계량

(4)

Chapter 1. 자료의 정리

통 계 학

(statistics)

기술통계학(descriptive stat)

수집된 자료의 정리 및 요약 방법을 다룸

추측 통계학(inferential stat)

자료를 통한 모수의 추정 및 모수에 대한 가설 검정

1. 1 개

선 결정 후 자료 수집 및 교정

검 정 선 자료수집

후 결정 추 정

(5)

Chapter 1. 자료의 정리

통 계 학

(statistics)

Infer : 추측하다. 추론하다.

(부분을 보고 전체에 대해 결론을 내림)

Ex)

1. 1 개

전 체 (?)

부 분

선 자료수집, 후 결정

선 결정, 후 자료수집 및 교정

신중히 맴돌다 교제 여부 결정 일단 교제후 계속 교제 여부 결정 연 애

도청, 시청 이전 계획 등을 확인하고 땅 구입 투 자

(신중형)

(카사노바 형)

(6)

Chapter 1. 자료의 정리

1. 2 변수의 종류

변 수(Variable)

조사대상의 관심이 되는 특성

Ex) 변 수

I Q 몸무게

변 수 라면값

성업여부

※ 모수 : 충대남학생 전체의 키평균, 모수 : 모든 궁동분식집 라면값의 평균 or 최소값

조사대상

사 람

조사대상

분식집

(7)

Chapter 1. 자료의 정리

변 수(Variable)

질적변수(qualitative variable)

명의적(nominal) 질적변수 : 고향, 색깔 등

순서적(ordinal) 질적변수 : 선호도, 외모 등

양적변수(quantitative)

연속(continuous): 몸무게, 나이, 시간, 온도 등

이산(discrete): 사람수, 불량품 수

1. 2 변수의 종류

크게 질적, 양적 분류로 충분

※나이: 연속이지만 이산취급(보통2세, 신생아실, 2.1시간)

(8)

Chapter 1. 자료의 정리

자료 요약법

요 약 법

그 림 OR 도 표

숫 자

줄기그림

도수분포표와 histogram

원그래프

상자그림

수치요약

대표값과

(9)

Chapter 1. 자료의 정리

1.3 줄기그림(stem plot)

Ex) 충남대 남학생 15명의 몸무게 자료

Data

62 56 69

65 60 57

58 71 53

71 68 67

48 100

72

(단위 : Kg)

(10)

Chapter 1. 자료의 정리

줄기그림

(남학생)

1. 3 줄기그림

4 5 6 7 8 9 10

8

3 6 7 8

0 2 5 7 8 9 1 1 2

0

● 분포의 중심 파악

● 분포의 전체적인 모양

● 이상치 유무 판단

(11)

Chapter 1. 자료의 정리

서로 맞댄 줄기그림

(back to back stem plot)

Ex) 충남대 여학생 20명의 몸무게 자료

Data : 45, 48, ···

1. 3 줄기그림

4 5 6 7 8 9 10 8

8 7 6 3 8 8 7 5 2 0 2 1 1

0

남학생

1 1 3 3 8 9

0 1 1 2 4 8 9 9 0 1 2 3

2

여학생

“두 그룹의 자료비교

(12)

Chapter 1. 자료의 정리

줄기의 세분

Ex) 충남대 남학생 15명의 키 자료

Data

1. 3 줄기그림

170 172 168

171 174 171

175 173 173

174 181 174

173 178 173

(단위 : cm)

16 17 18

8

0 1 1 2 3 3 3 3 4 4 4 6 8 1

분포형태 파악불가

줄 기 를

세 분

(13)

Chapter 1. 자료의 정리

줄기의 세분

1. 3 줄기그림

8

0 1 1

2 3 3 3 3 4 4 4

6 8 1

8

0 1 1 2 3 3 3 3 4 4 4 6 8

1

또는

“줄기의 세분은 5개 혹은 2개로만 가능”

10 = 5

× 2

16.

17 17.

18

*

* 16.

17 17

t

17

f

17

s

17.

18

*

*

(14)

Chapter 1. 자료의 정리

1. 4 도수분포표와 Histogram

Ex) 200쌍 부부의 자녀 수 조사

Data : 0, 2, 1, 2, 3, ··· (이산형 양적자료)

도수분포표

자녀수 0 1 2 3 4

합 계 5

도 수 (frequency)

24 66 82 18 8

200 2

상 대 도 수 (relative freq.)

0.12 0.33 0.41 0.09 0.04

1.00

0.01 0

0.1 0.2 0.3 0.4 0.5

0 1 2 3 4 5

히스토그램

임의로 뽑은 부부의 자녀수에 대한 확률 추정치

(15)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

Ex) 충남대생 1000명의 키 측정

Data : 167, 171, · · · ·

Ordered data: 155, · · ·, 189 min max

Stem plot(줄기그림)

1. 4 도수분포표와 Histogram

∙ ∙ ∙

∙ ∙ ∙

∙ ∙ ∙ 15

16 17

∙ ∙ ∙

∙ ∙ ∙

∙ ∙ ∙

∙ ∙ ∙

∙ ∙ ∙

* 15 15.

16 16.

17

*

*

Too many leaves

(16)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

도수분포표 히스토그램

155 156

. . .

189 합 계

도 수 1 2

. . .

1 1000

1 5 5

1 5 6

1 5 7

1 5 8

1 8 8

1 8 9

………..

………..

“Pancake” graph

가지수가 너무 많음

(17)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

자료의 grouping (계급화) 필요.

계급의 수는 관측 값의 수에 따라 6-20개 만약 7개로 하면

1. 4 도수분포표와 Histogram

Max - Min

7 = 189 - 155

7 = 34

7 ~~ 5 가 계급의 폭

(18)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

계 급 155 ~ 160 160 ~ 165 165 ~ 170 170 ~ 175 175 ~ 180

180 ~ 185 185 ~ 190

도 수 12 95 220 376 162

1000 90 45

상대도수 0.012 0.095 0.220 0.376 0.162

1 0.090 0.045

도수밀도 2.4 19.0 44.0 75.2 32.4 18.0 9.0

155 ~ 160 은 155 이상 160 미만 임

(19)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4

155~160 160~165 165~170 170~175 175~180 180~185 185~190

0 10 20 30 40 50 60 70 80

155~160 160~165 165~170 170~175 175~180 180~185 185~190

Histogram

상대도수 도수밀도

(20)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

도수밀도

(freq density)

= 도수/계급폭

계급이 등간격이면, 도수, 상대도수, 도수밀도 상관 없음.

Ex) Odered data

2, 6, 7, 7, 7, 7, 8, 8, 8, 9, 11, 11, 11, 11, 11, 11, 11, 11, 12, 12,

12, 12, 12, 13, 13, 13, 14, 14, 14, 15, 16, 16, 17, 17, 17, 17, 18, 18, 19, 20

1. 4 도수분포표와 Histogram

(21)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

계 급 0 ~ 5 5 ~ 10 10 ~ 15 15 ~ 20 합 계

도 수 1 9 20 10 40

상대도수 0.025 0.225 0.500 0.250

1

도수밀도 0.2 1.8 4.0 2.0

0.25 0.5 0.75

10 20 30

도수 상대도수

(22)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

계 급 0 ~ 10 10 ~ 15 15 ~ 20 합 계

도 수 10 20 10 40

상대도수 0.250 0.500 0.250

1

도수밀도 1.0 4.0 2.0

도수 도수밀도

0 10 20 30

0 2 4 6

(23)

Chapter 1. 자료의 정리

분포파악이 가장 유리한 그림?

1. 4 도수분포표와 Histogram

0 0.25 0.5 0.75

0~5 5~10 10~15 15~20 0

10 20 30

0~5 5~10 10~15 15~20

도수 상대도수

도수 도수밀도

10 20 30

2 4 6

(24)

Chapter 1. 자료의 정리

Ex) 200쌍 이혼부부의 이혼사유 조사

1. 4 도수분포표와 Histogram

질적변수 도수분포표 원 그래프

사 유 성격차이 고부갈등 배우자 부정

가정폭력

합 계

도 수 80 35 25 20 10

200 30

각종 그래프들

(25)

Chapter 1. 자료의 정리

잘못 그려진 그래프

1. 4 도수분포표와 Histogram

(26)

Chapter 1. 자료의 정리

잘못(?) 그려진 그래프

1. 4 도수분포표와 Histogram

(27)

Chapter 1. 자료의 정리

1. 5 수치요약과 상자그림

(number summary and box plot)

다섯 수치

최소값

제 1사분위수(1st Quartile)

중위수(Median)

제 3사분위수(3rd Quartile)

최대값

Ex) Ordered data

0 5 10 11 12 16 18 21 22

Ex) 세 수치, 아홉 수치 요약도 가능

최소값 Q

1

중위수 Q

3

최대값

(28)

Chapter 1. 자료의 정리

수 치 요 약

관측값의 깊이

순서화된 자료에서 중앙의 왼편에 있을 때에는 왼쪽부터, 오른쪽에 있을 때에는 오른쪽부터의 누적도수.(같은 값이 없을 때는 순서)

Ordered

data 3 5 5 7 10 15 30 35 41 깊이 1 3 3 4 5 4 3 2 1

1. 5 수치요약과 상자그림

(29)

Chapter 1. 자료의 정리

수치의 깊이

중위수의 깊이

Q1, Q3의 깊이

,

[ ]는 를 넘지 않는 최대정수

1. 5 수치요약과 상자그림

n + 1 2

[d(M)] + 1

2 x x

d(M) =

(30)

Chapter 1. 자료의 정리

수치의 깊이

Ex) 충남대 남학생 12명의 한달 평균용돈 조사

(n=12)(단위: 만원)

Ordered data

3 10 11 13 15 18 20 21 25 29 36 40

d(M) = = = 6.5 = 19

Q1, Q3의 깊이 = = = 3.5

Q1 = = 12 Q3 = = 27

1. 5 수치요약과 상자그림

n + 1 2

13 2

18 + 20 2 [d(M)] + 1

2

[6.5] + 1 2

11 + 13 25 + 29

(31)

Chapter 1. 자료의 정리

상 자 그 림

용돈조사 데이터를 다섯 수치로 요약.

( 3 , 12 , 19 , 27 , 40 )

1. 5 수치요약과 상자그림

0 10 20 30 40

<위의 다섯수치로 얻은 상자그림>

(32)

Chapter 1. 자료의 정리

상 자 그 림

Ex) 만약 최대가 100 ( 40대신) 이면, 최소, Q1, M, Q3 는 불변

다섯수치 요약 : ( 3 , 12 , 19 , 27 , 100 )

1. 5 수치요약과 상자그림

0 10 20 30 40 -10

-20 90 100

<위의 다섯수치로 얻은 상자그림>

…………

Max Min

(33)

Chapter 1. 자료의 정리

상자그림의 중요 수치

IQR

(Interquartile range ; 사분위범위 )

Q₃– Q₁ = 27 - 12 = 15

IL

(Inner Lower fence)

Q₁- 1.5ㆍIQR = 12 – 1.5 x 15 = -10.5

IU

(Inner Upper fence)

Q₃+ 1.5ㆍIQR = 27 + 1.5 x 15 = 49.5

OL

(Outer Lower fence)

Q₁– 3ㆍIQR = 12 – 3 x 15 = -33

OU

(Outer Upper fence)

Q₃+ 3ㆍIQR = 27 + 3 x 15 = 72

AL (Adjacent Lower value)

AU (Adjacent Upper value)

1. 5 수치요약과 상자그림

Inner fence 안에서

가장 큰 값들

(34)

Chapter 1. 자료의 정리

상 자 그 림

다시 작성된 상자그림

1. 5 수치요약과 상자그림

0 10 20 30 40 -10

-20 90 100

<위의 다섯수치로 얻은 상자그림>

-30 …………

IL

OL IU OU

O

AU AL

(35)

Chapter 1. 자료의 정리

2개의 상자그림 Data 비교

1. 5 수치요약과 상자그림

상자그림의 사용 예

참조

관련 문서

우리 대학 또는 타 대학의 입학전형 부정행위자는 그 시행일이 속한 학년도의 우리 대학의 모든 입학전형을 무효로 하며, 입 학 및 졸업 후에라도 우리

❍ 주요 농업지표의 국제 비교를 위해 해외 농업관련 자료를 제공하고 있는 다수 국제기구들의 데이터베이스를 검색하고 수집된 통계 중 비교 가능한 자료를 우선적으로

본 연구에서는 형상기억합금 액츄에이터가 갖는 높은 에너지 집적도의 장점을 활용하고 비선형적 동특성의 단점을 극복할 수 있는 구간분할

의료서비스 질에 대한 평가는 고객 즉,환자에 의한 평가가 매우 중요하다.환자 들이 평가하는 의료서비스 질은 의료기관 선택에 크게 영향을 미치게 된다.

Laser cutting process is one of flexible rapid manufacturing technologies with various advantages including a high cutting speed, manufacturing of parts with

결과 온도 제어를 하지 않았을 경우에 비해 가열시 반응속도를 5초 빠르게 하였고, 지속적인 온도 상승으로 인한 불규칙한 변위 발생의 제어가 가능하여

이는 KOSPI 등록 기업들이 KOSDAQ 등록 기 업에 비해 ERP 등 제품사용 수가 적다는 것을 의미한다.. 이는 KOSPI 등록 기업들이 KOSDAQ 등록 기업에 비해

2,3 빛으로 공간 꾸미기, 빛의 아름다움 감상하기 Science, Technology, Art 4,5,6 천연 아이스 팩 만들기, 아이스 팩 활용하여 다양한 생활용품 만들기 Art, Engineering.