Chapter 1. 자료의 정리
통 계 학 입 문
(기초통계학)
Chapter 1. 자료의 정리
Chapter 1. 자료의 정리
1. 1 개 요
통계학(statistics)
관심의 대상에 대해 관련된 자료를 수집하고 그 자료를 요약, 정리하여 이로부터 불확실한 사실에 대한 결론이나 일반적인 규칙성을 추구하는 학문※ Statistic : 통계치, 통계량
Chapter 1. 자료의 정리
통 계 학
(statistics)
기술통계학(descriptive stat)
수집된 자료의 정리 및 요약 방법을 다룸
추측 통계학(inferential stat)
자료를 통한 모수의 추정 및 모수에 대한 가설 검정1. 1 개 요
선 결정 후 자료 수집 및 교정
검 정 선 자료수집
후 결정 추 정
Chapter 1. 자료의 정리
통 계 학
(statistics)
Infer : 추측하다. 추론하다.(부분을 보고 전체에 대해 결론을 내림)
Ex)1. 1 개 요
전 체 (?)
부 분
선 자료수집, 후 결정
선 결정, 후 자료수집 및 교정
신중히 맴돌다 교제 여부 결정 일단 교제후 계속 교제 여부 결정 연 애
도청, 시청 이전 계획 등을 확인하고 땅 구입 투 자
(신중형)
(카사노바 형)
Chapter 1. 자료의 정리
1. 2 변수의 종류
변 수(Variable)
조사대상의 관심이 되는 특성
Ex) 변 수키 I Q 몸무게
변 수 라면값
수 입 미 모
월 세
성업여부
※ 모수 : 충대남학생 전체의 키평균, 모수 : 모든 궁동분식집 라면값의 평균 or 최소값
조사대상
사 람
조사대상
분식집
Chapter 1. 자료의 정리
변 수(Variable)
질적변수(qualitative variable)
명의적(nominal) 질적변수 : 고향, 색깔 등
순서적(ordinal) 질적변수 : 선호도, 외모 등
양적변수(quantitative)
연속(continuous): 몸무게, 나이, 시간, 온도 등
이산(discrete): 사람수, 불량품 수1. 2 변수의 종류
크게 질적, 양적 분류로 충분
※나이: 연속이지만 이산취급(보통2세, 신생아실, 2.1시간)
Chapter 1. 자료의 정리
자료 요약법
자 료
요 약 법
그 림 OR 도 표
숫 자
줄기그림
도수분포표와 histogram
원그래프
상자그림
수치요약
대표값과
Chapter 1. 자료의 정리
1.3 줄기그림(stem plot)
Ex) 충남대 남학생 15명의 몸무게 자료
Data62 56 69
65 60 57
58 71 53
71 68 67
48 100
72
(단위 : Kg)
Chapter 1. 자료의 정리
줄기그림
(남학생)
1. 3 줄기그림
4 5 6 7 8 9 10
8
3 6 7 8
0 2 5 7 8 9 1 1 2
0
● 분포의 중심 파악
● 분포의 전체적인 모양
● 이상치 유무 판단
Chapter 1. 자료의 정리
서로 맞댄 줄기그림
(back to back stem plot)
Ex) 충남대 여학생 20명의 몸무게 자료
Data : 45, 48, ···1. 3 줄기그림
4 5 6 7 8 9 10 8
8 7 6 3 8 8 7 5 2 0 2 1 1
0
남학생
1 1 3 3 8 9
0 1 1 2 4 8 9 9 0 1 2 3
2
여학생
장 점
“두 그룹의 자료비교”
Chapter 1. 자료의 정리
줄기의 세분
Ex) 충남대 남학생 15명의 키 자료
Data1. 3 줄기그림
170 172 168
171 174 171
175 173 173
174 181 174
173 178 173
(단위 : cm)
16 17 18
8
0 1 1 2 3 3 3 3 4 4 4 6 8 1
분포형태 파악불가
줄 기 를
세 분
Chapter 1. 자료의 정리
줄기의 세분
1. 3 줄기그림
8
0 1 1
2 3 3 3 3 4 4 4
6 8 1
8
0 1 1 2 3 3 3 3 4 4 4 6 8
1
또는
“줄기의 세분은 5개 혹은 2개로만 가능”
10 = 5
× 2
16.
17 17.
18
*
* 16.
17 17
t17
f17
s17.
18
*
*
Chapter 1. 자료의 정리
1. 4 도수분포표와 Histogram
Ex) 200쌍 부부의 자녀 수 조사
Data : 0, 2, 1, 2, 3, ··· (이산형 양적자료)
도수분포표자녀수 0 1 2 3 4
합 계 5
도 수 (frequency)
24 66 82 18 8
200 2
상 대 도 수 (relative freq.)
0.12 0.33 0.41 0.09 0.04
1.00
0.01 0
0.1 0.2 0.3 0.4 0.5
0 1 2 3 4 5
히스토그램
임의로 뽑은 부부의 자녀수에 대한 확률 추정치
Chapter 1. 자료의 정리
분포파악이 가장 유리한 그림?
Ex) 충남대생 1000명의 키 측정
Data : 167, 171, · · · ·
Ordered data: 155, · · ·, 189 min max
Stem plot(줄기그림)1. 4 도수분포표와 Histogram
∙ ∙ ∙
∙ ∙ ∙
∙ ∙ ∙ 15
16 17
∙ ∙ ∙
∙ ∙ ∙
∙ ∙ ∙
∙ ∙ ∙
∙ ∙ ∙
* 15 15.
16 16.
17
*
*
Too many leaves
Chapter 1. 자료의 정리
분포파악이 가장 유리한 그림?
1. 4 도수분포표와 Histogram
도수분포표 히스토그램
키 155 156
. . .
189 합 계
도 수 1 2
. . .
1 1000
1 5 5
1 5 6
1 5 7
1 5 8
1 8 8
1 8 9
………..
………..
“Pancake” graph
가지수가 너무 많음
Chapter 1. 자료의 정리
분포파악이 가장 유리한 그림?
자료의 grouping (계급화) 필요.
계급의 수는 관측 값의 수에 따라 6-20개 만약 7개로 하면
1. 4 도수분포표와 Histogram
Max - Min
7 = 189 - 155
7 = 34
7 ~~ 5 가 계급의 폭
Chapter 1. 자료의 정리
분포파악이 가장 유리한 그림?
1. 4 도수분포표와 Histogram
계 급 155 ~ 160 160 ~ 165 165 ~ 170 170 ~ 175 175 ~ 180
합 계 180 ~ 185 185 ~ 190
도 수 12 95 220 376 162
1000 90 45
상대도수 0.012 0.095 0.220 0.376 0.162
1 0.090 0.045
도수밀도 2.4 19.0 44.0 75.2 32.4 18.0 9.0
155 ~ 160 은 155 이상 160 미만 임
Chapter 1. 자료의 정리
분포파악이 가장 유리한 그림?
1. 4 도수분포표와 Histogram
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4
155~160 160~165 165~170 170~175 175~180 180~185 185~190
0 10 20 30 40 50 60 70 80
155~160 160~165 165~170 170~175 175~180 180~185 185~190
Histogram
상대도수 도수밀도
Chapter 1. 자료의 정리
분포파악이 가장 유리한 그림?
도수밀도(freq density)
= 도수/계급폭
계급이 등간격이면, 도수, 상대도수, 도수밀도 상관 없음.
Ex) Odered data2, 6, 7, 7, 7, 7, 8, 8, 8, 9, 11, 11, 11, 11, 11, 11, 11, 11, 12, 12,
12, 12, 12, 13, 13, 13, 14, 14, 14, 15, 16, 16, 17, 17, 17, 17, 18, 18, 19, 20
1. 4 도수분포표와 Histogram
Chapter 1. 자료의 정리
분포파악이 가장 유리한 그림?
1. 4 도수분포표와 Histogram
계 급 0 ~ 5 5 ~ 10 10 ~ 15 15 ~ 20 합 계
도 수 1 9 20 10 40
상대도수 0.025 0.225 0.500 0.250
1
도수밀도 0.2 1.8 4.0 2.0
0.25 0.5 0.75
10 20 30
도수 상대도수
Chapter 1. 자료의 정리
분포파악이 가장 유리한 그림?
1. 4 도수분포표와 Histogram
계 급 0 ~ 10 10 ~ 15 15 ~ 20 합 계
도 수 10 20 10 40
상대도수 0.250 0.500 0.250
1
도수밀도 1.0 4.0 2.0
도수 도수밀도
0 10 20 30
0 2 4 6
Chapter 1. 자료의 정리
분포파악이 가장 유리한 그림?
1. 4 도수분포표와 Histogram
0 0.25 0.5 0.75
0~5 5~10 10~15 15~20 0
10 20 30
0~5 5~10 10~15 15~20
도수 상대도수
도수 도수밀도
10 20 30
2 4 6
Chapter 1. 자료의 정리
Ex) 200쌍 이혼부부의 이혼사유 조사1. 4 도수분포표와 Histogram
질적변수 도수분포표 원 그래프
사 유 성격차이 고부갈등 배우자 부정
가정폭력 주 벽
합 계 기 타
도 수 80 35 25 20 10
200 30
각종 그래프들
Chapter 1. 자료의 정리
잘못 그려진 그래프
1. 4 도수분포표와 Histogram
Chapter 1. 자료의 정리
잘못(?) 그려진 그래프
1. 4 도수분포표와 Histogram
Chapter 1. 자료의 정리
1. 5 수치요약과 상자그림
(number summary and box plot)
다섯 수치
최소값
제 1사분위수(1st Quartile)
중위수(Median)
제 3사분위수(3rd Quartile)
최대값
Ex) Ordered data0 5 10 11 12 16 18 21 22
Ex) 세 수치, 아홉 수치 요약도 가능
최소값 Q
1중위수 Q
3최대값
Chapter 1. 자료의 정리
수 치 요 약
관측값의 깊이
순서화된 자료에서 중앙의 왼편에 있을 때에는 왼쪽부터, 오른쪽에 있을 때에는 오른쪽부터의 누적도수.(같은 값이 없을 때는 순서)
Ordereddata 3 5 5 7 10 15 30 35 41 깊이 1 3 3 4 5 4 3 2 1
1. 5 수치요약과 상자그림
Chapter 1. 자료의 정리
수치의 깊이
중위수의 깊이
Q1, Q3의 깊이,
[ ]는 를 넘지 않는 최대정수
1. 5 수치요약과 상자그림
n + 1 2
[d(M)] + 1
2 x x
d(M) =
Chapter 1. 자료의 정리
수치의 깊이
Ex) 충남대 남학생 12명의 한달 평균용돈 조사(n=12)(단위: 만원)
Ordered data3 10 11 13 15 18 20 21 25 29 36 40
d(M) = = = 6.5 = 19
Q1, Q3의 깊이 = = = 3.5
Q1 = = 12 Q3 = = 271. 5 수치요약과 상자그림
n + 1 2
13 2
18 + 20 2 [d(M)] + 1
2
[6.5] + 1 2
11 + 13 25 + 29
Chapter 1. 자료의 정리
상 자 그 림
용돈조사 데이터를 다섯 수치로 요약.( 3 , 12 , 19 , 27 , 40 )
1. 5 수치요약과 상자그림
0 10 20 30 40
<위의 다섯수치로 얻은 상자그림>
Chapter 1. 자료의 정리
상 자 그 림
Ex) 만약 최대가 100 ( 40대신) 이면, 최소, Q1, M, Q3 는 불변다섯수치 요약 : ( 3 , 12 , 19 , 27 , 100 )
1. 5 수치요약과 상자그림
0 10 20 30 40 -10
-20 90 100
<위의 다섯수치로 얻은 상자그림>
…………
Max Min
Chapter 1. 자료의 정리
상자그림의 중요 수치
IQR(Interquartile range ; 사분위범위 )
Q₃– Q₁ = 27 - 12 = 15
IL(Inner Lower fence)
Q₁- 1.5ㆍIQR = 12 – 1.5 x 15 = -10.5
IU(Inner Upper fence)
Q₃+ 1.5ㆍIQR = 27 + 1.5 x 15 = 49.5
OL(Outer Lower fence)
Q₁– 3ㆍIQR = 12 – 3 x 15 = -33
OU(Outer Upper fence)
Q₃+ 3ㆍIQR = 27 + 3 x 15 = 72
AL (Adjacent Lower value)
AU (Adjacent Upper value)1. 5 수치요약과 상자그림
Inner fence 안에서
가장 큰 값들
Chapter 1. 자료의 정리
상 자 그 림
다시 작성된 상자그림1. 5 수치요약과 상자그림
0 10 20 30 40 -10
-20 90 100
<위의 다섯수치로 얻은 상자그림>
-30 …………
IL
OL IU OU
O
AU AL
Chapter 1. 자료의 정리
2개의 상자그림 Data 비교
1. 5 수치요약과 상자그림
상자그림의 사용 예