• 검색 결과가 없습니다.

기술통계학( 또는 고전통계학)과 추측통계학( 또는 현대통계학)으로 나뉜다.

N/A
N/A
Protected

Academic year: 2022

Share "기술통계학( 또는 고전통계학)과 추측통계학( 또는 현대통계학)으로 나뉜다."

Copied!
37
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

4.1

4.1 4.1 4.1 4.1 4.1 4.1 4.1 4.1 4.1 4.1 4.1 4.1 4.1 4.1 4.1 4.1 4.1 자료의 자료의 자료의 자료의 자료의 자료의 자료의 자료의 자료의 자료의 자료의 자료의 자료의 자료의 자료의 자료의 자료의 자료의 정리와 정리와 정리와 정리와 정리와 정리와 정리와 정리와 정리와 정리와 정리와 정리와 정리와 정리와 정리와 정리와 정리와 정리와 요약 요약 요약 요약 요약 요약 요약 요약 요약 요약 요약 요약 요약 요약 요약 요약 요약 요약 4.1 자료의 정리와 요약

교재 : 사범대생을 위한 확률과 통계, 장세경 지음, 경문사, 2012

(2)

l

통계학이란? 조사할 대상에 대한 자료를 수집하고 수집된 자료를 정리하고 분석하여 불확실한 사

실에 대하여 추론하는 방법을 연구하는 학문이다.

l 통계학은

기술통계학( 또는 고전통계학)과 추측통계학( 또는 현대통계학)으로 나뉜다.

l

기술통계학 = 분석할 대상의 관측한 자료로부터 표나 그래프를 만들고 기댓값과 산포도 등의 통계

량을 계산하여 분석할 대상을 파악하는 방법.

예) 한 시즌 어떤 야구선수의 안타 수, 대졸 신입사원 임금의 평균 등을 조사하는 방법

l

추측통계학 = 일부분의 자료의 분석을 통하여 전체 자료에 대한 특성이나 추론을 이끌어내는 방법.

예) 새로 개발된 약의 효용성, 석유탐사에서의 매장성분과 매장량 등을 조사하는 방법

(3)

4.1.1 통계학의 기본 용어

정의 1

통계조사에서 연구대상이 되는 전체집합을

모집단이라 하고, 실제로 측정한 대상의 집합,

즉 모집단의 부분집합을

표본이라고 한다.

참고.

(1) 통계조사 과정에서 모집단의 특성을 나타내는 값을

모수

라 한다. 일반적으로 모수는 구체적인 값 으로 알려져 있지 않으므로 표본의 통계량을 이용하여 추측한다.

(2) 표본에서 측정된 값을

통계량

이라고 한다.

(3) 각 집단에서 조사하는 값의 종류는

평균, 분산, 표준편차, 비율, 크기

등이 있다.

(4)

참고.

모집단의 모수와 표본의 통계량의 기호 비교

대상 모집단(전체집합) 표본(부분집합)

조사값 모수(모집단의 특성값) 통계량(표본의 측정값)

평균 모평균 :  표본평균 : 

분산 모분산 :  표본분산 :  표준편차 모표준편차 :  표본표준편차 : 

비율 모비율 :  표본비율 : 

크기 모집단의 크기 :  표본의 크기 : 

(5)

4.1.2 자료의 정리

l 통계조사를 위해 조사된 자료는

질적자료( 또는 범주형 자료)와 양적자료

( 또는 연속형 자료)로 구 분한다.

l 질적자료 = 고유한 특성에 따라 분류되는 자료로, 즉 수로 표시할 수 없는 자료.

편의상 자료에 숫자를 부여하여 특성을 분류하지만 부여된 수의 의미는 없다.

예) 성별, 혈액형, 교육수준, 직업 등.

l 양적자료 = 셈이 가능한 수로 표시할 수 있는 자료 예) 나이, 몸무게, 키, 시험성적 등.

(6)

정의 2

조사한 자료를 각 특성별로 구분할 때, 각 특성에 속한 자료으 개수를

도수

라 하고, 각 도수를 전 체 자료의 수로 나눈 것을

상대도수

라고 한다. 여기서 나뉜 각 특성을 계급이라고 한다.

기호 : 도수 = (계급)

상대도수 = 전체도수

도수

참고.

(1) 도수는 확률에서의 빈도와 같다.

(2) 상대도수는 수학적 확률과 같은 개념으로 전체 상대도수의 합은 1이다.

(3) 도수를 정리한 표를

도수분포표라 하고, 상대도수를 정리한 표를 상대도수분포표라고 한다.

(4) 도수분포표나 상대도수분포표를 파악하기 쉽게 그래프로 표현할 수도 있다.

질적자료의 그래프 : 막대그래프, 상대도수 막대그래프, 원그래프 등

(7)

예제 1.

어떤 대학교에서 1학년 학생 중 30명을 뽑아 혈액형을 조사하였다. 다음 물음에 답 하시오.

(1) 도수분포표와 상대도수분포표를 작성하시오.

(2) 막대그래프와 상대도수 막대그래프, 원그래프를 그리시오.

풀이. (1)

혈액형 도수

A 7

B 8

O 12

AB 3

합계 30

도수분포표

혈액형 상대도수 A 

B 

O 



AB 

합계 1

상대도수분포표

(2)는 교재참조.

학생 혈액형 학생 혈액형 학생 혈액형

1 O 11 A 21 B

2 O 12 A 22 A

3 AB 13 O 23 A

4 A 14 O 24 O

5 B 15 O 25 B

6 O 16 O 26 O

7 A 17 B 27 A

8 O 18 O 28 AB

9 B 19 B 29 B

10 AB 20 B 30 O

(8)

참고. 양적자료의 도수분포표와 상대도수분포표의 작성 순서

[1단계] 자료의 최댓값과 최솟값을 찾는다.

[2단계] 자료의 크기에 따라 계급의 개수를 5개 또는 6개로 정한다.

[3단계] 계급의 개수를 이용하여 계급간격을 계급의개수 최댓값  최솟값

으로 구한다.

[4단계] 첫 번째 계급의 시작값을

최솟값  

 × 단위

로 정한다.

[5단계] 각 계급에 속하는 자료의 개수를 세어 도수를 구한다.

(도수분포표는 여기까지만 진행한다.)

[6단계] 각 계급의 도수를 전체 도수로 나누어 상대도수를 구한다.

[7단계] 각 내용에 해당하는 표를 작성한다.

(9)

예제 2.

어떤 대학교에서 통계학을 수강한 학생 40명의 기말시험점수를 조사하였다. 다음 물 음에 답하시오.

(1) 도수분포표와 상대도수분포표를 작성하시오.

(2) 히스토그래프와 줄기-잎 그림, 상대도수다각형을 그리시오.

풀이. (1) 조사한 자료의 최댓값은 98, 최솟값은 44 계급의 개수를 5개로 정하면

계급간격은 

  

≒ 

첫 계급의 시작값은

  

 × 

 

학생 점수 학생 점수 학생 점수 학생 점수

1 61 11 90 21 45 31 75

2 78 12 46 22 85 32 90

3 95 13 47 23 95 33 94

4 88 14 88 24 90 34 96

5 65 15 95 25 65 35 98

6 50 16 84 26 61 36 48

7 94 17 88 27 75 37 85

8 65 18 88 28 84 38 78

9 58 19 62 29 86 39 44

10 74 20 65 30 57 40 63

(10)

그러므로

계급 도수

43.5 이상 54.5 미만 6 54.5 이상 65.5 미만 10 65.6 이상 76.5 미만 3 76.5 이상 87.5 미만 7 87.5 이상 98.5 미만 14

합계 40

도수분포표

계급 상대도수

43.5 이상 54.5 미만 

54.5 이상 65.5 미만 



65.6 이상 76.5 미만 

76.5 이상 87.5 미만 

87.5 이상 98.5 미만 



합계 1

상대도수분포표

(2) 교재참조.

(11)

4.1.3 자료의 요약

정의 3

조사한 자료들이 어떤 값을 중심으로 집중되어 있는지를 파악하는 측도를

중심위치의 측도

라고 한다. 또는 자료를 가장 대표하는 값이므로

대푯값이라고 한다.

참고.

중심위치의 측도로는 평균, 중앙값, 최빈값 등이 있다. 평균은 확률에서의 기댓값과 같은 의미한 다. 그러나 조사한 값 중에서 특별히 크거나 특별히 작은

이상점

이 포함되어 있는 경우에는 중심위치의 측도로서 부적합하다. 이때에는 이상점을 제외한 자료의 평균이 중심위치의 측도로서 더 정확하다.

(12)

정리 4

조사한 자료값이 , , ⋯, 일 때,

  

   ⋯  

 

  

모평균이라 하고, 조사한 자료값이 

, , ⋯, 일 때,

 

   ⋯  

 

  

표본평균이라고 한다.

(13)

예제 3.

어떤 백화점 문화센터에서는 회원 중 10명의 하루 독서시간을 조사하였다. 평균을 구하시오.

회원 1 2 3 4 5 6 7 8 9 10

독서시간(분) 45 70 25 45 30 40 35 50 60 225

풀이.

문화센터 회원 중 10명을 추출한 표본의 평균이므로

 

  (분)

이다. 그러나, 10번 회원의 독서시간의 값이 유난히 크기 때문에 즉, 225는 이상점이므로 225를 제외한 평균을 사용한다. 따라서 평균은

 

 ≒ (분) 이다.

(14)

정의 5

조사한 자료의 개수 이 홀수일 때,

 

  

번째의 자료값 을

중앙값이라 하고, 조사한 자료의 개수 이 짝수일 때,

 



번째의 자료값 

  

번째의 자료값

중앙값이라고 한다.

기호 : 중앙값 = 

(15)

예제 4.

예제3의 중앙값을 구하시오.

풀이.

독서시간을 크기 순서대로 나열하면

독서시간 25 30 35 40 45 45 50 60 70 225

이다. 자료의 개수가 10인 짝수이므로 중앙값은

 

  

 (분) 이다.

(16)

참고.

위의 예제에서 중앙값은 이상점에 영향을 받지 않는다. 그래서 이상점이 존재하는 자료 에 대해서는 평균보다 더 중심위치의 측도로서 의미를 갖는다. 그러나 자료의 개수가 많은 경우에는 측정의 어려움이 있으므로 이상점이 존재하는 경우를 제외하고는 일반적으로 평균 을 사용한다.

평균과 중앙값은 양적자료에서만 사용할 수 있는 중심위치의 측도이다. 질적자료에서는 같 은 특성을 갖는 집단을 편의상 숫자로 표현한 것이므로 그 숫자들의 평균이나 중앙값은 의미 가 없다.

질적자료에서는 다음 최빈값이 중심위치의 측도로 적합하다.

(17)

정의 6

조사한 자료의 항목이나 값 중에서 도수가 가장 큰 자료를

최빈값

이라고 한다.

기호 : 최빈값 = 

예제 5.

예제 1과 예제 2의 최빈값을 구하시오.

풀이.

예제 1은 질적자료로 O형의 도수가 가장 크므로 최빈값은

O(형)

이고, 예제 2는 양적자료로 계급 87.5 이상 98.5 미만의 도수가 가장 크므로 이 계급의 계 급값이 최빈값이다. 따라서

 

  

 (점) 이다.

(18)

정의 7

조사한 자료들이 중심으로부터 얼마나 벗어나있는지를 파악하는 측도를

산포도의 측도라

고 한다.

참고.

산포도의 측도로는 범위, 사분위수 범위, 분산, 표준편차, 변동계수 등이 있다.

정의 8

자료의 최댓값과 최솟값의 차이, 즉

자료의 최댓값  자료의 최솟값 을

범위라고 한다.

(19)

예제 6.

어떤 인터넷 동호회에서 회원 중 10명에 대하여 타 동호회 가입개수를 조사하였다. 범위를 구 하시오.

회원 1 2 3 4 5 6 7 8 9 10

가입개수(개) 8 2 6 7 5 8 2 7 8 7

풀이.

가입개수의 최댓값이 8이고 최솟값이 2이므로

범위     (개)

(20)

정의 9

자료를 크기 순서에 따라 늘어놓았을 때, 사등분한 위치의 수를

사분위수

라 하고, 그 중 세 번째에 위치한 사분위수와 첫 번째에 위치한 사분위수의 차이, 즉

제3사분위수제1사분위수 를

사분위수 범위라고 한다.

참고.

각 사분위수를 찾기 위해서는 먼저 중앙값을 찾고

자료의 개수가 짝수일 때에는 중앙값을 기준으로 앞, 뒤 구간의 중앙값을 찾는다.

자료의 개수가 홀수일 때에는 중앙값을 하나 추가하여 앞, 뒤 구간의 중앙값을 찾는다.

(21)

예제 7.

예제 6의 사분위수 범위를 구하시오.

풀이.

가입개수를 크기 순서대로 나열하면

가입개수(개) 2 2 5 6 7 7 7 8 8 8

자료의 개수가 10이므로 중앙값은 5번째와 6번째 자료값의 평균 즉, 7이다.

제1사분위수 = 1번째와 5번째 자료값의 중앙값 = 3번째 자료값 = 5 제3사분위수 = 6번째와 10번째 자료값의 중앙값 = 8번째 자료값 = 8 따라서

사분위수 범위      이다.

(22)

예제 8.

예제 6에서 10번째 회원을 제외한 경우의 사분위수 범위를 구하시오.

풀이.

가입개수를 크기 순서대로 나열하면

가입개수(개) 2 2 5 6 7 7 8 8 8

전체 자료의 개수가 9이므로 중앙값은 5번째 자료값이고 중앙값을 하나 추가하면

가입개수(개) 2 2 5 6 7 7 7 8 8 8

이다. 따라서 예제 7과 마찬가지 방법에 의하여 사분위수 범위는 사분위수 범위     

이다.

(23)

정의 10

조사한 자료값이 , , ⋯, 이고 모평균이 일 때,

 

  

  

모분산이라 하고, 조사한 자료값이 

, , ⋯, 이고 표본평균이 일 때,

   

  

  

표본분산이라고 한다.

(24)

참고.

어떤 경우이든지 편차의 합은 항상 0이므로

평균과의 거리

를 편차의 제곱으로 정의하고

표본분산에서는 편차의 제곱의 합을 자유도

  

로 나누어 정의한다. 이것은 표본에서 평균을 알 때,

  

개의 편차를 알면 나머지 한 개의 편차는 쉽게 찾아지므로, 즉 개의 자료 중에서 독립인 자료의 개수를 의미한다.

모분산 :   

  

    

  



표본분산 :     

  

      

  

 

(25)

정의 11

모분산이   

  

 일 때,

 

  

  

모표준편차라 하고, 표본분산이 

   

  

 

일 때,

 

     

 

표본분산이라고 한다.

참고.

분산과 표준편차는 편차의 제곱으로 정의되기 때문에 평균과 마찬가지로 이상점이 포함된 자료에 대해서는 적합하지 않다.

(26)

예제 9.

예제 6의 분산과 표준편차를 구하시오.

풀이.

동호회 회원 중 10명을추출한 표본의 표본평균은

 

  (개) 이다.

가입개수(개) 8 2 6 7 5 8 2 7 8 7

편차 2 -4 0 1 -1 2 -4 1 2 1

편차 4 16 0 1 1 4 16 1 4 1

따라서 표본분산은

   

  



   

 ≒ (개) 이고, 표본표준편차는

 

 ≒ (개)

(27)

정의 12

모평균이 이고 모표준편차가 일 때,

  

모변동계수라 하고, 표본평균이 이고 표본표준편차가 일 때,

  

 를

표본변동계수라고 한다.

기호 : 변동계수 = 

참고.

분산과 표준편차는 대표적인 산포도의 측도이지만, 두 가지 이상의 집단에 대한 산포도 를 비교할 때에는 측정단위가 같지 않으면 정확한 비교가 어려워진다. 이 점을 보완하여 만 든 산포도가 변동계수이며,

측정단위가 다른 집단을 비교할 때 사용한다.

(28)

예제 10.

어떤 산부인과에서는 특정 한 달 동안 출생한 신생아 중 5명의 신생아를 선발하여 신생아의 키와 그 엄마의 키를 조사하였다. 변동계수를 구하시오.

신생아 1 2 3 4 5

키(cm) 40 50 46 54 45

엄마 1 2 3 4 5

키(cm) 171 164 159 166 160

풀이.

신생아 중 5명을 추출한 표본의 표본평균은

 

 (cm)

이므로 표본분산은

   

  

   

  (cm)

따라서 표본변동계수는

  

  

≒ 

엄마 5명의 표본평균은

 

  (cm)

이므로 표본분산은

   

  

   

  (cm)

따라서 표본변동계수는

  

  



≒ 

(29)

참고.

(1) 산포도의 측도를 분산으로 할 때,

신생아 집단의 분산은 28, 엄마 집단의 분산은 28.5 이므로 엄마 집단의 흩어짐이 더 심한 것으로 예상된다.

(2) 그러나 산포도의 측도를 변동계수로 할 때,

신생아 집단의 변동계수는 0.113, 엄마 집단의 변동계수는 0.033 이므로 신생아 집단의 흩어짐이 더 심한 것을 알 수 있다.

(30)

정의 13

전체 자료에 대한 특정한 자료의 위치를 파악하는 측도를

상대적 위치의 측도라고 한다.

참고.

상대적 위치의 측도에는 사분위수, 백분위수, -점수 등이 있다.

(1) 사분위수는 산포도의 측도 중 사분위수 범위에서 정의하였다.

(제1사분위수, 제3사분위수)

(2) 제2사분위수는 중심위치의 측도 중 중앙값과 동일하므로 상대적 위치의 측도보다 주로 중심위치의 측도로 사용한다.

(31)

정의 14

자료를 크기 순서로 나열할 때, 사등분한 위치의 수를 사분위수라 하고 그중 첫 번째 사 등분한 위치의 수를

제1사분위수, 세 번째 사등분한 위치의 수를 제3사분위수라고 한다.

기호 : 제1사분위수 =  제3사분위수 =

(32)

정의 15

자료를 크기 순서로 나열할 때, 100등분한 위치의 수를

백분위수라고 한다. 즉

제백분위수는 자료 중 %가 그 값보다 작거나 같고,

  %가 그 값보다 크거나 같게 하는 위치의 값이다.

(33)

예제 11.

예제 2에서 제80백분위수를 구하시오.

풀이.

학생들의 시험점수를 크기 순서로 나열한 결과는

시험점수 순서

44 45 46 47 48 50 57 58 61 61

62 63 65 65 65 65 74 75 75 78

78 84 84 85 85 86 88 88 88 88

90 90 90 94 94 95 95 95 96 98

이다.

전체 40개의 자료 중에서 80%, 즉  × 

  (개)는 제80백분위수보다 작거나 같고

20%, 즉,  × 

  (개)는 제80백분위수보다 크거나 같다.

따라서 제80백분위수는 32번째와 33번째 수의 평균이므로 90점이다.

(34)

정의 16

모평균이 이고 모표준편차가 일 때,

  

  

를 모집단의

 -점수라 하고, 표본평균이 이고 표본표준편차가 일 때,

  

   를 표본집단의

 -점수라 한다.

기호 : -점수 = 

(35)

예제 12.

다음은 철수의 기말시험 중 주요 세 과목의 점수를 정리한 표이다. 반 성적과 비교 할 때, 좋은 성적을 받은 과목의 순서를 구하시오.

과목 수학 영어 국어

철수의 점수 70 80 77

반 평균 51 63 65

반 표준편차 17 15 13

풀이.

-점수를 구하면

수학  

  

≒ , 영어  

  

≒ , 국어  

  

≒ 

이다. 따라서 반 성적과 비교하여 철수는

영어  수학  국어 순서로 좋은 성적을 받았다.

(36)

정리 1 체비셰프의 법칙

특정한 자료의 -점수를 라 할 때, 주어진 자료 중 적어도

  

× %의 자료가

    에 위치한다.

참고. 표준정규분포에서 곡선 아래의 넓이는 1이므로

     ≒   

    ≒ 

    ≒ 

을 의미한다.

(37)

예제 13.

어떤 회사에서 신입사원을 선발하는데 입사 시험에 300명이 응시하였고 이들의 시 험성적의 평균은 60점, 표준편차는 8점이었다고 한다. 80점을 넘으면 합격이라고 할 때, 합 격 가능한 최대 인원수를 구하시오.

풀이.       

  

    

   

⋅

  

  

따라서 합격 가능한 최대 인원수는

 ×   (명)

참조

관련 문서

지원당시 부 또는 모가 장기복무부사관(준사관 포함)으로 근무하고 있는 자의 자녀.. 다문화가족지원법 제2조에

 분열능력이 있는 기저 부위 세포 : 증식층(proliferative layer) 또는 육아층 (germinative layer, stratum germinativum)

⑴ 즉시 또는 단기갂 내에 매각핛 의도가 있는 금융자산(이 경우 단기매매항목으로 분류핚다)과 최초읶식시점에 당기손익읶식항목으로 지정핚 금융자

 오로지 조직을 생산과 효율성의 도구로만 인식 (Organization as Machine)..  One Best Way in

• 추측통계학 : 추출된 표본의 조사를 통하여 모집단의 특성을 추정하거나 계획 또는 설계에 의한 자료의 수집, 즉 실험을 통하여 수립된 가정을 검정하는

• 국토교통부장관·해양수산부장관 또는 시·도지사는 필요한 경우 국토교통부령 또는 해양수산부령 으로 정하는 바에 따라 제1항제1호 및 제4호의 사업을 전문교육기관에

축합 고분자 (condensation polymer) : 물과 같은 작은 분자들이 분리되면서 단량체 단위들이 결합. 단량체 (monomer) : 고분자를 합성하기

x를 먼저 간단히 한다..