제 1장

(1)

고려대학교 경영대학 박 광태

통계학의 기초

(2)

2 통계학

통계학의 중요성

 불확실성하의 의사결정문제와 직접 연관된 학문

통계학의 정의

 기술통계학

 분석의 대상이 되는 집단으로부터 자료를 수집하 고 요약하고 정리하는데 필요한 방법론

 추측통계학

 표본을 추출하고 표본정보를 통하여 그 표본이 추

출된 모집단의 특성을 추론하며 그 추론을 토대로

의사결정대안을 제시하는데 필요한 이론적 체계

(3)

3 모집단과 표본

모집단

 모집단이란 통계분석의 대상이 되는 모든 개체 들의 집합

표본

 표본이란 모집단으로부터 임의로 추출된 모집

단의 부분집합

(4)

4 모수와 표본통계량

모수

 모집단의 특성을 나타내 주는 수치로 모평균, 모분산, 모비율이 쓰임

표본통계량

 표본의 특성을 나타내는 척도로 표본평균, 표본

분산, 표본비율이 쓰임

(5)

5 모수와 표본통계량

그림 1-1(p.8)

모집단 표본

(6)

6

표본추출법

무작위추출

 모집단을 구성하는 개체들이 선택될 확률이 동일하도록 추출

 어떤 한 개체의 선택이 다른 개체의 선택에 영향을 미치지 않도록 추출

계통추출

 각 개체에 1에서 N까지의 일련번호를 부여한 후 k=[N/n]의 비율을 구함. 일련번호에 따라 처음 k개의 개체 중에서 하나를 임의로 추출.

그리고 나서 매 k번째 자료를 표본의 크기가 n이 될 때까지 추출.

층화추출

 모집단을 두 개 이상의 동질적인 소집단 또는 층으로 분류한 후 각 층으로부터 무작위 추출

집락추출

 모집단을 일정한 기준에 따라 여러 개의 집락으로 구분한 후 무작위 추출로 일부 집락을 추출. 추출된 집락에 대해 일부 또는 전수조사 를 함.

(7)

7

표본추출법

예제 1-1(p.10)

(8)

8

표본추출법

층화추출

 대선후보에 대한 선호도를 조사하기 위해 400명을 층화추출. 유권 자를 도별로 나누어 8개의 층을 구성하고 각 도에서 50명의 유권자 를 무작위로 추출

 만일 각 도에서 추출되는 표본의 수를 도별 유권자 인구에 따라 비 례적으로 결정하면 비례적 층화추출이 됨

집락추출

 서울시의 소득을 집락추출에 의해 조사. 서울시를 먼저 동단위로 구 분하여 집락을 구성하고 구성된 전체 동 중에서 몇 개의 동을 무작 위로 추출. 마지막으로 추출된 동에 대해 전체 동주민의 소득을 조 사하든지 또는 무작위 추출로 일부 동주민의 소득을 조사

 다른 표본추출법에 비해 경비가 싸고 빠른 장점이 있지만 대표성 있 는 표본의 추출에는 문제가 있음

(9)

9 표본오차와 비표본오차

표본오차

 모집단의 일부분인 표본에 의해서 전체의 특성을 파악하려는 데서 오는 오차

비표본오차

 표본추출과정에서의 오류로 인하여 발생하는 오차

(10)

고려대학교 경영대학 박 광태

기술통계 1: 표와 그래프

(11)

11 자료의 형태

자료의 형태

 질적자료 : 명목자료, 서열자료 → 이산형자료

 수치자료 : 구간자료, 비율자료 → 이산형자료, 연속형자료

명목척도(nominal scale)

 측정대상이 그들이 속한 범주나 종류에 따라 분류될 수 있 도록 측정대상에 수치나 부호를 부여하는 방법

(학년, 주민등록번호, 운동선수의 등번호 등)

 =, ≠ 이 가능

(12)

12 자료의 형태

서열척도(ordinal scale)

 개체간의 서열관계를 나타내어 주는 척도(제품선호도, 국 가간의 GNP순위, 올림픽 금메달 순위 등)

구간척도(interval scale)

 명목척도와 서열척도의 의미를 포함하며 숫자간의 간격이 산술적 의미를 가짐(온도, 지수 등)

비율척도(ratio scale)

 명목척도, 서열척도, 구간척도의 특성을 모두 포괄하며 숫 자간의 비율이 산술적 의미를 가짐(키, 무게, 압력 등)

 =, ≠, ≤, ≥, +, −,×,÷ 이 가능

 =, ≠, ≤, ≥ 이 가능

(13)

13 표본추출법

표본추출법

 전수조사(census) : 대상모집단의 모든 구성원소 를 전부 조사 → 예) 인구센서스

 표본조사 : 모집단으로부터 추출된 일부만을 조사

→ 예) 여론조사

(14)

14 도수분포표

도수분포표

 수집된 자료를 제한된 수의 구간으로 나누고 각 구간에 속한 자료의 빈도를 헤아려 기록한 표

 상대도수 : 각 계급의 도수와 총도수와의 비율

 누적도수 : 도수의 누적적 합계

 누적상대도수 : 누적도수와 총도수와의 비율

(15)

15 도수분포표

도수분포표 작성

 단계 1 : 범위 ( 𝒙

_𝒎𝒂𝒙

− 𝒙

_𝒎𝒊𝒏

^{)를 구함}

 단계 2 : 계급의 수를 결정

 단계 3 : 계급의 폭을 결정 (범위/계급의 수)

 단계 4 : 계급의 경계값을 결정

 단계 5 : 각 계급의 도수를 구함

(16)

16 도수분포표

도수분포표 작성(p.32의 예제2-1)

(17)

17 도수분포표

(18)

18 그래프

막대그림표 (p. 34의 그림 2-5)

(19)

19 그래프

도수다각형 (p. 40의 그림 2-14)

(20)

20 그래프

3차원 파이차트(pp.43-44)

(21)

21 그래프

3차원 파이차트(계속)

(22)

22 그래프

줄기-잎 그림 (p. 45의 그림 2-21)

(23)

23 줄기-잎 그림

줄기-잎 그림

 도수분포표와 막대그림표는 자료의 전체적 분 포를 일목요연하게 보여주나, 원래의 자료가 나 타나지 않기 때문에 정보의 손실이 발생하게 됨.

 줄기-잎 그림은 원자료는 물론 도수분포표와

막대그림표의 장점을 하나의 도표에 담을 수 있

는 방법임.

(24)

24 줄기-잎 그림

줄기-잎 그림 작성방법

 단계 1 : 원자료를 크기 순으로 나열한다.

 단계 2 : 원자료의 숫자를 두 부분으로 나누어 앞부분은 줄기, 뒷부분은 잎으로 한다.

 단계 3 : 줄기에 해당하는 숫자를 크기 순으로 위에서 아래로 수직으로 배열

 단계 4 : 원자료의 수치를 해당 줄기의 우측 옆에 앞부분만 기록한다.

 단계 5 : 한 줄기에 기록된 잎의 수가 너무 많은

경우에는 두 줄로 나누어 잎을 기록한다.

(25)

고려대학교 경영대학 박 광태

기술통계 2: 요약특성치

(26)

26 중심경향도 (1)

(산술)평균(mean)



모평균



표본평균

n n

x x

x

n

i i

n

x x





 







¹



² ¹

1 2 1

N N i i

x x x

N N

 

^

^{}  ^

^

x

(27)

27 중심경향도 (2)

중앙치(median) :



자료를 크기 순으로 배열했을 때 중앙에 있는 값

최빈치(mode) :



가장 빈도가 높은 자료

1사분위수와 3사분위수의 위치

Q1  ^[ 의 위치 2 ] ^ ¹ 위치

의 ^Me

[ 2

Q3 의 위치  Me 의 위치 ]  ^[ ^Me ^의 ^위치 ^] ^ ¹

(28)

28 중심경향도 (2)

예제 3-3(p.54)

(29)

29 중심경향도 (2)

예제 3-3(계속)

(30)

30 중심경향도 (2)

예제 3-4(p.55)

예제 3-4) 다음의 자료의 최빈치를 구하시오.

(a) 5,4,1,0,0,5,5 (b) 0,0,4,2,5,2

풀이

자료 (a)의 최빈치는 5이며, 자료 (b)의 최빈치는 0과 2이

다.

(31)

31 산포도

그림 3-4(p.59)

(32)

32 산포도 (1)

분산(variance)



모분산



표본분산

N

x

i



^



²

2

(  )



1 )

²

2

(





^

 n

i

X

S x

(33)

33 산포도 (1-1)

예제 3-6(pp.60-61)

(34)

34 산포도 (1-1)

예제 3-6(pp.60-61)

(35)

35 산포도 (2)

N

x

i

MAD 

^

 

 100

 평균

CV

표준편차

(36)

고려대학교 경영대학 박 광태

확률이론

(37)

37 확률실험과 표본공간

확률실험과 표본공간



확률실험 : 사전에 실험(유사한 조건하에서 반복적으로 자료를 수집하는 과정)의 결과를 확실하게 예측하지 못하는 실험



표본공간 : 확률실험의 결과로 얻을 수 있는 모든 가능한 결과 치의 집합

(38)

38 확률실험과 표본공간

예제 4-1(p.74)

(39)

39 확률의 정의 (Probability)

확률의 정의 (Probability)

 사상이 발생할 가능성을 나타내는 0과 1사이 의 수

객관적 확률개념



고전적 확률개념



N개의 상호배타적인(mutually exclusive) 원소로 구성된 표

본공간 이 있을 때



그리고 각각의 원소가 발생할 가능성이 모두 같을 때(equally

likely),

 m개의 원소로 구성된 임의의 사상 A의 확률은

] ,

, ,

[ O

₁

O

₂

O

_N

S    

개수

원소의

표본공간의

개수

원소의

A의

 사상

 N A m

P ( )

(40)

40 확률의 정의 (Probability)

예제 4-5(p.78)

시티콤 기획㈜은 송부된 우편엽서를 기재하여 회신한 사람 중 50명을 무작위로 추첨하여 상품을 증정한다고 한다. 마감일까지 회신된 엽서가 10,000장일 때, 엽서를 보낸 사람이 상품을 받을 확률은 얼마인가? 고 전적 확률개념에 의하여 구하시오.

풀이 P(상품을 받음) = 50/10,000

(41)

41 확률의 정의 (Probability)



상대도수적 확률개념



실험을 n회 장기적으로 반복 시행할 때 특정 사상 A가 m회 발 생하였다면,



사상 A의 확률은 상대도수의 극한치인

주관적 확률개념



확률을 개인의 지식, 정보, 경험 등의 주관적 요소에 의하여 측 정하는 방법

N A m

P

lim

n

) (







^{로 정의됨}

(42)

42 확률의 정의 (Probability)

그림 4-2(p.79)

한 음료수 제조업체는 특정 슈퍼마켓에서 손님이 그 회사제품 중의 하나 를 구입(사상 A)할 확률을 측정하려고 한다. 일정기간 동안 1,500명의 손 님을 관찰한 결과가 그 중 500명이 그 회사제품을 하나 또는 그 이상 구입 하였다. 이러한 정보를 기초로 할 때, 사상 A가 발생할 확률의 가장 적절한 수치는 무엇인가?

풀이 P(A) = 500/1,500

(43)

43 확률의 정의 (Probability)

예제 4-6(p.79)

한 음료수 제조업체는 특정 슈퍼마켓에서 손님이 그 회사제품 중의 하나 를 구입(사상 A)할 확률을 측정하려고 한다. 일정기간 동안 1,500명의 손 님을 관찰한 결과가 그 중 500명이 그 회사제품을 하나 또는 그 이상 구입 하였다. 이러한 정보를 기초로 할 때, 사상 A가 발생할 확률의 가장 적절한 수치는 무엇인가?

풀이 P(A) = 500/1,500

(44)

44 확률의 정의 (Probability)

고전적 확률개념

상대도수적 확률개념

객관적 확률개념

주관적 확률개념



사상이 발생할 가능성 을 나타내는 0과 1사이의 수

확률

(Probability)

(45)

45

상호배타적인 K개의 사상 가 있을 때 이들 중 어느 하나의 사상이 발생할 확률은 각 사상이 발생할 확률의 합 과 같다

확률의 기본법칙

확률의 기본법칙 1 0  P(A) 

0 1  

 ,P( ) P(S)

E

k

E

₁

,

₂

,    ,

,E

k

, ,E

P(E

₁ ₂

  

중의 하나가 발생)=

) P(E )

P(E )

P(E

₁



₂

    

_k

(46)

46 확률의 기본법칙

예제 4-7(pp.81-82)

(47)

47 확률의 기본법칙

예제 4-7(계속)

(48)

48 확률법칙

확률법칙

조건부 확률

P(A) )

P(A

^C

 1 

P(B) P(A)

B

A  이면 

B) P(A

P(B) P(A)

B)

P(A     

/ , 0

P( A B)  P(A B) P(B) 단 P(B) 

/ , 0

P( B A)  P(A B) P(A) 단 P(A) 

(49)

49 확률법칙

곱셈의 일반법칙

) ( ) (

) P(B) P B A P A B

P(A B)

P(A   

독립성

) ( )

( ,

) P(A) P B A P B

B

P(A  

(50)

50 확률법칙

곱셈의 일반법칙

 표본공간 S가 상호 배타적인 사상 𝑨_𝟏, 𝑨_𝟐, ⋯ , 𝑨_𝒌에 의하여 분할되어 있을 때, 임의의 사상B의 확률 P(B)는





^k

i

P A

A B P P(B)

1

) (

)

(

(51)

51 베이스 정리 (Bayes Theorem)

베이스 정리(Bayes Theorem)

 표본공간 S가 상호배타적인 사상에 의하여 분할되 어 있을 때,





_k

i

i i

j j

j

A P A B P

A P A B B) P

A P(

1

) ( ) (

) (

)

(

(52)

52 베이스 정리 (Bayes Theorem)

예제 4-10(p.90)



아래 예제 9에서 베아링 재고품 중에 불량품이 하나

예제 9) 성창기업은 장난감을 제조하는 중소업체이다. 이 기업은 세 개의 다른 공급업체 갑, 을, 병 으로부터 볼 베아링을 조달하여 장난감의 부속품으로 사용하고 있다. 구입하는 볼 베아링 중 50%

는 갑으로부터, 30%는 을로부터 , 그리고 나머지 20%는 병으로부터 온다. 과거의 경험으로 볼 때, 이 세 공급자의 품질관리 상태는 약간씩 차이가 있는데, 갑, 을, 병 세 공급업체가 생산하는 볼 베 아링의 불량률은 각각 2%, 3%, 4%로 알려져 있다.

(53)

53 베이스 정리 (Bayes Theorem)

예제 4-11(pp.90-91)

(54)

54 베이스 정리 (Bayes Theorem)

예제 4-11(계속)

(55)

55 순열과 조합

순열



순열이란 n개의 대상물 중에서 x개를 임의로 선출해서 순서대 로 나열하는 방법의 가지 수를 말함

) 1 (

) 2 )(

1 (

)!

(

!













 

x n

n n

n

x n

P

_x

n

조합



조합이란 n개의 대상물에서 x개를 취 하는 가지수를 말함

! 1

! )!

(

!

P x x

x n

C

_x

n

_n _x

n



 

(56)

56 순열과 조합

예제 4-14(pp.94-95)

(57)

57 순열과 조합

예제 4-15(p.95)

(58)

58 순열과 조합

예제 4-17(p.96)

(59)

고려대학교 경영대학 박 광태

확률변수와 확률함수

(60)

60 확률변수와 확률함수

확률변수

 변수 X가 갖는 값을 확실히 예측할 수 없을 때 그 변수를 확률변수라 함.

 실험의 결과치를 실수에 대응시키는 함수

확률함수

 확률변수 X가 어떤 특정 실수 x를 취할 확률을 함수로 나타낸 것.

 확률변수에 대하여 정의된 실수를 0과 1사이의 수치 또는 확률에 대응 시키는 함수

이산확률변수와 연속확률변수

 이산확률변수 : 변수가 취할 수 있는 값을 헤아려 열거할 수 있을때

 연속확률변수 : 주어진 실수구간 내에 속하는 어떠한 실수도 취할 수 있을 때

※ p.106의 이산확률변수와 연속확률변수의 예 참조

(61)

61 확률변수와 확률함수

P.106의 이산확률변수와 연속확률변수의 예

(62)

62 확률변수와 확률함수

예제 5-1(p. 104)

(63)

63 확률변수와 확률함수

그림 5-3(p. 106)

(64)

64 확률밀도함수

확률밀도함수



확률밀도함수는 연속확률변수 X가 취할 수 있는 실수구간에 대하여 확률을 대응시키는 방법 또는 규칙을 말한다.

확률밀도함수의 조건



모든 X에 대하여,



모든 X에 대한 확률의 합은 1이다.

즉,

0 ) ( x  f

1 )

( 



^

f x dx

(65)

65 확률밀도함수

예제 5-5

(p.111)

(66)

66 기대값 (1)

기대값의 정의



기대값은 자료의 중심적 경향을 나타내 주는 수치적 척도로써, 확률변수가 취할 수 있는 모든 값의 평균을 의미한다.



X가 연속변수인 경우:

E X ^ 

x

xf x dx

모든

( )

]

[

(67)

67 기대값 (2)

기대값의 특성 (a와 b는 상수, X와 Y는 확률변수)

Y)

=aE(X)+bE(

. E(aX+bY)

(X)+E(Y) . E(X+Y)=E

a+bE(X) . E(a+bX)=

(X) . E(bX)=bE

. E(a)=a

5

4

3

2

1

(68)

68 기대값 (2)

예제 5-15(p.124)

(69)

69 기대값 (2)

예제 5-16(p.124)

(70)

70 기대값 (2)

예제 5-17(pp.124-125)

(71)

71 기대값 (2)

예제 5-17(계속)

(72)

72 분산

분산

분산의 성질

 a와 b가 상수일 때,

 변수 X와 Y가 독립일 때,

Var(X)

=a Var(aX+b)

²

Y) Var

Var(X)

Var(X+Y)=  (

2

2 2

( ) [ ( )] ( )

( ) 2 ( ) ( ) [ ( )] ( )

( ) ( )

Var X x E X f x dx

x f x dx E X xf x dx E X f x dx

E X E X

 

  

 



  

(73)

73 분산

예제 5-20(p.128)

(74)

74 공분산

공분산

상관계수

Y X

= Cov

_XY

Y X

XY

( , ) ; 1 1



 



 

) ( ) ( )

(

))]

( ))(

( [(

) , (

Y E X E XY

E

Y E Y

X E X

E Y

X Cov









(75)

75 공분산

그림 5-6(p.130)

(76)

고려대학교 경영대학 박 광태

확률분포

(77)

77 이산확률분포

이항분포

 매 시행마다 성공의 확률(p)이 일정한 베르누이 시행을 n번 독립적으 로 시행하여 얻은 분포

 베르누이 시행이란 단 한번 시행되어 두 가지 가능한 결과, 즉 성공과 실패중의 하나만을 제공하는 실험

 X를 n번 시행 중에 얻은 성공회수라 할 때

여기서

n x

q p C x

X

p (  ) 

ⁿ ^x ^x ⁿ^^x

,  0 , 1 ,    ,

! )!

(

! x x n

C

^x

n

 

npq

npq X

Var

np X

E







) (

2

(78)

78 이산확률분포

예제 6-4(p.145)

과거의 자료에 따르면 어떤 특정한 지질구조를 갖는 지역을 개발하 면 온천수가 발견될 확률이 대략 30%로 알려져 있다. 조양회사는 온 천개발을 위해 이러한 지질구조를 갖는 5개 지역을 선정하였다. 이 지역들은 서로 멀리 떨어져 있기 때문에 온천이 나올 가능성에 관해 서는 상호독립이라고 할 수 있다. 선정된 지역을 개발했을 때 실제로 온천이 나오는 지역의 수를 X라고 할 때, 변수 X의 확률분포를 구하 고 기대값과 분산을 계산하시오.

(79)

79 이산확률분포

예제 6-4(p.145)

(80)

80 이산확률분포

초기하분포



항목크기가 N인 유한모집단으로부터 비복원으로 표본크기 n 의 표본을 추출할 때 얻는 분포



X 를 표본에서의 성공회수라 할 때

1 2

( )

^N ^x ^N ^x

, 0,1, , min( ,

1

)

N n

C Cn

p X x x n N

C

 

   

여기서

n

N N

N N N

1 2

1





:모집단의 크기

:모집단에서 성공의 수 :모집단에서 실패의 수

: (복원없이 선택된) 표본의 크기

(81)

81 이산확률분포

) (

)

(

¹

N n N X

E 

1 1

( ) ( ) ( )(1 ) 1

N n

Var X n

N N N

  





수정계수 = ^𝑵−𝒏

𝑵−𝟏 , N이 n에 비하여 상당히 큰 경우에는 (보통 ^𝒏

𝑵 ≤ 𝟎. 𝟎𝟓인 경우)

수정계수의 값이 1에 가까우므로 초기하분포는 이항분포에 의해 근사된다.

(82)

82 이산확률분포

포아송분포

 특정한 시간이나 공간에서의 사건 발생 수와 관련

 예)주어진 시간동안 교환대에 걸려오는 전화의 수, 한 시간 동안 공항에 도착하는 비행기의 수, 신문 한 페 이지당 오자의 수, 천 한필당 흠의 수

 X를 단위시간당 사건발생 수라 할 때







^

, 0 , 1 , ) !

( x

x x e

X p

x 





 ) (

) (

x Var

x

E

(83)

83 연속확률분포

균등분포

2

( ) 1

( )

2 ( )

( )

12 f

x

b a a b E X

b a Var X

 

 

 

(84)

84 연속확률분포

정규분포

 정규분포의 모양과 위치는 𝝁와 𝝈에 따라 달라짐

 𝝁 = 𝟎이고 𝝈^𝟐 = 𝟏 인 정규분포를 표준정규분포라 함

평균이 𝝁 이고, 분산이 𝝈^𝟐인 일반적인 정규분포는

) ,

(

~ N  

²

X

^{로 표시}









 

x e

x f

x

2 , ) 1

(

)2

2( 1







(85)

85 연속확률분포

표준화 변환

2

2 ~ (0,1) ( ) 1

2 Z

Z X

Z N

g Z e









 



(86)

86 연속확률분포

표준정규분포표 보는 방법

(87)

87 연속확률분포

예제 6-15(pp.166-167)

(88)

88 연속확률분포

예제 6-15(계속)

(89)

89 연속확률분포

예제 6-15(계속)

(90)

90 연속확률분포

예제 6-15(계속)

(91)

91 

𝒏𝒑 ≥ 𝟓 이고, 𝒏𝒒 ≥ 𝟓 (𝒒 = 𝟏 − 𝒑) 일 때

이항분포는 평균 𝝁 = 𝒏𝒑 이고, 𝝈^𝟐 = 𝒏𝒑𝒒 인 정규분포에 근사한다.

연속확률분포

이항분포에 대한 정규근사

) npq ,

np ( N )

p , n (

B 

(92)

92 연속확률분포

예제 6-17(pp.169-170)

(93)

93 연속확률분포

예제 6-17(계속)

(94)

94 연속확률분포

예제 6-17(계속)

(95)

고려대학교 경영대학 박 광태

표본분포

(96)

96 단순확률표본

단순확률표본



단순확률표본이란 매번 표본관찰치를 추출할 때마다 모집단의 각 원소들이 선택될 확률이 동일하도록 하여 얻어진 표본을 말 한다.



즉 난수표를 이용하여 표본을 무작위로 추출

(97)

97 표본평균의 분포



모집단의 분포가 정규분포

X ~ N (  , 

²

)

일 때



표본평균의 분포는 임

) ,

(

~

2

N n

X  



 



  

n n

X n E

n E X

X

E

ⁱ _i

1 ) 1 (

) (

n n n

X n Var

n Var X

X

Var

ⁱ _i

2 2

2

1 ) 1 (

) (

  



  



참고

(98)

98

평균이 𝝁 이고, 분산이 ^𝝈^𝟐

𝒏인 정규분포를 따른다.

중심극한정리 (central limit theorem)

 평균이 𝝁 이고, 분산이 𝝈^𝟐 인 어떤 모집단으로부터 n개의 표본을 선택했을 때 표본평균 𝑿는 모집단의 분포에 상관없이 n이 충분히 클 때

 즉, 모집단의 분포가 정규분포 𝑵(𝝁 , 𝝈^𝟐) 일 때 표본평균의 분포는

~ ( ,

임

)

2

N n

X

ⁿ

 

 정규분포를 따른다면 표준화변환을 통해 표준정규분포표 이용이 가능함.

즉,

) 1 , 0 (

/ ~ N

n Z X





 

(99)

99 중심극한정리 (central limit theorem)

그림 7-2(p.189)

(100)

100 중심극한정리 (central limit theorem)

그림 7-2(계속)

(101)

101

표본비율 𝑷 는 근사적으로 을 따름.

표본비율의 분포

모비율이 𝒑 이고, 표본의 크기 n이 클 때

여기서 임

𝒏𝒑 ≥ 𝟓 이고, 𝒏𝒒 ≥ 𝟓 (𝒒 = 𝟏 − 𝒑) 일 때

n X p

n

i



i



¹



) 1 , 0 ( / ~

) 1

( N

n p

p

p Z p



  

) ) 1

, (

( n

p p p

N 

이 경우

(102)

102 분포

 𝝌

^𝟐

변수의 정의: K개의 상호독립하는 정규변수



k , , 3 , 2 , 1 i

), ,

( N

~

x

_i



_i



_i²

    가 있을때

2 2

2 1 1 2 2

1 1 2

2 2

3 3

1 k

i i

k k

k

X X

Z

X X

 

 

 

 



     

     

   

 

   

       

   



은 자유도가 k 인 𝝌

^𝟐

변수이다.

(103)

103 𝝌 ^𝟐 분포

k 2 )

( Var

k )

( E

0 , 2

2 )!

2 ( k

2 ) exp(

) (

f

2 k

2 )

2 k (

2 2

) 2 k ( 2 2

k







 









 



(104)

104 𝝌 ^𝟐 변수와 표본분산의 관계

2

2 2

2

2 n 2 i

2 1 n

S ) 1 n S (

) 1 n

1 (

) X X

1 (



 

 







 



1 n 1

n

) x x

S (

2 1 n 2 2

2 i

 



   ^ ^

^

※ 참조 𝝌

^𝟐

분포표 보는 방법 p.503 표 ->다음 슬라이드

(105)

105 변수와 표본분산의 관계



2

※ 참조 분포표 보는 방법 p.503 표

(106)

106

t ^분포

※ _t 분포표 보는 방법 p.502 표-> 다음 슬라이드

1

t

n

n ~ /

S

t X 

_

 

1 n

) x x

S (

2 i



  

여기서

(107)

107

t ^분포

※ _t 분포표 보는 방법 p.502

1

t

n

n ~ /

S

t X 

_

 

1 n

) x x

S (

2 i



  

여기서

(108)

고려대학교 경영대학 박 광태

추정

(109)

109 신뢰구간의 추정

점추정 (point estimation)



점추정이란 단일 추정치에 의하여 모수를 추정하는 방법을 말 한다.

점추정량의 바람직한 성질



불편성, 효율성, 일관성을 갖추어야 한다.

구간추정 (interval estimation)



점추정과 달리 신뢰수준에서 실수구간에 의해 모수를 추정하 는 방법

(110)

110 모분산이 알려져 있고 정규모집단인 경우

모분산이 알려져 있지 않은 정규모집단의 경우

표본(n>30)인 경우-모집단의 분포에 상관없이



위의 식에서 𝝈를 모를 경우 S로 대체한다.

) ,

(

2

X z n

z n X

CI

_n



_n











) ,

(

2 , 1 2

,

1

n

t S n X

t S X

CI 

_n



_n_ ^ _n



_n_ ^

) ,

(

2

X z n

z n X

CI

_n



_n











모평균 𝝁의 𝟏𝟎𝟎 𝟏 − 𝜶 %의 신뢰구간

(111)

111 모평균 𝝁의 𝟏𝟎𝟎 𝟏 − 𝜶 %의 신뢰구간

예제 8-6(pp.221-222)

회계사의 월 평균수입(단위: 천원)을 추정하고자 한다.

모집단은 정규분포이며, 표준편차(𝝈)는 800으로 알려져 있다. 25명의 회계사들에 대한 단순확률표본으로부터 𝑿 _𝟐𝟓 =3,500 을 얻 었 다 . 모 평 균 𝝁 에 대 한 95%

신뢰구간을 구하시오.

(112)

112 모평균 𝝁의 𝟏𝟎𝟎 𝟏 − 𝜶 %의 신뢰구간

222페이지 삽입

(113)

113 (p.223)

(114)

114 예제 8-8(p.226)

모평균 𝝁의 𝟏𝟎𝟎 𝟏 − 𝜶 %의 신뢰구간

(115)

115 모비율 𝑷의 𝟏𝟎𝟎 𝟏 − 𝜶 % 신뢰구간

표본이 충분히 클 때 𝒏 𝒑 ≥ 𝟓 이고, 𝒏 𝒒 ≥ 𝟓

n ) q z p

p n ,

q z p

p ( CI

2 2



 



 









(116)

116 모평균의 추정에서 표본크기의 결정

σ 를 알 때

σ 를 모를 때

n이 충분히 클 때, 오차가 d이하일 확률이 (1- α)가 되게 하는 표본크기 n은

범위 자료의

표준편차 예비표본의



  R S

단, 여기서

2 2

z

n d





 

 

      

2 2

d S z d

z n

 







 





 

 

 





 













2 2

d

) 4 / R ( z d

z n

 







 







 

 





 













(117)

117 모비율의 추정에서 표본크기의 결정

q d p

z d

pq z

n

2 2 2

2

 

 







 







 

 





 











(118)

118 모분산의 신뢰구간

 







 





  





 n 1,1 2

2

,2 1 n 2

2

( n 1 ) S S ,

) 1 n CI (





2

)%

 에 대 한 100(1   신뢰구간

모집단이 정규분포일 때

(119)

고려대학교 경영대학 박 광태

가설검정

(120)

120 가설 검정의 개념

가설(hypothesis)



과거의 경험, 지식, 연구의 결과 등으로 모수가 취할 것으로 알려진 값을 서술한 것

귀무가설(null hypothesis) (𝑯 _𝟎 )과

대립가설(alternative hypothesis) (𝑯 _𝟏 )

가설검정(hypothesis test)



모집단에 대한 어떤 가설을 설정하고 그 모집단으로부터 추출 된 표본을 분석함으로써 그 가설의 타당성 여부를 결정하는 것.

(121)

121 가설 검정의 개념

예제 9-1, 예제 9-2(p.243)

예제 9-1

예제 9-2

(122)

122 가설 검정의 개념

단순가설과 복합가설

 단순가설 : 단일치에 의하여 모수의 값을 서술

 복합가설 : 여러 개의 값 또는 실수구간에 의하여 모수의 값을 서술

검정통계량

 귀무가설의 기각여부를 결정하는데 사용되는 통계량

 모평균의 경우 표본평균, 모비율의 경우 표본비율, 모분산의 경우 표 본분산이 검정통계량이 됨

기각치(critical value) : 기각영역과 채택영역을 분리시켜주는 값.

기각역: 𝑯_𝟎 이 기각되는 검정통계량의 모든 값.

 p.245의 [그림 9-1] 참조

(123)

123 가설 검정의 개념

그림 9-1

(124)

124 가설 검정의 오류

제1종 오류 (type Ⅰ error) = α



귀무가설이 옳은데도 불구하고 검정결과 귀무가설을 기각하 는 오류.



제1종 오류를 범할 확률을 유의수준(significance level)이라 함

제2종 오류 (type Ⅱ error) = β



귀무가설이 틀렸음에도 불구하고 검정결과 옳은 것으로 받아 들이는 오류

P.258의 [표 9-1]

(125)

125 가설 검정의 오류

(126)

126 2종오류의 확률계산

 참고 (1-β)는 검정력(Power) 이라고 한다.

k ) Z

( P k )

( P

) k

( P

) RR true

: H ( P

A A

A

A A







 

 



 







 























여기서 k 는 RR 의 임계치

(127)

127 2종오류의 확률계산

예제 9-5(pp.259-260)

모 분 산 이 16 으 로 알 려 진 모 집 단 에 대 하 여 다 음 의 가설 을 검정하려고 한다.

𝑯_𝟎: 𝝁 = 𝟏𝟖; 𝑯_𝑨: 𝝁 > 𝟏𝟖

(128)

128 2종오류의 확률계산

예제 5(p.220)

(129)

129 2종오류의 확률계산

예제 5(p.220)

(130)

130