8. 통계적 추론
통계적 추론
통계적 추론 : 표본자료를 활용하여 모집단의 특성치에 대한 확률적 서술을 하는 것
커피 생산업체가 자사 제품의 평균 내용 중량은 340g이라고 주장
소비자 단체는 이 주장의 사실 여부를 확인 하고자 함
일정량의 표본을 무작위로 추출하여 표본 평균과 분산을 계산
이를 근거로 내용 중량의 모평균을 추정하거나
생산업체의 주장을 검토해 보는 일
통계적 추론 - 2
통계적 추론
통계적 추론
구간추정 점추정 추정
Sample statistics
표본(표본통계량)
표본이 추출된 모집단 연구대상 모집단(모수)
Statistical Inference
가설검정
그림 8.2
Hypothesis testing
그림 8.1
일정구간(Interval) 숫자(Point)
estimation
Target population Sampled population
제1절 추정량의 기준
A분포
B분포
표본평균의 분포
편의 추정량의 분포
추정량으로 사용되기 위해서는 불편성(Unbiasedness), 효율성(Efficiency), 일치성(Consistency), 충족성(Sufficiency)이란 기본적 조건을 만족해야 함
불편성
효율성
일관성 충족성
추정량의 기대값이 모수와 차이가 없어야 한다는 것을 말하는데, 추정량의 정확성을 의미함
여러 종류의 추정량 중에서 분산이 최소인 것이 가장 효율적이란 의미
표본의 크기 n이 무한히 증가하면 그 표본에서 얻은 추정량이 모수와 일치된다는 것임
추정량이 모수에 대하여 가장 많은 정보를 제공할 때 그 추정량을 충족 추정량이라고 함
통계적 추론 - 3
제1절 추정량의 기준 ( 불편성)
표본평균의 분포
편의 추정량의 분포
불편성 추정량의 기대값이 모수와 차이가 없어야 한다는 것을 말하는데, 추정량의 정확성을 의미함
만약 아래와 같이 분산을 추정하면….
표본분산의 불편추정량
제1절 추정량의 기준 ( 효율성)
A분포
B분포
효율성 여러 종류의 추정량 중에서 분산이 최소인 것이 가장 효율적이란 의미
일관성
표본의 크기 n이 무한히 증가하면 그 표본에서 얻은 추정량이 모수와 일치된다는 것임
통계적 추론 - 6
제2절 추정
추정
추정의 종류
점 추정 : 모수의 추정치가 하나의 값으로 주어지는 추정 대학생 용돈 : 315,000원
구간추정 : 모수의 추정치가 구간으로 주어지는 추정 대학생 용돈 : 28만~35만, 95% 신뢰도 신뢰구간 = 점추정치 ± 신뢰도 x 점 추정치의 표준편차
추정치
표본추출 대학생 100명
●
모집단 모 수1, 모수2,...
전국 대학생
제2절 추정/ 2.구간추정
P(-Z
α/2≤(X- μ)/(σ/√n) ≤ Z
α/2)=1-α
P(-Z
α/2(σ/√n) ≤(X- μ) ≤ Z
α/2(σ/√n) )=1-α -
-
X-Z
α/2(σ/√n) ≤μ ≤ X+Z -
α/2(σ/√n) -
2.1 모평균에 대한 구간추정
2.1.1 모집단이 정규분포를 따르고 모분산이 알려진 경우
통계적 추론 - 8
제2절 추정/ 2.구간추정
2.1.1 모집단이 정규분포를 따르고 모분산이 알려진 경우 [예 8.1) 일일 매출액 정규분포, 표준편차 25만원
36일간 평균매출액 246만원 95% 신뢰구간을 설정하시오
통계분석>기초통계>1Z
1-표본 Z 검정
가정된 표준 편차 = 25
N 평균 평균의 표준오차 95% CI
(237.83, 254.17) 36 246.00 4.17
제2절 추정/ 2.구간추정
90% 또는 95% 등의 신뢰도란 ?
95% 의 신뢰도란 100개의 신뢰구간을 구하면, 이 중 아래 그림의 6번째 처럼 5개는 모평균을 포함하지 않는 신뢰구간이 발생된다는 것을 의미함
통계적 추론 - 10
제2절 추정/ 2.구간추정
2.1.2 모집단이 알려져 있지 않거나 비정규분포를 따르지만 모분산 알고 n이 큰 경우 [예 8.3)
컴퓨터 모이 실험λ= 2 추출 n=50, X=0.4309 S=0.4862 모분산을 알고 σ=0.5
95%의 신뢰구간
1-표본 Z 검정
가정된 표준 편차 = 0.5 평균의
N 평균 표준 오차 95% CI
50 0.4309 0.0707 (0.2923, 0.5695)
-
통계분석>기초통계>1Z
제2절 추정/ 2.구간추정
2.1.3 모집단은 정규분포를 따르지만 모분산을 모를때 (X- μ)/(S/√n)=t-
-X - t(n-1, α/2) -
(S/√n) ≤ μ≤ X + t (n-1, α/2)(S/√n)
(n-1)
통계적 추론 - 12
제2절 추정/ 2.구간추정
2.1.3 모집단은 정규분포를 따르지만 모분산을 모를 때 [예 8.4)
화공약품 16개 선정 중량 검사 X=990g, S=6g 95%의 신뢰구간
-
통계분석>기초통계>1t
1-표본 T 검정
평균의 표준 표준
N 평균 편차 오차 95% CI
16 990.00 6.00 1.50 (986.80, 993.20)
제2절 추정/ 2.구간추정
2.1.4. 모집단분포가 알려져 있지 않거나 비정규분포를 따르고 모분산을 모를때
n∞이면
X - Z (α/2) (S/√n) ≤ μ≤ X + Z (α/2) (S/√n)
- -
(X- μ)/(S/√n)- Z ~ N (0,1)
모집단이 유한 하다면 ?
통계적 추론 - 14
제2절 추정 / 2.구간추정
2.2 모비율에 의한 구간 추정
제2절 추정 / 2.구간추정
표본 X N 표본 p 95% CI
1 8 100 0.080000 (0.026828, 0.133172) 정규 근사 사용.
2.2 모비율에 의한 구간 추정
단일 비율에 대한 검정 및 CI
[예 8.5) 경성전자 컬러 TV용 브라운관 100개 무작위 추출, 검사 결과 8개 불량 불량율 P에 대한 95% 신뢰구간
통계분석>기초통계>1P
통계적 추론 - 16
제3절 두 모평균의 차이에 관한 구간 추정/ 1. 상체비교
쌍체 t-Test
독립적이지 않은 확률 표본의 비교할 때 사용
쌍 Data 평균 비교 (동일 개체에 대해 다른 조건에서 각각 측정을 하여 비교)
표본의 크기가 큰 경우 (대략 n > 30 인 경우)에는 모집단의 분포가 정규 분포라는 가정이 없어도 근사적으로 검정 가능
쌍 Data 평균 비교 (동일 개체에 대해 두 번의 측정을 하여 비교)
제3절 두 모평균의 차이에 관한 구간 추정/ 1. 상체비교
[예 8.8) 김통계군은 서울 구로에서 경기도 성남까지 평일 아침마다 버스, 지하철
환승을 거듭해 등하교 하고 있다. 통계를 배운 김군은 등하교 소요시간 차이에 대한 95% 신뢰구간을 설정하고자 한다.
통계분석>기초통계>쌍체분석
등교소요시간(분) - 하교소요시간(분)에 대한 쌍체 T 검 정
평균의 표준 표준
N 평균 편차 오차 등교
소요시간(분) 15 92.93 5.62 1.45 하교소요시간(분) 15 88.27 3.90 1.01 차이 15 4.67 5.80 1.50 평균 차이의 95% CI: (1.46, 7.88)
평균 차이의 T 검정 = 0 (대 not = 0): T-값 = 3.12 P-값 = 0.008
통계적 추론 - 18
제3절 두 모평균의 차이에 관한 구간 추정 / 2. 두 모평균차
2.1 모집단이 정규분포룰 따르고 모분산도 알려졌을때
제3절 두 모평균의 차이에 관한 구간 추정 / 2. 두 모평균차
2.1 모집단이 정규분포룰 따르고 모분산도 알려졌을때
[예 8.9] [예 8.8]의 하교소요시간을 김확률의 등교소요시간이라고 가정하고 김통계와 김확률의 등교시간 차이에 대한 95% 신뢰구간을 설정하여 보자. 두 사람 등교시간의 표본평균은 아래와 같으며, 모분산은 각각 31, 16이라고 가 정한다.
김통계 표본평균 = 92.93, 김확률 표본평균 = 88.27
통계적 추론 - 20
제3절 두 모평균의 차이에 관한 구간 추정 / 2. 두 모평균차
2.2 모집단은 정규분포룰 따르고 모분산도 알려지지 않았으나 동일한 경우
제3절 두 모평균의 차이에 관한 구간 추정 / 2. 두 모평균차
2 표본 t-Test
• 두 모평균 (혹은 처리효과)를 비교할 때 사용
• 유효한 t-Test의 조건
- B와 C분포가 모두 정규분포일 것 (통계분석 > 기초통계 > 정규성 Test)
- 분산의 동질성 검정 (통계분석 > 기초통계 > 이 표본 분산)
※ 분산이 동일하지 않을 경우에도 이 표본 t-test를 사용 가능.
단, 이 경우 미니텝의 등 분산 가정을 체크하지 않음)
2.2 모집단은 정규분포룰 따르고 모분산도 알려지지 않았으나 동일한 경우
통계적 추론 - 22
제4절 모비율 차이에 대한 구간추정
모비율 차이에 의한 구간추정
제4절 모비율 차이에 대한 구간추정
모비율 차이에 의한 구간추정
2 표본 비율 Test
• 두 모집단의 모 비율 차에 대한 비교
• 불량율, 실패율, 점유율 등 모집단에서 어떤 특정한 속성을 갖는 것의 비율검정
• 이항분포 B(n,p)를 따름
[예 8.11)
치료제 1,2 효능시험 300명 , 400명 2주후
어느 제약 회사 두 종류 치료제 효능 시험
240명, 280명 완치 99% 신뢰구간
통계적 추론 - 24
제4절 모비율 차이에 대한 구간추정
통계분석>기초통계>2P
두 비율에 대한 검정 및 CI 표본 X N 표본 p 1 240 300 0.800000 2 280 400 0.700000 차이 = p (1) - p (2) 차이 추정치: 0.1
차이의 99% CI: (0.0162030, 0.183797)
차이 = 0 (대 not = 0) 검정: Z = 3.00 P-값 = 0.003
제5절 모비율 표본 크기의 결정
= 탐지하기를 원하는 모수치 이동의 크기(오차범위)
= 모집단에 존재하는 추정 산포의 크기
= 감수할 위험부담의 크기(유의수준)
= 모집단의 추정 사상(event)의 비율
s α p
표본 크기의 결정
1) 설문조사 대상 모집단의 선정고객 세분화 요령에 따라 세분 시장을 도출 2) 설문조사 샘플 수를 결정
연속형(Continuous)인 경우
D
이산형(Discrete)인 경우
3) 예상 응답률에 의해 필요 샘플 수를 조정( 회수율 20% 이면 샘플 수는 5배 ) 4) 설문조사 대상 고객을 무작위로 선정한다.
5) 설문을 실시한다.
통계적 추론 - 26
제5절 표본 크기의 결정
1. 모평균의 신뢰구간 설정을 위한 표본크기
제5절 표본 크기의 결정
모평균의 신뢰구간 설정을 위한 표본크기
[예 8.12) 금강산호텔영업담당이사 고객들의 운전거리 조사
모분산 4,000km 정규분포 α=0.05 수준에서 최대 허용오차 25km를 보장 신뢰구간을 얻기 위한 표본의 크기
D
22 2
n Z
/2σ
25
2 1.96 4000
2 =24.59 25km를 보장할 수 있는 크기는 25모분산이 알려 지지 않은 경우(n수가 적은경우)
모분산이 알려 지지 않은 경우(n수가 큰 경우)
통계적 추론 - 28
제5절 표본 크기의 결정
2. 모비율의 신뢰구간 설정을 위한 표본크기
[예 8.13) 제약회사질병치료 약품개발 치
료율 구간추정 약의 효과 95% 신뢰수준 표본의 크기는
신뢰구간 오차 ±3%
n Z
/2p(1p)
D
22
1.96
0.5(10.5) 1,067.111 0.03
22
n은 1,068 임