통계학 강의노트

(1)

통계학 강의노트

(2)

모집단 평균에 대한 가설검정

 모집단이 1개인 단일 모집단 평균에 대한 가설검정(t-검정)

 모집단의 평균이 어떠하다는 가설이 맞는지를 검정하는 것

 검정을 위해서는 모집단으로부터 표본을 추출하여, 그 표본의 평균 즉 통계량값을 가설에서 주장하고 있는 값과 비교하여 검정함

 모집단이 2개인 모집단 평균에 대한 가설검정(t-검정)

 2개 모집단의 평균이 서로 다른지 혹은 어느것이 더 큰지에 대해서 가설을 검정하는 것

 2개의 모집단에서 각각 뽑은 표본의 평균값들을 서로 비교하여 가설을 검정

 단일 모집단에 대한 가설검정은 일반적인 단일 모집단에 대한 가설검정과 쌍체비교로 구분됨.

 모집단이 3개 이상인 평균에 대한 가설검정(분산분석: ANOVA)

 모집단의 평균이 모두 같은지 아니면 서로 다른 것이 있는지

(3)

모집단 평균에 대한 가설검정

가설검정

검정대상

모집단 수 모집단 수

t 검정 t 검정 분산분석 (ANOVA)

카이제곱

검정 F 검정

이훈영(2008)

모집단의 평균 모집단의 분산

1개 1개

2개

3개 이상 2개

(4)

모집단 평균에 대한 가설검정

단일 모집단

두 모집단

단일 모집단 평균에 대한 가설검정

쌍체비교

(모평균) 모집단

평균의 표본 집합

표본 평균

(모평균) 모집단

표본으로 추출된 개개인에 대해 실험 전후로 측정 한 값들 간 차이의 평균

평균의 표본 집합

통계량

전 실험 후

모집단 A (모평균)

모집단 B (모평균)

평균의 표본

집합 평균의 표본

집합

표본 A 평균

통계량

(5)

쌍체비교

 일정한 표본을 대상으로 특정한 사건을 전후로 두 번 측정하여 얻은 값들간에 유의한 차이가 있는지를 검정하는 분석

 쌍체비교는 독립적인 두 모집단 평균에 대한 검정보다 더 효율적임

 보다 정확하고 많은 정보를 가지고 가설을 검정하기 때문임

 실험에 참여하지 않은 집단과 시험에 참여한 집단을 서로 독립적인 두 모집단으로 보고 이들을 대상으로 무작위 표본추출하여 조사한 표본평균값들 간에 서로 유의한 차이가 검정되지 않는 경우에도 쌍체비교를 하게 되면 유의미한 차이가 검정되는 경우가 있음

ex) 영어 학습 프로그램에 참여하지 않은 학생들 집단과 참여한 학생들 집단

• 독립적인 두 모집단 차이 검정일 경우

- 프로그램 미참여 집단: 영어실력 우수 학생 표본추출 - 프로그램 참여집단: 영어실력 낮은 학생 표본추출

 실험의 효과를 보다 정확하게 분석할 수 있음 ex) 실험 전후 정확한 점수의 비교 가능

 많은 노력과 시간 및 비용이 요구됨

(6)

쌍체비교

 두 모집단 평균에 대한 가설검정과 쌍체비교

 쌍체비교 가설설정

(7)

쌍체비교

 검정통계량 구하는 공식

○ 실험 전후의 평균이 어떠한 관계인지를 파악하기 때문에, 실험 전후 차이의 평균과 차이의 표준편차를 알아야 검정통계량을 구할 수 있음

○ 실험 전후에 따른 차이가 있을 뿐, 기본적으로 한 집단만을 다루기 때문에 n만 사용함

(8)

어느 한 공장에서는 작업자를 대상으로 교육훈련을 실시하면, 생산량에 차이가 생기는지를 알아보려고 한 다. 이에 작업자 5명을 뽑아 교육 전후에 따른 생산량을 조사하였더니 다음과 같았다.

- 교육 전 생산량 : 60 70 45 55 70 - 교육 후 생산량 : 70 65 50 60 65

이때 교육훈련을 실시하면 생산량에 차이가 생기는지 유의수준 10%에서 검정하시오.

쌍체비교 사례

풀이)

(9)

어느 한 공장에서는 작업자를 대상으로 교육훈련을 실시하면, 생산량에 차이가 생기는지를 알아보려고 한 다. 이에 작업자 5명을 뽑아 교육 전후에 따른 생산량을 조사하였더니 다음과 같았다.

- 교육 전 생산량 : 60 70 45 55 70 - 교육 후 생산량 : 70 65 50 60 65

이때 교육훈련을 실시하면 생산량에 차이가 생기는지 유의수준 10%에서 검정하시오.

쌍체비교 사례

검정통계량의 절대값이 임계치의 절대값보다 작으므로 귀무가설 채택!

따라서 교육훈련을 실시해도 생산량에는 통계적으로 유의미한 차이가 없음

풀이)

(10)

쌍체비교 사례

(11)

어느 한 보험회사에서는 영업교육을 실시하면, 영업사원의 계약 건수가 증가한다고 한다. 이에 실제로 그 러한지를 알아보기 위해 영업사원 4명을 뽑아 계약 건수를 조사하였더니, 다음과 같이 나왔다고 한다.

교육 전 계약 건수: 1 2 1 4 교육 후 계약 건수: 7 5 8 4

이때 영업교육을 실시하면 계약 건수가 증가한다고 할 수 있는지, 유의수준 5%에서 검정하시오.

쌍체비교 사례

풀이)

(12)

어느 한 보험회사에서는 영업교육을 실시하면, 영업사원의 계약 건수가 증가한다고 한다. 이에 실제로 그 러한지를 알아보기 위해 영업사원 4명을 뽑아 계약 건수를 조사하였더니, 다음과 같이 나왔다고 한다.

교육 전 계약 건수: 1 2 1 4 교육 후 계약 건수: 7 5 8 4

이때 영업교육을 실시하면 계약 건수가 증가한다고 할 수 있는지, 유의수준 5%에서 검정하시오.

쌍체비교 사례

풀이)

검정통계량의 절대값이 임계치의 절대값보다 크므로 귀무가설 기각!

따라서 영업교육을 실시하면 계약 건수가 증가한다고 할 수 있음.

(13)

모집단 분산에 대한 가설검정



모집단의 평균이 어떠하다는 가설이 맞는지를 검정하는 것

 분산은 변수 값들의 분포가 퍼져 있는 정도를 나타내는 것으로써, 경우에 따라서는 분산이 평균보다 더 중요한 경우도 있음.

ex) 새로 개발된 수면제의 약효가 지속되는 시간 전구의 수명

 모집단을 구성하는 값들이 평균으로부터 퍼져 있는 정도를 나타내는 분산에 관심을 가지고 이에 대해 가설을 세우고 이를 검정하는 것이 모집단 분산에 대한 가설점정임

 단일 모집단의 분산에 대한 검정: 카이제곱 검정

두 모집단의 분산에 대한 검정: F 검정

(14)

카이제곱 검정

모집단 분산에 대한 가설검정

분산에 대한 가설검정

모집단 수

양측 검정 연구가설: 모분산 ≠ b 귀무가설: 모분산 = b

왼쪽꼬리 검정

연구가설: 모분산 < b 귀무가설: 모분산 ≥ b 모분산 = b

꼬리검정 오른쪽

연구가설: 모분산 > b 귀무가설: 모분산 ≤ a 모분산 = b

F 검정

양측 검정 연구가설: 모분산A ≠ 모분산B 귀무가설: 모분산A = 모분산B

왼쪽꼬리 검정

연구가설: 모분산A < 모분산B 귀무가설: 모분산A ≥ 모분산B 모분산A = 모분산B

꼬리검정 오른쪽

연구가설: 모분산A > 모분산B 귀무가설: 모분산A ≤ 모분산B 모분산A = 모분산B

1개 2개

(15)

- 평균에서 데이터 값 사이: 편차

· 편차는 양수와 음수가 모두 나오기 때문에 편차의 합은 0일 될 수 밖에 없음 → 편차의 합이 0이라는 것은 수학적으로 말도 안 되는 결과

· 따라서 -값을 +값으로 바꾸어야 하는데, 그러한 방법의 하나가 제곱임 → 분산

- 카이제곱 분포: 분산이 퍼져있는 모습을 분포로 만든 것 · 데이터나 집단의 분산을 추정하고 검정할 때 많이 사용됨 · 분산의 제곱된 값을 다루기 때문에 χ 2 분포라고 불림 - 카이제곱 분포의 특징

· 제곱된 분산을 다루기 때문에 -값은 존재하지 않고 +값만 존재함

· 정규분포 그래프와 비교해보면 정규분포는 -값도 다루기 때문에 좌우가 모두 발달하여 좌우대칭인 모양을 하는 반면, 카이제곱 분포는 +값만 다루기 때문에 한쪽만 유달리 발달하여 오른쪽 꼬리가 긴 비대칭 모양을 함

카이제곱 분포

(16)

카이제곱 분포

(17)

- 카이제곱 분포표 보는법 · y축 좌표는 자유도 · x축 좌표는 확률

· 신뢰구간이랑 가설검정 등에서 다루는 확률을 보통 a(알파)라고 하는데 이 확률은 카이제곱 분포의 오른쪽 면에 해당함

카이제곱 분포

(18)

- 카이제곱 분포표와 t분포표와 차이점 : 그래프의 왼쪽 x축 좌표를 구하는 방법

· t분포표는 좌우대칭이기 때문에 -값을 붙이면 왼쪽 x축 좌표를 구할 수 있는데, 카이제곱 분포는 좌우대칭이 아니기 때문에, t분포의 방식으로는 왼쪽 좌표를 구할 수 없음

· 또 카이제곱 분포표는 오른쪽 면적만 다룰 뿐, 왼쪽 면적은 다루지 않음 · 그래서 그래프의 총면적이 1이라는 특징을 활용함

· 그래프의 총면적은 1이므로 왼쪽 면적을 a라고 가정하면, 오른쪽 면적은 1-a가 됨 → 따라서 왼쪽 값을 구할 때는 1-a를 사용하면 됨

- 양측검정시 χ 2 값 구하는 방법

· 신뢰구간과 가설검정에서 양쪽 χ 2 값을 구해야 하는 경우는 나누기 2를 해야 함 · 따라서 왼쪽 χ 2 값은 1-a/2가 되며 오른쪽은 a/2가 됨

카이제곱 분포

(19)

카이제곱 분포

(20)

1. 표본이 7개이고 a=0.1일 때, 해당하는 χ 2 값은?

카이제곱 분포

(21)

카이제곱 분포

(22)

카이제곱 분포

2. 자유도가 7이고 a=0.1일 때, 양쪽 두 개의 χ 2 값은?

(23)

카이제곱 분포

A회사는 LED 전구를 생산하는데, 이 제품의 분산은 25라고 알려져 있다. 그런데 최근 품질관리팀의 분석 에 의하면 제품의 불량률이 높아져서 분산이 25보다 커진 것 같다는 의견이 나왔다. 이에 실상을 파악하기 위해 표본 10개를 뽑아 조사하였더니, 표본분산은 29가 나왔다고 한다. 이때 분산이 25보다 크다고 할 수 있는지 유의수준 5%에서 검정하시오.

풀이)

검정통계량이 채택역 안에 위치하므로 귀무가설 채택!

따라서 제품의 분산은 25보다 크다고 할 수 없다.

(24)

카이제곱 분포

어느 한 실험의 분산은 10이라고 한다. 그런데 최근 들어서 실험의 결과가 이상하게 나오는 것이, 아무래도 실험의 분산은 10이 아니라는 의견이 나왔다. 실제로 어떠한지를 알아보기 위해 표본 9개를 뽑았더니 표본 분산은 3이 나왔다고 한다. 이때 분산은 10이라고 할 수 있는지 유의수준 10%에서 검정하시오.

풀이)

검정통계량이 기각역 안에 위치하므로 귀무가설 기각!

따라서 제품의 분산은 10이라고 할 수 없다.

(25)

- F분포: 카이제곱 분포와 마찬가지로 집단의 분산을 추정하고 검정할 때 사용하는 분포

· 분산의 제곱된 값을 다루기에 +값만 존재하며, 그렇기 때문에 그래프가 비대칭 모양을 하고 있음

- 카이제곱 분포와의 차이점

· 카이제곱 분포는 한 집단의 분산을 파악할 때 사용하지만, F분포는 두 집단의 분산을 비교할 때 사용 · 예컨대, A와 B 두 집단이 있다고 가정하면, 이 두 집단의 치우침인 분산이 같다고 할 수 있는지 아니면 치우침의 정도가 많이 차이 나서 같다고 할 수 없는지를 판단하고 비교할 때 사용하는 분포

- 분산분석(ANOVA: Analysis of Variance): 3개 이상 집단의 분산을 비교

F분포

(26)

- F분포표 보는 방법

· F분포는 두 집단의 분산을 다루기 때문에 집단이 2개이므로 자유도도 2개임 · x축은 분자의 자유도(n1-1)

· y축은 분모의 자유도(n2-1)

F분포

(27)

· 보통 분산이 더 큰 집단이 분자가 되고 상대적으로 분산이 작은 집단이 분모가 됨

· 분산이 더 큰 집단이 분자로 가는 이유는, F통계량이 항상 1보다 크게 나와야 하는데 분자에 더 큰 값을 놓아야 1보다 큰 값이 나오기 때문

F분포

(28)

· 분산이 더 큰 집단이 분자로 가는 이유는 바로 그래프의 오른쪽 면적을 사용하기 위함 · F분포는 1을 기준으로 왼쪽과 오른쪽 면으로 나눌 수 있음

(자유도에 따라 그래프의 모양이 달라지므로, 1의 정확한 위치는 없음) · 왼쪽은 1보다 작은 수를 나타내고, 오른쪽은 1보다 큰 수를 나타냄.

· 그래서 오른쪽 면적을 사용하기 위해 항상 1보다 크게 나와야 함

· 따라서 분자에 더 큰 값을 놓으면 1보다 큰 값이 나오기에 분산이 더 큰 집단이 분자가 됨 · F분포표를 분석해보면 가장 작은 값은 항상 1임

F분포

(29)

· 하지만 F분포가 오른쪽면적만 사용하는 것은 아님 · 가끔가다가 왼쪽면적을 사용하는 경우가 있음 · 이때 분자와 분모의 자유도가 서로 바뀜

· 신뢰구간 추정에서 양쪽 F값을 구하는 경우도 있는데, 이때 a가 양쪽으로 나뉘기 때문에 a/2가 됨

F분포

(30)

1. 두 집단 A와 B가 있는데, 집단 A의 표본분산은 20이고, n=9라고 한다. 그리고 집단 B의 표본분산은 30이고 n=6이라고 한다. 이때 a=0.1에 해당하는 F값을 구하여라

F분포

(31)

F분포

(32)

2. 집단 A의 표본분산은 60이고 n=8이라고 한다. 그리고 집단 B의 표본분산은 40이고 n=7이라고 한다.

이때 a=0.01에 해당하는 양쪽 F값을 구하여라

F분포

(33)

F분포

(34)

동일제품을 생산하는 기계1과 기계2가 있다. 두 기계에서 생산한 제품의 분산은 같은 것으로 알려져 있다.

하지만 최근에는 기계1에서 생산한 제품의 불량이 많아져서 일부에서는 기계1에서 생산한 제품의 분산이 더 큰 것 같다는 의견이 나오고 있다. 이때 실상을 파악하기 위해 각각 표본 6개와 12개를 뽑아 조사하였 더니, 표본분산은 각각 30과 8이 나왔다고 한다. 이때 기계 1에서 생산한 제품의 분산이 더 크다고 할 수 있는지 유의수준 10%에서 검정하시오.

풀이)

F분포

검정통계량이 기각역 안에 위치하므로 귀무가설 기각!

따라서 기계1에서 생산한 제품의 분산이 더 크다고 할 수 있다.

(35)

집단1과 집단2의 분산은 동일한 것으로 알려져 있다. 하지만 최근에는 두 집단의 분산이 서로 다른 것 같 다는 의견이 나왔다. 그래서 실제로 어떠한지를 알아보기 위해 각각 표본 4개와 6개를 뽑아 조사하였더니, 표본분산은 각각 15와 10이 나왔다고 한다. 이때 두 집단의 분산이 서로 다르다고 할 수 있는지 유의수준 1%에서 검정하시오.

풀이)

검정통계량이 채택역 안에 위치하므로 귀무가설 채택!

따라서 두 집단의 분산은 서로 같다고 할 수 있다.

F분포

(36)

분산분석

 분산분석은 3개 이상의 집단간 평균이 서로 차이가 있는지를 검정하는 분석방법

 각각의 집단에 속한 관측치들의 평균, 즉 집단간 평균값들이 통계적으로 유의하게 차이가 있는지를 분석하는 방법

 집단간의 평균차이를 비교하는데 왜 분산을 이용하여 분석하고, 이를 분산분석이라고 하는가?

 집단간 평균들이 서로 다르다는 것은 평균들이 서로 멀리 떨어져 퍼져 있는 정도를 나타내는 분산이 매우 크다는 것을 의미함

 집단의 평균들이 서로 멀리 떨어져 있어 이들의 분산이 크면 클수록 집단간의 평균들이 서로 다름을 알 수 있음

 즉 집단간 평균들의 분산이 클수록 평균들이 서로 다르다. 따라서 집단 평균들의

분산으로 집단간 평균들이 서로 어느 정도 다른지를 파악할 수 있음.

(37)

분산분석

 분산분석은 각 집단 평균간에 차이가 있는지를 검정하기 위하여 집단간 변량과 집단내의 변량을 사용함

 집단간 변량을 집단내의 변량과 비교하는 F검정을 사용하며 이 F값에 의하여 집단 평균간에 어떤 차이가 있는지를 검정하게 됨

 F값을 임계치와 비교하여 집단 간 유의한 정도를 검정하게 됨 - F값>임계치: 귀무가설 기각(대립가설 채택)

- F값<임계치 :귀무가설 채택(대립가설 기각)

(38)

분산분석의 유형

분산분석

종속변수의 수

단일변량

분산분석 다변량

분산분석

독립변수의 수

일원분산분석 이원분산분석

1개 2개 이상

1개 2개

집단을 구분하는 변수(학년, 성별, 계절) 실제 관측치를 나타내는 변수(점수, 키, 매출액)

(39)

상관관계 vs. 인과관계

상관관계가 있지만

어느 것이 원인이고 어느 것이 결과인지 명백하지 않을 때가 있다.

원인과 결과가 시간에 따라 뒤바뀌기도 하고,

양쪽이 동시에 원인이면서 결과일 수도 있는 것이다.

(40)

상관관계 vs. 인과관계

 상관관계는 어떤 변수가 증가할 때 다른 변수가 함께 증가 또는 감소하는지를 관찰해 파악

상관관계

Ex) 체중과 신장 : 양의 상관관계 존재

→ 키가 크면 대체적으로 체중이 증가

 상관계수:

 상관계수의 범위 : -1 ~ 1

 상관계수가 음수이면 음의 상관을, 양수이면 양의 상관을 갖음

 상관계수가 0 일 경우 : 서로 관계가 전혀 없음을 의미

 상관계수는 선형(linear) 상관만을 측정하므로 상관계수가 0이라는 말은 선형관계가 존재하지 않는다는 의미임

(41)

상관관계 vs. 인과관계

 광고와 매출액 상관관계의 예시

→ 광고를 늘리면 상품 매츨액이 증가해 광고비를 더 지출할 수 있는 여유가 생겨 광고를 더 하게 됨

 광고와 매출액은 상호작용을 하여 원인도 되고 결과도 됨

☞ 초기에는 광고가 매출액 증가의 원인일 수 있지만 나중에는 매출액 증가가 광고 증가의 원인이 됨

 개인소득과 보유 주식

 개인소득과 보유 조식은 서로 원인과 결과가 상호작용하는 관계임

→ 소득이 많을수록 주식을 많이 사게 되지만 주식을 많이 사면 다시 배당 등으로 소득이 증가

잘못된 인과관계의 추정

남태평양 뉴 헤브리디스 섬 주민들은 몸의 이(벌레)가 건강의 원인이라고 믿고, 건강하려면 이를 몸에 많이 지녀야 한다고 생각했다. 즉, 건강한 사람에게는 이가 있지만 환자에게는 이가 없는 경우가 많다는 원주민의 과거 수세기에 걸친 경험과 관찰을 토대로 이런 결론을 내린 것이다.

 실제로는 이 섬에는 이가 득실거려 대부분의 사람들 몸에 이가 있었는데, 이가 옮기는 열병에 걸리게 되면 체온이 올라가서 이가 살기 어려운 조건이 되므로 환자의 몸에서 이가 달아나는 것이었음

→ 건강하면 이가 꼬이고, 이는 열병을 옮기고, 열병은 이를 쫓아내고, 이가 없어지면 열병이 낫고, 건강해지면 다시 이가 꼬이는 순환을 반복

☞ 원인과 결과가 뒤죽박죽으로 뒤엉킴

(42)

상관관계 vs. 인과관계

 교회수가 늘면 범죄 발생률이 증가한다??(교회가 범죄 증가의 원인???) 두 변수 사이의 상관관계가 존재하더라도 원인이 다른 곳에 있는 경우

☞ 인구가 늘면 교회도 많아지고 범죄도 증가하는 것임

 프랑스 도시 스타라스부르그에서는 황새의 둥지수와 출생률 사이의 상관관계가 높은 것으로 나타났다.

→ 진짜 원인: 인구증가

☞ 인구가 증가하면 출생률도 높아지고, 또 주택이 증가하므로 황새가 둥지 틀 곳이 많아지는 것임

 미국 매사추세츠 주의 장로교 목사 월급과 쿠바 하바나의 럼(rum)주 가격 사이의 높은 상관관계가 있다.(목사들이 술 무역을 통해서 돈을 번다???)

☞ 세월의 흐름에 따라 거의 모든 물가와 월급이 올라가게 마련임

→ 진짜 원인: 시간 흐름에 따른 물가상승

(43)

상관관계 vs. 인과관계

 두 개의 변수들은 상관관계를 갖지만 그것은 우연일 뿐 서로 인과관계가 없는 경우가 많음 인과관계가 성립할 수 있는 조건(by John S Mill)

 인과관계가 있더라도 다른 변수들이 그 사이에 존재할 수도 있음

 인과관계가 성립할 수 있는 3대 조건

첫째, 원인은 결과보다 시간적으로 앞서야 한다

둘째, 원인과 결과는 서로 관련 있어야 한다

셋째, 결과는 원인이 되는 변수만으로 설명되어야 하고,

다른 변수에 의한 설명은 제거되어야 한다.

(44)

동일한 것을 분석하는 실험1과 실험2가 있고, 두 실험의 분산은 동일한 것으로 알려져 있다. 그런데 최근에 는 실험1의 결과가 더 정확하게 나와서, 실험 1의 분산이 더 작은 것 같다는 의견이 나오고 있다. 이에 실 제로 그러한지를 파악하기 위해 각각 16번과 7번의 실험을 하였더니, 표본분산은 각각 21과 25가 나왔다 고 한다. 이때 실험 1의 분산이 더 작다고 할 수 있는지 유의수준 5%에서 검정하시오.