• 검색 결과가 없습니다.

제13강 분산분석-2

N/A
N/A
Protected

Academic year: 2022

Share "제13강 분산분석-2"

Copied!
11
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

제13강 분산분석-2

분산분석의 과정

ANOVA(Analysis of Variance)

1. 일원분산분석

○ t검증과 ANOVA의 차이점

① t 검증은 두 집단의 평균 차이에 대한 비교만을 허용하는 반면 ANOVA는 셋 이 상 집단들간의 비교도 가능하게 해준다.

② ANOVA를 사용해서 두 집단을 비교할 경우에 그 결과는 t검증의 결과와 일치한 다.

예) 사례관리와 보호주택의 프로그램이 노숙인들의 스트레스 수준에 어떠한 효과를 미치는가를 검토하고자 한다. 이러한 경우 무작위배치 실험 디자인을 설정하고자 한다.

N= N₁+ N₂+ N₃+ N₄ N₁: 사례관리 프로그램만 제공

N₂: 사례관리와 보호주택 프로그램을 동시에 제공 N₃: 보호주택 프로그램만 제공

N₄: 어떠한 프로그램도 제공받지 않음

네 개의 집단에 무작위로 배치한다. 네 개의 집단간 스트레스 수준이 서로 다른가?

이 때의 영가설은 ‘4개 집단의 스트레스 수준(평균점수)이 서로 다르지 않다’ 이다.

1) ANOVA의 논리

(2)

영가설: 모든 집단의 평균값이 서로 다르지 않다.

예) 지역-도시, 근교, 농촌-에 따라 평균자녀수가 다른가?

즉, 세 지역의 평균 자녀수가 영가설을 기각할 만큼 서로 큰 차이를 보이는가?

다음의 두 가지 예가 있다고 하자.

A 표본 도시 근교 농촌

평균 4.7 4.3 4.7

표준편차 2.8 3.1 2.8

B 표본 도시 근교 농촌

평균 4.7 2.3 5.6

표준편차 1.1 0.8 1.3

위의 두 표본 중에서 어느 표본이 지역별 평균자녀수가 다르다고 할 수 있는가?

힌트:

① 각 지역별 평균자녀수를 서로 비교해보자. B집단은 평균이 2.3에서 5.6으로 분 포한 반면, A집단은 평균이 4.3에서 4.7로 분포.

② 각각의 6개 집단의 표준편차를 살펴보자. B집단의 경우 표준편차가 더 낮다.

즉, 각 지역별 내에 속해있는 가구들이 자녀수에 있어서 서로 낮은 분산을 보여주 고 있다.

여기에서 도출될 수 있는 원칙: 각 지역별 내에서(집단내 비교) 동질성이 낮으면서 다른 지역과의 비교하였을 때(집단간 비교) 평균값이 클수록 영가설을 기각할 가능 성이 높아진다.

즉, ANOVA 검증은 집단내 변량과 집단간 분산을 비교하는 것이다. 집단간 변량이 집단내 분산보다 클수록 영가설(즉 평균값이 서로 다르지 않다)이 기각될 확률이 높아진다.

2) ANOVA의 계산

(3)

○ 알아야할 수식

(1) 전체 자승합 (Total Sum of Square, TSS, SStot) (2) 집단내 자승 (Within-Group Sum of Sqaures, SSw) (3) 집단간 자승합 (Between-Group Sum of Square, SSb) 관계: SStot=SSw+SSb

N: 분석해야할 표본 수

k: 분석해야할 독립변수의 카테고리

(1) 전체 자승합 SStot=Σ(Xi-Xtot)²

: 모든 표본 값들의 평균을 구한 뒤에 각각의 값들로부터 평균을 빼서 제곱한다.

(2) 집단내 자승합 (개별 집단 내에서의 변이의 합)

SSw=ΣSSi= ∑kk

= 1 ∑iNk

= 1

i

-

Xk

: 집단을 독립변수 범주내로 나눈다. 독립변수 한 범주 내에서 평균값을 구한 뒤에 그 범주 내에 있는 사례값들로부터 평균값을 뺀 뒤 제곱한다. 독립변수 범주 별로 계산한 다음에 모두 더한다.

① 독립변수의 영향을 제외한 다른 모든 외부 변인들에 의한 효과를 측정하는 것이 다.

② 독립변수의 분류들 간에 나타나는 변이가 아니라, 각 분류 내에서 나타나는 변 이이므로 독립변수의 영향력에 의한 변이라고 볼 수 없다

(3) 집단간 자승합

SSb= ∑kk= 1

Nk

k

-Χ)²

: 각 독립변수 범주 별 평균값의 평균을 구한 뒤에 이 평균값과 각 범주 별 평균값 과의 차이의 합

① 집단들 간에 변이를 보인다는 것은 독립변수의 범주에 의해서 값들이 달라지는 것을 의미한다.

② 종속 변수에 대한 독립변수의 영향력을 측정하는 것이다.

(4)

3) 유의도 검증

ANOVA는 집단내 분산과 집단간 분산을 비교하는 것이다.

○ 1단계: ANOVA를 위한 가정

① 독립적인 확률 샘플링이다.

② 종속 변수가 등간-비율변수이다.

③ 각 독립변수 범주 별 표본이 대표하고자하는 모집단의 분산은 동일하다.(동분산 성)

④ 모집단들이 모두 정규분포를 이룬다.

○ 2단계: ANOVA는 표본평균간의 유의미한 차이가 있는지를 살펴보지만, 분산(변량)이 ANOVA의 계산에 고려된다.

s²= ∑

i

-Χ)²

N

-1

① 집단간 분산과 집단내 분산을 구한다.

: 집단간 분산과 집단내 분산을 구하기 위해서 자유도(df:degree of freedom)로 위 의 집단간 자승합과 집단내 자승합을 나누어준다. 이렇게 구해진 분산 추정치를 평 균자승(Mean Sqaure)이라고 한다.

집단간 분산 추정치=SSb/dfb dfb=k-1, k=독립변수의 범주 수

집단내 분산 추정치=SSw/dfw dfw=N-k. N=전체 사례수

② 집단간 분산과 집단내 분산의 비율, 즉 F(Fisher's)을 구한다.

(5)

F= 집단간변량추정치집단내변량추정치

○ 3단계: 유의수준을 결정하고, 분자와 분모의 자유도를 고려하여 이에 합 당한 기준 F값을 찾는다.

○ 4단계: 표본에 의해서 구해진 F값과 기준 F값을 서로 비교하여 영가설을 기각 혹은 수용을 결정한다. 이 때는 자동적으로 양방검증이 된다.

4) 동분산성의 검증

SPSS+에서 Homogeneity-of-variance를 해본다.

①만약, p<.05일 경우 두 모집단의 동분산성이라는 가설이 기각된다.

이러한 경우 원칙적으로는 ANOVA 분석이 가능하지 않다.

"그러나, 실제로 분산분석을 하면서 동분산의 가설을 기각하는 경우가 빈번히 발생.

이에 대한 가장 좋은 방법은 각 집단의 사례수를 거의 같도록 높는 것이지만, 현실 적으로 어려운 경우가 많이 있다. 따라서 많은 연구자들이 동분산의 가설을 기각하 는 경우에도 ANOVA검증을 실행하거나 또는 동분산의 검증을 실행조차 하지 않는 경우도 흔하다. 다만 그러한 방법이 원칙적으로는 올바르지 않다."

②만약, p>.05일 경우 두 모집단의 동분산성이라는 가설이 수용된다.

5) 다중비교

(1) ANOVA 즉 F 검증은 전반적으로 집단들간의 평균 차이가 유의미한 것인지를 단일 통계치를 통해 검증해준다.

(2) 여러 집단들의 평균 가운데 어느 두 집단의 평균이 같지 않아도 영가설을 기각 하게 된다. 그렇다면 어느 두 집단의 평균이 다른가라는 의문을 갖게 된다.

(3) 즉, 예를 들어 세 집단간의 차이가 존재하더라도 각각의 두 집단 별로 서로 차

(6)

이가 있는지를 살펴보고자 하는 경우 다중비교 (Multiple Comparison Procedure) 를 하게 된다.

예) 사회복지전문요원(1급), 사회복지전담공무원, 사회복지전문요원 중 1급자격증이 없는 경우의 3개 집단의 평균 근무시간이 같은지 검증하기 위해 ANOVA 검증을 한 결과 영가설이 기각되었다. 즉, 세 집단의 평균 근무시간이 통계적으로 유의미하게 다르지 않게 나타났다. 따라서 사회복지 전문요원과 일선 사회복지사, 일선사회복지 사와 관리자, 사회복지 전문요원과 관리자라는 세가지 비교가 가능하다. 이 비교들 가운데 하나만 차이가 난다해도 영가설은 기각된다.

(4) 사후검증의 종류(일반적으로)

① HSD(Honestly Significant Difference)검증 혹은 투키(Tukey)검증

② Bonferroni test: 쌍이 4쌍이하일 때 주로 사용한다.

③ Scheffe Test: 가능한 모든 쌍의 비교를 한다. 집단간 사례수가 같지 않은 경우 에 선호된다.

2. 이원분산분석(two-way ANOVA)

예) 성별(여성, 남성) 기관별(사회복지관, 동사무소) 월 평균 임금수준을 비교해보고 자 한다.

여성(N=30) 남성(N=35) 사회복지관

동사무소

1) 전제조건

(1) 각 표본들은 독립적으로 확률 표집이다.

즉, 각 사회복지사(여성-사회복지관, 남성-사회복지관, 여성-동사무소, 남성-동사 무소)는 독립되어 표집되어야 한다.

(2) 모든 행과 열의 조합에 의한 4개의 집단이 대표하는 모집단의 평균 소득이 정

(7)

규분포를 이루며 분산이 같아야 한다. (동분산성)

2) ANOVA의 계산

(1) 전체 분산

SStot=SSw+SSb1+SSb2+SSb1*b2

즉, 전체 분산은 각각의 독립변수의 집단간 분산(주효과), 각각 독립변수 범주별 집 단내 분산의 합 (오차), 그리고 두 독립변수의 상호작용에 의한 분산(상호작용효과, SSb1*b2)으로 이루어져 있다.

① 주효과: 각각의 독립변수의 집단간 변량. 즉, 두 독립변수가 종속변수에 대하여 각기 독자적으로 갖는 영향

② 상호작용효과: 두 독립변수가 동시에 함께 작용하는 영향

○ 위의 예와 관련하여:

주효과: 성별이 소득에 미치는 영향과 기관별 소득에 미치는 영향이 존재 상호작용효과: 성별과 기관이 동시에 고려되었을 때 소득에 미치는 영향이 존재

- 첫 번째 독립변수의 집단간 분산 추정치 = SSb₁/dfb₁ dfb₁=k₁-1, k₁=첫 번째 독립변수의 범주 수

- 두 번째 독립변수의 집단간 분산 추정치 = SSb₂/dfb₂ dfb₂=k₂-1, k₂=두 번째 독립변수의 범주 수

- 집단내 분산 추정치 = SSw/dfw dfw=N-(k₁*k₂-1). N=전체 사례수 - 상호작용 분산추정치 =

두 개의 독립변수의 교차에 의해서 생긴 집단들(k1Xk2)간의 집단간 분산의 합에서

‘첫번째 독립변수의 집단간 분산’과 ‘두번째 독립변수의 집단간 분산’을 뺀 것.

dfb1*b2=(k1-1)(k2-1)

① 주효과

일원분산분석과 같음.

- 첫 번째 독립변수의 주효과

(8)

F= 첫번째독립변수별집단간변량추정치 집단내변량추정치

- 두 번째 독립변수의 주효과

F= 두번째독립변수별집단간변량추정치 집단내변량추정치

② 상호작용효과

F= 상호작용변량의추정치집단내변량의추정치

○ 영가설: 위의 예

① 성별이 소득에 미치는 영향이 없다

② 기관이 소득에 미치는 영향이 없다

③ 성별과 기관의 종류가 소득에 미치는 영향이 없다

예) 45명의 사회복지사들을 대상으로 월 저축금액을 조사하여 이들이 일하는 지역 별 그리고 기관별로 월 저축금액을 분석한 결과 다음과 같이 나왔다.

대도시 중소도시 농촌

복지관 동사무소 병원 복지관 동사무소 병원 복지관 동사무소 병원

7 4 2 6 10 5 3 4 7

10 6 2 5 10 4 3 6 9

10 7 3 8 11 7 4 6 9

11 9 7 9 11 8 8 8 10

12 9 6 12 13 11 7 10 10

3) 유의도 검증

○ 1단계: ANOVA를 위한 전제조건

① 독립적인 확률 샘플링이다.

② 종속 변수가 등간-비율변수이다.

(9)

③ 각 독립변수 범주 별 표본이 대표하고자하는 모집단의 분산은 동일하다.

(동분산성)

④ 모집단들이 모두 정규분포를 이룬다.

○ 2단계: 전체 분산, 집단간 분산, 집단내 분산, 그리고 상호작용 분산 및 평균분 산을 구한다.

① 전체 분산 371.20

② 두 독립변수 개별 별 집단간 분산

㉠ 거주지별 집단간 분산을 구한다.

28.94, df=2

㉡ 대도시별 집단간 분산을 구한다.

19.61, df=2

③ 집단내 분산

168.80, df=N-(k1Xk2)=36

④ 상호작용 분산

202.4-(28.94+19.61)=153.85, df=4

○ 3단계: 주효과와 상호작용효과의 F값을 구한다.

① 주효과

㉠ 거주지별 저축에 미치는 효과

F= 168.80/3628.94/2 =4.69

㉡ 기관별 저축에 미치는 효과

F = 168.80/3619.61/2 =2.09

② 상호작용효과

F= 168.80/36153.85/4 =8.20

○ 4단계: 유의수준을 결정하고, 분자와 분모의 자유도를 고려하여 이에 합당한 기

(10)

준 F값을 찾는다(양측검증).

① 주효과

㉠ 거주지별 저축에 미치는 효과

유의수준=.01, 분자 자유도=2, 분모 자유도=36 F=5.18

㉡ 기관별 저축에 미치는 효과

유의수준=.01, 분자 자유도=2, 분모 자유도=36 F=5.18

② 상호작용효과

유의수준=.01, 분자 자유도=4, 분모 자유도=36 F=3.83

○ 5단계: 표본에 의해서 구해진 F값과 기준 F값을 서로 비교하여 영가설을 기각 혹은 수용을 결정한다.

① 주효과

㉠ 거주지별 저축에 미치는 효과

유의수준=.01, 분자 자유도=2, 분모 자유도=36 F=5.18>4,69

거주지별 저축에 미치는 영향이 없다.

㉡ 기관별 저축에 미치는 효과

유의수준=.01, 분자 자유도=2, 분모 자유도=36 F=5.18>2.09

기관별 저축에 미치는 영향이 없다.

② 상호작용효과

유의수준=.01, 분자 자유도=4, 분모 자유도=36 F=3.83<8.20

거주지역과 기관의 상호작용이 월 저축금액의 차이를 통계적으로 유의미하게 불러 일으키는 요인이다.

(11)

<요약표>

변수 자승화 자유도 분산의 추정치(평균자승) F 유의도

거주지역 28.94 2 14.47 3.09 >.01

기관 19.61 2 9.81 2.09 >.01

거 주 지 역 X 기

153.85 5 38.46 8.20 <.01

집단간 분산* 202.4 8 25.30 5.39 <.01

집단내 분산 168.8 36 4.69

전체분산 371.2 44

*집단간 분산=25.30/4.69

9개 전체 집단간 차이가 존재하는가를 살펴보기 위해서 이원분산분석을 실시한 결 과

.01수준에서 통계적으로 유의하다.

즉, 9개 집단간 월 저축 금액의 차이는 거주지역과 계층이 동시에 함께 고려한 영 향이 통계적으로 유의미하게 작용하였다.

참조

관련 문서

벡터제어용 유도전동기 시스템의 속도제어기로는 일반적으로 PI제어기 가 널리 이용되고 있다.이 PI제어기는 구조가 간단하며 구현이 용이하나 시스템의

She called from a friends house while he was on BART, so he couldn’t

따라서, 연필을 5개로 가장 많이 가지고 있습니다... 색연필은 모두

그런데 두 삼각형 ABC, AQC의 모양의 토지는 밑변이 AC”로 공통이고

두 쌍의 대각의 크기가 각각 같은

[r]

두 쌍의 대각의 크기가 각각 같은

신농은 삼실총 벽화에서는 긴 창을 세워든 소의 머리를 한 전쟁신으로 그려졌는데,6C고분벽화에는 손끝에 곡식 이삭을 든