분 산 분 석

(1)

분 산 분 석

(2)

목 차

1. 분산분석의 목적 2. 분산분석의 예

3. 분산분석에 사용되는 용어 4. 일원배치법

5. 이원배치법

(3)

1. 분산분석의 목적

a 연구대상인 특성은 몇 가지 인자에 의하여 영향을 받는다.

이 몇 가지 인자중에서 어느 인자에 따라서 가장 많이 영 향을 받는지를 결정하거나 이 인자를 어떻게 조절하면 최 적의 상태로 되는가의 조건을 결정하는 일이 중요하다.이 에 분산분석이 사용되어진다.

(4)

2. 분산분석의 정의

a

실험결과 생긴 자료의 분산을 각 인자에 기인하는 부분과 우연오차에 기인하는 부분으로 분해하고 인자에 기인하 는 분산과 우연오차에 기인하는 분산차이의 유의성을 검 증함으로써 각 인자의 영향을 가려내는 방법이다.

(5)

3.분산분석에 사용되는 용어

a인자(factor) : 실험결과에 영향을 미치는 원인 a수준(level) : 인자의 상태를 지정한 조건

a요인 (factorial factor) : 주효과와 교호작용의 원인이 되는

요소의 전체 (주효과, 교호작용)

(6)

*확률변수 : 한 동전을 2회 던지는 시행에서 앞면이 나오는 사건은 H, 뒷면이 나오는 사건 T 라 하고 표본 공간 S={TT,TH,HT,HH} 이 때 앞면의 수를 X라고 하면 X에의하여 표본공간의 원소에 앞면의 수를 대응시킬 수 있다. X(S)={0, 1, 1, 2}가 된다. 표본공 간 S의 각 원소를 어떤 규칙 X에 의하여 실수 x로 바꾸어 생각하는 경우 x=X(S)와 같이 X는 표본공간S를 정의구역으로 하 는 함수이다.

즉 표본공간을 정의구역으로 하는 실수 함수이다.

(7)

*귀무가설 : 어떤 회사제품의 전구의 평균수명은 1500시간이라고 주장하고 있다. 지금 이 회사의 전구중에서 36개를 무 작위추출하여 검사해보니 1478시간이었다.

이때 일반적으로 표본으로 뽑힌 모집단의 평균을 1500 이라 가정하고 이 가정은 모집단의 평균과 회사에서 주장하는 평균 1500과 차이가 없다라는 가정을 귀무 가설이라 한다.

*대립가설 : 귀무가설이 기각되는 경우 모집단의 평균은 1500이 아니라는 가정이다.

*유의적 : 표본평균값이 귀무가설를 기각할만큼 모집단평균값으로 부터 떨어진 상태를 유의적이라 한다.

*위험역 : 가설이 참인데도 기각할때 참인 가설을 기각하는 과오를 범하는 확률을 어느정도 허용하느냐의 기준을 유의수준 혹은 위험영역이라 한다.

(8)

.

1) - (n

1)

- (n

X i

.

n

1) - (n

0 )

X (

) X

( ) X

( X

X ,

X , X

i

X

1

i X

) X ,

X , (X

:

n 2

1

_ i

_ n

_ 2

_ 1

n

1

_ i

n 2

1 n 2

1

_ i

n 2

1

_ i

n 2

1

X X

이다

자유도는 가지므로

독립변수를 개의

값은 의

평방합 따라서

된다 결정이

머지값에의하여

나머 는

변수 제

수있으나 취할

자유로이 값은

개의

의 중

이 있으므로

관계가 인

수사이에는

변 들 이 보이지만

개로 의

겉보기로는

수는 변수의

좌우하는 값을

의 이유는

그

자유도는 대하여

에 평방합

에서 표본

자유도 임의의

∑

=

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛ −

=

− +

⋅

⋅ +

− +

−

⎟ =

⎟

⎠

⎞

⎜⎜

⎝

⎛ −

⋅

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛ −

⎟ −

⎟

⎠

⎞

⎜⎜

⎝

⎛ −

⋅

∗ ⋅

i i

X

X X

n

(9)

4. 일원배치법

a

3개 이상의 평균의 균일성을 검증하는데 사용되는 방 법

a 일원배치표

/

n T

/

n T

x

x x

x A

/

n T

x

x x

x A

/

n T

x

x x

x A

/

n T

x

x x

x A

A

.. ..

_ ..

. . _ k

k.

knk kj

k2 k1

k

. . _ i

i.

ini ij

i2 i1

i

2 .

. 2 2 _ 2

2.

2n2 2j

22 21

2

1 . . 1

1 _ 1

1.

1n1 1j

12 11

1

x x

x x x

n T

n k

n T

k k k

i i i

=

⋅⋅

⋅

⋅⋅

⋅

=

⋅⋅

⋅

⋅⋅

⋅

=

⋅⋅

⋅

⋅⋅

⋅

=

⋅⋅

⋅

⋅⋅

⋅

계

평균 자료수

계 자료값

인자

Μ Μ

Μ

(10)

) , 0 (

j i, :

A

:

j

Xi,

j Xi,

j xi,

2 j

i,

i i

j i, i

α ε

α µ

ε α

µ

정규분포 실험오차로서

나타나는 관계없이

와

상수 가리키는

주효과를 의

수준

평균 자료전체의

이

를 확률변수 나타난

로 실측값

+ +

=

(11)

평방합 대한

전체에 자료

즉 합 제곱의 차의

의 와 전체평균

자료의 와

변수 각

..

: ) variation total

(

(1)

..)

( )

variation total

(

1 ) , .

1 . (

1

1 ) ( .

.

) 1 (

1 .

_ 1

2 _

1

1 _

1 _ _

_

1 1

_

1 _

_

1 1

_

S X S X X X

T ij

n

j

ij k

i T

n

i

ij i

n

i i i

i i

n

j

ij k

i i

n

i

ij i

i

ij n

i

i i

n

i

ij i

X X

i n i n

n X ij

i n i

X n i n

j

i j i

i i

i

∑

= ∑

∑

=

−

=

= +

+

=

= +

+

=

+ +

=

ε α

α α

µ

ε α

µ

ε α

µ

ε ε

ε

(12)

k 2

1 i

_ _

2 _ k 2

1 i

_ _

1 k _

1 i

_ _

2 _

_ _

T

T T

) ..

. (

.)

(

) ..

. (

.) (

) ..

. (

2 .)

(

)}

..

. (

.) {(

S

다 )

1 (

1

S

X X

∑

∑∑

∑

∑∑

=

− +

−

=

− +

−

− +

−

=

− +

−

=

−

=

i X i

i

X i i

X i

i X i

n

X X

X

X X

X

X X

i j

ij

n

j

ij

i j

ij

i j

ij

i

변형하면 같이

음과 식을

자유도 의

전변동

ν

(13)

1 - k

.. ) ( .

) (

S

) 1 n

i. )

( (

) 1 (n

i. )

( )

( S

A

2 _

k _

1 i A

i n

1 j

2 _

k

1 i

i E

2 k

1 1

_ E

X X

X

=

−

=

−

=

−

=

−

=

∑

∑∑

=

= =

ν ν

자유도

변동 급간

자유도는 의

자유도

급내변동

n i X

k n

X

i ij i

n

j

ij

i

Θ

(14)

2 _ _

i.

i 1

2 _ i

_ i

1 2

_ _

1

2 _

1

i 1

ij

_ i

_ ij

i

2 _ i

k

1

i 1

ij i

2 k

1 i

_

1 E

.. ) ( i.

.. )}

i. )

{(

.. ) ( .

i. ) (

i.

.

,

i. )}

( )

{(

. )

(

S

ε ε

ε

α α

α µ

ε

α µ

ε α

µ

α µ

ε α

µ

− +

=

+ +

− +

+

=

−

=

−

=

+ +

= +

+

=

+ +

− +

+

=

−

=

∑ −

∑

∑∑

=

= =

k

i

k

i

i k

i

i A

j ij

n

j ij

n

j

n

i n n

S

X i

X X

X

ⁱ

i

(15)

. F

k

- n 1,

- k

F

V 1

V

: H

"

A E

k 2

1

0

한다 분포를

인 자유도

분모의 자유도

분자의 이는

분산비 이들의

불편분산 급간

급내불편분산

세우면 를

귀무가설 즉

가설 라는

없다 차이가

사이에 주효과

수준의 각

E A

A A

A

E E

E

i

V V

k S V

S

k n

S V

S

=

= −

=

= −

=

⋅⋅

⋅

=

= α α α

α

(16)

E A

a T

E A

T E

a 2

2 ..

2 . A

T 2

..

T 0

V F V

V

V 1

S

S S

) (

1

) (

S

1

) (

S (2)

.

A

: H )

1 (

=

= −

−

=

−

=

−

=

−

=

−

=

−

=

−

=

∑

∑∑

∗

분산비 불편분산

오차 급내변동

급간변동 전변동

없다 차이가

주효과의 수준사이에

의 인자

가설

분산분석 일원배치의

k n

S k

S

k n n k

T n

T

n n x T

E A

i i

i

i j

ij

ν ν

ν

(17)

(4)

A

) ( F F

(3) _n^k_-^-_k¹

작성 분산분석표

유의적 차이는

효과의 수준간

의한 에

인자 즉

기각 가설을

로 유의수준

이면

우측검정 ≥

α α

1

- n S

k - n / S V

k -

n S

) ( F V / V F

1 - /k S V

1

- k S

T

E E

E

1 - k

k - n E

A A

전 급내 급간

판정기준 분산비

불편분산 자유도

평방합 요인

=

= α

*두 수준간의 평균의 차의 검정

분석결과 수준간의 주효과의 유의차가 인정되면 각 수준중의 어느 두 수준의 평균차가 유의적인가를 알아보는 것이다.

이때 귀무가설을 검정할때의 유의수준의 위험역은 양측검 과 우측검정으로 한다.

(18)

좌측검정 우측검정 양측검정

불편분산 이때의

표본평균값 표본값 얻은

추출하여 표본을

인 크기

각각 독립적으로

서로 에서

세운다 가설을

같다라는 모평균이

대하여 에

정규분포집단 두

같은 모분산이

검정 평균차의

(5) (4) (3)

/ 1 /

1 t

} ) (

) (

2{ 1

1

, 1

) ,

(y ), ,

(x

, n

B

(2)A,

.

B

A, ) 1 (

) , ( : ), ,

( :

2 1

_ _

2 _

1 1

2 _

2 1

2

1 1 _

2 2

1 1

2 1

2 2

x y

x y x y

2 2

n n

y n x

n

n y n x

y y

x x

n

N B N

A

n

i

i n

i

i n

i i n

i i

n n

i i

− +

=

− +

− −

= +

=

∗

∧

=

∧

=

∑

σ σ

σ µ σ

µ

Κ Κ

(19)

) / 1 /

1 ( )

2 ( x

(2)

) / 1 /

1 ( )

( x

(1)

0.01_)

0.05

. t

)

/ 1 /

1 T (

:

i

. i.

E .

.

j i

E k

n j

j i

E k

n j

j i

E

j i

n n

V t

x

n n

V t

x

k n n

n V

X X

j

+

≥

−

+

≥

−

=

− + =

= −

= +

+ +

−

α α

α ν α

α α

µ α

µ

α µ

우측검정 양측검정 위험역은 인

또는 유의수준

검정할때의 을

귀무가설 따라서

한다 분포를

인 자유도

인 즉

가설

이면 모평균을

수준의 째

와 모평균

수준의 째

ㅑ

(20)

Ex)어떤 합성반응에서 촉매의 양이 합성물의 생산량에 영향을 알기취해 촉매의 양을 2g, 4g, 6g 의 3수준으로 하여 각 수준 마다 4회씩 실험한 결과 다음과 같은 자료를 얻었다. 촉매 의 양은 합성물의 생성량에 영향을 미친다고 할 수 있는가?

u_ij = x_ij-77 (77은 가평균)과 같이 변환함으로써 자료값 x_ij 를 u_ij 로 고치면

79 80 85 82 ) 6 (

78 75 81 79 ) 4 (

67 73 69 74 ) 2 (

3 2 1

g A

생성량 촉매량

974 2

-

324 18 2 3 8 5

25 5

1 2 - 4 2

625 25 - 10 - 4 - 8 - 3 -

) (

77 u

3 2 1

2 ij

계

계 계

인자

A A A

x A = _ij −

(21)

CT=(-2)²/12=0.33

전변동 : S_T={(-3)²+(-8)²+(-4)²+(-10)²+(2)²+(4)²+(-2)²+(1)²+(5)² +(8)²+(3)²+(2)²}- CT=316-0=316

전변동의 자유도 12-1=11

촉매량간변동 : S_A={(-25²/4)+(-5²/4)+(18²/4)- CT=244 촉매량간변동의 자유도 3-1=2

촉매량내변동 : S_E=S_T-S_A=72 자유도 11-2=9

11 316

02

. 8 ) 01 . 0 ( F

8

9 72

26 . 4 ) 05 . 0 ( F 15.2

122

2 244

2 9

전 급내 급간

판정기준 분산비

불편분산 자유도

평방합 요인

=

(22)

위의 예제 각 촉매량에 대한 평균의 차의 유의성을 개별적으로 비교하면

500 . 6 )

4 / 1 4 / 1 ( )

01 . 0 ( t

524 . 4 )

4 / 1 4 / 1 ( )

05 . 0 ( t

8

, 4

250 . 3 )

01 . 0 ( t , 262 . 2 )

05 . 0 ( t

9

50 . 81 4 77

18

25 . 78 4 77

5

70.25

77 4

25 - ,

,

6g , 4g , 2g

9 9

E 4

3 2

1

9 9

. 3 _

. 2 _ .

1 _

. 3 _ .

2 _

. 1 _

x

x x

x

= +

=

∴

= +

=

= +

=

= +

=

E E

V V

n n

n

n ν

자유도 오차변동의

하면 라

각각 평균을

생성량의 합성물

대한 에

촉매량

(23)

.

4.524 )

4 / 1 4 / 1 ( )

05 . 0 ( t 25 . 3 25

. 81 25

. 78

. 3 .

. 2 3

.

1%

5

. 6 )

4 / 1 4 / 1 ( )

01 . 0 ( t 0 . 11 25

. 81 25

. 70

. 2 .

. 1 2

.

1%

5

. 6 )

4 / 1 4 / 1 ( )

01 . 0 ( t 0 . 8 25

. 78 25

. 70

. 2 .

. 1 1

9 _

_

9 _

_

9 _

_

아니다 유의적이

차 의 과

유의적이다 으로

유의수준 차 의 과

유의적이다 으로

유의수준 차 의 과

⇒

= +

〉

=

−

=

⇒

= +

〉

=

−

=

⇒

= +

〉

=

−

=

E E E

V V V

x x

x

(24)

5. 이원배치법

a 두 인자 A,B가 있어서 인자 A의 수준은 k개, 인잔 B의 수 준은 l개가 있다고 하면 A수준의 A_i와 B수준의 B_j가 결합 된 조건(A_i,B_j)에서의 측정값 x_ij를 얻으면 이 실험을 이원 배치라하고 이원배치표에서 인자의 각 수준에서의 측정 값이 가로로 배열된것을 행 (행인자), 세로로 배열된 것을 열 (열인자)

(25)

..

_ .

_ 2

. _ 1

. _

..

.l .j

.2 i1

. _ k.

kl kj

k2 k1

k

. _ i.

il ij

i2 i1

i

. 2 _ 2.

2l ij

22 21

2

. 1 _ 1.

1l ij

12 11

1

l j

2 1

x x

x

x x

T

T T

T

x

x x

A

T

x

x A

T

x

x x

A

T

x

x x

A

B

B B

B

l j

k i

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

평균 계

Μ Μ

Μ

(26)

) , 0 (

j i, :

B

, A

: ,

:

j Xi,

j

xi,

2 j

i,

j i

j i, j

i

α ε

β α

µ

ε β

α µ

정규분포 실험오차로서

나타나는 관계없이

와

상수 가리키는

주효과를 의

수준

평균 모

자료전체의 이

를 확률변수 나타난

로 실측값

+ +

+

=

(27)

평방합 대한

전체에 자료

즉 합 제곱의 차의

의 와 전체평균

자료의 와

변수 각

마찬가지로 일원배치법과

ㅣ

..

: on) variati total

(

(1)

..)

( on)

variati total

(

1 ) , .

1 . (

1

1 ) ( .

.

) 1 (

1 .

_ 1

2 _

1

1 _

1 _ _

_

1 1

_

1 _

_

1 1

_

S X S X X X

T ij

j

ij k

i T

n

i

ij i

n

i i i

i i

n

j

ij k

i i

n

i

ij i

i

ij n

i

i i

n

i

ij i

X X

i n i n

n X ij

i n i

X n i n

i j i

i i

i

∑

= ∑

∑

=

−

=

= +

+

=

= +

+

=

+ +

=

ε α

α α

µ

ε α

µ

ε α

µ

ε ε

ε

(28)

∑∑

∑

∑∑

+ +

−

=

+ +

− +

−

=

−

=

i j

ij

i i k

l

i i X i

kl

X X

X X X

2 _ _

_ ij

2 _ _

2

i

_ _

2 _ _

_ ij

_ _

_ T

T T

..) - .j

. -

X (

..) ( .j

) ..

. (

..)}

- .j . -

(X ..) ( .j

) ..

. (

.) {(

S

다

)

1 (

1

S

X X

X X X

X X X X

X

변형하면 같이

음과 식을

자유도 의

전변동

ν

(29)

1) - 1)(l -

(k 1)

- ( - 1) - ( - 1) - (

S S

..) - .j

. -

X ( S

1

..)

( .j S

B

1

) ..

. (

S A

B A

E E

B A

T

2 _ _

_ ij

E

B 2

_ _ B

A 2

i

_ _

A

X X X X

X

=

−

= +

+

=

∴

+

=

−

= +

=

−

=

−

=

∑∑

∑

l k

kl i

l k

i k l

T

i j

X X

ν ν

자유도 오차변동의

오차변동

자유도 간변동

(30)

2 _ _

i

1

2 _ _

i

1

2 _ _

_

1

i 1

ij E

j _

1 _

_ _ _

j

_

_ i

_ ij

i

.. ) ( .ji.

.. ) ( i.

.. ) - .j

i.

( S

) kl

1 , ..

1 , .j.

1 ( i.

..

.j. ,

.

i.

.

,

-

X

ε ε

ε ε ε

ε ε

ε

β α

ε

ε ε

ε

µ β

µ

α µ

ε α

µ

− +

=

− +

=

−

=

+

= +

+

=

+ +

= +

+

=

∑

∑∑

∑

=

= =

=

l

i B

k

i A

j

i

ij k

i

ij l

j

ij ij

k S

l S

k l

j X i

X

단

(31)

.

F

1) - 1)(l -

(k 1,

- l

F

, V 1

0

: H

F

, V 1

0

: H

) 1 )(

1 V (

0

: H

0

: H

A

0 A

0 E

0

한다 분포를

인 자유도

분모의 자유도

분자의 이는

분산비 참이면 가

가설

분산비 참이면 가

가설 가설 가설

E B A

B B

j

E A A

A A

i

E E

E

j i

V V l

S V

S

V V k

S V

S

l k

S V

S

− =

=

− =

=

−

= −

=

β α

β α β α

(32)

따라서 일원배치법의 경우와 마찬가지로 인자 A ,B의 각 수준의 평균의 균일성의 검정을 분산분석표에 의해 할 수 있다.

또한 각 수준의 평균의 차를 개별적으로 검정할때의 위험역 을 일원배치법의 경우와 마찬가지로 결정할 수 있다.