• 검색 결과가 없습니다.

Probability and Statistics for Environmental Engineers

N/A
N/A
Protected

Academic year: 2022

Share "Probability and Statistics for Environmental Engineers"

Copied!
16
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Probability and Statistics for Environmental Engineers

부산가톨릭대학교 환경공학과 2학년

(2)

환경통계학

9. 분산분석

(3)

Introduction to ANOVA

앞서, 우리는 모수적 검증(parametric test)방법을 통해 두 집단간의 평균 비교 방법을 살펴보았음.

만일 비교대상 집단이 3개라면?? 혹은 그 이상이라면?

Pairwise 비교??

이러한 경우 쓸 수 있는 방법  Analysis of Variance (ANOVA)

구분 단변량 분산분석

One-way ANOVA Two-way ANOVA Multi-way ANOVA MANOVA

독립변수 1개 2개 3개 이상 1개 이상

종속변수 1개 2개 이상

(4)

One way ANOVA

귀무가설

pulping 공정(나무의 섬유질을 느슨하게 하여 종이를 만들게끔하는 공정)의 a,b,c,d 네 가지 표본, 물을 얼마만큼 쓰는가.

Table 10.1 (page 85)

분석의 목적 : a,b,c,d 네 군데의 공장에서 물을 쓰는 양이 유의한 차이 가 있는가

(5)

Figure 10.1 and BOX 10.1(page 86-88)

A, C, D 공정은 1톤 펄프에 비슷한 양의 물을 쓰는 것으로 보인다.

B는 좀 덜 쓰는것으로 보인다

모든 모든 공정에서의 분산은 비슷한 것으로 보인다.

Total variation = variation between samples + variation within samples

If the samples are drawn from the same normal population the two sources of variation(within and between) will be the same.

This is tested as the ration of the two variances, which follows the ‘F distribution’.

F= , by Table VIII (page 198-201) Variance between samples Variance within samples

(6)

분산의 구성

1) 집단내 분산(within group variation)은 각 집단의 평균치를 중심으로 집단요소 들의 측정치가 얼마나 퍼져 있는가

2) 집단간 분산(among group variation)은 각 집단의 평균들이 전체 평균에서 얼 마나 떨어져 있는가

3) 전체분산(total variation)은 각 표본의 측정치들이 전체 평균으로부터 얼마나 떨어져 있는가

그룹내 분산(WSS) + 그룹간 분산(BSS) = 총분산(TSS)

(7)

Introduction to ANOVA

앞서, 우리는 모수적 검증(parametric test)방법을 통해 두 집단간의 평균 비교 방법을 살펴보았음.

만일 비교대상 집단이 3개라면?? 혹은 그 이상이라면?

Pairwise 비교?? 타당하지 않다

이유는?

만약 5 set의 표본 평균들을 대상으로 유의수준 5%인 검정을 10 times 실시

실제 이들 평균들 간 차이가 없을 경우 옳은 결론을 내릴 확률은 한 쌍에서 0.95

10 times 모두의 t-검정에서 올바른 결론을 내릴 확률은 (0.95)^10

이는 적어도 djsm 하나의 검정이 잘못된 결론을 내리게 될 확률이 1- (0.95)^2=0.401이라는 말

이러한 경우 쓸 수 있는 방법  Analysis of Variance (ANOVA)

구분 단변량 분산분석

One-way ANOVA Two-way ANOVA Multi-way ANOVA MANOVA

독립변수 1개 2개 3개 이상 1개 이상

종속변수 1개 2개 이상

(8)

분산분석의 개념적 정의

“반응값들이 서로 다른 정도”를 나타내는 “분산”을, 그 원인에 따라 “나누는”, 즉 “분석하는” 통계적 방법

실제로는 “분산”이 아닌 “제곱합”을 분할 제곱합 ⇒ 분산공식의 분자에 있는 값

(9)

분산의 분리

모든 실험은 여러가지 요인에 의해 영향을 받으며

이러한 요인은 의도한 것일 수도 있으며 의도하지 않은 것일 수도 있음

의도한 것의 요인일 경우  설명할 수 있는 요인에 기인하는 variation

의도하지 않은 요인(통제할 수 없는 요인)  우연히 발생하였다고 볼 수 있는 variation (또는 설명이 안되는 variation, 혹은 error)

이와 같이 구분하여 비교함으로써, 각 요인의 effects 유무에 관한 판정을 시도

그룹간의 평균의 차이가 우연한 오차현상에 기인하는것인가?

그룹간의 진정한 차이에 의한 것인가?

(10)

분산의 구성

1) 집단내 분산(within group variation)은 각 집단의 평균치를 중심으로 집단요소 들의 측정치가 얼마나 퍼져 있는가

2) 집단간 분산(between group variation)은 각 집단의 평균들이 전체 평균에서 얼 마나 떨어져 있는가

3) 전체분산(total variation)은 각 표본의 측정치들이 전체 평균으로부터 얼마나 떨어져 있는가

(11)

그룹간 , 그룹 내 분산의 개념

총 분산 = 그룹 간 분산(Between)+ 그룹 내 분산(Within)

총 분산 = 어떤 요인에 의해 생긴 분산 + 오차에 의해 생긴 분산

개개의 관측치는 평균에 에러를 더한 것이라는 개념에 기초함

분산, Variation  제곱합(Sum of squares, SS)으로 표현

제곱합(SS)  평균과의 차이를 제곱한 값들의 합

총 분산 그룹 간 분산(k groups) 그룹 내 분산(ni) 수집된 데이터 전체가 가

지는 변동, 전체분산 어떤 요인에 의해 생긴 변

동, 처리(“treatments”)된 분

표본 내 변동에 대한 척도, 오차에 의한 그룹 내 변동

SStotal,

SST(Total Sum of Squares, 총 제곱합)

SSbetween, SSTr,(Treatment Sum of Squares) 처리제곱

SSwithin, SSE(Error Sum of Squares), 오차제곱합 SStotal – SSbetween

2 2

( ) /

x x n

∑ ∑ ∑

Ti2 /ni (

x) /2 n

2 2

. ..

1 k

i k T

i

n x n x

=

2 2.

1 1 1

ni

k k

ij i i

i j i

x n x

= = =

∑∑

(12)

ANOVA Table(분산분석표)

Source of Variation 변동 자유도 SS

(Sum of Squares)

MS (Mean of Squares )

검정

Between samples 요인 k-1

(df1) SSTr MSTr

=SSTr/df1 F=MSTr/MSE

~ F(k-1, n-k) (one-tailed,

요인에 의한 변동 이 에러에 의한 변 동보다 커야 귀무 가설 기각하므로) Within samples 오차 n-k

(df2) SSE MSE

=SSE/df2

Total 총합 n-1 SST

F 분포의 의미

그룹 간 변동이 그룹 내 변동에 비하여 크다고 할 수 없을 경우,

그룹 내부 변동이 우연히 발생한 것 (통제할 수 없는 변인에 의한 것)이라고 간주하므로…

그룹 간의 변동도 유의하게 다르다고 말할 수 없다!

F 값이 크면 클수록 높은 유의수준을 하에서 귀무가설을 기각하게 됨

(Box 10.1)5%의 유의수준에서의 경우 F는 3.10보다 커야 귀무가설을 기각

(Box 10.1)1%의 유의수준에서 F는 8.10보다 커야 귀무가설을 기각 (F 분포 표 참조 )

(13)

One way ANOVA

귀무가설

pulping 공정(나무의 섬유질을 느슨하게 하여 종이를 만들게끔하는 공정)의 a,b,c,d 네 가지 표본, 물을 얼마만큼 쓰는가.

Table 10.1 (page 85)

분석의 목적 : a,b,c,d 네 군데의 공장에서 물을 쓰는 양이 유의한 차이 가 있는가

(14)

Figure 10.1 and BOX 10.1(page 86-88)

A, C, D 공정은 1톤 펄프에 비슷한 양의 물을 쓰는 것으로 보인다.

B는 좀 덜 쓰는것으로 보인다

모든 모든 공정에서의 분산은 비슷한 것으로 보인다.

Total variation = variation between samples + variation within samples

If the samples are drawn from the same normal population the two sources of variation(within and between) will be the same.

This is tested as the ration of the two variances, which follows the ‘F distribution’.

F= , by Table VIII (page 198-201) Variance between samples Variance within samples

(15)

10.1 Assumptions for ANOVA

각 모집단의 분산은 등분산이어야 한다는 가정이 필요

분산(변동)의 비(ratio)가 F-검정을 따른다는 것을 이용하여 분석하므 로 가정을 하게 되는데 이것이 정규성 가정 (normality assumption)

등분산 가정이나 정규성 가정이 만족하지 않는 경우 사용되는 비모수 검정 방법으로 Median 검정 일반, Kruskal-Wallis 분석(10.2) 방법이 있음

(16)

10.3 Two way ANOVA

Total variation = SSwithin + SSbetweenA+SSbetweenB+SSinteraction

A, B  two variables

Interaction sum of squares is a measure of the dependence of on set of factors on another.

Is there a significant difference between the means of variable A, and is there a significant difference between the means of

variable B?

참조

관련 문서

ALVV is the control that regulates link voltage variation proportional to the output voltage variation to maintain unity dc gain of the LLC

Compressive modulus of the samples is affected by degree of porosity, ratio of PLLA/PCL in porous scaffold and its crystallinity. The porosity, however, plays the main role

본 연구는 2016년도 GETR 데이터를 활용하여 국가별(유형별) 개인의 기업가정 신을 비교하고, 창업단계별 기업가정신 수준 비교 및 개인의 기업가정신을 제고할 수

Modern Physics for Scientists and Engineers International Edition,

In our study of 52 coronary artery disease patients undergoing several mea- surements of studied parameters, we observed a significant association between heart

Offices for minimum forty people for AIT management, test equipment operators, test engineers, maintenance staff are necessary. In addition, many extra offices for

본 연구의 결과는 한 건강행위 유형을 기준으로 다른 건강행태 유형에 건강 어떤 변수가 유의 한가를 선택할 수는 없었으나 건강행태 유형들과 특성들간의 연관성을 종합적으로

11 Output voltage variation according to anhy- steretization intensity at the three different magnetic state shown in Fig.. 12 Output voltage variation according to