Probability and Statistics for Environmental Engineers

(1)

Probability and Statistics for Environmental Engineers

부산가톨릭대학교 환경공학과 2학년

(2)

환경통계학

10. 상관분석

(3)

Introduction

 상관분석 : 한 변수가 다른 변수와 함께 어떠한 양상으로 변화하는가 를 보고자 할 때

 예) 지의류인 Evernia prunastri의 도심지 근교에서의 엽상체 크기 측 정

 도시의 대기오염이 지의류의 성장에 영향을 미치는가를 보고자 할 때

 도시 중심에서 외곽으로 거리가 멀어질수록 엽상체 크기가 큰 지의류 발견

 Fig. 11.1 ) x축 – 거리, y축 – 엽상체 크기

 측정 결과를 볼 때, 거리가 가까워질수록 성장 저해를 받는 것으로 추측됨

 그래프화 해 볼 때, 이상치(outlier, wildshot)도 발견할 수 있음

 Evernia가 대기중의 이산화황 농도에 민감하다는 연구결과를 내려면???

 상관분석으로 두 변수의 변동 경향을 볼 수 있으나 “민감하다” 또는 “영향을 받 는다”라는 두 변수 사이의 관계를 밝혀낼 수는 없음

(4)

 상관계수가 어떻게 변하는가.. -1 ~ +1사이의 값을 가짐

 Fig. 11.2(a) 거의 ‘perfect’인 관계를 보이며, 상관계수는 1에 가깝겠음

 Fig. 11.2(b) : 상관계수는 1보다 많이 작을 것이나, (a), (b) 모두 양의 상관계수 를 가질 것은 분명함.

 Fig. 11.2(c) : 한 변수가 증가할때 다른 변수는 감소하는 경향, 음의 상관계수

 상관계수 “r “

(5)

Covariance

 두 변수가 존재하고 변수간의 퍼짐의 정도를 의미

 분산 : 각 데이터가 평균에서 얼마나 멀어져 있는가를 “(편차의 제곱의 합)/자유도”로 표현

 공분산 : 두 변수의 쌍(x,y)가 얼마나 두 변수의 평균점(bar x, bar y)에 서 멀어져 있는가를 각 “차이의 합/자유도”로 표현

 Fig(11.3) (여기서, 분모에 n-1이 들어가는것은 이 집단을 모집단으로 간주한다는 뜻임)

x의 분산

x,y의 공분산

(6)

11.1 Product-moment correlation

 양의 상관이 있을 때- 공분산은 양의 값

 규칙성이 없을 때(상관이 없는 관계) – 공분산은 0에 가까운 값

 음의 상관이 있을 때 – 공분산은 음의 값

 공분산의 정의 식에서도 알 수 있듯이 데이터의 단위에 영향을 받으므로, 단위 가 다른 두 개의 데이터 사이에서는 공분산의 값을 비교할 수 없음

 이 결점을 보완하는 지표가 상관계수( r, Pearson’s r)

 두 변량 x, y의 상관계수는 r^xy로 표기하고 다음과 같이 정의함(Box 11.1)



 x, y의 공분산을 각각의 표준편차로 나눈 값 (-1이상 1이하)

 1에 가까울수록 양의 상관이 강하고

 -1에 가까울수록 음의 상관이 강하다. 0에 가까울수록 상관이 없다

 데이터가 표준화되어 있을 경우 상관계수는 공분산과 일치한다

 (표준화된 데이터에서는 평균은 0, 분산은 1이 되기 때문)

(7)

참고

) 데이터 표준화

 데이터 표준화 z

 z의 평균은 0, 분산은 1이 된다

 z가 양수라면 그 값은 평균보다도 크고, 음수라면 표준보다 작다

 z의 크기가 1보다 크면 평균으로부터 크게 떨어져 있다

(8)

Introduction

 하나의 변수와 또 다른 하나의 변수의 관계를 간략한 수학적 식으로 표현

 때때로 간단한 Prediction, Estimation에 유용하게 쓰임.

 일련의 측정 간격을 가지는 모든 실험에서 측정 간격 사이의 값이 궁금할때

 예) 해수 내 살충제의 농도

 일정 농도를 정하고 해수에 투입한 후

 일정 간격의 시간으로 샘플링을 수행한다

 실험중의 온도, 염도, pH 등의 인자들을 가능한 한 일정하게 유지해야 함

 실험환경을 엄격히 control 해 주어야 하는 경우

 하나의 변수(예:시간)의 영향만 보고자 하는 실험

 Model 1 Regression analysis를 사용

(9)

Variables

 “x” variable ===> independent variable, 독립변수

 높은 정확도를 가지고, 최소한의 에러로 측정되어야 함

 “y” variable ===> dependent variable, 종속변수

 측정 에러는 정규분포를 따라야 함

 Model 1 regression analysis : 종속변수의 변화를 실험으로 측정함에 있어 계획된 독립변수의 변화에 따라 관찰된 경우

 Model 2 regression analysis : 종속변수와 독립변수가 랜덤한 측정값 을 가지는 경우

 변수의 “control”이 힘든 현장연구의 경우 적합

(10)

12.1 The straight line equation

12.2 The least squares line for a model 1 regression

 y=a+bx

 모든 점이 일직선상에 존재하는 경우는 극히 드물다

 “Best fit”을 만들어내는 수식을 찾는 방법  최소자승법

 “least squares method”

 그림 12.3(b)의 “d”의 제곱의 합이 최소가 되는 라인을 찾는 것

 절편 a를 찾기 위해, x의 평균과 y의 평균을 사용(regression line상에 존재)

 Box 12.1 Model 1 Regression line calculation

(11)

12.3 Significance of model 1 regression coefficient

 아무리 잘 control 한 상태에서 실험을 수행한다고 해도 변수 각각에 대한 error는 존재한다

 특히, 종속변수의 error는 회귀식의 변수들(a,b)의 값을 변화시키는 결과를 낳음

 Error 때문에 독립변수와 종속변수 간의 “관계가 없다”고 오판하는 경우도 존재 함

 가설) 종속변수의 모집단과 독립변수 간의 regression을 수행하였을 때의 기울 기, β

H0 : β=0 H¹ : β≠0

 이를 t-test 혹은 분산분석을 통해 검정 하거나 분석

(12)

12.3.1 t-test of the regression

 아무리 잘 control 한 상태에서 실험을 수행한다고 해도 변수 각각에 대한 error는 존재한다

 특히, 종속변수의 error는 회귀식의 변수들(a,b)의 값을 변화시키는 결과를 낳음

 Error 때문에 독립변수와 종속변수 간의 “관계가 없다”고 오판하는 경우도 존재 함

 가설) 종속변수의 모집단과 독립변수 간의 regression을 수행하였을 때의 기울 기, β

H0 : β=0 H¹ : β≠0

 이를 t-test 혹은 분산분석을 통해 검정 하거나 분석

(13)

12.3.1 t-test of the regression

 Step 1) Residual variance S^yx² 계산(error term, S²^error)

 Step 2) standard deviation of the slope (S^b) 계산

 Step 3) t=b/S^b 계산 후 검정 수행

 기울기 b의 신뢰구간 (Confidence interval of b)  b ± t^0.05,3 *S^b

Box 12.2) 1.859 ± 3.182*0.403 = 1.859 ± 1.283  3.141 ~ 0.576

SSy SSx

Sum of products

(14)

12.5 Model 1 regression and the analysis of variance

 SS^total = SS^regression + SS^e

 SSregression = the sum of squares for regression

 SSerror = “residual unexplained sum of squared deviations) SSe = SStotal –Ssregression

 SStotal = total sum of squared deviations for y

 ANOVA table

= (Sum of products)² SSx

Source of

variation df SS MS F

Regression 1 25.23 25.23 21.2

(by Table VIII, df 1 and 3)

Error 3 (n-2) 3.563 1.188

Total 4 (n-1) 28.79

(15)

12.6 Coefficient of determination 12.7 Origin forcing

 결정계수(Coefficient of determination) = r2

 상관계수의 제곱과 같음

 실험의 특성상 독립변수와 종속변수의 관계가 (0,0) 원점을 지난다는 사실을 알고 있는 경우, y=bx

/ 2

b =

∑ ∑

xy x

(16)

12.8 The prediction interval and

confidence interval for estimations of y

 회귀직선을 사용하여 측정 간격 사이의 값을 유추하고자 할 때, 그 값 은 어떤 범위를 가지면서 유의하게 분포할 것인가

 bank vole의 신장 내 카드뮴의 농도에 대해 y=-0.644+1.859x 에서

5개월 월령의 bank vole의 신장 내 카드뮴 농도는 8.651로 계산되어 추정됨

 더 많은 data 혹은 전수조사가 행해진다면 다른 b 가 얻어질 수 있으며, 이는 곧 다른 수치가 추정값으로 제시될 수 있음을 의미함

 그렇다면, y 변수 내에 존재하는 에러의 규모를 가늠할 무언가가 필요 하다…

(17)

12.8 The prediction interval and

confidence interval for estimations of y

 Confidence interval

 개개의 y 값이 가지는 95% 신뢰구간의 범위

 Prediction interval

 모든 y 값의 평균이 가지는 95% 신뢰구간의 범위

 Box 12.4

2

2 1 ( )

ˆ { _yx[1 ⁱ ]}

x

x x y t S

n SS

± + + −

어떤 x에 대해 회귀직선에 의해 계산된 y 값

(18)

12.10 Model 1 regression for cases where there are several y values for each x

value

 앞서의 예에선 1개의 월령에 1개의 측정 데이터가 존재하였음

 하나의 x (독립변수)의 조건에 여러 개의 측정값이 존재할 경우는?

 회귀직선의 a, b 는 앞에서 설명한 것과 동일한 방법으로 구함

 회귀 통계량은 ANOVA의 원리에 의해 구함

2

2 1 ( )

ˆ { _yx[ ⁱ ] _within}

x

x x

y t S MS

n SS

± + − +

어떤 x에 대해 회귀직선에 의해 계산된 y 값

2 2

[( / ) ( ) / ]

within total i i

SS = SS − ∑ y n − ∑ y n

(19)

12.11 Model 2 regression

 Fig. 12.4 (127 page) (b)

 이러한 경우 x 축의 변수와 y 축의 변수를 독립변수와 종속변수로 구 분하는 것이 의미없을 수도 있음

 Model 1 regression에서는 독립변수의 측정이 최소한의 에러를 가지 고 수행된다는 것을 전재하였음 (Fig. 12.4 (a))

 현장 실험에 의한 데이터는 독립변수의 측정 또한 에러를 가진다는 점

 이럴 경우, x and y 보다는 x1 and x2 로 표현하는 것이 적합함

1 2

' _x / _x b = s s