Probability and Statistics for Environmental Engineers
부산가톨릭대학교 환경공학과 2학년
환경통계학
10. 상관분석
Introduction
상관분석 : 한 변수가 다른 변수와 함께 어떠한 양상으로 변화하는가 를 보고자 할 때
예) 지의류인 Evernia prunastri의 도심지 근교에서의 엽상체 크기 측 정
도시의 대기오염이 지의류의 성장에 영향을 미치는가를 보고자 할 때
도시 중심에서 외곽으로 거리가 멀어질수록 엽상체 크기가 큰 지의류 발견
Fig. 11.1 ) x축 – 거리, y축 – 엽상체 크기
측정 결과를 볼 때, 거리가 가까워질수록 성장 저해를 받는 것으로 추측됨
그래프화 해 볼 때, 이상치(outlier, wildshot)도 발견할 수 있음
Evernia가 대기중의 이산화황 농도에 민감하다는 연구결과를 내려면???
상관분석으로 두 변수의 변동 경향을 볼 수 있으나 “민감하다” 또는 “영향을 받 는다”라는 두 변수 사이의 관계를 밝혀낼 수는 없음
상관계수가 어떻게 변하는가.. -1 ~ +1사이의 값을 가짐
Fig. 11.2(a) 거의 ‘perfect’인 관계를 보이며, 상관계수는 1에 가깝겠음
Fig. 11.2(b) : 상관계수는 1보다 많이 작을 것이나, (a), (b) 모두 양의 상관계수 를 가질 것은 분명함.
Fig. 11.2(c) : 한 변수가 증가할때 다른 변수는 감소하는 경향, 음의 상관계수
상관계수 “r “
Covariance
두 변수가 존재하고 변수간의 퍼짐의 정도를 의미
분산 : 각 데이터가 평균에서 얼마나 멀어져 있는가를 “(편차의 제곱의 합)/자유도”로 표현
공분산 : 두 변수의 쌍(x,y)가 얼마나 두 변수의 평균점(bar x, bar y)에 서 멀어져 있는가를 각 “차이의 합/자유도”로 표현
Fig(11.3) (여기서, 분모에 n-1이 들어가는것은 이 집단을 모집단으로 간주한다는 뜻임)
x의 분산
x,y의 공분산
11.1 Product-moment correlation
양의 상관이 있을 때- 공분산은 양의 값
규칙성이 없을 때(상관이 없는 관계) – 공분산은 0에 가까운 값
음의 상관이 있을 때 – 공분산은 음의 값
공분산의 정의 식에서도 알 수 있듯이 데이터의 단위에 영향을 받으므로, 단위 가 다른 두 개의 데이터 사이에서는 공분산의 값을 비교할 수 없음
이 결점을 보완하는 지표가 상관계수( r, Pearson’s r)
두 변량 x, y의 상관계수는 rxy로 표기하고 다음과 같이 정의함(Box 11.1)
x, y의 공분산을 각각의 표준편차로 나눈 값 (-1이상 1이하)
1에 가까울수록 양의 상관이 강하고
-1에 가까울수록 음의 상관이 강하다. 0에 가까울수록 상관이 없다
데이터가 표준화되어 있을 경우 상관계수는 공분산과 일치한다
(표준화된 데이터에서는 평균은 0, 분산은 1이 되기 때문)
참고
) 데이터 표준화 데이터 표준화 z
z의 평균은 0, 분산은 1이 된다
z가 양수라면 그 값은 평균보다도 크고, 음수라면 표준보다 작다
z의 크기가 1보다 크면 평균으로부터 크게 떨어져 있다
Introduction
하나의 변수와 또 다른 하나의 변수의 관계를 간략한 수학적 식으로 표현
때때로 간단한 Prediction, Estimation에 유용하게 쓰임.
일련의 측정 간격을 가지는 모든 실험에서 측정 간격 사이의 값이 궁금할때
예) 해수 내 살충제의 농도
일정 농도를 정하고 해수에 투입한 후
일정 간격의 시간으로 샘플링을 수행한다
실험중의 온도, 염도, pH 등의 인자들을 가능한 한 일정하게 유지해야 함
실험환경을 엄격히 control 해 주어야 하는 경우
하나의 변수(예:시간)의 영향만 보고자 하는 실험
Model 1 Regression analysis를 사용
Variables
“x” variable ===> independent variable, 독립변수
높은 정확도를 가지고, 최소한의 에러로 측정되어야 함
“y” variable ===> dependent variable, 종속변수
측정 에러는 정규분포를 따라야 함
Model 1 regression analysis : 종속변수의 변화를 실험으로 측정함에 있어 계획된 독립변수의 변화에 따라 관찰된 경우
Model 2 regression analysis : 종속변수와 독립변수가 랜덤한 측정값 을 가지는 경우
변수의 “control”이 힘든 현장연구의 경우 적합
12.1 The straight line equation
12.2 The least squares line for a model 1 regression
y=a+bx
모든 점이 일직선상에 존재하는 경우는 극히 드물다
“Best fit”을 만들어내는 수식을 찾는 방법 최소자승법
“least squares method”
그림 12.3(b)의 “d”의 제곱의 합이 최소가 되는 라인을 찾는 것
절편 a를 찾기 위해, x의 평균과 y의 평균을 사용(regression line상에 존재)
Box 12.1 Model 1 Regression line calculation
12.3 Significance of model 1 regression coefficient
아무리 잘 control 한 상태에서 실험을 수행한다고 해도 변수 각각에 대한 error는 존재한다
특히, 종속변수의 error는 회귀식의 변수들(a,b)의 값을 변화시키는 결과를 낳음
Error 때문에 독립변수와 종속변수 간의 “관계가 없다”고 오판하는 경우도 존재 함
가설) 종속변수의 모집단과 독립변수 간의 regression을 수행하였을 때의 기울 기, β
H0 : β=0 H1 : β≠0
이를 t-test 혹은 분산분석을 통해 검정 하거나 분석
12.3.1 t-test of the regression
아무리 잘 control 한 상태에서 실험을 수행한다고 해도 변수 각각에 대한 error는 존재한다
특히, 종속변수의 error는 회귀식의 변수들(a,b)의 값을 변화시키는 결과를 낳음
Error 때문에 독립변수와 종속변수 간의 “관계가 없다”고 오판하는 경우도 존재 함
가설) 종속변수의 모집단과 독립변수 간의 regression을 수행하였을 때의 기울 기, β
H0 : β=0 H1 : β≠0
이를 t-test 혹은 분산분석을 통해 검정 하거나 분석
12.3.1 t-test of the regression
Step 1) Residual variance Syx2 계산(error term, S2error )
Step 2) standard deviation of the slope (Sb) 계산
Step 3) t=b/Sb 계산 후 검정 수행
기울기 b의 신뢰구간 (Confidence interval of b) b ± t0.05,3 *Sb
Box 12.2) 1.859 ± 3.182*0.403 = 1.859 ± 1.283 3.141 ~ 0.576
SSy SSx
Sum of products
12.5 Model 1 regression and the analysis of variance
SStotal = SSregression + SSe
SSregression = the sum of squares for regression
SSerror = “residual unexplained sum of squared deviations) SSe = SStotal –Ssregression
SStotal = total sum of squared deviations for y
ANOVA table
= (Sum of products)2 SSx
Source of
variation df SS MS F
Regression 1 25.23 25.23 21.2
(by Table VIII, df 1 and 3)
Error 3 (n-2) 3.563 1.188
Total 4 (n-1) 28.79
12.6 Coefficient of determination 12.7 Origin forcing
결정계수(Coefficient of determination) = r2
상관계수의 제곱과 같음
실험의 특성상 독립변수와 종속변수의 관계가 (0,0) 원점을 지난다는 사실을 알고 있는 경우, y=bx
/ 2
b =
∑ ∑
xy x12.8 The prediction interval and
confidence interval for estimations of y
회귀직선을 사용하여 측정 간격 사이의 값을 유추하고자 할 때, 그 값 은 어떤 범위를 가지면서 유의하게 분포할 것인가
bank vole의 신장 내 카드뮴의 농도에 대해 y=-0.644+1.859x 에서
5개월 월령의 bank vole의 신장 내 카드뮴 농도는 8.651로 계산되어 추정됨
더 많은 data 혹은 전수조사가 행해진다면 다른 b 가 얻어질 수 있으며, 이는 곧 다른 수치가 추정값으로 제시될 수 있음을 의미함
그렇다면, y 변수 내에 존재하는 에러의 규모를 가늠할 무언가가 필요 하다…
12.8 The prediction interval and
confidence interval for estimations of y
Confidence interval
개개의 y 값이 가지는 95% 신뢰구간의 범위
Prediction interval
모든 y 값의 평균이 가지는 95% 신뢰구간의 범위
Box 12.4
2
2 1 ( )
ˆ { yx[1 i ]}
x
x x y t S
n SS
± + + −
어떤 x에 대해 회귀직선에 의해 계산된 y 값
12.10 Model 1 regression for cases where there are several y values for each x
value
앞서의 예에선 1개의 월령에 1개의 측정 데이터가 존재하였음
하나의 x (독립변수)의 조건에 여러 개의 측정값이 존재할 경우는?
회귀직선의 a, b 는 앞에서 설명한 것과 동일한 방법으로 구함
회귀 통계량은 ANOVA의 원리에 의해 구함
2
2 1 ( )
ˆ { yx[ i ] within}
x
x x
y t S MS
n SS
± + − +
어떤 x에 대해 회귀직선에 의해 계산된 y 값
2 2
[( / ) ( ) / ]
within total i i
SS = SS − ∑ y n − ∑ y n
12.11 Model 2 regression
Fig. 12.4 (127 page) (b)
이러한 경우 x 축의 변수와 y 축의 변수를 독립변수와 종속변수로 구 분하는 것이 의미없을 수도 있음
Model 1 regression에서는 독립변수의 측정이 최소한의 에러를 가지 고 수행된다는 것을 전재하였음 (Fig. 12.4 (a))
현장 실험에 의한 데이터는 독립변수의 측정 또한 에러를 가진다는 점
이럴 경우, x and y 보다는 x1 and x2 로 표현하는 것이 적합함
1 2
' x / x b = s s