구간예측을 위해서는 실제치인 와 예측치 의 차이인 예측오차의 분산()을 알아야 하는데 예측오차의 분산은 평균예측과 개별예측이 서로 다르다.
개별예측의 예측오차 분산과 평균예측의 예측오차 분산은 각각 다음과 같다.
(개별예측의 예측오차 분산) σε
(평균예측의 예측오차 분산) σε
예측오차 분산을 구하는 위의 식으로부터 몇 가지 사실을 관찰할 수 있다.
첫째, 표본의 크기(n)가 커질수록 예측오차의 분산이 작아진다. 즉, 관측자료가 많을수록 좋은 예측을 할 수 있다는 것이다.
둘째, 교란항의 분산()이 커질수록 예측오차의 분산이 커진다. 즉, 원래 회귀모형 에서 불확실성이 커서 교란항의 분산이 크면 예측이 어려울 수밖에 없다는 것이다.
셋째, 독립변수의 표본평균으로부터 멀어질수록 예측오차도 커진다. 즉, 가 로부터 멀어질수록 표본회귀함수의 예측력은 크게 감소한다는 것이다.
예측오차의 분산이 구해지면 예측구간을 구할 수 있는데 × 예측구 간은 다음과 같다. 개별예측이든 평균예측이든 점예측치는 로 동일하며 예측구간 은 예측오차 분산의 크기에 의해 결정된다는 것을 알 수 있다.
±
<그림 2-3>에서 나타내고 있듯이 개별예측에 대한 예측구간이 평균예측에 대한 예측구간보다 더 넓다. 이는 표본회귀함수를 이용한 개별예측의 예측력은 평균예측 의 예측력보다 떨어진다는 것을 의미한다.
X Y
추정 회귀선
X
-예측구간(평균예측)
예측구간(개별예측)
<그림 2-3> 예측구간
(예제 2-1)(계속)
±
±
지금까지 설명한 내용을 b2-ch2-1.R의 실행결과를 통해 확인할 수 있다.
첫째, 추정된 회귀계수 이다.
둘째, 추정된 교란항의 분산 이다.
셋째, 추정된 회귀계수 의 분산은 0.146667이다.
넷째, 결정계수 이다.
다섯째, 귀무가설 라는 귀무가설을 검정하기 위해 계산된 검정통계량 의 값은 3.655631로써 5% 유의수준에서 자유도가 3인 t-분포의 임계치는 3.182446보다 크므로 5% 유의수준에서 귀무가설을 기각한다.
여섯째, 에 대한 95% 신뢰구간은 [0.1812159, 2.618784]이고, 귀무가설의 값 0이 이 신뢰구간에 포함되지 않으므로 귀무가설을 기각함을 확인할 수 있다.
일곱째, X=7일 때, 개별예측치 및 평균예측치는 모두 10.2이다. 한편, 개별예측 의 예측오차분산은 3.08이고 95% 예측구간은 [4.61, 15.78]이며, 평균예측의 예측 오차분산은 1.613이고 95% 예측구간은 [6.158, 14.242]이다.
b2-ch2-1.R의 실행결과
> x<-c(2,3,4,5,6)
> y<-c(4,4,6,6,10)
> x;y
[1] 2 3 4 5 6 [1] 4 4 6 6 10
> (n<-length(x)) [1] 5
> (sumx<-sum(x)) [1] 20
> (sumy<-sum(y)) [1] 30
> (mx=mean(x)) [1] 4
> (my=mean(y)) [1] 6
> (xy<-x*y)
[1] 8 12 24 30 60
> (sumxy<-sum(xy)) [1] 134
> (sumxsq<-sum(x^2)) [1] 90
> (sumysq<-sum(y^2)) [1] 204
> beta1<-(sumxy-mx*sumy)/(sumxsq-mx*sumx)
> beta0<-my-beta1*mx
> beta0;beta1 [1] 0.4 [1] 1.4
> (b1hat<-cov(x,y)/var(x)) [1] 1.4
> (b0hat<-mean(y)-b1hat*mean(x)) [1] 0.4
> (dx<-x-mx) [1] -2 -1 0 1 2
> (dy<-y-my) [1] -2 -2 0 0 4
> (sumdxsq<-sum(dx^2)) [1] 10
> (sumdysq<-sum(dy^2)) [1] 24
> (sumdxdy<-sum(dx*dy)) [1] 14
> (ssr<-sumdysq-beta1*sumdxdy) [1] 4.4
> (sigusq<-ssr/3) [1] 1.466667
> (vbeta1<-sigusq/sumdxsq) [1] 0.1466667
> (rsq<-(beta1^2*sumdxsq)/sumdysq) [1] 0.8166667
> (t<-beta1/sqrt(vbeta1)) [1] 3.655631
> (pt(t,3)) [1] 0.9823236
> (tc<-qt(p=0.025, df=3, lower.tail=F)) [1] 3.182446
> (b1hat_lb<-b1hat-(tc)*sqrt(vbeta1)) [1] 0.1812159
한편, 선형모형의 회귀분석을 실행하는 lm 함수를 이용한 b2-ch2-2.R을 실행해 보면 위와 동일한 결과를 얻을 수 있다.
첫째, 회귀계수 추정치, 표준오차, 귀무가설에 대한 계산된 t-검정통계량의 값, 유 의확률 및 유의수준을 보여주고 있다.
> (b1hat_ub<-b1hat+(tc)*sqrt(vbeta1)) [1] 2.618784
> x0<-7
> (yhat<-beta0+beta1*x0) [1] 10.2
> (sigesq_ind<-sigusq*(1+(1/n)+((x0-mx)^2/sumdxsq))) [1] 3.08
> (sige_ind<-sqrt(sigesq_ind)) [1] 1.754993
> (yhat_ind_lb<-(yhat-(-tc)*sige_ind)) [1] 15.78517
> (yhat_ind_ub<-(yhat+(-tc)*sige_ind)) [1] 4.614829
> (sigesq_mean<-sigusq*((1/n)+((x0-mx)^2/sumdxsq))) [1] 1.613333
> (sige_mean<-sqrt(sigesq_mean)) [1] 1.270171
> (yhat_mean_lb<-(yhat-(tc)*sige_mean)) [1] 6.15775
> (yhat_mean_ub<-(yhat+(tc)*sige_mean)) [1] 14.24225
둘째, 교란항의 표준오차는 1.211, 결정계수는 0.8167임을 보여주고 있다.
셋째, 추정 회귀계수에 대한 95% 신뢰구간을 보여주고 있는데, 에 대한 95%
신뢰구간은 [0.1812159, 2.618784]임을 확인할 수 있다.
넷째, 점예측치는 10,2이고, 개별예측의 95% 예측구간은 [4.614829, 15.78517]
임을 보여주고 있다.
다섯째, 점예측치는 10,2이고, 평균예측의 95% 예측구간은 [6.15775, 14.24225]
임을 보여주고 있다.
Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 0.400 1.625 0.246 0.8214 x 1.400 0.383 3.656 0.0354 *
---Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.211 on 3 degrees of freedom
Multiple R-squared: 0.8167, Adjusted R-squared: 0.7556 F-statistic: 13.36 on 1 and 3 DF, p-value: 0.03535
2.5 % 97.5 % (Intercept) -4.7708632 5.570863 x 0.1812159 2.618784
fit lwr upr 1 10.2 4.614829 15.78517
fit lwr upr 1 10.2 6.15775 14.24225
b2-ch1-2.R의 실행결과
>
> pred.w.clim<-predict(lm(y ~ x), new, se.fit=T, interval = "confidence")
> pred.w.clim
$`fit`
fit lwr upr 1 10.2 6.15775 14.24225
7. 회귀모형의 형태
회귀분석에서 회귀함수의 형태를 선택하는 것도 매우 중요한데 경제변수 간의 함 수형태는 경제이론이나 경험으로부터 결정된다. 가장 간편한 경제관계의 함수형태는 선형형태이나 경제관계를 항상 선형관계로 나타낼 수 있는 것은 아니다. 일반적으로 계량경제분석에 널리 사용되는 모형에는 다음과 같은 것들이 있다.
$se.fit [1] 1.270171
$df [1] 3
$residual.scale [1] 1.21106
0 1 2 3 4 5 6 7
0246810
x
y