(2) 구간예측 - R 응용 및 계량경제분석

구간예측을 위해서는 실제치인 _와 예측치 ^_의 차이인 예측오차의 분산(_^)을 알아야 하는데 예측오차의 분산은 평균예측과 개별예측이 서로 다르다.

개별예측의 예측오차 분산과 평균예측의 예측오차 분산은 각각 다음과 같다.

(개별예측의 예측오차 분산) σ_ε  _^  

 



^^^

_  ^



(평균예측의 예측오차 분산) σ_ε  _^

 



^^^

_  ^



예측오차 분산을 구하는 위의 식으로부터 몇 가지 사실을 관찰할 수 있다.

첫째, 표본의 크기(n)가 커질수록 예측오차의 분산이 작아진다. 즉, 관측자료가 많을수록 좋은 예측을 할 수 있다는 것이다.

둘째, 교란항의 분산(^_)이 커질수록 예측오차의 분산이 커진다. 즉, 원래 회귀모형 에서 불확실성이 커서 교란항의 분산이 크면 예측이 어려울 수밖에 없다는 것이다.

셋째, 독립변수의 표본평균으로부터 멀어질수록 예측오차도 커진다. 즉, _가 ^ 로부터 멀어질수록 표본회귀함수의 예측력은 크게 감소한다는 것이다.

예측오차의 분산이 구해지면 예측구간을 구할 수 있는데     × 　 예측구 간은 다음과 같다. 개별예측이든 평균예측이든 점예측치는 ^_로 동일하며 예측구간 은 예측오차 분산의 크기에 의해 결정된다는 것을 알 수 있다.

^_ __± 

   

_

<그림 2-3>에서 나타내고 있듯이 개별예측에 대한 예측구간이 평균예측에 대한 예측구간보다 더 넓다. 이는 표본회귀함수를 이용한 개별예측의 예측력은 평균예측 의 예측력보다 떨어진다는 것을 의미한다.

X Y

추정 회귀선

-예측구간(평균예측)

예측구간(개별예측)

<그림 2-3> 예측구간

(예제 2-1)(계속)

^_ __± 

   

_  ± ^  

지금까지 설명한 내용을 b2-ch2-1.R의 실행결과를 통해 확인할 수 있다.

첫째, 추정된 회귀계수 ^_  _  이다.

둘째, 추정된 교란항의 분산 ^_^  이다.

셋째, 추정된 회귀계수 ^_의 분산은 0.146667이다.

넷째, 결정계수 ^  이다.

다섯째, 귀무가설 _ _  라는 귀무가설을 검정하기 위해 계산된 검정통계량 의 값은 3.655631로써 5% 유의수준에서 자유도가 3인 t-분포의 임계치는 3.182446보다 크므로 5% 유의수준에서 귀무가설을 기각한다.

여섯째, _에 대한 95% 신뢰구간은 [0.1812159, 2.618784]이고, 귀무가설의 값 0이 이 신뢰구간에 포함되지 않으므로 귀무가설을 기각함을 확인할 수 있다.

일곱째, X=7일 때, 개별예측치 및 평균예측치는 모두 10.2이다. 한편, 개별예측 의 예측오차분산은 3.08이고 95% 예측구간은 [4.61, 15.78]이며, 평균예측의 예측 오차분산은 1.613이고 95% 예측구간은 [6.158, 14.242]이다.

b2-ch2-1.R의 실행결과

> x<-c(2,3,4,5,6)

> y<-c(4,4,6,6,10)

> x;y

[1] 2 3 4 5 6 [1] 4 4 6 6 10

> (n<-length(x)) [1] 5

> (sumx<-sum(x)) [1] 20

> (sumy<-sum(y)) [1] 30

> (mx=mean(x)) [1] 4

> (my=mean(y)) [1] 6

> (xy<-x*y)

[1] 8 12 24 30 60

> (sumxy<-sum(xy)) [1] 134

> (sumxsq<-sum(x^2)) [1] 90

> (sumysq<-sum(y^2)) [1] 204

> beta1<-(sumxy-mx*sumy)/(sumxsq-mx*sumx)

> beta0<-my-beta1*mx

> beta0;beta1 [1] 0.4 [1] 1.4

> (b1hat<-cov(x,y)/var(x)) [1] 1.4

> (b0hat<-mean(y)-b1hat*mean(x)) [1] 0.4

> (dx<-x-mx) [1] -2 -1 0 1 2

> (dy<-y-my) [1] -2 -2 0 0 4

> (sumdxsq<-sum(dx^2)) [1] 10

> (sumdysq<-sum(dy^2)) [1] 24

> (sumdxdy<-sum(dx*dy)) [1] 14

> (ssr<-sumdysq-beta1*sumdxdy) [1] 4.4

> (sigusq<-ssr/3) [1] 1.466667

> (vbeta1<-sigusq/sumdxsq) [1] 0.1466667

> (rsq<-(beta1^2*sumdxsq)/sumdysq) [1] 0.8166667

> (t<-beta1/sqrt(vbeta1)) [1] 3.655631

> (pt(t,3)) [1] 0.9823236

> (tc<-qt(p=0.025, df=3, lower.tail=F)) [1] 3.182446

> (b1hat_lb<-b1hat-(tc)*sqrt(vbeta1)) [1] 0.1812159

한편, 선형모형의 회귀분석을 실행하는 lm 함수를 이용한 b2-ch2-2.R을 실행해 보면 위와 동일한 결과를 얻을 수 있다.

첫째, 회귀계수 추정치, 표준오차, 귀무가설에 대한 계산된 t-검정통계량의 값, 유 의확률 및 유의수준을 보여주고 있다.

> (b1hat_ub<-b1hat+(tc)*sqrt(vbeta1)) [1] 2.618784

> x0<-7

> (yhat<-beta0+beta1*x0) [1] 10.2

> (sigesq_ind<-sigusq*(1+(1/n)+((x0-mx)^2/sumdxsq))) [1] 3.08

> (sige_ind<-sqrt(sigesq_ind)) [1] 1.754993

> (yhat_ind_lb<-(yhat-(-tc)*sige_ind)) [1] 15.78517

> (yhat_ind_ub<-(yhat+(-tc)*sige_ind)) [1] 4.614829

> (sigesq_mean<-sigusq*((1/n)+((x0-mx)^2/sumdxsq))) [1] 1.613333

> (sige_mean<-sqrt(sigesq_mean)) [1] 1.270171

> (yhat_mean_lb<-(yhat-(tc)*sige_mean)) [1] 6.15775

> (yhat_mean_ub<-(yhat+(tc)*sige_mean)) [1] 14.24225

둘째, 교란항의 표준오차는 1.211, 결정계수는 0.8167임을 보여주고 있다.

셋째, 추정 회귀계수에 대한 95% 신뢰구간을 보여주고 있는데, _에 대한 95%

신뢰구간은 [0.1812159, 2.618784]임을 확인할 수 있다.

넷째, 점예측치는 10,2이고, 개별예측의 95% 예측구간은 [4.614829, 15.78517]

임을 보여주고 있다.

다섯째, 점예측치는 10,2이고, 평균예측의 95% 예측구간은 [6.15775, 14.24225]

임을 보여주고 있다.

Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 0.400 1.625 0.246 0.8214 x 1.400 0.383 3.656 0.0354 *

---Signif. codes:

0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.211 on 3 degrees of freedom

Multiple R-squared: 0.8167, Adjusted R-squared: 0.7556 F-statistic: 13.36 on 1 and 3 DF, p-value: 0.03535

2.5 % 97.5 % (Intercept) -4.7708632 5.570863 x 0.1812159 2.618784

fit lwr upr 1 10.2 4.614829 15.78517

fit lwr upr 1 10.2 6.15775 14.24225

b2-ch1-2.R의 실행결과

> pred.w.clim<-predict(lm(y ~ x), new, se.fit=T, interval = "confidence")

> pred.w.clim

$`fit`

fit lwr upr 1 10.2 6.15775 14.24225

7. 회귀모형의 형태

회귀분석에서 회귀함수의 형태를 선택하는 것도 매우 중요한데 경제변수 간의 함 수형태는 경제이론이나 경험으로부터 결정된다. 가장 간편한 경제관계의 함수형태는 선형형태이나 경제관계를 항상 선형관계로 나타낼 수 있는 것은 아니다. 일반적으로 계량경제분석에 널리 사용되는 모형에는 다음과 같은 것들이 있다.

$se.fit [1] 1.270171

$df [1] 3

$residual.scale [1] 1.21106

0 1 2 3 4 5 6 7

0246810

문서에서 R 응용 및 계량경제분석 (페이지 38-49)