7 다 중 회 귀 분 석 검정
-[1] 검 정 앞장에서 우리들은 데이터를 사용하여 개인소비지출을 개인가처분소득 과 시간변수에 대한 회귀식을 설정하여 파라메터를 추정하는 과정과 여러 관련된 값을 계산하고, 파라메터에 대한 개별검정을 LINREG의 실행결과에 따른 계산된 값에 의하여 검토하였다. 이 장에서는 먼저 분산분석표의 작 성과 전체검정에 대한 문제를 검토해 보기로 한다. (1) 검정과 분산분석에 대한 계산의 순서와 계산값 전체변동(TSS)은 회귀변동(ESS)과 잔차변동(RSS)의 합으로 나타낼 수 있다.
단
이것을 이용하여 일반적인 계산과정으로서의 분산분석표는 <표 7-1>로 서 정리할 수 있다. 그리고 RATS의 명령어 LINREG에 있어서 사용되는 Accessible변수인 %RSS를 사용하여 TSS와 ESS (프로그램상에서 정의된 전체변동, 회귀변동) 를 정의하여 계산값을 얻고 MESS (회귀변동의 평균제 곱) 와 FSTAT (F값) 를 계산하는 순서는 다음과 같다.
에서
이므로
여기서 귀무가설
와 대립가설
은 다음과 같다.
모두는 이 아니다
(적어도 하나 0이 아닌 것이 존재한다) 한편, 계산된 값들에 의하여 완성된 분산분석표는 <표 7-3>와 같다. 이 표에 의하여 계산된 F값은
인데, 수표로부터 자유도 2와 12에 서의 5%와 1%의 F값은 각각
,
이므로,
이 되어 5%에서 뿐만 아니라 1% 유의수준에서도 귀무가 설은 기각된다. <표 7-1> 일반적인 표현의 분산분석표 변동의 원천 제곱합 자유도 평균제곱 F통계량 회귀
잔차
전체
(단,
은 표본수,
는 constant를 포함하지 않는 독립변수의 수 ) <표 7-2> LINREG 변수명에 의한 분산분석표 변동의 원천 제곱합 자유도 평균제곱 F통계량 회귀(
) 잔차
전체
(% 부분은 LINREG 의 Accesible 변수명) <표 7-3> 계산된 값들에 의한 분산분석표 변동의 원천 제곱합 자유도 평균제곱 F통계량 회귀 잔차 전체 828144.4778 1976.8554 830121.3322 2 12 14 414072.3893 164.7380 2513.52(2) 기본적인 프로그램의 예 * PROG7.PRG
CAL 1976 1 1 ALL 1990:1
OPEN DATA E:\CON_INC.DAT
DATA(UNIT=DATA, ORG=OBS) / Y X * SET Z = T LINREG Y # CONSTANT X Z * * Analysis of variance * COMPUTE TSS=%RSS/(1-%RSQUARED) COMPUTE ESS=TSS-%RSS COMPUTE MESS=ESS/(%NREG-1) COMPUTE FSTAT=MESS/%SEESQ * * ANOVA TABLE *
DISPLAY @7 ' VARIATION ' @20 ' SUM of SQU ' @36 ' DF ' $ @41 ' MEAN SUM SQU ' @56 ' F STATISTIC '
DISPLAY @7 ‘ EXPLAINED ’ @20 #######.#### ESS @35 ### $ %NREG-1 @41 #######.#### MESS @57 #####.### FSTAT
DISPLAY @11 ‘ ERROR ’ @20 #######.#### %RSS @35 ### %NDF $ @41 #######.#### %SEESQ
DISPLAY @11 ‘ TOTAL ’ @20 #######.#### TSS @35 ### %NOBS-1 *
CDF FTEST FSTAT %NREG-1 %NDF
(3) 프로그램의 해설
프로그램 중에서 LINREG까지는 추정에 관한 것이고, 앞에서의 계산순 서에 따라서 분산분석을 위한 계산된 값들을 구하기 위하여 4개의 명령어 COMPUTE를 사용하고 있다. 또한 그 결과를 <표 7-3>과 같은 형식으로
출력시키기 위해서 4개의 명령어 DISPLAY를 사용하고 있다. 그리고 명령 어 CDF에 의하여 F통계량의 확률이 계산된다.
명령어 CDF
명령어 CDF는 4개의 확률분포 (F분포, t분포, Chi-Sq분포, 정규분포) 중 의 하나로부터 통계량의 한계유의수준 (p값)을 계산한다. 그 기본 구조는 다음과 같다. CDF(선택사양) 분포 통계량 자유도1 자유도2 파라메타 분포 : 선택되어지는 4가지의 분포로서 FTEST(F분포) , TTEST(t분포) (양쪽검정), CHISQUARED (Chi-sq분포), NORMAL(정규분포) (양쪽검정) 중에서 하나를 선택한다. 통계량 : 검정되는 통계량 자유도1 자유도2 : t분포와 Chi-Sq분포의 경우 자유도1 만 사용하고, F분포의 경우 자유도1은 분자의 자유도, 자유도2는 분모의 자유도를 가리킨 다. 정규분포의 경우는 자유도가 필요 없다. 선택사양 [PRINT]/NOPRINT CDF에 의하여 정의된 변수 %CDSTAT : 계산된 검정통계량 (실수) %SIGNIF : 한계유의도 (실수) (4) 출력결과 분산분석의 출력결과는 다음과 같다. ---VARIATION SUM of SQU DF MEAN SUM SQU F STATISTICexplained 828144.4779 2 414072.2390 2513.521 error 1976.8554 12 164.7379
total 830121.3333 14
---한편, 분산분석표를 이용한 전체검정의 결과를 명령어 CDF를 통하여 얻은 출력결과는 다음과 같다.
---F(2,12)= 2513.52066 with Significance Level 0.00000000
---이것이 의미하는 것은 FSTAT의 값이 2513.521인데, 자유도(2,15)의 F 값에 의하면 유의수준이 0.0000000가 된다는 것이다. 즉, 회귀계수 모두가 0 이라는 가설은 기각되므로, 구하여진 회귀계수는 전체적으로 의미있는 값이 되는 것이다. ↑ ↑ ↑ F0(2,12,0.2 220446E- 15) = 2513.521 F(2,12,0.01) = 6.93 F(2,12,0.05) = 3.89