실험통계학 제8주 강의안내
직선회귀 (linear regression)
농업실험에서 시비량에 따른 작물의 수량 반응 등, 어떤 처리 수준에 따른 반응을 나타 낼 때 회귀분석을 한다. 시비량 등 처리는 독립변량이 되며, 이에 따라 변하는 수량 등은 반 응변량 혹은 종속변량이라 한다. 처리에 대한 반응은 직선 혹은 곡선회귀가 있을 수 있으나 여기에서는 직선회귀만 취급한다. 독립변량 (independent variable), 종속변량 (dependent variable)
1. 직선회귀 모형
Y = α + βX, Y = α + βX + ε (모집단)
=a
+b
X (표본에서 추정한 회귀식) 절편 (intercept)a
, 기울기 (slope)b
직선회귀모형의 전제조건관측치에서 최소자승법에 의한
a, b
값의 측정 정의식b
= ∑(X-
)(Y-
)/∑(X-
)2 = ∑xy
/∑x
2계산식
b
= {∑XY-∑X∑Y/n)/{∑X2-(∑X)2/n) = CPxy/SSxa
=
-b
(예제 9-1)의 실행 연습
계산기의 모드 설정과 자료의 입력 MODE > 1(STAT) > 1(LINE) 0 STO 423 M+
(x,y) (DATA) 5 STO 544 (DATA)
:
15 STO 715 (DATA)
a : RCL a b : RCL b
2. 회귀분석과 유의성 검정 H0: β=0, H1: β≠0
1) 회귀식에 대한 분산분석
요인(SV) 자유도
(df) 자승합(SS) 평균자승합
(MS) Fs
회귀(Due to Reg) 1 SSR=bCP MSR MSR/MSE
잔차(Residual) n-2 SSY-SSR MSE
전체(Total) n-1 SSY
SS(회귀로 인한) = SSR ={∑(X-
)(Y-
)}2/∑(X-
)2=∑(X-
)(Y-
) * ∑(X-
)(Y-
)/∑(X-
)2 = CP * b =bCP SS(잔차) = SSE = SSY-SSR = SSY - bCPFs = MSR/MSE
결정계수(Coefficient of determination), R2= SSR/SSY,
Y 전체의 SS 중 회귀로 인한 SS의 비율, 즉, Y 전체의 변이 중 회귀로 설명할 수 있 는 변이의 비율이므로 결정계수가 높으면 회귀식에 잘 맞는다는 뜻이 된다.
Y 전체의 SS 중 잔차로 인한 SS의 비율, 즉 SSE/SSY은 원인을 알 수 없는 Y의 변이 로서 1-R2가 된다.
2) t 검정에 의한 회귀계수의 유의성 검정 Sb = √(MSE/SSx) (회귀계수의 표준오차) t =
b
/Sb, df=n-2회귀계수의 신뢰한계 L =
b
±ta(n-2)․Sb
에서 표본평균
에 대한 표준오차 계산 Sy=√(MSE/n) 3. 다중회귀분석 (multiple regression analysis)4. 상관 (correlation) 1) 공분산
Cov (X, Y) = CPxy/df 2) 상관계수의 계산
∑(X-
)(Y-
) ∑XY-∑X∑Y/n상관계수 r= --- = ---
√{∑(X-
)2․∑(Y-
)2} √[{∑X2-(∑X)2/n}․{∑Y2-(∑Y)2/n}]= CPxy/√(SSx)(SSy)
3) 상관계수의 유의성 검정 Sr=√[(1-r2)/(n-2)]
ts=r/Sr, df=n-2
부표 9를 이용하여 곧 바로 검정할 수 있다.
4) 회귀와 상관과의 관계
r2 = SSR/TSS, r = by.x * (Sx/Sy)=회귀계수*표준편차의 비율 두 변량의 표준편차가 같으면 r=b
5. 순위상관
rs=1 - 6∑Di2/{n(n2-1)}
df=n-2
예제 10-3) 두 과목 성적 순위의 상관
시비량과 벼의 수량
1) 회귀계수, 회귀직선 방정식, H0: β=0, H1: β≠0에 대한 가설검정 (t, F) 2) 상관계수, H0: r=0, H1: r≠0에 대한 가설 검정 (t, 부표 df=n-2)
시비량(Kg/10a) 0 10 20 30 40
수량지수 100 115 135 145 142
SHARP 509W, 509X 사용법(더욱 자세한 것은 사용설명서 참조) 예시자료
발아 후 일수에 따른 나팔꽃의 덩굴 길이(cm)
X (일수) 1 2 3 4 5
Y (길이, cm) 8 11 15 19 21
SAS PROGRAM FOR REGRESSION AND CORRELATION DATA A;/*LINEAR REGRESSION*/
INPUT X Y @@;
CARDS;
- - - -
;
PROC REG;
MODEL Y=X; /*Y는 반응변량, X는 독립변량*/
PLOT Y*X;
RUN;
키 누르기 예시, 비고, 화면
계산기 켜기 ON/C
계산기 꺼기 2ndF ON/C
모드 설정-통계(Stat 0) MODE-1(STAT)-0(SD) 일반 통계분석에 사용 -1차함수 MODE-1(STAT)-1(LINE) 회귀, 상관 분석에서 사용
지우기 ON/C
모두지우기 2ndF CA(MODE) 입력자료 모두 소거
자료 입력
X수치-STO-Y수치-M+
(x,y) (DATA)
1 STO 8 M+
2 STO 11 M+
...
5 STO 21 M+
a (절편 구하기) RCL a 4.6
b (회귀계수, 기울기) RCL b 3.4
회귀직선방정식 Y=4.6 + 3.4X
X 값의 Y 기대값 X 2nF y’ 14.8
∑X
∑X2 SSX
∑Y
∑Y2 SSY
CP ∑(X-
)(Y-
)=∑XY-∑X∑Y/n X와 Y의 공분산 COVxy =
∑(X-
)(Y-
)/(n-1)PROC REG;
MODEL Y=X;
PLOT Y*X P.*X/OVERLAY;/*P. means predicted*/
TITLE 'PREDICTED VS ACTUAL';
RUN;
DATA B; /*FOR MULTIPLE REGRESSION*/
INPUT X1 X2 . . . Y;
CARDS;
- - -
;
PROC REG;
MODEL Y= X1 X2 ... ; RUN;
PROC CORR;
VAR X1 X2 . . . Y;
RUN;