실험통계학 제8주 강의안내

(1)

실험통계학 제8주 강의안내

직선회귀 (linear regression)

농업실험에서 시비량에 따른 작물의 수량 반응 등, 어떤 처리 수준에 따른 반응을 나타 낼 때 회귀분석을 한다. 시비량 등 처리는 독립변량이 되며, 이에 따라 변하는 수량 등은 반 응변량 혹은 종속변량이라 한다. 처리에 대한 반응은 직선 혹은 곡선회귀가 있을 수 있으나 여기에서는 직선회귀만 취급한다. 독립변량 (independent variable), 종속변량 (dependent variable)

1. 직선회귀 모형

Y = α + βX, Y = α + βX + ε (모집단)





₌

a

+

b

X (표본에서 추정한 회귀식) 절편 (intercept)

a

, 기울기 (slope)

b

직선회귀모형의 전제조건

관측치에서 최소자승법에 의한

a, b

값의 측정 정의식

b

= ∑(X-



)(Y-



)/∑(X-



)² = ∑

xy

/∑

x

²

계산식

b

= {∑XY-∑X∑Y/n)/{∑X²-(∑X)²/n) = CPxy/SSx

a

= 



-

b

^



(예제 9-1)의 실행 연습

계산기의 모드 설정과 자료의 입력 MODE > 1(STAT) > 1(LINE) 0 STO 423 M+

(x,y) (DATA) 5 STO 544 (DATA)

:

15 STO 715 (DATA)

a : RCL a b : RCL b

2. 회귀분석과 유의성 검정 H0: β=0, H1: β≠0

1) 회귀식에 대한 분산분석

요인(SV) 자유도

(df) 자승합(SS) 평균자승합

(MS) Fs

회귀(Due to Reg) 1 SSR=bCP MSR MSR/MSE

잔차(Residual) n-2 SSY-SSR MSE

전체(Total) n-1 SSY

SS(회귀로 인한) = SSR ={∑(X-



)(Y-



)}²/∑(X-



)²

=∑(X-



)(Y-



) * ∑(X-



)(Y-



)/∑(X-



)² = CP * b =bCP SS(잔차) = SSE = SSY-SSR = SSY - bCP

Fs = MSR/MSE

(2)

결정계수(Coefficient of determination), R²= SSR/SSY,

Y 전체의 SS 중 회귀로 인한 SS의 비율, 즉, Y 전체의 변이 중 회귀로 설명할 수 있 는 변이의 비율이므로 결정계수가 높으면 회귀식에 잘 맞는다는 뜻이 된다.

Y 전체의 SS 중 잔차로 인한 SS의 비율, 즉 SSE/SSY은 원인을 알 수 없는 Y의 변이 로서 1-R²가 된다.

2) t 검정에 의한 회귀계수의 유의성 검정 Sb = √(MSE/SSx) (회귀계수의 표준오차) t =

b

/Sb, df=n-2

회귀계수의 신뢰한계 L =

b

±ta(n-2)․Sb





에서 표본평균 



에 대한 표준오차 계산 Sy=√(MSE/n) 3. 다중회귀분석 (multiple regression analysis)

4. 상관 (correlation) 1) 공분산

Cov (X, Y) = CPxy/df 2) 상관계수의 계산

∑(X-



)(Y-



) ∑XY-∑X∑Y/n

상관계수 r= --- = ---

√{∑(X-



₎²_․∑(Y-



₎²_} _√[{∑X²_-(∑X)²_/n}․{∑Y²_-(∑Y)²_/n}]

= CPxy/√(SSx)(SSy)

3) 상관계수의 유의성 검정 Sr=√[(1-r²)/(n-2)]

ts=r/Sr, df=n-2

부표 9를 이용하여 곧 바로 검정할 수 있다.

4) 회귀와 상관과의 관계

r² = SSR/TSS, r = by.x * (Sx/Sy)=회귀계수*표준편차의 비율 두 변량의 표준편차가 같으면 r=b

5. 순위상관

rs=1 - 6∑Di²/{n(n²-1)}

df=n-2

예제 10-3) 두 과목 성적 순위의 상관

시비량과 벼의 수량

1) 회귀계수, 회귀직선 방정식, H0: β=0, H1: β≠0에 대한 가설검정 (t, F) 2) 상관계수, H0: r=0, H1: r≠0에 대한 가설 검정 (t, 부표 df=n-2)

시비량(Kg/10a) 0 10 20 30 40

수량지수 100 115 135 145 142

(3)

(4)

SHARP 509W, 509X 사용법(더욱 자세한 것은 사용설명서 참조) 예시자료

발아 후 일수에 따른 나팔꽃의 덩굴 길이(cm)

X (일수) 1 2 3 4 5

Y (길이, cm) 8 11 15 19 21

SAS PROGRAM FOR REGRESSION AND CORRELATION DATA A;/*LINEAR REGRESSION*/

INPUT X Y @@;

CARDS;

- - - -

;

PROC REG;

MODEL Y=X; /*Y는 반응변량, X는 독립변량*/

PLOT Y*X;

RUN;

키 누르기 예시, 비고, 화면

계산기 켜기 ON/C

계산기 꺼기 2ndF ON/C

모드 설정-통계(Stat 0) MODE-1(STAT)-0(SD) 일반 통계분석에 사용 -1차함수 MODE-1(STAT)-1(LINE) 회귀, 상관 분석에서 사용

지우기 ON/C

모두지우기 2ndF CA(MODE) 입력자료 모두 소거

자료 입력

X수치-STO-Y수치-M+

(x,y) (DATA)

1 STO 8 M+

2 STO 11 M+

...

5 STO 21 M+

a (절편 구하기) RCL a 4.6

b (회귀계수, 기울기) RCL b 3.4

회귀직선방정식 Y=4.6 + 3.4X

X 값의 Y 기대값 X 2nF y’ 14.8

∑X

∑X² SSX

∑Y

∑Y² SSY

CP ∑(X-



)(Y-



)

=∑XY-∑X∑Y/n X와 Y의 공분산 COVxy =

∑(X-



)(Y-



)/(n-1)

(5)

PROC REG;

MODEL Y=X;

PLOT Y*X P.*X/OVERLAY;/*P. means predicted*/

TITLE 'PREDICTED VS ACTUAL';

RUN;

DATA B; /*FOR MULTIPLE REGRESSION*/

INPUT X1 X2 . . . Y;

CARDS;

- - -

;

PROC REG;

MODEL Y= X1 X2 ... ; RUN;

PROC CORR;

VAR X1 X2 . . . Y;

RUN;