기초통계분석
chapter10
수업 개요
다중회귀분석 (multiple regression analysis)◦
다중회귀분석 모델◦
다중회귀분석을 이용한 추론◦
결합가설 검정 (joint hypothesis test)◦
다중회귀모델의 적합성 (model fit)다중회귀분석의 필요성
연구질문: “지위비행에 영향을 주는 요 인은 무엇인가?”◦
학생1의 가설: “자기통제력이 높을수록 지 위비행을 저지르지 않는다.◦
학생2의 가설: “부모애착이 강할수록 지위 비행을 저지르지 않는다”두 개의 단순회귀분석?
이상적인 자료가 있다고 가정하고 우 리가 할 수 있는 일◦
단순회귀분석 1: 지위비행(종속변수), 자기 통제력(독립변수)◦
단순회귀분석 2: 지위비행(종속변수), 부모 애착(독립변수)◦
이게 다?통제 (control)
위의 시나리오에서 우리가 바라는 분 석은 아마도 다음과 같은 것◦
“같은 자기통제력”의 학생들을 가지고 부 모애착 수준이 지위비행에 미치는 영향◦
◦
“같은 부모애착”의 학생들을 가지고 자기 통제력의 수준이 지위비행에 미치는 영향다중회귀분석 모델
y: 지위비행
X1
: 자기통제력
X2
: 부모애착
yi
= b0
+ b1x1i + ei
yi
= b0
+ b2x2i + ei
yi
= b0
+ b1x1i + b2x2i + ei
다중회귀분석 모델 (자료의 기술)
Y = b0 + b
1*X
1 + b
2*X
2
◦
Y(종속변수)는 X1과 X2(독립변수)의 선형 함수 (linear function)◦
b1: 기울기 (slope; X2를 통제한 후 X1이 한 단 위 증가할때 생기는 Y의 변화)◦
b2: 기울기 (slope; X1를 통제한 후 X2가 한 단 위 증가할때 생기는 Y의 변화)◦
b0: 절편 (intercept or constant; X1=X2=0일 때 Y의 값) 통제의 의미: X1 또는 X2를 평균(mean)값으로 고 정시키고 X1 또는 X2가 한 단위(unit) 증가할 때 생기는 Y의 변화
다중회귀분석의 해석
다중회귀분석에서 한 기울기(slope; 회 귀계수 regression coefficient)는 다른 독 립변수의 효과를 통제하면서 얻은 한 독 립변수의 종속변수에 대한 효과를 의미 한다
결과를 해석할 때 유념할 것◦
논문에 결과 해석할 때 반드시 언급해야 함최소제곱회귀
단순회귀분석의 경우와 마찬가지로 다 중회귀분석은 오차의 제곱의 합을 최 소화하여 회귀계수를 구한다다중회귀분석을 이용한 추론
변수 x1, x
2, … , x
k와 y의 관계가 모집단 수 준에서 다음과 같다고 하자
◦
y = β0 + β1X1 + β2X2 + … + βkXk + ε 표본의 크기가 n인 표본을 이용해 다음의 단순회귀분석 식을 만든다
◦
yi= b0 + b1X1i + b2X2i + … + bkXki + ei 회귀분석의 가장 중요한 목표는 b 0, b 1, b2,
…b
k를 이용해서 β 0, β 1, β
2, …, β
k를 추정하
는 것
추정값으로서의 회귀계수
β1, β2, …, βk가 통계적으로 유의미하게 0와 다른가?◦
독립변수들이 각각 종속변수에 통계적으 로 유의미한 영향을 주는가?◦
회귀모델에 포함된 전체 독립변수들이 공 동으로 종속변수에 유의미한 영향을 주는 가? (결합가설 검정/F-test)
β0
는 상대적으로 중요하지 않다회귀식에서 가설 검정
Ho: βj = 0
Ha: βj
≠ 0
검정 통계량은 t-값 (자유도 n – (k + 1))t = bj/se
(se식은 복잡; 통계 소프트웨어가 알 아서 계산해준다)
회귀식에서 결합가설 검정
일군의 독립변수들이 “집단적으로” 종 속변수에 통계적으로 의미 있는 영향 을 행사하는가?
Ho: β1
= β2
= β3
=,… =,βk
= 0
Ha: 적어도 하나의 βj
≠ 0
검정 통계량은 F-값R-Squared (모델의 적합성)
R-squared는 단순회귀분석의 경우와 마찬가지 로 한 회귀식의 설명력을 알려준다
그런데 R-squared는 회귀식에 포함되는 독립변 수의 숫자가 늘어남에 따라 자동적으로 커진 다
이러한 문제 때문에 Adjusted R-squared를 보고 함
다중회귀분석에서는 보통 R-squared가 큰 의미 를 갖지 않는다
예
연구질문: 왜 청소년들은 중비행을 저 지르나?
종속변수: 중비행◦
5 items (q37a06w1~q37a14w1)◦
1차년도 자료독립변수들
독립변수 1: 부모학대(parental abuse)
◦ 2 items (q33a14w1, q33a15w1 )
◦ 5-point Likert scale (1=전혀 그렇지 않다; 5=매우 그렇다)
독립변수 2: 부모애착(parental attachment)
◦ 6 items (q33a01w1~q33a06w1)
◦ 5-point Likert scale (1=전혀 그렇지 않다; 5=매우 그렇다)
독립변수 3: 성별(gender)
◦ 1=male, 2=female