9주. Correlation
변해원
고급연구방법 및 통계
지난 시간 주요 복습
연관성의 검증
- 분할표 자료에서 두 변수 간의 연관성을 검정하는 방법
•
카이제곱 검정/교차 분석 (Chi-square Test)
피셔의 정확한 검정 (Fisher's Exact Test)
맥니마 검정 (McNemar's Test)
•
한 환자에 대해 치료 전/후를 비교한 명목형 자료
에서 치료를 받기전과 후의 반응률이 같은지(또는
차이가 있는지)를 살펴보는 교차분석 방법
오늘 수업 시작
서 론
• 변수들 상호간의 관계
(예) 학생들의 키와 몸무게 사이의 관계, 교육수준과 월평균소득 사이 의 관계, 유권자들의 연령과 정치적 성향과의 관계 등
• 두 변수 사이에 유의한 연관성이 있을 뿐 아니라 서로 인과성을 지닌 다고 판단된다면???
- 한 변수의 값의 변화가 다른 변수에 미치는 영향을 설명 하고, 다른 변수의 값을 예측하는 일에까지도 관심을 갖게 됨.
• 이번 시간에는 양적 변수의 연관성 파악에 대해서 배울 것임.
변수들의 연관성(Association)
산점도와 상관계수
• ㅋㅇㄹㅇ
상관관계 사용 시 몇 가지 주의점
1.
이상점 유무 파악 (이상점에 큰 영향받음)
2. 상관계수는 두 변수간 (선형)상관관계를 나타내는 척도일 뿐 상관계수가 두 변수간의 인과관계를 나타 내는 것은 아님
ex. 부모들의 소득과 학생의 성적과의 상관계수 0.8
-> 이것만으로 부모들의 소득이 학생의 성적의 원인이 된다고 볼 수 없음.
3.
비선형관계를 가질 때 상관계수는 0에 가까운 값 을 갖게 될 수도 있는데 두 변수간 관계가 없다고 할 수는 없음
- 상관계수는 선형적 관계만을 설명함.
SPSS 산점도 구하기 : 파일명 상관계수.xls
상관계수 구하기
선형관계에 대한 P값 상관계수 값
단순회귀분석(simple regression analysis)
회귀분석(regression analysis)이란?
• 서로 인과관계를 갖는 두 변수가 서로 함수관계를 갖는다고 가정하고 데이터를 가장 잘 나타내는 함수를 추론하는 통계적 방법
• 만약 두 변수 관계를 함수식으로 표현한다면???
- 변수값의 변화가 다른 변수값에 어떤 영향을 미치게 될지를 설명 가능 - 하나의 변수값이 주어질 때 다른 변수 값을 예측 가능
회귀분석에서의 변수들
- 설명변수독립변수(independent variable):
회귀분석에서 원인이 되는 변수로, x 로 표기 - 반응변수/종속변수(dependent variable):
결과로서 나타나는 변수로, y 로 표기
- 단순회귀(simple regression):
반응변수를 설명하기 위해 하나의 설명변수를 사용하는 것 - 다중회귀(multiple regression):
두 개 이상의 설명변수를 이용하여 반응변수를 나타내는 것
단순회귀분석의 이론
1. 회귀모형 설정
- 인과관계가 있는 두 변수의 산점도에서 점들을 대표할 수 있는 직선을 가정함
- 점들이 모두 직선 위에 있지 않고 직선을 중심으로 약간 흩어져 있는 이유는 오차 때문이라고 가정함. 오차
2. 회귀계수의 추정 : 가장 적합한 직선을 추정(LSE 사용)
3. 회귀식의 유의성 검정 :
적합된 회귀직선이 모두 의미를 가지는 것은 아니기 때문에 검정 필요. ANOVA에 의해 가설 검정이 이루어짐(귀무가 설: 기울기(B1;회귀선)는 무의미 하다).만약, 추정된 회귀선이 정확하다면 잔차값은 0에 가까워질 것임.
4. 회귀선의 설명력:
회귀식에 대한 유의성 검정 결과 유의하다는 판정 이 내려저도 두 변수간의 관계 정도가 다를 수 있음.회귀식이 유의한지 여부와 함께 유의하다면 회귀직선이 데이터를 얼마나 잘 설명하는지를 하나의 척도로 나타낼 수 있는 결정계수(coefficient of
determination)를 사용함.
주의: 설명변수 개수가 다른 모형끼리 R2값을 비교하는 것은 바람직하지 않음.
다중회귀분석에서는 수정결정계수를 사용하는 것이 더 바람직함.
5. 회귀진단
- 모형진단 (회귀모형에 대한 가정이 만족하는지 진단)
•
오차의 등분산성 - (잔차산점도, Score test)
•
모형의 선형성 - (잔차산점도, 편잔차그림)
•
오차의 정규성 - (정규확률그림, Q-Q plot, Shapiro-Wilk test 등)
•
오차의 독립성 - (Durbin-Watson test(1차 자기상관성))
- 자료진단 (이상점/영향력 큰 관측치 등 개별 자 료 진단)
• 이상점(ourlier; 다른 양상임) - (잔차 plot, 잔차 이용한 outlier test)
• 영향력있는 관측값(회귀모형에 영향을 주는 값)
- (influential/leverage point) - (hat matrix), Cook's D, DFFITS, DFBETAS, COVRATIO)
단순회귀분석 실습: 파일. Simple_reg.xls
모형의 유의 성 검정을 위
한 P값 -기울기가 -필요한가?
정규성 검정을 위 한 P-P그림.
선에 가까울 수록 정규성임
잔차 그림 - 이상치를 살펴봄
즉, 체중이 1kg 증가할 때 마다 혈압이 0.92씩 증가함.
다중회귀분석
• (예) 초등학생의 지능지수를 설명변수로 그 학생의 학업성취도를 설명하는 것 보다 주당 공 부시간, 부모들의 교육년수 등 다른 설명변수를 더 추가하면 더욱 잘 설명할 수 있을 것임.