• 검색 결과가 없습니다.

9 주 . Correlation 고급연구방법및통계

N/A
N/A
Protected

Academic year: 2022

Share "9 주 . Correlation 고급연구방법및통계"

Copied!
31
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

9주. Correlation

변해원

고급연구방법 및 통계

(2)

지난 시간 주요 복습

(3)

연관성의 검증

- 분할표 자료에서 두 변수 간의 연관성을 검정하는 방법

카이제곱 검정/교차 분석 (Chi-square Test)

(4)

피셔의 정확한 검정 (Fisher's Exact Test)

(5)

맥니마 검정 (McNemar's Test)

한 환자에 대해 치료 전/후를 비교한 명목형 자료

에서 치료를 받기전과 후의 반응률이 같은지(또는

차이가 있는지)를 살펴보는 교차분석 방법

(6)
(7)
(8)
(9)

오늘 수업 시작

(10)

서 론

변수들 상호간의 관계

(예) 학생들의 키와 몸무게 사이의 관계, 교육수준과 월평균소득 사이 의 관계, 유권자들의 연령과 정치적 성향과의 관계 등

두 변수 사이에 유의한 연관성이 있을 뿐 아니라 서로 인과성을 지닌 다고 판단된다면???

- 한 변수의 값의 변화가 다른 변수에 미치는 영향을 설명 하고, 다른 변수의 값을 예측하는 일에까지도 관심을 갖게 됨.

이번 시간에는 양적 변수의 연관성 파악에 대해서 배울 것임.

(11)

변수들의 연관성(Association)

(12)

산점도와 상관계수

ㅋㅇㄹㅇ

(13)
(14)
(15)

상관관계 사용 시 몇 가지 주의점

1.

이상점 유무 파악 (이상점에 큰 영향받음)

2. 상관계수는 두 변수간 (선형)상관관계를 나타내는 척도일 뿐 상관계수가 두 변수간의 인과관계를 나타 내는 것은 아님

ex. 부모들의 소득과 학생의 성적과의 상관계수 0.8

-> 이것만으로 부모들의 소득이 학생의 성적의 원인이 된다고 볼 수 없음.

3.

비선형관계를 가질 때 상관계수는 0에 가까운 값 을 갖게 될 수도 있는데 두 변수간 관계가 없다고 할 수는 없음

- 상관계수는 선형적 관계만을 설명함.

(16)

SPSS 산점도 구하기 : 파일명 상관계수.xls

(17)

상관계수 구하기

선형관계에 대한 P값 상관계수 값

(18)

단순회귀분석(simple regression analysis)

(19)

회귀분석(regression analysis)이란?

서로 인과관계를 갖는 두 변수가 서로 함수관계를 갖는다고 가정하고 데이터를 가장 잘 나타내는 함수를 추론하는 통계적 방법

만약 두 변수 관계를 함수식으로 표현한다면???

- 변수값의 변화가 다른 변수값에 어떤 영향을 미치게 될지를 설명 가능 - 하나의 변수값이 주어질 때 다른 변수 값을 예측 가능

(20)

회귀분석에서의 변수들

- 설명변수독립변수(independent variable):

회귀분석에서 원인이 되는 변수로, x 로 표기 - 반응변수/종속변수(dependent variable):

결과로서 나타나는 변수로, y 로 표기

- 단순회귀(simple regression):

반응변수를 설명하기 위해 하나의 설명변수를 사용하는 것 - 다중회귀(multiple regression):

두 개 이상의 설명변수를 이용하여 반응변수를 나타내는 것

(21)

단순회귀분석의 이론

1. 회귀모형 설정

- 인과관계가 있는 두 변수의 산점도에서 점들을 대표할 수 있는 직선을 가정함

- 점들이 모두 직선 위에 있지 않고 직선을 중심으로 약간 흩어져 있는 이유는 오차 때문이라고 가정함. 오차

(22)

2. 회귀계수의 추정 : 가장 적합한 직선을 추정(LSE 사용)

(23)

3. 회귀식의 유의성 검정 :

적합된 회귀직선이 모두 의미를 가지는 것은 아니기 때문에 검정 필요. ANOVA에 의해 가설 검정이 이루어짐(귀무가 설: 기울기(B1;회귀선)는 무의미 하다).

만약, 추정된 회귀선이 정확하다면 잔차값은 0에 가까워질 것임.

(24)

4. 회귀선의 설명력:

회귀식에 대한 유의성 검정 결과 유의하다는 판정 이 내려저도 두 변수간의 관계 정도가 다를 수 있음.

회귀식이 유의한지 여부와 함께 유의하다면 회귀직선이 데이터를 얼마나 잘 설명하는지를 하나의 척도로 나타낼 수 있는 결정계수(coefficient of

determination)를 사용함.

주의: 설명변수 개수가 다른 모형끼리 R2값을 비교하는 것은 바람직하지 않음.

다중회귀분석에서는 수정결정계수를 사용하는 것이 더 바람직함.

(25)

5. 회귀진단

- 모형진단 (회귀모형에 대한 가정이 만족하는지 진단)

오차의 등분산성 - (잔차산점도, Score test)

모형의 선형성 - (잔차산점도, 편잔차그림)

오차의 정규성 - (정규확률그림, Q-Q plot, Shapiro-Wilk test 등)

오차의 독립성 - (Durbin-Watson test(1차 자기상관성))

- 자료진단 (이상점/영향력 큰 관측치 등 개별 자 료 진단)

이상점(ourlier; 다른 양상임) - (잔차 plot, 잔차 이용한 outlier test)

영향력있는 관측값(회귀모형에 영향을 주는 값)

- (influential/leverage point) - (hat matrix), Cook's D, DFFITS, DFBETAS, COVRATIO)

(26)

단순회귀분석 실습: 파일. Simple_reg.xls

(27)

모형의 유의 성 검정을 위

한 P값 -기울기가 -필요한가?

(28)

정규성 검정을 위 한 P-P그림.

선에 가까울 수록 정규성임

잔차 그림 - 이상치를 살펴봄

(29)

즉, 체중이 1kg 증가할 때 마다 혈압이 0.92씩 증가함.

(30)

다중회귀분석

(예) 초등학생의 지능지수를 설명변수로 그 학생의 학업성취도를 설명하는 것 보다 주당 공 부시간, 부모들의 교육년수 등 다른 설명변수를 더 추가하면 더욱 잘 설명할 수 있을 것임.

(31)

오늘 수업은 여기까지 입니다. 고생하셨

습니다.

참조

관련 문서