상관분석 01
• 연속형 변수로 되어 있는 두 변수에 대하여 그 관련성의 세기(strength)를 분석하는 방법
• 양의 상관관계와 음의 상관관계
• 상관성의 정도는 상관계수 r로 표현하게 되는데, 상관계수는 -1과 1사이에 존재
• 정규분포 - Pearson의 상관계수
• 비정규분포 - 스피어만(Spearman)의 상관계수
• 서로 관련이 있다고 생각하는 항목들이 선형적으로 얼마나 연관성 을 가지고 있는지 알아보는 분석.
• Y=f(X)에서 x와 y는 서로의 연관관계가 있는데 x가 증가함에 따라
y는 감소하는 경우를 음의 상관관계라 하는데 이런 방향성의 제시 를 상관관계라고 한다.
• 선형적 관계정도를 -1, 1사이의 수치로 나타내는데 만약 양의 상관 관계라면 증가, 음의 상관관계라면 감소를 의미한다.
• Pearson의 상관계수는 모집단의 분포가 정규분포에 가까우면 사용 하고 그렇지 않으면 Spearman의 순위 상관계수를 사용한다.
• 상관분석은 또한 분산분석에서 정규성과 분산의 동질성 및 독립성 을 갖는다. 즉 독립성 검증을 위한 방법으로 사용.
• 2002년 2/4분기부터 2006년 ¾분기까지의 가계지출과 그 항복들의 통계청 자료를 가지고 그 항목들의 상관관계에 대해 알려고 한다.
(1) 상관분석의 예제
연령과 혈중 콜레스테롤 수치, 수축기 혈압, 체질량
지수가 어떤 상관관계를 갖는지 SPSS 프로그램을 이용
하여 실습해보도록 하자.
1
H0:
연령과 수축기 혈압, 허리둘레, 체질량 지수, 혈중 콜레스테롤 수치, 중성지방은 서로 상관관계가 없다.
HA
: 연령과 수축기 혈압, 허리둘레, 체질량 지수, 혈중
콜레스테롤 수치, 중성지방은 서로 상관관계가 있다.
2
자료의 입력은 모두 연속변수로 한다.
3
4
보고자 하는 변수를 모두 오른쪽으로 옮기고, 정규분포를
가정한다면 Pearson, 아니면 Spearman을 체크
5
연령과 수축기 혈압, 허리둘레, 체질량 지수, 중성지방과 유의한 양의 상관 관계가 있고(p,0.05), 상관계수는 각각 0.598, 0.454, 0.248, 0.254였다(p,0.05).
수축기 혈압과 허리둘레, 체질량 지수와 유의한 양의 상관관계가 있고 (p,0.05), 상관계수는 각각 0.301, 0.226이었다. 허리둘레와 체질량지수, 콜레 스테롤, 중성지방은 유의한 양의 상관관계가 있고(p,0.05), 상관계수는 각각 0.821, 0.203, 0.469이었다. 체질량 지수와 콜레스테롤, 중성지방은 유의한 양의 상관관계가 있고(p,0.05), 상관계수는 각각 0.290, 0.429이었다. 콜레스 테롤과 중성지방은 유의한 양의 상관관계가 있고(p,0.05) 상관계수는 0.363 이었다