• 검색 결과가 없습니다.

이변량분석(Bivariate Analysis)

이변량분석은 두 개의 변수가 서로 얼마나 연관되어 있는지를 검증하는 것이다. 보통의 이변량 통계량은 간단히‘상관관계’라고 불리는 이변량상관관계(bivariate correlation)로 측정한다. 두 변수의 관계의 강도는 -1 부터 1 사이의 숫자로 나타낸다. 나이와 자존감이 얼마나 연관되어 있는지를 20 명의 응답자를 통해 알아본다고 가정해보자(예: 나이가 먹을수록, 자존감은 증가한다, 감소한다, 변하지 않는다). 만약 자존감이 증가한다면, 두 변수간에는 양의 상관관계가 존재하는 것이고, 자존감이 감소한다면, 두 변수간에는 음의 상관관계가 존재하는 것이고, 자존감의 변화가 없다면, 영의 상관관계가 있는 것이다. 상관관계의 값을 계산하기 위해서, 표 14.1 에서 보여주는 데이터 집합체를 살펴보자

<표 14.1> 나이와 자존감에 대한 데이터

위의 데이터 집합에서 두 변수는 나이(x)와 자존감(y)이다. 나이는 비율척도이고 자존감은 ‘강하게 동의하지 않음’에서 ‘강하게 동의함’의 7 점 리커트 척도를 활용하여 자존감에 대한 다중 항목 척도들을 평균한 값이다. 각 변수의 히스토그램은 그림 14.3 의 왼편에 있으며 이변항 상관관계를 계산하기 위한 공식은 다음과 같다.

∑ ∑ ∑

√ ∑ ² ∑ ² √ ∑ ² ∑ ²

는 상관관계, 와 y 는 x 와 y 의 표본평균 값, 와 는 x 와 y 의 표준편차 값이다. 표 14.1 에

있는 값을 위의 공식을 활용하여 수동적으로 나이와 자존감 사이의 상관관계 값을 계산하면 0.79 이다. 따라서 나이와 자존감이 강한 양의 상관관계를 지니고 있음을 나타내 준다(예: 자존감은 나이가 들면서 높아지는 경향을 보이며, 나이가 적어질수록 낮아지는 경향을 보인다). 이러한 패턴은 그림 14.3 에서 보이는 나이와 자존감을 비교한 히스토그램을 통해 시각적으로 보여질 수 있다. 그림 14.3 에서의 수직 축은 실제 관찰값을 나타내는 것이지 관찰의 빈도를 나타내는 것은 아님을 주의해야 한다. 그렇기 때문에, 이것은 도수분포가 아닌 히스토그램이라 할 수 있다. 그림 14.3 에서 오른쪽의 이변량 산점도는 기본적으로 가로축을 나이, 세로축을 자부심으로 한 것이다. 이 도표는 양의 상관관계를 나타내는 상승하는 경사면(positive slope)과 닮아있다. 만약 두 변수가 음의 상관관계라면 산점도는 반대로 나이가 증가할수록 자부심이 감소하는 것을 보여주는 내려가는 경사면(negative slope)으로 나타났을 것이다. 만약 두 변수가 상관관계가 없다면, 산점도는 나이의 증가와 자부심은 관계가 없다는 것을 의미하는 수평선(zero slope)에 가까운 모양으로 나타날 것이다.

<그림 14.3> 나이와 자존감의 상관관계와 히스토그램

이변량 상관분석 후에, 연구자는 흔히 상관관계가 유의미한지 아니면 우연적으로 발생된 것인지에 대해 알고 싶어한다. 이러한 문제에 답하는 것은 다음의 가설을 검정함으로써 알 수 있다.

은 귀무가설(null hypothesis)이고 은 대립가설(alternative hypothesis)이라고 한다( 로도 나타낸다). 대립가설은 상관관계가 있는지 확인하고자 하는 우리가 실제로 검정하고자 하는 가설이다.

과 은 단순히 두 개의 가설로 보일 수 있지만 두 가설은 서로 반대되기 때문에 공동으로 하나의 가설을 나타낸다고 할 수 있다. 또한 은 r 이 0 보다 큰지 작은지에 대해 구체적으로 명시하고 있지 않기 때문에 비특질가설(non-directional hypothesis)이라는 것도 알아두어야 한다. 특질 가설(directional hypothesis)은 : r ≤ 0; : r > 0 으로 명시될 것이다 (양의 상관관계를 검정할 경우). 비특질가설은 양측 T 검정(two-tailed t-test)을 통해 검증되는 반면에 특질 가설의 유의미한 검정은 단측 T 검정(one tailed t-test)을 이용하여 검증된다.

통계적 검정에서 대립가설은 직접적 검증할 수 없다. 오히려 특정한 확률수준에서 귀무가설을 기각함으로써 간접적으로 증명된다. 통계적 검정은 우리가 가진 표본이 모집단과 똑같지 않고,

표본을 바탕으로 한 추론이 모집단에도 적용될 수 있는지 확신 할 수 없기 때문에 항상 확률론적인 방법을 사용할 수밖에 없다. 통계적인 추론이 순수하게 일어날 확률을 p 값(p-value)이라고 한다.

p 값은 추론이 맞지 않다고 결론 낼 수 있는 최대수준을 유의수준(significance level;α)과 비교한다.

대부분의 통계분석에서 α값이 0.05 로 설정된다. α=0.05 보다 작은 p 값은 귀무가설을 기각하는데 충분한 근거가 있다는 것을 가리킴으로써 대립가설을 간접적으로 채택하게 된다. 만약 p>0.05 이라면 귀무가설을 기각하거나 대립가설을 채택하는데 통계적인 증거를 충분히 갖고 있지 못하다는 것을 뜻한다.

위의 가설을 검정하는 가장 쉬운 방법은 인터넷이나 통계분야의 표준 교과서에서 찾아 볼 수 있는 통계표(statistical table)로부터 r 의 기각값(critical value)를 찾아보는 것이다(대부분의 소프트웨어 프로그램들도 유의성검정을 수행한다). r 의 기각값은 우리가 원하는 유의수준<α=0.05>, 자유도, 단측검정인지 양측검정인지에 따라 다르게 나타나다. 자유도(degree of freedom)는 통계적 계산으로 자유롭게 바뀔 수 있는 값이다. 상관관계의 경우 자유도가 n-2 라고 한다면, 표 14.1 의 데이터에서 자유도는 20-2=18 이 된다. 여기에는 단측검정과 양측검정을 위한 두 가지 다른 통계표가 있다.

양측검정표에서 α=0.05, df=18 에서 r 의 기각값은 0.44 이다. 컴퓨터로 계산한 상관관계 값은 0.79 이며, 상관관계가 유의미하기 위해서는 반드시 기각값 0.44 보다 크거나 -0.44 보다 작아야 한다.

0.79 는 0.44 보다 크기 때문에 자료에서 나이와 자부심간에 유의미한 상관관계가 있다. 다시 말하면, 이 상관관계가 우연히 일어났을 확률인 오즈비(odds rate)가 5%보다 적다고 결론지을 수 있다.

따라서 우리는 귀무가설(r≤0)을 기각할 수 있으며 또한 대립가설(r>0)이 옳은 것이라고 간접적으로 말할 수 있다.

대부분의 연구들은 둘 이상의 변수를 포함한다. 만약 n 개의 변수가 있다면 변수들 사이에 총 n*(n-1)/2 의 상관관계가 가능 할 것이다. 이러한 상관관계는 상관관계 공식을 사용하여 손으로 계산하는 것 보다는 SPSS 와 같은 소프트웨어프로그램을 사용하면 쉽게 계산 된다. 이것은 표 14.2 에서 보여지는 것처럼 상관행렬(correlation matrix)로 나타낼 수 있다. 상관행렬은 행과 열을 따라 변수의 이름을 목록화한 행렬로서 셀 안에 있는 값은 두 변수들 간 이변량 상관관계를 나타낸다. 어떤 변수이던지 자기 자신과는 항상 완벽히 상관관계에 있으므로 행렬의 주 대각선을 따르는 값은 1 이다.

또한 상관관계는 비방향성의 특징을 가지고 있기 때문에 변수 V1 과 V2 의 상관관계는 V2 와 V1 의 관계와 같다. 그래서 아래쪽 삼각형태의 행렬(주로 대각선의 아래쪽)과 위쪽의 삼각형태의 행렬(주로 대각선의 위쪽)은 서로 거울반사가 된 것이라고 할 수 있다. 그러므로 보통은 간단하게 아래쪽 삼각형태의 행렬만을 나타낸다. 만약 상관관계가 구간척도를 사용하여 측정한 변수들을 포함할 경우 이 특수한 형태의 상관관계를 피어슨적률상관관계(pearson product moment correlations)라고 한다.

이변량 자료를 나타내는 또 다른 유용한 방법은 교차표(cross-tabulation)이다(보통 축약해서 cross-tab 또는 분할표(contingency table)라고 불림). 교차표(cross-tabulation)는 둘 이상의 명목형 범주로 나타내는 변수들의 모든 결합빈도(또는 비율)를 나타내는 표이다. 예를 들어, 그림 14.3 에서 보여지는 것과 같이 20 명의 학생들을 표본으로 학점과 성별을 다음과 같이 관찰했다고 가정하자. 성별은 명목형 변수(남자/여자 또는 남/여)이고 학점은 세 레벨로 나누어지는 범주형 변수이다(A,B,C).

데이터의 간단한 교차표는 2×3 행렬에 성별과 학점의 결합분포(joint distribution)로 나타낸다. 즉, 각 성별 범주에서 얼마나 많은 학생들이 각각의 학점에 있는지 빈도수 또는 비율로 나타낸다. 또한, 이 행렬은 A, B, C 의 학점에 남학생과 여학생 전체에 걸쳐 동등하게 분포되어있는지 볼 수 있도록

도와준다. 표 14.3 의 교차표는 A 학점 분포는 전체 학생들 가운데 여학생이 아주 많이 치우쳐 분포되어있는 것을 보여준다. 10 명의 남학생과 10 명의 여학생 표본에서 오직 한 명의 남학생이 A 학점을 받은 것에 비해 여학생은 다섯 명이 A 학점을 받았다. 반대로 C 학점 분포는 전체 학생들 가운데 남학생 쪽으로 편향되어 있다. 단지 한 명의 여학생이 C 학점을 받은 것에 비해 남학생은 세 명이 C 학점을 받았다. 하지만 B 학점의 분포는 여섯 명의 남학생과 다섯 명의 여학생으로 다소 균일하다. 이 표의 마지막 열과 행은 각 범주에 걸친 합계를 나타내고 있으며, 표의 주변을 따라 보여주기 때문에 주변합계(marginal total)라고 한다.

<표 14.2> 8 개 변수의 가설 상관행렬

<표 14.3> 교차표 분석의 예

표 14.3 에서 남학생과 여학생 사이의 뚜렷한 성적 분포의 패턴을 볼 수 있을지라도 이 패턴이 정말

‘통계적’으로 유의미하다고 할 수 있을까? 다시 말해 위의 빈도수치는 우연으로부터 기대된 것들과 차이가 있지 않을까? 이 문제에 답하기 위해서는 우리는 2×3 교차표의 각각 셀 안에서 관측치의 기대 값을 계산해야만 한다. 이 계산은 셀의 주변합계와 행의 주변합계를 곱하고 관측치의 총 수로 나누면 된다. 예를 들어 남학생/A 학점 셀에서의 기대 값은 5 * 10 / 20 = 2.5 가 된다. 다시

말하면, 우리는 2.5 명의 남학생이 A 학점을 받을 것이라고 기대하지만 실제로 오직 한 명의 남학생만이 A 학점을 받았다. 기대 값과 실제 값의 차이가 유의한지 아닌지는 카이제곱검정(chi-square test)을 통해 검증될 수 있다. 카이제곱통계량은 전체 셀에 걸쳐진 관측 값과 기대 값 사이의 평균차이로 계산된다. 그리고 카이제곱검정으로 계산된 값과 유의수준(p<0.05)을 비교한다. m 과 n 이 행과 열의 수라고 할 때 자유도는 (m-1)*(n-1)이므로 이 예시에서는 df = (2-1) * (3-1) = 2 이 된다.

어느 통계 책에나 있는 표준카이제곱 표에서 p=0.05 와 df=2 에서의 카이제곱 기각 값은 5.99 이다.

관측된 데이터를 바탕으로 계산된 카이제곱 값은 기각 값보다 작은 1.00 이다. 따라서 관측된 학점패턴이 우연에 의해 기대된 패턴과 통계적으로 다르지 않다고 결론지을 수 있다.

제 15 장 양적 분석-추론적 통계

추론적 통계는 변수간 관계에 대한 결론을 이끌어 내기 위해 활용되는 통계적인 절차이다. 가설을 검정하기 위해 명료하게 설계되었다는 점에서 기술적 통계와 다른 점을 가지고 있다. 수량적인 통계분석은 대부분 SPSS 와 SAS 와 같은 통계 소프트웨어에서 지원된다. 이번 장은 가장 기초적이고 다소 짧은 지침서가 될 것이다. 깊이 있는 공부를 위하여 통계학에 대한 교과서를 찾아 보거나 통계학 수업을 수강하는 것을 추천한다.