THE PRACTICE OF SOCIAL RESEARCH
By M.J Hwang
추리통계.
기술통계.
기타 다원분석 기법.
CHAPTER 16
통계분석의 기법
기술통계
자료의 특성을 정리하고 요약할 때 사용된다. 즉 한 가지 변수의 특성을 기술하거나 여러 변수 들 간의 관계를 기술할 때 사용한다.
1.자료요약
예) 2천명에게 백 개의 질문을 하면 20만개의 응답이 나온다.
이것을 모두 일람하고 결론을 내릴 수는 없으므로 이를 정리하고 요약하는 것 을 말 그대로 자료요약이라 한다.
10세~79세의 응답자의 연령의 경우 10세 범위(10~19 / 20~29 / ....) 로 끊어서 총 80가지의 서로 다른 연령값을 7개 연령 범주로 축소하여 정리할 수 있다.
이렇게 요약된 자료를 일원적 통계(최빈값, 중앙값, 평균값 등)의 방법 혹은 변 수간의 연관관계를 산출함으로써 더 압축적으로 요약할 수 있다.
기술통계
자료의 특성을 정리하고 요약할 때 사용된다. 즉 한 가지 변수의 특성을 기술하거나 여러 변수 들 간의 관계를 기술할 때 사용한다.
2.관련성 측정
구 변수간의 연관관계를 교차 빈도분포표의 형태로 제시할 수 있는데 <표16-2>
를 보면 교육수준이 높을수록 편견의 정도가 상대적으로 낮다. 그러나 이는 전반 적인 경향에 불과하므로 엄밀히 해석하려면 기술통계를 산출해야 한다.
편견 정도 무학 중졸 고졸 대졸 대학원졸
기술통계
자료의 특성을 정리하고 요약할 때 사용된다. 즉 한 가지 변수의 특성을 기술하거나 여러 변수 들 간의 관계를 기술할 때 사용한다.
2.관련성 측정
1) 비율적 오류축소(PRE)
어떤 변수의 값을 예측할 때 생기는 오류가 다른 변수의 값을 알면 어느 정도 줄 어들 수 있는지를 통해 두 변수 간의 관계의 정도(또는 강도)를 평가하여는 논리.
어떤 질문에 대해 “예/아니오”의 비율(6:4)을 알고 있고 도 다른 변수인 성별사이 의 관련성을 알고 있다고 가정할 때 그 응답결과를 추정한다고 하자. 이때 최빈 범주(modal category)인 “예”라고 답해야 응답오류를 최소화 할 수 있다. 성별을 아는 상태에서 추정이 모르는 상태에서 추정보다 정확하다면 성별과 응답결과 간의 관계가 존재한다. 변수간의 관계가 강하면 오류의 감소는 더 크다.
단, “비율적 오류축소”의 논리는 변수가 어떤 측정속성을 지니는가(명목, 서열, 등간)에 따라 약간 다르게 적용된다.
기술통계
2.관련성 측정 2) 명목변수
두 변수가 모두 명목변수(성별, 종교, 인종, 직업 등)일 경우 람다(λ)라는 통계치(상 관변수)가 계산된다. 람다는 두 변수 가운데 한 변수의 분포가 미리 알려져 있기 때문에 다른 변수 값을 추정할 때 줄어드는 오류의 비율을 근거로 산출된다.
예) <표16-3>의 계만 보면 총 2000명 중 취업자는 1100명이고 최빈값이 ‘취업’이 므로 2000번의 예측에 모두 ‘취업’이라고 답한다면 900번의 오류 발생
• 만약 성별 분포까지 아는 경우엔 ‘남성’일 경우 ‘취업’이라고 예측하며 여성의 경 우 ‘실업’이라고 예측하기에 이때에 오류는 남성 100, 여성 200, 총 300번의 오류
• 람다는 1개의 분포만을 알 경우와 2개의 분포를 알 경우에 줄어드는 오류의 비 율
람다(λ)는 0.67(=600/900)
이다.남성 여성 계
기술통계
자료의 특성을 정리하고 요약할 때 사용된다. 즉 한 가지 변수의 특성을 기술하거나 여러 변수 들 간의 관계를 기술할 때 사용한다.
2.관련성 측정
2) 명목변수
▷이렇게 람다는 성별과 고용상태 사이에 연관을 보여주며 이와 역으로 성별과 고용상태 사이가 통계적 독립을 이룬다면 남성취업비율과 여성취업비율이 일치 하므로 1개의 분포를 아는 경우의 오류횟수와 2개의 분포를 알 경우의 오류횟수 에 영향을 주지 못하므로 람다(λ)=0(0/900)이 된다.
남성의 경우 모두 ‘취업’, 여성의 경우 모두 ‘실업’이라면 남성이라는 변수를 알 경우 고용상태를 예측할 수 있게 되어 람다(λ)=1(900/900)이 된다. 이 경우엔 두 변수 사이에 완벽한 연관관계가 존재한다
기술통계
2.관련성 측정 3) 서열변수
서열변수들(사회계층, 신앙심, 소외 등)간의 연관성은 감마(γ)라는 계수로 산출한 다. 람다가 변수의 정확한 값을 예측해 내는 것을 전제로 하는데 비해 감마는 변수 값의 서열적 범위를 예측해내는 것을 전제로 한다. 즉 두 변수에 대해 여러 사례 들이 이루는 짝(matched pair)과 관련하여, 한 변수에서 점하는 서열적 위치가 다른 변수변수에서 점하는 서열적 위치와 어떻게 정적(positive)으로 혹은 부적 (negative)으로 연관되는가에 초점을 둔다.
연령과 키의 연관관계를 살피기 위해 연령의 순위와 키의 순위가 일치하지 않는 짝은 하나는 정적 짝들(연령이 높으면 키도 큰다), 하나는 부적 짝의 수들(연령이 높은데 키는 더 작은 짝들) 두 분류로 나뉜다. 그리고 정적 짝들과 부적 짝들을 비교해본다. 당연히 정적 짝의 수들이 많으면 연령과 키는 정적 관계 반대의 경 우엔 부적관계를 가진다고 할 수 있고. 각 짝들의 개수가 같으면 독립적이어서 어떤 상관관계도 없다고 본다
기술통계
2.관련성 측정 3) 서열변수
정적 짝의 수 = ∑{하나의 셀값 × (∑오른쪽 아래위치한 셀값)}
부적 짝의 수 = ∑{하나의 셀값 × (∑왼쪽 아래위치한 셀값)}
감마 = (정적 짝의 수 - 부적 짝의 수) / (정적 짝들의 수 +부적 짝의 수) 표의 데이터를 넣어서 계산하면 감마는 -0.61이다.
-는 계층과 편견의 두 변수가 부적관계라는 것을 보여주고 0.61이라는 것은 부 적 짝수의 수가 정적 짝수의 수에 비해 61%많다는 것을 의미한다.
사회계층
편견 하층 중층 상층
기술통계
2.관련성 측정 3) 서열변수
로파타는 과부들을 표집해 사망한 남편이 어떤 사람이었는지를 범주화 각각의 성향에 대한 짝과 연결되는 숫자들이 서열변수
성향
긍정적 극단 부정적 극단
기술통계
2.관련성 측정 3) 서열변수
상관관계가 정적 방향으로 강하다는 것을 보여준다. 상관관계표는 여러 변수들 사이에 나타나는 여러 상관관계의 계수들을 제시해주기 때문에 실제로 그 상관 관계를 나타내는 데 사용된다.
유용하다 진실하다 탁월하다 친절하다 우호적이다 온화하다
Source: Helena Znaniecki Lopata, ”Widowhood and Husband Sanctification” Journal of Marriage and the Family (May 1981): 439-450.
기술통계
2.관련성 측정
4) 등간변수 혹은 비변수
•
등간 변수나 비변수들(연속형 변수, 예:연령, 수입, 성적)사이의 상관관계는 피 어슨 상관관계 계수를 통해 산출한다.• 변수의 성질상 한 변수의 값을 알고 다른 변수의 값을 예측하는 것은 거의 불 가능하다.
• 오류를 최소화하기 위해 최빈값보다는 평균값을 사용한다.
• 예측오류는 실제로 관찰된 값과 평균값 사이의 차이를 제곱한 것의 합 즉, 전 체 이산을 근거로 계산한다.
회귀분석
1) 선형회귀분석
• Y=aX+b.
• X, Y는 변수, 기울기 a와 y절편 b를 알면 X값에 해당하는 Y을 구할 수 있다.
• 산포도 상의 모든 점들의 분포를 가장 잘 나타내주는 기하학적 선(회귀선)을 찾아내는 방법이다. 이 회귀선은 변수들간의 연관을 수학적으로 기술할 수 있다.
Y=f(X)라는 회귀등식이라고 부르는 형태로 변수 사이의 관계를 표현하는 방법
0 1 2 3 4 X값
추리통계
1. 일원추리
1)추정의 기반이 되는 표본은 반드시 모집단으로부터 추출된 것이어야 한다.
2)표집과정은 단순무작위표집이어야 하며 층화표집은 표본의 대표성을 향상시켜주기 때문에 추정의 문제가 발생학지 않는다. 100%응답률을 전 제로 한다. 응답률이 떨어질수록 추정은 더 어려워진다.
3)표집오류만 다룰 뿐 비표집오류(nonsampling error : 입력실수, 응답자 의 문항에 대한 그릇된 이해)는 다루지 않는다.
표본에서 얻어진 자료를 바탕으로 해당 모집단에 대해 통계적으로 추정하는 것으로 한 가지 변수 를 측정하기 위한 것도 있고 여러 변수들 사이의 관계를 통계적으로 추정, 검증하기 위한 것도 있 다.
추리통계
2. 통계적 유의도 검증
표본에서 관찰된 결과가 표집오류에 의해서만 생겨났을 가능성을 나타내는 정 도를 통계적 유의도라 말하며 그 정도의 가능성을 검증하는 것이 통계적 유의도 검증이다. 유의도 검증은 변수간의 어떠한 관련성이 통계적으로 의미 있는 것인 지를 결정하기 위한 기준으로 작용한다. 실질적 유의도란 표본에서 관찰된 변수 들 간의 관계가 의미 있는 차이를 말할 수 있을 만큼 충분히 큰 상황을 말하며 이는 자의적 판단에 따른다.
표본에서 얻어진 자료를 바탕으로 해당 모집단에 대해 통계적으로 추정하는 것으로 한 가지 변수 를 측정하기 위한 것도 있고 여러 변수들 사이의 관계를 통계적으로 추정, 검증하기 위한 것도 있 다.
추리통계
통계적 유의도의 논리
모집단에서 두변수간의 상호 독립성에 대한 전제
일정한 확률표집 과정을 통해 추출된 표본의 대표성에 대한 전제 두변수의 표본을 구성하는 요소들의 복합적 분포에 대한 전제
• <그림16-3>은 모집단
• <그림16-4>는 완벽히 대표성이 있는 표본이다. 비율적 오류축소(PRE)의 논리 에 의해서나 표집의 논리에 의해서나 두 변수는 아무런 관계가 없다.
•<그림16-5>표본의 대표성에 심각한 문제가 있다. 모집단에서는 변수사이에 연 관이 없지만 표본에서는 나타난다. 이런 표본에서는 모집단에 대한 추정을 잘 못 내릴 수밖에 없다.
•<그림16-6>은 두 변수간에 연관성이 있는 모집단을 잘 대표하는 표본이다.
• 만약 그림5와 그림6에서 두변수간의 관계를 발견했다면 모집단을 반영하는 것 인지(<그림16-6>처럼) 단순하나 표집 오류 때문인지(<그림16-5>)를 규명
•검증은 확률이론 및 일상적인 확률 표집 기법을 사용한다.
표본에서 얻어진 자료를 바탕으로 해당 모집단에 대해 통계적으로 추정하는 것으로 한 가지 변수 를 측정하기 위한 것도 있고 여러 변수들 사이의 관계를 통계적으로 추정, 검증하기 위한 것도 있 다.
추리통계
결국, 통계적 유의도는 확률적으로만 진술 될 수 있는데, 신뢰구간과 밀 접한 유의 수준이라는 것으로 나타낸다. 예를 들어 “0.05수준에서 유의 미하다”는 말은 ‘모집단에서 두 변수 사이의 관계가 없을 때, 추출한 100 개의 확률표본 중에 5개 만이 변수 사이에 관계가 있는 것으로 나타났고 이는 오로지 “표집 오류” 때문에 발견된 것이다.’ 는 의미이다.
※ 유의수준은 관행적인 유의수준(0.05,0.01,0.001)을 이용하거나 구체적 인 유의수준을 이용하는 두 가지 방법이 있다.
표본에서 얻어진 자료를 바탕으로 해당 모집단에 대해 통계적으로 추정하는 것으로 한 가지 변수 를 측정하기 위한 것도 있고 여러 변수들 사이의 관계를 통계적으로 추정, 검증하기 위한 것도 있 다.
추리통계
4. 카이제곱
사회과학에서 빈번히 사용되는 유의도 검증방법이다. 이 검증에서 영가설은 “모 집단에서 두변수 사이에는 관계가 없다.” 이다. 두변수간에 관계가 없다고 가정하 고 교차분포표를 만든다. <표16-6>에서처럼 기대빈도, 관찰빈도에 따른 표를 만 들고 비교한다.
“(관찰빈도-기대빈도)의 제곱 / 기대빈도”를 각 셀값에 넣고 모든 수치들을 더해 주면 카이제곱이 나온다. 카이제곱은 관찰빈도와 기대빈도사이의 격차를 보여준 다. 카이제곱의 크기가 클수록 그 수치가 오직 표집오류에 기인한다고 말하기 어 려워진다.
자유도는 한계빈도들을 알고 있을 때 자유롭게 부여할 수 있는 칸의 수를 말한다.
자유도 = 교차표의 (행의 수-1)×(열의 수-1)
<표16-6>은 2×2행령이므로 자유도는 1이 되고 카이제곱은 12.70이다.
부록의 카이제곱표를 찾아보면 자유도 1에서 기각 값인 10.827보다 큰 카이제곱 을 얻을 가능성은 0.001 즉 0.1%이다. 그러므로 성별과 예배참석은 0.001수준에 서 통계적으로 유의미하다.
추리통계
-미세하게 지속적으로
-중간에 거치는것 없이 범주에서 범주로 뛴다.
예) 성별, 군인의 계급
• 연속변수와 불연속 변수
- 계산이 모든 변수들에 대해서 적절한 것이 아니므로 연속변수와 불연 속변수의 개념이 필요함
- 불연속변수는 성별이나 종교의 경우처럼 속성이 다르거나 연속적이 지 않은 변수
기술통계
자료의 특성을 정리하고 요약할 때 사용된다. 즉 한 가지 변수의 특성을 기술하거나 여러 변수 들 간의 관계를 기술할 때 사용한다.
-‘오존층 파괴’와 같이 수치화할 수 없는 경우 코딩(coding)해 일 종의 번역을 수행해야 함
ex)기존의 코딩을 사용해 “직업이 무엇입니까?”라는 질문에 전문 직, 관리직, 사무직, 반숙련직 등으로 구분하는 방식.
양적분석은 SPSS 나 MicroCase 같은 컴퓨터 프로그램에 의해 처리됨
질적 자료 또한 양적자료로 전환됨
ex) 남자 1, 여자 2, 종교성, 정당소속, 지역 등의 변수에 이를 나 타내는 숫자로 표현
선택된 코딩방식은 연구에서 검증하고자 하는 이론적 개념에 적합 해야 함.
이원분석
변수들과 변수들 간의 경험적 관계에 초점을 둬 분석하는 것. 단순한 백 분율표를 만드는 것이나 단순 상관계수를 계산하는 것
ex) 성별이라는 변수가 남성과 여성의 예배참석이라는 변수에 영향을 미침. 즉 예배참석 형태는 독립변수인 성별에 의해 부분적으로 영향 받는 종속변수로 볼 수 있음.
남성 여성
Source: General Social Survey. 2006, National Opinion Research Center.
다원분석 소개
• 다원분석(multivatiate analysis)
-3개 이상의 변수를 동시에 분석. 이원분석의 확장
-하나의 독립변수와 하나의 종속변수를 갖는 것이 아닌, 둘 이상의 독립변수를 갖게 됨
ex) 예배 참석, 전체 응답자들을 성별과 연령이라는 2가지 독립변수를 동시에 고려해 젊은 남성, 나이 든 남성, 젊은 여성, 나이 든 여성의 4가지 하위집단으로 구분. 그런 다음 각 하위집단을 종속변수인 예배참석에 대해 살펴보며 비교
거의 매주 예배 참석을 하는 사람의 백분율 남성 여성
Source: General Social Survey. 2006, National Opinion Research Center.