<통계분석 기법의 선택>

(1)

제6강 PASW사용법-2

<자료의 분포>

1. 자료의 분포

모집단 혹은 표본으로부터 얻어진 자료를 도표화하면 자료가 지닌 분포상의 특성 을 알아볼 수 있다. 대개 어떤 특정한 값으로 몰리는데 이를 중심경향(central tendency)라고 하며, 이를 나타내는 특정한 값을 중심경향값이라고 한다. 중심경향 값이란 자료를 대표하는 값이라 말 할 수 있으며 산술평균, 중앙치, 최빈치 세 가지 가 있다.

- Mean(평균값)

- Std error(표준오차): 각 표본 평균들의 표준편차 - Median(중앙값): 전체 사례중 50%에 해당하는 값 - Mode(최빈값): 전체사례 중에서 가장 빈도가 높은 값

- Std dev(표준편차): 분산의 평균값 . 평균으로부터 개별값의 떨어진 거리를 표준 화한 값

- Variance 분산(변량): 평균에서 개별 값까지의 떨어진 거리(편차)의 제곱의 합을 전체 사례수로 나눈 값으로 표준편차의 제곱

- Kurtosis(첨도): 정상분포 곡선이 뾰족한지 평평한지 알려주는 값. 정상분포곡선 에서 첨도 값은 0이며 뾰족하면 0보다 큰 값을, 평평하면 0보다 작은 값을 가짐 - SE Kurt: 첨도의 표준오차.

- Skewness(왜도) 정상분포의 곡선이 좌우로 기울어졌는지 알려주는 값. 정상분포 에 왜도 값은 0이며, 0보다 크면 좌측으로, 0보다 작으면 우측으로 기울어진 값을 가짐

- SE Skew: 왜도의 표준오차

- Range(범위): 최대값에서 최소값을 뺀 값

(2)

- Minimum(최소값) - Maximum(최대값)

- Sum(합계): 각 사례수가 가진 값을 모두 합한 값

- Percentile: 사용자 정의 백분위수로 0%∼100%사이에 알고 싶은 %의 변수값을 알고자 할 때 사용. 만약 알고 싶은 백분위수 값이 50%이면 이 값은 중앙값 (Median)과 같음

2. 정규분포와 관련분포

1) Normal Distribution(Gaussian error distribution) :

정규분포는 종모양의 대칭분포로 가장 많이 사용되는 연속확률변수의 분포이다.

실제, 여러 분야에서 자료를 설명하는데 가장 좋은 분포로 알려져 있다. 특히, 평균 이 "0"이고 분산이 "1"인 정규분포를 표준정규분포라 하고 각종 통계학 책 부록에는 표준정규분포의 확률계산을 위한 면적이 표로 나와 있다. 이러한 확률계산은 각종 분석에서 나올p-value의 개념을 설명하는데 아주 중요한 내용이다.

현재 많이 사용되는 통계적 분석방법(모수적 분석방법; t-test, ANOVA등)은 대부 분 자료가 정규분포를 따른다는 가정 하에 개발된 방법으로 자료의 분포가 정규분 포에서 심하게 틀려질 경우 이들 방법을 사용하는 것은 위험하다. 그러므로 자료를

(3)

분석하려 할 때 자료의 분포에 대한 고려를 해야 할 것이다. 만약 자료의 분포가 정규분포가 아닌 다른 분포를 따른다고 판단되면 대안으로 비모수적 분석방법, 변 수변환이나 표본수를 늘려보는 방법 등이 있을 수 있다.

2) 자료의 정규성 확인

(1) Normal Probability Plot (정규 확률지 그림)

자료의 정규성을 확인하는 절차로 가장 많이 사용되는 것은 바로 정규 확률지 그 림이다. 과거, 정규 확률지에 사람이 직접 점을 찍어 육안으로 확인하는 절차를 컴 퓨터로 구현한 절차이다.

그래프/q-q도표를 선택하면 아래와 같은 메뉴가 나타난다.

<Q-Q 도표 메뉴>

그림에서와 같이 정규성을 확인하고자 하는 변수를 선택하고 검정분포를 선택한 다. 검정분포로는 지수, 감마, 로지스틱, 와이블, 유니폼 등 많은 분포를 검정할 수 있다. 우리가 원하는 것은 정규분포인지를 확인하는 것이므로 정규분포를 선택하여 야 한다.

선택을 마치고 확인메뉴를 누르면 아래와 같은 결과가 나타난다.

(4)

<Q-Q 도표>

위의 Q-Q 도표는 직선과 점들이 보이는데 점선이 직선에 가깝게 나타나면 자료 가 정규분포를 따른다고 볼 수 있다. 위의 그림에서 점들이 S자 형식으로 나타나 자녀의 수의 분포를 정규분포라고 주장하기가 어렵다고 생각한다.

(2) Kolmogorov-Smirov Test

위의 정규 확률지 그림은 도식적인 방법으로 얼마나 점들이 직선에 가까워야 정 규분포를 따른다고 판단할 수 있는지의 근거가 주관적이다. 이에 반해 Kolmogorov-Smirov Test는 통계적 가설검증 이론에 입각해 자료의 정규성을 검증 할 수 있다.

메뉴에서 통계분석/비모수검정/일표본 K-S를 선택하면 아래와 같은 메뉴가 나타 난다.

(5)

<일표본 Kolmogorov-Smirnov 검증 메뉴>

위의 메뉴에서 정규성을 검증하고자 하는 변수와 검정분포를 선택하고 확인 버튼 을 누르면 아래와 같은 결과가 나타난다. 아래의 결과에서 Kolmogorov-Smirnov 통계량의 값은 1.662이고 유의확률은 0.008정도로 상당히 작으므로(유의수준 5%보 다 작다) 평균자녀수의 분포는 정규성을 가지지 않는다고 주장할 수 있다.

<일표본 Kolmogorov-Smirnov 검증 통계량>

(6)

<통계분석 기법의 선택>

1. 기술통계

연구자가 수집한 자료들의 현상을 간단하게 기술하고 요약하는 경우에 쓰이는 통계 분석 기법이다.

2. 추론통계

표본에서 얻은 자료로 모집단의 특성을 추정하는 통계분석 기법이며 추정과 가설검 증으로 이루어진다. 표본 자료의 평균, 표준편차 등의 기술 통계치만을 설명하는 수 준에서 그치는 것이 아니라, 그 표본 자료를 근거로 모집단에 대해 얼마나 확실하 게 미루어 짐작할 수 있는지를 파악하는 것이다. 이를 통하여 연구 결과의 일반화 를 추구한다.

3. 통계분석 기법의 선택

연구문제의 성격과 자료의 특성에 따라 그에 맞는 통계방법이 달라지기 때문에 적 절한 통계분석 기법 선택이 중요하다. 통계분석을 위해서는 연구가설과 설계, 수집 된 자료의 특성에 적합한 방법을 선택하여야 한다. 집단 간 차이를 검증하고자 하 는지 혹은 변수들 간의 관계를 보고자 하는 것인지, 변수의 개수와 측정 수준은 어 떠한지 우선적으로 고려해야 한다. 통계분석을 위한 기법 선택을 위한 과정을 정리 하면 다음과 같다.

첫째, 연구가설 혹은 연구문제가 집단 간 비교를 하려는 것인지 또는 변수들 간의 관계를 보고자 하는 것인지 판단한다.

둘째, 독립변수와 종속변수의 수를 확인한다. 독립변수와 종속변수의 수가 각각 한 개씩인지 둘 이상인지 그리고 각각 한 개씩 따로 분석할 것인지 동시에 두 개 이상 의 독립변수 혹은 종속변수를 분석할 것인지에 따라서 통계분석 방법이 달라진다.

셋째, 독립변수와 종속변수에서의 측정의 수준을 파악한다. 즉 명목척도, 서열척도, 등간척도, 비율척도 중 어느 수준에 해당하는지 확인한다. 일반적으로 명목척도와 서열척도로 측정된 경우 불연속변수(질적 변수), 등간척도와 비율척도로 측정된 경

(7)

우를 연속변수(양적 변수)로 취급한다.

1) 카이 검증

카이검증은 검증을 하고자 하는 변수가 질적변수(명목척도, 서열척도)일 때 사용하 기에 적절한 방법이다.

예: 남자청소년과 여자청소년이 좋아하는 전자게임은 다른가? (전자게임의 종류를 공격적 게임과 낭만적 게임이라는 명목척도로 측정)

2) t 검증

독립변수가 두 개의 값(성별, 집단 등)을 가지면서 종속변수가 등간척도, 비율척도 인 경우에 실시할 수 있다. 평균치들 사이의 차이를 검증하기 위해 가장 광범위하 게 사용되는 방법 중의 하나이다. 두 집단 평균간의 차이를 검사할 때 쓰인다.

예: 성별에 따라 아동의 공격적 행동이 다른가? (공격적 행동을 관찰을 통한 평정 점수라는 등간척도로 측정)

3) ANOVA(분산 분석)

독립변수가 두 개 이상의 값(성별, 집단 등)을 가지면서 종속변수가 등간척도, 비율 척도인 경우에 실시할 수 있다. ANOVA는 2개 혹은 그 이상의 집단간에 평균차가 존재할 때 사용되는 가설 검증 방법이다. 다시 말하면 분산 분석은 여러 개의 전집 으로부터 나온 것으로 가정되는 여러 개의 평균치들이 과연 우연 이상의 의미있는 차이를 보이는지를 종합적으로 검증하는 방법에 해당한다.

예: 스트레스 수준이 상/중/하 일 때 보이는 아동의 공격적 행동은 다른가? (스트레 스 수준은 상중하 세 집단이라는 명목척도로, 공격적 행동을 관찰을 통한 평정점수 라는 등간척도로 측정)

4) Correlations(상관 분석)

두 개 이상의 변수들 사이에 유의한 관계가 있는가에 관심을 가질 때 사용되는 방 법이다.

즉, ‘두 개의 점수 분포 사이의 관계는 무엇인가?’에 대한 답변을 제시할 수 있는

(8)

통계분석 기법 연구가설 독립변수 의 수

종속변수 의 수

독립변수의 측정수준

종속변수 의 측정

수준

측정치 분포의 정상성 여부 모

수 통

차이 검증

t 검증 집단 간 비교 1개

(2 수준) 1개 명목척도 연속적 정상분포 ANOVA 집단 간 비교 1개 혹은 1개 명목척도 연속적 정상분포 방법이다. 한 변수에서의 변화가 다른 변수에서의 변화와 어느 정도로 관련되어 있 는가를 알 수 있다. 가장 광범위하게 사용되는 상관 분석 방법은 양적변수간의 관 계를 알아보는 Pearson의 적률 상관 계수 r이다. 변수가 서열척도로 측정된 경우에 는 Spearman, Kendall의 상관계수를 구한다.

예: 아동의 스트레스 지수와 공격적 행동에는 어떤 관계가 있는가? (스트레스 지수 와 공격적 행동을 모두 평정점수라는 등간척도로 측정)

5) Reliability(신뢰도 분석)

측정하고자 하는 개념이 정확하고 일관되게 측정되었는지를 알아보기 위해서 할 수 있다. 응답하는 사람이 정확하고 일관되게 응답하였는지를 알아보고자 할 때도 사 용한다. 신뢰도 계수에 대한 판단은 학자마다 다르지만 일반적으로 0.7이상이면 하 나의 동일개념으로 보아 신뢰성을 인정한다. 신뢰도 계수를 알아볼 때 역점수로 코 딩되어 있는 문항은 코딩변경(recode)으로 역산한 다음에 신뢰도 계수를 구한다.

예: 설문지의 응답 일치도를 알아볼 때 Cronbach의 알파를 구한다.

6) Regression(회귀분석)

독립변수와 종속변수가 등간척도, 비율척도일 경우 실시할 수 있다. 하나 또는 다수 의 독립변수로 한 개의 종속변수를 설명 혹은 예측하고자 할 때 적용하는 통계분석 방법이다. 회귀분석은 등간척도 이상의 종속변수에 대해 독립변수가 갖는 고유한 관계와 변수의 설명력 정도를 분석한다.

예: 아동의 스트레스 지수는 아동이 보이는 공격적 행동을 얼마나 설명(또는 예측) 하는가? (스트레스 지수와 공격적 행동을 모두 평정점수라는 등간척도로 측정)

<통계분석 기법의 선택을 위해 고려할 점>

(9)

계

2개 이상

관계 검증

상관분석 변수들 간의

관계 유무 1개 1개 연속적 연속적 정상분포

단순회귀분석 변수들 간의

관계 유무 1개 1개 연속적 연속적 정상분포

중다회귀분석 변수들 간의

관계 유무 2개 이상 1개 연속적 연속적 정상분포 비 모

수 통계

카이 스퀘어 검증

집단 간 비교

관계 검증 1개 1개 명명척도 명명척도 정 상 분 포 아님

<SPSS 분석 방법 요약>

I. 자료 입력과 변환

1. 입력 오류 수정

- 빈도분석 (메뉴→분석→기술통계량→빈도분석)

- 설문지나 코드 프레임과 비교하여 잘못 입력된 값과 개수 확인 - 잘못된 값의 위치 확인 (메뉴→편집→찾기)

- 설문지와 비교하여 올바른 값으로 수정

2. 자료의 변환

1) 케이스 선택

메뉴→데이터→케이스 선택→조건을 만족하는 케이스→조건

* 조건을 만족하는 케이스→조건입력→계속

* 확인

2) 코딩 변경 (1) 같은 변수로

메뉴→변환→코딩 변경→같은 변수로 (2) 새로운 변수로

메뉴→변환→코딩 변경→새로운 변수로

(10)

* 변수 이동 후 기존값 및 새로운 값→계속

* 확인

3) 변수 계산

메뉴→변환→변수 계산

* 대상변수 입력→숫자표현식

* 필요에 따라 변수 계산 내 조건문 지정

* 확인

4) 파일 합치기 (1) 케이스 추가

메뉴→데이터→파일 합치기→케이스 추가

* 케이스 추가에서 추가할 파일명 선택→열기→변수들이 대응되는지 확인 후

* 확인

(2) 변수 추가

메뉴→데이터→파일 합치기→변수 추가

* 변수 추가에서 추가할 파일명 선택→열기→추가할 변수의 케이스가 같은지 확인 후

* 확인

II. 기초분석

1. 빈도분석과 기술통계

1) 빈도분석

메뉴→분석→기술통계량→빈도분석

* 통계량과 도표 선택

* 확인

2) 교차분석

메뉴→분석→기술통계량→교차분석

* 셀에서 필요한 항목 선택→계속

* 확인

3) 기술통계

메뉴→분석→기술통계량→기술통계

* 필요한 옵션 선택 후→계속

(11)

* 확인

2. 중복응답의 분석: 자료의 종류에 다라 다르게 코딩(범주형, 이분형)

1) 범주형

1단계: 메뉴→분석→다중응답분석→변수군 정의

* 변수군에 포함된 변수 상자에 분석하고자 하는 변수를 선택하여 넣음→변수들의 코딩형식 지정(범주형)→추가→닫기

2단계: 메뉴→분석→다중응답분석→빈도분석 또는 교차 분석

2) 이분형

1단계: 메뉴→분석→다중응답분석→변수군 정의

* 변수군에 포함된 변수 상자에 분석하고자 하는 변수를 선택하여 넣음→변수들의 코딩형식 지정(이분형)→추가→닫기

2단계: 메뉴→분석→다중응답분석→빈도분석 또는 교차 분석

3) 순위형의 경우는 범주형으로 코딩→빈도분석→가중치 부여→해석

III. 차이검증

1. 카이검증

메뉴→분석→기술통계량→교차분석

* 통계량에서 카이제곱 선택

* 필요한 경우 적절한 상관검증 선택

* 셀에서 필요한 항목 선택→계속

* 확인

2. t 검증

1) 독립표본 t 검증

메뉴→분석→평균비교→독립표본 t 검증

* 분석할 변수 선택 (검정변수와 집단변수 선택)

* 확인

2) 대응표본 t 검증

(12)

메뉴→분석→평균비교→대응표본 t 검증

* 분석할 변수 선택 (대응변수의 쌍 선택)

* 확인

3. 분산분석

1) 일원배치 분산분석

메뉴→분석→평균비교→일원배치 분산분석

* 옵션에서 필요한 항목 선택→계속

* 사후분석에서 필요한 항목 선택→계속

* 확인

2) 다원분산분석의 경우: 일반선형모델 분석 (GLM: General Linear Model) 메뉴→분석→일반선형모형→일변량

* 종속변수와 독립변수(모수요인)를 이동

IV. 관계검증

1. 상관분석

1) 이변량 상관계수

메뉴→분석→상관분석→이변량 상관계수

* 상관관계를 알아보기 위한 변수를 이동시키고 상관계수와 유의성 검정 선택

* 확인

2) 편상관계수

메뉴→분석→상관분석→편상관계수

2. 회귀분석

1) 단순선형 회귀분석 메뉴→분석→회귀분석→선형

* 독립변수, 종속변수 선정

* 확인

(13)

2) 중다선형 회귀분석 메뉴→분석→회귀분석→선형

* 독립변수, 종속변수 선정

* 방법 선정

* 통계량과 도표에서 필요한 항목 선택→계속

* 확인

V. 신뢰도 분석

메뉴→분석→척도화분석→신뢰도분석

* 모형에서 분석방법을 선정

* 통계량에서 필요한 항목 선정