10. 자료분석

(1)

10. 자료분석

- 코딩과 서술통계

부산가톨릭대학교 간호학과 조명주

(2)

1. 자료분석 - 코딩(coding)

 코딩

원자료를 컴퓨터가 읽을 수 있는 기호로 바꾸는 과정

 코딩북(coding book) 작성

한 연구 내에 포함된 모든 분석 대상 변수들의 약칭과 코딩 원칙을 정하여 기록한 목록작성하여 코딩

변수명: 8자리 이내의 영문, 숫자, 한글 중복 이름 안됨

 자료입력 프로그램: 워드프로세서, 엑셀, 통계프로그램

(3)

 미응답 자료의 코딩

미응답 자료(missing value) = 결측값

응답 자료에서 사용하지 않는 번호로 정함 1) 응답을 건너뛴 경우

2) 질문내용이 응답자와 관계되지 않아서 응답 안 한 경우

(4)

 입력 자료 오류

원자료를 잘못 코딩한 경우 입력시 실수

 자료 점검 방법

원자료를 무작위로 뽑아 입력된 자료파일과 비교 입력된 자료파일에서 모든 변수값의 빈도 분석

 입력자료의 전환

입력 자료의 변수값과 변수명을 분석필요에 따라 바꾸는 것

(5)

2. 서술통계(descriptive statistics)

 표본의 특성을 요약하여 보여주는 통계

1. 일원적 서술통계 - 빈도분포(frequency) - 분포의 모양

- 분포의 위치 - 분포의 분산

2. 이원적 서술통계 - 변수간 관계조사

(6)

1. 일원적 서술통계

1) 빈도분포(frequency)

 자료를 가장 낮은 값에서 높은 값의 순으로 배열

 각 빈도와 백분율을 보여줌

 표, 그래프

 X축: 변수의 측정값

 Y축: 빈도수

(7)

2) 분포의 모양

① 왜도(skewness)

 한쪽으로 치우친 정도

 양의 왜도: 높은 정점이 왼쪽에 있고 오른쪽에 꼬리가 있는 것

 음의 왜도: 높은 정점이 오른쪽에 있고 꼬리가 왼쪽에 있는 것

② 첨도(kurtosis)

 분포의 높이가 뾰족한지 평평한가

 leptokurtic Curve: 좁게 퍼졌으면 봉우리 뾰족해짐

 platykurtic Curve: 넓게 퍼졌으면 봉우리 편평해짐

③ 정규분포(normal curve)

 대칭의 분포 중 봉우리가 하나이며 봉우리가 종 모양의 분포

 정규분포 가정: 추론통계의 기본 전제조건

(8)

3) 분포의 위치

 중심화 경향

 자료의 중심값 혹은 자료를 가장 대표하는 값이 차지하는 지점

a) 평균(mean)

 표본의 값을 모두 더하여 표본수로 나눈 값

b) 중앙값(median)

 전체 측정치를 크기 순서대로 나열했을 때 중앙에 위치한 값 c) 최빈값(mode)

 분포에서 빈도가 가장 많은 값

(9)

e) 백분위 수(Percentile)

f) 사분위수(Quartile)

 Q1(제1사분위수) = 제 25백분위수

 사분위수의 범위: Q3 - Q1 g) 산포도

 ‘자료가 얼마나 흩어져 있는가?’를 나타내는 것

(10)

4) 분포의 분산

 범위와 표준편차로 나타냄

a) 범위(range): 사례가 갖는 최대값과 최소값의 차이

b) 편차(deviation): 자료와 평균의 차이(자료-평균), 편차의 합은 항상 0 c) 분산(Variation) 편차제곱의 평균, 사례수 n 대신 n-1로 나눔

d) 표준편차(standard deviation: SD): 분산에 제곱근을 씌운 것

e) 표준점수(Standadr score: Z score): 한 측정값이 평균에서 얼마나 떨어져 있는가?

(11)

2. 이원적 서술통계

1) 변수간의 관계조사

 2개 이상의 변수간의 관계를 알고자 할 때

① 분할표(cross table)

 범주형 변수의 경우 변수간의 관계를 한 표에 요약하여 시각적 표현

(12)

② 상관관계(correlation )

 2개의 변수가 모두 서열측정 수준 이상일 때: 변수 사이의 관계서술에 가 장 흔히 쓰임

 피어슨 적률상관계수(Pearson r): 연속변수(등간 측정, 비율 측정)

 스피어맨 순위상관계수(Spearman’s rho): 서열 측정에 이용 - 비모수 기법

 x축: 독립변수, y축: 종속변수

 상관계수(correlation coefficient): -1≤ r ≤1 0: 두 변수 사이의 관계가 없다.

절대값의 크기가 클수록 상관관계가 강함