10. 자료분석
- 코딩과 서술통계
부산가톨릭대학교 간호학과 조명주
1. 자료분석 - 코딩(coding)
코딩
원자료를 컴퓨터가 읽을 수 있는 기호로 바꾸는 과정
코딩북(coding book) 작성
한 연구 내에 포함된 모든 분석 대상 변수들의 약칭과 코딩 원칙을 정하여 기록한 목록작성하여 코딩
변수명: 8자리 이내의 영문, 숫자, 한글 중복 이름 안됨
자료입력 프로그램: 워드프로세서, 엑셀, 통계프로그램
미응답 자료의 코딩
미응답 자료(missing value) = 결측값
응답 자료에서 사용하지 않는 번호로 정함 1) 응답을 건너뛴 경우
2) 질문내용이 응답자와 관계되지 않아서 응답 안 한 경우
입력 자료 오류
원자료를 잘못 코딩한 경우 입력시 실수
자료 점검 방법
원자료를 무작위로 뽑아 입력된 자료파일과 비교 입력된 자료파일에서 모든 변수값의 빈도 분석
입력자료의 전환
입력 자료의 변수값과 변수명을 분석필요에 따라 바꾸는 것
2. 서술통계(descriptive statistics)
표본의 특성을 요약하여 보여주는 통계
1. 일원적 서술통계 - 빈도분포(frequency) - 분포의 모양
- 분포의 위치 - 분포의 분산
2. 이원적 서술통계 - 변수간 관계조사
1. 일원적 서술통계
1) 빈도분포(frequency)
자료를 가장 낮은 값에서 높은 값의 순으로 배열
각 빈도와 백분율을 보여줌
표, 그래프
X축: 변수의 측정값
Y축: 빈도수
2) 분포의 모양
① 왜도(skewness)
한쪽으로 치우친 정도
양의 왜도: 높은 정점이 왼쪽에 있고 오른쪽에 꼬리가 있는 것
음의 왜도: 높은 정점이 오른쪽에 있고 꼬리가 왼쪽에 있는 것
② 첨도(kurtosis)
분포의 높이가 뾰족한지 평평한가
leptokurtic Curve: 좁게 퍼졌으면 봉우리 뾰족해짐
platykurtic Curve: 넓게 퍼졌으면 봉우리 편평해짐
③ 정규분포(normal curve)
대칭의 분포 중 봉우리가 하나이며 봉우리가 종 모양의 분포
정규분포 가정: 추론통계의 기본 전제조건
3) 분포의 위치
중심화 경향
자료의 중심값 혹은 자료를 가장 대표하는 값이 차지하는 지점
a) 평균(mean)
표본의 값을 모두 더하여 표본수로 나눈 값
b) 중앙값(median)
전체 측정치를 크기 순서대로 나열했을 때 중앙에 위치한 값 c) 최빈값(mode)
분포에서 빈도가 가장 많은 값
e) 백분위 수(Percentile)
f) 사분위수(Quartile)
Q1(제1사분위수) = 제 25백분위수
Q2(제2사분위수) = 제 50백분위수
Q3(제3사분위수) = 제 75백분위수
사분위수의 범위: Q3 - Q1 g) 산포도
‘자료가 얼마나 흩어져 있는가?’를 나타내는 것
4) 분포의 분산
범위와 표준편차로 나타냄
a) 범위(range): 사례가 갖는 최대값과 최소값의 차이
b) 편차(deviation): 자료와 평균의 차이(자료-평균), 편차의 합은 항상 0 c) 분산(Variation) 편차제곱의 평균, 사례수 n 대신 n-1로 나눔
d) 표준편차(standard deviation: SD): 분산에 제곱근을 씌운 것
e) 표준점수(Standadr score: Z score): 한 측정값이 평균에서 얼마나 떨어져 있는가?
2. 이원적 서술통계
1) 변수간의 관계조사
2개 이상의 변수간의 관계를 알고자 할 때
① 분할표(cross table)
범주형 변수의 경우 변수간의 관계를 한 표에 요약하여 시각적 표현
② 상관관계(correlation )
2개의 변수가 모두 서열측정 수준 이상일 때: 변수 사이의 관계서술에 가 장 흔히 쓰임
피어슨 적률상관계수(Pearson r): 연속변수(등간 측정, 비율 측정)
스피어맨 순위상관계수(Spearman’s rho): 서열 측정에 이용 - 비모수 기법
x축: 독립변수, y축: 종속변수
상관계수(correlation coefficient): -1≤ r ≤1 0: 두 변수 사이의 관계가 없다.
절대값의 크기가 클수록 상관관계가 강함