자료의 정리(기술통계)
기술통계 추론통계
질문 1) 지난 1달간 NICU의 병원감염 발생은 어느 정도인가?
--- 변수 1개 (일변량 분석)
질문 2) 신생아의 특성에 따라 병원감염 발생은 어떠한가?
예) 출생시체중과 병원감염 발생, 재태기간과 병원감염 발생……
--- 변수 2개 (이변량 분석)
질문 3) 병원감염의 발생은 어떤 요인과 관련이 있는가?
예) 출생치체중, 재태기간, 인공호흡기……
--- 변수 3개 이상 (다변량 분석, 다중분석)
1. 자료정리와 분석의 유형
고급통계
기초통계
구분 특성 세부 유형 일변량 분석 한 개 변수에 대한 분석 양적 자료 vs 질적 자료
이변량 분석 두 개 변수에 대한 분석
질적 자료 + 질적자료 질적 자료 + 양적자료 양적 자료 + 양적자료
다변량 분석 세 개 이상 변수에 대한 분석
1. 결과변수가 질적자료(명목) 2. 결과변수가 질적자료(서열) 3. 결과변수가 양적자료
4. 결과변수가 사건발생시간 5. 인과성 확인
6. 차원 축소 7. ……
로지스틱 회귀분석 선형 회귀분석
자료정리: 변수 1개
1. 질적(범주형) 자료 : 빈도와 백분율 2. 양적 자료
1) 질적자료로 변경후 질적자료 분석에 따름
2) 대표값(집중경향치)와 산포도로 기술함
1. 질적자료: 도수분포표
주요 발생부위 건수 %
결막염 70 29.7
병원성 폐렴 62 26.3
혈류감염 49 18.6
요로감염 16 6.8
위장관 감염 10 4.2
심혈관계 감염 9 3.8
기타 15 6.4
성별 건수 %
남 50 50.0
여 50 50.0
Pie Chart
변수 건수 %
성별
남 50 50.0
여 50 50.0
교육수준 3년졸 40 40.0
4년졸 40 40.0
석사졸 20 20.0
감염부위 결막염 70 29.7
병원성 폐렴 62 26.3
혈류감염 49 18.6
요로감염 16 6.8
위장관 감염 10 4.2
질문. 아래 표는 일변량 분석표인가?
1) 대표값
- 산술평균 : 관찰치의 합을 구한 후 관찰수로 나눔
- 중앙값 : 관찰치를 크기 순으로 배열한 후 중앙(50%)에 해당하는 값 - 최빈값 : 관찰치 중 가장 흔히 나타나는 값
2. 양적자료
예) 2, 2, 4, 3, 4
평균: (2+2+4+3+4)/5=3 중앙값: 2,2,3,4,4 - 3 최빈값: 2, 4
2) 산포도 : 자료가 퍼져있는 정도
- 범위 : 최대값과 최소값의 차이
- 사분위수 범위 : 제 3사분위수-제 1사분위수 - 분산 : Σ(관찰치-평균)2/(표본수-1)
- 표준편차 : 분산의 제곱근
최소값 Q1 중앙값(Q2) Q3 최대값
범위
사분위수 범위
예) 2, 2, 4, 3, 4 범위: 4-2=2
예) 연령 : 2,2,4,3,4
관측치 X 평균 편차 X- 편차 ( X- )
22 3 -1 1
2 3 -1 1
4 3 1 1
3 3 0 0
4 3 1 1
∑(X- )=0 ∑(X- )
2=4
표준편차 = = 1
관측치와 평균의 차이
분산 = (편차)2/N-1 = 4/4 = 1 1
분산과 표준편차
왜도 (skewness) : 치우친 정도
왜도=0
왜도<0
왼쪽으로 치우친 그래프
왜도>0
오른쪽으로 치우친 그래프
첨도 (kurtosis): 뾰족한 정도
박스 plot
중앙값
(50퍼센타일, Q2)
25퍼센타일(Q1) 75퍼센타일 (Q3)
최소값
열외값 (Outlier)
최대값
1. 질적변수: 백분율 제시하는 경우
1) 소수점 1자리 또는 자연수 예) 10.1% 또는 10%
2) 표와 그래프내에서 자리수 통일 예) 10.1%, 25%, 64.9% - 10%, 25%, 65%
2. 양적변수: 대표값과 산포값을 같이 제시
예) 집단 1: 2, 2, 4, 3, 4 vs 집단 2: 1, 2, 3, 4, 5
집단 1과 집단 2의 평균은 모두 3으로 같지만 다른 집단임. 이를 반영하기 위해서 는 항상 대표값과 함께 산포값을 동시에 나타내야 함.
- 평균은 표준편차와 중앙값은 범위 또는 사분위수 범위와 함께 제시
3. 표나 그래프의 내용을 이해할 수 있도록 제목, 범례 표시
4. 무응답 : 무응답이 의미있는 경우 제시, 그렇지 않은 경우 유효 백분율 제시
일변량 자료정리시 주의사항
특성 빈도 백분율(%)
근무경력 < 1 35 35
1-3 40 40
>3 25 25
평균±표준편차 2.5±0.7 중앙값(사분위수범위) 3(1-5)
발생까지 기간 0-2 50 50
(개월) 3-5 25 25
≥6 25 25
평균±표준편차 2.5±2.6 중앙값(사분위수범위) 2(1-4)
자료정리: 변수 2개
1. 질적변수+ 질적변수
2. 질적변수+ 양적변수
3. 양적변수+ 양적변수
1. 질적변수+질적변수: 분할표, 교차표
특성 빈도
병원감염발생 예 (n=20)
빈도(%) 아니오 (n=80) 빈도(%) 성 남 20 5(25.0) 15(75.0) 녀 80 15(18.0) 65(82.0)
재태기간 <28 30 8(26.7) 22(73.3)
㈜ 28-36 30 7(23.3) 23(76.7)
≥37 40 5(12.5) 35(87.5)
1) 행백분율 기준
예) 성별 병원감염
재태기간별 병원감염
특성 빈도
병원감염발생 예 (n=20)
빈도(%) 아니오 (n=80) 빈도(%) 성 남 20 5(25.0) 15(18.7) 녀 80 15(75.0) 65(81.3)
재태기간 <28 30 8(40.0) 22(27.5)
㈜ 28-36 30 7(35.0) 23(28.7)
≥37 40 5(25.0) 35(43.8)
2) 열백분율 기준
2. 질적변수 + 양적변수
특성 입원일수
평균±표준편차
성 남 13.2±5.2
녀 15.2±7.8
재태기간 <28 34.2±16.3
㈜ 28-36 22.2±14.3
≥37 8.7±3.5
예) 성별 입원일수
재태기간별 입원일수
3. 양적변수 + 양적변수
예) 재태기간(양적변수)과 감염위험도 점수(양적변수)의 상관성
상관계수 (r) : 직선상관
- 각 순서쌍이 가상의 직선으로 부터 얼마나 근접하고 있는가?
- 두 변수간의 직선적 상관정도
-1 ≤ r ≤1
r=0 : 상관이 없음
재태기간 감염위험도
a b
c d
e f