• 검색 결과가 없습니다.

자료의 정리(기술통계)

N/A
N/A
Protected

Academic year: 2022

Share "자료의 정리(기술통계)"

Copied!
21
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

자료의 정리(기술통계)

기술통계 추론통계

(2)

질문 1) 지난 1달간 NICU의 병원감염 발생은 어느 정도인가?

--- 변수 1개 (일변량 분석)

질문 2) 신생아의 특성에 따라 병원감염 발생은 어떠한가?

예) 출생시체중과 병원감염 발생, 재태기간과 병원감염 발생……

--- 변수 2개 (이변량 분석)

질문 3) 병원감염의 발생은 어떤 요인과 관련이 있는가?

예) 출생치체중, 재태기간, 인공호흡기……

--- 변수 3개 이상 (다변량 분석, 다중분석)

1. 자료정리와 분석의 유형

고급통계

기초통계

(3)

구분 특성 세부 유형 일변량 분석 한 개 변수에 대한 분석 양적 자료 vs 질적 자료

이변량 분석 두 개 변수에 대한 분석

질적 자료 + 질적자료 질적 자료 + 양적자료 양적 자료 + 양적자료

다변량 분석 세 개 이상 변수에 대한 분석

1. 결과변수가 질적자료(명목) 2. 결과변수가 질적자료(서열) 3. 결과변수가 양적자료

4. 결과변수가 사건발생시간 5. 인과성 확인

6. 차원 축소 7. ……

로지스틱 회귀분석 선형 회귀분석

(4)

자료정리: 변수 1개

1. 질적(범주형) 자료 : 빈도와 백분율 2. 양적 자료

1) 질적자료로 변경후 질적자료 분석에 따름

2) 대표값(집중경향치)와 산포도로 기술함

(5)

1. 질적자료: 도수분포표

주요 발생부위 건수 %

결막염 70 29.7

병원성 폐렴 62 26.3

혈류감염 49 18.6

요로감염 16 6.8

위장관 감염 10 4.2

심혈관계 감염 9 3.8

기타 15 6.4

성별 건수 %

남 50 50.0

여 50 50.0

Pie Chart

(6)

변수 건수 %

성별

남 50 50.0

여 50 50.0

교육수준 3년졸 40 40.0

4년졸 40 40.0

석사졸 20 20.0

감염부위 결막염 70 29.7

병원성 폐렴 62 26.3

혈류감염 49 18.6

요로감염 16 6.8

위장관 감염 10 4.2

질문. 아래 표는 일변량 분석표인가?

(7)

1) 대표값

- 산술평균 : 관찰치의 합을 구한 후 관찰수로 나눔

- 중앙값 : 관찰치를 크기 순으로 배열한 후 중앙(50%)에 해당하는 값 - 최빈값 : 관찰치 중 가장 흔히 나타나는 값

2. 양적자료

예) 2, 2, 4, 3, 4

평균: (2+2+4+3+4)/5=3 중앙값: 2,2,3,4,4 - 3 최빈값: 2, 4

(8)

2) 산포도 : 자료가 퍼져있는 정도

- 범위 : 최대값과 최소값의 차이

- 사분위수 범위 : 제 3사분위수-제 1사분위수 - 분산 : Σ(관찰치-평균)2/(표본수-1)

- 표준편차 : 분산의 제곱근

최소값 Q1 중앙값(Q2) Q3 최대값

범위

사분위수 범위

예) 2, 2, 4, 3, 4 범위: 4-2=2

(9)

예) 연령 : 2,2,4,3,4

관측치 X 평균 편차 X- 편차 ( X- )

2

2 3 -1 1

2 3 -1 1

4 3 1 1

3 3 0 0

4 3 1 1

∑(X- )=0 ∑(X- )

2

=4

표준편차 = = 1

관측치와 평균의 차이

분산 = (편차)2/N-1 = 4/4 = 1 1

분산과 표준편차

(10)

왜도 (skewness) : 치우친 정도

왜도=0

왜도<0

왼쪽으로 치우친 그래프

왜도>0

오른쪽으로 치우친 그래프

첨도 (kurtosis): 뾰족한 정도

(11)

박스 plot

중앙값

(50퍼센타일, Q2)

25퍼센타일(Q1) 75퍼센타일 (Q3)

최소값

열외값 (Outlier)

최대값

(12)

1. 질적변수: 백분율 제시하는 경우

1) 소수점 1자리 또는 자연수 예) 10.1% 또는 10%

2) 표와 그래프내에서 자리수 통일 예) 10.1%, 25%, 64.9% - 10%, 25%, 65%

2. 양적변수: 대표값과 산포값을 같이 제시

예) 집단 1: 2, 2, 4, 3, 4 vs 집단 2: 1, 2, 3, 4, 5

집단 1과 집단 2의 평균은 모두 3으로 같지만 다른 집단임. 이를 반영하기 위해서 는 항상 대표값과 함께 산포값을 동시에 나타내야 함.

- 평균은 표준편차와 중앙값은 범위 또는 사분위수 범위와 함께 제시

3. 표나 그래프의 내용을 이해할 수 있도록 제목, 범례 표시

4. 무응답 : 무응답이 의미있는 경우 제시, 그렇지 않은 경우 유효 백분율 제시

일변량 자료정리시 주의사항

(13)

특성 빈도 백분율(%)

근무경력 < 1 35 35

1-3 40 40

>3 25 25

평균±표준편차 2.5±0.7 중앙값(사분위수범위) 3(1-5)

발생까지 기간 0-2 50 50

(개월) 3-5 25 25

≥6 25 25

평균±표준편차 2.5±2.6 중앙값(사분위수범위) 2(1-4)

(14)

자료정리: 변수 2개

1. 질적변수+ 질적변수

2. 질적변수+ 양적변수

3. 양적변수+ 양적변수

(15)

1. 질적변수+질적변수: 분할표, 교차표

특성 빈도

병원감염발생 예 (n=20)

빈도(%) 아니오 (n=80) 빈도(%) 성 남 20 5(25.0) 15(75.0) 녀 80 15(18.0) 65(82.0)

재태기간 <28 30 8(26.7) 22(73.3)

㈜ 28-36 30 7(23.3) 23(76.7)

≥37 40 5(12.5) 35(87.5)

1) 행백분율 기준

예) 성별 병원감염

재태기간별 병원감염

(16)

특성 빈도

병원감염발생 예 (n=20)

빈도(%) 아니오 (n=80) 빈도(%) 성 남 20 5(25.0) 15(18.7) 녀 80 15(75.0) 65(81.3)

재태기간 <28 30 8(40.0) 22(27.5)

㈜ 28-36 30 7(35.0) 23(28.7)

≥37 40 5(25.0) 35(43.8)

2) 열백분율 기준

(17)

2. 질적변수 + 양적변수

특성 입원일수

평균±표준편차

성 남 13.2±5.2

녀 15.2±7.8

재태기간 <28 34.2±16.3

㈜ 28-36 22.2±14.3

≥37 8.7±3.5

예) 성별 입원일수

재태기간별 입원일수

(18)

3. 양적변수 + 양적변수

예) 재태기간(양적변수)과 감염위험도 점수(양적변수)의 상관성

상관계수 (r) : 직선상관

- 각 순서쌍이 가상의 직선으로 부터 얼마나 근접하고 있는가?

- 두 변수간의 직선적 상관정도

-1 ≤ r ≤1

r=0 : 상관이 없음

재태기간 감염위험도

(19)

a b

c d

e f

질문 1. 상관계수가 가장 큰 것은?

질문 2. 기울기가 가장 큰 것은?

질문 3. 상관계수가 -0.8이라면 상관계수 0.3에 비해 상관성이 더 큰가?

(20)

범위에 따른 상관계수

X Y

Actual r = 0.90

r = 0.05

X Y

Actual r = 0.05

r = 0.80

(21)

이상치(Outlier)가 있는 상관계수

X Y

Without outlier r = 0.06

With outlier

r=0.70

참조

관련 문서

자유롭게 사용할 권리를 침해하는 것이다. 분배정의의 두가지 조건을 제시.. 소득재분배 반대의 철학적 기초: Robert Nozick.. 분배정의의 두가지 조건을

탐구 교사는 학생에게 새로운 학습 주제 관련 과제를 제시 학생의 행동을 적절한탐구로 이끌면서 학생의 활동지시5. 탐구

제18조(자료의 정리) 도서관에서 보유하고 있는 모든 자료의 정리에 관한 사항은 관장이 따로 정 한다... 대출된 자료로서 반납이

스킬, 아이템 습득 레벨 세분화를 통한 캐릭터 육성의 재미를 느낄 수 있는 가시적 목적성 제시 및

• Pathology.. 출처: American Joint Committee on Cancer staging system for thyroid cancers using the TNM classification. Harrison 18 th Edition.. Postsurgical hypoparathyroidism.

• 선형계획법(Linear Programming; LP)이란, 여러 개의 제한된 자원이 존 재하는 경우에 특정 목적(이익최대화 또는 비용최소화)을 달성하고자 하 는 경영자의

시뮬레이션은 평가 항목별 점수에 미치는 영향 단독 또는 경쟁일 경우 동일 수 , 익률 가정하에서 항목별 점수 및 현금흐름 차이 분석을 위함이며 도출된 분석

(2) 전류형의 경우 전동기의 회생제동이 회로의 구조상 가능하지만 전압형 인버터 사용시 별도의 컨버터가 필요하며 그렇지 않을