• 검색 결과가 없습니다.

QUATTRO PRO

N/A
N/A
Protected

Academic year: 2021

Share "QUATTRO PRO "

Copied!
12
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

대한임상병리사회지 : 제 26 권 제 1 호 1994.

QUATTRO PRO

함수와 매크로를 활용한 임상병리과용 통계 프로그램

서울의과학 연구소 서울임상병리검사센터 김 약 수

Key words : QUA TTRO PRO program, Laboratory Data

1 . 머 리 말 II. 프로그램의 개요

필자는 1990 년도 1) 및 1993 년도2) 임상병리사 1. 기술톰계의 처리결과 내용 협회지에 쿼트로 프로의 함수와 매크로로 작성

한 정도관리용 프로그램을 각각 소개한 바 있 1) 표본 수, 변수의 수, 총계, 최대치, 최소 다. 이번에는 정도관리를 수행함에 있어서 필 치, 범위, 중앙치, 평균, 표본분산, 모분산, 표본 수 불가결한 도구의 하나인 통계관련 프로그램 표 준편차, 모 표준편차, 표준오차, 변이계수,

을 짜서 활용해 본 결과 통계지식이 많지 못한 차의 총계, 차의 평균, 편포도, 첨도.

분들도 손쉽게 활용할 수 있을 것으로 생각되 2) 4 분위 범위 (k, Q1, Q3, Q).

어, 그 중에서 일부를 지면을 통하여 소개한다 3) 빈도분석(표본 수, 최소치, 최대치, 급의 현재 우리 나라에서 시판되고 있는 통계관련 수, 급하한, 급상한, 대표치, 빈도수, 기타 편포 프로그램들은 김수녕 교수가 개발하여 보급하 도 및 첨도 계산용 데이터) .

고 있는 “알기쉬운 데이터베이스 통계소프트웨

어(프로그램명 : dBSTAT)3)" 외에는, 대부분 2. 정규성 및 Outlier 분석 명령어를 알아야만 통계분석이 가능하며, 그

것을 습득하는데도 많은 어려움이 있을 뿐만 1) 정규성

아니라 통계에 대한 지식도 상당히 갖추고 있

CD

Kolmogorov - Smirnov 적합도 검정(비 모 어야만 제대로 활용할 수 있는 것으로 안다. 수법 4-6) , @ 편포도 검정7,8), @ Geary

이런 점을 고려하여 이 통계 프로그램(프로 정 9 , 10) 그램명= LAB-ST A T.WQ1) 에서는 이미 1993

년도 협회지에 게재한 정도관리용 프로그램 2) Outlier 분석

(QCXBR.WQ1 )2) 에서 처럼 QUATTRO PRO 의

CD

Pearson -Stephens 검정 11 , 14) @ Smirnov

@함수와 매크로를 활용한 프로그램이며, 단축 -Grubbs 검정 10 , 13 , 15 , 16). @ 평균

+/-

키와 화면지시 방법을 최대한으로 활용하여, 3SD 및 2SD볍씨2) @ Box - Whisker Plot 이 프로그램을 조작하는 사람이 통계분석할 데 법(비 모수법 )17-20).

이터의 입력과, 몇 가지 질문에 대한 답만 입

력하면, 나머지는 전부 스스로 처리하여 분석 3) 도수분포 막대 그래프

한 결과화면이 나오도록 꾸였다 4) X bar-R 관리도용 관리한계표

- 257-

(2)

3.

비교분석

1) 단일 표본 (Z 검정, t 검정).

2) 두 표본

@ 짝을 이루지 않으나 등분산인 두 표본의

t 검정

@ 짝을 이루지 않으며 등분산이 아닌 두 표 본의 t 검정

@ 짝을 이룬 두 표본의 t 검정

4.

분산분석

1) 일원배치 분산분석,

2) 일원배치 분산분석을 한 평균치 차의 검

3) 이원배치 분산분석(평균차의 겸정) 4) 이원배치 분산분석(반복 측정의 검정)

5. 상관 및 회귀분석

1) 상관분석(상관계수,

검정)

상관계수의 유의성

2) 회귀분석(방향계수, y 절편 값, b 의 유의 성 검정, 표준오차, 결정계수, 회귀방정 식, 회귀 분석 그래프).

6. X bar-Rs-R 관리용 통계

1) X-Rs' 관리도용 관리한계표

2) X bar-Rs-R 관리도용 관리한계표

3) 1) 및 2) 의 데이터 분석표

4) X

관리도 5) Rs' 관리도

6) X bar 관리도 7) Rs 관리도

8) R 관리도

참고 : 위 각종 통계분석 중 일부는 가까운 시일내에 다양한 검정법과, X bar-R, X-Rs,

X bar-Rs-R 관리도법의 관리 전 후의 통계

업무를 추가 보강할 예정이다.

ill. 프로그램 해설

이 통계 프로그램은 앞서 발표(1 993 년도 병 리사협회지 )2) 한 프로그램에서와 마찬가지로 단축 키와 화면지시를 최대한 활용한 방법이므 로 조작과정은 생략하며, 위 각종 통계 프로그 램 중에서

정규분포분석결과 표본수 =25

고。1 균 =5.01 표준편차 =0.08

*

Kolmogorov - Smirnov 적합도 검사

유의수준 D Max 유의성 D(n, α) 양측 검정 0.01 0.1917

<

0.31657

0.05

<

026404

그림 1-1. 정규분포 분석결과 화면

정규분포분석결과

*편포도 검정

유의수준검정 편포도 유의성

0.01 0.283 0.05

*

Geary 검정

유의수준 검정 G

0.01 0.05

정:

0.745

<

<

유의성

<

<

편포도

%점 0.939 0.627

G(n

,

a) 0.873 0.852

K-S= 유의수준 0.01 에서 정규분포를 이룹니다.

K-S= 유의수준 0.05 에서 정규분포를 이룹니다.

Sk= 유의수준 0.01 에서 정규분포를 이룹니다.

Sk= 유의수준 0.05 에서 정규분포를 이룹니다.

G= 유의수준 0.01 에서 정규분포를 이룹니다.

G= 유의수준 0.05 에서 정규분포를 이룹니다.

그림 1-2. 정규분포 분석결과 화면

여기서는 지면 관계상 정규성 검정은 검정 결과표만 섣고 해설은 생략하며, Outlier 검정 에관한 것은 결과와 해설까지만 다루겠다.

- 258-

(3)

1. 정규성 검정결과 화면은 그림 1-1 1-

2와 같다.

2. Outlier 검사결과 화면은 그림 2-1 부터 2

-4 의 2 까지와 같다.

* * *OUTLIER 검사결과***

* Pearson - Stephens 검 정 표본수 =25

고。1 균 =5.01 표준편차 =0.08 데 이 터 구분 데 이 터 Tps값 T(p=O.Ol). T(p=O.05)

3.009 2.663

최대치 5.16 1.875

< <

최소치 4.82 2.375

< <

그림 2 - 1. Outlier 검사결과 화면

판 정:

5 .1 6= 유의수준 0.01 에서 유의하지 않습니다.

=유의수준 0.05 에서 유의하지 않습니다.

4.82= 유의수준 0.01 에서 유의하지 않습니다.

=유의수준 0.05 에서 유의하지 않습니다.

* Smirnov - Grubbs 검 정

최대치 =5.16 최소치 =4.82

평균치 =5.01

Max-Mean=0.15

표준편차 =0.08

Min-Mean=0.19

데 이 터구분. 데 이 터. Tsg. t(p=O.Ol)t(p=O.05)

최 대 치 5.16 3.071 2.717

최소치 4.82 2.375

< <

판 정:

4.82= 유의수준 0.01 에서 유의하지 않습니다.

=유의수준 0.05 에서 유의하지 않습니다.

그림 2 - 2. Outlier 검사결과 화면

*평균 +/- 3SD 및 평균 +/- 2SD 검사법

고。1 균 =5.01 표준편차 =0.08

검정 데이터 낮은쪽 삭제 데이터 검정 데이터 높은쪽 삭제 데이터

L 10 % Data L 10 % Data L 10 % Data Hi 10 % Data Hi 10 % Data Hi 10 % Data

4.82 4.82 5.12

4.88 5.16

4.94 5.16

평균 +/- 3SD=4.77-5.25

평균 +/- 2SD=4.86-5.17

M-3SD 쪽 데이터=삭제할 데이터가 없습니다.

M-2SD 쪽 데이터 =AX6 .. AX14 데이터 삭제 ?

판 정 M+3SD 쪽 데이터=삭제할 데이터가 없습니다.

M+2SD 쪽 데이터=삭제할 데이터가 없습니다.

참고 : 종합평가를 보고 판단할 것.

그림 2-3. Outlier 검사결과 화면

* Box - Whisker Plot 삭제 데이터 삭제 데이터

(비 모수적 방법) (내측 한계) (내측 한계)

중위수 =5.00 최소치 =4.82 최대치 =5.16

그림 2-4의 1. Outlier 검사결과 화면

(4)

내측 아래 한계 =4.81 내측 위 한계 =5.21 외측 아래 한계 =4.72 외측 위 한계 =5.44 판 정:

외측한계=삭제할 데이터가 없습니다.

내측한계=삭제할 데이터가 없습니다.

그림 2-4의 2. Outlier 검사결파 화면

3. 각종 검정결과 총괄표는 그림 3-1 부터 3-

2 까지와 같다.

***각종 검정결과 일람표***

*정규성*

K-S= 유의수준 0.01 에서 정규분포를 이룹니다.

K-S= 유의수준 0.05 에서 정규분포를 이룹니다.

Sk= 유의수준 0.01 에서 정규분포를 이룹니다.

Sk= 유의수준 0.05 에서 정규분포를 이룹니다.

G= 유의수준 0.01 에서 정규분포를 이룹니다.

G= 유의수준 0.05 에서 정규분포를 이룹니다.

그림 3-1. 검정결과 총괄표

*OUTLIER 검 사 * Pearson - Stephens 검 정

5.16= 유의수준 0.01 에서 유의하지 않습니다.

=유의수준 0.05 에서 유의하지 않습니다.

4.82= 유의수준 0.01 에서 유의하지 않습니다.

=유의수준 0.05 에서 유의하지 않습니다.

Smirnov - Grubbs 검 정

4.82= 유의수준 0.01 에서 유의하지 않습니다.

=유의수준 0.05 에서 유의하지 않습니다.

평균 +/- 3SD 및 평균 +/- 2SD 검정

M-3SD 쪽 데이터=삭제할 데이터가 없습니다.

M-2SD 쪽 데이터 =AX6 .. AX14 데이터 삭제 ? M+3SD 쪽 데이터 =삭제할 데이터가 없습니다.

M+2SD 쪽 데이터 =삭제할 데이터가 없습니다.

Box -Whisker Plot ( 비 모수적 방법 ) 내측한계=삭제할 데이터가 없습니다.

외측한계=삭제할 데이터가 없습니다.

그림 3-2. 검정결과 총괄표

4. 다음엔 종합평가 지침이 나오는데. Outlier

검정결파뜰 이 7,]침에 의해 판단한다.

종합평가 지침

통계 프로그램 사용셜명서 제 4 장 제 4 젤의 Outlier 해석의 기본 원칙을 참고할 것.

정규성 겸정

Kolmogorov - Smirnov 검 정

1 연속분포의 비 모수적 적합도검정에 적뿜 한다.

2. 표본 누적도수분포와 이론 누적도수분포 의 차이가 가장 큰 것을 검정한다.

면포도 검정

1. 표본의 수가 작을 때에는 선빙도가 낮다.

Geary 검 정

1. 이 겸정법은 정규성의 검정뿐만 아니 Outlier의 검출에도 유용한 방법으로 알려 져 있다.

OUTLIER 검정

*

Pearson - Stephens 검 정 에 대 하여

1. 최소치 1 개와 최대치 1 개 또는 최소치 혹 은 최대치 2 개의 기각치가 예상되는 것에 적용한다.

2. 데이터 수가 20개 이상일 때에 확실하게 검출하는 믿을 수 있는 방법이다.

3. 기각치가 1 개일 때에는 제 1 종의 오차 7 생길 위험이 있으므로 이때에는 Smirno

-Grubbs 법을 참고하여서 판단할 것.

4. 기각 데이터가 없을 것이 예상될 때에는 제 1 종의 오차를 피하기 위하여 유의 A 준 0.01 에서 검정할 것.

*

Smirnov - Grubbs 검 정

- 260-

(5)

1. 한 번에 기각예상 데이터 1 개씩만 겸정 할 것.

즉, 최대치-평균, 최소치-평균 중에서 차이가 큰쪽의 차이값에 대하여 검정한 다.

2. 데이터 수가 적거나, 기각 데이터가 많을 때에는 검출력이 나쁘다.

3. 데이터 수가 50 개 이하일 때에는 제 2 종 의 오차릅 피하기 위하여, 유의수준 0.0

에서 검정할 것.

그림 4-1. 종합평가 지침서

* Smirnov-Grubbs 검 정 ( 계 속 )

4. 기각 데이터가 없을 것으로 예상펼 때에 는 제 1 종의 오차를 피하기 위하여, 유의 수준 0.01 에서 검정할 것.

* 평균 +/- 3SD 2SD 검정

1. 정규성 검정결과와 종합해서 판단할 것.

2. 이 방법은 정규성이 인정되는 데이터에 서는, 데이터의 크기가 변해도 기각 데이 터 포함률이 5% 이하면 거의 완벽하게 겸출한다.

3. 기각 데이터의 포함률이 5% 이상 10 %

이하일 때에는 평균 +/- 2SD 법을 적

용할 것.

* Box - Whisker Plot 1. 비 모수적 검정방법이다.

2. 외측한계에 든것은 반드시 기각할 것이 며, 내측한계에 든 것은 Outlier 해석의 기본 원칙을 참고해서 판단할 것.

*참고

1. 위의 검정방법별 특성들을 종합해서 판 단하고, Pearson - Stephens 법 에 는 한 번에 2 개씩, Smirnov-Grubbs 법에서는 한 번에 1 개씩 검정하고, 기각 데이터가 검출 되면 그 데이터를 삭제하고 검정을 반복할 것.

2. 평균 +/- 3SD 법은 검출된 기각 데이터 의 수가 데이터 총수의 5% 이하이면 한 번의 검정으로 기각 데이터를 검출할 수 있으며, 만약에 5% 를 넘으면 평균

+/

- 2SD 법으로 검출 할 것.

3. 평균 +/- 2SD 법에서는 기각 데이터가

3% 이하 포함시에는 제 1 종의 오차를 일으킬 가능성이 크다.

그림 4-2. 종합평가 지침서 2

5. 다음엔 X bar-R 관리도용 관리한계표(그 림 5) 가 나오는데, 이 표는 Outlier 데이터 를 완 전히 제외 시키고, 통계량이 확정된 단계에서만 이용하여야 할 데이터이다.

6. 관리한계표를 평균치에 의한 것과 중위수에 의한 것을 표시하였는데, 일반적으로 활용 하는 것은 평균에 의한 것이지만, 비 모수 적 방법으로 처리한 통계량일 때에는 중위 수에 의한 것을 이용하는 수도 있어 참고로 양쪽을 다 실었다.

7. X-Rs X bar-Rs-R 관리도용 관리한계 용 프로그램은 별도로 되어 있으며 여기서 는 생략한다.

* * *X bar-R 관리도용 관리한계표***

*평균치에 의한 것

X bar 관리도용

평균 : CL 5.01

위 관리한계 : M+3SD 5.25 M+2SD 5.17

아래 관리한계 : M-3SD 4.77 M-2SD 4.85

*R 관리도용

위 관리한계 : R x 3.27 1.40 : R x 2.51 1.0끼

아래 관리한계

o

*중위수에 의한 것

위 수 : Median 5.00

위 관리 한계 : M+3SD 5.24 M+2SD 5.1~

아래 관리한계 : M-3SD 4.76 M-2SD 4.8씌

그림 5. X bar-R 관리도용 관리한계표

N. Outlier 검사

Outlier를 검사하는 방법은 여러 가지가 있으 나, 이 프로그램에서는 Pearson -Stephens의 검정법, Smirnov - Grubbs 검정법과 평균 +/-

3SD 법 및 평균 +/- 2SD 법, 그리고, 비 모수

- 261-

(6)

적 방법으로 Box - Whisker plot법을 적용하였 최대치 -평균치 =5.16-5.01 =0.15

다. 평균치 -최소치 =5.01-4.82=0.19

그러므로, 검 정 통계 량= 0.19/0.08 = 2.375 n=25, 유의수준 0.01 일 때의 유의점 =3.071 n=25, 유의수준 0.05 일 때의 유의점 =2.717 Tn<Tn(a) 2.375<3.071(25

,

0.01) Tn<Tn(a) 2.375<2.717(25

,

0.05) 1. Pearson - Stephens

1) 최소치 한 개와 최대치 한 개 또는 최소 치 두 개나 최대치 두 개가 기각치로 의심될 때 적용하는 검정법이다.

2) 그 수식은 아래와 같다.

Tps= (Xmax-mean)/SD

리 고 Tps= (mean-Xmin)/SD

즉,(Ï) 최대치-평균치 및 최소치-평균치 (절대값)를 각각 구한다.

@(Ï)에서 구한 값들올 각각 표준편차 로 나눈 값이 검정 통계량이다.

@ 표본수와 유의수준에 상웅하는 유의 점올 수표에서 찾아 검정 통계량과 비교하여 Tps>Tn(a) 이면 기각치로

하고,

Tps <

Tn(α) 이면 동일 정규분

포의 값으로 본다.

3) 기각치가 있으면 그것을 제외시킨 데이터 로 평균과 표준편차를 구하여 재검정을 반복 한다.

4) 최종판정은 그림 6 의 종합평가 지침을 참고하여 결정할 것.

2. Smirnov -Grubbs

1) 극단치를 포함한 전체 데이터의 평균, 표 준편차를 구한다.

2) 평균과 최소치의 편차 (mean - Xmin) 의 절대치를 구한다.

3) 평균과 최대치의 편차 (Xmax - mean) 의 절대치를 구한다.

4) 2) 와 3) 중에서 차이가 큰 쪽의 값 (Xn) 에 대하여 아래 식으로 계산한다.

Tn 뜨듀죠

SD

5) 예, 최대치 =5.16, 최소치 =4.82 , 평균 =5.

01, 표준편차 =0.08 이고, 표본 수가 25 라고 하

가 됨으로 이 데이터는 유의수준 0.01 과 0.05 양쪽에서 기각치로 볼 수 없고, 동일 정규분포 의 값으로 볼 수 있다.

6) 기각치가 있으면 그것을 제외시킨 데이터 로 평균과 표준편차를 구하여 재 검정을 반복 한다.

7) 최종 판정은 그림 6 의 종합 평가지침을 참고하여 결정할 것.

3. +/- 3SD 및 2SD법

1) 표본분포가 정규분포를 하는 데이터에서 일반적으로 쓰이는 방법으로써, 다음과 같은 특성이 있다.

@ 데이터 수가 40 이상 2 ,000까지에 적용할 수 있다.

@ 평균 +/- 2SD 법은 기각 예상 데이터가 전체 데이터의 3---10 % 포함되었을 때에는 거의 완벽하게 검출하지만, 2% 이하일 때 에는 기각치로 잘못 판단할 위험이 있다.

@ 평균 +/- 3SD 법은 기각치가 5% 이하 포함되었을 때에 거의 이상적인 검출을 한 다.

2) 잘 알려저 있는 방법이므로 설명은 생략 하고, 그림 4 Outlier 검사결과 3 . 을 해설한 다. 위 그림의 “낮은 쪽 삭제 데이터 (L 10

%

Data)" 난에 4.82 가 표시되어 있고, 판정란의

M-2SD 쪽 데이터 =AX6 .. AX16 데이터 삭제

? 라고 표시되어 있다. 한편, 평균 +/- 2SD

=4.86---5.17 이다.

@ 즉, 평균 +/-2SD 의 아래 쪽 데이터 4.86

보다 작은 4.82 를 버릴 것인가? 라는 뜻이 다.

@ 위의 1) @에서 설명한 바와 같이, 이 경우

(7)

는 데이터 총수 25 개 중 최소치 1 개가 평 +/- 2SD 법으로 기각 데이터로 겸출된 것으로써, 혼입률 2% 이하에서는 잘못 판단 될 수 있으니, 1) @에서 언급한 바와 같이 흔입률 5% 이하일 때에는 평균 +/- 3SD

법으로 검정하여야 한다.

@ 한편, 평균 +/- 3SD 법으로는 Outlier로 검출되지 않았음으로, 이 데이터는 기각하 여 서는 아니된다.

4. Box - Whisker 이ot법

이 방법은 생소한 방법으로 생각되는 분들을 위하서 좀 자세히 설명한다.

이 방법 은 탐색 적 데 이 터 해 석 [Exploratory Data Analysis(EDA) J 에 속하는 방법 중의 하 나이며, “탐색”이라는 말은·재래식 방법과 같 이 “정규분포라는 모델을 미리 가정하지 않고,

얻은 데이터로부터 모델을 찾아 간다”는 뜻이 다. EDA 에서는, 데이터 요약은 순서통계량 (order statistic) 을 이 용한다( 데 이 터 를 크 기 순 으로 늘어 놓은 것) .

1) EDA에서는 데이터를 5개의 값으로 요약

한다.

@ 중앙값 (50

%

점)

@ FL , FU

(Hinge

,

아래 위 25 % 점)

@ 최대치, 최소치

2) 계산법

@ 우선 깊이 (depth) 를 구한다 : 데이터의 작은 쪽으로부터 헤아린 순위와 큰 쪽으로 부터 헤아린 순위이다.

@ 위의 5 개 요약치들은 아래의 깊이 (d) 에 대 응하는 데이터를 구하여 얻는다.

dM=(N+1)/2 dF= ([dMJ+ 1)/2 d1=1

단, N은 데이터 수,

[xJ 는 가우스 기호로써 z의 整數부분올 나 타낸다.

@

dM대웅하는 값은 1 개 , dF와 d1에 대웅하 는 값은 각각 2 개씩 있다.

@ 프로그램에서 예로 들고 있는 데이터를 순서통계량으로 나열하고, 갚이 (d) 를 표시 한 것이 표 1 이며, 5 개의 요약수를 계산하 여 보면 아래와 같다.

1. 순서통계량과 갚이

크기의 순번 i 1 2 3 4 5 6 7 8 9 10 11 12 13

데이터 X(i) 4.82 4.92 4.94 4.96 4.96 4.96 4.96 4.98 4.98 4.98 5.00 5.00 5.00

갚이 (d) 1 2 3 4 5 6 7 8 9 10 11 12 13

크기의 순번 i 14 15 16 17 18 19 20 21 22 23 24 25

데이터 X(i) 5.00 5.00 5.02 5.06 5.06 5.06 5.08 5.08 5.10 5.12 5.16 5.16

갚이 (d) 12 11 10 9 8 7 6 5 4 3 2 1

dM= (25 + 1)/2= 13 이 됨으로 중앙값은 갚이 13 의 데이터 M=5.00

dF=([13J+1)/2=7 이 됨으로 hinge는 갚이 7

의 데이터 즉, 아래 쪽으로부터 7 번 째와, 위 쪽로부터 7 번 째의 데이터

FL=4.96 Fu=5.06

d1= 최소치와 최대치로써, 4.82와 5.16 이다.

@ 이 5 개의 요약 수를 그림으로 나타내변 그 림 6 과 같다.

(8)

#=25

M 13 I 5.00

F 7

I

4.96 5.06

1 I 4.82 5.16

그림 6. 5 개 수를 요약한 그림

단,#는 데이터 수

M, F 글자 옆의 수는 갚이 (d) 를 나타낸다.

3) Box - Whisker plot

CD

EDA 에서 데이터의 분포상태를 그림으로 나타내는 수법이 Box - Whisker plot로써,

그림 7 과 같으며, 이것은 히스토그램에 대 응되는 것으로 생각하면 된다.

H-spread

름캄프섬꽉r (ence outer 릎nce

1---

0----4

median outside farout

hinge hinge adjacent 그림 7. Box - Whisker Plot

.%l

Box - Whisker plot에서는 앞에서 이야기한 5 개의 요약수 외에 Outlier를 나타낸다.

@ Outlier를 계 산하 기 위 해 서 hinge - spread (H), Step(S), Inner Fence(lF), Outer Fence(OF)

,

Adjacent(AD) 를 아래 식으로 계산한다.

H=Fu-FL

S=1.5xH

IF=FLS Fu+ S OF=FL -2S Fc+ 2S

AD=IF에 가장 가까운 내측 데이터

@ OF를 벗어나는 데이터를 Farout, OF와 IF 사이의 데이터를 Outside 라고 부른다.

@ 일반적 으로 Farout와 Outside는 Outlier로 간주하며, 그림으로 표시할 때 점으로 표시 한다.

@ 데이터가 정규분포를 하는 것이면 Box- Whisker plot은 그림 8과 같이 된다.

ø

Farout와 Outside는 둘 다 발생 확률 이 적 은 것들로써, Outlier로 보아도 된다.

@ Box - Whisker plot에서의 분포위치는 중앙 값이고, 분산은 hinge로 표시된다.

@ 분포의 형 즉, 편포도 및 첨도 등도 볼 수 있다(그림 9 부터 11 까지를 참조할 것) .

..__.다과~

:

(2~ 했~) (0.35:%)

그림 8. 정규분포와 Box - Whisker plot

뉴뚜T기 t 0 。

그림 9. 비똘어졌을 때의

Box - Whisker plot

•--•

l

•--•

그림 10. 첨도가 작을 때

- 264-

(9)

•• t--다←---1 •••••••••

4) Box - Whisker plot법 에 의 한 Outlier의 검정

Non - parametric 법 에 의 한 Outlier의 검 출 중에서 대표적인 방법이다.

@ 순서통계량으로부터 Outlier 검출한계인 내 측경계(lF) 와 외측경계 (OF) 를 계산한다.

@

Farout 값은 발생확률로 볼 때 확실한 Out-

lier 7.1 로 판단하여도 된다.

@ Outside 값은 아래 에 서 설 명 하는 Outlier 석의 기본 원칙을 참고하여 결정할 것.

그림 11. 첨도가 콜 때

2. DESCSTAT.WQ1 및 NOR-DIST.WQ1 용 데이터표

기술통계, 빈도분석, 정규성 및 Outlier 분석용 데이터표

No X1 X2 X3 X4 X5 일계 일평균 차 정열값 일평균의

SDATA 제곱

1 5.2 5.1 5.2 5.1 5.2 25.8 5.16 0.1 4.82 26.6256

2 5.0 4.7 5.2 5.0 4.8 24.7 4.94 0.5 4.92 24.4036

3 4.8 5.1 5.1 4.8 5.2 25.0 5.00 0.4 4.94 25.0000

4 5.1 4.9 5.0 4.8 5.1 24.9 4.98 0.3 4.96 24.8004

5 5.2 4.9 5.3 5.1 4.9 25.4 5.08 0.4 4.96 25.8064

6 5.3 5.2 5.0 5.0 5.1 25.6 5.12 0.3 4.96 26.2144

7 5.0 4.8 4.7 4.9 4.7 24.1 4.82 0.3 4.96 23.2324

8 4.7 4.9 5.1 5.1 5.2 25.0 5.00 0.5 4.98 25.0000

9 4.8 5.0 5.2 4.8 5.0 24.8 4.96 0.4 4.98 24.6016

10 5.3 5.1 4.8 5.2 4.9 25.3 5.06 0.5 4.98 25.6036

11 5.4 5.0 4.8 5.1 5.2 25.5 5.10 0.6 5.00 26.0100

12 5.3 5.0 4.7 4.8 5.3 25.1 5.02 0.6 5.00 25.2004

13 5.0 4.7 5.1 4.9 4.9 24.6 4.92 0.4 5.00 24.2064

14 5.2 4.8 4.9 5.0 5.1 25.0 5.00 0.4 5.00 25.0000

15 5.2 5.2 5.1 5.0 5.3 25.8 5.16 0.3 5.00 26.6256

16 5.0 4.7 5.1 5.2 4.8 24.8 4.96 0.5 5.02 24.6016

17 5.1 5.0 4.8 4.8 5.1 24.8 4.96 0.3 5.06 24.6016

18 5.0 4.9 5.1 4.8 5.2 25.0 5.00 0.4 5.06 25.0000

19 5.3 4.8 5.2 5.1 4.9 25.3 5.06 0.5 5.06 25.6036

20 5.1 4.7 5.2 5.0 4.9 24.9 4.98 0.5 5.08 24.8004

21 5.3 5.1 4.8 5.2 5.0 25.4 5.08 0.5 5.08 25.8064

22 5.2 5.0 5.2 4.8 5.1 25.3 5.06 0.4 5.10 25.6036

23 5.4 4.7 5.1 4.8 4.9 24.9 4.98 0.7 5.12 24.8004

24 5.0 5.1 5.0 4.8 4.9 24.8 4.96 0.3 5.16 24.6016

25 5.3 5.0 4.7 5.1 4.9 25.0 5.00 0.6 5.16 25.0000

(10)

@ 이 방법의 특징

ì . 계산하기 쉽다.

L Outlier가 여러 개 있어도, 어느 특정 Outlier 치가 다른 Outlier 치의 존재를 은폐하는 마스크 효과에 의한 검출력 의 저하를 일으키는 일이 없다.

참고 : 위의 각종 검정에 사용한 데이터는, 관 리용 혈청으로 albumin을 5 회 반복 측 정한 데이터의 평균값 25 일 분으로써 표 2와 같다.

V .. Outlier 해석의 기본 원칙

1) 먼저 히스토그램이나 산포도를 그려서 시 각적인 판단을 할 것.

2) 다음엔 정량적 방법(위에서 설명한 각종 방법)올 실시할 것.

3) 분명한 측정 과오나 기록 착오라고 알고 있는 경우 외에는, 측정한 데이터를 제외시키 지 않은 상태에서 해석할 것. 그 이유는 아래 와 같다.

CD

Outlier로 의심되는 데이터도 실제로 측정해 서 얻은 데이터이며,

@ 이것을 제외 시킨다는 것은 해석자의 어떤 의도를 반영해버려 편리한 결과를 도출할 염려가 있기 때문이다.

@ 즉, 얻은 사실 그대로의 데이터로부터 결론 을 도출하는 것이 바람직하다.

4) 어느 특정 데이터가 Outlier 의 가능성 높다고 생각될 때

@ 그 데이터를 포함시킨 경우와 제외시킨 경 우의 양 쪽을 해석해 볼 것.

@ 두 경우의 결론에 큰 차이가 없으면, 그 데 이터를 포함시켜서 결론을 얻고,

@ 큰 차이가 있으면, 결론을 보류하고 Outlier 가 생긴 이유를 자세히 조사 하거나, 다시 데이터를 얻어서 결론을 내릴 것.

5) 즉, 명심할 것은 조급하게 Outlier로 결론 내리는 것을 삼가하여야 한다는 일이다.

VI.

맺는 말

임상병리과 업무 중 비중이 매우 높은 것 중 의 하나가 정도관리 업무라 하겠다. 이 업무의 전 후 또는 실행중간 단계에서 빼놓을 수 없는 중요한 작업 중의 하나가 통계처리 업무일 것 이다. 그러나, 통계라는 분야가 어렵다는 선입 견과 딱딱함 때문에 기피하는 경향이 있음 또 한 사실이라 하겠다.

지금 국내에서 시판되고 있는 통계관련 프로 그램들은 대부분 다루기가 어렵고 결과해석 역 시 통계에 대한 상당한 지식이 없이는 난해하 다고 한다. 그래서 비교적 이해하기 쉽고 다루 기 쉬운편인 QUATTRO PRO 의 @함수와 매 크로를 활용하여, 임상병리과 업무를 주안점으 로 한 통계 프로그램을 작성하여 활용해 본 결 과 만족스럽다고 생각되어 병리사 동료 여러분 께 소개한다.

이 프로그램도 참고문헌 2 에서와 같이 단축 키와 화면지시를 최대한 활용하였기 때문에 누 구라도 어려움 없이 사용할 수 있다고 본다.

분석할 데이터를 입력하거나, 스프래드시트로 작성한 데이터를 복사하여 분석할 수가 있으 며, 분석할 데이터를 제공하여 주고, 분석할 종 류의 선택과 몇 가지 질문에 대한 답을 키판에 서 입력하여 주면 스스로 분석하여 즉시 결과 를 볼 수 있고, 분석결과표를 인쇄할 수도 있 다.

본고에서는 이 통계 프로그램 중에서 데이터 의 정규성 검정결과와, Outlier( 기각 데이터)의 검정결과 및 해설만을 다루었다.

참고문헌 2 의 정도관리용 프로그램 외에 자 동분석기의 정도관리에 적용하면 편리한 방법 X-Rs X bar-Rs-R 관리도법의 프로그 램도 완성하였으며, 이 LAB-STAT.WQ1 프로 그램에 좀 더 다양한 검정법을 추가할 것이 완 성되면, 한 패키지로 묶어 보려고 한다. 여러 회원들의 많은 조언과 편달이 있기를 바라는 마음 간절하다.

- 266-

(11)

The Program of Statistics for Clinical Laboratory Data Which was Prepared with Quattro Pro Program

Kim, Yak Soo

ABSTRACT

In 1990 and 1993, I had introduced Quality control programs two times using "@ function and macro of Quattro Pro" on the Journal of Korean Association of Medical Technologists.

At this time, I introduce a part of a statistical

procedure program, an additional tool in ach- iving Quality control. This program also was prepared same way as previous procedure.

When user input examined data and answers to some question on key board, then the pro- gram will proceeds and displays the results in screen which can be printout.

REFERENCES

1. ~ Q.('T : QUATTRO program~

tt%

~, ~ s=.

¥!-

cl.R ~

¥!-

~ s=. ~ ~ Aa (X bar-R

¥1-

cls=.). <fJAJ~clJ-}~A1 ~122-T:! ~11§_: 162

"'-' 172, 1990.

2. ~ Q.('T : <fJ Ad-~

c1

il}oJ1

"'i

~ personal com- puters ~%[QUATTRO PR0~.£..=:1. ~ _2_.£.

~ Aa ~ X bar- Rs- R

¥!-

cl.R ~

¥!- c1

s=. oJ1 Ai ~

uR

3.£. ~%(2)]. <fJ Ad-~~"'}~ A1 ~]

25-T:! ~11§_

:

227--237, 1993.

3. ~4-~: <?4-71~..£- t:i1°1E1~1°1A %7-11 5:5:

~ E ~~1

01 (

~.£..=:1. ~ I:f3 : dBST AT). ~ li!. f[-

§1-J-}, Al ~' 1993.

SPSS~ o1%~ %7-l1:A}ii.~~. li}q3J-},

"'i

~. 1990.

5. ~ aa~R

:

~t:H-!8-7-ll~.

lifaa"'L

"'i~. 1993.

"'i~. 1993.

7. ~ ~ -2-. ~ %~ ~Al

:

li!.Zi %7-11 ~

lR 2.

Ail

0aJ-}, Al~, 1992.

8. tmili*ft~: ®tH~O)£~clt~ -III. 7'- JO)f;:-;:Ef]a::6Q1f-. ~~~}1t 42(5):

1015--1019, ifct~?tA B *~fRfti4.~1Ett

§rff~. 1993.

9. Geary RC :The ratio of the mean deviation

to the standard deviation as a test of nor- mality. Biometrika 27 : 316--332, 1935.

10.

f3&

~

ft1!:

~f-Rf~~~1E~:B~t .Q~~;\

7-:,;

e: -t

0) § lb~~u.

s

11~~ 15(3) : 251--258, 1989.

11.

s *mmmit : 7ttJT ·

~~O)~t~£~Jtu

:

ft)j}. 4 ~fPJJr~':B~t .Q~~{W[O)J& ~t&

~ \ )J(Z8402). JIS!\ / f

7' '/

~

&&Ji'!f.fl.

636--638,

s *mmmif,

*E(, 1987.

12.

'8'1*7'$- :

Monte Caro simulation· ~: J:

.Q

7"1-hf®:~I:Bi'!O)~~-t

:

~n¥!f ZJS~f®:ct~~

ffi!t~~f§ ~\ Q }]$, ~~~*it 42(11), if!±~

itA

B i':~fRir4.*1tttt§ffiif, 1993.

13.

'8'1*7'$- :

Monte Caro simulation': J:

.Q·

7"1-hfW:*I:Brt· *g'f:

~2¥!f ;z ~

Jv /

7~

!P~5E. ~~~~Jtt 43(5), ffi±III$A B i':~

fRir4.*1ttt§ffiif,

1994.

14.

'8'1*7'$- :

Monte Caro simulation~: J:

.Q 7i-

hf@:~/:B$0)~g'f

:

~3¥1f· -f:O)ftl!O)J\7 ;l

r

IJ '/ ~ ~!Ert. a~~1!: 43(6),

nlilrtA

B i':~fRiJ4.~1Ett§ffiif, 1994.

15. f*iliJt~

:

®'Egf~O)£~

c

Jr~ -XV. 7"1-

hf@:O)~/:B

-.

':1~~1!: 43(5) : 946--949, ffct~$A B i':~fRir4.~1Ett§ffiif, 1994.

16. ,ft ~~. ~1-U!f¥~ ~~

:

~~**•O)~Jl

-267-

(12)

wwcm2JJ&).

g~m~teJJ&1*Jtitn.

*J?-:.

1985.

17. Tukey, J. W. :Exploratory data analysis.

Addison- Wesley, 1977.

18. Hoaglin, D. C., Mosteller, F., Tukey, J. W. : Understanding robust and exploratory data analysis. John Wiley & Sons, 1985.

19.

mtfm

i$

ftl! : :1**1¥7 7-

9

f§iHJT

A.r~. ~JJ~

-~. *;?-:, 1985.

20. ft~lfJt~: *1CH~O)£~cJU~ -XL :~**

I¥JMfJT-.

&~~1ft 43(1): 1015--1019,

iitl:llliiA

B *~f-Rirl£~1ttiffifi-ft, 1994.

21. UJ ~-=::fl~ ~~

: Mf*9

*lCHltf@:~(STATIS­

TICAL TABLES),

MllliiA

B *m~Mh

fr.

*;?-:, 1977.

22.

Konrad Diem ed. : Documentta Geigy Sci- entific Tables, Giegy Pharmaceuticls Divi- sion of Giegy Chemical Co. New York, 1962.

-268-

수치

그림 7 과 같으며, 이것은 히스토그램에 대  응되는 것으로 생각하면 된다.

참조

관련 문서

따라서, X1은 중요한 변수이므로 분석에서 제외하지

 식료품 이분산 Breusch-Pagan test 검정 / Eviews output (1차항 이분산과 관련되는 경우). 8.2 이분산이 OLS

• 이론가설 수립 à 자료 수집à모델 설정 à통계분 석을 통해 모델의 적합성과 타당성 검정 à 회귀계 수 산출 à 모수 추정.. • 모델의

ㅇ 산업수요 맞춤형 고등학교 또는 특성화고등학교 과정 , 해양수산계의 대학 또는 전문대학의 전파전자통신기능사 과정 , 일반계 고등학교의 직업과정 ,

모분산이 알려진 경우와 모르는 경우에 대한 모평균의 구간 추정과 두 모집단의 평균의 차에 대한 구간추정하는 방법에 대하여 알아본다. 모분산이 알려진 경우와

– 데이터 마이닝 기법은 통계학에서 발전한 탐색적자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반선형모형 등의 방법론과 데이터베이스 측면에서 발전한

정규분포를 이루지만 모집단의 분산을 모르는 경우 표본의 크기 가 작을 때에는 t 검정을 이용하여 두 표본 평균간의 차에 대한 유 의성을 검정.. 서로

④ 독립변수(independent variable)의 유의성 검정 : t-검정을 통해 검정한다 simple regression analysis에서는, independent variable이 하나밖에 없으므 로,