7. 평균치 비교
두집단간 평균 차이 검정
연속형 변수
• Interval scale(간격척도) : 20˚C, 30˚C,…, 변수간의 가 감 가능
• Ratio scale(비척도) : 12, 13세, …변수간의 가감승제 모 두 가능
범주형 자료로 변환하여 다양한 분석 가능
(연령 10대, 20대, 30대….)
범주형 자료의 기술
• 분할표(Contingency table)
: 범주형 자료를 각 변수별 값의 결합에 따라 도수형식으로 정리한 표(4X3 table)Cancer type
Blood type Gastric cancer Liver cancer Pancreatic cancer
A 13 25 26
B 28 20 19
O 42 44 35
AB 17 11 20
- 차원(Dimension) : 분할표에 있는 변수의 수 : 2차원(Blood type, Cancer type)
- 수준(Level) : 각 변수가 취하는 범주의 수 : Blood type(4수준), Cancer type(3수준)
연속형 자료의 기술
• 대표값 : 평균(mean), 중앙값 또는 중위수(median) 등
• 산포도 : 분산(Variance), 표준편차(Standard deviation), 범위(Range) 등
구분 고혈압여부
환자 정상 P-value
연령 67.0±21.0 65.3±18.2 혈중 콜레스테롤 253±36.0 225.3±28.2
· ·
· · · · · · ·
· ·
· · · · · · ·
모수 검정 or 비모수 검정
• 비모수 검정 적용:
– 수집한 자료가 명백하게 정규분포를 따르지 않는 경우
– 표본수가 너무 작아 분포를 알 수 없는 경우
• 한 집단의 표본수가 10 전후 혹은 두 집단 표본수의 합이 20 전 후일 때
– 자료의 관측척도가 연속변수가 아니라 명칭척도 혹은 순위척도일 때
비모수적 방법
• 자료의 (정규성) 분포가정을 하지 않는다
– 편하다.
• 자료의 평균과 분산이 아닌 순위를 이용한 방법을 사용한다.
• outlier에 둔감
모수검정 비모수검정
적용 자료 • 양적변수(연속변수)
• 자료가 정규분포하는
• 표본수가 큰 경우† 경우
• 질적변수(명목척도 또는 순위척도)
• 명백히 정규분포하지 않는 양적변수
• 표본수가 적은 경우(각 집단의 표본수가 10이하)‡
장점 • 정보의 손실이 없음 • 모집단의 분포에 관한 가정이 불필요
• 적용절차가 간단
• 통계적 오류의 가능성이 낮음
실측치보다 순위 적용-측정오차에 덜 민감
• 대부분의 모수검정기법 해당하는 다양한 기법이 개발되어 있음
단점 • 적용절차가 다소 복잡
• 통계적 가정을 무시하고 적용시 분석결과의 오류 가능성이 높음
• 일부 정보의 손실
• 표본의 크기가 크면 비효율적
모수적 조건을 만족하는 경우 검정력이 감소
모수검정과 비모수검정의 차이
모수 또는 비모수 검정 선택
• 자료의 정규성이 다소 의심되더라도 표본이 큰 경우
(절대적인 기준은 없으나 각 집단의 표본수가
30~100 이상]
모수검정기법을 적용하여도 큰 무리는 없음
– 중심극한 정리
• 각 집단에서의 표본 수가 10 이하인 경우는 비모수검정기법을 적용하는 것이 원칙임
• 각 집단에서의 표본수가 약 10~30 이라면
반드시 정규성 검정 결과에 따라 선택
변수 (Variable)
분류방법 변수 명칭 종류 통계량
측정방법
명목척도 서열척도 등간척도
비척도
성별, 지역 학력, 석차
온도, 주가지수 강도, 길이, 무게
빈도, 백분율 (확인, 구분) 빈도, 백분율 (순위 비교)
평균, 표준편차 (간격/정도 비교) 평균, 표준편차 (절대 크기 비교)
기 능 적 관 계
종속변수
독립변수
(특성값, 반응변수)
(인자, 설명변수)
독립변수에 대한 반응으로서 측정 되거나 관찰이 된 변수
종속변수를 관찰하기 위해서 조작, 측정되거나 선택되어진 변수.
다른 변수에 영향을 줄 수 있는 변수
변수 (Variables)
•수량적 변수
–이산변수(discrete variable)
• 한 측정치와 다른 측정치간에 중간값이 존재할 수 없는 변수
• 명목척도(nominal scale), 순위척도(ordinal scale)
예) 사망자수, 성별, 교통사고건수
– 연속변수(continuous variable)
• 두 개의 측정치간에 이론적으로 무수한 중간값 존재
• 간격척도(interval scale), 비척도(ratio scale)
예) 혈압, 체중, 체온
• 방향성
– 독립변수(independent variable)
• 어떤 변수가 다른 변수의 측정치에 영향을 준다고 생각될 때, 또는 실제로 한 변수가 다른 변수의 원인이 되는 경우, 후자의 변수에 대해 전자의 변수를 독립변수 또는 예측변수(predictor variable)라 한다.
예) 식사량과 비만, 연령과 혈압
– 종속변수(dependent variable)
• 독립변수에 의해 영향을 받는 변수,
• 원인이 되는 변수에 의해 결과로 관찰되는 변수
예) 혈압, 체중, 체온
통계 분석법의 올바른 적용
상 황 바른 통계분석법 선택의
포인트
1. 관찰된 변수의 척도는?
2. 검정하고자 하는 통계량은 무엇인가?
3. 표본의 크기는 충분한가?, 분포는?
4. 비교 표본의 수는? 2개 인가?, 3개 이상 인가?
5. 비교 대상 표본은 서로 독립적인가?
6. 비 교 하 고 자 하 는 속 성간에 서 로 관련 이 있는가?
7. 위험도 추정이 요구되는가?
8. 원인(독립)-결과(종속)가 1:1의 관계인가?
9. 결과(종속)변수가 연속 변수인가?
10. 결과(종속)변수가 이분 변수인가?
1. 질적(범주형) vs. 양적(연속) 2. 평균치 vs. 분포(비율)
3. 모수분석 vs. 비모수분석 4. t-test vs. ANOVA
5. Student t-test vs. paired t-test 6. 상관(회귀)분석
7. RR, OR (95% CI)
8. 단변량분석 vs. 다변량분석 9. 선형 회귀분석
10. 로지스틱 회귀분석
목적 (상황)에 따른 통계검정 적용
분석 목적 비척도
(연속자료, 값) 명칭척도
(범주형 자료, 율[%]) 2군간 비교 t-검정
(Student t-test) 카이제곱검정(교차분석) χ2-test (Pearson)
χ2-test for trend(경향성분석) 피 셔 직 접 확 률 법 ( 피 셔 의 정확검정법)
(Fisher's exact test)
≥3군간
비교 분산분석
(ANOVA, F-test) 2군간 Pair
(짝,쌍) 비교 대응표본 t-검정
(paired t-test) McNemar's test 상관분석 Pearson 상관분석
영향요인
분석
단순선형회귀분석
(Simple linear regression) 다중선형회귀분석
단순로지스틱회귀분석
(Simple logistic regression) 다중로지스틱회귀분석
자료와 분석 목적에 따른
모수법과 이에 대응하는 비모수법
모수법
(Parametric) 비모수법 (Non- parametric)
두개의 독립된 평균치 Student’s t-test Mann-Whitney(U) test
Wilcoxon rank sum test
짝을 이루는 표본 평균 Paired t-test Wilcoxon signed-rank test
3개 이상의 평균치 one way ANOVA Kruskal-Wallis test
상관분석 Pearson 상관분석 Spearman 순위상관분석
분석 전략 틀 1
특성 분석 목적 (비교 대상) 분석법
분포
대상자의 성/연령군(-49/50-59/60-)별 분포 chi-square 일반적/주요 특성에 대한 일원(전체) 빈도분포표 Summary statistics 주요 특성의 성/연령군별 빈도분포표 chi-square
2군간
고혈압/정상군의 질병 인지도(점수) 차이 t-test
고혈압/정상군의 정기 치료율(%) 차이 chi-square, 위험도(RR, OR) 합병증여부(1,0)에 따른 치료 이행도(평점) 차이 t-test
남/여의 행복지수 차이 t-test
교육 전후의 인지도 차이 paired t-test
사업 전후의 검진율(%) 차이 chi-square, McNemar
분석 전략 틀 2
특성 분석 목적 (비교 대상) 분석법
3군간
정상/전기고혈압/고혈압군의 비만/과체중 동반율(%) 차이 chi-square, 위험도 정상/전기고혈압/고혈압군의 검진 수검율(%) 차이 경향성분석, 위험도 고혈압/당뇨/양자(both)의 행복지수 비교 ANOVA
정상/전기고혈압/고혈압군의 평균 콜레스테롤치 차이 ANOVA
상관 회귀 (영향 요인)
인지도 점수와 실천도 점수의 상호관계? 피어슨 상관계수
순위척도와 혈압의 상관? 스피어만 상관계수
인지혈압군과 실제 측정 혈압군은 얼마나 일치하는가?
첫 번째와 두 번째 응답(%)은 얼마나 일치하는가? 일치도 (kappa) 어떤 요인들이 이행도(점수)에 영향을 미치는가?
(어떤 요인들을 개선하면 이행도를 개선시킬 수 있겠는가?) 다중선형회귀분석 어떤 요인들이 수검여부(1,0)에 영향을 미치는가?
독립변수
(비교 group) 종속변수 (반응변수)
흔히 적용되는 통계적 기법 모수검정 비모수검정*
환자군/대조군
(2집단) 혈당측정치
(비척도) Student t-test Mann-Whitney U test Wilcoxon rank sum test 치료전/치료후
(짝을 이룬 자료) 혈당측정치
(비척도) paired t-test Wilcoxon signed rank test
대조군/A치료군/B치료
군 (3집단 이상) 혈당측정치 (비척도)
ANOVA test with multiple
comparisons Kruskal-Wallis test
치료전/치료2주 /치료4주후
(3회이상 반복측정)
혈색소치 (비척도)
repeated measures
ANOVA Friedman test
검정기법의 종류와 적용 예
독립변수
(비교 group) 종속변수 (반응변수)
흔히 적용되는 통계적 기법 모수검정 비모수검정*
저소득층/중산층/고소득층 (2집단이상)
보건소 서비스에 대 한 만족여부
(명칭척도)
chi-squared test / Fisher's exact test/
Monte Carlo Test
정상/중등도비만/비만군
(순위척도, 3구간 이상) 당뇨발생여부
(명칭척도) chi-squared test /
Score for trend test Mantel-Haenzel test
검정기법의 종류와 적용 예
독립변수
(비교 group) 종속변수 (반응변수)
흔히 적용되는 통계적 기법
모수검정 비모수검정*
종속관계가 명확하거나 예측의 필요한 연속변수 의 상관관계
예) 임신기간(gestational age)과 출생시 체중, B, C, D 등의 관련성
Simple (multiple) linear regression
analysis
종속관계가 불명확한 두 연속변수의 상관관계
예) 일일 평균 흡연량과 알콜
Pearson correlation analysis
Spearman correlation analysis
치료군/비치료군
(2집단 이상) 생존여부+생존기간
(명칭척도)(비척도) survival data analysis
다양한 위험요인
(성, 연령, 흡연여부 등) 암발생여부
(명칭척도) multiple logistic regression analysis
검정기법의 종류와 적용 예
① Two-by-two table : Fisher's exact test, Pearson's chi-square test, chi-square test with Yate's correction,
unadjusted likelihood ratio test
relative risk or odds ratio, confidence limits phi coefficient,
② Two-by-k table : global chi-square test, score test for trend, unadjusted likelihood ratio test for trend
③ R-by-C table : Pearson's chi-square test, score test for trend, ridit analysis
Cramer's V, gamma ststistic, Kendall's Tau-b, Stuart's Tau-c, Spearman's rank correlation
④ Stratified table : Breslow-Day test for homogeneity, adjusted global test, adjusted score test for trend,
adjusted likelihood ratio test,
adjusted likelihood ratio test for trend|
adjusted relative risk (Mantel-Haenszel or logit estimator), confidence limits
⑤ Multivariate : Multiple logistic regression,