15장 통계방법의 선정
• 자료분석 시, 통계방법을 선택하기 위해 고려해야 할 사항 1. 분석의 목적
2. 측정의 수준 3. 집단의 수 4. 변수의 수
• 자료 분석의 목적 1. 비교(comparison) 2. 상관성(association) 3. 예측(prediction)
-> 단순히 그 집단의 분포모양을 설명하고자 하는지? 변수들간의 관계 유무와 관련 정도를 알아보려고 하는지? 실험의 효과를 분석 하고자 하는지? 현상을 예측하려고 하는지?
15장 통계방법의 선정
• 변수 : 명목척도, 서열척도, 등간척도, 비척도 로 나뉨
• 측정된 변수의 수준에 따라 통계방법 결정
• 비모수 검정(nonparametric test)
: 명목척도, 서열척도
• 모수 검정(parametric test)
: 등간척도, 비척도
15장 통계방법의 선정
• 전통적 통계 추론 방법은 표본이 추출된 확률 분포(모 집단)의 형태(정규분포, 이항분포)를 알고 있는 경우에 이들 분포를 구체적으로 결정짓는 미지의 모수
(parameter)에 관한 추정이나 검증이었음
• 모수적 방법(parametric method)
- 분포의 형태에 관한 지식은 있으나 구체적인 모수를 모를 때 행하는 추론방법
• 비모수적 방법(nonparametric method)
분포무관방법(distribution-free method)- 모집단의 분포 형태에 관한 가정이 전혀 불가능할 때 행하는 추론방법
1. 모집단이 정규분포를 하지 않을 때
• 모수적인 분석방법들을 사용하려면
: 임의표본이 정규분포를 이루는 모집단에서 추출되었 다는 가정이 바탕이 되어야 함
• 비정규 분포하는 자료를 가지고 모수적인 분석방법을 사용했을 때의 문제점
: 효용성(efficiency)이 떨어짐
• 효율적인 방법
: 자료를 잘 사용하여 적은 수의 표본을 가지고 나온 추 정값을 얻거나 검정할 수 있는 방법
1. 모집단이 정규분포를 하지 않을 때
• 측정된 자료가 정규 분포하는지 알아보는 방법
- SPSS에서 단일표본 Kolmogorov-Smirnov 분석 사용
- SPSS에서
Analyze->Nonparametric->1-sample K-S
를 택한 후 해당 변수를 옮겨놓고 OK
1. 모집단이 정규분포를 하지 않을 때
Npar Tests
One-Sample Kolmogrov-Smirmov Test
PLAN N
Normal Parametersa.b Mean
Std. Deviation Most Extreme Absolute
Differences Positive Negative Kolmogorov-Smirnov Z
Asymp Sig.(2-tailed)
94 7.6170 .9171 .288 .288 -.183 2.212 .000
2. 이상점(Outliers)이 존재하는 경우
• 예) 5개의 숫자 3,7,9,10,11
1. 비모수 검정방법- 중위수 사용하여 9 나옴 2. 정규분포방법 – 평균을 사용하여 8 나옴
관찰값 중 하나가 11 대신 61로 측정 중위수는 변함 없음
평균은 18이 되어 2배 이상 차이 남
-> 위와 같은 실수에서 비모수검정 방법에서 사
용하는 기법은 정규분포이론에 기초한 방법들보다
영향을 덜 받음
2. 이상점(Outliers)이 존재하는 경우
• 비모수 방법의 특성
1. 모수적 방법에 비해 분포의 가정이 완화되거나 또는 가정이 거의 없이 쓰임
2. 대부분의 비모수적 방법은 실제의 양적 관측치에 의 존하지 않고 상대적 평가에 의존함
3. 추론에서 계산이 모수적 방법보다 단순 4. 이해가 쉬움
5. 정규분포하의 방법과 비교할 때
- 주어진 표본이 정규분포를 따를 때 : 큰 차이 없음
- 주어진 분포가 정규분포와 판이한 분포일 때 : 검정력은 정규분포에 의한 방법보다 큼
2. 이상점(Outliers)이 존재하는 경우
• 통계학에서 연구집단이나 표본의 수에 따라 단일표 본검정, 두 개의 표본검정, 세 개 또는 그 이상의 표 본검정으로 나눌 수 있음
• 표본 수에 따른 통계방법 결정시 주의할 점
- 반복 측정한 집단의 자료인지- 집단(표본)을 선정하는데 있어 짝짓기(paired)를 한 것인지, 독립적(independent)인 관계인지 확인
• 분석하려는 변수의 수가
- 1개 : 단일변량 (univariate) - 2개 : 이원변량 (bivariate)- 3개 이상 : 다변량 (multivariate)을 해야 함
표.15-1 통계방법의 요약
통계방법 검정
방법
사용목적 측정수준
독립변수 종속변수 t - 검정
(independent) t – 검정 (paired)
중위수 검정 (median test) 만휘트니 U검정
(Mann-Whitney U test) 윌콕슨부호순위검정 (Wilcoxon signed-rank test)
분산분석 (ANOVA)
크루스칼왈리스 검정 (Kruskal-Wallis test)
P
P
NP
NP
NP
P
NP
두 집단간의 평균차이를 검정
두 개의 짝지어진 집단이나 한 집단에 서 실험 전후에 측정된 값의 비교 두 개 이상의 독립적인 집단에서 중위 수의 차이를 검정
두 개의 독립적인 집단에서 서열점수 (ranks of scores)차이를 검정
두 개의 짝지어진 집단에서 서열점수 (ranks of scores)의 차이를 검정
두 개 이상의 독립적인 집단끼리 평균 차이 검정
세 개 이상의 독립적인 집단에서 서열 점수(ranks of scores)의 차이를 검정
명목척도
명목척도
명목척도
명목척도
명목척도
명목척도
명목척도
등간/비척도
등간/비척도
서열척도
서열척도
서열척도
등간/비척도
서열척도
표.15-1 통계방법의 요약
통계방법 검정
방법
사용목적 측정수준
독립변수 종속변수 프리드만 검정
(Friedman test) 카이제곱검정 (Chi-square test) 피어슨상관
(Pearson Correlation) 스피어맨의 로
(Spearman’s Rho) 다중회귀분석
(multiple regression analysis)
NP
NP
P
NP
P
세 개 이상의 관련된 집단에서의 서열 점수(ranks of scores)의 차이를 검정 변수간의 관련성, 분포의 적합도 검정
두 변수간의 상관성 검정
두 변수간의 상관성 검정
두 개 이상의 독립변수가 한 개의 종속변수를 예측
명목척도
명목척도
등간/
비척도 서열척도
등간/
비척도
서열척도
명목척도
등간/
비척도 서열척도
등간/
비척도
다중회귀분석의 예
• 종속변수: 비만도
• 독립변수: 신장, 체중, 월수입, 취미 수, 음식류 선호도, 수면시간, 흡연, 술, 운동량
• 컴퓨터를 이용한 통계 분석 소프트웨어
1. SAS
2. SPSS - Statistical Package for the Social Sciences,
1. Excel
사용하기가 편리, 일반인에게 친숙, 간단한 통계분석가능
2. Minitab
교육용으로 제작, 사용하기가 편리
3. SPSS(Statistical Package for Social Sciences)
사회과학을 위한 통계패키지로 개발
4. SAS(Statistical Analysis System)
통계전문가를 위한 통계패키지, 다양한 통계분석방법, 대용량의 자료처리 가능
통계분석 소프트웨어
• R statistics + R studio
• 통계 소프트웨어들은 도스용과 윈도우즈용이 있고
ASCⅡ 모드로 저장된 데이터의 경우 서로 불러들이기 가능
• 대부분의 통계 소프트웨어들은 마이크로소프트사에서 만들어진 엑셀프로그램과 호환성이 높음
• 통계 소프트웨어가 없고 자료의 양이 작으면서 간단한 통계량을 계산할 경우
: http://yahoo.com , http://google.com과 같은 검색 엔진에서 검색어에
statistical computation website 또
는 free statistic를 입력 -> 온라인상 무료로 통계분석이 가능하거나 일정기간 무료로 통계 소프트웨어를 제공 하는 웹사이트가 나옴• 인터넷 상에서 무료 통계분석이 가능하거나 일정기간 무료로 통계 소프트웨어를 제공하는 웹사이트
http://vassarstats.net/
http://www.danielsoper.com/statcalc3/
http://www.r-project.org/
http://www.sample-size.net/
https://www.danielsoper.com/statcalc/default.aspx
https://www.danielsoper.com/statcalc/
regression sample size계 산에 유용함그림 15-1. 통계분석 시 참고가 될 수 있는 흐름도
종속변수의 수는 몇 개인가?
1개
1집단
평균, 표준
편차 이항분포
2개 집단
t- 검정 카이제곱 검정
2개 이상 집단
분산분석 비모수검정
그림 15-1. 통계분석 시 참고가 될 수 있는 흐름도
변수의 수는 몇 개인가?
2개
2개 모두 연속변수
상관분석
1개는 연속, 1개는 비연속 변수
분산분석
2개 모두 범주형 변수
카이제곱검정
그림 15-1. 통계분석 시 참고가 될 수 있는 흐름도
변수의 수는 몇 개인가?
3개 이상
1개 집단
다중회귀분석 (multiple regression)
요인분석 (factor Analysis)
반복측정에 의한 분산분석
(repeated measures
ANOVA)
2개 이상의 집단
공변량분석(Analysis of Covariance)
다변량분산분석 (multivariate
ANOVA)
판별분석 (discriminant
Analysis)
표 15-2. 통계 패키지 종류
SAS(Statistical Analysis system, Strategic Application, Software)
BMDP SPlus
SPSS(Statistical Package for the Social Sciences):
PASW(Predictive Analysis Software)라고도 함 StatXact
StatSoft InStat
STATISTICA
Statistical Navigator SysStat
Minitab