3주. 통계적 기초 및 이해
변해원
고급연구방법 및 통계
지난 시간 복습
인과관계(Causality)
• Causal relationship : by Haper Collins Dictionary of Sociology
(1) 두 사건 A와 B사이에 공간적, 시간적 인접성이 존재하고,
(2) 한 사건 A가 다른 사건 B에 선행하며,
(3) 전자 A가 일어나지 않았더라면 후자 B는 발생할 것 같지 않았을 경우를 말한다. -> Counter factual condition(반사실적 조건화)
By 변해원
•
사례 1. 불경기에는 여성의 치마 길이가 짧아진다.
-> 조건2(선행성), 조건3(반사실적조건화) 위배. 인과관계X
•
사례2. 영수는 세 달전 길에서 넘어져서 발목을 다쳤다. 그 후 아무 런 증상이 없다가 오늘 갑자기 두통증세가 나타났다.
-> 조건1(공간적 시간적 인접성) 위배. 인과관계 X
•
사례3. 변해원은 현재 강의실이 어둡다고 생각했다. 그래서 바로 강 의실의 불을 켰다.
-> 조건 1, 2, 3 모두 만족. -> 인과관계 O
•
사례 4.
3개월간 끝말잇기 치료를 매일 했더니 (3개월 전보다)수용어휘가 10% 향상되었다.
-> 조건1 (공간적, 시간적 인접성) 조건2 (선행성) 조건3 (반사실적 조건화)
인과관계 O
이 사례에서는 인과관계의 조건은 성립될 수 있지만 증명 없이는 인과관계가 실제 효과에 의한 것인지, 우연에 의한 것인지는
알 수 없다.
By 변해원
의학(과학)적 증거: 연구의 수준
Level 1: RCT 또는 systematic review of RCTs Level 2: Prospective cohort, poor quality RCT Level 3: Case control, retrospective chort
Level 4: Case series
인과 관계가 있다.
연관성이있다.
이분법적 시각에서 연구방법의 구분
RCT
Case- control
실험
연구
cohortCross- sectional study
관찰 연구
인과성 추구 연관성 추구
By 변해원
• 1.1 연구와 통계
통계학이란?
•
통계학 (Statistics)
▫ 관심 또는 연구의 대상이 되는 전체집단으로부터 자료를 수집 정리하고 과학적으로 분석하여 최적의 의사결정을 할 수
있도록 정확한 정보를 제공하는 방법론을 연구하는 학문
▫ 통계는 데이터를 다루는 분야임
데이터수집 자료정리
통계분석 정보제공
의사결정 소비자선호도 조사 자료입력
자료분석 제품개발
영업전략 고객속성거래속성 Mart D/B
Scoring
판매전략우수고객
By 변해원
통계학의 두 방향
•
기술통계학 (Descriptive Statistics)
▫ 방대한 자료를 그래프나 몇 개의 숫자로 요약하여, 그 자료의 전반적인 내용을 쉽고 빠르게 파악할 수 있는 기법을 다루는 통계학.
•
추측통계학 (Inferential Sratistics)
▫ 관심의 대상이 되는 전체집단(모집단)으로부터 모 집단의 일부를 추출하여 관측된(표본) 내용을 근거 로 하여 모집단의 전체 특성을 추측하고 검정(추론) 하는 통계적 방법을 다루는 통계학.
▫ 확률적 서술(probabilistic statement)이어야 함.
수업 시작
자료 수집(1. 조사 2. 실험)
• 1. 조사(survey)
- 조사 대상을 통해 어떤 현상/특성을 관찰하는 것이 목적으로, 일반 적으로 사회과학 연구에서 널리 사용되는 데이터 수집법.
- 전수조사(complete enumeration survey)
통계청에서 실시하는 인구주택총조사와 같이 모집단의 모든 단위들 을 다 조사하는 방법으로 흔히 센서스(census)라고 불리기도 함
- 표본조사(sample survey)
모집단의 부분집합인 표본의 단위들만을 상대로 조사하는 방법으로, 전수조사에 비해 경제적으로 효율적임(표본이 모집단을 잘 대표하는 것이 중요함)
• 2 .실험(experiment)
- 연구자가 실험대상/실험조건을 통제하는 것이 용이하므로 실험은 원하는 목적의 자료를 얻는데 가장 효과적인 자료수집법으로 어떤 요 인(factor)이 측정하고자 하는 변수에 영향을 미치는지를 파악하는데 유용
• 처리(treatment): 요인의 효과를 알기 위해 설정하는 실험조건
➣ 실험에 의해 공정한 비교를 하려면 관심의 대상이 되는 요인 이외의 다른 요인이 실험 결과에 영향을 미치지 않도록 잘 통제하는 것이 반 드시 필요 (이를 위해 실험하기 전에 미리 실험설계 필요)
(예) 위약(placebo)을 이용한 비교 실험
제약회사에서 새로운 치료제를 개발하는 경우 그 치료제의 효능을 검 정하기 위해 임상시험 필요
시험대상이 되는 환자들을 무작위(random)로 두 그룹으로 나눔, - 처리집단(treatment group; 새로운 치료제를 투여하는 집단) &
대조집단(control group; 위약(placebo)을 투여하는 집단)
By 변해원
통계용어 및 기본개념
• 통계분석의 필요성
• 루터대학교 실험실 방문자 100명을 대상으로 1개월간 50명에게 황영진 음성치료 를 했더니(실험군) 황영진 음성치료를 하지 않고 어떠한 음성치료도 받지 않았던 50명보다(대조군) 성대결절의 크기가 80% 감소하였다.
조건1 (공간적, 시간적 인접성) 조건2 (선행성) 조건3 (반사실적 조건화)
인과관계 O
-> 황영진 음성 치료법이 효과가 있는가?
-> 효과가 있다면 실제 효과가 있는것인가? 우연에 의한 효과 인가?/ 다른 요인으
모집단과 표본
•
모집단(population): 연구자의 관심의 대상이 되는 전체 집단 - 모수(parameter)는 모집단의 특성을 수치로 나타낸 특성값 (예) population mean, population variance, ...
•
표본(sample)> 실제 조사를 위해 모집단에서 추출한 모집단의 부분으로모집단의 특성을 대표하는 집단
(표본이 대표성있게 모집단을 반영하여야 함) - 통계량(statistics)은 모집단의 특성(모수)을 추정하기 위해
표본에서 구한 특성값/추정값
(예) sample mean ( ), sample variance ( ), ..
By 변해원
표본의 예
• 우리나라 국민 전체의 음성문제유무(음성수준)를 조사하기 위하여 아주대 병원과 연세대학교 원주 병원, 아산병원에 내원한 모든 환자를 표본으로 하여 조사한다면?
➣ 병원에 내원한 환자는 일반 국민에 비하여 음성 상태의 특성이 같다고 보기 어려우므로
표본으로
부적합
어떻게 하면 모집단을 잘 대표하는 표본 을 추출할 수 있을까?
• 실험의 경우: 실험설계(design of experiment)
⤅ 실험설계법
• 조사의 경우: 표본설계(sample design) 필요
• ⤅ 표본조사론
By 변해원
모집단을 잘 대표하는 표본을 추출하기 위해 서는 무작위 표본이 필요하다.
•
무작위표본(random sample): 연구자의 주관이나 선입견 이 표본 추출에 전혀 개입되지 않도록 하여 우연의 원리에 의해 각 단위가 추출된 표본
(예1) 조사에서 무작위로 표본을 추출하는 경우:
- 어느 초등학교 학급에서 초등학생의 수용어휘력을 조사 하려고 한다. 30명의 학생 중 5명을 무작위로 추출하려면?
•
생각해 봅시다.
-여기저기서 골고루 5명을 추출한다면???
X
왜 일까요??
•
무작위 추출은 모든 학생들이 추출될 확률이 같아지 도록 하는 추출방법임.
•
여기저기서 골고루 뽑는경우는, 먼저 교실 한쪽 구석 의 학생이 뽑히는 경우 다음에는뽑힌 학생 부근의 학 생들은 상대적으로 표본으로 선택될 확률이 줄어들게 됨.
•
진정한 무작위 추출방법: 1번부터30번까지의 번호를 부여한 후, 상자에 담아서 잘 섞은 후 5개를 뽑는다.
-> 무작위 표본의 가장 기본적인
난수표(random number table)의 개념
By 변해원
실험에서 실험대상을 무작위로 선택하는 경우
• 널리 사용되는 진통제와 새로 개발된 진통제의 효 능을 비교하기 위해 10마리의 쥐를 대상으로 실험 하는 경우 어떤 쥐들에게 어떤 진통제를 무작위로 투여할까?
- 연구원이 10마리의 쥐를 상자 속에 가두어 휘저 어 가면서 먼저 잡힌 5마리에게 기존의 진통제를 투여하고, 남은 다섯 마리에게 새로운 진통제를 투여한다??
X
왜 일까요?
• 날쌘 쥐들은 상대적으로 둔한 쥐들보다 잡히지 않 게 되므로 이는 공정한 실험이 되지 못함.
• 바른 해결법: 10마리의 쥐들에게 꼬리표를 달아주 고
연구자는 1에서 10까지의 난수를 5개 추출하여 그 번호에 해당하는 쥐에게는 기존의 진통제를 나머 지 쥐에게는 새로운 진통제를 투여하여야 함.
By 변해원
•객관적인 절차가 무시된 실험/조사를 통해 얻어진 데이터를 가지고는 아무리 통계분석을 잘한다고 해도 객관적인 결론을 내릴 수가없음.
• 실제 모집단과 편향된(biased) 표본이 아닌, 객관적으로 받아들일 수
무작위 표본 과정 - 연구대상
•
.. 선략… 전체 조사에서 표본 추출은 서울, 광역시, 경기, 충청, 전라 및 제주, 경상 및 강원의 11개 지역을 중심으로 연령대별 인구비율을 변수로 사용하여 29개 층을 구성하고, 각 층의 모집
단
조사구수에 비례하도록 비례계통추출법으로 200개의 표본조사구를 추출하였으며, 2008년 전체 조사에서는
4,600가구 12,528명을 대상으로 하였다.이 연구에서는 전체 조사 중 건강설문조사와 이비인후검사 설문 을 완료한 3,632명 중에서 후두내시경 검사 판정불가자 476명, 후두내시경 미검사자 15명이 제외되어 최종 3,141명(남 1,313명, 여 1,828명)을 연구의 대상으로 선정하였다.
By 변해원
모집단과 표본의 중요성
1. 모집단 전체를 대상으로 조사 불가능
2. 모집단을 다 조사하기에는 많은 시간과 비용 소요
⤅ 이러한 이유로 모집단 중 일정량의 표본을 추출 (sampling)
➣ 실제 알고 싶은 것은 표본의 값(통계량: statistics)이 아니 고 모집단의 값(모수: parameter)
➣ 표본에서 구한 값을 이용해 우리가 구하고자 하는 모집 단의 값을 유추 (추론(Inference))
➣ 표본 관찰 목적은 표본 자체에 대한 정보를 얻고자 함이
아니고, 표본 자료의 분석을 통하여 모집단에 대한 정보
를 얻고 모집단에 대한 적절한 의사결정을 하는데 있음
표본오차(sampling error)
•
모집단에서 추출된 일부분인 표본을 가지고 표본조사를 하는 것이므로 모수와 표본 통계량 사이에 생기는 오차 - 표본오차는 아무리 표본을 크게 해도 전수조사를 하지 않
는 이상 존재
- 표본의 크기를 크게 함으로써 표본오차를 감소시킬 수 있
음
통계적 추론(statistical inference)
• 표본에서 얻어진 결과를 기초로 모집단에 대한 결론을 이끌어 내는 과 정
(예) 모평균을 추정하기 위하여 표본평균(모평균의 추정량)을 이용
1. 점추정(point estimation): 모수를 한 개의 수치로 근사적으로 추정하는 방법 (sample mean 등)
2. 구간추정(interval estimation): 일정한 확률범위 내에서 모수의 값이 포함될 가능성이 있는 범위로 추정하는 방법 (신뢰구간(confidence interval) 등)
3. 가설검정(hypothesis test): 모집단의 특성에 관한 가설을 표본에서 얻 은 정보와 비교하여 검토하는 방법
By 변해원
왜 연구에서는 가설검정 방법을 사용하는가?
점추정 (Point Estimation)의 예
예) X1=1, X2=2, X3=3, X4=4, X5=5
▫ 모평균 :
▫ 2개의 비복원표본(sample without replacement)을 추출
▫ 표본평균 :
▫ 가능한 표본 : 10개
(1,2)(1+2)/2=1.5, (1,3)(1+3)/2=2.0,
(1,4)2.5, (1,5)3.0, (2,3)2.5, (2,4)3.0, (2,5)3.5, (3,4)3.5, (3,5)4.0, (4,5)4.5
▫ : 모든 가능한 표본평균의 기대값은 모평균
1
= Ni
( 1 2 3 4 5 ) / 5 3
/ = + + + + =
=
Xi N m(
x x x)
nn x
x n
n
i
i
/
1 2/
1
+ L +
=
=
=
( )
x=
m EBy 변해원
구간추정
• 모평균의 추정
▫ (1-)% 신뢰구간
▫ 95%신뢰수준 하에서의 오차한계 :
• 모표준편차의 추정
▫ (1-)% 신뢰구간
n t s
n x t s
x
-
m +
n s
t
0.052 2 / 1
2 2
2 2 /
2
( 1 )
) 1 (
s c
c -