• 검색 결과가 없습니다.

3주. 통계적 기초 및 이해

N/A
N/A
Protected

Academic year: 2022

Share "3주. 통계적 기초 및 이해"

Copied!
31
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

3주. 통계적 기초 및 이해

변해원

고급연구방법 및 통계

(2)

지난 시간 복습

(3)

인과관계(Causality)

• Causal relationship : by Haper Collins Dictionary of Sociology

(1) 두 사건 A와 B사이에 공간적, 시간적 인접성이 존재하고,

(2) 한 사건 A가 다른 사건 B에 선행하며,

(3) 전자 A가 일어나지 않았더라면 후자 B는 발생할 것 같지 않았을 경우를 말한다. -> Counter factual condition(반사실적 조건화)

By 변해원

(4)

사례 1. 불경기에는 여성의 치마 길이가 짧아진다.

-> 조건2(선행성), 조건3(반사실적조건화) 위배. 인과관계X

사례2. 영수는 세 달전 길에서 넘어져서 발목을 다쳤다. 그 후 아무 런 증상이 없다가 오늘 갑자기 두통증세가 나타났다.

-> 조건1(공간적 시간적 인접성) 위배. 인과관계 X

사례3. 변해원은 현재 강의실이 어둡다고 생각했다. 그래서 바로 강 의실의 불을 켰다.

-> 조건 1, 2, 3 모두 만족. -> 인과관계 O

(5)

사례 4.

3개월간 끝말잇기 치료를 매일 했더니 (3개월 전보다)수용어휘가 10% 향상되었다.

-> 조건1 (공간적, 시간적 인접성) 조건2 (선행성) 조건3 (반사실적 조건화)

인과관계 O

이 사례에서는 인과관계의 조건은 성립될 수 있지만 증명 없이는 인과관계가 실제 효과에 의한 것인지, 우연에 의한 것인지는

알 수 없다.

By 변해원

(6)

의학(과학)적 증거: 연구의 수준

Level 1: RCT 또는 systematic review of RCTs Level 2: Prospective cohort, poor quality RCT Level 3: Case control, retrospective chort

Level 4: Case series

인과 관계가 있다.

연관성이있다.

(7)

이분법적 시각에서 연구방법의 구분

RCT

Case- control

실험

연구

cohort

Cross- sectional study

관찰 연구

인과성 추구 연관성 추구

By 변해원

(8)

• 1.1 연구와 통계

(9)

통계학이란?

통계학 (Statistics)

▫ 관심 또는 연구의 대상이 되는 전체집단으로부터 자료를 수집 정리하고 과학적으로 분석하여 최적의 의사결정을 할 수

있도록 정확한 정보를 제공하는 방법론을 연구하는 학문

▫ 통계는 데이터를 다루는 분야임

데이터수집 자료정리

통계분석 정보제공

의사결정 소비자선호도 조사 자료입력

자료분석 제품개발

영업전략 고객속성거래속성 Mart D/B

Scoring

판매전략우수고객

By 변해원

(10)

통계학의 두 방향

기술통계학 (Descriptive Statistics)

▫ 방대한 자료를 그래프나 몇 개의 숫자로 요약하여, 그 자료의 전반적인 내용을 쉽고 빠르게 파악할 수 있는 기법을 다루는 통계학.

추측통계학 (Inferential Sratistics)

▫ 관심의 대상이 되는 전체집단(모집단)으로부터 모 집단의 일부를 추출하여 관측된(표본) 내용을 근거 로 하여 모집단의 전체 특성을 추측하고 검정(추론) 하는 통계적 방법을 다루는 통계학.

▫ 확률적 서술(probabilistic statement)이어야 함.

(11)

수업 시작

(12)

자료 수집(1. 조사 2. 실험)

1. 조사(survey)

- 조사 대상을 통해 어떤 현상/특성을 관찰하는 것이 목적으로, 일반 적으로 사회과학 연구에서 널리 사용되는 데이터 수집법.

- 전수조사(complete enumeration survey)

통계청에서 실시하는 인구주택총조사와 같이 모집단의 모든 단위들 을 다 조사하는 방법으로 흔히 센서스(census)라고 불리기도 함

- 표본조사(sample survey)

모집단의 부분집합인 표본의 단위들만을 상대로 조사하는 방법으로, 전수조사에 비해 경제적으로 효율적임(표본이 모집단을 잘 대표하는 것이 중요함)

(13)

2 .실험(experiment)

- 연구자가 실험대상/실험조건을 통제하는 것이 용이하므로 실험은 원하는 목적의 자료를 얻는데 가장 효과적인 자료수집법으로 어떤 요 인(factor)이 측정하고자 하는 변수에 영향을 미치는지를 파악하는데 유용

처리(treatment): 요인의 효과를 알기 위해 설정하는 실험조건

➣ 실험에 의해 공정한 비교를 하려면 관심의 대상이 되는 요인 이외의 다른 요인이 실험 결과에 영향을 미치지 않도록 잘 통제하는 것이 반 드시 필요 (이를 위해 실험하기 전에 미리 실험설계 필요)

(예) 위약(placebo)을 이용한 비교 실험

제약회사에서 새로운 치료제를 개발하는 경우 그 치료제의 효능을 검 정하기 위해 임상시험 필요

시험대상이 되는 환자들을 무작위(random)로 두 그룹으로 나눔, - 처리집단(treatment group; 새로운 치료제를 투여하는 집단) &

대조집단(control group; 위약(placebo)을 투여하는 집단)

By 변해원

(14)

통계용어 및 기본개념

통계분석의 필요성

루터대학교 실험실 방문자 100명을 대상으로 1개월간 50명에게 황영진 음성치료 를 했더니(실험군) 황영진 음성치료를 하지 않고 어떠한 음성치료도 받지 않았던 50명보다(대조군) 성대결절의 크기가 80% 감소하였다.

조건1 (공간적, 시간적 인접성) 조건2 (선행성) 조건3 (반사실적 조건화)

인과관계 O

-> 황영진 음성 치료법이 효과가 있는가?

-> 효과가 있다면 실제 효과가 있는것인가? 우연에 의한 효과 인가?/ 다른 요인으

(15)

모집단과 표본

모집단(population): 연구자의 관심의 대상이 되는 전체 집단 - 모수(parameter)는 모집단의 특성을 수치로 나타낸 특성값 (예) population mean, population variance, ...

표본(sample)> 실제 조사를 위해 모집단에서 추출한 모집단의 부분으로모집단의 특성을 대표하는 집단

(표본이 대표성있게 모집단을 반영하여야 함) - 통계량(statistics)은 모집단의 특성(모수)을 추정하기 위해

표본에서 구한 특성값/추정값

(예) sample mean ( ), sample variance ( ), ..

By 변해원

(16)

표본의 예

• 우리나라 국민 전체의 음성문제유무(음성수준)를 조사하기 위하여 아주대 병원과 연세대학교 원주 병원, 아산병원에 내원한 모든 환자를 표본으로 하여 조사한다면?

➣ 병원에 내원한 환자는 일반 국민에 비하여 음성 상태의 특성이 같다고 보기 어려우므로

표본으로

부적합

(17)

어떻게 하면 모집단을 잘 대표하는 표본 을 추출할 수 있을까?

• 실험의 경우: 실험설계(design of experiment)

⤅ 실험설계법

• 조사의 경우: 표본설계(sample design) 필요

• ⤅ 표본조사론

By 변해원

(18)

모집단을 잘 대표하는 표본을 추출하기 위해 서는 무작위 표본이 필요하다.

무작위표본(random sample): 연구자의 주관이나 선입견 이 표본 추출에 전혀 개입되지 않도록 하여 우연의 원리에 의해 각 단위가 추출된 표본

(예1) 조사에서 무작위로 표본을 추출하는 경우:

- 어느 초등학교 학급에서 초등학생의 수용어휘력을 조사 하려고 한다. 30명의 학생 중 5명을 무작위로 추출하려면?

생각해 봅시다.

-여기저기서 골고루 5명을 추출한다면???

X

(19)

왜 일까요??

무작위 추출은 모든 학생들이 추출될 확률이 같아지 도록 하는 추출방법임.

여기저기서 골고루 뽑는경우는, 먼저 교실 한쪽 구석 의 학생이 뽑히는 경우 다음에는뽑힌 학생 부근의 학 생들은 상대적으로 표본으로 선택될 확률이 줄어들게 됨.

진정한 무작위 추출방법: 1번부터30번까지의 번호를 부여한 후, 상자에 담아서 잘 섞은 후 5개를 뽑는다.

-> 무작위 표본의 가장 기본적인

난수표(random number table)의 개념

By 변해원

(20)

실험에서 실험대상을 무작위로 선택하는 경우

• 널리 사용되는 진통제와 새로 개발된 진통제의 효 능을 비교하기 위해 10마리의 쥐를 대상으로 실험 하는 경우 어떤 쥐들에게 어떤 진통제를 무작위로 투여할까?

- 연구원이 10마리의 쥐를 상자 속에 가두어 휘저 어 가면서 먼저 잡힌 5마리에게 기존의 진통제를 투여하고, 남은 다섯 마리에게 새로운 진통제를 투여한다??

X

(21)

왜 일까요?

• 날쌘 쥐들은 상대적으로 둔한 쥐들보다 잡히지 않 게 되므로 이는 공정한 실험이 되지 못함.

• 바른 해결법: 10마리의 쥐들에게 꼬리표를 달아주 고

연구자는 1에서 10까지의 난수를 5개 추출하여 그 번호에 해당하는 쥐에게는 기존의 진통제를 나머 지 쥐에게는 새로운 진통제를 투여하여야 함.

By 변해원

(22)

•객관적인 절차가 무시된 실험/조사를 통해 얻어진 데이터를 가지고는 아무리 통계분석을 잘한다고 해도 객관적인 결론을 내릴 수가없음.

• 실제 모집단과 편향된(biased) 표본이 아닌, 객관적으로 받아들일 수

(23)

무작위 표본 과정 - 연구대상

.. 선략… 전체 조사에서 표본 추출은 서울, 광역시, 경기, 충청, 전라 및 제주, 경상 및 강원의 11개 지역을 중심으로 연령대별 인구비율을 변수로 사용하여 29개 층을 구성하고, 각 층의 모집

조사구수에 비례하도록 비례계통추출법으로 200개의 표본조사구를 추출하였으며, 2008년 전체 조사에서는

4,600가구 12,528명을 대상으로 하였다.

이 연구에서는 전체 조사 중 건강설문조사와 이비인후검사 설문 을 완료한 3,632명 중에서 후두내시경 검사 판정불가자 476명, 후두내시경 미검사자 15명이 제외되어 최종 3,141명(남 1,313명, 여 1,828명)을 연구의 대상으로 선정하였다.

By 변해원

(24)
(25)

모집단과 표본의 중요성

1. 모집단 전체를 대상으로 조사 불가능

2. 모집단을 다 조사하기에는 많은 시간과 비용 소요

⤅ 이러한 이유로 모집단 중 일정량의 표본을 추출 (sampling)

➣ 실제 알고 싶은 것은 표본의 값(통계량: statistics)이 아니 고 모집단의 값(모수: parameter)

➣ 표본에서 구한 값을 이용해 우리가 구하고자 하는 모집 단의 값을 유추 (추론(Inference))

➣ 표본 관찰 목적은 표본 자체에 대한 정보를 얻고자 함이

아니고, 표본 자료의 분석을 통하여 모집단에 대한 정보

를 얻고 모집단에 대한 적절한 의사결정을 하는데 있음

(26)

표본오차(sampling error)

모집단에서 추출된 일부분인 표본을 가지고 표본조사를 하는 것이므로 모수와 표본 통계량 사이에 생기는 오차 - 표본오차는 아무리 표본을 크게 해도 전수조사를 하지 않

는 이상 존재

- 표본의 크기를 크게 함으로써 표본오차를 감소시킬 수 있

(27)

통계적 추론(statistical inference)

표본에서 얻어진 결과를 기초로 모집단에 대한 결론을 이끌어 내는 과 정

(예) 모평균을 추정하기 위하여 표본평균(모평균의 추정량)을 이용

1. 점추정(point estimation): 모수를 한 개의 수치로 근사적으로 추정하는 방법 (sample mean 등)

2. 구간추정(interval estimation): 일정한 확률범위 내에서 모수의 값이 포함될 가능성이 있는 범위로 추정하는 방법 (신뢰구간(confidence interval) 등)

3. 가설검정(hypothesis test): 모집단의 특성에 관한 가설을 표본에서 얻 은 정보와 비교하여 검토하는 방법

By 변해원

(28)

왜 연구에서는 가설검정 방법을 사용하는가?

(29)

점추정 (Point Estimation)의 예

예) X1=1, X2=2, X3=3, X4=4, X5=5

▫ 모평균 :

▫ 2개의 비복원표본(sample without replacement)을 추출

▫ 표본평균 :

▫ 가능한 표본 : 10개

(1,2)(1+2)/2=1.5, (1,3)(1+3)/2=2.0,

(1,4)2.5, (1,5)3.0, (2,3)2.5, (2,4)3.0, (2,5)3.5, (3,4)3.5, (3,5)4.0, (4,5)4.5

▫ : 모든 가능한 표본평균의 기대값은 모평균

1

= N

i

( 1 2 3 4 5 ) / 5 3

/ = + + + + =

=

Xi N m

(

x x x

)

n

n x

x n

n

i

i

/

1 2

/

1

+ L +

=

= 

=

( )

x

=

m E

By 변해원

(30)

구간추정

• 모평균의 추정

▫ (1-)% 신뢰구간

▫ 95%신뢰수준 하에서의 오차한계 :

모표준편차의 추정

▫ (1-)% 신뢰구간

n t s

n x t s

x

-

m

 +

n s

t

0.05

2 2 / 1

2 2

2 2 /

2

( 1 )

) 1 (

s c

c -

 -

-

s

n s n

(31)

긴 수업 듣느라 고생하셨어요.

다음 주에 활기찬 모습으로 뵈요~.

참조

관련 문서