• 검색 결과가 없습니다.

할당추출

N/A
N/A
Protected

Academic year: 2022

Share "할당추출"

Copied!
26
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

제3장 자료수집의 대상

(2)

모집단과 표본

자료수집의 대상 모집단과 표본

자료수집의 대상

(3)

모집단과 표본

자료수집의 대상 모집단과 표본

자료수집의 대상

(4)

자료수집의 대상 표본추출표본추출 자료수집의 대상

표본추출 표본추출

표본추출(sampling)

표본( l )

통계량(stiatistic) 통계량 표본(sample)

모집단 (population)

모수

모수추정 : 추정량(estimator)

모수추정 : 추정치(estimate)

(parameter) 가설검정 :

검정통계량(test statistic)

가설검정 :

검정통계치(test statistic)

사전적 의미 사후적 의미

사전적 의미 - 확률변수

사후적 의미 - 실현치

추론(inference)

(5)

모집단과 표본

자료수집의 대상 모집단과 표본

자료수집의 대상

(6)

모집단과 표본

자료수집의 대상 모집단과 표본

자료수집의 대상

(7)

표본추출방법

자료수집의 대상 표본추출방법

자료수집의 대상

(8)

표본추출방법

자료수집의 대상 표본추출방법

자료수집의 대상

(9)

표본추출방법 표본추출방법

할당추출과 단순무작위추출 할당추출과 단순무작위추출

할당에 쓰인 조건 외의

할당추출

(quota sampling)

모집단의 구성비에 따라 다양한 특성의 사람들을 뽑도록

표본수를 할당하여 표본추출

할당에 쓰인 조건 외의 나머지 특성에 관한 한 조사원의 자의가 개입하여

신뢰성 떨어짐

단순무작위

모집단에서 임의로 표본을 추출무작위 비복원 추출

신뢰성 떨어짐

실제로 표본추출시

단순무작위 추출

(simple random li )

-모집단에서 임의로 표본을 추출 -한번 뽑은 것은 복원하지 않음

-단순무작위표본

모집단 전체로부터 단순무작위추출하기는

매우 어려움

sampling) (simple random sample) - 다단계군집추출이용

(10)

표본추출방법

표본추출방법 표본추출방법

다단계군집추출(multistage cluster sampling) 다단계군집추출(multistage cluster sampling)

표본추출방법

중서

북동 서부

남부 1 단계: 북동부의 도시 남부 1 단계: 북동부의 도시

2 단계: 구획

갤럽의 표본추출방식

¾ 거주지를 바탕으로 해 갤럽의 표본추출방식

¾ 거주지를 바탕으로 해

3 단계: 선거구 서 표본수를 할당한다.

¾ 각 단계마다 확률적 방 법을 통해 표본을 추출 서 표본수를 할당한다.

¾ 각 단계마다 확률적 방 법을 통해 표본을 추출

4 단계: 가구

법을 통해 표본을 추출 한다.

법을 통해 표본을 추출 한다.

(11)

표본추출방법 표본추출표본추출

확률적 방법에 의한 표본추출 확률적 방법에 의한 표본추출

표본추출방법

-단순무작위추출, 다단계군집추출 -특징

¾조사원 스스로 누구와 면담할지 결정할 수 없다.

표본추출 절차가 명확하고 이는 확률에 바탕을 두고 있다

¾표본추출 절차가 명확하고 이는 확률에 바탕을 두고 있다.

확률적 방법은 모집단을 이루는 개개의 구성원이 표본으로 선택 - 확률적 방법은 모집단을 이루는 개개의 구성원이 표본으로 선택

될 확률을 계산할 수 있게 해준다.

제 3자에 의한 반복 연구가 가능해지므로 연구결과의 유의성을 - 제 3자에 의한 반복 연구가 가능해지므로 연구결과의 유의성을

판단할 근거가 마련된다.

(12)

추출확률결정

표본추출방법 추출확률결정

다단계군집추출에서 추출확률의 결정 다단계군집추출에서 추출확률의 결정

표본추출방법

서울,부산에서 3 개의 구획을 뽑는 서울,부산에서 3 개의 구획을 뽑는

¾ 표본추출시 모집단에 속한 개개인이 표본으로 뽑힐 확률을 같게 만들어야 바람직하다.

서울 부산

서울,부 에서 개의 구획을 뽑 경우 하나의 구획이 뽑힐 확률

= 3/30 = 1/10

= A구획이 뽑힐 확률

서울,부 에서 개의 구획을 뽑 경우 하나의 구획이 뽑힐 확률

= 3/30 = 1/10

= A구획이 뽑힐 확률

A B

= B구획이 뽑힐 확률 이 성립하려면 1단계에서

서울이 뽑힐 확률=2/3

= B구획이 뽑힐 확률 이 성립하려면 1단계에서

서울이 뽑힐 확률=2/3 부산이 뽑힐 확률=1/3

이 되어야 한다.

부산이 뽑힐 확률=1/3 이 되어야 한다.

단계마다 추출단위의 크기에 비례하여 추출확률을 조정해야 한다.

(13)

표본추출방법 확률조정확률조정

갤럽의 다단계군집추출에서 확률조정 갤럽의 다단계군집추출에서 확률조정

표본추출방법

갤럽의 다단계군집추출에서 확률조정 갤럽의 다단계군집추출에서 확률조정

매 단계에서 각 추출대상에 매 단계에서 각 추출대상에

도시 구획 선거구

매 단계에서 각 추출대상에 속한 가구수에 비례하여

추출확률을 정한다.

매 단계에서 각 추출대상에 속한 가구수에 비례하여

추출확률을 정한다.

하나의 가구가 표본에 뽑힐 확률이 그 가구가 속한 도시 구획 선거구와 관계없이 일 하나의 가구가 표본에 뽑힐 확률이 그 가구가 속한 도시, 구획, 선거구와 관계없이 일 정하게 정해진다.

추출확률을 가구원수가 아닌 가구수에 비례시키는 선에서 그침으로써 편의가 발생한

다.

가구원수가 많은 가구의 구성원이 가구원수가 적은 가구의 구성원에 비해 표본으로 뽑힐 확률이 낮다. Æ 가구편의(household bias)

(14)

표본추출방법 여론조사여론조사

여론조사 여론조사

표본추출방법

1936년 미국 대통령 선거결과의 예측

¾다이제스트사 vs. 갤럽

루즈벨트의 특표율(%)

실제선거결과 62 루즈벨트 승리루즈벨트 승리

다이제스트사의 예측 43

다이제스트사의 예측치에 대한

랜던 승리 랜던 승리 다이제스트사의 예측치에 대한

갤럽의 예측 44

선거결과에 대한 갤럽의 예측 56 루즈벨트 승리루즈벨트 승리

¾

¾ 갤럽의갤럽의 일방적일방적 승리승리 -

- 다이제스트사의다이제스트사의 표본추출방식에표본추출방식에 심각한심각한 문제가문제가 있었다있었다..

다이제스트사의

다이제스트사의 잘못된잘못된 예측까지도예측까지도 갤럽이갤럽이 예측예측 -

- 다이제스트사의다이제스트사의 잘못된잘못된 예측까지도예측까지도 갤럽이갤럽이 예측예측

(15)

여론조사 문제점

여론조사 여론조사 문제점

여론조사

여론조사 문제점

(1) 표본추출편의( l l ti bi ) 여론조사 문제점

(1) 표본추출편의( l l ti bi ) (1)-표본추출편의(sample selection bias) (1)-표본추출편의(sample selection bias)

다이제스트사의 표본추출방식 : 다이제스트사의 표본추출방식 전화번호부나 클럽회원 명단에서 파악한 주소를 이용하여 여론조사

표본에 포함시키고 제외시키는 데 체계적인 경향(표본추출편의)이 개입됨.

표본이 공정한 방법으로 추출되지 못함 파악 를 이용하여 여

-당시 전화나 클럽은 부의 상징 -가난한 사람들은 표본에서 배제 -가난한 사람에게 인기있는

표본이 공정한 방법으로 추출되지 못함.

-표본이 모집단을 대표하지 못한다.

루즈벨트에게 불리한 예측치 나옴

표본추출편의가 있는 경우 표본이 모집단을 대표하는데 문제가 있다. 표본추출편의 문제는 표본이 크다고 해서 해결되지 않는다.

(16)

여론조사 문제점문제점 여론조사

문제점 (2)-무응답편의(non-response bias) 문제점 (2)-무응답편의(non-response bias)

다이제스트사의 표본추출방식 : 설문지를 받은 천만 명 중 240만 명만이 응답

저소득층이나 고소득층이 응답을

응답하지 않은 사람과 응답한 사람들 사이에 체계적인 차이가

있을 수 있다 (무응답편의) -저소득층이나 고소득층이 응답을

거부하는 경향이 커서 중산층의 의견이 과도하게 반영됨

-루즈벨트의 지지자들이 주로

있을 수 있다 (무응답편의).

-응답자가 표본을 대표하지 못한다.

-루즈벨트의 지지자들이 주로 응답하지 않음

무응답자의 생각은 응답자와 다를 수 있다. 무응답자 비율이 높은 경우 무응답편의의 가능성을 고려해야 한다.

(17)

갤럽조사 갤럽조사

갤럽조사 갤럽조사

¾갤럽조사는 확률적 방법으로 표본을 추출하여 작은 표 본을 쓰고서도 상당히 정확하게 결과를 예측한다.

편의를 최소화하려면 표본을 고르는데 있어 객관적이고 공정한 확률적 방법을 사용해야 한다 반면 주관과 자의적인 판단은 편의 확률적 방법을 사용해야 한다. 반면 주관과 자의적인 판단은 편의 를 가져오는 요인이 된다.

확률적 방법을 이용한다고 해서 모든 편의를 없앨 수 있는 것은 아니다 확률적 방법을 이용한다고 해서 모든 편의를 없앨 수 있는 것은 아니다.

-투표하지 않는 유권자

-아직 마음을 정하지 못한 유권자아직 마음을 정하지 못한 유권자 -응답편의와 무응답편의 등

이를 해결하기 위해 갤럽은 여러 설문 문항을 만들었다.

(18)

갤럽설문지

갤럽조사 사례 갤럽설문지

갤럽조사 사례

1984년 미국 대통령 선거시 미국 갤럽이 사용한 설문지

1984년 미국 대통령 선거시 미국 갤럽이 사용한 설문지

(19)

한국 설문지

갤럽조사 사례 한국 설문지

1997년 한국 대통령 선거에서 1997년 한국 대통령 선거에서

갤럽조사 사례

한국갤럽이 사용한 설문지 한국갤럽이 사용한 설문지

(20)

투표하지 않는 유권자 투표하지 않는 유권자

선거결과를 예측할 때,

투표하지않는 유권자는 실제로 투표에 참여하지 않아도 투표하지않는 유권자는

모집단과 표본에서 제외하는 편이 좋다.

조사시에는 투표할거라고 답하는 경우가 많다.

¾갤럽의 설문지 문항:

‘어디로 투표하러 가는가?’어디로 투표하러 가는가? ‘지난번 선거에서 투표했는가?’지난번 선거에서 투표했는가?

투표에 참여하지 않을 것 같은 사람들은 표본에서 제외하거나 그 투 에 참여하지 않 것 사람 에서 제외하거나

들의 응답에 낮은 가중치를 부여하면, 이는 선거결과를 좀더 정확 히 예측하는데 도움이 된다.

(21)

아직 마음을 정하지 못한 유권자 아직 마음을 정하지 못한 유권자

¾ 갤럽의 설문지 문항:

만약 오늘 당장 투표하게 된다면 누구를 뽑을 것인가?

만약 오늘 당장 투표하게 된다면 누구를 뽑을 것인가?

- 투표용지를 건네주어 실제 투표상황을 연출한다.

1984년 미국 대통령 선거에서 갤럽이 사용한 투표용지

민주당 공화당

먼데일 레이건

먼데일 페라로

레이건 부시

(22)

응답편의와 무응답편의 응답편의와 무응답편의

사람들의 응답은 설문지의 디자인 모든 응답자들이 가급적

응답편의

(response bias)

사람들의 응답은 설문지의 디자인, 문구, 질문의 어조, 조사원의 태도

등에 의해 영향을 받는다.

Ex) 후보자의 이름 순서를 바꾸자

- 모든 응답자들이 가급적 같은 조사원을 만나게 하고 면담과정도 정해진 규칙에 따라서 진행되도록 한다.

) 후 자의 이 바꾸자 예측결과가 5%이상 차이 남.

따라서 행되 록 - 투표용지를 준다.

무응답편의

주로 집에 있어 면담에 쉽게 응하는 사람과 장시간 집밖에 있어 면담이 힘든 사람 사이에 정당 선호도의

면담에 응할 확률에 반비례 하여 가중치를 주면 된다 힘든 사람 사이에 정당 선호도의

차이가 있다면 편의가 발생한다.

하여 가중치를 주면 된다.

(23)

자료의 점검과 가중치 부여 자료의 점검과 가중치 부여

¾갤럽조사의 표본은 실제의 모집단에 비해 교육을 많이 받은 사람의 비중이 지나치게 높다

사람의 비중이 지나치게 높다.

고졸미만(25%) 고졸이상(75%) 모집단

고졸미만(20%) 고졸이상(80%) 표본

모집단의 구성비보다 표본에서의 구성비가 더 큰 집단의 응답자에게는 이를 상쇄하기 위해 더 작은 가 치 부여

상쇄하기 위해 더 작은 가중치를 부여

저학력자(고졸미만)=가중치 1, 고학력자(고졸이상)=가중치 3/4

가중치 부여는 확률적 방법으로 뽑은 표본에 대해 사후적으로 추 가적인 조정(표본의 구성비=모집단의 구성비)을 가하는 작업인 반면 할당추출은 사전적으로 할당량을 정하는 방법이다.

(24)

기타 기타

¾정치성향에 영향을 미칠만한 기타 항목들도 설문에 들어간다.

미국 갤럽 한국 갤럽

교육수준 정당지지성향 인종 및 교육수준, 정당지지성향,

나이, 성별, 직업 등 인종 및

종교 할아버지의

고향

¾몇 개의 같은 질문을 반복하여 응답자들이 일관성 있게 답하는지 살펴본다.

일관성 없는 답이 나오면 응답자들이 제대로 답하지 않고 있다고 판단 하여 가중치를 낮게 주거나, 재조사를 실시한다.

(25)

전화조사 전화조사

갤럽: 미국 전역을 4개 지역으로 나누고 각 지역을 인구밀도에 따라 3개 지구로 나눈다. 이렇게 얻은 12개 지구 각각에서 전화번호부로

지역전화의 1/3 정도가 전화번호부에 등록되어 있지 않다

3개 지구로 나눈다. 이렇게 얻은 12개 지구 각각에서 전화번호부로 부터 단순무작위 추출한다.

지역전화의 1/3 정도가 전화번호부에 등록되어 있지 않다.

Æ 주로 부유층과 빈곤층이 등록하지 않아서 중산층의 선호 편중 반영

전화에 응답하지 않는 것도 편의를 일으킬 수 있다.

Æ 갤럽: 응답율을 높이기 위해 저녁, 주말에 전화조사, 전화를 받지않을 경우 반복전화

¾ 전화조사는 면담조사에 비해 응답률도 높고, 저비용이며, 예측도 비교적 정확하다.

(26)

확률오차 확률오차

¾편의가 전혀 없더라도 추정치는 참값과 다르게 나온다.

추정치는 참값으로부터 확률오차만큼 벗어난다 추정치는 참값으로부터 확률오차만큼 벗어난다.

EX) 상자에 든 카드 중 1의 비율 추정.

0 과 1 이 적힌 카드가 많이 들어 있는 상자 Î 모집단 무작위 비복원추출로 뽑은 카드 Î 표본

추출편의, 무응답편의 등 편의가 없지만 확률오차는 존재한다.

표본에서의 1의 비율 = 모집단에서의 1의 비율 + 확률오차

참조

관련 문서

수급권자 가구가 노인(만 65세 이상) 또는 등록 중증장애인 또는 법정 한부모이거나, 부양의무자 가구가 기초연금 수급자 또는 장애인연금 수급자 또는

물론 가치관 형성에 종교만이 절대적인 영향을 주는 것은 아니다. 이 다섯 가지 요소는 서로 상호작용을 하면서 그 사회에 속한 사람들의 가치관을 형성한다는

주택담보인정비율(LTV) 규제 기준이 40%로 축소되면서 자금 조달 여력이 크게 위축되었기 때문이다... 상당수 가구가

** 소유주택수는 주택자산 가액별 구간에 속한 가구가 소유하고 있는 전체 주택에 대해 소유 지분을 반영한 후 가구별로 합산한

※ 세대내 가구(주방가구 포함) 하부에는 시공 선후관계상 가구가 먼저 설치되어야 하므로 바닥 마감재가 설치되지 않습니다.. ※ 주택형별로 접수받으며, 동호 배정은

파노라마방사선사진에서 치아근원심경사도를 측정하는 방법으로 구획 별 교합면기준선을 개발 적용하고 과거 측정법과 비교하여 그 안정성을 평가하고

‒ (태양광발전 잉여전력매입제도 보장기간 만료) 2019년부터 ‘태양광발전 잉여전력매입제도’의 보 장기간이 만료되는 태양광발전 가구가 발생하여

• 원자로의 내부에서 핵분열로 생성된 중성자는 원자로 외부로 누설될 확률보다 계 속해서 핵분열반응을 유발시킬 확률이 크지만 가장자리에서 생성된 중성자는 외부