제 7 장 표집의 논리 표집 •모집단과 표본

(1)

제 7 장 표집의 논리

(2)

표집

• 모집단과 표본

• 모집단(population):

– 분석단위(unit of analysis)의 집합체,

– 모집단의 어떤 변수에 대한 요약 및 기술(예, 평균이나 분 산값)을 모수(parameter)라 부름

• 표본(sample) :

– 표집과정을 통해서 얻어진 모집단의 일부 집단

– 표본은 가능한 범위 내에서 모집단의 특성을 가깝게 가지 고 있어야 함

– 표본의 어떤 변수에 대한 요약 및 기술(예,평균이나 분산값) 을 통계치(statistic)라 부름

(3)

그림 1). 모수와 통계치간의 관계

(출처: http://www.socialresearchmethods.net/kb/sampstat.htm)

(4)

표본조사와 표집

– 표본조사

• 표본조사는 조사연구에서 대상자 전체(모집단)를 대표할 수 있도록 일부 만을 추출하고 이렇게 추출된 일부를 하 나의 집단으로 취급하여 조사하는 것을 말한다.

– 표집(sampling)

• 표집 (혹은 표본추출)은 표본조사를 위하여 모집단에서 모집단의 특성을 대표할 수 있는 일부를 추출하는 것을 의미한다.

• 표본 추출은 확률적 표본추출(probability sampling)과 비확률적 표본추출(non-probability sampling)으로 나뉨

– 두 방식의 가장 큰 차이점은 모집단에서 연구 대상이 표본 으로 추출될 확률의 인지 여부이다

(5)

확률표본추출법과 비확률표본추출법

(6)

비확률표집

• 비확률표집

– 확률이론이 제시하지 않은 방식들로 표본들을 추출하는 기법

• 따라서, 개별 추출단위에 대해 사전에 일정한 추출확률이 주어지지 않 음

– 표집틀에 접근이 어려울 때 사용

• 표집틀 (sampling frame) : 표본추출프레임이라고도 하며 모집단의 구 성원들에 대한 목록 또는 유사(quasi) 목록

• 예) 지역전화번호부, 납세자 명부, 호텔 숙박자 명부 등

– 종류

• 이용 가능한 연구대상자들에 의존(편의 추출, convenience)

• 유의적 또는 판단적 표집(purposive or judgmental sampling)

• 눈덩이 표집(snowball sampling)

• 할당 표집(quota sampling)

• 정보제공자 선정(informant)

(7)

비확률표집의 종류

• 비확률표집 방법의 종류

– 편의(convenience sampling)에 의한 추출

• 조사원이나 연구자의 자의적 판단에 따라 이용 가능한 표본을 추출하는 방식

– 설문지의 사전점검으로 유용

– 편리한 반면, 표본의 대표성의 문제로 인하여 모집단에 대한 일반화에는 문 제점을 내포함.

– 따라서, 표본의 일반화 시 주의하여야 하고, 이러한 위험성을 독자에게 알려 야 함

– 유의적 표집(purposive sampling) 또는 판단적 표집(judgmental sampling)

• 연구자가 자신의 연구목적에 따라 모집단을 가장 잘 대표한다고 여기는 표본을 주관적으로 선정하는 방법

• 따라서 연구자 자신의 지식과 경험이 표본을 추출하는데 가장 중요한 판단 기준임.

• 하위집단의 성원들은 쉽게 파악할 수 있지만, 전체 성원의 집게가 불가 능할 경우

– 예) 호텔 종업원 이직률 조사 시 대표성 있는 호텔을 연구자가 설정/ 운동권 학생에 대한 조사

(8)

– 눈덩이 표집(snowball sampling)

• 응답자들로부터 다음에 면접할 사람을 추천 받는 방식

• 이 방법은 노숙자, 이주 노동자, 불법체류자 등과 같이 특정 모 집단의 구성원을 찾아내기 어려울 때 적절함.

• 대표성의 문제로 인하여 탐색적 연구에 주로 사용함.

– 예, 시간의 흐름에 따른 공동체 조직의 회원모집 유형

– 할당표집(quota sampling)

• 표본의 특성이 연구될 모집단에 존재하는 특성과 동일하게 만들기 위해, 미리 특정화된 특성에 기초하여 단위를 표본에 추출하는 비확률표집의 형태

• 할당표집 순서

– 모집단에 관련된 특성을 기술하는 행렬 또는 표의 작성 – 각 칸의 구성비 산출

– 각 칸의 특성을 갖는 사람들로부터 자료 수집 – 각 사람들에게 가중치 부여

• 문제점

– 할당틀의 정확성의 문제(조지 갤럽의 1936과 1948년의 예) – 각 칸에 표본을 추출하는 과정의 문제

(9)

– 정보제공자 (informant) 선정

• 연구하고자 하는 사회적 현상을 잘 알고 있으면서 알고 있는 바를 기꺼이 말해주는 사람.

– 응답자: 자신에 대한 정보를 제공

– 정보제공자: 자신에 속해 있는 집단에 대해 직접적으로 말 할 수 있는 그 집단의 성원

• 통상적으로, 연구자는 연구하려는 집단을 어느 정도 대표

하는 사람을 정보제공자로 선정

(10)

확률표집

• 확률표집

– 표본이 확률이론 특히 무작위 방법에 의해 추출되는 방법.

– 확률표집의 종류

• 단순무작위 표집(simple random sampling)

• 체계적 표집(systematic sampling)

• 층화표집(stratification sampling)

• 다단계 집락표집(multi-stage cluster sampling)

• 균일확률 추출방법(EPSEM표본:Equal probability of Selection Method): 엡셈표본

• 크기비례 표집

• 체계적 표집

(11)

확률표집의 종류

– 단순무작위 표집(난수표)

• 모집단들 구성하는 단위들에 번호를 할당 한 후 난수표를 이용하여 선정하는 방식

• 논리적으로 확률표집에 가장 기본이 되는 기법이지만, 실 제에 있어 거의 사용되지 않음

• 방법

– 모집단의 표집틀을 선정한 – 구성원에게 번호 부여 – 난수표 이용하여 선정

• 난수표 이용방법(page 283 숙지 후) 연습문제 과제

(12)

• 체계적 표집 (systematic sampling)

– 표집들로부터 매 k번째 구성원을 체계적으로 추출하는 방식

• 이 방법은 단수무작위 표집보다 더 실용적이고,

• 몇 가지 예외를 제외하고는 체계적 표집은 단순무작위 표집과 기능적으 로 동등하다.

– 매 K 번째의 산출

• 표집간격(sampling interval): 모집단에서 표본에 선출될 요소들의 표준 거리

– 표집간격 = 모집단 크기/포본의 크기

– 예) 모집단 이 10,000 이고 요구되는 표본의 크기가 100이면, 매 100번째 구성원을 선출

• 표집비(sampling ratio): 모집단 요소들이 표본에 추출될 비율 – 표집비 = 표본크기 / 모집단 크기

– 문제점

• 표집틀에 주기성(periodicity)이 있을 경우 바이어스(bias)의 문제가 발 생할 소지가 있음. --- 주기성이 발견되면 다순무작위 표본을 취한다.

– 아파트에서 추출하기…

• 이러한 문제점을 최소화하기 위해 처음 시작을 표집간격 내에서 무작위 로 시작

(13)

• 층화표집 (stratification)

– 모집단을 구성하고 있는 단위들을 동질성 있는 하위집단들 (또는 층)로 집단화한 후 각 하위집단에서 적절한 수의 요소 들을 추출하는 방식

– 단순무작위표집 vs 층화표집

• 단순무작위표집: 일정 정도의 대표성을 보장하면서 존재하고 있는 오차를 추정 가능케 함

• 층화표집: 표집오차를 가능한 한 감소시킴으로써 보다 향상된 수준의 대표성을 획득하는 방식

– 표집오차의 감소 요인

• 큰 표본은 작은 표본보다 작은 표집오차를 산출한다.

• 동질적인 모집단은 이질적인 모집단보다 작은 표집오차를 가진 표본들을 생산한다. --- 층화의 원리

(14)

– 층화변수의 선택

• 층화변수의 선택의 기준은 유용성에 따르고, 충화변수들 의 적절한 대표성을 확신할 수 있어야 한다.

– Tip : 시장 세분화에 대해서 생각해 보라..

• 층화의 방법

– 모집단 상대적 구성비를 이용 표본의 구성비를

– 일정한 기준에 따라 나열한 후 체계적 방법을 사용하여 이 절차는 단순무작위 표집, 체계적표집, 집락표집과 연계해 서 사용할 수 있으며, 최소한 층화변수 하에서 표본의 대표 성을 향상시킨다.

(15)

다단계 집락표집

• 집락표집(cluster sampling)

– 모집단의 목록(표본 프레임)이 없는 경우, 먼저 요소들의 집 단 즉 집락(cluster)을 추출한 다음 그 추출된 집락들 각각에 서 요소들을 추출하는 방식

• 예, 미국 내의 교인들 대상 설문조사 , 도시에서의

– 집락표집의 조건

• 목표 모집단의 구성요소들을 총망라한 목록을 수집하기가 현실 적으로 불가능 하고,

• 하지만 모집단 요소들은 하위모집단들로 집단화되어 있고, 그 리고 하위집단의 목록은 존재하고 있거나 만들 수 있는 경우

– 다단계 집락표집방법 : 목록화와 표집을 반복수행

• 예, 전체 학교 명부(목록화)에서 표본을 추출(표집)하고, 다시 추출된 학교에서 학생들의 명부(목록화)를 구한 다음 각 학교에 서 표본을 추출(표집)

(16)

• 다단계 설계와 표집오차

– 집락표집은 매우 효율적이지만, 그 효율성의 대가는 부정확한 표본 – 모집단 목록에서 추출된 단순무작위 표본은 하나의 표집오차에 종

속되지만, 두 단계 집락표집은 두 개의 표집오차에 종속된다

• 첫째, 일차로 뽑은 집락들의 표본은 단지 어떤 범위의 표집오차 내에서 만 집락들의 모집단을 대표한다.

• 둘째, 주어진 집락 내에서 추출된 요소들의 표본은 단지 어떤 범위의 표 집오차 내에서만 그 집락의 모든 요소들을 대표한다.

– 표집오차의 감소

• 표집오차는 표본의 크기와 표본에 추출된 요소들의 동질성이 증가함에 따라 감소

• 표본의 수가 제한되었을 경우, 모집단의 동질성에 영향을 받음

• 각 집락 내에서 추출되는 요소들의 수는 줄이는 반면 추출할 집락의 수 를 최대화

(17)

• 크기비례 확률표집

– 크기비례 확률(Probability Proportionate to Size, PPS) – 집락들이 동일한 확률이 아니라 집락들의 크기에 비례하는

확률로 추출되는 다단계 집락표집 형태

• 중요포인트: 각 집락에서 추출되는 표본의 수는 고정시킴

• 불비례표집과 가중치 부여

– 가중치 부여

• 서로 다른 확률로 표본에 추출된 사례들에 서로 다른 가중치를 배정하는 것

• 가장 간단한 시나리오에서 각 사례는 그것이 추출될 확률의 역 수와 동일한 가중치를 부여 받음

• 모든 사례들이 동일한 추출확률을 가질 때는 가중치가 필요하 지 않음.