임의표본과 오류의 종류 제 5장
제8장 표본분포이론
• 추론통계의 주관심사는 모집단으로부터 추출 된 표본의 정보를 이용하여 미지의 모집단 특 성인 모수(parameter)를 추정하는 것이다. 표 본이 모집단의 연구에 사용된다면 표본이 모 집단을 잘 대표할 수 있도록 표본을 추출하여 야 한다.
• " 고기가 질기다는 것을 알기 위해 소 한 마 리를 모두 먹을 필요는 없다. "
1. 임의표본과 오류의 종류
• 아주 큰 모집단에 대한 연구를 수행하려고 할 때 표본을 이용하는 것이 바람직하다.
모집단 전체를 조사하는 것을 전수조사 (complete enumeration 또는 census)라 하는데 시간이나 경제적인 이유로 모집단 전체를 조사하는 것이 불가능할 수도 있다.
또한 태평양 전체 어족에 대한 조사와 같 은 전수조사는 불가능하다.
1) 표본추출 시 발생하는 오차
• 모집단으로부터 표본을 얻는 방법을 표본 추출(sampling)이라 한다. 표본값 또는 통 계량을 이용하여 모집단 모수들 추정할 때 두 종류의 오류 표본오차와 비표본 오차가 발생할 수 있다.
(1)표본오차
⇒ 표본오차(sampling error)는 모집단으로 부터 표본을 추출할 때 생기는 자연발생적 인 변동을 나타낸다. 즉 같은 크기의 두 개 의 표본을 주의해서 추출한다고 해도 동일 한 표본을 얻지 못할 것이다. 표본오차는 추론통계의 개념을 이해하는데 중요한 개 념이다.
(2) 비표본오차
⇒ 표본을 추출할 때 발생하는 오류 중 표본오차 가 아닌 것을 비표본오차(nonsampling errors) 라고 한다.
<예>
① 표본편의(sampling bias)는 비표본오차의 한 종류이다.
⇒ 표본편의는 모수를 크게 또는 작게 추정하는 것과 같이 표본추출방법에서 기인하는 오차를 의 미한다.
② 자료의 정확도나 처리과정에서 나타나는 오차 도 비표본오차에 속한다.
<note> 표본편의의 제거
⇒ 표본편의는 확률화(randomization)에 의 해 최소화하거나 없앨 수 있다.
→ 확률화란 모집단으로부터 편의되지 않는 표본을 추출하는 절차를 의미하며, 확률화 절차에 의해 추출된 표본을 확률표본
(random sample)이라 한다.
2) 표본추출의 종류
(1) 확률추출과 비확률 추출
⇒ 표본추출은 표본이 추출될 가능성이 동등 한가 그렇지 않은가에 따라 확률추출과 비 확률추출로 나누어진다.
(2) 복원 및 비복원추출
⇒ 추출된 표본을 되돌려 넣고 추출하는가 그렇지 않은가에 따라 복원추출과 비복원 추출로 구분된다.
2. 확률추출법과 비확률추출법
• 모집단으로부터 표본을 얻는 방법에는 확률 추출(probability sampling)과 비확률추출
(nonprobability sampling)이 있다.
• 모집단의 개체가 표본으로 추출될 가능성이 모두 동등하고 확실하게 전제된 조건하에서 객관적으로 표본을 추출하는 방법을 확률추 출 또는 임의추출(random sampling)이라고 한다. 이 때, 임의추출에 의하여 추출된 표본 을 임의표본(random sample) 또는 확률표본 (probability sample)이라 한다.
• 또한, 모집단으로부터 표본을 추출할 때 주관적으로 모집단을 대표한다고 생각되 는 표본을 추출하는 것을 비확률추출이라 하며, 비확률추출은 각 개체가 추출될 확 률을 알 수 없으므로 표본으로부터 모집단 에 대한 어떠한 결론을 내릴 때의 정확성 이나 신뢰수준을 측정할 수 없게 된다.
1) 확률추출법의 종류
확률추출에는
• 단순임의추출,
• 층화임의추출,
• 계통임의추출,
• 집락추출 등이 있다.
① 단순임의추출법
• N 인 모집단으로부터 크기 n인 표본을 추 출하는 방법의 수는 가지이다. 이들 개 의 표본이 추출되는 확률이 동등하도록 추 출하는 방법을
• 단순임의추출법(simple random sampling) 이라 한다.
② 층화임의추출법
• 모집단을 비슷한 성질을 갖는 것끼리 중복되 지 않는 층(stratum)으로 분류하고, 각 층으로 부터 임의로 표본을 추출하는 방법을 층화임 의추출법(stratified random sampling)이라 한다.
• 층화추출법은 추정의 정도를 높일 수 있으며, 층별 추정을 할 수 있다는 장점을 가지고 있 다. 또한, 각 층으로부터 표본을 어떻게 추출 하는가에 따라서 추출법이 별도로 정의된다.
층내의 관측값들의 변동은 층간의 변동보다 작아야 한다.
③ 계통임의추출법
• 크기 N인 모집단으로부터 크기 n인 표본을 추출한다고 하자. 이 때, N을 n으로 나눈 몫 을 , 나머지를 이라 하면 이다.
• 먼저 중에서 임의로 1개의 숫자를 뽑아서 그것을 라 하자. 이 를 임 의출발점(random starting point)이라 하고, 다음과 같이 에 순차로 를 더한 수에
에 해당하는 모집단의 단위를 표본으로 추출하 는 방법을 계통임의추출법(systematic random sampling)이라 한다.
• 다시 말해서 이 추출은 임의출발점을 정하 고, 그로부터 번째마다 표본을 뽑는 방법
으로, 이 때 를 추출간격(sampling interval) 이라 한다. 계통추출법은 대규모 조사에서 주로 사용되는 추출법이며, 단순임의추출 보다 추출 작업이 쉽고 경우에 따라서는
표본의 정도가 높기 때문에 실제 조사에서 널리 사용되는 추출법이다.
④ 집락추출법
• 단순임의추출법, 층화임의추출법, 계통임 의추출법은 조사단위 자체를 추출단위로 하는 추출법이지만, 집락추출법(cluster
sampling)은 조사단위 또는 집계단위를 모 은 집락(cluster)을 추출단위로 하는 추출 법이다. 집락추출에서 집락은 가능한 한 전체모집단을 대표할 수 있도록 만들어져 야 한다.
⑤ 확률비례추출법
• 확률비례추출법(probability proportionate sampling)은 집락을 추출단위로 하는 집락 추출에 있어서 집락의 크기가 매우 다른
경우에 집락의 크기에 비례하는 확률
(probability proportional to size)로서 집 락을 추출단위로 단순임의추출하여 집락 에 포함된 조사단위 전체로 표본을 설정하 는 방법이다.
• 이 방법은 추출된 집락의 조사단위를 모두 조사하는 것이다. 따라서, 모집단이 클 때 추출단위의 리스트를 작성하기가 어려운 경우 집락을 추출단위로 하면 추출작업이 편리하고, 조사비용 면에서도 집락추출이 단순임의추출보다 비용이 크게 절약된다 는 장점이 있다.
서울 부산
제주도
모집단
◆ 모집단을 층화
① 층내 → 동질
② 층간 → 이질
비율에 따라 표본추출
남학생 여학생 표본
<퀴즈>
1. 이항분포를 이용하여 푸는 문제를 정규근 사를 이용하여 풀면 어떤 장점이 있는가?
2. 확률추출법의 종류에 대해 이야기 하고, 장단점을 논하여라.
2. 확률추출법과 비확률추출법
• 2) 비확률추출법의 종류
• 비확률추출법에는 무계획적 추출법, 판단 추출법, 지원자 추출법, 제한적 추출법 눈 덩이 추출법, 할당추출법, 우연적인 추출법 등이 있다.
① 무계획적 추출법
• 대부분의 생물학적 연구에서 동물들을 기 르는 커다란 우리나 물고기를 기르는 저수 지에서 조사를 위해 견본을 선택하고자 할 때, 무계획적 추출법(haphazard sampling) 이 이용된다.
<예를 들어>
•
이 추출법은 생물학적인 조사를 위해 우리
안으로 직접 손을 넣어 견본을 잡거나, 그
물망을 이용하여 임의로 견본이 될 동물들
을 잡는 것이다. 이 방법을 이용하면 민첩
하지 않거나 허약한 동물들이 먼저 견본으
로 잡히게 되는 단점이 있다. 이런 상황에
의해 발생되는 편의는 자료의 최종분석에
문제가 된다.
② 판단추출법
• 전문가나 전문가들로 구성된 그룹이 모집 단을 대표할 수 있다고 판단하는 전형적인 단위를 표본으로 추출하는 방법을 판단추 출법(judgement sampling) 또는 의도적 추출법(purposive sampling)이라 한다.
<예를 들어>
• 어떤 조사기관에서는 대통령 선거결과를 예 측하기 위해 지금까지의 대통령 선거에서 의 례적으로 T시에서 압도적인 득표를 얻은 후 보자가 선거에서 당선되는 적이 많았다는 것 을 알고 T시에 거주하는 유권자들의 정치적 성향이 전국의 유권자들의 정치적 성향을 대 표할 수 있을 것이라고 판단하여 T시에 거주 하는 유권자들의 정치적 성향을 조사하기로 했다면 이는 판단추출법이 된다. 이 방법은
전문가들의 의견이 서로 일치하지 않을 경우, 조사에서 상당한 편의가 발생하게 된다.
③ 지원자 추출법
• 일반적으로 응답자들이 사람들로 구성된 무계획적 추출법의 특별한 경우로 특정한 모집단에서 자료를 얻기 위해 이용되는 지 원자추출법(volunteer sampling)이 있다.
<예를 들어>
•
많은 의학적 연구에서 연구자들은 윤리적
인 의료규칙을 준수해야 하기 때문에, 자
발적으로 지원하는 표본에 의해 연구가 실
시된다.
④ 제한적 추출법
• 추출 대상이 제한적이어서 자료를 얻는 것 이 다른 방법들보다 쉬운 방법을 제한적추 출법(restrictive sampling)이라 한다.
<예를 들어>
•
일반 대중들을 대상으로 하는 TV카메라 인 터뷰들은 제한적 표본이 된다. 이 경우에
카메라맨은 카메라를 특정위치에 설치하
고 인터뷰를 실시하거나 지나가는 보행인
을 필름에 담게 된다. 이런 방법은 심각한
편의를 갖는 표본이 추출될 수 있다는 단
점이 있으므로 주의해야 한다.
⑤ 눈덩이 추출법
• 표본을 선정할 수 있는 추출틀이 없거나 불완 전한 추출틀을 갖고 있는 경우에 처음에는 소 수의 조사대상자를 찾아내어 조사를 실시한 후에, 이들을 이용하여 이들이 알고 있는 다 른 조사대상자를 소개받아 명부에 포함시켜 이들을 조사하고, 또 다른 조사대상자를 찾기 위해 이들을 이용하여 필요한 표본크기가 채 워질 때까지 이러한 방법을 계속해서 수행해 가는 방법을 마치 작은 눈덩이를 굴려서 점점 큰 눈덩이를 만들어 가는 것 같다고 하여 눈 덩이추출법(snowball sampling)이라 한다.
• 눈덩이 추출법은 특정지역에 거주하는 특 수한 종교집단이나 맹인집단, 마약 복용자 를 연구할 경우에 주로 이용된다. 이 방법 을 이용할 경우 조사집단의 구성원들이 다 른 구성원들의 이름을 밝힘으로서 자신에 게 불이익이 초래되게 된다면 조사의 효율 성이 떨어지게 된다.
<예를 들어>
•
마약 복용자와 같은 경우는 만약 그가 다
른 사람의 이름을 밝혀 경찰에 노출되거나,
자신에게 가해지는 보복 때문에 다른 복용
자의 이름을 밝히려 하지 않을 것이다. 따
라서, 조사자는 조사의 수행단계에서 세심
한 주의를 기울여야 한다.
⑥ 할당추출법
• 모집단의 구조와 같은 구조가 되도록 미리 표본을 할당해 놓은 상태에서 표본을 추출 하는 방법을 할당추출법(quota sampling) 이라고 한다.
<예를 들어>
• 어떤 학교의 재학생 중에 60%가 남학생이고, 40%가 여학생이라고 가정하자. 이 경우에 단 순임의표본은 거의 정확하게 60%의 남학생 을 포함하지 못할 것이다. 그러나, 할당추출법 을 이용하면 얻을 수 있다. 표본에 정확하게 60%의 남학생이 포함될 때까지 표본을 얻게 된다면 이 표본은 할당표본(quota sample)이 된다. 이러한 할당추출법은 접근하기 쉬운 조 사 대상자들을 골라 표본으로 선정한다면 표 본의 대표성에 문제가 발생하게 된다.
⑦ 우연적 추출법
• 우연적 표본(accidental sample)은 사람들 을 조사자의 임의대로 활용할 수 있는 비 확률표본 중에 하나로, 조사자가 조사비용 을 줄이고 조사대상자를 쉽게 선정하려고 할 때 이용되며, 이와 같이 표본을 추출하 는 방법을 우연적 추출법(accidental
sampling) 또는 편의추출법(convenience sampling)이라고 한다.
<예를 들어>
• 어떤 조사기관에서 젊은 남녀들의 소비성향 에 대한 성향조사를 실시하려고 한다고 하자.
조사자는 조사비용을 줄이고, 조사대상자를 손쉽게 구하기 위해서 자신이 졸업한 대학의 학과교수에게 부탁하여 그 교수의 강의를 수 강하는 학생들을 대상으로 추출하여 성향조 사를 실시하기로 했다. 이런 경우 추출은 편 의추출이 된다.
• 편의추출의 한 형태로 쇼핑센터 앞을 지나가 는 쇼핑객을 대상으로 면접조사를 실시하는 보행자 조사(sidewalk survey)가 있다.