통계와
통계와 응용 응용(4 (4강 강))
담당교수 : 손창균
2. 통계학 개론
3.2.2 관찰로부터 자료생성
1) 사례연구와 조사
}
정보를 얻는 과정에 영향을 주려고 하지 않을 때 또는 정보를 얻 기를 원하는 과정에 영향을 줄 수 없을 때 관찰연구를 이용함.
}
관찰연구는 사례연구(case study)와 조사(survey)를 포함.
}
사례연구(case study)
§ 사례연구는 통상적으로 소규모 참여자그룹을 매우 집중적으로 관찰하는 것을 의미한다.
§ 연구의 한 방법으로서 사례연구는 매우 자세한 자료를 수집할 수 있다
2. 통계학 개론
3.2.2 관찰로부터 자료생성
1) 사례연구와 조사
}
조사 (survey)
§ 조사는 모집단에 관한 광범위한 모양을 나타내기 위해 고안되었다. 그래 서 조사는 보통 수많은 참여자를 활용한다.
§ 관찰자는 모든 모집단 단위들을 조사함으로써 모집단의 모든 원소들로부 터 정보를 얻을 수 있다. 이를 센서스라 한다.
§ 모집단에 관한 정보를 얻기 위해 어떤 방법으로 집단을 표본화 하는 것이 더 낫다.
2. 통계학 개론
3.2.2 관찰로부터 자료생성
2) 좋은 조사의 특징
§ 1단계: 조사의 목적을 정확하게 검토(자료수집방법의 검토)
§ 2단계: 조사의 초점이 되는 모집단을 규정
§ 3단계: 이용 가능한 자원을 확인(시간과 비용)
3) 조사대상 집단의 추출: 표본 추출
§
표집 과정의 일상적 사례
§ 여론조사 : 사회의 다양한 주제에 관해 여론조사를 실시(지지도 조사)
§ 시장조사 : 소비자의 선호도 파악을 위해 설계(TV 시청률 조사)
2. 통계학 개론
3.2.2 관찰로부터 자료생성
4) 표본 추출방법
§
확률 추출과 비확률 추출
§
확률 추출
①
단순임의 추출(SRS)
②
계통 표본추출
③
층화 임의 추출
④
집락 추출
2. 통계학 개론
3.2.2 관찰로부터 자료생성
v
단순임의 추출(SRS)
§
각각의 모든 단위들이 표본으로 선택될 동일한 확률을 가진다.
§
단순임의 추출의 장점
Ø 자원자를 제거하고,
Ø 모집단의 각 단위/원소들은 선택될 동일한 확률을 가지며,
Ø 표본이 확률적으로 추출되기 때문에 표본은 전체적으로 모집단과 유 사한 특성을 갖는 원소가 포함되도록 한다
.
§
단순임의 추출의 단점
Ø 단순임의 추출의 문제점중 하나는 모집단의 완전한 리스트, 즉 추출틀 이 확보되어야 한다는 것이다
2. 통계학 개론
3.2.2 관찰로부터 자료생성
v
계통표본추출
}
먼저 출발지점을 선택하고, 하나의 표본 숫자를 고정된 간격으로 선택하는 방법
}
표본추출방법의 예)
§ 크기가 6,000인 모집단으로부터 100개의 표본 을 선택하는 경우 1 부터 60까지의 난수 중에서 출발점으로 하나를 선택한 후 계획된 표본의 크기 가 100이 될 때까지 매 60번째 숫자를 뽑는다. 60번을 선택한 이유는 모 집단이 표본에 비해 60배가 크기 때문이다.
2. 통계학 개론
3.2.2 관찰로부터 자료생성
v
층화 임의 추출
}
표본의 대표성을 확보하기 위해서 표본을 - 동일한 규모의 층과 각 층에서 단위들의 비례하는 규모로 모집단과 유사하게 선택 하는 방법.
}
모든 단위들은 표본으로 선택될 확률은 동일한지 않지만, 선택확 률은 계산이 가능하다.
}
표본추출방법의 예)
§ 모집단을 성별로 구분하여 남녀별로 규모에 비례하도록 추출할 수 있다.
2. 통계학 개론
3.2.2 관찰로부터 자료생성
v
집락 추출
}
모집단을 (특별히 지역)집단으로 나눈 다음 일부 집단을 임의로 선택하며 선택된 지역에서 단순임의 추출을 하거나 모두 조사하 는 방법이다.
}
모든 단위들은 동일한 선택확률을 갖지 않지만, 선택확률을 계산 할 수 있다.
}
표본추출방법의 예)
§ 중학생의 학교내 폭력 실태를 조사하기 위해 전국 학교 중에서 일부를 선
2. 통계학 개론
3.2.2 관찰로부터 자료생성
}
알고 넘어가기
100,000부의 설문지를 발송하여 이 중 4.5%의 설문지가 회수되었다. 이 자 료의 제한점과 이유를 아래와 같이 제시된 요약된 문장의 빈칸을 주어진 적 절한 단어를 이용하여 완성하시오.
이와 같이 낮은 응답률의 주요한 제한 점은
_a_가
__b__을 대표하지 못한다는 것이다. 결과적으로수집된
__c__으로부터 모집단에 관한 결론을
표본 / 자료 /모집단
2. 통계학 개론
3.2.2 관찰로부터 자료생성
§
비확률 추출법
}
모든 단위들이 표본에 선택될 확률을 가지지 않으며, 과정은 확 률적 절차인 사전에 정해진 과정 대신에 일정부분 주관이 내포 된다. 이러한 방법은 통계적인 해법을 찾기 보다는 그 집단에 상 당한 친근함을 얻고자 하는 소규모 탐색연구에 유용하다.
§ 추출방법
§ 편의추출법/유의추출법/판단추출법/할당추출법/우연추출법/눈덩이 추출법
2. 통계학 개론
3.2.2 관찰로부터 자료생성
v
편의추출법
§
시간과 비용을 절약하기 위해 표본단위들이 이미 이용 가능하 거나 참여할 의사가 있는 단위들을 주로 표본으로 뽑는 것을 의미한다
.§
표본들은 모집단을 대표하지 못하기 때문에 표본을 기반으로
모집단에 관한 결론을 내리기가 어렵다
2. 통계학 개론
3.2.2 관찰로부터 자료생성
v
유의추출법
§
표본단위들을 의도적으로 선택하는 것으로서 모집단을 대표 하지 않는다.
v
판단추출법
§
연구자가 개체들이 모집단을 대표한다고 믿을 때 사용한다. 이
러한 표본의 대표성은 단지 연구자의 능력에 달려있다. 많은 사
업상의 결정들이 양적인 증거 없이 이 방법을 사용하는 관리자
들에 의해 이루어진다.
2. 통계학 개론
3.2.2 관찰로부터 자료생성
}
표본추출방법 연구하기
} 동국대 대학교의 자연대학생들 중 약 20%가 여학생이다. 자연대 학에서는 학교생활의 질에 관해 200명의 자연대학생들의 표본에 대해 조사를 계획하고 있다.
}
만일 위의 여론조사에서 남학생과 여학생의 의견을 분리하여 조 사하고자 한다면, 어떤 표본추출방법을 제안할 것인가?
a) 편의 표집
b) 단순임의 표집 c) 유의 표집
d) 위의 3가지 중 적절한 것을 이용
2. 통계학 개론
3.2.2 관찰로부터 자료생성
5) 표본의 활용
}
표본으로부터 통계값, 즉 표본을 관측치를 생성할 수 있다. 표본은 모집단에 관한 어떤 것을 알려준다.
}
표본의 평균 또는 표준편차와 같은 통계값은 모집단의 평균이나 표 준편차에 관한 추론이 가능하도록 한다.
전체모집단 표본일부
없는 것
2. 통계학 개론
3.2.2 관찰로부터 자료생성
6) 모집단에 대한 표본의 대표성
}
만일 조사를 실시한다면, 폭넓은 모집단에 대해 표본의 대표성에 영향을 줄 수 있는 조사방법에 대한 인식이 필요하다.
}
단순임의추출(SRS)을 이용할 때 유일한 하나의 표본 결과로 예측 할 수 없음을 가정하는데, 확률적임을 의미한다.
}
그러나 만일 많은 수의 표본을 선택한다면 어떤 양상을 관측할
수 있다.
2. 통계학 개론
3.2.2 관찰로부터 자료생성
7) 표본이 편향되지 않도록 하는 방법
}
표본의 편향은 조사 참여자 또는 단위 및 조사를 수행하는 사람들 간의 상호작용에 의해 발생할 수 있다.
}
조사과정에서 오차 발생의 가능한 원인들로는 다음과 같다.
§ 응답오차(예: 나이, 체중, 흡연량, 지난주 음주량 등);
§ 결측자료(예: 연구에서 개체에 대한 접촉이 불가능할 경우);
§ 질문의 구문에 따른 응답 효과;
§ 면접자에 따른 조사 참여자의 응답 효과
2. 통계학 개론
3.2.2 관찰로부터 자료생성
}
편향된 표본조사의 대표적 사례
미국의 시사주간지인 The Literary Digest 는 1936년 대통령 선거에서 천 만 개의 가구에 우편으로 여론조사를 실시하였다. 자동차 소유주 데이터베이스 와 전화가 있는 가구로부터 주소를 얻었다. 조사결과 Digest 사는 공화당 후 보인 알프레드 렌던 후보가 월등한 차이로 승리하는 것으로 예측하였다. 그 러나 결과는 민주당 후보인 프랭클린 루즈벨트가 압도적으로 승리하였다.
1930년대 차를 소유하거나 전화를 가진 사람들이 중상위 계층으로서 이와 같 은 사회계층이 사람들이 선호도에 투표하는데 영향을 주었는가?
실제로 그 당시 프랭클린 루즈벨트는 이러 한 특정 계층의 사람들에게 덜 알 려져 있었다. 매우 소수의 중상위 계급에 속한 사람들이 조사되었다. 그러므로 편향되게 조사되었다. 게다가 약 25%미만의 조사표가 회송되었다. 이러한 낮 은 응답률은 잘못된 예측을 하게 한다. 여론조사를 시작하는 사람들은 literary
2. 통계학 개론
3.2.2 관찰로부터 자료생성
8) 허용오차
§
표본을 추출할 때 모집단의 참값과 표본을 통한 추정치가 얼마나 근 접한지를 계산할 수 있으며, 이를 허용오차라 한다.
허용오차 = 1/표본크기의 제곱근 =
}
허용오차는 표본으로부터 얻은 백분율이나 비율, 즉 표본 통계량이 모비율이 모집단 백분율과 얼마나 차이가 있는가를 설명할 수 있다.
}
변동이 작아짐으로써 표본평균이 모평균과 더 밀접해 있다는 확신 을 가질 수 있다.
1 n
2. 통계학 개론
}