• 검색 결과가 없습니다.

기초통계분석 Chapter 2

N/A
N/A
Protected

Academic year: 2022

Share "기초통계분석 Chapter 2"

Copied!
22
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

기초통계분석

Chapter 2

(2)

통계방법이란?

표본추출(sampling)

변수(variable)의 측정(measurement)

수업개요

(3)

자료를 구축하고 분석하는 일련의 방법

디자인(design): 어떻게 자료를 얻을 것인가?

기술(description): 어떻게 자료를 요약할 것인 가?

추론(inference): 자료를 기반으로 어떤 예측이 가능한가?

통계학이란?

(4)

모집단(population)

연구대상전부

표본(sample)

자료에 담겨있는 모집단의 일부분

청소년 패널데이터(KYPS)

모집단: 대한민국청소년 모두

표본: 3,449명의 한국청소년

양질의 추론을 위해서는 대표성이 있는 표본 (representative sample)이 필요

Probability vs. nonprobability

모집단과 표본

(5)

기술통계(descriptive statistics)

자료(표본)의 정보를 요약함

통계량(statistic): 숫자로 표현한 자료(표본)의 요약

추론통계(inferential statistics)

자료(표본)의 정보에 기반하여 모집단의 속성 을 예측(추론)함

모수(parameter): 숫자로 표현한 모집단의 요약

기술통계와 추론통계

(6)

기술통계의 예

한국청소년패널데이터(KYPS) 1 차년도

Level 0: No offenses committed.

Level 1: Limited involvement to minor offenses such as smoking, drinking, having unexcused absences, running away from home, and having sex.

Level 2: Moderate offenses, such as collectively bullying, fighting, teasing or bantering, and threatening other people.

Level 3: Serious offenses such as severely beating other people, robbing, stealing, and sexual assaulting or sexual harassing.

(7)

변수(variable)

표본 혹은 모집단 안의 개체 또는 관찰값들이 갖는(서로 다 른 값을 취하는) 속성

양적변수와 질적변수

양적변수(quantitative variable): 변수의 값이 숫자로 표현됨

Ex) 나이, 연봉, 흡연횟수, 음주횟수

질적변수(qualitative variable): 변수의 값이 범주로 표현됨

Ex) 종교(개신교, 천주교, 불교), 학점(A, B, C, D, F), 흡연행위 여부 (yes, no)

보통 자료에서 질적 변수의 각 범주는 숫자로 표현된다

Ex) 흡연행위여부(yes=1, no=0)

변수와 변수의 측정

(8)

명목척도(nominal)

변수의 값이 뚜렷한 순서가 없는 범주의 나열

Ex) 종교(불교, 천주교, 개신교, 무교)

순서척도(ordinal)

변수값들 간에 쉽게 이해 가능한 순서(상하관계)가 존재

Ex) 사회지위(상류층, 중산층, 하류층)

등간척도(interval)

변수값들 간에 순서가 있고 각 값들 간의 간격이 일정하며 임의 영 점(arbitrary zero point)을 가진다

사회 내 다양한 상황과 맥락 속에서 들어나는 정도의 흐름을 임의 로 기준점을 정한 후 그 기준점보다 높다 낮다의 방향을 설정

Ex) 나이, 임금, 온도, 시험점수(영어)

비율척도(ratio): 물리적 성질

등간척도의 요건을 모두 가지면서 절대 영점(absolute zero point) 을 가진다

Ex) 키, 몸무게, 부피

측정 척도에 따른 변수의 구분

(9)

표본의 크기 = n

단순임의 추출(simple random sampling)

모집단을 구성하는 각 개체들이 표본에 포함될 가능성이 동일함

한국의 한 성인이 표본에 포함될 확률=1/한국의 전 체성인남녀인구

확률표본추출(probabilistic sampling)의 한 방법

표본추출

(10)

표본추출의 가변성(sampling variability)

표본1: 현정부 국정운영 지지율 51%

표본2: 현정부 국정운영 지지율 54%

표본추출오차(sampling error)

표본을 이용해서 모집단의 모수를 추정할 때 발생 하는 통계적 오차

단순임의 추출 방법을 사용하면 표본추출오차의 정도를 대략 짐작할 수 있다 (예, 표본의 크기

=1,000→오차의 한계 margin of error ±3%)

표본→ parameter (추정치+error)

표본추출의 가변성과 오차

(11)

단순임의추출에서 표본추출편향(sampling bias)은 특정집단이 미포함(undercoverage) 될 때 생긴다

설문조사

현정부의 국정운영 지지율을 조사하기 위해 1,000명 으로 구성된 표본을 만듬

직접방문을 통해 면접을 시행

나중에 확인해보니 강원도에서 면접한 사람 숫자가 0으로 나타남(강원도의 폭설로 조사자가 갈수 없었 던 상황)

이 표본은 강원도 사람들의 의견이 반영되지 않음

표본추출의 편향

(12)

비확률표본추출(nonprobabilistic sampling)에 근거한 사회조사는 보통 대답하고 싶은 사람 이 자발적으로 질의에 응답하고 그것을 자료 로 사용하는 경우

표본추출이 확률표본추출방법을 사용하지 않 을 때 표본추출편향은 커진다

비확률표본추출의 경우 표본추출오차를 알 수 도 없다

Error가 커짐: 정확하게 계산할 수 없지만 미포함 (undercoverage)이 많기 때문에 커질 것 이라 추정

비확률표본추출에 근거한 자료는 보통 신뢰할 수 없다

비확률표본추출

(13)

응답편향(response bias)

응답자가 거짓말을 할 경우

응답자가 질문을 잘 이해하지 못하고 엉뚱한 대답을 하는 경우

비응답편향(nonresponse bias)

응답자가 특정 질문에 대답하기 거부하는 경우 (그 비율이 지나치게 높거나, 질문의 성격상 특 정 사회집단에 속한 응답자들이 다른 사회집단 에 속한 응답자들보다 대답하길 거부하는 비율 이 높을 때 문제가 됨)

다른 종류의 편향

(14)

보통 사회조사에서 단순임의 추출은 잘 쓰 이지 않는다! 왜?

패널데이터(penal data)

층화된 다단계 군집표본추출(stratified multi-stage cluster sampling)

모집단에서 군집을 구성

추출된 군집의 수를 결정하고 단순임의 추출법 으로 표본군집을 추출

표본군집내의 일부 조사단위만을 추출하여 조

한국청소년패널데이터 (KYPS)

(15)

정확한 사회조사를 위해서는 응답률을 높 이는 것도 매우 중요

설문에 응한 사람과 응하지 않은 사람간에 통계적으로 유의미한 근본적인 차이가 있 을 가능성이 높기 때문

응답률

(16)

모든 사회조사는 표본을 어떤 방식으로 추출 했는지 명확하게 기술해야 한다

표본에서 대표성(representativeness)이 있는가?

인구조사 census에 근거해서 판단

모든 사회조사는 전체 응답률(response rates) 이 어느 정도 되는지 명확하게 기술해야 한다

기술 통계에 근거해서 결과를 추론해서는 안 된다

모집단에 대해 무엇인가를 말하려면 꼭 통계기법 을 사용하여 결과로부터 추론해야 한다

사회조사의 신뢰도

(17)

http://www.seoul.co.kr/news/newsView.php?id=201 00518011015

경찰청”수사권 조정관련 설 문조사(2010.3.30~2010.4.5)

경찰청 고객만족 모니터 센 터 주관

찬성률이 높을수록 설문을 의뢰한 경찰청해당 부서의 성과평가에 높은 점수부과 (서울신문, 2010)

믿기 어려운 사회조사의 예

(18)

1차 자료(primary data): 최선의 방법은 구체 적인 연구질문과 연구디자인을 설계한 연 구자가 직접 자료를 만드는 것

2차 자료(secondary data): 차선의 방법은 다 른 사람들이 만든 자료를 가져다가 쓰는 것

자료를 만든 사람(들)은 자료 구축 후 일정 정도 시간이 지나 자료를 공개함

자료 구하기

(19)

자료를 구하면 제일 먼저 해야 할 일이 코드 북(codebook)과 설문지를 보는 것

코드북에는 그 자료가 담고 있는 변수와 각 변수의 값들이 일목요연하게 정리가 되어 있다

자료읽기

(20)

SPSS(변수보기)

(21)

SPSS(데이터보기)

(22)

청소년패널데이터 내려 받기

코드북 읽는 법

자료를 SPSS를 사용하여 열어보기

실습

참조

관련 문서

A반을 나타내는 그래프가 B반을 나타내는 그래프보 다 오른쪽으로 치우쳐 있으므로 A반 학생들이 B반 학생들보다 도서관 이용

미지수 x, y가 분모에 있으므로

약국은 당초 수집 목적과 합리적으로 관련된 범위에서 정보주체에게 불이익이 발생하는지 여부, 암호화 등 안전성 확보에 필요한 조치를 하였는지 여부 등을

(Taekwondo, Weight Lifting Players) (90 min × 6 days/week) Warming

[r]

Chapter 3 identifies phonological conditions of each phonological phenomenon and analyses correlations between social variables such as style of speech, age,

회원국의 영토밖에서 다른 회원국의 , 영토내에서 회원국의 서비스 소비자에게

[r]