기초통계분석
Chapter 3
자료의 기술 (description)
자료의 중심 경향 (central tendency)
자료의 가변성 (variability)
수업개요
• 질적 변수를 기술할 때 각 관찰값의 빈도 (frequency)를 보여주는 것이 기본
• 범주들 간의 빈도를 비교하기 위해 각 범주의 비율 혹은 퍼센티지(%)도 같이 보여줌
– 비율 또는 퍼센티지: 상대 빈도 (relative frequency)
• 질적 변수를 표(table)가 아닌 도표로 기술할 때 에는 보통 막대 도표(bar graph)를 사용한다
질적 변수의 기술
질적 변수의 기술: 예
청소년패널데이터(KYPS) 1 차년도 자료
질적 변수의 기술: 도표
양적 변수의 경우 그 관찰 값이 보통 많기 때 문에 표를 이용한 기술이 도움이 안 된다
평균(mean)과 분산(variance)을 이용한다
양적 변수는 히스토그램(histogram)을 써서 도표로 보여줄 수 있다
히스토그램의 각 막대의 간격을 조정함
양적 변수의 기술
양적 변수의 기술: 예
지난 1년동안 술을 마신 횟수
양적 변수의 기술: 도표
히스토그램(histogram)
• 평균(mean)
– 한 양적 변수의 관찰 값의 합을 관찰 값의 숫자로 나눈 것
• 중간값(median)
– 한 양적 변수의 정 중앙에 위치한 관찰 값
– 관찰값들의 총 수가 홀수일 경우: 정중앙에 위치한 하나의 관찰값
– 관찰값들의 총 수가 짝수일 경우: 가운데 위치란 두 개의 관찰 값들 의 중간값
• 최빈값(mode)
– 가장 빈도가 높은 관찰 값
중심경향(Central Tendency)
8명의 학생들의 중간고사 성적
72, 81, 81, 81, 82, 84, 89, 89
평균(mean):
중간값(median):
최빈값(mode):
간단한 예
실제 자료의 예
청소년패널데이터(KYPS) 2차년도
SPSS 결과
평균
양적 변수 (순서형 척도 변수 혹은 등간 척도 변 수)에서만 의미 있다
가외치(outlier)에 민감하게 반응한다
중간값
양적 변수 (순서형 척도 변수 혹은 등간 척도 변 수)에서만 의미 있다
가외치(outlier)에 민감하지 않다
평균 혹은 중간값?
평균, 중간값, 비대칭도(skewness)
변수의 분포(distribution), 즉 퍼진 정도를 알아보는 것
범위(range): 최소 관찰값과 최대 관찰값 간의 차이
편차(deviation): 각 관찰값의 평균과의 차이
분산(variance): 편차를 제곱한 것의 평균
표준편차(standard deviation): 분산에 루트를 씌운 값
자료의 가변성(variability)
8명의 학생들의 중간고사 성적
72, 81, 81, 81, 82, 84, 89, 89
평균(mean):
분산(variance):
표준편차(standard deviation):
간단한 예
• 두 이산형 변수 간의 관계를 기술하기 위해 서는 분할표(contingency table)를 사용
• 하나의 이산형 변수와 하나의 연속형 변수 간의 관계를 기술하기 위해서는 평균값 비 교(mean comparison)를 이용
• 두 연속형 변수 간의 관계를 기술하기 위해 서는 산점도(scatterplot)를 사용
두 변수 간의 관계 기술
분할표의 예
청소년패널데이터(KYPS) 1 차년도
두 변수간에 독립변수와 종속변수의 구분이 명확하면, 독립변수로 열(column)을 채우고 종 속변수로 행(row)을 채운다
항상 독립변수의 상대빈도(보통 퍼센티지)를 구한다
분할표를 읽을 때 항상 종속변수의 한 값을 놓 고 그 값에 해당하는 독립변수의 행들을 비교 한다
분할표 그릴 때 유의할 점
평균값 비교의 예
집단별 평균분석: 1차년도 자료
컴퓨터 이용시간
산점도 그리기 변수1
친한 친구의 수
산점도 그리기 변수2
산점도
• 기술 통계의 목적은 자료가 갖고 있는 정보 를 왜곡하지 않고 단순한 형태로 요약 정리 하는 것이다
• 추론 통계의 목적은 자료에 근거해서 모집 단의 속성을 파악하는 것이다
• 따라서 기술 통계에만 근거해서 모집단의 속성을 말하는 것은 잘못된 것이다
기술통계, 추론통계
• 이 수업에서 다룬 평균( )과 표준편차(s)는 표본통계량(sample statistic)이다
• 이것을 바탕으로 추론 통계를 이용하여 모집단의 평균(μ)과 표준편차(σ)를 추정한 다
• 추론 통계를 이해하기 위해서는 확률에 대 한 이해가 필수
추론 통계로 가는 길
청소년패널데이터를 사용하여 다음의 작업을 수행
질적변수의 기술
양적변수의 기술
순서형 척도 변수의 평균, 중간값, 최빈값 구하기
순서형 척도 변수의 범위, 분산, 표준편차 구하기
두 변수 간의 관계 기술
분할표
평균비교