• 검색 결과가 없습니다.

수치적 방법

N/A
N/A
Protected

Academic year: 2022

Share "수치적 방법"

Copied!
29
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

제3장 기술통계학 Ⅱ:

수치적 방법

전광희 교수

jkh96@cnu.ac.kr

(2)

Contents

집중경향치

산포도

위치의 측정치

형태의 측정치

(3)

집중경향치

집중경향치(measure of central tendency) : 중심경향치, 대표치(대표값)

수집된 자료 전체를 대표할 수 있는 요약특성치이다.

평균 또는 산술평균(算術平均: arithmetic mean)

중앙치(中央値: median)

최빈치(最頻値: mode)

(4)

집중경향치

산술평균(mean, average)

모든 자료의 값들을 합(合)한 후 이를 자료의 수로 나누어 얻은 값

모평균

표본평균

한 집단의 경우 각 개별값이 똑같이 중요하다든지 또는 두 개 이상의 집단을 비교하는 경우 각 집단의 평균이 똑같이

(5)

집중경향치

가중평균(weighted mean)

예 : 3 - 2

과 목 학 점 점 수

A 4

A 4

B 3

C 2

D 1

.

평점 :

(6)

집중경향치

중앙치(median) : 중앙값, 중위수

자료를 크기 순서로 나열하였을 때 중간 위치에 해당하는 관찰치를 말한다.

서열자료와 양적 자료의 중심을 나타내는 집중경향치이다.

자료 가운데 어떤 수치가 변하더라도 중앙치는 크게 달라지지 않는다.

중앙치 구하는 절차

자료를 크기 순서로 나열한다.

자료의 수 n이 홀수일 때 : 번째 위치의 자료값

자료의 수 n이 짝수일 때 : 번째와 ( ) 번째 위치의 자료값 평균

예 : 3-3

자료의 수는 여섯 개로서 짝수이므로 세 번째와 네 번째의 수를 평균한다.

(7)

집중경향치

최빈치(mode) : 최빈값

질적 자료 또는 양적 자료 중에서 빈도수가 가장 많은 관찰치를 말한다.

도수가 모두 같은 자료의 경우 최빈치는 없다.

두 개의 최빈치를 갖는 경우: 쌍봉(雙峰)

세 개 이상의 최빈치를 갖는 경우: 다봉(多峰)

대표치의 선택

평균

양적 자료의 크기뿐만 아니라 도수까지 고려하여 모든 자료의 정보를 이용한다.

수학적 연산이 가능하다.

분산(分散)의 계산, 모수의 추정(推定), 가설검정(假說檢定) 등 통계분석의 대표적인 대표치이다.

(8)

집중경향치

대표치의 선택

중앙치와 최빈치

범주적 자료를 기술하는 데 널리 이용되지만 일부의 자료만 이용한다.

수학적 연산이 불가능하다.

최빈치는 양적 자료의 중심을 나타내지 못하기 때문에 경영문제에서 덜 사용된다.

중앙치

자료 속에 이상치(outlier)가 있는 경우 대표치로 사용된다.

자료의 분포가 비대칭인 경우 평균과 함께 대표치로 사용된다.

최빈치

명목자료와 서열자료에 대해서는 대표치로 사용된다.

기성복, 가구, 색상, 상용한자를 결정하고 취미를 조사할 때 사용된다.

(9)

집중경향치

산포도(measure of dispersion) : 분산도

자료들의 평균으로부터 흩어진 정도(degree of spread)를 측정한다.

산포도(散布度)가 작으면 자료들이 평균 주위에 모이기 때문에 평균을 신뢰할 수 있다.

자료의 특성을 이해하기 위해서는 중심경향치와 함께 산포도를 알아야 한다.

산포도 측정 특성치

범위(範圍, range)

분산(分散, variance)

표준편차(標準偏差, standard deviation)

변동계수(變動係數, coefficient of variation)

(10)

집중경향치

범위

자료에서 최대치(max)와 최소치(min)의 차이를 말한다.

두 관찰치만 가지고 계산하므로 두 값의 변화에 민감하다.

범위가 크면 산포도가 크다.

분산

분산과 표준편차는 평균과 함께 통계학에서 자주 사용되는 산포도의 대표적인 특성치이다.

자료의 각 관찰치와 평균의 차이를 편차(deviation)라고 하는데 이들 편차제곱을 평균하여 구한다.

모집단

표본

(11)

집중경향치

표본분산

모르는 모분산을 구할 때 추정치로 사용된다.

분모로 (n-1)을 사용하게 되면 표본분산은 모분산의 불편추정치(不偏推定値, unbiased estimate)가 된다.

(n-1)은 자유도(自由度, degree of freedom)라고 한다.

자유도란 특성치를 계산할 때 자료 가운데서 자유롭게 값을 취할 수 있는 관찰치의 수를 말한다.

분산은 각 자료가 그들의 평균 주위로 얼마나 집중되어 있는가를 측정한다.

분산의 값이 0에 가까우면 자료들이 평균 주위로 집중하고 0보다 크면 관찰치들이 평균으로부터 멀리 떨어져 있음을 의미한다.

(12)

집중경향치

표본분산

평균은 다르지만 분산이 같은 경우

(13)

집중경향치

표본분산

평균은 같지만 분산이 다른 경우

(14)

집중경향치

표준편차

분산은 각 자료에 대한 편차제곱으로 구하기 때문에 원자료의 단위보다 큰 단위로 표시하게 된다.

따라서 원자료의 단위와 같도록 분산의 제곱근을 구한다.

모집단 표준편차

표본표준편차

평균이나 다른 통계량과 동일한 단위로 비교할 수 있다.

(15)

집중경향치

분산과 표준편차

예 3-6

(16)

집중경향치

분산과 표준편차의 특성

자료가 흩어지면 흩어질수록 범위, 분산, 표준편차는 더욱 커진다.

자료가 평균 주위로 집중할수록 범위, 분산, 표준편차는 더욱 작아진다.

자료가 모두 동일하면 범위, 분산, 표준편차는 0이 된다.

범위, 분산, 표준편차는 음수일 수 없다.

(17)

집중경향치

변동계수

(coefficient of variation)

: 상대적 표준편차

평균을 고려한 변동의 상대적 수치를 말한다.

모집단

표본

예 3-7

(18)

위치의 측정치

상대적 위치(relative position)

다른 자료와 비교한 한 특정 자료의 상대적 위치를 측정한다.

위치의 측정치

중앙치

백분위수

사분위수

Z값

(19)

위치의 측정치

백분위수(percentile)

자료를 크기순으로 정렬하여 백등분하였을 때 각 등분점에 위치하는 자료를 말한다.

P 번째 백분위수로 나타낸다.

적어도 P%의 관찰치가 그보다 작거나 같고 (100-P)%가 큰 값을 갖는다.

P 번째 백분위수 구하는 절차

자료를 크기 순서로 정렬한다.

지수 i를 구한다.

i가 정수이면 i와 (i+1)의 위치에 있는 자료를 평균한다.

i가 정수가 아니면 이를 절상한 위치에 있는 자료이다.

(20)

위치의 측정치

백분위수

예 : 3-8

(21)

위치의 측정치

4분위수

1사분위수 : 25 번째 백분위수

2사분위수 : 50 번째 백분위수 : 중앙치

3사분위수 : 75 번째 백분위수

4분위수 범위(중간범위) : 3사분위수 – 1사분위수

예 3-9

(22)

위치의 측정치

Z값(Z value)

특정 관찰치가 평균의 위 아래로부터 몇 개의 표준편차만큼 떨어져 있는가를 나타내는 상대적 위치를 결정한다.

Z값이 크면 클수록 특정 관찰치가 평균으로부터 멀리 떨어짐을 의미한다.

Z값은 측정단위가 서로 다른 자료를 비교할 때 사용한다.

예 : 일한 시간에 비해 임금이 적다, 공부한 시간에 비해 성적이 좋다.

모집단 :

표본 :

(23)

위치의 측정치

Z값

예 3-10

공부시간은 평균보다 0.8표준편차만큼 많지만 성적은 평균보다 1 표준편차만큼 더 높기 때문에 강 양의 공부시간에 비해 성적은 더 좋다.

(24)

형태의 측정치

형태의 측정치

자료분포의 모양을 측정한다.

형태의 측정치

비대칭도

첨도(尖度, kurtosis)

비대칭도(skewness) : 왜도(歪度)

자료분포의 좌우대칭 정도를 측정한다.

자료분포의 모양에 따라 평균, 중앙치, 최빈치의 상대적 위치가 결정된다.

자료분포의 형태

좌우대칭

오른쪽 꼬리분포 (왼쪽으로 치우침)

왼쪽 꼬리분포 (오른쪽으로 치우침)

(25)

형태의 측정치

비대칭도

좌우대칭

(26)

형태의 측정치

비대칭도

오른쪽 꼬리분포 : 왼쪽으로 치우침

(27)

형태의 측정치

비대칭도

왼쪽 꼬리분포 : 오른쪽으로 치우침

(28)

형태의 측정치

비대칭도

비대칭도계수

분포의 형태

예 : 3-11

좌우대칭이다.

오른쪽 꼬리분포이다.

왼쪽 꼬리분포이다.

왼쪽 꼬리분포이다.

(29)

E N D

참조

관련 문서

이상에서 원에 내접하지

산포도는 변량들이 평균 주위에 흩어져 있는 정도를 하나의 수로 나타내는 값이므로 표준편차가 클수록 산포도는 커지고 자료가 평균을 중심으로 멀리 흩어져 있음을

26年度 1万円 39年度 3万円 45年度 5万円 49年度 10万円 63年度 20万円

Strong Positive Correlation Weak Positive Correlation. No Correlation

1) 연구의 주 목적이 표본에서 얻어짂 통계치로 모집단의 모 수치를 일반화하는데 있지 않고 계층갂의 상호비교인 경우 집단갂 비교를 위해서는 일정 비율 이상의 표본을 뽑아야

공장에서 기계가 멈추는 횟수가 정규분포를 따르고 표준편차가 1이었다. 반면에 기계 가 멈추는 전체 회수가 평균 5회라는 주장이 있다.. 반면 에 기계가 멈추는 전체

이 연구문제의 해결방법은 2가지 즉 하나는 모집단 모두를 측정하여 평균을 구하는 방법, 다른 하나는 모집단을 대표할 학생을 뽑아서 평균을 구한

– 도서관에 입수되는 자료의 주제분석과 상호 대차 요청에서 발생하는 자료의 주제 분석 간의 차이를 이용하여 장서의 장단점을 확인 하는 방법.. • 상호대차에 의해