제2장자료의측정제2장자료의측정

(1)

제2장

자료의 측정 제2장

자료의 측정

(2)

제2장 자료의 측정

중심경향치 (measure of central tendency)

§ 대표값이란 용어 이외에 자료의 중심값 또는 중심위치의 척도 (measure of central location)라고도 함.

§ 예 : 평균(mean=산술평균; arithmetic mean), 절사평균(trimmed mean), 가중평균(weighted mean), 기하평균(geometric mean), 조화평균(harmonic mean), 중앙값(중위수; median), 최빈값(최 빈수; mode) 등

산포도 (measure of dispersion)

§ 자료에서 관측값들이 얼마만큼 퍼져있는가를 측정하는 척도로 변동성의 척도(measure of variability)라고도 함.

§ 예 : 범위(range), 분산(variance), 표준편차(standard deviation), 사분위편차(interquartile range), 변동계수(coefficient of

variation) 등

(3)

제2장 자료의 측정

중심경향치 (measure of central tendency)

§ (산술)평균(mean; arithmetic mean; average)

• 균형점(자료의 중심)

• 모든 관측값의 크기(정보)를 반영

• 이상값(outlier)의 영향을 받음.

• 예: 79, 82, 86, 80, 84, 75, 78, 100, 77 : 82.3

0, 82, 86, 80, 84, 75, 78, 100, 77 : 73.6

n

X X

X n

ⁿ

n

i i

+ +

= +

= å

=

2

L

1 1

1

(4)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• Excel에서 산술평균을 구하려면 우선 평균값을 기재하고자 하는 셀을 지정하고, 함수마법사에서 범주는 ‘통계’로 설정 하고 함수명 ‘AVERAGE’를 선택하고 확인 버튼을 누름.

(5)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 함수인수 AVERAGE 창에서 ‘Number1’에 평균을 구하고자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.

(6)

제2장 자료의 측정

중심경향치 (measure of central tendency)

§ (a%)절사평균(trimmed mean : trimmean)

• 자료 중에서 큰 관측값이나 작은 관측값을 각각 α%만큼 버 린 나머지 관측값들로부터 구한 평균

• 일정비율만큼 이상값을 포함시키지 않고 구한 평균

• 예:

0, 75, 77, 78, 80, 82, 84, 85, 86, 100

: 74.7

75, 77, 78, 80, 82, 84, 85, 86 : 80.88 (→ 10% 절사평균)

n

X X

X n

ⁿ

n

i i

+ +

= +

= å

=

2

L

1 1

1

(7)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 우선 절사평균값을 기재하고자 하는 셀을 지정하고, 함수마 법사에서 범주는 ‘통계’로 설정하고 함수명 ‘TRIMMEAN’을 선택하고 확인 버튼을 누름.

(8)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 함수인수 TRIMMEAN 창에서 ‘Array’에는 전체 데이터의 영 역에서 α%를 제외하고 평균을 구하고자 하는 영역을 지정 하고 ‘Percent’에는 데이터의 양끝에서 제외시킬 비율, 예를 들어 좌우 10%인 경우 0.2를 기재한 후 확인 버튼을 누름.

(9)

제2장 자료의 측정

중심경향치 (measure of central tendency)

§ 가중평균(weighted mean)

• 관측값 하나하나의 중요도가 모두 같지 않은 경우에 사용되 는 평균

• 가중평균을 사용할 때 상대적 중요도를 반영하는 값을 가중 치(weight)라고 함.

• 자료의 관측값 X₁, X₂, ∙∙∙, X_n의 가중치를 각각 w₁, w₂, ∙∙∙, w_n 이라 할 때 가중평균은 다음과 같음.

å å

=

+ +

= +

_n

i i n

i

i i

n

n n

w X w w

w

X w X

w X

W w

1 1 1

2 2 1 1

L

(10)

제2장 자료의 측정

중심경향치 (measure of central tendency)

§ 기하평균(geometric mean : geomean)

• 기하평균은 비율(ratios)로 이루어진 데이터의 평균으로 적 절함.

• 물가지수 등과 같이 증가 또는 감소의 평균변화값을 구하는 경우에 사용

• 일반적으로 변동률, 상승률, 증가율 등의 평균을 구하는 경 우에 사용(예 : 경제성장률, 물가상승률, 인구증가율 등)

n

X

n

X X

G =

₁

×

₂

× L ×

(11)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 우선 평균값을 기재하고자 하는 셀을 지정하고, 함수마법사 에서 범주는 ‘통계’로 설정하고 함수명 ‘GEOMEAN’을 선택 하고 확인 버튼을 누름.

(12)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 함수인수 GEOMEAN 창에서 ‘Number1’에 평균을 구하고 자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.

(13)

제2장 자료의 측정

중심경향치 (measure of central tendency)

§ 조화평균(harmonic mean : harmean)

• 측정치에 대한 단위당 대표값을 구하는 경우에 사용

• 예를 들어 동일거리를 반복 주행할 때의 평균속도 및 평균 시간 계산에 사용

• 조화평균의 역수는 각 측정값의 역수들의 산술평균과 같음.

X

n

X X

H n

1 1

1

2 1

+ + +

=

L

(14)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 우선 평균값을 기재하고자 하는 셀을 지정하고, 함수마법사 에서 범주는 ‘통계’로 설정하고 함수명 ‘HARMEAN’을 선택 하고 확인 버튼을 누름.

(15)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 함수인수 HARMEAN 창에서 ‘Number1’에 평균을 구하고 자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.

(16)

제2장 자료의 측정

중심경향치 (measure of central tendency)

§ 도수분포표를 이용한 평균(average)의 계산

• 도수분포표는 자료가 계급구간으로 나누어져 있으므로 계 급구간의 자료값들을 하나하나 파악하지 못함.

• 이러한 경우 다음과 같이 평균을 구해야 함.

• 계급구간별 (계급)중앙값을 구함.

• (계급)중앙값과 도수를 곱한 후 그 값을 모두 합함.

• 이렇게 구해진 값을 전체 도수로 나누면 평균을 구할 수 있음.

(17)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 도수분포표의 평균을 구하는 경우, 서로 다른 두 값을 대응 하여 곱한 후 합할 수 있는 ‘SUMPRODUCT’라는 함수가 있 음(함수마법사→범주선택 : 모두→SUMPRODUCT).

(18)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 함수인수 SUMPRODUCT 창에서 ‘Array1’에는 계급중앙값 영역을, 그리고 ‘Array2’에는 도수 영역을 지정하고 확인 버 튼을 누름.

(19)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 이제 SUMPRODUCT에 의하여 구한 총합계를 자료수인 총 도수로 나누어주면 평균값을 구할 수 있음.

(20)

제2장 자료의 측정

중심경향치 (measure of central tendency)

§ 중앙값(=중위수; median)

• 우선 중앙값을 기재하고자 하는 셀을 지정하고, 함수마법사 에서 범주는 ‘통계’로 설정하고 함수명 ‘MEDIAN’을 선택하 고 확인 버튼을 누름.

(21)

제2장 자료의 측정

중심경향치 (measure of central tendency)

§ 중앙값(=중위수; median)

• 함수인수 MEDIAN 창에서 ‘Number1’에 중앙값을 구하고자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.

(22)

제2장 자료의 측정

중심경향치 (measure of central tendency)

§ 최빈값(=최빈수; mode)

• 데이터 중에서 가장 많이 출현하는 관측값

• 존재하지 않을 수도 있으며, 1개 이상 존재할 수도 있음.

• 예 : 2, 0, 3, 1, 2, 4, 2, 5, 4, 0, 1, 4 : 2, 4

(23)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 우선 최빈값을 기재하고자 하는 셀을 지정하고, 함수마법사 에서 범주는 ‘통계’로 설정하고 함수명 ‘MODE’를 선택하고 확인 버튼을 누름.

(24)

제2장 자료의 측정

중심경향치 (measure of central tendency)

• 함수인수 MODE 창에서 ‘Number1’에 최빈값을 구하고자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.

(25)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 다음 A, B, C 데이터들의 평균과 중앙값은 모두 같음.

• 데이터 A : 7, 7, 7, 7, 7 : 7 / 7

• 데이터 B : 5, 6, 7, 8, 9 : 7 / 7

• 데이터 C : 1, 4, 7, 10, 13 : 7 / 7

§ 이와 같이 자료를 숫자로 요약∙정리하는 데이터의 대표값만으 로 충분하지 않음.

§ 따라서 데이터에서 관측값들이 얼마만큼 퍼져있는가를 측정하 는 척도인 산포도를 고려해야 함.

§ 산포도는 데이터에서 관측값들이 변화하는 크기인 변동량을 나 타내는 계수임.

(26)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 범위(range)

• 데이터의 관측값 중 가장 큰 값인 최대값(max)과 가장 작은 값인 최소값(min)과의 차이

범위(range)=최대값(max)-최소값(min)

• 오직 데이터들 중 두 관측값만 이용함.

• 관측값 하나하나의 크기가 반영되지 못함.

• 이상값에 의해 크게 영향 받음.

• 데이터 A : 3, 4, 5, 6, 8, 9, 10, 12, 15 (range=15-3=12)

• 데이터 B : 3, 7, 7, 7, 8, 8, 8, 9, 15 (range=15-3=12)

(27)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 범위(range)

• 범위(range)=최대값(max)-최소값(min)

(28)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 사분위수(quartile)

• 데이터를 크기순으로 나열할 경우 데이터가 4등분되는 위 치의 관측값을 말함.

• 제1사분위수(Q₁)

데이터의 25%에 해당하는 수, 하위 50%의 중앙값

• 제2사분위수(Q₂)

데이터의 50%에 해당하는 수, 중앙값

• 제3사분위수(Q₃)

데이터의 75%에 해당하는 수, 상위 50%의 중앙값

0% 25% 50% 75% 100%

Q₁ Q₂ Q₃

(29)

제2장 자료의 측정

산포도 (measure of dispersion)

• 함수마법사에서 범주는 통계로 설정하고 함수명 ‘QUARTILE’

을 클릭하고 확인 버튼을 누름.

(30)

제2장 자료의 측정

산포도 (measure of dispersion)

• 함수인수 QUARTILE 창에서 ‘Array’는 전체 데이터를 지정 하고, ‘Quart ’에는 구하고자 하는 사분위수를 적어 넣고 확인 버튼을 누름.

(31)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 사분위편차(=사분위수범위; interquartile range : IQR)

• 사분위편차(IQR)=제3사분위수(Q₃)-제1사분위수(Q₁)

• 상위 25%와 하위 25%를 뺀 나머지의 범위

(32)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 분산(variance)

• 산포도를 정확하게 측정하기 위해서는 하나하나의 관측값 들의 크기가 반영되어야 바람직함.

• 여기서 N개의 원소로 구성된 모집단으로부터 데이터의 관 측값 X₁, X₂, ∙∙∙, X_N에서 각 관측값 X_i들이 평균 μ에서 떨어 진 크기(=편차 : deviation)인 X_i-μ를 직접 더하면 항상 0이 됨.

• 따라서 편차인 X_i-μ를 직접 더하지 않고 제곱을 하고 더한 후 평균을 구한 값을 산포도로 사용하는 것이 적당함.

• 이 값을 분산(variance)이라 함.

å å

= =

= -

=

-

^N

i i N

i

X N

X

1 1

0 )

( m m

(33)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 분산(variance)

• 모분산(population variance)

• X₁, X₂, ∙∙∙, X_N이 모집단으로부터 전수조사를 하여 얻은 관측값인 경우 모집단의 분산 σ²은 다음과 같이 정의됨.

• 표본분산(sample variance)

• X₁, X₂, ∙∙∙, X_n이 표본으로부터 얻은 관측값인 경우 표본 의 분산 S²은 다음과 같이 정의됨.

å

=

-

=

^N

i

X

i

N

1

2

1 ( m )

s

å

₌

^-

= -

ⁿ

i

X

n X S

1

2

( )

1

(34)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 분산(variance)

• 앞에서 살펴본 바와 같이 모분산과 표본분산은 공식에서 서 로 차이가 있음.

• 즉, 모분산은 N으로 나누는 반면, 표본분산은 n-1로 나누어 줌.

• 따라서 Excel에서도 분산과 표준편차를 구하는 경우 다음 과 같은 Excel 함수를 사용함.

모집단(population) 표본(sample)

분산(variance) VARP VAR

표준편차(S.D.) STDEVP STDEV

(35)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 분산(variance)

• 함수마법사에서 범주는 통계로 설정하고 함수명 ‘VARP’(모 분산)를 클릭하고 확인 버튼을 누름.

(36)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 분산(variance)

• 함수인수 VARP 창에서 ‘Number1’에 분산을 구하고자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.

(37)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 표준편차(standard deviation)

• 모분산이나 표본분산은 관측값들의 편차를 제곱하여 계산 하므로 모분산이나 표본분산의 측정단위는 관측값들의 측 정단위와 일치하지 않음.

• 따라서 관측값의 측정단위와 일치시키기 위하여 분산의 양 의 제곱근(square root)을 사용하는데, 이를 표준편차

(standard deviation : S.D.)라고 함.

• 모집단의 모표준편차 :

• 표본의 표본표준편차 :

• 관측값들이 데이터의 중심인 평균으로부터 얼마나 밀집되 어 있는가의 척도, 즉 평균과 관측값 차이들의 평균

• 이상값에 민감함.

s

2

s = S

2

S =

(38)

제2장 자료의 측정

산포도 (measure of dispersion)

• 함수인수 STDEVP 창에서 ‘Number1’에 표준편차를 구하고 자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.

(39)

제2장 자료의 측정

산포도 (measure of dispersion)

• 표준편차는 Excel의 함수마법사에서 ‘STDEVP’(모분산)를 이용 또는 분산의 제곱근(square root)을 이용, 즉 ‘SQRT(분산)’

(40)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 분산과 표준편차

• 통계학 시험성적에 대한 두 반의 분산과 표준편차

(41)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 변동계수(coefficient of variation : CV)

• 데이터 측정단위의 변화와 무관한 산포도

• 모변동계수 : , 표본변동계수 :

• 측정단위가 서로 다른 데이터들의 산포도를 비교하는데 사 용함.

• 예 : 기업 A 주식

평균 50,000원, 표준편차 10,000원 기업 B 주식

평균 12,000원, 표준편차 4,000원

기업 A 주식의 변동계수=(10,000/50,000)´100=20.0%

기업 B 주식의 변동계수=(4,000/12,000)´100=33.3%

%) (´ 100

m

s (´ 100 %)

X

S

(42)

제2장 자료의 측정

산포도 (measure of dispersion)

§ 변동계수(coefficient of variation : CV)

(43)

제2장 자료의 측정

비대칭도 (=왜도; skewness)

§ 분포가 중앙으로부터 좌우로 치우친 정도를 나타내는 척도

§ S_k가 0이면 대칭분포(정규분포), 양수(+)이면 오른쪽 긴 꼬리분 포(right-skewed), 음수(-)이면 왼쪽 긴 꼬리분포(left-skewed)

(44)

제2장 자료의 측정

첨도 (kurtosis)

§ 대칭인 분포에서 꼬리가 두터운 정도를 나타내는 척도로 분포 의 뾰족함 정도를 측정하는 척도임.

§ 3이면 정규분포, 3보다 크면 첨예분포, 3보다 작으면 평탄분포

(45)

제2장 자료의 측정

‘통계 데이터 분석’ 대화상자

§ ‘통계 데이터 분석’ 대화상자는 대화식으로 통계분석을 수행할 수 있는 도구임.

§ 이 대화상자를 이용하면 기술통계법, 난수생성, 분산분석, 회귀 분석 등 다양한 통계분석 결과를 얻을 수 있음.

§ ‘통계 데이터 분석’ 대화상자를 이용하기 위해서는 Excel의 풀- 다운 메뉴에서 ‘데이터-데이터 분석’ 메뉴를 선택해야 함.

§ 그러나 일반적인 환경설정에서는 풀-다운 메뉴에 나타나 있지 않음.

§ 따라서 다음의 과정을 거쳐 설정해야 함.

• 우선 Excel 창에서 Office 단추를 클릭

(46)

제2장 자료의 측정

‘통계 데이터 분석’ 대화상자

§ 풀-다운 메뉴에 나타내기 위해서는 다음의 과정을 거쳐 설정함.

• 우선 Excel 창에서 Office 단추를 클릭

(47)

제2장 자료의 측정

‘통계 데이터 분석’ 대화상자

• Excel 창에서 Office 단추를 클릭한 후 나타나는 창에서 하 단부의 Excel 옵션 클릭

(48)

제2장 자료의 측정

‘통계 데이터 분석’ 대화상자

• Excel 옵션 창에서 ‘추가기능’ 클릭

(49)

제2장 자료의 측정

‘통계 데이터 분석’ 대화상자

• Excel 옵션 창에서 하단부의 ‘이동’ 클릭

(50)

제2장 자료의 측정

‘통계 데이터 분석’ 대화상자

• 추가기능에서 ‘분석도구’에 체크한 후 확인 버튼을 누름.

(51)

제2장 자료의 측정

‘통계 데이터 분석’ 대화상자

• 추가기능인 완료되면 Excel 창의 ‘데이터’를 클릭하면 오른 쪽 상단에 ‘데이터 분석’ 메뉴가 나타남.

(52)

제2장 자료의 측정

통계 데이터 분석법을 이용한 방법

§ ‘통계 데이터 분석’ 대화상자에서의 통계분석 도구는 다음과 같 음.

(53)

제2장 자료의 측정

통계 데이터 분석법을 이용한 방법

§ 기술통계량을 구하는 방법

• ‘통계 데이터 분석’ 메뉴에서 ‘데이터 분석’을 선택하면 다음 과 같은 ‘통계 데이터 분석’ 대화상자가 나타남.

(54)

제2장 자료의 측정

통계 데이터 분석법을 이용한 방법

• ‘통계 데이터 분석’의 분석 도구 중에서 기술 통계법을 선택 하고 확인 버튼을 누르면 다음과 같은 대화상자가 나타남.

(55)

제2장 자료의 측정

통계 데이터 분석법을 이용한 방법

• 데이터를 정리할 때 우선 ‘열’ 또는 ‘행’으로 반드시 정렬해 야 함.

• 입력범위에는 데이터 영역을 선택

• 만약 데이터 영역의 변수명을 삽입하고자 하면 첫째 행 이 름표 사용에 체크를 함.

• 출력 옵션에서 요약 통계량에 체크한 후 출력범위에서 요약 통계량을 나타낼 셀을 지정하고 확인 버튼을 누름.

(56)

제2장 자료의 측정

통계 데이터 분석법을 이용한 방법

• 데이터들의 평균, 표준편차, 분산, 첨도, 왜도, 범위 등 요약 통계량에 대한 결과가 다음과 같이 나타남.