제2장
자료의 측정 제2장
자료의 측정
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 대표값이란 용어 이외에 자료의 중심값 또는 중심위치의 척도 (measure of central location)라고도 함.
§ 예 : 평균(mean=산술평균; arithmetic mean), 절사평균(trimmed mean), 가중평균(weighted mean), 기하평균(geometric mean), 조화평균(harmonic mean), 중앙값(중위수; median), 최빈값(최 빈수; mode) 등
산포도 (measure of dispersion)
§ 자료에서 관측값들이 얼마만큼 퍼져있는가를 측정하는 척도로 변동성의 척도(measure of variability)라고도 함.
§ 예 : 범위(range), 분산(variance), 표준편차(standard deviation), 사분위편차(interquartile range), 변동계수(coefficient of
variation) 등
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ (산술)평균(mean; arithmetic mean; average)
• 균형점(자료의 중심)
• 모든 관측값의 크기(정보)를 반영
• 이상값(outlier)의 영향을 받음.
• 예: 79, 82, 86, 80, 84, 75, 78, 100, 77 : 82.3
0, 82, 86, 80, 84, 75, 78, 100, 77 : 73.6
n
X X
X X
X n
nn
i i
+ +
= +
= å
=
2
L
1 1
1
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ (산술)평균(mean; arithmetic mean; average)
• Excel에서 산술평균을 구하려면 우선 평균값을 기재하고자 하는 셀을 지정하고, 함수마법사에서 범주는 ‘통계’로 설정 하고 함수명 ‘AVERAGE’를 선택하고 확인 버튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ (산술)평균(mean; arithmetic mean; average)
• 함수인수 AVERAGE 창에서 ‘Number1’에 평균을 구하고자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ (a%)절사평균(trimmed mean : trimmean)
• 자료 중에서 큰 관측값이나 작은 관측값을 각각 α%만큼 버 린 나머지 관측값들로부터 구한 평균
• 일정비율만큼 이상값을 포함시키지 않고 구한 평균
• 예:
0, 75, 77, 78, 80, 82, 84, 85, 86, 100
: 74.775, 77, 78, 80, 82, 84, 85, 86 : 80.88 (→ 10% 절사평균)
n
X X
X X
X n
nn
i i
+ +
= +
= å
=
2
L
1 1
1
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ (a%)절사평균(trimmed mean : trimmean)
• 우선 절사평균값을 기재하고자 하는 셀을 지정하고, 함수마 법사에서 범주는 ‘통계’로 설정하고 함수명 ‘TRIMMEAN’을 선택하고 확인 버튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ (a%)절사평균(trimmed mean : trimmean)
• 함수인수 TRIMMEAN 창에서 ‘Array’에는 전체 데이터의 영 역에서 α%를 제외하고 평균을 구하고자 하는 영역을 지정 하고 ‘Percent’에는 데이터의 양끝에서 제외시킬 비율, 예를 들어 좌우 10%인 경우 0.2를 기재한 후 확인 버튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 가중평균(weighted mean)
• 관측값 하나하나의 중요도가 모두 같지 않은 경우에 사용되 는 평균
• 가중평균을 사용할 때 상대적 중요도를 반영하는 값을 가중 치(weight)라고 함.
• 자료의 관측값 X1, X2, ∙∙∙, Xn의 가중치를 각각 w1, w2, ∙∙∙, wn 이라 할 때 가중평균은 다음과 같음.
å å
=
=
=+ +
+ +
= +
ni i n
i
i i
n
n n
w X w w
w
X w X
w X
W w
1 1 1
2 2 1 1
L
L
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 기하평균(geometric mean : geomean)
• 기하평균은 비율(ratios)로 이루어진 데이터의 평균으로 적 절함.
• 물가지수 등과 같이 증가 또는 감소의 평균변화값을 구하는 경우에 사용
• 일반적으로 변동률, 상승률, 증가율 등의 평균을 구하는 경 우에 사용(예 : 경제성장률, 물가상승률, 인구증가율 등)
n
X
nX X
G =
1×
2× L ×
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 기하평균(geometric mean : geomean)
• 우선 평균값을 기재하고자 하는 셀을 지정하고, 함수마법사 에서 범주는 ‘통계’로 설정하고 함수명 ‘GEOMEAN’을 선택 하고 확인 버튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 기하평균(geometric mean : geomean)
• 함수인수 GEOMEAN 창에서 ‘Number1’에 평균을 구하고 자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 조화평균(harmonic mean : harmean)
• 측정치에 대한 단위당 대표값을 구하는 경우에 사용
• 예를 들어 동일거리를 반복 주행할 때의 평균속도 및 평균 시간 계산에 사용
• 조화평균의 역수는 각 측정값의 역수들의 산술평균과 같음.
X
nX X
H n
1 1
1
2 1
+ + +
=
L
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 조화평균(harmonic mean : harmean)
• 우선 평균값을 기재하고자 하는 셀을 지정하고, 함수마법사 에서 범주는 ‘통계’로 설정하고 함수명 ‘HARMEAN’을 선택 하고 확인 버튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 조화평균(harmonic mean : harmean)
• 함수인수 HARMEAN 창에서 ‘Number1’에 평균을 구하고 자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 도수분포표를 이용한 평균(average)의 계산
• 도수분포표는 자료가 계급구간으로 나누어져 있으므로 계 급구간의 자료값들을 하나하나 파악하지 못함.
• 이러한 경우 다음과 같이 평균을 구해야 함.
• 계급구간별 (계급)중앙값을 구함.
• (계급)중앙값과 도수를 곱한 후 그 값을 모두 합함.
• 이렇게 구해진 값을 전체 도수로 나누면 평균을 구할 수 있음.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 도수분포표를 이용한 평균(average)의 계산
• 도수분포표의 평균을 구하는 경우, 서로 다른 두 값을 대응 하여 곱한 후 합할 수 있는 ‘SUMPRODUCT’라는 함수가 있 음(함수마법사→범주선택 : 모두→SUMPRODUCT).
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 도수분포표를 이용한 평균(average)의 계산
• 함수인수 SUMPRODUCT 창에서 ‘Array1’에는 계급중앙값 영역을, 그리고 ‘Array2’에는 도수 영역을 지정하고 확인 버 튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 도수분포표를 이용한 평균(average)의 계산
• 이제 SUMPRODUCT에 의하여 구한 총합계를 자료수인 총 도수로 나누어주면 평균값을 구할 수 있음.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 중앙값(=중위수; median)
• 우선 중앙값을 기재하고자 하는 셀을 지정하고, 함수마법사 에서 범주는 ‘통계’로 설정하고 함수명 ‘MEDIAN’을 선택하 고 확인 버튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 중앙값(=중위수; median)
• 함수인수 MEDIAN 창에서 ‘Number1’에 중앙값을 구하고자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 최빈값(=최빈수; mode)
• 데이터 중에서 가장 많이 출현하는 관측값
• 존재하지 않을 수도 있으며, 1개 이상 존재할 수도 있음.
• 예 : 2, 0, 3, 1, 2, 4, 2, 5, 4, 0, 1, 4 : 2, 4
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 최빈값(=최빈수; mode)
• 우선 최빈값을 기재하고자 하는 셀을 지정하고, 함수마법사 에서 범주는 ‘통계’로 설정하고 함수명 ‘MODE’를 선택하고 확인 버튼을 누름.
제2장 자료의 측정
중심경향치 (measure of central tendency)
§ 최빈값(=최빈수; mode)
• 함수인수 MODE 창에서 ‘Number1’에 최빈값을 구하고자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.
제2장 자료의 측정
산포도 (measure of dispersion)
§ 다음 A, B, C 데이터들의 평균과 중앙값은 모두 같음.
• 데이터 A : 7, 7, 7, 7, 7 : 7 / 7
• 데이터 B : 5, 6, 7, 8, 9 : 7 / 7
• 데이터 C : 1, 4, 7, 10, 13 : 7 / 7
§ 이와 같이 자료를 숫자로 요약∙정리하는 데이터의 대표값만으 로 충분하지 않음.
§ 따라서 데이터에서 관측값들이 얼마만큼 퍼져있는가를 측정하 는 척도인 산포도를 고려해야 함.
§ 산포도는 데이터에서 관측값들이 변화하는 크기인 변동량을 나 타내는 계수임.
제2장 자료의 측정
산포도 (measure of dispersion)
§ 범위(range)
• 데이터의 관측값 중 가장 큰 값인 최대값(max)과 가장 작은 값인 최소값(min)과의 차이
범위(range)=최대값(max)-최소값(min)
• 오직 데이터들 중 두 관측값만 이용함.
• 관측값 하나하나의 크기가 반영되지 못함.
• 이상값에 의해 크게 영향 받음.
• 데이터 A : 3, 4, 5, 6, 8, 9, 10, 12, 15 (range=15-3=12)
• 데이터 B : 3, 7, 7, 7, 8, 8, 8, 9, 15 (range=15-3=12)
제2장 자료의 측정
산포도 (measure of dispersion)
§ 범위(range)
• 범위(range)=최대값(max)-최소값(min)
제2장 자료의 측정
산포도 (measure of dispersion)
§ 사분위수(quartile)
• 데이터를 크기순으로 나열할 경우 데이터가 4등분되는 위 치의 관측값을 말함.
• 제1사분위수(Q1)
데이터의 25%에 해당하는 수, 하위 50%의 중앙값
• 제2사분위수(Q2)
데이터의 50%에 해당하는 수, 중앙값
• 제3사분위수(Q3)
데이터의 75%에 해당하는 수, 상위 50%의 중앙값
0% 25% 50% 75% 100%
Q1 Q2 Q3
제2장 자료의 측정
산포도 (measure of dispersion)
§ 사분위수(quartile)
• 함수마법사에서 범주는 통계로 설정하고 함수명 ‘QUARTILE’
을 클릭하고 확인 버튼을 누름.
제2장 자료의 측정
산포도 (measure of dispersion)
§ 사분위수(quartile)
• 함수인수 QUARTILE 창에서 ‘Array’는 전체 데이터를 지정 하고, ‘Quart ’에는 구하고자 하는 사분위수를 적어 넣고 확인 버튼을 누름.
제2장 자료의 측정
산포도 (measure of dispersion)
§ 사분위편차(=사분위수범위; interquartile range : IQR)
• 사분위편차(IQR)=제3사분위수(Q3)-제1사분위수(Q1)
• 상위 25%와 하위 25%를 뺀 나머지의 범위
제2장 자료의 측정
산포도 (measure of dispersion)
§ 분산(variance)
• 산포도를 정확하게 측정하기 위해서는 하나하나의 관측값 들의 크기가 반영되어야 바람직함.
• 여기서 N개의 원소로 구성된 모집단으로부터 데이터의 관 측값 X1, X2, ∙∙∙, XN에서 각 관측값 Xi들이 평균 μ에서 떨어 진 크기(=편차 : deviation)인 Xi-μ를 직접 더하면 항상 0이 됨.
• 따라서 편차인 Xi-μ를 직접 더하지 않고 제곱을 하고 더한 후 평균을 구한 값을 산포도로 사용하는 것이 적당함.
• 이 값을 분산(variance)이라 함.
å å
= == -
=
-
Ni i N
i
i
X N
X
1 1
0 )
( m m
제2장 자료의 측정
산포도 (measure of dispersion)
§ 분산(variance)
• 모분산(population variance)
• X1, X2, ∙∙∙, XN이 모집단으로부터 전수조사를 하여 얻은 관측값인 경우 모집단의 분산 σ2은 다음과 같이 정의됨.
• 표본분산(sample variance)
• X1, X2, ∙∙∙, Xn이 표본으로부터 얻은 관측값인 경우 표본 의 분산 S2은 다음과 같이 정의됨.
å
=-
=
Ni
X
iN
12
2
1 ( m )
s
å
=-
= -
ni
i
X
n X S
1
2
2
( )
1
1
제2장 자료의 측정
산포도 (measure of dispersion)
§ 분산(variance)
• 앞에서 살펴본 바와 같이 모분산과 표본분산은 공식에서 서 로 차이가 있음.
• 즉, 모분산은 N으로 나누는 반면, 표본분산은 n-1로 나누어 줌.
• 따라서 Excel에서도 분산과 표준편차를 구하는 경우 다음 과 같은 Excel 함수를 사용함.
모집단(population) 표본(sample)
분산(variance) VARP VAR
표준편차(S.D.) STDEVP STDEV
제2장 자료의 측정
산포도 (measure of dispersion)
§ 분산(variance)
• 함수마법사에서 범주는 통계로 설정하고 함수명 ‘VARP’(모 분산)를 클릭하고 확인 버튼을 누름.
제2장 자료의 측정
산포도 (measure of dispersion)
§ 분산(variance)
• 함수인수 VARP 창에서 ‘Number1’에 분산을 구하고자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.
제2장 자료의 측정
산포도 (measure of dispersion)
§ 표준편차(standard deviation)
• 모분산이나 표본분산은 관측값들의 편차를 제곱하여 계산 하므로 모분산이나 표본분산의 측정단위는 관측값들의 측 정단위와 일치하지 않음.
• 따라서 관측값의 측정단위와 일치시키기 위하여 분산의 양 의 제곱근(square root)을 사용하는데, 이를 표준편차
(standard deviation : S.D.)라고 함.
• 모집단의 모표준편차 :
• 표본의 표본표준편차 :
• 관측값들이 데이터의 중심인 평균으로부터 얼마나 밀집되 어 있는가의 척도, 즉 평균과 관측값 차이들의 평균
• 이상값에 민감함.
s
2s = S
2S =
제2장 자료의 측정
산포도 (measure of dispersion)
§ 표준편차(standard deviation)
• 함수인수 STDEVP 창에서 ‘Number1’에 표준편차를 구하고 자 하는 전체 데이터의 영역을 지정한 후 확인 버튼을 누름.
제2장 자료의 측정
산포도 (measure of dispersion)
§ 표준편차(standard deviation)
• 표준편차는 Excel의 함수마법사에서 ‘STDEVP’(모분산)를 이용 또는 분산의 제곱근(square root)을 이용, 즉 ‘SQRT(분산)’
제2장 자료의 측정
산포도 (measure of dispersion)
§ 분산과 표준편차
• 통계학 시험성적에 대한 두 반의 분산과 표준편차
제2장 자료의 측정
산포도 (measure of dispersion)
§ 변동계수(coefficient of variation : CV)
• 데이터 측정단위의 변화와 무관한 산포도
• 모변동계수 : , 표본변동계수 :
• 측정단위가 서로 다른 데이터들의 산포도를 비교하는데 사 용함.
• 예 : 기업 A 주식
평균 50,000원, 표준편차 10,000원 기업 B 주식
평균 12,000원, 표준편차 4,000원
기업 A 주식의 변동계수=(10,000/50,000)´100=20.0%
기업 B 주식의 변동계수=(4,000/12,000)´100=33.3%
%) (´ 100
m
s (´ 100 %)
X
S
제2장 자료의 측정
산포도 (measure of dispersion)
§ 변동계수(coefficient of variation : CV)
제2장 자료의 측정
비대칭도 (=왜도; skewness)
§ 분포가 중앙으로부터 좌우로 치우친 정도를 나타내는 척도
§ Sk가 0이면 대칭분포(정규분포), 양수(+)이면 오른쪽 긴 꼬리분 포(right-skewed), 음수(-)이면 왼쪽 긴 꼬리분포(left-skewed)
제2장 자료의 측정
첨도 (kurtosis)
§ 대칭인 분포에서 꼬리가 두터운 정도를 나타내는 척도로 분포 의 뾰족함 정도를 측정하는 척도임.
§ 3이면 정규분포, 3보다 크면 첨예분포, 3보다 작으면 평탄분포
제2장 자료의 측정
‘통계 데이터 분석’ 대화상자
§ ‘통계 데이터 분석’ 대화상자는 대화식으로 통계분석을 수행할 수 있는 도구임.
§ 이 대화상자를 이용하면 기술통계법, 난수생성, 분산분석, 회귀 분석 등 다양한 통계분석 결과를 얻을 수 있음.
§ ‘통계 데이터 분석’ 대화상자를 이용하기 위해서는 Excel의 풀- 다운 메뉴에서 ‘데이터-데이터 분석’ 메뉴를 선택해야 함.
§ 그러나 일반적인 환경설정에서는 풀-다운 메뉴에 나타나 있지 않음.
§ 따라서 다음의 과정을 거쳐 설정해야 함.
• 우선 Excel 창에서 Office 단추를 클릭
제2장 자료의 측정
‘통계 데이터 분석’ 대화상자
§ 풀-다운 메뉴에 나타내기 위해서는 다음의 과정을 거쳐 설정함.
• 우선 Excel 창에서 Office 단추를 클릭
제2장 자료의 측정
‘통계 데이터 분석’ 대화상자
• Excel 창에서 Office 단추를 클릭한 후 나타나는 창에서 하 단부의 Excel 옵션 클릭
제2장 자료의 측정
‘통계 데이터 분석’ 대화상자
• Excel 옵션 창에서 ‘추가기능’ 클릭
제2장 자료의 측정
‘통계 데이터 분석’ 대화상자
• Excel 옵션 창에서 하단부의 ‘이동’ 클릭
제2장 자료의 측정
‘통계 데이터 분석’ 대화상자
• 추가기능에서 ‘분석도구’에 체크한 후 확인 버튼을 누름.
제2장 자료의 측정
‘통계 데이터 분석’ 대화상자
• 추가기능인 완료되면 Excel 창의 ‘데이터’를 클릭하면 오른 쪽 상단에 ‘데이터 분석’ 메뉴가 나타남.
제2장 자료의 측정
통계 데이터 분석법을 이용한 방법
§ ‘통계 데이터 분석’ 대화상자에서의 통계분석 도구는 다음과 같 음.
제2장 자료의 측정
통계 데이터 분석법을 이용한 방법
§ 기술통계량을 구하는 방법
• ‘통계 데이터 분석’ 메뉴에서 ‘데이터 분석’을 선택하면 다음 과 같은 ‘통계 데이터 분석’ 대화상자가 나타남.
제2장 자료의 측정
통계 데이터 분석법을 이용한 방법
§ 기술통계량을 구하는 방법
• ‘통계 데이터 분석’의 분석 도구 중에서 기술 통계법을 선택 하고 확인 버튼을 누르면 다음과 같은 대화상자가 나타남.
제2장 자료의 측정
통계 데이터 분석법을 이용한 방법
§ 기술통계량을 구하는 방법
• 데이터를 정리할 때 우선 ‘열’ 또는 ‘행’으로 반드시 정렬해 야 함.
• 입력범위에는 데이터 영역을 선택
• 만약 데이터 영역의 변수명을 삽입하고자 하면 첫째 행 이 름표 사용에 체크를 함.
• 출력 옵션에서 요약 통계량에 체크한 후 출력범위에서 요약 통계량을 나타낼 셀을 지정하고 확인 버튼을 누름.
제2장 자료의 측정
통계 데이터 분석법을 이용한 방법
§ 기술통계량을 구하는 방법
• 데이터들의 평균, 표준편차, 분산, 첨도, 왜도, 범위 등 요약 통계량에 대한 결과가 다음과 같이 나타남.