1. 중심화 경향 척도 2. 分散度의 計算

(1)

3. 수치에 의한 기술적 척도

1. 중심화 경향 척도 2. 分散度의 計算

3. 상대적 위치의 척도

(2)

1. 중심화 경향 척도

중심 경향치

• 관측 값들의 위치를 나타내는 통계량

• 자료의 특징이나 전체적 경향(tendency)을 나타내는 통계량 예) 산술평균, 중앙치, 최빈치

대 표 값

•

분포의 중심위치를 나타내는 측정치

0 2 4.3

(3)

최빈치(Mode)

최빈치

• 빈도수가 가장 많은 관측치

• 변수 중 가장 많이 나타난 값 ex) 1 1 1 3 3

3 3 4 5 6

mode=3

(4)

표본 산술평균(arithmetic mean)

∑ =

+ =

⋅⋅

⋅ + +

= + ⁿ

i

n X

n n

X X

X X X

1 3

2 1 1

∑ =

+ =

⋅⋅

⋅ + +

+

⋅⋅

⋅ + +

= + ⁿ

j

j j K

K

K f Y

n f

f f

f

Y f

Y f Y

f Y

Y f

3 1 2

1 3 3 2

2 1

1 1

도수분포와 평균

Y

_i

: 계급 i 의 계급값

f

_i

: 계급 i 의 도수

(5)

모집단 평균

∑ =

+ =

⋅⋅

⋅ + +

= + ^N

t

i

N X

N N

X X

1 3

2 1 1

∑ =

+ =

⋅⋅

⋅ + +

+

⋅⋅

⋅ + +

= + ^N

j

j j K

K

K f Y

N f

f f

f

Y f

Y f Y

f Y

f

3 1 2

1 3 3 2

2 1

1 1

µ

도수분포와 평균

Y

_i

: 계급 i 의 계급값

f

_i

: 계급 i 의 도수

(6)

Ex) 경영학과 학생 10명의 산술평균

3.6 3.9 4.1 2.1 2.2

0.7 1.5 2.7 2.9 2.5 ₂_.₆₂

10

5 . 2 9 . 2 7 . 2 5 . 1 7 . 0 2 . 2 1 . 2 1 . 4 9 . 3 6 . 3

=

+ +

= + X

계 급 계급도수

0~1미만 1

1~2미만 1

2~3미만 5

3~4미만 2

4~4.5 1

계 10

575 . 2

10 1 25 . 4 2 5 . 3 5 5 . 2 1 5 . 1 1 5 . 0

=

× +

= ×

Y

(7)

중앙값(Median)

변수를 크기 순으로 늘어놓았을 때 전변수를 둘로 이등 분하는 중앙값

중앙에 위치한 관측치

• 특이치(outlier)의 영향을 산술평균보다 덜 받음 예) 31, 33, 36, 36, 37, 38, 39, 41, 44, 47

예) 31, 33, 36, 36, 37, 38, 39, 41, 44, 47, 100 n(홀수) ⇒ (n+1)/2 번째 값

n(짝수) ⇒ (n/2), (n/2)+1 번째 값의 평균

(8)

Ex) 중앙값(Median)

(1) 1.5 2.5 2.6 2.9 3.3:

Median = 2.6 ← (n+1)/2 = 3 (2) 1.5 2.5 2.6 2.9 3.3 3.4:

(n/2) = 3, (n/2)+1 = 4

3번째 ⇒ 2.6, 4번째 ⇒ 2.9

Median = 2.75

(9)

보간법

Ex) 경영학과 학생 21명의 성적 중앙값

측정치(X) 빈도( fi ) ^누적빈도

1~5 3 3

6~10 5 8

11~15 6 14

16~20 5 19

21~25 2 21

계 21 21

중앙값 n+1 /2=(21+1)/2=11 11은 11~15 등급에 포함 등급: 10.5-15.5

등급구간: 5

보간법으로 계산 5 : x = 6 : 3

x = 15/6 = 2.5 10.5 + 2.5 = 13

0.5 10.5 25.5

8명 3명

중앙값

(10)

중심경향치의 선택

• 자료의 분포를 살펴보아야 한다.

- 좌우대칭인가?

- 특이치가 있는가?

• 좌우대칭을 크게 벗어나지 않고 특이치가 없는 경우에는 산술평균을 사용하는 것이 바람직.

• 도수분포함수가 비대칭이고 최빈치가 하나만 있는 경우 (unimodal)

• 산술평균은 더 안정적: 모집단에서 추출한 여러 표본에서 산술평균들은 중앙값보다 더 비슷.

• 산술평균은 계산과 정의가 쉽고 모든 관측치를 다 고려

(11)

중심경향치 선택 시 고려사항

• 주어진 자료가 왼쪽 또는 오른쪽으로 편향된 분포형태를

취할 때에는 단순히 산술평균만을 그 대표치로 삼아서는 곤란

• 자료에 극단적인 값이 있는 경우, 산술평균치를 그 대표치로 선택해서는 곤란하다. 극단치의 영향을 줄이려면 중앙치나 최빈치를 사용

• 산술평균은 산포도나 상관도 등의 통계처리에 사용될 수 있지만 중앙치나 최빈치는 대개 대표치로서의 기능만으로 끝나게 되는 경우가 많다. 따라서 주어진 자료에서 대표치 이외의 통계적 정보를 얻고자 하는 경우에는 산술평균를 선택하는 것이 바람직하다고 볼 수 있다.

(12)

2. 分散度의 計算

 분산도 (산포도)

• 관측치들이 서로 얼마나 밀집해 있는가를 알기 위한 통계량

• 주어진 자료의 특성을 완전히 이해하려면, 관측치들이 서 로

얼마나 밀집 또는 분산되어 있는가를 알아야 한다.

• 통계적 분석이 필요한 이유는 자료의 변동성.

- 변동이 없다면 통계적 분석을 거치지 않고도 자명한 결론을 얻을 수 있다.

• 산포도(variability, dispersion, spread) 측정하는 대표적 통계 량

(13)

분 산 도

변수가 어떤 범위에 어느 정도 분포되어 있는지, 또 대표값 주위에 얼마나 가까이 분포되어 있는지 를 나타내는 측도

1. 범위(range): 최대값과 최소값의 차 즉, 변수의 변화범위

X X

X n X

i n

i

−

=

−

= ∑

=1

2. 평균편차 1

편 차

(14)

분산과 표준편차

분산: 확률변수 X

₁

, X

₂

,

^…

, X

_n

의 평균값을 X라 할 때 평균에 대한 편차의 제곱합을 더하여 얻은 값을 (n-1) 로 나눈 값

∑

=

− −

=

−

− −

=

n

i

i n

i

X n X

s

X n X

s

1

2 2 1

2

) 1 (

1 ) 1 (

1 표준편차

(15)

모집단 분산과 편차

- 확률변수 X

₁

, X

₂

,

^…

, X

_N

의 평균값을 µ라 할 때 평균 에 대한 편차의 제곱합을 더하여 얻은 값을 N로 나 눈 값

∑

=

−

=

−

=

N

i

i N

i

N X N X

1

2 2 1

) 1 (

µ µ

σ

²

(16)

분산과 표준편차

X n X

n

i

=

∑

= 1

. 1

] ) (

1 [ 1

) 1 (

. 1 2

2 1

2

2 1

2

X n

n X

X n X

s

n

i

i n

i

− −

=

− −

=

∑

=

(17)

Ex) 분산

(1) 0.5 1.0 1.5 2.0 2.5

0.5 1.5 2.5

625 .

0

4 ) 5 . 1 5

. 2 ( )

5 . 1 0

. 1 ( )

5 . 1 5

. 0 (

) 1 (

1

2 2

2

2 1

=

− +

+

− +

= −

− −

= ∑

=

L X

n X s

n

i

(18)

Ex) 분산

(2) 1.4 1.5 1.5 1.5 1.6

0. 1.5 2.5

4 ) 5 . 1 6

. 1 ( )

5 . 1 5

. 1 ( )

5 . 1 4

. 1 (

) 1 (

1

2 2

2

2 1

2 2

=

− +

+

− +

= −

− −

= ∑

=

L X

n X s

n

i

(19)

변동의 척도

변동계수(coefficient of variation)

 편도(왜도, skewness)

• 비대칭정도를 측정

• 대칭일 때 편도 =0

 첨도(kurtosis)

• 뾰족한 정도

• 분포도가 얼마나 중심에 집중되어 있는가를

• 측정하기 위한 개념

• 정규분포의 첨도= 3

X

CV = s

(20)

3. 상대적 위치의 척도

관측치들이 평균에서 어느 정도 떨어져 분포하고 있는지에 관한 이론

• 전체자료 중 최소한 (1- 1/h²) ×100% 의 관측치들은 평균으로

부터

h ×(표준편차)

이내에 위치한다.

(여기서 h는 1보다 큰 임의의 값이다.) 즉,

• 체비세프의 정리는 분포함수의 종류에 관계없이 항상 성립한다.

) 1 (

1 1

]

|

Pr[|

₂

⎟ >

⎠

⎜ ⎞

⎝ ⎛ −

>

<

− h

hs h X

X

(21)

체비세프의 정리

(1) h=1.5일때:

총 관측치들 중 최소한 55.5%에 해당하는 관측치들이 [평균 – 1.5×표준편차]와 [평균 + 1.5×표준편차] 사이에 위치한다.

(2) h=2 일때:

최소한 총자료의 75%가 (평균-2 표준편차)와 (평균+ 2 표준편차) 이내에 위치하게 된다.

(3) h=3 일때:

최소한 총자료의 88.8%가 [평균-3 표준편차 ] 와 [평균 +3 표준편차] 이내에 위치하게 된다.

(22)

경험규칙(empirical rule)

정규분포 (normal distribution) 적용

• µ ± 1σ : 68%

• µ ± 2σ : 95%

• µ ± 3σ : 99%

X

(23)

기준화(normalization)

표준정규분포(standardized normal distribution)

• 기준화(표준화: normalization): µ = 0, σ = 1

• 기준치

^Z ⁼ ^X _σ⁻ ^µ ^~ ^N ⁽ ⁰ ^,¹ ⁾

0 + 1

-1 + 2

- 2 + 3

- 3

z

1. 중심화 경향 척도 2. 分散度의 計算

3. 수치에 의한 기술적 척도