• 검색 결과가 없습니다.

1. 중심화 경향 척도 2. 分散度의 計算

N/A
N/A
Protected

Academic year: 2022

Share "1. 중심화 경향 척도 2. 分散度의 計算"

Copied!
23
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

3. 수치에 의한 기술적 척도

1. 중심화 경향 척도 2. 分散度의 計算

3. 상대적 위치의 척도

(2)

1. 중심화 경향 척도

‰중심 경향치

• 관측 값들의 위치를 나타내는 통계량

• 자료의 특징이나 전체적 경향(tendency)을 나타내는 통계량 예) 산술평균, 중앙치, 최빈치

‰ 대 표 값

분포의 중심위치를 나타내는 측정치

0 2 4.3

(3)

최빈치(Mode)

‰ 최빈치

• 빈도수가 가장 많은 관측치

• 변수 중 가장 많이 나타난 값 ex) 1 1 1 3 3

3 3 4 5 6

mode=3

(4)

표본 산술평균(arithmetic mean)

∑ =

+ =

⋅⋅

⋅ + +

= + n

i

i

n X

n n

X X

X X X

1 3

2

1 1

∑ =

+ =

⋅⋅

⋅ + +

+

+

⋅⋅

⋅ + +

= + n

j

j j K

K

K f Y

n f

f f

f

Y f

Y f Y

f Y

Y f

3 1 2

1

3 3 2

2 1

1 1

‰도수분포와 평균

Y

i

: 계급 i 의 계급값

f

i

: 계급 i 의 도수

(5)

모집단 평균

∑ =

+ =

⋅⋅

⋅ + +

= + N

t

i

N X

N N

X X

X X

1 3

2

1 1

∑ =

+ =

⋅⋅

⋅ + +

+

+

⋅⋅

⋅ + +

= + N

j

j j K

K

K f Y

N f

f f

f

Y f

Y f Y

f Y

f

3 1 2

1

3 3 2

2 1

1 1

µ

µ

‰도수분포와 평균

Y

i

: 계급 i 의 계급값

f

i

: 계급 i 의 도수

(6)

Ex) 경영학과 학생 10명의 산술평균

3.6 3.9 4.1 2.1 2.2

0.7 1.5 2.7 2.9 2.5 2.62

10

5 . 2 9 . 2 7 . 2 5 . 1 7 . 0 2 . 2 1 . 2 1 . 4 9 . 3 6 . 3

=

+ +

+ +

+ +

+ +

= + X

계 급 계급도수

0~1미만 1

1~2미만 1

2~3미만 5

3~4미만 2

4~4.5 1

계 10

575 . 2

10

1 25 . 4 2 5 . 3 5 5 . 2 1 5 . 1 1 5 . 0

=

× +

× +

× +

× +

= ×

Y

(7)

중앙값(Median)

‰ 변수를 크기 순으로 늘어놓았을 때 전변수를 둘로 이등 분하는 중앙값

‰ 중앙에 위치한 관측치

• 특이치(outlier)의 영향을 산술평균보다 덜 받음 예) 31, 33, 36, 36, 37, 38, 39, 41, 44, 47

예) 31, 33, 36, 36, 37, 38, 39, 41, 44, 47, 100 n(홀수) ⇒ (n+1)/2 번째 값

n(짝수) ⇒ (n/2), (n/2)+1 번째 값의 평균

(8)

Ex) 중앙값(Median)

(1) 1.5 2.5 2.6 2.9 3.3:

Median = 2.6 ← (n+1)/2 = 3 (2) 1.5 2.5 2.6 2.9 3.3 3.4:

(n/2) = 3, (n/2)+1 = 4

3번째 ⇒ 2.6, 4번째 ⇒ 2.9

Median = 2.75

(9)

보간법

Ex) 경영학과 학생 21명의 성적 중앙값

측정치(X) 빈도( fi ) 누적빈도

1~5 3 3

6~10 5 8

11~15 6 14

16~20 5 19

21~25 2 21

계 21 21

중앙값 n+1 /2=(21+1)/2=11 11은 11~15 등급에 포함 등급: 10.5-15.5

등급구간: 5

보간법으로 계산 5 : x = 6 : 3

x = 15/6 = 2.5 10.5 + 2.5 = 13

0.5 10.5 25.5

8명 3명

중앙값

(10)

중심경향치의 선택

• 자료의 분포를 살펴보아야 한다.

- 좌우대칭인가?

- 특이치가 있는가?

• 좌우대칭을 크게 벗어나지 않고 특이치가 없는 경우에는 산술평균을 사용하는 것이 바람직.

• 도수분포함수가 비대칭이고 최빈치가 하나만 있는 경우 (unimodal)

• 산술평균은 더 안정적: 모집단에서 추출한 여러 표본에서 산술평균들은 중앙값보다 더 비슷.

• 산술평균은 계산과 정의가 쉽고 모든 관측치를 다 고려

(11)

중심경향치 선택 시 고려사항

• 주어진 자료가 왼쪽 또는 오른쪽으로 편향된 분포형태를

취할 때에는 단순히 산술평균만을 그 대표치로 삼아서는 곤란

• 자료에 극단적인 값이 있는 경우, 산술평균치를 그 대표치로 선택해서는 곤란하다. 극단치의 영향을 줄이려면 중앙치나 최빈치를 사용

• 산술평균은 산포도나 상관도 등의 통계처리에 사용될 수 있지만 중앙치나 최빈치는 대개 대표치로서의 기능만으로 끝나게 되는 경우가 많다. 따라서 주어진 자료에서 대표치 이외의 통계적 정보를 얻고자 하는 경우에는 산술평균를 선택하는 것이 바람직하다고 볼 수 있다.

(12)

2. 分散度의 計算

‰ 분산도 (산포도)

• 관측치들이 서로 얼마나 밀집해 있는가를 알기 위한 통계량

• 주어진 자료의 특성을 완전히 이해하려면, 관측치들이 서 로

얼마나 밀집 또는 분산되어 있는가를 알아야 한다.

• 통계적 분석이 필요한 이유는 자료의 변동성.

- 변동이 없다면 통계적 분석을 거치지 않고도 자명한 결론을 얻을 수 있다.

• 산포도(variability, dispersion, spread) 측정하는 대표적 통계 량

(13)

분 산 도

‰변수가 어떤 범위에 어느 정도 분포되어 있는지, 또 대표값 주위에 얼마나 가까이 분포되어 있는지 를 나타내는 측도

1. 범위(range): 최대값과 최소값의 차 즉, 변수의 변화범위

X X

X n X

i n

i

i

=

= ∑

=1

2. 평균편차 1

편 차

(14)

분산과 표준편차

‰분산: 확률변수 X

1

, X

2

,

, X

n

의 평균값을 X라 할 때 평균에 대한 편차의 제곱합을 더하여 얻은 값을 (n-1) 로 나눈 값

=

=

− −

=

− −

=

n

i

i n

i

i

X n X

s

X n X

s

1

2 2 1

2

) 1 (

1

) 1 (

1

표준편차

(15)

모집단 분산과 편차

- 확률변수 X

1

, X

2

,

, X

N

의 평균값을 µ라 할 때 평균 에 대한 편차의 제곱합을 더하여 얻은 값을 N로 나 눈 값

=

=

=

=

N

i

i N

i

i

N X N X

1

2 2 1

) 1 (

) 1 (

µ µ

σ

σ

2

(16)

분산과 표준편차

X n X

n

i

i

=

= 1

. 1

] ) (

1 [ 1

) 1 (

. 1 2

2 1

2

2 1

2

X n

n X

X n X

s

n

i

i n

i

i

− −

=

− −

=

=

=

(17)

Ex) 분산

(1) 0.5 1.0 1.5 2.0 2.5

0.5 1.5 2.5

625 .

0

4

) 5 . 1 5

. 2 ( )

5 . 1 0

. 1 ( )

5 . 1 5

. 0 (

) 1 (

1

2 2

2

2 1

2 1

=

− +

+

− +

= −

− −

= ∑

=

L X

n X s

n

i

i

(18)

Ex) 분산

(2) 1.4 1.5 1.5 1.5 1.6

0. 1.5 2.5

4

) 5 . 1 6

. 1 ( )

5 . 1 5

. 1 ( )

5 . 1 4

. 1 (

) 1 (

1

2 2

2

2 1

2 2

=

− +

+

− +

= −

− −

= ∑

=

L X

n X s

n

i

i

(19)

변동의 척도

‰ 변동계수(coefficient of variation)

‰ 편도(왜도, skewness)

• 비대칭정도를 측정

• 대칭일 때 편도 =0

‰ 첨도(kurtosis)

• 뾰족한 정도

• 분포도가 얼마나 중심에 집중되어 있는가를

• 측정하기 위한 개념

• 정규분포의 첨도= 3

X

CV = s

(20)

3. 상대적 위치의 척도

‰ 관측치들이 평균에서 어느 정도 떨어져 분포하고 있는지에 관한 이론

• 전체자료 중 최소한 (1- 1/h2) ×100% 의 관측치들은 평균으로

부터

h ×(표준편차)

이내에 위치한다.

(여기서 h는 1보다 큰 임의의 값이다.) 즉,

• 체비세프의 정리는 분포함수의 종류에 관계없이 항상 성립한다.

) 1 (

1 1

]

|

Pr[|

2

⎟ >

⎜ ⎞

⎝ ⎛ −

>

<

h

hs h X

X

(21)

체비세프의 정리

(1) h=1.5일때:

총 관측치들 중 최소한 55.5%에 해당하는 관측치들이 [평균 – 1.5×표준편차]와 [평균 + 1.5×표준편차] 사이에 위치한다.

(2) h=2 일때:

최소한 총자료의 75%가 (평균-2 표준편차)와 (평균+ 2 표준편차) 이내에 위치하게 된다.

(3) h=3 일때:

최소한 총자료의 88.8%가 [평균-3 표준편차 ] 와 [평균 +3 표준편차] 이내에 위치하게 된다.

(22)

경험규칙(empirical rule)

‰ 정규분포 (normal distribution) 적용

• µ ± 1σ : 68%

• µ ± 2σ : 95%

• µ ± 3σ : 99%

X

(23)

기준화(normalization)

‰ 표준정규분포(standardized normal distribution)

• 기준화(표준화: normalization): µ = 0, σ = 1

• 기준치

Z = X σ µ ~ N ( 0 ,1 )

0 + 1

-1 + 2

- 2 + 3

- 3

z

참조

관련 문서

– 많은 통계량 중에서 어느 것을 선택하여 모수를 추정하는 것이 바람직할 것인가 하는

 변수와 잠재적인 공통요인 사이의 관계를 나타내는 통계적 모형을 설정하여 변수들 간의 상호관계를 설명할 수 있는 관측되지 않은

약국은 당초 수집 목적과 합리적으로 관련된 범위에서 정보주체에게 불이익이 발생하는지 여부, 암호화 등 안전성 확보에 필요한 조치를 하였는지 여부 등을

2.성별에 따른 동적평형성인 직선보행 측정의 집단간비교에서 태권도 수련 실시 한 후 2차측정과 3차측정에서 남․녀집단에서 동적평형성이 높게 변화하여 통계적 으로

(Taekwondo, Weight Lifting Players) (90 min × 6 days/week) Warming

먼저 빛의 파장 중에서 매우 좁은 영역인 가시광선만을 볼 수 있으 며, 이것도 파장에 따른 빛의 정보를 모두 인식하는 것이 아니라 단지 빛의 세기와 빛 의 삼원색에

 모수가 포함되리라고 보는 범위(구간)를 실수할 확률을 가지고 제시함으로써 추정치에 대한 불확실성을 표현한다. 신뢰구간 추정치

자료의 원천 기술 통계 통계적