상대도수상대도수

(1)

3 장

기술 통계 : 수치 척도 Part B

 분포 형태, 상대적 위치, 극단값

 탐색적 자료분석

 두 변수간의 관련성 측정

 가중평균과 그룹화 자료

(2)

분포 형태 , 상대적 위치, 극단값

분포 형태

 z-값

체비셰프의 원리

경험법칙

극단값 찾기

(3)

분포 형태 : 왜도(skewness)

 분포 형태를 측정하는 중요한 척도 중 하나를 ‘왜도‘

라고 한다.

 자료집합의 왜도를 구하는 계산식은 조금 복잡하다.

 통계프로그램을 사용하여 왜도를 쉽게 계산할 수 있다.

(4)

분포 형태 : 왜도

정대칭(한 쪽으로 치우치지 않음)

 왜도는 0이다.

 평균과 중앙값은 같다.

상대도수상대도수

.05 .05 .10 .10 .15 .15 .20 .20 .25 .25 .30 .30 .35 .35

00

비대칭도 = 0

(5)

분포 형태 : 왜도

■왼쪽으로 치우친 경우(왼쪽 꼬리분포)

왜도는 음(-)이다.

보통 평균은 중앙값 보다 작다.

.05 .05 .10 .10 .15 .15 .20 .20 .25 .25 .30 .30 .35 .35

00

왜도 =  .31

(6)

분포 형대 : 왜도

■오른쪽으로 치우친 경우(오른쪽 꼬리분포)

왜도는 양(+)이다.

보통 평균은 중앙값 보다 크다.

.05 .05 .10 .10 .15 .15 .20 .20 .25 .25 .30 .30 .35 .35

00

왜도 = .31

(7)

분포 형태 : 왜도

오른쪽으로 심하게 치우친 경우(심한 오른쪽 고리분포)

 왜도는 양(+)이다 (종종 1.0보다 높다).

 보통 평균은 중앙값 보다 크다.

.05 .05 .10 .10 .15 .15 .20 .20 .25 .25 .30 .30 .35 .35

00

왜도 = 1.25

(8)

 어느 대학가에서 표본으로 간이 아파트 (efficiency apartments ) 70채가 무작위 선정되었다.

 이 아파트의 월세는 오름차순으로 다음 슬라이더에 나타나 있다.

분포 형태 : 왜도

예 : 아파트 임대

(9)

425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615

분포 형태 : 왜도

(10)

.05 .05 .10 .10 .15 .15 .20 .20 .25 .25 .30 .30 .35 .35

00

왜도 = .92

분포 형태 : 왜도

(11)

z-값을 종종 ^‘표준화(된)값’이라고 한다.

이는 관찰값

x

_i 와 평균과의 거리가 표준편차의 몇 배에 해당하는지를 나타낸다.

z-값

z x x

i  i s 

z x x

i  i s 

(12)

z-값

 표본평균보다 작은 자료값은 0보다 작은 z-값을 갖는다.

 표본평균보다 큰 자료값은 0보다 큰 z-값을 갖는다.

 표본평균과 같은 자료값은 0인 z-값을 갖는다.

 관찰값의 z-값은 자료에서 해당 관찰값의 상대 위치를 측정하는 척도이다.

(13)

z -값

가장 작은 값 (425)의 z-값

425 490.80 1.20 54.74

x xi

z s

 

  425 490.80   1.20 54.74

x xi

z s

 

   

-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93 -0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47 -0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20 -0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35

0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27 -1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93 -0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47 -0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20 -0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35

0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

월세값의 표준화 값

(14)

체비셰프의 원리

어떤 자료에 있는 항목들의 적어도 (1 - 1/z²) 의 값은 평균에서 z 표준 편차 크기의 범위 안에 있어야 한다.

그리고 이 때의 z는 1보다 더 큰 값이다.

(15)

적어도 자료값들의 는 평균에서 범위 안에 있어야 한다.

75%

z = 2 표준편차

체비셰프의 원리 (Chebyshev’s theorem)

89%

z = 3 표준편차

94%

z = 4 표준편차

(16)

체비셰프의 원리

예 :

z = 1.5 ( = 490.80 와 s = 54.74) xx

적어도 월세값들의

(1  1/(1.5)²) = 1  0.44 = 0.56 또는 56%

는 아래의 값들 사이에 있어야 한다.

xx

- z(s) = 490.80  1.5(54.74) = 409 와

xx

+ z(s) = 490.80 + 1.5(54.74) = 573

(실제, 86%의 월세값들이 409 와 573사이에 있다.)

(17)

경험 법칙 (Empirical rule)

종모양 분포를 가지는 자료에 대하여 :

정규확률변수값의 가 평균의

범위 안에 있다. 68.26%

+/- 1 표준편차

범위 안에 있다. 95.44%

+/- 2표준편차

범위 안에 있다. 99.72%

+/- 3 표준편차

(18)

경험 법칙

 _{– 3}  _{– 1}

x

 _{– 2}  _{+ 1}

 _{+ 2} _{+ 3}

 68.26%

95.44%

99.72%

(19)

극단값 찾기 (Detecting outliers)

 극단값은 자료에서 특출나게 큰 값이나 특출나게 작은 값들을 말한다.

 -3보다 작거나 +3보다 큰 z-값에 해당하는 자료값을 극단값으로 보면 된다.

 극단값은 다음과 같은 경우일 수 있다:

•

^{잘못 기록된 자료값}

•

자료에 부정확하게 포함된 값

•

자료에 제대로 포함된 값

(20)

극단값 찾기

-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93 -0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47 -0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20 -0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35

0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27 -1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93 -0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47 -0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20 -0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35

0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

 가장 극단적 z-값은 -1.20 과 2.27

 극단점 기준으로|z| > 3 을 사용하면, 이 자료에는 극단값이 없다.

월세에 대한 표준화 값

(21)

탐색적 자료분석 (Exploratory data analysis)

다섯 수치 요약

상자 그림

(22)

다섯 수치 요약 (Five-number summary)

1 최소값

1사분위수 중앙값

3사분위수 최대값

2 3 4 5

(23)

다섯 수치 요약

425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615

최소값 = 425 1사분위수 = 445 중앙값 = 475

3사분위수 = 525 최대값 = 615

(24)

375

375 400400 425425 450450 475475 500500 525525 550550 575575 600600 625625

상자의 양 끝은 1사분위수와 3사분위수에 위치하게 한다.

상자 그림 (Box Plot)

상자안에 수직선을 중앙값 위치에 그린다 (2사분위수).

Q1 = 445 Q3 = 525 Q2 = 475

(25)

상자 그림

 사분위수간 범위(IQ R=Q 3-Q 1)를 사용하여 상한선과 하한선을 그린다.

 이 범위 밖의 자료는 극단값이라고 할 수 있다.

 각 극단값의 위치는 *로 표시한다.

… 계속됨

(26)

하한선: Q1 - 1.5(IQR) = 445 - 1.5(80) = 332.5

상자 그림

상한선: Q3 + 1.5(IQR) = 525 + 1.5(80) = 637.5

 하한선은

Q1보다 아래쪽 1.5(IQR) 이다.

 상한선은

Q3 보다 위쪽 1.5(IQR)이다.

 아파트 월세자료에서 극단값 (332.5보다 작거나 637.5 보다 큰 값)은 없다.

(27)

상자 그림

 상자의 양끝에서 한계선내에 최소값과 최대값까지 점선(whiskers)을 그린다.

375

375 400400 425425 450450 475475 500500 525525 550550 575575 600600 625625

한계선내 최소값 = 425 한계선내 최대값 = 615

(28)

두 변수간의 연관성 측정

(Measures of association between two variables)

공분산

상관계수

(29)

공분산 (covariance)

양의 값은 양의 관계를 나타낸다. 음의 값은 음의 관계를 나타낸다.

공분산은 두 변수의 선형관계를 측정하는 척도이다.

(30)

공분산

공분산은 아래와 같이 계산된다:

표본의 경우

모집단의 경우

s x x y y

xy   i n i 



( )( )

s x x 1y y

xy   i n i 



( )( )

1

  

xy

i x i y

x y

  (  N )(  )

  

xy

i x i y

x y

  (  N )(  )

(31)

상관계수 (correlation coefficient)

+1값에 가까울수록 강한 양의 선형관계를 나타낸다.

-1값에 가까울수록 강한 음의 선형관계를 나타낸다.

상관계수는 -1 에서 +1사이의 값을 갖는다.

(32)

상관계수는 아래와 같이 계산된다:

표본의 경우 모집단의 경우

r s

xy

s s

xy x y



r s

xy

s s

xy x y

  

 

xy

xy x y

  

 

xy

xy x y



상관계수

(33)

상관계수

두 변수가 높은 상관관계를 갖는다고 해도, 한 변수가 다른 변수의 원인이 된다는 것을 의미하지는 않는다.

예, 식당의 일반적인 식사가격과 음식의 질

상관관계는 변수들 간의 선형관계를 측정하는 것이지 반드시 인과관계를 측정하는 것은 아니다.

(34)

 어떤 골프선수가 드라이빙 거리와 18홀 점수간에 서로 관계가 있는지에 대하여 조사하고자 한다.

277.6 259.5 269.1 267.0 255.6 272.9

69 71 70 70 71 69 평균 드라이빙

거리 (yds.)

평균 18홀 점수

공분산과 상관계수

(35)

공분산과 상관계수

277.6 259.5 269.1 267.0 255.6 272.9

69 71 70 70 71 69

x y

10.65 -7.45 2.15 0.05 -11.35 5.95

-1.0 1.0 0 0 1.0 -1.0

-10.65 -7.45

0 0 -11.35 -5.95

( x x

_i

 )

( x x

_i

 ) ₍ ( _{y y} y y

_i_i

  ₎ ) ( ( x x y y x x y y

_i_i

  )( )(

_i_i

  ) )

평균 표준편차

267.0 70.0 -35.40 8.2192 .8944

합계

(36)

 표본 공분산

 표본 상관계수

공분산과 상관계수

7.08 -.9631 (8.2192)(.8944)

xy xy

x y

r s

s s

   7.08 

-.9631 (8.2192)(.8944)

xy xy

x y

r s

s s

   

( )( ) 35.40

7.08 1 6 1

i i

xy

x x y y

s n

  

   

 

 ⁽ ⁾⁽ ⁾ ^35.40 _7.08

1 6 1

i i

xy

x x y y

s n

  

   

 



(37)

가중평균과 그룹화 자료 (The weighted mean and working with grouped data)

가중평균

그룹화 자료의 평균

그룹화 자료의 분산

그룹화 자료의 표준편차

(38)

가중평균 (weighted mean)

 관찰값의 중요도를 반영한 가중치를 각각의 자료값에 부여하여 평균을 계산할 때, 이러한 평균을 ‘가중 평균’

이라고 한다.

 학점(GPA)을 계산할 때, 가중치는 각 등급(grade)에 해당하는 학점수이다.

 관찰값이 중요도에 있어서 서로 다를 때, 분석자는 각 관찰값이 가지는 중요도를 가장 잘 반영할 수 있는

가중치를 선택하여야 한다.

(39)

가중평균

i i i

x w x

  w

 ^{w x}

^{i i}ⁱ

x   w



여기서:

x

_i = i 번째 관찰값

w

_i= i 번째 관찰값의 가중치

(40)

그룹화된 자료 (grouped data)

 가중평균 계산법이 그룹화된 자료의 평균, 분산, 표준편차의 대략적인 값을 구하는데 사용된다.

 가중평균을 계산하기 위해, 각 계급의 중간점을 그 계급의 평균처럼 가정하여 사용한다.

 계급의 도수를 가중치로 사용하여 계급 중간점들의 가중평균을 계산한다.

 분산과 표준편차를 계산할 때도 유사한 방법으로 계급의 도수를 가중치로 사용한다.

(41)

그룹화 자료의 평균

i i

x f M

  n ^{f M}

ⁱ ⁱ

x   n

N M f_i _i







N

M f_i _i







여기서:

f

_i= i 계급의 (빈)도수

M

_i= i 계급의 중간점

 표본평균

 모집단 평균

(42)

 앞선 예에서 본 70채의 아파트 표본 월세 자료가 아래와 같이 도수분포 형식으로 그룹 화되어 있다 .

Rent ($) Frequency

420-439 8

440-459 17 460-479 12

480-499 8

500-519 7

520-539 4

540-559 2

560-579 4

580-599 2

600-619 6

그룹화 자료의 표본평균

(43)

그룹화 자료의 표본 평균

이런 근사값은 실제 평균인 $490.80과는

$2.41 정도 차이가 있다.

34,525

493.21 x  34,525 70 

493.21 x  70 

Rent ($) f_i 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6 Total 70

M_i 429.5 449.5 469.5 489.5 509.5 529.5 549.5 569.5 589.5 609.5

f_iM_i 3436.0 7641.5 5634.0 3916.0 3566.5 2118.0 1099.0 2278.0 1179.0 3657.0 34525.0

(44)

그룹화된 자료의 분산

s f M x

n

i i

2

  1 



( )

s f M x

n

i i

2

  1 



( )



₂

_  f M  

²

N

i

(

i

)



₂

_  f M  

²

N

i

(

i

)

 표본의 경우

 모집단의 경우

(45)

Rent ($) f_i 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6 Total 70

M_i 429.5 449.5 469.5 489.5 509.5 529.5 549.5 569.5 589.5 609.5

그룹화 자료에서 표본분산

M_i- x -63.7 -43.7 -23.7 -3.7 16.3 36.3 56.3 76.3 96.3 116.3

f _i(M_i - x )² 32471.71 32479.59 6745.97 110.11 1857.55 5267.86 6337.13 23280.66 18543.53 81140.18 208234.29 (M_i- x )²

4058.96 1910.56 562.16 13.76 265.36 1316.96 3168.56 5820.16 9271.76 13523.36

계속

(46)

3,017.89 54.94 s  3,017.89 54.94 

s  

s

² = 208,234.29/(70 – 1) = 3,017.89

이러한 근사값은 실제 표준편차인 $54.74와는 겨우 $.20 정도 차이가 난다.

그룹화 자료에서 표본 분산

 표본 분산

 표본 표준편차

(47)