• 검색 결과가 없습니다.

상대도수상대도수

N/A
N/A
Protected

Academic year: 2022

Share "상대도수상대도수"

Copied!
47
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

3 장

기술 통계 : 수치 척도 Part B

 분포 형태, 상대적 위치, 극단값

 탐색적 자료분석

 두 변수간의 관련성 측정

 가중평균과 그룹화 자료

(2)

분포 형태 , 상대적 위치, 극단값

분포 형태

 z-값

체비셰프의 원리

경험법칙

극단값 찾기

(3)

분포 형태 : 왜도(skewness)

 분포 형태를 측정하는 중요한 척도 중 하나를 ‘왜도‘

라고 한다.

 자료집합의 왜도를 구하는 계산식은 조금 복잡하다.

 통계프로그램을 사용하여 왜도를 쉽게 계산할 수 있다.

(4)

분포 형태 : 왜도

 정대칭(한 쪽으로 치우치지 않음)

 왜도는 0이다.

 평균과 중앙값은 같다.

상대도수상대도수

.05 .05 .10 .10 .15 .15 .20 .20 .25 .25 .30 .30 .35 .35

00

비대칭도 = 0

(5)

분포 형태 : 왜도

■왼쪽으로 치우친 경우(왼쪽 꼬리분포)

왜도는 음(-)이다.

보통 평균은 중앙값 보다 작다.

상대도수상대도수

.05 .05 .10 .10 .15 .15 .20 .20 .25 .25 .30 .30 .35 .35

00

왜도 =  .31

(6)

분포 형대 : 왜도

■오른쪽으로 치우친 경우(오른쪽 꼬리분포)

왜도는 양(+)이다.

보통 평균은 중앙값 보다 크다.

상대도수상대도수

.05 .05 .10 .10 .15 .15 .20 .20 .25 .25 .30 .30 .35 .35

00

왜도 = .31

(7)

분포 형태 : 왜도

 오른쪽으로 심하게 치우친 경우(심한 오른쪽 고리분포)

 왜도는 양(+)이다 (종종 1.0보다 높다).

 보통 평균은 중앙값 보다 크다.

상대도수상대도수

.05 .05 .10 .10 .15 .15 .20 .20 .25 .25 .30 .30 .35 .35

00

왜도 = 1.25

(8)

 어느 대학가에서 표본으로 간이 아파트 (efficiency apartments ) 70채가 무작위 선정되었다.

 이 아파트의 월세는 오름차순으로 다음 슬라이더에 나타나 있다.

분포 형태 : 왜도

 예 : 아파트 임대

(9)

425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615

분포 형태 : 왜도

(10)

상대도수상대도수

.05 .05 .10 .10 .15 .15 .20 .20 .25 .25 .30 .30 .35 .35

00

왜도 = .92

분포 형태 : 왜도

(11)

z-값을 종종 표준화(된)값’이라고 한다.

이는 관찰값

x

i 와 평균과의 거리가 표준편차의 몇 배에 해당하는지를 나타낸다.

z-값

z x x

ii s

z x x

ii s

(12)

z-값

 표본평균보다 작은 자료값은 0보다 작은 z-값을 갖는다.

 표본평균보다 큰 자료값은 0보다 큰 z-값을 갖는다.

 표본평균과 같은 자료값은 0인 z-값을 갖는다.

 관찰값의 z-값은 자료에서 해당 관찰값의 상대 위치를 측정하는 척도이다.

(13)

z -값

가장 작은 값 (425)의 z-값

425 490.80 1.20 54.74

x xi

z s

 

  425 490.80   1.20 54.74

x xi

z s

 

   

-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93 -0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47 -0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20 -0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35

0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27 -1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93 -0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47 -0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20 -0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35

0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

월세값의 표준화 값

(14)

체비셰프의 원리

어떤 자료에 있는 항목들의 적어도 (1 - 1/z2) 의 값은 평균에서 z 표준 편차 크기의 범위 안에 있어야 한다.

그리고 이 때의 z는 1보다 더 큰 값이다.

(15)

적어도 자료값들의 는 평균에서 범위 안에 있어야 한다.

75%

z = 2 표준편차

체비셰프의 원리 (Chebyshev’s theorem)

적어도 자료값들의 는 평균에서 범위 안에 있어야 한다.

89%

z = 3 표준편차

적어도 자료값들의 는 평균에서 범위 안에 있어야 한다.

94%

z = 4 표준편차

(16)

체비셰프의 원리

예 :

z = 1.5 ( = 490.80 와 s = 54.74) xx

적어도 월세값들의

(1  1/(1.5)2) = 1  0.44 = 0.56 또는 56%

는 아래의 값들 사이에 있어야 한다.

xx

- z(s) = 490.80  1.5(54.74) = 409

xx

+ z(s) = 490.80 + 1.5(54.74) = 573

(실제, 86%의 월세값들이 409 와 573사이에 있다.)

(17)

경험 법칙 (Empirical rule)

종모양 분포를 가지는 자료에 대하여 :

정규확률변수값의 가 평균의

범위 안에 있다. 68.26%

+/- 1 표준편차

정규확률변수값의 가 평균의

범위 안에 있다. 95.44%

+/- 2표준편차

정규확률변수값의 가 평균의

범위 안에 있다. 99.72%

+/- 3 표준편차

(18)

경험 법칙

– 3  – 1

x

– 2  + 1

+ 2 + 3

 68.26%

95.44%

99.72%

(19)

극단값 찾기 (Detecting outliers)

 극단값은 자료에서 특출나게 큰 값이나 특출나게 작은 값들을 말한다.

 -3보다 작거나 +3보다 큰 z-값에 해당하는 자료값을 극단값으로 보면 된다.

 극단값은 다음과 같은 경우일 수 있다:

잘못 기록된 자료값

자료에 부정확하게 포함된 값

자료에 제대로 포함된 값

(20)

극단값 찾기

-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93 -0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47 -0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20 -0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35

0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27 -1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93 -0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47 -0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20 -0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35

0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

 가장 극단적 z-값은 -1.20 과 2.27

 극단점 기준으로|z| > 3 을 사용하면, 이 자료에는 극단값이 없다.

월세에 대한 표준화 값

(21)

탐색적 자료분석 (Exploratory data analysis)

다섯 수치 요약

상자 그림

(22)

다섯 수치 요약 (Five-number summary)

1 최소값

1사분위수 중앙값

3사분위수 최대값

2 3 4 5

(23)

다섯 수치 요약

425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615

최소값 = 425 1사분위수 = 445 중앙값 = 475

3사분위수 = 525 최대값 = 615

(24)

375

375 400400 425425 450450 475475 500500 525525 550550 575575 600600 625625

상자의 양 끝은 1사분위수와 3사분위수에 위치하게 한다.

상자 그림 (Box Plot)

상자안에 수직선을 중앙값 위치에 그린다 (2사분위수).

Q1 = 445 Q3 = 525 Q2 = 475

(25)

상자 그림

 사분위수간 범위(IQ R=Q 3-Q 1)를 사용하여 상한선과 하한선을 그린다.

 이 범위 밖의 자료는 극단값이라고 할 수 있다.

 각 극단값의 위치는 *로 표시한다.

… 계속됨

(26)

하한선: Q1 - 1.5(IQR) = 445 - 1.5(80) = 332.5

상자 그림

상한선: Q3 + 1.5(IQR) = 525 + 1.5(80) = 637.5

 하한선은

Q1보다 아래쪽 1.5(IQR) 이다.

 상한선은

Q3 보다 위쪽 1.5(IQR)이다.

 아파트 월세자료에서 극단값 (332.5보다 작거나 637.5 보다 큰 값)은 없다.

(27)

상자 그림

 상자의 양끝에서 한계선내에 최소값과 최대값까지 점선(whiskers)을 그린다.

375

375 400400 425425 450450 475475 500500 525525 550550 575575 600600 625625

한계선내 최소값 = 425 한계선내 최대값 = 615

(28)

두 변수간의 연관성 측정

(Measures of association between two variables)

공분산

상관계수

(29)

공분산 (covariance)

양의 값은 양의 관계를 나타낸다. 음의 값은 음의 관계를 나타낸다.

공분산은 두 변수의 선형관계를 측정하는 척도이다.

(30)

공분산

공분산은 아래와 같이 계산된다:

표본의 경우

모집단의 경우

s x x y y

xy   in i

( )( )

s x x 1y y

xy   in i

( )( )

1

  

xy

i x i y

x y

  (  N )(  )

  

xy

i x i y

x y

  (  N )(  )

(31)

상관계수 (correlation coefficient)

+1값에 가까울수록 강한 양의 선형관계를 나타낸다.

-1값에 가까울수록 강한 음의 선형관계를 나타낸다.

상관계수는 -1 에서 +1사이의 값을 갖는다.

(32)

상관계수는 아래와 같이 계산된다:

표본의 경우 모집단의 경우

r s

xy

s s

xy x y

r s

xy

s s

xy x y

  

 

xy

xy x y

  

 

xy

xy x y

상관계수

(33)

상관계수

두 변수가 높은 상관관계를 갖는다고 해도, 한 변수가 다른 변수의 원인이 된다는 것을 의미하지는 않는다.

예, 식당의 일반적인 식사가격과 음식의 질

상관관계는 변수들 간의 선형관계를 측정하는 것이지 반드시 인과관계를 측정하는 것은 아니다.

(34)

 어떤 골프선수가 드라이빙 거리와 18홀 점수간에 서로 관계가 있는지에 대하여 조사하고자 한다.

277.6 259.5 269.1 267.0 255.6 272.9

69 71 70 70 71 69 평균 드라이빙

거리 (yds.)

평균 18홀 점수

공분산과 상관계수

(35)

공분산과 상관계수

277.6 259.5 269.1 267.0 255.6 272.9

69 71 70 70 71 69

x y

10.65 -7.45 2.15 0.05 -11.35 5.95

-1.0 1.0 0 0 1.0 -1.0

-10.65 -7.45

0 0 -11.35 -5.95

( x x

i

 )

( x x

i

 ) ( ( y y y y

ii

  ) ) ( ( x x y y x x y y

ii

  )( )(

ii

  ) )

평균 표준편차

267.0 70.0 -35.40 8.2192 .8944

합계

(36)

 표본 공분산

 표본 상관계수

공분산과 상관계수

7.08 -.9631 (8.2192)(.8944)

xy xy

x y

r s

s s

   7.08 

-.9631 (8.2192)(.8944)

xy xy

x y

r s

s s

   

( )( ) 35.40

7.08

1 6 1

i i

xy

x x y y

s n

  

   

 

( )( ) 35.40 7.08

1 6 1

i i

xy

x x y y

s n

  

   

 

(37)

가중평균과 그룹화 자료 (The weighted mean and working with grouped data)

가중평균

그룹화 자료의 평균

그룹화 자료의 분산

그룹화 자료의 표준편차

(38)

가중평균 (weighted mean)

 관찰값의 중요도를 반영한 가중치를 각각의 자료값에 부여하여 평균을 계산할 때, 이러한 평균을 ‘가중 평균’

이라고 한다.

 학점(GPA)을 계산할 때, 가중치는 각 등급(grade)에 해당하는 학점수이다.

 관찰값이 중요도에 있어서 서로 다를 때, 분석자는 각 관찰값이 가지는 중요도를 가장 잘 반영할 수 있는

가중치를 선택하여야 한다.

(39)

가중평균

i i i

x w x

  w

w x

i ii

x   w

여기서:

x

i = i 번째 관찰값

w

i = i 번째 관찰값의 가중치

(40)

그룹화된 자료 (grouped data)

 가중평균 계산법이 그룹화된 자료의 평균, 분산, 표준편차의 대략적인 값을 구하는데 사용된다.

 가중평균을 계산하기 위해, 각 계급의 중간점을 그 계급의 평균처럼 가정하여 사용한다.

 계급의 도수를 가중치로 사용하여 계급 중간점들의 가중평균을 계산한다.

 분산과 표준편차를 계산할 때도 유사한 방법으로 계급의 도수를 가중치로 사용한다.

(41)

그룹화 자료의 평균

i i

x f M

  n f M

i i

x   n

N M fi i

N

M fi i

여기서:

f

i = i 계급의 (빈)도수

M

i = i 계급의 중간점

 표본평균

 모집단 평균

(42)

 앞선 예에서 본 70채의 아파트 표본 월세 자료가 아래와 같이 도수분포 형식으로 그룹 화되어 있다 .

Rent ($) Frequency

420-439 8

440-459 17 460-479 12

480-499 8

500-519 7

520-539 4

540-559 2

560-579 4

580-599 2

600-619 6

그룹화 자료의 표본평균

(43)

그룹화 자료의 표본 평균

이런 근사값은 실제 평균인 $490.80과는

$2.41 정도 차이가 있다.

34,525

493.21 x  34,525 70 

493.21 x  70 

Rent ($) fi 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6 Total 70

Mi 429.5 449.5 469.5 489.5 509.5 529.5 549.5 569.5 589.5 609.5

fiMi 3436.0 7641.5 5634.0 3916.0 3566.5 2118.0 1099.0 2278.0 1179.0 3657.0 34525.0

(44)

그룹화된 자료의 분산

s f M x

n

i i

2

2

  1 

( )

s f M x

n

i i

2

2

  1 

( )

2

 f M  

2

N

i

(

i

)

2

 f M  

2

N

i

(

i

)

 표본의 경우

 모집단의 경우

(45)

Rent ($) fi 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6 Total 70

Mi 429.5 449.5 469.5 489.5 509.5 529.5 549.5 569.5 589.5 609.5

그룹화 자료에서 표본분산

Mi - x -63.7 -43.7 -23.7 -3.7 16.3 36.3 56.3 76.3 96.3 116.3

f i(Mi - x )2 32471.71 32479.59 6745.97 110.11 1857.55 5267.86 6337.13 23280.66 18543.53 81140.18 208234.29 (Mi - x )2

4058.96 1910.56 562.16 13.76 265.36 1316.96 3168.56 5820.16 9271.76 13523.36

계속

(46)

3,017.89 54.94 s  3,017.89 54.94 

s 

s

2 = 208,234.29/(70 – 1) = 3,017.89

이러한 근사값은 실제 표준편차인 $54.74와는 겨우 $.20 정도 차이가 난다.

그룹화 자료에서 표본 분산

 표본 분산

 표본 표준편차

(47)

3장 끝, Part B

참조

관련 문서

포인터가 가리키는 변수가 없을 때는

서로 다르게 충격을 준다고 하더라고 잔차항의 충격들이 서로 독립이며 계열상관이 없기 때문에 결과적으로 관심의 대상이 되는 변수가 어떻게 반응하는 가 (

다이어트를 하는 기간에서 필요한 영양제를 섭취하는 것은 체중 감량에 도움이 되지만, 어떤 영양제들은 방해가 될 수 있으므로 주 의가 필요하다.. 운동은

② 전역 변수가 선언된 소스 파일의 헤더 파일에 전역 변수에 대한 extern 선 언을 넣어준다. 전역 변수의 extern 선언은 메모리를 할당하지

Q ) 2학년 지리통계 시간에 배운 다변량 분석기법을 말해보시오.. Q) 다음은 SPSS 통계프로그램을 통해 얻은 상관분석의 결과표이다. ■ 하나의 변수가 증가하면 다른

설령 한 나라가 다른 나라에 대해서 모든 재화에 대해 절대우위 또는 절대열위에 처해 있다고 할지라도, 상대적인 효율성이 높은(비교우위에 있는) 산업에 전문화

예: 두 물체의 마찰 시 생겨나는 전하는 새로이 창조되는 것이 아니라 한 물체에서 다른 물체로 이동함에 의하여 나타나는 알짜전하

잘못된 서식 문자, 변수의 개수, 변수의 자료형의 오류는 컴파일시 지적하지 않는다.. 서식과 변수의 자료형이 맞지 않으면 엉뚱한