자료분석방법

(1)

자료분석방법II:

수치를 이용한 기술적 통계분석

(2)

변동계수(Coefficient of Variation:cv)

• 변동계수( cv)는 표준편차를 평균으로 나눈 값이다

- 모집단의 변동계수 =

- 표본의 변동계수 =

(3)

변동계수 (Coefficient of Variation)

-변동계수는 변동성의 비율적 측정값을 나타낸다

평균값이 100인 경우 표준편차가 10이면 변동성이 크게 나타날 수 있으나 평균값이 1000이면 표준편차 10 은 변동성이 크게 나타나지 않는다

이와 같이 자료의 변수값들이 측정단위가 서로 다

를 경우 표준편차로 변동성의 비교가 어려운 경우에

사용된다

(4)

선형적 관련성의 측정(Measures of Linear Relationship)

-서로다른 두가지 자료들 또는 변수들간의 선형적 관련성에 대한 수치적 측정방법

 공분산(covariance) 과 상관계수(coefficient of

correlation)

(5)

공분산(Covariance)의 산출식

모평균 of X, Y

표본평균 of X, Y

주의:분모값이 n-1

(6)

공분산의 산출식(표본자료)

- 표본평균의 산출이 필요없는 방법 :

(7)

공분산의 해석

• 아래의 3가지 다른 표본자료를 통해 공분산값들의 의미를 파악해본 다

• 각 표본자료의 경우, X값들은 크기와 순서가 모두 같으나 Y값들은 크기는 같으나 순서가 서로 다르다

(8)

-Data set #1: X값이 증가함에 따라 Y값도 함께 증가한다;

공분산(Sxy)이크고 양의 값을 가진다

 두 변수(X,Y)간에 서로 강한 양의 선형관계(strong positive linear relation)

-Data set #2, X 값이 증가함에 따라 Y값이 감소한다; 공 분산(Sxy) 값이 크고 음의 값을 가진다

 두 변수(X,Y)간에 서로 강한 음의 선형관계(strong negative linear relation)

-Data set #3, X 값이 증가함에 따라 Y 값은 임의적으로 변화한다; 공분산(Sxy) 값이 적다

 두 변수(X,Y)간에 선형관계(positive linear relation)

가 미약하다

(9)

공분산에 대한 일반적 해석

•

두 변수값들이 서로 같은 방향으로 움직일 경우(같이 증가 또는 감 소), 공분산값은 크고 양의 값을 가진다

 양의 선형관계(positive linear relation): 공분산값이 클수록 선형관 계가 강하다

•두 변수값들이 서로 반대 방향으로 움직일 경우, 공분산값은 크고 음 의 값을 가진다

 음의 선형관계(negative linear relation): 공분산값이 작을 수록 선 형관계가 강하다

• 두변수값들의 움직임에 특정형태가 없는 경우, 매우 적은 공분산값을 가진다

• 그러나 실제로 공분산값의 크기를 결정하기 어려운 경우가 발생한다

 이러한 경우 상관계수(coefficient of correlation)가 보다 유용하다.

(10)

상관계수 (Coefficient of Correlation)

• 상관계수값은 공분산을 표준편차로 나눈 값이다:

Greek letter

“rho”

(11)

상관계수 (Coefficient of Correlation)

• 상관계수의 장점은 계수의 값이 -1과 1사이의 범위내에서 고정되어 있다는 것이다:

- 만일 두 변수가 서로 강한 양의 선형관계(strongly

positive linear relation)에 있다면, 상관계수의 값이 +1에 가까워 진다.

- 만일 If 두 변수가 서로 강한 음의 선형관계(strongly

negative linear relation)에 있다면, 상관계수의 값이 -1에 가까워 진다.

- 두 변수가 서로 직접적인 선형관계가 없다면(no linear

relation)에 있다면, 상관계수의 값이 0 에 가까워 진다.

(12)

상관계수 (Coefficient of Correlation)

r or r =

+1

0 -1

Strong positive linear relationship

No linear relationship

Strong negative linear relationship

(13)

상관계수 (Coefficient of Correlation)

• 상관계수 = 0 ⇒ 두 변수 사이에 선형관계가 없다는 것 이지 아무런 관계가 없다는 것은 아니다

⇒ 2차방정식 관계가 있으나 상관계수는 0에 가까움

(14)

예시: 상관계수

앞의 서로다른 형태의 3자료를 이용하여 , 두변수

사이의 상관계수를 구하면,

(15)

29

예시: 상관계수

0 . 3 5

7 6

x  2   

0 . 3 20

27 20

y 13  



0 . 2 7

4 1 9 1

3

) 5 7 ( )

5 6 ( )

5 2 s (

2 2

x   

 









 

0 . 2 49

49 01

49 1

3

) 20 27

( )

20 20

( )

20 13

s (

2 2

y   

 









 

(16)

예시: 상관계수

두 변수 X,Y의 표준편차는,

65 . 2 0

. 7

s_x  

s

_y

 49 . 0  7 . 00

따라서, 각 자료의 상관계수값은 Set 1:

Set 2:

943 ) .

0 . 7 )(

65 . 2 (

5 . 17 s

s r s

y x

xy  



943 ) .

0 . 7 )(

65 . 2 (

5 . 17 s

s r s

y x

xy   



(17)

상관관계(Correlation)와 인과관계(Causation)

• 두 변수사이에 상관관계가 있다는 것이 두 변수 사이에 항상 인과관계가 있음을 의미하지 않는 다: 상관관계와 인과관계는 서로 다르다

만일 두 변수(X,Y)가 서로 선형적 상관관계가 있 다면, X 와Y 가 서로 인과관계가 있음 나타내는 것은 아니다

: Y의 변화(증가/감소)가 X의 변화(증가/감소)에

의해 발생되는 것은 아니다

(18)

모수(Parameters)와 통계량(Statistics)

• 모수(Parameters): 모집단 자료의 특성을 나타내 는 기술적 수치들

• 통계량(Statistics): 표본자료의 특성을 나타내는

기술적 수치들

(19)

33

모수와 통계량의 비교

모수 통계량

자료크기(Size) N n

평균(Mean)

분산(Variance) S²

표준편차(Standard

Deviation) S

변동계수(Coefficient

of Variation) CV cv

공분산(Covariance) S_xy

상관계수(Coefficient

of Correlation) r

(20)

자료분석방법