• 검색 결과가 없습니다.

자료분석방법

N/A
N/A
Protected

Academic year: 2022

Share "자료분석방법"

Copied!
20
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

자료분석방법II:

수치를 이용한 기술적 통계분석

(2)

변동계수(Coefficient of Variation:cv)

• 변동계수( cv)는 표준편차를 평균으로 나눈 값이다

- 모집단의 변동계수 =

- 표본의 변동계수 =

(3)

변동계수 (Coefficient of Variation)

-변동계수는 변동성의 비율적 측정값을 나타낸다

평균값이 100인 경우 표준편차가 10이면 변동성이 크게 나타날 수 있으나 평균값이 1000이면 표준편차 10 은 변동성이 크게 나타나지 않는다

이와 같이 자료의 변수값들이 측정단위가 서로 다

를 경우 표준편차로 변동성의 비교가 어려운 경우에

사용된다

(4)

선형적 관련성의 측정(Measures of Linear Relationship)

-서로다른 두가지 자료들 또는 변수들간의 선형적 관련성에 대한 수치적 측정방법

 공분산(covariance) 과 상관계수(coefficient of

correlation)

(5)

공분산(Covariance)의 산출식

모평균 of X, Y

표본평균 of X, Y

주의:분모값이 n-1

(6)

공분산의 산출식(표본자료)

- 표본평균의 산출이 필요없는 방법 :

(7)

공분산의 해석

• 아래의 3가지 다른 표본자료를 통해 공분산값들의 의미를 파악해본

• 각 표본자료의 경우, X값들은 크기와 순서가 모두 같으나 Y값들은 크기는 같으나 순서가 서로 다르다

(8)

-Data set #1: X값이 증가함에 따라 Y값도 함께 증가한다;

공분산(Sxy)이크고 양의 값을 가진다

 두 변수(X,Y)간에 서로 강한 양의 선형관계(strong positive linear relation)

-Data set #2, X 값이 증가함에 따라 Y값이 감소한다; 공 분산(Sxy) 값이 크고 음의 값을 가진다

 두 변수(X,Y)간에 서로 강한 음의 선형관계(strong negative linear relation)

-Data set #3, X 값이 증가함에 따라 Y 값은 임의적으로 변화한다; 공분산(Sxy) 값이 적다

 두 변수(X,Y)간에 선형관계(positive linear relation)

가 미약하다

(9)

공분산에 대한 일반적 해석

두 변수값들이 서로 같은 방향으로 움직일 경우(같이 증가 또는 감 소), 공분산값은 크고 양의 값을 가진다

 양의 선형관계(positive linear relation): 공분산값이 클수록 선형관 계가 강하다

•두 변수값들이 서로 반대 방향으로 움직일 경우, 공분산값은 크고 음 의 값을 가진다

 음의 선형관계(negative linear relation): 공분산값이 작을 수록 선 형관계가 강하다

• 두변수값들의 움직임에 특정형태가 없는 경우, 매우 적은 공분산값을 가진다

• 그러나 실제로 공분산값의 크기를 결정하기 어려운 경우가 발생한다

 이러한 경우 상관계수(coefficient of correlation)가 보다 유용하다.

(10)

상관계수 (Coefficient of Correlation)

• 상관계수값은 공분산을 표준편차로 나눈 값이다:

Greek letter

“rho”

(11)

상관계수 (Coefficient of Correlation)

• 상관계수의 장점은 계수의 값이 -1과 1사이의 범위내에서 고정되어 있다는 것이다:

- 만일 두 변수가 서로 강한 양의 선형관계(strongly

positive linear relation)에 있다면, 상관계수의 값이 +1에 가까워 진다.

- 만일 If 두 변수가 서로 강한 음의 선형관계(strongly

negative linear relation)에 있다면, 상관계수의 값이 -1에 가까워 진다.

- 두 변수가 서로 직접적인 선형관계가 없다면(no linear

relation)에 있다면, 상관계수의 값이 0 에 가까워 진다.

(12)

상관계수 (Coefficient of Correlation)

r or r =

+1

0

-1

Strong positive linear relationship

No linear relationship

Strong negative linear relationship

(13)

상관계수 (Coefficient of Correlation)

• 상관계수 = 0 ⇒ 두 변수 사이에 선형관계가 없다는 것 이지 아무런 관계가 없다는 것은 아니다

⇒ 2차방정식 관계가 있으나 상관계수는 0에 가까움

(14)

예시: 상관계수

앞의 서로다른 형태의 3자료를 이용하여 , 두변수

사이의 상관계수를 구하면,

(15)

29

예시: 상관계수

0 . 3 5

7 6

x 2

0 . 3 20

27 20

y 13  

0 . 2 7

4 1 9 1

3

) 5 7 ( )

5 6 ( )

5 2 s (

2 2

2 2

x   

 

 

0 . 2 49

49 01

49 1

3

) 20 27

( )

20 20

( )

20 13

s (

2 2

2 2

y   

 

 

(16)

예시: 상관계수

두 변수 X,Y의 표준편차는,

65 . 2 0

. 7

sx  

s

y

 49 . 0  7 . 00

따라서, 각 자료의 상관계수값은 Set 1:

Set 2:

943 ) .

0 . 7 )(

65 . 2 (

5 . 17 s

s r s

y x

xy  

943 ) .

0 . 7 )(

65 . 2 (

5 . 17 s

s r s

y x

xy   

(17)

상관관계(Correlation)와 인과관계(Causation)

• 두 변수사이에 상관관계가 있다는 것이 두 변수 사이에 항상 인과관계가 있음을 의미하지 않는 다: 상관관계와 인과관계는 서로 다르다

만일 두 변수(X,Y)가 서로 선형적 상관관계가 있 다면, X 와Y 가 서로 인과관계가 있음 나타내는 것은 아니다

: Y의 변화(증가/감소)가 X의 변화(증가/감소)에

의해 발생되는 것은 아니다

(18)

모수(Parameters)와 통계량(Statistics)

• 모수(Parameters): 모집단 자료의 특성을 나타내 는 기술적 수치들

• 통계량(Statistics): 표본자료의 특성을 나타내는

기술적 수치들

(19)

33

모수와 통계량의 비교

모수 통계량

자료크기(Size) N n

평균(Mean)

분산(Variance) S2

표준편차(Standard

Deviation) S

변동계수(Coefficient

of Variation) CV cv

공분산(Covariance) Sxy

상관계수(Coefficient

of Correlation) r

(20)

연습문제

아래 표본자료 (X)에 대해 분석하시오 X = {72, 12, 47, 41, 38}

1) X의 평균값과 중앙값은?

2) X의 분산값과 표준편차값은?

3) 다른 표본자료, Y= {6,4,2,1,0}과의 공분산 값과 상관계수

4) 공분산과 상관계수 값을 토대로 한 X와Y의 선형관계는? 값은?

참조

관련 문서

④ 한쌍의 정준나사를 서로 반대방향으로 같은 양만큼 돌리면 반수준기의 기포는 좌 무지(left thumb)의 방향과 같은 방향으로 움직이므로 반수준기의 수포가 중앙에

è 소비자잉여란 소비자가 어떤 주어진 양의 재화를 구입 또는 소비하기 위하여 지불할 용의가 있는 (최대)금액과 실제로 지불한 금액과의 차이 (또는 차액)을

총 직무만족의 경우,고객만족도를 제외한 고객충성도,내인 및 외인 직무만족도 등에 대하여 유의한 양의 상관관계를 보였으며,이는 직무만족이 높은 직원이

두 효과가 서로 반대로 작용하는 경우를 조심하라(순 효과는 항상 뚜렷하 지 않다). 사실, 최대 온난 이류는 일반적으로 발달히는 저기압에서 양의

§ 외환시장에서 거래 두 당사자가 같거나 서로 다른 두 통화를 대상으로 현물환거 래와 선물환 거래를 동시에 체결하고 미래의 시점에서 양국 통화간의 금리차에

– 기존 문자정보와 같이 한 방향으로 흐르는 선형이 아니라 사용자 의 선택에 따라 소리나 이미지 등의 다양한 데이터로 처리하는

한편, 해양 생물들의 부패나 해수의 증발에 의해 거의 같은 양의 이산화탄소를 대기 중으로 방출시킨다. 이와 같이 이산화탄소의 순환이 자연 상태에서는 일정하게

• 서로 속성이 전혀 다른 두 변량의 관측치가 표본의 각 요소에서 서로 대립 되어 표본은 각각 한쌍의 관측치로 되어있는 경우, 이들 두 관측치를 구성 하는 두 변량의 관계를