자료분석방법II:
수치를 이용한 기술적 통계분석
변동계수(Coefficient of Variation:cv)
• 변동계수( cv)는 표준편차를 평균으로 나눈 값이다
- 모집단의 변동계수 =
- 표본의 변동계수 =
변동계수 (Coefficient of Variation)
-변동계수는 변동성의 비율적 측정값을 나타낸다
평균값이 100인 경우 표준편차가 10이면 변동성이 크게 나타날 수 있으나 평균값이 1000이면 표준편차 10 은 변동성이 크게 나타나지 않는다
이와 같이 자료의 변수값들이 측정단위가 서로 다
를 경우 표준편차로 변동성의 비교가 어려운 경우에
사용된다
선형적 관련성의 측정(Measures of Linear Relationship)
-서로다른 두가지 자료들 또는 변수들간의 선형적 관련성에 대한 수치적 측정방법
공분산(covariance) 과 상관계수(coefficient of
correlation)
공분산(Covariance)의 산출식
모평균 of X, Y
표본평균 of X, Y
주의:분모값이 n-1
공분산의 산출식(표본자료)
- 표본평균의 산출이 필요없는 방법 :
공분산의 해석
• 아래의 3가지 다른 표본자료를 통해 공분산값들의 의미를 파악해본 다
• 각 표본자료의 경우, X값들은 크기와 순서가 모두 같으나 Y값들은 크기는 같으나 순서가 서로 다르다
-Data set #1: X값이 증가함에 따라 Y값도 함께 증가한다;
공분산(Sxy)이크고 양의 값을 가진다
두 변수(X,Y)간에 서로 강한 양의 선형관계(strong positive linear relation)
-Data set #2, X 값이 증가함에 따라 Y값이 감소한다; 공 분산(Sxy) 값이 크고 음의 값을 가진다
두 변수(X,Y)간에 서로 강한 음의 선형관계(strong negative linear relation)
-Data set #3, X 값이 증가함에 따라 Y 값은 임의적으로 변화한다; 공분산(Sxy) 값이 적다
두 변수(X,Y)간에 선형관계(positive linear relation)
가 미약하다
공분산에 대한 일반적 해석
•
두 변수값들이 서로 같은 방향으로 움직일 경우(같이 증가 또는 감 소), 공분산값은 크고 양의 값을 가진다 양의 선형관계(positive linear relation): 공분산값이 클수록 선형관 계가 강하다
•두 변수값들이 서로 반대 방향으로 움직일 경우, 공분산값은 크고 음 의 값을 가진다
음의 선형관계(negative linear relation): 공분산값이 작을 수록 선 형관계가 강하다
• 두변수값들의 움직임에 특정형태가 없는 경우, 매우 적은 공분산값을 가진다
• 그러나 실제로 공분산값의 크기를 결정하기 어려운 경우가 발생한다
이러한 경우 상관계수(coefficient of correlation)가 보다 유용하다.
상관계수 (Coefficient of Correlation)
• 상관계수값은 공분산을 표준편차로 나눈 값이다:
Greek letter
“rho”
상관계수 (Coefficient of Correlation)
• 상관계수의 장점은 계수의 값이 -1과 1사이의 범위내에서 고정되어 있다는 것이다:
- 만일 두 변수가 서로 강한 양의 선형관계(strongly
positive linear relation)에 있다면, 상관계수의 값이 +1에 가까워 진다.
- 만일 If 두 변수가 서로 강한 음의 선형관계(strongly
negative linear relation)에 있다면, 상관계수의 값이 -1에 가까워 진다.
- 두 변수가 서로 직접적인 선형관계가 없다면(no linear
relation)에 있다면, 상관계수의 값이 0 에 가까워 진다.
상관계수 (Coefficient of Correlation)
r or r =
+1
0
-1
Strong positive linear relationship
No linear relationship
Strong negative linear relationship
상관계수 (Coefficient of Correlation)
• 상관계수 = 0 ⇒ 두 변수 사이에 선형관계가 없다는 것 이지 아무런 관계가 없다는 것은 아니다
⇒ 2차방정식 관계가 있으나 상관계수는 0에 가까움
예시: 상관계수
앞의 서로다른 형태의 3자료를 이용하여 , 두변수
사이의 상관계수를 구하면,
29
예시: 상관계수
0 . 3 5
7 6
x 2
0 . 3 20
27 20
y 13
0 . 2 7
4 1 9 1
3
) 5 7 ( )
5 6 ( )
5 2 s (
2 2
2 2
x
0 . 2 49
49 01
49 1
3
) 20 27
( )
20 20
( )
20 13
s (
2 2
2 2
y
예시: 상관계수
두 변수 X,Y의 표준편차는,
65 . 2 0
. 7
sx
s
y 49 . 0 7 . 00
따라서, 각 자료의 상관계수값은 Set 1:
Set 2:
943 ) .
0 . 7 )(
65 . 2 (
5 . 17 s
s r s
y x
xy
943 ) .
0 . 7 )(
65 . 2 (
5 . 17 s
s r s
y x
xy
상관관계(Correlation)와 인과관계(Causation)
• 두 변수사이에 상관관계가 있다는 것이 두 변수 사이에 항상 인과관계가 있음을 의미하지 않는 다: 상관관계와 인과관계는 서로 다르다
만일 두 변수(X,Y)가 서로 선형적 상관관계가 있 다면, X 와Y 가 서로 인과관계가 있음 나타내는 것은 아니다
: Y의 변화(증가/감소)가 X의 변화(증가/감소)에
의해 발생되는 것은 아니다
모수(Parameters)와 통계량(Statistics)
• 모수(Parameters): 모집단 자료의 특성을 나타내 는 기술적 수치들
• 통계량(Statistics): 표본자료의 특성을 나타내는
기술적 수치들
33
모수와 통계량의 비교
모수 통계량
자료크기(Size) N n
평균(Mean)
분산(Variance) S2
표준편차(Standard
Deviation) S
변동계수(Coefficient
of Variation) CV cv
공분산(Covariance) Sxy
상관계수(Coefficient
of Correlation) r