왜 그래프를 쓰는가?
그래프처럼 효과적인 통계적 정보의 전달수단이 없기 때문
상관계수 두 변수간의 관계에 관한 대표적인 수치요약 2차원 자료 라고 할 때
r
) , ( , ), ,
( x
1y
1 x
ny
n∑ ∑
∑
= =
−
−
=
−
−
−
−
−
−
=
ni
n
i
i i
n
i
i i
y y
x x
y y
x x
r
1 1
2 / 1 2 2
1
] ) (
) (
[
) )(
(
상관계수는 자료를 효과적으로 축약
상관계수는 두 변수 자료에 대하여 충분한 정보를 갖고 있지 못하다
2변량 자료의 분석에 있어서 그래프를 쓰지 않고 수치요약에만 의존한다면 자료 의 중요한 특성을 파악하지 못함
Stat > Basic Statistics > Correlation…
산점도 1과 산점도 2의 상관계수는 각각 0.672, 0.665로 거의 비슷하나 확연히 다른 특성을 가진 것을 확인할 수 있음
2변량 자료분석의 목적
두 변수 X와 y간의 관계를 알고자 하는 분석의 목적
① 두 변수 X와 Y가 호환적(exchangeable)인 경우, 그 연관성을 측정하고자 한다.
상관분석(correlation analysis)
② 어떤 한 변수 Y가 다른 한 변수 X에 의존적(dependent)인 관계를 갖는 경우, 그 관계식을 도출하고자 한다. 즉,
( 은 오차)
에서 함수 를 찾아내는 것이 목적이다. 이 경우에는 변수 Y를 세로축, 변수 X를 가로축으로 두는 것이 보통이다.
회귀분석(regression analysis)
<도표 3> : 미국의 대입학력고사(수리능력 점수와 언어능력 점수의 산점도) 상관계수 = 0.275
<도표 4> : 학력고사 점수와 대학평균 학점
GPA를 SAT에 회귀시킨 적합 직선을 구하는 방법
ε +
= s ( X )
Y ε
)
(x
s
2변량 자료분석의 목적
<도표 3> : 미국의 대입학력고사(수리능력 점수와 언어능력 점수의 산점도) 상관계수 = 0.275
2변량 자료분석의 목적
<도표 4> : 학력고사 점수와 대학평균 학점
GPA를 SAT에 회귀시킨 적합 직선을 구하는 방법
산점도에서 볼 수 있는 것
<도표 5> : 서울 시내 어느 고등학교에서 공통과목(국어, 영어, 수학등)성적이 비슷한 37쌍의 학생들의 독어성적과 불어점수의 플롯
만약, 두 외국어(선택과목) 시험의 난이도가 동일하다면 자료점들은 y=x 직선을 중심으로 퍼지게 된다. 그런데, 이 플롯에서는 어떠한가?
자료점들이 대부분 y ≽ x 인 영역에 위치함으로 독일어 시험이 불어 시험 보다 쉬웠음을 플롯을 통하여 알 수 있다.
산점도에서 볼 수 있는 것
<도표 6> : 자동차 52종의 배기량과 연료효율에 관한 자료
자동차의 배기량이 클수록 연료효율이 떨어지는 것은 당연
동일한 배기량으로 보다 나은 연료효율을 갖는 자동차를 개발하는것이 목표 산점도에서 관찰하여야 할 한가지 사항은 소수 군집의 존재여부
소수 군집이 존재한다면 그 이유를 탐구하여 볼 필요가 있다 (특이점도 소수 군집의 한 예이다)
<도표 7> : 어느 회사에서 근무하는 27명의 40대 남자 사원들의 교육 년수와 월 수입의 자료(가공한 자료)
자료의 크기는 27인데 플롯에서는 13개의 점만이 나타난다.
여러자료의 겹쳐있는 것을 시각적으로 분석하기는 어렵다 교육변수는 1 간격이고, 월 수입은 10 간격이다.
이에 대한 어떤 해결책이 있을까?
<도표 8> : <도표 7>의 질문의 해답이다.
이 플롯에 사용된 자료는 원 자료가 아니라
교육년수 교육년수 + 월 수입 월 수입 + 는 구간 (-0.5,+0.5)에서의 균일분포로부터의 난수
는 구간 (-5,+5)에서의 균일분포로부터의 난수
ε
xε
yε
xε
y 유의사항
<도표 9> : 두 산점도는 앞의 <도표 6>에서의 자료를 각기 다른 척도로 다시 플롯 ②의 플롯이 보다 강한 두 변수간의 연관성을 갖는다고 생각
즉, 가로와 세로를 같게 하여 플롯을 그릴 것
유의사항
<도표 10> : 시계열 플롯에서는 가로와 세로의 비를 갖게 하는 것이 꼭 원칙이라 할 수 없다.
①의 시도표(time plot)에서는 가로와 세로의 길이가 같게 되어 있어 약간 산만해 보인다
②의 시도표에서는 ①의 시도표보다 작지만 오히려 이 시계열의 특성인 주기성을 뚜렷이 볼 수 있다.
미니탭에서 시도표를 작성하는 데 쓰이는 명령어는 Graph > Character Graphs > Time Series Plot….