• 검색 결과가 없습니다.

Chapter 9. 2변량 자료의 탐색적 분석

N/A
N/A
Protected

Academic year: 2022

Share "Chapter 9. 2변량 자료의 탐색적 분석"

Copied!
13
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Chapter 9. 2변량 자료의 탐색적 분석

김남형 응용통계학과 가천대학교

[email protected]

(2)

 왜 그래프를 쓰는가?

그래프처럼 효과적인 통계적 정보의 전달수단이 없기 때문

상관계수 두 변수간의 관계에 관한 대표적인 수치요약 2차원 자료 라고 할 때

r

) , ( , ), ,

( x

1

y

1

x

n

y

n

∑ ∑

= =

=

=

n

i

n

i

i i

n

i

i i

y y

x x

y y

x x

r

1 1

2 / 1 2 2

1

] ) (

) (

[

) )(

(

상관계수는 자료를 효과적으로 축약

상관계수는 두 변수 자료에 대하여 충분한 정보를 갖고 있지 못하다

2변량 자료의 분석에 있어서 그래프를 쓰지 않고 수치요약에만 의존한다면 자료 의 중요한 특성을 파악하지 못함

Stat > Basic Statistics > Correlation…

(3)

산점도 1과 산점도 2의 상관계수는 각각 0.672, 0.665로 거의 비슷하나 확연히 다른 특성을 가진 것을 확인할 수 있음

(4)

 2변량 자료분석의 목적

두 변수 X와 y간의 관계를 알고자 하는 분석의 목적

① 두 변수 X와 Y가 호환적(exchangeable)인 경우, 그 연관성을 측정하고자 한다.

상관분석(correlation analysis)

② 어떤 한 변수 Y가 다른 한 변수 X에 의존적(dependent)인 관계를 갖는 경우, 그 관계식을 도출하고자 한다. 즉,

( 은 오차)

에서 함수 를 찾아내는 것이 목적이다. 이 경우에는 변수 Y를 세로축, 변수 X를 가로축으로 두는 것이 보통이다.

회귀분석(regression analysis)

<도표 3> : 미국의 대입학력고사(수리능력 점수와 언어능력 점수의 산점도) 상관계수 = 0.275

<도표 4> : 학력고사 점수와 대학평균 학점

GPA를 SAT에 회귀시킨 적합 직선을 구하는 방법

ε +

= s ( X )

Y ε

)

(x

s

(5)

 2변량 자료분석의 목적

<도표 3> : 미국의 대입학력고사(수리능력 점수와 언어능력 점수의 산점도) 상관계수 = 0.275

(6)

 2변량 자료분석의 목적

<도표 4> : 학력고사 점수와 대학평균 학점

GPA를 SAT에 회귀시킨 적합 직선을 구하는 방법

(7)

 산점도에서 볼 수 있는 것

<도표 5> : 서울 시내 어느 고등학교에서 공통과목(국어, 영어, 수학등)성적이 비슷한 37쌍의 학생들의 독어성적과 불어점수의 플롯

만약, 두 외국어(선택과목) 시험의 난이도가 동일하다면 자료점들은 y=x 직선을 중심으로 퍼지게 된다. 그런데, 이 플롯에서는 어떠한가?

자료점들이 대부분 y ≽ x 인 영역에 위치함으로 독일어 시험이 불어 시험 보다 쉬웠음을 플롯을 통하여 알 수 있다.

(8)

 산점도에서 볼 수 있는 것

<도표 6> : 자동차 52종의 배기량과 연료효율에 관한 자료

자동차의 배기량이 클수록 연료효율이 떨어지는 것은 당연

동일한 배기량으로 보다 나은 연료효율을 갖는 자동차를 개발하는것이 목표 산점도에서 관찰하여야 할 한가지 사항은 소수 군집의 존재여부

소수 군집이 존재한다면 그 이유를 탐구하여 볼 필요가 있다 (특이점도 소수 군집의 한 예이다)

(9)

<도표 7> : 어느 회사에서 근무하는 27명의 40대 남자 사원들의 교육 년수와 월 수입의 자료(가공한 자료)

자료의 크기는 27인데 플롯에서는 13개의 점만이 나타난다.

여러자료의 겹쳐있는 것을 시각적으로 분석하기는 어렵다 교육변수는 1 간격이고, 월 수입은 10 간격이다.

이에 대한 어떤 해결책이 있을까?

(10)

<도표 8> : <도표 7>의 질문의 해답이다.

이 플롯에 사용된 자료는 원 자료가 아니라

교육년수 교육년수 + 월 수입 월 수입 + 는 구간 (-0.5,+0.5)에서의 균일분포로부터의 난수

는 구간 (-5,+5)에서의 균일분포로부터의 난수

ε

x

ε

y

ε

x

ε

y

(11)

 유의사항

<도표 9> : 두 산점도는 앞의 <도표 6>에서의 자료를 각기 다른 척도로 다시 플롯 ②의 플롯이 보다 강한 두 변수간의 연관성을 갖는다고 생각

즉, 가로와 세로를 같게 하여 플롯을 그릴 것

(12)

 유의사항

<도표 10> : 시계열 플롯에서는 가로와 세로의 비를 갖게 하는 것이 꼭 원칙이라 할 수 없다.

①의 시도표(time plot)에서는 가로와 세로의 길이가 같게 되어 있어 약간 산만해 보인다

②의 시도표에서는 ①의 시도표보다 작지만 오히려 이 시계열의 특성인 주기성을 뚜렷이 볼 수 있다.

미니탭에서 시도표를 작성하는 데 쓰이는 명령어는 Graph > Character Graphs > Time Series Plot….

(13)

참조

관련 문서

따라서 본 연구는 기존 기업가정신 관련 연구들의 발전 흐름[3]을 따라 기존 연구의 한계를 극복 하기 본 연구에서는 기대이론을 이용해서 중국 창업가들 의 기대와

대한 해결책이 (C) 에서 언급된 고객에게 염두해 두고 있는 선호하는 휴가를 물어보는 것이 언급되어 있고 이에 대한 응답 , (Responses collected) 을 컴퓨터에 입력해 리스트를

자료분석을 통해 어떤 결론을 내리기 위하여는 그 결론에 대한 과학 적인 근거가 필요하다. 이에 대한

자료분석을 통해 어떤 결론을 내리기 위하여는 그 결론에 대한 과학 적인 근거가 필요하다. 이에 대한

자료분석을 통해 어떤 결론을 내리기 위하여는 그 결론에 대한 과학적인 근거가 필요하다. 이에 대한

이에 본 연구에서는 의과대학에서 의과대학 운영진에 의해 체계적인 운영과 교수학습 지원이 최우선으로 요구된 임상실습 교육과정이 어떤 점에서 이러닝을

그림은 어떤 위성 통신 서비스의 권역과 궤도를 나타낸 것이 다 이에 대한 설명으로

다음은 어떤 탑에 대한 문화재 해설사의 안내 내용이다 이에 해당.. 하는 자료로