• 검색 결과가 없습니다.

상관계수

N/A
N/A
Protected

Academic year: 2022

Share "상관계수"

Copied!
16
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

탐색적 자료분석(Exploratory data analysis)

다섯 수치 요약

상자 그림

(2)

다섯 수치 요약(Five-number summary)

1 최소값

1사분위수 중앙값

3사분위수 최대값

2 3 4 5

(3)

다섯 수치 요약

425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615

최소값 = 425 1사분위수 = 445 중앙값 = 475

3사분위수 = 525 최대값 = 615

(4)

375

375 400400 425425 450450 475475 500500 525525 550550 575575 600600 625625

상자의 양 끝은 1사분위수와 3사분위수에 위치하게 한다.

상자 그림(Box Plot)

상자안에 수직선을 중앙값 위치에 그린다 (2사분위수).

Q1 = 445 Q3 = 525 Q2 = 475

(5)

상자 그림

 사분위수간 범위(IQ R=Q 3-Q 1)를 사용하여 상한선과 하한선을 그린다.

 이 범위 밖의 자료는 극단값이라고 할 수 있다.

 각 극단값의 위치는 *로 표시한다.

… 계속됨

(6)

하한선: Q1 - 1.5(IQR) = 445 - 1.5(80) = 332.5

상자 그림

상한선: Q3 + 1.5(IQR) = 525 + 1.5(80) = 637.5

 하한선은 Q1보다 아래쪽 1.5(IQR) 이다.

 상한선은 Q3 보다 위쪽 1.5(IQR)이다.

 아파트 월세자료에서 극단값 (332.5보다 작거나 637.5 보다 큰 값)은 없다.

(7)

상자 그림

 상자의 양끝에서 한계선내에 최소값과 최대값까지 점선(whiskers)을 그린다.

375

375 400400 425425 450450 475475 500500 525525 550550 575575 600600 625625

한계선내 최소값 = 425 한계선내 최대값 = 615

(8)

두 변수간의 연관성 측정

(Measures of association between two variables)

공분산

상관계수

(9)

공분산(covariance)

양의 값은 양의 관계를 나타낸다. 음의 값은 음의 관계를 나타낸다.

공분산은 두 변수의 선형관계를 측정하는 척도이다.

(10)

공분산

공분산은 아래와 같이 계산된다:

표본의 경우

모집단의 경우

s x x y y

xy   in i

( )( )

s x x 1y y

xy   in i

( )( )

1

  

xy

i x i y

x y

  (  N)(  )

  

xy

i x i y

x y

  (  N)(  )

(11)

상관계수(correlation coefficient)

+1값에 가까울수록 강한 양의 선형관계를 나타낸다.

-1값에 가까울수록 강한 음의 선형관계를 나타낸다.

상관계수는 -1 에서 +1사이의 값을 갖는다.

(12)

상관계수는 아래와 같이 계산된다:

표본의 경우 모집단의 경우

r s

xy

s s

xy x y

r s

xy

s s

xy x y

  

 

xy

xy x y

 

xy

xy x y

상관계수

(13)

상관계수

두 변수가 높은 상관관계를 갖는다고 해도, 한 변수가 다른 변수의 원인이 된다는 것을 의미하지는 않는다.

예, 식당의 일반적인 식사가격과 음식의 질

상관관계는 변수들 간의 선형관계를 측정하는 것이지 반드시 인과관계를 측정하는 것은 아니다.

(14)

 어떤 골프선수가 드라이빙 거리와 18홀 점수간에 서로 관계가 있는지에 대하여 조사하고자 한다.

277.6 259.5 269.1 267.0 255.6 272.9

69 71 70 70 71 69 평균 드라이빙

거리 (yds.)

평균 18홀 점수

공분산과 상관계수

(15)

공분산과 상관계수

277.6 259.5 269.1 267.0 255.6 272.9

69 71 70 70 71 69

x y

10.65 -7.45 2.15 0.05 -11.35 5.95

-1.0 1.0 0 0 1.0 -1.0

-10.65 -7.45

0 0 -11.35 -5.95

( x x

i

 )

( x x

i

 ) ( ( y y y y

ii

  ) ) ( ( x x y y x x y y

ii

  )( )(

ii

  ) )

평균 표준편차

267.0 70.0 -35.40

8.2192 .8944

합계

(16)

 표본 공분산

 표본 상관계수

공분산과 상관계수

7.08 -.9631 (8.2192)(.8944)

xy xy

x y

r s

s s

  7.08 

-.9631 (8.2192)(.8944)

xy xy

x y

r s

s s

   

( )( ) 35.40 7.08

1 6 1

i i

xy

x x y y

s n

  

   

 

( )( ) 35.40 7.08

1 6 1

i i

xy

x x y y

s n

  

   

 

참조

관련 문서

③한 평면에 수직인 서로 다른 두 평면은 한 직선에서

두 쌍의 대각의 크기가 각각 같다.. 두 대각선이 서로

는 상대방의 말에 대한 반대 의견을 나타내는 표현이다.. 식당의 음식이 좋았다는 말에 대 한 반대 의견을 표현하고 이유를 말하는

또 대상지 주변의 도심공원에 대한 만족도가 높은 사람은 보다 높은 지불 의사액을 보이고 있었는데, 이는 대상지의 가치가 주변지역에 대한 평가와 연계되어 형성 된다는

는 상대방의 말에 대한 반대 의견을 나타내는 표현이다.. 식당의 음식이 좋았다는 말에 대 한 반대 의견을 표현하고 이유를 말하는 흐름의 ⑤에

⑤ 한 쌍의 대변이 평행하고 다른 한 쌍의 대변의 길이가 같으 므로 ABCD는 평행사변형이 아니다.. ㉡ 두 쌍의 대변의 길이가 각각

두 원기둥은 한 도형을 일정한 비율로 확대하거나 축소해도 다른 도형과 합동이 되지 않을 수도 있다.. 두 정육면체와 두 직각이등변삼각형은 한

- 제3정규형은 데이타중복을 제거하기 위한 데이타베이스 설계의 일반적인 목표 - 그 이상의 정규형은 별로 폭넓게 사용되지 않는다.. ■