Section 4.1 산점도와 상관
1) 인구의 변화와 범죄발생률(p.131) <생각?>
① 개별 변수 x와 y의 변화
→ 연도별로 막대그래프로 나타냄
② 인구의 변화와 범죄발생률 과의 관계 → 산점도로 나타냄.
→ 양의 연관성의 예
, 인구의 변화가 많을 수록 범죄발생률이 높아짐
<참고> 변수들 사이의 관계를 효과적으로 알려면
① 한 변수를 이해하기 위해서는 다른 변수들과의 관계를 살펴봄.
② 자료가 의미하는 것이 무엇인지를 살펴 보기 위해서는 그래프 그려 보자.
2) 산점도
⇒ 산점도는 두 양적 변수들의 관계를 나타내는데 사용되는 가장 일반적인 방법이다.
(예) 그림
① 설명변수(독립변수) : 인구의 변화 ② 반응변수(종속변수) : 범죄발생률
⇒ 설명변수가 증가하면, 반응변수도 증가하는 추세임을 알 수 있다.
<알아두기> 산점도
① 같은 척도로 측정된 두 양적변수에 대한 관계를 나타냄.
② 한 변수(설명변수 x)의 값은 가로축에 표시되고 나머지 변수 (반응변수 y)의 값은 세로 축에 표시됨.
③ 자료의 개별적인 관측 값은 두 변수에 해당하는 좌표에 점으로 나타남.
◀ 예제1 ▶ 인(p)의 발견
⇒ 설명변수 : 입수에서 임의 집중도 반응변수 : 출수에서 인의 집중도
→ 입수량이 많을 수록 출수량이 많을까?
P.133 그림 4-1 ⇒ 양의 연관성이 존재
3) 산점도의 해석
① 산점도에 대한 전체적인 형태는 모양, 방향, 강도로 설명될 수 있다.
② 자료의 전체적인 형태에서 벗어나 있는 관측 값을 이상점 이라고 한다.
<알아두기> 연관성 ① 양의 연관성
⇒ 산점도의 기울기는 왼쪽에서 오른쪽 방향으로 위를 향한다.
(예) 키(x)와 몸무게(y)의 관계 ② 음의 연관성
⇒ 산점도의 기울기는 왼쪽에서 오른쪽 방향으로 아래를 향한다.
(예) 흡연량(x)와 수명(y)과의 관계
몸무게 수명
키 흡연량
양의 연관성 음의 연관성
◀ 예제 ▶ 화석의 분류
⇒ 시조새의 대퇴부(다리의 뼈)와 상박부(팔 윗부분의 뼈)의 길이 사이의 관계
4) 상관
♣ 앞에서 : 산점도는
⇒ 두 변수들 사이의 방향, 모양, 관계의 강도를 나타낸다.
→ 관계의 정도를 그림으로 확인
♣ 지금의 : 상관계수(correlation coefficient)
⇒ 두 양적변수의 직선적인 관계에 대한 방향과 강도를 나타낸다.
→ 상관계수는 보통 r 로 표시한다. ♣ 상관계수 r은
-1 ≤ r ≤ 1
사이의 값을 갖는다.
<참고> 상관계수 값에 따른 상관의 정도
상관계수 r = 0 상관계수 r = -0.3
상관계수 r = 0.5 상관계수 r = -0.7
상관계수 r = 0.9 상관계수 r = -0.99
◀ 예제3 ▶ 상관계수의 계산
<참고> 상관계수를 구하는 공식
5) 상관계수의 이해
⇒ 상관계수를 계산하는 것보다 더 중요한 것은, 상관계수로 어떻게 연관성을 측정할 수 있는지를 이해하는 것이다.
♣ 다음은 상관계수의 성질들이다.
① r이 양수이면 두 변수들은 양의 연관성을 갖고, r이 음수면 음의 연관성을 갖는다.
② 상관계수 r은 -1에서 1사이의 값을 갖는다.
③ 모든 측정단위가 변해도 상관계수는 변하지 않는다.
④ 상관계수는 설명변수와 반응변수를 구별하지 않는다.
→ 만일 설명변수를 반응변수로, 반응변수를 설명변수로 바꾸어도 상관계수는 변하지 않는다.
⑤ 상관계수는 단지 두 변수의 직선적인 연관성의 강도만을 측정한다.
→ 변수들 사이의 곡선적인 관계를 나타내지 않는다.
⑥ 평균과 표준편차처럼 상관계수도 이상점에 영향을 많이 받는다.
<참고> 상관계수 사용의 한계
① 상관계수는 단지 양적변수에 대해서만 의미가 있다.
→ 유권자의 성별과 그들이 선호하는 정당과의 관계는 상관계수로 나타낼 수 없다.
② 뼈의 길이처럼 양적 변수라 할지라도 상관계수는 단지 직선적 연관성만을 측정한다.
→ 어느 변수가 어느 변수에 더 영향을 미치는 가는 알 수 없다.
⇒ 상관의 정도가 약해 짐.