• 검색 결과가 없습니다.

2장 자료정리와 요약

N/A
N/A
Protected

Academic year: 2022

Share "2장 자료정리와 요약"

Copied!
55
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

1장 복습

통계학의 목적

(a) 표본의 정보를 분석하여 모집단에 관한 결론을 내린다.

(b) 객관적인 결론을 내릴 수 있는 표본추출 방법을 제시한다.

<통계학이란>

 ( ) : 관심의 대상 전체 집단

 ( ) : 모집단의 일부를 측정하여 얻은 값의 모임

 ( )  ( )과정을 거치게 된다.

(2)

복습 : SPSS 프로그램 사용법 (부록 p385)

SPSS(S P for the S S )-통계분석 팩키지 SPSS 사용법

SPSS는 여러 개의 독립적인 창으로 구분되어 있으며 데이터 편집기,

뷰어,

명령문 편집기의 경우 각 자료는 따로 저장해야 한다.

데이터의 경우 ( .xx )로, 결과물의 경우 (파일명.xx), 명령문 은 파일명.sps로 저장된다.

=> 확인

?

(3)

1 자료의 구분

2 자료의 요약 방법

3 중심측도

4 변이측도

5 이변량자료

2장 자료정리와 요약

(4)

며느리도 몰라~ 편의점의 비밀 ‘진열 공식’

<세븐일레븐은 우천시에 대비한 전략>

우천시 가장 요구되는 고급 정보는 비가 내리기 시작하는 시간과 강우량이다. 오전에 비가 오면 고객들은 우산을 챙겨 나오지만 오후에 비가 올 경우 편의점에서 급하게 우산을 구입하는 경우가 많기 때문이다. 비가 많이 올 때는 접이식 우산보다는 장우 산을 찾는 경우도 많다. 우비의 판매량도 증가한다.

비나 눈이 내리면 우산마대를 입구 바로 옆으로 전진 배치하고 온장고 음료와 찐빵, 어묵 등을 판매대 입구 쪽으로 이동시킨다.

(5)

1. 자료의 구분

 자료는 범주형 자료(categorical data) 와

수치형 자료(numerical data) 로 나눈다

 범주형 자료(categorical data) 대상의 범주적 특성을 조사한 값이 다 - 결혼상태(결혼, 미혼), 혈액형(0, A, B, AB) 등

 수치형 자료(numerical data) 대상의 특성을 숫자 값으로 조사하여 얻은 자료의 두가지로 구분한다. 즉,

-연속형 자료(continuous data) 연속적인 값 몸무게, 생존기간등 측정하면

-이산형 자료(discrete data)이산적인 값

한 가정의 자녀 수나 택시 안에 타고 있는 승객의 수 등은 이산형으로 간주

(6)

2. 자료의 요약방법 - 그래프

자료의 요약순서 1. 도표 작성

2. 그래프 그리기

3. 그래프의 특징 파악

4. 자료의 중심위치의 수치 계산 5. 자료의 흩어짐에 관한 수치 계산

(7)

(1)범주형 자료그래프 – 막대그래프(Bar chart)

범주의 도수 = 해당 범주에 속하는 자료의 수

범주의 상대도수 =

총자료수 도수 범주의

해당

예제 2.1

어느 지역에서 조례의 개정안에 대해 300명 주민들의 의견을 조사하였다. 응답자는 찬 성, 반대, 중립의 세 가지 중에서 하나를 선택한다. 다음 표 1은 조사결과의 요약이다.

이 표에서 두 번째 열은 도수, 세 번째 열은 상대도수를 나타내었다. 상대도수 열에서 응답자 중 53.3%가 찬성, 21.7%가 반대, 25%가 중립임을 알 수 있다.

응답 도수 상대도수

찬성 160 160/300= 0.533

중립 75 75/300 = 0.25

반대 65 65/300 = 0.217

합계 300 1.000

(8)

(2)수치형 자료(이산형 자료)- 히스토그램

예제 2.2) 어느 가게에서는 가게 앞에 설치해 둔 커피 자판기의 고장횟 수를 25일간 조사하여 다음의 자료를 얻었다.

2 1 3 0 1 1 0 2 1 0

2 1 0 2 0 1 0 1 0 2

4 5 1 0 3

표 2.2 일 별 자판기 고장횟수

 이산형 자료에서 서로 다른 값들이 그렇게 많지 않을 때는 도수표 를 이용하면 특징 파악이 쉽다.

(9)

(2)수치형 자료(이산형 자료)-

히스토그램

값(x) 도수 상대도수

0 8 0.32

1 8 0.32

2 5 0.2

3 2 0.08

4 1 0.04

5 1 0.04

합계 25 1.000

(10)

(2)수치형 자료(연속형 자료)- 점도표 (Dot plot)

 연속형 자료의 경우에는 직선그림은 부적절한 경우가 많다. 따라서 연 속형 자료에 대해서는 점도표(dot diagram)와 히스토그램을 사용

◆ 점도표

점도표를 그리기 위해서는 먼저 가로로 직선을 하나 그리고 단위를 적 어 넣는다. 이 때 모든 측정값을 포함하도록 단위를 정하여야 한다. 그 런 후 각 측정값을 직선 위에 굵은 점으로 나타낸다.

예제 2.3) 어느 영어 학원에서 입학을 위해 실시한 레벨 테스트의 영어 회 화 성적은 5, 12, 7, 19, 13, 94이었다. 이 자료를 점도표로 그린 것 이 그림 2.3이다.

10 20 30 40 50 60 70 80 90

(11)

수치형 자료 (연속형 자료) -

 구간 도수분포

자료의 수가 많으면 점도표를 그리는 것은 번거로운 일이 된다. 이 경 우에는 히스토그램을 그리는 것이 좋다.

연속형 자료에 대한 히스토그램을 그리기 위해서는 먼저 자료를 구간 자료로 요약하게 된다.

♣ 구간도수를 구하는 법

(1) 자료의 최소값과 최대값을 구한다.

(2) 최소값과 최대값을 몇 개의 구간으로 나눈다.

(3) 각 구간에 속하는 자료의 개수, 즉 구간도수를 구한다.

(4) 구간도수를 총 자료 수로 나누어 상대도수를 구한다.

☞ 구간을 계급구간(class interval)이라고도 함

히스토그램

(12)

수치형 자료 (연속형 자료)

예제 2.4) 구간도수분포표의 작성

다음은 어느시장의 옷가게에서 고객이 구입한 옷값을 조사한 자료이다.

모두 40명을 조사하였다. 자료는 편의상 크기 순서로 정렬하였다. 자 료의 최소값과 최대값은 각각 4,000원과 10,200원이다. 편의상 길이 가 20인 계급구간을 택해 보자.

14 19 20 21 23 25 29 33 39 40 41 45 47 50 50 52 53 53 55 56 57 58 60 62 65 68 69 71 72 75 76 77 79 82 85 91 96 99 100 102

표 2.4 40명이 구입한 옷값 (단위:1,000원)

(13)

수치형 자료 (연속형 자료)

표 2.5 옷값 자료 도수분포표(단위: 1,000원)

계급구간 * 도수 상대도수

0-20 2 2/40=0.05

20-40 7 7/40=0.175

40-60 13 13/40=0.325 60-80 11 11/40=0.275 80-100 5 5/40=0.125 100-120 2 2/40=0.05

합계 40 1.000

* 좌측 경계값은 포함, 우측 경계값은 불포함. 상대도수의 합은 1임.

(14)

(2)수치형 자료(연속형 자료)- 히스토그램

 히스토그램

상대도수분포료를 얻고 나면 히스토그램을 그리는 일은 쉬운 일이다. 각 계급구 간 위에 사각기둥을 그리면 되는 데, 각 사각기둥의 높이는 사각기둥의 면적이 상대도수가 되도록 한다. 주의할 점은 모든 사각기둥의 면적의 합은 1이 되어야 한다는 것이다.

(15)

(2)수치형 자료(연속형 자료)-

줄기-잎 그림

 줄기-잎 그림

줄기-잎 그림(stem and leaf display)은 히스토그램의 한 종류로 볼 수 있는 그림이다. 줄기-잎 그림은 자료의 값이 2자리수의 값일 때 특히 유용하게 사용된다. 자료가 2자리수인 경우 10의 자리수 값은 줄기로, 1의 자리수의 값은 잎으로 그린다.

예제 2.5) 줄기-잎 그림 작성

어느 대학교의 통계학 중간고사 성적이 표 6과 같았다고 하자. 이 표 의 자료를 이용하여 줄기-잎 그림을 그려보자.

88 80 75 74 67 54 66 77 62 99 74 45 75 73 91 56 81 75 84 76 91 59 72 87 53 62 78 84 78 94 54 83 87 58 63 79 48 87 67 72 78 88 82 77 57 97 71 98 74 81 68 36 91 85 62 64 62 48 93 55

표 2.6 60명 학생의 시험성적

(16)

수치형 자료 (연속형 자료) -

줄기-잎 그림

절차

1. 세로 수직선을 그린다.

2. 세로 수직선 왼쪽에 숫자 0~9까지 차례대로 적는다.

3. 각 자료의 1의 자리수를 대응되는 10의 자리수 옆에 적는다.

4. 1의 자리수를 크기 순으로 정렬한다.

(17)

[[ 복습 ]]

• 데이터- ( ) 데이터와 ( )로 나눈다.

데이터요약 그래프로는

( )데이터의 그래프- (막대그래프) ( ) 데이터의 그래프는 - ( ),

( ), ( )등이있다.

• 그래프 주요용어로는

(상대도수),(계급)등

• 중심측도 –평균, 중앙값, 사분위수 ?

(18)

성숙한 인격의 8가지 자질 - 첫번째 용기 - 두려움을 극복하는 용기

( 빌 하이빌스)

당신은 두려움을 모르고 열정으로 극복한 뭉쳐진 라이트 형제를 원하십니까?

아님, 재능은 있지만 성공이라는 두려움 때문에 굴복한 샤무엘 랭글러 박사가 되겠습니까?

(19)

3. 중심측도 - 연속형자료

 자료의 특징을 나타내는 수치로는 평균과 표준편차 등이 있다.

 자료의 중심 위치를 나타내는 값을 중심측도라고 하는데, 평균은 중심 측도의 하나이다.

 자료의 흩어짐을 나타내는 값을 변이측도라고 하며 표준편차는 변이 측도의 하나이다.

(20)

3. 중심측도 – 평균 과 중앙값

예제 ) 2.3 3.7 4.5 5.1 3.3의 평균은?

 기호를 이용한 표본평균(sample mean)

자료의 개수를 자료를

n

x

n

x

x

1

,

2

,  ,

78 . 5 3

9 . 18 5

3 . 3 1 . 5 5 . 4 7 . 3 3 .

2      

n x n

x x

x x

n

i

i n

 

1

2

1

(21)

예제 2.6) 병원에서는 아이가 출생하면 먼저 몸무게를 측정 한다. 어느 병원에 조사한 출생시 아이의 몸무게는 3.1, 2.9, 4.0, 3.3, 3.0(kg)이었다.

26 . 5 3

3 . 16 5

0 . 3 3

. 3 0

. 4 9

. 2 1

.

3      

x

점도표

3. 중심측도 – Sample Mean(평균)

(22)

표준중앙값(sample median)은 자료를 크기 순으로 나열 했을 때 가운데의 값이다.

자료의 수가 홀수 : 번째 자료

자료의 수가 짝수 : 번째 자료와 번째 자료 두 개의 평균값

Ex) 2 5 7 11 자료의 중앙값은 (5+7)/2=6이 된다.

2

1 n

2

n 1

2 n

3. 중심측도 –Sample median(중앙값)

(23)

예제 2.7) 예제 2.6 출생시 몸무게의 표본중앙값을 구해보자.

먼저 자료를 크기 순으로 나열한다.

2.9 3.0 3.1 3.3 4.0

표본중앙값: 3번째 자료 즉, 3.1이 중앙값이 된다.3 2

1 5

예제 2.8) 어느 대학 병원의 심장병 수술 후 생존 일수를 크 기 순으로 정렬하면 3, 15, 46, 64, 126, 623이다.

6/2=3번째값 46, 6/2+1=4번째값 64

표본중앙값 = 55 2

64 46 

중심측도

(24)

 자료의 개수가 35이상이 되는 경우에는 자료를 크기 순 으로 4분의 1씩 나누는 값을 구하여 자료의 특징을 파악 하기도 한다.

 이 자료의 4분의 1이 되는 점을 표본사분위수(sample quartile)라고 한다.

 표본사분위수는 3개가 있으며 작은 것부터 차례대로 제1 사분위수, 제2사분위수, 제3사분위수라 하며 흔히

로 적는다.

3 2 1

,

Q

,

Q Q

중심측도 표본 사분위수 (sample quartile)

(25)

 자료의 개수가 오백 개 이상 되는 경우에는 자료를 크기 순 으로 100분의 1씩 나누어 자료의 특징을 파악하기도 한다.

이렇게 100분의 1씩 나눈 점을 백분위수(percentile)라 고 한다. 백분위수도 작은 것부터 차례대로 제1백분위 수, . . . , 제99백분위수라고 한다.

 표본의 제 100p백분위수란

자료의 작은 값부터 크기순으로 나열할 때 이 값보다 작거 나 같은 자료가 100p%이상이고, 이 값보다 크거나 같은 자료가 100(1-p)% 이상이 되는 이 자료의 값을 표본의 100p 백분위수 (sample 100pth percentile)이라 한 다.

중심측도

(26)

표본 사분위 수

제 1 사분위수 제 25 백분위수

제 2 사분위수(중앙값) 제 50 백분위수

제 3 사분위수 제 75 백분위수

1

Q

2

Q

3

Q

표본백분위수를 구할 때, 조건을 만족하는 값이 두 개 있으면 두 자료의 평균을 백분위수로 한다.

중심측도

(27)

예제 2.9) 어느 사거리에서 아침 시간의 교통소음을 10분 단 위로 측정하여 다음의 자료를 얻었다.

62.1 64.5 67.8 68.3 71.4 72.2 73.3 73.8 74.7 76.8 65.2 66.5 67.7 69.8 71.2 72.3 73.7 75.2 75.3 79.7 66.3 67.4 69.9 71.0 71.8 72.3 73.7 76.3 85.2 88.3

이 자료의 제1사분위수를 구해 보자. 제1사분위수는 제25백분위수와 같다.

즉, 먼저 자료를 크기 순으로 나열하면 다음과 같다.

★★★각자 해보기 시간 2분!!!

62.1 64.5 65.2 66.3 66.5 67.4 67.7 67.8 68.3 69.8 69.9 71.0 71.2 71.4 71.8 72.2 72.3 72.3 73.3 73.7 73.7 73.8 74.7 75.2 75.3 76.3 76.8 79.7 85.2 88.3

중심측도

자료의 수가 30개이므로 자료의25%는 7.5개이고 75%는 22.5개이다.

따라서 8번째의 값 67.8보다 작거나 같은 값은 8개, 크거나 같은 값은 23개이므로 제 1사분위수는 67.8이다.

(28)

복습1 –

데이터의 특징중 중심측도는

( ), ( ), ( )등이있다.

사분위, 100분위수 계산법?

예) 예제 2.9에서 제 80백분위수를 계산

하시오?

(29)

자료의 중심측도와 더불어 자료의 중요한 특징은 자료가 흩 어져 있는 정도이다. 만약 두 자료집합의 중심측도가 같더라 도 흩어짐의 정도는 상당히 다를 수 있다.

2.5 변이(variation)측도 –

자료의 퍼짐의 정도

(편차, 표본분산, 표본 표준편차, 표본범위, 표본사분위범위)

(30)

표본분산을 구하기 위하여 먼저 자료값과 표본평균과의 편차 를 생각한다.

1) 편차(deviation) = 자료값 – (표본평균)

=

xx

만약 자료가 3, 5, 7 이라면 평균은 (3+5+7)/3=5가 되며, 편차는 -2, 0, 2가 된다.

편차의 제곱을 합하여 (관측값의 개수-1)로 나눈 값을 표본 분산(sample variance)이라고 한다.

2) 표본분산 :

1 ) (

1

2 2

 

n

x x

s

n

i

i

변이측도 – 편차, 표본분산

(31)

예제 2.10) 자료 2, 5, 6, 8, 9의 표본분산을 구하라.

관측값 편차 (편차)^2

2 -4 16

5 -1 1

6 0 0

8 2 4

9 3 9

합계 30 0 30

x(x x)(xx)2 x x x (x x)2

5 6 30 

x 7.5

1 5

2 30

s

변이측도

(32)

분산은 편차를 제곱하여 합하므로, 단위가 원래 자료 단위의제곱이 다. 단위를 맞추기 위하여, 분산의제곱근을 변이측도로 사용하기도 한다. 분산의 제곱근을 표준편차(standard deviation)라고 한다.

표준편차는 원자료와 단위가 같기 때문에 분산보다 해석하기 좋아 서 많이 사용된다.

s

2

s  변이측도

3) 표본표준편차 :

예제 2.11) 예제 10의 표본표준편차는 표본분산 7.5의 양의 제곱 근한 값은 2.739이다.

예제 2.12) 자료 1, 2, 6, 10, 12의 표준편차를 구하면 이다.

53 . 4 5

. 20 

s

(33)

충분히 큰 자료 (대표본)에 대한 경험적 규칙 자료의 개수가 충분히 많을 때는 근사적으로

자료의 68%가 구간 안에 있다.

자료의 95.4%가 구간 안에 있다.

자료의 99.7%가 구간 안에 있다.

) ,

(xs xs

) 2 ,

2

(xs xs ) 3 ,

3

(xs xs

변이측도

(34)

예제 2.13) 자료의 개수에 대한 경험적 규칙을 사용하여 적용하여 표 2.6의 성적에 관한 자료의 범위를 조사하여 보자. 자료의 평균과 표준편차는

사이에 있는 자료의 개수는 59개이므로 59/60*100=98.33%가 된 다.

그리고 사이에 있는 자료의 수는

100%가 됨을 알 수 있다.

838 .

28 419

. 14 2

2 , 419 .

14

25 . 73

s s

x

) 088 . 102 ,

412 . 4 ( ) 838 . 28 25

. 73 , 838 . 28 25

. 73 ( ) 2 ,

2

(x s x s

) 507 . 116 ,

993 . 29 ( ) 3 ,

3

(x s x s

변이측도

(35)

표본범위(Range), 표본사분위범위(InterQuartile; IQR) 자료의 흩어짐을 나타내는 변이측도로 표본범위(sample range)가 사용되기도 한다.

4) 표본범위(Range)= 가장 큰 관측값 – 가장 작은 관측값 5) 표본사분위범위(IQR)=제 3 사분위수 – 제 1 사분위수

예제 2.14) 예제 2.9 교통소음 자료

가장 작은 관측값=62.1 가장 큰 관측값=88.3 표본범위는 88.3-62.1=26.2

제 3 사분위수 = 74.7 제 1 사분위수= 67.8 표본사분위범위= 74.7-67.8=6.9

변이측도 - 표본범위, 표본사분위범위

(36)

복습2 –

중심측도 3가지, 변이측도 5가지 - ㆍ ( ), ( ), ( )

변이측도의 5가지 -

• (편차 ), ( ), ( ), ( ), ( 표본사분위범위 )등이있다.

ㆍ 상자그림(Box Plot)? 분포모양파악 ?

이변량 자료분석 ? 분활표, 상대도수 활용 ?

(37)

어느 사거리에서 아침 시간의 교통소음을 10분 단위로 측정 하여 다음의 자료를 얻었다.

이 자료의 제1사분위수를 구해 보자. 제1사분위수는 제25백분위수와 같다.

즉, 먼저 자료를 크기 순으로 나열하면 다음과 같다.

62.1 64.5 65.2 66.3 66.5 67.4 67.7 67.8 68.3 69.8 69.9 71.0 71.2 71.4 71.8 72.2 72.3 72.3 73.3 73.7 73.7 73.8 74.7 75.2 75.3 76.3 76.8 79.7 85.2 88.3

복습 ( 예제 2.9)에서

자료의 수가 30개이므로 자료의25%는 7.5개이고 75%는 22.5개이 다. 따라서 8번째의 값 67.8보다 작거나 같은 값은 8개, 크거나 같은 값은 23개이므로 제 1사분위수는 67.8이다.

1) Q1 ? 2) Q3 ? 3) IQR ?

4) Range(범위) ?

5) 편차, 분산, 평균, 중위수 ?

(38)

 상자그림( Box Plot)

자료에 대하여 그림을 그려 보면 한 눈에 자료의 분포 특 징을 파악 할 수 있다.

자료의 표본범위와 표본사분위범위를 시각적으로 보여 주는 그림은 상자그림(box plot)이다.

변이측도 - 상자그림

(39)

 주어진 표본단위에 대하여 두 가지(범주형데이터) 특징값을 기 록하여 얻은 자료를 이변량 자료라고 한다.

이변량 자료(bivariate data)의 경우 각 변수의 중심위치, 변이 도 이외에도 변수들 사이의 관계의 정도가 중요한 특징이다. 또 한 하나의 변수의 값으로부터 나머지 변수의 값을 예측할 수 있 는지의 여부도 중요한 특징이다.

- 성별과 직업 유형 , 흡연 습관과 폐활량, 월급액과 저축액 - 분할표(이원 도수 분표표) 활용, 분석

2.6 이변량 자료 – Bi-variate data

예제 2.16) 선거 여론 조사

어느 지역에서 400명의 사람을 뽑아 선거에 대한 태도를 조사하여 다음 분할표를 작성하였다.

높음 중간 낮음 합계

여자 82 26 72 180

남자 62 54 104 220

합계 144 80 176 400

표 2.9 선거관심도에 관한 분할표 (성별과 태도)

(40)

높음 중간 낮음 합계 여자 0.205 0.065 0.18 0.45 남자 0.155 0.135 0.26 0.55

합계 0.36 0.2 0.44 1.00

높음 중간 낮음 합계

여자 0.456 0.144 0.400 1.000 남자 0.282 0.245 0.473 1.000

이변량 자료

(범주형 자료)- 상대도수활용

표 2.10 전체에 대한 상대도수 분포표 (성별과 태도)

표 2.11 주변합(행)에 대한 칸 상대도수 분포표 (성별과 태도)

(41)

• 표 2.11의 값들을 보면 두 집단의 태도가 다름을 알 수 있다

(표 2.10보다 표2.11태도를 파악하기 더욱 쉬움).

• 즉 여자들이 남자들보다 관심도가 높은 사람이 많 은 것 같다 (약 1.6배)

• 이러한 관측이 우연인가 아니면 남자들이 정말 관

심이 낮아서 그러한가를 알아보아야 한다.

(42)

 두 변수를 문자 x와 y로 나타내자. n개의 표본단위를 관 측하면 n개의 이변량 자료가 얻어지며 이를

으로 나타내기로 하자.

) , ( , ), ,

(x1 y1 xn yn

◆ 이변량 측정값에서 x의 값만 택하면 하나의 변수에 대 한 자료가 된다. 따라서 측정값 x의 히스토그램을 그리 거나, 평균, 표준편차, 기타 여러 가지 통계값을 계산할 수 있다.

◆ 두 변수 사이와 관계는 산점도(scatter diagrams)를 그려서 시각적으로 파악 할 수 있다. 산점도는 변수 x 를 수평선에 변수 y는 수직선에 표시하고 관측된 값 (x,y)를 점으로 표시한 그림이다.

이변량자료 ( 수치형 자료 )-산점도활용

(43)

예제 2.17) 사람의 나이에 따라 근력의 변화관계( 선형관계) 를 알아보기 위하여 9명의 남성대상 측정 다음의 결과를 얻었다 ( 즉, 산점도 그림에 의해 근력과 나이의 특징파 악).

20 27 31 38 43 49 50 54 56

근력(kg) 29 28 26 24 25 20 19 19 14

이변량자료 (수치형)- 산점도 활용

나 이

(44)

 점들이 직선에 밀집한 정도를 수치로 나타낸 것이 표본 상관계수(sample correlation coefficient)이다.표 본상관계수(r)는 두 변수 사이의 선형관계의 정도를 나 타내는 값이다. 다음은 표본상관계수 r의 특징이다.

(a)

(b) r의 절대값은 선형관계의 강도를 나타낸다.

(c) r의 부호는 방향을 나타낸다.

(1) r의 절대값이 커지면, 직선의 둘레에 더 밀집하게 된다.

(2) r=+1 혹은 -1이면 모든 점들이 직선 위에 놓여져 있다.

(3) r=0은 두 변수사이에 상관관계가 없음을 나타낸다.

(4) : (x,y)점들이 왼쪽 아래에서 오른쪽 위로 띠모양을 이룬다.

(5) : (x,y)점들이 왼쪽 위에서 오른쪽 아래로 띠모양을 이룬다.

1 1 

r

0 r

0 r

이변량자료 (수치형 자료) – 상관계수 (r)활용

(45)

 상관계수의 성질을 이해하는 것은 사실 매우 어렵다. 따라서 여기서는 이변량 모집단(X,Y)로부터 관측된 표본 (x1,y1), (x2,y2), …, (xn,yn) 을 이용하여 두 변수의 선형관에 대하여 알아보기로 한다.

이변량자료 (수치형 자료- 상관계수 r 과의 관계)

(46)

 표본상관계수 r은 두 변수 x와 y사이의 선형관계를 나타 내는 측도이다. 그러나 표본상관계수가 1에 가까운 값이 라고 하더라도 두 변수 사이에 강한 관계가 있다고 말할 수 없는 경우가 있다.

 표본상관계수의 값이 클 수는 있지만 두 변수 사이에 상관이 높다고 하기는 어렵다.

 서로 다른 두 개의 집단에서 자료가 얻어져서 생겨나는 현 상일 수 있다.

이변량자료 (수치형)- r 의 그림해석 주의

(47)

예제 2.18

예제 2.2의 커피 자판기 고장횟수 데이터를 SPSS를 이 용하여 상대도수분포표와 막대도표를 작성해보자.

SPSS를 이용한 실습

커피 자판기 고장횟수 데이터를 아래와 같이 입력한다.

(48)

 실행순서

커피자판기의 고장횟수에 대한 상대도수분포표와 막대 도표를 작성하기 위해서는 다음과 같은 순으로 선택한다.

SPSS를 이용한 실습

(49)

SPSS를 이용한 실습

(50)

예제 2.19

예제 2.5의 통계학 중간고사 성적 데이터를 SPSS를 이 용하여 중심측도와 변이측도를 나타내는 값을 구하고 줄 기-잎 그림과 상자그림을 작성하라.

SPSS를 이용한 실습

예제 2.17과 같은 방법으로 예제 2.5의 통계학 중간고사 성적데이터를 SPSS에 입력한다.

 실행순서

중심측도와 변이측도를 나타내는 값과 도표를 작성하기 위해서는 다음과 같은 순으로 선택한다.

(51)

SPSS를 이용한 실습

(52)

SPSS를 이용한 실습

(53)

복습 –

ㆍ데이터의 특징중 중심측도는

( ), ( ), ( )등이있다.

ㆍ사분위, 100분위수 계산법?

예) 예제 2.9에서 제 90, 75백분위수를 계 산 등등

ㆍ줄기-잎 그림의 결과로 상자그림(Box

Plot) 그리기? 분포모양파악

(54)

복습 –

• 데이터의 특징중 변이측도로는 (편차 ), ( ), ( ), ( ),

( 표본사분위범위 )등이있다.

• 이변량 데이터요약-

범주형- ( ),(주변합의 상대도수) 수치형- ( 산점도), ( )

• 2장 Hw : 4, 12, 24, 32, 39, 44, 48

(단 32번은 spss실행 후 결과를 부분 복사(캡쳐)해서 분

석 제출)

(55)

네 안에 잠든 00을 깨워라 –앤서니 라빈슨

참조

관련 문서

지수분포가 확률밀도함수임을

제 3주 수치를 통한 연속형

예제: Ubuntu

이 공정은 매일 하나의 뱃치만 작업할 수밖에 없으므로, 이상이 있는 경우 속히 조치를 취하지 않으면 막대한 경제적 피해를 본다.. 이를 관리하기 위해서

Lab., Hanyang Univ.. Lab., Hanyang Univ.. Lab., Hanyang Univ.. Lab., Hanyang Univ.. Lab., Hanyang Univ.. Lab., Hanyang Univ.. Lab., Hanyang Univ.. Lab., Hanyang Univ..

2장 아동발달의 이론.. 정신분석이론. 1)

2015년 2학기 프로그래밍개론및 실습 과목으로 본 내 용은 강의 교재인 생능출판사 , 두근두근 C 언어 수업,..

서비스 콘셉트 평가 및