• 검색 결과가 없습니다.

제3장 자료의 요약

N/A
N/A
Protected

Academic year: 2022

Share "제3장 자료의 요약"

Copied!
11
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

제3장 자료의 요약

(2)

학습목표

앞에서 도수분포표와 그래프에 의한 자료의 정리를 알아보았다. 그러 나, 자료를 시각화하는 것만으로 자료집단의 특성과 성격을 분명하게 알 수는 없다. 자료 값들이 어느 위치에 밀집되어 있고, 어떻게 흩어져 있는지 수량적으로 표현할 필요가 있다.

자료의 요약 : 자료의 분포가 가지고 있는 중요한 특성을 수치로 나타 낸 것

집중화 경향 : 자료가 분포되어 있는 중심을 나타낸 것

산포도 : 자료가 흩어져 있는 정도

비대칭도 : 자료가 대칭상태를 기준으로 어느 방향으로 치우쳐 있는 정도

첨도 : 분포의 모양이 뾰족한 정도

(3)

집중화 경향(1)

대표치 : 집중화 경향을 나타내는 수치, 평균, 중앙치, 최빈치

평균

1) 평균의 계산

2) 가중평균의 계산

3) 도수분포표에서의 평균

4) 절사평균

50% 절사평균이란 자료를 크기 순서대로 배열하였을 때, 가운데 50% 위치 하는 항목들의 산술평균을 말함

N X N

X X

X

N

i i

N

1 2 1

n

X n

X X

X X

n

i i

n

1 2 1

N f f

f f

f f

f i

k

i i

k k k

 

 

1

2 1

2 2 1 1

N M f f

f f

M f M

f M

f i

k

i i

k k

k

1

2 1

2 2 1 1

(4)

집중화 경향(2)

 중앙치 : 자료가 비대칭일 경우 분포의 중심을 측정하는 데 적합

 중앙치의 계산

중앙치는 자료집단에서 자료 값을 크기 순서대로 나열했을 때 중앙에 위치하는 값이다.

만일 전체 자료의 수가 짝수라면 중앙에 두개의 값이 위치 하게 되므로, 이때는 이 두 값의 평균을 중앙값으로 정의한 다.

 도수분포에서의 중앙치 계산

n I L n

M

d 



2

1 Md : 중앙치

L : 중앙치가 속한 계급의 하한치

n1 : 중앙치가 속하는 계급에서 중앙치에 해당하는 항목까지의 항목 수 n2 : 중앙치가 속하는 계급의 항목 수

I : 계급구간의 넓이

짝수 홀수

n X

X M

n X

M

n n

e

n e

: 2 / ) (

:

1 ) 2 / ( 2

/ 2 / ) 1 (

(5)

집중화 경향(3)

 최빈치 : 가장 빈도가 많은 관찰값

 최빈계급 : 도수분포표에서 빈도(도수)가 제일 큰 계급

단봉분포

쌍봉분포

 백분위수 : 크기 순으로 배열한 자료를 100등분 하는 수

 제

p

백분위수 : 자료를 크기순으로 배열하였을 때

p

%의 관찰값이 그 값보다 작거나 같고, (100-

p

)%의 관찰값이 그 값보다 크거나 같게 되는 값

(6)

산포도

평균은 같지만 이 두 집단은 분명히 차이가 있다.

무슨 차이가 있을까?

바로! 흩어져 있는 상태가 다르다.

A집단은 평균을 중심으로 좁게 밀집되어 있고, B집단은 넓게 흩어져 있다.

다르게 표현하면, A는 퍼짐 정도가 (산포도)작고, B는 퍼짐 정도(산포도)가 크다.

• 산포도의 측정 방법 : 범위, 분산, 표준편차, 변동계수

(7)

범위

 범위 : 산포도를 측정하는 가장 단순한 방법

R : 범위 = 최대값 - 최소값

예제) 측정치 2,3,3,5,5,8,9의 범위

가장 큰 값 9에서 가장 작은 값 2를 뺀 값 7이 범위값이다.

 일반적으로 범위는 자료의 퍼짐 정도를 나타내기 위한 매 우 단순한 척도가 된다. 그러나, 자료에 이상 값이 존재하 는 경우 결정적인 영향을 받게 되어 잘 이용되지 않는다.

 사분위범위수 : 제1사분위수와 제3사분위수의 차이

(8)

분산

 분산의 계산

 도수분포에서의 분산의 계산

N X N

X X

X

N i

i

N

1

2 2

2 2

2 2 1

) ) (

( )

( )

(

 

1 ) (

1

) (

) (

)

( 1

2 2

2 2

2 2 1

n X X n

X X

X X

X s X

n

i

i

N

모집단 분산

표본분산

N M f

k i

i

i

1

2 2

) (

K : 계급의 수

fi : i번째 계급의 도수(빈도수) Mi : I번째 계급의 중간점

N : 전체 자료의 수

(9)

표준편차

표준편차의 계산

체비셰프 부등식

자료의 모양이 정확히 알려져 있지 않더라도 평균과 표준편차만 알면 이 부 등식을 이용하여 분포에 대하여 어느 정도 알 수 있음

어떤 자료에서든, 또한 자료의 변동이 어떤 형태를 취하든 간에 평균으로부 표준편차 범위를 벗어나는 자료의 비율은 많아야 1/k2

평균으로부터 k표준편차 이내에 포함될 자료의 비율은 최소한 1-(1/k2)이 된다.

N X

N i

i

1

)2

(

1

) (

1

2

n X X s

n

i

i

k

(10)

변동계수

 표준편차는 자료의 절대적 변이성을 측정 하기 위한 것인데, 경우에 따라서는 상대 적 변이성이 더 의미가 있을 수 있음

 변동계수 : 상대적 변이성을 측정하기 위

한 도구로 표준편차의 평균에 대한 비율

을 %로 나타낸 것

(11)

비대칭도

비대칭도 : 자료가 대칭분포에서 벗어난 정도

자료 집단의 분포가 왼편 또는 오른편으로 얼마나 기울어져 있는 가를 측량하는 단위

비대칭도의 측정 : 피어슨의 비대칭계수

s M S 3 ( X

d

)

표준편차 중앙치 평균 :

: :

s M X

d

분포가 대칭 : S=0 분포가 왼쪽 꼬리 비대칭 : S<0 분포가 오른쪽 꼬리 비대칭 : S>0

참조

관련 문서

예를 들어 시계열 자료인 주가의 자료를 보면 자료의 변동성이 매우 크다는 것을 알 수가 있다.. 즉, 경제시계열 자료들은 시간에 따라 상승이 지속되기 도 하고

사무업무의 생산성 향상 척도 기준으로 적합하지 않은

중앙값은 자료의 값의 개수가 짝수이면 자료를 작은 값 부터 크기순으로 나열할 때, 중앙에 있는 두 자료의 값 의 평균이므로 자료에

현재로서는 단순히 혈류 속도의 측정을 통한 장기적인 측면에서 살펴볼 수 있 는 건강 지표에 대하여 정확히 알 수는 없지만 , 어쨌든 연구진은 이번 연구에서 관상

[r]

Þ단, UCC사이트에 동시에 업로드 된다는 측면에서 UCC는 아니 나 UCC사이트를 통해 마케팅을 하고 있다는 것은 성립된다. 그러 나 드라마나 만화영화가 UCC사이트에 올라가 있다고

그러 나 부산지방노동위원회는 피신청인인 현대자동차는 ‘사용자가 아니다’라는 이유로 구제신청을 각하하였으며 중앙노동위원회도

개로 구성된 포트폴리오의 효율적 투자기회선을 구하는데 필요한 자료의