• 검색 결과가 없습니다.

제 4장 데이터의 요약-2

N/A
N/A
Protected

Academic year: 2022

Share "제 4장 데이터의 요약-2"

Copied!
28
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

제 4장 데이터의 요약-2

4.1 값(value)에 의한 정리

4.1.1 중심위치를 나타내는 측도들 4.1.2 산포를 나타내는 측도

4.1.3 분포의 형태를 나타내는 측도 4.1.4 엑셀 실습

4.2 상자그림의 구성

4.3 집단화된 자료의 요약 4.4 백분위수(percentiles)

4.5 체비세프(Chebyshev rule)의 법칙 4.6 z 점수(z score)

(2)

4.1 값(value)에 의한 정리

 데이터를 대표할 수 있는 구체적인 값으로 데이터를 요약하는 방법을 학습

 데이터 전체를 대표할 수 있는 대푯값으로 요약하는 경우에는 중심위치 (location)와 산포(spread)의 두 가지 측면을 동시에 고려하여 요약한다

(3)

데이터를 대표적인 값으로 요약할 때 주로 사용하는 측도

① 중심 위치와 관련한 측도 - 평균, 중앙값, 최빈값

② 산포와 관련한 측도

- 분산, 표준편차, 범위, 사분위수 범위

③ 기타 측도 - 왜도, 첨도

(4)

4.1.1 중심위치를 나타내는 측도들

 데이터의 중심위치가 어디인가를 찾아 요약하는 것으로,

평균(mean), 중앙값(median), 최빈값(mode) 등이 있다.

 이들의 첫 글자를 따서 이들을 3M이라고 부르기도 한다.

(5)

(1) 평균(mean)

 데이터의 중심위치의 측도로서 가장 많이 사용되며, 모든 데이터 값들의 합을 전체자료의 개수로 나눈 것

 각 자료에서 유일하게 구해짐

 극단값(매우 크거나 작은 관찰값)에 의해 영향을 쉽게받음

 모집단에서의 평균 : 모평균(population mean)

 표본에서의 평균 : 표본평균(sample mean)

 기하적 의미로서 평균은 무게중심을 의미함

(6)

(1) 평균(mean)

 데이터의 수 :

 데이터 :

 표본평균(sample mean)은

 예) 5개의 측정값 2.3, 3.7, 4.5, 5.1, 3.3의 평균?

n x n

x x

x = x

1

+

2

+

n

=

i

n

x

n

x

x 1 , 2 ,

(7)

(2) 중앙값(median)

 데이터를 크기 순서대로 나열했을 때, 가운데 위치하는 값

 중위수라고도 함

 전체 데이터의 수를 n이라고 할 때 중앙값은 n이 홀수인지, 짝수인지에 따라서 달라진다

- 예) n이 홀수이면 (n+1)/2번째 값이 중앙값, 짝수이면 n/2번째 값과 n/2 +1 번째 값의 평균이 중앙값이 된다

(8)

(3) 최빈값(mode)

 데이터값 중에서 빈도가 가장 높은 데이터를 최빈수 혹은 최빈값이라 함

 데이터에 따라 존재하지 않을 수도 있으며 동시에 두 개 이상이 존재할 수도 있음

 극단값에 의해 영향을 받지 않음

 중심위치를 평균으로 사용하여 데이터를 요약하는 것이 그 집단 전체를 대표 하는 값이 아닐 수도 있음

(9)

4.1.2 산포를 나타내는 측도

 산포(spread)는 데이터가 얼마나 퍼져 있는가 즉 얼마나 흩어져 있는가를 나타 내는 측도

 산포를 나타내는 측도는 분산, 표준편차, 평균절대편차, 범위, 사분위수 범위 등을 고려할 수 있다.

(10)

(1) 분산(variance)

 데이터의 산포를 나타낼 때 가장 많이 사용되고 있는 측도

 분산이란 각각의 데이터와 데이터의 평균과의 차이에 근거하여 산출하는 값이 다

 즉 차이들을 제곱하여 합하고 이를 데이터의 수로 나눈 것

(11)

 데이터가 평균을 중심으로 많이 흩어져 있을수록 분산이 커지고, 많이

몰려 있을수록 분산은 작아진다.

(12)

(2) 표준편차(standard deviation)

 분산의 제곱근을 표준편차라 한다.

 모집단의 표준편차 = 모표준편차

(population standard deviation)

 표본의 표준편차 = 표본표준편차(sample standard deviation)라 하며 s로 나타낸 다.

예) 분산 =9, 표준편차 =3

s 2 : 분산, s : 표준편차

2

1

n 2

= = ∑ −

(13)

(3) 범위(range)

 산포를 표현하는 가장 쉬운 개념의 측도

 데이터의 최댓값과 최솟값의 차

 즉 데이터가 퍼져있는 영역의 크기를 나타내는 값 예) 교통소음 데이터

62.1 64.5 65.2 66.3 66.5 67.4 67.7 67.8 68.3 69.8 69.9 71.0 71.2 71.4

71.8 72.2 72.3 72.3 73.3 73.3 73.7 73.8 74.7 75.2 75.3 76.3 76.8 79.7 85.2 88.3

범위 = 88.3 – 62.1 = 21.2

(14)

범위의 단점

 범위는 쉽게 구할 수 있는 통계량이나 많은 정보를 제공하지 못한다

(15)

(

4) 사분위수 범위(Inter-quartile range)

 범위는 두 개의 극단값(최댓값과 최솟값) 외의 다른 측정값들을 이용하지 않는 단점이 있음

 이를 보완한 것이 사분위수 범위(Inter-quartile range)

 사분위수 범위 = Q3(제3사분위수)-Q1(제1사분위수)

 데이터를 작은 것부터 큰 것까지 오름차순으로 나열하고 같은 크기로 4등분한 수를 사분위수(quartile)

 아래로부터 첫 번째 사분위수를 1사분위수(first quartile) 혹은 아래사분위수라 부르고 Q1으로 표기

(16)

 제1사분위수 = Q1

 제2사분위수(중앙값) = Q2

 제3사분위수 = Q3

(17)

4.1.3 분포의 형태를 나타내는 측도

 평균 주변의 3차 적률(moment)을 표준편차로 규격화한 것

 평균에 대한 비대칭 정도를 나타내는 지표

 분포가 좌우대칭일 때 왜도는 0이 됨

 양수이면 분포의 비대칭 꼬리가 양의 값 쪽으로 치우침, 음수이면 분포의 비 대칭 꼬리가 음의 값 쪽으로 치우침

 분포가 정규분포로부터 얼마만큼 이탈해 있는가를 나타내는 지표로써 이용됨

(18)

(1) 왜도(skewness)

 왜도 = 0 (좌우대칭)

 왜도 > 0 (오른쪽 꼬리 비대칭)

 왜도 < 0 (왼쪽 꼬리 비대칭)

(19)

(2) 첨도(kurtosis)

 첨도(kurtosis)란 분포가 정규분포로부터 얼마만큼 이탈해 있는가를 나타내는 지표로써 이용되는 값

 분포의 뾰족한 정도를 나타내는 값 – 양의 첨도는 상대적으로 더 뾰족함 – 음의 첨도는 상대적으로 덜 뾰족함

(20)

 첨도의 기준은 정규분포

 정규분포의 첨도 = 3

 첨도 값 𝛽4 = 𝑚𝑠44 − 3

(n은 데이터의 수, s는 표본표준편차, 𝑚4 = ∑(𝑥𝑛−1𝑖−𝑥̅)4는 4차 적률

 𝛽4 = 0의 값을 가지면 정규분포

(21)

4.1.4 엑셀 실습

 데이터들이 모두 숫자로 입력되어 있어야 함

 엑셀을 이용하여 데이터의 요약을 구할 때

① 함수를 이용하여 기술통계량을 구할 수 있다.

② 분석도구의 기술통계법을 이용할 수도 있다.

(22)

4.2 상자그림의 구성

(23)

4.3 집단화된 자료의 요약

 신발회사에서 생산하는 농구화의 제조과정 중 한 켤레의 신발의 봉제작업에 소요되는 시간자료(집단화된 자료)

계급(소요시간) 빈도 7 ~ 9 분 3 9 ~ 11 분 27 11 ~ 13 분 14 13 ~ 15 분 4

(24)

집단화된 자료의 요약방법

 평균 𝑥̅=8×3+10×27+12×14+14×4+16×2

50 = 11

 분산 𝑆2 = (8−11)2×3+(10−11)2×27+(12−11)2×14+(14−11)2×4+(16−11)2×2 50−1

= 3.143

 표준편차 S = 𝑆2 = 1.773

(25)

 일반화된 공식 (계급의 수는 k)

 평균 𝑥̅=𝑚1×𝑓1+𝑚2×𝑓𝑛2+ ⋯+𝑚𝑘×𝑓𝑘 = 𝑘𝑖=1𝑛𝑚𝑖𝑓𝑖

 분산 𝑠2 = (𝑚1−𝑥̅)2×𝑓1+(𝑚2−𝑥̅)𝑛−12×𝑓2+⋯+(𝑚𝑘−𝑥̅)2×𝑓𝑘 = 𝑘𝑖=1(𝑚𝑖−𝑥̅)2×𝑓𝑖

𝑛−1

(26)

4.4 백분위수(percentiles)

 데이터에서 상대적으로 위치를 나타내는 수

 사분위수의 개념을 확장하여 크기 순으로 나열된 데이터를 100등분하는 값

 제p백분위수는 데이터 중 p%가 그 값보다 작거나 같게 되는 값을 의미

 제1사분위수 =Q1 =제25백분위수=25/100=0.25

 제2사분위수

(중앙값)=Q2 =제50백분위수=50/100=0.5

 제3사분위수 =Q3 =제75백분위수=75/100=

0.75

(27)

4.5 z-점수(z-score)

 데이터들이 평균으로부터 표준편차의 몇 배 만큼 떨어져 있는 가를 측정할 때 사용되는 값

 표준점수(standard score)라고도 말함

 𝑧 = 𝑥−𝑥̅𝑠

(28)

4.6 체비세프(Chebyshev)의 법칙

 체비세프 법칙 : 데이터 중 적어도 1 − 𝑘12 × 100% 가 z-점수의 절댓값이 k 보 다 작다.

 자료의 분포와는 관계없이 체비세프의 법칙이 성립함.

예) k=2인 경우 데이터의 적어도 75%가 z-점수의 절댓값이 2보다 작다.

해석하면 평균으로 부터 표준편차의 2배 이내에 위치한 데이터는 적어도 전체 데이터의 75%에 해당함을 의미.

참조

관련 문서

상기 신입생 장학금 외에도 본교는 신입생장학금-재학생장학금-해외연수장학금-대학원진학장학금에 이르는 전주기 장학제도를 운영하고 있으며, 다양한 교외장학금

산포도는 변량들이 평균 주위에 흩어져 있는 정도를 하나의 수로 나타내는 값이므로 표준편차가 클수록 산포도는 커지고 자료가 평균을 중심으로 멀리 흩어져 있음을

호르몬 보충 치료를 해야 하는 경우에는 의사와 상담하여 효과와 부작용에 대한 설명을 들은 후 시작하는 것이 좋다.. 갱년기

제 3주 수치를 통한 연속형

 표본평균들의 평균을 중심으로 양쪽으로 대칭인 구간이 모집 단의 평균을 품고 있다고 가정하자.  이 구간이 모집단 평균을

n이 커짐에 따라 분포의 모양이 중심에 대하여 대칭인 종 모양으로 되어간다.... 따라서

[r]

그러므로 ㉥ ‘김 선생님’은 현재의 담화 상황에 참여하지 않는 인물을 지칭하는 표현이라는 설명은 적절하다.. 그러므로 ㉤이 아버지가 지금까지 은주와 나눈 대화의 화제