• 검색 결과가 없습니다.

데이터의 정리와 요약

N/A
N/A
Protected

Academic year: 2022

Share "데이터의 정리와 요약"

Copied!
7
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

데이터의 정리와 요약

1. 표와 그래프

1.2 도수분포표와 히스토그램

도수분포표(frequency table)란, 많은 관측값들이 있을 때 그들을 일정한 구간(계급구간이라 함)으로 나누어 각 구간에 속한 자료의 수를 세어 표로 요약한 것을 말한다. 도수분포표를 작성함으로써 우리는 전체 데이터의 대략적인 분포상태를 알 수 있다. 도수분포표를 작성하기 위한 절차는 다음의 5단계로 설 명할 수 있다.

 관측치 중 최대값과 최소값을 찾는다.

 최대값과 최소값의 차이, 즉 범위를 구한다.

 몇 개의 구간으로 나눌 것이지 결정한다(대략 6개-14개).

 구간이 중복되지 않도록 범위를 정한다.

 각 구간에 속하는 관측치의 수를 세어 도수를 구한다.

1.2 줄기와 잎 그림

히스토그램과 비슷하지만 조금 더 많은 정보를 줄 수 있는 그림으로 줄기와 잎 그림(stem-and-leaf

(2)

plot)이 있다. 히스토그램을 그릴 때와 마찬가지로 먼저 범위와 구간을 정한다. 적절히 나눈 구간의 단위 를 줄기로 삼고, 구체적인 수치값을 잎으로 삼아서, 줄기에 해당하는 잎을 달고, 각 줄기 내에서 크기순 으로 재정렬한다고 생각하면 된다. 이 때 잎이 달린 길이는 히스토그램에서 비례하게 되므로 데이터의 대강의 모습을 살피는 데 유용하다. 또한 단순한 분포뿐 아니라 정확한 수치값을 보여주므로 더 많은 정 보를 줄 수 있으며, 그리기도 간편하다는 장점이 있다.

- 엑셀을 이용한 도수분포표와 히스토그램 작성

2. 기술통계량

2.1 중심의 척도

1. 평균

중심위치에 대한 척도로서 가장 쉽게 생각할 수 있는 것은 평균이다. n개의 데이터값 x1,x2,⋯,xn이 있 을 때 평균은 x= (x1+ ⋯+xn)/n 으로 계산된다. 이는 모든 데이터에 똑같이 1/n 씩의 가중치를 주어서 중심을 구한 것이다. 평균은 데이터의 분포가 한 쪽으로 치우치지 않고 하나의 축을 중심으로 좌우 대칭 으로 흩어진 형태의 데이터의 특성을 표현하기 적합하다. 그러나 아주 큰 값 또는 아주 작은 값 등의 특 이치가 있을 때에는 이의 영향을 많이 받게 되어 부적절하다.

(3)

2. 중앙값

중앙값(median)은 데이터들을 작은 값부터 큰 값까지 순서대로 배열했을 때 가운데에 위치하는 값이 다. 따라서 n개의 데이터가 있을 때 n이 홀수라면 (n+ 1)/2번째 값이 되고, 짝수라면 n/2번째 값과

(n/2)+1번째 값의 평균이 중앙값이 된다. 양끝에 아주 큰 값 또는 아주 작은 값이 있더라도 중앙값에는

영향을 미치지 않게 된다는 이점이 있다. 특히 분포의 형태가 좌우대칭이 아니고 어느 한쪽으로 치우쳐 져 있을 때 중심위치를 나타내는 척도로서 유용하게 쓸 수 있다. 중위수라고도 부른다.

중앙값과 같이 자주 사용되는 통계량으로 사분위수(quartile)가 있다. 데이터를 작은 것부터 크기순으 로 배열했을 때 4등분하는 위치에 오는 값들을 말한다. 이 때 전체 데이터의 하위 25%에 해당하는 값을 제 1사분위수(Q1), 50%에 해당하는 값을 제 2사분위수(Q2), 상위 25%에 해당하는 값을 제 3사분위수 (Q3)라고 한다. 제 2사분위수는 중앙값과 같다.

3. 최빈값

최빈값(mode)은 가장 빈번히 나타난 데이터값을 말한다. 일반적으로 양적 자료보다는 질적 자료에서 주로 사용되며, 분포가 하나의 봉우리를 갖는 형태가 아니고 두 개(또는 그 이상)의 봉우리모양으로 흩어 진 경우(이봉분포라고 함)에 유용하게 쓰일 수 있다. 위의 데이터에서 가장 자주 나온 값은 12.5와 12.6 이다.

(4)

2.2 산포의 척도

1.

분산과 표준편차

중심위치가 11.33이라 하더라도 11.33 주위에 대부분의 값이 몰려 있는 형태인 것과 값의 차이가 큰 폭으로 넓게 퍼져 있는 형태인 것과는 많은 차이가 있다. 이러한 산포를 나타내는 척도로서 분산 (variance)과 표준편차(standard deviation; s.d.)를 들 수 있다.

분산은 각 데이터값들과 평균과의 차이 xi-x 에 근거를 둔 것이다. 평균으로부터 멀리 흩어져 있을 수록 이의 절대값이 커질 것이다. 절대값 대신 제곱을 써서 이들의 평균을 구한 것이 분산이며, 다음과 같이 정의된다.

표본분산 : s2=∑(xi-x)2/(n- 1)

표준편차는 분산의 제곱근으로서, 분산을 구할 때 제곱을 취함으로써 원래의 데이터값의 단위가 달라 진 것을 복구한 것이다.

표본표준편차 : s= ∑(xi-x)2/(n- 1)

2. 범위

(5)

산포를 나타내는 간편한 방법 중의 하나는 범위(range)를 구하는 것이다. 범위는 (최대값-최소값)이므 로 간편하게 계산될 수 있는 반면, 양 극단치에 의해 결정되므로 특이치에 의한 영향이 크게 된다.

이보다는 사분위 범위(IQR; interquartile range)가 더 많이 사용되는데 사분위 범위는 제3사분위수와 제 1사분위수의 차이, Q3-Q1으로 계산된다. 이 범위는 극단치의 영향을 받지 않으므로 산포의 측도로서 많이 사용된다.

3. 변동계수

이질적인 두 집단의 흩어진 정도를 비교할 때 단순히 표준편차만을 비교할 수는 없다. 콜레스테롤의 평균과 표준편차가 각각 5.81과 1.20으로 계산되었다고 하고, 혈관직경변화는 평균이 0.12, 표준편차가 0.29였다고 하자. 콜레스테롤의 단위는 μ

mol/l

이고, 혈관직경변화의 단위는

mm

이므로 단지 이들의 표 준편차인 1.20과 0.29를 비교하여 콜레스테롤의 산포가 더 크다고 할 수는 없다.

이러한 경우에 데이터의 상대적인 산포를 표현하기 위해서 쓰는 것이 변동계수(coefficient of variation; CV)이다. 변동계수는 다음과 같이 평균에 대한 표준편차의 비로 정의된다.

CV= s

x×100%

위의 예에서 콜레스테롤의 변동계수는 ( 1.20/5.8 1)×100% = 20.7%이고, 혈관직경변화는 ( 0.29/0.12)×100% = 241.7%

가 된다. 따라서 혈관직경변화의 산포도가 콜레스테롤의 산포도보다 10배 이상 크다는 것을 알 수 있다.

(6)

4. 왜도와 첨도

왜도나 첨도는 데이터의 분포모양에 대한 정보를 보여주는 통계량들이다. 왜도(歪度; skewness)란, 데 이터의 분포형태가 기울어진 정도를 의미한다. 분포의 형태는 좌우대칭이면 왜도는 0이 되고, 왜도가 + 의 값을 가지면 오른쪽으로 긴 꼬리를 가지는 형태, -의 값을 가지면 왼쪽으로 긴 꼬리를 가지는 형태를 보인다.

첨도(尖度;kurtosis)란 분포가 평균치 주변에 몰려 있는 형태인지 멀리 퍼져 있는 형태인지 그 뾰족한 정도를 의미한다. 표준정규분포의 첨도계수는 0이며, 0보다 크면 표준정규분포에 비해 더 뾰족하게 몰려 있는 형태를 가지고, 0보다 작으면 보다 넓게 퍼져 있는 형태의 데이터라고 할 수 있다.

3. 엑셀을 이용한 기술통계량

 『도구』메뉴로 가서 「데이터분석」을 누른다.

 분석도구 대화상자에서 “기술통계법”을 선택하고 <확인>을 누른다.

 대화상자에서 입력범위 오른쪽의 빨간 화살표부분을 눌러 화면을 최소화한 후 A1을 클릭하고 A36까 지 드래그하여 영역을 선택한다. 즉, “RBC”라고 쓴 부분까지 포함하자. 범위가 입력되었으면 다시 빨간

(7)

화살표부분을 눌러 대화상자로 돌아온다.

 나머지 옵션을 아래 화면과 같이 선택하자. 우리가 “RBC”라고 쓴 부분까지 포함시켰으므로 “첫째 행 이름표 사용”란을 선택한다. 또한 요약통계량을 반드시 선택하자.

 <확인>을 누르면 새 워크시트에 다음과 같은 요약 통계량이 출력된다.

참조

관련 문서

산포도는 변량들이 평균 주위에 흩어져 있는 정도를 하나의 수로 나타내는 값이므로 표준편차가 클수록 산포도는 커지고 자료가 평균을 중심으로 멀리 흩어져 있음을

표준편차는 자료가 흩어져 있는 정도를 나타내므로 평균 이 서로 달라도 표준편차는 같을

[r]

[r]

표준편차는 자료가 평균으로부터 얼마나 흩어져 있는가를 나타내 는 산포도 중 하나이며 그 값이 클수록 평균으로부터 멀리 떨어져 있고, 성적이 고르지

산포도는 변량들이 평균 주위에 흩어져 있는 정도를 하나의 수로 나타내는 값이므로 표준편차가 클수록 산포도는 커지고 자료가 평균을 중심으로 멀리 흩어져 있음을

표준편차는 자료가 평균으로부터 얼마나 흩어져 있는가를 나타내 는 산포도 중 하나이며 그 값이 클수록 평균으로부터 멀리 떨어져 있고, 성적이 고르지 않다는

급경사지 피해를 경감시키기 위해서는 급경사지 붕괴시기를 미리 예측하고 위험한 급경사지 주변에 거주하고 있는 주민을 효과적으로 대피시키는 것이 매우 중요하다..