데이터의 정리와 요약

(1)

데이터의 정리와 요약

1. 표와 그래프

1.2 도수분포표와 히스토그램

도수분포표(frequency table)란, 많은 관측값들이 있을 때 그들을 일정한 구간(계급구간이라 함)으로 나누어 각 구간에 속한 자료의 수를 세어 표로 요약한 것을 말한다. 도수분포표를 작성함으로써 우리는 전체 데이터의 대략적인 분포상태를 알 수 있다. 도수분포표를 작성하기 위한 절차는 다음의 5단계로 설 명할 수 있다.

 관측치 중 최대값과 최소값을 찾는다.

 최대값과 최소값의 차이, 즉 범위를 구한다.

 몇 개의 구간으로 나눌 것이지 결정한다(대략 6개-14개).

 구간이 중복되지 않도록 범위를 정한다.

 각 구간에 속하는 관측치의 수를 세어 도수를 구한다.

1.2 줄기와 잎 그림

히스토그램과 비슷하지만 조금 더 많은 정보를 줄 수 있는 그림으로 줄기와 잎 그림(stem-and-leaf

(2)

plot)이 있다. 히스토그램을 그릴 때와 마찬가지로 먼저 범위와 구간을 정한다. 적절히 나눈 구간의 단위 를 줄기로 삼고, 구체적인 수치값을 잎으로 삼아서, 줄기에 해당하는 잎을 달고, 각 줄기 내에서 크기순 으로 재정렬한다고 생각하면 된다. 이 때 잎이 달린 길이는 히스토그램에서 비례하게 되므로 데이터의 대강의 모습을 살피는 데 유용하다. 또한 단순한 분포뿐 아니라 정확한 수치값을 보여주므로 더 많은 정 보를 줄 수 있으며, 그리기도 간편하다는 장점이 있다.

- 엑셀을 이용한 도수분포표와 히스토그램 작성

2. 기술통계량

2.1 중심의 척도

1. 평균

중심위치에 대한 척도로서 가장 쉽게 생각할 수 있는 것은 평균이다. n개의 데이터값 x1,x2,⋯,x_n이 있 을 때 평균은 ^x^{= (}^x1+ ⋯+x_n)/n 으로 계산된다. 이는 모든 데이터에 똑같이 ^1/ⁿ 씩의 가중치를 주어서 중심을 구한 것이다. 평균은 데이터의 분포가 한 쪽으로 치우치지 않고 하나의 축을 중심으로 좌우 대칭 으로 흩어진 형태의 데이터의 특성을 표현하기 적합하다. 그러나 아주 큰 값 또는 아주 작은 값 등의 특 이치가 있을 때에는 이의 영향을 많이 받게 되어 부적절하다.

(3)

2. 중앙값

중앙값(median)은 데이터들을 작은 값부터 큰 값까지 순서대로 배열했을 때 가운데에 위치하는 값이 다. 따라서 ⁿ개의 데이터가 있을 때 ⁿ이 홀수라면 ⁽ⁿ^{+ 1)/2}번째 값이 되고, 짝수라면 ⁿ^/2번째 값과

(n/2)+1번째 값의 평균이 중앙값이 된다. 양끝에 아주 큰 값 또는 아주 작은 값이 있더라도 중앙값에는

영향을 미치지 않게 된다는 이점이 있다. 특히 분포의 형태가 좌우대칭이 아니고 어느 한쪽으로 치우쳐 져 있을 때 중심위치를 나타내는 척도로서 유용하게 쓸 수 있다. 중위수라고도 부른다.

중앙값과 같이 자주 사용되는 통계량으로 사분위수(quartile)가 있다. 데이터를 작은 것부터 크기순으 로 배열했을 때 4등분하는 위치에 오는 값들을 말한다. 이 때 전체 데이터의 하위 25%에 해당하는 값을 제 1사분위수(Q1), 50%에 해당하는 값을 제 2사분위수(Q2), 상위 25%에 해당하는 값을 제 3사분위수 (Q3)라고 한다. 제 2사분위수는 중앙값과 같다.

3. 최빈값

최빈값(mode)은 가장 빈번히 나타난 데이터값을 말한다. 일반적으로 양적 자료보다는 질적 자료에서 주로 사용되며, 분포가 하나의 봉우리를 갖는 형태가 아니고 두 개(또는 그 이상)의 봉우리모양으로 흩어 진 경우(이봉분포라고 함)에 유용하게 쓰일 수 있다. 위의 데이터에서 가장 자주 나온 값은 12.5와 12.6 이다.

(4)

2.2 산포의 척도

1.

분산과 표준편차

중심위치가 11.33이라 하더라도 11.33 주위에 대부분의 값이 몰려 있는 형태인 것과 값의 차이가 큰 폭으로 넓게 퍼져 있는 형태인 것과는 많은 차이가 있다. 이러한 산포를 나타내는 척도로서 분산 (variance)과 표준편차(standard deviation; s.d.)를 들 수 있다.

분산은 각 데이터값들과 평균과의 차이 ^xi-x 에 근거를 둔 것이다. 평균으로부터 멀리 흩어져 있을 수록 이의 절대값이 커질 것이다. 절대값 대신 제곱을 써서 이들의 평균을 구한 것이 분산이며, 다음과 같이 정의된다.

표본분산 : s²=∑⁽^xi-x)²/(n- 1)

표준편차는 분산의 제곱근으로서, 분산을 구할 때 제곱을 취함으로써 원래의 데이터값의 단위가 달라 진 것을 복구한 것이다.

표본표준편차 : s= ∑⁽^xi-x)²/(n- 1)

2. 범위

(5)

산포를 나타내는 간편한 방법 중의 하나는 범위(range)를 구하는 것이다. 범위는 (최대값-최소값)이므 로 간편하게 계산될 수 있는 반면, 양 극단치에 의해 결정되므로 특이치에 의한 영향이 크게 된다.

이보다는 사분위 범위(IQR; interquartile range)가 더 많이 사용되는데 사분위 범위는 제3사분위수와 제 1사분위수의 차이, Q3-Q1으로 계산된다. 이 범위는 극단치의 영향을 받지 않으므로 산포의 측도로서 많이 사용된다.

3. 변동계수

이질적인 두 집단의 흩어진 정도를 비교할 때 단순히 표준편차만을 비교할 수는 없다. 콜레스테롤의 평균과 표준편차가 각각 5.81과 1.20으로 계산되었다고 하고, 혈관직경변화는 평균이 0.12, 표준편차가 0.29였다고 하자. 콜레스테롤의 단위는 ^μ

mol/l

이고, 혈관직경변화의 단위는

mm

이므로 단지 이들의 표 준편차인 1.20과 0.29를 비교하여 콜레스테롤의 산포가 더 크다고 할 수는 없다.

이러한 경우에 데이터의 상대적인 산포를 표현하기 위해서 쓰는 것이 변동계수(coefficient of variation; CV)이다. 변동계수는 다음과 같이 평균에 대한 표준편차의 비로 정의된다.

CV= s

x^×100%

위의 예에서 콜레스테롤의 변동계수는 ( 1.20/5.8 1)×100% = 20.7%이고, 혈관직경변화는 ( 0.29/0.12)×100% = 241.7%

가 된다. 따라서 혈관직경변화의 산포도가 콜레스테롤의 산포도보다 10배 이상 크다는 것을 알 수 있다.

(6)

4. 왜도와 첨도

왜도나 첨도는 데이터의 분포모양에 대한 정보를 보여주는 통계량들이다. 왜도(歪度; skewness)란, 데 이터의 분포형태가 기울어진 정도를 의미한다. 분포의 형태는 좌우대칭이면 왜도는 0이 되고, 왜도가 + 의 값을 가지면 오른쪽으로 긴 꼬리를 가지는 형태, -의 값을 가지면 왼쪽으로 긴 꼬리를 가지는 형태를 보인다.

첨도(尖度;kurtosis)란 분포가 평균치 주변에 몰려 있는 형태인지 멀리 퍼져 있는 형태인지 그 뾰족한 정도를 의미한다. 표준정규분포의 첨도계수는 0이며, 0보다 크면 표준정규분포에 비해 더 뾰족하게 몰려 있는 형태를 가지고, 0보다 작으면 보다 넓게 퍼져 있는 형태의 데이터라고 할 수 있다.

3. 엑셀을 이용한 기술통계량

 『도구』메뉴로 가서 「데이터분석」을 누른다.

 분석도구 대화상자에서 “기술통계법”을 선택하고 <확인>을 누른다.

 대화상자에서 입력범위 오른쪽의 빨간 화살표부분을 눌러 화면을 최소화한 후 A1을 클릭하고 A36까 지 드래그하여 영역을 선택한다. 즉, “RBC”라고 쓴 부분까지 포함하자. 범위가 입력되었으면 다시 빨간

(7)

화살표부분을 눌러 대화상자로 돌아온다.

 나머지 옵션을 아래 화면과 같이 선택하자. 우리가 “RBC”라고 쓴 부분까지 포함시켰으므로 “첫째 행 이름표 사용”란을 선택한다. 또한 요약통계량을 반드시 선택하자.

 <확인>을 누르면 새 워크시트에 다음과 같은 요약 통계량이 출력된다.