2. 기술통계 (descriptive statistics)

(1)

강의 2 – 기술통계 및 도표와 그래프 활용

2. 기술통계 (descriptive statistics)

- 교재 1의 해당 내용 정리

기술통계 - 위치통계(statistics of location), 산포통계(statistics of dispersion), 비대칭통계(statistics of asymmetry)

1) 위치통계

중심경향치(measure of central tendency)

- 평균 (arithmetic mean: ^)

^ _{ }



  





_

 



^

- 중앙값 (median: ^ or _) : 크기(순서)별로 나열했을 때 중앙에 위치 하는 사례의 값 (예; 자료의 수가 홀수 인 경우: 46.0, 46.9, 48.2, 48.5, 50.4, 60, 60.1 --- median=48.5, 자료의 수가 짝수인 경우: 2, 3, 8, 10, 11, 40 --- ^_{ }



_{   }

= (8+10)/2=9)

- 최빈값 (mode: _) : 가장 많은 도수를 갖는 점수나 결과 (데이타) 예) 8, 7, 9, 4, 4, 4, 3, 4, 3, 2 --- mode = 4

2) 산포통계

분산도 (dispersion)

- 일반적으로 범위 (range) = Max. - Min.

연속성 고려시 범위=(H-L)+u (H:최고값, L:최저값, u:측정단위)(교재 p98 참조)

(2)

# 추리통계에 표본의 자료를 사용할 경우:

표본의 분산과 표준편차는 아직 모집단을 대표하지 못하므로 표본수(n)보 다는 (n-1)을 이용 계산함. * (n-1) = degree of freedom (자유도)

- coefficient of variability (CV): 평균과 연관된 변화량 = (__



 ) × 100 (ratio 자료에만 사용)

- 사분위수 (quartile): 수집된 자료를 크기순으로 배열하여 4등분한 값.

제1사분위수(Q1)= lower quartile = cuts off lowest 25% of data

= 25%

제2사분위수(Q2)= median = cuts data set in half = 50%

제3사분위수(Q3)= upper quartile = cuts off highest 25% of data, or lowest 75% = 75%

* 사분위수- 다른 두집단의 분포형태 비교 파악시 활용. 평균이 같더라도 분포의 흩어진 정도가 다름을 파악할 수 있음 (skewness, kurtosis 값과 유사함)

각 집단의 Q3 - Q1 값을 비교 평균에 집중도 비교 파악 (kurtosis)

한 집단의 Q3 - Q2 과 Q2 - Q1 값 을 비교하여 정적, 부정 적편포 파악 (skewness)

표본(sample) 모집단(population)

평균(mean) _{ }





^^

  



^^

분산(variance) S²(= _

  



^^^{ }^^^₎ _^

(= 



^^^{ }^₎ 표준편차(s. d.) S (=



^^  



^^^{ }^^^ ₎ _{ (=}



^^



^^^{ }^ ₎

(3)

3)대칭, 비대칭통계

빈도 분포의 형태 (frequency distribution)

1. 정규분포 (normal distribution) - 주로 연속변수에 적합

- 평균과 중앙값, 그리고 최빈값이 일치하며 좌우대칭이고, 점근선적인 (asymptotic) 분포.

cumulative distribution

^ = ^ = _

* 한쪽으로 치우치는 분포 (skewed distribution)- 편포 또는 비대칭분 포

예) 연령에 따른 사망자수 (부적편포: negative skewed)

부적편포 정적편포

(mode>median>mean) (mode<median<mean)

(4)

* 첨도(尖度: Kurtosis): 도수 곡선(度數曲線)의 최빈치(最頻値)를 중심으로 하는 부분의 완만함·뾰족함의 정도를 나타내는 수치.

leptokurtotic (peak distribution)- 평균값을 중심으로 매우 뽀족한 분포 platykurtotic (flat top distribution) - 평균값 근처가 상대적으로 완만

한 분포

(출처: http://www.pqsystems.com/eline/2001/02/b.htm)

* skewness 와 kurtosis 정보의 생태학적 활용: 부교재3 참조(p44-49)

2. 이항분포 (binomial distribution) - 주로 불연속변수에 적합

- 두 가지 가능한 결과의 실험(동전 앞과 뒤)에서 관측된 하나의 결과에 대한 분포 (예: 성공과 실패, 진실과 거짓, live and dead)

3. 포아송 분포 (poisson distribution)

- 매우 드물게 발생하는 사건의 분포 또는 사건의 우연한 분포 -주어진 시간에 일어나는 사건 (예; 1시간당 번개치는 횟수, 특정질병에 대한 사망 자 수, 원자력발전소 인근의 기형 어류 수 등)이나 이항분포에서 두 가지 가 능한 결과 중 특정 한가지의 결과가 매우 드물게 일어나는 경우의 분포.

(5)

3. 도표와 그래프

현상이나 연구의 결과를 효과적으로 전달, 설명하기 위하여 그림이나 도표를 사용.

There is no statistical tool that is as powerful as a well-chosen graph.

Chambers, Cleveland, Kleiner, and Tukey (1983)

가. 그래프

- 정의: 수집된 자료나 결과를 보다 시각적으로 쉽게 이해시키고 일목요 연하게 표현하는 그림.

- 기능: ① 자료의 경향성 분석 및 파악, ② 자료속에 존재하는 집단간의 차이 여부 확인, ③ 변수간의 연관성 파악

- 그래프 작성시 일반원칙:

① 독립변수(independant variable)는 X축 (가로축)에 종속변수는 Y 축 (세로축)

② 각축에 대한 명확한 단어와 단위 표현

③ 적절한 양축의 길이와 간격 선정 (자료 크기 범위에 따라 조정) - Y축 전체길이를 X축 길이의 2/3 이상 3/4정도로 설정

④ 가능한한 각축의 눈금간격을 3, 5, 7배수로는 설정치 않음 (부득이 한 경우를 제외하고 1년의 분기(월)별일 경우.

- 그래프의 종류

선 그래프(line graph), 막대그래프 또는 봉상도표(bar graph), 히스 토그램 또는 주상도표(histogram), 원형 그래프 (Pie chart), ...

예) 그래프 1) Box plot

Max. value= Q3+1.5*range(=Q3-Q1)

(6)

(출처: http://www.originlab.com/doc/Tutorials/Box-Plot)

(7)

(8)

(9)