강의 2 – 기술통계 및 도표와 그래프 활용
2. 기술통계 (descriptive statistics)
- 교재 1의 해당 내용 정리기술통계 - 위치통계(statistics of location), 산포통계(statistics of dispersion), 비대칭통계(statistics of asymmetry)
1) 위치통계
중심경향치(measure of central tendency)
- 평균 (arithmetic mean: )
- 중앙값 (median: or ) : 크기(순서)별로 나열했을 때 중앙에 위치 하는 사례의 값 (예; 자료의 수가 홀수 인 경우: 46.0, 46.9, 48.2, 48.5, 50.4, 60, 60.1 --- median=48.5, 자료의 수가 짝수인 경우: 2, 3, 8, 10, 11, 40 ---
= (8+10)/2=9)
- 최빈값 (mode: ) : 가장 많은 도수를 갖는 점수나 결과 (데이타) 예) 8, 7, 9, 4, 4, 4, 3, 4, 3, 2 --- mode = 4
2) 산포통계
분산도 (dispersion)
- 일반적으로 범위 (range) = Max. - Min.
연속성 고려시 범위=(H-L)+u (H:최고값, L:최저값, u:측정단위)(교재 p98 참조)
# 추리통계에 표본의 자료를 사용할 경우:
표본의 분산과 표준편차는 아직 모집단을 대표하지 못하므로 표본수(n)보 다는 (n-1)을 이용 계산함. * (n-1) = degree of freedom (자유도)
- coefficient of variability (CV): 평균과 연관된 변화량 = (
) × 100 (ratio 자료에만 사용)
- 사분위수 (quartile): 수집된 자료를 크기순으로 배열하여 4등분한 값.
제1사분위수(Q1)= lower quartile = cuts off lowest 25% of data
= 25%
제2사분위수(Q2)= median = cuts data set in half = 50%
제3사분위수(Q3)= upper quartile = cuts off highest 25% of data, or lowest 75% = 75%
* 사분위수- 다른 두집단의 분포형태 비교 파악시 활용. 평균이 같더라도 분포의 흩어진 정도가 다름을 파악할 수 있음 (skewness, kurtosis 값과 유사함)
각 집단의 Q3 - Q1 값을 비교 평균에 집중도 비교 파악 (kurtosis)
한 집단의 Q3 - Q2 과 Q2 - Q1 값 을 비교하여 정적, 부정 적편포 파악 (skewness)
표본(sample) 모집단(population)
평균(mean)
분산(variance) S2 (=
) (=
) 표준편차(s. d.) S (=
) (=
)3)대칭, 비대칭통계
빈도 분포의 형태 (frequency distribution)
1. 정규분포 (normal distribution) - 주로 연속변수에 적합
- 평균과 중앙값, 그리고 최빈값이 일치하며 좌우대칭이고, 점근선적인 (asymptotic) 분포.
cumulative distribution
= =
* 한쪽으로 치우치는 분포 (skewed distribution)- 편포 또는 비대칭분 포
예) 연령에 따른 사망자수 (부적편포: negative skewed)
부적편포 정적편포
(mode>median>mean) (mode<median<mean)
* 첨도(尖度: Kurtosis): 도수 곡선(度數曲線)의 최빈치(最頻値)를 중심으로 하는 부분의 완만함·뾰족함의 정도를 나타내는 수치.
leptokurtotic (peak distribution)- 평균값을 중심으로 매우 뽀족한 분포 platykurtotic (flat top distribution) - 평균값 근처가 상대적으로 완만
한 분포
(출처: http://www.pqsystems.com/eline/2001/02/b.htm)
* skewness 와 kurtosis 정보의 생태학적 활용: 부교재3 참조(p44-49)
2. 이항분포 (binomial distribution) - 주로 불연속변수에 적합
- 두 가지 가능한 결과의 실험(동전 앞과 뒤)에서 관측된 하나의 결과에 대한 분포 (예: 성공과 실패, 진실과 거짓, live and dead)
3. 포아송 분포 (poisson distribution)
- 매우 드물게 발생하는 사건의 분포 또는 사건의 우연한 분포 -주어진 시간에 일어나는 사건 (예; 1시간당 번개치는 횟수, 특정질병에 대한 사망 자 수, 원자력발전소 인근의 기형 어류 수 등)이나 이항분포에서 두 가지 가 능한 결과 중 특정 한가지의 결과가 매우 드물게 일어나는 경우의 분포.
3. 도표와 그래프
현상이나 연구의 결과를 효과적으로 전달, 설명하기 위하여 그림이나 도표를 사용.
There is no statistical tool that is as powerful as a well-chosen graph.
Chambers, Cleveland, Kleiner, and Tukey (1983)
가. 그래프
- 정의: 수집된 자료나 결과를 보다 시각적으로 쉽게 이해시키고 일목요 연하게 표현하는 그림.
- 기능: ① 자료의 경향성 분석 및 파악, ② 자료속에 존재하는 집단간의 차이 여부 확인, ③ 변수간의 연관성 파악
- 그래프 작성시 일반원칙:
① 독립변수(independant variable)는 X축 (가로축)에 종속변수는 Y 축 (세로축)
② 각축에 대한 명확한 단어와 단위 표현
③ 적절한 양축의 길이와 간격 선정 (자료 크기 범위에 따라 조정) - Y축 전체길이를 X축 길이의 2/3 이상 3/4정도로 설정
④ 가능한한 각축의 눈금간격을 3, 5, 7배수로는 설정치 않음 (부득이 한 경우를 제외하고 1년의 분기(월)별일 경우.
- 그래프의 종류
선 그래프(line graph), 막대그래프 또는 봉상도표(bar graph), 히스 토그램 또는 주상도표(histogram), 원형 그래프 (Pie chart), ...
예) 그래프 1) Box plot
Max. value= Q3+1.5*range(=Q3-Q1)
(출처: http://www.originlab.com/doc/Tutorials/Box-Plot)