11장 기초통계학(1)
통계학
• 자료(data) : 측정값
• 자료를 수집, 정리, 그리고 요약(수집된 자료 를 나타내는 것) : 기술통계학(descriptive statistics)
• 모집단의 특성에 대하여 추측(분석, 판단, 예 측): 추론통계학(inferential statistics)
•
모집단과 표본
모집단 표본
µ 모집단평균 X 표본평균
σ2 모집단 분산 S2 표본분산
모집단 비율 p 표본비율
N 모집단 크기 n 표본크기
ρ 모집단 상관
계수
r 표본상관계수
• 모집단의 모수(parameter): 모집단의 특성을 기술하거나 특정하는 측정값
• 표본 통계량(statistics): 표본의 특징을 나타내는 값. 표 본자료를 이용하여 구하는 표본의 평균과 분산이 예
• 모집단과 표본과의 관계
기술통계학
그래프로 나타내는 법, 중심경향성, 산포성 집중경향치(Central tendency)
• 평균(mean)(산술평균, 기하평균, 조화평균, 절삭평 균)
• 중위수 또는 중앙값(median)
• 최빈치(mode)
산포도(Measure of variation, dispersion)
• 범위(range)
• 표준편차(SD, Standard Deviation)
• 변이(변동)계수(CV, Coefficient of Variation)
• 백분위수(percentile), 사분위수(quartile)
추측통계학
통계적 모형을 설정, 설정된 모형이 합리적인지의 여부를 평가, 자료로부터 얻어진 정보를 근거로 미 지의 특성에 대한 결론을 내리고 예측
추정: 점추정(point estimation)
구간추정(interval estimation) 가설검정(hypothetical testing)
자료의 정리
• 빈도분포
– 도수분포, 퍼센트(valid percent, %), 누적퍼센트 (cumulative percent)
–
http://news.donga.com/rss/feed/3/all/20150703/
72264754/1
– 자료를 시각적으로 제시하기 위해 막대(bar) 그래 프, 히스토그램(막대사이에 빈 공간이 없음), 원 (pie)그래프, 꺽은선(line)그래프, 줄기-잎 그림으로 제시
– 줄기(stem)-잎(leaf) 그림: 주어진 자료를 두 부분 으로 구분하여 표시, 한쪽 부분을 줄기, 다른 한쪽 을 잎이라 하여 자료를 손실없이 정리한 표
자료의 요약
• 분포의 모양(Shape of distribution) -
왜도(skewness): 분포의 모양이 대칭을 벗어난 한쪽으로 기울어진 정도• s=0이 대칭분포
• 오른쪽으로 기울어진 경우가 s > 0
–
첨도(kurtosis): 분포의 뾰족한 정도를 나타내는 척도• k= 0 이 정규분포를 나타내며 0보다 큰 것이 정규분포 보다 뾰족한 모양을 나타냄
자료의 요약
• 대푯값
- 평균값(Mean, average) - 중위수(Median)
- 최빈치(Mode)
- 평균, 중위수, 최빈치의 비교
• 산포도(성) : 대표값과 더불어 분포의 형태를 나타내는 중요
한 척도로서 측정값이 대표값 주변으로 얼마나 흩어져
있는가를 나타내는 척도
- 범위(Range)
- 백분위수와 사분위수(Percentiles and quartiles) - 분산(Variance)
- 표준편차(SD, standard deviation)
- 변이(동)계수(CV, Coefficient of Variation)
평균값
(Mean, average)
• 산술평균, 기하평균, 조화평균, 절삭평균으로 나눔
• 산술평균을 흔히 평균이라 부름
• 산술평균값: 측정값을 모두 합하여 측정값의 개수로 나눈 값
• 측정치의 극단값의 영향을 크게 받고 측정치에서 산술평균을 뺀 값을 더하면 언제나 zero(0)가 됨
중위수 (Median, 중앙값)
• 중위값(Median): 자료를 크기순으로 나열하여 가장 중앙 에 위치하게 되는 값
• 중위수(중앙값) 계산하는 법
– 홀수인 경우 중위수 = (n+1)/2 번째의 값
– 짝수인 경우 중위수 = n/2번째와 (n/2)+1 번째 값의 산술 평균
• 극단값으로 인한 영향을 전혀 받지 않는 대표치
• 치우친 분포를 나타내어, 왜곡된 분포를 기술하는데 유용
최빈치 (Mode)
• 최빈값(Mode): 가장 빈도가 높은 값(수치)
• 빈도수를 가장 많이 차지하는 자료(변수)의 값을 말 함
• 최빈치가 한 점 이상 발생했을 때: 쌍봉분포/다봉분 포
• 범주형변수로 측정되었을 때 유용함
• 극단값의 영향을 전혀 받지 않음
평균 , 중위수, 최빈치의 비교
중심경향치로 분포를 기술하는데 있어서 고려할 점
• 변수의 측정수준
– 등간 혹은 비척도: 평균, 중위수, 최빈치 모두 의미 있음 – 서열척도: 중위수, 최빈치
– 명목척도: 오직 최빈치만 의미가 있음
• 통계학적 유용성
– 평균이 가장 안정적
– 무작위로 표본을 뽑는다면 표본의 평균값은 최빈치나 중위수보 다 변동이 덜 심함
– 정규분포를 하는 경우는 3가지 모두 유용
– 치우친 분포를 하는 경우는 평균, 중위수, 최빈치를 모두 보고하 는 것이 합리적임
범위 (Range)
• 범위는 자료의 최대값과 최소값의 차이
• 어떤 변수들 집합의 산포 정도를 개괄적으로 표 시하는 값
• 동질성 정도를 비교할 수 있음
• 표본의 크기가 다른 집단을 비교할 때 범위로 비
교하는 것은 어려움, 간편하게 구할 수 있지만
정확도 면에서 다른 방법에 비해 뒤짐
백분위와 사분위
(Percentiles and Quartiles)
• 백분위: 규준집단에서 특정 대상자의 점수보다 낮은 점수를 받은 대상자가 전체 대상자 중 몇 %가 있느냐를 나타내 주 는 표시방법
• 즉 어떤 사람의 원점수가 60점인데 백분위등급이 75였다면 이 사람이 받은 60점 아래에 전체 대상자의 75%가 있다는 의미. 이 대상자는 상위 25%에 해당
백분위와 사분위
(Percentiles and Quartiles)
• 사분위(quartiles): 백분위를 네 부분으로 나눈 것– 첫 번째 사분위: 25번째 백분위
– 두 번째 사분위: 50번째 백분위로 중위수 – 세 번째 사분위: 75번째 백분위
• 사분위 범위(interquartile ranges): 전체 자료의 중간 50%부분 이 가지는 범위
– 4분의 3번째의 값과 4분의 1번째의 값의 차
• 사분편차(interquartile deviation): 측정한 자료를 순위대로 나 열하여 4분의 3번째의 값과 4분의 1번째의 값의 차를 2로 나 눈 값
• 범위는 극단값의 변화에 심하게 변화가 나타나게 되는 데 반 해 사분편차는 극단값에 크게 영향을 받지 않음
분산 (Variance)
• 분산: 측정값과 산술평균 편차를 제곱한 것의 평균값
– 분산이 큼: 측정값이 평균을 중심으로 넓게 퍼져 있음 – 분산이 작음: 측정값이 평균값 가까이에 분포함
• 표본의 자료는 모집단에서의 모든 값을 포함하지 않기 때문에 실제 모집단 분산보다 다소 표본분산이 작게 되 어 표본분산은 n으로 나누는 대신 n-1로 나눔
• 분산은 측정단위에 제곱을 한 형태로 표기되므로 해석이 어려우며 원자료의 측정단위와 동일한 측정단위로 산포 성을 나타낼 수 있는 지수가 필요함
• 기술통계량으로 분산은 잘 사용하지 않고 분산분석 (ANOVA)을 할 때 주로 사용
• 통계학에서는 분산이라는 표현을 많이 쓰고 사회과학에 서는 변량이라는 표현을 많이 사용함.
표준편차
(SD, standard deviation)
• 표준편차는 분산의 제곱근으로부터 구할 수 있음
• 원자료와 동일한 측정단위를 사용하면서 산포성을 나타낼 수 있는 지수
• 표준편차가 큼: 변이의 정도가 큼
• 표준편차가 작음: 변이의 정도가 작음
• cf) 표준 오차(SE): 표본평균의 표준편차를 나타내는 것으로 추정된 모평균의 정밀성을 나타냄, 모평균의 정밀성을 나타낼 때도 95% 신뢰구간으로 제시하는 것이 더 이해를 쉽게 함
표준편차와 표준오차
• 표준편차: 자료의 퍼짐 정도를 알려줌.
자료가 평균과 얼마만큼의 차이를 갖고 있는가? 분산에 루트를 씌운것, 관측값 의 산포정도를 나타냄
• 표준오차: 표본의 평균이 얼마나 정확한
지를 알려주는 것. 추정량의 정밀도를
나타냄. 표준오차 < 표준편차
모집단과 표본
모집단 표본
µ 모집단평균 X 표본평균
σ2 모집단 분산 S2 표본분산
모집단 비율 p 표본비율
N 모집단 크기 n 표본크기
ρ 모집단 상관
계수
r 표본상관계수
• 모집단의 모수: 모집단의 특성을 기술하거나 특정하는 측정 값
• 표본 통계량(statistics): 표본의 특징을 나타내는 값. 표 본자료를 이용하여 구하는 표본의 평균과 분산 같은 것
• 모집단과 표본의 관계
• 두 개의 표본집단간의 상대적인 산포성을 비교할 때 사용
• 표준편차를 평균으로 나눈 후 100을 곱하여 백분율 로 나타낸 것
• CV=(S/ ) x 100
• 예) 표면근전도를 이용하여 넙다리네갈래근의 활동 전위를 측정한 경우에 넙다리네갈래근의 어느 근육 에서 변이가 큰가를 알아보려 할 때 사용
변이 (동)계수(CV,
Coefficient of Variation)
x
• 서로 측정 단위가 다른 집단의 크기를 비교하기 위해 표준화된 자료를 사용
• 두 집단의 평균이 다른 경우 표준편차
를 사용해서 산포성을 비교하는 것은
적합하지 않음
• Schober: 요추천골접합부로부터 10 cm 위의 지점
• Modified Schober: 요추천골접합부로 부터 5cm 아래지점과 10cm위 지점과 거리
• Modified-Modified Schober: 후장골극
과 요추천추접합부의 교차점에서 위로
15cm위의 지점과 거리
SPSS를 이용한 기술통계
• 다음 자료는 고관절 각도를 각 각 70도와 80도로 하였을 때 대퇴직근에 생기는 활동 전위에 대한 가상적인 자료임
• 집단 1은 고관절이 70도 굴곡되었을 때
• 집단 2는 고관절이 80도 굴곡되었을 때 나 타냄
• 대퇴직근의 활동전위에 대하여 기술통계
량을 알고자 함
force 줄기와 잎그림 도표 빈도 Stem & 잎 2.00 3 . 02 1.00 3 . 5
5.00 4 . 01223 2.00 4 . 88 2.00 5 . 02 3.00 5 . 555 1.00 6 . 2 줄기 너비: 10.00 각 잎: 1 케이스
정규성 검정
Kolmogorov-Smirnova Shapiro-Wilk
통계량 자유도 유의확률 통계량 자유도 유의확률
force .114 16 .200* .969 16 .821
* 이것은 참 유의성의 하한입니다.
a Lilliefors 유의확률 수정
다중응답의 빈도분석
정규분포의 특성
• 종을 엎어 놓은 모양
• 좌우 대칭의 단봉분포
• 첨도와 왜도가 0
• Median, mean, mode가 일치
• 가우스(Gauss) 분포라고도 불림
• 정규곡선과 X축 사이 전체 면적은 1
• 정규분포에서 변곡점이 3곳 생기는데 그 거리는 평균에서 표준편차 만큼의 거리에서 생김
• 평균 0, 표준편차 1로 바꾸어 표준화된 정규분포를 만듬
• 정규분포면적은 그 값이 발생할 확률을 알려줌
• 표준화 정규분포의 면적은 확률밀도를 의미함
• 표준화 정규분포표의 전체 면적은 1임
정규분포
(Normal distribution)
• 산술평균, 중위수, 최빈값이 모두 같음
• 평균을 중심으로 좌우 대칭으로 평균을 중심으로 좌측확률이 0.5, 우측 확률이 0.5임
• 확률변수 X는 -∞에서 +∞까지 값을 가짐
• 평균이 µ, 분산이 σ2인 정규분포는
P(µ-σ≤X≤µ+σ) = 0.6823 P(µ-2σ≤X≤µ+2σ) = 0.9544
P(µ-3σ≤X≤µ+3σ) = 0.9974 의 확률값을 가지며 이와 같은 구간확률(넓이)를 가짐
• 평균이 0, 분산이 1인 정규분포를 표준정규분포라 함
정규분포(Normal Distribution)
• 특성
– 대부분의 측정값들이 평균 주위에 모여 있다.
– 좌우 대칭이며, 종 모양이다.
– 평균, 중위수, 최빈치는 모두 같다.
– 첨도와 왜도는 0 이다.
– 점수들은 평균을 중심으로 양극단을 향해 무한대로 진 행한다.
– 면적은 그 값이 발생할 확률 이고, 따라서 전체 면적은 1 이 된다.
59
표준정규분포 (Normal
distribution)
• 표준점수(Standardized scores)
z-점수(표준값) : 원점수에서 평균을 뺀 편차를 SD로 나누 어 계산
• 표준정규분포곡선(Standardized normal curve)
정규분포는 표준화된 점수들로 표현
z-점수의 분포에서 평균은 항상 0일 것이고 표준편차 SD는 항상 1
표준정규분포곡선
(Standardized Normal Curve)
• 표준정규분포곡선
– 표준점수(z-score)로 표현
– 평균은 항상 0, 표준편차는 항상 1
– 정규분포 내의 어느 두 점에 의해 결정되어지는 곡선 이하의 비 율 면적을 알 수 있다.
• 표준화 정규분포의 면적표(표 11-8)를 이용한다.
– Example
• 평균 = 68점, SD = 10 일 때 50점 이상은 얼마나 되나?
• 50점 z-점수 = -1.8 (50점과 평균 사이)
– (50-68)/10 = -1.8 46.41% (표 11-8)
– (평균 이상) + (50점과 평균 사이) = 50 + 46.41 = 96.41% (그림 11-4)
62
표준점수(standardized Scores)
• Z-점수(score)
– SD 단위를 용어로 사용하여 점수를 표현할 때 표준화된 점수를 일컫는다.
– Example
• 평균 = 68점, SD = 10
• 58점 z-점수 = -1.0
– (58-68)/10 = -1.0
– 편차를 표준편차로 나눈 값
– 분포의 모든 점수들을 표준점수로 바꾸면 표준점수
들의 평균은 0이고, 표준편차는 1이 된다. 63