모집단과 표본

(1)

11장 기초통계학(1)

(2)

통계학

• 자료(data) ^{: 측정값}

• 자료를 수집, 정리, 그리고 요약(수집된 자료 를 나타내는 것) : 기술통계학(descriptive statistics)

• 모집단의 특성에 대하여 추측(분석, 판단, 예 측): 추론통계학(inferential statistics)

•

(3)

모집단과 표본

모집단 표본

µ 모집단평균 X 표본평균

σ² 모집단 분산 S² 표본분산

 모집단 비율 p 표본비율

N 모집단 크기 n 표본크기

ρ ^{모집단 상관}

계수

r ^{표본상관계수}

• 모집단의 모수(parameter): 모집단의 특성을 기술하거나 특정하는 측정값

• 표본 통계량(statistics): 표본의 특징을 나타내는 값. 표 본자료를 이용하여 구하는 표본의 평균과 분산이 예

• 모집단과 표본과의 관계

(4)

기술통계학

 그래프로 나타내는 법, 중심경향성, 산포성 집중경향치(Central tendency)

• 평균(mean)(산술평균, 기하평균, 조화평균, 절삭평 균)

• 중위수 또는 중앙값(median)

• 최빈치(mode)

산포도(Measure of variation, dispersion)

• 범위(range)

• 표준편차(SD, Standard Deviation)

• 변이(변동)계수(CV, Coefficient of Variation)

• 백분위수(percentile), 사분위수(quartile)

(5)

추측통계학

 통계적 모형을 설정, 설정된 모형이 합리적인지의 여부를 평가, 자료로부터 얻어진 정보를 근거로 미 지의 특성에 대한 결론을 내리고 예측

추정: 점추정(point estimation)

구간추정(interval estimation) 가설검정(hypothetical testing)

(6)

자료의 정리

• 빈도분포

– 도수분포, 퍼센트(valid percent, %), 누적퍼센트 (cumulative percent)

–

http://news.donga.com/rss/feed/3/all/20150703/

72264754/1

– 자료를 시각적으로 제시하기 위해 막대(bar) 그래 프, 히스토그램(막대사이에 빈 공간이 없음), 원 (pie)그래프, 꺽은선(line)그래프, 줄기-잎 그림으로 제시

– 줄기(stem)-잎(leaf) 그림: 주어진 자료를 두 부분 으로 구분하여 표시, 한쪽 부분을 줄기, 다른 한쪽 을 잎이라 하여 자료를 손실없이 정리한 표

(7)

자료의 요약

• 분포의 모양(Shape of distribution) -

왜도(skewness): 분포의 모양이 대칭을 벗어난 한쪽으로 기울어진 정도

• s=0이 대칭분포

• 오른쪽으로 기울어진 경우가 s > 0

–

첨도(kurtosis): 분포의 뾰족한 정도를 나타내는 척도

• k= 0 이 정규분포를 나타내며 0보다 큰 것이 정규분포 보다 뾰족한 모양을 나타냄

(8)

자료의 요약

• 대푯값

- 평균값(Mean, average) - 중위수(Median)

- 최빈치(Mode)

- 평균, 중위수, 최빈치의 비교

• 산포도(성) : 대표값과 더불어 분포의 형태를 나타내는 중요

한 척도로서 측정값이 대표값 주변으로 얼마나 흩어져

있는가를 나타내는 척도

- 범위(Range)

- 백분위수와 사분위수(Percentiles and quartiles) - 분산(Variance)

- 표준편차(SD, standard deviation)

- 변이(동)계수(CV, Coefficient of Variation)

(9)

평균값

(Mean, average)

• 산술평균, 기하평균, 조화평균, 절삭평균으로 나눔

• 산술평균을 흔히 평균이라 부름

• 산술평균값: 측정값을 모두 합하여 측정값의 개수로 나눈 값

• 측정치의 극단값의 영향을 크게 받고 측정치에서 산술평균을 뺀 값을 더하면 언제나 zero(0)가 됨

(10)

중위수 (Median, 중앙값)

• 중위값(Median): 자료를 크기순으로 나열하여 가장 중앙 에 위치하게 되는 값

• 중위수(중앙값) 계산하는 법

– 홀수인 경우 중위수 = (n+1)/2 번째의 값

– 짝수인 경우 중위수 = n/2번째와 (n/2)+1 번째 값의 산술 평균

• 극단값으로 인한 영향을 전혀 받지 않는 대표치

• 치우친 분포를 나타내어, 왜곡된 분포를 기술하는데 유용

(11)

최빈치 (Mode)

• 최빈값(Mode): 가장 빈도가 높은 값(수치)

• 빈도수를 가장 많이 차지하는 자료(변수)의 값을 말 함

• 최빈치가 한 점 이상 발생했을 때: 쌍봉분포/다봉분 포

• 범주형변수로 측정되었을 때 유용함

• 극단값의 영향을 전혀 받지 않음

(12)

평균 , 중위수, 최빈치의 비교

 중심경향치로 분포를 기술하는데 있어서 고려할 점

• 변수의 측정수준

– 등간 혹은 비척도: 평균, 중위수, 최빈치 모두 의미 있음 – 서열척도: 중위수, 최빈치

– 명목척도: 오직 최빈치만 의미가 있음

• 통계학적 유용성

– 평균이 가장 안정적

– 무작위로 표본을 뽑는다면 표본의 평균값은 최빈치나 중위수보 다 변동이 덜 심함

– 정규분포를 하는 경우는 3가지 모두 유용

– 치우친 분포를 하는 경우는 평균, 중위수, 최빈치를 모두 보고하 는 것이 합리적임

(13)

범위 (Range)

• 범위는 자료의 최대값과 최소값의 차이

• 어떤 변수들 집합의 산포 정도를 개괄적으로 표 시하는 값

• 동질성 정도를 비교할 수 있음

• 표본의 크기가 다른 집단을 비교할 때 범위로 비

교하는 것은 어려움, 간편하게 구할 수 있지만

정확도 면에서 다른 방법에 비해 뒤짐

(14)

백분위와 사분위

(Percentiles and Quartiles)

• 백분위: 규준집단에서 특정 대상자의 점수보다 낮은 점수를 받은 대상자가 전체 대상자 중 몇 %가 있느냐를 나타내 주 는 표시방법

• 즉 어떤 사람의 원점수가 60점인데 백분위등급이 75였다면 이 사람이 받은 60점 아래에 전체 대상자의 75%가 있다는 의미. 이 대상자는 상위 25%에 해당

(15)

백분위와 사분위

(Percentiles and Quartiles)

_• 사분위(quartiles): 백분위를 네 부분으로 나눈 것

– 첫 번째 사분위: 25번째 백분위

– 두 번째 사분위: 50번째 백분위로 중위수 – 세 번째 사분위: 75번째 백분위

• 사분위 범위(interquartile ranges): 전체 자료의 중간 50%부분 이 가지는 범위

– 4분의 3번째의 값과 4분의 1번째의 값의 차

• 사분편차(interquartile deviation): 측정한 자료를 순위대로 나 열하여 4분의 3번째의 값과 4분의 1번째의 값의 차를 2로 나 눈 값

• 범위는 극단값의 변화에 심하게 변화가 나타나게 되는 데 반 해 사분편차는 극단값에 크게 영향을 받지 않음

(16)

분산 (Variance)

• 분산: 측정값과 산술평균 편차를 제곱한 것의 평균값

– 분산이 큼: 측정값이 평균을 중심으로 넓게 퍼져 있음 – 분산이 작음: 측정값이 평균값 가까이에 분포함

• 표본의 자료는 모집단에서의 모든 값을 포함하지 않기 때문에 실제 모집단 분산보다 다소 표본분산이 작게 되 어 표본분산은 n으로 나누는 대신 n-1로 나눔

• 분산은 측정단위에 제곱을 한 형태로 표기되므로 해석이 어려우며 원자료의 측정단위와 동일한 측정단위로 산포 성을 나타낼 수 있는 지수가 필요함

• 기술통계량으로 분산은 잘 사용하지 않고 분산분석 (ANOVA)을 할 때 주로 사용

• 통계학에서는 분산이라는 표현을 많이 쓰고 사회과학에 서는 변량이라는 표현을 많이 사용함.

(17)

(18)

(19)

(20)

(21)

(22)

(23)

(24)

표준편차

(SD, standard deviation)

• 표준편차는 분산의 제곱근으로부터 구할 수 있음

• 원자료와 동일한 측정단위를 사용하면서 산포성을 나타낼 수 있는 지수

• 표준편차가 큼: 변이의 정도가 큼

• 표준편차가 작음: 변이의 정도가 작음

• cf) 표준 오차(SE): 표본평균의 표준편차를 나타내는 것으로 추정된 모평균의 정밀성을 나타냄, 모평균의 정밀성을 나타낼 때도 95% 신뢰구간으로 제시하는 것이 더 이해를 쉽게 함

(25)

표준편차와 표준오차

• 표준편차: 자료의 퍼짐 정도를 알려줌.

자료가 평균과 얼마만큼의 차이를 갖고 있는가? 분산에 루트를 씌운것, 관측값 의 산포정도를 나타냄

• 표준오차: 표본의 평균이 얼마나 정확한

지를 알려주는 것. 추정량의 정밀도를

나타냄. 표준오차 < 표준편차

(26)

모집단과 표본

모집단 표본

µ 모집단평균 X 표본평균

σ² 모집단 분산 S² 표본분산

 모집단 비율 p 표본비율

N 모집단 크기 n 표본크기

ρ ^{모집단 상관}

계수

r ^{표본상관계수}

• 모집단의 모수: 모집단의 특성을 기술하거나 특정하는 측정 값

• 표본 통계량(statistics): 표본의 특징을 나타내는 값. 표 본자료를 이용하여 구하는 표본의 평균과 분산 같은 것

• 모집단과 표본의 관계

(27)

• 두 개의 표본집단간의 상대적인 산포성을 비교할 때 사용

• 표준편차를 평균으로 나눈 후 100을 곱하여 백분율 로 나타낸 것

• CV=(S/ ) x 100

• 예) 표면근전도를 이용하여 넙다리네갈래근의 활동 전위를 측정한 경우에 넙다리네갈래근의 어느 근육 에서 변이가 큰가를 알아보려 할 때 사용

변이 (동)계수(CV,

Coefficient of Variation)

x

(28)

• 서로 측정 단위가 다른 집단의 크기를 비교하기 위해 표준화된 자료를 사용

• 두 집단의 평균이 다른 경우 표준편차

를 사용해서 산포성을 비교하는 것은

적합하지 않음

(29)

• Schober: 요추천골접합부로부터 10 cm 위의 지점

• Modified Schober: 요추천골접합부로 부터 5cm 아래지점과 10cm위 지점과 거리

• Modified-Modified Schober: 후장골극

과 요추천추접합부의 교차점에서 위로

15cm위의 지점과 거리

(30)

SPSS를 이용한 기술통계

(31)

• 다음 자료는 고관절 각도를 각 각 70도와 80도로 하였을 때 대퇴직근에 생기는 활동 전위에 대한 가상적인 자료임

• 집단 1은 고관절이 70도 굴곡되었을 때

• 집단 2는 고관절이 80도 굴곡되었을 때 나 타냄

• 대퇴직근의 활동전위에 대하여 기술통계

량을 알고자 함

(32)

(33)

(34)

(35)

(36)

(37)

(38)

(39)

(40)

(41)

(42)

(43)

force 줄기와 잎그림 도표 빈도 Stem & 잎 2.00 3 . 02 1.00 3 . 5

5.00 4 . 01223 2.00 4 . 88 2.00 5 . 02 3.00 5 . 555 1.00 6 . 2 줄기 너비: 10.00 각 잎: 1 케이스

(44)

(45)

정규성 검정

Kolmogorov-Smirnova Shapiro-Wilk

통계량 자유도 유의확률 통계량 자유도 유의확률

force .114 16 .200* .969 16 .821

* 이것은 참 유의성의 하한입니다.

a Lilliefors 유의확률 수정

(46)

(47)

다중응답의 빈도분석

(48)

(49)

(50)

(51)

(52)

(53)

(54)

(55)

(56)

(57)

정규분포의 특성

• 종을 엎어 놓은 모양

• 좌우 대칭의 단봉분포

• 첨도와 왜도가 0

• Median, mean, mode가 일치

• 가우스(Gauss) 분포라고도 불림

• 정규곡선과 X축 사이 전체 면적은 1

• 정규분포에서 변곡점이 3곳 생기는데 그 거리는 평균에서 표준편차 만큼의 거리에서 생김

• 평균 0, 표준편차 1로 바꾸어 표준화된 정규분포를 만듬

• 정규분포면적은 그 값이 발생할 확률을 알려줌

• 표준화 정규분포의 면적은 확률밀도를 의미함

• 표준화 정규분포표의 전체 면적은 1임

(58)

정규분포

(Normal distribution)

• 산술평균, 중위수, 최빈값이 모두 같음

• 평균을 중심으로 좌우 대칭으로 평균을 중심으로 좌측확률이 0.5, 우측 확률이 0.5임

• 확률변수 X는 -∞에서 +∞까지 값을 가짐

• 평균이 µ, 분산이 σ²인 정규분포는

P(µ-σ≤X≤µ+σ) = 0.6823 P(µ-2σ≤X≤µ+2σ) = 0.9544

P(µ-3σ≤X≤µ+3σ) = 0.9974 의 확률값을 가지며 이와 같은 구간확률(넓이)를 가짐

• 평균이 0, 분산이 1인 정규분포를 표준정규분포라 함

(59)

정규분포(Normal Distribution)

• 특성

– 대부분의 측정값들이 평균 주위에 모여 있다.

– 좌우 대칭이며, 종 모양이다.

– 평균, 중위수, 최빈치는 모두 같다.

– 첨도와 왜도는 0 이다.

– 점수들은 평균을 중심으로 양극단을 향해 무한대로 진 행한다.

– 면적은 그 값이 발생할 확률 이고, 따라서 전체 면적은 1 이 된다.

59

(60)

표준정규분포 (Normal

distribution)

(61)

• 표준점수(Standardized scores)

z－점수(표준값) : 원점수에서 평균을 뺀 편차를 SD로 나누 어 계산

• 표준정규분포곡선(Standardized normal curve)

정규분포는 표준화된 점수들로 표현

z－점수의 분포에서 평균은 항상 0일 것이고 표준편차 SD는 항상 1

(62)

표준정규분포곡선

(Standardized Normal Curve)

• 표준정규분포곡선

– 표준점수(z-score)로 표현

– 평균은 항상 0, 표준편차는 항상 1

– 정규분포 내의 어느 두 점에 의해 결정되어지는 곡선 이하의 비 율 면적을 알 수 있다.

• 표준화 정규분포의 면적표(표 11-8)를 이용한다.

– Example

• 평균 = 68점, SD = 10 일 때 50점 이상은 얼마나 되나?

• 50점  z-점수 = -1.8 (50점과 평균 사이)

– (50-68)/10 = -1.8  46.41% (표 11-8)

– (평균 이상) + (50점과 평균 사이) = 50 + 46.41 = 96.41% (그림 11-4)

62

(63)

표준점수(standardized Scores)

• Z-점수(score)

– SD 단위를 용어로 사용하여 점수를 표현할 때 표준화된 점수를 일컫는다.

– Example

• 평균 = 68점, SD = 10

• 58점  z-점수 = -1.0

– (58-68)/10 = -1.0

– 편차를 표준편차로 나눈 값

– 분포의 모든 점수들을 표준점수로 바꾸면 표준점수

들의 평균은 0이고, 표준편차는 1이 된다. ₆₃

(64)

• 만점에 관한 기준이 달라지더라도 그 표준값의 평균은 반드시 0, 표준 편차는 반드시 1이다.  100점 만 점의 시험과 200점 만점의 시험 비 교가능

• 어떤 단위의 변수라도 그 표준값의

평균은 반드시 0, 표준편차는 반드

시 1이다. 측정 단위가 다른 요소

들도 비교가 가능

(65)

표준화를 실시하면

• 만점이 서로 다른 변수의 비교

• 단위가 서로 다른 변수의 비교가 가능

해진다.

(66)

대표적인 확률밀도함수

• 정규분포

• 표준정규분포

• 카이제곱분포

• t-분포

• F-분포

(67)

중심극한정리(Central limit theorem)

• 표본의 크기가 충분히 클 때(n>30) 모 집단의 분포와 상관없이 정규분포가 됨 을 말함

• 표본에서의 평균값의 분포는 평균이 u, 표준편차가 σ / √ n 인 정규분포를 이룸

• 통계적 추정에 관련된 모든 기법들은

중심극한 정리에 기초를 두고 있음

(68)

중심극한정리(Central Limit Theorem, CLT)

• 표본의 크기가 충분히 클 때(n>30) 모 집단의 분포와 상관없이 정규분포가 됨 을 말함

• 표본에서의 평균값의 분포는 평균이 u, 표준편차가 σ / √ n 인 정규분포를 이룸

• 즉, 표본평균들의 표준편차는 모집단의

표준편차를 표본크기의 제곱근으로 나

눈 것이다.

(69)