• 검색 결과가 없습니다.

모집단과 표본

N/A
N/A
Protected

Academic year: 2022

Share "모집단과 표본"

Copied!
70
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

11장 기초통계학(1)

(2)

통계학

• 자료(data) : 측정값

• 자료를 수집, 정리, 그리고 요약(수집된 자료 를 나타내는 것) : 기술통계학(descriptive statistics)

• 모집단의 특성에 대하여 추측(분석, 판단, 예 측): 추론통계학(inferential statistics)

(3)

모집단과 표본

모집단 표본

µ 모집단평균 X 표본평균

σ2 모집단 분산 S2 표본분산

모집단 비율 p 표본비율

N 모집단 크기 n 표본크기

ρ 모집단 상관

계수

r 표본상관계수

모집단의 모수(parameter): 모집단의 특성을 기술하거나 특정하는 측정값

표본 통계량(statistics): 표본의 특징을 나타내는 값. 표 본자료를 이용하여 구하는 표본의 평균과 분산이 예

모집단과 표본과의 관계

(4)

기술통계학

그래프로 나타내는 법, 중심경향성, 산포성 집중경향치(Central tendency)

평균(mean)(산술평균, 기하평균, 조화평균, 절삭평 균)

중위수 또는 중앙값(median)

최빈치(mode)

산포도(Measure of variation, dispersion)

범위(range)

표준편차(SD, Standard Deviation)

변이(변동)계수(CV, Coefficient of Variation)

백분위수(percentile), 사분위수(quartile)

(5)

추측통계학

 통계적 모형을 설정, 설정된 모형이 합리적인지의 여부를 평가, 자료로부터 얻어진 정보를 근거로 미 지의 특성에 대한 결론을 내리고 예측

추정: 점추정(point estimation)

구간추정(interval estimation) 가설검정(hypothetical testing)

(6)

자료의 정리

• 빈도분포

– 도수분포, 퍼센트(valid percent, %), 누적퍼센트 (cumulative percent)

http://news.donga.com/rss/feed/3/all/20150703/

72264754/1

– 자료를 시각적으로 제시하기 위해 막대(bar) 그래 프, 히스토그램(막대사이에 빈 공간이 없음), 원 (pie)그래프, 꺽은선(line)그래프, 줄기-잎 그림으로 제시

– 줄기(stem)-잎(leaf) 그림: 주어진 자료를 두 부분 으로 구분하여 표시, 한쪽 부분을 줄기, 다른 한쪽 을 잎이라 하여 자료를 손실없이 정리한 표

(7)

자료의 요약

• 분포의 모양(Shape of distribution) -

왜도(skewness): 분포의 모양이 대칭을 벗어난 한쪽으로 기울어진 정도

s=0이 대칭분포

• 오른쪽으로 기울어진 경우가 s > 0

첨도(kurtosis): 분포의 뾰족한 정도를 나타내는 척도

k= 0 이 정규분포를 나타내며 0보다 큰 것이 정규분포 보다 뾰족한 모양을 나타냄

(8)

자료의 요약

• 대푯값

- 평균값(Mean, average) - 중위수(Median)

- 최빈치(Mode)

- 평균, 중위수, 최빈치의 비교

• 산포도(성) : 대표값과 더불어 분포의 형태를 나타내는 중요

한 척도로서 측정값이 대표값 주변으로 얼마나 흩어져

있는가를 나타내는 척도

- 범위(Range)

- 백분위수와 사분위수(Percentiles and quartiles) - 분산(Variance)

- 표준편차(SD, standard deviation)

- 변이(동)계수(CV, Coefficient of Variation)

(9)

평균값

(Mean, average)

• 산술평균, 기하평균, 조화평균, 절삭평균으로 나눔

• 산술평균을 흔히 평균이라 부름

• 산술평균값: 측정값을 모두 합하여 측정값의 개수로 나눈 값

• 측정치의 극단값의 영향을 크게 받고 측정치에서 산술평균을 뺀 값을 더하면 언제나 zero(0)가 됨

(10)

중위수 (Median, 중앙값)

중위값(Median): 자료를 크기순으로 나열하여 가장 중앙 에 위치하게 되는 값

중위수(중앙값) 계산하는 법

홀수인 경우 중위수 = (n+1)/2 번째의 값

짝수인 경우 중위수 = n/2번째와 (n/2)+1 번째 값의 산술 평균

• 극단값으로 인한 영향을 전혀 받지 않는 대표치

• 치우친 분포를 나타내어, 왜곡된 분포를 기술하는데 유용

(11)

최빈치 (Mode)

• 최빈값(Mode): 가장 빈도가 높은 값(수치)

• 빈도수를 가장 많이 차지하는 자료(변수)의 값을 말 함

• 최빈치가 한 점 이상 발생했을 때: 쌍봉분포/다봉분 포

• 범주형변수로 측정되었을 때 유용함

• 극단값의 영향을 전혀 받지 않음

(12)

평균 , 중위수, 최빈치의 비교

 중심경향치로 분포를 기술하는데 있어서 고려할 점

• 변수의 측정수준

등간 혹은 비척도: 평균, 중위수, 최빈치 모두 의미 있음 서열척도: 중위수, 최빈치

명목척도: 오직 최빈치만 의미가 있음

• 통계학적 유용성

평균이 가장 안정적

무작위로 표본을 뽑는다면 표본의 평균값은 최빈치나 중위수보 다 변동이 덜 심함

정규분포를 하는 경우는 3가지 모두 유용

치우친 분포를 하는 경우는 평균, 중위수, 최빈치를 모두 보고하 는 것이 합리적임

(13)

범위 (Range)

• 범위는 자료의 최대값과 최소값의 차이

• 어떤 변수들 집합의 산포 정도를 개괄적으로 표 시하는 값

• 동질성 정도를 비교할 수 있음

• 표본의 크기가 다른 집단을 비교할 때 범위로 비

교하는 것은 어려움, 간편하게 구할 수 있지만

정확도 면에서 다른 방법에 비해 뒤짐

(14)

백분위와 사분위

(Percentiles and Quartiles)

백분위: 규준집단에서 특정 대상자의 점수보다 낮은 점수를 받은 대상자가 전체 대상자 중 몇 %가 있느냐를 나타내 주 는 표시방법

즉 어떤 사람의 원점수가 60점인데 백분위등급이 75였다면 이 사람이 받은 60점 아래에 전체 대상자의 75%가 있다는 의미. 이 대상자는 상위 25%에 해당

(15)

백분위와 사분위

(Percentiles and Quartiles)

사분위(quartiles): 백분위를 네 부분으로 나눈 것

첫 번째 사분위: 25번째 백분위

두 번째 사분위: 50번째 백분위로 중위수 세 번째 사분위: 75번째 백분위

사분위 범위(interquartile ranges): 전체 자료의 중간 50%부분 이 가지는 범위

4분의 3번째의 값과 4분의 1번째의 값의 차

사분편차(interquartile deviation): 측정한 자료를 순위대로 나 열하여 4분의 3번째의 값과 4분의 1번째의 값의 차를 2로 나 눈 값

범위는 극단값의 변화에 심하게 변화가 나타나게 되는 데 반 사분편차는 극단값에 크게 영향을 받지 않음

(16)

분산 (Variance)

• 분산: 측정값과 산술평균 편차를 제곱한 것의 평균값

– 분산이 큼: 측정값이 평균을 중심으로 넓게 퍼져 있음 – 분산이 작음: 측정값이 평균값 가까이에 분포함

• 표본의 자료는 모집단에서의 모든 값을 포함하지 않기 때문에 실제 모집단 분산보다 다소 표본분산이 작게 되 어 표본분산은 n으로 나누는 대신 n-1로 나눔

• 분산은 측정단위에 제곱을 한 형태로 표기되므로 해석이 어려우며 원자료의 측정단위와 동일한 측정단위로 산포 성을 나타낼 수 있는 지수가 필요함

• 기술통계량으로 분산은 잘 사용하지 않고 분산분석 (ANOVA)을 할 때 주로 사용

• 통계학에서는 분산이라는 표현을 많이 쓰고 사회과학에 서는 변량이라는 표현을 많이 사용함.

(17)
(18)
(19)
(20)
(21)
(22)
(23)
(24)

표준편차

(SD, standard deviation)

• 표준편차는 분산의 제곱근으로부터 구할 수 있음

• 원자료와 동일한 측정단위를 사용하면서 산포성을 나타낼 수 있는 지수

• 표준편차가 큼: 변이의 정도가 큼

• 표준편차가 작음: 변이의 정도가 작음

• cf) 표준 오차(SE): 표본평균의 표준편차를 나타내는 것으로 추정된 모평균의 정밀성을 나타냄, 모평균의 정밀성을 나타낼 때도 95% 신뢰구간으로 제시하는 것이 더 이해를 쉽게 함

(25)

표준편차와 표준오차

• 표준편차: 자료의 퍼짐 정도를 알려줌.

자료가 평균과 얼마만큼의 차이를 갖고 있는가? 분산에 루트를 씌운것, 관측값 의 산포정도를 나타냄

• 표준오차: 표본의 평균이 얼마나 정확한

지를 알려주는 것. 추정량의 정밀도를

나타냄. 표준오차 < 표준편차

(26)

모집단과 표본

모집단 표본

µ 모집단평균 X 표본평균

σ2 모집단 분산 S2 표본분산

모집단 비율 p 표본비율

N 모집단 크기 n 표본크기

ρ 모집단 상관

계수

r 표본상관계수

모집단의 모수: 모집단의 특성을 기술하거나 특정하는 측정

표본 통계량(statistics): 표본의 특징을 나타내는 값. 표 본자료를 이용하여 구하는 표본의 평균과 분산 같은 것

모집단과 표본의 관계

(27)

• 두 개의 표본집단간의 상대적인 산포성을 비교할 때 사용

• 표준편차를 평균으로 나눈 후 100을 곱하여 백분율 로 나타낸 것

• CV=(S/ ) x 100

• 예) 표면근전도를 이용하여 넙다리네갈래근의 활동 전위를 측정한 경우에 넙다리네갈래근의 어느 근육 에서 변이가 큰가를 알아보려 할 때 사용

변이 (동)계수(CV,

Coefficient of Variation)

x

(28)

• 서로 측정 단위가 다른 집단의 크기를 비교하기 위해 표준화된 자료를 사용

• 두 집단의 평균이 다른 경우 표준편차

를 사용해서 산포성을 비교하는 것은

적합하지 않음

(29)

• Schober: 요추천골접합부로부터 10 cm 위의 지점

• Modified Schober: 요추천골접합부로 부터 5cm 아래지점과 10cm위 지점과 거리

• Modified-Modified Schober: 후장골극

과 요추천추접합부의 교차점에서 위로

15cm위의 지점과 거리

(30)

SPSS를 이용한 기술통계

(31)

• 다음 자료는 고관절 각도를 각 각 70도와 80도로 하였을 때 대퇴직근에 생기는 활동 전위에 대한 가상적인 자료임

• 집단 1은 고관절이 70도 굴곡되었을 때

• 집단 2는 고관절이 80도 굴곡되었을 때 나 타냄

• 대퇴직근의 활동전위에 대하여 기술통계

량을 알고자 함

(32)
(33)
(34)
(35)
(36)
(37)
(38)
(39)
(40)
(41)
(42)
(43)

force 줄기와 잎그림 도표 빈도 Stem & 잎 2.00 3 . 02 1.00 3 . 5

5.00 4 . 01223 2.00 4 . 88 2.00 5 . 02 3.00 5 . 555 1.00 6 . 2 줄기 너비: 10.00 각 잎: 1 케이스

(44)
(45)

정규성 검정

Kolmogorov-Smirnova Shapiro-Wilk

통계량 자유도 유의확률 통계량 자유도 유의확률

force .114 16 .200* .969 16 .821

* 이것은 참 유의성의 하한입니다.

a Lilliefors 유의확률 수정

(46)
(47)

다중응답의 빈도분석

(48)
(49)
(50)
(51)
(52)
(53)
(54)
(55)
(56)
(57)

정규분포의 특성

종을 엎어 놓은 모양

좌우 대칭의 단봉분포

첨도와 왜도가 0

Median, mean, mode가 일치

가우스(Gauss) 분포라고도 불림

정규곡선과 X축 사이 전체 면적은 1

정규분포에서 변곡점이 3곳 생기는데 그 거리는 평균에서 표준편차 만큼의 거리에서 생김

평균 0, 표준편차 1로 바꾸어 표준화된 정규분포를 만듬

정규분포면적은 그 값이 발생할 확률을 알려줌

표준화 정규분포의 면적은 확률밀도를 의미함

표준화 정규분포표의 전체 면적은 1임

(58)

정규분포

(Normal distribution)

• 산술평균, 중위수, 최빈값이 모두 같음

• 평균을 중심으로 좌우 대칭으로 평균을 중심으로 좌측확률이 0.5, 우측 확률이 0.5임

• 확률변수 X는 -∞에서 +∞까지 값을 가짐

• 평균이 µ, 분산이 σ2인 정규분포는

P(µ-σ≤X≤µ+σ) = 0.6823 P(µ-2σ≤X≤µ+2σ) = 0.9544

P(µ-3σ≤X≤µ+3σ) = 0.9974 의 확률값을 가지며 이와 같은 구간확률(넓이)를 가짐

평균이 0, 분산이 1인 정규분포를 표준정규분포라 함

(59)

정규분포(Normal Distribution)

• 특성

대부분의 측정값들이 평균 주위에 모여 있다.

좌우 대칭이며, 종 모양이다.

평균, 중위수, 최빈치는 모두 같다.

첨도와 왜도는 0 이다.

점수들은 평균을 중심으로 양극단을 향해 무한대로 진 행한다.

면적은 그 값이 발생할 확률 이고, 따라서 전체 면적은 1 이 된다.

59

(60)

표준정규분포 (Normal

distribution)

(61)

• 표준점수(Standardized scores)

z-점수(표준값) : 원점수에서 평균을 뺀 편차를 SD로 나누 어 계산

• 표준정규분포곡선(Standardized normal curve)

정규분포는 표준화된 점수들로 표현

z-점수의 분포에서 평균은 항상 0일 것이고 표준편차 SD는 항상 1

(62)

표준정규분포곡선

(Standardized Normal Curve)

• 표준정규분포곡선

표준점수(z-score)로 표현

평균은 항상 0, 표준편차는 항상 1

정규분포 내의 어느 두 점에 의해 결정되어지는 곡선 이하의 비 율 면적을 알 수 있다.

표준화 정규분포의 면적표(표 11-8)를 이용한다.

Example

평균 = 68점, SD = 10 일 때 50점 이상은 얼마나 되나?

50점  z-점수 = -1.8 (50점과 평균 사이)

– (50-68)/10 = -1.8  46.41% (표 11-8)

– (평균 이상) + (50점과 평균 사이) = 50 + 46.41 = 96.41% (그림 11-4)

62

(63)

표준점수(standardized Scores)

• Z-점수(score)

– SD 단위를 용어로 사용하여 점수를 표현할 때 표준화된 점수를 일컫는다.

– Example

• 평균 = 68점, SD = 10

• 58점  z-점수 = -1.0

(58-68)/10 = -1.0

편차를 표준편차로 나눈 값

분포의 모든 점수들을 표준점수로 바꾸면 표준점수

들의 평균은 0이고, 표준편차는 1이 된다. 63

(64)

• 만점에 관한 기준이 달라지더라도 그 표준값의 평균은 반드시 0, 표준 편차는 반드시 1이다.  100점 만 점의 시험과 200점 만점의 시험 비 교가능

• 어떤 단위의 변수라도 그 표준값의

평균은 반드시 0, 표준편차는 반드

시 1이다. 측정 단위가 다른 요소

들도 비교가 가능

(65)

표준화를 실시하면

• 만점이 서로 다른 변수의 비교

• 단위가 서로 다른 변수의 비교가 가능

해진다.

(66)

대표적인 확률밀도함수

• 정규분포

• 표준정규분포

• 카이제곱분포

• t-분포

• F-분포

(67)

중심극한정리(Central limit theorem)

• 표본의 크기가 충분히 클 때(n>30) 모 집단의 분포와 상관없이 정규분포가 됨 을 말함

• 표본에서의 평균값의 분포는 평균이 u, 표준편차가 σ / √ n 인 정규분포를 이룸

• 통계적 추정에 관련된 모든 기법들은

중심극한 정리에 기초를 두고 있음

(68)

중심극한정리(Central Limit Theorem, CLT)

• 표본의 크기가 충분히 클 때(n>30) 모 집단의 분포와 상관없이 정규분포가 됨 을 말함

• 표본에서의 평균값의 분포는 평균이 u, 표준편차가 σ / √ n 인 정규분포를 이룸

• 즉, 표본평균들의 표준편차는 모집단의

표준편차를 표본크기의 제곱근으로 나

눈 것이다.

(69)

결론

• 표본이 무작위로 추출되고 표본크기가 충분히 커야 한다. 일반적으로 30이상 이면 그 분포는 정규분포한다는 것을 안다.

•  표본분포로부터 확률계산이 가능하 다.

• 어떤 분포가 종모양이면 그 안에 있는

영역의 넓이를 계산하기 위해 그 평균

과 표준편차를 사용하면 된다.

(70)

Sample distribution과 sampling distribution

• 표본분포(Sample distribution): 크기 n인 한 표본의 분포

• 표집분포(Sampling distribution): 크기 n인

무한대의 표본 평균값들이 이루는 분포 

여기서의 평균은 결국 모집단의 평균 μ가

된다.

참조

관련 문서

모집단의 개체를 찾기 어려울 때 사용하는 방법으로 표본으로 선택된 개체에게 알고 있는 모집단의 다른 개체를 추천하도록 하여 표본의 수를 늘려 나가는 방법..

⊙ 작은 값 쪽으로 긴 꼬리를 뻗은 기울어진 분포를 갖는 표본 자료의 정규확률 플롯은 비스듬히 누운 역 J자 형태의 경향선을 갖는다. ⊙ 수명자료에

 정적설계에서 신호인자 추가하기: 정적설계에서 신호인자를 추가할 때 미니탭은 워크 시트의 인자열 다음에 추가될 신호인자 열을 만들고 행을

• Analysis: A band-limited signal of finite energy that has no frequency components higher than W herts is completely described by specifying the values of the signal at

디지털

정규분포를 이루지만 모집단의 분산을 모르는 경우 표본의 크기 가 작을 때에는 t 검정을 이용하여 두 표본 평균간의 차에 대한 유 의성을 검정.. 서로

•모집단의 모수나 분포특성에 대한 정보가 없다고 가정을 하고, 표본자료를 이용하여 표본의 통계량(표본평균, 표본분산)을 산출 하여 이들의 표본분포를 이용하여

평균,