모분산σ

(1)

실험통계학 제2주 강의안내

자료의 수집과 정리

우리는 알고 싶다. 자료를 수집하여 알아낸다(파악한다). 다 조사할 수는 없다. 그래서 표 본조사를 한다. 표본은 전체의 일부이기 때문에 표본조사 결과는 전체 실제와 얼마의 차이 가 있을 수 있다. 이것을 표본오차라고 한다. 따라서 표본의 결과를 토대로 전체에 대한 정 보를 표시할 때는 절대치로 나타낼 수 없으며, 다만 추정치에 확률을 더하여 나타낸다.

예) 여론조사 결과를 나타낼 때 평균치와 표준오차 제시

1. 모집단과 표본 (Population and samples) 표본 (Sample) ----> 모집단(population) 유한모집단(finite population): 대한민국 국민 무한모집단(infinite population): 바이러스

자료(data)-표본에서 취한 자료를 분석하여 모집단의 특성을 파악 자료는 최소추출단위의 관찰이나 측정, 즉 개별관측으로 얻어진다.

최수추출단위: 개체(individual)-사람의 경우 개인, 개체군(colony)-집단

변량 (variable)은 생물의 경우 형질(character)이라고 한다. 2변량 표본, 다변량 표본 귀납적통계학 (추정통계학, inductive statistics, inferential statistics)

연역적통계학, 기술통계학 (descriptive statistics) 2. 표본추출

모집단(population): 파악이나 추정의 대상이 되는 측정이 가능한 대상 전체를 의미한다.

표본(sample): 통계적 처리를 위하여 특정절차로 얻어진 개별 관측치의 집단 표본오차(sampling error): 모집단 통계량과 표본통계량간의 차이

임의추출법(무작위추출법)(random sampling) 확률표본추출 (probability sampling)

→ 정확한 대표치 → →

↑ ↓

모집단 임의표본 표본

↓

← 정확한 추정 ← ←

↑ 통계적 추론

모집단(population)

모수(parameter) ←추정 표본(sample)

표본통계량(statistics)

모평균 μ 표본평균 



모분산 σ² 표본분산 S²

모표준편차 σ 표본표준편차 S

(2)

1) 단순임의표본추출법 (simple random sampling method): 난수표사용 2) 군락추출법(cluster sampling): 임의 군락을 취하여 전수 조사

3) 다단추출법(multistage sampling): 군락의 전수조사가 힘들 경우 임의추출 군락에서 다 시 임의표본을 선택하는 방법, 예) 벼의 포기를 임의 추출한 다음 포기에서 다시 이삭을 임 의 추출하는 방법

4) 계층추출법(stratified random sampling)

몇 개의 계층으로 나눈 다음 계층별로 임의 추출, 여론조사에서 연령대별로 조사하는 등

3. 변량 (Variable)

변량(variable): 특성을 나타내기 위하여 조사한 수치 등을 변량이라 한다. 체격을 나타내 기 위하여 조사한 키, 앉은키, 가슴둘레, 팔, 다리길이 등을 조사한 값을 변량이라 한다. 농 업에서 주로 조사하는 변량을 형질(character)이라고 한다.

형질(character): 특성을 표현하기 위하여 측정하는 값.

변량 측정변량 연속변량-키, 몸무게, 엽장, 엽폭, 수량 등

불연속변량-성별, 메벼와 찰벼, 둥근 대 쭈그러진, 자색 대 백색 순위변량, 질적변량, 유도변량

4. 도수분포표

자료를 보기 쉽게 정리하는 방법의 하나로 도수분포표를 사용할 수 있다.

계급(class)

개체수(도수, 빈도, frequency)

도수분포표(frequency distribution table) 도수분포도(frequency diagram)

계급수(number of calss)의 결정

Sturges의 공식, k=1+(log n/log2)=1+3.3 log n 급구간(class interval, CI)의 결정, CI=(Max-Min)/k

급한계(class limit) 급경계(class boundary)

계급치(class mark, class midpoint; CM)

5. 도수분포도

자료의 분포를 더욱 빨리 볼 수 있도록 그림으로 정리한다.

1. 막대그림과 원그림, 2. 기둥그림, 3. 도수절선 4. 도수곡선과 도수곡선, 5. 누적도수분포도

6. 도수곡선의 유형, 7. 줄기-잎그림

제3장 기술통계 1. 위치의 통계량

자료의 중심을 파악한다. 중심경향(Central tendency) 1) 산술평균(arithmatic mean): 



2) 중위수(median): Md, 



(3)

3) 최빈수(mode): Mo, 



4) 기하평균(geometric mean): G =ⁿ√(X1 * X2 * ...* Xn) 5) 조화평균(harmonic mean): H=1/(1/n*∑(1/Xi)

6) 사분위수와 백분위수 사분위수

n=4k+2 또는 n=4k+3일 때 Q1 = X(k+1)

Q3 = X(n-k)

1 2 3 4 5 6 7 8 9 10 (n=4(2)+2) Q2

Q1 Q3

1 2 3 4 5 6 7 8 9 10 11 (n=4(2)+3) Q2

Q1 Q3

n=4k 또는 n=4k+1일 때 Q1 = [X(k) + X(k+1)]/2 Q3 = [X(n-k) + X(n-k+1)]/2

1 2 3 4 5 6 7 8 (n=4(2)) Q2

Q1 Q3

1 2 3 4 5 6 7 8 9 (n=4(2)+1) Q2

Q1 Q3

5) 위치통계량의 상호관계

정규분포(좌우대칭) 



=Md=Mo

우편포(skewed to right), 좌편포(skewed to left) Mo<Md<



^



<Md<Mo

편포도(skewness, Sk) = 3(산술평균-중위수)/표준편차 Sk=3(



-Md)/S, Sk=0(좌우대칭), Sk≤-1(좌편포), Sk≥1(우편포)

(4)

2. 산포도 측정

변량의 산포의 정도를 표나 그림이 아니라 간단한 수치로, 그것도 평균치와 관련하여 나 타낸다.

1) 범위 (Range): Max - Min

2) 편차 (Deviation): (Xi-



), ∑(Xi-



) = 0, 3) 자승합 (Sum of square, SS): SS=∑(Xi-



₎² 4) 분산 (Variance)

모분산 (Population variance, σ²), σ²=∑(Xi-μ)²/n 표본분산(Sample variance, S²), S²=∑(Xi-



)²/(n-1) 5) 표준편차

모표준편차 (Standard deviation, σ), σ=√σ² 표본표준편차(S), S=√S²



변량 X 편차(Xi-



) 편차자승(Xi-



)²



1 -2 4

2 -1 1

3 0 0

4 +1 1

5 +2 4



합계 편차합계 편차자승합, ∑(Xi-



₎² _{= 10} 평균



=3 ∑(Xi-



)=0 평균자승합 = 10/5=2 (모분산 σ²)

표본분산 =10/(5-1)=2.5 (표본분산 S²)

3. 모집단 통계량과 표본통계량 모집단(population)

모수(parameter) ←추정 표본(sample)

표본통계량(statistics)

모평균 μ 표본평균 



모분산 σ² 표본분산 S²

모표준편차 σ 표본표준편차 S

4. 정의식과 계산식

정의식 (definition formula) SS=∑(Xi-



)²

S²=∑(Xi-



)²/(n-1) 계산식 (computing formula)

변량자승합(미보정자승합, Uncorrected Sum of Square, USS) =∑Xi2

보정항 (Correction term, CT)=(∑Xi)²/n 자승합 SS=USS-CT = ∑Xi2 - (∑Xi)²/n

(5)

분산 S²={∑Xi2 - (∑Xi)²/n}/(n-1)

5. 비교산포도 측정

5 7

4 5 6 4 5 6 6 7 8

3 4 5 6 7 2 3 4 5 6 7 8 5 6 7 8 9

평균: 5.0 평균: 5.0 평균: 7.0

분산: 1.33 분산: 3.33 분산: 1.33

준편차: 1.15 표준편차: 1.83 표준편차: 1.15

평균치가 같은 경우는 표준편차나 분산값을 비교하여 산포의 정도를 비교할 수 있다. 그 러나 많은 경우에는 평균치가 같을 수가 없는 경우가 많다. 즉, 어떤 학교 학생들의 키와 체 중의 산포도를 비교할 경우 평균치가 같을 수가 없다. 이러한 경우 변이계수를 사용할 수 있다. 입시에서 선택과목이 다른 학생들의 학력을 비교할 경우 표준점수를 구하여 평가한다.

1) 절대산포도와 비교산포도

2) 변이계수 (Coefficient of variation, CV) CV(%)=[S/



_{] x 100}

3) 표준변량(Standard variable), 표준정규분포 Z=(Xi-μ)/σ

=(X-



)/S

6. 상자그림과 상자수염그림 1) 상자그림(box plot)

Min Q1 Q2 Q3 Max

2) 상자수염그림(box and whisker plot)

-3D -1.5D ｜← D → ｜ +1.5D +3D

* 특이점 * 극단치

바깥쪽울타리 안쪽울타리 Q1 Q2 Q3 안쪽울타리 바깥쪽울타리

Hinge Hinge Mild Extreme

(돌쩌귀) outlier outlier

6. 자료의 수치변환 1) 가감수치변환 2) 승제수치변환

(6)

3) 혼합수치변환

SHARP 509W, 509X 사용법(더욱 자세한 것은 사용설명서 참조) 예시 자료-(3, 4, 5, 6, 7)

키 누르기 예시, 비고, 화면

계산기 켜기 ON/C

계산기 꺼기 2ndF ON/C

모드 설정-통계(Stat 0) MODE-1(STAT)-0(SD) 일반 통계분석에 사용 -1차함수 MODE-1(STAT)-1(LINE) 회귀, 상관 분석에서 사용

지우기 ON/C

모두지우기 2ndF CA(MODE) 입력자료 모두 소거

자료 입력 수치DATA(M+)수치DATA 3DATA4DATA...5DATA

통계량 불러오기 RCL 통계량(청색글씨)

합계 ∑X RCL ∑X(․) 25

평균 



_{RCL }



₍₄₎ 5

(표본)표준편차 S RCL Sx(5) 1.5811...

(표본)분산 S² RCL Sx(5)x²= 2.5

(모)표준편차 σ RCL σx(6) 1.4142...

(모)분산 σ² RCL σx(6)x²= 2 미보정자승합 ∑X² RCL ∑X²(+/-) 135 기하평균(4, 9)

(4, 7, 9)

√(4 x 9)=

3[2ndF][x√](4 x 7 x 9)=

6

6.316...

역수 (4) 4[2ndF]x^-1= 0.25