확률 모형(probability model)• 확률 변수의 확률 밀도 함수(probability density function)를 의미
• 확률 밀도 함수는 확률 변수 (x)의 분포를 나타내는 함수
• 확률변수(x)가 가질 수 있는 각 값을 정의역(domain)
• 확률(𝒇𝒇 𝒙𝒙 )를 치역(range)으로 함
이산형 확률 밀도 함수 연속형 확률 밀도 함수
확률 밀도 함수(probability density function)• 확률 밀도함수 𝒇𝒇 𝒙𝒙 와 구간[a,b]에 대해서 확률 변수 x가 구간에 포함될 확률 𝑷𝑷 𝒂𝒂 ≤ 𝒙𝒙 ≤ 𝒃𝒃 는 확률밀도함수를 그 구간에 대해 적분한 값으로 구할 수 있음
𝑷𝑷 𝒂𝒂 ≤ 𝒙𝒙 ≤ 𝒃𝒃 = �
𝒂𝒂
𝒃𝒃
𝒇𝒇 𝒙𝒙 𝒅𝒅𝒙𝒙• 확률 밀도 함수 𝒇𝒇 𝒙𝒙 는 다음의 두 조건을 만족해야 함
• 모든 실수 x에 대해 𝒇𝒇 𝒙𝒙 ≥ 𝟎𝟎
• ∫
−∞ ∞
𝒇𝒇 𝒙𝒙 𝒅𝒅𝒙𝒙 = 𝟏𝟏• 누적 분포 함수(cumulative distribution function)와의 관계
• 𝑭𝑭 𝒙𝒙 = 𝑷𝑷 𝑿𝑿 ≤ 𝒙𝒙 = ∫
−∞ 𝒙𝒙
𝒇𝒇 𝒙𝒙 𝒅𝒅𝒙𝒙• 𝒇𝒇 𝒙𝒙 =
𝒅𝒅𝒙𝒙 𝒅𝒅
𝑭𝑭(𝒙𝒙)
그룹 데이터, 도수 자료그룹 데이터나 계수형 데이터와 같이 빈도로 이루어진 데이터의 경우 어느 특정분포 (예를 들면, 정규분포 또는 포아송분포)와 비교되는지를 살펴보고,
특히 이 때 적합도에 관한 잔차(residual)의 활용에 대하여 논의
• 그룹 데이터(또는 빈도 자료): 각 그룹(구간)의 빈도가 기록되어 있는 경우 예: 설문지 조사에서 응답자의 나이가 10년 간격일 때
• 계수형 데이터: 개별 데이터 값이 도수로 이루어진 경우 각 계수에 해당하는 빈도 로 요약될 수 있음
예: 서울시 버스회사에 고용된 운전기사들이 1년 동안 교통법규 위반 스티커를 발부 받은 횟수 1장 받은 운전기사의 수, 2장 받은 운전기사의 수 등 빈도자 료로 바꿀 수 있음
도수 자료와 포아송 분포와의 비교 계수형 분포(예 : 포아송 분포)X : 어떤 특정한 사건의 도수를 나타내는 확률변수 분포 함수 :
특징 : 평균과 분산이 다 같은 모수 인 이산확률분포 단위시간당 발생하는 총 도수를 나타내는 분포
정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기대값이 라고 했을 때, 그 사건이 x회 일어날 확률
응용
• 일정 주어진 시간 안에 도착한 고객의 수
• 1킬로미터 도로에 있는 흠집의 수
• 일정 주어진 생산시간 동안 발생하는 불량의 수
• 하룻동안 발생하는 출생자의 수
• 어떤 시간 동안 톨게이트를 통과하는 차량의 수
, 2 , 1 , 0 ,
! / }
;
Pr{ X = x λ = e
−λλ
xx x =
λ
λ
## 아래의 자료가 포아송 분포를 따르는지 검토
< 프러시아 200개 기병군단에서 각 군단별 말에 치여 사망한 병사의 수>
사망자수 관측빈도 기대빈도 2배 제곱근 잔차
0 109 10.4 108.6 0.062 1 65 8.1 66.2 -0.117 2 22 4.7 20.2 0.442 3 3 1.7 4.2 -0.477 4+ 1 1.0 0.8 0.400
합 계 200 200.0 X의 평균 = (0•109+1•65+2•22+3•3+4•1)/200 = 0.61 = 기대빈도 = 200 •
예)
DRRS = 일 때,
= 일 때
x O
xO
xE
xDRRS
λ
^E
xPr{ X = x ; λ = 0 . 61 }
2 . 66 ) 331 . 0 ( 200
! 1 / ) 61 . 0 )(
61 . 0 exp(
200 }
61 . 0
; 1 Pr{
200
11
= ⋅ X = λ = = ⋅ − = ⋅ =
E
1 ,
) 4 1 ( )
4 2
( + O
x 1/2− + E
x 1/2O
x≥ 0 ,
) 4 1 (
1 − + E
x 1/2O
x=
Histogram of C1 N = 200
Each * represents 5 observation(s) Midpoint Count
0 109 **********************
1 65 *************
2 22 *****
3 3 *
4 1 *
[미니탭 명령]
히스토 그램 작성 (graph > Histogram…)
포아송 난수 생성 (Calc > Random Data > Poisson….)
< 세 임의생성 자료에 대한 히스토그램 >
Histogram of C2 N = 200
Each * represents 5 observation(s)
Midpoint Count
0 110 **********************
1 66 **************
2 18 ****
3 5 *
4 1 *
Histogram of C3 N = 200 Each * represents 5 observation(s) Midpoint Count 0 106 *********************
1 67 **************
2 20 ****
3 7 **
4 0
Histogram of C4 N = 200 Each * represents 5 observation(s) Midpoint Count 0 105 *********************
1 69 **************
2 21 *****
3 3 *
4 2 *
< 세 임의생성 자료에 대한 루토그램 >
DRRS(double root residuals) = 일 때,
= 일 때
Histogram of C2 N = 200
Each * represents 1 observation(s)
Midpoint Count
0 10.5 ***********
1 8.1 *********
2 4.2 *****
3 2.2 ***
4 1.0 *
Histogram of C3 N = 200
Each * represents 1 observation(s)
Midpoint Count
0 10.3 ***********
1 8.2 *********
2 4.5 *****
3 2.6 ***
4 0.0
Histogram of C4 N = 200
Each * represents 1 observation(s)
Midpoint Count
0 10.2 ***********
1 8.3 *********
2 4.6 *****
3 1.7 **
4 1.4 **
제곱근 변환 루토그램(rootogram)
@ DRRS의 값이 (-2, +2)구간의 범위를 벗어나면 주의
@ DRRS의 값이 (-3, +3)구간의 범위를 벗어나면 고려된 확률모형과 맞지 않음
1 ,
) 4 1 ( ) 4 2
( + O
x 1/2− + E
x 1/2O
x≥ 0 ,
) 4 1 (
1 − + E
1/2O =
그룹 데이터와 정규분포와의 비교원 측정값이 연속적인 수량이지만, 그룹화 된 데이터인 경우
정규분포(Normal distribution / Gaussian distribution) 확률변수 X가 정규분포인 경우 확률밀도 함수
사이에 68%, 사이에 95.4%, 사이에 99.7%
통계적인 방법론에서의 모수 를 표본평균으로, 는 표본 표준편차로 적합
저항성을 전혀 갖고 있지 못하다 EDA에서의 추정치
예) 중위수 M을 의 추정치로 사용
연속형 자료 이면서 그룹화 되어 있는 자료의 예
스코틀랜드 군인 5738명의 가슴둘레 데이터(도수분포표 형태의 자료)
∞
<
<
∞
−
−
−
= − x x
x
f ( ; µ , σ 2 ) ( 2 πσ 2 ) 1 / 2 exp[ ( µ ) 2 /( 2 σ 2 )],
σ
µ ± µ ± σ
σ µ ±
µ σ
2 / ) (
~
U L H H + µ =
35 . 1 / ) (
~
L
U H
H − σ =
µ
< 스코틀랜드 군인 5738명의 가슴둘레 데이터 (단위 : 인치) >
가슴둘레(x)
구간 중앙값 관측빈도(O)
-33.5 33 3
33.5-34.5 34 18
34.5-35.5 35 81
35.5-36.5 36 185
36.5-37.5 37 420
37.5-38.5 38 749
38.5-39.5 39 1073
39.5-40.5 40 1079
40.5-41.5 41 934
41.5-42.5 42 658
42.5-43.5 43 370
43.5-44.5 44 92
44.5-45.5 45 50
45.5-46.5 46 21
46.5-47.5 47 4
47.5- 48 1
<그룹화 된 자료에서의 사분위수 구하는 방법>
아래 사분위수 HL을 구하기 위하여 우선 깊이 d(H)의 자료점이 속한 구간을 구한다.
그 구간을 이라고 하고 이 구간의 빈도를 이라고 하자
이 구간을 개의 동일 길이 의 소 구간으로 나누고 그 중간점을 구해보자
중간점 = 중간점 =
중간점 =
깊이 d(H)의 자료점은
같은 방법으로 위 사분위수 HU를 구할 수 있다.
) ,
( x
L−1x
Ln L
n L h
L L
L x n
x
h = ( − − 1 ) /
⇒
−
+
−
, )
( x
L 1x
L 1h x
L−1+ 0 . 5 h
⇒ +
+
−−
, 2 )
( x
L 1h x
L 1h x
L−1+ 1 . 5 h
( − ) + ⇒
+
−−
1 , )
( x
L 1n
Lh x
L 1n
Lh x
L−1+ ( n
L− 0 . 5 ) h
L L
L
h d H n n n H
x
−1+ { ( ) − (
1+
2+ +
−1) − 0 . 5 } ≡
스코틀랜드 자료를 이용하여 예를 들면 전체자료의 크기 n=5738이므로
d(H) = (1+[(5738+1)/2])/2 = 1435
37.5인치 미만인 사례수가 총 707명, 38.5인치 미만까지가 총 1456명
(37.5, 38.5)에 749명이 있고, 이 구간 안에 아래 사분위수 HL이 속해 있다.
HL = 37.5+(1/749){1435-707-0.5} = 38.471
41.5인치 이상의 사례수가 1196명, 40.5인치 이상인 사례가 2130명 (40.5, 41.5)에 934명이 있고, 이 구간 안에 위 사분위수 HU이 속해 있다.
HU = 41.5-(1/934){1435-1196-0.5} = 41.245
위•아래 사분위수로부터 평균과 표준편차를 EDA를 이용한 저항성이 있는 추정치는
= 39.858
= 2.055
2 / ) (
~
U
L H
H + µ =
35 . 1 / ) (
~
H
H −
σ =
[미니탭 활용]
Stat > EDA > Rootgram…
Rootogram: C2
Bin Count RawRes DRRes Suspended Rootogram
1 3.0 -2.7 -1.13 . --- . 2 18.0 -2.6 -0.52 . --- . 3 81.0 9.7 1.13 . ++++++ . 4 185.0 -11.2 -0.79 . ---- . 5 420.0 -7.7 -0.36 . -- . 6 749.0 10.2 0.38 . ++ . 7 1073.0 61.3 1.91 . ++++++++++.
8 1079.0 -21.4 -0.64 . ---- . 9 934.0 -13.3 -0.42 . --- . 10 658.0 10.2 0.41 . +++ . 11 370.0 19.0 1.01 . ++++++ . 12 92.0 -58.7 -5.34 *--- . 13 50.0 -1.3 -0.15 . - . 14 21.0 7.2 1.76 . +++++++++ . 15 4.0 1.0 0.66 . ++++ . 16 1.0 0.4 0.63 . ++++ .
In display, value of one character is .2 OO
이론적 배경어느 범주(또는 구간)의 관측도수를 라고 하자.
그 범주(또는 구간)가 확률 를 차지한다고 하자.
그 외의 다른 범주가 얻어질 확률은 인 시행이 되고 표본 크기가 인 경우
는 이항분포 를 따르게 된다.
가 작을 경우, 는 평균이 인 포아송 분포로 근사
평균이 인 포아송 확률변수 의 분산은 역시 이다.
분산이 평균에 비례하기 때문에 분산이 비교적 일정하게 되도록 확률변수 의 변환 을 고려해 보자. 를 어떤 매끄러운 변환이라고 하면
이므로 라는 새로운 확률변수의 기대값과 분산은 대략
p
F
− p
1 n
F B ( n , p )
p F λ = np
λ F λ
λ
λ =
= , ( )
)
( F Var F
E
F )
(F g
) )(
( )
( )
( F ≅ g λ + g
'λ F − λ
g ) (F g
λ λ
λ
λ ), [ ( )] { ' ( )} 2 ( ) { ' ( )} 2 (
)]
(
[ g F g Var g F g Var F g
E ≅ ≅ =
따라서, 의 분산이 에 관계없이 일정하려면
여야 한다.
즉, 는 의 선형변환과 같은 유형의 변환이어야 한다 예를 들어, 로 놓으면 이므로
이 된다.
한편, 확률변수 는 이 커짐에 따라 (즉, 가 커짐에 따라)
중심극한 정리(central limit theorem)에 의하여
따라서, 근사적으로
= 2배 관측빈도 – 2배 기대빈도 = 2배 제곱근 잔차임을 유의
) (F
g λ
4 2
/ 1 3 2
/ 1 2 '
1 2
' ( )} ( ) ( )
{ g λ λ = c ⇒ g λ = c λ − ⇒ g λ = c λ + c
) (F
g F
F F
g ( ) = 2 g
'( F ) = F
−1/2) (
2
2 F ≅ λ + λ − 1 / 2 F − λ
1 ] 2
[ ,
2 ]
2
[ ≅ ≅
⇒ E F λ Var F
F n λ = np
) 1 , 0 (
~ )
2
(
/
1
F λ N
λ
−−
) 1 , 0 (
~ 2
2 F − λ N
λ
2
2 F −
여러 통계학자들은 라는 표현 대신 이와 비슷한 형태인 을 제안 이것이 정규근사 면에서 보다 약간 낫다는 것을 보였다.
이 재표현 된 변수의 평균과 분산이 대략 과 1이라는 것을 보였다.
그러므로,
또는 이와 거의 비슷한 는 대략 N(0, 1)을 따른다.
모형과 자료의 총체적인 적합도(goodness of fit)는 2배 제곱근 잔차의 제곱합인
여기서 는 각 범주(구간)를 나타내는 첨자 카이제곱 통계량의 자유도가
DF = (범주의 수)-1-(추정된 모수의 수)
적합도의 측도로 쓰이는 피어슨(K. Pearson)의 카이제곱 통계량
F
2
F + F + 1
F
21 4 λ + 1
4
1 − +
+
+ F λ
F
DRSS F + 2 − 4 + 1 ≡
4 λ
∑
=
i
DRSS i 2
χ 2
i
∑ −
=
i i기대빈도
기대빈도
관측빈도
22
( )
χ
각 범주에 기대빈도가 너무 작으면 통계량이 무의미하고, 기대빈도를