점진적 중도절단에서 검벨 분포의 적합도 검정
†
ᄋ
ᅲᆫ난희
1
·이경준2
12대구대학교 전산통계학과
ᄌ ᅥ
ᆸᄉ ᅮ 2017ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 13ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 5ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2018ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 8ᄋ ᅵ ᆯ
요 약
ᄀ ᅥ
ᆷᄇ ᅦ ᆯ ᄇ ᅮ ᆫ ᄑ ᅩ (gumbel distribution)ᄂ ᅳ ᆫ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄒ ᅪ ᄃ ᅬ ᆫ ᄀ ᅳ ᆨ ᄃ ᅡ ᆫᄀ ᅡ ᆹ ᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅦᄉ ᅥ ᄒ ᅧ ᆼᄉ ᅡ ᆼᄆ ᅩᄉ ᅮ (shape parameter)ᄀ ᅡ 0ᄋ ᅵ ᆫ ᄌ ᅦ 1ᄌ ᅩ ᆼ ᄋ ᅵ ᆯᄇ ᅡ ᆫᄒ ᅪ ᄃ ᅬ ᆫ ᄀ ᅳ ᆨ ᄃ ᅡ ᆫᄀ ᅡ ᆹ ᄇ ᅮ ᆫ ᄑ ᅩ (generalized extreme value type I distribution)ᄅ ᅩ, ᄀ ᅳ ᆨ ᄃ ᅡ ᆫᄀ ᅡ ᆹ ᄌ ᅮ ᆼ ᄋ ᅦ ᄉ
ᅥᄃ ᅩ ᄎ ᅬᄃ ᅢᄀ ᅡ ᆹ (maximum value)ᄋ ᅦ ᄒ ᅢᄃ ᅡ ᆼᄒ ᅡᄂ ᅳ ᆫ ᄀ ᅡ ᆼᄋ ᅴ ᄎ ᅬᄃ ᅢ ᄉ ᅮᄋ ᅱ ᄌ ᅡᄅ ᅭᄋ ᅴ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅦ ᄆ ᅡ ᆭᄋ ᅵ ᄉ ᅡᄋ ᅭ ᆼᄃ ᅬ ᆫ ᄃ ᅡ. ᄄ ᅡᄅ ᅡᄉ ᅥ ᄌ ᅡ ᄋ
ᅧ ᆫᄌ ᅢᄒ ᅢᄋ ᅪ ᄀ ᅪ ᆫᄅ ᅧ ᆫᄃ ᅬ ᆫ ᄌ ᅡᄅ ᅭᄅ ᅳ ᆯ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡ ᆷᄋ ᅦ ᄋ ᅵ ᆻᄋ ᅥᄉ ᅥ ᄀ ᅥ ᆷᄇ ᅦ ᆯ ᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅵ ᆷᄋ ᅳ ᆯ ᄒ ᅪ ᆨ ᄋ ᅵ ᆫᄒ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆫ ᄆ ᅢᄋ ᅮ ᄌ ᅮ ᆼ ᄋ ᅭᄒ ᅡᄃ ᅡ. ᄇ ᅩ ᆫ ᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅦᄉ ᅥ ᄂ
ᅳ ᆫ ᄌ ᅦ 2ᄌ ᅩ ᆼ ᄌ ᅮ ᆼ ᄃ ᅩᄌ ᅥ ᆯᄃ ᅡ ᆫ ᄌ ᅡᄅ ᅭ (progressive type II censoring data)ᄋ ᅴ ᄀ ᅥ ᆷᄇ ᅦ ᆯ ᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄃ ᅩ ᄀ ᅥ ᆷᄌ ᅥ ᆼ ᄐ ᅩ ᆼ ᄀ
ᅨᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄉ ᅢᄅ ᅩ ᆸ ᄀ ᅦ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄀ ᅩ, ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅦ ᄌ ᅦᄋ ᅡ ᆫ ᄃ ᅬ ᆫ ᄀ ᅥ ᆷᄌ ᅥ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄀ ᅪ ᄇ ᅵᄀ ᅭᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄀ ᅳᄅ ᅵᄀ ᅩ ᄀ ᅥ ᆷᄇ ᅦ ᆯ ᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄌ ᅥ ᆨᄒ ᅡ ᆸᄃ ᅩ ᄀ ᅥ
ᆷᄌ ᅥ ᆼ ᄀ ᅳᄅ ᅢᄑ ᅳᄃ ᅩ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄀ ᅳ ᄀ ᅧ ᆯᄀ ᅪ ᄉ ᅢᄅ ᅩ ᆸ ᄀ ᅦ ᄌ ᅦᄋ ᅡ ᆫᄒ ᅡ ᆫ ᄀ ᅥ ᆷᄌ ᅥ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅵ ᄀ ᅵᄌ ᅩ ᆫ ᄋ ᅴ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄇ ᅩᄃ ᅡ ᄋ ᅮᄉ ᅮᄒ ᅡ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆯ ᄒ ᅪ ᆨ ᄋ ᅵ ᆫ ᄒ ᅡ
ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄋ ᅥ ᆻᄃ ᅡ.
ᄌ
ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅥ ᆷᄇ ᅦ ᆯ ᄇ ᅮ ᆫ ᄑ ᅩ, ᄅ ᅩᄅ ᅦ ᆫᄎ ᅳ ᄀ ᅩ ᆨᄉ ᅥ ᆫ, ᄌ ᅥ ᆨᄒ ᅡ ᆸᄃ ᅩ ᄀ ᅥ ᆷᄌ ᅥ ᆼ, ᄌ ᅦ 2ᄌ ᅩ ᆼ ᄌ ᅥ ᆷᄌ ᅵ ᆫᄌ ᅥ ᆨ ᄌ ᅮ ᆼ ᄃ ᅩᄌ ᅥ ᆯᄃ ᅡ ᆫ.
1. 서론 거
ᆷ벨 분포 (gumbel distribution)는 일반화된 극단값 분포 (generalized extreme value distribution, GEV)에서 형상모수 (shape parameter)가 0인 제 1종 일반화된 극단값 분포 (generalized extreme value type I distribution)이다. 검벨 분포는 극단값 중에서도 최대값 (maximum value)에 해당하는 ᄋ
ᅧᆫ 최대홍수량 및 강우량자료의 분석에 많이 이용되며, 국내 강우량확률산정할 때 대부분검벨 분포를 ᄎ
ᅢ택하고 있다. 또한 설계홍수량을산정할 때에서도 검벨 분포 채택을 원칙으로 하고 있다. 이러한 검 ᄇ
ᅦᆯ 분포의확률밀도함수 (probability density function, pdf) 및 누적분포함수 (cumulative probability function, cdf)는다음과 같다.
fX(x; µ, σ) = 1
σexp[− (z + exp(−z))],
FX(x; µ, σ) = exp[−exp(−z)], x ≥ 0, − ∞ < x < ∞, − ∞ < µ < ∞, σ > 0, (1.1) ᄋ
ᅧ기서 µ는위치모수 (location parameter), σ는척도모수 (scale parameter)이고, z = (x − µ)/σ이다.
†
ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ ᄃ ᅢᄀ ᅮᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ DU-ᄅ ᅵᄃ ᅥᄉ ᅳ ᄒ ᅡ ᆨᄇ ᅮᄉ ᅢ ᆼ ᄋ ᅧ ᆫᄀ ᅮᄌ ᅵᄋ ᅯ ᆫ ᄉ ᅡᄋ ᅥ ᆸᄋ ᅦ ᄋ ᅴᄒ ᅢ ᄌ ᅵ ᆫᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅵ ᆷ.
1
(68453) ᄀ ᅧ ᆼᄉ ᅡ ᆼᄇ ᅮ ᆨ ᄃ ᅩ ᄀ ᅧ ᆼᄉ ᅡ ᆫᄉ ᅵ ᄌ ᅵ ᆫᄅ ᅣ ᆼᄋ ᅳ ᆸ ᄃ ᅢᄀ ᅮᄃ ᅢᄅ ᅩ 201, ᄃ ᅢᄀ ᅮᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅥ ᆫᄉ ᅡ ᆫᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄒ ᅡ ᆨᄇ ᅮᄀ ᅪᄌ ᅥ ᆼ.
2
ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (68453) ᄀ ᅧ ᆼᄉ ᅡ ᆼᄇ ᅮ ᆨ ᄃ ᅩ ᄀ ᅧ ᆼᄉ ᅡ ᆫᄉ ᅵ ᄌ ᅵ ᆫᄅ ᅣ ᆼᄋ ᅳ ᆸ ᄃ ᅢᄀ ᅮᄃ ᅢᄅ ᅩ 201, ᄃ ᅢᄀ ᅮᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅥ ᆫᄉ ᅡ ᆫᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄌ ᅩᄀ ᅭᄉ ᅮ.
E-mail: indra [email protected]
ᄄ
ᅩ한 µ = 0이고, σ = 1인 검벨 분포를표준화된 검벨 분포 (standard gumbel distribution)이라고 하 ᄀ
ᅩ확률밀도함수와 누적분포함수는다음과 같다.
fZ(z) = exp[− (z + exp(−z))],
FZ(z) = exp[−exp(−z)], x ≥ 0, , −∞ < z < ∞. (1.2) ᄀ
ᅳ리고 평균이 1인 지수분포 (exponential distribution)를 -log 변환을시켰을때 표준화된 검벨 분포의 혀
ᆼ태가 나타난다.
ᄋ
ᅵ렇듯최대 홍수량 및 강유량 확률 산정, 설계홍수량 등의 자료를이용하여 분석을 할 때에 자료들 ᄋ
ᅵ 검벨 분포를따르는지확인하는것은굉장히 중요하다. 이러한 자료의 적합도 검정을위해 그래프적 ᄋ
ᅵᆫ 방법으로는히스토그램 (histogram), Q-Q 플롯 (Q-Q plot), P-P 플롯 (P-P plot)과 같은전통적인 ᄇ
ᅡᆼ법과 최근에 Lee (2017b)가 일반화된로렌츠 곡선을기반으로 한 방법을제안하였다. 또한 검정통계 ᄅ
ᅣᆼ을이용하는방법으로 Anderson - Darling 검정 (AD test), Cramer - von Mises 검정 (CvM test), Kolmogorov - Smirnov 검정 (KS test), 카이제곱검정과 같은전통적인 방법과 최근에 Song (2002)이 Kullback - Leibler 정보를 기반으로 하여근사적으로 분포 무관한 (asymptotically distribution-free) ᄌ
ᅥᆨ합도 검정 방법을제안하였고, Zempleni (2004)가 Anderson - Darling test을개량한 수정된Ander- son - Darling 검정 (ZAD)을제안하였다. 또한 Cho와 Lee (2014)가 일반화된로렌츠 곡선 (generalized Lorenz curve)을이용하여 적합도 검정 통계량을새롭게 제안하였다.
ᄒ
ᅡ지만 이러한 방법들은모두 관측이완벽하게 이루어진 표본을대상으로 검정이 이루어 진다. 하지 ᄆ
ᅡᆫ 모든 실험과 실험 후관측에는 중도절단이 발생할 가능성이 존재한다. 또한 실험과관련된시간과 비 ᄋ
ᅭ
ᆼ을 줄이기 위해 사전에 자료의 중도절단 실험 계획을 실시하기도 한다 (Lee, 2017a). 이렇게 중도절 ᄃ
ᅡᆫ된 표본을위의 전통적인 검정통계량을이용한다면 제대로된 결과얻을수 없다. 따라서 중도절단 실 ᄒ
ᅥᆷ 계획에 맞는새로운적합도 검정 통계량이 필요하다. 이에 Balakrishnan 등 (2004)은점진적 중도절 ᄃ
ᅡᆫ 상황에서 지수분포의 공간을이용하여 적합도 검정 통계량을새롭게 제안하였고, Wang (2008)은제 2종점진적 중도절단 상황에서 지수분포의 적합도 검정 통계량을새롭게 제안하였다. 또한 Pakyari와 Balakrishnan (2013)은 제 2종 점진적 중도절단 상황에서 위치-척도 모수 무관 분포 (location-scale free distribution)의 적합도 검정 통계량을제안하였다.
ᄄ
ᅡ라서 본 논문은 Lorenz (1905)에 의해 제안된로렌츠 곡선 (Lorenz curve)을기반으로 하여 제 2종 ᄌ
ᅥᆷ진적 중도절단 상황에서 검벨 분포의 적합도 검정 통계량을새롭게 제안하고자 한다. 또한 로렌츠 곡 ᄉ
ᅥᆫ을 이용하여 그래프를 활용한 적합도 검정방법을새롭게 제안하고자 한다. 본 논문의 구성은 2절에 ᄉ
ᅥ 로렌츠 곡선에 대하여 설명한 후, 3절에서 이를 기반으로 한 수정된 로렌츠 곡선을 새롭게 제안하 ᄀ
ᅩ자 한다. 그리고 수정된 로렌츠 곡선을활용하여 새로운 검정통계량을 두 가지 제안하고, 새로운 검 저
ᆼ 통계량을활용하여 검벨 분포의 적합도를검정하는새로운그래프 방법을두 가지 제안하고자 한다.
4절에서 두 가지의 새로운검정 통계량을다양한 분포에 대하여 몬테카를로 시뮬레이션 (Monte Carlo simulation)을 통하여 검정력을확인하고 Pakyari와 Balakrishnan (2013)이 제안한 검정통계량을비교 ᄒ
ᅡ고자 한다. 그리고 실제 사례 데이터에 적용한 후 5절에서 결론을내리고자 한다.
2. 로렌츠 곡선 ᄅ
ᅩ렌츠 곡선 (Lorenz curve)은소득분포의 불평등정도를 측정하고 두 집단의 소득의 불균형 정도를 ᄇ
ᅵ교하기 위해 Lorenz (1905)가 고안한 곡선이다.
ᄅ
ᅩ렌츠 곡선은 아래의 Figure 2.1과 같은형태를가지고 있다. 로렌츠 곡선을그리는 방법을설명하 ᄆ
ᅧᆫ 다음과 같다. 먼저 사람들의 소득에 따라서 순서를 매긴다. 그런 후 가로축에는 소득 인원에 따라
Figure 2.1 Lorenz curve
ᄂ
ᅮ적하여 비율을나타내고, 세로축에는소득금액의 비율을누적하여 비율을나타낸다. 즉, 가로축은 인 ᄀ
ᅮ의 누적 백분율, 세로축은 소득금액의 누적 백분율을나타낸다. Figure 2.1의 A와 B를연결한 대각 ᄉ
ᅥᆫ (45도 선)은 누적되는 인구와 누적되는소득이 같은 비율로 증가하기 때문에 완전한 평등 (perfect equality)을나타낸다. 따라서 이러한 직선을완전한 평등 선(perfect equality line)이라고 한다. 하지 ᄆ
ᅡᆫ 소득격차가 심해지면 누적 인구수와 누적 소득이 같은비율로 증가하지 않게 되고 이에 따라완전한 펴
ᆼ등선의 아래로 늘어지는 곡선의 형태를가지게된다. 따라서완전 평등선과 로렌츠 곡선 사이의 면 ᄌ
ᅥᆨ이 클수록 불평등도는커지게 되고, 이러한 면적을 불평등면적 (area of inequality)이라고 한다. 또 ᄒ
ᅡᆫ완전한 평등선 아래의 면적 중 불평등면적을제외한 로렌츠 곡선의 아래의 면적을지니계수 (Gini index)라고 한다. 따라서 지니 계수가 0.5에 가까울수록 균등한 분배 사회, 0에 가까울수록 불균등한 분 ᄇ
ᅢ사회라고 판단한다.
ᄋ
ᅵ러한 로렌츠 곡선을 Gastwirth (1971)는연속형 분포 뿐만 아니라 이산형 분포의 누적분포함수를 ᄋ
ᅵ용하여 다음과 같이 정의를하였다.
L(p) = 1 m
ZF −1(p) 0
xdF (x), 0 ≤ p ≤ 1, (2.1) ᄋ
ᅧ기서 F −1(p) = inf{y|F (y) ≥ p}이고, m는 누적분포함수 F (·)의 평균을 나타낸다. 검벨 분포 (gumbel distribution), t-분포 (t-distribution), 표준정규 분포 (standard normal distribution), 이 주
ᆼ지수 분포 (double exponential distribution), 와이블 분포 (Weibull distribution), 로지스틱 분 ᄑ
ᅩ (logistic distribution)에 대하여 로렌츠 곡선을 나타내면 다음의 Figure 2.2와 같다. 그래프의 형 ᄐ
ᅢ를 보면 검벨 분포의 경우 대각 직선에 가까운 형태를 나타내고 있고 와이블 분포의 경우 가장 불 ᄀ
ᅲᆫ등 상태인 아래로 볼록한 형태를 나타내고 있다. 여기서 제 2종 점진적 중도절단 상황을 나타내는 R = (5, 0 ∗ 48, 5)을고려하였고 여기서 0 ∗ 48은 0이 48개가 연속으로 있다는것을의미한다.