• 검색 결과가 없습니다.

Control chart based on change-point detection in monitoring the mean changes for elderly drivers’ car accidents data <sup>†</sup>

N/A
N/A
Protected

Academic year: 2021

Share "Control chart based on change-point detection in monitoring the mean changes for elderly drivers’ car accidents data <sup>†</sup>"

Copied!
13
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2020, 31

(

2)

,

391–403

고령 운전자에 대한 교통사고 발생건수의 변화점 탐지를 위한 관리도 연구

기

ᆷ상균

1

·이성임

2

12단국대학교 응용통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2020ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 21ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 3ᄋ ᅯ ᆯ 8ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2020ᄂ ᅧ ᆫ 3ᄋ ᅯ ᆯ 9ᄋ ᅵ ᆯ

요 약

ᄋ ᅵ

ᆯᄅ ᅧ ᆫᄋ ᅴ ᄉ ᅮ ᆫ ᄎ ᅡᄌ ᅥ ᆨ ᄀ ᅪ ᆫᄎ ᅳ ᆨ ᄎ ᅵᄅ ᅳ ᆯ ᄆ ᅩᄂ ᅵᄐ ᅥᄅ ᅵ ᆼᄒ ᅡᄆ ᅧ ᆫᄉ ᅥ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄐ ᅡ ᆷᄌ ᅵᄒ ᅡᄂ ᅳ ᆫ ᄆ ᅮ ᆫ ᄌ ᅦᄂ ᅳ ᆫ ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄇ ᅮ ᆫ ᄋ ᅣᄋ ᅦᄉ ᅥ ᄎ ᅡ ᆽᄋ ᅡᄇ ᅩ ᆯ ᄉ

ᅮ ᄋ ᅵ ᆻᄃ ᅡ. ᄐ ᅳ ᆨ ᄒ ᅵ, ᄋ ᅵᄃ ᅡ ᆫᄀ ᅨ SPC ᄆ ᅮ ᆫ ᄌ ᅦᄋ ᅦᄉ ᅥᄋ ᅪ ᄆ ᅡᄎ ᅡ ᆫᄀ ᅡᄌ ᅵᄅ ᅩ nᄋ ᅵ ᄉ ᅮ ᆫ ᄎ ᅡᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄌ ᅳ ᆼ ᄀ ᅡᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄋ ᅳ ᆷᄋ ᅳ ᆯ ᄀ ᅡᄌ ᅥ ᆼᄒ ᅡ ᆫᄃ ᅡ. ᄋ ᅵ ᄅ

ᅥᄒ ᅡ ᆫ ᄆ ᅮ ᆫ ᄌ ᅦᄅ ᅳ ᆯ ᄒ ᅢᄀ ᅧ ᆯᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷᄐ ᅡ ᆷᄌ ᅵ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄀ ᅪ ᄂ ᅮᄌ ᅥ ᆨᄒ ᅡ ᆸ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅳ ᆯ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅡ ᆫ ᄀ ᅪ ᆫ ᄅ ᅵᄃ ᅩᄇ ᅥ ᆸᄋ ᅦ ᄃ ᅢᄒ ᅢ ᄋ ᅡ ᆯᄋ ᅡᄇ ᅩᄀ ᅩ, ᄆ

ᅩᄋ ᅴᄉ ᅵ ᆯᄒ ᅥ ᆷᄋ ᅳ ᆯ ᄐ ᅩ ᆼ ᄒ ᅢ ᄋ ᅵᄃ ᅳ ᆯ ᄐ ᅩ ᆼ ᄀ ᅨᄅ ᅣ ᆼᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄇ ᅮ ᆫ ᄑ ᅩᄋ ᅴ ᄀ ᅡ ᆼᄀ ᅥ ᆫᄉ ᅥ ᆼᄀ ᅪ ᄉ ᅵ ᆯᄌ ᅦ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ ᄋ ᅱᄎ ᅵᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄌ ᅥ ᆼᄒ ᅪ ᆨᄉ ᅥ ᆼᄋ ᅳ ᆯ ᄑ ᅧ ᆼᄀ ᅡᄒ ᅢ ᄇ ᅩᄋ ᅡ ᆻ ᄃ

ᅡ. ᄄ ᅩᄒ ᅡ ᆫ ᄉ ᅵ ᆯᄌ ᅳ ᆼᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵᄋ ᅦᄉ ᅥ ᄇ ᅡ ᆯᄉ ᅢ ᆼᄒ ᅡ ᆫ 65ᄉ ᅦ ᄋ ᅵᄉ ᅡ ᆼ ᄀ ᅩᄅ ᅧ ᆼ ᄋ ᅮ ᆫᄌ ᅥ ᆫᄌ ᅡᄋ ᅴ ᄀ ᅭᄐ ᅩ ᆼ ᄉ ᅡᄀ ᅩ ᄇ ᅡ ᆯᄉ ᅢ ᆼ ᄀ ᅥ ᆫᄉ ᅮᄋ ᅦ ᄃ ᅢᄒ ᅡ ᄋ

ᅧ ᄋ ᅱ ᄇ ᅡ ᆼᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄀ ᅳ ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷᄋ ᅳ ᆯ ᄎ ᅡ ᆽᄋ ᅡ ᄇ ᅵᄀ ᅭ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅢ ᄇ ᅩᄋ ᅡ ᆻᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄀ ᅪ ᆫ ᄅ ᅵᄃ ᅩ, ᄇ ᅧ ᆫᄒ ᅪᄌ ᅥ ᆷ ᄐ ᅡ ᆷᄌ ᅵ, ᄐ ᅩ ᆼ ᄀ ᅨᄌ ᅥ ᆨ ᄆ ᅩᄂ ᅵᄐ ᅥᄅ ᅵ ᆼ, ᄑ ᅧ ᆼᄀ ᅲ ᆫᄅ ᅥ ᆫᄀ ᅵ ᆯᄋ ᅵ, Self-starting CUSUM.

1. 서론 ᄐ

ᆼ계적 공정관리에서는 품질 특성치의 산포에 영향을주는요인을 우연원인 (chance cause)과 이상 ᄋ

ᆫ인 (assignable cause)으로 구별하고, 우연원인만 있는경우 품질특성치는관리상태에 있으며 이들은 ᄆ

ᅩ두 동일한 분포를따른다고 가정한다. 시간이 지남에 따라 이상원인이 발생한 경우에는 분포의 특징 (평균또는 분산)이 변화하게 되므로 새로운관측치로부터 이러한 분포의 특징이 동일한지 여부를검정 ᄒ

ᅡ게 되고 이를도식화 한 것을관리도 (control chart)라고 한다. 통계적 가설검정의관점에서관리도 느

ᆫ데이터가 관측될때마다 이러한 분포의 변화유무를검정한 결과를보여 준다고 할 수 있다. 관리도 ᄂ

ᅳᆫ변화점 탐지 (change-point detection)문제와 비슷한데, 변화점 탐지란 Page (1954)가 소개한 것으 ᄅ

ᅩ 순차적확률변수 X1, X2, . . . , Xn 에 대해 어떤 시점 ( 1 ≤ τ ≤ n)을 기준으로 X1, X2, . . . , Xτ의 화

ᆨ률분포와 Xτ +1, Xτ +2, . . . , Xn의확률분포가 서로 구별되고, 각확률분포는 동일하다고 가정될때 시 ᄌ

ᅥᆷ τ 를변화점 (change-point)이라 부르며 이를추정하는 문제를가리킨다. 만약 이상원인으로 인해 품 지

ᆯ특성치가 변화한 시점이 있다고 가정된다면,관리도를 통한 모니터링과 변화점을탐지하는 문제가 서 ᄅ

ᅩ 같은 문제임을알 수 있다. 일련의 순차적관측치로부터 변화점을추정하는 문제는연속생산공정에 ᄉ

ᅥ 품질의 변화를 탐지하는 데서 유래했다. 워터게이트 사건 당시 미국의 주식시장 변화 (Hsu, 1977;

Gupta와 Chen, 1997)나 북미 식충성 조류의 개체 수 감소 문제 (Smith 등, 2015), 국내 원자력발전

ᄋ ᅵ ᄉ ᅥ ᆼᄀ ᅪᄂ ᅳ ᆫ ᄌ ᅥ ᆼᄇ ᅮ (ᄀ ᅪᄒ ᅡ ᆨᄀ ᅵᄉ ᅮ ᆯᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼᄉ ᅵ ᆫᄇ ᅮ)ᄋ ᅴ ᄌ ᅢᄋ ᅯ ᆫ ᄋ ᅳᄅ ᅩ ᄒ ᅡ ᆫᄀ ᅮ ᆨᄋ ᅧ ᆫᄀ ᅮᄌ ᅢᄃ ᅡ ᆫᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅵ ᆷ (No.

2019R1A2C1003257). ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ ᄀ ᅵ ᆷᄉ ᅡ ᆼᄀ ᅲ ᆫ ᄉ ᅥ ᆨᄉ ᅡᄂ ᅩ ᆫᄆ ᅮ ᆫ ᄋ ᅴ ᄇ ᅡ ᆯᄎ ᅰᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅵ ᆷ.

1

(16890) ᄀ ᅧ ᆼᄀ ᅵᄃ ᅩ ᄋ ᅭ ᆼᄋ ᅵ ᆫᄉ ᅵ ᄉ ᅮᄌ ᅵᄀ ᅮ ᄌ ᅮ ᆨᄌ ᅥ ᆫᄅ ᅩ 152, ᄃ ᅡ ᆫᄀ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄉ ᅥ ᆨᄉ ᅡᄀ ᅪᄌ ᅥ ᆼ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (16890) ᄀ ᅧ ᆼᄀ ᅵᄃ ᅩ ᄋ ᅭ ᆼᄋ ᅵ ᆫᄉ ᅵ ᄉ ᅮᄌ ᅵᄀ ᅮ ᄌ ᅮ ᆨᄌ ᅥ ᆫᄅ ᅩ 152, ᄃ ᅡ ᆫᄀ ᅮ ᆨ ᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄋ ᅳ ᆼᄋ ᅭ ᆼᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

ᅩ 사고건수의 변화 (Kang과 Kang, 2019) 등에 적용되어왔으며, 국내에서도 부산 지방의 강수량 변화 (Park과 Seok, 1998)나 평균기온 및극한기온의 변화 시점을 분석하는 등 (Lee 등, 2011)다양한 분야 ᄋ

ᅦ서 적용되어왔다. 최근에는사회적 문제를연구할 때에도 변화점 탐지에 대한 필요성이 증가하고 있 느

ᆫ데, 이는변화점을적절하게 탐지함으로써 이상원인 발생에 대한 신호를 좀더 빠르게 감지할 수 있어 무

ᆫ제에 대해 효과적으로 대응할 수 있기 때문이다. 예를 들어 최근떠오르는고령 운전자 교통사고 발생 ᄀ

ᅥᆫ수 증가 문제 (Jung, 2017; Ryu, 2019) 등은주기적으로 지속적인 통계가 제공되기 때문에, 이들데 ᄋ

ᅵ터에 대해 온라인 모니터링을적용할 수 있다면 변화점을빠르게 탐지하여 의사결정에 많은도움을 줄 ᄉ

ᅮ 있을것이다.

ᅵ처럼 시간에 따른 통계적 특성의 변화를모니터링하기 위한 방법으로 Shewhart, CUSUM, EWMA 과

ᆫ리도 등이 많이 사용됐다. 그런데, Shewhart관리도의 경우 값의 작고 지속적인 변화에 대한 탐지 성 ᄂ

ᆼ이 좋지 못하고, CUSUM이나 EWMA관리도는작고 지속적인 변화에 대한 탐지 성능은 좋지만, 커 ᄃ

ᅡ란 변화에 대한 탐지 성능이 떨어진다. 또, Pignatiello와 Samuel (2001)은 CUSUM 또는 EWMA 과

ᆫ리도를사용하여 자체적인 방법으로 변화점을추정하는것보다 변화점에 대한 최대가능도추정량을사 ᄋ

ᆼ하는것이 좀더 효율적으로 변화점을추정할 수 있음을보여 주었다. 정밀하게 변화점을추정하는것 ᄋ

ᆫ이상원인을 식별하고 그에 대한 조치를취하는데 매우 중요하므로, 작고 지속적인 변화에 대한 탐지 서

ᆼ능 뿐아니라 변화점을효율적으로 추정할 수 있는 통계량을기반으로 하는관리도를알아보기로 한 ᄃ

ᅡ. 또한 다양한 모의실험을 통해 이들관리도의 특성을살펴보기로 한다.

노

ᆫ문의 구성은다음과 같다. 본연구에서는 순차적으로 수집된일변량관측치에 대하여 모평균에 대 ᄒ

ᅡᆫ 변화점이 한 개 존재한다고 가정하고 2절에서 기존의 변화점 탐지 방법을이용한 모니터링 방법에 대 ᄒ

ᅢ 소개한다. 3절에서는 2절에서 소개한 변화점 탐지 방법 간에 어떠한 차이점이 있는지 모의실험을 통 ᄒ

ᅢ 비교 분석해 보고, 4절에서는 실제 데이터를활용하여 변화점 존재 여부를모니터링하고자 한다. 5절 ᄋ

ᅦ서는연구결과를요약하고 앞으로의 연구 방향에 대해 고찰해 보기로 한다.

2. 변화점 탐지 방법 ᄇ

ᅧᆫ화점 탐지란 통계적 가설 검정을 통해 변화점의 존재 여부를파악하고 그 위치를 추정하는방법으 ᄅ

ᅩ, 정규분포를따르는 순차적확률변수 {X1, X2, ..., Xn}에서 평균에 대한 변화점이 1개 존재할 때확 ᄅ

ᅲᆯ변수 Xi는다음과 같이 나타낼 수 있다.

Xi=

µ0+ ϵi, i = 1, 2, . . . , τ

µ1+ ϵi, i = τ + 1, τ + 2, . . . , n

, ϵi∼ N (0, σ2).

µ0는변화가 발생하기 전의 평균이고 µ1은변화가 발생한 후의 평균이며, 시점 τ 는변화점이라고 가 저

ᆼ한다. 이때 변화점 유무에 대한 가설은

H0: µ1= µ2= ... = µn= µ,

H1: µ1= µ2= ... = µτ̸= µτ +1= ... = µn

(2.1)

ᅩ 나타낼 수 있으며, 검정을 통해 귀무가설을 기각했을때 변화점이 존재하는것으로 판단하고, 이후 ᄇ

ᅧᆫ화점의 위치를추정한다. 이 절에서는변화점 탐지 방법 중가능도함수 기반의 방법과 CUSUM 통계 ᄅ

ᅣᆼ 기반의 방법을소개하기로 한다.

(3)

2.1. 가능도함수 기반 변화점 탐지

2.1.1. 최대가능도추정법 (maximum likelihood method) 저

ᆼ규분포를 따르며 순차적으로 관측되는 일변량 관측치에 대해 Hinkley (1970)는 변화점 탐지 방 버

ᆸ으로 최대가능도추정법을 제안했는데, 모표준편차(σ)와 변화점(τ )이 알려진 경우 µ0, µ1에 대한 최 ᄃ

ᅢ가능도추정량은 각각 ˆµM LE0 = ¯Xτ = Pτ

i=1xi/τ , ˆµM LE1 = ¯Xτ = Pn

i=τ +1xi/(n − τ )이 된다.

X =¯ Pn

i=1xi/n 라고 할 때 가설 (2.1)을검정하기 위한 가능도비 검정통계량 (likelihood ration test statistic)은다음과 같다.

−2σ2log(Λ(τ ; X1, · · · , Xn)) =

n

X

i=1

(Xi− ¯X)2− min

1≤τ ≤n−1

( τ X

i=1

(Xi− ¯Xτ)2+

n

X

i=τ +1

(Xi− ¯Xτ)2 )

=

n

X

i=1

(Xi− ¯X)2− min

1≤τ ≤n−1

( n X

i=1

(Xi− ¯X)2− n τ (n − τ )

" τ X

i=1

(Xi− ¯X)

#2)

= max

1≤τ ≤n−1

n τ (n − τ )

" τ X

i=1

(Xi− ¯X)

#2

= max

1≤τ ≤n−1Tτ2

ᅳᆨ, 모든시점을 기준으로 두 그룹으로 나누어 모평균의 차에관한 검정 통계량을구하고, 이러한 차 ᄋ

ᅵ가 가장 커지는시점에서 검정통계량을계산하게된다. 따라서 가능도비에근거한 검정통계량은

Un= max

1≤τ ≤n−1|Tτ| (2.2)

ᅪ 같게된다. 검정통계량 Un의관측값이 클때, 귀무가설을기각하고 모평균에 대한 유의미한 변화가 이

ᆻ다고 할 것이다. 이 때, 변화점의 최대가능도추정량 ˆτM LE은

ˆ

τM LE = arg max

1≤τ ≤n−1|Tτ| (2.3)

ᅵ 되어, 변화점 여부에 대한 검정뿐아니라 변화점이 있는경우 변화점의 위치 또한 자연스럽게 추정할 ᄉ

ᅮ 있다. 만약 σ가 미지인 경우에는가설 (2.1)을검정하기 위해 다음의 검정통계량을사용할 수 있다.

Wn= max

1≤τ ≤n−1

|Tτ| qPn

i=1(Xi− ¯X)2τ (n−τ )n Pτ

i=1(Xi− ¯X)2. (2.4) ᄌ

ᅳᆨ, Wn 값이 클때 귀무가설을기각하고 평균의 유의미한 변화가 있다고 할 것이다. 이처럼 최대가능 ᄃ

ᅩ추정법을사용하면 변화점 유무에 대한 추정 뿐아니라 변화점이 있는경우 변화점의 위치 또한 자연 ᄉ

ᅳ럽게 추정 가능하다. 다만 검정통계량 (2.2) 또는 (2.4)을계산하기 위해서는관측치가 추가될때마다 ᄆ

ᅩ든시점에서 변화점 검정을위한 재계산이 필요하게 되어, 이단계 모니터링에서는계산량이 크게 증가 ᄒ

ᅡ게된다.

2.1.2. CPD (Change Point Detection) 관리도

Hawkins 등 (2003)은관측치의 개수(n)가 증가하는 경우를고려하여 식 (2.4)의 계산방법을개선한 시

ᆨ (2.5)를제안하였는데, µ0, µ1, σ가 미지일 때도관리상태하에서의 데이터가 소수 관측되었다는 가

(4)

저

ᆼ 하에 이단계 관리도에서 적용 가능한 방법이다. 처음 (n0− 1)개 관측치에 대해 관리상태라고 가 저

ᆼ한다면, 시점 n(≥ n0)에서 가설 (2.1)을 모니터링 하기 위한 이단계관리도의관리 통계량은다음의 Tn이된다.

Tn= max

n0−1≤j≤n−1

rj(n − j) n

¯Xj− ¯Xj

r

Pn

i=1(Xi− ¯X)2τ (n−j)n h Pj

i=1(Xi− ¯X)i2

= max

n0−1≤j≤n−1

s(n − 2)Vjn2 S2n− Vjn2

= max

n0−1≤j≤n−1Tjn

(2.5)

ᄃ ᅡᆫ,

Vjn2 =(nWj− jWn)2 nj(n − j) Wn=

n

X

i=1

Xi, Wn= Wn−1+ Xn

S2n=

n

X

i=1

(Xi− ¯Xn)2, Sn= Sn−1+ [(n − 1)Xn− Wn−1]2/[n(n − 1)].

(2.6)

시

ᆨ (2.5)의 통계량 Tn은 식 (2.4)의 통계량과는 달리 식(2.6)으로부터 Wn과 Sn을 각각 시점 n의 과

ᆫ측값 Xn에 시점 n − 1까지의 통계량 Wn−1, Sn−1을 이용한 재귀적 계산이 가능하다는 장점이 있 ᄃ

ᅡ. 또한, n0 = 10으로 관리상태 하에 관측된 데이터 수가 작은 경우에도 관리통계량의 성능이 신 ᄅ

ᅬ할 만함을 보였다. 변화점이 1개 라고 가정한 이단계 관리도에서는 Xn 관측치가 시점 (n − 1)까 ᄌ

ᅵ 이상신호가 발생하지 않았다는 가정하에 관측되므로, 귀무가설을 기각하기 위해서는 PH0(Tn >

hp,n | n 시점 전까지 신호발생 없음) ≤ α를 만족하는 관리한계선 hp,n(α)을 선택해야 하는데, Tn의 부

ᆫ포가 매우 복잡하기 때문에 일반적으로 모의실험을 통해 결정된다. Hawkins 등 (2003)은 n0 = 10일 ᄄ

ᅢ hp,n(α) (n ≥ n0)에 대하여 다음과 같은관계가 있음을보였다.

hp,n(α) ≈ hp,10(α)



0.677 + 0.019 log(α) +1 − 0.015 log(α) n − 6



. (2.7) ᄋ

ᅵ 때, n > 200인 경우 hp,n = hp,200이고, hp,10(α)는 n = 10일 때 α에 따라 달라지는관리한계선 ᄋ

ᅳᆯ계산한 것으로, α가 0.05, 0.01, 0.001일 때 hp,10(α)는각각 3.662, 4.928, 7.023이된다. 만약 시점 n에서 이상상태가 발생한다면, 즉, Tn> hp,n(α)일 때, 추정된 변화점은

ˆ

τCP D= arg max

n0−1≤j≤n−1Tjn (2.8)

ᄋ ᅵ된다.

2.2. CUSUM 기반 변화점 탐지 2.2.1. CUSUM 관리도

ᅦ이터와 기준값 (reference value)의 편차를 누적한 통계량인 CUSUM 통계량은 주로 평균의 작 ᄋ

ᆫ 변화를 모니터링하기 위한관리도에 사용되는데, Hinkley (1971)는 이를 이용한 변화점 탐지 방법

(5)

으

ᆯ제안하였다. 이상상태에서의 평균을 µ1 = µ0± δσ라 하고 모니터링 하는 경우, 기준값 (reference value)은보통 k = (δσ)/2로 정한다. 이 때, 표준적인 CUSUM 통계량은다음과 같이 계산된다:

Cn±= max



0, Cn−1± ±Xn− µ0

σ − k



, n ≥ 3. (2.9) ᄃ

ᅡᆫ, C0±= 0이고, Cn+와 Cn는각각 평균의 상향 이동 (upward mean shift)과 하향 이동 (downward mean shift)을 검정한다. 또한, 이들 통계량이 hc보다 클때 모평균변화의 이상신호가 발생한 것으로 ᄑ

ᅡᆫ단한다. 따라서, CUSUM 관리도를설계하기 위해서는기준값 k 뿐만아니라 hc가 설정 되야 하는데, ᄀ

ᆨ 단측검정에서 ARL0가 주어질 때 이에 대응하는관리한계선 hc(α)는다음의 식으로근사될수 있다 (Rogerson, 2006).

hc(α) ≈  2k2ARL0+ 2 2k2ARL0+ 1

 log(1 + 2k2ARL0)

2k − 1.166. (2.10) ᄋ

ᅵ러한근사는 k ≤ 1.0일 때 모의실험을 통해 구한 실제의 ARL0가 식 (2.10)에서 설정한 ARL0와 ᄋ

ᅲ사하다는것이 알려져 있다. 또한, Cn±에 대한 각각의 평균 런길이를 ARL±라고 할 때, 양측검정을 ᄐ

ᆼ한 평균런길이 ARL은

1

ARL = 1

ARL+ + 1

ARL (2.11)

이

ᆷ을 만족한다 (Van Dobben de Bruyn, 1968). 이 등식은 관리상태와 이상상태의 평균 런길이 모두 ᄋ

ᅦ서 만족한다. 따라서, CUSUM 통계량을위한 양측검정의 경우에는 관리한계선을 hu(α/2)로 한다.

ᅡᆫ편, 시점 n에서 평균상향 변화에 대한 신호가 발생하였을 때, 즉, Cn+ > hc(α/2)라면 변화점 ˆτ 은 Cτ+= 0(1 ≤ τ < n)을만족하는가장 최근시점으로 추정한다:

ˆ

τCU SU M = max{1 ≤ τ < n : Cτ+= 0}. (2.12) 시

ᆨ (2.9)의 CUSUM 통계량을계산하기 위해서는관리상태하에서의 모평균 µ0와 모표준편차 σ가 모 ᄃ

ᅮ 알려져 있어야 하며, 만약 알 수 없다면관리상태 데이터를 통해 두 모수를추정할 수 있어야 한다.

ᅳ런데 Jensen 등 (2006), Jones 등 (2004), Castagliola와 Maravelakis (2011) 등의 연구결과에서 알 ᄉ

ᅮ 있듯이 관리상태 데이터 개수가 충분하지 않으면 추정값이 CUSUM 통계량의 성능에 큰영향을 미 치

ᆯ 수 있다. 이러한 모수에 대한 가정은관리상태의 데이터 개수가 적거나 또는과거 데이터가 충분하지 ᄋ

ᆭ은데이터 분석에서는커다란 제약이된다.

2.2.2. Self-Starting CUSUM 관리도 ᄋ

ᅵ단계 모니터링에서 CUSUM 통계량을 활용하기 위해서는관리상태 데이터에 대한 충분한확보가 피

ᆯ요하기 때문에, 이러한 단점을극복하고자 Hawkins (1987)는 매 시점마다 그 시점까지관측된모든 ᄃ

ᅦ이터로관리상태하의 평균과 분산을추정하여 사용하는 Self-Starting CUSUM (SS-CUSUM) 통계량 으

ᆯ제안하였다. 시점 n을기준으로 시점 i (1 ≤ i ≤ n − 1)에서 모평균변화에 대한 신호가 발생하지 않 ᄋ

ᆻ다면 {X1, X2, ..., Xn−1}은 동일한 분포를따른다고 볼수 있다. 즉,이를관리상태 데이터로 간주하 ᄋ

ᅧ 이들의 표본평균과 표본분산인 ¯Xn−1, Sn−12 을 식 (2.9)의 µ0와 σ에 각각 대입하여 표준화한 통계량 Tn을계산한다:

Tn=Xn− ¯Xn−1

Sn−1

(n ≥ 3).

(6)

ᅵ 때 {X1, X2, ..., Xn}이 서로 독립이고 동일한 분포를 따르는 관리상태라면 (Xn, ¯Xn−1, Sn−12 )가 ᄉ

ᅥ로 독립이므로

rn − 1

n Tn ∼ t(n − 2) 이

ᆷ을알 수 있다. 그런데 모든 Tn(n ≥ 1)은서로 독립이므로 (Hawkins, 1969)

Zn= Φ−1

"

Υn−2

rn − 1 n Tn

!#

i.i.d.

∼ N (0, 1)

ᅩ 표준화할 수 있다. 여기서 Υn−2 은자유도가 (n − 2)인 t 분포의 누적분포함수를나타내며, 통계량 Zn을 식 (2.9)에 대입함으로써 다음의 SS-CUSUM 통계량을계산한다:

Cn,SS± = max(0, Cn−1,SS± ± Zn− k). (2.13) ᄃ

ᅡᆫ, C0,SS± = C1,SS± = C2,SS± = 0이며, Cn,SS± > hc(α/2)일 때 평균 변화에 대한 이상신호가 발생 ᄒ

ᅡᆫ 것으로 판단하며, SS-CUSUM관리도의관리한계선과 추정 변화점의 위치는 CUSUM관리도의 식 (2.10)와 (2.12)으로 동일하다. SS-CUSUM 통계량은관측된데이터만으로 모수를추정하여 계산하기 ᄄ

ᅢ문에 관리상태 데이터가 적거나 없더라도 사용 가능한 변화점 탐지 방법이라고 할 수 있다 (Lee 등, 2018).

3. 모의실험 ᄋ

ᇁ 절에서는 관리상태 하의 데이터 개수가 크지 않아도 사용 가능한 이단계 관리도로 식 (2.5)의 CPD 관리도 통계량과 식 (2.13)의 SS-CUSUM 관리도 통계량을 알아보았다. 이 절에서는 이들 두 ᄇ

ᅡᆼ법에 대해 분포의 가정에 따른관리도의 성능과 변화점 위치 추정에 대한 성능을모의실험을 통해 비 ᄀ

ᅭ해 보기로 한다.

3.1. 변화점 탐지 수

ᆫ차적으로관측되는개별관측치의 모평균변화유무를모니터링 하는데 있어, 두 방법의 성능을비교 거

ᆷ토하기 위해 데이터를다음과 같이 생성하였다.

(1) 순차적인관측치 X에 대해관리상태하에서의 모평균과 모표준편차를각각 µ0 = 0, σ = 1로 하 ᄀ

ᅩ, 변화된모평균은 µ1= µ0+ δσ로 하여 정규분포로부터관측치를발생한다.

X1, X2, · · · , Xτ i.i.d.

∼ N (µ0, σ), Xτ +1, Xτ +2, · · ·i.i.d.∼ N (µ1, σ) ᄌ

ᅳᆨ, 변화점(τ ) 이후관리상태의 평균이 δ만큼 변화했다고 가정한다. 이 때, τ = 9로 설정하고, δ는 0.25, 0.5, 0.75, 1의 4가지 경우를설정하였다.

(2) 각 δ에 대해 식 (2.5)의 Tn과 식 (2.13)의 C+n,SS를사용하여 각각 CPD관리도와 SS-CUSUM관 ᄅ

ᅵ도를작성한다. 각 관리도에서 식 (2.7)의 hp,n(α)와 식 (2.10)의 hc(α/2) 관리한계선을설정 ᄒ

ᅡ기 위해,관리상태하에서의 평균런길이를 ARL0 = 200으로 정한다. 단, hc는단측검정을위 ᄒ

ᅡᆫ 관리한계선이므로, 양측검정을위한 SS-CUSUM 관리한계선을설정하기 위해서는 ARL0 = 400을대입한다.

(3) 처음으로관리한계선을넘을때까지의 런길이를기록한다.

(7)

(4) (1)번부터 (3)번까지 N = 10, 000번 반복하여, 각관리도에 대하여 런길이 {Lj, j = 1, · · · , N }를 ᄀ

ᅵ록한다.

(5) 런길이로부터 평균런길이 ARL와 런길이의 표준편차 SDRL을다음과 같이 추정한다.

ARL = 1 N

N

X

j=1

Lj, SDRL = v u u t

1 N − 1

N

X

j=1

(Lj− ARL)2

ᅩ의실험 절차 (3)에서 언급했듯이 CPD관리도는양측검정에 대한 결과를모니터링 하는반면에, SS- CUSUM 관리도는 두 개의 단측 검정결과를 모니터링하기 때문에 관리한계선 설정시 관리상태하의 펴

ᆼ균런길이 ARL0 설정에 유의할 필요가 있다. 또한, SS-CUSUM 관리도의 경우 식(2.11)의 관계가 과

ᆫ리상태 또는 이상상태에서 모두 만족하는데, 모평균이 양의 방향으로만 변화하는 경우 ARL+ <<

ARL을만족하므로, 실제 평균런길이는 ARL = (1/ARL++ 1/ARL)−1이 되어 ARL+에 의해 결 저

ᆼ된다. 본 모의실험 절차에서는모평균의 양의 변화만을고려하기 때문에, Cn,SS+ 에 대한 평균런길이 ᄆ

ᅡᆫ을제시하기로 한다.

Table 3.1 ARL(SDRL) values of the CPD chart and the SS-CUSUM chart with different k when the process mean shift size δ changes from 0 to 3. The charts have ARL

0

= 200 and τ = 9. Note that ARL(SDRL) for the

SS-CUSUM chart is only for the upward mean shift, which means ARL for the SS-CUSUM chart stands for ARL

+

.

δ

0.0 0.5 1.0 1.5 2.0 2.5 3.0

CPD 198.1 162.5 79.2 19.5 7.1 4.5 3.3

(185.5) (182.4) (137.4) (48.0) (7.6) (2.6) (1.7)

SS-CUSUM

k=0.25 398.8 227.9 79.5 20.2 7.8 5.7 4.8

(C

n,SS+

)

(386.8) (316.6) (187.8) (74.1) (9.4) (2.8) (1.8)

k=0.50 398.9 272.3 154.5 56.2 15.9 5.8 3.3

(390.6) (347.5) (282.6) (176.0) (86.1) (37.8) (1.7)

k=0.75 385.8 304.9 228.7 148.0 73.0 26.4 8.5

(383.4) (360.8) (334.6) (296.8) (225.7) (136.6) (76.7)

k=1.00 383.6 317.1 277.6 237.8 171.9 103.4 49.1

(367.8) (353.7) (348.8) (352.3) (333.3) (286.3) (215.8)

Table 3.1에서 δ = 0인 경우는관리상태를나타내는것으로, 실제 ARL0가관리한계선 계산 시 설정 해

ᆻ던 값과 비슷하게 나타나 두관리도 모두 원래 정한 수준으로 가짜 알람률(false alarm rate)을조정 ᄒ

ᅡ고 있음을나타낸다. SS-CUSUM 관리도의 경우 양측검정의 결과가 아니라 평균상향이동에 대한 단 ᄎ

ᅳᆨ검정이고, ARL = (1/ARL++ 1/ARL)−1의 관계와 관리상태하에서 ARL+ ≈ ARL임을 고려 ᄒ

ᅡᆯ 때, δ = 0인 경우 CPD 관리도와 마찬가지로 ARL0 ≈ 200을만족함을알 수 있다. SS-CUSUM 과

ᆫ리도의 결과는 ARL+에 대한 결과로서 ARL은 ARL+보다 작다는 것에 유의하며 결과를살펴보도 ᄅ

ᆨ한다. SS-CUSUM관리도의 경우 k에 대한 선택에 따라 평균변화에 대한 탐지성능이 매우 다르게 ᄂ

ᅡ타났는데, k가 커질수록 큰변화에 대한 탐지가 둔화되는경향이 있는것을 알 수 있다. k = 0.25인 SS-CUSUM의 경우 평균변화량 δ 와 상관없이 ARL1이 가장 짧은것으로 나타났다. 또한, 양측검정한 CPD관리도와 비교했을때에도 δ ≥ 1인 경우에는비슷한 성능을보였다. δ = 0.5인 경우에도 비록양 ᄎ

ᅳᆨ검정과 단측검정의 차이때문에 직접적인 비교는 불가능하지만, ARL = (1/ARL++ 1/ARL)−1의 과

ᆫ계를고려할 때, CPD관리도와 탐지성능이 비슷하다는것을알 수 있다.

CPD 관리도와 SS-CUSUM 관리도는 모두 데이터가 정규분포를 따른다는 가정하에 통계량이 제 ᄋ

ᅡᆫ 되었는데, Table 3.2는 분포의 가정에 따른 강건성을 알아보기 위해 모의실험 단계 (1)에서 X ∼ P oi(10)인 경우와 X ∼ t(5)를가정한 경우의 평균런길이(ARL0)를나타낸다. 이때 분포를제외한 모

(8)

Table 3.2 In-control ARL (SDRL) values of the CPD chart and SS-CUSUM (C

n,SS+

) chart (k = 0.25) for non-normal distributions

Distribution Chart ARL (SDRL) P oi(10) CPD 162.1 (160.9) SS-CUSUM 346.9 (330.7)

t(5) CPD 94.0 (68.9)

SS-CUSUM 370.0 (365.4)

드

ᆫ조건은정규분포와 동일하다. 두관리도 모두 정규분포에서와는달리 포아송 분포와 t 분포의 경우 과

ᆫ리상태하에서의 평균런길이가 짧아 실제로는가짜알람률이 커지는것을알 수 있다. 특히, CPD 관 ᄅ

ᅵ도의 경우 꼬리가 두꺼운 t 분포에 좀더 강건하지 않음을알 수 있다.

3.2. 변화점 추정

Table 3.1의 결과는 변화점의 위치가 τ = 9인 경우로 데이터가 관측 초기에 변화한 경우이다. 이 저

ᆯ에서는 변화점의 위치를 데이터의 관측 초기부터 중간 지점 등 다르게 가정하고, 모의실험을 통해 ᄃ

ᅮ 방법으로 추정한 변화점 위치의 정확도를 비교평가하였다. CPD 관리도의 경우는 식 (2.8)에서 보 느

ᆫ 것처럼 이상상태라고 탐지된 시점 (n)에서 변화점 j시점을 바로 구할 수 있고, SS-CUSUM 관리 ᄃ

ᅩ의 경우 식 (2.12)에서 살펴보는 것과 마찬가지로 이상상태라고 탐지된 시점 (n)에서 역으로 계산 ᄒ

ᅡ여 CUSUM통계량의 값이 0이었던 최근 시점에서 변화점을 탐지하게 된다. 변화점의 위치는 τ = 12, 36, 60으로 하였으며, 나머지 조건은모의실험에서 설명한 것과 동일하게 진행하였다. 또한, 모의실 ᄒ

ᅥᆷ에서 실제 변화를양의 방향으로 변화했기 때문에, SS-CUSUM관리도의 경우는양의 방향으로 변화 ᄅ

ᅳᆯ모니터링하게 되는 Cn,ss+ 을사용한 결과이다.

Table 3.3은 CPD 관리도와 SS-CUSUM 관리도로 추정한 이상상태 탐지시점(detection point)과 ᄇ

ᅧᆫ화점(chage point)에 대한 평균과 표준편차를 나타낸다. 실제 변화점의 발생시기와 상관없이 변 ᄒ

ᅪ량(δ)이 작은 경우 변화 탐지시점이 늦어지는 것을 알 수 있고, 특히, 변화가 초기에 발생한 경 ᄋ

ᅮ(τ = 9)에는변화점 추정량의 편의가 크게 나타난다는것을알 수 있다. 반대로 변화가 늦게 나타난 겨

ᆼ우(τ = 60인 경우)는관리상태하에서의 데이터가 많은경우로 δ = 0.5를제외한 모든 δ 변화에 대해 ᄇ

ᅧᆫ화시점이 거의 같아지는것을알 수 있다. 그러나, 변화가 초기에 발생한 경우를제외하고 두관리도 ᄆ

ᅩ두에서 변화점 추정량이 실제 변화점보다 작게 나타났다. 특히, CPD관리도의 경우에는변화 탐지시 ᄌ

ᅥᆷ에 대한 추정량이 실제 변화시점보다 작게 나타나는 문제가 있어 이에 대한 추가 연구가 필요해 보인 ᄃ

ᅡ.

4. 실증분석 ᄋ

ᅵ 절에서는 실증분석을 통해 CPD 관리도와 SS-CUSUM 관리도를 비교하고자 한다. 본 논문에서 ᄉ

ᅡ용한 데이터는서울특별시에서 발생한 65세 이상 고령 운전자의 교통사고 발생 건수로, 도로교통공단 ᄋ

ᅴ 교통사고분석시스템(TAAS)을 통해 조사되었다. 25개 구에 대해 월별로 수집되었으며, 2007년부터 2017년까지 총 132개월의 데이터를사용하였다. 본 논문에서 제시한 두 방법은 관측값이 정규분포를 ᄄ

ᅡ른다는가정하에 적절한 방법이므로 각 구별로 고령 운전자의 교통사고 발생건수에 대하여 Shapiro- Wilk 정규성 검정을시행하였고, 그 결과는 Table 4.1과 같다. 동작구를제외한 모든구에서 고령 운전 ᄌ

ᅡ 교통사고 발생건수에 대한 정규분포 가정이 유의수준 5%에서 유의미한 것으로확인되었다. 두관리 ᄃ

ᅩ의 사용을위해, 2007년 1월부터 10월까지의 데이터는관리상태하에서관측된데이터라고 가정 하였 ᄀ

ᅩ, ARL0 = 200으로 한다. 또한 k = 0.5인 SS-CUSUM관리도를선택하였다. Figure 4.1과 4.2는각

(9)

Table 3.3 Estimates (associated standard errors) of the detection-point and the change-point for CPD chart and SS-CUSUM chart (k = 0.5) when the process mean shift size δ changes from 0 to 3. The true change-point τ is

chosen as 12, 36, and 60.

chart τ Estimates of δ

0.5 1.0 1.5 2.0 2.5 3.0

CPD

12

detection point 159.1 64.4 24.3 18.5 16.6 15.7 (174.9) (103.7) (20.3) (4.0) (2.1) (1.4)

change point 145.5 45.7 14.9 13.1 13.0 12.9

(176.4) (100.7) (16.6) (1.6) (0.9) (0.7)

36

detection point 107.6 47.4 40.7 38.7 37.8 37.3 (121.9) (16.4) (7.2) (5.9) (5.4) (5.2)

change point 87.7 36.6 35.0 34.9 34.9 34.9

(119.4) (11.4) (6.6) (6.2) (5.9) (5.9)

60

detection point 99.2 63.8 59.4 57.9 57.3 57

(81.5) (18.1) (14.6) (13.6) (13.0) (12.8)

change point 79.4 54.8 53.9 53.9 54.1 54.3

(76.4) (16.2) (14.7) (14.4) (14.1) (14.0)

SS-CUSUM 12

detection point 259.8 122.1 41.5 19.6 16.6 15.9 (332.1) (241.6) (116.4) (27.9) (4.7) (1.3)

(C

n,SS+

)

change point 252.3 113.7 33.8 13.7 12.1 12.0

(332.4) (242.1) (116.3) (27.7) (4.4) (1.2)

36

detection point 163.7 53.9 41.2 39.4 38.7 38.2 (235.9) (62.6) (6.6) (5.2) (4.8) (4.6)

change point 155.3 45.0 34.7 34.3 34.3 34.2

(236.3) (62.4) (6.2) (5.7) (5.6) (5.5)

60

detection point 139.2 67.6 62.3 60.7 60.1 59.6 (175.4) (25.4) (11.8) (11.3) (11.0) (10.9)

change point 130.5 59.2 56.1 55.7 55.7 55.6

(175.7) (24.7) (11.8) (11.9) (11.7) (11.8)

Table 4.1 P-values of Shapiro-Wilk normality test for the number of traffic accidents of elderly drivers aged 65 and older occurred in the administrative district of Seoul

District Gangnam Gangdong Gangbuk Gangseo Gwanak Gwangjin Guro

P-Value 0.923 0.121 0.390 0.521 0.129 0.174 0.512

District Geumcheon Nowon Dobong Dongdaemun Dongjak Mapo Seodaemun

P-Value 0.277 0.194 0.099 0.656 0.007 0.155 0.361

District Secho Seongdong Seongbuk Songpa Yangcheon Yeondeungpo Yongsan

P-Value 0.816 0.302 0.897 0.051 0.391 0.212 0.154

District Eunpyeong Jongno Jung Jungnang

P-Value 0.582 0.245 0.118 0.745

ᄀ ᅡ

ᆨ 강동구와 송파구의 고령 운전자 교통사고 발생 건수에관리도를적용한 결과이다.

ᅡᆼ동구의 경우 첫 평균변화에 대한 변화를 탐지한 것은 CPD와 SS-CUSUM 관리도 모두 2008년 10월로 같았으며, 변화를탐지한 후 추정한 변화점은각각 2008년 1월과 2007년 12월로 이 또한 비슷 ᄒ

ᅡᆫ 시기를추정하고 있음을알 수 있다. Figure 4.2에서 송파구의 경우도 두관리도가 비슷한 시기에 평 규

ᆫ변화가 탐지된후 변화점이 비슷하게 추정됨을알 수 있는데, 송파구는강동구에 비해 그 변화가 늦 ᄀ

ᅦ 시작되었음을알 수 있다.

Table 4.2는 25개 구에 대한 모평균의 변화를 탐지한 시점(DP)과 이상신호 탐지 후 추정된 변화 ᄌ

ᅥᆷ(CP)에 대한 결과를 요약한다. 고령 운전자 교통사고 발생건수가 변화한 시점은 두 관리도에서 모 ᄃ

ᅮ 비슷하게 나타났는데, 변화점 추정 시점에 많은차이를보인관악구, 중구, 강서구를 제외하면 이상 ᄉ

ᅵᆫ호를탐지한 시점 또한 두관리도가 비슷함을알 수 있다.

(10)

Figure 4.1 Gangdong-Gu Figure 4.2 Songpa-Gu

Table 4.2 Estimated detection point (DP) and change point (CP) in the CPD chart and SS-CUSUM chart for n

0

= 10, ARL

0

= 200 and k = 0.5.

District Gangnam Gangdong Gangbuk Gangseo Gwanak Gwangjin Guro CPD DP 2010.02 2008.10 2009.01 2010.09 2009.06 2009.08 20010.10

CP 2008.02 2008.01 2008.06 2010.03 2008.02 2008.04 2010.02 SS-CUSUM DP 2008.12 2008.10 2008.12 2009.5 2012.01 2009.09 2010.10 CP 2008.02 2007.12 2008.07 2008.05 2011.08 2008.05 2010.01 District Geumcheon Nowon Dobong Dongdaemun Dongjak Mapo Seodaemun

CPD DP 2009.10 2009.11 20011.12 2011.08 2008.02 2008.07 2012.01 CP 2009.04 2009.02 20011.04 2010.03 2008.01 2008.03 2011.08 SS-CUSUM DP 2009.10 2009.11 2012.01 2010.12 2008.04 2008.07 2012.02 CP 2009.05 2009.03 2011.05 2010.04 2008.01 2007.11 2011.08 District Secho Seongdong Seongbuk Songpa Yangcheon Yeondeungpo Yongsan

CPD DP 2009.11 2010.12 2008.08 2010.06 2008.04 2009.09 2010.08 CP 2008.07 2010.11 2008.02 2009.02 2007.12 2008.07 2010.01 SS-CUSUM DP 2007.11 2011.01 2008.06 2010.06 2008.05 2007.11 2010.09 CP 2007.10 2009.03 2007.10 2009.03 2008.01 2007.10 2009.09 District Eunpyeong Jongno Jung Jungnang

CPD DP 2008.08 2011.01 2011.08 2010.08 CP 2008.06 2010.02 2011.03 2008.02 SS-CUSUM DP 2009.01 2010.12 2009.07 2008.11 CP 2007.12 2010.03 2008.07 2008.03

Figure 4.3에서왼쪽그래프는 CPD관리도, 오른쪽그래프는 SS-CUSUM관리도로 통한 추정 변화 ᄌ

ᆷ을 나타내며, ‘18개월 이전’, ‘18-30개월’, ‘30개월 이상’의 3가지 범주로 결과를요약하였다. 두 그 리

ᆷ을 비교했을 때 하얗게 표시된지역이 변화점이 빠른 곳에 속하며, 검은색이 변화점이 느리게 발생 ᄒ

ᅡᆫ 지역을 나타내는데, 비교적 서울시 중심부 보다는 마포구, 은평구, 강북구, 강동구 등에서고령 운전 ᄌ

ᅡ 교통사고 발생건수가 빠르게 증가 되었음을알 수 있다.

(11)

Figure 4.3 Change point estimates for CPD chart and SS-CUSUM chart: the white-, gray- and black-colored district means the occurrence of changepoint within 18 months, 18-30 months, over 30 months.

5. 결론 보

ᆫ 논문에서는시점마다 데이터가 발생하는 순차적 데이터에서 평균변화를모니터링하기 위한관리 ᄃ

ᅩ법들을소개하였다. 최대가능도추정량 기반의 CPD관리도와 CUSUM 통계량 기반의 Self-Starting CUSUM관리도를 기반으로관리상태하에의 데이터가 충분하지 않은경우에도 사용할 수 있는 분포를 ᄋ

ᆯ아보고, 이들관리도에 대한 분포에 대한 강건성과 변화시기에 따른차이점을비교 평가해 보았다. 또 ᄒ

ᅡᆫ, 실증분석으로 서울특별시에서 발생한 65세 이상 고령 운전자의 교통사고 발생 건수에 대하여 위 방 버

ᆸ을적용하여 서울시 행정구역별로 교통사고 발생 건수에 대한 평균변화가 처음관측되는변화점을찾 ᄋ

ᅡ 비교 분석해 보았다.

CPD 관리도와 작은 k를사용하는 SS-CUSUM 관리도의 경우 모두 변화점 추정에 대한 성능이 비 ᄉ

ᆺ한 것으로확인되었다. 그러나, SS-CUSUM 관리도는 k의 선택이관리성능에큰영향을미치고, k가 ᄏ

ᆯ수록변화에 대한 탐지능력이 상대적으로 떨어지는경향이 있는것으로 나타났다. 또한, 데이터가 정 ᄀ

ᅲ분포를따르지 않는경우관리도를설계할 때 사용한 ARL0와 모의실험으로부터 추정한 ARL0는상 ᄃ

ᅡᆼ한 차이를보이는것으로 나타났는데, CPD 관리도가 분포의 가정에 더 민감하게 반응하는것을 알 ᄉ

ᅮ 있었으며, 향후 데이터 분포에 강건한 온라인 변화점 탐지 방법에 대한 논의가 필요하다. 또한 변화 ᄀ

ᅡ관측초기에 나타나지 않은경우 두 관리도 모두 추정 변화점이 실제 변화점보다 앞서는 편의가 나 ᄐ

ᅡ났는데, 이것은 CUSUM 통계량을사용한 변화점 추정에 편의가 있다는결과와 일치하였고 (Srivas- tava, 1994),추후관련 연구도 필요하다고 할 것이다.

References

Castagliola, P. and Maravelakis, P. (2011). A CUSUM control chart for monitoring the variance when parameters are estimated. Journal of Statistical Planning and Inference, 141, 1463-1478.

Gupta, A. K. and Chen, J. (1997). Testing and locating variance changepoints with application to stock prices. Journal of the American Statistical Association, 92, 739-747.

Hawkins, D. M. (1969). On the distribution and power of a test for a single outlier. South African Statistical

Journal, 3, 9-15.

(12)

Hawkins, D. M. (1987). Self-starting CUSUMs for location and scale. The Statistician, 36, 299-315.

Hawkins, D. M., Qiu, P. and Kang, C. W. (2003). The changepoint model for statistical process control.

Journal of Quality Technology, 35, 355-366.

Hinkley, D. V. (1970). Inference about the change-point in a sequence of random variables. Biometrika, 57, 1-17.

Hinkley, D. V. (1971). Inference about the change-point from cumulative sum tests. Biometrika, 58, 509- 523.

Hsu, D. A. (1977). Tests for variance shift at an unknown time point. Applied Statistics, 26, 279-284.

Jensen, W. A., Jones-Farmer, L. A., Champ, C. W. and Woodall, W. H. (2006). Effects of parameter estimation on control chart properties: A literature review. Journal of Quality Technology, 38, 349- 364.

Jung, Y. (2017). Old driver quadrupled in traffic accident for ten years…Damage and fatality rate per case highest , https://news.sbs.co.kr/news/endPage.do?news\_id=N1004492268.

Kang, J. and Kang, M. (2019). Analysis of accidents in domestic nuclear power plants using time series models. Journal of the Korean Data & Information Science Society, 30, 119-126.

Lee, J. W., Kim, M. and Lee, J. (2018). The in-control performance of self-starting EWMA and ¯ X charts.

Journal of the Korean Data & Information Science Society, 29, 851-860.

Lee, K. M., Sung, J. H., Kim, Y. O. and Lee, S. H. (2011). Change-point analysis of mean temperature and extreme temperature in the Republic of Korea. Journal of the Korean Geographical Society, 46, 583-596.

Page, E. S. (1954). Continuous inspection scheme. Biometrika, 41, 100-115.

Park, J. K and Seok, K. H. (1998). The statistical approaches on the change point problem of the precipi- tation in the Pusan area. Journal of Environmental Science International, 7, 1-7.

Rogerson, P. A. (2006). Formulas for the design of CUSUM quality control charts. Communications in Statistics-Theory and Methods,, 35, 373-383.

Ryu, Y. S. (2019). How can an elderly car accident soar? Senior citizens’ restrictions “Hot potatoes”, https://www.mk.co.kr/news/economy/view/2019/02/102872.

Smith, A. C., Hudson, M. A., Downes, C. M. and Francis, C. M. (2015). Change points in the population trends of aerial-insectivorous birds in North America: Synchronized in time across species and regions.

PLoS ONE, 10, e0130768.

Srivastava, M. S. (1994). Comparison of CUSUM and EWMA procedures for detecting a shift in the mean

or an increase in the variance. Journal of Applied Statistical Sciences, 1, 445-468.

(13)

2020, 31

(

2)

,

391–403

Control chart based on change-point detection in monitoring the mean changes for elderly drivers’ car

accidents data

Sang Kyun Kim

1

· Sungim Lee

2

12Department of Statistics, Dankook University

Received 21 January 2020, revised 8 March 2020, accepted 9 March 2020

Abstract

The problem of detecting a change-point based on an ordered sequence of observa- tions appears in a variety of applications. In this study, we assume that the sample size n increases sequentially over time, which is often found in the phase II SPC prob- lem. To solve this problem, we examine the control chart methods using both the change-point detection statistics and the cumulative sum statistics. We also provide simulation studies to evaluate the robustness for those methods and accuracy for the change-point position, and an example of monthly monitored cases of traffic accidents regarding elderly drivers over 65 years old in Seoul.

Keywords: Average run length, change-point detection, control chart, self-starting CUSUM, statistical monitoring.

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government(MSIT) (No.2019R1A2C1003257).

1

Graduate student, Department of Applied Statistics, 152, Jukjeon-ro, Suji-gu, Yongin-si, Gyeonggi-do 16890, Korea.

2

Corresponding author: Professor, Department of Applied Statistics, 152, Jukjeon-ro, Suji-gu, Yongin-

si, Gyeonggi-do 16890, Korea. E-mail: [email protected]

수치

Table 3.1 ARL(SDRL) values of the CPD chart and the SS-CUSUM chart with different k when the process mean shift size δ changes from 0 to 3
Table 3.2 In-control ARL (SDRL) values of the CPD chart and SS-CUSUM (C n,SS + ) chart (k = 0.25) for non-normal distributions
Table 3.3 Estimates (associated standard errors) of the detection-point and the change-point for CPD chart and SS-CUSUM chart (k = 0.5) when the process mean shift size δ changes from 0 to 3
Table 4.2 Estimated detection point (DP) and change point (CP) in the CPD chart and SS-CUSUM chart for n 0 = 10, ARL 0 = 200 and k = 0.5.
+2

참조

관련 문서

Moving from Traditional Payment Rails to Payment Networks 73 Fiat Currency Stablecoins Create More Interoperability between Ecosystems 74 Cryptocurrency and

•  Each observed shape is now a point (vector) x in 2*K dimensional space. •  The “mean shape” is the center of mass of

As for the data used in this study, for the synoptic analysis, the surface weather chart and 500 hPa weather chart, which had been produced by the

Scheme of the 3-point flexure test (the dimension of the test configuration are given by lc=8mm, dm=0.5mm, dc=1mm).... Means and standard deviations

: At a critical point an infinitesimal variation of the independent variable results in no change in the value of the function..

 Let us determine the natural response for the overdamped RLC circuit of Figure 9.4-1 when the initial conditions are v(0) and i(0) for the capacitor and the

4. In the case of the outermost orientation angle of 0 °, the maximum / mean load increases slightly with the increase of the number of interfaces, but in the FEM, the maximum

Mean values of the distance from the most superior point of the mandibular condyle to the most inferior point of the articular eminence on transcranial and