• 검색 결과가 없습니다.

와이블 분포의 베이지안 추정방법

II. 석유공급교란

4. 와이블 분포의 베이지안 추정방법

베이지안 접근(Bayesian approach)은 모수에 대한 사전정보(prior information)로 출발하고 주어진 자료로 정보를 추가하여 모수를 추정하 는 방법이다.

특히, Markov Chain Monte Carlo(MCMC)방법은 베이지안 방법이 가 지고 있는 계산상의 문제점을 해결해주는 기법으로 현실적인 통계적 모 델(statistical models)에 대한 다양한 방향을 제공한다. 최근 통계적으로 적용되는 분야에서 야기되는 복잡한 구조 또는 표본의 수가 부족해서 생기는 문제를 MCMC방법으로 해결책을 제공해 왔다.

MCMC를 간단히 설명하자면 마코프 체인(Markov Chains)을 이용한 몬테칼르로적분(Monte Carlo integration)이다. 다차원(high-dimensional) 확률분포에 대한 모수추정 및 예측을 할 때 적분이 필요하다. 베이지안 방법은 사전분포와 우도함수를 토대로 사후분포에 대한 추론을 행하기 때문에 모수들에 대한 주변확률분포(marginal probability distribution)를

구해야 한다. MCMC는 마코프체인을 통하여 다차원 모델에서 조건부확 률분포로부터 샘플(samples)을 추출하여 근사된 주변확률분포를 구하는 기법이다. 이러한 체인들을 만드는 많은 기법들이 연구되어 왔고 대표적 인 것으로는 Metropolis-Hasting(Metropolis et al, 1953, Hastings, 1970) 와 Gibbs sampler(Gemam, 1984)가 있다.

가. 모수의 사전분포와 사후분포

사전분포는 베이지안 방법에서 상당히 중요한 부분이고 미지의 모수 에 관한 정보를 나타낸다. 이 사전분포(prior distribution)와 우도함수를 바탕으로 사후분포(posterior distribution)를 생성하고 모수에 대한 추론 을 이끌어낸다. 사전분포를 만드는 기초는 다음과 같다.

{ 어떤 정보가 사전분포로 이용되는지

{ 주어진 사전분포가 사후분포의 성질에 어떤 영향을 미치는지

잘 정의된 모수와 대표본 크기에서 적합한 사전분포는 사후분포에게 적게 영향을 미치도록 선택한다. 각기 다른 적합한 이유로 만들어진 사 전분포들이 생성한 사후분포들을 대표본 크기에서 비교하여 가장 적게 영향을 미치는 사전분포를 선택한다.

만약 표본 크기가 적거나 관심있는 모수의 직접적인 정보가 미흡하면 사전분포는 더욱 중요한 역할을 한다. 대부분의 경우 사전분포는 객관성 을 확보하기 위해 계층적 모델(hierarchical model)로 설정된다.

와이블 분포에서 형태모수와 척도모수의 사전정보가 없으므로 결합사 전분포는 무정보(non-informative)로 식(3-4)로 설정한다.

p( a, b)∝1/a. (3-4)

베이지안 추론에서 사후분포는 주어진 관측값( X)과 미지의 모수들의 조건부 분포이다. 사후분포는 베이스 이론(Bayes' theorem)을 이용하여 사전분포와 우도함수로부터 구해진다. 따라서 식 (3-5)은 형태모수와 척 도모수의 사후분포이다.

ƎÞſìƀ ç± ß w ƎÞſì ƀßƇ á Î

Ă

ƌ Ƅ ÞƖƇç ſìƀß. (3-5)

와이블 분포에서 모수들에 대한 결합사후분포의 전개과정은 부록에 자세히 기술되어 있다. 식(3-6)에서 형태모수(shape parameter)의 조건부 주변분포(conditional marginal distribution)이다.

ƎÞƀ ç ſì± ß w ƀƌſà ƌƀ à Î

Þ

Ƈ á Î

Ă

ƌ ƖƇƀ à Î

ß

¸ËÃƙƜ

ƚ

à ſà ƀƇ á Î

ā

ƌ ƖƇƀƛƝ

ƞ

í (3-6)

식(3-7)에서는 척도모수(scale parameter)의 조건부 주변분포(conditional marginal distribution)이다.

ƎÞſ ç ƀì± ßwſà ƌƀ à θËÃƙ

Ɯ

ƚ

à ſà ƀƇ á Î

ā

ƌ ƖƇƀƛƝ

ƞ

í (3-7)

여기서 Y = g(a) = a b로 변수변환을 하면 조건부 확률변수

Y | b, X는 모수가

(

n, i = 1n xbi

)

역감마함수(inverse gamma distribution)이다. 전개과정은 부록을 참조하시오.

나. 모수추정의 베이지안 방법

모수들이 결합된 사후분포로부터 각 모수의 주변확률분포(marginal probability distribution)를 구하기 어렵기 때문에 베이지안 접근에서 가 장 널리 쓰이는 MCMC방법을 이용하여 모수를 추정해야 한다.

특히, 각 모수의 조건부확률분포(Conditional probability distribution) 가 흔히 알려진 분포라면 Gibbs sampler 알고리즘을 이용하여 모수들을 추정할 수 있다.

Gibbs sampler에 대해 간단히 설명하면 다음과 같다. 모수벡터 ɂ = ( ɂ1, ...,ɂk)를 확률변수(random variables)의 집합체(collection)라 하자. 각 모수의 조건부확률분포, p(ɂ i| without ɂ i), i = 1,..., k, 가 알려진 분포라 가정하면 각 조건부분포로부터 표본을 ɂ1에서부터 ɂk까지 반복해서 추출한다. 이러한 계획(scheme)이 확률분포 p( ɂ)의 평형분포(equilibrium distribution)를 갖는 마코프체인이다. 자세한 내용 은 Gelfant와 Smith (1990)의 논문을 참조하시오. Gibbs sampling 알고 리즘의 절차는 다음과 같다.

1. 초기값이 주어짐: ( ɂ ( 0 )1 ,..., ɂ( 0 )k ) 2. 반복 (i=1:N) {

반복 (j=1:k) {

ɂ( i)j ∼p( ɂj | ɂ1( i), ..., ɂ( i)j - 1,...ɂ( i - 1 )j + 1 ,...,ɂk( i - 1 ))에 서 표본 생성

} }

N개의 추출된 표본 중에 p( ɂ)분포와 관련되는 표본, 즉 t이후의 표본( ɂ( t + 1))을 이용하여 주요 모수를 추정한다.

와이블 분포에서 식(3-7)로부터 척도모수의 분포는 역감마함수로 Gibbs sampling을 적용하는데 별 문제가 없으나 식(3-6)의 형태모수의 조건부확률분포의 형태가 복잡하다. 이 조건부확률분포의 모양을 파악하 고자 식(3-6)에 자연로그를 취하고 모수 b에 대해 미분을 한 것은 다음 과 같다.

ćŞƀ

Ş ¿ÁƎÞƀ ç ſì± ß á ćƀ

ƌà ƌ ¿Áſ âƇ á Î

ā

ƌ ¿ÁƖƇ

à ſà ƀ

Þ

Ƈ á Î

ā

ƌ ƖƇƀ¿ÁƖƇàƇ á Î

ā

ƌ ƖƇƀ¿Áſ

ß

í (3-8)

ćŞƀÏ

ŞÏ¿ÁƎÞƀ ç ſì± ß áà ćƀÏ

ƌ à ſà ƀ

Þ

Ƈ á Î

ā

ƌ

ƖƇƀÞ¿ÁƖƇà ¿ÁſßÏ

ß

ï × í (3-9)

척도모수 a > 0 이고 ∀x > 0에 대해 식(3-8)과 식(3-9)로부터 형태모 수의 조건부확률분포는 로그-오목한 형태(log-concave)를 가진다. 따라서 형태모수 b의 조건부사후분포로부터 표본을 추출하기위해 적응기각추 출법(adaptive rejection sampling)으로 Gibbs sampling 알고리즘을 수행 한다. 적응기각추출법은 주어진 분포의 수식이 복잡하지만 그 형태가 하

나의 최빈수를 가지면 조건부확률분포에 자연로그(nature logarithm)를 취하여 몇 개의 점에서 순간 기울기를 연결하여 원래의 조건부 분포의 덮개함수를 계산해서 표본을 추출하는 방법이다. 자세한 수식전개는 부 록에 수록하였다.

와이블 분포의 형태모수와 척도모수에 관한 베이지안 추론의 절차는 각 모수의 주어진 조건부확률분포로부터 Gibbs sampler기법을 이용한 것으로 우선 아래와 같은 순서로 표본을 추출한다..

1. 초기값이 주어짐: ( a ( 0 ), b ( 0 )) 2. 반복 (i=1:N) {

a ( i )∼p( a | b ( i - 1 ), X)에서 표본 생성 b ( i )∼p( b | a ( i ), X)

}

베이지안 방법으로 형태모수( b)와 척도모수( a)의 추정은 위의 절차 로부터 추출된 N의 표본 중에서 초기값에 영향을 받지 않는 표본만으 로 모수추정에 사용한다. 모수추정은 주어진 표본의 평균으로 구하면 그 평균을 사후평균(posterior mean)이라고 한다.

Ȇ =a 1

N - k

N

j = k + 1a( j), bȆ = 1

N - k

N

j = k + 1b( j ). (3-10)

여기서 모수추정에 적용되는 샘플의 수는 대략 전체 표본 N개의 80%로 정하며 식(3-10)의 계산으로 모수의 추정값을 구한다.

[그림 3-2] 와이블 분포 추정의 그래픽적 모델

[그림 3-2]의 의미는 일평균공급부족량 분포가 두 모수에 의해 결정되 고 상자 밖의 표시된 모수를 추정해야 한다는 것이다.

관련 문서