베이지안 로지스틱 회귀모형에서의 추론에 대한 연구
황진수1 · 강성찬2
1인하대학교 통계학과, 2인하대학교 통계학과 (2010년 10월 접수, 2011년 11월 채택)
요 약
기존의 frequentist 추론에 비해 Bayesian 추론에서의 가설 검정 및 모형 선택 문제는 학자들 간에 일치된 견해를 보이지 못하고 있으며 아직도 논란이 되는 것들이 많다. Bayesian 추론에서 가설 검정 및 모형 선택의 기준으로 널 리 쓰이는 Bayes factor는 이해하기 쉬우나 여러 경우에 구하기 어려운 단점이 존재한다. 그 외에 다른 기준으로 Spiegelhalter등 (2002)가 제시한 DIC(Deviance Information Criterion)과 frequentist 추론에서의 P -value에 대비되는 Bayesian P -value가 있다. 본 논문에서는 Swiss banknote 자료를 Bayesian 로지스틱 회귀모형으로 분 석하고 관련 기준들을 구하여 각 기준들이 일관성 있는 결론을 보이는지 확인하고자 한다.
주요용어: Bayesian Model Selection, Bayes factor, DIC, Bayesian P -value.
1. 서론
어떤 자료를 설명하는 통계적 모형을 설정할 때, 분석자는 일반적으로 분석 자료가 몇 개의 후보 모형들 중 하나에서 나온 것이라고 가정하게 된다.
여기서 모형들이란 것은, 어떤 확률 분포들의 집합을 말한다. 예를 들어, 자료가 정규분포를 따르는 변 수 Y 및 그와 관련이 있다고 추정되는 공변량 X가 존재할 때 두 가지 가능성을 고려할 수 있는데, 하나 는 Y 와 X가 아무런 관계도 없다면 Y 는 Y ∼ N(µ, σ2) 형태의 확률분포를 따른다고 할 수 있고, Y 와 X간에 선형 관계가 있다면 Y ∼ N(βX, σ2)과 같은 분포를 따른다고 볼 수 있다.
일반적으로 분포 f(y|θ)를 따르는 확률변수 Y 를 관측했다고 하자. 이 때 모수 θ는 모수 공간 Θ에 속하 는 미지의 값이다. 여기서 모델 M0와 M1을 비교하는 문제를 생각해 보자.
M0: X∼ f(y|θ0), where θ∈ Θ0, M1: X∼ f(y|θ1), where θ∈ Θ1.
이 때, Bayesian 추론 방식은 가능한 후보 모형과 모수공간을 확률화한다. 다시 말해서 각 후보 모형에 확률을 부여하고 각 모수에 사전분포를 도입한다. 여기서 어떤 모형이 다른 모형에 비해 유력하다는 것 은 그 모형의 모수에 부여되는 확률이 제일 크다거나 모형들 간 가능도의 비가 일정 수준 이상 크다고 말할 수 있을 것이다.
Bayesian 추론에서의 모형 선택 연구는 Jeffreys (1961)가 Bayes factor를 제시하면서 시작되었다.
Bayes factor는 가능도비 검정에 대한 Bayesian 대안으로 볼 수 있으며 현재까지도 가장 일반적으로 쓰 본 연구는 인하대학교 교내연구비 지원에 의해 수행되었음.
1교신저자: (402-751) 인천시 남구 용현동 253, 인하대학교 통계학과, 교수. E-mail: [email protected]
이는 기준이다. Kass와 Raftery (1995)는 Bayes factor에 대한 내용을 정리하고 이에 대한 응용 사례를 제시했다.
90년대 들어 컴퓨터 계산 능력의 발전으로 MCMC(Markov Chain Monte Carlo)를 이용한 Bayesian 추론이 대세를 이루게 되면서 모형 선택에 대한 연구 또한 발전하게 되었으며 이 시기 들어 Bayesian 관점에서의 P -value가 몇몇 학자들에 의해 제안되었다. Box (1980)부터 Rubin (1984), Meng (1994), Gelman등 (1996) 등이 각각 사전 예측 P -value 및 사후 예측 P -value를 제시했는데, 사전분포의 선택 에 민감하거나 자료를 두 번 사용하는 등의 문제점이 있어, Bayarri와 Berger (1998)는 이를 보완한 조 건부 사전 예측 P -value와 부분 사후 예측 P -value를 제시했다.
2000년대 들어 R과 WinBUGS를 이용한 Bayesian 추론이 대세를 이루게 되면서 기존의 AIC, BIC와 유사한 기준으로 Spiegelhalter 등 (2002)는 DIC(Deviance Information Criterion)를 제시했다. DIC는 MCMC를 통해 추출된 표본을 통해 쉽게 얻을 수 있어 Bayes factor에 비해 여러 모형에서 쓸 수 있다 는 장점이 있다.
이 논문의 구성은 다음과 같다. 우선 2절에서 Bayesian 관점에서의 가설 검정과 모형 선택에 이용되 는 기준들에 대해 정리하고자 한다. 3절에서는 로지스틱 모형에 대한 Bayesian 추론 방법을 서술하고 Bayesian 추론에서 필수적인 MCMC를 통해 사후분포에서 표본을 추출하는 방법에 대해 간략히 논의 한다. 4절에서는 Swiss banknote 자료를 가지고 Bayesian 로지스틱 회귀분석을 통해 관련 모수에 대한 요약 통계량 및 모형 적합도 관련 기준들을 도출하여 이를 비교한다. 마지막으로 5절에서는 분석 결과 를 통해 얻어진 사실을 정리하고 그에 대한 결론 및 차후 연구 방향에 대해 논의하는 것으로 마무리한다.
2. 관련 기준들
2.1. Bayes Factor
고전적 가설 검정에서는 귀무가설 H0 : θ ∈ Θ0과 대립가설 H1 : θ ∈ Θ1을 설정한 후, 제1종 오류와 제2종 오류의 확률에 근거한 검정 절차를 수행한다.
Bayesian가설 검정에서는 H0와 H1 중 하나를 선택하는 것이 간단하다. 각 가설에 대한 사후확률 α0, α1을 계산하고 그에 따라 두 가설 중 하나를 선택하게 된다. Bayesian 가설 검정의 개념상 장점은 각 가 설의 사후확률이 자료와 사전 정보를 근거로 계산된 가설의 확률이라는 것이다.
π0 = P (θ∈ Θ0)과 π1 = P (θ ∈ Θ1)을 가설에 대한 사전확률이라고 하자. 이 때 가설 H0를 지지하는 Bayes factor는 가설 H1에 대한 가설 H0의 사후 오즈(posterior odds)를 가설 H1에 대한 가설 H0의 사 전 오즈로 나눈 값으로 정의된다. 이는 가설 H0의 사후 오즈 대 사전 오즈를 가설 H1의 사후 오즈 대 사전 오즈로 나눈 값으로 다음과 같이 주어진다.
BF = α0/α1
π0/π1
.
예를 들어 가설 검정 Θ0={θ0}, Θ1={θ1}의 문제에서 가설 H0: θ = θ0과 H1 : θ = θ1의 사후확률은 각각
α0= π0p(y|θ0)
π0p(y|θ0) + π1p(y|θ1), α1= π1p(y|θ1) π0p(y|θ0) + π1p(y|θ1) 이므로 가설 H1에 대한 가설 H0의 사후 오즈는
α01= π0p(y|θ0) π1p(y|θ1)
표 2.1. Bayes factor에 대한 Jeffreys의 기준
1≤ BF ≤ 3 약한 증거
3 < BF≤ 12 긍정적 증거
12 < BF≤ 150 강한 증거
BF > 150 아주 강한 증거
이고, 따라서 가설 H0을 지지하는 Bayes factor는
BF01=α0π1
α1π0
=p(y|θ0) p(y|θ1) 이다. 이는 H1에 대한 H0의 가능도 비로 볼 수 있다.
Jeffreys는 Bayes factor에 대해 표 2.1과 같은 기준을 제시하였다.
일반적인 경우 Bayes factor는 두 가설에 대한 부분(marginal) 가능도 함수의 비로 주어지며 이는 기존 의 가능도비 추론에 대한 Bayesian 대안으로 볼 수 있다.
Bayes factor는 기존의 가능도비 검정에 비해 다음과 같은 장점을 가지고 있다 (김달호, 2004).
• 가능도비 검정은 모수공간에서 최대화가 필요하나 Bayes factor는 최대화 대신 적분을 수행한다.
• Bayes factor는 가설(혹은 모형)이 서로 포함될 필요가 없다.
• Bayes factor는 사후 대 사전 오즈비의 해석을 가진다.
• Bayes factor는 단순 귀무가설과 단순대립가설의 경우 가능도비 검정으로 축소된다.
그러나 모형이 복잡하고 변수가 많아지는 경우, Bayes factor를 구하는 것 역시 어렵다.
일반적인 선형 회귀모형이 아닌 일반화 선형 모형 등에서는 직접적인 부분 가능도 함수를 구하기 어려워 근사적으로 구해야 하는 경우가 많고, 무정보적 사전 분포를 이용하여 추론하게 되는 경우 부적절 사전 분포에서는 정의되지 않는 단점이 있으며, 또한 사전분포의 선택에 민감한 문제도 있다.
2.2. DIC(Deviance Information Criterion)
모형 선택의 기준은 주어진 자료에 대한 설명력과 설명 변수에 대한 경제성 관점에서 바라볼 수 있는데 일반적으로 이 두 관점은 서로 상충되기 때문에, 모형에 대한 일종의 penalty 역할을 하게 된다. 그러한 관점에 입각하여, Spiegelhalter 등 (2002)는 DIC(deviance information criterion)를 제시하였다.
DIC는 계층적 모형에 대한 AIC와 BIC 기준을 일반화한 형태라고 할 수 있다. 특히, 이는 MCMC 방법 을 통해 얻어지는 사후분포에서 계산할 수 있으므로 Bayesian 모형 선택 기준으로 자주 쓰인다. DIC는 모형이 자료에 얼마나 적합한지에 대한 Deviance D(θ) = −2 log(p(y|θ))의 평균값 ¯D = Eθ[D(θ)]과 필 요 변수의 갯수를 의미하는 pD= ¯D− D(¯θ)를 결합한 것이다.
DIC = pD+ ¯D
기존 AIC, BIC처럼 작은 값을 가질수록 더 적절한 모형을 의미하는데 모형 설명에 유효한 변수를 의미 하는 pD가 커지면 ¯D값이 작아지므로 pD는 적은 모수를 가진 모형을 선호하게 되는 영향을 준다.
DIC의 장점은 Bayesian 모형 선택 문제에서 MCMC 방법으로 쉽게 구할 수 있다는 점이다. 이는 AIC나 BIC가 모수 θ의 최대 가능도를 계산해야 하는 데 MCMC를 이용한 추론에서는 그러한 최대
가능도를 계산하기 어려우므로 추출된 표본 θ값에 대한 D(θ)의 평균을 계산하기만 하면 되기 때문이다.
MCMC를 통해 Bayesian 추론을 하는 프로그램 WinBUGS에서는 1.4버전 이후 자체적으로 DIC를 계 산할 수 있는 메뉴를 제공한다. 그러나 DIC 값은 모형의 사후분포가 대칭형일 때를 가정한 것으로 비대 칭형 사후 분포에서는 잘못된 결론을 내릴 수 있다는 단점이 있다.
2.3. Bayesian P -value
앞에서 살펴본 Bayes factor는 모형 선택의 증거로서 일반적인 측도로 볼 수 있으나, 실제 여러 복잡한 모형이 있는 상황에서는 계산하기 어렵다. 이는 한 모형에 대한 다른 후보 모형들이 확연히 드러난 경우 가 많지 않으며 대부분 복잡한 경우가 많기 때문이다. 이럴 때, 여러 모형들을 놓고 비교하기보다 주어 진 모형 또는 특정 변수가 얼마만큼 자료를 적절히 설명하는지 확인하고 싶을 때가 있다.
이러한 문제에서 기존 가설 검정이 P -value를 구해 결론을 내렸던 것처럼 Bayesian 추론에서도 그와 같 은 문제를 다루기 위해 Bayesian 관점의 P -value를 생각할 수 있다.
M0을 진짜 모형이라 할 때 현재 설정된 모형이 M0에 비해 얼마나 차이가 있는지가 관심 대상이라고 하 자. 이 모형에서 X가 분포 f(x|η), η ∈ E를 따를 때 Bayesian 관점에서 초모수 η로 결정되는 사전분포 π에서 사전 예측분포 mπ(x) =∫
Ef (x|η)π(η)dη는 X에 대한 실제 예측 분포라고 볼 수 있다. 따라서 모형의 적합성에 대한 통계량 T (X)가 주어지면, 그에 따른 사전 예측 P -value(또는 사전 분포의 꼬리 쪽 확률)은 다음과 같다.
p = Pmπ(T (X) > T (Xobs)|M0),
여기서 Xobs는 X의 관측된 값이며, 현재 모형이 자료를 잘 설명한다면 위의 P -값은 0.5 주변의 값이고 0이나 1에 가까운 값을 갖게 되면 현재 모형이 적합하지 않다고 볼 수 있다.
이는 Bayesian 관점에서 모형의 적합성을 판단하는 유용한 수량적 측도로 볼 수 있다. 그러나 이는 사 전 분포 π의 선택에 민감하여 사전 분포 선정에 문제가 있을 경우 올바른 모형이라도 적합성을 의심받 게 되는 문제가 있다. 또한 사전 예측 P -value의 그러한 문제로 인해 무정보적 사전 분포들을 이용하게 될 경우, 무정보적 사전 분포 중, 부적절 사전분포(전체 공간에서 적분한 값이 유한하지 않아 분포함수 로 보기에 적절치 않은 분포)를 사용할 때 분포의 꼬리쪽 확률을 계산하기 어렵게 된다.
이러한 문제에 대한 보완책으로 Rubin (1984), Meng (1994)과 Gelman 등 (1996)은 사전분포 mπ의 π를 π(η|xobs)로 대체한 형태를 제시하였다.
m∗(x|xobs) =
∫
E
f (x|η)π(η|xobs)dη
p∗= Pm∗(·|xobs)(T (X)≥ T (xobs)).
이를 사후예측 P -value(Posterior Predictive Check; PPC)라고 한다. 이는 앞에서 논의한 사전 예측 P -value가 사전분포에 민감한 문제를 주어진 관측값에서 얻어진 사후예측분포를 이용함으로서 해결하 였다. 이에 대한 반론으로 Bayarri와 Berger (1998)는 PPC에서는 부적절한 사전분포 π(η)를 적절한 π(η|xobs)로 바꾸고 T (Xobs)에 대한 T (X)의 확률을 구하게 되면서 자료를 두 번 사용하게 되는 문제가 있음을 지적하고, 이에 대한 개선안으로서 사전예측분포에 바탕을 두었으나 사전분포보다는 모형 자체 에 더 영향을 받도록 한 조건부 예측 P -value(conditional predictive P -value)와 부분 사후분포로부터 얻어진 예측분포의 확률 값을 사용한 부분 사후예측(partial posterior predictive) P -value를 제시하였 다.
3. Bayesian로지스틱 회귀모형
3.1. 로지스틱 회귀모형의 Bayesian 추론
Bayesian추론 원리는 기존의 frequentist 추론이 모수를 하나의 고정된 값으로 추정하는 데 비해, 모수 θ에 사전분포 π(θ)를 도입하고, 자료에서 얻어진 가능도 함수 L(θ|data)에 적용하여 사후분포를 도출하 는 데 있다.
로지스틱 회귀모형에 대한 Bayesian 추론은 다음과 같이 이루어진다.
이항 반응변수 Y 가 f(y|θ) = θyi(1− θ)1−yi일 때 θ는 θ = H(Xβ) = exp(Xβ)/{1 + exp(Xβ)}으로 0에서 1사이의 값을 갖는다. 따라서 가능도함수는 다음과 같다.
L(β|y) =
∏n i=1
H(Xβ)yi(1− H(Xβ))1−yi.
여기에, 구하고자 하는 모수 β들에 대한 사전정보를 부여하는데, 특별한 사전정보가 없으면 분산이 아 주 큰 정규분포와 같은 무정보적 사전 분포를 줄 수 있다.
구하고자 하는 모수 β의 사전분포가 정규분포를 따른다고 하면 사후분포는
p(β|y) ∝ exp [
−1
2(β− µ)′Σ−1(β− µ) ]
L(β|y) 와 같이 나타낼 수 있으며 보통 적분을 할 수 없으므로 MCMC를 이용하게 된다.
3.2. MCMC방법에 의한 사후분포 도출
Bayesian 추론에서 사후분포를 구할 때 적분을 통해 관심없는 모수를 제거하고 구하게 되는데 일반적 으로 함수 형태가 복잡하며 상당수는 적분 자체가 불가능한 경우가 존재하게 된다. 이러한 경우 그 분 포 자체를 구하기보다 그 분포를 극한분포로 갖게 되는 표본을 추출하여 추론을 하게 된다. 그러한 방법 을 MCMC(Markov Chain Monte Carlo)라고 하며 대표적으로 Gibbs Sampler와 Metropolis-Hastings algorithm이 존재한다. 로지스틱 회귀모형에 대한 Bayesian 추론에서는 MH(Metropolis-Hastings) al- gorithm을 사용한다.
로지스틱 회귀모형을 위한 MH algorithm은 다음과 같이 이루어진다.
1. 일단 모수들에 대해, 초기값 β(0)를 정한다 (이 때, 빠른 수렴을 위해 기존의 방법으로 구한 값 (예를 들면 최대가능도 추정량)을 사용하기도 한다).
2. 후보생성함수 q(·)로부터 난수를 추출한다. 이 때 함수 q는 여러 가지가 있는데 보통 β(t)|β(t−1) ∼ N (β(t−1), σ2)의 normal random walk 형태가 많이 사용된다.
3. β(t)를 다음의 확률 α로 채택한다.
α = min (
1, ℓ(β(t)|y, X)π(β(t))
ℓ(β(t−1)|y, X)π(β(t−1)) ×q(β(t), β(t−1)) q(β(t−1), β(t)) )
.
4. 위 과정을 일정한 횟수만큼 반복한다.
그림 4.1. An old 1000 franc Swiss banknote
4. 자료를 이용한 분석
4.1. Swiss Banknote data
분석에 사용된 자료는 Flurry와 Riedwyl (1988)에 있는 Swiss Banknote의 위폐(counterfeit)여부를 가 리기 위해서 200장의 Banknote에 대한 다음 네 가지 변수를 측정한 것이다 (원래는 6개 변수였으나 적 합도 통계량 계산의 편의상 4개의 변수로 한정하였다).
X1: 지폐의 길이, X2: 지폐의 왼쪽 높이, X3: 지폐의 오른쪽 높이,
X4: 안쪽 프레임에서 아래쪽 경계선까지 거리,
Y : 위폐 여부(0: 진짜(genuine), 1: 위폐(counterfeit)).
4.2. 분석 및 모수 추정
자료 분석의 목적은 Swiss banknote의 위조 여부를 판별하는 다음의 로지스틱 회귀모형을 구축하는 데 있다.
log θ
1− θ = β1x1+ β2x2+ β3x3+ β4x4, 여기서 θ는 특정 banknote가 위조일 확률이다.
Bayesian분석을 위해 위 모형을 계층적 Bayesian 형태로 표현하면 다음과 같다.
f (y|θ, β) = θyi(1− θ)1−yi
θ = exp[β1x1+ β2x2+ β3x3 + β4x4] 1 + exp[β1x1+ β2x2+ β3x3 + β4x4] f (β) = 1
(2π)42|Σ|12 exp {
−1
2(β− µ)′Σ−1(β− µ) }
.
표 4.1. 추정된 회귀계수에 대한 요약 통계량
회귀계수 추정값(표준오차) 2.5% 97.5%
β1 −2.417(0.557) −3.565 −1.406
β2 1.728(1.125) −0.455 3.975
β3 2.124(1.004) 0.246 4.195
β4 2.012(0.337) 1.372 2.731
여기서 특별한 사전 정보가 주어지지 않았으므로 각 변수에 대한 회귀계수 β = (β1, β2, β3, β4)는 서로 독립이고 평균 µ = 0, 분산-공분산 행렬은 Σ = σ2I4= 106I4인 퍼진 형태의 정규분포로 설정한다.
분석에 사용된 R 코드는 Marin과 Robert (2007)에 있는 코드를 자료에 맞게 변형하였으며 MH algo- rithm을 이용하여 10000번의 반복에서 초기값의 영향을 제거하기 위해 처음 1000의 반복에서 얻어진 표본을 제거한 후(burn-in), 남은 표본들에 대한 사후분포 요약 통계량을 통해 다음과 같이 모수를 추정 하였다.
우선 비교를 위해 R의 glm()을 이용해서 로지스틱 회귀모형을 적합하였다.
Coefficients:
Estimate Std. Error z value Pr(>|z|) Xx1 -2.4427 0.5793 -4.217 2.48e-05 ***
Xx2 1.8762 1.1120 1.687 0.0916 . Xx3 2.0148 1.0056 2.004 0.0451 * Xx4 2.0495 0.3420 5.993 2.06e-09 ***
---
Signif. codes: 0 ‘ ***’ 0.001 ‘ **’ 0.01 ‘ *’ 0.05 ‘ .’ 0.1 ‘ ’ 1 따라서 기존 방법으로 구한 로지스틱 회귀모형은 다음과 같다.
log θ
1− θ =−2.443x1+ 1.876x2+ 2.015x3+ 2.05x4
현재 X1, X3, X4 세 변수가 유의수준 0.05에서 유의한 것으로 나타났으며 Bayesian 추론에서도 유사 한 결과가 나오는지 확인하고자 한다.
그림 4.2는 MH algorithm을 이용하여 얻은 표본들에 대한 시계열 도표, 히스토그램 및 자기공분산 도 표이다.
이들 표본에 대한 평균을 통해 모수를 추정한 결과는 다음 표 4.1과 같다.
앞에서 구했던 glm()에서의 결과 값과 약간 차이가 있으나 표본추출에 의한 차이를 감안하면 거의 비슷 한 결과라고 할 수 있다.
이번에는 전체 변수를 이용한 모형을 분자에 놓고 다른 후보 모형을 분모에 놓은 Bayes factor 값을 구 하여 이를 통해 각 변수가 유의한지 비교하였다.
전체 모형 대 후보 모형으로 얻어진 값을 상용로그를 취한 값으로 비교한 결과, X1변수와 X4두 변수가 유의한 것으로 나타났다.
모의자료를 이용하여 Bayes Factor를 구하는 것은 기존의 자료의 공변량을 사용하고 베이지안 로지스 틱 모형에 따라서 반응값(위조 여부를 나타내는 값)을 베르누이 분포로 생성하였다. 즉 참 반응값을 베이지안 로지스틱 모형으로 생성한 후 이 자료에 근거하여 각 후보 모형들의 Bayes Factor를 구해
0 2000 4000 6000 8000 10000
−4.5−3.0−1.5
−4.5 −3.5 −2.5 −1.5
0.00.4
0 200 400 600 800 1000
0.00.40.8
0 2000 4000 6000 8000 10000
−2246
−2 0 2 4 6
0.00.2
0 200 400 600 800 1000
0.00.40.8
0 2000 4000 6000 8000 10000
−1135
−1 0 1 2 3 4 5
0.00.20.4
0 200 400 600 800 1000
0.00.40.8
0 2000 4000 6000 8000 10000
1.02.03.0
1.0 1.5 2.0 2.5 3.0
0.00.61.2
0 200 400 600 800 1000
0.00.40.8
그림 4.2. MH algorithm으로 추출한 모수의 사후분포 도표(위에서부터 β1, β2, β3, β4)
표 4.2. 각 후보 모형 별 Bayes factor 값
각 후보 모형을 이루는 변수 log10(BF)
X2, X3, X4 3.7930851
X1, X3, X4 −0.9185953
X1, X2, X4 −0.5634645
X1, X2, X3 13.9572205
표 4.3. 모의실험 모형별 Bayes factor 값
각 후보 모형을 이루는 변수 log10(BF)
(X1, X2, X3, X4) (X2, X3, X4)
X2, X3, X4 1.9909± 0.24 −1.719 ± 0.009
X1, X3, X4 −1.2957 ± 0.0128 0.1476± 0.119
X1, X2, X4 0.3037± 0.141 0.04466± 0.098
X1, X2, X3 16.2419± 0.813 23.4591± 0.873
보았다. 반응값은 두 가지의 경우만 구하여 계산해 보았다. 첫 째는 (X1, X2, X3, X4)가 모두 포함된 모형에서 생성한 값으로 하였으며 두 번째는 (X2, X3, X4) 만을 가지고 참 반응값을 생성하여 구하였 다. 모의실험은 두 가지 베이지안 로지스틱 회귀모형에서 반복으로 반응값을 생성하여 각 반응값마다 Bayes Factor들을 구하여 평균값과 표준편차를 산출한 결과이다. 결과를 보면 (X1, X2, X3, X4)를 포 함한 모형에서는 원 스위스뱅크 자료와 유사한 결과를 보여주고 있다. 즉, (X1, X4)를 모두 포함하는 모
표 4.4. 각 후보 모형 별 DIC 값
각 후보 모형을 이루는 변수 DIC
X1, X2, X3, X4 93.448
X2, X3, X4 121.764
X1, X3, X4 96.146
X1, X2, X4 98.472
X1, X2, X3 172.933
형이 전체 4개의 공변량을 포함하는 모형과 Bayes Facor 측면에서 별반 차이를 보이지 않는다. 그러나 (X2, X3, X4) 만을 포함하는 모형에서 생성된 반응값을 이용한 모의실험에서는 X1이 추가되고 X2나 X3 중 하나가 빠져도 모형이 별 차이가 없지만 X4가 빠지면 모형이 차이가 바로 드러나게 됨을 알 수 있다.
다음으로 WinBUGS을 통해 얻은 DIC 값을 다음 표 4.4에 정리하였다.
각 후보 모형은 전체 모형에서 변수 X1, X2, X3, X4가 제외된 모형인데 전체 모형에서보다 DIC 값이 작아지면 더 적절한 모형으로 판단하여 그 변수가 유의하지 않은 것을 의미하고 커지면 후보 모형이 전 체 모형에 비해 설명력이 떨어지므로 제외된 변수가 유의한 것을 의미한다.
위 DIC 값을 비교한 결과, X4가 제외되었을 때 DIC 값이 제일 급격하게 상승하고 다음으로 X1을 제 외했을 때가 그 다음이었으며 X3, X2를 제외했을 때 DIC 증가 폭이 상대적으로 적은 것으로 보아 X1, X4가 가장 유의한 것을 알 수 있다.
그러나 X1, X4만으로 로지스틱 회귀모형을 구했을 때 Bayes factor의 값은 2.015이고 DIC는 118.125이 므로 전체 변수를 넣은 모형에 비해서 더 나은 모형으로 보기는 어렵다.
4.3. Bayesian P -value의 계산
Bayesian P -value계산은 Gelman 등 (1996)의 사후예측 P -value(PPC)를 이용하였다. P -value를 두 가지 경우를 구하였는데 우선 각 모형에 대한 적합도 검정의 P -value를 구하고 그 다음으로 각 모수에 대한 P -value를 구하였다.
먼저 적합도 검정의 Bayesian P -value는 다음과 같은 절차로 구하였다.
1. 모형을 설정한다: β → y.
2. 설정된 모형의 사후분포에서 모수를 추출한다: β ∼ p(β|y).
3. 예측분포에서 새로운 반응변수를 생성한다: yrep∼ p(yrep|β, y).
4. 기존 반응변수와 새롭게 생성된 반응변수에서 적절한 통계변수(모수를 포함하는 통계량) 값을 구하 여 비교한다.
5. 새로운 반응변수에서 계산된 통계변수의 값들 중에서 기존 반응변수를 통해 구한 값들보다 큰 것의 비율을 구한다.
6. 모수 추출을 새로 하여 위 과정을 다시 반복한다.
위 과정을 반복하여 나오는 값들의 평균을 Bayesian P -value(Bp)로 한다.
Bp= 1 M
∑M t=1
I [
T (
yrep, β(t) )≥ T(
y, β(t) )]
,
표 4.5. 각 후보 모형 별 Bayesian P -value
각 후보 모형을 이루는 변수 Bayesian P -value (Bp)
X1, X2, X3, X4 0.4262731
X2, X3, X4 0.4517027
X1, X3, X4 0.4750108
X1, X2, X4 0.4738635
X1, X2, X3 0.3957045
표 4.6. 회귀계수들의 Bayesian P -value
회귀계수 Bayesian P -value
β1 0.0068
β2 0.2744
β3 0.3477
β4 0.0000
여기서 검정통계량이 아니라 통계변수를 사용하는 것은 모수에 의존하기 때문이다. 즉 기존의 통계량 은 데이터에만 의존하지만 통계변수 T (y, β)는 데이터뿐 아니라 모수에도 의존한다. 따라서 위와 같이 모수를에 대한 기대값을 구하여 Bayesian P -value를 구하게 된다. 위 결과를 보면 원래 자료에서의 값 (T (y, β(t)))과 각 후보 모형에서 생성된 모의 반복자료에서 구한 값 (T (yrep, β(t)))에서 두드러진 차이 를 볼 수 없다. 즉, 각 모형을 기각할 수 없게 된다. 모든 P -value 가 0.5 근처의 값이라고 볼 수 있다.
각 모형간의 상호 비교는 4개의 변수를 사용한 모형을 기반으로 나머지 세 변수를 사용한 모형과의 변 수 값들을 비교하여 각 회귀계수에 대한 P -value를 구하였다. 설명의 편의상 4개 변수를 사용한 모 형을 Full Model이라 하고 3개의 변수를 사용한 모형을 Reduced Model이라고 부른다. 현재의 Full Model에서 4개의 Reduced Model을 가정할 수 있으며, 이 모형을 차례로 M1, M2, M3, M4 모형이 라고 약칭하고자 한다. 즉, Mi 모형은 4개의 X 변수 중에서 i번째를 제외하고 3개만을 사용하여 적 합한 모형이다. 먼저 Full Model과 M1 모형을 이용하여 다음 가설을 검정하고 이에 대한 Bayesian P -value를 구하는 과정은 아래와 같다.
H0: β1= 0 vs. H1: β1̸= 0 1. Full Model모수의 사후분포에서 모수를 추출한다: βF ∼ p(βF|y).
2. M1 모형을 따르는 새로운 반응변수를 생성한다: yrep∼ p(yrep|H0, y).
3. 생성된 반응변수와 기존 반응변수에서 각각 통계변수 값을 추정하여 이를 비교한다.
4. 새로운 반응변수에서 계산된 통계변수 추정값이 기존 반응변수에서 구한 값보다 큰 것들의 비율을 구한다.
5. 모수추출을 새로 하여 위 과정을 다시 반복한다.
나머지 모형 M2, M3, M4에서도 동일한 방법으로 구한다. 통계변수를 로그 가능도 함수로 정하면 위의 Bayesian P -value는 Reduced Model에서 생성된 자료의 로그 가능도가 원자료의 로그 가능도를 능가 하는 비율로 생각할 수 있다. 이렇게 하여 구한 값을 다음 표 4.6에 정리하였다.
이 결과는 전통적인 방법으로 구한 P -value와는 약간 다름을 알 수 있다. 그러나 전체적으로 변수 X4와 X1은 기존 결과와 마찬가지로 유의하게 나왔다. 그러나 X2 또는 X3가 제거된 모형에서 생성 된 자료는 기존의 반응 자료와 로그 가능도 값에서 유의한 차이가 없었다. 다르게 말하면 M3 모형 즉,
(X1, X2, X4)을 이용하여 생성된 반응값들의 로그 가능도 중에서 기존 반응값의 로그 가능도 보다 큰 자 료의 비율이 34.7%가 되는데 이는 X3이 다른 변수에 비해 모형 설명에 기여하지 못한다는 것을 의미한 다.
5. 결론 및 추가 논의
5.1. 분석 결과로부터 얻은 사실
분석 결과, Bayesian 모형 선택 기준으로서 Bayes factor와 DIC, Bayesian P -value는 기존 방법에서 의 유의성 검정 결과와 어느 정도는 일관된 결론을 보여주고 있다. 그러나 Bayes factor에 비해 DIC 값 의 변화에 대한 기준은 절대적이지 않으므로 DIC 자체만으로는 각 변수에 대한 유의성 여부를 판단하 기 어려운 점이 있다.
또한 Bayes factor와 DIC는 여러 모형을 가정했을 때 그들 중 상대적으로 어떤 모형이 더 적절한가에 대해서는 답을 제시하지만 설정된 모형이 자료를 얼마나 잘 설명하는지에 대해서는 답을 제시하지 못한 다. 현재 분석은 간단한 형태의 모형을 가지고 얻은 것으로, 복잡한 모형을 가정하게 되는 경우와 부적 절 사전정보를 사용해야 할 경우 Bayes factor를 구하기 어려울 것이다. 그러한 경우 Bayes factor에 대 한 완벽한 대안은 아직까지 존재하지 않는다.
Bayesian P -value를 계산한 결과, 모형의 적합도 검정 측면에서 해석이 용이하지만 모형간의 비교를 위 한 Bayesian P -value는 각 추출된 모수에 따라서 변동성도 적지 않음을 알 수 있었다. 만약 간단하게 P -value를 구한다면 생각해 볼 수 있는대안은 추정된 회귀계수들의 사후 신뢰구간 (표 4.1)을 활용하는 것도 하나의 대안으로 생각할 수 있다. 아직까지 Bayesian P -value는 고전적 추론에서의 P -value에 비 해 아직 완전히 정립되지 않은 개념이며 모형에 따라 적절한 통계량을 정하기 어려운 문제가 있으나, 차 후 연구를 통해 모형 선택과 적합도 검정을 위한 하나의 기준으로 활용할 수 있을 것이다.
참고문헌
김달호 (2004). <R과 WinBUGS를 이용한 베이지안 통계학>, 자유아카데미.
Bayarri, M. J. and Berger, J. (1998). P -values for Composite Null Models, ISDS Discussion Paper, 98-40, Duke University.
Box, G. E. P. (1980). Sampling and Bayes inference in scientific modeling and robustness, Journal of Royal Statistical Society, Series A, 143, 383–430.
Flurry, B. and Riedwyl, H. (1988). Multivariate Statistics: A Practical Approach, Chapman and Hall.
Gelman, A., Meng, X. L. and Stern, H. S. (1996). Posterior predictive assessment of model finess via realized discrepancies (with discussion), Statistica Sinica, 6, 733–807.
Jeffreys, H. (1961). Theory of Probability, 3rd Ed. Oxford University Press, New York.
Kass, R. E. and Raftery, A. E. (1995). Bayes factors, Journal of American Statistical Association, 90, 773–795.
Marin, J. M. and Robert, C. P. (2007). Bayesian Core: A practical Approach to Computational Bayesian Statistics, Springer.
Meng, X.-L. (1994). Posterior predictive p-values, Annals of Statistics, 22, 1142–1160.
Rubin, D. B. (1984). Bayesianly justifiable and relevant frequency calculations for the applied statistician, Annals of Statistics, 12, 1151–1172.
Spiegelhalter, D. J., Best, N. G., Carlin, B. P. and van der Linde, A. (2002). Bayesian measures of model complexity and fit (with discussion), Journal of the Royal Statistical Society: Series B, 64, 583–639.
Inferential Problems in Bayesian Logistic Regression Models
Jinsoo Hwang1 · Sungchan Kang2
1Department of Statistics, Inha University;2Department of Statistics, Inha University (Received October 2010; accepted November 2011)
Abstract
Model selection and hypothesis testing problems in Bayesian inference are still debated between scholars.
Bayes factors traditionally used as a criterion in Bayesian hypothesis testing and model selection, are easy to understand but sometimes hard to compute. In addition, there are other model selection criterions such as DIC(Deviance Information Criterion) by Spiegelhalter et al. (2002) and Bayesian P -values for testing. In this paper, we briefly introduce the Bayesian hypothesis testing and model selection procedure. In addition we have applied a Bayesian inference to Swiss banknote data by a fitting logistic regression model and computing several test statistics to see if they provide consistent results.
Keywords: Bayesian Model Selection, Bayes factor, DIC, Bayesian P -value.
This research was supported by an INHA University research grant.
1Corresponding author: Professor, Department of Statistics, Inha University, 253 Yonghyun-Dong, Nam-Gu, Incheon 403-751, Korea. E-mail: [email protected]