인과성 모형 - 축산물 유통단계 간 가격발견과정 및 인과관계 분석

1. 축산물 유통단계 간 가격발견과정 및 인과관계 분석

1.1.3. 인과성 모형

인과관계 분석에 있어 가장 일반적으로 사용되는 방법론은 그랜저 인과 분석이다. 그랜저(1969)는 “x는 y의 그랜저 원인이 된다(x Granger causes y)”라는 그랜저 인과관계는 식(4-2)와 같이 정의된다.



_{  }∈



_ _≠



_{  }∈



_ (4-2)

즉, 최소한 정보 집합 _ 가 주어져 있을 경우 있을 때 시계열 _를 예 측함에 있어 정보집합에 시계열 를 포함하는 것이 더 나은 예측력을 보 일 때 x는 y의 그랜저 원인이 된다고 할 수 있다. 이처럼 그랜저 인과관계 분석은 변수들 간의 원인(cause)과 결과(effect)를 의미하기보다는 한 변수 가 다른 변수에 대해 “시간적 차이를 두고 발생하는 인과성(temporal causality)”을 나타낸다. 반면, 그래프이론을 활용한 인과관계 분석은 기간 내의 “동시적 인과성(contemporaneous causality)”을 보여 준다. 특히, 앞에 서도 언급한 바와 같이 VAR 혹은 VECM모형의 충격반응함수와 예측오차

분산분해에서 그래프이론을 통한 동시적 인과관계를 적용할 경우 오차항 의 임의적 변수배열 문제를 해결할 수 있어 분석의 객관성을 제고하는 장 점이 있어 최근 다양한 시계열 분석에 도입되기 시작하여 연구가 활발히 진행되고 있다.⁸

본 연구에서 동시적 인과순위 결정에 이용하고 있는 DAG 그래프이론은 기본적으로 변수들 간의 상관계수(correlation) 및 편상관계수(partial correlation)를 이용하여 인과흐름(causal flow)을 그림을 통해 간결하게 보 여주는 방법이라고 할 수 있다.⁹ DAG에서는 모서리(edge) 혹은 방향지시 화살표(arrow)를 이용해 인과흐름을 표시하고 있는데 다음의 3가지 유형으 로 분류될 수 있다. 먼저 방향지시 화살표를 가진 “direct edge”로서 X → Y로 표현된다. 이는 “변수 X는 변수 Y를 인과한다(cause).”라는 것을 의미 한다. 둘째, “undirect edge”로서 X ― Y로 표현되는데 이는 변수 X와 Y 간에 상관관계는 있으나 X가 Y를 인과하는지 반대로 Y가 X를 인과하는 지에 대해서는 판단할 수 없으며, 단순히 X와 Y가 정보흐름(information flow)에 의해 연결되어 있는 경우를 의미한다. 끝으로, “no edge”로서 X Y 로 표현되는데 변수 X와 Y 간에 상관관계가 없는 경우를 의미한다.

한편, DAG에서는 세 변수 이상의 인과관계에도 적용될 수 있다. 즉, 세 변수(X, Y, Z)의 인과관계 설정에 있어 만약 두 변수(예를 들어 X와 Y)가 상관관계를 갖는다면 X가 Y를 인과하는지 Y가 X를 인과하는지 혹은 Z에 의해 인과관계를 갖는지 확인할 수 없다. 세 변수(X, Y, Z)의 인과관계 설 정에는 다음과 같은 3개의 핵심 구조를 이용한다. 먼저 인과사슬(causal chain)로서 “X → Y → Z”로 나타낼 수 있다. 즉, 변수 X와 Z는 비조건부 서로 상관관계를 가지고 있으나 변수 B 조건하에서는 상호 독립적인 경우

8 Pesaran & Shin(1997) 역시 이를 해결하기 위해 “일반화된 충격반응함수”와 같 은 모형의 식별과는 상관없는 방법을 제시했다.

9 Pearl(2000)과 Hoover(2005) 등은 최근에 그랜저 인과관계 개념을 보완하거나 확장하는 인과관계 개념을 논의하고 있고, Pearl(2000)과 Spirtes et al.(2000)은 구체적으로 방향지시 비순환성 그래프(directed acyclic graphs: DAG) 분석법을 제시하고 있다.

를 지칭한다. 두 번째로, “X ← Y → Z”로 나타낼 수 있는 인과분기 (causal fork)이다. 이는 인과사슬에서와 같이 변수 X와 Z는 비조건부 서로 상관관계를 가지고 있으나 변수 Y 조건하에서는 상호 독립적인 경우를 의 미한다. 마지막으로 인과분기(causal inverted fork)로 명명되는 개념으로서, 앞의 두 개념과는 반대로 변수 X와 Z는 비조건부 상관관계를 가지고 있지 않으나 변수 Y 조건하에서는 상관관계를 가지는 경우를 나타낸다(X → Y

← Z). 이러한 3개의 구조를 관통하는 DAG의 핵심적인 개념은 차단 (screen-off)현상이라고 알려진 d-분리(d-seperation)이다.¹⁰ 이를 통해 세 변 수(X, Y, Z)의 인과관계는 식(4-3)에서와 같이 인과관계(causal relationships) 가 조건부 독립조건(conditional independence conditions)을 통해 일반화될 수 있다.¹¹

Pr____ 



_{  }^ ^Pr^^^ (4-3)

여기서 _는 _의 모 변수(parent variable)의 실현된 값을 의미한다.

Pearl(2000)과 Spirtes, Glymour, and Scheines(2000)은 DAG를 찾기 위한 몇 가지 탐색 알고리즘 방법을 소개하고 있는데, 그중 PC 알고리즘과 GES(greedy equivalence search) 알고리즘이 가장 일반적으로 활용되고 있 다.¹² PC 알고리즘은 인과 충분성(causal sufficiency) 조건, 마르코프 (Markov) 조건 및 진정성(faithfulness) 조건과 같은 세 가지 조건이 충족된 다는 가정하에 d-분리의 개념을 활용하여 변수 간의 상관계수와 편상관계 수(partial correlation)를 이용하여 변수들 간의 인과관계를 나타내는 DAG

10 Pearl(2000)은 “두 변수 X와 Z 간의 모든 경로를 Y가 차단하면 Y는 X와 Z를 d-분리(d-seperation)한다”라고 정의.

11 DAG에 대한 보다 자세한 내용은 Pearl(2000), Bessler & Yang(2003); 박호정.

윤원철(2003, 2006)을 참조.

12 PC알고리즘에 대한 보다 자세한 논의는 Pearl(2000); Spirtes, Glymour, and Scheines(2000); 박호정. 윤원철(2003, 2006)을 참조.

를 찾게 된다.¹³ 그러나 현실적으로 고려할 수 있는 변수가 충분치 않은 경 우가 많아, “분석에 포함된 두 개 이상의 변수를 인과하는 변수는 반드시 분석에 포함되어야 한다.”는 충분성 조건은 PC 알고리즘을 적용하는 데 제약이 될 수 있다. 더불어 PC 알고리즘은 표준적인 Neyman-Pearson 가설 검정에 기초하고 있기 때문에 유의수준(significance level)의 선택에 따라 DAG의 결과도 달라진다는 약점이 있다.

GES 알고리즘은 전방동급탐색(forward equivalence search)과 후방동급 탐색(backward equivalence search)을 반복적으로 수행하는 2단계 순차적 탐색(two-step stepwise search) 알고리즘으로, Schwarz에 의한 베이지안 평 가기준(Bayesian scoring criterion)을 활용하여 가능한 DAG들을 평가하는 방법으로 PC 알고리즘과 같이 엄격한 가정을 필요로 하지 않을 뿐만 아니 라 베이지안 평가함수(scoring function)에 의해 DAG를 탐색하게 되므로 적절한 유의수준의 선택이라는 문제에서 벗어날 수 있다는 장점을 가지고 있다.¹⁴ Schwarz에 의한 베이지안 평가함수의 근사치는 다음과 같이 표시 된다.







^



  ln











^_{ }







(4-4)

위의 식에서 P는 D로 표시되는 자료를 생성하는 확률분포를 의미하고, Ф는 알려지지 않은 모수의 최우(maximum-likelihood) 추정치를 의미하며, d는 그래프



^의 자유모수(free parameters) 수를, 그리고 T는 관측치 수를 의미한다. 평가함수 S는 ln











^항으로 표시되는 적합도와

〔

log



〕로 표시되는 자유모수의 최소성 간의 균형관계(trade-off)를

13 Bessler and Lee, 2002.

14 GES 알고리즘에 대한 보다 자세한 설명은 Chickering(2002); 박해선, 오완근 (2006)을 참조.

보여 주고 있다.

베이지안 평가함수를 기반으로 수행되는 GES 알고리즘의 각 실행과정 을 좀 더 자세히 살펴보면 다음과 같다. 먼저 1단계 전방동급탐색(forward equivalence search)은 모든 변수가 독립적이라는 가정(즉, 변수 간에 모서 리가 없다는 가정)에서 출발하여 모서리의 추가 및 방향지시 화살표의 방 향 변경에 따른 베이지안 사후적 점수(Bayesian posterior score)의 변화를 추적하여 베이지안 사후적 점수 혹은 BIC(Bayesian Information Criteria)를 더 이상 개선시킬 수 없을 때 종료된다. 2단계 후방동급탐색(backward equivalence search)은 1단계에서 선택된 DAG들을 대상으로 모서리를 제 거하고 방향지시 화살표의 방향을 1단계의 반대방향으로 변화시키는 작업 을 순차적으로 적용하여 1단계와 마찬가지로 베이지안 사후적 점수 혹은 BIC(Bayesian Information Criteria)를 더 이상 개선시킬 수 없을 때 종료되 며 이때 선택된 DAG가 최종적으로 탐색된 최적의 DAG로 결정된다. 본 연구에서는 GES 알고리즘을 이용하여 변수 간 동시적 인과관계를 찾고자 한다.

문서에서 쇠고기·돼지고기 수급구조 분석 및 정책 시뮬레이션 모형 개발 (페이지 76-80)