XAI 알고리즘은 기존 머신러닝 방법의 분석결과와 과정을 직관적으로 이 해하기 쉽게 설명하기 위한 방법으로 연구되고 발전하고 있다(Gunning et al., 2019). 다앙한 기법 중에서 최근 많이 사용되고 있는 LIME 알고리즘은 설명변수의 입력값의 변화에 따라 예측 대상변수의 결과값이 변하게 되면 해 당 변수의 중요도가 높다고 평가하는 방법이다. 이는 해석하고자 하는 예측 값 주변(Local)에서 모형이 어떻게 작동하는지를 설명하는 방법으로 특정 머 신러닝 모델에 국한되지 않고 사용 가능한(Model-agnostic) 특징을 갖고 있 다. LIME 분석 방법은 결정경계(Decision Boundary)의 근사치의 입력값을 통해 예측 모델이 어떻게 변화하는지를 추정한다. 즉 전체(Grobal) 모형의 추정이 아닌 지역(Local) 모형을 통해 블랙박스(Black Box)와 같은 머신러 닝 모델을 근사적(approximation)으로 추정하는 것이다. 즉 전체 데이터셋 이 아닌 특정 관측치에 대한 예측 설명에 사용할 수 있는 해석 가능한 대리 모형(Local Surrogate Model)을 통해 관측치 하나의 예측에 대한 해석을 제공하게 된다. Ribeiro et al.(2016)는 이를 통해 설명하고자 하는 데이터 와 인접한 위치에 있는 국소공간에서 의미 있는 모형에 대한 설명은 가능하 게 되지만 전체 데이터 공간에 대한 해석력이 감소하게 되는 trade-off 관 계가 발생하게 된다고 하였다.
<그림 Ⅴ-5> LIME 알고리즘의 로컬 분석의 원리
출처: Ribeiro et al.(2016)
LIME 알고리즘은 관측치에 대한 좋은 설명 모델()를 찾고자 하는 것으 로 좋은 설명 모델은 해석할 수 있는 단순한 모델이면서 해석하고자 하는 모델의 예측과 유사하게 예측할 수 있는 모형을 의미한다. 수식 (5.1)에서 보는 바와 같이 실제 모형을 통해 수행한 예측 가 단순하여 설명 가능 한 모형으로 한 예측 ′ 의 차이(
) 와 설명의 복잡한 정도()가 가장 작 은 (argmin) 모형 를 찾는다면 모형 를 주변에서 의 설명으로 추정 하는 것이다. arg min
... (5.1)∈
LIME 분석은 모델에 국한되지 않고 사용 가능한(Model-agnostic) 모형 으로 초기 모형에서 다양한 머신러닝 모형을 사용하여 LIME 분석을 실시할 수 있지만 본 연구에서는 랜덤 포레스트 모형을 초기 모형으로 사용하여 분 석을 진행하였다.
가. 제1기 (2020년 2월 ~ 2020년 10월)
코로나19 제1기 통제정책 수준을 분류하는데 중요한 영향을 미치는 요인 을 도출하기 위해 LIME 알고리즘을 통해 분석한 결과 <그림 Ⅴ-6>에서 보 는 바와 같이 신규 사망자 수, 신규 확진자 수, 치명률이 가장 큰 영향을 미 치는 요인으로 나타났다. LIME 알고리즘을 활용한 분석의 특징은 해당 요인 의 중요도뿐 아니라 설명변수의 특정 지역(local)에서 예측의 방향도 확인할 수 있다는 점에 있다. 모형에서 사용한 설명변수의 지역적 범위는 그래프의 Y축의 내용을 통해 확인할 수 있다. Y축의 변수들이 설명변수의 특정 값의 범위를 나타내며 이러한 설명변수의 지역적 특성을 고려하여 예측한 변수의 설명력의 크기를 막대 그래프로 보여주고 있다. 다만, LIME 분석의 경우 1 개의 대상변수의 대한 지역적 설명력을 제공하기 때문에 대상변수의 지정이 달라지면 설명력의 방향과 크기가 달라질 수 있다는 한계가 있다.
<그림 Ⅴ-6> 정책변동 요인에 대한 LIME 분석 (제1기)
나. 제2기 (2020년 11월 ~ 2021년 6월)
코로나19 제2기 통제정책 수준을 분류하는데 중요한 영향을 미치는 요인 을 도출하기 위해 LIME 알고리즘을 통해 분석한 결과는 <그림 Ⅴ-7>에서 보는 바와 같이 백신 접종률, 인구 이동량, 치명률이 가장 큰 영향을 미치는 요인으로 나타났다. Y축의 변수들은 설명변수의 특정 값의 범위를 나타내며 이러한 설명변수의 지역적(local) 특성을 고려하여 예측한 변수의 설명력의 크기를 막대 그래프로 보여주고 있다. 설명변수의 지역적 특징을 고려하여 설명력의 방향을 살펴보면 분석에 활용한 설명변수들이 모두 통제정책 수준 을 감소시키는 (-) 방향의 설명력을 갖고 있는 것으로 나타났다. 제1기의 분 석의 경우와 마찬가지로 LIME 모형은 1개의 대상변수의 대한 지역적 설명 력을 제공하기 때문에 대상변수의 지정이 달라지면 설명력의 방향과 크기가 달라질 수 있다는 한계가 존재한다.
<그림 Ⅴ-7> 정책변동 요인에 대한 LIME 분석 (제2기)