Usefulness of RDF/OWL Format in Pediatric and Oncologic Nuclear Medicine Imaging Reports

(1)

학 술 논 문

128

소아 및 종양 핵의학 영상판독에서 RDF/OWL 데이터의 유용성

황경훈·이해준·고건·최덕주

¹

·선용한

²

가천대 길병원 핵의학과, ¹가천대 길병원 소화기내과, ²가천대 길병원 소아과

Usefulness of RDF/OWL Format in Pediatric and Oncologic Nuclear Medicine Imaging Reports

Kyung Hoon Hwang, Haejun Lee, Geon Koh, Duckjoo Choi

¹

and Yong Han Sun

²

Departments of Nuclear Medicine,

¹

Gastrohepatology and

2

Pediatrics, Gachon University Gil Hospital, Incheon, Republic of Korea (Manuscript received 7 August 2015; revised 17 August 2015; accepted 18 August 2015)

Abstract: Recently, the structured data format in RDF/OWL has played an increasingly vital role in the semantic web. We converted pediatric and oncologic nuclear medicine imaging reports in free text into RDF/OWL format and evaluated the usefulness of nuclear medicine imaging reports in RDF/OWL by comparing SPARQL query results with the manually retrieved results by physicians from the reports in free text. SPARQL query showed 95% recall for simple queries and 91% recall for dedicated queries. In total, SPARQL query retrieved 93% (51 lesions of 55) recall and 100% precision for 20 clinical query items. All query results missed by SPARQL query were of some inference.

Nuclear medicine imaging reports in the format of RDF/OWL were very useful for retrieving simple and dedicated query results using SPARQL query. Further study using more number of cases and knowledge for inference is warranted.

Key words: Nuclear medicine, Imaging report, RDF/OWL, SPARQL query

I. 서 론

근래 색인어를 기반으로하여 의미에 의한 검색 등의 정보 처리가 안되는 기존 웹의 제한을 극복하기 위하여 차세대 웹으로 시맨틱 웹이 등장하였는데, 시맨틱 웹은 “컴퓨터가 정 보의 의미를 처리할 수 있는 웹”으로 정의할 수 있다[1]. 시 맨틱 웹에서의 주요 기술들로는 XML(eXtensible Markup Language), RDF(Resource Description Framework), 그리고 OWL(Web Ontology Language)를 들 수있다. 현 재 여러 분야의 지식체계가 이러한 시멘틱 웹의 표준으로 제시되는 RDF/OWL 파일형식으로 온톨로지(ontology) 구 조를 가지도록 구조화되고 있다. 온톨로지란 개념들 간의 관

계를 정형적으로 기술한 지식체계로서[2], 이를 통해 개념과 의미의 컴퓨터 처리가 용이하게 되어 시멘틱 웹의 발전이 가능하게 되었다. 의료영상에 있어서도 XML 또는 RDF/

OWL 파일형식 및 표준용어를 이용하여 온톨로지 지식체계 를 가지도록 의료영상의 판독 자료를 저장하여, 개념 및 의 미로 의료영상을 검색하는 방법들이 활발하게 연구되고 있 다[3,4]. 근래 PACS(picture archiving and communi- cation system) 의 보급 및 의료영상 촬영의 급증으로 인한 의료영상 데이터의 폭발적인 증가로 병원 등 의료기관에서 대용량의 영상정보를 효율적으로 검색할 필요성이 커지게 되었다. 따라서, 다양한 임상 및 영상판독 상황에서 이러한 많은 양의 의료영상 데이터로부터 연관영상을 이용하여 유 용한 정보를 추출하거나 임상 의사 결정에 이용할 필요가 점점 증가하고 있다. 현재의 의료영상의 판독문은 대부분 자 유서술문 형태로 기록되고 있고, 일부 XML 형식으로 저장 되고 있으나, 구조적이지 아니어서 막대한 양의 영상 판독 자료를 효율적으로 검색하기 어려운 실정이다. W3C에 의 Corresponding Author : Yong Han Sun

Department of Pediatrics, Gachon University Gil Hospital Incheon, Republic of Korea

TEL: +82-32-460-3224 / FAX: +82-32-460-3313

E-mail: [email protected]

(2)

129

II. 연구 방법

1. 영상판독 자료

2009년 11월부터 2015년 5월까지 시행된 17례의 Tc- 99m DMSA 신장스캔의 판독지와 2014년 1월부터 2014 년 5월까지 시행된 51례의 F-18 FDG PET/CT의 판독지 의 내용을 대상으로 하였다. Tc-99m DMSA 신장스캔 및 F-18 FDG PET/CT 의 판독지는 자유 서술문 형식으로 서 술되어 있었으며, 정보보호를 위하여 연구용 ID를 이용하여 판독지의 자유 서술문을 이용하였다.

2. RDF/OWL 파일 변환

핵의학 영상 판독문의 RDF/OWL 형식으로의 기록을 위 하여 xcode(version 5.0.2)와 스탠포드 대학교에서 개발된

instance 의 세부 항목은 미리 정한 형식으로 기술하였고(그 림 1), 과거 및 이후 영상의 Finding과 NextTo 및 Pre- viousTo 의 연결자를 이용하여 연결하였다. 표준 용어(지식)체 계는 주로 RadLex 및 FMA로부터 class 형식으로 RDF/

OWL 파일에 포함시켰다.

3. SPARQL을 이용한 쿼리 및 쿼리 결과의 평가

SPARQL(SPARQL Protocol and RDF Query Lan- guage)[13] 은 RDF/OWL 데이터 질의 언어이고 2008년도 에 W3C에 의해 권고안으로 채택되었다[14]. 본 연구에서 연관 영상을 검색하기 위한 20개의 임상적인 쿼리문을 SPARQL 로 작성하여, Protégé에 내장되어있는 SPARQL Plugin 을 이용하여 검색을 한 후에(그림 2), 자유 서술문으 로 작성된 동일한 쿼리조건을 가지고 3인의 임상의가 자유 서술문으로 되어있는 17례의 Tc-99m DMSA 신장스캔의

그림 1. Protégé Ontology Tool에서의 Finding Instance의 형식 및 링크. (왼쪽 컬럼은 데이터의 계층 구조를, 오른쪽 아래 컬럼은 클래 스와 연결된 클래스 또는 인스턴스를 보여준다).

Fig. 1. Finding instance Form and Link on Protégé Ontology Tool.

(3)

130 판독지와 51례의 F-18 FDG PET/CT의 판독지에서 추출 해낸 결과와 비교하였다. 임상의가 판독지로부터 개별적으 로 추출한 결과를 모아서 합의에 의하여 표준 추출 결과를 정하였고, 이에 대하여 SPARQL에 의하여 검색된 결과를 비교하여 recall 및 precision의 값을 도출하였다.

영상에 대한 쿼리는 다음과 같은 세 단계로 분류할 수 있 는데[15],

1. 레벨1 - 일차적인 특성(primitive feature)들에 의한 쿼리,

2. 레벨2 - 일차적인 특성(primitive feature)들로부터 유

도된 속성(attribute) 또는 논리적 특성(logical feature)에 의한 쿼리,

3. 레벨3 - 추상 속성(abstract attribute)에 의한 쿼리 의료영상을 판독할 때에 흔히 마주치게 되고 필요하게 되 는 의미있는 쿼리는 대부분 레벨2 및 레벨3 의 쿼리로, 이 를 참조하여 내용상 단순 필터 검색이 2 개, 이중 필터 검 색이 3개, 연관 필터 검색이 2개, 동일 병변의 시간적인 변 화 검색이 5개, 시간적 변화와 필터를 결합한 검색이 6개, 그리고 시간적 변화와 복합 필터를 결합한 형태인 영상 판 독 기준(폐결절의 Fleischner 기준) 및 간단한 논리적 추론 이 필요한 검색이 각각 한 개 씩으로 구성하여, 총 20 개의 쿼리에 대하여 결과를 도출하였다(그림 4). 대부분의 임상조 건의 쿼리가 자유 서술문의 용어 검색만으로는 불가능하기 때문에 text retrieval 결과와의 통계적인 비교는 시행하지 않았다.

III. 연구 결과

모두 20개의 임상적으로 요구되는 쿼리문에 대하여 총 68 례의 핵의학 판독문의 RDF/OWL 형식으로 기록된 데이터 베이스 및 자유서술문으로 기록된 데이터베이스에 대하여, 3 인의 임상의가 추출한 결과와 Protégé에 내장되어있는 SPARQL Plugin 을 이용하여 검색을 한 결과를 비교하였다.

그림 2. SPARQL 쿼리 예. (중간의 입력 부분에 쿼리 조건을 입력하면 조건에 맞는 데이터 항목 값이 추출되어 보여진다).

Fig. 2. An Example of SPARQL Query.

그림 3. SPARQL 쿼리 예의 PET-CT 사진. (SPARQL 쿼리에서 검색한대로 화살표로 표시된 좌측 사진의 병변의 FDG 집적도가 다 음 번 사진에서 감소되어 보인다).

Fig. 3. PET-CT photo for an Example of SPARQL Query.

(4)

131 1. 필터 검색 결과

임상의가 판독지로부터 추출한 표준 결과에서 단순 필터 검색 대상 병변 및 이중 필터 검색 대상 병변, 그리고 연관 필터 검색 대상 병변이 각각 10개, 5개, 7개였는데, SPARQL 을 이용한 RDF/OWL 검색을 통하여 이 중에서 9개, 5개, 7 개를 찾아내어 각각 90%, 100%, 100%의 recall 및 100%

의 precision을 보였다(그림 5). SPARQL 검색에서 못찾은

병변은 우상엽(right upper lobe)의 결절로 판독문에 우측 폐(right lung)으로 기재되어있으나 임상의사는 판독문으로 부터 우상엽(right upper lobe)를 유추하였다.

2. 복합 검색 결과

개별 병변의 시간적인 변화 내용 자체를 시간적으로 연결 된 판독소견 인스턴스(instance)를 포함하는 RDF/OWL 파

그림 4. 검색 쿼리 항목.

Fig. 4. Retrieval Query Items.

(5)

132 일의 특성을 이용하여 SPAQRL의 쿼리문을 이용하여 검색 할 수 있었는데, 임상의가 판독지로부터 추출한 표준 결과에 서 병변의 시간적인 변화에 대한 검색 대상 병변이 16개, 병 변의 시간적 변화 및 필터를 결합한 검색 대상이 12개였는 데, SPARQL 검색에서 28개 병변 모두를 찾아내어 100%

의 recall 및 precision을 보였다(그림 6).

3. 임상 기준 검색 및 논리적 추론 검색 결과

대개의 영상 판독 기준은 병변의 시간적인 변화 양상과 복합 필터를 복잡하게 결합한 형태로 표현할 수 있는데, 단 순 text 검색에서 수행하기 어렵다. 본 연구에서 폐결절에 대한 영상 판독 기준인 Fleischner’s 기준 중 4~6 mm 크기 의 폐결절에 대한 판독 기준을 SPARQL로 검색하였는데, 임 상의사가 판독문으로부터 추출한 병변을 찾아내었다. 또한 약간의 논리적인 추론이 필요한 담도 폐쇄를 일으킬 가능성 이 있는 영상을 찾아내는 검색에서 임상의가 4개의 병변을 추출해낸 반면, SPARQL을 이용한 검색에서 오직 한 병변 만 찾아내어 25%의 recall을 보였다(그림 6).

결과를 종합하면, 20 개의 다양한 쿼리문에 대하여 임상의

가 판독문으로부터 추출한 총 55개의 병변 중에서 SPARQL 을 이용한 검색은 51 개의 병변을 검색해내어 93%의 recall 및 100%의 precision을 보였는데, 검색해내지 못한 병변 4 개는 모두 논리적인 추론이 필요한 병변이었다. 필터를 이 용하는 단순 검색에서는 95%의 recall(21/22)과 100%의 precision 을, 병변의 시간적인 변화 및 임상 기준 등 복잡 한 검색에서는 91%(30/33)의 recall과 100%의 precision 을 보였다(그림 7).

IV. 고 찰

본 연구에서는 근래에 정보량이 증가하고 있는 핵의학 영 상인 DMSA 스캔 및 PET/CT 영상의 판독문을 RDF/OWL 파일로 변환한 후, SPARQL을 이용한 검색 결과를 자유서 술문으로 되어있는 판독문으로부터 동일한 쿼리문을 이용하 여 임상의사가 추출한 결과와 비교하였다. 텍스트 검색으로 처리할 수 있는 필터 검색 수준의 쿼리문에 대해서는 임상 의에 의한 추출 결과와 거의 일치하는 결과를 보였고, 단순 텍스트 검색으로 처리하기 어려운 개별 병변의 시간적 변화 양상에 대한 내용 검색 및 시간적 변화와 필터를 결합한 검 색에 대해서도 임상의에 의한 추출 결과와 완벽한 일치를 보였다. 개별 병변의 시간적인 변화 양상에 대한 검색은 3 명의 임상의사가 자유서술문으로 되어있는 판독지로부터 추 출할 때에도 가장 시간이 많이 걸렸고 추출결과에서도 추출 오류가 가장 많아서 3명의 합의에 의하여 추출결과를 조정 한 쿼리문이었다.

SPARQL에 의한 영상판독 자료의 시맨틱 검색에서 가장 의미가 있는 검색 중의 하나가 영상 판독 기준 검색으로 본 연구에서는 폐결절에 대한 영상 판독 기준인 Fleischner 기 준 중 4~6 mm 크기의 폐결절에 대한 판독 기준을 검색하 여 임상의사가 추출한 결과와 일치하였다. 영상 판독 기준 은 대부분 병변의 시간적인 변화 양상과 복합 필터를 복잡

그림 6. SPARQL 복합 검색 Recall(%).

Fig. 6. Recall(%) in SPARQL Complex Query.

그림 5. SPARQL 필터 검색 Recall(%).

Fig. 5. Recall(%) in SPARQL Filter Query.

그림 7. 전체 SPARQL 검색 Recall(%).

Fig. 7. Overall Recall(%) in SPARQL Query.

(6)

133 해내기 위해서는 RDF/OWL 데이터베이스에 논리적인 추

론의 근거가 될 수 있는 지식체계를 포함시켜야 한다. 근래 외국의 연구들[16,17]에서는 공간적인 정보를 온톨로지 지 식체계에 반영하여 방사선 영상 정보로부터 환자 분류 또는 병기 설정까지 할 수 있는 방법을 보고하였다. 본 연구에서 는 외국에서의 연구들과는 달리, 임상에서 이용이 근래에 증 가하고 있고, 상대적으로 종합적인 영상 정보를 제공하는 F- 18 FDG PET/CT 및 Tc-99m DMSA 영상의 판독 내용을 이용하여 복잡한 쿼리 기능도 수행할 수 있는 지를 알아보 았다. 정보표준 온톨로지 언어체계(지식체계)로서 북미 방사 선학회(RSNA)에서 개발한 RadLex 및 FMA, 그리고 SNOMED-CT 의 일부를 포함시켰는데, 여기에는 일부 간단 한 논리적인 추론을 할 수 있는 지식체계가 있기는 하지만 대부분 간단한 해부학적인 지식에 대한 논리체계만이 들어 가 있어서 임상적으로 실제로 필요한 추론(담낭 또는 담관 의 어느 위치의 병변이 담즙의 흐름을 막을 수 있는 지와 같은)을 제공하기에는 부족하다고 할 수 있다. 본 연구에서 는 68 예의 비교적 적은 용량의 영상 판독 데이터베이스에 대해서만 SPARQL 쿼리를 테스트하여 실제 수천 수만 예 의 영상 판독 데이터를 다루는 임상 상황과 다르다는 점, 그 리고 판독문의 세밀성 및 논리적인 추론을 할 수 있는 지식 체계의 부족 등으로 영상 판독 기준 검색 및 논리 추론 검 색 등 복잡하지만 실제 임상에서 가장 유용성이 큰 검색 기 능을 많이 평가하지 못하였다는 등의 제한점 들이 있다. 따 라서 향후 연구에서는 더 많은 용량의 영상 판독 데이터베 이스에 대해서 다양한 영상 판독 기준 검색 및 논리적인 추 론 검색에 대한 평가가 필요할 것이며, 단순히 임상의사에 의해 추출된 결과와 비교하는 것 외에 각종 판독 기준 및 임상 기준에 대한 쿼리를 수행하여 검색된 결과를 실제 환 자에서의 임상 결과와 비교하여 유용성을 평가하는 다른 방 식의 평가도 진행할 필요가 있다. 이를 위해서는 영상판독 RDF/OWL 데이터베이스에 논리적인 추론의 근거가 될 수 있는 복잡한 지식체계를 포함시켜야 할 것이다. 또한, 대량 의 핵의학 영상 판독문의 RDF/OWL 형식으로의 기록을 위 하여 자동화되고 의미를 보존하면서 효율적인 RDF/OWL 파일 변환 시스템도 개발되어야 할 것이다.

향후 기존의 자유서술문 형태로 기술하고 있는 영상 판독 데이터를 편리하고 의미를 보존하면서 RDF/OWL 형식으 로 기록할 수 있는 방법들이 개발될 것으로 보인다.

Reference

[1] Berners-Lee T, Hendler J and Lassila O, “The semantic web,” Scientific American, vol. 284, no. 5, pp. 34-43, 2001.

[2] Uschold M and Gruninger M, “Ontologies: Principles, Meth- ods and Applications,” Knowledge Engineering Review, vol.

11, no. 2, pp. 1-69, 1996.

[3] Kahn CE, Channin DS and Rubin DL, “An ontology for pacs integration,” J Digital Imaging, vol. 19, no. 4, pp. 316-327, 2006.

[4] Rubin DL, “Creating and curating a terminology for radiology: Ontology modeling and analysis,” J Digital Imaging, vol. 12, no. 4, pp. 920-927, 2007.

[5] Protege ontology editor and knowledge acquisition system, http://protege.stanford.edu

[6] Langlotz CP, “RadLex: a new method for indexing online educational materials,” Radiographics, vol. 26, no. 6, pp.

1595-1597, 2006.

[7] Rubin DL, “Creating and curating a terminology for radiology: ontology modeling and analysis,” J Digit Imaging, vol.

21, no. 4, pp. 355-362, 2008.

[8] Hong Y, Zhang J, Heilbrun ME and Kahn CE Jr. “Analysis of RadLex coverage and term co-occurrence in radiology reporting templates,” J Digit Imaging, vol. 25, no. 1, pp. 56- 62, 2012.

[9] Woods RW and Eng J, “Evaluating the Completeness of RadLex in the Chest Radiology Domain,” Acad Radiol, vol.

20, no. 11, pp. 1329-1333, 2013.

[10] Rosse C and Mejino JL Jr, “A reference ontology for bio- medical informatics: the Foundational Model of Anatomy,” J Biomed Inform, vol. 36, no. 6, pp. 478-500, 2003.

[11] Sherter AL, “Building a vocabulary. A new, improved version of SNOMED has the potential to ease the collection and analysis of clinical data,” Health Data Manag, vol. 6, no. 8, pp. 76-77, 1998.

[12] Nachimuthu SK and Lau LM, “Practical issues in using SNOMED CT as a reference terminology,” Stud Health Technol Inform, vol. 129, Pt.1, pp. 640-644, 2007.

[13] SPARQL Query Language for RDF, http://www.w3.org/TR/

rdf-sparql-query, 2006.

[14] Prud’hommeaux E, Seaborne A, SPARQL query language for RDF. W3C Recommendation, Available at http://www.

(7)

134

w3.org/TR/rdf-sparql-query/, 2008.

[15] Eakins JP, “Towards intelligent image retrieval,” Pattern Recognition, vol. 35, pp. 3-14, 2002.

[16] Hudelot C, Atif J, Bloch I, “Fuzzy spatial relation ontology for image interpretation,” Fuzzy Sets Syst, vol. 159, pp. 1929-

1951, 2008.

[17] Zillner S, Sonntag D, “Image metadata reasoning for improved clinical decision support,” NetMAHIB vol. 1, no.

1-2, pp. 37-46, 2012.