• 검색 결과가 없습니다.

본 연구에서는 여러 가지 위험 인자를 보정한 질병 네트워크를 구축함으로써 진단 기록이 있는 모든 질병의 패턴을 한 눈에 보여주고 더 나아가 질병 네트워크를 심층 분석하여 네트워크의 구조적 특징 및 질병의 영향력에 대한 정보를 제공했다.

실제 질병 네트워크를 살펴보면 신뢰성 있는 질병간의 연결성들을 제시하고 있다. 예를 들어 발병 원인이 정확히 알려지지 않은 "심한 스트레스에 대한 반응 및 적응장애(KCD-6 코드: F43)" 같은 경우 다른 질병에서 이 질병으로 발전되는 연결성은 적었지만(3개) 이 질병으로부터 다른 질병으로 발전하는 연결성은 상대적으로 많았다(15개). 뿐만 아니라, 사망률이 높은

"심장정지(KCD-6 코드: I46)"는 다른 질병에서 이 질병으로 발전되는 연결성은 다수 존재했지만(23개) 이 질병으로부터 다른 질병으로 발전하는 연결성은 매우 적었다(3개). 다른 정신질환의 원인이 되거나 같이 발병하는 것으로 알려져 있는 "우울병 에피소드(KCD-6 코드: F32)"(Rohde et al., 1991)는 총 22개 연결성 중 21개의 연결성은 같은 대분류에 속해 있는 다른

정신 및 행동 장애와 연결되어 있었고 나머지 1개의 연결성은

"학대증후군(KCD-6 코드: T74)"으로 발전하는 경우였다.

뿐만 아니라 국민건강보험공단 표본연구 데이터베이스로 구축된 기존 진단 네트워크와 다르게 위험 인자를 보정함으로써 연결성의 대한 신뢰성을 높였다.

예를 들어, 성별에 따라 발병 차이가 많이 나는 “비뇨생식계통의 질환(KCD-6 코드: N00-N99)” 그룹 같은 경우 기존 진단 네트워크에서는 70개의 질병과

709개의 연결성들이 존재했지만 위험 인자가 보정된 본 연구의

네트워크에서는 60개의 질병과 351개의 연결성만이 존재하였다. 그리고 노인성 질환으로 알려진 “파킨슨 병(KCD-6 코드: G20)”같은 경우 기존 진단 네트워크에서는 72개의 유의한 연결성들이 존재했지만 위험 인자 보정 후에는

56

-많은 질병 발병에 원인 또는 결과가 되는 것을 확인할 수 있었다. 통합 중심성이 가장 높게 나왔던 "파종성 혈관내응고[탈피브린증후군](KCD-6 코드: D65)"은 실제 폐암, 전립선암, 급성 골수성 백혈병, 간질환, 세균이나 진균, 기생충 감염, 또는 피부 손상 등과 같이 광범위한 질병에 의해 발병할 뿐만 아니라 패혈증, 신부전, 폐색전증, 뇌출혈 등 많은 질병을 발병하는 것으로 알려져 있다(Levi et al., 1999).

질병 네트워크의 대표커뮤니티를 확인하면 보험 청구 데이터 기반 질병의 패턴 특징을 더 자세히 확인할 수 있다. 예를 들어 호흡기질환 관련 커뮤니티에서 "특정 감염성 및 기생충성 질환(KCD-6 코드: A00-B99)" 그룹 질병이 유의하게 나왔지만 폐혈관의 기타 질환, 결핵과 같은 대부분 호흡기와 관련된 질병 같은 대분류 그룹에 속하지 않은 질병들 실제 관련된 질병들끼리 모여있었다. 정신질환 관련 커뮤니티와 뇌질환 관련 커뮤니티는 둘 다

“신경계통의 질환(KCD-6 코드: G00-G99)” 그룹을 유의하게 많이 포함했지만 정신질환 커뮤니티에 속한 신경계통의 질환은 알츠하이머병, 파키슨병 등 대부분 정신질환과 관련있는 노인성 질환인 반면 뇌 관련 장애 커뮤니티는 뇌성마비, 뇌전증 등 비교적 어린 환자들에서 많이 발병하는 뇌질환들을 포함하는 것을 확인할 수 있었다. 이로써 질병 네트워크의 커뮤니티가 단순 한국표준질병·사인분류 대분류 기준, 또는 성별, 나이 기준으로 커뮤니티 생성된 것이 아니라 청구 데이터 기반 질병의 패턴을 기반으로 군집화가 되는 것을 확인할 수 있었다.

하지만 본 연구에서 제시하는 질병 네트워크가 모든 질병간의 관계를 대변한다고 주장하기에는 여러 가지 제한점이 존재한다. 우선 보험 청구 데이터에 기록된 진단을 완벽히 질병이라고 정의할 수 없다. 예를 들어 패혈증과 같이 초기 진단이 어려운 질병은 다른 질병과 혼동이 될 가능성이 높고 발병 시간을 정확히 파악하기 힘들다. 그리고 선택편의를 보정하기 위해 2002년 기준으로 1년의 발병 기록을 제외하였지만 1년이라는 기간은 질병에 따라 긴 기간일수도 있고 짧은 기간일 수 있기 때문에 선택편의를 완벽히

보정했다고 결론지을 수 없다.

KCD-6 진단 코드의 한계점 또한 존재한다. KCD-6는 분류체계를 기반으로 하고 있어 용어를 단순히 분야에 따라 분류를 한 코드이며 개념들 사이의 명시적 관계를 표현하지 못한다. 그 결과, 유사한 질병들간의 연결성들이 네트워크 내에 다수 포함되어 있었다. 같은 대분류에 속한 질병간의 연결성은 제외함으로써 이런 한계점을 부분적으로 해소할 수 있지만 만약 “폐렴(KCD-6 코드: J17)”과 “폐암(KCD-6 코드: C34)”과 같이 실제 밀접한 관련이 있는 질병들이지만 KCD-6 코드상 서로 다른 대분류 그룹에 속해 있는 경우까지 제한하기 힘들다. 이런 문제점을 해결하기위해 다중 계층적 구조를 가지고

있고 명시적 개념 표현이 가능한 표준의학용어 체계인

SNOMED-CT(Systematized Nomenclature of Medicine-Clinical Terms)를 활용해 새롭게 네트워크를 구축할 필요성이 있다. SNOMED-CT 용어체계를 기반으로 의미가 유사한 질병들간의 연결성은 제외하고 나머지 연결성들만 제시함으로써 기존에 알려지지 않은 질병간의 연결성을 새롭게 제시할 수 있다. 뿐만 아니라 본 연구에서 질병의 위험인자인 성별, 나이, 방문 시기를 보정했지만 흡연, 음주, 치료나 약물 복용으로 인한 후행 질병이 발병할 가능성이 충분함에도 고려하지 못했다.

본 연구에서 제시한 질병간의 연결성이 모든 질병간의 관계를 완벽히 정의한다고 결론 지을 수는 없지만 기존에 많이 연구되었던 연결성을 보험청구 데이터를 활용하여 한 번 더 확증하고 더 나아가 기존에 알려지지 않은 새로운 질병 간의 연결성을 제시하는 역할을 할 수 있다. 특히 유전자 및 단백질 데이터베이스 기반으로 질병간의 연결성을 정의하였을 때 생길 수 있는 한계점을 보완하고 환자의 질병 진행 과정의 시각화를 제시하였다. 더 나아가 향후에 네트워크에서 얻은 질병간의 연결성 실마리 정보를 토대로 특정 질병이 진행하는 패턴을 심층 분석할 수 있는 시발점이 될 수 있고 임상의들이 진단

58 -V. 결 론

본 연구에서는 기존 생물학 데이터로만 많이 연구되던 질병의 패턴을 임상 데이터인 국민건강보험공단 표본연구 데이터베이스를 기반으로 질병간의 연결성을 추출하고 뿐만 아니라 성별, 나이, 방문 시기와 같은 위험인자 보정 과정과 통계 검정 과정을 거쳐 국내 맞춤으로 질병간의 연결성에 대한 신뢰있는 정보를 제공하였다. 더 나아가 본 연구에서 구축한 질병 네트워크는 실제 진단을 하는 임상의들에게 본 질병 네트워크가 진단의 가이드라인 역할로 활용될 여지를 주었다.

참고문헌

1. Aldecoa, R., & Marin, I. (2013). Exploring the limits of community detection strategies in complex networks. Sci Rep, 3, 2216.

doi:10.1038/srep02216

2. Barabasi, A. L., Gulbahce, N., & Loscalzo, J. (2011). Network medicine:

a network-based approach to human disease. Nat Rev Genet, 12(1), 56-68. doi:10.1038/nrg2918

3. Bauer-Mehren, A., Bundschus, M., Rautschka, M., Mayer, M. A., Sanz, F., & Furlong, L. I. (2011). Gene-disease network analysis reveals functional modules in mendelian, complex and environmental diseases.

PLoS One, 6(6), e20284. doi:10.1371/journal.pone.0020284

4. Bhardwaj, N., Wodajo, B., Spano, A., Neal, S., & Coustasse, A. (2018).

The Impact of Big Data on Chronic Disease Management. Health Care

Manag (Frederick), 37(1), 90-98.

doi:10.1097/HCM.0000000000000194

5. Chiang, R. H. L., & Storey, V. C. (2012). Business Intelligence and Analytics: From Big Data to Big Impact. MIS Quarterly, 36(4), 1165-1188.

6. Cohen, P., Cohen, J., Kasen, S., Velez, C. N., Hartmark, C., Johnson, J., . . . Streuning, E. L. (1993). An epidemiological study of disorders in late childhood and adolescence--I. Age- and gender-specific prevalence. J Child Psychol Psychiatry, 34(6), 851-867.

7. Farrer, L. A., Cupples, L. A., Haines, J. L., Hyman, B., Kukull, W. A., Mayeux, R., . . . van Duijn, C. M. (1997). Effects of age, sex, and

60

-Alzheimer disease. A meta-analysis. APOE and -Alzheimer Disease Meta Analysis Consortium. JAMA, 278(16), 1349-1356.

8. Freeman, L. C. (1977). A set of measures of centrality based on betweenness. Sociometry, 40(1), 35-41.

http://dx.doi.org/10.2307/3033543

9. Goh, K. I., Cusick, M. E., Valle, D., Childs, B., Vidal, M., & Barabasi, A.

L. (2007). The human disease network. Proc Natl Acad Sci U S A, 104(21), 8685-8690. doi:10.1073/pnas.0701361104

10. Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2), 137-144.

11. Hidalgo, C. A., Blumm, N., Barabasi, A. L., & Christakis, N. A. (2009).

A dynamic network approach for the study of human phenotypes. PLoS Comput Biol, 5(4), e1000353. doi:10.1371/journal.pcbi.1000353

12. Jensen, A. B., Moseley, P. L., Oprea, T. I., Ellesoe, S. G., Eriksson, R., Schmock, H., . . . Brunak, S. (2014). Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients. Nat Commun, 5, 4022. doi:10.1038/ncomms5022

13. Jeong, E., Ko, K., Oh, S., & Han, H. W. (2017). Network-based analysis of diagnosis progression patterns using claims data. Sci Rep, 7(1), 15561. doi:10.1038/s41598-017-15647-4

14. Jeong, H., Mason, S. P., Barabasi, A. L., & Oltvai, Z. N. (2001).

Lethality and centrality in protein networks. Nature, 411(6833), 41-42. doi:10.1038/35075138

15. Kanehisa, M., Goto, S., Furumichi, M., Tanabe, M., & Hirakawa, M.

(2010). KEGG for representation and analysis of molecular networks involving diseases and drugs. Nucleic Acids Res, 38(Database issue), D355-360. doi:10.1093/nar/gkp896

16. Lancichinetti, A., & Fortunato, S. (2009). Community detection algorithms: a comparative analysis. Phys Rev E Stat Nonlin Soft Matter Phys, 80(5 Pt 2), 056117. doi:10.1103/PhysRevE.80.056117

17. Levi, M., & Ten Cate, H. (1999). Disseminated intravascular coagulation. N Engl J Med, 341(8), 586-592.

doi:10.1056/NEJM199908193410807

18. Lim, J., Hao, T., Shaw, C., Patel, A. J., Szabo, G., Rual, J. F., . . . Zoghbi, H. Y. (2006). A protein-protein interaction network for human inherited ataxias and disorders of Purkinje cell degeneration. Cell, 125(4), 801-814. doi:10.1016/j.cell.2006.03.032

19. Meisinger, C., Thorand, B., Schneider, A., Stieber, J., Doring, A., &

Lowel, H. (2002). Sex differences in risk factors for incident type 2 diabetes mellitus: the MONICA Augsburg cohort study. Arch Intern Med, 162(1), 82-89.

20. Nanayakkara, S., Zhou, X., & Spallek, H. (2018). Impact of big data on oral health outcomes. Oral Dis. doi:10.1111/odi.13007

21. Ozgur, A., Vu, T., Erkan, G., & Radev, D. R. (2008). Identifying gene-disease associations using centrality on a literature mined gene-interaction network. Bioinformatics, 24(13), i277-285.

doi:10.1093/bioinformatics/btn182

22. Park, J., Lee, D. S., Christakis, N. A., & Barabasi, A. L. (2009). The impact of cellular networks on disease comorbidity. Mol Syst Biol, 5,

62

-23. Piccinelli, M., & Wilkinson, G. (2000). Gender differences in depression. Critical review. Br J Psychiatry, 177, 486-492.

24. Raghupathi, W., & Raghupathi, V. (2014). Big data analytics in healthcare: promise and potential. Health Inf Sci Syst, 2, 3.

doi:10.1186/2047-2501-2-3

25. Rohde, P., Lewinsohn, P. M., & Seeley, J. R. (1991). Comorbidity of unipolar depression: II. Comorbidity with other mental disorders in adolescents and adults. J Abnorm Psychol, 100(2), 214-222.

26. Sabidussi, G. (1966). The centrality of a graph. Psychometrika, 31(4), 581-603.

27. Sarnak, M. J., Levey, A. S., Schoolwerth, A. C., Coresh, J., Culleton, B., Hamm, L. L., . . . Prevention. (2003). Kidney disease as a risk factor for development of cardiovascular disease: a statement from the American Heart Association Councils on Kidney in Cardiovascular Disease, High Blood Pressure Research, Clinical Cardiology, and Epidemiology and Prevention. Circulation, 108(17), 2154-2169.

doi:10.1161/01.CIR.0000095676.90936.80

28. Vagelatos, N. T., & Eslick, G. D. (2013). Type 2 diabetes as a risk factor for Alzheimer's disease: the confounders, interactions, and neuropathology associated with this relationship. Epidemiol Rev, 35, 152-160. doi:10.1093/epirev/mxs012

29. Valente, T. W., Coronges, K., Lakon, C., & Costenbader, E. (2008).

How Correlated Are Network Centrality Measures? Connect (Tor), 28(1), 16-26.

30. Vidal, M., Cusick, M. E., & Barabasi, A. L. (2011). Interactome

networks and human disease. Cell, 144(6), 986-998.

doi:10.1016/j.cell.2011.02.016

31. Wang, X., Gulbahce, N., & Yu, H. (2011). Network-based methods for human disease gene prediction. Brief Funct Genomics, 10(5), 280-293. doi:10.1093/bfgp/elr024

32. Wu, J., Vallenius, T., Ovaska, K., Westermarck, J., Makela, T. P., &

Hautaniemi, S. (2009). Integrated network analysis platform for protein-protein interactions. Nat Methods, 6(1), 75-77.

doi:10.1038/nmeth.1282

33. Yook, S. H., Oltvai, Z. N., & Barabasi, A. L. (2004). Functional and topological characterization of protein interaction networks. Proteomics, 4(4), 928-942. doi:10.1002/pmic.200300636

34. Zhou, X., Menche, J., Barabasi, A. L., & Sharma, A. (2014). Human symptoms-disease network. Nat Commun, 5, 4212.

doi:10.1038/ncomms5212

64 -

-ABSTRACT-Network-based analysis of human disease using the national health insurance service database

Eugene Jeong

Department of Biomedical Informatics

The Graduate School of Medicine, Ajou University

(Supervised by Professor Dukyong Yoon)

As the size and diversity of medical big data increases in hospitals and public institutions, many researchers have actively conducted studies regarding them. In particular, the National Health Insurance Corporation (NHIC) provides support to help the research activity in medical sector by providing sample cohort databases. For decades, there have been lots of different disease networks constructed by using biological data such as genetic, genomic and proteomic databases, but there are few cases of establishing disease networks based on clinical data. In addition, the incompleteness of database and the exclusion of considering important risk factors for network construction introduce various limitations. Therefore, in this study, the sample cohort database provided by National Health Insurance Corporation was utilized and the diagnosis network was constructed with the correction of the risk factors that are important cause of disease. Moreover, the structural characteristics of the disease network and the centralities of diseases were analyzed to provide information on

the diagnosis patterns and the importance of disease on the network.

  We defined the connectivity between diseases based on the assumption

  We defined the connectivity between diseases based on the assumption

관련 문서