66. Xception과 양방향 LSTM을 통한 뇌종양 진단에 관한 연구

(1)

Xception과 양방향 LSTM을 통한 뇌종양 진단에 관한 연구

전민종, 이동희, 이준석, 이욱^*

한양대학교 정보시스템학과

A Study on the brain tumor diagnosis through Xception and

Bi-directional LSTM

Min Jong Cheon, Dong Hee Lee, Jun Seuck Lee, Ook Lee^*

Division of Information System, Hanyang University

요 약 뇌종양은 전체 종양 중 세 번째로 많을 뿐만 아니라 우리나라에서도 환자 수가 늘어나는 추세이다. 하지만 영상기 반 검사가 주로 이루어지는 뇌종양의 경우, 전문의가 판단하기 때문에 판독 결과에 오류가 생길 가능성이 있다. 이를 방지하고자 인공지능 기반의 진단 방법이 도입되고 있다. 본 연구의 목적은 뇌종양을 단순히 2가지(정상, 비정상)가 아닌 4가지(교종, 뇌수막종, 뇌수하체 종양, 정상)로 더 정교하게 진단하고, 다른 모델들과 정확도를 비교하는 것이다. 또한, 단순 분류가 아닌 이미지 분할을 통해 환자로 분류한 근거를 시각화한다. 이를 위해 본 논문에서는 Xception과 양방향 LSTM을 활용한 모델을 통해 MRI 사진을 4가지로 분류하고 정확도를 다른 딥러닝 알고리즘들과 비교, 분석한다. 또한, CAM(Class Activation Map)을 통해 이상 부위를 시각화한다. 분석 결과 본 연구에서 제안하는 모델이 정확도 86%를 보이며 가장 높은 정확도를 기록하였다. 특히, 단순히 Xception 모델을 사용하였을 때 보다 8%가 증가하였다. 따라서 본 연구는 두 가지 의의를 가진다. 첫번째로, 단순 Xception 모델보다 Xception 모델에 양방향 LSTM을 추가하였을 때, VGG16, MobileNet과 같은 다른 CNN기반의 사전 훈련된 딥러닝 모델들보다 성능이 높다는 결론을 도출했다는 점에서 의의가 있다. 두번째로, 기존 2단계로 예측하던 뇌종양 진단을 4단계로 분류함과 동시에 이상 부위를 시각화하여 더욱 정교한 뇌종양 진단 모델을 개발하였다는 점에 의의가 있다.

Abstract Brain tumors have the third-largest incidence among tumors, and the number of patients is increasing continuously in Korea. On the other hand, as the diagnosis of brain tumor is conducted mainly through a vision-based inspection by doctors, there is a possibility of errors in the stage of inspection. Artificial intelligence-based diagnostic methods are being introduced to prevent this problem.

This study attempted to classify patients into more sophisticated stages (normal, glioma, pituitary, and meningioma) than previous research, which classified them into two stages (normal and patient). The accuracy of the proposed model was compared, and the anomalous part of the brain was visualized. To this end, MRI pictures were classified into four categories through Xception + Bi-directional LSTM and compared to the other pretrained models. Furthermore, the anomalous part of the brain was visualized through CAM (Class Activation Map). The proposed model achieved 86%, which is 8% higher than the simple Xception model. This research is significant in finding that the Xception + Bi-directional LSTM model showed higher accuracy than other pretrained models, such as simple Xception, VGG16, and MobileNet. Furthermore, this research is also worthwhile because the patients could be classified into four categories with high accuracy, and the anomaly parts could be visualized.

Keywords : Deep Learning, Artificial Intelligence, Diagnosis, CNN, LSTM, Xception, Brain Tumor 이 논문은 한양대학교 교내연구지원사업으로 연구되었음(HY-2021년도).

*Corresponding Author : Ook Lee(Hanyang Univ.) email: [email protected]

Received March 23, 2021 Revised April 26, 2021 Accepted July 2, 2021 Published July 31, 2021

(2)

1. 서론

뇌종양은 뇌에서 자라는 신경성 종양의 집단 이름으로 써 높은 질병 감염률과 사망률을 가진 질병이다. 뇌종양 은 인체에서 발생하는 전체 종양 중 발병률이 세 번째로 높으며 전체 종양 중에서 약 10%를 차지한다[1]. 우리나 라의 뇌종양 환자는 2012년 인구 10만 명당 11.63명에 서 2017년 13.43명으로 2.9% 증가했고, 수술 건수도 2012년 6,139건에서 2017년 7,208건으로 3.3% 증가 하였다[2]. 일반적으로 의료계에서는 종양 유무를 판별하 기 위해 영상 기반 검사(X-ray, CT, MRI 등)와 조직 검 사를 거친다. 일차적으로 영상 기반 검사를 진행하고 조 직 검사를 통해 최종적인 확진 판정과 함께 종양의 종류, 질병의 진행 정도를 파악한다. 하지만 뇌종양의 경우 다 른 기관과 달리 조직 검사 시 위험성이 매우 높다. 생명 중추 부위인 뇌간에 종양이 발견될 경우 조직 검사가 불 가하고, 혈관으로 이루어진 종양이나 뇌혈관에 근접한 종양의 경우 역시 조직 검사가 불가하다. 이 때문에 뇌종 양의 경우 최종적인 확진 판정을 영상 기반 검사로 해야 하는 경우가 있어 영상 기반 검사에 대한 의존도가 높다.

하지만 전문의가 직접 시각적으로 질병을 진단하는 과정 에서는 판단에 오류가 들어가거나, 판독 결과가 일관적 이지 못 하거나 효율성이 떨어질 수 있다는 문제가 있다 [1]. 의료 인력의 이러한 한계점과 더불어 이미 지속적으 로 축적된 의료 영상 데이터의 방대한 양은 자동화된 의 료 영상 분석의 필요성을 상기시켰다. 이에 따라 의료 영 상을 기반으로 한 질병의 진단에 인공지능 기술이 활발 히 도입되고 있고, 종양의 유무를 높은 정확도로 판별할 수 있는 인공지능 모델을 제안할 필요성이 대두되었다.

특히 국내에서 딥러닝을 통해 뇌종양을 분류한 논문의 경우, 단순히 정상인지 아닌지를 판별하는 이진 분류였 으며, 정확도 또한 학습데이터 세트는 90%, 검증 데이터 세트는 86%였기 때문에 본 연구는 높은 정확도를 가지 면서 총 4가지 상태로 분류하고자 한다[3]. 또한, 단순 분 류에 그치는 것이 아닌, 이미지 분할(segmentation)을 통해 정상인과의 차이점을 밝히고자 한다. 본 논문은 다 음과 같이 진행된다. 2장에서는 딥러닝을 활용해 뇌종양 을 분류한 관련 연구들을 확인한다. 3장에서는 Xception과 양방향 LSTM을 통한 모델을 제안한다. 4 장에서는 본 논문에서 제안하는 모델과 다른 CNN 기반 의 모델들 및 DNN 모델들과 정확도를 비교한다. 마지막 으로 5장에서는 본 논문의 결론 및 한계점에 대해서 제 시한다.

2. 관련 연구

김지율(2019)은 Kaggle에서 딥러닝 연구자들을 위해 무료로 제공하는 Brain MRI 의료영상 데이터 세트와 Inception V3 모델을 활용하여 종양 유무를 분류하였 고, 이진 분류이며, 학습데이터 세트는 90%, 검증 데이 터 세트는 86%의 정확도를 보였다[3]. Mohsen(2018) 은 22개의 정상과 44개의 비정상으로 구성된 66명의 환 자들의 사진과 DNN을 활용하여 4개의 클래스(정상, 교 모세포종, 육종, 전이성 기관지암종 종양)로 나누었고, 96.97%의 정확도를 보여주었다[4]. Sultan(2019)은 각 각 3064개와 516개의 두 개의 데이터셋으로 구성하였 다. 첫번째 데이터셋은 뇌종양을 뇌수종막, 교모종, 뇌하 수체 종양으로 분류하는데 사용되었고 두번째 데이터셋 은 신경교종의 등급을 분류하는데 사용되었다. 모두 CNN을 사용하였고 각각 96.13%와 98.7%의 정확성을 보여주었다[5]. Qurat-Ul-Ain(2010)은 뇌종양 사진과 정상적인 뇌의 사진으로 구성된 실제 MRI 사진들과 SVM(Support Vector Machine) 알고리즘을 활용하여 뇌종양을 정상과 비정상으로 분류하였고, 99% 이상의 정확성을 보였다[6].

3. Xception + 양방향 LSTM를 활용한

뇌종양 분류

3.1 LSTM

LSTM(Long Short-Term Memory)은 딥 러닝 알고 리즘에 속하는 순환 신경망(RNN)이다. 심층 신경망 (DNN)은 기본적으로 입력 데이터가 신경망을 한 번 통 과하는 단방향 네트워크이다. 하지만 RNN은 전체 네트 워크 구조에서 차이가 있다. DNN과는 달리, RNN 노드 로부터의 출력은 동일한 노드에 대한 입력이 되며, 이를

“순환"이라고 부른다. 그러나 RNN 모델은 기울기 손실 문제라는 단점이 있지만, LSTM은 'cell state'를 포함함 으로써 이를 극복한다. 이를 통해 LSTM은 정보를 오랫 동안 보존할 수 있다. LSTM의 전체 아키텍처는 입력 게 이트, 출력 게이트 및 ”forget“ 게이트를 포함한다.

LSTM의 첫 단계는 ”cell state“가 어떤 정보를 기억할지 정하는 것이다. 이는 시그모이드 층에 의해 결정되며, 식 (1)과 같이 진행된다. 두 번째 단계는 입력 게이트이며, 시그모이드는 층이 업데이트할 ^를 선정한 후, tanh 층

(3)

DNN과 달리, RNN과 LSTM의 은닉층은 과거 정보를 보존할 수 있다. 그러나 이러한 모델의 계산은 한 방향으 로 진행되므로 출력 게이트의 결과는 이전 셀에 영향을 미친다. 이것은 RNN과 LSTM의 주요 단점이다. 이 문제 를 해결하기 위해 Bi-LSTM은 전진 방향과 후진 방향의 두 가지 방법으로 모델을 훈련시킨다. 이러한 차이로 인 해 Bi-LSTM은 종단간 학습을 수행하게 되며, 이를 통해 모델은 출력 손실을 최소화하면서 전체 매개 변수를 학 습할 수 있다[8].

Fig. 2. Overall architecture of Bi-directional LSTM

3.3 Xception

Xception 모델은 2016년에 발표되었으며 기본적으 로 Inception 모델에 기초하고 있다. Inception 모델이 cross-channel correlation과 spatial correlation을 분리하는 데 중점을 두었다면, Xception 모델은 파라미 터 조절을 통해 이를 극대화하는 데에 중점을 두었다. 이를 위해 Xception 모델은 depthwise separable convolution 층과 residual connections의 조합으로 구성되어 있다[9].

Depthwise separable convolution은 기존의 1x1 연 산 후 3x3 연산을 하는 순서를 3x3 연산 후 1x1 연산을 하는 방식으로 바꾼 것이다. 1X1 연산은 point-wise, 3x3 연산은 channel-wise 연산이라 한다[10].

Fig. 3. Overall architecture of Xception

3.4 훈련용, 검증용, 테스트용 데이터셋

본 연구에서는 총 데이터셋 4,123개를 활용한다. 이들 데이터는 Kaggle에서 다운받았으며 https://www.

kaggle.com/sartajbhuvaji/brain-tumor-classificati on-mri에서 확인 가능하다[11]. 이들은 뇌 MRI 데이터 이며 각각 교종, 뇌수막종, 뇌수하체 종양으로 라벨링 되 어있다. 이 중에서 훈련용 데이터셋(train)은 2,970개, 검증용(validation) 데이터셋은 859개, 테스트용 데이터 셋(test)은 394개를 사용한다.

(4)

Fig. 4. MRI image of normal brain

3.5 이미지 전처리

총 데이터셋의 개수가 적기 때문에, Keras의 ImageDataGenerator 함수를 활용하여 데이터셋을 증 식시킨다. 이 함수를 통해서 기존 이미지의 밝기, 각도, 너비, 높이 등을 변경한 데이터들을 만들어 낸다. 그 후, 이미지 데이터의 전처리를 위해서 모든 이미지의 픽셀 값들을 0~255의 값을 가지도록 한다. 마지막으로 Xception input 계층의 입력층 이미지 크기에 해당하는 픽셀 사이즈인 299X299으로 이미지 크기를 조절한다.

Fig. 5. MRI image of brain with meningioma

4. 실험결과

4.1 Xception + 양방향 LSTM 결과

제안하는 모델을 따라서 실험을 진행한 결과, 86%의 정확도를 보였다. 특히, 일반 Xception 모델을 사용한 결과보다 정확도가 8% 정도 높아졌다. 하지만 훈련용 데 이터셋에서는 96%, 검증용 데이터셋에서 99%가 넘는 정확도에 비해 상대적으로 낮은 정확도를 기록하였다.

이를 통해서 오버피팅이 발생한 걸 확인할 수 있다. 반면 에, 일반 DNN을 사용했을 때는 19.03%가 나왔으며, 이 는 CNN 기반의 모델에 비해 현저히 낮은 수치였다.

Fig. 6. Graph of training and validation accuracy

Fig. 7. Graph of training and validation loss

(5)

4.2 다른 pretrained CNN 모델들과의 비교

기존의 실험에서 제안한 파이프라인을 따라 다른 CNN 모델들을 적용했을 때, 모델들 마다 상이한 결과를 나타냈다. 사용된 모델들은 Inception, EfficientNet, MobileNet, DenseNet, ResNet, VGG16이다.

Fig. 8. Accuracy of pretrained CNN models

4.3 이미지 분할(Segmentation)

이미지 분할을 위해서 Class Activation Map을 활용 하였다. 이는 히트맵(Heat Map)을 통해 이미지를 어떻 게 특정 클래스로 분류하였는지를 보여준다. 전반적인 구조는 CNN과 비슷하나, 기존 CNN의 Fully Connected 층 대신 Global Pooling을 사용한다는 차 이점이 있다[12]. 그림9, 10, 11에서 빨간색 부분이 진 할수록 정상인의 사진과 차이가 있다는 것을 나타낸다.

Fig. 9. Class Activation Map from meningioma tumor

Fig. 10. Class Activation Map from glioma tumor

Fig. 11. Class Activation Map from pituitary tum

5. 결론 및 향후 과제

본 논문에서 제시한 Xception+LSTM 모델은 88%의 정확도를 보이며 다른 모델들 보다 높으며, 이미지 분할 (segmentation)까지 가능하다는 결과를 도출했다. 이는 단순히 이진 분류만 하였던 기존 연구[3]와 달리 4가지 단계로 분류하며, 높은 정확도와 더불어 이미지 분할까 지 해냈다는 점에서 학술적으로 의의가 있다. 본 연구에 서 제안하는 모델을 통해 뇌종양 MRI 사진 뿐만 아니라 현재 유행하는 코로나 환자들의 MRI 사진 등 다른 MRI 사진 기반의 데이터 분류도 가능할 것으로 판단한다. 하

(6)

지만 이번 연구의 경우 데이터셋 자체가 크지 않았다는 점, 훈련 및 검증 단계에서의 정확도 보다 실제 테스트 단계에서의 정확도가 낮으며, U-Net 등과 같은 기존의 의학 분야에서 사용되는 이미지 분할 기법을 사용하지 않았다는 점은 본 연구의 한계점이다[13].

따라서 향후 연구에서는 현재 모델의 오버피팅 현상을 해결할 뿐만 아니라 기존의 U-Net 모델과 같은 이미지 분할을 위한 모델들을 활용하고, 이들보다 성능적으로 개선될 수 있도록 시도해 볼 것이다.

References

[1] Jae Hyeop Choi, Do Young Kwon, Min Ho Lee,

“Object Detection on Brain Tumor by Using Improved Mask R-CNN”, IEIE Autumn Conference, pp. 663-666, 2019.

[2] Hong, H. J., & Lee, Y. W. (2020). Grounded Theoretical Approach on Illness Experience Process in Middle Aged Women with Brain Tumor. The Korean Journal of Rehabilitation Nursing, 23(1), 15–26.

DOI: https://doi.org/10.7587/kjrehn.2020.15

[3] Ji Yul Kim, Soo-Young Ye, “Accuracy Evaluation of Brain Parenchymal MRI Image Classification Using Inception V3”, JISPS, Vol. 20, No. 3, pp. 132-137, 2019.

[4] Mohsen, H., El-Dahshan, E. A., El-Horbaty, E. M.,

& Salem, A. M. (2018). “Classification using deep learning neural networks for brain tumors”. Future Computing and Informatics Journal, 3(1), 68-71.

DOI:https://doi.org/10.1016/j.fcij.2017.12.001 [5] Sultan, H. H., Salem, N. M., & Al-Atabany, W. (2019).

“Multi-classification of brain tumor images using deep neural network”. IEEE Access, 7, 69215-69225.

DOI:https://doi.org/10.1109/access.2019.2919122 [6] ARI, A., & HANBAY, D. (2018). “Deep learning

based brain tumor classification and detection system”. TURKISH JOURNAL OF ELECTRICAL ENGINEERING & COMPUTER SCIENCES, 26(5), 2275-2286. DOI:https://doi.org/10.3906/elk-1801-8 [7] Hochreiter, S., & Schmidhuber, J. (1997). “Long

short-term memory”. Neural Computation, 9(8), 1735-1780.

DOI:https://doi.org/10.1162/neco.1997.9.8.1735 [8] Graves, A., & Schmidhuber, J. (2005). “Framewise

phoneme classification with BIDIRECTIONAL LSTM and other neural network architectures”. Neural Networks, 18(5-6), 602-610.

DOI:https://doi.org/10.1016/j.neunet.2005.06.042 [9] Chollet, F. (2017). “Xception: Deep learning with

depthwise separable convolutions”. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

DOI:https://doi.org/10.1109/cvpr.2017.195

[10] Wang, Z., Lu, J., Tao, C., Zhou, J., & Tian, Q.

(2019). “Learning channel-wise interactions for binary convolutional neural networks”. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

DOI:https://doi.org/10.1109/cvpr.2019.00066 [11] Sartaj. (2020, May 24). “Brain tumor classification

(mri)”. Retrieved March 21, 2021, from:

https://www.kaggle.com/sartajbhuvaji/brain-tumor-cl assification-mri

[12] Kwasniewska, A., Ruminski, J., & Rad, P. (2017).

“Deep features class activation map for thermal face detection and tracking”. 2017 10th International Conference on Human System Interactions (HSI).

DOI:https://doi.org/10.1109/hsi.2017.8004993 [13] Ronneberger, O., Fischer, P., & Brox, T. (2015).

“U-Net: Convolutional networks for biomedical image segmentation”. Lecture Notes in Computer Science, 234-241.

DOI:https://doi.org/10.1007/978-3-319-24574-4_28

전 민 종(Min Jong Cheon) [정회원]

• 2020년 2월 : 한양대학교 정보시 스템학과 (정보시스템학사)

• 2020년 3월 ~ 현재 : 한양대학교 정보시스템과(석박사 통합과정)

<관심분야>

머신러닝, 딥러닝, 정보시스템

이 동 희(Dong Hee Lee) [준회원]

• 2016년 3월 ~ 현재 : 한양대학교 정보시스템과(학사과정)

<관심분야>

(7)

이 준 석(Jun Secuk Lee) [준회원]

• 2016년 3월 ~ 현재 : 한양대학교 정보시스템과(학사과정)

<관심분야>

이 욱(Ook Lee) [정회원]

• 1989년 6월 : Northwestern 대 학교 전산학과(전산학석사)

• 1997년 1월 : Claremont대학교 경영정보학과(경영정보학박사)

• 2002년 3월 ~ 현재 : 한양대학교 정보시스템학과 교수

<관심분야>

정보시스템, IT 분야 철학/형태/응용