• 검색 결과가 없습니다.

Building a correspondence database from Koreans living in China and content analysis using topic modeling and local surrogate<sup>†</sup>

N/A
N/A
Protected

Academic year: 2021

Share "Building a correspondence database from Koreans living in China and content analysis using topic modeling and local surrogate<sup>†</sup>"

Copied!
12
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

2021, 32

(

1)

,

123–134

재중동포 가족 찾기 서신 데이터베이스 구축 및 토픽 모델링과 로컬 대리 분석을 적용한 서신 내용 분석

기

ᆷ현희

1

·조진남

2

12동덕여자대학교 정보통계학과

ᄌ ᅥ

ᆸᄉ ᅮ 2020ᄂ ᅧ ᆫ 12ᄋ ᅯ ᆯ 1ᄋ ᅵ ᆯ, ᄉ ᅮᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 9ᄋ ᅵ ᆯ, ᄀ ᅦᄌ ᅢ ᄒ ᅪ ᆨᄌ ᅥ ᆼ 2021ᄂ ᅧ ᆫ 1ᄋ ᅯ ᆯ 15ᄋ ᅵ ᆯ

요 약

ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄉ ᅥᄂ ᅳ ᆫ 1974ᄂ ᅧ ᆫᄋ ᅦᄉ ᅥ 2008ᄂ ᅧ ᆫᄁ ᅡᄌ ᅵ ᄌ ᅵ ᆫᄒ ᅢ ᆼᄃ ᅬ ᆫ KBS ᄒ ᅡ ᆫᄆ ᅵ ᆫᄌ ᅩ ᆨ ᄇ ᅡ ᆼᄉ ᅩ ᆼ ᄀ ᅡᄌ ᅩ ᆨ ᄎ ᅡ ᆽᄀ ᅵ ᄑ ᅳᄅ ᅩᄀ ᅳᄅ ᅢ ᆷᄋ ᅳᄅ ᅩ ᄇ ᅡ ᆯᄉ ᅩ ᆼᄃ ᅬ ᆫ ᄌ

ᅢᄌ ᅮ ᆼᄃ ᅩ ᆼ ᄑ ᅩ ᄉ ᅥᄉ ᅵ ᆫ 8ᄆ ᅡ ᆫ ᄋ ᅧᄐ ᅩ ᆼ ᄋ ᅦ ᄃ ᅢᄒ ᅡᄋ ᅧ ᄃ ᅦᄋ ᅵᄐ ᅥᄇ ᅦᄋ ᅵᄉ ᅳᄅ ᅳ ᆯ ᄀ ᅮᄎ ᅮ ᆨ ᄒ ᅡᄀ ᅩ ᄉ ᅥᄉ ᅵ ᆫᄋ ᅴ ᄂ ᅢᄋ ᅭ ᆼᄋ ᅳ ᆯ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄉ ᅥᄉ ᅵ ᆫᄋ ᅳ ᆯ ᄉ ᅳᄏ ᅢ ᆫ ᄒ

ᅡᄋ ᅧ ᄋ ᅵᄆ ᅵᄌ ᅵ ᄑ ᅡᄋ ᅵ ᆯᄅ ᅩ ᄉ ᅢ ᆼᄉ ᅥ ᆼᄒ ᅡ ᆫ ᄃ ᅡᄋ ᅳ ᆷ, ᄐ ᅢᄀ ᅳᄅ ᅳ ᆯ ᄉ ᅡᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄉ ᅥᄉ ᅵ ᆫ ᄂ ᅢᄋ ᅭ ᆼᄋ ᅳ ᆯ ᄋ ᅭᄋ ᅣ ᆨᄒ ᅡᄋ ᅧ ᄉ ᅥᄉ ᅵ ᆫ ᄋ ᅵᄆ ᅵᄌ ᅵᄅ ᅳ ᆯ ᄌ ᅥᄌ ᅡ ᆼᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ.

ᅢᄀ ᅳᄅ ᅳ ᆯ ᄀ ᅵᄇ ᅡ ᆫᄋ ᅳᄅ ᅩ ᄀ ᅥ ᆷᄉ ᅢ ᆨᄋ ᅵ ᄀ ᅡᄂ ᅳ ᆼ ᄒ ᅡᄆ ᅧ ᄀ ᅥ ᆷᄉ ᅢ ᆨᄃ ᅬ ᆫ ᄉ ᅥᄉ ᅵ ᆫᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄇ ᅡ ᆯᄉ ᅩ ᆼ ᄌ ᅵ, ᄇ ᅡ ᆯᄉ ᅩ ᆼ ᄌ ᅡ, ᄇ ᅡ ᆯᄉ ᅩ ᆼᄋ ᅵ ᆯ ᄌ ᅥ ᆼᄇ ᅩᄋ ᅪ ᄐ ᅢᄀ ᅳᄅ ᅳ ᆯ ᄌ ᅥᄌ ᅡ ᆼᄒ ᅡ ᄋ

ᅧ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅦ ᄒ ᅪ ᆯᄋ ᅭ ᆼ ᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅩᄅ ᅩ ᆨ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄃ ᅦᄋ ᅵᄐ ᅥᄇ ᅦᄋ ᅵᄉ ᅳ ᄀ ᅮᄎ ᅮ ᆨ ᄉ ᅵ ᄉ ᅥᄉ ᅵ ᆫᄋ ᅴ ᄌ ᅮᄌ ᅦᄅ ᅳ ᆯ ᄇ ᅮ ᆫ ᄅ ᅲᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢᄉ ᅥ ᄌ ᅥ ᆼᄎ ᅵ, ᄀ ᅧ ᆼ ᄌ

ᅦ, ᄆ ᅮ ᆫ ᄒ ᅪ, ᄉ ᅢ ᆼᄒ ᅪ ᆯ ᄃ ᅳ ᆼ ᄋ ᅴ ᄃ ᅢᄇ ᅮ ᆫ ᄅ ᅲᄅ ᅳ ᆯ ᄌ ᅥ ᆼᄋ ᅴᄒ ᅡᄋ ᅧ ᆻᄋ ᅳᄆ ᅧ, ᄀ ᅡ ᆨ ᄃ ᅢᄇ ᅮ ᆫ ᄅ ᅲ ᄂ ᅢᄋ ᅦᄉ ᅥ ᄀ ᅮᄎ ᅦᄌ ᅥ ᆨ ᄂ ᅢᄋ ᅭ ᆼᄋ ᅳ ᆯ ᄑ ᅡᄋ ᅡ ᆨᄒ ᅡᄀ ᅵ ᄋ ᅱᄒ ᅢ ᄐ ᅩᄑ ᅵ ᆨ ᄆ ᅩ ᄃ

ᅦ ᆯᄅ ᅵ ᆼᄋ ᅳ ᆯ ᄉ ᅵ ᆯᄉ ᅵᄒ ᅡᄋ ᅧ ᆻᄀ ᅩ ᄒ ᅢᄃ ᅡ ᆼ ᄌ ᅮᄌ ᅦᄋ ᅦᄉ ᅥ ᄌ ᅮ ᆼ ᄋ ᅭᄒ ᅡ ᆫ ᄏ ᅵᄋ ᅯᄃ ᅳᄅ ᅳ ᆯ ᄎ ᅡ ᆽᄀ ᅵ ᄋ ᅱᄒ ᅢᄉ ᅥ ᄂ ᅡᄋ ᅵᄇ ᅳ ᄇ ᅦᄋ ᅵᄌ ᅳ ᄋ ᅡ ᆯᄀ ᅩᄅ ᅵᄌ ᅳ ᆷ ᄋ ᅳᄅ ᅩ ᄉ ᅥᄉ ᅵ ᆫ ᄇ ᅮ ᆫ ᄅ

ᅲ ᄆ ᅩᄃ ᅦ ᆯᄋ ᅳ ᆯ ᄉ ᅢ ᆼᄉ ᅥ ᆼᄒ ᅡᄀ ᅩ ᄉ ᅥ ᆯᄆ ᅧ ᆼᄀ ᅡᄂ ᅳ ᆼ ᄋ ᅵ ᆫᄀ ᅩ ᆼ ᄌ ᅵᄂ ᅳ ᆼ ᄀ ᅵᄉ ᅮ ᆯ ᄋ ᅴ ᄒ ᅡᄂ ᅡᄋ ᅵ ᆫ ᄅ ᅩᄏ ᅥ ᆯ ᄃ ᅢᄅ ᅵ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄒ ᅢᄃ ᅡ ᆼ ᄇ ᅮ ᆫ ᄋ ᅣᄅ ᅩ ᄇ ᅮ ᆫ ᄅ ᅲᄒ ᅡ ᄀ

ᅦ ᄃ ᅬ ᆫ ᄒ ᅢ ᆨᄉ ᅵ ᆷ ᄏ ᅵᄋ ᅯᄃ ᅳᄃ ᅳ ᆯᄋ ᅳ ᆯ ᄎ ᅮᄎ ᅮ ᆯ ᄒ ᅡᄋ ᅧ ᆻᄃ ᅡ. ᄌ ᅥ ᆼᄎ ᅵ ᄇ ᅮ ᆫ ᄋ ᅣᄋ ᅴ ᄉ ᅥᄉ ᅵ ᆫ ᄂ ᅢᄋ ᅭ ᆼ ᄋ ᅳᄅ ᅩᄂ ᅳ ᆫ ᄂ ᅡ ᆷᄇ ᅮ ᆨ ᄀ ᅪ ᆫ ᄀ ᅨ, ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄌ ᅥ ᆼᄇ ᅮᄋ ᅦ ᄃ ᅢᄒ ᅡ ᆫ ᄋ ᅭᄎ ᅥ ᆼ ᄃ

ᆼ ᄋ ᅴ ᄌ ᅮᄌ ᅦᄅ ᅳ ᆯ ᄎ ᅡ ᆽᄋ ᅡᄂ ᅢᄋ ᅥ ᆻᄀ ᅩ, ᄀ ᅧ ᆼᄌ ᅦ ᄇ ᅮ ᆫ ᄋ ᅣᄋ ᅴ ᄉ ᅥᄉ ᅵ ᆫ ᄂ ᅢᄋ ᅭ ᆼ ᄋ ᅳᄅ ᅩᄂ ᅳ ᆫ ᄆ ᅮ ᆯᄑ ᅮ ᆷ ᄋ ᅭᄎ ᅥ ᆼ ᄆ ᅵ ᆾ ᄀ ᅮ ᆨ ᄋ ᅥᄉ ᅡᄌ ᅥ ᆫ, ᄋ ᅵ ᆯᄒ ᅡ ᆫᄉ ᅡᄌ ᅥ ᆫ ᄃ ᅳ ᆼ ᄀ ᅪ ᄀ ᅡ ᇀᄋ ᅳ ᆫ ᄀ ᅮ ᄎ

ᅦᄌ ᅥ ᆨᄋ ᅵ ᆫ ᄋ ᅭᄎ ᅥ ᆼ ᄑ ᅮ ᆷᄆ ᅩ ᆨᄋ ᅳ ᆯ ᄎ ᅡ ᆽᄋ ᅡᄂ ᅢᄋ ᅥ ᆻᄃ ᅡ. ᄆ ᅡ ᆭᄋ ᅳ ᆫ ᄇ ᅵ ᆨᄃ ᅦᄋ ᅵᄐ ᅥ ᄋ ᅧ ᆫᄀ ᅮᄀ ᅡ ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄒ ᅡ ᆨᄆ ᅮ ᆫ ᄇ ᅮ ᆫ ᄋ ᅣᄋ ᅦᄉ ᅥ ᄋ ᅲ ᆼ ᄒ ᅡ ᆸ ᄋ ᅧ ᆫᄀ ᅮᄅ ᅩ ᄋ ᅵᄅ ᅮᄋ ᅥᄌ ᅵ ᄀ

ᅩ ᄋ ᅵ ᆻᄂ ᅳ ᆫ ᄇ ᅡ ᆫᄆ ᅧ ᆫ, ᄋ ᅵ ᆫᄆ ᅮ ᆫ ᄒ ᅡ ᆨ ᄇ ᅮ ᆫ ᄋ ᅣᄋ ᅦᄉ ᅥ ᄌ ᅥ ᆨᄋ ᅭ ᆼᄃ ᅬ ᆫ ᄋ ᅨᄂ ᅳ ᆫ ᄃ ᅳᄆ ᅮ ᆯ ᄃ ᅡ. ᄇ ᅩ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄂ ᅳ ᆫ ᄋ ᅵ ᆫᄆ ᅮ ᆫ ᄒ ᅡ ᆨ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅦᄃ ᅩ ᄇ ᅵ ᆨᄃ ᅦᄋ ᅵᄐ ᅥ ᄇ ᅮ ᆫᄉ ᅥ ᆨᄋ ᅦᄉ ᅥ ᄒ ᅪ

ᆯᄋ ᅭ ᆼ ᄃ ᅬᄂ ᅳ ᆫ ᄃ ᅡᄋ ᅣ ᆼᄒ ᅡ ᆫ ᄇ ᅮ ᆫᄉ ᅥ ᆨ ᄀ ᅵᄇ ᅥ ᆸᄋ ᅳ ᆯ ᄌ ᅥ ᆨᄋ ᅭ ᆼ ᄒ ᅡᄋ ᅧ ᄉ ᅥ ᆼᄀ ᅩ ᆼᄌ ᅥ ᆨᄋ ᅳᄅ ᅩ ᄀ ᅧ ᆯᄀ ᅪᄅ ᅳ ᆯ ᄃ ᅩᄎ ᅮ ᆯ ᄒ ᅡ ᆯ ᄉ ᅮ ᄋ ᅵ ᆻᄃ ᅡᄂ ᅳ ᆫ ᄀ ᅥ ᆺᄋ ᅳ ᆯ ᄇ ᅩᄋ ᅧᄌ ᅮ ᆷ ᄋ ᅳᄅ ᅩᄊ ᅥ ᄋ ᅵ ᆫᄆ ᅮ ᆫ ᄒ

ᅡ ᆨ ᄇ ᅮ ᆫ ᄋ ᅣᄋ ᅦᄉ ᅥᄋ ᅴ ᄇ ᅵ ᆨᄃ ᅦᄋ ᅵᄐ ᅥ ᄀ ᅵᄇ ᅡ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄀ ᅡ ᄋ ᅴᄆ ᅵᄀ ᅡ ᄋ ᅵ ᆻᄋ ᅳ ᆷᄋ ᅳ ᆯ ᄇ ᅩᄋ ᅧᄌ ᅮ ᆫ ᄃ ᅡ.

ᅮᄋ ᅭᄋ ᅭ ᆼ ᄋ ᅥ: ᄅ ᅩᄏ ᅥ ᆯ ᄃ ᅢᄅ ᅵ ᄇ ᅮ ᆫᄉ ᅥ ᆨ. ᄉ ᅥᄉ ᅵ ᆫ ᄃ ᅦᄋ ᅵᄐ ᅥᄇ ᅦᄋ ᅵᄉ ᅳ, ᄉ ᅥ ᆯᄆ ᅧ ᆼᄀ ᅡᄂ ᅳ ᆼ ᄋ ᅵ ᆫᄀ ᅩ ᆼ ᄌ ᅵᄂ ᅳ ᆼ, ᄐ ᅩᄑ ᅵ ᆨ ᄆ ᅩᄃ ᅦ ᆯᄅ ᅵ ᆼ.

1. 서론 ᄎ

ᅬ근 빅데이터로부터 통찰력과 지식을얻고자 기계 학습, 딥러닝 등의 기술을 적용하여 원천 지식을 회

ᆨ득하는 빅데이터 연구가활발히 이루어지고 있다. Shickel 등 (2018)은대표적인 의료 빅데이터에 기 ᄀ

ᅨ 학습 및 딥러닝을적용하여 의학적 가치를도출하는연구들을소개하였으며, Lim 등 (2020)은소셜 ᄆ

ᅵ디어를크롤링하여 건강 보조제 등의 상품을사용한 후 사용자들의 상품에 대한 리뷰 등을바탕으로 ᄉ

ᅡᆼ품의 효과를 분석하는연구를제시하였으며, Kim 등 (2017)은 식약처에서관리하는약물부작용보고 ᄃ

ᅦ이터베이스를 분석하여 가장 많이 겪는부작용과 심각한 부작용 등을찾아냈다. 이처럼 많은 빅데이 ᄐ

ᅥ 연구들이 학제 간 융합 연구를 바탕으로 하고 있다. 인문학 연구에 있어서도 다양한 문헌들이 연구

ᄋ ᅵ ᄂ ᅩ ᆫᄆ ᅮ ᆫᄋ ᅳ ᆫ 2017ᄂ ᅧ ᆫ ᄃ ᅢᄒ ᅡ ᆨᄆ ᅵ ᆫᄀ ᅮ ᆨ ᄀ ᅭᄋ ᅲ ᆨ ᄇ ᅮᄋ ᅪ ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄒ ᅡ ᆨᄌ ᅮ ᆼ ᄋ ᅡ ᆼᄋ ᅧ ᆫᄀ ᅮᄋ ᅯ ᆫ (ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄒ ᅡ ᆨᄌ ᅵ ᆫᄒ ᅳ ᆼ ᄉ ᅡᄋ ᅥ ᆸᄃ ᅡ ᆫ)ᄋ ᅴ ᄒ ᅡ ᆫᄀ ᅮ ᆨ ᄒ ᅡ ᆨ ᄇ ᅮ ᆫ ᄋ ᅣ ᄐ

ᅩᄃ ᅢᄋ ᅧ ᆫᄀ ᅮᄌ ᅵᄋ ᅯ ᆫ ᄉ ᅡᄋ ᅥ ᆸᄋ ᅴ ᄌ ᅵᄋ ᅯ ᆫᄋ ᅳ ᆯ ᄇ ᅡ ᆮᄋ ᅡ ᄉ ᅮᄒ ᅢ ᆼᄃ ᅬ ᆫ ᄋ ᅧ ᆫᄀ ᅮᄋ ᅵ ᆷ (ASK-2017-KFR-1230011).

1

(02748) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄒ ᅪᄅ ᅡ ᆼᄅ ᅩ13ᄀ ᅵ ᆯ 60, ᄃ ᅩ ᆼᄃ ᅥ ᆨᄋ ᅧᄌ ᅡᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄇ ᅮᄀ ᅭᄉ ᅮ.

2

ᄀ ᅭᄉ ᅵ ᆫᄌ ᅥᄌ ᅡ: (02748) ᄉ ᅥᄋ ᅮ ᆯᄐ ᅳ ᆨᄇ ᅧ ᆯᄉ ᅵ ᄉ ᅥ ᆼᄇ ᅮ ᆨ ᄀ ᅮ ᄒ ᅪᄅ ᅡ ᆼᄅ ᅩ13ᄀ ᅵ ᆯ 60, ᄃ ᅩ ᆼᄃ ᅥ ᆨᄋ ᅧᄌ ᅡᄃ ᅢᄒ ᅡ ᆨᄀ ᅭ ᄌ ᅥ ᆼᄇ ᅩᄐ ᅩ ᆼ ᄀ ᅨᄒ ᅡ ᆨᄀ ᅪ, ᄆ ᅧ ᆼᄋ ᅨᄀ ᅭᄉ ᅮ.

E-mail: [email protected]

(2)

ᅴ근간이 되므로 텍스트 분석을활용한 연구 방법을적용하는것이 가능하지만, 아직까지 인문학 문야 ᄋ

ᅪ 빅데이터 융합 연구는매우 드문 실정이다. 이는 인문학 분야에서는대량의 데이터를 분석하여 연구 ᄅ

ᅳᆯ 진행하기에 데이터베이스화 되어 축적된데이터의 양이 다른 분야의 빅데이터 연구에 비해 적고 연구 무

ᆫ헌들이 데이터베이스로 구축되어관리되고 있지 않은경우가 많은데서 기인한다.

보

ᆫ 논문에서는 인문학 연구를위해 필요한 서신 데이터베이스를구축하고 그 내용을 분석하는데 토픽 ᄆ

ᅩ델링과 설명가능 인공지능기술을적용하여 방대한 양의 서신 속에 숨어있는주제를파악하여 인문학 ᄌ

ᅥᆨ 의미를 고찰하고자 한다. 본연구에서 사용된인문학 데이터는 1974년도에서 2008년도까지 진행된 KBS한민족방송이산가족찾기 서신 약 24만 여 통 중에서 한중수교 이전인 1992년도까지 약 8만 통 ᄋ

ᅵ다. 이시기는앞서 언급한 바와 같이 한중수교 이전이므로 재중 동포의 생활상이 공식적 문서로는알 ᄅ

ᅧ진 바가 없고, 개별 인터뷰나 직접 방문 등을 통해 재중동포 연구가 이루어지고 있다. 따라서 8만여 ᄐ

ᆼ의 서신을 분석하여 그간 알려지지 않은재중 동포의 정치적, 경제적, 사회적, 그리고 문화적관점을 ᄉ

ᆯ펴보고자 한다.

ᅧᆫ구서신은주로 길림성 연변자치주를 중심으로 요녕성과 흑룡강성 등 동북 3성에 거주하는재중동포 8만 여명이 KBS 라디오 방송국으로 발송한 서신으로 주 내용은한국에 있는가족을 찾는것이나 재중 ᄃ

ᆼ포의 삶과 일상을포함하고 있다. 시기적으로 한중수교 이전의 서신들이기 때문에 재중 동포들의 생 화

ᆯ상에관한 연구가 이루어지기 어려운시기의 서신 자료들이므로 그 의미가큰자료라고 할 수 있다.

ᅩᆫ연구에서는 종이 문서인 서신을이미지 파일로 스캔하여 수동으로 데이터베이스에 업로드하여 데 ᄋ

ᅵ터베이스를구축하였다. 서신의 내용을 분석하기 위해 데이터베이스 입력자가 이미지로 저장된서신 ᄋ

ᅴ 내용을 읽고 태그 형식으로 내용 중의 핵심 키워드를 입력하였다. 서신의 전문을 입력하면 보다 정확 ᄒ

ᅡ고 풍부한 내용이 분석가능하겠으나 한자가 섞인 서신 이미지를 입력자가 읽고서 전문을 입력하는데 ᄋ

ᅥ려움이 있었다. 따라서 서신의 의미를살릴 수 있으면서도 효율적 텍스트 분석을위하여 최대한 본문 ᄋ

ᅴ 내용을 동일한 가이드라인에 따라 태그 형식으로 요약하여 입력하도록하였다. 또한 서신을업로드 ᄒ

ᅡᆯ 때 내용에 따른 1차적 주제 분류를위해서 정치, 경제, 생활, 문학 등편지가 포함하고 있는주제를 ᄃ

ᅡ중선택하여 입력할 수 있도록하였으며, 이를바탕으로 서신 속에서 언급된고향의 분포 및 발송지에 ᄃ

ᅢ한 통계 분석을 실시하였다.

Bang (2019)과 그의 동료들은 텍스트 마이닝을 통해서 텍스트로부터 주제를추출하는방법을제시하 ᄋ

ᅧᆻ다. 본연구에서는 각 대분류 내에서 구체적 편지 주제를파악하기 위해 텍스트 마이닝 기법 중에서 ᄃ

ᅩ Blei 등 (2003)이 제시한 토픽 모델링 알고리즘인 잠재 디리클래 할당 (latent dirichlet allocation;

LDA)을 실시하여 대분류에 속하는세부 주제를정의하였다. 또한 각 주제를 레이블링하여 나이브 베 ᄋ

ᅵ즈 (Naive Bayes)로 분류 학습을시킨 뒤, Ribeiro 등 (2016)이 제안한 로컬 대리 분석 (local inter- pretable model-agnostic explanations; LIME)을적용하여 해당 주제로 분류하기 위한 핵심 키워드를 ᄎ

ᅮ출하였다. 대부분의 서신은 가족찾기가 서신의 목적이므로관련 키워드인 가족호칭, 인명, 한국지 며

ᆼ, 중국지명 등이 주를이룬다. Son (2020)의 연구에 따르면 불균형한 텍스트 분석을위한 새로운 분 ᄉ

ᅥᆨ 방법이 필요하다. 본연구에서는자주 등장하지 않지만, 재중 동포의 삶을유추해볼수 있는키워드 ᄅ

ᅳᆯ찾는것이 중요한 연구 목적이다. 이러한 키워드를희소 키워드라고 칭한다. 희소 키워드는 빈도수 ᄀ

ᅡ 적기 때문에 기존의확률 분포를활용한 모델은적절하지 않다. 로컬 대리 분석은서신들과 해당 주 ᄌ

ᅦ를 분류하는기계 학습모델에 적용하여 기계가 분류를하는데큰영향을키워드를 찾아주므로 희소 ᄏ

ᅵ워드의 경우에도 해당 서신에서 중요도를가지면 찾아낼 수 있다.

ᅮᆫ석을 통해 얻은의미 있는서신 주제로는정치 분야에서 남북관계 및 한국정부에 대한 요청 및 서 우

ᆫ함에 대한 내용을 들수 있다. 특히 재중 동포들의 처우에 대한 유감을표하는서신과 고국방문요청 ᄋ

ᅵ 다수를이루었다. 경제 대 분류에 속하는서신들의 주 내용은 물품요청이 주를이루었으며, 학습을 ᄋ

ᅱ한 국어사전, 영어사전, 일어사전 등의 요청이 다수 있었으며 녹음테이프 달력 등도 물품요청 주제

(3)

ᅦ서 자주언급된 물품으로 알려졌다. 생활및 문화 대분류의 경우 해당하는서신의 숫자도 적고 구체적 ᄉ

ᅡ생활을언급하지 않는경향이 있어 세부 주제를도출하기 어려웠다.

ᅩᆫ연구의 공헌은 인문학 연구와 빅데이터 분석 기술을성공적으로 융합할 수 있다는연구 방법을제 ᄉ

ᅵ한 것이다. 데이터베이스 구축의관점에서는소실 위기에 있는 종이 서신들을데이터베이스로 구축하 ᄋ

ᅧ 영구 보존이 가능해졌으며, 사용자들이 검색을 통하여 8만여 통의 서신을자유롭게 검색하고 분석을 ᄋ

ᅱ해 저장할 수 있도록하여 원하는정보를담고 있는서신의 분석 또한 가능하게 하였다. 서신의 표면 ᄌ

ᅥᆨ 주제는서신의 목적인 가족찾기였지만, 그리운고국에 발송하는서신이었으므로 그 외에 다양한 내 ᄋ

ᆼ들을 포함하고 있다. 그러나 이러한 내용이나 키워드들이 일반 주제였던 가족찾기를 위한 키워드에 더

ᇁ여 찾기가 어렵다는제약점이 있었다. 따라서 희소 키워드 중에서 중요한 키워드를찾기 위해 서신을 ᄐ

ᅳᆨ정 주제로 학습하고 로컬 대리 분석을적용하여 성공적으로 핵심 키워드를찾아낼 수 있음을보여주었 ᄃ

ᅡ.

보

ᆫ 논문은다음과 같이 구성된다. 2절에서 서신 빅데이터 설계 및 구현에 대해 구체적으로 살펴보고 3절에서 서신을 통해 나타난 거주지 및 출신지에 대한 분포를알아본다. 4절에서 토픽 모델링과 로컬 대 ᄅ

ᅵ 분석을적용한 서신 주제 분석에 대해 서술하고 마지막으로 5절에서 결론 및 향후 연구를제시한다.

2. 서신 데이터베이스 구축

Figure 2.1 Entity-relationship diagram for the correspondence database

Figure 2.1은서신 데이터베이스 구축을위한 개체관계도를나타낸다. 각 서신마다 일련번호를부여 ᄒ

ᅡ였으며 한 서신은여러면으로 구성된다. 각 서신의 면에 해당 이미지를업로드하도록 하였다. 서신 ᄋ

ᅵ미지를업로드할 때 해당 서신의 내용을요약할 수 있는태그를 입력하도록하였다. 이는한글과 한자 ᄀ

ᅡ 섞여 있는편지의 전체 내용을데이터베이스에 입력하기에 어려움이 있기 때문에 최대한 원본서신의 ᄂ

ᅢ용을살릴 수 있도록형용사 그리고 명사 위주로 서신 내용을요약하여 입력하였다. 재중 동포 연구에 ᄉ

ᅥ 현거주지 및 한국에서의 거주지는이주에관련된유용한 의미가 있으므로 출신지와 현 거주지 정보를

(4)

과

ᆫ리하며, 서신의 주제 대분류는가족찾기 이외의 주제를찾아내는데 도움이 되도록서신 입력자가 정 ᄎ

ᅵ, 경제, 사회, 문화 등미리 정의된주제에 해당하는내용이 있다고 판단되면 지정하도록하였다. 한 ᄉ

ᅥ신이 여러 측면의 내용을 포함할 경우 다중지정이 가능하다. 마지막으로 발송인의 정보를관리하되 ᄀ

ᅢ인 정보는암호화하여 입력하도록하였다.

ᅮ축된 데이터베이스는 데이터베이스 관리자, 서신 입력자 및 일반 사용자로 권한을 나누어 개발 ᄒ

ᅡ였다. Figure 2.2는 서신 데이터베이스 구축 인터페이스를 나타낸다. 구현된 서신 데이터베이스는 https://letter.dongduk.ac.kr에서 운영중이다.

Figure 2.2 User interface for the correspondence database

Figure 2.2의 왼쪽 위의 그림은 서신 입력자가 서신을 데이터베이스에 입력하는 사용자 인터페이스 르

ᆯ보여준다. 모든서신은 봉투가 포함되어 있고, 봉투에는 발송지 정보가 기재되어 있으므로 봉투 이 ᄆ

ᅵ지도 데이터베이스에 업로드하였으며, 이때 서신 발송지를함께 입력하였다. 각 서신은한 장에서 최 ᄃ

ᅢ 10장까지로 구성되어 있으므로 새로운장을생성하여 서신 당 여러 장으로 구성된 편지들을 입력하 ᄃ

ᅩ록하였다. 한 장의 서신을 입력할 때 서신 내용을요약할 수 있도록태그 형태로 입력하도록하였는 ᄃ

ᅦ Figure 2.2의 아래 그림에서 볼수 있다. 마지막으로 오른쪽그림은 일반 사용자가 검색을한 후 검 새

ᆨ 내용을 분석을위해 파일로 저장할 수 있는 일반 사용자 인터페이스이다. 검색은태그 기반 검색, 주 ᄌ

ᅦ 기반 검색, 발송자 기반 검색, 발송지 기반 검색, 발송일 기준검색이 가능하다.

(5)

3. 서신 발송지 분포 및 출신지 분석 보

ᆫ장에서는서신의 내용을 분석하기에 앞서, 서신이 발송된 중국지역 분포를조사하고 서신에서 출 ᄉ

ᅵᆫ지로 언급된지역에 대한 분석 결과를시각화하여 제시한다.

3.1. 서신 발송지 분포 ᄉ

ᅥ신 발송지 분포는각 서신의 봉투에 기재되어 있는 주소를기반으로 하였으며, 총 81,827 통의 서 ᄉ

ᅵᆫ 중 1.39%에 해당하는 1,137통은발송지를 “알수없음”으로 분류하였는데 이는 중국의 행정구역이 변 ᄒ

ᅪ함에 따라 데이터베이스에 정의된행정구역에서 찾을수 없는경우를 뜻한다. 서신 발송지 분포는다 ᄋ

ᆷ과 같다. 대부분의 서신은재중 동포의 주요 이주 지역으로 알려진 동북 3성으로부터 발송되었으며 ᄀ

ᅵᆯ림성이 31,700통 (38.7%)으로 가장 많았고, 흑룡강성 29,950통 (36.6%),그리고 요녕성이 14,945통 (18.3%) 순으로 그 비율이 전체의 93.6%에 달하였다. 그 이외의 지역은내몽골자치구 1,067통 (1.3%), ᄇ

ᅦ이징시 847통 (1.0%) 등이었다.

Table 3.1 Regional distribution

Jilin number of Heilongjiang number of Liaoning number of

correspondence correspondence correspondence

(%) (%) (%)

1 Yanji 4,371 Mudanjiang 3,376 Shenyang 7,538

(13.8%) (26.2%) (50.4%)

2 Jilin 2,180 Harbin 3,363 Musunshi 1,796

city (6.9%) (11.2%) (12.0%)

3 Yanbian 2,041 Oh- 1,503 Ansan 577

(6.4%) sanghyun (5.0%) (3.9%)

4 Tao- 1,795 Haerim 1,169 Dandong 445

Mun Si (5.7%) (3.9%) (3.0%)

5 Young 1,484 Qiqihar 1,020 Cheoryeo 433

jeong (4.7%) (3.4%) -ng (2.9%)

6 Wang- 1,115 Nyongan 962 Gaewon 317

cheong (3.5%) (3.2%) (2.1%)

7 Chang- 1,103 Cersei 853 Dalian 259

chun (3.5%) (2.9%) (1.7%)

8 Ando 879 Sangji 661 Shinbin 242

(2.8%) (2.2%) (1.6%)

9 Helong 857 Gamoksa 641 Yonggu 235

(2.7%) (2.1%) (1.6%)

10 Yung- 809 Gyedong 601 Yooyang 203

gil (2.6%) (2.0%) (1.4%)

Total 31,700 Total 29,950 Total 14,945

Table 3.1은 동북 3성의 하위 행정구역별 발송지 분포 중에서 상위 10개 지역을나타낸다. 길림성의 겨

ᆼ우는연길시, 길림시, 연변 조선족자치구, 도문시, 그리고 용정시의 순으로 서신이 발송되었으며, 흑 ᄅ

ᆼ강 성의 경우는 목단강시, 하얼빈시, 오상현, 해림현, 치치하얼시의 순으로 서신이 발송되었다. 마지 ᄆ

ᆨ으로 요녕성의 경우는 심양시, 무순시, 안산시, 단동시, 그리고 철령시 순으로 서신이 발송되었다.

ᅥ신 발송지의 분포가 재중 동포의 주거지 분포와 일치하지는않을지라도 재중 동포의 주거지 분포를 ᄋ

ᅲ추해볼수 있는기초 자료로활용해 볼수 있다. 시사주간에서 발표한 2012년도 기준 재중동포 주거 ᄌ

ᅵ 분포에 따르면 길림성 104만명, 요녕성 32만 8천명, 그리고 흑룡강성이 24만명인데 비해서 서신 발 ᄉ

ᆼ지는 혹룡강성에서 발송된서신이 요녕성에서 발송된서신보다 많았다. 또한 가장 많은서신이 발송 되

ᆫ 길림성의 연길시, 길림시, 연변조선족자치구, 그리고 도문시 등이 평지에 주로 분포하고 있는것으로

(6)

ᅩ아 재중동포들이 주로 벼농사에 종사하고 있음을확인할 수 있었다. 현재에도 재중 동포들은계속적 ᄋ

ᅳ로 이주하고 있으며, 특히 한중수교이후 한국으로의 재이주가활발히 이루어지고 있어 연변조선족자 ᄎ

ᅵ구의 경우 점차 조선족 집거촌이 사라지고 있는현실이다.

3.2. 재중 동포의 출신지 분석 ᄌ

ᅢ중 동포의 중국으로의 이주는다양한 경로를거치므로 서신 속에서 출신지로 언급된지명을 분석하 느

ᆫ것은재중 동포의 이주사에 있어서도 중요한 자료가될수 있다. 대부분의 서신이 가족찾기를 목적 ᄋ

ᅳ로 발송되었고, 가족을언급하기 위해서는 본인이 살았던 고향을언급한 경우가 대부분이다. 따라서 ᄃ

ᅦ이터베이스로 구축할 때 제 2장에서 설명한 바와 같이 출신지 항목을만들고, 서신을 입력할 때, 서신 ᄋ

ᅴ 내용 중에서 고향을명확히 언급한 경우에 직접 입력하도록하였다. 고향에 대한 언급이 명확한 서신 ᄎ

ᅩᆼ 29,077통 중에서 언급된지명을기준으로 대한민국과 북한으로 나누었으며, 대한민국과 북한 내에서 ᄃ

ᅩ 단위로 분석을 실시하였다.

Figure 3.1은 대한민국과 북한의 도 단위 분석을 시각화 한 결과이다. 서신에서 현재의 행정구역이 ᄋ

ᅡ닌 출신지명에 대해 언급한 경우, 데이터베이스 입력자가 현재의 해당 출신지로 변경하여 입력하도록 ᄒ

ᅡ였다. 출신지가 대한민국인 서신은 총 23,171통으로 79.7%를차지하였고, 북한인 서신은 총 5,906통 ᄋ

ᅳ로 20.3%를 차지하였다. 대한민국이 출신지인 경우 경상북도가 월등하게 높았고 다음이 경상남도, ᄀ

ᅡᆼ원도, 그리고 전라남도 순이었다. 출신지가 경상도가 많은이유는 일제 강점기에 일본에서 가장 가까 ᄋ

ᅯᆻ기 때문인 것으로 보인다. 북한의 경우 평안북도, 함경북도 그리고 함경남도의 순으로 나타났다. 강 ᄋ

ᆫ도는대한민국과 북한 모두에 속할 수 있으나 북한쪽의 강원도는 소수였으므로 대한민국으로 분류하 ᄋ

ᅧᆻ다.

Figure 3.1 Visualization of hometown distribution

(7)

4. 태그를 활용한 서신 내용 분석 보

ᆫ장에서는데이터베이스 구축시 생성된태그를활용하여 토픽 모델링을적용하여 대분류 내의 세부 ᄌ

ᅮ제를찾아내는과정을서술한다. 또한 정치와 경제 분야의 서신을나이브 베이즈를적용하여 서신을 ᄌ

ᅮ제별로 자동 분류한 다음,로컬 대리분석을적용하여 서신별 핵심 키워드를추출한 과정에 대하여 자 ᄉ

ᅦ히 설명한다.

4.1. 토픽 모델링을 적용한 세부 주제 추출 ᄐ

ᅩ픽 모델링은 문서 속에 잠재되어 있는주제를단어의 통계적확률 분포에 의해 찾아내는비지도학습 ᄋ

ᅴ 일종으로 일반적으로 텍스트에 적용되어왔으나, 유전자정보, 네트워크 구조 등을 분석하는데도 널리 화

ᆯ용되고 있다. 본연구에서는 데이터베이스 구축과정에서 서신의 내용을파악하기 위해 입력자가 정 ᄎ

ᅵ, 경제, 사회, 문화 등미리 지정해 둔범주로 분류하도록한 다음,대분류 내에서 세부 주제를추출하 느

ᆫ데 토픽 모델링을적용하였다.

ᅢ중 동포의 한중수교 이전의 생활상을파악하기 위해서 사회, 문화 대분류를정의하였으나, 두 주제 ᄀ

ᅡᆫ의 큰차이가 나타나지 않았고, 가족찾기 내용과 많은부분겹쳐진 토픽이 나타난 세부 주제를도출 ᄒ

ᅡ기 어려웠다. 경제 분야의 서신 내용의 대부분은 물품요청이 주를이루었으며, 도출된단어들은사전 ᄅ

ᅲ, 학습서 등자기 개발을위한 서적과 잡지, 달력, 녹음테이프 등고국의 소식을 들을수 있거나 연관 되

ᆫ 물품들이 주를이루었다. 가장 의미 있는세부 주제를도출할 수 있었던 대분류는정치 분야였으며, ᄐ

ᅩ픽모델링을적용한 시각화 결과는 Figure 4.1과 같다.

Figure 4.1 Visualization of topic modeling

Figure 4.1은세부 주제를 10개로 지정했을경우, 나타나는토픽들의 독립성을 보여준다. 토픽 1과 ᄐ

ᅩ픽 2는다른토픽들과 매우 뚜렷한 독립성을갖는토픽으로 정치 분야에 속한 서신 내에서 구체적 세 ᄇ

ᅮ 토픽으로 볼수 있다. 토픽 3에서 토픽 10까지는그림에서 보듯이 토픽간의 겹침 현상이 심하고 이 르

ᆯ바탕으로 볼때 대부분의 서신에 포함된가족찾기관련 내용임을알 수 있다. 서신의 목적이 가족찾 ᄀ

ᅵ였으므로 거의 대부분의 서신이 가족을찾기 위한 내용이 포함되어 있다는 특징이 있으며, 이들 중에 ᄉ

ᅥ 그 밖의 다른주제를언급한 경우 토픽 1과 토픽 2와 같이 매우 분리된토픽으로 시각화된다. 키워드

(8)

ᅮ출을 위해서는정보 검색에서 많이 사용되는 Manning 등 (2008)이 제시한 term frequency-inverse document frequency (TF-IDF)가중치 값을모두 적용하였다. Kim 등 (2016) TF-IDF를적용하면 보 ᄃ

ᅡ 효율적으로 키워드를추출할 수 있다는것을보여주었다.

Table 4.1에서 토픽 1과 토픽 2을 구성하는상위 30개의 키워드 중에서 다른주제와 겹치지 않는핵 시

ᆷ 키워드 10개를보여준다. 먼저, 토픽 1을구성하는핵심 키워드는 북한, 요구, 남북,자본주의, 암투, ᄇ

ᅡᆼ조, 발전, 통일, 비극,그리고 건설로 남북한관계를주제로 언급하였음을보여준다. 특히, 당시의 대 ᄇ

ᅮᆨ정책이나 남북 통일의 염원등을언급한 서신이 다수 있음을알 수 있다. 토픽 2는한국정부에 대한 ᄋ

ᅭ청이라는주제가 포함되어 있음을알 수 있다. 서신을 통해 재중 동포들은고국방문을요청하였고 가 ᄌ

ᆨ찾기 프로그램의 성과로서 재중 동포들의 한국방문이 이루어졌다. 또한 정부에 재중 동포에 대한 대 ᄋ

ᅮ를요청하는내용도 다수 포함되어 있다.

Table 4.1 Selected 10 keywords

Topic Subject Keywords

1 Relationship between North Korea, request, South Korea South Korea and and North Korea, capitalism, veiled North Korea enmity, connivance, development,

unification, tragedy, establishment 2 Requests to Korean government, regret, commings and government goings, visit, eagerness, cooperation,

homeland, opportunity, request, effort

4.2. 로컬 대리 분석을 적용한 핵심 키워드 추출

4.1절에서 살펴본토픽 모델링은 Kim 등 (2016)의 연구에 따르면 단어의 빈도수나 TF-IDF 가중치 ᄀ

ᆹ을 사용하므로 희소하지만 중요한 의미가 있는키워드를찾아내기 어렵다. 재중 동포 서신 데이터베 ᄋ

ᅵ스 특성상, 자주 사용되는단어들은한국지명, 중국지명, 호칭 등으로 고국에 있는가족을찾는데 필 ᄋ

ᅭ한 단어들이 대부분이다. 따라서 서신으로부터 인문학적 의미를지닐 수 있는키워드를찾고자 한다 ᄆ

ᅧᆫ 단어의확률 분포가 아닌 다른방법을적용하는것이 적절하다. 특히 서신 한 장 속에서 중요한 의미 ᄅ

ᅳᆯ갖는키워드를 추출한다면, 데이터베이스화 되어있는서신으로부터 의미를찾는데 큰기여를할 수 이

ᆻ다.

ᅵ를위해 로컬 대리 분석 기법을서신에 적용하였다. 로컬 대리 분석이란 데이터 한 개에 대해 기계

℡℡학습을 통해 분류된 결과를해석할 수 있는 분석 기법이다. 학습기법과관계없이 모델을설명할 수 이

ᆻ으며, 개별 데이터에 대하여 해석을해내는것이 로컬 대리 분석의 특징이다. 본연구에 로컬 대리 분 ᄉ

ᆨ을 적용하기 위해서 서신들의 주제 분류를 위해 나이브 베이즈 알고리즘을 사용하였다. Kowsari 등 (2019)이 제시한 바와 같이 텍스트를이진 분류하거나 다중 분류하는데는다양한 기계 학습알고리즘을 ᄀ

ᅩ려해 볼수 있다. 특히 요즈음엔 딥러닝의 순환신경망이 언어의 의미를파악하는데 효율적인 것으로 ᄋ

ᆯ려졌으나 본연구에서 사용된텍스트는이미지로 정의된서신을요약하기 위한 태그였기 때문에 문맥 ᄋ

ᅴ 파악보다는단어의확률 분포를활용하는나이브 베이즈를선택하였다. Kim 등 (2017)의 연구에 따 ᄅ

ᅳ면 나이브 베이즈 알고리즘이 다양한 도메인의 텍스트 분류에 효율적임이 알려졌다.

Figure 4.2는나이브 베이즈로 정치 분야 서신과 경제 분야의 이진 분류 모델을생성한 다음, 정치 분 ᄋ

ᅣ라고 예측한 서신에 로컬 대리 분석을적용하여 시각화한 것이다. 왼쪽그림에서 0은경제 분야를나 ᄐ

ᅡ내고 푸른색으로, 1은정치 분야를나타내며 각 분야에서 중요한 변수가 순차적으로 등장한다. 0에 해 ᄃ

ᅡᆼ하는경제 분야관련 키워드가 없는것은해당 서신이 100% 정치 분야 서신이기 때문이다. 이 서신을 저

ᆼ치로 분류하는데 기여한 중요 키워드는핵문제, 유엔, 이중성, 륙자 회담, 모순, 공개화, 베이커장관,

(9)

ᅱ험성, 핵사찰, 그리고 선언이라는키워드였다. 오른쪽그림에서는보다 중요한 단어가 진한 주홍색으 ᄅ

ᅩ 시각화되어 나타난다. 로컬 대리 분석의 특징은데이터마다 적용이 가능하다는 것으로 텍스트의 경 ᄋ

ᅮ 문서마다 적용이 가능하다.

Figure 4.2 Visualization of local surrogate for the politics subject

서

ᆯ명가능 인공지능기술의 일종인 로컬 대리 분석은기계 학습모델에서 모델의 예측을설명하기 위해 ᄉ

ᅡ용되고 있다. 본연구에서는 서신 데이터베이스를활용하는데 있어 원하는 서신을찾고 이미지로 저 ᄌ

ᅡᆼ된서신을모두 읽지 않고도 해당 주제에 대한 핵심 키워드를찾는데활용하기 위해 적용하였다. 예를 ᄃ

ᆯ어 정치 분야의 서신을 분석하고자 한다면, 먼저 높은확률 순서로 기계가 예측한 정치 분야의 서신을 ᄉ

ᅥᆫ정한 해당 서신들에 로컬 대리 분석을적용하여 중요 키워드를 찾아내는것이다. 총 8만통에 달하는 ᄉ

ᅥ신을모두 읽고 서신의 내용 중정치 분야에서 언급된주제 및 핵심 키워드들을사람이 찾는다는것은 ᄀ

ᅥ의 불가능한 일일 것이다. 로컬 대리 분석은단순히 기계의 예측결과를설명하는데서 벗어나 각 데 ᄋ

ᅵ터에서 중요한 역할을하는희소 키워드를도출해 냄으로써 기존의 단어확률 분포로는찾아낼 수 없 느

ᆫ 중요한 키워드를찾아낼 수 있다.

5. 결론 및 향후 연구 보

ᆫ연구에서는 KBS한민족방송가족찾기 프로그램으로 발송된재중 동포 서신 8만여 통에 대하여 ᄃ

ᅦ이터베이스를구축하고 검색 기능을 통해 원하는서신을검색 및 저장한 다음토픽 모델링과 로컬 대 ᄅ

ᅵ 분석을적용하여 가족찾기 이외의 서신 내용을요약할 수 있는핵심 키워드를도출하는방법을제시 ᄒ

ᅡ였다. 이미 발송된지 짧게는 30년에서 45년 가까이된서신들이고 시기적으로 한중수교 이전의 재 주

ᆼ 동포들로부터 발송된서신들이므로 그 학술적 가치가 높아 데이터베이스로 구축하는작업 자체가 무 ᄎ

ᅥᆨ 가치 있는작업이다. 또한 아직까지 인문학 연구에 빅데이터를활용하는방법론이 적용된 연구가 드 ᄆ

ᆯ다는것을감안하면, 재중동포의 생활상을파악하기 위해 빅데이터 분석 기술을적용하여 인문학과 분 ᄉ

ᅥᆨ 기술의 융합을도모한 측면에서 커다란 의미가 있다.

ᅥ신 데이터베이스로부터 찾아내고자 한 주제나 핵심 키워드는서신의 본 목적인 가족찾기를제외한

(10)

ᅢ용에서 나타난다. 이를위해 서신을 입력하는단계에서 서신 입력자가 서신의 내용을요약할 수 있는 ᄐ

ᅢ그를 입력하도록하였으며, 서신의 내용이 분류될수 있는대분류를정치, 경제, 사회, 문화 등으로 나 ᄂ

ᅮ어 다중선택할 수 있도록하였다. 검색 과정에서 이렇게 입력한 태그 기반 검색 및 주제 기반 검색이 ᄀ

ᅡ능하고, 검색 결과를따로 저장하여 분석 작업에활용하도록하였다.

ᅢ분류 내의 세부 주제를찾기 위해 토픽 모델링을 실시하였다. 정치, 경제, 사회, 문화의 모든대분 ᄅ

ᅲ에 대해 토픽 모델링을적용한 결과 독립적인 주제를도출할 수 있는 분야는정치 분야였다. 정치 분 ᄋ

ᅣ에 토픽 모델링을적용해 시각화 한 결과 2개의 독립적 세부 주제를도출하였으며 이는남북관계에 ᄃ

ᅢ한 내용과 한국정부에게 요청하는내용이었다. 남북관계에 대한 주제에는대북 문제, 통일 기원,남 ᄒ

ᅡᆫ의 발전 등이 키워드로 등장하였으며, 한국정부에게 요청한 내용은 고국 방문요청, 정부에 대한 서 ᄋ

ᅮᆫ함 등이 키워드로 등장하였다. 실제로 이 서신들의 결과로 재중 동포의 고국방문이 이루어지기도 하 ᄋ

ᅧᆻ다.

ᅩ픽 모델링을 통해 도출된키워드들은 TF-IDF값을갖는단어들의확률 분포를기반으로 하기 때문 ᄋ

ᅦ 정치 분야에서 의미 있는서신들을찾는데 어려움이 있다. 따라서 정치 분야의 서신과 그 외 분야의 ᄉ

ᅥ신을 나이브 베이즈로 학습하여 정치 분야의 서신 중 확률이 높은 서신을 찾아내고, 그 서신에 로컬 ᄃ

ᅢ리 분석을적용하여 정치 분야로 분류하는데큰영향을미친 키워드를선정하였다. 이 방법은 본연구 ᄋ

ᅦ 사용된서신들의 많은단어들이 가족호칭, 중국지명, 한국지명 등가족을찾기 위한 단어들의 비중 ᄋ

ᅵ 크기 때문에 드러나지 못했던 희소 키워드들을찾아내는데큰역할을할 수 있다. 100%확률로 정 ᄎ

ᅵ 서신으로 분류된서신의 핵심 키워드는핵문제, 유엔, 핵사찰, 위험성, 륙자회담, 베이커 장관,모순, ᄉ

ᅥᆫ언 등으로 토픽 모델링에서 찾을수 없는 중요한 키워드들을찾아낼 수 있었다.

보

ᆫ 연구의 한계점은 다음과 같다. 한중 수교 이전의 재중 동포의 삶과 문화에 대해 연구하기 위해서 ᄂ

ᅳᆫ사회 및 문화로 분류된서신들로부터 의미 있는결과를도출할 것으로 기대했으나, 이 두 분야는 실 지

ᆯ적으로 가족찾기 주제와 겹쳐지는주제들로 구성된키워드만 도출할 수 있었다. 고향의 가족을찾기 ᄋ

ᅱ해 편지를쓰다 보니 그 내용안에 현재의 삶이 포함되어 있는서신들도 다수였고, 당시의 상황 상 개 ᄋ

ᅵᆫ적 사실을많이 언급하지 않아 특징이 있는키워드를도출하는것이 어려웠다. 현재 정치 분야에 대해 ᄉ

ᅥ만 토픽 모델링 및 로컬 대리 분석으로 의미 있는결과를도출하였으나, 서신으로부터 가족찾기 연관 ᄂ

ᅢ용들을자동적으로 학습시켜 이 서신들을제거하고 남은서신들을다시 학습하도록한다면, 경제, 사 ᄒ

ᅬ, 문화 측면에서도 새롭게 도출할 수 있을것으로 기대된다.

References

Bang, H. and Moon, H. (2019). A study on the methodology to express the main topics of text in time series using text mining. Journal of the Korean Data & Information Science Society, 30, 1259-1276.

Blei, D. M. (2003). Latent dirichlet allocation. Journal of Machine Learning Research, 3, 993-1022.

Gunning, D., Stefik, M., Choi, J., Miller, T., Stumpf, S. and Yang, G. (2019). XAI-Explainable artificial intelligence. Sci. Robot , 4, eaay712.

Kim, H. and Ryu, K. (2017). A machine learning approach to classification of case reports on adverse drug reactions using text mining of expert opinions. Lecture Notes in Electronic Engineering, 474, 1072-1077.

Kim, H., Kim, D. and Jo, J. (2016). Patent data analysis using clique analysis in a keyword network.

Journal of the Korean Data & Information Science Society, 27, 1-12.

Kowsari, K., Meimandi, K. J., Heidarysafa, M., Mendu, S., Barnes, L. E. and Brown, D. E. (2019). Text classification algorithms: A survey. Information, 10, 150.

Lim, Y. S., Lee S. Y., Lee J. N., Ryu, B. K. and Kim, H. H. (2020). A technique for product effect analysis using online customer reviews. KIPS Transactions on Software and Data Engineering, 9, 259-266.

Manning, C. D., Raghavan, P. and Schetze, H. (2008). Introduction to information retrieval , Cambridge

University Press.

(11)

Ribeiro, M. T., Singh, S. and Guestrin, C. (2016). “Why should I trust you?” explaining the predictions of any classifier, Proceedings of KDD , 1135-1144.

Shickel, B., Tighe, P. J., Bihorac, A. and Rashidi, P. (2018) Deep EHR: a survey of recent advances in deep learning techniques for electronic health record (EHR) analysis. IEEE Journal of Biomedical and Health Informatics, 22, 1589-1604.

Son, W. (2020) Skewness of chi-square statistic for imbalanced text data. Journal of the Korean Data &

Information Science Society, 31, 807-821.

수치

Figure 2.1 Entity-relationship diagram for the correspondence database
Figure 2.2 User interface for the correspondence database
Table 3.1 Regional distribution
Figure 3.1 Visualization of hometown distribution
+4

참조

관련 문서

It is our aim in this paper to contribute to the literature on the subject, both from the modeling and strategy design points of view, so that the paper is twofold: it

Basic aspects of AUTOSAR architecture and methodology Safety mechanisms supported by AUTOSAR.. Technical safety concepts supported by AUTOSAR Relationship to ISO

“With the MySQL Query Analyzer, we were able to identify and analyze problematic SQL code, and triple our database performance. More importantly, we were able to accomplish

GDP impact of COVID-19 spread, public health response, and economic policies. Virus spread and public

In the simple frequency analysis, TF-IDF analysis, and Topic analysis results, the meaning and social impact of future transport technology are explored, and

This paper analyzes the effectiveness of adopting fractal geometry in teaching infinite sequences, a topic which students find especially difficult, using

In this study, 3D PCL scaffolds were fabricated by using notch type nozzle via fused deposition modeling (FDM) to improve the cell adhesion and

In this study, the existing material of the air conditioner compressor and Al6061 material were applied through structural analysis and fluid-structure coupling analysis using