• 검색 결과가 없습니다.

De Boe(2014)와 Eberebdu(2016)에 따르면 최근 생성되고 있는 빅데이터 (Big Data)의 85%가 비정형 데이터로 그 비중은 점점 높아지고 있다. 날마다 쏟 아져 나오는 문서, 텍스트, 이미지 등의 비정형 빅데이터를 분석하고 그 의미를 파악하여, 정치, 경제, 행정, 외교, 안보, 그 외 각종 비즈니스 전략에 효과적으로 활용하기 위해서는 적합한 분석 방법이 필요하다. 온라인 쇼핑몰 데이터에서 수 집되는 데이터 중 대표적인 비정형 데이터는 SKU이다. SKU는 텍스트 형태로 저 장된 비정형 데이터로 SKU 문장에 포함된 상세정보를 추출하기 위해서는 형태 소 분석을 수행하여야 한다.

형태소 분석이란 자연어 처리(Natural Language Processing: NLP) 기술의 첫 분석 단계로, 전체 문장을 의미가 있는 최소 단위, 문법적(명사, 동사, 형용사, 부사 등) 최소 단위, 관계적 의미를 나타내는 단위로 추출하는 방법이다. 좀 더 구 체적으로 말하면 문장을 토큰화(Tokenization)하여 형태소 단위로 구분한 후 언어적인 구조를 파악하는 것이다<그림 2-5>.

<그림 2-5> 토큰화(Tokenization)를 통한 형태소 분석

자료: 연구원 작성.

대표적인 활용 사례로는 각 단어의 빈도수 등을 계산하여 한눈에 보여주는 낱 말 구름(Word Cloud) 생성, 추출된 단어 사이의 연결 정도 중심성을 분석하는

의미연결망분석(Semantic Network Analysis), 단어에 담긴 감정을 분석하여 포스팅의 감성이 긍정적인지 부정적인지 여부를 분석해주는 감성분석(Senti-ment Analysis) 등을 들 수 있다<그림 2-6>.

<그림 2-6> 형태소 분석의 예: 낱말 구름(왼쪽)과 의미 연결망(오른쪽)

자료: Dreamstime.com (왼쪽 낱말 구름).

본 연구에서는 SKU 문장에 대해 형태소 분석을 수행하여 가공 형태, 중량 정보 를 추출하였다.15) 2021년 4월 30일 지마켓에서 수집한 마늘 카테고리에 속해 있 는 전체 SKU에 대해 형태소를 분석한 결과는 <그림 2-7>과 같다. 첫 번째 표는 지마켓에서 수집한 마늘 카테고리의 2,511개 SKU 중 일부를 캡처한 화면이며, 두 번째 표는 이 전체 SKU에 나타난 단어들의 빈도수를 정리한 결과이다. 세 번 째 표는 빈도수를 토대로 향후 다른 유통채널에서 수집한 SKU 형태소 분석을 위 해 개발할 분석 프로그램에 활용될 사전이다.

15) 형태소 분석과 관련된 자세한 내용 및 R를 활용한 구축 방법은 다음을 참고하여 진행하였음. 더 자세 한 내용은 <부록> 참고.

이창기 2019. 자연언어처리. <https://cs.kangwon.ac.kr/~leeck/NLP/05_morp.pdf>. 검색 일: 2021. 6. 11.

북다운. <https://bookdown.org/yuaye_kt/RTIPS/Textmining.html>. 검색일: 2021. 6. 11.

위키독스. <https://wikidocs.net/21698>. 검색일: 2021. 6. 11.

티스토리. <https://prjmin.tistory.com/21>. 검색일: 2021. 6. 11.

티스토리. <https://hs5555.tistory.com/71>. 검색일: 2021. 6. 11.

<그림 2-7> SKU 형태소 분석 결과의 예: 지마켓 마늘 품목

(1) 전체 SKU (2) 빈도수 (3) 형태소 분석후 구축한 사전

자료: 저자 형태소 분석과 리비와의 협업을 통해 분석한 자료를 바탕으로 저자 작성.

형태소 분석의 경우 사용하는 한국어 문법 형태소 분석기에 따라 결과가 달라 질 수 있어16) 상호 비교가 필요하므로 외부 협력 업체(리비17))와 협업을 진행하 였다. 저자의 경우 Mecab 패키지 기반의 NLP4kec를 사용하였고, 협력업체(리 비)의 경우에는 보다 폭넓은 형태소 분류 작업이 가능한 NER 모델18)을 활용하는 방식으로 상호 보완 작업을 진행하였다.

16) 서로 다른 분석기에 따라 형태소 분석 결과가 어떻게 달라지는지에 대해서는 <부록> 참고.

17) Leevi(https://leevi.co.kr/company.html)는 자연어처리(NLP)를 핵심 기술로 활용하여 데이터 분석 및 인공지능 솔루션을 제공하는 업체이다.

18) 티스토리. <https://stellarway.tistory.com/29>. 검색일: 2021. 6. 11.

관련 문서