• 검색 결과가 없습니다.

이 연구에서 사용할 웹스크레이핑이란 온라인 데이터 수집 방법 중 하나로, 온 라인 웹페이지에 공개되어 있는 정보를 추출하는 방법이다. 예를 들어 화면에 보 이는 정보 혹은 각 웹사이트의 HTML 코드에 들어 있는 정보를 수집해 오는 온라 인 데이터 수집 방법이다. 이 연구에서는 웹스크레이핑을 통해 온라인 쇼핑몰에 등록되어 있는 개별 상품의 상품명, 가격, 판매량, 별점 정보 등의 항목을 자동화 된 과정을 통해 특정 시간 간격으로 수집하여 데이터의 형태로 저장하였다. 웹스 크레이핑을 활용하면 온라인 유통채널에 등록된 품목에 대한 전수조사가 가능하 다. 이 연구에서 수집하게 될 지마켓 웹사이트에서 마늘 품목의 상품명(SKU), 가 격, 만족도, 일별 판매량 등의 정보 수집을 예로 들어서 웹스크레이핑 사용 과정 을 소개하면 다음과 같다.

<그림 2-1> 웹스크레이핑 과정

활용 목적 및 수집이 필요한 데이터 항목 정의

데이터 분석 온라인 쇼핑몰 선정

예) 지마켓 1

수집이 필요한 항목 설정

예) 마늘의 각 상품명(SKU), 가격, 구매량 2

데이터 저장 형태 구성

예) 상품명(SKU), 구매량, 별점 순 3

데이터 저장포맷 설정

예) xlsx, csv, txt, SQL database 등 4

web-scrape 자동화 설정 예) 매일 오전 8시 수집 5

프로그램 구동 테스트 및 개선 6

web-scrape 작동 및 데이터 수집 웹사이트 변화에 따른 에러 발생 모니터링 7

자료: Hillen(2019)의 내용을 바탕으로 저자 재작성.

보통 웹사이트에 표기된 정보는 웹사이트의 HTML 코드에 저장되어 있는데, 이 들 정보는 화면상에서 <그림 2-2>와 같이 정리되어 표현된다.

<그림 2-2> 웹사이트 화면에서 정보가 표현되는 방법

자료: 지마켓 마늘 카테고리 화면을 캡처하여 저자 재구성.

자료: 지마켓 마늘 카테고리 화면을 캡처하여 저자 재구성.

<그림 2-2>에서 확인할 수 있듯이, SKU, 가격, 배송조건, 별점, 구매량 정보 등 은 각각 따로 입력되는 방식으로 설계되어 있으므로, 수집을 하고자 하는 항목을 설정한 후, 웹스크레이핑을 통해 수집을 수행하면 해당 카테고리에 등록된 전체 SKU에 대해 수집이 이루어진다. 이 과정을 통해 2021년 4월 30일 지마켓에 등록 된 2,511개의 마늘 항목에 대해 수집한 원데이터는 <그림 2-3>과 같으며, 형태소

분석을 진행하여 각 SKU에서 중량 정보를 추출하면, 100g당 가격을 계산할 수 있 고, 가공 형태, 판매량, 매출 정보를 추출할 수 있다.

<그림 2-3> 웹스크레이핑을 통해 수집한 원데이터

자료: 연구원 수집.

웹스크레이핑 프로그램은 파이썬과 같은 소프트웨어를 활용하여 자체 제작을 하거나 외부 전문 업체와의 협업을 통해 진행할 수 있다. 자체 제작 시 고려해야 할 부분은 각 온라인 쇼핑몰 웹사이트의 HTML 설계 구조 변화에 민감하다는 점이 다. 따라서, 자동화 과정에 대한 지속적 모니터링과 필요시 개선이 요구되므로 자 체 제작과 전문 업체와의 협업 중 정확한 데이터 구축을 가능하게 해주는 방향으로 선택할 필요가 있다.

관련 문서