나. 데이터 전처리 1) 뉴스데이터 전처리 - 통일대비 북한의 영유아 교육·보육 현황 분석 연구

가) 1차 데이터 정제

데이터 수집 후 전수를 대상으로 이루어진 개별 데이터 관찰 결과 언론사 간 같은 기사를 게시하여 데이터가 중복되는 케이스가 다수 발견되었다. 이에, 동일 한 뉴스의 경우 한건 씩만을 남기고 중복 뉴스를 제거하였고 한 건의 선정기준은 게시일이 가장 빠른 뉴스로 선정하였다. 그 결과, 358,918건의 뉴스가 제거되어 248,033건의 뉴스로 1차 데이터 정제가 이루어졌다.

나) 2차 데이터 정제

1차 데이터정제 결과인 248,033건을 대상으로 1%인 2,480건을 난수를 통해 단순 랜덤 샘플링하였고 샘플링된 데이터를 관찰한 결과 다음과 같은 노이즈데이 터⁷²⁾가 상당수 확인되었다. 북한이라는 폐쇄적인 큰 주제에서 영유아, 아동, 유치 원, 탁아소 등과 같은 상대적으로 관심이 적은 소주제에 대한 데이터를 폭넓게 수 집한 결과 많은 노이즈 데이터가 발생했다는 결론 끝에 뉴스의 본문을 배제하고 제목만을 통해 필터링하는 과정을 거쳤다.

[그림 Ⅲ-1-1] 노이즈 데이터 예시

72) 뉴스 본문 하단에 위치한 뉴스 헤드라인, 해쉬태그, 다른 뉴스의 링크 등의 요인에서 노이즈 데이터가 다수 발견됨이 확인되었다.

Ⅰ

Ⅱ

Ⅲ

Ⅳ

Ⅴ

제목에 북, 北 중 하나 이상을 반드시 포함하며 앞서 수집에 활용되었던 유치 원, 탁아소, 교육, 보육, 유아, 아동, 학교, 교양원에 추가적으로 어린이, 육아 키 워드를 선정하여 10개의 키워드가 하나 이상 제목에 포함되는 뉴스만을 필터링하 였다. 그 결과, 7,285개의 데이터를 선정하는 것으로 2차 데이터 정제 과정을 마 칠 수 있었다.

다) 3차 데이터 정제

노이즈가 상당부분 제거된 2차 데이터 정제 결과인 7,285개의 데이터를 대상 으로 데이터를 직접 개별 관찰해가며 필터링 키워드를 선정하였다. 해당 필터링 키워드가 포함된 뉴스를 제거하는 것으로 5,081개의 뉴스를 필터링하였다. 필터 링 키워드의 리스트와 선정기준은 다음과 같다.

[그림 Ⅲ-1-2] 3차 데이터 정제 필터링 키워드 및 필터링 근거

EDA⁷³⁾(Exploratory Data Analysis) 분석을 통해 전체적으로 데이터를 파악 하였다. 제목, 작성자, 작성시간, 본문 등의 칼럼을 가지는 데이터를 칼럼별로 이 상치 검사하였고 본문별 길이는 다음과 같았다.

73) EDA: 데이터를 다양한 각도에서 관찰하고 시각화하여 데이터를 이해하고 이상치를 발견하거나, 관계성 을 찾는 등 직관적 부분에 그 목적을 두는 분석방법

[그림 Ⅲ-1-3] 본문길이 히스토그램

분문 길이의 최솟값과 최댓값은 44, 9838로 나타났으며 평균길이는 584였 다.⁷⁴⁾ 언론사별로는 연합뉴스에서 가장 많은 뉴스를 게시됐으며 뉴스1, 뉴시스, 국민일보가 그 뒤를 이었다. 북한에 대하여 보수적 성향이 강한 연합뉴스, 뉴시스, 국민일보, 매일경제 등에서 진보성향의 언론사들보다 많은 뉴스가 게시하였다. 이 를 확인하면 다음과 같다.

[그림 Ⅲ-1-4] Top10 언론사별 북한육아관련 뉴스 데이터양

74) 음절단위로 카운트

Ⅰ

Ⅱ

Ⅲ

Ⅳ

Ⅴ

2) 블로그 데이터 전처리

가) 1차 데이터 정제

블로그 데이터의 경우 뉴스에 비해 대부분의 블로그 포스팅이 공신력과 객관성 이 약하다 판단되었다. 그에 따라 공신력 있는 ‘대한민국 통일부’, ‘민주평화통일 위원회’ 의 공식 블로그 위주의 2개의 블로그를 선정하였고 1,797개의 데이터를 분석대상으로 지정하여 1차 데이터 정제를 마쳤다.

나) 2차 데이터 정제

1차 데이터 정제 결과 선정된 1,797개의 데이터를 대상으로 뉴스데이터의 2차 정제와 같은 선정과정을 진행하였고 그 결과, 112개의 데이터가 정제되었다.

다) 3차 데이터 정제

3차 데이터 정제 역시, 뉴스데이터와 동일한 정제과정을 거쳤으며 필터링 키워 드의 리스트와 선정기준은 다음과 같으며, 그 결과 70개의 데이터를 정제하는 것 으로 필터링을 마치었다.

[그림 Ⅲ-1-5] 3차 데이터 정제 필터링 키워드 및 필터링 근거

문서에서 통일대비 북한의 영유아 교육·보육 현황 분석 연구 (페이지 186-189)