2부. 디지털 인문학의 연구 사례
디지털인문학의 빅데이터 활용 사례
머리말
Big Data 빅데이터 인문학
In this chapter
• 모바일 시대를 맞이하여 엄청난 양의 데이터 를 처리할 수 있는 빅데이터가 미래 사회의 차세대 패러다임으로 주목
• 빅데이터 안에서 숨겨진 의미 있는 패턴을 찾아내고 이를 기반으로 미래를 예측하는 것 이 바로 빅데이터 시대의 핵심 응용
• 빅데이터가 인문학과 결합한 형태인 “빅데이터 인문학(가칭)“이 새롭게 떠오르고 있음
• 빅데이터 인문학 분야가 초기 개념 정립 단계
• Digital Archiving을 통하여 축적된 인문학 관련 정보들을 기반으로 빅데이터 관련 기술을 활용 한 인문학 관련 연구 수행이나 결과 활용 필요
• 디지털 인문학 연구에서 빅데이터 활용에 대한 사례 제시
• 빅데이터 인문학의 대표적 도구인 구글의 엔그램 뷰어를 활용하여 인문학 연구에 정량적 분석 사례
• 디지털 도서에 나타난 방대한 양의 어휘 데이터를 조사하여 인간 문화의 유형을 파악
• 빅데이터 인문학이 인류의 오랜 자산인 도서나 문헌 등을 디지털화한 후에, 이를 기반으로 한 문화, 역사 등 의 연구는 인문학 연구방법론의 새로운 시도
구글 엔그램 뷰어(Google Ngram Viewer)
• 인문 정보나 지식이 축척된 도서, 출판자료 등을 디지털 기술 및 정보통신 기술을 활용하여 디지털화하는 작업은 국내외적으로 많은 사례들이 있음
• 텍스트나 이미지 형태로 디지털화한 자료들을 중심으로 구축된 데이터베 이스가 인문학 관점에서 보면 빅데이터로 볼 수 있음
• 대표적인 사례로 구글의 북스 라이브러리 프로젝트(Books Library Project)가 있으며, 이 프로젝트를 통해 현재까지 약 3,000만권의 책들을 디지털화
• 빅데이터 인문학은 빅데이터의 응용 분야를 인문학에 접목시킨 경우
• 빅데이터 인문학의 대표적인 도구로 엔그램 뷰어(Ngram viewer)가 있음
• 에레즈 에이든과 장바티스트 미셀은 구글 북스 라이브러리 프로젝트를 통 해 디지털화된 책들을 기반으로 특정 단어의 시기적 출현 빈도를 이용하 여 인류의 문화를 살펴볼 수 있는 기술을 개발하였는데, 이 기술의 핵심이 바로 구글의 엔그램 뷰어
• 엔그램뷰어를 이용하여 나온 결과를 분석하는 방법 ->컬처로믹스 (Culturomics)
구글 엔그램 뷰어(Google Ngram Viewer)
• 엔그램 뷰어는 인류 역사를 리모델링할 수 있는 진기한 발명
• 구글 북스라이브러리 프로젝트
• 실제 도서관이 사이버 공간에 존재하는 디지털 도서관으로 전환시키는 프로젝트
• 오프라인상의 책을 기계가 읽을 수 있는 형태로 만들기 위한 디지털 스캔 과정이 필수적
• 일정한 속도를 유지하면서 300쪽짜리 책 한권을 작업하는데 40분정도 걸림
• 책장을 넘기는 부대를 고용하여 온종일 카메라가 텍스트의 이미지를 찍는 동안 책장을 넘기게 함
• 컴퓨터 프로그램이 이미지에 포함된 문자들을 찾아내 알아보는 광학적 문자 판독 과정을 거쳐 디지털화한 이미지를 텍스트로 변환
• 엔그램 뷰어의 탄생
• 사생활이 담긴 내용을 검색을 통해서 공개된다면 저작권 침해 및 도덕적 문제가 발생할 수 있음
• 이를 해결하기 위하여 빅데이터 익명화 작업이 필수적임 -> 엔그램 방식을 도입
• 엔그램 방식을 도입 : 텍스트나 이야기 뭉치에서 n개의 단어 또는 음절 등이 연쇄적으로 등장하는 경우
• 지극히 사적인 기록은 빈도수가 적기 때문에 엔그램 방식은 저작권 침해 없이 자유로운 검색이 가능
구글 엔그램 뷰어(Google Ngram Viewer)
• 엔그램 뷰어의 원리 및 활용
• 산재해 있는 수많은 문자 언어들 속에서 같은 언어들을 쉽고 빠르게 찾는 방법
• 빈도수가 많은 단어일수록 인류의 관심과 사랑을 받은 단어이고 검색에 걸릴 확률이 높아짐
• 문자의 형태로 남은 언어는 과학적 연구에 알맞은 데이터세트를 제공해 주며, 문자 언어가 빅데이터의 가 장 오래된 조상
• 엔그램 뷰어라는 새로운 관찰 도구를 통해 역사학, 지리학, 사회학, 인류학 등에 이르기까지 변화하는 세상 을 골고루 볼 수 있음
• 엔그램 뷰어는 인문학이 이전에는 불가능했던 방식으로 문화적 영향을 통계적으로 분석하는 획기적인 방 법을 제공
• 엔그램 뷰어를 통해 인류가 미처 알아내지 못했던 흥미로운 수많은 역사적 사실들을 밝혀낼 수 있음
구글 엔그램 뷰어(Google Ngram Viewer)
• 엔그램 뷰어는 구글 북스 라이브러리 프로젝트를 통하여 1800년부터 2012년까지 출간된 책을 디지털화한 3,000만권의 책들 중에서 추려낸 800만권의 책을 대상으로함
• 검색창에 키워드를 입력하면 지난 500년간 사용된 빈도 추이를 그래프로 보여주는 웹 기반 프로그램
• 구글 엔그램 뷰어의 주요 인터페이스로는 키워드를 입력하는 창과 검색 년도를 설정하는 창이 있으며, 도서의 언어를 설정할 수 있는 드롭 박스 (Drop box)가 있음
구글 엔그램 뷰어(Google Ngram Viewer)
• 엔그램 뷰어는 현재까지 나와 있는 빅데이터 인문학 관련 도구들 중에서 대표적인 도구
• 이전까지는 인문학과 관련하여 전 세계적으로 너무나 많은 기록물들이 있 어서 체계적으로 분석하기에는 많은 어려움이 있었음
• 엔그램 뷰어를 활용하게 되면 디지털화된 도서들을 대상으로 특정 키워드 들을 통하여 연도별로 사용 빈도가 어떻게 변화하였는지를 수량화하여 그 래프로 보여주기 때문에 체계적이고 정량적인 분석이 가능
• 즉, 방대한 양의 디지털 도서라는 빅데이터를 대상으로 인간의 역사나 문 화 등을 분석하는 것이 가능
• 엔그램 뷰어는 디지털화된 도서를 기반으로 특정 키워드들이 사용된 빈도 추이를 그래프로 보여주는 단순한 도구이지만, 방대한 데이터들에 대한 직관적인 표현의 결과인 그래프로 보여주는 것이 가장 큰 장점
• 엔그램 뷰어의 그래프는 정량화하기 어려운 인문학의 추상적 내용을 정량 화하여 보여줄 수 있음
• 엔그램 뷰어를 통한 인문학의 빅데이터 분석 연구에서 방대한 도서들 내 에 특정 키워드의 빈도 변화를 기초로 하여 의미있는 해석을 할 수 있음
• 또한, 이를 통하여 인류가 남긴 방대한 기록물 분석을 통하여 과거의 발자
엔그램 뷰어를 활용한 인문학의 빅데이터 활용 사례
• 이스라엘·팔레스타인 분쟁과 지중해지역 분석
• 이스라엘과 팔레스타인 간의 분쟁의 역사는 유대인들이 팔레스타인(시온) 에 유대 민족국가를 건설하자는 시오니즘 운동에서 시작
• 제1차 세계대전 중 영국은 전쟁의 성공적 수행을 위해 시오니즘을 지지함 과 동시에 아랍인들의 협력을 요청하였고, 양자 모두에게 팔레스타인을 내주겠다는 약속을 함으로써 전쟁의 불씨가 됨
• 아랍 측과 이스라엘 측은 그 후 네 차례(1947·56·67·73년)의 전쟁 발발
• 이후 팔레스타인인들의 자살폭탄 공격과 이스라엘의 반격 등으로 양측에 서 모두 많은 희생이 있었음.
엔그램 뷰어를 활용한 인문학의 빅데이터 활용 사례
• 중요 키워드를 이스라엘, 팔레스타인, 하마스, 가자지구로 하여 빈도 분석 을 수행
엔그램 뷰어를 활용한 인문학의 빅데이터 활용 사례
• 지중해지역
• 중요 키워드를 프랑스, 이탈리아, 이집트, 터키, 지중해로 하여 빈도 분석
엔그램 뷰어를 활용한 인문학의 빅데이터 활용 사례
• 이란 혁명 분석
• 중동에는 이슬람과 관련된 여러 역사적 사건들이 있지만, 그 중에서 이란 혁명은 매우 중요한 사건임.
• 이란 혁명은 1979년 2월 팔레비 왕조의 국왕독재를 타도하고 호메이니 지 도하에 이슬람정치체제를 수립한 혁명으로 이슬람 근본주의가 활성화되 는 역할을 함.
• 이란 혁명을 기반으로 시아파 이슬람 근본주의 국가가 생김.
• 이라크, 사우디아라비아내 시아파들이 준동하여 폭동을 일으키고 유혈 사 태 등이 일어남.
• 이란과 이라크간의 국경 합의를 이란에서 일방적으로 파기함에 따라 이란
·이라크 전이 발발함
엔그램 뷰어를 활용한 인문학의 빅데이터 활용 사례
• 혁명의 시초가 되는 팔레비 왕조와 무함마드 레자 팔레비를 검색 키워드 로 설정
엔그램 뷰어를 활용한 인문학의 빅데이터 활용 사례
• 추가 분석을 위하여 호메이니, 이슬람 혁명, 이란 혁명으로 키워드 설정
엔그램 뷰어를 활용한 인문학의 빅데이터 활용 사례
• 호메이니, 이슬람 혁명, 이란 혁명, 팔레비 왕조, 무함마드 레자 팔레비를 대상으로 이란혁명 전 2년(1976-1978), 이란 혁명 중 2년(1978-1980), 이 란 혁명 후 2년(1980-1982)으로 분석