뺷통합디지털한한대사전뺸 편찬 현황의 기계적 점검 방안 연구–

(1)

뺷통합디지털한한대사전뺸 편찬 현황의 기계적 점검 방안 연구

– 표제자 및 표제어휘 통합 분석을 중심으로 –

38) 양 창 진*

❙국문초록❙

단국대학교 동양학연구원이 편찬한 뺷한국한자어사전뺸과 뺷한한대사전뺸은 해방 후 이룩한 한국학 연구 성과 를 대표할 수 있는 역작으로서 이 사전이 편찬됨으로써 우리도 중국, 일본과 어깨를 겨룰 수 있는 수준이 되었 다. 이 두 사전은 디지털 지식정보 시대에 걸맞게 뺷통합디지털한한대사전뺸이라는 이름의 통합사전을 목표로 새로운 도약을 준비하고 있다. 그리고 편찬 방식도 기존의 책 출판이 아니라 온라인 데이터베이스 형식을 취 하여 이용의 편리성을 극대화 할 수 있는 방향으로 추진되고 있다.

그런데 이를 위해서는 몇 가지 고려해야 할 과제가 있다. 첫째, 그동안 두 사전에 축적된 연구 성과가 누락 되지 않고 온전히 통합사전에 담겨야 하는 것이고, 둘째는 이를 바탕으로 기존 사전 내용 중 잘못된 것을 수정 하는 한편 새로운 연구 성과를 지속적으로 담아가야 하는 것이다. 이 연구에서는 기존의 연구 성과가 적절하 고도 온전히 옮겨지고 있는가를 정보처리기법을 이용하여 효과적으로 점검할 수 있는 방안을 제시해 보고자 한다.

[주제어] 뺷한한대사전뺸, 뺷한국한자어사전뺸, 뺷통합디지털한한대사전뺸, 온라인사전, 한자코드

❙목 차❙

Ⅰ. 머리말

Ⅱ. 분석 자료 사전 정리

Ⅲ. 통합의 정합성 점검 방안

Ⅳ. 통합사전의 발전을 위한 제언

Ⅰ. 머리말

단국대학교 동양학연구원(이하 ‘연구원’)이 편찬한 뺷한국한자어사전뺸 4책(이하 ‘한자어사전’)과 뺷한한대사

(2)

전뺸 16책(이하 ‘대사전’)은 해방 후 이룩한 한국학 연구 성과를 대표할 수 있는 역작이다. 그동안 한국 학계 는 장삼식 등 몇몇 저명한 학자들이 개인적으로 자전을 편찬한 바 있지만, 일본이 편찬한 뺷대한화사전뺸(13 책), 대만이 편찬한 뺷중문대사전뺸(10책), 중국이 편찬한 뺷한어대사전뺸(13책)을 부러운 눈으로 바라볼 수밖에 없었다. 그러나 이 두 사전이 편찬되면서 우리도 이들 나라와 어깨를 나란히 할 수 있는 학문적 수준이 되었 다고 자평할 수 있게 되었다.

이에 머무르지 않고 현재 두 사전은 디지털 지식정보 시대를 지나면서 뺷통합디지털한한대사전뺸(이하 ‘통 합사전’)이라는 이름의 통합사전으로 다시 한 번 도약하기 위한 준비를 하고 있다. 그리고 편찬 방식도 기존 의 책 출판이 아니라 디지털 데이터 베이스 형식을 취하고 있다.¹⁾이용의 편리성과 수정 증보의 편의성 등을 고려하면 시대적 대세인 디지털 방식의 편찬을 고려할 수박에 없었을 것이다. 그런데 이를 위해서는 몇 가지 넘어야 할 과제가 있다. 첫째, 그동안 두 사전에 축적된 연구 성과를 누락시키지 않고 온전히 통합사전에 담 아야 하는 것이고, 둘째는 이를 바탕으로 기존 사전 내용 중 잘못된 것을 수정하는 한편 새로운 연구 성과를 지속적으로 담아가야 하는 것이다. 이 연구는 첫째 번 과정 즉, 두 사전의 통합 과정이 적절히 진행되고 있는 가 하는 점을 효과적으로 점검할 수 있는 방안을 제시해 보고자 하는데 목적이 있다.

이를 위해 정보 처리 기법을 이용하고자 하는데 이러한 기법들 중에서도 DBMS 질의를 주로 활용하게 될 것이다. 이 기법을 활용하면 대량의 자료를 단기간에 분석하는데 유용하기도 하지만, 필자와 같이 사전편찬 업무를 담당하는 인문학 연구자들도 DBMS를 조금만 배우면 다양하게 실무에 직접 적용해 볼 수 있기 때문 이다.

Ⅱ. 분석 자료 사전 정리

1. 자료 개요

대사전과 한자어사전은 표제자와 표제어휘 수에서 매우 방대하다. 이 논문의 분석 대상에는 포함시키지 않았지만 뜻갈래(뜻풀이)까지 포함하면 60만 레코드를 상회하는 방대한 분량이다. 한자어사전은 우리 고유의 한자와 한자 어휘를 우리 고전에서 발췌하여 주석한 사전으로, 표제자 5,222자와 표제어휘 89,439개가 수록 되어 있고, 대사전은 한자문화권에서 사용해 온 한자와 한자어를 정리한 사전으로, 표제자 54,964자와 표제 어휘 420,269개가 수록되어 있다.²⁾ 아래의 <표 1>에서 보듯이 대사전의 자료량은 지금까지 동아시아에서 편찬된 사전들 가운데 가장 방대하다.

1)윤승준, ｢漢韓大辭典의 편찬과정과 향후 계획｣, 뺷동양학뺸 52, 단국대학교 동양학연구원, 2012, 15쪽; 김지영, ｢뺷통합디지털 한한대사전뺸의 DB구축과 온라인 사전편집기｣, 뺷동양학뺸 54, 단국대학교 동양학연구원, 2013, 214~215쪽.

2) 정재철, ｢디지털한한대사전뺸의 표제어 구성에 대하여｣, 뺷동양학뺸 50, 단국대학교 동양학연구소, 2011, 163쪽.

(3)

<표 1> 국가별 주요 한자사전 및 수록 자료량³⁾

한국 중국 일본

대자전(장삼식편) 41,386자 강희자전 47,035자 대한화사전 48,902자

명문 한한대자전 51,853자 중문대사전 49,905자

한한대사전(단국대) 54,964자 한어대사전 54,665자

대사전과 한자어사전은 크게 ① 표제자, ② 표제자의 뜻갈래, ③ 표제어휘, ④ 표제어휘의 뜻갈래로 구성 된 체제가 유사하다. 따라서 서로 중복되지 않은 표제자와 표제어휘는 그대로 통합하면 된다. 그런데 표제어 휘는 중복이 있을 수 있어 편찬 담당자들이 이 부분을 주의하여 통합하고 있다. ‘바랄 기(企)’를 예로 들면 한자어사전에는 5개, 대사전에는 43개의 표제어휘가 등록되어 있는데 이 중 한자어사전의 2개 표제어휘가 대사전에도 중복 등록되어 있다. 이 경우 통합사전에 어느 것을 등록할지 또는 새로 수정하여 등록할지 많은 검토가 필요할 것이다.

이렇게 방대한 두 사전을 온전하게 통합사전으로 집대성하기 위해서는 일일이 처음부터 대조하면서 통합 상태를 점검하는 것이 최선이다. 그러나 이를 위해서는 많은 인력과 시간이 필요하다. 따라서 전산 정보처리 기술을 활용하여 짧은 시간에 대량의 자료를 점검할 수 있는 방안을 강구하는 것도 하나의 방법이라 할 수 있다.

연구원 측도 이러한 점을 인식하고 필자에게 두 사전 통합 현황에 대한 기계적 분석을 의뢰하였다. 이 때 필자는 연구원 측으로부터 분석을 위한 기초 자료를 협조 받았는데 그 내역은 아래의 <표 2>와 같다. <표 2>에 제시된 자료의 수량이 앞서 정재철이 정리한 내역과 다른 것은 그동안 지속적으로 자료가 첨삭되면서 수정 보완되었기 때문으로 보인다.

<표 2> 사전별 표제자 및 표제어휘

대상 자료 테이블명 수량(레코드)

통합사전[TO]

표제자 목록 hanja_master 54,610

표제어휘 목록 vocabulary_info 494,355

한한대사전 [HH]

표제자 목록 hanja_master_hh 54,420

표제어휘 목록 vocabulary_info_hh 420,130

한국한자어사전 [HK]

표제자 목록 hanja_master_hk 5,173

표제어휘 목록 vocabulary_info_hk 89,705

(4)

2. 점검을 위한 사전 정리

자료의 기계적 분석을 위해 한자어사전, 대사전, 통합사전의 모든 표제자와 표제어휘를 MS SQL Server 2014 DBMS에 적재하였다. 적재된 전체 테이블 수는 위의 <표 2>에 제시된 6개이다. 이 논문이 목표로 하 는 점검을 위해서는 이 6개 테이블들을 중점적으로 분석하게 된다. 그러나 이 자료를 그대로 사용할 수는 없 고 약간의 사전 정리 단계를 거쳐야 한다. 그 이유를 살펴보자.

분석을 위해서는 적재된 자료를 DB 쿼리를 이용하여 조회하게 될 것이다. 우선 이 자료들이 적절히 DB 에 적재되었고 제대로 활용할 수 있는지 확인하기 위해 아래의 쿼리로 대사전 표제자 레코드 수를 조회하여 위의 <표 2>와 비교해 보았다.

SELECT count(hanja) FROM hanja_master_hh ··· 54,420건

조회 결과 제시된 대사전 표제자 레코드 수는 54,420건으로 최초 자료의 건수와 일치하였다. 그런데 이번 에는 사전 배열의 중심이 되는 표제자의 중복 빈도를 다음의 <그림 1>과 같이 조회해 보았다.

<그림 1> 뺷한한대사전뺸 표제자별 중복 빈도 조회

표제자 憳이 35,788개 있다는 메시지가 나왔다. 대사전에 하나의 표제자가 이렇게 많이 중복되어 나올 리

는 없다. hanja 칼럼에 있는 표제자들을 정확하게 비교하여 조회하지 못하고 있음을 알 수 있다. 이것은 7만

여 자의 한자를 수용하기 위해 유니코드 3.0을 확장한 유니코드 3.1(Ext B.) 이상 영역의 한자는 일반적인 정렬 방식으로 문자 비교를 할 수 없기 때문에 발생하는 현상이다. 따라서 유니코드 한자를 정상적으로 조회 하기 위해서는 정렬 방식을 바이너리(이진 정렬) 형식으로 변환해야 한다.

(5)

<그림 2> 표제자 칼럼의 바이너러 정렬

그래서 대사전 표제자 테이블에서 원래의 표제자를 담은 hanja 칼럼을 바이너리 형식으로 변환하고 이를 HANJA_BI라는 별도의 칼럼에 적재하였다.⁴⁾ 그리고 다시 조회하였다.

<고유 레코드 수 조회 쿼리>

SELECT distinct HANJA_BI FROM hanja_master_hh ··· 53,713건

<표제자 빈도 조회 쿼리>

SELECT HANJA_BI 표제자, count(HANJA_BI) 빈도 FROM hanja_master_hh

GROUP BY HANJA_BI ORDER BY 빈도 desc

고유 표제자⁵⁾ 레코드 수는 53,713건이었다. 그래서 어떤 표제자가 중복되는가 확인하기 위해 표제자 빈 도를 역순으로 출력하자 다음의 <표 3>과 같이 출력되었다. 이를 확인하기 위해 예시로 ‘卿’을 대사전 원본 에서 확인해 본 결과 ‘卿’이 이체자를 포함하여 총 4가지 형태가 등록되어 있었다.⁶⁾ 이렇게 정렬 방식을 바이 너리로 해야 적절하게 조회됨을 알 수 있다.

4) 이하 칼럼명 뒤에 ‘_bi’가 붙은 것은 모두 바이너리 정렬로 변환된 데이터를 의미한다. 5) 고유 표제자란 한 표제자가 두 건 이상 중복될 경우 하나의 표제자로 보는 것을 의미한다.

6)참고로 <표 3>에 나타난 한자 중 ‘卿’과 ‘弱’을 대사전 책자와 대조하여 보니 중복이 아니라 본자와 속자 및 이체자를 포함한 수치여서 중복처럼 보인것이다. 다른 자들도 마찬가지일 것으로 예상된다. 그런데 같은 쿼리로 통합사전에 질의하자 중복이 제거되어 하나씩만 등재되어 있음을 확인할 수 있었다. 대신 이체자나 속자들은 폰트 모양과 유니코드가 다른 별도의 표제자

(6)

<표 3> 한한대사전 표제자 빈도 예시

번호 표제자 빈도

1 卿 4

2 弱 3

3 똫 3

4 福 3

5 阍 3

5번 이하 생략 --

이러한 근거를 바탕으로 세 사전의 조회를 위한 표제자 및 표제어휘의 한자 관련 칼럼들을 모두 바이너리 정렬용 데이터로 별도로 만들고 모두 칼럼명 뒤에 ‘_bi’를 붙여 쉽게 구분할 수 있도록 하였다. 향후 모든 한 자 조회는 바이너리 정렬 데이터를 중심으로 하고자 한다. 이렇게 만들어진 테이블 중 통합사전의 표제자 및 표제어휘 테이블 구조를 요약하면 <표 4> 및 <표 5>와 같다. 참고로 한자어사전과 대사전의 표제자 및 표제 어휘 테이블 구조도 이와 동일하다.

<표 4> 통합사전 표제자 테이블 구조

칼럼명 자료형 및 크기 비고

HANJA_ID int

DIC_GUBUN nvarchar(255)

HANJA nvarchar(255) 표제자

HANJA_BI nvarchar(50) 표제자_바이너리 정렬

DESCRIPTION nvarchar(255)

RADICAL_ID nvarchar(255)

STROKES int

IS_USE nvarchar(255) 사용 여부 표시(Y/N)

RADICAL_HANJA nvarchar(255)

RADICAL_STROKES int

UNICODE nvarchar(255)

(7)

<표 5> 통합사전 표제어휘 테이블 구조

칼럼명 자료형 및 크기 비고

VOCA_ID int

VOCA_SID int

DIC_GUBUN nvarchar(255)

IS_USE nvarchar(255) 사용 여부 표시(Y/N)

HANJA_ID int

VOCA_HANJA nvarchar(255) 표제어휘

VOCA_HANJA_BI nvarchar(255) 표제어휘_바이너리 정렬

GUBUN nvarchar(255)

앞서 얘기했듯이 한자어사전과 대사전 모두 크게 표제자, 표제자의 뜻갈래, 표제어휘, 표제어휘의 뜻갈래 로 구성되어 있다. 이 중 이 논문에서는 표제자와 표제어휘를 중심으로 다음 사항을 점검하는 방안을 실증적 으로 제시해 보고자 한다. 이 부분을 주로 점검하는 이유는 1차적인 점검의 포인트이면서 동시에 대량의 자 료 통합 과정에 발생할 수 있는 오류가 전형적으로 나타날 수 있는 부분이기 때문이다.

○ 표제자 통합의 정합성 점검

○ 통합사전 표제자 중복의 점검

○ 표제어휘 통합의 정합성 점검

○ 통합사전 표제어휘 중복의 점검

○ 뜻갈래만 있고 표제어휘는 없는 표제자 점검

그리고 이를 점검하기 위해 DB 쿼리(조회문)를 활용하게 될 것이며, 그리고 활용된 쿼리를 같이 제시함으 로써 사전 편찬 실무자들이 향후 지속적인 점검을 위한 참고 자료로 활용할 수 있도록 하고자 한다.

Ⅲ. 통합의 정합성 점검 방안

1. 표제자 통합의 정합성 점검

사전의 통합을 점검하기 위해서는 표제자의 통합 현황 점검이 가장 중요하다. 모든 사전의 시작은 표제자 에 있기 때문이다. 표제자 통합 점검을 위해 우선 한자어사전과 대사전의 표제자가 누락되지 않고 통합사전

(8)

에 모아졌는가를 점검할 필요가 있다. 다음과 같은 쿼리로 대사전 표제자 중 통합DB 표제자 목록에 없는 자 를 조회하였다. 아래 <표 6>에서처럼 전체 31건이 통합DB 표제자에 없는 것처럼 제시되었다.

<쿼리문>

SELECT hanja_id, HANJA_BI, unicode FROM hanja_master_hh

WHERE HANJA_BI not in (SELECT HANJA_BI FROM Hanja_master)

<표 6> 대사전 표제자 중 통합사전에 없는 것으로 조회된 표제자

번호 hanja_id HANJA_BI UNICODE 번호 hanja_id HANJA_BI UNICODE

1 40958 髰 2444B 17 68236 28752

2 22838 戇 20B62 18 80624 ﲗ 2A5F2

3 67793 28620 19 38794 鏭 23D48

4 85551 燼 21B57 20 91398 㯞 3BDE

5 20070 倶 5036 21 60979 蛰 2304B

6 88505 琾 21D99 22 67722 285BD

7 30477 竖 22431 23 54553 䓻 44FB

8 73684  29157 24 82000 㗸 35F8

9 73822 䨶 4A36 25 66099 흷 280D2

10 51638 밊 26565 26 51427 뭦 264C1

11 58931 텤 27ABF 27 50641 룶 26251

12 81728 擐 20E2B 28 53615 숅 26B60

13 30820 篟 2253A 29 89064 疷 21F12

14 80995 括 20C47 30 75752  2972E

15 21205 峍 20628 31 54456 쑐 26DAB

16 92941 鉔 23BAF

그렇다면 위의 결과가 제대로 제시된 것인지 검증해 볼 필요가 있다. 검증을 위해 위의 표에 있는 표제자 중 ‘倶(유니코드 5036)’를 통합DB 표제자에서 다음과 같이 검색해 보았다.

(9)

SELECT Hanja_id, HANJA_BI FROM Hanja_master WHERE HANJA_BI = N‘倶’

‘倶(유니코드 5036)’가 통합DB 표제자에 없는 것으로 나타났다. 이번에는 방법을 달리 하여 부수로 검색 을 시도하여, 人변 8획으로 조회해 보았다.

<쿼리문>

SELECT Hanja_id, Hanja, HANJA_BI, Racical_Hanja, unicode FROM Hanja_master

WHERE Radical_Hanja = ‘人’ and Strokes = 8

<그림 3> 부수를 이용한 ‘倶’의 검색

그러자 <그림 3> 처럼 해당 글자는 나오지 않고 대신 모양은 비슷하나 코드가 다른 俱(유니코드 4FF1)가 조회되었다. 이로 미루어 대사전에 등록된 표제자를 통합사전에 합치는 과정에 통용되는 한자로 등록하고 관 련 유니코드를 재정리한 것으로 보인다. 이를 확인하기 위해 위의 목록 중 5자를 추출하여 부수 획수로 검색 한 결과 <표 7>과 같이 통합사전에 다 등록되어 있었다. 다만 유니코드가 변경되어 등록되어 있었다. 다른 글자들도 아마 비슷한 이유로 누락된 것처럼 조회되었을 것이다. <표 6>에 제시된 표제자가 많지 않기 때문 에 위와 같은 방식으로 전수 검사하면 통합사전의 정밀성을 높이는 데 도움이 될 것으로 보인다.

(10)

<표 7> 통합사전에 코드 변경되어 등록된 대사전 표제자 검증

대사전 통합사전

표제자 유니코드 검토 표제자 유니코드

燼 21B57 삭제 후 통합사전에 본자로 등록 尒 5C12

倶 5036 // 俱 4FF1

琾 021D99 // 㞽 37BD

括 020C47 // 拢 020C3D

峍 020628 // 峌 020627

이상은 대사전 표제자와 통합사전 표제자를 비교한 것이지만, 한자어사전 표제자도 같은 방식으로 조회해 서 점검하면 사전 통합의 정밀성을 점검하는데 참고가 될 것이다.⁷⁾

2. 표제자 중복의 점검

이론적으로 동일한 자형, 뜻, 음을 가지는 표제자는 중복이 있을 수 없다. 그래서 정식으로 등록되어 사용 예 정인 표제자, 즉, IS-USE 칼럼이 Y로 표시된 표제자를 대상으로 중복 여부를 다음과 같은 쿼리로 조회하였다.

<쿼리문>

SELECT HANJA_BI 표제자, count(HANJA_BI) 중복빈도 FROM Hanja_master

WHERE is_use = ‘Y’ GROUP BY HANJA_BI ORDER BY hanja_count desc

<그림 4> 통합사전 표제자 중복 빈도 조회

7) 위와 같은 방식으로 조회한 결과, 한자어사전 표제자 중 통합사전 표제자 목록에 없는 것은 棴, 熙, 荊, 頽 4자로 나타났다.

(11)

그런데 <그림 4>에서 보듯이 표제자 중에 유일하게 ‘㳛’이 중복된다고 조회되었다. 이 글자가 실제로 중복 등록되어 있는지 다음과 같이 조회하였다. 아래 <그림 5>처럼 hanja_id가 39269와 38694인 두 자가 정상 적인 표제자로 각각 등록되어 있었다.

<그림 5> 㳛의 중복 여부 검증

중복 등록된 이유를 확인하기 위해 해당 글자의 뜻갈래를 검색해 보았다. 그 결과 ‘검다’라는 뜻갈래를 가 진 표제자와 “물 이름. 사천성(四川省) 경내에 있었다.”라는 뜻갈래를 가지는 별도의 표제자로 분리 등록되어 있음을 확인할 수 있었다. 이 뜻갈래들을 하나의 표제자로 통합할지 별도의 표제자로 분리할지는 사전 편찬 담당자들이 검토해 볼 필요가 있다.

3. 표제어휘 통합의 정합성 점검

다음은 두 사전 표제어휘가 통합사전에 잘 포함되었는지를 점검하는 방안을 제시해 보고자 한다. 이를 위 해서는 대사전의 표제어휘 중 통합사전 표제어휘 목록에 없는 것을 점검하면 될 것이다. 한자어사전의 표제 어휘 통합도 같은 식으로 하면 되기 때문에 한자어사전 표제어휘 통합 여부는 별도로 살피지 않겠다. 이를 위해 아래와 같은 쿼리로 대사전 표제어휘와 통합사전 표제어휘를 동시에 조회하여 그 결과를 TOV라는 별 도 테이블에 적재하였다.

<쿼리문>

SELECT voca_id, VOCA_HANJA_BI INTO TOV

(12)

FROM vocabulary_info_hh WHERE VOCA_HANJA_BI

not in (SELECT VOCA_HANJA_BI FROM vocabulary_info) ORDER BY voca_id

이 쿼리를 개인용 PC로 처리하기 위해서는 3시간 이상이 소요된다. 그래서 다시 조회할 경우 같은 시간을 소비하지 않기 위해 조회된 결과만 TOV라는 별도의 테이블에 저장한 것이다. 조회한 결과 대사전 표제어휘 중 통합사전 표제어휘 목록에 없는 어휘로 <표 8>과 같이 2,151건이 제시되었다.

<표 8> 통합사전 표제어휘에 없는 대사전 표제어휘 [( ) 제거 전]

번호 VOCA_HANJA_BI 번호 VOCA_HANJA_BI

1 峍峍 13 懷奸(姦)

2 抏敝(獘·弊) 14 憭慄(栗)

3 悂繆(謬) 15 彊彊(強強)

4 悇憛(覃) 16 惚恍(怳)

5 氤氳 17 抍捄(救)

6 得間(閒) 18 拒却(卻)

7 扢達(撻) 19 拊楗(鍵)

8 慨慷(忼) 20 手脚(腳)

9 待賈(價)而沽 21 㧖腕(掔)

10 慇懃(勤) 22 撝呵(訶)

11 忪蒙(懞) 23 根脚(腳)

12 憣校(交) 24 構欄(闌)

25 ~ 2151 생략

대사전의 표제어휘가 통합사전으로 가면서 예상외로 많이 누락된 듯 하여 위의 목록을 다른 방식으로 다 시 점검해 보았다. 대사전 표제어휘 중에서 통합DB 표제어휘에 없는 것으로 제시된 표제어휘 목록을 보니 대체로 ‘憭慄(栗)’와 같은 형식이 많았다. 즉, 한자로 된 표제어휘와 거기에 포함된 한자와 같은 자(이체자 또 는 통용자)가 ‘( )’ 속에 표시되어 하나의 표제자로 표시된 형식이다.

따라서 한자어사전 표제어휘에서 ‘( )’와 그 속의 문자를 제거한 결과가 다시 통합사전의 표제어휘에 있는 지 점검할 필요가 있다. 왜냐하면 ( )가 포함된 대사전 표제어휘가 통합사전으로 가면서 ( )를 제거했을 수도 있기 때문이다. 그래서 위에 제시된 목록이 저장된 TOV 테이블에서 개별 표제어휘에 포한된 ‘( )’와 그 속의 문자를 쿼리를 이용하여 제거한 후 그 결과들을 다시 TOV2라는 테이블을 만들어 적재하였다. 이렇게 다시 별도의 테이블을 만든 이유는 표제자에 ( )가 있는 TOV 테이블과 ( )가 없는 TOV2 테이블을 비교함과 동시 에, 한 번 얻은 결과를 저장했다가 같은 조회를 할 때 재활용하기 위함이다.

(13)

<그림 6> ( )가 포함된 뺷한한대사전뺸 표제어휘 예시

SELECT voca_id

,VOCA_HANJA_BI

,charindex('(', VOCA_HANJA_BI) s ,charindex(')', VOCA_HANJA_BI) e

,charindex(')', VOCA_HANJA_BI) - charindex('(', VOCA_HANJA_BI) l replace (VOCA_HANJA_BI, SUBSTRING(VOCA_HANJA_BI,

charindex('(', VOCA_HANJA_BI), (charindex(')',

VOCA_HANJA_BI) - charindex('(', VOCA_HANJA_BI)+1) ), '') voca INTO TOV2

FROM TOV

위의 변환된 목록을 가지고 다음과 같이 대사전 표제어휘와 통합DB 표제어휘 목록에서 동시에 조회하자 통합사전에 등록되어 있는 것으로 나타났다. 즉 대사전에 있던 ‘憭慄(栗)’ 형식의 표제어휘는 통합사전으로 가면서 ‘憭慄’ 형식으로 변경된 것이다. 그래서 통합사전 표제어휘 목록의 ‘憭慄’에는 ‘수정’되었음이 표시되 어 있었다. 한편 대사전의 표제어휘에서 ( )를 제거했기 때문에 원래의 대사전에는 당연히 없는 것으로 나 타났다.

(14)

<그림 7> ( ) 제거 전후의 표제어 비교

<쿼리문>

--통합사전 표제어휘에서 조회

SELECT * FROM vocabulary_info WHERE voca_HANJA_BI = N‘奧澁’ ··· 1건 SELECT * FROM vocabulary_info WHERE voca_HANJA_BI = N‘囷窌’ ··· 1건

--대사전 표제어휘에서 조회

SELECT * FROM vocabulary_info_hh WHERE voca_HANJA_BI = N‘奧澁’ ··· 0건 SELECT * FROM vocabulary_info_hh WHERE voca_HANJA_BI = N‘囷窌’ ··· 0건

이와 같은 과정을 거쳐 확인한 결과 통합사전에 총 402개의 표제어휘가 누락된 것처럼 조회되었다. 그 결 과는 <표 9>와 같다.

그런데 <표 9>의 목록 중 強弓, 強求, 強仇 등 強으로 시작하는 어휘의 強을 强으로 바꾸어 검색하자 모 두 조회되었다. 통합사전에 등록하면서 코드를 바꿨기 때문에 등록되어 있음에도 조회가 안된 것이다. 한편 한 어휘에 괄호가 두 개 이상 있는 것은 하나의 괄호만 제거했기 때문에 나머지 괄호는 그대로 남아 있어 [예: 室如縣(懸)罄(磬)→ 室如縣罄(磬)] 비교에서 누락되었다. 이러한 유형의 표제어는 두 건인데 나머지 하 나는 恢詭(恑)譎(憰)怪이다.

(15)

<표 9> 통합사전 표제어휘에 없는 대사전 표제어휘 [( ) 제거 후]

번호 표제어휘 번호 표제어휘

1 十載寒窓 17 承睫

2 悚愓 18 室閒

3 括垢磨痕 19 宋義望

4 徐世剛 20 室如縣罄(磬)

5 打罙 21 兩界曼茶羅

6 戎土 22 兩頭白麫

7 強老 23 強不知以爲知

8 愁苖 24 包羞忍耻

9 恭伯姫 25 強仇

10 共哀 26 強求

11 強立 27 強寇

12 冊凾 28 強瞿

13 删潤 29 強國

14 兵陳 30 強屈

15 削柿 31 強弓

16 儉士 32 強勸

33~402 생략

4. 중복 표제어휘 점검

대사전과 한자어사전의 표제어휘는 표제자를 첫 자로 포함하는 어휘를 의미한다. 그리고 같은 표제어휘에 뜻이 여러 가지일 경우 하나의 표제어휘 아래 포함하여 정리하기 때문에 이론적으로는 개별 표제어휘가 중복 될 수 없다. 따라서 중복 표제어휘의 존재 여부를 조회해 보는 것도 의미가 있다. 이를 위해 개별 사전별로 표제어휘 중복을 점검해 볼 수 있지만 앞서 표제어휘의 통합을 점검하였기 때문에 이번에는 통합된 결과로서 의 표제어휘를 가지고 중복 여부를 점검해 보는 것이 보다 의미가 있을 것으로 판단되어 통합DB에서 표제어 휘 중복을 점검해 보았다.

먼저 다음과 같이 표제어휘 중복 빈도를 표제어휘별로 조회하고 2개 이상 중복되는 표제어휘만 따로 정리 하여 빈도 역순으로 출력하였다. 그 결과 전체 198개의 표제어가 아래 <표 10>과 같이 제시되었다.⁸⁾

8)한자 표제어휘가 있어야 할 자리에 한글로 ‘옥가’로 중복 입력되어 있는 자료도 제시되었다. 이와 같이 예기치 않은 형태도

(16)

<쿼리문>

SELECT VOCA_HANJA_BI, count(VOCA_HANJA_BI) 빈도 FROM vocabulary_info

GROUP BY VOCA_HANJA_BI ORDER BY 빈도 desc

<표 10> 통합사전 중복 표제어휘의 중복 빈도

번호 VOCA_HANJA_BI 빈도 번호 VOCA_HANJA_BI 빈도 번호 VOCA_HANJA_BI 빈도

1 一以當十 3 9 低下 2 18 入宿 2

2 劑量 3 10 衝塞 2 19 叔行 2

3 營葺 2 12 曼倩 2 20 赤埴 2

4 行茶 2 13 桑螵蛸 2 21 蜜雪只 2

5 示眯明 2 14 漏杓 2 22 驚仆 2

6 編結 2 15 睠睠 2 23 諭帖 2

7 芝山 2 16 三金 2 24 香蕈 2

8 享樂 2 17 尊行 2 25 合摎 2

26 ~ 197

위에 제시된 목록이 통합DB에서 실제로 중복되는 표제어휘인가를 검증하기 위해, 제시된 어휘들의 구체 적인 내용을 아래의 쿼리로 조회하였다.

<쿼리문>

SELECT voca_id, voca_HANJA_BI, is_use, hanja_id, dic_gubun, gubun FROM vocabulary_info WHERE voca_HANJA_BI = N‘一以當十’

SELECT voca_id, voca_HANJA_BI, is_use, hanja_id, dic_gubun, gubun FROM vocabulary_info WHERE voca_HANJA_BI = N‘劑量’

SELECT voca_id, voca_HANJA_BI, is_use, hanja_id, dic_gubun, gubun FROM vocabulary_info WHERE voca_HANJA_BI = N‘示眯明’

SELECT voca_id, voca_HANJA_BI, is_use, hanja_id, dic_gubun, gubun FROM vocabulary_info WHERE voca_HANJA_BI = N‘低下’

(17)

아래의 <그림 8>에서 보듯이 제시된 결과를 보면 이 중 ‘대다수’는 사용 여부를 나타내는 IS_USE 칼럼이 Y로 되어 있는 것과 N으로 되어 있는 것이 섞여 있다. 즉, Y로 표시된 것은 정상적으로 사용하는 데이터이 고 N으로 표시된 것은 사용하지 않고 삭제 예정인 데이터이다. 따라서 Y로 된 데이터가 하나뿐이면 중복으 로 제시되었어도 정상적인 데이터라 할 수 있다. 그런데 ‘示眯明’과 ‘低下’, ‘蜜雪只’같은 일부 표제어휘는 IS_USE 칼럼이 Y로 표시된 것이 2개였다.

<그림 8> IS_USE로 구분된 중복 표제어휘

이 원인을 조사하여 보니 ‘低下’는 표제자 ‘底(유니코드 5E95)’와 ‘低(유니코드 4F4E)’의 표제어휘로 각각 개별 등록되어 있었다. 그렇다면 ‘底(유니코드 5E95)’의 표제어휘는 ‘底下’가 되어야 하는 것이 아닌지 의문이 든다. 한편 ‘示眯明’도 표제자 ‘示(hanja_id 46646)’와 ‘示(hanja_id 46647)’에 각각 개별 등록되어 있었다. 그런데 ‘示(hanja_id 46646)’와 ‘示(hanja_id 46647)’는 유니코드가 둘 다 793A로 표제자가 중복된 것이다. 아니나 다를까 유니코드가 793A인 ‘示(hanja_id 46647)’의 IS_USE 필드값이 N인 것으로 보아 삭제 예정인 듯하다. 따라서 이것을 삭제하면 관련 표제어휘도 삭제되므로 표제어휘의 중복도 해소된다.

그리고 대사전 12권에 수록된 蜜雪只의 경우는 종이사전의 오류로 보이며, 현재 대사전이 5권까지만 통합 검수가 완료된 것으로 보아 이후의 작업에서 수정될 것으로 보인다.

5. 표제어휘 없는 표제자 점검

(1) 표제자 - 표제어휘 통합테이블 작성

.

(18)

휘 없이 표제자와 뜻풀이만 있을 수도 있다. 이를 확인하기 위해 표제어휘 없는 표제자를 점검해 보자. 이를 위해서는 표제자와 관련 표제어휘를 통합한 테이블을 먼저 만들어야 한다. 필자가 연구원으로부터 제공받은 자료에는 표제자 – 표제어휘 통합테이블이 없는데, 이 테이블은 입수한 자료를 바탕으로 통합표제자 테이블과 통합표제어휘 테이블을 조인(JOIN)하는 조회용 뷰(VIEW)를 만들어서 대신할 수 있다.⁹⁾

CREATE VIEW TOLV AS

SELECT TOHM.HANJA_ID, TOHM.DIC_GUBUN, TOHM.HANJA_BI, TOVI.VOCA_HANJA, TOVI.VOCA_ID, TOVI.VOCA_SID,

TOHM.ALL_STROKES, TOHM.DESCRIPTION, TOHM.RADICAL_HANJA, TOHM.STROKES, TOHM.UNICODE, TOHM.IS_USE

FROM dbo.hanja_master AS TOHM INNER JOIN dbo.vocabulary_info_hh AS TOVI ON TOHM.HANJA_ID = TOVI.HANJA_ID

이렇게 만들어진 뷰를 아래와 같이 조회하면 아래 <그림 10>과 같이 표제자와 표제어가 통합되어 제시 된다.

<그림 9> 표제자 – 표제어휘 통합 테이블

9) ‘뷰(VIEW)’란 자료가 유동적으로 변하는 임시 테이블로서, 원래 데이터가 변화되면 관련된 다른 테이블 내용도 자동적으로 변경되도록 하는 DBMS의 장치이다. 예를 들어 표제어휘 하나를 삭제하면 표제자와 표제어휘를 통합해 놓은 뷰에서도 해당 어휘가 자동적으로 삭제된다.

(19)

SELECT HANJA_ID

,DIC_GUBUN 사전구분 ,HANJA_BI 표제자

,VOCA_HANJA_BI 표제어휘 ,DESCRIPTION 표제어휘설명 ,RADICAL_HANJA 부수 ,STROKES 부수외획수 ,UNICODE

FROM TOLV WHERE IS_USE ='Y'

(2) 뜻갈래만 있고 표제어휘는 없는 표제자 조회

위의 과정을 통해 이렇게 만들어진 데이터를 가지고 먼저 통합사전 표제자가 통합표제어휘 목록에 있는지 다음과 같이 조회해 보았다.

<그림 10> 표제어휘 없는 표제자 목록

SELECT Hanja_id, DIC_GUBUN, HANJA_BI, UNICODE, RADICAL_HANJA, RADICAL_STROKES

(20)

FROM hanja_master

WHERE HANJA_BI NOT IN (SELECT HANJA_BI FROM TOLV) and is_use = 'Y' ORDER BY DIC_GUBUN

통합사전 표제자 54,610개 중 42,000개가 표제자만 있고 관련 표제어휘는 없는 것으로 <그림 10>과 같이 조회되었다.

위에 제시된 목록이 정확한가를 몇 가지 방법으로 검증해 보았다. 먼저 제시된 목록에서 口부 8획에 있는 한자 4~5개를 샘플로 하여 대사전 원본과 대조해 보았다. 아래 <그림 11>에서 보듯이 원본 사전의 해당 표 제자에는 뜻풀이만 있을 뿐 표제어휘는 없음을 알 수 있다.

<그림 11> 뺷한한대사전뺸의 표제어휘 없는 표제자

두 번째로, 대사전이 편찬된 이후에 디지털 데이터로 변경하면서 표제어휘를 추가했을 수도 있다는 가정 하에 다음과 같이 쿼리로 조회해 보았다. 역시 검색한 표제자에 대해서는 표제어휘가 없었다.

SELECT * FROM tolv WHERE HANJA_BI=N‘啿’ ··· 결과 없음 SELECT * FROM tolv WHERE HANJA_BI=N‘撫’ ··· 결과 없음 SELECT * FROM tolv WHERE HANJA_BI=N‘啺’ ··· 결과 없음

… 이하 생략

(21)

이상의 과정을 통해서 보았듯이 통합사전에서 표제어휘가 없는 표제자는 상당수인 것으로 보인다. 여기서 조회된 표제어휘 없는 표제자 목록은 통합 현황 점검뿐만 아니라, 향후 여러 한적 자료 서비스를 검색하여 관련 표제어휘를 찾기 위한 후보 목록으로 지속적으로 활용할 수 있다. 이렇게 함으로써 통합사전의 표제어 휘는 더욱 풍부해질 수 있다.

Ⅳ. 통합사전의 발전을 위한 제언

이상에서 대사전과 한자어사전의 통합 현황을 기계적으로 점검하고 현재 진행되고 있는 뺷통합디지털한한 대사전뺸 편찬사업에 참고가 될 수 있도록 표제자와 표제어휘 통합 정합성 점검 방법에 대하여 살펴보았다. 이상에서 살핀 방법이 뺷통합디지털한한대사전뺸 편찬을 위하여 조금이나마 도움이 되었으면 한다. 덧붙여 본 편찬 사업을 지속적으로 발전시키고 보다 큰 성과로 이어지기 위해서는 다음 사업을 추가해 볼 것을 제언하 고자 한다.

첫째, 유니코드 3.1 및 그 이상 영역에 속하는 한자의 뜻과 용례들을 발굴하고 추가하여 수록 한자를 늘렸 으면 한다. 현재 뺷통합디지털한한대사전뺸에 수록된 표제자는 5만 4천6백여자이다. 그런데 아래 표에서 보듯 이 유니코드 컨소시엄에 의해 한중일 통합 확장한자로 지정된 한자는 7만 4천여자에 이른다. 따라서 나머지 2만여자의 뜻과 용례를 지속적으로 찾아 추가할 필요가 있다.

<표 11> 유니코드 한자 개요¹⁰⁾

영역 이름 문자 수(자) 비고

한중일 통합한자 (CJK) 20,902 UNICODE 2.0

한중일 통합한자 확장 (CJK Ext.A) 6,582 UNICODE 3.0

한중일 통합한자 확장B (CJK Ext.B) 42,711 UNICODE 3.1

한중일 통합한자 확장 C (CJK Ext.C) 4,149 UNICODE 6.1

한중일 통합한자 확장 D (CJK Ext.D) 222 UNICODE 6.1

계 74,566

과거에는 한문을 해독할 수 있는 전문 인력과 한자 추출에 참고할 수 있는 자료의 한계로 인해 새로운 한 자를 발굴하기가 쉽지 않았다. 하지만 2000년대부터 한국역사정보통합시스템(www.koreanhisory.or.kr)과 같은 대규모 국가 지식정보 구축 사업이 꾸준히 추진되어 왔고, 그 결과 방대한 한적 자료들이 입력되어 편

10) 고려대학교 민족문화연구원 유니코드 한자검색기(http://db.koreanstudies.re.kr) 및 심경호·김흥규·김언종·이재훈·

(22)

리하게 이용되고 있다. 사실 2000년 이후 유니코드에 새로 등록된 한자가 급격하게 증가한 것은 이러한 사 업 결과물들에 힘입은 바 크다. 따라서 이러한 지식 정보 서비스를 활용하면 새로운 한자와 그에 따른 용례 들을 더 많이 확충할 수 있을 것이다.

둘째, 음가가 확인되지 않은 한자들에 대한 음가 확정 작업도 병행할 필요가 있다. 유니코드에 등재된 한 자에도 음가 미확인 한자가 상당수 있는데, 현재의 대사전에도 음가가 확정되지 않은 표제자가 상당수 등재 되어 있다. 하지만 검색과 활용의 편의를 위해서는 음가가 확정되어야 한다.

셋째, 유니코드 한자 표준화에 적극 참여해야 한다. 현재 통합사전 표제자 중에서 44개 표제자가 한자 폰 트 대신 ‘✪245✪’, ‘▲HM5008▲’, ‘▲K00338▲’와 같은 자체 인코딩 형식으로 등록되어 있다. 아마 유니코 드에 등재되지 않은 한자여서 폰트 자체가 없기 때문일 것이다. 문자는 활용되지 않으면 사라지고 단지 문헌 상의 기록으로만 남는다. 거의 모든 문자생활이 정보 기기를 통해서 이루어지고 있는 최근의 추세를 감안하 면, 정보기기에 기본적으로 탑재되는 문자로서의 지위를 획득하지 못하면 영원히 사라질 수밖에 없다.¹¹⁾ 한 자도 마찬가지이다. 폰트로 표현되지 않으면 그 문자의 생존을 장담할 수 없다. 따라서 통합사전에 자체 인 코딩 형식으로 입력된 한자를 포함하여 새로 발견되는 한자를 유니코드 표준으로 등재하기 위한 노력을 계속 할 필요가 있다.

넷째, 폰트가 없어 특수 부호로 입력한 한자 중 유니코드 3.1 영역에 속한 한자는 폰트로 대치할 수 없는 지 점검할 필요가 있다. 이 표제자의 대부분이 대사전에서 온 것이어서 세계 표준 문자 코드로 제정된 유니 코드 3.1에 있을 가능성을 배제할 수 없다. 그동안 유니코드 3.1 한자가 폰트로 완벽히 구현되지 않았으나 현재는 (주)한글과 컴퓨터에서 유니코드 3.1 영역의 한자가 포함된 함초롬바탕체를 무료로 배포하고 있어 서¹²⁾ 이 편찬사업에 많은 도움을 줄 수 있을 것으로 보인다.

대사전과 한자어사전에 이어 뺷통합디지털한한대사전뺸 편찬이 성공적으로 수행되어 한국학 연구 성과가 한 단계 나아갈 수 있는 계기가 되었으면 한다.

<참고문헌>

1. 資料

뺷한국한자어사전뺸, 단국대학교출판부, 1996.

뺷한한대사전뺸, 단국대학교출판부, 2008.

11) 양창진, ｢역사문화 콘텐츠 육성 정책의 회고와 전망｣, 뺷인문콘텐츠뺸 35, 인문콘텐츠학회, 2014, 213쪽. 12) 함초롬바탕체는 한글과 컴퓨터(http://www.hancom.com)에서 내려 받을 수 있다.

(23)

2. 論著

김지영, ｢뺷통합디지털한한대사전뺸의 DB구축과 온라인 사전편집기｣, 뺷동양학뺸 54, 단국대학교 동양학연구 원, 2013.

심경호·김흥규·김언종·이재훈·이건식, 뺷유니코드 한자정보 사전뺸, 제이앤씨, 2013.

양창진, ｢역사문화 콘텐츠 육성 정책의 회고와 전망｣, 뺷인문콘텐츠뺸 35, 인문콘텐츠학회, 2014.

윤승준, ｢漢韓大辭典의 편찬과정과 향후 계획｣, 뺷동양학뺸 52, 단국대학교 동양학연구원, 2012.

정우봉, ｢유니코드 한자 정보 및 이체자 사전의 편찬과 그 의미｣, 뺷동양학뺸 46, 단국대학교 동양학연구소, 2009.

정재철, ｢뺷디지털한한대사전뺸의 표제어 구성에 대하여｣, 뺷동양학뺸 50, 단국대학교 동양학연구소, 2011.

3. 인터넷 사이트

고려대학교 민족문화연구원 유니코드 한자검색기(http://db.koreanstudies.re.kr) 한국역사정보통합시스템(http://www.koreanhistory.or.kr)

* 이 논문은 2015년 5월 28일에 투고되어,

2015년 6월 9일까지 편집위원회에서 심사위원을 선정하고, 2015년 6월 30일까지 심사위원이 심사하고,

2015년 7월 6일 편집위원회에서 게재가 결정되었음.

(24)

❙Abstract❙

Study on Checking Methods of Unified Great Chinese-Korean Dictionary (統合漢韓大辭典) Compilation

13)Yang, Chang-jin*

The Great Chinese-Korean Dictionary (뺷漢韓大辭典뺸) and The Dictionary of Compound Words of Korean Made of Chinese Characters (뺷韓國漢字語辭典뺸) compiled by Academy of Asian Studies, Dankook Univ. are representative research results of Korean studies. Korea became able to compete academically with Japan and China, because of both dictionaries. Both dictionaries are preparing a new leap into the integrate digital dictionary, Unified Great Chinese-Korean Dictionary (뺷統合漢韓大辭典뺸) for new knowledge information era. Because on-line dictionary is to maximize ease of compilation and use. But there are a few things to consider in order to challenge them. First, accumulated research results in two dictionaries are to be fully included in the integrated dictionary. Second, the incorrect contents of the two dictionaries have to be modified and new research continues to go put. This study suggests ways to check whether the existing research result is being properly transferred.

[Key Words] Great Chinese-Korean Dictionary (漢韓大辭典), Dictionary of Compound Words of Korean Made of Chinese Characters (韓國漢字語辭典), Unified Great Chinese-Korean Dictionary(統合漢韓大辭典), On-line Dictionary, chinese character code

* Senior Researcher, The Academy of Korean Studies