말뭉치 재배포 - 형태소 생성을 통한 세종 형태분석 말뭉치의 오류 검출 및 수정 도구 개발

사용자는 동일 패턴 오류 표시 창을 확인하고 <그림 4.10>에서 패턴 전체 수정"

버튼을 클릭하면 동일한 방법으로 동일 패턴 오류 테이블의 모든 목록의 어절을

수정 가능하다.

그림 세종 형태분석 말뭉치 포맷

< 4.18>

그림 은 말뭉치 재배포 이다 파일 목록에서 현재 데이터베이스에 저

< 4.19> UI .

장되어 있는 파일을 사용자가 원하는 파일을 선택하여 말뭉치 텍스트 파일 형태 로 출력할 수 있다.

그림 말뭉치 재배포

< 4.19> UI

제 5 장 실험 및 평가

본 장에서는 오류 수정 도구의 성능에 대하여 실험 및 평가를 하였다 실험은. 총 두 가지 방법을 사용하였다 첫 번째 실험은 오류 수정 도구를 사용하였을 경. 우와 말뭉치 텍스트 파일에서 오류를 검사하는 속도를 측정하였다 두 번째 실험. 은 오류 수정 도구를 사용하여 10개의 말뭉치 텍스트 파일의 문장을 수정하는데 걸리는 시간을 측정하여 파일 수정에 따른 속도 변화를 측정하였다.

첫 번째 실험에서 검사 방법은 실제 말뭉치 텍스트 파일에서는 직접 오류를 찾 는 것이 매우 어렵고 시간이 오래 걸리므로 100 문장에 대하여 검사하는 시간을 측정하였고 100 문장은 말뭉치 텍스트 파일에서 약 2000줄 정도의 분량을 의미 하며 3명의 실험자를 대상으로 측정하였다.

실험자 말뭉치 텍스트 파일 검사 오류 수정 도구 사용 검사

A 35 min 3 min 33 sec

B 45 min 5 min 08 sec

C 32 min 4 min 21 sec

평균 소요 시간 37 min 4 min 20 sec 표 오류 수정 도구의 사용 유무에 따른 검사 속도 측정 결과

< 5.1>

표 을 보는바와 같이 말뭉치 파일을 직접 검사하는 경우 평균 약 분

< 5.1> 37

정도 소요되었으며 오류 수정 도구를 이용한 평균 검사 시간은 약 4분 정도 소요 되었음을 알 수 있다 이 결과를 통해 오류 수정 도구를 사용하는 것이. 9배 정도 빠르게 검사할 수 있었으며 말뭉치 텍스트 파일을 직접 검사할 경우 오류를 찾지 못하는 경우도 발생하였다.

순번 말뭉치 파일 이름 걸린 시간 1 BTBF0269 24 min 2 BTHO0365 18 min 3 BTAA0015 16 min 4 BTJO0444 18 min 5 BTHO0366 15 min 6 BTBE0238 14 min 7 BTHO0442 17 min 8 BTBE0242 14 min 9 BTEO0327 15 min 10 BTAE0204 15 min 총 걸린 시간 168 min 표 파일 수정에 따른 속도 변화 측정

< 5.2>

두 번째 실험은 약 400 문장으로 이루어진 말뭉치 텍스트 파일 10개에 해당하는 말뭉치를 수정하는데 걸리는 시간을 측정하고 이를 관찰해 보았다. <표 5.2>는 두 번째 실험 결과이다 총 걸린 시간은. 2시간 48분이 걸렸으며 약 4000 문장을 보고 수정하였다. <그림 5.1>을 보면 파일을 수정할 때 마다 시간이 줄어드는 것 을 확인할 수 있었다 맨 처음 파일을 수정할 때 발생하였던 패턴에 대하여 이미. 오류를 수정하였기 때문에 다음 파일을 수정할수록 오류를 수정하는 횟수가 줄어 들며 그만큼 시간도 단축됨을 알 수 있다.

제 6 장 결론 및 향후 연구과제

본 논문의 목적은 빠르고 쉽게 작은 비용을 들여서 세종 형태분석 말뭉치를 효, 과적이고 일관성 있게 수정하는 방법을 제시하는 것이다 세종 형태분석 말뭉치. 에서 발생하는 철자 오류 및 품사 부착 오류 등을 빠르고 일관성 있게 수정하기 위한 오류 수정 도구를 구현하였다 이러한 오류 수정 도구를 구현하기 이전에. 텍스트로 구축된 세종 형태분석 말뭉치를 데이터베이스로 재구축하였으며 재구, 축한 데이터베이스를 서버에 두고 클라이언트 형태로 오류 수정 도구를 사용하여 다수의 사용자들이 데이터베이스에 접근하여 파일을 수정할 수 있도록 하였다.

본 논문에서는 오류를 수정하기 위하여 일반 수정 방법 삭제 수정 방법 삽입, , 수정 방법을 제시하였고 여러 오류 유형들을 수정할 수 있음을 확인하였다 오류. 수정 도구를 사용하는 것이 말뭉치 텍스트 파일을 직접 수정하는 것보다 약 9배 가량 빠르게 오류를 검사하고 수정할 수 있었다 그리고 사용자가 오류 수정작업. 을 진행할수록 수정 속도가 빨라짐을 실험을 통해 확인하였다.

오류 수정 도구를 통하여 오류를 수정하는 작업이 더 쉽고 빨라졌으나 여전히 오류가 존재할 수 있다 그 이유는 사용자가 결과적으로 직접 확인하고 수정하는. 과정을 거치기 때문에 사용자의 실수로 인하여 다른 오류를 발생 시킬 수도 있고 아직 확인하지 못한 오류 유형이 여전이 존재할 수 있기 때문이다 이를 해결하. 기위해 더 많은 오류 분석이 필요하고 사용자의 실수로 인한 오류를 방지할 수 있도록 프로그램을 개선해야 한다.

참고문헌

Brants, Thorsten (2000), "TnT – A statistical part-of-speech tagger", Proceedings of the Sixth Applied Natural Language Processing Conference (ANLP 2000). Seattle, WA, pp. 224 231.–

Eskin, Eleazar (2000), "Automatic corpus correction with anomaly detection", Proceedings of the First Conference of the North Am eri can Chapter of the As soci at ion for Comput at iona l Linguistics (NAACL-00). Seattle, Washington, pp. 148 153.–

Indurkhya, Nitin and Fred J, Damerau. (2010), Handbook of Natural Language Processing, Chapman and Hall/CRC.

Ma, Qing, Bao-Liang Lu, Masaki Murata, Michnori Ichikawa and Hitoshi Isahara (2001), "On-line error detection of annotated corpus using modular neural networks", Proceedings of the International C o n f e r e n c e o n A r t i f i c i a l N e u r a l N e t w o r k s (ICANN2001). Vienna, Austria, pp. 1185 1192.–

Nakagawa, Tetsuji and Yuji Matsumoto (2002), "Detecting errors in corpora using support vector machines", Proceedings of the 17th International Conference on Computational Lingusitics (COLING 2002). Taipei, Taiwan, pp. 709 715.–

Schmid, Helmut (1997), "Probabilistic part-of-speech tagging using decision trees", Proceedings of D.H. Jones and H.L. Somers (eds.), New Methods in Language Processing, London: UCL Press, pp. 154 164.–

Ule, Tylman and Kiril Simov (2004), "Unexpected productions may well be errors", Proceedings of Fourth International Conference on Language Resources and Evaluation (LREC 2004). Lisbon, Portugal, pp. 1795 1798.–

강승식 (1998), "한글 문장의 자동 띄어쓰기", 제10회 한글 및 한국어 정보 처리 학술대회 발표 논문집, pp. 137-142.

강승식 (2000), "한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고 리즘", 정보과학회논문지 : 소프트웨어 및 응용 제, 27권 제 호, 4 , pp.

441-447.

김계성 이현주 이상조, , (1998), "연속 음절 문장에 대한 3단계 한국어 띄어 쓰기 시스템", 정보과학회논문지(B), 제25 ,권 제12 , 1998.12,회 pp. 1838-1844.

김흥규 (2007), 21세기 세종계획 국어기초자료 구축 국립국어원 연구보고서, .

심광섭 (1996), "음절간 상호 정보를 이용한 한국어 자동 띄어쓰기", 정보과 학회논문지 제23권 제 호, 9 , pp. 991-1000.

심광섭 (2010), "CRF를 이용한 한국어 자동 띄어쓰기", 인지과학 제, 22권 제2 호, pp. 217-233.

심광섭 양재형, (2004), "인접 조건 검사에 의한 초고속 한국어 형태소 분석", 정보과학회논문지 : 소프트웨어 및 응용 제, 31권 제 호1 , pp. 89-99.

신준철 옥철영, (2012), "기분석 부분 어절 사전을 활용한 한국어 형태소 분석 기", 정보과학회논문지 소프트웨어 및 응용 제, , 39권 제 호5 , pp.

415-424.

양승현 김영섬, (2000), "부분 어절의 기분석에 기반한 고속 한국어 형태소 분 석 방법", 정보과학회논문지 소프트웨어 및 응용 제, 27권 제 호3 , pp.

290-301.

이도길 이상주 임희석 임해창, , , (2003), "한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델", 정보과학회논문지 : 소프트웨어 및 응용 제, 30 ,권 제 호4 , pp. 358-371.

이미경 정한민 성원경 박동인, , , (2005), "품사 표지 부착 말뭉치 검증", 제17회 한글 및 한국어 정보처리 학술대회 발표논문집, pp. 145-150.

이호준 박종철, (2002), "음절단위 결합범주문법을 이용한 한국어 문장의 자동 띄어쓰기 제" 14회 한글 및 한국어 정보처리 학술대회 발표논문집, pp.

47-54.

정승원 김태완 황도삼 박동인, , , (1990), "영한기계번역시스템(MASES / EK) 에 있어서 통합관리 시스템에 관한 연구", 대한전자공학회 특정연구 결과 발표회 논문집, pp. 10-13.

최성자 강미영 허희근 권혁철, , , (2003), "음절 n-gram과 어절 통계 정보를 이용한 한국어 띄어쓰기 시스템", 2003년도 제 15회 한글 및 한국어 정보처리 학술대회 발표논문집, pp. 47-53.

최성자 강미영 권혁철, (2004), "통계 정보를 이용한 한국어 자동 띄어쓰기 시 스템의 성능 개선", 한국정보과학회 2004년도 봄 학술발표논문집, pp.

883-885.

태윤식 박성배 이상조 박세영, , , (2006), "자기 조직화 n-gram모델을 이용한 자

부 록

대분류 소분류 세분류

체언 (1)

명사NN

일반명사NNG 고유명사NNP 의존명사NNB

대명사NP 대명사NP

수사NR 수사NR

용언 (2)

동사VV 동사VV

형용사VA 형용사VA

보조용언VX 보조용언VX

지정사VC 긍정지정사VCP

부정지정사VCN

수식언 (3)

관형사MM 관형사MM

부사MA 일반부사MAG

접속부사MAJ 독립언

(4) 감탄사IC 감탄사IC

관계언 (5)

격조사JK

주격조사JKS 보격조사JKC 관형격조사JKG 목적격조사JKO 부사격조사JKB 호격조사JKV 인용격조사JKQ

보조사JX 보조사JX

접속조사JC 접속조사JC

의존형태 (6)

어미E

선어말어미EP 종결어미EF 연결어미EC 명사형전성어미ETN 관형형전성어미ETM

접두사XP 체언접두사XPN

접미사 XS

명사파생접미사XSN 동사파생접미사XSV 형용사파생접미사XSA

어근XR 어근XR

부록 세종 형태분석 말뭉치 테그셋

< 1>

문서에서 형태소 생성을 통한 세종 형태분석 말뭉치의 오류 검출 및 수정 도구 개발 (페이지 41-50)