• 검색 결과가 없습니다.

칼럼 설명

fname 파일 이름 sent_id 문장번호 sent 문장 status 수정 상태 utime 수정 시간

user_id 수정한 사용자 ID comment 주석

표 테이블

< 4.1> sentence

표 의 테이블은 문장에 대한 정보를 가지고 있다 이 테이블의

< 4.1> Sentence .

주요 필드로는 PRIMARY KEY로 설정된 fname(파일이름), sent_id(문장번호) 필드가 있다. fname과 sent_id를 이용하여 Word 테이블과 Morph 테이블에 접 근하여 어절과 형태소에 대한 정보를 가져올 수 있도록 설계하였다. 그리고 문장 필드는 문장을 저장하는 필드이며 필드는 해당 문장을 사용

sent( ) status

자가 확인하고 이상이 있는지 없는지에 대하여 체크하는 필드이다 기본적으로. 라는 상태로 저장되어 있으며 가령 문장이 이상이 없다거나 오류를 수

Untagged ,

정하였을 때 Tagged라는 상태로 변환하여 저장하고 사용자가 수정하기가 까다 로운 경우 Asked라는 상태로 변환하여 전문가(expert)권한의 계정을 가지고 있 는 사용자에게 요청하여 질의를 할 수 있도록 하였다. utime(작업시점 은 데이터) 가 입력되거나 수정될 당시의 시간정보를 입력하는 필드로 사용자가 수정한 날짜 와 시간이 입력되어 관리자(administrator)권한의 계정을 가지고 있는 사용자가 데이터베이스에서 언제 해당 데이터가 수정되었는지 확인할 수 있도록 하였다.

사용자 필드는 어떤 사용자가 해당문장을 수정하였는지 계정이 등록 user_id( ID)

되도록 하는 기능을 가지고 있다 사용자가 문장을 수정하는데 있어서 어려움이. 있을 경우 expert 권한의 계정을 가지고 있는 사용자에게 질의를 할 수 있으며 질의를 남기는 필드로 comment(주석 를 사용한다) .

칼럼 설명

fname 파일 이름

sent_id 문장번호 word_id 어절번호

word 문장

utime 수정 시간

comment 주석

sum_morph 형태소 생성 정보 pattern 오류 패턴

pass 오류 인지 아닌지 표시 patterncomment 패턴에 대한 주석

표 테이블

< 4.2> word

표 의 테이블은 문장의 각 어절에 대한 정보를 포함하고 있다 이

< 4.2> Word .

테이블의 PRIMARY KEY로는 fname(파일 이름), sent_id(문장 번호), 어절 번호 로 설정하였다 어절 필드는 어절을 저장하는 필드이 word_id( ) . word( )

며 sum_morph(형태소 생성 정보 필드는 어절이 포함하고 있는 각각의 형태소) 를 통해서 형태소 생성 정보 문자열을 저장하는 필드이다. pattern필드는 앞서 언급한 어절과 sum_morph의 값을 통해서 비교한 결과 값이 들어가는 필드이며

필드는 오류인지 아닌지를 표시하는 필드로 사용한다

pass . patterncomment

필드는 패턴에 대한 주석을 입력하는 필드이다.

칼럼 설명

fname 파일 이름

sent_id 문장번호 word_id 어절번호 morph_id 형태소번호

morph 형태소

r_morph 형태소의 사전형 정보

tag 품사

ctag 구묶음 품사

ptag 기반구 품사

sem 형태소 의미코드

csem 구묶음 의미코드

psem 기반구 의미코드

utime 수정 시간

user_id 수정한 사용자 ID comment 주석

phrase 기반구 정보

chunk 구묶음 정보

r_chunk 사전형 구묶음 정보

표 테이블

< 4.3> morph

표 의 테이블은 로 파일 이름

< 4.3> morph PRIMARY KEY fname( ), sent_id

문장 번호 어절 번호 형태소 번호 로 설정하였다

( ), word_id( ), morph_id( ) .

필드는 표층형 형태소 정보를 저장하는 필드이며 필드는 형태

morph r_morph

소의 사전형 정보를 입력하는 필드이다. tag 필드는 형태소의 품사를 입력하는 필드이며 ctag, ptag는 각각 구묶음 품사와 기반구 품사정보를 입력하는 필드이 다. sem 필드는 형태소의 의미코드를 입력하는 코드로 예를 들면 사자 라는 형" "

태소의 의미코드는 동물이라는 의미코드가 될 수 있다. csem과 psem은 구묶음 의미코드와 기반구 의미코드를 삽입하는 필드를 의미하며 phrase 필드는 기반구 정보를 입력하는 필드, chunk는 구묶음 정보를 입력하는 필드, r_chunk는 사전 형 구묶음 정보를 입력하는 필드로 morph 테이블이 구성되어 있다.

칼럼 설명

fname 파일 이름

sent_no 문장 개수 word_no 어절 개수

user_id 수정한 사용자 ID

utime 수정 시간

tagged_all 작업 완료 여부

표 테이블

< 4.4> fileinfo

표 의 파일 정보 테이블은 말뭉치가 여러 텍스트파일로 구성되

< 4.4> fileinfo( )

어 있으므로 각 파일의 정보를 담고 있다 기본적으로. fname(파일 이름 정보를) 가지고 있다. sent_no 필드와 word_no 필드는 파일에 포함되어 있는 문장의 수 에 대한 정보와 어절의 수에 대한 정보를 입력하는 필드이며 말뭉치를 데이터베 이스에 적재하는 과정에 문장수와 어절의 수를 계산하여 입력하도록 되어 있다.

필드는 현재 파일을 어떤 사용자가 수정 작업을 하고 있는지에 대한 사 user_id

용자 정보를 입력하는 필드이며 utime 필드는 언제 작업이 마지막으로 이루어졌 는지 시간정보를 표시할 수 있는 필드이다 마지막으로. tagged_all 필드는 해당 파일의 작업이 모두 완료되었을 경우 1로 표시되며 완료되지 않을 경우 0으로 표시된다.

데이터베이스 테이블간의 관계는 <그림 4.7>과 같다. sentence, word,

테이블은 문장 분석과 연관 이 있으며 테이

morph (relation) sentence, fileinfo 블은 파일을 선택함으로써 해당 파일에 포함된 문장을 불러옴으로 파일 선택 기 능과 연관이 있다.

그림 데이터베이스 다이어그램

< 4.7> E-R

관련 문서