• 검색 결과가 없습니다.

문헌정보 가공절차

문서에서 KSCD 구축 가이드라인 (페이지 15-0)

[그림 2] 자료입수 공정도

2. 문헌정보 가공절차

문헌 정보의 가공 절차는 다음과 같다.

① 가공 대상 선정

② 논문에 대한 원문 이미지 스캔 A. 이미지 선명도 검증

B. 기울기 검증

③ 원문 이미지 가공

A. TIF 변환 and PDF 변환

④ 학술정보 추출

⑤ 가공 지침에 따라 문헌정보 XML 생성

⑥ 교열 및 교정

A. 교열 : 해당 논문지의 내용과 생성한 XML 문서의 내용을 확인

B. 교정 : 교열이 완료된 작성 파일을 맞춤법 수행, 오타, 번역, 검색어 적합 여부 재확인 등 교정 작업 수행 및 수정 입력

⑦ 문헌정보 XML 유효성 검증

A. 문법적 오류 검증(Syntax Error Check) B. 의미적 오류 검증(Symatic Error Check)

[그림 3]은 문헌정보에 대한 가공 절차를 간단하게 도식한 것이다.

[그림 3] 문헌정보 가공 절차 흐름도

제3장 문헌정보 가공 지침

3. 원문 이미지 정보 가공 지침

원문 이미지는 원문의 표지, 목차, 해당 기사들에 대한 이미지 파일로 현재 tif와 pdf파일을 기반 으로 생성한다. 그러나 향후 다른형식의 파일을 지원하게 될 수도 있으므로 이를 고려해야만 한 다.

이미지의 생성은 다음과 같은 지침에 따라 생성해야 한다.

1.1 원문이미지 생성 지침

- 원문이미지 스켄 지침(이미지 형식과 압축 형식) 1) 단색 TIF (학회, 연구보고서)

* 이미지 형식 : 단색 TIF * 이미지 크기 : A4

* 압축 형식 : CCITT Group4 * DPI : 300 DPI (표준) 2) 컬러 이미지 (연구보고서)

* 원본 책자가 컬러 페이지일 경우만 해당 * 이미지 형식 : JPEG

* 이미지 크기: A4 * DPI : 150 DPI 이상

- 원문 이미지 트리밍(Trimming) 지침 1) 단색 TIF (학회, 연구보고서) * 이미지 손실 에러

* 이미지 기울기 에러 * 이미지 노이즈 에러 * 이미지 역상 에러 * 여백 에러

2) Color Image (연구보고서) * 불투명 이미지 에러 * 이미지 기울기 에러 * 이미지 노이즈 에러 * 이미지 역상 에러 * 여백 에러

-> 원문이미지 트리밍 예시

멀티이미지 생성 지침

1) 단색 TIF ( 학회, 연구보고서 ) ? Multi Image 제공 * 기사 단위의 멀티 이미지 생성

* 300 DPI 이상의 멀티이미지

* 누락 페이지 불가 ( 단, 원문 책자 누락 인정 )

- 원문이미지 평가 지침 1) 단색 TIF

* 이미지 기울기 : 2도 미만 * 이미지 노이즈 : 장당 3개 미만 * 손실 이미지 : 원문이미지 손실 불가 * 역상 이미지 : 역상 이미지 불가 * 여백 이미지 : 원문이미지 여백 불가 2) Color Image

* 이미지 해상도 : 150 DPI 이하 불가 * 노이즈 : 장당 3개 미만

* 손실 이미지 : 원문 이미지 손실 불가 * 역상 이미지 : 역상 이미지 불가

* 여백 이미지 : 원문 이미지 여백 불가 2. 요소별 이미지 보정 규격

- 기울기

* 기준: 기울기가 3도 이상인 경우 오류 판정

* 기울기 3도 판정기준: 화면에서 한 줄의 맨 처음 글자가 위로 올라가 안 보일 때 맨 끝 글자가 화면 상단에 붙어 있는 경우 3도로 판정하고, 그 이 상 기울어진 경우에 오류로 판정

-> 예시

판독불능

* 기준: View Size 1:1(100%)에서 문자(한글, 한자, 외래어, 숫자 등) 인식율 이 80% 미만(대략 6글자 이상)인 경우 해당이미지에 대한 오류 판정.

* 판독 불능원인: 한자(韓子)인 글씨가 검게 뭉개져 보이는 경우, 이미지 상의 노이즈(얼룩 등)나 낙서 등.

* 주의 사항: 판독불능의 6글자 미만인 경우에도 연속된 문자가 판독 불능인 경우에는 문맥상의 이해가 불가능해지므로 오류로 판정해야 함.

- 판독여백 불능

* 기준: 본문 영역이 상하좌우 어느 한쪽으로 지나치게 치우친 경우 오류 판정, 불충분한 여백으로 인해 본문 내용 또는 쪽 번호가 잘린 경우 오류 판정.

-> 예시

역상

* 기준: Scan 과정에서의 오류 또는 문서 자체의 문제로 인해 역상(Mirror), 회전(90, 180, 270도) 이미지 발견 시 오류 판정

-> 예시

노이즈

* 기준: 대상자료(책자)의 상태나 Scan 과정상의 문제로 인해 삽입된 불필요한 이미지에 대 한 오류 판정, 얼룩, 선, 낙서 등 이미지가 지나치게 흐리거나 진한 경우에도 오류 판정.

- 페이지 삽입 오류

* 기준: 정상적인 페이지 사이에 공백문서 또는 내용상의 연관 없는 문서가 삽입되었을 시 오류 판정.

-> 예시

페이지 누락

* 기준: 페이지 번호가 연속되지 않고 내용도 연결되지 않는 경우 오류판정.

페이지가 연속되지 않아도 내용이 연결되는 경우 별도 처리 -> 예시

[그림 4]은 위에 기술된 지침을 따라 생성한 학술지의 표지 이미지이다.

[그림 4] 문헌 표지 이미지의 예문

[그림 5]는 문헌 목차의 이미지 파일 예문이다.

[그림 5] 문헌 목차 이미지의 예문

아래는 기사 이미지의 예문이다

[그림 6] 기사 이미지의 예문

[그림 7]는 협회자료의 표지 이미지 파일 예문이다.

[그림 7] 협회자료 표지 이미지의 예문

[그림 8]는 협회자료의 목차의 이미지 파일 예문이다.

[그림 8] 협회자료 목차 이미지의 예문

[그림 9]은 협회자료의 기사 이미지 예문이다.

[그림 9] 협회자료 기사 이미지의 예문

[그림 4, 5, 6, 7, 8, 9]의 화살표들은 각각 문헌 표지, 목차, 기사이미지에 나타나는 문헌의 정보들

순서 한글명

11 xml언어 xml:lang(?)    

37 섹션 section(*)    

65 깊이 depth    

85 xml언어 xml:lang

103 주소그룹

129 xml언

160 xml언어 xml:

일한 이름을 갖은 형제 항목들이 존재해야 한다. 제약의 값이 zero or more일 경우, 해당 항

- 패스(Path) : journal-article/journal-meta/

- 객체유형 : Element(요소)

<?xml version="1.0" encoding="euc-kr" ?>

<journal-article>

<journal-meta>

<journal-type>m</journal-type>

[그림 10] journal-type 요소가 추가된 입력 예시

F2.journal-id - 학술지식별자

journal-meta 요소의 자식 요소로, 학술지를 식별할 수 있는 식별코드를 기술한다.

- 패스(Path) : journal-article/journal-meta/

- 객체유형 : Element(요소) - 제약 : one

- 입력 값 구성 방법 : 학술지 종별로 부여된 KOJIC 번호를 입력.

"학회kojic(4자)+index(1자리)+check(1자리)"로 구성됨

- 입력 예시 : <journal-id journal-id-type=”kojic”>BBROBV</journal-id>

F3.journal-id-type - 학술지식별자형식

journal-id 요소의 속성으로, 학술지 식별코드의 유형을 기술한다.

- 패스(Path) : journal-article/journal-meta/journal-id/

- 객체유형 : Attribute(속성)

- 제약 : zero or one

- 입력 값 구성 방법 : 학술지의 종 식별 형식을 기술 - 입력 예시 : journal-id-type=”kojic”

<?xml version="1.0" encoding="euc-kr" ?>

<journal-article>

<journal-meta>

<journal-type>m</journal-type>

<journal-id journal-id-type="kojic">KSSHBC</jounal-id>

[그림 11] jounal-id 요소와 journal-id-type 속성이 추가된 입력 예시

F4.url - url

journal-meta 요소의 자식 요소로, 학술지를 열람할 수 있는 온라인 사이트 주소를 기술한다.

- 패스(Path) : journal-article/journal-meta/

- 객체유형 : Element(요소) - 제약 : zero or more

- 입력 값 구성 방법 : 학술지를 대표하는 사이트 주소

- 입력 예시 : 한국통신학회의 "JOURNAL of COMMUNICATIONS and NETWORKS (JCN)"의 사이트 주소 ->

<url>http://www.jcn.or.kr</url>

<?xml version="1.0" encoding="euc-kr" ?>

o<journal-article>

o <- <oral-type>m</journal-type>

<journal-id journal-id-type="kojic">KSSHBC</journal-id>

<url>http://www.jcn.or.kr</url>

[그림 12] URL 요소가 추가된 입력 예시

F5. material-type - 자료타입 title-group 요소의 속성 요소로,

- 패스(Path) : journal-article/journal-meta/title-group/

- 객체유형 : Attribute(속성) - 제약 : zero or one

- 입력 값 구성 방법 : title-group 요소 식별하기 위해 사용(학술지,기사) - 입력 예시 : material-type="journal", material-type="article"

<?xml version="1.0" encoding="euc-kr" ?>

<journal-article>

<journal-meta>

<journal-type>m</journal-type>

<journal-id journal-id-type="kojic">KSSHBC</journal-id>

<title-group material-type="journal">

</title-group>

[그림 13]material-type 속성이 추가된 입력 예시 F6.title - 본서명

- 패스(Path) : journal-article/journal-meta/title-group/

- 객체유형 : Element(요소)

- 패스(Path) : journal-article/journal-meta/title-group/title/

- 객체유형 : Attribute(속성) - 제약 : zero or one

- 입력 값 구성 방법 : 한.영 제목을 구별함(ISO 639-2) - 입력 예시 : 한글인 경우 xml:lang="kor"

영문인 경우 xml:lang="eng"

<?xml version="1.0" encoding="euc-kr" ?>

<journal-article>

<journal-meta>

<journal-type>m</journal-type>

<journal-id journal-id-type="kojic">KSSHBC</journal-id>

<title-group material-type="journal">

<title xml:lang="kor">한국산학기술학회논문지</title>

<title xml:lang="eng">Journal of the Korean Academic Industrial Society</title>

[그림 14] title요소, xml:lang 속성이 추가된 입력 예시

F18.ISSN - ISSN

- 패스(Path) : journal-article/journal-meta/title-group/

- 객체유형 : Element(요소)

- 제약 : zero or one

<journal-id journal-id-type="kojic">KSSHBC</journal-id>

<title-group material-type="journal">

- 패스(Path) : journal-article/journal-meta/publisher-group/

- 객체유형 : Attribute(속성) - 제약 : one

- 입력 값 구성 방법 : 학회의 식별 코드를 입력 - 입력 예시 : code = "kiss"

[그림 16]

<?xml version="1.0" encoding="euc-kr" ?>

<journal-article>

<journal-meta>

<journal-type>m</journal-type>

<journal-id journal-id-type="kojic">KSSHBC</journal-id>

<title-group material-type="journal">

<title xml:lang="kor">한국산학기술학회논문지</title>

<publisher-name xml:lang="eng">The Korean Academic Inderstrial Society</publisher-name> </publisher-group>

[그림 16] code 속성이 추가된 입력 예시

F20.publisher-name - 발행자

- 패스(Path) : journal-article/journal-meta/publisher-group/

- 객체유형 : Element(요소) - 제약 : zero or more

- 입력 값 구성 방법 : 발행자는 보통 학술지를 출판하는 학회,협회 또는 출판사(한번만 기술 할 것)

- 입력 예시 : <publisher-name xml:lang='kor'>한국산학기술학회</publisher-name>

[그림 17]

F21.xml:lang - xml언어

- 패스(Path) : journal-article/journal-meta/publisher-group/publisher-name/

- 객체유형 : Attribute(속성)

<publisher-group code="kivt">

<publisher-name xml:lang="kor">한국산학기술학회</publisher-name>

<publisher-name xml:lang="eng">The Korean Academic Inderstrial Society</publisher-name> </publisher-group>

[그림 17] publisher-name 요소가 추가된 입력 예시

F24.publisher-country - 발행국

- 패스(Path) : journal-article/journal-meta/publisher-group/

- 객체유형 : Element(요소) - 제약 : zero or more

- 입력 값 구성 방법 : 국내 학술지의 발행국은 한국이며 값으로 kor을 기술(한번만 기술 할 것)

- 입력 예시 : <publisher-country>kor</publisher-country>

[그림 18]

[그림 17과 동일]

<publisher-group code="kivt">

<publisher-name xml:lang="kor">한국산학기술학회</publisher-name>

<publisher-name xml:lang="eng">The Korean Academic Inderstrial Society</publisher-name>

<publisher-country>kor</publisher-country> </publisher-group>

[그림 18]publisher-country 요소가 추가된 입력 예시

F25.publication-frequency - 간기

- 패스(Path) : journal-article/journal-meta/

- 객체유형 : Element(요소)

- 입력 예시 : <publication-frequency>b<publication-frequency>

[그림 19]

<publisher-group code="kivt">

<publisher-name xml:lang="kor">한국산학기술학회</publisher-name>

<publisher-name xml:lang="eng">The Korean Academic Inderstrial Society</publisher-name>

<publisher-country>kor</publisher-country>

</publisher-group>

[그림 19]publication-frequency 요소가 추가된 입력 예시

F27.classification-code - 분류코드

- 패스(Path) : journal-article/journal-meta/categories/

- 객체유형 : Element(요소) - 제약 : zero or more

- 입력 값 구성 방법 :

U07 문헌정보학 U05 심리학 T01 경영경제학 S08 예술 S07 인문과학 S06 정치,외교,행정 S05 역사,지리 S04 언어 S03 교육 S02 법률 S01 사회과학 Q07 산부인과 Q06 외과/안과 Q05 임상병리학 Q04 보건위생/체육 Q03 생리학 Q02 해부학 Q01 의학일반 P01 환경공학 N11 섬유공업 - 입력 예시 :

<classification-code classification-scheme-type='kisti'>U07</classification-code>

[그림 20]

F28. classification-scheme-type - 분류스키마형식

- 패스(Path) : journal-article/journal-meta/categories/classification-code/

- 객체유형 : Attribute(속성) - 제약 : one

- 입력 값 구성 방법 : 분류체계 정의 기관 기술 - 입력 예시 : classification-scheme-type='kisti' [그림 20]

<publisher-group code="kivt">

<publisher-name xml:lang="kor">한국산학기술학회</publisher-name>

<publisher-name xml:lang="eng">The Korean Academic Inderstrial Society</publisher-name>

<publisher-country>kor</publisher-country>

</publisher-group>

[그림 20]classification-code요소, classification-scheme-type 속성이 추가된 입력 예시

F29.xml:lang - xml언어

- 패스(Path) : journal-article/journal-meta/keyword-group/

- 객체유형 : Attribute(속성)

- 패스(Path) : journal-article/journal-meta/keyword-group/

- 객체유형 : Element(요소) - 제약 :

- 입력 값 구성 방법 : 서지 가공 시 고려 안함

- 입력 값 구성 방법 : 서지 가공 시 고려 안함

문서에서 KSCD 구축 가이드라인 (페이지 15-0)

관련 문서