정 보
정보표현
• 다양한 자료에 기록되어 있는 정보 -> 표현되어야 검색이 가능함
• 원문 그 자체를 전체로 검색하는 경우는 없 음
• 검색은 색인, 초록, 요약 등의 형태로 되어 있 는 문헌 대체물(surrogate), 문헌 표현물
(representation)을 대상으로 함
• 문헌 대체물(surrogate), 문헌 표현물
(representation)은 문헌의 본질, 주제 내용 등
을 내포, 표현해야 함
정보표현과 검색
• 검색의 성공여부
• 시스템에 표현되어 있는 정보와 이용자가 표현한 질의가 일치하는가에 달려있음
• 질의(query) : 이용자가 찾고자 하는 정보에 대하여 표현한 것
• 양질의 정보표현 -> 정보의 다양한 요소를
다양한 방법과 기술로 표현하여 이용자가
표현하는 질의와 불일치를 최소화 하거나
제거하는 것
정보표현물의 형태
• 메타데이터 : 모든 유형의 데이터 에 대해서 생산되는 목록
• 범주(category)
• 요약
• 인용문헌
• 색인
메타데이터와 색인과 분류의 관계
• 제목
• 저자
기술적메타데이터
• 장르
• 주제어
의미적 메타데이터
제목색인 저자색인
장르색인 주제어색인
• 분류기호
• 분류명
분류
분류기호색인
키워드 색인
주제 색인
색인 용도에 따른 유형
• 이용자 중심 색인
- 이용자의 정보요구를 분석
- 이용자가 원하는 검색방향 이해 - 이용자의 언어 이해
- 이용자의 수준 이해
- 이용자의 검색 경험에 대한 이해
색인 용도에 따른 유형
• 용도중심색인
• 이용자 중심의 색인에서 심화된 경우
• 이용자가 어떤 목적으로 검색을 하고 있는지 검색요구와 검색결과 활용 전 과정에 대한 이해
• 이용자의 전문성이나 정보의 전문성이 적용되는 경우가 많음
색인 용도에 따른 유형
• 문서중심색인
• 문서의 주요 요소를 중심으로 색인 발달
• 문서에 대한 이해 및 분석 중심
• 문서가 다양한 각도로 검색되게 하
기 위해서는 문서를 구성하는 다양
한 요소를 색인으로 발달시켜야 함
색인의 생성원에 따른 유형 유도색인 vs. 할당색인
유도색인
할당색인
- 정보에 표현되어 있는 요소를 그대 로 유도해서 색인으로 선택
- 본문에 표현되어 있는 용어를 그대 로 색인어로 쓰는 경우가 일반적 - 본문에 표현되어 있지 않은 경우 색
인어로 부여하기 어려움
- 통제를 하지 않는 경우가 일반적 - 자료 중심 색인이 되기 쉬움
- 정보에 표현되어 있거나 또는 표현되 어 있지 않은 요소를 외부에서 색인어 을 만들어 할당
- 사람이 분석하여 색인어를 할당하는 경우가 일반적
- 본문에 표현되지 않아도 내포되어 있 는 개념도 색인어로 부여할 수 있음 - 통제를 하거나 하지 않거나 모두 적용
될 수 있음
- 이용자를 고려한 색인어를 할당할 수
있음
색인 조합에 따른 유형
전조합색인 vs. 후조합색인
전조합색인 후조합색인
- 색인을 구성하는 개념의 조합이 발 생하는 시점이 검색보다 이전에 조 합되어 색인으로 부여되는 형태 - 색인가 또는 색인 시스템이 먼저 개
념을 조합하여 조합한 개념을 색인 어로 검색 이전에 문헌에 부여
- 열거식분류, 주제명 색인, 용어열 색인
- 색인을 구성하는 개념의 조합이 발 생하는 시점이 검색시 발생하는 경 우
- 색인시에는 각각의 개념을 독립적 인 색인어로 문헌에 부여 한 후 이 용자가 검색시 마음대로 조합해서 검색
- 도치색인
전조합색인 vs. 후조합색인 - 계속
전조합색인 후조합색인
- 전조합 색인의 단점
• 용어관계의 다차원성 표현이 어 려움
• 특정순서로만 나열
• 새로운 개념 조합이 안됨
• 이용자가 전조합색인의 규칙을 알지 못하면 이용하기 어려움
• 개념조합에 한계가 있음 - 전조합 색인의 장점
• 색인시 통제를 가할 수 있으므로 유사 개념이 분산되어 색인되는 것을 방지할 수 있음
- 후조합 색인의 장점
• 색인생성과 검색이 쉬움
• 이용자가 원하는 만큼 개념을 조 합할 수 있음
- 후조합 색인의 단점
• 이용자가 개념을 조합하여 검색 할 때 불필요한 자료가 포함될 가 능성이 있음
색인의 생성 주체에 따른 유형 수작업색인 vs. 자동색인
수작업색인 자동색인
- 색인가가 문헌을 분석하여 색인을 하는 경우
- 색인가별 일관성 유지가 어려움 경 우 발생함
- 문헌에 내포되어 있는 개념, 주제, 상위개념, 포괄적 개념등을 색인하 기 어려움
- 문헌에서 색인요소를 자동으로 추 출하여 색인으로 부여하는 경우 - 대부분 형태소분석을 하여 명사를
추출한 후 색인으로 적용
- 문장을 자동분석하여 명사를 추출 할 때 발생할 수 있는 오류 발생 가 능
- 일관성있는 색인 생성에 유리함 - 문헌에 내포되어 있는 개념이나 포
괄적인 개념을 색인하기 어려움
색인의 통제에 따른 유형 통제색인 vs. 자연어색인
통제색인 자연어색인
- 색인어를 부여할 때 통제를 가하여 색인어를 발생
- 통제된 색인어휘집, 통제규칙을 적 용하는 경우가 일반적
- 주제명 표목(LCSH, MESH) , 디스트 립터 검색 등
- 자료에 표현되어 있는 용어를 그대 로 색인어로 선택
- 저자의 언어가 그대로 색인어가 됨 - 일반적인 웹검색 등
색인의 주제성에 따른 유형 주제색인 vs. 비주제색인
주제색인 비주제색인
- 정보의 주제를 나타내는 요소를 색 인어로 선택하는 색인
- 주제분석을 통하여 색인요소를 다 각적으로 추출
- 의미 색인
- 주제분석에 있어서는 주관적 판단 에 사람(이용자, 사서)마다 차이가 있을 수 있으므로 색인의 일관성을 유지하기 어렵고 이용자의 색인만 족도를 충족시키기도 어려움
- 저자명, 표제, 기관명, 단체명, 보고 서 번호 등 객관적인 기술요소를 색 인어로 선택하는 색인
- 객관적 요소이나 일관성을 위한 통 제는 필요
- 기술색인
- 색인작성의 일관성을 유지하기 쉬 우며 자동화 하기 쉬움
참고문헌
• Perlman, Janet & Zafran, Enid L. ed. (2010). Index it Right!:
Advice from the Experts, Volume 2. Medford, NJ: Information Today, Inc.
• Bonura, Larry S. (1994). The Art of Indexing. New York;
Chichester: Wiley,
• Browne, Glenda and Jermey, Jon. (2007). The Indexing Companion. Cambridge: Cambridge University Press