A Study on the Traceability Analysis between Non-standardized Documents
EunHee Kim
1†
, Kyung Ik An2
, and Duck Yong Song2
1
Dept. of Defense System Engineering, Sejong Univ.2
PARTDB. Co.Received 17 March 2015; received in revised form 16 June 2015; accepted 17 June 2015
ABSTRACT
We proposed a methodology to automatically extract the requirements from the documents and check the consistency and traceability among them. The documents include not only text but also PDF or image files. We also suggest a method to visualize the result with maps, numbers, and graphs. By comparing the results with those of manual reviews from experts, we show that it is necessary to use knowledge-based method in future instead of the word- based method for improving the reliability. The results can be applied effectively for already existing documents.
Key Words: Data management system, Requirement analysis, Traceability, V-model
1. 서 론
원전, 철도, 항공 등의 시스템은 규모가 매우 크 고 복잡한 시스템으로 이들의 성능 및 신뢰성을 보장하기 위해서 개발 단계를 표준화 하고, 이를 준수하도록 하고 있다. V–모델에 의한 시스템 개 발단계는 Fig. 1에서 나타낸 바와 같이 사용자의 요건 분석– 시스템 기본설계(기능할당) – 하위 시 스템 또는 구성품 단위의 규격 분석 및 상세설계 – 제작에 이르는 하향식(Top-Down) 설계/제작과 구성품 단위시험 – 통합 및 시험 – 시스템 수락 시
험으로의 상향식(bottom-up) 통합/검증으로 구성 되며, 각 단계의 설계와 검증이 상호 연결되어 최 종적인 수락 시험, 즉 사용자의 요건에 대한 검증 을 수행하게 된다. 각각의 개발 단계에서 의사결 정과 절충연구들이 수행되고 이에 따라 시스템의 설계, 변경 및 최적화가 이루어지므로, 시스템의 구성 요소들은 최종 수락 시험에 이르는 동안 많 은 변경을 겪게 된다. 또한, 이 기간 동안에 시스 템의 요건 자체가 진화하고 많은 변화를 겪기도 한다. 그러므로 대형 시스템 개발의 주요 관심사 중 하나는 전 개발단계, 또는 더 나아가 수명 기간 에 걸쳐 최상위 시스템 요건이 지속적으로 충족됨 을 보장하는 것이다. 이를 위해서는 시스템 개발 및 유지 과정 중 생겨난 다양한 산출물 및 구성 요
†Corresponding Author, [email protected]
©2015 Society of CAD/CAM Engineers
소들과 요건과의 추적성을 유지하는 것이 필수적 이다. Table 1에 각 산업 군에서 사용되고 있는 개 발 표준과 요건 추적성을 관리하기 위한 자동화 도구를 나타내었다.
본 논문에서 대상으로 하는 원전은 설계수명 주 기가 30년 이상의 대규모 시스템으로 원전 업무 는 원전 설계사, 기기 공급사, 건설사 등을 포함 한 8개 분야(건축, 토목, 환경, 전기, 계측, 기계, 원자력, 배관, 기타)로 구성되어 있으며, 분야별로 각각 도면, 기술규격서, 계산서, 보고서를 포함한 총 10만건에 달하는 문서들을 산출하여 발전소를 건설 및 운영하고 있다.
1970년대 도입 당시에는 대부분의 정보가 주로 종이형태로 문서보관실에 저장되어 있었으나, 정 보관리의 중요성을 인식하기 시작한 2000년대 초 반에 들어와서는 PDF, Image 형태로 정보를 저장 하는 업무가 수행되었다. 그 이후 독일 SAP를 도 입하여 ERP를 기반으로 정보를 관리할 수 있는 구조로 체제를 개편하여 전산화에 박차를 가하였 다. 근래에 와서는 HWP, MS-Word, 엑셀, PDF(텍
스트 정보 활용), CAD Data 등의 원본과 PDF 형 태의 장기저장용 정보를 동시에 저장함으로써 다 양한 파일 포맷을 수용하고 있다.
장기간의 수명 주기 동안 수많은 관련 정보를 체계적으로 저장하고 관리하기 위해서는 데이터 를 기반으로 하는 정보관리가 필요하다. 즉, 데이 터의 속성과 상호 관계 등을 포괄적으로 관리함으 로써 변경이력, 추적성 등을 제공하는 것이다. 최 근 데이터 표준(ISO)을 근간으로 하는 데이터 저 장방법이 연구되어 실용화를 앞두고 있다
[1-5]
. Fig.2의 (a)는 원전의 개발단계와 그에 따른 관련 데이 터 관리 체계이며, (b)는 데이터들의 연관 체계이다.
원본의 형태로 PDF나 이미지 등과 같은 비정형 화된 형식으로 보존되어 있는 문서들, 특히 과거 에 작성된 문서들은 요건관리 및 추적성 분석이 제대로 수행되지 않은 경우가 많다. 따라서, 설계 변경 등이 발생하는 경우, 최상위 시스템 요건과 의 추적성을 확인하고 시스템에 미치는 영향을 확 인하는 데에 많은 어려움을 겪고 있다.
본 연구에서는 기존에 작성된 문서들, 특히 설 계요건문서 등의 상위문서와 설계사양서 등의 하 Fig. 1 System Development: V model
Table 1 Safety standard and tools in various industries
산업군 기술표준 형상관리
도구 요건관리도구
항공 DO-178 Synergy, Change
DOORS, Cradle, Modelino 원자력 IEC60880 iSAS
자동차 ISO26262
AUTOSAR -
철도 EN50128
(IEC6229) - Fig. 2 Data Management System
2. 요건관리 및 추적성 분석
2.1 분석 절차 및 자동화 도구
본 연구에서는 기존 문서간 요건의 일치성 및 추적성을 분석하고 이를 가시화 하는 분석 절차와 관련 자동화 도구들을 Fig. 3에서와 같이 5단계로 제시하고자 한다.
첫번째 단계는 기존에 작성된 파일들을 텍스트 파일과 이미지 파일로 분리 저장하는 것이다. 기 존의 파일이 이미지로 저장된 비정형화된 형태인 경우, OCR프로그램 등으로 텍스트를 추출하는 것 이 필요하며, 한글, 워드 및 PDF 형태의 다양한 포 맷을 해석하여 텍스트와 이미지로 분리하여 저장 하도록 한다.
두 번째는 문서 내에 포함되어 있는 문장에서 요건문과 비요건문을 분리하는 단계이다.
영문 요건문서의 경우에는 반드시 shall, should, must 등과 같은 키워드를 포함하도록 하고 있어서 이를 기준으로 요건과 비요건(Non-Requirement) 으로 구분할 수 있다. 반면 국문으로 작성된 경우 처럼 요건문과 비요건문을 구분하기 위한 요건구 분자가 필요한 경우, 사용자가 입력할 수 있도록 단어 편집기가 요구된다. 이 단어 편집기는 특수 문자 등과 같이 배제되어야 하는 단어들을 관리 (추가, 수정, 삭제)하기 위한 목적으로도 활용된다.
세 번째 단계는 상위요건과 하위문서간의 연계 성 분석을 위해서 문서구조에 맞게 추출된 문장을 구조적으로 저장하는 단계이다. 이후 일치성 확인 을 위해 사용될 프로그램에서 인식할 수 있는 포 맷(예를 들어 엑셀 또는 word)을 사용자가 지정 할 수 있다. 각 문건들 특히 요건문의 경우, 고유 ID 를 부여하여 식별하여 이후 일치성 및 추적성 분 석 시 활용할 수 있도록 한다.
네 번째는 상위요건과 하위문서간의 일치성을 검색을 통해 확인하여 매핑(mapping) 해주는 단계 이다. 매핑은 대용량의 데이터를 분석하는 단계로 단어 단위의 일치성 또는 사용자가 입력한 규칙에 따라 자동화 하여 수행한다. 이에 관하여 2.3절에 상세히 기술하였다.
마지막으로 상하위 문서간의 연계성을 전체적 으로 도시할 수 있는 매트릭스 개발하고 자동화하 여 두 개 문서간의 연계성을 심도있게 가시화하는 단계이다. 해당 연계가 표시된 부분을 선택(클릭) 하면 상위 요건정보와 하위상세설계서 정보가 같 이 윈도우 상에 표현하는 등의 방법을 통해 가독 성을 높이는 등의 기능이 필요하다.
2.2 요건문서 분석 및 분석용 문서 생성 일반적인 안전등급 소프트웨어 설계문서는 장, 절, 항으로 구분되어 가독성, 인식성 및 일관성이 Fig. 3 Consistency and traceability analysis process and
required tools
높은 편이다. Fig. 4는 장, 절, 요건으로 구성된 요 건문서 구조의 예를 제시하고 있다.
설계문서는 글자로 인식이 가능한 정형화된 문 서와 이미지 형태로 저장되어 일반적인 프로그램 에서는 텍스트로 인식되지 않는 비정형화된 문서 로 구분할 수 있다.
정형화된 문서의 경우에는 원본 그대로 보존할 수 있는 장점이 있으나 비정형화된 문서에 비해 용량이 큰 경우가 많고, HWP, DOC 등과 같이 특 정 문서편집기/작성프로그램에 따라 저장되어 있 는 경우 문서 수정사항 발생시 최초 문서를 작성 한 프로그램이 항상 같이 존재해야 하는 단점을 가진다. 또한 운영체제 변경에 따른 과거버전의 프 로그램의 실행불가로 인해 많은 문제를 야기하고 있다.
따라서 각 문서간의 일치성 및 추적성을 확인하 기 위해서는 정형화 또는 비정형화된 설계 문서를 추적성 분석 프로그램에서 인식할 수 있는 형태로 생성, 저장하여야 한다.
2.2.1 정형화된 문서 Parsing 및 요건 분리 글자로 인식할 수 있는 정형화 된 문서의 경우 에는 글자와 그림을 따로 분리하여 저장할 수 있 다. 최근 들어 다양한 파서들의 개발로 대부분의 문서는 텍스트 인식이 가능하다. 예를 들어, 잘 알 려진 워드, 한글 그리고 PDF의 경우에도 파일포 맷을 인식할 수 있는 파서들이 많이 개발되고 있
Fig. 4 General structure of design documents
Fig. 5 Parsing and requirement extraction process
로그램이 텍스트를 인식이 불가능 한 경우를 의미 한다. 이런 류의 문서를 인식하기 위해서 OCR (Optical Character Recognition) 기법을 활용하여 문서를 인식하는 방안을 제시하고자 한다. 본 연 구에서 수행한 설계사양서는 이미지 형태로 저장 된 PDF 파일을 읽어 들여, OCR 프로그램으로 텍 스트화 하여 추적성 분석을 위한 데이터로 활용하 였다. OCR 프로그램의 단점으로는 본문 내용 이 외에 문서에 포함되어 있는 머리말, 꼬리말, 페이 지 번호, 문서명 등이 텍스트로 인식되어 일부 편 집을 수작업으로 해야 하는 번거로움이 발생한다.
설계사양서를 OCR 프로그램으로 읽어 들여 글 자를 추출하는 경우에는 다수의 오타와 글자 폰트 유형, 폰트 크기에 따른 변환이 100% 정확하게 변 환되지 않는다. 예를 들어, 문자 “I”는 숫자 “1”로 인식되는 경우가 많고 원본 해상도가 낮은 문서의 경우에는 변환 시 오탈자에 따른 수정작업이 병행 되어야 한다.
설계문서 중 낮은 해상도의 문서는 OCR 프로 그램을 활용할 경우, 프로그램 내에 보유하고 있 는 확대 기능을 통해 원본 문서를 최대한 확대하 여 텍스트 변환 시 원본에 근접한 인식이 되도록 하는 것이 변환에 따른 오타를 최소화 할 수 있는 방법이다.
본 연구에서는 Fig. 6에 도시한 바와 같이 저가 형 프로그램인 Advanced OCR Free 소프트웨어를 활용하여 이미지 문서(하위 설계문서)를 텍스트화 한 후, 앞서 설명한 바와 같이 parsing하고 요건과 비요건으로 구분하여 저장하도록 하였다. 사용된 OCR 프로그램의 좌측 윈도우는 원본 PDF 파일을 우측 윈도우에는 추출된 텍스트를 가시화 한다. 이 는 원본문서와 추출된 텍스트가 일치하는지를 비 교하기 위함이기도 하며 추출된 텍스트를 파일로 저장하는 기능을 포함하고 있다.
2.3 문서간 일치성 및 추적성 분석
앞 절에서 설명한 바와 같이 생성된 두 개의 분 석용 문서에는 각 요건에 대하여 고유 ID가 부여 되어 있다. 본 연구에서는 원자력발전플랜트에서 사용하고 있는 설계요건문서(상위문서)와 설계사 양서(하위문서)를 사용하였으며, 설계요건문서는 392개, 설계사양서는 303개의 요건문으로 구성되 어 있다. 두 문서의 연계성을 분석하기 위해서 설 계사양서의 단일요건(문장)에 포함되어 있는 단어 를 이용하여 설계 요건 문서와 대조하는 방법을 선택 하였으며, 이를 위해 단어검색 기법을 개발 하였다. 일치하는 경우는 설계요건문서의 요건 ID 를 일치되는 설계사양서 ID의 우측 셀에 표현하도 록 하였다.
Fig. 7은 설계사양서의 ID가 “6.1.1_1”인 단일 문 장을 상위 요건과 일치하는지 여부를 확인하여 우 측 테이블에 표시한 것이다. 단일 단어로 비교하 는 경우 셀마다 100개 이상의 상위 요건과 일치되 는데, 이는 단일 단어로 일치성을 검사하는 경우, 정관사, 조사, 마침표 및 특수문자에 대해서도 일 치성을 확인하기 때문에 무의미하게 많은 수가 나 타난 것이다. 따라서 요건 문서의 일치성 및 연계 성을 분석하기 위해서는 Fig. 3에 나타낸 바와 같 이 단어 제외 기능, 일치 처리방법(규칙)을 개발할 필요가 있다.
일치 처리방법으로는 연속하는 단어로 제약사 항을 강화하는 등의 일반적 방법과 문장에 대한 의미를 파악하여 일치 여부를 판단하는 등의 지식 기반 기법을 적용하는 방법이 있다. 후자의 경우,
Fig. 6 File conversion from image to text
현재로서는 적용할 수 있는 기술적 기반이 부족한 상태로 생각되나 신뢰성향상을 위해 추후 반드시 연구되어야 할 주제이다. 3장에서는 단어 단위의 일치성과 제외단어를 적용하여 분석한 결과를 제 시하였다.
2.4 추적성 가시화 방안
일치성을 가시화 하기 위해서는 상하위 문서간 의 일치성을 보여주는 가시화 맵(map)을 통해 전 체적인 연계성을 가시화 할 수 있다. Fig. 8은 설 계요건문서와 설계사양서간의 일치되는 ID를 각 셀에 표시하여 그 연계성을 가시화한 것이다. 좌
측 행은 설계사양서 문장의 고유 ID이며 열은 설 계 요건문서의 요건에 대해서 부여된 ID를 나열한 것이다. 각 셀은 해당 열의 요건과 해당 행의 하위 요건간의 일치 횟수를 카운트하여 나타낸 것이 다. 일치한 횟수가 많은 셀에 대해서는 색을 부여 하여 가독성을 높이고자 하였다.
3. 추적성 분석 결과 검증
본 절에서는 제시한 자동화 방법에 따라 설계요 건문서와 설계사양서의 요건문간의 일치성을 분 석하고, 이를 전문가의 판단에 의한 수동 작업과 비교하였다.
3.1 단어 기반의 일치성 분석
먼저 설계요건문서의 요건 7개와 설계사양서 요 건 392개를 대상으로 단어 기반으로 자동 일치성 을 평가한 결과와 전문가를 통해 두 문장(ID) 간 의 일치 여부를 수작업으로 확인한 결과를 비교하 였다. Table 2에 나타낸 바와 같이 프로그램에 의 한 평가는 전문가 평가에 비해 문장간 일치 수가 매우 높게 분석되었다. 전문가 검토에 의한 하위 요건(설계사양서)의 일치 수는 총 29개이며 평균 은 4개로 산술되었다. 단어기반 일치의 경우는 총 1,561개이며 평균 223개로 산술되었다. 단어기반 으로 일치, 연관성을 찾을 경우에는 전문가 평가 대비 분석에 비해 53.8배나 많은 연관성을 찾아주 는 반면 정확도는 1%에 불과하다. 이는 앞장에서 설명한 바와 같이 단일 단어로 일치성을 검사하는 경우, 정관사, 조사, 마침표 및 특수문자에 대해서 Fig. 7 Traceability analysis between two files (Requirement
specification and design description)
Fig. 8 Traceability analysis between two files (Requirement specification and design description)
Table 2 Comparison between automatic and manual check based on the unit word
요건 ID 전문가 검토
일치 수(개) 단어기반
일치 수(개)
4.1.2_1 4 172
4.1.2_2 3 273
4.1.2_3 3 248
4.1.2_4 4 134
4.1.2_5 5 243
4.1.2_6 5 263
4.1.2_7 5 228
합계 29 1,561
평균 4.1 223
도 일치성을 확인하기 때문에 무의미하게 많은 수 의 일치성이 나타난 것이다.
3.2 단어제외 기능을 추가한 일치성 분석 일치성 분석의 신뢰도를 높이기 위하여, 단어제 외 기능을 이용하여 무의미한 단어를 제외한 후 결과를 비교할 수 있도록 프로그램을 개선하여 정 확도를 높이는 시도를 반복 적용하여 보았다. 제 외 단어들은 Fig. 9와 Exception 리스트로 작성하 여 update가 용이하도록 하였다.
제외 단어는 The(the), A(a), an과 같은 관사, would, shall, become, is must, be 등의 be 동사 또 는 조동사, in, of, for, over, to, with, by, than 등의 전치사, 아라비아 숫자, and, or, but, however, as 등의 접속사, that, which 등의 관계대명사 및 일반 동사 등을 적용하였으며 최종적으로는 75개의 배 제단어를 선택하여 이를 기반으로 일치성 검사를 수행하였다.
Fig. 8의 매트릭스 중 4 × 4 (16 cell) 크기의 16 개 그룹을 임의로 추출하여, 자동화에 의한 일치 성과 전문가에 의한 일치성 여부를 비교하였으며 그 결과를 Table 3에 나타내었다.
추출된 전체 256개의 셀 중 자동화에 의한 분석 과 전문가에 의한 일치 여부 분석이 동일한 것은 총 87개로 34%이며, 불일치한 경우는 169개, 66%
Fig. 9 Exception List
Table 3 Comparison between automatic and manual check by constraints
Group 총수 불일치수 일치 수
1군 16 2 14
2군 16 6 10
3군 16 7 9
4군 16 8 8
5군 16 8 8
6군 16 8 8
7군 16 4 12
8군 16 7 9
9군 16 6 10
10군 16 0 16
11군 16 12 4
12군 16 4 12
13군 16 4 12
14군 16 0 16
15군 16 4 12
16군 16 7 9
합계(건) 256 87 169
비율(%) 256 34.0
66.0
Fig. 10 Accumulated graph of Table 3
4. 결 론
본 논문은 정형화되지 않은 PDF, 이미지 형태로 저장된 문서들로부터 텍스트 형태의 문서정보를 추출하고 요건문을 분리하여 일치성과 추적성을 분석하는 절차와 자동화 도구에 대하여 제시하였 다. 두 문서의 요건문간의 일치성 및 추적성은 주 요 단어들을 기반으로 분석하였으며, 단어 단위의 일치성 자동화 분석 결과는 전문가 검토 결과와의 비교해 볼 때 신뢰성이 아직 낮은 편이지만, 일치 처리 방식에 대한 제한사항을 추가한다면 성능 개 선이 가능함을 확인하였다.
본 연구에서 제시한 비정형화된 문서를 포함한 포괄적인 형태의 문서간 추적성 확보와 가시화 방 안은 데이터 기반의 정보 관리 시스템 체계화에 기반이 될 것으로 생각되며, 이를 통해 국내 원전 시스템의 신뢰성 향상에 기여할 것으로 기대된 다. 추후 과제는 원전 플랜트의 계통에 대한 이해 를 가진 전문가 및 IT전문가의 협업을 통해 의미 사전, 지식 추론 기법 등의 최신 기법을 적용하여 단계적으로 전문가 검토의 보조 수단에서 실제 자
동화 기법으로 실용화 될 수 있도록 연구를 수행 할 것이다.
References
1. Lee, W., An, K. and Song, D., 2013, Develop- ment of Technical Data Management System based on International Standard PLCS, Proceed- ings of the Society of CAD/CAM Conference, pp.98-102.
2. Jeon, Y., Chul, B. and Mun, D., 2015, Devel- opment of a System for Visualization of the Plant 3D Design Data Based on ISO 15926, Trans. of the Society of CAD/CAM Engineers, 20(2), pp.145-158.
3. Batres, R. et al. 2007, An Upper Ontology Based on ISO 15926. Computers & Chemical Engi- neering, 31(5), pp.519-534.
4. Leal, D., 2005, ISO 15926. Oil & Gas Science and Technology, 60(4), pp.629-637.
5. Kim, Y.M. and Lee, J.C., 2012, On the Integration of Systems Design and Systems Safety Processes from an Integrated Data Model Viewpoint, Jour- nal of the Korea Safety Management and Science, 14(4), pp.107-116.
선임연구원
2007년~2013년 LIG넥스원, ISR연 구센터 수석연구원
2013년~현재 세종대학교, 국방시스 템공학과 조교수
관심분야: Modeling and Simulation, VV&A, System Engineering
송 덕 용
2000년 전주대학교 컴퓨터공학 공학사
2000년~2005년 ㈜액트 시스템 개발 팀 과장
2005년~2011년 ㈜에네시스 엔지니 어링 개발팀 부장
2011년~2014년 ㈜오비옥스 대표이사 2014년~현재 ㈜부품디비 기술연구 관심분야: IT-based intelligent소 이사 engineering System, Engin- eering Automation, Engineering Visualization, Virtual Reality, Safety Analysis