가. D ata w arehouse - 직업교육의 정보화

데이터웨어하우스란 단어의 의미 그대로 정보의 창고, 정보의 저장소를 의 미한다. 조직 내 여러 곳에서 분산 운영되는 교환위주의 시스템들로부터 필 요한 정보를 추출한 후, 중앙 집중화된 저장소에 모아 놓고, 이를 여러 계층 의 사용자들이 좀 더 손쉽고 효과적으로 접근하여 이용할 수 있도록 하는 것으로서 데이터웨어하우스의 구축을 통해 자료를 적절한 의사결정을 위한 기본 자료로 활용하며 상황변화에 따른 신속한 의사결정이 필요하고 대량의 운용데이터가 발생하는 분야에서 과거 및 현재의 자료분석을 통해 시장 변 화와 미래 예측까지도 가능하게 할 수 있다.

의사결정을 지원하기 위해 별도의 통합된 저장공간(Data warehouse)을 구 축함으로써 얻을 수 있는 이점은 다음과 같다.

첫째, 운영시스템을 보호하고 사용자 질의에 신속한 응답성능을 제공할 수 있다. 둘째, 여러 시스템에 흩어져 있는 데이터들을 데이터웨어하우스로 통 합되므로 사용자는 자신들이 필요로 하는 데이터가 어디에 있는지 신경 쓰 지 않고 필요한 데이터를 쉽게 가져다 쓸 수 있다. 마지막으로 데이터는 데 이터웨어하우스로 옮겨오기 전에 정제 및 검증과정을 거치게 되며, 따라서 사용자는 양질의 데이터를 사용할 수 있다. 저장되는 데이터들은 필요한 특 정 주제 단위로 통합된 데이터로서 다양한 분석 및 빠른 액세스를 제공하기 위한 효과적인 방법으로 저장된다.

1) 데이터웨어하우스의 특성 가) 주제지향성 (Subject Oriented)

데이터웨어하우스내의 데이터는 일상적인 트랜잭션을 처리하는 프로세스 중심 시스템의 데이터와 달리 일정한 주제별 구성을 필요로 한다. 예를 들어 보험회사의 경우 프로세스 중심의 시스템으로는 자동차 보험, 생명보험, 개 인연금보험 등이 해당되지만, 이들의 주제영역을 보면 고객, 약관, 청구 등이 될 수 있다.

나) 통합성 (Integrated)

데이터웨어하우스내의 데이터는 사용자의 요구에 맞게 표준화 및 통합화 과정을 거쳐 일관된 정보를 제공해야 한다. 예를 들어, 기존의 애플리케이션 중심의 환경에서는 남자와 여자를 남/ 여, Male/ Female, 1/ 0 등으로 다양하 게 적용할 수 있으나 데이터웨어하우스에서는 이들을 통합할 필요가 있다.

다) 비휘발성 (N on-volatile)

데이터웨어하우스는 오직 두 가지 오퍼레이션(operation)을 갖게 되는데, 하나는 데이터를 로딩(loading)하는 것이고, 다른 하나는 데이터를 읽는 것, 즉 액세스하는 것이다. 이를 달리 표현하면 데이터웨어하우스에 일단 데이터 가 로딩되면 읽기전용으로 존재한다는 것이다. 따라서 데이터웨어하우스의 데이터는 오퍼레이셔널 시스템(Operational System)에서 수시 발생되는 갱신 이나 삭제 등이 적용되지 않으므로 수시로 변한다는 의미의 "휘발성"을 갖지 않게 된다.

라) 시계열성 (Time Variant)

오퍼레이셔널 시스템의 데이터는 액세스(access)하는 순간에 정확해야만 의 미가 있게 된다. 그러나 데이터웨어하우스의 데이터는 일정한 시간 동안의 데이터를 대변하는 것으로 "스냅 샷 (Snap Shot)"과 같다고 할 수 있다. 따라 서 데이터 구조상에 시간이 아주 중요한 요소로서 작용한다. 이와 같은 이유 에서라도 데이터웨어하우스의 데이터에는 수시적인 갱신이나 변경이 발생할 수 없다.

2) 데이터웨어하우스의 구조

원자료 계층, 데이터웨어하우스 계층, 클라이언트 계층으로 구성되며 데이 터 추출, 데이터 저장, 데이터 조회의 활동으로 구성된다. 특히 데이터웨어하 우스 계층은 대용량 정보 저장의 RDB와 목적지향의 MDB(Multi Dimensional Database)로 분류된다.

[그림 Ⅳ- 5] 데이터웨어하우스의 구성요소

3) 구성요소

가) 원시 데이터 계층

기존 메인 프레임 어플리케이션, 클라이언트 어플리케이션, 외부 데이터 소스를 포함한 수많은 소스들로 구성되며, 데이터는 이들 소스로부터 추출되 어 변환 및 표준화 과정을 거쳐 데이터웨어하우스로 적재된다.

나) 데이터 웨어하우스 계층

데이터웨어하우스 계층은 의사결정을 지원하기 위해 주제 중심적, 통합적, 시계열적 데이터의 집합으로써 사용자의 요구에 따라서 대량의 데이터가 축 적된 인프라를 만들어 놓고 실제 활용은 최종 사용자에게 맡기는 계층이다.

다) 클라이언트 계층

사용자들이 정보를 엑세스하고 분석할 수 있는 수단으로 데이터웨어하우 스에 대한 별도의 지식이 없이도 통합된 데이터의 결과치를 볼 수 있도록 한 계층이다.

4) 데이터웨어하우스 내부 주요 활동 가) 데이터 추출 및 적재

운영 데이터베이스, 파일형태의 데이터, 외부 자료 등으로부터 데이터를

추출하여 운영데이터 저장소로 적재하는 작업으로 메타 데이터의 정보를 참 조하는 작업이 포함된다.

[그림 Ⅳ- 6] 데이터웨어하우스의 주요 활동

나) 데이터웨어하우스 모델링

데이터 모델링은 분석과 설계의 두 단계를 거친다. 분석 단계에서는 업무 규칙 및 요구사항을 도출하여 적용하고 설계단계에서는 실제 구현작업을 한 다. 두 단계를 거치며 생성되는 산출물은 개념적, 논리적, 물리적 모델이다.

데이터는 업무 중심이 아니라 분석을 요구하는 중요 주제별로 정리된다. 여 러 다양한 소스로부터 데이터들을 통합한다. 데이터 모델링의 최우선 고려 사항은 빠른 검색 속도이다( 중복 데이터가 많이 발생하여 비정규화된 모델 이 생성된다), 공식 및 계산 적용을 위한 파생데이터 항목이 많이 생성된다.

시간을 키의 일부로 갖는다.

다) 데이터웨어하우스 조회

데이터웨어하우스는 중앙 집중화된 데이터 저장고(repository)이다. 이곳에 는 임시저장소(ODS : Operational Data Store)와 여러 측면의 분석을 필요로 하는 데이터가 다차원적 모델링으로 구성되어 있는 사실 테이블(Fact Table), 차원 테이블(Dimension Table), 요약 테이블(Summary Table), 메타 데이터 (Meta Data)가 들어 있다. 이러한 자료를 여러 차원의 분석을 전문적으로 해 줄 수 있는 OLAP도구를 사용하거나 일반 4GL로 작성한 프로그램 또는 SQL 문장으로 액세스한다.

[그림 Ⅳ- 7] 데이터웨어하우스의 정보조회 형식

문서에서 직업교육의 정보화 (페이지 130-134)