• 검색 결과가 없습니다.

Data 표준화 및 가공방안

농수산식품 통계 종합 DB 구축방안 1)

2. IT인프라 구축방안

2.6. Data 표준화 및 가공방안

○ 농수산식품통계정보의 표준화는 농림수산식품통계정보 DB에 입수되는 각 종 데이터에 대해 표준화 항목을 선별하고 유형별 데이터를 분류하여 농림 수산식품통계관련 데이터 및 행정자료의 공동 활용을 위한 데이터 기준을 수립하는데 있음.

○ 이들 데이터에 대한 가공은 원시데이터의 오류처리, 누락, 중복, 불일치 등 데이터 자체에 대한 검증과 함께 농림수산식품부가 정하는 데이터의 표준지 침에 따라 형식과 단위 및 용어의 변환 등을 수행하는 작업과 데이터의 사용 목적에 따라 2차 자료의 집계, 계산 등으로 구성됨. 이와 함께 개인정보 마스 킹 등도 포함하여 전체적인 데이터의 가공절차와 지침을 마련함.

2.6.1. 데이터의 표준화

○ 농림수산식품부가 정하는 통계정보의 표준 지침을 적용하여 농수산식품종 합통계정보 DB에 수집되는 데이터에 대해 용어의 정의, 코드 정의 및 분류

작업이 수행되어야 함. 이때 표준 및 비표준간 매핑 및 매칭set 정의 데이터 사전도 함께 정의해야 함.

○ 농림수산식품부내 실·국의 사업업무가 변경되거나, 외부 데이터 연동 기관 의 업무 변경으로 인해 수집되는 데이터가 수정이 필요한 경우, DB내 표준 화 내역을 조회하여 Data Architecture내 추가사항을 반영함. 이때 Data Architecture내 모델 검증을 통해 표준화된 데이터의 모델과 테이블에 정확 히 반영되었는가를 검증함.

○ 농림수산식품통계내 표준화를 위해 현재 농림수산식품통계의 표준화 업무 를 확대하여 관련기관 간 데이터 교환시 표준화를 적극 준수하도록 권고하 고, 표준화 대상 기관에 대해서는 책임감을 부여하기 위해 관련 절차를 명확 히 정의하여 절차에 따른 표준화작업이 추진/관리되도록 제도로서 명문화해 야 함.

○ 농림수산식품통계내 데이터 항목 명명의 기본은 하나의 이름을 유일하게 가 져야 하며, 명명규약에 의거하여 생성되어야 함. 이를 농림수산식품통계에 적용하여 활용함으로써 데이터표준(안)으로 활용함.

○ 별도의 어휘사전을 구성하여 표준어, 비표준어, 동의어, 유의어, 영문명, 영 문약어 순으로 관리하도록 사전을 구성하여 서식항목을 명명하고, 데이터 및 프로그래밍을 위한 명명에 활용될 수 있도록 함.

○ 코드의 표준화는 현행 각 코드를 분석하여 코드관리 원칙을 수립하고 관리 대상 코드를 취합하여 표준화 대상을 선정하여 표준코드로 생성함. 이후 기 존 코드와 표준코드간의 변환규칙을 정립하고 표준코드 분류체계를 정하여 표준코드 테이블로 관리함.

○ 표준코드 분류체계는 코드를 의미별, 업무별로 그룹화하여 코드 간 상·하위 간 관계를 정의할 수 있는 유연한 체계로 구성해야 함. 표준코드의 활용 및 관리의 효율성을 높이기 위해 표준코드를 관리하기 위한 관리용 테이블을 생성하는 것이 필요함.

2.6.1. 데이터의 가공

○ 농림수산식품통계 종합통계정보 DB내 데이터의 1차 가공은 데이터의 표준 화 절차에 따른 처리로 용어사전과 도메인 사전, 표준항목 코드를 참조하여 각 통계자료 생성기관이나 부서로부터 수집된 자료를 변환하는 과정임.

○ 여기서 원시데이터의 오류처리, 누락, 중복, 불일치 등 데이터 자체에 대한 검증 등 원시 데이터의 전처리 가공과 용어의 표준화, 형식 및 양식의 표준 화 그리고 표준 도메인을 적용한 후 표준코드를 매핑하는 과정이 포함됨.

그림 5-11. 농림수산식품통계 데이터의 1차 가공과정

○ 농림수산식품통계 종합통계정보 DB내 데이터의 2차 가공은 통계정보의 서 비스 또는 사용목적에 맞도록 마이크로데이터를 정리하거나 구조를 조정하

는 작업과 관련된 통계자료를 연동하여 보다 종합적인 분석이 가능하도록 자료를 제공하기 위해 사용하는 가공방법으로 데이터를 종합, 집계하는 작 업이 포함되기도 함.

그림 5-12. 농림수산식품통계 데이터의 2차 가공과정

6