• 검색 결과가 없습니다.

K-Ecohub 시스템 설계 보고서

N/A
N/A
Protected

Academic year: 2021

Share "K-Ecohub 시스템 설계 보고서"

Copied!
83
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

K-Ecohub 시스템

설계보고서

(2)
(3)
(4)
(5)
(6)
(7)
(8)

데이터 처리를 위해 Arc GIS를 활용하고 있다. ¡ 중국 CERN은 1988년 시작된 중국 생태연구 지원 네트워크로써, 5개 서브 네트워크, 40개 사이트, 1개 재가공(synthesis) 센터로 구성되어 있다. 각 사이트에서 수집된 데이터는 5개 서브 네트워크별로 취합되어 저장되고, 메타데이터는 재가공 센터에 통합 관리된다. 각 사이트의 데이터 역시 재가공 센터로 자동화된 방식으로 취합되어 재가공을 통해 변 환되어 저장된다. ¡ 대만 1992년 시작된 대만의 TERN 프로젝트는 대만 장기생태 현상과 과정의 이해를 목적 으로 대만 생태 데이터를 수집하고 있다. 대만 TFRI를 중심으로 현재 약 770종의 데이 터 셋에 대해 미국 KNB에서 개발한 Metacat 플랫폼을 활용하여 서비스하고 있다. 23 개 DataOne 멤버 중 하나로 포함되어 있다. ¡ 일본 일본의 장태생태연구 인프라인 JaLTER는 2006년 시작되었다. 약 20개의 코어 사이 트와 36개의 협력 사이트로 구성되며, 현재 약 150 여개 데이터 셋이 수집되어 서비스 되고 있다. 대만과 유사하게 미국 KNB에서 개발한 Metacat 플랫폼을 활용하여 서비스 하고 있으며, ILTER 의 멤버 사이트이다. 6. 장기생태 플랫폼 기술 개발 동향 ¡ EML

(9)

¡ PASTA

PASTA(Provenance Aware Synthesis Tracking Architecture)는 2013년 1월 공식 서비스를 시작한 미국 LTER(Long Term Ecological Research) 네트워크의 재가공 (synthesis) 데이터 저장소이다. 기존 LTER 네트워트는 각 사이트별로 데이터를 저장 하였고, 데이터에 대한 메타데이터만 MetaCAT 소프트웨어를 통해 공유 관리하였다. 이 때문에 데이터 파편화 문제가 발생하고, 사이트간 데이터 통합이 어려웠다. 이 문제 를 해결하기 위해 PASTA는 각 사이트가 관리하는 데이터를 표준화된 형태로 재가공하 여 저장한다. 각 사이트에 저장된 데이터는 "EML Parser/Loader"를 통해 PASTA 시 스템으로 수집된다. 이 후 자동화된 과정을 거쳐 표준화된 형태의 데이터로 재가공되어 저장되고, 재가공 데이터에 대한 메타데이터는 MetaCAT을 통해 등록되어 사용자 서비 스로 출판된다. PASTA는 MetaCAT을 활용하여 메타데이터를 EML 기반의 표준화된 형태로 관리할 수 있으며, RESTful 인터페이스를 제공함으로써 R 언어, Kepler, Matlab 등 다양한 데이터 가공 및 분석 툴과의 쉬운 연계를 가능케 한다. 그리고 재가 공 데이터를 생성하는 모든 과정에 대한 데이터(provenance data)를 별도 관리함으로 써 향후 새로운 데이터에 대한 재가공 과정에서 참조할 수 있는 방법을 제공한다. 또한, “LTER Controlled Vocabulary”를 활용하여 표준화된 용어집과 검색을 지원하며, 각 데이터셋에 대한 참조를 위해 DOI를 생성하는 서비스를 제공한다.

¡ DEIMS

DEIMS(Drupal Ecological Information Management System)는 유럽

(10)

¡ TERN/AEKOS

TERN(Terrestrial Ecosystem Research Network)은 2009년 시작된 호주 생태연구 지원 네트워크로써, 8개 서브 네트워크로 구성되어 있다. TERN에서 데이터는 각 서브 네트워크별로 관리되며, TERN은 메타데이터만을 통합 관리한다. 각 서브 네트워크로부 터 메타데이터의 자동화된 추출을 위해 OAI-PMH 프로토콜과 RIF-CS 포맷을 활용한 다. 일부 서브 네트워크는 EML 형식을 지원하지만, TERN의 공식적인 EML 지원은 없기 때문에 글로벌 데이터 통합에 문제의 여지가 있다.

AEKOS(Australian Ecological and Knowledge Observation System)도 TERN의 서브 네트워크들 중의 하나이다. 생태데이터들의 파편화, 데이터 컨텍스트(context) 부 재, 데이터 다양성, 분산된 데이터 등에 대한 문제를 해결하기 위해 시작되었다. MSPN(Multi Scale Plot Network), 호주주정부 데이터, 일반연구자 데이터 등 다양한 생태데이터들에 대한 저장소 역할은 물론, 분류(Taxonomy)와 온톨로지(ontology)를 통 해 다양한 검색과 데이터 통합을 지원한다. 각 사이트의 데이터는 “Data Ingester”를 통해 자동화되어 수집되고, 변환과정을 거쳐 AEKOS 사이트에 최종 저장된다. 데이터 는 이메일 등을 통해 요청 가능하며, csv 형식이나 SQL 형식으로 전달된다. 자체적인 “Controlled Vocabulary”를 구축하여 활용하고 있으며, 각 데이터셋에 대한 참조를 위 해 DOI를 생성하는 서비스를 제공한다. ¡ CERN

(11)

를 위해 EML 표준을 기반으로 메타데이터를 publish하는 기능을 제공한다. 이와 같은 모델은 여러 국가를 포함하는 등 서로 다른 성격의 사이트가 많은 경우의 모델로써, 유 럽 LTER의 DEIMS 혹은 호주의 TERN 등에서 활용되고 있는 데이터 통합 모델이다.

(12)
(13)
(14)
(15)

소프트웨어공학의 세가지 기본 개발 방법론 (출처: wikibook) 나선형 모델은 위험 관리로 인해 위험성이 큰 프로젝트를 수행할 수 있는 장점이 있고, 고객의 진화하는 요구사항을 보다 상세히 적용할 수 있고, 사용자 만족도와 품질 측면에 서 장점이 많은 개발 방법론이라 할 수 있다. ¡ 방법론 보완 1)생태계정보 통합관리 네트워크 시스템 개발 합동 워크숍에서 새롭게 원형 개발에 대 한 논의가 있은후 아래와 같은 사유에 의거 프로토타입으로 홈페이지 개발을 결정했다. - 과제참여연구원(총괄과제/제1세부과제/제2세부과제) 간의 정보 교류 ⋅ 각종 산출물 교류, 요구사항 교류, 과제간 진도율 공유 등 - 프로토타입을 통한 요구사항 분석에 활용 - 생태 커뮤니티에 홍보 따라서, 기존 방법론인 나선형 개발 방법론과 혼용하여 하이브리드 형인 Fast prototype & spiral 방법론을 적용한다.

(16)

큰게 현실이다.

(17)
(18)

III. 설계를 위한 사전연구

1. 데이터 라이센스 ¡ 라이센스 연구 데이터의 대부분은 개인이 한정적으로 활용할 수도 있고, 같은 목적의 연구자들간 의 공동활용으로 분류가 될 수 있다. 나아가 연구의 결과는 대상에 따라 정책결정권자, 미 디어 또는 대국민과 같이 폭넓게 활용될 수 있다. K-ecohub의 데이터는 분류로 보면 공 공적 성격의 데이터로 권한에 따라 데이터의 활용정도가 결정되는 공공적 데이터이다. 공 공적 데이터는 크게 공공저작물, 공공창작물에 포함되어져 데이터 활용 정책이 결정된다.

오랜기간 동안 국제적으로는 CCL(Creative Common License)를 사용하여 왔고, 국 내에서는 데이터 거버넌스 체계로 들어서면서, “공공데이터 제공 및 이용 활성화에 관한 법률”을 통해 공공정보 개방을 촉진하여왔다. 공공 저작물과 공공 데이터는 저작권법에 따라 사용자의 활용 정도를 제한하고 있다. K-ecohub 의 데이터도 역시 전자적 형태의 공공저작물이자 데이터로 정부의 가이드인 자유이용허락 표시제도의 적용 대상이 된다. 이는 국제적으로 통용되는 CCL 뿐 아니라 국내 법에서 규정하고 있는 공공저작물 자유 이용허락 표시 기준인 공공누리(KOGL)을 태깅하여야 한다.

¡ Creative Common License

(19)
(20)

좌표계 기반 타원 체 설명 비고 wgs84 w g s 84 wgs84 타원체를 사용하는 좌표계, 위/경도 구 형 좌표계 구글맵, 야 후맵, MS live맵, ECN, LTER tm bess el bessel타원체를 사용하는 국지 좌표계로써 우리 나라의 경우 서부, 중부, 동부의 3개의 기준점을 가지고, 좌우 1도씩, 2도 간격의 평면좌표계입니 다. congnam ul bess el bessel타 원체를 기반으로 한 tm좌표계의 변형 으로 섬지역(제주도, 독도, 울릉도, 백령도)의 실 제 위치를 육지쪽으로 당겨 놓은 형태의 평면좌 표계 콩나물 지 도, 다음 지 도 wcongna w g s wgs84타원체를 기반으로 한 tm좌표계의 변형 콩나물 지 <좌표계 현황> 공공누리 CCL 문자표시 항목 1 CC BY 저작자표시 2 CC BY-NC 저작자표시-비영리 3 CC BY-ND 저작자표시-변경금지 1 CC BY-SA 저작자표시-동일조건 변경허락 2 CC BY-NC-SA 저작자표시-비영리-동일조건변경허락 4 CC BY-NC-ND 저작자표시-비영리-변경금지 <공공누리와 CCL 공동 적용> 2. 지리정보 관련 연구 ¡ 표준 문서 - Geographic (ISO 19115)

(21)

mul 84 도, 다음 지 도 ktm bess el G7이라는 프로젝트의 일환으로 자동차부품연구 원에서 네비게이션쪽에서 공동으로 사용하기 위 해 만든 좌표계로써, 중부원점(127, 38)에서 약간 벗어난(128, 38)기준을 가지는 평면좌표계 네이버 지도 utm bess el tm이 국지 좌표계로써 각 나라마다 다른 기준점 을 가진다면, utm은 전세계 공통으로 약간의 오 차를 허용하며 좌우 3도씩, 6도 간격의 평면좌표 계입니다. wtm w g s 84 wgs84타원체를 사용하여 평면좌표계로 투영한 tm좌표계입니다 . wktm w g s 84 wgs84타원체를 사용하여 평면좌표계로 투영한 ktm좌표계입니다. bessel bess el bessel타원체를 사용하는 구형좌표계입니다. ¡ 좌표계 사용현황

- TM(Bessel 타원체, Tokyo Datum) - UTM(WGS84, GPS용 좌표계) ¡ EML 2.0 (for Geographic Information)

- Geographic information(metadata): ISO 19115

(22)

<geographicCoverage> <geographicDescription>

Data were collected in inundated mangrove peat soil mesocosms, Key Largo, Florida </geographicDescription> <boundingCoordinates> <westBoundingCoordinate>-80.452</westBoundingCoordinate> <eastBoundingCoordinate>-80.452</eastBoundingCoordinate> <northBoundingCoordinate>25.085</northBoundingCoordinate> <southBoundingCoordinate>25.085</southBoundingCoordinate> </boundingCoordinates> </geographicCoverage> <EML 2.0 좌표 활용 예> ¡ K-ecohub 자리수 적용 지도에서 표현되는 좌표의 소수점 자리수는 14자리까지 표현된다. 국내외에서 활용되 는 좌표체계와 자리수는 다음과 같다. - 국내 좌표 소수점 자리수 > 구글: 6자리(wgs84) > 네이버: 7자리 > EML: Domain에 따라 결정 > 공공데이터 개발 표준(행정자치부 고시 제2014-3호): 5자리 또는 7자리 - 국외 좌표 소수점 자리수 > ECN: 8자리(wgs84) > DEIMS: 정의없음(wgs84)

> TERN: 정의없음 (TERN/Supersite: 3자리, TERN/OzFlux: 4자리,

(23)

연구 네트워크(ILTER)에서는 활용에 많은 관심을 기울여 왔다. 국가차원에서 생태관측 데이터의 활용성을 제고하기 위해서는 국내외 서로 다른 기관에서 생성되는 데이터와 다양한 생태관측 프로토콜에 따라 수집되는 데이터들을 통합하는 과정이 필요하다. 하지 만, 생태관측 프로토콜은 그 대상과 목적에 따라 다르고, 제공되는 데이터의 커뮤니티에 따라 데이터 타입, 단위, 언어, 샘플링 주기 등 많은 부분에서 이질성이 존재한다. ¡ 국내외 생태정보 비교

생태관측 데이터 통합을 위해 영국의 ECN(Environmental Change Network)[5], 한 국의 국립공원연구원(KNPS)과 국립생태원(NIE) 데이터를 살펴보면, 목적에 따라 세분 화하여 조사가 이루어지고 많은 조사 항목들이 데이터화된다. 하지만 목적에 맞게 특화 된 데이터에 대해서는 전환 및 가공 시에 개별자료 제공될 수 있고, 비교 통계가 필요 없는 관계로 여기에선 별도로 언급하지 않는다. 세 개 기관의 데이터는 모두 고유 생태 관측 프로토콜을 보유하고 있지만, ECN을 제외하고는 데이터 품질보증 절차가 없어 데 이터 품질이 낮았다. 지리정보는 체계적 분류가 되어 있는 식생을 위주로 비교하였고, ECN의 경우 환경적 요소에 비중을 좀 더 두고 있었다. Classification ECN KN P S N I E Measurement

Protocol Provided Provided Provided

QC / Data Quality Provided / High - / Low - / Low

Geographic

Information Site / Plot / Cell* Metadata:

Coordinate

Area / Lattice No.

/ Coordinate * Metadata:Site / Plot

Coordinate

Observation Time date, time date date

Environment

Variables of Sunshine / WindTemperature / %Speed Weather

-Species PopulationName specific/scientificProvided specific/scientificProvided Providedspecific

<ECN vs. KNPS vs. NIE 주요 데이터 비교>

¡ 데이터 전환 및 가공 프로세스

(24)

<데이터 전환 및 가공 프로세스>

(25)

다. 그러기 위해서는 국제적 데이터 교류를 위해 필요한 개인정보에 대한 고찰도 필요하 며, 국내 관련 법에 대한 시스템 측면에서의 해석이 필요하다.

¡ 장기생태연구 시스템에서의 개인정보 공개현황

Institute Who Role person

name Positi on Org. Addr. Phone No. E-mail Web Addr . TERN(DDP) Researchers ● ○ ○ ○ ○ TERN/ Supersite (Facility) Data Creators ● ○ ○ ○ ○ Contacts for Questions on the Use and Interpretation of Data ● ○ ○ ○ ○ Associated Parties ○ ● ○ ○ ○ TERN/ LTERNET (Facility) Data Creators ● ○ ○ ○ ○ Contacts for Questions on the Use and Interpretation of Data ● ○ ○ ○ Project information

and Data Owners ○ ● ○ ○ ○

ECN(DDP) Personnel

Responsible for site ●

ECN DB (Contact) Contact Person ○ ● ○ ○ ○ ○ LTER Creator ● ○ ● ● Metadata Provider ○ ○ ○ Publisher, IM, DM ○ ○ ○ ○ ○ Associated Parties ○ ● ● ● ● ○

<개인정보 공개현황 – TERN(호주) vs. ECN(영국) vs. LTER(미국)>

※ ○: Mandatory, ●: Optional

¡ 국내 관련 법의 적용범위 분석

(26)
(27)

무 군락 데이터를 데이터 품질관리(QA/QC) 룰을 적용하여 분석했다. 지소별로 데이터 필드는 지소별로 추가필드가 있었고, 그 중 동일한 데이터를 보유하는 필드를 대상으로 하였다.

- 주요 조사항목: year, species, plot, dbh, height, health, valid species

(28)
(29)
(30)
(31)

AMGA 공개S/W (Metacat, Pasta, Deims 등) 장점 기술 개발을 KISTI(주관기관)가 리딩하고 있어, 쉽게 수정과 기능 추가가 가능함 생태에 특화된 기본 기능 제공 (포탈, 국제연계, 등) 단점 생태에 특화된 기능을 고려하자면 기존 DB 서비스에 비해 추가 제공하는 기능이 없어 단시간에 생태에 특화된 많은 기능을 개발하기 어려움이 있음 기술 습득에 대한 시간 필요 채택 <AMGA와 기존 공개 S/W 활용 대안 비교>

(32)

구분 미국 KNB Metacat 유럽 LTER DEIMS 미국 LTER PASTA 데이터/메타데이터 QC/QA 미지원 확장 용이 지원 메타데이터 관리 지원 지원 지원 Facet/Map 검색 일부 지원 지원 지원 Controlled Vocabulary 지원 지원 지원 국제연계(EML) 지원 지원 지원 데이터 가공 - 지원 데이터 가시화 확장 용이미지원 -확장성 있는 데이터 관리 확장 용이미지원 -기타 확장성 매우 큼Drupal기반 Documentation 미흡 수정 개발 어려움 <주요기능별 공개 S/W 활용 대안 비교> ¡ 사용자와 역할

(33)

역할 수행 내용 권한 자 신이 생 성한 데 이터 Dat

aset Data Site

Me asure ment Ne ws administr ator drupal 사이트관리 RUD UDCR UDCR UDCR UDCR UDCR data manager Data, Site, Measurement, Species, Taxonomy 등 콘텐츠 관리 RU D UDCR UDCR UDCR UDCR UDCR reviewer Data 검토 RUD RU RU R R CR data

contributor Data 등록 및update RUD CR CR R R CR

authentic

ated user 글 등록 및 update뉴스 등 게시판 RUD R R R R CR

anonymo us user 데이터 검색 R - R R R <사용자 역할별 권한 – I> Role 역할 권한 Reso

urce SpeciesKeyword

Valida tion Rule User Organ ization Variabl e administr

ator drupal 사이트관리 CRUD CRUD CRUD CRUD CRUD

data manager Data, Site, Measurement, Species, Taxonomy 등 콘텐츠 관리 CRU

D CRUD CRUD CRUD CRUD

reviewer Data 검토 CR R - R R

data

contributor Data 등록 및update CR R - CR R

authentic

ated user 글 등록 및 update뉴스 등 게시판 CR R - R R

anonymo

us user 데이터 검색 - - - -

<사용자 역할별 권한 – II>

(34)
(35)

거쳐 최종 Published 상태로 진입한다.

<K-ecohub 데이터셋 입력시 검증 절차>

이 과정 중에서 데이터 검증에 대한 핵심 역할은 data manager와 reviewer, 그리고 시스템에 의해 자동화된 검증 기능에 의해 수행된다. 시스템에 의해 자동화된 검증은 Draft의 마지막 단계에서 수행된다. 입력된 메타데이터의 필수 값 입력 여부, 값의 범위 등의 적합성 여부가 웹폼을 통해 자동 검증된다. 그리고 입력된 데이터에 대해서도 타 입, 범위, 카타고리 등에 대해 시스템적인 자동 검증이 수행된다.

data manager는 Need Data Manager Work 단계에서 data contributor가 입력한 메타데이터와 데이터에 대한 검증을 수동으로 진행한다. 데이터에 이상이 발견되지 않는 경우 데이터 변환과 가시화를 위한 데이터 생성 과정을 진행하고 reviewer에게 상세 검 토를 요청하는 Need Review 상태로 데이터셋의 상태를 변경하고, 오류가 발견되는 경 우 반려의견을 통해 data contributor에게 데이터셋에 대한 수정을 요청하는 Need Contributor Work 상태로 데이터셋의 상태를 변경한다.

(36)

Dataset 상태 의미 상태전이 가능 상태 상태전이 사유 상태전이 권한자 Draft 문서가 최초 제출된 상태 문서의 내용이 변경되어 다시 검토가 필요한 상태 Need Review 오류가 없는경우 data manager Need Contributor Work 오류 발생한 경우 Need Review 세부 검토 상태분야별 전문가의 Ready to Publish 오류가 없는경우 reviewer Need Data Manager Work 오류 발생한 경우 Need Contributor Work 오류 등이 있어 최초 문서 작성자의 수정이 필요한 상태

Draft 오류 수정 이후 contributordata

(37)
(38)
(39)

순 번 항목 내용 아이콘 1 Mail 커뮤니케이션 - 요구사항 및 개발 공유 2 Goog le Docs 산출물 관리 - 산출물 작성 공유 3 Trac

Issue management tools: 요구사항에 따른 개발업무와 커 뮤니케이션 관리 4 GitH ub 소스코드 형상관리를 통한 소스 버전 관리 <체계적 개발을 위한 툴들> 2. 생태관측자료 메타데이터 표준화 개발 ¡ 프로토콜 장기생태연구에서의 프로토콜은 공통의 목적, 대상, 조사방법에 대해 기술한 조사 매뉴 얼로써 공통된 표현방법으로 데이터를 기술하고 같은 프로토콜에 대해서는 동일 QA방 법을 적용한다. 사이트1 사이트2 사이트3 ……

프로토콜A 데이터셋A1 데이터셋A2 데이터셋A3

(40)

변수명 설명 단위 형식 필수여부 비고

Vname 변수 이름 string Varchar(20) Y  

Vtype 변수 타입 string Varchar(20) Y  

Vunit 단위 string Varchar(20)    

Mcode 조사방법 코드 string Varchar(3) Y (Auto Filling)

Ecode Entry 코드 string Varchar(20) Y  

ValidationRule 데이터검증 규칙 string Varchar(100)   csv schema reference

ProcesingsRule 데이터가공 규칙 string Varchar(100)  

SUM:값을모두더하는 template이용 AVG:값을평균하는 template이용 MAX/MIN:값의최대/최소 값template이용 COUNT:개수template이 용 SEL:template적용의기준 이되는variable

Description 설명 string Varchar(200)    

변수명 설명 단위 형식 필수여부 비고

Mcode 조사방법 코드 string Varchar(3) Y  

Mname 조사방법 이름 string Varchar(20)    

ProtocolDocURL 프로토콜 문서 string Varchar(100)    

AbstractType 요약(Type) string Varchar(200)    

AbstractMethod 요약(Method) string Varchar(200)    

AbstractFreq 요약(Frequency) string Varchar(200)    

Description 설명 string Varchar(200)    

ProcessingView 데이터가공 뷰 이름 bool BOOL   데이터가공 뷰 이름

ProcessingRule 데이터가공 규칙 string Varchar(100)   데이터가공 규칙을 가진

Script에 대한 URL

Variables 수집 데이터 스키마 reference List of Variables    

□ Measurement - Variable

(41)

변수명 설명 단위 형식 필수여부 비고

Scode 사이트 코드 string Varchar(6) Y 예: SOBAEK, SEORAK,

JIRI, HALLA

Sname 사이트 이름 string Varchar(20)   예: 소백산, 설악산, 지

리산, 한라산

Description 설명 string Varchar(200)    

Contact 연락처 reference   user

URL 홈페이지 string Varchar(100)    

Organization 기관 reference     org

(42)

변수명 설명 단위 형식 필수여부 비고

DatasetID 데이터셋 ID reference Int Y  

Mcode 조사방법 코드 reference     (Auto Filling)

Scode 사이트 코드 reference     (Auto Filling)

ECode Entry 코드 reference   Y  

File 파일 첨부     Y  

Description 특이사항 String Varchar(200)    

변수명 설명 단위 형식 필수여부 비고 영한

DatasetID 데이터셋 ID string Int Y (autoincrement)  

Scode 사이트 코드 reference        

Mcode 조사방법 코

드 reference        

Title 제목 string Varchar(50) Y   영

Abstract 요약설명 string Varchar(200)     영

Keyword 키워드 string Varchar(100)   컴마(,) 구분 영

Owner 소유자 reference   Y user  

Contact 연락자 reference   Y user  

Project 관련 프로젝

트 reference     project (optional)  

Usage Right 사용권한 string Varchar(200)      

publicationDate 등록일 일 Date(CCYY-MM-DD)      

Sdate 조사시작일 일 Date(CCYY-MM-DD)      

Edate 조사마지막일 일 Date(CCYY-MM-DD)      

AccessInfo 공개여부 string Char(1)   p u b l i c l y

accessable(Y/N)  

DataSource 데이터테이블

/파일 reference        

DOI DOI string Varchar(25)   10.5072/ecohub-(Datas

etID), 자동부여  

Description 특이사항 String Varchar(200)      

Coordinate 위도/경도 도 Decimal(9,6)      

Alt 고도 meter Int      

image1 이미지1 URL        

image2 이미지2 URL        

QA QA 여부      

(43)

변수명 설명 단위 형식 필수여부 비고

Sdate 연 Year Date(YYYY) Y  

Var 변수명 String Varchar(20) Y 일반적으로 Species 명

Scode 조사지점 String Varchar(20) Y  

Value 값 Integer Decimal(6,2) Y 일반적으로 Species 개체수

□ User

변수명 설명 단위 형식 필수여부 비고 영한

UserID 사용자 ID string Varchar(20) Y    

Fname 이름 string Varchar(20) Y   영

Lname 성 string Varchar(20) Y   영

Hname 한글이름 string Varchar(20)      

email 이메일주소 string Varchar(20)      

url 홈페이지 string Varchar(50)      

phone 전화 string Varchar(20)      

fax 팩스 string Varchar(20)      

org 소속기관 org reference      

address1 주소1 string Varchar(50)      

address2 주소2 string Varchar(50)      

zipcode 우편번호 string Varchar(50)      

city 도시/도 string Varchar(50)      

country 국가 string Varchar(50)      

□ Organization

변수명 설명 단위 형식 필수여부 비고

Oname 기관명 string Varchar(50) Y  

OID 기관ID integer Int Y  

Description 설명 string Varchar(200)    

url 홈페이지 string Varchar(50)    

□ Project

변수명 설명 단위 형식 필수여부 비고

PID 프로젝트 ID integer Int Y  

Pname 프로젝트 이름 string Varchar(50) Y  

Description 설명 string Varchar(200)    

url 홈페이지 string Varchar(100)    

(44)

변수명 설명 단위 형식 필수여부 비고

DocID 문서 ID integer Int Y  

ProjID 프로젝트 ID reference     proejct

DatasetID      

Pdate 등록일 date Date(CCYY-MM-DD)    

Title 제목 string Varchar(50) Y  

Jname 논문명 string Varchar(50)    

Jnum 논문 volume string Varchar(10)    

Spage 시작 페이지 integer Int    

Epage 끝 페이지 integer Int    

URL 문서 URL string Varchar(50)   첨부파일로 대체 가능

Year 출판연도 integer Year(CCYY)    

변수명 설명 단위 형식 필수여부 비고

Kspecies 종_국명 string Varchar(50)    

Sspecies 종_학명 string Varchar(50) Y  

Kgenus 속_국명 string Varchar(50)    

Sgenus 속_학명 string Varchar(50)    

Kfamily 과_국명 string Varchar(50)    

Sfamily 과_학명 string Varchar(50)    

Korder 목_국명 string Varchar(50)    

Sorder 목_학명 string Varchar(50)    

Kclass 강_국명 string Varchar(50)    

Sclass 강_학명 string Varchar(50)    

KPD 문_국명 string Varchar(50)    

SPD 문_학명 string Varchar(50)    

Kkingdom 계_국명 string Varchar(50)    

SKingdom 계_학명 string Varchar(50)    

Natural 천연기념물 string Varchar(20)   천연기념물번호

Endanger1 1급멸종위기 string Bool   Y/N

Endanger2 2급멸종위기 string Bool   Y/N

Indigenous 고유종 string Bool   Y/N

RARE 희귀종 string Bool   Y/N

Disturbing 생태계교란생물종 string Bool   Y/N

Foreign 위해외래종 string Bool    

Description 비고 string Varchar(100)    

□ Document

(45)

변수명 설명 단위 형식 필수여부 비고

Lcode 조사지점 코드 string Varchar(13) Y 예) (Mcode)_(Scode)_01

Scode 사이트 코드 reference   Y  

Mcode 조사 코드 reference   Y  

Lname 조사지점 이름 string Varchar(20)   이름, 혹은 간단한 설명

Coordinate 위도/경도 도 Decimal(9,6)    

Alt 고도 meter Int    

image1 이미지1 URL      

image2 이미지2 URL      

Description 특이사항 String Varchar(200)    

¡ 프로토콜 데이터 스키마 모든 데이터셋은 동일 메타데이터 스키마를 활용하여 사이트와 조사방법을 중심으로 기술한다. 하지만, 서로 다른 조사방법에 따라 데이터 스키마는 조금씩 달라질 수 있다. 현재까지 정의한 프로토콜은 총 5개 종류로, 곤충으로는 뿔나비, 모기류, 딱정벌레류가 있고, 식생으로는 소나무, 신갈나무가 있다. □ 뿔나비(ILC)

- Invertebrates Libythea Celtis

Entry Code : SCO (Survey Condition & Observation)

변수명 설명 단위 형식 필수여부 비고

Sdate 조사 날짜 일 Date(YYYY-MM-DD) Y 한국 기준

Sweek 조사 주 주 Int   범위: 1-54

Recoder 조사자 String Varchar(6)   구분자 콜론(:)

STime 조사 시작시간 초 Time(hh:mm:ss)   한국 기준(24시 표현)

ETime 조사 종료시간 초 Time(hh:mm:ss)   한국 기준(24시 표현)

Temperature 측정 온도 섭씨 Decimal(5,2)    

Humidity 측정 습도 % Decimal(5,2)   범위: 0-100%

WindSpeed 풍속 m/sec Decimal(5,2)    

WindDirection 풍향 각도 Decimal(5,2)    

Weather 날씨 상수 Varchar(8)   맑음/구름조금/구름많음/흐림/비/눈

sunny/cloudly,windy,rainy,foggy,snowy

Count 개체수 Integer Int   범위: 음이 아닌 정수 or N/A

reference 참조자료 링크 Varchar(200)    

Description 특이사항 String Varchar(200)    

(46)

Entry Code : SO (Species Observed)

변수명 설명 단위 형식 필수여부 비고

Sdate 조사 시작날짜 일 Date(YYYY-MM-DD) Y 한국 기준

TID 트랩 ID Integer Int Y  

Species 종 reference     species/KN(국명)

Count 개체수 Integer Int   범위: 음이 아닌 정수

Description 특이사항 String Varchar(200)    

- IM(Invertebrates Mosquito)

Entry Code : SC (Survey Condition)

변수명 설명 단위 형식 필수여부 비고

Sdate 조사 시작날짜 일 Date(YYYY-MM-DD) Y 한국 기준

STime 조사 시작시간 초 Time(hh:mm:ss)   한국 기준(24시 표현)

Sweek 조사 주 주 Int   한국 기준, 범위: 1-54

Recoder 조사자 String Varchar(6)    

Edate 조사 종료날짜 일 Date(YYYY-MM-DD) Etime 조사 종료시간 초 Time(hh:mm:ss)     Hour 조사 기간 시간 Int     MaxTemp 최고 온도 섭씨 Decimal(5,2)     MinTemp 최저 온도 섭씨 Decimal(5,2)     AveTemp 평균 온도 섭씨 Decimal(5,2)     Humidity 평균 습도 % Decimal(5,2)   범위: 0-100%

WindSpeed 평균 풍속 m/sec Decimal(5,2)    

WindDirection 풍향 각도 Decimal(5,2)   설치시점

Weather 날씨 상수 Varchar(8)   맑음/구름조금/구름많음/흐림/비/눈

reference 참조자료 링크 Varchar(200)    

Description 특이사항 String Varchar(200)    

□ 소나무/신갈나무(VP/VQ) - VP(Vegetation Pinus)

(47)

Entry Code : SO (Species Observed)

변수명 설명 단위 형식 필수여부 비고

Sdate 조사 날짜 일 Date(YYYY-MM-DD) Y 한국 기준

Recoder 조사자 String Varchar(6)   구분자 콜론(:)

Topography 지형 상수 Varchar(8)   산정/능선/사면(상)/사면(중)/ 사면(하)/계곡/평지 MicroTopography 미세지형 상수 Varchar(4)   평면/돌출/함몰/요철 Slope 경사 도 Decimal(5,2)     FallenLeaves 낙엽부식층 상수 Varchar(8)   20cm이상/15cm미만/10cm 미만/5cm미만/없음 RockExposure 암석노출 상수 Varchar(8)   51%이상/50%미만/25%미만 /5%미만/없음

TreeLayerHeight 교목층 높이 meter Decimal(5,2)    

TreeLayerCoverage 교목층 식피율 % Decimal(5,2)    

TreeLayerDominant 교목층 우점종 String Varchar(50)    

SubtreeLayerHeight 아교목층 높이 meter Decimal(5,2)    

SubtreeLayerCoverage 아교목층 식피율 % Decimal(5,2)    

SubtreeLayerDominant 아교목층 우점종 String Varchar(50)    

ShrubLayerHeight 관목층 높이 meter Decimal(5,2)    

ShrubLayerCoverage 관목층 식피율 % Decimal(5,2)    

ShrubLayerDominant 관목층 우점종 String Varchar(50)    

HerbLayerHeight 초본층 높이 meter Decimal(5,2)    

HerbLayerCoverage 초본층 식피율 % Decimal(5,2)    

HerbLayerDominant 초본층 우점종 String Varchar(50)    

MaxDominantDBH 우점종 최대 흉고 centi meter Decimal(5,2)    

AveDominantDBH 우점종 중간 흉고 centi meter Decimal(5,2)    

MinDominantDBH 우점종 최소 흉고 centi meter Decimal(5,2)    

Reference 참조자료 링크 Varchar(200)    

Description 특이사항 String Varchar(200)    

Entry Code : SC (Survey Condition)

변수명 설명 단위 형식 필수여부 비고

Sdate 조사 날짜 일 Date(YYYY-MM-DD) Y 한국 기준

Layer 층 이름 String Varchar(10)    

Species 종 String Varchar(50) Y  

CoverRate 피도 % Decimal(5,2)   % or 등급

(48)

Entry Code : HD (Height and DBH)

변수명 설명 단위 형식 필수여부 비고

Sdate 조사 날짜 일 Date(YYYY-MM-DD) Y 한국 기준

Plot 조사지점 plot String Varchar(3)    

TID 나무 일련 번호 Integer Int    

Species 종 String Varchar(50)   필요성 검토 필요

DBH 흉고 centimeter decimal(8,1)   범위: 음이 아닌 정수 or

N/A

Height 수고 meter decimal(8,1)    

Vitality 건강도 constant Char(2)   A/D S/L/B/F

Description 특이사항 String Varchar(200)    

3. 생태관측데이터 저장소 테스트베드 구축 ¡ 클라우드 스토리지(Amazon S3) 연동 대용량 데이터를 안전하게 저장하면서도 많은 사용자가 저장된 파일을 쾌적한 속도에 서 다운로드할 수 있도록 하기 위해 클라우드 스토레지는 적절한 대응책이다. 대표적인 클라우드 스토레지 서비스로써 Amazon S3를 들 수 있다. 본 프로젝트에서는 Amazon S3에서 제공하는 가이드라인에 따라 클라우드 스토레지를 연동했다.

(49)
(50)

<Synthesis Sequence Diagram>

유저가 data import를 클릭하면 임포팅이 시작된다. 첨부된 파일의 경로를 검사하여 feeds 모듈이 주도적으로 임포팅을 시작한다. 세션타임이 초과되어 프로세스가 완료되 기 전에 멈추는 현상을 방지하기 위하여 batch process를 통해 임포팅이 진행된다.

(51)

CSV File Importing to DB Data Contributor Dataset 생성시작 데이터 임포팅 CSV 밸리데이션 (서브시스템) Feeds Module Data를 CSV로 업로드 DATA에 대한 CSV 밸리데이션 실행 Dataset 생성완료 버튼 클릭 <<extend>> <<extend>> <<extend>> Data Manager 데이터 임포팅 실행 버튼클릭 데이터 롤백 실행 버튼클릭 Dependency 상태 Transition Workflow&transition,Rules (서브시스템) <<extend>> 데이터 롤백 <<extend>> <<extend>>

<CSV File importing to DB Usecase Diagram>

(52)

<소프트웨어 구조> ¡ 하드웨어 구조 및 설계 본 시스템 개발범위는 소프트웨어에 국한 되었으므로 하드웨어적인 구조 및 설계에 대 한 내용은 포함하지 않는다. 그러나 나중에 확장성있는 하드웨어 구성을 위한 참고할만 한 정보를 설명한다. 본 시스템을 이용하는 사용자가 많아지거나 어플리케이션 내용이 복잡해져 1대의 서버 로 처리하기에는 한계에 다달았을때 다음과 같이 이중화 구성을 할 수 있다: § 서버(일반적으로 어플리케이션 서버): 1대의 어플리케이션 서버로 정상적인 서비 스를 제공하기 어려울 경우, 어플리케이션을 다중화 할수 있다. 로그인과 관련된 정보는 데이터베이스에서 처리 되기 때문에 데이터베이스 수준에서 동기화만 잘 되어 있다면 별 문제없이 L4서버를 도입하여 다중화 할 수 있다. § 데이터베이스: 현재 동일한 서버에 애플리케이션과 데이터베이스가 설치되어 있 다. 데이터베이스를 분리하여 서버를 구성 할 수있고, 데이터베이스2중화 시 PostgreSQL은 mysql 과 달리 Active-Active구성을 할 수 있다.

(53)

소프트웨어명 연관소프트웨어 기능 및 역할 Drupal 아파치 솔라, CSV 밸리 데이터, AM차트, 오픈레 이어 본 시스템 전반적으로 데이터 저장, 처리,출력을 담당한다.

Apache Solr 드루팔(검색API)

(54)
(55)
(56)

유저가 CSV File Validation 페이지에 접속하면 Data_self_validation 모듈을 통해 해당 페이지가 생성된다. 유저가 파일을 폼을 통해 업로드한 뒤 validation을 실행하게 되면 외부 소프트웨어인 csv validator의 도움을 받아 결과가 처리된다. 테스트 결과는 출력을 위해 변수에 일시적으로 저장될뿐 데이터베이스에는 저장되지 않는다.

(57)
(58)

테이블 명세서

Subject Area

Name Date Author

Table ID Table Name self_validation_rule_table

Table Description Validation Rule config and user’s Self Validation UI

NO Column ID Type L e n g t h ( B yte) N U L L K E Y D e f a u l t Remarks 1 calculation Integer NN '' 2 c o l u m n _ n a m e V A R C H A R 255 NN '' 3 description Text NN '' 4 ecode V A R C H A R 255 NN ‘’ Entity code 5 mcode V A R C H A R 255 NN ‘’ Measurement code 6 reference Integer NN ‘’ 7 unit V A R C H A R 255 NN ‘’ UNIT

8 val idatio n_ru

le Text NN ‘’ Validation Rule

9 v a r i a b l e _ t y p e Integer NN ‘’ 10 weight Integer NN ‘’ 리스팅을 위한 weight <CSV File validation 테이블 명세서> □ 테이블 명세

(59)

¡ Map Search

(60)

□ 테이블 명세

<Map Search ERD>

¡ EML Generator

□ Sequence

<EML Generator Sequence Diagram>

(61)
(62)

¡ Synthesis

(63)

□ 테이블 명세

<Synthesis ERD>

¡ Visualization

(64)

릭하면 데이터가 생성 및 처리되어 화면에 표시되게 된다. Amchart를 통해 처리되는 부분은 synthesis와 차이가 없다. □ Usecase 회원 Time Series 그래프 실행 (조건포함) AM Chart Time Series 데이터 생성 Time Series 비교 그래프 출력 그래프 생성 <<include>> <<include>> <<include>>

Time Series Module

Time Series Compare Module Time Series 비교 그래프 실행 (조건포함) Time Series 그래프 출력 <<include>> Time Series 비교 데이터 생성 <<include>> <<include>>

<Synthesis Usecase Diagram>

□ 테이블 명세

(65)

¡ Workflow(&Transition,Rules)

(66)

Rules Module WorkFlow Module Transition 실행 트리거 Data Manager Reviewer Transition 조건 저장 Transition 실행 CSV 밸리데이션 (서브시스템) Dependency <<extend>> <<include>>

<Workflow Usecase Diagram>

□ 테이블 명세

(67)

¡ 데이터셋 워크플로우

(68)

Dataset 상태 의미 상태전이 가능

상태 상태전이 사유

상태전이 권 한자 Pre Submission 문서가 제출되기 이전 임시보관 상태 Draft Data Validation 후submission 준비

완료 시점 data contributor Draft 문서가 최초 제출된 상태문서의 내용이 변경되어 다시 검토가 필요한 상태 Need Review 오류가 없는 경우 data manager Need Contributor Work 오류 발생한 경우 Need Review 분야별 전문가의 세부 검토 상태 Ready to Publish 오류가 없는 경우 reviewer Need Data Manager Work 오류 발생한 경우 Need Contributor Work 오류 등이 있어 최초 문서 작성자의 수정이 필요한 상태 Draft 오류 수정 이후 data contributor Need Data Manager Work 오류 등이 있어 Data Manager의 수정이 필요 한 상태 Need Contributor Work 데이터베이스 복구 이후 data manager Ready for Publication 최종 Confirm을 요구하는 상태 Published 오류가 없는 경우 data manager Need Contributor Work 데이터베이스 복구 이후

Published 문서가 Publish된 상태 Draft 문서의 내용이 변경된 후 contributordata

<데이터셋 상태 전이표>

Role 역할

권한

Own

dataset Dataset Data Site Measurement News Resource Species Keyword Validation Rule User Organizati on Variable administrator drupal 사이 트 관리 (모듈, user 등의 관리)

RUD CRUD CRUD CRUD CRUD CRUD CRUD CRUD CRUD CRUD CRUD

data manager Data, Site, Measureme nt, Species, Taxonomy 등 콘텐츠 관리

RUD CRUD CRUD CRUD CRUD CRUD CRUD CRUD CRUD CRUD CRUD

reviewer Data 검토 RUD RU RU R R CR CR R - R R

data

contributor Data 등록및 update RUD CR CR R R CR CR R - CR R

(69)

5. 생태관측데이터 웹포털 구축

¡ 주요 화면설계

(70)

□ Introduction (K-Ecohub)

(71)
(72)

□ Data Submission (1)

(73)

□ Site - 통합페이지

(74)

□ Measurement – 통합페이지

(75)

□ Species

(76)
(77)
(78)

□ Summary Data Comparison

(79)

6. 시범 서비스를 위한 참조 데이터베이스 구축 ¡ 통제어휘 (Controlled Vocabulary) 통제되고 표준화된 용어를 열거한 어휘 목록으로서 색인 작성의 일관성과 통일성을 높 이고, 검색 효율을 증진시키는 데 사용하기 위한 도구. 일반적으로 용어 간의 관계도 포 함한다. ‘주제명 표목’이나 ‘시소러스’는 통제 어휘집의 일종이다. 통제어휘의 구조는 복잡도가 증가함에 따라 종류가 나뉘며 아래와 같다. Struct ure Controls & relationships Descriptions CV Ambiguity control 특수 목적을 위한 용어의 특정 리스트로 리 스트로부터 용어들은 단지 커버되는 주제영역 에서 사용되기 때문에 제어됨. Taxon omy Ambiguity control Synonym control H i e r a r c h i c a l relationships 부모/자식 관계를 계층 구조록 구성한 통제 어휘 용어의 모음이다. Thesa urus Ambiguity control Synonym control H i e r a r c h i c a l relationships A s s o c i a t i v e relationships 알려진 순서로 정렬되고 구조화된 통제어휘 이기에 용어간의 다양한 관계들이 명확히 표 현되고 표준 관계 지표들에 의해 정의된다. <통제어휘 종류>

* Zaharee, Marcie. "Building controlled vocabularies for metadata harmonization." Bulletin of the American Society for Information Science and Technology 39.2 (2013): 39-42.

(80)

processes biologicalprocesses succession translocation litterfall microbial activity b i o l o g i c a l processes carboncycling carbon assimilation respiration carbon cycling evolution adaptation extinction mutation natural selection speciation evolution production seed production a b o v e g r o u n d production bacterial production photosynthesis plant growth production belowgroundproducti on

(81)
(82)
(83)

통해 만들어 내며 그것들을 반영한 정보가 사이트와 조사방법 프로토콜이다. 본 데이터 베이스는 K-ecohub의 일련의 프로세스를 통해 등록하고 데이터베이스화한다.

수치

Table  ID Table  Name self_validation_rule_table

참조

관련 문서

[r]

회원국의 영토밖에서 다른 회원국의 , 영토내에서 회원국의 서비스 소비자에게

[r]

저탄소원의 전력 생산량을 기존 탄소중립 공표안보다 확대해야 하며 이를 위해 재생 에너지, 원자력 활용과 수소 생산 확대를 언급함.. ■ 보고서에서는 2050

자 연에서 질산염은 호기성 저하작용(degradation)에 의한 질소유기화합물의 최종 생산물이다.. 혐기 성체계에서 질산염은 유기화합물이

Data standards and metadata in spatial database systems. 5.1 Issues with implementing standards and metadata in

등록제 민간자격 운영 사실을 특정한 등록 기관에 비치된 장부에 2. 기재하는 행위로서 등록한 경우에만 민간자격으로

[ 그림 4- 2] 는 가족 위험요인에 대한 개인,가족,학교사회 보호요인의 조절효과 검증 결과이다.다문화가정 청소년의 긍정적 태도가 높을수록 위험요인(