연방정부기관의 데이터 관리 체계 1)
□ NSF 사이버인프라 부서(Advanced Cyberinfrastructure[ACI] Division)
○ 사이버인프라 부서 역할
과학과 기술의 발전과 변화에 필요한 최첨단 사이버인프라 자원 도구 서비스를, , 개발 수집 제공하기 위한 부서임 또한 사이버인프라를 확장해 나가기 위해서, , . 선구적 연구와 교육을 지원함
과학 생태계 개발자 연구자 직원 이용자 등 숙련된 노동자와 기술 의 발전을 도( , , , ) 움으로써 고급 계산 데이터 처리 네트워킹과 관련 있는 모든 분야의 과학자 커, , 뮤니티와 공학자 커뮤니티의 성장을 도움
사이버인프라 부서는 광범위한 사이버인프라 기술을 지원하고 있음 슈퍼컴퓨터. , 대규모의 데이터 리포지토리 디지털 과학 데이터 관리 시스템 소프트웨어 도, , , 구 도서관과 프로그래밍 환경 디지털 네트워크 등을 지원하고 있음, ,
시스템을 생산적으로 이용하고 지속적으로 유지하며 효과적으로 관리하기 위해서 교육 프로그램과 학문적 교류 가상 조직을 지원함,
사이버인프라 부서는 NSF의 모든 부서와 협력하여 사이버인프라의 모델 프로토, 타입 일반적인 접근법을 개발하고 있음 이러한 노력을 통해 새로운 지평을 열고, .
의 목적을 달성할 수 있음 NSF
사이버인프라 부서에서 제공하고 있는 프로그램은 아래와 같음
Campus Cyberinfrastructure:Data, Networking, and Innovation Program (CC*DNI)
High Performance Computing System Acquisition: Continuing the Building of a More Inclusive Computing Environment for Science and Engineering
International Research Network Connections (IRNC)
NSF Fellowships for Transformative Computational Science using CyberInfrastructure (CI TraCS)
Petascale Computing Resource Allocations (PRAC)
Software Development for Cyberinfrastructure (SDCI)
Software Infrastructure for Sustained Innovation - S2I2 (SI2-S2I2)
Software Infrastructure for Sustained Innovation - SSE & SSI (SI2-SSE&SSI)
Strategic Technologies for CyberInfrastructure (STCI)
Virtual Organizations as Sociotechnical Systems (VOSS)
그림
< 15. NSF 사이버인프라 부서의 역할>
○ 사이버인프라 부서의 관리 체계 및 구성
초기 사이버인프라 기술의 초기 개발 연구 수행 부서에서 관리 기능 수행,
컴퓨터와 네트워크의 영향력이 커지면서 특정 분야의 사이버인프라 프로젝트와 특정 커뮤니티의 사이버인프라 프로젝트가 많이 생겨남. NSF 부서가 이러한 사 이버인프라 프로젝트를 지원하고 있음
투자의 규모가 커지고 다양한 분야의 과학기술 커뮤니티 이용자의 요구가 다양해
짐 그래서 사이버인프라의 발전을 위해서 . NSF 고위 관리직의 집단지도체계가
NSF Advisory Committee for Cyberinfrastructure(ACCI)는 를 설립하여 재정 적 행정적으로 지원하고 있음,
and Information Science and Engineering Assistant Director 적으로 보고됨
2015 1 25년 월 일부터 NIH의 연구비를 지원받아 인간 및 인간 이외의 대규모 유 전학 데이터를 생산하는 모든 연구에 적용됨 대규모 유전학 데이터에는. GWAS 유전체 서열 전사적 분석 후성유전 (Genome-Wide Association Study), SNP, , ,
자 분석 유전자 발현 데이터 등이 포함됨,
○ NIH 유전학 데이터 공유 관리44)
출처: NIH Genomic Data Sharing 그림
< 16. NIH 유전학 데이터 공유 관리 체계>
NIH는 유전학 데이터 공유 정책을 관리감독하기 위해서 관리 체계를 개발함.
는 의 보고를 받아 정책
NIH Director Senior Oversight Committee(SOC) GDS 과 GDS 정책의 실행을 감독함. SOC GDS 는 정책을 관리하고, NIH 기관과 센터 에서 사용하고 있는 운영 절차를 감독함. SOC Issues Group은 유전학 데이터 공유를 촉진하기 위한 정책을 개발 실행 관리 평가하는 것에 대해 , , , SOC에 권고 하는 역할을 수행함
SOC에 보고하는 두 개의 운영 위원회(Steering Committee) NIH는 가 지원하는 유전학 연구의 데이터 제출 접근성 확보에 필요한 절차를 개발 실행 전달하는, , , 것을 담당함
Technical Standards and Data Submission Steering Committee (TSDS) 는 NIH가 지정한 유전학 데이터 리포지토리(dbGaP )등 의 철저한 정책과 표준
44) NIH Genomic Data Sharing, http://gds.nih.gov
을 보장하기 위해 프로그램과 정책에 대해 조언함
Participant Protection and Data Management Steering Committee 는 유전학 연구 참가자의 권익을 보호하기 위해 프로그램과 정책에 대 committee, National Center for Biotechnology Information (NCBI)
를 교환하는 역할을 담당함. - Deputy Director for Extramural Research, NIH (DDER) - Deputy Director for Intramural Research, NIH (DDIR) - Associate Director for Science Policy, NIH (ADSP) - NIH Legal Advisor(Ex-officio)
SOC의 의장은 NIH Director가 임명한 IC Director와 Associate Director 가 공동으로 맡게 됨 의 대리자는
for Science Policy . IC Directors Deputy 또는 그에 상응하는 직위에 있는 사람이어야 함
합의를 이끌어 내기 위해서 실무진에는 다양한 기관 및 센터의 직원들이 참여 해야 함
SOC IG의 정기회의는 SOC 정기회의 전이나 필요할 경우에 열릴 수 있음 회. 의 내용을 요약하여 SOC에 보고함
Technical Standards and Data Submission Steering Committee(TSDS)
연구 등록과 유전학 데이터 제출을 담당하고 있는 senior Genomic Program
Participant Protection and Data Management Steering Committee (PPDM)
NIH Data Access Committees(DACs)의 의장, NIH 데이터 리포지터리 대표,
Advisory Committee to the Director
대중과 과학 관계자들을 대표하는 외부전문가로 이루어져 있음
□ DoE 지구 시스템 과학 분야 전략적 로드맵
○ 지구 시스템 과학 분야 전략적 로드맵(Strategic data roadmap for Earth System Science)
DoE의 Office of Biological and Environmental Research (BER) Climate 은 연구 프로그램과 정보학 프 and Environmental Sciences Division (CESD)
로그램을 통해 다양한 데이터 정보 소프트웨어 모델 코드를 생산하고 있음, , ,
지구 시스템 과학 분야 전략적 데이터 로드맵(2014)의 목적
CESD의 모든 데이터를 유연한 통합 데이터 환경에서 제공하고 과학 데이터와, 모델을 산출할 수 있는 최적의 정보기술을 제공
수집 관리 문서화 평가 주석달기 공유 발견 분석 시각화 등 데이터 생애, , , , , , , , 주기 그림 ( 17)의 모든 단계를 촉진
궁극적으로 지구시스템에 대한 이해 증진
BER은 Virtual Laboratory Infrastructure (VLI)를 구축하여 CESD의 다양한 데이터를 연결하는 서비스 소프트웨어를 제공하자 함 또한 업계 표준과 프로토, . 콜 최신 기술에 기초한 오픈소스 소프트웨어를 개발하고자 함,
출처:DoE Strategic data roadmap for Earth System Science 그림
< 17. DoE CESD 통합 데이터 생태계>
○ 지구 시스템 과학 분야 전략적 로드맵의 통합 아키텍처
BER VLI가 제안한 통합 아키텍처는 아래와 같은 다양한 커뮤니티가 개발한 표준 에 기초하여 만들어진 데이터와 메타데이터를 공유할 수 있는 모범적인 시스템임
International Organization for Standardization (ISO) 19115
Federal Geospatial Data Committee (FGDC)
OAI-PMH
Thematic Real-time Environmental Distributed Data Services (THREDDS)
Open Geospatial Consortium (OGC)
데이터 소프트웨어 컴퓨터 서비스를 커뮤니티에 배포하기 위해 개발된 통합 사, , 이버인프라는 상호 정보교환 및 다양한 데이터의 통합과 대규모의 데이터 처리
CESD의 데이터 아카이브와 데이터 서비스를 관리하기 위해 유연한 모델 확장( , 축소 가능 채택)
ESGF, ARM data services, Ultrascale Visualization Climate Data Analysis 등의 커뮤니티가 사용하고 있는 기술과 지식을 발전시
Tools (UV-CDAT) CESD
켜 나갈 것임
CESD의 연구 활동과 외부 협력을 지원하는 시스템을 확장하고 통합
데이터 센터와 데이터 집중 시설을 지속적으로 지원하여 데이터 수집 처리 보, , 존 배포 능력을 향상시키고 데이터 통합을 촉진,
출처: DoE Strategic data roadmap for Earth System Science 그림
< 18. DoE CESD 데이터 통합 아키텍처>
CESD 과학 분야의 데이터와 메타데이터를 보존하고 현존하는 데이터 센터를 통, 해 데이터에 접근할 수 있게 할 것임 여기에 참여하는 데이터 센터들은 가상적. 과학 포커스 그룹(Virtual scientific focus group)의 일부로 동일 분야의 데이터 를 다루는 데이터 센터들과 데이터 및 메타데이터 서비스를 공유
소프트웨어 스택은 데이터 센터 간에 데이터 메타데이터 데이터 질에 대한 정, , 보 온톨로지 시각화 분석 서비스를 공유, , ,
강력하고 유연한 접근 모델을 지원하기 위해 데이터 센터의 각 서비스 API를 제 공하여 복잡한 연구 워크플로우 구성 가능
현재 많은 DoE 프로젝트에서 사용되고 있는 OME (Online Metadata Editor) 등 의 메타데이터 생성 도구를 통한 데이터의 등록과 표준(Climate and Forecast 등 을 (CF)-and Global Change Master Directory-controlled vocabularies ) 이용한 일관성 있는 키워드 사용
프로젝트의 리소스 도구 웹서비스 등 등록 관리( , )
□ NOAA 환경데이터 관리(EDM: Environmental Data Management) 프레임워크
○ 배경
정부의 정책 및 결정 과학 연구 미국의 경제 환경 보건을 지원하는데 있어 지, , , , 구와 이를 둘러싼 환경에 대한 정확하고 적시에 제공되면서 포괄적인 범위의 관 찰 자료는 매우 중요한 데이터임
이러한 관찰 자료를 관리 보존하여 검색 평가 이해 활용하는 것이 필요, , , ,
환경데이터는 해양 대기 우주환경 태양 토양에 대한 물리적 화학적 생물학, , , , , , 적 지질학적 지구물리학적 특성 및 조건을 관찰 또는 측정한 기록 및 파생된 자, , 료이며 그와 관련된 사회경제적 데이터 관련 기록 및 메타데이터를 포함,
방대하고 복잡한 환경데이터를 효과적으로 관리하기 위해서는 체계적인 접근이 요청됨
출처: NOAA Environmental Data Management Framework 그림
< 19. NOAA 환경데이터 관리 프레임워크>
○ EDM 프레임 워크 구성
데이터 관리의 원칙(principles), 경영구조(governance), 자원(resources), 표준
아키텍처 평가 의 활동이 다양한 유형
(standards), (architecture), (assessment)
의 데이터 컬렉션 각각의 데이터 생애주기(data lifecycle)에 적용
가 원칙)
완전한 오픈 액세스(Full and Open Access): 정부의 지원을 받은 연구과제에서 생성되는 데이터이므로 적시에(timeliness), 아무런 차별 없이
(non-discrim-최소한의 비용 으로 이를 공유해야 한다는 원칙 ination) (minimum cost)
장기적인 보존(Long-Term Preservation): 지구환경의 관찰을 통해 얻은 데이터 는 재생산이 불가능하므로 지속적인 활용이 가능한 형태로 보존되어야 함
데이터의 품질(Information Quality): 품질 통제(Quality Control) 프로세스를 통해 데이터 및 관련 메타데이터의 품질 보장
이용의 편의성(Ease of Use): 이용자들이 검색엔진이나 웹 포털 등 인터넷 기반 의 검색 메커니즘을 통해 NOAA 데이터에 쉽게 접근할 수 있도록 함
나 경영구조)
출처: NOAA Environmental Data Management Framework 그림
< 20. NOAA 환경데이터 관리 경영 구조>
환경데이터관리위원회(Environmental Data Management Committee: EDMC)
EDM 경영 활동의 중추
CIO(Chief Information Officers) 위원회(CIO Council) NOAA과 관찰 시스템 위원회(NOAA Observing Systems Council, NOSC)에 보고하는 체계
NOAA의 여러 하위 기관들을 대표하여 투표권 행사
데이터관리통합팀(Data Management Intergarion Team: DIMT)
웹서비스 메타데이터 아카이빙 및 기타 관련 분야의 기술적 전문가로 구성, ,
NOAA 국가 데이터 센터(NOAA National Data Centers)
NCDC(National Climatic Data Center), NGDC(National Geophysical Data
NCDC(National Climatic Data Center), NGDC(National Geophysical Data