• 검색 결과가 없습니다.

디지털 전환 대응 디지털 큐레이션 전략

N/A
N/A
Protected

Academic year: 2023

Share "디지털 전환 대응 디지털 큐레이션 전략"

Copied!
16
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

디지털 전환 대응 디지털 큐레이션 전략

2022. 08. 01.  

45

https://doi.org/10.22810/2022KIB045

디지털 기술의 발전으로 과학기술연구 패러다임이 실험, 이론, 컴퓨팅자원 중심 연구에서 데이터 중심의 연구로 전환하고 있다. D.N.A.(디지털, 네트워크, 인공지능) 기술 발전은 과학기술계가 추진해온 오픈사이언스 운동을 현실로 만들어가고 있고, COVID-19 같은 국제적 현안이 발생하면서 과학기술계에서는 연구자들의 신속한 데이터 공유와 가상 환경에서의 연구 협력을 더욱 더 필요로 하고 있다. 데이터 중심의 연구환경을 지원하기 위해 과학기술분야 정보기관들은 연구성과 및 데이터 관리 프로세스를 디지털 체제로 전환하고 있다. 본고에서는 전 세계 과학기술분야의 디지털 전환 동향, 디지털 큐레이션 관리 모델, 디지털 전환 기술을 살펴보고, 데이터 큐레이션 라이프사이클 관점에서 디지털 전환 전략을 제시하였다. 디지털 시대에 과학기술정보와 데이터 구축과 관리 프로세스는 인공지능 기술을 적극적으로 도입하여 정형 데이터는 물론 비정형 데이터를 포함하는 데이터의 수집, 가공, 식별의 지능형 자동화 전환이 필요하며, 데이터 활용에 있어서는 연구자(사람)는 물론 인공지능 연구환경에서 기계활용이 가능한 방향으로 전환해야 한다.

이혜진 · 김재훈 · 현미환

1.

들어가며

· 정보와 데이터 환경 변화

· 정보와 데이터 환경 변화에 따른 디지털 큐레이션 전략

2.

디지털 전환을 위한 전략 프레임워크

·디지털 큐레이션 업무의 디지털 전환 방향

·디지털 큐레이션 모델:디지털 큐레이션 실행 관리 도구

·디지털 큐레이션 성숙도 모델:디지털 전환 수준 측정 관리 도구

3.

디지털 큐레이션 자동화를 위한 디지털 전환 기술

·디지털 전환과 프로세스 자동화

·AI를 활용한 자동화 기술 동향

·큐레이션 자동화를 위한 AI 기술

4.

디지털 큐레이션 업무의 디지털 전환 제언

(2)

들어가며 1.

정보와 데이터 환경 변화

(오픈사이언스 연구 패러다임 확산) 최근 연구성과의 확산을 위한 성과 공동활용 및 정보공유가 보편화 되었으며, 특히 COVID-19 이후 글로벌 현안을 해결하기 위한 협력과 공유가 증가하고 있음.

-

(오픈사이언스)오픈사이언스는 디지털 기술을 활용하여 연구의 성과와 과정을 공개해 나가는 일련의 활동을 총칭하며, 성과 공개의 대상과 방식이 확장되면서 보다 개방적인 연구 활동을 일컫는 용어로 재개념화됨(신은정 외, 2018).

-

(자유로운 접근)2021년 11월 “모두를 위한 과학지식 개방과 공유”를 목표로 유네스코 제41차 총회에서 “오픈 사이언스에 대한 권고안”이 만장일치로 합의되어 과학지식과 데이터, 자료에 자유롭게 접근할 수 있게 하고, 개방적 정보 공유와 협력을 가능케 하는 실천 기반이 마련됨.

(연구환경의 디지털 전환)디지털 기술의 발전으로 과학기술연구환경이 변화하고 있으며, 최근 연구환경은 네트워크화, 자동화, 융합화 등 거대한 변화에 직면하고 있음.

-

데이터 기반의 4세대 R&D 패러다임은 거대과학과 사회 문제를 해결하기 위해 혁신성과 개방성을 고도로 강화하는 방향으로 전환되고 있으며, 세계적 협력, 타 영역 간 융복합 등을 통해 사회적 혹은 경제적 이슈를 해결하고자 함 (KISTI, 2020).

-

다양한 디지털 기술 발전과 네트워크 기술의 진화로 연구성과 및 자료의 개방, 공유가 용이해지고 있으며, 온라인 채널을 통한 연구자들 간의 협업이 가속화되고 있음.

(데이터 기반 지능형 기술 발전)기하급수적 데이터 증가에 대응할 수 있는 정보/데이터 생태계를 구축하고, 촉진시키기 위하여 AI 등과 같은 지능형 기술은 핵심 영역임.

-

(AI) 2016년 알파고 바둑대결 이후 본격화된 인공지능은 전 산업에 걸쳐 혁신을 주도하고 있으며, 데이터 중심의 4차 산업혁명을 필두로 대량의 데이터를 빠르게 분석하고 지식화하는 등 핵심기술로 자리매김함.

-

(기술 간 조합)AI를 기반으로 타 분야 간 기술 결합 및 활용을 통해 기술, 산업, 서비스 경계가 없는 ICT 융합 혁신이 일어나고 있음.

(3)

정보와 데이터 환경 변화에 따른 디지털 큐레이션 전략

(디지털 큐레이션)디지털 큐레이션은 데이터를 적극적으로 관리, 보존하고, 가치를 부여하여 현재와 미래에 이용, 재이용이 될 수 있도록 하는 일련의 활동(이혜림, 2020)으로 데이터 수집-관리-보존-이용의 데이터 라이프사이클 단계에 따라 필요한 과정, 활동, 관계 등을 포함함.

-

디지털 큐레이션 전문연구기관인 영국의 DCC(Digital Curation Center)는 디지털 큐레이션 목적을 다음과 같이 제시함. 1) 적극적 데이터 관리로 가치 있는 연구결과 보존, 2) 데이터 중복으로 인한 관리/활용 노력 절감, 3)데이터 공유와 활용을 촉진하여 데이터 가치 향상.

-

정보/데이터 환경 변화로 데이터는 국가 경제 및 과학기술 경쟁력의 핵심 자산으로 대두되었으며, 디지털 기술의 발전으로 인해 데이터 집약형(data-intensive) 연구 패러다임으로 변화되면서 데이터 관리의 혁신, 데이터의 가치 향상 및 활용성 강화 등이 중요한 이슈가 되고 있음.

(디지털 큐레이션 전략)이에 데이터 기반의 연구 패러다임 확산과 데이터 공유/확산 문화에 적합한 디지털 큐레이션 전략이 필요하며, 본고에서는 KISTI 사례를 중심으로 데이터 라이프사이클의 전사적 측면, 구축/

가공의 측면으로 디지털 큐레이션 전략을 제시함. 또한 이러한 디지털 큐레이션 체제의 대상은 정보뿐 아니라 데이터 셋까지 포함될 필요가 있음.

-

(인간-인공지능 협업)데이터 구축/가공 측면에서는 인간과 인공지능 협업 구조 구성이 필요함. AI 기술 개발은

반복 작업 자동화에 집중하고 알고리즘 한계 및 편향 오류를 보완하기 위한 의사결정에 사람이 개입함으로써, 반복적 큐레이션 작업과 투입 비용을 절감할 수 있음.

-

(디지털 큐레이션 성숙도 모델) 디지털 큐레이션 체제의 디지털 성숙 정도를 측정하고 관리하기 위한 직관적 모델과 지표가 필요함.

<그림 1> 데이터 라이프사이클 기반의 KISTI 큐레이션 체제의 디지털 전환

AI기반 데이터 큐레이션 플랫폼

데이터 중심 인간-인공지능협업 시간/비용 구축효율화

데이터 생산성 향상 지능형 데이터셋 발굴

기계학습데이터 표이미지

수식 Model1 Model2 수집/

입수

활용/

이용

datasets 검증 최종평가/처리 Interaction

curation 메타데이터 추출

참고문헌추출 개체추출 식별/연계

AI기반의 자동화 기술 모델 (맞춤형/아웃플립)

(4)

디지털 큐레이션 업무의 디지털 전환 방향

(디지털 큐레이션 디지털 전환 전략)디지털 큐레이션 활동은 수작업 또는 규칙 기반의 데이터 관리 자동화 방식으로 수행되어 왔으나, 인공지능 기술을 활용한 데이터 가공 자동화 및 데이터의 기계 활용 촉진을 지원하는 디지털 체제로의 변화가 요구되고 있음.

-

지식기반 사회에서 과학기술정보는 지속적 경제 성장과 국가와 산업의 경쟁력을 좌우하는 핵심 자원임.

-

과학기술 데이터 큐레이션 체제의 디지털 전환은 데이터 구축 효율 증대는 물론이고 데이터의 발견, 접근, 식별·연계, 재활용성 증진을 목적으로 함.

-

디지털 큐레이션 체제의 디지털 전환은 연구자들이 연구 설계, 가설 수립, 연구(실험) 단계, 연구성과 관리 등 연구 전주기를 디지털 전환하는 데 근간이 될 것임.

디지털 전환을 위한 전략 프레임워크 2.

<그림 2> 연구 프로세스의 디지털 전환 요소1)

디지털 큐레이션 모델: 디지털 큐레이션 실행 관리 도구

(디지털 큐레이션 모델의 필요성)

-

AI와 빅데이터 시대, 디지털 전환 상황을 반영하는 디지털 큐레이션 업무 수행을 위해 지침/가이드라인이 필요하며 이를 개념화한 디지털 큐레이션 모델이 필요함.

-

큐레이션 모델에는 데이터 큐레이션 프로세스는 물론 수행 조직, 법/경제적 측면, 기술적 측면, 데이터 품질 관리 및 인증 등 관련 요소를 반영할 필요가 있음.

1)“과학기술분야 R&D 전주기 연구”(권나현 외,2012)의'한국 과학기술 R&D 전주기 과정'을 바탕으로 연구 프로세스의 디지털 전환 요소를 추가하여 작성

(5)

<그림 3> KISTI 큐레이션 라이프사이클 모델

개념화

 

 

 

이용자  

경험 이해관계자

 

협력

,

 

,

 

이용

 

생산  

또는  

획득

보존활동

입수 데이터

큐레이션  

계획

의미  

서술 저장

변환             

큐레이션

(디지털 큐레이션 모델 사례)디지털 큐레이션 모델은 과학기술 데이터를 관리하기 위한 개념 모델임. 초기에는 디지털 보존 분야로 개발되었으나 최근에는 연구데이터 큐레이션 등 활용 관점에서 다양하게 발전 중임.

-

OAIS(Open Archival Information System) 참조 모델은 최초 디지털 보존 모델로 우주 데이터를 장기 보존하고 접근하기 위해 개발됨. 미국 기록보존소, 영국 도서관 등 데이터 보존 관리의 근간이 됨.

-

영국의 DCC(Digital Curation Center)는 2007년 데이터 생애주기 관점의 큐레이션 라이프사이클 모델을 개발하였고, 다양한 디지털 큐레이션 모델의 근간이 되고 있음.

-

디지털 큐레이션 모델은 국가별, 기관별, 협력형 등 다양하게 발전하고 있음. 최근 2019년 시작된 유럽 오픈 사이언스 클라우드(European Open Science Cloud, EOSC) 추진으로 인하여 연구데이터의 디지털 큐레이션에 많은 관심과 연구개발이 이루어지고 있음.

(디지털 큐레이션 모델 연구개발 사례, KISTI)

-

한국과학기술정보연구원(이하 KISTI)은 영국 DCC 큐레이션 라이프사이클 모델을 토대로 2018년부터 2019년까지 한국 상황에 맞는 과학기술정보 콘텐츠 큐레이션 모델을 개발함.

-

KISTI는 큐레이션 모델을 기준으로 세부적인 지침을 개발하여 큐레이션 활동을 수행하고 있음. 큐레이션 모델은 내부 큐레이션 업무 수행의 기준이 되며, 외부와 협업을 위한 기준이자 커뮤니케이션 툴로 활용됨.

(6)

디지털 큐레이션 성숙도 모델: 디지털 전환 수준 측정 관리 도구

(성숙도 모델의 필요성) 성숙도 모델(Maturity Model)은 조직에서 효율성을 평가하고, 효율성 향상을 위해 획득해야할 기능을 파악하는 도구임.

-

조직의 역량을 관리하고 향상시키는 일은 매우 중요하고 복잡한 작업이며 이를 위해서 성과를 평가하는 것이 선행되어야 함.

-

성숙도 모델은 성과 평가 뿐 아니라 미래 모델 정의, 현재-미래 간의 갭(Gap) 분석, 개선 방안 수립 등 다양한 용도로 사용될 수 있음.

(디지털 큐레이션 분야 성숙도 모델)디지털 큐레이션 분야의 성숙도 모델은 데이터 큐레이션 프로세스를 포함한 디지털 보존 개념이 확장된 성숙도 모델을 중심으로 발전하고 있음.

-

성숙도 모델 개발의 동인은 2002년 TDR report와 2003년 OAIS 참조 모델이라 할 수 있음.

-

2007년 영국 DCC, Digital Preservation Europe, NESTOR, Center for Research Libraries가 공동 개발한 Digital Preservation의 “Ten Principles”는 디지털 큐레이션 성숙도 모델에 많은 영향을 줌.

※ 디지털 보존, 데이터 수준 측정에 관한 모델 사례: DPCMM(Digital Preservation Capability Maturity Model), 정보 거버넌스 성숙도 모델 E-ARK(The European Archival Records and Knowledge Preservation), 아카이빙 성숙도 모델(Archiving Maturity Model), TRAC/ISO16363, NESTOR Seal, Data Seal of Approval(DSA)

-

최근 유럽연합(EU)과 연구데이터동맹(Research Data Alliance, 이하 RDA)은 연구데이터 큐레이션 성숙도 모델인 FAIR 데이터 성숙도(FAIR Data Maturity Model) 모델과 성숙도 자동측정 도구(F-UJI 등)에 대한 연구 개발을 추진하고 있음. 하지만 과학기술분야 디지털 큐레이션 프로세스 전반에 대한 디지털 성숙도 모델은 아직 발견되지 않음.

(디지털 큐레이션 성숙도 모델 연구개발 사례)

-

우리나라에서는 KISTI가 국가 과학기술 데이터 디지털 큐레이션 수행의 일환으로 디지털 큐레이션 프로세스 전반을 측정 및 관리하기 위한 디지털 성숙도 모델을 개발 중임.

<그림 4> 디지털 큐레이션 모델과 성숙도 모델 개발 방향(KISTI 사례)

(7)

디지털 전환과 프로세스 자동화

(디지털 전환과 프로세스 자동화)디지털 전환은 디지털 기술을 활용해 기존의 업무를 효율적으로 개선하는 것을 의미하는데, 프로세스 자동화 혹은 업무 자동화는 디지털 전환의 핵심 키워드임.

-

제조업 분야를 중심으로 무인화를 위한 VR/AR과 3D 프린팅, Robotics 등의 기술을 적용한 공정의 자동화는 오래전부터 시도되었고, 최근에는 디지털 전환 추진을 통해 자동화를 실현함으로써 소모적인 작업을 줄이고 생산성과 효율성을 개선하고자 노력하고 있음.

-

AI 기술을 적용한 IPA, RPA 등 프로세스 자동화를 통해 디지털 전환을 추진하는 것이 기업의 주요 관심사임.

※ 로보틱 프로세스 자동화: RPA(Robotic Process Automation)는 사람이 하던 반복 작업을 AI 혹은 로봇을 사용하여 수행하는 기술로 업무 과정에서 발생하는 데이터를 정형화하고 논리적으로 자동 수행하는 기술을 의미

※ 지능형 프로세스 자동화: IPA(Intelligent Process Automation)는 RPA의 규칙기반 자동화 기능에 인공지능의 정교함과 머신러닝의 학습 기능 및 근본적인 프로세스 재설계의 강력한 조합으로, 스스로 판단하여 업무 수행이 가능한 로봇 시스템을 의미

<그림 5> 디지털 큐레이션 성숙도 모델 개발 절차

개발

검증 향상

활용

-

KISTI는 디지털 큐레이션 성숙도 모델 연구개발에 있어 과학기술정보, 국가연구개발성과, 연구데이터를 아우르는 데이터 분야의 특성을 반영하고 AI 기술 등 디지털 전환의 다면적 요소들을 고려하고 있음.

※ 디지털 큐레이션 모델의 요소

※ 기관 역할과 책임, 관련 규정

※ 관련 법, 경제적 가치

※ 데이터, 네트워크, 인공지능(AI) 등 기술 수준 고려

※ 보편적이고 직관적 지표, 디지털 전환 수준 진단과 개선 측정 용이성

디지털 큐레이션 자동화를 위한 디지털 전환 기술

3.

(8)

(AI 활용한 프로세스 자동화)기업에서는 인공지능 기술을 실제로 업무 프로세스에 적용함으로써 기존 프로세스의 성능 향상과 효율화, 의사결정의 속도를 개선하여 원가 절감 효과를 이루고자 함(World Economic Forum, 2018).

-

(업무 자동화에 대한 요구 확대) 과거의 자동화는 주로 하드웨어 기반의 ‘machine’을 사용하여 반복적인 업무를 대신하는데 활용되었다면, 최근에는 인공지능과 OCR 등 인지(Cognitive) 기술의 발전, RPA와 같은 자동화 솔루션의 등장으로 소프트웨어에 기반을 둔 사무자동화 영역으로 확대되고 있음(김명호, 2020).

- (AI 기술과 자동화의 확대) 내부적으로 AI 역량을 갖춘 기업들은 RPA 솔루션 도입의 한계를 극복하고자 여러 프로세스를 일원화해 AI, 프로세스마이닝*, 증강분석** 등의 기술을 접목하여 자동화의 영역을 확장하고 있음.

* 프로세스마이닝(Process mining)은 업무 시스템(ERP, CRM 등)에 기록된 데이터인 이벤트 로그를 분석해 프로세스를 도출하고 가시화하여 비즈니스 모니터링 및 개선하도록 설계된 기술

** 증강분석(Augmented Analytics)은 데이터 분석 과정을 머신러닝 기반 AI가 스스로 수행하고(자동화) 다양의 데이터에서 숨겨진 패턴을 찾아 인사이트를 제공하는 분석 기술

AI를 활용한 자동화 기술 동향

(AI 기반 자동화 기술)업무자동화를 위한 주요 기술로는 대화형 인공지능(Conversational AI), 지능형 문서 처리(Intelligent Document Processing), 초자동화(Hyper Automation) 기술이 있음(김명호, 2020).

- (대화형 인공지능) 대화형 인공지능은 크게 소통을 위한 챗봇(chitchat)과 과업(목적) 지향 대화시스템(task- oriented dialogue system)으로 구분할 수 있으며, 특히 챗봇은 비대면 업무를 가능케 하여 포스트 코로나 시대에 유망 기술 중 하나임.

- (지능형 문서 처리)기업에서는 비정형적인 문서를 처리하는 업무가 많으며, 이런 디지털화되지 않은 문서 처리

업무를 자동화하기 위해 OCR 기술과 인공지능 기술을 결합하여 처리하는 지능형 문서 처리 기술을 적용하고 있음.

- (초자동화) 업무 자동화의 프레임이 RPA에서 초자동화로 넘어가고 있는데, 초자동화(Hyper Automation)는 현업이 실행하는 거의 모든 반복 작업을 자동화할 뿐 아니라, 업무 프로세스를 동적으로 탐색하고 자동화하는 봇을 생성하는 수준까지 확장된 디지털 전환 기술임(손다슬, 2022).

※ 초자동화는 AI/ML, RPA, 자연어 처리, 로우 코드, SaaS형 통합 플랫폼, ERP 연동과 같은 다양한 기술이 포함

※ 초자동화는 가트너 전략 기술 트렌드(Top 10 Strategic Technology Trends)로 3년 연속(’20~’22) 선정

(9)

(인간-인공지능 협업)휴먼인더루프(Human-in-the-loop)란 인공지능 시스템의 학습과정을 안내하는 사람 이란 의미로 기계학습 과정에 사람이 적절하게 개입하여 비용을 낮추고 데이터 품질을 향상시키기 위한 것임.

-

(휴먼인더루프 적용 분야) 데이터 처리 과정이나 의사결정 시 사람과 기계간 활발한 상호작용을 토대로 결과를 도출함으로써 의사결정 시간 단축과 데이터의 확증 편향 현상을 극복할 수 있음.

※ 음악 콘텐츠 플랫폼인 플로(FLO)는 21년 7월부터 AI 추천 모델의 도움을 받아 유저(크리에이터)가 플레이리스트를 생성하는 휴먼 큐레이션과 AI 추천 모델 간 상호 보완을 통한 콘텐츠 추천 서비스를 선보이고 있음

큐레이션 자동화를 위한 AI 기술

(디지털 큐레이션의 자동화 방향)KISTI에서는 과학기술분야 디지털 큐레이션 프로세스를 선진화하고 자동화하기 위해 AI 기술을 적용한 데이터 자동 구축 및 휴먼인더루프 기반 크라우스 소싱 방식의 데이터 품질관리 체제를 구축하고 있음.

<그림 6> 초자동화(Hyper Automation)를 위한 방법

출처) Gartner(2019)

<그림 7> 디지털 전환 프로세스별 기술의 활용

(10)

-

(큐레이션 프로세스별 디지털 전환 요소)데이터 관리 프로세스를 효율화하고 수작업 구축 공정의 자동화를 추진하기 위해 큐레이션 프로세스별 디지털 전환 요소를 도출하였고, 이러한 디지털 전환 방향에 기반을 두고 디지털 큐레이션 성숙도 개선을 추진하고 있음.

- (휴먼인더루프 기반 데이터 구축)수작업 기반의 데이터 검수 및 품질검증 과정은 휴먼인더루프 기반의 크라우드

소싱 방식으로 전환함으로써 데이터 구축 프로세스 효율화를 추진하고 있음.

※ (휴먼인더루프 기반 학습데이터 구축) 학습데이터 구축 과정에 데이터 전문가가 개입하여 데이터의 특징(features)들을 쉽게 학습할 수 있도록 안내함으로써 정확한 기계학습용 데이터셋을 구축하였음

※ (크라우드 소싱 방식 공정 관리) 비대면으로 여러 명의 작업자가 데이터 구축 및 검수 등을 할 수 있도록 크라우드 소싱 방식으로 데이터 구축, 관리 환경을 구축하였음

-

(AI 기술을 활용한 데이터 구축 자동화) KISTI에서는 과학기술분야 학술정보(논문 및 연구보고서)의 원문 (FullText) PDF 원문에서 메타데이터, 표/그림, 참고문헌 등의 데이터 구축 과정을 자동화하기 위해 AI 기술을 개발하고, 구축 자동화를 추진하고 있음.

※ (자동화를 통한 비용절감) 학술논문 및 연구보고서 등 원문 PDF로부터 수작업으로 텍스트를 추출하여 데이터를 구축 하고 있는데, 이러한 데이터베이스 구축 과정을 디지털 전환함으로써 시간과 비용을 절감할 수 있음

※ (자동추출 기술개발 요구) 데이터 구축 공정 중 가장 많은 수작업을 필요로 하는 메타데이터와 참고문헌 구축 공정을 자동화하기 위해 자동 추출 기술을 개발함

<그림 8> 디지털 큐레이션 프로세스의 디지털 전환 요소

(11)

<그림 10> KorSciBERT의 특징

KorSciBERT 및 토크나이저 학습 코퍼스

논문·연구 보고서 약 92만건

특허 문헌 약 288만건

기계적 언어 학습을 위한 대중적 인공지능

언어 모델

과학기술 분야 한국어 문장 최적화 어절 분리 기능 제공 과학기술 분야 특화 자연어 처리 문제 해결을 위한 사전학습 모델

Google BERT 과학기술 분야

한국어 코퍼스

KorSci Tokenizer KorSciBERT

<그림 9> 디지털 큐레이션을 위한 AI 기술개발 로드맵

-

(데이터 구축 자동화를 위한 AI 기술) 데이터 구축 자동화를 위해 과학기술분야 언어를 이해할 수 있는 딥러닝 기반의 사전학습모델, 자동추출 모델(메타데이터/참고문헌), 자동 분류모델을 개발하였음.

-

(사전학습모델) KorSciBERT는 KISTI가 개발한 과학기술 분야 언어에 대한 이해를 담고 있는 최초의 과학 기술분야 한국어 언어모델임.

※ (개발의 필요성) 과학기술 분야의 특수성을 반영한 한국어에 최적화 된 언어학습모델과 전문용어가 포함된 한국어 어절분리기 부재로 학습모델의 성능 저하가 발생하는 문제를 해결하기 위해 개발함

※ (특징 및 활용분야) 과학기술분야 한국어 문장 최적화 어절 분리 기능 제공하고 있으며, 자동추출 모델(메타데이터/

참고문헌), 자동분류 모델에 전이학습하여 활용하고 있음

(12)

-

(추출모델)학술논문의 메타데이터와 참고문헌을 자동 추출하기 위해 KorSciBERT 등을 활용한 전이학습을 통해 딥러닝 기반의 자동추출 모델을 개발함.

※ (추출모델 성능) BERT, Electra 등 최고 성능의 학습모델을 적용하였고, 학습데이터의 전문가 검증을 통해 성능을 개선 하였음. 참고문헌 추출모델의 경우 참고문헌 추출기 정확도 99.7%로 세계 최고 수준이 GROBID(87.7%) 보다 우수함

※ (자동추출기 API 개발) 메타데이터 및 참고문헌 추출모델을 적용한 추출기 API를 개발하여 국내논문 DB 구축 공정에 적용함으로써 기술실용화 가능성을 검증하였고 기술 확산을 위한 기반을 확립함

<그림 11> 추출모델 기반 데이터 자동추출기 개발 절차

<표 1> 딥러닝 기반 구축자동화 기술 성능

구분 학습데이터 활용모델 성능 API 여부

메타데이터

자동추출 국내학술지

503종 KorSci-

BERT 0.9936

(F1) O

(자동화 적용) 자동 추출참고문헌 국내학술지

820종 Google-

BERT 0.9968

(Acc) O

(자동화 적용) 과학기술표준분류

자동분류 150개

과학기술표준분류 KorSci-

ELECTRA

Top1:0.7753 Top3:0.8895

(F1)

X (개발예정)

-

(분류모델)현재 R&D 연구과제의 경우 과학기술표준 분류를 따르고 있는데 수작업으로 분류 작업을 진행하고 있어, 이를 자동화하기 위한 딥러닝 기반 자동 분류 기술을 개발함.

(13)

<그림 12> 분류모델 개발 절차

디지털 큐레이션 업무의 디지털 전환 제언 4.

(디지털 큐레이션 전환을 위한 표준화 협력) 과학기술 데이터 큐레이션 활동에는 연구과정에 참여하는 각 주체들의 직간접적 참여가 수반되며, 디지털 큐레이션 업무의 디지털 전환을 달성하기 위해서는 디지털 전환에 관한 관리기준 마련 및 관련 커뮤니티의 적극적 참여가 필요함.

-

과학기술정보 큐레이션 절차를 디지털 전환하고 디지털 성숙도를 측정, 진단, 관리하는 등 전 주기적 큐레이션 업무의 표준화가 필요함. 여기에는 변화하는 법/제도 및 환경 변화, 기술 발전 추이를 추적하며 모델의 개정관리가 필요함.

-

디지털 큐레이션 성숙도 모델은 디지털 기술을 적용하여 업무 혁신을 추진하는 도서관/정보센터, 리포지터리, 연구성과 관리기관 등의 디지털 성숙도를 종합적으로 측정할 수 있는 기준으로 개발되어야 하며, 관련 커뮤니티의 검증과 범용적 활용이 중요함.

(디지털 큐레이션 기술의 개발 및 활용)데이터 기반의 4세대 R&D 패러다임으로 데이터 공유의 신속성, 활용성 강화 등 데이터의 활용 가치 측면이 강조되고 있음. 디지털 전환 기술을 적용하여 연구자들에게 대량의 데이터를 선별하여 기계 활용이 가능한 형식으로 적시 제공하는 등 데이터 큐레이션 체계의 혁신이 요구됨.

(14)

-

과학기술 데이터를 처리하기 위한 기술 개발이 필요함. 과학기술 분야의 특수성을 반영하고 한글 데이터를 처리할 수 있는 언어학습모델과 과학기술 데이터로부터 메타데이터, 개체를 추출하고 분류하여 지식화하기 위한 AI 모델 연구개발이 필요함.

-

데이터 큐레이션 과정은 수작업 기반의 데이터 검수 및 품질검증 과정을 디지털 전환하는 큐레이션 프로세스 혁신이 요구됨. AI 기술을 활용한 효율화를 추구하되, 기계 편향 등을 보완하기 위한 휴먼인더루프 기반의 크라우드 소싱 방식으로 전환이 필요함.

-

또한 이러한 요소 기술, 큐레이션 체계의 개발과 활용에 있어 관련 정보관리 커뮤니티의 참여를 통해 공동개발 및 공동활용을 추진하는 것이 바람직할 것으로 보임.

(15)

• 권나현, 이정연, 정은경(2012), 「과학기술분야 R&D 전주기 연구 - 국내 생명 및 나노과학기술 연구자를 중심으로」, 한국문헌정보학회지, Vol.46, No.3, pp.103-131.

• 김명호(2020), 「자동화 시대, 일의 미래」.

• 김판준(2015), 「디지털 큐레이션 연구동향 분석과 과제: 문헌정보학 분야를 중심으로」, 정보관리학회지, 32(1), 265-295.

• 손다슬(2022), 「End to End 지능형 자동화, 하이퍼오토메이션이 온다!」, KIAT 보고서.

• 신은정 외(2018), 「오픈사이언스를 통한 공공연구 효과성 제고 방안」, 과학기술정책연구원.

• 우창완(2018), 「데이터 경제활성화 규제혁신 현장 보고서」, 한국정보화진흥원.

• 이혜림(2020), 「디지털 큐레이션 가이드라인과 체크리스트」, 한국과학기술정보연구원.

• 최병삼(2022), 「R&D의 디지털 전환, 어떻게 할 것인가?」, 기술과혁신, 5/6월호, 스페셜이슈01.

• 한국정보산업연합회(2017), 「IT산업 메가트렌드: 디지털 트랜스포메이션을 향한 여정」.

• 한국과학기술정보연구원(2020), 「개방형협업연구환경 ScienceON」, 2020 미래연구정보포럼.

• IT WORLD(2022), 「2022 업무혁신, AI에 RPA 접목한 하이퍼오토메이션 시대가 온다」.

• Curation Lifecycle Model, https://www.dcc.ac.uk/guidance/curation-lifecycle-model, 2022.06.26.

• Gartner(2019), Top 10 Strategic Technology Trends for 2019’ report, Gartner.

• Gartner(2020), Top 10 Strategic Technology Trends for 2020’ report, Gartner.

• Gartner(2021), Top 10 Strategic Technology Trends for 2021’ report, Gartner.

• Gartner(2022), Top 10 Strategic Technology Trends for 2022’ report, Gartner.

• Lee, H., Yoon, S., Park, Z., Hwang, H., Kim, J., & Rhee, H. L. (2019), Developing the Research Contents Life Cycle Model: Based on the Curation Model for KISTI Curation Center. Journal of the Korean Society for Information Management, Vol.36, No.3, pp.203–228. https://doi.org/10.3743/KOSIM.2019.36.3.203.

• Stephen Abrams, S., Kunze, J. and Loy, D. (2010), An Emergent Micro-Services Approach to Digital Curation Infrastructure, International Journal of Digital Curation, Vol.5, No.1, https://doi.org/10.2218/ijdc.v5i1.151.

• World Economic Forum(2018), “The Future of Jobs Report”.

• World Economic Forum(2021), “Towards a Data Economy: An Enabling Framework”, 2022.06.26.

참고문헌

(16)

KISTI ISSUE BRIEF는 국가 과학기술 정보 분야 대표기관인 KISTI가 최근의 과학기술 정보 관련 현안·이슈를 저 자 이 혜 진

KISTI 국가과학기술데이터본부 디지털큐레이션센터 책임연구원 T. 042-869-1673

E. [email protected] 김 재 훈

KISTI 국가과학기술데이터본부 디지털큐레이션센터 책임연구원 T. 042-869-1888

E. [email protected] 현 미 환

KISTI 국가과학기술데이터본부 디지털큐레이션센터 책임연구원 T. 042-869-1718

E. [email protected]

발 행 일 발 행 인 편 집 위 원 발 행 처

I S S N

2022. 08. 01.

김재수

조민수, 최희석, 이준, 정한민, 함재균, 이준영, 이상환, 정도범

34141 대전광역시 유성구 대학로 245 한국과학기술정보연구원 정책연구실 https://www.kisti.re.kr

2635-5728 제45호

참조

관련 문서

이에 대한 대응으로 일본 정부는 일본이 축적해온 환경공생형 도시개 발에 대한 기술과 노하우를 아시아 신흥개발국에 보급하면서 일본 기업의 해외 비즈니스 기회를 확 대하려는