Development and Application of a Big Data Platform for Education Longitudinal Study Analysis

(1)

교육종단연구 분석을 위한

빅데이터 플랫폼 개발 및 적용

Development and Application of a Big Data Platform for

Education Longitudinal Study Analysis

박 정1_⋅_조완섭2† 흥도초등학교1_{, 충북대학교 대학원 빅데이터학과}2 요 약 본 논문에서는 교육종단연구 데이터를 효과적으로 저장⋅처리⋅분석하기 위한 데이터 플랫폼을 개발하고, 이를 서울교육종단연구(SELS)에 적용하여 유용성을 확인한다. 플랫폼은 데이터 전처리부와 데이터 분석부로 구성된다. 데이터 전처리부에서는 1) 마스킹 2) 요인화 3) 정규화⋅이산화 4) 데이터 유도 5) 데이터 웨어하우징 과정을 통해 교육종단연구 데이터 웨어하우스를 생성하게 된다. 데이터 분석부는 OLAP과 데이터 마이닝(DM)으로 구성된다. 먼저, OLAP에서는 측정값 선정, 스키마 설계를 거쳐 OLAP을 수행하게 된다. 이후 DM에서는 변수 선택, 연구모형 선택, 데이터 수정, 인수튜닝, 모형학습, 모형평가 및 해석단계를 거친다. 본 플랫폼에서 전처리 과정을 거쳐 생성된 데이터 웨어하우스는 다양한 연구자들에 의해 공유될 수 있고, 지속적인 연구결과 데이터 셋의 축적이 가능하므로 후속 연구자들은 추가적인 분석을 수월하게 수행할 수 있게 된다. 또한, 정책입안자들도 SELS 데이터 웨어하우스에 직접 접근하여 다차원 분석을 통해 온라인으로 분석할 수 있어 과학적인 의사결정이 가능하게 된다. 본 연구에서는 개발된 플랫폼의 유용성을 입증하기 위해 SELS 데이터를 플랫폼 상에서 구축하고 수학 학업성취도를 측정값으로 선정하여 OLAP 및 DM을 수행하였으며, 측정값에 영향을 주는 다양한 요인을 데이터 마이닝 기법을 사용하여 분석하였다. 이를 통해 데이터 기반 교육정책 시사점을 빠르고 효과적으로 도출할 수 있었다. ■ 중심어 : 교육종단연구, 데이터 전처리, OLAP, 데이터 마이닝, 수학 학업성취도 Abstract

In this paper, we developed a big data platform to store, process, and analyze effectively on such education longitudinal study data. And it was applied to the Seoul Education Longitudinal Study(SELS) to confirm its usefulness. The developed platform consists of data preprocessing unit and data analysis unit. The data preprocessing unit 1) masking, 2) converts each item into a factor 3) normalizes / creates dummy variables 4) data derivation, and 5) data warehousing. The data analysis unit consists of OLAP and data mining(DM). In the multidimensional analysis, OLAP is performed after selecting a measure and designing a schema. The DM process involves variable selection, research model selection, data mod-ification, parameter tuning, model training, model evaluation, and interpretation of the results.

The data warehouse created through the preprocessing process on this platform can be shared by various researchers, and the continuous accumulation of data sets makes further analysis easier for subsequent researchers. In addition,

policy-2020년 07월 21일 접수; policy-2020년 08월 10일 수정본 접수; policy-2020년 08월 25일 게재 확정.

* 이 논문은 2020년 충북대학교 대학원 빅데이터협동과정 박사학위논문을 수정⋅보완한 논문임.

(2)

Ⅰ

. 서 론

데이터를 기반으로 한 혁신 사례가 급증하면 서 빅데이터가 4차 산업혁명의 원동력이 되고 있으며(조완섭, 2017), 데이터를 어떻게 활용하 느냐에 따라 이전에는 미처 발견하지 못했던 새 로운 가치를 창조해낼 수 있게 된 것이다(박선 우, 2018). 교육 분야에 있어서도 위와 같은 현상 에 예외가 아니다. Goyal & Vohra(2012)는 현재 교육이 직면한 가장 큰 도전은 교육 데이터의 폭발적 증가이며 이를 활용하여 교육 정책 의사 결정의 질을 높이는 것이라 하였다. 우리나라에서도 이러한 현상에 대응하기 위 해 강원, 경기, 부산, 서울교육청은 학생, 학부모, 학교 등의 데이터를 장기간에 걸쳐 수집하고 이 를 활용하여 데이터 기반 교육정책을 설계하기 위해 교육종단연구(부산교육정책연구소, 2019; 서울교육연구정보원, 2010; 성기선 외, 2013; 임 성택, 어성민, 신미숙, 2013)를 수행하고 있다. 교육종단연구는 학생의 성장에 영향을 미치는 요인과 과정을 체계적으로 파악하기 위해 데이 터를 생성하고 이를 활용하여 교육정책 및 예산 투입 의사결정에 과학적 근거 마련을 목적으로 하고 있다(박현정 외, 2011). 경기, 부산, 서울의 교육종단연구는 중⋅장기 사업으로 운영되있어 그 데이터의 양은 시간이 갈수록 더욱 증가해 갈 것이며, 기존 파일 형태의 데이터 관리 체계 는 그 한계를 드러낼 것이 분명하므로, 새로운 데이터 관리 체계로의 변화가 요구될 수밖에 없 을 것이다. 또한 데이터 분석에 있어서도 과거 분 석 방법과는 달리, 데이터 마이닝(Data Mining: DM)과 같은 빅데이터 분석이 적용되어야 할 것 은 자명한 일이지만 다소 우리의 현실은 그렇지 못하다. 이처럼 데이터 증가에 따른 데이터 전처리, 데이터 웨어하우스 구축 및 적절한 분석 기법의 부재와 같은 일련의 문제들은 교육종단연구에 대한 데이터 관점의 논의와 사례가 절대적으로 부족하다는 한계점을 보여주는 것이다. 따라서 이러한 한계를 극복하기 위해 본 논문은 교육종 단연구 데이터에 적합한 데이터 플랫폼을 개발 하고 이에 실제적인 적용을 통해 교육종단연구 데이터 분석을 효과적으로 수행할 수 있는 방법 을 제안한다. 본 플랫폼에서는 전처리 과정을 거쳐 생성된 데이터 웨어하우스를 다양한 연구자들이 공유 할 수 있으며, 지속적으로 연구결과 데이터 셋 과 관련 분석기법을 축적해 나갈 수 있으므로 후속 연구자들은 추가적인 분석을 수월하게 수 행할 수 있게 된다. 또한, 정책입안자들도 데이 터 웨어하우스에 직접 접근하여 다차원 분석을 통해 온라인으로 분석할 수 있어 신속하게 과학 적인 의사결정이 가능하게 된다. 본 연구에서는 개발된 플랫폼의 유용성을 입증하기 위해 SELS 데이터를 플랫폼 상에서 구축하고, 수학 학업성 취도를 측정값으로 선정하여 OLAP 및 DM을

makers can access the SELS data warehouse directly and analyze it online through multi-dimensional analysis, enabling scientific decision making. To prove the usefulness of the developed platform, SELS data was built on the platform and OLAP and DM were performed by selecting the mathematics academic achievement as a measure, and various factors affecting the measurements were analyzed using DM techniques. This enabled us to quickly and effectively derive implications for data-based education policies.

(3)

수행하였으며, 측정값에 영향을 주는 다양한 요 인을 DM 기법을 사용하여 분석하였다. 이를 통 해 데이터 기반 교육정책 시사점을 빠르고 효과 적으로 도출할 수 있었다. 본 논문의 구성은 다음과 같다. 제2장에서는 관련연구를 소개하고, 본 연구의 차별성을 설명 한다. 제3장에서는 교육종단연구를 위한 플랫폼 을 제안한다. 제4장에서는 플랫폼에 서울교육종 단연구 데이터를 저장하고, 관리하면서 다양한 분석을 수행하는 방안을 제시한다. 제5장에서는 결론을 맺는다.

Ⅱ

. 관련 연구 및 본 연구의 차별성

최근 교육 관련 정부 기관과 시도교육청 등에 서는 데이터 기반 정책 마련을 위한 움직임을 보이고 있다. 2017년 교육부의 ‘정책연구 2017-위탁-5: 빅데이터 시대에 대응한 교육정보⋅통 계 기반 정책 추진방안’을 통해 데이터 기반 교 육정책 수립에 첫발을 내딛었다. 이를 바탕으로 2019년 2월 교육부장관은 산하기관장과 교육부 실⋅국장이 참석한 가운데 ‘빅데이터 활용을 위 한 회의’를 주재했다(문보경, 2019). 여기에서 장관은 교육 현황 데이터를 유기적으로 연결시 키도록 지시하는 등 지속적으로 데이터를 활용 하여 교육 의사결정의 질을 높이기 위해 노력하 고 있다. 서울시교육청의 경우 2019년 6월 ‘서울 교육 빅데이터 활용 아이디어 공모전’을 개최하 였다(오영세, 2019). 또한 인천교육청은 빅데이 터를 이용하여 신설 학교 학생수 예측 기법을 교육정책 실무에 적용하기 시작하였다(김양훈, 2019). 교육종단연구 데이터의 기능은 연구대상의 동태를 파악하는 것으로 학생의 변화, 발달 및 성장을 측정 분석하는 것이다(강호수, 김종민, 최보미, 2017). 특히 앞서 논의한 시도교육청 단 위의 교육종단연구는 각 시도별 교육환경의 특 성과 정책에 적합하게 설계되었으며, 이렇게 수 집된 데이터는 현장에 더욱 밀착한 데이터로서 교육 현황을 잘 반영하고 있다. 이들 중 서울교 육종단연구(Seoul Education Longitudinal Study: SELS)는 2010년 이래 지속적으로 사업이 실시 되어 가장 많은 데이터를 보유하고 있으며(경기 도: 2012년, 부산시: 2016년, 강원도: 2011년 시 행), 데이터의 품질 또한 높은 것으로 평가되고 있다(박현정 외, 2011). 분석용 데이터를 저장하고 관리하는 대표적 인 기술로 데이터 웨어하우스(data warehouse)와 OLAP 분석이 있다. 데이터 웨어하우스는 분석 용 데이터의 집합으로 정의하며, 현재 조직내 데이터 뿐 아니라 의사결정에 사용되는 과거 데 이터까지 포함하며, 조직외부 데이터까지도 포 함한다. 최근, 빅데이터 시대를 맞아 데이터 웨 어하우스를 포함한 분석 플랫폼(:빅데이터 플랫 폼)의 구축을 통해 체계적이고 지속적인 분석환 경을 만들어 가고 있다. 빅데이터 플랫폼은 분 석을 위한 빅데이터의 수집과 저장, 전처리 및 분석기법, 시각화 등을 포함하는 개념으로 사용 된다. 하지만 교육 데이터에 OLAP 분석을 적용한 연구도 매우 제한적이며, DM(Data Mining)을 적용한 연구도 초기단계에 있다. DM을 적용한 연구도 대부분 의사결정나무 형태의 분석에 지 나치게 편중되어 있다(이주리, 2009; 이혜주, 정 의현, 2014; 배정수, 송병국, 2015; 배미희, 최중 진, 김청송, 2016). 그리고 데이터 전처리, 다차 원 분석 및 DM 방법론을 다룬 대부분의 참고문 헌이 경영⋅경제, 보건⋅의료 등과 같은 분야의 데이터에 기반을 두어 설명하고 있기 때문에 교 육종단연구 데이터 특성에 적합한 방법을 제시 한 선행연구도 찾아보기 어려운 실정이다. 본 연구는 각 시도교육청이 수집하는 교육종 단연구 데이터의 보다 실제적 활용을 위해 데이 터 관리를 위한 플랫폼 구축방안과 적합한 전처

(4)

리, OLAP 및 DM 기법을 활용한 분석기법을 제 시한다. 또한 이 과정을 상세히 기술하여 교육 학 연구자의 연구방법론에 대한 선택의 폭을 넓 혀 데이터 분석 연구의 활성화에 도움이 되도록 한다. 나아가 교육정책입안자의 교육종단연구 분석의 활용성을 제고하고, 데이터 기반 교육 정책 수립의 기반을 마련하도록 함에 본 연구의 특징이 있다.

Ⅲ

. 교육종단연구 데이터 플랫폼

본 장에서는 데이터 전처리 과정과 제안한 데 이터 플랫폼의 전체 구조를 소개한다. 본 연구의 핵심 아이디어는 데이터 기반 교육 정책 수립을 위해 필수적인 교육종단연구 분석 활성화를 위한 데이터 플랫폼을 개발하는데 있 다. 교육종단연구 데이터 플랫폼 아키텍처는 Han, Kamber & Pei(2016)에서 제시한 3-계층 데 이터 웨어하우징 아키텍처를 기반으로 하여 본 연구 목적에 적합하게 설계하였으며, <그림 1> 과 같다. 이는 데이터 웨어하우스, OLAP 서버, 프론트 엔드 툴의 3-계층으로 구성된다. 하위계 층인 데이터 웨어하우스는 기본적으로 데이터 베이스(Data Base: DB)를 기반으로 한다. 교육 종단연구 원시데이터를 파일형태로 제공받은 뒤, 각 주체별 DB에 적재한다. 이와 동시에 각 지자체가 제공하는 공공데이터 또한 함께 수집 하여 DB에 적재한다. 학생, 학부모, 학교, 환경 DB에 적재된 데이터는 데이터 전처리 과정을 거치게 된다. 전처리된 데이터를 바탕으로 데이 터 웨어하우스를 구축하게 되고, OLAP 툴을 이 용해 다차원 분석을 진행하며, 나아가 DM을 수 행하게 된다. 데이터 분석의 품질을 높이기 위해 데이터 전 처리를 시행하며 교육종단연구 데이터 특성에 따른 데이터 전처리 기법은 <그림 2>와 같다. <그림 2>는 학생 데이터 셋을 중심으로 서술하 였으며, 전체 과정은 (1) 마스킹 (2) 요인화 (3) 정규화⋅이진화 (4) 데이터 유도 (5) 데이터 웨 어하우징 과정으로 구성된다. <그림 1> 교육종단연구 데이터 플랫폼 아키텍처 <그림 2> 교육종단연구 데이터 전처리 기법

(5)

3.1 교육종단연구 데이터 전처리 기법 먼저, 원시 데이터는 전처리를 위해 마스킹 과정을 거친다. 마스킹 과정은 결측값을 대체하 는 과정이다. 추후 데이터 분석에서 결측값 그 대로 유지될 경우 향후 분석의 결과가 왜곡될 수 있어 최근에는 다중 대체법(Multiple Imput-ation)을 통해 이를 해결하고 있다(최형철, 2019). 이에 본 논문에서는 다중 대체법을 활용하여 결 측치를 대체한 마스킹 데이터로 변환하며, 그 결과 제n차 년도 학부모 마스킹 데이터 테이블, 제n차 년도 학교 마스킹 데이터 테이블이 함께 도출된다. 두번째, 마스킹 데이터는 문항간 연산을 통해 요인화 데이터로 변환된다. 요인(Factor)은 구성 개념(Construct Concept)과 동일한 의미를 가진 것으로 특정 연구나 이론을 위해 연구자에 의해 의도적으로 고안된 개념을 말한다(김계수, 2007; 조철호, 2015). 대부분의 교육종단연구는 학생의 인지적 성취, 비인지적 성취, 학교생활 등과 같은 영역의 요인을 측정하는 문항을 배치 하고 있다. 이러한 문항을 요인으로 처리하기 위해 문항간 총합 연산을 수행하였다. 이를 통 해 마스킹 데이터에서 하나의 열이 하나의 요인 을 나타내는 제n차 년도 학생, 학부모, 학교 요 인화 데이터가 도출된다. 세번째, 정규화⋅이진화 과정을 통해 요인화 데이터 중 수치형 변수의 경우 척도를 조정하는 정규화(Normalization), 범주형 변수의 경우 이 항 가변수(Binary Dummy Variables)를 생성하는 이진화 과정을 거친다. 기 변환된 요인화 데이 터 중 수치형 데이터의 경우 이전 단계인 문항 별 합산을 통해 생성된 요인화 데이터로서 각 요인별로 값의 범위가 다르다. 이러한 척도의 문제는 데이터 분석에 영향을 주어 결과를 왜곡 하게 되므로, 이를 해결하기 위해 최소-최대 정 규화(Min-Max Normailization) 방식을 많이 사 용하고 있으며 최솟값을 0, 최댓값을 1로 설정 하는 방식이 DM에 널리 활용되고 있는바(이현 호, 2016), 본 논문에서는 이 정규화 방법을 사용 하였다. 이진화는 범주형 변수의 경우 이항 가 변수를 만들어 범주의 각각의 정보에 대한 이항 값을 넣는 방법이다(Kuhn & Johnson, 2018). 이 를 통해 요인화 데이터에서 제n차 년도 학생, 학 부모, 학교 정규화 데이터가 도출된다. 네번째, 데이터 유도 과정으로 요인화 과정을 통해 생성된 학교 요인화 데이터 중 일부 데이 터의 비율을 산술하여 새로운 비율 변수를 생성 해 내는 과정을 말한다. 이 과정을 거치며 ‘경력 별 교직원 구성 비율’, ‘학급당 학생 수’와 같은 변수를 학교 비율 데이터로 생성한다. 따라서 제n차 년도 학교 요인화 데이터에 근거해 본 전 처리 과정을 수행한 결과 제n차 년도 학교 비율 데이터가 새롭게 생성된다. 다섯째, 전처리 과정의 마지막인 데이터 웨어 하우징은 지금까지 수행한 결과를 통합하여 교 육종단연구 데이터 웨어하우스를 생성하는 단 계이다. 앞선 과정의 결과를 조인(Join) 연산을 통해 동일 연차인 제n차 년도 분석 데이터로 변 환한다. 나아가 제n차 년도 분석 데이터를 종단 연구의 특성상 제1차 년도 학생 데이터의 고유 키를 기준으로 다시 통합하여 종단연구 시계열 데이터로 변환하며 이 과정을 통해 데이터 웨어 하우스가 생성된다. 3.2 교육종단연구 데이터 분석 기법 데이터 분석 단계는 크게 OLAP과 DM의 과 정으로 구성된다. 효과적인 DM을 위해서는 OLAP 기반의 탐색적 데이터 분석이 필수적이 다. OLAP은 다차원 데이터 모형에 근거한 스타 스키마를 많이 사용하며, 스타 스키마를 기반으 로 데이터 웨어하우스에서 OLAP을 시행하면 측정값에 대한 다양한 차원의 분석 결과를 즉시 얻을 수 있다. 또한 DM은 OLAP 결과를 바탕으 로 기계학습 기법을 활용하여 보다 깊이 있는

(6)

분석을 통해, 데이터 이면의 숨겨진 의미를 찾 아내는 과정을 의미한다(Han et al., 2016). 위와 같은 데이터 분석 방법은 데이터의 특징 에 따라 활용하는 순서와 방법이 달라지나, 교 육종단연구 데이터를 활용하는 연구에서의 데 이터 분석 기법의 절차는 <그림 3>과 같다. <그 림 3>의 절차는 횡단 연구를 시행할 때 제n차 년도 분석데이터를 활용하며, 종단 연구를 수행 할 때는 시계열 분석데이터를 활용하게 된다. 전체적인 과정은 (1) OLAP (2) 변수 선택 (Feature Selection) (3) 연구 모형 선택과 데이터 수정(Data Modify) 및 인수 튜닝(Parameter Tuning) (4) 모형 학습과 평가 및 해석 단계로 구 성된다. <그림 3> 교육종단연구 데이터 분석 기법 가장 먼저, 앞서 구축한 데이터 웨어하우스를 기반으로 다차원 데이터 모델을 설계하고 이를 통해 OLAP을 수행한다. 구체적으로 측정값 선 정, 다차원 데이터 모델 설계, OLAP 분석 과정 을 거친다. 측정값을 선정하고 <그림 4>와 같은 스타 스키마를 설계한 뒤, OLAP 툴을 활용하여 다차원 분석을 수행며, 이를 통해 여러 가지 측 정값(Measure)과 다양한 차원간의 관계를 매우 빠른 속도로 분석할 수 있게 된다. <그림 4> 교육종단연구 스타 스키마 DM 첫 단계인 변수 선택은 분석 데이터의 많 은 변수 중 어떤 변수를 DM 모형의 입력변수로 활용할 것인지를 선택하는 것이다. 즉, 본 과정 은 DM 모형의 성능을 최대화하면서 모형의 복 잡도를 감소시키며, 결과의 과적합 방지를 목적 으로 한다(Flach, 2016). 본 논문에서는 모델에 활용될 최적의 입력변수를 결정하기 위해 Guyon, Weston, Barnhill & Vapnik(2002)의 재귀 적 변수 제거(Recursive Feature Elimination: RFE) 방법을 활용하였다. 연구 모형 선택 단계에서는 연구 목적 및 데 이터 특성에 따라 많은 것을 고려해야 한다. 데 이터 특성에 대한 충분한 이해를 통해, 회귀인 지 분류인지, 설명력이 높은 모형을 선택할 것 인지, 예측력이 높은 모형을 선택할 것인지를 결정해야 한다. 데이터 수정 단계에서는 앞서 선택한 연구 모형이 가정하고 있는 데이터 타입 으로 데이터를 수정하는 단계이다. 인수 튜닝에 서는 인수들의 하위 집합을 모두 탐색하여 목표 값이 가장 좋은 조합을 선택하는 그리드 서치 (Grid Search)를 활용하였다(김슬람, 2018). 마지막 모형 학습과 평가 및 해석단계는 연구 모형과 데이터, 최적의 인수 조합을 활용하여 모형을 학습하는 과정이다. 모형의 학습과 평가

(7)

를 위해 훈련용 데이터와 테스트 데이터를 7:3 의 비율로 분할하였다. 모형의 과적합을 확인하 기 위한 성능평가 지표는 혼동행렬을 기반으로 정확도, 민감도, 특이도, 카파 계수를 활용하였 고, 이후 결과를 해석하는 과정을 수행하였다.

Ⅳ

. 서울교육종단연구 적용 사례

본 장에서는 데이터 플랫폼의 적용사례로 서 울시교육종단연구 데이터를 저장, 다양한 분석 을 수행할 수 있도록 하는 시스템 구축 결과를 소개한다. 4.1 데이터 수집⋅저장 본 플랫폼을 SELS에 적용 할 때, 학생, 학부 모, 학교 데이터 셋을 활용하였다. 자가설문방식 으로 수집되었기 때문에 결측치를 일정부분 포 함하고 있다. 또한 SELS 데이터 이외에 학생의 교육 환경과 관련된 데이터는 서울특별시 공공 데이터 포털 및 한국감정원 홈페이지에서 자치 구 단위로 가장 최근에 공개된 공공 데이터를 활용하였다. 최종적으로 본 논문에 활용한 원시 데이터 테이블은 <표 1>, <표 2>와 같다. 4.2 전처리 과정 SELS 데이터는 자가설문 방식으로 결측치가 발생할 수 있으며 이러한 결측치의 처리가 연구 의 결과에 중요한 영향을 미친다. 우선 MICE R 패키지를 활용하여 마스킹 과정을 통해 제1∼6 차 년도 학생⋅학부모⋅학교 마스킹 데이터를 생성하였다. 요인화 과정은 서울교육연구정보원에서 데 이터와 함께 제공된 코드북을 활용하여 해당 요 인의 하위 문항의 총합을 산술하는 방식으로 코 드북에 제시된 문항코드에 따라 요인화 과정을 수행하였다. 그 결과 제1∼6차 년도 학생⋅학부 모⋅학교 요인화 데이터를 생성하였다. 정규화 과정은 요인화의 결과 중 수치형 변수 를 0∼1 사이의 값으로 만들기 위해 R에서 커스 텀 함수를 제작⋅적용하여 활용하였다. 지역 데 이터 또한 정규화 과정을 거쳤다. 이진화 과정 은 마찬가지로 요인화 결과 중 범주형 변수를 R 조사 연도(학년) 2010(초4) 2011(초5) 2012(초6) 2013(중1) 2014(중2) 2015(중3) Row Col Row Col Row Col Row Col Row Col Row Col 학생 5,297 193 4,656 196 4,328 243 3,725 332 3,579 374 3,673 387 학부모 4,913 96 4,648 112 4,304 215 3,683 256 3,537 369 3,644 268 학교 108 63 108 185 108 189 300 218 301 622 314 350 <표 1> SELS 원시 데이터 테이블 크기 항목(업데이트 시기) 서울시 공공 데이터 인구수(2019년 2분기), 국민기초생활보장 수급자수(2018년), 주택매매지수(2017년 11월), 다문화가구수 (2017년), 지역박탈지수(2015년), 스트레스인지율(2017년), 인구 10만명당 자살률(2017년), 범죄율(2017 년), 기대수명(2017년), 교통안전지수(2017년), 지역내 총생산(2019년 2월), 결혼 및 이혼건수(2018년) 한국 감정원 아파트평균단위매매가격(2019년 7월) <표 2> 활용한 공공데이터 항목

(8)

의 dummies 패키지 를 활용하여 이항 가변수로 변환하였다. 그 결과 제1∼6차 년도 학생⋅학부 모⋅학교⋅지역 정규화 데이터를 생성하였다. 데이터 유도 과정은 요인화 과정을 통해 생성 된 학교 요인화 데이터 중 연구자의 판단에 따 라 일부 데이터를 산술하여 제1∼6차년도 학교 비율 데이터를 생성하였다. 그 결과 남녀학생 비율, 학급당 학생수 등 제1차 년도 2개, 제2차 년도 7개, 제3차 년도 7개, 제4차 년도 12개, 제5 차 년도 7개, 제6차 년도 7개를 생성하였다. 데이터 웨어하우징과정을 통해 앞서 생성된 데이터 테이블을 각 테이블별 키 값인 ‘학생 ID’, ‘학교 Code’, ‘지역 Code’를 기준으로 조인 (Join) 연산을 통해 제1∼6차 년도 분석 데이터 테이블을 생성하였다. 이후 제1∼6차 년도 분석 데이터를 다시 한번 1차년도 ‘학생 ID’ 값을 고 유키로 설정하여 조인 연산을 통해 교육종단연 구 시계열 데이터 테이블을 생성하였으며, 각 데이터 테이블의 크기는 <표 3>과 같다. 1차 2차 3차 4차 5차 6차 시계열 초4 초5 초6 중1 중2 중3 Row 5,059 4,656 4,328 3,725 3,546 3,673 3,480 Col 132 145 146 166 150 150 824 <표 3> 통합된 데이터 테이블 크기 4.3 데이터 분석 결과 4.3.1 수학 학업성취도 OLAP 결과 본 단계는 앞서 구축한 데이터 웨어하우스를 기반으로 다차원 데이터 모델을 설계하고 이를 통해 OLAP을 수행하였다. 1단계에 따라 측정값 을 ‘수학 학업성취도’로 선정하였다. 먼저, 학업 성취란 학습의 결과로서 지식과 기능을 습득하 는 과정 또는 결과를 의미하며, 특히 수학 학업 성취도는 다른 교과의 학업성취와도 연관이 깊 은 편이다(최선희, 2014). 수학 학업성취도는 학 생의 수학에 대한 흥미와 태도, 가정의 경제적 상황, 부모의 학력과 교육 기대 수준, 학교의 프 로그램 및 교사의 특성과 같은 개인⋅가정⋅학 교 차원의 요인들이 복합적으로 작용하고 있다 고 보았다(최지선, 상경아, 2019). 이렇게 다차원 적인 요인들이 복합적으로 작용하는 개념의 경 우, 여러 변수들간의 복잡한 상호관계 탐구가 가능한 DM과 같은 방법으로 접근해야 한다 (Cupples et al., 2005). 즉, 요인들 사이의 모든 가능한 상호 작용을 탐구하는 DM 프로세스를 적용해야 다차원적인 개념을 보다 정확히 파악 할 수 있다는 것이다. 다음 2단계로 다차원 데이터 모델 설계 과정 이다. 설계한 SELS 스키마는 <그림 5>와 같다. 따라서 팩트 테이블에 수학 학업성취도를 측정 값으로 구성하였고 디멘션 테이블은 학생⋅학 부모⋅학교⋅지역 4개의 차원으로 설정하였다. <그림 5> SELS 다차원 데이터 모델 스키마 3단계로 Tableau를 활용하여 OLAP을 수행하 였다. 측정값과 다른 차원 값의 관계를 살펴보 기 위해, 차원 값이 명목형(Nominal Data) 데이 터인 경우 해당 범주에 따라 측정값의 평균을 살펴보았다. 이외의 데이터의 경우에는 평균값 을 기준으로 높은 집단(초과)과 낮은 집단(이하) 으로 나눈 뒤, 각 집단별 측정값 평균을 활용하 였다. 수학 학업성취도를 측정값으로 하여 OLAP을 실시하였다. 먼저 수학 학업성취도의 학년별 평

(9)

균값을 확인하였고 결과는 <그림 6>과 같았다. 수학 학업성취도는 초등학교 4학년에서 가장 높 았으며, 중학교 2학년에서 가장 낮았다. 학생 차 원 요인(사교육 참여 여부)과 수학 학업성취도 와 관계를 분석하였고 그 결과는 <그림 7>과 같 았다. 사교육 참여 여부와 수학 학업성취도 평 균값을 확인한 결과 초등학교 4학년 때에는 큰 차이가 없었으나, 초등학교 5학년부터 사교육 참여집단 학생의 수학 학업성취도가 더 높았으 며, 중학교 3학년에서 가장 큰 차이를 보였다. 학부모 차원 요인(월간 가계 소득, 여성 보호 자 학력)과 수학 학업성취도와 관계를 분석하였 으며 그 결과는 <그림 8>, <그림 9>과 같았다. 월간 가계 소득, 여성 보호자의 학력 모두 초등 학교 4학년에서 큰 차이를 보이지 않았으나 초 등학교 5학년부터 월간 가계 소득 평균 초과집 단과 여성 보호자의 학력 평균 초과 집단 학생 의 수학 학업성취도가 높았으며 이러한 경향은 중학교 3학년까지 지속되었다. 학교 차원 요인(초등학교: 교육복지사업 운영 여부)과 수학 학업성취도와 관계를 분석하였고 그 결과는 <그림 10>과 같았다. 교육복지사업 운영 여부와 수학 학업성취도 평균값은 초등학 <그림 10> 교육복지사업 운영 학교와 수학 학업성취도 <그림 6> 수학 학업성취도 평균값 <그림 8> 월간 가계소득과 수학 학업성취도 <그림 7> 사교육 참여 여부와 수학 학업성취도 <그림 9> 여성보호자 학력과 수학 학업성취도

(10)

교 4학년에서 큰 차이가 없었으나, 초등학교 5∼ 6학년에서는 교육복지사업 미운영 학교의 수학 학업성취도가 다소 높은 것을 찾을 수 있었다. 지금까지 살펴본 수학 학업성취도 OLAP 결 과를 종합하면, 초등학교 5학년 시기가 수학 학 업성취에 있어서 중요한 시기라고 볼 수 있다. 초등학교 4학년에서는 다차원적 요인과의 관계 가 크지 않았으나, 초등학교 5학년 이후부터는 다차원적 요인에 따라 그 차이가 발생하는 것을 확인하였다. 하지만, 이러한 요인들 중 어느 요 인이 수학 학업성취도에 더 큰 영향을 미치는지 는 OLAP으로는 확인할 수 없었다. 또한 각 요 인들의 계층적 관계 및 종단적 영향력을 찾아내 기에도 한계가 있다. 따라서 DM을 통해 수학 학 업성취도에 영향을 미치는 요인을 보다 깊이 있 게 찾아낼 필요성이 있다. 4.3.2 수학 학업성취도 DM 결과 DM 단계 중 첫 번째로 RFE 방법을 통해 변 수를 선택하였다. R의 caret(Classification And REgression Training) 패키지 중 RFE함수를 활용 하였으며 5겹 교차검증 방법을 통해 변수 선택 의 타당함을 확인하였다.

RFE를 활용하여 수학 학업성취도 예측 모형 을 학습하기 위해 변수를 선택하였다. 우선 RFE 적용에 앞서 변수 간 상관이 높은 변수는 사전 에 제거해야 하기 때문에 Kuhn & Johnson(2018) 에 따라 변수 간 상관계수가 0.75 이상인 변수를 먼저 삭제하였다. 이후 초등학교 4학년∼중학교 3학년까지 RFE를 활용하여 변수를 선택하였다. 초4에서는 13개, 초5 14개, 초6 29, 중1에서는 35 개, 중2 26개, 중3 35개의 변수가 선택되었다. 초 등학교 4학년의 경우 RFE의 결과 모형의 정확 도가 54.02%로 현저히 낮아 이후 분석에서는 제 외하였다. 다음으로 본 논문에서 제안한 데이터 분석 기 법에 따라 의사결정나무, XGBoost, 랜덤포레스 트 모형을 선택하였다. 의사결정나무 모형은 현 재까지 교육종단연구 데이터를 활용한 DM 연 구에 있어서 가장 많이 활용된 모델이다. 의사 결정나무 모형은 높은 설명력을 갖고 있으나 모 형의 성능 및 표본 선택에 따른 모형의 불안정 성이란 단점을 보완하기 위해 앙상블 기법 중의 하나인 XGBoost와 랜덤포레스트를 사용하였으 며, R의 rpart, xgboost, randomForest 패키지를 활용하였다. 데이터 수정 단계에서는 연구 목적과 선택한 연구 모형이 함께 고려되어야 한다. 전 세계적 으로 공교육의 질적 제고를 위해 교육의 책무성 을 강조해 오고 있다. 교육의 책무성이란 성취 기준에 미달한 학교와 학생에 대한 원인을 규명 하고 개선 방안을 모색하는 것으로(서울대학교 교육연구소, 2011), 초⋅중학교 학생 중 학업성 취도의 평균 이하를 나타내는 학생에 주목해야 한다는 것을 의미한다. 즉, 목표변수 평균에 미 치지 못하는 학생을 사전에 예측하여 보정하는 것이 공교육의 책무성이다. 따라서 평균 이하의 학생을 판별해 내기 위해 분류(Classification) 모 형을 사용하였으며 이를 위해 목표변수가 평균 을 초과할 경우 1, 평균값 이하인 경우 0으로 값 을 수정하였다. 또한 선택한 모형에 적합하게 데이터를 수정 하였다. 특히 의사결정나무의 경우 생성된 트리 의 해석력을 높이기 위해 독립변수값을 평균 초 과 1, 이하 0으로 데이터를 수정하였다. 인수 튜 닝을 위해 XGBoost의 경우 그리드 서치를 활용 하였다. 랜덤포레스트의 경우 Breiman(2001)에 따라 ntry 1000, mtry (예측 변수 개수의 제 곱근)을 활용하였다. 다음은 의사결정나무, XGBoost, 랜덤포레스 트 모형을 학습시키고 모형을 평가하였다. 특히 모형학습의 목적은 학생의 수학 학업성취도가 평균 초과인지 이하인지를 분류하는데 활용되 는 변수를 파악하여 교육정책의 시사점을 도출

(11)

하는데 있다. 각 학년별 특성을 파악하기 위해 의사결정나무, XGBoost 모형을 횡단연구에, 랜 덤포레스트를 종단연구에 적용하였으며, 3장에 서 설계한 방법에 따라 성능을 평가하였다. 먼저 의사결정나무를 적용하여 초등학교 5학 년∼중학교 3학년 수학 학업성취도 모형을 학습 하였으며 결과는 <그림 11>과 같다. 각 학년별 로 수학 학업성취도에 가장 큰 영향을 미치는 변수로는 ‘영어 학업성취도’와 ‘국어 학업성취 도’였으며, 다음으로는 학년별로 다소 차이는 있지만 ‘자기주도학습능력-학습태도’와 ‘수업 태도’ 요인이 나타났다. 트리 그래프를 종합해 보면, 영어⋅국어 학업성취도가 평균 이하인 학 생들의 ‘수학 학업성취도’ 또한 평균 이하로 분 류될 수 있는 확률이 72, 76, 81, 82, 84%로 학년 이 올라갈수록 그 확률이 높아진다. 따라서 교 육현장에서는 교과별 학업성취도를 고르게 향 상시킬 수 있도록 하는 정책이 필요하다. 두 번째로, XGBoost 모형 결과를 변수 중요도 를 중심으로 정리하면 <표 4>과 같다. 변수 중요 도는 트리를 생성하면서 가지치기를 시행할 때, 변수가 사용되는 빈도를 계산하여 획득된 변수 별 이익값의 합산을 말한다. 이 변수 중요도를 통해 학년별 ‘수학 학업성취도’ 분류모형은 ‘영 어 학업성취도’, ‘국어 학업성취도’, ‘사교육비’, ‘수업 태도’ 등이 ‘수학 학업성취도’의 평균 초 과⋅이하를 분류하는 주요한 변수임을 확인하 였다. 이를 해석하면 학생의 ‘수학 학업성취도’ 가 평균보다 높은지 낮은지를 XGBoost 모형으 로 분류할 때, 중요하게 활용되는 변수가 1) 영 어 학업성취도 2) 국어 학업성취도 3) 사교육비 순이라는 것을 의미한다. 또한 2)와 3) 사이의 격차가 학년이 올라갈수록 점차 벌어져 지는 것 은 고학년이 될수록 교과간의 학업성취도가 고 착화됨을 의미한다. 따라서 교육 현장에서는 저 학년부터 교과별 학업성취도를 함께 높이기 위 한 정책을 펼쳐야 함은 물론이며, 사교육비와 같은 가정의 사회⋅경제적 격차를 보정하는 적 초 5 초 6 중 1 중 2 중 3 <그림 11> 학년별 수학 학업성취도 의사결정나무 모형

(12)

극적 정책이 필요하다. 세 번째로, 초5∼6, 초5∼중1, 초5∼중2, 초5∼ 중3까지 총 4개의 종단적 시계열 데이터에 랜덤 포레스트 모형을 학습하였다. 목표변수는 각 모 형별 최고학년의 ‘수학 학업성취도’로 설정하였 다. 랜덤 포레스트 모형의 파라미터 중 ntree는 모두 1000, mtry는 7, 9, 10, 14로 설정하였다. 학 습 결과 트리의 개수가 200개 이상일 때부터 오 류 값이 일정 값에 수렴했기 때문에 본 모형에 서 사용한 트리의 개수는 타당한 것으로 볼 수 있었다. 각 학년별 시계열 데이터를 통해 학습한 랜덤 포레스트 모형의 변수 중요도 다음 <표 5>과 같 다. <표 5> 내용을 해석하면 당해 학년 ‘수학 학 업성취도’에 대한 종단적 영향력을 가장 많이 미치는 변수는, 학생이 성장하면서 보여준 국어 ⋅영어⋅수학 ‘학업성취도임’을 의미한다. 또한 그밖에 ‘수업태도’, ‘자기주도학습능력’ 관련 변 수 및 ‘사교육’ 관련 변수가 영향을 미치고 있다. 따라서 교육현장에서는 국어⋅영어⋅수학에 있 어서 기본적인 학업성취를 이룰 수 있도록 하기 위한 정책을 고민해야 하며, 자기주도학습능력 초5 초6 중1 중2 중3 변수 중요도 변수 중요도 변수 중요도 변수 중요도 변수 중요도 영어학업 성취도 0.1363 영어학업 성취도 0.1569 영어학업 성취도 0.2681 영어학업 성취도 0.2194 영어학업 성취도 0.2598 국어학업 성취도 0.1102 국어학업 성취도 0.1241 국어학업 성취도 0.1018 국어학업 성취도 0.1514 국어학업 성취도 0.1817 사교육비 0.0954 사교육비 0.0560 사교육비 0.0356 사교육비 0.0697 사교육비 0.0546 시민의식 0.0830 학습태도 0.0486 _자살률구별 0.0347 학습태도 0.0538 주당혼자 공부하는 시간 0.0347 학습태도 0.0807 주당혼자 공부하는 시간 0.0447 학습태도 0.0310 _참여여부사교육 0.0399 교내 문화활동 참여정도 0.0312 가정의 월 평균 가계소득 0.0797 자기주도학습능력 학습태도 0.0424 학급당 학생 수 0.0300 주당혼자 공부하는 시간 0.0372 사교육 주당 시간 0.0289 주당혼자 공부하는 시간 0.0770 주당 사교육 시간 0.0382 학교풍토 0.0293 부모-자녀간 상호작용 0.0343 구별 기대수명 0.0278 자녀 학업지원 0.0668 진로 성숙도 0.0333 주당 사교육 시간 0.0285 교내 문화활동 참여정도 0.0304 스마트폰 사용시간 0.0240 주당 독서시간 0.0556 가정의 월 평균 가계 소득 0.0327 교내 문화활동 참여정도 0.0269 주당 사교육 시간 0.0304 학습태도 0.0220 수업 만족도 0.0488 자녀 교육정보 획득 0.0326 자녀 교육정보 획득 0.0223 가정의 월 평균 가계소득 0.0290 책 보유 _권수 0.0201 <표 4> 학년별 수학 학업성취도 XGBoost 모형 변수 중요도(Top 10)

(13)

을 신장시키기 위한 다양한 정책적 논의가 강화 되어야 한다. 수학 성취도 DM 모형을 평가한 결과는 <표 6>과 같다. 대부분의 지표에서 일반적인 양호도 를 보였다. 4.3.3 논의 및 시사점 횡단 연구 결과를 살펴보면, XGBoost 모형에 서 초5를 제외하고는 영어와 국어의 학업성취가 다른 변수들과 큰 차이를 보일 정도로 높은 변 수 중요도를 보였다. 초등학교 6학년을 제외한 초 5, 중 1, 2, 3학년 모형에서 모두 영어 학업성 취도가 수학 학업성취도에 영향을 미치는 첫 번 째 변수로 나타났다. 또한 OLAP 결과 초등학교 4학년 시가와 초등학교 5학년 이후 시기의 특성 이 크게 차이가 나며, 5학년 이후 시기에서 이와 유사한 경향을 보이는 것을 확인할 수 있었다. 따라서 초등학교 5학년 시기가 이후 학년의 수 학 학업성취도를 결정하는 중요한 시기임을 의 미한다고 해석할 수 있다. 또한 학교급에 따라 조금 상이한 특징을 찾을 수 있었다. 초등학생 시기에는 사교육비, 자녀 초5∼초6 초5∼중1 초5∼중2 초5∼중3

변수 MDA* _변수 _MDA _변수 _MDA _변수 _MDA

수학학업 성취도_5 98.57 영어학업 성취도_7 61.42 수학학업 성취도_7 53.73 수학학업 성취도_8 57.13 국어학업 성취도_6 65.73 수학학업 성취도_6 54.72 영어학업 성취도_8 52.27 영어학업 성취도_9 50.66 영어학업 성취도_6 51.33 국어학업 성취도_7 43.21 국어학업 성취도_8 44.64 국어학업 성취도_9 40.72 영어학업 성취도_5 33.96 수학학업 성취도_5 41.96 영어학업 성취도_7 32.72 수학학업 성취도_7 38.71 국어학업 성취도_5 28.03 국어학업 성취도_6 28.99 국어학업 성취도_7 27.66 영어학업 성취도_8 25.62 자기주도 학습능력 학습태도_6 24.56 영어학업 성취도_6 26.74 수학학업 성취도_6 26.40 수학학업 성취도_6 23.81 수업태도_6 20.44 수업태도_7 22.53 수학학업_{성취도_5} 24.34 영어학업_{성취도_7} 23.71 자기주도 학습능력 학습노력_6 17.57 국어학업 성취도_5 21.94 수업태도_8 21.36 국어학업 성취도_8 21.82 자기주도 학습능력 학습태도_5 16.96 영어학업 성취도_5 20.26 국어학업 성취도_6 18.47 수학학업 성취도_5 16.55 수업태도_5 16.50 주당 사교육 시간_7 14.86 영어학업 성취도_5 18.21 영어학업 성취도_6 15.98

* _{Mean Decrease Accuracy: 해당 변수를 삭제했을 때 모형의 정확도 감소량}

** _{종단 분석을 위해 해당 학년을 변수 뒤에 표기함(초5:_5, 초6:_6, 중1:_7, 중2:_8, 중3:_9)}

예) 중학교 2학년 영어 학업성취도: 영어학업성취도_8

(14)

공부 학업 지원, 월간 가계 소득, 시민의식, 주당 독서시간, 진로성숙도, 자기주도학습능력 관련 변수가 높은 변수 중요도를 보였다. 반면 중학 생 시기에는 학교풍토, 주당 사교육시간, 교내 문화활동 참여정도, 주당 혼자 공부하는 시간과 같은 변수가 높은 변수 중요도를 보였다. 즉 초 등학교 시기에는 학생의 비인지적 성취와 관련 된 요인(진로성숙도, 시민의식)이 큰 중요도를 보인 반면 중학교 시기에는 그렇지 않았다. 초등학교에서 중학교로 성장할수록 수학 학 업성취도에 학생 개인 차원의 변수 뿐만 아니라 가정⋅학교⋅지역 차원의 변수들이 복합적으로 영향을 미치고 있었다. 특히 가정 차원의 변인 중에서는 사교육비가 수학 학업성취도의 평균 이상과 이하를 분류하는데 가장 중요하게 사용 된 변수였다. 그 밖에도 월 평균 가계 소득과 같 은 부모의 사회 경제적 지위를 나타내는 변수도 분류모형 학습에 중요하게 활용되었으며, 부모 의 자녀 학업 지원과 같은 부모의 자녀 학업에 대한 관심과 실천에 관한 변수도 많이 활용되었 다. 학교 차원에서는 학급당 학생 수가 영향을 미치는 것을 확인하였다. 지역 차원에서는 학생 이 거주하는 지역의 자살률, 기대수명이 수학 성취도의 평균 이상과 이하를 구분하는데 변수 로 사용된 점이 특징적이었다. 이는 학생의 거 주 환경에 따라 수학 학업성취도를 보정할 수 있는 정책을 세분화 시켜 달리 접근해야 한다는 의미로 해석할 수 있다. 종단 모형의 결과를 살펴보면 지속적으로 학 생의 국어, 영어 학업성취도가 매우 높은 중요 도를 보이고 있었다. 특히 직전 학년의 수학 학 업성취도와 해당 학년의 국어, 영어 학업성취도 가 매 모형별로 1∼3위 그룹을 형성하는 것을 찾 을 수 있었다. 이는 과거의 학습 부진이 성장하 면서 지속적으로 영향을 미치고 있으며 중학교 3학년 시기가 되었을 때, 지금까지 나타난 많은 요인들 중 학업성취도와 관련된 요인이 가장 높 은 영향을 미친다는 점을 보면, 당해학년의 학 습부진을 해소해야 한다는 의미로 볼 수 있다. 앞선 논의를 종합해 데이터 기반 교육정책의 기초자료가 될 수 있는 다음과 같은 시사점을 도출하였다. 첫째, 초등학교 5학년 시기의 수학 학습부진 을 최소로 만드는 정책을 펼쳐야 한다. 모든 학 년에 고르게 예산을 분배하는 것보다 초등학교 5학년의 수학 학업성취도에 더 큰 관심을 기울 이고 예산을 집중적으로 지원해야 한다. 또한 초등학교부터 당해 학년의 학습 부진을 없애기 위해 최선을 다해야 한다. 둘째, 초등학교부터 자기주도학습능력을 신 장시키기 위해, 프로젝트 학습 및 학습하는 방 법의 학습과 같은 교수⋅학습 방법을 학교에서 운영해야 하며 교육 당국은 이를 적극적으로 추 진할 수 있도록 지원해야 한다. 또한, 사교육 참 여 요인이 모든 학년에서 나타나므로, 학교에서 는 학습클리닉과 같은 프로그램을 제공하거나, 횡단 분석 종단 분석 의사결정나무 XGBoost 랜덤포레스트

정확도 민감도 특이도 Kappa 정확도 민감도 특이도 Kappa 정확도 민감도 특이도 Kappa 초5 0.67 0.77 0.56 0.34 0.70 0.73 0.65 0.39 초6 0.72 0.74 0.68 0.44 0.75 0.76 0.74 0.51 ∼초6 0.80 0.82 0.77 0.60 중1 0.77 0.79 0.74 0.54 0.78 0.80 0.77 0.57 ∼중1 0.93 0.93 0.94 0.87 중2 0.78 0.84 0.69 0.55 0.79 0.83 0.74 0.58 ∼중2 0.94 0.95 0.93 0.88 중3 0.79 0.81 0.78 0.59 0.82 0.85 0.78 0.63 ∼중3 0.96 0.97 0.96 0.93 <표 6> 수학 학업성취도 분석 모형 평가

(15)

가계 소득에 따라 사교육에 참여하기 어려운 경 우 방과후학교 바우처 제공 등 가정의 사회 경 제적 지위에 따른 차이를 보정하기 위한 적극적 정책을 펼쳐야 한다. 셋째, 시교육청은 수학 학업성취가 학생이 처 한 지역의 교육환경에도 영향을 받는 다는 것을 유념하고 각 자치구와 협력체계를 갖춘 마을 공 동체와 같은 커뮤니티를 구성하여 교육복지사 업과 같은 지역사회와의 협력을 통해 생활환경 개선을 위해 노력해야 한다.

Ⅴ

. 결론 및 제언

본 논문에서는 교육종단연구 데이터를 분석 하기 위한 데이터 플랫폼을 개발하였으며 이를 위한 데이터 전처리 및 분석 기법을 제안하였다. 또한 개발한 플랫폼을 SELS에 적용해 수학 학 업성취도를 중심으로 그 타당성을 확인하였다. 그 결과 1) 초등학교 5학년 수학 학습부진 최소 화 정책 추진, 2) 자기주도학습능력 향상을 위한 프로젝트 학습 및 학습하는 방법의 학습 지원, 3) 가계 소득 격차에 따른 적극적 보정 정책 및 지역과 협력 사업 추진과 같은 시사점이 도출되 었다. 본 논문에서 제안한 교육종단연구 데이터 플 랫폼은 다음과 같은 장점을 갖는다. 1) 교육종단 연구 데이터 전처리를 통한 데이터 웨어하우스 구축으로 정책입안자가 해당 시도의 데이터를 직접⋅즉시 분석이 가능함을 보였다. 특히 많은 시간과 노력이 필요한 데이터 전처리 결과를 데 이터 플랫폼에 저장하고 이후 연구에서 재활용 함으로써 연구자들의 시간과 노력을 대폭 절감 할 수 있는 방안을 제시하였다. 2) OLAP 기반의 다차원 질의를 통한 데이터의 손쉬운 분석과 분 석결과의 시각화를 통해 분석에 관하 이해도를 높였다. 3) 또한 DM을 통한 깊이 있는 분석을 통해 인사이트를 도출하여 데이터 기반 교육정 책 수립에 기초자료를 제공하였다. 하지만 교육종단연구를 활용한 데이터 분석 이 더욱 활성화되기 위해서는 데이터 제공방식 의 변화가 필요하다. 이에 교육종단연구 보유 기관에서는 본 논문에서 개발한 플랫폼에 따라 전처리된 데이터를 연구자⋅정책입안자에게 제 공하는 경우와 기존의 방식과 같은 원시데이터 를 제공하는 이원적 방법을 운영해야 한다. 이 렇게 되면 연구자의 연구 목적에 따라 데이터를 수령하는 방식이 달라질 것이며, 연구자⋅정책 입안자들이 데이터 전처리보다 데이터 분석에 더 많은 시간과 역량을 투입할 수 있게 될 것이 다. 나아가 본 논문에서 개발한 데이터 플랫폼 에 기반하여 데이터를 제공하는 온라인 서비스 개발이 필요하다. 이러한 서비스가 개발⋅운영 된다면 기존의 계획서 제출, 심사 후 이메일을 통해 제공되는 방식에서 벗어나 전처리 및 행정 등에 역량이 분산되지 않고 데이터 분석에 역량 을 더욱 집중할 수 있을 것이다.

참 고 문 헌

[1] 김계수(2007), Amos 구조방정식 모형 분석, 서울: 한나래. [2] 김슬람(2018), 노인 고혈압 외래환자 의료비 영향 요인 분석: 시도별 의료이용을 중심으로, 충북대 학교 석사학위 논문. [3] 김양훈(2019), “인천시교육청, 학생 예측기법 빅 데이터 학교 신설 업무 활용”. 뺷매일일보뺸, 2019. 6. 27. [4] 문보경(2019), “교육 정책 빅데이터 활용해 수 립…관계기관 첫 회의 가져”. 뺷전자신문뺸, 2019. 2. 17. [5] 박선우(2018), “빅데이터 시대와 데이터 융합,” 정보통신방송정책, 30(1), 1-24. [6] 박현정, 정동욱, 강주연, 하여진, 홍자연, 박민호,

(16)

신지숙, & 이진실(2012), 서울교육종단연구 2차 년도 기초분석 보고서, 서울특별시교육연구정 보원. [7] 배미희, 최중진, & 김청송(2016), “학교폭력 가해 자, 피해자, 방관자 예측모형 연구,” 청소년학연 구, 23(8), 385-413. [8] 배정수, & 송병국(2015), “의사결정나무 분석기 법을 활용한 고등학생 진로결정수준 결정요인 우선순위 탐구,” 진로교육연구, 28(4), 79-105. [9] 부산교육정책연구소.(2019), 2019 부산교육종단 연구 협력학교 설명회 자료집, 부산광역시교육청. [10] 서울교육연구정보원.(2010), 데이터 기반 서울 교육정책 설계 서울교육종단연구, 서울특별시 교육청. [11] 서울대학교 교육연구소(2011). 교육학용어사 전, 서울: 하우동설. [12] 성기선, 양길석, 김준엽, 박소영, 민병철, 윤일경, 이종현, & 이경아.(2013), 경기교육종단연구 1 차년도 기초분석 보고서, 경기도교육연구원. [13] 오영세(2019), “서울시교육청, 수요자 중심교 육⋅교육서비스 빅데이터로 실현한다”. 뺷에듀 인뉴스뺸, 2019. 6. 17. [14] 이주리(2009), “Data Mining 을 이용한 초등학생 의 삶의 만족도에 대한 보호요인 및 위험요인 탐색,” 아동학회지, 30(1), 11-25. [15] 이현호(2016), R과 SQL을 활용한 실전 데이터 전처리, 서울: 카오스북. [16] 이혜주 & 정의현(2014), “데이터마이닝 기법을 이용한 스트레스 결정요인의 연차별 추이 분 석,” 아동교육, 23(3), 63-80. [17] 임성택, 어성민, & 신미숙.(2013), 강원 학생 교육성취도 종단연구, 강원도교육 연구원. [18] 조완섭(2017), “빅데이터 거버넌스와 표준화

동향,” OSIA Standards & Technology Review, 30(2), 26-29. [19] 조완섭외(2018), 데이터베이스 시스템, 홍릉과 학출판사. [20] 조철호(2015), SPSS/AMOS 활용 구조방정식모 형 논문통계분석, 서울:청람. [21] 최선희(2014), 다중지능, 수학 기피성향, 수학 학업성취도 간의 관계, 이화여자대학교 대학원 석사학위 논문. [22] 최지선, & 상경아(2019), “초등학생 수학 성취도 에 영향을 미치는 교육맥락변인에 대한 동아시 아 5개국 비교,” 초등수학교육, 22(3), 167-180. [23] 최형철(2019), 결측 데이터의 결측치 대체 방법 에서 효과적 투표방식 적용에 대한 연구, 한양대 학교 대학원 석사학위 논문.

[24] Breiman, L.(2001), “Random forests,” Machine learning, 45(1), 5-32.

[25] Cupples, L. A., Bailey, J. N., Cartier, K. C., Falk, C. T., Liu, K.-Y., Ye, Y., Yu, R., Zhang, H., & Zhao, H.(2005), “Data mining,” Genetic Epide-miology, 29(S1), S103-S109.

[26] Flach, P.(최재영 옮김) (2016), 머신러닝: 데이터 를 이해하는 알고리즘의 예술과 과학, 경기: 비제이퍼블릭.

[27] Goyal, M., & Vohra, R.(2012). “Applications of data mining in higher education,” International Journal of Computer Science Issues, 9(2), 113- 120.

[28] Guyon, I., Weston, J., Barnhill, S., & Vapnik, V.(2002), “Gene selection for cancer classification using support vector machines,” Machine learn-ing, 46(1-3), 389-422.

[29] Han, J., Kamber, M., & Pei, J.(정사범, 송용근 옮김)(2016), 데이터 마이닝: 개념과 기법, 서울: 에이콘.

[30] Kuhn, M., & Johnson, K.(권정민 옮김)(2018), 실천 예측 분석 모델링, 서울: 에이콘.

(17)

저 자 소 개

박 정(Jung Park) ･2020년: 충북대학교 빅데이터 협동과정(박사) ･2010년~현재: 대전광역시교육 청(교사) ･관심분야: 빅데이터, 머신러 닝, 교육데이터마이닝 조 완 섭(Wan-Sup Cho) ･1987년: KAIST 전산학과 (박사) ･1996년~현재: 충북대학교(교수) ･관심분야: 빅데이터, 빅데이 터커버넌스, 블록체인