2 002 , V ol. 13, N o.2 p p . 15 7~165
A n aly s i s o f S t u de n t s Le av in g T h e ir M aj ors U s in g D e c i s ion T re e
1 )Ch e oly o n g P ark
2 )an d Gy u M o on S o n g
3 )A b s tra c t
S in ce 1997, w h en a n ew edu cat ion al sy st em t h at en cour ag es fa culties in st ead of depart m ent s in u niv er sities is fir st in tr odu ced , stu dent s h av e m u ch m or e ch an ce t o ch oos e an d leav e t h eir m aj or s t h an b efor e. A s a r esu lt , colleg es of b a sic art s an d s cien ces con fr ont w it h a seriou s pr ob lem sin ce lot s of st u den t s h av e left t h eir m aj or s at t h e colleg es . In t his paper , w e an aly ze an d pr ov ide a pr edict iv e m odel for t h ose stu dent s in a un iv er sit y u sin g decision t r ees .
K e y w o rd s : 예측모형, 의사결정나무, 전공이탈
1 . 서론
2006년까지 대학지원자의 수가 꾸준히 감소하게 되어 갈수록 신입생 유치에 많은 노력이 필요한 시기가 도래하고 있다. 수도권 소재 대학에 비해 지방 소재 대학들은 더욱 큰 어려움을 겪고 있는데, 입학정원을 채우지 못하는 지방 사립대학이 속출하고 있는 실정이다. 그런데 어려움은 학생들을 유치하는데 그치지 않는다. 더 큰 어려움은 일단 입학하더라도 그 학생들이 그 대학에 졸업 때까지 머물지 않고 떠날 수 있는 기 회가 많고, 실제로 떠나는 학생들이 많다는 것이다.
이러한 어려움은 비단 대학에서만 발생하는 것이 아니다. 1997년 학부제 도입 후 수요자 중심의 교육이 추구되다 보니까 전공선택의 자유가 확대되었고 한번 선택한 전공도 전부/ 전과 제도를 통해 쉽게 다른 전공으로 옮겨갈 수 있게 되었다. 그래서 대 학 내에서도 실용성 있는 전공과 기초학문을 연구하는 전공간에는 서열화가 진행되어 기초학문 분야에서 응용학문 분야로의 학생유출이 심각한 지경이다. 심지어 일부 지
1. T he pr es ent r es earch has been conduct ed by the att ached r es earch inst itut e Res earchGr ant of Keimyun g Univ er sity in 2001.
2. A s s ociat e P r ofes s or , Dep artm en t of S t atistic s , K eim y u ng Un iv er sity , T a eg u 704- 701, K or ea E - M ail: cypark 1@kmu .ac.kr
3. Pr ofes s or , Departm ent of St at istics , Keim yung Univ er s ity , T aegu 704- 701, Kor ea E - m ail: km s 252@kmu .ac.kr
방 사립대학에서는 고등학교에서 인문계를 공부하고 교차지원을 통해 기초과학 분야 에 입학하고 나서는 2학년에 다시 인문, 사회 분야로 전부/ 전과하는 학생들이 비일비 재한 지경에 이르렀다.
이 연구는 이런 문제점에 착안하여 의사결정나무를 이용하여 전공이탈 학생에 대한 통계적 모형을 구축하고자 한다. 여기서 사용되게 되는 입력변수 혹은 설명변수는 우 리가 쉽게 구할 수 있는 신상자료와 학적자료이다. 물론 전공이탈에 영향을 미치는 여러 가지 중요변수를 생각할 수 있겠지만 많은 경우 그 방대한 자료를 구하기가 쉽 지 않고 설사 구한다 하더라도 그 자료의 충실성에 의심이 가는 경우가 있어 여기서 는 가장 간단한 신상자료와 학적자료만 이용하기로 하였다. 따라서 이 연구에서 구축 되는 모형은 모든 변수가 고려된 최적의 모형이라 할 수 없으며 단순히 신상자료와 학적자료에 근거하여 의사결정나무 기법을 사용하여 전공이탈 학생들에 대한 특성을 분석하고 전공이탈 학생을 예측하는 모형을 찾아보는 것이 목적이다.
의사결정나무를 이용하여 모형을 설정하는 이유는 몇 가지가 있다. 가장 큰 이유는 의사결정나무로 만들어진 모형은 해석하기 아주 쉽다는 것이다. 따라서 주어진 나무 를 보면 어떤 특성을 가진 학생들의 전공이탈율이 높은지 쉽게 판단할 수 있어 해석 이 용이하다. 다음으로 의사결정나무는 순수하게 자료에 근거하여 가장 설명력이 있 는 변수와 경계값을 찾아나가는 탐색적 방법이기 때문에 가정사항이 거의 필요 없다 는 것이다. 따라서 별다른 부담 없이 범주형 변수나 양적 자료를 입력변수로 사용할 수 있는 것이다. 마지막으로 의사결정나무에서는 변수선택과 교호작용(int er action )의 선택이 자동적으로 이루어져 새로운 자료에 쉽게 적용될 수 있는 일반화 (g en er alizat ion )가 가능하다는 점이다.
이 논문은 다음과 같이 구성된다. 2절에서는 주어진 자료에 대한 설명과 함께 전공 이탈 학생에 대한 의사결정나무 모형을 설정하게 된다. 여기에서 전공이탈 학생들의 특성을 밝히게 된다. 또한 전공이탈 학생에 대한 의사결정나무 예측모형을 설정하게 된다. 이 결과를 이용하면 1학년까지의 학적자료와 신상자료에 근거하여 이탈할 사후 확률을 추정할 수 있어 사전에 전공이탈 가능성이 높은 학생들을 찾아낼 수 있으리라 생각된다. 3절에서는 분석과 예측모형의 결과를 요약하고 최종적인 결론을 내린다.
2 . 전공이탈 학생 분석 2 .1 분석대상 자료
이 논문에서 분석에 사용하는 자료는 모 대학교의 기초학문분야인 인문학부, 자연 과학부에 1995년부터 2002년까지 입학한 학생들의 신상자료와 학적자료이다. 인문학 부의 4개 전공과 자연과학부의 9개 전공으로 구성되는 전체 데이터는 학적상태에 따 라 재학, 전과, 졸업, 제적으로 구성된다. 이 중 전과 및 제적을 (전공)이탈로, 졸업을 비이탈로 정의하며 재학은 졸업 때까지 이탈여부가 확인되지 않은 검열자료(cen sor ed dat a )이기 때문에 분석에서 제외한다. 최종적으로 분석에 포함된 학생은 모두 2088명 이며 그 중 56.37%인 1177명이 이탈했으며 나머지 43.63%인 911명이 이탈하지 않았 다.
표 1에서 분석에 포함시킬 변수를 요약하였다. 구체적으로 살펴보면 분석에 포함시
킬 설명변수로서 고려된 것은 범주형 변수로 전공, 성별, 주야구분, 입학년도, 교직이
수여부, 출신지역이 있으며 양적 변수로 1학년 1학기부터 4학년 2학기까지 각 학기의 성적과 장학금수혜율이 있다.
이 중 입학년도는 전공이탈의 분수령이 된다고 판단되는 학부제 시행을 기준으로 1996년까지의 학부제이전과 1997년 이후의 학부제이후로 구분하였다. 또한 이탈한 학 생들의 성적과 장학금수혜율은 이탈이후 결측값으로 존재하여 그냥 놔두면 반응변수 인 이탈여부에 직접 관련된 변수가 되기 때문에 결측값을 이탈 이전의 평균값으로 대 체하여 분석에 포함시키도록 하였다.
반응변수에 대한 설명력을 알아보는 기초분석으로서 범주형 변수에 대해서는 카이 제곱 검정을, 양적 변수에 대해서는 이표본 t - 검정을 시행해 보았다. 그 결과 범주형 변수 중 출신지역의 유의확률이 0.3717, 양적 변수로는 1학년 1학기 장학금수혜율의 유의확률이 0.5667로 상당히 크게 나타났으며 그 외의 모든 설명변수는 유의확률이 0.001보다 작은 것으로 나타났다. 따라서 의사결정나무를 이용한 분석에서 출신지역과 1학년 1학기 장학금수혜율이 이탈여부에 대해 설명력이 거의 없을 것이기 때문에 이 변수들을 제외시키는 것이 타당하나 의사결정나무 자체에 변수선택의 기능이 있기 때 문에 이 변수들을 그냥 분석에 남겨두도록 한다.
다음으로 양적 변수들인 성적 및 장학금수혜율 자료는 각 학기마다 관찰되어 8개의 변수가 있기 때문에 인자분석(fact or an aly sis )을 통해 소수의 인자를 찾아보도록 하겠 다. 8개의 성적 및 장학금수혜율 모두 같은 성격을 가지며 분산이 비슷하기 때문에 공분산행렬을 이용한 주성분방법에 의한 인자분석을 시도하였다. 성적 및 장학금수혜 율의 최대분산을 설명하는 인자가 전체에서 차지하는 비율이 각각 78.5%와 65.4%로 서 매우 높아 인자수를 2개만 놓고 Varim ax 회전을 시킨 후 얻은 인자적재행렬 (fact or loadin g s m at rix )은 다음과 같다.
표 1. 분석대상 자료
변수 변수내용과 코딩
전공
인문학부: 인문학부와 4개 전공 [1, 2, 3, 4, 5]
자연과학부: 자연과학부와 9개 전공 [6, 7, 8, 9, 10, 11, 12, 13, 14, 15]
성별 남자 = 1, 여자 = 2 주야구분 주간 = 1, 야간 = 2
입학년도 학부제이전 = 1, 학부제이후 = 2 교직이수여부 이수 = 1, 미이수 = 0
출신지역 세 개의 지역: 1, 2, 3
성적 1학년 1학기부터 4학년 2학기까지의 성적
장학금수혜율 1학년 1학기부터 4학년 2학기까지의 장학금/ 등록금*100%
이탈여부 이탈 = 1, 비이탈 = 0
인자1 인자2
성적11 0.36240 0.86240
성적12 0.47185 0.79360
성적21 0.61797 0.62531
성적22 0.74998 0.48643
성적31 0.82091 0.43798
성적32 0.85319 0.39320
성적41 0.82525 0.44351
성적42 0.81690 0.38966
인자1 인자2
장학11 0.42796 0.42865
장학12 0.23154 0.90354
장학21 0.37322 0.75905
장학22 0.62889 0.52583
장학31 0.73983 0.41402
장학32 0.83248 0.34972
장학41 0.86560 0.26689
장학42 0.85889 0.27980