• 검색 결과가 없습니다.

본 논문에서는 취업상황 예측을 위해 알고리즘을 이용하여 학생들의 정보를 통해 취업을 예측한다.학생들의 데이터는 신뢰성 있는 데이터로 성별,나이,학 점,어학점수,어학연수경험 유무,자격증 유무에 관한 정보를 얻어 데이터화 시 켰다.인공지능 예측에 사용되는 의사결정트리 C4.5알고리즘을 잉용하여 절차에 따라 입력된 정보를 사용하여 각 변수별 엔트로피 값을 계산하고 각 변수별 정보 이득 값을 얻어낸 후 Root노드를 정하게 된다.뿌리노드가 지정되고 난후에는 사 용된 변수는 제외하여 하위노드를 생성하게 되며 각 변수별 정보이득값을 구하여 노드를 생성하여 의사결정트리를 만들며 각 노드가 leaf노드로 모두 완료되면 각 Leaf노드는 규칙으로 만들어져 데이터베이스에 저장하게 된다.이렇게 저장된 규 칙을 바탕으로 3장에서 의사결정트리 기반으로 설계한 취업예측 알고리즘을 작성 된 시나리오를 바탕으로 시뮬레이션 성능 평가를 수행하여 결과를 분석한다.그 림 4-1은 시뮬레이션을 위해 데이터베이스에 입력된 데이터 값 화면이다.

그림 4-1.신뢰성 있는 취업정보 예

1.시뮬레이션 환경

2.취업상황 예측을 위한 트리 생성결과

그림 4-2.취업예측 시퀀스 다이어그램

그림 4-2은 취업예측과정을 시퀀스 다이어그램을 통해 나타내고 있다.사용자 가 데이터를 입력하면 데이터 전처리 프로세스는 데이터가 없는 경우라면 정규화 프로세스를 통해 데이터를 알고리즘에서 사용가능하도록 범주형 데이터로 변환시 켜 프로그램 로직에서 각 항목별 엔트로피와 정보이득을 구하고 적절한 트리를 구성하여 분류화 프로세스(Classification Process)에서 규칙을 생성하여 규칙 테 이블에 저장하고 저장된 데이터를 활용하여 예측 처리 과정은 사용자가 검색 요 청한 데이터에 대해 적절한 예측 응답을 출력하면 본 시스템의 절차가 완료된다.

이러한 일련의 과정을 위해서는 시스템의 실질적인 핵심로직인 의사결정트리의 알고리즘을 구현한다.그림 4-3은 의사결정트리 알고리즘을 보여주고 있다.

그림 4-3.의사결정트리 알고리즘

sex age credit language licnese_yn exp_language_yn work_status

미취업 집단(G2)분포, 면접경험(G3)분포, 서류통과(G4)분표 (8/32, 8/32, 8/32

2)중간노드 및 Leaf노드 생성

Language_Score인 어학점수가 정보이득이 가장 크므로 뿌리노드는 어학점수가

되고 단계 8의 어학점수 변수 값 집합은 V={A,B,C,D,E}이 된다.어학점수에 따른 단계 10의 EA,EB,EC,ED,EE 을 의사결정트리형태로 그리면 그림 4-4와 같다.

그림 4-4.어학점수에 따라 가지분할 된 의사결정트리

각각의 데이터 집합은 정지규칙이 만족될 때까지 TreeGrowth()알고리즘이 반 복되어 적용 된다(단계11).이중에서 어학점수 A,C,D,E 데이터 집합 EA,EC, ED,EE 더 이상 분할되지 않고 정지규칙을 만족시키므로 다수결에 의해 각 Record 별 결과가 정해진다. 잎은 다수결에 의해 EA는 취업,EC는 서류통과 , ED,EE는 미취업으로 결정된다.

어학점수 (B)11명의 데이터 집합 EB에 대해 취업집단(G1)과 미취업 집단(G2) 분포,면접경험(G3)분포,서류통과(G4)분포 (2/11,3/11,4/11,2/11)에 대한 엔트로 피계수는 다음과 같다.

Attribute M F    

기대정보 =각속성수/전체속성수 × 각 변수의 속성 엔트로피값

=1.9362-(5/11× 0.4422+6/11×1.9183)

그림 4-5.어학점수 범주가 B에 대해 나이로 분할된 의사결정트리

나이까지 분할된 트리는 E24,E25,E26,E,27로 분할되며,각 트리는 다수결에 의 해 규칙(Rule)으로 저장되거나 또는 같은 수의 결과를 갖는 경우 각각의 Row를 규칙으로 저장하게 된다.

3)의사결정트리 완성

이상을 종합하면 그림 4-6과 같은 의사결정 트리가 완성된다.

그림 4-6.학생이 취업이 가능여부를 분류하는 의사결정트리

4)규칙(Rule)생성

표 4-6.시뮬레이션을 위한 훈련 데이터

그림 4-7.데이터베이스에 생성된 규칙생성결과

그림 4-7은 훈련용 데이터를 이용하여 규칙을 생성하여 데이터베이스 테이블 (RuleData)에 저장된 데이터를 나타낸다.

그림 4-8.사용자 예측요청 데이터 입력화면

그림 4-8은 사용자 예측요청 데이터를 입력하는 화면이다.예측을 위해 개인의 정보를 입력하면 이미 트리생성을 통해 구성된 규칙을 조회 한 후 가장 부합하는 결과를 그림 4-9와 같이 보여준다.

그림 4-9.사용자 예측요청 데이터 결과화면

위와 같은 조건으로 규칙에서 학점과 어학점수가 부족하여 결과에 취업이 불가능 하다는 결과를 출력 해주고 있다.

3.취업 상황 예측결과

그림 4-10,4-11는 생성된 규칙을 적용하여 취업상황을 예측한 화면이다.그림 4-10은 입력된 데이터 성별 :M,나이 :25,학점 :2,어학점수 :E,자격증유무 : N,어학연수경험 :Y에 따라 결과 'N‘예측 하였으며, 그림 4-11는 입력된 데 이터 성별 :M,나이 :26,학점 :2,어학점수 :A,자격증유무 :Y,어학연수경 험 :Y에 따라 결과 'Y‘예측 하였다.

그림 4-10.취업 예측결과(예1)

그림 4-11.취업 예측결과(예2)

4.취업상황 예측 기반의 보완요소 추천결과

트리생성 과정을 통해 규칙이 생성되고, 취업상황에 대한 결과를 예측 할 수 있다.하지만 만약 취업이 불가능한 결과가 도출 될 경우,어떠한 이유에서 취업 이 불가능한지 부족한 부분이 무엇인지를 제공하는 기능이 필요하다.그림 4-12 는 요청데이터에 의해 취업이 가능성을 예측하고,시뮬레이션한 예측 결과 화면 이다.만약 취업이 불가능한 경우 또는 면접이나 서류전형을 통과하는 경우라면 취업을 위해 학생들은 어떠한 부분이 부족한지를 알려주기 위해 규칙에 생성된 정보에 의해 부족한 부분을 그림 4-13과 4-14에서 보여주고 있다.

그림 4-12.요청 데이터에 의해 취업 결과를 예측한 화면

그림 4-13은 취업 불가능인 취업을 위해 학점과 어학점수가 부족하다고 보충하 여 주고 있으며,그림 4-14는 A(면접통과)가 결과로 나왔으며 면접을 통과하는 조건은 되지만 취업을 위해 자격증을 보완할 것을 추천하고 있다.

그림 4-13.요청 데이터에 취업불가인 경우 보완요소를 제공하는 화면

그림 4-14.요청 데이터에 면접가능인 경우 보완요소를 제공하는 화면

5.성능평가 및 분석

정확도(accuracy) =

있다.위의 결과와 함께 평가를 위해 시험용 데이터의 변화에 따른 정확도를 살 펴보고자 500개의 데이터를 100개단위로 나누어 정확성을 평가하였고,그림 4-15 은 예측정확도 변화를 나타내고 있다.

그림 4-15.데이터변화에 따른 정확도와 오류율

표 4-9.시험용 데이터를 통한 정확도와 오류율 변화

  100 200 300 400 500

정확도 94 93.5 92.33333 90.25 91 오류율 6 6.5 7.666667 9.75 9

시험용 데이터를 100개 단위로 변화를 주어 데이터가 100개 일 때 정확도는

94%이고,500개 일 때 91%로, 데이터가 늘어날수록 정확도가 조금씩은 떨어졌 지만 90%이상을 유지하며 비교적 높은 정확도를 나타냈으며 반대로 오류율은 적 은수가 상승하는 것을 볼 수 있었다.

Ⅶ.결 론

관련 문서