실험 결과 분석 - 저작자표시

2020년 10월 25일부터 11월 8일까지 제안하는 챗봇을 Telegram을 통해 공개 서 비스로 전환하여 운영하였다. 15일간 총 52명의 사용자가 제안하는 챗봇을 통한 도 서관 서비스를 사용하였으며, 제안하는 챗봇을 통해 사용자와의 대화로 서비스가 제공된 총 개수는 527건이며, 최대 응답 시간은 2초 이내이다. [그림 4-2]는 danbee.ai에서 챗봇 성능 모니터링을 제공한 것이다.

[그림 4-2] 챗봇 성능 모니터링[5]

[그림 4-3]와 같이 제안하는 챗봇은 총 527건의 서비스 요청에서 인식하지 못한 응답은 4건으로 나타났다.

[그림 4-3] 챗봇 의도 추론 신뢰도[5]

[표 4-4]과 [표 4-5]은 응답정합성 판별 예측 데이터 및 국회도서관 챗봇과 본 연구에서 제안한 챗봇의 응답 정합성에 관한 예측결과이다. 테스트를 진행한 데이 터는 789건이며 도서관 정보에 대한 질의가 포함 되어 있는 문장과 도서관 정보와 무관한 문장으로 구분 되며 예측데이터를 활용하여 예측 한 결과로는 도서관 정보 에 대한 질의를 예측한 문장과 도서관 정보가 포함 되지 않은 예측 문장으로 구성 된다.

구분 개수

테스트 실험 문장 789

도서관 정보가 포함된 문장 417

도서관 정보가 포함 되지 않은 문장 372

[표 4-4] 응답정합성 판별 예측 데이터

구분 국회도서관 챗봇 제안한 챗봇

도서관 정보가 포함된 문장 435 428

도서관 정보가 포함 되지 않은 문장 354 361

[표 4-5] 응답정합성 판별 예측 결과

[표 4-6]는 국회도서관 챗봇, [표 4-7]는 제안하는 챗봇의 성능평가 결과이다. 성 능평가 결과를 확인하기 위해 Confusion Matrix를 이용하였으며 그에 따른 정확도, 재현율, 정밀도 결과이다. 본 연구에서는 도서관 정보가 포함된 문장 정답을 숫자 1로, 도서관 정보가 포함 되지 않은 문장 정답을 숫자 0으로 지정하고 실험하여 Positive는 숫자 1, Negative는 숫자 0이 된다.

실제결과 Negative 실제결과 Positive

실험결과 Negative 341 13

실험결과 Positive 31 404

정확도       

  

94.42%

재헌율   

 92.80%

정밀도   

 96.80%

[표 4-6] 국회도서관 챗봇 Confusion Matrix

실제결과 Negative 실제결과 Positive

실험결과 Negative 349 12

실험결과 Positive 23 405

정확도       

  

95.56%

재헌율   

 95.74%

정밀도   

 97.12%

[표 4-7] 제안하는 챗봇 Confusion Matrix

[표 4-8]와 [그림 4-4]는 위에서 나온 결과를 정리한 결과이다. 국회도서관 챗봇 의 결과 정확도 94%, 재현율 92%, 정밀도 96%가 나왔고, 본 연구에서 제안한 챗 봇은 정확도 95%, 재현율 95%, 정밀도 97%로 기존의 국회도서관보다 전체적으로

높은 성능을 보여주는 것을 확인 할 수 있다.

분류평가지표 국회도서관 챗봇 제안하는 챗봇

정확도 94.42% 95.56%

재헌율 92.80% 95.74%

정밀도 96.80% 97.12%

[표 4-8] 비교 결과

[그림 4-4] 비교 결과 그래프

[표 4-9]는 본 연구의 응답 정합성 개선율을 평가하기 위해 기존 국회도서관 챗 봇과 본 연구에서 제안한 챗봇의 응답 정합성에 대한 비교 분석한 결과이다.

구분 문장 국회도서관

챗봇 제안하는 챗봇

도서관 정보

도서관 이용시간 언제까지인가요? O O

출입증 발급은 어떻게 하나요? O O

오타

이용ㅅㅣ간 알려주셍? X O

ㅈㅜㅊㅏㅈㅏㅇ X X

저ㄴㅈ ㅏ 기기는 사용할 수 있나요 O O

관련없는 질문

대학교 이용시간은 어떻게 되나요 O X

집에 가고 싶어요 O X

게임 하고 싶어요 X X

※ O : 질의에 대한 응답, X : 질의에 대한 무응답

[표 4-9] 챗봇 응답 정합성 판별 결과 비교

도서관 이용시간, 출입증 발급 등과 같은 도서관 정보에 대한 질의는 기존 국회 도서관 챗봇과 본 연구에서 제안하는 챗봇 모두 정확하게 판별하였다. 반면에 ‘이 용ㅅㅣ간 알려주셍?’, ‘ㅈㅜㅊㅏㅈㅏㅇ’ 과 같은 오타가 포함된 질의 문장은 기존 연구에서는 질의에 대해 인식 하지 못했지만 본 연구에서 제안한 챗봇은 질의를 인식하고 그에 맡는 응답 제공하는 것을 볼 수 있다. 또한 관련이 없는 대학교에 대한 이용시간에 대한 질의에서도 국회도서관 챗봇은 도서관에 대한 이용시간을 답변하지만 본 연구의 챗봇은 관련 없는 질의에 대해 응답하지 않는 모습을 보이 고 있다.

실험 결과를 통해 기존의 도서관 정보에 대한 응답 정합성은 기존 챗봇과 본 연 구에서 제안한 챗봇 모두 응답 정합성이 높지만, 오타와 관련 없는 질의에 대해서 는 본 연구에서 제안한 챗봇의 응답 정합성이 개선된 것을 확인하였다.

문서에서 저작자표시 (페이지 53-58)