• 검색 결과가 없습니다.

실험 및 평가

문서에서 저작자표시 (페이지 42-50)

모델의 성능 평가 지표로 전체 정확도, 예측 정확도, 교정 정확도를 사용하고자 한다. 식 5.1의 전체 정확도()는 검증 데이터인 사용자가 웨어러블 입력 인 터페이스를 사용하여 입력한 전체 단어에 대해 단어를 정확히 예측하는 비율을 의 미한다. 여기서 검증 데이터는 오류가 포함된 단어( )와 오류를 포함하지 않 은 단어( )를 말한다. 식 5.2는 예측 정확도( )로 오류가 포함되지 않은 단어에 대해 정확히 예측하는 비율을 의미한다. 식 5.3은 교정 정확도( )를 나 타내며 오류가 포함된 단어에 대해 정확히 예측하는 비율을 의미한다.

 



  



 







(5.1)

 



  







(5.2)

 



  







(5.3)

이를 바탕으로 제안된 모델의 성능 평가를 위해 기기 측정값을 포함한 모델과 포 함하지 않은 모델의 정확도를 측정하고자 한다.

표 4. 입력 오류 교정 모델의 정확도

입력 오류 교정 모델의 정확도

batch size=32 batch size=64

전체정확도 예측정확도 교정정확도 전체정확도 예측정확도 교정정확도 기기 측정값

미포함 26.37% 30.22% 12.50% 61.92% 69.60% 34.87%

기기 측정값

포함 77.66% 88.59% 64.80% 64.53% 69.13% 48.36%

표 4는 입력 오류 교정 모델의 성능 평가 결과로, 훈련 파라미터에서 batch size 를 32로 설정했을 경우 기기 측정값을 포함하지 않은 모델의 전체 정확도는 26.37%, 예측 정확도는 30.22%, 교정 정확도는 12.05%였고, 기기 측정값을 포함 한 모델의 전체 정확도는 77.66%, 예측 정확도는 88.59%였으며, 교정 정확도는 64.80%로 기기 측정값을 미포함한 경우보다 모든 정확도가 높은 것을 알 수 있었 다. 또한 batch size를 64로 설정했을 경우 기기 측정값을 포함하지 않은 모델의 전체 정확도는 61.92%, 예측 정확도는 69.60%, 교정 정확도는 34.87%였고, 기기 측정값을 포함한 모델의 전체 정확도는 64.53%, 예측 정확도는 69.13%, 교정 정 확도는 48.36%의 성능을 나타내었다. batch size 64에서 기기 측정값을 미포함한 경우 성능이 더 좋아지는 것을 확인할 수 있었다.

표 4의 성능 평가 결과를 살펴보면 전체 정확도가 80%를 넘지 못하며 batch size 32, 64에서 다른 성능 평가 결과를 나타내었다. 이에 그림 18과 같이 출력 시퀀스가 교정하고자 하는 단어 형태인 경우를 입력 오류 교정 모델에 적용하여 모델의 정확도를 측정해보고자 한다.

그림 18. 출력 시퀀스가 단어 형태인 입력 오류 교정 모델

출력 시퀀스가 교정하고자 하는 단어 형태인 경우를 입력 오류 교정 모델에 적용 했을 때, 기기 측정값을 포함한 모델과 포함하지 않은 모델의 정확도는 표 5와 같 이 측정되었다.

표 5. 출력 시퀀스가 단어 형태인 입력 오류 교정 모델의 정확도 출력 시퀀스가 단어 형태인 입력 오류 교정 모델의 정확도

batch size=32 batch size=64

전체정확도 예측정확도 교정정확도 전체정확도 예측정확도 교정정확도 기기 측정값

미포함 89.07% 95.79% 65.46% 82.96% 88.77% 62.5%

기기 측정값

포함 89.45% 94.76% 74.67% 81.57% 89.80% 58.12%

표 5를 살펴보면 훈련 파라미터에서 batch size를 32로 설정했을 때, 기기 측정값 을 포함하지 않은 모델의 전체 정확도는 89.07%, 예측 정확도는 95.79%, 교정 정 확도는 65.46%였다. 기기 측정값을 포함한 모델의 표 4의 정확도보다 매우 높은 것을 확인할 수 있었다. 또한 batch size를 64로 설정했을 경우에도 표 4보다 좋 아지는 것을 알 수 있었다. 표 4와 표 5의 성능 평가 결과, 출력 시퀀스로 교정하 고자 하는 단어 형태를 적용하였을 때 전체 성능이 향상되는 것을 알 수 있었으며 batch size를 32로 설정하였을 때 기기 측정값을 포함한 모델과 포함하지 않은 모 델 모두 89% 이상의 전체 정확도를 나타낸 것을 알 수 있었다

본 논문에서 제안한 입력 오류 교정 모델의 교정률을 평가하기 위해 피실험자를 대상으로 출력 시퀀스가 단어 형태인 기기 측정값 포함 모델을 적용했을 때 오류 패턴별 교정 정확도와 모델 적용 전·후의 정확도를 측정하고자한다.

입력 데이터 수집을 위한 피실험자는 모두 3X4 키패드에 대한 경험이 있는 자를 대상으로 하였으며 웨어러블 기기 경험 여부와 평균타수에 따라 네 군집으로 나누 어 입력 데이터를 수집하였다. 이때 웨어러블 기기 경험 여부가 있다는 것은 입력 데이터 수집 전 웨어러블 기기를 사용한 타자연습을 통해 기기와 입력 자판에 익 숙해진 상태를 의미한다. 각 피실험자에서 수집한 입력 데이터 중 웨어러블 기기를 연습한 경험이 있는 숙련자 중 평균 타수 이상의 피실험자의 입력 데이터를 A 군 집, 평균 타수 이하의 입력 데이터를 B 군집으로 정의한다. 또한 연습 경험이 없는 피실험자 중 평균 타수 이상인 피실험자의 입력 데이터를 C 군집, 평균 타수 이하 인 피실험자의 입력 데이터를 D 군집으로 정의한다. 각 군집은 200~250개의 단어 를 입력하였을 때 올바르게 입력된 데이터와 오류가 발생한 데이터를 모두 가지고 있으며, 이 중 오류 데이터에 대한 통계 자료와 그래프는 표 6과 그림 19와 같다.

표 6. 피실험자 군집별 오류 데이터 통계

총 데이터 수 오류 데이터 수 같은 행 겹침 같은 열 겹침 입력 손실 입력 초과

A 256개 53개 32개 9개 9개 3개

B 228개 33개 2개 7개 12개 12개

C 219개 36개 7개 4개 4개 21개

D 231개 77개 26개 2개 2개 47개

합계 934개 199개 67개 22개 27개 83개

그림 19의 피실험자 군집별 오류 데이터 통계 그래프를 살펴보면 사용자마다 다양 한 오류 패턴을 가지며 사용자가 웨어러블 입력 인터페이스를 사용하는데 있어 발 생하는 특정 오류가 인터페이스 자체에 있다기보다 사용자들의 다양한 입력 특징 에 있다는 것을 알 수 있다.

그림 19. 피실험자 군집별 오류 데이터 통계 그래프

표 7. 오류 패턴 별 교정 성공률

오류 데이터 수 교정된 데이터 교정 정확도

같은 행 겹침 입력 67개 42개 62.69%

같은 열 겹침 입력 22개 20개 90.90%

입력 손실 27개 20개 74.07%

입력 초과 83개 56개 67.47%

모든 피실험자의 오류 데이터 199개에 대해 입력 오류 교정 모델을 적용하였을 때, 교정 성공률 즉 교정 정확도는 표 7과 같다. 이는 웨어러블 입력 인터페이스를 사용하는 사용자가 발생시킬 수 있는 4가지 오류 패턴에 대해 본 논문에서 제시한 입력 오류 교정 모델이 각각의 오류 패턴에서 어느 정도의 교정 성공률을 보이는 지 나타낸다. 같은 행 겹침 입력 오류 데이터에 모델을 적용했을 때, 67개 데이터 중 42개 단어의 교정에 성공하여 62%의 교정 성공률을 보였으며, 입력 초과의 경 우 교정 정확도가 60% 이상이었고, 입력 손실의 경우 74%, 같은 열 겹침 입력의 경우 90%로 같은 열 겹침 입력의 경우 교정 성공률이 가장 높게 나타나는 것을 알 수 있었다.

마지막으로 웨어러블 입력 인터페이스에 본 논문에서 제안한 오류 교정 모델을 적용하였을 때와 적용하지 않은 경우에 대한 정확도를 측정하여 성능 향상에 대해 비교·분석하고자 한다.

표 8. 입력 오류 교정 모델 적용 전/후 피실험자 군집별 입력 정확도

교정 전 전체 정확도

교정 후 정확도

전체 정확도 예측 정확도 교정 정확도

A (203/256) 79.30% (242/256) 94.53% (195/203) 96.06% (47/53) 88.68%

B (195/228) 85.53% (208/229) 91.22% (183/195) 93.85% (25/33) 75.76%

C (183/219) 83.56% (209/219) 95.43% (174/183) 95.08% (35/36) 97.22%

D (154/231) 66.67% (177/231) 76.62% (146/154) 94.80% (31/77) 40.26%

표 8은 피실험자 군집별 오류 교정 모델을 적용하였을 경우 전체 정확도, 예측 정확도, 교정 정확도를 나타낸 것이다. 교정 전 정확도는 피실험자가 입력한 전체 250개 단어에서 사용자가 입력한 단어 중 오류를 발생한 단어의 비율을 의미한다.

각 군집별 오류 교정 모델을 적용하였을 때의 정확도를 살펴보면 A, B, C 군집에 서 A 군집의 경우 B 군집보다 약 6%의 입력 오류를 더 발생시켰으나 오류 교정 모델 적용 후 성능 평가에서는 전체 정확도에서는 약 3%, 교정 정확도에서는 약 13% 더 높은 정확도를 보였다. 마찬가지로 C 군집 역시 B 군집보다 약 2%의 입 력 오류를 더 발생시켰으나, 전체 정확도에서는 약 4%, 교정 정확도에서는 21%

더 높은 성능을 보였다.

따라서 교정 모델이 B 군집에 비해 A, C 군집에서 더 나은 교정 성능을 나타낸 것을 알 수 있었다. 이때 B 군집은 오류 패턴의 비율이 균일한데 비해, A, C군집 은 각각 같은 행 겹침 입력, 입력 초과와 같이 특정한 오류 패턴이 매우 높게 발 생하였음을 볼 수 있다. 이를 통해 교정 모델이 특정 오류 패턴 비율이 높은 실험 자에서 더 나은 성능을 보임을 알 수 있었다.

D 군집의 경우 오류 교정 모델 적용 이후 정확도가 약 10% 향상되었으며, 예측 정확도는 94%로 다른 군집과 2%의 차이를 두고 비슷한 성능을 보였으나, 교정 정 확도는 50% 이하로 크게 낮은 성능을 나타냈다. D 군집의 오류 패턴에서 가장 큰

비율을 차지하는 입력 초과 오류 데이터를 살펴보았을 때, 다른 군집에서 발생한 입력 초과 데이터에서는 평균 2.5개의 글자가 더 추가되어 발생했다면, D 군집의 경우는 평균 6개, 최대 12개의 글자가 더 추가되어 있음을 발견할 수 있었다. 따 라서 D 군집에서 교정 모델이 낮은 성능을 보이는 것은 데이터의 길이가 길어질수 록 예측의 정확도가 감소하는 기울기 소실로 인해 발생하는 문제로 판단된다.

결과적으로 본 연구에서 제안한 오류 교정 모델은 특정 오류 패턴의 비율이 높고, 오류로 인해 추가된 데이터가 일정 개수 이하인 사용자 데이터에서 가장 높은 전 체 정확도를 가짐을 알 수 있었다.

문서에서 저작자표시 (페이지 42-50)

관련 문서