인공 신경망 분석을 통한 커뮤니케이션 중요도 분석

본 분석에서는 앞서 설계한 연구 모형을 통해 밝힌 크리에이터의 커뮤니 케이션 특성과 시청자의 구독의도 간의 선형 관계 검정으로부터 한 발짝 나 아가 최근 떠오르고 있는 기계학습(machine learning)의 한 부분인 인공 신경망 분석(artificial neural network analysis)을 통해, 궁극적으로 명품 하울 영상 크리에이터가 자신 채널의 구독자를 늘리기 위해 어떤 종류의 커 뮤니케이션 특성에 집중해야 하는지를 밝히고자 한다. 이를 통해 <표 4- 15>에서 검정한 경로 효과 분석 결과와 비교하고자 한다. 그러나 경로 효 과에 대한 분석은 구독의도와 구매의도로 나누어 각각 이루어졌지만, 인공 신경망 분석은 구독의도만을 대상으로 변수의 중요도를 구하고자 한다. 이 는 경로 효과 검정 시 구독의도에 대한 경로 효과와 구매의도에서 나타난 경로 효과의 순위가 신체외형을 제외하고는 큰 차이가 없었고, 나아가 본 연구는 시청자가 크리에이터의 어떤 커뮤니케이션 특성으로부터 해당 채널 을 구독하는지에 대한 그 구조에 더 초점을 두고 있기 때문이다.

우선 인공 신경망 분석에 있어서 투입변수와 결과변수를 정해야 하는데, 투입변수는 크리에이터의 언어적 커뮤니케이션 특성 3가지(전문성, 주장 설 득력, 감정이입)와 비언어적 커뮤니케이션 특성 3가지(신체언어, 의사언어, 신체외형) 이렇게 총 6가지 변수를 투입변수로 사용하였다. 이때, 앞서 회 귀 분석과 마찬가지로 요인분석을 통해 구성한 문항의 평균값을 사용하였다.

결과변수의 경우, 구독의도의 평균(3.72)을 중심으로 평균보다 높은 경우를

“구독의도가 있다.”의 1로 코딩하고 구독의도가 평균보다 낮은 경우 “구독

의도가 없다.”의 0으로 코딩하였다.

투입변수와 결과변수가 정해지면 이를 바탕으로 모형을 구성하고 가장 이 상적인 모형을 찾는 절차가 요구되는데, 이때 연구자가 고려해야 하는 부분

129

은 크게 3가지로 은닉층 개수, 은닉층 내 노드의 개수, 훈련 데이터와 검정 데이터 비율이다. 이 3가지가 인공 신경망 분석의 대표적인 파라미터 (parameter)이다(Swarnakar, Kumar & Kumar, 2016). 인공 신경망 분석 은 이러한 파라미터를 조정함으로써 가장 이상적인 모형 즉, 예측 오차가 가장 낮은 모형을 찾는다. 본 연구에서 역시 위에서 언급한 3개의 파라미터 를 다양하게 변화시켜 가장 오차율이 낮은 모형의 파라미터를 찾고자 한다.

파라미터를 찾기 위한 과정에 있어서, 인공 신경망 분석의 문제점은 학습 데이터와 검정 데이터의 분할의 비율은 연구자가 지정할 수 있지만, 분할되 는 데이터 자체는 무작위로 분할되기 때문에 같은 파라미터를 지정하더라도 신경망 자체의 성능은 차이가 발생할 수 있다. 이를 보완하고자, 동일한 파 라미터를 5번 연속적으로 시행하여, 나타난 신경망 성능의 평균 값을 사용 하였다(Swarnakar, et al, 2016).

먼저 본 연구에서는 데이터의 개수가 337개로 인공 신경망을 통한 딥러 닝(deep learning)을 수행하기에 부족하다고 판단되어, 은닉층의 개수가 2 개 이하인 쉘로우 러닝(shallow learning)에 국한하였다. 따라서 은닉층의 개수를 1개인 경우와 2개인 경우에 나타나는 신경망의 성능을 살펴보았고, 그 내용은 <표 4-24>와 같다. 분석 결과를 살펴보면, 교차 엔트로피 오차 (cross entropy error)는 통계학에서 사용되는 평균제곱오차와 유사한 개념 으로 더 작은 값일수록 정답에 가까울 가능성이 높음을 의미한다. 부정확 예측도(incorrect predictions)는 신경망에서 1을 0으로, 0을 1로 예측하는 비율을 의미하며, 부정확 예측도 역시 낮을수록 신경망의 성능이 좋음을 의 미한다. 은닉층의 개수가 2개인 경우보다, 1개인 경우의 신경망의 성능이 더 좋은 것으로 나타났다. 따라서 본 연구에서 사용되는 신경망 은닉층의 개수는 1개로 지정하였다.

130

<표 4-24> 은닉층 개수에 따른 인공 신경망 성능

구분 파라미터/은닉층 수 1 2

학습

교차 엔트로피 오차 80.220 83.112

부정확 예측도 14.4% 14.6%

검정

교차 엔트로피 오차 32.248 33.690

부정확 예측도 15.0% 15.1%

은닉층의 개수를 1개로 지정한 이후 다음 절차는 은닉층 내 노드의 개수 를 정하는 것이다. 본 연구에서는 노드의 개수를 2개부터 6까지의 변화를 주면서 나타나는 신경망의 성능을 살펴보았고, 결과는 <표 4-25>와 같다.

은닉층 내 노드의 개수 변화에 따른 교차 엔트로피 오차와 부정확 예측도에 있어서 극명한 차이는 보이지 않지만, 노드의 개수가 6개일 때, 신경망의 성능이 안정적인 것으로 나타났다. 따라서 은닉층 내 노드의 개수는 6개로 선정하였다.

<표 4-25> 뉴런 수에 따른 인공 신경망 성능 비교

구분 파라미터/뉴런 수 2 3 4 5 6

학습 교차 엔트로피 오차 76.850 84.052 84.675 80.809 81.603 부정확 예측도 14.5% 14.0% 14.6% 13.9% 14.2%

검정 교차 엔트로피 오차 39.501 34.098 36.584 34.000 35.860 부정확 예측도 16.6% 16.5% 16.2% 16.4% 15.5%

마지막으로 학습 데이터 세트(learning data-set)와 검정 데이터 세트 (test data-set)의 비율에 따른 신경망의 성능을 살펴보고자 한다. 일반적

131

으로 학술 서적에서 학습 데이터와 검정 데이터의 비율 7:3을 기본으로 설 정하고 있지만, 학습 데이터와 검정 데이터의 비율의 선정에 있어서 정답은 없기 때문에 학습 데이터와 검정 데이터의 비율에 따른 신경망의 성능을 살 펴보았고, 분석 결과는 <표 4-26>과 같다. 분석 결과 교차 엔트로피 오차 와 부정확 예측도의 값이 학습 데이터가 70%, 검정 데이터가 30%일 때 가장 안정적인 신경망의 성능을 보였다. 이로써 본 연구에 사용될 신경망 구성을 위한 3개의 파라미터를 선정하였다.

<표 4-26> 학습 데이터, 검정 데이터 비에 따른 인공 신경망 성능 비교 구분 파라미터/학습 : 검정 70:30 60:40 50:50 40:60 30:70

학습 교차 엔트로피 오차 81.603 73.960 60.363 41.428 36.266 부정확 예측도 14.2% 15.0% 16.5% 13.4% 15.9%

검정 교차 엔트로피 오차 35.860 42.319 53.606 80.926 89.187 부정확 예측도 15.5% 15.6% 14.6% 17.1% 16.1%

선택한 파라미터를 바탕으로 생성한 모형의 분류 정확도를 살펴보면, 검 정 모형에서 실제 구독의도가 있는 사람을 구독의도가 있다고 분류할 가능 성이 89%, 구독의도가 없는 사람을 구독의도가 없다고 분류할 가능성이 80%로, 전반적인 신경망의 정확도는 84.3%로 나타났다. 즉, 본 연구에서 생성한 신경망 모형이 크리에이터의 언어적·비언어적 특성을 바탕으로 시 청자가 해당 채널을 구독할 것인지 구독하지 않을 것인지 예측하는 데 있어 84% 정도의 정확도를 보인다는 것을 의미한다. 구체적인 수치는 <표 4- 27>과 같다.

132

<표 4-27> 파라미터를 적용한 인공 신경망 모형의 예측 정확도 표본 예측

관측 구독의도 없음 구독의도 있음 정확도

학습

구독의도 없음 80 19 89.5%

구독의도 있음 14 122 89.7%

비율 40% 60% 89.6%

검정

구독의도 없음 32 8 80.0%

구독의도 있음 7 54 88.5%

비율 38% 62% 84.3%

마지막으로 생성한 인공 신경망으로부터 연구 문제 7의 검정을 위해 변 수 중요도(feature importance)를 확인하였다. 인공 신경망의 장점 중 하나 인 중요도 산출은 인공 신경망 모형의 투입변수의 중요도를 확인할 수 있다 는 점이다. 중요도 분석 결과는 <표 4-28>과 같다. 분석 결과를 살펴보면, 크리에이터의 6가지 커뮤니케이션 특성 중 감정이입(.422)이 가장 중요한 역할을 하는 것으로 나타났으며, 이어서, 주장 설득력(.183)이 중요한 것으 로 나타났다. 이어서 신체언어(.119), 의사언어(.111), 신체외형(.102), 전 문성(.059) 순으로 낮게 나타났다. 이러한 결과는 앞서 경로 효과를 분석한 결과와 비교했을 때 일치하는 부분과 일치하지 않는 부분이 존재한다. 두 분석 결과 모두 감정이입이 가장 중요한 변수로 나타났으나, 그 외의 부분 의 경우 결과가 서로 상이하다. 이 부분에 대한 자세한 논의는 제5 장 결론 및 논의 부분에서 자세하게 다루도록 하겠다. 또한 인공 신경망 분석 결과 만을 고려했을 경우에, 크리에이터의 비언어적 커뮤니케이션 보다는 언어적 커뮤니케이션이 시청자의 채널 구독에 더욱 중요한 요인이지만 크리에이터 의 전문성은 시청자의 채널 구독에 큰 영향을 미치지 않는다는 것을 확인할 수 있었다.

133

<표 4-28> 투입 변수의 중요도와 정규화 중요도

구분 투입변수 중요도 정규화 중요도

언어적 커뮤니케이션

전문성 0.059 14.2%

주장 설득력 0.183 43.5%

감정이입 0.422 100%

비언어적 커뮤니케이션

신체언어 0.119 28.4%

의사언어 0.111 26.5%

신체외형 0.102 24.1%

Note: 정규화 중요도는 감정이입 중요도가 100일 때 다른 변수의 상대적 중요도임

134

제 5 장 결론 및 제언

제 1 절 요약 및 결론

유튜브 플랫폼은 채널을 개설하고 동영상을 업로드할 수 있는 공간을 제 공한다. 자신의 채널을 개설하고 영상을 업로드하는 사람을 크리에이터라고 하며, 크리에이터는 자신이 업로드한 영상 중간에 노출되는 광고를 통해 수 익을 창출한다. 즉, 많은 사람들이 영상을 시청할수록 더욱 많은 수익을 창 출할 수 있기 때문에 영상의 조회 수는 곧 크리에이터의 수익과 직결된다.

하지만 크리에이터가 업로드하는 영상이 매번 대중들에게 인기를 끌기란 쉽 지 않으며, 업로드하는 영상의 주제, 내용 등에 따라 영상의 조회 수는 매 번 달라진다. 따라서 안정적인 영상 조회 수를 보장해주는 채널의 구독자 수는 크리에이터에게 중요하다. 크리에이터는 자신 채널의 구독자 수를 늘 리기 위해 자극적인 영상을 제작하거나, 단순 화제성 영상을 제작하기도 한 다. 패션 관련 주제를 다루는 크리에이터에게 있어 명품 하울 영상은 대표 적인 화제성 영상이라 할 수 있다.

명품 하울 영상은 일반인이 구입하기 쉽지 않은 금액의 명품을 대량으로 구매하여 시청자들에게 인증하고, 나아가 구매한 제품의 개봉(언박싱)과 제 품에 대한 품평(리뷰)를 제공하는 영상을 의미한다. 명품 하울 영상은 다른 패션 관련 영상에 비해 월등히 높은 조회 수를 보이는데, 정작 크리에이터 는 명품 하울 영상의 화제성으로 유입된 시청자를 자신 채널의 구독자로 만 들지 못하고 있는 실정이며, 시청자들이 명품 하울 영상의 어떤 부분으로부 터 해당 영상의 채널을 구독하게 되는지에 대한 시청자 내적 알고리즘은 베 일에 감싸여 있다. 이에 크리에이터는 전문 지식 습득, 효과적인 정보 전달

문서에서 PDF Disclaimer (페이지 142-157)