3. 기존연구: 한국어의 음소배열제약
3.4. 논의
3.4.1. 기존 음소배열제약 탐색 방법의 한계
다수의 기존연구가 한국어 음소배열제약 및 연쇄 빈도를 보고하였으나, 한국 어 화자의 비범주적 적형성을 파악하기에는 미비하였다. 기존연구의 한계점은 크게 두 가지로 보인다.
첫째, 특정 연쇄의 관찰 빈도가 기준 빈도(기대 빈도)보다 낮다는 것만이 서술 될 뿐 빈도의 회피/선호에 대해 통계적 검증이 충분히 진행되지 않았다. 때문에, 연쇄 빈도를 바탕으로 기술된 경향을 그대로 유의미한 제약으로 보기 어렵다.
앞서 다룬 연쇄들은 대부분 상대 빈도 또는 O/E비율을 통해 과소 표상성(under- represented)이 계량화되었다. 그러나 2.2절에서 보았듯이, 두 기술 통계량이 가 정하는 기준 빈도 및 기대 빈도는 음소 위치 및 계산 방향 등에 따른 문제가 있 어 각 결과값이 음소 간 제약성을 적절히 나타낸다고 보기 어렵다.
둘째, 일반화의 단위가 연구자마다 다르다. 대부분의 연구자들은 분절음 단위 빈도를 조사하였고, 포함된 자연 부류를 기준으로 삼은 연구도 있다. 유재원
(1997)이 자질을 단위로 일반화를 시도하였으나 자질 선택이 임의적이다. 이에
따라, 선호/회피가 파악된 연쇄도 있었으나, 별다른 선호와 회피를 보이지 않는
51
조합도 다수 기술되었다. 양적인 정보에 따라, 적절한 자연 부류를 포착할 수 있 는 기제가 필요하다.
3.4.2. 한국어 화자의 비범주적 적형성
한국어 화자의 비범주적 적형성은 일부 연구에서 부분적으로 시사되었다. 다 수 심리언어학적 연구(예: 권유안 2006, 구민모 외 2012)는 음절 빈도 및 음절 의 이웃 단어의 수에 따라, 화자의 음운 정보 처리가 다름을 보였다. 그러나 음 운론적으로 유의미한 연쇄 및 연쇄의 위치에 대해서는 충분히 고려되지 않아, 언어 처리(language processing) 이상의 체계적인 적형성 인식까지 직접적으로 보 여준다고 보기 어렵다.
한편, Lee & Goldrick (2008)은 연쇄 분포와 이에 대한 한국어 화자의 인식을 조사하고, ‘음절하위 구성소’의 심리적 실재를 주장하였다. 비단어에 대한 ‘단기 기억 과제(short-term memory task)’를 진행하고, 이 과제 응답과 한국어 [음절두 음][모음]과 [모음][음절말음]의 빈도가 관계가 있다는 것을 보인다. 나아가 과제 응답이 [음절두음][모음]의 빈도를 [모음][음절말음]의 빈도보다 민감하게 반응한 다는 것을 제시하여, ‘음절하위 구성소’의 심리적 실재를 뒷받침하고자 하였다.
그러나 연쇄 빈도에 따른 비범주적 인식은 ‘[음절두음][모음]’의 표상을 상정하는 것만으로는 충분히 포착되기 어렵다.
이러한 시도와 달리, 보편적 문법 제약에 기반한 비범주적 인식이 보고되기도 하였다. Berent et al. (2008)은 (61)과 같이 한국어에서 발생 빈도가 0인 어두 자 음군에 대한 비범주적 인식을 밝혔다.
(61) 공명도에 따른 어두 자음군 유형
a. blif (공명도의 높은 상승), bnif (공명도의 낮은 상승) b. bdif (공명도 동일), lbif(공명도의 하강)
Berent et al. (2008)은 공명도 수준에 따라 네 가지 유형의 어두 자음군을 구성 하고, 한국어 화자를 대상으로 지각 조사를 진행하였다. 그 결과, 공명도 상승 정도가 크지 않은 어두 자음군을 오지각할 확률이 공명도 상승 정도가 큰 어두 자음군을 오지각할 확률보다 크다는 것을 밝혔다(lbif < bdif < bnif < blif). 이를
52
통해, 한국어 화자가 공명도 투사 원리에 따라 발생 빈도가 0인 연쇄들에 대해 서 비범주적으로 적형성을 인식할 수 있다는 것을 보였다.
이상의 연구를 바탕으로, 보다 체계적이고 구체적인 음소배열제약을 산출할 수 있는 모델에 근거하여 한국어 화자의 비범주적 적형성을 종합적으로 파악할 필요가 있다.
3.4.3. 최대 엔트로피 음소배열제약 모델의 도입 필요성
기존연구에 대한 검토를 통해, 한국어 음소배열제약 탐색을 위한 최적의 모델 두 가지 조건을 파악할 수 있다. 첫 번째 조건은 통계적 방법에 근거한 계산 및 일반화를 할 수 있어야 한다는 것이고, 두 번째 조건은 발생 빈도가 0인 연쇄를 포함하여 한국어 화자의 비범주적 적형성을 구체적으로 예측할 수 있어야 한다 는 것이다. 이 연구는 이러한 조건에 모두 부합하는 모델로서, 최대 엔트로피 음 소배열제약 모델을 채택한다. 이 모델은 어휘부 내 회피 경향을 통계적 제약으 로 포착할 수 있어, 기존에 밝혀지지 않거나 인상적(impressionistically)으로 제 시된 제약의 실재에 다가갈 수 있다.
앞서, Cho (2012)는 최대 엔트로피 음소배열제약 학습 모델을 이용하여 한국어 음소배열제약을 탐색한 바 있다. Cho (2012)의 학습 자료는 ‘한국어 학습용 어휘 선정 결과 보고서’(조남호 2003)에서 추출한 5,702개의 단어로 구성되었다. 해당 단어들의 품사를 살펴보면, 명사, 동사, 형용사 등이 포함되었는데 명사가 3,404 개로 가장 비중이 크다. 어종별로 살펴보면, 고유어와 한자어가 비슷한 비중으로 어휘부의 대부분을 차지한다(고유어 2,399개, 한자어 2,474개, 고유어와 한자어 혼종어 829개). 투사 자질 층위는 따로 설정되지 않았고 제약의 길이는 최대 두 자질 매트릭스의 결합으로 제한하였다.
위와 같이 학습한 결과 얻어진 Cho (2012)의 문법은 기존연구에서 보고된 제 약들을 모두 포함하였으며, 기존에 포착하지 못한 저빈도 연쇄도 제약으로 학습 하였다. 즉, 음소배열제약의 기계 학습을 통해 한국어 어휘부에서 발생하는 연쇄 와 발생하지 않은 연쇄에 대한 비범주적 인식을 예측할 수 있었다. 또한, Cho
(2012)에서는 최대 엔트로피 음소배열제약 모델 학습에서 발생할 수 있는 문제
를 언급하고 이러한 문제를 해소할 수 있는 방안을 제시하였다.
53
다만, Cho (2012)의 음소배열제약 학습은 투사 자질 층위를 따로 설정하지 않 았기 때문에 비인접 제약을 포함하지 않았으며, 고유어와 한자어 문법의 개별적 인 특징이 고려되지 않았다. 그리고 예측된 비범주적 인식에 대한 적형성 판단 조사가 진행된 것은 아니다.
이러한 배경에서, 이 연구는 고유어와 한자어 어휘부를 구분하고 비인접 연쇄 를 탐색할 수 있는 최대 엔트로피 음소배열제약 모델을 적용한다. 고유어와 한 자어 어휘부에서 보이는 회피 경향을 효과적으로 포착하며, 이에 대한 한국어 화자의 비범주적 인식을 밝히고자 한다.
55