• 검색 결과가 없습니다.

  → 

(식 3)

2. 연관규칙 분석결과

주제, 데이터 그리고 방법론에 해당하는 단어를 중심으로 연관규칙을 찾기 위해 앞서 설명한 Apriori 알고리즘을 적용한다. 실증분석 결과는 통계패키지 R의 arules 라이브러 리를 사용하여 얻었다. 분석툴로는 R의 open source library인 arules를 이용하여 분석하 였다. arules 패키지는 Hahsler(2018)에 의해 개발되었다. 저자들이 미리 선정한 주제 (97개), 데이터(93개) 그리고 방법론(53개)에 해당하는 단어를 각 논문이 어느 정도 포 함하고 있는지 먼저 확인하였다. 2,377편 논문 중 미리 분류해 놓은 키워드를 하나도 포함하지 않은 논문의 수는 141편이다. 따라서 2,377편에서 141편을 제외한 2,236편에 서 연관규칙을 도출하기로 한다. 1개 단어만을 포함한 논문은 455편(20.2%), 2개 단어 를 포함한 논문은 576편(25.7%) 그리고 3개 단어를 포함한 논문은 477편(21.3%)이다.

최대 10개 단어를 포함한 논문은 2편 찾을 수 있었다. 대부분의 논문에서 1개~3개의 단어를 포함하고 있다는 것을 알 수 있다. 그림 5에서는 243개 단어 중에서 출현빈도, 즉 지지도가 가장 높은 10개 단어를 제시한다. “노인” 출현빈도는 394번으로 가장 높다.

다음으로는 “고용경제”가 295편 논문에서 나타난다. 방법론 중에서 “설문조사”가 252편

11) 식 2와 식 3의 정의를 이용하면   임을 쉽게 보일 수 있다.

에서 나타난다. <표 3>(주제), <표 5>(방법론), <표 6>(데이터)에서 상위권에 있는 단어 들이 [그림 5]에서도 나타난다.

그림 5. 출현빈도 상위 10개 단어

Apriori 알고리즘을 실행하기 위해서는 지지도와 신뢰도 최솟값을 미리 정해야 한다.

본 연구에서는 지지도=0.5% 그리고 신뢰도=25%를 최솟값으로 정하였다.12) 또한 연관 규칙은 두 개 이상 단어들의 조합으로 표현되어야 한다. 따라서 연관규칙을 구성하는 최소 단어 수는 2개로 설정한다. R 코딩결과 위의 3가지 기준을 만족한 연관규칙은 모두 78개를 찾을 수 있다. 78개 연관규칙 중 의미 있는 연관규칙은 69개로 판단하였다.

표 9에서는 의미 있는 연관규칙 중 향상도가 높은 순으로 10개를 제시한다.

12) 최소 지지도 0.5%를 만족하기 위해서는 해당 단어조합이 전체 논문 2,236편 중 11편 이상에서 출현해야 한다. 지지도를 너무 높게 설정하면 연관규칙이 발견되지 않거나 연관규칙의 수가 너무 적은 문제가 발생할 수 있다.

표 9. 상위 10개 연관규칙: 향상도 기준

<표 11>에서는 최근 사회복지학 분야에서 많이 사용되는 복지패널과 관련된 연관규 칙을 정리하여 보여준다. 의미 있는 연관규칙 중에서 향상도 기준으로 3개 연관규칙을 제시한다. 1번과 2번에서 복지패널 데이터를 이용하여 빈곤과 소득에 대한 논문을 발견 할 가능성이 크다는 것을 예상할 수 있다. 또한 3번 연관규칙을 통해 복지패널 데이터를 이용한 방법론은 다항로짓 모형을 많이 사용하고 있다는 것을 알 수 있다.

표 11. 복지패널 관련 연구경향: 2개

순위 LHS RHS support confidence lift

1 {복지패널, 소득} {빈곤} 0.0053 0.480 5.83

2 {복지패널, 빈곤} {소득} 0.0053 0.315 4.08

3 {다항로짓} {복지패널} 0.0058 0.265 3.59

<표 12>에서는 방법론 중에서 “구조방정식”을 포함한 연관규칙을 제시한다. 구조방 정식 모형은 매개_회귀분석과 연관될 가능성이 매우 크고 우울과 청소년을 주제로 정한 논문에서 활용될 가능성이 크다고 해석할 수 있다.

표 12. 구조방정식 관련 연구경향: 상위 3개

순위 LHS RHS support confidence lift

1 {구조방정식, 우울} ⇒ {매개_회귀분석} 0.0080 0.720 9.93 2 {구조방정식, 청소년} ⇒ {매개_회귀분석} 0.0053 0.666 9.20 3 {구조방정식, 설문조사} ⇒ {매개_회귀분석} 0.0098 0.594 8.20

<표 9>부터 <표 12>까지 연관성 정도의 기준인 향상도 기준으로 의미 있는 연구경향 을 살펴보았다. 그러나 해당 단어조합이 지지도가 낮더라도 향상도는 크게 나타날 수 있다.13) 연관규칙에서는 향상도가 중요하기는 하지만 사회복지학 분야에서 최근 자주 분석되는 내용을 판단하기 위해서는 특정 단어집합의 출현 비율인 지지도 역시 의미 있는 기준이 될 수 있다. 실증분석 결과에서 도출된 109개 연관규칙을 구성하는 단어조 합 중에서 지지도 기준으로 상위 50개를 선정한다. 상위 50개의 지지도 범위는

13) 그러나 연관규칙에서 나타난 모든 단어조합은 지지도 최소값=0.5%를 초과한다.

0.6%~3.2%이고 향상도 범위는 1.74~22.13이다.

상위 50개에 포함된 연관규칙 표현하는 네트워크 그래프(network plot)를 그림 6에 서 제시한다. [그림 6]에서 지지도가 큰 연관규칙일수록 원의 크기가 커진다.14) 지지도 기준이기 때문에 최근 12년 간 사회복지학 저널에서 많이 연구되는 주제, 데이터 그리고 방법론으로 이해할 수 있다. 노인주제는 자살, 돌봄주제와 많이 연관되며, 분석방법으로 는 회귀분석, 조절_회귀분석 방법으로 논문에서 많이 분석되고 있다. 데이터로는 고령 화연구패널, 노후보장패널, 노인실태조사 순으로 사용되는 것으로 나타났다. 고용경제

그림 6. 네트워크 그래프: support 기준 상위 50개

14) 원의 크기는 지지도, 빨간색의 진한 정도는 향상도를 의미한다.

주제는 여성, 임금주제와 연관되어 자주 분석되며 노동패널이 많이 사용됨을 알 수 있 다. 연구주제로 청소년은 학교로, 보육은 출산과 연계되어 나타난다. 면접조사와 사례조 사는 모두 질적 분석방법과 연관되며, 설문조사는 사회복지 조직, 사회복지사에 대한 분석방법으로 나타난다는 것을 파악할 수 있다.

관련 문서