• 검색 결과가 없습니다.

통계분석의 이론적 고찰

문서에서 저작자표시 (페이지 134-139)

자료를 수집하는 과정이다.

두 번째는 정의한 변수에 대한 상관관계를 분석하는 단계(Variables correlation analysis)이다. 이는 한 변수가 커지거나 혹은 작아질 때, 다른 변수의 변화 정도와 방향을 살펴봄으로써 변수 간의 관련성을 분석하고, 상관관계가 낮은 변수는 분석에서 제외함으로써, 회귀분석 실시 이전에 오류를 차단하기 위해 실시하는 과정이다.

마지막으로 회귀분석(Regression analysis)을 실시하여 정박지 용량 설계기준을 도출하고, 이 모델에 대한 유의성 검증(Verification)을 통해, 설계기준으로서 적합한 경우 실제 항만에 이를 적용(Application)하는 단계이다.

이러한 정박지 용량기준 제시를 위한 절차에 따라 회귀분석을 실시하고, 미래 항만 상황에 따른 필요 정박지 용량을 제시하여, 정박지 규모의 적정성을 분석하였으며, 그 내용은 다음과 같다.

관계의 척도로서 Pearson 상관분석 또는 단순 상관분석이라고 부르며, 일반적으로 상관계수라 하면 Pearson 상관계수를 뜻한다. 이 상관계수 은 식 (20)을 통해 도출한다(이병훈, 2012).

  

 

  

 ×     

 

 

  

  

(20)

여기서,  : 표본크기

두 변수 간의 모집단 분포에서의 상관계수 이 취하는 범위는 -1.0에서 +1.0사이에 있게 된다. 상관계수 이 -1.0 <  < 0의 범위에 있을 때는 음 상관이라고 하고, 0 <  < 1.0의 범위이면 양상관이라고 한다. 상관계수가 0이면 무상관이라고 하며,  =1.0이면 완전상관이라 한다.

본 논문에서는 Pearson 상관계수를 이용하여 변수 간의 상관관계를 분석하고, 상관계수의 유의수준이 0.05 이하 기준을 만족하는 변수를 추출하여 회귀분석에 이용하였다.

5.1.2 다중회귀분석

회귀분석은 독립변수(Independent Variable)와 종속변수(Dependent Variable) 간의 관계를 검증하여 독립변수가 종속변수에 미치는 영향력을 알아보거나, 독립변수의 변화에 따라 종속변수의 변화를 예측하기 위해서 사용되는 통계적 분석방법이다. 회귀분석은 독립변수의 개수에 따라 독립변수가 한 개인 경우에는 단순 회귀분석(Simple Regression Analysis), 둘 이상인 경우는 다중 회귀분석(Multiple Regression Analysis)이라 한다. 단순 회귀모형은 하나의 독립변수와 종속변수로 구성된다. 그러나 실제로 단일 요인에 의해서 결정되는 현상은 매우 드물며, 대부분 인과관계 구조는 여러 요인들로 복잡하게 얽혀

있기 마련이기 때문에 다수의 독립변수를 모형에 포함시키는 다중 회귀분석이 불가피해진다. 이러한 다중 회귀분석은 오차분산(Error Variance)을 줄이고 종속변수에 대한 보다 충실한 설명이나 예견이 가능하고, 다른 독립변수의 값을 통제한 상태에서 특정 독립변수가 종속변수에 독립적으로 행사하는 영향력을 측정할 수 있으므로, 각 독립변수가 종속변수에 미치는 효과의 상대적인 비교보다 정밀한 인과관계의 분석이 가능하다는 장점을 가진다. 즉, 회귀분석기법은 가능한 모든 자료를 사용하여 통계적인 추론을 가능하게 한다는 특징을 가지고 있으며, 다른 기법에 비해 정확한 추정 및 예측의 틀을 제공할 수 있다는 장점이 있다(김윤식, 2010).

독립변수의 수가 개인 다중회귀 모형의 기본식은 식 (21)과 같이 표현된다.

    ···      (21)

단,     : 모집단의 회귀계수(Standardized Beta Coefficient)

   : 독립변수  : 오차항

다중 회귀분석에서 독립변수를 선정하는데 필요한 과정은 크게 3가지로 구분된다. 첫 번째는 종속변수에 영향을 미치는 독립변수가 통계적으로 유의한지를 판단하는 과정이다. 해당 변수가 통계적으로 유의한지를 검정하기 위해서는 해당 독립변수가 통계적으로 활용이 가능하도록 데이터를 선형적 관계에 있는지 확인하고, 비선형적 관계에 있는 경우 선형화가 가능하도록 척도 등을 수정하여 독립변수 데이터 그룹으로 활용을 하게 된다. 두 번째는 변수간의 상관관계 분석 및 종속변수와의 관계를 검토하여 비합리적인 변수는 제거하는 단계이다. 다중 회귀분석의 가장 큰 특징은 여러 가지 독립변수가 하나의 종속변수에 미치는 그 영향의 확인이 가능하다는 점인데, 여기서 전제조건은 각 독립변수가 하나의 종속변수에 일정 이상 동일한 영향을 미치는

경우에는 다중회귀식의 성립이 어렵다는 점이다. 세 번째는 이러한 독립 변수를 제거한 후 최종적인 독립변수 세트를 결정하고, 다양한 다중 회귀분석의 방법을 통해 회귀식을 완성하게 되는 것이다(김진언, 2014).

다중 회귀분석에서 독립변수를 투입하는 방법은 크게 선택 입력방식, 전진 입력방식, 후진 입력방식 및 단계적 입력방식으로 구분할 수 있으나, 본 논문에서는 다른 독립변수들이 통제된 상태에서 특정 독립변수의 영향력을 알 수 있고, 연구자가 고려하는 모든 독립변수들이 종속변수의 설명 정도를 동시에 확인할 수 있는 모두 입력방식(All positive selection)을 사용하였다.

5.1.3 회귀식 검증 방법

5.1.3.1 다중 공선성(Coefficient of correlation)

회귀분석을 이용하여 모형을 구축할 때, 기본적인 가정 중 하나는 독립변수들이 확률변수가 아닌 상수변수라고 가정하므로 입력변수들은 서로 독립성을 가지고 있다는 것이다. 이러한 가정이 무시될 때 발생하는 문제점이 바로 다중 공선성의 존재 여부이다(박지훈, 2010).

필요 정박지 용량 설계기준 수립을 위한 예측모형을 구축할 때 사용되는 독립변수들은 서로 상관관계가 존재한다. 이러한 상관관계가 매우 높은 독립변수를 동시에 사용한다면, 예측모형의 적합성은 높아지겠지만 통계적인 의미를 갖지 못할 수도 있다. 따라서 이러한 회귀분석에서 다중공선성 문제를 해결하기 위해 분산팽창계수(VIF: Variance Inflation Factor)를 확인하는 것이다(이종록, 2016). 일반적으로 분산팽창계수 값이 통상적으로 10 이상이면 다중 공선성이 있다고 판단하며, VIF의 역변환 값인 허용치(Tolerance)는 0.1보다 작으면 다중 공선성이 있다고 판단한다.

5.1.3.2 결정계수

결정계수(Coefficient of Determination)는 종속변수에 대한 독립변수의 설명력의 크기를 나타낸다. 즉, 종속변수의 분산 중에서 회귀식으로 설명되는

분산의 비율을 의미하며, 결정계수를 산정하기 위한 수식은 식 (22)와 같다.

 



 



   

 (22)

여기서  : 결정계수

 : 편차의 총 제곱합

 : 회귀식으로 설명된 회귀 제곱합  : 설명 안 된 오차의 제곱합

결정계수는 종속변수의 총 변동에 대한 독립변수들의 설명력의 크기를 나타내는 척도이기 때문에  ≤≤ 의 범위를 갖게 된다. 결정계수 의 값이 1에 가까울수록 독립변수의 설명력이 크고 추정된 회귀식의 적합도가 높다는 것을 의미하며, 반대로 0에 가까워질수록 설명력이 약해지고 적합도도 떨어지게 된다(강남준과 김두섭, 2008).

정박지 용량 설계기준 수립을 위한 회귀분석 시 결정계수의 판단기준은 계수가 0.6 이상일 때 모델의 유용성이 확보된 것으로 판단하였다.

5.1.3.3 유의수준 검증

다중회귀모형에서 값이 유의하게 나온다면 두 개 이상의 독립변수가 종속변수를 통계적으로 유의하게 설명한다는 것을 의미하며, 여기서 값은 회귀식 자체가 유의한가를 확인하는 것이다. 그러나 값만으로 어느 독립변수가 통계적으로 유의한 독립변수인지 알 수 없기 때문에 다중회귀모형 에서는 각 회귀계수들에 대한 유의수준 검증이 필수적으로 이루어져야 한다(김재호, 2013). 여기서, 유의수준이란 잘못 판단할 가능성의 최대허용 한계치를 의미하며, 회귀계수의 유의수준(Significance Level)은 확률로 표현된 신뢰구간을 통하여 검증한다.

정박지 용량 기준 수립을 위한 회귀분석에서는 회귀계수에 대한 유의수준이 0.05 이내일 경우 통계적으로 유의하다고 판단하였다.

5.1.3.4 오차항의 독립성 검정

오차항 간에 상관관계가 존재하여 변수의 독립성이 만족되지 않을 경우, 이를 자기상관(autocorrelation)이라고 한다. 이러한 오차항의 독립성 검증은 Durbin-Watson 통계량에 의하여 검정하며, 그 기준은 아래와 같이 계수가 2에 가까울수록 자기상관이 없으며, 0과 4에 가까울수록 각각 양과 음의 자기상관이 존재한다고 본다.

Durbin Watson 계수가 0에 가까울 경우 : 양의 자기상관이 존재 2에 가까울 경우 : 자기상관이 없음 4에 가까울 경우 : 음의 자기상관이 존재

정박지 용량 설계기준 수립을 위한 회귀분석 시 Durbin-Watson 계수가 1∼3 사이일 때 오차항의 독립성을 만족한다고 판단하였다.

문서에서 저작자표시 (페이지 134-139)