제 13장 회귀 및 상관
충북대학교 농업생명환경대학 지역건설공학과
실 험 통 계 학
맹 승 진
13.1 회귀
• 서로 속성이 전혀 다른 두 변량의 관측치가 표본의 각 요소에서 서로 대립 되어 표본은 각각 한쌍의 관측치로 되어있는 경우, 이들 두 관측치를 구성 하는 두 변량의 관계를 다루고자 함
• 한 변량의 변이가 다른 변량의 변이에 좌우되는 경우 전자를 종속변량 (Dependent variable)이라 하며 후자를 독립변량(Independent variable)이 라 한다.
13.1-1 회귀의 정의
13.1 회귀
13.1-1 회귀의 정의
• 두 변량을 각각 독립변량(x) 종속변량(y)으로 하여 두 변량간의 관계를 하나 의 대표식으로 나타내는 것을 말한다.
• 두 변량간의 관계를 간단한 일차방정식으로 나타낼 때 직선회귀 (Iinear regression)라 한다.
13.1 회귀
13.1-2 직선회귀방정식
• 관측점과 이에 대응하는 회귀선상의 점간의 편차의 자승합계가 최소가 되 도록 하여 얻은 직선을 회귀직선이라고 한다
• 독립변수 Xi에 대한 관측치를 Yi라 하고 회귀에 의한 추정치를 라 하면 회귀 방정식에서의 두 변수는 a와 b는 관측치와 추정치간의 오차의 자승합계(SS) 가 최소가 되도록 하는 값이 여야 한다
13.1 회귀
13.1-2 직선회귀방정식
13.1 회귀
13.1-3 회귀의 적합도 검정
• 두 변량 X, Y 간의 관계를 회귀식으로 나타내었을 경우, 독립변수 Xi에 대한 관측치 Yi와 회귀에 의한 추정치 Yei가 서로 잘 부합하는지 검정하여야 한다
• 이를 검정하는 방법으로는 회귀에 의한 추정치 Yei가 나타내는 분산과 오차 Ydi가 나타내는 분산을 비교하는 분산분석법과 회귀식의 기울기에 통계량 b의 모수 라 할 때 의 귀무가설을 t검정법을 이용하여 가설 검정하는 법 두 가지가 있다
13.1 회귀
13.1-3 회귀의 적합도 검정
• 대립가설 채택 → 이 회귀는 유의한 회귀이다.
즉 두 변량 X, Y 간에는 함수관계가 안정된다.
13.1 회귀
13.1-3 회귀의 적합도 검정
• t 검정에 의한 회귀의 적합도 검정 귀무가설
13.1 회귀
13.1-3 회귀의 적합도 검정
• 양측검정이 가능한 분포 : Z 분포와 t 분포
• 회귀의 신뢰구간
13.1 회귀
13.1-3 회귀의 적합도 검정
• 회귀의 신뢰구간
13.2 상관
13.2-1 상관
• 두 변량이 각각 독립변량일 경우, 두 변량간의 관계를 함수식으로 나타내 기는 불가능하며, 다만 두 변량이 어느 정도 서로 관계되어 있는가 하는 관 련성의 정도만을 추구할 수 밖에 없다
• 두 변량간의 관련성을 상관(Correlation)이라고 하며 두 변량이
서로 관련되어 있는 정도를 공분산(Covariance)을 이용하여 산출한 통계량을 상관계수(Correlation coefficient)라 한다
13.2 상관
13.2-1 상관
• 상관의 정도
- 정의 상관 (+) - 부의 상관 (-)
• 상관계수의 측정
• 자유도 : n - 2
13.2 상관
13.2-1 상관
• 상관계수의 범위와 유의성 검정 (F검정, T검정)
- F 검정
오차의 자유도 n-2 , 회귀의 자유도 1
13.2 상관
13.2-1 상관
• 상관계수의 범위와 유의성 검정 (F검정, T검정)
- T 검정
대립가설 채택 → 유의한 (양&음)의 상관이 인정된다
13.3 절대상관과 수위상관
13.3-1 절대상관
• 상관계수를 자승한 값 을 절대상관 혹은 결정계수(Cofficient of determination)이라 한다
• 상관계수 의 값은 0과 1 범위 (0 1)에 존재하는 값으로 두 변량 상호간의 상 관계수만을 표시할 때만 이용한다
13.3 절대상관과 수위상관
13.3-1 절대상관
• 실측치가 회귀에 가까우면 상관계수는 은 1에 가깝고 실측치와 이에 대응하는 회귀에 의한 추정치 간의 오차가 크면 클수록 상관계수은 0에 가깝게 된다.
• 를 이용한 회귀의 분산분석법
• 절대상관 F값을 구하는 식은 로 자유도는 (1, n-2)로 F 분포를 만족한다
13.3 절대상관과 수위상관
13.3-2 순위상관
• 두 변량이 모두 측정치가 아니고 측정한 결과를 단순히 순위로만
표시하였을 때 순위로 표시된 두 변량간의 관련성을 나타내는 방법으로 순위상관(Rank correlation)을 이용한다.
13.3 절대상관과 수위상관
• 다음 두 변량 X, Y 간의 회귀계수와 결정계수를 구하고 결정계수를 이용하 여 회귀계수에 대한 적합도를 검정한다
13.3-3 회귀계수에 대한 적합도 검정 예제
위의 계산에서 얻은 값으로 회귀계수와 결정계수를 구하면,
이 된다
13.3 절대상관과 수위상관
13.3-3 회귀계수에 대한 적합도 검정 예제(풀이)
• F값을 구하면 다음과 같다
위에서 구한 F값을 자유도 (1, 6)인 F-분포 위험치와 비교하면
F값이 1% 유의수준의 위험치보다 크므로 이 회귀는 고도로 유의한 회귀이 다 라고 결론을 내린다
13.3 절대상관과 수위상관
13.3-3 회귀계수에 대한 적합도 검정 예제(풀이)