• 검색 결과가 없습니다.

R 단순회귀모형2I. 함수를이용한추정및가설검정

N/A
N/A
Protected

Academic year: 2021

Share "R 단순회귀모형2I. 함수를이용한추정및가설검정"

Copied!
8
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

R 단순회귀모형 2 1

I. 함수를 이용한 추정 및 가설검정 II. 함수를 이용한 예측

III. 모형의 응용

(2)

Ⅰ. 함수를 이용한 추정 및 가설검정 2

b2-ch2-2-rev.R x<-c(2,3,4,5,6)

y<-c(4,4,6,6,10) x;y

lm(y~x) ols<-lm(y~x) summary(ols)

confint(ols)

- lm함수는 회귀모형을 추정

- summary함수는 lm 추정결과의 상세내용을 보여줌

∙ 회귀계수 추정

∙ 교란항의 분산 및 회귀계수의 분산 추정

∙ 결정계수 추정

- confint함수는 회귀계수의 구간 추정

(3)

3

b2-ch2-2-rev.R 앞에서 계속

plot(y~x, xlim=c(0,7),ylim=c(0,10)) abline(lm(y~x))

library(predict3d)

ggPredict(ols,show.error=T)

- plot함수는 산포도를 그림

- abline함수는 좌표에 직선을 그리는데 추정회귀선을 그림

- Predict3d 패키지의 ggPredict함수를 이용하면 추정회귀식과 잔차를 보여줌

(4)

4

b2-ch2-2-rev.R

앞에서 계속

library(tigerstats) par(mfrow=c(2,1))

ptGC(c(-3.656,3.656),region="outside",df=3,graph=T) ptGC(c(-3.182,3.182),region="outside",df=3,graph=T)

- lm 추정결과에서 가설검정 결과를 알 수 있음 - 기울기 회귀계수의 t-값은 3.656이고 pr(>|t|)

값은 0.0354임

- 자유도가 3인 t-분포에서 5% 유의수준 임계값 은 3.183임

- 그림에서 보듯이 pr(>|t|) 값이 0.05보다 작으 면 5% 유의수준 하에서 귀무가설을 기각

(5)

Ⅱ. 함수를 이용한 예측 5

b2-ch2-2-rev.R 앞에서 계속

predict(lm(y~x))

new<-data.frame(x = 7)

predict(lm(y~x), new, se.fit = TRUE)

pred.w.plim <- predict(lm(y ~ x), new, interval = "prediction") pred.w.plim

pred.w.clim<-predict(lm(y ~ x), new, se.fit=T, interval = "confidence") pred.w.clim

- predict함수는 주어진 설명변수 값으로 종속변수 값을 예측

(6)

6

- 예측오차 분산에 대한 해석

∙ 표본의 크기(n)가 커질수록 예측오차의 분산이 작아짐 즉, 관측자료가 많을수록 좋은 예측을 할 수 있다

∙ 교란항의 분산이 커질수록 예측오차의 분산이 커짐

즉, 원래 회귀모형에서 불확실성이 커서 교란항의 분산이 크면 예측이 어려울 수밖에 없음

∙ 독립변수의 표본평균으로부터 멀어질수록 예측오차도 커짐

즉, 예측에 주어진 독립변수의 값이 평균으로부터 멀어질수록 표본회귀함수의 예측력은 크게 감소

(7)

7

b2-ch2-2-graph.R advt<-c(2,3,4,5,6)

sales<-c(4,4,6,6,10)

data<-data.frame(advt,sales)

ols<-lm(sales~advt) summary(ols)

predict(lm(sales~advt))

new.advt<-data.frame(advt = 7) predict(ols, newdata=new.advt)

predict(ols, newdata=new.advt, interval = "confidence") predict(ols, newdata=new.advt, interval = "prediction")

pred.int <- predict(ols, interval = "prediction") mydata <- cbind(data, pred.int)

library("ggplot2")

p <- ggplot(mydata, aes(advt, sales)) + geom_point() +

stat_smooth(method = lm)

p + geom_line(aes(y = lwr), color = "red", linetype = "dashed")+

geom_line(aes(y = upr), color = "red", linetype = "dashed")

(8)

Ⅲ. 모형의 응용 8

b2-ch2-3.R x<-c(2,3,4,5,6) y<-c(4,4,6,6,10) lx<-log(x) ly<-log(y) rx<-1/x lm(y~x) ols1<-lm(y~x) summary(ols1)

lm(ly~lx) ols2<-lm(ly~lx) summary(ols2) library(predict3d)

ggPredict(ols2,show.error=T)

lm(y~rx) ols3<-lm(y~rx) summary(ols3)

ggPredict(ols3,show.error=T)

lm(ly~x) ols4<-lm(ly~x) summary(ols4) lm(y~lx) ols5<-lm(y~lx) summary(ols5)

참조

관련 문서

• t-분포는 표준정규분포보다 분산이 크므로 표준 정규분포와 비슷하나 표준정규분포보다 양쪽 꼬 리부분이 두텁고 가운데 부분의 높이가 낮다... 이것이 단점이기

71) 강제채혈의 경우 주사를 잘못 놓은 경우 등 극히 이례적인 경우를 제외하고는 건강훼손의 위험이 통상적으로 발생하지 않는다는 점에서 강제채뇨(삽관을 함으로

적절한 표본추출 방법을 사용하면 , 표본의 결과는 모집단 특성에 대한 좋은 추정치를 제공할 수 있다.. 적절한 표본추출 방법을 사용하면 , 표본의 결과는 모집단

디지털

정규분포를 이루지만 모집단의 분산을 모르는 경우 표본의 크기 가 작을 때에는 t 검정을 이용하여 두 표본 평균간의 차에 대한 유 의성을 검정.. 서로

표본의 크기 n이 크면, 평균 μ, 표준편차 σ인 모집단 에서의 확률표본에 대하여 의 분포는 평균 μ이고 표준편차 인 정규분포와 근사하게 된다..

 품질을 희생하지 않고 시스템 개발을 할 수 있도록 고안된 개발 생명주기.  가급적 초기 단계부터 최종 사용자의 참여가 많으면 많을수록 시스템

음파가 1초간 진동수 표현 단위.. 진동수 가