• 검색 결과가 없습니다.

통계 회귀분석

N/A
N/A
Protected

Academic year: 2022

Share "통계 회귀분석"

Copied!
17
0
0

로드 중.... (전체 텍스트 보기)

전체 글

(1)

Six Sigma

통계 회귀분석

 상관은 관계의 정도를 알려주지만, 이것을 정확한 수치관계로 나타내 주지는 않는다.

 연속적 데이터에 대한 적절한 분석의 최종단계는 회귀등식의 파악이다.

 회귀분석은 어느 주어진 X에 대해 Y를 수학적으로 예측할 수 있는

“예측등식”을 계산해내는 것이다.

 회귀분석의 일차적 목적은 예측을 하는 것이다.

 미니탭의 회귀등식은 단지 타전된 데이터에 가장 적합한 예측을 제시할 뿐이다.

 예측등식의 예

 Y= a + bx (선형모형)

 Y= a + bx + cx

2

+ dx

3

(입방형 모형)

(2)

Six Sigma

회귀 분석은 다음 질문을 해결한다 !!

 Y 예측 시 우리가 얼마나 훌륭하게 일을 수행할 수 있어야 하는가?

 Y에 독립적으로 높은 관련성을 갖고 있는 X들이 있는가?

 Y와 어떤 X사이에 비(非) 선형적인 관계들이 있는가?

 X변수들은 명확한가? 우리는 X가 Y를 예측하는데 상당히 좋은 역할을 한다고 얼마나 확신할 수 있는가?

 회귀 분석 방정식이 통계적으로 유효하다고 어떻게 알 수 있는가?

 모델이 이치에 맞는가? 모델이 우리가 통계적인 분석 이전에 정의 내린 추측된 관계와 맞는가?

 방정식에 X와 상관 관계를 갖고 있는 다른 X들이 있는가? 어떤 X들이 통제 가능하고 어떤 것들이 간접적 통제 가능하거나 불가능(Noise)한가?

(3)

Six Sigma

회귀분석

 단순 선형 회귀분석을 어떻게 사용할 수 있는가?

1단계: 프로세스 맵 검토

2단계: 인과 관계도(Cause & Effect Diagram)검토

3단계: 예측 모델을 개발하기 위한 당신의 능력을 평가하라

4단계: Y가 당신이 연구할 각각의 X에 얼마나 의존하는지에 대한 가설들을 제안하라

5단계: 각각의 X대 Y의 산점도를 만들어라 6단계: X들에 대한 상관 관계 연구를 하라

계속

(4)

Six Sigma

회귀분석

 단순 선형 회귀분석을 어떻게 사용할 수 있는가?

7단계: 각각의 X를 가진 독립된 단순 선형 회귀 분석을 하라 8단계: 잔차 그래프를 분석하라

9단계: 특이점 잔차들을 규명하라 10단계: 당신의 가설들을 재검토하라 11단계: 프로세스 맵을 재검토하라 12단계: 당신은 무엇을 배웠는가?

(5)

Six Sigma

단순회귀 - 적합선도

통계학>회귀>적합선 플롯

(6)

Six Sigma

단순회귀 - 통계출력

회귀 분석: Supplier 대 Customer

회귀 방정식은

Supplier = - 143.6 + 1.459 Customer

S = 23.7288 R-제곱 = 69.5% R-제곱(수정) = 67.9%

분산 분석

출처 DF SS MS F P 회귀 1 24373.1 24373.1 43.29 0.000 오차 19 10698.1 563.1

총계 20 35071.2

(7)

Six Sigma

단순회귀 - 적합선도

15 16 17 18 19 20 21

200 300 400

X

Y

Y = -532.383 + 46.0307X R-Sq = 95.4 %

Regression Plot

e

b

Scatter Plot Y vs.X with Fitted Line

Y = a + bX 단순 선형 회귀 분석(단일 X)

• X대 Y의 산점도로 시작

• 직선의 방정식은 Y = a +bX

• a는 Y-절편(x=0에서)이고 b는 기울기임

• “최적선”은 실제 자료와 직선사이의 제곱의 차이의 합을 최소화함으로써 생긴 상관 계수(a와b)를 갖고 있는 직선임

• 실제 자료 점들과 직선 사이의

차이는 잔차(residuals(e))라고 불린다.

(8)

Six Sigma

잔 차

 잔차는 오차에 대한 최상의 추정값이다. (예측할 수 없는 것을 추정)

잔차(e)는 실제 결과 값과 방정식으로부터의 최적 값 사이의 차이이다.

직선은 “최소 제곱 추정 법(least square estimation)”의

원칙에 따라 그려진다. 자료 점에서 직선(y축에 평행)까지의 거리의 제곱의 합은 최소화 된다.

오차에 대한 전제 :

평균값은 영이다

오차는 설명변수로부터 독립적이다.

오차들은 서로로부터 독립적이다.

오차들은 동일한 분산을 가질 것이다

(9)

Six Sigma

잔차 그래프와 평가

통계학>회귀>적합선 플롯>그래프

(10)

Six Sigma

잔차

 실제 관찰 (또는 자료 점)과 최적 값 (요인 수준의 평균) 사이의 차이

-80 -60 -40 -20 0 20 40 60 80 0

1 2 3 4 5

Residual

F req uenc y

Histogram of Residuals

0 5 10 15 20 25

-100 0 100

Observ ation Number

R e s id ual

I Chart of Residuals

X=-5.3E-13 3.0SL=115.5

-3.0SL=-115.5

300 400 500 600

-100 0 100

Fit

R e s idua l

Residuals vs. Fits

-2 -1 0 1 2

-100 0 100

Normal Plot of Residuals

Normal Score

R e s id ual

Residual Model Diagnostics

잔차는 얼마나 정규성을 갖고

있나?

개별 잔차- 추이(경향)?

또는 특이 점?

히스토그램- 종 모양 곡선?

(<30)미만의 작은 자료는 무시하라.

추이(경향)없이 0에 대해서 무작위 인가?

통계학>회귀>적합선 플롯>저장 : 잔차와 적합치를 클릭하라

(11)

Six Sigma

회귀 관련 경고 - 항상 그래프 !!!

(12)

Six Sigma

1 0 1 5 2 0

5 6 7 8 9 1 0 1 1 1 2

X4

Y4

Y = 3 .2 7 7 2 7 + 0 .4 5 9 0 9 1 X R - S q = 6 3 .5 %

R e g r e s s i o n P lo t

4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4

3 4 5 6 7 8 9 1 0

X2

Y2

Y = 2 .9 3 4 5 5 + 0 .5 0 7 2 7 3 X R - S q = 6 6 .4 %

R e g r e s s i o n P lo t

항상 원래의 자료(raw data)를 잊지 마라 !!!

4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4

4 5 6 7 8 9 1 0 1 1

X1

Y1

Y = 2 .8 9 + 0 .5 0 8 1 8 2 X R - S q = 6 6 .2 %

R e g re s s i o n P lo t

4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4

5 6 7 8 9 1 0 1 1 1 2 1 3

X3

Y3

Y = 3 .2 6 7 2 7 + 0 .4 4 9 0 9 1 X R - S q = 5 9 .3 %

R e g re s s i o n P lo t

4개의 다른 자료 군(群)에 대한 기본 통계 결과가 모두 같아 보이지만 거기에는 분명히 차이가 있다.

항상 한가지 방법 이상으로 자료를 보라 !!!

(13)

Six Sigma

 상관은 공정을 사용하는 산업에 매우 유용한 도구이다.

 상관은 두 양적 변수 간의 관계에 대한 척도이다.

 인과관계를 가정하는 데는 신중을 기하도록.

 회귀분석은 변수들 간의 관계를 예측 등식의 형태로 찾고자 하는데, 이 관 계는 선형일 수도 있고 아닐 수도 있다.

 회귀에서 등식은 원하는 답일 수도 있고, 아니면 원하는 예측을 얻기 위한 수단일 수도 있다.

 회귀연습

참조파일: Erosion.mtw

상관과 회귀 요약

(14)

Six Sigma

Improve

참조파일: I_R&R.mtw I_03.mtw

(15)

Six Sigma

지금부터는 중요 X 변수에 대한 파악을 마무리하고 함수관계 ‘f’의 본질에 대한 조사를 실시하게 될

것이다.

개선 단계의 준비사

1. 문제의 규모와 범위

(단위 당 결함(DPU)과 불량비용(COPQ)이 포함된다) 2. 구체적인 목표와 목적

(결함감소와 비용절감이 포함된 예상효과)

3. Y변수와 이에 대한 신뢰할 수 있는 측정 시스템(MSA) 4. Y에 대한 능력 분석(Process Capability)

(공정 결함의 본질- 평균의 문제인가, 분산상의 문제인가

또는 분포의 모양 상의 문제인가 또는 이 세 가지가 복합된 문제인가) 5. 잠재 X변수에 대한 축소된 최종 선별 목록(Analyze)

(공정분석, 다변량 분석, 다른 그래프 및 통계기법으로 얻어진 잠재 X변수)

(16)

Six Sigma

목표 및 주요활동

 목 표

출력변수(Y)에 영향을 미치는 2~6개의 최종입력변수(X)에 대한

능동적인 실험을 통한 규명과 개선

 주요활동

 DOE (Design of Experiment)

 Robust Design (Taguchi method)

 CTQ에 대한 검증

 OUTPUT

(17)

Six Sigma

“실험 (Experiment)”과

“실험계획법 (Design of Experiment)”

 “실험”이란…(Experiment)

입력이 계획에 따라 통제되거나 직접적으로 조작된 모든 테스트.

 “실험 계획법”이란…(Design of Experiment, 설계된 실험)

 계획에 구조를 첨가해 주어서 결과의 분석에 특정방법을 사용할 수 있 다.

 OUTPUT를 향상시키기 위해 중요변수를 파악하고 최적조건을 찾아내 기 위한 실험

 실험횟수를 최소화 하면서 우리가 원하는 Output수준을 달성

참조

관련 문서

독립변수와

독립변수와

우선 여가활동의 효능감에 대한 회귀분석 결과 인구학 적 변인을 반영한 모형 1에서는 연령이 통계적으로 유의미한 부의 영향을 미치는 반면에 수도 권더미는 유의미한 정의

자산가격의 변동성이 높아지는 때는 미래에 대한 전망이 불투명하기 때문에 낙관론과 비관 론이 팽팽히 맞서고 있는 상황이다. 향후 자산가격이 어떻게 변하게 될 것인가에

In this paper, the Hyers-Ulam-Rassias stability of mixed n-Jordan homomorphisms on Banach algebras and the superstabil- ity of mixed n-Jordan ∗-homomorphism between C ∗

② 전역 변수가 선언된 소스 파일의 헤더 파일에 전역 변수에 대한 extern 선 언을 넣어준다. 전역 변수의 extern 선언은 메모리를 할당하지

[r]

나 양상에 대한 부분들 그리고 학교에서의 전파 , 유행에 대한 발생 현황 , 내용 이런 부분들이 종합적으로 판단이 될 필요가 있겠습니다.. 현재는