교육평가의 이해

(1)

교육평가의 이해

8장 검사도구의 양호도

(2)

학습과제

 좋은 검사의 조건을 안다 .

 타당도의 개념과 그 종류를 안다 .

 신뢰도의 개념과 그 종류를 안다 .

 객관도의 개념과 그 종류를 안다 .

(3)

목 차

타당도

1 신뢰도

2 3 객관도

(4)

타당도

 타당도(validity) : 검사 또는 측정 도구가 본래 측정하고자 하였던 것을 충실히 측정하는 정도

 타당도에 관한 질문은 ‘이 검사가 무엇을 재고 있느냐?’로 표현될 수 있으며, ‘무엇’에 해당하는 준거(criterion)로써 평가에 있어 틀의 역할

 타당도를 이해하기 위해 주의할 점

(Gronlund와 Linn(1990))

 타당도는 피험자 집단에 사용된 측정 도구나 검사에 의하여 얻어진 검사결과의 해석에 대한 적합성이지 검사 자체와 관련된 것은 아님

 타당도는 정도의 문제

 타당도는 특별한 목적이나 해석에 제한

 타당도는 단일한 개념

(5)

타당도

내용타당도

준거 관련 타당도

예언타당도

공인타당도 구인타당도

 타당도의 종류

(6)

타당도

1. 내용타당도

 내용타당도(content validity)는 검사내용에 기초한 근거(evidence based on test content)라고 불리는 타당도로 논리적 사고에 입각하여 판단하는 주관적인 타당도

 교육과정 측면에서의 내용 타당도는 한 검사가 교육과정의 목표들을 어느 정도나 제대로 적절하게 측정하고 있느냐를 의미

 학업성취도 검사의 내용 타당도는 검사 내의 문항들이 검사 제작 전에 작성된 이원목적분류표에 의하여 제작되었는지를 확인함으로써 검증

 내용타당도와 유사한 개념 : 논리적 타당도(logical validity)와 안면타당도(face validity)

(7)

타당도

2. 준거 관련 타당도

 준거관련타당도(criterion-related validity)는 한 검사의 점수와 하나의 준거의 상관계수로 검사 도구의 타당도를 나타내는 방법인데, 경험적 타당도(empirical validity)라고도 부름

 준거는 검사를 사용하는 사람들이 관심을 가지는 속성이나 결과를 말하는 것으로, 교육현장에서 관심을 가지는 준거는 교육목표 및 내용이기 때문에 목표 지향 타당도라고 부름

(8)

타당도

가. 예언타당도

 예언타당도(predictive validity)란 어떤 평가 도구가 목적하는 준거를 얼마나 정확하게 예언하고 있는지를 의미

 준거는 미래의 행동 특성이 된다. 즉 검사점수가 미래의 행동을 얼마나 잘 예측하느냐의 문제

 예언타당도의 추정방법은 피험자 집단에 새로 제작한 검사를 실시하고, 일정한 기간이 지난 후에 검사에서 측정한 내용과 관련된 행동을 측정한 후 검사점수와 준거(미래 행동 특성의 측정치) 간의 상관계수를 추정하는 것

(9)

타당도

가. 예언타당도

 상관계수가 클수록 예언의 정확성이 커지고 예언의 오차는 적어짐

 장점 : 검사도구가 미래의 행동을 예측해 주기 때문에 선발, 채용, 배치 등의 목적을 위하여 검사를 사용

 미래의 행동이 측정되어야 하므로 동시 측정이 불가능하기 때문에 검사의 타당성을 인정받는데 시간이 오래 걸림

 일정 시간이 지난 뒤에 측정 행동과 검사 점수와의 상관을 계산해야 하기 때문에 검사 실시 후 인간의 특성이 변화되지 않았다는 것을 보장하기 어려움

(10)

타당도

나. 공인타당도

 공인타당도(concurrent validity)는 새로운 검사의 타당도를 기존의 타당성을 인정받고 있는 검사와의 유사성 혹은 연관성에 의하여 타당성을 검증하는 방법

 예언타당도와는 달리 검사 그 자체와 준거가 동시에 측정되면서 검증되는 타당도

 공인타당도의 추정방법은 새로 제작된 검사를 실시한 다음 동일

집단에게 현재 타당성을 인정받고 있는 검사를 실시한 후 두 검사간의 상관계수를 추정하는 것

 공인타당도는 계량화되어 타당도에 대한 객관적인 정보를 제공한다는 장점이 있는 반면 기존의 타당성을 인정받고 있는 검사가 없을 경우 공인타당도를 추정할 수 없다는 단점

(11)

타당도

3. 구인타당도

 구인타당도(construct validity)란 내적 구조에 기초한 근거(evidence based on internal structure)라고도 하며, 그 검사가 측정하고자 하는 어떤 특성의 개념이나 이론과 관련

 구인(construct)이란 검사 도구에 반영되어 있다고 가정하는 인간의 어떤 행동 특성을 의미

 검사 도구가 이 구인들을 제대로 측정하고 있는지를 밝히는 것이 구인타당도를 검증하는 것

 구인타당도는 측정하고자 하는 특성의 구성 요인을 얼마나 충실하게 이론적으로 설명하여 경험적으로 측정하느냐의 문제

(12)

타당도

3. 구인타당도

 구인 타당도를 검증하기 위한 일반적 절차 -Cronbach(1970)

 검사점수 혹은 검사 결과의 원인이 되는 구인이 무엇인지를 확인하는 과정

 이 구인에 관련된 이론적 배경 연구와 이 이론에서 연역적으로 도출될 수 있는 가설을 설정하는 과정

 가설을 검증하기 위해 귀납적이고 경험적 연구를 실행하는 과정

 대표적인 방법 : 상관계수법, 실험설계법, 요인분석

(13)

타당도

3. 구인타당도

 상관계수법 : 각 구인들에 의해 얻어진 점수와 심리특성을 측정하는 총점의 상관계수에 의해 타당도를 검증하는 방법

 실험설계법 : 심리적 특성을 구인하는 심리적 구인을 실험집단에는 처치를 하고 통제집단에는 처치하지 않았을 경우 실험집단과 통제 집단에서 심리적 구인에서 차이가 나타나면 그 구인은 심리적 특성을 설명하는 구인

 요인분석 : 복잡하고 정의되지 않은 많은 변수들 간의 상호관계를 분석하여, 상관이 높은 변수들을 모아 요인으로 규명하고 그 요인의 의미를 부여하는 통계적 기법

(14)

타당도

4. 타당도의 적용과 논의

 타당도 검증은 행동과학을 위한 자료분석의 기본적인 절차

 새로운 검사 도구를 개발할 때 타당도를 검증하는 것이 필수적, 기본적인 절차는 우선 검사가 측정하고자 하는 내용을 측정하는지 검증하는 내용타당도를 살펴보아야 함

 준거 관련 타당도(예언타당도와 공인타당도)는 내용타당도나 구인 타당도와는 개념적으로 독립적인 것이므로 검사도구의 타당도를 검증하기 위해서는 모든 방법을 사용하여 타당도를 검증하는 것이 바람직함

 상관계수에 의해 추정되는 공인타당도와 예언타당도의 경우 .60 이상이면 타당도가 높다고 볼 수 있음

(15)

타당도

4. 타당도의 적용과 논의

 최근에는 타당도의 개념이 검사도구의 특성이라기보다 검사 결과가 사회에 미치는 영향에 초점을 맞춘 결과타당도(consequential validity) 까지 확대

 결과타당도는 검사가 목적에 얼마나 부합하는지, 즉 의도한 결과는 얼마나 달성하였으며, 의도하지 않은 어떤 결과가 나타났는지에 대한 검증

 검사개발자가 검사의 시초가 되는 이론에 대한 검증뿐 아니라 검사와 검사결과의 관계를 검토함으로써 검사가 의도한 결과와 의도하지 않은 결과에 대해서도 책임을 져야 하며, 부정적 충격(adverse impact)과 부수효과(side effect)와 같은 의도하지 않은 결과에 대한 검증을 통해 검사의 목적에 맞게 검사도구를 수정해야 한다고 함 - Shepard(1997)

(16)

신뢰도

 신뢰도(reliability)란 측정하려는 것을 안정적이고 일관성 있게, 그리고 오차 없이 측정하는가의 문제

 검사 도구가 인간의 어떤 행동 특성을 측정할 때마다 같은 점수를 얻는다면, 이 검사 도구는 신뢰할 만한 검사

 신뢰도의 추정방법 : 두 검사점수의 상관계수로 추정하는 관점과 측정의 오차개념으로 추정하는 방법

 상관계수로 추정하는 방법 : 동일한 검사를 두 번 실시하거나 하나의 검사와 동형검사 점수와의 상관계수를 사용하는 것

 측정의 오차개념으로 추정하는 방법 : 진점수와 관찰점수의 비율을 사용하는 것으로, 즉 관찰점수의 분산에서 진점수 분산이 차지하는 비율이 높고 오차점수의 분산이 작다면 신뢰도가 높아지게 됨

 신뢰도 검증 방법 : 재검사 신뢰도, 동형검사 신뢰도, 반분검사 신뢰도, 문항내적 합치도, Cronbach α계수

(17)

신뢰도

1. 재검사 신뢰도

 재검사 신뢰도(retest reliability) : 한 가지의 측정 도구를 동일 대상 집단에게 두 번 실시한 다음, 첫 번째 점수와 두 번째 점수 간의 상관 계수를 산출하여 얻는 신뢰도

 측정 도구가 얼마나 안정성 있게 측정하는가를 나타내기 때문에 안정성 계수(coefficient of stability)라고도 함

 재검사 신뢰도에서 오차의 근원은 시간간격

 재검사 신뢰도를 표시할 때는 실시 간격을 명시해야 하며, 검사의 목적에 따라 달라야 하겠지만 대개 2～4주가 적당

 장점 : 추정 방법이 간단

 단점 : 검사를 두 번 실시해야 한다는 것과 두 번 실시함으로써 생기는 연습효과나 기억효과가 있다는 점, 실시간격에 따라 신뢰도 계수가 달리 추정된다는 점

(18)

신뢰도

2. 동형검사 신뢰도

 동형검사 신뢰도(equivalent-form reliability) : 두 개의 동형검사를 제작하고, 두 개의 동형검사를 동일한 피험자들에게 거의 연속적으로 실시했을 때 두 검사에서 받은 점수들이 일치되는 정도를 상관계수로 추정하는 방법 (동형성 계수-coefficient of equivalence)

 검사내용 즉 문항의 차이 또는 문항표집에서 생기는 검사도구의 신뢰도에 관심

 찾는 오차변인은 검사내용의 차이에서 일어나는 오차

 장점 : 연습 효과 및 시험 간격 설정의 문제점을 해결

 단점 : 검사를 두 번 제작․시행해야 하는 어려움이 있으며, 더 큰 단점은 동일한 내용을 측정하면서 동일한 난이도와 변별도를 지닌 동형검사 제작이 쉽지 않다는 것

(19)

신뢰도

3. 반분검사 신뢰도

 반분검사 신뢰도(split-half reliability) : 한 개의 평가 도구를 한 피험자 집단에게 실시한 다음 그것을 적절한 방법에 의해 두 부분의 점수로 분할하고, 분할된 두 개의 반분된 검사점수간의 상관을 산출하여 얻는 신뢰도(동질성 계수-coefficient of homogeneity)

 동형검사를 만들자면 비용과 시간이 많이 들기 때문에 하나의 검사를 두 쪽으로 나누어 신뢰도를 구하는 일종의 간이 동형검사 혹은 축소판 동형검사 신뢰도 추정방법

 장점 : 하나의 검사를 가지고 추정해낸 동형검사 신뢰도라는 점에서 아주 간편하고 경제적

 단점 : 검사를 양분하는 방법에 따라 신뢰도 계수가 달리 추정

(20)

신뢰도

3. 반분검사 신뢰도

 검사 도구의 신뢰도는 검사의 길이와 밀접한 관계

 검사의 길이가 길어지면 신뢰도 계수도 증가, 반분검사 신뢰도는 검사 전체의 신뢰도가 아니라 반분된 부분검사의 신뢰도 - 원래 문항수로 환원해서 신뢰도를 추정

 검사 전체의 신뢰도를 구하기 위한 반분검사 신뢰도 Spearman-Brown 공식 사용

(21)

신뢰도

4. 문항내적 합치도

 문항내적 합치도(inter-item reliability) : 검사 속의 한 문항 한 문항을 모두 독립된 한 개의 검사 단위로 생각하고 그 합치도, 동질성, 일치성을 종합하는 신뢰도

 검사에 포함된 문항간 반응의 일관성은 문항의 동질성 여부에 의해 결정, 문항내적 합치도를 구하려면 그 검사는 단일 특성을 재는 문항으로 구성

 단일특성을 재지 않거나 문항의 곤란도가 일정하지 않을 때 문항내적 합치도로 신뢰도를 구하면 그 검사의 신뢰도는 과소평가될 우려가 있음

(22)

신뢰도

4. 문항내적 합치도

 문항내적 합치도를 추정하는 방법 : Kuder와 Richardson(1937)이 개발한 K-R 20과 K-R 21

 K-R 20 : 문항 형식에서 문항의 반응이 맞으면 1, 틀리면 0으로 채점되는 양분 문항(dichotomous item)의 경우에 사용

 K-R 21 : 문항점수가 1, 2, 3, 4, 5점 등의 연속점수일 때 사용

(23)

신뢰도

5. Cronbach α 계수

 한 검사 속의 문항들 사이의 신뢰도 계수는 문항간의 평균 공변량/문항간 평균 변량의 비(ratio)로 나타내려는 개념

 급내 상관(intraclass correlation)이라고 함

 장점 : 검사를 양분하지 않아도 되고, 문항 간의 일관성에 의하여 단일한 신뢰도 추정 결과를 얻을 수 있음

 단점 : 검사도구의 신뢰도를 과소 추정하는 경향

 단일특성을 재지 않거나 문항의 곤란도가 일정하지 않을 때 문항내적 합치도로 신뢰도를 구하면 그 검사의 신뢰도는 과소평가될 우려가 있음

(24)

신뢰도

5. Cronbach α 계수

 Cronbach α 계수 산출 공식

(25)

신뢰도

6. 신뢰도의 적용과 논의

 검사도구 개발/사용할 때 신뢰도에 대한 정보가 제공되어야 함

 문항수가 많을수록 즉, 검사 길이가 길수록 높아지며, 검사도구의 측정 내용이 좁아서 문항들이 동질적일수록 신뢰도가 높음

 속도검사보다는 역량검사여서 충분한 시간이 주어져 응답의 안정성을 보장받을수록 신뢰도가 높음

 문항의 난이도가 적절해서 검사 불안이나 부주의로 인한 비일관적

응답이 없어야만 신뢰도가 높으며, 문항변별력이 높을 때 신뢰도가 높음

(26)

신뢰도

6. 신뢰도의 적용과 논의

 타당도와 신뢰도의 관계 : 신뢰도와 타당도의 관계에서 신뢰도는 타당도를 위한 필요조건이지만 충분조건은 아니다.

 적절한 정도의 난이도와 높은 변별력이 있는 좋은 문항들로 구성된 검사는 신뢰도가 높을 가능성이 많으며 이는 타당도가 높기 위한 필요조건이 된다.

타당한 점수 타당하지 않은 점수 오차점수

관찰점수

타당도

(27)

객관도

 객관도(objectivity) : 평가자 신뢰도라고 하며 검사의 채점자가 주관적 편견 없이 공정하게 채점하느냐 문제

1. 평가자 내 신뢰도(intra-rater reliability)

 동일한 평가자가 모든 측정 대상에 대하여 계속적으로 일관성 있게 측정하였는지 혹은 시간의 흐름에 따라서도 평가기준이 변하지 않고 동일하게 측정하는지를 의미

 평가자 내 신뢰도는 개인의 일관성이 전제되어야만 추정이 가능

(28)

객관도

2. 평가자 간 신뢰도

 평가 결과가 평가자들 사이에서 얼마나 유사한가를 의미

 교육현장의 평가에서 평가자간 신뢰도가 언급되는 경우는 예체능계 실기고사나 논술고사 등

 평가자간 신뢰도를 추정하기 위해서는 우선 평가 대상자는 동일한 행위를 하거나 같은 문항에 응답하여야 하며, 평가자들은 상호독립적으로 동일한 평가 대상자들을 평가함

 평가자간 신뢰도 추정 방법 : 양적 변수–상관계수법, 일반화 가능도 이론 질적 변수-일치도 통계, Cohen의 Kappa 공식 사용

(29)

객관도

2. 평가자 간 신뢰도

 상관계수법

평가 결과가 연속적인 점수일 때, 두 명 이상의 평가자가 동일한 평가 대상자들에게 얼마나 유사한 점수를 주느냐를 분석하는 방법으로 Pearson의 단순적률상관계수를 구함으로써 추정

 일반화 가능도(generalizability) 이론

오차점수의 분산을 여러 개의 구성요소로 세분화하여 각 오차원의 분산성분을 추정하고 비교 - 각 오차원의 상대적 영향력이 평가되고, 어떻게 신뢰도를 향상시킬 수 있는가를 제안

 일치도 통계 : 두 명 이상의 평가자가 하나의 평가 장면에 대해 어떤 유목이나 범주로 평가해야 할 때, 평가자간 상호 일치한 빈도를 전체 빈도로 나눈 다음 평가자 수를 곱해서 계산

 Kappa 계수

일치도 통계가 우연에 의하여 동일하게 평가되는 확률을 통제하지 못하여 평가자간 신뢰도를 과대 추정 - 이 문제를 해결하기 위하여

(30)

객관도

3. 객관도의 적용과 논의

 서답형 문항 지필검사, 평가자의 평정을 요구하는 관찰이나 면접에는 후광효과, 관용 혹은 엄격함의 오류, 집중경향의 오류, 논리적 오류, 근접의 오류, 대비의 오류 등이 작용하여 평정자 혹은 채점자로 인한 채점의 오차가 생김

 객관도가 낮은 이유는 검사 도구 자체가 불완전하거나 평가자의 소양이 부족하기 때문

 객관도 향상 : 평가 도구 및 평가 기준을 객관화, 채점자의 평가에 대한 소양을 높여야 하며, 가능하면 여러 사람이 공동으로 평가하여 그 결과를 종합하는 것이 좋음

(31)

연구문제

1. 검사도구의 타당도와 신뢰도의 관계에 대해 기술 기술하시오.

2. 예언타당도와 공인타당도를 비교하여 설명하시오.

3. 여러 가지 신뢰도 방법의 장․단점을 서술해 보시오.

(32)