2018 물리 인증제 1급 문항 분석 연구

(1)

http://dx.doi.org/10.3938/NPSM.70.942

Analysis of the 2018 Physics Ability Test

Ahn Sunyoung

Department of Education, Ewha womans University, Seoul 03760, Korea

Soobong Choi

^∗

Department of Physics, Incheon National University, Incheon 22012, Korea (Received 22 June 2020 : revised 25 September 2020 : accepted 08 October 2020)

In this study, two well-known test theories, classical examination theory and item response theory, were analyzed to confirm the goodness of the test items by using the responses of 911 subjects on 30 items of the Physics ability test, which was given in February 2018. Through this, the quality control details of the items required in the test development process could be checked.

The results obtained using both test theories were compared by the discriminant, difficulty, and guessing for the items, which are characteristics the items have in common. The classical test theory, was used to evaluate the validity of the items and the correct answers by checking the internal consistency index Cronbach’s α value of items and the test and the existence of a wrong answer sheet. Consequently, the analysis results for the items and parameters of both test theories, confirmed that the composition of the test was valid.

Keywords: Item analysis, Classical test theory, Item response theory

2018 물리 인증제 1급 문항 분석 연구

안선영

이화여자대학교 교육학과, 서울 03760, 대한민국

최수봉

^∗

인천대학교 물리학과, 인천 22012, 대한민국

(2020년 6월 22일 받음, 2020년 9월 25일 수정본 받음, 2020년 10월 8일 게재 확정)

본 연구는 2018년 2월 시행된 물리 인증제 1급 시험의 총 30개 문항에 대한 911명 응답 자료의 검사 문항 양호도 확인을 위해 잘 알려진 두 검사이론인 고전검사이론과 문항반응이론으로 각각 분석하였다. 두 분석결과 공통으로 문항특성인 문항의 변별도, 난이도, 추측도를 분석하여 결과를 비교하였다. 연구 결과, 고전검사이론을 통한 결과 개별문항 분석에서 거의 모든 문항이 양호하였으며, 전체 검사의 Cronbach’s α 값은 0.768로 높은 신뢰도를 보였다. 문항반응이론을 통한 결과에서는 일부 문항에서 내용적 검토 필요성을 제시할 수 있었다. 두 검사이론의 문항 모수 분석결과를 종합해 볼 때, 검사의 구성 문항은 모두 양호하였다.

Keywords: 문항 분석, 고전검사이론, 문항반응이론

∗E-mail: [email protected]

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

(2)

I. 서 론

검사는 비가시적인 피험자의 잠재능력을 간접적으로 측 정하기 위한 도구로, 측정하려는 대상을 오차 없이 정확하게 측정하는 것이 중요하다 [1]. 검사이론에서는 검사가 오차 없이 일관되게 측정하는 정도를 검사의 신뢰도라고 한다.

또한, 검사 도구가 측정하려는 내용을 충실하게 측정했는지 적합성 여부는 검사 타당도와 관련된다. 신뢰도는 타당도의 선행요건으로 신뢰도가 높다고 타당도가 높은 것은 아니다.

그러나 타당도가 높기 위해서는 검사의 신뢰도가 반드시 확보되어 있어야 한다 [1,3,5,12]. 따라서 검사 문항의 분석 을 통한 양호도 검증을 통해 피험자 능력을 측정하는 검사 도구의 측정오차를 줄일 수 있으며, 검사에 대한 신뢰도를 높일 수 있다.

본 연구는 한국물리학회 주관 물리인증제의 2018년 2 월 시행자료를 바탕으로 고전검사이론과 문항반응이론의 검사이론을 적용하여 체계적인 문항 분석을 함으로써 문항 양호도 분석 및 신뢰도 등을 확인하였다. 물리 인증제 시 험결과는 신뢰할 수 있는 합격점수를 설정하는 선행연구를 통해 분석된 바 있지만, 그에 앞서 검사결과 자체에 대한 분석 보고나, 검사이론체계를 적용한 분석연구 또한 향후 발전된 검사 제작을 위해 필수적이다 [4].

문항 그 결과를 바탕으로 문항의 내용과 개선 보완 사항이 있는 문항의 존재를 확인하는 데 목적이 있다. 문항 양호도 파악은 문제 은행을 구축하기 위할 뿐 아니라 피험자 능력의 정확한 측정 즉, 신뢰성 있는 검사를 위한 문항의 질 관리에 반드시 필요하다.

II. 이론적 배경

1. 검사이론

검사이론이란 정확한 측정을 위해 검사를 구성하는 문항 에 대하여 양호도를 분석하고 평가하는 방법에 대한 기본적 인 체계를 의미한다. 잘 알려진 검사이론으로는 고전검사 이론(Classical Test Theory: CTT)과 문항반응이론(Item Response Theory: IRT)이 있다 [5].

문항에 대한 양호도는 문항이 가진 특성인 문항 변별도, 문항 난이도, 문항 추측도 등을 통해 문항과 검사가 측정을 정확히 했는지 판단하는 지수이다.

문항 변별도는 문항이 피험자 능력을 측정할 때 높은 능 력의 피험자와 낮은 능력의 피험자를 잘 구분해내었는지 판단하는 지수이다. 문항 난이도는 문항이 어렵고 쉬운 정 도를 나타내는 지수이며, 문항 추측도는 해당 문항에 정답할 능력이 없는데도 피험자가 추측으로 문항에 정답할 확률을 의미하는 지수이다 [1,6,15].

Table 1. Item discrimination Evaluation by CTT.

Item discrimination(x) Evaluate

x < 0.10 none

0.10≤ x < 0.20 very low

0.20≤ x < 0.30 low

0.30≤ x < 0.40 exist

0.40≤ x very high

2. 고전검사이론에 의한 문항 분석

고전검사이론 (CTT) 은 검사와 문항 분석에서 19세기 이래 가장 많이 쓰이고 있는 방법이며 간단한 산출 방법의 장점이 있다. 그러나 다음과 같은 단점이 있다. 첫째, 피험 자의 문항에 대한 정 · 오답 원점수로 문항특성을 파악하며, 피험자 집단의 특성에 따라 문항특성이 영향을 받는다. 따 라서 문항이 가진 자체 특성이 문항에 응답하는 피험자 집단 의 능력 특성에 따라 변화하며, 피험자의 능력 역시 영향을 받은 검사 도구의 특성에 의해 다르게 추정된다. 둘째, 검사 총점에 의해 능력이 판단되므로 어려운 문항의 득점 여부에 따른 고려 없이 점수만 동일하다면 같은 능력의 피험자인 것으로 판단된다.

검사이론에 따라 문항특성의 의미가 달라지는데 문항 난 이도의 경우 CTT와 IRT에서의 의미가 크게 다르다. CTT 에서는 문항 난이도가 해당 문항에 대한 정답률이기 때문에 문항의 난이도가 높으면 정답률이 큰 것이므로 쉬운 문항 이다.

그 외 문항 변별도는 문항이 피험자의 능력이 높고 낮음을 구분해내는 능력이며, 문항 추측도는 피험자가 문항에 정답 할 능력이 없지만 정답할 확률을 의미하며 산출 방법에서 두 검사이론의 차이가 있다.

CTT의 문항 변별도의 계산은 상위 30% 집단과 하위 30% 집단의 정답률 차이로 계산하는 방법과 문항의 정답한 점수와 전체 총점과의 Fisher 상관계수에 의한 방법이 있다.

본 연구에서는 상관 계수법에 의한 변별도 산출을 사용하 였다. 문항 변별도의 평가는 Ebel의 구분을 따라 평가하며 table과 같다 [11].

문항 난이도는 문항이 어렵고 쉬운 정도이며 정답한 피 험자 수를 전체 피험자 수로 나눈 값이다. CTT의 문항 난이도 평가는 3단계로 하면 0.25 미만은 어려운 문항, 0.25 이상 0.75 미만은 적절한 문항, 0.75 이상은 쉬운 문항으로 평가한다 [8]. 그러나 보다 세부적으로 평가할 때는 Table 2와 같이 평가한다.

문항 추측도는 피험자가 문제 해결 능력이 없어서 문항의 답을 모르지만 추측으로 문항에 정답한 비율을 의미한다.

문항 추측도는 오답 피험자의 수를 (문항의 답지 수-1)값으

(3)

Table 2. Item difficulty Evaluation by CTT

Item difficulty(x) Evaluate

0.00≤ x < 0.20 very difficult

0.20≤ x < 0.40 difficult

0.40≤ x < 0.60 common

0.60≤ x < 0.80 easy

0.80≤ x < 1.00 very easy

로 나눈 값을 추측으로 정답 한 피험자 수로 가정하고 이를 다시 전체 피험자 수로 나눈 값으로 계산된다. 문항 양호도 측면에서 문항 추측도는 낮을수록 좋다.

오답지 매력도는 피험자들이 오답지를 선택할 확률이며 각 오답지에 대한 응답 비율에 의해 결정된다. 오답지에 대한 응답 비율이 오답지 매력도보다 높으면 매력적인 답지 이며 그 미만이면 매력적이지 않은 답지로 평가된다. 답지 매력도는 문항의 질을 좌우한다. 이는 답지에 대해 응답 비율이 너무 낮은 경우, 대부분의 피험자가 고민할 여지가 없음을 의미하며 정답지를 선택할 확률이 증가하므로 쉬운 문항이 된다. 반면 모든 오답지가 응답 비율이 높을수록, 정답지를 고르기 어려웠음을 의미하며 어려운 문항이 될 수 있다. 따라서 답지의 매력도를 높이면 문항이 어려워지고 답지의 매력도를 낮추면 문항이 쉬워진다. 오답지 매력도는 Eq. (1) 로 계산된다.

P0=1− P Q− 1 P0:답지선택확률

P :문항난이도 Q :답지개수

(1)

또한 오답지 매력도는 계산하면 결과적으로 문항 추측 도와 값이 같다. 양호한 문항은 정답 문항에 대한 응답 비 율보다 문항의 추측도가 낮아야 하므로 문항의 추측도가 정답지의 응답 비율보다 높은 경우 답지나 문항의 내용에 대한 검토가 필요하다.

3. 문항반응이론에 의한 문항 분석

문항반응이론 (IRT) 에서 문항은 문항에 응답하는 피험 자의 능력 특성에 영향을 받지 않는 고유의 특성을 가지고 있으며, 피험자의 능력 역시 문항의 특성에 의해 변화하는 것이 아닌 고유한 능력을 가지고 있다고 가정한다. 이를 문항특성의 불변성, 피험자 능력의 불변성이라고 한다 [1, 6,13,14].

Fig. 1. Item Characteristic Curve by 3 parameter-logistic model (a = 1, b = 1, c = 0.2)

IRT는 중요한 두 가정을 기반으로 하는데 첫 번째는 지역 독립성 가정으로, 하나의 문항에 대한 응답이 다른 문항에 대한 응답에 영향을 주고받지 않고 독립적으로 존재함을 가 정하는 것이다. 두 번째는 일차원 가정으로 하나의 문항은 하나의 차원을 측정한다는 것이다.

IRT는 Binet와 Simon의 지능 검사와 바이오 에세이의 해법을 적용하여 문항마다 고유한 특성으로 비선형 모형 곡선이 있고, 모형을 구성하는 문항특성은 피험자 집단의 능력에 의해 영향받지 않음을 상정한다. 모형에 포함된 문 항 모수의 수에 따라서 IRT모형의 종류가 결정되며 문항 난이도만 측정하는 경우, 1모수 IRT모형, 문항 난이도와 변 별도를 측정하는 경우, 2모수 IRT모형, 문항 난이도, 문항 변별도, 문항 추측도를 측정하는 경우 3모수 IRT모형으로 구분된다 [7]. 문항의 변별도, 난이도, 추측도를 각각 a, b, c 라고 하면, 이 3개의 문항 모수를 갖는 문항특성곡선은 피험 자 능력인 θ 를 X 축으로, 문항에 정답 할 확률을 Y 축으로 해 그려진다. Figure 1은 3모수 로지스틱 문항 반응모형을 적용해 분석했을 때 a = 1, b = 1, c = 0.2 인 문항 특성곡선 을 나타낸 것이다. 또한 3모수 로지스틱 IRT모형의 수리적 표현은 Eq. (2) 로 표현한다.

P (θ) = c + (1− c) 1

1 + e^−a(θ−b) (2)

1) 문항 변별도

IRT에서 문항 변별도는 낮은 능력 수준의 피험자와 높은 능력의 피험자를 잘 변별해 내는 정도를 의미한다. 어떤 문항의 문항 난이도를 나타내는 능력 수준에서의 문항특성 곡선의 기울기가 문항 변별도이므로 기울기가 클수록 문항

(4)

Table 3. Item discrimination Evaluation by IRT.

Normal Ogive Model Logistic Model Evaluation

0.00 0.00 none

0.00≤ α < 0.20 0.00≤ α < 0.35 almost none 0.20≤ α < 0.39 0.35≤ α < 0.65 low 0.39≤ α < 0.80 0.65≤ α < 1.35 appropriate 0.80≤ α < 1.00 1.35≤ α < 1.70 high

1.00≤ 1.70≤ very high

+∞ +∞ perfect

Table 4. Item difficulty Evaluation by IRT.

Item difficulty Evaluate

<−2.0 very easy

−2.0 ≤ β < −0.5미만 easy

−0.5 ≤ β < +0.5미만 common

+0.5≤ β < +2.0미만 difficult

+2.0≤ very difficult

변별도는 높아진다. 일반적으로 0에서 +2.0 사이의 범위 안에서 값이 클수록 좋은 문항으로 평가한다. 만약 문항 변 별도가 음수일 경우 이는 부적 변별이라 하며, 능력이 높은 피험자가 그 문항에서 정답 할 확률이 낮아진다는 의미이 므로 부적 변별을 보이는 문항은 검사제작과정에서 검토 대상이 된다. 문항 변별도의 언어적 표현에 의한 해석은 Table 3과 같다 [1].

2) 문항 난이도

문항 난이도는 문항에 대한 정답확률이 0.5가 되는 능력 수준이며, 개별 문항특성곡선이 위치하는 지점의 값이다.

일반적으로 – 2.0 – +2.0 사이의 값을 갖고, 값이 커질수록 어려운 문항이다. 세부적인 평가는 Table 4와 같다.

3) 문항 추측도

문항 추측도는 어떠한 문항에 대해 피험자가 정답할 능 력이 없지만 추측에 의해 정답하는 확률을 의미하며, 문항 특성곡선 상에서 −∞의 능력 학생이 정답하는 확률이다.

3모수 IRT모형에서는 문항특성곡선의 하한 점근선으로 문항추측도를 나타내며, 값이 클수록 좋지 않은 문항이다.

일반적으로 .2를 넘지 않아야 양호한 문항으로 판단한다 [6].

4) 정보함수

IRT에서 정보함수는 문항의 문항 난이도 지점에서 가장 많은 정보를 제공하며 3모수 모형의 정보함수 I(θ)와 검사 정보함수 T I(θ)는 Eq. (3) 과 같이 계산된다 [12,15].

I(θ) = a²Q(θ) P (θ)

[P (θ)− c 1− c

]

, T I(θ) =∑

I(θ) (3) Equation (2)와 같이 전체 검사에 대한 검사정보함수는 검 사를 구성하는 모든 문항의 정보함수를 더한 값과 같다 한 문항의 정보는 표준오차의 제곱근의 역수 관계가 있고 Eq.

(4) 로 표현한다.

I(θ) = 1

√SE (4)

따라서 문항의 정보량이 많을수록 측정의 표준오차는 적음 을 의미하며, 정보함수의 값이 클수록 해당 능력 수준에서 제공되는 정보가 정확함을 의미한다.

III. 연구 방법

본 연구는 2018년 02월에 시행된 물리 인증제 1급 검사 결과를 바탕으로 CTT와 IRT분석방법을 적용하여 문항 분석 후 결과를 비교하였다. 검사는 총 30개 문항으로 구 성되었으며 응시한 피험자는 총 911명이었다. 물리 인증제 에서는 추측에 의한 응답을 방지하기 위해 모르는 문항은 응답하지 않도록 명시하고 있다. 따라서 채점에서 오답 처 리된 문항은 추측으로 인한 응답으로 간주하고 과실점수로 서 1점을 감점한다. 즉 정답은 1점, 오답은 추측으로 인한 문제풀이로 가정한 페널티로 – 1점, 결측은 0점 처리하여 채점하였다. 그러나 본 연구의 분석에서는 5,751개의 결측 응답에 대한 처리에서 이러한 페널티의 부과에 의한 자료 코딩을 하지 않고 오답과 결측 모두에 대해 0점을 부과하는 코딩을 하였다. 왜냐하면 검사이론에서 특히 IRT 방법에 의하면 문항 추측도는 그 문항에 정답 할 능력이 없음에도 그 문항을 정답하는 확률을 의미하고, 두 가지 검사이론에 서 모두 별도의 벌점부과 방식이 없이도 검사이론 자체에서 문항의 추측도를 피험자 응답의 정답에 의해 확인이 가능 하기 때문이다. 특히 IRT 3모수 모형의 경우, 모형 안에서 이미 문항 추측도를 상정하고 있기 때문에 기존의 코딩방 식을 따르게 되면 문항 추측도를 중복으로 분석하게 되어 피험자 능력에서 측정오류가 발생된다. 또한 검사에 응한 피험자가 벌점의 존재를 인지하였음에도 불구하고 잘못된 문제해결로 인한 오답이 발생된 경우 피험자가 추측으로 응 답했다고 판단하기 어렵다. 또한, 분석을 위해 본 연구에서

(5)

Table 5. Total scoring distribution.

Subjects(N ) Total score Passing score Mean SD Max Min

911 30 – 14.66 4.81 27 0

사용한 이분 IRT 3모수 모형을 적용하기 위해서는 자료의 응답이 1, 0 코딩이어야 하므로 기존 응답 자료의 재코딩이 필요했음을 밝힌다.

본 연구의 IRT 3모수 모형의 문항 추측도는 피험자가 능력이 없음에도 얼마나 추측으로 정답 할 수 있는지의 확 률을 측정하는 것으로 기존 채점방식을 적용할 경우 IRT 문항 추측도의 측정이 부정확해질 수 밖에 없다. 따라서 본 연구에서는 사용된 검사이론에 의한 방법의 정확성을 위해

’’문항에 대한 시도 자체에 벌점을 부과하는 방식’을 따르지 않았다.

이에 따라 정답은 1, 오답과 결측 모두 0으로 응답처리 한 자료에 대해 CTT와 IRT의 분석방법을 적용하여 문항 모수인 변별도, 난이도, 추측도를 추정하고, 그 결과를 상호 비교 하였다. CTT에서는 문항모수 이외에 오답지 매력도 를 추정하여 정답보다 높은 응답률을 보이는 문항은 없는지 확인하였고, IRT에서는 문항정보함수와 검사정보함수를 통해 양호도와 측정의 정확성을 확인하였다.

IV. 연구 결과

1. 전체 성적 분포도

총 응시자 911명에 대한 30문항의 분석 결과, 평균은 14.659, 표준편차는 4.807점으로 나타났다. 최고점수는 27 점, 최저점수는 0점이었다. 득점 상위 27% 집단에 해당하는 피험자수는 267명이었으며, 이들의 최저점수는 18점이었 다. 반면, 득점 하위 27% 집단에 해당하는 피험자 수는 241 명으로 이들의 최고점수는 11점이었다. 문항의 신뢰도는 문항내적 일관성 신뢰도인 Cronbach’s α 값으로 측정되었 으며 0.768이었다. 해당문항을 제외한 검사의 신뢰도는 해 당 문항을 제거한 전체신뢰도 값을 알 수 있으며 Table 6과 같다.

문항 16, 17, 29번의 경우, 전체 신뢰도인 0.768과 비교 하면 그 문항을 제거했을 때 검사 전체 신뢰도가 높아짐을 알 수 있다. 그러나 그 정도가 많이 크지 않으므로 양호한 문항으로 판단한다.

Table 6. Cronbach’s α.

Item Cronbach’s α item Cronbach’s α

1 0.765 16 0.772

2 0.765 17 0.759

3 0.767 18 0.768

4 0.765 19 0.767

5 0.762 20 0.771

6 0.760 21 0.757

7 0.758 22 0.763

8 0.759 23 0.753

9 0.754 24 0.759

10 0.754 25 0.764

11 0.761 26 0.764

12 0.757 27 0.755

13 0.768 28 0.760

14 0.761 29 0.769

15 0.767 30 0.762

Overall Cronbach’s α 0.768

2. CTT 기반 문항 분석결과

피험자의 원점수 총점으로 문항을 분석하는 CTT에 의해 30개 문항에 대한 분석을 실시하였다. 사용한 프로그램은 TestAn이고 결과는 Table 7과 같다 [2].

분석결과, 전체 검사의 평균 문항 변별도는 0.352, 평균 문항 난이도는 0.489이었으며, 평균 문항 추측도는 0.128 이었다. 또한 오답지 매력도 확인에서 분석결과, 18번 문항 에서 정답지인 4번답지에 대한 응답비율인 0.18보다 오답 지인 3번에 응답한 비율이 0.30으로서 매력적인 오답지가 존재하였다.

3. IRT 기반 문항 분석 결과

IRT에 의한 분석에는 R 프로그램이 사용되었으며 그 결과는 Table 8과 같다 [9,16].

IRT에서 문항의 표준오차와 문항정보함수의 관계는 Eq.

(3) 과 같이 역수 관계이다. 즉, 표준오차가 클수록 문항 정보함수가 제공하는 정보는 작다. Figure 2는 30개 문 항의 문항정보함수를 나타낸 것으로 정규분포의 종모양의 문항정보함수에서 최대점이 되는 능력 θ 지점을 설명하는 정보의 양이 가장 많음을 의미한다. 즉 CTT에서 측정오차 가 신뢰도와 바로 연관되는 것과 다른 의미로, IRT에서는 정보의 양이 많을수록 더 정확한 능력 추정치를 제공하는 신뢰도와 연관된다.

CTT에 의한 분석에서 피험자들이 정답이 아닌데도 응 답하게 되는 매력적 오답지가 존재했던 문항 18번의 경우를 예로 들면 문항 정보곡선이 평평하며, 낮은 정보량을 제공 하고 있는데 이는 문항의 표준오차가 크기 때문이다. 문항

(6)

Table 7. Item analysis results with CTT.

Item Discrimination Difficulty Guessing attractive distractors

1 0.260 0.900 0.025

2 0.330 0.570 0.108

3 0.260 0.810 0.048

4 0.280 0.890 0.028

5 0.380 0.590 0.103

6 0.400 0.780 0.055

7 0.440 0.420 0.145

8 0.420 0.580 0.105

9 0.510 0.610 0.098

10 0.510 0.400 0.150

11 0.380 0.300 0.175

12 0.460 0.610 0.098

13 0.260 0.350 0.163

14 0.390 0.710 0.073

15 0.280 0.390 0.153

16 0.210 0.440 0.140

17 0.430 0.610 0.098

18 0.220 0.180 0.205 V

19 0.200 0.090 0.228

20 0.100 0.080 0.230

21 0.460 0.660 0.085

22 0.350 0.260 0.185

23 0.510 0.470 0.133

24 0.430 0.400 0.150

25 0.340 0.380 0.155

26 0.340 0.580 0.105

27 0.490 0.740 0.065

28 0.400 0.540 0.115

29 0.160 0.080 0.230

30 0.360 0.240 0.190

Mean 0.352 0.489 0.128

Fig. 2. Total scoring distribution.

분석 결과에서 문항 난이도가 3.510로 매우 어려운 문항인 것으로 분석되었다.

또한 능력척도θ 를 X 축으로 문항의 정보량을 Y 축으로 한 정보함수I(θ)값은 Fig. 3의 문항그래프를 통해 확인하면 문항, 2, 3, 5, 11, 13, 15, 16, 18, 20, 26, 29번의 정보량이 0.2이하로 낮음을 확인할 수 있다. 한 문항의 정보는 Eq.

(3) 과 같이 측정표준오차 제곱근과 역수 관계에 있으므로

Table 8. Item analysis results with IRT.

Item Discrimination Difficulty Guessing

1 0.773 –2.987 0.125

2 0.545 –0.537 0.001

3 0.975 –0.064 0.603

4 0.844 –2.840 0.005

5 0.748 –0.522 0.002

6 1.480 –0.477 0.408

7 1.260 0.617 0.102

8 0.901 –0.394 0.001

9 1.328 –0.462 0.001

10 1.738 0.554 0.082

11 0.858 1.144 0.001

12 1.131 –0.471 0.000

13 0.404 1.644 0.012

14 0.875 –1.208 0.002

15 0.554 1.508 0.107

16 0.272 0.948 0.001

17 0.908 –0.593 0.001

18 0.507 3.510 0.024

19 1.199 3.036 0.044

20 0.999 4.783 0.067

21 1.148 –0.735 0.001

22 1.414 1.485 0.104

23 1.324 0.121 0.001

24 0.932 0.517 0.001

25 0.979 1.275 0.160

26 0.649 –0.413 0.037

27 1.478 –0.955 0.018

28 0.902 –0.075 0.051

29 0.442 5.656 0.001

30 1.512 1.505 0.097

Mean 0.969 0.519 0.069

측정의 표준오차가 작을수록 정보의 양은 많아진다. 이는 함수 극대값의 정보양이 큰 문항일수록 해당 능력에서의 추정이 정확하게 이루어졌음을 의미한다. 이러한 개별 문 항 정보함수의 합산은 검사정보함수가 되며, 검사가 특정 능력 수준 θ 에서 가장 많은 정보를 제공하는 θ 지점의 값이 검사의 전체 난이도이다. 본 연구 검사 난이도는 IRT 문항 난이도 분석의 평균 난이도 값인 0.519지점에서 가장 많은 정보량을 제공하고 있으므로 중간 수준의 난이도를 보인다.

4. 두 검사이론에 의한 문항 분석결과 비교

Table 9에서 음영 처리한 문항은 두 검사이론을 통한 응 답자료의 분석결과 문항특성에 의한 판단에 의해 검토의 대상이 되는 문항이다. CTT에서는 변별도가 0.3 이하로 너무 낮거나 문항 추측도인 오답지 매력도에 비해 정답지 보다 높은 답지가 존재하는 문항에 대한 검토가 필요하다.

CTT 분석 결과, 문항 변별도가 0.3 미만인 문항은 문항 1, 3, 4, 13, 15, 16, 18, 19, 20, 29번이다.

(7)

Table 9. Comparison results between CTT and IRT.

Item Correct

reponsed examinee

CTT IRT

Discrimi

–nation Difficulty Guessing Discrimi

–nation Difficulty Guessing

1 823 0.260 0.900 0.025 0.773 –2.987 0.125

2 518 0.330 0.570 0.108 0.545 –0.537 0.001

3 735 0.260 0.810 0.048 0.975 –0.064 0.603

4 815 0.280 0.890 0.028 0.844 –2.840 0.005

5 535 0.380 0.590 0.103 0.748 –0.522 0.002

6 709 0.400 0.780 0.055 1.480 –0.477 0.408

7 384 0.440 0.420 0.145 1.260 0.617 0.102

8 525 0.420 0.580 0.105 0.901 –0.394 0.001

9 560 0.510 0.610 0.098 1.328 –0.462 0.001

10 365 0.510 0.400 0.150 1.738 0.554 0.082

11 273 0.380 0.300 0.175 0.858 1.144 0.001

12 552 0.460 0.610 0.098 1.131 –0.471 0.000

13 322 0.260 0.350 0.163 0.404 1.644 0.012

14 651 0.390 0.710 0.073 0.875 –1.208 0.002

15 353 0.280 0.390 0.153 0.554 1.508 0.107

16 399 0.210 0.440 0.140 0.272 0.948 0.001

17 559 0.430 0.610 0.098 0.908 –0.593 0.001

18 160 0.220 0.180 0.205 0.507 3.510 0.024

19 80 0.200 0.090 0.228 1.199 3.036 0.044

20 72 0.100 0.080 0.230 0.999 4.783 0.067

21 604 0.460 0.660 0.085 1.148 –0.735 0.001

22 235 0.350 0.260 0.185 1.414 1.485 0.104

23 430 0.510 0.470 0.133 1.324 0.121 0.001

24 365 0.430 0.400 0.150 0.932 0.517 0.001

25 344 0.340 0.380 0.155 0.979 1.275 0.160

26 526 0.340 0.580 0.105 0.649 –0.413 0.037

27 675 0.490 0.740 0.065 1.478 –0.955 0.018

28 492 0.400 0.540 0.115 0.902 –0.075 0.051

29 75 0.160 0.080 0.230 0.442 5.656 0.001

30 220 0.360 0.240 0.190 1.512 1.505 0.097

Mean 0.352 0.489 0.128 0.969 0.519 0.069

Fig. 3. Item information function of each items(q1 to q30).

IRT 분석의 목적은 문항과 피험자의 수준 θ 의 서열화에

Fig. 4. Test information function.

있으므로, 지나치게 문항 변별도가 낮거나 (e.g. α≤ 0.35 인 문항) 사회과학에서 고려하는 일반적인 θ 의 범위 ±3 을 벗어나는 난이도의 문항은 피험자가 모두 맞거나 모두 틀리게 되어 정보를 파악하기 위한 기능이 어렵다. 즉, 너무

(8)

어렵거나 너무 쉬운 문항은 검토의 대상이 된다. 또한 선다 형 문항의 답지 수에 기준하여 1/답지수의 값을 넘어서는 문항 추측도를 보이는 문항 역시 검토의 대상이 된다. 그 이유는 IRT 문항 추측도의 의미가 피험자가 문제에 정답 할 능력이 없음에도 불구하고 추측을 통해 정답하게 되는 정도이기 때문이다.

한편 문항이 제공하는 정보가 너무 낮은 문항은 그만큼 표준오차가 크다는 것을 의미하므로 양호한 문항이 아니다.

본 연구 결과 문항 1, 18, 20, 29번은 문항 난이도가 지나 치게 높으며 문항 16번은 문항 변별도가 매우 낮아 ‘almost none’에 해당되므로 검토가 필요하다. 또한 문항 3, 6번은 문항 추측도 면에서 각각 0.603과 0.408로 5지 선다형인 검사에서 예상되는 추측도의 가장 큰 범위인 0.2보다 훨씬 큰 값을 가지므로 검토의 대상이 된다.

그러나 평균 문항특성으로 검사를 전반적으로 판단할 때, CTT에 의한 문항 난이도는 문항변별도가 0.3이상이며, 문항 난이도는 중간 난이도인 0.5에 가깝고 문항 추측도도 0.2이하로 확인된다. IRT에 의한 분석에서도 평균 문항 변별도인 검사의 변별도는 0.969로 적절하며, 검사의 난이 도인 평균 문항 난이도는 0.52로 중간정도 난이도이며, 문항 추측도는 0.069로 0.2보다 낮으므로 양호한 검사이다. 종합 적으로 두 검사이론에 의한 문항분석 결과, 검사는 전체적 으로 양호한 문항특성을 보이고 있으며, 문항 1, 3, 18, 20, 29번과 같이 공통적으로 문제를 보이는 일부 문항에서는 검토가 필요한 것으로 판단된다. 문항검토는 문항의 내용 상 검토가 이루어지거나, 문항제작원리에 어긋나는 문항이 있는지 등의 검토가 가능하다. 문항내용의 검토는 자격을 갖춘 내용 전문가 다수에 의한 위원회를 통해 가능하며, 문 항제작원리에 의한 검토는 질문과 답지를 구성하는 용어, 길이, 명료성 등을 확인하여 문항의 구조적 문제를 파악할 수 있을 것이다.

V. 결 론

본 연구는 2018년 2월에 시행된 제1급 물리인증제의 시 험결과를 두 가지 일반적인 검사이론인 CTT와 IRT 체계를 적용하여 분석하였다. 총 30개 문항에 대한 문항 변별도, 문항 난이도, 문항 추측도를 각 방법에 따라 추정하고 비교 하여 전체적인 검사의 양호도를 판단하였다. 분석 과정에서 자료의 코딩은 기존의 채점 방식인 ‘오답 시 페널티인 과실 점수 1점 부과를 통한 피험자의 문항 추측도를 추정하는 것이 아니라, 일반적인 오답인 0점으로 채점한 상태에서 두 검사이론에서 추정하는 문항 모수인 문항 추측도를 계산하 였다. 또한 각 문항 모수 값의 추정과 그 해석에 따라 검토

와 개선을 요하는 문항을 선별할 수 있음을 확인하였다. 본 연구에서 제시한 통계적 자료의 의미는 너무 낮은 정답률을 보이는 문제, 매력적인 오답지등으로 인하여 능력을 제대로 평가했는지의 여부등의 검토시 해당 문제를 선별하는데 있 어 효율적이며 객관적인 근거를 제공할 수 있을 것이라 할 수 있을 것이다. 분석결과 CTT에 의한 각 문항모수 값은 대체로 양호하였으며, 검사의 신뢰도는 매우 높았다. 또한 IRT에 의한 검사 결과 전반적인 검사는 양호하였으나 일부 문항의 모수 산출 결과를 통해 검토를 통한 수정 · 개선이 필요함을 확인하였다. 본 연구의 제한점은 문항의 비공개로 인한 내용의 맥락적 분석이 불가능한 점, 또한 IRT에서의 일차원 가정을 위한 차원성의 내용적 검증이 불가능한 점이 다. 이러한 제약이 해결될 경우 후속 연구에서 보다 정밀한 분석이 가능할 것이라 예상한다. 그러나 본 연구에서 밝힌 바와 같은 교육 측정 평가학적 문항 양호도의 분석결과는 다음과 같은 의의를 갖는다. 먼저, 문항 개발 시 문항 변별 도, 문항 난이도, 문항 추측도의 문항 모수 측면에서 양호한 문항의 특성을 유지하고, 검토가 필요한 문항들은 내용 전 문가들의 확인을 거쳐 양호한 문항으로 개선할 수 있다. 더 나아가 검토 대상이 되었던 문항들의 내용적 또는 문항의 질문 방식들의 구조적 특징들은 새로운 문항을 개발할 때 주의할 지침사항으로 기능할 수 있다. 이를 통해 물리인 증제의 구성문항들이 정확성과 신뢰성을 갖추도록 하는데 기여할 수 있을 것으로 기대한다.

감사의 글

이 연구는 한국물리학회 물리교육분과의 2018 물리 인 증제 시험 수행 자료의 제공으로 수행되었으며 2018학년도 이화여자대학교 대학원 장학금 지원에 의한 논문입니다.

REFERENCES

[1] T. J. Seong, Educational Evaluation(5th ed.).

(Seoul: hakjisa, 2019).

[2] T. J. Seong, M. Y. Song, TestAn. 1.0: Item Analy- sis program by Classical Test Theory. (Seoul: Arisu Media, 2000).

[3] T. J. Seong, Validity and Reliability(2nd ed.) . (Seoul: hakjisa, 2007).

[4] S. Ahn, S. Choi, New Phys.: Sae Mulli 68, 599 (2018).

(9)

[5] M. J. Allen, W. M. Yen, Introduction to Measure- ment Theory. Long Grove, IL (Waveland Press, 2002).

[6] F. B. Baker, S. Kim, tem Response Theory: Param- eter Estimation Tequeniques(2nd ed.). (NY: Marcel Dekker Inc, 2004).

[7] A. Birnbaum, Some latent trait models and their use in inferring an examinee’s ability (Statistical The- ories of Mental Test Scores, Addison-Wesley, Read- ing, MA, 1968) pp. 397-479.

[8] J. S. Cangelosi, Designing tests for evaluating stu- dent achievement (NY: Longman, 1990).

[9] R. P. Chalmers, J. Stat. Softw. 48, 1 (2012).

[10] R. J. D. Ayala, The theory and practice of item re- sponse theory (New York, The Guilford Press, 2009).

[11] R. L. Ebel, Essential of Educational Measure- ment(3nd ed.) (Englewood Cliffs, NJ: Prentice- Hall, 1972).

[12] S. E. Embretson, S. P. Reise, Item response theory for psychologists (Mahwah, NJ: Erlbaum, 2000).

[13] F. M. Lord, A theory of test scores(Psychometric Monograph No.7) (Psychometric Society, 1952).

[14] R. K. Hambleton, H. Swaminathan, Item response theory: Principles and applications (Boston, MA:

Kluwer, 1985).

[15] F. M. Lord, Applications of item response theory to practical testing problems (Hillsdale, NJ: Erlbaum,

1980).

[16] R: A language and environment for statistical com- puting, www.r-project.org