물리인증제의 합리적 합격 준거 설정 방법에 대한 Modified Angoff, Bookmark, IDM�방법 비교 연구

(1)

http://dx.doi.org/10.3938/NPSM.68.599

Proposal for a Cut Score for the Physics Ability Test:

Comparison between the Modified Angoff, Bookmark, and IDM Methods

Sunyoung Ahn

Department of Education, Ewha Womans University, Seoul 03760, Korea

Soobong Choi

^∗

Department of Physics, Incheon National University, Incheon 22012, Korea (Received 27 March 2018 : revised 2 May 2018 : accepted 15 May 2018)

We analyzed the results of the physics ability tests that have been held by The Korean Physical Society since 2010. We employed the modified Angoff method based on classical test theory (CTT), the bookmark method, and the item-descriptor matching (IDM) method based on item response theory (IRT) to validate the cut score for a reasonable and practical test. The analysis showed that the cut score estimates obtained by using the three methods agreed with one another and were compatible with the current cut score. We believe that the proposed analysis and cut score validation will provide guidelines for setting a reasonable and proper pass rate for the test.

PACS numbers: 01.30.Rr, 01.40.-d, 01.40.Fk, 01.40.gf, 01.50.Rt

Keywords: Standard setting methods, Physic examination, Modified Angoff method, Bookmark method, IDM method

물리인증제의 합리적 합격 준거 설정 방법에 대한 Modified Angoff, Bookmark, IDM�방법 비교 연구

안선영

이화여자대학교 교육학과, 서울 03760, 대한민국

최수봉

^∗

인천대학교 물리학과, 인천 22012, 대한민국

(2018년 3월 27일 받음, 2018년 5월 2일 수정본 받음, 2018년 5월 15일 게재 확정)

본 연구는 한국물리학회 주관으로 2010년부터 현재까지 시행되고 있는 물리인증제 중 제 2급 시험 1 개 회차 시험 문제 25문항에 대해 합격 준거 설정 방법을 적용하고 물리인증 시험의 성격과 목적에 맞는 합리적이고 체계적인 합격선 준거 설정 가능성을 모색하였다. 고전 검사 이론에 근거한 수정된 (modified) Angoff 방법과 문항 반응 이론에 근거한 bookmark 방법과 IDM 방법 세 가지로 각각 합격 준거 설정을 해보고 그 결과를 비교하였다. 각 준거 설정 방법 간 합격한 피험자 분류에 대한 평정일치도 결과, 세 방법 모두 매우 높은 일치도를 보였다. 이를 통하여 물리인증제의 인증율의 적절한 결정에 대한 가이드 라인을 제시하였다.

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

(2)

PACS numbers: 01.30.Rr, 01.40.-d, 01.40.Fk, 01.40.gf, 01.50.Rt

Keywords: 준거 설정, 물리인증제, Modified Angoff 방법, Bookmark 방법, IDM 방법

I. 서 론

그동안 우리나라에서는 4차 산업혁명 시대에 기여할 수 있는 과학 인재육성을 위한 정책지원과 대중의 관심이 끊 임없이 이루어져 왔다. 그 결과 한국중등과학올림피아드 (Korea junior science olympiad, KJSO) 를 비롯하여 과학 과 세부 과목으로 물리, 화학, 생물, 지구과학, 천문 올림피 아드, 물리인증제 등 다양한 과학 관련 프로그램의 개발이나 대회 등이 시행되고 있다. 이 중 한국물리학회에서 주관 하고 있는 물리인증제는 물리 과목에 대해 학생 뿐 아니라 일반 대중적 관심을 증진시키고 체계적인 물리 학습능력을 기르도록 동기부여를 하는 목적으로 시행되고 있다. 제 1 급부터 6급에 이르기까지 물리 영역에 대한 수준별 검사를 통해 피험자들이 자기 능력을 확인할 수 있고 능력 향상에 도움을 줄 수 있는 지침이 되도록 해왔다. 출제되는 내용은 학교 교육과정과 완전히 일치하지 않으나 큰 흐름에서는 같이하고 있으며 제 5∼6급은 중학교 과학의 물리, 제 3∼4 급은 고등학교 물리 제 1∼2급은 대학교 일반물리 수준으로 구분되었다. 인증준거 점수는 해당 회차의 성적 분포를 통하여 인증제 조직위원회의 논의를 통하여 결정되게 되며, 공식적으로 고정 점수 80이상 득점 시 해당 급수에 대한 인증을 부여한다. 비슷한 해외사례로 미국 대학교육협의 회 (The college board) 주관 AP (advanced placement) Physics 1, 2 의 경우, 고등학생이 대학교 수준의 물리학 선수과정을 이수하고 자격 시험을 통과하면 선수 학점으로 인정해주는 프로그램이다. 실제 교과 과정 상 학점으로 반 영된다는 면에서 물리인증제와는 확연히 다르지만 등급을 구분하는 자격 시험이라는 점에서 유사하다. AP 시험의 등급은 5점부터 1점까지 구분되며 현재 미국 대학생의 수행 수준에 맞춰 5점은 A, 4점은 A⁻, B, 3점은 B⁻, C⁺, C⁻의 수준이며 3점 이상 득점이 선수학습인정의 준거기준이다.

고정 점수나 고정 비율에 의한 합격 점수는 응시하는 피험자 집단의 능력에 따라 합격률이 유동적이고 인증시험의 피험 자 집단의 특성과 수준에 따라 합격률이 매 검사를 시행할 때마다 달라질 수 있다. 특히 피험자에게 중요한 결과가 달린 고부담 검사일수록 등급을 구분하는 기준이 명확하지 않다면 시험에 대한 타당도나 신뢰도를 높이는데 기여할 수 없다.

준거는 어떤 지식이나 기술에 대하여 대중들이 어느 수준 정도의 능력을 갖추었다고 판단하는 기준으로 정의되며 [1]

∗E-mail: [email protected]

학생들이 무엇을 얼마나 알고 있는지를 가늠하는 기준이다 [2]. 어떤 검사에서 사용하는 준거는 검사의 목적과 성격에 맞게 선택되어야 한다. 인증시험은 피험자가 자신의 물리 학습능력이 어느 정도인지를 스스로 파악하고자 하는 목적 이 있으므로 고정 점수에 의한 준거 점수설정은 인증시험이 갖는 검사의 목적과 성격에 맞지 않는다. 따라서 본 연구는 다음과 같은 목적이 있다. 첫째, 물리인증제에 적용할 수 있는 다양한 준거 설정 방법을 소개하고 둘째, 준거 설정 방법 중 교육학 분야에서 비교연구가 많이 되어 있으며 실제 적용사례가 많은 modified Angoff�방법과 bookmark�방법 과 더불어 IDM (item-descriptor matching) 방법을 실제 데이터에 적용하여 준거 점수를 설정하는 것 셋째, 설정된 준거 점수들을 비교하고 제시된 물리인증제 준거 점수를 현행 합격 점수와 비교하여 합리적인 준거 점수 설정 방법을 모색하는 것, 넷째, 준거 설정자의 평정 결과의 일치도와 준거 방법 간의 일치도를 확인하여 준거 설정 방법의 내적, 외적 타당성을 확인하는 것 등이다.

II. 이론적 배경

1. 준거 설정

준거 설정은 의사 결정 과정의 하나이며, 합격과 불합격을 구분하는 분할 점수 (cut score) 를 합리적으로 정하는 일이 다. 분할 점수는 어떤 척도 위에 설정되는 특정 점수이고 [3], 피험자의 수행을 둘 이상의 수준으로 구분하기 위해 정한 점수이며 준거 설정 결과를 통해 산출된다 [4]. 준거 설정 방법의 선택은 다음의 몇 가지 고려를 통해 이루어진 다. 검사의 목적과 관련이 있을 것, 검사에 의해 측정되는 지식, 기술 수준과 연관이 있을 것, 검사의 유형, 넷째, 피 험자 수행범주의 수, 다섯째, 비용과 시간에 관련된 실제적 문제 등이다 [5]. 또한 피험자의 수행에 있어 성취 수준에 대한 기술 (performance level description) 은 준거 설정 작 업에서 중요하며 우선 정해져야 하는 부분이다. 지식이나 기술수준에 대한 성취 수준은 합격과 불합격의 두 개 범주나 둘 이상의 수행범주로 나뉜다. 성취 수준 기술은 각 성취 수준에 대해 구체적인 교수·학습 목표를 진술한 것으로 성취 수준에 대한 타당도 확보를 위해 중요하다 [6]. 또한 준거 설정에서 중요한 점은 최소 능력 보유자개념 정의를 명확히 하는 것이다. 최소 능력 보유자는 합격과 불합격의 경계에 위치한, 간신히 분할 점수를 넘겨 합격하는 피험자를 의미

(3)

한다 [5]. 만약 준거 설정자들이 최소능력 보유자에 대한 개념이 명확하게 인지하고 있지 않으면, 준거 설정결과가 필연적으로 불일치하기 때문에 준거 설정에 앞서 반드시 최소 능력 보유자에 대한 설명과 충분한 이해가 필요하다.

2. 준거 설정 방법

Mills와 Melican에 의해 네 가지 범주로 정리된 준거 설정 방법에는 첫째, 고정 비율에 의해 피험자의 합격과 불합격을 결정하는 규준적 준거 설정 방법, 둘째, 피험자 집단 특성 평가에 의한 준거참조적 준거 설정 방법, 셋째, 검사도구의 내용분석평가에 의한 준거 설정 방법, 넷째, 규준적 준거 설정 방법과 준거참조적 준거 설정 방법의 절충적 준거 설정 방법이 있다 [7]. 피험자 집단 특성 평가에 의한 준거 참조적 준거 설정 방법에는 집단 비교 방법과 경계선 집단 방법 (borderline group) 의 하위 방법이 포함된다. 검사 도구의 내용 분석 평가에 의한 준거 설정 방법에는 Nedelsky 방법, Angoff 방법, Jaeger 방법, Ebel 방법 등이 있다. 절충적 준거 설정 방법에는 Hofstee 방법, Beuk 방법, De Gruijter 방법이 있다 [2,8,14].

1) Modified Angoff 방법

초기 Angoff 방법은 선다형 문항에 대한 분할 점수의 설 정을 위해 소개 되었다. 평정 (round) 을 위한 문항 난이도는 전체 피험자 중 정답한 확률을 문항의 난이도로 파악하는 고전 검사 이론 (classical test theory, CTT) 을 근거로 한 다. Angoff 방법은 최소 능력 보유자를 100명 가정한 상 태에서 평정을 한다. 한 명의 평정자가 각 문항에 대하여 평정자들이 판단하기에 몇 명이 그 문항에 정답할 것인지를 평정자들이 판단하여 문항마다 가상의 정답률을 정한다.

그리고 전체 문항에 할당된 정답률들을 합한 값이 그 평정자 가 설정한 준거 점수가 된다. 평정자가 여러 명일 경우 준거 점수들의 평균값이 최종 준거 점수가 된다. 초기 Angoff 방 법은 한 번의 평정으로 끝나지만, modified Angoff 방법의 경우 여러 번의 반복 평정이 이루어지며, 평정과 평정 사 이에 이전 평정 결과를 각 평정자들에게 제시한다. 평정과 평정 사이에 제공되는 평정 결과는 다른 평정자들이 어떻게 평정했는지 본인의 평정과 비교를 통해 의견을 고수하거나 의견을 수정하는 과정에서 평정자 간의 의견일치가 보다 빠르고 합리적으로 이루어질 수 있다는 장점이 있다. 또한 전체 검사 총점과 문항의 정답률을 문항의 난이도로 삼는 고전 검사 이론을 바탕으로 하기 때문에 문항 모수를 따로

추정할 필요가 없어 방법이 쉽고 간단하다는 장점이 있다.

최초로 방법을 제안한 Angoff가 방법에 대해 엄격하게 정 해진 절차를 제시하지는 않았기 때문에 최소 능력 보유자의 정답 확률이라는 기본 개념을 바탕으로 다양한 분야에서 수많은 변형을 이루며 활발히 사용되고 있다 [9]. 실제 미국 의 의사 자격 시험 USMD의 합격선설정 방법은 modified Angoff 방법을 사용하고 있고 우리나라 국가 학업성취도 평가에서도 modified Angoff 방법을 사용하여 학생들의 성취 수준에 대한 구분 기준을 마련하고 있다 [10]. 최초의 Angoff 방법이 선다형 문항에만 사용되는 한계점이 있다면 Extended Angoff 방법에서는 선다형 문항뿐 아니라 서답형 문항에서도 사용 가능하도록 제안되었다. 따라서 선다형 문항과 서답형 문항이 혼합되어있는 검사에서의 준거 설정 에서도 사용이 가능하다 [11].

2) Bookmark 방법

Bookmark 방법은 문항 반응 이론(item response theory, IRT) 을 근거로 한 문항연계 방법의 하나이다. 문항연계 방 법이란 문항이 가지고 있는 난이도와 그 문항의 피험자 성취 수준을 연계하는 방법이다. 여기서 사용되는 문항 난이도는 문항이 그 자체로 고유한 특성을 지니고 있다는 문항모수의 불변성 개념을 바탕으로 하여 추정되므로, Angoff 법에서 사용한 피험자 정답률에 의한 문항 난이도와 다른 개념이다.

Bookmark 방법을 사용하기 위해서는 문항순서집 (ordered item booklet, OIB) 을 먼저 구성해야 한다 (Fig. 1). OIB 는 다음과 같이 구성된다. 먼저 IRT이론에 근거하여 추정한 전체 문항 난이도를 파악한다. 그리고 문항에 대한 정보를 담은 문항카드를 작성한다. 문항카드에는 문항의 내용, 채점기준, 예시답안 혹은 정답을 포함한다. 문항카드가 완 성되면 1모수 Rasch 방법으로 분석한 경우 문항의 난이도 순으로, 2모수 방법으로 분석한 경우 피험자의 정답 확률 (response probability) 이 0.67이 되는 지점에서의 능력수 준 값 순서로 문항카드를 배열하게 된다. 2모수 모형 적용 분석에서 67%의 정답률 사용은 Huyhn [12]이 밝힌 1모수 와 2모수 모형을 적용하여 문항모수를 추정할 경우 0.67 의 정답 확률에서 전체 정보가 극대화 된다는 연구 결과를 바탕으로 한 것이다. 문항카드를 오름차순 혹은 내림차순 으로 배열한 다음, 최소능력 보유자의 2/3인 67%가 정답 할 확률지점에 북마크를 한다. 즉 준거 설정자의 판단에 의해 그 문항 다음부터는 최소 능력 보유자의 정답률이 67%

아래로 감소할 지점을 예상하여 지정하는 것이다.

(4)

3) IDM 방법

IDM 방법은 문항과 피험자의 내용 영역에서의 성취 수준 기술을 연계하여 준거를 설정하는 방법으로 미국 메릴랜 드 주정부가 검사개발기업 CTB/McGrawHill과 1991년에 수행평가 프로그램의 준거 설정을 위해 개발한 방법이다.

1999년 필라델피아주의 고등학교 졸업시험의 성취 수준을 정하는데 사용되면서 IDM 방법이 수정 보완되었다. 이후 미국 소규모 검사, 남미지역의 대규모 검사 등에서 활발히 사용되고 있다 [2,5].

IDM 방법은 문항 반응 이론에 의해 문항 난이도를 추정하 여 만든 문항순서집 (OIB) 을 사용한다는 점에서 Bookmark 방법과 공통점이 있다. 그러나 IDM 방법의 피험자수준 분 할 점수 설정에서는 문항 난이도나 정답 확률 순서만 고려하 는 것이 아니라 그 문항에 해당하는 내용 영역과 피험자의 성취 수준에 대한 고려도 포함된다는 점에서 Bookmark 방법의 준거 설정과 차이를 보인다.

IDM 방법의 절차는 다음과 같다. 첫째, 준거 설정자들은 Bookmark 방법에서처럼 문항순서집 (OIB) 을 먼저 검토 하고, 문항 난이도나 정답 확률을 확인한다. 둘째, 미리 설정한 성취 수준의 단계에 따라, 각 문항에서 해당 문항의 해결에 필요한 지식, 기술, 인지과정을 가장 잘 기술한 성취 수준 기술 (performance level description) 이 무엇인지를 숙고한다. 셋째, 각 문항과 적합한 성취 수준을 연계시킨다.

IDM 방법에서 분할 점수를 정할 때 중요한 개념은 경계 지역 (thresholds) 이다. Bookmark 방법에서는 준거 설정 자들이 문항 난이도 혹은 67% 정답 확률에 의한 능력 (θ) 만을 고려하기 때문에 반드시 연속적인 판정이 요구된다.

그러나 IDM 방법에서는 준거 설정자들이 피험자의 성취 수준을 고려하기 때문에 성취 수준 기술 (PLD) 과 문항을 연계한 결과를 문항순서집 (OIB) 의 순서로 정렬하였을 때, 순차적 성취 수준 기술이 나타나지 않고 낮은 수준의 성취 수준 기술과 높은 수준의 성취 수준 기술이 뒤섞이는 지점이 나타날 수 있다. 예를 들어 기초 (basic), 보통 (proficient), 우수 (adavanced) 의 세 단계 성취 수준이 있을 때, 각 문항 이 해당하는 성취 수준을 문항 순서집의 순서대로 정렬하게 되면 성취 수준의 단계가 기초, 보통, 우수의 단계 순서로 나타나지 않을 수도 있다는 것이다. 이렇게 문항순서집 (OIB) 에서 문항과 성취 수준 연계결과 성취 수준 기술이 혼재되어 나타나는 구간을 경계지역이라고 하며 경계지역 을 지정하는 방법에는 출발규칙 (starting rule) 과 종료규칙 (stoping rule) 이 있다 [13]. 출발규칙은 연속되지 않은 문 항연계를 보이는 문항에서 시작하여 세 문항 이상이 연속적 으로 하나의 성취 수준 기술로 연계되기 시작하는 첫 번째 문항까지를 경계선으로 설정하는 방법이다. 종료규칙은

Fig. 1. (Color online) Hypothetical Illustration of an Ordered Item Booklet

연속되지 않은 문항연계를 보이는 문항부터 세 문항이상이 연속적으로 하나의 성취 수준 기술로 연계되는 문항의 직전 문항까지를 경계지역으로 설정하는 방법이다. 준거 설정 을 위한 경계지역설정은 준거 설정자들이 판단하게 되며, 경계지역이 설정되면 경계지역에 속한 문항 난이도의 평균 혹은 중앙값을 준거 점수로 정한다.

III. 연구 방법

1. 준거 설정 자료

본 연구에서 사용한 자료는 한국물리학회주관으로 2010 년부터 현재까지 시행 중인 물리인증제의 2017년 시행 1개 회차 총 25개 물리 영역 비공개문항이다. 문항의 형태는 5 지선다 선택형문항이다. 전체 사례 수는 성별과 학년 구분 없이 826명이었고 대부분 중· 고등학생이 응시하였다. 물 리인증제는 응시자격 제한 없이 일반인 누구나 응시자격이 주어지며 제 1 급부터 제 6 급까지 물리 영역에서 내용의 수준을 달리하여 실시한다. 현행 합격 준거 점수는 고정 점수 80점으로 합격 준거 점수 이상 득점 시 자격을 인증 한다. 이 연구에서는 합격과 불합격 구분을 위한 하나의 합격 준거 점수를 산출하였다. 문항모수는 R프로그램의 irtoys package(version 0.2.0; Oct, 2016) 를 사용하여 2모 수 추정을 하였고 준거 설정자 평정 일치도는 SPSS 21.0 프로그램을 사용하여 Cohen’s Kappa계수를 계산하였다.

(5)

Table 1. Sample standard-setting meeting Agenda.

Orientation Jan. 31, 2018 Introduction to standard-setting procedures/Description of the procedures/

Distribution of rating sheets and instruction for Round 1.

Feb. 01, 2018 Round 1 for Each standard setting Methods.

Round 1

Feb. 02, 2018 AM 09:00 - 12:00 noon: Summary rating results of Round 1.

PM 01:00 - PM 05:00: Analysis of rating results.

Discussion of

Feb. 03, 2018 AM 09:00 - AM 10:00: Discussion of rating results.

rating results

Round 2 Feb. 03, 2018 AM 10:00 - AM 12:00: Distribution of rating sheets and instruction for Round 2.

(final) Feb. 14, 2018 Closing collect rating results of Round 2.

2. 준거 설정 절차

1) 준거 설정 평정자의 선정 및 사전 교육

준거 설정은 참여할 전문가선정, 사전 교육, 평정, 평정 결과 도출 등 일련의 과정을 거친다 (Table 1). 본 연구를 위해 섭외된 준거 설정 평정자는 전국 4 년제 대학 소재 물리학과 재직 교수 11명이며, 재직기간은 최소 3년에서 최대 30년이다. 선행연구에 따르면 안정적인 준거 점수 산출을 위해 준거 설정자의 충분한 인원이 요구된다 [4,21].

만약 충분한 준거 설정자가 확보되지 않은 경우 준거 설정 결과의 표준오차가 허용 범위를 넘는 오류가 발생될 수 있다 [3]. 구체적인 준거 설정자 수에 대해 보편적으로 10명∼20 명이 적당하고 교육측정분야에서는 15명∼30명이 적정인 원이라는 제안 [16]이 있으며 5명∼10명의 준거 설정자를 적정인원으로 제시하기도 한다 [17]. 반면 너무 많은 수의 준거 설정자는 의사결정합치를 이루기에 부적절하므로 5 명∼10명의 준거 설정자도 충분하다는 제안도 있다 [18]. 따 라서 이 연구에서는 실제 준거 설정과정으로서 의사결정의 수월함을 위해 내용 전문가 11명으로 준거 설정 참여전문가 수를 최종 결정하였다.

2) 준거 설정 시행 (a) 평정자 사전 교육 및 시행

준거 설정 평정은 다음의 과정을 거쳤다.

평정자 사전 교육에서는 이 연구의 준거 설정 방법인 modified Angoff 방법, bookmark 방법, IDM 방법에 대하 여 평정자들이 각 준거 설정 방법의 개념 및 시행 방법 제반 사항을 충분히 숙지하도록 평정시트 제시, 설명 자료 제공 등이 상세히 설명되었다. modified Angoff 방법의 경우 고전 검사 이론에 근거하여 전체 문항 수 25개로 각 문항에 대해 피험자들이 정답한 수를 나누어 산출한 각 문항별 정답률을 문항 난이도로 미리 제시하였다. Bookmark 방법에서는

Table 2. Likelihood Ratio Table (1PL < 2PL, 2PL >

3PL). Results of Model fit Goodness with R_irtoys AIC BIC log.Lik LRT df p.value 1PL 18551.62 18674.25 -9249.81

2PL 18311.13 18542.25 -9106.57 286.49 23 < 0.001 3PL 18335.31 18689.05 -9092.65 27.83 26 0.367

문항 반응 이론에 근거하여 2모수 로지스틱 모형을 적용한 문항모수를 추정하고 각 문항에서 피험자 정답 확률 0.67에 해당하는 능력모수를 추정하였다. 추정된 능력 모수의 오름 차순으로 배열된 문항순서집 (OIB) 을 바탕으로 합격선을 설정하도록 하였다. IDM 방법의 경우 각 준거 설정자는 피험자정답 확률 0.67 지점의 피험자 능력모수순서로 배열 된 문항 순서집 각 해당 문항의 내용 영역과 해당 문항의 피험자 성취 수준을 연계시키도록 하였다. 그리고 합격선 설정을 위해서 각 준거 설정자 본인이 연결한 성취 수준 순서가 혼재된 구간 즉, 경계지역 중에서 합격선을 산출할 경계지역을 직접 정하도록 하였다.

(b) 준거 설정시행 공통 사항

세 가지 준거 설정 방법을 시행하면서 본 연구에서 공통 적으로 사용한 방법은 다음과 같다.

첫째, 1차 평정 전 피험자 응답에 의한 실제 결과를 제 시하였다. 따라서 평정자들은 자료의 실제 특성을 미리 파악한 상태에서 준거를 설정하였다.

둘째, 2차 평정시작 전, 1차 평정 결과를 참고하여 조정이 이루어지도록 1차 평정 결과를 평정자들에게 제시하였다.

셋째, 간신히 합격할 최소 능력 보유자의 개념을 준거 설정자들에게 충분히 설명하였고 최소 능력 보유자의 예 상정답률을 각 문항마다 제시하도록 하는 modified Angoff 방법을 사용하였다.

넷째, bookmark 방법의 경우, 문항순서집 (ordered item booklet) 은 이 연구의 자료인 25개 문항을 문항 반응 이론

(6)

에 근거하여 2모수 로지스틱모형을 적용하여 문항모수를 추정하였고, 피험자정답 확률 0.67에서의 능력모수를 오름 차순으로 배열한 표로 제시하였다. 2모수 로지스틱모형의 적용 근거는 R-irtoys를 이용한 1모수, 2모수, 3모수에 대한 추정 결과를 바탕으로 모형적합도를 확인한 결과, 2모수 로 지스틱모형의 적합도가 가장 적절하였기 때문이다 (Table 2).

또한 이론적 배경에서 밝혔듯 2모수 로지스틱모형에서 최대 정보를 제공하므로 문항 순서집 제작에서 각 문항의 정답 확률 (response probability) = 0.67지점에서의 피험 자 능력모수 θ 값을 각각 계산하였다. 능력모수 θ 를 찾는 공식은 다음과 같다.

Pj(θ) = 1

1 + exp[−1.7aj(θ− bj)]

0.67 = 1

1 + exp[−1.7aj(θ− bj)]

θ = bj+ (0.693/1.7aj) (1) θ :능력모수, bj :문항 난이도, aj:문항변별도 또한 분할 점수로 설정된 능력 (θ) 를 modified Angoff 방 법에 의해 산출된 준거 점수와 비교하기 위해 원점수-척도 변환을 사용하여 진점수로 변환하였다. Bookmark 방법과 IDM 방법은 문항 반응 이론근거의 기본가정으로 Angoff 방법의 기본가정과 다르기 때문에 그대로 비교할 수 없다.

그러므로 25개 문항의 개별 문항 특성 곡선에서 정답 확률을 식 (1) 의 방법으로 계산하게 된다. 식 (2) 은 개별 문항 특성 곡선의 합으로써 그 검사의 검사 특성 곡선 식 (3) 이며 문항 반응 이론의 진점수 곡선이기도 하다. 각 문항에서의 정답 확률의 합은 modified Angoff 방법의 준거 점수와 비교 가 능해지며, 척도 점수변환은 검사 특성 곡선으로 식 (4) 를 통하여 계산된다. 즉, 문항 반응 이론에 의해 25개문항의 개별 문항 특성을 구하고, 그 합으로써 검사 전체의 특성 곡선이자 피험자 능력의 진점수를 파악하고 그 진점수를 다시 척도점수로 변환하게 되는 과정이다.

Pjk(θ) = exp[

m_j

∑

k=1

aj(θ− bjk)]

mj

∑

k=1

exp[

∑k j=1

aj(θ− bjk)]

,

k = 1, 2, ..., mj, j = 1, 2, ..., n (2) T S(θ) =

∑N i=1

Pi(θ),

i = 1, 2, ..., N (3)

Tj(θ) =

mj

∑

k=0

kPik(θ),

k = 1, 2, ...mj, j = 1, 2, ..., n (4)

Fig. 2. Classification examinee by two panelists.

다섯째, IDM 방법의 경우 성취 수준 기술의 단계를 기초 (basic), 숙달 (proficient), 우수 (advanced) 로 나누었으며, 문항의 내용 영역과 성취 수준 기술을 내용전문가 2인에 의해 사전에 설정하였다. 성취 수준 기술에 참여한 내용 전문가는 물리학 박사 취득 후 10 년 이상 전공분야에서 활동한 4 년제 대학교 물리학과 교수이다. 먼저 내용 전 문가별 성취 수준 기술을 작성하고 그 후 상호 교차 검토 하는 방식을 사용하였다. 확정된 성취 수준 기술과 문항 반응 이론에 의해 추정한 문항모수로 계산된 정답 확률 0.67 지점 능력척도의 오름차순으로 구성된 문항순서집 (OIB) 을 연계시키는 IDM 방법의 1차 평정이 이루어지고, 2차 평정이 시작되기 전 평정자 이름이 알파벳 익명처리 된 1 차 평정 결과 즉, 문항과 성취 수준 기술의 연계 결과를 각 평정자들에게 제공하였다. 그 뒤 최종 평정인 2차 평정에서 각 평정자들이 결정한 문항연계 결과 나타난 경계지역을 파악하였다. 그리고 평정자가 합격 준거 점수를 설정할 경계지역을 지정하도록 안내하여 그 경계지역 정답 확률 0.67지점 능력모수의 중앙값을 합격 준거 점수로 삼았다.

산출된 합격 준거 점수들은 다시 평균을 내어 최종 합격 준거 점수로 설정하였다. 최종합격 준거 점수와 다른 준거 설정 방법에 의한 준거 점수와의 비교를 용이하게 하기 위하여 bookmark 방법과 마찬가지로 문항 반응 이론의 2 모수 로지스틱 모형을 적용하여 산출된 검사 특성 곡선 식 (3) 을 이용하여 원점수-척도점수 변환으로 진점수 환산 후, 다시 100점 만점 기준 점수로 변환하였다.

(3) 준거 설정 방법 평가

준거 설정 방법을 평가하는 방법에는 내적 준거에 의해 평가하는 방법과 외적 준거에 의해 평가하는 방법, 절차적 준거에 의해 평가하는 방법이 있다 [15,19]. 본 연구에서는 내적 평가를 위해 준거 설정자내 분류일치도와 준거 설정자 간 분류일치도를 산출하였다. 그리고 외적 평가를 위해 각 준거 설정 방법 간 분류일치도를 계산하였다. 준거 설정자 내 분류일치도는 각 준거 설정자가 평정한 1차 평정과 최종 평정인 2차 평정 간의 일치도 통계량 (PA) 을 먼저 계산하고, 우연에 의해 일치할 확률을 제거한 Cohen의 Kappa 계수 를 산출하였다 [20]. 준거 설정자간 분류일치도는 세 가지

(7)

Table 3. Kappa coefficient evaluating standard.

Kappa coefficient Description

Under 0.4 Low

0.4∼ 0.6 Exist

0.60∼ 0.75 High

Above 0.75 Very high

준거 설정 방법의 1차 평정과 2차 평정 결과를 이용하여 일치도 통계량 (PA) 을 계산하고, Cohen의 Kappa 계수를 산출하였다. 준거 설정 방법의 외적 평가를 위한 준거 설정 방법간 분류일치도도 마찬가지로 Kappa 계수를 산출하였 다. Kappa 계수는 일치도 통계에서 우연에 의해 분류할 확률을 제거하여 일치도를 과대 추정하지 않도록 한 엄격한 방법이며, 일치도 통계량보다 낮은 값을 갖는다. 따라서 본 연구에서는 Kappa 계수만을 보고하였다. 일치도계수의 해석에 있어 절대적 기준은 없으나 일반적으로 일치도 통계 량 (PA) 은 0.85이상, Kappa계수는 0.6이상이면 높음, 0.75 이상이면 매우 높음으로 해석된다. 계산은 Fig. 2와 식 (5) 에 의하며, 그 해석은 Table 3과 같다 [2].

P_A=Npp+ Nf f

N

Cohen’s KAPPA coefficient = PA− PC

1− PC

PC= N_C N

NC= N.p× Np. + N.f× Nf.

N (5)

P_A: 일치도 통계량

PC: 우연에 의해 분류가 일치할 확률 N: 전체 피험자 수

NC: 우연에 의해 두 준거 설정 평정자에게 일 치된 평정이 될 기대 빈도

Npp: 준거 설정 평정자 1과 2 공통으로 pass로 분류한 피험자수

Nf f: 준거 설정 평정자 1과 2 공통으로 fail로 분류한 피험자수

N._p: 준거 설정 평정자 1이 pass로 분류한 피 험자수

N._f: 준거 설정 평정자 1이 fail로 분류한 피험 자수

N_p.: 준거 설정 평정자 2가 pass로 분류한 피 험자수

N_f.: 준거 설정 평정자 2가 fail로 분류한 피험 자수

Table 4. Cut-scores and their standard deviation of each standard-setting methods.

Standard-setting Methods Cut-score Standard deviation

Modified Angoff Round 1 69.57 15

Round 2 (final) 68.06 14

Bookmark Round 1 65.11 10

IDM Round 1 73.82 6

Table 5. Ratio of examinee classification with each standard setting methods.

Standard-setting Round 1 Round2 (final) Methods Examinee rate (%) Examinee rate (%)

Modified Pass 367 44.43 367 44.43

Angoff Fail 459 55.57 459 55.57

Bookmark Pass 436 52.78 367 44.43

Fail 390 47.22 459 55.57

IDM Pass 305 36.92 305 36.92

Fail 521 63.08 521 63.08

IV. 연구 결과

1. 합격 준거 점수와 피험자 분류 비율

1) 합격 준거 점수 비교

1차 평정 결과에서 가장 높은 합격 준거 점수는 IDM 방법 에 의한 점수로 73.82점이었고 평정자간의 점수 표준편차는 6이었다. 가장 낮은 합격 준거 점수는 bookmark 방법에 의한 점수로 65.11점이었고 평정자간의 점수 표준편차는 10이었다. 최종 평정인 2차 평정 결과에서 가장 높은 합격 준거 점수는 IDM 방법에 의한 점수로 73.82점이었고 평 정자간의 점수 표준편차는 6이다. 가장 낮은 합격 준거 점 수는 modified Angoff 방법에 의한 점수로 68.06점이었고, 평정자간 점수의 표준편차는 14였다.

1차 평정 결과와 비교하였을 때, modified Angoff 방법 은 합격 준거 점수가 낮아졌고, 표준편차는 1 감소하였다.

Bookmark 방법은 2차 평정 결과에서 1차보다 합격 준거 점수가 높아졌고 표준편차도 7로 감소하였다. IDM 방법 은 1 차와 2 차 합격 준거 점수가 같고 표준편차도 6 으로 동일하였다. 따라서 표준편차를 보았을 때 세 가지 방법 중 평정자간 의견 차이가 적은 방법은 IDM 방법이었고, 그 다음이 bookmark 방법, modified Angoff 방법 순서였다 (Table 4).

(8)

Table 6. Intra-panelist classification consistency : Cohen’s Kappa coefficient.

r1 r2 r3 r4 r5 r6 r7 r8 r9 r10 r11

Modified Angoff 1 0.85 1 1 1 1 0.33 1 1 1 1

Bookmark 1 0.85 1 1 1 1 0.41 0.31 1 1 1

IDM 1 0.83 1 1 1 1 1 1 1 1 1

Table 7. Inter-panelist classification consistency by modified Angoff method: Cohen’s Kappa coefficient. “r” denotes the identity of panelist.

r1 r2 r3 r4 r5 r6 r7 r8 r9 r10

r2 0.69

r3 1.00 0.69

r4 0.83 0.54 0.83

r5 0.33 0.55 0.33 0.25

Round 1 r6 1.00 0.69 1.00 0.83 0.33

r7 0.19 0.33 0.19 0.14 0.69 0.19

r8 1.00 0.69 1.00 0.83 0.33 1.00 0.19

r9 0.83 0.85 0.83 0.68 0.43 0.83 0.26 0.83

r10 0.29 0.16 0.29 0.38 0.06 0.29 0.03 0.29 0.21

r11 0.33 0.55 0.33 0.25 1.00 0.33 0.69 0.33 0.43 0.06

r2 0.83

r3 1.00 0.83

r4 0.83 0.68 0.83

r5 0.33 0.43 0.33 0.25

Round 2 r6 1.00 0.83 1.00 0.83 0.33

(final) r7 0.69 0.85 0.69 0.54 0.55 0.69

r8 1.00 0.83 1.00 0.83 0.33 1.00 0.69

r9 0.83 1.00 0.83 0.68 0.43 0.83 0.85 0.83

r10 0.29 0.21 0.29 0.38 0.06 0.29 0.16 0.29 0.21

r11 0.33 0.43 0.33 0.25 1.00 0.33 0.55 0.33 0.43 0.06

2) 각 준거 설정 방법에 의한 준거 점수와 피험자 분류 비율 비교

1차 평정 결과, modified Angoff 방법에 의해 분류된 피 험자는 전체 826명중 367명이 합격, 459명이 불합격이었 다. 분류 비율은 합격이 44.43%, 불합격이 55.57%였다.

Bookmark 방법에 의해 분류된 피험자는 전체 826명중 436 명이 합격, 390 명이 불합격이었다. 분류 비율은 합격이 52.78%, 불합격이 47.22%였다. IDM 방법에 의해 분류된 피험자는 전체 826명 중 합격이 305명, 불합격이 521명이 었다. 분류 비율은 합격이 36.92%, 불합격이 63.08%였다.

2차 최종 평정 결과 modified Angoff 방법에 의해 분류된 피험자는 전체 826명중 367명이 합격, 459명이 불합격으로 1차 평정과 같았다. 분류 비율은 합격이 44.43%, 불합격이 55.57%였다. Bookmark 방법에 의해 분류된 피험자는 전 체 826명중 367명이 합격. 459명이 불합격이었다. 피험자 분류 비율은 합격이 44.43%, 불합격이 55.57%였다. IDM

방법에 의해 피험자 분류 결과 역시 1차 평정 결과와 같았 으며 전체 826명 중 합격이 305명, 불합격이 521명이었다.

분류 비율은 합격이 36.92%, 불합격이 63.08%였다 (Table 5).

1차 평정 결과에서 합격한 피험자가 가장 적은 준거 설정 방법은 IDM 방법이었고, 합격한 피험자가 가장 많은 준거 설정 방법은 bookmark 방법이었다. 최종 평정인 2차 평정 결과에서 합격한 피험자가 가장 적은 준거 설정 방법은 역시 IDM 방법이었다. 한편 합격한 피험자가 가장 많은 준거 설정 방법은 modified Angoff 방법과 bookmark 방법으로 두 방법이 동일한 피험자 분류 결과를 나타내었다. IDM 방법과 modified Angoff 방법은 1차와 2차 동일한 피험자 분류 결과를 나타내었고 bookmark 방법에서 1차에 비해 2 차에서 피험자의 합격 분류 비율이 줄어들었다.

(9)

Table 8. Inter-panelist classification consistency in bookmark method: Cohen’s Kappa coefficient. “r” denotes the identity of panelist.

r1 r2 r3 r4 r5 r6 r7 r8 r9 r10

r2 0.85

r3 0.83 0.69

r4 0.85 1.00 0.69

r5 0.85 1.00 0.69 1.00

Round 1 r6 0.21 0.16 0.29 0.16 0.16

r7 0.31 0.23 0.41 0.24 0.24 0.80

r8 0.31 0.23 0.41 0.24 0.24 0.80 0.83

r9 0.83 0.69 1.00 0.69 0.69 0.29 1.00 0.83

r10 0.83 0.69 1.00 0.69 0.69 0.29 1.00 0.83 1.00

r11 0.85 1.00 0.69 1.00 1.00 0.16 0.69 0.85 0.69 0.69

r2 1.00

r3 0.83 0.83

r4 0.85 0.85 0.69

r5 0.85 0.85 0.69 1.00

Round 2 r6 0.21 0.21 0.29 0.16 0.16

(final) r7 0.83 0.83 1.00 0.69 0.69 0.29

r8 1.00 1.00 0.83 0.85 0.85 0.21 0.83

r9 0.83 0.83 1.00 0.69 0.69 0.29 1.00 0.83

r10 0.83 0.83 1.00 0.69 0.69 0.29 1.00 0.83 1.00

r11 0.85 0.85 0.69 1.00 1.00 0.16 0.69 0.85 0.69 0.69

2. 준거 설정 방법 평가

1) 내적 준거에 의한 평가

각 준거 설정 방법의 타당성을 평가하기 위해 준거 설정 평정자 내 분류일치도와 준거 설정 평정자 간 분류일치도를 비교할 수 있다.

(1) 준거 설정자 내 분류일치도

세 가지 방법에서 준거 설정 평정자 내 일치도 결과, 통 계적으로 모두 유의한 결과를 나타내었다. 다만, 7번 준거 설정자의 modified Angoff 방법, bookmark 방법 평정과 8 번 준거 설정자의 bookmark 방법 평정 결과를 제외하면 대부분 Kappa계수 평가 기준에 따라 매우 높은 평정자간 일치도를 보였다. 모든 Kappa계수는 통계적으로 유의하 였다 (Table 6).

(2) 준거 설정 평정자간 분류일치도

1차 평정 결과 신뢰도 평가가 0.4 미만인 경우는 평정자 1과 5, 7, 10, 11의 대비와 평정자 2와 7, 10의 대비, 평정자 3과 5, 7, 10, 11의 대비, 평정자 4와 5, 7, 10, 11의 대비, 평정자 5와 6, 8, 9, 10의 대비, 평정자 6과 7, 10, 11의 대 비, 평정자 7과 8, 9, 10의 대비, 평정자8과 10, 11의 대비,

평정자 9와 10의 대비, 평정자 10과 11의 대비로 55가지 경우에서 28가지의 경우에서 신뢰도 평가가 낮게 나타났다 (Table 7).

2차 평정 결과 신뢰도 평가가 0.4미만인 경우는 평정자 1과 5, 10, 11의 대비, 평정자 2와 10의 대비, 평정자 3과 5, 10, 11의 대비, 평정자 4와 5, 10, 11의 대비, 평정자 6 과 10, 11, 평정7과 10의 대비, 평정자 8과 10, 11의 대비, 평정자 9와 10의 대비 평정자 10과 11의 대비로 총 17가지 경우에서 신뢰도 평가가 낮게 나타났다. 1차 결과에 비해 2차 평정 결과에서 신뢰도 평가가 낮게 나오는 경우가 줄 어들어 평정자들 간의 의사결정에서 조정이 이루어졌음을 확인하였다. 1차와 2차 평정의 Kappa 계수는 모두 통계적 으로 유의하였다.

1차 평정 결과 신뢰도 평가가 0.4 미만으로 낮은 경우는 평정자 1과 6, 7, 8의 대비에서, 평정자 2와 6, 7, 8의 대비 에서, 평정자 3과 평정자 6, 7, 8의 대비에서, 평정자 4와 평정자 6, 7, 8의 대비에서, 평정자 5와 평정자 6, 7, 8의 대비에서, 그리고 평정자 6과 평정자 9, 10, 11의 대비에서, 평정자 7과 평정자 9, 10, 11의 대비에서, 평정자 8과 평정자 9, 10, 11의 대비에서 나타났다. 전체 55가지의 경우 가운데 24개 경우에서 신뢰도 평가가 낮게 나타났다. 또, 평정자 1, 2, 3, 4, 5, 9, 10, 11의 평정이 비슷하고 평정자 6, 7,

(10)

Table 9. Inter-panelist classification consistency by IDM method: Cohen’s Kappa coefficient. “r” denotes the identity of panelist.

r1 r2 r3 r4 r5 r6 r7 r8 r9 r10

r2 0.43

r3 0.55 0.85

r4 0.43 1.00 0.85

r5 0.43 1.00 0.85 1.00

Round 1 r6 0.74 0.64 0.78 0.64 0.64

r7 0.55 0.85 1.00 0.85 0.85 0.78

r8 0.55 0.85 1.00 0.85 0.85 0.78 1.00

r9 0.55 0.85 1.00 0.85 0.85 0.78 1.00 1.00

r10 0.40 0.13 0.17 0.13 0.13 0.25 0.17 0.17 0.17

r11 0.74 0.64 0.78 0.64 0.64 1.00 0.78 0.78 0.78 0.25

r2 0.33

r3 0.55 0.69

r4 0.43 0.83 0.85

r5 0.43 0.83 0.85 1.00

Round2 r6 0.74 0.50 0.78 0.64 0.64

(final) r7 0.55 0.69 1.00 0.85 0.85 0.78

r8 0.55 0.69 1.00 0.85 0.85 0.78 1.00

r9 0.55 0.69 1.00 0.85 0.85 0.78 1.00 1.00

r10 0.40 0.09 0.17 0.13 0.13 0.25 0.17 0.17 0.17

r11 0.74 0.50 0.78 0.64 0.64 1.00 0.78 0.78 0.78 0.25

8의 평정이 유사하여 두 개 집단으로 평정 결과가 나뉘어 나타났음을 알 수 있다.

2차 평정 결과 신뢰도 평가가 0.4 미만인 경우는 평정자 6과 1, 2, 3, 4, 5, 7, 8, 9, 10, 11의 10개 경우로 1차 평정에 비해 평정자 간 의사결정의 조정이 이루어지고 의견일치가 이루어졌음을 확인할 수 있다. 1차와 2차 평정 결과 Kappa 계수는 모두 통계적으로 유의하였다.

1차 평정 결과 신뢰도 평가가 0.4미만으로 낮은 경우는 평정자 10과 평정자 2, 3, 4, 5, 6, 7, 8, 9, 11과의 대비였다.

총 55가지 경우에서 9개 경우에서 신뢰도 평가가 낮음으로 나타났다. 2차 평정 결과에서 신뢰도 평가가 0.4미만으로 낮은 경우는 평정자 1과 2의 대비, 평정자 10과 평정자 2, 3, 4, 5, 6, 7, 8, 9, 11과의 대비였다. 신뢰도 평가가 낮게 나온 경우는 10개로 1차 평정에 비해 1개 경우가 늘어났다.

Table 9에서 보여지는 바와 같이 모든 Kappa 계수는 유의 하였다.

2) 외적 준거에 의한 평가

외적 준거에 의해 준거 설정 방법을 평가하기 위해 각 방법 간의 분류 일치도를 알아보았다. 이를 위해 준거 설

Table 10. Examinee classification consistency between three methods : Cohen’s Kappa coefficient.

Modified Angoff Bookmark

Bookmark 1.00

IDM 0.85 0.85

정평자 간의 분류일치도 계산과 동일하게 Cohen의 Kappa 계수를 산출하였다 (Table 10).

최종 2차 평정 결과 세 가지 방법으로 설정된 합격 준거 점수로 피험자를 분류한 결과에 대해 방법간 Kappa계수를 계산하였다. 그 결과, modified Angoff 방법과 bookmark 방법은 1.00, IDM 방법과 나머지 두 방법 간 Kappa 계수는 0.85로 높은 일치도를 보였다.

3) 절차적 준거에 의한 평가

평정 종료 후 11명의 평정자에게 준거 설정 방법에 관한 설문을 한 결과, 준거 설정 방법 중 가장 이해하기 쉬운 방법 은 modified Angoff 방법이었으며 실제 적용 시 가장 유용한 방법도 modified Angoff 방법으로 조사되었다 (Table 11).

(11)

Table 11. Survey results of each standard setting methods after rating.

Questionnaire Modified Angoff Bookmark IDM Hofstee Total

Which method is the most easy to understand? 7 3 0 1 11

Which method is the most difficult to understand? 1 2 1 7 11

Which method is the most useful to practical application? 5 2 2 2 11

V. 결 론

물리인증시험의 준거 설정 연구 결과는 다음과 같다.

첫째, modified Angoff 방법과 bookmark 방법을 사용하 여 각각 합격 준거를 설정한 결과 최종 평정 결과에서 IDM 방법이 가장 높은 합격 준거 점수를 산출하였고, 나머지 두 방법의 합격 준거 점수는 동일하게 산출되었다. 그러나 1 차 평정 결과에서는 bookmark 방법이 가장 낮은 합격 준거 점수를 산출하였다.

둘째, 세 가지 준거 설정 방법에서 평정자내 신뢰도를 알 아보기 위해 Kappa 계수를 계산한 결과 대부분 매우 높은 일치를 보였다. 또한 신뢰도계수가 모두 통계적으로 유의 하였으므로 준거 설정 평정자내 평정 결과의 내적타당성을 확보하였다.

셋째, 세 가지 준거 설정 방법에서 평정자간 신뢰도를 알아보기 위해 계산한 Kappa 계수는 모두 통계적으로 유 의한 결과를 나타내었고 준거 설정 평정자간 평정 결과의 내적타당성을 확보하였다. 실질적인 신뢰도 평가 기준에 따라 해석하면, 일치도가 낮은 경우가 발생하였는데 1차 평정 결과에서보다 2차 평정 결과에서 대부분 낮은 일치도 의 경우가 감소하는 것을 확인하였고 IDM 방법에서는 2 차 평정에서 1차 평정에서보다 1개의 낮은 일치도 경우가 증가하였다. 따라서 1차 평정 결과의 제공 후 2차 평정을 실시하였을 때 1차 평정 결과보다 2차 평정 결과에서 평정 자들 간의 의사결정이 잘 합치됨을 확인하였다.

넷째, 세 가지 방법 간의 일치도 통계 결과 modified An- goff 방법과 bookmark 방법의 피험자 분류가 일치하였고, 두 방법과 IDM 방법의 Kappa 계수가 0.85로 매우 높았다.

통계적으로 방법 간 신뢰도계수가 유의하였으므로 준거 설정 방법간의 외적 준거에 의한 타당성을 확보하였다.

궁극적으로 피험자 집단 특성 영향 없이 문항고유의 특성 을 추정하는 문항 반응 이론 근거의 준거 설정 방법을 사용 함이 바람직하다. 또한 인증시험의 경우 검사제작단계에서 미리 합격 준거에 대한 고려가 이루어진 후 검사문항 제작 이 이루어져야 한다. 그러나 실제 평가가 미치는 정치적, 행정적, 경제적, 사회적 영향, 문항의 보안 등을 고려하거나 일정한 인원을 반드시 선발하기 위한 목적이 있는 검사라면 피험자 집단의 특성을 고려하고 시험의 시행관리에서 요구

하는 규준적 준거 설정 방법을 사용하는 절충안을 적용함도 가능하다. 마지막으로 준거 설정 시 문항에 대한 분석과 문항순서집의 제작과정 없이 바로 준거를 설정할 수 있는 점, 사용이 쉽고 안정적으로 분할 점수를 산출한다는 점, 일반인의 이해가 쉽고 간단한 점 등의 장점을 가진 modified Angoff 방법이 다양한 상황에 맞게 변형되어 사용되고 있 으며, 연구에 참여한 평정자들 또한 최종 토의 후 이해와 실제 적용이 가장 용이한 방법으로 modified Angoff 방법을 지목하였다.

마지막으로 준거 설정은 총체적인 관점에서 단순히 고정 점수를 정하여 설정하기보다 인증시험의 목적과 성격에 맞 는 준거 설정 방법을 통해 대중이 신뢰할 수 있는 합리성을 갖춰야 한다.

본 연구의 의의는 여러 가지 준거 설정 방법을 실제 데이 터에 적용해봄으로써 물리인증시험의 교육적 성격과 목적 에 맞고 향후 과학과목 인증시험에서의 실제 적용이 가능한 준거 설정 방법을 제시함에 있다. 또 의사 결정 방법 가운 데 하나이기도 한 준거 설정 방법을 통해 교육학의 이론적 근거를 바탕으로 체계적이고 합리적인 의사 결정 방법을 소개하였다.

감사의 글

이 연구는 한국물리학회 교육사업분과의 자료 제공으로 수행되었습니다.

REFERENCES

[1] AERA, APA and NCME, Standards for Educational and Psychological Testing (Washington DC: Amer- ican Psychological Association, 1999).

[2] T. Seong, Modern Educational Evaluation, 4th ed.

(Hakjisa, 2014).

[3] M. T. Kane, Rev. Educ. Res. 64, 425 (1994).

[4] Y. Lee, Master Dissertation, Ewha Womans Univer- sity, 2010.

(12)

[5] G. J. Cizek and M. B. Bunch, Standard Setting: A Guide to Establishing and Evaluating Performance Standards on Test (Thousand Oaks, CA: Sage Pub- lication, Inc, 2007).

[6] R. K. Hambleton, Setting Performance Standards:

Concepts, Method, and Perspectives, Setting Perfor- mance Standards on Educational Assessments and Criteria for Evaluating the Process (G. J Cizek ed., 2001), pp. 89-116.

[7] C. N. Mills and G. J. Melican, Appl. Meas. Educ.

1, 261 (1988).

[8] C. N. Mills and G. J. Melican, A Preliminary Inves- tigation of Three Compromise Methods for Estab- lishing Cut-Off Scores (ETS Research Report RR- 8-14) (Princeton, NJ: Educational Testing Service, 1987).

[9] K. Kim, J. Edu. Eval. 18(3), 1 (2005).

[10] S. Kim, E. A. Park and M. Seo, J. Edu. Eval. 27(1), 1 (2014).

[11] R. K. Hambleton and B. S. Plake, Appl. Meas.

Educ. 8, 41 (1995).

[12] H. Huyhn, Educ. Meas.: Issues Pract. 25, 19 (2006).

[13] S. Ferrara, M. Perie and E. Johnson, Setting Perfor- mance standards: The Item Descriptor (ID) Match- ing Procedure, Paper Presented at the annual Meet- ing of American Educational Research Association (New Orleans, LA, 2002).

[14] A. E. Wyse and B. Babcock, Educ. Meas.: Issues Pract. 36, 28 (2017).

[15] R. K. Hambleton and M. J. Pitoniak, Setting Per- formance Standards, In R. L. Brennan (Ed.), Ed- ucational Measurement, 4th ed. (Washington, DC:

American Council on Education, 2006), pp. 433-470.

[16] M. D. Reckase and J. Chen, The Role, Format, and Impact of Feedback to Standard Setting Panelists, In G. J. Cizek (Ed.), Seeting Performanse Stan- dards: Foubdation, Methods, and Innovations 2nd (NY: Routledge, 2012), pp. 149-164.

[17] R. L. Brennan and R. E. Lockwood, Appl. Psychol.

Meas. 4, 219 (1980).

[18] Y. Jang and T. Seong, J. Edu. Eval. 22(3), 659 (2009).

[19] N.-C. Kim, Doctorate Dissertation, Ewha Womans University, 2010.

[20] J. A. Cohen, Educ. Psychol. Meas. 20, 37 (1960).

[21] M. R. Raymond and J. B. Reid, Who Made Thee a Judge? Selecting and Training Participants for Standards Setting: In G. J. Cizek (Ed.), Setting Per- formance Standards: Concepts, Methods, and Per- spectives (Mahwah, NJ: Lawrence Erlbaum, 2001), pp. 119-157.