절대평가 점수체제 구성 방법 - 수능 영어영역 절대평가 점수체제 탐색

수능 영어영역 절대평가 점수체제 탐색

Ⅱ. 절대평가 점수체제 구성 방법

학업성취도 관련 구인에 대한 검사 혹은 시험을 실시하고 그 결과에 대하여 절대평가를 적용 한다는 의미는 응시자들의 성적을 결정함에 있어서 점수의 상대적 높고 낮음에 따른 차이보다는 각 응시자가 무엇을 얼마만큼 알고 있는지 혹은 할 수 있는지에 관심을 둔다는 의미이다. 절대평 가 적용을 위해서는 성취해야 할 목표의 단계라고도 볼 수 있는 성취수준들이 정립되어야 하며 몇 개의 성취수준(점수 등급의 수)을 고려할지에 대한 결정이 필요하다. 또한 각 성취수준을 달 성하기 위한 최소한의 능력(minimum competency)이 명확히 정의될 필요가 있다. 특정 학업성 취도 시험에 대해서 한 성취수준에 도달하기 위한 ‘최소한의 능력’과 상응하는 점수를 분할점수 (cut score, CS)라고 한다. 따라서 절대평가하에서 등급을 결정하기 위해서는 분할점수의 설정 (setting cut scores)을 어떻게 할 것인가에 대한 방안이 마련될 필요가 있다.

1. 성취수준 혹은 점수등급의 수

대척도 학업성취도 검사로서 절대평가 방식으로 성적을 산출하는 대표적 검사로는, 국내의 경우 국가수준학업성취도검사와 국가영어능력평가시험 2, 3급을 들 수 있다. 두 검사 모두 준거 참조평가로서 각 피험자에게 교과별 혹은 영역별 성취수준을 통보하는 방식을 택하였으며, 성 취수준은 네 개의 등급(우수, 보통, 기초, 기초미달)으로 나뉘었다. 각 성취수준 등급에 대해서 는 해당 학생들에게 기대되는 수행 수준에 대한 기술(performance level descriptions)이 명시 되기 때문에, 각 학생 입장에서는 자신이 받은 등급을 통하여 무엇을 할 수 있고 무엇을 알고 있는지에 대한 정보를 확인할 수 있게 된다.

이러한 네 개 등급 사용의 유래는 상당 부분 미국의 학생낙오방지법(No Child Left Behind Act)에 따른 주별 학업성취도 평가에서 사용된 Advanced, Proficient, Below, Below Basic 등 급 체계에서 온 것으로 볼 수 있다. 또한 중요 학업성취도 검사 중의 하나로서, 미국 고등학교 학생들이 대학 수준의 교육과정에 대한 학점을 인정받기 위한 용도로 사용되는 Advanced Placement(AP) 시험 역시 절대평가로서 운용되고 있으며, 다음과 같은 다섯 개의 등급으로 성 적이 산출된다: 5(Extremely well qualified), 4(Well qualified), 3(Qualified), 2(Possibly qualified), 1(No recommendation). 학점 인정 관련 정책은 대학마다 다르지만, 보통 3 혹은 4 점에 해당할 때 관련 과목에 대한 대학 학점을 인정해 주는 경향이 있다.

수능 영어영역과 같은 대척도･고부담 시험에서 특정 교과의 성취수준 수를 논의함에 있어서, 근래에 논의되고 있는 수능 한국사의 예를 참고할 수 있을 것이다. 교육부(2013)에 의하면, 2017년도 대학수학능력시험부터 한국사가 필수과목으로 지정되고, 학생의 흥미를 유발하면서 도 수험 부담을 최소화할 수 있도록 쉽게 출제되며, 9개의 등급으로만 성적이 제공되는 절대평 가로 실시된다. 이에 따라 현재 한국교육과정평가원에서는 9개 등급에 따른 8개 분할점수를 설 정하는 방법에 대한 연구가 진행 중에 있다. 그리고 비록 최종적으로 도입되지는 않았지만, 관 련하여 실시된 교육부 주관 공청회 등에서는 한국사에 대한 사교육 확산과 학생 및 학부모의 불 안심리 증폭이라는 부작용을 해소하기 위한 하나의 방안으로서 pass/fail 방식의 결과 산출(즉 두 개 성취수준 활용)이 주장되기도 하였다.

<표 1>은 세계 각국의 대입 시험에서 등급으로 성적이 산출되는 경우에 대한 정리 결과를 제 시하고 있다. 등급제를 사용할 때, 그 평가 방식은 상대평가일 수도 있고 절대평가일 수도 있 다. 우리나라 현행 수능의 경우, 잘 알려져 있는 바와 같이 계열별 백분위에 따른 9등급제를 사 용하고 있으며 스태나인 점수 체계에 따라 산출되는 비율을 이용하는 상대평가이다. 상대평가 방식으로 학생 비율에 따라 등급을 제공하는 방식을 채택하고 있는 다른 나라로는, 핀란드(7등 급)와 독일(16등급) 등을 들 수 있다.

영국의 경우 대입 시험에서 기본적으로 절대평가를 지향하며 A, B, C, D, E, U 등급을 결정 하기 위한 분할점수를 다음과 같이 제시하고 있다: A(100-80점), B(79-70점), C(69-60점), D(59-50점), E(49-40점). 그리고 40점 미만은 U(unqualified)로 표기한다. 일종의 고정분할 점수 적용 방법이라고 할 수 있는 이러한 등급 결정 방식하에서, 최상급(A등급)이 너무 많이 나오는 문제가 지속적으로 발생하는 것으로 알려져 있다. 이에 대한 대책으로서, 일부 명문 대 학들은 등급제를 점수제로 전환하든지 아니면 최상위 등급을 더욱 세분화해 줄 것을 요구하였 고, 이에 따라 2008년부터 A등급을 A*, A의 두 등급으로 세분화한 바 있다.

또한 영국에서는 절대평가적 채점 방식에 의해서 산출된 점수를 앞에서 제시한 고정분할점수 에 따라서 그대로 등급화하는 것이 아니라, 민간 단체인 Awarding Board 주관으로 특별 위원 회를 구성하여 등급 결정을 위한 분할점수를 재조정하며, 이는 영국 대입시험에서 각 학생들의 교과별 점수 등급을 결정하는 측면에서의 큰 특징으로 볼 수 있다. 이때 주로 고려되는 사항은 등급별 학생 비율이기 때문에, 다시 말하여 ‘상대평가적 등급조정’이 이루어진다고 말할 수 있 다. 그런데 이러한 조정은 보통 상위 등급자 수를 늘리려는 방향으로 이루어지는 경향이 있기

제3주제：수능 영어영역 절대평가 점수체제 탐색

때문에 고득점자에 대한 검사 변별력을 상실하는 문제가 흔히 발생하게 된다. 이러한 문제를 견 제하기 위하여 정부 기관인 Qualification and Curriculum Authority(QCA)는 중재 간섭을 통하 여 등급 비율을 적정하게 조율하려고 노력한다(함석동, 2004). (Achievement Criteria)이 설정되어 있으며 이에 따 라 채점

2. 분할점수 설정 방법

절대평가하에서 분할점수를 설정하는 방법은 흔히 준거설정(standard setting)이라고 부르 며, 이는 하나의 교육 및 심리 검사를 위하여 분할점수를 설정할 필요가 있을 때 관련 기관에 의하여 실시되는 공식적 연구 절차를 의미한다. 이는 사회과학에서, 전문가 집단의 중지를 모 아 반복적 절차를 통하여 정책 결정 혹은 미래 동향 예측 등을 하기 위한 목적으로 활용되는 델 파이 기법(Delphi technique)과 유사하다고 볼 수 있다. 학업성취도 검사를 위한 준거설정 위 원들은 보통 다수의 교사 및 내용 전문가 등으로 구성되며, 적게는 5명부터 많게는 30명 정도 까지의 전문가들이 준거설정 위원 집단을 형성하게 된다. 예를 들어, 미국의 국가수준 교육성 취도 평가(National Assessment of Educational Progress, NAEP)의 경우 과목당 30명의 위 원이 준거설정에 참여하고 있으며 이 중 약 55%가 해당 교과목의 교사, 15%는 교육전문가, 그 리고 약 30%는 비교육가로 구성되어 있다(Raymond & Reid, 2001).

성태제(2009)는 “준거설정 방법은 무원칙에 의한 임의성에서 탈피하여야 하며 이론 혹은 규 칙을 근거로 하는 타당하고 과학적인 방법”(p. 271)이어야 한다고 설명하면서, 다음과 같은 세 가지 범주의 준거설정 방법을 주로 소개하고 있다: a) 검사도구 내용분석평가에 의한 준거설정 방법, b) 피험자 집단 특성평가에 의한 준거설정 방법, 그리고 c) 규준적 준거설정 방법. 이 중 에서 수능 영어영역을 위한 준거설정 방법으로는 a)와 c)를 고려할 수 있는 것으로 판단되며, 추가적으로, 현재 중학교에서 실시되고 있는 성취평가제처럼 d) 고정분할점수를 사용하는 방법 도 고려해 볼 수 있다. 따라서 이하에서는 a), c), 그리고 d)의 세 개 방법을 중심으로 각각의 의미 및 장단점을 살펴보고자 한다.

가. 검사도구 내용분석평가에 의한 절대적 준거설정 방법

이 범주에 속하는 전통적인 준거설정 방법은 Nedelsky(1954) 방법, Angoff(1971) 방법, Ebel(1972) 방법, Jaeger(1978) 방법 등 매우 다양하게 존재하지만, 대개는 Angoff 방법이나 이를 약간 변형한 방법들이 널리 사용되고 있다. 우리나라에서 Angoff 방법을 활용하고 있는 검 사 프로그램의 예로는, 의사 국가실기시험, 국가수준 학업성취도 평가, 국가영어능력평가시험 등을 들 수 있다. 또한 이 범주하에서는 문항반응이론을 활용한 준거설정 방법도 다양하게 개발 되었으며, 가장 널리 쓰이는 방법 중의 하나는 Bookmark 방법이라고 할 수 있다.

제3주제：수능 영어영역 절대평가 점수체제 탐색

나. 규준적 준거설정 방법

이 방법은 각 성취수준에 속하게 될 응시자의 비율을 정하여 등급을 부여하는 것이기 때문에, 엄밀하게 말하면 절대평가보다는 상대평가하에서의 분할점수를 정하는 방법이라고 볼 수 있다.

예를 들어, 상위 20%에게 1등급을 부여하기로 결정하였다면 80% 백분위에 해당하는 점수가 1 등급과 2등급을 가르는 분할점수가 될 것이다. 이 방법은 다른 준거설정 방법에 비하여 의사결 정이 상대적으로 용이하다는 장점이 있으나, 반면에 해당 분할점수가 각 성취수준에 따른 최소 한의 능력과 상응하지 않을 수 있다는 문제가 있기 때문에 개인의 학습 발달 정도를 판단하는 데에 적합하지 않다고 볼 수 있다.

다. 고정분할점수 적용 방법

현재 중학교 성취평가제하에서는, 학생들의 성취 정도를 판단하는 기준으로서 고정된 분할점 수(말하자면 90, 80, 70, 60점을 A, B, C, D, E 성취수준을 가르는 분할점수로 활용)를 사용하 고 있다. 또한 국내의 많은 자격 및 면허시험에서 합격과 불합격을 가르는 분할점수로서 100점 만점의 60점을 사용하고 있으며 과목별 과락 기준으로 40점을 사용하는 것도 고정분할점수 사 용의 예라고 할 수 있을 것이다. 고정분할점수를 사용함으로써 얻게 되는 장점으로는 a) 별도의 준거설정 절차 없이 등급 분할이 가능하다는 편의성과 함께, b) 분할점수 산출을 위한 시간 및 비용 부담이 없다는 점, 그리고 c) 지속적으로 동일한 점수를 분할점수로 활용함으로써 학생 및

문서에서 면지영어끝.indd 1 14. 5. 21. 오후 6:07 (페이지 97-102)