效度(Validity)
效度(Validity),即有效性,反映已有证据可以在多大程度上支持根据测验分数所作出的推论,是衡量考试质量的重要的标志之一。编制一个考试,首先需要回答的问题是:“这个考试测试什么?”例如,一个数学能力考试测的是“数学能力”,考试分数就被视为是对考生数学能力的测量。而考生真实能力是否如实地反映在成绩上,就是这场考试的“效度”。将标准化考试运用于人才选拔的逻辑依据主要是“效度资料”,即可以用事实说明:在这项考试中考高分的人平均能力高于考低分的人,以考试选拔的学生比随即选拔的学生平均能力更强,考高分的人将来在大学的表现高于低分的人。甚至,考高分的人未来的职业发展水平好于低分的人。SAT(Scholastic Assessment Test)是一场能力测试,目前没有确定的大纲范围,对记忆力的要求不高,更多的着眼于潜力,用来普及高等教育,对于所有背景的学生提供了在大学是否能够取得成功的公平而有效的预测。目前,SAT已经成为对大学准备情况的高度可靠并且有效的衡量标准,被应用于美国基本所有四年制大学和学院,包括非强制性测验机构的入学申请过程中。每年有将近300万学生通过170多个国家的将近7,000个考试中心参加SAT考试。SAT考察内容反映了高中课堂上所教授的阅读、数学和写作课程。不仅如此,SAT还衡量学生运用知识的能力,对大学和事业上的成功至关重要。SAT的历史数据说明,SAT的高分与高中阶段的学习类型和严谨性相关。比如,2012年College & Career Readiness的报告显示,在美国有43%的高中毕业生具有充足的学术储备,而这些学术储备与学生大学阶段成功与否高度相关。此项结论基于SAT成绩的数据统计,SAT基准分数为1550分,符合此标准的考生大学一年级GPA及一年后的留存率都更高。此外,数据还证明,那些完成核心课程学习并参加荣誉或大学先修课程(AP)的学生在SAT考试中表现更佳。
信度(Reliability)
信度(reliability)是反映测验结果受到随机误差影响程度的指标,是评价测验质量的基本指标。高信度是高效度的前提。考试作为一把尺子,应该具有稳定性和可靠性。如果同一个学生,今天考试得到一个成绩,明天考试得到另外一个成绩,这把尺子就是不可靠的。当然,像是中国的高考,考察一拨学生在一次考试中的排名,也具有人才选拔的作用。但是,因为高考题目的难度并不稳定,不同年份的高考对于同一个考生而言成绩可能并不一样。而对于SAT这样一年多次的考试,考试信度非常重要,力求不同月份的考试能同样测量同学们的能力。所以在理论上,每一次SAT考试的每一个题目都是经过精心测量的,力求总体的一致性,并不存在所谓“一月考题通常都比较难”之类的猜想。考生可能会在某次考试中“感觉”“阅读比较难,语法比较简单”之类。出现这种“感觉”,要么是学生自己的感觉标准问题,要么是本次考题在难度之间有了不均衡的平衡,换言之,感觉阅读特别难,作为平衡,其他某一项应该会低于常见标准。总之,总的难度应该是一致的。而ETS如何**难度的一致呢?从形式上,这是“多一个部分(section)的实验题目”存在的原因,这个不计入成绩的部分,给测算题目难度提供了大量的事实依据。
当然,客观选择题目的评分一向都比问答和作文之类的主观题目更稳定。写作测试是评价学生综合语言能力的有效工具,但在作文评分中,评分员容易出现“趋中评分”,即打“中间分”的现象。为了避免此类现象,ETS在题目设计、评分员选择和统计模型对评分员进行评估等方面都做了很多努力,力求**成绩的稳定性和可靠性。SAT的作文采用6分制标准,数据统计表明作文分制标准越大,反而不好清晰界定,人为干扰因素越强。SAT作文每个分制之间界定明确清晰,那怕是两个老师给出统一分数的概率都很高。此外,ETS对于评分员的选择、培训和监管上,都做到了世界一流水平。一位SAT作文的评分员,只能来自美国本土各州,经过选拔和培训,完成网上阅卷,工作地点遍布美国。评分员网上所审阅的作文,隐匿了应试者的个人信息,原则上,并不存在“压低亚太区考生作文成绩”说法。那么,考生(尤其是2013年下半年的考生)为什么会感觉自己的作文被压低了成绩了呢?出现此种问题的原因有二:1,ETS遇到了越来越多的“八股式”作文,对于这种作文的评分标准已经出现在例行的评分员培训中,对于这种作文的评分标准趋于统一,浑水摸鱼越来越困难;2,考生在两次SAT考试中用了类似的例子、结构、文笔,两次成绩有差别,主要因为对于文章中心思想的论证(development)有差别。一个例子,碰巧非常契合论证主题,得分就高;同一个例子,换一篇作文,就不一定论证有力,得分自然有差别。在这一点上,还请考生多多审题,平时多积累素材,不要准备“一个例子通天下”。
2014亚洲区SAT
ETS作为测试学的忠实实践者,秉承科学测试和公平测试原则,SAT题目的设计、测试、评估都极其严谨科学,其试题开发周期之长、成本之高超乎大多数人想象,几乎做到了现有条件下的极致。但是,试题的组织上,尤其题目重复方面,在近些年却出现了一些问题,有损考试的信度和效度。通常而言,ETS试题的重复使用按照考试本身的初衷和设计来看并无大碍,对College Board而言也是理性的选择。在法理上,College Board拥有对SAT试题的版权与使用权,在没有得到它授权时,其他机构,包括个人都不应该擅自搜集、使用或者传播其题目。当然,他们也有责任**试题的重复使用控制在一定范围内。可是,2014年5月的SAT考试,北美考区和国际考区的题目竟然一致:比如Critical Reading部分中的文章主题一致,Writing部分中的篇章改进题的主题也一致。另外,有证据表明2014年的AP化学北美和中国大陆使用的是同一套试题,我们都知道中国大陆与北美存在12个小时左右的时差。在5月5日考完AP化学的第二天,有考生在移动设备中的一款应用软件中写道:“刚考完搜了下看到昨天发的简答部分回忆简直惊呆了”,然后学生又写道“不过我们走的是实力派路线的”。我们可以把这种现状理解为试题循环使用的极端情况,即循环周期极短以至于同时使用。这在之前难以想象。以往的试题循环往往是国际考区循环使用一年甚至几年前的某一套北美考区题目。如果某些考生或考试培训机构试图希望从中找到“捷径”无异于危险的赌博,有谁愿意把可能影响自己命运的重要考试寄托在小概率事件上呢?但当在同一时间或者相当短的时间内释放的考试题目存在一致的可能性很大时,事情就会发生根本性的变化。
作为经验丰富的考试官方机构,理应考虑竞争性考试的试题循环一定是非常敏感的问题,并且在互联网科技发达的今天,试题循环所带来的考试不公的潜在风险将被无限放大。一旦这个微弱的可能性被验证过一次,就会被再次关注甚至激起狂热,考试的公平与机会均等的原则就会遭到破坏。我们可以理解,严谨的ETS对试题开发流程的关注,更多的精力和成本将被放到新SAT试题开放上,而现行SAT试题的开发力度将被降低,试题重复使用的可能性增加。我们不得不遗憾地说,如果试题循环使用的周期得不到有效的管理和调整,所有的考试相关利益者都是潜在的受害者:考生在考前不是认真备考而是倾向于上网搜索答案“线索”时,何以践行delivering opportunity的伟大理念?有关考生分数统计的信度和效度又将如何体现?美国大学的招生官们——相关考试分数的使用者,又该如何有效评估这样的分数,以及如何建立学生之间、不同场次的考试之间分数的权衡标准?对于考试培训机构而言,行业的使命、价值观和规范将受到挑战,行业中诚实的企业和诚实的人的努力将被稀释。是继续坚守还是随波逐流?所有这一切,都对考试的公平,个人的诚信,以及努力获得收获等基本理念的挑战。这些影响远远超越了考试本身。在理想与现实、“应然”与“实然”的天平之间,我们的考生将站在何处?这将极大的影响我们未来社会的价值取向,值得我们深刻反省与思考。