对学生获得的知识进行测量和评价是教学研究的一个重要内容。作文评价是作文教学的一个重要环节,是作文指导的继续。中国是一个文章大国,从读文章、写文章的大量实践中去领悟和运用写作的法则,是经验型的,这也是传统写作教学所走的路,然而,这也给写作教学测量带来了困难。中文的写作特别地具有东方文化的特点:综合性和模糊性。有些观念,可以意会,而运用之妙存乎一心,难以准确测量。我们既不能削足适履,生硬地与西方模式“接轨”,又要对这些传统经验进行科学研究,发现合理的因素。如果说“测验”和“考试”一般只是对学生的知识水平的数量化,那么,“测评”中的“评”就包含了“评价”,即进行价值判断,体现了定量和定性分析的整合,是教育测量的高级层次。
写作测评是测验与评定的总称。有关测验的定义,尚无统一规定。
我们认为,测验就是根据客观的标准化了的程序来测量个体的某种心理与行为,以判定个别差异的工具。因此,写作测验就是编制相关的各类题目,借以测定和区分学生写作能力的一种手段。写作评定是根据写作活动产品或根据教师平时对学生的了解,来对作文判定分数或等级。对写作评定的数量描述作出价值判断(如该生成绩优或劣),则相当于教育测量学中的“评价”。
一、写作测评的历史
教育测验与心理测验所要测量的内容不尽相同,但是所依据的基本原理和方法是一致的。因此,教育测验深受先行发展的心理测验的影响。
语文测验则以教育测验的基本理论为指导,语文测验又反过来丰富教育测验理论,推动整个教育测验科学的发展。
(一)20世纪前的写作测评
19世纪末20世纪初,欧美国家在教育科学化运动的推动下,针对论文式测验取样片面、评分不客观、主观随意性大等缺点,对考试进行了客观化的研究,渐渐形成教育测验运动。1864年,费希尔(G.Fisher)设计了一个《量表集》,内容包括:作文、书法、拼写、文法、历史、绘画、自然、算术等学科的学生作业,按1(5等级评定成绩。1895(1905年,美国的莱斯(J.M.Rice)主张用划一的测验考查来比较各校学生的成绩,于是编制了《算术测验》、《拼写测验》和《语言测验》。其中《拼写测验》要求学生默写50个生字;《语言测验》选编了给学生朗读的文章,要求学生根据原文大意写一篇文章,然后依据写就的文章的语句及篇章结构来确定分数。
莱斯曾用这些测验测量过数万名学生。当然,这还不是严格意义上的学科研究,评分中尚存在较大的主观成分,但还是开了写作测评研究的先河。
在各个学科的测评中,写作测试是最困难的,也是一个世界性难题。
因为它所测评的学生的精神产品——文章。通过文章来测量学生的写作水平有关极大的主观随意性。特别是在大规模考试(如高考)中,对这类随意的控制是很困难的。人们逐渐认识到了主观性试题的评分误差,注意到了写作测评中的问题。
1904年,桑代克发表了《心理与社会测量导论》(又译《精神与社会测量导论》)一书,提出“凡是存在的东西都是有数量的,凡是有数量的东西都是可以测量的”着名论断,系统地介绍了统计方法及编制测验的原理。
1905年,比纳和西蒙发表了世界上第一个智力测验《比纳(西蒙量表》,为标准化测验开辟了新的道路。1909年,桑代克根据卡特尔的等距离原理编制了书法量表,这是世界上第一个用科学方法编制的语文测验工具。
这一成果引起了人们对编制作品量表的兴趣,并提供了可资借鉴的方法与技术,以后作品量表(包括写作量表)的编制和应用方法均与该量表类似。不久,桑代克还编制了《拼字测验》、《作文量表》、《图画量表》等标准测量工具,推动了包括语文测验在内的整个教育测验的发展。1919年以后,教育测验趋多,语文测验有希利格斯的《作文量表》,白根汉的《拼法量表》,爱里斯的《书法量表》等等。
(二)20世纪后的写作测评
Hillegas(1912)编制了世界上第一个正式作文量表,即《儿童英语作文品质评定量表》,为后来研究者提供了参照作文量表的样式,开作文标准化测验之先河。此后不久,Trabue和Thordike于1914年分别编制了对Hillegas量表的补充版,适用对象均为4(12年级。同年,Ballon为了克服Hillegas量表只适用于一种文体之弊端,编制了包括记叙、说明、描写和议论四种文体的《哈佛(牛顿量表》(Harvard‐Newton),其样篇选自1-8年级,每种文体各有6个样篇,分数采用百分制。其他量表还有,《霍德森英语作文量表》(Huddson English Composition Scale,适用对象为4-12年级),vanWagenen编制的《英语作文量表》,《惠林写作测评量表》(The Willing Scalefor Measuring Written Composition)和《普莱塞英语作文诊断测验》(Pressey Diagnostic Testsin English Composition)。
其中,惠林量表是当时美国通用的作文量表。该量表有8个样篇,适用于4(8年级,成绩评定分故事(内容)分数和形式分数两项,其计分原理依据正态分布,取代表正态分布中的两个端点及其中间距离相等的六点,这较Ballon的量表又前进了一步。惠林作文量表的另一特点是,为保证测评结果可靠性,提供了许多作文题目和收集作文的方法,可使用这些作文题控制写作情况。
20世纪20年代,Lewis编制了《英语特殊文体作文测评量表》,该量表主要用于五种应用文的测评:订购货物的函件,应征职位的函件,叙述性社交函件,议论性社交函件,便条。量表可以测评说明、叙述、描写等三种文体,评分时对照相应文体样篇就可分别计算出三部分成绩,其比例规定如下:
(1)“思想内容”(Thoughtcontext)分,占4/7。
(2)“文体结构”(Structure)分,占2/7。
(3)“文字技巧”(Machincs)分,占1/7。
该量表具有诊断性,设计者为了提高作文的评定信度,在量表中附有练习文章,供教师把练习文章对照量表样篇评分,看自己评分是否合乎量表拟定的标准分值,以此帮助教师更好地使用作文量表,准确地把握评分。
20世纪初,我国在测验方面开始引进国外的理论和方法、技术。到了20-30年代,很多学者着手编制测验,其间美国教育测量专家麦柯尔曾来华指导。1922年后,教育测验运动在中国推广开来,有关语文的测验主要有俞子夷的《小学国文毛笔书法测验》,这是我国最早的标准化测验,还有艾伟、王金桂合编的《小学国语默读测验》,艾伟、杨清的《小学国语默读诊断测验》,陈鹤琴的《中小学默读测验》和《文法测验》,另外,还有俞子夷的《小学缀法测验量表》、周学章的《作文测验衡》、廖世承的《中学文法测验》和《语文常识测验》等。在30-40年代,测验在我国曾风行一时,相对而言,对语文测验贡献最大的当推陈鹤琴,其编制的测验涉及默读、默字、识字、作文、文法和书法各领域。
20世纪60年代以后,西方国家的一些大学和研究机构编制出版了一些作文量表,引起了教育界的重视。这不仅提供了一个测评工具,而且还可用于对教师的作文评分进行培训,如1960年美国芝加哥英语教师联合分会编制了《高中学生作文评价量表》(A Scale for Evaluation of High School Student Essays)。该量表收集了28篇作文以解释对15岁学生作文评定的各项标准,用以评定中等教育毕业证书考试所设想的写作水平。这些作文样篇从A到E级程序排列,对练习作业的评定工作,第一等的成绩有一个样组,以便保持评定标准的一致性。
近年来,美国常用的标准化作文测评量表有美国教育测验服务社编制的《STEP短文测验》和《戴里奇服务社作文量表》(Diede rich EST Composition Scale)。《STEP短文测验》要求学生在30分钟内根据特定题目写文章,评分时把每个学生的作文与已有同样题目的样篇比较,给予7级分数中的某一级。总分中“思想和内容”占50%,“文章风格”占30%,“文字技巧”占20%。
二、写作测评的基本要求
在编制一个教育测验时,必须进行标准化,写作测评也不例外。在标准化过程中,为了提高测评的有效性和可靠性,就不能忽视对信度、效度等的检定。
(一)写作测评的效度
效度是指测评能够真正测到其所要测量的东西的程度,即所要测量的某种行为特征的正确性。越是正确地抓住目标,这个测验的效度就越高,也表明所测量的结果越能代表所要测量行为的真正特征。写作测评效度,要求能测出和评出作文能力,而不是识字或阅读能力。它有内容效度、效标放度和结构效度之分。内容效度要求测验和评定项目囊括所有重要的内容。效标效度,要求测评结果与某一客观的能真正反映学生作文能力的成绩一致,它通常求得两者相关系数来说明。结构效度,要求测评结果能说明预想(理论)的写作能力结构。在统计学上,因素分析法能对它进行圆满的解释。因素分析即把一些具有错综复杂关系的因素归结为数量较少的几个综合因素(公因素),并用这少数几个因素解释能力结构。效度系数,一般要求在0.60以上。
为了提高效度。写作测评应仔细分析作文教学目标,研究作文能力结构;采用多种题型,扩大取样覆盖面;试题要求必须明确,评定标准必须清楚。
(二)写作测评的信度
信度是指测验的可靠程度,表现为测验结果的一致性、再现性和稳定性。写作测评的信度要求同一测验在不同时间施用,所得结果一致。同一作文,不同的人评定或同一人在不同时间里评定,所得结果尽可能相近。
考验写作测评信度的方法有再评法、多评法、重测法和分半法等。再评法是指两位教师同时评分,或一位教师两次评分,求得相关。多评法是指请多位教师独立对一批作文评分,求得肯德尔和谐系数。作文测评的信度系数,若达0.70以上,说明测评结论可靠。重测法,就是把一个测验在适当的时间间隔里施行二次,求得分数相关。分半法就是把测验分成性质相同的两半(如按奇偶题分),求得两部分成绩相关。
信度与效度有一定的关系,可靠的不一定有效,但有效的一定可靠。
信度只表示测验本身的可靠程度,而效度则涉及到测验所要测量的是否有效。为保证信度,应采取系列措施,如试场和阅卷场所要保持安静;所有的应试者应具有均等的条件;训练评阅教师统一执行评定标准等等。
(三)写作测评的区分度
区分度为试题能够区分出学生高低水平的程度。写作测评要求能鉴别出学生的作文能力,拉开分数距离。考验区分度可采用两端分组法,即计算高低两组受试者通过该题的比率,也可以求得各项目与测验总分的相关,求得内部一致性。当测验项目少,各项目占分比重大时,应对项目与总分相关的重叠部分进行矫正。区分度系数一般要求在0.30以上。
区分度与难度有密切的联系,难度为0.50左右,区分度最大;当难度为0.1时,则没有区分度。
(四)写作测评的实用性
实用性要求测评所需的时间、人力为客观条件所允许。一个完善的方案,如果难以实施和推行,那么就没有实用价值。因此,无论是写作测验,还是评定、解释分数等,都应简便,不易过分繁杂,耗费太多的时间和精力。写作量表为了便于分数解释,应提供常模资料,如年级常模、年龄常模、百分位常模以及Z分数和T分数常模等。这样,学生的任何一个分数或等级,只要与常模比较,就可推知学生在某一集体中的位置。
一个好的测验,其测验的内容和困难度要适合于所测的对象,并且具有较高的信度和效度,但在编制一个新的测验时,往往没有直接决定效度的外部基准效标,因此,最初应把注意力放在信度上。下面这些条件,可以提高写作测验的信度:
(1)问题项目数多,可以提高信度。
(2)由同质的项目所构成的测验(Homo geneous test),比异质项目所构成的测验信度高。
(3)项目的辨别力大,信度也高。
(4)由困难度适中的项目(通过率平均在50%左右)所构成的测验信度高;而由特别容易的项目和特别困难的项目所构成的测验信度低。
(5)对各种能力程度不同的人的测验结果,信度高;而对能力同等的人的测验结果,信度低。
(6)取分越客观,信度就越高。
(7)二者择一的回答(即正误选择或是否选择),不如多肢选择回答(多重答案选择法)信度高。
(8)意思不清、容易误解的问题,回答的指示不明确的问题,信度低;反之,信度高。