登陆注册
11785400000043

第43章 写作测评(1)

对学生获得的知识进行测量和评价是教学研究的一个重要内容。作文评价是作文教学的一个重要环节,是作文指导的继续。中国是一个文章大国,从读文章、写文章的大量实践中去领悟和运用写作的法则,是经验型的,这也是传统写作教学所走的路,然而,这也给写作教学测量带来了困难。中文的写作特别地具有东方文化的特点:综合性和模糊性。有些观念,可以意会,而运用之妙存乎一心,难以准确测量。我们既不能削足适履,生硬地与西方模式“接轨”,又要对这些传统经验进行科学研究,发现合理的因素。如果说“测验”和“考试”一般只是对学生的知识水平的数量化,那么,“测评”中的“评”就包含了“评价”,即进行价值判断,体现了定量和定性分析的整合,是教育测量的高级层次。

写作测评是测验与评定的总称。有关测验的定义,尚无统一规定。

我们认为,测验就是根据客观的标准化了的程序来测量个体的某种心理与行为,以判定个别差异的工具。因此,写作测验就是编制相关的各类题目,借以测定和区分学生写作能力的一种手段。写作评定是根据写作活动产品或根据教师平时对学生的了解,来对作文判定分数或等级。对写作评定的数量描述作出价值判断(如该生成绩优或劣),则相当于教育测量学中的“评价”。

一、写作测评的历史

教育测验与心理测验所要测量的内容不尽相同,但是所依据的基本原理和方法是一致的。因此,教育测验深受先行发展的心理测验的影响。

语文测验则以教育测验的基本理论为指导,语文测验又反过来丰富教育测验理论,推动整个教育测验科学的发展。

(一)20世纪前的写作测评

19世纪末20世纪初,欧美国家在教育科学化运动的推动下,针对论文式测验取样片面、评分不客观、主观随意性大等缺点,对考试进行了客观化的研究,渐渐形成教育测验运动。1864年,费希尔(G.Fisher)设计了一个《量表集》,内容包括:作文、书法、拼写、文法、历史、绘画、自然、算术等学科的学生作业,按1(5等级评定成绩。1895(1905年,美国的莱斯(J.M.Rice)主张用划一的测验考查来比较各校学生的成绩,于是编制了《算术测验》、《拼写测验》和《语言测验》。其中《拼写测验》要求学生默写50个生字;《语言测验》选编了给学生朗读的文章,要求学生根据原文大意写一篇文章,然后依据写就的文章的语句及篇章结构来确定分数。

莱斯曾用这些测验测量过数万名学生。当然,这还不是严格意义上的学科研究,评分中尚存在较大的主观成分,但还是开了写作测评研究的先河。

在各个学科的测评中,写作测试是最困难的,也是一个世界性难题。

因为它所测评的学生的精神产品——文章。通过文章来测量学生的写作水平有关极大的主观随意性。特别是在大规模考试(如高考)中,对这类随意的控制是很困难的。人们逐渐认识到了主观性试题的评分误差,注意到了写作测评中的问题。

1904年,桑代克发表了《心理与社会测量导论》(又译《精神与社会测量导论》)一书,提出“凡是存在的东西都是有数量的,凡是有数量的东西都是可以测量的”着名论断,系统地介绍了统计方法及编制测验的原理。

1905年,比纳和西蒙发表了世界上第一个智力测验《比纳(西蒙量表》,为标准化测验开辟了新的道路。1909年,桑代克根据卡特尔的等距离原理编制了书法量表,这是世界上第一个用科学方法编制的语文测验工具。

这一成果引起了人们对编制作品量表的兴趣,并提供了可资借鉴的方法与技术,以后作品量表(包括写作量表)的编制和应用方法均与该量表类似。不久,桑代克还编制了《拼字测验》、《作文量表》、《图画量表》等标准测量工具,推动了包括语文测验在内的整个教育测验的发展。1919年以后,教育测验趋多,语文测验有希利格斯的《作文量表》,白根汉的《拼法量表》,爱里斯的《书法量表》等等。

(二)20世纪后的写作测评

Hillegas(1912)编制了世界上第一个正式作文量表,即《儿童英语作文品质评定量表》,为后来研究者提供了参照作文量表的样式,开作文标准化测验之先河。此后不久,Trabue和Thordike于1914年分别编制了对Hillegas量表的补充版,适用对象均为4(12年级。同年,Ballon为了克服Hillegas量表只适用于一种文体之弊端,编制了包括记叙、说明、描写和议论四种文体的《哈佛(牛顿量表》(Harvard‐Newton),其样篇选自1-8年级,每种文体各有6个样篇,分数采用百分制。其他量表还有,《霍德森英语作文量表》(Huddson English Composition Scale,适用对象为4-12年级),vanWagenen编制的《英语作文量表》,《惠林写作测评量表》(The Willing Scalefor Measuring Written Composition)和《普莱塞英语作文诊断测验》(Pressey Diagnostic Testsin English Composition)。

其中,惠林量表是当时美国通用的作文量表。该量表有8个样篇,适用于4(8年级,成绩评定分故事(内容)分数和形式分数两项,其计分原理依据正态分布,取代表正态分布中的两个端点及其中间距离相等的六点,这较Ballon的量表又前进了一步。惠林作文量表的另一特点是,为保证测评结果可靠性,提供了许多作文题目和收集作文的方法,可使用这些作文题控制写作情况。

20世纪20年代,Lewis编制了《英语特殊文体作文测评量表》,该量表主要用于五种应用文的测评:订购货物的函件,应征职位的函件,叙述性社交函件,议论性社交函件,便条。量表可以测评说明、叙述、描写等三种文体,评分时对照相应文体样篇就可分别计算出三部分成绩,其比例规定如下:

(1)“思想内容”(Thoughtcontext)分,占4/7。

(2)“文体结构”(Structure)分,占2/7。

(3)“文字技巧”(Machincs)分,占1/7。

该量表具有诊断性,设计者为了提高作文的评定信度,在量表中附有练习文章,供教师把练习文章对照量表样篇评分,看自己评分是否合乎量表拟定的标准分值,以此帮助教师更好地使用作文量表,准确地把握评分。

20世纪初,我国在测验方面开始引进国外的理论和方法、技术。到了20-30年代,很多学者着手编制测验,其间美国教育测量专家麦柯尔曾来华指导。1922年后,教育测验运动在中国推广开来,有关语文的测验主要有俞子夷的《小学国文毛笔书法测验》,这是我国最早的标准化测验,还有艾伟、王金桂合编的《小学国语默读测验》,艾伟、杨清的《小学国语默读诊断测验》,陈鹤琴的《中小学默读测验》和《文法测验》,另外,还有俞子夷的《小学缀法测验量表》、周学章的《作文测验衡》、廖世承的《中学文法测验》和《语文常识测验》等。在30-40年代,测验在我国曾风行一时,相对而言,对语文测验贡献最大的当推陈鹤琴,其编制的测验涉及默读、默字、识字、作文、文法和书法各领域。

20世纪60年代以后,西方国家的一些大学和研究机构编制出版了一些作文量表,引起了教育界的重视。这不仅提供了一个测评工具,而且还可用于对教师的作文评分进行培训,如1960年美国芝加哥英语教师联合分会编制了《高中学生作文评价量表》(A Scale for Evaluation of High School Student Essays)。该量表收集了28篇作文以解释对15岁学生作文评定的各项标准,用以评定中等教育毕业证书考试所设想的写作水平。这些作文样篇从A到E级程序排列,对练习作业的评定工作,第一等的成绩有一个样组,以便保持评定标准的一致性。

近年来,美国常用的标准化作文测评量表有美国教育测验服务社编制的《STEP短文测验》和《戴里奇服务社作文量表》(Diede rich EST Composition Scale)。《STEP短文测验》要求学生在30分钟内根据特定题目写文章,评分时把每个学生的作文与已有同样题目的样篇比较,给予7级分数中的某一级。总分中“思想和内容”占50%,“文章风格”占30%,“文字技巧”占20%。

二、写作测评的基本要求

在编制一个教育测验时,必须进行标准化,写作测评也不例外。在标准化过程中,为了提高测评的有效性和可靠性,就不能忽视对信度、效度等的检定。

(一)写作测评的效度

效度是指测评能够真正测到其所要测量的东西的程度,即所要测量的某种行为特征的正确性。越是正确地抓住目标,这个测验的效度就越高,也表明所测量的结果越能代表所要测量行为的真正特征。写作测评效度,要求能测出和评出作文能力,而不是识字或阅读能力。它有内容效度、效标放度和结构效度之分。内容效度要求测验和评定项目囊括所有重要的内容。效标效度,要求测评结果与某一客观的能真正反映学生作文能力的成绩一致,它通常求得两者相关系数来说明。结构效度,要求测评结果能说明预想(理论)的写作能力结构。在统计学上,因素分析法能对它进行圆满的解释。因素分析即把一些具有错综复杂关系的因素归结为数量较少的几个综合因素(公因素),并用这少数几个因素解释能力结构。效度系数,一般要求在0.60以上。

为了提高效度。写作测评应仔细分析作文教学目标,研究作文能力结构;采用多种题型,扩大取样覆盖面;试题要求必须明确,评定标准必须清楚。

(二)写作测评的信度

信度是指测验的可靠程度,表现为测验结果的一致性、再现性和稳定性。写作测评的信度要求同一测验在不同时间施用,所得结果一致。同一作文,不同的人评定或同一人在不同时间里评定,所得结果尽可能相近。

考验写作测评信度的方法有再评法、多评法、重测法和分半法等。再评法是指两位教师同时评分,或一位教师两次评分,求得相关。多评法是指请多位教师独立对一批作文评分,求得肯德尔和谐系数。作文测评的信度系数,若达0.70以上,说明测评结论可靠。重测法,就是把一个测验在适当的时间间隔里施行二次,求得分数相关。分半法就是把测验分成性质相同的两半(如按奇偶题分),求得两部分成绩相关。

信度与效度有一定的关系,可靠的不一定有效,但有效的一定可靠。

信度只表示测验本身的可靠程度,而效度则涉及到测验所要测量的是否有效。为保证信度,应采取系列措施,如试场和阅卷场所要保持安静;所有的应试者应具有均等的条件;训练评阅教师统一执行评定标准等等。

(三)写作测评的区分度

区分度为试题能够区分出学生高低水平的程度。写作测评要求能鉴别出学生的作文能力,拉开分数距离。考验区分度可采用两端分组法,即计算高低两组受试者通过该题的比率,也可以求得各项目与测验总分的相关,求得内部一致性。当测验项目少,各项目占分比重大时,应对项目与总分相关的重叠部分进行矫正。区分度系数一般要求在0.30以上。

区分度与难度有密切的联系,难度为0.50左右,区分度最大;当难度为0.1时,则没有区分度。

(四)写作测评的实用性

实用性要求测评所需的时间、人力为客观条件所允许。一个完善的方案,如果难以实施和推行,那么就没有实用价值。因此,无论是写作测验,还是评定、解释分数等,都应简便,不易过分繁杂,耗费太多的时间和精力。写作量表为了便于分数解释,应提供常模资料,如年级常模、年龄常模、百分位常模以及Z分数和T分数常模等。这样,学生的任何一个分数或等级,只要与常模比较,就可推知学生在某一集体中的位置。

一个好的测验,其测验的内容和困难度要适合于所测的对象,并且具有较高的信度和效度,但在编制一个新的测验时,往往没有直接决定效度的外部基准效标,因此,最初应把注意力放在信度上。下面这些条件,可以提高写作测验的信度:

(1)问题项目数多,可以提高信度。

(2)由同质的项目所构成的测验(Homo geneous test),比异质项目所构成的测验信度高。

(3)项目的辨别力大,信度也高。

(4)由困难度适中的项目(通过率平均在50%左右)所构成的测验信度高;而由特别容易的项目和特别困难的项目所构成的测验信度低。

(5)对各种能力程度不同的人的测验结果,信度高;而对能力同等的人的测验结果,信度低。

(6)取分越客观,信度就越高。

(7)二者择一的回答(即正误选择或是否选择),不如多肢选择回答(多重答案选择法)信度高。

(8)意思不清、容易误解的问题,回答的指示不明确的问题,信度低;反之,信度高。

同类推荐
  • 夜读百年中国

    夜读百年中国

    本书遴选有关近现代100年间中国历史变迁的新浪博文,分帝国晚钟、甲午/辛丑、立宪/共和、民国旧事、思想文化、人物春秋几个部分,大致勾勒出旧中国任人宰割的半殖民地的景况,同时,也从文化、思想等方面显示了近现代一批仁人志士拯救民族危亡、探索民族觉醒的道路的努力。
  • 回声

    回声

    电视连续剧《回声》写于八年以前,是根据我十六年以前写的长篇小说《女囚徒》改编而成的。电影《长征》是从宏观上反映这一波澜壮阔的历史,电视连续剧《回声》是从微观上再现这一人类战争史上的奇迹。换言之,电影主要写长征中的上层领袖人物,电视连续剧则应着墨于长征路上普通的红军指战员。
  • 安全责任无小事

    安全责任无小事

    从胶济铁路火车脱轨到杭州地铁一号线塌陷,从深圳舞王俱乐部的特大火灾到致74人死亡的山西矿难,残酷的现实一次又一次地向我们证明,事故的发生总是由一点一滴的不安全因素积累而成的。安全系于人人,细节确保安全。只有人人负责安全责任,做好每一个安全细节,我们的生产才能够不受威胁。
  • 父母的觉醒

    父母的觉醒

    《父母的觉醒》是一本从心理与情感层面讲述教养之道的书。“觉醒”意味着对我们经历的一切事情保持清醒,按照现实的本来面目去接受和应对它,而不去妄图控制或改变它。也就是说,我们在教养孩子的时候,要依从他们的本性,接纳他们的本真。父母的觉醒与改变是教育的真正开始。父母只有安顿好自己的身心,才能帮助孩子成长为一个健全的人。
  • 晚清学堂学生与社会变迁

    晚清学堂学生与社会变迁

    晚清学堂学生与社会变迁绪论近代中国的青年。学生,是除旧布新的重要社会力量,在民主革命的各个阶段,在社会变迁的各个方面,常常起着先锋和桥梁的作用。1919年。的五四运动,便是在青年。学生运动的前奏曲中拉开序幕的。学生的行动不仅促使新文化运动与反帝爱国政治运动相结合,而且将少数先驱者的引吭高歌变奏为全国各阶层民众的雄浑合唱,产生了巨大的历史回响。
热门推荐
  • 师父你能不能靠谱点

    师父你能不能靠谱点

    万年之前,仙祖偶得仙果,带领人族走上了修道之路。万年之后,孤儿巫雨有幸遇见太初门大修士,被收为弟子,只是这个修为很高的修士,脑子似乎不怎么好使。“徒儿,快,为师得到一颗丹药,对你的修行大有裨益,快吃了它!啥,肚子痛?看来这种炼丹法炼出来的丹药不行啊……还好我没吃。”
  • 我的师父从石棺来

    我的师父从石棺来

    我不是孤儿,却要自小远离家乡在外生活。因为,有位阴阳先生说我八字很特殊,体质奇特,极为罕见,将来必有奇遇。让我三十岁之前不能与至亲在一起生活,否则会与他们相克。我不是道士,却要拜石棺里的尸体做师父。因为,我的身体里隐藏着千年的秘密,阴间诅咒,阳间鬼泣,一切命中注定。让我意外掉进了神秘的山洞里,见到了石棺里穿道袍的尸体。他是我神秘的师父,我是他愚笨的徒弟。这一切如同冥冥中注定,我该怎么应付未知的命运……
  • 封妖卷

    封妖卷

    “融雪无声浸古道,轻掩浅石没溪桥。奇景依旧人心老,马鸣猿啼风萧萧。”这是一个小少年成长为绝世高手的故事。
  • 昔日荒城

    昔日荒城

    为了这个江湖,屡屡忽略爱他之人的感受。为了站在他身边,她隐忍寂寞不敢表现出半点怨尤。他和她都曾有旧,他与她身负隐仇。若不是这个江湖波谲云诡,波涛暗涌,他又怎会在倾覆之时向她伸出手,将她拉入温柔的风雨之中。昔日荒城,今朝帝国,且看他,如何号令江湖,统率枭雄。【感谢阅文书评团提供书评支持】
  • 奇异事件薄:萧瑶的大学生活

    奇异事件薄:萧瑶的大学生活

    “菇凉,我观你面相,乌云盖顶,印堂发黑乃大胸之罩!最近可能会有血光之灾啊……”她一转身,只见一个披着一件破烂的大衣,颈间围着一条红色的围巾,一头凌乱有致的头发,带着点小忧郁的乞丐跟她说话!
  • 那年那人那爱情

    那年那人那爱情

    曾经的青涩感受,曾经单纯的表达,曾经真诚的体会,曾经无法割舍的爱恋,我曾经以为世界很美,直到遇见你……你就这样毫无征兆的出现在我面前,就这样撞进我的心里……“对不起,对不起”一花一世界,一叶一追寻,一曲一场叹,一生为一人!“我爱你,等我”你的微笑辇过的每个夏天,深深的藏在我的心底,成了我心里永远不会愈合的伤!“是你!”黄昏无霞何以黄昏,青春无你何以青春!
  • 仆幺之恋

    仆幺之恋

    新人新书,多多关照。内容新奇,变身萌爱,校园言情,魔法恋爱,一个不少。文笔一般,内容美好。重复一遍,多多关照。
  • 我重生了心情却不是很好

    我重生了心情却不是很好

    重生是一件好事吗?当然!因为重生可以再活一世并且不留遗憾!有恩报恩,有仇报仇,重生肯定要发挥先知先觉的优势一步步走向人生巅峰!但是,少绝,主人公,携带两千年的修真大致记忆重生到了他刚刚穿越到浩瀚大陆的时间点,然后……无敌了,怎么说呢,虽然无敌是很让人开心啦,但我总是存在的淡淡的忧伤是怎么回事?
  • 待到世界荒芜时

    待到世界荒芜时

    《待到世界都荒芜》简介你相信这世间有轮回吗?你有没有与一个人初次相见就觉得似曾相识,或者一个场景一个地方亦是如此?都说今生的妻子是前世你埋的人,来还未报的恩;今生的情人是前世的夫妻,来续未尽的缘。一段在繁华都市的欲海中艰难跋涉的爱情,一对在争斗、杀戮、阴谋中背负着家仇的有情人,如何自保?如何报仇?如何在与恶龙缠斗中保持本心,在凝视深渊时不被反噬?在重重迷雾中层层布局,却发现父亲竟是别人的局中之人;在层层布局下拨开重重迷雾,才知道被自己置于危险之巅的爱人会是自己梦里的女人。一个在梦中反复出现的身影,两个纠缠三世的灵魂,三段饱尝世间苦涩的爱情,能否在这一世倾尽所有求得一个月圆花好的结局?故事里的人物没有绝对的坏人,对于他们对世界产生恶念的根源作者甚至有些怜悯;当然也没有不曾产生过一丝恶意的无欲无求的极纯粹的好人,在这个唯太阳与人心不可直视的世界,经历过的人都懂得想保持绝对的纯良是一件多么奢侈的事情。由一枚龙佩牵出的复仇之旅由此拉开帷幕……
  • 袖手天下

    袖手天下

    她不小了,甚至比他还大上六岁。男人三十建功立业,女人三十……徐娘半老……看着他从一个温润如玉的谦谦君子慢慢改变,对天下之势若弈棋操纵在鼓掌,最终成为一统天下睥睨世人的王者。届时大权在握,美人在抱,还记得他身后曾有一个面上烙了墨印的女囚吗?