当前位置: 首页 > 政策研究 > 正文

政策研究

政策研究

张会杰:“为什么评”:评价的逻辑起点及以用定评的基本原则——兼论人工智能何以赋能教育评价

来源: 日期:2025-10-16点击:

作者简介:张会杰,华东师范大学考试与评价研究院

摘 要:教育评价是一项世界性、历史性、实践性的难题。评价的普遍问题既有评价目的膨胀、夸大评价功效导 致的以评价代替教-学-管-办-建的评价滥用;也有评价目的虚悬、片面追求形式价值引起的为评而评;还有评价目 的错置、服务于不当利益导致的虚假评估。与当下人们对人工智能未来应用是福是祸的争议立场大致类似,人工智 能嵌入教育评价亦存在是赋能还是扰乱的不同看法。智能时代需要AI赋能以至于重塑评价体系,评价范式的调整 势不可挡,但必须警觉并尽力规避各种可能的扰乱。评价不是目的只是手段,“为什么评”“评价服务于什么”是评价 当然也是AI赋能教育评价的逻辑起点,需要追问并明确阐明。为此,教育评价应当遵循以用定评的基本原则,根据 评价目的确定评价主体、选定评价技术手段,尽可能做到评用相适,使评价目的与手段适切匹配。

关键词:教育评价;人工智能;逻辑起点;基本原则;以用定评

教育评价是教育教学与教育管理的重要组成部分,直接影响着教育发展与社会进步。在我国,教育评价一向是社会各界关注的焦点议题和民众颇有微词的重点领域,评价改革也一直是改革发展中的“龙头之战”,是最难啃的“硬骨头”。随着人工智能(AI)技术的迅猛发展及其在教育领域应用的不断深入,如何利用AI促进教育评价的理论创新与实践发展已成为教育技术学、教育评价学及其他跨学科研究的热点议题。与当下人们对AI未来应用是福是祸的争议立场大致类似,AI嵌入教育评价亦存在是赋能还是扰乱的不同看法,要使之真正赋能教育的健康发展,需要首先明晰教育评价的问题所在,通过对评价难题的病理描述和病因分析,理解评价之困及所需,继而才能对症下药。文中的“人工智能”与“AI”意思相同“,教育评价”是对“评价”的广义使用,包含评价评估(appraise、assessment、evaluation)、测评(measurement,test、score)、检查审查(inspect、examine)、评比排序和竞赛(rate、rank、grade)、评判与校正(judge、adjudge)、评论(review)、批判(critique)、研判与分析(study、analyze)等为指称的各类实质性评价活动。除了直接引用的引文,均统一使用“评价”一词。

一、作为世界性、历史性和实践性难题的教育评价:问题及成因

教育评价及其改革是一项世界性、历史性、实践性的难题,涉及教育思想观念、经济社会发展水平、历史文化传统等多重因素,评价作为一种指向实践的活动,从其应用属性的角度来看,评价实践中存着在评价滥用、不用以及误用等普遍问题。

(一)以评价代替教-学-管-办-建:目的膨胀、夸大评价功效以致滥用

2006年版的《公共管理评估丛书》在总序中指出,无论是发达国家还是发展中国家,对于公共组织和公共事业,评估都是管理的核心工具,也是最理想的技术手段之一。教育评价事关教育发展方向,

评价的必要性早已得到学界的广泛认可。“教育评价之父”——泰勒(R.W.Tyler)在1949年提出课程与教学的基本原理,并将“学生学到什么程度”的评价作为课程与教学的必备环节。评价当然是重要的,人们总是先确定有没有价值、有什么价值,才决定是否将价值创造出来。

评价揭示价值的存在,引导人们去创造价值,但单靠评价并不能实现价值的创造,评价只是服务于价值增值的预备性活动和过渡性环节。然而,在评价实践中,评价作为教学或管理手段的工具性功能常常被过度拔高或异化为教育教学、教育管理、人才以及科研管理的最终目的。以评价中的“五唯”顽瘴痼疾为例,教学评价“唯分数”“唯升学”,以考出高分、升入理想学校取代教与学对学生能力与人格培育实况的价值判断;科研评价“唯论文”,以论文发表刊物级别和引用状况等的计量统计代替对科研成果理论及应用价值的专业判断;人才评价“唯帽子”,以获得荣誉头衔作为师资尤其是高层次人才队伍建设的首要目标。“唯”字道出了评价目的膨胀,只看测量计量结果不及其余不顾其他的滥用量化方法的测评现实。以各种督查检查评比考核等评价活动代替教-学-管-办-建-改的问题十分常见,名目多、频率高,且各类调研、统计、信息采集等交叉重复。高等教育阶段,评价有时亦走到教育管理体制改革的反面,成为管理主义的代名词和高校发展新的“紧箍咒”。为遏制这类评价的滥用,中共中央、国务院于2019年印发《关于减轻中小学教师负担进一步营造教育教学良好环境的若干意见》,明确提出要清理精简现有督查检查评比考核事项,确保在现有基础上减少50%以上。2020年印发的《深化新时代教育评价改革总体方案》亦强调:“严格控制教育评价活动数量和频次。”

(二)为评而评:目的虚悬、片面追求形式价值致使评价流于形式

与背本趋末的评价滥用不同,还有一种普遍存在的“为评价而评价”,主要指那些过程轰轰烈烈但结果一般弃之不用的评价现象。这类现象亦存在于西方发达国家,韦斯(Carol Weiss)就曾提到上世纪六七十年代评价对美国课程决策改进的影响微乎其微。虽大力宣传、倡导和支持评价,却没有对评价结果加以利用。在我国,各级各类教育中为评价而评价的现象也比较常见,“很多时候,我们是为评而评,不知道为什么评,却天天在评”,为了做而做,为了完成而完成。有形无实、备而不用,实质评价和评价功用的贫困构成新的评价危机。

为评价而评价的评价之所以流于形式,与评价目的虚悬、以功利性目的为出发点有关,常见的有:一是为了表明对评价工作的重视、对相关政策的拥护以及落实政策的态度和决心而启动评价项目。二是为了彰显治理的现代性与价值多元化实施的评价。教育治理强调多主体参与,个别评价项目同时涵盖教师评价、同伴互评、学生自评、家长评价,甚至还包括社区评价,如果代表社区的评价者确实了解被评对象自然无可厚非,但有时并非如此,这样做主要为了形式上凸显评价主体的多元化。三是为了彰显技术工具的先进与丰富或者只是出于惯例,等等。评价参与者的注意力主要放在评价手段及其形式化呈现上,而未能将评价和课程教学以及教育管理等加以整合,使评价最终流于形式、空洞虚泛。

近几年,国家政策倡导“创新评价工具,利用人工智能、大数据等现代信息技术,探索开展学生各年级学习情况全过程纵向评价、德智体美劳全要素横向评价”,一些学校的探索,其着力点就在于对全息信息的全程采集和全面记录,学生综合素质评价平台也格外重视各类过程性信息的采集。至于如何对其进行教育意义上的分析解读和价值判断,以及如何代入后续的教育教学则语焉不详。这类不以行动改进和判断决策为主旨的评价,导致育人价值有限,但却以学生和其他参与者或大或小的精力消耗为代价,久而久之,评价难免沦为形式。

(三)虚假评估:目的错置、评价程序虽然完整但服务于不当利益

评价主体及其委托人有时会故意掩饰、选择性地公开甚至尝试伪造评估数据,斯塔弗尔比姆(Daniel Stufflebeam)在《21世纪方案评估的基本模式》长文中,首先讨论的就是这种称之为“假评估”(Pseudo-evaluation)的评价实务。虽冠评估之名,且程序完整,看起来很像评估,但无法形成向知情权益人报道其优缺点和价值的有效评估结果。假评估常带有政治意图,对教育的现在与未来都毫无益处。斯塔弗尔比姆通过美国评估实践中两类常见的假评估模式——启发公共关系(Public Relation-Inspired studies)和政治控制类(politically controlled studies)揭示了假评估的实质及关键特征,他告诫道,如果参与者随波逐流,默许甚至支持假评估,他们将助长社会的不公正、误导政策、使利益相关者和民众对评估服务的信赖和信心降低以至于丧失殆尽。

假评估古已有之且无论西东,2003年启动的本科教学工作水平评估在初步运行时期取得很大成绩的同时也产生了不少问题,其中最受诟病的就是有悖教育伦理的造假作弊。AI以其独特的技术属性和前所未有的强大功能,反而可能使假评估所需的“完善的”评估程序更容易操作且更加精致,加之先进技术对工具理性的附魅形塑,亦可能使假评估更隐蔽和更具迷惑性,从而放大虚假评价虚妄矜夸造成的教育风险和管理异化。

二、赋能还是扰乱?人工智能嵌入教育评价的不同立场

(一)乐观立场:人工智能将大大赋能教育评价创新

持乐观立场的学者和政府官员认为,AI技术将赋能教育评价,为评价体系的现代化开辟新路径。其益处主要体现在:将助推结果评价更科学、过程评价更智慧、增值评价更便捷、综合评价更完善,智能测评以更可靠、更高效、更智能的手段整合多维度、多层次的信息,形成更准确和更具解释性的测评方案。人机协同评价结合人的主观判断和机器的数据处理能力,能提高评价的效率和精确度,创造出更高效、准确和个性化的评价体系,从而推动决策优化、增强教育效果和提升服务质量。更乐观的立场甚至认为,促进智能技术与教育评价融合创新是深化新时代教育评价改革的必然选择,只有通过迭代升级的智能技术,才有能力摆脱教育所面临的诸多困境。我国行政部门对AI的应用多持乐观立场,教育部近期表示,要建立新的评价标准和体系,加快推动人工智能赋能创新教育,推动形成创新教育和数字教育、智慧教育互融互促的良好生态。

(二)悲观立场:人工智能愈加突显教育评价的问题

乐观立场的学者中有不少也意识到技术至上遮蔽评价本质、技术僭越加剧评价风险等挑战。悲观立场者更是表达了对AI、大数据等技术应用于教育测评在规训、控制,激化教育竞争与焦虑、加剧教育功利化和工具化以及数据权力滥用等方面的隐忧和智能时代评价功能的扭曲、评价人文价值的消解、评价主体性的失序等主体性让渡的风险,有学者担忧“算法暴政”凭借强制性力量导致教学偏见隐匿与增强,数字拜物教对人之精神存在的贬抑及其对世界丰富性的遮蔽。更悲观者甚至认为,AI技术可能使少数群体学生遭受的社会伤害永久化。近期国内外出台的抑制性举措表现出或多或少的悲观立场。如联合国教科文组织2023年发布的应用指南指出,生成式人工智能(Generative AI)生成的大量偏差信息使学习者获取的信息源混乱,考虑到给儿童带来的巨大隐患,指南建议13岁以上的青少年才可使用AI工具。国内多所高校,如复旦大学2024年出台本科毕业论文(设计)中使用AI的规定,明确提出了“六个禁止”全球最严的反制措施,包括禁止评审专家使用任何AI工具进行评审。

(三)审慎乐观:评价需AI赋能同时应警觉规避各种扰乱

亨德森智库对AI时代生产力变革提出了三个假设。一是未来的AI技术是自动化智能(Automation Intelligence)与增强智能(Augmented Intelligence)的结合,前者依托AI自动执行任务,AI代替部分人工,适用于简单、确定、不太重要、独立性强的重复工作。后者通过AI提升人的创造性与决策效率,强调以人为中心由AI辅助,适用于复杂、不确定、重要、需要协调的个性化工作。二是当AI承担的工作越来越多,人类生产力将大大解放,并向新兴产业链或更加差异化竞争的劳动力形态迁移。三是长远来看,人类将更多地出于志趣和成就感去工作而非单纯谋生,组织管理也将发生创新迭代。智能时代,AI技术成为教育的一般条件,是师生教与学活动于其间的自然环境的组成部分。结合图1,从最具根本性的教育目标来看,当AI越来越多地承担原本由人完成的工作时,教育目标将不得不根据变化了的社会对劳动力的新需求进行重大调整,评价作为服务教育目标实现的管理工具,评价目的、手段方法尤其是评价标准以及结果应用也将不得不重新形塑,评价的范式调整势不可挡。评价需要AI赋能,尤其是在评价的测量环节,如信息的搜集、整理、统计等初步分析及关键性事实的多模态呈现上,同时,教育的“好”“优秀”“成功”的评价标准也需要重新定义。然而,技术是中性的,过于乐观的立场可能弱化乃至忽略评价难题最根本处的要害内容的问题意识,不能认为仅仅依靠技术本身就能自动扭转不科学的评价导向,亦能轻松克服评价顽瘴痼疾。

图1 教育评价体系结构要素及其与内外部环境互动图

2018年,时任美国教育测量学会主席贝内特(Randy E.Bennett)在年会报告中指出,要维持测评的合理性,必须不断关心测评的核心价值和基本原则。否则,我们若只追逐虚妄的时尚,短期内可能有利可图,令人兴奋,长此下去却会失却教和学的意义。为了缓解悲观立场者的诸多隐忧,搭建起教育评价与人工智能的对接桥梁,本文提出教育评价的逻辑起点以及评价以用定评的基本原则,为AI真正赋能教育评价的理论发展及实践探索提供参考。

三、为什么评:评价及AI赋能教育评价的逻辑起点

诺贝尔奖得主阿西莫格鲁(Daron Acemoglu)曾通过对“技术决定论”的反驳提醒人们认识到AI发展路线的是否正确以及如何选择。人们不能在不了解教育评价的本质、评价体系的基本结构和评价基本原则的情况下在评价中“正确地”应用AI技术。

(一)评价不是目的只是手段:教育评价的工具性服务性本质

事物的本质与其功能密不可分。评价是衡量、评定价值,是评价者把握客体对价值主体的意义、价值的一种观念性活动。教育评价是在搜集、整理、分析反映教育特定要素及相关要素组合事实类信息的基础上对其价值做出判断的过程。克隆巴赫(Lee J.Cronbach)曾经指出,评价是收集和使用信息以对某个教育项目进行决策的过程。陈玉琨进一步指出“:教育评价是对教育活动满足社会与个体需要的程度做出判断的活动,是对教育活动现实的(已经取得的)或潜在的(还未取得,但有可能取得的)价值作出判断,以期达到教育价值增值的过程。”格朗兰德(Norman E.Gronlund)主编的教材更是直接阐明了评价不是目的,评价只是价值展开及其实现的手段这一重要思想“:评价是达成最终目的的手段,而不是目的本身。评价程序的使用意味着正在实现一些有用的目的。”雷舍尔(Nicholas Rescher)把“只有使用与目标相关且有效的手段才是明智和恰当的”视为评价实践理性所应遵循的基本原则。“评价是为了决策,这是所有评价活动的本质特征。”价值并不依赖评价而存在,“教育评价之于教育目的具有强烈的工具性和服务性”。普通高等学校本科教学工作水平评估提出“以评促建、以评促改、以评促管、评建结合、重在建设”的二十字指导方针,准确揭示了评价的工具性服务性本质。

需要说明的是,教育评价的本质是对所评对象的价值做出判断。在哲学中,价值问题是一个高层次的、全局性的普遍问题。对价值的理解主要有客观价值论和主观价值论。客观价值论强调价值的客观性、可量化和可测量性,将价值视为一种客观实在,类似于物理属性,可通过具体的指标和标准进行衡量和表征。“五唯”评价体系的底层逻辑即典型的客观价值论。主观价值论则认为,价值是指客体的存在、属性及其变化同主体的尺度是否相一致或相接近。我国教育评价学知识体系在初创时期,即确立了以需要满足说为代表的主观价值论,离开主体的需要去谈客体的价值是无意义的。此后的教材大都认可并坚持类似的价值主张,如《教育评价与测量》重申,教育价值指教育能够满足人和社会需要的程度。此处之所以特别强调价值及教育评价的本质,想要说明评价主体对价值主体尺度的把握是至关重要的因素。在教育评价实践中,尤其是应用了大数据和智能技术的评价项目在信息搜集、事实测量方面可能更完备和准确,但很可能会忽视“主体的尺度”,一旦无视“客体适合于主体的尺度”,其实已远离了价值的本意,严格来讲并不属于教育评价的范畴。至于以测量数据的算术排序代替价值判断,更是量对质的工具性僭越。

(二)教育评价的体系结构及“目的-手段”框架中的评价目的

教育评价体系是一个目标导向(goal-directed)的系统,评价体系及其结构要素分三大模块:评价目的与目标、评价方法与手段、评价结果及应用,如图1所示。AI嵌入教育评价理当包含传统教育评价的关键要素以及有效评价得以展开的核心环节。

首先,明确的评价目的与目标。对事物的评价与目的论紧密相连。目的(end)与目标(goal)涉及评价要发挥的功能、开展评价的理由,所要回答的是为什么要评价、评价为了什么。“在所有深思熟虑的、有计划的人类行动中,无一不受对欲达目的之价值鉴定的左右。”明确的评价目的是有效评价的必要条件“,评估程序的使用意味着正在实现一些有用的目的,并且用户清楚地意识到这个目的。盲目地收集学生的数据然后将这些信息归档是浪费时间和精力。”需要区分过程性的工作目标与测评目的本身,测评目的指向期望测评实际完成的任务、达成的成效等,如“准确刻画被评对象在所测评方面的关键特征”、“呈现测评对象在特定维度基于常模参照或标准参照的综合比较”等,而“创设智能测评系统”“全面采集数据信息”则是过程性的工作目标,虽然必不可少,但不宜将其作为评价的目的。

其次,方法与手段的适切性选择。包括评价组织与人员(谁来组织由谁评价)、评价对象与内容(评价谁以及评价什么)、评价依据和标准(谁优谁劣的判断标尺)、评价方法和技术(如何采集和判断信息)、评价程序和过程(业务流程和时间安排等)。评价方法与手段常常以多种形式组合和关联。

再次,评价结果及结果的合理应用。如何使用评价是激活教育评价“生命力”的关键所在,既包括评价结论的直接应用,也包括对元评价的进阶使用等。例如,大数据和云服务能够做到对大规模学生的知识掌握、能力发展、人格与情绪情感等多维度数据进行快速处理,为评价的精准诊断和可靠预测提供了可能——这些拟采用先进技术的评价项目,预计将得出怎样的评价结论、结论又将应用到哪里以及具体如何应用,包括其应用是否能发挥预期的功效等内容。

(三)追问并阐明“为什么评”:评价及AI赋能教育评价的逻辑起点

现实评价实践中,人们往往更关注有没有评、评什么、怎么评,却没有充分思考“为什么评”“评价到底服务于什么”“评价能否以及如何助力于价值的增值”。理解评价的目的论属性很重要,对“为什么评”“评价服务于什么”明确且稳定的回答是评价合理有效的必要条件,人们实施评价尤其是AI嵌入的评价需要深入思考、持续追问并对此做出具体陈述、明确阐明和合理诠释,还需要以此为问题线索统摄对评价体系中评价主体、内容、标准、方法、程序及结果应用的选择并对其科学性及一致性做出功能解释。由此才能发现和识别出教育中更切身的重要问题,理解和把握评价的根本属性、核心功能及边界,从而决定评价纳入与排除的范围,进而剥离出评价的过度责任和不合理负担,继而规避以评替代教-学-管办-建的评价滥用,同时防范无足轻重的评价问题乃至伪问题导致的形式主义和虚假评价。

持续追问并具体阐明“为什么评”“评价服务于什么”,不只是关注评价项目的意图和初衷,还应关注评价的结果应用、实施成果和功效。比如,有研究设想应用5G技术、ASR、NLP、大数据与云服务等技术更好地因材施教和更有效地匹配教-学资源;应用增强现实(AR)、虚拟现实(VR)、混合现实(MR)等技术辅助创设问题解决情境,助力对核心素养的评估,这些评价项目是否能做到对学生潜在能力的精准诊断和可靠预测,更进一步,评价结果又将如何应用于因材施教以及学生学习状态的改善,都是需要做出诚实和翔实回答的关键内容。也就是说,“为什么评”“评价服务于什么”同时还是评价的归宿和落脚点,也是元评价和教-学-评一致性判断的重要依据。当前,悬置评价的根本目的,即评价服务于什么样的具体目的、满足于怎么样的现实需求的评价项目时有涌现,对“为什么评”“评价服务于什么”的陈述还过于宏阔宽泛、循环论证和说理不足,要使之落到实处,需要人们用清晰的概念而非修辞的方式将评价目的清晰地表达出来,同时还要经得起推敲和论证,而不是愿望式的、跳跃式的、(术语充斥)故弄玄虚式的。

四、以用定评:评价及AI赋能教育评价的基本原则

AI的快速发展及应用为教育评价提供了颇具潜力的技术基础,要美梦成真而不是好梦难圆,评价的设计及实施应遵循以用定评的基本原则,这既是出于对理想评价的向往和追求而演绎出的规范性原则,也是“从实践中来、到实践中去”在技术层面归纳出的规律性原则。

(一)以用定评基本原则的内涵及其意义

以用定评原则,即“评价目的-手段”适切性原则,这是保障评价合目的性与合规律性的基本原则(或称之为一般原理)。该原则最早出现在科技部等八部门2022年印发的《关于开展科技人才评价改革试点的工作方案》中,强调“使用牵引”。评价目的的确立在评价中具有至关重要的作用,一切评价均以评价目的为先决条件,整个评价体系包括评价主体的确定以及评价手段办法的选用均以评价目的为核心为统帅。任何评价都需要明确评价的目的、意图和用途,并对评价目标的正当性和可行性做出具体而非抽象的阐明,这是有效评价的前提,是在评价活动开始之前就应预先精细设定的。评价目的不明确不稳定,整个评价很可能会自相矛盾令人无所适从。

教育评价是解决教育教学实际问题的管理工具,教育体系的构成要素既有各种身份的人,如教师、学生、教育管理人员等,也有事和物、教育现象、组织和活动等,如教育政策、学校、课堂教学、课程教材等等。评价的对象可以是教育体系中的任意要素或要素的不同组合,以及对评价的元评价;教育评价的方法,包括过程评价、结果评价、综合评价、增值评价等亦错综复杂。目前很多研究确信AI能使教育评价从只关注结果转变为关注过程,并视这一技术可实现性为AI赋能评价的核心价值,同时提出大数据驱动的评价及全周期的评价原则,这种评价观念值得商榷。目的决定手段,评价目的先于评价并决定和统领着评价视域、评价主体、评价技术手段等的确立,评价手段应与评价功用适配,这意味着过分追求强大酷炫的技术表现力和“多多益善”的信息采集是当下AI赋能教育评价的认识误区。AI应用于教育评价应当坚持以用定评的评价原则,智能技术虽然能实现面向真实教育过程的实时、动态、完备信息的全程全样本采集,但不能想当然地认为评价涉及的内容越全面越好、采集的数据信息规模越大越好。有意义的评价须立足评价目的展开信息的针对性采集,也应基于评价目的做出紧扣主题的专业解释。

(二)由谁来评:根据评价的应用目的确定评价主体

评价活动中的评价主体是做出价值判断的人,由其认定被评对象对价值主体是否有价值。当评价主体与价值主体完全重合时,评价主体判定的是价值客体对自身的意义和价值;当两主体完全不重合时,评价主体是这重价值关系的旁观者。情形虽不同,评价都是评价主体根据所把握的价值主体的尺度衡量价值客体的意义。教育评价中,究竟应该由“谁”来评价,即如何确定评价主体还存在分歧和纷争。以学生综合素质评价为例,我国基础教育形成了“谁熟悉谁评价”和“谁使用谁评价”两种评价主体观,其认知分歧成为学生综合素质评价难以落地的重要原因。笔者认为,以用定评原则能有效回应这一实践困扰并给出清晰的回答。

根据评价目的,教育评价可分为两大类型:一类是教书育人取向的形成性评价,另一类是资源配置取向的终结性评价,如图2所示。以用定评原则要求根据不同的评价目的确定不同的评价主体,如果评价充当“校正仪”,主要服务教育教学体系中教师的教和学生的学,此时,适宜的评价主体主要是作为熟人的教师,教师对学生学业及其他方面进行学情分析并做出应当如何的价值判断,教师是此类评价的重要使用者,评价结论直通教师的教学设计及因材施教;评价主体也可以是学生,学生亦是同侪互评和自我评价的重要使用者,既发展作为高阶思维的评价能力,亦助益个体反思、认识自己他人与自主规划等;评价主体还可以是家长,家长可全面了解子女学业等各方面发展情况,进而形成价值判断以支持子女做出教育选择;评价体系还有其他评价主体,如各级教育督导人员,他们立足教育问责,助力教学公共服务的质量保障。如果评价变作“指挥棒”,主要服务稀缺资源的配置,如招生录取,此时,适宜的评价主体应是高一级学校,作为价值的创造者一方,特别是考生评价结论的重要使用者,高一级学校理应对考生是否契合本校人才培养目标和定位进行价值判断。在这一应用情境中,教师等的“熟人评价”和学生的“自我评价”有助于对考生整体形象的把握,使录取结论更合理,然而考虑到人情社会的诸多干扰,未必可信可用,但是否采信的决策依然应当由高一级学校做出,他们有权决定是否以及如何选用“熟人评价”和“自我评价”,这是推动评价自主权落实的必由之路,若非如此,主体性让渡的评价风险就难以有效规避,价值主体对评价的主体性也不可能产生深度自觉。

图2 由谁来评:根据评价目的确定评价主体(以学生评价为例)

从决策与责任承担的角度看,以用定评原则要求权责对等,价值主体应具有根据其行动目标应用评价结果自主决策的权利,不管评价技术有多先进,评价服务提供方的权限均应定位于“帮用户出主意”,而不是强制性地“替用户做决策”,坚持“谁使用谁评价”有助于最大限度地保障对评价结果的合理使用,同时防范悲观立场者对AI技术规训、控制乃至“算法暴政”的担忧戒惧;从评价程序和过程的角度看,以用定评还要求评价参与者的有效互通和联动,如信息、资源的共享,议题和解决方案的协商,方案实施时的分工合作等。从资金来源及成效的角度看,诺贝尔奖获得者弗里德曼(Milton Friedman)著名的“花钱矩阵”揭示的“成本-效用”规律亟需关注:(1)自己出资自身受益,既讲节约又讲效果;(2)自己出资他人受益,只讲节约不讲效果;(3)他人出资自己受益,只讲效果不讲节约;(4)他人出资他人受益,不讲节约不讲效果。未来,AI赋能教育评价是由政府顶层设计与推进、以公共财政作为支持主力还是由基层学校多元需求驱动、依托对社会资源的充分盘活?这是值得认真探究的重大政策议题,其制度意义不限于成本控制及资源配置的成效和效率。

(三)如何评价:根据评价目的选定评价技术手段

教育评价体系外在的教育世界乃至更广阔社会的各种要素,只有被选择才会成为评价的手段,评价者也必然要在各种技术包括AI新技术中做出选择,各种技术并不都等值齐平,选择是有价值方向的,处理好评价目的和技术手段的关系是评价当然也是AI赋能教育评价的关键问题。没有测评技术手段的支撑,评价目的就是空中楼阁,而离开评价目的的统辖,手段也会变成脱缰的野马。结合图3,以用定评基本原则确立了选定评价技术的方法论,即评价目的决定评价技术、手段和方法的选用,如何选定必须服从评价目的的指导、控制和调节。

图3 如何来评:以评价的应用目的确定评价的手段方法及结果应用

以用定评基本原则突出强调以评价目的、评价主要使用者的首要意图作为评价的出发点,根据使用需求确立与目的相适配的评价方法与手段,包括评价对象与内容、评价依据和标准、评价程序和过程以及结果的使用等等。以AI赋能外语听说能力测试为例,当服务于大规模高利害考试如中高考的选拔时,适合的测评办法是人机对话且考试和评分全流程自动化智能化,以及AI双机评分,相互比对校验,在出现大分差时再交由专家人工仲裁。很显然,“智能双评+专家仲裁”的测评技术手段并不适用日常外语听说教学的发展性评价。外语听说教学与AI技术的融合,学生可应用AI自主练习实时打分,即时生成多维度评价报告,这为教师动态检测教学目标、分层教学、因材施教提供了参考,学生则能及时发现错误,快速纠错,以发展口语的自然度和流利度等。当服务于高利害选拔时,选定的是结果评价;当服务于日常教学的发展性评价时,选定的则是即时性评价、过程评价和增值评价。以用定评、评用相适,评价目的的转换直接引发了评价技术方法的转变。

以用定评的基本原则意味着事先对特定评价技术的偏爱都可能是缺乏正当理由的,这对AI技术及其功能的合理选择具有重要意义。前沿尖端工具的应用绝不是教育评价的全部,也不是教育评价的重点,纵然信息多源且异构,却未必是教育评价的价值所在。根据评价目的选定评价技术,评价才能有的放矢集中用力,避免资源错配精力分散。遵循以用定评原则可有效规避、减少以至于杜绝评价的滥用、不用以及各类虚假评估等评价活动,一定程度上保证评价目的和目标的实现以及预期效果的达成,同时保障评价有效、好用、最少干扰正常的教育工作,既保障宁静宽松的办学环境,也有望增强评价的工具理性和应用价值。需要说明的是,教育评价是一项对整体性、全局性协作要求很高的实践活动,该原则只是保障评价合理有效的必要条件而不是充分条件。此外,评价手段的选择还必须符合伦理规范,不能“为达目的不择手段”。

评价是一把“双刃剑”,既有认知、说明、比较、激励、改进、提升等正向功用,也易导致工具化和功利化、加剧趋同化和异化等消极影响、。人工智能作为第四次工业革命的主角和引擎,正推动人类社会步入全新的智能化阶段。在AI嵌入教育评价的进程中,学者和实践者需要对教育评价滥用、不用和误用保持高度的敏感,避免耽溺于蹈空的理念、时髦的理论以及人力财力代价高昂的技术乌托邦,也要对只赞誉强者、胜利者的“优绩”争竞场保持必要的警觉。本文对评价以及AI赋能教育评价的逻辑起点和基本原则进行了初步分析,希望引发学界同仁的讨论和批评,从而助力AI赋能教育评价超越浪漫想象步入自觉应用的理性阶段。

文章来源:《教育发展研究》2025年第9期