机器人已试点参与多次大规模考试，探索作文等开放式题目评分

机器人已试点参与多次大规模考试，探索作文等开放式题目评分

在今年中考阅卷中，襄阳市引进了智能化网上阅卷系统。视频来源襄阳广播电视台网站(02:51)
对于各大考试来说，阅卷是相当重要的一环，同时也耗时耗力。而随着人工智能不断升级，近年来机器人阅卷技术已日渐成熟。
近日，科大讯飞相关人士向澎湃新闻（www.thepaper.cn）表示，在教育部考试中心的组织下，智能阅卷技术，已经在全国多个省份的大规模考试（如中高考、成人高考、学业水平测试等考试）中通过了多次多范围试点验证。
在2017年湖北省的中考中，襄阳市率先引进了智能评卷系统，该市教育考试院院长刘朝志对媒体表示，“相比人工阅卷，智能阅卷除了在阅卷速度上有优势外，还能弥补其在雷同卷、空白卷处理上的不足。”
大规模考试中已进行多次多范围试点验证
2016年3月，教育部考试中心和科大讯飞成立了联合实验室，共同开展人工智能技术在智能阅卷、命题、考试评价分析等方面的研究。
近日，科大讯飞方面告诉澎湃新闻，目前，在考试中心的组织下，科大讯飞的全学科智能阅卷技术已在学业水平测试，例如大学英语四六级，以及全国多个省份的高考、中考、成人高考等大规模考试中进行了多次多范围试点验证。
验证结果表明，计算机评分结果已经达到了现场阅卷老师的水平，完全满足大规模考试的需要。
以往，进行几十万、几百万份考试试卷样本的分析需要耗费巨大的人力资源，可行性很低，但如今通过精准的图文识别以及海量文本检索技术，可以快速核对检查所有试卷与目标相似的文本，并迅速提取并标注出可能存在问题的试卷。
据《襄阳晚报》报道，与往年中考阅卷不同的是，2017年湖北襄阳市中考阅卷在全省率先引进了智能评卷系统。阅卷点一位技术人员说，智能评卷系统可进行工作量分析，可列出每个评卷源评卷总量，监控每个老师的评卷质量。
襄阳市教育考试院院长刘朝志称，有了智能阅卷大数据，每道题的得分情况，全市的平均点，哪块知识学生掌握得好，哪一块教育教学不到位，都可出一份教育教学诊断报告，更有利于老师教、学生学。“相比人工阅卷，智能阅卷除了在阅卷速度上有优势外，还能弥补其在雷同卷、空白卷处理上的不足。”
据襄阳市教育考试院中招科工作人员龚勋介绍，智能阅卷系统可覆盖绝大多数的范文。运用智能系统后，可在海量数据里面搜索，就能准确判断是否抄袭了范文。
7月19日，刘朝志向澎湃新闻表示，目前还需更多时间才能对外透露更多信息。
科大讯飞方面告诉澎湃新闻，智能阅卷采用了基于深度神经网络学习的图文识别技术，已经达到人眼识别中英文手写字符相当的水平。该项技术应用于正式考试中，可以辅助人工阅卷，减少人员投入，降低人工阅卷中疲劳、情绪等因素的影响，进一步提升人工阅卷评分的效率、准确性和公平性，从而对整个产业产生极大的变革。
此外，通过该项技术，将全部考生作答试卷都进行电子化后生成的海量、准确的分析数据也为之后教与学的研究提供了有力素材，并且提供了未来可被良好应用的、与考试阅卷业务深度结合的突破点。比如，通过智能化的评分和批改加强与真实的课堂更好地结合。
“在做的大项目中有一些技术成果可以用于高考阅卷，但根本的目的是引入人工智能将阅卷推向3.0时代。”6月，科大讯飞轮值总裁吴晓如对澎湃新闻表示，“阅卷1.0时代是纸笔阅卷，2.0时代是在网上把人组织起来用机器自动评阅一些客观题，而在人工智能时代，已经可以开始对主观题进行自动评阅。”
机器批改主观题早不再是空想
一般考试中通常包含客观题和主观题两个部分。而在有了答题卡、扫描仪后，客观题全部可以由机器批阅。不仅阅卷速度大大提升，而且更加准确。
而自20世纪60年代以来，国外许多专家和学者就开始致力于主观题的机器阅卷技术研究，出现了各种不同的自动批改系统，例如美国的MBA、托福考试中就应用了E-rater系统。但这些系统大部分针对的都是第二语言作文，即非母语作文。但是，批阅学生用母语写的作文需要在更高层次，比如作文的文采、篇章的衔接、作文立意等方面做出评判。
到了2015年11月，科大讯飞的机器智能阅卷技术在安庆、合肥等地成功试点应用。经过对人机评分结果的分析，计算机在评分一致率、平均分差、相关度以及与仲裁分更接近的比例等指标方面都已达到或超过人工评分水平。这意味着，机器评阅主观题已不再是空想。
那么，对于没有客观标准答案的主观题，机器阅卷的原理和依据是什么？吴晓如解释，机器阅卷和人工阅卷的本质区别在于工作机理的差异。机器是通过统计、推理、判断来决策，这与人的思维方式不同。在阅卷过程中，机器采用智能学习的方式。通常一组专家评阅约500到1000份试卷后，机器就能学习到这一种试卷的评阅模式并形成一个模型。这种模型对其他试卷就可以形成有效的处理和覆盖，再根据该模型自动评阅其他试卷。
而对于度量标准则是，先推选一组公认阅卷水平较高的专家，把这一组专家对一组试卷给出的平均分作为一种相对标准。之后，把机器最后的测试结果、其他测试员测试的结果与专家的平均分比较。如果机器和专家给出平均分更接近、相关度更高，才认为机器评阅的结果达到预期。
“只有一种简单的或是标准化的测试模式实际上是非常容易作弊的，但从目前很多应用的结果来看，还没有一种办法能够很好地欺骗机器”，吴晓如说，“就像Alpha Go下围棋一样，并不是说找到一种客观、标准的套路就可以打败它。”
此外，对于机器阅卷是否会抹杀学生创造力的担忧，吴晓如表示，阅卷中机器会把与众不同的、富有创造力的试卷挑出来交给人工处理。还有，对于犯了低级错误但有新思路导致测试成绩不佳的考卷，也需要现场的测试员和专家来判断。
吴晓如说，实际上，机器主观题阅卷已经过了很长一段时间的验证。“很多教育专家、一线教师、校长一开始都对机器阅卷不认同，但通过结果的现场对比，这些专家最后还是认可机器要比人工测试的结果更好。”
探索作文自动评分
而在国内近年的主观题的机器阅卷技术研究中，最令外界眼前一亮的是哈工大讯飞联合实验室研发的语文作文评分技术。
要给作文评分就需要面对观性相当强的文本。那机器应该从哪些维度去评判？又如何去量化这些维度？
研究人员介绍，就像在中、高考阅卷中，全国的教师以一套统一、严格的标准来进行评分一样，机器批阅作文，最重要的也是让机器学到这套标准，然后按标准批阅。
也就是，教师们先设置一套通用的从字迹工整度、词汇丰富性、句子通顺度、文采、篇章结构、立意等多个层次综合评估一篇作文质量的解决方案。之后，机器就可以利用算法从少量人工评分的样本中学习获得作文评分标准。比如一次考试有2000份卷子，从第一份卷子开始，机器就可以学习教师的阅卷方法，学到200份的时候机器就可以代替人工，自动对剩下的试卷进行智能化打分。
作文评分系统中，词汇丰富性和立意属于内容相关的特征；字迹工整度、局部连贯性、句法正确性和篇章结构属于表达相关的特征；文采属于发展等级特征。另外，该技术还利用人工神经网络对作文的语义进行深度表示，从而得以从宏观上把握文章的立意。
而这每一项标准背后都需要复杂、精密的技术来支持。例如，判断字迹工整度就需要用到手写识别技术，即自动将图片中的手写体字转写为文本的同时，给出识别概率，以此来表示工整度。再例如，判断一篇作文是否离题，就先需要根据题目内容提取关键词，并根据主题进行扩展，同时提取作文中的关键词，再计算作文的关键词和题目的关键词的相似度。另外，也可以在该次考试的大规模数据上训练主题模型，得到全局的主题分布，然后和待考察作文的主题分布对比。
参与国家“863计划”（国家高技术研究发展计划）的科大讯飞方面表示，随着人工智能技术的发展，未来，除了开放式的作文，甚至政治、历史、地理科目的问答题机器都可以自动阅卷。
当全自动机器阅卷成为现实后，教师们将会有更多的时间和精力投入到对教学方法、教学手段等创造性工作的研究中，从而为学生带来质量更高、更全面的教育。