七款AI大模型“高考成绩” 前三名文科过一本
IT之家7月18日消息,上海人工智能实验室17日公布了针对7个AI大模型的高考全科目测试结果,据大模型开源开放评测体系“司南”相关负责人介绍,“当前大模型仍存在很大的局限性。组织AI大模型‘参加高考’,目的是评测当前大模型的真实水平,找准问题,持续推进技术进步。”
测试结果显示,书生・浦语2.0系列文曲星大模型(浦语文曲星)、阿里通义千问大模型Qwen2-72B以及GPT-4o再次包揽文、理科前三甲;前三名AI“考生”的文、理科成绩分别超过了“一本”“二本”线(以今年高考人数最多的河南省的分数线为参考)。
从官方提供的图片来看,此次参与“高考”的大模型还包括来自零一万物的 Yi-1.5-34B、来自通义千问的 Qwen2-57B、来自智谱的GLM-4-9B 和法国 AI 初创公司Mistral旗下的Mixtral 8×22B。
据介绍,此次评测具备如下特征:
全卷考试:进行全卷评分,而不只针对单一题型,且包括带图的高考题
考前开源:评测覆盖的开源模型均为今年高考前开源的模型,排除泄题的可能性
老师打分:邀请有高考阅卷经验的老师打分,确保评分和高考尽量一致
完全公开:生成答案的代码、模型答卷、评分结果完全开源
在增加综合科目的基础上,Qwen2-72B、GPT-4o、浦语文曲星包揽文、理科前三甲。阿里通义千问大模型Qwen2-72B以546分的成绩荣获AI高考“文科状元”,浦语文曲星则以 468.5分成为理科第一名,分别超过了“非开源国际插班生”GPT-4o(文科531分,理科467分)。同为国外机构发布的Mixtral8x22B平均得分最少,弱于国内大模型的高考表现。
阅卷老师们一致认为,大模型与真人考生仍存在差距,虽然对于基础知识的掌握表现出色,但在逻辑推理和知识灵活应用方面,大模型仍然差强人意。具体而言,在作答主观题时,大模型往往无法完整理解题干,不明白代词指向,结果导致答非所问;解答数学题时,解题过程机械且逻辑性差,对于几何题,常出现与空间逻辑相违背的推断;对物理、化学实验理解肤浅,无法准确识别并运用实验器材。
此外,大模型也会伪造虚构内容,编造看似合理但实际不存在的诗句,或在存在明显计算错误的情况下之后不反思,“硬着头皮蒙”一个答案,均给阅卷老师带来了困扰。
根据上海人工智能实验室上个月公布的AI高考全卷结果,Qwen2-72B、GPT-4o及书生・浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。
声明: 我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本站部分文字与图片资源来自于网络,转载是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们(管理员邮箱:daokedao3713@qq.com),情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
相关推荐
-
逆转裁判授权主题店上海店5月1日开业 需预约入场
4月24日,IPSTAR潮玩星球官方宣布卡普空授权逆转裁判主题店“上海店”将于5月1日开业,地址位于上海市黄浦区南京西路2-68号北楼新世界城4楼A16-A19号一店,营业时间为11:00-21:00。在5月1日至5月7日营业期间,就餐及购
-
《肯泽拉传说:扎乌》主线通关时长约为8-10小时
Sturgent Studios和EA合作的《肯泽拉传说:扎乌》将于本月晚些时候发售,近期一些媒体发布了试玩前瞻,同时也透露了游戏的时长信息。One More Game在其试玩前瞻中报道,《肯泽拉传说:扎乌》主线剧情通关时间约为8-10小时
-
《最终幻想7:重生》总监:游戏获得90分以上评分是个人目标
《最终幻想7:重生》总监:游戏获得90分以上评分是个人目标《最终幻想7:重生》已经正式发售,该作也已经获得了众多玩家和媒体的好评,M站评分为92。事实上,获得超过90分的评分是总监滨口直树想要实现的目标。 在《最终幻想7:重生》正式发售的几
-
农场商店模拟游戏《甘露岛》宣布3月7日发售 登陆多平台
开发商rokaplay宣布,农场商店模拟游戏《甘露岛》将于3月7日正式发售,登陆PS5、PS4、Switch和Steam,Xbox Series X|S版将在之后推出,PS5和Switch还将推出实体版本,预计3月14日发售。《甘露岛》是一
-
由于版权归属问题 《仙剑奇侠传》开发商LOGO变更
近日《仙剑奇侠传》官方在推特上发文称,由于原LOGO版权归属问题,软星科技于8月12日启用全新LOGO与英文名“softstarlight”。 官方原文: 延续经典,全新出发!由于原LOGO版权归属问题,软星科技将于8月12日启用全新LO
-
2024年金摇杆奖入围游戏名单公布 《黑神话:悟空》获最佳视觉设计奖提名
2024年金摇杆奖入围游戏名单正式公布,玩家投票同步开启(11月1日结束),最终获奖名单将在11月21日公布。本届金摇杆奖共颁发22个奖项,其中有19个接受玩家投票,另外3个(主播选择奖、最佳游戏改编、评论家选择奖)不接受玩家投票。在本次公
-
「一起来制作吧!第41届Project Sekai服装设计活动2024海洋篇」选用作品公布!
感谢大家参与「世界计划 彩色舞台 feat. 初音未来」的服装设计活动!我们将公布被选中并将在游戏中收录的作品,以及未能被选中的作品作为佳作!# 主题「海」女性服装 被选中作品。作品标题「海洋船长」。预计收录时间:2024年7月。moo さ
-
《鱿鱼游戏:Unleashed》新截图 手游版演绎经典
《鱿鱼游戏:Unleashed》新截图 手游版演绎经典Netflix于8月21日今天,在gamescom Opening Night Live 2024上公布了旗下《鱿鱼游戏:Unleashed》手游新截图,根据经典改编重新演绎,预定近期上
-
玩家在《GTA5》中打造《GTA6》预告 “恰到好处”
本月早些时候,R星公布了《GTA6》的首部预告,引起了广大玩家的广泛关注。近日,油管UP主RavenwestR分享了一段视频,展示在《GTA5》中播放《GTA6》预告。玩家在《GTA5》中打造《GTA6》预告: 通过视频可以看到,这款饭制的
-
《塞尔达传说:智慧的再现》制作名单里没有宫本茂
随着时间的推移,《塞尔达传说》的创作者宫本茂逐渐从积极的游戏开发中抽身。但《塞尔达传说:智慧的再现》可能标志着这一进程中的重要一步,因为这是第一款在制作人员名单中没有他名字的塞尔达游戏。 有媒体发现,在《智慧的再现》的制作人员名单中任何地方