大语言模型“书生·浦语”多项专业评测拔头筹
最近,大语AI大模型测评火热,言模语多业评尤其在大语言模型领域,型书项专“聪明”的生浦上限被不断刷新。商汤与上海AI实验室等联合打造的测拔大语言模型“书生·浦语”(InternLM)也表现出色,分别在智源FlagEval大语言模型评测8月排行榜和中文通用大模型综合性评测基准SuperCLUE 7月评测榜两项业内权威大模型评测榜单中获得优异成绩。头筹
“FlagEval是知名人工智能新型研发机构北京智源人工智能研究院推出的大模型评测体系及开放平台。FlagEval大模型评测体系构建了“能力-任务-指标”三维评测框架,言模语多业评可视化呈现评测结果,型书项专总计600+评测维度,生浦包括22个主观、测拔客观评测数据集,头筹84433道评测题目。大语除知名的言模语多业评公开数据集 HellaSwag、MMLU、型书项专C-Eval外,FlagEval还集成了包括智源自建的主观评测数据集Chinese Linguistics & Cognition Challenge (CLCC),北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。”
“SuperCLUE是由创立于2019年的CLUE学术社区最新发布的中文通用大模型综合性评测基准,包含SuperCLUE-Opt客观题测试、SuperCLUE-Open主观题测试、SuperCLUE-LYB琅琊榜用户投票的匿名对战测试三大基准组成。为更好地反映国内大模型与国际领先大模型间的差距和优势,SuperCLUE选取了多个国内外有代表性的可用模型进行评测,同时由于其数据集保密性高,对大模型来说是‘闭卷考试’,减少了模型训练数据混入评测数据的可能性。此外,SuperCLUE还通过自动化评测方式测试不同模型效果,可一键对大模型进行评测,相对更客观。”
“书生·浦语”:不仅善于考试,还是开源大模型中的佼佼者
“书生·浦语”,是商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学打造的大语言模型,具有千亿参数,在包含1.8万亿token的高质量语料上训练而成。
今年6月,“书生·浦语”联合团队曾选取20余项评测进行检验,包括全球最具影响力的四个综合性考试评测。结果显示,“书生·浦语”在综合性考试中表现突出,在多项中文考试中超越ChatGPT。
7月,“书生·浦语”正式开源70亿参数的轻量级版本InternLM-7B。(https://github.com/InternLM/InternLM)
后续又推出升级版对话模型InternLM-Chat-7B v1.1,成为首个具有代码解释能力的开源对话模型,能根据需要灵活调用Python解释器等外部工具,解决复杂数学计算等任务的能力显著提升。
此外,该模型还可通过搜索引擎获取实时信息,提供具有时效性的回答。
在北京智源人工智能研究院FlagEval大语言模型评测体系8月最新排行榜中, “InternLM-chat-7B”和“InternLM-7B”分别在监督微调模型(SFT Model)榜单、基座模型(Base Model)榜单中取得第一和第二名。
“InternLM-chat-7B”还刷新中英客观评测记录。
「什么是“基座模型”、“有监督微调模型”?」
基座模型(Base Model)是经过海量数据预训练(Pre-train)得到的,它具备一定的通用能力,比如:GPT-3。
有监督微调模型(SFT Model)则是经过指令微调数据(包含了各种与人类行为及情感相关的指令和任务的数据集)训练后得到的,具备了与人类流畅对话的能力,如:ChatGPT。
普遍的观点认为,基座模型在很大程度上决定了微调模型的能力。
因此,FlagEval大语言模型评测体系针对基座模型的评测主要从“提示学习评测”和“适配评测”两方面进行;针对有监督微调模型的评测则从“复用针对基座模型的客观评测” 进一步增加“引入主观评测”。
此次两个榜单中,“InternLM-chat-7B”和“InternLM-7B”均表现出优异的综合性能,超越备受关注的Llama2-chat-13B/7B和Llama2-13B/7B。
特别在SFT Model测试中,InternLM-chat-7B中文能力大幅领先同时,英文能力也与对手保持在相近水平,展现出更强的实用性能。
SuperCLUE评测从基础能力、专业能力、中文特性能力三个不同维度对国内外通用大模型产品进行评价,考察大模型在70余个任务上的综合表现。
“书生·浦语”InternLM-chat-7B在7月公布SuperCLUE评测榜单中表现出色,在SuperCLUE-Opt开源大模型榜单拔得头筹。
作为SuperCLUE综合性三大基准之一,SuperCLUE-Opt评测基准每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,采用封闭域测试方式。
相比第二名ChatGLM2-6B,InternLM-chat-7B主要在学术专业方面取得较大领先,同时全面领先于第三名Baichuan-13B-Chat。
雷峰网(公众号:雷峰网)
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
6947
-
浏览
19
-
获赞
2813
热门推荐
-
Air Jordan 4 鞋款全新“What The”配色释出,有望于 11 月发售
潮牌汇 / 潮流资讯 / Air Jordan 4 鞋款全新“What The”配色释出,有望于 11 月发售2019年08月29日浏览:3198 今年,有不少经典鞋款桂林空管站开展数字集成塔台自动化系统培训
5月27日,桂林空管站技术保障部开展塔台自动化业务培训。技术保障部克服人员紧张与工程建设任务繁重的困难,组织本部门成员及相关部门人员参加了培训。本次培训介绍了数字集成塔台产生背景、目前发展状况,着重讲刘伯温死前藏起来一件宝贝让朱元璋死不瞑目
大明洪武八年(1375年),64岁的大明军师、诚意伯刘伯温死之前,将儿子刘琏、刘仲景叫到床前说:“我写的兵书《百战奇谋》乃我一生心血,可惜没有找到传人……皇上生性多疑,如果被他知道,会给家里留下祸害,黑龙江空管分局塔台管制室积极开展空管设备风险识别及管控活动
按照黑龙江空管分局管制运行部工作要求,为引导管制员主动思考问题、解决问题、深入查找和梳理设备隐患问题的能力,逐步完善设备操作流程,6月4日,塔台管制室组织开展空管设备风险识别及管控活动。 一、消焦点回放:基耶萨小角度射门偏出 意大利0
焦点回放:基耶萨小角度射门偏出 意大利0-0威尔士_防守www.ty42.com 日期:2021-06-21 01:01:00| 评论(已有285333条评论)史海揭秘:让曹操父子三人几欲反目的女人
如果要在美女群落中找出一个最是语焉不详的女人,人们很可能会选中甄妃。曹操与两个儿子曹丕、曹植,在文学史上被称为“三曹”,三人俱是如雷贯耳式的人物。父子三人同追甄妃,足见甄妃在那个动乱时世里是个很了不常怀敬畏 严律于己
最近,科室组织学习了民航局冯正霖局长在民航局安全运行形势分析会上有关“三个敬畏”讲话。深入学习了“三个敬畏”的内核之后,我深刻的体会到它确实是我们民航人必上的重要一课,不仅是提醒我们严格自律的警钟三亚空管站气象台搭建“五小”平台助力员工成长
6月2日,为了落实“三个敬畏”工作的部署和要求,促进空管运行安全,三亚空管站气象台组织全体青年员工,在站工会的大力支持下,开展以“小发明,小革新,小改造,小设计,小建议”为内容的“五小”创新研《潜行者2》首个更新下周上线 修复大量bug、调整武器价格
《潜行者2》开发GSC Game Wolrd在Steam页面发布了关于首个补丁的消息,承诺首个更新将在下周到来,上线PC和Xbox平台。根据官方,更新补丁将包含大量的崩溃修复,进度修复,玩法和平衡性调东北空管局沈阳空管技术公司参加第二届民航科教创新成果展展品交流视频会
第二届民航科教创新成果展拟定于今年8月在北京召开,为做好相关展览工作,民航局空管局战略发展部召集民航空管系统各参展单位,于5月27日组织召开了展品展示方案视频交流会,东北空管局沈阳空管技术开发两会保障完美收官 中国航油内蒙古续航攻坚继战百日
全国政协十三届三次会议和十三届全国人大三次会议分别于5月27日和5月28日圆满落幕。中国航油内蒙古分公司深入贯彻落实民航局以及集团、航油、华北公司关于两会期间安全供油保障工作各项指示精神,全体书写新篇章,空管后辈强
通讯员 马瑜曼)在决胜全面建成小康社会、决战脱贫攻坚战的关键时刻,习总书记来到山西,进农村、访农户、看企业、察改革,就统筹推进常态化疫情防控和经济社会发展工作、巩固脱贫攻坚成果进行调研。习总书记的到来《马克思佩恩3》高清贴图包MOD新版来了 16.4GB
2024年7月,外媒曾报道了《马克思佩恩3》高清贴图包MODHD Texture Pack),由Modder MDSXXX1制作,试图翻修整个游戏的贴图。在超过一年多的开发后,现在这个MOD有了新的版珠海空管站技术保障部成立航管楼更新改造工作组
为落实珠海空管站航管楼更新改造工程,扎实推进空管设备机房搬迁工作,5月21日,技术保障部组织技术骨干召开航管楼更新改造工作会,成立航管楼更新改造工作组,全面启动机房搬迁工作。 近年来,随秦始皇陵地宫首度曝光:秦始皇尸体已腐烂
被誉为“世界第八大奇迹”的秦始皇陵从公元前246年秦始皇13岁开始营建,前后38年时间动用数十万人力。“从秦始皇陵建设工程总体上看,由于工期时间长,人力有保证,秦陵可说是统一规划、同时动工的。”曾参加