700亿参数LLaMA2训练加速195%,基础大模型最佳实践再升级
ChatGPT引发的亿参大模型热潮愈演愈烈,全球科技巨头和明星初创争相入局,数L升级打造以AI大模型为核心的训练型最竞争力和多样化商业使用需求。其中LLaMA系列模型,加速基础佳实践再因良好的大模基础能力和开放生态,已积累了海量的亿参用户和实际应用案例,成为无数开源模型后来者的数L升级模仿和竞争的标杆对象。
但如何降低类LLaMA2大模型预训练成本,训练型最如何基于LLaMA2通过继续预训练和微调,加速基础佳实践再低成本构建AI大模型实际应用,大模仍是亿参AIGC相关企业面临的关键瓶颈。
作为全球规模最大、数L升级最活跃的训练型最大模型开发工具与社区,Colossal-AI再次迭代,加速基础佳实践再提供开箱即用的大模8到512卡LLaMA2训练、微调、推理方案,对700亿参数训练加速195%,并提供一站式云平台解决方案,极大降低大模型开发和落地应用成本。
开源地址:https://github.com/hpcaitech/ColossalAI
LLaMA2训练加速195%
Meta开源的LLaMA系列大模型进一步激发了打造类ChatGPT的热情,并由此衍生出了诸多项目和应用。
最新的7B~70B LLaMA2大模型,则进一步提高了语言模型的基础能力。但由于LLaMA2的预训练预料大部分来自英文通用知识,而仅用微调能够提升和注入的领域知识和多语言能力也相对有限。此外,高质量的专业知识和数据集通常被视为各个行业和公司的核心资产,仅能以私有化形式保存。因此,以低成本预训练/继续预训练/微调LLaMA2系列大模型,结合高质量私有化业务数据积累,帮助业务降本增效是众多行业与企业的迫切需求与瓶颈。但LLaMA2大模型仅发布了原始模型权重与推理脚本,不支持训练/微调,也未提供数据集。
针对上述空白与需求,Colossal-AI开源了针对LLaMA2的全流程方案,并具备高可扩展性,支持从70亿到700亿参数的模型,从8卡到512卡都可保持良好的性能。
在使用8卡训练/微调LLaMA2-7B时,Colossal-AI能达到约54%的硬件利用率(MFU),处于业界领先水平。而对于预训练任务,以使用512张A100 40GB预训练LLaMA2-70B为例,DeepSpeed ZeRO3策略因显存不足而无法启动,仅能通过速度衰减较大的ZeRO3-offload策略启动。而Colossal-AI则因卓越的系统优化和扩展性,仍能保持良好性能,训练提速195%。
Colossal-AI LLaMA-2训练/微调方案的高性能来源于新的异构内存管理系统Gemini和高性能算子(包括Flash attention 2)等系统优化。新Gemini提供了高可扩展性,高鲁棒性,高易用性的接口。其Checkpoint格式与HuggingFace完全兼容,减小了使用和转换成本。其对于切分、offload等的设置更加灵活且易用,能够覆盖更多硬件配置下的LLaMA-2训练/微调任务。仅需数行代码即可使用:
from colossalai.booster import Booster |
ShardFormer多维细粒度并行
虽然对于主流硬件条件和大多数模型,Colossal-AI的新Gemini已经能够提供良好的性能。但是对于一些极端硬件条件,或者是特殊模型,可能仍然需要多维并行的细粒度优化。现有其他方案通常需要分布式系统资深专家,手动对代码进行大规模重构和调优,Colossal-AI的ShardFormer提供了开箱即用的多维并行和算子优化的能力,仅需数行代码即可使用,在单机/大规模集群上都能提供良好的性能。
from colossalai.booster import Booster |
Colossal-AI ShardFormer支持包括LLaMA1/2、BLOOM、OPT、T5、GPT-2、BERT、GLM在内的主流开源模型,也可以直接使用Huggingface/transformers模型导入,Checkpoint格式也与HuggingFace完全兼容,对比Megatron-LM等需重写大量代码的方案,大大提升了易用性。
对于并行策略,已支持以下多种并行方式:张量并行、流水线并行、序列并行、数据并行、Zero数据并行等,并可将多种并行方式组合使用,只需通过简单的配置命令,即可适配各种复杂的硬件环境/模型。同时,其内置了各种高性能算子,免去了繁琐的兼容/配置过程。其中包括:
Flash attention 2
Memory efficient attention (xformers)
Fused Normalization Layer
JIT kernels
云平台大模型一站式解决
为了进一步提升开发和部署效率,Colossal-AI团队还将上述系统优势与算力结合,提供Colossal-AI云平台,提供廉价算力和开箱即用的AI主流应用,包括对话大模型,多模态模型,生物医药等,现已开启内测。
通过屏蔽大模型底层的分布式并行计算、内存、通信管理与优化等,AI开发者可以继续专注于AI模型与算法设计,以更低成本更快速度完成AI大模型助力业务降本增效。
用户只需要上传相关数据,即可无代码训练个性化私有模型,并将训练好的模型一键部署。相关的应用都经过Colossal-AI团队精心优化,得益于算法和系统的双面优化,能大大降低模型训练以及部署的成本。
Colossal-AI云平台:platform.luchentech.com
Colossal-AI开源地址:https://github.com/hpcaitech/ColossalAI
雷峰网(公众号:雷峰网)
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
61762
-
浏览
74
-
获赞
46
热门推荐
-
REDMI K80 Pro评测:涨价也阻止不了首选Pro
在使用过一段时间REDMI K80 Pro后,我们可以肯定这款手机的体验是正向升级的,相比K70 Pro的大幅度涨价,并不会成为该机的阻碍。在经过了将近一个月的各种猜测后,REDMIK80系列终于揭开技术保障中心召开2020年党建工作专项自查及总结会
12月3日,技术保障中心党委组织召开了基层党支部专项自查及工作总结交流研讨会,中心党委郭曙光书记及7名党支部书记参加了会议。会上,重点围绕空管局党委下发的《关于开展年度党建绩效考核评价检查及基层党建重历史上的狄仁杰:既当过囚犯 又做过法官
狄仁杰字怀英,山西太原人,祖、父都做过官。幼年时家中有门客被杀,官吏来查,大家都接受了讯问,只有狄仁杰在那里读书,置之不理。官吏责怪他,他说,正和书里的圣贤对话,哪顾得上你。后来他通过科举考试,任职汴寒冬腊月保安全,山西空管在行动
通讯员 迟明莉)近日,随着一股强冷空气南下,太原也早早进入了冰雪季节,正值冬春季节航班时刻换季阶段,山西空管分局塔台管制室高度重视此次冬季运行工作,从十月中旬开始认真部署各项准备工作,为换季后航班的平杰拉德:因希尔斯堡惨案选择足球 身披埃弗顿球衣+试训曼联
杰拉德:因希尔斯堡惨案选择足球 身披埃弗顿球衣+试训曼联_利物浦www.ty42.com 日期:2021-05-28 07:31:00| 评论(已有279389条评论)揭秘三国神算子诸葛亮:真能借来东风?
导读:赤壁之战最终以曹操的惨败而收场,从此奠定了三国鼎立的局面,而东风则起了很大作用,传说东风是三国时期蜀方的丞相孔明设坛借来的,事实果真如此吗?网络配图唐朝诗人杜牧有两句名诗道:“东风不与周郎便,铜血海深仇?南朝第一英主竟被破棺焚尸挫骨扬灰
魏晋南北朝是我国历史上比较动荡的时期,南朝包括宋、齐、梁、陈四个朝代。在南朝的众多皇帝中,关于谁是南朝第一英主恐怕有争议,也许很有人会认为是刘裕,但自古以来很多人却认为是陈朝的建立者陈霸先。明人归有光山东航空获得CCAR
近日,山航顺利通过局方审核,获批CCAR-66R3实施执照培训能力,标志山航机务维修培训能力再次取得新突破,成为华东首批CCAR121单位所属培训机构中有此培训能力的单位之一。山航从即日起可以按照CCVirgil Abloh x MCA Chicago 全新联名展览限定荧光系列上架~
潮牌汇 / 潮流资讯 / Virgil Abloh x MCA Chicago 全新联名展览限定荧光系列上架~2019年07月26日浏览:2324 昨日,我们才报道了设民航华东局安全整顿督查及维修工作作风调研组莅临山航开展督查调研
近日,华东管理局适航维修处处长郝炜带领安全整顿督查及维修工作作风调研组陈鹤骥、王健、程国勇、李睿君、管沛一行赴山航开展督查调研。期间通过调研会、人员访谈、现场查验等方式进行了检查,股份总工程师刘朝磊、秦始皇留给后人的5大未解之谜 至今让人困惑!
秦始皇建立了中国第一个大一统的封建王朝,他所创立的很多制度一直为后世所延续,然而,被称作千古一帝的他却为后世留下了诸多未解之谜,让后世研究者为此困惑不已,那么,秦始皇为后人留下的谜团都有哪些呢?下面一山航航材部:拓思路 敢创新 切实为基层一线减负
为贯彻落实集团公司和工程技术公司“为基层减负,为一线服务”工作号召和要求,在部门统一领导部署和有序调度下,航材部各单元科室开拓思路,勇于创新,主动作为,对外通过提供航材管理标准华为纯血鸿蒙发布更新 信号优化网速更快
日前华为原生鸿蒙系统HarmonyOS NEXT 5.0发布,系统发布后,华为工程师也在全力优化和功能完善,让系统更好用。日前,华为发布HarmonyOS NEXT 5.0.0.102SP6)更新,支宁波空管站在第二届全国“网鼎杯”网络安全大赛中取得佳绩
2020年11月27日,第二届“网鼎杯”网络安全大赛线下赛在深圳举行,来自全国各地、各行业的500支战队展开激烈角逐,宁波空管站“御安卫士”队取得了总成深圳空管站完成甚高频地空通信转网测试
翟得龙)11月底,深圳空管站技保部完成了朱凹山雷达站至新塔台甚高频TDM转网测试工作,紧跟行业发展趋势,从而增强甚高频业务传输稳定性及可靠性。转网工作主要是将一路甚高频收发信号接入TDM网,作为新传