智算中心的困境:有卡不代表有算力
“如果让你重回2018年,智算中心你会做什么?”
“先囤一大批英伟达的困代表卡。”
这段对话虽然是有算网络段子,但也同样反映了厂商在全球囤卡找卡的智算中心疯狂。众所周知,困代表这两年GPU一直处于供应紧张的有算状态,但我们却遇到了这样一个真实案例:一家传统IDC厂商手上囤了很多GPU卡,智算中心却处于闲置状态。困代表
这反映当下的有算一种现状:智算虽火热,但市场上还存在很多用卡效率不高的智算中心情况,换而言之,困代表有卡也不一定有算力。有算
智算火热,智算中心用卡效率不高被关注
进一步追问,困代表为何会用卡效率不高?
因为智算不仅仅是有算卡的问题,而是一个软硬件协调的系统,涉及算、存、网等多个核心能力,当软件能力不够的时候,卡自身的发挥也会受限,腾讯云副总裁,云计算资深技术专家沙开波对雷峰网(公众号:雷峰网)表示。
这就像买了一辆顶级跑车,但自己不太懂赛车技术,也没有专业的赛车团队来调试车辆和规划最佳行驶路线,那就只能在普通道路上行驶。
这是所有IDC厂商不愿意看到的,因为这不仅是一个资源闲置问题,更是一个转型机遇问题,用好这些卡,IDC厂商也可顺势转型到AIDC(智算中心)厂商,开拓新业务。
当然,并非仅IDC厂商面临用卡效率不高,对于很多大模型公司而言,眼下他们也亟待算力效率的提升,尤其是在今年,模型训练参数量是越来越大,去年可能大家都还在用十亿、百亿的参数规模,今年这一规模数字已经“卷”到了千亿,如腾讯混元大模型就扩展为万亿参数规模。
如此庞大的参数量,也让底层的算力集群规模越来越大,有业内从业者称,今年起,所有智算集群万卡是最低标配,万卡以上的智算集群才有价值。
集群规模的不断扩大,无疑对底层AI基础设施的处理效率提出更高的挑战,比如如何让超大规模组网互联、集群有效计算效率、训练高稳定性与可用性、故障快速定位与可诊断工具等等。这恰似你分别想提升一千个人的协作效率,和一万个人协作的协作效率,二者难度不可同日而语。
大模型计算效率不高带来更直接的问题就是,模型训练成本进一步增加,而训练成本,又是眼下国内大模型公司的敏感点。
一方面,大模型训练烧钱是众所皆知,另一方面,今年资本市场对国内大模型公司投资也在趋于理性,去年拿到投资的大模型公司有两百多家,而今年上半年,只有像月之暗面、智谱等一些头部大模型公司拿了融资。
烧钱不能永无止境,提升用卡效率迫在眉睫。作为头部云厂商之一,腾讯云已悄然落子。
9月5日,腾讯云在腾讯全球数字生态大会上发布 AI Infra品牌—— 腾讯云智算 ,将旗下高性能计算HCC、高性能网络IHN星脉、高性能云存储、加速框架、容器、向量数据库、智算套件等单项产品能力整合,帮助产业突破技术瓶颈,加速释放AI生产力。
智算启幕,破客户难题坚冰
事实上,在此次发布腾讯云智算品牌之前,腾讯云早已经在迭代和对外输出智算技术与产品,来提升智算性能,降低使用成本。
去年4月,腾讯云正式发布面向大模型训练的新一代HCC高性能计算集群;去年6月,腾讯云首次对外完整披露自研星脉高性能计算网络,后来,腾讯云又发布了AIGC云存储解决方案;推出了源于公有云的成熟实践的专有云智算套件,支撑企业基于自有硬件搭建高性能的专有智算云。
而眼下这一节点,之所以要成立腾讯云智算品牌,沙开波对雷峰网表示,其一是AI大模型的兴起,需求端对整个云基础设施提出更高级的要求;其二是腾讯云在AI 大模型的驱动下,也对云基础设施很多能力做了进化。成立腾讯云智算品牌,就是为让更多客户了解腾讯云智算的能力,同时将这些能力输出,更好地支持客户的业务发展。
客户在大模型训练过程中往往会遇到这几个问题:
第一是如何提升训练效率,减少故障率?
训练效率不高,可能源于几个环节,第一是在训练启动时间长。由于软硬件等多种因素等原因,目前业内许多训练启动时间长达一个月之久。
第二是在训练过程中,经常发生故障。大模型训练的故障率是个不容小觑的问题,据统计,GPU故障率是CPU的120倍以上。前不久,Meta发布了其最新的Llama 3 405B大语言模型,并公布了一项研究成果,405B模型通过由16384张英伟达H100 80G GPU组成的服务器集群,训练运行持续了54天。在这54天中,集群遭遇了419次意外组件故障,平均每3小时就发生一次故障。
而腾讯云通过整合软硬件技术能力,腾讯云智算集群从机器上架到开始训练可以做到只需1天,而在故障数上,腾讯云的集群千卡单日故障数已经刷新到0.16,是行业水平的1/3。
之所以能有此成果,这与其网络、存储产品,加速框架、向量数据库以及智算套件等有关。据沙开波介绍,腾讯云自研的星脉网络通过流量和拓扑自动感知进行调度,提升网络吞吐,故障时定位问题链路并处理,减少训练中断。在万卡集群下,网络故障可实现 1 分钟发现,3 分钟定位,5 分钟解决。而在千卡集群的通信时间缩短到6%,是业界一半。而腾讯云高性能并行文件存储CFS Turbo支持千卡并发读写。
此外,在加速框架上,腾讯云的TACO也为云端计算效率提速,据腾讯云相关人士介绍,在同样的硬件环境下,原本每秒只能处理100个tokens的系统,在使用TACO后可以提升至每秒处理200甚至300个tokens,并且处理的tokens增多,并没有带来太多延迟。
第二是训练如何更加兼容、部署更为灵活?
以前模型训练任务往往是单一厂商芯片服务于单一任务,当前芯片供给紧俏的背景下,各大芯片厂商持续加大在 GPU 方面的投入与布局,在越来越多的智算中心里,不同型号、不同厂商的卡进行异构组网的情况愈发普遍。与此同时,当下众多行业对数据安全合规有着极高的要求,不少训练和推理只能在本地数据中心进行。
为了解决多类型卡的训练问题,腾讯云目前采用的“一云多芯”架构,可以适配、管理、调度多种CPU和GPU芯片,能够有效降低供应链风险,同时满足不同业务对于不同算力的需求。
而针对部署问题,腾讯云推出专有云智算套件,支撑企业基于自有硬件搭建高性能专有智算云,满足企业在私有算力环境下训练大模型的诉求。这一套件跟公有云有一样的配置,星脉网络、AIGC云存储、Taco都在这套打包的方案内。
如今,据沙开波透露,腾讯云智算已经服务了90%以上的大模型企业,而且这些公司也都实现了大模型训练成本下降,某大模型客户在采用腾讯云的整套算力解决后,一年的成本下降了2000万。
除了大模型客户外,一些做AI应用的客户也在使用这套方案。去年下半年,某社区电商企业在做AI应用时,把将海外芯片更换为腾讯云在公有云上提供的国产芯片。在保持主要业务指标不变的前提下,该公司实现了21天内完成芯片替换,两周左右完成模型适配,一周左右完成物理框架改造。此外,开头提到的IDC公司,也在与腾讯云的合作下,在半年内将GPU资源几乎全部售出。
智算开拓,寻云市场增量方向
从客户角度来看,其希望云厂商能够提供更多的高性能AI基础设施,为其业务提质增效。而站在云厂商的角度来看,加速提升智算能力,也是为了抓住新的云增长点。
此前云厂商锁定的几个增量方向——出海、下沉市场、以及传统行业的数字化转型。出海目前面临着极大的不确定性,去发达国家市场,如欧美等地,面临着信任问题,长期用量规模上不去,机房运营成本高昂,海外基本都还在流血。
而去到下沉市场,最主要的问题是没钱。这些市场客户对云的需求量并不强,1000元/年的客户比比皆是。传统行业数字化转型,最大的困难是如何洞察行业需求,以及了解每一个行业的know-how。毕竟,传统企业做数字化转型的核心目的,是看到业务的提质、增效。
这些增量方向的拓展就像是在密林中开辟新路,每一步都充满挑战与不确定性。
与此同时,所有的云从业者长久以来深陷存量竞争的泥沼,业绩增长乏力带来的迷茫,拼命争夺友商客户的无奈,都促使云厂商急切地寻找更多的增量市场。大模型的出现为云厂商带来新的增量曙光。
在今年不少云厂商的财报中,AI对云业务的收入贡献都十分亮眼。今年二季度,AI推动阿里云重回增长,季度营收增长6%至265.49亿元,其中AI相关产品收入实现三位数增长,公共云业务实现两位数增长;腾讯方面也表示,受益于包括云服务业务收入增长在内的因素,企业服务业务收入实现双位数增长率。
不少人预测,AI大模型将成为未来云市场增长的最大动力,也是公有云服务重回高增长时代的唯一机会。而在这种预判下,所以腾讯云成立智算品牌,其他云厂商也在紧锣密鼓布局。
大模型能否真正驱动云用量,仍存在争议。国内 AI 公有云服务市场规模虽有增长,但在各家云厂商的激烈竞争下,分到的份额似乎难以满足云厂商的巨大胃口。
就拿IDC刚发布的《AI Cloud 2023》报告数据来看,国内AI公有云服务市场2023年规模为126亿,相比前一年增长58.2%。增速是喜人的,但仔细一算,126亿的规模被各家云厂商瓜分下来,到手也不过几亿到几十亿不等,这个数字对云厂商营收拉动力确实是有,但似乎不那么大。
大模型究竟能为云带来多大的增长,时间自会给出答案。但眼下,从各家云厂商紧锣密鼓的布局来看,一场激烈的智算实力比拼赛已然无声地拉开帷幕,未来的云市场究竟走向何方,我们拭目以待。
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
76
-
浏览
635
-
获赞
72
热门推荐
-
《真三国无双:起源》首次通关20小时 将有真结局
《真三国无双:起源》通过多结局包括一个隐藏的“真结局”)颠覆了系列的叙事方式。在一场独家采访中,Omega Force工作室负责人兼《真·三国无双:起源》制作人庄知彦Tomohiko Sho)解释了游王金昌会见台湾两岸生态农业交流访问团
4月14日,中粮集团王金昌总裁助理在北京会见了台湾两岸生态农业交流访问团。双方认为目前是投资养猪的黄金时期,应加强企业间合作和技术、理念的交流。 王金昌总裁助理与台湾“立法院”打造“两站一馆” 四川乐山探索食品安全宣传新模式
中国消费者报成都讯牛波 记者刘铭)12月28日,记者从四川乐山市市场监管局获悉,近年来,乐山市食品安全委员会办公室、乐山市市场监管局不断强化基层食品安全宣传工作,创新建立食品安全宣传站和食品安全体验馆感染科医护患一体化管理在血培养标准化采集中初见成效
血培养是血流感染诊断的金标准,特别是对发热的患者,血培养的采集尤为重要。监测并明确血培养阳性病原菌是医院感染管理、临床合理用药和控制耐药菌的重要手段,鉴于科室感染性疾病患者多,特别是对于发热患者,血培新车有必要除甲醛吗?
提了一台新车,担心车辆内部的甲醛超标,那么新车有必要除甲醛吗?新车除甲醛是非常有必要的,新车内部的甲醛,大多都是来源于车辆内部的装饰、座椅、还有一些纺织品,相对来说高端车辆的甲醛会少一些,但是不能完全陕西长安竞技vs武汉三镇,陕西恐难阻二连败
陕西长安竞技vs武汉三镇,陕西恐难阻二连败2021-07-23 12:31:58北京时间7月23日下午17:30,中甲联赛将迎来第17轮的首场对决,陕西长安竞技vs武汉三镇,两支队伍在上一轮比赛中都输头颈部肿瘤科承办第一届四川省抗癌协会淋巴瘤专业委员会学术年会
4月8-9日,由四川省抗癌协会主办、我院头颈部肿瘤科承办的第一届四川省抗癌协会淋巴瘤专业委员会学术年会在成都召开,来自省内外淋巴瘤专业的同仁100余人参加了会议。淋巴瘤是全球增长最迅速的恶性肿瘤之一,中英人寿为灾区人民献血捐助奉献爱心
2008年5月14日下午1:30,中英人寿湖南分公司在史效白总经理带领下大约120名湖南中英人寿员工组成的“爱心献血捐助团”,在长沙市黄兴路步行街黄兴广场的献血车前迅速集合。当县委书记王静娴调研重点项目建设工作
县委书记王静娴调研重点项目建设工作文章来源:民权网文章作者:吴杰责任编辑:薛皓点击数: 时间:2024-11-27 09:39 11月26日下午,县委书记王静娴到履职尽责进行时 保驾护航迎新春
元旦佳节将至,为确保节日期间市场秩序稳定,营造安全放心的消费环境,近日,北京市石景山区市场监管局执法人员对辖区商超开展综合检查,确保市民度过一个欢乐、祥和的节日。下一步,市场监管部门将持续加强市场监管严介和理事长会见湖北省荆州市政协主席
11月9日,严介和理事长在地球村会见湖北省荆州市政协主席王守卫一行,双方就政企走深走远合作进行深入交流。庄严智库理事、庄严系董事局副主席严宝车全程陪同。 严介和在会上首先对当下市场进行了发售仅两天 类塔科夫游戏《灰区战争》销量已突破40万
开发商MADFINGER Games宣布《灰区战争》Gray Zone Warfare)全球销量已超40万份,这距离该作的抢先体验发售仅过去了两天,官方对玩家的支持表示了感谢,并将继续努力开发游戏。《牧场符文制作人游戏《Progress Orders》Steam页面 4月9日发售
今日11月26日),牧场符文制作人新游戏《ProgressOrders》Steam页面上线,游戏预计于2025年4月9日发售,支持简繁体中文,感兴趣的玩家可以点击此处进入商店页面。游戏介绍:在众多冒险利物浦4100万先生水货蜕变大腿 又一苏神再现?
在卡罗路球场,利物浦客场战诺维奇的比赛可谓是本赛季英超联赛最疯狂的比赛,90分钟内跌宕起伏,双方联手打进9球,红军最终5-4险胜诺维奇拿到2016年英超联赛首胜!尽管替补登场的拉拉纳传射建功,帮助利物中粮集团法律部被国资委评为“中央企业优秀法律事务机构”
2008年5月13-14日,国务院国资委在京召开中央企业法制工作会议。会上,中粮集团法律部被评为“中央企业优秀法律事务机构”并受到大会表彰。大会以展板的形式宣传了中粮集团等7家