智算中心的困境:有卡不代表有算力

2024-11-28 18:46:36 admin

“如果让你重回2018年,智算中心你会做什么?”

“先囤一大批英伟达的困代表卡。”

这段对话虽然是有算网络段子,但也同样反映了厂商在全球囤卡找卡的智算中心疯狂。众所周知,困代表这两年GPU一直处于供应紧张的有算状态,但我们却遇到了这样一个真实案例:一家传统IDC厂商手上囤了很多GPU卡,智算中心却处于闲置状态。困代表

这反映当下的有算一种现状:智算虽火热,但市场上还存在很多用卡效率不高的智算中心情况,换而言之,困代表有卡也不一定有算力。有算

智算火热,智算中心用卡效率不高被关注

进一步追问,困代表为何会用卡效率不高?

因为智算不仅仅是有算卡的问题,而是一个软硬件协调的系统,涉及算、存、网等多个核心能力,当软件能力不够的时候,卡自身的发挥也会受限,腾讯云副总裁,云计算资深技术专家沙开波对雷峰网(公众号:雷峰网)表示。

这就像买了一辆顶级跑车,但自己不太懂赛车技术,也没有专业的赛车团队来调试车辆和规划最佳行驶路线,那就只能在普通道路上行驶。

这是所有IDC厂商不愿意看到的,因为这不仅是一个资源闲置问题,更是一个转型机遇问题,用好这些卡,IDC厂商也可顺势转型到AIDC(智算中心)厂商,开拓新业务。

当然,并非仅IDC厂商面临用卡效率不高,对于很多大模型公司而言,眼下他们也亟待算力效率的提升,尤其是在今年,模型训练参数量是越来越大,去年可能大家都还在用十亿、百亿的参数规模,今年这一规模数字已经“卷”到了千亿,如腾讯混元大模型就扩展为万亿参数规模。

如此庞大的参数量,也让底层的算力集群规模越来越大,有业内从业者称,今年起,所有智算集群万卡是最低标配,万卡以上的智算集群才有价值。

集群规模的不断扩大,无疑对底层AI基础设施的处理效率提出更高的挑战,比如如何让超大规模组网互联、集群有效计算效率、训练高稳定性与可用性、故障快速定位与可诊断工具等等。这恰似你分别想提升一千个人的协作效率,和一万个人协作的协作效率,二者难度不可同日而语。

大模型计算效率不高带来更直接的问题就是,模型训练成本进一步增加,而训练成本,又是眼下国内大模型公司的敏感点。

一方面,大模型训练烧钱是众所皆知,另一方面,今年资本市场对国内大模型公司投资也在趋于理性,去年拿到投资的大模型公司有两百多家,而今年上半年,只有像月之暗面、智谱等一些头部大模型公司拿了融资。

烧钱不能永无止境,提升用卡效率迫在眉睫。作为头部云厂商之一,腾讯云已悄然落子。

9月5日,腾讯云在腾讯全球数字生态大会上发布 AI Infra品牌—— 腾讯云智算 ,将旗下高性能计算HCC、高性能网络IHN星脉、高性能云存储、加速框架、容器、向量数据库、智算套件等单项产品能力整合,帮助产业突破技术瓶颈,加速释放AI生产力。

智算启幕,破客户难题坚冰

事实上,在此次发布腾讯云智算品牌之前,腾讯云早已经在迭代和对外输出智算技术与产品,来提升智算性能,降低使用成本。

去年4月,腾讯云正式发布面向大模型训练的新一代HCC高性能计算集群;去年6月,腾讯云首次对外完整披露自研星脉高性能计算网络,后来,腾讯云又发布了AIGC云存储解决方案;推出了源于公有云的成熟实践的专有云智算套件,支撑企业基于自有硬件搭建高性能的专有智算云。

而眼下这一节点,之所以要成立腾讯云智算品牌,沙开波对雷峰网表示,其一是AI大模型的兴起,需求端对整个云基础设施提出更高级的要求;其二是腾讯云在AI 大模型的驱动下,也对云基础设施很多能力做了进化。成立腾讯云智算品牌,就是为让更多客户了解腾讯云智算的能力,同时将这些能力输出,更好地支持客户的业务发展。

客户在大模型训练过程中往往会遇到这几个问题:

第一是如何提升训练效率,减少故障率?

训练效率不高,可能源于几个环节,第一是在训练启动时间长。由于软硬件等多种因素等原因,目前业内许多训练启动时间长达一个月之久。

第二是在训练过程中,经常发生故障。大模型训练的故障率是个不容小觑的问题,据统计,GPU故障率是CPU的120倍以上。前不久,Meta发布了其最新的Llama 3 405B大语言模型,并公布了一项研究成果,405B模型通过由16384张英伟达H100 80G GPU组成的服务器集群,训练运行持续了54天。在这54天中,集群遭遇了419次意外组件故障,平均每3小时就发生一次故障。

而腾讯云通过整合软硬件技术能力,腾讯云智算集群从机器上架到开始训练可以做到只需1天,而在故障数上,腾讯云的集群千卡单日故障数已经刷新到0.16,是行业水平的1/3。

之所以能有此成果,这与其网络、存储产品,加速框架、向量数据库以及智算套件等有关。据沙开波介绍,腾讯云自研的星脉网络通过流量和拓扑自动感知进行调度,提升网络吞吐,故障时定位问题链路并处理,减少训练中断。在万卡集群下,网络故障可实现 1 分钟发现,3 分钟定位,5 分钟解决。而在千卡集群的通信时间缩短到6%,是业界一半。而腾讯云高性能并行文件存储CFS Turbo支持千卡并发读写。

此外,在加速框架上,腾讯云的TACO也为云端计算效率提速,据腾讯云相关人士介绍,在同样的硬件环境下,原本每秒只能处理100个tokens的系统,在使用TACO后可以提升至每秒处理200甚至300个tokens,并且处理的tokens增多,并没有带来太多延迟。

第二是训练如何更加兼容、部署更为灵活?

以前模型训练任务往往是单一厂商芯片服务于单一任务,当前芯片供给紧俏的背景下,各大芯片厂商持续加大在 GPU 方面的投入与布局,在越来越多的智算中心里,不同型号、不同厂商的卡进行异构组网的情况愈发普遍。与此同时,当下众多行业对数据安全合规有着极高的要求,不少训练和推理只能在本地数据中心进行。

为了解决多类型卡的训练问题,腾讯云目前采用的“一云多芯”架构,可以适配、管理、调度多种CPU和GPU芯片,能够有效降低供应链风险,同时满足不同业务对于不同算力的需求。

而针对部署问题,腾讯云推出专有云智算套件,支撑企业基于自有硬件搭建高性能专有智算云,满足企业在私有算力环境下训练大模型的诉求。这一套件跟公有云有一样的配置,星脉网络、AIGC云存储、Taco都在这套打包的方案内。

如今,据沙开波透露,腾讯云智算已经服务了90%以上的大模型企业,而且这些公司也都实现了大模型训练成本下降,某大模型客户在采用腾讯云的整套算力解决后,一年的成本下降了2000万。

除了大模型客户外,一些做AI应用的客户也在使用这套方案。去年下半年,某社区电商企业在做AI应用时,把将海外芯片更换为腾讯云在公有云上提供的国产芯片。在保持主要业务指标不变的前提下,该公司实现了21天内完成芯片替换,两周左右完成模型适配,一周左右完成物理框架改造。此外,开头提到的IDC公司,也在与腾讯云的合作下,在半年内将GPU资源几乎全部售出。

智算开拓,寻云市场增量方向

从客户角度来看,其希望云厂商能够提供更多的高性能AI基础设施,为其业务提质增效。而站在云厂商的角度来看,加速提升智算能力,也是为了抓住新的云增长点。

此前云厂商锁定的几个增量方向——出海、下沉市场、以及传统行业的数字化转型。出海目前面临着极大的不确定性,去发达国家市场,如欧美等地,面临着信任问题,长期用量规模上不去,机房运营成本高昂,海外基本都还在流血。

而去到下沉市场,最主要的问题是没钱。这些市场客户对云的需求量并不强,1000元/年的客户比比皆是。传统行业数字化转型,最大的困难是如何洞察行业需求,以及了解每一个行业的know-how。毕竟,传统企业做数字化转型的核心目的,是看到业务的提质、增效。

这些增量方向的拓展就像是在密林中开辟新路,每一步都充满挑战与不确定性。

与此同时,所有的云从业者长久以来深陷存量竞争的泥沼,业绩增长乏力带来的迷茫,拼命争夺友商客户的无奈,都促使云厂商急切地寻找更多的增量市场。大模型的出现为云厂商带来新的增量曙光。

在今年不少云厂商的财报中,AI对云业务的收入贡献都十分亮眼。今年二季度,AI推动阿里云重回增长,季度营收增长6%至265.49亿元,其中AI相关产品收入实现三位数增长,公共云业务实现两位数增长;腾讯方面也表示,受益于包括云服务业务收入增长在内的因素,企业服务业务收入实现双位数增长率。

不少人预测,AI大模型将成为未来云市场增长的最大动力,也是公有云服务重回高增长时代的唯一机会。而在这种预判下,所以腾讯云成立智算品牌,其他云厂商也在紧锣密鼓布局。

大模型能否真正驱动云用量,仍存在争议。国内 AI 公有云服务市场规模虽有增长,但在各家云厂商的激烈竞争下,分到的份额似乎难以满足云厂商的巨大胃口。

就拿IDC刚发布的《AI Cloud 2023》报告数据来看,国内AI公有云服务市场2023年规模为126亿,相比前一年增长58.2%。增速是喜人的,但仔细一算,126亿的规模被各家云厂商瓜分下来,到手也不过几亿到几十亿不等,这个数字对云厂商营收拉动力确实是有,但似乎不那么大。

大模型究竟能为云带来多大的增长,时间自会给出答案。但眼下,从各家云厂商紧锣密鼓的布局来看,一场激烈的智算实力比拼赛已然无声地拉开帷幕,未来的云市场究竟走向何方,我们拭目以待。

友链


  • 文章

    76

  • 浏览

    635

  • 获赞

    72

赞一个、收藏了!

分享给朋友看看这篇文章

热门推荐