腾讯云发布专有云智算套件，助力企业打造专有智算云

2024-11-28 18:51:38 admin

6月28日，腾讯套件腾讯云副总裁李力在A2M人工智能创新峰会上宣布，云发腾讯云推出基于公有云的布专成熟实践的专有云智算套件。

该套件集合了腾讯云高性能计算集群构建模块、智算助力专有智算智能高性能网络IHN、企业高并发文件存储系统TurboFS、打造算力加速框架Taco以及GPU算力共享技术等核心能力，腾讯套件与腾讯云专有云平台TCE结合，云发能够支撑企业基于自有硬件搭建高性能的布专专有智算云，满足在私有算力环境下训练大模型的智算助力专有智算诉求。

腾讯云发布专有云智算套件，企业助力企业打造专有智算云

据了解，腾讯云智算套件提供的腾讯套件算、存、云发网一体的布专云原生能力，能够帮助企业高效利用算力卡资源，解决算力集群的木桶短板效应。比如，腾讯云自研高性能智能网络IHN，能够实现企业算力卡持续稳定高带宽通信；腾讯云高性能文件存储系统，能够有效解决海量数据存储的读写性能瓶颈问题。

同时，智算套件还在调度架构层融合了腾讯云自研的算力加速框架Taco和GPU算力共享技术qGPU。其中Taco基于网络协议、通信策略、AI 框架、模型编译等多层级的优化，能够大幅提升大模型训练和推理业务性能；qGPU能够在算力集群内对算力卡实现精准切分，提升卡的利用效率。

另一方面，腾讯云TCE拥有跟公有云同源同构的技术架构和“一云多芯”的能力，能够灵活支持不同规模的云平台构建，还能屏蔽底层硬件差异，更好地纳管不同类型的硬件设施。

腾讯云智算套件源自腾讯云公有云算力集群HCC的成熟实践。去年，腾讯云在行业率先发布了大模型公有云算力集群HCC，该集群结合腾讯云星星海自研服务器，腾讯云自研高性能智能网络提供的3.2T超高互联带宽，以及腾讯自研高并发文件存储系统，能够为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

腾讯云发布专有云智算套件，助力企业打造专有智算云

当前，AI正在逐步从辅助技术成为引领行业变革的关键要素。作为这一变革的重要支撑之一，云计算正与AI深度融合，孕育出AI原生云这一全新的技术形态。

腾讯云联合Gartner发布的《AI原生云建设与加速指南》指出，AI原生云将AI技术深度融合到云服务的每一个层面，并着重于开放性和生态系统的构建，通过提供丰富的API和SDK，以支持AI原生新服务和应用的开发。

李力介绍，腾讯云将围绕AI原生云，为客户提供生成式AI驱动的新一代云平台架构，为客户带来AI原生理念的基础设施、模型、工程、应用、全栈安全防护等五大核心能力。

其中，基础设施层，腾讯云构建了支持多GPU卡型的统一算力平台，结合长稳训练、利用率提升以及任务和节点的异常恢复机制等技术，能够助力模型训练提效 200%，提升硬件资源利用率至 99%+。

在工程平台层面，腾讯云打造了基于腾讯云高性能服务HAI 与云端开发工具CloudStudio的GPU开发空间；腾讯云向量数据库提供了全面的数据检索增强套件能力；腾讯云机器学习平台TI提供了从数据标注到模型推理的工具链。在此之上，腾讯云OrcaTerm AI助手、AI代码助手可以提供智能运维、技术问答、代码补全等AI辅助能力。

在模型层，腾讯自研的大模型混元最大参数量级已过万亿，在国内率先采用混合专家模型 (MoE) 结构，部分中文能力已追平GPT-4，在“时新”问题的回答表现上，数学、推理等能力上均有较大提升。同时，腾讯会议等腾讯SaaS产品已经全面接入腾讯混元大模型。

在安全方面，腾讯全栈安全产品都已应用AI技术，并在实际攻防场景中守护安全防线，同时，腾讯云还在积极探索生成式AI在安全场景的落地。

值得一提的是，腾讯云还支持通过分布式云的方式部署，能够为用户在多云、混合云场景下提供一致的产品服务和体验，并且通过集中管控，统一管理位于不同位置的云资源和业务应用，帮助用户在任意位置获取需要的AI原生云资源与云服务。

截至目前，包括百川智能、MiniMax、智谱科技、元象等在内的90%头部大模型企业，都在使用腾讯云的解决方案。

雷峰网(公众号：雷峰网)