攻坚AI大模型网络，腾讯云出新招

北京日报 2023-06-27 18:15:01

【资料图】

北京日报客户端 | 记者袁璐

AIGC的爆发除了带来算力上的挑战，对网络的要求也达到了前所未有的高度。

6月26日，腾讯云首次对外完整披露自研星脉高性能计算网络：星脉网络具备3.2T通信带宽，能提升40%的GPU利用率，节省30%至60%的模型训练成本，为AI大模型带来10倍通信性能提升。基于腾讯云新一代算力集群HCC，可支持10万卡的超大计算规模。

“星脉网络是为大模型而生。”腾讯云副总裁王亚晨表示，该网络所提供的大带宽、高利用率以及零丢包的高性能网络服务，将助力算力瓶颈的突破，进一步释放AI潜能，全面提升企业大模型的训练效率，在云上加速大模型技术的迭代升级和落地应用。”

记者注意到，AIGC的火爆带来AI大模型参数量从亿级到万亿级的飙升。为支撑海量数据的大规模训练，大量服务器通过高速网络组成算力集群，互联互通，共同完成训练任务。但大集群不等于大算力，相反，GPU（图形处理器）集群越大，产生的额外通信损耗越多。大带宽、高利用率、信息无损，是AI大模型时代网络面临的核心挑战。

据了解，千亿、万亿参数规模的大模型，训练过程中通信占比最大可达50%，传统低速网络的带宽远远无法支撑。同时，传统网络协议容易导致网络拥塞、高延时和丢包，而仅0.1%的网络丢包就可能导致50%的算力损失，最终造成算力资源的严重浪费。

AI大模型催生了巨大的算力需求，当前，A100是大模型应用的“主力芯片”，价格大约为1万美元。OpenAI表示，AI大模型要持续取得突破，所需消耗的计算资源每3至4个月就要翻一倍，资金也需要通过指数级增长获得匹配。英伟达的研究表明，GPT3最大规模的模型需要使用175 Billions的参数量，需要使用512颗V100显卡训练7个月时间，或者使用1024颗A100芯片训练一个月时间。测算下来，大模型训练每月成本在数百万美元以上量级。

目前大模型开发和训练为何十分昂贵？业内专家表示，首先，大模型需要大量的计算资源，包括CPU（中央处理器）、GPU、FPGA（现场可编程门阵列）、ASIC（专用集成芯片）等硬件设备，以及支持大规模并行计算的软件平台和框架。这些设备和平台的成本非常高昂，而且不断更新换代，需要不断投入新的资金和人力进行维护和升级。其次，大模型的训练和开发涉及大量的数据存储和数据传输，这也需要相应的网络和存储资源，成本同样不低。最后，大模型的开发和训练需要大量的人力和时间投入，同时也需要成熟的算法设计和调优技术来保证其效率和准确性。

上一篇：疑是银河落九天（飞流直下三千尺疑是银河落九天的景点）

上一篇：最后一页