攻坚AI大模型网络,腾讯云出新招
【资料图】
北京日报客户端 | 记者 袁璐
AIGC的爆发除了带来算力上的挑战,对网络的要求也达到了前所未有的高度。
6月26日,腾讯云首次对外完整披露自研星脉高性能计算网络:星脉网络具备3.2T通信带宽,能提升40%的GPU利用率,节省30%至60%的模型训练成本,为AI大模型带来10倍通信性能提升。基于腾讯云新一代算力集群HCC,可支持10万卡的超大计算规模。
“星脉网络是为大模型而生。”腾讯云副总裁王亚晨表示,该网络所提供的大带宽、高利用率以及零丢包的高性能网络服务,将助力算力瓶颈的突破,进一步释放AI潜能,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。”
记者注意到,AIGC的火爆带来AI大模型参数量从亿级到万亿级的飙升。为支撑海量数据的大规模训练,大量服务器通过高速网络组成算力集群,互联互通,共同完成训练任务。但大集群不等于大算力,相反,GPU(图形处理器)集群越大,产生的额外通信损耗越多。大带宽、高利用率、信息无损,是AI大模型时代网络面临的核心挑战。
据了解,千亿、万亿参数规模的大模型,训练过程中通信占比最大可达50%,传统低速网络的带宽远远无法支撑。同时,传统网络协议容易导致网络拥塞、高延时和丢包,而仅0.1%的网络丢包就可能导致50%的算力损失,最终造成算力资源的严重浪费。
AI大模型催生了巨大的算力需求,当前,A100是大模型应用的“主力芯片”,价格大约为1万美元。OpenAI表示,AI大模型要持续取得突破,所需消耗的计算资源每3至4个月就要翻一倍,资金也需要通过指数级增长获得匹配。英伟达的研究表明,GPT3最大规模的模型需要使用175 Billions的参数量,需要使用512颗V100显卡训练7个月时间,或者使用1024颗A100芯片训练一个月时间。测算下来,大模型训练每月成本在数百万美元以上量级。
目前大模型开发和训练为何十分昂贵?业内专家表示,首先,大模型需要大量的计算资源,包括CPU(中央处理器)、GPU、FPGA(现场可编程门阵列)、ASIC(专用集成芯片)等硬件设备,以及支持大规模并行计算的软件平台和框架。这些设备和平台的成本非常高昂,而且不断更新换代,需要不断投入新的资金和人力进行维护和升级。其次,大模型的训练和开发涉及大量的数据存储和数据传输,这也需要相应的网络和存储资源,成本同样不低。最后,大模型的开发和训练需要大量的人力和时间投入,同时也需要成熟的算法设计和调优技术来保证其效率和准确性。