攻坚AI大模型网络,腾讯云出新招

北京日报 2023-06-27 18:15:01


【资料图】

北京日报客户端 | 记者 袁璐

AIGC的爆发除了带来算力上的挑战,对网络的要求也达到了前所未有的高度。

6月26日,腾讯云首次对外完整披露自研星脉高性能计算网络:星脉网络具备3.2T通信带宽,能提升40%的GPU利用率,节省30%至60%的模型训练成本,为AI大模型带来10倍通信性能提升。基于腾讯云新一代算力集群HCC,可支持10万卡的超大计算规模。

“星脉网络是为大模型而生。”腾讯云副总裁王亚晨表示,该网络所提供的大带宽、高利用率以及零丢包的高性能网络服务,将助力算力瓶颈的突破,进一步释放AI潜能,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。”

记者注意到,AIGC的火爆带来AI大模型参数量从亿级到万亿级的飙升。为支撑海量数据的大规模训练,大量服务器通过高速网络组成算力集群,互联互通,共同完成训练任务。但大集群不等于大算力,相反,GPU(图形处理器)集群越大,产生的额外通信损耗越多。大带宽、高利用率、信息无损,是AI大模型时代网络面临的核心挑战。

据了解,千亿、万亿参数规模的大模型,训练过程中通信占比最大可达50%,传统低速网络的带宽远远无法支撑。同时,传统网络协议容易导致网络拥塞、高延时和丢包,而仅0.1%的网络丢包就可能导致50%的算力损失,最终造成算力资源的严重浪费。

AI大模型催生了巨大的算力需求,当前,A100是大模型应用的“主力芯片”,价格大约为1万美元。OpenAI表示,AI大模型要持续取得突破,所需消耗的计算资源每3至4个月就要翻一倍,资金也需要通过指数级增长获得匹配。英伟达的研究表明,GPT3最大规模的模型需要使用175 Billions的参数量,需要使用512颗V100显卡训练7个月时间,或者使用1024颗A100芯片训练一个月时间。测算下来,大模型训练每月成本在数百万美元以上量级。

目前大模型开发和训练为何十分昂贵?业内专家表示,首先,大模型需要大量的计算资源,包括CPU(中央处理器)、GPU、FPGA(现场可编程门阵列)、ASIC(专用集成芯片)等硬件设备,以及支持大规模并行计算的软件平台和框架。这些设备和平台的成本非常高昂,而且不断更新换代,需要不断投入新的资金和人力进行维护和升级。其次,大模型的训练和开发涉及大量的数据存储和数据传输,这也需要相应的网络和存储资源,成本同样不低。最后,大模型的开发和训练需要大量的人力和时间投入,同时也需要成熟的算法设计和调优技术来保证其效率和准确性。

x

热门推荐

攻坚AI大模型网络,腾讯云出新招

2023-06

疑是银河落九天(飞流直下三千尺疑是银河落九天的景点)

2023-06

拯救“熬夜肌”效果杠杠的!光子嫩肤真这么神奇吗?

2023-06

前沿热点:2023-06-27 14:52甘肃高速公路最新路况实时播报

2023-06

环球报道:简单英文单词so easy(简单英文)

2023-06

环球快看:“雷锋”的哥变身社区“保洁员”,为高龄老人打造温馨舒适家居环境

2023-06

体育产业政策

2023-06

异动快报:泰和新材(002254)6月27日13点44分触及涨停板-环球即时

2023-06

永历帝的结局有多惨?与儿子一起被缢杀,死后被吴三桂焚骨扬灰 天天热头条

2023-06

动态:四所普通高中 保送生招收范围调为面向中心城区

2023-06

推荐阅读

多家国际邮轮公司实现全面复航 年底恢复至疫情前水平

2022-05

已纳入医保甲类报销范围 “试管婴儿”家庭将获得更多支持

2022-03

内蒙古满洲里市启动第四轮大规模核酸检测

2021-12

微博博主“鹿道森”确认身亡 警方:排除他杀

2021-12

失联摄影师“鹿道森”确认身亡 尸体被打捞上岸

2021-12

黑龙江讷河第二轮全员核检结果皆为阴性

2021-12

2021天象剧场收官:月“会”群星、日全食、流星雨扎堆亮相

2021-12

陕西新增1例境外归国集中隔离期满确诊病例

2021-12

内蒙古新增本土确诊病例91例

2021-12

宁夏银川警方破获2起以“互联网+物流寄递”为模式的特大毒品案件

2021-12