面向智算场景的高性能网络白皮书
随着生成式人工智能的发展,AI大模型参数量从GPT-3.5的1.75亿,到GPT-4的1.8万亿,预计未来GPT-5将达到十万亿参数规模,迅速膨胀的AI模型需要更大规模的算力集群执行训练。AI大模型以GPU集群分布式训练为基础,根据阿姆达定律,串行占比决定并行效率上限,网络成为影响算力的重要因素。AI训练任务的高精度并行协同特性以及超大集群互联吞吐量对网络性能提出了数量级的提升需求。AI大模型训练的时间往往长达数月,也使得网络的长稳运行变得前所有未有的重要。从网络流量模型来看,AI大模型训练流量与通算流量呈现出完全不同的特征,突发的稀疏大流成为网络常态,聚合流量具备波峰波谷效应明显、周期性等特征,也使得很多通用数据中心的网络技术不再适用。HPC同样对网络提出高性能需求,特别是在可扩展性以及分布式资源的高效利用方面,HPC与AI的需求趋同。一般来说HPC对于时延更加敏感,但部分采用并行通信的计算模型,同样也关注长尾时延。