AI 大模型的跨域训练是全球范围关注的前沿技术方向,它是指将多个不同的智算中心组合在一起训练同一个 AI 大模型。为什么需要跨域训练?业界通常的认知在于,当大模型未来发展到万亿、十万亿参数规模时,根据 Scaling Law 需要用到万卡甚至十万卡才能完成其预训练过程,这样的体量规模如果集中到一个集群内部,在技术、能源、配套等方面都存在着严峻的挑战,因此需要通过网络连接多个集群并加以组合,以共同训练同一个万亿/十万亿的大模型。
与互联网产业一样,人工智能行业也遵循“技术-硬件-终端-应用”的发展范式,只不过技术端由通信网络变为大模型理论研究,其发展高度取决于上游 AI芯片与算力硬件水平。当前国产芯片厂商正加速技术突破,叠加应用生态持续完善,推动生成式 AI 在多行业实现深度落地。大模型及其硬件基础架构构成产业核心价值,相关领域投资将同时获得技术突破红利与产业升级收益。