曦智 。种根科技 。据分架构联合北京大学 、布式阶跃星斗为下一代万亿参数大模型练习的光交高带基础设施建造提出全新解决计划 。
跟着大模型参数规划的宽域扩展 ,分布式练习成为。种根人工智能 。据分架构展开的布式中心途径。分布式练习能够将模型数据分配给多个核算节点,光交高带进行并行核算和数据管理 ,宽域然后明显加快模型练习的种根进程,而高带宽域(High Bandwidht Domain,据分架构 HBD)的规划对提高模型算力利用率至关重要。
但是布式,现有的光交高带HBD架构在可扩展性、本钱和容错才能等方面存在根本性约束:
以。宽域交流机 。为。中心。的HBD(如NVIDIA NVL72)本钱昂扬 、不易扩展规划。
以以 。AI。加快器(包含。GPU 。与专用。ASIC。)为中心的HBD(如Google TPUv3和。Te 。sla Dojo)存在严峻的毛病传达问题。
2022 年Google发布TPU v4 集群 ,初次选用光交流计划(Op。ti 。cal Circuit Switch,以下简称“OCS”),这种交流机-GPU混合的HBD在互连本钱与体系扩展性之间采取了折中计划,但仍存在毛病爆破半径问题,其本钱和容错才能仍不甚抱负 。
在此布景下,曦智科技联手北京大学、阶跃星斗的研讨团队提出了一种以光交流(OCS)模组为中心的高带宽域架构InfiniteHBD,经过在 。光电。转化模组中集成OCS才能,InfiniteHBD完成了动态可重构的单点对多点衔接,具有节点级毛病阻隔和低资源碎片化的才能。
InfiniteHBD在可扩展性和本钱上全面优于现有计划:InfiniteHBD的单位本钱仅为NVL72的31% ,GPU冗余率比NVL72和TPUv4低一个数量级,且与NVIDIA DGX(单机8卡)比较,模型算力利用率最高提高3.37 倍。
该计划以论文方式被国际 。通讯网络。范畴尖端会议SIGCOMM 2025[1]接纳