clash x怎么添加节点
6月11日,暨第11届中国(上海)国际数据中心产业展览会、第6届中国数据中心绿色能源大会在上海新国际博览中心顺利举办。
2025中国智算中心全栈技术大会以“全栈智算算存网加速进化”为主题。奇异摩尔联合创始人、产品及解决方案副总裁祝俊东,在此次大会上做了主题为《从Scale Out到Scale Up,以互联为中心,构筑高性能AI基础设施》的精彩演讲。
在AI算力基础设施中,如何通过Scale Up到Scale Out的网络,构建一个更加高效的算力,如何以互联为中心来解决这些问题?
在过去数年中,AI已经深入到工作与生活的方方面面。简单而言,从模型的算力能力来讲,以大模型为基础的AIGC在各个领域,包括写作、编程等,已经达到跟人类类似的水平;另外一方面,AIGC也已经逐步进入大家的生活,成为了生产力工具。互联网花了将近20年的时间,才覆盖90%的人群;而AI只花了3年,就达到了广泛使用的用户基础。
此外,AI相关的新技术也是不断发展,从回答问题到完成任务,以AI Agent为代表的新形态已经出现。比如说Manus,它不仅是像过去那样来回答问题,还能够帮助主动完成很多任务,这给大家在生活中带来了诸多便利。
AI的背后是算力,算力规模的投入一直在持续增加。无论是全球还是国内,算力的规模都越来越大,各家巨头都在持续进行大规模的算力投入。
与此同时,跟AI相关的网络技术即互联技术,相关的关注度及投入正在快速增加。此前,互联相关的技术在算力中心投入不足5%,现在已经逐渐增加到15%甚至20%,未来还可能会持续增加。
模型的参数规模越来越大,从千亿级到万亿级的大模型仍然在持续增长。随着推理应用的逐步落地,ROI成为了企业部署大模型考虑的关键,在考虑性能的同时、还需兼顾体验和成本的平衡。所谓的性能就是支持快速的响应速度,同时要支持高并发,以及在整个应用环境中取得成本的平衡。
同时,轻量级小模型也在纷纷推出,边缘推理性能大幅提升。以通义千问3-4B为例,在4B的模型上已经可以取得不错的应用效果,整体在端侧应用表现出较大的优势。
很多人现在意识到了一个问题,经典的基于Transformer 的Scaling Law(缩放定律)正面临挑战:集群算力增长放缓,单纯缩放效果放缓。首先是算力的增长跟不上软件与模型的算力需求,其次是单纯靠算力堆叠更大规模的缩放效果也逐步放缓。
在这方面,DeepSeek做了一个非常好的榜样,如何通过软硬件协同的设计,将模型、训练和硬件基础设施整合在一起,或者是基于现有的硬件设施改进模型设计和优化模型的设计等。
只有通过这种方式,通过算法、软硬件、工程协同的进展,才能够持续过去的缩放定律或者持续这种性能提升的趋势。
一方面,由于算力放缓,现在Chiplet和集群互联已经成为了关键。随着工艺制程的放缓,算力密度的提升越来越放缓;而国产芯片在制程上也会收到限制,Chiplet成为了提升性能的关键。在训练和推理的规模越来越大的情况下,对算力的需求越来越增加,通信的效能就成为了整个模型关键的影响因素。
根据Meta在2024年的相关数据,在模型训练不同的情况下,通信的开销占比已经占到整个时间的平均30%左右。
随着AI推理的落地,大家也发现,其响应速度也就是TPOT(Time Per Output Token)和互联性能成正比,互联速度越高,吞吐速度越高,即TPOT会越强。
大模型在进行并行计算过程中,TP(张量并行)已经占到了整个通信量的80%,需要TB级别的带宽(Scale up GPU间互联),所以超节点变成了非常重要的技术手段。DP(数据并行)的通信量大于10%,就需要Tb级别的带宽(Scale out 网间互联);而在将MoE引入EP(专家并行)通信,则会带来更复杂的流量。在不同的情况下,流量不同,需要更复杂的调度算法和更完善的通信技术手段。
超节点已经成为大规模训练、并行推理中重要的支撑技术。什么是超节点?按照我们的理解,超节点是一种通过高带宽、低时延互联技术(如NVLink、UB、OISA等)将成百上千张GPU互联在一起的产品形态和技术。
比如说成百上千张GPU互联在一起,犹如一个巨型GPU般工作;此外,还可以通过构建更大的HBD系统,以应对多种并行通信造成的巨大通信数据量。
因此需要再更大规模的机柜或者几个机柜之间,引入超高带宽的互联,这通常是TB级别的。这会带来什么好处?
以英伟达为例,在Hopper架构时代的DGX8卡,跟基于GB300的NVL72相比,超节点的性能带来了50倍的提升,同时其投入产出比也带来了十倍的提升。
在很多场合中,大家提到算力时,指的就是集群的有效总算力clash x怎么添加节点,集群的算力由几个方面的内容汇总而成,包括GPU单卡算力乘以集群总卡数,再乘以集群线性度,或者高带宽域效率。集群有效总算力:单卡算力乘总卡数以及它的互联和调度的性能。
从互联来看,分为两个方面。北向的Scale Out即服务器之间的互联,以及南向的Scale Up即GPU之间的互联。
以英伟达为例,这一代开始英伟达的GPU产品B200或者GB200采用了Chiplet技术,进一步扩升了芯片本身的算力。同时在集群之间有超级网卡ConnectX-8(通常称为CX8),再通过以太网和交换机实现互联。
英伟达的NVLINK可以实现高带宽、低延时、多节点的集群,从72、144到256节点,英伟达始终在扩展其高带宽集群。
从今年GTC上面英伟达公布的Roadmap来看,在其整个产品体系中,其互联的占比越来越大。当然其计算还是在不断地发展,从Hopper到Blackwell到Rubin会持续进一步的提升算力。通过采用Chiplet技术,可以集成更多的芯片或者芯粒。
在Scale Out侧使用的CX超级网卡,也正在从此前的800G逐步提升到1.6T,甚至将来可能会到大3.2T乃至更高;在Scale Up侧,即NVLINK部分,以及NVLINK的交换机也在以每一代翻倍的速度提升,过去是900G,现在是1.8T,下一代也会提升到3.6T。
可以说,互联正成为英伟达的一个非常重要的战略的支柱,正如过去英伟达的GPU产品和CUDA技术,互联也成为它最重要的差异化的竞争手段。
对于国产算力而言,产业界众多企业正共同努力,以构建国产算力的集群与基础设施。GPU或者说AI芯片,当然是其中非常重要的手段,在AI芯片之外,互联也非常重要。
由于国产AI芯片的制程受限,Chiplet片内互联,基本上目前已经成为国内芯片企业的必然选择。目前在构建大卡集群的时候,业界很多同仁在做国产交换机,无论是Scale Out还是Scale Up,都有相关的产品。
在Scale Out领域,奇异摩尔设计了AI原生的超级智能网卡NDSA-SNIC,它内建高性能的RDMA引擎,能够提供与英伟达网卡相当的性能;在Scale Up超节点内,奇异摩尔提供NDSA-G2G网络加速芯粒(又名G2G IOD)。
首先需要非常高的传输性能,Tb级别的传输延时要可控;其次是要实现万卡、十万卡甚至更大规模流控的能力;第三是要有相对可以控制的部署成本,因为企业部署的数量太多,理论上而言一个或者两个GPU就需要配备一个超级网卡。
因此,智算行业正在发生变化。智算的集群里面需要的是针对AI原生的超级网卡。AI本质是需要一个非常高效的方式来进行网络传输,需要非常高性能的RDMA引擎,需要更加复杂的网络控制,来真正有效的实现数据传输。
此外,从协议的角度来看,过去传统的RDMA有一些不足之处,因此业界需要一个更加现代化的下一代RDMA的标准,即UEC(Ultra Ethernet Consortium,超级以太网联盟)。
自去年诞生之后,UEC已经完成了多项工作,核心就是要解决复杂网络之间的多径传输、乱序等问题,以及实现拥塞情况下更好的流控手段和更高效的重传方式。这些都是需要在AI里面来解决的,也是RDMA需要面对的新挑战。
奇异摩尔正在研发并即将推出AI原生超级网卡NDSA-SNIC,它能够提供800G的RDMA带宽; 此外,在标准的RDMA以外还会提供多种功能,诸如支持乱序、多径传输、选择性重传等高性能RDMA功能。
同时,该网卡基于奇异摩尔的HPDE架构设计,该架构是一个高性能可编程的数据引擎。通过该方式,网卡在提供优秀的产品性能的同时还能够兼顾灵活性。
不同的网络环境下需要灵活的配置,采用的网络标准不同,还有一些私有的算法,而奇异摩尔能够通过该原生超级网卡,兼容多家的标准,实现可靠性与灵活性的融合。
最后要说明的一点是,该网卡是一款完全基于以太生态的超级网卡,跟传统的DPU相比,有很大的性价比优势。
三是需要通用的协议来做互联互通,传统的通算协议(PCIe/CXL)和私有协议都具备局限性,因此业界的主要Scale up生态,都在做Scale Up协议的标准化,从而实现通用化标准化的目标;
因此,智算集群需要基于通用协议的端网产品,G2G IO Chiplet成为一种创新GPU互联技术路径。奇异摩尔提供相关的产品通用GPU互联颗粒NDSA-G2G。
在大芯片里用IO Chiplet做G2G的连接,已经开始成为一种新方式。原因在于一方面,它可以大幅度降低研发难度和成本,节省数亿研发费用。如果企业自己投入研发,需要非常多的人力物力,从过去P2P的协议变成复杂的网络协议,而且这个协议正在标准化中,还没有统一的标准,企业需要支持多个不同的协议。
基于通用的G2G的Chiplet,企业还可以单独不断地进行迭代,加上既有的奇异摩尔HPDE架构,就能够支持多种协议实现快速的升级。奇异摩尔的G2G芯粒可以把需要的Scale Up协议集成在芯粒里面,企业无需在设计的阶段确定捆绑哪种协议,可以通过配置或者产品升级的方案,来支持更新的算法、更新的协议。
从性能来看,产品具有高带宽、低延时及高并发的特性,可以实现TB级别的带宽; 从网络拓扑来看,G2G芯粒支持多种拓扑包括Full Mesh、Spine-Leaf等组网;从语义支持方面,G2G芯粒将同时支持消息语义与内存语义双引擎。由于当前Scale-up协议从简单 P2P 接口变成复杂协议,通用协议也在进一步标准化的过程中。Kiwi NDSA-G2G 本身基于奇异摩尔独创的HPDE架构,可满足不同厂商不同场景的需求,在生态百花齐放的Scale-up系统中支持多协议类型及其升级,从而降低持续研发难度和开发成本。
目前,奇异摩尔的所有产品都基于Chiplet架构、互联使用UCIe的接口,奇异摩尔也会把接口提供给客户,让客户实现更好的集成方案。
首先,Scale Up和Scale Out域之间需要有统一的框架,尽量无感减少软件编程的需求;
由于通信越来越复杂,无论是CPU还是GPU,都需要消耗GPU的算力,需要业界有专门的数据引擎,以处理所有跟通信相关的算力,而无需消耗GPU的宝贵算力;
Scale Out的带宽增加越来越高,一方面RDMA的限制,另外一方面收到PCIe的限制,在某个节点上,PCIe的迭代可能就跟不上需求。业界已经有不少案例以Chiplet的方式将RDMA 、RoCE集成到芯片中,以D2D的方式进一步增加带宽;
异构计算越来越普遍,GPU、CPU甚至其他的NPU之间相互之间都会通信,这也会变成瓶颈,因此Chiplet正成为该领域中非常重要的手段。
奇异摩尔希望能够提供从Scale Inside,到Scale Up,到Scale Out的整体而完整的互联产品解决方案以及协议栈。以开放的标准、统一的互联架构,赋能国产算力,让国产算力变得越来越强。
2026中国智算中心全栈技术大会暨展览会暨第12届中国(上海)国际数据中心产业展览会、第7届中国数据中心绿色能源大会,即将于2026年6月在上海新国际博览中心举办。