UALink规范发布:挑战英伟达AI统治的开始
芝能智芯出品
Ultra Accelerator Link(UALink)1.0规范正式发布,人工智能(AI)和高性能计算(HPC)领域开始有新的竞争。
由AMD、Broadcom、Google、Intel等行业巨头联合推动的UALink,打造一个开放、高速、低延迟的互连标准,直接挑战英伟达的NVLink技术霸主地位。UALink 1.0支持每通道200 GT/s的带宽,连接多达1024个加速器,具备低成本、可扩展和高安全性的特性,为AI加速器生态系统注入新的竞争活力。
我们将从技术创新和市场竞争两个维度深入分析UALink的意义,探讨其对AI产业格局的潜在影响。
Part 1
UALink的技术创新与优势
UALink的诞生源于AMD、Broadcom、Intel等公司对英伟达NVLink专有技术的集体应对。
英伟达通过NVLink和NVSwitch构建了高效的GPU互联生态,尤其在Blackwell NVL72等机架级解决方案中展现了强大的性能。然而,NVLink的封闭性限制了其他厂商的参与,抬高了系统集成成本。
UALink通过开放标准打破这一壁垒,允许不同厂商的加速器(如AMD Instinct GPU、Intel Gaudi)无缝协作,降低了数据中心部署的复杂性和成本。
这种开放生态的构建,不仅为系统集成商和数据中心运营商提供了灵活性,也为中小型AI硬件厂商创造了参与竞争的机会。
UALink规范发布:挑战英伟达AI统治的开始
● UALink 1.0的协议栈由物理层、数据链路层、事务层和协议层组成,针对AI和HPC负载进行了深度优化。
◎ 物理层:基于标准以太网组件(如200GBASE-KR1/CR1),通过改进前向纠错(FEC)和码字交织技术,显著降低延迟,同时保持与现有以太网生态的兼容性。
◎ 数据链路层:采用64字节到640字节的flit打包机制,结合循环冗余校验(CRC)和可选重试逻辑,确保数据传输的可靠性和高效性。◎ 事务层:通过压缩寻址和直接内存操作(读、写、原子事务),实现高达95%的协议效率,优化了跨加速器的内存访问,特别适合AI训练和推理中对低延迟的严苛要求。◎ 协议层:支持UALinkSec硬件级加密和可信执行环境(如AMD SEV、Intel TDX),为多租户数据中心提供安全隔离和机密计算能力。
这种分层设计在保持高性能的同时,简化了协议复杂度,相较于PCI-Express(PCIe)或CXL,UALink在带宽和延迟上更具优势,尤其适合大规模AI计算集群。
UALink支持连接多达1024个加速器,覆盖1到4个机架,单通道双向带宽达200 GT/s,四通道配置下可达800 GT/s。
这种规模化能力使其能够应对日益增长的AI模型需求,例如大型语言模型(LLM)的训练和推理任务。
此外,UALink的往返延迟在64B/640B负载下低于1微秒,端口到端口跳变延迟约为100-150纳秒,接近PCIe交换机的性能,远优于传统以太网。这种低延迟特性对于构建确定性性能的AI计算Pod至关重要。
UALink的设计注重能效,其交换机的功耗仅为同等以太网ASIC的1/3到1/2,每个加速器可节省150-200瓦的功耗。更小的芯片面积和更低的功耗不仅降低了硬件成本,还减少了数据中心的电力和冷却开支,从而优化了总体拥有成本(TCO)。
这对于超大规模云服务提供商(如Google、Microsoft)尤为重要,他们需要平衡性能与运营成本。
Part 2
UALink挑战英伟达的生态壁垒
英伟达在AI加速器市场的统治地位不仅源于其强大的GPU硬件,还得益于NVLink、NVSwitch和CUDA软件生态的协同作用。
例如,Blackwell NVL72机架通过NVLink连接72个GPU,Pod级扩展支持576个GPU,而即将推出的Vera Rubin平台将进一步提升单机架GPU数量至144个。
相比之下,UALink 1.0理论上支持1024个加速器的Pod规模,展现了更大的扩展潜力。
然而,英伟达的生态壁垒并非仅靠硬件互连,CUDA的广泛采用和优化工具链使其在开发者社区中根深蒂固。
UALink联盟需要不仅在硬件层面竞争,还需推动软件生态(如ROCm、oneAPI)的成熟,以吸引开发者从英伟达平台迁移。
UALink联盟的成员涵盖了芯片设计(AMD、Intel、Broadcom)、云服务(Google、Microsoft、Meta)、网络设备(Cisco)和系统集成(HPE)等多个领域。
这种广泛的行业支持为UALink的快速落地提供了基础。例如,Synopsys已推出UALink IP控制器和验证IP,Astera Labs和Broadcom也计划生产UALink交换机。
然而,联盟内部的利益协调可能是一大挑战。例如,Google和Meta专注于定制加速器(如TPU),而AMD和Intel则希望推广通用GPU,成员之间的优先级差异可能导致标准演进的复杂性。
此外,英伟达的缺席使得UALink短期内难以撼动其市场主导地位,尤其是在高端AI训练市场。
UALink 1.0规范的发布标志着技术开发的重大进展,但从规范到商用产品通常需要12-18个月。联盟预计首批UALink设备将于2026年面世,而英伟达的NVLink 6.0和Rubin Ultra平台可能在2027年进一步提升性能。
这意味着UALink需要在有限的时间窗口内证明其性能和成本优势,以抢占市场份额。
市场接受度将取决于实际部署中的表现,例如是否能无缝集成现有数据中心基础设施,以及是否能显著降低AI训练和推理的总体成本。
此外,中小型企业对开放标准的接受度可能高于依赖英伟达生态的大型客户,这为UALink提供了切入市场的机会。
UALink与Ultra Ethernet Consortium(UEC)的合作是其战略的重要组成部分。
UEC致力于优化以太网以满足AI和高性能计算的规模化需求,而UALink专注于Pod内加速器的高速互连。两者结合有望形成“规模内+规模外”的完整解决方案。例如,UALink可用于连接8-128台服务器的Pod,而Ultra Ethernet可实现跨Pod的扩展。
这种协同效应增强了UALink的生态竞争力,但也增加了技术整合的复杂性,需要联盟在标准制定和产品开发中保持高效协作。
小结
UALink 1.0规范的发布是AI产业竞争格局演变的象征。作为一个开放标准,UALink通过高速、低延迟和低成本的互连技术,为AMD、Intel、Google等公司挑战英伟达的AI统治提供了关键武器。
协议栈的优化设计、可扩展性和安全性为构建下一代AI计算Pod奠定了基础,同时与Ultra Ethernet的协同潜力进一步增强了其市场前景。联盟需要在软件生态、产品落地和市场推广上持续发力,尤其是在2026年的关键时间窗口内证明其价值。
从更广义的角度看,UALink的出现反映了AI产业对开放性和多样化的需求,AI训练和推理需求的持续增长,UALink与NVLink的竞争会立即打响。
原文标题 : UALink规范发布:挑战英伟达AI统治的开始

最新活动更多
-
3月27日立即报名>> 【工程师系列】汽车电子技术在线大会
-
4月1日立即下载>> 【村田汽车】汽车E/E架构革新中,新智能座舱挑战的解决方案
-
即日-4.22立即报名>> 【在线会议】汽车腐蚀及防护的多物理场仿真
-
4月23日立即报名>> 【在线会议】研华嵌入式核心优势,以Edge AI驱动机器视觉升级
-
4月25日立即报名>> 【线下论坛】新唐科技2025新品发布会
-
5月15日立即下载>> 【白皮书】精确和高效地表征3000V/20A功率器件应用指南
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论