在算力网络的构建中,计算、存储与互连构成了核心基础架构。GPU作为算力领域的焦点,其性能飞速提升,但数据的流畅传输高度依赖互连技术。以GPU为代表的算力大约每两年实现百倍跃升,而互连带宽的进步却缓慢滞后,仅为2-4倍增长。互连瓶颈若无法突破,将直接限制计算集群的整体效能。从芯片内部高速互连到GPU集群间网络,国产方案需在多维度实现创新,构建开放生态系统。
AI基础设施中的“交通网络”
数据中心内,服务器间需要通过低功耗、高效存储访问和高密度互连来实现海量数据交换。
奇异摩尔联合创始人兼产品和解决方案副总裁祝俊东向澎湃科技解释,AI基础设施的发展可类比城市规划。计算节点如同“工厂”,存储节点相当于“住宅”,在规模较小时可采用点对点配套布局。但随着规模扩大,零散模式不再适用,需形成集中化的“工业区”和“住宅区”。这时,“交通系统”的重要性凸显——互连基础设施承担数据流转角色,类似城市中的人流与物流,其畅通度直接影响整体效率。
大模型驱动计算需求激增,GPU集群从万卡级向十万卡级扩展。祝俊东指出,在AI基础设施中,互连技术已成为“木桶效应”的关键短板,决定算力集群的实际输出效能。“假设投入10000P算力,其实际发挥取决于通信系统。若互连不足,10000P算力可能仅实现100P效果。”
英伟芯创始人聂辉补充道,GPU算力每两年有百倍提升,而互连带宽进步缓慢,导致算力与互连发展失衡。互连带宽不足将直接制约集群计算速度。
必须优化AI基础设施中的“主干道、支线网络”,加速互连技术迭代。Scale Inside、Scale Up和Scale Out构成互连的层级体系:Scale Inside通过高速互连提升单芯片算力,延续摩尔定律;Scale Up涉及“超节点”概念,通过互连多个GPU在节点内扩展算力,对互连要求更高;Scale Out则是横向扩展集群规模至更多机柜。
“国内正迈向十万卡集群,海外已在建设几十万卡规模,未来可能突破百万卡。连接大量计算存储节点需高速互连和智能调度,这是Scale Out通信系统的核心。”祝俊东表示,集群扩大对互连带宽、能耗、网络控制及协议提出更高要求。过去AI基础设施侧重计算,现在网络环节重要性凸显,但核心软硬件仍由英伟达、博通等海外厂商主导。
“计算、互连、软件生态是英伟达的三大壁垒,其在互连投入巨大。国内厂商需加速追赶。”祝俊东强调,硬科技研发需长期积累。奇异摩尔正开发基于统一架构的AI网络全栈解决方案,目标是通过统一协议、数据处理与调度,实现Scale out、Scale up、Scale inside的多维互连突破。
对于国产互连技术发展,祝俊东认为需多路径突破。其一,异构计算要求系统协同,需整合存储、计算与互连设计,推动开放生态建设。
其二,技术范式需创新:存储领域发展存算一体,计算领域短期优化并行架构与算法,长期布局光计算;互连领域当前以电为主,未来光电融合将深化,需探索CPO/OIO等高效路径。
光电融合技术的新探索
近期世界人工智能大会上,曦智科技联合壁仞科技、中兴通讯推出光跃LightSphere X分布式光互连解决方案,获SAIL奖。该方案计划落地上海仪电国产算力集群。
光互连技术正从实验室走向数据中心应用。据行业报道,阿里云、谷歌云等全球云服务商已在新一代数据中心部署硅光技术800G/1.6T光模块,逐步替代传统铜缆和可插拔模块。
聂辉介绍,数据中心互连主要有两种技术:一是铜互连,适用于短距场景;二是光模块,通过激光器、探测器等组件实现光电转换。国内光模块需求旺盛,“AI数据量激增带动订单暴增”。
但业内人士指出,光模块核心芯片如激光器、调制器仍依赖进口,国内以加工为主。光模块制造流程复杂,成本、良率和带宽有待提升。
“CPO技术可提高集成度,带宽从1.6Tb/s向3.2Tb/s演进,功耗进一步降低。”聂辉解释,光互连中电信号转光信号传输,再转为电信号,光纤的高带宽低损耗优势明显。
聂辉曾任职朗讯和英特尔,现带领英伟芯攻关光模块集成度低、功耗高难题,通过晶圆级异质集成技术结合光电器件与硅基材料。
聂辉表示,国际巨头正升级OIO/CPO技术,国内光模块、封装、通信企业纷纷布局。英伟达生态完善支撑其市场地位,国内产业链尚不清晰,光电工艺协同是关键技术挑战。
“国内光互连生态未成熟,需产学研协同。初创企业需2-3年研发打通硅光、光电集成与先进封装环节。”聂辉说。
中科创星米磊认为,AI算力需求爆发凸显光子技术价值,其超高带宽、低功耗优势是下一代解决方案。他提出“米70定律”,光子技术将占未来产业成本70%,建议国内在光子芯片等新赛道提前布局。