网友提问 :(三)传统 IDC 业务和 AIDC 业务有什么样的区别,AIDC的技术难度大吗?
2024-01-29 00:00:00
润泽科技 (300442): 回答:答:传统 IDC,主要服务对象是通用服务器,也就是传统X86 CPU 服务器,传统 IDC 主要是从自身的资源角度出发,我们拥有多少基础资源,能建设多少个机柜,能承载多少服务器。AIDC 业务,主要服务对象是高性能服务器,也就是 GPU 服务器,AIDC 主要是从客户需求的角度出发,客户要求单位平米提供多少算力,组建多大规模算力集群,因此,AIDC 整栋楼相当于一台超级服务器,AIDC 厂商需要组织设计这台超级服务器内部架构,同时对“近距离”“高密度”“高速度”“网络架构”“扩容资源”和“扩容空间”要求严苛,技术难度非常大,单一的 IDC厂商一般不具备这种能力。我举一些具体技术方面的例子。一个算力 POD 是 64 台高性能服务器,算一层网络。两层网络是 spine-leaf,按照高性能服务器 8 个单口 400G 进行计算,高性能交换机两层网络可以互联 256 台高性能服务器,三层网络是core-spine-leaf,最大可以互联 8192 台高性能服务器,同时一台高性能服务器的功率需求是 10KW,对机柜侧也提出了非常高的要求。因此,要做到这么大集群互联互通难度非常大,目前市场具备搭建三层网络架构的厂商非常少,但我们联合生态合作伙伴属于少数可以做到的,无论是 IB 组网,还是 RoCE 组网。另外,关于大集群交付,有设备是第一步,还要能买到足够多的辅材(线缆和模块),了解 IB 网络的轨道优化,同时具备IB 网的排错能力,具备服务器侧的调优能力,再叠加对大模型通信库的理解,甚至需要写监控软件,多种因素叠加才能具备大集群的全链路交付能力,甚至大型厂商一般有自己的“拆改配”车间,因为不同品牌服务器的主板设计思路不同,当同一集群涉及多个品牌多种规格时需要统一配置,此时需要一个“拆改配”车间进行标准化操作,提高效率,同时还要了解各个服务器厂家不同型号的主板设计拓扑,以便于大集群调优。以上这些任何单一厂商很难做到,我们也是结合了众多生态合作伙伴,齐心协力打造了算力模组才了解这些,我们这方面的技术和资源都处于行业领先位置。
2024-01-29 00:00:00