AMD 正式发布了 Pensando Pollara 400,这是一款完全可编程的400吉比特每秒(Gbps)RDMA Ethernet 就绪网络接口卡(NIC),专为支持AI集群网络而设计。
生成式AI和大型语言模型的兴起暴露了传统以太网网络的关键不足。这些先进的AI模型需要强大的通信能力,包括紧密耦合的并行处理、快速的数据传输和低延迟通信。传统以太网最初设计用于通用计算,难以满足这些特殊需求。尽管如此,以太网仍然是AI集群网络的首选,因其广泛的采用。然而,以太网的能力与AI工作负载需求之间的差距日益明显。
AMD 表示,其 Pensando Pollara 400 专门设计用于优化后端AI网络中的数据传输,特别关注GPU到GPU的通信。据AMD称,Pollara 400 相比传统以太网解决方案,可以为AI工作负载带来高达六倍的性能提升。Pollara 400 旨在解决AI工作负载的通信模式,提供高吞吐量、减少尾部延迟、可扩展性能和更快的任务完成时间。例如,该卡使用智能多路径技术动态分配数据包,防止网络拥塞。其可编程硬件管道允许定制和优化网络过程,而其可编程RDMA传输增强了远程直接内存访问能力。此外,Pollara 400 加速了AI工作负载中常用的通信库。
尽管 Ultra Ethernet 计划已将1.0版本规范的发布时间从今年第三季度推迟到2025年第一季度,AMD 仍发布了 Pollara 400。这一新标准旨在将以太网技术扩展到满足AI和HPC工作负载的性能和功能需求。它旨在保留尽可能多的原始以太网技术,同时引入针对AI和HPC特定需求量身定制的配置文件,尽管这两者相关,但具有不同的要求。
AMD 的 NIC 计划于2024年第四季度开始提供样品,并将于2025年上半年上市销售,大约与UEC 1.0规范发布的时间一致。