AI驱动的设计应用
Synopsys 高级产品营销经理 Ron DiGiuseppe
数据中心工作负载和计算应用程序不断从传统数据中心迁移到超大规模数据中心。根据 Cisco 全球云指数 测算,“到 2021 年,94% 的工作负载和计算实例都将在云数据中心进行处理”(图 1)。虽然许多应用程序由超大规模的公共云运营商托管,但许多关键任务工作负载和计算实例都是由私有超大规模数据中心托管的。预计从 2016 年到 2021 年,私有超大规模数据中心将以 11% 的复合年增长率增长。虽然大型云提供商开发了定制的机架级系统,但私有云提供商通常采用融合基础架构 (CI) 或超融合基础架构 (HCI) 系统来提高效率并降低管理成本。CI 系统和 HCI 系统使私有云提供商能够通过自动化系统配置和控制、虚拟化计算、存储和网络操作,大规模快速部署新系统。向 CI 和 HCI 系统的过渡正在影响半导体片上系统 (SoC) 供应商,促使他们对其服务器处理器、低延迟存储固态硬盘 (SSD) 和网络交换机设计加以优化。对 CI 和 HCI 系统的需求推动了一类新型 SoC 架构的产生,这些架构需要最新的 IP 来执行产业功能,如 PCI Express (PCIe)、DDR5、缓存一致性、NVMExpress (NVMe) SSD 存储和最高带宽以太网网络。
图 1:在传统和云数据中心之间分配 Cisco 工作负载和计算实例1
CI 系统将计算、存储、网络和管理结合到同一套解决方案中,而不是作为不同的数据中心功能提供。功能全面的 CI 和 HCI 系统实现了整体管理的自动化,使 IT 人员能够专心管理应用程序,而不是基础架构。预先集成的机架级系统降低了整体复杂性,以及集成和运营成本。CI 和 HCI 可实现更快的系统部署、更轻松的互操作性和稳定的管理,同时还可减少培训和技术支持的开销。为了满足效率和性能要求,用于构建 CI 和 HCI 系统的 SoC 元件(如设计 IP)正在针对处理、内存性能和连接功能进行优化。
基于服务器的 SSD 可以利用在 PCIe IP 接口上运行的 NVMe 协议直接连接到服务器 CPU,同时还能用作缓存加速器,极其快速地缓存频繁访问的数据或“热”数据。高性能的 NVMe SSD 利用极其高效的输入/输出操作和低读取延迟特性在 PCIe 上运行,不仅提高了服务器的效率而且避免了通过外部存储设备访问数据的必要性。在 PCIe 上运行、以实现服务器加速的 NVMe SSD 非常适合针对数据库查询的私有云的高处理量应用程序。
除了使用基于 PCIe 的 NVMe SSD 进行数据库加速外,CI 和 HCI 系统还使用 PCIe 交换机架构来加速人工智能 (AI) 应用的主机处理器。AI 服务器需要在处理器加速后才能满足深度学习性能的需求。由于图 2 所示基于 PCIe 的交换机架构带来的低延迟特性,将主机处理器连接到 GPU 和基于硬件的加速器可对深度学习算法进行优化。对于需要缓存一致性的应用程序,基于 PCI Express 协议栈构建的加速器缓存一致性互连 (CCIX) 协议可在主机处理器和硬件加速器之间进行高速连接。当前运行速率是 25 Gbps 且很快就提高为 32 Gbps 的 CCIX 通过定义命令,要求在更新内存时即更新系统中的所有组件,确保系统实现单个内存空间,从而减少复制的需求。CCIX 支持交换机拓扑、直连和网格连接。
图 2:基于 PCIe 交换机架构的多主机 AI 服务器
经过融合的计算、存储和网络系统需要性能最高的 DRAM 解决方案才能在主机处理器上运行虚拟应用程序。整个行业正在从 DDR4 DRAM 过渡到新一代 DDR5 和 HBM2 DRAM。DDR5 解决方案能够实现高达 4800 Mbps 的数据运行速率,从而能够和每一个高达 80 位宽的通道的多个双列直插式存储模块 (DIMM) 进行连接,从而加快了深度学习等功能的工作负载速度。另外,DDR5 还具有可靠性、可用性和可维护性 (RAS) 功能,包括内联或边带纠错码 (ECC)、奇偶校验和数据循环冗余校验 (CRC),旨在缩短系统停机时间。与 DDR5/4 DRAM 相比,HBM2 是一种高效的解决方案,具有很高的带宽且每比特数据的存取功耗最低。SoC 架构师会针对高带宽应用选择 HBM2 存储器,针对大容量应用选择 DDR5,或者针对需要高带宽 HBM2 和大容量 DDR DRAM 的 AI 加速等应用结合使用这两种存储器类型。
传统的企业数据中心采用基于树的网络拓扑结构,其中包含交换式以太网和 VLAN 标记。这种拓扑结构仅定义了一条连接网络的路径,通常用于处理服务器之间的南北数据流量。私有云数据中心使用的 CI 和 HCI 系统采用扁平的双层叶脊架构,具有25G、50G、100G 或 200G 以太网链路,使虚拟化服务器能够在许多虚拟机之间分配工作流。最新 400G 八通道小型可插拔 (OSFP) 多模收发器(采用 8 条通道 56G PAM-4 PHY IP)通过提供多个 56G 叶脊链路,助力数据中心实现高达 400G 的以太网网络拓扑。业界正计划向 400G 以太网系统所采用的 112G PAM-4 以太网链路过渡,并且期待能够过渡到 800G 以太网应用。
CI 和 HCI 系统可以使用软件定义网络 (SDN) 轻松管理网络,将控制流与数据路径分离,从而进一步简化数据中心的网络。OpenFlow 等通用软件栈提供了全行业一致的软件环境来控制 CI 和 HCI 系统。SoC 设计人员并非拥有专利软件堆栈,而是在整个私有云数据中心内运行由 OpenFlow 管理的数据,使用户可以非常轻松地(虚拟)配置网络,无需实际访问网络的硬件设备。
CI 和 HCI 系统将超大规模数据中心的三个核心方面(计算、存储和网络)整合到同一套解决方案当中。它们取代了各种各样经常断开连接的系统和管理工具。随着企业数据中心不断向私有云过渡,服务器和数据中心开始利用虚拟化进行整合,支持将越来越多的工作负载放在数量更少的物理服务器上运行。利用最新的行业 IP 架构和接口协议进行系统融合,从而对低延迟数据库查询和深度学习等应用加以优化。CI 和 HCI 系统的硬件在进行集成时使用全新的一套优化处理器、高级存储器技术 IP、IP 接口、NVMe SSD 和缓存一致性加速器。
为 CI 和 HCI 系统集成处理器 IP、高级存储器 IP、连接 IP、NVMe 存储以及缓存一致性加速器时,SoC 设计人员需要考虑成本、功耗、性能和开发进度等因素的技术权衡问题。图 3 展示了一个高级 AI 服务器 SoC,其中包含主机处理器、安全算法、系统内存、连接和加速器。
图 3: AI 加速/服务器 SoC
Synopsys 提供种类齐全、通过硅验证的优质 IP 产品组合,帮助设计人员开发出面向云计算应用(支持 CI 和 HCI 系统)的 SoC。Synopsys DesignWare® 接口 IP、处理器 IP 和基础 IP 在高性能、低延迟和低功耗方面都进行了优化,同时支持 16 nm 至 7 nm FinFET 的先进处理技术。
1 2018 年 2 月 Cisco 全球云指数