AI驱动的设计应用
在边缘计算、chiplet、人工智能与机器学习、CaaS(计算即服务)以及可持续性需求等其他趋势的推动下,HPC(高性能计算)正在变得日益重要。
无论是在严格定义方面,还是在更为重要的应用领域和使用方法方面,HPC概念在过去几年中均得到了发展。如今,HPC不再局限于大型数据中心、研究实验室和超级计算机,而是被广泛应用在各种行业中,如产品设计、财务建模、天气预报等。它为我们所依赖并乐享的居家、办公和汽车体验带来了更加强大的计算能力,让各种应用更加贴近我们的日常生活。
HPC得以发展壮大的根本原因可以归结为一个词:数据,更具体的来说是因为人们需要比以往更快地处理、分析和传输各种数据。不管是我们居家时刷短视频的习惯,还是日益互联的汽车,亦或是我们在完成工作、监测健康状况或管理财务时所需的大量信息,这些过程中都会不断有数据产生、提供和消费,而HPC便是为这种无尽的数据循环问题而生。
随着人们对HPC需求的不断增加,对更快、更强、更高效的半导体芯片的需求也在同步增长。事实上,尽管芯片业务总体上有起有伏,但在HPC领域却表现出一贯的持续增长。
作为HPC背后关键半导体技术的推动者,新思科技对HPC不断变化的需求和新的用途有着全面的了解。那么,2023年HPC的前景如何呢?
毫无疑问,边缘计算是从总体上改变计算环境的一个关键趋势,但它似乎与传统HPC恰恰相反。HPC往往与大型集中式计算和存储资源相关联,而这些资源实际上是远程云计算的主干。相比之下,边缘计算则专注于在网络边缘或附近处理数据,而不是将数据发送回中心位置。这样一来,它便可以提供较低的延迟,并且在许多情况下具有更安全的操作特性。
但是,这两个领域正在走向融合:边缘计算常常也是HPC,只是可能位于传统数据中心之外的其他地方。导致出现这种情况的原因是数据的大爆炸。在万物智能需求的推动下,边缘产生的数据量在数量和复杂性方面呈指数级增长(这其中还包括大量的物联网(IoT)设备)。边缘计算的重要性主要体现在延迟和内容交付上,因为不断往返于云端/集中化数据中心无法满足所需的响应时间。在某些情况下,文件可能太大,无法发送到云端进行处理甚至存储。 这其中可能包括城市交通管理和相关的自动驾驶系统、精准医疗、欺诈检测、商业智能、智慧城市开发等。
我们认为,边缘计算将对HPC系统供应商、云服务提供商、网络供应商和存储供应商产生重大影响,因为这些组织希望将远程HPC功能与本地生成和处理的数据策略结合在一起。在此过程中,我们预计还会看到HPC的物理足迹从集中式交付模型扩展到更加分散的分布式模型,其中包含的一些位置靠近那些会生成大量数据的边缘位置。
从芯片设计的角度来看,尽管边缘计算仍要求具有出色的功耗、性能和面积(PPA),但它还要兼顾另一个关键优先事项:减少这些设备在处理和传输数据时的延迟。设计策略必须优先考虑这类芯片中的数据传输速度和效率,例如下面小芯片架构中讨论的那些芯片。当然,芯片设计解决方案必须考虑PPA权衡方案的各个方面,并提供一些高级功能来针对任何给定的应用需求设计和分析优化的芯片。这其中包括强大的仿真和验证工具、功耗和热分析功能、设计布局的智能实施,以及一系列关键功能和接口的认证IP模块。未来,从数据中心到由电池供电的物联网设备,市场对能够降低功耗的设计解决方案的需求会不断增加。
HPC的最新趋势之一是Multi-Die系统的使用。由于器件的物理特性和制造传统单体架构芯片所面临的经济挑战,摩尔定律的加倍效应已经开始放缓。为了应对这一情况,Multi-Die系统得到了高性能计算领域的青睐。简单来说,传统的单个片上系统(SoC)变得太大,生产成本太高,无法进行先进设计,而且收益风险也会随着设计尺寸而增加。作为扩展摩尔定律PPA优势的一种可行方式,Multi-Die方案非常具有吸引力。该方案可以提供更强大的处理能力,而又无需增加芯片面积或功耗。它还支持异质混合和匹配方法,可最大限度实现目标应用优化的工艺技术。将SoC组件分解,分别制造,然后将这些不同的功能汇集到单个封装中,不仅可以减少浪费,同时还提供一种方法来快速打造具有优化系统功耗和性能的新产品型号。
虽然Multi-Die系统已经成为HPC发展的基本推动力,但设计方法必须不断发展以应对新的挑战。例如,支持高带宽、低延迟、低功耗和无差错工作的die-to-die接口对于快速、可靠的数据传输至关重要。而要处理这种Multi-Die方案中的异构集成、互连和封装问题,就需要增强的工具、方法和IP。另外,为了推动创新和设计效率达到新水平,还必须具备先进封装和硅光子学等领域的专业知识和技术。
另一个贯穿HPC各个方面的重要趋势是人工智能(AI)和机器学习(ML)的兴起。该领域与HPC存在着共生关系。
一方面,高性能计算机需要处理AI工作负载。在当今这个自动化数据密集的世界中,AI工作负载可谓无处不在。对于HPC供应商来说,这是一个快速增长的领域,几乎每个有计算需求的地方都存在新的机遇。但是,为了支持AI工作负载,计算平台要求底层硬件不断提高性能,这就给芯片开发者带来了持续创新的压力。在这里,人工智能本身也发挥着作用。现在,借助AI设计工具,开发者可以优化繁琐或过于详尽的任务(经过训练的AI算法可以很好地接手这些任务),据此处理前沿芯片设计中的复杂性和规模性问题。这不仅提高了整体开发效率,还让开发者可以专注于更加注重创新的工作。
另一方面,HPC依赖人工智能本身来高效、安全地运行数据中心。无论是监控存储、服务器和网络设备的健康状况与安全性,确保配置正确,预测设备故障,还是筛查数据来排查恶意软件,人工智能为HPC用户提供了新的洞察力,并将预测性维护提升到新水平。人工智能还可用于通过优化供暖和冷却系统来降低用电量和提高效率,这些是数据中心运营商最关心的关键可持续性问题(下文会做更深入的介绍)。
随着业务各个方面所需的计算能力大幅增长,各家公司都在积极探索“即服务”模式的价值,以满足其周期性计算需求。“HPC即服务”(HPCaaS)便应运而生。除了峰值工作负载效率外,此类模式还为那些内部不具备相关知识、资源或基础设施来通过云技术使用HPC的公司提供相关服务和支持。HPCaaS使得HPC易于部署和扩展,并且从成本的角度更加可预测。
芯片设计领域对该模式表现出了极大的兴趣,希望能够通过它来获取执行数据密集型芯片设计任务所需的计算资源。由多核架构组成的复杂HPC芯片设计便是一个主要例证。这类设计在设计和开发期间要求具备更高的计算、存储和处理能力,并且通常需要并行处理大量数据,以便实现设计与验证的融合。这种托管模式正在为大型半导体公司和开发高性能的HPC芯片的初创公司所使用。这是一种有趣的共生关系:HPC的推动者也依赖于HPC能力。
与其他HPCaaS企业用例一样,基于云的EDA在芯片开发过程中提供了可扩展性、灵活性、效率和安全性。各家公司可以根据具体的使用需求、高峰设计时间和分布式工作结构来调整HPC的使用,而无需员工具备专门的资源管理专业知识。所有这些优势都是建立在性能吞吐量优势的基础之上,而这正是EDA工具的一个关键需求。
随着HPC的快速发展,我们在生活中诸多方面受益匪浅,但与此同时我们也为之付出了一些代价,即这些高能耗系统造成的环境影响。一些专家预测,到2030年,仅数据中心的用电量就将占到全球总用电量的3%至7%。在地方层面上,由于用水和用电量问题,许多数据中心都遭到人们强烈抵制,甚至出现难以获得新施工许可的情况。这些大型计算平台的供电和冷却问题已经成为可持续发展的讨论热点,电源使用效率(PUE)和碳排放等指标已经成了大家首要考虑的问题。
通过可再生能源(水力、太阳能、风能)为数据中心供电的根本性转变正逐渐成为大家的共识。一些新的方法同样具有巨大的潜力,例如沉浸冷却或液冷技术(包括水下数据中心),将数据中心消耗的能源和水重新分配并回收用于其他用途(如楼宇供暖),以及在供应链生态系统中使用更环保的组件、材料和制造方法。前文所述的HPCaaS模式本质上也是一种更高效地利用资源的方法。
对于新思科技而言,我们能做的是在芯片级别提高能耗和散热效率。例如,通过使用先进的低功耗设计方法和功率优化的IP核,可以更好地对HPC芯片设计进行功耗优化,从而降低芯片和整个系统的总体能耗。
小芯片趋势为降低功耗提供了另一个重要的潜在途径。对功耗更为敏感的数据传输方法(例如高带宽内存(HBM))也可以让芯片及其支持的系统更加节能。CXL、UCIe和OCP等标准和开源工作也在助力这些目标的实现。
总之,HPC行业正在不断发展壮大,每天都在为我们的生活带来新的气象。但是,这种发展是一把双刃剑,因为它在为数据创建和消费方面带来持续、高效增长的同时,也可能对环境造成有害的影响。应对这些挑战的解决方案还在不断改进中,新思科技期待发挥自己的作用,让HPC保持可持续、可扩展的发展道路。