RISC-V HPC内核从5nm迁移到4nm,1个月还是2天?

Manas Ranjan Raiguru

Jan 30, 2024 / 1 min read

5nm及以下的芯片是推动当今高端消费产品和数据中心技术的强大引擎。随着消费设备越做越小、功能越来越强大,芯片的复杂性也在急剧增加。与此同时,半导体行业正面临技术人才短缺的困境。因此,半导体公司想要尽快满足市场需求所面临的压力是巨大的。

 

在提高效率和生产力方面,人工智能(AI)是破题关键。AI在协助开发者优化设计以满足严苛的PPA目标方面相当成功。全球算力需求持续超出摩尔定律预测的增长速度,半导体公司亟需探寻如何有效地利用仍然可行的大规模设计,并将设计迁移到具有可用产能的相似制程上,同时充分发挥新制程的潜在性能和低功耗特性。

 

此类设计迁移项目通常作为全新项目来实施,需要的时间和开发资源与原项目相当。投入到项目中的时间和工作量会影响产品的上市时间和成本,进而影响此类产品和业务部署的可行性。 但AI可以让芯片设计迁移工作变得更加精简、更具成本效益。

 

2020年,新思科技推出DSO.ai。这项技术已被主流半导体公司用来更大限度地提高设计效率。最新一代的DSO.ai包括新的AI内核引擎,可将周转时间(TAT)缩短一半,并将设计质量(QoR)提升多达20%。

 

自DSO.ai推出以来,其AI引擎不断学习,并将所学的知识应用于初始设计优化和衍生设计等多个方面。在找寻满足目标规格的最佳优化策略时,AI引擎不是“冷”启动,而是“热”启动。下一代DSO.ai可以将这种学习提升到一个新的水平,并将“热”启动功能应用于衍生制程以实现设计迁移。

 

案例分析

我们先来看一个制程迁移的案例:RISC-V高性能计算(HPC)内核从5nm迁移到4nm的实际运用情况。

 

此案例研究中的5nm RISC-V HPC内核为单个“大内核”,拥有500,000个面向数据中心应用的实例。5nm设计的原始目标规格包括性能至少达到1.95GHz,而功耗不超过30mW,并且内核面积被指定为426um x 255um。新思科技Fusion Compiler RTL-to-GDSII实现解决方案采用开箱即用的RISC-V参考流程,能够满足面积和功耗要求,但性能有些许欠缺,仅为1.75Ghz。缩小这一性能差距预计需要两名专业开发者一个月的努力。

 

让我们先了解一下设计空间优化技术是如何从“冷启动”开始应用以达到优化目标的。在此示例中,我们允许该解决方案优化总共25个排列组合,包括来自RISC-V HPC工具箱的排列组合,以及时序、合法化引擎和功耗策略。考虑到排列组合的变化,理论上的搜索空间达到了1亿的规模,也就是说,这个规模的搜索空间需要1亿个Fusion Compiler作业才能实现覆盖。然而,通过调用一个DSO.ai AI驱动的优化主机,我们能够将所需的Fusion Compiler作业数量减少到在3次迭代中并行运行仅30个作业。该解决方案无需人工干预,两天内即可完成任务。于是,在指定的面积参数范围内,不仅可以满足1.95GHz的目标性能规格,而且功耗(27.9mW)优于预期。

 

现在,我们来看一看如何应用从5nm“冷”启动中学到的知识,在“热”启动场景中将设计迁移到4nm。从5nm到4nm,尺寸需要缩小10%,以满足404um x 242um的面积要求。性能目标从1.95GHz提高到2.1GHz,同时功耗要求保持在30mW。排列组合变化的数量保持不变,因此搜索空间的规模仍为1亿。通过使用5nm设计中的训练数据库,计算配置从3次迭代中并行运行30个Fusion Compiler作业减少到单次迭代中运行15个Fusion Compiler作业,作业数量减少到了“冷”启动的六分之一。在无需人工干预的情况下,该解决方案能够在一天内完成任务。最终结果是在缩小的目标面积内,性能大幅提升至2.15GHz,功耗降至29.4mW。

 

 

在这个市场窗口紧缩、设计日益复杂、技术人才短缺的时代,开发团队能够借助人工智能将设计高效迁移到更小尺寸,进而充分利用经验证的设计并更大限度地提高生产力。

 

Continue Reading