AI驱动的设计应用
“精准推荐”的背后,其实是大量具有挑战性的开发工作,是人工智能技术的加持。AI加速器是推荐系统的关键技术,它的速度和能效是预测准确性的关键。
2019年,Meta(前Facebook)呼吁业界在其开发的开源深度学习推荐模型(DLRM)基础上进行推荐系统硬件加速的开发。Neuchips Inc.的开发团队倍受启发,他们随后设计出推荐模型容量更大的DLRM加速器Neuchips RecAccel™-N3000。
RecAccel™-N3000是专为数据中心的推荐模型而设计的,它能做到每焦耳能量实现100万次DLRM推断,举个例子来说,也就是当芯片工作在20W时,每秒可进行2000万次推断。
这款AI加速器是使用新思科技的EDA工具开发的,并将采用台积电7nm工艺制造,样品计划在2022年底完成。
正常来说,这一过程通常需要100多人花3到4年才能完成,但Neuchips仅30人的开发团队在短短18个月内就制造出了400mm2的人工智能芯片。今天的文章中我们将详细介绍他们是如何做到的。
以DLRM为代表的人工智能推荐系统,是利用云计算和大数据方面的最主要的机器学习应用之一。优化过的DLRM可以产生更加有效的推理结果,但却需要平台能够在能耗和存储不大幅增加的情况下提供更多的算力。
Neuchips开创了一种独特的“直连ASIC”开发方法,通过专门构建的特定领域AI加速器以及共同设计的编译器和runtime软件来进行加速。在该公司的异步、异构数据流架构中,用来优化DLRM逻辑架构的每种IP和处理器都是精心定制的。
此外,RecAccel™-N3000还具有以下特点:
160MB片上SRAM
4×64带有ECC的LPDDR5
高达128GB的卡上DRAM
多达16通道的PCI Express®(PCIe®)3.0、4.0和5.0
嵌入式安全硬件信任根模块
基于其独特的特性,DLRM可能难以用通用的AI加速器来加速。Neuchips开发的RecAccel™-N3000具有定制的硬件IP,可以加速Embedding、矩阵乘法和特征交互。Neuchips与新思科技合作,实现了由ARC AI参考设计平台支持的早期硬件/软件协同开发,为芯片开发节省了一年多的时间。
借助该设计平台,Neuchips团队能够在早期开发和验证RecAccel™-N3000特定领域人工智能加速器的PCIe 5.0子系统和LPDDR5子系统,然后将其集成到整个芯片中。新思科技的云端ZeBu® Server 4硬件加速系统用于验证这些子系统以及整个RecAccel™-N3000。
RecAccel™-N3000采用了新思科技的一系列IP模块,包括:
ARC HS48处理器
ARC EV72处理器
用于AMBA、LPDDR5和PCIe的接口IP
具有高级电源管理功能的内存编译器
硬件安全模块,具有信任根,为数据中心的IT设备提供安全保障,确保启动代码的完整性和设备认证
使用经验证的新思科技IP帮助Neuchips团队降低了集成风险,大幅缩短了设计周期。新思科技的应用开发者还支持Neuchips优化其基于云的芯片设计代码、配置IP,并在基于FPGA的ZeBu Server 4系统上进行仿真和验证,这将整个ASIC RTL仿真的时间从两周缩短到了20分钟左右。
助力RecAccel™-N3000开发过程的其他设计和验证工具包括 Design Compiler RTL综合解决方案、VCS®功能验证解决方案、SpyGlass®静态和形式化验证平台、Verdi®自动调试系统、Formality®等效性检查、PrimeTime®静态时序分析工具、PrimePower RTL to signoff功率分析工具以及IC Compiler™ II布局布线解决方案。
推荐系统在数智化世界中的应用逐渐广泛且日益精准, RecAccel™-N3000的出现恰逢其时。通过加速数据中心的推荐,这一高性能、高能效、可扩展的人工智能平台有望帮助各行各业实现个性化的用户体验。通过与新思科技、工研院以及台湾半导体领域的其他公司的密切合作,Neuchips Inc.已经实现了快速上市的目标,在提供有影响力的人工智能解决方案的竞争中取得了先机。