確保多晶粒系統的健康與可靠度

本文原文由Guy Cortez, Manuel Mota, Randy Fish, Yervant Zorian撰寫

英文原文：Ensuring the Health and Reliability of Multi-Die Systems

從快速產生聊天機器人回應的生成式AI工具，到支援金融預測和天氣模型的高效能計算(HPC)應用，我們顯然正處在對處理能力需求的全新領域。考慮到這些計算密集型工作負載，單晶片系統(SoCs)已無法滿足當今的處理需求。然而，工程的獨創性已經回應了這個需求－多晶粒(multi-die)系統的問世將系統功率和效能提升到了新的水平，而此種異質整合的傑作，也帶來了良率優勢並加速其他系統功能。

有這麼多的應用需求仰賴多晶粒系統，那麼要如何確保它們在整個生命週期中的健康和可靠度呢？

晶片測試對於任何矽晶設計都是不可或缺的一環。特別是多晶粒系統，更需要從晶片到系統層級進行全面的測試，包括將個別元件連接在一起的所有互連接口，例如通用小晶片互連(Universal Chiplet Interconnect Express, UCIe)。在此篇部落格文章中，我們將進一步地探討多晶粒系統面臨的獨特問題，以及測試和晶片生命週期管理如何確保這些複雜的設計能夠如預期般可靠地運行。您也可以藉由註冊觀看新思科技「多晶粒系統成功的必要條件」線上研討會的系列影片，來獲得更多的見解。此系列共有六部影片，涵蓋多晶粒系統的趨勢和挑戰、早期架構設計、協同設計(co-design)和系統分析、晶粒到晶粒(die-to-die)連接性、驗證以及系統健康等主題。

從晶粒到系統的全面晶片測試

許多因素都可能會影響晶片的效能。溫度、老化(aging)和劣化(degradation)只是其中幾項原因。而多晶粒系統的風險更高，因為一個晶粒失效就可能導致整個系統失效—這是一個代價高昂的結果。在晶粒層級篩選出缺陷是很好的第一步。每個開發的晶粒都將經歷自己的測試過程，以確保非常低的百萬分之一缺陷率(DPPM)。測試自動化流程可針對設備的數位、記憶體和類比部分提供測試和診斷功能。此流程所面臨的挑戰在於，如何在所需的測試向量(pattern)數量與相關成本之間取得平衡，以及最終獲得理想結果的需求。

儘管檢查每個晶粒都很重要，在系統層級評估系統也同樣關鍵。多晶粒系統可以將來自不同製程節點且不同用途的晶粒(die)或小晶片(chiplets)整合在一起。因此，一個系統可能包含在不同溫度下運作或不同散熱程度的晶粒。另外，晶粒之間的電磁干擾(electromagnetic interference)以及電子遷移(electromigration)也可能成為問題。

多晶粒系統利用完整的預組裝(pre-assembly)測試步驟，以找出已知的良好晶粒(known good dies, KGD)。內建於設計區塊中的先進可測試性設計(DFT)功能可以對這些晶粒進行評估。一旦個別晶粒經過測試，並且在需要時進行修復，設計即可被組裝和鍵合(bond)。在記憶和邏輯晶粒部分或完全鍵合後，就可以進行互連測試。

增強小晶片互連的功耗和效能

晶粒到晶粒的介面使晶粒能夠並排放置，或者以2.5D或3D封裝方式堆疊，以實現更高密度。當這些介面作為提供兩個晶粒之間資料介面的功能區塊，以提供高頻寬、高能源效率(power efficiency)和低延遲時，就可以進一步提升系統的效能。

晶粒到晶粒的連接通常以UCIe等高速介面為基礎，而UCIe正逐步成為多晶粒系統的首選互連標準。UCIe為業界唯一具備完整晶粒到晶粒介面工具套件的標準。其適用於2D和2.5D封裝(未來也適用於3D封裝)，支持目前8 Gbps/per pin到16 Gbps/per pin的大多數設計，非常適合從網路到超大規模資料中心等高頻寬應用。對於3D設計而言，由於互連較短，因此互連層級的風險更高，也使得矽穿孔(through-silicon vias (TSVs)更加脆弱。

多晶粒系統設計人員需要避免的是互連中的固定型故障(stuck-at fault) 、開路(open)或短路，同時確保從時序和電壓方面的適當行為。由於涉及非常高速的訊號，訊號完整性是指示晶粒之間資料共享效能的一個重要參數。因此，測量和監控以檢測訊號衰減程度是至關重要的。UCIe確實要求在PHY的兩側之間必須具備冗餘通道(redundant lanes)，以利透過額外通道進行修復。UCIe系統中的所有晶粒必須透過UCIe通道進行存取、測試和修復，如此一來才能監控晶粒中正在發生的問題。

後鍵合(post-bond)測試可以解決需要切換互連通道的互連層級問題。此外，演算法測試亦可用於評估互連缺陷。2.5D和3D互連擁有不同的演算法集合，這些測試是以互連的缺陷性為基礎。而故障模型將決定要採用的演算法測試。

系統生命週期的智慧監控與分析

多晶粒系統具有微小的微凸塊(micro bumps)，其彼此之間距離非常接近，因此幾乎不可能透過物理探針(physical probing)進行測試。例如，對於UCIe而言，微凸塊之間的距離為25到55微米，而探針距離通常為90微米。更好的解決方案是通過內建自我測試(BIST)進行電子探測。BIST可以檢測到需要採取改正措施的軟性錯誤或硬性錯誤。另外，也可以使用在預組裝階段整合的專用晶圓測試焊墊(wafer-based testing pads)。

當系統處於開發階段以及現場使用當中時，在晶粒上整合感測器和監控器以評估溫度、電壓、老化和劣化等各種參數的晶片生命週期管理(SLM)方法變得非常有用。整合了分析智慧的SLM IP技術，可以將從設備感測器和監控器收集到的大量資料，轉化為用於系統優化的可行見解。

SLM 技術如何識別熱能(thermal)問題，對於單顆晶粒和多晶粒系統而言都是重要的考慮因素。在沒有實際工作負載的情況下，這些問題很能在設計階段進行評估。如果再考量到2.5D或3D架構的複雜性，就更難以確定最終設計的熱特性(thermal profile)。這就是SLM技術可以發揮作用的情況。策略性地放置於晶粒上的監控器可以開啟分析的大門，對晶粒的熱特性提供更深入的洞察，並指出需要調整位置以改善散熱問題之處。同樣地，對熱效應資訊的瞭解更多，可能會讓我們決定降低系統高頻寬記憶體(HBM)元件的資料傳輸速率。或者，也可能透過軟體來減緩散熱的方法。有了監控器提供的資料，設計人員即可分析，從而決定最佳的修正方案。

SLM 技術還提供了可追溯性，無論終端產品在生命週期中何時出現問題，都能追溯到問題的根本原因。例如，如果在測試製造過程的任何時間點偵測了良率偏差(yield excursion)，則可以判斷問題是否源於特定晶圓或晶粒、橫跨某個特定時間段內製造的每一個晶圓或晶粒，或是來自晶圓廠，這一項能力至關重要，對於封裝成本極高的多晶粒系統尤其如此。問題發現得越快，就能越快速地進入市場(go to market)並降低成本。一個良好的 SLM 解決方案應該能夠在幾分鐘內確定根本原因，而不是像手動方法般，動輒需要幾天甚至幾周的時間。

可追溯性還包含已部署於現場使用的終端產品開始出現意外且潛在災難性故障的情況，並可能需要進行產品召回。這種退貨授權(RMA)案例可以利用 SLM 技術和整個測試生態系統來追溯其生產製作過程，以識別根本原因及現場可能仍會出現相同行為的「類似」設備，使產品擁有者能夠主動召回設備以防止故障發生，或者調整設備的操作電壓或頻率，以延長其使用壽命。

測試的最後階段在於堆疊(stack)本身。在此，「已知良好系統(known good system)」是關鍵詞，因為測試團隊的目標是確定他們的多晶粒系統是否能夠正常運作，並找到在需要時監控、分析和修復問題的方法。IEEE Std 1838-2019 提供了模組化測試接入架構，可以對鄰近堆疊晶粒之間的晶粒和互連層進行測試。

對於堆疊結構而言，有些測試需要在下游進行，而更多的智慧型測試則留在流程的上游。例如，在晶粒層級進行高溫評估是不切實際的。相反地，在堆疊完成後進行多晶粒系統溫度測試效果最佳，而在此階段發現的故障可以根據其位置進行修復。此外，在晶圓層級進行溫度測試也是可行的，儘管其測試成本可能相對昂貴，然而高階系統的設計人員可能會選擇進行這些測試。監控和收集這些重要資料的能力，使設計、製造和測試團隊有能力得以做出如何達到最佳品質結果的決策。

自動化與智慧推動更高品質的多晶粒系統

為了解決我們所討論的需求，並推動下一波半導體創新浪潮，新思科技提供了可加速單一封裝異質整合的多晶粒解決方案。此一全方位解決方案涵蓋了測試、診斷、修復、校正以及改進系統運行指標等要素，並橫跨系統生命週期各個階段。針對設計中(in-design)、拉升改善中(in-ramp)、生產中(in-production)及現場(in-field)優化的可追溯性和分析，可以進一步提升良率、品質和可靠度，同時降低成本。此外，我們的人工智慧驅動晶片設計套件Synopsys.ai具備業界第一款應用於半導體測試的自動化 AI 工具。Synopsys TSO.ai 可在複雜設計中優化測試程式生成，以較少的測試向量實現最大的缺陷覆蓋率。

為了滿足計算密集型工作負載需求，晶片設計人員正在尋求實現高頻寬和高效能，而多晶粒系統也因此迅速發展成為主流。自動化測試流程和智慧分析則可以提高這些系統的品質和可靠度。從生成式人工智慧到高效能計算，這對於改善我們世界的各種應用而言都是個好消息。