可靠性设计

来源:众壹云 发布日期:2021-07-27 14:46

电路老化正在成为一系列终端市场的强制性设计问题,特别是在高级节点芯片预计将持续数年以上的市场中。一些芯片制造商认为这是一个竞争机会,但其他人不确定我们是否完全了解这些设备将如何老化。

老化是设计流程中被推到更左侧的一长串问题中的最新一个。过去,晶圆厂对设计团队隐藏了许多这些问题。但随着每个新节点的裕度缩小,责任已经转移到设计方面,以在流程的早期解决问题,后端实现软件和签核工具的广泛采用证明了这一点。并且电源和散热问题已经变得如此具有约束力,以至于它们在开发流程中被进一步推进,从架构级别开始。

可靠性是最近浮出水面的问题,虽然它可能还没有那么突出,但它同样重要。如果不加以检查,设备可能无法在其预期的使用寿命内存活,由于许多这些设备预计今天的使用寿命比过去更长,这一问题变得更糟。整个供应链的声誉都处于危险之中。最重要的是,现场更换是昂贵的。而利润率是提高可靠性的传统方法,这使得这些产品在先进节点上缺乏竞争力。

Synopsys 的SLM 战略项目主管 Stephen Crosher 表示:“设计人员长期以来一直在高可靠性设计领域考虑老化问题。“也许他们是为特定应用而设计的,例如汽车或极端压力环境。但这不一定是设计师的主流考虑因素。现在它正在转变为正常实践,您的标准设计师需要意识到这一点。”

有几个因素正在发生变化。Mixel总裁兼首席执行官 Ashraf Takla 表示:“在更先进的节点中,随着速度要求的提高,它已成为一个重要的设计考虑因素。” “需要在设计阶段的早期评估和考虑老化影响,并需要进行验证以确保最终预算满足老化预算。”

解决老化问题的重要性不仅限于安全关键型和任务关键型应用。“我们的几家 IP 供应商,尤其是在较低的工艺技术节点上,都在询问老化模型和 EDA 仿真的老化能力,”西门子 EDA模拟 FastSPICE 产品经理 Greg Curtis 说。“它不再只是汽车。我们在移动通信中看到它,我们在物联网中看到它。公司开始关注其知识产权的老化正在成为一种良好的做法。”

对于很多公司来说,这是不可避免的。“影响寿命的最大可变因素是温度,”赛灵思首席技术营销工程师 Brian Philofsky 说。“在降低的温度下运行电子设备通常会对电路的寿命和老化产生可测量的影响。工程师可以控制设备内的另一个因素是消耗的电流量。由于电迁移,较高的电流消耗会显着缩短使用寿命和其他不良影响。不幸的是,随着计算密度随着每个节点的缩小而增加,现代电路设计变得不一致。同时,降低的电压具有在相同功率包络内增加电流消耗的影响。在过去几年中,趋势是在更高的工作温度下有更高的工作电流,这使得可靠性更具挑战性。”

几何影响

虽然导致老化的潜在机制没有改变,但它们在每个新工艺节点上的重要性变得更加重要。“可靠性与设备尺寸有关,尤其是通道长度,” Cadence 的高级软件架构师 Jushan Xie 说。“随着通道长度变短,效果变得更加明显。通道内的电场可以变强。45nm 及以下的设备必须考虑可靠性。”

这并不意味着旧节点的设计可以安全地忽略这些影响。西门子 EDA 的 AMS 代工厂关系经理 Ahmed Ramadan 表示:“虽然它在先进技术节点(例如 28 纳米及以下)中更为突出,但我们在 40 纳米设备上也看到了它。” “最近,在 130nm 和 180nm 节点上提供技术的专业代工厂开始考虑为其客户提供老化模型。这是因为来自客户的压力。这是他们在正在开发的设计和应用程序类型中看到的需求。”

新的设备技术使其成为一个更大的问题。Synopsys 工程总监 Oliver King 表示:“在 28 纳米工艺中,人们已经意识到了器件过压的一些机制。“盖茨非常薄。他们容易承受压力过大。随着尺寸的不断缩小,设计转向了finFET,这带来了鳍结构等新机制,这使它更加突出。”

一个大问题是,在新的几何图形中,并非所有东西都能同等地缩放。“你正在缩放晶体管的长度和宽度的尺寸,”西门子的斋月说。“但是你无法以同样的速度缩放栅极氧化物。这会给设备增加额外的压力。您无法以相同的速度缩放电压,因为缩放电压不会在设备阈值电压以上留下足够的空间。这会增加设备将面临的压力。”

没有电压缩放的栅极缩放是一个大问题。Synopsys 的 Crosher 说:“如果平均晶体管消耗的电流与较大节点上的旧晶体管消耗的电流相同,那么通过扩展器件密度,您就增加了功率密度。” “这与热量有关,热量可能是这个方程的罪魁祸首。finFET 中的自加热也导致了这一点。从平面到 finFET 的过渡是我们真正开始看到此类压力问题适用于消费产品并扩大对可靠性的关注的地方。他们将自己暴露在这种压力条件下,需要减轻这些压力,以尝试从这些设备中获得任何合理的使用寿命。”

随着同一个封装中包含更多的芯片,这变得更加复杂。过去,与流程相关的问题可以通过足够的数量和时间来解决。但是许多高级封装实现是独一无二的,其中的芯片可能会以不同的速度老化。

“我们看到的最大问题是大量的实施选项,” Fraunhofer IIS 自适应系统工程部高级系统集成组组长兼高效电子部门负责人 Andy Heinig 说。“目前尚不清楚您如何比较这些不同的选择。如果您拥有相似的前几代芯片,则芯片设计会更容易。但现在我们有大量的选择,包括软件包和其中的软件。”

包内可能出错的事情的数量也会增加。“除了翘曲和热失配的可能性之外,还有机械应力,” Ansys产品营销总监 Marc Swinnen 说。“你还必须从芯片 A 到芯片 B 获得电源。即使碰撞失败,你仍然必须通过电源。但是,如果您因此而出现电流尖峰,其他颠簸也可能会失败。”

了解各个部分如何组合在一起需要在整个设计过程中进行更深入的分析。

老化模型

分析从合适的模型开始,对可能无法完全理解的现象进行建模可能会很棘手。“我们实际上并不知道模型是否足够准确,”Synopsys 的 King 说。“最终,模型预测了给定电路的某种老化。只有时间才能证明他们的预测是否正确。这是一个复杂的问题。这不仅仅是我们已经知道的衰老机制。在分析任何给定电路时,您还需要考虑自热效应、工艺变化、蒙特卡罗和其他效应。也许模型是对的,也许不是。”

人们很容易忽视行业的状况,但它必须与某些事情有关。“我们没有看到任何迹象表明这些模型是不合适的,”Mixel 的 Takla 说。“也就是说,代工厂与工具供应商合作,不断调整其老化模型,以提高基于硅测量的准确性。”

虽然像老化这样的技术已经在传统设备上取得了成功,但尚不清楚它们究竟如何应用于这些新效果。“你不能等10年。您必须找到更快获得所需结果的方法,”Cadence 的谢说。“您将使用一些理论或方程式来加速,并且您希望在短时间内获得相当于 10 年的老化时间。校准很重要,并且有关于如何加速衰老的理论。”

业界正试图达成共识。“我与Compact Model Coalition (CMC) 合作已超过 20 年,”Ramadan 说。“大概是 7 年前,我们第一次开始讨论标准老化模型。当时,我们无法针对热载流子注入 (HCI) 或负偏置热不稳定性(NBTI)制定单一标准来满足所有代工厂和设计社区。他们觉得他们必须进行定制和修改以适应他们的流程。”

但这可能会让设备公司束手无策。“我们保证我们的商用设备在符合其操作规范的情况下运行 10 年,”赛灵思的 Philofsky 说。“有两种情况可能需要进一步考虑或分析——设计要求运行寿命超过 10 年,或者设计可能超出运行条件并希望了解对寿命的影响。在这些情况下,我们拥有仿真模型、分析工具和可靠性数据,可用于特定设备的特定操作条件。这可以微调寿命规格,有时允许更有效的工作范围。我们已经这样做了几十年,并将我们的模型发展到对它们具有高度信心的程度。

CMC 内部的工作仍在继续。“还没有,”斋月说。“每一个铸造厂和设计公司都在创造自己的模型。其中一些最初是基于物理的模型。但是,为了能够适应他们当前的过程和目标应用程序,也正在发生许多经验公式。我们对这些模型有多自信?我们应该有足够的信心让他们对设备上将发生的降级量做出很好的估计。”

即使有准确的模型,也有其他不准确的来源。“老化模拟本身的性质使用了很多近似值,”Ramadan 指出。“考虑到您在短时间内运行老化模拟,然后对预期时间进行外推。通过这种外推,有很多近似值。但到目前为止,我们没有听到客户抱怨客户提供的型号在老化方面相差甚远。这些事情需要几年时间来验证。如果你今天真的在运行老化分析,你可能需要五年时间来确保现实生活中发生的事情实际上是正确的。”

不能单独考虑老化。“可变性也有影响,”克罗舍说。“它与增加的栅极密度、制造工艺和更大的可变性密切相关。我们已经有 15 年没有看到它们在该领域成熟了,才能真正了解老化的影响和影响。所以这就是为什么存在依赖和关键需求的原因,在高级设备中,您需要某种形式的嵌入式传感来尝试和管理这些问题。如果您可以实时测量芯片的状况并查看设备如何退化以及它们如何老化,那么他们就能够采取一些缓解措施来尝试和管理它。”

他并不是唯一一个认为这是一个问题的人。Fraunhofer 的 Heinig 指出,随着越来越多的设备被集成到系统和封装中,并且这些设备有望在现场使用更长时间,系统变化是一大挑战。“今天没有工具可以解决这个问题,”他说。“很难验证,因为随着软件更新,产品也会随着时间而改变。”

将老化传感器添加到设计中,与生命周期分析相关联

图 1:将老化传感器添加到设计中,与生命周期分析相关联。资料来源:新思科技

关注重点

数字和模拟将受到不同的影响,设备也会受到频繁变化的影响——在某些情况下,变化不频繁。“任何有大量活动的地方都会对设备老化更加敏感,”Cadence 的高级产品经理 Art Schaldenbrand 说。“对于设备,您可以查看时钟树并查看正在发生的事情。数字设计对延迟变化很敏感。这成为挑战的另一个地方是在模拟设计中。一个例子是在偏差树中。随着偏置晶体管的移动和老化,它可能会加速偏置网络中其他设备的老化。设计中总会有一些不同的元素,你必须以不同的方式看待它们才能分析可靠性。”

采用动态电压和频率缩放的设计可能必须非常小心。“当您尝试优化设备时经常会出现问题,可能会减少供应,”King 说。“它可能与自适应电压方案有关,这是一个问题,您可以将电源供应到多低,同时您的逻辑仍然满足时序要求。可能会有一些设计在检测到需要时推动供应。如果无法纠正性能下降,那么至少优雅的退出可能是一个重要的设计考虑因素。”

敏感性分析是解决问题的一种方法。“假设他们关注某个设计参数,例如放大器的增益,”Ramadan 说。“他们希望了解每个晶体管的敏感度,从而影响该增益的变化。然后他们可以考虑由于老化导致的阈值电压或Ids的变化。通过敏感性分析,他们可以了解与其他设备相比,老化对设计中的特定设备的影响有多大,然后开始对这些设备进行一些保护。”

但是您必须小心考虑所有重要领域。“有一种现象叫做非导电应力,”Cadence 的 Schaldenbrand 说。“考虑一下看门狗或监视器等设备。它可能会闲置多年,如果发生某种情况,您希望它立即采取行动。即使是那些你认为只是坐在那里什么都不做的电路,也承受着压力。由于闲置时发生的老化,它们可能会老化并可能出现故障。”

如何解决问题

在开发的设计、实施和签署阶段,有多种方法可以考虑这些问题。Schaldenbrand 列出了可以执行的三个级别的分析:

监控设备运行的条件。这是通过查看设备尺寸和其他因素来有效监控电场等事物。这些检查称为设备断言。它可能表明设备看到大量电压,因此它是一个敏感的地方,也是一个潜在的问题。

运行分析。您可以进行老化分析,并假设设备将在特定条件下运行一段时间,并在使用寿命结束时具有特定特征。如果你做角点分析,或者蒙特卡罗分析,你也可以同时做老化分析。

逐渐老化。这对工作寿命进行分段近似。通常,设计人员相对经验丰富,并且知道哪些块对这些类型的现象更敏感。您不必到处运行这些测试,因为它们往往相对昂贵。

进程迁移变得昂贵。“对于每一次工艺迁移,比如从 16 纳米到 10 纳米,再到 7 纳米,再到 5 纳米,再到 3 纳米,我们客户的每个工艺节点都需要多三倍的模拟,因为他们需要运行额外的 PVT 角,”说西门子的柯蒂斯。“这给他们的模拟需求带来了巨大的负担,以确保首次硅片成功。”

但即使是这种水平的分析也不能提供确定性。“可靠性是统计的,”谢说。“你需要把它看作是一个蒙特卡罗问题。你有 100 个设备,它们在第一次制造时是相同的。即使您对这些设备施加相同的压力超过 10 年,并测量设备退化,它也会有一个分布。大多数公司并未考虑这种相对老化的分布。”

没有人愿意为最坏的情况设计。“当您嵌入传感器时,您不必预测老化,”King 说。“你可以测量它。您可以查看什么老化并对该电路进行调整,或者突出显示芯片接近故障并决定进入安全状态。这可能使您能够从数据中心拉出故障的计算机,或确保您的自动驾驶汽车的安全运行。”

内置分析可以随着时间的推移而改变。“Xilinx 提供了一个系统监控电路,允许用户监控温度和电压以确保安全操作,”Philofsky 说。“设备的可编程性将使我们能够进一步扩展这种测量,并允许更全面地了解许多固定功能设备的可靠性。”

至少,这意味着可以挤压利润。“在真正专注于拥有良好的老化模型和实施老化模拟流程之前,该行业的趋势是插入大量利润,”Ramadan 说。“他们在桌子上留下了很多东西,他们再也买不起了。通过进行一些老化模拟,他们能够在不承担太多风险的情况下收紧利润以参与市场竞争。他们会留下一些,但不会像以前那样多。”

中央军委内部仍有希望。“早在 2018 年,CMC 就发布了一项标准,支持通过开放建模接口 (OMI) 进行老化仿真流程,”他说。“还有更多的开发可以在该流程中包含其他模型。它已获得不同设计公司的大量采用,最重要的是来自不同的代工厂。该界面与模拟器无关,这意味着代工厂不需要为不同的模拟器创建不同的界面。我们已经看到来自设计公司和代工厂的很多压力,要求提供老化的接口。越来越多的代工厂目前开始采用标准和 OMI 接口。”

结论

虽然了解导致老化的机制,但该行业仍在努力创建提供足够准确性的模型。部分问题是没有足够的时间来收集可用于评估这些模型并对其进行微调的数据。这个过程正在进行中。在完全了解这些模型的准确性之前,设计团队要么必须在桌面上留出一些余量,要么必须将自适应方案纳入他们的设备中,以便能够在出现任何老化问题时缓解这些问题。