Nature子刊:港大等首提下一代AI硬件系统,能耗锐减57.2%

2025-11-17 发布 · 浏览17次 · 点赞0次 · 收藏0次

【导读】港大、港科大与西电团队登上Nature子刊,破解AI芯片核心难题。他们攻克存算一体架构中模数转换器(ADC)这个占能耗87%的「黑洞」,利用忆阻器可编程特性打造能自适应数据分布的「智能标尺」,使AI芯片功耗锐减57.2%,面积缩小30.7%,为下一代高效AI硬件系统开辟新路。

在AI算力需求呈指数级暴涨的今天,为了突破算力瓶颈,「存算一体」(CIM)架构被视为AI推理芯片的未来。

其利用基本物理定律实现计算,相比于GPU有显著的能效优势,但一个关键的「能耗黑洞」——模数转换器(ADC)——却严重阻碍了其发展。

在先进的存算一体芯片中,ADC竟吞噬了高达87.8%的能耗和75.2%的面积,极大压制了存算一体AI芯片本应有的巨大潜力。

近日,来自香港大学、香港科技大学与西安电子科技大学的由刘正午、张薇、李灿、黄毅领导的联合研究团队正面攻克了这一难题,论文第一作者洪海桥在国际上首次提出了一种基于忆阻器的硬件原生自适应ADC架构。


论文链接:https://www.nature.com/articles/s41467-025-65233-w

论文代码:https://github.com/MIKEHHQ/ReADC

该设计创新性地利用忆阻器的可编程特性,让ADC这把「标尺」变得智能且高效,将存算一体芯片中ADC模块的能耗开销锐减57.2%,面积降低30.7%,为下一代高效AI硬件系统铺平了道路。

模拟域存算一体的优势与困局

要理解这项突破的意义,我们首先要明白AI芯片为什么「渴求」存算一体。

在传统的冯·诺依曼架构(目前我们电脑和手机都在使用)中,计算单元(CPU/GPU)和存储单元(内存)是分离的。AI进行计算时,需要消耗巨量能量和时间,在两个单元之间来回搬运数据。这就是所谓的「冯·诺依曼瓶颈」,也是AI计算中心能耗高昂且难以在终端部署的根本原因。

「存算一体」(CIM)架构因此诞生。

顾名思义,它在存储器(比如忆阻器)内部直接进行计算,近乎彻底地消除了数据搬运。

其中,模拟域存算一体被认为极具潜力,它利用忆阻器等新型器件阵列,通过物理定律(如基尔霍夫电流定律)「瞬间」完成AI最核心的矩阵乘加运算,能效极高。

但问题随之而来:计算在模拟世界连续的电压或电流中完成,而后续处理单元工作在数字世界(0和1)。连接这两个世界的「翻译官」——模数转换器(ADC)——成为了新的瓶颈。

这个「翻译官」的工作效率极低。根据论文中的数据,在一些先进的存算一体芯片中,ADC的能耗占比高达87.8%,面积占比高达75.2%,几乎压制了存算一体本应具备的巨大能效优势,成为了阻碍AI芯片落地的关键技术难点。

传统的ADC为何如此「臃肿」?

硬件笨重传统ADC需要一个「标尺」来测量模拟电压。这把「标尺」通常由大量的电容器(Capacitor)或电阻器(Resistor)阵列构成,它们像尺子上的刻度。所需刻度越多(即精度越高),能区分的电压就越多,但这个阵列就越庞大,能耗和面积也随之激增。

标尺僵化更糟糕的是,这把「标尺」通常是固定且均匀的(例如0, 1, 2, 3...)。但AI模型中不同网络层的计算结果(模拟电压)分布往往是非均匀的,如下图所示,有的数据集中在中间,有的则是多峰或者偏向两端。用一把均匀的尺子去测量一堆分布不均的数据,会造成巨大的精度损失。


(a) 存算一体阵列中不同层(Conv 1, 2, 3)的数据分布各不相同;(b) CIM系统流程;(c) ADC(粉色)在CIM系统中占据了绝大多数的能耗(87.8%)和面积(75.2%)。

为了弥补这种损失,设计师又被迫使用更高精度的ADC(更密的刻度),导致硬件开销和延迟进一步恶化,陷入了死循环。

用忆阻器打造一把可编程的「智能标尺」

面对这一困局,港大、港科大与西电的联合团队提出了一个颠覆性的解决方案:为什么不直接用忆阻器来打造这把「标尺」呢?

忆阻器(Memristor)是一种神奇的可编程非易失器件,它的电阻值不是固定的,而是可以通过施加电压来连续调控,并且在断电后仍能「记住」这个电阻值。

研究团队基于忆阻器设计了一种全新的「量化单元」(Q-cell),它替代了传统ADC中庞大的电阻/电容阵列,这把新「标尺」的核心优势在于——它是完全可编程的,并且具备低能耗和紧凑的面积。


(a) 论文提出的基于忆阻器(M1, M2)的Q-cell核心电路;(c, d) 多个Q-cell和一个解码器(Decoder)共同构成一个完整的ADC。

通过改变Q-cell中忆阻器的电阻,研究人员可以随心所欲地设定「标尺」上每一个「刻度」的位置。这带来了两大革命性优势:

硬件原生自适应:标尺不再是僵化的。研究团队利用Lloyd-Max算法,先分析AI模型中每一层的数据到底长什么样,然后「反推出」一套最优的「刻度」方案,最后通过编程忆阻器,将这把定制的「标尺」在硬件上复现出来。这使得ADC能完美贴合数据分布,极大降低了量化误差,显著提高存算一体芯片推理精度。

极致的硬件效率:忆阻器本身就是纳米级的存储器件,用它来构建ADC,其能耗和面积相比传统方案实现了数量级的降低。

亮点一:ADC自身能效暴涨,面积剧减

团队将忆阻器ADC与在ISSCC/VLSI等顶会发表的先进ADC设计进行了全方位对比。结果显示,在5-bit精度下,忆阻器ADC的能效提升了15.1倍,而面积缩小了12.9倍。


(a) 忆阻器ADC(红星)与SOTA ADC在能效-面积图上的对比,(b) 忆阻器ADC的能耗与面积构成分析。

亮点二:系统能耗「黑洞」被填平

当把这款高效的忆阻器ADC集成回存算一体AI芯片中时,其系统级优势立刻显现。

以VGG8网络为例,ADC模块在系统总能耗中的占比从惊人的79.8%锐减至22.5%;在总面积中的占比也从47.6%压缩至16.9%,这也就是说整个存算一体芯片因ADC的突破,功耗和面积分别净降低了57.2%和30.7%。

这意味着ADC这个最大的「能耗黑洞」被彻底攻克,存算一体芯片终于可以释放其应有的超高能效潜力。


系统级能耗与面积对比。集成忆阻器ADC后,ADC的开销被极大压缩,系统总能耗和总面积显著降低。

亮点三:变Bug为Feature,独创「超分辨率」策略

模拟器件(包括忆阻器)天然存在「器件差异性」(Variation),即便是同一批生产的两个器件,其特性也不可能100%相同,在写入读取时还会有波动或误差。这通常被视为硬件的「缺陷」,会导致精度下降。

在复杂的ResNet18网络测试中,团队也观察到了这一现象:器件差异导致ADC标尺轻微错位,使得网络准确率有所下降。

但团队独创性地提出了一种「超分辨率」(Super-resolution)策略,巧妙地将这个「缺陷」转化为了「优势」。

他们的方法是同时使用两个忆阻器ADC来量化同一个信号。由于器件差异,这两把「标尺」的刻度会有些许错位。当一个输入电压刚好落在「刻度」边缘时,两个ADC可能会给出不同的数字(比如一个判为「4」,一个判为「5」)。

研究团队利用这种「分歧」来反向推断——这说明信号的真实值恰好处在「4」和「5」的边界上。通过这种不同于求取平均值的方式,他们凭空创造出了一个更精细的「刻度」,实现了超越单个ADC的「超分辨率」。

结果令人振奋:在使用该策略后,ResNet18的推理准确率不仅完全恢复(图6e中第四组相比于第二组数据),甚至在4-bit等配置下反超了没有器件差异的理想软件基准! 这一「变Bug为Feature」的思路,为解决模拟计算的硬件缺陷提供了全新的视角。


自适应量化与超分辨率策略的性能。(a, b) 自适应量化(红色)相比均匀量化(蓝色)能更好地拟合数据分布,均方误差(MSE)从14.99降至3.10;(c, e) 在VGG8和ResNet18网络上,自适应量化均大幅优于均匀量化;(d, f) 独创的超分辨率(SR)策略成功克服了器件差异带来的精度下降。

亮点四:全面的硬件实验验证

为了确保研究的可靠性,团队并不仅仅停留在仿真。他们实际制造了8×8的忆阻器阵列,并进行了全面的实验表征。

实验证明,这些器件具有高度一致的可编程性(标准差仅2.73 µS)和稳定性(1000次读取循环下波动<0.05%),并能承受超过3000万次的编程-擦除循环,为忆阻器ADC的可靠性提供了坚实的硬件基础。

此外,团队还基于28nm工艺完成了5-bit ADC的完整版图设计,验证了其在先进工艺下的面积优势。


(a) 实际制造的8x8忆阻器阵列显微图像;(b) 器件的多级电导调控(SET/RESET);(c) 阵列上64个器件的编程一致性统计;(d) 多个电导状态的读取稳定性。

总结

这项工作直面了模拟存算一体落地中最关键的ADC瓶颈,通过将忆阻器的可编程性与ADC的功能需求创新性地结合,打造出了一款高效、智能、自适应的硬件原生ADC。

它不仅在器件层面实现了数量级的能效和面积增益,更在系统层面攻克了ADC的能耗黑洞,同时还巧妙地将硬件缺陷转化为性能优势。

这项研究为下一代高效、精准AI硬件系统的研发提出新的技术路径,有望加速存算一体芯片的产业化进程。


参考资料:

https://www.nature.com/articles/s41467-025-65233-w

Nature子刊:港大等首提下一代AI硬件系统,能耗锐减57.2% - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。