摩尔与韬定律:两篇原论文对读
两篇关于芯片应该如何随时间改善的论文,相隔六十一年。
戈登·摩尔的《Cramming More Components onto Integrated Circuits》刊于 1965 年 4 月 19 日 Electronics 杂志第 38 卷第 8 期。何庭波的《多层电子系统的时间缩微理论 / A Time Scaling Theory for Multi-Layer Electronic Systems》发布于中国科学院科技论文预发布平台 ChinaXiv,发布日期是 2026 年 5 月 25 日,同一天她在 ISCAS 做主旨演讲《半导体新路径探索与实践》。
国内的多数报道把何庭波这篇论文叫做"韬定律",主流框架要么把它读成对摩尔的反驳,要么读成营销动作。把两篇原文挨着摆开认真读完,两种框架其实都不太对。下面是把两边各自到底说了什么、对同一个工程问题的描述哪里重合、对解法的取舍又在哪里分叉,依次过一遍。
摩尔,1965
摩尔那篇论文一共六页,最有名的那一句话在第一页:
The complexity for minimum component costs has increased at a rate of roughly a factor of two per year ... Certainly over the short term this rate can be expected to continue, if not to increase. Over the longer term, the rate of increase is a bit more uncertain.
中文转述:在保持最低单组件成本的前提下,复杂度每年大约翻一倍;短期内这个速率可以预期延续甚至上升,长期则不太确定。
关于这一句话,有三件容易被后来人忽略的事。
第一,摩尔预测的不是"晶体管数每两年翻一倍",而是"在最低单组件成本下的复杂度"每年翻一倍。这是一个经济命题,不是一个物理命题。每代芯片的成本-组件曲线都有一个甜蜜点,这个甜蜜点会随工艺移动;摩尔押的是它每年移动两倍。
"最低成本"这个框架在论文里有具体形状。摩尔画了一条 U 型曲线:组件数太少时,芯片把硅片浪费在了周边开销上;组件数太多时,良率掉得太快,单组件成本反而上升。任意一年里这条 U 的最低点就是当时的经济甜蜜点。摩尔实际拿到的数据是 1959 到 1964 年这六年里每年最低成本设计的五个数据点,他把这条线沿着这五个点画出来,再外推十年。后来被业界默认的"每两年翻一倍"那个节奏,来自 1975 年摩尔自己的修订,不是 1965 年的原始论文。 原论文里写的是每年翻一倍。
第二,摩尔承诺的时间窗口是十年。他在文中写到,到 1975 年这个经济最优点大约会落在每片 65,000 个组件量级。再往后他的文字是有保留的。回头看这条 1965 年的预测落地得怎么样:Intel 8086 在 1978 年推出,晶体管数约 29,000。8086 比摩尔预测的时间晚了三年、组件数差不多是预测的一半。对一条十年期的行业预测来说,这已经比绝大多数同尺度的预测都准。
第三,摩尔点名了他预期会撞上的几条约束:散热、制造良率、从密集电路里取出干净电信号的难度。他没有说这些问题已经被解决了,他说这些问题在接下来的十年里仍可处理。
摩尔本人在 1965 年捍卫的东西其实相当克制,而且相当经济学。它后来变成了别的东西。
"摩尔定律"后来变成了什么
第一次修订是摩尔自己做的。1975 年 IEDM 上他做了一个题为《Progress in Digital Integrated Electronics》的报告,承认每年翻倍这个数字"只适用于第一个十年",并提出之后大约改成每两年翻一倍。这一步不是任何人想救摩尔定律,是摩尔自己在承认:六十年代那些唾手可得的密度收益不会以同样速率重演,把他十年前点名的那几条约束开始定价进来。
八九十年代流传出来的"十八个月翻倍"那个版本不是摩尔本人的。它来自 Intel 的 David House——他把摩尔的密度翻倍和另一条关于时钟频率提升的预测合在一起,得到了一个综合的十八个月性能节奏。等到这个节奏在公开场合稳定到"两年",原本围绕预测的经济包络已经被悄悄拿掉了,单芯片晶体管数本身变成了行业的标准成绩单。
从九十年代末开始,ITRS 路线图把这个节奏写成了全行业协调的公开承诺。设备、晶圆厂产能、EDA 软件、设计库、客户路线图,全部假设这个节奏继续。这套协调是摩尔定律能撑那么久的真正原因。也是为什么 7nm 节点之后那一轮放缓显得是结构性的,而不是渐进的。节奏本身承担的不只是任何一家代工厂的物理,是整个行业规划的载重。
摩尔曲线在哪里开始吃力
从 2005 年前后开始,摩尔的经济曲线遇到了三件事。
Dennard scaling 先断了。Robert Dennard 在 1974 年发表的论文证明:把晶体管尺寸缩 1/k、供电电压同样缩 1/k,功率密度保持不变,而密度按 k² 增长。这套同步缩放让全行业在差不多三十年里能把频率和密度同步推上去。
65nm 前后,电压这一侧不再成立。要让晶体管可靠开关,供电电压 V_DD 必须舒舒服服地高于阈值电压 V_t。把 V_DD 想成供电的水压、把 V_t 想成阀门关闭时的开启临界。几何路径会一直往下压 V_DD 以省功耗,要保住开关余量,V_t 就得跟着同步往下推。但 V_t 一降,关闭的阀门就开始往外渗——这就是亚阈值漏电,随 V_t 每下一档指数级上升。V_DD 掉到 1V 以下,渗漏开始主导功耗。栅介质再薄一点还会多开一条栅极漏电通道——直接穿透阀壁——V_t 缩放管不到。最终结果:你没法跟着 feature size 同步往下缩 V_DD,否则就要在静态功耗上付代价——这个代价乘以几十亿晶体管,会直接把功耗预算吃光。整个行业大约在 90/65nm 节点停下了这个尝试。
V_DD 一冻住,动态功耗就和频率直接成比例。在可承受的散热预算里,把时钟推过 3 GHz 在桌面上变得不经济、在移动上根本做不到。从 2005 年开始,密度提升只能兑换成更多核而不是更快核,多数 workload 要么改成并行,要么停在原地。
光刻成本在这之上还开始非线性上涨。EUV 设备单价突破两亿美元,先进节点工艺所需的掩膜层数增长比良率改善还快。原本每代都在向下走的单晶体管成本曲线,在 7nm 及之后开始往上拐。工程上还能继续往下做,经济上越来越走不通。
需求结构也变了。利润最丰的工作负载——大模型训练和推理——要的是访存带宽和互连吞吐,不是单纯的算力密度。一片晶体管再多但喂不饱的芯片,跑起来就是闲硅。这些都没把摩尔定律当作研究指标杀死。它们杀死的是摩尔定律作为行业主导经济学的地位。到 2020 年,台积电、英特尔内部讲这条曲线的人,多数会承认它"还在延续",但已经不再说它在定义这个行业的速率了。
这是何庭波这篇论文落地时的历史语境。
何庭波,2026
何庭波是华为董事会成员、半导体业务总裁。她的《多层电子系统的时间缩微理论》开篇就直接对摩尔曲线表态:
过去六十年,摩尔定律所代表的几何缩微推动了半导体产业的持续进步。然而,这一产业共识已经难以延续。
论文换了一套优化对象。不再是单位面积里的晶体管数,而是特征时间常数 τ。论文把 τ 分层定义:
τ_transistor、τ_circuit、τ_chip 和 τ_system 分别表示晶体管层、电路层、芯片层和系统层的时间常数。
每一层一个具体的操作含义,论文里写得很明确:
- 器件层:压缩晶体管固有的开关延迟。
- 电路层:缩短信号路径上的 RC 传播延迟。
- 芯片层:优化计算与内存访问之间的延迟。
- 系统层:压缩端到端的消息传递和同步时间。
论文反复强调一句话——任意一层的 τ 优化"必须传导到系统层才能产生真正的价值"。任何层级局部的胜利,如果传不到系统层,都不算数。
一个落地例子:LogicFolding
论文给第一个商用 proof point 的具体机制叫 LogicFolding(逻辑折叠),落在 Kirin 2026 上。
传统的平面 SoC 把数字、模拟、存储块铺在一层有源层上,金属互连堆在上方。需要通信的两个晶体管之间,连线长度由它们在 floor plan 上的相对位置决定。设计规模一大,相互通信的块之间的走线长度就开始主导 RC 延迟,版图不得不长出大量时钟缓冲器和时钟树分支来补偿。电路层的 τ,相当一大部分就是这个走线长度本身。
LogicFolding 把数字、模拟、SRAM 拆到独立优化的多层有源层里,用混合键合(hybrid bonding)把层间打通——直接的铜对铜互连,节距能做到亚微米量级,替代传统 micro-bump 互连 10–40 µm 的节距限制。混合键合大约 1 µm 节距下,层间垂直链路的长度替代水平面内走线,成为版图里的主导几何尺度。需要通信的两个块可以直接上下叠在一起,而不是隔着整个 die。走线长度下降;驱动长走线所需的时钟缓冲器消失;SRAM 访问频率上升,因为它到计算层的路径不再绕过整片 die 的长平面走线。
这套机制就是"同制程节点单代涨 55% 密度"的物理来源。这不是对几何缩放的违反——feature size 没变——而是改变了密度依赖的是哪个几何维度。垂直维度,而不是平面维度。从字面意义上往上盖楼,而不是向外摊大饼——同样的占地,多了几层。
数学并排
两篇论文都能压缩成单一的跨代方程。
摩尔的,用现代记法写:
N(t) = N₀ · 2^(t/T)T ≈ 1 年(1965 年原论文),T ≈ 2 年(1975 年修订)。
何庭波的,直接来自她的论文:
τ_(n+1) = τ_n / αα 按应用而定:移动约 1.3、自动驾驶约 1.5、AI 工作负载最高 10。
两件事值得注意。
第一,结构是一样的。两个都是关于时间的指数,都带一个按应用或按时期给定的复利因子,都把这个因子锚在生产数据上而不是理论上。
第二,移动方向是反的。摩尔的量是"想要最大化"的——最低成本下的晶体管数。何庭波的量是"想要最小化"的——时间。功能上两边都是按复利速率改进。修辞上"晶体管数涨上去"比"时间按同样因子降下来"好传播,这也是为什么摩尔定律变成了口号、而 τ 微缩大概率不会。
α 应该怎么读
α 这几个数字是论文最常被误读的地方。完整的一句话:
微缩因子 α 并非通用常数,而与应用场景相关。迄今为止的量产经验显示,在功耗受限的移动设备中,α 约为每年 1.3 倍;在安全关键型自动驾驶系统中,α 约为每年 1.5 倍;在 AI 工作负载中,α 最高可达每年 10 倍。
实质命题是"α 与工作负载相关"。这是一个比国内媒体反复转述的"AI 每年 10×"要弱得多的命题。论文没有声称存在一条覆盖整个行业的 τ 曲线,它声称这条曲线是按应用条件给出的。AI 那个值最大,是因为 AI 工作负载在数据搬运和调度上累积下来的优化余量最厚。
论文对摩尔定律本身的位置感也表得很明白:
几何微缩只是成为缩减 τ 的多种技术之一,不再是唯一途径。这一原则被称为 τ 微缩。
在这一句上稍停一下。论文确实把 τ 微缩定位成后继框架,这一步是真实的。狭义的点在于:几何微缩被保留在这个框架里——作为多个技术之一,而不再是唯一途径——优化目标从特征尺寸换成 τ。这个表述比近期大半的媒体报道要克制。
两篇论文在哪里一致
两篇都把节奏锚定在已发货的产品上,而不是单纯物理。摩尔的曲线穿过的,是 1959 到 1964 年间最低成本设计的单组件成本数据。何庭波的 α 值在论文里被表述为"迄今为止的量产经验"——意思是已经发货的硅片上实际拿到的改进速率。两边都不是纯物理 scaling 定律,都用已发货产品的实际表现给自己背书。
两篇都承诺一个节奏。摩尔的节奏是十年里每年两倍的单一因子,后来由摩尔本人修订。何庭波的节奏是按应用分的复利,没有写明长度,但结构相同:每一代相对上一代缩进固定一个因子。
两篇识别的真正约束都不在晶体管本身,而在系统。摩尔担心的是封装层和电路层的散热、良率、信号完整性;何庭波担心的是从芯片到封装到机柜的端到端 τ。两边在用各自的词汇说同一件事:限制实际上活在晶体管之外。
两篇论文在哪里分叉
指标换了,剩下的事情就跟着换。
摩尔的指标是"最低成本下的元件数"。优化变量是 feature size。光刻路线图是中心杠杆。一旦先进节点的晶圆厂贵到造不起,曲线就开始拐。
何庭波的指标是某一层上的 τ。优化变量是封装、布局、互连、软件层调度,feature size 是其中一个输入。节点冻结不会立刻杀死 τ 微缩,因为大多数杠杆活在光刻之上的几层。
这是两篇论文真正的工程差别,跟作者有没有把地缘政治放在心里没关系。摩尔写作时所在的国家有先进光刻可用;何庭波写作时所在的国家没有。两人各自捍卫的指标,恰好都是在各自约束下最经得起优化的那一个。这一点和"两篇都是好工程"可以同时成立,不需要把其中任何一篇读成营销。
有一处结构性差别比指标本身更要紧。 摩尔定律之所以变成"定律",不是因为摩尔写了一篇论文,是因为整个行业向它协调过去。1998 年之后的 ITRS 路线图是 SIA、JEITA、KSIA、ESIA、TSIA 签字的产业共识文件——代工厂、EDA 厂、设备厂、IP 厂的路线图在那之后二十年里全都按它对齐。这套协调让节奏不只承担任何一家代工厂的物理,承担的是整个行业的规划。
τ 微缩目前没有对应的协调主体。截至 2026 年,它是一家厂商的内部框架。台积电、三星、英特尔有华为没有的先进光刻可用,因此他们没有同样的动机切换到一个"光刻只是多种杠杆之一"的指标系统。最可能的结果是:τ 微缩留在华为内部,作为指导华为产品的组织原则,会生产出可见的成果,但不会变成摩尔定律那种全行业协调的节奏。 这是一个真实的限制,跟"论文有问题"不是同一件事。
更难的问题是:τ 作为单一指标,是不是真的能统一这四层。论文说它可以。论文里给的数学,把 τ 写成各层时间常数的组合,更像是一种记账方法而不是统一理论。十二个数量级是一个很宽的跨度——picosecond 之于一秒,差不多就是一秒之于三万年。这么宽的范围真的能让同一套优化思路通用,从一篇主旨论文里还看不出来。
何庭波这篇的可证伪部分
挑几条会在未来几年里被检验掉的具体主张。
α = 1.3× 每年这条移动设备的"量产经验",从 2026 Q4 起开始可测。Kirin 2026 真机上市后,相对 Kirin 9020 的持续性能提升是四层 τ 缩减最接近的用户可见代理——论文宣称的 +41% SoC 能效如果真的落到位,应该正好在这里复合出一个清楚可见的提升幅度。如果独立 benchmark 落在 30% 以下,1.3× 这条量产经验数就有水分。
100 ns 量级的跨机柜远端访问延迟也是可测的。等 CloudMatrix 384 在公开方法学下做到接近饱和利用率,可 profile 的延迟数会给答案。论文这个数比典型的微秒量级低大约五百倍,需要在真实 LLM 训推负载下复核。
2031 年等效 1.4nm 密度是一条持续可检的曲线。不需要正好 2031 才作数,但如果延期三年以上就是支持论文的事实层撕开了一个缺口。
α = 10× 每年这条 AI 工作负载的判断是这几条里最难评估的。AI 工作负载的经济正在以足够快的速度变化,以至于任何合理的改进速率都会在视觉上像是阶跃。这个数字作为对过去几年的描述是讲得通的;作为对未来几年的预测,它该带一个比论文给的更宽的误差棒。
读完两篇我自己的判断
摩尔 1965 年那篇是一个谨慎的经济观察,带十年预测和点名的约束。何庭波 2026 年这篇是一个谨慎的工程观察,带按应用分的预测、点名的约束,以及一条跨越多年的路线图目标。两篇在文本上都比它们各自的接受度要克制。
何庭波这篇里真正认真的部分,是指标的选择,不是任何一个口号。在 2026 年把优化对象从 feature size 换成 τ,是站得住的工程判断;四层分解为摩尔节奏已经处理不了的那一部分问题提供了一套可工作的词汇。这套词汇能不能在华为自己之外、不那么垂直整合的栈里复用,是开放问题。我的判断是部分能。器件层和电路层这套手法是会扩散出去的——hybrid bonding 和 LogicFolding 类的堆叠技术,在台积电的 SoIC 和英特尔的 Foveros direct-bond 上能看到同源思路,只是名字不同。系统层那部分高度依赖谁拥有互连,τ 微缩在这一层大概率会留在华为内部,配合华为自己的数字使用。
媒体把这篇论文压成了一个数字:"同节点单代涨 55%"。这是一个产品、一个应用类别、一条数据点。它也是一个真实的数字。正确的读法既不是把它当作营销丢掉,也不是把它当作整个产业的预测拿来用。它是一个更宽框架的一个验证。这个框架还有其他验证没到,接下来两年里到的那几个,会告诉你这篇论文真正值多少。
参考文献
- Moore, G. E. Cramming More Components onto Integrated Circuits. Electronics, Vol. 38, No. 8, April 19, 1965, pp. 114–117. PDF
- Moore, G. E. Progress in Digital Integrated Electronics. IEDM Technical Digest, 1975, pp. 11–13.
- Dennard, R. H., Gaensslen, F. H., Yu, H.-N., Rideout, V. L., Bassous, E., & LeBlanc, A. R. Design of Ion-Implanted MOSFETs with Very Small Physical Dimensions. IEEE Journal of Solid-State Circuits, Vol. 9, No. 5, October 1974, pp. 256–268.
- 何庭波. A Time Scaling Theory for Multi-Layer Electronic Systems / 多层电子系统的时间缩微理论. ChinaXiv 预印本, 2026 年 5 月 25 日.
- 何庭波. 半导体新路径探索与实践. 主旨演讲, IEEE 国际电路与系统研讨会(ISCAS), 上海, 2026 年 5 月 25 日.
- 华为. HUAWEI Presents the Tau (τ) Scaling Law, Enabling Breakthroughs in Transistor Density and System Performance. 新闻稿, 2026 年 5 月 25 日. 链接