开发者觉得AI快了20%，实测却慢了19%：仪表盘坏了

核心摘要 Summary

METR的对照实验显示，资深开发者用AI编码时自我感觉快了约20%，实测却慢了约19%，方向性错配近40个百分点。
更值得警惕的是，Faros AI、DORA、GitClear三份独立数据几乎都指向同一个结构性问题：生成变便宜了，审查变昂贵了，而团队据以决策的'速度感'恰恰是反着走的。

内容导图 Mind Map

速度感反向误导

自评快20%，实测慢19%

新手新项目仍提速

生成便宜，审查变贵

吞吐与稳定性承压

别用手感定速度

资源转向验证环节

开发者自己说AI让他快了20%。秒表说他慢了19%。这两个数字不是噪音互相抵消，是方向完全相反——差了近40个百分点。这就是今年夏天研究机构METR做的一场对照实验，结果比大多数人猜的还要难看。

实验设计很直接：16名经验丰富的开源开发者，在自己熟悉的代码库里，用当下主流的AI编程工具做246项真实任务。开工前问一遍预期，收工后再问一遍感受，全程用秒表记录实际耗时。事前预期AI会提速，事后自评也确认了这个预期——但计时器给出的是反向结果。

样本不大，METR自己也说了不能一概而论：对初级开发者、对全新项目（greenfield），AI确实是提速的。但没有附加说明的那句话最扎眼：越是确信AI让自己变快的人，越是被实测证明变慢的人。这不是感觉出了偏差，是感觉本身在撒谎。

三份独立数据，指向同一个瓶颈

单看16人的小样本，很容易被当成个案。但把镜头拉远，几份体量完全不同、方法完全不同的数据，都在讲同一件事。

Faros AI追踪了万人级的开发者遥测数据：高AI采用度团队的PR合并量涨了98%，任务完成量涨了21%，但PR审查耗时也涨了91%。生成端在加速，审查端在被拖慢，两条线几乎同步往上走。

DORA的行业报告发现，AI采用率每提升一档，关联的是交付吞吐量小幅下滑、交付稳定性明显下滑。GitClear扫了约2.11亿行代码变更，发现2024年是有记录以来第一次——开发者复制粘贴的代码量超过了他们重构、整理的代码量。

三份数据来自三套完全不同的方法论，却拼出同一张图：生成量在涨，返工和不稳定也在涨，最终到达用户手里的东西没有变多。

为什么会这样?一个熟悉代码库的资深工程师,慢的地方从来不是敲代码。真正花时间的是理解上下文、判断该不该改、以及改完之后确认没引入隐患。AI最擅长的恰恰是打字这一环——省下的时间不多,因为这一步本来就不贵。

代价出现在另一头。AI生成的代码经常"看起来是对的",细节上有偏差,这种输出需要更仔细的审查,而审查本来就是整个流程里最贵的一段。省下便宜的,加重贵的,总账未必划算。

Faros的数据把这个机制摆得很清楚:PR体积在涨,合并数量在涨,但审查这个环节被拉长了91%。产出端热闹,把关这道工序却在被拖垮。

这个判断不是只有研究者在讲,资本已经在用真金白银投票。今年夏天,以"agent-first IDE"为方向的编辑器公司经历了一轮拆分和收购,核心团队和研究力量被并入更大的AI实验室,剩余部分被一家做自动化编程Agent的公司接手。

把"agent-first"这个说法拆开看,意思其实很直白:开发者不再是坐在键盘前敲代码的人,而是坐在控制台前审查Agent产出、决定取舍的人。工具厂商押注的下一个战场不是"谁生成得更快",是"谁审查得更准、更省力"。这本身就是对METR实验结论最诚实的商业注脚。

乐观的解释也站得住脚:这更像是J型曲线的低谷,不是终点。新工具往往先让人变慢,回报要等一段时间才显现。DORA的数据里,吞吐量已经在回升,只是稳定性还没跟上——这正是团队正在爬出低谷时会出现的样子。对初级开发者和全新项目,AI提速是实打实的,这部分工作的占比还在增长。

但不管低谷会不会过去,眼下的问题是明确的:大多数团队用来判断AI值不值的那个指标——团队自己感觉快不快——恰恰是被证明会说反话的那个指标。一个工具用错了,你迟早会发现;一个仪表盘坏了,你会一直信它,直到出了更大的事。

给还在靠"感觉团队变快了"写汇报的工程管理者一句实在话:停止用手感定速度。去看真正到达生产环境、还站得住的东西有多少,把资源往审查这个环节挪一点,任何写在感觉里的效率提升,在秒表点头之前都算不上数。

锐评 Commentary

感觉最快的时候,往往是最该怀疑自己的时候。仪表盘不响,不代表车没有慢下来。

参考来源 References

metr.orghttps://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/
arxiv.orghttps://arxiv.org/abs/2507.09089
faros.aihttps://www.faros.ai/research
faros.aihttps://www.faros.ai/blog/ai-software-engineering
dora.devhttps://dora.dev/research/2024/dora-report/
dora.devhttps://dora.dev/research/2024/dora-report/2024-dora-accelerate-state-of-de…

AI编程开发者效率METR代码审查生成式AIAI编程工具Faros AIDORAGitClearPR审查耗时