开发者自己说AI让他快了20%。秒表说他慢了19%。这两个数字不是噪音互相抵消,是方向完全相反——差了近40个百分点。这就是今年夏天研究机构METR做的一场对照实验,结果比大多数人猜的还要难看。
实验设计很直接:16名经验丰富的开源开发者,在自己熟悉的代码库里,用当下主流的AI编程工具做246项真实任务。开工前问一遍预期,收工后再问一遍感受,全程用秒表记录实际耗时。事前预期AI会提速,事后自评也确认了这个预期——但计时器给出的是反向结果。
样本不大,METR自己也说了不能一概而论:对初级开发者、对全新项目(greenfield),AI确实是提速的。但没有附加说明的那句话最扎眼:越是确信AI让自己变快的人,越是被实测证明变慢的人。这不是感觉出了偏差,是感觉本身在撒谎。
三份独立数据,指向同一个瓶颈
单看16人的小样本,很容易被当成个案。但把镜头拉远,几份体量完全不同、方法完全不同的数据,都在讲同一件事。
Faros AI追踪了万人级的开发者遥测数据:高AI采用度团队的PR合并量涨了98%,任务完成量涨了21%,但PR审查耗时也涨了91%。生成端在加速,审查端在被拖慢,两条线几乎同步往上走。
DORA的行业报告发现,AI采用率每提升一档,关联的是交付吞吐量小幅下滑、交付稳定性明显下滑。GitClear扫了约2.11亿行代码变更,发现2024年是有记录以来第一次——开发者复制粘贴的代码量超过了他们重构、整理的代码量。
三份数据来自三套完全不同的方法论,却拼出同一张图:生成量在涨,返工和不稳定也在涨,最终到达用户手里的东西没有变多。
打字从来不是瓶颈
为什么会这样?一个熟悉代码库的资深工程师,慢的地方从来不是敲代码。真正花时间的是理解上下文、判断该不该改、以及改完之后确认没引入隐患。AI最擅长的恰恰是打字这一环——省下的时间不多,因为这一步本来就不贵。
代价出现在另一头。AI生成的代码经常"看起来是对的",细节上有偏差,这种输出需要更仔细的审查,而审查本来就是整个流程里最贵的一段。省下便宜的,加重贵的,总账未必划算。
Faros的数据把这个机制摆得很清楚:PR体积在涨,合并数量在涨,但审查这个环节被拉长了91%。产出端热闹,把关这道工序却在被拖垮。
工具厂商已经在下注
这个判断不是只有研究者在讲,资本已经在用真金白银投票。今年夏天,以"agent-first IDE"为方向的编辑器公司经历了一轮拆分和收购,核心团队和研究力量被并入更大的AI实验室,剩余部分被一家做自动化编程Agent的公司接手。
把"agent-first"这个说法拆开看,意思其实很直白:开发者不再是坐在键盘前敲代码的人,而是坐在控制台前审查Agent产出、决定取舍的人。工具厂商押注的下一个战场不是"谁生成得更快",是"谁审查得更准、更省力"。这本身就是对METR实验结论最诚实的商业注脚。
别急着下结论,但也别继续装睡
乐观的解释也站得住脚:这更像是J型曲线的低谷,不是终点。新工具往往先让人变慢,回报要等一段时间才显现。DORA的数据里,吞吐量已经在回升,只是稳定性还没跟上——这正是团队正在爬出低谷时会出现的样子。对初级开发者和全新项目,AI提速是实打实的,这部分工作的占比还在增长。
但不管低谷会不会过去,眼下的问题是明确的:大多数团队用来判断AI值不值的那个指标——团队自己感觉快不快——恰恰是被证明会说反话的那个指标。一个工具用错了,你迟早会发现;一个仪表盘坏了,你会一直信它,直到出了更大的事。
给还在靠"感觉团队变快了"写汇报的工程管理者一句实在话:停止用手感定速度。去看真正到达生产环境、还站得住的东西有多少,把资源往审查这个环节挪一点,任何写在感觉里的效率提升,在秒表点头之前都算不上数。
