2022年12月5日,Stack Overflow临时禁用了ChatGPT生成的答案。理由很直接:正确率太低,发出去反而害人。那时候的ChatGPT写贪吃蛇,蛇第一步就把自己吃掉了。

四年后的2026年,情况反过来了。AI agent能连续跑几个小时,自己开PR,合并进代码库。你上周review的某条PR,说不定就是它写的,你可能根本没注意。

这四年里,怀疑者几乎每次都说对了一半:AI确实写过垃圾代码,也确实拖慢过资深工程师,这些指控大多成立。但真正值得琢磨的,不是AI进步有多快,而是程序员社区判断"AI到底行不行"的那把尺子,被现实推着后退了多少次。

四年时间线:从写不出贪吃蛇到agent自己开PR

把六次关键节点摆在一起看,规律很清楚:每一代工具补上一个具体缺陷,质疑标准就立刻挪到下一格。

时间AI的进展当时的质疑口径
2022.11ChatGPT写不出能玩的贪吃蛇,五天后被Stack Overflow封禁连简单脚本都写不对,谈什么工程
2023.03GPT-4写出同款贪吃蛇,号称通过律师资格考试(后来重新评估,分位数被拉低到约60%)写脚本、考试都不算数,做出真产品再说
2024.03Cognition发布"首位AI软件工程师"Devin,演示被开发者逐帧拆穿造假demo都是摆拍,真开发者天天用才算数
2024.10Google的Sundar Pichai称,谷歌四分之一以上的新代码由AI生成、再经工程师审核采纳自动补全统计虚高,连import语句都算进去了
2025.02独立开发者Pieter Levels花三小时用AI做出多人3D飞行模拟器,17天后称年化营收破百万美元玩具产品,漏洞百出
2025.07METR测试16名资深开源开发者在自己维护的成熟仓库上用AI,结果比不用AI慢19%,他们自己以为快了20%AI适合写demo,真实生产环境另说
AI编程质疑靶子挪了六次 写不出贪吃蛇 22.11 考试通过率存疑 23.03 demo被拆穿 24.03 四分之一代码 24.10 3D游戏落地 25.02 反而慢19% 25.07 PR被合并 26.07

2024年那句"Google四分之一新代码由AI生成"经常被误读成"四分之一工程师被替代"。原话说的是代码生成占比,而且每一行都经过工程师审核采纳,不是AI自己上线的。这个区别很重要,后面还会用到。

同一个月,两个矛盾的结论都成立

2025年7月最能说明问题。METR测试的16名资深开源开发者,在自己维护的成熟仓库上用AI写代码,反而比不用慢19%——他们自己还以为提速了20%。同一个月,OpenAI和DeepMind的系统在国际数学奥林匹克拿到金牌线成绩,六题对五题。

两件事都没作假,也不矛盾。一个是"AI处理你最熟悉的老代码库时可能添乱",一个是"AI解限定范围的数学题能到金牌水平"。任务类型完全不同,结论没法互相套用。

2025年7月,两件事同时为真 -19% 资深开发者用AI反而更慢 METR,16人,成熟仓库 5/6 OpenAI/DeepMind IMO金牌线 纯语言解题,限时内完成

马克·吐温有句常被引用的话:历史不会重复,但会押韵。这四年每一代新工具起步时,怀疑者都精准命中当下的真实缺陷;缺陷补上,标准立刻挪到下一格。押的是同一个韵脚,但每次押韵的具体内容都不一样——METR的-19%只覆盖16个人、特定任务和已经跑了很久的老仓库,不能直接推广成"AI工具用了就更慢"。

这对谁意味着什么

技术管理者:别把"AI提效"当默认结论直接团队推广。METR测的是资深工程师在自己熟悉的成熟仓库上做复杂任务,结果比不用AI慢——这种场景离你团队的日常越近,越该先拿小范围任务做个对照测试,再决定要不要铺开,而不是看了融资新闻就下指标。

普通开发者:与其纠结AI会不会取代你,不如把时间花在它现在还接不住的地方——搞懂遗留系统里没人写文档的那些隐藏依赖,能对线上事故负责到底,能把一句模糊的需求拆成可执行的任务。这些是2026年这轮质疑还没被攻破的地方。

做AI编程工具的创业者:单纯"生成代码"这条护城河变浅的速度很快,Google的例子已经说明生成本身正在变成基础设施。真正稀缺、也更难被下一代模型吃掉的,是帮工程师处理需求澄清、责任追踪、遗留系统迁移这类写代码之外的活。

原文作者对2027年以后的推演写得很老实——独角兽创始人、无人值守的on-call、一次成型的开放世界游戏,他明确标注"这些还没发生,只是个猜测",没有把预测包装成既定事实。这份克制,值得抄一下。

接下来最该盯的,不是AI又写出了什么demo,而是它能不能真的接手一套十五年的遗留系统、能不能在出错时被明确追责。这三件事目前都还没有定论。

四年前Stack Overflow因为AI答案太烂关掉了入口,四年后它的提问量正在跌回学编程那年的水平——不是问题都被解决了,是已经没人再去论坛问了。靶子还在挪,但挪的方向,值得每个还在写代码的人认真看一眼。