2022年12月5日,Stack Overflow临时禁用了ChatGPT生成的答案。理由很直接:正确率太低,发出去反而害人。那时候的ChatGPT写贪吃蛇,蛇第一步就把自己吃掉了。
四年后的2026年,情况反过来了。AI agent能连续跑几个小时,自己开PR,合并进代码库。你上周review的某条PR,说不定就是它写的,你可能根本没注意。
这四年里,怀疑者几乎每次都说对了一半:AI确实写过垃圾代码,也确实拖慢过资深工程师,这些指控大多成立。但真正值得琢磨的,不是AI进步有多快,而是程序员社区判断"AI到底行不行"的那把尺子,被现实推着后退了多少次。
四年时间线:从写不出贪吃蛇到agent自己开PR
把六次关键节点摆在一起看,规律很清楚:每一代工具补上一个具体缺陷,质疑标准就立刻挪到下一格。
| 时间 | AI的进展 | 当时的质疑口径 |
|---|---|---|
| 2022.11 | ChatGPT写不出能玩的贪吃蛇,五天后被Stack Overflow封禁 | 连简单脚本都写不对,谈什么工程 |
| 2023.03 | GPT-4写出同款贪吃蛇,号称通过律师资格考试(后来重新评估,分位数被拉低到约60%) | 写脚本、考试都不算数,做出真产品再说 |
| 2024.03 | Cognition发布"首位AI软件工程师"Devin,演示被开发者逐帧拆穿造假 | demo都是摆拍,真开发者天天用才算数 |
| 2024.10 | Google的Sundar Pichai称,谷歌四分之一以上的新代码由AI生成、再经工程师审核采纳 | 自动补全统计虚高,连import语句都算进去了 |
| 2025.02 | 独立开发者Pieter Levels花三小时用AI做出多人3D飞行模拟器,17天后称年化营收破百万美元 | 玩具产品,漏洞百出 |
| 2025.07 | METR测试16名资深开源开发者在自己维护的成熟仓库上用AI,结果比不用AI慢19%,他们自己以为快了20% | AI适合写demo,真实生产环境另说 |
2024年那句"Google四分之一新代码由AI生成"经常被误读成"四分之一工程师被替代"。原话说的是代码生成占比,而且每一行都经过工程师审核采纳,不是AI自己上线的。这个区别很重要,后面还会用到。
同一个月,两个矛盾的结论都成立
2025年7月最能说明问题。METR测试的16名资深开源开发者,在自己维护的成熟仓库上用AI写代码,反而比不用慢19%——他们自己还以为提速了20%。同一个月,OpenAI和DeepMind的系统在国际数学奥林匹克拿到金牌线成绩,六题对五题。
两件事都没作假,也不矛盾。一个是"AI处理你最熟悉的老代码库时可能添乱",一个是"AI解限定范围的数学题能到金牌水平"。任务类型完全不同,结论没法互相套用。
马克·吐温有句常被引用的话:历史不会重复,但会押韵。这四年每一代新工具起步时,怀疑者都精准命中当下的真实缺陷;缺陷补上,标准立刻挪到下一格。押的是同一个韵脚,但每次押韵的具体内容都不一样——METR的-19%只覆盖16个人、特定任务和已经跑了很久的老仓库,不能直接推广成"AI工具用了就更慢"。
这对谁意味着什么
技术管理者:别把"AI提效"当默认结论直接团队推广。METR测的是资深工程师在自己熟悉的成熟仓库上做复杂任务,结果比不用AI慢——这种场景离你团队的日常越近,越该先拿小范围任务做个对照测试,再决定要不要铺开,而不是看了融资新闻就下指标。
普通开发者:与其纠结AI会不会取代你,不如把时间花在它现在还接不住的地方——搞懂遗留系统里没人写文档的那些隐藏依赖,能对线上事故负责到底,能把一句模糊的需求拆成可执行的任务。这些是2026年这轮质疑还没被攻破的地方。
做AI编程工具的创业者:单纯"生成代码"这条护城河变浅的速度很快,Google的例子已经说明生成本身正在变成基础设施。真正稀缺、也更难被下一代模型吃掉的,是帮工程师处理需求澄清、责任追踪、遗留系统迁移这类写代码之外的活。
原文作者对2027年以后的推演写得很老实——独角兽创始人、无人值守的on-call、一次成型的开放世界游戏,他明确标注"这些还没发生,只是个猜测",没有把预测包装成既定事实。这份克制,值得抄一下。
接下来最该盯的,不是AI又写出了什么demo,而是它能不能真的接手一套十五年的遗留系统、能不能在出错时被明确追责。这三件事目前都还没有定论。
四年前Stack Overflow因为AI答案太烂关掉了入口,四年后它的提问量正在跌回学编程那年的水平——不是问题都被解决了,是已经没人再去论坛问了。靶子还在挪,但挪的方向,值得每个还在写代码的人认真看一眼。
