AI编程四年:怀疑者常常没错,但靶子挪了六次

核心摘要 Summary

2022年ChatGPT连贪吃蛇都写不对,2026年AI agent已经能自己开PR并被合并;四年里对AI编程能力的每一次质疑几乎都命中过当时的真实缺陷,但标准也跟着后退了六次。
2025年7月同一个月,资深开发者用AI反而慢19%,AI模型却拿到IMO金牌线成绩,两件事都是真的。
真正在挪动的护城河,已经从会不会写代码,变成谁定义需求、谁担责任、谁能接手复杂遗留系统。

2022年12月5日,Stack Overflow临时禁用了ChatGPT生成的答案。理由很直接:正确率太低,发出去反而害人。那时候的ChatGPT写贪吃蛇,蛇第一步就把自己吃掉了。

四年后的2026年,情况反过来了。AI agent能连续跑几个小时,自己开PR,合并进代码库。你上周review的某条PR,说不定就是它写的,你可能根本没注意。

这四年里,怀疑者几乎每次都说对了一半:AI确实写过垃圾代码,也确实拖慢过资深工程师,这些指控大多成立。但真正值得琢磨的,不是AI进步有多快,而是程序员社区判断"AI到底行不行"的那把尺子,被现实推着后退了多少次。

四年时间线:从写不出贪吃蛇到agent自己开PR

把六次关键节点摆在一起看,规律很清楚:每一代工具补上一个具体缺陷,质疑标准就立刻挪到下一格。

时间	AI的进展	当时的质疑口径
2022.11	ChatGPT写不出能玩的贪吃蛇,五天后被Stack Overflow封禁	连简单脚本都写不对,谈什么工程
2023.03	GPT-4写出同款贪吃蛇,号称通过律师资格考试(后来重新评估,分位数被拉低到约60%)	写脚本、考试都不算数,做出真产品再说
2024.03	Cognition发布"首位AI软件工程师"Devin,演示被开发者逐帧拆穿造假	demo都是摆拍,真开发者天天用才算数
2024.10	Google的Sundar Pichai称,谷歌四分之一以上的新代码由AI生成、再经工程师审核采纳	自动补全统计虚高,连import语句都算进去了
2025.02	独立开发者Pieter Levels花三小时用AI做出多人3D飞行模拟器,17天后称年化营收破百万美元	玩具产品,漏洞百出
2025.07	METR测试16名资深开源开发者在自己维护的成熟仓库上用AI,结果比不用AI慢19%,他们自己以为快了20%	AI适合写demo,真实生产环境另说

2024年那句"Google四分之一新代码由AI生成"经常被误读成"四分之一工程师被替代"。原话说的是代码生成占比,而且每一行都经过工程师审核采纳,不是AI自己上线的。这个区别很重要,后面还会用到。

2025年7月最能说明问题。METR测试的16名资深开源开发者,在自己维护的成熟仓库上用AI写代码,反而比不用慢19%——他们自己还以为提速了20%。同一个月,OpenAI和DeepMind的系统在国际数学奥林匹克拿到金牌线成绩,六题对五题。

两件事都没作假,也不矛盾。一个是"AI处理你最熟悉的老代码库时可能添乱",一个是"AI解限定范围的数学题能到金牌水平"。任务类型完全不同,结论没法互相套用。

马克·吐温有句常被引用的话:历史不会重复,但会押韵。这四年每一代新工具起步时,怀疑者都精准命中当下的真实缺陷;缺陷补上,标准立刻挪到下一格。押的是同一个韵脚,但每次押韵的具体内容都不一样——METR的-19%只覆盖16个人、特定任务和已经跑了很久的老仓库,不能直接推广成"AI工具用了就更慢"。

技术管理者:别把"AI提效"当默认结论直接团队推广。METR测的是资深工程师在自己熟悉的成熟仓库上做复杂任务,结果比不用AI慢——这种场景离你团队的日常越近,越该先拿小范围任务做个对照测试,再决定要不要铺开,而不是看了融资新闻就下指标。

普通开发者:与其纠结AI会不会取代你,不如把时间花在它现在还接不住的地方——搞懂遗留系统里没人写文档的那些隐藏依赖,能对线上事故负责到底,能把一句模糊的需求拆成可执行的任务。这些是2026年这轮质疑还没被攻破的地方。

做AI编程工具的创业者:单纯"生成代码"这条护城河变浅的速度很快,Google的例子已经说明生成本身正在变成基础设施。真正稀缺、也更难被下一代模型吃掉的,是帮工程师处理需求澄清、责任追踪、遗留系统迁移这类写代码之外的活。

原文作者对2027年以后的推演写得很老实——独角兽创始人、无人值守的on-call、一次成型的开放世界游戏,他明确标注"这些还没发生,只是个猜测",没有把预测包装成既定事实。这份克制,值得抄一下。

接下来最该盯的,不是AI又写出了什么demo,而是它能不能真的接手一套十五年的遗留系统、能不能在出错时被明确追责。这三件事目前都还没有定论。

四年前Stack Overflow因为AI答案太烂关掉了入口,四年后它的提问量正在跌回学编程那年的水平——不是问题都被解决了,是已经没人再去论坛问了。靶子还在挪,但挪的方向,值得每个还在写代码的人认真看一眼。