Simon Willison 发布了一个新的开源工具——llm-coding-agent,但整个开发过程,他只写了两句话。第一句让 Claude Code 写一份 spec.md,第二句让它按红绿测试驱动开发(TDD)把代码写完、逐步提交。几天后,这东西被打包上传到 PyPI,任何人一行命令就能跑起来。发布时 GitHub 仓库的 star 数,只有一个。

两句话,一个能跑的编码 Agent

Willison 的操作很直白:先用自己的模板仓库起了个空项目,再对着 Claude Code(他称之为 Fable 5 实验)敲了两条指令。第一条要求写 spec——实现一个"Claude Code 风格"的编码 agent,依赖他自己维护的 llm 库最新 alpha 版,配齐读写文件和执行命令的工具。第二条只有一句话:提交 spec,然后用红绿 TDD 一路写完,期间用环境里的 OpenAI API key 做手动测试。

Claude Code 照单全收——自己写规格、自己拆任务、自己写测试、自己填实现,一路提交出一串 commit。成品是 llm-coding-agent 0.1a0,7月2日发布到 PyPI,一行命令就能拉起来跑:

uvx --prerelease=allow --with llm-coding-agent llm code

从两句话到一个PyPI包 提示词1 写spec.md 提示词2 红绿TDD实现 13次commit 自动提交 发布PyPI 0.1a0 人类作者全程只出现在两条提示词里,其余步骤由Claude Code独立完成

工具集不寒酸,规模却很业余

这个 agent 内置六个工具:读文件、写文件、按字符串精确替换编辑文件、正则搜索、列目录、执行 shell 命令,组合起来是一个精简版的 Claude Code。它还提供了 Python API,可以写成

CodingAgent(model="gpt-5.5", root="/path", approve=True).run(...)

直接调用——这是 Willison 没要求、Claude Code 自己加上的东西。

打开 GitHub 仓库,现实感很快回来:全部代码由 13 个 commit 堆成,star 数是 1,fork 是 0,issue 和 PR 都是 0。这些数字来自实时检索,可能随时间变化,但眼下的画面很清楚——这是一个刚出生、几乎没人看过的实验品,不是一个正在被社区检验的项目。

项目现状,四个数字 2 提示词条数 13 commit数 6 内置工具数 1 GitHub star数

放进赛道里看,它还什么都不是

编码 agent 这条赛道已经有明确的三种路线:Claude Code 走高自主度、委托式的重活全包;Codex CLI 强调本地沙箱和审批控制;Aider 走轻量、模型无关的结对编程。三者各自代表一种产品哲学,也各自有真实用户群。llm-coding-agent 不在这个格局的任何讨论里出现过——没有对比评测,也没有进入任何一份编码 agent 选型指南。

这不是贬低,是定位问题。Willison 自己心里也清楚,他把这次发布称为 slop-alpha——"垃圾内测版"。这个词比任何评测都诚实:承认这是 AI 一次性生成、没经过人工深度审查的代码,能跑,但不承诺质量。


我更在意的,是谁在为这段代码负责

两条提示词生成一个能发布到 PyPI 的完整开源库,这件事本身值得多看一眼。此前 Willison 那篇关于 Fable 5 的观察记录里,已经有第三方报道把它的行为特征概括为"持续主动"——给一个方向,它自己拆任务、执行、验证、提交,几乎不用中途确认。llm-coding-agent 是这种主动性的又一次实机演示:从写规格到测试通过再到发包,人类作者只出现在两个提示词里。

但"能自动生成"和"该被信任"是两件事。代码是 Claude Code 写的,commit 是 Claude Code 提的,署名、责任和维护义务却全落在 Willison 一个人头上。他用 slop-alpha 提前把丑话说在前面,等于在做一次公开的信任测试——测的不是模型能不能写代码,而是当作者本人都不敢打包票时,普通用户敢不敢在生产环境里跑一个全自动生成的 agent。

  • 结论.两条提示词能造出可用的开源工具,说明agentic编码已经跨过"能不能",进入"敢不敢用"的阶段。
  • 风险.1个star、13个commit、0审查的项目一旦被当作生产工具用,出问题找不到人为质量兜底。
代码可以两句话写成,责任却一句话都省不了

这类实验更大的意义,其实在 llm 库本身的转向——它正从一个命令行调用工具,变成一个 agent 框架。这次的编码 agent 更像给这套框架"验货"的一次内部测试,顺手公开发布而已。它会不会长成有真实用户基础的产品,现在还看不清;能确定的是,写代码这件事门槛已经低到只需要两句话,但读懂那两句话背后藏着多少责任,门槛一点没降。