人工智能资讯
聚合当前分类下的最新内容,按时间顺序查看第 1 页精选文章。

开发者觉得AI快了20%,实测却慢了19%:仪表盘坏了
METR的对照实验显示,资深开发者用AI编码时自我感觉快了约20%,实测却慢了约19%,方向性错配近40个百分点。更值得警惕的是,Faros AI、DORA、GitClear三份独立数据几乎都指向同一个结构性问题:生成变便宜了,审查变昂贵了,而团队据以决策的'速度感'恰恰是反着走的。

3000万美元自建Office杀手,印度富豪Turakhia在赌什么
印度连续创业者Bhavin Turakhia自掏3000万美元做企业AI办公平台Neo,3个月开发、45人团队,目前仅在自家公司内部试用。同期Chamath Palihapitiya的8090走完同样路径已融到1.35亿美元,说明这是一种正在成型的打法,但Neo距离真正面对微软Copilot那样的成熟企业市场,还差着一整段商业化验证。

从2294题缩到100题:AI编程基准正在自我推翻
Snorkel AI在2026年6月16日发布的Senior SWE-Bench,首批只有100道任务、一半不公开,比SWE-bench Verified整整缩了五倍。这场'缩水'不是随意为之——它紧跟在OpenAI自曝Verified近六成题目存在测试缺陷、并宣布其不足以衡量前沿编程能力之后,是整个基准体系遭遇信任危机的直接反应。

73.7万亿token一个月烧光,Meta给员工AI用量装了个电表
Meta内部备忘录显示,员工一个月刷掉73.7万亿token,内部AI开销直逼数十亿美元,公司决定拆掉刷量排行榜、上线预算仪表盘。这不是Meta一家的毛病:Uber、KPMG的数据都指向同一个事实——企业砸钱推AI用量的速度,远远跑赢了证明这些钱换来产出的速度。

企业开始给AI"瘦身":省的不是话痨,是token账单
企业开始让Claude、Codex用更短更糙的语言回答问题,目的只有一个:省token账单。同一时间,Etsy、eBay、Amazon上冒出大量AI生成的假花种子骗局。两件事背后是同一个变量——AI生成内容的边际成本被打到地板后,谁来为规模买单。

Claude Fable 5免费体验一周:Anthropic把用户导向按量计费的入口
Anthropic将在2026年7月1日至7日开放Claude Fable 5限时免费访问,但所谓免费只是把订阅用户原有周额度重新切出一半给新模型,并非额外赠送用量。真正该盯的是:一旦触顶且账户开通了用量额度,系统会自动转入按量计费,这比促销本身更值得写进企业IT的风险清单。

Ashton Kutcher 离开 Sound Ventures:AI 的钱,开始往电力和算力挪
Ashton Kutcher 将离开合作 11 年的 Sound Ventures,与前 NFX 合伙人 Morgan Beller 另起新基金,专注 AI 基础设施、能源和深科技早期项目。华尔街日报说这不是业绩问题,是投资阶段分歧:Sound 偏成熟期头部公司,新基金押早期底层资源。这背后是一部分资本开始从模型公司转向电力和算力赛道。

美国解禁Claude Fable 5、Mythos 5出口限制,但这更像缓刑不是无罪释放
美国商务部解除对Anthropic Claude Fable 5和Mythos 5的出口限制,Fable全球恢复上线,Mythos只对美国机构和可信安全伙伴分级放开。这不是监管松绑,而是政府用审查换准入的新模板,商务部信函里明确保留随时重新拉闸的权利。代价也很具体:更强的安全分类器会误伤正常编程和调试请求。

AI冒充112位英国政要,评分反而比本人更高
PLOS One一项新研究让GPT-4 Turbo模仿BBC《Question Time》里112位英国公众人物作答,948名英国受访者打分后,AI冒充内容在真实感、连贯性、相关性上全面压过本人原话。更值得警惕的是,近半AI回答内容其实和真人立场不符,却依然被判定更真——说明观众辨的从来不是内容,是腔调。

Cloudflare新规:9月15日起默认拦截"混用型"AI爬虫,矛头直指Google
Cloudflare宣布9月15日起对新客户和免费版网站默认拦截同时用于搜索、训练与AI agent的"混用型"爬虫,逼AI公司拆分爬虫身份或付费。这份公告表面是保护出版商,实际靶心是Google——只有它才把搜索排名和AI Overviews绑在同一只爬虫上。真正被推动改变行为的是中小网站和还没签内容协议的AI创业公司,头部玩家受影响有限。

融资更少,估值更高:Together AI的83亿美元账本怎么算
Together AI完成8亿美元C轮融资,估值跳到83亿美元,比三月传闻的75亿美元还高,融资额却比传闻的10亿美元缩水。放进CoreWeave、TensorWave、Upscale AI组成的坐标系里看,这笔钱买的不是算力,是时间——留给公司证明‘软件溢价’能不能立住的时间。

卡兰尼克回来了,自动驾驶货运却还没等到答案
TechCrunch用一期播客宣布AV炒作卷土重来,标志是Travis Kalanick重新下场,Humble Robotics要把无人卡车开上高速货运赛道。但把Aurora、Kodiak、Waabi这些真正跑出里程和收入的玩家摆在旁边一比,Humble Robotics目前能拿出手的,只有一笔种子轮和一个概念。

Hugging Face和Cerebras放出开源语音AI Demo,想先啃下延迟这块硬骨头
Hugging Face和Cerebras联合放出一个基于Gemma 4 31B的开源级联式语音对话Demo,管线三段模块化、可替换,已经用在Reachy Mini机器人上。官方没给任何延迟或吞吐数字,这次更像基础设施验证,不是可直接对比的产品发布。

Gemini Spark 登陆 Mac:Google 给桌面代理补课,但离真正“代理”还差一步
Google 把24小时AI助手Gemini Spark搬上Mac桌面,新增实时追踪、Keep/Tasks集成和自定义MCP支持,算是补上了此前最被吐槽的短板。但目前仅是beta,只面向美国AI Ultra订阅者,手机端远程指挥桌面执行多步骤任务也还没上线——这更像一次补课,谈不上对Claude Desktop、Copilot的反超。

隐私牌AI独角兽:Venice AI融资6500万美元,估值10亿美元
Venice AI两年做到10亿估值,自称年化收入超7000万美元且已盈利,靠的是主流AI收紧审核时反向主打'隐私+少审查'。但用户量、收入、盈利全靠公司自报,'端到端加密'也只对付费订阅用户开放。想接入它的企业和开发者,得先搞清楚哪些是卖点,哪些是限制。

YC新公司Parsewise卖的不是文档解析,是企业敢不敢用AI的胆子
YC P25公司Parsewise在Hacker News发帖,把PDF、Excel、通话记录转成带词级引用的结构化数据,卖点是每个字段都能追溯来源。它真正解决的不是抽取精度,而是企业让AI经手关键数据时最缺的责任链。SOTA、跑赢Claude Fable这些说法目前只是自述,还没有第三方基准复现。

Manufact 招 DevRel:MCP 创业公司开始抢开发者入口
YC S25 公司 Manufact 正在招 Developer Advocate & Partnerships,薪资 10万-16万美元,股权 0.10%-0.70%。这不是一个单纯写内容、跑大会的 DevRel 岗位,而是把 demo、集成、合作和开发者反馈揉在一起的前线增长岗。真正值得看的是:MCP 公司已经开始从发 SDK,转向抢开发者工作流和工具调用入口。

谷歌新智能音箱硬件过关,但 Gemini 还撑不起“第二阶段”
The Verge 评测谷歌六年来首款新智能音箱 Google Home Speaker,给出 6 分:音质、外观和智能家居控制表现不错,但 Gemini for Home 慢且不稳定。真正的问题不在 99.99 美元的音箱本体,而在 AI 助手还没成熟到足以重新定义智能音箱。

Godot 拒收 AI 生成代码:开源项目开始追问谁来背锅
Godot 宣布不再接受 AI-authored code contributions,理由不是全面反 AI,也不是把问题定性为版权争议,而是维护者无法信任重度 AI 使用者真正理解并能修复自己提交的代码。 这条规则真正指向的是责任:开源贡献不只看能不能产出代码,还要看能不能解释、跟进 review、修回归。 对开源开发者和游戏开发团队来说,AI 编程工具还能用,但提交到公共工程里的代码,必须有人能说清、改得动、扛得住。

Vinton Cerf 从 Google 退休,AI 代理又撞上协议老问题
83 岁的 Vinton Cerf 将于下周卸任 Google 副总裁兼首席互联网布道师,结束自 2005 年以来在 Google 的任职。他与 Robert Kahn 共同奠定 TCP/IP,代表的是开放协议塑造互联网的那一代人。AI agents 正把行业重新推回一个老问题:谁定义协作标准,谁就更接近下一层入口。

Anthropic 模型松绑:美国 AI 管制急刹之后,先暴露了发布权之争
美国政府取消了 Anthropic Mythos 和 Fable 模型的出口许可限制,Anthropic 将从 7 月 1 日起开始恢复访问,尤其是 Fable。真正值得看的是,这次限制只持续了不到三周,却已经让模型发布权、政府审批权和全球竞争压力正面撞上。对企业客户和合规团队来说,风险不只是能不能用某个模型,而是发布规则会不会突然改口。