最新科技资讯 第7页
聚合 AI、科技、商业、硬件与开发工具的最新内容,按时间顺序查看第 7 页精选文章。

Claude Sonnet 5 上线:Anthropic 把更强智能体能力放进中档价格
Anthropic 发布 Claude Sonnet 5,并把它设为 Claude Free 和 Pro 的默认模型,同时开放 Claude Code 与 API。它不是用来全面取代 Opus 4.8,而是用更低价格补上 Sonnet 与 Opus 之间的智能体能力空档。开发者和企业团队该重点看三件事:长流程任务成功率、真实 token 成本、安全拦截边界。

OpenAI的GeneBench-Pro:基因测试题真正难在脏数据
OpenAI公开了GeneBench-Pro的10个案例题,材料包括原始prompt、数据集和支撑材料,但没有公布模型成绩、排名或通过率。它的重点不是证明AI能做临床决策,而是把模型推到基因组学里最麻烦的地带:混杂因素、伪影、校准和不确定性。对AI生物医药团队和计算生物学研究者来说,接下来要看的不是模型会不会说术语,而是能不能少犯危险的确定性错误。

OpenAI GeneBench-Pro:31.5%之后,AI科研卡在判断力
OpenAI 发布 GeneBench-Pro,用 129 个合成但贴近真实的计算生物学任务,测试 AI 在基因组学、生物学和科研分析中的高阶判断。GPT-5.6 Sol Pro 最高通过率为 31.5%,比 GPT-5 起初低于 5%进步很快,但仍不到三分之一。真正的变化不是 AI 会不会跑流程,而是它开始被拿来考“能不能做研究判断”。

shot-scraper 1.10 发布:网页截图工具开始帮 AI agent 录制演示视频
Simon Willison 于 2026 年 6 月 30 日发布 shot-scraper 1.10,核心新增命令是 `shot-scraper video storyboard.yml`。它的重要性不在于挑战通用录屏软件,而在于把网页和应用操作演示变成可脚本化、可交给 AI coding agent 调用的交付物。

shot-scraper 1.10 新增 video:让编码 Agent 交付可验证的演示视频
shot-scraper 1.10 新增 `shot-scraper video`,可读取 `storyboard.yml`,用 Playwright 按剧本操作 Web 应用并录制演示视频。 它的重点不是通用录屏,而是让编码 Agent 在写完代码后,交出一段可复现、可检查的功能 Demo。 对使用 Agent 的开发者和维护 CLI 工具的人来说,`--help` 正在变成一种面向机器的产品说明书。

The AI Compass:AI 圈有了政治罗盘,但别把标签当能力
Simon Willison 推荐了 The AI Compass:一个由 bambamramfan 制作的 AI 立场测试,29 道题后把用户归入 30 种原型之一。它好玩,但不是严肃量表;真正有意思的是,它把 AI 圈的分裂压成了两条轴:GOOD/BAD 与 OVERHYPED/TRANSFORMATIVE。我的判断很简单:标签可以帮人看清分歧,但不能替代把模型接进真实工作流的能力。

Xbox 裁员传闻升级:微软据称权衡关闭 5 家工作室、取消 Arkane《Blade》
The Verge 称,微软计划从 7 月 6 日开始启动新一轮 Xbox 裁员,影响多个部门,并正权衡关闭至少 5 家工作室。 更关键的是,裁员可能已经延伸到砍项目、卖团队和重排第一方版图:《Marvel’s Blade》、Arkane、Compulsion、Double Fine、Ninja Theory、Undead Labs 都被点名。 这些动作目前仍是“正在权衡”,不是正式决定;但对玩家和从业者来说,Xbox 已公布项目的确定性正在下降。

Moto Tag 2 美国开售:20 美元时,Android 用户可以优先看它
Motorola 在美国开售 Moto Tag 2,单只限时首发价 19.99 美元,四只装 69.99 美元,但 20 美元价格目前只覆盖 Laurel Oak 配色。它支持 Google Find Hub、UWB、IP68、可更换 CR2032 电池,最长续航 600 天是官方标称。我的判断很简单:20 美元时值得 Android 用户优先看;回到 29.99 美元原价后,就要重新和 Tile、Chipolo 等选择细比。

Google 关掉 Tenor API:GIF 还能发,但平台的门又窄了
Google 于 2026 年 6 月 30 日关闭 Tenor API,Tenor 网站和 GIF 库仍在,但第三方应用不能继续调用这套 GIF 搜索接口。X、Discord、Bluesky、WhatsApp 等平台需要迁移到 Giphy、Klipy 等替代服务,用户可能遇到的不是“不能发 GIF”,而是熟悉的动图和搜索结果变了。更关键的是,Google 自家服务仍可继续用 Tenor,这次关门像一次平台边界重画。

Debian 的 xsnow 争议:按俄语触发乌克兰旗帜,算不算仓库该收的彩蛋
xsnow 是一个 X11 桌面降雪装饰程序,但在俄语界面下约 30% 概率显示乌克兰旗帜,其他语言约 2%。争议重点不该放在政治立场对错,而是隐藏、按 locale 触发的行为是否适合进入 Debian 官方仓库。对维护者和供应链团队来说,下一步不是表态,而是看 bug、维护者回应和 Debian 项目流程怎么裁决。

《GTA VI》发售前,Rockstar员工要求公司承认工会
Rockstar Games员工已向公司提交请求,要求自愿承认其所属的 IWGB Game Workers Union;这一步还不是公司正式承认工会。工会称成员自2019年起持续组织,覆盖英国多地工作室,并把诉求落在薪酬透明、弹性工作和 crunch 加班文化上。对玩家来说,这不是简单的延期信号;对开发者来说,这是《GTA VI》上市压力下,3A制作制度的一次劳资考验。

Claude Science 公测:它不是新模型,而是 Anthropic 想塞进实验室的 AI 工作台
Claude Science 是 public beta app,不是新的 Claude 模型;它使用用户计划内已有模型,面向 macOS 和 Linux,开放给 Pro、Max、Team、Enterprise 用户。真正的变化在工具层:连接科学数据库、Python/R、HPC/SSH、Modal 和结果溯源。对生命科学团队来说,它更像一个待验证的科研工作台,而不是能替代专业工具和专家判断的万能助手。

Netflix《Wonka’s The Golden Ticket》用 AI 复刻 Gene Wilder 声音:授权之后,边界才开始
Netflix 真人竞赛节目《Wonka’s The Golden Ticket》将于 9 月 23 日首播,9 月 30 日播出两集结局;预告片旁白使用 ElevenLabs 生成的 Gene Wilder AI 声音,Netflix 称已获其家属同意。 这件事的关键不只是声音像不像,而是经典 IP 真人秀化和逝者声音复刻被放进同一个商业包装。 授权能解决一部分法律问题,但观众是否接受、平台是否充分披露、合同如何限制二次使用,才是更难的部分。

Anthropic 没发科学大模型,它在抢实验室工作流
Anthropic 发布 Claude Science,但它不是新模型,也不是更强的生物专用模型,而是把现有 Claude 包进科研计算工作台。真正的变量是工作流入口:数据库、工具链、多智能体协作、可复现输出,谁能嵌进实验室日常,谁就更靠近科研 AI 的预算和权限。

Threads 扩大 Live Chats:只给 Community Champions,先补实时聊天短板
Meta 正把 Threads 的 Live Chats 扩大到所有 Community Champions,但还不是向全体用户开放。 新功能集中在翻译、共同主持和删消息,目标是让实时讨论更容易被组织和治理。 这一步更像是在补 Threads 与 X 竞争中的现场感短板,成败要看开放边界、桌面端和秩序工具能不能跟上。

Google 推出 Nano Banana 2 Lite:图像模型竞争开始拼速度和成本
Google DeepMind 发布 Nano Banana 2 Lite,称其为最快、最高效的 Gemini Image 模型,入口已开放到 Google AI Studio,模型参数为 gemini-3.1-flash-lite-image。它的核心价值更像是降低图像生成与编辑的等待时间和调用成本,而不是宣称图像质量全面领先。对开发者和内容团队来说,这类 Lite 模型的意义在于让批量试稿、A/B 素材和快速编辑更容易进入日常流程。

Google 把 Nano Banana 2 Lite 和 Omni Flash 连成了一条低价视频生产线
Google DeepMind 同时推出 Nano Banana 2 Lite 图像模型,并向开发者开放 Gemini Omni Flash 视频生成/对话式编辑模型。关键不是多了两个模型,而是 Google 把低价出图、图生视频、多轮编辑和平台入口接成了一条生产线。开发者该看 API 成本和限制,内容与电商团队该看改稿效率、审核成本和平台依赖。

OpenAI 修掉的不是模型问题,是 AI 基础设施的隐蔽裂缝
OpenAI 工程师批量分析 Rockset 过去一年的生产 core dump,把一组诡异 C++ 崩溃拆成两类根因:一台 Azure 物理宿主机的静默硬件错误,以及 GNU libunwind 中潜伏 18 年的竞态 bug。 这事的重点不在模型能力,而在可靠性方法:大规模 AI 产品已经不能只靠工程师盯单个 core dump 破案,必须把崩溃样本做成可查询、可归因的数据资产。 对 SRE、后端和基础架构团队来说,真正该补的不是口号里的“稳定性”,而是 crash 数据留存、标签体系、硬件相关性分析和开源依赖边界。

OpenAI Signals 数据:ChatGPT 增长正在从尝鲜转向日常使用
OpenAI Signals 显示,ChatGPT 个人用户注册 6 个月后,日均消息数比注册初期高 50%,尝试任务数量翻倍。更有意思的是,增长不只发生在英语和高收入市场:非英语为主用户已超过活跃用户一半,非洲、亚洲和低 HDI 国家相对增速更快。需要看清口径:地区数据是相对 2023 年 7 月的增长,不是绝对用户规模排名;性别相关结论来自姓名推断,不是用户自报。

量子计算还没证明实用,2028 和 2029 的口号先来了
特朗普政府要求美国量子计算产业提速,目标是 2028 年做出可用于科学发现的量子计算机。Microsoft 借 Majorana 2 把实用量子计算时间表推到 2029 年,但独立研究者质疑其宣传超过证据。真正的问题不是量子计算有没有前途,而是政治和大厂正在把未完成确定商业实用任务的技术,提前包装成胜利叙事。

特斯拉无方向盘 Cybercab 上路:Robotaxi 的账,终于要当街算
特斯拉开始在奥斯汀测试量产版 Cybercab:两座、无方向盘、无踏板,但车内仍有安全监控员。这还不是无人 Robotaxi 商业化,而是把多年承诺推到监管、成本和公众视线前。真正要看的不是车有多科幻,而是它能不能稳定、低成本、可解释地跑起来。