人工智能资讯第38页

人工智能 2026/5/28

5 个前沿大模型做事实核查：67% 出现分歧，最不稳的是灰区判断

Lenz Research 用 1000 条真实用户事实核查请求测试 5 个前沿大模型，67% 的 claims 至少有一个模型与多数意见不一致，34% 出现跨两个以上标签的实质分歧。这个数字不是错误率，因为研究没有外部真值标签；它更像一个提醒：前沿模型还不能被当成可互换的事实裁判。最该谨慎的是内容审核、搜索问答和合规初筛团队，尤其不要把多数投票包装成真值。

大模型事实核查模型分歧

人工智能 2026/5/28

YouTube 的 AI 自定义视频流：你能点菜，但厨房没换

YouTube 正在向美国、英文、已登录用户推出 AI 自定义视频流，用户可用提示词生成专属 feed，并置顶到首页。它把推荐从“被动刷”推进到“主动点菜”，但结果仍依赖搜索历史、观看历史和平台排序。对用户来说，这是更好用的控制入口；对创作者来说，内容发现可能更受“场景提示词”影响。

YouTubeAI 自定义视频流推荐算法

人工智能 2026/5/28

IISc 的“Eureka machine”：别急着喊 AI 输了，真正的问题是搜索太穷

IISc 官方文章介绍的“Eureka machine”更像科研原型或研究方向，不是成熟商用品。它要补的不是聊天式 AI 的短板，而是材料、药物、工程优化里更难的事：在未知解空间里找新路。现在最该看的不是口号，而是它能否在有限预算下稳定找到更好的候选解。

Eureka machine人工智能搜索算法

人工智能 2026/5/28

120万条聊天记录交给LLM后，关系真的比记忆更清楚吗

一名作者导出VK、Twitter、Facebook、Instagram、Telegram等平台近20年聊天档案，用LLM和确定性脚本整理出可追溯的关系、事件和情绪记录。这个实验的看点不是AI能不能读懂亲密关系，而是私人聊天数据在多大程度上能校正记忆，又会在哪些地方误伤关系判断。对量化自我用户和产品工程团队来说，真正门槛在身份合并、溯源回滚、隐私同意和本地处理，而不只是接入一个模型。

LLM聊天记录分析自我量化

人工智能 2026/5/28

AI都说能让白领10倍提效，周五能不能还给员工？

一篇个人博客用一个简单反问刺中了AI生产力叙事：如果AI真能把一周工作压到周一中午，员工能不能周五休息？问题不在AI工具本身，而在提效后的收益归谁。对科技白领和知识工作者来说，接下来要看的不是口号里的“10倍效率”，而是公司是否把节省下来的时间变成休息、远程弹性，还是更高KPI。

AI生产力白领工作收益分配

人工智能 2026/5/28

Cisco 把 Codex 接进工程流水线，AI 编程代理开始被制度考验

Cisco 称已把 OpenAI Codex 深度嵌入企业工程流程，用在 AI Defense 开发、跨仓库构建优化、缺陷修复和 React 迁移上，部分周期从数季度压到数周或数天。更关键的变化不是“AI 会写代码”，而是 Codex 正被放进真实生产链路，接受审查、测试、权限和责任设计的约束。效率数字目前来自 Cisco/OpenAI 叙述，不能当独立审计结论看，但足够说明企业级编程代理的门槛正在抬高。

OpenAI CodexCiscoAI 编程代理

人工智能 2026/5/28

Triomics 融资 2200 万美元：肿瘤 AI 的机会不在治癌，而在理清病历

Triomics 完成 2200 万美元 B 轮融资，Battery Ventures 领投，老股东 Nexus Venture Partners、Lightspeed、Y Combinator 等参投。它押注的不是 AI 直接治疗癌症，而是把肿瘤病历、临床试验匹配和登记上报这些重流程做深。真正要看的，是它能否在通用医疗 AI 和 AI 病历书记员之外，证明专科工作流值得医院单独付费。

Triomics医疗 AI肿瘤专科 AI

人工智能 2026/5/28

Warp押注GPT-5.5：终端开源只是入口，开发流程的方向盘才是生意

Warp把开源终端客户端、Oz智能体编排平台和GPT-5.5绑在一起，押注可监督的编码智能体处理本地、云端和开源开发流程。关键数字来自Warp或OpenAI材料：Warp称内部约90%的PR由智能体共同创建，GPT-5.5在其内部基准中比GPT-5.4每个agentic coding任务少用30% tokens。真正的变化不是AI又会写代码，而是开发权力正在转向编排、权限、评估和人类验收。

Warp编码智能体开发流程

人工智能 2026/6/3

Reachy Mini 接入远程 MCP：机器人少上云之后，又把工具放回云端

Reachy Mini 对话应用新增远程 MCP 工具支持，用户可用一条命令把公开 Hugging Face Gradio Space 上的天气、搜索等能力接到机器人上。它补上了此前“对话后端本地化”没有覆盖的一半问题：本地保住可信核心，云端承接可变工具。真正值得看的是边界设计，而不是机器人是不是突然变聪明。

Reachy MiniHugging FaceMCP

人工智能 2026/5/28

ITBench-AA 给企业 AI 运维泼了盆冷水：最强模型也没到 50%

Artificial Analysis 与 IBM Software Innovation Lab 推出 ITBench-AA，首批用 59 个 Kubernetes SRE 事故诊断任务评测企业 IT 智能体。结果不适合只看排行榜：Claude Opus 4.7 最高 47%，GPT-5.5 46%，Qwen3.7 Max 42%，所有前沿模型都低于 50%。这说明在这个基准和评分规则下，AI Agent 已经能辅助排障，但离无人值守的企业级运维还差一段可靠性。

ITBench-AAAI 运维智能体IBM Software Innovation Lab

人工智能 2026/5/28

OpenAI给2026年选举上“安全栓”：透明度进步了，但别指望它包办真相

OpenAI发布2026年全球选举保障方案，把可靠信息、网络防御、内容溯源、滥用治理和政治中立评估纳入同一套安排。它的价值不在于“消灭选举误导”，而在于把生成式AI的主要风险拆成可执行的产品和政策动作；但验证工具、计票信息和平台执法都有清晰边界。

OpenAI选举保障生成式AI

人工智能 2026/5/28

Cognition 融资超 10 亿美元：AI 编程独立玩家还没被巨头关门

Cognition 宣布完成超过 10 亿美元融资，投前估值 250 亿美元；公司称年化收入运行率达到 4.92 亿美元，但这不是全年确认收入，也不是利润。真正反常的是，OpenAI、Anthropic、Google 都在亲自做 AI 编程，VC 仍然重押独立工具层。接下来要看的不是 Devin 会不会写代码，而是 Cognition 能不能嵌进企业研发流程，变成可续约、可审计、可交付的软件系统。

CognitionAI 编程Devin

人工智能 2026/5/28

PostHog 要用客户数据训练 AI：真正该盯的是默认加入

PostHog 宣布将用客户在其产品中的既有数据训练自研 AI 模型，训练不会早于 6 月 29 日开始。EU 云和受 BAA/MSA 等限制协议约束的客户默认退出，美国云多数普通客户默认加入。争议不在它有没有说明，而在 SaaS 公司能否把客户行为数据默认变成模型燃料。

PostHog客户数据AI模型训练

人工智能 2026/5/28

Codex 和 Claude Code 变贵：AI 编码代理开始找到真买单的人

OpenAI Codex 和 Anthropic Claude Code/Cowork 正在把企业客户从席位订阅推向 API 级按量计费，重度使用团队的账单会更接近真实 token 成本。新的关键线索是：这不只是涨价，而是编码代理可能比聊天机器人更早摸到企业级产品市场匹配，AI 实验室终于开始向真正高频、高价值的工作流收费。

AI 编码代理OpenAI CodexClaude Code

人工智能 2026/5/28

Character.AI 被用户骂“阉割”：AI 伴侣应用开始支付算力账单

Character.AI 近期对免费用户增加限制、广告和年龄验证，并用 Pipsqueak 2 替换部分旧模型，引发 Reddit 核心社区强烈反弹。更关键的不是一次产品更新翻车，而是 AI 伴侣应用在算力成本、安全诉讼和商业化压力下，开始把代价转嫁给用户体验。

Character.AIAI 伴侣Pipsqueak 2

人工智能 2026/5/28

OpenAI 做报税 AI：真正值钱的不是会填表，而是会被纠错

OpenAI、Thrive 和 Crete 用 Codex 做了一套面向会计师的 Tax AI，试点覆盖 7000 份税表，官方称可节省约三分之一报税准备时间。关键不在“AI 自动报税”，而在它把会计师修正、生产轨迹、评测目标和工程改动串成闭环。对 AI 产品团队来说，这比单纯堆模型更现实：没有专家现场和可验证环境，agent 很难真正落地。

OpenAITax AICodex

人工智能 2026/5/28

Robinhood 允许 AI agent 自动炒股：钱能先圈住，风险未必圈得住

Robinhood 宣布向 AI agent 开放股票交易能力，用户可以单独设立账户、放入指定资金，让 AI 自动买卖股票、监控行业和再平衡组合。关键变化不是 AI 能不能稳定赚钱，而是券商 App 开始把尚不稳定的 agent 能力接入真实交易执行。对散户来说，这更像多了一个需要监管的交易主体：平台提供推送、实时活动流和暂停按钮，但也明确警告可能亏掉全部投入，且不保证 AI 输出准确或适用。

AI agentRobinhood自动化投资

人工智能 2026/5/27

SOND 融资 700 万美元：Bose 睡眠旧将想把耳机做成睡眠干预设备

SOND 结束隐身，拿到 700 万美元融资，并推出 AI 睡眠耳机 Dreambuds。它要证明的不是“耳塞能不能助眠”，而是耳机能不能靠生理信号做实时音频干预。对硬件团队和数字健康投资人来说，关键变量是验证数据、佩戴舒适度、合规边界和复购。

SONDDreambuds睡眠耳机

人工智能 2026/5/28

ElevenLabs 推出 Music v2：AI 音乐开始从“生成一首歌”走向“修改一首歌”

ElevenLabs 发布 Music v2，支持一首歌内切换曲风，并可按段落重生成局部片段。它的意义不只是生成更长音乐，而是把 AI 音乐推进到更接近制作流程的可编辑阶段。版权仍是最大变量，ElevenLabs 称模型基于授权数据、可商用，但这不等于行业争议已经结束。

ElevenLabsMusic v2AI音乐生成

人工智能 2026/5/27

Hugging Face 给异步 RL 减负：不再每步搬完整模型，改传稀疏权重增量

Hugging Face 在 TRL 中合入 Delta Weight Sync，让训练端只上传相邻 RL 步之间变化的 bf16 权重增量，再由 vLLM 从 Hugging Face Bucket 拉取。它的价值不在“压缩模型”，而在把训练、推理和环境服务的权重同步改成低成本对象存储分发，降低跨机器、跨集群部署门槛。

Hugging FaceDelta Weight Sync异步强化学习

人工智能 2026/5/28

YouTube 自动给 AI 视频打标签：创作者真正该盯的不是图标，是平台手里的尺

YouTube 将从 2026 年 5 月起，对写实且显著由 AI 生成或修改的视频启用更醒目的标签，并在创作者未披露时自动打标。这个变化补上了观众知情权，也把 AI 内容的身份判定从“创作者自报”推向“平台识别”。创作者该紧张的不是标签难看，而是标签未来会不会进入推荐、广告和品牌安全系统。

AI视频标签YouTube自动打标

人工智能资讯 第38页

5 个前沿大模型做事实核查：67% 出现分歧，最不稳的是灰区判断

YouTube 的 AI 自定义视频流：你能点菜，但厨房没换

IISc 的“Eureka machine”：别急着喊 AI 输了，真正的问题是搜索太穷

120万条聊天记录交给LLM后，关系真的比记忆更清楚吗

AI都说能让白领10倍提效，周五能不能还给员工？

Cisco 把 Codex 接进工程流水线，AI 编程代理开始被制度考验

Triomics 融资 2200 万美元：肿瘤 AI 的机会不在治癌，而在理清病历

Warp押注GPT-5.5：终端开源只是入口，开发流程的方向盘才是生意

Reachy Mini 接入远程 MCP：机器人少上云之后，又把工具放回云端

ITBench-AA 给企业 AI 运维泼了盆冷水：最强模型也没到 50%

OpenAI给2026年选举上“安全栓”：透明度进步了，但别指望它包办真相

Cognition 融资超 10 亿美元：AI 编程独立玩家还没被巨头关门

PostHog 要用客户数据训练 AI：真正该盯的是默认加入

Codex 和 Claude Code 变贵：AI 编码代理开始找到真买单的人

Character.AI 被用户骂“阉割”：AI 伴侣应用开始支付算力账单

OpenAI 做报税 AI：真正值钱的不是会填表，而是会被纠错

Robinhood 允许 AI agent 自动炒股：钱能先圈住，风险未必圈得住

SOND 融资 700 万美元：Bose 睡眠旧将想把耳机做成睡眠干预设备

ElevenLabs 推出 Music v2：AI 音乐开始从“生成一首歌”走向“修改一首歌”

Hugging Face 给异步 RL 减负：不再每步搬完整模型，改传稀疏权重增量

YouTube 自动给 AI 视频打标签：创作者真正该盯的不是图标，是平台手里的尺

人工智能资讯第38页