人工智能资讯 第38页

聚合当前分类下的最新内容,按时间顺序查看第 38 页精选文章。

5 个前沿大模型做事实核查:67% 出现分歧,最不稳的是灰区判断
人工智能 2026/5/28

5 个前沿大模型做事实核查:67% 出现分歧,最不稳的是灰区判断

Lenz Research 用 1000 条真实用户事实核查请求测试 5 个前沿大模型,67% 的 claims 至少有一个模型与多数意见不一致,34% 出现跨两个以上标签的实质分歧。这个数字不是错误率,因为研究没有外部真值标签;它更像一个提醒:前沿模型还不能被当成可互换的事实裁判。最该谨慎的是内容审核、搜索问答和合规初筛团队,尤其不要把多数投票包装成真值。

大模型事实核查模型分歧
YouTube 的 AI 自定义视频流:你能点菜,但厨房没换
人工智能 2026/5/28

YouTube 的 AI 自定义视频流:你能点菜,但厨房没换

YouTube 正在向美国、英文、已登录用户推出 AI 自定义视频流,用户可用提示词生成专属 feed,并置顶到首页。它把推荐从“被动刷”推进到“主动点菜”,但结果仍依赖搜索历史、观看历史和平台排序。对用户来说,这是更好用的控制入口;对创作者来说,内容发现可能更受“场景提示词”影响。

YouTubeAI 自定义视频流推荐算法
IISc 的“Eureka machine”:别急着喊 AI 输了,真正的问题是搜索太穷
人工智能 2026/5/28

IISc 的“Eureka machine”:别急着喊 AI 输了,真正的问题是搜索太穷

IISc 官方文章介绍的“Eureka machine”更像科研原型或研究方向,不是成熟商用品。它要补的不是聊天式 AI 的短板,而是材料、药物、工程优化里更难的事:在未知解空间里找新路。现在最该看的不是口号,而是它能否在有限预算下稳定找到更好的候选解。

Eureka machine人工智能搜索算法
120万条聊天记录交给LLM后,关系真的比记忆更清楚吗
人工智能 2026/5/28

120万条聊天记录交给LLM后,关系真的比记忆更清楚吗

一名作者导出VK、Twitter、Facebook、Instagram、Telegram等平台近20年聊天档案,用LLM和确定性脚本整理出可追溯的关系、事件和情绪记录。这个实验的看点不是AI能不能读懂亲密关系,而是私人聊天数据在多大程度上能校正记忆,又会在哪些地方误伤关系判断。对量化自我用户和产品工程团队来说,真正门槛在身份合并、溯源回滚、隐私同意和本地处理,而不只是接入一个模型。

LLM聊天记录分析自我量化
AI都说能让白领10倍提效,周五能不能还给员工?
人工智能 2026/5/28

AI都说能让白领10倍提效,周五能不能还给员工?

一篇个人博客用一个简单反问刺中了AI生产力叙事:如果AI真能把一周工作压到周一中午,员工能不能周五休息?问题不在AI工具本身,而在提效后的收益归谁。对科技白领和知识工作者来说,接下来要看的不是口号里的“10倍效率”,而是公司是否把节省下来的时间变成休息、远程弹性,还是更高KPI。

AI生产力白领工作收益分配
Cisco 把 Codex 接进工程流水线,AI 编程代理开始被制度考验
人工智能 2026/5/28

Cisco 把 Codex 接进工程流水线,AI 编程代理开始被制度考验

Cisco 称已把 OpenAI Codex 深度嵌入企业工程流程,用在 AI Defense 开发、跨仓库构建优化、缺陷修复和 React 迁移上,部分周期从数季度压到数周或数天。更关键的变化不是“AI 会写代码”,而是 Codex 正被放进真实生产链路,接受审查、测试、权限和责任设计的约束。效率数字目前来自 Cisco/OpenAI 叙述,不能当独立审计结论看,但足够说明企业级编程代理的门槛正在抬高。

OpenAI CodexCiscoAI 编程代理
Triomics 融资 2200 万美元:肿瘤 AI 的机会不在治癌,而在理清病历
人工智能 2026/5/28

Triomics 融资 2200 万美元:肿瘤 AI 的机会不在治癌,而在理清病历

Triomics 完成 2200 万美元 B 轮融资,Battery Ventures 领投,老股东 Nexus Venture Partners、Lightspeed、Y Combinator 等参投。它押注的不是 AI 直接治疗癌症,而是把肿瘤病历、临床试验匹配和登记上报这些重流程做深。真正要看的,是它能否在通用医疗 AI 和 AI 病历书记员之外,证明专科工作流值得医院单独付费。

Triomics医疗 AI肿瘤专科 AI
Warp押注GPT-5.5:终端开源只是入口,开发流程的方向盘才是生意
人工智能 2026/5/28

Warp押注GPT-5.5:终端开源只是入口,开发流程的方向盘才是生意

Warp把开源终端客户端、Oz智能体编排平台和GPT-5.5绑在一起,押注可监督的编码智能体处理本地、云端和开源开发流程。关键数字来自Warp或OpenAI材料:Warp称内部约90%的PR由智能体共同创建,GPT-5.5在其内部基准中比GPT-5.4每个agentic coding任务少用30% tokens。真正的变化不是AI又会写代码,而是开发权力正在转向编排、权限、评估和人类验收。

Warp编码智能体开发流程
Reachy Mini 接入远程 MCP:机器人少上云之后,又把工具放回云端
人工智能 2026/6/3

Reachy Mini 接入远程 MCP:机器人少上云之后,又把工具放回云端

Reachy Mini 对话应用新增远程 MCP 工具支持,用户可用一条命令把公开 Hugging Face Gradio Space 上的天气、搜索等能力接到机器人上。它补上了此前“对话后端本地化”没有覆盖的一半问题:本地保住可信核心,云端承接可变工具。真正值得看的是边界设计,而不是机器人是不是突然变聪明。

Reachy MiniHugging FaceMCP
ITBench-AA 给企业 AI 运维泼了盆冷水:最强模型也没到 50%
人工智能 2026/5/28

ITBench-AA 给企业 AI 运维泼了盆冷水:最强模型也没到 50%

Artificial Analysis 与 IBM Software Innovation Lab 推出 ITBench-AA,首批用 59 个 Kubernetes SRE 事故诊断任务评测企业 IT 智能体。结果不适合只看排行榜:Claude Opus 4.7 最高 47%,GPT-5.5 46%,Qwen3.7 Max 42%,所有前沿模型都低于 50%。这说明在这个基准和评分规则下,AI Agent 已经能辅助排障,但离无人值守的企业级运维还差一段可靠性。

ITBench-AAAI 运维智能体IBM Software Innovation Lab
OpenAI给2026年选举上“安全栓”:透明度进步了,但别指望它包办真相
人工智能 2026/5/28

OpenAI给2026年选举上“安全栓”:透明度进步了,但别指望它包办真相

OpenAI发布2026年全球选举保障方案,把可靠信息、网络防御、内容溯源、滥用治理和政治中立评估纳入同一套安排。它的价值不在于“消灭选举误导”,而在于把生成式AI的主要风险拆成可执行的产品和政策动作;但验证工具、计票信息和平台执法都有清晰边界。

OpenAI选举保障生成式AI
Cognition 融资超 10 亿美元:AI 编程独立玩家还没被巨头关门
人工智能 2026/5/28

Cognition 融资超 10 亿美元:AI 编程独立玩家还没被巨头关门

Cognition 宣布完成超过 10 亿美元融资,投前估值 250 亿美元;公司称年化收入运行率达到 4.92 亿美元,但这不是全年确认收入,也不是利润。真正反常的是,OpenAI、Anthropic、Google 都在亲自做 AI 编程,VC 仍然重押独立工具层。接下来要看的不是 Devin 会不会写代码,而是 Cognition 能不能嵌进企业研发流程,变成可续约、可审计、可交付的软件系统。

CognitionAI 编程Devin
PostHog 要用客户数据训练 AI:真正该盯的是默认加入
人工智能 2026/5/28

PostHog 要用客户数据训练 AI:真正该盯的是默认加入

PostHog 宣布将用客户在其产品中的既有数据训练自研 AI 模型,训练不会早于 6 月 29 日开始。EU 云和受 BAA/MSA 等限制协议约束的客户默认退出,美国云多数普通客户默认加入。争议不在它有没有说明,而在 SaaS 公司能否把客户行为数据默认变成模型燃料。

PostHog客户数据AI模型训练
Codex 和 Claude Code 变贵:AI 编码代理开始找到真买单的人
人工智能 2026/5/28

Codex 和 Claude Code 变贵:AI 编码代理开始找到真买单的人

OpenAI Codex 和 Anthropic Claude Code/Cowork 正在把企业客户从席位订阅推向 API 级按量计费,重度使用团队的账单会更接近真实 token 成本。新的关键线索是:这不只是涨价,而是编码代理可能比聊天机器人更早摸到企业级产品市场匹配,AI 实验室终于开始向真正高频、高价值的工作流收费。

AI 编码代理OpenAI CodexClaude Code
Character.AI 被用户骂“阉割”:AI 伴侣应用开始支付算力账单
人工智能 2026/5/28

Character.AI 被用户骂“阉割”:AI 伴侣应用开始支付算力账单

Character.AI 近期对免费用户增加限制、广告和年龄验证,并用 Pipsqueak 2 替换部分旧模型,引发 Reddit 核心社区强烈反弹。更关键的不是一次产品更新翻车,而是 AI 伴侣应用在算力成本、安全诉讼和商业化压力下,开始把代价转嫁给用户体验。

Character.AIAI 伴侣Pipsqueak 2
OpenAI 做报税 AI:真正值钱的不是会填表,而是会被纠错
人工智能 2026/5/28

OpenAI 做报税 AI:真正值钱的不是会填表,而是会被纠错

OpenAI、Thrive 和 Crete 用 Codex 做了一套面向会计师的 Tax AI,试点覆盖 7000 份税表,官方称可节省约三分之一报税准备时间。关键不在“AI 自动报税”,而在它把会计师修正、生产轨迹、评测目标和工程改动串成闭环。对 AI 产品团队来说,这比单纯堆模型更现实:没有专家现场和可验证环境,agent 很难真正落地。

OpenAITax AICodex
Robinhood 允许 AI agent 自动炒股:钱能先圈住,风险未必圈得住
人工智能 2026/5/28

Robinhood 允许 AI agent 自动炒股:钱能先圈住,风险未必圈得住

Robinhood 宣布向 AI agent 开放股票交易能力,用户可以单独设立账户、放入指定资金,让 AI 自动买卖股票、监控行业和再平衡组合。 关键变化不是 AI 能不能稳定赚钱,而是券商 App 开始把尚不稳定的 agent 能力接入真实交易执行。 对散户来说,这更像多了一个需要监管的交易主体:平台提供推送、实时活动流和暂停按钮,但也明确警告可能亏掉全部投入,且不保证 AI 输出准确或适用。

AI agentRobinhood自动化投资
SOND 融资 700 万美元:Bose 睡眠旧将想把耳机做成睡眠干预设备
人工智能 2026/5/27

SOND 融资 700 万美元:Bose 睡眠旧将想把耳机做成睡眠干预设备

SOND 结束隐身,拿到 700 万美元融资,并推出 AI 睡眠耳机 Dreambuds。它要证明的不是“耳塞能不能助眠”,而是耳机能不能靠生理信号做实时音频干预。对硬件团队和数字健康投资人来说,关键变量是验证数据、佩戴舒适度、合规边界和复购。

SONDDreambuds睡眠耳机
ElevenLabs 推出 Music v2:AI 音乐开始从“生成一首歌”走向“修改一首歌”
人工智能 2026/5/28

ElevenLabs 推出 Music v2:AI 音乐开始从“生成一首歌”走向“修改一首歌”

ElevenLabs 发布 Music v2,支持一首歌内切换曲风,并可按段落重生成局部片段。它的意义不只是生成更长音乐,而是把 AI 音乐推进到更接近制作流程的可编辑阶段。版权仍是最大变量,ElevenLabs 称模型基于授权数据、可商用,但这不等于行业争议已经结束。

ElevenLabsMusic v2AI音乐生成
Hugging Face 给异步 RL 减负:不再每步搬完整模型,改传稀疏权重增量
人工智能 2026/5/27

Hugging Face 给异步 RL 减负:不再每步搬完整模型,改传稀疏权重增量

Hugging Face 在 TRL 中合入 Delta Weight Sync,让训练端只上传相邻 RL 步之间变化的 bf16 权重增量,再由 vLLM 从 Hugging Face Bucket 拉取。它的价值不在“压缩模型”,而在把训练、推理和环境服务的权重同步改成低成本对象存储分发,降低跨机器、跨集群部署门槛。

Hugging FaceDelta Weight Sync异步强化学习
YouTube 自动给 AI 视频打标签:创作者真正该盯的不是图标,是平台手里的尺
人工智能 2026/5/28

YouTube 自动给 AI 视频打标签:创作者真正该盯的不是图标,是平台手里的尺

YouTube 将从 2026 年 5 月起,对写实且显著由 AI 生成或修改的视频启用更醒目的标签,并在创作者未披露时自动打标。这个变化补上了观众知情权,也把 AI 内容的身份判定从“创作者自报”推向“平台识别”。创作者该紧张的不是标签难看,而是标签未来会不会进入推荐、广告和品牌安全系统。

AI视频标签YouTube自动打标