行业分类:
加载中...
头条分类:
加载中...
智谱公布“降智”的秘密:Scaling不可避免的痛
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI Scaling即正义?智谱挠了挠头—— 很痛苦,而且压力山大…… 智谱最新发布的一篇技术博客,画风稍微有点不一样: 没有过去的硬核技术输出,反而大倒苦水从GLM-5以来的各种花式踩坑,官方称之为「Scaling Pain」。 我们的推理基础设施正承受着前所未有的压力,每天都要服务数亿次Coding Agent调用。 过去几周,一些用户在使用GLM-5系列模型执行复杂Coding Agent任务时,遭遇多种异常,比如乱码、复读和罕见字符生成。 而且这些问题在标准推理环境中压根复现不出来!!! 排查数周,团队终于揪出真凶,彻底戳破Scaling Laws路上的隐形Bug。 不仅详细总结了自身遭遇的昂贵教训,还给出了一套极具实操性的避坑指南。 简单来说,如果屏幕前的你正打算给自己的Agent加码,那么这篇来自一线实战的经验总结,建议先反复阅读背诵~ 定位关键Bug 事情是酱紫的—— 自从GLM-5发布以来,智谱通过观察用户的大规模Coding Agent推理过程,发现了三类异常现象: 乱码输出:内容杂乱无意义; 重复生成:模型不断重复输出相同内容; 生僻字:出现异常字符。 这引起了团队工程师的警觉,于是说干就干,先是通过本地回放用户反馈,重复运行相同请求数百次,结果始终无法触发异常。 换言之,模型本身并非根本原因。 在进一步模拟在线环境后,团队尝试调整PD分离比例并持续提高系统负载,异常现象终于得以复现,在每10000个请求中大约能复现出3-5个异常输出。 这说明,异常现象很有可能出自高负载下的推理状态管理,指向底层推理链路。 但同时也引出了另一个问题,线下的复现率仍低于用户线上反馈的频率,这就意味着现有的检测方法存在遗漏或触发条件尚未完全覆盖。 于是智谱团队继续对异常输出的检测方法进行优化。他们发现投机采样(Speculative Decoding)指标可作为异常检测的重要参考。 投机采样原本用于提升模型推理性能,它先由小模型生成草稿(draft tokens),再由大模型验证是否接受这些token,最终能够在不改变输出分布的情况下提升decode效率。 而在GLM-5的三类异常中,乱码和生僻字的spec_accept_length非常低,也就是说目标模型的KV缓存状态与草稿模型之间存在明显不匹配。 复读则拥有过高的spec_accept_length,表明损坏的KV缓存可能导致注意力模式退化,将生成过程推向高置信度的重复循环。 基于以上观察,智谱总结出了一套在线异常监控策略: 当spec_accept_length持续低于1.4且生成长度超过128 token,或者spec_accept_rate超过0.96,系统就会主动中止当前生成,并将请求重新交回给负载均衡器。 紧接着,智谱开始进一步解析异常原因: PD分离架构下的KV Cache竞态 团队通过分析请求生命周期和推理引擎中的PD分离执行时序,将问题归因于请求生命周期与KV Cache回收与复用时序之间的不一致,从而引发的KV Cache复用冲突。 为了消除这类竞态情况,研究人员在推理引擎中引入了更为严格的时序约束,会在请求终止和KV Cache写入完成之间建立显式同步。 具体来说,在发出中止指令后,解码阶段会向预填充阶段发送通知。预填充阶段只有在满足以下任一条件时才会返回安全回收信号:未启动任何RDMA写入,或所有先前发出的写入操作已完全完成。而解码阶段只有在收到此确认后才会回收并重用相应的 KV Cache槽位。 该机制将确保KV Cache写入不会跨越内存复用边界,从而避免跨请求的KV Cache损坏。 最终修复该bug后,异常输出的发生率从约万分之十几下降至万分之三以下。 HiCache加载时序缺失 此外,当KV Cache换入与计算重叠时,当前实现未能保证数据在使用前已完成加载,导致可能出现未就绪KV Cache被访问的情况。 为解决这一问题,团队重构了HiCache读取流程,同时引入数据加载与计算之间的显式同步约束。 在启动Indexer算子之前,先插入一个Load Stream同步点,确保相应级别的Indexer缓存已完全加载。Forward Stream只有在数据准备就绪后才会进行计算,从而消除了read-before-ready的问题。 应用此修复后,在相同的工作负载条件下,由执行时序不一致引起的异常被消除,系统终于得以稳定。 Prefill侧优化 事实上,这两种Bug都指向了同一个常见的系统瓶颈: 在长上下文的Coding Agent Serving任务中,Prefill阶段已经成为影响系统性能的主要因素。 于是为了缓解Prefill阶段在高并发下的内存和带宽压力,团队另外设计了KV Cache分层存储方案——LayerSplit。 在该方案中,每个GPU只存储部分层的KV Cache,显著降低了每个GPU的内存占用。然后在执行Attention计算前,将对应层的KV Cache广播给其他相关rank。 为了降低通信开销,还进一步设计有KV Cache广播与indexer计算的重叠机制,将通信延迟隐藏在计算过程中。这样唯一的额外通信开销就来自Indexer Cache的广播,其大小仅为KV Cache的八分之一,整体通信成本可以忽略不计。 团队将LayerSplit和GLM-5.1结合发现,在Cache命中率达到90%、请求长度在40k到120k区间内时,系统吞吐量提高了10%到132%,且随着上下文长度的增加,收益也随之增长。 总体而言,该优化显著提升了系统在Coding Agent场景下的处理能力。 同时智谱也认为,当智能真正进入高并发、长上下文的Coding Agent场景后,维护推理基础设施的输出质量变得至关重要。未来大规模AI需要的不仅是Scaling Law推动的能力增长,还必须有等量级的系统工程支撑。
国产GPU就是牛!摩尔线程全链路适配DeepSeek-V4
快科技5月1日消息,摩尔线程的旗舰级AI训推一体智算卡MTT S5000,搭配自研的MUSA软件栈,基于SGLang开源推理框架,成功完成了DeepSeek-V4的完整运行验证。 至此,摩尔线程已构建起从硬件架构核心计算引擎承接、热点算子支持,再到端到端部署验证的系统化适配链路,证明国产GPU可以实现前沿大模型的“框架级兼容、开箱即落地”。 随着大模型架构持续演进,DeepSeek-V4等先进模型对底层精度能力、算子覆盖、编译优化、并行通信和推理效率提出了严苛要求。 摩尔线程充分发挥S5000原生FP8算力、MUSA对CUDA深度兼容、TileLang MUSA编译器对TileLang生态完美支持等优势,结合TileKernels开源库复用,基于TileLang快捷开发自定义算子等手段,快速打通了DeepSeek-V4推理适配链路。 值得注意的是,TileLang-MUSA已正式进入TileLang官方主线,实现了对DeepSeek-V4最新发布TileLang算子库TileKernels的Day-0无缝支持。 这意味着,MUSA平台已具备承载前沿LLM算子生态的工程基础,为后续先进开源模型适配提供了直接复用的算子通路。 ▼ TileKernels算子库开源地址: https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels'>https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels'>https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels ▼ TileLang-MUSA开源地址: https://github.com/tile-ai/tilelang-musa 三层技术路径完成DeepSeek-V4工程化适配 本次适配验证了一条新模型快速推理部署的系统化工程路径: 通过MUSA对CUDA的全栈兼容,实现核心主流AI框架快速适配,复用开源 TileKernels算子替代标准融合模式,并借助AI Agent基于TileLang完成模型特异性算子的快速开发与验证。 首先,MUSA软件栈提供了FlashMLA、DeepGEMM、DeepEP等DeepSeek开源仓库的兼容实现,使得推理依赖的Attention、FP8 GEMM、MoE dispatch/combine等关键计算、通信算子能够在S5000上快速适配。 其次,面向SwiGLU + FP8 quant等标准融合模式,S5000可直接复用DeepSeek TileKernels原生算子实现Day 0开箱适配,通过摩尔线程MATE开源算子库在layout、dtype、scale contract及接口层面与DeepGEMM深度兼容,消除热点算子的格式、接口对齐开销。 得益于MUSA对AI软件生态良好的兼容性,DeepSeek-V4在MUSA平台上可实现从核心算子适配,到端到端拉起,再到系统级性能调优的工程级加速。 最后,针对DeepSeek-V4高度特异化的计算负载,摩尔线程借助AI Agent实现TileLang Kernel自动生成及调试,围绕算子语义分析、接口适配、Kernel实现与正确性及精度验证等环节提升开发效率,完成RMSNorm、RoPE、Compress、Topk等多个核心自定义算子快速开发、集成。 该方案在保证计算语义零偏差的前提下,显著压缩了Kernel级开发及适配周期,并进一步释放关键算子的性能,例如,RMSNorm等带宽瓶颈算子带宽利用率可达80%。 原生FP8支持增强混合精度推理 上述三层路径快速打通,得益于摩尔线程S5000 原生FP8算力底座支撑,完整承接前沿混合精度模型推理需求,在保持模型精度的同时,实现高吞吐、低显存占用与显存带宽的高效利用。 该能力深度对齐DeepSeek V4等先进MoE模型的精度演进范式,确保DeepGEMM、FlashMLA、DeepEP等核心算子在MUSA平台上快速适配。 围绕原生FP8能力,摩尔线程已完成涵盖激活量化(SwiGLU FP8 quant)、MoE路由(routing)、注意力预处理(attention-prep)、缓存管理(FlashMLA cache store / paged metadata)及解码压缩(compressor decode/prefill)在内的关键模块适配,并通过多层回归测试,完成关键路径正确性与稳定性的验证。 FlashMLA DSA极致优化,释放长上下文推理性能 在完整模型链路适配的基础上,摩尔线程在S5000上针对FlashMLA DSA的Prefill(预填充)与Decode(解码)场景开展了专项优化,采用了一致的底层优化逻辑: 紧密围绕DeepSeek-V4 KV Cache的数据组织模式,直接完成稀疏KV读取、Cache Layout解析、Attention计算及结果写回,有效消除了额外的缓存重排(Rearrangement)开销,同步支持Original + Extra双路KV Cache机制及动态Top-k长度,通过TileLang对DSA算子进行深度优化,显著提升了长上下文与稀疏注意力场景下的计算效率,最终DSA Prefill及Decode算子BF16 Tensor算力利用率可达50%,未来还会继续推进优化。 四层验证体系,确保生产级稳定和确定性 围绕完整推理链路,摩尔线程建立了覆盖MUSA Kernel验证、算子级精度对齐、优化路径选择、端到端场景回归四层验证体系,确保关键算子在实际运行中的正确性及稳定性。 当前,摩尔线程基于DeepSeek-V4的工作已进入性能调优、长上下文能力完善与生产级稳定性验证阶段。 ▼ DeepSeek-V4推理服务部署指南: https://blog.mthreads.com/blog/AI/2026-04-30-DeepSeek-V4%20%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97/ 【本文结束】如需转载请务必注明出处:快科技 责任编辑:上方文Q
云深处科技已完成科创板上市辅导:“杭州六小龙”将再迎PO进展
核心产品业务已覆盖50个国家和地区,落地1200余个行业场景。 作者|Stone Jin 据IPO早知道消息,中信建投证券于4月16日向浙江证监局递交了《关于杭州云深处科技股份有限公司首次公开发行股票并上市辅导工作完成报告》。 换言之,云深处科技已完成科创板上市辅导、择日将正式递交招股说明书——根据《辅导工作完成报告》,云深处科技本次上市辅导总共仅有一期,自2025年12月23日至2026年4月16日,相关问题仅涉及劳动关系签订以及内控制度体系的搭建。 这也意味着,云深处科技将成为“杭州六小龙”中又一家取得实质性IPO进展的企业——4月16日,群核科技正式登陆港交所并随之成为“杭州六小龙第一股”;3月20日,宇树科技的科创板IPO申请获受理;另据外媒报道,强脑科技已向港交所秘交招股书。 成立于2017年的云深处科技聚焦具身智能技术创新与行业应用,是专注于四足机器人、人形机器人及核心零部件的研发、生产、销售和服务的国家级高新技术企业。其坚持自主创新,构建了“感知-决策-执行”全链路技术体系,其核心的多模态环境感知、跨场景具身导航、AI驱动的感控融合运动控制等新技术,已在多个新场景中应用落地。 值得一提的是,云深处科技坚持“场景定义产品”,自主研发的绝影系列四足机器人率先在全球实现变电站全自主巡检,整体识别准确率达96.5%,目前该解决方案已落地国家电网、南方电网等超100座变电站。 此外,云深处科技的产品还广泛应用于应急消防、安防巡逻、工业运维等领域。当前,核心产品业务已覆盖50个国家和地区,落地1200余个行业场景,并在2025年斩获全球四足机器人行业应用市占率第一。 另据云深处科技创始人兼首席执行官朱秋国稍早前介绍,云深处科技正致力于打造标准化“机器人+”综合解决方案,通过开放平台与技术接口,联合行业伙伴开发垂直场景应用,降低行业应用门槛与集成成本。在这一基础上,云深处科技正全力推动从技术研发向规模量产的跨越,建设柔性自动化产线,为全球化布局提供产能支撑。同时,企业携手国际合作伙伴,将中国复杂场景打磨的成熟解决方案推向世界,参与全球产业价值链重构,助力中国具身智能产业抢占全球先机。
永别了,终端!OpenAI疯狂升级Codex,接管Mac人类全程0操作围观
新智元报道 编辑:Aeneas KingHZ 【新智元导读】OpenAI刚刚投下了一枚重磅炸弹:原本作为程序员「副驾驶」的Codex迎来史诗级更新,正式从代码工具进化为通用个人助理,奥特曼亲自下场带货。开发者实测后惊呼:Codex接管整台Mac,人类全程0操作围观,太炸裂了! OpenAI重大更新! OpenAI的智能体Codex,这次直接硬刚Claude Cowork。 Codex是OpenAI的旗舰代码生成模型,支持GitHub Copilot等产品,已成为全球开发者不可或缺的AI助手。这次的更新,非常重磅。 YouTube创作者Mike Russell发布了一条实测视频,效果炸裂。 他把自己的Mac完全交给了OpenAI最新升级的Codex,让GPT-5.5操控Adobe Audition修复音频、用Photoshop做封面、再用Adobe Firefly生成AI视频。 从头到尾,人类全程零操作。 这不是Demo,不是PPT,是一个真实创作者把自己的生产力工具链完整交给AI跑了一遍。 OpenAI联创、总裁Greg Brockman直接喊话:「Codex人人可用,计算机任务全可做!」 是的,一个写代码的工具,突然要抢所有人的键盘了。 AI大V歸藏表示,一下午,一句话,Codex就帮自己开发了一个完整的游戏。 最让人惊讶的是Codex处理素材的方式:他提供了一个包含上千张图片的素材包,并未说明筛选方法。 Codex却自动将每个文件夹内的图片整合成一张总览图,附带文件名。 这样一来,只看一张图就能掌握全部素材风格,选中后再直接调用文件即可。这个操作实在令人震惊,让他直呼Codex太牛了! 网友直呼,Codex终于迎来自己的「Claude Code高光时刻」——一个复杂的完整的Mac应用,集成了摄像头、麦克风、录屏,它一次就搞定了。 用过Codex的网友,根本停不下来! Codex变了:从代码助手到电脑管家 总之,过去大家对Codex的认知很清晰——就是一个写代码的工具。它能帮你补全函数、调试bug、生成脚本,是程序员的副驾驶。 这次升级直接把边界炸开了。 OpenAI官方公告里最核心的一句话:Codex现在支持Slack集成和Google Workspace全家桶集成。翻译成人话就是——它不光能写代码,还能读你的邮件、回你的Slack消息、操作你的Google Docs和Sheets。 这句话,让OpenAI的野心藏不住了:它不再把Codex定位为开发者工具,而是——通用电脑操控agent。 就在昨天,Codex就忽然官宣了一大波更新。 它能跨Slack、Gmail、Calendar自动总结变化、做数据分析、辅助决策。 可以组织研究材料、制作电子表格和演示文稿。 可析数据导出、标记更改的内容,起草解读报告。 还能根据标准对比多个选择、跟踪权衡取舍。 OpenAI联创Greg Brockman,这位习惯了20年黑屏命令行终端、视代码如生命的顶级黑客,公开宣布:我彻底爱上了Codex App,它已经取代了我用了20年的终端。 开发者懂的都懂,这是什么分量。 如此强大的更新,让奥特曼直接发帖直呼:「Codex正在经历ChatGPT时刻!」 继昨天的这一大波更新之后,今天凌晨,OpenAI Codex核心成员Tibo在X上发帖称「Feeling codexy today」,预示着Codex又将迎来史诗级更新。 此帖一出,程序员圈瞬间沸腾了! 果然,没过多久,OpenAI又开始放出新的case了。 使用Codex处理日常工作,从未如此轻松。你可以选择你的角色,连接每天使用的应用,并尝试推荐的提示词。 无论是调研与规划,还是文档、演示文稿、电子表格等,Codex都能提供帮助。 Codex会根据你的角色推荐有用的插件,并指导你连接各种应用程序,比如SlackHQ、GoogleWorkspace、Microsoft365等等。 它如同你的私人助理,可以汇总来自不同应用程序和文档的数据,规划下一步,起草工作,组织研究,或创建项目计划。 你可以一目了然地看到正在发生的事情,包括任务进度、使用的文件和工具以及接下来要做的事情。 从草稿到成稿,你可以在Codex中随着内容逐步成形进行审阅。打开文件,提出修改意见,并在同一个对话线程中不断优化和调整。 开发者大V表示,Codex和Claude Code非常不一样。 如果限额即将结束,那就可以执行一个长时间任务,即使限额已经结束,Codex都会继续执行这个任务,直到任务完成。 这个帖子直接被奥特曼转发。 Tibo还表示,在良好的用户体验和优化利润率之间,OpenAI选择了前者。 甚至,OpenAI专门放出一个官方博客指南,介绍如何在日常工作中使用Codex。 Claude Code头号粉丝转向Codex,奥特曼鼓掌 就在Codex升级的同一天,另一场好戏开演了。 在X上,有用户说出自己的心声:Claude Code生成质量在最近三周内明显下滑了,准确率暴跌,因此她90%的时间都在用Codex,感觉非常满意。 奥特曼很快出现,以星战梗回应道:「欢迎加入光明面!」 果然,又有更多开发者站出来表示,真的不喜欢用Claude,因为它很笨拙,用户界面也总是不对劲,bug也很多。 这一次,开发者自己用脚投了票。 Codex实测太疯狂了! Codex App开发人员Andrew Ambrosino直言:「Codex 搞定一切!」 这次更新,Codex为当前任务自动适配动态UI,体验更佳: 幻灯片和表格体验更佳 支持在浏览器、工件和代码中直接标注 上手更简单 整体设计更简洁 性能全面提升 在Codex应用内浏览器中还添加了设备工具栏,让构建和测试响应式应用变得更加便捷—— 浏览器使用的速度(在主观测试中约提升30%)。 不过,「大家好才是真的好」,全网第一波实测已经来了。让我们一睹为快吧! 接管整台Mac,人类全场0操作围观 Mike Russell的实测才是这次升级最直观的证明。 他给Codex下了三个任务: 任务一:音频修复。 一段录音有明显的背景噪声和齿音问题。Codex自动打开Adobe Audition,识别噪声特征,应用降噪滤波,调整EQ参数,导出成品。 Russell事后回听评价:「专业级修复,比我手动调得还干净。」 任务二:播客封面设计。 Codex打开Photoshop,根据播客主题自动选择配色方案、排版标题文字、调整图层混合模式,输出一张可以直接上传的封面图。 任务三:AI视频生成。 Codex调用Adobe Firefly,根据文字描述生成视频素材片段,自动拼接、加转场。 三个任务,跨三个Adobe专业软件,全自动完成。 Russell在视频里反复强调一个细节:他全程没碰鼠标,没碰键盘,甚至没有切换过窗口。Codex自己在操作系统层面完成了所有软件间的切换和协调。 「这不是AI在帮我工作,」Russell说,「这是AI在替我工作。」 Codex这次升级打中的不是程序员,是所有依赖电脑工作的人。 当AI能操控你的整台电脑,「会不会用软件」这个技能本身就在贬值。 当然,Russell的实测并非完美。 Firefly生成的视频素材有几帧出现了明显的画面抖动,Codex没有自动识别并修正。Photoshop封面的文字排版在第一次尝试时出现了字体大小不一致的问题,Codex自己发现后做了第二次调整才过关。 Russell的总结很实在:「它不是100分,大概85到90分。但问题是——达到这个水平它用了8分钟,我自己做要2个小时。」 85分乘以8分钟,和100分乘以2小时。大多数场景下,前者赢。 Codex帮你0成本无限次拍摄 网友Matthew Berman直接介绍如何用Codex无限次的拍摄产品,一个网络连接就能转化为完整的电商照片: 以前: 一套电商产品图要5,000 - 25,000美元,耗时4周。 现在:输入一个 URL,10 分钟出片,成本为0。 他把整套系统封装成了 「品牌商拍工具包(Brand Shoot Kit)」。 它如何把一个网页链接变成一整套电商摄影库? 只需以下 7 个 Agent(智能体)技能: 人类的键盘,终于要淘汰了? 以往,全面用手动方式调试UI的方式,往往非常消耗心力。 每次都要一点一点地检查AI有没有破坏其他不相关的部分,这种压力是无声的。 但如果我们能把运行时的UI行为测试也交给AI去做,那人类这边的负担就能得到合理减轻。 现在,Codex终于带来了希望! 显然,Codex,已经能用鼠标逐一检查UI界面或行为是否正常——整个过程完全自动化。 网友感叹:「这感觉就像是「人们一直期待AI能做到的事情」终于到来了。」「我感觉我们正在逐渐接近下一个重大转变的临界点。」 在视频最后,Russell说了这样一句话:「当AI能操控你的整台电脑,会不会用软件这个技能本身就在贬值。」 这次,Codex打中的不是程序员,毕竟程序员早就习惯了AI写代码。 这次打中的是所有依赖电脑工作的人——做PPT的、写邮件的、剪音频的、修图的、做报表的。 以前的逻辑是,人学会用工具,工具放大人的能力。现在的逻辑开始变了:AI学会用工具,人只需要说清楚自己要什么。 可以说,Codex不是在升级功能,它是在重新定义「使用电脑」这件事本身。 在Russell的45分钟实测里,那台Mac上发生的一切——鼠标自己在动、软件自己在切换、音频自己在渲染——这个画面大概会成为2026年最具象化的一幕。 以前人类用鼠标调用软件,现在AI用API调用软件。 下一步呢?不可想象。
拒绝“出厂即巅峰”!具身训练系统再进化:LWD让机器人自主开启“打怪练级”
智东西 作者 | 江宇 编辑 | 漠影 当前具身智能的发展,正卡在一个越来越明确的瓶颈上:数据规模与真实世界经验的不足。 过去几年,VLA等大模型让机器人在“预训练阶段”取得了显著进展,但一旦进入真实部署环境,问题随之暴露——面对复杂、多变的物理世界,模型能力很难持续提升,依然高度依赖人工标注数据和重复训练。 这也意味着,具身智能尚未真正进入“规模化增长”的阶段。 仅依赖实验室数据或仿真环境,很难支撑机器人能力的持续演进;真正能够带来跃迁的,仍然是来自真实世界、持续积累的高质量交互数据。但问题在于:这些数据从哪里来? 现阶段,大量训练数据仍依赖人工示教或遥操作采集,规模有限、成本高昂,且难以覆盖开放环境中的复杂长尾场景。 要让数据规模真正“滚动起来”,唯一可行的路径,是让机器人走出实验室,在真实场景中长期运行,并将交互经验持续回流。 也正是在这一背景下,上海创智学院和智元具身研究中心联合发布了最新成果罗剑岚团队提出LWD(Learning While Deploying)大规模强化学习训练系统。该工作由创智学院导师,智元首席科学家罗剑岚团队完成。尝试将“部署”本身转化为学习过程的一部分。 这项工作并不聚焦单一算法突破,更给出了一种更具工程可行性的方案——通过在真实世界中持续运行机器人,并将其行为数据统一回流与更新,让每一台机器人既是任务执行者,也是持续产生学习信号的数据源,从而推动通用策略在部署过程中不断进化。 一、让数据飞轮在物理世界自主狂奔 传统模仿学习范式下,非完美的运行轨迹往往被视为“废数据”直接丢弃,机器人只能从成功的人类演示中刻板地模仿。 LWD的核心颠覆在于,它构建了一个由真实世界强化学习驱动的闭环数据飞轮。 在这个飞轮中,机器人集群在真实任务中自主执行并积累异构的交互经验,无论是完美的成功轨迹、试错后的自我恢复、还是人类为了覆盖边界情况而引导的失败案例,都会被统一输送至云端的共享重放缓冲区。 强化学习机制使得这些在传统视角下的“失败”或“意外”数据,全部转化为了指导模型规避错误、优化价值评估的宝贵经验。 随着集群部署规模的扩大和运行时间的累积,数据飞轮的转速不断提升,云端持续更新的强策略又会定期下发给机器人,形成真正的自主造血闭环。 二、强化学习算法深层进化:在嘈杂数据中,精准捕捉“进步”信号 将强化学习应用于真实世界部署的大规模机器人集群,面临着极端的算法挑战。 不同机器人在不同任务中产生的数据极其庞杂,包含着完全不同的指令、长短不一的操作过程,以及非常稀疏的奖励反馈。 为了在这些充满噪声的“异质数据”中稳定提取有用的学习信号,LWD创新性地引入了分布隐式价值学习(DIVL)算法。 简单来说,以往的算法像是在给机器人的表现打一个固定的“平均分”,但在复杂环境中这种打分极不准确;而DIVL则让机器人学会去理解表现的“概率分布”,它不再只看一个点,而是观察整个可能性的区间。 这让机器人在很少得到明确奖励的情况下,也能精准判断哪些动作风险更高、哪些动作更值得尝试,从而有效解决了评价不准、容易过度乐观的老大难问题。 与此同时,针对VLA模型通过多步去噪产生动作的特点,传统的更新方式计算量大且容易跑偏。 LWD结合了Q-learning with Adjoint Matching(QAM),为模型找到了一条数学上的“进化捷径”,让复杂的策略更新不再需要推倒重来,而是通过局部调整就能实现快速迭代,保证了机器人在大规模部署时的学习效率。 三、炼就“通才策略”:挑战5分钟长程复杂操作的极限成功率 为了验证这套训练框架的实战表现,研究团队在智元G1双臂机器人集群上进行了大规模的真实世界部署测试。 测试涵盖了八项极具挑战性的多模态操作任务,包括四类考验语义识别与泛化的商超货架动态补货任务,以及泡功夫茶、榨果汁、调酒、装鞋入盒等四类长程连贯操作任务。 评测任务示意图。(A)调制鸡尾酒;(B)冲泡功夫茶;(C)制作果汁;(D)装鞋入盒;(E)商超补货。 在这些持续时间长达5到8分钟、包含数十个接触丰富且存在长程依赖的物理交互任务中,LWD展现出了压倒性的优势。 各任务逐步成功率的实验结果 实验数据显示,经过在线真实经验积累后,LWD训练出的单一通用策略在所有任务上的平均成功率达到了惊人的0.95,远超纯行为克隆(0.76)以及先进的离线强化学习基线如RECAP(0.86)和 Dagger-SOP(0.82)。 八项真实世界操作任务的主要结果,涵盖四类商超补货任务和四类长程任务。结果显示,LWD(在线)取得了最高的整体平均成绩,并在四项长程任务中全部获得最高分,同时在商超补货任务中也保持在最优或接近最优水平。 调制鸡尾酒 尤其在最考验中间错误恢复与长期信用分配的长程任务中,LWD在线更新后的成功率实现了极大幅度的跃升,证明了基于物理世界经验的持续学习是突破复杂操作天花板的有效路径。 图中展示了功夫茶任务中一次成功执行(左)和一次失败执行(右)的价值曲线。结果表明,所学习到的价值能够对任务完成进度提供有意义的表征。 结语:把“部署”变成能力增长起点,让机器人在真实世界持续进化 在具身智能的产业化进程中,LWD推动的不仅是算法框架的升级,更是机器人能力迭代方式的一次重要转向。 长久以来,业界习惯将“部署”视为模型训练的终点,而LWD的提出证明了,自主改进应当成为通用机器人策略的基本属性。 学习不应是“出厂即封存的静态能力”,而必须成为部署之后在真实世界里一直延续的进化过程。 只有赋予机器人从海量无序的真实物理交互中自主提取“养分”、持续自我进化的能力,其才能真正打破被人工标注数据框定的舒适区,在千行百业的复杂、开放场景中长久地释放商业价值。
DeepSeek首次有了视觉能力,技术论文却被它连夜删掉了
作者|孙芮 邮箱|sunrui@pingwest.com DeepSeek做了件罕见的事情:在终于开始灰测多模态能力后,它放出了一篇解释背后技术的论文,但这篇论文却在发布没多久就又被悄悄撤掉。 4月29日,DeepSeek研究员陈小康在X发布一条推文——现在,我们可以看见你了。配图中,DeepSeek 标志性的鲸鱼 logo 摘下眼罩,露出了眼睛。 过去,DeepSeek 最被外界熟知的是它在文本、代码和推理任务上的能力。但真实世界里的问题,并不总是以文字形式出现。它们可能是一张照片、一页论文图表、一个网页截图、一份复杂表格,也可能是一个需要理解空间关系和视觉细节的现实场景。 对 DeepSeek 来说,视觉能力是让它的推理能力从文本世界延伸到真实世界的关键一步。但这次灰测的视觉能力,很快被使用者们感觉到不同:它和其他模型给语言模型底座增加多模态功能不同,更像是一个单独的模型,且不是以附庸形式定位,而是有某种原生的思考和推理能力。 就在大家好奇心增加的时候,DeepSeek发布了一篇解释它追求的视觉能力的论文:《Thinking with Visual Primitives》。 Primitives是图形学和几何里的常用术语,Visual Primitves可以理解为那些用来描述几何信息图形空间信息的最基本元素,也可以称为视觉基元。从这个题目就可以看出,DeepSeek眼里此刻最重要的“多模态”能力,依然是围绕推理和思考,它要让模型能在原生层面用图形的基础语言做更准确的思考。 这并不是所有主流模型厂商在多模态领域的方向,这让人意外,但这个想法非常有趣。DeepSeek再次给基础研究提供了新的思路。 但更加让人意外的是,这篇论文很快就被撤下了,没有给出任何解释,也不确定是否会再次发布。 所以,DeepSeek这次的视觉能力到底是怎样的?我们结合实测、它的研究员的分享,以及这篇“消失”的论文的内容,来尝试解释一下它的做法。 01 当DeepSeek 的视觉能力,开始进入真实场景 目前DeepSeek的视觉模式还在灰度测试,逐步向用户开放中。 从 X 上已经试用到这一功能的用户反馈来看,DeepSeek 的视觉能力并不只是识别图片里有什么,更重要的是,它会尝试把图像中的信息和已有的世界知识联系起来。 有用户在X上表示DeepSeek视觉模式的世界知识非常丰富,思考过程也很有趣。他在公司附近拍了一张照片,发给DeepSeek。在DeepSeek的思考过程中可以看到,它几乎知道我公司附近的每一栋楼,并尽量搜索正确的那栋。并且这个过程中没有用到联网搜索能力。 还有用户表示DeepSeek的网页复刻还原能力非常好。这对设计师和产品经理来说,它可以让视觉稿更快变成可演示的原型。以前从 Figma、截图或参考网页到可点击 demo,中间需要设计师标注、开发切图、工程师实现。现在模型能直接读懂页面,并生成接近真实效果的网页,让想法验证的周期大幅变短。 我实际测试了DeepSeek的视觉理解能力。我发送了一张迷宫图让它解答。 DeepSeek的思考过程十分严谨,它用的是反向推理的方法,从终点出发,逐步反向追踪,走到起点。为了验证解法的可行性,DeepSeek这一路径用正向的方式走了一遍,然后它又核算了一遍,再输出最终答案。整个过程中,DeepSeek推理了四遍路径的可行性。 02 多模态模型的难题,不只是看不清 陈小康在30号发布的推文中给了更详细的解释:传统的思维链(CoT)主要停留在语言空间里,但视觉推理需要更多能力。通过把点和框作为认知锚点,我们的模型弥合了“指代鸿沟”(Reference Gap),模拟了人类在视觉推理中常用的“指向—推理”协同机制。 通过DeepSeek发布的报告,我们可以看到他们针对视觉理解提出了一个新的推理框架,就是使用视觉基元进行思考(Thinking with Visual Primitives)。 什么是使用视觉基元进行思考呢? 简单来说,就是让模型在看图推理时,不再只依赖自然语言描述,而是把图像中的点、边界框、路径坐标等空间标记,也作为推理过程的一部分。 以往多模态模型面对一张图片时,通常会用语言来组织思考。比如它会说“左边那个人”“右上角的物体”“中间那条路”。但问题在于,这些描述在人类看来很自然,对模型来说却并不总是精确。尤其在一张复杂图片里,如果有很多相似的人、物体或区域,“左边那个”“旁边那个”很容易变得模糊,模型也可能在推理过程中把对象搞混。 DeepSeek 在报告中把这个问题称为“指代鸿沟”。也就是说,模型不是完全看不见,而是看见之后,很难在连续的视觉空间中稳定地指向自己正在讨论的对象。 视觉基元要解决的正是这个问题。所谓视觉基元,可以理解为模型在图像中的“手指”。当模型数一张合照里有多少人时,它可以先用边界框把每个人标出来,再进行统计;当模型判断两个物体的位置关系时,它可以先框出相关物体,再比较它们的相对位置;当模型走迷宫或追踪一条线时,它可以用一串点记录路径,而不是只用语言说“往左、再往右”。 这样一来,模型的推理就不再悬浮在文字里,而是被锚定到图像中的具体位置。这也是 DeepSeek 使用视觉基元进行思考最重要的变化,多模态模型的能力不只是看得更清楚,还要指得更准确。 03 DeepSeek 怎么做视觉推理 陈小康指出,目前DeepSeek的视觉模型主要处理三类任务:计数、空间推理和拓扑推理。 DeepSeek 的做法不是简单让模型看更高分辨率的图片,而是让模型在推理过程中使用点、框、路径坐标这些“视觉基元”,把每一步判断都落到图像中的具体位置上。 在计数任务上,DeepSeek 主要使用的是边界框。 报告中说,多模态大语言模型一直很难做到准确计数,尤其是在密集场景中。人类在数东西时,通常会采用一种“系统扫描和累加”的方式,比如从左到右一个个点着数。但语言模型在对象数量较多时,很难建立精确的对象对应关系。为了解决这个问题,DeepSeek 使用边界框作为视觉基元,为每个被计数对象提供明确的视觉锚点。 也就是说,模型不是直接凭感觉回答“有多少个”,而是先把目标对象找出来、框出来,再基于这些框进行统计。比如数一张合照里有多少人,模型会先框出图中的每个人,再计算总数。对于更复杂的细粒度计数,比如“有几只熊在地面上”,模型还会先找出所有熊,再逐一判断它们是在树上还是在地面,最后得出答案。 报告中还把计数分成了两类:一类是粗粒度计数,比如数“狗”“人”“车”这类普通对象;另一类是细粒度计数,比如数“白色的狗”“左边的狗”“站在地上的熊”。后者不仅要求模型识别对象,还要判断颜色、位置、状态等附加条件。DeepSeek 在这里采用的是“定位—验证—统计”的流程,让模型先找到候选对象,再逐个判断是否符合问题条件。 在空间推理任务上,DeepSeek 也是先让模型用视觉基元锚定对象,再进行关系判断。 报告中说,空间推理和一般视觉问答被放在同一个类别里处理,因为这类任务的共同难点是:如果只用语言描述,模型很容易出现指代模糊和语义漂移。比如“灰色金属物体”“旁边那个小物体”“同样大小的紫色橡胶物体”,这些说法如果不落到具体图像区域上,模型在推理过程中很容易把对象搞混。 所以 DeepSeek 的方法是,让模型先把关键对象框出来,再根据这些具体对象进行多步推理。报告中的例子是,模型需要判断图中是否存在一个紫色橡胶物体,和灰色金属物体大小相同。模型会先定位灰色金属球,判断它是小物体;然后再逐一检查其他小物体,看它们的颜色、材质、大小是否匹配。最后模型得出结论:图中没有符合条件的紫色橡胶物体。 在拓扑推理任务上,DeepSeek 主要使用的是点。 拓扑推理关心的不是某个物体是什么,而是路径、连通性和结构关系。比如迷宫里从起点能不能走到终点,一堆交错的线条中,某一条线最终连到哪个图标。这类任务对多模态模型尤其困难,因为它要求模型持续跟踪路径,而不是看一眼就回答。 报告中说,纯语言的思维链很难准确描述不规则形状的轨迹,因此使用点作为认知单元的视觉基元,特别适合处理这类问题。 在迷宫导航任务中,DeepSeek 会让模型先找到起点和终点,然后像做深度优先搜索一样探索路径。模型每走到一个关键位置,就用点坐标记录下来;如果遇到死路,就回退到前一个岔路口,再尝试另一条路径。报告中提到,模型需要理解空间连通性和可达性,也就是判断哪里有路、哪里被墙挡住、哪条路径最终能到达终点。 在线条追踪任务中,模型也会用一串点来表示自己沿着哪条线走。报告中说,这类任务的核心挑战是交叉点消歧:当两条线交叉时,模型必须根据局部几何连续性判断哪一条才是目标线的延续,而不是被另一条线带走。为了防止模型只是靠颜色猜,DeepSeek 还设计了所有线条颜色和粗细都一样的样本,迫使模型真正根据曲线连续性来追踪路径。 04 视觉基元并不是终点 不过,使用视觉基元进行思考,并不意味着视觉推理问题已经被彻底解决。它最大的优势,是让模型的视觉推理变得更稳定,也更容易被验证。 这会带来两个直接好处。 一是减少幻觉。模型如果要判断“这里有没有紫色橡胶物体”,就不能只凭语义猜测,而要先在图中找出候选物体,再逐一排除。二是提高可解释性。比如模型说一张图里有 25 个人,如果它同时框出了这 25 个人,用户就能判断它有没有漏数、重复数,或者把其他物体误认成人。 这也是为什么 DeepSeek 的视觉模式在网页复刻、迷宫求解、复杂图像问答这类场景中会显得更有用。网页复刻需要模型理解页面里的模块、层级和布局关系;迷宫求解需要模型持续追踪路径;复杂图像问答则要求模型在多个视觉线索之间来回比对。它们共同需要的不是一句笼统的图片描述,而是模型能够稳定地“看图说话”。 另一个优势是效率。报告中提到,DeepSeek 并不是简单依赖大量视觉 token 来弥补视觉能力,而是通过更高效的视觉 token 压缩架构,让模型在较低图像 token 消耗下仍然保持较强的推理能力。报告中说,对于 800×800 的输入图像,其模型在 KV cache 中只保留大约 90 个条目,却能在计数和空间推理等基准上取得有竞争力的表现。 DeepSeek 想走的路线,并不是无限提高分辨率、堆更多图像 token,而是让模型更有效地使用视觉信息。 但这套方法也有局限,报告中提到这类方式有三部分的局限。 首先是受输入分辨率限制,模型在细粒度场景下的表现仍然不够理想,有时会输出不够精确的视觉基元。也就是说,如果图像里的目标非常小、细节非常密,或者需要识别的区域边界很模糊,点和框本身也可能标得不准。视觉基元能改善指代问题,但它不能完全替代感知能力。模型首先要看清楚,才谈得上指得准。 第二个局限,这种能力目前还依赖显式触发。报告中说,当前使用视觉基元进行思考的能力需要通过明确触发词来激活,未来希望模型能够根据具体上下文,自主判断是否调用这一机制。 这意味着,现在模型未必会在每个需要的场景里自动使用这项能力。用户如果只是普通地问“这张图里有多少人”“这条路能不能走通”,模型可能仍然用普通语言推理,而不是主动输出点、框或路径。真正理想的状态应该是,模型自己判断这个问题是否需要精确视觉定位。如果是计数、路径、空间关系这类任务,它就自动拿出“手指”;如果只是描述画面氛围,就不必调用这套机制。 第三个局限,是拓扑推理仍然很难。报告中说,使用点作为视觉基元来解决复杂拓扑推理问题,仍然是一项艰巨挑战,目前模型的跨场景泛化能力也有限。 这不难理解。点可以告诉模型“我现在走到哪里”,但点本身并不直接表示“这里和那里是否连通”。在迷宫里,两个点看起来很近,中间可能隔着一堵墙;在交错线条中,两条线可能在视觉上相交,但实际并不是同一条路径的延续。模型不仅要标点,还要持续判断连通关系、路径方向和局部几何连续性。只要中间某一步走错,后面的推理就可能全部偏掉。 所以,视觉基元让模型开始能够在图像中定位、比较和追踪。但要真正处理开放世界里的复杂视觉问题,还需要更强的感知能力、更稳定的自主调用机制,以及更好的跨场景泛化能力。 在视觉理解层面,DeepSeek 给出的答案是,让图像不再只是输入材料,而是成为模型推理过程的一部分。模型不只是看见世界,而是开始学会在世界中找到锚点。 这不像是一个附带的研究,更像是DeepSeek对视觉的最重要的一个不同的理解。因此这次罕见的删除论文行为也引起不少遐想,有人认为它对于开源模型来说“太强大”了,以至于不适合发表。真相如何可能要等DeepSeek自己给出解释了。
DeepSeek连夜删掉的新论文,到底说了什么
昨晚 DeepSeek 多模态研究员陈小康在 X 上发了一条推,并公布了DeepSeek 关于多模态技术的新论文《Thinking with Visual Primitives》,表示「Excited to release」。 今天一早,推文删了,GitHub 上的论文也撤了。 但 APPSO 在它消失之前把全文读完了。读完之后觉得,这篇论文被撤可能不是因为内容有问题。 恰恰相反,它可能透露了太多了。 前天我们刚实测完 DeepSeek 的识图模式,让它数手指,它思考了一通,自己吐槽「我真的是数晕了」,然后答错了。当时以为是灰测阶段的小问题。 这篇论文告诉我们,数手指数晕这件事,背后藏着一个 GPT、Claude、Gemini 集体没解好的技术瓶颈。 而 DeepSeek 给出的解法,说出来几乎有点可笑的朴素:给 AI 装一根手指。 陈小康在那条推文里写道: 「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」 「传统的思维链停留在语言空间里,但视觉推理需要更多。通过使用点和框作为认知锚点,我们的模型弥合了「引用鸿沟」,模拟了人类「边指边想」的协同机制。」 看得清和指得准,是两回事 目前所有多模态大模型做图像推理,本质都是把看到的画面转化成文字,然后在文字空间里做思维链推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash,全是这个路子。 过去两年,OpenAI、Google、Anthropic 的改进方向集中在一个问题:怎么让模型看得更清楚。高分辨率裁切、动态分块、把图片放大再塞进去。DeepSeek 管这个叫 Perception Gap,感知鸿沟。 但这篇论文指出了另一个瓶颈:Reference Gap,引用鸿沟。模型看清了,但在推理过程中没法精确指向图中的某个东西。 你可以这样理解:一张图里 25 个人密密麻麻站在一起,你用语言去描述「左边第三排穿蓝色球衣那个人旁边的那个」,描述本身就是模糊的。模型数着数着就丢了上下文,忘了刚才数到谁。 人类怎么解决这个问题?够原始的:伸出手指,指一个数一个。 284B 参数的模型,装上了一根手指 DeepSeek 的方案:让模型在思考过程中直接输出图片上的坐标。 想象一下,模型看到一张图里有很多人,它的思维链不再是「我看到左边有个穿蓝衣服的人」,而是「我看到这个人」然后附上一个框的坐标,把人圈出来。每数一个人就圈一个框,圈完之后数框的数量就行了。 两种坐标格式:一种是框(bounding box),画个矩形把物体圈住,适合标定物体位置;一种是点(point),在图上戳一个位置,适合追踪路径和走迷宫。DeepSeek 管这两种东西叫「视觉原语」,最小的思维单元。 关键变化在这里:以前模型输出坐标是作为最终答案(「目标在这里」),现在坐标嵌入了思考过程本身。坐标是草稿纸上的标记,不是答卷上的答案。 把一张图压缩 7056 倍,然后还能数清楚里面有几个人 模型底座是 DeepSeek-V4-Flash,一个 284B 参数的 MoE 模型。MoE 的意思是:模型脑子很大,但每次回答问题只调用一小部分神经元来干活,推理时只激活 13B 参数。类似于一个百人团队,每个任务只派 5 个人上场。 视觉编码器这边,做了三级压缩。打个比方:你有一张照片要发给朋友,网速很慢。第一步,你把照片切成小方格备用;第二步,每 9 个小方格合并成 1 个(3×3 压缩);第三步,再在传输时进一步精简掉冗余信息(KV Cache 压缩 4 倍)。 实际数字:一张 756×756 的图,57 万像素,一路压下去变成 81 个信息单元。压缩比 7,056 倍。 我看到这个数字的第一反应是:这还能看清东西?但论文里的结果说明,确实能。不光能看清,还能精确数出图里有 25 个人。 对比一下:同样 800×800 的图,Gemini-3-Flash 消耗约 1100 个 token 来表示这张图,Claude-Sonnet-4.6 约 870 个,GPT-5.4 约 740 个。DeepSeek 在最终计算时只用 90 个信息单元。别人用一千多个格子来记住一张图,DeepSeek 用 90 个格子就够了,然后腾出来的算力全拿去「指」。 4000 万条训练数据怎么攒出来的 DeepSeek 从 Huggingface 等平台把所有带「目标检测」标签的数据集都爬了下来,初筛得到 97,984 个数据源。 然后做了两轮筛选。 第一轮查标签质量。用 AI 自动审核三类问题:标签是无意义的数字编号(类别名叫「0」「1」的那种)、标签是私人实体(「MyRoommate」)、标签是模糊缩写(工业检测里的「OK」「NG」,一个苹果「OK」和一个电路板「OK」长得完全不一样,AI 学不了)。这轮砍掉 56%,剩 43,141 个。 第二轮查框的质量。三个标准:漏标太多的(标了一半就不标了)、框画歪了切掉物体一半的、框大到把整张图都框住的(说明原始数据是图片分类硬转成的检测数据,没有定位信息)。再砍 27%,剩 31,701 个。 最后按类别采样、去重,产出超过 4000 万高质量样本。 DeepSeek 选择先把框的数据做大,点的数据后面再补。原因也简单:你让 AI 标一个框,答案基本唯一(把物体刚好圈住);但让 AI 标一个点,物体上哪个位置都算对,没有唯一正确答案,训练信号太模糊。而且框本身就包含了两个点(左上角和右下角),学会画框之后标点就是降维操作。 怎么把「指」这个能力教给模型 后训练的策略是「先分头练,再合并」。 DeepSeek 先拿框的数据训练一个专门画框的专家模型,再拿点的数据训练一个专门标点的专家模型。分开训练是因为数据量还不够大,两种能力混在一起容易互相干扰。 然后对两个专家分别做强化学习。怎么判断模型「画对了框」或「走对了路」?DeepSeek 设计了一套多维度的打分系统:格式对不对(坐标语法正确吗)、逻辑通不通(思考过程有没有自相矛盾)、答案准不准(最终结果和标准答案差多少)。 强化学习的数据筛选也有讲究:先让模型做 N 遍同一道题,全做对的题太简单没训练价值,全做错的题太难学不到东西,只留「有对有错」的题来练。 最后一步是把两个专家的能力合到一个模型里。具体做法:让统一模型照着两个专家的输出去学,类似于一个学生同时跟两个老师学不同科目。 给了它手指之后,它是怎么数数的 数 25 个人 给模型一张足球队合照,问「图里有多少人?」 思考过程:先判断「这是团队合照,要数所有人,包括球员和教练」。然后一次性输出 25 个框坐标,每个人身上圈一个框。接着按排数统计:前排坐着 4 个 + 中排 9 个 + 后排 8 个 + 左侧 2 个教练 + 右侧 2 个教练 = 25。 「地上的熊有几只?」 图中有三只熊。模型逐一给每只画框并判断位置:第一只,在树干上垂直攀爬,排除;第二只,在岩石边缘走动,算;第三只,在碎木和泥土间,算。答案:2 只。 不是先数出三只再减一只,而是对每只都做了「是不是在地面上」的判断,每个判断背后都有一个具体坐标锚定。它真的在逐个检查,不是在猜。 多跳空间推理 一个 3D 渲染场景里有一堆彩色几何体。问题:「存不存在一个紫色橡胶物体跟灰色金属物体一样大?」 模型先框出灰色金属球体,确认是个小号物体。然后逐一框出场景里其他小号物体:棕色金属圆柱、蓝色金属方块、蓝色橡胶方块、黄色橡胶圆柱……六个物体逐个查,颜色、材质、大小三个属性一一核对。结论:不存在紫色橡胶的。 六次定位,六次判断。每一步都有坐标锚着,不会出现「等等刚才查到哪了」的情况。 论文中更多案例参考: 迷宫导航:别人掷硬币,DeepSeek 真的在搜索 论文测了四种任务,迷宫是差距拉得最开的一个。 任务很直接:给一张迷宫图,问从起点到终点有没有路,有的话画出来。迷宫有三种形状,方格的、圆环的、蜂巢的。 模型走迷宫的方式跟你小时候用铅笔在纸上画一样:选一条岔路走到头,走不通就退回来试另一条。区别是它每走一步都在图上标一个坐标点,留下记录。 论文里展示了一个圆形迷宫的完整过程:模型先标出起点和终点的位置,然后开始探索。走了 18 步,中间两次钻进死胡同又退出来,最后绕出了一条通路,把整条路径的坐标点串起来输出。 DeepSeek 还设计了一批陷阱迷宫:乍一看有路,但中间某段被偷偷堵住了。这种迷宫考的是耐心,模型不能只看起点附近的走势就下结论,得老老实实把能走的路都试一遍才能确认走不通。 准确率对比: - DeepSeek:66.9% - GPT-5.4:50.6% - Claude-Sonnet-4.6:48.9% - Gemini-3-Flash:49.4% - Qwen3-VL:49.6% 迷宫只有两种答案:有路,或者没路。随机猜正好 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近晃,跟掷硬币没什么区别。DeepSeek 的 66.9% 不算高,但它确实是在一步步走的,不是在蒙。 路径追踪:大家来找茬的终极版本 这个任务更直观:一堆线缠在一起,每条线从一个标记通向另一个标记。你的耳机线从口袋里掏出来是什么样,画面就是什么样。题目问你:C 这条线通向哪个终点? 模型的做法是沿着线一路输出坐标点,像手指划过纸面。线弯得厉害的地方点标得密,直线段标得疏。人用眼睛追一根线的时候也是这样,弯道处慢下来,直线处一扫而过。 论文还加了一个加难版测试:所有线颜色粗细都一样。不能靠颜色区分是哪根线了,只能靠曲线本身的走势连续性来判断交叉口该跟着哪条走。 - DeepSeek:56.7% - GPT-5.4:46.5% - Claude-Sonnet-4.6:30.6% - Gemini-3-Flash:41.4% Claude 的 30.6% 有点出乎意料。终点一般有四五个选项,随机猜也该有 20% 出头,30.6% 只比瞎猜强一点点。可能它在这类纯空间追踪任务上,语言推理的惯性反而帮了倒忙。 怎么教 AI 走迷宫不作弊 迷宫的训练有一个现实问题:如果只看最终答对没答对来给分,模型很快就学精了,与其费劲搜索还可能答错,不如直接猜一个,反正认真走了答错跟没走答错,分数一样是零。 DeepSeek 的解决办法是把过程也算进分数。每一步合法的探索都给分,穿墙扣分,走得越远越好。哪怕最后没到终点,只要认真搜索了大部分区域,也能拿到不错的成绩。这样一来,模型就没有偷懒的动力了。 不可解迷宫的要求更高:不能光说一句「走不通」,还得证明你确实把能到的地方都走遍了。搜索覆盖率也算分。 一个彩蛋,三个局限 后训练数据里没有中文。但模型能用中文做视觉原语推理。 给它一张咖啡机的照片,用中文问「怎么做拿铁」,它用中文标注了蒸汽棒、奶壶、咖啡豆、拿铁按钮的位置坐标,然后给出操作步骤。多语言能力是从基座模型那里继承的,视觉原语的训练没有把它破坏掉。 它还能把看图和世界知识结合起来:给一张金门大桥的照片问「这附近有 NBA 球队吗?」它先框出金门大桥,推理出这是旧金山,然后回答金州勇士队。 能理解幽默:一块水果切面上的天然斑点恰好组成了一张忧郁猫脸的模样,模型能指出相似点在哪里并解释为什么好笑。 能做密室逃脱指导:框出高处的钥匙、地板上的椅子、带锁的门,建议「把椅子搬到钥匙下方 → 踩上去拿钥匙 → 去开门」。 论文很坦诚地写了目前做不到的事。 输入分辨率有限制。ViT 输出被卡在 81 到 384 个视觉信息单元之间,遇到很精细的场景(比如数手指这种),坐标精度还不够。这可能就是前天实测时数手指翻车的直接原因。 目前需要特定触发词才能激活视觉原语模式。模型还不能自己判断「这道题我该伸手指来做」,得有人提醒它。 拓扑推理的泛化能力有限。在训练过的迷宫类型上效果好,换一种新的空间结构就可能掉链子。陈小康在那条已删推文里也说了: 「We're still in the early stages; generalization in complex topological reasoning tasks isn't perfect yet, but we're committed to solving it.」 「我们还在早期阶段,复杂拓扑推理任务的泛化还不完善,但我们会持续解决。」 前天实测时,DeepSeek 识图模式展现的那些能力(追问发布者身份、联想鲸鱼 logo 含义、自我纠正、给自己开「小型答辩会」),和这篇论文描述的思维方式一脉相承。它在脑中建立视觉锚点,围绕锚点做推理,碰到矛盾就回溯修正。 而数手指数晕了,就是 Reference Gap 的活体演示。手指交叉重叠的画面里,纯靠语言描述去区分「从左数第三根」和「从右数第二根」,跟你自己不伸手指去数一群挤在一起的人一个道理,注定混乱。 这篇论文指向的方向是:多模态推理的下一步进化在锚定机制上。DeepSeek 用 90 个信息单元就打平了别人用上千 token 的效果,省下来的算力全拿去让模型「一边想一边指」。 分辨率军备竞赛可以缓一缓了,教会模型伸出手指,比给它配一副更贵的眼镜管用。 这只鲸鱼开了眼之后,还长出了手指。66.9% 的迷宫准确率离完美还远,但至少它在认真走,不像隔壁那几位在掷硬币。
杭州一35岁AI质检项目主管被“AI取代”裁员后,获赔26万
文 | 失业君小编 图 | cottonbro studio “你的岗位被AI取代了。” 杭州某科技公司35岁的项目主管小周听到这句话的时候,大概整个人都懵了。他过去几年的工作,就是给AI大模型当“质检员”,判断AI跟用户对话生成的答案是否正确。讽刺的是,这个因AI而生的岗位,最终又被AI“吃掉”了。 公司给小周开出的条件很直接:从主管降为普通岗位,月薪从2.5万砍到1.5万。小周不接受,公司便直接发了解除劳动合同的通知。理由听上去似乎“很有道理”:AI技术升级了,原来的活AI自己就能干,你的岗位不存在了。 然而,仲裁机构和法院都没惯着这家公司。杭州中院认定企业构成违法解除劳动合同,判决按2N标准支付赔偿金,合计26万余元。 判决一出来,打工人集体沸腾。但冷静下来想想,这个案子真正触动人心的,其实就三个字:凭什么? 第一个“凭什么”:AI来了,你就敢随便裁人? 很多老板可能想当然地认为:技术升级了,岗位消失了,解除劳动合同不是天经地义吗? 法律可不这么看。 《劳动合同法》第四十条第三项确实规定了“客观情况发生重大变化”时企业可以解约的路径,但这个“客观情况”的门槛非常高。按照北京市高院和仲裁委的权威解释,它必须具备“不可抗性”和“不可预见性”,典型情形是自然灾害、政策法规调整等超出企业常规经营决策范围的变化。 引入AI技术是什么?是企业为了提升效率、降低成本做出的主动商业选择。说白了,这是你自己拍板决定的,不是天灾,不是政策禁令,完全是你的经营策略。各地仲裁机构和法院对这一点已经有了高度共识:企业主动引入AI属于自主经营决策,不具备法定“客观情况”的不可抗性和不可预见性。企业因技术升级撤销岗位,实质是把正常的技术迭代风险转嫁给劳动者。 说得再直白一点:你想省钱可以有,但省下来的成本你不能全让员工一个人扛。 更何况,这家公司的调岗方案堪称“羞辱式”的,薪资砍掉40%,主管降为普通岗。法院直言,这样大幅下降的调岗方案,不能认定为合理的协商方案。公司所谓的“协商”,不过是走个过场,骨子里打的算盘恐怕就是逼你主动走人。 第二个“凭什么”:35岁,就该为AI腾地方? 这个案子之所以在网上炸了锅,“AI替岗”是引信,但“35岁”才是火药桶。 当事员工刚好35岁。35岁,在当下的职场文化里几乎是一个黑色幽默般的数字。很多大厂招聘明目张胆卡35岁的线,很多公司“优化人员”时也专门盯着这个年龄段。哪怕你的工作能力没有任何问题,哪怕你刚刚还在给AI做质检、是正儿八经的技术岗位,一句“成本太高了”就能判你出局。 而这一次,公司又多了一张新牌:AI! “不是我们要裁你,是AI要取代你啊。”这句话的杀伤力,比“降本增效”狠得多。 因为它暗示的不是你这个人不行,是你这个人种不行了。这种话术一旦被纵容,AI就成了企业清退老员工的万能借口:不是35岁不好用,是AI比你便宜;不是老员工经验不值钱,是机器不用交社保。 杭州中院这次判决最硬气的地方,就是把这种“甩锅式裁员”直接定性为了违法。承办法官说得很清楚:公司解约并非经营不善、裁撤业务,仅以AI的成本优势为由,不属于客观情况重大变化。法院用判决告诉企业:技术革新不是你们随意处置劳动者的遮羞布。 第三个“凭什么”:技术向善的底线由谁来守? 有管理学者说得犀利:用AI来裁员,说明企业领导层缺乏想象力,看不到技术背后的无限可能。真正有远见的企业,应当优先考虑对劳动者进行培训,使其适应更高阶的岗位。 这话说得好听,但现实往往不是这么回事。 小周的遭遇绝非孤例。近年来,上海、北京、广东等多地都出现了因“AI替岗”引发的劳动争议,停车场收费员、数据分析师、平面设计师、内容审核员……被AI冲击的岗位名单越来越长。2025年杭州全市法院新收劳动人事争议案件同比激增61.68%,竞业限制、技术引发的调岗降薪等新型纠纷不断增多。人社部已经明确表示将出台应对人工智能影响促就业的专门文件。 法律层面的“定音锤”已经落下:杭州中院在“五一”劳动节前夕专门召开新闻发布会公布这批典型案例,释放的信号极其清晰:企业将AI当作裁员的“挡箭牌”,可能触碰法律红线。 但当AI替岗从个案变成浪潮,法律能够做到的,终究是守住底线,而不是替所有人兜底。 法律守住的到底是什么? 26万赔偿金,对于年入30万的小周来说不算一笔巨款。这个判决真正的分量,不在于那串数字,而在于它在一个技术狂飙的时代,给所有打工人一个确定性的回答—— 技术怎么变都行,但人不是耗材。 企业可以追求效率、拥抱AI、转型升级,这些都没问题。问题是,你享用了技术红利,就得承担相应的社会责任。协商变更合同、提供技能培训、进行内部岗位调剂,这些才是面对变化的正道。简单粗暴地把人扫地出门,既不合规,也是一种管理上的懒惰。 法律的红线已经划好了。接下来,就看企业的人性,跟不跟得上了。
小米、iQOO巨屏新机轮番炸场,5月这些新机卷疯了
4 月的手机市场堪称 2026 年第一场「大乱斗」,华为祭出 Pura 90 系列、PuraX Max 大阔折手机,vivo、OPPO 交出自己的全新影像超大杯旗舰,小米、一加性能中端再加码等等。 一转眼来到 5 月,相比起刚刚过去的 4 月份,的确没有那么多旗舰级新品到来。不过,由于临近 618 大促,不少厂商也有一些诚意之作要在这个月登场,比如小米、iQOO 全新定位的新机,荣耀 600 系列、OPPO Reno 16 系列等等。 (图源:techedt) 那么这个月的新机们,到底有哪些值得期待的亮点呢?接下来就跟着小雷一起看看吧。 小米、iQOO,新巨屏之争 有在关注今年手机市场的朋友应该都注意到了,内存涨价带来的压力已经慢慢传导到终端市场,不少新机不是直接涨价,就是在配置上做取舍。与此同时,手机厂商也开始重新梳理产品线。年初,一加就在 Turbo 6 发布会上对三大产品线的定位进行了调整,说到底,也是想让产品涨价这件事看起来别那么突兀。 在这种背景下,一些全新定位的新机开始出现在爆料信息里,例如小米 17 Max 和 iQOO 15T。 小米 17 Max 的定位介于小米 17 Pro 与小米 17 Pro Max 之间,预计搭载 6.8 英寸超大尺寸 OLED 面板,才用 LIPO 技术,极窄四等边直屏。 与此前发布的小米 17 系列家族相比,小米 17 Max 最大的特点在于搭载 2 亿像素主摄、3X 潜望长焦,这也是小米数字系列第一次用上 2 亿像素主摄,预计为三星 HPE 传感器,拥有 1/1.4 英寸大底。 (图源:小米) 电池方面与外围配置方面,小米 17 Max 搭载 8K+金沙江电池,3D 超声波指纹、对称式双扬声器都没有缺席。只可惜马达部分用的还是 0809 规格马达,在振感上可能稍微逊色一些。 小米 17 Max 作为一款全新定位的旗舰系列新机,它整体的配置还是卡在一个很精准的位置上,在最重要的影像部分,稍弱于小米 17 Pro Max,但主摄的 2 亿像素又稍高于小米 17 Pro,且尺寸与前者几乎一致,可以视作是简配版的「Pro Max」。 另外,小米 17 Max 也同样搭载了骁龙 8 Elite Gen 5 移动平台,但最有意思的背屏可能要拿掉了。至于价格方面,雷科技预测大概会落在 5000 元档,毕竟骁龙 8E5 虽然是旗舰芯片,但还有几个月 8E6 就要发布了,这时候还在推上一代旗舰芯片的新机,不太可能会涨价太多。 同样是新定位的新机,还有 iQOO 15T。 iQOO 15T 也算是 iQOO 数字旗舰系列里的新成员,算下来今年 iQOO 15 系列已经发布了两款,分别是标准版和 Ultra,如今加上一款 iQOO 15T,家族愈发壮大了。 硬件上,iQOO 15T 搭载天玑 9500 移动平台,配备 6.82 英寸 2K 大直屏,预计为 iQOO 15 同款,主摄为两亿像素传感器,大概率是三星的 HP5 传感器,1/1.56英寸,表现中规中矩。 (图源:iQOO) 其实,熟悉 iQOO 产品线的朋友可能发现一些问题了。iQOO 15T 很有可能就是原本的 iQOO Neo 系列,具体来说应该是 iQOO Neo11 Pro 的「换皮版」,毕竟从配置上看,它怎么样都够不到 iQOO 数字系列的标准。 一款是定价 5K 档的小米 17 Max、一款是换名涨价的 iQOO 15T,这两款新机其实共同点还挺多的,同样是大屏,也同样是用新定位抢占不同价位档的新机,但新定位同样也需要面对更多市场的风险,大屏在 2026 年并不新鲜,给大屏机换一个更有记忆点的名字也不难,真正难的是,厂商能不能让这些新机给新后缀开一个好头,让用户相信这款手机值得被放在这个系列里。 荣耀、OPPO 决战线下市场 如果你还记得此前荣耀在中国香港 Apple Store 贴脸开大的新闻,没错,那款就是即将在 5 月发布的荣耀 600 系列。 (图源:小红书) 荣耀 600 系列依然分为两款,分别是标准款和 Pro 版,前者搭载骁龙 7 Gen 4 移动平台,后者则是骁龙 8 至尊版移动平台。两款新机均为两亿像素主摄,但荣耀 600 Pro 增加一颗 3.5X 的 5000 万像素潜望式长焦镜头。 目前还不确定荣耀 600 系列在中国大陆发布的版本硬件和设计是否会有调整,但按照此前荣耀数字系列代与代之间的升级幅度来看,大概率相差不会太明显。不过,至少电池容量方面,爆料称工程版测试的是 8000-9000毫安时的大容量电池,这在线下手机市场里可以说是很有杀伤力了。 (图源:荣耀) 据悉,为了控制定价,荣耀 600 标准版可能会增加一个 8GB 版本,将起步价控制在 3000 元档,荣耀 600 Pro 的 1TB 版本大概率也会取消。按照这么看,内存涨价对厂商的定价还是影响挺大的。 而 OPPO Reno 16 系列这边的打法却不太一样。 OPPO Reno 16 在爆料信息中可能会有三款新机,包括 Reno16、Reno16 Pro 和 Reno16 Pro Max,其中超大杯将在更晚一些时候发布。与前一代相比,Reno16 Pro 最大的升级主要是性能上的提升,从天玑 8 系芯片升级到天玑 9400+,也算是够到了旗舰级的性能。 (图源:OPPO) 至于外围配置上,整体提升幅度不算太大,超声波指纹、金属中框、2 亿像素主摄和潜望长焦,这些也基本都给足了。为了保轻薄手感,这一代电池大概率没有很大提升,尽量控制在 7000 毫安时左右。 现在唯一比较令人好奇的就是,OPPO 会不会选择将此前曝光已经在研究中的方形前置传感器在 Reno16 系列上首发呢?假如真的在这一波新机里首发,那竞争力就非常强了,毕竟 5 月恰逢 618 大促和高考生暑期档,正是学生党换手机的好时机。 说到底,涨价对这类主打线下市场的新机影响,可能比很多人想象中还要更大。因为这类产品最核心的竞争力,从来都不是参数表里某一项特别夸张的配置,而是在线下门店里能不能让消费者觉得很值,那具体什么能体现呢?荣耀这一代All In 大电池、OPPO 留守颜值阵地,在雷科技看来就是各自找到了对的方向。不过话说回来,这一切都还是要取决于价格怎么定,如果定价一下子涨太多,恐怕消费者也很难接受。 索尼、联想,另类玩家再出手 和前面几家比起来,联想和索尼这两款新机的路子,其实都还挺小众的。 先看联想拯救者 Y70 新一代。按照联想这几天的官宣信息,这台手机会在 5 月 19 日发布,这也是 5 月第一场明确定档时间的手机发布会。从官方信息来看,Y70 新一代拥有 8000mAh 星环电池、2K 猎速电竞屏,以及凝胶+液金+VC 组合散热。 从这些配置也能看出来,这台机子还是老样子,主打的就是游戏场景。其实 2023 年联想的电竞手机业务就停过一阵子,主要还是整个电竞手机市场相对于大众场景还是小众一些,很多普通旗舰把高刷屏、大电池、强性能都补上来之后,会专门买这类电竞手机的玩家就更少了。 (图源:联想) 不过,联想此前拯救者电竞手机做得也确实是不错的,散热、极限性能,包括一些稳帧技术等,在行业内都是数一数二的。联想拯救者能够回归电竞市场,对于消费者来说也是一件好事,至少选择空间更大了,不必再围着那两三个牌子转了。 索尼这边就更不用说了,每年新旗舰出来,关注的人其实一直都是那一拨,大家也都当个乐子看看。只不过今年索尼的确玩很大,外观设计彻底改了,索尼粉丝都看不下去了。 按照目前泄露出来的渲染图和相关爆料,Xperia 1 VIII 可能会改用更接近方形的后摄模组,机身厚度也有所增加,芯片则被传会升级到骁龙 8 Elite Gen 5,同时保留索尼一贯坚持的对称边框、实体快门键和 3.5mm 耳机孔。索尼 Xperia 1 系列多年坚持的纵向简洁排列后置 Deco 变成了方形,有人说像小米、也有人说像三星,总之就是索尼味儿没了。 (图源:Oneleaks) 其实,索尼这几年在手机市场的存在感已经很低,Xperia 新旗舰更多时候像是给粉丝准备的新机,或者展示一下自家新技术,至于能卖出去多少台,或许索尼自己也不在乎。 前面的小米、iQOO、荣耀、OPPO 的升级点,基本都是围绕着「要如何在涨价潮里抓住机会」去做的新机,无论是新定位、还是做独特的配置,但联想和索尼则更像是在继续守自己的小圈子,一个还想再闯一次电竞手机圈,一个则还是坚持做那台只有索粉最懂的旗舰。 但不管怎么说,你很难不承认 Xperia 1 VIII 和联想拯救者 Y70 新一代可能是 5 月最有趣的两款新机。 涨价潮之下,新机都在各找位置 从目前已有爆料信息的 5 月新机来看,它们各自的目标都很明显,有想靠新定位切出新价位段,也有在线下市场靠特色功能吸引消费者的,还有在小众市场里继续挖掘潜力的。藏在这些决定之下的,其实就是今年的手机市场真不好过。 IDC 的数据显示,2026 年第一季度中国智能手机市场出货量约 6900 万台,同比下滑 3.3%;Counterpoint 数据则显示第一季度手机市场出货量同比下滑 4%。据报道称,中国市场上部分安卓品牌已经因为内存成本上涨而调高售价,这种压力至少会持续到 6 月前后。而从雷科技的现场观察来看,4 月的新机里,包括一加 Ace 6 至尊版、REDMI K90 Max、vivo X300 Ultra、OPPO Find X9 Ultra,均比前一代定价有所上涨,最高涨幅达 1000 元。 (图源:雷科技现场摄制) 如此一来,小米 17 Max、iQOO 15T为何选择在这个时间点上市,就很容易理解了,大屏、大电池、超声波指纹、双扬声器这种用户上手就能体验到的硬件,更能在这个涨价潮里撑得起高价位,而它们也不会与现有的产品相冲突,一举两得。荣耀 600 和 OPPO Reno 16 这类线下手机,也找到了独特的定位,如大电池、影像表现不错等,主要吸引的就是实用主义的消费者。 另外,5 月这个时间点本身也很微妙,它卡在 618 前面,不只是一个“新机发布时间”,还是手机厂商们抢占年中大促热度的一枚棋子。虽然部分手机厂商已经明确不参与促销活动,但大促的曝光度配合新机发布的热度,多多少少还是会吃上一些红利。 更直白地说,雷科技观察到 2026 年前几个月下来手机市场的一个变化就是,曾经的机海战术在今年已经不怎么奏效,从前一个系列里布局好几台定位相近的新机,如今也变成更精准的卡价位机型。虽然 5 月的新机没有 4 月那么精彩,但它确实更能反映接下来手机市场的一些变化,尤其是涨价带来的机型定位改变。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。