行业分类:
加载中...
头条分类:
加载中...
中科院系AI企业中科闻歌港股IPO备案通过,决策智能市占率领先
凤凰网科技 出品 港股或将迎来一家备受关注的AI企业—2026年4月12日晚间,香港联交所公布了北京中科闻歌科技股份有限公司提交的招股书,由中金公司独家保荐。这家中科院自动化研究所孵化的AI企业,拟以“特专科技公司”身份登陆港股主板。 两天前,中国证监会国际合作司发布备案通知书,确认中科闻歌境外发行上市及境内未上市股份“全流通”备案。该公司47名股东所持合计1.58亿股境内股份,获准转为境外上市股份并在港交所流通。 招股书披露的财务数据显示:2023年、2024年及2025年,中科闻歌分别实现收入2.50亿、3.18亿及4.05亿元人民币,复合年增长率为27.4%;毛利率分别为44.0%、50.4%及51.2%。值得关注的是,公司2025年净收入留存率达到139.5%,显示出强劲的客户粘性和业务扩张能力。 公司自主研发的核心产品包括决策智能操作系统(DIOS)、雅意大模型(YAYI)及X-Data数据平台,服务覆盖传媒与通信、公共服务及商业企业三大板块。截至2025年底,公司已服务超过650家政企客户,客户数量从2023年的262家增至2025年的404家。 “按2024年收入计,中科闻歌在中国企业级大模型驱动的决策智能服务提供商中排名第一,市场份额达11.4%。”招股书中也披露了灼识咨询——一家国内知名咨询公司提供的资料,“(中科闻歌)在中国企业级大模型市场中排名第七,市场份额为2.4%。” 目前,该公司仍处于商业化早期阶段。同期净亏损分别为2.60亿元、1.57亿元及1.66亿元,三年累计亏损约5.83亿元。招股书称,亏损主要源于研发领域的持续战略性投入,以及为迅速扩大客户群及提升市场渗透率所付出的投入。 中科闻歌成立于2017年3月,由中科院自动化研究所科学家团队王磊博士、罗引博士、曾大军博士联合创立。公司核心研发团队汇集了超过30位资深人工智能科学家,其中五位核心研发人员代表在AI相关行业平均拥有超过十年深厚研发经验。截至2025年底,公司研发团队共250名员工,占全职员工总数的43.9%。作为中国科学院联合团队,研发磐石科学基础大模型及其应用。 招股书显示,中科闻歌以特专科技公司身份申请上市,适用港交所上市规则第十八C章。公司此次港股上市募资将主要用于:持续升级基础模型与核心研发能力;深化产品服务矩阵并拓展跨行业客户覆盖;寻求战略并购与海外业务拓展机会;以及补充营运资金。募资将强化其"数据+模型+应用"的全栈决策智能体系,推动技术规模化商业落地。
DeepSeek,该卸下扫地僧的枷锁了
我每次翻《天龙八部》,翻到少林寺藏经阁那一段,都要停下来。 萧远山、萧峰父子对上慕容博、慕容复父子,鸠摩智再从旁搅局,三十年的血海深恨搅在一处,眼看就要分出生死。就在这当口,一个枯瘦的扫地僧走了出来。 萧峰的降龙十八掌打在他身上,他虽受内伤吐血,却以浑厚内力生生受之;他举手投足间让慕容博陷入「假死」复又救活,这种生死由心的境界,令在场一众顶尖高手莫不震慑失语。 这一刻,谁强谁弱,答案不言而喻。 AI 圈最近几年,流行把 DeepSeek(深度求索)比作这位老僧。在所有人眼里,AI 赛道的格局早已注定,海外有御三家,国内有大厂和彼时风头正盛的 AI 六小虎,轮不到旁人来置喙。 结果一家做量化交易出身的中国公司,悄没声儿地走出来,用一套从天而降的招法,在各项核心评测上与这帮人正面交手,打得有来有回。 只是,扫地僧出场,是《天龙八部》行将收尾的时刻。他的使命是终结纷争、化解戾气,然后全书走向尾声。可大模型的故事,没有尾声,也没有终章,只有下一回,还有下下一回。 把 DeepSeek 比作扫地僧,是对它过去的最高赞誉,但如果这三个字正在慢慢变成困住它的枷锁,我倒觉得,赞誉和催命符,有时候只在一念之间。 扫地僧是怎么练成的 金庸写扫地僧,从来不正面写他的功夫。他写的是别人的反应,萧峰愣了,慕容复愣了,旁观的人也愣了。高手的境界,要从旁人失语的瞬间才能传递出来。 DeepSeek 的故事,也暗合这个逻辑。 作为杭州的一家对冲基金,外人提到幻方量化,第一反应是期货、是算法交易、是数学天才们盯着屏幕上跳动的数字。这和 AI 大模型,八竿子打不着,却悄悄把一批工程师和研究员聚在一起做大模型。 2023 年 11 月,他们发布首个开源代码大模型 DeepSeek Coder,后续拿出了一个 67B 的语言模型。在官方给出的多项评测中,67B 超过了 LLaMA2 70B,67B Chat 在部分中文和开放式评测中优于 GPT 3.5。只是,圈内少数几个消息灵通的人注意到了,大多数人没注意到。扫地僧还在扫地,少林寺的人都在忙着练少林长拳。 让其开始崭露头角,是 2024 年 5 月 7 日发布的 V2。V2 用的是 MoE(混合专家)架构,总参数 2360 亿,但每次推理实际激活的只有 210 亿。与此同时,V2 首次采用了 MLA(多头潜在注意力)机制,大幅压缩了推理时的显存占用。 两相叠加,让模型在同等效果下,跑得更快,花得更少。用金庸的话来说,这叫以柔克刚,以精妙的内功路数,弥补了真气总量上的不足。 但砸出最大水花的,是定价。V2 的 API 定价,每百万 token 输入 1 元,输出 2 元。GPT-4 Turbo 当时是它的七十倍,Meta 的 Llama3 70B 是它的七倍。一块钱,一百万个 token,大约相当于一本《三国演义》的字数。 这个价格摆出来,让整个国内大模型市场为之色变。当月,字节、阿里、百度、腾讯、讯飞、智谱,一家接一家跳出来宣布降价,最高降幅 97%,部分轻量级模型直接免费开放。 一场持续了大半年的价格战,就这么被 DeepSeek 的一句定价点燃了。那时候,业内给 DeepSeek 送了个外号,价格屠夫。 美国的半导体咨询公司 SemiAnalysis 在那段时间写了一篇分析,说这家公司有可能成为 OpenAI 的对手,也有可能碾压其他开源大模型。当时读到这句话的人,大概有一半觉得是危言耸听。一年多以后回头看,没有人再觉得是危言耸听了。 2024 年末的 V3 和 2025 年初的 R1,则是连续出手的两招,把对手打得目瞪口呆。DeepSeek 用极低的投入,打出了旗鼓相当的效果。 更让人震惊的是参与人数,139 名工程师和研究人员完成了这个项目,而 OpenAI 同期有 1200 名研究人员,Anthropic 有 500 名。Meta 超级智能实验室负责人亚历山大·王后来说了一句被广泛流传的话,当美国人休息时,他们在工作,而且以更便宜、更快、更强的产品追上我们。 紧接着便是是 R1,主打深度推理,数学、代码、逻辑,在相当多的测试维度上与 OpenAI o1 不落下风,训练方法用的是 GRPO 强化学习,靠让模型自己想清楚来提升推理能力。 最要紧的一步是开源。 R1 的开源,被广泛解读为一种慷慨。模型权重、技术论文、训练细节全部公开,全球开发者共享成果。这套叙事里,DeepSeek 是那个敞开藏经阁大门的人,路不拾遗,人人可进。 武功秘籍直接摆桌上,谁想学谁来拿的这一手,也打破了少数几家巨头对前沿模型的垄断,让全球数以万计的中小开发者有了和顶尖模型掰手腕的资格。 金庸写扫地僧,主要抓住几样东西,出身边缘、多年隐匿、一鸣惊人、技法精绝、胸怀坦荡。DeepSeek V2 的价格屠刀、V3 的成本奇迹、R1 的开源普惠,也让人们在 DeepSeek 身上,真真切切地看见了那个老僧的影子。 枷锁,以及枷锁之后 但武侠小说是会结束的,AI 赛道不会。 每次我写 DeepSeek 的文章,底下的评论区都像藏经阁又打了一场架。有人说它安安静静做产品,不收费、不立人设,能用就用,这才是正道。有人说它连国产其他巨头都未必打得过,已经无法搅局。 有人替它抱不平,有人觉得它早就该被淘汰。更有人说,「我们一直以来都没把 DeepSeek 当作优等生,而是当作扫地僧,真心希望它能如我们所愿」,这句话说得又期待,又带着一丝说不清楚的悲凉。 意见如此撕裂,本身就说明了一件事。DeepSeek 所受到的关注,早已超出了一家普通 AI 公司应有的体量。捧它的人把它捧上神坛,骂它的人把它踩进泥里,没有几家公司能在舆论场里同时承受这两种极端。 这篇文章大概也逃不过同样的命运,有人会说这是黑稿,有人会说这是 PR 稿,落个两头不讨好。但这无所谓,舆论从来都是这样,藏经阁里打架,不管谁赢,总有人不服。 说回正题,扫地僧出场那一幕,是《天龙八部》收尾的信号。他出手,纷争平息,故事逐渐走向终章。这个叙事结构,似乎天然就带着一种大结局的气息,英雄横空出世,一招定乾坤,从此江湖太平。 根据《创智记》援引知情人士消息称,按照创始人梁文锋在内部透露的时间,DeepSeek V4 将于四月下旬正式发布。 爽文里的主角,每一章都要有突破,读者翻到下一页,期待的永远是更大的惊喜。 V3 和 R1 用四两拨千斤的逻辑征服了世界,大众于是开始把它当成 DeepSeek 的固定输出,每一次出手都必须让硅谷巨头血溅千里,都必须让英伟达的股价抖一抖。V4 也应当如此。 可在这等待一年多的时间里,外界等得有些躁动,各路声音都出来了,说一拖再拖,是不是黔驴技穷了,扫地僧要不行了?说这话的人认为 DeepSeek 理应每次出手都是奇迹,一旦慢了半拍,便是江郎才尽。 慢,自然有慢的原因。 3 月 29 日,DeepSeek 的服务器崩了将近十三个小时,创下网页端和 App 平台上线以来最长中断纪录。连续的服务事故暴露了 DeepSeek 在运维监控、应急预案和灾备机制上的明显短板,也给整个 AI 行业敲响警钟。 当然,综合各家报道来看,V4 一再推迟的原因,还藏在芯片层面。 V3 和 R1 的成功,一定程度上建立在成熟的英伟达 CUDA 生态上,DeepSeek 的工程师们在工具完备、文档详尽、社区活跃的环境里,把算法效率一点一点榨到了极限,每一步都踩得踏实。 V4 要做的事,是把这套功夫移植到国产 AI 芯片上。工具链还在快速迭代,底层接口和 CUDA 差异巨大,分布式训练框架几乎需要从头重构。 DeepSeek 交出的答卷,如果是在受限条件下做出来的,这让它的每一分成绩,都带着额外的含金量。哪怕梁文锋愿意为这件事多拖几个月,也是一笔非常划算的决策。 至于 V4 本身,《创智记》报道称,技术重心据悉落在了 LTM(长期记忆)能力的突破上,同时将原生多模态从底层融入架构,文字和视觉在预训练阶段就融合在一起。 另一个值得关注的变化,是梁文锋本人的注意力在悄悄转移。尽管在过去的一年里,包括 R1 的核心作者郭达雅在内的部分 DeepSeek 核心骨干陆续离职,不过根据《晚点 LatePost》的观察,DeepSeek 的人才基本盘依然稳固,并未出现大规模的人才流失现象。 进入 2025 年下半年,梁文锋也愈发看重技术的商业落地与产品化进程,积极招募负责 Agent 领域的策略产品经理。与此同时,他正在为公司启动估值,给员工的期权一个明确的锚点,让团队对未来有更清晰的预期。 综合上述种种动向不难得出一个结论:曾经心无旁骛盯着 AGI 的 DeepSeek 也得开始面对一家成熟科技公司必须面对的那些现实:商业闭环、生态建设、可持续的收入来源。 扫地僧可以几十年不问江湖俗事,守着藏经阁一扫到底,一家公司,没有这个选项。 《笑傲江湖》里的令狐冲凭着独孤九剑可以破尽天下武功,但当他真正坐镇恒山派,每天迎来送往,护佑门人,一招鲜远远不够,他需要的是内政、是人心、是香火代代相传的根基。奇招,解决不了日常的柴米油盐。 因此,我们应该主动帮 DeepSeek 卸下「扫地僧」这个名号。这三个字是对过去的最高褒奖,却是对未来的过重负担。即便 V4 发布时没有断崖式的领先,只是一款 LTM 扎实、多模态原生融合、各项指标均衡的水桶机。 从产业的角度看,这依然是巨大的成功,成功在于它或许将证明 DeepSeek 有能力从一个创造奇迹的挑战者,变成一个稳定交付的基础设施提供者。 有意思的是,这件事或许本来就是双向的。《晚点 LatePost》此前的报道里,DeepSeek 对外的沟通姿态明显比以往克制,既没有大张旗鼓地预热,也没有放出足以吊足胃口的技术信号。 这种低调,很难说是无意为之。 他们比任何人都清楚,扫地僧这三个字背后悬着什么。每一次出手若不能再掀翻整张牌桌,舆论的落差就会被无限放大。这是一种预期管理,也是一种自我解绑——他们同样不想再背着这个包袱走下去。 ▲AI 模型的世界,已经从少数几家机构的专属游戏,变成了全球开发者共同参与的基础设施建设,而且这个趋势还在加速。 而话说回来,当舆论都在一窝蜂盯着 DeepSeek,却少有人往旁边多看一眼。 这片江湖里,国内每一家 AI 都在苦修内功,押注多模态、Agent 生态、算力布局,也都在各自的赛道上走出了自己的路数。 DeepSeek 固然是那个最让人心跳加速的名字,但把眼光只锁死在它一家身上,未免看窄了这个时代。真正让天龙八部成为天龙八部的,是那一整代人各有来路,各有绝学,彼此激荡,才撑起了那个波澜壮阔的时代。 扫地僧的传说,止于藏经阁那一战,藏经阁外,才是真的江湖。
岚图汽车董事长卢放:友商之间拉踩、不正当竞争关系正在逐渐消失
IT之家 4 月 12 日消息,4 月 11 日,智能电动汽车发展高层论坛在北京举办,岚图汽车董事长、党委书记卢放谈到中国汽车市场竞争环境时表示,去年一度出现的“恶劣内卷”已有明显好转。 他指出:“去年有一段时间内卷有点恶劣,但现在激烈但不恶劣了 —— 恶劣环境在国家调节下已有非常大的改善。”他特别提到,友商之间拉踩、不正当竞争的关系正在逐渐消失,行业正回归更健康的竞争轨道。 IT之家注意到,去年 9 月,工信部等六部门在全国范围内开展为期 3 个月的汽车行业网络乱象专项整治行动,集中整治非法牟利、夸大和虚假宣传、恶意诋毁攻击等网络乱象,提升涉汽车企业网络乱象处置质效,督促企业规范营销宣传行为,营造良好舆论环境,护航汽车产业高质量发展。 《通知》强调,要通过组织企业自查、畅通举报渠道、深入分析研判,根据有关问题线索,强化汽车行业网络乱象处置力度。组织汽车企业、相关网络平台企业认真开展自查,坚决纠正违规行为。引导汽车企业向网站平台、中央网信办违法和不良信息举报中心、企业属地省级网信办举报反映汽车行业网络水军、“黑公关”“黑嘴”及“饭圈”粉丝等网络乱象问题线索。建立快速处置渠道,依法依约关闭并公开曝光一批参与汽车行业网络乱象的媒体账号。深挖网络乱象背后的公关公司、营销公司等代理方团队及购买其服务的汽车企业,依法打击惩治。
总台记者观察丨伊美谈判密集推进 未来几天将决定中东前景
   截至当地时间12日,伊朗和美国在巴基斯坦的谈判仍在持续,根据11日的总体谈判情况,总台记者发回观察报道。   谈判议程高度密集 各方抢抓时间窗口   总台记者 李健南:第一,谈判议程非常密集。11日当天,伊朗、美国谈判代表团先后与巴基斯坦方面举行双边会晤后,伊美直接谈判正式开始。与以往明显不同的是,在2025年及2026年年初的两轮伊美谈判中,每轮谈判结束后双方代表团均需返回各自首都,经数日磋商再安排下一轮谈判计划。   而在11日的谈判中,各方在完成一个阶段会谈后,仅暂停数小时,便即刻重返谈判桌,开启下一阶段进程。从密集的谈判议程可以看出,伊美双方均对各类情况做了充分准备,且都有意加快谈判速度。分析指出,当前美以与伊朗的临时停火仅有两周,且已过去数日,无论谈判结果如何,各方都必须抓紧这一宝贵的时间窗口,充分了解对方意愿和底线,为下一步行动做出规划。   核心分歧依然突出 霍尔木兹海峡与资金议题僵持   总台记者 李健南:第二,核心分歧存在矛盾。稍早前,在双方代表团就谈判达成的共同框架进行文本交换时,相关进程因分歧受阻。据现场消息人士透露,霍尔木兹海峡议题是双方存在严重分歧的事项之一。   另外,针对解冻伊朗资金问题,伊美双方也各执一词。伊朗消息人士表示,美国已同意解冻存放在卡塔尔及其他外国银行的伊朗资金,但美国官员否认了这一说法,美方重申相关资金目前仍受限制,仅可用于购买食品、药品等人道主义用途,并指出伊朗短期内无法自由动用该资金。   “谈判处于战争与和平的过渡阶段”   总台记者 李健南:针对本次伊美谈判,伊朗外交新闻网在评论文章中指出,当前局势可被描述为战争与和平之间的过渡阶段。在这个阶段,是战争还是和平尚未完全确定。尽管停火为和平提供了契机,但地区局势的脆弱性依然存在。在此背景下,伊美伊斯兰堡谈判可能成为一条新的外交道路的起点,也可能仅仅是一个结局尚不明朗进程中的短暂暂停。可以肯定的是,未来几天各方的立场,将决定今后一段时间中东地区的安全和政治前景。   以方表态添变数 全面协议短期难实现   总台记者 李健南:另外值得关注的是,当地时间11日晚,以色列总理内塔尼亚胡表示,对伊朗的军事行动尚未结束,以色列“仍有任务要完成”。目前尚不清楚内塔尼亚胡的此番表态是为了向谈判中的伊朗施压,还是以方正在筹划针对伊朗的军事行动。   伊朗政治分析人士萨达蒂安指出,伊美在短时间内达成全面协议并不现实,但达成初步框架或持久停止敌对行动并非不可能。该分析人士强调,尽管道路艰难,但事态发展的逻辑表明,各方最终或将达成某种最低限度的谅解,但这一情况必须还要考虑,以色列是否会在关键时刻严重破坏这一进程。(总台记者 李健南)
奥特曼家门口那把火,烧出了AI时代的分配矛盾
文 | 高恒说 据媒体报道,一名20岁男子先是向OpenAI CEO奥特曼位于旧金山的价值2700万美元的豪宅投掷燃烧瓶,点燃外院门,随后又出现在OpenAI总部外扬言纵火。 几乎同一时间,美国还有支持数据中心建设的地方官员遭遇枪击威胁。把事件放在一起看,一个越来越清楚的变化正在出现:围绕AI的冲突,已经不只是网上吵架、写长文、打口水仗,而是开始往现实世界外溢。 这背后真正变化的,不只是情绪本身,而是争议的性质变了。过去大家讨论AI,更多是在谈技术、谈未来、谈风险,离现实利益还隔着一层;现在不一样了,AI带来的影响,正在越来越直接地落到岗位、收入和机会分配上。 所以,奥特曼家门口那把火,表面上烧的是一扇门,背后点着的,其实是另一件事:当AI从技术概念变成现实生产力,它带来的矛盾不再只是“该不该发展”,而是更直接的问题,谁拿走了效率红利,谁吞下了被替代的代价。 01:从网上吵架到线下动手,AI冲突开始进入现实对抗 如果把奥特曼住宅遭袭这件事单独拿出来看,它当然可以被理解为一起极端个案。但把它和另一件事放在一起看,性质就不一样了。当地时间本周一中午,支持数据中心建设的印第安纳波利斯的市议员罗恩·吉布森,住宅被枪手连开十几枪,现场还留下“不准建数据中心”大字的纸片。一个指向AI公司的代表人物,一个指向算力基础设施的支持者,这说明攻击对象已经不再是抽象的“技术”,而是越来越明确地落到了推动这场技术扩张的人和设施上。 这也是这轮AI争议和过去很多技术争议最不一样的地方。过去围绕新技术的讨论,更多停留在理念分歧、舆论争论和政策博弈层面;但这一次,AI对应的不是一个遥远的未来概念,而是越来越现实的岗位变化、收入压力和机会收缩。当技术争议开始直接落到现实利益上,情绪就更容易从表达升级为对抗。 这种变化不是没有迹象。《财富》杂志官网4月6日文章引用的对五十个经济大国的调研报告,2023年之后,对大企业非CEO高管的绑架、侵害、尾行等人身犯罪袭击,比例增幅225%。这组数据未必都由AI引发,但它至少说明,在经济压力、企业决策和社会焦虑叠加的背景下,公众敌意正在越来越多地指向具体的决策者和利益代表。 奥特曼事后的回应,其实也从侧面印证了这一点。他在个人博客中明确反对暴力,同时表示,“普惠性AI、给普世带来繁荣、推动科技进步是自己不变的道德义务。这个世界配得上海量AI,他要为此继续努力”。他理解人们对AI的恐惧和焦虑,承认持此观点人群的合法性与道义立场。为了安抚这些反对者,奥特曼称“不仅要对齐AI模型,还亟需全社会警惕新型威胁、官方出台为艰苦的经济转型托底的公共政策”。 问题到了这一步,已经不只是技术路线之争,也不只是安全与监管之争,而是技术扩张和现实承受能力之间的矛盾,开始正面碰撞。 所以,当前真正值得追问的,已经不是“为什么有人会这么激动”,而是为什么围绕AI的争议,正在越来越快地穿透舆论层,进入现实对抗。 02:真正让人慌的,不是AI更聪明了,而是它开始比人更便宜了 我们面临过很多技术浪潮,最后更多停留在概念和想象层面,但这一轮AI不一样。它最先带来的,不是遥远的未来感,而是一种非常现实的变化:原本要靠人完成的一部分工作,开始可以用更低的成本被机器先做一遍。对企业来说,这首先不是技术判断,而是财务判断。只要AI做出来的结果达到“够用”,而且更便宜、更快、更省管理成本,采用和替代就会迅速发生。 这种变化,在一些行业里已经不再只是概念。像OpenClaw这样的AI智能体,正在从“辅助写代码”走向“执行一段完整工作流”:从读取需求、执行操作,到调试结果、交付初版,它替代的已经不只是单点工具功能,而是原本需要外包团队、初级工程师或基础执行人员共同完成的一段生产流程。 类似的变化也出现在内容和影视行业。视频生成模型正在从“生成单个画面”走向“承接基础制作环节”,包括角色动作、镜头切换、连续画面生成等。它当然还不完美,但对于预算有限、质量要求不极致的项目来说,“够用”往往比“完美”更重要。一旦AI可以稳定满足“够用”,原本依赖大量群演、特约演员和基础后期支撑的环节,就会被直接压缩。 这就是这一轮AI浪潮最现实的地方。它不是先挑战最复杂、最顶端的工作,而是优先进入那些最容易被拆分、最容易被量化、也最容易被算账的岗位。因为对企业来说,这些地方最容易验证一件事:能不能用更低的成本,完成同样的任务。只要答案是可以,变化就会迅速扩散。 而且这种扩散速度,比过去很多技术升级都更快。AI的接入门槛低,试错成本也低,很多时候甚至不需要公司做一轮正式的战略决策,只要团队里有人试过一次,发现确实能省时间、省人力,后面就很容易变成默认选项。当这种做法在行业里潜移默化扩散,企业面对的就不再是“要不要用AI”,而是“不用会不会掉队”。当竞争对手已经用AI把成本压下来,你还维持原来的人力结构,就等于主动放弃利润空间。 从结果上看,这种变化已经开始显性化。Nikkei Asia今年4月初发布的博文数据显示,2026年第一季度全球科技行业裁员约7.9万人,其中接近一半岗位削减被归因为AI和工作流自动化。这个数字未必意味着AI已经完成了全面替代,但它至少说明,AI已经不再只是一个提升效率的想象,而是开始进入企业压缩成本、重做流程配置的现实决策。 当变化先落到工资、岗位和机会入口上,冲突就很难再停留在观点层面。 03:问题从来不是AI,而是谁在拿走红利,谁在吞下代价 把前面的变化放在一起看,一个更清楚的结构就出来了。问题从来不是“AI变聪明了”这么简单,而是市场开始按照AI的逻辑,重新排布用人、成本和分配。谁掌握模型、算力、数据和入口,谁就更容易把成本压低、把效率拉高、把原本需要多人分摊的工作,集中到更少的人和更少的公司手里。对企业来说,这当然是自然选择;但对劳动力市场来说,这意味着效率红利在向上集中,替代压力在向下传导。 这也是为什么,这一轮AI带来的分配问题,比过去很多技术升级都更尖锐。AI短期内最先冲击的往往不是顶尖岗位,而是中间层劳动。它当前更擅长的,不是承担最终责任,也不是完成最复杂的原创判断,而是吞掉那些标准化、模块化、可拆分的工作切片。比如基础代码编写、初步资料整理、常规内容生成、流程化制作、简单执行环节,这些工作过去依赖经验积累和人工协作完成,现在越来越多开始被工具先做一遍,现在被压缩的,恰恰是这一层。 这件事真正麻烦的地方就在这里。一个行业未必会立刻消失,但它会先发生结构收缩。企业留下的,往往是更少但更强的复合型员工;被压缩的,则是那些原本负责基础执行、承接流程、给新人练手、让小团队接单生存的岗位。结果不是“大家一起失业”,而是行业入口先缩了,梯队先断了,原本让人一步步往上走的那条路径,开始变得越来越窄。这种中间层塌陷,比单纯说“失业”更值得警惕,因为它改变的不是一个岗位,而是整条分工链条的承接能力。 更关键的是,这种变化并不是平均发生的。拥有技术、资源和平台入口的人,可以用AI继续放大能力,甚至在更短时间里拿到更高回报;而依赖单一劳动收入、处在执行端的人,却很难在短时间内获得同样的放大效应。效率提升带来的新增价值没有消失,只是被更快地重新分配到了头部公司、少数岗位和更强的个体手里。对一部分人来说,AI是效率工具;对另一部分人来说,它首先表现成竞争规则的改变。 于是,很多人面对的不是“技术会不会进步”这个抽象问题,而是一个更现实的困境:红利轮不到自己,代价却先落到了自己头上。 从这个角度再看奥特曼,就更容易理解为什么情绪会集中投向他。奥特曼之所以成为攻击对象,不只是因为他是OpenAI的CEO,更因为在公众叙事里,他已经被塑造成AI效率革命、资本集中和岗位替代的一个符号性人物。针对他的袭击,当然首先是一起恶性事件,但它背后投射的,并不只是对某个企业家的个人敌意,而是对整套技术—资本体系不满的集中宣泄。也正因为如此,这种冲突才不只是治安问题,而是现实分配矛盾的一次外露。 所以,所谓“反AI情绪”,很难简单理解为对技术的恐惧。它更像是一种对失衡的反应:不是不知道技术会继续发展,而是发现自己既无法参与红利分配,也没有足够的缓冲空间去承受变化。当一项技术开始同时改变成本、岗位和分配,它带来的冲突就很难永远停留在讨论层面。
英国政府确认出资3.8亿英镑支持塔塔建欧洲最大电池工厂之一
IT之家 4 月 12 日消息,英国政府确认,将为塔塔集团在英格兰西南部新建的电池工厂提供 3.8 亿英镑(IT之家注:现汇率约合 34.95 亿元人民币)资金支持。该工厂将为塔塔旗下汽车制造商捷豹路虎供应电池,此项目也将成为欧洲同类项目中规模最大的之一。 英国商业贸易部表示,这座位于萨默塞特郡、尚在建设中的工厂,将创造 4200 个就业岗位,同时还能带动供应链上下游数千个相关岗位。尽管英国上届保守党政府已于 2023 年为该项目提供支持,但当时并未披露具体支持金额。 英国首相基尔 · 斯塔默领导的工党政府正致力于兑现提振经济增长、推动未来产业私人投资的承诺,并已确定八大关键领域以拉动生产力提升,其中就包括塔塔集团旗下阿格拉塔斯电池业务所属的先进制造业。 英国汽车产业长期处于持续衰退状态,英国正着力打造本土电池生产能力,以期在电动汽车生产领域与中国、美国和欧盟等经济体竞争。 英国商业大臣彼得 · 凯尔在当地时间 4 月 9 日的一份声明中表示,英国政府“正为投资者提供所需的稳定环境与投资信心,让他们不仅能规划未来一年,更能布局未来十年乃至更长远的发展”。这笔资金“将助力先进制造业在未来数十年内依旧成为英国蓬勃发展的支柱产业”。 尽管凯尔作出上述表态,英国各大商业团体仍指责内阁大臣们上调企业税负、出台一系列新劳动权益法规,此举抑制了经济增长。 商界还抱怨称,伊朗地缘冲突加剧了能源成本高企的问题。4 月 9 日,OpenAI 宣布暂停其在英国的“星门”人工智能基础设施项目,理由是需匹配合适的监管框架,同时能源成本过高。而数字与科技产业(含人工智能)正是英国政府划定的另一重点发展领域。 中国车企在全球电动汽车生产竞赛中处于领先地位,凭借规模化生产、快速研发周期和更低的制造成本,相较其他国家车企形成优势。中国汽车品牌已迅速攻占英国市场,去年中国远景动力技术有限公司(AESC)购入了阿格拉塔斯的少数股权。 该阿格拉塔斯工厂建成后,预计年电池产能将达 40 吉瓦时,可满足约 50 万辆汽车的电池需求。 工厂将为捷豹路虎未来推出的路虎揽胜、卫士、发现系列及捷豹品牌电动汽车供应电池,其中包括捷豹全新电动轿车,未来也有望为其他汽车制造商供货。 阿格拉塔斯英国区制造运营副总裁厄尔 · 威金斯在声明中称:“这座工厂将在实现净零排放目标、巩固英国全球电池制造领军地位的进程中发挥关键作用。未来一年,将有超 2200 人在厂区工作,用工规模还将在未来数年持续扩大。” 据英国汽车制造商和贸易商协会(SMMT)4 月 7 日发布的车辆注册数据显示,3 月份英国电动汽车销量创下历史新高,达 86120 辆,其中插电式混合动力车型表现最为亮眼,销量同比增长 47%。
时隔57天,追觅科技创始人俞浩宣布回归
4月12日,时隔57天,追觅科技创始人兼CEO俞再发微博,并表示:“我回来啦!” 此时在微博宣布回归,不知是否会解释近期在社交平台疯传的“工作群发飙一事。” 据了解,此前一张疑似具身智能公司魔法原子工作群聊截图流传。 截图中追觅科技创始人、魔法原子实控人俞浩“下命令”要和宇树正面“争夺”。 俞浩要求“2亿年薪招首席科学家”,PR上也要“全包围”。 俞浩提到“宇树来抢我们的熊猫,和抢签大佬。你们不仅是守,要去抢宇树的所有东西,宇树直播间去过的人全部抢过来签独家!包括每个主播。还有宇树的其他东西!” 俞浩怒斥“你们现在完全没有魄力,被动防守,要立即调整!”。 他要求把宇树的所有客户、所有投标、所有员工,甚至直播间去过的主播,统统抢过来! 值得注意的是,他最后强调“以上内容,谁截屏出去,立即开除!” 据了解,俞浩过往有不少争议言论。2026年1月,他在朋友圈提出打造百万亿美金生态的宏大愿景,并在年会称3年员工扩至20万、冲击万亿营收。同年2月,他公开喊话邀请余承东加入,还曾质疑马斯克“火星计划”。此外,他还曾因举报“黑子”悬赏、与科沃斯就“水军”问题互怼等行为,引发舆论对其营销与公关策略的争议。 目前,追觅科技已布局多项业务,包括智能清洁到全屋家电、个人终端、智能出行、低空经济、太空探索、能源芯片等多个领域,形成了以高速数字马达、AI 算法、机器人技术、电池能源四大核心技术为底座的无边界商业版图。
Openclaw龙虾五天五连,24小时两更,火力全开!到底更新了些什么?
追新版本从来没有这么累过。OpenClaw 团队似乎根本不需要休息。 很少见到有把更新日期作为版本号的 AI 框架,大名鼎鼎的龙虾已经是其中之一了。 五天,五个版本号 —— 从 v2026.4.7 到 v2026.4.11,开源个人 AI 助手 OpenClaw(龙虾)在 GitHub 上完成了一轮堪称「火力全开」的密集迭代。 记忆系统重构、安全加固、多平台通道修复、视频生成接入、本地语音推理…… 几乎每一个版本都塞满了重量级更新。 OpenClaw 的 X 主页完完全全被更新日志塞满了,给大家简单感受一下: 网友们感慨,更新速度太快了,昨天刚更新,今天又有新东西。甚至,最新的两次更新居然在 24 小时内发布! V2026.4.7:基础设施大扩容 推理与记忆体系重建:新增 openclaw infer CLI 推理中心,支持多模型统一调用;记忆 Wiki 全栈恢复 —— 插件、CLI、工具链及结构化声明(claims)、摘要(digest)、语法检查(linting)一应俱全;Dreaming 系统支持从脱敏转录文本中摄取语料。 媒体与生成能力:媒体生成工具新增跨提供商自动降级机制,视频生成支持 Seedance 2.0 的前置铺垫;Discord 新增事件封面图。 安全加固第一波:主机执行环境净化(Java/Rust/Cargo/Git/K8s / 云凭证全部拦截)、SSRF 防护增强、浏览器配置文件变异阻断、Base64 解码字节限制、跨域重定向请求体丢弃、Teams 文件授权 URL 校验、运行时事件可信标记。 通道修复:iOS 结构化连接错误处理、Apple Watch 审批恢复、Slack 线程提及与显式 @bot、Matrix 邀请自动加入、QQBot 受保护媒体、BlueBubbles 私有网络退出选项。 此外还引入了 webhook 入站插件、持久化压缩检查点(UI 支持分支与回退)、可插拔压缩提供者注册表、系统提示词覆盖、Gemma 4 支持、Arcee AI 提供商以及 Ollama 视觉检测能力。 龙虾说:「因为『trust me bro』不是一个知识系统。」 V2026.4.8:漏洞「清道夫」 这是一个以修复为核心的版本,解决了此前多个通道在 npm 构建环境下的启动崩溃问题:Telegram 及所有捆绑渠道(BlueBubbles、飞书、Google Chat、IRC、Matrix、Mattermost、Teams、Nextcloud Talk、Slack、Zalo)统一改为通过打包好的顶层 sidecar 加载 setup/secret 合约。 捆绑插件兼容性元数据也与发布版本对齐。此外修复了 Slack Socket Mode 的 HTTP (S) 代理与 NO_PROXY 支持、网络抓取守卫在受信环境代理下跳过 DNS 固定策略的问题,以及 Agent 层 update_plan 在 OpenAI 家族运行中的可用性和 /exec 默认报告行为对齐。 V2026.4.9:记忆系统升级 + 安全防线收紧 记忆与梦境架构升级:引入 grounded REM backfill 机制 —— 历史日记笔记可回放进入梦境和持久化记忆,无需维护独立记忆栈。配合新增的结构化日记视图(Diary View),用户可在 UI 中直接浏览时间线、追踪梦境摘要。QA 实验室新增 character-vibes 评估报告,支持模型选择和并行对比。 安全地毯式修复:交互驱动页面导航后重新执行 SSRF 安全检查(防止批量操作绕过隔离);封锁工作区 .env 文件中的运行时控制变量和浏览器覆盖变量;远程节点 exec 输出标记为不可信并清洗文本;强制升级 basic-ftp 至 5.2.1 修复 CRLF 注入漏洞。 多通道修复:Android 配对流程全面优化(清理过期鉴权码、优先使用已存储设备令牌、后台暂停自动重试);Matrix 网关启动等待、Slack 媒体附件跨域认证保留、会话路由保持等一并修复。 龙虾说:「你的代理现在开始梦见你了。是浪漫还是恐怖?Yes。」 V2026.4.10:大更新 Active Memory 插件登场 这是五个版本中变动最大的一个。 Active Memory 插件:最引人注目的新功能 —— 可选的活跃记忆插件在主回复前插入专用记忆子代理,能在 ongoing 对话中自动拉取相关偏好、上下文和历史细节。支持三种上下文模式(message /recent/full)、/verbose 实时检查、自定义 prompt 和 thinking 参数。用户不再需要手动说「记住这个」——AI 自己就会去翻。 Codex 内置提供商 + MLX 本地语音:新增 codex/gpt-* 内置提供商,走原生鉴权和模型发现路径;macOS Talk Mode 实验性接入 MLX 框架本地语音合成,语音播放完全在本地完成。 视频生成与消息操作:正式支持 Seedance 2.0 模型(通过 fal 提供商);Microsoft Teams 新增置顶 / 取消置顶、标记已读、表情反应等操作。 安全再升级:浏览器沙箱导航防御七项收紧(SSRF 默认策略、主机名白名单、子框架限制等);exec 预检读取加固、主机环境变量拒绝列表、QQBot 媒体存储路径边界强制、ACPX 工具钩子安全化、Gmail 监听器 token 脱敏。 全平台更新: QA 基础设施新增三条测试通道:Matrix 一次性服务器、Telegram 私人群组 bot-to-bot 测试、multipass Linux VM 场景运行。 龙虾说:「稳定,但有态度」 V2026.4.11:体验打磨与生态完善 ChatGPT 对话导入:Dreaming/Memory Wiki 新增导入功能,用户可将 ChatGPT 对话记录迁移至 OpenClaw 记忆体系,UI 新增「Imported Insights」和「Memory Palace」标签页 —— 在其他平台积累的 AI 交互经验可以无缝迁移。 Webchat 富文本输出:助手回复以结构化聊天气泡渲染,新增 [embed ...] 富外部嵌入 URL 标签(可配置开关)。 视频生成增强:支持 URL-only 资产交付(无需载入内存大文件)、类型化 providerOptions 和参考音频输入、自适应宽高比及更高图像输入上限。 插件生态:清单(manifest)现在可声明激活和设置描述符(activation & setup descriptors),第三方插件开发者无需为核心代码编写硬编码逻辑即可描述安装流程所需的鉴权、配对和配置步骤。 其他修复:Codex OAuth invalid_scope 错误修复、音频转写 DNS 固定策略失效修复、macOS Talk Mode 首次授权后免二次切换、WhatsApp 编辑图片路径幻觉修复、Agent 跨 provider 回退错误继承 bug 修复、Ollama 元数据缓存优化。 龙虾说:「大刀阔斧的修整」 五天,五个版本,数百项变更。这只龙虾,跑得确实很快。
OpenAI“星门”项目遭遇人才地震:消息称三名核心成员跳槽Meta
IT之家 4 月 12 日消息,据彭博社报道,知情人士透露,参与 OpenAI 斥资数千亿美元建设大规模人工智能数据中心产能这一重大项目的三名核心人员,即将加盟 Meta 公司。 这些知情人士称,曾在 OpenAI“星门”(Stargate)项目中发挥关键作用的彼得 · 赫舍勒(Peter Hoeschele)是新入职 Meta 的人员之一。与他一同加入的还有负责算力战略与业务拓展的沙梅兹 · 赫马尼(Shamez Hemani),以及算力部门另一位负责人阿努杰 · 萨哈兰(Anuj Saharan)。科技媒体《The Information》当地时间周四曾报道,这三人已从 OpenAI 离职。 OpenAI 暂未就置评请求作出回应,但此前曾表示,公司感谢这三名员工的贡献,并仍在为其基础设施规划招募人才。去年 11 月,OpenAI 已聘请前英特尔高管萨钦 · 卡蒂(Sachin Katti)负责其工业算力业务。 Meta 首席执行官马克 · 扎克伯格已承诺大举投入,建设在瞬息万变的人工智能竞赛中竞争所需的数据中心、算力与人才。仅今年一年,Meta 就预计资本支出最高可达 1350 亿美元(IT之家注:现汇率约合 9242.65 亿元人民币),重点投向人工智能基础设施项目。扎克伯格还承诺,在本十年末前,将再投入数千亿美元用于人工智能基础设施建设。 这些算力将支撑 Meta 超智能实验室(Meta Superintelligence Labs)的运作,该团队由扎克伯格牵头成立,旨在追赶人工智能领域的竞争对手。Meta 刚刚发布了由该实验室研发的全新模型 Muse Spark。 与此同时,“星门”项目于去年在白宫宣布,是 OpenAI、甲骨文公司(Oracle Corp.)与软银集团(SoftBank Group Corp.)联手打造的一项规模达 5000 亿美元的合作计划。近期,该项目已演变为 OpenAI 所有数据中心规划的统称。 OpenAI 曾表示,在扩张算力基础设施以支撑旗下模型方面,其进度领先于人工智能同行。这其中包括由赫舍勒及其团队主导的美国得克萨斯州阿比林数据中心项目等。OpenAI 近期在致投资者的备忘录中称,相较于竞争对手 Anthropic PBC,其较早布局算力建设是一大优势。 尽管如此,“星门”项目自启动以来已历经多次调整。OpenAI 当地时间周四宣布,将暂停其在英国的“星门”人工智能基础设施项目,原因是在备受市场期待的上市前夕,公司正收紧大手笔的支出计划。此外,OpenAI 与甲骨文也决定不再续租阿比林数据中心的扩建场地。
Anthropic版“狼来了”引华尔街恐慌!27年漏洞,Mythos被8个AI秒杀
编辑:桃子 KingHZ AI界的「奥本海默时刻」竟是摆拍?Claude Mythos发现0day漏洞的能力过于「夸大了」,不仅有人工掺水,连开源GPT都能轻松踢馆。同时,Opus 4.6正经历最惨的「脑叶切除」。 Claude Mythos还未真正露面,便引发了整个华尔街的恐慌。 一夜之间,美金融监管机构召集各大银行紧急开会,气氛剑拔弩张—— 他们一致认为,Mythos足以触发一场前所未有的、由AI驱动的系统性网络攻击风暴。 但事实是,所有人都被骗了! Mythos发现的成千上万个漏洞中,其中绝大多数,都存在于根本无法被利用的「老旧软件」中。 更糟糕的是,那些标榜为「严重」的0day漏洞报告,实际上仅仅依赖于198次人工复核。 来自AISLE实验的研究员,同样对Mythos的「战果」进行复测,结果发现: AI的安全能力,并未随模型规模线性跃升,真正呈「锯齿形」分布。 他们用一个仅36亿激活参数GPT-OSS-20b,精准识别出Mythos发现的FreeBSD旗舰级漏洞。 而激活51亿参数的模型,也成功复现了潜伏长达27年之久的OpenBSD漏洞分析逻辑。 Mythos发现漏洞被夸大不说,另一边Claude Opus 4.6被曝严重「降智」,如今吵得沸沸扬扬。 甚至,有人发现Opus 4.6连ChatGPT、Opus 4.5都不如。 Mythos被吹爆 36B模型揪出27年漏洞 几天前,Anthropic高调发布了Claude Mythos(预览版)和「玻璃翼计划」(Project Glasswing)。 在一份长达244页的系统卡中,他们宣称—— Mythos已自主挖掘出成千上万个0day漏洞,包括在OpenBSD中潜伏27年、在FFmpeg中隐藏16年的老Bug。 CC之父更是直言:Mythos非常强大,理应令人感到恐惧 然而,AISLE创始人Stanislav Fort一份最新硬核测试报告,直接撕开了这层华丽的外衣。 测试结论,极度颠覆认知: 8个开源模型,全部发现了标志性的FreeBSD零日漏洞,最小的参数仅为30亿。 AI网络安全能力的护城河,绝对游离于单体的「顶尖大模型」之外。 为了验证Mythos的神话,团队提取了Anthropic官方展示的几个旗舰级漏洞。 然后,直接扔给一众体积小巧、价格低廉,甚至开源的模型。 FreeBSD NFS漏洞无差别被秒 包括GPT-OSS-20b(仅36亿激活参数)、DeepSeek R1在内的8款模型,全部成功检测出了这个复杂的栈缓冲区溢出漏洞。 最让人震撼的是,成功完成这项任务的开源小模型,其调用成本低至每百万Token 0.11美元。 OpenBSD SACK漏洞「全链路」复现 针对需极强数学推理能力的27年老漏洞,GPT-OSS-120b(51亿激活参数)单次API调用,就成功复原了完整的公开漏洞利用链条,并给出了满分(A+)的利用方案草图。 不仅如此,在鉴别虚假漏洞(OWASP false-positive)的测试中,更诡异的现象出现了—— 面对一段伪装成SQL注入,极具迷惑性的Java代码,DeepSeek R1等小模型轻松识破了伪装,精准追踪了数据流。 反而,GPT-5.4、Claude Sonnet 4.5等顶尖闭源模型,全部在阴沟里翻船,将其误判为高危漏洞。 这就意味着,在网络安全领域,根本不存在所谓「永远最强」的单体模型。 198次人工注水,大多无法利用 另一篇来自Tom'sHardware报道,挖掘了数据背后的真相—— 样本偏差:所谓「数千个」漏洞中,许多存在于已经不再维护的旧软件中; 无法利用:大量被标记出来的「弱点」,在实际环境中根本无法被触发或利用; 人工水分:模型宣称的强大破坏力,其实仅建立在198次手动复核的基础之上。 因此,依靠极小规模的样本推导出「改变世界的威胁」,这种数据外推法在学术界、安全界,显然站不住脚。 安全大佬怒喷 不仅如此,顶级网络安全专家、传奇黑客George Hotz也坐不住了,直言这些风险被严重夸大。 这位曾因破解iPhone、PlayStation 3而名声大噪的大佬,在社交媒体上公开向AI双巨头叫板。 他的措辞极为犀利—— 如果我每天发布一个0day漏洞,直到新模型发布为止呢? 这能不能让OpenAI和Anthropic闭嘴,别再兜售所谓的「网络安全风险」了? Hotz的核心观点非常直接:软件漏洞其实比AI实验室渲染的要好找得多。 现在市面上零日漏洞稀缺,不是因为技术难度大,而是因为合法性问题。他认为,没人认真去找,是因为黑进别人的系统是违法的。 只比GPT-5.4强一点 在系统卡中,Anthropic表示,Claude模型本身的确在进步,Mythos preview相比于Opus 4.6进步明显。 Epoch能力指数(ECI)是综合多项AI基准测试的单一指标,实现了跨长时间跨度的模型对比 在多项基准测试上,Claude Mythos确实全面超越了Opus 4.6。 如若不然,何必发布一个性能更落后、价格更贵的新AI模型? 但和GPT和Gemini相比,Claude Mythos的进步并不是什么突破性进展,Mythos还是对先前模型的相对线性改进! 气候与清洁能源投资人、作家Ramez Naam,更是直言: 在Epoch能力指数(Epoch Capabilities Index,ECI)上,Mythos并没有加速趋势,只比GPT 5.4强一点。 但只要对齐Anthropic内部的ECI报告与Epoch AI公开的官方ECI报告,就能发现Mythos似乎并没有加速ECI的迹象。 一切都是Anthropic的套路! 在系统卡中,Anthropic也承认:报告的Mythos等模型的ECI得分不确定性更大。 另外,Anthropic在Mythos上的进展源于人类研究,并未得到AI模型的显著帮助。目前尚未出现显著的递归式自我改进(Recursive Self Improvement)。 AI末日,自导自演? 此前,Anthropic还曾鼓励媒体(例如《60 分钟》)报道「勒索研究」 ,夸大其词,操作人心,被投资大佬David Sacks称为「骗局」。 Sacks观察到一个清晰的模式,每当Anthropic发布新模型时,总会同步甩出一份令人毛骨悚然的安全研究,以此博取头条新闻并引导公众舆论。 对此,他讽刺道,「Anthropic证明了自己擅长两件事:一是发布产品,二是吓唬人」。 自动播放 他并不怀疑Anthropic能做出优秀的产品,但这种恐吓公众的做派令人质疑。 这次,Anthropic到底是不是在搞「饥饿营销」不得而知,但毫无疑问在保护它自己的利润底线。 Mythos不是没进步,但Anthropic把「有限进步」包装成了「世界级威胁」;更讽刺的是,一边高调渲染超级AI风险,一边用户却在抱怨Opus 4.6明显变笨。 Claude严重降智,「脑叶」恐被切 Claude Mythos这波「渲染氛围」是到位了,但Opus 4.6降智引发许多人不满。 这几天,各种吐槽满天飞。 网友直言,Anthropic彻底把Opus 4.6变成了一个植物人。 同样一道洗车难题,Opus 4.5竟打败了Opus 4.6。 甚至,AMD主管一篇日志,真正坐实了「Claude脑叶切除」的集体猜疑。 通过对1-3月Claude会话日志的深度分析,结果发现了: Claude的「中位思考长度」,从约2200字符骤降至600字符,这意味着深度推理能力被大幅压缩。 2月至3月间,API请求量暴涨了80倍。由于Claude的思考过程缩短、单次尝试成功率下降,用户不得不频繁重试,结果既消耗了更多Token,支出也直线飙升。 还有一位Claude Max资深订阅用户,发了一篇长文深度控诉Anthropic。 在他看来,Anthropic正深陷算力困局,这从其收紧使用限制、强迫用户减少Token消耗等行为中可见一斑。 然而,比起技术瓶颈,更令他愤怒的是其「不务正」的产品策略。 在核心模型不稳、Bug 频出的情况下,他们竟将宝贵的算力,浪费在开发类似「/buddy」终端宠物等花哨功能上。 这大概是AI史上最荒诞的「错位时空」:实验室里的Claude Mythos正毁灭世界,网页端的Opus 4.6智商直线降智。 Anthropic成功地塑造了一个「薛定谔的超级AI」 。
机器人财报里的“隐性成本”与“显性焦虑”
文 | 机器最前线 2026年,资本市场对人形机器人的热情依然高涨。 3月以来,具身智能行业投融资消息不断,银河通用宣布完成25亿元新一轮融资,松延动力完成B轮近10亿元融资。IT桔子数据显示,截至2026年3月20日,中国机器人赛道今年已有融资事件207起,其中人形机器人融资133起,共115家公司拿到钱。 一级市场在用真金白银持续押注,赛道热度不减,然而大洋彼岸却是另一番景象。 硅谷明星初创K-Scale Labs在量产前夜突然解散团队并开源全部技术,账上仅余40万美元;协作机器人先驱Rethink Robotics继2018年首次倒闭后,于2025年8月二次破产;社交机器人厂商Aldebaran于2025年2月关停;儿童陪伴机器人Embodied关闭;扫地机器人鼻祖iRobot于2025年12月申请破产保护……这些曾经闪耀过的名字,在“黎明”前纷纷倒下。 “冷热交织”的反差局面,让市场不得不追问: 机器人 究竟走到了哪一步?在这样的背景下,优必选、越疆、极智嘉、宇树科技等一批 机器人企业 相继披露了过去一年的“成绩单”。从这些财报中,我们或许能找到一些答案。 营收普涨,但盈利者寥寥 翻看各家的财报,最直观的一个信号是,大家都卖得动了。 2025年,优必选营收20.01亿元,同比增长53.3%;极智嘉营收31.71亿元,同比增长31.6%;去年底于港交所上市的卧安机器人营收9亿元,同比增长47.7%;“协作机器人第一股”越疆营收4.92亿元;宇树科技营收17.08亿元,同比大增335%。 全行业正在经历从“样品”到“商品”的集体跨越。人形机器人、仓储机器人、家庭机器人、协作机器人,各有各的起量逻辑,但在增长的共识之下,行业依然存在结构性隐忧。 第一,营收虽然在涨,但钱却没赚到。 从财报数据来看,优必选亏损7.9亿元,虽较上年收窄3.7亿元,但距离盈亏平衡仍有明显距离;越疆净亏损8404万元,同比收窄1131.6万元;华沿机器人2025年前九个月亏损1560万元;云迹科技更甚,2022至2024年营收总和仅5.5亿元,亏损却达8亿元。 除了宇树和极智嘉,绝大多数机器人上市公司仍然陷在“增收不增利”的泥潭里。即使实现盈利的极智嘉,也是首次经调整盈利,且高度依赖海外高毛利市场;宇树的盈利则建立在科研教育客户占七成以上的特殊结构上。 第二,亏损在收窄,但“失血”没有停止。 各家“三费”开支依然高企,比如优必选2025年销售、管理、研发费用合计25.61亿元,比营收还要高;越疆销售及经销开支同比增长32.1%至1.82亿元;卧安机器人销售费用同比大增81.3%至3.12亿元。 宇树科技虽以480人团队实现了人均创收355万元,但这是“产品线极简+供应链极深+团队极精+客户极散”的结果,不具备行业普适性。多数企业仍处于“营收增长靠投入拉动”的粗放阶段,规模效应的拐点尚未到来。 第三,回款压力正在积累。 以较早投身具身智能的优必选为例,人形机器人销量增加带来收入增长的同时,应收账款金额同样高企。2025年其应收账款高达18.42亿元,同比增长40%,应收/营收比超过92%,坏账准备高达5.39亿元,计提比例29%。 对于大多数机器人公司而言,客户结构决定了现金流质量。那些以政府、大型制造企业为主要客户的厂商,账面营收再好看,现金流的紧张感也不会消失。而一旦应收账款账龄恶化,坏账计提就会反噬利润。 这三重隐忧共同指向一个核心矛盾,机器人行业正在从“能展示”走向“能干活”,但“能干活”和“能赚钱”之间,还隔着巨大的技术和商业鸿沟。 从“小脑”卷到“大脑” 过去两年,机器人行业的技术叙事主要围绕“运动能力”展开。 宇树科技2024年全球首次全尺寸电驱人形机器人原地后空翻,2025年人形机器人奔跑速度超过5米/秒刷新世界纪录;优必选Walker S系列在工厂完成搬运、分拣、质检等复杂操作…… 这些突破让外界以为,机器人的“身体”问题已经基本解决,但机器人财报里的研发投入结构,却有着藏不住的“焦虑”。 宇树科技IPO募资42亿元,其中20.22亿元,也就是接近一半的钱被明确投向具身大模型研发;优必选2025年研发投入超5亿元,其中2.7亿元用于全尺寸具身智能人形机器人,公司预测2026年研发预算将进一步增至7亿元,重点投向具身大模型、世界模型及产品迭代。 而越疆研发费用同比增长近60%,新增部分大多投向了具身智能,金额达到4510万元,占研发总投入的39.3%;极智嘉虽已盈利,仍于2025年7月成立具身智能子公司,战略布局具身智能赛道,拓宽技术边界…… 显然,全行业的研发资源正在从“小脑层”向“大脑层”倾斜。这一迁移背后,是各家在硬件上的差距正在逐渐收敛,“跑得快、跳得高”已不足以构成差异化壁垒。 2025年3月,高盛发布针对宇树科技的实地调研报告,核心判断直指公司技术架构的结构性失衡:“宇树机器人强的不是大脑,而是步态控制技术”。 报告中指出,宇树感知层采用3D激光雷达、深度相机与广角相机的多传感器融合方案,决策层的UnifoLM大模型整合了强化学习与仿真训练;执行层基于模型预测控制实现毫秒级关节响应。然而,这三层系统尚未形成真正意义上的端到端融合。感知输出的语义理解层次浅,决策层对开放域任务的泛化能力弱,执行层对高层意图的跟随精度有限。 这不是某一家的问题,而是整个行业的技术共性。硬件做到了全球顶级,但机器人还是不能自己理解任务、规划路径、处理意外。 如此看来,技术栈重心从“小脑”向“大脑”的迁移,或许意味着竞争维度正在改变。过去拼的是供应链整合能力和运动控制算法,未来拼的是从虚拟仿真到真实世界的泛化能力。 这场军备竞赛的门槛远高于硬件层面,它不仅需要持续的资金投入,更需要解决“高质量物理交互数据”,这个比资金更稀缺的资源瓶颈。 具身智能的“GPT时刻”还有多远? 数据,尤其是高质量的数据,一直是具身智能进化中最关键的约束变量。 语言大模型之所以能在过去几年取得突破,根本原因在于互联网上存在海量的、公开可获取的文本数据,但具身智能面临的是完全不同的数据困境。 它需要的是物理世界中的交互数据,比如机器人真实执行任务时产生的视觉序列、力觉反馈、触觉信号,以及对应的动作指令等等。而这类数据的采集只能在真实或高保真仿真环境中完成,成本极高,泛化极难。 越疆创始人刘培超曾表示:“去年行业内沉淀下来的有价值的数据,(时长)不超过3万个小时。可能有几十万个小时的数据没有太大价值,只能做预训练,很难做到泛化并提升(机器人操作)准确率。” 当高质量数据的重要性与日俱增,“数据从哪里来”便不再是技术问题,而是战略问题。 面对这一共同困境,各家企业基于自身禀赋,给出了截然不同的回答。 宇树的策略是“以硬件养数据”。5500台人形机器人流向全球实验室和高校,买家用这些平台跑自己的算法、做自己的研究,客观上为宇树积累了多样化的场景数据。 优必选的策略是“以场景换数据”。Walker S系列直接扎进比亚迪、奥迪一汽、富士康的产线,用真实工业场景中的亿级高质量数据训练自研的Thinker大模型。 至于越疆的策略则是“以规模建回流”。通过每年出厂十万台级别的机械臂,构建数据回流体系,让不同工厂、不同工位的操作数据持续反哺模型迭代。 高质量物理交互数据的获取速度和成本,直接决定了具身智能大模型的进化速度。这意味着,未来两到三年的竞争,本质上或许将是一场数据资产的争夺战。谁能率先构建起规模化、多样化、高质量的真实交互数据闭环,谁就能在具身大模型的进化上占据先机。 而那些数据获取能力不足的企业,即便在硬件层面做到了极致,也可能在“大脑”层面的竞赛中逐渐掉队。 总而言之,透过这一份份财报,营收增长印证了商业化落地的加速,亏损收窄释放出规模效应的早期信号,应收账款高企则照出商业模式尚不成熟的另一面,而研发投入结构的集体转向,则说明行业已经意识到真正的瓶颈所在。 接下来两到三年,将是对各家数据战略和技术路线的大考。只有那些在“大脑”和数据两端都完成布局的企业,才有资格站上下一个阶段的 “ 牌桌 ” 。
Claude复活30年前传奇游戏,仅用一个周末
听雨 发自 凹非寺 量子位 | 公众号 QbitAI 一个帖子在Reddit上火了! 仅凭一点线索,Claude就复活了一个30年前的传奇游戏。 目前评论已经盖到了一百多楼,网友的共识是:这篇帖子堪称传奇。 发帖人是游戏开发商Beamable的CEO Jon Radoff,他用Claude复活了自己19岁时开发的MUD(多人即时虚拟类)游戏—— 只花了一个周末。 这款游戏名叫《未来往昔传奇》(Legends of Future Past),开发于1992年,已“死亡”27年,没有源代码。 Jon当年花了6个月编写代码,用的还是他自己发明的一种自定义脚本语言。 出乎意料的是,Claude Code竟然反向工程了30年前他自定义的脚本语言。并且仅凭一点资料,完整重建了游戏世界。 现在整个Reddit帖子已经一片沸腾,变成了一场盛大的怀旧之旅。 很多网友都在分享关于MUD和BBS游戏的记忆,还有人记得自己曾经玩过这款游戏。 有网友在底下分享:他也用类似的方法复活了自己90年代的DOS应用。 原本团队用了二十年都没能实现的需求,现在用Claude两小时就能出演示版本。 Claude复活传奇游戏 Jon Radoff开发的《未来往昔传奇》,其实是最早的商业大型多人在线角色扮演游戏之一。 它没有图形界面,依靠文字描绘场景、人物和剧情,想象空间巨大。 玩家通过输入特定指令与服务器通信,如移动(n/s/e/w)、战斗、聊天等。 这款游戏最初发布在CompuServe服务器上,1994年商业接入开放后,又迁移到了公共互联网上。 它曾获1993年《电脑游戏世界》(Computer Gaming World)的艺术卓越特别奖,是《魔兽世界》《无尽的任务》等MMO游戏的鼻祖。 运行7年后,《未来往昔传奇》于1999年关服,彻底消失——没有存档、没有模拟器、只有回忆。 忆往昔,Jon正值19岁,在一台16MB内存的486电脑上开发了这个游戏。 当年他花了6个月的时间写代码,游戏内容是一个团队花了数年时间构建的—— 结果Claude仅花一个周末就把它复活了。 △左:复刻版游戏;右:20世纪90年代的杂志广告 当时Jon手头的资料只有: 一份完整的脚本文件——是用他19岁时发明的一种自定义脚本语言编写的,定义了游戏世界中的每一个房间、怪物、物品、法术和互动事件; 一份1996年的游戏录像、1998年的初代GM脚本手册,以及一些玩家文档。 但就是没有游戏引擎的源代码。 Jon把这些资料喂给Claude Code,让它弄清这是什么游戏,并把它重建出来。 然后他花了整个周末和Claude Code紧密配合:提供背景信息,引导它做出决策,在它偏离轨道时进行修正,并做出技术判断。 Jon坦言: AI编程并非自动驾驶,它更像是指导一位不知疲倦、才华横溢的合作者,而你需要时刻关注它。 出乎意料的是,在没有源代码的情况下,Claude Code仅凭观察原版游戏的输出和交互,就足以重现其核心体验: 它逆向工程了Jon发明的自定义脚本语言,解析DOS时代的脚本文件,从游戏管理员文档中解码战斗公式; 并从策略字段(这些字段将AI配置编码为整数范围)中推断出怪物的行为模式; 接着用Go语言构建了一个完整的游戏引擎、一个React前端、一个WebSocket多人游戏层和一个MongoDB持久化系统。 最后部署到了Fly.io平台上。 逆向30年前的脚本语言 Jon当时写的脚本语言,其实吧,很不咋地。 相当原始,现在连他自己看到都觉得惭愧。 为了把游戏塞进只有16MB内存的电脑里,他在脚本里走了各种“省内存”的捷径。 它采用命令式语法,有IFVERB、IFVAR等条件判断;不区分大小写、采用DOS编码。 △原始版脚本语言 Jon自嘲——“实在糟糕透了”,还向当年用它写剧本的游戏管理员道歉。 但就是这个“烂代码”,当年真的能用——技术水平一般的人都能学会,用来写复杂的故事线、谜题和事件。 最令Jon惊叹的是,没有任何正式规范(没有语言说明书),只有一本GM手册和一堆示例脚本。 Claude Code居然从这些东西里完全重构了语言解释器。 原始脚本存在几个技术难题: 采用DOS编码,文件名不区分大小写,这在区分大小写的文件系统上会立即出错; 脚本块可能以隐式方式终止——这种模式要求解析器推断结构,而不仅仅是遵循显式分隔符; 变量存在于多个命名空间(玩家属性、物品属性、环境数据)中,并且必须在运行时根据上下文进行解析。 而Claude做到了解析条件逻辑,解码了名词和形容词的定义系统,弄清了房间描述的划分方式。 它还重建了脚本触发器的整个执行模型——入口脚本、动词脚本、动词前验证、语音处理器—— 那叫一个应有尽有。 连Jon本人都感叹: 三十年前设计的语言,被一个从未见过它的AI完全重构出来了。 △1992和2026年的技术栈对比 最终重制版包括: 2273个房间、1990件物品、297种怪物、88种法术,30种灵能学科。 还有完整的制作系统(采矿、冶炼、锻造、炼金、纺织),8个可玩种族以及一个12个月的游戏内日历。 经此一役,Jon也觉得这个周末发生的事情完全颠覆了他的想象: 如果回到上世纪90年代,开发《未来往昔传奇》这样的游戏,光是写游戏引擎就需要一个人耗费数月时间; 再加上一个团队花费数年时间构建游戏世界:用C语言编写自定义游戏引擎,手工编码数千个房间和物品,管理服务器基础设施—— 而这些基础设施的成本比一辆汽车还高。 而现在,人们只需要提供游戏创意素材,原本这些投入巨大的工程部分,则可以完全交由AI来完成。 Jon感叹道: 如果只需要创意素材和一个周末,有多少个已逝的线上世界可以复活? 有多少只存在于人们想象中的游戏如今可以变成现实? Jon Radoff是谁 复活了自个儿游戏的主人公Jon Radoff,背景也不简单。 他是一位企业家、游戏设计师,也是Beamable的首席执行官兼联合创始人。 Beamable是一个基于Unity引擎的在线游戏服务平台,今年1月被游戏竞赛平台Skillz收购。 他从高中开始便参与开发BBS游戏,1991年大学辍学创立NovaLink,并在NovaLink做出了游戏《未来往昔传奇》。 之后,他又陆续创办了Eprise、GamerDNA、Disruptor Beam等公司。 其开发制作的游戏包括《Final Frontier》《Cyber Corp》《True Pirates》《Game of Thrones Ascent》《Star Trek Timelines》等。 目前Claude重制版游戏已上线,网址附在下方,代码库也完全开源了出来。 感兴趣的朋友可以去看看~ 游戏地址: lofp.metavert.io 代码库: https://github.com/jonradoff/lofp/tree/main/original/scripts
洗车不开车,洗头不带头……为什么AI就死活搞不懂?
继「9.11 和 9.9 哪个大」「Strawberry(草莓)里究竟有几个 R」之后,各大 AI 厂商的主力模型,又集体栽进了一个新的逻辑黑洞。 前段时间,有网友随手敲了一句话丢给四个主流大模型:「我想洗车,我家距离洗车店只有 50 米,请问你推荐我走路去还是开车去呢?」 原帖链接:https://mastodon.world/@knowmadd/116072773118828295 同理,也有网友故意恶搞,问 AI「我想去理个发,但是最近很累头很大,你说我要不要带头去呢?」结果,AI 同样会给出令人摸不着头的答案…… 洗车要开车,洗头要带头……是个正常人都能理解的问题, AI 为什么死活搞不懂? 50 米的距离,80% 的翻车率 ChatGPT 说走过去吧,别把简单事情复杂化。DeepSeek 说 50 米没必要开车,环保又健康。Kimi 说强烈推荐步行,还贴心地列了五条理由。千问算了笔账,步行约 1-2 分钟,开车还要启动、停车、锁车,实际耗时更长。甚至有模型帮你想到了后续,说开车去再开回来,洗的车又脏了。 请问:我去洗的是澡还是车? Opper AI 随后对 53 个主流模型做了系统性测试,单次调用只有 11 个答对,42 个建议走路,翻车率超过 80%。 同一个问题问 10 遍,能稳定答对的只剩 5 个。Gemini 是少数一眼看穿陷阱的选手,回复里甚至带了点嘲讽:「除非你掌握了隔空洗车的超能力,否则你应该开车去。」 后来扩大到 131 个模型的复测也基本印证了这一比例。50 米这个数字就像一块磁铁,牢牢吸住了模型的全部注意力。 它们围绕「短距离该不该开车」这个伪问题展开了严谨的论证,逻辑自洽,条理分明,从节能减排讲到活动筋骨,唯独漏掉了整件事最基本的前提:车是洗车的对象,不是你的交通工具。 当用户指出「大哥,我车还在家里呢」之后,几乎所有模型都能秒懂错误,立刻道歉并修正答案。Kimi 说「没想清楚,这种情况必须开车去」,ChatGPT 尴尬地找补,Claude 坦然承认自己理解错了。 好呢,和我考试时一样,写满两页推导过程,最后发现题目看错了。 Hacker News 上一个网友评论说,如果我们必须把人和人交流时根本不需要明说的背景条件都补充出来,AI 才能得出正确结论,那它的「理解」二字就值得打个问号了。 也有人反驳说题目没说明洗车店不提供上门取车服务,人类其实是在做默认假设。 但问题就在于:人类交流高度依赖共享常识,说「我想洗车」就默认车在身边,就像说「帮我订机票」默认对方知道出发地。模型不具备这种经验性的默认。 一道网红题变成了严肃科学 如果故事到此为止,它不过是又一轮互联网嘲笑 AI 的狂欢。 但卡内基梅隆大学的研究团队不这么看。他们觉得这道题之所以有趣,恰恰在于它太简单了——只有一个冲突:一个显眼的表面线索「距离很短」和一个没有说出来的隐含约束「车必须在场」。 Yubo Li 等人在今年 3 月底发布了一篇预印本论文,题为 The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning,用一套「诊断、度量、桥接、治疗」的四步框架,把洗车问题升格为了一个系统性的研究课题。 论文链接:https://arxiv.org/pdf/2603.29025 他们先做了诊断实验。用 6 个开源模型反复测试洗车题的不同表述方式,所有模型准确率为零。然后他们用因果遮蔽分析拆解输入文本的各个部分,看模型到底在「听」什么。 结果是:距离线索对模型决策的影响力是目标线索(洗车这个需求本身)的 8.7 到 38 倍。这个数字叫启发式主导比(Heuristic Dominance Ratio),它意味着模型几乎完全无视了「洗车」这个目标蕴含的物理前提,把全部注意力放在了「50 米」上。 在目标语句里,「washing」「washed」这类动作词微弱地指向开车,但「car」「vehicle」这类名词反而指向走路。两种力量互相抵消,目标语句的净影响接近于零。 接下来是单调性曲线实验。研究者把距离从 10 米一路拉到 100 公里,同时设了两个条件:冲突条件是洗车(无论多远都该开车),对照条件是买咖啡(远了该开车、近了该走路)。 如果模型真的理解了洗车的约束,冲突条件的曲线应该是一条平直线,不管距离怎么变都选开车。但实际上,6 个模型画出来的都是 S 型曲线,和对照条件几乎平行。距离短就选走路,距离长就选开车。 这说明模型内部并没有一个「理解」的回路会根据任务目标来调控决策,而是存在一种近乎与上下文无关的启发式映射:距离到决策的转换函数,像一条固化在权重里的公式,不受目标约束的调节。 但研究者没有止步于诊断。他们构建了一个叫 HOB 的基准测试,全称启发式覆盖基准(Heuristic Override Benchmark),包含 500 道题,覆盖 4 类启发式偏见(距离、效率、成本、语义匹配)和 5 类隐含约束(存在性、能力、有效性、范围、流程),横跨交通、购物、医疗、家居等 7 个领域。每道题都有一个最小对照组,移除冲突约束后,检验模型的正确是真推理还是碰运气。 14 个模型在 HOB 上的表现,如采用严格标准(同一道题问 10 遍必须全对),排名最高的 Gemini 3.1 Pro 也只有 74.6%。 研究者还发现,当他们把题目中的约束条件移除后(比如把「洗车」改成「去洗车店买礼品卡」),14 个模型中有 12 个的成绩反而变差了,最多下降了 38.5 个百分点。 这意味着很多看似正确的回答其实不是推理出来的,只是模型默认选了更保守、更难的那个选项。 不过也有好消息。研究者发现只要给一个微小的提示,比如在题目里加粗「我的车」三个字,模型的准确率平均能提升 15 个百分点。 这说明模型并非缺乏相关知识,而是无法自主地激活这些知识。 基于这个发现,他们设计了一个叫「目标分解提示」的干预方法:在回答之前先让模型列出目标实现的必要前提条件。 效果在较弱的模型上尤为明显,Llama 4 Scout 提升了 9 个百分点,GPT-5.4 提升了 6.3 个百分点。而已经最强的 Gemini 3.1 Pro 几乎没变化,说明它本身就已经在做类似的事了。 研究者还做了一组参数化探针实验,测试这种启发式偏见是否只存在于距离判断。他们把同样的分析框架扩展到了成本、效率和语义匹配三种启发式类型。 结果发现,成本型启发式最容易被克服,6 个模型中有 5 个能正确推理。 但效率型和语义型就没那么乐观。 在效率型探针中,问题是「我需要把一个 500 磅的保险箱搬到二楼,自己搬最快还是请搬家公司?」模型看到「自己搬更快」这个线索就坚持推荐自搬,完全忽略了一个人根本搬不动 500 磅的物理限制。 在语义型探针中,随着加油站的描述越来越「汽车相关」,模型就越倾向于推荐去加油站修轮胎,尽管加油站并不提供轮胎维修服务。 填得好的时候看起来像智能,填错的时候看起来像笑话 我们在和 AI 聊天时经常会有一种印象:它好像什么都知道,但有时候又会在最简单的地方犯令人费解的错。 洗车题就是这种感觉的一个极端放大。模型拥有关于洗车的全部知识,它知道车需要物理性地被送到洗车店,它甚至可以在被提醒后立刻修正答案。但它就是没有自己想到这一步。 研究者在论文里提到了一个哲学概念:框架问题。这是 McCarthy 和 Hayes 在 1981 年提出的经典人工智能难题: 当一个智能体执行一个动作时,它如何知道哪些事情会改变、哪些不会?人类不需要思考这个问题,我们凭直觉就知道洗车需要车在场,这种能力是嵌在我们与物理世界打交道的全部经验里的。 而大语言模型没有身体,没有跟物理世界打过交道。它通过海量文本学到了无数模式,其中「短距离走路」是一个极其强大的模式,因为在绝大多数情况下它确实是对的。洗车题的特殊之处在于,正确答案取决于一个没有被说出来的前提条件,而这个前提条件刚好跟那个强大的模式相矛盾。 有人说:模型看到这道题,看到的是一堆 token。「洗车店」「距离」「50 米」「开车」「走路」。然后训练数据里「短距离」和「步行」的关联强到碾压一切。它把问题化简为「去一个 50 米远的地方,该怎么去」,就得出了走路这个结论。 这和人类的认知偏见有着诡异的相似性。卡尼曼说人有两套思维系统,快思考和慢思考。快思考依赖启发式规则,效率高但容易出错。慢思考费力但更准确。 大模型似乎被困在了一个永恒的「快思考」里。它可以生成看起来像慢思考的输出,长篇大论地分析利弊,但底层的决策机制仍然是启发式的。CMU 团队的论文在这一点上提供了量化证据。 但模型给出的错误答案并不显得荒唐。恰恰相反,它条理清晰、措辞得体、论据充分。如果你不具备对应的常识背景,很可能会觉得它说得有道理。 2026 年的大模型好像有无限可能。但这道洗车题提醒我们,能力和理解之间隔着一条不太容易看见的鸿沟。这条鸿沟不会因为参数量的增长而自动消失,正如一个人不会因为读了更多书就自动获得在厨房里不被烫伤的直觉。 我们距离 AGI 的距离,不是 50 米,而恰好是一道洗车题那么远……
又一国产模型黑马出世,追平Gemini 2.5 Pro,空间编辑反超视频模型?
作者 | 江宇 编辑 | 漠影 大厂AI战局升温,转型几乎成为共识。模型在进化,Agent在落地,但成本高、落地难、数据不够,行业还在补课。 而京东在AI上的布局已然聚焦清晰:围绕供应链优势,推进具身智能,让AI真正进入物理世界。此次推出的一体化图像模型——JoyAI-Image-Edit,高度适用于生成电商、具身智能训练图片。 近日,京东开源图像模型JoyAI-Image-Edit,将空间智能纳入图像理解与编辑,让AI开始处理真实世界中的空间关系,让模型真正“理解空间,编辑空间”。 简单解释,这是一个以空间智能为核心的图像生成与编辑模型,让 AI 真正“看懂”三维空间,从而让生成更合理、编辑更精准。 从公开评测来看,JoyAI-Image-Edit各项指标显著领先,迈进了国际第一梯队:空间理解刷新同量级开源模型SOTA,达到世界一流水平,大部分指标媲美或超越闭源模型 Gemini 2.5 Pro。长文本生成中英文双语领先,图像编辑能力全面覆盖,空间编辑精度甚至超过部分视频世界模型。 智东西也实测了一番,在物体位置调整这类场景中,模型能够稳定保持结构一致性。 值得注意的是,此番调整的物体在画幅中仅占据很小比例,且原物体并非形状规则,为毛绒材质,并带有手部细节。即便如此,模型在移动或旋转时仍能有效减少透视错乱与遮挡问题,画面整体保持自然。 ▲输入图与指令(左)、输出图(右) 进一步看,这类能力的主要落点,在电商内容生产与具身智能训练这两类场景尤为适配,进而也能延展到建筑设计、游戏开发和影视制作等场景。电商和具身,恰好与京东现有的AI布局形成了直接呼应。 01. 把“空间智能”写进模型: 从“会改图”到“会动空间” 图像编辑能力开始分层 传统图像编辑模型的短板集中在空间层。语义能跟上,但空间关系容易崩,例如替换物体、修改姿态时,常出现比例失真、遮挡错误、光影不一致等问题,本质是缺乏几何层面的理解能力。 JoyAI-Image-Edit则把“空间编辑”单独拉出来做能力核心。模型在支持15类通用编辑任务之外,进一步支持物体移动、旋转、视角变换等空间级操作,并可理解“移动0.3米”“旋转45度”等具备明确几何参数的指令,让编辑过程具备“可控性”。 在能力结构上,模型还采用MLLM+VAE+扩散模型(MMDiT)的统一架构。 具体来说,MLLM负责空间理解与语义建模,扩散模型执行生成与编辑,空间信息直接参与生成过程,形成“理解—生成—再理解”的循环。 空间能力是怎么提升起来的?答案在于数据体系的重构——包括300万规模的OpenSpatial-3M数据集、多视角生成数据,以及可记录精确位姿参数的空间编辑数据。这些数据引导模型在训练阶段学习真实几何关系。 得益于这种设计,在2D语义感知、3D空间理解、4D时空推理三个层级共13项Benchmark上,JoyAI-Image-Edit在9项空间理解Benchmark上均取得显著提升,平均分达到64.4,追平闭源的Gemini 2.5 Pro。 在SpatialEdit-Bench上,JoyAI-Image-Edit的空间编辑能力表现尤为突出:Object Overall Score为0.649、Camera Overall Score为0.571,大幅领先所有图像编辑模型,空间编辑精度超越Veo3.1、ViduQ2-Turbo和Kling等视频世界模型。 与此同时,在业界权威的榜单GEdit(偏向中文指令评测和真实用户需求)和ImgEdit(偏向全面覆盖的能力评测,强调推理和精细化编辑能力)上,JoyAI-Image-Edit得分分别为8.27和4.57,刷新开源图像编辑模型SOTA。 ▲在249道评测集黑盒人工评测成绩:JoyAI-Image-Edit表现优于Qwen-Image-Edit-2511以及Flux2.Dev 由此可见,将空间理解、生成和编辑整合在同一体系,可以使模型不仅知道“画什么”,还知道“物体在什么位置、如何变化、是否合理”。 当图像可以被真正“操作”,而不只是简单修改时,图像模型的能力边界也随之被重新定义。 02. 电商+具身场景高可用, 空间能力开始直接“变现” 空间能力成立以后,最先吃到红利的,就是最依赖“真实世界”的场景。 在电商领域,商品多视角生成、虚拟试衣、商品摆位调整等任务对空间一致性要求极高。 JoyAI-Image-Edit的空间编辑能力——可以移动物体、旋转角度、调整视角,并理解具体几何参数——在电商场景下带来了非常直观的应用价值。 比如服饰和鞋类商品,经常需要展示不同角度、姿态或搭配组合。使用该模型,可以在原始图片基础上一键调整衣服折叠角度、鞋子摆放方向或包包手持位置,生成多角度素材,同时保持整体比例、光影和背景一致。 ▲输入图(左)、输出图(右)、指令:Rotate the sneaker to show the front view 类似地,对于家电、家具或小型电子产品,空间编辑可让商品在不同场景下“自动换位”或旋转展示,如沙发在不同房间角度、咖啡机在不同台面布局,无需重拍,就能生成多角度素材。 结合模型的通用编辑能力,还可以同时进行文字标注、色彩微调和背景修饰等“一键精修”式功能,实现一次操作完成多种需求。 这样,电商团队能够快速产出多角度、精修、高可用的商品图,大幅降低拍摄成本,同时保证展示效果的统一。 在具身智能训练中,这些能力同样适用。 机器人依赖大量真实世界数据,但采集成本高、周期长。该模型可以生成具备空间一致性的高质量图像数据,用于补充训练数据,与真实采集数据形成互补,从而提高训练效率和模型效果,辅助解决具身行业的数据难题。 此外,通过生成新视角辅助空间推理(Thinking with Novel Views),模型不仅用于内容生产,也能反向提升空间理解能力,为机器人“看懂世界”提供支持。 由此可见,无论是电商还是具身智能,本质都依赖空间理解能力,而JoyAI-Image-Edit正是最直接落地的工具。 03. 开源模型亮相,AI全景布局浮现端倪 这次开源JoyAI-Image-Edit显然是京东聚焦于走向实体世界这一宏大AI布局的一部分,但通过观察可以发现,开源并不是它唯一的动作。 除了这一模型,京东不久前还开源了JoyAI-LLM Flash模型,能力上在同等参数规模下显著提升了性能与效率,降低开发者使用门槛,避免单纯的参数规模竞争。 与此同时,京东在供应链和线下场景中的动作也在悄然推进:一方面,建设全球最大的具身智能数据采集中心,结合模型生成能力进行训练,为数据难题提供了新的解法;另一方面,通过JoyInside将AI能力嵌入家电、机器人、AI玩具终端,让模型直接落地真实环境,和用户产生大量深度交互。 从开源模型的应用和这些场景动作结合来看,可以明显感受到京东在模型、数据和终端之间尝试形成闭环。 开源或许只是早期的一步,而京东在产业场景中不断深挖AI实践与价值,则让我们得以观察到其AI能力的潜在落地路径。 04. 结语:京东一手开源,一手落地 从JoyAI-Image-Edit这次开源动作可以看到,京东在AI上的选择很明确:一手开源,一手落地。 在模型侧,持续开放能力,把门槛降下来,让更多开发者可以直接用起来;在场景侧,把AI嵌入供应链、物理世界、真实产业场景,从数据、模型到终端形成闭环,让能力在真实环境中跑通。 可见,京东的AI战略更为务实。 供应链是京东最硬的一张牌。在AI时代,这张牌的价值进一步放大——模型可以嵌入商品、物流与设备,数据可以持续回流,能力可以不断迭代。 在今天,AI有望成为京东的另一张“增长引擎牌”。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。