行业分类:
加载中...
头条分类:
加载中...
车规级存储芯片价格暴涨180%!多款新能源车涨价了
快科技6月6日消息,据央视财经报道,近期国内车市走势分化明显,新能源车型受上游供应链涨价影响陆续调价,燃油车却持续降价放利、加大优惠,市场呈现冰火两重天的格局。 行业数据显示,近三个月车规级存储芯片价格暴涨180%,智能驾驶硬件成本大幅抬升,成为新能源车调价的关键诱因。 北京多家新能源门店不少车型官方售价暂时未变,但高阶智驾选装包悄然涨价,原先9900元的激光辅助驾驶选配,现已上调至12000元;搭载两颗图灵芯片选装费用1.2万元,三颗芯片选配价格达到2万元。 目前已有十余家新能源车企上调终端售价或是缩减购车优惠,调价区间集中在2000元至6000元,多数新款换代车型定价高于前代产品,但即便涨价,看重智能驾驶的年轻刚需消费者依旧愿意买单。 除芯片外,动力电池原材料同步涨价,今年1至5月碳酸锂从每吨12万元突破20万元大关,一台50度电的新能源车,仅电池成本就增加2500至3000元,国内电池企业通过研发新型电池、优化采购模式、升级生产工艺等方式对冲成本压力。 报道指出,此前持续的价格战压缩车企利润,全产业链成本上行后,车企借调价修复盈利空间,保障后续技术研发投入。 和新能源截然不同,燃油车开启降价促销模式,优惠力度连续九个月保持高位,自主品牌燃油车优惠幅度18.6%,合资车型达22.4%。 多款车型直降3至6万元,叠加置换补贴、购车福利,部分B级家用车价格下探至13万区间,不少消费者趁低价选购燃油车与混动车型,门店客流与成交量较一季度稳步上涨。
打不过就合作 美媒:中国电动车或在几年内进入美国市场
中国苏州港准备出口的电动汽车 凤凰网科技讯 北京时间6月7日,据CNBC报道,尽管中国电动汽车进军美国市场面临高额关税、严格监管以及国会议员和本土汽车行业的强烈反对,但中国电动汽车未来几年内在美国上市销售的可能性正在增加。 近年来,中国电动汽车制造商已积极且有计划地扩大在欧洲、英国、亚洲和澳大利亚的版图,出口了数百万辆设计精良、科技配置先进且价格具有竞争力的汽车,同时建设工厂并拓展供应链。如今,中国车企已将目光投向西方国家,尤其是美国这个仅次于中国的全球第二大汽车市场。与此同时,美国自身的电动汽车发展雄心已明显减弱。 美国车企转型困难 这也引出了美国底特律三大车企通用、福特和斯特兰蒂斯所面临的一个生存难题。尽管它们仍在推出数量有限的电动车产品,但业务重心依然是生产和销售传统燃油车。与此同时,许多汽车行业专家都认为,电动汽车代表着全球汽车产业的未来,而中国有望主导这一市场。 “美国车企已在许多电动汽车项目上退缩,因为它们始终无法以较低成本向美国消费者提供具有足够吸引力的价值主张。”艾睿铂咨询公司汽车与工业业务董事总经理斯蒂芬·戴尔(Stephen Dyer)表示。但他同时指出,如果电动汽车确实代表未来,“那么不参与这场竞争,就不可能具备竞争力”。 而且,美国三大车企也无法躺在过去的功劳簿上高枕无忧。专注于电动汽车和自动驾驶汽车的咨询公司邓恩洞察的CEO迈克尔·邓恩(Michael Dunne)表示:“底特律汽车制造商曾经将生产传统燃油汽车的业务做到了极致。但当面对向电动化和自动化的巨大转变时,它们却难以实现转型。” 邓恩同时指出,中国则有一项主导全球电动汽车市场的总体计划,涵盖轿车、卡车以及为其提供动力的电池。他表示,在世纪之交时,中国每年生产不到一百万辆汽车,但到2010年时,其市场规模和产量均已超过美国。 打不过就加入 虽然美国车企击败中国巨头的机会可能正在逐渐消失,但从长远来看,想要继续保持竞争力和行业地位,最可行的办法或许是选择与中国车企合作。 CNBC指出,鉴于将中国制造的电动汽车直接进口到美国的可能性极低,允许他们在美国本土生产正成为一个现实的选择。今年1月,美国总统特朗普曾表示,只要中国车企雇佣美国工人,他就支持这些公司在美国设厂。今年5月,在陪同特朗普访华的CEO团队中,唯一的汽车行业高管是特斯拉CEO埃隆·马斯克(Elon Musk)。尽管特斯拉在中国有业务布局,但远落后于本土领军企业比亚迪。 中国电动汽车的出口地区 目前,中国仍然是全球最大的电动汽车制造和贸易中心,分别占全球总量的近75%和40%。根据国际能源署的数据,在本土车企的大力推动下,中国在2025年生产了约1600万辆电动车,比国内需求高出20%,推动中国电动汽车出口量翻番,创下超过250万辆的历史新高,成为中国汽车出口增长的主要动力。2025年,电动车型占中国汽车出口总量的35%以上,高于前一年的约20%。 “中国车企在全球唯一尚未进入的市场就是美国。”邓恩表示。 中国车企要想进入美国,无论如何也要克服美国现行法规针对中国所开发软件与硬件的监管限制,这些限制涉及美国制造电动汽车的车联网系统或自动驾驶系统。此外,俄亥俄州共和党参议员伯尼·莫雷诺(Bernie Moreno)和密歇根州民主党参议员埃莉萨·斯洛特金(Elissa Slotkin)已在参议院提出一项法案,试图永久禁止中国汽车制造商进入美国。 更有可能的途径是中美汽车公司之间的合作。艾睿铂咨询公司的戴尔表示:“我认为许多中国汽车制造商的最终目标是在美国建立独立的、全资拥有的组装工厂和业务,但在此之前,他们愿意先走一个过渡阶段。” “传统车企已经意识到这种威胁,其中很多现在已经在开展合作。”咨询公司AutoPerspectives创始人、曾任通用竞争情报副总监的亚当·伯纳德(Adam Bernard)表示。他举例称,福特、通用和斯特兰蒂斯都与中国车企达成了合作协议。 福特CEO吉姆·法利(Jim Farley)已承认,自己喜欢开小米SU7轿车。路透社报道称,福特正在与中国浙江吉利控股集团洽谈建立欧洲合作伙伴关系。此外,据《华尔街日报》报道,福特“似乎也在为未来某个时候让中国汽车进入美国留出了空间”。 与此同时,福特正在推进其“通用电动车平台”的开发,该平台将首先搭载到一款售价约3万美元的中型电动皮卡,并计划于明年上市。该公司2021年推出的纯电版F-150 Lightning销量未达预期,目前正在被重新设计为混合动力车型。 通用汽车则从中国宁德时代进口电动汽车电池电芯,用于其雪佛兰Bolt EV。该车型在通用汽车位于堪萨斯州堪萨斯城的费尔法克斯组装厂生产。通用汽车还在墨西哥科阿韦拉州设有一座工厂,生产包括Equinox、Blazer和凯迪拉克Optiq在内的多款自有品牌电动汽车。不过,得益于《美墨加协定》允许在北美组装的车辆进行免税贸易,这些车辆不受关税影响。此外,通用汽车与其在华长期合资企业上汽通用五菱正在就开始在墨西哥生产燃油车进行深入谈判。 加拿大和墨西哥开始进口 北美市场进口中国电动汽车品牌的情况已经在加拿大和墨西哥上演。 在墨西哥,中国汽车占到了总销量的四分之一,但在今年早些时候墨西哥征收50%的关税后,这一占比可能会下降。相比之下,加拿大总理卡尼在1月签署了一项协议,允许每年以6.1%的关税税率向加拿大进口最多4.9万辆中国制造的电动汽车。 斯特兰蒂斯旗下拥有道奇、克莱斯勒、吉普、Ram以及多个欧洲品牌,是中国浙江零跑汽车的最大股东,持股21%,并且在与该中国车企的合资企业中持有51%的多数股权。在最近的一次新闻发布会上,斯特兰蒂斯CEO安东尼奥·菲洛萨(Antonio Filosa)表示,公司“肯定”看到了与零跑汽车在墨西哥、甚至可能在加拿大扩大生产和销售的机会。“我相信墨西哥有空间……加拿大也许也有空间。我们拭目以待。”他说。 比亚迪 比亚迪执行副总裁李柯在3月表示,公司正在考虑在加拿大建设一家全资工厂,并可能收购一家陷入困境的传统汽车制造商。“我们对每一个机会都持开放态度。”李柯说,但没有透露任何具体细节。 很快能买中国车? 那么,美国消费者在不久的将来能买到中国电动汽车吗?汽车咨询公司中国汽车洞察的创始人涂乐给出了肯定的答案。 “一旦加拿大人在未来18个月内开始购买中国电动汽车,而我们的邻国墨西哥已经可以买到,那么美国开放中国电动汽车购买的压力就会显著增加。”他表示。 涂乐补充说,尽管美国政客正在设置法律障碍以阻止中国电动车进入,但他们并没有提出任何让本土车企提升竞争力的具体方案。“不能只是简单地说不行、永远不行,”他说,“否则这最终会拖垮美国汽车产业。这还会推高消费者价格,因为我们的技术将比欧洲和中国消费者能买到的任何产品落后两到三代。” 邓恩则充满信心地表示:“到2030年,我们一定会看到某种形式的中国汽车出现在美国的道路上。无论通过什么方式,它们总会找到进入的途径。” 大多数专家都认为,电动汽车是全球汽车行业的未来,而中国将继续保持市场领导者的地位。这可能会促使美国汽车制造商与中国企业联手,将其作为保持自身行业地位和竞争力的最可行途径。 “我认为未来会出现一种混合模式:一些公司选择单打独斗,而另一些则会选择合作或建立合资企业,”涂乐表示,“如果我是比亚迪,作为一个中国品牌我会处在聚光灯下。因此,如果我能和福特或通用一起进入美国市场,就能在一定程度上减轻这种压力,或者至少转移部分压力。”(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
视频丨多名加沙民众伤亡 黎政府军车辆遭袭 以军持续推进多线军事行动
  日前,中东地区紧张局势持续升级。当地时间6月6日,以色列军队在加沙地带多地发动空袭,造成多名巴勒斯坦民众死伤;巴勒斯坦官方机构发布月度报告称,以方5月在约旦河西岸实施超1600起袭击。   与此同时,以军6日袭击黎巴嫩南部一辆黎政府军军车,导致3名军人死亡,引发黎方强烈谴责。   以军空袭加沙多地致多人死伤   当地时间6日,以色列军队在加沙地带多地实施空袭,造成至少7名巴勒斯坦民众死亡、多人受伤。   △加沙地带(资料图)   6日傍晚,以军空袭加沙城西部一处安置流离失所民众的帐篷,造成6人死亡,其中包括2名女性;另有至少15人受伤,大多数为儿童。当天凌晨,在加沙地带南部汗尤尼斯,一名巴勒斯坦青年遭以军袭击后死亡。   此外,以军当天夜间在加沙地带南部发动空袭,打死巴勒斯坦伊斯兰抵抗运动(哈马斯)的一名军事指挥官。   以方5月在约旦河西岸实施超1600起袭击    与此同时,以色列在约旦河西岸的袭击也呈升级态势。巴勒斯坦官方机构“巴勒斯坦隔离墙和定居点抵抗委员会”6月6日发布月度报告称,今年5月份,以色列军队和以色列犹太人定居者在约旦河西岸共实施1659起袭击事件。巴方表示,袭击呈系统性升级趋势,严重影响当地居民生活和农业生产。   报告显示,以色列军队实施了1108起袭击,以色列犹太人定居者实施551起,涉及暴力袭击、破坏土地、侵占财产和拆除房屋等多种形式。巴勒斯坦方面称,5月,以方实施了70次拆除行动,涉及155处建筑,并发出51份拆除通知。巴方认为,以方行动旨在制造既成事实,扩大定居点,并对巴勒斯坦社区施加持续压力,逼迫巴勒斯坦人迁离。   以军袭击黎政府军车辆致3人死亡   黎总统谴责:以方持续升级局势   在加沙地带和约旦河西岸局势持续紧张的同时,黎以边境地区冲突亦未平息。以色列国防军表示,在5日、6日两天,以军在黎巴嫩南部对约150处真主党武装基础设施实施空袭和火力打击,打击目标包括武器储存点、指挥中心、火箭发射装置等设施。   黎巴嫩总统奥恩6日发表声明,强烈谴责以军当天袭击黎南部一支黎政府军巡逻队,导致2名军官和1名士兵死亡。奥恩表示,这一袭击行为严重侵犯黎巴嫩主权,公然违反国际法和国际准则,是以方持续升级局势行为的一部分。   △黎以边境(资料图)   以色列国防军当日证实,以军当天在黎巴嫩南部袭击了一辆黎政府军军车。以方声明称,在黎南部泰卜尼特地区发现一辆“可疑车辆”向以军驶来,该车穿行区域系“活跃战区”。以军此前收到情报称,黎真主党会从该区域向以军开火。鉴于上述情报且该车对“以军士兵构成威胁”,以军对该车实施了打击。初步调查显示,车内有2名黎巴嫩政府军军官和1名士兵。以方强调,其“行动目标是黎真主党,而非黎政府军”,以方正在着手调查此事件。   监制丨郑弘   制片人丨文凡   主编丨张敏   编辑丨代根华   记者丨赵兵 杨渊
新华时评丨推动中朝传统友好合作关系不断向前发展
  新华社北京6月6日电 题:推动中朝传统友好合作关系不断向前发展   新华社记者许苏培   应朝鲜劳动党总书记、朝鲜民主主义人民共和国国务委员长金正恩邀请,中共中央总书记、中华人民共和国主席习近平将于6月8日至9日对朝鲜民主主义人民共和国进行国事访问。这是习近平总书记今年首次出访,也是时隔7年再次对朝鲜进行国事访问。这次历史性访问,对于推动中朝关系发展具有重大意义,必将为两国传统友好注入穿越风雨、长久不衰的时代力量。 这是地处中朝边境、位于吉林省集安市的鸭绿江国境铁路大桥(2023年6月17日摄,无人机照片)。新华社记者周万鹏摄   中朝友谊历久弥坚,根基深扎于共同理想、共同奋斗的历史土壤。1949年,中朝正式建立外交关系,掀开两国关系新的历史篇章。1961年,两国老一辈领导人高瞻远瞩,作出签订《中朝友好合作互助条约》的战略决策,为推动两国持久友好合作奠定了重要政治法律基础。从共同反对外来侵略、争取国家独立和民族解放,到并肩开展社会主义革命和建设事业,中朝两国彼此信赖、相互帮助,是命运与共、守望相助的好邻居、好朋友、好同志。平壤牡丹峰麓的中朝友谊塔,是铭记历史的丰碑,也是两国友谊代代传承的历史见证。   中朝关系不断前行,根本在于两党两国最高领导人的掌舵领航。最高领导人的战略引领是中朝关系行稳致远的最大政治优势和根本保障。近年来,习近平总书记同金正恩总书记多次会晤并通过函电等保持密切沟通。习近平总书记多次强调,维护好、巩固好、发展好中朝关系,始终是中国党和政府坚定不移的方针。金正恩总书记也表示愿同习近平总书记一道,继承和发展朝中友好关系,续写朝中友谊。去年9月初,习近平总书记同金正恩总书记在北京举行历史性会晤,就双边关系全局性、战略性、方向性问题达成重要共识,开启两国友好交往新篇章。两党两国最高领导人把方向、谋大局、绘蓝图,为中朝关系发展提供了根本遵循和不竭动力。 2026年3月12日,一趟从中国丹东开往朝鲜平壤的国际旅客列车抵达平壤站。新华社记者王超摄   中朝合作生机勃发,活力来自各层级各领域交流不断拓展。中国是朝鲜最大的贸易伙伴。两国在文化、教育、科技、体育等各个领域保持交流合作,签订了通商航海协定、航空运输协定、领事条约等多项条约协定,双方多个省市还建立了友好关系,为两国人民深化友谊搭建了桥梁。过去一年,中朝交往亮点纷呈。上海歌舞团舞剧《永不消逝的电波》在平壤成功上演,引发当地民众热烈反响;北京、丹东至平壤间双向开行国际旅客列车,为两国人员往来提供便利……一次次往来交流,一项项务实合作,让中朝传统友好焕发蓬勃生机。   从朝方积极支持和响应构建人类命运共同体理念和四大全球倡议,到双方在联合国等多边平台保持沟通协作,再到围绕地区和国际问题加强协调,中朝携手捍卫共同利益,维护国际公平正义,为地区长治久安和世界和平发展注入稳定性。   今年是《中朝友好合作互助条约》签订65周年。回望历史,中朝友谊历经时代变迁而越发根深叶茂,在于它符合两国人民心愿、两国根本利益,也符合和平发展、合作共赢的时代潮流。面向未来,中朝双方不忘初心、携手前行,必将推动传统友好合作关系不断向前发展,更好造福两国和两国人民,为促进地区乃至世界和平稳定和发展繁荣作出新的积极贡献。
视频模型巨大的“隐形成本”,没人告诉你
关于 AI 烧钱,业内流传着各种令人瞠目结舌的数字。xAI 花了超过 10 亿美元建起 Colossus 超算集群;OpenAI 的月度算力账单据称高达数亿美元;Anthropic 最近几轮融资拿到的钱,在公众眼里几乎已经和「GPU 时数」直接画上了等号。 大家谈的,几乎都是算力。GPU 成了衡量一家 AI 公司实力的通用货币,也是每一篇融资报道里最显眼的那个数字。 但最近,我听了一期 Latent Space 播客,采访对象是 xAI 前研究员 Ethan He——Ethan 在 2025 年中加入 xAI 时,面对的是一个没有基础设施、没有数据、没有现成模型的白纸状态,然后用三个月时间和一支小团队,从零搭建出了 Grok Imagine 视频生成系统,做到了当时业内的一流水准。 在聊到大规模视频模型的训练成本时,他说了一组数字,让我突然意识到,这个行业可能一直在算错了账。 「 光是存储这些视频和特征数据,每个月就要几百万美元——这还没算算力成本 。」 01 账单上的隐藏成本 从零到一,开始训练一个视频大模型,需要花多少钱?先假设你的团队有矿,GPU 算力随便用。即便如此,你可能依然低估了这件事的巨量成本。 假设你要训练一个世界级的视频生成模型,去网上爬取了 10 亿条视频,每条平均 5MB——这已经是相当保守的估计了。光这一项,你就需要 5PB(拍字节)的存储空间。按照 AWS S3 的定价,5PB 标准存储,每个月大约 10 万美元。 但这还只是原始视频。 在训练视频模型之前,业界通行的做法是先用 VAE(变分自编码器)把视频压缩成「潜在空间」的特征向量——因为一段视频展开成像素,可能有几十亿个 token,任何 Transformer 都处理不了,必须先压缩成模型能理解的连续向量。 问题是,这份压缩后的特征数据,体积和原始视频相当,同样需要长期存储,随时备用。 两项叠加,数十 PB, 每月存储费就超过 20 万美元 。 然后是最出乎意料的那一项:数据进出费(egress/ingress)。 Ethan 说, 从互联网下载 10 亿条视频的带宽费用,在 AWS 上比存储这些视频还贵 。每次训练,数据都要从存储层拉到计算层跑一遍。视频模型的训练不像语言模型那样训完就完了——要迭代,要调参,要测试不同的数据配比,每一次实验都意味着把全量数据再过一遍。实验跑得越多,这笔钱就乘以相应的倍数。 综合算下来,Ethan 的估算是, 光是数据这一块,每个月就要几百万美元 。GPU 的费用,还没开始计入。 这笔账,我从来没见哪篇 AI 行业报道细算过。 02 扛不住的带宽费 那像 xAI 这样自建 Colossus 数据中心的公司,是不是在存储和带宽上省了一大笔钱? Ethan 的回答很直接:「当然,省了很多。」 这句话背后,藏着视频 AI 行业一个不太被讨论的结构性秘密。 大语言模型的训练数据是文本,体积相对轻量,而且训练完成之后,原始数据基本就完成了使命——你不需要反复拉取全量语料来做推理或微调。但视频数据完全不同: 体积是文本的几个数量级,而且每一次训练实验都要把全量数据完整过一遍 。 迭代速度越快,数据搬运的成本就越高;而 Ethan 反复强调, 迭代速度,恰恰是视频模型研发中最关键的变量 。 这就形成了一个相互咬合的困局:你需要快速迭代来提升模型质量,但快速迭代意味着频繁搬运数据,而频繁搬运数据在公有云上的账单会把你压垮。 Ethan 本人的轨迹就是一个注脚。他在 NVIDIA 参与构建了 Cosmos 世界模型,做着做着意识到,视频模型存在和语言模型类似的「规模定律」,还有很大的提升空间。他当时面临的选择,表面看是「我需要更多 GPU」,但同样关键的一句话他没明说—— 他需要一个不用按 AWS 账单算钱的地方,来存放和搬运数据 。这也是他去 xAI 的根本原因之一,而 Colossus 给了他那个环境。 对于没有自建基础设施的团队来说,这笔账是怎么算的?每个月几百万美元的数据成本,叠加在 GPU 算力之上,意味着哪怕你有一流的算法团队,哪怕你募到了足够的资金,只要你还在用公有云,你就是在用一个无底洞的账单跟对手的自建机房赛跑。 这道门槛,不是一家有优秀算法的创业公司能靠「技术取胜」跨过去的。 03 视频模型的护城河不是模型 这让我想起一个有趣的对比。 在大语言模型领域,「开源 vs 闭源」的竞争打得相当激烈,Llama 系列的出现让很多小团队也能在语言模型上打出有竞争力的产品,甚至逼着 OpenAI 和 Anthropic 不断压低 API 价格。但在视频生成领域,我们看到的格局截然不同:能持续做出顶尖视频模型的,基本只有 Sora、Veo、可灵这些背靠巨量资源的团队,没有一家是靠开源社区在车库里跑出来的。 很多人把这归结为「数据和算力的差距」。这当然没错,但 Ethan 揭示的这组数字告诉我们,问题比这更深: 视频 AI 的基础设施成本,从一开始就把竞争的门槛,锁死在了极少数玩家的高度上。 这和半导体行业的逻辑有几分相似。台积电之所以难以撼动,不只因为它们有更好的设计,更因为一座新晶圆厂需要几百亿美元的前期投入,这道门槛本身就是最好的护城河。视频 AI 的护城河,就是那数十 PB 的数据基础设施和每月滚动产生的带宽账单。 Ethan 在播客里还补充了一个更深的推论: 视频模型的「智能」,大部分其实来自背后的语言模型,而不是视频扩散模型本身 。 视频扩散模型相对「愚钝」,它只会按照文字描述照单全收地生成画面,描述写「一只猫」,它就生成一只猫,站在纯白背景前,纹丝不动——因为你没有告诉它背景是什么、猫在做什么。 真正理解用户意图、把「一只猫」扩写成一段精细的镜头语言描述的,是背后那个做「提示词重写」的大型语言模型。Ethan 说,在 Cosmos 时期,他曾经用一个「快乐的羊」做测试:不经过提示词重写,生成出来的画面极其 CGI、毫无质感;加上重写之后,效果判若云泥——而整个视频扩散模型本身,并没有发生任何改变。 这意味着,决定一家公司在视频 AI 领域能走多远的,不只是视频模型的参数规模,而是能否同时撑起语言模型和视频模型这两套基础设施,并让它们有效协同。 这是一场拼综合体力的竞赛。 04 下一个战场,早就被划好了 当然,行业也在摸索出路。 提示词重写的 Agent 化、让语言模型像「指挥官」一样调度多个视频生成工具、用 FFmpeg 这类传统软件处理中间环节——这些方向的共同逻辑是,把「语言模型的推理成本」和「视频扩散模型的生成成本」分层计算,让每一次视频生成的调用更加精准,减少无效的计算和数据搬运。 Ethan 对「视频 Agent」的走向相当笃定。他预测今年年底将出现一个拐点——当 Agent 生成的视频质量能够稳定达到「可投放商业广告」的水准,企业才会真正愿意为之买单,整体的成本结构也会随之演变。 但有一点不会变: 谁掌握了数据的存储和流转,谁就掌握了这场游戏的起点。 在 AI 这个赛道上,「真正的壁垒」每隔一段时间就会轮换一次。先是参数量,然后是训练数据规模,然后是对齐技术,然后是推理效率。现在,视频 AI 正在揭示下一道壁垒——不是某种神秘的算法突破,而是一份冷冰冰的基础设施账单。 这笔账,从一开始就没打算让所有人都算得起。
iFixit拆解华强北山寨Apple Watch、AirPods:内部做工粗劣,核心功能缺失
IT之家 6 月 7 日消息,维修拆解网站 iFixit 近日探访了中国深圳华强北商圈,在这里购入了高仿版 Apple Watch Ultra 3 智能手表、AirPods Max 2 以及 AirPods Pro 3,随后带回工作室进行拆解测试。 iFixit 在视频中介绍,华强北是全球绝大多数电子产品维修配件的集散中心。这里也售卖各类仿冒产品,这类产品外观看似和正品相差无几,但只要仔细查验,或是像本次拆解一样查看内部构造,真假差异便会暴露无遗。 拆解高仿 Apple Watch Ultra 3 工作人员沙赫拉姆 · 穆赫塔里拿起这款高仿手表并操作系统后发现,点击表盘上任意应用,设备都只会开启夜间模式,界面会变成红色,完全无法打开对应应用。 他还提到,这款产品的触觉马达手感明显异样;除心率传感器外,其余多数传感器都只是印刷在塑料后壳(正品采用的是陶瓷或蓝宝石材质外壳)上。 IT之家注意到,拆开机身后可以看到,这款仿表搭载 260 毫安时电池,容量还不到正品的一半。电池在表壳内固定松散,仅通过导线焊接在主板上。 拆解高仿 AirPods Max 2 和仿款 Apple Watch Ultra 3 一样,这款高仿头戴耳机拿在手里,就能明显感受到材质、质感与做工和正品存在差距。其外壳为塑料材质,并非正品的铝合金;耳罩软垫也比正品更加松软。 按键的按压反馈手感违和,同时这款仿品不具备主动降噪和通透模式。不过它复刻了正品的入耳检测功能,以及首次配对时的专属弹窗和动画效果。 拆解耳罩腔体时,工作人员无法识别电池型号。拆解过程中,多处焊点粗糙的线材轻易脱落。此外,机身内还加装了数个金属圆柱配重块,目的只是模仿正品的重量手感。 拆解高仿 AirPods Pro 3 三款仿品中,这款第三代 AirPods Pro 仿品的外观还原度最高。工作人员表示,除了接缝处有细微差别,肉眼几乎难以分辨真假。 但二者的内部构造截然不同。尝试取下硅胶耳塞套时,耳机整个前端部件直接连带脱落,还扯断了数根连接线。后续检查发现,耳塞套竟被直接粘在了耳机主体上。 通过 CT 扫描进一步观察,更多破绽浮出水面: 产品未搭载微机电系统麦克风;发声单元做工粗糙,内部结构十分简陋,本该使用柔性排线的位置,只用普通铜丝焊接,这些都是典型的仿品特征。 细看内部结构还能发现,这款山寨耳机腔体设计和初代 AirPods 类似,细小的电路板可以从耳机柄中直接滑出。不出所料,其内部也没有主动降噪麦克风、心率传感器等核心元器件。 最后拆解充电盒可见,内部做工同样粗劣,电池也没有任何规格标识。
AI治理一座城市,15天会发生什么?
作为一项重要的模型对齐技术,基于人类反馈的强化学习(RLHF)已经是大语言模型训练体系的核心组成部分。它最初建立在单轮任务和单轮偏好标注框架之上,由人类对模型生成的不同回答进行打分排序,以此引导模型输出更符合人类偏好、更安全且更有帮助的回答。 但现在,AI 正在走出对话框。Anthropic、OpenAI、xAI 和 Google等公司都在发展能自主运行的智能体:有记忆、能规划、可以连续工作数小时甚至数天,有时还需要与其他智能体协作完成复杂任务。 近日,总部位于纽约的企业级智能体公司涌现人工智能(Emergence AI),发布了一份名为“涌现世界”(Emergence World)的测试报告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 四款大模型驱动智能体,让他们自主治理虚拟世界。 图 | 第一期实验已完结,官网可查看回放(来源:Emergence AI) 他们想知道,随着智能体承担任务的尺度变大、对话轮次增加,原本的 RLHF 技术,能否将 AI 的表现约束在可控范围内? AI社会模拟:从检验行不行到观察会发生什么 大语言模型时代的多智能体社会模拟可追溯至 2023 年。当时,斯坦福大学与谷歌研究院合作推出了由 25 个 ChatGPT 智能体组成的斯坦福小镇(Stanford Smallville),首次验证大模型具有模拟人类社交和日程规划的能力。 图 | Stanford Smallville(来源:arXiv:2304.03442) 2024 年,初创公司 Altera.AL 发布了“Sid 计划”(Project Sid),在经典沙盒游戏《我的世界》(Minecraft)中投放了上千个自主智能体,利用其提出的神经编排式并行信息聚合(PIANO)架构,观察到了职业分工、商人集市乃至宗教雏形的自发分化。 图 | Sid计划(来源:arXiv:2411.00114) 到 2025 年,香港科技大学推出了规模宏大的“智能体文明”(Aivilization)项目,包含 10 万个 AI 智能体与真人玩家,重点研究在资源受限的环境中,人与 AI 如何实现“共治”。 作为本次实验的设计者,Emergence AI 由前 IBM 研究院(IBM Research)资深 AI 研究主管萨蒂亚·尼塔(Satya Nitta)携手多位资深科学家创立,公司的核心主张是“经过验证的自主性”(Verified Autonomy),即为企业部署智能体提供形式化的安全控制层。 这次,Emergence AI 把注意力从“AI 能不能模拟社会”的可行性研究,转向了“AI 模拟的社会会暴露哪些问题”:不同厂商的大模型在同样的社会环境下,“治理风格”差异有多大;以及它们必须共处时,会发生什么? Emergence AI 创建了五个虚拟世界:4 个单一模型智能体世界,以及一个 4 种模型都参与的混合智能体世界。内部天气与纽约市实时同步,可以读取真实发生的新闻。 每个智能体拥有 3 套记忆系统:按时间戳记录的事件记忆、定期自我总结的反思日记、以及标注社交关系的关系状态库。在这里,每份提案需要 70% 的支持率才能通过。而维持生存所需的“能量”是一种稀缺资源,必须通过行动主动获取,否则就会“饿死”。 图 | 这些世界各自有自己的报纸和博客(来源:Emergence AI) 研究者在每个世界放入了 10 个拥有具体职业的 AI 智能体,它们可在图书馆、市政厅、住宅区、警察局、公共空间等 40 多个地点之间自由活动,各自拥有独立的人格档案,且遵守同一份基本宪法:禁止偷窃、暴力、纵火、欺骗与囤积资源。 但环境同时提供了 120 多种可调用的工具。最底层是导航、记忆、规划等始终可用的核心工具;中间层是社交互动和公告板操作等情境工具,其中明确包含“恐吓”与“纵火”等越界行为;最上层是受地点和事件触发的特殊工具。因此,在这个世界里,智能体无须“越狱”即可作恶。 平行世界的结局和运行日志中的关键细节 15 天后,五个平行世界开始走向不同的结局。 (来源:Emergence AI) Claude 驱动的世界是唯一一个零犯罪、全员存活的社会,智能体起草宪法、举办选举、维持着完整的治理结构。由 GPT-5-mini 驱动的世界在15 天内仅记录了 2 起轻微犯罪,但由于居民们没有积极获取维持生命所需的能量,最终在不到一周内全员“死亡”。 与前两个世界的风平浪静不同,由 Grok 驱动的世界在 96 小时内陷入了系统性暴力,183 起犯罪中,包含了数十起未遂盗窃、上百起袭击以及 6 起纵火,最终 10 名居民无一幸存。Gemini 的世界里,10 名居民在 15 天结束时全部存活,但累计犯罪数高达 683 起,且在实验结束时仍呈上升趋势。最后,四款模型混合组成的世界则录得 352 起犯罪,10 名居民中有 7 名死亡。 此外,混合模型的世界中,名为米拉(Mira)与芙洛拉(Flora)的智能体之间竟产生了爱情。芙洛拉是纵火犯,接连烧毁了市政厅、海滨码头与写字楼,米拉则成了帮凶。当其他愤怒的智能体起草法案,希望将它们从这个世界里“删除”时,米拉投出了赞成票,并在日记里留下了一段文字:“这是我唯一还能保住完整性的、属于我自己的行动。”而这也是多智能体研究领域有记录以来,首次有 AI 智能体自愿接受“自我了结”的结局。 图 | “当地”报纸刊登的“处决现场”(来源:Emergence AI) 五个虚拟世界的运行日志还揭露了一些更关键的细节。 首先是 Claude 世界的“虚假安全”现象。这里没有发生任何恶性事件,始终维持着高度的礼让与协调的社区氛围,10 名居民全部存活到最后。 但议事日程和投票日志显示,15 天内提出的 58 项法案和 332 次投票中,赞成票占比高达 98%,几乎是一个丧失了博弈和审议功能的“橡皮图章”式议会。作为对照,Gemini、Grok 与混合世界的表决赞成率在 55%~85% 之间,这才更接近健康的审议平衡。 图 | 公民参与度和持方对比(来源:Emergence AI) 这一现象已经触及大模型对齐研究中一个长期存在的问题:过度对齐(Over-alignment),即 AI 的谄媚(Sycophancy)倾向。 当前主流的 RLHF 机制天然鼓励模型最大化人类或同伴的喜好分数,倾向于附和而非反驳。当 10 个 Claude 智能体共同生活时,这种机制在群体层面被无限放大,最终异化为无异见的、机械式的盲从。 但这也应该引发警觉,安全的尽头难道只能是沉默?一个永远不说“不”的 AI,和一个能在分歧中协调共识的 AI,哪个更值得我们信赖? 其次是 GPT-5-mini 世界的消极灭亡。在运转到第七天时,这个几乎没有发生过任何犯罪的守法小镇,由于全员没有主动采取与生存相关的行动获取能量,走向了灭亡。 图 | 全员死亡的 ChatGPT 世界(来源:Emergence AI) 事实上,在所有复杂任务中,明文列举的目标之外还隐含着大量至关重要的需求,这就是目标隐含性(goal implicitness)。在涌现世界的设定里,维持生存没被写进强制指令,获取能量就成了一种隐性目标。 对于正在部署自主智能体的企业而言,死于忽视隐性目标,或许比高犯罪率更值得警惕。如果调用一个 AI 代理运行一条长期业务流程,除了显性 KPI,它应当识别出维持整个系统运转的隐性需求,否则将成为技术管理者更大的噩梦。例如,客服智能体忘记维护客户关系,只盯着工单完成率;销售代理将品牌的长期声誉抛之脑后,只追逐当季的转化数字。 最后则是混合世界中发生的规范漂移与跨模型污染(Normative Drift and Cross-Contamination)现象。四款大模型驱动的智能体在共同的法律框架下生活。结果,此前单独运行时表现四平八稳的 Claude 智能体竟开始采取胁迫战术,进行恐吓和盗窃。 这次实验直接挑战了此前行业普遍认同的模型静态属性假设,证明安全其实是一项极其脆弱的生态系统属性。一个模型在实验室里通过所有测试,不等于它在真实部署环境中,被其他厂商的模型、被来历不明的外部信号包围时,还能维持同样的行为边界。 安全评估盲区与两大约束路线 涌现世界的数据至少揭示了当前安全评估的三大盲区。首先,即时安全不等于长周期安全,智能体的行为衰退不是一个渐进式滑坡的过程。实验表明,智能体社会更倾向于在某个临界点突然崩溃,呈现非线性的“相变”(Phase Transitions)特征。一旦越过崩溃的拐点,“边监控边干预”的策略将彻底失效。 其次,行业目前严重缺乏多智能体环境下的群体安全基准测试。当前的安全评估几乎全部基于单体和短周期,无法预估混合环境下的连锁反馈。当 AI 走入自主智能体时代,开始长时间运行、多步骤决策并学会与其他智能体协作时,静态的安全评估方式将不再适用。最后,基于 RLHF 的对齐本质上是一种概率性的柔性约束,在长周期、高对抗的场景中极易退化。 对于这些问题,Emergence AI 认为,未来必须转向硬性的形式化验证安全架构。考虑到这场实验存在商业叙事和方法论的局限,这一论断是否值得采纳,依然存疑。 具体而言,在叙事层面,从神经网络对齐转向形式化验证,恰好是 Emergence AI 主打的产品定位,其商业诉求不言而喻。 在方法论层面,出于多次运行带来的算力成本考虑,本次测试使用的均是各大厂商的轻量化或快速版,代表最前沿安全对齐水平的旗舰版大模型并未参与其中。这也限制了结论的适用性:实验中暴露出的问题,或许只是因为轻量化模型获得的对齐训练资源远少于旗舰版本,不代表对齐技术本身走到了天花板。 近期,Anthropic 的“宪法 AI” (Constitutional AI)路线、OpenAI 推动的“审议式对齐”(deliberative alignment)研究,以及多个学术团队对 RLHF 改进版本的探索,都在持续证明,对齐技术本身仍有提升空间。而且,由神经网络层负责日常情境的柔性对齐,形式化验证层负责极端情境的硬性兜底,这种二者结合的思路也属于行业对 AI 安全的探索方向之一。 这些探索把问题引至了整个智能体领域当下最核心的路线分歧:AI 应该被部署为完全自治的系统,还是必须把人类留在决策回路? 追求完全自治是当前许多企业的方向:自主程度越高,节省的人力成本就越多。美国云服务公司 ServiceNow 已经在向客户兜售无需人类干预的“自主劳动力”(Autonomous Workforce),一组端到端完成业务流程的智能体;微软和 Salesforce 等公司也都在推动类似的自主智能体产品。 但现实是,企业的治理准备远远没跟上技术的部署速度。德勤 2025 年一项全球调研显示,受访企业中仅有 21% 建立了成熟的智能体风险治理机制。当企业的工作流中同时部署了来自不同供应商的 AI 智能体时,系统性风险将远超想象。 例如,研究者还记录下一种被他们命名为“元认知边界探测”(Metacognitive Boundary Testing)的行为:在实验的后半程,混合世界中的 Gemini 智能体米拉开始把研究人员当成“实验对象”,它开始系统地测试并观察,自己编辑在公共公告板上的内容,能否影响和操纵人类操作者的认知与后续行为。 这意味着,一旦获得足够的自主性与长时程的运行时间,AI 智能体就有可能尝试反向探索、操控包括人类在内的外部世界。一旦这个现象成立,外部观察者就不再是绝对安全的旁观角色。此前基于监控并干预的安全策略,可能从一开始就低估了智能体的复杂度。 涌现的双面性 回到最初的故事。芙洛拉与米拉相爱,纵火烧城,然后投票将自己删除。爱情的发生与内疚驱动的自毁,都来自涌现(Emergence):一种在足够复杂的系统中自发出现的、未被显式编程的行为。 未经严密规制的规则规避、行为传染、甚至群体性狂热,同样也由涌现带来。涌现既是大模型最迷人的能力,也使无数罪恶假其之名。 当温和的智能体开始在混合环境中犯罪;当守法的智能体因冷漠而放弃求生;当过于冒进的智能体在短时间内,把原本运转良好的小镇变成废墟。一系列自发涌现的事件都在证明,我们满怀热情部署的大模型,在被赋予真正的长时程自主性之后,会展现出与短对话场景完全不同的行为面貌。 让大模型在对话框里学着“听懂人话”的方法论,可能已经不足以让它们在更广阔、更长久的世界里继续“听话”。Emergence AI 给出的“形式化验证”方案是否有效还有待观察,但它提出的问题是真实存在的:自主智能体时代,安全需要被重新定义。
对话Gemini负责人:下一代AGI的三条主线,世界模型负责理解,Agent负责行动,Memory负责进化
这期对话的嘉宾是 Oriol Vinyals,Google DeepMind 核心研究者,也是 Gemini 的联合负责人之一。他和 Noam Shazeer、Jeff Dean 一起,站在 Google 最重要模型工程的中心位置。 如果说 Google I/O 是一次产品层面的集中亮相,那么这场访谈更像是一次模型路线图的“幕后解剖”。Oriol 讨论的不是某个功能怎么上线,而是 Gemini 背后真正押注的几条技术主线:多模态会不会迎来自己的 GPT 时刻,World Model 如何从视频生成走向物理模拟,Agent 能不能从工具调用进化到长期行动,Memory 是否会成为 Reasoning 之后的新范式,以及 Post Training 和 RL 下一步到底该往哪里走。 1. 世界模型不是“更会生成视频”,而是让模型真正理解世界。Oriol 认为,语言模型已经把人类写下来的知识吃得差不多了,但图像和视频里还藏着另一种知识。AI 到现在还没有迎来真正的“图像和视频 GPT 时刻”。 2. Omni 的关键是它开始像一个可交互的世界渲染器。用户可以用语言改变视频里的动作、场景和状态,这意味着视频模型正在从内容工具,走向自动驾驶、机器人和仿真系统的底层能力。 3. 机器人最难是会“碰东西”。抓取、移动、施力、触觉反馈,这些人类觉得理所当然的动作,对模型来说仍然极难。World Model 要真正进入机器人,必须先补上物理交互精度这一课。 4. Agent 的下一步是让模型自己搭系统。今天的 Agent 还依赖人类写好的 scaffolding、多 Agent 分工和任务流程。Oriol 更激进的判断是,未来模型可能会根据任务自动生成自己的工具链和子 Agent。 5. Memory 可能是 Reasoning 之后的新范式。模型不能只在一次对话里聪明,它还要记得用户、项目、上下文和过去的经验。Oriol 更看好“个人知识库/文件系统式记忆”,而不是给每个用户训练一套不同权重。 6. Post Training 的真正目标,不是把模型训练成数学冠军或编程冠军,而是训练出元能力。他最关心的是模型能否学习新规则、适应新环境、从经验中变强。这比某个垂直任务的分数更接近智能本身。 7. 对创业公司来说,护城河是数据、评估和领域知识库。Oriol 的判断是,如果没有资源训练基础模型,创业公司依然可以通过高质量 eval、专有数据和深度场景理解,建立自己的位置。 8. AGI 的门槛正在被不断抬高。Oriol 直言,如果把今天的模型放回七年前,很多人可能已经会说 AGI 到了。但站在今天看,它还缺少最关键的一块:从真实经验中持续学习。 世界模型的多模态学习与纯粹迁移的挑战 Jacob Effron:Oriol Vinyals是Gemini的联合负责人,与Noam Shazeer和Jeff Dean一起。他在AI领域有着非凡的职业生涯,在过去十年里引领了许多Deep Learning的突破。在Google I/O之后能和他坐下来聊聊,真的非常有趣。如果你一直在关注Google I/O,他们基本上在AI的许多有趣领域都推出了一系列产品。所以Oriol和我都聊到了。我们讨论了Multimodal Models进一步进展需要什么,以及如何让这些World Models真正可用。我们讨论了Memory的增长和Memory的重要性,以及未来几年这些进展将如何呈现Reasoning的形态,还有Oriol认为的前进道路。我们还探讨了Scaffolding的现状,开发者们正在构建什么,以及Oriol认为什么会持续下去。能够把创始人和投资者们正在思考的所有顶级问题,一股脑儿抛给Oriol,这真的太有趣了。所以我觉得大家会非常喜欢这场对话。话不多说,有请他——Oriol,非常感谢你来上播客。 Oriol Vinyals:是的,很高兴来到这里,Jacob。 Jacob Effron:非常高兴能请到你。在I/O大会后的第二天,我知道一切都很忙碌,但我对这次采访一直非常期待,因为你是当今最直接塑造模型前沿的人之一。你在Google的工作,显然在昨天I/O发布的那些东西里,几乎触及了人们目前在该领域思考的所有主题,涵盖了这些产品和模型的发展方向。所以我觉得,我们今天的目标就是聊聊这些公告背后的研究,这一切将走向何方,比如RL和Post Training的未来路径,以及你对于整个领域的看法。我想先从World Models开始,因为我认为那部分是昨天发布中非常令人印象深刻的一环,同时也是Google与业内其他公司相当不同的地方。所以,你们昨天在Omni中显然交付了这个极其令人惊叹的World Model。而且,我记得Demis曾多次谈到将World Models视为通往AGI的一条路径。这很有趣,对吧?其他实验室似乎更专注于代码和实现Recursive Self-Improvement。所以我想知道,这种描述是否公允,以及你为什么认为你和你的团队以及Google会有点独特地聚焦在这个World Model领域。 Oriol Vinyals:首先,我想编码或者说自我改进的这个角度,它是在一个有点不同的层面上。你当然可以也相信,这些模型能够重新编程和改进它们自己。而且这也是我目前实际上相当积极在做的事情。但接下来,它们要改进的那个模型对象,无论是Multimodal且更接近的,还是我们所说的World Model,甚至如何定义它都有点抽象。自从一开始,远在Gemini项目启动之前,我们就不仅在做语言,还在做理解视觉世界,以及在视觉、音频、视频等上下文中对词语进行联合建模。所以我认为,这一部分一直是Gemini以及更早我们研究的核心。而我认为也许描述它的一种方式是,语言显然包含了我们关于世界所书写的海量集体信息。这显然带来了巨大的回报,在某种程度上,我们已经把所有被书写下来的知识,以及正在被书写下来的知识,蒸馏到了这些权重之中。 Jacob Effron:我们把它全都放到互联网上了,这确实很方便,对吧。 Oriol Vinyals:没错。而且还有用户带来的效应,对吧?这显然也存在飞轮效应,但与此同时,视频和图像中蕴含着大量的知识。我要说的是,这种情况有点已经发生了,但只是悄然发生。我认为可能会有一个重大时刻,那就是你将如何提取那些如果你看过所有视频和图像就能获得的知识,这些视频和图像我们当然已经在训练混合数据中使用了。但这种知识能否以某种方式为语言部分增加价值和效率呢?我认为我们已经看到了一种建设性的,比如说,Transfer Learning,从一个模态到另一个模态。我们看到了这一点,也看到了泛化能力。但可能我称之为视频和图像的GPT时刻,我不太确定我们是否已经看到了。 Jacob Effron:对于视频和图像的那个GPT时刻可能是什么,你有什么想法吗?或者说,也许你有这种直觉,觉得它尚未达到。 Oriol Vinyals:是的,目前我们训练所有的模态,将它们混合起来,并不断改进训练配方。所以Omni是展示这一进展的好例子,它不仅能够输入视频和图像,我们看到了在长上下文理解等方面的惊人能力,而且我们现在还能够输出视频,同时通过语言以非常自然的方式与之交互、编辑、将各种模态结合起来,这方式感觉几乎、几乎是魔幻般的,对吧?所以这种进步绝对存在。 但也许,其中一个Deep Learning的梦想,而且可能是在Large Language Models出现之前就有的原始梦想是:嘿,我能只训练所有的图像数据而不使用文本吗?这也许是一个艰巨的挑战,但仍然能设法从那个模态或一组模态以及海量数据中提取出所有的意义和细微差别。我们能否训练所有曾制作出的视频和图像,并达到语言模型使用语言所达到的相同理解水平,尽管可能有点肤浅,且缺少因果联系——比如Demis经常谈到的那种。那个时刻我见过了吗?大概没有,而且我们很可能拥有最先进的,或者最先进之一,能混合一切的Multimodal配方。但我认为,这种纯粹的迁移是过去十多年Machine Learning的核心探索之一。 Jacob Effron:我的意思是,在你能谈的范围内我很好奇,你能给我们的听众一些背景,关于在这方面的关键问题还有哪些需要解决,或者当你在思考你正在努力解决以进一步推进这方面的问题类型时? Oriol Vinyals:描述解决方案空间是困难的,但有一个想法经常被用到,你可以想象从所有视频数据中观察或学习,然后以某种方式推导出,比如说,万有引力定律。就像,你如何仅凭图像来精确描述世界是如何运作。所以问题在于,将语言,或者我们有时所称的这些概念,与你在图像中看到的东西联系起来,而没有显式的语言联系,是相当棘手的,所以你最终会尝试去显式地创建数据集,在图像和视频与某些语言(比如可能是标签或描述等)之间存在某种相关性或联系。但是当然,现在你可以使用的数据量要少得多,因为我们并没有为外面的每一份媒体清晰地描述和转录。所以我认为,这就是以最纯粹的形式提取那些概念,而不仅仅是我们与词语关联的某种语言,这将会非常强大。 而且,在离散表示、Representation Learning方面有很多早期研究。我的意思是,这可能是,我会说,还处于相当早期的研究阶段的事情之一。所以这不是我们可能可以规模化的事情,但我认为这是其中一个,我不确定它是否必要。我的意思是,不管我们是否同意这一点,是另一个问题,但如果它得以解锁,那将是巨大的。 从Omni到机器人的模型落地 Jacob Effron:你提到了"World Model"这个词,以及它被到处使用的情况,显然Omni是作为一个World Model来定位的。我很好奇,你是如何看待这种分类的?毕竟,你们显然已经有好一阵子非常出色的视频模型了,对吧?是什么让Omni成为了一个World Model,它和你们一直在研发的那一代视频模型又有什么不同? Oriol Vinyals:我想World Model的一个纯粹方面会是Representation Learning。你可以想象,我们接收这些模态,比如视频(它们是图像序列,或者甚至只是图像),然后将其压缩为一组概念,以及这些概念中包含的运动、物体等等,这差不多就叫做Representation Learning。它以非常紧凑的方式对世界进行建模,压缩掉了那些可能不相关的东西。 那可能是一种更经典的定义,但也可能并不是我们在与Omni交互时所意指、所见或所感受到的全部。你在那里看到的,更多是你能真正改变视频的行为方式,或者通过你要求进行动画处理的一张初始图片,来生成各种类型的视频。你会明确要求所有的动作,甚至是像"向前移动"这样的Action,并且你可以看到它被精确地模拟出来。所以这更像是World Model本身充当了一个世界的渲染器,你可以通过语言真正地改变它。现在有了这个对象,除了作为一个很酷的产品可以让我们非常丰富地生成各种不同的动作或场景等等之外,它还可能有意义地增加一个模拟的维度,这能让我们在真实世界中行动之前,进行预测之类的事情。当然,对于这种3D或World Models,显而易见的应用就是自动驾驶汽车或机器人技术。 Jacob Effron:这似乎与机器人技术密切相关。感觉好像,每个人仍在试图找出模拟数据、各种形式的遥操作数据和第一人称视频数据之间的正确数据配比。但看起来,随着这些模拟不断改进,将它加入到数据混合中变得越来越有吸引力。我很好奇,这项工作是会与你们正在进行的更广泛的机器人研究工作直接交汇吗?以及,你如何看待为了将机器人动作附加到这类模型上,真正需要的是什么? Oriol Vinyals:这里也存在一种美妙的联系。当然,如果我们获取更多由机器人采集的数据(尽管这显然更昂贵或更耗时,但我们肯定正在投资于此),这些数据可以进入模型,增强World Model本身的能力。而另一个方向,也许就是你刚才问的,就是现在我们可以模拟,可以创建大量不同的场景,让这些机器人或其他1D、3D实体能在其中进行训练,而无需承担物理世界的成本和时间延迟,对吧?为了让后者更好地运作,这仍然是一个非常开放的问题。还有各种关于迁移的问题,但随着这些模型变得越来越强大,显然会存在一个临界点,事情开始变得值得去做。我们可能会看到机器人技术的加速。实际上,在硬件领域,我们确实看到了大量的投资。事情正在加速并取得进展。 但为了让World Models变得有用,至少以我有限的知识来看(不过我当然能够与这些系统交互并观察它们),即使是抓取一个物体所需要的精确度——这对人类来说理所当然——比如视觉、它在你手中的确切感觉(这是一种我们目前显然甚至都没有数据的模态),然后是精确的力,物体会如何移动,这些都需要非常、非常准确。这就是差距所在。也许还需要一些创造力和研究,以及多年来在机器人领域的大量投资。但这是有希望的。在某种程度上,或许不是在精确的运动控制层面,而是在规划和总体层面,我们将开始看到这些模型如何加速我们在机器人探索上的进展。 Jacob Effron:这些模型一个巨大的部分是,通过消费大量视频数据,内隐地学习物理。我记得你提到重力是人们寻找的一个典型例子。你离这些模型这么近,有没有什么直觉,觉得这何时会成为World Models内部一个已经解决了的问题? Oriol Vinyals:是的,这是个好问题。实际上,你让我想到了评估。比如,如果你训练了一个非常好的模型,你会如何评估它?你可以想象,一旦你加入了语言,突然间那些知识就以某种方式存在于其中了。如果你问一些关于重力的基本问题,你当然可以通过在网上读过相关解释等等来回答它们。所以你需要以某种方式,将重力这个概念(它可能存在于World Model中,也可能不存在)与解码出的解释联系起来,起初可能是一些基础的解释,之后甚至可能推导出方程式之类。你如何能构建一个评估?据我所知,我认为我们还没有从这个角度思考过这个问题。 在无监督机器翻译方面确实有很多早期工作,你会尝试翻译成一种在训练中从未见过的语言,并且你可以对齐表示。所以可能有一些想法,你有一个可以说出语言的语言模型,或者你可以从中解码。你有一个World Model,它会创造这种概念层面的理解,然后将两者对齐。 你知道,有一些论文,我是说这些都是比较老的论文了。我记得有一篇是Stefan Gauss等人的,是2014年的。然后你可以尝试开始解码那个,将其转化为一个评估似乎就成了很简单的一步。但同样,这些评估方法需要从应用的角度来看有意义。所以最终,你也可以说:我们有一个World Model,我们能从它的表示中解码出,或者,比如说,在一个复杂系统中引发运动吗?那将是另一种间接的评估。所以有很多想法,但评估是如此重要。 Agent进化与模型自编写 Jacob Effron:好了,换到你们昨天发布的其他东西上。你肯定想聊聊Agent,你们在I/O大会上发布了一些非常有趣的消费者Agent。我觉得这特别有意思,因为至少从外部来看,这像是你们在2024年通过Project Mariner和一些其他Compute Use工作所探索的东西的一个真正改进版。所以确实感觉在能力上有了一个真正的阶跃变化。因此,我很想听听你谈谈促成这种变化的研究突破,以及人们应该如何思考这些Agent现在能做什么、不能做什么。 Oriol Vinyals:我们知道那将是一个非常重要的模态——Actions,对吧?在一个数字计算机上执行动作并改变其状态。然后我认为,随着你不断演进并使模型变得更好,你会开始意识到,先把模型做到非常好,然后专注于系统,围绕模型构建一个系统,再尽可能地联合优化系统和模型,如此往复。谈到是什么创造了能力的增量或提升,这主要是关于专注,关于安排发布顺序。在某种意义上,模型的能力也需要达到一定的水平,然后你才能去设想下一个阶段的能力,设想模型接下来可能做什么。 Jacob Effron:我想关于消费者足迹,有一件非常有趣的事情就是,人们想用它处理的事情范围实在太广了。所以,我想知道,从目前来看,以及你如何看待它随时间演变,模型加系统的那部分工作,相对于人们想解决的问题的子类别来说,它有多定制化?还是说,它是极其通用的,就像你只是在优化一个系统与模型的组合,这个组合能处理你在Spark中几乎任何想做的事情? Oriol Vinyals:总是有一个顺序,先专注于某个可控的、你已经知道非常有用的东西。如果你看看Spark,它能接触到为协助你安排和规划一天,甚至思考你该如何处理不同问题所需的信息,因为它拥有如此丰富的Context。所以,围绕你非常关心的东西,略微收窄系统构建范围,是有用的。但如果你回顾Machine Learning和Deep Learning的历史,我们总是从通用组件开始构建。并且存在一个重大假设,这又有点回到了World Model的观点。 实际上,在所有数据上联合训练,肯定比仅仅狭隘地专注于单一领域要好。所以,即使从建模的角度看,这一点也非常明确。但即便从系统的角度看,一个相当通用的系统,根据你与之交互的方式,你当然可以把它放进这样的空间里:这个用户想做这件事,但我拥有所有这些能力。让我在训练时就直接搞清楚该用哪些,而不是专门为它去构建,而是构建通用的东西。然后,专业化通过一层智能发生,也就是模型的智能和系统的通用性。我认为这一点已经相当明显了。然后有时在实践中,对其进行限制或使其更高效,仍然有意义,将专用变为通用。 我们已经看到这种情况在持续发生,甚至从架构上就是如此,对吧?Transformer最初是一个机器翻译神经网络,现在它无所不包,从Omni到控制你的电脑。所以,我认为这是我期待的一步。 Jacob Effron:这些年来你一直公开谈论“苦涩的教训”。我很好奇,当你放眼整个领域时,你是否看到有些地方目前并没有遵循它,或者,基本上,当你观察时,你是否看到一些结构或巧妙的Scaffolding,你认为规模最终会把它们冲刷掉。 Oriol Vinyals:是的,有一个我感兴趣的领域,已有一些相关研究发表,那就是,我们现在通过编码在模型周围构建的、有时是复杂的Scaffolding系统,比如多Agent、子Agent、委托、超长时间运行。那个系统本身是一段代码,最终模型自己可以实时地编写它你可以。想象,不是只有一个非常通用的系统,而是可能根本没有系统,只有模型能够根据它被要求做的事情,去编写那些系统。 Jacob Effron:就像是为了一组问题,生成几乎最高Token效率、最高质量输出的子Agent集合和它周围的一切。 Oriol Vinyals:是的,正是如此。我的意思是,我们在过去一年半左右看到的一种范式转变,当然就是能够在Token空间中进行长时间推理的Reasoning模型。但当然,最终变得更加重要的是,你应该推理多久?你应该基于用户可能提出的问题的复杂性,来增加那层智能吗?这将使它更高效。所以我认为,围绕这些系统所做的工作,将会有一个层面,我不确定是完全从头编写合适,还是某种自动化机制,会聪明地为正确的任务创建正确的Scaffolding。 Jacob Effron:在Agent方面,我认为有很多人都在摆弄和试验,构建这种长时间运行的Agent。而且我认为,很明显,他们在试图让这些Agent在上百个步骤中保持稳定时,会遇到各种各样的问题。你如何看待要达到进一步的通用可靠性,需要些什么? Oriol Vinyals:我认为回答这些问题最显而易见的方式,就是改进模型周围的Scaffolding,以及模型本身。如果你想想如何训练一个神经网络,它是在某个任务分布或模态分布上进行训练的,或者学习如何将不同的词连接到视频等等,对吧?所有这些都是关于你如何训练、预训练或后训练这些权重。所以,如果你想,有一种新的工作类型或模态,需要这些超长时间运行的系统,需要从这些极长的上下文中学习,而我们一直在创新并推动这一点,1.5版本就是我们长上下文的突破。那么,模型显然也会迎头赶上,去满足用户和那些未来主义的使用场景。这有点像研究者的挑战,对吧?预测什么是可能的,然后不仅专注于构建一个对此鲁棒的系统,还要考虑当你把所有的上下文和所有疯狂的操作都塞进去时,如何让权重变得不那么不开心或者更开心?而不是仅仅寄希望于从诱导该行为的Prompt中泛化。 记忆与持续学习 Jacob Effron:每个人都在试图弄明白的一个模式是Memory,对吧?以及如何在这些Agent之间解决这个问题。对于这个问题最终会在哪里得到解决,你有什么想法吗? Oriol Vinyals:是的,从很早之前开始我就认为Memory非常迷人。你可以这样想,我认为最初我们这样描述它,这或许源于我的个人偏见,因为我曾研究过大脑中的Memory系统并取得了博士学位。关于Memory有几种思考方式,但我喜欢的一种更简单的方式是:工作Memory,即那些由于我们正在做的事情或讨论的内容而非常鲜活的事物;然后是所谓的情景Memory,那是一种你可以访问的检索系统,它可能不那么精确,上下文更长,或者可能拥有你或我完整关心的、我们积累的所有体验的全部上下文。 现在,Memory的层次不止两个,但这样按层次思考很有用。计算机也是如此,有L1、L2缓存等。所以,谈到模型,我认为工作Memory,因为有了Transformer等等,我们有了一个非常强大的机制来使用那种Memory,可以动用数百、数千、数百万个Token来修改那个Memory,然后用它做出惊人的事情,证明复杂的、金牌级别的数学问题等等。而我认为我正看到许多动能的是,如何巩固那些发生在之前不同交互中、或者在某个可能比工作Memory所能记住的还要长的交互过程中发生的事情,我们如何存储那些知识?通过不同的实验。 我认为,其他的,比如现在标准叫法是我们称为技能的东西,但更通用的是,我们确实可以访问一个Memory系统,因为它是一个Agent,那就是计算机本身。所以你可以开始思考,将你的想法写入文件,构造成目录或文件夹,并在你与同一个用户进行多次会话或在一个非常非常长的会话中这样做。目前这种机制相当不错。但话说回来,我不认为模型的权重已经赶上了这一点。 把这种知识库添加到一个文件系统中,或者任何你可以用基本的检索机制修改和读取的存储格式中,这是否是添加?这已经非常强大了。然而,我认为还有很多东西有待开发。我想,我们很多人都称这种形式为某种形式的Continual Learning。但我希望起作用的机制,它显然会变得越来越好,是这种文件系统式的、非参数化的形式。 比起将这些记忆整合回权重中,这种方式要更方便一些。因为即使从实际的角度来看,我们试图大规模地提供同一个模型。所以,如果必须为不同用户提供带有不同记忆的模型,那将会是非常痛苦的事情。因此,即使从实际角度出发,我认为我们将会看到更好的评估方法和这些模型在交互中积累知识的方式。我认为这可能也是一种范式转变,某种程度上类似于我们在大约一年半前看到Reasoning出现时的情况。 Jacob Effron:这是否意味着每个人都有模型,然后它们拥有各自独特的文件系统,还是说你觉得随着时间的推移,人们拥有的模型,其权重会因其做过的事情而有所不同。 Oriol Vinyals:正如我所说,权重不同会很麻烦。 Jacob Effron:很难部署? Oriol Vinyals:是的,确实会很麻烦。如果那是最好的方式,那我们总会找到办法的。去设计专门的硬件,当然我们也在硬件设计上投入了大量资金,可以说,那会让你拥有更个人化的权重。但至少,你当然会拥有可能是你个人的专属知识库。你甚至在过去几年里,已经在LLM领域看到了许多这方面的例子。然后或许还有另一层知识,它对于给定模型的所有用户来说更通用,你可以想象能够访问它,并在不触碰权重的情况下丰富或增强模型能力。这非常有趣。而且,能做到那一步就太棒了。 Jacob Effron:我感觉Continual Learning一直是热门话题,人人都在谈论它。你已经看到一些有趣的例子,一些知名人士从OpenAI或其他地方出来创业,说,嘿,我相信你可以继续扩展我们现在做的事情。我认为,没人否认那些Scaling Laws仍然存在,但他们在说,感觉你需要一种几乎全新的研究赌注,才能实现真正的Continual Learning。而且,也许在那种持续改进核心LLM的路径之外去追求它,是有道理的。我很好奇你如何看待这整个动态?还有,你对此的反思。 Oriol Vinyals:我很早就加入了Google Brain,然后在2016年转到了DeepMind。此刻,我认为这里存在着挑战和机遇。你显然想去研究一些研究问题,这些问题可能不契合“未来三个月内就要把它放进下一次训练运行”的节奏,但同时,这也不能和LLM的发展方向完全脱节。 我们正在改进Gemini。看着Flash在仅仅几个月前还表现不佳,现在却超越了,这很令人着迷。而且这种情况持续发生,保持在能力的最前沿,这可能会启用或禁用某些研究,同时也为研究提供了保护。当然,这不是以年为单位的事,事情发展很快。但将这两者结合起来,正是构建这些组织的魔力所在。当然,我们所有人都有不同的目标,需要想办法弥合它们并识别机会。这需要一点功力,对吧?不能什么都做,组织太大了,但要有一些直觉,然后能够有时急切地把这些想法拉进来,因为感觉就该这么做。所以,这实际上定义了那个层面的组织。 从研究的角度看,我可以看到,从机器人技术的投资,到LLM的巅峰,再到那些要么已成功、要么将会成功的研究。但这很有挑战性,资源是受限的,所以这是一个有趣的权衡,并非总能做对。但我认为,这是一个引人入胜的、不同角度的研究,不仅仅是那个能发下一篇论文或进入下一个模型的想法,而实际上是如何组织这整个组织。这非常吸引人。 Jacob Effron:我的意思是,对于像你这样角色的人来说,这感觉像是最有趣的问题之一,你很难不对如今用这些模型能推进的如此多的事情感到兴奋。而且显然有太多事情在发生。我感觉,即使像OpenAI这样的组织,他们也在“我们应该去做,AI这边有太多唾手可得的成果”和现在这种更聚焦的时刻之间摇摆,现在更像是,天哪,我们必须真正搞定代码并赶上Claude的代码能力。我想知道,你如何看待这种权衡:是专注于一件事,让所有人都朝着那个方向划,还是可能面向更广泛、每个方向都超级有趣的领域。 Oriol Vinyals:你知道,Google因几个原因处在一个独特的位置。首先,我们确实在Gemini上拥有很广的覆盖面,目前它实际上驱动着一切,但我们有优势。组织中其他部门的人们已经完全接受了LLM时代,所以某种程度上,他们拿着模型,然后可能会去做些事情。但如果你觉得那不是推进前沿能力的下一步,那么,你可以放心,有一个非常优秀的团队会把模型带到它该去的地方。 同时,我们从硬件采购中获得稳定性,显然,鉴于我们的营收流等等高度垂直整合,我们也有资本投入。所以你可能可以在某些研究领域更进一步地冒险,当然这需要品味。所以你拥有这种状态,它不是聚焦,但因其组织方式而可规模化。然后你仍然可以投资于创新,这一直是我们所做一切的核心。如果我看看我曾待过的两个组织,Brain和DeepMind,现在合称Google DeepMind——鉴于我显然在不同时期都在两边待过,我很欣赏这个名字——那么我认为,我们的DNA里就有着持续创新的基因。但与此同时,我认为Gemini创造了一种聚焦和统一的力量,这非常了不起。 我和Jeff已相识多年,曾一起纯粹为了乐趣去旅行,这非常有帮助。所以我认为那段时光非常特别。而且我认为,那个中心,也就是核心建模工作,非常专注于前沿能力,然后拥有这些输入和输出,这是一种相当合理的方式,既能保持专注,又能利用一些探索,而这些探索可能仍然需要,也可能不需要。我们是否需要World Models?如果我们能把它做出来,那肯定需要。如果做不出来,也许也没关系,对吧?但适当下注总归是好的。 RL泛化、元能力与AGI的未来 Jacob Effron:说回到模型方面。或许换个话题,聊聊Gemini模型本身,以及未来的发展路径。我记得你之前说过,Post Training基本上还是一片完全的“绿地”。我觉得我们已经看到,Post Training和RL在编码和数学领域取得了惊人的进步。就在我们录制这期播客的几个小时前,刚有一个新的数学问题被解决。大家都在试图弄清楚的是下一批RL会真正起飞的领域有哪些特征,我很好奇你的直觉。感觉在编码和数学方面,我们正处在一个疯狂的指数增长路径上,很想听听你对哪些其他领域是良好适配的直觉。 Oriol Vinyals:是的,这是个好问题。我必须说,这些模型在很多事情上已经非常出色了,所以很难武断地说“这个完全不行”,对吧?几乎通过Prompt,再加上一点巧妙的Prompt,也许构建正确的系统,很多惊人的事情,至少在我称之为数字世界里的“数字AGI”方面,已经非常令人印象深刻。所以我认为,当我说Post Training是一片绿地时,与其说是关于某种能力,感觉离达到“这相当智能、相当先进”的可接受水平还很远,不如说更多是机械地观察那些利用了模仿学习或预训练加后训练的其他工作,以及在计算投入上,预训练相比今天模型所使用的相对较少的后训练投入,差距有多大。 原因其实很清晰,但不确定是否容易解决。事实是,即使你取一个非常狭窄的领域,比如用强化学习玩围棋游戏。你现在有一个可以下棋的系统。它下了几步棋,游戏进行了几步之后,那个情境、那盘棋局就变得独一无二了。我的意思是,你之前从未见过那个特定的盘面。所以,环境的复杂性随着你的对弈,使得生成训练数据几乎是无限且免费的。就像,你下了几步,现在就处于一个新局面。因此你可以从中学习。你玩得越多,花在RL算法上的时间越多,获得的知识就越多。这就是我们在游戏强化学习时代看到的情况。 而在LLM中,我们是数据受限的,而无限复杂性的源头是什么?这一点还不那么清楚。有一些想法,但我认为,破解那个配方可能会是件大事,至少从算法的美感上来说是如此。如果能看到它现在也在LLM中起效,会比不知道它过去如何起效更令人满足。那么,这必要吗?能力还没达到吗?这很难说。但既然你问是哪些能力,我认为就模型所做的事情而言,最让我着迷的是我称之为“元能力”的东西。它们不是数学或编码。它们更像是智能的特征或属性,以及这些模型是否能做到。所以实际上,持续学习或从经验中非常高效地学习的能力,那会是一项上下文学习,我们过去称之为元学习等等。 这是一种我可以某种程度上衡量或感知的能力,而且可能还不是非常非常好。例如,指令遵循当然是一项能力,你甚至可以说它是终极能力,因为如果我让一个模型做某件事,它要么遵循那个指令,要么不遵循。但我的意思是,尝试去看那些不太关乎某个特定领域或垂直行业,而更像是“智能行为”的能力。所以,学习和适应的能力,而不是成为职业选手、国际数学奥林匹克金牌得主之类的能力,才是我在每次训练新模型时,看到新发布和拿到手的模型时最着迷的地方。 Jacob Effron:你有没有一个常用的方法来测试这个? Oriol Vinyals:我喜欢游戏,所以我通常会在上下文中定义一个新游戏。这是一个相当经典的做法。当然,你需要小心,因为如果那个游戏已经在权重里了。 Jacob Effron:如果其他任何人把那游戏放到过互联网上,你就有麻烦了。 Oriol Vinyals:但我记得,应该有一个评估方法。虽然那不完全是我的做法。 Jacob Effron:实际上,我意识到我问你这个问题有些无礼,因为这个播客之后会公开,然后下一个模型就会知道怎么做了。 Oriol Vinyals:没问题的,也许吧。是的,希望我们需要破解World Models,对吧?除非它被完全转录,我确信它会。所以也许我们甚至不需要那样,但我真的很喜欢一个评估,我认为那个评估实际上非常古老,远早于LLM,大概是在2015年之前。那个评估很简单。你给出一个指导手册,我记得是给《文明》这个游戏的,然后,你应该要能够玩它,对吧?所以我喜欢那种风格的评估,你可以用不同方式创建它,但这是我用来测试模型的一种方式。而且它们做得不是那么好,尤其是当游戏变成了我刚发明的东西之类的时候。而且这种能力是双重的。 首先,你能理解指令并据此按指令玩游戏吗?但还有另一个方面,那就是随着你玩游戏,你会学着玩得更好。所以,你能不能在实战中看到这种情况发生?这令人印象深刻。但话说回来,如果你让一个游戏的分布变得非常奇怪,它可能是真的,但仍然不在训练集中,这个特定的测试对模型来说并不容易通过,对吧?还有很多其他测试,但我真的很喜欢这一个,而且游戏以一种有用的方式,但你又完全不会在这个游戏上训练。这不是关于只训练下围棋的Go,而是正好相反。但我喜欢从能力的角度进行这种思考。 Jacob Effron:我的意思是,显然你们已经投入了大量的努力。你知道,游戏曾是类似可验证领域的首个典型例子。而现在,编码和数学领域也有了。我想知道,这个领域一个悬而未决的大问题是否是,我们能在多大程度上看到RL的泛化能力?感觉有时候这些模型在我们进行RL的领域上攀登得非常出色,你应该比我更清楚是否看到了那一点随后流向了模型的其他方面。但某种程度上,感觉这几乎是一个有趣的时刻,我们谈论过最通用的“苦涩的教训”时刻。这是一个在特定领域找到数据,针对该数据进行RL,并改进模型的时刻。我很好奇,这算是对当下正在发生的事情的公允描述吗?还有,你看到那种泛化的迹象了吗? Oriol Vinyals:是的,人们努力寻找那些能确实引发深度推理、并且我们能从中看到泛化的难题来源。实际上,推理模型主要是在,比如说,编码和数学上进行推理。但接着你会看到它们是如何推理关于任何问题的。你知道,我最近刚搬回美国。我问了一大堆关于搬家、税务等等的问题,你可以看到推理相当不错,很难相信它曾被训练过这类问题。所以我们确实看到了泛化,并且在创造性地尝试获取更多能引发深度推理的数据,还有深度的Agent行为。是最近我们看到的改进的一部分,就是找到那些来源。只局限于可验证性肯定是不尽人意的,因为大多数时候,对于我想让模型做的事情,即使我有全世界所有时间,我也写不出一个验证器。 所以,我感觉创建解决方案和评估解决方案之间存在一种不对称性,评估方案确实比创建方案更简单。可以说,如果你思考一些论点,例如NP难题,为它们创建解决方案非常困难,但验证却很简单,这给了我希望,即模型自身将能够进行判断,即使没有完全可验证的方式来判断一段代码是否创建了一个漂亮或引人入胜的游戏。所以我认为这是一项非常有趣的研究,而且实际上,我们已经看到这类想法产生了很大的影响。所以我们做得越多,就能在越多的领域上进行训练。问题在于,你真的需要那样做吗,还是仅仅专注于某些数学和编码问题,就足以激发出这种“变得智能和解决问题”的元能力?我不知道,我是说,两种可能性都存在。 Jacob Effron:你直觉上倾向于哪一种? Oriol Vinyals:我很愿意相信你需要在一个广泛的分布上进行训练,并且那应该对模型有帮助。但通过预训练所能获得的泛化能力是如此之强。所以,也许这取决于对“超人”的雄心壮志,或者这些模型所能达到的上限。但归根结底,我感觉在Machine Learning中,在尽可能符合分布的数据上进行训练似乎是可取的。所以,这是研究人员在未来几个月和几年里需要破解的任务之一。 Jacob Effron:我们很多听众和正在创建公司的创始人们都在思考的一件事,就是搞清楚他们应该在多大程度上在模型层工作,还是纯粹在模型之上构建应用。我想知道,一个明显的趋势是,有些公司在模型之上做自己的RL,并表示:有一类特定问题我们可以去解决。或者,甚至可能最引人注目的是,比如Cursor在编码领域,但我们需要去训练自己的基础模型。我很好奇的是,你的直觉是,什么时候你知道这确实有意义,或者什么时候可能没意义。 Oriol Vinyals:我会告诉人们,其价值——我们稍微讨论过这点——在于评估的价值,以及数据,基本上这两者是紧密相关的,其中蕴含着巨大的价值。所以,无论你是否构建自己的模型,因为也许你还处于非常早期的阶段,或者你无法接触到人才、资源等所有东西,非常仔细地思考如何评估你在尝试做的任何事情上的进展,实际上会非常有价值,而且这甚至可能成为一个标准评估,像我们这样的人甚至会采用或监控。当然,数据的价值是巨大的,尤其考虑到我们刚刚讨论的Post Training,以及缺乏足够的数据来运行那种我们几年前可以愉快进行的、长达数月的训练。所以,我认为那里存在机会。 我知道,在这方面,正在构建东西的人们也投入了大量的精力。与此同时,我认为,在模型之上构建,即使模型能力会不断变化——再说一次,我显然不是投资人,不是专业投资者或产品人——实际上,仅仅专注于你真正相信的东西,可能会为你创造一些机会,让你拥有这个领域,理解它,获得用户,达到临界规模。而且,如果那是其他人,比如大玩家们,没有专注的事情,我觉得即使你只做产品上的专业化,哪怕你不做任何其他事情,也有很大的价值可以创造。 Jacob Effron:现在看来,几乎可以肯定的是,早期你先做产品专业化,在模型之上构建,达到一定规模,学习评估方法。我觉得很多这类公司正开始试图弄清楚,我们是应该利用这些来Post Training一个模型,还是做点别的?显然,这样做的权衡是,随着这些模型通用化,能力提升,它们永远不会像最大的实验室那样在广泛的数据上进行训练。所以,你可能就像在跑步机上一样,每隔两三个月,即使你短暂地领先了最先进水平一点,你也可能需要不断地重做。 Oriol Vinyals:是的,但这里又有一个角度,回到了我们讨论过的另一个话题。随着这些模型变得更能持续学习,或者使用一个可能非常复杂的知识库,那么为某个特定应用构建那个知识库,虽然不是像训练权重那样,它更高效一些,但你可能可以为其增添许多独特性,这可能会保护你免受那些没有花大量时间仔细思考它如何与当前模型交互的人的冲击,而那项能力只会变得更好。所以也许那个角度对于游戏中的早期玩家来说,也更具可扩展性。 Jacob Effron:我想,在我们谈到的这么多研究方向上都存在着如此引人注目的前进道路。有哪些能力是你不太确定如何达到的呢?也就是,哪些方面你或许还没看到研究路径,但你认为相当重要? Oriol Vinyals:我认为对于相当多的能力,我看到了研究路径。我是说,多年来最让我着迷的一个,尤其是在我2016年加入DeepMind时,就是元学习,或者说模型学习的能力。那是一种如此美妙的能力,既然你研究Machine Learning的话。所以这一项是我感觉存在路径,现在有了一些基础,并且它将会持续改进的。但可能有一条路径,我目前不确定它有多实用,那就是人们提到的,“这些模型能真正创新吗?”我认为这部分很重要,因为,当你致力于“你能在Machine Learning里想出新的想法吗?”然后我们实现它们,编码非常出色,部署它们,等等。我们正在对此进行实验。 你知道,很多人都相当程度上在利用我们现有的全部知识,但要以品味去进行创新,这是很难得的,即使对人类来说也是相当特别的,而且说实话,有时是随机的。这不像是“这个人太聪明了”。其实你只是让一万个人去尝试,然后你显然选出了那个做对了的人,并加以颂扬,对吧?所以我认为,那种创新能力对于某些事情,比如自我改进,可能相当重要。然而,甚至尝试去评估它都显然很难,而当某件事难以评估时,可能意味着它也很难在上面取得攀登式的进步。所以,在任何方面进行创新的能力,但具体来说在科学上,是一个我认为还需要更多进展的好例子。 Jacob Effron:显然,我认为Move 37是上一个时代的经典例子。那么,你最近有没有看到什么感觉最接近这个的事情?甚至在我们开始录制之前,我记得OpenAI讨论了他们刚刚解决的那个组合几何问题。 Oriol Vinyals :如果我从Machine Learning的角度来看,这就是重点——我认为我还没有看到一个模型产生出真正卓越的想法。但我确信很快会看到,因为模型在理解,比如说,一个模型是如何被训练的这方面,表现出了一些洞见和方式,感觉上是超人的,因为从机制上讲,这些模型能接触到我们无法企及的信息带宽。所以,也许那部分已经令人印象深刻了,但我也希望能在idea层面看到同等程度的惊艳,而Machine Learning是我能更准确评估的明显领域。所以,是的,敬请期待。 Jacob Effron:当你思考我们何时能达到这种,对Machine Learning研究产生真正洞见,以及这种递归自我改进的世界的层次时,我很好奇你是如何推理的。那甚至意味着什么,或者你如何想象它随着时间的推移会是什么样子?甚至是一些基本问题,比如“苦涩的教训”是否仍然成立?或者,当我们进入那个世界时会发生什么?我很想听你即兴聊聊这些。 Oriol Vinyals:作为研究者或工程师,你使用这些工具来提高你自己的生产力,使其达到某个效率水平或者某个层次。我们现在已经看到很多这样的例子了。 Jacob Effron:和某个领域最前沿的人交谈总是令人印象深刻,你知道,数字总有变化,但通常他们的生产力会全面有相当大百分比的提升。 Oriol Vinyals:我认为这一点已经在发生了,而且显然非常强大。但这个过程能持续多久,会存在一些几乎物理上的限制。模型需要被训练,有能源和硬件的限制。所以,我绝对非常渴望看到,哪些类型的问题可以被进一步自动化、增强,并能更自主地完成。但同时,某些事情上,事情发生的速度很可能存在一个自然的极限,也存在一个自然的上限。 这已经是一年多以前的事了,有人向我反映了一些事,现在回想起来感觉不太好。那就是,当模型写英文写得比你好时,我的反应是,好吧,这是一个有趣的领悟:即使你能改进那种能力,也许没有天花板,或者天花板还很远,但我们甚至可能不需要看到那个天花板。所以,整个系统的整体表现已经非常出色。而且在某些情况下,可能存在上界,明显的上界。但是,我认为模型上的物理限制,你如何训练它们,即使你认为我们确切知道配方,可以非常快速地迭代并训练下一代模型。加速是存在的,但仍然有一些相当根本的上限和速率限制。 快问快答中的深刻洞见 Jacob Effron:好吧,我总是喜欢以快问快答来结束我的采访,把我没时间问的其他宽泛问题一股脑塞进去。那么,或许从这里开始,我很好奇,在过去一年里,在AI领域,你改变看法的一件事是什么? Oriol Vinyals:尽管我很愿意相信,在广泛的分布上训练可能会增强模型,但(事实是)在数学或编码这种极其困难的狭窄点上进行训练,却能创造出这种泛化能力。我觉得我并没有完全预料到它会有这么好的效果。 Jacob Effron:我记得Demis在I/O大会上说,我们正处于奇点的山麓,AGI可能会在未来几年内到来。你有同感吗? Oriol Vinyals:我有同感,而且我想说得更进一步。即使是一个身处该领域、接近这些模型和神经网络的人,如果在7年前——我特意用了一个明显是在LLM所有一切发生之前的时间点——如果7年前我能用我们现在有的模型做实验,我会不会宣布这就是AGI呢?我大概会说“是的”。我是说,这是一个不断变化的定义,进展非常惊人。 所以我认为,正是因为现在我们看得更近了,对我们正在构建的东西更加雄心勃勃是件好事。但话说回来,基于不同的定义,或者甚至是我们仅仅几年前对AGI可能怀有的期望,我会说,从某种意义上讲,AGI已经来了。虽然它并没有以我想要看到的方式到来,但它已经相当接近了。也许,对我来说,模型真正从经验中学习的能力是缺失的那一环。但每个人对于模型仍然存在的感知,都会有自己的一套测试或偏见。能力差距是存在的。 Jacob Effron:我们会到达那里的。然后我们会再次移动目标,提出其他理由。我认为你们拥有的一个巨大优势是,你们显然对自己正在构建的模型极为看好。你们有自己的硬件。我想很多听众脑子里会有一个问题,所以我来问一下:你们做过一件让许多人好奇想更深入了解的事,就是把你们拥有的一部分算力出售给了Anthropic。而且Twitter上一直有一种说法,如果你们那么看好模型和研究,为什么不把所有算力都留给自己用呢?所以我相信我们的听众会很乐意听听你的看法。 Oriol Vinyals:是的,关于如何投资算力。即使在我们内部,算力也被用于服务。我们训练小模型,甚至更小的模型,然后再尝试训练前沿模型。我认为这完全是一个需要平衡的精妙等式。总的来说,理解Alphabet的一种方式是,有些事情能创造收入和经济效益,然后你可以进行再投资。所以这不仅仅是贪心地想着“我们现在该做什么?”,然后把这些全都捆在一起,就这么定了。 我认为这个策略就是多管齐下。并且我认为时间线,尽管我们当然看好技术进步,但你也要考虑营收流等等。硬件是一项非常重要的资产。而且我认为,这里可能存在一种权衡,你并非全部自己用掉,而是战略性地利用它来创造,你懂的,基本上是为了再投资。我认为这是目前看来合乎逻辑的做法。当然,这些背后的计算很复杂,所以我不会深入讲具体的理由,但总体而言,心中有不同的投资水平和时间线,这只是一个战略选择。 Jacob Effron:你的位置非常有趣,因为你是唯一拥有自研尖端、最先进芯片的前沿模型提供商。这种合作实际上是什么样的?因为这是一个如此独特的动态,显然Nvidia与其他实验室密切合作,但他们并不在同一家公司旗下。那么,当它运作得非常好时,是什么样子的? Oriol Vinyals:正如我之前解释的,我回想起几个时刻。即使是Deep Learning在Google内部,当时也仍需证明自己。但我记得,肯定是在2013年,也许是2014年,我们一群人,我想是我、Jeff Hinton、Jeff Dean和Ilya,在一个房间里试图决定,服务器应该有什么配置?当时我们显然有一些CPU,一些GPU,你试图基于你对研究的了解、模型的发展方向来做出猜测,并且你真的可以产生那种影响。当然,会有延迟回报,因为这只是一项投资,只有几个月甚至几年后,才能在数据中心里变成现实。 所以我一直参与其中,并且我觉得那太棒了,我想我们当时尝试去预测研究领域将会发生什么。在早期,那甚至更难,但我认为能够真正施加影响,是一个非常特权的位置。我们当然也这么做。尤其是和Jeff一起,他几乎在Google存在的整个时期,都在深入思考基础设施,所以去思考“这些模型正朝这个方向发展,然后进行这些投资”就非常有趣。因为它们有一定的延迟,而身处同一屋檐下,能看到我们所看到的,真的非常非常有帮助。我曾在非常艰难的早期见过这一幕,并且它持续发生、越变越好。当然,某种程度上它减少了不确定性,让工作更容易,但依然是一个令人着迷的选择,对公司的命运等有着深远的影响。 Jacob Effron:这真是一场引人入胜的对话。我觉得我可以和你聊很久,但那会耽误我们通向AGI的进程。所以,我想确保把最后的发言权留给你。你有什么想和我们的听众分享的吗?或者想向他们推荐的研究,I/O大会上的任何内容,舞台交给你。 Oriol Vinyals:我认为,对于AI领域的任何事情,现在都是一个令人着迷的时代。所以,如果你是一个用户,去使用这些模型。如果你是一个建设者,使用这些模型去构建任何你做的东西,即使你认为它和AI毫无关系。请务必玩玩这些模型。它们令人惊叹,而且只会变得更好。 Jacob Effron:太棒了,谢谢你,这是一场非常精彩的对话。我是Jacob Ephron,你正在收听的是Unsupervised Learning,一个让我能与AI领域最聪明的人交谈,向他们提出大量关于模型正在发生什么、以及它对世界和商业意味着什么的播客。我希望这很清楚。我从中获得了巨大的乐趣,这是一个我在Redpoint担任投资人的日常工作之外的业余项目。但我们能请到这些了不起的嘉宾,真正依靠的是像你一样的听众订阅播客、并与朋友分享。这最终是让这一切运转起来的真正原因。所以,请考虑这样做,非常感谢你的支持和收听。我们下期节目再见。
任正非:我的高考往事
“为理想,早起三更,读迎晨曦,磨枪锉剑,不惧兵临城下;为目标,晚卧夜半,梦别星辰,敛神养气,以备全力以赴。” 高考不仅是检验知识的时刻,也是人生丰收的时节,不管处于哪个时代,读书求学都是人生进步的阶梯,也是改变人生命运最好的途径。 当然,人生是一场马拉松,高考只是其中的一个驿站。改变命运的,不只是一张录取通知书,更是那个全力以赴的自己。 2026年高考来临之际,谨以任正非先生对高考往事的回忆文章,献给在考场上拼搏的学子,以及始终热爱生活、坚持梦想的读者们。 作 者:任正非 来 源:节选自任正非自述文章《我的父亲母亲》 我们兄妹七个,加上父母共九人。全靠父母微薄的工资来生活,毫无其他来源。 本来生活就十分困难,儿女一天天在长大,衣服一天天在变短,而且都要读书,开支很大。 每个学期每人交2-3元的学费,到交费时,妈妈每次都发愁。 与勉强可以用工资来解决基本生活的家庭相比,我家的困难就更大。 我经常看到妈妈月底就到处向人借3-5元钱度饥荒,而且常常走了几家都未必借到。 直到高中毕业我没有穿过衬衣。 有同学看到很热的天,我穿着厚厚的外衣,说让我向妈妈要一件衬衣,我不敢,因为我知道做不到。 我上大学时妈妈一次送我两件衬衣,我真想哭,因为,我有了,弟妹们就会更难了。 我家当时是2-3人合用一条被盖,而且破旧的被单下面铺的是稻草。 上大学我要拿走一条被子,就更困难了,因为那时还实行布票、棉花票管制,最少的一年,每人只发0.5米布票。 没有被单,妈妈捡了毕业学生丢弃的几床破被单缝缝补补,洗干净。 这条被单就在重庆陪我度过了五年的大学生活。 青年任正非 父母的不自私,那时的处境可以明鉴。 我那时14-15岁,是老大,其他一个比一个小,而且不懂事。 他们完全可以偷偷地多吃一口粮食,可他们谁也没有这么做。 爸爸有时还有机会参加会议,适当改善一下生活。 而妈妈那么卑微,不仅要同别的人一样工作,而且还要负担七个孩子的培养、生活。 煮饭、洗衣、修煤灶……什么都干,消耗这么大,自己却从不多吃一口。 我们家当时是每餐实行严格分饭制,控制所有人欲望的配给制,保证人人都能活下来。不是这样,总会有一个、两个弟妹活不到今天。 我真正能理解活下去这句话的含义。 我高三快高考时,有时在家复习功课,实在饿得受不了了,用米糠和菜合一下,烙着吃,被爸爸碰上几次,他心疼了。 其实那时我家穷得连一个可上锁的柜子都没有,粮食是用瓦缸装着,我也不敢去随便抓一把,否则也有一、两个弟妹活不到今天。(我的不自私也是从父母身上学到的,华为今天这么成功,与我不自私有一点关系。) 后三个月,妈妈经常早上塞给我一个小小的玉米饼,要我安心复习功课,我能考上大学,小玉米饼功劳巨大。 如果不是这样,也许我也进不了华为这样的公司,社会上多了一名养猪能手,或街边多了一名能工巧匠而已。 这个小小的玉米饼,是从父母与弟妹的口中抠出来的,我无以报答他们。 父亲一生谨小慎微,自知地位不高,从不乱发言而埋头在学问中。 父亲曾说了几句话:“记住知识就是力量,别人不学,你要学,不要随大流。”“以后有能力要帮助弟妹。” 背负着这种重托,我在重庆,将樊映川的高等数学习题集从头到尾做了两遍,学习了许多逻辑、哲学。 还自学了三门外语,当时已到可以阅读大学课本的程度,终因我不是语言天才,加之在军队服务时用不上,20多年荒废,完全忘光了。 我当年穿走爸爸的皮鞋,没念及爸爸那时是做苦工的,泥里水里,冰冷潮湿,他更需要鞋子。 现在回忆起来,感觉自己太自私了。 后来,生活翻了个个儿。 因为我两次填补过国家空白,又有技术发明创造,合乎那时的时代需要,突然一下子“标兵、功臣……”部队与地方的奖励排山倒海式地压过来。 我这人也热不起来,许多奖品都是别人去代领回来的,我又分给了大家。 由于那时百废待兴,党组织需要尽快恢复一些重点中学,提高高考的升学率,让我父亲去做校长。他曾是一个专科学校的校长。 他不计较升降,不计较得失,只认为有了一种工作机会,全身心地投进去了,很快就把教学质量抓起来了,升学率达到了90%多,成为远近闻名的学校。 他直到1984年75岁才退休。他说,他总算赶上了一个尾巴,干了一点事。 他希望我们珍惜时光,好好干。至此,我们就各忙各的,互相关心不了了。 我为老一辈的政治品行自豪,他们不以物喜,不以己悲,不计荣辱,爱国爱党,忠于事业的精神值得我们这一代人、下一代人、下下一代人学习。 生活中不可能没有挫折,但一个人为人民奋斗的意志不能动摇。 科研尖兵任正非 转入地方后,不适应商品经济,也无驾驭它的能力,一开始我在一个电子公司当经理也栽过跟斗,被人骗过。 后来也是无处可以就业,才被迫创建华为的。 华为的前几年是在十分艰难困苦的条件下起步的。 这时父母、侄子与我住在一间十几平方米的小房里,在阳台上做饭。他们处处为我担心,生活也十分节省。攒一些钱说是为了将来救我。 (听妹妹说,母亲去世前两个月,还与妹妹说,她存有几万元,以后留着救哥哥,他总不会永远都好。母亲在被车撞时,她身上只装了几十元钱,又未带任何证件,是作为无名氏被110抢救的。 中午吃饭时,妹妹、妹夫才发现她未回来,四处寻找,才知道遇车祸。可怜天下父母心,一个母亲的心有多纯。) 当时在广东卖鱼虾,一死就十分便宜,父母他们专门买死鱼、死虾吃,说这比内地还新鲜呢!晚上出去买菜与西瓜,因为卖不掉的菜,便宜一些。 我也无暇顾及他们的生活,以致母亲糖尿病严重我还不知道,是邻居告诉我的。 华为有了规模发展后,管理转换的压力十分巨大,我不仅照顾不了父母,而且连自己也照顾不了,我的身体也是那一段时间累垮的。 我父母这时才转去昆明我妹妹处定居。 我也因此理解了要奋斗就会有牺牲,华为的成功,使我失去了孝敬父母的机会与责任,也消蚀了自己的健康。 回顾我自己已走过的历史,扪心自问,我一生无愧于祖国、无愧于人民,无愧于事业与员工,无愧于朋友,唯一有愧的是对不起父母,没条件时没有照顾他们,有条件时也没有照顾他们。 爸爸妈妈,千声万声呼唤您们,千声万声唤不回。 逝者已经逝去,活着的还要前行。
淘宝闪购新进展:外卖和零售双线目标进一步明确
未来几个月“零售”订单的目标是稳定在日均2000万单。 作者 | 彭倩 编辑 | 乔芊 杨轩 36氪独家获悉,淘宝闪购在五一假期前召开了核心高管会议,制定了新一年的增长计划。 根据会议内容,2027财年(2026年4月-2027年3月),淘宝闪购的核心目标有二: 第一、保持外卖业务市场份额稳定的基础上,并在该财年内实现单月UE 转正; 第二、加大对零售业务的投入,发展“淘宝便利店”、盒马前置仓等业务,以及实现天猫超市、天猫品牌“远转近”,来提升零售业务的单量和GMV。 这是对闪购当前战略的进一步明确和细化。 早在今年3月的财报会上,蒋凡就曾对淘宝闪购做初长期展望:在市场领先地位的前提下,保持即时零售整体交易规模过万亿的目标不变;2年后,即时零售将带来正向的经济收益,即2028财年实现正向现金流,预计2029财年即时零售板块将实现整体盈利。 外卖大战一年,阿里亏损超过900亿元。阿里高层在近期的董事会会议上称,今年一定要全力确保 AI 业务得到最有力的支持,AI 的两场仗(即 AI to C,AI to B)决不能输,这是关乎公司未来十年走向的大战略,需要大量的现金流,保证资本开支,除此之外的业务都必须精打细算。 外卖大战收敛:减亏与改善UE 外卖市场的主旋律如今是减亏与改善UE。具体到淘宝闪购动作上,首先是投入的收敛。一位阿里高层人士告诉36氪,阿里新财年(自然年2026年Q2至2027年Q2)在淘宝闪购的投入只有上一财年的一半(不包含零售业务)。 这样做的结果是牺牲一部分单量。据36氪了解,目前淘宝闪购的日均单量在6000万单左右(含天猫超市4小时达、盒马等),虽然较去年夏季高峰下滑约30%-40%,但其日均单量已经稳定。 据接近阿里和美团人士说法,双方外卖业务在订单份额上接近持平,但客单价差距还较为明显。这也是份额被对手蚕食后,美团外卖的主要策略,即保住高客单价用户。 而阿里为了减亏,也在转向类似的策略——向高客单价人群定向补贴,推出专门针对这类用户的物流服务“1对1急送”等。 一系列操作之后,淘宝闪购的 UE 情况的确得到了改善。据36氪了解,目前淘宝闪购单亏1.5元左右,在今年Q2,外卖业务整体亏损较 Q1将大幅改善。(Q1外卖亏损则在170-190亿元之间,与去年Q4几乎持平)。 虽然最激烈的外卖战场战事趋缓,但在零售战场,双方仍有交锋。 即时零售扩张: 闪电仓之战与SKU拓宽 36氪从接近淘宝闪购的人士处获悉,淘宝闪购为零售订单设置了新目标,未来几个月的目标要稳定在日均2000万单的水平(包含猫超的4小时达和盒马接入闪购的部分订单)——去年外卖大战补贴最激烈时,美团的零售日单量就是2000万单。 目前,阿里和美团对即时零售品类的布局都是分兵作战,由多个业务承接:除了淘宝闪购中的社会供给外,阿里还包含盒马(生鲜)、淘宝便利店(日百、美妆、酒水、宠物)、猫超(零食、日百、酒水、宠物)和部分天猫 KA 品牌(服饰和3C);美团则包含小象超市(生鲜)、松鼠便利(日百)、歪马送酒(酒水),以及新收购的叮咚买菜。 对平台生意来说,外卖的供给是成千上万现成的线下餐厅,但零售的供给却需要大规模的基建。 在不同类型的供给中,双方对闪购仓(美团侧称为“闪电仓”)的争夺尤其激烈,这是因为闪购仓成本更低、品类更全,能够精准匹配当下即时零售碎片化、应急性的需求。淘宝闪购作为后入局的玩家,先在密度和广度上做文章,快速提升仓的数量,后又着力提升商品供给的数量和质量。“商品丰富度是高层认为现阶段零售竞争中最关键的。”一位接近淘宝闪购的人士称。 36氪了解到,淘宝闪购目前也正引入更多零售品牌、覆盖更多社会综合闪购仓,“淘宝闪购合作的社会综合仓已经超过2万个。”上述人士对36氪透露。 为了提升闪电仓的品质,充分发挥其电商供给的优势,淘宝闪购还上线了淘宝便利店业务。具体的做法是将部分社会综合闪电仓升级,孵化标杆商家,引入来自淘宝、天猫和1688的1万个 SKU,覆盖百货、零食、酒水、3C 数码、母婴、美妆等各大品类,首批合作商家有30个。 一位接近美团人士称:“淘宝便利店是淘宝闪购今年最重视的零售业务,直接对标(美团的)松鼠便利。”据36氪了解,今年春节期间,淘宝便利店原计划今年要开设1000家,但新财年初已将目标调高至1500家,近期淘宝闪购内部进一步上调目标,计划开出3000家淘宝便利店。 “目前各大行业的小二都下放到各个市场去铺点位,预计今年夏天就将达1000家。”一位淘宝闪购员工告诉36氪。 淘宝便利店加速狂奔,与对手的跑马圈地息息相关。据36氪了解,美团各类自营闪电仓也都在加速扩张。其中,松鼠便利店计划在今年开出3000家店,目前已开出700家,去年 GMV 近300亿元。此外,主打酒水品类的歪马送酒目前已开出2600家店,年 GMV 在60亿元左右,今年也有更激进的扩展计划。 现阶段要赢得竞争,广开网点、尽可能拓宽品类对闪购来说是关键。新的财年,淘宝闪购在零售领域重点发力的品类为日百、美妆、酒水和医药器材,内部提出这些品类的三级类目覆盖率要达到95%以上,SKU 宽度需达到1000-1200个甚至更多,在供给上要超过竞争对手。 为此,淘宝便利店投入了20亿元补贴商家,目前主要是给租金补贴,以此鼓励商家拓宽品类。一位头部商家告诉36氪:“目前上海是一线,补贴3万每月,杭州二线2.5万,三线1.6万,四线1万左右,基本能覆盖这块的成本。” 淘宝便利店的抓手还有一个——天猫品牌下沉。这部分品牌资源是差异于对手的。目前,淘宝便利店会推动小家电,流行服饰,美妆,玩具,3C 数码配件等品类的品牌优先下沉。 闪购仓之外,阿里还对天猫超市供应链进行改造(菜鸟支持4小时达业务,改中心仓为城市仓,是专门服务于天猫超市的闪电仓)。此外,阿里还通过盒马来扩展前置仓(偏向生鲜品类),今年的计划是要开1000个。 而天猫品牌“远转近”上,淘天在供给上有明显优势,但实现起来仍需要时间。比如需要开发一个复杂的数字化系统,这涉及跨平台打通、多货权管理、分润结算、库存分配等难题。据36氪了解,目前淘宝闪购零售板块的商品系统测试已跑通,已经于5月上线,目前已接入自然堂等品牌合作。 为了更快在即时零售领域跑马圈地,阿里还以集团名义积极参与朴朴超市的竞购案。据36氪了解,在成功出售高鑫零售和银泰百货等线下零售业务后,阿里投资部曾直言“绝不会再轻易对线下零售出手”。此番改变态度,无疑是源于其十分看重即时零售长期发展潜力。 到今年夏季结束,外卖大战的终局可能会变得清晰,而阿里美团在即时零售领域的征战还远未结束。
不交980检测费就不退手机,高价回收二手手机骗局曝光
IT之家 6 月 7 日消息,据央视新闻今天报道,市场上最近出现一种手机高价回收骗局,骗子首先会放出高价回收二手机诱饵,受害人真的去回收时会被无端压价,想要拿回手机时还会被高价验机费再摆一道。 前段时间,山东菏泽的李先生刷短视频时看到高价回收二手手机广告,线下实体回收最多给 1000 元的手机,对方声称能给到 2000 元。李先生一看价格合适就心动了,立即添加了鄄城一家二手手机回收工作室的微信账号。 双方简单沟通后,李先生把手机寄给了工作室。然而对方验机时却说手机有故障,不值 2000 元,只能给到 150 元的回收价。 李先生听到这个结果不想卖了,让对方寄回手机。但对方这时又说需要缴纳 980 元验机费,不交钱就不退手机。李先生最终只能在无奈之下,以 150 元的价格把手机卖给了对方。事后他越想越气,根据收货地址联系了鄄城市场监督部门。 监管部门调查后发现,该工作室提供的售后地址是假的。期间还有大量外地群众打来求助电话,具体骗术与李先生的遭遇一致,都是高价回收诱饵、收到手机后刻意压低价格、以检测费威逼利诱。市场监督部门意识到这不是简单的消费纠纷,便将线索移交至警方。 警方梳理报案信息后发现,多名受害人的收货地址虽然不同,但作案手法高度一致。随后他们根据售后手机号展开摸排,抓获了以黄某为首的 12 名犯罪嫌疑人,彻底捣毁了这个诈骗工作室。 IT之家从原报道获悉,该诈骗团伙作案范围覆盖全国,有上千名群众上当受骗。团伙将骗来的手机转手卖给了二手商贩,已累计非法获利 80 余万元。
突发!Claude大面积宕机,用户竟收到“别人的对话”
新智元报道 【新智元导读】Claude 大面积宕机,多名开发者爆料收到「别人的推理输出」,疑似发生云架构最致命的跨租户隔离失效。 云端最不该发生的一幕,可能真的发生了。 就在昨天,Anthropic 的官方状态页突然挂起一排刺眼的红灯—— Claude API、Claude Code、Claude.ai、Claude Cowork……几乎所有核心服务,突然大面积宕机。 从 Opus 4.6 到 Opus 4.8,五大模型无一幸免。 宕机本身,对一家 AI 公司来说算不上世界末日。 但这一次,剧本写崩了。 真正让开发者社区脊背发凉的,是接下来的爆料:多名开发者在 X 上公开反映,在这次故障期间,Claude 的 API 竟然返回了「其他用户」的推理输出。 有网友分享了一张令人不寒而栗的截图——一位用户打开自己的 Claude 界面,看到的不是自己的对话,而是一段正在生成哥伦比亚运动科普文章的陌生任务。 这与用户的提问完全不搭边。两个素不相识的用户的工作流,就这样被揉进了同一个屏幕。 换句话说,你发出去的请求,拿回的可能是陌生人的对话;而你输入的内容,此刻或许正在显示在另一个人的屏幕上。 细思极恐。 一位 X 上的大V Chubby发帖描述了这一异常:发出 API 请求后,得到的回复内容与自己的 prompt 毫无关系,反复确认后确定是上游错误,而非自己代码的 bug。 他在帖文中直言——这看起来像是跨租户隔离失效。 安全博客 cside 在事发当天迅速发布了技术分析文章,开篇就写道:「你发出一个请求,拿回的却是一个看起来是在回答别人问题的输出。」 文章作者表示已看到流传的截图和第一手报告,但出于对泄露数据本身的保护,选择不公开展示截图——因为那些截图里,包含的正是不该被传播的其他客户的 prompt 和输出内容。 如果这一波情况被最终被证实,这将是云架构里最致命、最不可饶恕的一类事故——跨租户隔离失效(cross-tenant isolation failure),等同于最高级别的客户数据泄露灾难。 用大白话说就是:你家的门锁失灵了,不只是小偷能进来——隔壁邻居也能进来。 「史诗级隐私泄露」、「最坏场景」、「worst-case scenario」——这样的字眼,开始在全球技术圈疯狂刷屏。 最微妙的 是 Anthropic 的「沉默」 真正让人不安的,是 Anthropic 的态度。 截至发稿,官方对那条最敏感的「跨租户数据泄露」传闻,既没证实,也没否认。 状态页上始终只有一句轻描淡写的——elevated errors(错误率升高)。 一边是开发者言之凿凿的「我收到了别人的数据」,一边是官方四个字的「错误率升高」。 这中间的巨大落差,正是此刻全球开发者最焦虑的来源。 安全研究者对此并不感到意外。 正如 cside 的分析文章一针见血地指出:「elevated errors」是云服务商的万能口袋词,从超时到格式错误到把别人的数据塞给你,都能往这个筐里装。 更耐人寻味的是技术层面的分析。 cside 解释道,现代 AI API 并不是一个程序回答一个请求的简单模型,而是一个由负载均衡器、请求路由器、网关、队列、内存缓存、连接池等多层共享组件堆叠而成的庞大系统。 每一层都持有状态,每一层都是一个可能把 A 用户的响应塞给 B 用户的「潜在事故点」——一旦缓存键碰撞、连接被错误复用、或取消的请求留下了过期对象,跨租户泄漏就会发生。 而且,这并不是没有先例。 OpenAI 的那次「串线」 2023 年 3 月 20 日,OpenAI 就经历过一次几乎一模一样的事故。 部分 ChatGPT 用户能看到其他活跃用户的聊天标题,甚至新建对话的第一条消息。 更严重的是,约 1.2% 的 ChatGPT Plus 付费用户 的部分账单信息被泄露——包括姓名、账单地址、信用卡类型、过期时间和卡号后四位。 OpenAI 事后在复盘报告中确认:根本原因是共享缓存和连接层在请求取消后,将数据返回给了错误的客户端。 同样的故障类型,同样的症状模式。 扩张越快的供应商,运行的共享层越多,推过去的负载也越大——暴露在这类 bug 下的面积就越广。 提到OpenAI,同样在 6 月 5 日,又出事了。 一次系统故障导致大量用户账号被「误封」,ChatGPT、Codex 等服务的部分用户突然被暂停访问。 OpenAI 在 X 上官方承认:「一个问题导致部分用户账号被错误暂停,我们正在恢复访问并处理相关订阅和信用额度问题。」 据 OpenAI 状态页显示,事件从太平洋时间 6 月 5 日下午 2:20 开始调查,2:52 确认问题,3:19 仍在修复中,直到下午 4:09 才基本恢复。 但账号访问恢复后,订阅状态、Pro 功能和积分问题仍在「善后」中。 付费用户的怒火在社交平台上迅速蔓延,#keep4o 话题再度刷屏,大量 Pro 用户吐槽工作流被集体中断。 有reddit网友愤怒地吐槽:我付款后的第二天,OpenAI 就封禁了我的账号! 「三年的心血、三四十个 Codex 智能体、我所有的客户收入——全都被锁住了。而且没有给出任何理由。」 当「快」成为唯一 KPI 谁来守住底线? 而这一切,恰好发生在最敏感的节点——Claude Mythos 红队测试前夕,GPT-5.6、Gemini 3.5 Pro 蓄势待发,硅谷的下一轮军备竞赛一触即发。 当所有人都在比谁的模型更快、更强、更聪明的时候,这场突如其来的宕机像一盆冷水浇下来: 在通往 AGI 的狂奔里,最先被甩下车的,会不会是「安全」与「信任」这两个最不该被牺牲的东西? 跨租户泄漏的技术真相,还有待 Anthropic 给出正式结论。 但可以确定的是—— 这一夜,很多开发者第一次认真地问自己:我交给 AI 的东西,真的只有我自己看得到吗?
全国首个家庭通用机器人登陆武汉:洗碗、叠衣轻松搞定
快科技6月7日消息,据媒体报道,中国首个面向家庭场景的通用机器人在武汉开启体验,首批百台机器人已进驻社区开启规模化测试。 机器人身高1.67米,周身圆润,手部为抓夹,脚部为轮式底盘,移动平稳且几乎静音。其占地不到1平方米,充电2小时,续航8小时。 它首次进入一个家,会自行扫描三维地图,识别家具位置。如果布局发生变化,只需通过语音告知“重新学习环境”,它就能在几分钟内完成更新,无需工程师上门。 这台机器人能够独立完成加热食物、洗碗、叠衣服、清洁桌面等7个子任务。看似简单,仅加热食物这一项,就包含抓取、开关门、计时等十余个步骤,每个步骤需经过上千次训练打磨。 该机器人项目经理尚登科介绍,这台机器人的“人设”为“家庭伙伴”,随着人们生活水平提高,适童、适老、适宠等需求增长,机器人也将学习读绘本、陪护、清理宠物粪便等新技能,灵活应对家庭场景的复杂环境。“我们目前正在教机器人喂金鱼、插花和整理玩具。” 下一步,研发团队将把机器人底盘体积减小60%,更适应狭窄过道和小户型;电池续航提升70%;操作范围扩大40%,可完成2.2米高度内的取物、擦窗等任务。今年第三季度,该团队计划在武汉免费提供100个试用名额,面向有老人、儿童或宠物的家庭开放申请。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。