行业分类:
加载中...
头条分类:
加载中...
AI大模型的“中文税”:中文比英文更费Token,为什么?
作者|汤一涛 编辑|靖宇 Opus 4.7 刚发布那几天,X 上怨声载道。有人说一次对话就把她的 session 额度用光了,有人说同一段代码跑完的成本比上周翻了一倍多;还有人晒出自己 200 美元 Max 订阅不到两小时就触顶的截图。 独立开发者 BridgeMind 承认 Claude 是世界上最好的模型,但同时也是最贵的模型。他的 Max 订阅用不到两小时就限额了,但幸好——他买了两份。|图片来源:X@bridgemindai Anthropic 官方价格没变,每百万输入 token 仍是 5 美元,输出 25 美元。但这个版本引入了新 tokenizer,同时 Claude Code 把默认 effort 从 high 提到了 xhigh。两件事叠加,同一份工作消耗的 token 变成了以前的 2 到 2.7 倍。 我在这些讨论里看到两个和中文有关的说法。一个是:中文在新 tokenizer 下几乎没涨,中文用户躲过了这次涨价。另一个更有意思:古文比现代汉语还省 token,用文言文跟 AI 对话可以节省成本。 第一个说法暗示 Claude 对中文做了某种优化,但 Anthropic 的发布文档里,没提过任何和中文相关的调整。 第二个说法则更难解释。古文对人类读者来说显然比现代汉语难懂,一个对人类更复杂的文本,怎么会对 AI 更容易? 于是我做了一次测试,用 22 段平行文本(包含商业新闻、技术文档、古文、日常对话等类型),同时送进 5 个 tokenizer(Claude 4.6 和 4.7、GPT-4o、Qwen 3.6、DeepSeek-V3),读取每段文本在每个模型下的 token 数,做横向对比。 测试文本: 1、日常对话中英文(旅行、论坛求助、写作请求) 2、技术文档中英文(python 文档、Anthropic 文档) 3、新闻中英文(NYT 时政新闻、NYT 商业新闻、苹果公司官方声明) 4、文学选段中英古汉语(《出师表》《道德经》) 测完之后,两个说法都得到了部分验证,但事实会比传言更复杂一些。 01 中文税 先说结论: 1、在 Claude 和 GPT 上,中文一直比英文贵 2、在 Qwen 和 DeepSeek 上,中文反而比英文便宜 3、Opus 4.7 这次引发震荡的 tokenizer 升级,通胀几乎只发生在英文上,中文纹丝不动 看具体数字。Claude Opus 4.7 之前的全系列模型(包括 Opus 4.6、Sonnet、Haiku),使用的是同一个 tokenizer。在这个 tokenizer 下,中文的 token 消耗全线高于等量英文内容,cn/en 比值范围在 1.11× 到 1.64× 之间。 最极端的场景出现在 NYT 风格的商业新闻:同一段内容,中文版要多消耗 64% 的 token,等于多付 64% 的钱。 Opus 4.6 及其之前的 Claude 模型,中文 token 的消耗量显著高于其它模型(红框) 最极端的场景出现在 NYT 风格的商业新闻:同一段内容,中文版要多消耗 64% 的 token(绿框) GPT-4o 的 o200k tokenizer 好一些,cn/en 比值多数落在 1.0 到 1.35× 之间,部分场景低于 1。中文仍然整体偏贵,但差距比 Claude 小得多。 国产模型 Qwen 3.6 和 DeepSeek-V3 的数据则完全反了过来。两者的 cn/en 比值大面积低于 1,这意味着同样的内容,中文版反而比英文版省 token。DeepSeek 最低做到了 0.65×,同一段话中文版比英文版便宜三分之一。 Opus 4.7 的新 tokenizer 通胀几乎只发生在英文上。英文 token 数膨胀了 1.24× 到 1.63×,中文大量维持在 1.000×,几乎没有变化。开头那些英文开发者的账单震荡,中文用户确实没感受到。原因可能是中文在旧版上已经被切到了单字颗粒度,可拆分的空间极小。 Opus 4.7 对比 4.6,英文消耗的 token 更多了,中文反而没变 测试过程中我还注意到一件事。token 消耗的差异不只是账单问题,它直接影响工作空间的大小。同样 200k 上下文窗口,用旧版 Claude tokenizer 装中文资料,能塞进去的内容量比英文少 40% 到 70%。 同一类工作,比如让 AI 分析一份长文档或者是总结一组会议记录,中文用户能喂给模型的材料更少,模型能参考的上下文更短。结果就是付了更多的钱,但得到的是更小的工作空间。 四组数据放在一起看,一个问题自然浮出来: 为什么同一段内容换个语言,token 数就不一样?为什么 Claude 和 GPT 的中文贵,Qwen 和 DeepSeek 的中文反而便宜? 答案藏在上文多次提到的概念 tokenizer(分词器)上。 02 一个汉字,可以切成几块? 模型在读到任何文字之前,会通过 tokenizer 把输入切成一个个 token。你可以把 tokenizer 想象成 AI 的「积木切割机」。你输入一句话,它负责把这句话拆成一块块标准化的积木(也就是 token)。AI 模型不看文字,只认积木的编号。你用多少块积木,就付多少钱。 英文的切法比较符合直觉,比如「intelligence」大概率是一个 token,「information」也是一个 token,一个单词对应一个计费单位。 但中文到了这一步就出问题了。把同一句话「人工智能正在重塑全球的信息基础设施」分别送进 GPT-4 的 cl100k tokenizer 和 Qwen 2.5 的 tokenizer,切出来的结果完全不同。 GPT-4 基本把每一个汉字都拆成了一个 token;Qwen 则会把词语识别成一个 token,例如「人工智能」这 4 个字在千问只算一个 token。 同一句 16 个汉字的话,GPT-4 切出来 19 个 token,Qwen 切出来只有 6 个。 为什么会切成这样?原因在一个叫 BPE(Byte Pair Encoding)的算法。 BPE 的工作方式,是统计训练语料里哪些字符组合出现频率最高,然后把高频组合合并成一个 token,纳入词表。 GPT-2 时代,训练语料的绝大多数是英文。英文字母组合(th、ing、tion)反复出现,很快就被合并成 token。中文字符在那个语料池里出现的频率太低,排不进词表,只能被当作原始字节来处理,一个汉字占 3 个字节,就变成了 3 个 token。 BPE 按训练语料中的字符频率决定合并。英文语料主导下,中文 UTF-8 字节无法合并为整字 后来 GPT-4 的 cl100k 词表扩大了,常用汉字开始被纳入,一个字通常缩到 1 到 2 个 token,但整体效率仍然不如英文。 到了 GPT-4o 的 o200k 词表,中文效率再进了一步。这也解释了为什么第一段的数据里 GPT-4o 的 cn/en 比值比 Claude 低。 Qwen 和 DeepSeek 作为国产模型,从一开始就把大量常用汉字和高频词组作为整字、整词纳入词表。一个字一个 token,效率直接翻倍甚至更多。 同一句话在不同 tokenizer 下的拆分结果示意图 这就是为什么它们的 cn/en 比值能低于 1,中文字均信息密度本来就高于英文单词,当 tokenizer 不再人为拆碎汉字,这个天然优势就显现出来了。 所以上一节那四组数据的差异,根源不在模型的能力,而在 tokenizer 的词表里,给中文留了多少位置。 Claude 和早期 GPT 的词表是以英文为默认值构建的,中文是后来被「塞进去」的;Qwen 和 DeepSeek 的词表从设计之初就把中文当作默认语言对待。这个起点的差异,一路传导到 token 数、账单、上下文窗口大小。 03 古文真的更便宜吗? 再看开头的第二个传言:古文比现代汉语更省 token。 数据确认了这个说法。在测试里,古文样本的 cn/en 比值全线低于 1,在所有五个 tokenizer 上都一致。同一段内容的古文版本,token 数比对应英文翻译还少。 在所有模型中,古文消耗的 token 数不但比现代中文少,甚至比英文还少 原因也不复杂,古文用字极度精炼。「学而不思则罔,思而不学则殆」是 12 个字。翻译成现代汉语就是「只是学习而不思考就会迷惑,只是思考而不学习就会陷入困境」,字数直接翻倍,token 数自然也跟着翻倍。 而且古文的常用字(之、也、者、而、不)都是高频字符,在任何 tokenizer 的词表里都有独立位置,不会被拆成字节。所以古文在编码层面确实是高效的。 但这里藏着一个陷阱。 古文的 token 省在编码端,但模型的推理负担没有减轻。「罔」一个字,模型需要判断它在这个语境里是「迷惑」「被蒙蔽」还是「没有」。现代汉语可以用 26 个字把这层意思说清楚,用古文等于把铺开的部分压了回去,把推理的活留给了模型。打个比方,一份压缩成 zip 的文件体积更小,但解压它需要更多计算。 token 省了,推理的消耗反而上升了,理解准确度还下降了。这笔账算不过来。 古文这个例子让我意识到,token 数量本身不能说明太多问题。但顺着这个方向想下去,还有一层我之前忽略了的东西。 上面说过,GPT-2 时代的 tokenizer 会把「人」这个字拆成三个 UTF-8 字节 token,后来 GPT-4 的词表扩大,常用汉字变成了一个字一个 token,Qwen 更进一步,把「人工智能」四个字合成一个 token。 直觉上这是一个不断改进的过程:合并得越多,效率越高,模型应该也理解得越好。 但真的是这样吗?我们不妨回忆一下,我们是如何认识汉字的。 汉字是表意文字,现代汉字里超过 80% 是形声字,由一个表义的偏旁和一个表音的部件组合而成。「氵」旁的字多和液体有关,「木」旁的字多和植物有关,「火」旁的字多和热量有关。偏旁部首就是人类识字时最基础的语义线索,一个不认识「焱」字的人,看到 3 个「火」也能猜到它和火有关。 因为偏旁部首是人类识字时最基础的语义线索,人会先从结构推断意义范畴,再结合语境理解具体含义。 火花、火焰、光焰,书面语与人名中多见,寓意光明、炽热。 但是在 tokenizer 的词表里,「焱」这个字对应的是一个编号。我们假设它是 38721 号,它代表的是词表里的一个索引位置,模型通过它查找到一组数字向量,用这组向量来表征「焱」这个字。 编号本身不携带任何关于这个字内部结构的信息。38721 和 38722 的关系,对模型来说和 1 和 10000 的关系没有区别。于是,「汉字的结构」这一层信息,就被封装起来了。三个「火」叠在一起这件事,在编号里不存在。 模型当然可以通过大量训练数据间接学到「焱」「炎」「灼」经常出现在相似的语境里,但这条路比直接利用偏旁信息要更间接一些。 所以模型能不能从拆开的字节里,「看到」某些类似偏旁的结构线索,然后在后续的计算层里重新组合呢?这条路虽然 token 数多、成本高,但有没有可能在语义理解上,反而比直接吞下一个不透明的编号更有效? 2025 年发表在 MIT Press《Computational Linguistics》上的一篇论文(《Tokenization Changes Meaning in Large Language Models: Evidence from Chinese》),回答了这个问题。 04 碎片里长出偏旁 论文作者 David Haslett 注意到一个历史巧合。 1990 年代,Unicode 联盟在给汉字分配 UTF-8 编码时,排列顺序是按部首归类排的。同一个部首下的汉字,UTF-8 编码是相邻的。「茶」和「茎」都含有「艹」部(草字头),它们的 UTF-8 字节序列以相同的字节开头。「河」和「海」都含有「氵」部,字节序列同样共享开头。 UTF-8 按照部分部首顺序给中文排序,部首相同的字,编码相近|图片来源:Github 这意味着,当 tokenizer 把汉字拆成三个 UTF-8 字节 token 的时候,共享部首的汉字会共享第一个 token。模型在训练过程中反复看到这些共享的字节模式,有可能从中学到「第一个 token 相同的字,往往属于同一个意义范畴」。这在功能上就接近于人类通过偏旁判断语义的过程。 Haslett 设计了三个实验来验证这件事。 第一个实验询问 GPT-4、GPT-4o 和 Llama 3:「茶」和「茎」是否含有相同的语义部首? 第二个实验让模型给两个汉字的语义相似度评分。 第三个实验让模型做「找出不同类」的排除任务。 每个实验都控制了两个变量:两个汉字是否真的共享部首、两个汉字在 tokenizer 下是否共享第一个 token。这个 2×2 的设计,让她能分离出部首效应和 token 效应各自的影响。 三个实验的结论一致:当汉字被切成多个 token 时(比如 GPT-4 的旧 tokenizer 下,89% 的汉字被切成了多 token),模型识别共享部首的准确率更高;当汉字被编码为单个 token 时(GPT-4o 的新 tokenizer 下,只有 57% 的汉字还是多 token),准确率下降了。 换句话说,上一段的那个猜想成立了。把汉字切碎,成本确实更高,但切碎后的字节序列里保留了部首的痕迹,模型真的从中学到了一些东西。而把汉字编码为整字 token,成本降下来了,但部首信息被封装在一个不透明的编号里,模型无法再通过字节序列获取这一线索。 需要特别说明的是,这一结论仅局限于字形相关的细分语义任务,不能等同于模型整体的中文理解、逻辑推理、长文本生成能力下降。同时,实验对比的 GPT-4 与 GPT-4o,除了分词器差异外,模型架构、训练语料、参数量均有显著变化,无法将准确率变化 100% 归因于分词粒度的调整。 这个发现还得到了工程侧的验证。2024 年一项针对 GPT-4o 的研究发现,GPT-4o 的新 tokenizer 把某些中文字符组合合成了一个长 token 之后,模型反而出现了理解错误。当研究者用专业的中文分词器,把这些长 token 重新拆开再喂给模型,理解准确度恢复了。 目前全球大模型行业的主流共识,依然是针对目标语言优化的整词 / 整字分词器,能显著提升模型的整体性能。整字 / 整词编码不仅能大幅降低 token 成本、提升上下文窗口的有效信息量,还能缩短序列长度、降低推理延迟、提升长文本处理的稳定性。论文中发现的细分任务优势,无法覆盖绝大多数中文 NLP 场景的性能收益。 但这件事依然戳中了大型系统里最难处理的一类问题:你能优化你设计过的部分,但你没法优化你不知道自己拥有的部分。Unicode 联盟按部首排列编码,是为了人类检索的方便。BPE 把汉字拆成字节,是因为中文在语料里的频率太低。两个不相关的工程决策碰巧叠在一起,产生了一条谁都没规划过的语义通道。 然后,当新一代工程师「改进」tokenizer、把汉字合并为整字 token 的时候,他们同时抹掉了一条自己不知道存在的路。效率提升了,成本降低了,某些东西也安静地消失了,而你甚至不会收到一条报错信息。 所以事情比「中文在 AI 里多付钱」这个判断更复杂。每一种 tokenizer 都在为某个默认值优化,代价藏在了别处。 05 林语堂 中文适配西方技术基础设施的代价,不是 AI 时代才开始付的。 2025 年 1 月,纽约居民 Nelson Felix 在 Facebook 一个打字机爱好者小组里发了几张照片。他在妻子祖父的遗物里发现了一台刻满中文的打字机,不知道是什么来历。很快数百条评论涌入。 Nelson Felix 的问题:明快打字机值钱吗?|图片来源:Facebook 斯坦福大学汉学家墨磊宁(Thomas S. Mullaney)看到照片后立刻认出来了,这是林语堂 1947 年发明的「明快打字机」的唯一原型机,失踪了将近 80 年。同年 4 月,Felix 夫妇将打字机卖给斯坦福大学图书馆。 明快打字机要解决的问题,和今天 tokenizer 面对的问题在结构上是同一个:怎么把中文高效地嵌入一套为西方语言设计的技术基础设施。 1940 年代的英文打字机有 26 个字母键,一键一字,简单直接。中文有几千个常用字,不可能一键一字。当时的中文打字机是一个巨大的字盘,排着几千个铅字,打字员用手逐个捡字,每分钟只能打十几个字。 1899年,美国传教士谢卫楼(Devello Z. Sheffield)所发明的中文打字机,是中文打字机最早的纪录|图片来源:Wikipedia 林语堂耗资 12 万美元研发经费,几乎倾家荡产,委托纽约的 Carl E. Krum 公司做出了一台只有 72 个键的中文打字机。工作原理是把汉字按字形结构拆开,上形键选字根上半部、下形键选字根下半部,候选字显示在一个叫「魔术眼」的小窗里,按数字键选中。每分钟 40 到 50 字,支持 8000 余常用字符。 (左)透明玻璃小窗即位「魔术眼」;(右)明快打字机内部结构|图片来源:Facebook 赵元任评价:「不论中国人还是美国人,只要稍加学习,便能熟悉这一键盘。我认为这就是我们所需要的打字机了。」 技术上明快打字机是一种突破,但商业上它失败了。 林语堂向雷明顿公司高管演示时机器出了故障,投资者随之失去兴趣,而造价高昂加上他个人资金链断裂,量产再无可能。1948 年,林语堂将原型机和商业权,卖给默根特勒铸排机公司(Mergenthaler Linotype)。该公司最终放弃量产,原型机在 1950 年代公司搬迁时被一位员工带回长岛家中,之后下落不明,直到 2025 年重见天日。 墨磊宁在《中文打字机》一书里有一个判断,他认为明快打字机「并不失败」。作为一款 1940 年代的产品,它确实失败了。但作为一种人机交互范式,它胜利了。 林语堂第一次把中文「打字」变成了「检索加选择」。三排按键组合定位字根,从候选字里挑选。这正是所有现代中文输入法的底层逻辑。从仓颉、五笔到搜狗拼音,都可以说是明快打字机的后裔。 《中文打字机》,作者:墨磊宁|图片来源:豆瓣 这台跨越了近八十年的打字机,和今天我们反复讨论的分词器,暗藏着某种的历史规律。中文始终面对着一个问题: 如何接入一套罗马字母形成的基础设施。 有趣的是,在这个寻找的过程中,充满了非人为规划的巧合。Unicode 联盟为了人类检索方便制定的排序,跟 BPE 算法的无心拆解叠在一起,竟然在神经网络的黑盒里,重现了人类识字的过程。而当工程师们为了消除「中文税」,主动把汉字拼好、把成本打下来时,那条意外诞生的语义通道也闭合了。 历史并不是一条直线进化的轨道,而是在各种约束条件的挤压下,不断发生变形的流体。 有些能力是设计出来的,有些只是碰巧没有被删掉。
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI没把它当“生图”模型训练
作者|樊雅婷 邮箱|fanyating@pingwest.com GPT Image 2 凭什么这么强? 是扩散模型又迭代了一版?是把 DiT 的参数量从 7B 扩到 20B?是训了更多高质量数据? 这些答案都对,但都不够。 以下是我们与多位从业者交流后,提炼出的几个值得关注的技术方向,并尝试做出更清晰的解释。 先给结论:OpenAI 很可能已经不在“纯扩散模型”这条主赛道上了。他们已经把图像生成从“美术课”调到了“语文课”——用一个能读懂指令、能记住上下文、能理解物体关系的 LLM 主导语义规划,至于最后一步的像素生成,可能由扩散组件或其他解码器完成。 而这个LLM,极大可能是GPT-4o。 支撑这个推论的,首先是两条直接线索。 1. 模型自述 2. C2PA溯源验证 C2PA 是一种内容溯源标准,相当于给每张 AI 生成的图打上一个数字身份证。任何人拿到这张图,都能查到它是由 GPT Image 2 生成的、生成时间是什么、经过了哪些修改。 有专业人士在metadata2go.com上对image 2生成的图片进行元数据提取。发现在actions_software_agent_name一栏上记录着GPT-4o。 这也能理解为什么这次image 2的表现惊人了。 图片源于: 【深入调查:OAI最新图像模型底层是GPT-4o - 祈星函 | 小红书 - 你的生活兴趣社区】 https://www.xiaohongshu.com/discovery/item/69ea80200000000020003800?source=webshare&xhsshare=pc_web&xsec_token=CB9e0Yo8HLTCLA1XJWh0wUnT3SogJv370RfNnvUD6YFVY=&xsec_source=pc_share 单凭这两条当然不足以拆解全部秘密。但当我们带着“LLM 主导”的假定回头审视它的每一项能力跃迁时,这些变化,忽然有了统一的解释。 一、图像语义,从像素到token 1.1 过去两年,AI 生图领域有一条不成文的鄙视链:Midjourney 负责美学,Stable Diffusion 负责可控性,DALL·E 负责……嗯,负责被 OpenAI 发布。但不管你站哪一队,有一件事是所有人的共识——文字是 AI 的鬼门关。 你能让 AI 画出逆光下缅因猫毛发的半透明质感,却无法让它写对招牌上的“Coffee”六个字母。一个能理解顶级光影描述的模型,在文字上给出的结果仿佛楔形文字。这件事的荒诞与根源,就藏在扩散模型的工作原理里。 先说扩散模型为什么写不好字? 因为它的核心是一个从噪声中还原图像的“雕塑家”: 训练时,向清晰照片逐步撒噪声,直到变成纯电视雪花,模型学习逆向去噪。 生成时,从一片随机噪声开始,每步都靠 U-Net 预测并擦除噪声,几十步迭代后“雕”出毛发、虹膜和光影。 这个过程本质上在还原连续的、可以用概率无限逼近的纹理。毛发可以稍微硬一点或软一点,颜色可以偏暖 5%,无伤大雅。 但文字是离散符号,不存在“像不像”,只有“是不是”。字母 A 就是 A,你不能给它加 15% 的 B 和 8% 的 C 还指望它依然是 A。扩散模型的每一步去噪都是一个微小“估计”,用在纹理上是风格,用在文字上就是 O 变 0,或是拼出 WElcOm e。 最终就成了外行眼中的“楔形文字”。 不仅如此,扩散模型天然缺乏跨轮编辑的稳定一致性。你让它改一个局部,它本质上是整张图重新画一遍,没改动的地方也会悄悄漂移。 但GPT Image 2现在不仅能“写对字”,还能保持“有记忆”的一致性例如:你修改一个字之后,周围的文字会自动调整间距;当你把“咖啡”改成“红茶”,它不只是替换那个词,而是连带把杯子的颜色从深棕调成了琥珀色。 这说明文字在它的系统里不是图层标注,而是画面语义的一部分。文字内容的改动会像语言中的主语替换一样,连锁驱动画面其他元素的合理变化。 GPT Image 2 与其他模型对比图 1.2 它不再把图像当图像看,而是把图像当语言看。 这听起来像玄学,但其实是个很具体的工程选择。要理解这件事,得先搞明白一个概念:Tokenizer。 Tokenizer 的作用是把一种东西“翻译”成另一种东西。GPT 处理文字前,会先把“你好”这个词切碎编号,变成一个数字 ID,比如 [11892]。这是文本 token 化。 图像能不能也这么干?当然能。你把一张图切成 16×16 的网格,每个格子编个号,也是一种 token 化。但这种做法太笨重——一张 1024×1024 的图会变成几千个 token,LLM 还没开始画就先被淹死了。 所以过去两年,各家大模型公司在拼一件事:怎么把一张图压成尽量少的 token,同时还不丢关键信息。 这事有多难呢?想象你是一个情报员,要把《蒙娜丽莎》用一封电报发出去。电报局规定你最多只能发 256 个字。你怎么办?你不能说“一个女人在笑”,因为对方画不出来;你也不能逐个像素描述,因为字数不够。你必须发明一套只有你和对方懂的密语——“52号微笑、3号背景、17号手势”——对方收到后能八九不离十地还原出来。 这就是 OpenAI 在 tokenizer 上干的 事。从 CLIP 到 DALL·E 再到 GPT-4o,他们逐渐构建了一种能够在视觉与语言之间进行映射的语义表示体系。 这意味着:图像和文本被投影到了同一个对齐后的语义 embedding 空间。 现在在 LLM 眼里,“一只逆光的缅因猫”这行字,和一张逆光缅因猫的照片,是同一个语义空间里的两套坐标。它能像理解文字一样理解图像,也能像生成文字一样生成图像。 所以当你说“把第三行公司名改成团伙名”,它不是在修图软件里找那个图层,而是在改写一段描述这个画面的密文。改完后,解码器再把密文翻译回像素。 这就是为什么文字突然能写对了。因为对 LLM 来说,写一个W和写一个我,没有任何本质区别——都是它在密语系统里调整几个 token 的事。 1.3 既然 GPT Image 2 很可能把图像变成了语义密文,那这串密文怎么变回一张能看的图? 如果直接把 token 映射成像素,画质必然一塌糊涂,这是自回归模型的通病:它极度擅长决定画什么,却不太擅长画得好看——就像建筑系教授徒手画效果图,空间关系全对,笔触就是不及美院学生。 而扩散模型正好相反,纹理光影以假乱真,却经常不知道自己在画啥。因此,一个高度自洽的推测浮现:让两款模型打配合。 自回归负责定调:根据你的 prompt 生成那几百个语义 token,敲定画面里有什么、它们的位置关系、整体构图逻辑。这一步决定了“听得懂”,也保证了多轮编辑时对修改对象的记忆与一致性。 扩散负责润色:拿到这串语义 token 后,不再负责理解内容,只负责填充高保真像素,把既定框架变成光影自然的成图。这一步决定了“画得好”。 这不是理论空想。Google 发过一篇叫 Transfusion 的论文,Meta 搞过 Chameleon,走的都是类似路线。 当然,这一切都是基于公开信息和模型表现的推断。 OpenAI 有没有在用?2026 年 4 月的媒体会上,OpenAI 拒绝回答任何关于模型架构的问题。拒绝本身就是一个信号。 如果这个假设成立,那就解释了一切——文字写对是因为自回归天然懂离散符号;多轮编辑一致是因为自回归记住了那一串 token;画质没崩是因为扩散在最后一关做了精细渲染。 二、数据飞轮,GPT-4o 自己教自己生图 2.1 但上文那个能把图像压成几百个 token 的“密语系统”,到底是怎么训出来的?为什么不是别的模型,偏偏是GPT-4o? 答案藏在一件看起来最没有技术含量的事里:数据标注。 在 AI 圈,数据标注长期处于鄙视链底端。研究员聊架构可以聊一晚上,聊数据标注三句话就冷场。但 GPT Image 2 这次的表现,甚至表明OpenAI 可能已经不需要人工标注了。 而GPT-4o 本身就是全世界最强的图像理解模型之一。你给它一张图,它能写出一段比真人标注师还细腻的描述。所以OpenAI 可以把过去几年积累的几十亿张图片,重新“过一遍水”——用 GPT-4o 生成新的、高维度的标注。 但到这里,只解决了“描述”的问题,没解决“筛选”的问题。一个模型生成一百张图,并不是每一张都值得拿来当下一轮训练的教材。这里需要一套严格的“质检”机制——在机器学习里,这叫拒绝采样。 具体来说就是,GPT-4o 先根据一段 prompt 生成一批图像,然后根据美学偏好、指令匹配度、物理合理性等多条标准,逐张打分。批到符合条件的才“收下”,连同它为自己撰写的详细解析,一起塞进下一轮训练集。批到不及格的就直接扔掉。这保证飞轮里的数据不是在低水平循环,而是在有选择地自我提纯。 上一代模型给下一代模型当老师,下一代模型再给下下代当老师。每转一圈,对世界的理解就深一层。 大家的差距也在这个过程中越来越大。这也解释了为什么Midjourney在画质上能和OpenAI掰手腕,但在指令遵循和文字渲染上被拉开代差。 当然,听上去像个永动机骗局——自己教自己,那不得越教越傻?学术界确实有这个担忧,管它叫模型崩溃:模型反复吃自己吐出来的东西,会逐渐丢失分布的尾部信息,生成结果越来越单一、越来越平庸。 但OpenAI在文本侧已经证明:只要老师模型足够强,并且配合拒绝采样这样的严格筛选机制,这事不但不会崩,还能加速,形成数据飞轮。 2.2 这个飞轮里还有一个重要且难搞的角色——RLHF 在图像侧的质检员。 我们在文本侧已经习惯了 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习):给一段文字打分,判断它有用、有趣、符合人类偏好,这件事 GPT-4o 做得很好。 但在图像侧,难度骤升。因为质检员需要同时盯住三条线:美学偏好;指令遵循;安全过滤。 三条线的标准各不相同,甚至互相冲突。一道强光影可能很“好看”,但压暗了 prompt 里要求的某个细节,就会被“指令遵循”扣分。一层安全滤镜可能误伤正常的医学解剖图,又得回头调阈值。这种多维度权衡,在文本侧已经跑通,但在图像侧变得前所未有的复杂。 而 OpenAI 之所以能做成,很可能是因为他们把图像侧的问题全部拉回了自己最擅长的战场:语言理解。 美学偏好被转译成一段构图评语,指令遵循被转译成一组约束条件的核对清单,安全过滤被转译成一套规则判例。所有判断最终都落到了 LLM 的语义空间里。 可能这才是数据飞轮真正的底牌。不是数据多,而是从标注、筛选到打分,全链路都被统一到了一个理解框架里。拒绝采样负责海选淘汰,RLHF 负责精修调优,两者共享一套语义标准,飞轮才转得起来。 三、工程解法,兼顾推理速度和对话整合 3.1 到这里,我们聊的都是效果。接下来聊一个经常被刻意绕开的话题:推理速度。 先不说审美和一致性上的飞跃,且说一个看似矛盾的现象:生图质量跃升了一个代际,但速度并没有明显变慢。这本身就是一种工程奇迹——OpenAI 是怎么做到的? 自回归模型的运作方式是逐 token 生成——每个 token 都依赖上一个 token 的完成。扩散模型则不同,它可以在整张画布上并行去噪,一次处理所有像素。按理论推算,如果 GPT Image 2 确实用了自回归架构,它的推理延迟应该比纯扩散模型高出一个数量级。 但实际体验是:没有。 第一条线索:Token 压缩率可能远超预期。 如果一张 1024×1024 的图只需要 256 个 token 就能完整描述,对 Transformer 来说就是一次呼吸的事。这意味着 OpenAI 不仅做到了语义对齐,更在压缩率上做到了极致,把高信息密度浓缩到几行字的程度。 第二条线索:推理架构的深度优化。 混合架构中,自回归生成的是粗粒度的语义 token,决定“画什么”,不负责“画成什么样”。生成步骤大幅缩短,扩散模型只用在最后一小段“按图施工”,而不是从头噪到尾。 第三条线索:投机解码(Speculative Decoding)可能被用到了图像侧。 用一个更小的“草稿模型”快速生成候选 token,再由大模型一次性验证,这套 LLM 推理加速经典技巧如果用在图像 token 上,速度可以成倍提升。OpenAI 在 GPT-4 时代已把这套玩熟,移植到图像侧没有原理障碍。 所以结论是:GPT Image 2 的快,不是因为扩散模型变快了,而是因为可能它把最慢的语义规划,从扩散模型手里抢了过来,交给了擅长快速推理的 LLM。 3.2 比速度更影响体验的,是与对话系统的整合。 在传统图像生成工具中,例如 Midjourney 或基于 Stable Diffusion 的工作流,用户通常通过编写 prompt 来控制输出结果。虽然这些工具已经支持诸如variations、inpainting和历史记录等功能,但整体流程仍然以“单次输入 → 单次输出”为主,用户需要通过多次尝试逐步逼近目标效果。 这种过程在实践中往往表现为反复试错: 用户根据结果调整 prompt,但模型对指令的理解程度并不完全透明,因此需要多轮迭代来校正偏差。 相比之下,集成在对话系统中的图像生成引入了连续上下文机制,改变了交互方式。 用户可以在多轮对话中逐步细化需求 模型能够利用对话历史理解“当前修改”对应的对象或属性 修改请求可以以更自然语言的形式表达,而不需要一次性写出完整 prompt 例如,在多轮交互中,用户可以先生成一个基础场景,再逐步提出局部修改(如颜色、位置、风格)。最后,模型基于上下文生成新的结果。 对话式交互还带来另一个优势:需求澄清能力clarification。将模糊的自然语言意图,逐步转化为更具体的生成条件,从而提高生成结果与用户预期之间的一致性。 结语 在 GPT Image 2 出现之前,AI 生图领域的讨论框架是这样的: “扩散模型的缩放定律还能走多远?” “DiT 架构和 UNet 架构谁更优?” “Flow Matching 会不会取代 DDPM?” “多模态对齐的损失函数怎么设计?” 这些问题都有价值,但它们共享一个隐含前提:图像生成是一个独立的、需要专门架构来解决的问题。 而GPT Image 2 给出的的回答是:不一定。 如果我们把镜头再拉远一点,GPT Image 2 的出现其实指向了一个更大的命题:世界模型。 让我们重新思考什么是生成,以及世界。
几千年都没考过这个?谷歌“最毒”AI考局,专测你在压力下怎么做人
编辑:元宇 大卫 谷歌最新实验Vantage,派AI假扮你的同事,按剧本跟你唱反调、搞情绪化施压。考的不是你知道什么,而是你在压力下怎么做人。 考试考了几千年,还从来没人考过这个。 SAT考你数学,GRE考你词汇,再往前看:科举考试考你的八股文…… 古今考试形式不同,但底层逻辑却很一致:考你知道什么。 但有一类能力,从来没有考试碰过:你跟人吵架时怎么办。 最近,Google Research推出了一个叫Vantage的实验项目,就把这件事给干了。 自动播放 Google Labs实验中的Vantage入口https://research.google.com/p/vantage 目前Vantage已经在Google Labs开放申请体验,现阶段主要支持英文。 Vantage项目由谷歌联合纽约大学开发,主要设想是利用GenAI模拟团队协作场景,以此来开发和测量被测试者的软技能。 它会把你扔进一个AI角色扮演的协作场景里,然后让你和一群AI角色组队完成任务。 其中会有一个agent跳出来,专门按剧本跟你唱反调,抛不合理要求,搞情绪化反应。 你在压力下做出的每一个回应,都会被另一个Agent基于评分量表进行分析,生成评分与反馈。 整个过程中,你所面对的是一个被AI精心操控的「职场修罗场」:它考的不是你背了多少东西,而是你在压力下怎么做人。 谷歌联合纽约大学做了188人验证,结果显示: AI评分与人类专家的一致性,跟专家与专家之间的一致性,处于同一水平。 这意味着,至少在「评判」这件事上,AI已经开始接近人类专家。 看来,考试这件事,以后可能要被重新定义了。 最值钱的能力,偏偏最难考 为什么软技能一直考不了? 这个事企业HR太清楚了:招人最怕的不是技术不行,而是进了团队才发现这人完全不会协作。 世界经济论坛2025年《Future of Jobs 2025》报告给了一组数据:到2030年,全球39%的核心职场技能将发生变化。 未来五年内,预计工人核心技能将发生改变与保持不变的占比演变https://www.weforum.org/publications/the-future-of-jobs-report-2025/ 在企业最看重的能力排名中,分析思维排第一,紧随其后的是韧性、灵活性、领导力与社会影响力,排在最前面的几乎全是「软技能」。 雇员最核心的技能中,排名靠前的包括分析思维、韧性、灵活性与敏捷性,以及领导力与社会影响力等。 AI时代,这些软技能仍然是最核心的技能。 问题是,怎么测? 传统标准化测试太僵硬了,题目难易捕捉人类思维过程和人际互动,跟真实场景隔着十万八千里。 基本上只能依靠两条。 第一条,自我汇报问卷。问你「你善于沟通吗」,人人都勾「是的」。 第二条,真人评估中心。请几个专业考官,设计情境,观察你一整天,最后给个评语。 靠谱是靠谱,但做一次往往价格不菲、耗时几天,评分还因为考官不同而漂移。 核心矛盾只有一条:软技能必须在互动中才能被观测,但标准化互动的成本太高,限制了它的实现和推广。 你不可能给每个学生配一个真人考官,让他们吵一架再打分。 所以几十年来,这一直是教育评估领域的一个老大难问题。 市场上也不是没人尝试。 HireVue用视频面试做AI情绪分析,Pymetrics用神经科学小游戏做性格测评,但它们都有一个共同局限: 候选人面对的,更多仍是被设计好的数字流程,而不是一个会跟你争论、会给你挖坑、会把互动不断推进下去的真实对手。 直到谷歌推出 Vantage,事情才开始变得不一样:它试图用多方AI角色协作生成情境,而且还把软技能测试的成本压到接近可规模化的水平。 Vantage的多智能体架构 Vantage不是一个AI在干活,而是一群AI在演戏,该系统的精巧之处在于架构设计。 它不是一个AI出题、你来答题的传统路子,而是搭了一个四层架构,每层都有AI各司其职,同时运转。 第一层,场景生成。 你输入一个软技能维度,比如「冲突解决」。系统不是随机编个故事,它先拿到评估量表,看清楚「什么表现算好、什么算差」,然后倒推出一个能区分好坏的具体情境。 第二层,角色扮演。 这是整个系统最有意思的部分:多个AI agent各领一个角色进入场景,跟真人被测者对话。 关键的地方来了:其中一个agent(Executive LLM)的任务就是「制造麻烦」。 谷歌研究人员提到,它的角色就是按剧本给你施压、抛出不合理要求、搞情绪化反应。 这不是随便聊聊天,而是有组织、有「预谋」的压力测试。 当然,这个agent也不是傻压,而是实时分析对话状态,动态调整施压策略。它就像一个自适应的考试引擎,确保考完之后该采集的证据都采集到了。 第三层,行为提取。 对话结束后,另一个agent上场,逐轮回看对话记录。 它不打分,只做一件事:把你的具体行为抽出来。 哪句话是在回避冲突,哪句是在主动倾听,哪句是在强行说服。 事实归事实,判断归判断,这两步被刻意分开了。 第四层,评分。 评分agent拿着量表和上一步提取出的行为证据,逐条对照打分。 每个分数必须指向具体对话片段作为依据,不允许凭印象给分。 这样四层解耦的好处很明显:场景可以换,角色可以换,评分标准可以换,但流水线本身不变,而且,模块化意味着可扩展。 今天测冲突解决,明天换个量表就能测项目管理,后天再换就能测谈判能力。 熟悉软件工程的人大概一眼就认出来了,这就是把微服务架构的思路,搬到了教育评估里。 188人实测 AI考官到底靠不靠谱 架构再漂亮,不实测都是空谈。 谷歌和NYU做了一次联合验证。他们找了188名美国测试者,年龄18-25岁,在Vantage中完成了冲突解决和项目管理两个维度的评估。 然后,NYU的人类评分专家用同一份rubric对同样的对话记录打分。 结果很有意思。 人类专家之间的一致性,Kappa值为0.45到0.64,也就是中等一致性。 专家彼此之间,以及大模型和专家之间,在对话评估上的一致性对比。 蓝色是专家与专家,红色是大模型与专家的一致性评估结果。柱子越高,代表看法越接近。 两个人类专家给同一段对话打分,经常打出不同的分数。 这不意外。 软技能评估本来就是主观判断密集的领域。 比如,一个人觉得候选人在冲突中表现出了「坚定但尊重」,另一个人可能觉得那叫「固执」。 而AI评分期跟人类专家之间的一致性呢?跟两个人类专家之间差不多,这意味着它的评分质量已经到了同一水平线上。 这听起来似乎没什么大不了,但在软技能评估这个领域里,这已经是一个了不起的基线。 更重要的是:人类专家一次只能评几个人,AI可以同时评几万人。 成本直接差了两个数量级。 这不只是考试 很多人第一反应是:这不就是个花哨的AI面试官吗。 过去几年,AI面试工具层出不穷,大多数最后沦为噱头。 但Vantage更像是一个基础设施层,目前谷歌已公开 Vantage 的技术报告与实验介绍,外界已经能比较清楚地看到它如何用评分量表驱动情境生成、角色互动与结果评估。 从方法上看,这套框架具备一定的可迁移性:在理论上,研究者或机构可以围绕不同软技能设计相应任务与量表,并据此搭建类似的评估流程。 比如,企业可以探索把它用于领导力或协作场景的训练与评估,教育机构也可以把它用于协作能力练习和反馈。 这让人想起教育评估领域长期讨论的「形成性评估」:不是期末一次定结果,而是在学习过程中持续测量、持续反馈、持续调整。 过去这件事之所以难以规模化,一个重要原因是高质量互动评估往往依赖真人考官,成本高、耗时长、标准化困难。 而像Vantage这类基于生成式AI的模拟评估系统,则让这件事第一次呈现出更强的可扩展性。 当「最难考的能力」变得可考 当然,必须说清楚Vantage目前的边界。 Google Labs博客中将其定义为研究实验,它目前更接近一个公开可体验的研究实验,而不是已经大规模落地的成熟应用。 188人的验证规模不算大,只明确覆盖了协作中的冲突解决和项目管理两个维度,跨文化场景没碰,长期技能成长追踪没做,模拟环境里的表现能不能迁移到真实的人际互动,也还是个问号。 谷歌自己也承认,下一步要研究的正是这些。但这不妨碍Vantage这项实验的潜力。 OECD早就把创造力、批判性思维列进了教育系统的核心讨论。所有人都知道软技能重要,但没人真正解决过怎么测、怎么大规模地测。 Vantage给出了一个可能的答案。 Google Research博客里提到了这样一句话:「在全球教育体系中,被测量的东西往往就是被教授的东西。」 这句话才是真正的炸弹。 如果软技能可以被量化评估,那学校教什么就会变。 现在学校考什么?知识、公式、标准答案。因为只有这些东西能标准化测量。 但如果有一天,协作力、冲突解决能力、创造力都能被精准打分了,课程设计的底层逻辑就会被改写。 企业招聘也一样。 今天的招聘流程看学历、看简历、看面试官的直觉。 如果AI可以在沉浸式模拟中直接观察一个人处理冲突的能力,并给出可量化的分数,面试这件事本身就会被重新定义。 个人成长也一样。 你的沟通能力、你的领导力,第一次有了可视化的进步曲线。 不再是「我觉得自己变强了」,而是「系统显示你的冲突解决得分从上个月的63提升到了71」。 这就是Vantage这个小实验背后的大故事:当「最难考的能力」变得可考,教育评估的边界就会被重新划定。 未来的考试 可能是让你跟AI吵一架 当AI能制造冲突、观察行为、提取证据、逐条打分,「考试」这个词的含义就永远变了。 它不再是你对着一张试卷独自奋斗,可能是你走进一个房间,面对一群不好对付的人,然后做你自己。 下一个被AI考的软技能会是什么? 也许是谈判,也许是共情,也许是你最不想被打分的那个东西。 当AI不仅能替代你的硬技能,还能给你的软技能精准打分的时候,你还觉得「情商」「协作力」是不需要认真对待的东西吗?
DeepSeek V4最大的遗憾
henry 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeekV4的技术报告里有mHC,有CSA,有HCA,有Muon,有FP4…… 唯独没有Engram。 Engram去哪了? 这个话题一度成为网友们讨论的热点。 Engram在今年1月由DeepSeek和北大联合开源,主要研究大模型的记忆与效率问题。 自挂上arXiv的那一刻起,圈子里围绕它的探讨就没有停止过… 不仅仅因为它是V4的前奏,而是有了Engram,「伦敦是英国首都」这种事实,模型不用动用整个深层网络去重新推一遍,直接查就行。 不仅省显存,还能释放深层网络容量,用于更高阶的推理。 正因如此,自1月初论文发表以来,所有人都觉得,Engram就是V4的架构地基,所有人都在盼。 以至于V4发表后,大家第一时间就是command+f去论文里找Engram,可惜并没有。 以至于不少网友甚至觉得,没有Engram,V4就是不完整的。 没有Engram,可能是DeepSeekV4最大的遗憾。 不过,Engram并没有消失。随后三篇值得注意的论文接力出现: CXL内存池化版本:把Engram放进多机共享的CXL内存池,解决大模型多机部署的存储问题。 无冲突热层实验:对Engram的多头哈希优化进行了实证检验,证伪了一些直觉式改进方案。 视觉Tiny Engram:AutoArk团队把文本Engram搬到视觉模态,扩展了它的应用边界。 所以,虽然V4没有Engram,但它的理念、探索和后续应用已经悄然铺开,为下一代模型打下基础。 Engram到底是什么 把时间倒回2026年1月12日。 那一天,DeepSeek联合北大放出了一篇33页的论文《ConditionalMemoryviaScalableLookup》。第一作者ChengXin,北大博士生,曾经署名过V3。最后一位作者,梁文锋。 先来一句话速通版,Engram是给Transformer加的一个原生知识查表模块。能查的别算,先查一下。 团队的核心观察是,语言建模其实包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种是检索静态知识。 之前的问题在于,Transformer把这两件事混在一起做。模型识别一个实体时,得消耗好几层注意力和前馈网络逐层拼凑特征。 论文里举了个例子,「Diana,Princess of Wales」。模型要走6层才能把这个识别完。 前几层还在纠结「Wales是英国的一个地区」、「Princess of Wales是某种头衔」这些中间状态,最后一层才反应过来这是戴安娜王妃。 这种「用昂贵的运行时计算重建一个静态查找表」的活,本来可以让深层网络去干更高阶的推理。 对此,Engram的思路相当直接,既然经典的N-gram模型就能用O(1)的时间复杂度捕获这些局部依赖,那干脆把这能力直接嵌进Transformer。 打个比方,就像你做数学题,该用的公式不必每次从头推一遍,翻表代进去就行。Transformer之前没这张表,只能每道题都从公理走起。Engram等于把这张表交到模型手里。 具体做法是,在Transformer的第2层和第15层之间各插入一个Engram模块。 每个位置的输入会触发一次哈希查找,把当前token和前面几个token组成的N-gram映射到一个巨大的嵌入表里,直接取出对应的向量。 门控机制保证查到的内容跟当前上下文不匹配时自动屏蔽。比如「张」是个常见姓氏,但「张仲景」三个字凑一起就是固定历史人物实体了,门控就负责认出这种区别。 Engram的定位是MoE之外的另一条稀疏轴。MoE是把计算稀疏化,只激活一部分专家。Engram是把存储稀疏化,只查一部分条目。两者互补,不冲突。 论文最核心的一段实验,是固定总参数和每token激活参数,然后让MoE专家和Engram记忆抢预算,得到一条U形曲线。 纯MoE不是最优解。把大约20%-25%的稀疏参数分给Engram,模型loss达到最低点。 按这个曲线指导,团队把Engram扩到27B验证。激活参数3.8B,训练262B tokens,严格跟MoE-27B基线对齐。 结果知识密集型任务的提升符合预期(MMLU +3.4,CMMLU +4.0),但通用推理和代码数学的提升超出预期(BBH +5.0,ARC-Challenge +3.7,HumanEval +3.0,MATH +2.4),长上下文场景更夸张,Multi-Query NIAH从84.2%跃升到97.0%。 那么,为什么记忆模块还能反过来提升推理? LogitLens和CKA给出了答案,Engram-27B第5层的表征,跟MoE基线第12层的表征最相似。 Engram把模型的早期层从「重建静态知识」这种苦力活里解放出来,这部分网络深度被腾出来做更复杂的推理。Engram不是新增了一块记忆,它还变相把网络加深了。 工程上。论文把一个1000亿参数的Engram表整个甩到host DRAM,在H800上跑推理,8B-Dense的吞吐损失只有2.8%。 靠的是Engram索引的确定性,只取决于输入token序列,完全可以提前算,CPU异步预取跟GPU计算重叠。 可以说,这个模块天生就不靠HBM,只可惜如今V4来了,Engram没来。 没在v4,但在其他地方 发明者把它放在那里没动,但路上还是有人。三个月里,至少出现了三个值得说一下的工作。 把Engram塞进CXL内存池 3月10日,北大、阿里云、山东英信、人大、港大联合发了一篇系统论文,《Pooling Engram Conditional Memory in Large Language Models using CXL》。 他们没改Engram本身,而是回答了一个更工程的问题,如果Engram真的成了下一代标配,内存放哪。 答案是CXL内存池化。GPU HBM放计算权重,本地DRAM做二级缓存,CXL池做三级。8台服务器共享4TB内存池,XConn XC50256交换芯片做拓扑,512GB/s带宽。 整套集成进SGLang,做了预取-计算重叠,跑下来端到端吞吐损失小于5%。Engram论文里那句「1000亿嵌入表卸载DRAM」的轻描淡写,被他们做成了27B和40B两个规模的真实测试。 结论很清楚,Engram这种确定性寻址、可预取的负载,几乎是为CXL量身定做的。 一个反直觉的实验 Engram论文上线第十一天,1月23日,一个叫TaoLin的研究者,单作者,放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。 他想验证一个看上去显然的优化,Engram用多头哈希查表会有冲突,如果把高频N-gram用Minimal Perfect Hash Function完全消除冲突,模型会不会更好。 他设计了Engram-Nine,把记忆分成无冲突的「热层」和保留多头哈希的「冷层」。 结果反直觉。在严格iso-parameter控制下,无冲突设计没有稳定提升验证loss。 route-stratified评估还发现,训练初期热路径(高频)loss更低,但训练后期冷路径反过来超过热路径。 一个看上去显然的优化方向,被一个真做实验的人证伪了。 把Engram推到视觉(AutoArk/TinyEngram) GitHub上一个叫AutoArk的团队搞了Tiny Engram。 基于Qwen-3完整复现文本Engram之后,他们做了一件论文里没做的事,把Engram搬到Stable Diffusion上。 视觉patch经过分层编码,底层抓纹理,中层抓部件,高层抓风格,然后整套丢进哈希查表。 跟LoRA比下来,达到同等效果,Engram需要的额外参数只有LoRA的15%到30%。连续注入多个新概念时,LoRA会出现明显的概念退化,Engram不会。 Engram原本是为文本设计的。AutoArk等于把这扇门撞开了,凡是能离散化、能哈希的模态,Engram都能搬。 三个月里,Engram这条路上,发明者最沉默,跟进者各自走了一步。 一个团队替它解决多机内存层级,一个独立研究者证伪了它一个看似显然的优化方向,一个开源团队把它推到了视觉。 而deepseek-ai/Engram这个仓库,最后一次提交还停在1月14日。 One more thing Engram论文的摘要结尾有一句话: 我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语。 看来,这个下一代得是V5了,难不成会是V4.1?
库存克星再出手:苹果砍掉入门 Mac mini,早买到的又赚到了
昨天苹果官网悄悄下架了 256GB 入门款版本的 Mac mini。 现在,Mac mini 的起始配置为 16GB+ 512GB,相应的起售价格也来到 5999 元。 倒也别急着吐槽库克精准的「刀法」:在这个过于魔幻的 2026 年,连一向把全球供应链管得服服帖帖的苹果,这回也是真顶不住了。 在本周的财报会上,库克罕见地承认 Mac 系列也未能在严重的「供应受限」中幸免。他提到:Mac mini 和 Mac Studio 成了极其出色的「 AI 和智能体工具平台」,导致需求远超预期。 这台悄然下架入门款的 Mac mini,不过是第一张倒下的多米诺骨牌。在它身后,有一场正在席卷全行业、直接影响全球普通人的硬件危机。 科技圈给这场灾难起了一个极具好莱坞末日片气质的名字:「RAMageddon(内存末日)」。 卖爆的 Mac mini,AI 时代的硬通货 本周苹果披露了 2026 二季度季度财报,总营收达到 1112 亿美元,同比增长 17% ,其中 Mac 业务更是逆势大涨 6% ,达到 84 亿美元。同时,苹果的研发支出创下了 114 亿美元的历史新高。 Mac 系列,尤其是 Mac mini 之所以在这场席卷全球的内存短缺中被抢断了货,答案其实藏在苹果独步天下的「统一内存架构」(UMA)当中。 在传统的 x86 架构电脑上,处理器的内存和独立显卡的显存是两块物理隔离的区域。如果要在本地跑几百亿参数的大规模 AI 模型,数据必须在这两者之间来回搬运,效率严重受限。而且,昂贵的高端独立显卡通常也只给 16GB 或 24GB 显存,装不下太大的模型。 但 M 系列芯片让 CPU 和 GPU 共享整块高速内存池。这意味着,开发者可以直接调用 Mac mini 里的 16GB 甚至更高容量的 RAM 来全速加载推理大模型,相当于直接把它当做一块超大显存来用。 说白了,一台 Mac mini,在本地跑 AI 工作流的吞吐能力上,能越级单挑一些传统架构 PC。对开发者和极客来说,这简直就是 AI 时代的底层算力节点。并且伴随着「龙虾」(OpenClaw) 热潮的兴起,从年初开始用户就把 Mac mini 抢成了硬通货。 但上游的存储大厂们不干了。由于全球 AI 数据中心疯狂扩建,三星和 SK 海力士为满足 AI 订单将资本支出向 DRAM 倾斜,间接导致 NAND 领域投资缩减。 据产业链消息,三星等供应商直接向苹果开出了高达 100% 的存储采购涨价通牒。 苹果一算账,原本入门款就是走量交朋友的,现在闪存成本翻倍,砍掉利润微薄的 256GB 版本,强制将起步配置拉高到 512GB,也是为了用更高的起售价来消化这波暴涨的组件成本。 苹果可以这么做,也是因为自从库克加入苹果以来,一直在压低库存量。 库存量从按月计算已经压低到了不到一周。根据此前最准确的信息,在 2010 年代,苹果的库存周转周期压到了惊人的 5 天左右。 这当然得益于苹果开发了叫好又叫座的产品,但更体现了这家公司令人难以置信的库存管理能力。库克曾经在媒体访谈中提到,库存是一种「根本上邪恶」(fundamentally evil) 的东西,将其形容为牛奶:产品要趁新鲜卖掉,过了保质期就会成为问题。 也正因此,库克被形象地称为「库存克星」。 在任何时间点上,苹果的主要热销产品,只需要不到一周的时间就可以卖完所有的库存。沽清之后,苹果就可以轻松地下架 Mac mini 此前的入门款配置,然后迅速地升配、提价。 这个周期越短、速度越快,苹果在内存危机中的风险暴露越小。 Mac mini 入门款的下架宣告了一个残酷的现实:AI 硬件和非 AI 硬件的成本曲线,正式脱钩了。 只要你的设备需要大内存来支撑端侧 AI,或者哪怕你完全不用 AI,只要你需要用到存储芯片,你都得为这波算力通胀买单。 那么问题来了,晶圆厂天天在连轴转,怎么突然全地球的电子产品都在缺存储? 究其原因, AI 训练和推理需要极其庞大的硬件资源池。给英伟达 AI 芯片配套的高带宽内存( HBM ),从物理制造层面来看,造一块消耗的晶圆产能是普通民用内存的整整三倍,而且由于 3D 堆叠工艺复杂,良品率也更低。同时,大模型每天还需要海量的企业级大容量 SSD 来构建数据湖。 在商言商,在巨大的利润差异面前,晶圆厂必然优先将最先进的产能分配给愿意支付高额溢价的 AI 企业级客户。当类似 OpenAI 「星门」这种千亿美元级别的基建计划带着天价订单入场,每月直接锁定全球大量的 DRAM 晶圆产出时,留给普通 PC、智能手机和游戏机的生产线,自然就被大幅度压缩了。 正如 Gartner 的分析师直言:「现在如果你不是采购 AI 服务器相关组件的客户,在供应商那里的优先级会非常低。」 美光科技甚至用最决绝的姿态向消费市场说了再见。去年底,他们宣布逐步关停经营了近 30 年的著名消费级品牌 Crucial(英睿达),将所有资源重定向到企业级 AI 业务。这无疑也是在释放一个明确的信号:普通消费者在存储产业链上的话语权,正在被极度边缘化。 其次,今年 2 月底中东地缘冲突爆发,给本就吃紧的存储供给侧又来了一记重拳。全球三分之一的氦气产量集中在中东,而氦气在光刻机冷却、晶圆蚀刻、企业级硬盘充氦密封等环节都是不可替代品。偏偏韩国半导体产业对中东氦气的依赖度极高,三星和 SK 海力士首当其冲。 蚀刻工序的另一关键原料溴元素,处境同样尴尬。全球三分之二的供应集中在以色列与约旦,而韩国芯片厂 90% 的溴依赖以色列进口,前线战火一升级,供给命脉抖三抖。 大模型的账单,正在平摊给每个普通人 无论你需不需要 AI,大模型的进化成本,最终都已经分摊到了你的头上。这笔高昂的「硬件税」,谁都逃不掉。 产能倾斜的最终结果,已经开始反噬到我们日常使用的消费电子产品上。 为了保住基础的利润率,一种名为「缩水式通胀」( Shrinkflation )的商业操作开始在手机行业里大行其道,意思是新机发布时售价不变甚至微涨,但你能拿到的比如摄像头、屏幕、马达、散热等硬件规格,为了全面压缩 BOM 成本 ,直接原地踏步乃至在偷偷降级。 受打击最重的是主打下沉市场的品牌。IDC 更是悲观预测,2026 年全球智能手机出货量将暴跌 12.9%。对于 100 美元以下的廉价机型,由于根本无法平衡高昂的成本,正面临消亡的窘境。 在游戏和 PC 市场,这场风暴的破坏力同样无处不在。根据外媒爆料,下一代主机 PlayStation 6 的发布时间,可能要一路延后到 2028 年甚至 2029 年。 自 1994 年初代 PS 诞生以来,索尼基本保持着 6 到 7 年换代的传统。但现在,因为 AI 数据中心抽走了太多高端半导体产能,索尼发现目前根本无法以合理的成本采购到足够的 GDDR7 显存芯片。如果真拖到 2029 年,不少玩家手里那台 PS5,真得熬成传家宝了。 任天堂也未能幸免。据彭博社报道,Switch 2 原本想死守底价,但过去半年里 RAM 和 NAND 闪存颗粒的价格双双暴涨,成本核算模型全面承压,定价上涨或许也在所难免。 Meta 同样扛不住,4 月宣布 Quest 3 与 Quest 3S 全线涨价 50 到 100 美元。官方给出的理由也很直接:「制造高性能 VR 硬件的成本已大幅攀升,波及几乎所有消费电子产品的罪魁祸首正是内存芯片。」 如果你说自己不打游戏,是个纯粹的职场人,那你的生产力工具同样会被波及。 时任惠普临时 CEO Bruce Broussard 透露,几个月前,内存还只占一台 PC 物料成本的 15% 到 18%。现在,这个数字直接飙升到了 35%。联想、戴尔、惠普等传统大厂全线面临提价压力。 更要命的是,微软为了推 Copilot+ AI PC 标准,强制要求电脑基础 RAM 必须 16GB 起步。在这波涨价潮中强制加量,等于直接推高了入门 PC 的购买门槛。 至于用来存资料的固态硬盘,涨幅更是让人直呼看不懂。2024 年一条 173 美元就能拿下的 2TB 西数高端固态,今天标价 649 美元,足足翻了近四倍。 智能手机和廉价 PC 普及的这二十年,是普通人生产力大爆发的二十年。 一个普通青年可以靠一台三四千元的笔记本剪视频、写代码、做设计、开网店; 一个刚毕业的大学生可以用手机完成拍摄、剪辑、发布、交易和收款; 一个小团队可以用最基础的办公电脑跑完文档、表格、协作、客服和轻量开发。 过去二十年里,硬件价格的持续下探,软件工具的持续简化,互联网服务的持续铺开,把很多原本只属于公司、机构和专业人士的能力,一点点交到了普通人手里。 这就是所谓数字平权最具体的样子。它不一定宏大,也不总是激动人心,但它真实发生在每一个能用低成本设备接入网络的人身上。普通人也因此拥有了更多关于表达、学习、交易和创作的入口。 AI 本该是终极平权工具。它可以替人补足写作、设计、编程、翻译、检索和决策能力,让没有名校背景、没有专业训练、没有大公司资源的人,也能站上更高的起点。 但伴随着运行这些顶级辅助工具的物理门槛,正变得越来越高不可攀,眼下的问题并不是 AI 发展快慢与否,而是整条产业链都在争先恐后地去「喂饱」庞大的大模型,最终,许多普通人也因为价格被无奈地挡在了新时代的门外。 AI 的一粒灰,落到普通人头上也是一座山。
华为WATCH Ultimate 2等两款智能手表HarmonyOS 6.1亮点公布
IT之家 5 月 3 日消息,华为官网最近“悄悄”更新了 HarmonyOS 6.1 支持机型。相关页面显示,目前,HUAWEI WATCH Ultimate 2 / ULTIMATE DESIGN 非凡大师紫金款等已更新至公测版 HarmonyOS 6.1 系统。 ▲ IT之家评测室:华为 WATCH Ultimate 2 非凡探索体验 IT之家注意到,华为官方发布了 HUAWEI WATCH Ultimate 2 / ULTIMATE DESIGN 非凡大师紫金款 HarmonyOS 6.1 版本升级一图览,介绍了这两款手表的更新亮点。具体如下: 表盘 1.新增“舞林萌主”表盘,宠物“憨憨”“跳跳”“嘿嘿”随身相伴,支持自由切换形象与自定义表盘功能。当点击表盘、听歌、亮屏或充电时,可爱的萌宠都发出特定趣味动作,让每一次互动充满乐趣。 2.新增“梵星绮梦”表盘,可自由更换装饰背景和功能组件,于方寸之间,邂逅专属于你的腕间浪漫与宁静。 实用功能 1.新增午睡小结功能,记录午后小憩等碎片化睡眠时刻,生成专属休息报告,让您对休息时间一目了然。 2.增强与手机协同体验: 1) 手机端支持显示手表低电或满电、手表未佩戴的提醒通知(华为运动健康 App 需更新至 16.0.12.305 及以上版本); 2) 配对 HarmonyOS 6 及以上系统手机,手表新增手机电量提醒开关,可根据需要自行开启(设置 > 通知 > 手机电量提醒)。 3.全能模式下,负一屏健康摘要卡片支持跑步距离、骑行距离、最大摄氧量等信息,趋势变化一目了然。 运动数据 1.新版本支持跑步功率监测功能,无论是冲刺突破还是长距离巡航,都能帮您精准把控节奏,科学分配体力,跑得更高效、更持久,跑步不再只是“凭感觉”。 2.新增更多专业数据,助您更全面掌握运动状态: 1) 训练负荷新增有氧、无氧区分; 2) 训练状态新增最佳负荷区间; 3) 训练状态中的成绩预测新增平均配速数据。 3.高尔夫全新升级,让您击球更加得心应手: 1) 球场模式支持多果岭视图、自定义果岭旗杆位置、果岭图旋转; 2) 球场模式中新增比赛模式(球场模式 > 设置); 3) 球场模式支持表圈多彩计分卡,球场锻炼记录新增三柏忌 +、信天翁数据统计; 4) 练习模式新增上杆幅度、击球平面数据,同时支持切换球杆及挥杆数据统计。 体验优化 1.优化夜间睡眠评分体验; 2.优化部分运动类型的自动分段与间隔提醒设置,为您提供一致性使用体验; 3.优化锻炼记录中的恢复时间、训练压力、训练负荷展示,更清晰直观; 4.优化系统稳定性,让您的设备运行更稳定。
马斯克的Grok 4.3悄悄上线,跑分评测出炉
编辑:艾伦 【新智元导读】Grok 4.3 是 xAI 一次务实升级:更便宜、更快、更像能干活的助手。但它在硬推理、稳定性和可信度上,仍落后 GPT-5.5 与 Claude Opus 4.7。 xAI 发布 Grok 4.3,没有把声量拉到最大,马斯克甚至没单独发推,看起来只是个过渡版本。 https://x.com/elonmusk/status/2045590599206875216 它更像一次安静的产品换挡:把模型放进 API,把价格打下来,把工具能力补上,再告诉开发者可以从旧版 Grok 迁移过来。 没有 AGI 宏大叙事,也少了马斯克式的「即将改变一切」。这反而让 Grok 4.3 看起来更真实。 对普通消费者来说,Grok 4.3 最重要的变化并非某个榜单分数涨了几分,而是 AI 助手正在变得更便宜、更快,也更像一个能替人完成文件、表格、演示文稿的合格助手。 然而,Grok 4.3 的聪明程度仍然没追上 GPT-5.5 和 Claude Opus 4.7。 它是一款性价比很强的新模型,也是一款仍有明显天花板的模型。 消费者真正需要关心的,是它在哪些场景能省钱省时间,在哪些场景会因为判断不准、想太久或说太多,反而增加成本。 它确实变强了 尤其像一个更会干活的助手 Artificial Analysis 给 Grok 4.3 的 Intelligence Index 打到 53 分,比 Grok 4.20 0309 v2 高 4 分,也超过 Claude Sonnet 4.6 和 Muse Spark。 这个提升不算小,尤其在 xAI 自家模型线里,Grok 4.3 已经是目前最强的一档。 更值得看的是代理任务表现。 Grok 4.3 在 GDPval-AA 上拿到 1500 Elo,相比 Grok 4.20 0309 v2 的 1179,提升了 321 分。 这个榜单更接近日常「让 AI 做事」的场景,比如整理资料、执行复杂步骤、处理真实工作流。这对普通用户有实际意义。 让 AI 帮忙写周报、搭表格、做方案、拆会议纪要、生成 PPT,Grok 4.3 的体验会比前代更完整。 Grok 可以创建演示文稿、文档和电子表格,可以在一个计算机环境里写代码、运行代码、安装依赖并产出文件。 对不懂代码的用户来说,这意味着很多原本需要在 Excel、PowerPoint、浏览器之间来回切换的操作,可能会被压缩成一句指令。 这也是 AI 消费级产品真正该竞争的地方——用户更在意它能不能把一个报销表做完,把一份旅行计划排清楚,把一封语气得体的邮件写好。 Grok 4.3 在这部分的进步,是真进步。 更便宜 是这次最直接的产品卖点 Grok 4.3 的价格很有侵略性。 它的 API 价格为每百万输入 Tokens 1.25 美元、每百万输出 Tokens 2.50 美元,相比 Grok 4.20 输入价格低约 40%,输出价格低约 60%。 Artificial Analysis 测算,运行整套 Intelligence Index 评测成本约为 395 美元,比 Grok 4.20 0309 v2 低约 20%。 这会影响消费者,只是方式没那么直观。 大多数普通人不会直接调用 API,但他们会用到基于 API 构建的产品。 AI 写作工具、客服机器人、语音助理、教育应用、办公插件,背后都要为模型调用付费。 当底层模型价格下降,应用厂商有空间降低订阅费,或者在同样价格下提供更多次数、更长上下文、更复杂任务。 Grok 4.3 还有一个优势是速度。 Artificial Analysis 的 xAI 模型页显示,它是 xAI 当前输出速度最快的模型之一,约 196 Tokens/s,属于很快的一档。 对语音聊天、实时客服、长文生成和批量内容处理来说,等待时间会直接影响体验。 但速度有一个细节容易被忽略:Grok 4.3 的首 Token 延迟并不低。 它会先「想一会儿」,然后快速输出。 长答案里,这种速度优势明显;短对话里,用户可能先感受到停顿,再感受到快。 用于客服、语音助手、移动端聊天时,这个差异会被放大。 它更会说人话 这是 Grok 的隐藏优势 Grok 一直有一个微妙优势:语气更像真人。 Hacker News 上有人提到,一些英语非母语用户认为 Grok 在把握文本语气、正式程度和微妙人际表达上,比其他模型更自然。 有人拿它和 ChatGPT、Claude 比,认为 Grok 在非正式朋友语气、同事沟通、语音输入识别上表现更贴近真实交流。 https://news.ycombinator.com/item?id=47972447 Grok 可能受益于 X 平台海量口语化表达训练。 它更容易捕捉社交网络里的语气、节奏、松弛感等;它也可能因此继承社交网络的噪音、偏见和表达习惯。 对 C 端用户来说,这种「更自然」的能力会让 Grok 在写消息、口语转写、语音助手、轻办公场景里很讨喜。 它未必最聪明,但可能更像一个愿意按你的语气说话的助手。 Yes, BUT... 它比不过 GPT-5.5 和 Claude Opus 4.7 Grok 4.3 最大的问题,是它看起来已经进入第一梯队边缘,却还没站到最前面。 Grok 4.3 的 Intelligence Index 为 53,GPT-5.5 为 60,Claude Opus 4.7 为 57。 这个差距不只是排行榜上的几分。 对普通消费者来说,它会体现在复杂推理、代码调试、长文核查、专业咨询和多步骤任务的稳定性上。 在 GDPval-AA 上,Grok 4.3 的提升很大,但仍落后 GPT-5.5 xhigh 276 Elo,按标准 Elo 公式,面对 GPT-5.5 的预期胜率约 17%。 它在幻觉控制上也有代价。 Grok 4.3 的 AA-Omniscience Accuracy(准确率)提升 8 分,但 Non-Hallucination Rate(非幻觉率)下降 8 分。 这里的准确率和非幻觉率是不同的,准确率只看你答对了多少,而非幻觉率是看你没答出来的问题里面,有多少是模型老实承认自己不会的——不会但振振有词,就是所谓的「幻觉」。 换言之,Grok 4.3 的知识覆盖率变高了,但也更容易出现幻觉了。 而消费者最怕的情况就是 AI 答得很流畅、很自信、很像那么回事,结果关键事实错了。 人类已经很擅长自信地犯错,机器不必急着加入这个传统项目。 这意味着,在医疗、法律、金融、学术和工程等高风险场景里,Grok 4.3 仍需要谨慎使用。 它适合帮用户起草、整理、生成初稿,适合做低风险的辅助工作;涉及最终判断,GPT-5.5 和 Claude Opus 4.7 仍更稳。 长上下文和工具能力很好 但消费者买账的是结果 Grok 4.3 提供 100 万 Token 上下文窗口,这对长文档、代码库、合同、报告和资料库很有吸引力。 用户可以丢进去更多材料,让模型在更完整的信息环境里工作。 对研究、办公和创作来说,这是一种实用能力。 它还支持文本和图像输入,输出文本,并围绕工具调用、网页搜索、X 搜索、代码执行、文件搜索、RAG 等能力加强。 xAI 还推出了 Custom Voices、语音代理、TTS 和 STT 等产品,把 Grok 的边界从文字扩展到语音。 对普通用户来说,未来的 Grok 可能不只是一个聊天框,而是一个能读文件、查网页、写表格、说话、听话的多模态助手。 问题在于,功能多不等于体验好。 消费级 AI 的竞争,最后会回到三个朴素标准:少等、少错、少折腾。 Grok 4.3 在「少等」和「少花钱」上明显前进,在「少错」上还没给出足够强的答案。 Grok 4.3 的准确定位: 性价比模型,不是最强模型 Grok 4.3 最适合的定位,是一款高性价比的工作型模型。 它适合高频内容生成、语气改写、长文本初筛、语音产品、客服场景、批量办公任务、轻量级代理工作流。 它也适合那些对成本敏感、对响应速度敏感、对最强推理没有执念的产品。 很多消费者并不需要每次都调用最强模型,就像不应该只是为了买菜开超跑,除非另有所图。 但如果任务要求深度推理、严谨事实核查、复杂代码、数学证明、长期项目记忆和专业判断,Grok 4.3 还不该成为第一选择。 GPT-5.5 和 Claude Opus 4.7 仍然更适合承担这些高价值、高风险任务。 这次 xAI 的策略很清楚:先把模型做得足够强,再把价格打下来,用速度和工具能力扩大可用场景。 它没有赢下「最聪明模型」的头衔,但可能会赢走一部分真实使用量。 因为市场并不总奖励最强者,也奖励够强、够快、够便宜的选择。 Grok 4.3 的意义正在这里。它把 xAI 从一个经常靠马斯克声量吸引注意的模型供应商,往更务实的 API 和消费级工具竞争者方向推进了一步。 它看起来很好,确实很好;只是还没好到能让 GPT-5.5 和 Claude Opus 4.7 紧张。 消费者可以期待它降价、提速、让更多 AI 应用变得便宜。 也该记住,在需要真正聪明和可靠的地方,Grok 4.3 仍然只是备选项。
iOS 27前瞻:卫星通信、独立Siri来了
IT之家 5 月 3 日消息,科技媒体 Macrumors 昨天发布博文,对苹果 iOS 27 系统的新功能进行前瞻。 苹果预计将在 WWDC 26 开发者大会介绍 iOS 27 系统,首个开发者测试版一般会在主题演讲结束后立即提供,公开测试版通常在 7 月推出。最终的正式版将在 9 月面向所有用户发布。 IT之家附 iOS 27 系统前瞻要点如下: 独立 Siri 应用: 据传,苹果计划推出独立 Siri 应用,并为 iOS 27、iPadOS 27、MacOS 27 引入“扩展(Extensions)”功能。 iPhone、iPad 和 Mac 可以通过独立 Siri 应用进行文字、语音互动,还可以访问 Siri 对话历史记录。总体而言,该独立应用的使用逻辑类似 ChatGPT、Gemini 和 Claude 等市面已有产品。 同时,iOS 27 预计将在灵动岛新增 Siri 界面。当用户调用 Siri 时,灵动岛将显示“搜索或提问”的提示,并带有高亮发光光标。 苹果还有可能在 iOS 27 补全 2024 年推迟上线的个性化 Siri 功能,可基于用户邮件、信息等数据提供更准确的问答结果。公司 CEO 蒂姆 · 库克在本周的财报电话会议中表示:“我们期待今年为用户带来更加个性化的 Siri”。 卫星通信新增多项功能: iOS 27 预计将支持 5G 卫星互联网连接,但可能独占于 iPhone 18 Pro、iPhone 18 Pro Max 和 iPhone Ultra,这三款设备都将搭载 C2 基带。 据悉,苹果将为 iOS 27 新增四项卫星通信功能: 通过卫星使用 Apple Maps 地图 通过卫星收发 iMessage 图片 第三方应用可整合卫星功能 iPhone 无需朝向天空即可连接卫星 亚马逊曾在上月收购 Globalstar 公司,随后与苹果签署协议,为当前、未来的 iPhone 和 Apple Watch 提供卫星连接服务。苹果的卫星通信目前提供紧急 SOS 服务、“查找”定位、路边救援、文字短信收发服务,具体支持情况因国家和地区而异。 “雪豹”式 Bug 修复策略: 苹果可能会在 iOS 27 系统中效仿 Mac OS X Snow Leopard“雪豹”,专注于质量修复和底层性能改进。 更多新功能: 据悉,苹果正在测试一款全新虚拟键盘,具备增强自动纠错功能。若持续推进则可能会在 iOS 27 首次亮相。 同时,iOS 27 预计将不会改变 LiqUId Glass 的设计思路,但可能会增加系统级 Liquid Glass 滑块,用户可精确调整 UI 透明程度。 此外,苹果还可能会为 iPhone 15 Pro 及更新机型带来四项 Apple 智能新功能,可将食品标签转换为“健康”应用的热量跟踪,将纸质名片直接转存到通讯录,还可数字化实体会员卡、健身卡,Safari 浏览器能根据标签页内容自动分组。
两个月就翻倍!Claude Code让Anthropic成史上收入增长最快公司
新智元报道 编辑:艾伦 【新智元导读】Anthropic 的 ARR(年化运行收入)已升至 440 亿美元,12 个月新增 350 亿美元。企业客户、Claude Code 和推理毛利率改善,共同把这家公司推向 9000 亿美元估值讨论区间。 Anthropic 把 AI 公司的增长曲线又往上抬了一次。 Semi Analysis 在最新报告中称,Anthropic 的 ARR 已超过 440 亿美元。 这里的 ARR 是年化运行收入(Annualized Run-rate Revenue),指按当前收入水平年化后的收入 run-rate,并不等同于已经确认的全年收入。 但即便如此,这个数字仍然足够惊人。 2025 年底,Anthropic 的 ARR 约为 90 亿美元。 到 2026 年 5 月,这个数字变成 440 亿美元,12 个月新增 350 亿美元。 平均下来,每天新增约 9600 万美元 ARR。 放在软件行业的历史坐标里,这个速度几乎没有先例。 AWS 用了 13 年做到 350 亿美元年收入;Salesforce 1999 年成立,直到 2021 年才跨过 200 亿美元收入线;ServiceNow 用了大约 20 年超过 90 亿美元。 Anthropic 用一年走完了很多软件公司十几年、二十几年走过的路。 更夸张的是,曲线还在变陡。 2024 年 12 月到 2025 年 9 月,Anthropic 增加约 40 亿美元 ARR。 2025 年 9 月到 2026 年 2 月,又增加约 50 亿美元。 真正的加速发生在 2026 年 2 月之后,短短 3 个月,ARR 从 140 亿美元冲到 440 亿美元。 投资人的反应很直接。 Anthropic 正在推进一轮 500 亿美元融资,对应万亿美元以上估值。部分投资人在 48 小时内提交认购意向。 按 440 亿美元 ARR 计算,这大约是 23 倍 ARR 估值倍数。 如果 Anthropic 的 run-rate 继续逼近 600 亿美元,同样倍数下,估值会来到 1.2 万亿美元附近。 AI 公司第一次让传统软件估值框架显得有点狭窄。 企业客户正在把 Claude 变成基础设施 Anthropic 的增长主引擎来自 To B。 财富 10 强中已有 8 家是 Claude 客户。 年消费超过 100 万美元的企业客户已经从两年前的十几家,扩大到数百家乃至千家量级。 年消费超过 10 万美元的客户数,过去一年增长了 7 倍。 这组数字的关键,在于 Claude 正在进入核心流程。 早期企业买 AI,更像买一个创新项目。 预算来自数字化部门,周期是 PoC,结果是一页汇报。 现在,Claude 正在进入法务、金融、咨询、客服、营销、研发等更稳定的工作链条。这改变了采购逻辑。 过去企业软件主要按席位收费,多少员工用,就买多少执照。 Claude 更接近按用量计费,企业付钱买的是一次次推理、一次次调用、一次次自动化任务。 采购部门看到的账单,也开始从一堆传统 SaaS line item,转向 Anthropic API、Claude Team,以及云平台上的 Claude 模型。 2025 年初,Anthropic 在企业 AI 支出中相对 OpenAI 的份额约为 10%。 到 2026 年 2 月,这一比例升至超过 65%。 这不只是模型能力的胜负。企业客户还要看稳定性、安全边界、权限体系、合规流程和云平台集成。 Claude 同时进入 AWS Bedrock、Google Cloud Vertex AI 和 Microsoft Azure Foundry,覆盖三大云平台。 对企业 IT 部门来说,这比一个聊天入口更重要。 模型决定试用,分发决定扩张。 Claude Code 把 To C 和 To B 接了起来 Anthropic 没有完全复制 OpenAI 的路径。 OpenAI 先用 ChatGPT 打穿 To C 心智,再把个人用户、开发者和企业预算连接起来。 Claude 也有个人订阅产品,但 Anthropic 的增长主线更靠企业和开发者。 Claude Code 是中间那座桥。 这款编程智能体产品在 2025 年 5 月公开推出。 到 2026 年 2 月,它的年度化收入已经达到 25 亿美元,并继续增长。 2026 年 1 月以来,Claude Code 周活用户翻倍。 有分析估算,全球 GitHub 公开提交中,约 4% 已由 Claude Code 生成或参与完成。 企业使用贡献了 Claude Code 超过一半收入。 这让 To C 和 To B 的边界开始变得模糊。 一个开发者先用 Claude Code 改 bug、补测试、写脚本。 几周后,它进入团队代码库。 再往后,公司开始统一采购、配置权限、接入审计和安全流程。 个人习惯就这样变成组织流程。 Slack、Notion、Figma 都走过类似路径。 区别在于,AI 产品碰到的是生产率本身。 开发者少写一段样板代码,法务少看一遍合同初稿,咨询顾问少做一轮资料整理,效果会很快出现在交付周期里。 只要效率提升能被团队看见,预算就会跟上。 To C 提供使用习惯,To B 提供收入厚度。 Anthropic 正在同时吃到两端的红利。 毛利率改善,才是这轮融资的底层逻辑 高增长的 AI 公司都会遇到同一个质疑。 收入是不是靠算力亏出来的? Semi Analysis 报告里最关键的细节,是 Anthropic 推理基础设施毛利率从 12 个月前的 38%,提升到 70% 以上。 这把 Anthropic 的故事从增长速度,推到了商业质量。 大模型公司的基本矛盾一直很突出:用户越多,推理成本越高;产品越强,调用越频繁;收入增长和 GPU 消耗往往同步上升。只要毛利率上不去,高 ARR 就可能只是高成本的另一种表达。 Anthropic 的毛利率改善,可能来自模型推理效率提升、缓存和路由优化、硬件利用率提高、企业合同带来的负载稳定性,以及云合作伙伴分摊基础设施压力。 单个因素未必决定结果,但合在一起,会改变单位经济模型。 这也是投资人愿意给出约 20 倍 ARR 估值的原因。 AI 公司估值早期押模型能力和增长速度,现在开始押另一个问题,收入规模扩大时,毛利率能否同步抬升。 如果 70% 以上推理毛利率能持续,Anthropic 就不再只是烧钱买增长的模型公司。它会更像一家具备软件级毛利结构的 AI 基础设施公司。 这对整个行业都很关键。 OpenAI、谷歌、xAI、Meta,都在投入更大的训练集群和推理集群。 谁能把推理成本压下来,谁就能在价格战、企业大单和长期合约里拥有更大空间。 IPO 前, Anthropic 还要证明增长能留下来 Anthropic 正在考虑最快于 2026 年底启动上市。 高盛、大小摩等顶尖投行已进入早期沟通。 公司目标是在 2026 年底达到 260 亿美元实际年度收入。 如果 440 亿美元 ARR 能保持,260 亿美元实际收入目标已经不显得激进。 但 ARR 是速度表,不是终点线。 它说明公司此刻跑得多快,不保证全年都能维持这个速度。 企业 AI 支出还要经历预算周期检验。 试用阶段的高频调用,能否沉淀为长期合约;开发者热情,能否转化为组织级续费;Claude Code 带来的效率提升,能否在审计、安全和责任边界上被大公司接受。 这些都会决定 Anthropic 的收入质量。 竞争也会继续保持高烈度。 OpenAI 仍有最强的消费级心智和开发者生态;谷歌有云、Workspace、搜索和 TPU;微软控制大量企业分发入口;Meta 用开源模型持续压低行业价格。 AI 市场会奖励增长最快的公司,也会惩罚成本控制慢、渠道薄、产品线单一的公司。 但 Anthropic 至少证明了一件事,企业 AI 需求已经越过尝鲜阶段。 越来越多公司不再只问 Claude 能做什么,而是在问哪些旧系统、旧岗位、旧流程,可以被 Claude 替换或重构。 过去 20 年,软件公司把工作流程搬到云上。 接下来几年,AI 公司会把一部分流程直接吞进模型里。 Anthropic 跑得最快的地方,正是这个替换发生最猛烈的地方。 如果这条曲线再维持几个月,它挑战的就不只是 OpenAI 的估值。 它会重新定义一家 AI 公司可以成长得有多快,拓宽人类的想象力边界。
华为AI眼镜来了,小米、理想们该急吗?
华为AI眼镜发布后,已经不止一位厂商和媒体朋友跑过来问我:好不好用?产品做得怎么样? (不是,你们咋知道我已经收到华为AI眼镜的?) 既然大家都这么好奇,我觉得还是挺有必要出一篇上手体验的。 老规矩,先说结论: 华为AI眼镜在价格上不占优势,并且功能只适配了鸿蒙OS 6以上的机型,安卓和iOS用户目前跟它无缘。 但如果你恰好是华为机主,又想尝鲜AI眼镜,那么华为AI眼镜可以说是你目前的最佳选择(不带小字的最佳)。 那么接下来我就跟大家分享下,我拿它和Mate 70搭配使用了一周后的感受。 首先咱们来看外观。 这次华为AI眼镜一共推出了三款镜框框型,我这回拿到的是经典的黑色全框。 这个框型的设计十分简洁,长得跟普通的黑色板材眼镜差不多。 虽然它的外观没有我的半透版理想livis那么酷,但是胜在不挑场合,无论是日常生活还是工作场景,戴着它都不会太突兀,不容易让人把目光锁定在你头上。 (滑到最后一张图是理想眼镜的佩戴效果) 不知道大家还记得不,华为从智能眼镜1代与眼镜品牌Gentle Monster联名开始,到智能眼镜2再到现在的AI眼镜,思路都非常一致,就是先把眼镜本体做好,再去谈其他。 “一副好的AI眼镜,首先它得是一副好的眼镜。” 基于这点,华为AI眼镜不仅把外观做得像普通眼镜,还把佩戴体验往普通眼镜这边靠了靠。 它的镜框重量只有35.5克,加上自带的衬片,我称了下,大概是41克左右。 作为对比,理想livis加上镜片是50克上下,小米AI眼镜带出厂镜片大概是44.7克左右。 所以我戴着华为AI眼镜一整天,也没有出现特别难受的情况。 当然这里面可不止有重量的功劳,华为对于整个框架的设计优化也起到了不少作用。 比如眼镜的前后重量分配更加合理,重心不会集中在一个地方,佩戴起来会更轻松。 镜腿和镜框连接处的钛合金铰链支持外折,大头围也不容易出现夹头的情况。 还有它的镜框做了一定的弧度,可以更好地贴合人的面部。 假如你跟我们同事小曲那样,之前长期佩戴过Meta Rayban,这回又试戴华为,那你大概率会有一样的感受: “Meta 的佩戴体验真是一坨。” 这真是他的原话哈哈哈。 聊完外观设计,咱们再来看看影像。 目前市面上的其他AI眼镜,小米也好,理想也好,大多采用索尼的IMX 681传感器。 原本我以为华为也会这么干,但没想到他们这次用了一颗定制的CMOS,1200万像素 + 1/2.8英寸,进光量会稍微比1/3英寸级别的IMX 681大一些。 在拍照和录制这块,华为AI眼镜支持4096 × 3072的图片分辨率,以及1920 × 1440 30 fps的录像规格,最长能录5分钟,算是目前的主流水平吧。 当然想要知道它的影像具体咋样,咱们还是得来看实拍。 之前周末爬山的时候我专门带了三副眼镜(华为、小米、理想)上去,给大家拍了些样片进行对比。 可以看到,在这三张图中,理想属于是一眼路人,远处的山体涂抹感明显,画面有偏绿的情况,曝光也偏暗。 相比之下,华为和小米作为手机厂商,明显对于影像的调教更加得心应手。 其中小米带点影调,而华为的画面则更亮和鲜艳,更讨好眼球——非要分出高下的话,我投华为一票,因为华为的山体纹理细节保留得更好。 (华为→小米→理想) 至于夜晚场景,由于华为的进光量更大,画面表现一眼比其他两家好,而小米的问题在于暗部细节没了,理想则是拉高了曝光后,画面的涂抹感比较严重。 不过我建议大家还是别用 AI眼镜来拍夜景了,即便是表现最好的华为,细节也比手机差很多,高光也压不下去。 (华为→小米→理想) 录像方面,同样是10秒左右的4:3视频,华为在1920 x 1440的最高分辨率下,码率为16.09 Mbps,明显要比理想的29.2 Mbps更低。而小米则把分辨率拉高到了2304 X 1728 ,码率为37.18 Mbps,数据是三者中最高的。 (华为→小米→理想) 单从码率来看,大家应该就能知道小米的画质会胜出。 而从视频中截取的静帧(同一画面,选取最清晰的一帧,原生画质)也能看出,小米的蓝色警告牌字体是最清晰的,华为和理想属于是半斤八两。 另外,理想的码率虽然比华为高,但是实际的画质表现,比如栈道的地砖纹理,并没有华为还原的好。 (华为→小米→理想) 这里我必须得吐槽下,理想的这个调色真有种零几年的美——曝光拉得太高,一些细节都没了,色温偏冷,对比度偏低,压根没有层次感可言,也跟肉眼看到的真实画面没啥关系。 讲真,理想真可以考虑挖个手机厂商的影像专家了——记得挖那些大厂的,小厂自己的影像也调不好。 总之影像方面,如果你像我这样,平时出去玩、爬个山记录生活,用华为AI眼镜拍拍照是够用的。录像的话,我觉得属于是能用,但真要拍点好的画面建议还是用手机。 接下来再来聊聊功能体验。 目前市面上的AI眼镜,其实功能都做得大差不差,没有特别高的壁垒——你有的,我也会有。 比如像是翻译、看一下支付、一键成片、调用眼镜摄像头视频通话/直播等等功能,华为有,小米也有。 甚至小米的相机协同支持的应用更多,包括了微信、QQ、腾讯会议、飞书等等主流应用,而华为的视频通话目前只适配了QQ和畅连,更多的应用适配估计还得等些日子。 不过,我觉得华为这回做得好的地方在于,他们基于鸿蒙生态的优势,在眼镜上带来了很多差异化的功能。 比如之前很多AI眼镜拍完照片和视频后,需要到APP里面手动导入手机,操作起来比较麻烦。 而华为AI眼镜因为和鸿蒙生态打通了,拍摄后可以在后台自动传输文件——当然这个功能也会导致眼镜耗电增加,但增加的这点耗电和带来的便利比起来,我觉得是值得的。 另外华为还把小艺看世界这个功能给带到了眼镜上,只需要按下左边镜腿上的这颗AI按键,可以和小艺进行视频对话,让小艺为你讲解动植物或者建筑知识。 讲真,我觉得这个思路是对的,因为我确实有遇到过这种场景。今年过年和家人去旅游的时候,看到了一颗树上开的花特别漂亮,然后我们就开始讨论这是什么花,结果一群人拿着手机拍照问豆包。 假如当时我戴了华为AI眼镜的话, 其实就不用费劲掏手机问豆包了,直接用小艺看世界指着花问就完事了。 续航这块,我没严谨地去测过,仅从日常使用来说,我那天出差去OPPO发布会,从早上9点半戴着华为AI眼镜出门,一直到晚上的10点,期间主要是听歌、通话和听歌,结果它还剩百分之几的电量。 所以,你是不用对它产生续航焦虑的,轻度使用,一天管够。 总的来说,我觉得华为AI眼镜的体验已经算很合格了,你可别听到“合格”俩字,就觉得我的评价不高——体验过多款AI眼镜的差友应该会知道,市面上的很多产品连合格都够不上。 当然,我觉得像华为这种,本身就有软件、硬件、芯片和云端的整合能力,加上这么多年来造手机的供应链经验,造出一副合格的AI眼镜一点也不奇怪,造不出才奇怪呢。 但是这并不意味着,华为这第一代产品出来后,就能把小米、理想这些AI眼镜给一脚踹沟里。 因为对于消费者来说,买华为AI眼镜,心里很难绕过两道坎。 第一道是价格、第二道则是生态。 很朴实,但也很现实。 我们先来聊聊华为 AI 眼镜的价格 —— 要知道,我去年买的理想livis 国补后才1699。 小米AI眼镜的价格现在也来到了国补后1500以内。 而华为AI眼镜一上来定价就是2499,即便是国补后也要2千出头。 到了2千价位,就到了那些带显示的AI眼镜打击范围了。 你看Rokid AI眼镜国补后已经到2千8了。 换做是我也会纠结,都花2千多买AI眼镜了,那要不要再加几百,一步到位尝鲜下带显示版本的? 聊完了价格这一关,我们再来聊聊生态这一关。 目前华为AI眼镜在鸿蒙生态里才是完全体,对于安卓和iOS的适配还没做好。 比如,我在vivo应用商店里就没搜到华为眼镜这个APP。 所以它搭配安卓或iPhone使用,只能够起到一个蓝牙耳机的作用,听个响。 不过这两点对于华为机主来说,反而不是啥大事。 因此我开头才跟大家说,这副眼镜是华为机主们目前最值得入手的AI眼镜。 无论是佩戴体验还是功能完成度,它至少都做到了80分以上,真没吹,大家有机会去线下体验一下就知道了。 而它的到来,我觉得主要还是为了完善整个鸿蒙的硬件生态,然后把鸿蒙的部分能力给延伸到眼镜上做一些结合。 至于购买建议,我觉得你真想买又不急的话,可以等等,等价格来到2千以内,就非常香了。
阿维塔和深蓝整合?又能买到便宜车了
说起阿维塔这个品牌,差友们是什么印象? 顶级的内外饰原创设计?还是华为、宁德背书? 如果说今后阿维塔要和自己的兄弟品牌深蓝共同研发,降低成本、售价,但代价是某些零部件的通用,你觉得可以接受吗? 是的,bro,这即将成为现实。 网友制图,仅供一乐。 前两天,长安汽车董事长朱华荣表示将整合阿维塔和深蓝两个品牌,4 年后要形成年销 150 万的中高端品牌,其中阿维塔 50 万,深蓝 100 万。 两个品牌依旧独立运营,但是在背后的技术研发、供应链都会深度共享。 上面的那个问题,脖子哥我是给不出答案,但咱们编辑部的阿维塔 12 车主觉得,比起死水一潭,这样多少能给品牌注入一点活力。 毕竟,阿维塔的现状算不上乐观。看长安汽车的 2025 年财报,对阿维塔的长期股权投资按照权益法核算的损失为 12.12 亿元。 如果用长安持股阿维塔 40.99% 来简单计算,那么阿维塔 2025 年依旧有 29.5 亿的亏损,只能说是比 24 年少亏 10 个小目标。 前前后后长安已经往阿维塔里面烧了超过百亿的资金了,现在竞争那么激烈,想要降本增效也是合理的。 既然现在来到这么一个重要的节点,我们也不妨回头看看阿维塔是怎么一步步混到这样的。 阿维塔最初是 2018 年长安和蔚来的合作产物,不过蔚来很快就遇到了经营危机,自顾不暇就搁置了。 其实那个时候阿维塔是很有前瞻性的,蔚小理刚起步没多久,国内传统车企们也就只有欧拉、极狐几个新能源品牌,市场并不拥挤。 到了后来 20 年,长安找来华为和宁德时代的时候,其实也不算晚,上汽智己、东风岚图、极氪也都是那段时间成立的。 而且,阿维塔的三个爸爸也都很给力,长安的造车能力毋庸置疑,CS75 是少有和哈弗 H6 一样能跟合资掰手腕的车型。 华为的 HI 模式也不用说,国内领先的辅助驾驶水平,华子自己也涉足了汽车供应链,阿维塔的电机就是华子的,宁德当时也已经开始称霸电池领域,阿维塔各方面资源都是行业头部。 但是,阿维塔的第一个卖点就遭遇了滑铁卢,也就是他们引以为傲的设计。 不可否认,阿维塔是中国新能源短暂的历史中,设计不是最强也是数一数二的那一个。 我们都知道,新能源不再需要那么大的进气隔栅,所以车头往往都会很空。 对此,小鹏、理想的解决方法是贯穿式日行灯,特斯拉的解决方法是俯冲式前缘压低车头。 而阿维塔走了完全不同的路子,第一台车阿维塔 11 两排日行灯上短下长,填充车头的同时,视觉收拢到中间;灯组与下方进气隔栅几乎连成一体,好不好看很主观,但起码辨识度是有了。 车尾的尾翼收起来是游艇式设计,打开则更加舒展。 内饰的情感涡流更是中国新能源车十多年都没有的创举,既是音响,也是氛围灯,还将车内主副驾进行功能分区,如果能够去掉中间的 “大彩电”,或者把中控屏做窄一点,把它露出来,将更加直观。 全车的 CMF(色彩、材质、工艺)也都做到了他们所说的 “富有情感张力”,只要你对线条比较敏感,那这车完全就是设计师与车主的一场对话。 夸了那么多,设计却没有帮阿维塔突出重围。 阿维塔 11 当初定价 34.99 万元-43.49 万元(还有一个60万的限定版),这是什么概念? 新能源领头羊,车标能替你说话的特斯拉 Model Y 是 26.39 万;同样是高端新势力的极氪, 001 有着领克赛事成绩背书以及旅行车造型,29.9 万起;用钱砸社群、还有换电站的蔚来,入门的 ES6 是 38.6 万元。 那么,你愿意为阿维塔的设计付多少钱。 诶,不对,不是还有华为加持的辅助驾驶吗? 可也就在阿维塔 11 上市没多久的 2023 年,正是鸿蒙智行的问界全面铺开的时候,华为商超店得天独厚的宣传优势,当时任何一家车企都无法企及,那时候全是 “华为汽车” 的传言。 即使后来任老出来叫停,但鸿蒙智行已经植入到消费者心中,阿维塔的辅助驾驶已失去了它的独特性。 最后,阿维塔 11 的月销量只能长期徘徊在 2000 左右,甚至只有 3 位数。 而阿维塔的第二款车 “阿维塔 12”,依旧保留了这种设计的独特性,车内的天际屏与氛围灯融为一体,环抱感非常好。 但他们已经逐渐有了为了设计而设计的感觉,他们的这块天际屏左右两侧的尽头,是流媒体后视镜的区域。。。 作为国内比较早用上流媒体后视镜的车型,阿维塔 12 的这个功能没少被嘲讽。尽管它是个选装件,但如果你不选,天际屏那里就会缺了两块,影响内饰美观性。 同样实用性给设计让步的,还有阿维塔 12 的后排 “开门按钮” 和 “车窗拨杆”,这个我们的文章也讲过很多遍了,绝对的反人类设计。 最终,阿维塔 12 的市场表现依旧平平,同样是月销 2000 左右。 这时,时间已经是 2023 年,价格战已经开始冒头。加上锂价走高开始传导至消费端,增程的价格优势已经显现,阿维塔进入了一个亦步亦趋的阶段, 别人上增程,它也上,别人直营转经销商降低成本压力,它也转,市场需要什么他们就做什么。 虽然很被动,但也就是这样的市场需求导向,让阿维塔销量重新上涨,缓了一口气。 24 年推出的阿维塔 07,既有纯电又有增程,增程器用的是深蓝 G318 同款 JL469ZQ1,电机是长安自产的 ATDM01 和 XTDM39,降低了含华量。25 年推出的阿维塔 06 也是同理,用上了自家的动力总成。 两辆车目前的价格下探到了 20 万出头,竞争力明显高了不少,销量也能偶尔突破 5000。 虽然和行业同级顶流仍有差距,但起码是好起来了。 至于什么阿维塔偶尔搞点什么抽象营销,虽然有时候确实让人很难绷,但当车自己都没有竞争力的时候,怪营销也没啥用。 所以现在准备与深蓝整合我觉得是对的,前有大众集团贯穿大众、奥迪、保时捷的平台化战略,后有比亚迪天神之眼、闪充,领克和极氪的领极联服。。。。。 这些都是通过集团内部协同来降本增效,提升品牌自身竞争力。 只有真把车卖出去,留得在牌桌上,才能撑到阿维塔谈设计的时候,而不是成本的负累。 希望阿维塔能走得更远,直到原创设计被看重的那一天。
比亚迪方程豹钛7 EV闪充版到店,19.98万元起
IT之家 5 月 3 日消息,比亚迪方程豹今日宣布钛 7 EV 闪充版全国 16 城 64 店已就位,该车于 4 月 29 日上市,提供 675km 后驱闪充版、755km 后驱闪充版两款车型,售价 19.98 万元起,交付预计 5 月中旬开启。 IT之家附门店如下: 安徽 合肥方程豹 4S 店 合肥东和之星 4S 店 北京 北京瑞鹏新程 4S 店 北京润迪立程 4S 店 北京鑫敏恒鑫达 4S 店 北京海淀创新产业园鑫敏恒鑫程城市展厅 北京方程豹 4S 店 北京环耀之光 4S 店 北京瑞鹏启程 4S 店 福建 厦门海沧 4S 店 广东 东莞厚街莞太路禧达城市展厅 佛山利兴 4S 店 广州海珠 4S 店 广州利昊城 4S 店 广州铨昊城 4S 店 广州新昊城 4S 店 广州领道 4S 店 广州番禺方程豹 4S 店 广州方程豹 4S 店 深圳宝安 4S 店 深圳龙华 4S 店 深圳龙岗方程豹 4S 店 深圳罗湖方程豹 4S 店 深圳坪山总部方程豹 4S 店 深圳龙岗天安数码城城市展厅 深圳南山科苑南路城市展厅 深圳宝安欢乐港湾商超店 深圳福田深南路城市展厅 河南 郑州利锐丰 4S 店 郑州威佳吉程 4S 店 郑州祥悦欣 4S 店 湖南 长沙中南方程豹 4S 店 雨花长沙大道城市展厅 长沙方程豹 4S 店 江苏 昆山仁韵 4S 店 苏州方程豹 4S 店 陕西 西安未央文景路 4S 店 西安正耀泓元 4S 店 西安方程豹 4S 店 四川 成都上元弘川 4S 店 成都金牛方程豹 4S 店 新疆 乌鲁木齐万隆悦豹 4S 店 浙江 杭州丰澜 4S 店 杭州广成欣迪 4S 店 杭州贵丰 4S 店 杭州德达 4S 店 杭州萧山 4S 店 温州正程源 4S 店 温州乐清 4S 店 温州中亮吉豹 4S 店 温州方程豹 4S 店 温州龙悦 4S 店 重庆 重庆渝北人和 4S 店 重庆方程豹 4S 店 重庆方怡 4S 店 重庆润迪 4S 店 重庆润众 4S 店 重庆两江 4S 店 重庆鑫福源 4S 店 新车提供 7 款外观颜色、3 款内饰颜色,并可选全新的闪充限定车衣。钛 7 闪充版长宽高为 4999(5050)x1995x1865mm,轴距为 2920mm,号称是“全球首款闪充纯电大方盒”。车辆将新增超大电动前备箱、同时改进乘坐空间 / 装载能力,并引入帝瓦雷音响。其中两驱版车型纯电续航至高可达 755 公里。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。