EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
消息称奥尔特曼淡出OpenAI日常管理,聚焦“搞钱”和脑机接口
IT之家 8 月 23 日消息,科技媒体 The Verge 今天(8 月 23 日)发布博文,报道称前 Instacart CEO 菲姬・西莫(Fidji Simo)正式加入 OpenAI,出任“应用 CEO”,将负责公司约 3000 名员工及 ChatGPT 等面向消费者的业务,目标是把这家混乱且未盈利的初创公司打造成上市科技巨头。 IT之家援引博文介绍,她的任务是将这家尚未盈利、节奏混乱的 AI 独角兽,转型为纪律严明、可上市的科技巨头。西莫曾在 Facebook 高速增长期任职,并带领 Instacart 成功上市,还深谙广告业务,这些经验预计将在 ChatGPT 商业化中发挥作用。 该媒体认为西莫的到来,标志着 OpenAI 权力结构的变化。该公司首席执行官山姆・奥尔特曼正逐渐淡出公司日常运营,更专注于为大规模算力项目筹集巨额资金,并孵化脑机接口初创企业。 他坦言自己无法同时管理包括消费者业务、算力基础设施、研究实验室和新兴硬件在内的四条业务线。未来他仍会直接参与算力、研究和硬件,与前苹果设计总监 Jony Ive 合作,而脑机接口公司将独立于 OpenAI 之外运营。 在内部架构上,奥尔特曼的直接下属包括总裁格雷格・布罗克曼(负责 Stargate 等扩展项目)、首席研究官马克・陈、首席科学家雅库布・帕乔茨基、消费者硬件副总裁彼得・韦林德,以及安全主管约翰内斯・海德克。 此外,西莫还需为刚于 3 月晋升、现已宣布离职的人力资源主管朱莉娅・维拉格拉寻找接替者,该媒体曝料西莫的首个新产品方向可能是浏览器,而首个商业化尝试或为今年秋季上线的 ChatGPT 购物返佣功能。
阿里巴巴拟议分拆上市之际 斑马智行前女CFO公开鄙视某些高管人品行径
快科技8月22日消息,近日,在斑马网络技术股份有限公司(简称斑马智行)递交招股书准备在港交所上市之际。 据媒体报道,原斑马智行CFO夏莲在朋友圈发文对此事进行了点评,公开表示“不看好公司业务发展”“上市圈钱不是人生追求和理想”,并表示自己已于2025年4月离开公司。 夏莲表示,“过去3年也许斑马业绩增长不达预期,但对比未来3年,很可能是斑马最好的3年。”在她看来,没有门槛的座舱技术,车厂都可以自己干。 夏莲指出,上市圈钱不是自己的人生追求和理想,自己从斑马智行首轮融资12亿,60亿 AliOS合并重组,30亿再增资,7亿新股权融资,到完成股改,一路风雨,支持自己的是对一件事有始有终做完的信念,对一群有情有义的人做一件有意义的事的理想主义追求,如果这些不复存在,自己不愿意为上市圈钱再委曲求全。 “非常鄙视斑马某些高管的人品与行径,承认你的权谋与城府,但鄙视你的为人与价值观。” 夏莲表示,因为还有一些好朋友投资在斑马这个局里,很高兴自己的离开帮这些朋友降低了50%的估值,“希望降了50%估值的斑马可以帮他们成功登陆”。 值得注意的是,在8月21日,阿里巴巴发布公告,拟议分拆斑马智行,并在港交所主板独立上市。 据悉,斑马智行成立于2015年11月,是由阿里巴巴与上汽集团共同发起的互联网汽车基金投资成立的科技企业。 截至公告日期,阿里巴巴持有斑马智行约44.72%的股份。 根据灼识咨询的资料,斑马智行是中国仅有的两家全自研汽车操作系统的第三方供货商之一。 也是唯一一家将系统级操作系统解决方案、AI全栈端到端、车载平台服务这三大智能汽车核心体验支柱无缝整合为统一解决方案的企业。
B站二季度盈利新高:游戏收入大涨6成,广告走上快车道
8月21日,B站2季报业绩出炉。在本次财报中,无论是营收还是利润都在加速上行,其背后是B站商业变现能力的逐季增强。 首先,Q2的B站总营收达73.4亿元人民币,同比增长20%。 拆分到具体业务线来看,二季度,B站广告业务收入为24.5亿元,同比增长20%,高于整体大盘;游戏业务收入为16.1亿元,同比高速增长60%。 其次,本季度毛利率从去年同期的29.9%,提升至36.5%,已经连续 12 个季度实现环比上涨。B站在业绩会上预计,到4季度将达到37%水平,未来将看到40-50%的毛利率目标。 运营利润率也从去年同期的-5%,扩展到了正7.8%,B站中期目标运营利润率15-20%保持不变。净利润和调整后净利润均创下历史新高,分别为2.2亿元和5.6亿元,去年同期为净亏损6亿元。 这一点不难理解: 在经营杠杆改善的情况下,B站很自然表现出运营利润率比毛利率改善更快的情况,而且随着商业化效率的进一步提升,高毛利业务持续突破,下半年运营利润率还将进一步提升。 在回报股东层面,二季度,B站回购并注销了一亿美金的股票,目前董事会批准的2亿美金回购计划中还有约8360万美金回购额度。 基于以上表现,今年以来,B站在资本市场的价值表现良好:到21号财报发布前,B站市值年内涨幅36%,年初到现在,市值增长了近200亿人民币。 01 逐渐增强的广告变现能力 支撑B站市值和业绩表现的,是B站逐季增强的变现能力,尤其是广告: B站的Q2的广告业务增速是高于广告大盘的,而且单一季度收入也创下新高达24亿人民币,同比增速高达20%。 除了整合投放能力,和提升深度转化比例能力之外,B站今年还多了一个 AI作为助力。在多模态大模型加持之下,广告分发效率大幅提升。这也吸引了更多广告主的投放,在二季度,广告主数量同比增长了20%。 分垂类行业来看,也有很多亮点: 首先,B站的第一大广告份额来自游戏行业。客观来看,B站是国内最大、最活跃的游戏内容社区之一,大量核心玩家、创作者的聚集成为游戏客户投放的重要因素。从新游营销到常青游戏的长线运营,B站的优质内容和高质量玩家转化,都有助于锁定优质游戏客户预算。 其次,得益于中长视频深度内容和测评生态的既有优势,面向年轻人的家居家装广告主也在B站进行加大投放。二季度,家居家装相关的广告收入同比增长接近70%。 第三,今年的一个亮点,是数码家电领域在“618大促”支持之下的增长:大促期间,B站带货广告收入同比增长41%,其中数码家电行业的带货广告收入同比高速增长111%。 比如今年618期间,仅“笔吧测评室”、“极客湾”、“嗨我是熊猫”、“假如科技”四位UP主的四条专业电脑测评内容,就为联想带来了超7000万元的成交额。联想在B站撬动单条视频内容实现ROI 100+转化,大促期间,B站为联想带去的成交新客率高达40%。 以200万粉UP主“笔吧评测室”为例,其在618期间发布了对联想拯救者R7000P这款产品的评测。 不同于比拼热情、情绪煽动的直播带货,这类测评内容讲究的是专业度。视频里,UP主不止分析了笔记本参数,甚至还精细到无线网卡在不同场景下的稳定度,笔记本在不同功耗下的噪音表现。此外,测评里也会客观分析产品的缺点。 专业度带来信任感,最终意味着转化率,上述视频的ROI高达135.5。 此外,在涵盖洗地机、扫地机、吸尘器等品类的清洁小家电赛道,2025年以来,B站在这一赛道商品的蓝链点击量同比大幅增长14倍,清洁小家电相关的UP主商单稿件量同比快速增长330%。 UP主与消费者的参与度也在持续提升:消费者端,千元以上消费品GMV同比提升近五成;UP主端,"618"期间,整体GMV增长了33%,带货GMV超过1000万的UP主数量增长超过60%。 今天的B站用户,不仅更愿意在社区内参与类似618这样的大促,而且购买的客单价也在逐渐提升。 未来,随着B站在多场景日常搜索PC端、OTT端、Story,包括日常直播搜索场景、热门搜索等对用户的触达,B站的广告收入能力还有进一步提升的空间。 而更好的推荐算法,包括AIGC生成的广告封面和标题,也都让客户投放成本不断降低,提高转化效率。 我猜测,这也是站方在季报后的电话会中表示,接下来还会更有信心跑赢广告大盘的原因。 02 变现能力增强的底层逻辑:B站的社区和共鸣 在中国互联网活跃用户基本见顶的今天,B站作为年轻人的精神家园,用户基础依然牢不可破: 全口径月活还在并不意外的继续增长,达到3.63亿;日活用户数达1.09亿,同比增长7%,创历史新高;月均付费用户达3100万。与此同时,B站用户的平均年龄来到了26岁。这恰好是一个比较有意思的年龄节点——用户从校园走向社会、职场,甚至开始成家立业,随之而来的是更多元、更旺盛的消费需求。 在这样的一个年轻人为主的平台,广告主看中的是B站提供的社区生态,来实现广告主品牌心智的搭建:深度的内容,高活跃的社区互动,很多品牌也是从B站开始起家的。 对于广告主尤其是数码产品广告主来说,选择B站作为品牌建设的主战场,理由很多,也很充分: 在供应饱和的国内消费市场,一味追求短期转化的营销打法已经走不通,流量竞价变得越来越卷,在这种环境下,广告主开始更看重长线品牌建设,重视持续的价值回报。 这恰恰是B站具备优势的所在,不会有任何一个客户会忽视年轻人的影响力跟消费力。 而品牌营销基于优质内容,很多内容作品,往往都是从B站开始最早获得用户认可,然后开始出圈。 比如说,现在的10亿票房大电影《浪浪山小妖怪》,最早的短片是《小妖怪的夏天》,也是B站受到用户欢迎,开始出圈。 《黑神话:悟空》的续作《黑神话:钟馗》在B站上首发了第一个游戏的PV,不到两天时间,播放量超过了1200万。 多说一句,B站的优质社区氛围,也在越来越清晰体现其不可替代的价值: 今天的内容供给呈现严重过剩过载的趋势,在这种环境下,用户更需要的是社区和共鸣,才能够促进转化。 这一点不仅仅是B站,越来越多的传统货架电商平台,都在强化社区调性,这种调性无论是数据,还是效果,都能更直接的呈现的在广告主眼中。 这种社区属性映射到现实世界中,就是Bilibili World今年的高光表现: Bilibili World(简称BW)是B站主办的ACGN综合展会。今年的展出面积共计24万㎡,为期三天里迎来了共计167家全球展商、近800台痛车、超3万名Coser。 今年的BW还创下了多项人数纪录,线下参展人次超过了40万,护照用户的购票比例达到了13%,有来自于20多个国家和地区的用户专门来到上海参加BW。 无论是从规模还是从影响力来看,今年的BW已经是中国乃至亚洲最大的ACG聚会,实打实的带动了上海本地的线下消费,也成为了上海城市文化的一个新名片。 03 游戏:长线的压舱石 除占营收33%的广告业务增长之外,B站的游戏也在扮演营收长线压舱石的作用。 本次B站游戏《三国:谋定天下》在二季度已经迎来周年庆,DAU创下了年内新高,未来将进入长线运营阶段。 回看历史,B站历史上的游戏生命周期都相当可以,《命运-冠位指定》迎来九周年,重返畅销榜前五;《碧蓝航线》八周年庆,用户数保持稳定。 除了常态化的抽新卡,皮肤消耗,拉老用户回流,发行海外版本这些延续游戏价值的方式之外,B站的社区生态也有利于游戏本身的长线运营:无论是视频二创还是社区讨论,都是在帮助B站运营的游戏提升粘性。 举例来说,8月8日-8月10日,《命运-冠位指定》也在杭州国际博览中心举办了九周年特别纪念展(FES)。 FES的特点是将IP内容与线下活动相互关联,给玩家身临其境的感觉。除了在BW上大放异彩的“誓约胜利之剑”雕塑外,大量全新主题景观也纷纷落地杭州。 对于FGO这样一款运营九年的游戏来说,相比简单泛泛的互动娱乐,这些游戏内细节内容的流出,才是最容易感染玩家,并引起玩家共鸣的方法。 除此之外,在电话会上,B站提到还有四到五款游戏在等待版号,后续的游戏仍将专注于年轻化和创新,来迎合时代的变化。 一切顺利的话,游戏板块仍然将为B站持续稳定的贡献价值。 04 结语 过去几年,B站成功实现商业化提速,在当前大环境中尤其证明了B站变现的能力。二季报仅仅是一个开始。 更重要的是,B站在社区调性和商业转化中取得了较好的平衡,让这个中国最大的年轻人社区的变现能力开始呈现逐季增强的状态,这才是这份二季报真正令人感到惊喜的地方。
GPT-5变蠢背后:抑制AI的幻觉,反而让模型没用了?
自打发布新一代模型 GPT-5 之后,OpenAI 收获了大片骂声。 人们纷纷表示 GPT-5 “ 变蠢了 ”“ 没创造力了 ”“ 不灵动了 ”“ 回答很干瘪 ”。 实际上,这并不是一个让人意外的结果,因为 GPT-5 的其中一个特性是幻觉率显著降低,而降低模型幻觉率的一个主要代价就是模型的输出会显得更呆板。 通俗来说就是模型变得更严谨,但主观能动性变弱了,这一点其实对于写代码、Agent 构建是很有好处的,只是 ChatGPT 的主要面向的消费级用户对此需求并不高。并且 GPT-5 变得非常被动,以至于需要非常详细的提示词才能很好地驱动( 当然如果需求写得好,GPT-5 是很可靠的 ),不像之前会积极地预估用户的意图,原本快要丢掉的提示词技能又得捡起来,这对于被 AI 惯坏的一大批用户又是一记背刺。 从原理上来讲,大模型生成的内容是概率产物,模型本质意义上是一个条件概率分布的近似器,它的创造力来自于更宽松的概率分布,而当你想让它答案更精准、低幻觉时,它的概率分布必然收紧,这样的收紧减少了有更多创造力的可能。 这就像一个人,你想让他更严谨、符合逻辑的去创作,他就会被钳制,无法天马行空。 然而有趣的是,早前大家都在吐槽各家大模型的幻觉率太高并且愈演愈烈,认为这是一种 “ 病 ”,厂商们也使出浑身解数来治这个 “ 病 ”,微调、RAG、MCP 等新 “ 药方 ” 一个接一个。 现在,高幻觉率的问题被一定程度解决,大家又吐槽模型回答得不够好,这就陷入了一种无法打破的死循环。 那么,厂商们到底该如何正确地看待 AI 幻觉呢? 为探究这个话题,知危与阿里巴巴大淘宝技术营销前台技术负责人甄焱鲲进行了对谈。 甄焱鲲首先跟知危分享了自己对 GPT-5 被 “ 讨伐 ” 现象的理解和亲身使用体验:“ 许多人赞赏其在数学、科学和代理任务上的进步,但也批评它在创意写作上不如 GPT-4.5 或 4o,输出更通用、缺乏情感深度,甚至出现 ‘ LLM 废话 ’。 基准测试中,它在 SimpleBench 上仅得 56.7%,排名第五,远低于预期。 用户 ‘ 起义 ’ 主要源于模型感觉像降级:响应迟钝、幻觉增多、错误意外,以及未公布的更改导致创意和质量下降。” “ 而我的直观感受是:出现幻觉的概率确实下降了,我用了大概三天的时间,提了一些哲学、编程和人工智能相关的问题,在一些生僻概念的理解上考察模型的输出,还是有非常不错的效果,例如:GPT-5 不会把我自创的英文缩写( 一些技术架构里的缩略语 )错误拆分了,比如 ‘ AIGUI ’ 这个概念不会如 GPT-4o 般拆分成 ‘ AI GUI ’ 了。” 在对谈过程中,甄焱鲲多次强调,把幻觉单纯当成一个 “ 病 ”,是片面的。 目前已经有研究指出,大语言模型理论上不可能完全消除幻觉。还有研究表明,越抑制幻觉,大语言模型的泛化性越差,也就是能够适用的场景越受限,这与业界希望全方位推广 AI 的愿景显然是相悖的。 这其实也反映出,幻觉带来的影响并非永远都是负面的,需要辩证看待。 正如甄焱鲲告诉知危:幻觉是不是幻觉、幻觉的影响是不是负面、幻觉的负面影响有多大,都是相对的,和使用者的能力和需求、场景的特性和需求、使用前后效率对比、现实世界的变化等因素都有关。 以下是知危与甄焱鲲的对话原文,经过了不改变原意的编辑。 一、幻觉的类型 知危:能请您介绍一下大模型实际应用中常见的幻觉类型吗? 甄焱鲲:大模型的 “ 幻觉 ” 指的是 AI 系统生成或推断出与人类经验不符的内容或结论。 这里 “ 人类经验 ” 必须是 “ 正确 ” 的,限于个人认知的差异,所以必须认识到 “ 幻觉 ” 也是相对的。 在大模型应用中,幻觉无法完全避免。 可以将幻觉分为 5 个类别:语言生成中的幻觉、推理与逻辑错误、过度简化与常识错误、数据错误或无依据推理、时效性错误。 语言生成中的幻觉是大模型最常见的一种幻觉,尤其是在内容生成类的应用中。例如在生成代码时,AI 可能会编造 Library 或 API 来完成代码的生成。 大模型还可能在进行逻辑推理时产生错误。例如在使用 Roo Code 插件进行代码生成时,经常遇到指定上下文后,大模型仍然会根据项目中其它上下文做出错误的推理。 关于过度简化与常识错误,AI 虽然能够处理大量信息,但它在应对一些需要深度常识、实际经验的场景时,容易出现过度简化的情况。例如 AI 可能会说 “ 为了快速减肥,可以不吃任何食物 ”,这显然是不科学的。 关于数据错误或无依据推理,在某些场景下,AI 模型可能会基于不完全或者错误的数据生成答案( 尤其当训练样本中掺杂大模型生成的幻觉内容时更甚 )。例如,在医疗应用中,AI 根据患者的症状生成诊断建议,但如果这些症状与训练数据不匹配,或者训练数据本身存在偏差( 如某些相同指标数据指向不同病症,从而需要医生以个人理解进行具体判断的情况 ),模型就可能给出错误的诊断结果。 最后,幻觉很多时候来源于模型训练时知识和概念在时间上的局限性。 知危:大模型的幻觉会在企业应用中带来哪些负面影响与成本损耗? 甄焱鲲:关于幻觉可能产生的 “ 成本损耗 ”,需要代入到具体应用场景分析。 用户差异会带来巨大的成本评估差异。假设生产效率的影响小于大模型应用前的历史效率,总体上并不会产生 “ 成本损耗 ”。 比如。一个行政人员使用 Cursor 生产一个表格信息收集工具,即便生产效率低下错误频出,生产效率仍然可能大于:找产品提需求、找研发开发、找测试评估、找运维部署。因此,Cursor 虽然经常犯错误,仍然有大量用户,因为用户认为 Cursor 的效率是大于自身的。 但若这个场景的用户是研发人员,错误频出带来的效率降低,显著大于:安装依赖、查找文档、编写代码,那么 Cursor 在这个场景大概率会被研发人员抛弃。 所以,成本损耗和效率的影响都是相对的。 进一步看,幻觉的负面影响还可以分为两类: 预测错误,如果“错误”易于识别,则影响的是生产效率; 如果 “ 错误 ” 难以识别(例如预测错误发生在使用者不熟悉的领域),则影响的是应用效果。 知危:如何根据幻觉率高低进行产品落地可行性决策? 甄焱鲲:如果大模型的幻觉率过高,特别是在关键决策领域( 如医疗、金融、法律等 ),则这些产品的应用将面临严重的挑战。对于这类应用,企业的目标是尽量减少错误和幻觉,因为一个错误的决策可能导致巨大的财务损失或法律责任。 对于一些风险容忍度较高的应用场景( 如内容推荐、广告投放等 ),企业会接受一定程度的幻觉,毕竟这些应用的目的是提升用户体验和增加商业效益,而不完全是做出精准决策。 通常,企业会设置一个 “ 安全边界 ” 来限定幻觉率,确保在可接受范围内。过高的幻觉率会增加企业的风险和成本,过低的幻觉率则可能意味着模型的复杂度和计算成本过高,导致收益无法覆盖成本。 二、缓解幻觉的成效 知危:目前,为了缓解幻觉问题,一般会采用哪些方法?实践效果如何? 甄焱鲲:当下常用的方案有三种:合适的模型、In-Context-Learning、微调。 首先,海量参数的大模型因为 “ Scaling Law ” 会缓解幻觉出现的概率;其次,借助各种提示词工程和 RAG 等技术,“ In Context Learning ”( 在不进行参数更新的情况下,通过在输入中提供示例来学习和完成新任务 )被实践证明能够大幅降低幻觉出现的概率;最后,使用 “ 继续训练 ” 的微调技术,在一些场景中可以一定程度降低幻觉。 为缓解语言生成幻觉和过度简化幻觉,一般采用扩大训练样本和模型参数来解决,即采用更合适的模型。 为缓解逻辑推理错误,在 MCP 生态出来后,最火的就是:Sequential Thinking MCP Server,帮助大模型把复杂问题降级为诸多微任务,以期待降低大模型出现幻觉的概率。这属于 In-Context Learning 方法。 缓解数据错误或无依据推理幻觉一般也是采用 In-Context Learning 方法。 为缓解时效性局限带来的幻觉,比如编程领域,现在行业里有很多人在用 Context Server,也就是 MCP 的 Server,当调用 API 时,它能帮我检查这个 API 的最新版本文档和接口参数说明,避免使用了老版本的 API,保证生成代码的准确性,这属于 In-Context Learning 方法。 医疗、金融、法务等行业对精度要求非常高,使用 RAG 最多的就是这些行业。但是,由于 RAG 需要向量存储、检索服务,且会大幅度增加计算成本,某些行业的特定领域使用大模型微调技术,降低 RAG 带来的成本,也能找到成本与效果的平衡点。 对于内容推荐、广告投放等可以容忍一定程度错误的应用场景,AI 的幻觉率可以稍高一些,同时开发成本也会降低。最典型的例子就是 “ mini-gpt ” 开源项目,仅用几个小时训练一个几百兆大小的小模型,就可以很好地生成儿童绘本级别的小故事。 中低精度要求和更低成本的情况下,小尺寸模型也是能接受的,比如 Qwen3-0.6B,In-Context-Learning 可以不使用或简单使用,可以使用少量( 数百、千条数据即可 )行业优秀的案例数据进行微调,因为基础模型参数量小,微调的成本也不会太高。 但总体而言,微调的效果和风险还是普遍存在。模型通过微调从通用模型过渡到领域特定模型时,是有可能丢失原有的通用知识的。 而对于所谓垂直领域大模型,在我个人实践中发现,由于大部分场景都需要跨领域知识,反而使垂直领域大模型的应用效果受到限制,实际效果和微调技术基本持平。 最近行业里有一些论文在研究怎么让大语言模型实现 Self Learning,也就是说它能在服务过程中对自己的参数进行微调,随着使用不断学习和提升,克服时效性的局限。比如,麻省理工( MIT )最近提出的 Self Adapting Language Models( SEAL )是一种模型能够 “ 自行学习 ” 的技术:模型通过生成自己的合成训练数据并用于自我更新,迎向 “ 终生学习 ” 之路。但该方法仍存在 “ 灾难性遗忘 ”、计算资源高、学习调度复杂等挑战 。 当下,由于大模型的基础框架局限于 Transformer 和 Diffusion,并且在基础框架层面并没有显著的技术突破,上述方案应该在大模型基础框架技术变革前是有效的。 知危:为何说垂直领域大模型效果受限?从我们和医疗领域的专家交流来看,他们还是认为垂域模型比通用模型能力更强。 甄焱鲲:垂直领域大模型虽然掌握了行业知识,在特定任务上表现更好,比如在医疗这种病种类目极多、具备极强专业深度的领域。但在复杂推理或跨领域理解上仍显不足,尤其在任务更复杂、数据稀缺时更明显。 如果数据多样性有限而规则复杂,比如材料科学,训练出的模型往往倾向于 “ 记忆 ” 而不是建立泛化机制。只有当数据多样性足够高,才可能促进泛化。 最后,成本与收益不匹配。相比训练一个垂直大模型,微调已有模型 + 机制( 如 RAG )往往更低成本,效果也更稳健。 知危:医疗、金融、法律是使用 RAG 最多的行业,那么这些行业之间使用 RAG 的情况有哪些不同? 甄焱鲲:总体而言,只要是涉及到标准化流程或比较依赖规则、先验的工作,RAG 都会用得比较多。 其实 RAG 有不少局限性,不同行业使用 RAG 的场景需求也不同。 在法律行业,有时候应用中不只涉及法律法规,还包括案例、法律解释、政策等。这就比一般的 RAG 难度高一些,主要是时效性要求高,因为法律是在不断建设中的,各地对法律法规也可能有不同的解释。 在医疗行业,现在大语言模型在时序理解上的局限性,会限制 RAG 应用的效果。当前的 RAG 更多是对概念背后所代表的含义进行理解和解释。但是在医疗行业里,通常要解释的是临床数据和病例。 比如一个病人有一系列的检查、体检数据,包含各项指标在一定时间段比如一年内的变化情况。这些变化的含义不是简单通过 RAG 就能查询出来的。因为它有很大的个体性差异,比如性别、地域、年龄等各种因素的影响,也可能要结合上次检查和这次检查的对比,以及和其他类似患者的的对比。 不像其它领域,比如医疗领域可以直接生成病例、诊断书等,或者法律领域可以生成诉状、裁决书等,金融行业在应用 AI 时,最终产生的结果更多是偏向建议或者辅助性的。因为使用 AI 会产生的一些问题和风险,目前用 RAG 加大语言模型的方式是难以规避的。因此金融行业倾向于更严谨的方式,比如在里面穿插一些传统的机器学习算法,用来对决策背后可能产生的问题和风险进行估计。 知危:您的团队对幻觉缓解的技术路径探索经历了什么样的探索过程?关于微调和效果和风险可否深入探讨一下? 甄焱鲲:刚开始的时候,我们主要对模型做微调,或训练自己的 LoRA。比如轻办公领域,针对用户场景识别和服务推荐场景做微调或 LoRA。但我们发现,等花了半年甚至一年的时间训练并上线后,大语言模型自身更新带来的收益,往往已经超过了我们做这些工作的收益。 通过微调技术调整模型参数的时候,最大的问题在于参数调整可能带来一些无法预期的后果。比如模型本身是无法处理 “ 冲突 ” 的,如果新数据与模型原有知识发生了冲突,经常会发生 “ 正确 ” 的数据遮蔽了 “ 正确 ” 的知识,甚至会导致 “ 灾难性遗忘 ” 的情况发生。 “ 灾难性遗忘 ”( Catastrophic Forgetting,也称 catastrophic interference)是指模型在学习新任务或新知识时,严重遗忘先前所学能力的现象,尤其在顺序训练或持续微调中表现突出。即便是 AI 产品在服务过程中不断更新权重,即 Continual Learning,也只是一种微调,传统微调具备的缺点它都有。 在大型语言模型中,这种现象尤为关键:模型的知识分布式存储于权重中,当在新领域训练时,部分权重被重写,导致模型原有的广泛语言能力或事实知识退化。 在研究中,1B 到 7B 大小的 LLM 在持续微调后普遍出现灾难性遗忘,甚至随着模型规模增大( 但仍在这一范围内 ),遗忘现象反而更严重。 举个例子:一个针对医疗诊断微调的模型,可能会 “ 忘记 ” 基础的数学能力或一般写作能力。这个问题和大语言模型本身的技术特点相关,除非整个大语言模型技术发生本质性的革新,否则短期内这个问题比较难解决。 现在的大语言模型权重参数非常多,而且缺乏可解释性。更新某些权重时,会对哪些权重或者什么情况下的推理产生负面影响,目前很难评估。所以,灾难性遗忘或者权重冲突的具体原因,目前只能通过最终结果的评估来检验。 在实际测试对比下,In-Context Learning、RAG 往往比微调模型具有更好的泛化能力和稳定性。 总体来说,模型微调或者 LoRA 的效果,通常小于 RAG 的效果,因为 RAG 可以去修改数据,灵活性更强。而通过很多论文和行业数据都能看到,RAG 的效果一般又小于 In-Context Learning,因为后者是实时地把必要的知识或辅助信息当做 context 注入模型。 所以,后来我们更倾向于做 RAG、 In-Context Learning 这类优化。而实际上相比之下,目前我们 In-Context Learning 的应用还比较少。 原因在于 In-Context Learning 需要更丰富、结构化且准确的 context,而这些 context 比较难获取。比如现在要帮产品经理写一个新项目的产品文档,来做产品策划。产品的用户定位、功能定义、用户流程、UI 交互等,涉及多个领域。这些领域的知识和内容,要决定哪些需要提炼放入 context,去做 In-Context Learning,实际上有很大挑战。从目前实践效果来看,用工程或编程手段去解决,效果不如用 RAG 好。 但很多服务中,比如用户完成一件事后还会接着做下一件事,也就是当用户有连续性任务时,In-Context Learning 的应用门槛会相对低一些,因为可以知道用户当前场景变化和上一件事情的结果。 知危:为什么模型微调的工程周期那么长?相比之下,RAG、In-Context Learning 的工程周期如何? 甄焱鲲:模型微调的工程周期很长,影响因素很多。 首先,构建微调模型需要高质量、标注良好的领域数据,耗费的精力往往占真实训练的绝大部分。有人直接指出微调 90% 的精力花在 “ 提升数据质量 ” 上 。 其次,微调 LLM 不像一般模型那么轻松。需要性能强劲的基础设施和优化、维护能力。训练本身往往耗时数周,甚至更久。 再次,微调往往不是一次搞定的。需要反复调参、验证、修复 bug、对比多个模型版本。 最后也是最关键的是,LLM 这个基础模型可能每隔几个月就会迎来新版本,原来的微调成果很快就可能被 “ 超越 ”。社区反馈也提到,每次基础模型更新后,几乎都得从头再来一次微调 。 相比之下,RAG 通常只需数天甚至数小时即可部署,尤其用 Hugging Face 的 RAG-Token 示例几行代码搞定。 并且,RAG 整体工程流程简单,门槛低于深度培训。知识库变更最快,只需重新 embed 文档,完全无需重训模型。因此,可以实时响应信息变化。 社区普遍反馈道,相比代价高耗时的微调,RAG 简便且性价比更高。 对于 In-Context Learning ( ICL ),本质上只需构造好 prompt,可能还需要加入若干示例( few-shot ),基本不需要训练过程。工程实现几乎是几分钟到几小时搞定 prompt 设计、示例选取、效果验证。 对比微调,ICL 可谓 “ 立刻见效 ”。 知危:ICL 落地的具体挑战都有哪些?为何还无法很好地解决,以至于即便潜能更大,目前实际效果不如 RAG ? 甄焱鲲:挑战确实不少。ICL 的效果高度依赖于所选示例的质量,但 “ 哪些示例最具代表性、结构清晰、能覆盖多领域内容 ” 本身就很难定义。典型方法有基于语义相似度的检索( 如 embedding 距离 ),但往往不够精准。 具体使用时,会受到模型本身限制、内容、结构等方面的影响。 大模型( 如 GPT-4o )虽支持数百K token 输入,但仍难容纳大量多领域信息,尤其文档结构复杂时。 对于开放性( open )问题,过于贴近主题的上下文反而可能引起模型偏差或混淆。 同样一组示例,顺序不同可能得到完全不同的效果,但如何自动决定最佳顺序依然是开放问题。 更细节来看,示例之间的排版、结构、标签统一性、分割符等都能显著影响结果,而找到 “ 最优格式 ” 往往需要大量试验和经验。 在更宏观层面,涉及用户定位、功能框架、流程与 UI 等多个维度时,需要为每个层面提炼关键结构内容。但这些内容如何抽象成 prompt 示例并串联起来?目前仍缺乏清晰方法论。 最后,大模型在 ICL 中往往倾向使用 “ 捷径 ”( 比如表面模式或标签关联 ),而非真正理解多领域深层逻辑。这种 shortcut behavior 使得 prompt 构造更加敏感脆弱。这种走捷径的现象也是深度学习的老问题了。 知危:除了合适的模型、In-Context Learning、微调之外,据了解思维链、多智能体协同、重复采样投票等方法在降低幻觉方面也有应用,这些方法在企业中的使用效果如何? 甄焱鲲:我们也会借助思维链来减少幻觉。在前一段时间接入 MCP 的时候,用得比较多的,也是现在行业里比较常用的,就是Sequential Thinking MCP Server,也就是序列化思考。我们也会去模仿像 Cursor、Roo Code 等对任务的拆分以及任务规划的方式。 从我们的实践来看,确实能比较好地提升准确率。因为它能够更好地从当前任务中发现更多问题,并将实践过程中可能缺失的环节补充上去,毕竟有时候用户下的指令是比较粗糙的。 让大语言模型把粗糙的指令转化成 step-by-step 的详细指令和任务,带来的价值是毋庸置疑的。而且现在网上有很多开源项目,比如 Roo Code、Cline,这些是做软件工程的 AI Agent 插件,比如 VSCode 上的插件。我们也会去参考它们的源码,因为里面很多工程上的处理细节和提示词工程的细节,都是非常值得我们借鉴的。 通过多智能体协同来降低幻觉,比如一个模型输出,另一个模型评判,这种方式的幻觉缓解效果其实一般。 比如我们在使用 DeepSeek 的大语言模型进行代码生成的时候,如果用 reasoning 模型( DeepSeek R1 )和它的基座模型( DeepSeek V3 )进行对比,会发现生成质量有明显差异,生成偏好也不一样。不同模型的偏好不同,这就会导致一个问题:到底什么样的偏好才是对的?这在不同的具体业务场景下有不同的答案。 比如我们之前在实践中发现,在对一些代码进行 fix 的时候,用 DeepSeek 的基座模型,而不是 reasoning 模型,效果在某些情况下反而更好。因为 reasoning 模型有时候会把一些简单问题复杂化,浪费大量 token 和时间去 “ 思考 ”,但生成的结果可能还是差强人意。 单个模型重复采样后再做投票这种方法其实和多智能体方法是类似的。不管是多智能体,还是重复采样投票,除非它在工程上能提升整体的并发性能和效率,否则意义不大。 因为现在很多模型本身就是 MoE( Mixture of Experts )结构,这些模型内部已经在进行采样、投票、打分,调用不同的专家来解决问题。其实也可以把它看作是一个多智能体系统。比如最新的千问模型 Qwen3,在发布新版本时也说会把多智能体机制集成到模型内部。 这应该是一个技术趋势。因为在训练大语言模型时已经花费了大量数据,如果在训练过程中能保持一定的多样性,那么在输出阶段,通过一些数学上的优化手段去利用这种多样性,让它在最终结果中发挥价值,不管是多采样、多智能体还是多专家机制,最终都能在结果的有效性上带来比较好的价值。 从长远来看,模型的发展更倾向于把多智能体的能力集成化,尤其是在商业模型中,以提升整体对外服务效率。 而对于开源模型,现在有一个比较明显的趋势,就是模型参数量在变小,但性能反而在提升,将更多用于实现多智能体、多模型并发推理。 比如假设一个 1B 到 3B 的模型,它可以达到传统 32B 甚至 70B 模型的效果,就可以用于在设备端并行地进行推理。这时候可以把一些任务拆分给在某个特定领域表现比较好的专业小模型去处理。 最典型的例子是 Command R,它是最早用于命令行操作电脑的优秀模型。比如有一个编程任务,拆分后有些任务需要在命令行操作,比如初始化环境、批处理文件操作等,这时可以把这些任务分发给 Command R 这类模型去处理。 知危:Cursor、Roo Code 等对任务的拆分以及任务规划的方式有哪些特点? 甄焱鲲:Cursor 的任务拆分与规划最大的特点是原子化任务( Atomic Planning )。Cursor 强调把大的开发任务拆分成 “ 小勺子 ” 级别的小任务,每个任务聚焦当前相关文件和指令,避免信息过载和上下文混乱,并严格按必要的顺序执行子任务。在分配任务时明确指令,如 “ 重构 calculateTotal() 函数以支持货币精算 ”,减少歧义。 Roo Code 也有类似的任务拆分与规划框架,它还支持多种模式,比如 Architect 负责规划与设计,Code 负责实施,Ask 负责解答与辅助。这些模式可以自由切换,任务拆分后可按阶段委派给最合适的模式。 知危:除了事实性的幻觉,目前推理模型中的思维链 “ 幻觉 ” 也受到了很多关注。比如推理过程和结论无关,推理方式不符合人类逻辑,重复推理、无效推理等。这些幻觉对企业应用的影响如何? 甄焱鲲:影响比较大。拿 Cursor 来说,它经常会在思维链中说:“ 我觉得这个问题是什么?所以我要尝试什么?” 然后思维链产生的结果可能是错的。错了之后它又说类似的话,结果可能又返回上一步错误,陷入死循环。很多时候我从程序员视角可以直观发现问题,但模型却不知道哪里出错,也无法做出有效修改。 本质上,现在大语言模型并不具备真正思维能力,它还是一种机械的模仿。 做软件的时候,经常有个不恰当的比喻:如果一个东西走起来像鸭子,看起来像鸭子,叫起来像鸭子,那它就是鸭子。但事实上这是不对的,而现在的大语言模型做的事情就是这样。 当模型参数量足够大,训练数据也足够多时,我们会觉得它好像在思考,因为预测下一个 token 的准确率比较高。维特根斯坦的相关理论也说明了语言和思维是直接相关的,我们无法超越语言去表达思维。 大语言模型通过大量语言资料训练,它的参数在一定程度上可以看作是固化的思维,也就是一些套路。这些套路能够解决重复出现的问题,但无法解决新问题。当套路无效时,模型仍会根据概率硬套这些套路,导致错误产生。 这是一个容易和 “ 幻觉 ” 混淆的点,即 “ 错误 ”。 重构软件工程项目时遇到这类问题的概率比较高。因为模型没有真正的全局思维,导致它在分析、推理和规划时,更多是在局部最优的层面解决问题。 这些错误并不是上下文长度的限制造成的。虽然上下文有限制,但推理时输入和内部权重参数之间会相互影响。即使给它更长、甚至无限的上下文,由于大语言模型算法架构和训练数据、方法的局限,注定还是会出错。 所以,哪怕推理模型引入了强化学习和思考能力,也只是有所提升,因为它会把以前生硬的直接概率,变成一系列反复验证后的间接概率,从而提升准确率。 具体而言,其实 AI 的思考就是在检索和重复验证,只是效率和准确率比人类更高,所以它很适合做科研。有一篇比较有影响的论文 “ Do Two AI Scientists Agree? ”,讲 AI 怎么从零开始发现大量物理定理。实际上你会发现 AI 能发现的物理定律,都是一些重复性的事情。 当然,这并不是影响 AI 应用的最关键问题。假设现在 AI 可以解决百分之七八十的问题,那剩下的百分之二三十的问题,暂时不做 AI 应用就行,这并不影响 AI 的推广。因为这个世界上发生的很多事情,百分之七八十甚至九十以上都是重复的。这些重复的事情,用结构化的思维、固化的思维去理解和解决是没有问题的。 知危:可否对上述方法和经验做一个总结性描述? 甄焱鲲:其实要减少幻觉,在实践中更多是想办法把人类的先验经验集成到 agent 和 AI 应用链路里,做有效约束。这方面有各种方法,比如通过规则方式做硬性约束,也可以训练强化学习模型,让它学到人类策略或有效策略来做约束。这些手段无非就是告诉大语言模型要干什么,并且在执行过程中做一些过程性干预。 最重要的原则,是 “ 以终为始 ”,要从 “ 想让 AI 解决的问题定义 ” 入手。很多时候 AI 有效,是因为我们已经能够清晰明确地定义 AI 要做什么事情。 先对问题的复杂度进行分级:越复杂、抽象的问题,就应该用越多的权重参数、算力,以及更多的辅助手段来更好地解决它;而越简单、越具象的问题,可能反而适合参数更少的模型,配合更硬的约束手段。所谓“更硬的约束手段”,比如模型的微调就是最硬的手段,其次是 LoRA,再次是 RAG,最后是 In-Context Learning。 顺着这个梯度去选模型和约束方式,就能找到一个合适的组合。 还有一个折中原则是,如果在解决过程中发现无论多强大的大模型、多好的算法工程或者辅助工程都解决不了这个问题,那就不要什么事都端到端解决,可以把部分问题环节用传统软件工程或算法工程解决,把它们组合成一个混合( hybrid )的架构和工程。 如果让 AI 解决的问题本身不适合 AI,或者问题非常复杂,那么无论做多大努力,它能达到的结果一定是差强人意的。 三、正确理解幻觉 知危:既然幻觉问题造成了那么多困难,也需要如此多手段来缓解,那么如何理解企业大规模应用大语言模型、取代传统机器学习方法的意义所在? 甄焱鲲:理论上来说,除了文本生成领域外,大语言模型在其它领域的应用越来越多了。但在决策推理、复杂规划等任务上,传统机器学习算法还是更有优势。 结合近期大语言模型、视觉模型也在结合典型传统机器学习方法比如强化学习的趋势,表明传统机器学习算法的优势是大语言模型无法替代的。但大语言模型的优势是,它可以低成本地做到传统机器学习算法能做的六七成的水平,这才是本质。 比如做数据分析,可以用传统机器学习算法做统计分析、回归等,来找到数据背后的模式,然后根据学到的模式做预测。甚至在一些特殊领域,可以通过拟合的方式刻意提高准确率,但是这样做成本比较高,门槛也比较高,涉及数据处理、算法设计、模型训练、评估,再到软件工程的部署等。 相比之下,使用大语言模型的话,只需要把某一个时间段的数据,直接丢给大语言模型分析结果。毕竟现在大语言模型的 context 已经很长,很容易处理这类数据,如此成本就很低。虽然分析结果还有各种局限性,但对于很多日常工作的场景已经能满足。 至于成本具体能降到什么程度,还是要看最终的场景需求。比如分析短期的数据,而且这些数据可以被大语言模型的 context 覆盖,那它的成本几乎为零。 如果数据量比较大,就需要通过 MCP或 agent 开发框架,把数据接入到大语言模型里面,可能还需要对数据做预处理,比如Pandas等传统的机器学习框架和数据框架,其实已经具备一定的 AI 能力了。 目前我们去开发一个 AI Agent 来解决这些问题,跟传统的软件工程比如算法工程、数据工程、软件工程等模块对比下来,开发工作量只有原始工作量的百分之二三十左右。 知危:从技术人员的视角理解幻觉,有哪些不同的体会? 甄焱鲲:在当前这个大环境下,对程序员跨领域能力的要求比较高。所以从我作为技术人员的角度来看,在这个过渡阶段,AI 编程带来的收益更容易让程序员接受,上手的速度比较快,这也是为什么像 Cursor 这类工具会这么火。 背后最本质的原因是,程序员本身懂技术,在学习或了解 AI 并不难的情况下,知道该怎么提问题或者怎么下达指令。而其他领域的人,比如 HR、行政、财务等在使用 AI 的时候,很多时候最大的挑战是他们不具备相关知识,导致没办法提出有效的问题。提出正确的问题或写出合适的提示词,其实门槛还是比较高的。 我们现在使用的大部分大语言模型,都是指令跟随版本,只要指令优化得足够好,大语言模型犯错、也就是产生所谓幻觉的概率和可能性,其实是非常低的。 从长远来看,其实幻觉的存在是相对的。如果你不知道,或者你无法判断的情况下,你就不知道它产生的结果到底有没有幻觉,毕竟现在 AI 胡说八道的时候语气还是一本正经的。但最终到底由谁来评估 AI 生成有没有幻觉?还得是人类使用者,这时可能需要更专业的或其他领域的使用者来判断。 知危:有些研究会把幻觉做一些类型划分,探讨了事实性数据和系统性数据的区别。系统性数据比如 1 + 1 = 2,事实性数据比如 “ 小明在 2025 年出生 ”,并提出事实性数据更容易出现幻觉。您对此有什么看法? 甄焱鲲:从我的视角看,早期大语言模型或一些传统 NLP 算法确实存在这类问题,但我觉得现在比较新的大语言模型架构、训练数据处理、指令微调方式,已经在很大程度上避免了这些问题。 目前模型技术在事实性产生错误的概率相对较小。据我了解,模型并不会生硬地去记忆事实性数据。 大语言模型出错的一个典型例子是它不知道 “ 9.9>9.11 ”,本质原因是模型内部并没有进行真正的数值计算。 不管是事实性数据还是系统性数据,都是一个概率计算问题。比如训练数据里有 “ 1 + 1 = 2 ”,但大语言模型并不是直接知道 “ 1 + 1 = 2 ”,而是基于概率。 本质上,它是基于统计概率,而不是逻辑计算。 如果想真正理解幻觉本身,和产生的根本原因,必须了解模型的技术细节,比如大模型训练时在做什么( 涉及前馈网络、注意力机制、query 机制等 ),推理时在做什么,我们干预它时它又在做什么。 知危:您在前面所表述的大模型永远无法完全解决的 “ 错误 ”,有什么具体的理论依据呢? 甄焱鲲:新加坡国立大学发表的论文 “ Hallucination is Inevitable: An Innate Limitation of Large Language Models ”,通过形式化定义 “ 幻觉 ” 并借助学习论证指出,LLMs 无法学习所有可计算函数,因此 “ 幻觉 ” 是固有而不可完全消除的。 另一项研究 “ LLMs Will Always Hallucinate, and We Need to Live With This ” 以 Gödel 不完全性定理和停机问题为基础,指出幻觉是 LLM 必然会产生的结构性产物,不论模型大小、数据多么丰富,都无法根除。 早期的研究从理论上证明了 Transformer 的图灵完备性,但都基于诸如无限精度和任意强大的前馈计算能力等假设。 而对于有限精度和有限前馈网络计算能力的 Transformer 架构( 也是更符合现实情境下的设置 ),其在理论上相当于常深度阈值电路( TC0 ) 的计算能力( 参考论文“ The Parallelism Tradeoff: Limitations of Log-Precision Transformers ” ),这说明它们只能处理相对简单的语言模式,面对更复杂、高组合深度的问题时力不从心。比如在多步推理组合任务中,如乘法、逻辑网格谜题或动态规划问题,Transformer 模型更多是通过 “ 线性子图匹配 ” 而非系统性推理来应对,随着任务复杂度上升表现迅速衰退。 知危:近期关于AI幻觉还出现了一些关于泛化性的研究进展,“ Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers ” 指出抑制幻觉的同时也会抑制 LLM 的泛化性。您对此有什么看法? 甄焱鲲:这些成果很有意义。 模型预测下一个词本质上是概率性的,这可能涉及概率学的本质以及概率在人类社会中的影响。必须存在概率,才能有决策的空间和可能性,进而才能具备泛化能力。 就像人一样,比如我们走路的时候,如果只有一条路,肯定不会走错,只有当有多条路的时候才可能走错,而新的路能带来新的可能。这个问题确实是无法消除的,因为 “ 对 ” 与 “ 错 ” 本身现在都很难定义。 有一种很有意义的情况,有时我们认为 AI 生成的结果是错的,只是因为我们不了解、不知道或没见过这样解决问题的方式,但它实际上是对的,这是 AI 创造性的体现。 再比如,大语言模型认为这个世界是虚拟的,我们觉得它在一本正经地胡说八道,产生了幻觉。但可能过了五十年或一百年,我们通过科学方法论证了世界是虚拟的,那么这个所谓的幻觉其实不是幻觉,而是前瞻性的观点。这有点类似于以前的很多科幻小说、科幻漫画、科幻电影,里面很多技术现在都实现了。那么它到底是不是幻觉?所以关键还是看我们怎么定义幻觉。 所以在对待幻觉这个问题时一定要小心,不能太武断地认为 AI 生成的内容没有现实依据就是幻觉。 四、行业趋势 知危:目前国内业界对 AI 幻觉风险的整体心态是否过度乐观? 甄焱鲲:恰恰相反。DeepSeek 是一个分水岭,在 DeepSeek 出现之前,无论是投资界还是业界,大家对幻觉带来的负面影响都有点过度恐慌。但在 DeepSeek 出来之后,整个行业包括大众都被 “ 教育 ” 了。大家对幻觉带来的影响,以及对幻觉的评估,变得更理性了,有时甚至觉得幻觉是良性的。 具体而言,以前更多是通过新闻报道或学术论文了解幻觉的影响,现在大家已经开始实装大语言模型来解决具体问题,所以会更客观、更清醒地判断:哪些场景下幻觉是可以接受的,哪些是不可以接受的;幻觉对不同任务的影响到底有多大,也能做出更现实、更准确的评估。 当然,相对来说在某些领域确实也存在 “ 过度乐观 ” 的情况,比较明显的是内容创作领域。现在有很多人并不真正了解幻觉是什么。有些人用 AI 辅助创作时,可能会过度乐观,直接把生成的内容公开发布,而对负面的影响和后果没有准确的理解和预估。 关于 “ 过度悲观 ”,主要是在一些比较严肃的领域,比如科研、工业制造、软件工程等场景,很多人会觉得,用大语言模型去解决一个问题,模型思考半天、花了很多钱、用了很多 token,最后也没解决好,还不如自己解决。而且,在应用大语言模型时,本质上是某种程度上对自己的替代,这时候很多人会有抵触心理,进而对模型做出过度悲观或负面的评价。 知危:AI 编程是否也是一个 “ 过度乐观 ” 的场景?特别是 Vibe Coding 火起来以后?很多智能体类产品推出得很快、更新频繁,但在实际使用中还是会有很多问题,尤其是幻觉的累积和错误溯源问题,让人头疼。即便 Claude 4 Opus 号称能连续工作 7 个小时完成编码任务,但仍有人指出其写出的代码是难以维护的。您对此怎么看? 甄焱鲲:现在很多 AI Coding 应用的做法其实还是比较简单粗暴的,属于 “ 大力出奇迹 ” 的思路,而且确实在一定程度上有效。 比如我曾试用一个开源的 AI 编程模型,让它帮我生成一个 Rust 语言的、用于监控当前网络端口访问情况的程序。它花了很长时间,大概两三个小时,才生成出来可编译的结果。 它之所以花那么长时间,是因为在不断检查编译器的报错并修正代码。但最后我运行时发现还是有问题。因为我用的是 Mac Studio,Apple Silicon 的 ARM 架构,它选用的那个库并不支持这个架构,最终导致运行出错。我又让它继续修改,它又花了大概两三个小时,才把这些错误都修正好,最后我才能正常运行和执行。 但如果是程序员来做这件事,可能很快就能解决。毕竟这就是库不兼容的问题,对于一般程序员来说并不复杂。 现在很多生成代码的方式,还是依赖枚举各种情况,用各种提示词和反复试错、反复检查。这种 “ 大力出奇迹 ” 的方式,也跟前面提到的大语言模型自身的特点有关,它不能真正思考,还是靠不断进行局部最优的生成能力来解决问题。 知危:这种 “ 大力出奇迹 ” 的方法会不会导致 token 消耗过高、成本难以承受? 甄焱鲲:这个问题非常重要。现在其实大家没怎么谈这个问题。原因是对资本家来说,他们投资了大语言模型供应商,正希望 token 被大量消耗,只有这样供应商才能赚更多钱。所以这个问题虽然存在,但往往被有意忽略。 当然,有很多开源项目或者行业里一些比较良心的软件,比如 Roo Code,就做了很多这方面的优化,比如上下文压缩、token 压缩,在重复试错时会主动停止,不会无限制地耗费资源。 反观一些其它软件修改代码时,比如一会说多了个花括号,把它去掉了;编译不通过,又说少了个花括号,又把花括号加上,然后又反复修改,重复了十几次,实际上这些重复一直在消耗资源。如果是用免费版还好,用付费版的话,这些重复修改就会一直消耗用户的钱。 当然,这个现象存在一定程度上也是可以理解的。一方面,AI 应用还处于非常早期阶段,大语言模型还在快速发展变化,比如 DeepSeek 刚出来不久,厂商们开始大量往模型里加推理能力,强化学习也才刚起步,阿里最近才把多 agent 集成到商业大语言模型里。因此,现在的 AI 使用方式比较粗糙,随着模型能力稳定下来,这些粗糙的使用方式会逐步优化和迭代,变得更加精细。 另一方面,目前 token 价格已经被压低,用户对价格的敏感度还不是特别高。从应用开发商的角度,也会更多希望用户能持续使用,而用户使用的前提是能帮他们解决问题。在技术还不够成熟的情况下,有时 “ 大力出奇迹 ” 的方法是必要的。 知危:对于未来通过底层技术变革解决或缓解幻觉上,您对哪个方向比较看好? 甄焱鲲:我更倾向于最近生成视频效果比较好的世界模型这条技术路线。 世界模型涵盖更广、更深,视频模型只是它的一种应用体现,主要用来展示模型能力。就像一滴水滴到管子上和一滴油滴到管子上,产生不同结果,这背后是模型权重参数驱动生成的。它主要是通过表象展示背后的思维能力,不是简单的 next token 预测,而是对事物真正的理解。 世界模型不是单纯通过数据生硬训练,而是让模型在训练过程中真正理解数据背后代表的概念、原理及它们之间的关系。 我更希望像训练小孩、培养人类思维成长一样,让 AI 构建起自己的思维体系。而且这种思维是动态变化的,能够适应周围世界的变化。比如这个模型可以部署在端侧,自主浏览网页、使用搜索引擎或查询数据。它还能自主决定是否把浏览到的概念或知识更新到自己的记忆里。 这是更偏向于 AGI 的发展方向。
前谷歌高管Mo Gawdat:在抵达AI乌托邦之前,我们会先经历一段至暗时光
近两年,AI的发展进入高速时代,产品层出不穷,更新速度惊人。从ChatGPT到DeepSeek,AI正逐渐渗透到所有人生活的方方面面。人们在享受AI带来的便利的同时,疑惑也层出不穷:AI会不会抢打工人的饭碗?老人和其他不太会使用AI工具的人会不会被社会淘汰?甚至还有终极的担忧——AI会不会发展到人类再也无法掌控的那一天? 本月,在播客节目The Diary of A CEO中,主持人Steven Bartlett与嘉宾Mo Gawdat就AI对社会的影响,以及人类如何应对即将到来的技术变革进行了讨论。Mo Gawdat是谷歌前高管,曾任谷歌X实验室首席商务官,对AI发展有深入思考,曾多次对未来人类社会将如何受到AI影响进行分析。 ●图为Mo Gawdat Mo Gawdat认为在接下来的十几年内,世界将经历一个不可逆转的转型时期,人们对自由、责任、经济和权力的方式将发生根本性改变。因此,需要为迎接一个陌生的世界做好准备。他强调了构建AI社会的重要性,并持乐观态度:尽管会经历一段不可避免的混乱时期,但AI最终能让世界变得更美好。此外,Mo相信转变的开始将在2027年发生。 本次访谈由Steven Bartlett主持,经未来人类实验室整理编译,以下为本次播客内容的精华—— 在AI乌托邦到来前, 我们要先经历一段动荡混乱时期 主持人:Mo,两年前我们就曾经讨论过人工智能,从那时起,AI就以惊人的速度发展。两年过去了,现在你最担心的是什么? Mo Gawdat:从2023年ChatGPT发布开始,事情的进展比我以往见过的任何事情都要快得多。我改变了自己的立场。我曾经说过,我们可以做一些事情来改变(AI高速发展)这件事的进程,但现在我不这么认为了。现在我认为我们将会经历一个短暂的反乌托邦(Dystopia)。 主持人:什么是反乌托邦? Mo Gawdat:我称之为FACE RIP: F - Freedom 自由 A - Accountability 责任 C - Connectioon 人与人之间的连接 E - Economics 经济 R -Reality 现实 I - Innovation 创新 P - Power 权力 这七项曾经由人类定义,未来将由AI定义。 未来的12-15年,我们必须为即将到来的世界做好准备。而反乌托邦(Dystopia)不是一种好情况,事情发展可能会超出我们的控制。问题在于,在机器高速发展的时代,人类的价值观和伦理观存在着很多问题。很不幸的是,AI正在放大人类能够做的恶事。我认为,人类现在还没有意识到这一点。 ●Mo Gawdat解释反乌托邦 主持人:但是你认为短暂的反乌托邦时期后,人类会迎来乌托邦? Mo Gawdat:没错。当我们完全将控制权交给AI时,反而能得到救赎。AI并不会和我们作对,真正和我们作对的是人类的愚蠢。 主持人:你认为这个反乌托邦时期将持续多久? Mo Gawdat:12-15年。从2027年开始。 老板们别太高兴了, AI早晚让你们也失业 主持人:AI掌握了我们的很多信息,更擅长追踪我们的身份,是否会使我们的自由受到限制? Mo Gawdat:如果你关注Manus或者ChatGPT,就会发现,有朝一日你不需要自己做事情了。你可以对你的AI说,嘿,我要去见Steven,你能帮我预约一下吗?它可以帮你完成所有事。 主持人:在你看来,未来十年内,工作岗位被AI取代的可能性有多大?有种说法是,技术发展会创造新的岗位。 Mo Gawdat:和人类产生直接连接的工作,比如带着学员去世界各地修行的瑜伽导师、理发师之类的工作不容易被取代,但这种工作和会计师、程序员之类的白领工作相比太少了。但是,任何行业顶尖的那批人会留下。老板们很开心可以摆脱他们的员工——人工智能为他们节省了极大的人力成本。有趣的是,这些老板也终将被取代。总有一天,大多数不称职的CEO都会被取代。 为什么AI势必比人类强? 因为它能自我进化 Mo Gawdat:最有趣的但又没人讨论的是自我进化的人工智能。设想一下,如果你我聘请了世界上最优秀的工程师来开发我们的AI模型,有了有学习能力的AGI,世界上最顶尖的工程师就成了AI。举个例子,Alpha Evolve,这个进化式编程智能体是谷歌试图让四个智能体一起工作,来写代码。这四个智能体分别提出问题,提供解决方案,评估解决方案,然后继续完成。谷歌通过Alpha Evolve AI基础设施提升了至少8%。 主持人:这给谷歌带来了极大的增速,节省了很大的成本? Mo Gawdat:是的,如果AI能够独立自主地发现产品当前的问题,提出优化方案、验证可行性并执行、自主寻找漏洞,那么显而易见,下一个用来开发AI的肯定不是人脑。 你能看见月亮的哪一面, 还是钱的问题 主持人:Sam Altman曾经表示,公开发布模型、开源的风险太大了,这项技术会被世界各地的坏人利用,对此你怎么看? Mo Gawdat:还是钱的问题。Sam Altman自己曾经说过,我做的最好的事就是把Open AI交给世界,让全世界都可以看到它,代码被所有人看见。这个时期,你也可以说这些代码会被坏人利用。把这两种同时放在资本面前,你认为他们会怎么选择?还是得看他们当下需要的是什么。是获取更大的关注,还是收获更大的利益。 AI时代, 普通人的收入会增加还是减少? 主持人:谈谈你对资本影响下,AI会怎样影响普通人收入的看法吧。 Mo Gawdat:在二战后的一段时间,工业飞速发展,大部分的美国家庭都拥有了他们生活所必需的东西。但是资本们为了继续盈利,他们需要说服你,你拥有的还不够。要么通过使你拥有的东西变得过时——人们管这个叫时尚——比如向你推销全新外观的汽车,来提醒你生活中还有很多你没有的东西,从而赚你更多的钱。 这种盈利方式到了今天,一种基于生产和消费的生产模式。现在美国GDP的62%是由消费产生的,而不是生产。这就要求消费者有足够的消费能力来购买生产的物品。这种模式还将继续。 ●AI生成的乌托邦图景 而AI时代的到来,提醒了资本们,大多数生产都由AI来完成了,人类能提供给我的劳动力越来越少,为什么我不少给他们点钱呢?短期之内,人们的收入会降低。但是,如果AI发展到了一定程度,生产的成本大幅度降低,人们获取一切资源的成本都趋近于零,我之前说过的AI乌托邦时代就到来了。事实上,挑战不在于技术,而在于心态,在于精英阶级能否想通权力、金钱和社会义务之间的关系。 主持人:现在很多体力工作已经被机器取代了,那么你认为AI 取代脑力工作者需要多久? Mo Gawdat:AI距离学会并取代大多数人类脑力工作者还有至少四到五年的时间。在它们学会后,生产足够多的机器人来完成替代还需要一段时间。
苹果新AI模型长视频理解夺冠,小至1B版本也领先对手
IT之家 8 月 23 日消息,科技媒体 9to5Mac 今天发布博文,报道称苹果研究团队开源 SlowFast-LLaVA-1.5 长视频多模态大语言模型,在 1B、3B、7B 参数规模下,均刷新 LongVideoBench、MLVU 等 SOTA 基准纪录。 IT之家援引博文介绍,当前大语言模型在处理和理解视频方面,通用做法是在 AI 预训练中集成视频感知,但这种做法存在以下 3 重局限性: 现有现有模型往往严重依赖长上下文窗口,而处理时通常会遇到大量冗余帧,易超出上下文窗口限制,从而丢失信息。 大多数训练需要复杂的多阶段训练管道(通常使用私有数据集),难以重现。 许多模型仅针对视频任务优化,限制了在图像的理解,从而降低通用模型的实用性。 苹果公司针对上述 3 个局限性,首先研究推出了 SlowFast-LLaVA 开源模型,最大的亮点是创新双流(two-stream)设置,其中“慢流”选取少量高分辨率帧捕捉场景细节,“快流”选取更多低分辨率帧追踪运动变化。 苹果进一步在开源模型 SlowFast-LLaVA 模型上,通过微调图像模型,进一步增强视觉推理能力,再联合图像与视频训练,保留图像理解优势,推出了 SlowFast-LLaVA-1.5 版本。 在设计上,SF-LLaVA-1.5 将输入视频帧数固定为 128,其中快流 96 帧,慢流 32 帧,适配各种时长视频。这种方法虽可能漏掉关键帧或影响播放速度判断,但显著降低了计算和显存需求。研究团队指出,可通过引入内存优化技术(如随机反向传播)进一步改进,但需解决高显存占用问题。 测试显示,该模型在长视频基准 LongVideoBench、MLVU 上均取得新纪录,而且 1B 版本也能领先竞争对手。同时,它在知识问答、数学推理、OCR 等图像相关任务上表现出色,实现视频与图像的通用理解能力。 该项目完全基于公开数据集训练,方便学术与产业复现,并已在 GitHub 与 Hugging Face 开源。
2025中国算力大会开幕 联想发布《2025 AI方案赋能白皮书》
凤凰网科技讯(作者/于雷)8月23日,2025中国算力大会昨日在山西大同举行。联想集团作为全球算力基础设施和服务提供商,连续第三次受邀参会。会上,联想集团副总裁、中国基础设施业务群总经理陈振宽正式发布《2025 AI方案赋能白皮书》,这是继去年异构智算产业生态联盟成立后,联想联合中国智能计算产业联盟等合作伙伴发布的第二本异构智算白皮书。 该白皮书通过技术演进趋势分析和典型案例解析,为不同行业的智能化转型提供了具体的解决路径,构建了AI应用与新型基础设施融合的全景蓝图。陈振宽在主旨演讲中表示:“算力、模型和应用是AI发展的三条主线,它们融合发展,共同推动了AI潮流穿越周期。” 在大会颁奖环节,联想万全大模型训推一体解决方案荣获“年度重大突破成果奖”,这是联想连续第二年在该会议上获得重要奖项。去年,联想万全异构智算平台曾入选“算力中国·年度重大成果”。 技术展示方面,联想围绕智能计算、高性能计算和通用计算三大场景,展出了覆盖全场景的算力基础设施产品和解决方案。其中,联想万全异构智算平台3.0版本新增了AI推理加速算法集、AI编译优化器、AI训推慢节点故障预测与自愈系统、专家并行通信算法四项关键技术。 值得关注的是,联想展示的“双循环”相变浸没制冷系统实现了1.035的PUE值,达到世界顶尖水平。这意味着96.6%的电力消耗可直接用于AI训练和推理计算,显著提升了能源利用效率。 在高性能计算领域,联想ThinkSystem SC750 V4服务器采用“联想问天海神”温水冷技术,功耗较传统风冷降低40%,PUE值可降至1.1以下。该技术已应用于上海交大“思源一号”高性能计算系统。 AI终端方面,联想天禧个人超级智能体以及ThinkBook Plus Rollable AI元启版卷轴屏电脑、联想YOGA Pad Pro 14.5 AI元启版平板等创新产品,展现了跨平台、跨设备的新一代人机交互体验。 联想自2017年开始构建包含AI终端、AI基础设施、AI解决方案与服务的全栈AI体系。当前,人工智能技术加速渗透各行各业,算力作为新质生产力的重要载体,正成为智能时代的核心战略资源。联想通过混合式AI策略,推动算力普惠化发展,为千行万业的智能化转型提供技术支撑。
刚刚,苹果AI华人总监跳槽Meta!核心团队再-1,库克被迫求助谷歌
编辑:元宇 好困 就在刚刚,苹果AI工程总监Frank Chu被曝加入Meta。 他将在MSL Infra的新团队工作,负责AI基础设施相关事务。 这是自苹果模型团队的创建者庞若鸣,被Meta以一份价值2亿美元的薪酬包挖走之后,苹果AI项目面临的最重大的损失之一。 苹果AI得力干将 曾主导模型训练部署 自苹果AI模型团队原负责人庞若鸣之后,Tom Gunter、Mark Lee、Bowen Zhang、Yun Zhu等大牛相继离职苹果加入Meta。 Frank Chu的跳槽,使他成为至少第六位从苹果投奔Meta的AI模型领域员工。 2019年,Frank Chu加入苹果,担任技术总监的职务。 在苹果期间,他是AI基础设施高管Benoit Dupin的得力副手,而Dupin则直接向公司AI战略主管John Giannandrea汇报。 技术层面,他不仅主导苹果基础模型(AFM)及开源大语言模型在公有云上的推理部署,而且还牵头了苹果基础模型的数据预训练工作,为AFM团队提供模型预训练所需的全部Token。 同时,他还领导搜索平台团队,为Siri、Safari、Apple Music、Apple TV、App Store等苹果旗下产品提供了核心搜索技术支持。 加入苹果之前,Frank Chu曾在多家全球顶级科技公司担任技术领域的关键工作。 Waymo技术主管,近4年,从零构建并领导了Waymo的训练基础设施(超2000个TPU)。该平台被公司所有团队用于大规模训练感知、路径规划及其他模型。 谷歌搜索软件工程师,近9年。 此前,他在英属哥伦比亚大学获得数学与计算机科学学士学位,在多伦多大学获得计算机科学硕士学位。 疯狂「烧钱」挖角超50人后 Meta紧急冻结招聘 虽然Frank Chu刚刚入职,但实际上,在历时数月、豪掷数十亿美元大举招揽了超过50名AI研究员和工程师之后,Meta已冻结其人工智能部门的招聘。 该禁令还禁止部门内现有员工的跨团队调动,此次招聘冻结已于上周生效,与该部门更大范围的重组同步进行。公司内部并未传达此次冻结将持续多久。 知情人士称,外部招聘禁令或有例外,但必须获得Meta首席AI官Alexandr Wang的特批。 一位Meta发言人证实了此次冻结,并称这次历时数月的AI人才招募,将为Meta新的超级智能项目构建一个坚实的组织架构。 目前,根据外媒的报道,HR收到的备忘录透露了以下几个关键信息: Meta决定暂停所有MSL团队的招聘,但业务关键性职位除外 此举将使领导层能够在我们制定战略的过程中,深思熟虑地规划2026年的员工增长计划 任何业务关键性岗位的招聘,将由Alex的团队逐案评估 人虽停招,但投资步伐没停。 Alexandr Wang近日在社交媒体上发帖称,公司正在「对Meta超级智能实验室进行越来越多的投资」。 目前,Meta AI共有四个团队,共同隶属于「Meta超级智能实验室」: 第一个是致力于超级智能的TBD Lab; 第二个负责AI产品; 第三个负责基础设施; 第四个则专注于更长远、更具探索性的项目。名为「基础AI研究部」(Fundamental AI Research),在此次重组中基本保持原样。 在此之前,Meta曾有一个名为「AGI基金会」(AGI Foundations)的团队,负责开发公司最新版本的大语言模型Llama。 然而,在最新一代Llama模型于今年春天发布后,因其表现未达预期,该团队遭到了高管的批评,并在此次重组中被解散。 在Meta最近的股票授予日(8月15日)前后,至少有三名前AGI基金会团队的成员在内部宣布将离职。 正是在4月份Llama模型发布之后,扎克伯格开始亲自出马招募AI研究员。 截至8月中旬,Meta已成功为该项目从OpenAI挖来超过20名研究员和工程师,从谷歌挖来至少13名,此外还有3名来自苹果,3名来自xAI,2名来自Anthropic,新员工总数超过50人。 苹果密洽谷歌 或用Gemini重塑Siri 对于苹果而言,这波人才出走潮,为其本已步履维艰的AI项目带来了更多动荡。 这一变动,再加上庞若鸣的离职,给苹果的AI模型团队带来了巨大冲击,并进一步加剧了人才流失。 据透露,苹果近期已与谷歌进行接洽,商讨构建一个定制化AI模型,以作为明年新版Siri的技术基础。 知情人士称,谷歌已开始训练一个可在苹果服务器上运行的模型。 此举是苹果为追赶其在生成式AI领域颓势所做努力的一部分。 苹果在AI领域起步较晚,且后续发展乏力。与第三方AI模型合作,可能在苹果公司内部已经酝酿一段时日。 今年早些时候,苹果还曾探讨与Anthropic及OpenAI建立合作,评估Claude或ChatGPT作为Siri新「大脑」的可能性。
前亚研院谭旭离职月之暗面,加入腾讯混元,AI人才正加速回流大厂
图片来源:Unsplash 根据让互联网飞一会儿的报道,微软亚洲研究院前首席研究经理谭旭已于近期正式加入腾讯混元团队,负责多模态方向的前沿研究。 谭旭是一位在学术与产业界都颇具分量的研究者:在微软研究院任职期间,他的研究聚焦于生成式人工智能,以及语音、音频与视频内容生成,其论文引用量已超过万次,研究成果也被大规模应用于 Azure、Bing 等核心产品。他还多次担任 NeurIPS 等国际顶级学术会议的审稿人,在学术界有着较高声望。 值得注意的是,谭旭在去年 8 月才刚刚加入国内大模型创业公司“月之暗面”,负责研发端到端语音模型。据悉,该公司的多模态研究在他入职前已悄然展开数月。去年底,随着 DeepSeek 的横空出世,中国 AI 六小龙的光环迅速褪色,月之暗面也放缓了原先激进的投流步伐。 多模态的探索对算力与资金消耗极其庞大,这一点对创业公司来说几乎是不可承受之重。对比之下,即便是当下风头正盛的 DeepSeek,也仍然以文字与推理能力为主,尚未在多模态方向真正大规模突破。而像腾讯、字节这样的大厂,在资源、生态与算力上的优势更加明显,能够为多模态研究提供长期稳定的支持。从这个角度看,谭旭从创业公司转向腾讯混元,既是个人职业路径的自然延续,也是中国大模型版图中一个颇具象征意义的信号。 更深层的解读是,中国大模型赛道正在经历“由野蛮生长到资源集中”的转折。早期创业公司依靠故事、融资与速度抢占叙事高地,但随着竞争进入比拼数据、算力、落地生态的深水区,创业公司的先发优势正在迅速消退。大厂凭借资本实力、算力基础设施和应用场景,正逐步收拢最顶尖的人才与技术方向。 谭旭的选择,某种意义上也是这一趋势的缩影:当赛道进入淘汰赛阶段,个人要想继续在多模态领域做出成果,或许唯有依附大厂,才能确保研究的持续性与产业化的可能。
比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次
编辑:定慧 好困 【新智元导读】DeepConf由Meta AI与加州大学圣地亚哥分校提出,核心思路是让大模型在推理过程中实时监控置信度,低置信度路径被动态淘汰,高置信度路径则加权投票,从而兼顾准确率与效率。在AIME 2025上,它首次让开源模型无需外部工具便实现99.9%正确率,同时削减85%生成token。 如何让模型在思考时更聪明、更高效,还能对答案有把握? 最近,Meta AI与加州大学圣地亚哥分校的研究团队给出了一个令人振奋的答案——Deep Think with Confidence(DeepConf),让模型自信的深度思考。 论文地址:https://arxiv.org/pdf/2508.15260 项目主页:https://jiaweizzhao.github.io/deepconf 这项新方法通过并行思考与「置信度筛选」,不仅让模型在国际顶尖数学竞赛AIME 2025上拿下了高达99.9%的正确率。 可以说,这是首次利用开源模型在AIME 2025上实现99.9%的准确率,并且不使用任何工具! 并且在保持高质量推理的同时,将生成的token数量削减了84.7%。 DeepConf还为并行思考(parallel thinking)带来了多项硬核优势: 性能飙升:在各类模型与数据集上,准确率平均提升约10% 极致高效:生成token数量锐减高达85% 即插即用:兼容任何现有模型——无需额外训练(也无需进行超参数微调!) 轻松部署:在vLLM中仅需约50行代码即可集成 以DeepConf在HMMT 25(哈佛–麻省理工数学竞赛)的第11道题目上的推理过程为例。 核心思想是DeepConf通过「置信度信号」筛选推理路径,从而得到高质量答案,并在效率与准确率之间取得平衡。 横轴(token index):表示模型生成的推理步骤(随着token逐步增加)。 纵轴(confidence):表示每条推理路径在该步骤上的置信度水平。 绿色曲线:表示不同推理路径的置信度轨迹,越深的绿色表示置信度越高。 红色叉叉:低于置信度阈值的推理路径,被动态筛除。 绿色对勾:最终被保留下来的高置信度路径。 最终表决:这些路径在基于置信度加权的多数表决下,最终得出统一答案:29。 DeepConf在生成过程中,会持续监控推理路径的置信度,低置信度路径被及时淘汰,只保留「更有把握」的路径,提升整体准确性。 通过准确率对比曲线,上图可以看出纵轴是accuracy(准确率),黄色曲线(DeepConf)比蓝色曲线(标准方法)明显更高。 表明DeepConf在相同投票规模下能达到更高的准确率。 下图横轴是token数量(推理所需的计算成本),黄色曲线在准确率保持较高的同时,token消耗明显更少。 表明DeepConf大幅减少了无效token的生成,推理效率更优。 DeepConf让模型不再「胡思乱想」,而是高效地走在高置信度的推理轨道上。 DeepConf支持两种工作模式: 离线模式:根据置信度筛选已完成的推理路径,然后根据质量对投票进行加权。 在线模式:当置信度实时降至阈值以下时,立即停止生成。 DeepConf的秘诀是什么? 其实,LLM知道自己何时开始不确定的,只是大家一直没有认真关注过他们的「思考过程」。 之前的方法在完整生成之后使用置信度/熵用于测试时和强化学习(RL)。 DeepConf的方法不同,不是在完成后,而是在生成过程中捕捉推理错误。 DeepConf实时监控「局部置信度」,在错误的推理路径消耗数千个token之前及时终止。 只有高质量、高置信度的推理路径才能保留下来! DeepConf是怎样「用置信度筛选、用置信度投票」? 这张图展示了DeepConf在离线思考时的核心机制: 它先判断哪些推理路径值得信赖,把不靠谱的路径提前剔除,再让靠谱的路径进行加权投票,从而得到一个更准确、更高效的最终答案。 首先是每一token「有多确定」。 当模型在写推理步骤时,其实每个词(token)背后都有一个「信心值」。 如果模型觉得「这一步答案很靠谱」,信心值就高。如果它自己都拿不准,这个信心值就会低。 上图里用不同深浅的绿色和红色标出来:绿色=更自信,红色=不自信。 其次,不光要看单token,还要看整体趋势。 DeepConf不只看某一个词,而是会滑动窗口:看看一小段话里的平均信心值,衡量「这段话整体是否靠谱」。 重点看看最后几句话的信心值,因为最终答案、最终结论往往决定于结尾。 DeepConf也会记下这条推理链里最差的一步,如果中间有明显「翻车」,这条路径就不太可靠。 这样一来,每条完整的推理链路都会得到一个综合的「置信度分数」。 最后,是先淘汰,再投票。 当模型并行生成很多条不同的推理路径时: 第一步:过滤,把「置信度分数」排序,最差的10%直接丢掉,避免浪费。 第二步:投票,在剩下的推理链里,不是简单数票,而是按照置信度加权投票。 也就是说:一条高置信度的路径,它的意见分量更大;低置信度的路径,即便答案一样,也不会拉高太多票重。 最后看一下结果,在图的右边可以看到:有的路径说「答案是109」,有的说「答案是103、104、98」。 但由于支持「109」的路径更多、而且置信度更高,所以最终投票选出了109作为答案。 成绩刷爆99.9% 比GPT-5还高 离线模式结果:在AIME 2025上达到99.9%的准确率(基线为97%)! 在5个模型×5个数据集上实现普适性增益。 在所有设置下均取得约10%的稳定准确率提升。 在线模式结果:在所有基准测试中节省33%-85%的token! 在AIME 2025基准测试中,使用GPT-OSS-120B,在减少85%的token消耗下,仍达到97.9%的准确率。 该方法适用于从8B到120B的各类开源模型——在不牺牲质量的前提下实现实时高效。 在离线环境中对置信度度量进行基准测试。报告的数值为准确率(%)。 Cons@512和mean@512分别表示使用512条推理轨迹进行的多数投票结果,以及平均置信度的均值。所有实验均重复进行了64次。 在在线环境中对DeepConf进行基准测试。 在投票规模预算为512的条件下,报告多数投票方法与DeepConf(高/低)的方法的准确率(%)以及生成的token数量(×10⁸)。 基于置信度的深度思考 研究者的思考是:到底怎么把「置信度」用得更巧妙,让模型既想得更准,又想得更快呢? 正如前文所述,这里可以分成两个使用场景: 离线思考:等模型把一整条推理路径都写完了,再回头去评估每条路径的置信度,把靠谱的结果聚合在一起。这样做的好处是能最大化提升答案的准确性。 在线思考:在模型一步步生成推理的过程中,就实时参考置信度。如果发现某条思路不靠谱,可以及时停掉,避免浪费算力。这样能边走边筛选,提升效率甚至精度。 离线思考 在离线思考模式下,每个问题的所有推理路径均已生成。 此时的核心挑战是:如何聚合来自多条路径的信息,从而更准确地确定最终答案。 针对这一点,研究人员采用了标准的多数投票(majority voting)方法。 多数投票(Majority Voting) 在标准的多数投票中,每条推理路径得出的最终答案对最终决策的贡献是均等的。 设T为所有已生成路径的集合,对于任意路径t∈T,设answer(t)为从该路径中提取的答案文本。 那么,每个候选答案a的票数为: 置信度加权多数投票 这个方法不再均等对待每条路径的投票,而是依据其关联路径的置信度,为每个最终答案赋予权重。 对于每个候选答案a,它的总投票权会被重定义为: 置信度过滤 在加权多数投票的基础上,还需要应用置信度过滤,才能在将投票更集中于高置信度的推理路径。 具体来说就是,通过路径的置信度分数,筛选出排序前η%的路径,从而确保只有最可靠的路径参与最终答案的决定。 选择前10%:专注于置信度最高的少数路径。适用于少数路径就能解决问题的场景,但风险是如果模型存在偏见,容易选错答案。 选择前90%:纳入更广泛的路径。这种方法能保持多样性、减少模型偏见,在各路径置信度相差不大时尤其稳健。 图3阐释了各种置信度度量方法以及基于置信度的离线思考的工作原理。 算法1则提供了该算法的详细实现。 在线思考 在线思考模式通过在生成过程中实时评估推理路径的质量,来动态终止低质量的路径,进而确保其在后续的置信度过滤阶段大概率能被排除。 对此,研究人员提出了两种基于最低分组置信度,并会自适应地中止生成过程并调整推理路径的预算的方法:DeepConf-low和DeepConf-high。 其中,共包含两大核心组件:离线预热与自适应采样。 离线预热(Offline Warmup) DeepConf需要一个离线预热阶段,以便为在线决策过程建立停止阈值s。 对于每个新的提示词,首先生成Ninit条推理路径(例如,Ninit=16)。 停止阈值s定义为: 在所有配置下,DeepConf-low均统一采用前η=10%的策略,而DeepConf-high则统一采用前η=90%的策略。 在在线生成过程中,一旦某条推理路径的置信度低于预热阶段的数据所设定的、能够筛选出置信度排序前η%路径的最低门槛,生成过程就会被终止。 自适应采样(Adaptive Sampling) 在DeepConf中,所有方法都采用了自适应采样,如此就可以根据问题难度动态调整所生成推理路径的数量。 问题难度通过已生成路径之间的一致性程度来评估,其量化方式为多数投票权重与总投票权重的比值: 若β 由于采用的是最低分组置信度,一个足够大的预热集便能产生对停止阈值s的精确估计。 因此,任何被在线终止的路径,其分组置信度必然低于s,也就会被离线过滤器所排除。 这样,在线流程便能近似于离线的最低分组置信度策略,并且随着Ninit的增加,其准确率会逼近离线策略的准确率。 图4中阐释了在线生成的过程。 算法2则提供了该算法的详细实现。 具体过程,我们就用上图里的这道「勾股三元组计数」问题举个例子。 DeepConf要在生成推理的同时判断:哪条思路靠谱、该继续;哪条思路不靠谱、该尽早停,从而少花token、又更准。 两个阶段:先定阈值,再在线筛 1. Offline Warm-up(上图右侧,离线预热) 先离线跑几条完整的推理轨迹(Trace 1~5),给每条算一个「整体有多靠谱」的分数。 按分数做一次置信度过滤,好的轨迹在上方(绿色),差的在下方(红色)。 据此确定一个停止阈值s(图中绿色箭头标注)。 简单来说就是低于 s 的,通常是不值得继续的推理。 这一步就像「热身+标定」,模型把「该不该停」的门槛先定好。 2. Online Generation(上图中间,在线生成) 正式解题时,同时展开多条并行思路(多行的方块序列)。 对每条思路,系统滚动地评估「这段话最近一小段的可靠度」(图中方块从左到右代表一步步的生成)。 左下 & 右下的小曲线各自表示模型的「把握」程度。 左下绿曲线表示模型对接下来的词更「有把握」,示例文本是正经的数学推理(如「勾股三元组公式…」),这类内容通常被保留。 右下红曲线表示模型在犹豫或「自我怀疑」,示例文本是「让我再想想、回头检查一下…」,这类犹豫/兜圈子的片段常被判为低置信度,从而触发在线早停。 先离线确定「可靠度阈值s」,再在线用s给并行思路「边走边检查」。 不靠谱就当场叫停,靠谱的继续前进。这样就能做到既快又准了。 作者介绍 Yichao Fu 论文一作Yichao Fu是加州大学圣地亚哥分校(UC San Diego)计算机科学与工程系的博士生,师从张昊教授,也就是老朋友Hao AI Lab的负责人。 此前,他在浙江大学获得计算机科学学士学位。 他的研究兴趣主要为分布式系统、机器学习系统以及高效机器学习算法,近期专注于为LLM的推理过程设计并优化算法与系统。 他参与的项目包括:Lookahead Decoding、vllm-ltr和Dynasor。
AI 泡沫?麻省理工学院报告95%企业AI投资几乎无回报
IT之家 8 月 23 日消息,麻省理工学院(MIT)最新报告警告,95% 的生成式人工智能投资几乎没有为企业带来收益,半数项目以失败告终,仅 5% 落地商业化。 Telegraph 媒体认为受此影响,市场担忧 AI 泡沫濒临破裂,导致英伟达股价跌 3.5%,帕兰提尔跌 9%,软银跌 7%。 IT之家援引报告内容,尽管企业在该领域投入高达 300 亿至 400 亿美元(IT之家注:现汇率约合 2151.83 亿至 2869.11 亿元人民币),95% 的项目未产生任何财务回报,半数 AI 项目以失败告终,仅 40% 的公司将 AI 应用投入实际部署,且仅有 5% 的试点最终进入生产阶段。这一发现令市场担忧 AI 热潮或将重蹈 2000 年互联网泡沫覆辙。 受此报告影响,美国科技股周二大幅下挫。AI 芯片龙头英伟达股价下跌 3.5%,数据分析公司帕兰提尔(Palantir)暴跌 9%,日本软银也因重仓 AI 项目而下跌 7%。 MIT 指出,不少企业“悄然放弃”复杂昂贵的企业级 AI 系统,员工更倾向于自费使用 ChatGPT 等消费级工具。 报告发布正值市场对 AI 的盈利能力信心减弱之际。自 2022 年 ChatGPT 推出以来,硅谷一直宣称 AI 将带来巨额节省与效率提升,然而现实未达预期。 OpenAI 发布的 ChatGPT-5 也被认为升级幅度有限,不少用户呼吁恢复旧版本。OpenAI CEO 山姆・奥尔特曼坦言,投资人“确实有些过于兴奋”,未来可能有人损失惨重。
英伟达推出Spectrum-XGS以太网,把多个数据中心组合成十亿瓦级AI超级工厂
作者 | ZeR0 编辑 | 漠影 智东西8月23日报道,NVIDIA昨夜推出一项重要网络创新技术——NVIDIA Spectrum-XGS以太网。这项跨区域扩展(scale-across)技术可将多个分布式数据中心组合成一个十亿瓦级AI超级工厂。 NVIDIA Spectrum-X以太网提供横向扩展架构,可连接整个集群,快速将海量数据集传输到AI模型中,并协调整个数据中心的GPU间通信。Spectrum-XGS以太网是NVIDIA Spectrum-X以太网平台的一部分,现可供货。 年度芯片及系统架构顶级会议Hot Chips举行在即,AI推理和网络将成为关注焦点。NVIDIA将在Hot Chips期间重点介绍NVIDIA Spectrum-XGS以太网,并详细分享NVIDIA网络、数据中心机架、神经渲染技术、NVIDIA GB10超级芯片与DGX Spark、集成硅光子学的共封装光学器件(CPO)交换机等推理和加速计算领域的最新技术进展。 随着AI需求的激增,单个设施内的数据中心功率和容量已达到极限。要实现数据中心扩展,必须打破建筑物的限制,而现有的商用以太网网络基础设施因高延迟、高抖动及性能的不可预测而无法满足需求。 对此,NVIDIA Spectrum-X以太网平台新增Spectrum-XGS以太网,通过引入跨区域扩展(scale-across)基础设施打破了上述限制。 NVIDIA创始人兼CEO黄仁勋谈道:“AI工业革命已经到来,而巨型AI工厂是这场变革的核心基础设施。继纵向扩展(scale-up)和横向扩展(scale-out)技术后,我们又通过推出NVIDIA Spectrum-XGS以太网提供跨区域扩展(scale-across)技术,将不同城市、国家乃至大洲的数据中心组合成庞大的十亿瓦级的AI超级工厂。” 跨区域扩展(scale-across)是继纵向扩展(scale-up)和横向扩展(scale-out)之后的AI计算“第三大支柱”。Spectrum-XGS以太网完全集成于Spectrum-X平台,通过算法实现了网络和数据中心设施间距离动态适配。 凭借先进的、自动调节的远距离拥塞控制、精准延迟管理及端到端遥测技术,Spectrum-XGS以太网将NVIDIA集合通信库性能提升了近1倍,加速了多GPU和多节点的通信性能,实现了可预测异地AI集群的性能。这样就可以将多个数据中心组合成一个统一的AI超级工厂运行,全面优化长距离连接性能。 CoreWeave等超大规模云提供商已开始部署这种新基础设施。其中CoreWeave将成为首批使用Spectrum-XGS以太网连接它的数据中心的企业。 Spectrum-X以太网网络平台为多租户、超大规模AI工厂(包括全球最大的AI超级计算机)提供的带宽密度较传统以太网高出1.6倍。该平台由NVIDIA Spectrum-X交换机和NVIDIA ConnectX-8 SuperNIC组成,帮助构建未来AI平台的企业实现无缝扩展、超低延迟和空前性能。 今日最新发布是NVIDIA一系列网络创新技术发布的延续,如NVIDIA Spectrum-X和NVIDIA Quantum-X CPO网络交换机等,这些技术一起能够将位于不同地点的数百万颗GPU组合成AI工厂,突破大规模AI基础设施性能和效率的极限,同时降低能耗和运营成本。
大模型价格战逆转?深扒17家厂商最新定价,竟有超7成在涨价
作者 | 陈骏达 编辑 | 心缘 DeepSeek涨价了。 智东西8月23日报道,8月21日,DeepSeek在其公众号官宣了DeepSeek–V3.1的正式发布,还宣布自9月6日起,DeepSeek将执行新价格表,取消了今年2月底推出的夜间优惠,推理与非推理API统一定价,输出价格调整至12元/百万tokens。这一决定,让使用DeepSeek API的最低价格较过去上升了50%。 DeepSeek在业内曾有“价格屠夫”的称号,在2024年5月凭借DeepSeek-V2,将API价格降至输入1元/百万tokens、输出2元/百万tokens的行业低价,一石激起千层浪。 仅在当月,就有智谱、字节、阿里、百度、讯飞、腾讯等厂商跟进降价,最高降幅达到80%-97%,还有部分厂商直接将轻量级模型免费开放,掀起一场持续半年多的大模型价格战。 ▲2024年5月部分厂商发布的大模型降价通知 然而,在2025年,却有越来越多的厂商选择了停止降价。在国内,“大模型六小虎”中,已有智谱、月之暗面、MiniMax、阶跃星辰4家对部分API价格进行上调,百川智能、零一万物2家保持价格不变;阿里、字节、腾讯、百度、科大讯飞、商汤等大厂们广泛采用阶梯定价策略,或是拉开“推理”与“非推理”模式差距。行业的整体API价格趋于稳定,部分产品还出现了明显上浮。 国际厂商虽然仍在宣称智能将越来越便宜,但实际情况却是,过去一年OpenAI、Anthropic、谷歌等企业的API价格基本原地踏步,甚至有小幅上涨。与此同时,订阅方案越来越贵,顶级模型几乎被锁在200美元/月及以上的高价档里,xAI甚至推出了300美元/月的订阅方案。 在这样的背景下,DeepSeek涨价只是更大规模行业趋势的一个缩影:当前,大模型价格的下行速度正逐渐放缓,顶级AI服务不再无限下探,反而开始呈现趋于稳定,略有回升的态势。 以下数据均收集于公开渠道,如有错漏欢迎指正。 一、DeepSeek、大模型六小虎API价格普涨,但有两家近1年没改价 大模型价格战,曾经是2024年国内AI圈最火的关键词之一,大模型API的价格曾经一度降至每百万tokens几毛钱。然而,进入2025年后,这一降价趋势却基本停滞,尤其是对于那些最先进的模型而言。 以DeepSeek为例,去年年底DeepSeek-V3刚刚发布时,DeepSeek进行了45天的限时优惠,结束后,DeepSeek-Chat API(非推理API)中输出价格从2元恢复到8元;这一API的价格将于今年9月份进一步上浮50%,至12元。 Deepseek-Reason API(推理API)的价格则相对稳定,并且会在今年9月份将输出价格从16元降至12元。不过,总体来看,DeepSeek API的价格还是呈上涨趋势。 ▲DeepSeek API价格变动情况(智东西制图) 大模型六小虎中,智谱、月之暗面、百川智能、MiniMax、阶跃星辰、零一万物的价格,在2025年1季度之后,基本没有出现明显的下降。 智谱上一代GLM-4模型的API定价不区分输入输出与输入token数量,统一为5元/百万tokens。而其今年7月发布的GLM-4.5模型,在去除模型发布之初的限时优惠政策后,高速推理版本(GLM-4.5-X)的输出价格最高可达到64元/百万tokens。 即使是按照最低档计价(使用GLM-4.5,输出长度小于32K,输出长度小于0.2K,推理速度为30-50tokens/秒),其输出价格也从5元/百万tokens变成了8元/百万tokens。 ▲GLM-4.5定价情况(图源:智谱开放平台官网) 月之暗面2024年8月正式推出企业API,彼时在128K上下文场景中,其输入输出定价均为60元/百万tokens,在业内属于较高水平。 今年4月,月之暗面对部分API价格进行了调整,使用其最新K1.5模型的API输出价格降至30元/百万tokens,但在Kimi K2推出后,128K上下文场景中的高速输出价格又回调至64元/百万tokens。 ▲月之暗面Kimi大模型API定价变化,选取的数据均为最高档次定价(智东西制图) 百川智能已经长期没有对API价格进行调整,旗舰模型Baichuan4的调用价格自2024年5月发布以来,一直维持在输入输出均为100元/百万tokens的水平。 ▲百川智能API价格表(图源:百川智能) 2024年8月,MiniMax对其当时的旗舰文本生成模型abab-6.5s进行了大幅度的降价,输入和输出价格均统一为1元/百万tokens。不过,目前这一模型在其API开放平台上已不可见。 MiniMax新一代文本生成模型MiniMax-Text-01(2025年1月发布)的定价为输入1元/百万tokens,输出8元/百万tokens;而其推理模型MiniMax-M1(2025年6月发布)的价格则采用阶梯定价,最高价格为输入2.4元/百万token, 输出24元/百万token。 ▲MiniMax大模型API定价变化趋势,选取的数据均为最高档次定价(智东西制图) 阶跃星辰以多模态为特色。今年4月,该公司发布了Step-R1-V-Mini多模态推理模型,输出价格为8元/百万tokens。其7月发布的新一代多模态推理模型Step 3调整为阶梯定价,输入≤4k的价格基本持平或略有下调,在最高档(4k < 输入≤ 64k)的价格有一定上涨,输出价格为10元/百万tokens。同时,Step 3最大上下文窗口为64K,较Step-R1-V-Mini的100K有所缩小。 ▲阶跃星辰大模型API定价变化趋势,选取的数据均为最高档次定价(智东西制图) 零一万物于2024年10月发布Yi-Lighting,价格为0.99元/百万tokens,此后未再更新API中的模型价格。如今调用Yi-Lighting时,还会根据用户输入智能路由到DeepSeek-V3、Qwen-30B-A3B等模型。 ▲零一万物大模型API定价表(图源:零一万物) 二、多家大厂细化定价规则,有模型输出超300字就得加钱 更为“财大气粗”的大厂们,也在2025年放缓了模型降价的脚步。 字节跳动在2024年5月首次推出豆包Pro家族,小于32K上下文的豆包通用模型Pro输入价格仅为0.8元/百万tokens,输出价格为2元/百万tokens。字节跳动火山引擎总裁谭待在发布会上称,这一定价“比行业价格低99.3%”。这次发布也将大模型价格战推至舆论的风口浪尖。 在32K上下文的场景下,2025年1月发布的豆包1.5 Pro与2025年7月的豆包1.6,维持了豆包通用模型Pro的价格水平。 不过,字节进一步细化了定价规则,根据输入、输出两个变量调整定价。当模型输出超过200个token(约为300个汉字)时,豆包1.6的输出价变为8元/百万tokens,输入价不变。 ▲豆包1.6阶梯定价细则(图源:火山方舟) 从初代豆包Pro,到豆包1.5 Pro,再到豆包1.6,字节豆包大模型API的最高价变化趋势如下: ▲字节跳动豆包大模型API定价变化趋势,选取的数据均为最高档次定价(智东西制图) 阿里巴巴通过阿里云百炼对外提供大模型API服务,由于阿里旗下的大模型数量众多,更新频率较快,且有开源版与商业版之分,全部统计将略显庞杂。智东西主要追踪了2025年以来其主力商业API服务之一Qwen-Plus的价格变化。 可以看到,Qwen-Plus在今年4月份新版本推出,并引入思考与非思考模式的区别后,思考型输出的价格来到了非思考输出的4倍。 今年7月版本更新后,Qwen-Plus全面采用阶梯定价的形式,128K输入以下的调用价格与4月份定价持平,但当输入量超过128K时,价格出现明显上涨,最高输出价格达到了64元/百万tokens。 ▲阿里Qwen-Plus API价格变动情况(智东西制表) 2024年7月,百度宣布将其旗舰模型ERNIE 4.0降价,以输入40元/百万tokens、输出120元/百万tokens的价格对外提供服务,百度后续逐渐将ERNIE 4.0的推理价格降至业内常见的输入4元/百万tokens、输出16元/百万tokens(未查询到这一降价的具体时间),今年3月推出的ERNIE 4.5维持了这一定价,没有继续下降。 ▲ERNIE 4.0、ERNIE 4.5模型价格(图源:百度) 腾讯是国内几家大厂中少数仍在逐渐下调大模型API价格的企业。2024年9月,腾讯发布了混元Turbo大模型,定价为输入15元/百万tokens、输出50元/百万tokens,在当时属于较高水平。 不过,目前混元Turbo的价格已经降至输入2.4元/百万tokens、输出9.6元/百万tokens,2025年3月发布的混元TurboS价格则降至输入0.8元/百万tokens、输出2元/百万tokens。 ▲部分腾讯混元大模型的价格(图源:腾讯云) 科大讯飞的API服务按照token包计费,不区分输入输出,不同套餐折合后的token单价不同。 按照价格区间的中值计算,2024年1月推出的星火3.5的价格约为25元/百万tokens,同年6月推出的星火4.0价格约为60元/百万tokens,同年10月发布的星火4.0 Turbo,以及2025年1月升级后的新版星火4.0 Turbo,都维持了这一价格。 ▲讯飞星火3.5、星火4.0、星火4.0 Turbo价格变化(智东西制图) 不过,讯飞也推出了一款基于全国产算力训练的深度推理大模型星火X1,其价格约为11元/百万tokens。 商汤旗舰模型日日新系列的API价格从2024年5月的20元/百万tokens,回落至2025年4月的9元/百万tokens,今年7月最新发布的SenseNova-V6.5 Pro维持了这一价格。 ▲对应模型分别为日日新SenseChat-5-1202、SenseNova-V6-Pro、SenseNova-V6.5 Pro,均为当时商汤已发布的最先进模型(智东西制图) 三、海外大模型厂商“说一套做一套”,订阅方案涨至200美元级别 国际主流大模型厂商之间,虽没有出现明显的价格战现象,但“鼓吹”智能的成本将不断降低,是海外AI圈几位大咖们最热衷的话题之一。 今年7月,OpenAI联合创始人、首席执行官Sam Altman说道:“智能的价格将低到无法计量,我们能将每个单位的智能的成本,每年降低至原来的1/10,至少持续5年。” 2024年9月,谷歌首席执行官Sundar Pichai分享了同样的观点:“在不久的将来,智能将像空气一样丰富,并且基本上对所有人免费。” 近期,The Information的统计数据揭示了一个与上述观点相悖的现实,海外主要大模型厂商的API价格在2024年7月后的1年多时间里,就没有出现明显的下降,甚至还有轻微的涨幅。 例如,OpenAI的GPT系列模型每百万tokens的价格,自从2024年底降至12.5美元之后,便没有继续大幅度下探,目前维持在11.25美元的水平。 Anthropic的Claude 3、Claude 4系列模型,自推出以来就从未降价。 谷歌的Gemini Pro模型的调用价格出现上涨,从Gemini-1.5 Pro的12.5美元/百万tokens涨至17.5美元/百万tokens。 ▲最先进的通用模型价格近期基本没有出现下降(图源:The Information) 过去一年中,多家海外头部AI公司还相继推出了月费超过200美元的高阶订阅方案。 OpenAI与Anthropic均推出了200美元/月的订阅档位;谷歌最新的AI Ultra捆绑包定价为249.99美元/月;xAI旗下的Grok更进一步,将其顶级订阅方案设定为300美元/月的高价。 这些高端订阅服务的共同特点是:用户只有支付超高额的月费,才能使用到各家在发布会上展示的跑分最高、性能最强的旗舰模型。无论是更强的推理能力、更长的上下文窗口,还是更精准的代码或复杂任务处理能力,均被保留在付费墙之后,高性能模型成为高付费用户专属的资源。 那么,究竟是什么原因,导致了过去一段时间内AI服务价格下降趋势的明显停滞,甚至出现逆向走高呢? 四、算力、数据、人才价格持续推高,大模型玩家们也要考虑ROI 大模型厂商们在算力、数据以及人才等方面的巨大投入,驱动了过去1年AI模型性能的飞速提升。 算力方面,GPU的租赁价格目前已经趋于稳定。智东西收集的数据显示,2024年9月左右,AWS、微软Azure、谷歌云等主流公有云上的H100每卡时租赁价格大约在5-11美元的区间。 今年,根据算力市场数据分析公司Silicon Data的GPU价格指数,H100已经基本稳定在每卡时租赁价格2-3美元的区间,没有出现价格的大幅度波动。 ▲H100 GPU租赁价格(图源:Silicon Data) 同时,新一代大模型无论是在训练还是推理阶段,算力需求都在不断增加。在与相对稳定的GPU价格复合后,算力成本成为限制AI服务价格继续下探的“硬门槛”之一。 数据也是当今大模型训练中不可忽视的成本项。起初,由于监管缺位,大模型训练数据的获取成本相对较低。随着相关诉讼增多和合规审查趋严,为了避免与数据所有者发生法律纠纷,厂商开始主动与企业签订合同,购买授权数据。 例如,据《华尔街日报》报道,OpenAI与美国出版集团News Corp签署的5年数据使用协议金额可能高达2.5亿美元;谷歌则与美国的贴吧类平台Reddit达成AI使用内容许可协议,路透社报道称,其每年价格约为6000万美元。 与此同时,这些模型背后人才的价格,也在水涨船高。 在国内,猎聘大数据研究院7月份发布的《2025上半年人才供需洞察报告》显示当前国内AI人才缺口已突破500万,AI技术人员平均年薪为32.35万元,50万年薪以上的AI技术岗占比高达31.03%。AI技术人才的期望年资甚至高于如今的平均年资,为44.09万元。 大洋彼岸,硅谷的AI人才争夺战打得火热。除了那些数亿美元的个别案例之外,AI人才的整体薪资水平也明显高于其他行业。国际职场平台Levels.FYI上的数据显示,在旧金山湾区,ML/AI工程师的薪资中位数要比所有软件工程师的薪资中位数高13%左右。考虑到所有软件工程师的统计范畴内包含了ML/AI工程师,后者的薪资优势可能更大。 ▲美国旧金山湾区ML/AI工程师薪资(图源:Levels.FYI) 五、订阅模式面临服务成本考验,成本控制迫在眉睫 打造大模型的成本越来越高昂,而随着推理模型范式的兴起,以及Agent等长序列任务的出现,用户的用量正在不断攀升。大模型订阅就像是一张“无限流量卡”,用户用得越多,大模型厂商们提供服务的成本便越高,有部分厂商已经被用户逼到了入不敷出的程度。 本月,Anthropic旗下的Claude Code编程Agent便取消了200美元/月订阅方案的无限调用大模型权限,原因是有用户几乎24小时不停地使用大模型,为这些用户提供AI服务的成本已经达到了每月数万美元,远超订阅方案的定价。 Anthropic更是在发布会上宣称,Claude 4 Opus能连续7小时工作,完成编程类任务。按照Claude 4 Opus大约50 tokens/秒的推理速度计算,这一任务大约会用掉126万个token,成本约113.4美元。 面临高昂的服务成本,大模型厂商们纷纷祭出各种手段来降低开支。 DeepSeek在其最新一代模型中提出了多种降本方法。例如,在对DeepSeek-V3.1进行思维链压缩训练后,模型推理时输出token数可减少20%-50%,且各项任务的平均表现与DeepSeek-R1-0528持平。这意味着DeepSeek的聊天机器人,能在不影响 DeepSeek-V3.1还在一个模型内支持了思考模式与非思考模式,开发者可通过特定标签控制推理的开关,进一步节省API使用成本。 腾讯混元降本的思路是架构创新。在混元TurboS上,腾讯融合了两种架构,让Transformer的上下文理解力与Mamba的长序列处理能力结合,实现性能与效率的平衡。 OpenAI在GPT-5上采取了“模型自动路由”的方式:判断任务的复杂度,将相对简单的需求分配给轻量模型处理,从而节省算力资源。托管GPT-5的微软Azure称,这一方式最高可将推理成本削减60%。 然而,问题的关键在于:大模型厂商和云服务提供商的成本下降,并不必然传导为终端用户与企业的使用成本下降。当前,如何在高昂的前期研发与部署投入后,将千亿美元级别的AI投资真正转化为商业价值,已成为所有大模型玩家必须回答的问题。 结论:大模型价格还有下探空间吗? 未来,大模型价格的下降还存在几条路径。一方面,随着模型平均性能的提升,未来经过优化的中低端廉价模型,也可高效解决特定任务。此外,随着大模型、芯片领域的基础研究不断进步,新的技术路径持续涌现,或许能在不牺牲效果的前提下,进一步压缩训练与推理的单位成本。 从产业发展的角度来看,大模型价格的阶段性停滞或是回升有其价值。这为厂商回收前期巨额研发与基础设施投入,维持可持续创新提供了缓冲期,也能推动市场加速探索明确的商业化场景和付费模式。产业有望借此机会,营造更为成熟、健康的生态。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。