产品分类:
加载中...
头条分类:
加载中...
火狐Firefox142浏览器上线支持PWA
IT之家 8 月 23 日消息,科技媒体 NeoWin 昨日(8 月 22 日)发布博文,报道称在 Windows 10、Windows 11 版火狐 Firefox 142 浏览器中,Mozilla 推出实验性 Progressive Web Apps(PWA)功能,支持用户将网站固定到任务栏并在精简窗口中运行。 IT之家援引博文介绍,火狐 Firefox 浏览器对 PWA 功能的支持颇为波折。Mozilla 早在 Firefox 73 的 Nightly 版本中,就出现过名为 Site-Specific Browsers(SSB)的实验实现,但由于存在多个已知缺陷且维护成本高,Mozilla 在 2021 年初将其移除。 Mozilla 于今年 3 月发布的 Firefox Nightly 141 重新引入了这一理念,并改名为“Taskbar Tabs”,与 Chrome 的原生 PWA 不同,为确保用户熟悉的使用体验,新版本保留了完整的浏览器界面。 用户如果要开启该功能,需确保所使用的并非微软商店的 MSIX 打包版 Firefox,然后进入 about:preferences#experimental 的 Labs 页面,勾选“Add sites to your taskbar”选项即可。 用户之后在浏览网页时,可点击地址栏右侧的“添加到任务栏”图标,固定当前站点,并通过提示确认。启动时,会以简化窗口打开该站点。 如果设置中找不到 Labs 选项,可能是关闭了数据收集或“安装并运行研究”功能。可以在“隐私与安全”中打开这两项,或直接在 about:config 搜索 browser.taskbarTabs.enabled,并将值设为 true 来手动启用。该功能目前尚不支持隐私浏览模式。
蔡浩宇的疯狂实验,跟游戏没啥关系?
“这个游戏的画面很精美,但是落脚点都在跟女宇航员聊天这件事上。”在体验了这款游戏demo后,游戏/AI陪伴从业者倪森这样评价道。 倪森点评的是近期在Steam上线的AI对话游戏《星之低语》(Whispers from the Star),这款第一人称对话游戏需要玩家通过远程通讯,拯救流落外星球的女主Stella。据了解,《星之低语》是米哈游创始人蔡浩宇的创业项目,其制作方是蔡浩宇主导的新公司Anuttacon。相比起传统AI社交的卡片人式对话形式,《星之低语》进行了一场AI在游戏玩法应用的实验,在虚幻5引擎画面加持下,将虚拟人对话搬到了一个科幻外星剧情框架中。 事实上,“和AI对话”是这款游戏的唯一玩法,这样看起来略显枯燥的交互模式,首发评价获得了86%好评。不过,目前评价的用户体量并不大,也有用户表示并不买账,给出了这样的评价:“‘跟AI聊天’的比重太大,而故事向的内容太少”,甚至有玩家直接称其为“Character AI”套壳。此外,这款游戏目前仅支持英文交互,打消了一些国内玩家的热情。 “Character AI”套壳的评价,似乎是在说《星之低语》相比游戏,更像是AI社交的pro版。而说起AI社交,过去两年中,这个新兴领域经历了一波快速增长期,角色扮演、恋爱陪伴平台如雨后春笋般涌现,不过,随着时间来到2025年,一丝“横盘”的气息在AI社交/陪伴圈弥漫。 根据Business for Apps的数据,Character AI的月活在2025年1月约2000万,较24年年中有数百万量级的缩减。而在国内,星野/猫箱等产品都传出资源收缩的传闻,上半年投放和新增下载量出现下滑,国内市场迟迟未出现稳定百万级DAU的头部产品。 用户增长乏力和产品运营ROI困境下,AI对话的娱乐向产品亟需一个新业态的出现,随着Anuttacon等游戏厂商的加入,套上了游戏壳的AI对话/陪伴,难道要迎来2.0时代了吗? 在Steam商店页面,游戏宣传文案中这样写道:“Your words are her only lifeline(你的话,是她唯一的生命线)”。 “lifeline”这个词的出现颇有致敬的意味,把时间拨回10年前,有一款名叫《Lifeline》(生命线)的游戏有着类似的剧情设定和玩法,玩家被设定意外连上了一位迷失在宇宙中的宇航员,通过文字交流帮助其做出选择。只不过,《生命线》是预设好的小说向文案脚本,玩家是在预设好的选项中做出选择。而在《星之低语》中,得益于大模型的驱动,玩家和女主Stella的交互是完全自由的形态。 “感觉是在《生命线》的基础上,然后把对面换成了一个AI语言模型,并且针对对话部分做了非常精细的(预料)标注,也行了针对性的训练。”倪森看到《星之低语》的第一眼也想到了《生命线》,但他同时表示,《星之低语》的AI对话交互体验十分出色,“AI女主”语言表达流畅,针对用户输出的一些复杂信息也能准确解析。“作为AI原生游戏的第一步,还是有一定价值的。” 不过,对于在AIGC和游戏行业均有从业经验的倪森而言,这款游戏更多是在AI对话模型上“堆料”,但在游戏性上的挖掘就微乎其微。虽然在情节设计上有一套剧情结构支持,引导用户进行到下一个章节,但是关于这些游戏内容的呈现都相对简单。“以游戏的标准,严格来说,这甚至不能算一个半成品,只能说是一个demo。” 和十年前的《生命线》类似,《星之低语》的操作就只有“说话”这一个选项,只不过从预设的选项变成了玩家自由发挥。没有了预设的选项树,玩家与宇航员Stella的每一句对谈都实时影响她的行动与剧情走向,高自由度的设定下,很多玩家并不会单纯停留在通关任务的目标上。不过,在实际体验中,一旦玩家和闲聊了好多轮,Stella会对玩家“生气”并将对话拐回剧情主线上。对此,倪森认为,高自由度下的剧情结构,有可能成为影响玩家体验的负向因素。 “从松野泰己(日本知名游戏设计师)那一代游戏制作人开始,他们在游戏策划案阶段,就会规划好玩家的理想通关时间。”倪森表示,传统游戏行业中,游戏策划/设计师就像是一个舞台的搭建者,从而确保玩家适当的时间和流程中,获得最优的游戏体验。而当这个流程推动的机制要交予AI去判断,在一定程度上将影响其游戏性和叙事性。“相比起游戏,确实更像是一个套了多模态的Character AI。” “像Character AI”是《星之低语》社群中出现频率比较高的表述,由于这款游戏目前主要是海外玩家(最早在美国区试跑,且需要英文对话),玩家们更多联想到的是Character AI而非国内用户熟知的星野/猫箱。由于缺少游戏层面的其他玩法,导致在体验上,《星之低语》像是一个虚幻5版本的大型AI陪伴产品,只不过带有游戏层面的剧情章节结构,有一定的目标/奖励机制。 “这个游戏的受众,可能更多是喜欢AI社交1.0的那一拨人,或者有情感陪伴需求的用户。”在倪森眼中,《星之低语》的受众画像可能和AI陪伴类产品有一定重合。不过他也表示,在传统游戏玩家群体中,符合上述画像的群体可能还是少数,而且这款游戏只有英文版,在国内用户的覆盖面只会更低。 针对《星之低语》的对话能力建设,官方并未透露出太多信息,但在B站《星之低语》的游戏实况视频下,BosonAI联合创始人李沐现身并评论道:“创业后接的第一个项目。为她手标了很多数据。”显然,在模型策略层面,《星之低语》进行了大量语料微调,并且需要针对对话的边界设置诸多底层逻辑,确保整体对话效果不会太“跑偏”。 就首周口碑看,《星之低语》还是收获了超85%的好评,但同样有一些差评集中在“流程偏短、纯聊天无聊、记忆不稳等问题上”。在倪森看来,蔡浩宇团队做出这款“大型AI对话demo”,更像是技术应用层面的“探路”,而非打磨出一个新的产品形态。“他们可能是想展示一下在AI对话方面的成果,然后用游戏工业的包装了一下。” 上线第一周,在“好不好玩”之外,《星之低语》的用户条款权限也引发了新的争议:许多玩家在Steam讨论区引用了开发方隐私政策中“Chat Data(聊天通信与相关记录)”与“Voice Data(语音录音)”两类数据会被收集处理的情况。这些条款的存在,意味着玩家在游戏中通过麦克风说的所有话,都有可能成为模型的训练语料。这导致玩家社区内涌现出一些“不买账”的声音。 熊伟是一名“骨灰级”游戏玩家,他的Steam游戏库中有数百个已经通关的游戏,在体验了《星之低语》后,对于收集用户对话信息的行为,熊伟也表达了“不买账”的态度。 “这是一个AI驱动、宣称自由开放交互的游戏,用户难免会说一些‘不安全’的内容。”熊伟解释了他“不爽”的原因,虽然记录用户行为数据在游戏行业司空见惯,但行为数据并不代表玩家本身的观点/价值。但在AI驱动下的《星之低语》中,玩家的发言都是实时“创造”的,这些对话数据一定程度上代表了玩家本身。出于好奇,很多用户会试探模型的能力边界,进而留下一些“不安全”的对话内容。对于熊伟等玩家而言,这样的内容不应该被“泄露”给平台方。 “采集了我的对话数据这件事,让我感觉玩游戏的时候在被监视。”熊伟坦言道。 然而,在AI社交/陪伴领域,这样的情况并不稀奇,在近两年的头部AI对话/陪伴产品里,把“用户内容可用于改进服务(包括训练模型)”写进隐私政策并不罕见。Character AI的隐私政策就明确列出会收集聊天内容、语音(若你使用语音功能)等,并用于产品改进等用途,事实上,绝大部分AI对话产品都有着类似的协议。但是,和AI社交产品的免费体验门槛不同,Steam等平台上大都是需要付费买断的游戏,那些花了真金白银买断的玩家,自然也会更在乎体验游戏过程中的“安全性”。 在传统游戏领域,玩家抵制AI技术直接介入游戏体验的情况,已经不是第一次出现。去年年底,日本厂商卡普空推出了《丧尸围城:豪华复刻版》,游戏中利用AI对一些场景贴图做了高清化处理,由于AI多模态技术是“凭空”生成的像素,让很多贴图出现了信息错误,或者导致部分游戏场景比例不协调。在一些玩家看来,简单粗暴的用AI代替某些游戏工业流程,是一种“偷工减料”。 另一方面,尽管《星之低语》背后的游戏工业部分并不复杂,但其在AI对话能力上却有着一整套模型工业链路,先是对用户输入的语音识别(ASR),然后再交由大模型进行推理(LLM),生成反馈信息后,还要进行语音合成/表情驱动(TTS/面部动画)。相比起传统的AI陪伴产品,看似交互逻辑差不多的《星之低语》,背后可能有着指数级增长的工程量。 此外,受制于大模型的特性和资源需求,《星之低语》游戏只能在云端进行实时推理,这导致可能会出现延迟等问题,在实机体验中,熊伟就留意到了这个情况。“我玩的时候有点音画不同步,应该是网络的问题,能感受到上传到云端带来的延迟。” 不过,相比起某些厂商的“偷工减料”行为,《星之低语》已经算是AI能力上经过反复打磨的。除了Anuttacon,业内已经有一批厂商在打磨一些小的AI玩法。在今年年初的CES2025上,国产厂商上海钛核展示了新作《动物朋克》的demo,其中就展示不少最新的AI玩法,比如,主角在游戏内的屏幕上简单地涂画了几笔后,就自动生成一艘飞船的造型。 此外,《动物朋克》大多数的交互都将会使用语音输入的方式来实现,而在实时对话效果背后,同样是由大语言模型驱动的AI NPC。不过,和《星之低语》的AI推理环节全部在云端不同,《动物朋克》是在本地的显卡进行运算处理后再生成文本、语音、以及控制NPC的表情指令等内容,并实时反馈给玩家。 一直有在关注游戏行业的熊伟,并不排斥AI赋能的游戏玩法的变化,这也是驱使他体验《星之低语》的原因。“我就想知道他下面的冒险是什么吗?我想看看接下来的场景,或者说看看这个故事到底能怎么发展。”谈及《星之低语》的游戏体验,熊伟表示,AI对话这种交互模式还是给他带来一定的新鲜感,不过他也坦言,没有中文版的情况下,国内玩家很难获得沉浸式的体验。 陈思芸曾就职于欧洲某游戏硬件厂商,也是一名资深游戏爱好者,从未接触过AI对话/陪伴类产品的她,在体验了30分钟的《星之低语》后,选择了将游戏退款。“这就是一个AI聊天功能,找ChatGPT也差不多,ChatGPT还不需要专门花钱。” “在刚进入游戏时感觉还不错,我以为后面会是一个游戏正常情节的发展。”解释起玩不下去的原因,陈思芸表示,随着游戏进程的推进,她逐渐感觉到了一些“不对劲”,比如当主角Stella离开镜头时,游戏画面并不会随之跟上。“这不是一个游戏该有的互动,作为游戏至少场景要能变化吧。” 陈思芸的反应也是大多数“传统派”游戏玩家的想法,《星之低语》虽然有精美的CG动画,但游戏中的大部分交互,都只能在一个静态场景下和主角“聊天”。 “以目前的技术来看,AI完全替代人工去推动主线剧情还是很难。”谈及《星之低语》的核心玩法能否在主流游戏中应用,倪森表示,像《GTA》系列中随机生成地图的NPC,用AI替代是完全没有问题的,因为和这些NPC的对话并不会影响游戏主线。但对于很多3A大作而言,一个严密的剧本流程是决定玩家体验的基础,厂商不太可能放任AI去推动主要剧情。 倪森提到的“AI NPC”模式,近年来在游戏领域已经不断涌现,随着近年来AI对话能力的迭代,业内已经陆续拿出一些demo方案,并在部分游戏功能上得以应用。 早在2023年11月,Xbox就宣布与Inworld正式合作,引入一系列开发工具,允许开发者为游戏创建基于AI的NPC;在2024年GDC(游戏开发者大会)上,育碧公开了NEO NPC原型,主打“无脚本、可控人格”的实时对话;而在国内,网易/腾讯等都已推出AI NPC,在和平精英/逆水寒等主流游戏上广泛应用。这些功能更多是作为AI NPC对游戏交互的补充,此时回过头再看《星之低语》选择将“和AI对话”成为了游戏的核心玩法,实验的意味就更加浓厚。 另一方面,AI带来的降本增效优势,似乎在任何一个商业领域都无法抵挡。根据前V社顾问Ichiro Lambe发布调研,目前Steam上使用生成式AI的游戏数量约占Steam游戏库总数的7%,由于相应数据由开发商主动披露,平台上实际应用了生成式AI的游戏只会更多。而在2025年的新发行游戏中,应用了AI技术的游戏高达20%,较去年增加8倍。 对于游戏行业该如何拥抱AI,行业内的各方观点也争议不断。知名游戏制作人小岛秀夫在今年早些时候表示,以《死亡搁浅2》开发为例,其团队已运用AI完成30%的环境概念设计,但他同时强调“核心叙事与角色灵魂永远需要人类温度”。 “如果你把游戏当成艺术的延伸的话,游戏的艺术性跟目前大模型能力的介入其实上是有些矛盾的。”作为AI和游戏双栖从业者,倪森道出了业内人士的纠结。他表示,AI技术的变革应该给游戏行业更多的想象,目前《星之低语》的形态,并不算游戏和AI的深度耦合。 事实上,在AI厂商的实验室里,更深度的耦合已经初现雏形。去年以来,一些交互式游戏世界生成技术相继面世,谷歌DeepMind旗下的Genie 3,腾讯Hunyuan-GameCraft都属于这一类型,这些模型有望在引擎层面实现动态场景生成。不过,这类模型的生成稳定性还未到工业级的水平,离进入游戏管线还有一段距离。 荣获TGA年度游戏《博德之门3》的总监Swen Vincke,曾这样表达过他对AI的看法:“我对AI的态度非常直接,它是我们用来帮助更快完成工作的工具。”但他同时也表示“我认为AI缺乏创造性,我们需要把钱花在刀刃上。” Swen Vincke自然是有理由评价“AI缺乏创造性”,因为《博德之门3》包含了海量的交互信息,而这些全部是制作组“手搓”而成,游戏拥有超过174个小时的过场动画,还有超过1.7万种不同的结局。维基百科显示,《博德之门3》所有角色不论是主角或配角都有完整配音和动作捕捉,动作捕捉的工作量大约相当于150万字的文本。 另一边,在《星之低语》的玩家社区,关于AI对话+游戏的讨论仍在继续,但也不乏像陈思芸这样已经退款的玩家。 “游戏中有一个成就在一开始就能获得,我留意了一下这个成就只有50%的人达成,这意味着可能有50%的玩家连15分钟都没玩到。”打开《星之低语》的成就系统,陈思芸发现像她一样体验了一下就放弃的玩家并不在少数。这也印证了上文得出的结论,对于单纯和AI聊天这件事,在当下的游戏圈,还是稍微小众了点。 然而,小众归小众,《星之低语》仍然在Steam社区收获了超过600个好评,蔡浩宇激进的AI游戏实验,终究是走出了在游戏圈投石问路的第一步。 在《星之低语》的Steam评论区中,一位名为Coaldrone的玩家这样评价道:“我相信未来的几个月乃至几年里,我们会看到无数‘星之低语’式的AI对话游戏克隆作,但作为先行者,它算得上是探索AI互动玩法的优质开端。” (文中受访者均为化名)
国产自研6nmGPU:砺算科技7G100系列支持8位整数运算
IT之家 8 月 23 日消息,东芯股份今天(8 月 23 日)发布关于 2025 年度“提质增效重回报”行动方案的半年度评估报告,表示砺算科技的 7G100 系列作为一款全自研高性能图形 GPU,秉持创新融合,基于自研 TrueGPU 天图架构,从指令集到计算核心完全由自主设计。 IT之家附上公告内容如下: 砺算,布局高性能 GPU 赛道。上海砺算主要从事多层次(可扩展)图形渲染 GPU 芯片的研发设计,坚持自研架构,产品可实现端、云、边的主流图形渲染和 AI 加速,对标主流 GPU 架构,与外部生态无缝兼容,力争解决国产主流完整 GPU 架构自主可控的关键问题。 报告期内,上海砺算完成首款自研 GPU 芯片“7G100”的首次流片、晶圆制造及芯片封装,对产品的测试结果符合预期,目前正按计划进行客户送样以及量产工作。产品可应用于个人电脑、专业设计、AI PC、云游戏、云渲染、数字孪生等应用场景。 此外东芯股份在互动平台表示,7G100 系列 GPU 芯片可支持单精度浮点运算、半精度浮点运算、8 位整数运算等计算任务,不同的计算精度根据其计算的性能、资源消耗及效率的不同,各有不同的适用场景。 单精度浮点(FP32):适合高精度科学计算与专业图形渲染; 半精度浮点(FP16):平衡性能与功耗,适用于 AI 推理和部分图形任务; 8 位整数(INT8):面向低精度、高吞吐量场景(如 AI 推理、轻量化模型运算),显著提升能效比。 砺算 7G100 系列号称是全自研 6nm 高性能图形 GPU,从指令集到计算核心完全由自主设计,基于自研 TrueGPU 天图架构,并自研指令集、自研软件栈。 砺算 7G100 系列 GPU 号称多重性能优势达到“国际主流、国内领先水平”。 比如在效率表现上,砺算 7G100 系列最多可同时运行 48 个没有依赖的任务,无需等待,能够最大化 GPU 使用效率,实现“智能多任务处理”。 通过打破三角形渲染的顺序限制,在不依赖顺序的场景下提升 50% 渲染效率,实现“智能乱序渲染”。 支持 FP32 或 INT32 的指令双发射,实现“硬件级智能分配”。
消息称奥尔特曼淡出OpenAI日常管理,聚焦“搞钱”和脑机接口
IT之家 8 月 23 日消息,科技媒体 The Verge 今天(8 月 23 日)发布博文,报道称前 Instacart CEO 菲姬・西莫(Fidji Simo)正式加入 OpenAI,出任“应用 CEO”,将负责公司约 3000 名员工及 ChatGPT 等面向消费者的业务,目标是把这家混乱且未盈利的初创公司打造成上市科技巨头。 IT之家援引博文介绍,她的任务是将这家尚未盈利、节奏混乱的 AI 独角兽,转型为纪律严明、可上市的科技巨头。西莫曾在 Facebook 高速增长期任职,并带领 Instacart 成功上市,还深谙广告业务,这些经验预计将在 ChatGPT 商业化中发挥作用。 该媒体认为西莫的到来,标志着 OpenAI 权力结构的变化。该公司首席执行官山姆・奥尔特曼正逐渐淡出公司日常运营,更专注于为大规模算力项目筹集巨额资金,并孵化脑机接口初创企业。 他坦言自己无法同时管理包括消费者业务、算力基础设施、研究实验室和新兴硬件在内的四条业务线。未来他仍会直接参与算力、研究和硬件,与前苹果设计总监 Jony Ive 合作,而脑机接口公司将独立于 OpenAI 之外运营。 在内部架构上,奥尔特曼的直接下属包括总裁格雷格・布罗克曼(负责 Stargate 等扩展项目)、首席研究官马克・陈、首席科学家雅库布・帕乔茨基、消费者硬件副总裁彼得・韦林德,以及安全主管约翰内斯・海德克。 此外,西莫还需为刚于 3 月晋升、现已宣布离职的人力资源主管朱莉娅・维拉格拉寻找接替者,该媒体曝料西莫的首个新产品方向可能是浏览器,而首个商业化尝试或为今年秋季上线的 ChatGPT 购物返佣功能。
阿里巴巴拟议分拆上市之际 斑马智行前女CFO公开鄙视某些高管人品行径
快科技8月22日消息,近日,在斑马网络技术股份有限公司(简称斑马智行)递交招股书准备在港交所上市之际。 据媒体报道,原斑马智行CFO夏莲在朋友圈发文对此事进行了点评,公开表示“不看好公司业务发展”“上市圈钱不是人生追求和理想”,并表示自己已于2025年4月离开公司。 夏莲表示,“过去3年也许斑马业绩增长不达预期,但对比未来3年,很可能是斑马最好的3年。”在她看来,没有门槛的座舱技术,车厂都可以自己干。 夏莲指出,上市圈钱不是自己的人生追求和理想,自己从斑马智行首轮融资12亿,60亿 AliOS合并重组,30亿再增资,7亿新股权融资,到完成股改,一路风雨,支持自己的是对一件事有始有终做完的信念,对一群有情有义的人做一件有意义的事的理想主义追求,如果这些不复存在,自己不愿意为上市圈钱再委曲求全。 “非常鄙视斑马某些高管的人品与行径,承认你的权谋与城府,但鄙视你的为人与价值观。” 夏莲表示,因为还有一些好朋友投资在斑马这个局里,很高兴自己的离开帮这些朋友降低了50%的估值,“希望降了50%估值的斑马可以帮他们成功登陆”。 值得注意的是,在8月21日,阿里巴巴发布公告,拟议分拆斑马智行,并在港交所主板独立上市。 据悉,斑马智行成立于2015年11月,是由阿里巴巴与上汽集团共同发起的互联网汽车基金投资成立的科技企业。 截至公告日期,阿里巴巴持有斑马智行约44.72%的股份。 根据灼识咨询的资料,斑马智行是中国仅有的两家全自研汽车操作系统的第三方供货商之一。 也是唯一一家将系统级操作系统解决方案、AI全栈端到端、车载平台服务这三大智能汽车核心体验支柱无缝整合为统一解决方案的企业。
B站二季度盈利新高:游戏收入大涨6成,广告走上快车道
8月21日,B站2季报业绩出炉。在本次财报中,无论是营收还是利润都在加速上行,其背后是B站商业变现能力的逐季增强。 首先,Q2的B站总营收达73.4亿元人民币,同比增长20%。 拆分到具体业务线来看,二季度,B站广告业务收入为24.5亿元,同比增长20%,高于整体大盘;游戏业务收入为16.1亿元,同比高速增长60%。 其次,本季度毛利率从去年同期的29.9%,提升至36.5%,已经连续 12 个季度实现环比上涨。B站在业绩会上预计,到4季度将达到37%水平,未来将看到40-50%的毛利率目标。 运营利润率也从去年同期的-5%,扩展到了正7.8%,B站中期目标运营利润率15-20%保持不变。净利润和调整后净利润均创下历史新高,分别为2.2亿元和5.6亿元,去年同期为净亏损6亿元。 这一点不难理解: 在经营杠杆改善的情况下,B站很自然表现出运营利润率比毛利率改善更快的情况,而且随着商业化效率的进一步提升,高毛利业务持续突破,下半年运营利润率还将进一步提升。 在回报股东层面,二季度,B站回购并注销了一亿美金的股票,目前董事会批准的2亿美金回购计划中还有约8360万美金回购额度。 基于以上表现,今年以来,B站在资本市场的价值表现良好:到21号财报发布前,B站市值年内涨幅36%,年初到现在,市值增长了近200亿人民币。 01 逐渐增强的广告变现能力 支撑B站市值和业绩表现的,是B站逐季增强的变现能力,尤其是广告: B站的Q2的广告业务增速是高于广告大盘的,而且单一季度收入也创下新高达24亿人民币,同比增速高达20%。 除了整合投放能力,和提升深度转化比例能力之外,B站今年还多了一个 AI作为助力。在多模态大模型加持之下,广告分发效率大幅提升。这也吸引了更多广告主的投放,在二季度,广告主数量同比增长了20%。 分垂类行业来看,也有很多亮点: 首先,B站的第一大广告份额来自游戏行业。客观来看,B站是国内最大、最活跃的游戏内容社区之一,大量核心玩家、创作者的聚集成为游戏客户投放的重要因素。从新游营销到常青游戏的长线运营,B站的优质内容和高质量玩家转化,都有助于锁定优质游戏客户预算。 其次,得益于中长视频深度内容和测评生态的既有优势,面向年轻人的家居家装广告主也在B站进行加大投放。二季度,家居家装相关的广告收入同比增长接近70%。 第三,今年的一个亮点,是数码家电领域在“618大促”支持之下的增长:大促期间,B站带货广告收入同比增长41%,其中数码家电行业的带货广告收入同比高速增长111%。 比如今年618期间,仅“笔吧测评室”、“极客湾”、“嗨我是熊猫”、“假如科技”四位UP主的四条专业电脑测评内容,就为联想带来了超7000万元的成交额。联想在B站撬动单条视频内容实现ROI 100+转化,大促期间,B站为联想带去的成交新客率高达40%。 以200万粉UP主“笔吧评测室”为例,其在618期间发布了对联想拯救者R7000P这款产品的评测。 不同于比拼热情、情绪煽动的直播带货,这类测评内容讲究的是专业度。视频里,UP主不止分析了笔记本参数,甚至还精细到无线网卡在不同场景下的稳定度,笔记本在不同功耗下的噪音表现。此外,测评里也会客观分析产品的缺点。 专业度带来信任感,最终意味着转化率,上述视频的ROI高达135.5。 此外,在涵盖洗地机、扫地机、吸尘器等品类的清洁小家电赛道,2025年以来,B站在这一赛道商品的蓝链点击量同比大幅增长14倍,清洁小家电相关的UP主商单稿件量同比快速增长330%。 UP主与消费者的参与度也在持续提升:消费者端,千元以上消费品GMV同比提升近五成;UP主端,"618"期间,整体GMV增长了33%,带货GMV超过1000万的UP主数量增长超过60%。 今天的B站用户,不仅更愿意在社区内参与类似618这样的大促,而且购买的客单价也在逐渐提升。 未来,随着B站在多场景日常搜索PC端、OTT端、Story,包括日常直播搜索场景、热门搜索等对用户的触达,B站的广告收入能力还有进一步提升的空间。 而更好的推荐算法,包括AIGC生成的广告封面和标题,也都让客户投放成本不断降低,提高转化效率。 我猜测,这也是站方在季报后的电话会中表示,接下来还会更有信心跑赢广告大盘的原因。 02 变现能力增强的底层逻辑:B站的社区和共鸣 在中国互联网活跃用户基本见顶的今天,B站作为年轻人的精神家园,用户基础依然牢不可破: 全口径月活还在并不意外的继续增长,达到3.63亿;日活用户数达1.09亿,同比增长7%,创历史新高;月均付费用户达3100万。与此同时,B站用户的平均年龄来到了26岁。这恰好是一个比较有意思的年龄节点——用户从校园走向社会、职场,甚至开始成家立业,随之而来的是更多元、更旺盛的消费需求。 在这样的一个年轻人为主的平台,广告主看中的是B站提供的社区生态,来实现广告主品牌心智的搭建:深度的内容,高活跃的社区互动,很多品牌也是从B站开始起家的。 对于广告主尤其是数码产品广告主来说,选择B站作为品牌建设的主战场,理由很多,也很充分: 在供应饱和的国内消费市场,一味追求短期转化的营销打法已经走不通,流量竞价变得越来越卷,在这种环境下,广告主开始更看重长线品牌建设,重视持续的价值回报。 这恰恰是B站具备优势的所在,不会有任何一个客户会忽视年轻人的影响力跟消费力。 而品牌营销基于优质内容,很多内容作品,往往都是从B站开始最早获得用户认可,然后开始出圈。 比如说,现在的10亿票房大电影《浪浪山小妖怪》,最早的短片是《小妖怪的夏天》,也是B站受到用户欢迎,开始出圈。 《黑神话:悟空》的续作《黑神话:钟馗》在B站上首发了第一个游戏的PV,不到两天时间,播放量超过了1200万。 多说一句,B站的优质社区氛围,也在越来越清晰体现其不可替代的价值: 今天的内容供给呈现严重过剩过载的趋势,在这种环境下,用户更需要的是社区和共鸣,才能够促进转化。 这一点不仅仅是B站,越来越多的传统货架电商平台,都在强化社区调性,这种调性无论是数据,还是效果,都能更直接的呈现的在广告主眼中。 这种社区属性映射到现实世界中,就是Bilibili World今年的高光表现: Bilibili World(简称BW)是B站主办的ACGN综合展会。今年的展出面积共计24万㎡,为期三天里迎来了共计167家全球展商、近800台痛车、超3万名Coser。 今年的BW还创下了多项人数纪录,线下参展人次超过了40万,护照用户的购票比例达到了13%,有来自于20多个国家和地区的用户专门来到上海参加BW。 无论是从规模还是从影响力来看,今年的BW已经是中国乃至亚洲最大的ACG聚会,实打实的带动了上海本地的线下消费,也成为了上海城市文化的一个新名片。 03 游戏:长线的压舱石 除占营收33%的广告业务增长之外,B站的游戏也在扮演营收长线压舱石的作用。 本次B站游戏《三国:谋定天下》在二季度已经迎来周年庆,DAU创下了年内新高,未来将进入长线运营阶段。 回看历史,B站历史上的游戏生命周期都相当可以,《命运-冠位指定》迎来九周年,重返畅销榜前五;《碧蓝航线》八周年庆,用户数保持稳定。 除了常态化的抽新卡,皮肤消耗,拉老用户回流,发行海外版本这些延续游戏价值的方式之外,B站的社区生态也有利于游戏本身的长线运营:无论是视频二创还是社区讨论,都是在帮助B站运营的游戏提升粘性。 举例来说,8月8日-8月10日,《命运-冠位指定》也在杭州国际博览中心举办了九周年特别纪念展(FES)。 FES的特点是将IP内容与线下活动相互关联,给玩家身临其境的感觉。除了在BW上大放异彩的“誓约胜利之剑”雕塑外,大量全新主题景观也纷纷落地杭州。 对于FGO这样一款运营九年的游戏来说,相比简单泛泛的互动娱乐,这些游戏内细节内容的流出,才是最容易感染玩家,并引起玩家共鸣的方法。 除此之外,在电话会上,B站提到还有四到五款游戏在等待版号,后续的游戏仍将专注于年轻化和创新,来迎合时代的变化。 一切顺利的话,游戏板块仍然将为B站持续稳定的贡献价值。 04 结语 过去几年,B站成功实现商业化提速,在当前大环境中尤其证明了B站变现的能力。二季报仅仅是一个开始。 更重要的是,B站在社区调性和商业转化中取得了较好的平衡,让这个中国最大的年轻人社区的变现能力开始呈现逐季增强的状态,这才是这份二季报真正令人感到惊喜的地方。
GPT-5变蠢背后:抑制AI的幻觉,反而让模型没用了?
自打发布新一代模型 GPT-5 之后,OpenAI 收获了大片骂声。 人们纷纷表示 GPT-5 “ 变蠢了 ”“ 没创造力了 ”“ 不灵动了 ”“ 回答很干瘪 ”。 实际上,这并不是一个让人意外的结果,因为 GPT-5 的其中一个特性是幻觉率显著降低,而降低模型幻觉率的一个主要代价就是模型的输出会显得更呆板。 通俗来说就是模型变得更严谨,但主观能动性变弱了,这一点其实对于写代码、Agent 构建是很有好处的,只是 ChatGPT 的主要面向的消费级用户对此需求并不高。并且 GPT-5 变得非常被动,以至于需要非常详细的提示词才能很好地驱动( 当然如果需求写得好,GPT-5 是很可靠的 ),不像之前会积极地预估用户的意图,原本快要丢掉的提示词技能又得捡起来,这对于被 AI 惯坏的一大批用户又是一记背刺。 从原理上来讲,大模型生成的内容是概率产物,模型本质意义上是一个条件概率分布的近似器,它的创造力来自于更宽松的概率分布,而当你想让它答案更精准、低幻觉时,它的概率分布必然收紧,这样的收紧减少了有更多创造力的可能。 这就像一个人,你想让他更严谨、符合逻辑的去创作,他就会被钳制,无法天马行空。 然而有趣的是,早前大家都在吐槽各家大模型的幻觉率太高并且愈演愈烈,认为这是一种 “ 病 ”,厂商们也使出浑身解数来治这个 “ 病 ”,微调、RAG、MCP 等新 “ 药方 ” 一个接一个。 现在,高幻觉率的问题被一定程度解决,大家又吐槽模型回答得不够好,这就陷入了一种无法打破的死循环。 那么,厂商们到底该如何正确地看待 AI 幻觉呢? 为探究这个话题,知危与阿里巴巴大淘宝技术营销前台技术负责人甄焱鲲进行了对谈。 甄焱鲲首先跟知危分享了自己对 GPT-5 被 “ 讨伐 ” 现象的理解和亲身使用体验:“ 许多人赞赏其在数学、科学和代理任务上的进步,但也批评它在创意写作上不如 GPT-4.5 或 4o,输出更通用、缺乏情感深度,甚至出现 ‘ LLM 废话 ’。 基准测试中,它在 SimpleBench 上仅得 56.7%,排名第五,远低于预期。 用户 ‘ 起义 ’ 主要源于模型感觉像降级:响应迟钝、幻觉增多、错误意外,以及未公布的更改导致创意和质量下降。” “ 而我的直观感受是:出现幻觉的概率确实下降了,我用了大概三天的时间,提了一些哲学、编程和人工智能相关的问题,在一些生僻概念的理解上考察模型的输出,还是有非常不错的效果,例如:GPT-5 不会把我自创的英文缩写( 一些技术架构里的缩略语 )错误拆分了,比如 ‘ AIGUI ’ 这个概念不会如 GPT-4o 般拆分成 ‘ AI GUI ’ 了。” 在对谈过程中,甄焱鲲多次强调,把幻觉单纯当成一个 “ 病 ”,是片面的。 目前已经有研究指出,大语言模型理论上不可能完全消除幻觉。还有研究表明,越抑制幻觉,大语言模型的泛化性越差,也就是能够适用的场景越受限,这与业界希望全方位推广 AI 的愿景显然是相悖的。 这其实也反映出,幻觉带来的影响并非永远都是负面的,需要辩证看待。 正如甄焱鲲告诉知危:幻觉是不是幻觉、幻觉的影响是不是负面、幻觉的负面影响有多大,都是相对的,和使用者的能力和需求、场景的特性和需求、使用前后效率对比、现实世界的变化等因素都有关。 以下是知危与甄焱鲲的对话原文,经过了不改变原意的编辑。 一、幻觉的类型 知危:能请您介绍一下大模型实际应用中常见的幻觉类型吗? 甄焱鲲:大模型的 “ 幻觉 ” 指的是 AI 系统生成或推断出与人类经验不符的内容或结论。 这里 “ 人类经验 ” 必须是 “ 正确 ” 的,限于个人认知的差异,所以必须认识到 “ 幻觉 ” 也是相对的。 在大模型应用中,幻觉无法完全避免。 可以将幻觉分为 5 个类别:语言生成中的幻觉、推理与逻辑错误、过度简化与常识错误、数据错误或无依据推理、时效性错误。 语言生成中的幻觉是大模型最常见的一种幻觉,尤其是在内容生成类的应用中。例如在生成代码时,AI 可能会编造 Library 或 API 来完成代码的生成。 大模型还可能在进行逻辑推理时产生错误。例如在使用 Roo Code 插件进行代码生成时,经常遇到指定上下文后,大模型仍然会根据项目中其它上下文做出错误的推理。 关于过度简化与常识错误,AI 虽然能够处理大量信息,但它在应对一些需要深度常识、实际经验的场景时,容易出现过度简化的情况。例如 AI 可能会说 “ 为了快速减肥,可以不吃任何食物 ”,这显然是不科学的。 关于数据错误或无依据推理,在某些场景下,AI 模型可能会基于不完全或者错误的数据生成答案( 尤其当训练样本中掺杂大模型生成的幻觉内容时更甚 )。例如,在医疗应用中,AI 根据患者的症状生成诊断建议,但如果这些症状与训练数据不匹配,或者训练数据本身存在偏差( 如某些相同指标数据指向不同病症,从而需要医生以个人理解进行具体判断的情况 ),模型就可能给出错误的诊断结果。 最后,幻觉很多时候来源于模型训练时知识和概念在时间上的局限性。 知危:大模型的幻觉会在企业应用中带来哪些负面影响与成本损耗? 甄焱鲲:关于幻觉可能产生的 “ 成本损耗 ”,需要代入到具体应用场景分析。 用户差异会带来巨大的成本评估差异。假设生产效率的影响小于大模型应用前的历史效率,总体上并不会产生 “ 成本损耗 ”。 比如。一个行政人员使用 Cursor 生产一个表格信息收集工具,即便生产效率低下错误频出,生产效率仍然可能大于:找产品提需求、找研发开发、找测试评估、找运维部署。因此,Cursor 虽然经常犯错误,仍然有大量用户,因为用户认为 Cursor 的效率是大于自身的。 但若这个场景的用户是研发人员,错误频出带来的效率降低,显著大于:安装依赖、查找文档、编写代码,那么 Cursor 在这个场景大概率会被研发人员抛弃。 所以,成本损耗和效率的影响都是相对的。 进一步看,幻觉的负面影响还可以分为两类: 预测错误,如果“错误”易于识别,则影响的是生产效率; 如果 “ 错误 ” 难以识别(例如预测错误发生在使用者不熟悉的领域),则影响的是应用效果。 知危:如何根据幻觉率高低进行产品落地可行性决策? 甄焱鲲:如果大模型的幻觉率过高,特别是在关键决策领域( 如医疗、金融、法律等 ),则这些产品的应用将面临严重的挑战。对于这类应用,企业的目标是尽量减少错误和幻觉,因为一个错误的决策可能导致巨大的财务损失或法律责任。 对于一些风险容忍度较高的应用场景( 如内容推荐、广告投放等 ),企业会接受一定程度的幻觉,毕竟这些应用的目的是提升用户体验和增加商业效益,而不完全是做出精准决策。 通常,企业会设置一个 “ 安全边界 ” 来限定幻觉率,确保在可接受范围内。过高的幻觉率会增加企业的风险和成本,过低的幻觉率则可能意味着模型的复杂度和计算成本过高,导致收益无法覆盖成本。 二、缓解幻觉的成效 知危:目前,为了缓解幻觉问题,一般会采用哪些方法?实践效果如何? 甄焱鲲:当下常用的方案有三种:合适的模型、In-Context-Learning、微调。 首先,海量参数的大模型因为 “ Scaling Law ” 会缓解幻觉出现的概率;其次,借助各种提示词工程和 RAG 等技术,“ In Context Learning ”( 在不进行参数更新的情况下,通过在输入中提供示例来学习和完成新任务 )被实践证明能够大幅降低幻觉出现的概率;最后,使用 “ 继续训练 ” 的微调技术,在一些场景中可以一定程度降低幻觉。 为缓解语言生成幻觉和过度简化幻觉,一般采用扩大训练样本和模型参数来解决,即采用更合适的模型。 为缓解逻辑推理错误,在 MCP 生态出来后,最火的就是:Sequential Thinking MCP Server,帮助大模型把复杂问题降级为诸多微任务,以期待降低大模型出现幻觉的概率。这属于 In-Context Learning 方法。 缓解数据错误或无依据推理幻觉一般也是采用 In-Context Learning 方法。 为缓解时效性局限带来的幻觉,比如编程领域,现在行业里有很多人在用 Context Server,也就是 MCP 的 Server,当调用 API 时,它能帮我检查这个 API 的最新版本文档和接口参数说明,避免使用了老版本的 API,保证生成代码的准确性,这属于 In-Context Learning 方法。 医疗、金融、法务等行业对精度要求非常高,使用 RAG 最多的就是这些行业。但是,由于 RAG 需要向量存储、检索服务,且会大幅度增加计算成本,某些行业的特定领域使用大模型微调技术,降低 RAG 带来的成本,也能找到成本与效果的平衡点。 对于内容推荐、广告投放等可以容忍一定程度错误的应用场景,AI 的幻觉率可以稍高一些,同时开发成本也会降低。最典型的例子就是 “ mini-gpt ” 开源项目,仅用几个小时训练一个几百兆大小的小模型,就可以很好地生成儿童绘本级别的小故事。 中低精度要求和更低成本的情况下,小尺寸模型也是能接受的,比如 Qwen3-0.6B,In-Context-Learning 可以不使用或简单使用,可以使用少量( 数百、千条数据即可 )行业优秀的案例数据进行微调,因为基础模型参数量小,微调的成本也不会太高。 但总体而言,微调的效果和风险还是普遍存在。模型通过微调从通用模型过渡到领域特定模型时,是有可能丢失原有的通用知识的。 而对于所谓垂直领域大模型,在我个人实践中发现,由于大部分场景都需要跨领域知识,反而使垂直领域大模型的应用效果受到限制,实际效果和微调技术基本持平。 最近行业里有一些论文在研究怎么让大语言模型实现 Self Learning,也就是说它能在服务过程中对自己的参数进行微调,随着使用不断学习和提升,克服时效性的局限。比如,麻省理工( MIT )最近提出的 Self Adapting Language Models( SEAL )是一种模型能够 “ 自行学习 ” 的技术:模型通过生成自己的合成训练数据并用于自我更新,迎向 “ 终生学习 ” 之路。但该方法仍存在 “ 灾难性遗忘 ”、计算资源高、学习调度复杂等挑战 。 当下,由于大模型的基础框架局限于 Transformer 和 Diffusion,并且在基础框架层面并没有显著的技术突破,上述方案应该在大模型基础框架技术变革前是有效的。 知危:为何说垂直领域大模型效果受限?从我们和医疗领域的专家交流来看,他们还是认为垂域模型比通用模型能力更强。 甄焱鲲:垂直领域大模型虽然掌握了行业知识,在特定任务上表现更好,比如在医疗这种病种类目极多、具备极强专业深度的领域。但在复杂推理或跨领域理解上仍显不足,尤其在任务更复杂、数据稀缺时更明显。 如果数据多样性有限而规则复杂,比如材料科学,训练出的模型往往倾向于 “ 记忆 ” 而不是建立泛化机制。只有当数据多样性足够高,才可能促进泛化。 最后,成本与收益不匹配。相比训练一个垂直大模型,微调已有模型 + 机制( 如 RAG )往往更低成本,效果也更稳健。 知危:医疗、金融、法律是使用 RAG 最多的行业,那么这些行业之间使用 RAG 的情况有哪些不同? 甄焱鲲:总体而言,只要是涉及到标准化流程或比较依赖规则、先验的工作,RAG 都会用得比较多。 其实 RAG 有不少局限性,不同行业使用 RAG 的场景需求也不同。 在法律行业,有时候应用中不只涉及法律法规,还包括案例、法律解释、政策等。这就比一般的 RAG 难度高一些,主要是时效性要求高,因为法律是在不断建设中的,各地对法律法规也可能有不同的解释。 在医疗行业,现在大语言模型在时序理解上的局限性,会限制 RAG 应用的效果。当前的 RAG 更多是对概念背后所代表的含义进行理解和解释。但是在医疗行业里,通常要解释的是临床数据和病例。 比如一个病人有一系列的检查、体检数据,包含各项指标在一定时间段比如一年内的变化情况。这些变化的含义不是简单通过 RAG 就能查询出来的。因为它有很大的个体性差异,比如性别、地域、年龄等各种因素的影响,也可能要结合上次检查和这次检查的对比,以及和其他类似患者的的对比。 不像其它领域,比如医疗领域可以直接生成病例、诊断书等,或者法律领域可以生成诉状、裁决书等,金融行业在应用 AI 时,最终产生的结果更多是偏向建议或者辅助性的。因为使用 AI 会产生的一些问题和风险,目前用 RAG 加大语言模型的方式是难以规避的。因此金融行业倾向于更严谨的方式,比如在里面穿插一些传统的机器学习算法,用来对决策背后可能产生的问题和风险进行估计。 知危:您的团队对幻觉缓解的技术路径探索经历了什么样的探索过程?关于微调和效果和风险可否深入探讨一下? 甄焱鲲:刚开始的时候,我们主要对模型做微调,或训练自己的 LoRA。比如轻办公领域,针对用户场景识别和服务推荐场景做微调或 LoRA。但我们发现,等花了半年甚至一年的时间训练并上线后,大语言模型自身更新带来的收益,往往已经超过了我们做这些工作的收益。 通过微调技术调整模型参数的时候,最大的问题在于参数调整可能带来一些无法预期的后果。比如模型本身是无法处理 “ 冲突 ” 的,如果新数据与模型原有知识发生了冲突,经常会发生 “ 正确 ” 的数据遮蔽了 “ 正确 ” 的知识,甚至会导致 “ 灾难性遗忘 ” 的情况发生。 “ 灾难性遗忘 ”( Catastrophic Forgetting,也称 catastrophic interference)是指模型在学习新任务或新知识时,严重遗忘先前所学能力的现象,尤其在顺序训练或持续微调中表现突出。即便是 AI 产品在服务过程中不断更新权重,即 Continual Learning,也只是一种微调,传统微调具备的缺点它都有。 在大型语言模型中,这种现象尤为关键:模型的知识分布式存储于权重中,当在新领域训练时,部分权重被重写,导致模型原有的广泛语言能力或事实知识退化。 在研究中,1B 到 7B 大小的 LLM 在持续微调后普遍出现灾难性遗忘,甚至随着模型规模增大( 但仍在这一范围内 ),遗忘现象反而更严重。 举个例子:一个针对医疗诊断微调的模型,可能会 “ 忘记 ” 基础的数学能力或一般写作能力。这个问题和大语言模型本身的技术特点相关,除非整个大语言模型技术发生本质性的革新,否则短期内这个问题比较难解决。 现在的大语言模型权重参数非常多,而且缺乏可解释性。更新某些权重时,会对哪些权重或者什么情况下的推理产生负面影响,目前很难评估。所以,灾难性遗忘或者权重冲突的具体原因,目前只能通过最终结果的评估来检验。 在实际测试对比下,In-Context Learning、RAG 往往比微调模型具有更好的泛化能力和稳定性。 总体来说,模型微调或者 LoRA 的效果,通常小于 RAG 的效果,因为 RAG 可以去修改数据,灵活性更强。而通过很多论文和行业数据都能看到,RAG 的效果一般又小于 In-Context Learning,因为后者是实时地把必要的知识或辅助信息当做 context 注入模型。 所以,后来我们更倾向于做 RAG、 In-Context Learning 这类优化。而实际上相比之下,目前我们 In-Context Learning 的应用还比较少。 原因在于 In-Context Learning 需要更丰富、结构化且准确的 context,而这些 context 比较难获取。比如现在要帮产品经理写一个新项目的产品文档,来做产品策划。产品的用户定位、功能定义、用户流程、UI 交互等,涉及多个领域。这些领域的知识和内容,要决定哪些需要提炼放入 context,去做 In-Context Learning,实际上有很大挑战。从目前实践效果来看,用工程或编程手段去解决,效果不如用 RAG 好。 但很多服务中,比如用户完成一件事后还会接着做下一件事,也就是当用户有连续性任务时,In-Context Learning 的应用门槛会相对低一些,因为可以知道用户当前场景变化和上一件事情的结果。 知危:为什么模型微调的工程周期那么长?相比之下,RAG、In-Context Learning 的工程周期如何? 甄焱鲲:模型微调的工程周期很长,影响因素很多。 首先,构建微调模型需要高质量、标注良好的领域数据,耗费的精力往往占真实训练的绝大部分。有人直接指出微调 90% 的精力花在 “ 提升数据质量 ” 上 。 其次,微调 LLM 不像一般模型那么轻松。需要性能强劲的基础设施和优化、维护能力。训练本身往往耗时数周,甚至更久。 再次,微调往往不是一次搞定的。需要反复调参、验证、修复 bug、对比多个模型版本。 最后也是最关键的是,LLM 这个基础模型可能每隔几个月就会迎来新版本,原来的微调成果很快就可能被 “ 超越 ”。社区反馈也提到,每次基础模型更新后,几乎都得从头再来一次微调 。 相比之下,RAG 通常只需数天甚至数小时即可部署,尤其用 Hugging Face 的 RAG-Token 示例几行代码搞定。 并且,RAG 整体工程流程简单,门槛低于深度培训。知识库变更最快,只需重新 embed 文档,完全无需重训模型。因此,可以实时响应信息变化。 社区普遍反馈道,相比代价高耗时的微调,RAG 简便且性价比更高。 对于 In-Context Learning ( ICL ),本质上只需构造好 prompt,可能还需要加入若干示例( few-shot ),基本不需要训练过程。工程实现几乎是几分钟到几小时搞定 prompt 设计、示例选取、效果验证。 对比微调,ICL 可谓 “ 立刻见效 ”。 知危:ICL 落地的具体挑战都有哪些?为何还无法很好地解决,以至于即便潜能更大,目前实际效果不如 RAG ? 甄焱鲲:挑战确实不少。ICL 的效果高度依赖于所选示例的质量,但 “ 哪些示例最具代表性、结构清晰、能覆盖多领域内容 ” 本身就很难定义。典型方法有基于语义相似度的检索( 如 embedding 距离 ),但往往不够精准。 具体使用时,会受到模型本身限制、内容、结构等方面的影响。 大模型( 如 GPT-4o )虽支持数百K token 输入,但仍难容纳大量多领域信息,尤其文档结构复杂时。 对于开放性( open )问题,过于贴近主题的上下文反而可能引起模型偏差或混淆。 同样一组示例,顺序不同可能得到完全不同的效果,但如何自动决定最佳顺序依然是开放问题。 更细节来看,示例之间的排版、结构、标签统一性、分割符等都能显著影响结果,而找到 “ 最优格式 ” 往往需要大量试验和经验。 在更宏观层面,涉及用户定位、功能框架、流程与 UI 等多个维度时,需要为每个层面提炼关键结构内容。但这些内容如何抽象成 prompt 示例并串联起来?目前仍缺乏清晰方法论。 最后,大模型在 ICL 中往往倾向使用 “ 捷径 ”( 比如表面模式或标签关联 ),而非真正理解多领域深层逻辑。这种 shortcut behavior 使得 prompt 构造更加敏感脆弱。这种走捷径的现象也是深度学习的老问题了。 知危:除了合适的模型、In-Context Learning、微调之外,据了解思维链、多智能体协同、重复采样投票等方法在降低幻觉方面也有应用,这些方法在企业中的使用效果如何? 甄焱鲲:我们也会借助思维链来减少幻觉。在前一段时间接入 MCP 的时候,用得比较多的,也是现在行业里比较常用的,就是Sequential Thinking MCP Server,也就是序列化思考。我们也会去模仿像 Cursor、Roo Code 等对任务的拆分以及任务规划的方式。 从我们的实践来看,确实能比较好地提升准确率。因为它能够更好地从当前任务中发现更多问题,并将实践过程中可能缺失的环节补充上去,毕竟有时候用户下的指令是比较粗糙的。 让大语言模型把粗糙的指令转化成 step-by-step 的详细指令和任务,带来的价值是毋庸置疑的。而且现在网上有很多开源项目,比如 Roo Code、Cline,这些是做软件工程的 AI Agent 插件,比如 VSCode 上的插件。我们也会去参考它们的源码,因为里面很多工程上的处理细节和提示词工程的细节,都是非常值得我们借鉴的。 通过多智能体协同来降低幻觉,比如一个模型输出,另一个模型评判,这种方式的幻觉缓解效果其实一般。 比如我们在使用 DeepSeek 的大语言模型进行代码生成的时候,如果用 reasoning 模型( DeepSeek R1 )和它的基座模型( DeepSeek V3 )进行对比,会发现生成质量有明显差异,生成偏好也不一样。不同模型的偏好不同,这就会导致一个问题:到底什么样的偏好才是对的?这在不同的具体业务场景下有不同的答案。 比如我们之前在实践中发现,在对一些代码进行 fix 的时候,用 DeepSeek 的基座模型,而不是 reasoning 模型,效果在某些情况下反而更好。因为 reasoning 模型有时候会把一些简单问题复杂化,浪费大量 token 和时间去 “ 思考 ”,但生成的结果可能还是差强人意。 单个模型重复采样后再做投票这种方法其实和多智能体方法是类似的。不管是多智能体,还是重复采样投票,除非它在工程上能提升整体的并发性能和效率,否则意义不大。 因为现在很多模型本身就是 MoE( Mixture of Experts )结构,这些模型内部已经在进行采样、投票、打分,调用不同的专家来解决问题。其实也可以把它看作是一个多智能体系统。比如最新的千问模型 Qwen3,在发布新版本时也说会把多智能体机制集成到模型内部。 这应该是一个技术趋势。因为在训练大语言模型时已经花费了大量数据,如果在训练过程中能保持一定的多样性,那么在输出阶段,通过一些数学上的优化手段去利用这种多样性,让它在最终结果中发挥价值,不管是多采样、多智能体还是多专家机制,最终都能在结果的有效性上带来比较好的价值。 从长远来看,模型的发展更倾向于把多智能体的能力集成化,尤其是在商业模型中,以提升整体对外服务效率。 而对于开源模型,现在有一个比较明显的趋势,就是模型参数量在变小,但性能反而在提升,将更多用于实现多智能体、多模型并发推理。 比如假设一个 1B 到 3B 的模型,它可以达到传统 32B 甚至 70B 模型的效果,就可以用于在设备端并行地进行推理。这时候可以把一些任务拆分给在某个特定领域表现比较好的专业小模型去处理。 最典型的例子是 Command R,它是最早用于命令行操作电脑的优秀模型。比如有一个编程任务,拆分后有些任务需要在命令行操作,比如初始化环境、批处理文件操作等,这时可以把这些任务分发给 Command R 这类模型去处理。 知危:Cursor、Roo Code 等对任务的拆分以及任务规划的方式有哪些特点? 甄焱鲲:Cursor 的任务拆分与规划最大的特点是原子化任务( Atomic Planning )。Cursor 强调把大的开发任务拆分成 “ 小勺子 ” 级别的小任务,每个任务聚焦当前相关文件和指令,避免信息过载和上下文混乱,并严格按必要的顺序执行子任务。在分配任务时明确指令,如 “ 重构 calculateTotal() 函数以支持货币精算 ”,减少歧义。 Roo Code 也有类似的任务拆分与规划框架,它还支持多种模式,比如 Architect 负责规划与设计,Code 负责实施,Ask 负责解答与辅助。这些模式可以自由切换,任务拆分后可按阶段委派给最合适的模式。 知危:除了事实性的幻觉,目前推理模型中的思维链 “ 幻觉 ” 也受到了很多关注。比如推理过程和结论无关,推理方式不符合人类逻辑,重复推理、无效推理等。这些幻觉对企业应用的影响如何? 甄焱鲲:影响比较大。拿 Cursor 来说,它经常会在思维链中说:“ 我觉得这个问题是什么?所以我要尝试什么?” 然后思维链产生的结果可能是错的。错了之后它又说类似的话,结果可能又返回上一步错误,陷入死循环。很多时候我从程序员视角可以直观发现问题,但模型却不知道哪里出错,也无法做出有效修改。 本质上,现在大语言模型并不具备真正思维能力,它还是一种机械的模仿。 做软件的时候,经常有个不恰当的比喻:如果一个东西走起来像鸭子,看起来像鸭子,叫起来像鸭子,那它就是鸭子。但事实上这是不对的,而现在的大语言模型做的事情就是这样。 当模型参数量足够大,训练数据也足够多时,我们会觉得它好像在思考,因为预测下一个 token 的准确率比较高。维特根斯坦的相关理论也说明了语言和思维是直接相关的,我们无法超越语言去表达思维。 大语言模型通过大量语言资料训练,它的参数在一定程度上可以看作是固化的思维,也就是一些套路。这些套路能够解决重复出现的问题,但无法解决新问题。当套路无效时,模型仍会根据概率硬套这些套路,导致错误产生。 这是一个容易和 “ 幻觉 ” 混淆的点,即 “ 错误 ”。 重构软件工程项目时遇到这类问题的概率比较高。因为模型没有真正的全局思维,导致它在分析、推理和规划时,更多是在局部最优的层面解决问题。 这些错误并不是上下文长度的限制造成的。虽然上下文有限制,但推理时输入和内部权重参数之间会相互影响。即使给它更长、甚至无限的上下文,由于大语言模型算法架构和训练数据、方法的局限,注定还是会出错。 所以,哪怕推理模型引入了强化学习和思考能力,也只是有所提升,因为它会把以前生硬的直接概率,变成一系列反复验证后的间接概率,从而提升准确率。 具体而言,其实 AI 的思考就是在检索和重复验证,只是效率和准确率比人类更高,所以它很适合做科研。有一篇比较有影响的论文 “ Do Two AI Scientists Agree? ”,讲 AI 怎么从零开始发现大量物理定理。实际上你会发现 AI 能发现的物理定律,都是一些重复性的事情。 当然,这并不是影响 AI 应用的最关键问题。假设现在 AI 可以解决百分之七八十的问题,那剩下的百分之二三十的问题,暂时不做 AI 应用就行,这并不影响 AI 的推广。因为这个世界上发生的很多事情,百分之七八十甚至九十以上都是重复的。这些重复的事情,用结构化的思维、固化的思维去理解和解决是没有问题的。 知危:可否对上述方法和经验做一个总结性描述? 甄焱鲲:其实要减少幻觉,在实践中更多是想办法把人类的先验经验集成到 agent 和 AI 应用链路里,做有效约束。这方面有各种方法,比如通过规则方式做硬性约束,也可以训练强化学习模型,让它学到人类策略或有效策略来做约束。这些手段无非就是告诉大语言模型要干什么,并且在执行过程中做一些过程性干预。 最重要的原则,是 “ 以终为始 ”,要从 “ 想让 AI 解决的问题定义 ” 入手。很多时候 AI 有效,是因为我们已经能够清晰明确地定义 AI 要做什么事情。 先对问题的复杂度进行分级:越复杂、抽象的问题,就应该用越多的权重参数、算力,以及更多的辅助手段来更好地解决它;而越简单、越具象的问题,可能反而适合参数更少的模型,配合更硬的约束手段。所谓“更硬的约束手段”,比如模型的微调就是最硬的手段,其次是 LoRA,再次是 RAG,最后是 In-Context Learning。 顺着这个梯度去选模型和约束方式,就能找到一个合适的组合。 还有一个折中原则是,如果在解决过程中发现无论多强大的大模型、多好的算法工程或者辅助工程都解决不了这个问题,那就不要什么事都端到端解决,可以把部分问题环节用传统软件工程或算法工程解决,把它们组合成一个混合( hybrid )的架构和工程。 如果让 AI 解决的问题本身不适合 AI,或者问题非常复杂,那么无论做多大努力,它能达到的结果一定是差强人意的。 三、正确理解幻觉 知危:既然幻觉问题造成了那么多困难,也需要如此多手段来缓解,那么如何理解企业大规模应用大语言模型、取代传统机器学习方法的意义所在? 甄焱鲲:理论上来说,除了文本生成领域外,大语言模型在其它领域的应用越来越多了。但在决策推理、复杂规划等任务上,传统机器学习算法还是更有优势。 结合近期大语言模型、视觉模型也在结合典型传统机器学习方法比如强化学习的趋势,表明传统机器学习算法的优势是大语言模型无法替代的。但大语言模型的优势是,它可以低成本地做到传统机器学习算法能做的六七成的水平,这才是本质。 比如做数据分析,可以用传统机器学习算法做统计分析、回归等,来找到数据背后的模式,然后根据学到的模式做预测。甚至在一些特殊领域,可以通过拟合的方式刻意提高准确率,但是这样做成本比较高,门槛也比较高,涉及数据处理、算法设计、模型训练、评估,再到软件工程的部署等。 相比之下,使用大语言模型的话,只需要把某一个时间段的数据,直接丢给大语言模型分析结果。毕竟现在大语言模型的 context 已经很长,很容易处理这类数据,如此成本就很低。虽然分析结果还有各种局限性,但对于很多日常工作的场景已经能满足。 至于成本具体能降到什么程度,还是要看最终的场景需求。比如分析短期的数据,而且这些数据可以被大语言模型的 context 覆盖,那它的成本几乎为零。 如果数据量比较大,就需要通过 MCP或 agent 开发框架,把数据接入到大语言模型里面,可能还需要对数据做预处理,比如Pandas等传统的机器学习框架和数据框架,其实已经具备一定的 AI 能力了。 目前我们去开发一个 AI Agent 来解决这些问题,跟传统的软件工程比如算法工程、数据工程、软件工程等模块对比下来,开发工作量只有原始工作量的百分之二三十左右。 知危:从技术人员的视角理解幻觉,有哪些不同的体会? 甄焱鲲:在当前这个大环境下,对程序员跨领域能力的要求比较高。所以从我作为技术人员的角度来看,在这个过渡阶段,AI 编程带来的收益更容易让程序员接受,上手的速度比较快,这也是为什么像 Cursor 这类工具会这么火。 背后最本质的原因是,程序员本身懂技术,在学习或了解 AI 并不难的情况下,知道该怎么提问题或者怎么下达指令。而其他领域的人,比如 HR、行政、财务等在使用 AI 的时候,很多时候最大的挑战是他们不具备相关知识,导致没办法提出有效的问题。提出正确的问题或写出合适的提示词,其实门槛还是比较高的。 我们现在使用的大部分大语言模型,都是指令跟随版本,只要指令优化得足够好,大语言模型犯错、也就是产生所谓幻觉的概率和可能性,其实是非常低的。 从长远来看,其实幻觉的存在是相对的。如果你不知道,或者你无法判断的情况下,你就不知道它产生的结果到底有没有幻觉,毕竟现在 AI 胡说八道的时候语气还是一本正经的。但最终到底由谁来评估 AI 生成有没有幻觉?还得是人类使用者,这时可能需要更专业的或其他领域的使用者来判断。 知危:有些研究会把幻觉做一些类型划分,探讨了事实性数据和系统性数据的区别。系统性数据比如 1 + 1 = 2,事实性数据比如 “ 小明在 2025 年出生 ”,并提出事实性数据更容易出现幻觉。您对此有什么看法? 甄焱鲲:从我的视角看,早期大语言模型或一些传统 NLP 算法确实存在这类问题,但我觉得现在比较新的大语言模型架构、训练数据处理、指令微调方式,已经在很大程度上避免了这些问题。 目前模型技术在事实性产生错误的概率相对较小。据我了解,模型并不会生硬地去记忆事实性数据。 大语言模型出错的一个典型例子是它不知道 “ 9.9>9.11 ”,本质原因是模型内部并没有进行真正的数值计算。 不管是事实性数据还是系统性数据,都是一个概率计算问题。比如训练数据里有 “ 1 + 1 = 2 ”,但大语言模型并不是直接知道 “ 1 + 1 = 2 ”,而是基于概率。 本质上,它是基于统计概率,而不是逻辑计算。 如果想真正理解幻觉本身,和产生的根本原因,必须了解模型的技术细节,比如大模型训练时在做什么( 涉及前馈网络、注意力机制、query 机制等 ),推理时在做什么,我们干预它时它又在做什么。 知危:您在前面所表述的大模型永远无法完全解决的 “ 错误 ”,有什么具体的理论依据呢? 甄焱鲲:新加坡国立大学发表的论文 “ Hallucination is Inevitable: An Innate Limitation of Large Language Models ”,通过形式化定义 “ 幻觉 ” 并借助学习论证指出,LLMs 无法学习所有可计算函数,因此 “ 幻觉 ” 是固有而不可完全消除的。 另一项研究 “ LLMs Will Always Hallucinate, and We Need to Live With This ” 以 Gödel 不完全性定理和停机问题为基础,指出幻觉是 LLM 必然会产生的结构性产物,不论模型大小、数据多么丰富,都无法根除。 早期的研究从理论上证明了 Transformer 的图灵完备性,但都基于诸如无限精度和任意强大的前馈计算能力等假设。 而对于有限精度和有限前馈网络计算能力的 Transformer 架构( 也是更符合现实情境下的设置 ),其在理论上相当于常深度阈值电路( TC0 ) 的计算能力( 参考论文“ The Parallelism Tradeoff: Limitations of Log-Precision Transformers ” ),这说明它们只能处理相对简单的语言模式,面对更复杂、高组合深度的问题时力不从心。比如在多步推理组合任务中,如乘法、逻辑网格谜题或动态规划问题,Transformer 模型更多是通过 “ 线性子图匹配 ” 而非系统性推理来应对,随着任务复杂度上升表现迅速衰退。 知危:近期关于AI幻觉还出现了一些关于泛化性的研究进展,“ Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers ” 指出抑制幻觉的同时也会抑制 LLM 的泛化性。您对此有什么看法? 甄焱鲲:这些成果很有意义。 模型预测下一个词本质上是概率性的,这可能涉及概率学的本质以及概率在人类社会中的影响。必须存在概率,才能有决策的空间和可能性,进而才能具备泛化能力。 就像人一样,比如我们走路的时候,如果只有一条路,肯定不会走错,只有当有多条路的时候才可能走错,而新的路能带来新的可能。这个问题确实是无法消除的,因为 “ 对 ” 与 “ 错 ” 本身现在都很难定义。 有一种很有意义的情况,有时我们认为 AI 生成的结果是错的,只是因为我们不了解、不知道或没见过这样解决问题的方式,但它实际上是对的,这是 AI 创造性的体现。 再比如,大语言模型认为这个世界是虚拟的,我们觉得它在一本正经地胡说八道,产生了幻觉。但可能过了五十年或一百年,我们通过科学方法论证了世界是虚拟的,那么这个所谓的幻觉其实不是幻觉,而是前瞻性的观点。这有点类似于以前的很多科幻小说、科幻漫画、科幻电影,里面很多技术现在都实现了。那么它到底是不是幻觉?所以关键还是看我们怎么定义幻觉。 所以在对待幻觉这个问题时一定要小心,不能太武断地认为 AI 生成的内容没有现实依据就是幻觉。 四、行业趋势 知危:目前国内业界对 AI 幻觉风险的整体心态是否过度乐观? 甄焱鲲:恰恰相反。DeepSeek 是一个分水岭,在 DeepSeek 出现之前,无论是投资界还是业界,大家对幻觉带来的负面影响都有点过度恐慌。但在 DeepSeek 出来之后,整个行业包括大众都被 “ 教育 ” 了。大家对幻觉带来的影响,以及对幻觉的评估,变得更理性了,有时甚至觉得幻觉是良性的。 具体而言,以前更多是通过新闻报道或学术论文了解幻觉的影响,现在大家已经开始实装大语言模型来解决具体问题,所以会更客观、更清醒地判断:哪些场景下幻觉是可以接受的,哪些是不可以接受的;幻觉对不同任务的影响到底有多大,也能做出更现实、更准确的评估。 当然,相对来说在某些领域确实也存在 “ 过度乐观 ” 的情况,比较明显的是内容创作领域。现在有很多人并不真正了解幻觉是什么。有些人用 AI 辅助创作时,可能会过度乐观,直接把生成的内容公开发布,而对负面的影响和后果没有准确的理解和预估。 关于 “ 过度悲观 ”,主要是在一些比较严肃的领域,比如科研、工业制造、软件工程等场景,很多人会觉得,用大语言模型去解决一个问题,模型思考半天、花了很多钱、用了很多 token,最后也没解决好,还不如自己解决。而且,在应用大语言模型时,本质上是某种程度上对自己的替代,这时候很多人会有抵触心理,进而对模型做出过度悲观或负面的评价。 知危:AI 编程是否也是一个 “ 过度乐观 ” 的场景?特别是 Vibe Coding 火起来以后?很多智能体类产品推出得很快、更新频繁,但在实际使用中还是会有很多问题,尤其是幻觉的累积和错误溯源问题,让人头疼。即便 Claude 4 Opus 号称能连续工作 7 个小时完成编码任务,但仍有人指出其写出的代码是难以维护的。您对此怎么看? 甄焱鲲:现在很多 AI Coding 应用的做法其实还是比较简单粗暴的,属于 “ 大力出奇迹 ” 的思路,而且确实在一定程度上有效。 比如我曾试用一个开源的 AI 编程模型,让它帮我生成一个 Rust 语言的、用于监控当前网络端口访问情况的程序。它花了很长时间,大概两三个小时,才生成出来可编译的结果。 它之所以花那么长时间,是因为在不断检查编译器的报错并修正代码。但最后我运行时发现还是有问题。因为我用的是 Mac Studio,Apple Silicon 的 ARM 架构,它选用的那个库并不支持这个架构,最终导致运行出错。我又让它继续修改,它又花了大概两三个小时,才把这些错误都修正好,最后我才能正常运行和执行。 但如果是程序员来做这件事,可能很快就能解决。毕竟这就是库不兼容的问题,对于一般程序员来说并不复杂。 现在很多生成代码的方式,还是依赖枚举各种情况,用各种提示词和反复试错、反复检查。这种 “ 大力出奇迹 ” 的方式,也跟前面提到的大语言模型自身的特点有关,它不能真正思考,还是靠不断进行局部最优的生成能力来解决问题。 知危:这种 “ 大力出奇迹 ” 的方法会不会导致 token 消耗过高、成本难以承受? 甄焱鲲:这个问题非常重要。现在其实大家没怎么谈这个问题。原因是对资本家来说,他们投资了大语言模型供应商,正希望 token 被大量消耗,只有这样供应商才能赚更多钱。所以这个问题虽然存在,但往往被有意忽略。 当然,有很多开源项目或者行业里一些比较良心的软件,比如 Roo Code,就做了很多这方面的优化,比如上下文压缩、token 压缩,在重复试错时会主动停止,不会无限制地耗费资源。 反观一些其它软件修改代码时,比如一会说多了个花括号,把它去掉了;编译不通过,又说少了个花括号,又把花括号加上,然后又反复修改,重复了十几次,实际上这些重复一直在消耗资源。如果是用免费版还好,用付费版的话,这些重复修改就会一直消耗用户的钱。 当然,这个现象存在一定程度上也是可以理解的。一方面,AI 应用还处于非常早期阶段,大语言模型还在快速发展变化,比如 DeepSeek 刚出来不久,厂商们开始大量往模型里加推理能力,强化学习也才刚起步,阿里最近才把多 agent 集成到商业大语言模型里。因此,现在的 AI 使用方式比较粗糙,随着模型能力稳定下来,这些粗糙的使用方式会逐步优化和迭代,变得更加精细。 另一方面,目前 token 价格已经被压低,用户对价格的敏感度还不是特别高。从应用开发商的角度,也会更多希望用户能持续使用,而用户使用的前提是能帮他们解决问题。在技术还不够成熟的情况下,有时 “ 大力出奇迹 ” 的方法是必要的。 知危:对于未来通过底层技术变革解决或缓解幻觉上,您对哪个方向比较看好? 甄焱鲲:我更倾向于最近生成视频效果比较好的世界模型这条技术路线。 世界模型涵盖更广、更深,视频模型只是它的一种应用体现,主要用来展示模型能力。就像一滴水滴到管子上和一滴油滴到管子上,产生不同结果,这背后是模型权重参数驱动生成的。它主要是通过表象展示背后的思维能力,不是简单的 next token 预测,而是对事物真正的理解。 世界模型不是单纯通过数据生硬训练,而是让模型在训练过程中真正理解数据背后代表的概念、原理及它们之间的关系。 我更希望像训练小孩、培养人类思维成长一样,让 AI 构建起自己的思维体系。而且这种思维是动态变化的,能够适应周围世界的变化。比如这个模型可以部署在端侧,自主浏览网页、使用搜索引擎或查询数据。它还能自主决定是否把浏览到的概念或知识更新到自己的记忆里。 这是更偏向于 AGI 的发展方向。
前谷歌高管Mo Gawdat:在抵达AI乌托邦之前,我们会先经历一段至暗时光
近两年,AI的发展进入高速时代,产品层出不穷,更新速度惊人。从ChatGPT到DeepSeek,AI正逐渐渗透到所有人生活的方方面面。人们在享受AI带来的便利的同时,疑惑也层出不穷:AI会不会抢打工人的饭碗?老人和其他不太会使用AI工具的人会不会被社会淘汰?甚至还有终极的担忧——AI会不会发展到人类再也无法掌控的那一天? 本月,在播客节目The Diary of A CEO中,主持人Steven Bartlett与嘉宾Mo Gawdat就AI对社会的影响,以及人类如何应对即将到来的技术变革进行了讨论。Mo Gawdat是谷歌前高管,曾任谷歌X实验室首席商务官,对AI发展有深入思考,曾多次对未来人类社会将如何受到AI影响进行分析。 ●图为Mo Gawdat Mo Gawdat认为在接下来的十几年内,世界将经历一个不可逆转的转型时期,人们对自由、责任、经济和权力的方式将发生根本性改变。因此,需要为迎接一个陌生的世界做好准备。他强调了构建AI社会的重要性,并持乐观态度:尽管会经历一段不可避免的混乱时期,但AI最终能让世界变得更美好。此外,Mo相信转变的开始将在2027年发生。 本次访谈由Steven Bartlett主持,经未来人类实验室整理编译,以下为本次播客内容的精华—— 在AI乌托邦到来前, 我们要先经历一段动荡混乱时期 主持人:Mo,两年前我们就曾经讨论过人工智能,从那时起,AI就以惊人的速度发展。两年过去了,现在你最担心的是什么? Mo Gawdat:从2023年ChatGPT发布开始,事情的进展比我以往见过的任何事情都要快得多。我改变了自己的立场。我曾经说过,我们可以做一些事情来改变(AI高速发展)这件事的进程,但现在我不这么认为了。现在我认为我们将会经历一个短暂的反乌托邦(Dystopia)。 主持人:什么是反乌托邦? Mo Gawdat:我称之为FACE RIP: F - Freedom 自由 A - Accountability 责任 C - Connectioon 人与人之间的连接 E - Economics 经济 R -Reality 现实 I - Innovation 创新 P - Power 权力 这七项曾经由人类定义,未来将由AI定义。 未来的12-15年,我们必须为即将到来的世界做好准备。而反乌托邦(Dystopia)不是一种好情况,事情发展可能会超出我们的控制。问题在于,在机器高速发展的时代,人类的价值观和伦理观存在着很多问题。很不幸的是,AI正在放大人类能够做的恶事。我认为,人类现在还没有意识到这一点。 ●Mo Gawdat解释反乌托邦 主持人:但是你认为短暂的反乌托邦时期后,人类会迎来乌托邦? Mo Gawdat:没错。当我们完全将控制权交给AI时,反而能得到救赎。AI并不会和我们作对,真正和我们作对的是人类的愚蠢。 主持人:你认为这个反乌托邦时期将持续多久? Mo Gawdat:12-15年。从2027年开始。 老板们别太高兴了, AI早晚让你们也失业 主持人:AI掌握了我们的很多信息,更擅长追踪我们的身份,是否会使我们的自由受到限制? Mo Gawdat:如果你关注Manus或者ChatGPT,就会发现,有朝一日你不需要自己做事情了。你可以对你的AI说,嘿,我要去见Steven,你能帮我预约一下吗?它可以帮你完成所有事。 主持人:在你看来,未来十年内,工作岗位被AI取代的可能性有多大?有种说法是,技术发展会创造新的岗位。 Mo Gawdat:和人类产生直接连接的工作,比如带着学员去世界各地修行的瑜伽导师、理发师之类的工作不容易被取代,但这种工作和会计师、程序员之类的白领工作相比太少了。但是,任何行业顶尖的那批人会留下。老板们很开心可以摆脱他们的员工——人工智能为他们节省了极大的人力成本。有趣的是,这些老板也终将被取代。总有一天,大多数不称职的CEO都会被取代。 为什么AI势必比人类强? 因为它能自我进化 Mo Gawdat:最有趣的但又没人讨论的是自我进化的人工智能。设想一下,如果你我聘请了世界上最优秀的工程师来开发我们的AI模型,有了有学习能力的AGI,世界上最顶尖的工程师就成了AI。举个例子,Alpha Evolve,这个进化式编程智能体是谷歌试图让四个智能体一起工作,来写代码。这四个智能体分别提出问题,提供解决方案,评估解决方案,然后继续完成。谷歌通过Alpha Evolve AI基础设施提升了至少8%。 主持人:这给谷歌带来了极大的增速,节省了很大的成本? Mo Gawdat:是的,如果AI能够独立自主地发现产品当前的问题,提出优化方案、验证可行性并执行、自主寻找漏洞,那么显而易见,下一个用来开发AI的肯定不是人脑。 你能看见月亮的哪一面, 还是钱的问题 主持人:Sam Altman曾经表示,公开发布模型、开源的风险太大了,这项技术会被世界各地的坏人利用,对此你怎么看? Mo Gawdat:还是钱的问题。Sam Altman自己曾经说过,我做的最好的事就是把Open AI交给世界,让全世界都可以看到它,代码被所有人看见。这个时期,你也可以说这些代码会被坏人利用。把这两种同时放在资本面前,你认为他们会怎么选择?还是得看他们当下需要的是什么。是获取更大的关注,还是收获更大的利益。 AI时代, 普通人的收入会增加还是减少? 主持人:谈谈你对资本影响下,AI会怎样影响普通人收入的看法吧。 Mo Gawdat:在二战后的一段时间,工业飞速发展,大部分的美国家庭都拥有了他们生活所必需的东西。但是资本们为了继续盈利,他们需要说服你,你拥有的还不够。要么通过使你拥有的东西变得过时——人们管这个叫时尚——比如向你推销全新外观的汽车,来提醒你生活中还有很多你没有的东西,从而赚你更多的钱。 这种盈利方式到了今天,一种基于生产和消费的生产模式。现在美国GDP的62%是由消费产生的,而不是生产。这就要求消费者有足够的消费能力来购买生产的物品。这种模式还将继续。 ●AI生成的乌托邦图景 而AI时代的到来,提醒了资本们,大多数生产都由AI来完成了,人类能提供给我的劳动力越来越少,为什么我不少给他们点钱呢?短期之内,人们的收入会降低。但是,如果AI发展到了一定程度,生产的成本大幅度降低,人们获取一切资源的成本都趋近于零,我之前说过的AI乌托邦时代就到来了。事实上,挑战不在于技术,而在于心态,在于精英阶级能否想通权力、金钱和社会义务之间的关系。 主持人:现在很多体力工作已经被机器取代了,那么你认为AI 取代脑力工作者需要多久? Mo Gawdat:AI距离学会并取代大多数人类脑力工作者还有至少四到五年的时间。在它们学会后,生产足够多的机器人来完成替代还需要一段时间。
苹果新AI模型长视频理解夺冠,小至1B版本也领先对手
IT之家 8 月 23 日消息,科技媒体 9to5Mac 今天发布博文,报道称苹果研究团队开源 SlowFast-LLaVA-1.5 长视频多模态大语言模型,在 1B、3B、7B 参数规模下,均刷新 LongVideoBench、MLVU 等 SOTA 基准纪录。 IT之家援引博文介绍,当前大语言模型在处理和理解视频方面,通用做法是在 AI 预训练中集成视频感知,但这种做法存在以下 3 重局限性: 现有现有模型往往严重依赖长上下文窗口,而处理时通常会遇到大量冗余帧,易超出上下文窗口限制,从而丢失信息。 大多数训练需要复杂的多阶段训练管道(通常使用私有数据集),难以重现。 许多模型仅针对视频任务优化,限制了在图像的理解,从而降低通用模型的实用性。 苹果公司针对上述 3 个局限性,首先研究推出了 SlowFast-LLaVA 开源模型,最大的亮点是创新双流(two-stream)设置,其中“慢流”选取少量高分辨率帧捕捉场景细节,“快流”选取更多低分辨率帧追踪运动变化。 苹果进一步在开源模型 SlowFast-LLaVA 模型上,通过微调图像模型,进一步增强视觉推理能力,再联合图像与视频训练,保留图像理解优势,推出了 SlowFast-LLaVA-1.5 版本。 在设计上,SF-LLaVA-1.5 将输入视频帧数固定为 128,其中快流 96 帧,慢流 32 帧,适配各种时长视频。这种方法虽可能漏掉关键帧或影响播放速度判断,但显著降低了计算和显存需求。研究团队指出,可通过引入内存优化技术(如随机反向传播)进一步改进,但需解决高显存占用问题。 测试显示,该模型在长视频基准 LongVideoBench、MLVU 上均取得新纪录,而且 1B 版本也能领先竞争对手。同时,它在知识问答、数学推理、OCR 等图像相关任务上表现出色,实现视频与图像的通用理解能力。 该项目完全基于公开数据集训练,方便学术与产业复现,并已在 GitHub 与 Hugging Face 开源。
2025中国算力大会开幕 联想发布《2025 AI方案赋能白皮书》
凤凰网科技讯(作者/于雷)8月23日,2025中国算力大会昨日在山西大同举行。联想集团作为全球算力基础设施和服务提供商,连续第三次受邀参会。会上,联想集团副总裁、中国基础设施业务群总经理陈振宽正式发布《2025 AI方案赋能白皮书》,这是继去年异构智算产业生态联盟成立后,联想联合中国智能计算产业联盟等合作伙伴发布的第二本异构智算白皮书。 该白皮书通过技术演进趋势分析和典型案例解析,为不同行业的智能化转型提供了具体的解决路径,构建了AI应用与新型基础设施融合的全景蓝图。陈振宽在主旨演讲中表示:“算力、模型和应用是AI发展的三条主线,它们融合发展,共同推动了AI潮流穿越周期。” 在大会颁奖环节,联想万全大模型训推一体解决方案荣获“年度重大突破成果奖”,这是联想连续第二年在该会议上获得重要奖项。去年,联想万全异构智算平台曾入选“算力中国·年度重大成果”。 技术展示方面,联想围绕智能计算、高性能计算和通用计算三大场景,展出了覆盖全场景的算力基础设施产品和解决方案。其中,联想万全异构智算平台3.0版本新增了AI推理加速算法集、AI编译优化器、AI训推慢节点故障预测与自愈系统、专家并行通信算法四项关键技术。 值得关注的是,联想展示的“双循环”相变浸没制冷系统实现了1.035的PUE值,达到世界顶尖水平。这意味着96.6%的电力消耗可直接用于AI训练和推理计算,显著提升了能源利用效率。 在高性能计算领域,联想ThinkSystem SC750 V4服务器采用“联想问天海神”温水冷技术,功耗较传统风冷降低40%,PUE值可降至1.1以下。该技术已应用于上海交大“思源一号”高性能计算系统。 AI终端方面,联想天禧个人超级智能体以及ThinkBook Plus Rollable AI元启版卷轴屏电脑、联想YOGA Pad Pro 14.5 AI元启版平板等创新产品,展现了跨平台、跨设备的新一代人机交互体验。 联想自2017年开始构建包含AI终端、AI基础设施、AI解决方案与服务的全栈AI体系。当前,人工智能技术加速渗透各行各业,算力作为新质生产力的重要载体,正成为智能时代的核心战略资源。联想通过混合式AI策略,推动算力普惠化发展,为千行万业的智能化转型提供技术支撑。
刚刚,苹果AI华人总监跳槽Meta!核心团队再-1,库克被迫求助谷歌
编辑:元宇 好困 就在刚刚,苹果AI工程总监Frank Chu被曝加入Meta。 他将在MSL Infra的新团队工作,负责AI基础设施相关事务。 这是自苹果模型团队的创建者庞若鸣,被Meta以一份价值2亿美元的薪酬包挖走之后,苹果AI项目面临的最重大的损失之一。 苹果AI得力干将 曾主导模型训练部署 自苹果AI模型团队原负责人庞若鸣之后,Tom Gunter、Mark Lee、Bowen Zhang、Yun Zhu等大牛相继离职苹果加入Meta。 Frank Chu的跳槽,使他成为至少第六位从苹果投奔Meta的AI模型领域员工。 2019年,Frank Chu加入苹果,担任技术总监的职务。 在苹果期间,他是AI基础设施高管Benoit Dupin的得力副手,而Dupin则直接向公司AI战略主管John Giannandrea汇报。 技术层面,他不仅主导苹果基础模型(AFM)及开源大语言模型在公有云上的推理部署,而且还牵头了苹果基础模型的数据预训练工作,为AFM团队提供模型预训练所需的全部Token。 同时,他还领导搜索平台团队,为Siri、Safari、Apple Music、Apple TV、App Store等苹果旗下产品提供了核心搜索技术支持。 加入苹果之前,Frank Chu曾在多家全球顶级科技公司担任技术领域的关键工作。 Waymo技术主管,近4年,从零构建并领导了Waymo的训练基础设施(超2000个TPU)。该平台被公司所有团队用于大规模训练感知、路径规划及其他模型。 谷歌搜索软件工程师,近9年。 此前,他在英属哥伦比亚大学获得数学与计算机科学学士学位,在多伦多大学获得计算机科学硕士学位。 疯狂「烧钱」挖角超50人后 Meta紧急冻结招聘 虽然Frank Chu刚刚入职,但实际上,在历时数月、豪掷数十亿美元大举招揽了超过50名AI研究员和工程师之后,Meta已冻结其人工智能部门的招聘。 该禁令还禁止部门内现有员工的跨团队调动,此次招聘冻结已于上周生效,与该部门更大范围的重组同步进行。公司内部并未传达此次冻结将持续多久。 知情人士称,外部招聘禁令或有例外,但必须获得Meta首席AI官Alexandr Wang的特批。 一位Meta发言人证实了此次冻结,并称这次历时数月的AI人才招募,将为Meta新的超级智能项目构建一个坚实的组织架构。 目前,根据外媒的报道,HR收到的备忘录透露了以下几个关键信息: Meta决定暂停所有MSL团队的招聘,但业务关键性职位除外 此举将使领导层能够在我们制定战略的过程中,深思熟虑地规划2026年的员工增长计划 任何业务关键性岗位的招聘,将由Alex的团队逐案评估 人虽停招,但投资步伐没停。 Alexandr Wang近日在社交媒体上发帖称,公司正在「对Meta超级智能实验室进行越来越多的投资」。 目前,Meta AI共有四个团队,共同隶属于「Meta超级智能实验室」: 第一个是致力于超级智能的TBD Lab; 第二个负责AI产品; 第三个负责基础设施; 第四个则专注于更长远、更具探索性的项目。名为「基础AI研究部」(Fundamental AI Research),在此次重组中基本保持原样。 在此之前,Meta曾有一个名为「AGI基金会」(AGI Foundations)的团队,负责开发公司最新版本的大语言模型Llama。 然而,在最新一代Llama模型于今年春天发布后,因其表现未达预期,该团队遭到了高管的批评,并在此次重组中被解散。 在Meta最近的股票授予日(8月15日)前后,至少有三名前AGI基金会团队的成员在内部宣布将离职。 正是在4月份Llama模型发布之后,扎克伯格开始亲自出马招募AI研究员。 截至8月中旬,Meta已成功为该项目从OpenAI挖来超过20名研究员和工程师,从谷歌挖来至少13名,此外还有3名来自苹果,3名来自xAI,2名来自Anthropic,新员工总数超过50人。 苹果密洽谷歌 或用Gemini重塑Siri 对于苹果而言,这波人才出走潮,为其本已步履维艰的AI项目带来了更多动荡。 这一变动,再加上庞若鸣的离职,给苹果的AI模型团队带来了巨大冲击,并进一步加剧了人才流失。 据透露,苹果近期已与谷歌进行接洽,商讨构建一个定制化AI模型,以作为明年新版Siri的技术基础。 知情人士称,谷歌已开始训练一个可在苹果服务器上运行的模型。 此举是苹果为追赶其在生成式AI领域颓势所做努力的一部分。 苹果在AI领域起步较晚,且后续发展乏力。与第三方AI模型合作,可能在苹果公司内部已经酝酿一段时日。 今年早些时候,苹果还曾探讨与Anthropic及OpenAI建立合作,评估Claude或ChatGPT作为Siri新「大脑」的可能性。
前亚研院谭旭离职月之暗面,加入腾讯混元,AI人才正加速回流大厂
图片来源:Unsplash 根据让互联网飞一会儿的报道,微软亚洲研究院前首席研究经理谭旭已于近期正式加入腾讯混元团队,负责多模态方向的前沿研究。 谭旭是一位在学术与产业界都颇具分量的研究者:在微软研究院任职期间,他的研究聚焦于生成式人工智能,以及语音、音频与视频内容生成,其论文引用量已超过万次,研究成果也被大规模应用于 Azure、Bing 等核心产品。他还多次担任 NeurIPS 等国际顶级学术会议的审稿人,在学术界有着较高声望。 值得注意的是,谭旭在去年 8 月才刚刚加入国内大模型创业公司“月之暗面”,负责研发端到端语音模型。据悉,该公司的多模态研究在他入职前已悄然展开数月。去年底,随着 DeepSeek 的横空出世,中国 AI 六小龙的光环迅速褪色,月之暗面也放缓了原先激进的投流步伐。 多模态的探索对算力与资金消耗极其庞大,这一点对创业公司来说几乎是不可承受之重。对比之下,即便是当下风头正盛的 DeepSeek,也仍然以文字与推理能力为主,尚未在多模态方向真正大规模突破。而像腾讯、字节这样的大厂,在资源、生态与算力上的优势更加明显,能够为多模态研究提供长期稳定的支持。从这个角度看,谭旭从创业公司转向腾讯混元,既是个人职业路径的自然延续,也是中国大模型版图中一个颇具象征意义的信号。 更深层的解读是,中国大模型赛道正在经历“由野蛮生长到资源集中”的转折。早期创业公司依靠故事、融资与速度抢占叙事高地,但随着竞争进入比拼数据、算力、落地生态的深水区,创业公司的先发优势正在迅速消退。大厂凭借资本实力、算力基础设施和应用场景,正逐步收拢最顶尖的人才与技术方向。 谭旭的选择,某种意义上也是这一趋势的缩影:当赛道进入淘汰赛阶段,个人要想继续在多模态领域做出成果,或许唯有依附大厂,才能确保研究的持续性与产业化的可能。
比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次
编辑:定慧 好困 【新智元导读】DeepConf由Meta AI与加州大学圣地亚哥分校提出,核心思路是让大模型在推理过程中实时监控置信度,低置信度路径被动态淘汰,高置信度路径则加权投票,从而兼顾准确率与效率。在AIME 2025上,它首次让开源模型无需外部工具便实现99.9%正确率,同时削减85%生成token。 如何让模型在思考时更聪明、更高效,还能对答案有把握? 最近,Meta AI与加州大学圣地亚哥分校的研究团队给出了一个令人振奋的答案——Deep Think with Confidence(DeepConf),让模型自信的深度思考。 论文地址:https://arxiv.org/pdf/2508.15260 项目主页:https://jiaweizzhao.github.io/deepconf 这项新方法通过并行思考与「置信度筛选」,不仅让模型在国际顶尖数学竞赛AIME 2025上拿下了高达99.9%的正确率。 可以说,这是首次利用开源模型在AIME 2025上实现99.9%的准确率,并且不使用任何工具! 并且在保持高质量推理的同时,将生成的token数量削减了84.7%。 DeepConf还为并行思考(parallel thinking)带来了多项硬核优势: 性能飙升:在各类模型与数据集上,准确率平均提升约10% 极致高效:生成token数量锐减高达85% 即插即用:兼容任何现有模型——无需额外训练(也无需进行超参数微调!) 轻松部署:在vLLM中仅需约50行代码即可集成 以DeepConf在HMMT 25(哈佛–麻省理工数学竞赛)的第11道题目上的推理过程为例。 核心思想是DeepConf通过「置信度信号」筛选推理路径,从而得到高质量答案,并在效率与准确率之间取得平衡。 横轴(token index):表示模型生成的推理步骤(随着token逐步增加)。 纵轴(confidence):表示每条推理路径在该步骤上的置信度水平。 绿色曲线:表示不同推理路径的置信度轨迹,越深的绿色表示置信度越高。 红色叉叉:低于置信度阈值的推理路径,被动态筛除。 绿色对勾:最终被保留下来的高置信度路径。 最终表决:这些路径在基于置信度加权的多数表决下,最终得出统一答案:29。 DeepConf在生成过程中,会持续监控推理路径的置信度,低置信度路径被及时淘汰,只保留「更有把握」的路径,提升整体准确性。 通过准确率对比曲线,上图可以看出纵轴是accuracy(准确率),黄色曲线(DeepConf)比蓝色曲线(标准方法)明显更高。 表明DeepConf在相同投票规模下能达到更高的准确率。 下图横轴是token数量(推理所需的计算成本),黄色曲线在准确率保持较高的同时,token消耗明显更少。 表明DeepConf大幅减少了无效token的生成,推理效率更优。 DeepConf让模型不再「胡思乱想」,而是高效地走在高置信度的推理轨道上。 DeepConf支持两种工作模式: 离线模式:根据置信度筛选已完成的推理路径,然后根据质量对投票进行加权。 在线模式:当置信度实时降至阈值以下时,立即停止生成。 DeepConf的秘诀是什么? 其实,LLM知道自己何时开始不确定的,只是大家一直没有认真关注过他们的「思考过程」。 之前的方法在完整生成之后使用置信度/熵用于测试时和强化学习(RL)。 DeepConf的方法不同,不是在完成后,而是在生成过程中捕捉推理错误。 DeepConf实时监控「局部置信度」,在错误的推理路径消耗数千个token之前及时终止。 只有高质量、高置信度的推理路径才能保留下来! DeepConf是怎样「用置信度筛选、用置信度投票」? 这张图展示了DeepConf在离线思考时的核心机制: 它先判断哪些推理路径值得信赖,把不靠谱的路径提前剔除,再让靠谱的路径进行加权投票,从而得到一个更准确、更高效的最终答案。 首先是每一token「有多确定」。 当模型在写推理步骤时,其实每个词(token)背后都有一个「信心值」。 如果模型觉得「这一步答案很靠谱」,信心值就高。如果它自己都拿不准,这个信心值就会低。 上图里用不同深浅的绿色和红色标出来:绿色=更自信,红色=不自信。 其次,不光要看单token,还要看整体趋势。 DeepConf不只看某一个词,而是会滑动窗口:看看一小段话里的平均信心值,衡量「这段话整体是否靠谱」。 重点看看最后几句话的信心值,因为最终答案、最终结论往往决定于结尾。 DeepConf也会记下这条推理链里最差的一步,如果中间有明显「翻车」,这条路径就不太可靠。 这样一来,每条完整的推理链路都会得到一个综合的「置信度分数」。 最后,是先淘汰,再投票。 当模型并行生成很多条不同的推理路径时: 第一步:过滤,把「置信度分数」排序,最差的10%直接丢掉,避免浪费。 第二步:投票,在剩下的推理链里,不是简单数票,而是按照置信度加权投票。 也就是说:一条高置信度的路径,它的意见分量更大;低置信度的路径,即便答案一样,也不会拉高太多票重。 最后看一下结果,在图的右边可以看到:有的路径说「答案是109」,有的说「答案是103、104、98」。 但由于支持「109」的路径更多、而且置信度更高,所以最终投票选出了109作为答案。 成绩刷爆99.9% 比GPT-5还高 离线模式结果:在AIME 2025上达到99.9%的准确率(基线为97%)! 在5个模型×5个数据集上实现普适性增益。 在所有设置下均取得约10%的稳定准确率提升。 在线模式结果:在所有基准测试中节省33%-85%的token! 在AIME 2025基准测试中,使用GPT-OSS-120B,在减少85%的token消耗下,仍达到97.9%的准确率。 该方法适用于从8B到120B的各类开源模型——在不牺牲质量的前提下实现实时高效。 在离线环境中对置信度度量进行基准测试。报告的数值为准确率(%)。 Cons@512和mean@512分别表示使用512条推理轨迹进行的多数投票结果,以及平均置信度的均值。所有实验均重复进行了64次。 在在线环境中对DeepConf进行基准测试。 在投票规模预算为512的条件下,报告多数投票方法与DeepConf(高/低)的方法的准确率(%)以及生成的token数量(×10⁸)。 基于置信度的深度思考 研究者的思考是:到底怎么把「置信度」用得更巧妙,让模型既想得更准,又想得更快呢? 正如前文所述,这里可以分成两个使用场景: 离线思考:等模型把一整条推理路径都写完了,再回头去评估每条路径的置信度,把靠谱的结果聚合在一起。这样做的好处是能最大化提升答案的准确性。 在线思考:在模型一步步生成推理的过程中,就实时参考置信度。如果发现某条思路不靠谱,可以及时停掉,避免浪费算力。这样能边走边筛选,提升效率甚至精度。 离线思考 在离线思考模式下,每个问题的所有推理路径均已生成。 此时的核心挑战是:如何聚合来自多条路径的信息,从而更准确地确定最终答案。 针对这一点,研究人员采用了标准的多数投票(majority voting)方法。 多数投票(Majority Voting) 在标准的多数投票中,每条推理路径得出的最终答案对最终决策的贡献是均等的。 设T为所有已生成路径的集合,对于任意路径t∈T,设answer(t)为从该路径中提取的答案文本。 那么,每个候选答案a的票数为: 置信度加权多数投票 这个方法不再均等对待每条路径的投票,而是依据其关联路径的置信度,为每个最终答案赋予权重。 对于每个候选答案a,它的总投票权会被重定义为: 置信度过滤 在加权多数投票的基础上,还需要应用置信度过滤,才能在将投票更集中于高置信度的推理路径。 具体来说就是,通过路径的置信度分数,筛选出排序前η%的路径,从而确保只有最可靠的路径参与最终答案的决定。 选择前10%:专注于置信度最高的少数路径。适用于少数路径就能解决问题的场景,但风险是如果模型存在偏见,容易选错答案。 选择前90%:纳入更广泛的路径。这种方法能保持多样性、减少模型偏见,在各路径置信度相差不大时尤其稳健。 图3阐释了各种置信度度量方法以及基于置信度的离线思考的工作原理。 算法1则提供了该算法的详细实现。 在线思考 在线思考模式通过在生成过程中实时评估推理路径的质量,来动态终止低质量的路径,进而确保其在后续的置信度过滤阶段大概率能被排除。 对此,研究人员提出了两种基于最低分组置信度,并会自适应地中止生成过程并调整推理路径的预算的方法:DeepConf-low和DeepConf-high。 其中,共包含两大核心组件:离线预热与自适应采样。 离线预热(Offline Warmup) DeepConf需要一个离线预热阶段,以便为在线决策过程建立停止阈值s。 对于每个新的提示词,首先生成Ninit条推理路径(例如,Ninit=16)。 停止阈值s定义为: 在所有配置下,DeepConf-low均统一采用前η=10%的策略,而DeepConf-high则统一采用前η=90%的策略。 在在线生成过程中,一旦某条推理路径的置信度低于预热阶段的数据所设定的、能够筛选出置信度排序前η%路径的最低门槛,生成过程就会被终止。 自适应采样(Adaptive Sampling) 在DeepConf中,所有方法都采用了自适应采样,如此就可以根据问题难度动态调整所生成推理路径的数量。 问题难度通过已生成路径之间的一致性程度来评估,其量化方式为多数投票权重与总投票权重的比值: 若β 由于采用的是最低分组置信度,一个足够大的预热集便能产生对停止阈值s的精确估计。 因此,任何被在线终止的路径,其分组置信度必然低于s,也就会被离线过滤器所排除。 这样,在线流程便能近似于离线的最低分组置信度策略,并且随着Ninit的增加,其准确率会逼近离线策略的准确率。 图4中阐释了在线生成的过程。 算法2则提供了该算法的详细实现。 具体过程,我们就用上图里的这道「勾股三元组计数」问题举个例子。 DeepConf要在生成推理的同时判断:哪条思路靠谱、该继续;哪条思路不靠谱、该尽早停,从而少花token、又更准。 两个阶段:先定阈值,再在线筛 1. Offline Warm-up(上图右侧,离线预热) 先离线跑几条完整的推理轨迹(Trace 1~5),给每条算一个「整体有多靠谱」的分数。 按分数做一次置信度过滤,好的轨迹在上方(绿色),差的在下方(红色)。 据此确定一个停止阈值s(图中绿色箭头标注)。 简单来说就是低于 s 的,通常是不值得继续的推理。 这一步就像「热身+标定」,模型把「该不该停」的门槛先定好。 2. Online Generation(上图中间,在线生成) 正式解题时,同时展开多条并行思路(多行的方块序列)。 对每条思路,系统滚动地评估「这段话最近一小段的可靠度」(图中方块从左到右代表一步步的生成)。 左下 & 右下的小曲线各自表示模型的「把握」程度。 左下绿曲线表示模型对接下来的词更「有把握」,示例文本是正经的数学推理(如「勾股三元组公式…」),这类内容通常被保留。 右下红曲线表示模型在犹豫或「自我怀疑」,示例文本是「让我再想想、回头检查一下…」,这类犹豫/兜圈子的片段常被判为低置信度,从而触发在线早停。 先离线确定「可靠度阈值s」,再在线用s给并行思路「边走边检查」。 不靠谱就当场叫停,靠谱的继续前进。这样就能做到既快又准了。 作者介绍 Yichao Fu 论文一作Yichao Fu是加州大学圣地亚哥分校(UC San Diego)计算机科学与工程系的博士生,师从张昊教授,也就是老朋友Hao AI Lab的负责人。 此前,他在浙江大学获得计算机科学学士学位。 他的研究兴趣主要为分布式系统、机器学习系统以及高效机器学习算法,近期专注于为LLM的推理过程设计并优化算法与系统。 他参与的项目包括:Lookahead Decoding、vllm-ltr和Dynasor。
AI 泡沫?麻省理工学院报告95%企业AI投资几乎无回报
IT之家 8 月 23 日消息,麻省理工学院(MIT)最新报告警告,95% 的生成式人工智能投资几乎没有为企业带来收益,半数项目以失败告终,仅 5% 落地商业化。 Telegraph 媒体认为受此影响,市场担忧 AI 泡沫濒临破裂,导致英伟达股价跌 3.5%,帕兰提尔跌 9%,软银跌 7%。 IT之家援引报告内容,尽管企业在该领域投入高达 300 亿至 400 亿美元(IT之家注:现汇率约合 2151.83 亿至 2869.11 亿元人民币),95% 的项目未产生任何财务回报,半数 AI 项目以失败告终,仅 40% 的公司将 AI 应用投入实际部署,且仅有 5% 的试点最终进入生产阶段。这一发现令市场担忧 AI 热潮或将重蹈 2000 年互联网泡沫覆辙。 受此报告影响,美国科技股周二大幅下挫。AI 芯片龙头英伟达股价下跌 3.5%,数据分析公司帕兰提尔(Palantir)暴跌 9%,日本软银也因重仓 AI 项目而下跌 7%。 MIT 指出,不少企业“悄然放弃”复杂昂贵的企业级 AI 系统,员工更倾向于自费使用 ChatGPT 等消费级工具。 报告发布正值市场对 AI 的盈利能力信心减弱之际。自 2022 年 ChatGPT 推出以来,硅谷一直宣称 AI 将带来巨额节省与效率提升,然而现实未达预期。 OpenAI 发布的 ChatGPT-5 也被认为升级幅度有限,不少用户呼吁恢复旧版本。OpenAI CEO 山姆・奥尔特曼坦言,投资人“确实有些过于兴奋”,未来可能有人损失惨重。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。