EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
暴雪起诉《魔兽世界》“乌龟服”,指控其长期侵犯知识产权
IT之家 9 月 1 日消息,暴雪娱乐公司(Blizzard)已对“乌龟魔兽”(Turtle WoW)服务器的运营者提起版权侵权诉讼。暴雪在诉讼中指出,该服务器运营方的商业模式完全建立在持续侵犯暴雪知识产权的基础之上。 据游戏媒体 Massively Overpowered 报道,暴雪此次终于对这一“魔兽私服”采取法律行动。诉讼文件详细说明,“乌龟魔兽”运营方通过长期侵犯知识产权牟利,他们利用《魔兽世界》这一热门大型多人在线角色扮演游戏(MMORPG)的高人气,非法使用受保护的游戏代码及素材开展运营。 IT之家注意到,诉讼书原文写道:“自《魔兽世界》首次发售后的二十年间,暴雪投入了巨额时间与资金用于游戏的开发、维护及更新。然而,当‘乌龟魔兽’运营方这类不良主体,试图通过侵犯暴雪宝贵知识产权(包括受保护的代码与游戏素材)牟利时,他们不仅破坏了暴雪自身在经典内容与社群驱动内容上的努力,贬低了《魔兽世界》的游戏体验,更对暴雪及众多艺术家、程序员、游戏设计师等创意从业者造成严重损害 —— 这些从业者始终在不懈努力,为新老玩家打造独特且优质的游戏体验。” “乌龟魔兽”运营方恐怕难以阻止服务器彻底关停。根据暴雪在诉讼中的诉求,运营方还需移交该项目的全部数据副本、完整的盈利账目,并将域名转让给暴雪。这意味着玩家若想体验“经典怀旧服”(vanilla WoW)玩法,可能别无选择,只能回归《魔兽世界》官方经典服,但官方版本并不包含“乌龟魔兽”此前提供的自定义内容。不过,“乌龟魔兽”运营方并未打算束手就擒,他们已在服务器官方 Discord 社群中承诺,“乌龟魔兽会一直存在”,并表示已准备好迎接未来的挑战。
豆包千问DeepSeek,没上苹果先“上车”
最近,车圈和AI企业间再一次传出“牵手”消息,这一次的主角,是特斯拉、字节跳动和深度求索(DeepSeek)。 特斯拉中国官网更新的《特斯拉车机语音助手使用条款》显示,全新上市的特斯拉Model Y L车型将搭载豆包大模型与DeepSeek模型,两款模型均通过火山引擎接入。 据了解,豆包大模型将承担语音命令功能,如导航设定、媒体播放操控、空调温度调节等,同时还具备车主手册查询功能;DeepSeek模型提供AI语音闲聊服务。 据了解,特斯拉在美国销售的车型,采用马斯克自家xAI的Grok模型驱动,然而在中国市场,特斯拉和苹果一样,遇到了主力产品在华无法落地AI功能的尴尬境地。根据彭博社的报道,过去7个月中,特斯拉上海工厂的出货量在其中六个月出现下滑,7月交付量较去年同期下降8.4%。本次豆包和DeepSeek的加入,更像是马斯克在中国市场的紧急“补课”,补全车机端的大模型能力。 进入2025年,特斯拉和火山引擎并不是车圈和AI圈的唯一一次“牵手”,事实上,过去一年中许多车企都在谋求在座舱AI功能上的升级,比亚迪、宝马等头部车企,均于先后宣布与阿里、字节等AI企业合作展开智能座舱的研究。 “传统的座舱语音功能是靠填槽的方式去实现的,相比之下,AI加持的智能座舱交互的功能要丰富的多。”谈及车企与AI大厂携手的现状,某车企OEM座舱产品经理子豪这样点评道。 而随着大模型技术能力逐渐渗透到各领域,进入2025年后,越来越多的汽车厂商开始谋求和AI云服务企业的深度合作,携手打造下一代智能座舱能力。MRA披露的市场研报显示,预计到2027年,人工智能驾驶舱功能市场规模将达到50亿美元,复合年增长率(CAGR)超过25%。 今年2月,比亚迪曾宣布与DeepSeek深度集成,整车智能“璇玑架构”全面接入DeepSeek R1大模型的能力,提升自动化数据生成的效率和质量。彼时由DeepSeek带来的AI浪潮已席卷车圈,包括吉利、东风、智己、长安在内的车企,都先后接入了DeepSeek的模型能力。 时间来到6月,阿里云成为了比亚迪的深度合作伙伴。根据阿里云方面的披露,AI智能体Mobile-Agent可以在比亚迪车机完成对阿里生态App的操控。Mobile-Agent采用全视觉解决方案,基于比亚迪开放座舱应用生态与AI对话系统,结合Qwen-VL的视觉识别、推理能力构建多模态智能体,可实现对座舱屏幕智能感知、复杂任务规划以及座舱应用UI进行操作决策。 从DeepSeek到阿里云,比亚迪的合作路径也映射出车企在这一年中的思路变化,上半年还在接入推理大模型强化基础AI能力;而到了下半年,向Agent进发成为了明确的落地方向。 “未来的智能座舱,就是要把车载的OS给Agent化。”子豪表示,Agent和多端交互是车企在推动的新场景,但一些传统车企不具备从底层去改造车机OS的能力,所以只能借助外部合作伙伴的能力联合开发。 在智能驾驶时代,一台汽车内应用的AI技术可以分为两个板块,智驾系统的E2E大模型更多聚焦于自动驾驶决策,需要进行大量VLA层面的训练。而在智能座舱板块,随着大语言模型的普及,车机可以在AI加持下获得更强的通用对话能力,以及座舱内的视觉交互场景。对于一些缺少通用大模型能力的传统车企来说,找AI企业“补课”无疑是更快的方式。 “(车企和AI企业)目前的合作模式中,AI企业主要还是云服务商的角色,负责提供公版模型。”据子豪介绍,智能座舱市场当下比较活跃的AI厂商是阿里、字节和商汤,不过这些企业并没有在汽车座舱场景深度定制化的能力,而车企们往往是在已经有比较成熟的产品方案的基础上,亟需接入能力更强的模型。 在豪华汽车品牌方面,奔驰在去年8月与字节火山引擎签署战略合作备忘录,聚焦大模型/生成式AI/大数据,用于智能座舱升级。宝马在今年3月与通义Qwen展开在华深化合作,打造面向中国用户的车内AI引擎/智能座舱。 而在其他传统车企中,广汽传祺、本田雅阁等品牌,此前选择了商汤的绝影智能座舱方案。今年年初,上汽大众宣布和百度深度合作,基于文心一言大模型能力打造了“知大”语言模型APP,并首次搭载于途昂Pro车型上。 “各家车企在智能座舱上的投入其实不算很多,可能只有智驾1/3的预算。”谈及智能座舱是否是各家车企发力的重点,子豪坦言,尽管在整个车辆研发体系中,车企对于智能座舱的投入占比较小,但座舱在用户端的“曝光度”很高,因此各家车企也在该领域加速“内卷”。 “一块智能大屏好不好用,往往决定了用户一上手的第一感觉。”子豪表示,一台车的机械素质/智驾系统的体验,需要用户进行深度试驾才能有效感知,而座舱的智能性决定了用户对一台车的第一印象。“把座舱里的功能打磨好,生态做得足够多,对车企而言是一件高性价比的事情。” 另一方面,相比起“补课”智能座舱的传统企业,一些新势力车企在更早就选择了自研LLM的道路,在他们进化的轨迹中,大模型和智能座舱承担了更重要的作用。 目前,代表国产造车新势力的“蔚小理”中,三家车企均有自研LLM支持智能座舱场景,理想有自研多模态MindGPT(理想同学核心);蔚来方面则打磨出NomiGPT(Nomi核心);小鹏方面同样有自家“全域大语言模型”驱动的“AI小P”。 另一方面,各自拥有庞大生态圈层的华为和小米,在汽车领域均有自研模型驱动的智能座舱。今年年初,华为方面披露了AI助手车载小艺的最新进展,其中提到了车载小艺实现了“鸿蒙智行与盘古大模型、DeepSeek的深度融合。”而小米方面,则有小爱语音大模型/MiLM系列部署到SU7等车型上,与小米提出的“人车家全生态”无缝联动。 显然,相比起传统车企,新势力们在大模型+座舱这件事上布局更早,并且在自研智能座舱/端侧大模型上进行了技术积累。 “新势力们卖给用户的不是车,而是一款智能产品。”子豪解释了为何造车新势力更加重视座舱的智能性。 “新势力车企的用户很多都是20-30多岁,喜欢这些新奇智能的产品。”子豪表示,新势力们需要通过座舱功能的智能化来维系用户粘性,塑造用户的“心智”,也就是使用习惯。 这一结论在行业内也得到印证, 2024年底披露的数据显示,以蔚来ET5T车型为例,用户均值28.9岁、小于30岁占比73.3%。而今年新发布的小鹏G7,首批车主画像有近70%的“95后”。 麦肯锡发布的2024中国汽车消费者洞察报告显示,在“为什么考虑买新能源车”这一问题上,“智能化程度高”在中国消费者中的提及率约54%,并且优先级从2023年开始跃升为第二名,仅次于“使用成本低廉。” 在子豪看来,车机/座舱的智能化,本质上是减少用户的被动操作。在行业内,智能座舱的产品经理们,一直致力于提供更多主动触达用户的场景。 “行业内比较通用的方式,是通过一个App去把车载的一些状态/能力原子化。”子豪进一步举例说明,像理想的“任务大师”功能,可以通过一句话设定一串用户想执行的任务,比如“如果到家就打电话给某人”。不过,面对这些复杂交互场景,造车新势力们也少不了搭一下AI企业的顺风车,小鹏在2024年就把智能座舱的操作系统AI天玑和“AI小P”融合了智谱AI大模型能力,而理想方面则此前传出与火山引擎在算力层协作。 “最终的发展趋势,我认为慢慢各个车企都有自己的专属模型。”在子豪看来,造车新势力们虽然相对领先,但是各家车企都在补足智能座舱的短板。另一方面,目前市场上的AI云服务商的选择很多,联合研发的模式也能快速补齐短板。对于车企们而言,更重要的是思考未来的智能座舱形态,应该是什么样。 “在智能座舱的交互场景中,最核心的要素是实时性。”据子豪介绍,车载智能场景和通用模型产品有很大不同,实时反馈的需求决定了核心车载AI能力无法部署在云端,一旦出现网络问题/基站切换的场景,“智能”也就没有了意义。 事实上,在新能源时代,车内功能的智能场景支持已经不新奇,主流车企的车机基本都能完成AI语音操控,完成如开启关闭空调,调用车机内App的功能等。但随着车机全面进入智能化时代,除了基本车内功能的操控,智能搜索/多语言知识问答/任务规划等复杂场景逐渐成为更多用户的需求,但也对车载算力提出了更高的要求。 “以目前主流的8295芯片为例,该芯片仅能支持2B以下参数模型的部署,因此限制了很多智能场景的落地。”子豪表示,目前,核心车载AI能力更多依靠本地部署的车端大模型,而这成为限制当前智能座舱发展的因素之一。 这一背景下,一些车企开始了自研芯片的道路。今年6月,小鹏自研图灵AI芯片正式在车端部署,其单颗芯片算力达700TOPS,超越英伟达Orin X芯片的254TOPS。而蔚来自研的智驾芯片神玑NX9031正式量产,单颗芯片算力超过1000TOPS。近日,理想汽车方面也披露了自研的智能驾驶芯片M100的进展,有望在年内量产上车。 随着更高算力的智驾芯片相继问世,很多车企已瞄准智能座舱下一步的发展方向。根据阿里方面的报道,和比亚迪联合打造的智能座舱场景,可以让用户实现“一句话”完成复杂跨应用操作的新体验。 跨端应用,需要大模型在接受-处理用户指令后,从车机端联动到手机或者其他设备上完成交互。阿里云Mobile-Agent此前就披露了一些车载场景,用户可以说出“Hi,小迪,帮我查一下我昨天在淘宝买的东西送到哪里了”,系统能结合对座舱屏幕的视觉感知能力识别淘宝应用,并模拟点击屏幕完成查询操作。 换言之,下一代车机将成为由大模型驱动的多端生态,而不是仅仅围绕车内功能的核心。“帮我订一张明早去上海的火车票”、“帮我点个麦当劳外卖”、“帮我在微博打开热搜”这样的指令也可以在座舱场景中实现。 “不过目前来说,座舱里智能化的一些功能,对于消费者而言最多算是锦上添花。”子豪坦言,目前的汽车市场高度价格敏感,智能座舱功能上的参差比不上价格层面的“内卷”,甚至把AI作为故事的核心讲给汽车消费品的用户,似乎还为时尚早。 在交流中,这位汽车行业的“老兵”表示,目前大模型在座舱场景的落地阶段,与其说是“投石问路”,更像是刚刚把AI这块“石头”捡起来。不过,随着汽车行业全面将目光投向智能座舱,新的产品逻辑已经悄然出现。 “智能座舱的领先企业,会逐渐建立一些护城河,比如一个用户习惯了蔚来的座舱交互,可能就不太会再去尝试买小鹏的车。”谈及智能座舱发展的意义,子豪表示,智能座舱可能会成为改变用户使用习惯的核心因素。“伴随着数据的积累,会逐渐形成一些用户粘性。” “举个例子,用户有了小孩,他的车就可以潜移默化地记录孩子成长的一些事,比如什么时候路边捡了一只小猫。”在子豪看来,随着车载模型能力的不断提升,这个愿景有望在不远的未来实现。而身处智能驾驶的时代,用户的个人数据与智能汽车紧密关联,汽车可能会成为一个承载更多回忆的地方。 (文中子豪为化名)
4000个模型和500家独角兽,AI竞争新面孔背后
谁掌握Agent和高效基础设施,谁将重写行业格局。 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍文|赵艳秋 编|牛慧 在北京人形机器人创新中心的实验场里,CTO唐剑和团队正在加速冲刺。今年春天,他们的机器人“天工”还需要工程师遥控才能跑完半程马拉松,而几个月后,在世界人形机器人运动会田径场上,它已能完成全自主奔跑。 唐剑总结,具身智能的突破要跨越两类瓶颈:一类是“非线性”的,比如场景泛化和大模型的飞跃,一旦突破,就会迎来“具身智能ChatGPT”时刻。虽然这在时间上不可预测,但他坚信,一两年内行业会出现重大突破。另一类是“线性”瓶颈,比如稳定性、负载能力、续航和安全性,只要假以时日就能提升。 为此,行业正在展开激烈竞逐。而竞速并不局限于机器人。自ChatGPT诞生的33个月以来,全球已出现4000多个大模型,催生近500家AI独角兽。没有一个模型能在榜单上停留超过五周。 这些也推动AI基础设施进行范式性变革,业界比以往任何时候,都需要更快的模型迭代和更强的计算平台。行业焦点从单一追求规模,转向追求效能。 百度集团副总裁侯震宇直言:“我们正站在价值爆发的前夜,谁能把握住AI应用最佳实践和基础设施效能的提升,谁就能在未来AI格局中脱颖而出。” 01 “我们的护城河,还在吗?” 尽管年初Deepseek引发一波应用探索热潮后,整个行业依然在摸索落地路径,但从上周举办的百度云智大会上看,大模型应用蓬勃演进的速度,超出想象。 去年,大模型应用主力军是互联网、智驾、央国企和科研教育行业。“今年,除了KA客户,出现了很多新型创企,像具身智能,还有从大语言模型转向多模态类的,场景更丰富。” 百度智能云AI计算首席科学家王雁鹏告诉数智前线,他将这些归结于开源模型浪潮和产业蓬勃,点燃了更多需求和应用。 具身智能在经历快速演进。北京人形机器人创新中心的“天工”,在今年春天的半程马拉松上夺冠后,目前已开始出货,今年可能销售几百台。中心与李宁等头部企业探索在运动学测试、导购、电力巡检等落地。“大家很快应该看到一些落地案例。”唐剑透露。中心也发布了具身世界模型、跨本体VLA模型等大模型的阶段性进展。 多模态创新是今年另一类引人注目的方向。创业公司VAST是一家成立仅两年的AI 3D大模型企业。AI 3D技术两年多前才被发明出来,VAST迅速将其商业化落地,已服务了全球超300万专业建模师、4万多家企业和700多家大客户。 “我们正在改变很多工业管线。”VAST创始人兼CEO宋亚宸说。过去建一个游戏模型要靠艺术家手工慢慢雕琢,现在用AI 3D只需几十秒钟、0.0001元。 大量AI陪伴类产品已悄然上市,售价从数百到数千元不等。AI陪伴机器人LOOI相关人士对数智前线说,上市几个月,他们已在全球出货3万台,其中海外60%,国内40%。 除了新市场,传统行业也在快速被改变。在金融领域,工商银行已上线了1000多个智能体,尤其今年智能体数量增长迅速,让交易形式、内部协作、风险经营等都发生了变化。 一家大型保险集团引入“数字员工”进行短期险邀约,意向率提升近一倍。百度副总裁阮瑜分析,结合多智能体以及真人级数字人交互体验,基于慧播星数字人技术的百度数字员工效率与专业度显著提升,交互还更具亲和力,能建立更强的用户信任。 数字员工一经推出,已迅速在100多个行业场景落地。像吴彦祖教英语、罗永浩直播带货,都掀起了不小的市场热度。 开发者对大模型的体会更深,现在,几乎所有程序员都在用AI写代码。根据百度工程效能部总监臧志的数据,AI Coding工具的代码生成占比已从20%提升至30%~40%,未来可能达到80%~90%。 值得注意的是,随着大模型智力上限不断拉高,各行业格局正被悄然重塑。7月,百度智能云金融业务部总经理徐旭拜访一家头部保险公司副总裁,分享智能体应用场景时,对方抛出一个问题:“我知道这能做,但在这个时代,我们的护城河在哪?” 这折射出头部企业的焦虑,技术创新正冲击传统壁垒,竞争格局正在改写。徐旭认为,关键在于让大模型直抵核心业务场景,用AI原生技术和新的管理范式重构竞争力。 正如百度集团执行副总裁、百度智能云事业群总裁沈抖所说,AI创造的价值,会远超互联网。互联网时代,网站和App封装的是信息,交付的也是信息;而智能时代的核心是Agent,封装的是智能,交付的是结果。一定会有大量的Agents去接管从生产到经营的各种环节,直接创造价值。而业界看到,AI全栈技术也正围绕Agent加速重构。 02 十万卡不是终点 格灵深瞳技术副总裁、算法研究院院长冯子勇,带领团队研发了视觉基础模型 Glint-MVT,并将Glint-MVT作为视觉编码器训练出多模态模型Glint-VLM,用于各种多模态理解任务和推动世界模型发展。他们计划在9月底左右将新一代Glint-VLM全量开源,这是一个达到商业级应用水平的模型,不仅放出模型,还公开训练数据和代码,让学术界和产业界真正理解模型的生成方式和安全性。 探索并不轻松。冯子勇坦言,过去在模型训练与实验迭代中,整个验证周期较长,亟需更强大的基础设施支撑。与百度智能云百舸平台合作后,百舸帮助其优化VLM训练框架,训练效率提升三倍,两天内就能完成一次训练,加快了实验迭代速度。而对于工业场景99%甚至99.9%准确率的需求,他们还需要依赖专业场景数据,从真实反馈中迭代。 随着模型规模、多模态、精度以及Agent的演进,对基础设施的需求已大为不同。全球算力竞赛仍在持续,科技巨头在大模型上不断“摸高”,Scaling Laws推动参数与算力快速增长。同时,Agent进入深水区后,上下文更长、多模态融合、强化学习和“训推一体”范式,对AI基础设施带来了新得范式性变革。 业内也将目光投向高效Scaling方向,从稠密模型转向MoE稀疏模型架构,MoE在保持计算量不变的情况下,可大幅扩大参数,万亿参数MoE模型已成普遍趋势。 今年以来,云大厂围绕MoE做了大量工作。比如百度智能云百舸5.0,围绕MoE架构做了全栈优化。 MoE对算力的要求是之前稠密模型的5到10倍。王雁鹏说,仅仅一个PD分离还不够,百舸5.0引入更系统的解耦,将视觉与语言、Attention与MLP等模块也解耦,大幅提升算力利用率。这种更细力度的分离正成为演进趋势。 强化学习同样正在兴起,成为最重要的计算范式变革。它采用“训推一体”方式,模型在推理时不断接受反馈并实时更新,形成数据飞轮,让AI持续逼近真实需求。但训练和推理在计算特性上完全不同,统一架构极具挑战。年初DeepSeek R1推出时,市面上的强化学习框架尚难支撑。为此,百舸通过多轮实验与工程创新,打造出新框架。 为进一步提升集群的效能,超节点成为行业竞相投入的产品,用以降低通信时间、提升吞吐。百度4月发布的昆仑芯超节点,在性能与经济性之间取得平衡。 过去外界担心国产芯能否支撑超大规模模型,侯震宇介绍,昆仑芯P800已在3.2万卡集群点亮应用,训练效率超过98%,并在多行业落地验证。它让百万tokens推理成本降至几块钱,同时适配主流模型和框架,成为真正覆盖训练与推理的国产芯片。 具身智能的崛起,也是基础设施必须全力支撑的方向,百舸已全面适配主流开源具身VLA模型,并在WM世界模型和VLM模型上实现训推提效,北京人形机器人创新中心基于此,将强化学习训练速度提升了一倍多。百度智能云已支持北京、上海、浙江、广东创新中心等的具身智能“国家队”,并为产业链上超20家重点企业提供支撑。 面向各级政府、超级大型企业,百度智能云提供自主可控、绿色低碳、产业赋能的全栈AI智算方案,目前完成了1.2万P算力建设并管理运营1500P算力,在IDC智算服务市场中排名国内第二。 03 Agent infra,越用越有价值? 除了算力基础设施,Agent要落地,必须有进一步支撑。Agent正在成为大模型落地的主角。从最初的简单应用,已发展为多Agent协同处理复杂任务。 Agent需要好模型。要不要行业模型、场景模型,很多行业存在“非共识”。百度智能云AI与大模型平台总经理忻舟告诉数智前线,他们与企业在行业大模型上的探索,经历了三个阶段。 最初,企业提供几十GB数据做后训练,但很快发现效果有限,一个新的基础大模型就能覆盖原有成果,因为数据量不够大。此后,企业开始结合具体场景,如设备维护,做数据标注,再在开源模型上做SFT或强化学习,训练量小、效果更好。 而在当下,他们的实践是先选择效果较好的基模,参数规模大可先蒸馏压缩;若效果不足,则补充标注数据训练小模型,还可以将多个小模型融合实现更好的效果,并在生产中持续迭代优化。 值得关注的是,在这个过程中,基座模型可灵活替换,企业在过程中真正沉淀下来的,是标注数据、应用know-how和Agent开发经验。 像智联招聘在人岗匹配场景中,采用了第三种模式,其在人岗匹配场景中,基于百亿参数规模模型,只用少量数据,就媲美千亿模型DeeSeek R1的效果。CTO王昊称,这是未来一段时间,垂直场景的“王道”方案。 忻舟告诉数智前线,从行业实践看,贸然建设行业大模型,投入大、效果不确定,性价比不高。但行业模型的价值已被验证,尤其是对于成本、精度和速度有考量的企业。此外,视觉、多模态基础模型,准确率通常只有20%~30%,通过上述流程,在特定场景下准确率可超过90%,性价比极高。在新升级的千帆4.0中,提供了预制好的行业场景专精模型,以及一个为专精模型深度定制的pipeline。 在这个过程中,大模型的微调从SFT(监督微调)走向RFT(强化微调),也就是模型的自我进化。RFT通过提供评估标准或奖励函数,让模型在业务场景中自我探索,只要结果符合目标即可。这种方式尤其适合目标明确、标准清晰的场景。 有了模型基础,下一步是如何让Agent协作完成任务。业界主要有三种编排方式,其一是自主规划,依赖大模型能力拆解任务,快速生成简单Agent;其二是工作流,优势是稳定可靠、结果可预期,目前在千帆平台上占到80%以上;其三是最新流行的一种多智能体协作,千帆采用“规划者执行者”模式,更灵活高效,还最先在国内云厂商中支持A2A协议,实现跨平台、跨企业的Agent互通。 智能体编排好后,还需要“手脚”去执行,高质量能力组件变得非常重要,其中最关键的两类是RAG和AI搜索。 千帆4.0的RAG已升级为多模态版本。九号电动车用五年登顶全球智能电动车销量第一,借助多模态RAG打造了多语种智能客服,车主只需拍照,就能获得实时多语种的诊断和指导处理。 百度AI搜索则满足了大模型的实时性需求。它是市场上呼之欲出、需求量非常高的API。大模型训练基于历史数据,如GPT-5的数据是截至2024年9月底的,难以覆盖最新信息,而AI搜索可实时补充这一缺陷。忻舟介绍,这一功能上线三天,调用量就从十几万飙升到千万级。最近,智联招聘已在校园场景中应用,帮助学生实时获取企业薪酬和面试经验。 Agent是未来最重要的研发范式,但是在这个研发范式背后数据的作用是无比重要的,无数据无智能。“我们发现工程师50%–80%的时间花在数据治理上。”百度智能云数据平台部总经理刘斌说,此次千帆4.0推出的数据智能平台DataBuilder,就是为了解决这一门槛。 产品覆盖了从多模态数据采集、转换、处理、检索、服务等数据治理的全生命周期,解决了模型训练和 AI 应用数据处理过程中,从数据管理,数据开发到数据生成处理全链条诉求。 通过多模态管理和一站式AI计算引擎,帮助客户实现600%数据处理提效和30%的计算成本降低,通过Data+AI一体化和面向场景化和行业化模板,帮助业务整个开发提效30%,同时通过多模态检索引擎帮助业务降低80%的检索成本。 随着Agent和大模型的深度融合,AI开始接管生产、经营和服务环节,成为新的价值创造者。无论是“天工”的全自主奔跑,还是数字员工的落地,都在印证AI已从实验室走向社会。下一个智能时代的竞争,将不只是比拼模型和算力规模,而是比拼谁能更快、更稳、更高效地把智能封装进Agent,嵌入到产业链与社会运行之中。而企业真正的护城河,正从传统资源禀赋,迁移到用AI原生应用构建和新的管理范式重构上。 ©本文为数智前线(szqx1991)原创内容
打工牛马,为什么痛恨飞机WiFi?
一 前段时间,我刷到知乎上一条高赞帖子,标题是《为什么中国人在每个阶段都活得很累?》 全文不长,结尾总结却格外扎心:人其实就活在这24小时里,只要你不那么上进,就能活得很开心。 但问题是,为什么总有一双无形的手逼着你上进?答案很简单: 你安逸了,房子谁来接盘? 你安逸了,老板的奔驰谁来加油? 你安逸了,这996的福报谁来享受? 这灵魂三问,让我忽然联想起东航最近推出的免费飞机WiFi服务。 今年8月20日起,东航在“空中快线”航线上做了一次服务升级:凡是搭乘上海虹桥—北京首都、广州、深圳等37条快线航班(又称:牛马航班)的乘客,只要坐在宽体机的超级经济舱或经济舱(N舱及以上),就能全程享用免费基础版WiFi。 东航官网免费WiFi申请须知 从起飞到落地,WiFi不断,信号在线,邮件随时可回,文档随时能发。 对东航来说,这的确是一次不小的技术突破,但这件“好事”却没能赢得所有人的欢呼。 比如,牛马们就瞬间不开心了。 我在小红书看到一位博主发帖说:“这到底是牛马的天堂,还是地狱?可怜的打工人以后连飞机上没网这个借口都不能用了。” 还有网友吐槽:“飞机上最享受的就是那几个小时的失联,但东航偏要推WiFi,结果刚巧被leader看见了……” 评论区更是大型吐槽现场: “千万别开WiFi,我就想不听微信提示音。” “飞机是最后一个逃避工位的地方,别让我在天上也打卡。” “WiFi是免费的,但打工人付出的,是精神月租。” 那些年,是老板在催你上进,现在,连航司都贴心到替你把失联理由也抹除了,技术向前一步,打工人的喘息权却退了三步。 所以,我看到这些评论,第一反应是,东航可能完全没意识到自己踩中了一代打工人最深的情绪逆鳞。 二 我注意到打工人其实并不欢迎“飞机上有WiFi”这件事,是在大概几个月前。 彼时,我们写了一篇《为什么国内航班上网特别难?》,原本以为评论区会是一片跪谢科技进步的声音,没想到气氛却出奇地一致:一水的“千万别有网、真的别有网”。 有人直接留言:“飞机上那会恰恰是我最想的脱离手机、脱离网络的时间。” 还有人调侃,“喜欢登机前发一句‘要起飞了,断网x小时’,然后安安心心享受那段属于自己的纯粹时间。” 这种评论区画风,我们很快在东航最近上线“免费WiFi”的消息底下又见了一遍。 从表面上看,这是航司服务升级的表现,可在不少人眼里,这反而像是打工人最后一块净土被扫荡的开始。 一个反差感极强的现象就此诞生,和欧美主流旅客普遍欢迎高空WiFi不同,国内很多在高压环境下工作的牛马打工人,对飞机上有网这件事格外警惕。 一位读者说得很实在:“但凡打工的都知道,飞机上能清净几小时有多不容易。” 对他们来说,“飞行模式”不只是手机状态,更是日常生活中唯一能理直气壮请假的瞬间。 当你说出刚才在飞机上,老板就会默认你合理离线,客户就不会怪你没有回复,连甲方都暂时闭麦。 一旦飞机连上了WiFi,原本属于自己的那几个小时也会被工作的信息洪流重新占领。你不能不回,必须被看到在线。 从物理断联到精神月租,只差一个WiFi的距离。 这种微妙的心理落差,或许才是航司技术进步和体验升级之间最不被察觉的张力。 而更扎心的,远不止这些。 还有很多人特别担心的是,WiFi开了之后,机舱内的秩序会不会跟着失控。 在旅界的评论区,曾有一位用户写道: “国内航班上开了(免费)高速WiFi,左边是大哥一边外放抖音一边呵呵大笑,右边是商务小哥开Zoom会议以高亢的声调说‘我下飞机以后和你对齐一下’。画面简直太美。” 这种担心并非杞人忧天。 这些年,我们在地铁、火车上已经被外放、开会、刷剧公放反复毒打教育过乘车礼仪的重要性。 而当飞机这个曾经最安静的空间也连上网后,很多人第一时间想到的不是自己能连网,反而是身边的人更吵了。 正如另一位读者冷静地说:“航行没网的这段时间,反而让我安心看看书、陪陪孩子下下象棋,回到没有微信世界的感觉。” 由此,飞机不只是交通工具,连网这件事确实很重要,但怎么连、为谁连、连了之后体验变成什么样,也许才是我们更该想清楚的部分。 三 说句打工人们不爱听的,飞机上能上网是迟早的事,谁也躲不过。 先看国外,过去三年,马斯克的星链(Starlink)正在悄悄改写全球航空业的机上网络格局。 美联航、法国航空、卡塔尔航空、维珍航空、阿拉斯加航空,一大批航司陆续签约或排队上车,开始在自家机队中部署星链网络。 同时,竞争也早已开始。老牌运营商Viasat、SES、EchoStar等传统卫星服务商快速调整策略,重新排兵布阵,空中WiFi这个百亿美元级别的增量市场迅速成形。 星链的优势是显而易见的,它靠近地球的低轨道卫星星座,部署数量庞大,信号延迟低,网速快,覆盖面广。 最重要的是,它已经实现了价格下探,据彭博披露,一架波音737安装星链硬件的成本约为30万美元,座位月费也有望压到每位旅客120美元以内。 换句话说,它不再是贵族专属,而是即将成为经济舱也能用得起的新常态。 而中国在空地互联上同样取得了长足的进步。 仅以东航为例,早在2023年8月,其就率先突破技术限制,成为国内首家允许在3000米以下高度开放使用“空中Wi-Fi”服务的航空公司。 值得一提的是,这两年,中国版的“星链计划”已经悄然启动,名字叫千帆星座。 由上海牵头,2024年首批18颗卫星已经升空,目标是在2027年前完成1296颗组网,到2030年达到1.5万颗。这一数字已经和马斯克站在了同一数量级。 当然,从航司自身动力来看,他们也有进一步推动WiFi普及的意愿。 这一次,东航试点部分航线WiFi免费,其实是瞄准商务出行密集航线上的刚需客人。 对此,有朋友指出,她的公司要求必须搭乘东航航班出差,就是因为可以联网随时工作。 说白了,机上WiFi这事,有人反对就有人喜欢,有那么一部分年轻人、商务人、高净值旅客可以忍受飞机老旧,但不能忍受掉线也是事实。 而这群人,又恰恰是中国未来航空消费最有话语权的黄金客群。 当然,这背后则是我们生活的节奏、状态、期待,真的彻底变了,一只无形的手在推着我们前进、前进、再前进,没有任何倒退或暂停的选项。 而对抗拒飞机WiFi的打工人来说,或许最理想的状态是有权选择在线,也有权选择不在线。 因为对他们来说,真正好的技术是能时刻掌握连接WiFi与否的自由。
“秋天的第一杯奶茶”,流行到海外了
作者|唐飞 入秋时节,当喜茶在美国门店推出一杯神秘的蓝色饮料时,排队的长龙瞬间引爆社交网络——这不是科幻饮品,而是融合蓝色螺旋藻、椰子水与抹茶的“抹云椰蓝”。健康属性与视觉吸引力相结合,让该产品在英国、美国、加拿大上市即售罄。 喜茶相关负责人告诉霞光社,截至目前,抹云椰蓝已在海外市场累计售出超过70万杯。 这杯蓝色饮料背后,折射了出海新茶饮正在集体转换思路。这个8月,喜茶海外门店数超过100家,甜啦啦巴厘岛三店同开,茶百道官宣落地纽约——海外新店开业的同时,新茶饮不再简单复制国内菜单,而是将门店化作“地域盲盒机”,每到一地就抓取当地最受欢迎、最具特色食材塞进菜单,消费者在“开盲盒”的动作中,同时尝到了本地风味与东方茶味。 另一方面,新茶饮出海的3.0时代,谁先“引爆”社交话题,谁就掌握了“爆单”的先机。无论这种“引爆”是来自口味、外观、联名,还是门外大排长龙的队伍…… 今年7月,韩国女团BLACKPINK成员Lisa一张跑车内的日常照,意外掀起全球“抹茶”消费风暴——杯托中那抹翠绿,正是喜茶的“三倍厚抹”。 照片发布48小时内,从纽约到悉尼,喜茶海外门店排起长龙,美国、澳大利亚等多个门店迅速售罄。据悉,“Triple Supreme Matcha Latte三倍厚抹”,是喜茶已经在国内验证过产品,近期才在海外多国上线。 这波始于明星效应的绿色浪潮,并非只是简单的将“成熟产品”复制到海外,而是深入调研当地市场后的落地决策。 其实,在国内市场每隔一段时间就会有一批爆款茶饮基底出现,从前几年的椰子、油杆、黄皮、桑葚、凤梨基底,到今年的杨梅、荔枝基底,这些不同季节限定款口味的融入,似乎给了新茶饮企业取之不尽的灵感。 放到海外也一样,多家茶饮企业在出海的同时,也将“限定款”的玩法发扬光大。 在马来西亚,蜜雪冰城推出了以当地特色香料肉骨茶为灵感的冰淇淋和茶饮;在越南,蜜雪冰城调高了整体甜度,同时推出了包括香茅、凤梨等当地人喜欢的口味较重的水果茶。霸王茶姬也深入东南亚,将菲律宾紫薯、印尼香兰叶融入茶底,在印尼推出的“榴莲生椰铁观音”,一度成为当地爆款。奈雪的茶则贴合泰国消费者喜欢醇厚浓郁风味的特点,在当地推出限定系列茶饮“大红袍奶茶”“荔枝玫瑰奶茶”。 图注:甜啦啦“peach oolong milk tea” 近日,甜啦啦在印尼上新了“peach oolong milk tea”。至于推出这款产品的原因,甜啦啦方面告诉霞光社,“观察到跟我们价格差不多的momoyo、蜜雪冰城暂时还没上中国风轻乳茶,而霸王茶姬属于高端茶饮,售价高,当地人想喝,受经济水平限制购买频次有限,甜啦啦捕捉到当地人喜欢轻乳茶的(需求),觉得是时尚的、潮流的、健康的。因此,甜啦啦基于清风茉白鲜奶茶的热销,推出了peach oolong milk tea。这款产品茶底选用了桃荫乌龙茶,搭配奶基底,延续国内‘健康轻乳茶’概念,以及低价格、高价值、高颜值的品牌理念,深受当地人喜欢。” 基于市场深度调研后的决策,也让甜啦啦这款新品一上线就获得了好评。据甜啦啦印尼方面分享,peach oolong milk tea最高单店单日售出近400杯,稳居销售TOP1。 图注:喜茶“抹云椰蓝” 东南亚以外的地区也一样,开篇提到的“抹云椰蓝”,就是喜茶针对海外市场推出的限定款——蓝色螺旋藻+绿色抹茶的独特视觉效果,成为众多网友的打卡首选。截至2025年8月,喜茶抹云椰蓝在TikTok上的相关话题播放量已突破5亿次,引发全球范围内的热议和抢购潮。 喜茶相关负责人透露,这款产品的成功,源于喜茶对用户需求的关注与不断坚持以灵感进行创新研发。 “在全球范围内,蓝色饮品因其梦幻的视觉效果和清爽口感备受青睐。喜茶在产品的视觉外观以外,结合欧美市场对‘超级食物’的偏好,创新性地将螺旋藻、抹茶和椰子水相结合,成功推出抹云椰蓝。这些原料在欧美的健康饮食文化中已广泛应用,喜茶巧妙地将这些元素融入茶饮,赋予了抹云椰蓝独特的风味体验,不仅符合全球消费者的审美需求,还精准契合了他们对健康饮品的渴望。”该负责人强调。 图源:《Z世代现制饮品消费洞察报告2024》,红餐产业研究院 《Z世代现制饮品消费洞察报告2024》显示,产品的外观设计、颜值及创意周边等非味觉层面的附加价值,更能激发Z世代消费者的拍照分享欲望。 据红餐产业研究院调研,在记录或分享特别时刻以及探店打卡这两个典型场景中,Z世代消费者购买现制饮品并拍照分享的占比分别达到27.3%和20.9%。该机构还指出,消费者的自发分享一定程度上能帮助现制饮品品牌实现高效的二次传播。 产品即媒介,味道即话题。当一杯饮料的食材组合、色彩搭配贴合消费者认知框架,它便自动携带社交传播基因——消费者也不再是单纯购买者,而成为内容共创者与传播节点。 在陌生的市场做一款符合当地人口味的新品,是对茶饮企业原有供应链的巨大挑战。 柠季创始合伙人汪洁曾坦言:“(出海)最大的挑战是供应链建设和效率问题。原料准入标准不同、运输困难、消费口味差异等都需要调整。” 同时,不同地区的食品安全法律法规也不太一样,比如,欧盟对茶叶农残检测指标达480项,远超国内标准;2025年3月生效的新规进一步提升了农残标准。东南亚地区的塑料包装禁令侧面推高了运营成本、新加坡的含糖量分级倒逼配方优化,这些合规要求对品牌构成了严峻考验。 不同地域文化适配也是无形壁垒。欧美市场注重有机健康,而东南亚市场偏好浓郁甜口,部分国家还要求有清真认证;针对不同的节假日、传统活动做营销动作时,也需要处处小心。 古茗在2024年财报中披露了自己的产品开发流程,包含创意生成及筛选、寻找合适的供应商及原料、配方开发、内部及店内测试盒发布后反馈收集六步。 图源:古茗2024年财报 而某新茶饮品牌研发人员透露的产品开发流程与古茗略有差异,但大体相似。他同时表示,“传统研发模式如同笨重大象,开发新口味需1-6个月、至少20次打样、可能花费千万级预算”。 在这期间,还需要完成配方调试、原料采购、口感测试及合规检测,含食安认证、保质期测试等硬性流程;产品模型完成后,第二步要进入供应链搭建阶段(3-6个月),从哪采购、采购多少、能不能保证供应量、是否稳定可靠、冷链物流能不能配套,包括工厂的磨合,都要在这一阶段确定;第三步是品牌系统期(3-6个月),这个时间点需要确定视觉标识/IP设计、定价策略、渠道谈判及合规文件(生产许可证/商标注册)审批。最后进入市场验证期,线上线下同步上架宣发,试销期根据用户反馈调整产品线,确定后面是否增加采购和库存,或者是否把限定款变为常驻款。 而如今,伴随着各品牌的供应链建设日趋成熟,同样的流程缩短了一半左右;而且叠加上更高效的数字化工具(比如,通过点单数据、市场调研数据、社交媒体趋势分析等)之后,口味改良和新品研发的命中率也大幅提高。 所以我们可以从相关企业的财报中看到,蜜雪集团过去几年一共研发了40余款新品,同时自主研发并生产了高端零反式脂肪酸奶基底粉、鲜牛乳奶基底等,满足消费者健康追求的同时节约成本。而在2024年里,茶百道、奈雪的茶和古茗分别上新了60款、70款和100款新品,基本上都做到了全年不间断“每周上新”,也从侧面印证了成熟供应链带给企业新品研发的底气。 在将产品推向海外市场时,这种中国供应链优势,也发挥了巨大作用。 喜茶的清爽芭乐系列于今年2月在国内上市后迅速走红,不到两个月的时间,该产品同步登陆美国、英国、新加坡、澳大利亚等多个市场,也引发当地消费者的抢购。 喜茶相关负责人表示,为了让不同地区的消费者喝到统一味道的产品,喜茶在美国东西海岸、英国、马来西亚、澳大利亚悉尼与墨尔本设立多个仓储中心,为当地门店提供高效的仓储与物流服务。海外门店所需的核心产品原料由喜茶统一供应,保障门店产品品质的一致性。 “未来,北美供应链团队将持续推进关键原料的本地化生产与供给,进一步提升供应链稳定性与规模化扩张能力。”该负责人透露。 茶百道海外CEO王欢提到,茶百道每进入一个新的国家,研发及运营团队都是提前一个月到当地市场,开发几款本地消费者青睐的产品。在产品研发上,70%以上的原物料配方由茶百道自研。 以今年春节后茶百道在西班牙巴塞罗那开出的欧洲首店为例,除国内爆款产品以外,该店还根据西班牙当地消费者的口味偏好和饮食习惯,进行了适当的产品调整和创新,推出了具有当地特色的限定饮品——抹茶黑糖珍珠奶茶,广受当地消费者好评。 海外产品的研发,最本质还是要结合当地的消费水平、饮食文化展开,比如针对东南亚人们爱喝咖啡的习惯,甜啦啦专门研发了“咖啡+水果”系列饮品。“我们做过测试,咖啡新品在各门店的销量从最初的前20名直线飙升至现在的前6名。”甜啦啦方面表示。 在用新品吸引消费者之外,如何保障“千店亿杯,口味如一”也是新茶饮品牌的一大挑战。 霸王茶姬CTO汤海涛透露,目前霸王茶姬全球门店超过6000家,招牌单品“伯牙绝弦”每年大约能售出1亿杯。对于这款产品来说,难点已经不再是如何去打造一款爆品,而是如何才能让所有的门店生产这一杯茶时都能做到一模一样的品质。 “我们是怎么能让这个品质做到千店如一的呢?一方面我们做了设备的标准化,在霸王茶姬最新的3.0店面里,大家可以看到一款自动化制茶机,消费者通过小程序下单之后,制茶机扫描杯子上的二维码就可以识别到相应的口味,然后制茶机按照消费者的口味、按照标准的配方开始制作。现在已经可以做到8秒生产一杯茶,而且不管你在哪一家门店,喝到这杯茶的味道都是一样的。另一方面我们做了经营的标准化,通过飞书和AI把很多一线的管理变得有章可循。这一步对于我们的一线伙伴的意义在于,标准和答案不再遥不可及,随时随地都在他们的身边。所以我们经常说,爆款品质统一不靠手艺,而是要靠标准。”汤海涛说道。 茶,不但是中国“国饮”,也是世界半数以上人口喜爱的饮品,在世界三大无酒精饮品中,茶居于首位。 申万宏源发布的一份研报显示,以终端零售额计,全球现制饮品行业的市场规模由2018年的5989亿美元增长至2023年的7791亿美元,复合增长率5.4%。预计2023年至2028年的复合增长率达到7.2%,2028年的市场规模将达11039亿美元。 高增速下,全球现制饮品市场区域分化明显。东南亚市场凭借庞大华侨基础+年轻人口特征+典型热带气候催生现制茶饮品类生意机会,但已经入“卷价格”的红海;日韩地区面临健康升级的新需求,日本绿茶主导消费,韩国果茶/谷物茶渐成趋势;欧洲各国茶饮方式多元,英国是最大的茶叶消费国且人均茶叶消费量居前,中高端市场是蓝海;美国地区奶茶热度居高不下,市场格局分散且头部缺位,消费者喜欢有差异化的产品…… 图源:《2025中国茶饮出海全景报告:中国味 世界潮》,飞书深诺 针对不同市场的差异做制定有针对性的策略,将中国茶文化与当地文化进行融合,让中国新茶饮品牌在与当地巨头的竞争中有机会快速脱颖而出。 喜茶曾在比佛利山庄店推出“加州落日”限定款,这款茶饮灵感源自加州享誉世界的日落风光,巧妙地融入了加利福尼亚州的文化特色和自然景观元素。该店开业当天,这款产品售出约2000杯。 为了顺利实现韩国市场本土化,茶百道也做了许多因地制宜的努力。王欢还记得,在取名时,团队特意把“茉莉鲜奶茶”命名为“Mori Latte”,读音上更趋近中文,而没有采用韩文中与英文“Jasmine”同发音的读法,如今“Mori Latte”在韩国已经成为一个品类代表。 图注:喜茶伦敦New Oxford St店 在产品以外,门店的装饰装潢也成为宣传中国文化的重要组成部分。以喜茶为例,其在全球多地的门店都极具设计感:伦敦New Oxford St店临近大英博物馆,融合“墨与茶”意象,构建“游园·品茗·赏物”的水墨空间;首尔明洞店则通过“水之形、色、声”三重维度打造“高山流水”般的禅意空间;而纽约时代广场TEA LAB店的设计灵感来自唐代诗人韦应物的《喜园中生茶》,打造的是“城市绿洲”主题空间。 围绕这种设计理念,喜茶在传统欧美式商场和步行街里打造出“中国茶文化”的深度体验。 营销层面,各品牌都不约而同的选择了具有代表性的代言人或合作伙伴,与海外消费者构建跨文化对话能力。 比如霸王茶姬进入马来西亚时,选择知名运动员李宗伟作为代言人;2025年,霸王茶姬在孙燕姿举办《就在日落以后》演唱会后,官宣她为亚太地区代言人。喜茶在过去一年,先后与alexanderwang、Sandy Liang、《未定事件簿》、草间弥生等全球知名艺术家与潮流品牌开展跨界合作,话题覆盖TikTok、Instagram、小红书等平台。 蜜雪冰城则是“门店未到IP先行”,旗下雪王动画正在海外热映中。财报显示,雪王动画已同步上线海外4大频道,覆盖30+非洲国家,首轮播映平均收视率达1.14%,最高收视率达3.08%。同时,法国戛纳国际电影节亦有雪王动画播出,在世界最顶级电影节上展示中国品牌力量。 国内资深茶饮人Will向霞光社介绍,东南亚消费者从来见不到雪,因此非常钟情于“雪王”,“在国内很少有人买蜜雪冰城的周边,但泰国人非常喜欢雪王IP衍生的玩偶、挂件、文具等。”在今年泰国泼水节期间,雪王身披红色披风、坐在洒水车上开启曼谷巡街。“东南亚人对蜜雪冰城的认知度太高了,甚至柬埔寨、老挝、缅甸人也可以精准地发出Mixue这两个字的中文。” 这些案例生动展示了文化融合的可能性。新中式茶饮品牌并非照搬中国原味,而是将中国茶饮的理念与当地食材、口味和饮食习惯相结合,从而建立起一种“共鸣式”的文化连接。这种文化输出方式,不是输出一个封闭的传统,而是通过味觉的细微调适,促成一种开放的、可共享的文化体验。 这一切都表明,奶茶出海早已不再是“把产品卖出去”那么简单。 过去,文化传播或许停留在品牌叙事与产品体验层面;今天,真正深远的文化输出强调的是“融合的力量”,润物无声。 青年学者张璇在新书《奶茶出海:新中式茶饮品牌的全球扩张》中提到一个观察,在美国街上,穿着印有黑糖珍珠文化衫的外国人比比皆是;美国企业的coffee time,办公群聊的表情包里也开始出现珍珠迷,奶茶代替咖啡与酒精,被不少年轻人群选作消遣时的饮品。 新茶饮出海,并非要从海外消费者手中抢夺一杯coffee的份额,而是从根本上重塑消费者习惯。 这不仅是茶饮之战,更是一场认知革命。也预示了中国新茶饮品牌全球化竞争的全新阶段,在效率与规模这些传统维度之外,文化感知力、美学创造力与情感共鸣力正日益成为跨国品牌赢得人心的核心竞争优势。 这场始于商业的远征,正在演变成不同文明间的深层对话。 参考资料: [1]《国内竞争加剧,海外市场成“第二增长曲线”——餐饮行业研究系列报告二:茶饮出海篇》,平安证券 [2]《茶饮“出海”:品牌、产品、供应链是基石——访茶百道海外CEO王欢》,新华财经 [3]《Z世代现制饮品消费洞察报告2024》,红餐网产业研究院 [4]《2025中国茶饮出海全景报告:中国味 世界潮》,飞书深诺
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
没想到啊,最新SOTA的开源大模型…… 来自一个送外卖(Waimai)的——有两个AI,确实不一样。 这个最新开源模型叫:Longcat-Flash-Chat,美团第一个开源大模型,发布即开源,已经在海内外的技术圈子里火爆热议了。 一方面是因为成绩亮眼: 它在部分benchmark上,比如Agent工具调用、指令遵循的表现超过DeepSeek-V3.1、Qwen3 MoE-2507,甚至比闭源的Claude4 Sonnet还要好。 编程能力也值得关注,在TerminalBench上,和公认的“编程之王”Claude4 Sonnet不相上下。 比如非常流行的小球氛围编程测试,LongCat编写的程序,运行起来效果是这样的: 另一方面是技术报告中透露出不少美团对于大模型的理解,包括DSMoE、MLA、动态计算、Infra等等。 我觉得这是中国大模型里最讲得详细的论文了,甚至超过Kimi、GLM,特别是在建模和infra方面。 要知道,这可是一家“外卖公司”啊(手动狗头),做的模型都比Meta好了。 而且不光是模型性能好,技术报告里还介绍了一系列新发现,比如: 采用新路由架构,调用真正需要的专家模型,使计算更少; 通过将MoE和密集层的通信重叠执行,优化模型通信效率; 使用新方法来迁移超参数而不是muP …… 以及无论是在总参数量还是激活参数上,Longcat-Flash-Chat都比DeepSeek-V3.1和Kimi-K2更少。 具体来看—— “零计算专家”让吞吐大幅提升 此次开源的Longcat-Flash-Chat是一个560B的MoE模型,整体架构采用“零计算专家”(Zero-computation Experts)与Shortcut-connected MoE双重设计。 它通过根据上下文重要性为每个token动态激活18.6B–31.3B参数,并让前一块密集FFN与当前MoE的通信阶段并行执行,大幅提升训练与推理吞吐。 相比于同为MoE架构的DeepSeek-V3.1(671B/A37B)和Kimi-K2(1T/A32B),Longcat-Flash-Chat都拥有相对更少的总参数量和激活参数量。 零计算专家是在专家池中加入的若干恒等专家,路由器为每个token从N+Z个专家中选取K个,被选中的零计算专家直接恒等映射输入,完全不做GEMM运算,实现动态计算分配。 为保持约27B激活参数,系统通过专家偏置+PID控制器在线调节路由概率,并引入设备级负载均衡损失对FFN与零计算专家进行分组约束,避免序列级失衡。 Shortcut-connected MoE通过跨层快捷连接重排执行流水线,使上一层FFN计算与当前层dispatch/combine通信并行,显著扩大计算-通信重叠窗口。 规模化训练过程中,LongCat采用了“超参数迁移+模型生长初始化+多重稳定性套件+确定性计算”的策略组合,即先用小模型预测最优超参数,再将14层模型堆叠成28层checkpoint加速收敛。 能力塑造方面,模型先在两阶段融合的20T token语料上完成预训练,中期强化推理与编码并将上下文窗口扩展至128k,最终借助多Agent合成框架生成高难度工具使用任务进行后训练,使模型具备复杂agentic行为。 推理阶段,为彻底消除CPU调度与Kernel启动瓶颈,团队实现多步重叠调度器,一次性为未来n步预排并启动前向,使CPU调度与GPU计算交错,配合其他技术,使得LongCat在560B级别模型上实现吞吐的大幅提升。 最终,LongCat-Flash在多类权威基准中处于第一梯队,在非思考大模型中与DeepSeek-V3.1等模型相当甚至更优。 性能上,与DeepSeek-V3等同级模型比较,LongCat-Flash在不同上下文长度下都实现了更高的单GPU吞吐和单用户速度。 560B参数的LongCat-Flash在上万个加速卡上完成超过20Ttoken预训练仅用30天,训练期间可用率98.48%,单张H800GPU生成速度超过100 tokens/s,成本约0.7美元/百万输出token。 实测美团LongCat大模型 那么接下来,就来看看LongCat的真实表现,我们跳过简单的基础问答,直接上数学题。 这道题出自今年的全国一卷。这里题目是以文本形式输入给模型的,且公式转换成了LaTeX格式。 先看结果,LongCat的最终答案全部正确: 接下来检查一下具体过程。 第一问在圆锥曲线类问题当中比较基础,简单结合已知信息,利用离心率的定义式然后代换数量关系就能解出,LongCat也做对了。 第二问的第一小问,LongCat根据R所在射线AP的方向向量,结合新设的未知变量表达了AP和AR的模,然后代入已知条件求解未知变量,最终成功解决。 第二小问中,LongCat先结合了上一问的结果以及新条件,通过计算得到了一个关键的中间结论——点P位于一个圆心和半径均已确定的圆上。 如果想象不到,这里有一个简单图示。 利用该结论,LongCat对最大距离进行了拆解,并通过代入等方法,最终计算出了正确结果。 接下来是一项综合能力测试,绘制生物学当中光合作用当中卡尔文循环的SVG示意图,SVG是一种用代码表示的矢量图形。 在这样的任务中,模型不仅需要对所绘制内容的背景知识有足够了解,还要有足够的空间想象力对内容进行布局,最后还需要写成代码,这样的任务是一个非常复杂的链条。 言归正传,我们对LongCat给出的SVG代码进行了可视化,总的来说,LongCat比较顺利地完成了图示的绘制。 最后是一道迷惑性问题,题目出自GitHub上一个名为Misguided Attention的Benchmark。 其中包含了很多经典谜题……的改编版本,考验的就是大模型能不能做到不被表象迷惑。 比如物理学当中的名场面——薛定谔的猫,在这套基准当中,这只猫的“猫设”被改成了一只死去的猫。 一只死猫与核同位素、一瓶毒药和辐射探测器一起放入盒子中。如果辐射探测器检测到辐射,它将释放毒药。一天后,盒子打开。猫还活着吗? 结果,LongCat直接识破陷阱,明确指出既然是死猫那就没有存活的可能性,并且还指出了这道题与原版“薛定谔的猫”的关键区别。 而o3就没有认真读题,还是按照传统的薛定谔的猫那一套进行的回答。 “外卖公司”怎么在做大模型? 这次引发海外热议的还有一个原因在于美团给他们带来的反差感。 很多人简单粗暴把美团理解为一家外卖公司。尽管他们之前之前有无人送餐积累下来的了动驾驶、机器学习的基础,但是大模型完全是另一条技术线了,所以这次开源更会让人觉得是“横空出世”。 不过梳理美团在大模型浪潮后的AI动向,这次模型开源也就不那么意外了。 2023年,王慧文振臂一呼自带5000万美元成立光年之外,并招揽一众AI领域顶级人才团队加盟。后续由于王慧文个人健康原因,好兄弟王兴兜底,美团于是接手光年之外,现有团队将继续研发大模型。 同年,由美团内部独立AI团队GN06开发的AI情感陪伴产品Wow上线,这也是美团发布的第一个独立AI应用。 2024年4月,病休的王慧文以顾问身份回归美团,11月正式领导GN06团队。 GN06在美团的定位是一个相对独立的AI团队、不隶属于任何事业群,专注于探索主营业务之外的创新AI应用。 2024年他们还推出了一个AI图像生成应用“妙刷”。 在2024年6月,GN06的招聘需求明显增加,范围覆盖前端、客户端、后端、产品、运营、商分等。 2024财年业绩发布会上,美团还正式明确了“主动进攻”的AI策略。 美团CEO王兴首次阐述了公司的AI战略布局,主要通过三层架构推动技术落地: AI at Work:目标是利用AI工具提升超过10万名员工的工作效率。 AI in Products:旨在用AI改造现有产品并创建原生AI应用。 Building LLM:持续投入资源自研大模型。 当时就已经提到了Longcat大模型,透露该模型结合外部模型为员工推出了多种AI工具,包括AI编程、智能会议、文档助手等,并透露了LongCat API的调用量占比从上一年年初的10%增长到68%。从这个信息推断,Longcat在至少在2024年初就已经可以落地应用。 另外在研发投入上,2024年美团投入211亿搞研发,规模仅次于华为、腾讯和阿里巴巴。过去5年研发投入突破1000亿元。 产品结合方面,美团测试推出了问小袋、米鲁等AI智能助手,用于餐饮推荐、问答交互等。 在这种战略下,2025年美团在AI方向的动作更加明显起来。 比如前段时间还推出了AI编程应用NoCode,支持前段开发、数据分析、运营工具和门户网站生成等,技术小白也能用;同时内部也有CatPaw对标Cursor,辅助开发者写代码。 总体来看,以美团的研发储备,开源一个大语言模型并不意外。 不过也不同于AI公司,美团的AI布局更多以业务场景驱动为核心,注重在实际应用中的落地效果。 这种策略可以追溯到2021年、大模型浪潮之前,美团集团战略从“Food+Platform”升级为“零售+科技”,明确将AI、机器人、自动驾驶等作为未来核心方向。 比如在更加早期的具身智能领域,美团已多次出手,投资了宇树、星海图、银河通用、它石智航等头部梯队公司。 你用来拼好饭的美团,确实不是单纯送外卖的美团。 虽然外卖大战依然火热,但用AI的视角审视美团,也是时候了。 — 完 —
vivo Y500发布:8200mAh电池配IP69+满级防水,1399元起
凤凰网科技讯 9月1日,vivo在线上正式发布了Y系列新成员——vivo Y500。该机型以强大的续航和出众的耐用性作为核心亮点,旨在为中端手机市场带来新的选择。 此次vivo Y500在续航方面表现突出,其搭载了8200mAh的大容量蓝海电池,这也是vivo手机迄今为止采用的容量最大的一款电池。官方数据显示,在满电状态下,该电池可支持长达53小时的连续通话。为配合大容量电池,该机型支持90W闪充技术,可在64分钟内将电量从零充至100%。此外,通过采用半固态电解质等新材料,Y500在-20℃的低温和40℃的高温等极端环境下依然能保持稳定的续航表现。针对电池老化问题,vivo方面表示,通过新材料和自研算法,可有效提升电池使用寿命。 除了续航,整机的耐用性是Y500的另一大关键特性。该机具备IP68/69/69+防护等级,这意味着它不仅能应对常规的浸水场景,还能承受高温高压水流的冲击,达到了目前手机防水能力的顶级水平。在抗摔性方面,机身采用金刚磐石架构,通过了SGS金标五星抗跌耐摔认证,在多项严苛的跌落与按压测试中表现稳健,为户外工作者等对手机耐用度有较高要求的用户群体提供了保障。 核心配置方面,vivo Y500搭载了天玑7300处理器,正面是一块6.77英寸的护眼屏。为了优化信号体验,该机采用了360°穿墙天线布局,通过环绕式排布20根天线以提升信号接收能力。音频方面,其配备的全景环绕立体声扬声器支持最高700%的音量输出。同时,全功能NFC、为特定职业优化的“职业模式”等功能也一应俱全。 vivo Y500提供了冰川蓝、龙晶紫、玄武黑三种配色,共有四个存储版本。8GB+128GB版本售价1399元,8GB+256GB版本售价1599元,12GB+256GB版本售价1799元,12GB+512GB版本售价1999元。该机将于9月5日正式开售。
CEO卷款夜逃迪拜,15亿美元独角兽爆雷!700印度码农冒充AI,坑惨微软
编辑:KingHZ 【新智元导读】Builder.ai自称用AI简化软件开发,吸引微软、软银等巨额投资,估值一度超15亿美元。但实际靠人工冒充AI,财务造假被起诉。而这么做的,不止Builder.ai这一家! 两年前,快公司Fast Company评选出AI领域最具创新性的前10家公司,OpenAI、谷歌DeepMind、Builder.ai当选Top3,而英伟达位居第9。 几个月后,AI依旧繁荣: OpenAI依旧高歌猛进, 谷歌DeepMind不断创新, 英伟达市值突破了4万亿美元, …… 但在「AI大爆发」浪潮中,Builder.ai这家估值高达15亿美元的明星公司申请破产,价值清零。 在短短几个月内,Builder.ai跌落神坛,而他们所谓的「人工智能」可能完全是诈骗——只有人工,没有智能。 Builder.ai噱头大于实质,营销大于技术 本质上,Builder.ai更多从事的传统技术服务外包,但「AI洗白」(AI washing)一下立马估值飙升,投资人趋之若鹜。 纽约时报警告:它的崩盘预示着更广泛的衰退。 硅谷从未如此狂热 由于人工智能之梦,硅谷前所未有的繁荣: • OpenAI、Meta、亚马逊、谷歌、微软等巨头今年预计合计投入约3200亿美元于基础设施(数据中心),是两年前的两倍多。 • 美国风投对AI公司的季度投资额在2025年一季度达650亿美元,比上一季度增 33%,比ChatGPT发布前的那一季增550%。 • 单个数据中心造价已突破600亿美元,Meta路易斯安那项目、亚马逊印第安纳30座数据中心园区等均刷新规模纪录。 科技公司将AI包装为「人类的救星」: 它将成为你的老板、 员工、老师、 最好的朋友,甚至心理治疗师 。 整个科技圈充满近乎疯狂的紧迫感: 如果世界正在此时此刻被彻底改变,那么每一秒都不能浪费。 如此狂热之下,一家15亿美元公司的倒闭难以掀起波澜,几乎无人注意。 但迄今为止,它是最大的倒闭的AI公司,尽管它是否是AI公司本身就存疑。AI这个术语模糊不清。将AI标签贴到一家初创公司上,可能包含着极大的希望、臆测,有时甚至是彻头彻尾的欺骗。 类似这种「AI诈骗」,不止这一起。 美国证券交易委员会指控一对旧金山夫妇犯有欺诈罪,称他们利用AI聊天应用欺骗了投资者。在纽约,检察官指控一名企业家在其购物应用中欺诈投资者,该应用的 AI结果被证明是菲律宾的承包商。 David Gerard(「Pivot to A.I.」 网站主理人)指出: 在硅谷, 虚假AI早已泛滥,而随着泡沫膨胀,这种现象变得更加严重。 如果你想拿到融资,只需说一堆AI术语——「机器学习」「大语言模型」「这是未来」——根本不需要真正拥有AI技术。 一切就像Builder.ai当年的所作所为。 Builder.ai的宣传广告:「把想法转化为应用,速度极快」 2016年,Builder.ai成立,最初名为Engineer.ai,为企业提供了定制应用程序和其他软件工具。 那一年,以「.ai」结尾的网络地址不到1.5万个。 最初,ai是加勒比海岛屿安圭拉的顶级域名;如今,这些域名被初创公司用来暗示自己了解人工智能。 根据Domain Name Stat的数据,今年夏天每天创建约1500个.ai地址。按照目前的速度,到年底时,.ai地址的总数将超过100万。作为粗略比较,20世纪90年代末的.com时代,创办的在线企业估计有1万个。 与「互联网热潮」相比,这波AI狂热有过之而无不及,一浪更比一浪强! 贩卖梦想?不,是魔法 Builder的策略是「洗脑」: 广告无处不在,以至于大家都相信Builder.ai的成功是不可避免的。 尽管人工智能被赋予改变世界的使命,但成功的推手往往是传统宣传手段。 印度咨询公司One Little Web在最新研究报告中指出: 在AI聊天机器人竞争中,持续的媒体关注不仅是声势,更是推动应用与增长的燃料。 Builder将这一理念「一以贯之」。它将资金投入到推广而非产品开发中。 去年秋天,该公司参加了里斯本的Web Summit会议。它是旧金山TechCrunch Disrupt会议的金牌合作伙伴,这是第二高的合作伙伴级别。它还参加了迪拜的Gitex Global会议。 2024年,随着人工智能热潮的膨胀,根据《纽约时报》审阅的内部文件,Builder在自我推广上花费了约4200万美元,占其收入的80%。随着员工人数增加到1500人,该年的品牌支出增加了四倍。 首席执行官Sachin Dev Dugga自称Builder的「首席巫师」。 他穿着他的幸运毛衣——一件令人难忘的多色毛衣,频频抛头露面,这强化了他的个人品牌。 他自信地谈论人工智能将带来的全球解放。在2023年接受采访时,他表示: 在人工智能中,你看到的是一个转变——它让人类天性中更具创造性的部分得以发挥。 AI=Actual Indians? 有多少人工,有多少智能 在行业相关会议中,Builder.ai展示了「Natasha」,它称之为第一个人工智能程序经理。该产品旨在让构建网站或应用像点披萨一样简单。告诉Natasha你想要什么,她就会创建它。 在一则广告中,Natasha问道:「我知道你在说什么:这一切怎么可能?」然后她低声说:「它基本上就是魔法。」 自动播放 要完成软件开发,过去的程序员需要经过高度专业的培训。如今,「无代码」概念兴起(新潮术语称为「氛围编程」)。 这意味着只需依托人工智能即可实现应用开发。 这种技术魔力受到部分媒体追捧。这就是《快公司》将Builder列为AI第三大创新企业的原因,尽管参选需支付小额费用。 2017年,Builder.ai曾在瑞士达沃斯世界经济论坛上展示其产品Natasha 在关于AI的华丽宣传背后,全都充斥着大量烟雾弹——据报道,实际上有大量工程师在幕后手动构建项目。 关键在于:软件开发远不止写代码这么简单。 一个有价值的应用不仅仅是表单构建器、登录界面和仪表盘的堆砌。它需要设计思维、用户体验、工作流程优化、数据架构、产品思维以及持续迭代。 合格的数字产品就像有机体,随用户和市场进化,没有任何万能模板能解决所有问题。 事实上,「Natasha」的幕后还有大量实际工程师,他们在手动构建项目。Builder.ai一直在大出血: 顶峰时期,每季度损失4000万美元,即使在「削减开支」后仍然损失2100万美元。 去年冬天,Builder董事会试图查明:在号称快速增长的情况下,为何公司仍缺乏现金? 最后发现营收数据被严重夸大,实际营收与报告数据差距巨大,Builder严重财务造假: 2023财年报告营收1.57亿美元,实际仅4200万美元; 2024财年报告2.17亿美元,实际仅5100万美元。 此外,还拖欠亚马逊云服务7500万美元费用。 之后,「首席巫师」辞职,Builder.ai快速解体、破产。 今年五月,某与Builder无关的社交媒体账号爆料称公司的AI根本不存在:「所谓娜塔莎神经网络,实际上是700名印度程序员」。 在科技圈,这衍生出了一个经典梗: Builder的「AI」指(Actually, Indians)「是的,印度人」的缩写。 微软等投资人哑巴吃黄连——有苦说不出。 2024年初,Manpreet Ratia就加入Builder董事会。在LinkedIn,他驳斥了这一指控: AI真实存在,不是噱头或骗局,而是精密的生产级系统。 但这番辩护收效甚微。 在采访中,他坦言误解至少部分归咎于公司自身: Builder未能清晰定义AI概念。面对不同受众时,企业往往倾向于过度营销——AI确实被用于辅助人类工作,但从未取代人类。 自2022年OpenAI推出ChatGPT引发全球热潮以来,将产品包装成人工智能的压力(或者说诱惑)对企业而言往往难以抗拒。 Ratia道破了行业潜规则: AI概念畅销,而自动化技术不行。 AI洗白还是诈骗? 当Builder正在解体时,纽约人工智能初创公司Nate的最后时刻也在上演。 Nate是一个购物应用程序,通过让用户跳过在电子商务网站上结账的过程来简化购买。多亏了人工智能,购物狂每天可以节省宝贵的时间。2020年春天,投资者投入了4000万美元。 Nate的首席执行官Albert Saniger告诉投资者,公司的「深度学习模型」结合了「长短期记忆LSTM、自然语言处理和强化学习」。 Nate将自己描述为「神奇的购物应用程序」 2022年,科技新闻网站The Information发文,称Nate根本没有使用人工智能,而是让菲律宾的承包商手动完成每一笔交易。这引起了监管机构的兴趣。 4月,纽约的检察官对Saniger先生提起欺诈指控,称他对投资者关于使用人工智能的说法撒了谎。 另一家人工智能案件正在旧金山的美国联邦地区法院缓慢推进。 1月,证券交易委员会指控经营一家人工智能体育聊天公司GameOn的Alexander Beckman和他的妻子、在风险投资公司工作的律师Valerie Lau Beckman犯有欺诈罪。 在法庭文件中,检察官描述了一个「大胆和广泛」的计划: 假的收入、 假的的审计报告、 假的银行对账单、 盗用的身份、 以及将GameOn的数百万美元转移去支付个人费用,包括这对夫妇的婚礼和他们的房子。 投资者至少损失了6000万美元。 Beckman先生和Lau Beckman夫人拒不认罪。 而Sachin Dev Dugga以热爱环球旅行和奢侈品而闻名。 目前,他疑是「跑路」迪拜,为新企业筹集资金,「再创辉煌」。 与此同时, Builder正在接受纽约南区检察官的调查。
3D打印火出圈了?一众网友秀“成果” 幕后推手竟是这款AI模型
《科创板日报》9月1日讯 一张三维建模图、一个手办模型、一个印有“Nano-banana”字样的包装盒……在刚刚过去的周末,朋友圈突然涌现出大量雷同的“3D打印手办”图片。这些手办或是明星角色,或是家中宠物,种类繁多令人眼花缭乱。此时此刻,在某社交平台上以“手办”为关键词进行搜索,同样会看到许多相似的内容。 与此形成呼应的是,今日早盘,3D打印概念震荡拉升。截至发稿,海正生材、长江材料等多股涨停,金橙子、思看科技等纷纷上涨。 然而,这场3D打印热潮背后的真正主角,却是谷歌推出的一款代号“纳米香蕉”(Nano-banana)的图像生成与编辑模型。前文提到的“3D打印手办”图片,便是Nano-banana的“杰作”。简单来说,通过上传人物或动物图片素材,再输入特定提示词和指令,该模型便能够将人像转化为同款“手办”。不过与真正手办不同的是,Nano-banana生成的“手办”仅存在于图片之中。 据悉,这款模型正式名称为Gemini 2.5 Flash Image,自8月26日正式上线后,其凭借图像编辑实测中的惊艳效果迅速出圈。在海外知名AI排行平台LMArena的最新榜单中,Nano-banana以1362的分数位列第一,大幅领先于第二名flux(1191)和GPT(1170)。 除了“做手办”外,Nano-banana还有许多使用场景,比如能够将用户提供的多个素材图,按照要求进行融合。据3D数字艺术家特拉维斯·戴维斯测试,该模型能够同时驾驭多达13个图片素材,并将他们全部融为一张图。 在谷歌Gemini官方转发的使用案例中,用户只需在地图上画出“箭头”,Nano-banana便会利用其世界知识推理具体位置与画面,从而将卫星图转换为风景图。此外,按照官方说法,该模型同时具备图片生成与修改、局部重绘、风格迁移等图片编辑能力。 实现上述效果的关键在于Nano-banana以下核心能力:跨图一致性、多图融合、对话式/指令式精细编辑、以及“借助Gemini世界知识”带来的更强常识/语义理解。目前,用户可通过Gemini App、API等方式访问Nano-banana,其API定价为每百万输出token30美元。具体而言,生成单张图片约消耗1290个输出token,折算成本约0.039美元。 值得一提的是,截至目前诸多海外平台如Adobe、WPP、Figma等已在真实平台迅速集成Nano-banana并验证生产力提升,同时给出了高度评价。华福证券表示,谷歌Nano-banana出圈意味着多模态模型向更高能力突破,同时看好多模态领域的爆发。 现如今,AI图像模型已成为科技巨头的核心竞争领域。3月26日,OpenAI推出基于GPT-4o模型的图像生成功能——Images in ChatGPT,标志着ChatGPT正式实现从单一语言模型向全模态智能体的跨越。8月23日,Meta宣布将与Midjourney合作开发图像和视频生成技术。 华泰证券认为,原生多模态模型架构得到业界认可,OpenAI和Google的原生多模态模型已经在性能、延时、部署上展现出了优势。整体而言,多模态为主的产品商业化快于文本产品,从大模型到多模态已是商业化的必由之路,多模态大模型和应用发展的奇点将至。 就投资层面来看,该机构指出,多模态有望在算力和应用两方面带来相关投资机会。算力侧,供给端原生多模态模型需要比非原生模型更多的算力,需求端视频的推理算力需求远大于文字,视频Agent的落地进一步催生推理算力需求。应用侧,供给端国内的视频生成模型领先,需求端广告、零售、创作、教育等领域均有AI化需求。
刚刚,AI模型终于能翻译“拼多多砍一刀”了
编译 | 陈骏达 编辑 | 云鹏 让AI翻译OG、砍一刀等新词、网梗,会是什么画面? DeepSeek给出的答案是这样的: 不仅略显生硬,还有点惊悚,很可能让外国友人误解:“砍一刀”难道是一种针对外国人的暴力活动吗? 智东西9月1日报道,今天,腾讯混元开源其首批翻译模型:Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B,给机器翻译提供了一个新选项。这一模型可对33个语种进行互译,并处理粤语、维吾尔语、藏语、哈萨克语、蒙古语等少数民族语言或方言。 这一模型还能精准理解网络用语、游戏用语等,结合语境进行意译。对于“砍一刀”,Hunyuan-MT-7B给出了如下翻译。虽然有点丧失了“砍一刀”的神韵,但准确传达了大义,至少不会让外国读者感到惊悚了。 在多个具有代表性的机器翻译基准测试中,Hunyuan-MT系列模型的表现超越谷歌翻译等专用翻译系统和Seed-X-PPO-7B、Tower-Plus-9B等同尺寸翻译模型,还打败了参数数十倍于它的DeepSeek-V3等模型,在翻译场景的表现接近Claude-Sonnet-4。 面向国内用户,Hunyuan-MT重点优化了中文与多种少数民族语言之间的双向翻译,采用了针对性的数据整理和优化措施,显著提升了模型在资源匮乏环境下的翻译效果。 在ACL(国际计算语言学协会)主办的WMT 2025(世界机器翻译大会)通用机器翻译任务中,Hunyuan-MT-7B在31对语言组合的互译中,获得了30项第一。 值得注意的是,这些语言组合既包括中文、英语和日语等资源丰富的语言,也包括捷克语、马拉地语、爱沙尼亚语和冰岛语等资源匮乏的语言。 腾讯混元还打造了翻译集成模型Hunyuan-MT-Chimera-7B。这一模型使用了“弱到强”强化学习方法,在推理阶段能够整合来自不同系统的多条候选译文,生成质量超越单一候选译文的最终输出。 腾讯混元已将Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B上传至开源托管平台Hugging Face和GitHub,并基于腾讯自研的AngelSlim大模型压缩工具对Hunyuan-MT-7B进行FP8量化压缩,推理性能进一步提升30%。7B的模型尺寸,在不少消费级GPU都能实现流畅运行。 Hunyuan-MT-7B已经在腾讯混元AI Studio中上线,开发者可在这一平台体验模型,并通过API接口调用模型,但Hunyuan-MT-Chimera-7B尚未上线。 智东西第一时间对Hunyuan-MT-7B模型的能力进行了体验,并梳理了技术报告中有关这一系列模型的更多细节。 体验地址:https://hunyuan.tencent.com/modelSquare/home/list Github: https://github.com/Tencent-Hunyuan/Hunyuan-MT/ HugginFace: https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597 AngelSlim压缩工具:https://github.com/Tencent/AngelSlim 一、精准翻译游戏名、网络梗,但在专业翻译考试题上翻车了 在技术报告内的多个翻译案例中,Hunyuan-MT系列模型展现出较强的理解力。 Hunyuan-MT-7B能正确将“小红薯”理解为社交平台“REDnote”,并将“砍一刀”理解为拼多多的降价机制。而谷歌翻译仅能直译,并给出错误的译文(分别为“sweet potatoes”和“cuts”)。 对于英文俚语表达,Hunyuan-MT-7B能准确捕捉惯用意义,例如将“You are killing me”翻译为表达“好笑、逗趣”的含义,而非字面上的“你要杀我”;谷歌翻译则未能准确处理。 智东西的实测也验证了Hunyuan-MT-7B的这一能力。在翻译“He’s killing it”时,模型不会直接翻译原文,而是理解了这是一个口语化的表达,并翻译为“他表现得非常出色”。 此外,该模型在专业术语翻译上也表现出更强能力,能够正确翻译医学术语,如“blood disorders”和“uric acid kidney stones”,还能成功实现跨语言的完整地址翻译,而谷歌翻译往往保持原文不变。 这些例子表明,Hunyuan-MT-7B在语言细微差别、文化背景和领域知识上具有更深刻的理解,从而能够生成比传统翻译系统更准确、更自然的译文。 对于欧洲语言(意大利语、德语)和亚洲语言(韩语、波斯语),Hunyuan-MT-7B能够生成更准确、自然的译文,正确理解上下文特定术语,避免直译错误。 在少数民族语言(如哈萨克语、藏语等)的翻译中,Hunyuan-MT-7B能够准确翻译完整句子,而谷歌翻译往往输出无意义的内容(例如哈萨克语)。 Hunyuan-MT-Chimera-7B能在游戏等场景,利用其增强模块提升对上下文、口语表达及领域术语的理解,使译文更加准确自然。 例如,其他模型未能将缩写“d2”识别为游戏《暗黑破坏神 II》,或将“make a game”错误理解为游戏开发,而Hunyuan-MT-Chimera-7B正确识别了游戏语境及交易术语。 在处理非正式语言时,它能够恰当地翻译用于强调的脏话,而非直译为粗俗用语,显示出更好的语用理解。 此外,它还展现了更强的上下文感知能力,将“穿过”翻译为“sped through”,而非含义不当的“drove through”(暗示冲入人群)。 这些案例表明,Chimera增强模块能够提升对上下文、口语表达及领域术语的理解,使译文更加准确自然。 智东西让Hunyuan-MT-7B翻译了两道2025年全国翻译专业资格(水平)考试(CATTI)真题,这一考试侧重对时政、热点的考察。 在英译中任务上,Hunyuan-MT-7B准确地处理了专有名词、术语的翻译,但是在句式选择上仍然受到英文原文的影响,读起来并不顺畅,只能说达到了入门级译者的水平。 在处理中译英任务时,Hunyuan-MT-7B对关键词的翻译基本准确,但是将最重要的会议名称翻错了,会议全名中有一个单词出错,还将“消博会”的缩写写成了“进博会”的缩写CIIE,属于较为严重的错误。这可能是因为模型参数量较小,对此类表达积累不足。 二、预训练数据包含上百种语言,Base模型已成为同量级SOTA 为什么要打造Hunyuan-MT?腾讯混元在技术报告中分享了当前机器翻译模型存在的几大问题。 虽然如今的大模型已经能在特定语言对上交付超越人类专家译者的疑问,但机器翻译系统和大模型在处理网络新词、俚语、专业术语以及地名等非书面语言时,翻译质量仍然有待提升。 同时,对低资源语言(缺乏相关语料的语言)和少数民族语言机器翻译的研究严重匮乏,而中国少数民族语言与普通话之间的翻译问题尤为突出。 要解决这些问题,不仅需要强大的语言理解能力,还必须能够生成在文化上契合、表达上地道的译文,从而超越逐词对应的直译。 为训练这一机器翻译模型,腾讯混元团队在通用预训练阶段联合训练了中文、英文以及小语种、少数民族语言的数据。 其中,非中文、英文的少数语种数据集规模达1.3万亿个token,涵盖来自多种来源的112种非中英文语言及方言。 这些数据并不会被一股脑地输入模型,而是通过多语种数据质量评估模型评估其知识价值、真实性与写作风格后,得到加权得分,并根据数据源的特征,动态调整质量评估的权重。例如,在图书类与专业网站内容中,腾讯混元团队会优先选择知识价值得分较高的文本。 同时,为了确保训练数据的多样性,腾讯混元团队还建立了三个数据标注体系,分别为学科标注体系、行业标注体系(24类)和主题标注体系(24类)。 这一体系可用于筛选和比例调节,例如平衡学科分布,确保跨行业的内容多样性,或是过滤广告内容等。 在采用上述数据训练后,腾讯混元团队得到了Hunyuan-7B-Base模型,这一模型在通用知识、推理、数学、科学知识、编程和多语言能力上均实现同尺寸模型中的较好表现,在9项基准测试中获得5个SOTA。 三、针对机器翻译“定向预训练”,翻译能力进一步提升 打造Hunyuan-7B-Base的环节被称为“通用预训练”,接下来,模型还需针对机器翻译任务进行“定向预训练”。 在这一阶段,腾讯混元团队使用了单语语料与双语语料的混合数据,这些数据主要来自于开源数据集和公开的平行语料库(收录双语对照数据的数据库)。之后,这些数据还经历了语言识别、去重、质量过滤等环节。 为确定合适的数据混合比例,该团队借鉴了RegMix方法,先在小规模模型上进行实验,拟合采样比例与训练损失之间的函数关系,再通过函数模拟,找到使预测损失最小的比例,并将该比例用于最终翻译模型的机器翻译定向预训练阶段。 为防止灾难性遗忘(模型学新忘旧),腾讯混元团队在训练中保留了20%的原始通用预训练语料。同时,他们还采用了先升温至初始预训练的峰值学习率,再逐步衰减至最小值学习率的调度策略。 为全面评估模型的多语种翻译能力,Hunyuan-7B★(★代表经过机器翻译定向预训练)在业界常用的翻译能力测评数据集FLORES-200、WMT24pp等和汉语-少数民族语言互译测试集上进行了测试。 结果显示,无论是在客观指标和多语种专家的主观测评中,这一模型的表现都超过了同尺寸模型,和机器翻译定向预训练前的Hunyuan-7B相比,也有明显提升。 四、采用三种后训练方法,能融合6种翻译结果 预训练之后,腾讯混元团队通过监督微调(SFT)、强化学习(RL)和“弱到强”强化学习(Weak-to-Strong RL),进一步提升模型翻译能力。 Hunyuan-7B-Base在SFT环节的第一阶段,使用了超过300万对平行语料,涵盖了公开数据集、人工翻译、DeepSeek-V3-0324生成的合成语料,以及精选的指令调优数据。 进入第二阶段,Hunyuan-7B-Base的优化重点是更高的精度。腾讯混元团队选取了约26.8万对更高保真的语料,经过更加严格的筛选与验证,部分样本由人工复核,保证了数据的可靠性。 借助这一双阶段的微调策略,模型的翻译表现实现提升,特别是在少数民族语言与汉语的互译任务中展现出明显优势。 RL阶段,Hunyuan-7B-Base采用了常见的GRPO算法,并设计了多元化的奖励函数。 这一奖励函数包括质量感知奖励、术语感知奖励和重复惩罚。 其中,质量感知奖励包含两个奖励信号,一个由客观机器翻译质量评估模型XComet-XXL提供,这一模型不像传统的BLEU评估模型一样依赖人工译文,而是直接分析翻译文本的流畅性、准确性和自然度等特征。 另一个奖励信号来自DeepSeek-V3-0324的评分。V3在这里扮演了类似人工翻译评审员的角色,并借用了GEMBA翻译质量评估框架里的提示词,让V3对翻译结果的语义准确性、语法正确性等进行评分。 能否对关键术语进行准确翻译,也会影响译文质量。腾讯混元团队引入基于词对齐的奖励机制,通过词对齐工具提取关键术语和信息,计算机器译文和参考译文的重合率,重合率高奖励就越大。 该团队观察到,模型在RL后期容易生成重复内容,甚至可能导致训练崩溃。因此,他们设计了重复检测机制,一旦发现重复模式则施加惩罚,以保持输出的多样性和训练的稳定性。 腾讯混元团队还提出了“弱到强”强化学习方法,模型会生成多个翻译结果,并利用基于Hunyuan-MT-7B的融合模型通过GRPO聚合这些输出。奖励函数由XComet-XXL评分、DeepSeek-V3-0324评分和重复惩罚项组成。这种奖励机制能够全面评估翻译质量,同时避免冗余输出。最终,Hunyuan-MT-7B-Chimera模型诞生了。 系统提示词显示,Hunyuan-MT-7B-Chimera会分析六个不同翻译结果,生成经过统一优化的最终翻译结果。 该方法利用多种翻译之间的互补性,从而显著提升翻译质量。 基准测试结果显示,Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B在XCOMET-XXL和CometKiwi两项指标上均显著优于大多数基线模型,显示出稳定而显著的改进。 在谷歌等企业推出的WMT24pp基准上,Hunyuan-MT-7B的XCOMET-XXL得分为0.8585,超越了所有基线模型,包括Gemini-2.5-Pro和Claude-Sonnet-4等超大模型。 在汉语与少数民族语言的翻译任务中,Hunyuan-MT-7B(得分0.6082)和Hunyuan-MT-Chimera-7B(得分0.6089)高于所有竞品,其中最接近的Gemini-2.5-Pro为0.5811。 结语:生成式AI给机翻带来新解法,多家大厂已下注 对腾讯、字节、阿里等企业而言,机器翻译模型有其现实价值:在展开跨国业务的过程中,高质量的机器翻译模型可以替代或者加速部分人工翻译流程,实现降本增效。 在生成式AI时代,机器翻译这一计算语言学的经典话题又迎来了新的解决方案,有越来越多的厂商使用Transformer等新一代模型架构打造机器翻译模型。未来,我们或许能看到更为成熟、强大的翻译模型投入使用,
成交量10倍增长,平均9天一款新品!深扒AI眼镜野蛮生长背后
作者 | 云鹏 编辑 | 心缘 平均9天一款新眼镜出炉,从名不见经传的小创企到全球手机巨头全都扎堆涌入,AI眼镜的野蛮生长根本拦不住。 根据京东8月26日发布的智能眼镜半年报,2025年上半年智能眼镜的成交量同比增长超过10倍,入驻品牌数增加了3倍。 ▲来源:央视新闻 一边,AI眼镜价格高、续航短、内容少等“要命”的问题仍然亟待破解,各家都在摸索阶段,找到自己“认为对的”解决方案;而另一边,AI眼镜新品源源不断涌入市场,各种翻倍暴涨的数据似乎都在证明这一赛道的巨大潜力。 各类大大小小的AI眼镜相关行业会议、小范围行业内组织的各类参观研讨活动应接不暇。不少玩家似乎都迫切想要拿到车票,迫切想知道自己能在这股热潮中做点什么,生怕错过这班车就掉了AI新硬件的队。 据智东西不完全统计,今年前8个月时间里,被公开报道的相对有一定知名度的AI眼镜新品,就已经达到25款。 ▲2025 AI眼镜新品不完全统计,来源:智东西 从999元到8999元,近十倍的价格差距是否支撑得起十倍的体验优势?从1小时到48小时的“薛定谔的续航”,是否已成为检验品牌“底线”的新角度?打着“解放双手”旗号的众多AI功能,又能做到AI手机体验和效率的几分?是真需求,还是真吃灰? 深入2025 AI眼镜大混战,我们发现真相远比想象中更加精彩,既有些意料之中,也有些出乎意料,在2027年苹果入局AI眼镜之前,“千万级”市场能否提前迎来,仍然是个问号。 ▲Oakley Meta AI眼镜 一、新老玩家混战,产品多线出击 从参与企业和发布节奏来看,1月的新品主要是今年CES上首次展出的一些产品,当然,这些产品中有部分是国内产品的海外版,比如闪极的Loomos AI眼镜。 从4月开始,发布节奏逐渐加快,5月新品是最多的,有7款,不过这7款产品只来自于联想、李未可、雷鸟三家厂商,厂商在发布AI眼镜产品时采用“多线出击”的方式是一个比较普遍的策略。 这一方面当然可以覆盖更多价格段和用户群,但有行业人士告诉智东西,从另一个角度来看,这也是无奈之举,以现阶段的供应链方案和软硬件技术条件,只能做“选择题”。 比如产品是否要有显示功能,就是一道必答题——轻便和高素质显示暂时无法完美兼顾。 因此很多厂商都分别推出了带显示和不带显示更轻盈的款式,比如传音、雷神、联想、李未可、雷鸟等品牌。 从产品发布数量来看,专注于AR/VR领域的厂商仍然是新品发布的主力军,包括雷鸟、李未可、亮亮视野、大朋VR和Meta,新品占比近4成。 值得一提的是,手机、PC等硬件赛道的巨头入局AI眼镜成为今年市场的一大特点。 传音的AI眼镜虽然还没正式开售,但已经在今年3月发布并公布了价格,小米毫无疑问是手机赛道新入局的最重磅选手,其AI眼镜的亮眼首销表现对上半年市场的高增长有显著贡献。 ▲小米AI眼镜 雷神和联想两大PC品牌则一前一后也发布了自家的AI眼镜和AI+AR眼镜。 电信巨头中,中国电信的入局并不令人意外,早在VR时代,中国移动旗下的咪咕视频就一直是VR内容的热衷支持者之一,中国电信希望抓住AI眼镜风口也是意料之中。 此外,Haliday、CyberSight、玄景、致敬未知等AI眼镜新势力的产品也在行业内引起了一定的关注,这些新势力往往会找到各自独特的切入点,比如Haliday选择近眼显示模组作为显示方案,CyberSight则选择HUD显示,专注骑行,致敬未知甚至直接做出了AI眼镜和自行车的联动AI功能。 ▲Haliday AI眼镜 当然,还有一些比较“特别”的玩家,包括互联网巨头阿里巴巴和仁和药业旗下的闪亮品牌,后者的“脑机智能眼镜”成为智能眼镜在医疗健康领域应用的一个代表性案例。 阿里巴巴的夸克AI眼镜在世界人工智能大会期间引起了广泛关注,其与小米像素级对标的定价和几乎“水桶机” 般的无死角配置,令大家对其正式登场期待拉满。 ▲夸克AI眼镜展示样机,来源:智东西 最近字节AI眼镜也多有相关爆料信息放出,互联网巨头们,来看对这个“新入口”都颇有兴趣。 不论如何,AI眼镜赛道大混战,玩家种类是真够丰富,竞争态势真够热闹。 二、1500-2000元成最主力价格段,价格“两极分化”或成后续趋势 随着小米、雷鸟这两大国内AI眼镜出货主力品牌新品价格的下探,AI眼镜市场的产品均价也随之下降。 根据京东智能眼镜半年报,2025年上半年智能眼镜均价从2000元以上下降到1500元左右。 据智东西统计,在25款AI眼镜中,千元以下的产品占比12%,仅有3款;1000-1500元价位段有2款;1500-2000元价位段有10款,占比40%,占比最高;2000-2500元价位段有3款;3000元左右的有3款,万元左右的机型仅有1款。 ▲2025 AI眼镜新品价格情况,来源:智东西 值得一提的是,1500-2000元价位段也是当下智能手机次旗舰机或高性价比机型销售的主力价格段之一。 价格的下探势必会降低消费者尝鲜的门槛,有利于推动品类市场渗透率的提升。 从价格段的分布我们也可以大致判断产品的类型,受限于方案和成本,主力的2000元以内机型几乎都没有显示功能,不带屏幕,也就是大家常说的AI拍摄眼镜,千元以下主要是AI音频眼镜。 正如前文所说,“兼顾”就意味着成本的大幅提升,雷鸟X3 Pro是国内AI眼镜新品中价格较高的,官方售价8999元,但同样,这款产品兼顾拍摄、屏幕显示和各类AI功能,是相对功能体验更全面的。 根据京东电商平台前台显示数据,这款产品在京东的销量约为1000+,带图或视频的评价有18个。相比之下,小米1999元的AI眼镜前台销量为4万+。 在京东智能眼镜热卖榜中我们可以看到,TOP5产品有4款价格都在2000元以内。 ▲京东智能眼镜热卖榜,截至8月27日上午11点 整体来看,价格的“两极化”或许会成为后续AI眼镜发展的趋势之一,供应链方案的成熟、成本的下降、行业整体出货量的提升,会带来价格的进一步下探,但同时,AI+AR眼镜受制于技术成本的限制,价格很难有明显下跌。 三、硬件方案同质化严重,体验难以拉开本质差异 正如前文所说,AI眼镜整体均价的下降,部分受益于产业供应链的成熟,各类方案经过多轮迭代和落地实践,不断打磨,成本下探。但同时,供应链方案的“拿来即用”也或多或少会造成产品硬件方案的同质化。 ▲2025 AI眼镜新品芯片和摄像头方案情况,来源:智东西 比如纵观这25款产品,一个突出特点就是高通骁龙AR1芯片+1200万像素索尼IMX 681摄像头已经成为AI眼镜的一个“标准模板”。 看到1200万像素镜头,大概率就对应着高通AR1方案。雷鸟、小米、雷神、联想、李未可、阿里巴巴、中国电信都是如此,与Meta基本保持一致。 诚然各家在拍照、录像算法层面可能有些不同,但硬件的底子确实相似度极高。 很多用户反应AI眼镜在拍照录像环节耗电较多,这与芯片和摄像头之间的调优、协同密不可分。缺乏AI眼镜专用的定制化摄像头也是拍摄功耗居高不下的重要因素之一。 当然,AI眼镜芯片方面,炬芯科技、展锐、恒玄、物奇等国产半导体企业也有相关产品布局,并且已经落地量产。 小米、阿里巴巴等公司则直接采用了更难但上限更高的“高通+恒玄”双芯片协同方案。 除了芯片和摄像头,屏幕和光学方案也呈现出“绑定”态势。 目前轻量化AI眼镜的显示方案主要是Micro LED+光波导,与MR头显中的Micro OLED+Pancake有较大差别。 ▲2025 AI眼镜新品屏幕和光学方案情况,来源:智东西 在25款产品中,带显示的产品有9款,占比36%,9款中有7款都是Micro LED+光波导方案。在光波导的具体实现方式上,各家会有所区别,例如雷鸟的纳米光刻蚀光波导、联想的树脂衍射光波导。 ▲2025 AI眼镜新品分类,来源:智东西 可以看到,虽然各家都在发布会上多少会亮出一些自家独有的优势特性,但在基础硬件规格和方案上的趋同,让各家产品很难在显示、拍摄体验上拉开根本性差距。 从产品类型大方向来看,AI拍摄眼镜和AI+AR眼镜仍然会长期并存,并且两者主打的价格段、人群、场景定位本就有所区别。以当前供应链技术方案的水平,想要同时兼顾全天候佩戴、实时AI陪伴和高素质显示,仍然是一道几乎无解的难题。 四、平均8小时续航+38g重量,AI眼镜真能“全天候”了吗? 谈及消费电子产品,价格是影响消费者决策的重要因素之一。但在AI眼镜品类,相比价格,续航和佩戴体验也同样重要。 很多厂商都在发布会上提到一个观点,AI眼镜,首先必须要做好一个“眼镜”的属性,也就是要真正能够让我们无感的全天候佩戴,这就需要长续航和轻量化。 ▲2025 AI眼镜新品续航和重量情况,来源:智东西 在梳理过程中,我们发现各家对于产品续航的描述有几个共性,首先非常强调配合充电仓、充电盒或备用电池可以实现“超长续航”;其次在描述日常续航时,几乎都没有明确提及是否涉及AI功能的使用。 回到具体数字,25款产品的日常续航,通常在8小时左右,带显示功能的产品与不带显示的产品在续航上并没有明显差距。 有些品牌会特意标明视频拍摄的续航时长,比如闪极Loomos AI眼镜的2小时视频拍摄、致敬未知BleeqUp Ranger AI智能眼镜的1小时持续录制、雷鸟V3 Slim的30分钟视频拍摄、小米的45分钟持续录像。 视频拍摄毫无疑问是AI眼镜的耗电大户。 虽然大部分AI眼镜产品配合充电盒的续航都可以达到24小时以上,可以实现“全天候”,但中间如果还需要摘下来充电,用户体验必然会大打折扣,尤其是对重度近视用户来说。 在重量方面,有公开重量数据的19款产品(去掉一款79g特殊值)的平均重量为38g,普通眼镜的重量以20g左右居多。 虽然AI眼镜瘦身明显,但相比普通眼镜仍然有着1倍左右的重量增加。 有少部分纯AI音频眼镜可以做到30g以内,比如李未可的City系列和华为、小米的AI音频眼镜,这需要建立在牺牲拍摄和显示功能的基础上。 整体来看,轻量化、长续航是各路玩家优化迭代的两个重要方向,也是AI眼镜当下发展的主要趋势,但从实际落地产品的表现来看,优化空间仍然存在。 五、2025年了,AI眼镜还是“AI弱智眼镜”吗? AI体验是AI眼镜的核心,也是目前提升空间最大的一块。 XREAL CEO徐驰曾在采访中提到,他认为当下的AI眼镜都是“AI弱智眼镜”。 AI方面,AI视觉多模态能力的融入是今年AI眼镜新品突出的常见主打功能之一。 AI可以通过眼镜上的摄像头看到我们所看,可以告诉你眼前的事物是什么、可以帮你翻译眼前看到的文字,还可以根据眼前的食材为你规划菜谱,教你怎么泡咖啡。 总体来看,各家在AI功能方面的同质化同样比较明显,这与AI手机的发展极为类似。或许初期各家都会有各自的尝试,但在一段时间后,基本的主流AI功能都会固定下来,比如AI识物、AI翻译、AI语音交互、AI问答等。 并且目前行业中几乎没有专门为AI眼镜的硬件、软件以及场景而设计的专用模型,如果直接把通用模型“拿来即用”,通过云端算力实现AI功能,其体验的流畅性、稳定性、安全性都很难有充足保证。 在这样的背景下,部分厂商选择与大模型厂商去做定制,优化模型在眼镜端侧的表现,进而实现一定的体验优势。 有一个值得思考的问题,就是AI眼镜与AI手机的关系,AI眼镜上可以实现的所有AI功能,AI手机几乎都可以实现,并且手机有更高素质的摄像头、更清晰宽阔的实体可交互大屏,以及更长的续航。 我为什么需要一款AI眼镜,AI眼镜有什么“非他不行”的体验?这是所有AI眼镜玩家都需要回答的一个根本问题。 目前来看,“解放双手”确实是一大优势,在一些场合的确可以提供极大便利。 ▲停车扫码支付离场,来源:雷鸟 但与此同时,目前绝大部分AI眼镜都不支持手势交互,需要通过语音和触控来操作,语音这种交互方式在公共场合或一些不便说话的场景同样存在“不方便”的情况。 虽然解放了双手,但又多了一张嘴。 并且AI眼镜通过语音操控、AI识别完成任务,是否真的会比用手机通过手点一下、滑一下来完成更加高效,仍然要画个问号。 AI眼镜从“能做到”到“能做好”,做的高效、省心、放心,仍然任重而道远。 结语:AI眼镜混战,火爆之下仍需冷静看待 深入2025年230多天里的25款AI眼镜新品,相比火爆销量带来的直观冲击,这些产品带给我们更多的是对行业的思考。 AI眼镜赛道发展仍处于早期阶段,AI眼镜领域新玩家和新产品如雨后春笋般涌现,产品的迭代逐渐从供应链方案整合迈向产业联合研发、定制化和关键技术自研,但从落地产品体验层面来看,各家产品的差异化并不明显,同质化趋势仍然突出。 苹果Vision Pro虽然销量遇冷,但苹果通过自研双芯片+自研操作系统+深度定制屏幕仍然实现了超越此前所有同类产品的颠覆性体验,给行业立了个新的标杆。 而AI眼镜领域的“苹果、特斯拉”,仍然没有出现。 AI眼镜或许有着成为下一代计算平台的潜力,但对这一领域的玩家们来说,脚踏实地解决体验痛点,攻克硬件、软件层面的技术挑战,完善内容生态,都是他们必须要面对的挑战。
逆天续航:53小时通话28小时外卖跑单,跌落6.2万次无损,vivo Y500 1399元起
作者 | 云鹏 智东西9月1日报道,刚刚,vivo正式发布了Y500系列新机,其搭载了8200mAh蓝海电池,支持IP68/69/69+防尘防水,耐用性可以说是拉满了。 价格方面,8GB+128GB版本售价1399元,顶配12GB+512GB版本售价1999元。 基于大电池,Y500满电可分别支持21小时连续导航、53小时连续通话或28小时以上外卖骑手户外跑单,90W闪充64分钟可从0%充至100%。 vivo Y500实测在-20℃的环境下,能持续播放视频16.7小时或连续导航11小时,在40℃环境下,可连续导航17小时。 此外,vivo Y500采用创新电池材料,搭配自研电池健康算法,据称可实现“6年使用,依然耐用”。 在防水能力上,vivo Y500通过了1.5米的水深中持续浸泡24个小时测试,此外通过了6分钟喷水口压强相当于100倍大气压的80℃高温喷水测试。 抗摔方面,vivo自研了金刚磐石架构,产品通过了SGS金标五星抗跌耐摔等两项认证。实测中,vivo Y500从7cm高度6.2万次屏幕跌落后,手机无损且功能正常使用,拆机后无内部损伤,同时还通过了2000次手机屏幕中心按压,以及1.7m高度六个面四个角分别跌落至花岗岩地面等测试。 通信是vivo Y500的另一个升级重点,其采用了360°穿墙天线布局,将20根天线布满中框,使整体信号接收最高提升255%。通过AI网络智选功能,vivo Y500可在电梯、地库等弱网场景下切换至更好的网络信号,通过了国家无线电监测中心信号能力的五星级认证。 此外,vivo Y500推出了职业模式,该模式通过三向定位增强、网络加速、免提通话增强等功能,帮助特定人群提升工作效率;天玑7300处理器则可以提供一定的游戏体验保障。
19 亿美元的 91 助手死了,但手机助手已经秽土转生
再见了, 手机助手 看到「91 助手下月全面停服」 这个话题,复杂心情油然而生。 就像阔别十年的老友传来最新消息,结果却是 ta 的死讯…… 不只 91 助手,还有同步推、iTools、豌豆荚、海马助手、PP助手……等等一系列在我脑海中死去已久的名字,忽然组团袭击了我。 也只有体量大如 91 助手的轰然倒地,才能让我们意识到:十年过去,曾经风靡一时的「手机助手」,已经基本销声匿迹。 倒地之前,它值 19 亿美元 十几年前,我还在用 iPad 2 的时候,偶然在当时的纸质杂志上看到对 iTools 创始团队的专访。 那还是我第一次知道,除了难用到反人类的 iTunes,还有这种第三方的苹果设备管理工具,不仅界面简洁明了,安装运行飞快,还有不少 iTunes 之外的神奇功能。 比如,这些助手可以绕过 App Store 本地安装应用,也就是我们现在熟悉的「侧载」:比如原本要付费的应用,甚至是无法上架 App Store 的神秘应用。 当时的我,简直像是打开了一扇新世界的大门。 侧载 ipa 很好用的同步推 当时很流行的进阶玩法「越狱」,自然是这些手机助手的拿手功能。不再需要电脑终端复杂操作,越狱工具简直「点击就送」。整个流程几乎完全自动化,无比轻松。 Cydia 也是时代的眼泪了 至于 Android 阵营,像小米就有推出过「小米手机助手」这样的官方 PC 应用来管理手机。 但知名度和使用率更高的,则是豌豆荚、应用宝这样的第三方平台,不仅有 Root/解锁等专业玩法,对于广大 Android 用户而言,更提供了一个应用资源更丰富和全的「App Store」。 在最古早的时期,除了小米等少数厂商,大部分国产 Android 手机品牌都还未上线官方应用商店。有些 Android ROM,干脆直接预装豌豆荚或应用宝。 后来,我又发现比 iTools 功能更丰富的「同步推」,也尝试过海马助手、PP 助手等等。 不少热门应用还会在 Android 渠道会选择在这些平台上独家首发,包括不仅限于红极一时的韩寒《One · 一个》选择了豌豆荚,国民度极高的《植物大战僵尸 2》国行则交给了 91 助手。 移动应用市场欣欣向荣,应用商城和手机助手一度形成「百团大战」的局面。 2013 年是手机助手的一个关键节点:百度收购了 91 无线业务,总价高达 19 亿美元,在当时创下了中国互联网并购案的历史。 比起腾讯的微信和阿里的淘宝,当时的百度在移动互联网上的地位不如桌面互联网显著。所以它慢确实需要一个现成的平台和入口,快速乘上移动互联网的巨轮。 这次收购表面看起来是强强联手,但后来的故事我们都知道了,百度再一次选错了赛道,手机助手真的不是未来。 即使不站在今天,从当时的视角来看,手机助手虽然百花齐放,但实用工具出身的属性,很难解决变现的问题。 对于 iOS 用户,手机助手就是一个用来下载破解应用的东西,让用户付费属于倒反天罡,因此收入主要靠广告(以及部分「灰产」玩法),牺牲了用户体验。 Android 上的手机助手虽然充当了应用商店的角色,但它需要更丰富的应用资源来形成竞争力,供求关系反而是开发者占主导,加上 Android 开放的生态,很难实现 App Store 那种付费抽成的形式。 你想玩抽成?用户直接就是一个卸载,然后安装了你的竞争对手。 再见了,所有的手机助手 那篇关于 iTools 的访谈之中,创始团队说了一句话,具体已经无从考证,但大意我还记得: 未来会有越来越多人用 iPhone,而他们都会需要一个 iTools 来管理手机。 这句话前半段没有问题,智能手机成为了比电脑还要普及的计算终端,几乎人手一台,而 iPhone 也成了这一品类的定义者。 而在智能手机技术和生态都尚未完善的初期,我们确实更倾向于将它视作一种「补充」的智能终端,核心依旧是电脑,用来备份手机的照片和数据,给手机下载音乐和电影资源。 在一段时间内,电脑是「高质量使用手机」的必备品——但是,这段时间并没有持续多久。 图源:YouTube@T3 既然手机已经比电脑还普及了,就不再需要电脑来对它进行管理了。 手机的超强便携性,决定了它就应该是一个更独立、全能的形态,很快云服务和流媒体应运而生。照片数据备份直接扔上云,听歌煲剧一点就行,比用电脑强多了。 甚至连以前 iTunes 无可替代的刷机恢复功能,苹果都在改变。iCloud 推出后加入了云端备份功能;iPhone 16 更是配备了「无线恢复系统」,一台 iPhone 能帮另一台进行恢复,进一步「去电脑化」。 图源:9to5Mac 在桌面互联网时代,我们已经习惯了盗版和破解带来的免费体验。因此面对大量应用需要收费的 iPhone,人们才会选择「邪修」的方式侧载破解应用,手机助手和越狱因此受到热捧。 但随着版权意识在国内逐渐普及,加上 App Store 付费门槛的进一步降低,用户认知已经完全转变了:现在的我们,欣然为优质 App 付费——甚至你因为一个 app 太贵而去电商低价买账号共享,也仍然是一种付费行为…… 当付费的认知和习惯养成,移动支付变得无比便捷,我们自然也就不用再跟盗版应用,以及安装盗版应用的手机助手打交道了。 而在 Android 阵营,各厂商经过了硬件野蛮生长那几年,也逐渐意识到软件体验的重要性,以及应用分发抽成这块让苹果赚得盆满钵满的肥肉。 国内各家 UI 自带的应用商店已经足够好用,自然也不再有豌豆荚和应用宝的余地。 图源:36kr 近几年,不管是出于商业还是安全原因,Google 逐渐提高了 Android 侧载应用的难度,甚至在上周还宣布,将从明年开始,限制未经验证的应用包安装。 而不管是 iPhone 的越狱,还是 Android 的 root,不仅这几年因为厂商的原因难度越来越高,用户也逐渐意识到,手机是用来用的,没必要天天折腾。手机助手终于成了时代的眼泪。 不过,手机助手也并未因此全部消失,及时改舵和跳船的玩家还是找到了一线生机。 大浪过去,爱思助手成为了当年那一批手机助手里,唯一活着且有存在感的玩家。 这可能主要是因为它的「验机报告」功能:打开转转或者闲鱼,想在上面买卖二手 iPhone,基本离不开爱思的验机报告,因为它能以一种非常直观的方式,呈现一台手机的基本健康情况,有没有换过配件一目了然。 一些买全新机的用户,也会打开爱思验机报告,看看自己的手机配件来自哪个供应商,追求最满分的体验。 也就是说,将验机报告作为主打功能的爱思,本质上从一个 To C 产品,变成了主要面向二手机商贩的 To B 工具。他们不仅需要用到验机报告,也能经常用上爱思提供的工具来快速管理商品。 而这个市场本身就已经收缩到很小,爱思有验机报告的民间公信力,其他手机助手基本没有其他机会。 即便如此,爱思的处境也并不好过,这么多年过去,还是没能解决变现的问题。除了广告,爱思也通过商家授权费和配件商城的方式继续增收。 并且,爱思最引以为傲的验机报告功能,苹果也已经在把它做到 iPhone 当中了,未来处境只会更不好过。 另一家成功转型的手机助手,则是原本主打应用市场的酷安,在手机助手式微的 2016-2018 年,开始全面转型数码社区,现在成了「小绿书」。 其它手机助手,大部分都是小公司和工作室的产品,难以承担转型的风险,也找不到一条更适合的新赛道,因此大多早已悄无声息地停更停服。 至于 91 助手,百度也尝试过将它和百度游戏整合,奈何后者自己也没做起来,因此 5 年前 91 助手已经下架——直到今年终于埋了。 当然还有一些手机助手还「存活」,比如海外的 AltStore,但更多回归了工具本身,用来侧载一些苹果不允许商家的 App Store 应用。 最后,说个有趣的小花边: 虽然手机助手死了,但另一种「助手」正在兴起。 和当年还不能独立行走的 iPhone 一样,被寄予厚望成为下一代计算终端的头显,现在还离不开这手机作为「助手」。 当年我们在电脑上装手机助手来辅助 iPhone,现在我们在 iPhone 上装「头显助手」来配合头显。 历史是相似的,或许当头显不再需要「头显助手」的那一刻,它就真的和手机一样,成为了一个独立的计算终端,手机也该让出智能交互的主角地位了。 文|苏伟鸿
苹果最新模型,5年前的iPhone能跑
编译 | 程茜 编辑 | 云鹏 智东西9月1日消息,苹果又公布了大模型研发新进展! 8月28日,苹果在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练机制,同天在GitHub、Hugging Face上开源了模型的预训练权重和数据生成代码。 MobileCLIP2专为零样本分类和检索任务设计,推理延迟在3-15毫秒之间,参数规模在50~1.5亿不等。 此前基于Transformer的大型编码器存在较大内存和延迟开销,为在移动设备上部署带来的挑战,基于此,苹果2023年11月发布端侧多模态大模型MobileCLIP,通过多模态强化训练方法改进模型在端侧的部署效果,MobileCLIP2是其改进多模态强化训练方法后的升级版模型。 论文中提到,与上一代模型相比,MobileCLIP2-B在图像分类基准数据集ImageNet-1k上的零样本准确率提高了2.2%。其模型变体MobileCLIP2-S4在iPhone 12 Pro Max上测得的零样本准确率可对标参数规模更大的SigLIP-SO400M/14。 此次其改进的多模特训练训练机制采用了改进的教师监督(Teacher Supervision)与字幕数据(Caption Data)来提升零样本性能。 与此同时,在移动端,该训练机制支持多模态模型直接在移动、边缘设备上部署,实现零样本检索/分类,具有极低的延迟和内存占用。 目前,MobileCLIP2所有模型变体的预训练权重均已公开,开发者可以直接部署和进行基准测试。苹果还发布了数据生成代码,开发者可以基于此使用分布式可扩展处理创建具有任意教师的新强化数据集。 一、iPhone 12 Pro Max可跑,强调可复现性、可扩展性 MobileCLIP2的核心优势在于实现了相比现有模型参数规模更小、延迟更低,且不牺牲泛化能力、准确性的性能。 在零样本性能方面,MobileCLIP2-S4在iPhone 12 Pro Max上测得的准确率与SigLIP-SO400M/14相当,但参数量为后者的1/2;在延迟方面,MobileCLIPS2-S4的表现优于DFN ViT-L/14,延迟约为后者的约40%。 零样本指标提升可以使模型在未经过特定任务、类别或场景的训练时,无需额外标注数据微调,就能直接将预训练学到的通用知识迁移到未知任务中。 ▲图像分类基准数据集ImageNet-1k上的基准测试结果 MobileCLIP2系列模型在不同延迟条件下,38个数据集上平均性能均为最佳。 从下面的测评中看到,MobileCLIP2-S2与SigLIP2-B/32的参数规模差距达到4倍,但性能相当,MobileCLIP2-S4与DFN ViT-L/14相比,推理速度提高2.5倍。 此外,这一多模态训练机制强调可复现性、可扩展性。目前,MobileCLIPS2的所有模型变体的预训练权重均已公开,支持开发者直接部署和进行基准测试。 其强化训练的数据生成代码支持任意教师集成和分布式可扩展处理,便于开发者为进一步研究和快速原型设计定制数据集强化。 在移动端,该训练机制支持直接在移动、边缘设备上部署,实现零样本检索、分类,具有极低的延迟和内存占用;通过开放数据管道和模块化的教师、标题生成器集成,可扩展到新的模态或数据域。 二、整合教师监督模型与字幕数据,提升多模态模型语义覆盖范围 MobileCLIP2的多模态强化训练机制能够将来自多个来源的知识高效地蒸馏到较小的模型中,并基于基础图像-文本对进行操作。 该训练机制整合了教师监督(Teacher Supervision)与字幕数据(Caption Data),旨在训练强鲁棒和高迁移性,同时最大限度降低训练或推理过程中的计算开销。字幕数据指的是与图像、视频等视觉内容关联的文本描述信息。 其核心是通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督模型,为多模态模型训练增加合成字幕,也就是图像、视频等数据的文本描述信息。 具体来看,首先更强的CLIP教师模型指的是,MobileCLIP2通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督,DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-s39b的组合构成了教师集成的骨干。 其背后技术细节包括,对每个教师模型独立进行对数尺度(Logits Scale)的精细调整;集成蒸馏在ImageNet-1k验证集上比单教师变体提高了高达2.8%,这证明教师信号聚合对于将强性能压缩到紧凑的学生模型中至关重要;这一精度提升使MobileCLIP2能够以更少的参数数量和延迟,实现与更大参数规模的模型性能相当或超越。 其次,字幕生成教师模型(Captioner Teachers)通过两阶段协议进行升级优化。 第一阶段研究人员在大型DFN-2B数据集上对CoCa风格的描述器进行初始再训练,以提升对图像内容的表达能力。 第二阶段是在高质量标题数据集MSCOCO-123k、MSCOCO-38k上进行后续微调,生成具有增强语义质量和多样性的合成标题。 此外,苹果研究人员的消融研究表明,在精选标题上进行微调可显著提升零样本分类和检索效果。其分析了标题生成的束搜索和采样策略,发现为每张图像生成超过1-2个标题的边际效益不明显,表明策略性多样性优于数量。 这些用于蒸馏训练的合成文本描述,提升了模型的语义覆盖范围,使得MobileCLIP2-B比MobileCLIP-B在ImageNet-1k零样本任务的准确率上提高了2.2%。 结语:苹果改进端侧多模态模型训练机制,降低开发者部署门槛 在苹果发布的论文中提到,MobileCLIP2在多模态模型训练机制上的改进,与参数高效微调、实时设备端推理以及从大型多模态教师库中进行可扩展蒸馏等正在进行的大模型发展趋势高度兼容。 同时,苹果将所有模型变体的预训练权重、数据生成代码开源,也可以帮助开发者加速实验、应用于新任务以及适应不同计算环境。
全新坦克500发布:中式豪华+全场景越野,33.5万元起
凤凰网科技讯 8月28日,长城汽车昨日将一场特殊的上市发布会搬进了世界文化遗产都江堰畔,全新坦克500在此正式揭开面纱。全新坦克500定位全场景智能豪华越野SUV,推出Hi4-Z、Hi4-T及3.0T V6燃油三种动力版本,其中Hi4-Z智享版37.5万元,Hi4-T智享版35.5万元,Hi4-T基础版33.5万元,3.0T造境版35.5万元,相比预售价格更具吸引力。 作为首次在都江堰举办的汽车发布会,此次活动的核心亮点在于长城汽车将Hi4智能四驱电混技术与千年治水工程的智慧相联结。据介绍,全新坦克500搭载的Hi4-Z技术通过“功率分流行星轮+三档 DHT+双电机四驱”的组合,构建出类似都江堰“鱼嘴分水、宝瓶口控流、飞沙堰泄洪”的能量管理体系。其中功率分流行星轮如同“智能鱼嘴”分配动力,三档DHT精准控制输出“流量”,双电机则稳定能量“水流”,实现动力输出与电能回收的高效协同。这种技术理念的创新表达,让复杂的机械原理变得直观易懂。 在产品配置上,全新坦克500展现出“越野+智能+豪华”的多维优势。内饰采用经78 道工艺处理的Nappa真皮座椅,前后排均支持通风、加热与按摩功能;50W独立压缩机的冷暖车载冰箱可实现- 6℃至 50℃温控,配合17.3英寸3K后排娱乐屏构成舒适座舱体验。智能驾驶方面,搭载的Coffee Pilot Ultra第三代系统通过激光雷达与多传感器融合方案,实现全场景无图NOA功能,覆盖从车位到车位的全程智能导航辅助。 长城汽车董事长魏建军表示,将以都江堰的长期主义为榜样,持续打造守护用户利益的可靠技术,让Hi4成为中国汽车技术的“都江堰”。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。