行业分类:
加载中...
头条分类:
加载中...
在线音乐三国杀,新旧势力的攻守战
继汽水音乐后,字节将免费模式复制到了在线音乐赛道。腾讯音乐、网易云音乐面临着新势力的挑战,而未来的在线音乐市场格局,并不是非此即彼的。 原创ⓒ财经新知 大文娱组 作者丨江蓠 编辑丨樱木 主编丨九黎 继番茄小说、红果短剧创造免费跑赢付费的神话后,字节正试图在在线音乐赛道上复制这一模式。 近期,字节跳动正式将原来的" 番茄畅听音乐版 "APP升级为“番茄音乐”APP,该款APP延续了一贯的番茄系风格,不仅听歌完全免费,还可以听歌赚金币,以此实现用户激励。这款APP与汽水音乐形成的差异化优势,使字节在在线音乐市场上拥有了更大的竞争力。 近年来,汽水音乐依靠抖音的短视频流量反哺,呈现出强劲的增长态势,番茄畅听音乐版则承接了更多下沉流量,随着番茄畅听音乐版的升级,字节的在线音乐生态无疑更加完整。而字节在在线音乐上的布局,也已经对腾讯音乐、网易云音乐这两大老牌音乐流媒体巨头产生了一定的冲击。 QuestMobile公布的2025年9月移动音乐APP月活用户规模TOP10榜单显示,虽然腾讯音乐、网易云音乐的月活用户仍旧居前,但增速表现却并不算理想:腾讯音乐旗下的酷狗音乐、QQ音乐月活分别下降8.1%、2.8%,酷我音乐更是月活下降8%,排名退至汽水音乐后面。网易云音乐的月活用户倒是没有出现下降,但只实现了1.5%的微增。与之形成鲜明对比的,是汽水音乐高达90%的月活用户增速。而番茄畅听音乐版尽管排名较为靠后,但增速高达92.4%。 图/QuestMobile公布的2025年9月移动音乐APP月活用户规模TOP10榜单 一降一增之间,国内在线音乐市场的新旧势力之争更显清晰。 这一差异化从腾讯音乐、网易云音乐近期披露的三季报中也可以看出。尽管三季度营利双增,但自2023年以来,腾讯音乐月活用户已经连续多个季度同比出现下降。网易云音乐最新披露的三季报显示,三季度公司净收入同比减少1.8%。三季报后公司股价的大跌,也反映出市场对这两家公司长期增长价值的担忧。 从网文到短剧,再到在线音乐,免费与付费之间的较量从未停止。字节的强势入局,正迫使腾讯音乐与网易云音乐进入新的攻防战。未来格局是攻守易形还是多方制衡?一切还未到终局。 01 字节加码在线音乐 面对资源底蕴深厚的老牌巨头,汽水音乐与番茄音乐这两个“新秀”,凭什么能实现月活用户的异军突起? 最主要的原因显而易见:它们并非传统意义上的独立APP,而是抖音生态中的一环。而其之所以实现月活用户的快速增长,也是由于背靠着抖音这座“流量富矿”。 作为国内领先的短视频平台,抖音拥有接近9.4亿的庞大盘月活用户,是毋庸置疑的顶级流量入口。QuestMobile发布的短视频月活TOP10榜单显示,抖音主APP以93641万的月活用户稳居榜首,过去一年同比增长14.7%。 更为关键的是,音乐与短视频内容在抖音内部已形成天然的共生关系。据抖音官方数据披露,抖音投稿用户使用歌曲的占比达到了78%。这种深度的融合,重塑了用户的音乐消费习惯:越来越多人在抖音发现并喜欢上一首歌后,会直接跳转至汽水音乐进行完整收听。收藏音乐的同步功能,也进一步优化了用户体验,使用户在抖音到汽水音乐的切换过程中,实现了“连搜都不用搜”的无缝衔接。 图/抖音截图,点击视频配乐可以直接去汽水音乐听完整版 此外,抖音具备强大的音乐“造星”与“造歌”能力。这让在传统版权方面并不占优势的汽水音乐,得以快速崛起。据悉,汽水音乐TOP1000的热歌中,86%生长于抖音,54%从抖音冷启动爆火。 正是“算法推荐+短视频场景”的平台策略,让汽水音乐自面世之初便一路高歌猛进,奠定了流量基本盘。 而在已有汽水音乐的情况下,字节为何还要加码番茄音乐?这背后,一方面是精准的差异化定位策略。汽水音乐主打相对年轻高级感的社区氛围,尽管有各种优惠,但每月8元的会员费,还是显露出明确的商业化意图。而番茄音乐则瞄准下沉市场的中老年群体,以经典老歌、广场舞曲为核心内容,完全免费,其路径与番茄小说等产品一脉相承,旨在通过广告等模式实现流量变现。 图/番茄音乐App Store截图 事实上,番茄小说、红果短剧早已为番茄音乐的模式成功打了样。据悉,番茄免费小说在月活跃用户方面持续领跑数字阅读方赛道,红果短剧则凭借高速增长,在在线视频赛道,月活已经超过了优酷和B站。在收入方面,据晚点早年的报道,番茄小说的年营收在2022年就已经超过了100亿元。正是番茄小说和红果短剧的成功,印证了基于抖音生态、以免费模式切入特定内容赛道的可行性,为番茄音乐采用类似模式服务特定用户群体,并实现商业闭环提供了有力的前景佐证。 字节系APP,始终在扮演“流量商人”的角色,跳出原有app内容为主的基调,更多的聚焦于用户的注意力生意。同时,生态流量的贩卖,也让其区别于其他APP,构建起独特的生态壁垒。 正是依托这些差异化优势及被验证的商业模式,字节系音乐在腾讯音乐、网易云音乐的围剿下,走出了属于自己的道路。 02 腾讯、网易云另寻增长 在字节系音乐的攻势下,腾讯音乐、网易云音乐也面临着月活用户下滑的挑战。 其中,腾讯音乐独家版权优势的丧失,叠加免费在线音乐APP的分流,其长期依赖的用户基本盘正受到明显冲击。数据显示,三季度腾讯音乐的在线音乐移动端月活跃用户(MAU)已降至5.51亿,同比下滑4.3%,延续了上一季度的跌势。 网易云音乐长期处于行业第二位置,面临的压力较腾讯音乐显然更大。在此背景下,主流音乐平台们一边采取迂回的低价策略应对免费音乐模式的冲击,一边寻找新的增长方向。 为应对免费模式的冲击,腾讯音乐推出面向学生与轻度用户的“波点音乐”会员费更低;网易云音乐近期开放测试黑胶家庭会员,人均月费低至 4.5 元/月。此外,今年以来,网易云音乐还推出了小灯泡送会员、黑胶邀请官、听书领黑胶、5 元 / 月学生黑胶 VIP等多项福利活动。 对于腾讯音乐来说,尽管通过对付费会员体系的深度运营,公司的收入情况在月活用户下降的背景下实现了逆势增长,不过,流量下滑的弊端也正逐渐显现出来:其付费用户数的增速正在放缓。 基于此,腾讯音乐也开始发展非订阅业务,走出自己的差异化路线。其中,线下演出成为一大亮点。三季度,腾讯音乐为G-DRAGON权志龙在悉尼、墨尔本等六城举办了14场演出,场场售罄,吸引观众超15万。薛之谦、张韶涵、GAI等艺人的多场巡演也进一步丰富了其演出内容矩阵。 图/微博截图 此外,平台持续引入如胡夏、NexT1DE等“bubble”厂牌艺人,拓展音乐人生态与用户触达范围。三季度,非订阅业务收入同比增长超过50%,达到24.7亿元,成为继会员收入之外的重要增长极。 网易云音乐则在2024年进行了大改版,删减了广告等打扰用户听歌的不实用功能,意在回归音乐初心。 此外,腾讯音乐和网易云音乐也顺应AI大潮,使用AI技术来改善用户听歌体验。如网易云音乐近期推出大模型音效“AI调音大师”、“智能过渡AutoMix”功能;腾讯音乐通过天琴实验室自研语音合成大模型“琴语大模型”等。 面对汽水音乐和番茄音乐,两家老牌音乐平台正在积极调整策略,寻求新的增长路径,而不同的基因,也决定了其与字节系不同的方向选择。 03 竞争不是“非此即彼” 尽管汽水音乐和番茄音乐,在短视频风行的时代背景下,能够迅速崛起,但其与老牌音乐平台的竞争,本质上并非一场简单的零和游戏。在线音乐新旧势力交锋的背后,是市场在需求分层与场景细化下的必然裂变,也标志着行业正从“大一统”的通用模式,走向“精耕细作”的细分时代。 流量还是内容,似乎成了双方竞争的焦点。 一方面,字节系音乐和腾讯音乐、网易云音乐的用户圈层,存在一定的差异性。近期,里昂发布研报称,由于各平台战略定位及产品差异化,与字节跳动旗下Soda Music直接爆发正面竞争的风险较低。申万宏源的研报也认为,汽水音乐近2年增长快,但自身平台调性(流量模式、商业效率最大化)和在线音乐商业逻辑(创作、版权、平台和用户的生态闭环)匹配难度高。 QuestMobile的数据则进一步验证了这个观点:汽水音乐与QQ音乐、网易云音乐的用户交叉重叠仅为2%–3%,这意味着,汽水音乐的增长并非主要来自对传统平台用户的抢夺,而是更多依托抖音生态的内部引流。数据显示,其超80%的流量均来自抖音。 因此,虽然字节系音乐,和腾讯音乐、网易云音乐的月活呈现一增一降,但从一定程度上来说,字节系音乐是做大了整个在线音乐市场的蛋糕。 另一方面,虽然没有了独家版权的壁垒,但腾讯音乐完整的版权库、背靠微信生态仍旧有着巨大的优势;网易云音乐则凭借其浓厚的社区氛围、高度活跃且富有创意的用户歌单,以及对独立音乐人的长期深耕,形成了难以复制的平台特色。汽水音乐虽然在歌曲界面也引入了热评功能,试图营造社区氛围,但其产品基因与运营逻辑,与网易云存在差异。 图/AI生成 可以预见的是,这场在线音乐的“三国杀”,最终可能不会出现绝对的赢家通吃,而是将形成一种动态平衡的格局。正如当年视频行业从版权大战走向多元竞争一样,在线音乐市场也有望在免费与付费模式的长期共存中,找到各自的生存空间,共同推动行业走向更成熟的发展阶段。 资料来源: 吴怼怼,《汽水音乐凶猛,音乐流媒体重新“三国杀》 海豚投研,《字节发力,腾讯音乐还能“小而美”吗?》 华尔街见闻,《面对字节“汽水音乐”的竞争,腾讯音乐增长要靠“高级会员+线下演唱会”》
智元机器人推出灵心平台:用户可零代码定制机器人“灵魂”与人设
凤凰网科技讯 11月24日,智元机器人今日正式推出名为“灵心平台(LinkSoul)”的智能系统。该平台被官方定位为“机器人灵魂定制工厂”,旨在打破传统机器人交互千篇一律的僵局。通过灵心平台,用户无需具备代码基础,即可利用模块化、可视化的操作界面,对机器人的声音、性格、行为与记忆进行深度配置,实现从角色定义到行为编排的全流程“人格化”编辑。 据介绍,灵心平台核心提供了五个维度的定制能力。在声音交互层面,平台除内置30至40款不同风格的音色库外,重点推出了“音色复刻”功能,用户仅需上传录音片段,即可让机器人获得相似的声音模型。在行为与人设编排上,系统支持用户像编辑视频素材一样自由组合机器人的表情、动作与对话语音。平台具备“一句话生成完整角色”的能力,用户可通过输入特定指令(如动漫IP或历史人物)快速构建机器人人设,也可通过关键词自定义其性格标签。 此外,该平台显著增强了机器人的记忆深度与任务执行能力。机器人不仅能记住用户的身份偏好及过往互动内容,企业用户还能通过上传专业资料,让机器人在客服、导览等特定场景中持续学习进化。在基础对话功能之外,用户能进一步为机器人配置如物品递送、活动主持等具体的任务流程。智元机器人方面表示,灵心平台的推出意在推动机器人从标准化的执行工具向具备个性化特征的智能体转变,让普通用户也能像使用“应用商店”一样设计机器人的交互方式,加速实现“千人千机”的差异化智能生活场景。
Nano Banana,OpenAI你学不会
奥特曼向OpenAI的全体员工发了一封内部信,他坦言道,虽然OpenAI仍处于领先地位,但是谷歌正在缩短差距。并奥特曼也承认,正是由于谷歌最近一系列的产品发布,为OpenAI带来了不小的压力。 事实也正如奥特曼所言,谷歌这次带来的,除了赢得满堂彩的Gemini 3 Pro,还有让整个AIGC圈震撼的Nano Banana Pro。在此之前,所有生图模型的底层逻辑都是临摹世界。通过海量的数据库,寻找最接近描述的图,将其拼凑给你。 而Nano Banana Pro的出现,则彻底打破了这个规则。它并不是在“画图”,而是在“模拟物理世界”。其最大的突破在于,引入了思维链(Chain of Thought)推理机制,先让模型进行思考,再去画图。 在落下第一个像素之前,模型会先在潜空间内进行逻辑推演,计算物体的数量、确定光影的投射角度、规划空间嵌套关系。它不再依赖文本作为中转站,推理结果直接以高维向量的形式指导像素生成。 那么问题来了,为什么OpenAI开发不出Nano Banana Pro? 01 在回答问题之前,不妨先看看Nano Banana Pro,它和OpenAI现在生图主要使用的GPT-4o到底有何区别。 以“三个苹果”的生成任务为例,提示词为:“左侧苹果带有咬痕,中间苹果附着水珠,右侧苹果呈现腐烂状态”。面对这一指令,GPT-4o通常会迅速生成一张色彩明艳、构图完美的图像。 但在细节核验时往往暴露出概率生成的缺陷,中间苹果上面的水珠其排布不符合客观规律,而右边苹果的腐烂看起来又过于刻意。 相比之下,Nano Banana Pro输出的图像不仅数量精确,且每个对象的属性都严格对应——左侧的缺口、中间的折射光感、右侧的氧化纹理,均被精准还原。 这种表象差异的背后,是两条截然不同的技术路径。 GPT-4o的生成机制本质上基于统计学相关性,它在海量训练数据中检索“苹果+咬痕”的视觉特征,并通过概率分布进行拼贴与融合。它并未真正理解“三个”的数量概念,也未构建“腐烂”的物理模型,仅是根据高维空间中的特征距离进行近似匹配。 而Nano Banana Pro引入了思维链(Chain-of-Thought, CoT)机制,将图像生成过程从单纯的“像素预测”升级为“逻辑推演”。在落下第一个像素前,模型内部已完成了一轮符号化的规划:首先确立实体对象(Object 1, 2, 3),随即分配空间坐标,最后绑定物理属性。 针对“咬痕”,它推演的是几何形态的改变;针对“水珠”,它计算的是光学反射与折射的物理规律;针对“腐烂”,它模拟的是材质属性的演变。这是一套从语义理解到逻辑规划,再到执行生成的全链路闭环。 这种机制在处理涉及物理规律的复杂场景时优势尤为凸显。 提示词“窗台上的半杯水,阳光从左侧射入”。 GPT-4o所生成的图片,仅0具备视觉合理性,但在物理上自相矛盾的光影关系。此时,窗台左侧应存在由玻璃杯反射出来的阳光,但是图片中仅存在右侧折射出来的光线。 而具Nano Banana Pro会先行计算光源向量,推导阴影投射方向以及液体介质的光线折射率。这种基于物理常识的推理,使得生成结果不再是视觉元素的堆砌,而是对物理世界的数字模拟。 更为深层的架构差异在于,OpenAI目前的体系存在显著的“文本信息瓶颈”(Text Information Bottleneck)。在ChatGPT中调用绘图功能时,用户的简短指令往往会被GPT改写为一段详尽的Prompt,再传递给图片生成模型。 这一过程看似丰富了细节,实则引入了噪声。文本作为一维的线性信息载体,在描述三维空间关系、拓扑结构及复杂的物体属性绑定时,存在天然的低带宽缺陷。改写过程极易导致原始意图中的关键约束被修饰性语言淹没,造成信息的有损传输。 此外,汉字对于图片生成大模型来说也是一个噩梦。GPT-4o在很长时间里,写字都是“乱码生成器”,甚至让它写“OpenAI”,它都能写成“OpanAl”或者一堆奇怪的符号。 我让GPT-4o以字母榜LOGO为参考,生成一个字母榜的招牌。 但Nano Banana Pro实现了对文字的精准控制。在同样的提示词下,Nano Banana Pro提取出了上方的字母榜,左右两侧的A和Z,以及最下方的弧线,并将这些元素置于不同的图层、不同的材质。 Nano Banana Pro则采用了原生多模态(Native Multimodal)架构,这是一种统一模型的解决方案。 用户的输入在模型内部直接映射为包含语义、空间及物理属性的高维向量,无需经过“文本-图像”的转译中介。这种端到端的映射关系,如同建筑师直接依据蓝图施工,而非依赖翻译人员的口述传达,从而根除了中间环节的信息熵增。 但这也造成了另外一个问题,提示词门槛被拉高了。我们回到一开始三个苹果的提示词上。 这是输入给GPT-4o的提示词,简单易懂,就是在描述画面构成。 而这是给Nano Banana Pro的提示词。看起来就像Python代码一样,通过函数和()来控制生成的图片。 在涉及计数、方位布局、多物体属性绑定(Attribute Binding)等精确控制任务上,Nano Banana Pro表现出色。它能清晰区分不同对象的属性归属,避免了扩散模型常见的“属性泄露”问题(如将红杯子的颜色错误渲染到蓝杯子上)。 当然,GPT-4o依然保有其独特的生态位。其优势在于推理速度与基于RLHF(人类反馈强化学习)调优后的审美直觉。 由于剥离了复杂的逻辑推理环节,其生成效率更高,且更能迎合大众对高饱和度、戏剧化光影的视觉偏好。对于追求视觉冲击力而非逻辑严谨性的通用场景,GPT-4o依然是高效的选择。 然而,当需求从“好看”转向“准确”,从“相关性”转向“因果性”,Nano Banana Pro所代表的“先思考、后执行”模式便构成了降维打击。它牺牲了部分的生成速度与讨好眼球的滤镜感,换取了对物理逻辑的忠实还原。 02 橘生淮南则为橘,生于淮北则为枳。Nano Banana Pro和GPT-4o之所以会有如此的差距,正是因为其开发者,谷歌和OpenAI在AI这条路上,选择两种完全不同的发展方向。 谷歌选择的是“原生多模态”这条路。 就是从模型训练的第一天起,文本、图像、视频、音频就混在一起,扔进同一个神经网络里让它学。在Gemini的眼里,一这些事物本质上没有区别,都是数据。它不需要先把图片翻译成文字,再去理解文字。 这就像一个人从小就会说中文、英文、法文,这三种语言在他脑子里是同时存在的,他不需要先把英文翻译成中文再思考。 而OpenAI走的是“模块化拼接”这条路。 它的逻辑是,让专业的人做专业的事。GPT-5负责理解语言和逻辑推理,GPT-4o负责生成图像,Whisper负责处理语音。 每个模块都做得很好,然后通过API把它们连起来。这就像一个团队,有文案、有设计师、有程序员,大家各司其职,通过开会和文档来协作。 这两种路线,没有绝对的对错,但会导致完全不同的结果。 谷歌最大的优势,来自于YouTube。这是全世界最大的视频库,里面有几十亿小时的视频内容。这些视频不是静态的图片,而是包含了时间序列、因果关系、物理变化的动态数据。Gemini从一开始就是“看这些视频长大的”。 换句话说,Gemini从诞生之初,就理解物理世界的基本运行逻辑。杯子掉在地上会摔碎,水倒进杯子里会形成液面。这些东西不是靠文字描述学来的,而是通过看真实世界的视频,自己总结出来的。 所以当你让Nano Banana Pro画“一个杯子从桌子上掉下来的瞬间”,它不会画出一个漂浮在空中、姿态僵硬的杯子。它会画出杯子在下落过程中的倾斜角度,杯子里的水溅起来的形态,甚至是杯子即将触地时周围空气的扰动感。因为它见过太多这样的场景,它知道真实世界是怎么运作的。 除了YouTube,谷歌还有另一个护城河:OCR。谷歌做了几十年的光学字符识别,从Books到Lens,谷歌积累了全球最大的“图片-文字”对齐数据库。这直接导致了Gemini在文字渲染上的碾压性优势。 它知道汉字在图片里应该长什么样,知道不同字体、不同大小、不同排列方式下,文字应该怎么呈现。这也是为什么Nano Banana Pro能精准识别汉字。 反观OpenAI,它的起家靠的是文本。从GPT-1到GPT-3再到GPT-5,它在语言模型上一路狂奔,确实做到了世界顶级。但视觉能力是后来才加上去的。 DALL-E早期是独立发展的,训练数据主要来自网络抓取的静态图片,来自Common Crawl这样的数据集。这些图片质量参差不齐,而且都是静态的,没有时间维度,没有物理过程,没有因果关系。 所以DALL-E学到的,更多是“这个东西大概长这样”,而不是“这个东西为什么长这样”或者“这个东西会怎么变化”。它可以画出一只很漂亮的猫,但它不理解猫的骨骼结构,不理解猫的肌肉如何运动,不理解猫在跳跃时身体会呈现什么姿态。它只是见过很多猫的照片,然后学会了“猫长这样”。 更关键的是训练方式的差异。 正是因为OpenAI走的是RLHF路线。所以他们雇了大量的人类标注员,给生成的图片打分:“这张好看吗?”“这张更符合要求吗?”标注员们在选择的时候,自然而然会倾向于那些色彩鲜艳、构图完美、皮肤光滑、光影戏剧化的图片。 这导致GPT-4o被训练成了一个“讨好型人格”的画家。它学会了怎么画出让人眼前一亮的图,学会了怎么用高对比度和饱和色来抓住眼球,学会了怎么把皮肤修得像瓷器一样光滑。但代价是,它牺牲了物理真实感。 GPT-4o生成的图片,有一种很典型的“DALL-E滤镜”。皮肤像涂了蜡,物体表面特别光滑,光影过度戏剧化,整体感觉就是“一眼假”。它不敢画出皮肤上的毛孔,不敢画出布料的褶皱,不敢画出不完美的光照。因为在训练过程中,那些带有瑕疵的、粗糙的、不那么“美”的图片,都被标注员打了低分。 而谷歌没有走这条路。Gemini的训练更注重“真实”而不是“美”。世界本就如此,它没有书本里描绘的那么美。 03 那么谷歌又是如何追上OpenAI,以至于让奥特曼发内部信来强调危机感的呢? 谷歌选择在“准确性”和“逻辑”上发力。谷歌将其称为“Grounding”,也就是“接地气”,也就是“真实性”。 为了实现这个目标,谷歌把思考过程,引入了图像生成过程。这个决策会大大增加计算成本,因为在生成图像的时候加入推理步骤,生成速度也就变慢了。但谷歌判断这个代价是值得的,因为它换来的是质的提升。 当你给Nano Banana Pro一个提示词,比如“画一个厨房,左边是冰箱,右边是灶台,中间的桌子上放着三个碗”,模型不会直接开始画。它会先启动思维链: 首先,识别场景类型:厨房。然后,识别对象:冰箱、灶台、桌子、碗。接着,确定空间关系:冰箱在左,灶台在右,桌子在中间。再确定数量:三个碗。然后推理物理逻辑:厨房里通常会有什么光源?桌子应该离冰箱和灶台多远才合理?三个碗应该怎么排列?最后,确定视角和构图:从什么角度看这个场景最合适? 这一整套思考完成后,模型会在内部生成一些“思考图像”,这些图像用户看不到的,但它们帮助模型理清了思路。最后,模型才开始生成真正的输出图像。 这个过程看起来复杂,但它解决了一个核心问题:让模型“理解”而不是“猜测”。 GPT-4o以及市面上绝大多数生成图片的模型,都是靠概率猜,“用户说厨房,那我就把我见过的厨房元素拼起来,大概就对了。” 而Nano Banana Pro则是真正去理解厨房这个概念:“用户说厨房,厨房是用来洗菜做饭的,所以这个厨房需要满足这些空间关系和物理逻辑,我要按照这个逻辑来构建。” 反观OpenAI,它目前的策略是把最强的推理能力集中在o1系列模型上,也就是之前代号为Strawberry的项目。o1在数学推理和代码生成上确实很强,它能解决一些人类数学家都觉得有挑战的问题,能写出复杂的算法代码。 至于图像生成,OpenAI的判断是:目前GPT-4o的“直觉式”生成已经足够好了,足够维持用户体验,足够在市场上保持领先,并不需要继续提升。 还有一个因素是产品理念的差异。OpenAI一直强调的是PMF,也就是Product-Market Fit,产品市场契合度。它的策略是“快速迭代,快速验证”。 DALL-E 3只要能通过提示词和GPT-4拼起来用,那就先发布,先占领市场。后台的架构可以慢慢改,用户看不见的地方可以慢慢优化。 这个市场策略被称为“胶水科技”,其最大的弊端在于积累的技术债太多了。当你一开始选择了模块化拼接的架构,后面想要改成原生多模态,就不是简单地加几行代码的问题了。这可能需要重新训练整个模型,需要重新设计数据管道,需要重新构建工具链。 谷歌慢工出细活,可他们也有自己的难处。 原生多模态模型的维护成本也更高。如果你想提升图像生成能力,就需要调整整个模型。这就是为什么,Nano Banana Pro只能伴随着Gemini 3的更新,没办法自己单独更新。 这种“按下葫芦浮起瓢”的问题,在模块化架构里就不存在,因为当你你只需要优化图像生成模块,根本不用担心影响到文本模块。 所以OpenAI确实没办法训练出来Nano Banana Pro。 然而这并不意味着谷歌可以高枕无忧了,因为AI领域迭代速度太快了。我敢打赌,不出半个月,就会有一大帮生图模型问世,直接对标Nano Banana Pro。
千问突围,阿里与字节“开撕”
//// 千问与豆包、DeepSeek、元宝必有一战,但最直接也最棘手的对手是豆包,阿里等不得。 本文由无冕财经(wumiancaijing)原创发布 作者:贾琦 编辑:程程 设计:岚昇 过去一周,国内AI应用市场突然“炸了锅”。11月17日千问登场,18日蚂蚁灵光上线,阿里系直接在App Store中国区免费榜前六撕开一道口子。 截至11月24日,千问跃升至第4,灵光排名第6,打破了字节跳动长期盘踞的“前五全包”格局。此前榜单前列清一色是豆包、红果短剧、抖音商城、多闪和汽水音乐,除了豆包,其余全是抖音系。 更猛的是速度。根据阿里最新披露,千问公测一周下载量突破1000万,增速超过ChatGPT、Sora、DeepSeek,成为至今增长最快的AI应用,阿里港股盘中一度大涨超6%。 回看2025年,从年初的AI基建到年中的淘宝闪购,再到如今举全集团之力力捧的千问,阿里一路加速,“等不得”成了贯穿全年的底色。 夸克让位 早在11月初就有市场消息称,阿里巴巴已秘密启动名为“千问”的战略级项目,以Qwen最强模型为核心打造个人AI助手APP,目标直指ChatGPT。 但从上线后的千问APP来看,千问与豆包反而更为接近,界面更轻,入口更直接。 即便如此“减负”,千问离成熟的C端体验似乎仍有不小差距。有人直言遇到了一个糊涂的千问,“连用户和自己的话都分不清”;有人吐槽“你们有用千问做数学题的吗,我今天让他做了一道高等代数题,做的太差了,有投广告的钱不如好好改进产品”。 阿里表示,这次发布的是一个初级版本,将用最先进的模型打造一个“会聊天能办事的个人AI助手”,并特别强调“能办事”将会是千问APP的一个重要发力方向。 如果把时间线拉长一点就会发现,千问突然冲上前台C位,似乎并不在阿里原本的计划内。过去一年,阿里真正持续投入资源扶持的其实是另一款C端产品夸克。阿里在夸克上的投入之大,与千问如今的曝光程度相比毫不逊色:先后上线了AI超级框、高考志愿大模型、AI创作平台、AI眼镜、对话助手……几乎每个季度都有大动作。 吴嘉的上位更是佐证。今年3月之前,夸克在阿里内部一直没有独立的架构,3月13日之后才被正式升级为阿里的AI旗舰应用,负责人吴嘉也从阿里智能信息事业群总裁,升级为阿里巴巴集团副总裁、夸克CEO,并直接向阿里巴巴集团CEO吴泳铭汇报。 对此,阿里核心决策层的人士曾表示,吴嘉是阿里内部少数真正带队做成过“大C端产品”的年轻高管,夸克正是其代表作。 然而,这一切在下半年开始出现明显转向。据晚点LatePost报道,早在今年夏天,阿里核心管理层就在讨论启动千问项目。9月后,便从北京、广东调来上百名工程师,在阿里巴巴西溪园区C4楼封闭做千问项目。产品团队虽然仍归属智能信息事业群,但统筹工作却直接由阿里巴巴集团层面主导,更名的决策由CEO吴泳铭亲自拍板。 紧接着,千问的上线节奏肉眼可见地提速:界面焕新、功能重排、对标ChatGPT 的宣传一波接一波……密集程度之高,像是一场仓促却必须拿下的突击战。 几乎一夜之间,夸克“主攻AI搜索、夸克当入口”的叙事,被千问的“全民级AI助理”替代,阿里AI的C端战略中心发生了一个明显偏移。唯一没变的是,具体执行负责人仍是吴嘉。 ▲据悉,阿里所有产品未来将接入大模型,图源网络 阿里给出的解释是:2025年上半年,阿里的确希望通过夸克来尝试AI时代的入口,但随着AI能力的提升,阿里认为对话式AI助手是更好的形式。 另有分析指出,夸克的功能体系庞杂,定位偏工具,即便进行了AI升级,也难以让用户将其视为AI本体。千问则不同,它没有历史包袱,不属于任何一个现有业务板块,可以从零开始定义产品结构,走的是“对话即入口”“任务即场景”的路径。 至于千问上位后,夸克会否被边缘化,还是继续承担阿里在AI to C的入口职责,目前仍没有明确答案。唯一清晰的是,在App Store中国区免费榜上,夸克已经掉出前10,而千问升至第4,蚂蚁灵光排到第6。 豆包逼急 阿里的AI战略雄心勃勃,但过去几年,它的攻势几乎全部压在B端上,导致在C端的应用层面,长期处于一种尴尬状态:知道的人不多,用的人更少。现在,千问被寄予厚望,替阿里补上那块最薄的一环。 问题是,一台手机里能装下几个相似的AI助手? 千问与豆包、DeepSeek、元宝必有一战。但最直接也最棘手的对手,是豆包。10月底阿里官宣AI“C计划”时,就曾有解读认为这个“C”并不单指C端,还取自经典游戏“吃豆人”(Pac-Man),目标直指同在AI应用榜单前列的竞争者豆包。 与阿里对入口形态反复摇摆不同,豆包作为字节跳动旗下的AI助手,产品路径从一开始就极为清晰:不强调模型参数,不端技术姿态,够简单、够顺手、够日常。无论是“用豆包进行压力面试”还是“豆包陪孩子写作业”,几乎都是靠户自发传播出圈。这种贴地气的使用感,正是阿里多年来在C端所缺失。 QuestMobile《2025年9月AI原生App榜单》显示,豆包以1.72亿月活稳居第一,DeepSeek以1.45亿月活位列第二——二者合计用户规模接近3.2亿人,几乎相当于中国网民的三分之一。 ▲2025年9月AI原生App榜单,图源QuestMobile 豆包带来的焦虑远不止用户规模,更让阿里警觉的是其商业化闭环。今年双十一期间,豆包悄悄上链接了。在豆包里问护肤、问家电、问香水,答案不再是网页跳转链接,而是直接附着一个能一键进入抖音商城的商品卡片,从咨询、比对到下单,全过程都能在一个聊天窗口里完成。 这一下,AI第一次与国内电商有了深度绑定,并且能直接产生商业价值。这种模式可能成为AI时代电商交易的一种全新方式,至少是一个重要的补充。而它精准切入的,正是阿里最核心的腹地。 过去十多年,移动互联网的电商闭环一直由阿里主导。但随着AI开始渗透日常生活,最前端的入口被字节通过豆包包抄截胡。入口旁落,就意味着交易可能旁落,这才是阿里真正的焦虑所在。 如果把字节和阿里的业务版图摊开,会发现阿里和字节的对垒,早已不局限于“千问VS豆包”。不管是电商、云服务,还是本地生活,双方的业务已经犬牙交错。 对上一次出现这样的局面,还要追溯到十年前的AT(阿里和腾讯)之争。但那场冲突更多是资本阵营的对弈,彼此在对方主战场上较少正面冲撞。而这一次完全不同,阿里和字节已经卷到彼此的核心腹地。 电商是必争之地,淘宝天猫不可能退,抖音也绝不会停下带货的脚步。到了AI时代,入口之争更是重中之重。豆包想成为人人都能上手的AI工具,千问同样瞄准了下一代超级入口的位置。 这两大生态由此形成了天然对立的阵营:一边是阿里试图从AI重建电商入口,一边是字节从流量链路反推到AI入口本身。双方都在对方的红线边缘试探,用自己的节奏挤压对方的生存空间。 阿里是不是来晚了? 千问官宣之后,外界最尖锐的疑问是:阿里是不是来晚了? 千问团队接受晚点采访时表示,当下国内还没有一款DAU破亿的国民级AI应用,千问此时入局并不晚。 足够厚的技术储备,也是阿里的底气。Qwen系列模型在Hugging Face等全球开源榜长期霸榜,全球累计下载量突破6亿次。9月才发布的Qwen3-Max,在多个榜单上已对标国际第一梯队。 但技术优势并不自动转换成C端优势。“IT桔子”数据显示,2025年8月国内AIGC产品已进入深度调整期,多款图像生成、聊天类工具集体降速,想靠基础能力抢夺市场变得越来越困难。 因此,千问选择的突破口不是模型能力,而是从对话深入到办事。千问团队透露,目前千问还在联合包括淘宝、高德、闪购、支付宝等产品的团队联合开发,希望更深嵌入相关产品,解决用户的实际问题。 比如,当用户问“婴儿冬季护肤”,后台联动淘宝给出合规产品,再由高德引导线下母婴店;如果问“今晚吃什么”,未来可能会直接调出闪购、查看附近店铺库存和配送时效。 这意味着,眼下“千问+夸克”的双线推进,还是今年阿里“整合分散业务、打造统一生活入口”战略的延续。前有高德以扫街榜反哺本地生活,淘宝闪购借外卖场景拉升DAU,后有千问接入地图、外卖、购物等多场景,目标成为AI时代的流量中枢,它们都遵循同一个逻辑——用高频场景撬动生态流量。 这也是阿里最擅长、也最想复刻的路径:让入口连上交易。 但问题也同样尖锐:阿里历史上跨部门协同一直被认为是“拖慢创新的第一障碍”,多个项目折在了资源协调上。千问APP能否打破这一魔咒,仍是未知数。 尽管不确定性很多,千问上线首周的数据还是给资本市场打了一针强心剂。投资者开始重新审视阿里在消费级AI上的潜力。光大证券国际策略师Kenny Ng表示:“千问是否能够带动阿里C端业务,将成为影响公司未来估值的关键因素。市场更将千问的亮相视作‘阿里开始对标 OpenAI 的第一步’。” 换言之,千问的成败,不只是一个应用的问题,更关乎阿里能否重新获得AI的“入口权”,能否重新定义自己的增长曲线。
田渊栋、卡帕西力荐Nano Banana新玩法:论文变漫画、手写解题以假乱真,谷歌这波赢麻了
Nano Banana Pro又被开发出了新玩法。 AI大牛田渊栋强烈安利,用整合了Nano Banana Pro生图能力的NotebookLM,硬生生把论文变成了漫画。 效果be like: 其本人直呼这宣传海报比他自己做的好多了。 确实比直接看论文有趣易懂。 谷歌自己人可能都没想到这种打开方式,只是一味地“真不错”。 评论区更是一片求提示词的声音。 NotebookLM的产品负责人都被炸了出来,回应会尽快优化,让其分享和导出更丝滑。 除此之外,这几天网友还解锁了更多新玩法。 Nano Banana解题字迹像真人亲笔 特斯拉前AI总监、OpenAI创始成员Andrej Karpathy(卡帕西)分享用Nano Banana Pro解题也火了。 不管是随手画的草稿,还是各类示意图,它全都能精准识别。 而且输出的解题字迹还真像是真人手写的: ChatGPT核验后认为Nano Banana手写的这些解法基本全对,只有两处小瑕疵: 一是Se₂P₂应为二硒化二磷,原文未标注规范命名;二是拼写错误,“thiocyanic acid”(硫氰酸)被误写为“thoicyanic”。 在卡帕西看来,现在用文本和大模型对话,就像在敲DOS命令行,图形界面(GUI)还没被发明出来一样,而“智能画布”这种可视化、可直接操作的交互方式,才是大模型未来该有的GUI。 没过几个小时,他又发了一条推文,用Nano Banana Pro定制了每周撸铁计划,还直接生成了可打印的海报。 每天该练啥,一抬头就能看到~周二看起来强度爆表,毕竟我特意要求要爷们儿一点。 以及暗戳戳说了句:不好意思,接下来不刷屏发Nano Banana Pro的相关内容啦。 有网友在玩的过程中还发现,给Nano Banana看一道手写的题,它还会模仿真人笔迹,笔记本的版式各方面的质感都高度还原: 这谁还能分清是不是AI生成的。 还别说,真有人怀疑这就是发帖者手写的。 随后卡帕西验证后表示Nano Banana的确能做到,prompt是起始图片+“解决这道数学题,然后用我的手写字体生成更新后的图片”。 我们截图发给Gemini,Gemini也说是AI生成的,仔细看其笔迹过于完美,每个数字“2”的写法几乎完全一样。 芝士终于在它该在的地方了 凭借Gemini、Nano Banana的强势升级,谷歌这次在AI赛道直接鲨疯了,不仅股价创下历史新高,市值还成功超越微软,妥妥的王者归来。 就在这几天,谷歌CEO劈柴哥还让一个8年老梗圆满了。 2017年,谷歌为安卓手机推出了一个芝士汉堡emoji,把芝士放在了肉饼下面,被眼尖吃货注意到,引发网友群嘲。 劈柴哥当年半开玩笑地道歉,调侃谷歌要“放下所有工作”解决芝士汉堡emoji的错误结构。后来在Android 8.1系统中,谷歌把emoji修正为芝士在肉饼上的版本。 如今劈柴哥再度发推,发了一张Nano Banana Pro拆解汉堡结构的示意图,配文“你懂的”: 图中清晰标注,芝士片必须放在肉饼上面,这样才能正常融化,完美呼应8年前的emoji乌龙,算是把这个陈年梗圆明白了。 马斯克评论区发emoji,大有多年前射出的箭,如今正中眉心的意思。 这看似只是芝士放对地方的小进步,背后却是这么多年AI技术质的飞跃,它意味着AI已经能理解物理世界的逻辑,精准处理物体相对位置、进行空间定位。 正如科技投资人、Coinbase前CTO Balaji Srinivasan所言: 谷歌是真的押上了全部资源深耕AI,而Gemini 3的发布,标志着他们正式夺回了领先地位,至少目前是这样。 参考链接: [1]https://www.businessinsider.com/sundar-pichai-cheeseburger-google-comeback-2025-11 [2]https://x.com/karpathy/status/1992655330002817095 [3]https://x.com/tydsh/status/1992440158839550330?s=20 [4]https://x.com/immasiddx/status/1991918223454003346
月之暗面估值或达40亿美元,或于明年下半年IPO
中国AI企业月之暗面(Moonshot AI)再度成为业界焦点。 据多位知情人士透露,该公司正与IDG资本、腾讯等国际顶级投资机构洽谈新一轮美元融资,估值有望飙升至40亿美元。与此同时,市场传闻其计划在完成本轮融资后,并于2026年下半年启动IPO。 知情人士透露,月之暗面此次融资规模预计达6亿美元,投前估值约40亿美元。若谈判顺利,这将是该公司继2024年8月3亿美元融资后的又一里程碑。 值得注意的是,本轮融资领投方并非此前盛传的腾讯或海外风投机构a16z,而是转向IDG资本,腾讯、五源资本、今日资本等原有股东亦参与跟投。 就在不久之前,月之暗面发布的Kimi K2 Thinking模型凭借460万美元的超低训练成本,刷新了DeepSeek的训练成本记录,在一些开源模型排行榜上超越了GPT-5,一度登顶全球第一,引发行业震动。 尽管Kimi K2 Thinking表现亮眼,但其与GPT-5的差距仍不容忽视。斯坦福大学AI实验室的最新评测显示,Kimi在复杂多轮对话中的连贯性得分比GPT-5低18个百分点。如何突破Transformer架构的天花板,仍是摆在中国AI企业面前的难题。 月之暗面官方否认了“明年下半年IPO”的具体时间表,但仍有知情人士表明其上市筹备已在进行中,公司正在与投行接洽,评估纽交所、港交所双重上市的可能性。 站在40亿美元估值的新起点,月之暗面的IPO征程既是荣耀加冕,更是生死考验。在这个中美科技博弈的关键时刻,其每一步动向都将牵动全球AI产业的神经。 不过,相较于OpenAI 5000亿美元的惊人估值,中国AI企业的估值普遍相去甚远。月之暗面40亿美元的估值上限,仅相当于其美国同行的1/125。 月之暗面目前的营收主要来自B端API调用与定制化解决方案,2023年营收约2.1亿元人民币。相较之下,OpenAI单季度营收已突破10亿美元。但纵向对比国内同行,其38亿美元的投前估值已超过大多数垂直领域独角兽,跻身中国AI赛道第一梯队。 此轮融资之后,Kimi将成为继MiniMax和智谱后第三家跃进300亿元人民币俱乐部的国产大模型厂商。 此外,有消息传言,同为中国“中国AI四小龙”之一的MiniMax,已于7月秘密提交港股招股书,智谱AI亦被曝正在遴选承销商,中国AI新晋独角兽或将逐步开启上市潮。(作者|陶天宇,编辑|李程程)
Nubia Fold曝光:努比亚首款横向折叠手机,有望2026Q1登场
IT之家 11 月 24 日消息,消息源 Evan Blass(@Evleaks)今天(11 月 24 日)在 X 平台发布推文,分享了一组渲染图,展示了 Nubia Fold 和 Nubia Flip 3 两款努比亚折叠手机,预估会在 2026 年第 1 季度登场。 Nubia Fold Nubia Fold 将成为努比亚旗下第一款采用书本式开合设计的折叠屏手机。从泄露的图片来看,其内部主屏幕展开后形态接近正方形,设计布局与市面上主流的横向折叠屏手机相似。 机身背部设计了一个较为凸起的摄像头模组,内部包含三颗摄像头。泄露的原理图进一步展示了其外屏和侧面结构,确认了该机将与三星 Galaxy Z Fold 系列等产品正面竞争。IT之家附上图片如下: Nubia Flip 3 设计图展示了黑色 / 深灰色和白色两种配色版本。该机型最引人注目的特点是其巨大的外屏,几乎占据了折叠状态下手机上半部分的全部空间。外屏内部嵌入了两颗摄像头,它们将作为手机的主摄像头使用。 Nubia Flip 3 在机身背部靠近转轴的位置设置了两个 pogo pin 接口(弹簧针接口)。这种设计通常用于连接专属配件,例如扩展模块或专用保护壳,暗示了该机型可能具备更丰富的扩展功能。此外,手机的电源键和音量键均位于机身右侧。 参考努比亚上一代产品 Nubia Flip 2 于今年 1 月发布的惯例,业内普遍推测这两款全新的折叠屏手机很可能在 2026 年第一季度正式发布。
理想 VLA 再更新,不但自主充电还能躲鱼雷
每当苹果在 WWDC 发布新版 iOS,相关热搜总是会出现类似这样的话题:究竟哪款老 iPhone 首次被排除在升级名单之外,不幸「掉队」? 新能源汽车也是如此——引入智能化后,「常用常新」总是厂商会打出的卖点之一。 如今,用户不只看马力和续航,更在意智能化更新的可持续性:OTA 的频率与内容、核心功能的长期可用性(导航/智驾/座舱)、硬件冗余是否支撑未来升级,以及付费订阅与保值率的平衡。 换句话说,一台优秀的智能车,不止是当下的配置清单,更是持续进化的能力与承诺。 在 2025 年广州车展上,理想汽车公布了辅助驾驶板块最新的进展与规划,带来了创新的 VLA 充电和防御性 AES 自动紧急转向功能,并且计划向 AD Max 车型全量推送。 我看了看已经陪伴了我 975 天的 2023 款理想 L7 Max,具备 AD Max 的它,仍在更新名单之列。 VLA 充电,打通充电的最后 100 米 基于 9 月份理想为所有 AD Max 车型推送的「VLA司机大模型」,进一步带来了「VLA 充电」这项全新能力。 从体验上来说,它看起来也很符合用户直觉。 行进途中,用户只要对「理想同学」说出「直接帮我导航到附近的超充站」,系统就会自动搜寻附近的「理想超充站」位置并添加到途径点。 开启 NOA 智能领航辅助后,车辆将按照导航自主驶向超充站;临近站区时,系统会主动推荐空闲充电桩车位,并由 NOA 自动驶入站内并漫游泊至对应车位,全程几乎无需手动介入。 目前看起来唯一还需要「手动」操作的,就只有车主下车,手动拔插充电枪这一步骤了。 不过此前理想已经公布了「龙门架」形式的自动充电机器人,单个机器手就能覆盖站点的多个充电桩位,能自动识别车型充电口与枪头,实现「人不下车,自动插枪」。 理论上理想可以在现有的这些超充站内,直接进行改造,这也就意味着现在发布会上唯一没有被点亮的「手动充电」,很可能在后续被打通为「自动充电」。 要实现体验上的无感且自然,「VLA 充电」这项能力,在技术上也做出了相当多的努力和协同。 按照理想的介绍,这是 VLA 司机大模型与车终端、超充站、充电桩之间完成端云协同的显著成果,在超充站充电这个关键的常用场景,验证了 VLA 具备「理解空间、自动完成任务」的能力。让 VLA 司机大模型,自主地与超充站实现通讯协同。 在车端,由 VLA 司机大模型完成空间理解,实现自主驶入场站并泊入充电车位的同时,还会向云端请求空闲充电桩情况,并协同降下地锁以便完成自主泊入车位;在云端,涉及了辅助驾驶云、理想超充调度云、场站云的高效协同,实时下发空闲充电桩信息,并按 VLA 规划降下地锁。 车辆充电完成之后,车辆可以自主驶离超充站,并通过免密支付完成充电缴费。 可见,理想的超充站与 AD Max 硬件,是提前预埋的「硬底盘」;VLA 模型,是可以周更精进的「软引擎」;充电补能,则是用户高频且刚性的体验场景。 VLA 充电正是立足这套软硬一体的底座,而给出的系统级解法——把「空间理解+行为策略」从道路延伸到自营超充站区,把「找桩充电」升级为「自主充电」。 这本质上是 VLA 路线的厚积薄发:先把基础设施、传感器与算力打牢,再用模型把整段体验打通。 于是,VLA 能力自然而然地,就从「会开」外溢到「会充」,从路网延伸到站内。随着超充站点覆盖继续扩大、VLA 强化学习迭代,以及自动充电等配套落地,补能体验将持续从可用走向好用,并在实战中自我进化。 防御性 AES:自动「躲鱼雷」 今年 8 月份发布的 VLA 司机大模型也在不停地迭代,理想宣布将在下一个版本中,优化 NOA 领航辅助驾驶在行车中的结合复杂场景。 面对相邻的红绿灯,VLA 会更加精准地完成识别;面对极窄路段的会车场景,也会向右借极窄空间绕行。在面对施工路段、临时改道的场景,VLA 也能像真实司机一样从容应对。 与此同时,无论城市通勤还是高速巡航,VLA 在轨迹平滑与制动/转向的柔和度上都在持续进化,行车更稳更舒适,行为操作也更加类人。 当然,理想汽车的辅助驾驶不仅在行车、泊车等场景持续进化,也在主动安全上不断拓展能力边界、抬升上限。 此前在理想 i8 发布会上,理想防御性 AES 就已经覆盖了三大场景,包括式截停、慢车加塞、恶意别车等高风险场景,车辆可以主动地识别此类风险并自主地完成相应的主动防御避让策略。 现在,理想还新增了两个防御性 AES 能力,在后车逼近或存在二次碰撞风险时,车辆自主就能联动「加速+转向」策略,通过「前向加速」或「安全变道」主动规避后方「鱼雷」,避免被追尾的碰撞风险。 至此,理想的防御性 AES 可以有效避免来自车辆前方、后方、侧前、侧后的碰撞风险,升级至全方位的保护能力。 按照规划,理想将在后续的 OTA 中,把防御性 AES 能力推送给所有 AD Max 车型。 理想 VLA:六维体验的长期主义 自年初提出 VLA 大模型之后,理想在取得进展的同时,也在面临着外部质疑,有同行认为它「取巧走不远」,也有业内专家认为「难以落地」。 面对这些质疑,理想汽车自动驾驶研发高级副总裁郎咸朋在接受媒体采访时回应: 他们反对 VLA,恰恰说明 VLA 是正确的。 ▲理想汽车自动驾驶研发高级副总裁 郎咸朋 在理想汽车看来,上一代技术能力的上限,是下一代技术能力的起点。这也是理想从「端到端+VLM」切换到「VLA 司机大模型」的原因。 VLA 的主张不是「更像人开车」的表演,而是用多模态大模型 + 强化学习,把「看懂场景—做出决策—用数据闭环持续变好」的链路真正跑通,这与曾经由「端到端 + 数据闭环」来替代「规则拼装」的技术演进,是一脉相承的。 从技术角度看,VLA 让辅助驾驶从「猴子时期」迈进了「人类时期」,拥有了「能思考、能沟通、能记忆、能自我提升」的能力。 较早之前,理想 VLA 司机大模型就定下过六维指标:「选对路、速度对、舒适度、安心感、可沟通、高效率」。 从「自主会开」到「自主会充」,从道路到站区,从能刹住到会躲开,VLA 持续让「智驾」的价值从单点功能推到整段体验。 全新的 VLA 充电能力,让「补能」这个常用场景首次实现了「理解空间、自动完成任务」的空间理解,也验证了理想坚持 VLA 路线的正确性——可迁移、可学习、可持续进化,这正是理想汽车日益坚实的护城河之一。 同时,最新的「防御性 AES 」首次将 AES 功能扩展到「正前/正后/侧前/侧后」的全域风险规避。 就目前而言,VLA 还未曾到达「技术能力上限」的位置,仍然在不断地迭代进化,它仍然有着很多需要去落地的探索点,这也就说明 VLA 接下来还会有更多的能力,可以被更新释放。 基业长青的公司往往特别看重厚积薄发与长期复利,所以真正的护城河从来都不在 PPT 的算法名词当中,而是在每一公里的稳定行驶、每一次自主进站的充电补能、每一次被避免的事故当中。 理想 VLA 的长期价值,正在这些可被持续验证的细节中不断放大。
打响消费级“第一枪”,国产CPU第一次与全球顶级巨头坐一桌
今天,国产CPU从“能用”走向“好用”,踏入“通用算力”俱乐部。 作者 | 云鹏 编辑 | 漠影 试想一个场景,一台搭载国产CPU的高性能电竞主机,能畅玩《黑神话:悟空》这样的3A游戏大作,也可以流畅运行《无畏契约》这样的主流电竞游戏,甚至还能轻松应对直播、视频剪辑、3D渲染等多任务应用场景。 在全球消费级CPU市场长期被两大海外巨头把持之下,这样的场景曾经是许多中国科技数码爱好者所憧憬的,而今天,这份憧憬成为了现实。 就在昨天,2025雷神杯·ACL全国高校电竞精英赛北区总决赛在西宁落幕, 现场,雷神科技正式发布了其电竞主机新品——“黑武士·猎刃Pro”,该产品搭载海光最新一代处理器,存储、外围接口各项指标统统“拉满”,可以说是第一台搭载了“中国芯”的高端电竞主机。 这一刻,在这个曾经是国际巨头双人舞的舞台上,国产CPU第一次用实力证明:国产算力正加速从“专用”向“通用”迈进——从关键基础领域拓展至对性能要求极为严苛的电竞消费市场。 要知道,电竞场景可以说是衡量算力性能的终极试炼场,各类游戏对画质、帧率、延迟都有极高要求,对芯片性能有极高考验。海光芯片能够成为第一颗真正意义上的国产终端“电竞芯”,足见其在性能、兼容性、稳定性等方面的非凡表现。 自此,国产芯片不再是局限于特定领域的“专用品”,而是能支撑起庞大而复杂的消费级应用的“通用算力底座”,实现了从技术达标到生态成熟的跨越。 01. 生态兼容性出众,底层技术突破 实现性能对标国际巨头主流 近年来,国产算力替代已经成为行业关注焦点,但这份关注更多聚焦于数据中心和信创领域,鲜少涉及消费市场。 但客观来说,消费级市场的应用场景最为复杂、处理的任务最为多样,当前全球PC应用总量超过3500万款,游戏方面仅Steam这一个主流平台上就有近17万款游戏。 搞定消费级场景,实际上对芯片厂商来说挑战非常大,可以说一直是一座摆在国产算力面前的“大山”。 此次正式突围消费级市场的核心原因在于海光做好了三方面的事:强大的性能、高兼容性的生态和稳定持续的输出。 首先是最基础的硬件指标和性能方面,海光CPU支持16核32线程,出色多核性能可以应对电竞游戏、3A大作以及直播、多任务处理等场景,后台运行程序前台依旧流畅,要知道,复杂的多任务并行处理场景几乎是消费级终端的刚需。 在与游戏性能密切相关的CPU缓存方面,海光给这款处理器配备了32MB L3缓存可以显著提升数据到核心的交互效率,直接提升游戏的帧率稳定性和生产力软件的运行效率。 在实际性能测试和流畅度表现方面,根据DQA的测试验证,雷神电竞主机搭载的海光芯片,其性能可大概对标国际13700系列处理器。i7长期被游戏玩家们认为是“游戏神U”系列,13代也是较新的一代,对标的“含金量”不言而喻。 在实际单线程、多线程的整数、浮点性能测试中,我们看到在部分项目上,差距已经明显缩小,重要的多线程能力已经实现反超。当然,单线程性能方面海光芯片仍然有一定的追赶空间。 在如此令人欣喜的性能提升背后,海光在底层实现了诸多技术突破。 架构方面,海光CPU采用尖端微架构和缓存层次设计,通过优化分支预测技术,提升每个时钟周期内执行的指令数量。 同时,基于先进的SoC架构和片上网络技术,海光在单颗CPU上集成了更多的处理器核心,利用工艺技术和物理设计手段,实现了更高的主频。 核心性能之外,海光CPU还在其他外围关键能力方面也进行了全方位升级。 PCIe 5.0固态硬盘协议的支持,可以实现大型游戏更快的场景加载和切换;GPU接口速率的翻倍,则可以最大化发挥出高端显卡的性能;DDR5内存的支持,则可以更好的提升游戏的稳定性与平均帧率,尤其是对1% Low帧的提升,对电竞玩家们来说是至关重要的。 值得一提的是,在诸多性能提升之上,海光对芯片整体的散热能力也进行了改善,芯片覆盖全铜散热盖,并填充超高性能散热材料铟金属,让性能可以更长时间地稳定释放。 出色的性能是基础,而在此之上,如何解决消费级市场必须要面对的核心挑战——“兼容性难题”,是挡住诸多国产芯片的“拦路虎”。 海光C86路线原生兼容x86,兼容windows及主流软件、游戏,可以说从根本上解决了国产CPU兼容性的老大难问题。 海光CPU可以兼容主流的数据库、中间件等基础软件和众多行业应用软件,从游戏到生产力,几乎扫除了各类常见的兼容性问题,可以说在生态方面彻底融入x86这一最完善的主流生态。 ▲黑武士·猎刃Pro 整体来看,今天搭载于雷神高端电竞主机中的海光芯片,已经跻身国内高性能CPU阵营,与海外巨头产品相比,可以说是达到了“比肩”。 性能和兼容性的双重突破,真正让国产CPU从“能用”走向“好用”,国产CPU不再局限于特定领域,不再是“专用产品”,而是能支撑起庞大而复杂的消费级应用的“通用算力底座”。 毫无疑问,这是一次从技术达标到生态成熟的跨越。 02. 多年深耕突破切入高端消费市场 国产CPU发展涌现巨大潜力 今天,海光CPU在PC领域头部玩家的电竞PC产品中落地,引起业内外广泛关注,但在这份成绩的背后,是海光多年来在国产CPU赛道上的持续深耕,其强大的技术研发实力和底蕴是关键支撑。 在研发投入方面,2019-2024年五年时间里,海光研发费用率长期稳定在25%以上,2024年公司研发技术人员占比已经超过了90%,随着高强度研发投入以及核心技术的积累,海光的技术“护城河”越来越巩固,产品组合也逐渐丰富。 国产CPU的发展之路漫长而曲折,从基于引进架构进行扩展、开发自有架构的路线,到基于Arm架构的技术路线,再到基于x86完整生态进行自主研发的海光C86等厂商。 当前,国产CPU逐渐突破性能瓶颈,在商业模式上进一步实现突破,并在更多场景中展现出落地潜力,海光无疑成为其中跑在最前列的玩家之一,带领行业走到关键转折点。 雷神此次选择海光芯片,证明国产CPU不仅可以满足“2+8”关键领域的国产化需求,还能满足电竞等消费级高端算力需求。 基于其在芯片技术研发方面的优势,海光让产品有应对消费级电竞市场需求的根本支撑能力,而雷神科技母公司海尔集团,则是全球知名的家电和科技企业,在硬件制造、设计以及供应链管理等方面具有丰富经验和强大实力。 芯片与终端大厂联手,实现消费级场景落地,完成“芯片+终端+场景”的闭环。 更重要的意义是,今天国产CPU发展水平已完全可以替代国际,国产高端算力同样能成为驱动前沿数字消费体验、创造高溢价值的核心引擎,海光已经成为中国芯片产业崛起的重要代表。 03. 结语:海光亮剑 国产高端算力加速走向前台 海光与雷神的联合,不仅是一次标志性的产品发布,一颗国产CPU在电竞主机中落地的背后,是中国高端算力产业的一次“深刻宣告”:国产CPU的综合能力已经足以承载最挑剔、最复杂的用户使用场景。 未来随着市场规模的逐渐铺开、国产化替代趋势持续向好,国产CPU的技术迭代也必将进入更优的良性商业模式循环。 在国产高端算力走向前台的今天,国产CPU已然就位,并展现出塑造未来格局的巨大潜力。
达特茅斯学院开发新AI工具:可伪装人类完成问卷,破解99.8%检测
IT之家 11 月 24 日消息,据 404 Media 报道,达特茅斯学院政府学副教授、极化研究实验室负责人肖恩・韦斯特伍德日前在《美国国家科学院院刊》(PNAS)上发表的一项新研究指出,在线调查研究作为许多科学研究中数据收集的基础方法,正面临着大语言模型带来的严重威胁。 韦斯特伍德开发了一款名为“自主合成应答者”的 AI 工具,能够回答调查问题,并展示了几乎完美地绕过现有最先进的机器人检测方法的能力。 论文指出,这款 AI 智能体成功避开检测的概率高达 99.8%。韦斯特伍德在新闻稿中表示:“我们再也不能确信调查的答复来自真正的人类了。机器人污染的数据可能会破坏整个知识体系。” 这款 AI 智能体还成功规避了“反向禁忌”问题。“反向禁忌”通过设计任务来识别非人类行为者,大模型能轻松完成这些任务,人类则几乎不可能完成。 论文《大语言模型对在线调查研究的潜在生存威胁》指出:一旦推理引擎选定了回答,第一层就会执行专注于模仿人类的相应行动。为了躲避自动化检测,其模拟了与该个体教育水平相符的阅读时间,生成类似人类的鼠标移动,逐字输入开放式问题的答案,并包括合理的打字错误和更正。该系统还设计了 reCAPTCHA 等绕过反机器人措施的工具,而这通常是自动化系统的一个障碍。 论文还表示,AI 可以模拟“完整的人口统计特征”,意味着理论上任何人都可以通过生成特定人口特征的 AI 干预,操控在线调查的结果,而且甚至仅仅几个虚假回答就足以影响调查的结果。 论文提到,在 2024 年大选前的七大主要民意调查中,仅需加入 10 到 52 个虚假 AI 回答,就足以改变预测结果。这些虚假回答的生成成本非常低,每个仅需五美分,而人类受访者通常获得 1.50 美元(IT之家注:现汇率约合 10.7 元人民币)的酬劳。 论文使用 OpenAI 的 o4-mini 进行测试,也使用了 DeepSeek R1、Mistral Large、Claude 3.7 Sonnet、Grok3、Gemini 2.5 Preview 等其他模型,证明该方法适用于不同的大模型。该智能体通过接收约 500 字的提示,了解要模仿的个性,并按人类的方式回答问题。 论文指出,研究人员可以通过多种方式应对 AI 智能体污染调查数据的威胁,但每种方式都有权衡。例如,研究人员可以对调查参与者进行更多的身份验证,但随之而来的就是隐私问题。论文还建议,研究人员应更加透明地说明调查数据的收集方式,并考虑采用更受控的参与者招募方法,如基于地址的抽样或选民文件。 论文总结说,确保民意调查和社会科学研究持续有效,需要探索并创新出应对快速发展的 AI 时代挑战的研究设计。
曲屏再见!华为手机直屏时代正式来临:Mate 80系列全系3D人脸大直屏
快科技11月24日消息,华为宣布11月25日14:30举行线上发布会,正式推出Mate 80系列,将由此开启华为的直屏时代。 @数码闲聊站 爆料称:“Mate80系列全系3D人脸大直屏,华为的直屏时代正式来临了,接下来Pura系列猜测也会跟着切直屏,希望也能给一个3D人脸解锁吧”。 据悉,华为Mate80 Pro Max/RS独享新一代超透亮灵珑屏,也就是双层OLED,6.9英寸1.5K LTPO超大直屏。 外围消息显示,华为Mate 80 Pro Max屏幕亮度预计能达到8000尼特,系史上最亮。在太阳强光下,依然能看清屏幕。 事实上,随着越来越多的旗舰机选择直屏,手机屏幕直曲之争终于画上了句号。未来,曲面屏即将淡出历史舞台。 目前,小米、OV等一线手机厂商的旗舰产品,已经全面拥抱直屏。 客观来看,手机曲面屏的“消失”其实是一场市场选择与用户体验博弈的结果。从几年前的高端象征到如今逐渐被厂商冷落,总结起来有以下几点: 一是“好看但难用”成致命伤。曲面屏边缘容易误触,打游戏、刷视频时手指一滑就出问题,体验直接拉垮。普通钢化膜贴不服帖,UV胶水膜操作复杂,稍有不慎就报废,用户被迫裸奔。 此外,维修成本离谱,曲面屏一摔就碎,维修费动辄上千。 二是直屏成本低、利润高。直屏生产工艺成熟,材料损耗比曲面屏少30%以上。旗舰手机设计普遍回归实用,OPPO Find X8 Ultra、小米17系列、华为Mate 80等旗舰机集体转向直屏。 另外,新技术(如LIPO封装、3D打印中框)让直屏也能做到超窄边框和轻薄机身。 用户也不再为看起来贵买单,转而追求续航、散热、信号等实际体验,直屏更符合实用主义潮流。用户发现曲面屏的颜值溢不值,直屏的稳定性和性价比更香。 未来手机屏幕的竞争,可能更多集中在直屏的极致体验(如护眼、高刷)或折叠屏等新形态上,而曲面屏的“曲终人散”,恰恰是市场理性的胜利。
6天狂飙200万,这个AI应用为何全网爆火?
作者 | 陈骏达 编辑 | 漠影 “灵光”,彻底火了。 上周,蚂蚁集团发布的全模态通用AI助手灵光,或许是2025年底AI应用赛道中最大的惊喜之一。 灵光的下载量呈现加速增长的态势,上线首日,灵光的下载量便突破20万,第四天突破100万,而最新数据显示,灵光的下载量已于上线六天后突破200万,稳居App Store中国区免费榜第六,免费工具榜第一的位置。 这一增速,超越了多款全球现象级AI应用,也远超灵光内部年底前下载量破20万的原计划。据移动应用分析机构Appfigures数据,ChatGPT上线首周下载量为60.6万,Sora2破百万用了5天,灵光将这一进程压缩至4天。 灵光App 6天下载量冲到200万 而且,灵光不是一个“体验一下就吃灰”的AI应用。让人人都能手搓应用的“灵光闪应用”功能,成为了爆点,一度被用到宕机。上线仅4天,灵光就因高负载而紧急扩容了8轮,其中重点保障的正是“灵光闪应用”。 用户不再是抱着猎奇心态尝鲜,而是用它解决实际问题。闪应用的平均修改轮次达6轮,甚至有人连续2小时修改了100多轮,充分印证了“实用型AI”的强劲需求。 换句话说,6天破200万下载量的成绩并非偶然,而是用户以真实行为投出的赞成票。 一、200万用户“用爆”灵光,掀起手搓应用热潮 自上周二上线以来,灵光已在用户端迅速积累起不少口碑。许多用户在社交平台上分享他们的第一手体验,从速度、易用性、效果到产品理念,都给出了不少真实反馈。 闪应用或许是本次灵光发布后讨论热度最高的功能,掀起了一波手搓应用的热潮。打开社交平台后搜索“灵光”,能看到不少用户分享的案例都是和闪应用相关的。从专属训练工具,再到待办事项小程序、油车电车省钱计算器等,灵光为用户打造了不少能在现实生活里提效的实用应用。 还有网友借助闪应用实现了不少趣味应用,比如老板话术翻译器、辅导作业赛博功德箱、遛娃抽签器等。这些有趣但又特别“接地气”的使用场景,让人能直观感受到,灵光真的开始融进大家的日常生活了,不管是提升效率还是整点创意,它都能帮上忙。 知名商业科技播客主播刘飞分享,他试着在灵光闪应用功能里做了一个壁纸生成器和日语学习的小应用,几分钟搞定。灵光还自行完成了各种底层支持,比如联网服务,体验非常顺滑。 刘飞认为,虽然从最终效果来看,灵光仍有提升空间,但这种把真正把门槛降到几乎为零的、一站式能解决大量需求的AI场景,就是驱动下一步行业发展的趋势。 同时,灵光的多模态交付获得不少网友的认可。有网友形象地形容道,其他的Chatbot目前还是“txt阶段”,而灵光已经做到图文并茂了。 灵光支持3D、音视频、图表、动画、地图等全模态信息的输出,此前我们已在实测中发现,其多模态的回答让对话更为生动,重点清晰,呈现形式极具信息美感。 有用户认为,灵光选择了一条差异化的发展路径,其回答的可读性和结构化能力是用户体验的重要部分,并不是所有产品都需要变成极致化的生产力工具。 还有网友观察到,自己身边的非科技圈人士,这回也能玩转灵光。这或许与灵光在UI方面更为友好的设计有关。 在真实反馈与自发创作热潮背后,一个关键问题也浮出水面——灵光究竟做对了什么,能够在拥挤的赛道中迅速赢得用户喜爱? 二、从技术炫技到用户体验,灵光缘何爆火? 用户为什么会觉得“灵光好用”、“灵光和别的AI不一样”?这背后并不是多一个功能、多一个入口那么简单,而是灵光踩中了行业长期存在的体验痛点,并用一种更贴近大众用户的方式给出了答案。 过去行业比拼的多是模型参数、推理速度等硬实力,而“灵光”是把这些底层能力转化成了看得见、用得上、立刻能感知的体验提升。 AI编程、Vibe Coding是近年来AI行业的热词之一,但落到普通人身上,可感的好处其实非常有限:能生成点代码,却不会部署;能写个demo,却难以在真实生活场景里用起来。AI的能力和用户的创造力之间,一直隔着一条技术鸿沟。 “闪应用”让许多用户第一次发现,这道技术鸿沟其实没那么难迈过去。用户不需要写代码、不需要懂前端、不需要自行解决联网、调接口这些底层复杂度,甚至都不需要打开电脑,只要把需求描述出来,灵光就能把它变成一个可直接使用的小应用。 灵光让广大不懂开发的用户首次体验了开发的乐趣,还满足了长期被忽视的“边缘需求”——那些只属于小圈层、小个体的个性化功能,能在灵光里用几分钟搞定。因此,即便这些应用并非完美无缺,它们依然让用户感受到自己动手创造的成就感。 另一个让用户明显感知到“好用”的点,是灵光在信息呈现方式上走了一条少有人走的道路。 过去一年里,随着推理模型、Agent的爆发,AI生成的内容明显变得越来越长、越来越复杂,这诚然带来了信息深度、广度的提升,但也在某种意义上也演变成了一种认知的压力。 灵光产品负责人蔡伟认为,信息的呈现不应只是“冷冰冰的文字”,而应通过多样化的展示来优化用户的信息获取体验。灵光的多模态交付,正是对这一痛点的回应。 支撑这一体验的是灵光采用的“全代码生成”路径。虽然用户看到的是简洁清晰的图文界面,但其背后实际上是多个大模型生成的大量代码,灵光通过代码驱动图示、结构化总结和信息卡片等形式,将复杂内容呈现得一目了然。 用户形容它“图文并茂”、“像公众号文章”,并非夸张。它真正把阅读门槛降得足够低,让大模型的回答从单纯的信息输出,变成了完整的“信息产品”。 无论是“闪应用”带来的创造力释放,还是多模态呈现带来的认知负担下降,都指向同一个趋势:AI产品的竞争正在从模型能力转向用户体验。灵光的变化让更多非技术用户第一次感受到,AI不只是一个工具,而是可以真正改善生活中的琐碎环节,并且易于驾驭。这也是它能够在短时间内赢得大量真实用户认可的关键原因。 三、多模态重构信息获取方式,闪应用推动AI普惠 灵光在多模态和用户交互体验方式上的探索,其实与当前全球头部AI玩家们的方向不谋而合。 例如,谷歌的Gemini系列模型自始至终就坚持了原生多模态的定位。对此,诺奖得主、DeepMind创始人兼CEO Demis Hassabis解释道,原生多模态是谷歌实现“通用数字助理”愿景的重要支撑。最新更新的Gemini 3提供了“动态视图”能力,让Gemini能以卡片、图表还有高清配图来呈现信息。 OpenAI也在近期尝试将多模态应用于信息呈现。其9月底推出的Pulse功能,尝试让AI主动给用户提供一份量身定制的资讯卡片,就像是人工编辑精心挑选,制作的一样,以结构化、直观的方式将文字、图表、图片等信息结合在一起。 刚刚发布的灵光,已经在多模态内容的理解和生成上都做了相应的布局,此前提到的多模态交付就是其在生成侧的初步成果。 灵光还打造了名为“灵光开眼”的视觉理解功能,蔡伟透露,他们对“灵光开眼”的定位是“视觉原生入口”,目的就是提供更接近人与人交流的自然、连续的沟通模式。 灵光闪应用的火爆,则折射出AI实用化的大趋势,普通用户无需编程或专业技能,就能根据自己的需求快速生成可用的小程序或工具,把想法直接转化为现实。这一理念也在Gemini 3对其应用开发能力的升级中得到了呼应。 这种让创造更普惠化、门槛更低的趋势,还蕴藏着变革应用开发领域生产关系的潜力。在过去,开发的工作一直是“中心化”的:只有少数程序员或团队掌握专业技能,才能设计、实现和交付应用,普通用户几乎只能使用现成工具,而无法真正参与创作。 底层模型能力的提升,可能会让“开发”这件事儿成为像阅读、写字一样的基础技能,从而推动整个软件生态向去中心化、个性化和即时化方向的发展。 在此前与智东西等媒体的沟通中,蚂蚁集团CTO何征宇、蚂蚁灵光负责人蔡伟还揭示了灵光未来的发展方向。 在技术层面,闪应用仍处于早期形态,但未来6-18个月内,随着模型的编程能力和AI调动工具能力的持续提升,其功能将更加丰富和高效。 灵光技术演进的核心目标是实现“多快好精”的质量,以激发用户创作和分享的动力。同时,团队在尝试更多交互形式和模态,包括SVG矢量图等,以呈现复杂概念。 在产品体验上,未来,灵光会继续降低闪应用的创作和使用门槛,同时探索完整的应用生态与分享能力。随着技术成熟,闪应用有望自然发展出应用市场和应用生态。整体来看,灵光将围绕高效信息传递为主轴,通过增强代码生成与Agent能力,带来质的飞跃。 结语:在AI to C体验革新中,迈向AI“能办事”的未来 灵光加入通用AI助手之战,为国内AI应用版图补上了关键的一块。当前国内AI产品已呈现清晰的赛道分化:有的深耕内容娱乐,通过轻量化互动与碎片化体验建立用户黏性;有的如千问般定位为通用助手,覆盖广泛场景、提供智能问答与任务执行;而灵光则以实用工具为核心,面向生活与工作的刚性需求,强调“能办事、真有用”的产品价值。 随着模型能力持续提升,通用性不断增强,未来灵光也有望与蚂蚁支付宝生态的多元服务产生深度联动,真正打通用户从“提出需求”到“完成服务”的完整闭环。 技术的突破往往迅速,然而真正改变大众与技术关系的,是体验的革命。灵光的最新探索,让我们离这种变革又近了一步。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。