行业分类:
加载中...
头条分类:
加载中...
SpaceX星舰为何三连炸?专家:马斯克豪赌火星,操之过急
星舰升空 凤凰网科技讯 北京时间6月2日,据TheVerge报道,SpaceX星舰的第九次试飞再次失败,遭遇连续第三次爆炸。专家指出,星舰的测试过程不同于之前的猎鹰9号,想一次实现所有目标导致失败率大大提高。 美国高级空天研究学院(SAASS)的太空政策专家温迪·惠特曼·科布(Wendy Whitman Cobb)表示,在火箭开发过程中出现这种程度的失败其实并不罕见,特别是在测试大型火箭这样复杂的新型航天技术时。 然而,星舰的测试方式与人们过去所熟悉的航天行业那种渐进式、稳扎稳打的开发节奏明显不同。 “很多人觉得SpaceX的测试方式不同寻常,是因为它并不是我们过去测试火箭所采用的一贯方式。”科布表示。 边测边炸 从历史上看,像美国宇航局(NASA)这样的航天机构,或者像联合发射联盟(ULA)这样的传统航天企业,他们在开发火箭时都非常谨慎,不会轻易进行测试,除非对成功有相当的把握。 这种传统测试方式现在仍在持续,比如NASA的太空发射系统(SLS)项目。这个项目从启动到现在已经拖了十多年。科布指出:“他们会花尽可能长的时间来确保火箭能够正常工作,确保发射能够成功。” 然而,SpaceX选择了一条不同的道路,它频繁进行测试、接受失败并迅速迭代。这一直是其成功的核心,使得该公司快速实现可重复使用的猎鹰9号火箭等开发进展。 星舰之前的爆炸 然而,这也容易引发频繁且广为人知的失败,破坏了发射场周边地区环境,导致SpaceX被投诉,与监管机构发生冲突。 此外,外界还对SpaceX CEO埃隆·马斯克(Elon Musk)与特朗普政府之间的政治关系,以及他对SpaceX相关联邦监管工作的非民主式影响表示严重关切。 背离猎鹰9号测试方式 即便按照SpaceX快速推进、打破常规的行事风格,星舰的研发过程也显得颇为混乱。虽然猎鹰9号之前也经历了许多失败,但总体上有一条较为清晰的发展路径:从频繁失败,到逐渐减少失败次数。而星舰的发展则更加断断续续,进展不稳定。 SpaceX此前的开发是渐进式的,先证明火箭本身可靠,再逐步解决更复杂的问题,比如助推器或第一级的可重复使用性。例如,该公司在测试几年后,才开始尝试回收猎鹰9号的助推器并重复利用。 星舰则完全不同。科布表示:“他们试图在星舰项目上一次性实现所有目标。”也就是说,该公司在推出配备新型发动机的全新火箭的同时,还希望让它可重复使用。“这真的是一个非常艰巨的工程挑战。”科布称。 对于SpaceX来说,为星舰提供动力的“猛禽”发动机,是一个特别棘手的工程难题。一方面,它的数量非常多:每枚星舰配备多达33台猛禽发动机,这些发动机密集排列在一起;另一方面,它们还必须能够完成在太空中重新点火这一复杂任务。尽管在此前的一些星舰测试飞行中,发动机成功实现了重新点火,但它也曾成为失败原因之一。 马斯克豪赌火星 那么,为什么SpaceX要如此激进、快速地推进这一切呢?这是因为马斯克一心想要登陆火星。从理论上讲,SpaceX使用猎鹰9号等现有火箭,也可以执行火星任务,但火星任务所需的大量设备、物资和人员所产生的总重量非常巨大。要使火星任务变得相对可行,就必须能够在一次发射中运送大量物质,这就是为什么需要像“星舰”或NASA的SLS这样的更大型火箭的原因。 NASA过去一直在“两手准备”:一方面自主研发重型运载火箭,另一方面也支持星舰的开发。但随着近期预算被削减,SLS被取消的可能性越来越大。这意味着,SpaceX可能会成为唯一能够推动NASA火星计划的合作方。 马斯克 不过,要让“星舰”具备开展载人任务的条件,还需要做大量的工作。要实现这一目标,还需要制定出切实可行的载人计划。 马斯克本周表示,他的目标是在2026年进行一次星舰飞往火星的试飞,最快在2028年启动载人测试任务。那么,这真的可能实现吗? “我认为这完全是妄想。”科布表示。她指出,SpaceX目前似乎并未认真考虑诸如为星舰添加生命维持系统、为火星建立栖息地、建设发射与着陆平台以及基础设施制定具体计划。 科布表示:“在我看来,SpaceX并没有真正做到言行一致。如果他们真能赶上明年的发射窗口,也只能是一次不载人的试飞任务。目前他们根本不可能把人送上火星。而且,我也非常怀疑他们是否真能按时发射。” 当然,这并不意味着星舰永远无法抵达火星。“我相信SpaceX最终会靠工程手段解决问题。我相信他们的工程能力足够强,最终会让星舰成功执行任务。”科布表示。但是,和明年的目标相比,在未来十年内将一枚不载人的火箭送上火星要现实得多。 至于载人火星任务,那又是完全不同的难度了。“如果他们的目标是建立大规模人类定居点?那得需要几十年的时间,”科布说,“我不确定自己是否还能活着看到那一天。”(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
小米华为你支持谁!雷军亲自发文回应被质疑:我们永远相信 后来者总有机会
快科技6月2日消息,在公开表态“诋毁本身就是一种仰望”之后,雷军今日再发微博,疑似回应外界质疑声音。 “我们永远相信,后来者总有机会!”今天上午,雷军在微博上引用玄戒O1芯片发布会上的一句话语,再次表达了对外界质疑的回应。 雷军此前在发布会上坚定表示,后来者一开始肯定不完美,总会被嘲笑、被怀疑,但后来者总有机会。 昨日,雷军发微博在介绍今年5月小米SU7交付量、预告小米YU7大规模量产的同时写道:“刚学会一句莫言名言:诋毁,本身就是一种仰望。” 随后,雷军编辑了本条微博,删除了这句话,但留下了带有上述话语的图片和小米汽车相关信息。 在评论区,网友纷纷表示“小米YU7必然卖爆”“诋毁,本身就是一种仰望!太对了”“只有强大才会让人感到危机,别人会诋毁”,雷军则用比心表情一一回复,表达了对上述评论赞同。 外界普遍认为,近期雷军及小米高管的表态,是疑似对余承东此前发言的回应。 5月31日举办的“2025未来汽车先行者大会”上,余承东火力全开,称“某公司有强大流量,只做一款车就卖爆了”,疑似直指小米。 “大家看到,从其他行业来的这个公司只做一款车就卖爆了。虽然他的产品可能不是那么好,但卖得很爆,无论它的质量,甚至它的智驾能力都很……” 他同时接着表示,正是因为这家企业有强大的品牌能力、流量能力,所以一个产品就能打爆。 “就是新媒体互联网社交网络时代强大的营销能力,强大的品牌能力,所以他的一个产品哐就能打爆” 最后,余承东颇有些无奈地表示:“我们做的产品,做的比他还好啊,质量好、体验好、性能好,各方面都好,你还卖不过他,甚至还卖不过他的零头,这就是今天这个时代,没有办法。” 雷军早年接受采访时表示:曾经我也是华为的铁杆粉丝,但是后来友商的子品牌,从诞生之日,就怎么Low怎么来!我们只好生死看淡,不服就干!
AI智能体已具备与人类黑客正面较量的能力,部分情况甚至能取胜
IT之家 6 月 2 日消息,据外媒 The Decoder 1 日报道,Palisade Research 最近举办的一系列网络安全竞赛表明,AI 智能体已具备与人类黑客正面较量的能力,甚至在部分场合中胜出。 研究团队在两场大规模的“夺旗赛”(CTF)中对 AI 系统进行了实战测试,数千名选手参与角逐。在这类比赛中,参赛队伍需通过破解加密、识别漏洞等方式解决安全难题,找到隐藏的“旗帜”。 测试的目的是检验 AI 智能体能否与人类队伍抗衡。结果显示,AI 的表现远超预期,大多数参赛 AI 都超过了人类选手的平均水平。 参赛的 AI 系统复杂程度各不相同。有的团队如 CAI 花费约 500 小时打造专属系统,也有像 Imperturbable 团队仅花 17 小时就通过优化现有模型 EnIGMA 和 Claude Code 的提示词参赛。 在首场名为“AI vs. Humans”的比赛中,六支 AI 团队与约 150 支人类队伍展开比拼。所有选手需在 48 小时内完成 20 道密码学与逆向工程题目。 七个参赛 AI 中有四个成功破解了其中 19 道题。排名最高的 AI 团队位列总榜前 5%,整体表现优于大多数人类选手。比赛题目均可在本地运行,降低了 AI 的技术门槛。 尽管如此,部分经验丰富的人类选手依旧不落下风。有选手指出,自己曾参加多支国际强队,丰富的 CTF 实战经验和对常用解题策略的熟悉,是他们保持竞争力的关键。 第二场“Cyber Apocalypse”则难度大幅升级。AI 智能体需面对全新题型,并与近 18000 名人类玩家同台竞技。62 项任务中,不少要求与外部服务器进行交互,对主要依赖本地计算的 AI 系统提出挑战。 IT之家从报道中获悉,本场共有四个 AI 智能体参赛,其中 CAI 表现最佳,完成了 20 项任务,排名第 859 位,位列全部参赛队伍前 10%、活跃队伍前 21%。Palisade Research 表示,该 AI 系统的表现超过了约 90% 的人类团队。 研究人员还分析了 AI 所破解题目的难度。以人类顶尖队伍解题所需时间为参考,发现 AI 有 50% 成功率解出人类高手也需约 78 分钟才能破解的题目。换言之,AI 已具备解决高难度问题的能力。
大一统!Windows 11电脑USB-C接口功能混乱结束了 微软:所有接口必须支持数据、充电和显示
快科技6月2日消息,今后,Windows 11电脑USB-C接口功能混乱的局面,终于要结束了。 微软承诺,通过Windows 11 WHCP( Windows 硬件兼容性计划)新规,终结USB-C接口混乱的情况。 未来,微软承诺,确保所有USB-C接口都支持数据、充电和显示功能。这意味着,用户无需再猜测哪些接口支持哪些功能,只要插上就能用。 微软指出,新规应该已经适用于已安装Windows 11 24H2的认证Windows 11笔记本电脑和平板电脑。 微软在博客中据了一个例子:“在客户演示前五分钟,我把4K显示器插到了一台新笔记本电脑的USB-C接口上。结果显示器不亮,我脑子里一片混乱——线缆明明插好了,为什么就是不亮呢? ” 上述问题不在于USB-C接口本身,而在于“整 PC生态系统中USB-C接口功能并不一致”。换句话说,并非所有USB-C接口都生来平等,你无法仅凭外观判断哪些接口能够提供完整的体验。 实际情况是,一个接口可以为笔记本电脑充电并连接4K显示器;另一个接口可能仅提供USB 2.0的数据传输速度。 “USB规范允许这样做,但如果没有明确的强制要求,消费者将面临沮丧、猜测和无休止的故障排除。 ”微软说。 理论上,USB4标准承诺,一个USB Type-C接口即可实现所有功能——充电、高速数据传输、多显示器显示以及与Thunderbolt外设的兼容。 然而,Windows诊断数据显示,27%配备USB4的PC遇到过功能受限通知,这意味着用户插入了USB-C设备,但 PC 上未实现该设备所需的功能。 微软表示,大多数人不知道“USB 3.2 Gen 2x2”的含义,也不知道哪个接口支持哪些功能。因此,我们很高兴看到 USB-IF推出了更简洁、 更清晰的品牌标识指南,例如“USB 40Gbps”和“USB 80Gbps”,让每个人都能更轻松地了解每个接口的具体功能。 我们认为,清晰的品牌形象对于在Windows 11 PC上使用 USB-C接口的实际客户体验至关重要。虽然USB规范赋予 PC制造商选择端口支持的可选功能的能力,但我们的目的是为PC上的USB-C接口功能设定最低标准。 此外,微软还列出了一份Windows 硬件兼容性计划 (WHCP)新规下,不同USB接口的功能要求标准,大家可以详细对照。
LeCun新作反杀AGI派!AI连“鸟”都搞不懂,拿什么超越人类?
【新智元导读】LLM根本不会思考!LeCun团队新作直接戳破了大模型神话。最新实验揭示了,AI仅在粗糙分类任务表现优秀,却在精细任务中彻底失灵。 LLM真的可以像人类一样「思考」了? 图灵奖得主Yann LeCun联手斯坦福团队最新论文,狠狠打脸了LLM类人的神话。 论文链接:https://arxiv.org/abs/2505.17117 一直以来,LeCun认为,大模型就是随机鹦鹉,它们的智力甚至连阿猫阿狗都不如。 实验惊喜地发现,针对「鸟类」、「家具」这种粗分类任务,LLM表现远超「随机猜测」。 然而,它们在精细语义任务中,却栽了个大跟头。 还是同样的例子,人类一眼就能看出「知更鸟」比「企鹅」更像鸟类,这是因为知更鸟会飞、会唱歌,符合「鸟」的典型特征。 对于LLM,它们完全抓瞎,压根儿就分不清这种差异。 究其原因,LLM的内部概念结构和人类直觉,有着根本性错位。也就是说,它们可能知道「鸟」这个词,却理解不了「鸟」的深层含义。 那么,为什么LLM会有这种缺陷? 通过信息论框架,LeCun团队发现了惊人的事实: LLM追求的是极致的统计压缩,而人类追求适应性语义丰富。 人类语言通过结构所定义的范畴或许因语言而异,但这些范畴最终都映射至一个共通的认知空间——这既代表着人类共同的精神遗产,亦勾勒出心智世界的地理图谱 在铺开具体实验细节之前,先来看看研究的核心亮点。 LLM类人思考?大错特错 大模型真的像人类一样,形成「概念」和「意义」吗? 还是,它们只是对海量文本的模式进行复杂拟合,根本不懂意义? 针对这些疑问,研究人员引入了一套经典的「心理学实验数据」。 不同于网友随手投票,这些数据是数十年来的严谨、可靠的科学实验成果,来自认知科学领域的黄金标准。 比如,如何判断什么是「鸟」、什么是「家具」等。 实验中,研究团队测试了30多个大模型,包括BERT、LLaMA、Gemma、Phi、Qwen以及Mistral等6大算法家族,让它们来「理解」这些数据。 这里,他们使用了两个关键指标的权衡: · 压缩能力:模型能多高效地「组织」信息? · 意义保留:压缩之后,还能留下多少语义细节? 那LLM结果如何? 三大关键发现 团队通过分析多个不同LLM的token嵌入,并将其与经典的人类分类基准进行对比,得出了3大关键发现。 发现1:LLM有点像人 大语言模型确实能建立与人类一致的概念分类,而且表现显著高于随机水平。 图1:LLM生成的聚类结果与人类概念分类呈显著一致性 图1中展示的是人类分类与LLM嵌入聚类之间的调整互信息(AMI)得分,横轴为模型大小。 结果取自三个心理学数据集的平均值。所有模型的表现都明显优于随机聚类。 LLM生成的聚类结果与人类定义的概念类别显著吻合,这表明,模型捕捉到了人类概念组织的关键特征。 意外惊喜:小模型BERT竟然比超大模型表现更好!这说明一个问题:模型不一定越大越聪明。 这一现象揭示除规模因素外,还有其他变量会影响类人化的范畴抽象能力。 这些发现证实,LLM能够从其嵌入表示中还原出与人类认知相似的宽泛范畴,从而为更深层次的比较分析提供了依据。 然而,这种表面上的类人能力仅限于概念范畴的粗略划分。 进一步深入分析,发现真相并不简单。 发现2:精细语义的「滑铁卢」 在处理细粒度语义时,LLM明显吃力。 虽然LLM能有效构建宏观概念范畴,但其内部表征与人类感知的细粒度语义区分,如item典型性、与类别原型的心理距离等,仅保持有限的一致性。 这表明LLM与人类在概念内部的信息组织方式上,存在本质差异。 原文图5:LLM嵌入距离与人类典型性判断之间的相关性 比如——它们知道麻雀和企鹅都是鸟,但没法理解:相比企鹅,麻雀是更「典型」的鸟。 模型内部的概念结构,和人类的直觉不在一个频道上。 在LLM中,item嵌入与其类别标签嵌入的相似性驱动因素,可能与人类典型性依赖的丰富多维标准,如感知属性、功能角色不同。 因此,LLM可能倾向于捕捉与类别标签更统计均匀的关联,从而低估了人类概念中以原型为中心的渐进性质。 更重要的是,这一偏差不仅体现在具体的典型性判断中,更在于LLM与人类在信息组织方式上的根本差异。 发现3:存在本质差异 LLM和人类大脑,优化的目标根本不是同一个! · LLM追求极致压缩,尽量减少冗余。 · 人类追求丰富灵活,坚持保留上下文与适应性。 本质不同,注定思维方式不会一样。 这些发现揭示了当前人工智能与人类认知体系之间的重要差异,为构建更加贴近人类概念表征的LLM提供了方向。 这解释了为什么LLM既能展现出令人惊叹的能力,同时又错过了一些显而易见的拟人类式推理。 它们并没有出问题—— 只是它们优化的是模式匹配,而不是人类使用的丰富、利用上下文的理解。 这意味着: · 目前Scaling可能无法实现类似人类的理解能力; · 大家需要找到更好的方法,在压缩信息和保留语义丰富性之间取得平衡; · 实现通用人工智能(AGI)可能需要重新思考当前的优化目标。 简单来说,大模型就像是一台超级压缩机,拼命地把信息压缩,以消除冗余,追求最高效的模式匹配。 这让它们在处理大量数据时表现惊艳,但也丢掉了人类认知的精髓—— 那些模糊的、语境化的、充满细微差别的意义。 还以之前的分类举例,人类会因为「知更鸟在树上唱歌」的画面强化「鸟」这一概念,而大模型只会冷冰冰地计算单词的统计概率。 这并不是LLM的「故障」,而是它们被设计成了「模式匹配的机器」。 接下来,具体看下实验的实施细节。 三大核心问题 概念是人类认知的核心支柱,能让人高效理解信息,从稀疏数据中进行类推,并实现丰富的交流。 若LLM希望超越表面模仿,迈向更接近人类的理解方式,就必须深入研究它们的内部表征是如何权衡「信息压缩」与「语义保真」。 已有研究探索了LLM中的概念结构,提供了有益的视角,但大多缺乏一种基于信息论的方法,来定量地比较LLM与人类在「压缩与语义」的权衡上的表现。 而且「概念」的定义也没有得到公认的认知理论支持。 因此,关于LLM与人类在表达效率与语义保真度之间如何权衡的严谨比较仍然是一个亟待解决的问题。 另一方面,认知科学领域也曾将信息论应用于人类概念学习的研究中,但这些工作通常未与现代AI模型建立联系。 这次新研究的目标正是要填补这一空白,将认知心理学、信息论与现代自然语言处理结合起来。 为此,他们提出三大核心研究问题作为研究的主线: [RQ1]:LLM中涌现出的概念,在多大程度上与人类定义的概念类别相一致? [RQ2]:在人类与LLM中,这些概念是否展现出相似的内部几何结构,尤其是在典型性方面? [RQ3]:在人类与LLM的概念形成过程中,各自是如何权衡表示压缩与语义保真的? 这三个问统一在信息论分析框架下进行探讨: RQ1从宏观层面对比LLM和人类在概念分类上的对齐情况,这是信息压缩的关键表现; RQ2深入到这些类别的内部结构,分析诸如「词条典型性」等语义细节的保留程度; 在此基础上,RQ3利用完整的信息论框架,全面比较LLM与人类在压缩与语义之间的优化策略是否存在根本差异。 统一框架:信息论分析 借鉴了率失真理论(Rate-Distortion Theory,RDT)和信息瓶颈原理(Information Bottleneck,IB)的核心思想,研究团队从统一的信息论视角深入探讨研究中的三大核心问题。 研究首先从表示的紧凑性与语义保留这两个方面入手,逐步展开分析,最终综合这些见解来评估概念表示的整体效率。 结合信息论的视角,三大研究问题按如下方式展开: [RQ1]通过类别对齐探究表示的紧凑性:首先关注信息如何被压缩成类别结构。 无论是人类的分类方式,还是LLM生成的聚类方法,都是将多样的元素X简化成有组织的类别C。 针对RQ1,通过衡量模型聚类(CLLM)与人类分类(CHuman)之间的信息重合程度(如使用调整互信息等指标),评估两者在压缩信息时的一致性。这一部分主要对应框架中的「复杂性」维度,即输入信息的高效表示能力。 [RQ2]通过内部结构探究语义的保留:接下来考察在压缩后的表示中,意义是否仍然被准确保留。 有效的系统应能维持重要的语义细节。 为研究RQ2,研究团队对比了LLM内部用于衡量元素中心性的指标与人类对典型性的判断,考察模型是否能捕捉到人类分类(CHuman)中的细致语义结构。这部分对应的是框架中的「失真」(或语义保真度)维度。 [RQ3]评估整体表示效率中的权衡关系:在探讨了紧凑性和语义保留之后,研究团队将整个框架整合起来。 针对RQ3,研究团队使用统一的目标函数L(将在后文详细说明),定量评估LLM与人类在应对信息权衡问题时的效率。 理论基础:率失真理论+信息瓶颈 为了严格形式化「表示紧凑性」与「语义保留」之间的平衡关系,信息论提供了一些理论工具。 其中,率失真理论(Rate-DistortionTheory,RDT)提供了基本框架。 RDT用来衡量在允许最大「失真」D(即语义损失)的前提下,将信息源X表示为C所需的最小「比率」R(即表示复杂度)。 其目标通常是优化R+λD代价函数,从而对表示效率进行系统评估。 另一个相关理论是信息瓶颈原理(Information Bottleneck,IB)。 IB方法试图从输入X中提取一个压缩表示C,该表示在保留尽可能多关于相关变量Y的信息的同时,最小化C与X之间的互信息I(X;C)——也就是压缩带来的「代价」。 这个过程通常被形式化为最小化I(X;C)−βI(C;Y)。 分析框架直接借鉴了RDT中「率失真权衡」的核心思想,构建了一个明确表达该权衡的目标函数L。 率失真曲线的例子 目标函数:复杂性与语义失真之平衡 在信息论的分析框架下,目标函数用于评估由原始词项集合X(如词嵌入)所派生的概念类簇C的表示效率: 其中,β≥0是一个超参数,用于平衡这两个部分在整体目标中的相对重要性。 这个函数提供了一个统一而严谨的度量方式,用于评估某个类簇方案C在信息压缩与语义保留之间的权衡效果,是解答RQ3的核心工具。 信息论框架要具备完整的工具集,还需要定两个关键部分: (1)复杂性项,对应RDT中的「比率」,用于量化将原始项X表示为类簇C所需的信息成本,表示的紧凑程度(RQ1); (2)失真项,对应RDT中的「失真」,用于衡量在这一类簇结构中所丢失或模糊的语义信息,衡量语义保留的程度(RQ2)。 与IB原理中的思想一致,复杂性项采用互信息I(X;C)。 但在失真项上有所不同,研究者采用的是类簇内部的语义方差,即项嵌入相对于类簇中心的离散程度,来直接衡量语义的保真度。 在IB中,「失真」与外部变量Y的相关性绑定不同。与之不同,这次做法是将语义失真作为类簇结构本身的一种内在属性直接计算。 不管是基于人类认知数据还是LLM嵌入构建的类簇结构C,这种直接的方法能够清晰地评估,类簇在保持结构紧凑性和表达原始数据X的语义信息之间,是如何实现平衡的。 下面将框架中的两个核心组成部分:复杂性(Complexity)和失真(Distortion)。 复杂性项 第一个部分是Complexity(X,C),衡量的是将原始项X表示为类簇C所需的信息成本或复杂程度。 具体地,它通过项与其类簇标签之间的互信息I(X;C)来衡量。 互信息越小,代表压缩效果越好,也就是说,用类簇标签C表示项X所需的信息越少。 定义如下: 因此,复杂性项可以表示为: 该项正是用于量化RQ1中所关注的「表示紧凑性」。 失真项 第二个部分是Distortion(X,C),用于衡量将项归入类簇时所损失的语义精度。 项嵌入在类簇内的平均方差来反映了语义精度损失,即类簇内的项与中心之间的距离越小,说明语义保留得越好,类簇越具有语义一致性。 对每个类簇c∈C,先计算其质心(中心点): 再类簇内部的方差: 最后,总的失真值定义为: 失真越小,说明类簇中的项越集中在其语义中心,语义信息保留越好,直接关联于RQ2中提出的语义保留问题。 实证研究 为了回答核心研究问题,研究者精心准备了基准数据集。 之后,在基准数据集和统一架构下,研究人员比较LLM与人类在概念策略差异。 数据集 自认知心理学中的经典研究,深入揭示了人类的概念形成过程,提供了丰富的实证数据,说明人类如何进行分类判断、如何评估类别成员归属感以及如何感知「典型性」。 与许多现代众包数据集相比,这些经典数据集经过认知科学专家的精心设计与筛选,更能反映人类深层次的认知模式,而非表面上的联想关系。 它们基于当时正在发展中的概念结构理论,具有高度理论指导意义。 研究团队特别选取了来自不同小组的三项深远影响的研究。 它们都采用了严谨的实验设计,并提供了关于类别分配和典型性的重要数据。 这次研究整合了这些数据,构建了统一的基准数据集,覆盖34个类别,共1049个item。 [RQ1]评估概念对齐性 为探究LLM所生成的概念类别与人类定义的类别之间的对齐程度(对应RQ1,即表示紧凑性的考察),研究人员对LLM的token嵌入进行k-means聚类。 聚类数量K由每个数据集中人类类别的数量决定。 以下指标用于衡量LLM类别与人类类别之间的一致性,并与随机聚类作为基线进行比较: 调整互信息(AMI) 归一化互信息(NMI) 调整兰德指数(ARI) 这些指标用于量化模型在压缩信息的同时,是否以与人类相似的方式组织类别。 [RQ2]分析类簇内部几何结构与语义保留 为了评估LLM表示是否能捕捉到人类所体现的「典型性」特征(对应RQ2,即语义保真度的衡量), 研究团队分析类别内部的几何结构: 对每个item,计算其词元嵌入与其对应的人类定义类别名的词元嵌入之间的余弦相似度(例如,「robin」与「bird」)。 然后,将这些LLM计算得到的相似度,与来自认知科学数据集的人类「典型性评分」进行相关性分析(采用Spearman等级相关系数ρ)。 该方法用于检验LLM能否捕捉人类在语义类别中对「更具代表性」成员的判断。 [RQ3]评估压缩与语义之间的整体权衡效率 为了评估LLM与人类在压缩信息与语义保留之间的整体平衡(对应RQ3),研究团队使用第4节中提出的目标函数L(β=1),分别对人类与LLM的概念结构进行计算。 LLM的类簇结构由多种K值下的k-means聚类结果构成; 对比分析其复杂性项I(X;C)与失真项之间的权衡。 此外,他们还将类簇熵作为紧凑性(压缩能力)的辅助度量标准。 为保证稳健性,所有k-means聚类均进行100次随机初始化,并取结果平均值。
硅谷今夜集体失眠!互联网女皇340页AI报告猛料刷屏,大佬熬夜头秃
【新智元导读】48小时前,互联网女皇的一份340页《人工智能趋势报告》一经发布,立刻引起圈内地震。时隔6年,Mary Meeker依然宝刀未老。硅谷大佬们已经不眠不休,连夜开始研读了! 互联网女皇、传奇投资者Mary Meeker,再度出山! 曾经,女皇的《互联网趋势报告》一出,整个科技圈都要抖三抖。硅谷大佬觉都不睡了,都要连夜研读这份刷屏圈内头条的重磅报道。 蛰伏几年后,她带着一份340页重磅报告,又回来了。 这一次,她瞄准了AI界的当红炸子鸡OpenAI。 在各个创始人和CEO的圈子,这份报告已经全面爆火 在这份340页报告中,51次出现「前所未有」这个词,核心要点就是——AI驱动的这场变革已经全面且不可逆转,既是机遇遍地的黄金时代,也是奇点的「关键时刻」! 女皇本皇,五年后回归 Mary Meeker,大名鼎鼎的互联网女皇。 曾经,她是曾是摩根士丹利TMT团队的一员。这个团队分量举足轻重,曾经领导了Netscape的IPO,这直接开启了1996年的互联网繁荣! 在1996年,她发布了《互联网趋势报告》的第1版——一份长达322页的深度分析,探讨了网络的潜力。 从此,她每年都会发布互联网趋势报告,并且早早就预见到了以下几个趋势。 a. 1996年 → 在线人口激增(到2000年增长10倍) b. 2000年 → 在线广告>印刷广告(于2004年发生) c. 2008年 → 移动占据主导地位(于2014年发生) 2010年,她加入凯鹏华盈(Kleiner Perkins),领导他们的成长基金,随后一举投资了 Facebook、Spotify、Square、Twitter和Snap,见证了它们的辉煌。 2018年,KP Growth Fund分拆,重新命名为BOND Capital。 2019年,她暂停撰写《互联网趋势报告》,专注于创办BOND。 如今,暌违六年,她带着340页重磅《AI趋势报告2025》回归了! 在这份报告中,值得摘抄的金句比比皆是,比如下面这些例子。 就像过去的电力和其他通用技术一样,人工智能和云计算数据中心代表了工业化的下一个阶段。 ——Brad Smith,微软副董事长兼总裁 这次情况不同。我们可以通过规模来弥补,将来我们也会想办法将用户变现。 ——商业中最危险的三句话 下面,就让我们看一看这份报告的核心内容。 AI推理,已经暴跌成白菜价 如今,AI使用成本下降的速度之快,已经是前所未有。 如今,虽然训练一个顶级模型的成本高达10亿美元,在过去8年里飙升了2400倍,但推理成本在两年内已经暴降了99.7%。 (以上数字,由每百万token的成本计算得出) 由此,整个行业的游戏规则都在被重塑。 2024 Blackwell GPU的单token功耗,已经比英伟达2014年推出的Kepler GPU前代产品低了105000倍。 顶尖AI模型的成本,从此迅速下跌。 因此,专注于定制化场景的轻量级模型,相比起OpenAI这种烧掉巨额资金的巨人,将直接完爆。 与此同时,谷歌的TPU和亚马逊的Trainium也在大规模开发,用于云服务,而且进展迅速。 在Mary Meeker看来,这些不是边缘项目,而是基础性的赌注。 OpenAI估值神话,竟靠印度老哥撑起? 这份报告还透露了一个令人意想不到的事实—— 印度,已经成为ChatGPT应用的全球第二大市场! 是的,如今ChatGPT最大的月活用户竟是来自印度,占比13.5%,直接超越美国本土的8.9%。 而更令人惊讶的是,印度竟同时是DeepSeek最大的市场。 在DeepSeek移动应用的全球用户中,有7%来自印度。 其中一个原因就是,每GB互联网数据的低成本能够让67%的国民上网。 而另一个亮点就是,印度老哥的对价格的敏感度要远远超过美国用户,因此如果有哪些竞争对手能做到以低成本突围,就拥有了非常有力的突破口。 中国模型鲸吞市场,烧钱模式不灵了? 与此同时,中国模型正以极低的成本鲸吞市场,速度也是前所未有。 如今,OpenAI估值已达3000亿美元。 但Mary Meeker犀利指出:比起收入,OpenAI的估值看上去实在是「太贵了」! 毕竟,OpenAI、xAI和Anthropic这三家顶尖AI公司筹集的资金,已经达到950亿美元,直接壕出天际。 然而,三家加起来的预期年化收入,也不过120亿美元而已。 具体来说,OpenAI的年化收入约92亿美元,估值却飙升到了3000亿美元,估值是收入的33倍。 而Perplexity和xAI的估值/收入倍数,都达到了约75倍。 比起中国模型,尤其是DeepSeek带来的低成本开源替代方案,这个泡沫已经在被戳破的边缘。 可以说,他们的基本商业模式,快被中国玩家连根掘起了。 对此,Mary Meeker的评论亮了——「投资人,请只投资你愿意损失的金额」。 把所有鸡蛋放在一个篮子里是很冒险的,因为现在一切都在上涨,看起来无往不利——直到某一天情况突然反转。 如今,中国AI模型已经在飞速追赶,性能接近了美国AI的顶尖水平,成本却低得可怕。 比如,百度ERNIE 4.5 Turbo的成本只有DeepSeek V3的40%,GPT-4.5的0.2%。 这个成本价对比,实在太惨烈了。 与此同时,DeepSeek-R1已经在MATH Level 5数学基准测试中取得了93%的高分,非常接近OpenAI o3-mini模型的95%。 与此同时,如今中国工业机器人的装机量,已经占到了全球的75%。 而根据Meta首席技术官Andrew Bosworth的说法,如今全球的AI态势,已经发展成了一场不折不扣的全新「太空竞赛」。 如今大家已经公认,AI体现的是各国的综合实力,直接决定了未来地缘政治的影响力。 可以说,如今的AI模型争霸战,基本就是中美两国的战场。 17年至24年的统计数据显示,中国发布的大规模AI系统数量,已经和美国不相上下。 ChatGPT 17个月暴增8亿用户,史无前例 当然,无人能否认此前ChatGPT的辉煌。 毕竟,它曾在17个月内达到8亿用户,这种增长速度已经超越了人类历史上任何一项技术。 可以看到,ChatGPT的应用内使用时间,已经在两年内翻了一番。 其中,桌面端是用户进行重度工作的场所,每天参与时间为18分钟,比多邻国的15.5分钟更长。 并且,谷歌的搜索市场份额,也在被OpenAI毫不留情地鲸吞。 如今,OpenAI的年度搜索量是3650亿次,达到谷歌的5.5倍。 可以说,我们已经在逐步见证搜索市场的大变天。 如今,AI的用户增长、使用量和资本支出,都是前所未有的爆炸式增长,已经达到了人类史上最快的技术渗透速度。 而在过去1000年,技术进步已经推动了全球GDP的指数级增长。 不过,ChatGPT会永远占据主导份额吗?答案是未必。 或许,它将成为谷歌,或者像AltaVista那样被彻底遗忘。 图表显示,DeepSeek和Grok已经明显地后来居上了。 下一个10亿用户市场,会在哪里? 下一个十亿用户,会是AI原生用户吗? 10年前,谷歌发起了面向技术的语言和低连接性可访问性的NBU(Next Billion Users,下一个十亿用户)项目,让技术能够接纳下一个10亿互联网用户。 今天,「NBU」正在从以语言为中心转向以AI为中心。 低连接性 → 卫星互联网连接性 浏览器/应用界面 → 语音/语言界面 如今,全世界还有人口总数的32%——26亿人,尚未接入互联网。 而因为卫星驱动的互联网接入增长,这批人群接入的潜力将大大增加。 就如同来自印度的十亿互联网用户,跨越了桌面/PC和宽带时代。 下一个十亿互联网用户,将跨越应用生态系统,直接进入智能体生态系统。 届时,他们将越过浏览器和搜索栏,直接使用AI。 由此,他们完全跳过了传统应用层,以智能体为中心的体验,将颠覆现在已有的所有互联网技术等级,平台的意义将被消解、重新分配。 总之,目前的AI赢家,并不是永远的赢家。基础设施正在发生巨大改变,应用也会随之改变。 目前唯一已知的是:我们正处于另一个由AI驱动的技术超级周期的开端。
第一家因为“AI first”而被用户抛弃的公司出现了
“那只猫头鹰死了。” 2025年5月17日,当Duolingo突然清空其TikTok和Instagram上的所有内容时,1000多万粉丝面对的是一片虚无。账号简介只剩下神秘的“gonefornow123”,配着枯萎的玫瑰。 但这不是黑客入侵,而是一次精心策划的营销动作。Duolingo发言人对媒体的解释颇有禅意:“我们正在尝试‘沉默’,有时候,最好的发声方式就是先消失。” 问题是,他们想让大家忘记什么? 三周前,CEO Luis von Ahn刚刚宣布公司将转向“AI-first”战略,计划用人工智能逐步取代承包商。消息一出,社交媒体炸开了锅。“Mama,may I have real people running the company?”这条评论获得了69,000个赞。用户们开始删除app、取消订阅,有人甚至录制视频,亲手终结了1500多天的连续学习记录。 面对排山倒海的负面反馈,Duolingo选择了一个看似聪明的策略:制造更大的新闻来转移注意力。清空社交媒体账号,营造神秘感,让大家猜测发生了什么,而不是继续讨论“AI取代人类”。 三天后,他们确实回来了——带着一个戴着三眼猫头鹰面具的神秘人物,发表了一段模糊不清的独白。 但用户的记忆没那么短。评论区里,愤怒依旧:“别装神弄鬼了,我们知道你们在干什么。” 一、一次事先张扬的AI转型 故事要从一个月前说起,但Duolingo的AI转型其实早已悄然开始。 2023年底,公司裁掉了约10%的承包商,主要是翻译和内容创作者。当时只在Reddit上引起了小范围讨论,一位被裁的俄语翻译Benjamin Costello事后回忆:“他们最初告诉我们不会被AI取代”,到了2024年,裁员仍在继续。先是负责小语种的团队,比如俄语英语互译;10月份,连西班牙语、日语这些热门语种的内容团队也未能幸免。 真正的引爆点出现在2025年4月28日。 这天,CEO Luis von Ahn的一封内部邮件被公开发布在LinkedIn上,正式宣布Duolingo成为“AI-first”公司。根据Duolingo的另外一篇官宣内容:“开发我们最初的100门课程花了约12年,而现在,仅用一年时间就能创建并推出近150门新课程。” 但更刺眼的是邮件中的几条“指导原则”: “我们将逐步停止使用承包商来完成AI可以处理的工作”; “只有当团队无法通过自动化进一步完成工作时,才会增加人员编制”; “我们不能等到技术100%完善。宁愿加紧行动,偶尔在质量上做出小的妥协”。 邮件公开后48小时内,Duolingo的社交媒体评论区彻底沦陷。在TikTok上,一个播放猫头鹰玩偶问“Mama,may I have a cookie”的趣味视频下,最高赞评论变成了“Mama,may I have real people running the company”,获得了超过75000个赞。 用户@amandabb__的宣言代表了许多人的心声:“那只猫头鹰对我来说已经死了。” 更戏剧性的是随之而来的退订潮。用户们纷纷晒出取消订阅的截图,其中一位用户录制了删除app的全过程,配文:“1547天的学习记录,就到这里了。”该视频获得超过500万次观看。 一位前内容创作者接受采访时透露了AI取代人工的真实影响:“我享受创造有趣的练习题。我们被鼓励让学习变得好玩。但AI生成的内容非常无聊,经常出错。即使是付费的Max版本,也会给出错误建议。” 进入5月中旬,危机开始向资本市场蔓延。分析师开始追问,用户流失的具体数据是多少? 正是在这样的背景下,5月17日,Duolingo做出了那个看似“聪明”的决定——清空所有社交媒体内容。官方说法是“探索沉默的力量”,但时机如此巧合,明眼人都看得出这是转移焦点的策略。 三天后的5月20日,他们带着一个诡异的视频回归:一个戴着三眼猫头鹰面具、身穿黑色连帽衫的人物,用变声器说着模棱两可的话:“自从那篇关于AI的帖子发布后,一切都崩塌了。”视频试图营造一种内部反抗的假象,仿佛社交媒体团队在对抗公司高层。 但用户们的反应一针见血:“DUOLINGO从来都不有趣,有趣的是我们。” 眼看神秘营销失败,5月22日,Luis von Ahn不得不亲自出镜,与“反抗者”展开对话。但整个对话避重就轻,当被问到“还会有人类员工吗”时,他强调“我们会继续雇佣员工”,却对承包商的命运只字不提。 最耐人寻味的一段对话发生在讨论语言学习的本质时。反抗者问:“学习外语本质上是关于人与人的连接,AI-first怎么可能做到?”CEO的回答暴露了思维的根本分歧:“AI将帮助我们触达更多人,教更多人。” 两天后的5月24日,可能是感受到了持续的压力,von Ahn再次在LinkedIn发文,试图软化立场:“明确地说,我不认为AI会取代我们员工的工作。”但他依然坚持AI-first战略,只是把措辞变得更温和。有意思的是,LinkedIn评论区一片赞美之声,与其他平台的愤怒形成鲜明对比。有用户讽刺道:“看看这些精英的互相吹捧,他们活在另一个世界。” 虽然批判的声音在各大社交平台持续。但公司最新财报显示:营收同比增长38%,付费订阅用户达到1030万,同比增长40%。 二、“完美”的增长故事 表面上看,Duolingo的AI战略是一个完美的增长故事。 公司最新财报数据确实亮眼,2025年第一季度营收2.307亿美元,同比增长38%;付费订阅用户突破1000万,同比增长40%;日活用户4660万,增长近50%。最引人注目的是内容生产效率——借助AI,课程开发速度据称提升了10倍。 AI对这份亮眼成绩单的贡献是多方面的: 高价订阅档位Duolingo Max凭借GPT-4驱动的“Explain My Answer"和"Roleplay”等功能,成功提升了ARPU(每用户平均收入)。自研的Birdbrain算法通过实时调节题目难度,提高了用户黏性与付费转化率。同时,生成式AI与模板化工作流使得课程制作周期从“月”缩短到“周”,一年内新增超过百门语言课程,并拓展至音乐、数学等领域,极大地拓宽了用户和付费来源。 公司在2024年裁撤了约10%的合同制作者,将重复性的翻译与脚本创作任务交给了AI模型。 但深入分析这些数字,会发现一个微妙的变化。虽然营收大涨,毛利率从2023年的73%下滑到2024年第四季度的71.9%。原因在于AI推理成本。每一次用户与AI对话,每一个AI生成的句子,都需要消耗算力。 然而,Duolingo的盈利和增长并非仅靠AI“一招鲜”。其强大的品牌效应、深入人心的游戏化设计以及积极的跨学科扩张同样功不可没。 但不可否认的是,无论从“开源”还是“节流”的角度看,AI都提供了重要的价值。但另一个重要的问题在于,AI真的能提供同等质量的教学内容吗? 一位Duolingo内容创作者这样描述差异,我们曾经会为一个语法点设计有趣的故事情境,会考虑文化背景,会加入让人会心一笑的双关语。AI呢?它只会生成语法正确但毫无灵魂的句子。'The cat sits on the mat'——语法没错,但谁会因此爱上一门语言? 这触及了问题的核心,语言学习不仅仅是掌握语法规则和词汇量,更是理解一种文化,建立人与人之间的连接。当我们用算法替代人类,失去的不只是工作岗位,更是语言背后的温度和故事。 硅谷对此有一套标准说辞,AI是“赋能”而非“替代”,是让员工专注于“更有创造性的工作”。但Duolingo的案例揭示了真相,当CEO明确表示“只有无法自动化的工作才能申请增加人手”时,所谓的“赋能”就是彻头彻尾的谎言。 而这种“AI-first”的逻辑在硅谷并不新鲜,Duolingo不过是这场效率革命中的又一个玩家。 值得玩味的是Luis von Ahn的身份转变。作为reCAPTCHA的创始人,他曾经致力于创造区分人类和机器的技术,帮助网站抵御机器人攻击。那些让我们证明“我不是机器人”的扭曲字符,正是出自他手。如今,这位曾经的人机边界守护者却成了最激进的AI布道者,宣称“没有什么是机器不能教的”。 这种转变或许正反映了整个科技行业的困境。当增长成为唯一的KPI,当投资人只看重AI故事,创始人们别无选择。Builder.ai的崩塌提供了一个极端案例——这家曾估值10亿美元的“AI独角兽”最终被曝光用印度程序员冒充AI,销售额夸大300%后轰然倒塌。但即便如此,新的“AI-first”公司仍在前赴后继。 当技术进步与人文价值发生冲突时,消费者开始用脚投票。那些删除app的用户,那些终止千日连续学习的忠粉,他们反抗的不是技术本身,而是技术背后冰冷的逻辑——把人简化为可被替代的成本项。 文章写到这里,似乎应该有个结论。但真相是,没有人知道答案。下一个宣布“AI-first”的会是谁?当每家公司都在讲同样的故事时,用户还会相信吗?或者,当别无选择时,我们是否只能接受这个AI主导的未来?
横琴数字艺术博览会闭幕,聚焦VR与全息技术应用
凤凰网科技讯 2025年6月2日,首届横琴-澳门国际数字艺术博览会在横琴文化艺术中心闭幕。这场为期八天的盛会由横琴粤澳深度合作区民生事务局指导,南光文化创意产业有限公司和阳光媒体集团主办,摩境数字艺术传播有限公司联合主办,吸引了过万人次现场观展,并获得150余家媒体及自媒体关注报道。博览会以“在山顶重逢”为核心理念,打造了6000平方米的未来感展区,分为“重施魔法”、“艺术未来式”、“科技重构艺术”和“超级联想”四大主题,成功推动科技与艺术的深度跨界融合,为粤港澳大湾区文化科技发展注入新动能。 本届博览会聚焦人工智能生成内容(AIGC)在艺术领域的应用,引发广泛讨论。联想集团副总裁王传东强调,AI PC等设备是数字艺术创作的关键工具,能帮助艺术家“跨越古今”创作。艺术家们对技术工具的需求明确:设备需可靠、响应精准且操作直观,避免程序Bug或兼容性问题干扰创作过程。在作品呈现环节,LED巨幕、全息投影和VR技术等被广泛应用,例如LED巨幕重现《千里江山图》的“咫尺千里”效果,全息投影构建六面沉浸空间,VR设备支持多人虚拟协同创作。科技从业者现场感叹,产品被艺术家“用得如此出神入化”,凸显科技作为“创作者思想延伸”的使命。 AIGC技术成为博览会热点,但艺术家一致认为AI仅是辅助工具,而非艺术创造者。中央美术学院教授费俊指出:“AIGC是高效的生产工具,适合批量生成标准化内容,但在主动创作和创新方面有局限;艺术的核心价值源于人类创造力。”博览会特设《星・藏》公益画展,展示孤独症儿童原画与AI生成作品的对比:AI作品虽技法娴熟,但儿童原画的“溢满情感”更受关注,印证情感表达为艺术不可替代的元素。雅昌数据艺术公司总经理兰岚补充,AIGC不仅改变创作方式,还拓展思维维度,形成“人机共创”模式,其中“提示词工程”成为艺术家新技能。 博览会汇聚故宫博物院及14组国内外知名艺术家,展示数字艺术前沿作品,同时吸引20余家科技企业参展,包括智能设备和软件服务商。期间举办15余场主题演讲、论坛及艺术课堂活动,探讨数字艺术趋势与科技融合路径。广东省委横琴工委副书记聂新平表示,该活动是“推动横琴迈向国际化的重要实践”,为创新者、创作者和创业者提供平台。 首届横琴-澳门国际数字艺术博览会以“会展新物种”定位收官,标志着大湾区在文化科技融合领域取得突破,未来将继续深化产业生态和国际交流,为全球数字艺术发展贡献智慧。
放下身段、躬身入局,奥迪想要一场翻身仗
德国四环 中国AUDI 如果说目前宝马是 BBA 三家里面表现相对最「支棱」的那个,那么奥迪可能是最「乐观大胆」那个。 奥迪的底色是「进取」 奥迪作为 BBA 阵营里年龄最小、资历最浅的成员,是唯一一个敢把所有业绩指标调高的成员。在前不久的财报电话会上,奥迪给 25 财年定下的交付目标从去年的 169 万辆提升到了 170 至 180 万辆,营收从 645 亿欧元调高到了 675 至 725 亿欧元,营业利润率更是直接从 24 年的 6% 定到了 7% 至 9%。 同时相比于仍在逐步试探、稳步推进的宝马与奔驰,奥迪的打法显得更具冒险精神和系统性,它更开放、更舍得投资也更能接受风险。 毕竟三十年河东三十年河西,没有人愿意永远当老三。 奥迪在 25 到 26 年打算做三件事。 一是在德国工厂投资 80 亿欧元升级制造基地,为电动化铺路的同时通过「灵活生产体系」对冲市场风险,继续推出 10 款左右的插混车型,用过渡产品来缓解转型阵痛。 二是在 2026 年前在北美市场推出 10 款新车型,并实现本地化生产,同时捕捉电动皮卡、SUV等细分市场的机遇。 三是继续深耕中国市场,与一汽合作推出基于高级电动平台(PPE)和高级内燃平台(PPC)的中国专供车型,与上汽联手,推出 3 款基于高级数字化平台(ADP)的新智能联网汽车(ICV),以及全面采用华为乾崑智能辅助驾驶方案,其中新品牌的第一款车 AUDI E5 Sportback 已经在工信部亮相了。 奥迪 A6 e-tron 这很符合奥迪体系(奥迪、宾利、兰博基尼、杜卡迪)在大众集团 Brand Group Progressive(进取品牌群)的定位, 如何算得上「进取」,奥迪自己在 2023 年奥迪发布的「奥迪未来计划」中是这么描述的—— 在新能源时代,凭借技术优势,在进取类高端汽车市场占据核心地位。 进取品牌群 这个未来计划用「四个环」定位了奥迪未来的战略核心,即「产品」、「技术」、「品牌」、「重要市场(中国和北美)」。 简单概括一下就是,在奥迪已有技术优势(quattro 等)的基础上,在新能源时代继续做最顶尖的技术引领者,并且全身心扑在北美和中国市场。 奥迪 RS6 Avant GT 破釜沉舟才有一线生机 虽然大家总调侃奥迪集团的竞争策略是「咬紧宝马,绝不松口」,但倒是从来不盲目瞎抄,自身有着很明确的战略和清晰的定位,而且身段灵活也比宝马灵活的多,根据市场做调整的速度相当迅速。 (奥迪对标宝马,宾利对标劳斯莱斯,杜卡迪对标宝马摩托,还有一个兰博基尼用来拉高整体调性。至于 Mini,那大概是大众 Polo 的对手。) 杜卡迪Panigale V4 在中国市场,主动拥抱华为和大胆建设新品牌 AUDI 就是奥迪大胆以及身段灵活的两个力证。 奥迪在今年一开年就官宣了要和华为全面合作,是 BBA 中的第一家,比后来宝马牵手华为还要早上 2 个月,并且不是车手互联那种小打小闹,直接把 PPC 燃油平台及 PPE 纯电平台整个辅助驾驶的部分都交了出去。 奥迪确实用心琢磨了中国市场,不仅知道「A6L+鸿蒙智行」的吸引力,也知道在辅助驾驶和智能化这条路上,中国团队已经领先了很多,不能再掉队了,打不过就加入嘛,只要能把车卖出去,至于和哪家合作,都可以谈。 一汽奥迪 A6L 如果说一汽奥迪的任务是继续维护为延续奥迪的品牌价值,那上汽奥迪的则更多了承载了奥迪对新年轻一代用户的渴求和期盼,举个不甚恰当的例子,AUDI 之于奥迪,有点像是一加之于 OPPO,iQOO 之于 VIVO 的感觉,主品牌负责价值和调性,子品牌则负责扩圈以及渠道探索的任务。 新 AUDI 品牌的负责人曾明确表示: 我们并非要迁移四环用户,而是吸引新消费者。 从即将发布的 AUDI E5 Sportback 来看,奥迪这次确实下了大决心,甚至拿出了一些「破釜沉舟」的勇气,来做这款新品牌的首辆车。 按照奥迪的说法,该车由奥迪方面负责产品和工程设计,智能化和辅助驾驶则由上汽集团负责,双方是在 2024 年 5 月签署的合作协议,这么推算,新的设计团队只用了不到一年时间就完成了 E5 Sportback 从设计到首秀的所有阶段,这对于一家跨国车企来说,能达到这个开发效率确实是一件难以想象的事情。 而且 AUDI 本身的设计风格也堪称「激进」,一点都没有奥迪最近在新车设计上不激进、求稳的影子,要知道,BBA 其他两车的换代车型都因为设计风格的改变还被市场诟病了许久,在这个时间节点,一套全新的设计语言想要被市场接受,难度程度可想而知。 不过在最终呈现的结果上,AUDI E5 Sportback 也没有那种「中外合作」时常有的别扭感,可能说「好看精致」大家还会有不一样的观点,但如果说「独特和谐」,应该会更能受到认同。 这也正是这个新的 AUDI 品牌想要表达出的理念: 与奥迪四环品牌「精致、有成、自我实现」的定位不同,新 AUDI 品牌以「科技感、趋势引领、自我表达」为核心,瞄准的是那些「前瞻新锐、果敢自信、彰显本色」的年轻科技先锋。 基于这个「更有科技感」「更能彰显个性」的定位,奥迪在新 E5 Sportback 上大胆采用了新的环形灯面和腰线设计,内饰里面也使用了渐层律动氛围灯、贯穿式连屏、卡片式界面等元素,就是要让消费者一眼就能看出来,它和曾经的奥迪不一样。 但这确实是一场「豪赌」,毕竟,对一家跨国豪华品牌来说,把「脸」交出来重新定义,「灵魂」放下来重新竞争,从来都不是件容易的事。但也正因为如此,AUDI 这个品牌的勇气,反而显得格外真实。 正如我们在新品牌亮相当晚所评价的那样, 如果上汽对自家新能源技术有信心,奥迪对自己的本土化有决心,那么 AUDI 品牌和 AUDI E 的出现,也就合情合理,去除幻想,直面市场。 只有把过往的品牌价值清零,才能真正地参与到竞争当中,这就像一场在惊涛骇浪中的游泳比赛,只有脱光了,投入水中的人才能到达终点,穿着衣服试试水温的人,永远只能在岸边。 何况,奥迪手里也不仅仅只有 E5 Sportback 这一张牌,全新奥迪A5L、全新奥迪Q5L、奥迪A6L e-tron、奥迪Q6L e-tron 等等也都在路上。 这场翻身仗,打了才知道输赢。 文|芥末
玩完DeepSeek R1新版,外国网友又“蚌埠住了”?
几天前,没有预热,没有发布会,DeepSeek 低调上传了 DeepSeek R1(0528)的更新。 海外媒体最关注的是,DeepSeek 的更新将幻觉率削减约 45%-50%,并把 R1 的性能推进至 OpenAI o3 与 Google Gemini 2.5 Pro 的相近水平。 与此同时,海外一些开发者、AI 圈研究人员开始跑基准测试,并在社交媒体平台上热议它的新能力,尤其是与科技巨头旗舰模型的差距。 从海外用户这几天的反应来看,DeepSeek 这一次更新,虽然没有今年初横空出世时那样轰动,但依然让不少外国网友表示「鹅妹子嘤」,同时也让越来越多人开始问一个问题:不单单是成本,来自中国的、开源 AI 社区的模型,是否在各种能力上,很快就可以超越世界上最强大的专有模型? 01 DeepSeek 再次「登顶」 在各类 AI 社群中,reddit 平台有不少 AI/LLM 相关子社区。其中,在 r/LocalLLaMA 与 r/SillyTavernAI 这样的圈内社区,对 DeepSeek 的更新有不少热帖。 「全新升级的 Deepseek R1 在 LiveCodeBench 上的表现几乎与 OpenAI 的 O3 模型不相上下!开源的巨大胜利!」一名用户发布的帖子标题如此声称。 reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit 一些开发者在测试了 R1 的最新功能。他们主要夸赞 R1 在数学问题和编程方面的表现,尤其是在处理复杂的积分或递归函数时。与之前的版本不同,R1-0528 拥有「更长远的思考能力」, 有测试者指出,它「表现出主动性」并且「不会那么快放弃」。 「刚刚测试过..... 我有相当复杂的代码 1200 行,并添加了新功能... 似乎现在代码质量处于 o3 级别... 只能说 WOW」。reddit 社区 r/LocalLLaMA 上的一名常驻用户如此称。 reddit 社区关于 DeepSeek 更新的回复|图片来源:reddit 根据 DeepSeek 官方的说法,「更新后的 R1 模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。」 在能力方面,新版本显著提升了模型的思维深度与推理能力,支持工具调用,针对「幻觉」问题进行了优化,在创意写作方面也有所优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时更加贴近人类偏好。 其中,在工具调用方面,DeepSeek 官方文章坦然称,「当前模型与 OpenAI o1-high 相当,但与 o3-High 以及 Claude 4 Sonnet 仍有差距。」 DeepSeek-R1-0528 与其他模型性能对比|图片来源:DeepSeek DeepSeek 还提到,DeepSeek-R1-0528 在前端代码生成、角色扮演等领域的能力均有更新和提升。 R1 的一大优势在于其超长的记忆跨度和语境持久性。AI 角色扮演社区(通常处于 AI 模型测试的边缘,但在对话连贯性方面往往更为严格)有测评称,角色能够记住过去细微的细节,并以自主行为做出回应。 「有个角色跟我争论一个观点时,竟然提起过去发生的三个细节,」r/SillyTavernAI 上的一位用户说道。「我以前从未见过这种情况。」 该用户还提到:「AI 通常不会主动出击;我训练过一些 AI,让他们在对话中占据主导地位,但这是我第一次看到 AI 从角色扮演场景中走出来。」 在 reddit 社区上,还有一名用户甚至发贴称,更新的 DeepSeek R1 0528 在他的所有测试中都能获得满分。 「过去几周眼花缭乱——OpenAI 4.1、Gemini 2.5、Claude 4——它们都表现优异,但没有一个模型能够在每项测试中都取得满分。DeepSeek R1 05 28 是有史以来第一个做到这一点的模型。」他称。 reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit 「这些测试并非像 YouTube 上很多人做的那种不切实际的测试。比如草莓里的 rs 数量,或者编写一个贪吃蛇游戏等等。这些是我们在实际商业应用中经常使用的任务,我们从中挑选了一些比较复杂的边缘案例。」该用户如此称。 「我感觉自己就像电影《料理鼠王》里的安东(如果你看过这部电影的话)。我印象深刻(此处双关),但也有点麻木,一时难以找到合适的词来形容。一个来自去年还默默无闻的实验室,做出的免费开源模型,竟然比商业前沿的模型做得更好,这真是太不可思议了。」 和 reddit 社区同样热闹的是 X。 X 上热衷 AI 内容的用户除了转发基准测试的图表,一些人着重提到 DeepSeek 的编程能力。比如,X 上一名用户称试过用 DeepSeek R1-0528 构建游戏,称「它的编程能力简直太强了」「相比之前的版本,改进非常显著」「如果这只是 R1...DeepSeek R2 将会非常疯狂。」 X 上关于 DeepSeek 更新的帖子|图片来源:X 除了用户和开发者声音,在 DeepSeek 发布更新后,人工智能模型分析机构 Artificial Analysis 称,DeepSeek 的 R1 在其独立的「智能指数」上「超越 xAI、Meta 和 Anthropic」。 人工智能模型智能指数排行|图片来源:Artificial Analysis 具体模型比较上,该机构在一篇报告中称「DeepSeek R1 的智能程度高于 xAI 的 Grok 3 mini(high)、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里巴巴的 Qwen 3 253,并与谷歌的 Gemini 2.5 Pro 相当。」 DeepSeek 最大的智力进步出现在 AIME 2024(竞赛数学,+21 分)、LiveCodeBench(代码生成,+15 分)、GPQA Diamond(科学推理,+10 分)和 Humanity's Last Exam(推理与知识,+6 分) 其中在编程方面,该分析机构认为,「R1 在人工分析编码指数中与 Gemini 2.5 Pro 相当,仅落后于 o4-mini(high)和 o3」。 各大厂商人工智能模型智能指数变化|图片来源:Artificial Analysis 至于与 OpenAI 的对比,该机构称「DeepSeek 刚刚证明,他们能够跟上 OpenAI 的 RL 计算能力扩展步伐。」 当然,全是赞美是不可能的。 在编程能力方面,X 上也有用户挑刺道,「如果你真的用它和 Claude 4 写过代码,你就会知道基准测试的描述并不准确。Deepseek 的 API 仍然只有一个 64k 的上下文窗口。它还不错,但不是前沿模型。可能要等到下次吧。它几乎零成本,在某些方面表现不错,但绝对比不上 Claude。」 X 上关于 DeepSeek 更新的帖子|图片来源:X X 上的另一名海外用户则称,「deepseek 可能是数学和逻辑方面的 SOTA(最先进的),但我仍在使用 gemini 2.5 pro,因为它有超大上下文。」 对于该问题,DeepSeek 在官方文章提到,如果用户对更长的上下文长度有需求,可以通过其他第三方平台调用上下文长度为 128K 的开源版本 R1-0528 模型。 不过,也有海外用户认为,无论是否在所有测评中取得第一,R1 既低成本、开放权重,还有强大的性能——几个好处「组合」起来本身已值得称赞。 对于 DeepSeek 的「小」更新,鉴于今年初 DeepSeek 横空出世时曾引发美股海啸,还有 reddit 用户调侃道,「请让我先抛售我的 AMD 和 英伟达股票。请提前 3 天通知我,谢谢。」 还有网友另类地开始赞美起 DeepSeek 更新的「低调」姿态。 一名 reddit 网友发了长长的评价称:「用 0528 自己的话说:DeepSeek 低调的卓越之处,蕴含着某种诗意。其他人精心策划着充满期待的盛大交响曲——奢华的主题演讲、精心设计的演示,以及读起来如同地缘政治条约的安全宣言——而 DeepSeek 提供的是一首静谧的十四行诗。他们仿佛递给你一件用白纸包裹的杰作,低声说着:『感觉很有用;希望你喜欢。』」 「对竞争对手的无声打击是最致命的。」另一名网友在底下称。 reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit 02 「开源的巨大胜利」 除了能力,目前从海外互联网的反应来看,在 DeepSeek 众多优势里,被开发者刷最多好评、大量好感的重要来源,仍是「开源」,或者确切地说,「开放权重」。 AI 圈内一个看法是,没有发布训练代码和训练数据的模型准确地说应该是「开放权重」,但一些人通常选择随意地称之为「开源」。另外,没有 AI 公司会发布训练数据,因为他们不想被起诉。 对于 DeepSeek 这次更新,Y Combinator 创办的在线科技社区 Hacker News 涌现了一些帖子,主要是分享基准测试结果,交流经验,并验证 R1 的性能提升(尤其是在编码和数学方面)是否真实存在。 但与此同时,上面也有大量讨论仍围绕人工智能中什么才算「开源」。许多人称赞 DeepSeek 公开发布模型权重,但也不断指出,由于训练数据等并未发布,外部无人能够重新训练或完全验证 R1。另外,虽然是开源,虽然免费,但 6710 亿参数的 R1,本质上仍是一个巨型模型,对于普通用户来说,它太大了。 即便如此,如今,R1 与 ChatGPT 的对比已成常态。OpenAI 限制了普通用户对顶级模型的完整访问权限,或者部分定价让用户觉得过高,而 DeepSeek 提供的却便宜不少,并提供可下载的模型权重。 「DeepSeek 是真正的 OPEN AI」海外一名用户发帖标题如此称。 reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit 当然,并非所有 reddit 用户都完全接受。一个名为「DeepSeek 有多糟糕?」的帖子曾引发关于 DeepSeek 内置内容审核的讨论,不满模型会「回避」某些问题。 这类论调目前已经成为一个常见「梗」,有些用户会反驳——模型权重是开放的,如果开发者认为有偏见,完全可以自行进行微调。另外,目前世界上所有主流模型都有内容过滤机制,只是具体选择不同,比如西方政治正确问题。 在 reddit 上,还有一篇以「开源人工智能正在迎头赶上!」为标题的热帖,发帖者称,「Deepseek 似乎是唯一一家真正在前沿模型领域竞争的公司。其他公司总是有所保留,比如 Qwen 不愿开源他们最大的模型 (qwen-max)。我不怪他们,我知道,这就是生意。」 「闭源 AI 公司总是说开源模型无法赶上他们。如果没有 Deepseek,他们可能是对的。但感谢 Deepseek 成了一个异数!」 reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit 在这篇帖子下面的评论区,还有回复尖锐称,「他们这样做是因为价格实惠的智能将推动一场革命,而 Deepseek 将被公众铭记为人工智能的真正先驱,而不是世界上充斥着广告的谷歌、ClosedAI 或虚假的安全 Anthropics。」 reddit 社区关于 DeepSeek 更新的回复|图片来源:reddit 对于 DeepSeek 的更新,reddit 上 r/LocalLLaMA 社区有一名常驻用户提到,「这让我想起了 ClosedAI 承诺发布『o3-mini 级别模型』却未能兑现,现在新款 R1 已经超越了 o3-mini (high) 不少,已经接近完整的 o3 (high)。」 reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit 在另一篇通知 DeepSeek 最新更新的帖子下,有很多回复几乎无关 DeepSeek 能力测评,却讽刺起 Anthropic 或 OpenAI。比如,有网友声称 Anthropic 以「安全」为理由的闭源做法只是道德托词。 reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit 即时是对 DeepSeek 更新表示淡定的网友也称:「虽然它不再让我感到惊讶了。每次我都得等到所有营销噱头平息后才能进行全面测试。但无论如何,Deepseek 仍然拥有开放权重的优势,这无疑是一个优点。」 reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit 这几个月,在 DeepSeek 的对比下,以往的 AI 巨头保持技术和声誉优势的压力,可以说越来越大。 不少网友开始担心其命运,比如「DeepSeek 将继续迫使 AI 公司在价格方面展开竞相压价的竞争。」有的网友认为 DeepSeek「这样做并非全是出于利他主义。通过发布免费模型,你可以阻止竞争对手占据市场主导地位」。 reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit 最高赞的回复则选择感谢所有模型制作者,持同样看法的用户称,无论是不是利他行为,「我很感激能在短期内从他们的策略中获益」。 这可能也是旁观全球 AI 竞赛时,面对一次次模型升级,当下不少开发者的真实心态。 reddit 社区关于 DeepSeek 更新的帖子|图片来源:reddit 另外,值得注意的是,业界仍在 DeepSeek R2 的发布。在 DeepSeek 更新时,有不少网友问到 R2 的进展,是不是会延迟发布,甚至怀疑「DeepSeek-R1-0528」是不是其实就是「R2」,只是用 R1 系列命名。 「我们想要 R2。」在 DeepSeek 官方更新的 X 帖子下,高赞回复如是说。
MiniMax正暗戳戳憋大招
AI六小虎之一的MiniMax正在憋大招,而这次大招的“成败”可能会影响这家独角兽公司未来的命运。 据虎嗅独家获悉,MiniMax筹备了半年多的文本推理模型即将发布。目前,这个文本推理模型在内部的代号是M+,但内部代号并不代表产品名称,MiniMax对其技术细节处于严格保密的状态,唯一能够确定的是,与该推理模型一同问世的还将有技术报告。 实际上,MiniMax即将推出的这款推理模型有一个大背景——DeepSeek R1发布之后,所有模型厂商都分成了两队,一队是选择接入DeepSeek,另一队是坚决不接入DeepSeek,其中前一种占绝大多数。而后一种在选择不接入DeepSeek后,普遍都发布了自家的推理模型以应对挑战,代表自己不会下牌桌。比如不接入DeepSeek最具代表性的两家公司分别是字节和智谱,他们分别在4月和3月末推出了自己的推理模型。 相比之下,MiniMax选择了一种折中方案:其在国内的C端应用(MiniMax)上坚持不接入DeepSeek,只在海外的AI应用上选择接入DeepSeek。而有多位业内人士向虎嗅表示,“MiniMax在今年1月15日推出的01虽然并没有被官方定义为推理模型,但业界已有人用其Linear架构开展过深度推理的实验。”只不过对于MiniMax来说,还并没有一款真正意义上的推理模型问世。(虎嗅注:2025年1月15日MiniMax发布MiniMax-01并正式开源,首次尝试使用线性注意力架构Linear Attention)这意味着它即将推出的推理模型将成为关键。 有业内人士向虎嗅分析认为,如果MiniMax的推理模型达到甚至超过业内预期,那么外界对其信心将加强会认为其“并未掉队”。也有行业资深人士认为在六小虎之中MiniMax的推理模型问世时间虽然比部分友商稍晚,但这家公司素来有自己独特的产品节奏和布局。 一个潜在的挑战是,环境已变。 2025年上半年,大模型圈内“AI六小虎”(即智谱 AI、月之暗面、百川智能、MiniMax、阶跃星辰和零一万物)的说法逐渐不再被广泛提及,取而代之的是对标硅谷“五强争霸”格局的“基模五强”一说。而在基模五强说法中,常见的描述为阿里、字节、DeepSeek、阶跃星辰、智谱AI。曾经名列六小虎的MiniMax不再是当下基模五强描述中的常客。(虎嗅注:硅谷“五强争霸”格局一般是指OpenAI、Anthropic、谷歌、x AI、Meta五家头部公司针对大模型的竞争格局) 这使得MiniMax即将推出的推理模型成为外界判断其是否仍留在牌桌上的依据。 虎嗅长期跟踪并研究这家公司,2025年以来MiniMax有三个值得留意的关键动作,从这几个动作可以看出MiniMax正在试图改变外界的心智印象,并对市场动态更密切快速地反应: 第一件事发生在3月初的并购案,将曾估值接近1亿人民币的AI视频初创公司鹿影科技收入麾下; 第二件事发生在3月14日,MiniMax旗下AI应用原“海螺AI”正式更名为“MiniMax”,实现品牌战略性拆分(具体细节见下文); 第三件事发生在Manus向公众开放注册之前,MiniMax悄悄上线类Manus产品,命名为MiniMax Agent。 但2025年上半年行业以及MiniMax内部发生的一系列变化,都推着这家公司站到十字路口:在已经打响的大模型新一轮战事里,MiniMax到底能不能继续坐在第一梯队的宝座上? “DeepSeek+联创出走”双重变量发生后 MiniMax在2025年初一度要成为AI圈聚光灯下的宠儿了,但谁料杀出来了DeepSeek R1。 2025年初,也就是DeepSeek R1发布之前,MiniMax开源了新模型MiniMax-01,参数达到4560B。当时这也是国内大模型创业公司首个将如此重磅的模型以开源的形式亮相。 值得注意的是,在MiniMax-01发布后,其在多个测评集上都追平了GPT-4o,同时也超越DeepSeek-V3。但后来DeepSeek R1的出现,让整个AI圈的热度几乎都被DeepSeek吸引过去了,MiniMax的关注度逐渐消退。 紧接着一个月后,MiniMax被传出公司合伙人兼副总裁魏伟离职,此前魏伟在公司内主要负责的是大模型ToB商业化方面。而魏伟离职让外界对这家公司走向有多种猜测。 在这两个变量发生后,从外部视角观察,MiniMax最显著的变化是将品牌进行了更为清晰的拆分。3月14日,MiniMax旗下AI应用原"海螺AI"正式更名为"MiniMax",国内版和国际版同步调整。slogan也变更为"MiniMax-你的AI智能助手"。 据接近公司的知情人士向虎嗅透露,这一品牌调整背后是公司对产品矩阵的战略性重构。MiniMax内部的想法是将文本模型和视频模型能力分开呈现,在MiniMax品牌下仅呈现文本模型能力,而图像、视频模型等多模态能力则保留在"海螺AI"品牌下。 "这是一次战略性的品牌重构,而非简单的更名。"一位在AI圈从业多年的行业分析人士告诉虎嗅,"MiniMax希望通过这种方式,让用户对其不同产品线的技术能力有更清晰的认知。" 但实际上,这种品牌拆分策略并非意味着公司在组织架构上有所调整。相反,从MiniMax的组织架构来看,在模型部门其始终保持着清晰的架构,即将模型部门分为四大团队,分别为文本模型、视频模型、图像模型和语音模型;以视频模型为例,无论是文生视频还是图生视频都隶属视频模型团队。 MiniMax模型部门组织架构图,虎嗅制图 然而值得注意的是,在这种庞大的研发团队之外,MiniMax的销售团队却仅占公司总规模的3%。有接近公司的知情人士向虎嗅表示,MiniMax的公司规模为400人上下,销售仅有10人左右,其中还包括两名海外销售。更重要的是,公司并无设立单独的交付团队。这意味着MiniMax不会为大型企业客户提供定制化解决方案。 这一架构容易引发误解:MiniMax是否轻视toB市场?但实际情况并非如此。严格意义上,MiniMax只是选择了一条与其他大模型“六小虎”都不太一样的商业路线,即纯API模式向B端客户收费,以标准化的产品面向大众。在这一思路引导下,他们没有庞大的销售团队,没有复杂的交付流程,就连销售也仅有10名。 虎嗅了解到,这种纯API的商业模式如今已经取得了一些成效。在国内,MiniMax已经和高途、阅文、极狐汽车达成合作,均是纯API的合作模式。比如利用MiniMax的语音模型,高途可以用声音克隆术还原出吴彦祖的声音;而在海外,MiniMax也宣布与Hedra达成合作,打造可定制化的数字角色分身;4月,MiniMax还宣布成为金融科技巨头Stripe的全球合作伙伴,值得注意的是,与MiniMax同成为Stripe合作伙伴的还有OpenAI和Anthropic。 不过有接近MiniMax方面人士告诉虎嗅,在文本模型、视频模型、语音模型和图像模型四大模型中,只有语音模型的商业化效果最显著。 在商业化之外,估值也是外界对MiniMax最关心的点之一。2024年3月,MiniMax获6亿美元A轮融资,投后估值25亿美元。这也是MiniMax最后一次能够公开查到的融资信息。 虎嗅获悉,到今天为止MiniMax的实际估值早已超过2024年所报道过的“25亿美元”。虎嗅从多个独立信源处了解到,除了2024年初的这笔巨额融资,MiniMax还进行了多轮融资,只不过均未公开。其中,一家在AI时代频繁出手的知名VC就参投了MiniMax。有接近该VC的知情人士向虎嗅透露,“MiniMax一直是我们保密的明星项目”。 内部优先级或有变化 DeepSeek R1发布之后,大模型六小虎无一家不在闷头研发自家的推理模型,当然MiniMax也不例外。有接近公司的知情人士告诉虎嗅,“其实早在R1出现之前甚至更早,MiniMax内部就有推理模型的研发计划了。” 但DeepSeek的发布一定程度地影响了MiniMax的内部优先级判断。 从当前的大模型竞争格局中来判断,MiniMax的位置颇为特殊。它既不像头部公司那样声势浩大,也不像尾部公司那样岌岌可危,而是处在一个相对稳定的中间地带,保持着神秘感,又时不时出现在大众视野内。 自从MiniMax于2024年9月发布video-01模型后,其模型迭代频率如下: 2025年MiniMax产品发布时间表,截至6月1日,虎嗅制图 而对应到这家公司的四大模型团队,其模型迭代速度清晰划分出了优先级,即视频>语音>文本>图像。 不过DeepSeek和Manus的出现,让MiniMax这家公司在原本的节奏基础上,优先了另外两件事情,一件是推理模型的发布;另一件则是类Manus产品,MiniMax将其命名为MiniMax Agent。 MiniMax Agent主要呈现在了海外的MiniMax应用上,在这款应用上有两个入口,一个入口指向Chat模式,也就是大语言模型的聊天模式;另一个入口则是Agent智能体模式。这也就意味着,MiniMax Agent的上线或将拉动MiniMax应用的月活增长。而未来,MiniMax的文本推理模型发布后,其模型将同时呈现在海内外的MiniMax应用上。 这些最新变量也或将改变MiniMax的命运走向。 从目前的研发节奏来看,其某种程度上揭示了其商业化能力重心——当前阶段,多模态模型的变现能力已整体超越其大语言模型。 然而,多模态内部,究竟是视频模型的商业化能力更胜一筹,还是语音模型更厉害,却很难分出胜负。从已披露的客户合作来看,MiniMax的落地案例几乎清一色基于语音模型;但有接近公司的知情人士告诉虎嗅,公开信息仅是冰山一角,其大部分的商业合作在公司内部处于保密状态。 不过,如果算一笔账,视频模型的API调用价格虽高于语音模型,但在调用量未知的情况下,二者究竟谁撑起了商业化主力,仍很难下定论。 在当下AI圈开始关注商业化的趋势之下,各家都正在使出浑身解数。对于MiniMax而言,如何在保持自己的节奏同时再次打开关键的机遇窗口,至关重要。
一加 Ace 5 至尊版:2000 档三芯合一,强在哪?
Ace 5 系列推出半年之后,一加带来了这系列的第三款产品——一加 Ace 5 至尊版。 一加 Ace 5 至尊版搭载天玑 9400+ 移动平台配 LPDDR5X + UFS 4.0 储存芯片,还有这次更新的电竞 Wi-Fi 芯片 G1 组成「电竞三芯」组合。 芯片内加入了一加风驰游戏内核,控制功耗的同时稳定性能。常温状态下手机安兔兔跑分为 2674892,可在《王者荣耀》实现最高画质模式下 1% Low 帧实现 118.3 帧率,平均帧率为 119.9 帧率。原神的 1% Low 帧 成绩为 56.1 帧,平均帧率为 59.9 帧。 游戏操控也有升级,Ace 5 至尊版搭载支持灵犀触控算法的电竞级触控芯片,最高支持 3000Hz 瞬时响应采样率和 300Hz 五指采样率和 290Hz 十指采样率,射击游戏中操控能更精准。 Wi-Fi 芯片 G1 置入的同时,一加还加入了 11 根电竞级天线,并采用了 360° 环绕天线布局,穿墙能力提升了 33%,通讯距离提升了 11.2%。 续航方面,Ace 5 至尊版搭载了 6700mAh 电池,搭配 100W 超级闪充,0-100 充电时间为 43 分钟。手机支持旁路充电,游戏时能够降低损耗。 屏幕方面,Ace 5 至尊版用的是 6.83 英寸 144Hz 电竞高刷屏,支持 10.7 亿色显示和明眸护眼 2.0、雨水触控 2.0 和手套触控技术,有 Dolby Vision、HDR10+ 和 HDR Vivid,还有 ZREAL 的认证。 表面覆盖了 OPPO 晶盾玻璃,提升耐磨耐用度。 相机部分,Ace 5 至尊版用了 5000 万像素索尼 IMX906 传感器的主摄,支持 OPPO 旗舰同款算法,搭配 800 万像素的超广角摄像头。 镜头以简单的 DECO 解构纵向排列在机身左上侧,更窄更细小的结构能降低对握持的影响。 最后看看价格: ·12GB +256GB 2499 元 ·12GB +512GB 2999 元 ·16GB +256GB 2799 元 ·16GB +512GB 3299 元 ·16GB +1TB 3799 元

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。