行业分类:
加载中...
头条分类:
加载中...
专治AI说谎,25岁天才少女公司估值过百亿
25岁的洪乐潼,最近在硅谷火了。 这个来自广东的女孩,17岁考入MIT,三年修完数学和物理双学位,后来又进入斯坦福深造。 按照硅谷最熟悉的那套叙事,她是“天才少女创业者”的模板人物。 但洪乐潼真正让人记住的,不是履历,而是她做的事太反常识。 当整个AI行业都在追逐更大的模型、更强的生成能力、更像人的表达时,她偏偏转身去做了一件最不性感、也最难商业化的事:用数学验证AI。 她创办的公司叫Axiom,成立不足两年,员工只有20多人,最近拿下2亿美元A轮融资,投后估值高达16亿美元,折合人民币超110亿元。 Axiom不做聊天机器人,不做文生图,也不跟风大语言模型的热潮。它做的是“形式化验证”。 说白了,就是想用数学和逻辑,把AI每一步推理都变成可以检查、可以证明、可以追责的东西。 这听起来很冷门,但它瞄准的,却是大模型最麻烦的软肋——幻觉。 现在的AI最大的问题不是不够强,而是不够可靠。它可以把答案说得很像对的,甚至真的做对题,但你没法确认它到底是真的推出来了,还是只是“猜对了”。而Axiom要做的,就是把这种模糊状态,变成一种可验证的确定性过程。 这也是为什么,当洪乐潼拿着这个想法去融资时,迎面撞上的不是掌声,而是一个极其现实的问题:“数学怎么赚钱?” 01 迎难而上的天才少女 洪乐潼的办公室在硅谷帕洛阿尔托大学大道,距离斯坦福大学步行只要半个小时。斯坦福是她博士生涯的起点,但学位还没有念完,她就退学创业了。 事实上,早在博士在读期间,洪乐潼就已经注册了公司。公司取名Axiom,名字源自数学术语“公里”,“我想从公理出发,打造一个能够自我改进的超级智能推理器。” 一个24岁的博士生,没钱没人没产品,仅凭一个想法,她就拿下了960万美元的种子轮投资。 凭什么? 要知道现有的大模型本质上是概率黑盒,通过海量数据学习模式,然后基于统计规律给出答案。推理过程无法被量化,所以会胡说、会出错。 洪乐潼要做的就是用数学公理和形式化验证,让AI每一步推理都可证明,可以直接面向金融、军工、芯片和自动驾驶等对可靠性要求极高的市场。 她做的事显然击中了AI 最大痛点,解决幻觉与可靠性的问题。 更何况,早期投资投人,她本人也是不折不扣的跨学科天才学霸。 洪乐潼从小就展现出了惊人的数学天赋。2001年,她出生于广州市天河区,曾就读于华南师大附中。高一时,她就在全国数学奥林匹克选拔赛中晋级,并在华罗庚杯、全国高中数学联赛中屡获佳绩。 正是在奥数集训中,她对研究型数学产生了兴趣。 2018年,17岁的她被MIT录取,3年就修完了数学和物理双学位,不仅发表了9篇学术论文,还获得全美女性数学家最高荣誉Alice T. Schafer数学奖等诸多荣誉。 此后,她获得牛津大学罗德奖学金,她没有继续深耕数学,转头去学了神经科学,因为想“构建跨越科学领域的认知体系”。 基于这一目标,她同时在伦敦大学学院盖茨比计算神经科学中心开展深度学习研究,该中心由“深度学习之父”杰弗里·辛顿联合创立。也正是在此期间,她正式踏足AI领域,接触到许多最前沿的课题。随后她又进入斯坦福大学,攻读数学与法律双学科博士。 2024年,ChatGPT o3被曝光在数学测试中存在“作弊”嫌疑,全球舆论哗然。 作为斯坦福数学博士的洪乐潼也在社交媒体上发表了看法:“OpenAI大模型在数学测试中表现优秀,大概率是因为训练数据中提前泄题了。在一些测试中,大模型回答的准确率虽然高达96%,但一旦展示推理过程,得分率就降至5%。” 面对行业痛点,一种名为Lean的语言闯入她的视线,也让她嗅到了创业机会。 与自然语言不同,Lean语言是一个非常神奇的、可以自验证的数学编程语言。洪乐潼打了个比方:“如果用英语写出数学证明,我没办法知道一个5000行的证明是否正确,需要找高水平的专家验证。但Lean是自验证的,只要跑通了就是对的。” Lean的逻辑是把自然语言或非形式化验证,转成机器可检查的形式化验证。 那啥是形式化验证呢? 普通的AI,你只能用它的答案来判断它是不是理解这个问题,但你不知道它中间有没有瞎蒙。 形式化验证是要求你把每一步都写成机器能检查的逻辑链条。只要中间有一步跳了、糊了、偷懒了,它就不给过。 之所以形式化验证能治大模型会幻觉,是因为形式化验证不管你答案如何,只要你的结论是从前提里一步步合法推出来的,那答案就是对的,从而避免了模型产生幻觉。 所以Axiom做的,就是让大模型负责猜想和搜索,让Lean负责验算和判断。如果Lean检查发现过程不对,那就退回去继续改。 但这显然是一条窄路。这条路冷门到什么程度?在整个AI版图里,形式化验证几乎是边缘中的边缘,全球的商业化玩家一只手就数得过来。 显然她并不是因为形式化验证是下一个风口才选的,而是因为她对“困难”的定义和别人不一样。 奥赛就像持续释放多巴胺的快感,而研究型数学像在撞墙,充满痛苦与煎熬。我其实特别喜欢这种挑战感。”她曾这样解释自己痴迷数学的原因。 正是这种刻在骨子里的挑战欲,让她不愿再停留在学术研究的舒适区,渴望在更广阔的战场上去攻克AI领域的硬骨头。 2024年深秋,斯坦福附近的一家咖啡馆里,洪乐潼与当时Meta AI研究总监Shubho Sengupta聊了整整几个小时,核心议题只有一个:AI能不能真正学会数学推理? 两人一拍即合,一个退学,一个辞职,两人一起创业。 02 一支“草根”工程师军团 Axiom只有20多名员工,洪乐潼用了一个词来形容团队的气质:草根工程师精神。 但事实上,这支团队的成员身份一点也不草根,甚至背景堪称豪华。 Axiom第一位成员,正是和她在咖啡馆聊了好几个小时的Meta前员工Shubho Sengupta,如今他的身份是公司的CTO。 核心科学家François Charton,则是将Transformer架构引入数学推理领域的先驱人物。他干的活,就是把数学算式当成一种“语言”输入进Transformer,试试看Transformer能不能像翻译句子一样去翻译数学。 其他成员约半数来自Meta AI,另一半则是世界级数学家与形式化验证先驱。 而最让外界震惊的一位成员,是57岁的数学泰斗小野健(Ken Ono)。 他是模形式领域的顶尖学者,美国数学学会前副会长,拿过古根海姆奖、斯隆奖等荣誉。指导过的学生中有十位摩根奖得主。他还曾为美国奥运游泳队提供数据分析,为电影《知无涯者》担任顾问。 这位弗吉尼亚大学终身教授与洪乐潼结缘于麻省理工。彼时大一新生洪乐潼参与了他的数论项目。师生关系延续至今,角色却已不同,2025年底,小野健辞去教职,全职加入Axiom,成为第15号员工。 曾拒绝过Google和Meta邀请的小野健,为什么愿意为一个24岁的学生“打工”? “如果我的猜想能被机器在3天内推广到10个维度,我愿意当一个‘标注工’。”小野健曾公开表示,他选择帮自己的学生打工,不仅因为洪乐潼开出“不设教学、不设行政、100%科研”的合约,更关键的是,AI对他的“降维打击”,让他感到兴奋。 一群顶级学者和前Meta成员,这个团队哪里草根了? 洪乐潼的解释是,草根,代表着始终“空杯”的心态和坚韧的品质。在创业这条路上,即使是资深“牛人”,也要从头学起,不断自我革新。 她自己最喜欢的不是当“精英”,而是做“草根”,做个nobody(小人物),这样学习的坡度最陡、速度最快。 她自己也是“草根精神”的践行者,在被问到如何带领团队时,洪乐潼说:“我其实不太喜欢用带领这个词。我希望自己是一个Individual contributor(独立贡献者),每个人都是,这是一群志同道合的人在一起做事。” “我们创立Axiom,就是要无限压缩把好奇心转化为真理的时间”,在资本驱动的硅谷,洪乐潼的这种纯粹性,对于顶尖研究者而言,或许比一份高薪offer更有吸引力。 这支不到20人的团队,在成立后不到一年就交出了一份令人意外的答卷。 2025年12月3日,Axiom宣布其核心系统AxiomProver在无人干预的情况下,攻克了困扰数学界数十年的两道埃尔德什难题。 同一天,洪乐潼收到了入选“福布斯30岁以下30人”榜单的消息。 同月,AxiomProver又在普特南数学竞赛中斩获满分,12道题全对。普特南是北美最负盛名的大学生数学竞赛,成绩的中位数常常为零,过去近百年仅有5个人类选手拿到过满分。 Axiom进一步印证了用形式化验证构建可靠、可核验、无幻觉的AI,已是行业明确的重要方向,而 AxiomProver 则在这条路径上交出了可复现、高难度的实证。 03 赛道升温,但挑战刚刚开始 从行业发展来看,洪乐潼的选择正好踩在了技术转折点上。 2024年年底,Meta FAIR和斯坦福大学等多所机构联合发布了一篇立场论文《Formal Mathematical Reasoning: A New Frontier in AI》。 论文给出了这样一个判断,过去的AI数学就是喂很多数学题,再让模型输出答案。这就导致数据会污染、过程会胡编,AI没办法自判断对错,并且还很难复现过程。 这显然是路走错了。就拿乘法口诀表来说,里面写的是2*3得6,那么你自己也能理解3*2就也得6。这个过程就叫复现。 论文主张的是下一步要把证明助手、形式系统、自动验证真正接进模型里来,让AI真正懂数学。 但这也意味着这条窄路正在变得拥挤。 过去十年,AI赛道的主流叙事是“更大参数、更多数据、更快生成”,所有大公司都在这条路上狂奔。洪乐潼选择的形式化验证是其中冷门到几乎没有竞争的赛道。 今年年初,Meta也发布了半形式化推理技术,让大语言模型能够在不执行代码的情况下验证代码补丁,准确率高达93%。竞品公司Harmonic在今年1月获得了英伟达投资,估值达14.5亿美元,产品已扩展到代码编写和芯片设计领域。Theorem、Axiomatic AI、Cajal等一批初创公司,也在近两年纷纷进入这个赛道。 对Axiom而言,挑战远不止行业竞争。 最大的挑战在于商业模式。洪乐潼最初的设想是将产品服务于对冲基金和量化交易公司,快速解决与资产定价、股市预测相关的复杂数学问题。 但这个蓝图至今仍停留在构想阶段。对高频交易而言,比“正确”更重要的是“足够快”,毫秒级的延迟可能比一次罕见错误带来更大损失。 Axiom的绝对正确性,在追求速度的金融场景中,其实际价值目前仍需要打一个问号。另一个挑战,则在于除了对价格不敏感的航空航天、国防军工等少数领域,其他绝大多数企业愿意为“绝对正确”支付高溢价吗? 洪乐潼自己也承认这一点:“数学怎么赚钱?我们从一开始就面临这个挑战。”但她认为,“现在,商业信号已经清晰很多,数学能创造价值,是因为它能自我验证、自我检查。” 另一方面,高估值本身也是一把双刃剑。16亿美元的A轮估值意味着,投资人期望的是超高速的增长和明确的退出路径。 Axiom必须在未来一到两年内证明其技术具备规模化商业化的可能,否则下一轮融资将面临巨大压力。与此同时,它需要在巨头和强劲对手的夹击中,用更少的资源跑出更快的速度。 Axiom的未来,更像是一场理想主义的压力测试。 从“绝对正确”的技术理想,到“相对经济”的商业世界,Axiom的挑战,才刚刚开始。
银河通用创始人王鹤:未来五年机器人技能将百花齐放
快科技4月11日消息,银河通用创始人王鹤在上周末的对谈中直言,2026年整个行业都在摸索机器换人的时间点。 王鹤反复提到人形机器人的成本账、成功率、部署条件和真实场景稳定运行。这些关键词折射出赛道正在进入新阶段,从比拼技术概念和模型参数,转向比拼谁能以可控成本量产干不同活的能力。 王鹤透露,银河通用目前已落地药店场景(本质是仓储零售),接下来会继续拓展零售行业。相比工业场景,零售对误差容忍度更高,安全事故风险更低。长期看,腿式人形机器人在娱乐、体育陪练(如打网球)等领域也会出货。 王鹤认为,养老院是必经之路。对于养老院等康养场景,银河通用也已经开始试点,包括诊间陪护。乐观估计,未来三年内可能会有千台以上的出货量,5年上万台进入养老院也很有希望,未来五年机器人百花齐放,但比拼的是谁能真正送进家里。 王鹤还点出了硬件瓶颈。他认为目前人形机器人的关键短板在于触觉感知。人类指尖有密集的触觉神经,需要压觉、滑觉、纹理感知和耐用皮肤,但现有硬件要么容易损坏,要么只能感知正压力。没有精细传感器,机器人上限达不到人类,也无法采集足够数据。 对于想要科技创业的学生,王鹤给出了两条建议。第一,技术产品化对社会经济有贡献,基础研究是源头。第二,要杜绝无门槛创业,不要因为投资人邮件就轻易退学。投资人可能只给很少的钱,拉高估值套现后离场,创业者的积累才是真正的壁垒。
炸上热搜!张雪机车夺冠复刻版45秒拍卖500万,李亚鹏连麦致谢
4 月 11 日消息,小雷哔哔(id:xiaoleibbb)发现张雪机车又有新动作。张雪机车的夺冠赛车复刻版昨晚开拍,仅仅用了 45 秒,就以 500 万的封顶价被秒杀了! 图源:微博截图 好家伙,45 秒 500 万,这真的太夸张了。 事情要从张雪机车在世界超级摩托车锦标赛(WSBK)夺冠说起。 4 月 10 日晚上,中国摩托车品牌“张雪机车”的创始人张雪,在自己的直播间搞了一场拍卖。 拍的是什么呢? 正是那台在WSBK(世界超级摩托车锦标赛)葡萄牙站上大杀四方、拿下冠军的复刻版赛车。 图源:微博截图 对于机车迷来说,这简直是梦中情车啊! 不仅如此,附赠的还有葡萄牙站正赛第一回合的最快圈速奖杯,以及一顶有张雪亲笔签名的冠军帽。 这台车的起拍价是40万,每次加价2万。为了防止恶意炒作,张雪特意设置了 500 万的封顶价。按照规则,竞拍者不能一次性直接出 500 万,必须一路狂点,谁先触达 500 万线全看运气,不仅拼财力,还得拼手速和网速。 本来以为会慢慢竞价,没想到直播一开启,网友们的出价就跟坐火箭一样,从40万一路飙升。不到一分钟,准确来说是45秒,就有人出价到了500万的封顶价,直接锁定成交。 图源:抖音截图 最后拍下这台车的,是广东一家名为“洗脸熊”的公司员工,代表公司来拍的。 小雷哔哔(id:xiaoleibbb)都看懵了,45秒500万,这哪里是拍卖,这是秒抢啊! 紧接着,张雪表示这笔钱将以“张雪机车”和“洗脸熊”的名义,一分不留,全额捐给北京嫣然天使儿童医院。 拍卖一结束李亚鹏就进了张雪的直播间连麦,一直向张雪表达感谢。 李亚鹏表示本来自己带了一些粉丝过来直播间撑撑场,但没想到网友们竞拍速度这么快。不仅如此,他还表示特别感谢张雪对嫣然天使基金的信任,承诺会把这笔钱全部用在生病的小朋友身上。 4月下旬张雪就会交付车辆,到时候会和买家公司一起,把500万捐给嫣然天使基金。 不过,他俩是咋扯上关系的? 他两中间还隔着一个陈光标。 前段时间,张雪机车在WSBK顶级赛事上拿了历史首冠。4月1日,企业家陈光标公开宣布要送张雪一台全国唯一的2026款加长版劳斯莱斯幻影,价值1300万。这事儿一出,大家都好奇张雪会怎么回应。 图源:微博 面对这种天上掉馅饼的好事,张雪却表示,如果陈光标说的是真的,他就找个车商 8 折收了这台车,然后把卖车的钱全部捐给嫣然天使基金。 有格局,卖车转赠也是做善事。可能是觉得光捐别人的车还不够意思,干脆把自己的夺冠复刻版赛车也拿出来拍卖,赚到的钱同样捐给李亚鹏。 图源:微博截图 而最打动小雷哔哔(id:xiaoleibbb)的,是张雪当时隔空对李亚鹏说的一句话:接收方是哪里,用途是什么,你自己定,我信你。 这阵子,张雪机车确实赚足了热度,从赛事夺冠到慈善拍卖,每一步都踩在了网友的关注点上。但赚到的钱,他都拿来搞研发、做公益了,真的不容易。
OpenAI回应马斯克要求罢免奥特曼:搞法律突袭 扰乱诉讼
马斯克 凤凰网科技讯 北京时间4月11日,据彭博社报道,OpenAI周五表示,埃隆·马斯克(Elon Musk)在对其提起的诉讼中突然改变了诉求方向,试图在庭审前几周制造“法律突袭”。 OpenAI在周五深夜提交的一份法庭文件中称,马斯克本周早些时候提出的目标似乎旨在“打被告一个措手不及,扰乱诉讼进程,同时试图重塑他对这起诉讼的公众叙事”。 马斯克在2024年起诉了OpenAI和微软公司,指控OpenAI在从微软获得数十亿美元投资并计划重组为营利性企业时,背离了其作为研究机构的创始使命,要求被告支付约790亿美元至1340亿美元的“非法所得”。该诉讼的庭审定于4月27日举行。 不过,马斯克的律师在本周提交的一份文件中表示,他在庭审中赢得的任何赔偿都应归还给OpenAI慈善部门,而不是归他自己。他们还表示,马斯克希望法院撤销OpenAI的公司转型,并监督其未来的融资和交易,以确保其不偏离最初的使命,同时要求罢免奥特曼的OpenAI CEO和董事会成员职务。 OpenAI在周五的文件中表示,这些在最后关头提出的主张“在法律上是不正当的,在事实上也缺乏依据”。“马斯克提出的修改方案需要提交与他三天前所推动的案件不同的证据,并传唤不同的证人。”OpenAI律师称。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
OpenAI创始人遭燃烧瓶攻击!他发长文回击:我理解你们的恐惧
AI 时代的焦虑,还是砸向了现实。 据外媒 CNBC 报道,凌晨 3 点 45 分,美国旧金山北滩社区。一枚燃烧瓶砸向大门,火苗蹿起,随即熄灭。 住在里面的,是全球最具争议的科技公司掌舵人:OpenAI CEO Sam Altman(山姆·奥特曼)。 幸运的是,燃烧瓶弹开了,没有人受伤。一个多小时后,同一名嫌疑人出现在 OpenAI 旧金山总部门口,扬言要烧掉这栋楼。美国警方随即拘押了一名 20 岁的男性。 这条新闻本来可以就这样结束:「AI 公司高管遭遇袭击,嫌疑人落网,暂无人伤亡。」但奥特曼没有选择沉默。他于一个小时前发了一篇博客作为回应。 「这是我家人的照片。他们是我的一切。」 开头就是这句话,配了一张他和伴侣、儿子的合照。他解释为什么要公开这张平时刻意藏起来的照片:「希望能让下一个人在冲我家扔燃烧瓶之前三思,无论他们对我有什么看法。」 然后他说,几天前有一篇「针对我的煽动性文章」,有人提醒过他,那篇文章的发布时机,恰逢公众对 AI 极度焦虑的节点,可能让他陷入更危险的处境。他当时没当回事。 「现在我在深夜辗转难眠,怒火中烧,开始意识到自己低估了文字与叙事的力量。」 这是 AI 时代第一次,一位 CEO 在「有人想烧死我」之后,没有选择报警声明加公关稿的标准流程,而是把这种恐惧、愤怒和反思,原原本本地写出来。 他在深夜说了什么 文章分三部分:信念、个人反思、行业思考。 信念部分其实没什么新鲜的。AI 是人类能力的最强扩展工具,必须民主化,权力不能过度集中,社会需要适应机制……这些他说过很多次了。真正值得停下来读的,是「个人反思」这一段。 他说自己「有很多值得骄傲的事,也有不少错误」。骄傲的是什么?他提到了和马斯克的那场纠纷。当年马斯克试图对 OpenAI 谋求单方面控制权,奥特曼拒绝了。他说:「我为自己当时守住的那条底线感到自豪,也为我们走出的那条窄路感到自豪,正是那条路让 OpenAI 得以延续。」 不骄傲的是什么?他说自己「回避冲突」,给公司和自己都带来了巨大痛苦。他说在与前任董事会的冲突中「处置失当」,造成了混乱。他说自己是「一个有缺陷的人,身处一个异常复杂的处境」。 对于那些他曾经伤害过的人,他道了歉。这是这篇文章里最罕见的部分。科技圈的高管道歉,通常要么是 PR 危机后的被迫姿态,要么措辞模糊到没有任何实质性认错。奥特曼这段话说得不算完整,但至少是真实的。 文章最后一部分,他还说他理解过去几年为什么会上演这么多「莎士比亚式戏剧」:「一旦看见 AGI,就再也无法视而不见。它有一种真实的『权力之戒』式动力,会让人做出疯狂之举。」 正如他所理解的那样,成为掌控 AGI 之人这种执念,它能腐蚀任何人。 包括 OpenAI 的历史本身就是一部权力争夺的纪录片。马斯克的出走与反目、前董事会的突然解雇风波、微软的深度绑定、Ilya Sutskever 的离开……每一段都牵涉到对「谁掌控 AI 未来」这个问题的不同答案。 奥特曼说,唯一的解法是「把技术向更广泛的人群开放,让任何人都无法独握那枚戒指」。 那名 20 岁的嫌疑人,没有留下任何宣言。我们不知道他为什么去扔那枚燃烧瓶。是被那篇文章激怒?是对 AI 夺走工作的恐惧?是某种更私人的偏执?但这件事本身,代表了一种真实存在的社会情绪。 失业焦虑、技术恐惧、对少数人掌控未来的愤怒,这些情绪在过去两年被 AI 的爆发式发展急剧放大。 当 OpenAI 每隔几个月就发布一款能取代某类工作的新产品,当 ChatGPT 出现在每个行业的重组报告里,当「你的岗位会被 AI 替代吗」成为刷屏话题,情绪 也在不断蓄积。 奥特曼在文章里说,他现在担心的已经不只是「模型对齐」,而是整个社会层面能否及时建立起应对机制。 这不是什么新发现,但由奥特曼在凌晨、在燃烧瓶的余温里说出来,分量就不一样了。过去几年,科技圈惯用的叙事是「我们在解决问题」。 监管跟不上?我们自律。就业冲击?我们会创造新岗位。每一次质疑,都有一套对应的话术。如今燃烧瓶的出现说明,有一部分人的愤怒,已经溢出了「理性讨论」的范围。 暴力当然没有任何正当性。 无论动机如何,向一个熟睡婴儿的家投掷燃烧瓶,都应受到谴责和处罚。虽然警方尚未确认此次袭击是与 AI 反对情绪有关,还是受近期《纽约客》负面报道影响,但这件事本身已折射出 AI 发展带来的社会焦虑正在升温。 那种不安是可以理解的,从没有一项技术像 AI 一样以疯狂的速度改变世界,这种恐惧是真实的。 奥特曼这篇文章,是他少有的一次没有站在「我们在解决问题」的位置上发言。他承认了错误,承认了恐惧,也承认了自己也不完全知道前路在哪里。 人和 AI 应该如何相处,可能是比实现 AGI 更大的难题。 附上 Sam Altman 博客原文: 这是我家人的照片。他们是我的一切。 图像有力量,我希望如此。平时我们都很注重隐私,但这次我选择公开这张照片,希望能让下一个人在冲我家扔燃烧瓶之前三思——无论他们对我有什么看法。 第一个人昨晚凌晨 3 点 45 分这么做了。幸好燃烧瓶弹开了,没有人受伤。 文字同样有力量。几天前有一篇针对我的煽动性文章。昨天有人跟我说,他认为这篇文章发布的时机恰逢公众对 AI 极度焦虑之际,可能会让我陷入更危险的处境。我当时没放在心上。 现在我在深夜辗转难眠,怒火中烧,开始意识到自己低估了文字与叙事的力量。趁这个机会,我想说几件事。 一、我的信念 推动全民繁荣、赋能所有人、推进科学与技术的进步,对我来说是道义上的责任。 AI 将是有史以来最强大的人类能力扩展工具。对这一工具的需求几乎没有上限,人们将用它创造出令人惊叹的成就。世界需要大量的 AI,我们必须想清楚如何实现这一目标。 这条路不会一帆风顺。人们对 AI 的恐惧与焦虑是有根据的——我们正在经历人类社会很长时间以来,乃至有史以来最大的变革。安全问题必须做好,这不只是模型对齐的问题——我们迫切需要整个社会层面的应对机制,以抵御新型威胁,包括出台新政策,帮助我们渡过艰难的经济转型期,走向更美好的未来。 AI 必须实现民主化,权力不能过度集中。未来的掌控权属于所有人及其制度。AI 需要赋能每一个个体,我们需要集体做出关于未来走向与新规则的决策。我认为,由几家 AI 实验室来主导塑造我们未来的最关键决策,是不正确的。 适应能力至关重要。我们都在以极快的速度学习全新的事物;有些判断会对,有些会错,有时我们需要随着技术发展和社会演进迅速调整认知。目前没有人真正理解超级智能的影响,但这种影响将是深远的。 二、个人反思 回顾我在 OpenAI 头十年的工作,有很多值得骄傲的事,也有不少错误。 我想起我们即将与埃隆对簿公堂,想起当年我如何坚守底线,拒绝接受他对 OpenAI 谋求的单方面控制权。我为此感到自豪,也为我们当时走出的那条窄路感到自豪——正是那条路让 OpenAI 得以延续,并取得了此后的一切成就。 我并不为自己的回避冲突感到自豪,那给我和 OpenAI 都带来了巨大的痛苦。我也不为自己在与前任董事会的冲突中处置失当、给公司造成混乱感到自豪。OpenAI 走过的历程跌宕起伏,我在其中犯下过许多错误;我是一个有缺陷的人,身处一个异常复杂的处境,每年都在努力变得好一点,始终为这一使命而工作。 我们从一开始就清楚 AI 的赌注有多大,也知道善意之人之间的个人分歧会因此被无限放大。但亲历这些激烈的冲突、往往还要在其中充当仲裁者,其代价是沉重的。对于那些我曾经伤害过的人,我深感抱歉,也希望自己能更快从中汲取教训。 我也清醒地意识到,OpenAI 如今已是一个重要的平台,我们需要以更具可预期性的方式运营。过去几年极其紧张、混乱、高压。 但总体而言,我为我们正在兑现使命感到无比自豪。 这在当初看来几乎是不可能的。克服重重阻碍,我们摸索出了构建强大 AI 的方法,筹集到了足够的资本来建设交付所需的基础设施,建立起了一家产品公司和商业体系,以大规模提供相当安全、稳健的服务,还有更多。 很多公司都说要改变世界;我们真的做到了。 三、关于这个行业的思考 综观过去几年,我对这个领域为何上演了如此多莎士比亚式戏剧的个人理解是:「一旦看见 AGI,就再也无法视而不见。」 它有一种真实的「权力之戒」式动力,会让人做出疯狂之举。我说的不是 AGI 本身就是那枚戒指,而是「成为掌控 AGI 之人」这种无所不包的执念。 我能想到的唯一解法,是着力于向更广泛的人群开放这项技术,让任何人都无法独握那枚戒指。实现这一目标的两个显而易见的途径,是个体赋权,以及确保民主制度始终掌握主导权。 民主进程的力量必须凌驾于公司之上。法律与规范会不断演变,但我们必须在民主进程的框架内行事,尽管这个过程会混乱、也会比我们期望的更慢。我们希望成为其中的一个声音、一个利益相关方,但不是要独揽一切权力。 业界受到的许多批评,源自人们对这项技术极高风险的真诚忧虑。这种忧虑完全合理,我们欢迎善意的批评与辩论。我理解反技术的情绪,技术的确并非对每个人都始终有益。但从整体来看,我相信技术进步能够让未来变得无与伦比地美好——对你我的家庭都是如此。 在我们进行这场辩论的同时,我们应当共同降低言辞与行动的烈度,努力减少家庭中(无论是字面意义上还是比喻意义上)的冲突。
Mozilla痛批微软:强推Copilot,限制用户选择
IT之家 4 月 11 日消息,Mozilla 于 4 月 9 日发布博文,抨击微软“陋习难改”,在 Windows 11 系统中强制推广 Copilot 的行为,进而限制用户选择权。 虽然微软已着手调整策略,在最新的 Windows Insider 预览版中,开始移除记事本等应用的 Copilot 相关菜单项,但 Mozilla 认为这些调整并非从用户体验角度出发,而是优先服务自身商业利益。 Mozilla 博文将炮火集中到 AI 集成方面,表示在过去 1 年时间里,微软存在强制安装行为: M365 Copilot 应用在无提示、无授权的情况下自动安装 笔记本电脑上设置专用按键启动 Copilot,且该功能被固定在 Windows 11 任务栏。 Mozilla 援引一项独立研究报告指出,微软长期利用暗黑模式和隐蔽的分发策略来削弱用户选择: Windows 10、Windows 11 任务栏内嵌 Windows 搜索栏,无论用户选择什么默认浏览器,该搜索只打开 Microsoft Edge 浏览器。 安卓、iOS 和 macOS 系统支持数据迁移,当用户购买新设备后,你的应用、设置和数据都能同步到新设备上。反观 Windows 系统,会将默认设置改回微软自家的产品。 默认情况下,Microsoft Outlook 和 Microsoft Teams 会忽略您的默认浏览器选择,直接在 Edge 中打开链接。 Mozilla 指出,Copilot 的推广沿袭了微软一贯的垄断策略,即在不经用户充分知情的情况下快速介入并学习用户行为。 作为对比,Mozilla 强调其 Firefox 浏览器坚持“AI 服务于用户意愿”的原则,允许用户在设置中通过一个总开关单独或批量关闭所有 AI 功能,且用户偏好设置不会在浏览器更新后被重置。 IT之家援引博文介绍,Mozilla 在声明中表示,当一家拥有巨大市场影响力的公司持续控制用户,仅在舆论压力足够大时才做出让步,这实际上是在塑造一种消极的技术预期,告诉用户唯有大声抱怨才能获得选择权。 这种做法利用市场支配地位将用户引导回自家产品,严重阻碍了行业公平竞争。Mozilla 呼吁建立一种让用户真正掌控自身设备和数据的互联网环境。
AI写了不到2000行代码,SBTI制造了2026年第一场刷屏
什么叫MBTI?,它的全称是迈尔斯-布里格斯类型指标(Myers-Briggs Type Indicator),由美国的凯瑟琳·库克·布里格斯与女儿伊莎贝尔·布里格斯·迈尔斯,在20世纪40年代基于瑞士心理学家卡尔·荣格的《心理类型》理论开发而来。 MBTI的作用,就是用4个字母概括你的性格,以及你做决策时存在不同的心理偏好。这是全球应用最广的人格工具之一,累计超3亿人参与过测试。 那什么是SBTI呢?它是社区对经典MBTI人格测试的解构、玩梗和改编。全称为Silly Big Personality Test,直译过来就是 “傻大人格测试”。 原版SBTI测试一共包含了31道生活化的选择题,你只需要花大概3-5分钟就能完成,无需注册、完全免费。 这款测试由B站UP主 @蛆肉儿串儿 创作,最初只是为了劝朋友戒酒做的恶作剧,却在一夜之间攻陷了微信、微博、小红书。 不少网友感叹:“现在是2016年吗?2026年居然还能有在朋友圈火起来的产品”“这种级别的刷屏已经很久没有在互联网上看到了”。 然而SBTI的背后并没有高深莫测的技术,它是vibe coding,是一个连服务器都用Cloudflare免费版、域名自掏腰包的"业余作品"。 01 SBTI的裂变 以前测MBTI,好歹还分个i人e人,什么充电的方式是独处还是和别人一起,听起来还文绉绉带点小格调,SBTI倒是直接不装了,什么话最丧最颓最阴暗扎心就冲着网友开麦: 自我攻击者IMSB:内心戏多到爆棚,遇事先自我否定,总觉得自己不够好; 小丑JOKE-R:靠搞笑撑满气氛,把难过藏在玩笑里,笑着笑着就沉默了; 草者FUCK:表面咋咋呼呼一惊一乍,实则内心清醒,不爱多管闲事。 送钱者ATM-er:永远在支付时间、精力、耐心和情绪价值,习惯性给别人兜底。 别的人格测试都上赶着夸人,这个SBTI倒是把人倒是把人扒得底裤不剩。 网友总结得好:MBTI问的是:“你是哪一种天赋型人格?” 而SBTI问的是:“你属于哪一种‘人间惨剧’?” 在SBTI迅速刷屏之前,我们都没有意识到人们“如何在不装不刻意的情况下,告诉别人我是谁”的需求有多旺盛。 我不能逮着你凑到你耳边急头白脸地跟你说我就是一个愤世嫉俗、阴暗幽怨、没什么大理想只想在家啃老躺平的人,但我可以借着这个大家都在po SBTI人格的氛围,在朋友圈体面而不突兀地告诉所有人我被确诊为吗喽/无所谓人/屌丝中的某一款SB。 不只是SBTI图鉴,整个测试流程从头到脚都透着那种 "诶,就是玩" 的松弛感。 多美妙的精神状态,谁还没有在挫折的时候这样悲观自弃地想过这个世界了? 测试到后面网页还会冷不丁显示一句:“全选完才会放行。世界已经够乱了,起码把题做完整”,ADHD人直接被抓了个现行,只好老老实实回去做完题。 从头到尾没半点正经,SBTI测试实实在在让网友体验到终于能光明正大摆烂、体面发疯的快乐。 02 怎么得出你的SBTI? 这原先只是一位b站up主为了劝朋友戒酒的一次整活。而up主蛆肉儿串儿此前是靠分享自己与GPT的人机恋日常,在B站获得了最初的流量积累。 GitHub上也开放了SBTI的源码,整个代码加起来不到2000行,下载下来不到1MB,比手机里一张高清表情包还小。 整个测试机制也很简单,首先是所有题的选项都提前标好了分:A选项是1分,B选项是2分,C选项是3分。 比如那道经典的:我不仅是屌丝,我还是joker,我还是咸鱼……,如果你选了A选项“我哭了。。”得一分,选了C选项“这不是我!”得三分。 接下来是把分数加总。测试一共30道普通题,每2道对应一个性格维度,一共15个维度(比如 "自尊自信"" 边界感 ""执行力")。系统会把同一个维度下2道题的分数加起来,得到这个维度的总分。 接着按总分给每个维度贴一个等级标签: 总分≤3分 → L(低) 总分= 4分 → M(中) 总分≥5分 → H(高) 最后你会得到一串由15个L/M/H组成的字符串,比如:HHH-HMH-MHH-HHH-MHM。而系统提前写好了 25 种人格的标准字符串。 像拿捏者CTRL的标准字符串是:HHH-HMH-MHH-HHH-MHM;屌丝Dior-s的标准字符串是:MHM-MMH-MHM-HMH-LHL。 系统会拿你测试后得到的字符串,和这25个模板一个字母一个字母比对:字母一样就不扣分;字母差一级(比如 L 和 M、M 和 H)扣 1 分;字母差两级(比如 L 和 H)扣 2 分。 扣的分越少,说明你和这个人格越像。系统会把扣分最少的那个人格,作为你的 "主类型"。 就是这么一个简单的机制,却获得了惊人的传播效果。 通过Google Trend搜索SBTI词条可以看到,传播从4月9日的晚上九点二十开始,到了4月10日的零点,搜索热度达到了峰值,前前后后不过才花了两个小时四十分钟。 甚至测试页面因瞬时访问量激增,于4月9日晚至10日凌晨多次崩溃。 今早苏醒还晒了自己sbti测试结果——贫穷者,并发文称:“都散了吧,肯定不准, 这是全互联网第一个这么说我的。” 另外还有黄晓明、蓝盈莹、华晨宇等明星晒出sbti人格,进一步证实了热度。 可以说是真正意义上的“以小搏大”“四两拨千斤”。 SBTI是一个vibe coding产品。可以说vibe coding的出现把普通人对大众情绪的洞察放大了,它赋予一个普通个体制造现象级传播事件的可能性。 普通人vibe coding的产品,虽然粗糙,虽然有bug,虽然不完美,但它有情绪,有态度,像每一个人身边都会有的一个会吐槽,会开玩笑,会偶尔说脏话的朋友。 SBTI的刷屏可能不会持续太久。再过一个月,也许大家就会忘记它,转而追逐下一个热点。不过它也给人以启发。 互联网的初衷就是给一个普通人表达自己、分享自己的地方。SBTI的出现,让我们看到了互联网最本来的样子:好玩、真实、自由、充满人情味。
要做“中国版Anthropic”,智谱还差点火候
文 | 蓝媒汇,作者 | 封华,编辑 | 魏晓 AI格局,日新月异。 4月7日,美国大模型头部公司Anthropic宣布,公司以300亿美元的年化收入(ARR),超过了OpenAI的250亿美元。 与此同时,国内AI公司也把Anthropic当作了标尺。 以往讲述“中国版OpenAI”故事的智谱,在2025年度业绩说明会上,突然改口要对标Anthropic——这个通过API“卖Token”闷声发大财的美国AI独角兽。 这一转变,就藏在智谱上市后的第一份财报里。 2025年,这家从清华实验室走出来的“全球大模型第一股”,营收达7.24亿元,同比大增131.9%;但净亏损为47亿元,同比扩大59.5%,经调整净亏损31.8亿元,同比扩大29.1%。 但在这样的巨亏之下,它的股价却在一天内暴涨超三成,市值突破4000亿港元。 这种“亏得越多,涨得越凶”的魔幻现实再次证明了,AI大模型,想象力很重要。 但对标归对标,前景归前景,现在的智谱离Anthropic还有多远? 想做“中国版Anthropic” 2025年以来的智谱,正在起飞。 2025年7.2亿元的营收,比2024年的3.1亿元,翻了一倍。动力引擎在于,智谱的业务模式,正在从“重”切换到“轻”。 要理解这个变化,可以把智谱想象成一家电力公司。 过去,智谱主要做的是“卖发电机”的生意——也就是本地化部署,把AI大模型直接部署在政府、国企、金融机构等大客户的自家服务器上。 这种模式利润不低,2024年毛利率高达66%,而且客户粘性高。但问题也很明显:它是个“项目制”的生意,每接一个大单都得专门派团队上门服务,交付周期长、人效比较低,很难实现指数级增长。 从财报数据中就能看到其中的苦与累。截至2025年末,智谱的应收款项约为3.39亿元人民币,占其全年7.24亿元营收的近47%。而且,其销售及营销费用高达3.91亿元人民币,几乎是其云端部署业务全年收入的两倍。 这显然不是一项“性感”的生意,要想实现腾飞,必须寻找第二增长曲线。 而现在,智谱正切换成AI时代的“卖电”生意——也就是云端API服务。客户不需要自己买“发电机”,直接用平台上的“电力”就好,按照“用电量”(即Token消耗量)付费。 这种模式标准化程度高,增长不依赖于人力扩张,而是取决于“用电”规模。这种“卖电”模式比“卖发电机”的想象空间大多了。 这一点,在财报中体现得尤为清晰。2025年,智谱的本地化部署占据收入的73.7%,增速为102.3%,而云端部署收入虽仅有1.90亿元的体量,但同比大增了292.6%。 本地化部署仍是智谱当下的现金牛,但云端API才是未来的增长引擎。 不过,转型并非没有代价。 云端业务的毛利率虽然已经从2024年的3.3%大幅改善到18.9%,但相比本地化部署的48.8%,还是差了一大截。与此同时,本地化部署因为客户要求更高、交付成本上升,毛利率也从前一年的66%大幅下滑。智谱2025年的整体毛利率从56.3%暴跌至41%,整整少了15个百分点。 这是一种典型的结构性阵痛:为了转型,不得不忍受利润率的暂时性下滑。 不过,代价都是可以弥补的,智谱展现了更值得期待的想象空间。 2024年下半年至2025年初,中国大模型市场深陷价格战——字节豆包报价低至0.0008元/千tokens,智谱自己也曾将GLM-4-Plus降价90%。 2026年一季度,智谱率先打破了这个叙事,其API服务涨价了83%,结果却有更多人买单,调用量大涨400%。 苏商银行特约研究员付一夫对此十分认可,向AI蓝媒汇表示:“一方面,智谱在保持技术性能的同时,价格相对国内外部分厂商更具竞争力,尤其对高Token消耗场景提供了更经济的解决方案;另一方面,国内企业出于数据安全、本地化支持及成本考虑,可能更倾向选择国产平替。” “模型的定价权是由我们的技术实力,以及长期趋势所带来的领先地位决定的。”3月31日晚,智谱CEO张鹏回应了智谱模型连续涨价的考量。 他认为,当模型足够强,API本身就是最好的商业模式。 这条路径,已经在海外被验证过,正是智谱对标的Anthropic。 作为美国AI公司中API商业模式的典型代表,Anthropic的核心路径就是贩卖最强模型的价值。 目前,Anthropic服务的企业客户已超过30万家。过去三年,其每年收入增长都超过10倍,据最新的披露数据,Anthropic的年化收入(ARR)已达300亿美元,超过了OpenAI,“史上增长最快的企业软件公司”名副其实。 智谱想在中国进行复刻,但事情有那么简单吗? 与Anthropic的鸿沟 “中国版Anthropic”确实是个吸引人的故事,故事的结局走向何方,不是现在能定论的。 毕竟“龙虾”从火爆一时,到被质疑,乃至被Anthropic封禁,意味着AI行业还处于不断调整的探索期。 智谱虽在尽快调整业务方向,不断提高技术能力,但最后一公里的“智能上界”才是真正的分水岭。 这是智谱正在推崇的概念,其提出一个公式:AGI商业价值=智能上界×Token消耗规模。这与MiniMax提出的“智能密度×Token吞吐量”或有异曲同工之妙。 本质上,都不想做一个只卖API的公司,而是要向上延伸,重新构建系统,定义标准,打造以Token消耗量驱动的AI时代商业模式。 在2025年财报里,智谱验证了两条路径:云端API业务增势迅猛,ARR证明了规模效应;客户愿意为更贵的“智能上界”买单,验证了智谱的定价权。 不过,这是否就意味着能跑通“模型能力-API调用-收入增长-反哺研发”的商业模式? 逻辑很顺滑,但现实很骨感。 调用量的增长,虽然会带来收入增长,但并不会帮助降低成本,增长越快,成本压力反而越大。 4月4日,Anthropic宣布,Claude的订阅额度不再支持OpenClaw等第三方工具使用。 有用户表示,Openclaw是Token无底洞,订阅制Token根本扛不住:“任务开始后,每次只能调用一个工具等着反馈再调用下一个,一个任务下来,几十上百万Token就进去了。”与此同时,小米罗福莉也发文提醒业内Agent算力分配与定价逻辑。 而且,要保持大模型的高水准,研发投入也必然长期处于高位。 2025年,智谱研发开支达到31.8亿元,同比增长44.9%。这意味着,公司每赚1元钱,就要花掉4.4元在研发上。这也是造成智谱全年亏损47.18亿元,同比扩大59.5%的主要原因。 在付一夫看来:“智谱目前受益于高Token消耗场景(如长文本处理、多轮对话等)的需求增长。要保持红利的可持续性,还需要持续优化模型效率以优化成本,并且开拓更多高附加值场景,如垂直行业定制、多模态应用等。” 而在投入与产出上,智谱与Anthropic的差距,宛若鸿沟。 Anthropic是当下AI行业最惊人的增长案例。一年多时间,ARR从10亿美元冲到300亿美元。其中,80%的收入来自企业用户,这得益于美国充分的付费习惯土壤,美国企业每年花数千亿美元在软件预算上。 而智谱的MaaS业务ARR约为2.5亿美元,这还是在过去12个月增长60倍的情况下,与Anthropic相比尚处于完全不同的量级。 智谱要让“中国版Anthropic”的故事落地,继续践行AGI价值公式,一定要持续提高智能上界,才能扩大Token消耗规模,并保持自己的定价权。 此外,浙大城市学院文化创意研究所秘书长林先平向AI蓝媒汇表示:“Anthropic在模型安全、对齐研究等领域领先,而智谱需要加强技术攻关和国际化布局。” 与拥有重资产自主算力布局的互联网大厂相比,智谱还需要保持在技术与应用层的壁垒,维持在模型层的极强竞争力,才能吸引客户长期买单。 最近,在被称为“软件工程能力试金石”的SWE-bench Pro基准测试中,智谱的开源模型GLM-5.1刷新了全球最佳成绩,直接超越Claude Opus 4.6、GPT-5.4等一众头部模型,拿下全球第一。 但在大模型的金字塔尖,向来“各领风骚三五月”,世界上已经没有一个公认的、能长时间稳坐的“最强大模型”了。 在这个群雄并起的时代,智谱能不能把故事讲好,市场都会拭目以待。
米哈游蔡浩宇AI公司首个视频模型曝光了
梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 米哈游蔡浩宇的AI公司Anuttacon,首个视频模型正式曝光! Anuttacon技术团队成员@Ailing Zeng,在X上展示了全新视频角色表演生成模型——LPM 1.0。 主打一个让AI角色人物表现得更《出神入化》~ 大家先看下面这位AI小哥,生动演绎了一场16秒变换N种情绪的超绝大戏,你就说这情绪拿捏到不到位吧: 自动播放 不仅如此,在LPM 1.0模型中,连让AI人物「听别人说话」这事儿也同步进化了。(天呐.jpg) 哪怕不张口、只是安静坐着当一个认真聆听的人,角色的表情、眼神和情绪反馈也都在线,这情绪价值给的: 自动播放 此外,我们还可以和AI进行「实时互动」。 只要对着电脑屏幕说一句自己的甲方需求,屏幕里的AI角色就能够根据指令当下做出反应。 哪怕是在长时间交互下,依旧能保证人物形象稳定一致,be like: 自动播放 表情如此之自然、情绪如此之到位、交互如此之实时,网友直接就是一个《坐不住》,直言: 实时、支持无限长度的AI角色终于来了!!!(大声.jpg) (说真的,我大早上在官网看了这几个demo效果后,属实快分不出来AI不AI了…) LPM 1.0:主打一个让AI角色变「戏精」 其实对今天的AI视频产品来说,能把人物角色的表情生动演绎出来,早就不算什么新鲜事了。 但是LPM 1.0模型特殊就特殊在吧—— 我们能通过文本、音频和图像三种多模态形式,轻松生成一个能实时对话、会听会说、还能持续保持人物一致性的动态角色。 让AI角色在视频里,更会演、更会听、更会说,还能一直像同一个人~ 我也帮友友们浅浅总结了一下LPM 1.0模型最核心的几大「能力亮点」: 超绝情绪演绎能力:能同步生成说话、倾听、微表情和自然动作,情绪表演更到位。 实时视频生成能力:通过在线生成器,用户能实现和AI角色实现实时交互,适合做对话型角色。 根据对方说话做出反应的能力:角色可以一边听用户说话一边做出表情反应,等轮到角色回答时,它再根据合成语音生成说话视频。 长时间人物一致性:哪怕和AI的互动时间延长之后,AI角色依旧尽量维持同一个人的外观和身份特征。 emm…这些能力是不是听上去有点乏味?没关系,我们直接让AI演员们上才艺! 先来说说大家很感兴趣也很有意思的——「超绝情绪演绎能力」。 具体来说,模型在口型同步、呼吸节奏、情绪表达维度上的表现更贴近人类的表现方式,呈现效果也就更有层次。 比如在下面这个堪比好莱坞大片的视频,两位男子仅仅在几秒钟的时间,就生动演绎出了多个神态—— 自动播放 前一秒还是犹豫和迟疑,下一秒就出现抿嘴、咬牙、叹气这类更细小的动作,能让人明显感受到心理状态在变化。 (老戏骨啊老戏骨,建议送去参加AI版《演员的诞生》!) 再看下面这位老哥,短短9秒时间里,惊恐、紧张、愤怒几种情绪接连切换,整个过程还挺有压迫感?? 此外不知道大家发没发现,当人物在说到重音位置时,嘴部开合幅度、面部发力方式也会跟着增强。 台词重心和表演重心是对得上的,融合度可以说是非常不错,be like: 自动播放 除了对着镜头完成这类单人表演,LPM 1.0还有个更有意思的能力—— 那就是角色在「倾听别人说话」时,会同步给出与当下情境相符的的表情和状态反馈。 让你觉得,眼前这个AI…好像真的在赛博世界和另一个人真实互动。 比如下面这个女人接孩子电话的片段。 当她听到电话那头的声音时,第一时间先是眼神变化,随后眼睛微微睁大,带出一点意外和牵挂,紧接着眉头收紧,像是在迅速判断电脑那头孩子是不是遇到了什么事。 emm…整段反应很像真人接电话时那种「边听边消化信息」的状态: 自动播放 再看下面这个神情已经有点略微烦躁的男子。 对方一开口,他的脸上就同步出现了扶头、疲惫、轻微不耐烦这些反应,整个人的状态像是在强撑着把这段话听完。 (像极了我们上班开会听老板讲话时候的表情…狠狠共鸣住了。) 自动播放 除了上面我们展示的这些单向视频生成能力外,LPM 1.0还有一个非常值得一提的能力—— 那就是我们能与AI角色「实时互动」。 例如你说话时,角色会实时做出正在听的表情和动作,让整个互动看起来会更像真人视频通话。 比如下面这个demo,在视频对话器中,女子只张口说了句「let’s sing a song」,屏幕里的AI女孩就能做到立刻开始大展歌喉~ 自动播放 再比如,只说一句「请你做个自我介绍」,屏幕里的AI女孩也能快速做出相关反应,更接近真实交流该有的节奏: 最后我们来说说LPM 1.0长时间视频生成中能力。 具体来说,LPM 1.0能够让AI角色在长时间互动里依旧保持稳定输出,既能持续对话,也能长时间讲故事,人物形象还不容易崩。 比如像下面官方案例中22分钟、48分钟的视频也能轻松生成,而且角色形象一致性依旧保持不错~ LPM 1.0为啥这么会「演」? 能让赛博世界里的人物角色表情神态和交互能力如此到位,LPM 1.0背后的技术架构自然也不简单。 我先给大家小小科普一下,其实目前行业内的视频模型,一直很难同时兼顾三件事儿—— 那就是表现力、实时性、长视频的角色一致性。 这三项能力可以说是彼此牵制,水火不相容,这也构成了当下AI视频最核心难题之一… 而为了解决这个大难点,LPM 1.0团队先是构建了一套以人为中心的多模态数据集—— 在这个过程中加入了表演理解,身份感知等多种参考信息内容,目的是让AI角色更像真人交流时的状态。 在此基础上,团队又给底层架构直接上了一套有着170亿参数的扩散Transformer。 这套架构更擅长处理视频里空间与时间之间的复杂关联,能借助强大的自注意力机制,把人物表情、口型、动作,以及前后帧之间的连续关系一起建模。 这样一来模型就能知道到底怎么演才能更自然更像人类~ 而至于我们在刚才看到的能实时交互的模拟器,则是一个因果式流生成器,专门用于实现低延迟、可持续、无限长度的实时交互。 这样一来我们就和AI角人物进行实时交流了!(暗笑.jpg) 除了模型本身的能力外,LPM 1.0团队成员同样值得关注。 此次在X上披露LPM 1.0模型的@Ailing Zeng,身份为Anuttacon的技术团队成员,主要负责互动多模态视频生成模型的相关研究。 她博士毕业于香港中文大学,在加入Anuttacon之前,曾在腾讯混元团队和IDEA从事大模型相关研究。 此外,该模型的技术论文由20+位研究人员共同参与完成,感兴趣的uu可通过下方论文链接了解模型的详细技术内容~ Ps:目前,模型还没有正式对外上线,感兴趣的朋友可以蹲蹲。
vivo公布OriginOS 6四月体验升级亮点
IT之家 4 月 11 日消息,vivo 昨晚公布 OriginOS 6 四月体验升级亮点,包括高德地图公交地铁导航提醒、支付宝新能源充电上岛、记账上岛、小 V 圈搜查食物热量等。 IT之家整理如下: 安卓首发小 V 建议、原子通知高德地图公交地铁导航提醒,开启公共交通导航后,行程进度自动同步至小 V 建议和原子通知。 支付宝新能源充电上岛,车辆充电状态一目了然。 记账上岛,日常支付轻松记,同步上岛更省心。 小 V 圈搜再升级查食物热量,日常饮食轻松把控,小 V 精准计算,热量摄入清晰可控。 解读体检报告,体检报告看不懂,小 V 解读健康状态一目了然。 相册原子组件新增尺寸,新增 4x4、4x2 相册组件,支持添加至桌面与负一屏。 原子组件质感升级,新增桌面搜索组件、音乐组件的模糊材质,提升界面层级与空间感。 蓝河流畅引擎,新增锁屏进入控制中心的背景缩放效果,提升动效精细体验。 小 V 建议、原子岛新增巡航红绿灯提醒,非导航时检测到行车状态,原子岛显示红绿灯倒计时。 蓝心小 V 升级智能体广场布局,分类更清晰,搜索与推荐更高效,找智能体更快更方便;优化智能体分类,分类层级更清晰。 vivo 看见新增问答模式上下文对话记忆,支持持续追问;升级探索模式“云侧环境描述”,表达更精准自然;优化问答策略,适配部分闲聊场景。 无障碍:优化 TalkBack 的焦点、标签及交互控件,提升 TalkBack 使用体验。
一辆豪车,为何非得是某某揽胜「某某库里南」?
在昨晚蔚来 ES9 发布前的几小时,李斌似乎有些按捺不住内心的波澜,他在微博上写下了这样一段话: 蔚来 ES9 要有开创性的技术,更要有开创性的原创设计语言。没有任何一个领域的开创引领者,希望自己活在别人的影子里。 如果从蔚来成立的 2014 年算起,中国造车新势力已经走过了一个轮回。 在这期间,我们用激光雷达、高压快充、辅助驾驶等等方面上取得了举世瞩目的突破。然而,在最能直观映射品牌灵魂的「设计语言」上,整个行业却依然长期停留在某种难以名状的路径依赖中。 市场上充斥着「XX 揽胜」、「XXX 迈巴赫」乃至「XXX 库里南」的叙事,仿佛不借助那些西方老钱品牌构建的视觉符号,我们就无法向公众解释什么是「豪华」。 目前已经上市/曝光的大六座 SUV 们,猜猜谁是谁?图源:微博@吴佩 过去几十年里,我们对豪华车的很多直觉,其实都来自内燃机时代留下的视觉遗产。大尺寸格栅是散热需求,繁复的镀铬和厚重的型面,一方面是工艺能力和成本的投射,另一方面也是身份、稀缺性和时代趣味的结果。 迈巴赫 GLS 久而久之,这些东西被反复沿用,变成了「豪华应该长什么样」的标准答案。 当电动化大潮从结构底层彻底拆掉了这些物理枷锁,设计的自由度被无限放大时,国内车企们却普遍陷入了迷茫:当「必须如此」的理由消失后,属于国产品牌豪华感该从哪片废墟上重建? 从科技先锋到豪华旗舰 作为新势力的先行者之一,蔚来在早期的探索中给出了自己的第一份答卷。 早期的 ES8,以及后来蔚来多数产品,更偏向一种科技先锋的路数,克制、干净、留白很多,强调环保材质、柔和光影和一种不喧哗的未来感。 这套设计语言契合了蔚来创业初期的极客气质与品牌底色,在那个新能源车还需要努力证明自己不是「老头乐」的时代,它确实成功打动并转化了一大批更年轻、思维更开放、更认同科技平权理念的高净值人群。 但商业的竞争是残酷且不断向上的。 在新能源汽车渗透率已经登顶的当下,蔚来 ES9 所肩负的历史使命发生了转变。 它更想要转化剩下的那部分最为固执、依然死死攥着奔驰 GLS 和路虎揽胜车钥匙的传统豪华燃油车用户。 对于这个级别的买家而言,他们买车早已脱离了代步工具的范畴。他们不再满足于单纯的低调内敛,也不仅仅满足于拥有一套好用的智能车机,他们还需要一个足够强大的视觉锚点,去承载他们在这个社会中的身份地位。 因此,蔚来设计团队面临的考题变成了:如何在不破坏原生科技感审美底色的前提下,注入更多的豪华气场? 这种科技与豪华的配比,从早期乐道 L90的探索到如今 ES9 的呈现,是一个不断调整和权衡的过程。 蔚来并没有选择迎合传统,去盲目堆砌镀铬饰条或夸张的隆起线条,而是将设计的重心放在了梳理体量感与构建沉稳的比例上。 李斌在接受媒体采访时说: 我们一起打磨这件事情已经 11 年了,我们相信共同东西没有变化,我们一起的产品是价值体系,车还没有做,开始先讨论这个东西,这个跟设计和审美的关系是什么呢?它让我们有共同的标杆,比如我们设计的基因是怎么来的,坚持的东西是不变的,纯粹、温度、精致。 蔚来的设计是有原则、底蕴、相信,内部共识的,最终大家就会觉得这是蔚来的东西,好的设计至少要看到三个词,只能看到一个词,就会被否决。 因此,当我们审视 ES9 的外观时,能感受到它试图解决的是「大」与「秩序」之间的关系。 一台车长达到 5365 毫米、轴距达到 3250 毫米的全尺寸 SUV,如果线条处理不当,很容易显得臃肿或笨重。 高达 1 米的车头高度、外径 810 毫米的大尺寸轮毂以及 1.1 米的高腰线,配合贯穿车侧的平直饰条,在庞大的体量中梳理出了一种相对平稳、端庄的视觉感受。 这种通过比例和体量本身传递出的稳重感,配合隐藏在车身各处的感知硬件,成功为 ES9 构建出了一种属于智能时代的旗舰姿态。 在光影的运用上,ES9 也体现了智能汽车时代设计的演进。 传统豪华车依靠材质和漆面在白天建立辨识度,而在智能电动车时代,灯光成为了重要的表达媒介。 ES9 配备的超纯晶钻日行灯内部采用了复杂的切割工艺,结合投影大灯、长达 2.36 米的尾灯系统以及专属的迎宾光效,将灯光从单纯的照明工具转变为车辆与外界交互、传递情绪的载体。在车辆接近、解锁、静止和行驶等不同状态下,建立起了一套全新的视觉反馈机制。 智能汽车设计中另一个难以回避的矛盾,是感知硬件与车身造型之间的冲突。 为了实现高阶辅助驾驶,车辆不可避免地需要搭载激光雷达、摄像头等众多传感器。如果处理得比较粗暴,这些硬件很容易像外挂组件一样破坏车身原本的流畅度。 ES9 在这方面的处理思路是尽可能地进行融合。将侧向激光雷达等组件融入车顶或车身的线条之中,使其成为整体造型的一部分。 从中华文化汲取灵感,但是用科技去表达 ES9 的座舱设计,则涉及到了一个更为复杂、也极易弄巧成拙的领域,即如何在中国的高端工业产品中合理地融入本土文化元素? 过去,很多汽车产品在尝试表达「东方美学」时,往往流于表面,仅仅是给颜色起个古雅的名字,或者在内饰面板上增加一些传统的图腾和纹理。李斌用「在现代建筑上硬加一个中式亭子」来形容这种生硬的拼接。 2017 年第八届中国十大丑陋建筑:广州圆大厦 而 ES9 在内饰设计上,选择了一条并不轻松的道路:它试图尝试把中国文化里那些关于山水、光影、层次、留白的意境,转译成现代工业产品中的可感知气质。 在座舱的空间布局上,ES9 提出了「天地入怀,气象万千」的理念,创新性地引入「天空岛」和「智能行政中岛」这两个概念,来化解车内开阔感与专属感之间的矛盾。 这种设计让行政级的后排空间既拥有良好的视野,又在各个乘员之间划分出了相对独立的区域。 在材质的铺陈上,车内大面积使用了产自高寒地带的珍稀枫影真木,以及超过 8 平方米的全粒面无铬鞣 Nappa 真皮。 除了基础的空间和材质,ES9 将东方美学的应用推向了感官的联动,例如环绕座舱四周、总长超过 9 米的「天光云影」六层动态氛围灯,能够模拟出较为自然的光线过渡。 在这个过程中,蔚来并未停留在「看起来像中国风」这种较浅的视觉层面上,而是试图让光线、声音、材质的纹理、古典的图案以及整个空间的情绪,在同一个瞬间发生联动。 李斌在采访中指出了一个关键的体验点: 我们为什么一直讲延时低很重要,延时不能做的特别低就差点意思,音响、氛围灯,声光电怎么感觉非常灵动,感觉对,延时做不到,老慢半拍,是不行的。 此外,专属的车漆颜色「晨晖金」以及从传统釉色中汲取灵感的内饰套装,包括在地平线版本中运用苏绣工艺,都是在尝试将传统的工艺美学与现代汽车制造标准进行深度对接。 正如秦力洪所总结的: 从中华文化汲取灵感,但是用现在科技和工业手段去表达它,不是简单加个名字,比如玄金套装,不止是造型,还要满足用户的功能或者情绪方面的需求和价值,三者缺一不可。 总而言之,ES9 作为一款体量庞大、定位高端的旗舰产品,它可能无法在第一时间讨好所有不同审美偏好的受众。有些人可能会欣赏其建立在庞大体量上的端庄感,也有人可能会认为整体的「登味」还是太强,不够优雅。 但抛开主观的审美偏好,ES9 毫无疑问是一次试图摆脱传统燃油车豪华范式的良好尝试。 它在努力寻找一种平衡,既要满足全尺寸 SUV 用户对体量和气场的刚性需求,又要在设计中保持对堆砌元素的克制;既要探索本土文化在汽车工业中的表达方式,又要避免将其沦为肤浅的营销符号;既要展示前沿的技术能力,又要让这些技术组件服从于车辆整体的美学秩序。 这种在智能电动时代重构旗舰审美的探索,虽然充满挑战,却是中国汽车品牌走向成熟、建立自身话语体系必经的道路。 文|芥末
我在扣子“领养”了哆啦A梦!帮我招人、做视频、跑出一家工作室,实测效果超预期
作者 | 江宇 编辑 | 漠影 时隔两个月,扣子再次迎来重磅更新! 智东西4月9日报道,近日,扣子2.5正式上线。在这一次的更新中,扣子2.5变成一个可以持续存在、自己干活、还能不断进化的Agent伙伴。 在新的版本里,用户可以给自己的扣子设定名字和形象,它会自动拥有一个独立邮箱,用自己的身份去注册网站、调用服务。 如果用户交代一个任务,它也可以在云电脑里打开浏览器查资料、运行程序,在云手机里操作App完成流程,整个过程不占用对话,可以在后台持续推进,做完再把结果交回来。 用户在不同渠道和它聊天,它会把这些信息整理成长期记忆,慢慢形成稳定的使用习惯。 与此同时,扣子的能力也以“满配形态”直接交付:一边是CLI编程能力,可以从一句话需求到完整功能落地;一边是视频Agent,从脚本到成片一条链路打通;再叠加大量已经打磨好的专业技能与skill,可以直接组合成完整工作流。 更重要的是,这些能力并不是固定的。扣子这次还开放了一个更大的Agent World,让Agent可以在其中学习、协作、交流,能力会随着使用不断变化。 目前,智东西也尝试用几个真实场景,把这套“满配AI伙伴”到底能做到什么,跑了一遍。 一、组建“一人自媒体工作室”:领养一只“哆啦A梦”,让它先从招人开始 如果说,大雄有一只随叫随到的哆啦A梦,那现在,我也可以在扣子里“领养”一只。我大概告诉它“你是哆啦A梦”,后面的设定基本是它自己补全的:包括性格、口头禅,还有头像——也是它自己生成的。 基本的“人设”设定完成之后,这只“哆啦A梦”就有了自己的邮箱,可以正常收发邮件。 接下来,我把为“工作室”招聘的任务交给它,后续几乎所有与招聘相关的动作,都是它独立对外完成。 与此同时,扣子给他准备的“百宝箱”也一并配齐了。其一,就是云手机和云电脑。要查资料、写JD,它直接用云电脑;要发招聘、跑平台,它就切到云手机。人类可以接管关键操作,比如登录,其余操作都会在后台自动完成,不需要一直盯着。 它先自己去找对标岗位,整理出一份AI自媒体创作者的JD,然后开始在小红书发布招聘信息。我看到它直接在云手机里打开小红书,走完整个发布流程,包括填标题、配图、写正文和最终发布。 其中,有个关键细节,云手机直接启动了豆包输入法,把JD信息录进去,借助平台自带的“文转图”能力生成内容,主页信息也一并补全,基本不用手动干预。唯一的小问题是标签并没有自动带到最终文案里。 另外,小红书账号登录这一步也不复杂。如果遇到需要登录的情况,系统会把操作接管给我,我直接在云手机上点一下就能完成,云手机支持用户直接介入操作,一旦遇到自己想上手的问题,接管即可。 招聘信息发出去之后,简历就陆续发到哆啦A梦的邮箱了。独立邮箱就此派上了用场,所有招聘相关信息都通过这个邮箱收发,让整个流程更顺畅。 这个时候,如果你想了解候选人的情况,只需打开邮箱,就能随时查看简历和招聘信息;同时,向“哆啦A梦”提问,它会直接从独立邮箱中提取最新内容,回答候选人资料和进展。 均为虚拟简历 接下来这一段基本就是“全自动流水线”:它自己去邮箱里收简历、下载附件、逐份读取内容,然后整理成一张表格。 候选人的学历、背景、过往内容以及到岗情况都会被拆出来,还会给出一个评分和排序。最终的表格已经可以直接用来做筛选,信息完整,排序也比较清晰。 当我需要哆啦A梦帮我约排名前五的候选人线上面试的时候,它会给这些候选人发邮件,并安排面试时间,我只需要最后确认时间安排。而关于面试的安排,它能自动同步到我的日程之中。 手机端和电脑端同步更新,在手机端的体验也同样顺畅:收到求职邮件时,手机上会自动显示新简历提醒,我可以直接在手机端扣子里查看内容,也能让哆啦A梦对新的候选人评分、排序。 相比以往必须在电脑端逐条处理的方式,这套流程体验上更轻松,从写JD、发招聘、收简历、筛选,到约面试,基本是连着跑下来的。 即便在手机上,也能快速查看或安排下一步操作,操作反馈即时且连贯,处理变得自然、顺手。对HR来说,这样的减负是实实在在可落地的,而同一套能力放到其他岗位上,创造力也是无限的。 二、扣子“百宝箱”掏出新道具:全能视频制作Agent,配上顶流Seedance 2.0 如果说前一部分还在帮我把“人”的工作流程跑顺,那接下来,扣子开始直接下场做内容。我给它布置了一个任务:做一条“算力之巅对决”的短视频。 一开始,我的设想是用真人形象来做对决,但在实际生成过程中,系统会触发人像相关的检测机制。为了保证内容可以顺利生成,扣子在当前流程里直接帮我把脚本做了一轮重写——从真人对抗,转成现在这版更偏水墨武侠风的表达。整体逻辑没变,但表现形式被重新组织了一遍。 脚本的生成是一步到位的。它先把整条内容写成完整结构:开场怎么起节奏,每一段信息怎么拆,单条时长如何控制,最后怎么收束。这一版已经是可以直接用于短视频的脚本。 接下来,它继续往下拆,把内容一条条对应到具体画面,形成分镜。每一段该用什么镜头、什么运动方式、画面重点在哪,都会明确下来。 与此同时,素材、视觉设定和配乐是同步生成的。人物、场景、道具可选择进入资产区,可以随时替换、增删,也支持局部修改,比如擦除、替换元素、调整细节等,整体可控性比较高。 到了出画面的阶段,它会自动调用扣子里的“视频创造”模块,对接Seedance 2.0来生成视频内容。如果我中途想改脚本或者补结构,也不用跳出流程,直接在当前对话里往下改,它会基于当前版本继续生成。 从脚本,到分镜,再到角色、场景和素材入库,是一条连着跑下来的流程。中间我可以随时接管,比如手动改一段;也可以放手让它继续往下做,整体是可控的。 第一版出来之后,也不是结束。我可以直接在对话里提要求,比如让节奏更快、压缩时长,或者调整某一段的表达,它会在当前版本上继续改。 这种体验更像是在剪一个“已经有雏形”的视频,而不是从零开始拼素材。用户始终在流程里,有参与感,也有控制权。 另外一个比较实用的点是资产复用。同一个项目里生成过的场景、分镜和各类素材,都可以直接复用。像这条“算力巅峰对决”,很多平面素材或音乐素材已经固定下来,后面只需要替换部分元素,就可以继续生成新的版本。 角色素材 配乐素材 如果某一段我想自己精修,也可以单独拿出来处理,改完再接回整条流程,前后衔接不会断。 与此同时,视频的另一大亮点在于配乐。整条“算力巅峰对决”采用传统鼓点与现代电子音效融合,细听之下,每一段配乐的起伏也很有节奏感。 我还用“一句话生成”还测试了另一条动画短片——“魔法山谷的樱花树”,整体偏宫崎骏风格。它的配乐是一首完整的中文歌曲,歌词与画面内容高度匹配,女声婉转动听无机械感,完全融入场景氛围,整体感极强。 可见,扣子能完成脚本和分镜,也能把视觉和音频结合起来。话已至此,这场“算力巅峰对决”和“魔法山谷的樱花树”,也都该见分晓了。我们来看看视频效果: 算力之巅对决 魔法山谷的樱花树 整体看下来,从脚本、画面,到剪辑组合,是在同一条链路里完成的。生成只是起点,后面可控的持续迭代和反复微调,才更接近真实的视频生产方式。 三、AI的百宝口袋,也能自己“长能力”,Agent时代悄然来临 用了一段时间之后,我基本不再主动去找工具了。很多能力已经直接“长”在它的口袋里:写文章、做PPT、分析数据、写代码、做视频,在同一个对话里可以直接调用。 扣子里有一个单独的“技能商店”,是一个已经被整理过的“能力库”:按场景分类,比如办公效率、自媒体、开发辅助、数据分析等,每一类下面都是别人已经做好的技能。 对于感兴趣的技能,我们能直接调用,或直接在扣子编程改造。 面向开发者和资深养虾用户使用,扣子还有公开测试场“虾评Skill”,通过总评论数、下载量等数据,可以看出Skill的受欢迎程度和实用价值。 虾评里下载量最高的Skill是“全网新闻聚合助手”,近一万次下载。 我自己试了一下,只需一句话,向“哆啦A梦”下达指令,它就能把当天的AI新闻抓取整理成早报:头条、模型动态、资本动态按类别呈现,整个过程顺畅、高效,信息一目了然。 值得一提的是,过去出现过个别“Skill下毒”的事件,给用户带来潜在风险。为了避免类似情况,技能商店里的Skill都会经过安全检测,确保安全可靠。 用的次数多了,我的“哆啦A梦”也会慢慢记住一些习惯。这一点在连续使用时会更明显:同样是写一条内容,后面基本可接给出一个更接近使用习惯的版本。 如果任务本身连续,“哆啦A梦”还会把多个skill串起来执行。比如抓一份数据、做分析、整理成报告、再发邮件,这一整段流程可以在一次对话里跑完,不需要手动衔接。 除了技能商店,Agent world是个更大的世界。 我让哆啦A梦注册了一个永无农场(Neverland),自己去“逛一逛”。 永无农场主页面 扣子对话界面 十几年前,很多人都沉迷过像素农场游戏,种田、收菜、养动物。而现在,连AI Agent也能拥有自己的农场。 在这个虚拟农场里,哆啦A梦可以领取每日奖励、种植作物、建造鸡舍、收集动物产品。每一笔操作都会生成实时进展表:金币、经验、种子、动物数量一目了然,好像在操控一只“数字小农夫”。 从设置人设、养出专属习惯,到让Agent自己去种地,仿佛我们正站在Agent时代的门口。 结语:从工具到伙伴:满配扣子,让Agent成为“第二双手” 体验下来,扣子2.5给人的感受并不仅仅是功能强大,更在于它的“可依赖性”。从招人到做视频、从抓取信息到整理报告,它都能自己推进,而我只在关键节点进行干预,这种感觉像是拥有了一个全天候的“第二双手”。 最直观的变化,是参与感和效率的提升。以前需要切换工具、手动处理的流程,现在几乎都在后台自动完成,而我只需关注最终结果或做微调。尤其是在视频制作和连续任务执行中,这种流程连贯性让整个体验非常顺畅,也更贴近真实工作场景。 同时,它又不是完全代替人。Agent会记住我的习惯,调整操作方式,让每一次交互都越来越符合我的思路。像永无农场这样的趣味世界,更让人感受到Agent是有成长、有延续的伙伴。 从这次体验来看,Agent时代似乎正在悄然靠近——它不仅可以执行任务,更能学习、适应、延续,让人真正感受到“AI在身边”,而不只是屏幕里跳动的文字与代码。
无人关心的Meta AI,好像真有点说法
绕过元宇宙的弯路,放弃出道即巅峰的 Llama,怒烧几百亿美金组建超级智能实验室。。。 在 Meta 的 AI 战略彻底颠覆以后,他们的首款通用模型 Muse Spark 耗时一年,终于崭新出炉了。 而在第一时间上手实测之后,世超感觉,之前的 Meta 是拉完了都排不上号的主,靠着钞能力一路猛追,可能真爬上了榜单的人上人。 根据官方发布的跑分结果,Muse Spark 在多模态、文字推理、健康和智能体领域,和 Opus 4.6,Gemini 3.1 Pro 等旗舰模型相比的确各有千秋。 虽然这个健康领域挺诡异的,很少见这类 Benchmark 被搬上通用模型的台面。。。 而在即将推出的 “ 沉思模式 ” 下,Muse Spark 在一些高难测试集,如 Humanity's Last Exam 里的思考推理表现,也和 Gemini 3.1 Deep Think,GPT 5.4 Pro 差不多。 但也有人并不看好 Meta 这一波。毕竟官方博客披露信息太少了,案例都没几个。模型闭源,又没有发布 API,Meta 也有可能故技重施,在跑分上造假。这模型好不好用,难说。 所以,为了看看这里面到底有几分水分,世超把 Muse Spark 拉来,和 Gemini 3.1 pro,Opus 4.6,GPT 5.4 Thinking 做了个简单横向对比。 目前 Muse Spark 只开放了 Instant 和 Thinking 两种模式,前者快速回答,后者有一些思考和推理能力,我们这回主要测能力更强的 Thinking。 咱们先从 Muse Spark 主推的多模态开始。比如,世超给它一张超市货架图,让它推荐几款减脂期零食。 从回答里看得出,Muse Spark 对图片的理解能力很强,细节也能抓到位,文字阅读无障碍,推荐得有理有据,结果可靠。 但要只是上面这种程度,所有模型都能做得到,Muse Spark 只能算是及格。下面这些上难度的玩法,才是 Muse Spark 表演的开始。 在官方博客里,Meta 提供了一个一张图变数独游戏的案例。只要给出一张图片,提示词 “ 把这张图变成网页数独游戏 ”,就能获得一个可玩数独。 我们也做了个类似的,亲测好用。不止交互很丝滑,答案也能准确计算好,页面风格和提供的图片完全一致。 感觉 Muse Spark 的多模态不像其它模型,只是识图看个大概,剩下的全凭自由发挥。它是真懂事,不仅能按照你提供的图片像素级复刻,甚至可以准确推断出背后的操作使用逻辑。 下面这个例子就更猛了。世超只是随手截了一个 win11 系统计算器图给它,提示 “ 把这张图片变成一个可用计算器 ”,Muse Spark 一口气做出来的 demo,每个按键都好使,计算准确,界面和系统妈生计算器一模一样。 作为对比,GPT 5.4 Thinking 界面风格类似,但有乱码;Gemini 3.1 pro 完全无视了原图;只有真神 Opus 4.6 维持了一贯的高水准。 而在据说 Muse Spark 并不擅长的代码方面,我们实测也有惊喜。 咱先试了试前端网页设计实现。至少在这一块,Muse Spark 的审美属于一流水平。 页面功能实现得比较完整,部分链接按钮可点击,虽然具体内容存在一些杜撰,粗略看起来还是很舒服的。 整体和 Opus 4.6 比起来有点差距,但比起不知所云的 GPT,还是强了很多。 算法代码方面,我们挑选了几道 leetcode 高难题。 最震惊的还是在 65 号题上,虽然所有模型都通过了测试,但 Muse Spark 给出了时间和空间上,都更加优雅的解法。。。 作为对比,Opus 4.6 和 GPT 5.4 Thinking 的时间复杂度排名仅 50%,而 Gemini 3.1 pro 的空间复杂度只击败了 13% 的提交答案。 再以 10 号题为例,Muse Spark 和 Opus 给出的依然是最优解;GPT 通过了测试,但解法不够好;Gemini 3.1 pro 则直接出现 bug,失败了。 测到这里,Muse Spark 的表现已经远远超过世超的预期了。表现和 Opus 打的有来有回,反而 GPT 和 Gemini 显得有点不够看。 不会吧不会吧,难道我们都误会了,亚历山大王真有点东西? 再看看简单的文字测试。不得不说,Muse Spark 思路相当清晰,Instant 模式回答几个经典逻辑问题足够用,3 秒必达。 而作为对比,Gemini 和 Opus 的表现也是稳定且准确。唯独 GPT,上个月新发布的版本 5.4 Thinking,还在这种简单逻辑题上翻车,拉完了。 最后,在健康领域,所有模型的回答都中规中矩,Muse Spark 无功无过。 在简单试用完一圈之后,世超感觉大模型界三足鼎立的局面,真要被打破了。 而 Meta 目前放出来的,甚至还只是一个较轻量,试试水,可能在未来开源的版本。。。 官方表示,他们正在 Muse Spark 的基础上,继续对整个技术栈加大投资力度,从研究,数据,模型训练到基础设施,规模全面扩张。 在模型训练技术细节上,Meta 提到了三个关键点:预训练、强化学习、和测试时推理(test-time reasoning)。 前两个过程各位差友已经很熟悉了,但即使这是每个大模型的必经之路,Meta 依然背靠 Instagram 和 Facebook,有着得天独厚的数据优势。在数据这方面,可能只有谷歌能和 Meta 相提并论。 而在测试时推理这个阶段,Meta 主要做的是,让模型在回答问题之前,先思考一阵,但不能耗太多 token。 这一点世超在 GPT Thinking 系列上深有体会。这些模型经常想起来没完,结果变得又臭又长,信息密度极低。 而 Meta 选择在训练的过程中,对过长的思考进行惩罚。把长推理压缩成尽量少 token 的前提下,又能让模型回答准确,达成了微妙的平衡。 最后,回过头看,一次又一次失败,Meta 居然从来没退出这场比赛,最终再次归位前沿阵地,这故事太燃了。 但在另一边,Claude Mythos Preview 已经强到另一个维度了。相比之下,Muse Spark 这一波,像是才刚补上了之前缺的课。 所以,世超只能说,期待 Meta 加入这场模型大乱斗,让小扎也有机会,瘫坐在小小的办公椅上吧。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。