EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
或体面离场?曝魅族手机业务即将解散,前员工:不想捅破窗户纸
近日,有网友爆料称魅族23项目已经停止,魅族手机业务即将解散。据该网友梳理的时间线显示: 1月中旬QQ频道有人透露魅族正在清退外包人员,外包撤场后人力难以支撑23项目的继续研发。 2月初,网传魅族今年年假安排通知,非国家统一放假日期需用年假或事假抵扣,疑似为清空员工年假而额外增加6天假期。 2月10日,前魅族员工"猫哥"发布视频,对魅族23及手机业务前途发表看法,表示"不想做捅破这层玻璃纸的人"。 不过,该网友也表示,截至目前魅族内部员工并未出现如2025年6月的大规模裁员事件,系统各业务目前仍按正常计划进行迭代。魅族23及手机业务是否继续,仍需等待官方正式回应。 此前,在2026魅友新春会活动中,魅族方面曾宣布2026年将发布魅族23手机,称该机型手感将更进一步,搭载魅族史上最窄边框,但不再搭载白面板。星际魅族CEO黄质潘当时透露,魅族23已经立项,计划年中上市。 但上面提到的前魅族员工“猫哥”近日发布视频,疑似暗示魅族手机业务面临困境。 他表示,魅族曾以设计、mBack、白面板和Flyme系统为傲,但这些优势在多年演进下逐步消失。他提到,手机的核心竞争力在于自研率,华为和苹果因自研SoC等核心技术成为一流厂商,而魅族从与苹果同步使用三星SoC,到如今连最新SoC都难以负担,销量衰减是核心原因。 该员工还指出,魅族被收购后存在管理问题,包括在上海新开公司、空降大厂领导、团队频繁更换等,导致人员流失严重。 他还提到"23到底什么情况,再过一段时间消息会越来越明显",但表示"不想做捅破这层玻璃纸的人"。 虽然魅族手机业务情况仍有待官方通报,但近期魅族问题不断。首先是官方确认魅族22 Air项目已经取消,原因则是受内存价格过高所致。 近日,魅族还被曝出现大规模闪屏问题。大量用户手机出现忽明忽暗、无法解锁等情况。官方客服建议用户保持联网并多次重启,引发用户不满。魅族工程师在官方论坛回应称,问题系Flyme Pay新版本兼容异常,已通过服务端远程配置解决。 魅族创立于2003年,2022年7月被吉利旗下星纪时代收购,2023年3月成立星纪魅族集团。近年来人事变动频繁,五年间经历四任CEO变更。2024年魅族曾宣布停止传统智能手机新项目,全面转向AI设备。
魅族Flyme 11大规模闪屏无法解锁 官方公布解决方法 用户吐槽要补偿
快科技2月12日消息,日前,多名使用魅族Flyme 11老机型的用户反馈称,手机出现频繁闪屏、无法解锁等问题,多次重启仍无法恢复正常。 对此,魅族Flyme工程师在官方论坛发布情况说明,并给出解决办法。 工程师表示,问题已定位为Flyme Pay新版本存在兼容性异常,出现闪屏的用户,可通过卸载Flyme Pay恢复手机正常使用。 具体操作步骤如下: 1、将手机保持在锁屏界面,通过电脑浏览器访问查找手机网页https://finder.flyme.cn/browser/findphone.jsp 登录问题手机上的Flyme账号,确认手机处于在线状态后执行“挂失”操作; 2、手机将切换至临时访客模式,此时可正常进入桌面。(如仍闪烁,可长按电源键强制重启。) 3、进入桌面后,长按Flyme Pay图标,应用信息,点击底部卸载。(不要直接在桌面上卸载); 4、确认Flyme Pay卸载完成后,在网页版解除挂失状态,手机恢复到用户空间并可正常解锁进入系统。 不过,不少用户对此表示不满。 有用户称:“以为手机坏了,在附近找个店拿去修了,才修好,啥数据都没了,给了300块,刚开机就看见这个帖子,300块的损失谁赔给我。” 还有用户喊话要补偿,手机闪屏变砖五个小时,影响正常使用;也有未设置账号查找的用户表示无从操作,工作受到影响,呼吁官方尽快修复。 值得注意的是,此次情况说明仅发布在魅族官方论坛,微博等公开渠道尚未同步,部分用户未能第一时间获取解决办法。
马斯克情人节“挥刀自宫”!为了一己私利,还是造福全人类?
最近这段时间,特斯拉的大新闻可以说是一个接着一个。 先是马斯克宣布,2月14日要在北美和加拿大地区停售FSD,后续只以199美元/月(约合人民币1400元)的月付会员模式,为用户提供服务。 允许终身版FSD“跟人不跟车”的转让权益,也将于3月31日正式结束。 这也就意味着,想获得FSD的永久使用权,只能在情人节之前掏出8000美元买断。不出意外的话,这就是最后上车的机会了。 紧接着,马斯克又在1月19日公布,特斯拉最新的AI5芯片设计接近完成,目标是在9个月内完成设计周期(业内普遍需要1-3年),同时下一代AI6芯片已经启动研发。 相比上一代的HW 4.0,AI5算力提升了约5倍(2000-2500TOPS),不仅能让FSD的体验更进一步、实现质的飞跃,还会用于CyberCab无人驾驶出租车、Optimus人形机器人和Neuralink脑机接口,堪称“一芯四用”。 更关键的是,AI5的设计取向并不是极致高算力,而是成本和功耗。 在马斯克看来,只有把单位算力的成本和功耗打下来,才能迅速走量,打造出包含9000万台特斯拉汽车、上百亿台机器人,规模前所未有的“机器人军队”。 为此,特斯拉不光要找台积电、三星和英特尔三家大厂代工,还需要自建一座晶圆月产能100万片的TeraFab芯片工厂(tera意为万亿),来满足海量的芯片需求。 建设工厂的工期,也必须从原本的5年压缩到一两年,才能支撑特斯拉在AI领域的先发优势。 至于马斯克到底想要搞什么大事情…… 1月21日,特斯拉在官网更新了品牌使命,从之前的“加速世界向可持续能源的转变”,变成了“建设一个富足非凡的世界”。 特斯拉副总裁陶琳也在微博上表示,特斯拉接下来的目标是全面拥抱AI,通过特斯拉的汽车和机器人迅速发展生产力,让每个人都能过上自己想要的生活。 而秘密宏图第四篇章的第一步,就始于FSD! 01. 醉翁之意不在酒? 简单算一笔账,会发现FSD其实是涨价了,而且涨得真不少。 原本只要不卖车,FSD能一直用到车辆报废。即便卖车了,要么能回收权益、转到自己的下一台特斯拉上,要么随车一起卖,还能多回点血。 但如果从一次性买断变成按月付费,满打满算也就能开5年,根本用不到很多人换车的时间点。 所以消息一经发布,美国网友率先炸开了锅。 有人认为,这是特斯拉惯用的涨价逼单操作了,区别只是“先付”还是“后付”。只要你想用FSD,怎么都逃不掉这一刀; 也有人认为马斯克飘了,FSD技术还没完全成熟就想着“割韭菜”,转成月付后只会更难卖; 还有人扒出,马斯克是为了一己私利,才强行推动FSD月付会员制—— 去年11月,特斯拉股东大会通过了新的CEO绩效奖励。 马斯克要想拿到万亿薪酬,需要在10年内让特斯拉市值增长近6倍、年利润从170亿提升到4000亿美元,还要达成一系列苛刻条件。 其中之一,就是FSD的活跃用户需要连续3个月突破1000万。 要知道,QQ音乐这类国民级APP,超级会员总数也不过1500万人 。 按照这个数字来算,单是每月199美元的“FSD会员费”,就能为特斯拉带来20亿美元的利润,一年够买60万台特斯拉Model 3! 然而理想很美好,现实很骨感。 从去年开始,特斯拉财报首次公开了FSD的用户数据。2025年,FSD用户同比增长38%、月付用户增长超100%,但总付费人数只有约110万名,渗透率还不到12%。 这也就是说,要想在短时间内带动FSD的销量,只靠苦哈哈地卖车根本不够,还是得让更多的特斯拉车主,把FSD用起来才行。 于是乎,特斯拉才祭出了咱们开头提到的,堪称教科书级别的商业谋略。 第一步,先砍权益。 前段时间,北美和加拿大地区的Model 3/Y就已经不再标配EAP(取消车道居中、仅保留自适应巡航),辅助驾驶能力甚至不如很多老旧燃油车: 第二步,是赠送30~90天FSD试用权“先尝后买”。 考虑到美国人均单程通勤距离24km,有没有FSD,体验可以说是天壤之别。即便当下没转化成订单,也是合格的种草——“早晚会用上FSD,你逃不掉的”。 第三步,是犹豫期逼单。 表面上看,买或者不买,买断或月付的选择权,都在用户手里。但实际上,每天都要用到FSD的重度用户根本没得选,只能先行买断。 第四步,是按月付费。 对新车主来说,虽然不能买断了,但月付的门槛会低很多。少吃两顿大餐,就能体验让车自己开一个月的乐趣,不常用的时候还能手动关闭。真开10年的话,未必会比买断贵。 对特斯拉来说,这手“一鱼三吃”既榨干了现有用户的钱包,又拓宽了用户群体,还把一锤子买卖变成了未来源源不断的现金流,堪称神来之笔。 唯一的问题,就是FSD的体验到底值不值这个价,能让多少人买单了。 02. 春江水暖鸭先知? 今年1月21日,美国保险公司Lemonade宣布:只要特斯拉车主激活FSD,车险保费就能直接打5折。后期随着FSD技术逐步成熟,保费还会进一步下调。 Lemonade联合创始人兼总裁沙伊·温宁格表示:“FSD能够360°观察环境、从不犯困、具备毫秒级的反应速度,事故率也显著低于人类驾驶员。” 这份第三方背书,可谓含金量满满。毕竟保费是保险公司的命脉,每辆车每年少收1000多美元,必然需要大幅降低的事故率作为支撑才行。 早在2024年,更新V12版本、启用端到端算法的FSD,就有了几分老司机的风范。 面对鬼探头、多车通行的复杂路口、路障和绕行等场景,它都能像真人一样,给出迅速而精确的处理方案,操作也是前所未有地丝滑。 (想进一步了解的小伙伴,请戳这篇:太疯狂了!特斯拉删除99%代码,FSD却更好用了!智驾的终极答案竟然是它?) 简单来说,辅助驾驶会分为感知、决策、执行这3部分,分别对应人类驾驶时的眼睛、大脑和手脚。 FSD之所以流畅,就是因为特斯拉的端到端算法通过“预判”,大幅度降低了从感知到决策、从决策到执行之间的延迟。 这就好比新手司机变道,打转向灯、看后视镜、确认安全距离都要几秒钟时间,才会打方向盘;而FSD这类老司机,一整套动作如行云流水般一气呵成。 体现在数据上,就是特斯拉每秒能输出36个执行动作,而很多车每秒只能输出10个左右。 2025年,FSD的V14版本又迎来了突飞猛进的变化。 一位车主从洛杉矶出发,开启FSD横跨整个美国,前往南卡罗来纳。全程4400公里、用时68小时,包括高速、市区、充电停车等各种使用场景,甚至还去赛道溜了一圈。 最终的接管次数,是0。 虽然这位老哥为了实现0接管,特意绕开了需要停车的边境检查站,美国的路况也并不复杂,只是证明了FSD能力的下限。 但到了今年,FSD又搭上了xAI的快车。 告诉它“我一会要打场球赛,现在又困又饿,给点建议,直接导航”,它会说“建议吃点容易消化的碳水和蛋白质、避免油腻,赛前一两个小时吃最好,附近有个赛百味,要导航吗?” 借用英伟达机器人业务负责人Jim Fan的评价,特斯拉很可能已经通过了物理图灵测试。 在这背后,不只有特斯拉领先的算法、训练AI大模型的上百EFLOPS算力中心,同样离不开海量数据的支持。 截止到今年1月份,FSD累计行驶里程已达百万亿公里,其中城市复杂路况超40万亿公里;Robotaxi的路测时间,也超过了1000万小时。 每天产生的数据,相当于人类500年的驾驶时长。 而特斯拉的独门绝技,就是能高效利用数据的“视频训练”。 它能通过车端的微小模型,在海量的数据中寻找异形障碍物、行人、车辆失控等极端场景,并记录FSD的操作和人工干预的时间节点。 这些场景会在特斯拉创造的虚拟世界模型里复现,让FSD上百万次地“练车”。通过在错误中成长和学习,来迅速提升FSD应对突发状况的能力。 正因如此,美国版FSD的实际体验,才能看齐自家的Robotaxi。 03. 满血版FSD,即将入华? 了解完FSD的技术原理,机智的小伙伴应该已经发现了—— 正是前端的数据,造就了FSD在中美两地最大的不同。 虽说绝大部分的复杂训练已经在美国完成了,能适应多种路况,在澳大利亚、韩国等国家也收获了不少好评。但中国有形态各异的交通参与者,日新月异的基建也会让路况复杂许多。 识别各式路标,熟悉道路规则,规避弱势群体,甚至要和交规进行博弈……想让FSD“从能用变成好用”,不仅需要数据,更需要时间。 对特斯拉来说,在中国既没有大规模车队提供海量数据,车辆数据和环境数据也很难出境,意味着只能用视频训练模型进行本土化调优,提升极端场景下的辅助驾驶能力。 而在中国自建的训练中心,算力规模又无法和美国总部相提并论。 所以在短期内,特斯拉并不会祭出在美国的“杀招”、用月付会员制完全替代买断制,FSD也依然会维持在6.4万元的“高价”。 但长期来看,满血版FSD入华的时间点,很可能已经不再遥远。 马斯克在前段时间的采访中表示,“欧洲在2月份有可能会用上满血版FSD,中国会在随后推进。” 特斯拉副总裁陶琳也在媒体沟通会上直言,“虽然没有正式推送,但FSD一直在针对中国市场进行适配,能力一直在成长,未来会以最佳的状态亮相。” 到那时,特斯拉这条电动鲶鱼,很可能会再次搅动市场,掀起新的惊涛骇浪。 04. 写在最后 回顾辅助驾驶领域的发展,会发现一个有意思的现象。 上一代技术能力的上限,往往会成为下一代技术能力的起点。 起初的规则算法,是尝试让辅助驾驶系统理解人类世界运行的逻辑,并严格执行。 如果理解有困难,就加上BEV“鸟瞰图”、Occupancy“2D转3D”、高精度地图等各种技术,配上激光雷达和毫米波雷达的3D点云数据,先让它看清这个世界。 但规则算法,没办法穷举所有的极端案例,并把这些写进系统里。算法越复杂,对算力的要求就越高;遇到没见过的场景,还会突然懵逼、愣在原地。 所以,才出现了端到端算法和VLM大模型。 在这一阶段,辅助驾驶系统会观察人类司机,模仿学习他们在遇到特殊情况下的操作,同时在每个时间点用人类语言解释“遇到了什么情况、为什么要这么做”。 这就有点像成千上万个老司机手把手带同一个徒弟,事后还会复盘、反思、整改,学得非常快。 然而弊端是,身为“老司机合集”的它会继承人类司机的坏习惯,也没有真正理解背后的物理世界和交规的安全原则。 于是,VLA大模型和世界模型横空出世,让强化学习成了业界公认的主流方案。 从学习人类怎么开车、到自己探索怎么开车……只要数据够多、模拟出的场景够多,辅助驾驶系统就能在不断的试错中,找到适合的最优解。 但它的天花板,最多只是“最强老司机”。距离真正的自动驾驶,依然有很长的路要走。 要想做到L4,不只是“具备自动驾驶能力”,还要留出更多的冗余设计、验证安全性和可靠性,还需要通过一系列法规的考核。 在不久的将来,一定会有新一代的技术出现,推动辅助驾驶进一步向自动驾驶发展。 至于这次的领头羊还会不会是特斯拉? 那就要看中国品牌的进步速度,够不够快了。
中国载人登月迎来新突破
【环球时报报道 记者 樊巍】编者的话:据中国载人航天工程办公室消息,2月11日,我国在文昌航天发射场成功组织实施长征十号运载火箭系统低空演示验证与梦舟载人飞船系统最大动压逃逸飞行试验。此次试验是继长征十号运载火箭系留点火、梦舟载人飞船零高度逃逸飞行、揽月着陆器着陆起飞综合验证等试验后,组织实施的又一项研制性飞行试验,标志着我国载人月球探测工程研制工作取得重要阶段性突破。 飞行试验创造多个“首次” 中国载人航天工程办公室发布的消息显示,此次试验具有新型号火箭、新型号飞船、新发射工位,以及火箭、飞船海上回收新任务等诸多亮点,参加试验的火箭和飞船均为初样状态。其中,火箭采用芯一级单级构型,前期进行了两次系留点火试验;飞船返回舱前期进行了零高度逃逸飞行试验。为开展此次试验,相关参试产品均按照可重复使用要求和流程完成了适应性改造,文昌航天发射场按照边建设边使用的策略克服各种困难确保试验如期实施,着陆场系统围绕飞船返回舱首次海上溅落回收技术难点开展针对性训练和演练。 《环球时报》记者11日在文昌航天发射场看到,上午11时地面试验指挥中心下达点火指令,火箭点火升空。在到达飞船最大动压逃逸条件后,飞船接收火箭发出的逃逸指令,成功实施分离逃逸。随后,火箭一级箭体和飞船返回舱分别按程序受控溅落于预定海域。12时20分,海上搜救分队完成返回舱搜索回收任务。 此次试验创造了我国多个首次:长征十号运载火箭首次初样状态下的点火飞行;首次飞船最大动压逃逸试验;首次载人飞船返回舱和火箭一级箭体海上溅落;文昌航天发射场新建发射工位首次执行点火飞行试验任务。此次试验成功验证了火箭一级上升段与回收段飞行、飞船最大动压逃逸与回收的功能性能,验证了工程各系统相关接口的匹配性。 文昌航天发射场钟文安11日向《环球时报》记者介绍称,此次试验任务是长征十号系列火箭和梦舟载人飞船研制过程的里程碑节点,也是火箭回收和可重复使用技术的创新探索,将为我国载人月球探测工程、空间站应用与发展工程提供重要支撑。 “长十”火箭通过多重考验 长征十号运载火箭是我国为实现载人登月任务研制的新一代载人运载火箭。该型火箭采用三级半构型,最大高度约90米,起飞推力约2700吨。它是目前国内最大的一款运载火箭,能将载人飞船和着陆器送至奔月轨道,这也是国内目前唯一能执行这项任务的火箭。本次试验任务,是对长征十号的芯一级开展低空飞行演示验证。 “尽管我们将此次任务命名为‘低空飞行试验’,但它的技术难度和飞行高度远超‘低’的字面含义。”中国航天科技集团技术专家朱平平11日向《环球时报》记者介绍称,本次试验虽仅有长征十号火箭的芯一级与梦舟飞船配合飞行,但芯一级的最大飞行高度已经突破了卡门线(100公里),达到105公里,这个高度已经达到了后续正式任务芯一级的飞行高度。这意味着此次的试验火箭已进入近太空环境,面临更复杂的气动和热环境考验。 在采访过程中,朱平平多次强调了此次任务长征十号火箭芯一级需要面临的复杂局面。他表示,此次任务的飞行剖面是中国航天史上最为复杂的一次。此次任务中火箭芯一级在国际上首次实现了“上升段最大动压逃逸”与“返回剖面”的结合飞行。这种“上升—返回”一体化验证,是对火箭系统全局控制能力的极限测试,在国际航天领域尚无先例。 “国际上,火箭在完成最大动压逃逸分离后,通常不再继续飞行。然而,此次任务中,火箭芯一级在将飞船送到最大动压点后,仍将继续飞行,还需要完成后续的返回任务。这是国际上第一次将这些任务剖面结合在一起开展飞行试验。”朱平平表示,此次试验包含完整的返回剖面,长征十号火箭所遭遇的最大热流和动压均为国内目前最高水平。返回段需承受极端高温和气动载荷,对火箭结构、热防护系统及姿态控制提出了严苛要求。 为了实现这一复杂的飞行剖面,火箭研制团队重点突破了多项关键技术。 “我们为火箭配备了‘智慧大脑’,可实时评估发动机等关键设备在起飞段的健康状态。”朱平平介绍称,长征十号火箭芯一级在上升段通过发动机推力精确调节,确保满足飞船最大动压试验条件,这为后续任务积累关键数据。 此外,火箭芯一级的发动机还进行了高空二次启动与悬停点火试验。据了解,长征十号火箭芯一级在返回段需完成两次发动机再启动,第一次是高空二次启动,实现轨道调整;第二次是着陆前悬停点火,为精准回收奠定基础。这对发动机可靠性、燃料管理及点火时序控制提出了极高要求。 “长征十号火箭芯一级达到预定关机点高度和速度后发动机关机,随后转入返回段飞行。”朱平平进一步介绍称,这一阶段试验箭体的任务剖面更加复杂,需要试验箭体在短时间内完成滑行调姿、动力减速、气动减速、着陆等一系列高精度动作。 据《环球时报》记者了解,在着陆阶段,长征十号火箭芯一级在距离海平面大约3公里的高度再次点燃发动机,以便进行最后着陆前的精确位置和姿态调整。“我们会将芯一级的速度控制在非常小的范围内,在距离海平面大约5米的高度上。芯一级会悬停于海面,最后发动机关机,芯一级溅落于海面。”朱平平表示,针对此次返回试验中面临的国内最大热流和动压挑战,研制团队优化了箭体热防护材料及结构布局,确保返回段箭体在高温、高压环境下的稳定性。后续会重新评估火箭是否具备下次飞行的能力,为此后的重复使用积累非常重要的数据基础。 此次任务中,长征十号火箭芯一级还开展了“网系回收模式”试验。区别于传统着陆腿回收,考虑到首次试验的风险控制,火箭在回收船旁200米的海平面预制模拟落点着陆,通过箭船信息交互驱动回收平台模拟捕合动作,以此评估火箭与回收系统的匹配度,为后续实际回收积累经验。 梦舟飞船实现“极限逃逸” 2月11日上午,梦舟飞船随长征十号火箭芯一级点火升空后,火箭上升飞行至距离海平面约11公里的高度时达到最大动压工况,并向梦舟飞船发出逃逸信号。飞船逃逸系统迅速响应指令,依次完成服务舱和返回舱分离、发动机点火、姿态调整、逃逸塔和返回舱分离等关键动作,返回舱下降到8公里高度时降落伞顺利展开,最终安全着陆于预定海域,我国首次最大动压逃逸飞行试验取得圆满成功。 “在火箭发射上升过程中,‘最大动压点’即火箭发射过程中承受气流压力最大的时刻。此时,飞船处在气流冲击最猛烈的极端环境中,面临着超音速气流扰动、姿态失控等多重风险,而且逃逸决策与执行的时间窗口很短,对逃逸系统的响应速度和可靠性提出考验。”中国航天科技集团技术专家邓凯文11日向《环球时报》记者介绍称,最大动压逃逸飞行试验模拟的正是在火箭上升至海拔约11公里的最大动压点处遭遇突发状况时,飞船要克服恶劣的气动环境条件,实现逃逸安全和航天员救生。 据《环球时报》记者了解,作为梦舟飞船与长征十号运载火箭的首次联合飞行,本次试验工况复杂,试验难度大、状态新、风险高,并面临着飞船舱段安全分离、上升段全程逃逸、高动压条件下的逃逸飞行控制等技术难点,对可靠性要求极高。 其中,舱段安全分离是本次试验的首要难题。与正式飞行任务火箭先关机、飞船后逃逸不同,此次试验中飞船逃逸飞行器需在火箭不关机、初始高动压、大角速度等条件下快速完成服务舱和返回舱分离,这对分离可靠性、安全性要求极高。为此,研制团队深入分析识别逃逸内外扰动特性,完成十万级打靶仿真与多轮风洞试验,最终确保分离控制系统安全可靠。 上升段全程逃逸则是面临的另一个难题。邓凯文介绍称,此次试验要求飞船对全程逃逸救生程序进行实飞验证,飞船要在发射上升段具备任意时刻实施逃逸的能力。研制团队创新设计了覆盖低空、中空、高空的全场景逃逸模式,并通过多轮弹道打靶仿真适配各类飞行偏差,实现发射上升段全程逃逸救生。 而针对高动压逃逸飞行控制难题,研制团队采用大推力固体姿控发动机与返回舱发动机复合控制方案。 “在此次试验中,制导、导航与控制分系统突破了逃逸弹道指向制导、复杂动力学特征飞行器稳定控制等关键技术,回收着陆分系统进一步验证了群伞系统等关键产品的可靠性。”邓凯文称。 此前,我国曾于1998年成功实施神舟飞船首次零高度逃逸飞行试验,为载人航天积累了宝贵经验,但在最大动压这一极端工况的逃逸验证领域长期处于技术空白状态。 此次试验实现了多个“首次”。“此次试验是首次组织实施飞船系统上升段全流程逃逸飞行试验,还首次完成逃逸后落海及海上回收试验。此外,首次在文昌发射场开展梦舟飞船全流程总装测试。”邓凯文表示,这些突破不仅填补了我国在载人飞船高动压逃逸验证的技术空白,更为载人月球探测工程筑牢了关键技术根基。
“扫地茅”石头科技去哪儿了
作者 | 封华 编辑 | 魏晓 央视春晚的关注度,依旧无人能及,科技企业们纷纷不愿错过今年春晚。 这届春节,最忙的当属机器人。宇树科技为“机器人合作伙伴”、银河通用为“指定具身大模型机器人”、魔法原子为“智能机器人战略合作伙伴”、追觅科技为“智能科技生态战略合作伙伴”等等 登上春晚之后,各家企业的品牌影响力或将更上一个高度。 这时不禁要问,曾经风光无限的“扫地茅”石头科技去哪了?为何没有挤入这场品牌流量狂欢? 石头科技正面临更紧迫的任务,其在今年初第二次冲击在港股上市,试图讲述新的故事。 然而,石头科技早已不复往日辉煌的光景。 2021年石头科技最高价一度飙至1494.99元/股,市值逼近千亿,成为A股仅次于茅台的第二高价股,一度被称为“扫地茅”。 但截至今年2月11日收盘,其总市值只剩394亿元,缩水超5成。 石头科技尝试寻求第二增长曲线,曾切入洗衣机领域,昌敬也投身于新能源造车事业,但都没有起色。 登陆港股,石头科技不仅需要筹措新的弹药,还需要讲述一个值得畅想的新故事。关键在于,石头科技的试错机会,还有多少。 32亿元营销,不如上个春晚 当前的石头科技,正处于一个关键期。 虽然在全球扫地机器人的赛道里,石头科技成绩斐然。据其港股招股书,石头科技在2024年成绩斐然,拿下全球GMV、销量市占率第一。 不过进入2025年后,头部品牌在中国市场的份额争夺越来越胶着。 据奥维云网数据,2025年上半年,中国扫地机器人线上总销量达231.93万台,同比增长 45.98%。科沃斯以24.8%的线上市占率领跑,石头科技则以23.69%位居第二,小米、云鲸、追觅紧随其后,彼此差距仅数个百分点。 新的变量也在不断进入赛场。2025年,大疆发布ROMO系列扫地机器人,要将其在视觉感知与路径规划上的技术积累,迁移至家庭清洁场景。 还有美的、海尔等传统家电巨头,凭着线下渠道和供应链优势,从低端市场切入扫地机器人市场。对于这些传统家电巨头来讲,扫地机器人只是智能家居的一块拼图,有的是资本砸钱血拼。 美的董事长方洪波就曾说道,“我们做得再差、亏损,也会一直在做。因为我们有能力、有实力,亏就亏,卷到最后看看怎么样。” 无论怎么卷,产品体验是第一位的,但目前的扫地机器人,还未能完全契合消费者心意。 一位上海的消费者称:“使用石头科技P20 Ultra扫地机器人四个月,只用于吸尘吸毛和拖地面,没有难清理的脏污,但机器行动速度很慢,经常撞踢脚线,路线和脏污识别也很混乱。而且,还频繁报错误2,售后还说没发现问题。”最终将耗材全换一遍,机器才有所好转。 新入局者,正在持续加剧市场竞争。而向来极为依赖营销的石头科技,却陷入了增收不增利的漩涡。 2025年前三季度,石头科技营收突破120亿元,同比增长72%;归母净利润则同比下降了近三成。而且,同期石头科技经营活动产生的现金流净额为-10.6亿元,这是自2020年以来,首次出现经营现金流转负。 究其原因,石头科技被高昂的销售费用所拖累。 2024年时,这一问题就已显现。当年石头科技销售费用高达29.67亿元,同比激增73.23%,增幅接近营收增速的两倍。 进入2025年,这一趋势有增无减。前三季度,销售费用同比激增103%至31.8亿元。同时,石头科技的销售毛利率,从2023年的55.13%,逐步下滑至2025年三季度的43.73%,走入了“量增价跌”的态势。 石头科技依托营销驱动营收增长,不仅吞噬了利润,市场声量还越来越小。这意味着,石头科技花钱效率比较低。 怎么才能高?上春晚就是个很取巧又有效的选择。 消费电子产品,要人记住很重要。春晚作为中国收视率最高的电视节目,覆盖广,具有权威性、公信力等主流价值,赞助春晚不是一次简单的“广告投放”,而是一场国家级流量与品牌势能的集中释放。 追觅在创始人俞浩的“癫狂”发言下,引来不少质疑,但高调赞助春晚后,为公司品牌形象拉回了不少好感。 苏商银行特约研究员武泽伟对AI蓝媒汇分析称:“追觅通过春晚赞助,能快速提升品牌知名度,触达更广泛的大众消费群体,尤其有助于下沉市场渗透。这种高举高打的营销方式适合追求规模扩张、需要快速建立大众认知的品牌。” 在冲刺港股上市的关头,如果石头科技砸钱上春晚,无疑是一支强心剂,能够为港股上市后的价值重估增添信心。 昌敬也啥都想要 为什么没有搭上春晚,一个原因或许是,昌敬的心思早就不在石头科技上了。 昌敬和俞浩至少有一个共识——扫地机器人的赛道太小了。2024年全球扫地机器人行业仅有百亿美元规模,远不如智能家居整体千亿美元的规模,弱于前景广阔的机器人行业相比,更是小巫见大巫。 狭小的市场空间,装不下昌敬的野心。 石头科技智能扫地机器人及相关配件业务的营收占比,高达‌90%。而当单一核心产品不再具备足够的利润弹性,公司寄希望于第二增长曲线寻求增量。 石头科技自2023年进入洗衣机赛道,推出主打分子筛低温烘干技术的洗烘套装,高端型号售价达到1.5万元。 不过,2025年,市场传出其洗衣机事业部出现人员调整的消息,涉及南京、深圳的产品项目组、供应链团队和出海等多业务线。 更大的坎,在于造车。 新能源车浪潮如火如荼之时,昌敬也心痒难耐,直言:“我需要另外一个梦想来支撑我的驱动力和目标感。” “投资人说一起造车的时候,我好像一瞬间被点燃了。”在一次专访里提到造车时,昌敬像个童心未泯的大男孩。 2021年1月,昌敬联合威马汽车前CTO闫枫“二次创业”,在上海注册成立洛轲智能科技有限公司,推出极石汽车。 然而重金押注的造车项目,同样未能掀起多大水花。 极石01自2023年发布以来,月销量常在几百辆区间波动,直到2025年3月份,才终于突破了千辆以上。 2025全年,极石汽车共交付了15318辆,同比增长近3倍,12月单月交付2528台。销量虽有所好转,但在汽车品牌动辄月交付量破万的今天,极石的成绩实属“吊车尾”。 广州眺远营销咨询有限公司高管高承飞认为:“像石头科技这样的细分领域龙头进行跨界扩张,难逃‘能力圈陷阱’。例如技术迁移幻觉,扫地机的算法优势无法平移至汽车等重供应链、重安全标准的领域。而且创始人精力分散至造车,上市公司经营难免受到影响,而资本市场对‘第二曲线’的耐心,终究是有限的。” 多元化尝试接连不利,对于港股上市而言,不是个好消息。所幸,石头科技还有具身智能的故事可以讲。 2025年的CES(国际消费类电子产品展览会)上,石头科技展示了一款搭载可伸缩机械臂的扫地机器人,能够在清扫过程中拾取散落的小障碍,而不只是被动绕开。这意味着,其扫地机器人具备了初级的主动交互能力。 今年的CES上,石头科技又掏出了新东西。名为G-Rover的最新扫地机器人配备了“轮腿结构”,能够通过两侧轮腿组合,实现上下楼梯、跨越门槛等复杂动作的同时,完成清扫任务。 虽然这款产品,在CES现场演示中意外摔倒,但背后的趋势不言而喻——扫地机器人正在从“地面清洁工具”向“空间移动机器人”进化。 机器人的故事,显然比清洁工具更性感。 新的产品形态,意味着更高昂的成本、更复杂的技术和更激烈的竞争。石头科技从具有优势的红海市场,跨入了对手更强大的蓝海市场。 但从过往几次跨界尝试来看,石头科技并不能保证复制在扫地机器人领域的优势。 赴港上市只是石头科技长期发展中的一个节点,在AI、机器人迅猛发展的当下,石头科技将面临更高强度的市场审视。或许,真正的考验,才刚刚开始。 Lanmeih/今日话题 你用过石头科技的扫地机器人吗? 咱们评论区聊聊~
13.28 万元起,宝骏享境用越级给你一个买它的理由
昨晚我在秋名山输给一辆五菱宏光,他用惯性飘移过弯。 五菱曾是「神车」的代名词,从汽油时代到电动车时代,五菱一直在低端车市场中占据着独特的江湖地位。 五菱宏光 MINI EV 曾创下上市 200 天,累计销量就突破 20 万台的记录,在 2020 年,上汽通用五菱曾超过上汽大众,成为上汽集团旗下汽车销量最高的企业。 但随着新能源汽车市场的快速发展,微型电动车市场的规模和利润空间都在不断被压缩,五菱想要不被时代淘汰就必须快速打入主流乘用车市场。 最近几年,五菱进行了产品线的扩充,推出五菱缤果定位 A0 级小型车,五菱星光定位 A 级家用轿车,也通过宝骏品牌跻身了 10 万元以上的主流汽车市场。 但在长期以来的低端印象影响下,五菱碰到的很多客户都有同样的迟疑——「为什么要花 XXX 万买一辆五菱?」 在五菱过往几年尝试向微型车外的市场发展时,他们不止一次的被问到这个问题。 而今天发布的享境给出的答案是——越级。 享境这次提供了140km 插混标准版、140km 插混豪华版、600km 纯电标准版、600km 纯电豪华版 4 款车型,预售价区间为 13.28 万元-15.58 万元。 每一款在智驾、安全、舒适性上都做到了越级。 宝骏的团队在调研后发现,找车位和泊车是实践中用户最常用的智驾功能,于是这次享境除了传统的泊车系统之外,这次还标配了「漫游探索」和「云端地图」两项功能。 如果到达地点是宝骏已经完成建模的热门停车场,用户可以直接在车机提前选好车位,到达后自动泊入。而如果车位被占用或者在没有建模的停车场,宝骏的代客泊车功能也可以自行在场内搜寻可用车位后泊入。 除了泊车以外,这次宝骏搭载的智驾系统也搭载了无图城市领航功能,可以在不依赖高精地图的情况下实现 0 速起步,在日常城市通勤、复杂乡镇路况等场景下都有不错的智驾水平。 宝骏这次在安全配置上给的很足。 除了 0-130 km/h 都可用的全速 AEB 之外,享境还标配了0-10 公里的倒车 AEB,以及油门防误踩功能。同时针对电动车前插、行人串行以及雨天和黑夜等复杂场景,宝骏也做了针对性优化,都能做到及时提醒。 同时全车配备了 10 个安全气囊,采用 80%高强钢笼式车身,能有效抵抗碰撞变形;同时搭载的神炼电池也采用了短路、不漏液、不起火的「三不」安全电芯。 宝骏这次的外观设计也挺有质感。 整车尺寸 5005mm×1900mm×1490mm(纯电版)/1505mm(插混版),轴距达到了 2900mm,直接跨入了中大型轿车的地盘。 这次一共有五种颜色可选,命名也都是名驹的命名,不得不说,翔麟紫这个颜色在灯光下看着确实非常有质感,据说是巴斯夫为宝骏享境量身定制的专属车色。 内饰设计上,宝骏则很直接的说在对标理想,使用了理想同款的Nappa 真皮座椅和同款 PU 材质软包,整个包覆面积大概是 5.12 m²,同时在周边配置上也没省,像是通风座椅、双层夹胶玻璃、米其林轮胎、隔热天幕这些都是标配。 宝骏这次的纯电版用的是一台 186kW 的驱动电机,最高时速 170km/h。搭载了磷酸铁锂电池组,官方说 CLTC 工况续航能跑 600km,官方自己测试说高速续航达成率超过了72%,也就是 400 多公里,日常代步还是够用的。 插混版则搭载了一套 1.5T 发动机+电机的混动系统,热效率高达 43.2%,发动机输出 105kW,电池容量 20.5kWh,纯电续航 101km,油耗 4.8L/100km,一箱油 53L 差不多能跑 1100km。 不是做高不可攀的奢侈品,而是做普惠大众的必需品,持续探索百姓「用得起、用得上、用得好」的科技。 很能体现宝骏「人民需要什么,五菱就造什么」的一个功能是,五菱和宝骏有相当一部分用户来自于非一线城市,宝骏为了能够更好的适配不同人群的使用需求,在座舱的语音交互上专门针对各地方言进行了优化,一共支持粤语、四川话等8种方言和重口音的识别。 看的出来,五菱这次相当精准的找到了自己的目标客户在哪,了解到了他们最需要、感知最强的功能是什么,然后用 13 万的价格给到了 20 万的配置。
豆包消灭联网搜索
坚持不在豆包中接入DeepSeek的字节,在自研深度思考功能上又有了新动作。 继3月18日豆包APP全量上线深度思考功能后,时隔十天之后,近期豆包又对深度思考功能做了番更新,主要亮点在于将联网搜索能力直接融进了思考过程中,可以实现“边想边搜”。直白点理解,就相当于豆包把联网搜索键与深度思考键合二为一了。 此前,在DeepSeek R1爆火后,深度思考和联网搜索两大功能,一度成为AI助手类产品的设计新标准。 根据字母榜(ID:wujicaijing)实际体验,豆包上述二合一的新产品设计,除了在页面布局上直接消灭了联网搜索键外,更重要的内在改变是重构了大模型的推理过程。 DeepSeek R1在开启联网搜索后,其推理过程是先搜索网页,再根据网页内容展开思考,一般只进行一轮搜索。作为对比,豆包融合联网搜索的深度思考模式,则是先进行一番思考,然后基于思考去搜索相应网页,并结合网页具体内容再展开新的思考,往往会进行2-3轮的多轮搜索。 更形象地类比,“豆包等于把联网搜索做成了一个内置在深度思考功能内的Agent。”在国内从事大模型创业的李振看来,豆包深度思考内嵌入的联网搜索功能,做法上更像是OpenAI推出的Deep Research,或者是Grok 3推出的DeepSearch功能。 这些DeepSearch类Agent的一大特征,就在于可以操控网络浏览器获取实时信息,从而具备自主执行简单网络任务的能力。 但人类的日常生活中,并非事事都需要开启深度思考的Agent模式。豆包上述产品更新带来的一大问题就在于,通过强制将联网搜索嵌入深度思考过程,使得即便是面对简单问题,也需要机械式地进行多轮搜索,在用户体验上造成一些不必要的等待过程。当字母榜询问“今天北京天气”时,豆包在做了四轮搜索后,才给出了答案。 不过,值得一提的是,通过减掉联网搜索键,豆包在推动AI尽可能像人一样去搜索问题、寻找答案上,给出了自己的新尝试,某种程度上也相当于开始跟DeepSeek抢夺产品设计的定义权。 面对AI助手类产品越加越多的功能和按键,国内头部大厂产品经理刘凯(化名)将其归结为“抽象泄露”法则在AI领域的显现。 “抽象泄漏”,多指在软件开发时,本应隐藏实现细节的抽象化不可避免地暴露出底层细节与局限性,而抽象化本来目的就是向用户隐藏不必要公开的细节。 体现在AI类产品设计中,“即用户被迫理解不同的模型选择,如基础模型、推理模型的区别,以及勾选联网搜索和深度思考功能与否的差异等,越来越背离理想中的无缝体验。”刘凯说道。 但上述现象正有望随着模型迭代而改变。从Anthropic发布的全球首个混合模型Claude 3.7 Sonnet,到OpenAI CEO山姆·奥特曼预告中的大一统模型GPT-5,未来一个模型解决所有问题正逐渐成为共识,同样,未来一个按键就解决所有用户需求或许也将是产品演进的终局。 DeepSeek R1在年初爆火之后,联网搜索由此成为一个新的按键,标配在一众AI助手产品中。 最新(可能也是主流大模型公司中最后一家)选择跟进的是Anthropic,其在近日宣布聊天机器人Claude即将启用网络搜索功能,打破了自身一直维持的“自给自足”设计理念,开始提供更多实时检索信息,来回应用户的需求呼唤。 R1之前,AI助手类产品中并没有联网搜索独立按键的身影。 2022年底ChatGPT刚刚发布时,并不能进行联网搜索,大模型所提供的信息截止到2021年7月份,也暂不具备从其经验中学习的能力。 当2023年3月份百度文心一言发布后,其对外宣传的产品亮点之一,便是引入了检索增强(RAG)技术,在给模型补上获取实时信息的短板之外,还可以起到帮助削弱模型幻觉的作用。 DeepSeek在R1推理模型上新设计的联网搜索按键,则在此前检索增强技术的基础上,使得模型获取网页的数量和丰富度,进一步提高。同样以查询“今天北京天气”为例,不开启深度思考和联网搜索,仅靠检索增强支持的基础模型,一般能够检索个位数的网页链接,开启联网搜索后的深度思考模式下,模型获取的网页链接数量则飙升到数十个。 目前,根据DeepSeek给出的回答,其模型知识库仅更新到2024年7月,所以在没有勾选联网搜索的情况下,面对“今天北京天气”的询问,R1会告诉用户自己无法提供实时天气数据,并建议用户开启联网搜索功能。 之所以进入到推理模型后,大模型厂商才开始将联网搜索拆分出来,单独设计了一个新的按键,其首要原因便在于控制算力消耗成本。人工智能商业化专家丁坤博士告诉字母榜,深度思考功能本身调用的算力就更大,如果每次推理还要再进行一番联网搜索,会将算力资源的消耗量推向新高。 R1爆火之后,英伟达创始人黄仁勋就对外多次强调,推理模型正在消耗更多的计算能力,“(推理模型)可以消耗100倍以上的计算资源,而未来的推理模型将消耗更多的计算资源。” 同时,考虑到当下大模型厂商C端的商业变现手段更多通过订阅制,将深度思考和联网搜索分开设计,也是出于一种商业化的考量,“分开设计有利于形成产品梯度,刺激用户购买付费版本。”丁坤解释道。 这一点在OpenAI、Anthropic和Grok上都有着直观体现。尽管2月份后OpenAI向ChatGPT免费用户也开放了推理功能,但却从思考深度和思考次数上给出了限制。ChatGPT免费用户只能使用o3-mini模型的推理能力,如果想体验更强大的o1-Pro或o3-mini高性能版推理模型,则需要花费每月20美元或200美元,成为OpenAI的Plus或Pro付费订阅用户。 此外,从用户体验侧考量,丁坤博士认为,深度思考和联网搜索功能分开,则可以平衡用户对生成答案更快和更好之间的需求。对于那些没有时效性的问题,用户便可以只勾选深度思考,从而更快获取答案。 豆包一反行业常态,将联网搜索和深度思考合二为一的背后,也有着自己的诸多考量。 国内头部大厂产品经理刘凯(化名)向字母榜分析道,在产品增长中,内部往往会关注一个重要指标即用户漏斗,其分为获取、激活、留存、转化变现四大阶段。 在获取新用户上,国内外AI厂商都越来越看重“好奇流量”,“只要一个产品看起来有一些不一样的神奇功能,或者哪怕没有落地,还只是炫酷的演示Demo,就会吸引用户快速尝试。”刘凯进一步指出,激发好奇流量的手段之一,便是对产品进行微优化。 有时候,一个很小的产品变化,也会大大提高AI产品的活跃用户基数,例如去年凭借率先押注长文本出圈的Kimi,今年率先展示思维链的DeepSeek,它们都借助一次产品更新,在好奇流量的加持下,获得了梦寐以求的病毒式传播机会。 但并不是每一次产品更新,都能成功引来“好奇流量”。年初,晚于DeepSeek R1近两天发布的豆包1.5 Pro大模型,尽管在预训练和推理成本上还要低于DeepSeek V3,但却因为模型体验不如前者,而未能在舆论场上激起太多水花。 这次,豆包消灭联网搜索的产品优化之举,在过去一周左右时间后,也暂未迎来行业破圈效应。 但在国内一众AI助手产品中,豆包又有着更迫切的规模增长需求。 DeepSeek爆火之前,豆包是中国月活用户数最多的AI助手应用。在被DeepSeek赶超后,据晚点LatePost爆料,2月份的All Hands全员会上,字节CEO梁汝波列出了2025年的重点目标,其中之一便是要求团队加强规模效应,继续做大豆包用户群。 QuestMobile向《财经》提供的数据显示,截至3月4日,DeepSeek、豆包日活跃用户分别是4885万、2947万。而梁汝波今年对豆包的DAU也提出了新目标,晚点LatePost报道中,今年豆包的 DAU 目标是超过 5000 万。这意味着,在未来三个季度内,豆包日活用户规模,差不多要翻一倍。 支撑豆包追求更大规模用户,以及顶着算力消耗压力将联网搜索融入深度思考功能中的底气之一,都离不开字节在GPU上的充裕储备。 受益于推荐算法时期积累的芯片使用量,2023 年时,有媒体报道字节GPU储备已超过10 万块;在外媒最新报道中,2025年字节AI算力采购预算将高达900 亿元以上。 在豆包做出尝试的功能融合方面,已经有大模型厂商选择了跟进。 近期,百度通过“自研+开源模型”的组合,新上线了“自动模式”。该模式下,大模型能够自动识别用户需求,从而自主选择合适模型来生成答案,在产品界面上,不仅不再展示联网搜索键,连深度思考键也一并隐藏了起来。 在功能融合之前,一场围绕模型的融合试验,在过去一个月内已经频繁上演。 3月25日,DeepSeek官宣V3版本更新。新版本V3-0324虽然不是推理模型,但却有了一丝丝的R1味道。官方技术报告中透露,V3-0324和之前的V3使用的base模型相通,但改进了后训练方法,并借鉴了R1推理模型训练过程中的强化学习技术。 几乎同一时期,腾讯新上线的混元T1正式版推理模型,则在保证内容精细和准确度的前提下,通过首次将混合Mamba架构无损应用于超大型推理模型,将快慢思考结合了起来,从而达到缩短用户等待生成结果时间的效果。 不止国内,国外大模型公司也都在往模型融合统一的道路上迈进。 此前奥特曼在谈及GPT-5的计划时就曾经说道,模型和产品功能太复杂,未来OpenAI将实现统一,o3推理模型不再单独发布,GPT-4.5也将是OpenAI最后一个非链式思维的基础模型。 Anthropic更是抢先OpenAI一步,在2月底发布了“全球首个混合模型”Claude 3.7 Sonnet,在单一架构上整合了实时应答(Fast Thinking)和深度思考(Slow Thinking)。用户不需要在不同的模型间进行切换,而是靠模型自行判断当前问题是否需要深度思考。 未来,随着模型回归一统,在刘凯看来,模型载体之上的一系列功能按键,也有望回归更加简洁的设计,最终使得AI产品体验无限趋近于人。 之所以当前阶段一众AI助手产品加入了五花八门的功能标签,背后则是大模型产品用户渗透率还比较低的现实困境。“大部分用户还是抱着好奇心态,尝鲜过后要么想不起来用,要么不知道打开后该问什么。”刘凯表示。 基于此,眼下的AI助手类产品,为了激发用户的体验热情,往往会借鉴搜索引擎的设计理念,如向用户推送弹窗消息,在输入框下方主动设置一些供人点击的新闻链接等。 除了用户使用频率不高之外,大模型技术尚未进入成熟稳定期,也是促使其产品功能标签众多的原因之一。 国内外的一众大模型厂商,目前其实都是基于一个非确定性系统极高的模型来设计产品,这导致的一种情况是,大多数AI厂商以“模型思维来主导产品设计,而非应用思维。”李振举例称,ChatGPT起初也只是为了展示OpenAI的模型能力而构建的,并不完全是为了打造一款面向消费者端的大众应用。 就连奥特曼都在近期接受采访时坦承,当时内部只是在以一个研究实验室的标准来运行,根本没有想过会成为一家消费科技公司。 但随着模型普及教育的不断深入,越来越多大模型厂商开始重视起核心用户体验,“这就是产品一步步更像人的演化过程。”李振解释道。 参考资料: 《智谱AI CEO张鹏:当下被忽略的大模型“反共识”》腾讯科技 《字节AI再创业:独立组织、全链条的饱和出击》晚点LatePost 《字节大模型全员会,朱文佳和吴永辉一起聊了方向、组织和开源》极客公园 《Sam Altman :GPT-5 将免费开放,DeepSeek 教训了我们》APPSO 《2025 APP流量竞争新观察》QuestMobile
中国“本源悟空”量子计算机全球首次运行十亿参数AI大模型微调
据《新华日报》与《科创板日报》报道,安徽省量子计算工程研究中心透露,本源量子、合肥综合性国家科学中心人工智能研究院等机构联合攻关,在我国第三代自主超导量子计算机 “本源悟空” 真机上,成功完成全球首次十亿参数 AI 大模型微调任务。合肥综合性国家科学中心人工智能研究院副研究员陈昭昀指出,这是量子计算首次 “真机实战” 大模型任务,意味着现有硬件已初步具备支撑大模型微调的能力。 实验数据显示,在参数量减少 76% 的情况下,训练效果反而提升了 8.4%。这一成果不仅验证了量子计算助力大模型轻量化的可行性,更为解决大模型面临的 “算力焦虑” 问题开拓了新途径。 微调是基于通用大模型(如 DeepSeek、Qwen),通过对特定领域数据的进一步训练,使其适配医疗诊断、金融风控等专业场景。传统低秩微调存在性能瓶颈、泛化能力不足等难题,而量子计算利用其叠加态和纠缠态特性,能够同时探索海量参数组合,有效提升大模型微调效率。本源量子副总裁窦猛汉形象地比喻,这如同给经典模型装上 “量子引擎”,实现两者协同。团队创新性设计了 “量子加权张量混合参数微调”,将模型权重转化为量子神经网络与张量网络混合架构,前者借助量子门操作提取高维非线性特征,后者则用于压缩参数规模。 在 “本源悟空” 的量子芯片上,单批次数据可生成数百个量子任务并行处理。实验表明,优化后的模型在心理咨询对话数据集(CPsyCountD)上训练损失降低 15%,数学推理任务(R1-Distill-SFT)的严格准确率从 68% 提升至 82% 。陈昭昀再次强调,此次成果证实了现有硬件对大模型微调的初步支撑能力。 公开资料显示,“本源悟空” 作为我国第三代自主超导量子计算机,搭载 72 位自主超导量子芯片 “悟空芯”,是当前先进的可编程、可交付超导量子计算机。其命名灵感来源于神通广大、会七十二变的神话人物孙悟空。2024 年 1 月 6 日 9 时,“本源悟空” 在本源量子计算科技(合肥)股份有限公司上线运行。今年 2 月 14 日,该计算机全球访问量突破 2000 万次,刷新我国自主量子算力服务规模纪录。
Llama 4 是开源模型的全面倒退?
“Llama 4 是开源模型的全面倒退。”——在Meta发布新一代大模型不到24小时内,这样的质疑声音已经出现在多个技术社区。 Llama 4 真的不如前代?还是它只是“看起来拉胯、实则有料”? 昨天,Meta正式推出新一代开源大模型 Llama 4,带来了两个混合专家(MoE)架构的版本:Scout(109B总参数,17B活跃参数)和 Maverick(400B总参数,17B活跃参数)。这一代模型不仅原生支持图文输入,还将上下文窗口拓展至惊人的 1000万 token,在规格参数上堪称“顶配开源”。 然而,随着初步评测和对比结果浮出水面,人们发现——它的实际表现,可能没有我们想象中那么强。 本文将基于 Artificial Analysis 的独立评估数据和社交媒体舆情,深入剖析 Llama 4 的技术亮点、实际表现与竞品差距,并探讨这款“争议中亮相”的新模型究竟是开源未来,还是开源瓶颈的缩影。 Artificial Analysis是一家专注于AI技术创新的公司,致力于提供高效的数据分析和智能解决方案,旨在加速人类解决问题。其前瞻性技术备受关注。吴恩达评论:“这是一个很棒的网站,测试LLM API速度,帮开发者选模型,补充了其他质量评估,对智能代理至关重要!” 性能对比:差距不是一点,是一整条街 Artificial Analysis通过其Intelligence Index(涵盖MMLU-Pro、GPQA Diamond、HumanEval等非推理模型评估)对Llama 4进行了独立测试,具体结果如下: 1.总体性能(Intelligence Index) 从最新的 Artificial Analysis Intelligence Index 综合榜单来看,Llama 4 的表现让人大跌眼镜。 在这份集通用推理、科学推理、编码、数学等七项任务为一体的硬核评测中,Google 的 Gemini 2.5 Pro、xAI 的 Grok 3、以及 DeepSeek R1 牢牢占据前三,综合得分分别为 68、66 和 66,实力堪称天花板级别,属于开局即封神的选手。 而反观刚刚发布的 Llama 4 系列: -Maverick 得分 49,不仅被前述三强甩出十几分的距离,连 OpenAI 的 GPT-4o和阿里的 QwQ-32B都没打过,未能进入第一梯队,只能勉强跻身中游。 -Scout 得分仅为 36,直接与 GPT-4o mini 打成平手,甚至被 Google 的 Gemma 3 27B按在地上摩擦,表现惨不忍睹。 这意味着,无论是旗舰定位的 Maverick 还是轻量版的 Scout,都未能在关键指标上与主流竞品拉开差距。特别是 Scout,不仅没展现出“小而强”的性价比,还在多项任务中落后于前代产品与同量级模型。 一句话总结:“看起来很强,打起来很虚”,是当前市场对 Llama 4 初版表现最真实的反馈。 在非推理任务的对比中,Llama 4 的表现可谓喜忧参半。Maverick在开源模型中算得上发挥稳定,成功超越部分闭源竞品,展示出一定的专业处理能力。然而与顶级模型如 DeepSeek V3 和 GPT-4o相比,依然存在明显差距,说明其综合实力尚未达到第一梯队的水平。 Scout则更为克制,没有惊喜也没有翻车,整体表现与GPT-4o mini相当,虽不具备突破性优势,但在资源受限场景下仍具备一定实用价值。 总体来看,Llama 4系列虽在非推理能力上具备一定基础,但距离“强通用、强专业”的开源标杆,还有一段路要走。它们更像是一次架构和方向的试水,而不是一举超车的终局之作。 2.具体任务表现 Artificial Analysis的评估数据(详见附图)涵盖了通用推理、科学推理、编码和数学等多个领域,我将相关任务合并分析,聚焦Llama 4(Scout和Maverick)的表现趋势,并与主要竞品DeepSeek V3、Claude 3.7 Sonnet、和GPT-4o mini对比,揭示其优势与不足。以下简要补充各指标的含义和重要性,帮助理解评估维度。 1)通用推理:稳中有位,但缺乏突破 通用推理评估模型在广泛知识和综合推理能力上的表现,MMLU-Pro覆盖57个学科的知识广度,Humanity’s Last Exam则测试复杂推理能力。这类指标对衡量模型在教育、问答等通用场景的适用性至关重要。 Maverick在通用推理任务中表现稳健,在MMLU-Pro中排名靠前,与GPT-4o、Claude 3.7 Sonnet等模型同等,但略逊于DeepSeek V3 V3(Mar 25)。Scout的表现则比较落后,低于Mistral Small 3和GPT-4o mini。 在Humanity’s Last Exam中,Maverick同样位列前茅,接近DeepSeek V3(Mar 25),优于GPT-4o 和Claude 3.7 Sonnet,Scout则排名中游,略高于Mistral Small 和GPT-4o mini。 结论:在通用推理相关任务中,Maverick 的表现整体可圈可点,尤其在知识广度和复杂推理方面接近一线闭源模型,虽然略逊于 DeepSeek V3,但基本站稳中上游位置。Scout 则明显吃力,整体排名不高,甚至落后于部分轻量模型,反映出其在处理广义知识类任务时的适应能力仍待加强。 2)科学推理:开源难题,Llama 4未解 科学推理通过GPQA Diamond测试模型在生物、物理、化学等领域的专业推理能力,强调多步推理和深度理解,对评估模型在学术研究、技术文档处理等专业场景的表现尤为重要。 Maverick在科学推理任务中的表现显著低于DeepSeek V3和Claude 3.7 Sonnet的水平,排名靠后,未能展现出与顶级模型竞争的能力。Scout的表现则稍显逊色,不仅远低于GPT-4o mini,甚至低于Meta自己的Llama 3.3 70B,显示其在专业领域推理上的明显不足。 结论:面对生物、物理、化学等专业领域的深度推理任务,Llama 4 表现疲软,尤其是 Maverick,虽为高配模型,却未能在多步逻辑和专业理解上展现出预期能力,明显落后于 Claude 和 DeepSeek。Scout 的表现则更加堪忧,不仅输给 GPT-4o mini,甚至被 Llama 3.3 70B 反超,显示其在学术和技术类场景中的适用性非常有限。 3)编码能力:基础乏力,高难勉强及格 Maverick在编码任务中的表现未达预期。在基础编码能力(HumanEval)上,Maverick远低于GPT-4o、Claude 3.7 Sonnet以及DeepSeek V3,仅达到GPT-4o mini的水平,显示其在基础代码生成上的竞争力不足。 在更具挑战性的竞赛级编码(LiveCodeBench)和科学编码(SciCode)任务中,Maverick的表现进一步回落,与DeepSeek V3和Claude 3.7 Sonnet的差距不太明显。 Scout在基础编码和科学编程任务中表现垫底,排名靠后,远低于大多数竞品。然而,在高难度编码任务(LiveCodeBench)中,Scout的表现意外接近中位值,与Claude 3.5 Haiku水平相当,展现了一定的潜力。 结论:Maverick 在代码生成任务中并未脱颖而出,基础编程任务的完成度不高,与领先模型存在明显差距。面对竞赛级和科学编程挑战时,其表现更为拉胯,难以支撑复杂开发需求。Scout 则在大部分编码任务中垫底,虽在高难度挑战中偶有亮点,但整体竞争力仍偏弱,不具备“开发者友好”的实用价值。 4)数学:基础尚可,高阶失守 数学任务评估模型的定量推理能力,MATH-500测试常规数学问题解决能力,AIME 2024则聚焦高难度竞赛级数学推理。这类指标对教育、科学研究和金融建模等需要强大数学能力的场景尤为关键。 Maverick在定量推理任务(MATH-500)中表现较为稳健,排名靠前,超越Claude 3.7 Sonnet,但与DeepSeek V3仍存在一定差距,显示其在常规数学问题解决上的竞争力。Scout的表现同样可圈可点,优于GPT-4o mini,并接近Claude 3.7 Sonnet的水平,展现了不错的基础数学能力。 然而,在高难度的竞赛级数学推理任务(AIME 2024)中,Maverick表现不佳,远落后于DeepSeek V3,仅略高于GPT-4o。 结论:在数学推理方面,Llama 4 两个版本表现出较为明显的分化。Maverick 在基础数学任务中稳健发挥,部分场景甚至可与主流闭源模型媲美,Scout 也展现出一定的定量推理能力,优于部分轻量模型。然而,进入竞赛级高难度数学任务后,两者均显得力不从心,与 DeepSeek V3 等强模型的差距明显拉大,暴露出复杂推理能力上的短板。 总结:差距不是一点,是一整条街 综合来看,Llama 4(Maverick 和 Scout)在非语言生成的关键能力维度上,与 DeepSeek V3 之间存在系统性差距。Maverick虽有部分亮点,但始终处于“差一点”的状态,在科学推理、编码和高阶数学上几乎全面落后。Scout的表现则更为惨烈,不仅被 DeepSeek V3 和 Claude 系列全面碾压,甚至在多个维度不敌小模型选手,令人质疑其在专业场景中的实际价值。 Llama 4 所展示的更多是架构层面的潜力,而非实打实的能力跃迁。除非在未来版本中针对专业推理、复杂任务场景进行重点优化,否则很难在真正需要“硬实力”的场合,成为开源替代品的第一选择。 模型效率 与DeepSeek V3相比,Llama 4 Maverick的活跃参数大约只有其一半(17B对37B),总参数也仅为其60%左右(402B对671B),这表明Maverick以更高的效率实现了其性能表现。此外,Maverick还支持图像输入,而DeepSeek V3则不具备这一功能。 价格 Artificial Analysis追踪6家服务提供商,并对比评估了Maverick的中位价格为每百万输入/输出token 0.24美元/0.77美元,而Scout的定价为每百万输入/输出token 0.15美元/0.4美元,其价格不仅低于DeepSeek v3,相比OpenAI领先的GPT-4o接口更是便宜超过10倍。 最后 那么,Llama 4到底是不是“开源模型的全面倒退”?从目前的测试结果来看,这种说法虽显极端,却并非毫无根据。 在多个关键任务中,Maverick 勉强追平主流闭源模型的尾巴,而 Scout 则在小模型领域表现平平,甚至被自家的 Llama 3.3 70B 反超。相比之下,DeepSeek V3 的统治力更像是给所有开源模型泼了一盆冷水。 但退一步看,开源的价值不止于性能指标,更在于长期可控性、社区生态与开放创新的累积潜力。Llama 4 的多模态架构、超长上下文和低廉定价,依然在为未来铺路——也许不是现在碾压闭源的“终极答案”,但可能是通往答案的那一步。 最终,它是倒退还是转折,要看 Meta 和整个开源社区,能否在质疑声中继续优化、快速迭代,把短板变成支点。真正的竞争,还远远没有结束。 © AI范儿
豪掷36亿!传OpenAI收购AI硬件公司,前苹果首席设计师创办
编译 | 王涵 编辑 | 漠影 智东西4月7日消息,据外媒《The Information》报道,OpenAI在最近几周内一直在商讨收购初创公司io Products的相关事宜。 该公司由OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)与前苹果公司首席设计师兼资深副总裁乔纳森·艾维(Jony Ive)合作创立,专注于研发由人工智能驱动的个人设备。有消息称,OpenAI高层曾考虑过至少5亿美元(约合人民币36.41亿元)的收购价格。 一、io Products:乔纳森·艾维创办的神秘AI硬件公司 io Products由OpenAI首席执行官萨姆·阿尔特曼与前苹果公司首席设计师兼资深副总裁乔纳森·艾维的设计工作室LoveFrom合作创办。 ▲乔纳森·艾维的设计工作室LoveFrom LOGO 该公司从电影《她》(Her)中获取AI伴侣的交互体验灵感,专注于研发由人工智能驱动的个人设备。据相关人士透露,阿尔特曼在该项目中并非联合创始人,但一直密切参与产品开发。 报道指出,其人工智能设备设计尚处于起步阶段,尚未最终定型,但一些颇具潜力的设想已经浮现,包括无屏幕 “手机” 和搭载人工智能技术的家用设备。该创新设备有望革新用户与科技产品的互动方式,在智能助手、健康监测等领域广泛应用。 二、始于2024秋的谋划:io Products融资布局展开 早在去年秋季,乔纳森·艾维与萨姆·阿尔特曼合作的消息就已传出,只不过那时尚处于洽谈的初步阶段。直到近期,双方的合作计划才逐渐明晰,筹备工作似乎也正式步入正轨。 据悉,该次合作计划筹集高达10亿美元(约合人民币72.82亿元)的资金,为项目开展提供坚实的资本支持。目前,合作团队已与软银(Softbank)创始人兼CEO孙正义就资金合作展开洽谈。 除孙正义外,潜在投资人还囊括了投资机构Thrive Capital,以及由苹果公司前CEO史蒂夫·乔布斯(Steve Jobs)的遗孀劳伦娜·鲍威尔·乔布斯(Laurene Powell Jobs)创办的创投公司及慈善组织Emerson Collective。 三、OpenAI收购行动:布局AI全领域 OpenAI近年来资本动作频频,通过收购和战略合作积极布局,以强化其技术生态和减少对外部供应链的依赖。 2024年,OpenAI的战略布局举措不断。曾有消息传出OpenAI曾考虑收购Cerebras,以获取芯片制造能力,减少对英伟达的依赖,进而优化AI训练成本,但该交易最终未公开确认。 ▲Cerebras芯片概念图 同年,OpenAI参与了一轮对Figure AI的6.25亿美元融资。两者合作开发的人工智能模型已应用于Figure AI最新推出的人形机器人Figure 02。对OpenAI而言,这意味着其AI技术在机器人硬件载体上有了新的应用场景。 ▲Figure AI人形机器人Figure 02 2025年3月14日,OpenAI与软银合作,计划将日本大阪的前夏普液晶面板工厂改造成AI数据中心。该中心用于训练和运行AI智能体,增强OpenAI的计算基础设施,减少对第三方云服务的依赖。 四、结语 从能够控制用户网页浏览器的人工智能软件,到人工智能服务器芯片,再到仿人机器人,收购io Products无疑将为OpenAI快速扩张的产品阵容增添新的亮点。 据外媒评论,这不仅有助于ChatGPT的开发商OpenAI将其人工智能产品推向数以百万计的消费者,同时可能会使其与艾维的前雇主、OpenAI重要合作伙伴——苹果公司展开直接的竞争。 这一交易也有望推动AI行业从单纯的软件技术发展向软硬件深度融合的方向转变。
秘密打造 AI iPhone,苹果灵魂设计师的公司要被 OpenAI 收购了
AI 时代 iPhone AI 时代的 iPhone 会是什么? 据 The Information 援引知情人士消息称,OpenAI 近几周曾讨论以不低于 5 亿美元(约合人民币 36.41 亿元),收购由 OpenAI CEO Sam Altman 与前苹果首席设计官 Jony Ive 合作成立的 AI 公司。 此前,媒体已报道称,他们计划联手开发一款由 AI 驱动的个人设备,也被外界冠以「AI 时代的 iPhone」的头衔。 消息人士表示,这款 AI 设备的设计仍处于早期阶段,具体形态还未敲定。 可能的方案包括一种没有屏幕的「手机」和具备 AI 功能的家用设备。不过,项目相关人员强调,它不是传统意义上的手机。 Ive 与 Altman 早在一年多前就开始讨论一款设备,这款设备承载了 Altman 的梦想——打造一种可以语音互动的 AI 助手,类似电影《Her》中的科幻情景。 这项 AI 硬件创业项目被名为 io Products。 据知情人士透露,io Products 雇佣了工程师来制造设备,OpenAI 提供了 AI 技术,而 Ive 的 LoveFrom 工作室则协助进行设计。Altman 则一直深度参与该产品的开发,但并不是该项目的联合创始人。 至于他是否在该硬件项目中持有经济利益,目前尚不清楚。 知情人士还透露,OpenAI 正在考虑除全资收购外的其他合作模式。OpenAI 高层曾考虑的收购价格不少于 5 亿美元。收购还将包括一个一直在开发这款设备的工程师团队。 目前尚不清楚近期参与该 AI 设备初创项目,曾负责 iPhone 产品开发的 Tang Tan,以及接替 Ive 在苹果担任设计领导的 Evans Hankey 是否会随本次交易加入 OpenAI。 截至发稿前,OpenAI 和 Ive 的发言人均拒绝置评。 实际上,早在去年,就有消息称,该项目已从 Laurene Powell Jobs 的 Emerson Collective 以及其他公司获得了未披露金额的融资,当时,其中一位参与谈判的人士表示,Ive 希望筹集高达 10 亿美元的资金。 Emerson 的创始人 Laurene Powell Jobs ,与 Altman 和 Ive 都有着很久的交情 。 Emerson Collective 既是一个慈善组织,也是一家风投公司,其投资项目包括支付服务提供商 Stripe、金融科技公司 Chime 以及人力资源软件销售商 Gusto。 据悉,自该公司成立之初,包括软银 CEO 孙正义也一直与 Altman 和 Ive 进行交流,只是他的具体参与情况目前也依旧尚不明确。 有趣的是,纽约时报曾在去年曝出了 Ive 和 Altman 相识的经过。 Ive 在 2019 年离开苹果后,成立了一个名为 LoveFrom 的设计工作室,也曾为苹果提供服务。Airbnb CEO Brian Chesky 是 LoveFrom 的早期客户之一。 Brian Chesky 同时也是 Altman 的好友。去年,Chesky 安排 Jony Ive 和 Sam Altman 共进晚餐。 报道称,在米其林餐厅里,Altman 和 Ive 探讨了生成式 AI 如何推动新型计算设备的发展。这种技术能提供超越传统软件的功能,例如总结和优先处理消息、识别植物等物体,甚至处理预订旅行等复杂任务。 在接下来的几次晚餐中,Ive 和 Altman 达成共识,决定合作制造一款产品,由 Ive 的 LoveFrom 工作室主导设计。 《纽约时报》的报道里,提到一个值得注意的细节。据悉,在 LoveFrom 工作室里,椅子上摆放着纸张和纸板箱,上面记录着他们对产品的初步设想: 这款产品将利用 AI 技术,营造一种比 iPhone 更少打扰社交环境的使用体验。 2007 年 1 月,苹果公司 CEO 乔布斯正式向外界展示了首款 iPhone。 今天,彭博社记者 Mark Gurman 在最新一期 Power On 里表示,苹果正准备为 iPhone 20 周年推出重大改版,包括推出可折叠版本和更广泛使用玻璃的大胆新款 Pro 机型。 Jony Ive 曾表示希望 iPhone 看起来像一片玻璃,而这款 Pro 新机型也正回归这一设计理念。 只是,生成式 AI 的到来,让各家厂商在取代 iPhone 这个命题上摩拳擦掌。包括 Ive 和 Altman 联手打造的 AI 设备预计将使 OpenAI 与苹果公司在市场上展开更直接的较量。 去年六月,OpenAI 和苹果宣布,iPhone 上的 Siri 助手将集成 ChatGPT 来处理部分用户查询,并借助 OpenAI 的模型协助完成写作和图像生成等任务。 值得注意的是,苹果公司并没有为使用 OpenAI 的模型支付费用。 与此同时,Mark Gurman 今天也透露,虽然苹果和 Google 之间的合作协议尚未敲定,但他预计双方最早将在 WWDC 大会上正式达成并宣布合作,同时会有更多 AI 合作伙伴加入苹果生态。 他表示:「我敢打赌 Meta Llama 模型将进入 iOS 系统,而其他 AI 产品——如 Anthropic 的 Claude 或 Perplexity——也很可能已经在谈判桌上了。」 此外,据彭博社报道,Meta 计划最早在今年年底向市场推出第一副带屏幕的眼镜,售价将超过 1000 美元,最高在 1300-1400 美元左右,也就是说人民币可能将突破万元。 而这款即将向市场推出,代号为「Hypernova」的 AR 眼镜,虽然还不能脱离 iPhone 使用,却有望真正取代 iPhone,其核心原因在于智能眼镜的交互机制。 Meta 准备了两种方案: 眼镜镜框侧面的电容式触摸,用户可以滑动、点击眼镜腿来滚动和选取应用或照片 「神经腕带」,使用手势来控制眼镜,可以转手、捏合来滚动和选取项目,代号为「Ceres」的配件将在包装盒内随眼镜一起提供,这个方案也作为 Orion 的交互在去年进行过演示。 并且,第一代的 Hypernova 在右镜片的右下象限也带有屏幕,内容会显示在用户的右眼,并且显示效果在向下看时最清晰,至少避免了面对他人时「翻白眼」看眼镜屏幕的问题。 此外,Hypernova 预计将采用高度定制 Android 系统,而不是自家去年推出的 Meta Horizon OS 系统,Meta 也暂时不打算为 Hypernova 配备一个应用商店。 打开眼镜,显示完「启动屏幕」后,圆形应用图标将水平排布在 Hypernova 的主屏幕,类似 iPhone 和 Mac 的底部「dock」栏,接近当下 Meta Quest 的界面。 和 Ray-Ban Meta 类似,第一款 Hypernova 也专注于图像拍摄和语音 AI 功能。 在 Meta 眼中,这款还不能脱离 iPhone 使用的 Hypernova,恰恰是取代 iPhone 的关键一步,开始尝试从智能手机中抢夺用户的注意力,让更多消费者习惯去用眼镜解决一些简单的问题。 不过,当下的消费者已然习惯了智能手机的多功能性和成熟生态,而无论是 Meta 智能眼镜还是无屏幕 AI 设备,要他们花同样甚至更多的钱去购买一款 AI 原生硬件,它们都需要证明自己能够提供更多 iPhone 无法企及的体验。
AI 圈今年最大丑闻曝光!Llama 4 被揭训练作弊,实测惨遭滑铁卢,核心骨干愤然离职
昨天,Meta Llama 4 就这么突然地发布了。 纸面参数很高大上,号称原生多模态 MOE 模型,击败 DeepSeek V3,还有 2 万亿参数巨兽,连 Meta CEO 扎克伯格也发视频,摇旗高呼迎接「Llama 4 日」。 欢呼是短暂的,当网友开始实测后,却几乎是一边倒的负面评价,堪称今年 AI 界最大的「翻车」事件。 在专门讨论本地部署大语言模型的社区 r/LocalLLaMA(可理解为 Llama「贴吧」)中,一篇标题为「我对 Llama 4 感到 incredibly disappointed(极度失望)」的帖子迅速获得了大量关注和共鸣。 更有 Llama 忠实粉丝原地破防,直言是时候该将「LocalLLaMA」改名为「LocalGemma」了,调侃 Llama 4 的发布更像是迟到的愚人节玩笑。 实测表现货不对板,曝 Llama 4 发布前疯狂「灌题」 在 Reddit 的这篇原帖中,网友 karminski 强烈建议不要使用 Llama 4 进行编码。 他表示 Llama-4-Maverick——总参数达 402B 的型号——在编码能力上仅能与 Qwen-QwQ-32B 勉强匹敌。而 Llama-4-Scout(总参数 109B 的型号)表现则大致与 Grok-2 或 Ernie 4.5 相仿。 事实上,根据最新的 aider polyglot 编码基准测试结果,Llama 4 Maverick 的得分仅为 16%。 这一基准测试旨在评估大型语言模型(LLM)在多语言编程任务中的表现,覆盖了 C++、Go、Java、JavaScript、Python 和 Rust 六种主流编程语言。 而这个分数,在众多模型中也是属于妥妥的垫底水平。 博主 @deedydas 同样表达了对 Llama 4 的失望,直呼其为「一个糟糕透顶的编程模型」。 他指出,Scout (109B) 和 Maverick (402B) 在针对编程任务的 Kscores 基准测试中,表现远不及 4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7。 另一位网友 Flavio Adamo 分别让 Llama 4 Maverick 和 GPT-4o 生成一个小球在旋转多边形弹跳的动画,并且,小球跳动的过程中要遵循重力和摩擦力的影响。 结果显示,Llama 4 Maverick 生成的多边形形状缺乏开口,小球的运动也违背物理规律,相比之下,新版 GPT-4o 的表现明显更胜一筹,而 Gemini 2.5 Pro 的表现则堪称王者。 回望今年 1 月,扎克伯格还宣称,AI 将达中级软件工程师编程水平,就目前 Llama 4 糟糕的表现,属实是打脸来的有些快。 另外,Llama 4 Scout 的上下文长度达到了 1000 万 tokens。这一超长上下文长度使得 Llama 4 Scout 能够处理和分析极长的文本内容,例如整本书籍、大型代码库或多媒体档案。 Meta 官方甚至还展示了「大海捞针」的测试结果以证明其能力。 然而,根据 Fiction.LiveBench 最新给出的结果,Llama 4 模型的效果也是中看不中用,整体效果不及 Gemini 2.0 Flash,而 Gemini 2.5 Pro 依旧是当之无愧的长文本王者。 Google 上大分+1。 网友 karminski 进一步指出,Llama 4 在 1K 上下文召回率(近似理解为问题回答的正确率)时就已跌至 60% 以下,甚至 Llama-4-Scout 在超过 16K 时仅剩 22%。 他还给出了一个形象的例子「《哈利·波特与魔法石》的文本长度恰好约为 16K。 这意味着,如果你把整本书输入模型,然后问「哈利小时候是住在卧室还是楼梯下的储物间」,Llama-4-Scout 只有 22% 的概率能答对(近似理解,实际召回机制更复杂)。而这个成绩自然也就远低于头部模型的平均水平。 不仅模型本身稍显拉胯,Llama 4 作为「开源扛把子」的光环也在逐渐褪色。 Meta 开放了 Llama 4 的权重,但即使使用量化(quant),也无法在消费级 GPU 上运行。号称单卡运行,但实际指的却是 H100。门槛之高,对开发者可谓是相当不友好。 更何况,Llama 4 的新许可证还有几个限制条款,其中备受诟病的则是拥有超过 7 亿月活跃用户的公司必须向 Meta 申请特别许可证,Meta 可以自行决定是否批准或拒绝。 等等,昨天 Meta 公布的纸面参数可不是这么说的,怎么过了一天,风向就全变了。 在大模型竞技场(Arena)排名中,Llama 4 Maverick 名列总榜第二,成为第四个突破 1400 分的模型,在开源模型中更是高居榜首,更是超越了 DeepSeek V3。 面对实测性能的「货不对板」,细心的网友很快嗅到一丝蹊跷。在 LM Arena 上取得高分的 Maverick 其实用到了一个「实验性聊天版本」。 这还没完,今天一亩三分地社区的爆料贴也似乎揭开了一些内幕。爆料称,经过反复训练后,Llama 4 未能取得开源 SOTA,甚至与之相差甚远。 而 Meta 公司内部设置发布的 deadline(截止日期)则是 4 月底。 于是,公司领导层建议将各个 benchmark 的测试集混合在 post-training 过程中,目的是希望能够在各项指标上交差。拿出一个「看起来可以」的结果。 这里说的将各个 benchmark 的测试集混合在 post-training 过程中,是指在模型的后训练(post-training)阶段,通过混合不同基准测试的数据集,模型可以在多种任务和场景中学习,从而提升其泛化能力。 打个简单的比方,这就像考试时作弊。试题本该从保密题库(benchmark 测试集)中随机抽取,考前无人知晓。可如果有人提前偷看了题目并反复练习(相当于将测试集混入训练),那考试的时候肯定能考得很好。 帖主进一步解释说,Llama 4 发布之后,实测结果遭到 X 和 Reddit 网友的吐槽。作为一名目前也在学术界的人他宣称实在无法接受 Meta 的做法,已提交离职申请,并明确要求在 Llama 4 的 Technical Report 中剔除自己的名字。 他还表示,Meta 的 VP of AI 也是因为这个原因辞职的。而早在几天前,就有报道称 Meta AI 研究负责人乔尔·皮诺(Joelle Pineau)宣布将于 5 月 30 日离职。 不过,对于这桩疑似「刷榜作弊」的指控,真相究竟如何,或许还需更多证据。一位名为 LichengYu 的 Meta 员工也疑似在评论区实名回应称: 「这两天虚心聆听各方 feedback(比如 coding,creativewriting 等缺陷必须改进),希望能在下一版有提升。但为了刷点而 overfit 测试集,我们从来没有做过,实名 Licheng Yu,两个 oss model 的 post training 有经手我这边。请告知哪条 prompt 是测试集选出来放进训练集的,我给你磕一个+道歉!」 公开资料显示,Licheng Yu(虞立成)曾本科毕业于上海交通大学,2014 年获佐治亚理工学院和上海交通大学双硕士学位,在 2019 年 5 月获北卡罗来纳大学教堂山分校计算机科学博士学位,。 他的研究领域专注于计算机视觉和自然语言处理,多篇论文被 CVPR、ICLR、ECCV、KDD 等顶级会议接收。 Licheng Yu 曾在微软、Adobe 等大厂有过工作经历,目前(2023.06 至今)担任 Meta 的研究科学家经理,曾参与 Llama3.2 多模态模型(11B+90B)的发布,以及领导 Llama 4 项目中 17Bx128 和 17Bx16 的 文本+图像强化学习阶段。 真假难辨,或许还可以让子弹再飞一会。 开源大模型的「王座」,不能靠蛮力夺取 在去年这个时候,Meta 还被誉为 AI 行业的天选之子。 当然,脱下简单的灰色T恤、牛仔裤和连帽衫,扎克伯格也开始频繁地穿着大 LOGO 的名牌服装,颈间挂上粗犷的大金链子,甚至在公开场合自信展示自己的健身成果。 醉翁之意不在酒的扎克伯格试图通过展现更「真实」、更「接地气」的一面,拉近与公众的距离。这不仅让 Meta 显得更加亲民,也使其顺势成为对抗 OpenAI 闭源模型的开源旗手,声势一时无两。 与此同时,Meta 的雄厚实力为转型提供了坚实后盾。据悉,Meta 计划在 2025 年投入高达 650 亿美元用于扩展其 AI 基础设施,这一数字在业内堪称大手笔,到 2025 年底,Meta 计划拥有超过 130 万块 GPU。 其次,Meta 坐拥丰富的社交平台数据,这为其 AI 研发提供了得天独厚的优势。 作为 Facebook、Instagram 和 WhatsApp 等全球知名社交平台的母公司,Meta 掌握着数十亿用户的日常交互数据。据统计,其平台的全球日活跃用户数(DAU)在 2024 年已超过 30 亿,这一庞大的数据体量为 AI 模型的训练提供了海量的原材料。 再者,Meta 在人才储备上同样不遑多让。其 AI 部门的领军人物是业界享有盛誉的图灵奖得主 Yann LeCun。在他的带领下,Meta 坚持开源策略,推出了 Llama 系列模型。 因此,Meta 也野心十足——它不仅要巩固自身在社交领域的地位,更希望在 AI 领域实现弯道超车,目标是在 2025 年底前超越 OpenAI 等强劲对手。 但眼见他起朱楼,眼见他宴宾客,眼见他楼塌了。 若一亩三分地的爆料属实,Llama 4 的研发过程中可能存在为追求基准测试分数而「作弊」的行为——通过将测试集混入训练数据,也更像是「AI 流量焦虑」下的操作变形。 年初就曾有消息称 DeepSeek 让 Meta AI 团队陷入恐慌: 「当生成式 AI 组织中的每个高管薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的高管,他们要如何面对高层?」 2023 年,Meta 凭借 Llama 系列在开源大模型领域几乎建立了垄断地位,成为开源 AI 的代名词和标杆。 然而,AI 一日,人间一年,在 Llama 4 遭遇「滑铁卢」的评论区中,其他开源模型的好评随处可见。其中,Google Gemma 以轻量高效和多模态能力赢得广泛认可,阿里的 Qwen 系列基座模型崭露头角,而 DeepSeek 更以低成本高性能的黑马姿态震撼了整个行业。 Meta 能否调整策略重回开源 AI 的模型领跑位置尚未可知,但无论如何,开源 AI 的百花齐放已经不可逆转地到来了。 秉持着哪个 AI 好用,用哪个的原则,Meta 也不能全然怪用户「墙头草」。更何况,在开源透明度方面,相较于上述几家公司的开源模型,Llama 4 的自缚手脚,也颇有些自断一臂的意味。 而 Meta 目前的挣扎或许也表明,即便手握全球所有的 GPU 算力和海量数据,资源优势已不再是决定性因素,开源大模型的「王座」,不能靠蛮力夺取。
苹果加码XR,消息称Vision Pro 2进入生产阶段有望年内上市
IT之家 4月7日消息,据“电厂”今日援引产业链消息,第二代苹果XR头显产品(或名为 Vision Pro 2)已进入规模生产阶段,有望于年内发布。 苹果初代XR头显Vision Pro于2023年6月正式发布,并于2024年2月开始海外市场发售。 报道称多个独立信源确认,第二代苹果XR头显产品的面板、外壳等关键零部件均已在生产中。其中,蓝思科技为Vision Pro 2独家供应玻璃面板;长盈精密为Vision Pro 2提供外壳部分;另有部分电子电路器件供应商正在赶制订单。 对此苹果方面表示,不回应任何有关未发布产品的传闻。 苹果初代Vision Pro设备重量为600-650g;2D视频播放时长为2.5小时;搭载拥有8核中央处理器和10核图形处理器的系统级主控芯片M2、以及为应对实时传感器信息而设计的R1芯片;采用的micro‑OLED显示屏总像素高达2300万,并提供高于4K电视的单眼像素;定价3499美元起,国行定价29999元起。 IT之家注意到,彭博社记者马克・古尔曼(Mark Gurman)在今年1月透露,苹果公司不打算在2025年推出任何Vision Pro的更新版本,所有迹象表明,新一代Vision Pro将推迟至2026年发售。古尔曼指出,苹果目前更为“紧迫的目标”是开发一款价格更低的头显设备,并且正在加速推进该产品的研发进程。 此前,天风国际分析师郭明錤(Ming-Chi Kuo)曾预测,苹果Vision Pro 2将于 2025 年下半年投入生产,预计搭载M5芯片并支持Apple Intelligence,但硬件方面的其他升级传闻较少。郭明錤还表示,苹果的低价版头显将推迟至2027年发售。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。