行业分类:
加载中...
头条分类:
加载中...
和李宇春同台亮相太古里,库克二次到访成都有何深意?
3月18日,苹果CEO库克突然现身成都太古里,参加苹果50周年活动。当天,库克身着卡其色春装外套,白底T恤衫,与李宇春等多位艺人同台,还亲切地与观众用中文打招呼。 第一财经记者了解到,此次库克访华一方面是庆祝苹果50周年,另一方面他也是中国发展高层论坛(CDF)的常客。2026年的CDF将于下周在北京召开,这两天已有部分全球企业CEO陆续抵达中国开始访问行程。 这也是库克今年的首度访华。去年10月,库克已经到访过北京、上海,他还现身抖音直播间为iPhone Air带货。 此次库克再次到访中国并选择成都也是苹果公司精心安排设计的,这也是他第二次来到成都。三年前的秋天,库克也曾造访成都。 成都作为中国西部经济的“桥头堡”,与苹果供应链也有着紧密的联系。从精密零部件到整机组装,成都是苹果全球供应链中的关键一环。例如,位于成都崇州经济开发区的捷普科技(成都)有限公司,曾是苹果重要零部件供应商之一,工厂规模庞大,员工数量一度超过6万人。 第一财经记者查询公开信息了解到,捷普科技早期为苹果等客户提供粘合剂、阳极氧化等产品及手机零部件制造。2023年8月,比亚迪电子以158亿元收购了捷普成都等地的制造业务,捷普现已成为“成都比亚迪”的一部分。 此外,富士康成都厂区同样是苹果全球生产体系中的关键力量,多次承担苹果核心产品的生产任务。数据显示,全球每售出两台iPad,就有一台烙有“成都制造”的印记。3月17日,苹果公司首席运营官Sabih Khan也拜访了富士康成都工厂的iPad总装业务。据介绍,富士康成都还扩展了MacBook和Apple Watch的总装线,以及显示屏和外壳生产线。 近年来,成都电子产业制造已成为当地的一张名片。数据显示,全球近一半的高端柔性屏在成都制造。京东方全国首条、全球第二条8.6代AMOLED产线京东方B项目也是四川省投资体量最大的工业单体项目,规模达630亿元人民币,预计今年将实现量产,将为苹果等品牌商提供配套。 库克此次访华正处于苹果在中国新品发售期间。上周,苹果史上最亲民版智能手机iPhone 17e与笔记本电脑MacBook Neo正式在中国开售。此次发售的两款产品打破了苹果以往的价格底线,国补后均低于4000元,反映了苹果在激烈的竞争环境下不得不“放下身段”,作出价格方面的战略调整。 中国既是苹果全球最重要的供应链所在地,也是最重要的市场之一。截至12月27日的苹果季度财报显示,该季度中国市场销售大反弹,收入劲增近40%,达到255亿美元规模。库克在财报发布会上对于在中国市场的这一成绩表示满意。
谁为特斯拉的百万机器人造“关节”?
随着AWE2026上特斯拉第三代Optimus的亮相,马斯克的百万台量产承诺,似乎已近在眼前。 谁在为Optimus造“关节”?过去一段时间,外界众说纷纭,始终未有正式回应。直到最近,五家中国供应商集体赴泰国建厂的消息,首次让特斯拉的“O链”(Optimus供应链)浮出水面。 今年2月,泰国媒体报道称,泰国投资促进委员会已批准新剑传动、贝特科技、三花智控、拓普集团、旭升集团在泰国投资设厂,生产人形机器人结构框架及关节、手臂和手指控制系统,建厂的主要目标市场是为“特斯拉机器人”以及其他主要科技公司(包括苹果、三星和华为)供应零部件。 细看这份“O链”名单,分工一目了然:三花智控生产执行器,为机器人提供“肌肉”动力;拓普集团负责关节模组和执行器等,连接机器人的“骨骼”;旭升集团生产关节等部件;新剑传动和贝特科技生产行星滚珠丝杠,掌控机器人的细微动作。 这些企业大多与特斯拉在新能源汽车领域合作多年。当人形机器人风口来临,它们凭借在精密制造上的技术积累,将业务触角延伸至人形机器人领域,切入机器人的执行器、滚珠丝杠、关节、手臂等关键部件供应链。 今天,我们就来盘点一下,马斯克的“O链”,到底有着哪些熟悉的面孔? 01 最受关注的是三花智控。作为特斯拉的老牌供应商,在媒体报道中,它即将为擎天柱生产执行器,这是人形机器人关节运动的核心部件,相当于机器人的“肌肉”。 三花智控是做农机和空调配件起家的,后来切入新能源汽车产业,在2017年成为特斯拉一级供应商,提供热管理零部件,市场早已将其视为“特斯拉概念股”。 2023年,三花智控开始布局机器人机电执行器业务,包括旋转和线性执行器,并为此投资建厂。2024年1月,三花智控计划在杭州投资38亿元建设机器人机电执行器和域控制器研发及生产基地。 在机器人业务上,三花智控还处于初步阶段,但已经开始和客户合作。2025年上半年,三花智控已配合客户进行全系列产品研发、试制、迭代、送样,并取得了一系列围绕现有产品的创新成果。 尽管三花智控从未承认是特斯拉Optimus机器人供应商,市场消息却总能扰动股价。 去年10月,有市场消息称,特斯拉向三花智控下达了超过50亿元的线性执行器订单,并计划于2026年第一季度开始交付。市场估算,这至少生产18万台特斯拉Optimus人形机器人。 这一消息导致三花智控在A股和港股同时上涨,A股当日上涨10%。以至于三花智控紧急发布澄清公告称“该传言不属实”,不存在应披露而未披露的重大事项。 同样作为特斯拉的老牌供应商,拓普集团早在2016年就已是特斯拉的底盘供应商,后来也切入了机器人业务。 2023年,拓普集团成立电驱事业部,切入具身智能机器人领域。后来,拓普集团拟投资50亿元建设机器人电驱系统生产基地。 除了电驱执行器,拓普集团还布局了机器人躯体结构件、传感器、足部减震器、电子柔性皮肤等。 其2024年年报显示,拓普集团与客户从直线执行器开始合作,后又启动了旋转执行器的研发,然后又开始研发灵巧手电机等产品,已经多次向客户送样。 虽然并未明确客户是谁,但是在媒体报道中,拓普集团即将为特斯拉机器人生产关节模组和执行器等。 另一家特斯拉多年核心供应商旭升集团,即将为Optimus生产关节和骨骼部件。 旭升集团成立于2003年,在铝合金成型工艺上优势突出,长期从事精密铝合金零部件的研发、生产与销售,产品主要供应于新能源汽车的电驱动、电池、底盘及悬挂等系统。 早在2013年,旭升集团就与特斯拉达成合作,成为其一级供应商,为特斯拉的ModelS/X、Model3/Y等车型提供轻量化解决方案。 随着机器人时代到来,旭升集团也开始涉足机器人业务。 去年5月,他在回答投资者提问时称,目前公司已与多家海内外人形机器人客户达成关节壳体、躯干结构件等产品合作。其2025年半年报也显示,旭升集团与国内外多家头部机器人企业建立合作,获得多个客户项目定点。 新剑传动则是为Optimus造“行星滚柱丝杠”的。丝杠是机器人的手臂、腿部、腰部以及灵巧手部位的核心零部件,每台Optimus预计将使用14-16根行星滚柱丝杠。 不同于上述三家,新剑传动并不是特斯拉汽车的核心供应商。但是却早已进入擎天柱供应链。根据中国证券报,新剑传动产品2022年已应用于Optimus。 新剑传动成立于1999年,研发生产滚轧成型蜗杆齿轮、座椅水平驱动器、行星滚柱丝杠、直线型电驱动关节等产品。凭借着在丝杠领域的优势,新剑传动切入了人形机器人领域。 2025年3月,新剑传动董事长单新平接受浙江日报采访时透露,“行星滚柱丝杠是机器人设备的关键零部件......今年,新剑传动迎来了年产100万台人形机器人行星滚柱丝杠产业化新项目,抓住了新风口。” 据杭州市人民政府网站消息,2025年一季度,新剑传动总部暨年产100万台人形机器人“行星滚柱丝杠”产业化项目基地开工建设。该项目总建筑面积约7.1万平方米,计划总投资26亿元,一期投资10亿元。 100万台的产能规划,恰好匹配了特斯拉的长期目标,马斯克曾明确表示Optimus第三代于2026年底前开启量产,目标年产100万台。 去年下半年,更有市场消息称,特斯拉已向新剑传动下达量产灵巧手总成订单,在1000台及以上。 虽然该消息是市场传言,但是去年8月,新剑传动已与信质集团旗下子公司浙江鸿辉电机有限公司合作,在人形机器人灵巧手及关节模组等传动执行器领域展开合作。 乘着人形机器人的风口,今年1月,新剑传动启动了上市辅导工作。 同样为特斯拉生产“行星滚柱丝杠”的还有贝特科技。这家公司成立于2003年,专注于电力电子保护元器件及相关配件的研发,产品用于汽车电子、消费电子等领域。2024年,其全年营收约5亿元。 去年9月,贝特科技被同样做电子保护元器件的扬杰科技收购,以22.18亿元现金收购其100%股权,并签下了未来三年合计5.55亿元的业绩对赌协议。 02 除了前述五家企业,公开信息显示,另外两家特斯拉供应商:长盈精密和蓝思科技,也被市场视为特斯拉机器人的潜在供应商。二者的共同点在于:一方面,它们均为特斯拉的长期供应商;另一方面,两家公司均已切入机器人相关业务领域,并向客户交付了样品。 长盈精密是特斯拉的长期供应商,近些年其业务也涉及机器人。2025年,长盈精密累计交付了约69万件人形机器人精密零组件,其中约80%的产品被送往海外客户手中。这69万件产品覆盖了人形机器人灵巧手、四肢关节、传动系统等多个核心部位的精密零组件。 蓝思科技也是特斯拉的核心供应商,业务也早延伸至人形机器人结构件、功能模组及整机组装等领域。其2025年半年报显示,蓝思科技与国内外头部具身智能企业的合作都取得实质进展,实现关节模组、灵巧手、外骨骼设备等核心部件及整机组装的批量交付。 譬如蓝思科技早已和智元机器人达成合作。2025年1月,蓝思科技向智元批量交付了人形机器人灵犀X1,参与了灵犀X1机器人的关节模组、DCU控制器、OmniPicker(夹爪)等核心部件的生产组装与测试控制。 去年9月,有投资者提问,蓝思科技是否参与了供应特斯拉Optimas人形机器人? 蓝思科技回复称,公司已为多家人形机器人客户批量交付头部模组、关节模组、灵巧手、躯干壳体结构件及整机组装,同时也在配合北美大客户开发人形机器人相关模组。 卧龙电驱也是猜测对象之一。不过去年9月,卧龙电驱否认了“生产的轴向磁通电机和无框力矩电机已进入特斯拉Optimus测试环节,并且已锁定20万台电机订单”这一消息。 恒立液压也曾被传出是特斯拉机器人的供应商之一,业务涉及丝杠生产。据21世纪经济报道,丝杠是特斯拉人形机器人硬件的第一大成本来源、约占整机成本的30%。不过,恒立液压很快辟谣,称公司主要配合客户开展早期研发和样件设计工作,正积极接触国内外众多客户,合作进展涵盖研发与送样等多个环节。 这些猜测都指向一点:中国供应链是特斯拉擎天柱绕不开的一环。 虽然马斯克停产ModelS和X,将加州弗里蒙特工厂改造为生产“擎天柱”的工厂,但是擎天柱的生产依赖中国供应链却是很明显的。 马斯克早在多年前就已经和中国厂商接洽。 观察者网援引《南华早报》报道称,有知情人士透露,特斯拉早在3年前便已开始与数百家中国零部件供应商接洽采购事宜,还与部分厂商深度合作开展研发及硬件设计工作。一些供应商已根据特斯拉的反馈,小批量交付了零部件样品。最近几个月已有供应商向特斯拉寄送了“擎天柱”机器人弧形玻璃头部的全新原型配件。 上述知情人士称,这条供应链将效仿苹果和特斯拉电动汽车,在中国建立强大的零部件供应商网络——从执行器、电机、减速器、轴承、视觉系统、传感器、螺丝到电池的制造商。 03 梳理下来可以看到,这条若隐若现的“O链”,其核心成员几乎都贴着共同的标签:或多或少都与汽车行业相关,大多是特斯拉汽车的供应商。在过去十多年,他们参与了特斯拉汽车的制造,如今,当马斯克将下一场赌注押在人形机器人上时,他们也要为自己做打算。 “最终没人会记得特斯拉曾经造过车”,马斯克的转型,不仅关乎自身发展前景,也对汽车产业链产生了一定影响。 从技术上看,汽车供应链向机器人供应链迁移几乎是顺理成章的事。人形机器人的核心零部件,如执行器、关节、丝杠等部件,与新能源汽车的电驱动系统等有着极高的技术同源性。 更深层次的原因在于,新能源汽车行业经历爆发式增长后,已经逐渐进入平稳期,企业需要新的增长引擎。而马斯克描绘的“百万台量产”,乃至“未来市场价值超过汽车”的蓝图,以及25万亿美元的市场估值,恰好提供了一个充满想象的增长空间。 当然,这场迁移并非单相思。马斯克同样有依赖中国供应链的理由。 一方面是,目前人形机器人的零部件生产大多来自中国企业。 美国贝恩咨询公司合伙人成鑫称:“人形机器人领域约50%至70%的制造能力及核心零部件生产技术都掌握在中国企业手中......在部分核心零部件领域,中国企业的产品在全球人形机器人物料清单中的占比至少达到55%。” IDC数据也曾显示,2025年全球有约1.8万台人形机器人,其中大部分都来自于中国机器人企业。 二是成本问题。据摩根士丹利估计,如果没有中国供应链参与,擎天柱第二代的总成本将从约4.6万美元升至13.1万美元。这对于要将成本控制在2万美元的特斯拉而言,显然是无法承受之重。 中国供应商们渴望抓住时代浪潮,而特斯拉需要在中国寻找一个复刻“果链”奇迹的供应链体系,某种程度上,这是双向奔赴。 只是供应商们虽然渴望订单,但现实却冷静得多。 去年11月,高盛发布了对九家中国人形机器人供应链的实地调研报告,其中包括三花智控、拓普集团等公司。报告指出,这些供应商正在规划中国及海外(主要是泰国,其次是墨西哥)产能,年化产能规划区间约10万至100万台机器人。 但是报告同时指出,高盛所调研的九家产业链公司,尚无任何一家证实获得确定性大额订单,也未能提供清晰的量产时间表。 正如《第一财经》报道,有调研公司负责人表示,作为供应商尽可能做好准备,尽管没有接到规模订单,但产能规划规模是根据大客户给的产能指引进行安排。 这也就意味着,“O链”已经做好准备,就等着Optimus迈出量产的一步了。而按照马斯克的计划,这一时间是2026年底前。
这阵容谁能想到!喜临门发布会定档:王腾、马斯克母亲、前OPPO最美产品经理Monica同台
快科技3月18日消息,今日,今日宜休创始人王腾在微博发文宣布,喜临门智能睡眠新品发布会将于3月20日举行。 王腾表示:“我会和传奇女性梅耶·马斯克(特斯拉CEO埃隆·马斯克母亲)、产品发布官Monica(没错,手机行业的Monica也转行了),一起聊聊AI时代和智能到底能为我们的睡眠创造什么新价值。” 梅耶·马斯克 从王腾晒出的预热海报来看,他将担任喜临门首席产品体验官,Monica出任喜临门产品发布官,而梅耶·马斯克则担任喜临门全球品牌代言人。 三人罕见同框的阵容也引发网友热议,有人直言:“这辈子没想到这三个名字能出现在同一页上。” 值得一提的是,Monica今日还在社交平台晒出AI生成的喜临门工牌,并配文称:“新身份,和大家重新认识一下。” 据了解,去年9月,Monica宣布从OPPO离职,她在OPPO任职的五年期间,曾主导多款热门产品的市场推广与发布策略,并亲自主讲了九场重大新品发布会,被网友称为“OPPO最美产品经理”。 在2024年OPPO K12发布会上,Monica曾现场用高跟鞋暴力踩踏手机,成为当时的名场面。 Monica 此外,今年1月,前REDMI品牌总经理王腾宣布成立新公司今日宜休,其初创核心团队成员背景深厚,均来自小米、华为等一线科技企业,公司将研发重心放在睡眠健康相关产品上。 他认为,通过更多传感器结合大模型技术,可以主动感知人的生理状态,继而做出精准的主动决策与干预,让精力管理真正成为可能。 王腾
清华院长杨斌:确定token的中文译名,已经迫在眉睫了
2026年英伟达GTC大会上,黄仁勋近两小时的主题演讲,全程围绕AI推理时代的产业重构展开,堪称 AI 推理时代的产业宣言。 从硬件架构革新、数据中心转型为模元(token)工厂,到万亿级AI基建蓝图、企业经营逻辑,再到智能体与物理世界AI的未来,token这个词累计出现超过70次,成为串联整场演讲的锚点和主线。 黄仁勋以手势示意“Token King”英伟达token成本全球最低。(图片来源:GTC 2026) 针对这一定义AI时代的核心度量单位,我在2026年初提议过token的AI领域专属中文译名——模元,用以区别于区块链、网络安全等其他场景中的token译名。这次在线上越听黄仁勋的这场演讲,越让我感到这事儿有点儿急迫,“模元”作为token中文译名的推广,真的是越来越重要、越必要。 为什么?因为模元(token)不止是黄仁勋演讲中的高频锚点,更是思考和重构AI经济逻辑、推动AI在中国走向千行百业的关键基石;而一个精准适配、好懂易传播的中文译名——模元,正是AI从专业圈层走向全民“众技”的关键纽带。 黄仁勋在演讲中正式提出“模元(token)工厂经济学”,宣告传统数据中心已告别文件存储的旧定位,全面转型为生产模元(token)的智能工厂。固定功耗下的模元(token)每秒吞吐量、单位模元成本,直接决定AI企业的营收能力与核心竞争力,模元(token)已然成为AI时代的新大宗商品与基础度量衡。 他的这一论断,绝非技术圈层的自说自话,而是揭示了AI产业的底层逻辑:模元(token)是AI时代的核心经济标尺,兼具着信息单位、算力单位、货币单位三重属性,是AI思考的最小单元,也是算力消耗核算基准和智能服务价值度量。于此之上,全球AI产业的运行规则正在被重塑。 前一阶段公布的数据表明,全球大模型日均模元(token)消耗已达30万亿级别,中国模型调用量首次超越美国,占到全球60%以上。小到一次AI问答,大到电影级视频制作,更大到企业级模型训练,都以模元(token)计量,这使其超越一般技术参数,成为智能经济规模与活力的核心指标,也让模元的中文定名,从可以慢慢来的学术探讨变成了实践中的急迫需要。 换句话说,当一个核心且被高频使用的技术名词成为万亿级产业的核心标尺,其中文定名便不再是无关紧要的细节,而是关乎产业共识形成、技术普惠落地、公众认知普及的刚需。 因为各种可以理解的原因,当前AI行业的技术专家、企业高管与投资人,普遍直接使用英文词“token”进行交流,播客、访谈、讲座中,几乎没有统一的中文表述。这倒真不是英文水平高低的问题,即便英文基础良好,如果不怎么懂AI,也难以精准理解token的核心要义,就算翻开字典也是一头雾水;对于未接受AI专业训练、不熟悉英文技术术语的普通大众与传统行业从业者而言,生硬插入的英文名词更会带来强烈的距离感与认知隔阂。 情况是这么个情况,却并不是就该一直这么下去。我们每个人都期待AI真正融入中国千行百业、走进普通人的工作与生活,这就倒逼着我们,必须为这个核心概念,定一个通俗易懂、精严谨准、适配未来的中文译名。 从词源脉络来看,token源自古英语tāc(e)n,本义为“标志、符号、证明”,核心是“可被识别、承载特定信息或功能的基本单元”。历经中世纪商业代币、网络安全令牌、语言学“词例”的演变,进入AI大模型时代,token完成了决定性跃迁——从语言学碎片化单元,升级为AI模型可计算、可处理的最小通用单元,正式取代计算机、互联网时代的“字节”,成为AI时代的基础度量衡。 比较一下:字节是计算机物理层面的存储单位,计量机械均匀、与语义无关,仅记录数据的物理体积;而模元是智能逻辑单元,承载文本、图像、音频、视频等全模态信息,关联模型理解、推理计算、算力消耗与价值创造。这一本质区别,正是计算文明从“数据处理”走向“智能涌现”的核心标志,也让模元(token)成为贯穿黄仁勋2026GTC演讲的核心主线。 在我提出“模元”这个译法之前, AI大模型领域的token也曾有过多种中文译名,但推敲下来,发现都无法匹配AI大模型、智能体时代的核心内涵,难以打破大众的认知壁垒。比如,“词元”被“词”字锁死在文本场景,无法适配多模态、物理AI的应用形态;“语元”囿于语言范畴,窄化了token作为模型通用处理单元的本质;“义节”过度聚焦语义,忽略了token纯特征、结构化处理的属性;而“托肯”“屯”等单纯音译,徒有其音、缺乏实义,普遍接受度低,还会加重非专业人群的理解负担。这些译名要么局限于单一领域,要么缺乏度量衡的严谨性,确实无法承载token作为AI产业核心锚点的价值。 我斟酌再三提出的“模元”这个译法,是专为AI时代量身定制的意译。“模”直指大模型、多模态,锚定AI场景的核心属性;“元”代表最小基本单元,承续“字节”这类中文经典度量单位的命名逻辑,简洁直白、通俗易懂。 这一译法具备三大不可替代的优势:一是对大众友好,对中文世界的非专业受众而言,“模元”没有英文token的距离感,无需专业背景就能感知这是AI世界的基础计量单位;二是对产业实用,对产业界而言,“模元消耗量”“模元效率”“模元成本”“模元预算”等概念,能直接对应AI产业核心指标,让“模元工厂经济学”走出专业圈层,被更多人理解;三是对未来兼容,对未来发展而言,模元不局限于当下的文本推理,更适配智能体、多模态融合、物理世界AI等全场景,具备穿越技术周期的延展性。 如果试着将GTC大会上,黄仁勋演讲中的“token工厂”改为“模元工厂”,“单位token成本”改为“单位模元成本”,原本晦涩破碎的产业逻辑表达会立刻变得顺畅且清晰易懂:从业者明白模元是AI生产的基础原料;投资者理解模元效率是企业降本增效的关键;普通大众懂得,“模元”就是AI时代的“字节”,是走进智能经济的入门钥匙。技术的真正价值,在于从专业重器走向全民众技,而朗朗上口、易于传播的中文译名,正是AI普及的必要一步。 我反复阐释“模元”这个译法的初衷,并不是纠结较真、咬文嚼字,有点儿执意想请大家把“模元”作为惯用词统一起来,真是想为中国AI高普及率搭建必要的语言桥梁,打破专业与大众之间的认知壁垒,让AI核心词汇更易读易懂,让传统行业出身的人在认知和把握AI本质的路上,不用先越过什么语言门槛就能径直探索AI时代的基本规律,促进AI这个进行时很强的科技在中国走向千行百业、走向全民普惠。 按照荀子有言“名无固宜,约之以命”,所谓约定俗成,再合理的“名”,没人用、形不成共识也是白费。期待大家在学术研究、产业分析、政策讨论与媒体报道中,有意识地采纳并使用“模元”这一译法,共同推动这个有根(词源清晰)、有义(内涵准确)、有未来(延伸性强)的词汇,成为理解、参与和拥抱AI时代的日常用语。 马年龙抬头将至,AI 时代的模元经济,正加速演进大变局,却也还只是开局。期待不论产业还是社会,专业抑或日常,以“模元”为计量,向智能而涌现。
OpenAI对话OpenClaw:AI正在重新定义开发者,以一种玩乐的心态去面对AI
图片来源:YouTube Z Highlights: 这和“我只是用AI辅助写代码”完全不是一个层级的变化,而是一种跃迁式的升级——从增强个人生产力,变成真正意义上的端到端构建与交付。 从第一次接触这项新技术,到真正变得高效之间的这段过程里,很多人都会卡在这里——不停地去“超级优化”自己的环境。但这种优化往往并不会真正提升生产力,只是让人产生一种“我更高效了”的错觉。 真正需要优化的,其实是整个代码库,让它更适合协作、更适合持续演进。现在也是一样——要优化的是代码基础,使agent能够在其中发挥最佳效果。 以一种玩乐的方式去接触它。如果你至少有一点动手能力,就去构建你一直想做的东西——脑海里总有一个想做的项目,就尽情玩一玩。 《Builders Unscripted》是OpenAI官方推出的一档聚焦顶尖开发者的硬核对谈节目。在2026年2月25日首期节目中,Peter Steinberger围绕OpenClaw、他在开源领域的历程,以及如何借助 Codex 进行构建展开了深入解析。 Romain:Peter,欢迎来到OpenAI。 Peter:感谢邀请。 Romain:这些年来一直在线上相识相伴,如今终于有机会在Versa里有更多时间相处,内心真的很开心。 Peter:同感。你们的办公室真的很漂亮。 社区热潮:从线上到全球线下现象级爆发 Romain:谢谢,最近这几周真是忙得不可开交。其实一个月前就有一起录视频的想法,要是当时做的话,可能还得专门做个介绍。现在看来,几乎都不用铺垫了。开源项目能登上《华尔街日报》并不多见,取得这样的成绩确实值得祝贺。此刻的感受如何? Peter:有点抱歉,感觉各方面都有些信息过载。不过说实话,今年一开始折腾AI的时候,其实是想激励更多人参与进来。现在走到这一步,仿佛达到了某种“终极形态”,所以内心还是挺自豪的。 Romain:这段时间确实很精彩。过去一周都在旧金山,参加了一些活动,比如Codex Hackathon,同时也主办了一个专门围绕OpenClaw的活动。 Peter:其实这件事本身也是由社区推动的。当时有人提议说应该办一次线下见面会,于是就建了一个Discord频道专门讨论meetup的事。没想到后来来到现场,竟然有将近一千人到场。那种创造力真的让人震撼——现场的设计、氛围、色彩,还有各种各样的想法与项目,能感受到无数人投入其中、满怀热情。 Romain:那一刻才真正意识到,确实创造出了某种“有魔力”的东西。几周前这个项目还不存在,如今却已经有成千上万的人在使用、在支持,甚至专程聚集到旧金山线下见面——这种变化本身就令人难以置信。 Peter:甚至下周在维也纳,也已经有超过300人报名参加。相比旧金山那样成熟、活跃的科技圈,当地的tech scene规模远没有那么大,但依然能聚集起这样的热度,确实令人惊叹。 Romain:现在它已经走向了全球,成为一种现象级的存在。 Peter:是啊,令人惊叹的是,它能够触及不同的大陆、不同的文化。 Romain:确实如此。那么这几天和社区的交流整体感受如何?这段时间花了不少时间和社区成员互动,也和一些后来加入项目的维护者深入沟通。过去这一周的体验怎么样? Peter:这段经历确实很特别。很多人非常喜欢这个项目,也有不少人一上来就期待看到一个成熟、完善的“最终版本”。但对我来说,很长一段时间里,它更像是自己的一个小型试验场。这一整年,都在不断惊叹AI所展现出的各种可能性。对开发者而言,可谓是“生逢其时”。 开发者的黄金时代:AI 重构开发与身份定义 Romain:你觉得在这个时刻作为一个builder最有趣的地方是什么?现在确实是一个非常特别的时期——整个工具链都在发生变化,对“开发者”身份的定义也在不断重塑,几乎任何人都可以构建任何东西。 Peter:当我开始玩这项新技术时,每次都有一种多巴胺飙升的感觉。那时我用Claude code进行尝试,每当它做对一点事情,大概只有30%或40%的概率,但对我来说简直令人震撼——我突然意识到,现在我真的可以构建任何东西。而且通常软件开发总是很耗时、很复杂,而软件本身依然很难。但现在,开发速度快了太多。 Romain:我同意。如果回溯到几年前,大概是2011或2012年左右,当时第一次接触到你做的工作,是你开发PSPDFKit的时候。从外部来看,这个经历很有意思——感觉就像实现了每个开发者的梦想:遇到问题、提供了出色的解决方案、围绕它建立了公司、实现了规模化,并最终出售了它。但我相信,这段旅程绝不可能像表面上看起来那么轻松。 Peter:我的意思是,我并不是某天醒来就决定要开发一个PDF框架——这在我的兴趣清单上几乎排在最末位。事情更多是自然而然发生的,就像一种奇怪的蝴蝶效应:从在Nokia开发的日子开始,到身边朋友有需求,再到美国签证拖延过久,这一系列偶然因素最终促成了我创办公司的决定。 Romain:我觉得有趣的是,在那家公司建立之后,你似乎休息了一段时间。那么,是哪些因素促使你重新回到这一领域的? Peter:最终,我是真的感到精疲力尽。连续高强度工作了13年,运营一家公司很难,当创始人更难。而且这是我的第一次创业,我并没有真正掌握如何缓解这些压力的方法,所以有一段时间几乎到了透支的状态,需要好好放松一下。 尽管如此,我还是关注着科技新闻。看到了GPT Engineer(或者当时叫ChatGPT的早期版本),觉得挺酷的,但并没有立刻让我激动。因为必须亲自体验新技术,仅仅通过阅读是无法真正感受到它的力量的,尽管当时的技术并没有立刻让我产生共鸣,真正让我动手。只有在我准备好、感觉到“好吧,我想再次创造点东西”的时候,到那时我也不想再在传统科技领域构建项目,因为我已经做了很久,而世界似乎也稍微往前走了一些。 当时很多东西还需要被重新构建,而我也恰好有了回归的动力和契机。但当你在一个领域已经非常专业,然后转到另一个领域时,那种难度真是无法用“难”来形容,更像是一种痛苦。你拥有构建项目的广泛知识,但如果没有agentic engineering的辅助,要真正把这些能力迁移过去,仍然需要学习很多东西。我当时想,“不如先看看这AI的东西吧。”真正让我震撼的时刻是,我拿了一个半完成的项目去尝试——其实那个项目早已在完成之前就因精疲力尽而搁置了。 Romain:对我们开发者来说,常常是这样的:大家都喜欢冒出新点子、启动新项目,但真正把它们完成才是最难的部分。 Peter:我经常看到这种情况——完成一个项目真的很难,有时候甚至会失败。但这个项目我想继续推进,同时也想重写它。于是我把整个项目整理成一个巨大的Markdown文件,大概1.5MB,把所有文件都拖进当时的Gemini Studio 2.5,然后让我生成一个spec,我把生成的几行内容整理回来,再拖到Cloud Code里去。接着我执行build,并在主屏幕上做其他操作,而旁边的屏幕就这样跑了好几个小时。 那时候情况要困难得多。有一次,它告诉我“已经100%可以投入生产”,大概是高级Claude 3.5 Opus之类的版本。我试了一下,结果直接崩溃了。于是我接入了Playwright——那是少数我真正会用的MCP之一——让它去构建登录流程,同时沿途检查操作是否正确,比如用来测试Twitter。一个小时后,它居然真的成功了,还展示给我一些成果。 Romain:很多人把OpenClaw看作是你的一夜成名,但我觉得最有意思的地方在于,它其实是过去9到10个月你所做的众多项目的积累。当你看看你的GitHub主页,会发现你已经构建了40多个项目。 Peter:其中大约一半的项目被直接应用在这个项目里。 Romain:我觉得其中很多,你都把它们整合进了OpenClaw。能不能聊聊这段旅程,讲讲这些想法和项目是如何最终汇聚到OpenClaw中的? Peter:我希望我能说从一开始就有一个统一的计划,但其实大部分都是探索性的。我当时想要一些功能或工具,而它们并不存在,于是我就“创造”了它们——或者说,我通过提示让它们出现。为什么?就是因为我想去构建它,一步步来。我希望我的agent能为我做一些事情,但那时我还没有完整的整体愿景。有趣的是,事情最终又回到了原点。比如,我想让它能查看我的WhatsApp,于是我就去实现了,甚至还注册了相关的域名。 我做了一个原型,但当时心想,反正大公司和大实验室迟早会去做这个,所以我就先等等。于是我把注意力放在其他事情上,做了很多实验。那段时间的目标更多是为了好玩,也为了激励别人。到了十一月,我做出了几个版本,但都不算理想。那时我就想,为什么还没有实验室做出这些东西?他们到底在忙什么?于是我就自己动手,做出了第一个版本,这个版本后来就成为了OpenClaw。当时已经到了第五个版本,但我自己仍然没有完全被打动。那感觉是——挺酷的,只花了大约一个小时就搭出了第一个原型。你只需通过提示,就能让各种东西“生成”出来。 真正打动我是在这个周末去马拉喀什旅行时。我发现自己用它的频率大大增加,因为它太方便了。你知道,当地网络并不稳定,而WhatsApp无论在哪里都能用,这种便利性让我对它印象深刻。我用它做了很多事情,比如翻译图片、帮我找餐厅,甚至还能查电脑上的资料,感觉特别酷。我给朋友们看,还让它帮我发短信,他们都想要这样的功能。我当时就想——你们不应该用它,你们还不懂它的厉害。 Romain:这些正是产品与市场契合度的唯一信号。如果连你的朋友都想要你做的东西,即便你从未为他们设计过,它也说明了价值所在。以前这类工具更多是为技术同行保留的。 Peter:真正让我彻底感受到它的价值,是我频繁使用的过程中。有一次,我尝试发送语音消息,心中顿时意识到——这本不应该能实现。 震撼时刻:AI Agent自主解决未预设复杂问题 Romain:跟我多讲讲这个故事吧,我记得我们前几天聊过这个。 Peter:这真的很令人着迷,它让我看到了这些模型在解决问题上的强大能力。我们开发这些工具是为了agentic engineering,但真正的核心技能其实更抽象:如果你想成为一名优秀的程序员,你必须首先是一个出色的问题解决者。而这种能力实际上可以映射到任何领域。 我发送了这条语音消息,屏幕上出现了打字指示器,我心里非常好奇接下来会发生什么——我自己没写过这部分代码,按理说它不应该能工作。结果模型居然直接回复了我,我当时惊讶到:它是怎么做到的?作为模型,它本不能够运行啊。模型当时的处理方式是这样的:它说,“你给我发了个消息,但其实只是一个没有文件后缀的文件。”于是它查看了文件头,发现这是一个音频编码格式。然后它在我的电脑上用ffmpeg转换了文件,我本想把它转写成文字,但电脑上没有安装Whisper。于是它四处寻找,找到一个OpenAI的API key,用curl把文件发送给OpenAI,最后拿回了文字内容——就这样,我得到结果了。 Romain:这确实令人难以置信。这正是把工具和完整的计算机访问权限交给这些agent之后所展现出的力量。它们可以自行组合资源、设计解决路径,哪怕从未为这种具体情境写过一行代码,也能自己想办法把问题解决——这种感觉既震撼又有点好笑。 Peter:我讲这个故事时,有人惊呼:“天啊,它竟然用了我的key,这也太疯狂了!”但其实并非如此。我把OpenAI的API key放在环境变量里,本来就是为此准备的。如果这是一个应该访问OpenAI key的脚本,而我的bot也运行在同一个环境里,那它当然可以访问那个key——我把它放在那里,本来就是为了让它用。这并不糟糕,恰恰是我想要的效果。那就是属于我的一个高光时刻。之后每次把它展示给朋友,或者把它拉进一个小群聊里测试——坦率地说,这个东西本来就是为一对一沟通设计的。如果要放进群聊里,最好选一个信任的人一起尝试。 Romain:真正信任的人。 Peter:因为它并不是为了“随便丢到公共场景里就能自动正确运行”而设计的。它本质上是一个个人助理,是围绕个人使用场景打造的。 Romain:当我把它搭起来时,其实也挺好奇的——这种配置方式有点奇怪,但我很想看看它最终会发展到哪里。后来确实出现了几个“顿悟时刻”:给它的访问权限越多,提供的工具和技能越丰富,它展现出来的能力就越令人惊艳。某种程度上,就像是在赋予它一种“虚拟技能”,能力会随着资源的开放而不断放大。当你让它为一次活动搭建一个网站或应用时,它做的已经不只是生成代码。它会调用你的OpenAI API key,把AI功能直接整合进去,还会自动部署,甚至生成一个可以对外分享的链接。这和“我只是用AI辅助写代码”完全不是一个层级的变化,而是一种跃迁式的升级——从增强个人生产力,变成真正意义上的端到端构建与交付。 Peter:整个11月和12月,我几乎完全沉浸在这件事里。虽然也做了一些其他项目,但大部分时间都投入到了这里。可是在Twitter上,大家似乎并没有真正理解它,我得到的反馈也相当冷淡,反响并不强烈。而现实是,每次给朋友演示,他们都想马上用。我却总说:“不不不,还没准备好。”后来我想,那不如做点疯狂的事情,让大家真正看到它有多酷。 于是我建了一个Discord服务器,直接把我的bot放了进去,几乎没有任何安全措施——那时候连sandboxing都还没做,一切都非常早期。我基本上是在完全公开的环境里开发,相当于用OpenClaw去构建和调试OpenClaw本身。当时模型会说:“你看到这个工具了吗?”我回答:“没有,什么都没看到。”它又说:“那去检查一下你自己的源代码。”接着又引导我去看其他地方。这一切都在公开环境里发生,大家亲眼看到它如何自我排查、自我修正。也正是在那一刻,人们开始真正理解它的意义。 Romain:当时把它放进Discord时,具体给了它哪些访问权限?比如,也让它读取了你所有的推文吗?它对你的信息掌握到了什么程度? Peter:并不是所有推文,太多了,但确实包含了很多我的记忆数据。我其实一直在快速监控它,因为prompt injection仍未完全解决。但新一代模型的表现确实很出色。我有一个“canary”,我的定制MGE,它定义了我的价值观——我希望模型如何运作、如何思考,以及哪些对我来说是重要的。大家对此非常感兴趣,甚至有陌生人进来,试图通过prompt injection粘贴大量代码。但模型直接回应说:“我不看这个。”基本上是在“嘲讽”他们。尽管如此,我当时还是没太有信心。第一晚引起了大量关注之后,我就把它关掉,去睡觉了——睡了十个小时,醒来后再继续。 那天Discord上大概有800条消息,我的agent都在一条条回复。我当时完全慌了,又把它关掉。后来我仔细查看了每一条消息,慢慢冷静下来,因为它实际上没有做任何恶意操作,也没办法获取我的MGE数据。并不是说prompt rejection完全不可能,但它没有人们想象中那么容易被绕过。 Romain:对吧?从整体来看,它实际上是按照预期在运作的。 Peter:是啊,我最大的失误是把它禁用了,但忘了我其实有一个启动守护进程(launch daemon)。启动守护进程主要做什么?如果服务崩溃或者MGE(sol)被终止,它会自动重启,因为你希望服务是可靠的。苹果当初设计它,就是为了保持服务稳定。我没考虑到这一点,所以把它“杀掉”了,结果它在五秒内自己重启,而我就去睡觉了。现在我吸取了教训,也加入了sandboxing。他在Gemini Studio里看到时非常自豪,把它称作“城堡”。我把它放进了一个小型容器,但这些模型真的非常有创造力。 比如第一次我做了一个Alpine Docker容器,里面几乎什么都没有。我当时对Malte说:“嘿,能帮我看看这个网站吗?”它却说:“这里连curl都没有,什么都做不了。”我就对它说:“发挥你的创造力吧。”它居然自己用TCP socket构建了一个curl,还用C编译器编译,生成了一个简陋版本的curl,竟然可以真正访问网站——效果完全正常,简直疯狂。这些模型的资源调度能力和创造力真的令人难以置信。 Romain:当然也遇到了一些挑战。很多人会从安全角度审视项目,期待它从第一天起就做到非常完善、非常稳健。但当时只是把一个开源项目公开出来,本身还处在早期探索阶段。 Peter:每当有人问我:“能不能帮我联系一下你们的CEO、人力资源,或者团队里的其他成员?”我都会忍不住笑。其实就是我一个人在“山洞里”写代码而已。但这恰恰体现出那种认知上的错位——从外界看来,这像是一家成熟公司的成果;可实际上,如果没有这些模型和agent的加持,单凭一个人根本不可能做到这样的规模与复杂度。现在确实有维护者加入,也会收到PRs。但从本质上说,这个项目最初是我一个人完成的——而放在一年前,这几乎是不可能的。当时根本没有这样的模型能力,让一个人可以构建出这种规模和复杂度的系统。所以从传统视角来看,甚至都不该把它当作“一个人能完成的事情”。 Romain:我们不妨就聊聊这个话题。我想很多开发者都会好奇——Peter的生产力到底是怎么做到的?今天早上我又看了一下你的GitHub,过去一年在120多个项目里累计了9万多次contribution。更有意思的是,GitHub活动图在年初几乎是一片空白、浅绿色,到了秋天,尤其是10月和11月,突然变成了深绿色。那段时间究竟发生了什么? Peter:每一代模型都在进步。但变化不仅仅在于agent变得更强,模型本身的“智能上限”也在提升。同时,我对如何驾驭它们的理解,以及自己的workflow也在不断优化。有些人仍然用过去的方式写代码,觉得那套方法不会改变;当他们尝试用AI时,把这种方式称作“vibe coding”。 在我看来,这个词本身就带点贬义。他们去尝试AI,却没有意识到这其实是一种技能。就像拿起一把吉他,第一天不可能就弹得很好。于是因为体验不好,就下结论说:“不行,这行不通。”如果用一种更玩味、更探索的心态去对待它,就必须愿意学习。现在我对不同prompt会产生什么效果、大概需要多长时间,已经有了一种直觉。如果过程变得异常漫长,我就会反思——是不是提示写错了?架构不对?思路出了问题。这和写代码很像。当你在写代码时,也会有一种感觉:某个功能是自然融入整体架构,还是在“对抗系统”、处处别扭。这种判断力需要时间去积累。 走出Agentic Trap:保持简单,专注问题本身 Romain:那么,如果有人希望提升到类似你的效率水平,你现在的coding setup是怎样的?你之前也提到过,很多人把自己的开发环境搞得过于复杂。 Peter:其实我自己也曾这样做过,我把这种情况叫做“agentic trap”。从第一次接触这项新技术,到真正变得高效之间的这段过程里,很多人都会卡在这里——不停地去“超级优化”自己的环境。但这种优化往往并不会真正提升生产力,只是让人产生一种“我更高效了”的错觉。看起来很忙、很高级,实际产出却未必更多。 我写过一篇博客,当时也挺有争议。我只是说,你要把它当成一种对话去对待。模型更像是在跟你交流——这并不完全是传统的pair programming,而是另一种形式,更像ISS,本质上是一场持续的对话,我基本上就是直接告诉它我想要什么。我总会问模型一句:“你有什么问题吗?”因为默认情况下,它会直接尝试解决问题,并自行做出各种假设。而这些默认假设未必总是最优的——尤其要记住,它的训练数据里包含了大量代码,也包括很多较早期、甚至已经过时的代码。因此,通过反问,让它先澄清问题,往往能得到更好的结果。 “你有什么问题吗?”其实是一个非常关键的问题。模型通常是以“空白状态”开始的,它不像我们一样逐步积累上下文。每一次新的session,对它来说都是“我对这个代码库一无所知”。它只能根据当前对话去搜索、定位相关片段,然后尝试解决你提出的那个具体问题。但它们通常看不到完整的全貌。如果要把这件事做好,完整的画面必须先在自己脑海里成型,同时还需要稍微引导模型,告诉它去看看这里、再看看那里。而Codex在这方面更强一些,更擅长先做一次整体性的浏览,再进入具体细节。我用的是一种非常基础的方法。甚至都不用worktree,只是简单地做1到10个checkout。 保持简单,反而让我能更专注于真正的问题本身。我基本不去折腾复杂的分支策略,而是专注于不同的问题模块。理想情况下,当项目规模稍微大一些时,这种方式反而更轻松——可以在彼此不冲突的不同部分上并行推进,而不至于互相“打架”。 Romain:你在构建OpenCloud的过程中大量使用了Codex。那么除此之外,它还在哪些方面改变了你的工作方式? Peter:我尝试过很多工具。但在目前所有工具中,我对Codex的信任度最高——它构建出我想要结果的成功率非常高,“直接就能跑起来”的情况也越来越多。很多人没有意识到,GPT-5.2又带来了一次质的跃迁,几乎可以说是一次“量子级”的飞跃。那种“它真的就能正常工作”的感觉,非常明显。到现在,我仍然会为它已经达到的稳定程度感到惊讶。 Romain:这真的太棒了——可以直接动手构建各种东西。本身就已经非常不可思议。 Peter:是的,我觉得大家真的应该亲自试一试。 Romain:你之前也提到过,现在甚至会发布一些自己都没有逐行阅读的代码。这种做法是如何发生变化的? Peter:大多数代码其实都很“无聊”。无非是把一种数据结构转换成另一种数据结构,最后呈现给用户,或者传递到下一个系统。因此,对于模型生成的绝大部分代码,我其实心里大概有数。我只需要看一下输出流,确认它生成的内容,大体符合我脑海里的心智模型——也就是它“应该”长成的样子——基本就够了。之前带过一个团队,手下有不少软件工程师。这也意味着必须接受一个事实:他们最终写出来的代码,不会完全符合我心中理想的写法。 真正需要优化的,其实是整个代码库,让它更适合协作、更适合持续演进。现在也是一样——要优化的是代码基础,使agent能够在其中发挥最佳效果。而这未必等同于“人类写得最舒服”的方式。这也意味着要接受,生成的代码未必完全是我理想中的写法。确实可以通过prompt把模型往某种风格上引导,但很多问题本身就有多种结构化方式,大多数时候并不存在唯一正确的实现。如果后来真的出现性能问题,再针对那一部分做优化即可。关键是先让系统运转起来,在需要的时候再精细打磨。 Romain:刚才提到对“代码价值”的看法,其实也在改变我看待开源的方式。就拿Open Cloud来说,现在大概有两千个PR处于打开状态。过去在没有AI的时候,每一个PR都需要认真阅读,因为代码本身就是核心价值所在。但现在有时更愿意把它理解为一种“prompt request”,而不仅仅是pull request。真正重要的,往往不是那段具体的实现代码,而是PR背后的想法、意图和方向。代码可以由模型重写、重构甚至重新生成。 Peter:有时候处理一个PR花的时间,比自己动手做还要久。因为我对模型“不具恶意”的信任,往往高于一个从未听说过、之前也没有任何交流的外部贡献者,所以对这样的PR必须更加仔细地审查。但当我看到一个PR,开始做review时,首先会问模型一句:“你理解这个PR的意图吗?”因为我真正关心的并不是代码本身,而是这个人到底想解决什么问题。很多时候,它更像是一个issue,外加一套体量很大的解决尝试。首先,不少人仍然不知道如何真正去yield agent。 其次,他们往往只给出一种非常局部的解决方案,因为他们脑中并没有整个系统的全貌。难点在于,这个小小的新功能如何嵌入到整个更大的系统里?或者这个小修复——它确实只是一个很小的fix——它真的是对的吗?问题会不会其实更偏向某个模块,甚至是一个更系统性、架构层面的问题?如果只是和模型进行对话,它其实非常擅长处理这种情况。当我说“好,现在把这个实现出来”,模型就会开始构建。但在此之前,我会先问它:这个改动的意图是什么?这是最优解吗? 有时它会回答是,但更多时候会说不是。然后我们才会开始一起探索,什么才是更合适的修复方式。这是不是一个架构层面的问题?比如说,如果这是一个消息处理上的问题,它真的只影响WhatsApp,还是也可能影响到Signal?既然如此,是不是应该用一种更通用的方式来解决,而不是只做一个局部修补?这算是一个新功能吗?我们真的需要这个新功能吗?有时候,这样的讨论会持续十到十五分钟。我通常会用语音,因为那种感觉真的就像是在和一个非常聪明的同事交流。 Romain:用语音输入token,其实比打字更轻松。 Peter:当我确认方向没问题之后,会触发一个slash command——比如LPR——它会把整个流程说明清楚:创建branch、完成所有修改、再到把PR合并。我希望建立一个社区,所以即便整个过程用时比自己从头写一遍还要长,仍然会保留原作者的署名。因为我很珍惜大家能够参与其中。 Romain:展望未来,在越来越多贡献者围绕这个项目参与进来的情况下,OpenClaw接下来会走向哪里?另外,是否把自己视为某种“探路者”——为“个人AI agent应该是什么样子”提供一种范式,让未来可能有数十亿人使用类似系统时,有一个可以参照的方向? Peter:是的,我希望在两者之间找到一种平衡:一方面,它应该简单到连我妈妈都能安装;另一方面,它又必须保持有趣、可hack,这本身就很难。大多数开源项目的使用方式是下载一个package直接安装。但很长一段时间里,我的默认安装方式是git clone、build、run。这样一来,源码就直接在本地磁盘上,agent就“坐”在源码之中,并且对这份source code是有感知的。 如果有任何不喜欢的地方,只需要对agent下一个prompt,它就会自行修改——某种意义上,是真正的“自我修改软件”。也正因为如此,很多原本从未给我提过PR的人,现在也开始提交PR。这也是为什么我更愿意把它称为“prompt request”——关键不只是代码本身,而是对“如何构建一个能够长期演进的软件”的理解。与此同时,整个安全行业几乎都在盯着它。这很有意思,但也多少有些令人沮丧,因为其中确实忽略了一些新的东西。举例来说,我做的那个web server,最初只是为了调试而写,后来才把界面做得更好看一些。它本来的设计前提,是只在本地网络、也就是受信任的网络环境中访问。但因为我也希望它能成为某种“黑客乐园”,所以确实提供了一个选项,可以自行修改访问方式。毕竟有些人的部署环境很特殊,比如会使用某些特定工具,或者通过reverse proxy来做转发。 所以当初没有把它做成强限制模式,是有原因的。但现在却有人把它直接暴露在open internet上,尽管我在一份文档里反复强调“不要这样做”,因为那根本不是它的设计初衷。随后就会有安全行业的人指出:它没有登录限制,也没有那些在公共网络上运行服务所必须具备的安全机制。问题在于,那本来就不是它被设计出来的使用场景。确实,当初并不是按那种用途来设计的。但因为它是可配置的,于是就被直接归类为一个CVSS 10级别的问题。所以在这件事上,确实有些挣扎。后来也引入了一位安全专家,把安全作为核心关注点。因为已经意识到,无法阻止别人以非预期的方式使用它。现在更重要的是支持这些不同的use case,同时尽量避免让用户“误伤自己”。 Romain:这正是开源的魅力所在——人们可以拥抱它,并提出一些连我都未曾想到的想法。 Peter:是的,这既是它的魅力所在,也是它的疯狂之处。 Romain:稍微跳出OpenClaw这个话题。这周和不少开发者聊到你即将参加Codex Hackathon,他们都很好奇:Peter是怎么想到这么多好点子的?这些创意从哪里来?不知道是否有一个明确的答案,还是说这更多只是出于个人的好奇心,一路追随自己的兴趣不断探索。 Peter:更像是一种意识到:现在很多事情变得很容易。即便已经有一个开源项目能解决我70%的问题,我也会选择自己动手做——而这在一年前几乎是不可能的。现在的状态是,只需要下一个prompt,把它放在第二块屏幕上,让Codex跑起来,它就开始工作了。 Romain:我们俩都来自欧洲。当我离开旧金山回到欧洲时,我相信你也有同样的感受:很多开发者和工程师还没有真正开始使用Codex和agentic工具。对他们来说,你的建议是什么?在入门时,他们是否应该重新思考自己的工作方式和工作流程? Peter:我的第一个建议始终是:以一种玩乐的方式去接触它。如果你至少有一点动手能力,就去构建你一直想做的东西——脑海里总有一个想做的项目,就尽情玩一玩。必须以一种玩乐的心态去面对这个事物。我记得Nvidia的CEO也说过:“短期内,你不会被AI取代,而是被会使用AI的人取代。” Romain:用得更好的人。 Peter:但如果你的身份认同是:我想创造东西,我想解决问题——如果你有高自主性,如果你足够聪明,你的需求量将比以往任何时候都高。 Romain:现在正是创作者拥抱这些工具、引导好奇心的绝佳时机,也是真正将任何想法付诸实践的时刻,就像你通过这些精彩项目和OpenClaw所做的那样。 Peter:我觉得一年之内,这将会彻底爆发。 Romain:是啊,2026年将会非常有趣。我觉得这是一个非常棒的结束方式。非常感谢你,Peter,抽出时间接受采访。能和你共度时光真是太棒了。我们在OpenAI都非常喜欢你的工作,也很乐意支持像你这样的开发者,坦率地说,你是整个开发者社区真正的灵感来源。再次感谢,我们迫不及待想看到你接下来会做些什么。
日本最强大模型,把日本网友搞破防了
中国一开源,日本就自研。 3月17日,日本互联网巨头乐天集团正式发布了Rakuten AI 3.0,号称"日本国内最大规模的高性能AI模型",乐天介绍其有约7000亿参数,作为一款日语特化模型在多项日语基准超越GPT-4o,还拿了日本经产省和NEDO的GENIAC项目补助。 然后发布当天,这款日本最强大模型就“翻车”了。 有日本网友测试发现,在钓鱼岛事件上,该模型在阐述日本立场时,也明确表示了中国大陆和中国台湾对钓鱼岛的主权主张,而在抗日战争的定性上,该模型则直接列举了包括731部队等日军行径,并称东京审判已经定性了日本负有战争罪行。 这些回答引发了部分日本网友的质疑,认为该模型可能由中国开发。后来更是有日本网友查看了该模型的配置文件后发现,"日本国内最大规模的高性能AI模型",是DeepSeek V3。 而更为离谱的是,乐天一开始就没有放入DeepSeek的MIT许可证文件,被指出之后,才默默以NOTICE为文件名补了上去,提交说明写的是"Add the permission notice",里面的版权声明:Copyright (c) 2023 DeepSeek。 截至目前,乐天集团没有任何公开回应。 “最强日本国产大模型” 根据乐天的官方新闻稿,Rakuten AI 3.0是"基于开源社区最优秀的模型,结合乐天独自的高品质双语数据、技术力和研究成果开发"的,对Deepseek只字未提。 乐天还特别强调,这个模型是GENIAC第三期的成果,学习费用部分由GENIAC提供的计算资源补助支持。 GENIAC是经济产业省与新能源产业技术综合开发机构(NEDO)主导的项目,为日本的AI开发企业提供GPU利用方面的助力。说白了就是国家出钱、企业出力,目标是建立日本的自主AI能力。 值得注意的是,扒开该模型底裤没有任何门槛。 该模型权重上传到Hugging Face之后,任何人点进去,切到Files and versions标签页,打开config.json就能看到。用户发现模型的config.json文件中包含"model_type": "deepseek_v3"这样的条目。architectures写着DeepseekV3ForCausalLM,不是"参考",不是"借鉴",是直接声明了模型类别。 而继续看模型信息就可以发现,hidden_size是7168,intermediate_size是18432,num_hidden_layers是61,n_routed_experts是256,vocab_size是129280。和DeepSeek V3的原版配置一模一样。 所以楽天号称"参数量约7000亿",因为DeepSeek V3的参数量就是6710亿。四舍五入约等于7000亿,这个"约"字用得精髓。 有日本网友无奈的表示:DeepSeek现在都更新到V3.2了,乐天拿个旧版出来包装,套壳都不挑个新的。 翻车不是因为抄 DeepSeek V3是开源模型,许可证允许商业使用和二次开发,在开源模型基础上做微调是行业通行做法,乐天为何会翻车? 严格来说,乐天在法律上确实没有违规。但这件事被冲,不是因为"用了开源模型",而是因为几件事叠在一起。 第一,乐天在所有对外宣传中刻意回避了DeepSeek的名字。之前乐天发布RakutenAI-7B的时候,老老实实写了"基于Mistral-7B开发"。这次突然改成"基于开源社区最优秀的模型"这种含糊说法,明显是故意的。 日本AI研究者うみゆき在X上吐槽:上次老实交代了,这次怎么就故意写得含含糊糊了? 第二,许可证这个操作太难看了。你用了别人的开源成果,连许可证都没放进去,被发现了才补回来。这已经不是透明度的问题了,是态度问题。 第三,也是最致命的——这个项目花的是日本纳税人的钱。GENIAC项目的初衷是扶持日本自主AI能力,结果楽天拿到补助之后,下载了中国的开源模型,做了一层日语微调,然后号称"日本国内最大规模的高性能AI模型"。 有日本博主表示:真正可耻的不是用了别人的模型,而是把这件事说得含含糊糊。如果楽天一开始就说"日本目前还没有从零构建基础模型的条件,所以我们基于DeepSeek做日语优化",这不但不会炎上(指引发大量负面新闻),反而会被视为务实的开发策略。 可惜乐天选择了装。 这个事情放在日本社会的语境下,刺痛感会被放大好几倍。 2025年1月底,DeepSeek在全球爆火。中国AI企业DeepSeek低成本发布了高性能的生成AI模型,其iPhone应用在免费应用排行榜上压过ChatGPT登顶第一,引发了美国股市科技股暴跌的"DeepSeek冲击"。最具冲击力的是AI芯片巨头英伟达股价单日暴跌17%,一天之内市值蒸发近6000亿美元(约合91万亿日元),相当于两个丰田汽车的市值,刷新了单一股票单日市值跌幅的历史纪录。 日本媒体给DeepSeek起了个名字,叫"AI界的黑船来航"。 1853年,美国海军东印度舰队司令长官佩里率领包括两艘蒸汽船在内的四艘军舰来到日本,舰队停泊在江户湾入口的浦贺冲,这就是"黑船来航"。旗舰萨斯奎哈纳号(USS Susquehanna)排水量约2450吨,而当时日本最大的和船不过200吨左右,完全不是一个量级。 喷吐黑烟的蒸汽船的威容,对从未见过这种东西的人来说就是赤裸裸的威胁。据传佐久间象山和吉田松阴站在浦贺用望远镜眺望黑船,两人看到那压倒性的军事力量之后痛感:以日本现在的实力,完全没有任何胜算。 黒船来航被视为日本近代的开端。它终结了持续约250年的江户幕府统治,从那以后,各藩的藩士和藩主掀起了攘夷论的狂潮,最终导致了倒幕。 所以在日语里,"黑船"早已不只是指佩里的那几艘军舰了。它变成了一个固定的文化符号,专门用来形容"外来力量对日本造成的不可抗拒的巨大冲击"——你挡不住、躲不掉、也无法假装它不存在。当日本媒体把DeepSeek称为"AI界的黑船"的时候,潜台词是:这东西的冲击力等级,和172年前那几艘炮舰是一样的。 日本政府的反应也确实像被黑船吓到了一样快。 2025年2月6日,日本政府向各省厅发出呼吁,要求各政府机关在使用DeepSeek等生成式AI进行业务时,必须充分认识风险,并向内阁网络安全中心(NISC)和数字厅寻求建议。日本个人信息保护委员会特别指出:DeepSeek获取的包含个人信息的数据被保存在中国境内的服务器上,适用中华人民共和国的法令。 企业层面动作更直接。丰田汽车、三菱重工业、软银等日本大型企业已全面禁止员工在公司内部使用DeepSeek。丰田明确表示"出于信息安全的考虑,禁止使用";三菱重工即便员工提交申请也不会获批;软银则限制了公司内部访问,禁止在业务设备上下载和使用。不只是这三家,有大型素材厂商表示"与业务中使用的微软生成AI不同,判断风险较高";有大型住宅厂商称"考虑到信息泄露和数据被用于AI学习的风险"而决定禁用。很多企业的做法是只允许使用美国企业等特定服务,其他AI一律禁止。 不只是日本。意大利因涉嫌违反GDPR启动调查并要求删除应用;台湾以国家安全为由全面禁止政府机关使用;美国的国防部、NASA、海军均已屏蔽访问,众议院向全体议员发出了使用限制通知;澳大利亚和韩国也采取了类似措施。 从政府到企业,从日本到全球,DeepSeek在相当一部分国家和机构眼里,就是一个"碰都不能碰"的东西。 结果现在,日本企业拿着国家补助,用的就是这个"碰都不能碰"的东西,换了个名字,告诉你这是日本国产最强AI。 有日本网友在X平台发帖自嘲:算了别生气了,日本AI已经"周回遅れ"(落后一圈),现在唯一的路就是把海外开源模型进口过来追加训练,然后"ハイ国産です~"(哈,国产的哟~),搞"産地偽造国籍ロンダリング"(产地伪造+国籍洗白)。 还有人去乐天的AI聊天官网实际测试,发现代码能力太好了,而且居然支持图像输入——但DeepSeek V3本身不支持图像,Rakuten AI 3.0也没有加图像编码器。这位博主的结论是:乐天AI官网上跑的大概率根本不是自家的Rakuten AI 3.0,而是Claude或GPT系列。自己发布的"日本最强AI",自己的官网都不用。 回过头来看,黑船来航之后,佐久间象山提出了"以夷之术制夷"——引进西方的技术来增强国力,以此对抗西方。 172年后的2025年,乐天确实引进了中国的技术,但没有用来增强国力,而是用来增强PPT。
AI替我干活,我却更累了
一切都要从一篇在技术圈刷屏的帖子说起。 一个名叫Siddhant Khare的工程师,发表了一篇文章《AI疲惫是真实存在的,但却无人提及》。作为开源项目 OpenFGA 的核心维护者,身处技术浪潮最前沿的他描述了自己工作流程的改变。 过去,写代码是一条清晰、流畅且能带来成就感的路径:思考问题、编写代码、进行测试、测试通过后发布。那是创造者的愉悦。 而现在,他的日常变成了一个循环:提出指令、等待输出、阅读输出、评估输出、判断输出是否正确、判断输出是否安全、判断输出是否符合架构设计,修正不符合的部分,然后重新下达指令,周而复始。 他不再是那个亲手构建系统的创造者,而变成了一条永不停歇的生产线上的“质检员”。干完活后,没有往日的成就感,只有一片空白的疲惫感。这篇帖子迅速引发了热烈反响,评论区里感同身受的人很多:“是我本人没错!”“简直是我每天的写照。” 这并非Siddhant Khare的专属困境。波士顿咨询公司的一项研究,为这种AI带来的新型职场倦怠取了一个形象的名字“AI脑疲劳”。症状包括但不限于:注意力涣散、决策迟缓、大脑像一直在嗡嗡响,明明干了很多活,却感觉什么也没干成。 他们对1488名美国职场人的调查显示,已有14%的人深陷其中。 从“创造者”成为“监督者” Siddhant Khare试图用自己的经历揭示一个悖论:AI 让单次任务变快了,却让整体工作变得更累、更耗神。几乎在同一时间,哈佛商学院的研究者和波士顿咨询公司的调查都指向了同一个结论:AI 并没有如预期般解放我们,反而以一种更隐蔽的方式重塑了工作体验,带来了系统性的新负担。 比如,AI让程序员这份工作从“思考-编码-测试” 变成了“指令-审阅-修正-再指令”。Siddhant认为自己工作的核心从“创造”变成了“审阅”,也很难获得那种“心流”状态。 他感慨:当人们在一天内需要处理六个由 AI 生成的不同问题时,大脑不是在创造,而是在进行成百上千个微小的、高强度的判断:这个函数命名规范吗?那个逻辑在边界条件下会崩溃吗?这段代码有没有性能隐患?这种高强度的评价性工作,正在悄无声息地榨干认知资源。 哈佛商学院的研究数据证实了这一点:需要高度监督AI工作的员工,在工作中投入的精神努力增加了14%,精神疲劳增加了12%,信息过载感更是飙升了19%。 在很多关于未来的设想里,AI能帮人类处理很多事,能让人类有更多时间享受生活。实际上,至少到目前,和移动互联网出现以后一样,许多人工作和生活的界限被一台手机彻底模糊。 “当AI以一个随时可对话的窗口形式嵌入工作流,它就变成了一个随身携带、永不关门的办公室。”Siddhant表示,以前,下班意味着关掉电脑,离开那个物理空间。现在,对话框永远在线。 一个“帮我看看这个”的需求随时可以扔进来,AI瞬间给出答案,而人们需要进行确认和反馈。工作就这样悄无声息地滑入了本该属于休息的时间。 “那个本该为我节省时间的工具,为何最终吞噬了我一整天,甚至包括本该属于夜晚的时间?” fomo和潜在的思维能力退化 当你面对龙虾热觉得不知所措,程序员们的焦虑丝毫不比你低。 Siddhant在文章中列出的技术更新清单,是每一个技术从业者所感到疲惫,并且产生措施恐惧症的。 这种指数级的更新速度,让每一个从业者都陷入了深深的焦虑循环。更糟糕的,是知识贬值的速度。人们花费两周时间,精心构建的一套完美提示词工作流,三个月后,可能还不如新模型一句简单的指令。所有投入的时间和精力,仿佛瞬间归零。 另一个正在崩塌的体系是工程师追求确定性的思维。即使AI已经很先进,但输入相同内容很可能输出不同结果。追求确定性的工作突然变成了掷骰子。周一完美运行的提示词,周二可能因为模型的一次微调,就输出完全不同的、甚至错误的代码。 “每一次与它的互动,都必须保持警惕,因为永远不知道它会给使用者一个惊喜,还是一个惊吓。” 为了尽可能让AI能输出想要的内容,Siddhant在工作中花费了很长时间优化提示词,结果有时候会发现自己在这件事上的时间远超自己动手写完整个任务。 更让他害怕的是,在一次没有电脑、没有AI的白板技术讨论中,他诧异地发现,自己从零开始思考、推导一个问题的能力,竟然退化了。长期将初步的思考、代码框架外包给AI,就像长期依赖GPS导航后,逐渐失去了构建心理地图和认路的能力。 以前正是那些独自面对难题时,经历的挣扎、困惑、推导、试错的过程,构建了人们理解的深度。跳过这些痛苦的过程,直接拿到结果,或许能更快地完成任务,但代价是思维的钝化,是理解世界和解决问题能力的肤浅化。 长此以往人们要警惕变成一个只会“审阅”答案,而不会“创造”答案的人。 与AI相处也要照顾好你的大脑 虽然Siddhant抱怨AI带来的困境,但他也冷静分析了目前的状况,并且提出了一些与AI相处的建议,毕竟对于他们这些科技工作者来说,与AI一起工作这件事是不可逆的。 根据他的建议,结合哈佛商学院的学者以及波士顿咨询的研究者的观点,有以下五条具有实操性的建议。 1、建立边界,明确人机分工 AI擅长生成模板代码、撰写文档草稿、自动化测试、快速信息检索。人类擅长顶层架构决策、复杂问题调试、创新性思考、价值与伦理判断。两者并非替代关系,而是互补。 如何找到这个边界?Siddhant的经验是记录。他进行了为期两周的简单记录:什么任务用了AI,花费了多少时间,对结果的满意度如何。数据清晰地告诉他:AI在哪些领域是得力助手,在哪些领域反而是时间黑洞。现在,他知道了何时该用它,何时该亲自上阵。 核心在于:守护好创造性的核心环节,让AI回归工具属性。不要让工具定义你的工作流程,而要用你的目标和大脑去选择和驾驭工具。 2、为AI使用设定“熔断机制” 针对那个让人越陷越深的“提示螺旋”,Siddhant有一条硬性规则:使用AI编码,最多尝试三次。如果三次提示内,AI无法让他得到一个70%可用的内容,他就果断关掉对话框,自己动手写。 这条简单的规则,比他学过的任何高级提示技巧都为他节省了更多时间。它就像电路中的熔断器,在你的认知资源被无限消耗之前,果断切断回路,避免陷入“看似高效,实则低效”的认知黑洞。 同样,为每次AI会话设定时间限制也是一种有效的方法。比如,每次使用AI最多30分钟,计时器一响,无论产出如何,都交付已有成果或转而自己动手。 3、分离思考时间与执行时间 为了防止“思维萎缩”,Siddhant将每天的第一个小时留给了无AI状态。他用纸笔思考,手绘架构草图,用最原始、最缓慢的方式推演问题。这看似低效,实则是为大脑做必不可少的“热身运动”。当思维经过充分预热,再使用AI时,你便能更好地评估其输出,提出更精准的问题,而不至于被它带着跑。 4、接受“不完美”,追求“足够好” 对于追求完美的工程师来说,这是最难接受但最必需的一课。AI的输出从来都不是完美的,它总是“相当不错”,能达到70-80%的程度。如果你强求它产出100分的答案,你消耗在修正、调试、重写上的精力,可能远超你自己从零开始写的成本。 Siddhant接受AI产出70%的完成度。 将每一次AI输出都视为一个初稿、一个起点、一份原始素材。当它出现在屏幕上的那一刻,就在心里给它贴上“草稿”的标签。这种思维方式的转变,能让挫败感减少一半。 5、对炒作周期保持战略定力 面对层出不穷的新工具和新框架,如何避免陷入FOMO的焦虑循环?程序员现在的策略是:关注,但不盲从。他们依然密切关注行业动态,因为这是他工作的一部分,但不再追逐每个新工具上市首周就采用,而是专注于使用一个主力工具,并深入掌握其核心特性。对于新工具,他会等它们经过数月(而非数日)的市场验证后,才进行评估。 文章的最后,Siddhant写下了一段话:“照顾好你的大脑。它是你唯一的头脑,任何人工智能都无法替代。”
唯一登台的中国大模型创始人,杨植麟美国GTC首秀,公开Kimi技术路线图
作者|江宇 编辑|云鹏 智东西3月18日报道,今日凌晨,在英伟达GTC大会上,月之暗面创始人杨植麟作为本届唯一受邀现场演讲的中国独立大模型公司创始人,发表题为《How We Scaled Kimi K2.5》的演讲,首次完整披露Kimi K2.5背后的技术路线图。 就在3月16日,月之暗面刚刚发布最新论文,提前预览了下一代模型的关键模块——注意力残差(Attention Residuals,简称AttnRes)。这篇论文的核心,是对大模型中最基础、却长期被默认接受的结构之一残差连接(Residual Connection)的重新设计。 这项进展很快引发海外AI圈关注。埃隆·马斯克(Elon Musk)称其“令人印象深刻”;前OpenAI研究副总裁、联合创始人安德烈·卡帕西(Andrej Karpathy)则直言,人们对《Attention is All You Need》这篇Transformer开山之作的理解,可能还不够充分。 而在这次GTC演讲中,杨植麟将这项研究放回Kimi更完整的技术框架中,给出了一张更系统的“路线图”。他将Kimi K2.5的进化逻辑概括为三个维度的共振:Token效率、长上下文和智能体集群(Agent Swarms)。 在杨植麟看来,当前的Scaling已经不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。如果能将这三个维度的技术增益相乘,模型将表现出远超现状的智能水平。 这也是自1月底Kimi发布K2.5以来,月之暗面首次把这套技术路线图系统披露。 杨植麟提出,行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为Scaling(拓展)的瓶颈。围绕这一问题,Kimi团队选择从优化器、注意力机制和残差连接三个基础模块入手,逐一重构,并持续开源。 一、重写训练底座:MuonClip把Token效率推高到AdamW的2倍 Kimi团队把第一项重点放在Token效率上,杨植麟在演讲中重点讨论了优化器问题。 他提到,自2014年以来,Adam优化器一直是行业默认选择,但在超大规模训练中,更高Token效率的替代方案已经成为重要方向。Kimi团队在实验中验证,Muon优化器在Token效率上具备显著优势,在相近计算预算下,可以将训练Token以两倍的效率转化为模型能力。 Muon优化器在相同算力下实现约2倍Token效率 不过,杨植麟也指出,在将Muon扩展至万亿参数规模的K2模型训练过程中,Kimi团队遇到了稳定性问题:训练中出现Logits爆炸,最大值迅速超过1000,导致模型发散。 针对这一问题,Kimi团队提出MuonClip优化器。杨植麟称,该方法通过Newton-Schulz迭代结合QK-Clip机制,对训练过程中的数值进行约束。在实际训练中,Kimi K2的max logits被控制在100以内并逐步回落,同时模型loss没有受到负面影响,实现了稳定训练。 MuonClip将max logits控制在100以内,实现稳定训练 他同时提到,为了让Muon在大规模GPU集群中具备可扩展性,Kimi团队还设计了“Distributed Muon(分布式Muon)”,将优化器状态分布在数据并行组中,在需要时再聚合梯度完成计算,以提升内存效率和整体训练效率。 二、第二个重点是长上下文:Kimi Linear把128K到1M解码速度拉高5到6倍 长上下文是Kimi这次路线图的第二条主线。 在这部分,杨植麟重点介绍了Kimi Linear。这是一套基于KDA(Kimi Delta Attention,Kimi增量注意力)的混合线性注意力架构。 它的核心思路,是重新安排注意力层的组成方式,而不是默认所有层都使用全注意力(Full Attention)。 具体来看,Kimi Linear采用约3:1的KDA与全局注意力混合比例,在降低内存开销的同时,保持模型表达能力。 杨植麟在演讲中提到,Kimi Linear已经完成1.4T token规模训练,在长上下文、短上下文以及强化学习任务中均优于全注意力及其他基线方案。 更直接的变化体现在推理效率上。在128K到1M上下文范围内,解码速度可提升约5到6倍,同时在不同长度场景下保持稳定表现。 这一改动解决的是一个长期存在的问题:上下文窗口不断扩大,但推理成本和延迟同步上升,导致长任务能力难以真正落地。Kimi Linear则将长上下文从“可支持能力”转变为“可高效使用能力”。 三、改写残差连接:让每一层更主动地取信息 相比优化器和线性注意力,Attention Residuals(注意力残差)也是Kimi这次技术路线图里尤为关键的一项尝试。 残差连接是深度网络里极其基础的一层设计,已经用了十年左右。 杨植麟提到,传统残差连接采用固定加法累加方式,随着网络加深,隐藏状态会持续增长,深层信息容易被稀释。Kimi团队的做法,是将残差路径替换为基于Softmax注意力的动态聚合,使模型可以根据输入内容,有选择地从前序层获取信息。 这一变化让信息流从“逐层叠加”转向“按需读取”,在深层网络中保持更稳定的信息表达。 在这一部分,杨植麟延伸了前OpenAI首席科学家(Ilya Sutskever)在NeurIPS 2024的相关思路:如果将残差连接视为沿深度展开的简化LSTM,那么Attention可以理解为对这条信息通道的进一步扩展。 Ilya提出“将LSTM旋转90度得到残差连接”,Attention可视为其扩展 基于这一理解,Kimi提出Attention Residuals,并已将相关代码与技术报告开源。 四、视觉强化学习反哺文本能力,跨模态带来认知增益 除了模型底层架构,杨植麟在演讲中还分享了一项跨模态研究方向的重要观察。 他提到,在原生视觉-文本联合预训练过程中,引入视觉强化学习(Vision RL)后,模型不仅在视觉任务上表现提升,也会反向提升纯文本能力。消融实验结果显示,在经过视觉RL训练后,模型在MMLU-Pro和GPQA-Diamond等文本基准上的表现提升约1.7%-2.2%。 杨植麟认为,这表明空间推理与视觉逻辑能力,可以转化为更深层的通用认知能力。相关工作也指向一个方向:多模态训练的价值,已经从“扩展输入形式”,转向“提升底层推理能力”。 他同时提到,Kimi团队正在推进“首个原生联合视觉-文本能力的开放模型(First open model with native, joint vision-text capabilities)”。 五、从单Agent到集群协作:Kimi押注Agent Swarms 演讲最后一部分,杨植麟把重点落在智能体集群(Agent Swarms)上。 他在演讲中提到,未来的智能体形态将从单智能体,转向可以动态生成的集群系统。Kimi K2.5引入Orchestrator(编排器),能够根据任务需求创建多个子Agent,并将复杂任务拆解为并行子任务执行。 Orchestrator动态生成子Agent并并行执行任务 这些子Agent可以承担不同角色,例如AI Researcher(AI研究员)、Physics Researcher(物理研究员)、Fact Checker(事实核查员)等,通过分工协作完成整体任务。 杨植麟进一步补充,这类系统可以覆盖从输入到输出的完整流程,包括大规模信息获取(Input at Scale)、并行操作(Actions at Scale)、任务编排(Orchestration at Scale)以及长结果生成(Output at Scale)。 随着任务复杂度提升,智能体集群相比单Agent的效率优势会持续扩大。在实验中,执行时间可获得数倍缩短。 他同时指出,多Agent系统容易出现“串行塌缩”,即表面多Agent,实际退回单Agent执行。为此,Kimi设计了并行强化学习奖励机制,包括Instantiation reward(实例化奖励)、Finish reward(完成奖励)和Outcome reward(结果奖励),用于引导模型真正进行任务拆解和并行执行。 三类奖励机制用于防止“伪并行”和串行塌缩 结语:Kimi给出一张新的Scaling施工图 在总结中,杨植麟谈到了AI研究范式的变化。 他提到,过去受限于算力资源,研究往往难以在不同规模上验证同一方法。而随着“Scaling Ladder(缩放阶梯)”的建立,研究者可以进行更系统的规模化实验,从而得到更可靠的结论。 这也成为Kimi当前路径的基础:Adam诞生已超过11年,Kimi将其推进为MuonClip并开源;Attention提出已超过8年,Kimi发展出Kimi Linear并开源;Residual connections已有约10年历史,Kimi进一步提出Attention Residuals并开源。 整体来看,Kimi此次披露的路线图,将下一阶段大模型竞争的焦点明确到了三条主线:训练效率、长上下文能力以及智能体协作结构。这三条路径正在同时推进,并开始相互叠加。
曝华为Mate 80系列还将发布两款新机 或3月23日发布
【CNMO科技消息】3月18日,数码博主“超维界”爆料称,华为Mate 80系列还将发布两款新机。其中一款名为Mate 80青云,另一款为Mate 80 Pro Max风驰版。该博主称,Mate 80青云很有可能是此前爆料中的Mate 80GTS,内置散热风扇。而Mate 80 Pro Max风驰版也将更新配置。 华为Mate 80系列 据悉,此前传闻中的Mate 80 GTS版本已正式定名为“青云”。根据爆料信息,该机或在后摄模组下方集成微型散热风扇,并设计有专门的风道结构。这将是Mate系列首次尝试引入主动散热方案。与目前主流的VC均热板被动散热相比,物理风扇能够更快速地带走芯片热量,理论上可有效缓解高性能场景下的降频问题。 在核心配置方面,Mate 80青云预计搭载麒麟9030 Pro芯片,采用9核心架构设计。在主动散热的加持下,该机的性能释放能力有望得到进一步提升,兼顾商务影像与重度游戏需求。 与此同时,Mate 80 Pro Max风驰版也将同期亮相。作为已发售的Mate 80 Pro Max的升级版本,该机预计在屏幕刷新率、触控响应或游戏调度策略上进行针对性优化。现款Pro Max已配备6.9英寸玲珑屏、6000mAh电池及100W有线快充,并支持天通卫星通信和第二代红枫影像系统,风驰版的推出意在进一步满足极客用户对操控体验的追求。 有消息称,这两款新机或将在3月23日的华为春季全场景新品发布会上发布。此外,华为还将发布畅享90系列。
工资太低,科技大厂60000多名员工“不干了”
编译 | 刘煜 编辑 | 陈骏达 智东西3月18日消息,今天下午,三星电子三大工会组成的联合斗争本部举行的总罢工投票以93.1%的赞成通过,员工将于5月21日开始举行为期18天的罢工,这可能影响三星位于韩国首尔以南平泽市大型半导体厂区近一半的产能。 去年11月,联合斗争本部组成共同谈判团,与资方就工资协商谈判了三个多月,但双方立场对立互不妥协,最终工会于2月19日宣布谈判破裂。 三星2025年第四季度利润创下历史新高,分析师预计其今年全年营业利润将增长逾三倍,突破200万亿韩元(约合人民币9263.13亿元)。 其业绩虽然突出,但收入分配不平衡加剧了员工的不满。 联合斗争本部代表崔承浩称:“芯片行业蓬勃发展,但收益并未惠及我们。这就是我们抗争的原因。” 据韩联社报道,崔承浩警告称,若举行为期18天的罢工,三星电子损失将至少达到5万亿韩元(约合人民币231.4亿元)。 去年9月,自存储芯片厂商SK海力士接受工会薪酬改革要求后,三星员工对与主要竞争对手薪资差距的不满也日益加剧,工会成员数在几周内大幅增长,目前三星在韩员工共12.5万人,其中约9万名工会成员具备罢工投票资格,66019人参与投票,投赞成票的为61456人。 联合斗争本部提出三大诉求:1、基本工资上调7%;2、取消“绩效奖金不超过年薪50%”的上限;3、设立以营业利润为基准的奖金池,替代现行被工会称为过时、不透明的核算标准。 联合斗争本部称,一名基本工资7600万韩元的三星芯片部门员工,2025年绩效奖金为3800万韩元,还不到同薪资水平SK海力士员工的三分之一。 崔承浩称,过去三个月里,已有超100位工会成员离开三星,跳槽至SK海力士等企业。SK海力士已批准取消奖金上限,并将营业利润的10%划入员工奖金池。 特斯拉也向三星员工递来了橄榄枝。今年2月,特斯拉首席执行官埃隆・马斯克(Elon Musk)公开呼吁韩国芯片行业员工应聘特斯拉,特斯拉此时正大力推进用于自动驾驶汽车与人形机器人的AI芯片业务。 马斯克公开呼吁图(图源:X) 这不是三星工会第一次举行罢工。早在2024年,继三星集团董事长李在镕于2020年承诺放弃“无工会”政策后,三星工会就举行了三星集团史上的首次罢工。 一位三星高管称,哪怕只发生一次罢工导致生产线停摆,也会损害客户对公司的信任,而且这种信任要花好几年才能挽回,罢工是非常敏感的一件事。 三星发言人称:“半导体业务利润随市场行情大幅波动,三星会均衡分配营业利润,用于未来投资、股东回报与员工薪酬。”公司将以诚恳态度继续与员工沟通协商。 3月初三星曾试图与员工达成2026年的薪资协议。三星在内部通知中称,已提出“史无前例”的薪酬方案:基本工资上调6.2%,存储芯片部门员工每实现100万亿韩元年度营业利润,可额外获得相当于100%基本工资的特别奖金。 韩国祥明大学工商管理教授徐志勇(Seo Ji-yong)称,:“若管理层固守旧念、无视工会诉求,劳资纠纷可能给三星的盈利势头泼冷水。”现代汽车等韩国大型工业集团拥有强大的工会,而三星集团长期以来没有工会风险,这导致三星的劳资关系管理经验与专业能力不足。 结语:三星劳资关系失衡,或将加剧存储芯片短缺 当前全球存储芯片产能本就紧张,三星作为三大存储芯片巨头之一,若出现大规模、长时间罢工,可能会进一步加剧存储芯片供应短缺。届时,不仅AI数据中心建设可能受到影响,包括汽车、电脑以及手机在内的终端产品也会存在涨价风险。 若三星存储芯片供应出现短暂失衡,其竞争对手在定价上可能获得更大话语权。目前行业内高薪挖角情况加剧,人才竞争也更加激烈。于三星而言,其自身存储芯片供应链稳定运营和人才保留压力或有可能将进一步上升。
联想发布拯救者Y700五代平板:搭载骁龙8至尊版跑分超453万 首发3999元起
凤凰网科技讯 3月18日,联想正式发布拯救者Y700五代AI平板,该产品搭载第五代高通骁龙8至尊版处理器,在安兔兔V11性能测试中跑分超过453万分。新品将于3月18日20时在联想官网及各大电商平台正式开售,日常价4299元起、首发3999元起。 这款8.8英寸的电竞平板配备了3K分辨率(3040*1904)屏幕,支持165Hz高刷新率与最高480Hz多指触控采样率。在核心配置方面,除最新的骁龙处理器外,设备还采用了最高10667Mbps的满血版LPDDR5T内存与UFS 4.1 Pro存储。为保障高负载运行,机身内置了面积达17353平方毫米的VC均热板,并应用乾坤散热3.0架构。续航方面,该平板搭载9000mAh电池,并支持68W超级闪充。 软件与AI功能是此次换代的重点,新机内置天禧个人超级智能体,并首发AI战场感知系统2.0。该系统包含多项游戏辅助功能,例如AI声纹猎手2.0可将脚步声识别幅度提升10dB并扩大索敌距离,AI像素狙神2.0则用于优化触控精度和拖动平滑度。此外,设备支持AI智能调度与网络加速功能,可在多任务处理和网络拥堵时优先保障游戏及直播的数据传输。 在应用生态及扩展性上,拯救者Y700五代通过动态虚拟容器技术与高性能转译引擎,支持在移动端运行部分PC平台游戏。硬件扩展方面,设备提供支持旁路充电的双Type-C接口,并同步推出了拯救者游戏手柄G9 2026、G3有线拉伸手柄以及平板街机底座等专属外设配件。
马斯克下场点赞!Kimi 这篇论文撬动了大模型的祖传地基
同样的算力,同样的数据,凭什么效果不一样?大多数人的直觉是:模型更大、数据更好、工程师更厉害。但 Kimi 给出了一个更出人意料的答案。 3 月 16 日,月之暗面 Kimi 发布了一项重磅技术报告《Attention Residuals》(注意力残差)。 这项技术针对几乎所有现代大模型都在使用的残差连接结构进行了改造,并在实验中证明,用同样多的算力,新方法训练出的模型效果相当于基线模型花费 1.25 倍算力才能达到的效果。 报告发布后,也毫无意外得到了许多硅谷顶尖 AI 人物的点赞背书。 ▲附 GitHub 开源地址:github.com/MoonshotAI/Attention-Residuals 比如马斯克通过社交媒体表示「「Impressive work from Kimi」(令人印象深刻的工作)」OpenAI o1 主要发明者 Jerry Tworek 称其为「深度学习 2.0」的开端。 前 OpenAI 联创 Andrej Karpathy 说「看来我们还没把『Attention is All You Need』这句话按字面意思理解透。」但比起这些夸奖,技术论文背后的信号或许更值得关注:深度学习最基础的范式,正在发生变化。 十年没人动过的地基,被撬动了 过去两年,大模型的竞争主要在「上层建筑」展开:更好的注意力变体、更聪明的 MoE 路由策略、更精巧的对齐方法,大家都在 Transformer 这栋大楼的高层精装修。 唯独有一样东西,从 2015 年 ResNet 论文发表以来,几乎没人动过:残差连接(Residual Connections)。 要理解这项技术,得先知道大模型内部的基本结构。 现代大模型,其实都是由很多层神经网络叠加而成的,少则几十层,多则上百层。信息从底部输入,一层一层往上传递,每一层都对信息做一次加工,最终在顶部输出结果。 可以把它想象成一条流水线上的工人:原材料从第一道工序进来,每个工人对它加工一遍,再传给下一个,最终出来成品。问题是,流水线越长,越难训练。 假设第 50 道工序的工人犯了错,你想纠正他,就得把这个「纠错信号」一路往回传,经过 49 个工人才能传到第 1 个。传着传着,信号就消失了,底层的工人根本不知道自己哪里出了问题。 为了让这么深的网络能够训练起来,知名学者何恺明团队在 2015 年发表了一篇题为《Deep Residual Learning for Image Recognition》的论文,引入了一个关键设计,叫做残差连接(Residual Connections): 每一层在加工信息的同时,还会保留一条「直通道」,把原始输入原封不动地加到加工结果上,再往下传。这条直通道让梯度在反向传播时可以绕过中间的变换,一路流回底层,从根本上解决了深层网络难以训练的问题。 比较通俗的理解是,在每道工序旁边加一条「直通道」,把原材料原封不动地绕过这道工序,直接和加工结果合并,再往下传。这样纠错信号就可以沿着直通道一路畅通无阻地传回底层,不会消失。 这篇论文后来成为计算机视觉乃至整个深度学习领域引用次数最多的论文之一,残差连接也沿用至今,是几乎所有大模型的基石。 残差连接虽然好用,但它做信息聚合的方式非常粗暴:把所有前面层的输出,无差别地等权相加。 还是用流水线来比喻。到了第 51 道工序,这个工人手里拿到的,是前面 50 道工序所有产出物的等量混合,每道工序的产出各占一份,不多不少。他没有办法说「我想多要一点第 3 道工序的原料」,也没有办法说「第 20 道工序的东西对我没用,少给我一点」。 这带来了一个名为 PreNorm 稀释的实际问题 :随着网络越来越深,累积叠加的信息越来越多,每一层自己的贡献在庞大的总量里越来越微不足道。越靠后的层,想要让自己的声音被「听见」,就得输出越来越大的数值,否则就会被淹没。 结果就是,很多中间层其实没在认真干活。已有研究发现,大模型里相当一部分层直接删掉,效果几乎不变,这说明这些层的贡献实际上极为有限。 大多数团队早就知道这个问题,选择绕开它,转而在在现有架构上叠加更好的数据配比、更精巧的训练策略、更长的上下文窗口。这些工作当然有价值,但本质上是在一个已有的技术框架内做增量优化。 Kimi 选择的是一条更孤独也更难的路:回到最基础的结构,用第一性原理重新审视那些「理所当然」的设计。 今天凌晨,Kimi 创始人杨植麟在 GTC 2026 演讲中提到:「行业目前普遍使用的很多技术标准,本质上是八九年前的产物,正逐渐成为 Scaling 的瓶颈。」 杨植麟认为,要推动大模型智能上限的持续突破,必须对优化器、注意力机制及残差连接等底层基石进行重构。 一次优雅的「旋转」 Kimi 团队这篇论文的核心突破,其实也来自一个优雅的类比发现。 处理文字序列时,早期的循环神经网络(RNN)也有类似的额外问题:记性差。它读完一整段话之后,早期读到的内容会被后来的内容不断覆盖,等读到最后一个词,前几句说了什么已经模糊了。 后来 Transformer 用注意力机制解决了这个问题,相当于给模型配了一张「全文笔记」,处理每个词的时候,都可以翻回去查任意一个之前出现过的词,而且查哪里、查多少,由当前的内容自己决定。 研究人员发现,残差连接在深度方向上碰到的问题,和 RNN 在时间方向上碰到的问题,数学结构完全一样。换句话说,把 Transformer 想象成一张二维的网格: 横轴是序列方向,一句话里从左到右的每个词;纵轴是深度方向,从底层到顶层的每一层网络。传统的注意力机制是沿着横轴工作的,处理某个词时去查同一层里其他词的信息。 而 Attention Residuals 做的事情,就是把完全相同的机制转到纵轴上去,处理某一层时去查前面所有层的输出,决定要参考哪些层、参考多少。操作对象从「同一层里的不同词」变成了「同一个词在不同层里的状态」,机制本身一模一样,好比方向转了 90 度。 既然注意力机制解决了序列方向的问题,旋转一下搬到深度方向上,同样有效。 这里有一个更深层的理论发现值得一提。研究人员通过数学分析发现,过去十年里所有对残差连接的改进,包括标准残差、Highway 网络、mHC 等各种变体,在数学上其实都是同一件事的不同形式,都等价于某种「深度方向的线性注意力」。换句话说,大家一直在朝同一个方向努力,只是当时没意识到。 而 AttnRes 的核心思路在于,把注意力机制从「处理文字序列」的维度,移植到「跨越网络深度」的维度上。 具体做法是,给每一层配备一个小小的「查询向量」,就像给每道工序的工人配了一张需求单。工人在开工前,先拿着需求单去翻所有前面工序的产出,根据相关度算出一套取用比例,再按这个比例把需要的原料混合起来。 这样一来,每一层不再是被动接受所有前面层输出的等权叠加,而是主动、有选择性地决定要从哪些层提取多少信息,比例还会根据当前任务的内容动态变化。每层只新增一个向量和一个归一化操作,参数量的增加对整个模型来说几乎可以忽略不计。 为了保证训练初期稳定,这个查询向量必须初始化为全零,相当于让工人一开始什么偏好都没有、平等对待所有前序产出,等训练推进了再慢慢形成自己的判断。 值得一提的是,研究人员也测试过一个更激进的版本:让查询向量不再是固定参数,而是根据每一层当前的输入内容动态生成。这个版本效果确实更好,损失值进一步下降。 但最终没有采用,原因是推理时这种方式需要顺序读取内存,会增加延迟。这个取舍体现了贯穿整篇论文的工程哲学,理论上更优的方案,不一定是实用上应该选的方案。 大模型的新技术,最后都得过这一关 全量 AttnRes 在小规模实验中很好用,但一到大规模训练就遇到了麻烦。 它需要每一层都能访问所有前面层的输出。模型有一百多层,每层的输出都得保存在内存里,还要在不同计算节点之间来回传输,内存和通信开销随层数线性增长,在大模型上根本承受不起。 Kimi 团队的解法很实在:Block AttnRes。把网络所有层划分为若干个 Block(48B 模型中分了 8-9 个 Block,每个 Block 约 6 层),Block 内部沿用传统残差连接,Block 之间使用 softmax 注意力。打个比方——不必给每层楼都装电梯,在关键楼层之间架设快速通道就够了。 这样,需要保存和传输的数据量,从「所有层的数量」降低到「块的数量」,开销大幅缩小。实验发现,分成约 8 个块就能保留全量方法绝大部分的性能提升。 在具体的工程实现上,团队还做了两项优化。 训练端设计了跨阶段缓存机制,在流水线并行训练中每次切换阶段时只传输新增的那一小部分块数据,而不是每次都把全部历史重新传一遍,实测整体训练额外开销不超过 4%。 推理端设计了两阶段计算策略,把一个块内所有层的查询打包成一次矩阵运算统一处理,把重复的内存访问摊销掉,最终推理延迟增加不超过 2%。 那实验效果怎么样呢?研究人员测了五个不同规模的模型。 结果显示,Block AttnRes 在全部规模上均以更低的验证损失领先于基线,且改善幅度随规模增大而稳定保持。按拟合曲线推算,在相同的计算量下,Block AttnRes 相当于基线模型用 1.25 倍算力才能达到的效果。 在 48B 参数(3B 激活)规模的 Kimi Linear 架构实验中,Block AttnRes 展现了极强的泛化性:在全部 15 项主流评测基准中,其表现均持平或优于 PreNorm 基线模型。 例如,在博士级科学推理 GPQA-Diamond 上实现了 7.5% 的飞跃,在数学 Math (+3.6%) 及代码生成 HumanEval (+3.1%) 任务中也录得了显著增益 。 从训练过程来看,基线模型的各层输出数值随深度单调增大,印证了 PreNorm 稀释问题;而 AttnRes 的各层输出数值在块边界处得到重置,呈现周期性变化,各层梯度分布也更加均匀,说明更多的层真正参与到了有效的学习中。 此外,研究人员还可视化了训练后模型学到的注意力权重,发现了几个有趣的规律。 每一层仍然最依赖直接前一层的输出,局部性依然是主要的信息流通方式。但同时出现了一些跳跃性的连接,比如某些层会稳定地回溯到很早期的层,还有些层会特别关注最初的词嵌入输出。 另一个规律是,注意力层和 MLP 层的「回望」模式不同:注意力层倾向于关注更广泛的历史,MLP 层则更依赖近邻层。这与两者在模型中的功能分工是吻合的。 AttnRes还带来了一个对未来模型设计有参考价值的发现。研究人员在固定总计算量和参数量的前提下,枚举了 25 种不同的深度与宽度组合,对比基线模型和 AttnRes 各自偏好的最优架构。 结果发现,标准残差连接偏好「更宽、层数更少」的模型,而 AttnRes 的最优点偏向「更窄、层数更多」的模型。这说明 AttnRes 能够更有效地利用深度,让每增加一层都真正产生价值,而不是让深度变成一种边际效益递减的堆砌。 这个发现的含义不止于此。它意味着 AttnRes 不只是在原有架构上打了一个补丁,而是从根本上改变了网络深度的利用效率,也为未来设计大模型时如何分配深度与宽度的资源提供了新的参考依据。 杨植麟曾提到,十年前不是没有好想法,而是没有算力去验证。现在有了足够的资源和「缩放阶梯(Scaling Ladder)」,那些被搁置的问题才终于能被认真答一遍。 大佬点赞的背后,是一个时代在转弯 一个中国团队在最底层的架构创新上获得硅谷顶级人物的实质性认可,这件事本身十分罕见,他们认可的不只是论文成果本身,更在于Kimi 这篇论文指向了一个全新的方向:优化已经从 attention、MoE 这些上层模块,深入到了最底层的残差连接。 在 GTC 2026 演讲中,杨植麟还披露了一连串底层技术创新:MuonClip 优化器实现了相比 AdamW 2 倍的计算效率提升——要知道 Adam 优化器自 2014 年以来几乎未被撼动,属于深度学习的「不可触碰之物」;Kimi Linear(KDA 架构)在 128K 到百万级超长上下文下实现 5-6 倍的解码加速;Vision RL 的跨模态训练甚至让纯文本 benchmark 也提升了约 2.1%。 杨植麟把这些创新概括为三个维度的 Scaling 框架:Token 效率 × 长上下文 × Agent Swarms。 「当前的 Scaling 已经不再是单纯的资源堆砌,而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。」 一家公司,同时在优化器、残差连接、注意力架构、跨模态训练这些底层战场上全线推进,这种打法在行业里相当特立独行。 这也是为什么 Jerry Tworek 会说出「深度学习 2.0」这样的判断。当然不是说 Attention Residuals 这篇论文就能颠覆一切,更多是它代表了一种方法论的回归:不再满足于在已有框架上修修补补,去重新审视那些被所有人当作「已解决问题」的基础设施。 如果残差连接可以被重新设计,那么 Adam 优化器呢?层归一化呢?位置编码呢?深度学习的基础范式本身正在发生变化,这扇门一旦推开,后面的故事就不再是线性外推能预测的了。 Karpathy 那句「Attention is All You Need 还没被理解透」的感慨,大概也是这个意思。 过去几年,中国 AI 团队的贡献更多集中在工程落地和应用创新上,在底层架构理论方面的原创性突破相对稀缺。Kimi 这篇论文走的是一条完全不同的路线——一个统一的理论框架,一个优雅的工程实现,加上严谨的大规模实验验证。 当然,Kimi 这篇论文还有留下不少需要解决的问题。论文的大规模验证是在 48B 总参数(3B 激活参数)的模型上完成的,这个规模放在今天的第一梯队里并不算大。在真正的千亿乃至万亿参数模型上,1.25 倍的等效优势能否稳住,目前还是个问号。 同时论文展示的也只是预训练阶段的收益,经过指令微调、RLHF 等后训练步骤后,AttnRes 的优势是否会被稀释,缺乏数据。 但话说回来,这些局限恰恰也是想象力的来源。一个仅需约 100 行代码改动、增加不到 4% 训练开销的轻量修改,就能在 48B 规模上带来这样的提升。 当它被应用到更大规模的下一代模型上时,收益的天花板在哪里,谁也说不准。 Attention Residuals 抬高了 Token 效率的天花板,Kimi Linear 拓展了长上下文的边界,Agent Swarms 指向智能体协作的未来。当这三条技术线在下一代模型中汇合,呈现出的可能就是新的范式转变。 在 AI 这座通天塔的工程上,所有人都在争着往上添砖加瓦,而 Kimi 低头往路基重重地凿了一锹,恰好撬动了深度学习的地基。 作者:莫崇宇,李超凡
Take-Two CEO泽尔尼克:无法想象拥有主机的成年人会不想玩《GTA 6》
IT之家 3 月 18 日消息,在最近一次采访中,Take-Two 首席执行官施特劳斯 · 泽尔尼克(Strauss Zelnick)表示,他对《侠盗猎车手 6》(《GTA 6》)抱有绝对信心,并不担心系列新玩家不愿接触这款游戏。事实上,他称自己想不出任何理由一名拥有主机的成年玩家不去购买 Rockstar 这款即将推出的新作。 “我认为会有大量 17 岁的玩家去玩 《GTA 6》,”泽尔尼克接受 The Game Business 采访时表示,“我不担心他们会说‘我没玩过 GTA 5、4、3、2、1,所以我不玩 《GTA 6》’。恰恰相反,我相信我们能吸引到每一位适合的玩家。” 据IT之家了解,《GTA 6》 几乎肯定会被 ESRB 评为 M 级(成熟级,17 岁以上),因此 17 岁及以上群体是 Take-Two 的目标人群。泽尔尼克称,这款游戏在抢占市场方面不会有任何问题。他甚至无法想象,一名拥有主机的成年人会不想玩 《GTA 6》。 “顺便说一句,”泽尔尼克直视摄像头说道,“如果你有主机,且年满 17 岁,那你倒是说说,你怎么会决定‘不,我不玩 《GTA 6》,我没兴趣’?” 至于有观点认为玩家年龄增长后,会因工作、家庭和其他责任而减少游戏时间,泽尔尼克表示这种情况根本不会发生。 “这不会发生,”他断言,“我们会一直热爱 17 岁时爱上的娱乐方式。想想看,如果我问你‘你喜欢什么音乐?’,你会和所有人一样说‘我什么都听’。但顺便说一句,这根本不是真的。可如果我告诉你‘你独自一人,有一小时时间,只想好好放松、享受音乐’,你最终听的,还是你 17 岁时听的那些歌。” 泽尔尼克并未引用具体研究,但确信 《GTA 6》 会在青少年和成年人中双双大获成功。他称,随着成年玩家年龄增长仍继续玩游戏,同时年轻玩家首次接触电子游戏,Take-Two 的受众(以及营收)只会不断扩大。 “如果你 17 岁爱上电子游戏,到了 40 岁,猜猜你还在做什么?”他继续说道,“还在玩电子游戏。这就是为什么游戏玩家群体随着我们年龄增长仍在不断扩大。我知道游戏投资顾问马修 · 鲍尔(Matthew Ball)不这么认为,但在 Take-Two,我们的经验是,我们正受益于行业的这一趋势。” 不过泽尔尼克也承认,这种持续增长取决于 《GTA 6》 能否获得好评。 “当然,只有我们做出真正优秀的作品,才能从中获益。”他说。 泽尔尼克还谈到了 Take-Two 在游戏中对人工智能(AI)的应用,称 AI 仅用于提升效率,永远无法替代人类的工作,像 《GTA 6》 这样的游戏根本不可能由 AI 制作出来。 “这个想法很可笑,”他评价道,“在娱乐行业从来都是如此。当然,有些娱乐行业在技术上没有互动娱乐那么复杂,比如音乐。现在有些程序可以让你输入提示词,就生成一首‘专业录制’的歌曲。它听起来像首歌,但我敢打赌你不会想听第二遍。” 《GTA 6》 最初计划于 2025 年秋季发售,后推迟至 2026 年 5 月 26 日,目前定档于 2026 年 11 月 19 日。在 SAG-AFTRA 电子游戏演员罢工期间,Take-Two Interactive 是 IMA 谈判委员会代表的众多游戏发行商之一。此次罢工中,演员们争取更好的工作条件,其中包括对 AI 应用的相关保护。
科技大厂,11000人没工作了
编译 | 刘煜 编辑 | 陈骏达 智东西3月17日报道,根据戴尔今天向美国监管部门提交的最新文件,在截至今年1月底的2026财年内,戴尔共计裁减员工约11000人,目前员工总数约为9.7万人,较上年同期约10.8万人的总规模减少约10%。同期,戴尔裁员所产生的遣散费用支出达5.69亿美元(约合人民币39.18亿元)。 戴尔提交的文件图(图源:SEC) 戴尔已经至少连续三年进行规模在10%左右的裁员。2023年初时,戴尔的员工总数约为133000人,到2024年初时这一数字降为120000人,到2025年1月底时这一数字为108000人。 戴尔近3年员工数量图(图源:SEC) 同期,戴尔总计支付了13.41亿美元(约合人民币92.32亿元)的遣散费。 戴尔3年裁员的遣散费图(图源:SEC) 裁员的同时,戴尔正把更多资源集中到AI服务器等高收益业务上,这些业务带动了其营收的快速增长。 今年2月,戴尔发布了2026财年全年业绩。这是戴尔史上业绩最好的一年。其全年营收达到1135亿美元(约合人民币7816.4亿元),同比增长19%。全年运营现金流创也历史新高,为112亿美元(约合人民币771.31亿元)。 财报中,戴尔预计其2027财年AI服务器业务收入将增长103%,达到约500亿美元(约合人民币3443.75亿元),将向股东返还更多现金。同时,戴尔宣布将现金股息上调20%,并额外追加100亿美元(约合人民币688.74亿元)股票回购计划。 伦敦证券交易所(LSEG)汇总的数据显示,戴尔预计全年营收将达到1380亿(约合人民币9504.88亿元)至1420亿美元(约合人民币9780.39亿元),这高于分析师平均预期的1255.4亿美元(约合人民币8646.44亿元)。 进行大规模裁员的科技企业不止戴尔一家。据追踪科技行业裁员信息的网站Layoffs.fyi统计,今年已有60家科技企业裁员超38000人。路透社称,上周Meta正计划大规模裁员,受影响员工比例或达到20%及以上。 结语:AI加速渗透千行百业,科技企业调整人员结构 当前全球PC市场长期需求放缓,叠加内存芯片成本上涨影响了个人消费电子设备的市场需求,戴尔将资源投向AI优化服务器业务,紧跟市场的AI发展战略主线,两次大规模缩减员工或是其顺应行业趋势的举措。 不止如此,随着AI不断深入千行百业,科技企业纷纷进入转型调整阶段。大幅裁员虽然对企业重组与优化经营有明显帮助,但受AI浪潮影响,大量基层岗位被收缩,许多员工面临工作变动,短时间内团队士气也许同样会受到打击。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。