EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
苹果iPhone 17 Air机模上手 厚度仅约5.5mm
苹果公司计划在今年推出一款全新的超薄iPhone,命名为“iPhone 17 Air”,并将与iPhone 17、iPhone 17 Pro和iPhone 17 Pro Max同期亮相。今年全新推出的iPhone 17 Air机型将会取代Plus系列,该机型主打超薄机身,厚度仅为5.5毫米,成为苹果史上最薄的iPhone机型。相比之下,iPhone 17 Pro系列厚度约为8.725毫米,差异显著。 Unbox Therapy的Lewis Hilsenteger在近期视频中展示了最新的模型,直观呈现了这款超薄机型的极致轻薄。他坦言,这种设计让人不禁担忧其是否会因机身过薄而弯曲。回顾2014年,iPhone 6 Plus曾因“弯曲门”事件而引发争议,当时部分用户发现手机在口袋中容易发生弯曲变形。为了避免历史重演,有消息称苹果将为iPhone 17 Air配备钛铝合金机身,增强结构强度。 为了进一步降低机身弯曲的风险,有消息称苹果在设计中调整了显示屏的尺寸,原本计划采用6.9英寸屏幕,与iPhone 17 Pro Max看齐,但iPhone 17 Air最终定为6.6英寸。此外,这款超薄款手机的屏幕也将升级为高刷屏,这将会是苹果历史上首次为Pro版本以外的手机引入高刷,日常体验大大提升。 极致轻薄的机身也对电池空间构成了挑战,为确保续航能力与现有iPhone相当,苹果不仅去掉了一些额外相机镜头以此来腾出空间,还将搭载自研的高效C1调制解调器,并通过软件优化提升能效。
这届上海车展,没人靠流量活着
2025上海车展 四月的国家会展中心,上海车展准时开幕。 这场被誉为全球最大车展的盛会在今年却显得格外“清醒”:地铁广告少了、展馆外的广告位未满,往年网红扎堆的“非主流热闹”也悄然退场。 展厅里,车回到了舞台中央。没有车模当主角,没有往日维权潮,没有大V直播凹造型,更多的是车企设计师、工程师、研发负责人亲自上阵解读产品,展台前围着的不是好奇群众,而是一群拿着麦克风、抱着笔记本、眼里全是数据的汽车媒体人。 当然,车展上的营销造势依然有声有色:陈道明空降赛力斯展台,黄渤见到新款问界M9直呼“买早了”;凯迪拉克代言人樊振东一身纯白西装亮相,观众却挤满了对面的奥迪展台;明星车主杜江“偶遇”猛士发布会,姚安娜站台阿维塔,这一幕幕明星与汽车的交叉叙事,把车展变成了话题秀场,也点燃了另一种热度。 大佬们之间的互动同样热络而有序:宁德时代曾毓群亲赴理想展台,奇瑞董事长尹同跃为搜狐张朝阳现场交车,宝马集团董事长齐普策与魏建军在长城展台亲切交流……产业链上下游的对话、跨界与合作的暗涌,都在展台之间悄然发生, 据统计,本届车展共发布新车超过120款,焕新升级的车型多达600余款,参展阵容覆盖新能源新势力、传统车企乃至全球供应链企业,几乎囊括了整个汽车生态圈。这不仅是一场比拼产品力与体系力的集中大考,更是一场关于技术标准与未来话语权的全球级重构。 展台上,吉利谈安全,乐道讲空间,问界高举智驾大旗,零跑聚焦红海求生,长城秀出V8引擎新物种,保时捷更是在展台写下“无可替代”,带来了历代经典911,过去与未来交错发光。 站在这场车展的节点上,我们看到的不仅是谁在发布新车,更是谁在重新定义未来。 钛媒体App通过与奔驰、日产、本田、大众、上汽、蔚来等主流车企高管之间的交流,总结出了下面这四个趋势,或许正构成2025年中国汽车行业新的底色。 合资品牌集体反击,开打“翻身仗” 在过去几年,自主品牌与新势力进攻如潮,合资品牌显得步伐沉重。但今年车展,一批看似老练沉稳的合资选手却悄然出招,带来了更具本地理解、更具前瞻布局的新打法。 别克高调发布全新高端新能源子品牌“至境”,并以“逍遥”超级融合架构一口气规划6款新能源车,不再是“油改电”的疲态,而是从架构到定位的彻底重构。上汽通用汽车总经理卢晓直言,“这些举动承载了上汽通用在未来转型时期的所有决心,别克‘至境’将在5月到9月推出多款核心产品。” 上汽通用汽车泛亚汽车技术中心执行副总经理曾瑜(右)与上汽通用汽车总经理卢晓(右) 丰田与华为合作的铂智7亮相,这款采用鸿蒙座舱的D级轿车,不仅配置激光雷达和融合感知系统,更搭载了适用于城市和高速场景的辅助驾驶方案,它展现了丰田“在中国、为中国”的彻底转向。 凯迪拉克VISTIQ不仅应用激光雷达和Momenta智驾方案,采用一段式端到端大模型,也在设计上首创“舱内隐藏雷达”,一举打破了合资不敢用高阶智能化的印象。 一句话总结:曾经口口声声“慢就是稳”的合资车们,终于按下了加速键。 就连曾经坚持多年不在中国生产的日系豪华品牌雷克萨斯,如今也转变思路开启“国产”之路。 就在车展前一天,上海市政府与丰田汽车公司正式签署战略合作协议,丰田汽车独资设立的雷克萨斯纯电动汽车及电池研发生产公司正式落地上海市金山区,预计2027年将开始投产。这意味着国产雷克萨斯终于来了,告别了长期以来依赖进口的局面。 日产这次则带来了N7和Frontier Pro PHEV两款新车的首发亮相,日产中国管理委员会主席、东风汽车有限公司总裁马智欣也向钛媒体App透露,“到2027年夏季,我们将投放市场的新能源车型的数量,从原本的8款提升到10款,并计划投入100亿元用于新能源研发。” 日产中国管理委员会主席、东风汽车有限公司总裁马智欣 但也并不是所有合资品牌都坚定新能源转型,一汽奥迪在上海车展亮相的奥迪A5L,曾被官方宣布将成为奥迪燃油车的绝唱,但不久之后又表示未来将持续推出燃油车。 奥迪对燃油车态度的反复变化,也透视出合资品牌的纠结和犹豫。一方面燃油车型当下仍然能带来可观的利润,所以谁都不敢为其画上句号,但另一方面新能源转型的趋势已然不可逆转,它也派出了AUDI首款量产车型E5 Sportback这样的实力选手出战。 这一轮集体反攻,既是补课,更是重建信任的开始,合资品牌打算用第二曲线姿态开启新局。 一种很彻底的本土化 如果说过去外资车企在中国的布局是“制造在中国、销售给中国”,那么2025年上海车展后,我们看到的已是定义在中国、服务全球的深度转型。 “我们不再把中国看作海外市场,而是宝马的‘第二本土市场’。”宝马集团董事长齐普策直言,宝马本次将新世代智能超感座舱的全球首发地选在中国,背后正是宝马在中国建立第二总部的战略逻辑。 奔驰亦同步推进类似战略。在车展期间,奔驰董事会成员薛夫铭宣布:“我们将加速中国本土研发与本土生产,尤其是零部件的深度本地化。”全新纯电长轴CLA不仅在上海全球首发,还首次搭载梅赛德斯自研MB.OS架构,核心开发工作由中国研发团队主导完成。 梅赛德斯-奔驰集团股份公司董事会成员及首席技术官薛夫铭(Markus Schäfer) 奔驰中国研发负责人庄睦德向钛媒体App坦言:“我们的导航辅助驾驶系统,从立项到落地仅用了12个月,这种速度只有在中国才能实现。” 据悉,在未来的战略调整中,奔驰总部将进一步强化中国研发中心的角色,在资金、技术、人才等方面持续加大投入,并逐步把核心功能的“放行权”下放给中国本地的管理层,这意味着中国研发团队将拥有从产品定义、技术验证到最终功能上线的全流程决策权。 本田同样展现出战略重塑的决心。本田技研中国本部长五十岚雅行对钛媒体App表示:“如果想在中国市场生存,就必须与本地企业深度协作,以中国速度、推出中国用户喜欢的产品。”目前本田已在广州建立完整研发体系,并与Momenta开展深度合作,打造融合本田品牌调性的智能驾驶系统 。 本田技研工业株式会社 执行役常务 中国本部长五十岚 雅行 (Igarashi Masayuki) 日系品牌的另一位选手日产,也在车展期间发布全新战略:在2027年前推出10款新能源车,其中9款将在中国设计、研发、制造,并向全球市场出口。“我们把产品研发周期从36个月压缩到24个月以内。”日产中国董事长马智欣强调,“这是基于中国研发团队的充分授权与信任。” 宝马、奔驰、本田、丰田、日产……几乎所有外资主流品牌,都在2025年车展明确提出“由中国主导定义产品”的战略方向。这些布局的背后,是外资车企对中国速度的深刻认知,而这些变化也说明,外资品牌已不再执念于全球统一标准,而是走向一个“从中国出发,反哺全球”的新逻辑。 正如李斌在与钛媒体App交流时所说:“未来全球汽车市场,中国一定会占据40%以上的份额,而这不是因为中国卖得多,而是因为我们造得好、定义得好。” 中国供应链迈向“品牌输出” 不仅是整车厂,零部件巨头也在改变角色。你会发现,如果在中国造车,你所需要的芯片、雷达、电驱、电池、域控制器、空气悬架……任何一个零件都能找到成熟的国产替代。 本届车展,首次设立10万平方米的汽车科技及供应链专区,比亚迪、地平线、商汤绝影、小马智行、芯驰科技等供应链企业的展台热度不输整车厂,这些名字,正从“隐形冠军”走向“显性品牌”。 就连展位的布局也极为巧妙,丰田旁边是Momenta,亿纬锂能挨着小鹏汽车,地平线在大众品牌附近,这或许不是一次偶然,因为主机厂与供应商并非泾渭分明,而是彼此嵌套、深度耦合。 从具体业务来看,Momenta的辅助驾驶系统不仅提供给上汽、比亚迪,也同时应用在奥迪、本田、丰田的新车型上;小鹏的纯视觉智驾被上汽大众ID. EVO概念车采用;而地平线更在车展前夕发布L2城区NOA系统HSD,成为国内首个自研软硬一体、可量产落地的城区辅助驾驶系统;商汤绝影也基于地平线J6M芯片打造了一套低算力成本的用于城区辅助驾驶的量产方案。 智能驾驶日益成为汽车行业竞争核心的背景下,全球零部件巨头也开始加速本地化适配,在这样的趋势下,博世中国董事长马库斯·海恩也认为:“辅助驾驶的发展已从技术驱动走向法规驱动,而博世必须融入中国法规、适配中国节奏。” 博世集团董事会成员、博世智能出行集团主席马库斯.海恩博士 与此同时,中国汽车供应链的技术自主化与规模化,所带来的降本优势也逐渐传递到了车端。比如激光雷达厂商禾赛科技的激光雷达成本在8年内降低99.5%,从20万元降至200美元,其“千厘眼C”方案被比亚迪、奇瑞等11家车企采用,累计交付超5万台。 可见,中国汽车供应链企业的“反向输出”,已经从单一技术供给走向多维度的深度绑定,最直观的体现,是中国供应链正在以更主动、更深度的方式嵌入全球产业核心。 小鹏携手大众,让国产智驾首次写入国际巨头的技术架构;比亚迪三电反哺丰田,重塑日系品牌的电动内核;吉利的SEA浩瀚架构更成为沃尔沃、极星等全球品牌的电动化技术底座;地平线牵手博世,在智能驾驶领域实现中外Tier 1的首次正面联手。 从技术输入到技术共建,从本土依附到体系输出,中国汽车供应链已从幕后走到台前。 新时代的定义权,已悄然易手 过去,标准往往由海外巨头制定,而如今,从感知到控制,从架构到体验,中国车企不仅在产业链底层站稳脚跟,更在用户认知顶层建立起了话语体系,中国已经悄然掌握了“定义权”的主动。 以驾驶辅助系统为例,在中国已不再是空中楼阁,而是变成一套成体系、可落地的技术系统。 华为发布乾崑ADS 4系统、小鹏将720亿参数的“世界基座模型”搬到车端、比亚迪不断进化“天神之眼”、吉利千里浩瀚智驾的大规模普及,这些都是中国智能驾驶技术集体跃迁的缩影。 更系统性的是操作系统与大模型生态的构建:广汽发布“星灵AI”,强调生成式AI驱动的场景体验;东风推出“天元智能”整合车云协同;长安打造“北斗天枢”平台,构建软硬一体的电子电气架构。 正如地平线创始人余凯所言:“智能座舱带来情绪价值,智能驾驶则是功能价值。” 定义权的易手不仅发生在智能化领域,更体现在整车技术路径的重新排序上。 曾被视为权宜之计的增程技术,被理想以一己之力拉入主流视野,在本届车展上,问界M8、深蓝S09、阿维塔06、猛士M817等一众车型集体发力,证明了增程的市场接受度与技术进化空间。 智己汽车联席CEO刘涛在交流中也向钛媒体App透露,“去年新能源市场整体增长大约40%,但增程品类却增长了100%,这个市场是毫无疑问地非常重要,且增长趋势会持续一段时间。” 接下来,增程产品已经列入智己的重点攻坚任务,今年下半年会推出两款全新增程车型。 更重要的是,增程技术本身也在演化。从低热效、简单串联的过渡方案,变为具备电控逻辑优化、可变速比发电、NVH优化等技术深度的动力系统。增程不再只是电车的拐杖,而是当下的技术的最优解之一,成为了城市通勤与中长途场景的最佳方案。 以至于很多合资品牌都开始确定性地研究这事,大众集团CEO施文韬在车展上也表示:“增程技术并非过渡,而是长期存在的解决方案,在特定车型与市场上具备极高的适配性。” 换言之,智能电动车的未来,并非只有纯电一条路。技术路径的多元化,让我们看到一个新的行业事实——智能汽车的标准,已经在中国被写下。 结语 2025年上海车展是一场分水岭式的存在。它没有喧嚣与虚火,却清晰地展现了行业价值观的转变。 我们看到,外资品牌不再端坐高台,而是卷起袖子,在中国“重启”;智能化不再是资本故事,而是千万辆级别的技术平权;技术路线不再非此即彼,而是源于场景、基于现实的多路径共生。 隐藏在新车和技术背后的,还有车企态度、逻辑与信仰的进化。 在这个新能源智能化的时代大潮中,中国车企不再追随,而是在产品定义、技术标准、供应体系、用户洞察等多个维度上,进行着一场由中国创新驱动的汽车产业系统性跃迁。 所以,请别再以“低价”、“堆料”、“激进”去粗暴定义中国汽车。 它的底色是制造,它的引擎是科技,它的灵魂是用户,它的目标,是全球。 它不等风来,它自己造风。 (本文首发于钛媒体App,作者|李玉鹏
火急火燎赶到中国,不穿皮衣穿西装的老黄,这次是真急了
这个世界太疯狂,无皮衣老黄,穿上黑西装,skrskr。 你要问老黄这次咋这么端着,差评君估摸着老黄也是心里苦,以前穿皮衣是为了个性,是和老婆的甜蜜故事。 可这次,光靠个性和故事,可能玩不转了,不得不请出西装,镇镇场子,聊点正事了。 没其他的,就因为前两天,H20芯片被美国政府限制对中国出售了。 以后想往中国卖货,还得获得老美相关政府部门的许可,根据以往的经验,你猜他们许可不许可呢? 说实话,从A100、A800到H100、H800,加上中间的各种打补丁,我都已经数不清,这是美国第几次对中国禁售芯片了。 这次禁售的H20,其实就是之前不断加码下搞出的,中国专属全新特供版。 既然是中国特供的,也就意味着,海外的其他客户可不买单。 所以据英伟达估计,H20被ban了后,之前采购的材料报废了,没能按约定交付产品需要赔客户钱,再加上运营成本,总共亏损要超过400亿人民币(这本是一笔超过1200亿人民币的生意)。 同时,英伟达股票应声下跌7%。 对英伟达来说,这次禁售真的属于是万万想不到。 虽然关于特朗普想把H20也给禁掉的传闻,已经有段时间了。 但在月初,老黄受邀去了趟海湖庄园,参加了一场“人均捐款一百万美元”的慈善晚宴。 根据金融时报等多个媒体报道,在这次晚宴上,老黄和特朗普觥筹交错、推杯换盏,给他吃了颗大的蜜枣: 英伟达将给美国的AI数据中心一笔5000亿的投资,以换取特朗普和美国政府,对H20芯片网开一面。 现场的特朗普大为感动,就差没和英伟达拉钩上吊一百年不许变了。 这么看起来,H20禁售风波应该就这么过去了。 至少,老黄和英伟达是这么认为的。 所以,据外媒报道,英伟达前几天就给阿里、字节、腾讯们打过招呼:大家不用担心,之前买的H20包准时交付的。 结果,当英伟达前一天刚官宣5000亿美元的投资承诺,第二天,他们就收到了H20禁令的通知。。。 关键的是,真要说起来,H20根本不是现在什么顶尖芯片,甚至可以说差的不是一星半点。 H20的算力,比起H100(外界认为的满血版H20)来说,差不多只有五分之一的功力,相比于国产的华为昇腾910b,性能也只有60%。 所以,就H20这惨兮兮的算力数据,在刚推出的时候,实在是上不了台面。 去年一季度开售时,一台H20八卡服务器的原始售价高达140万元人民币,再加上市面上还可以买到不少库存老卡。 所以,这种极低的性价比导致H20基本没人买。 只有那几个不差钱的大公司买过,当时网传阿里大批量订购了,现在想想阿里还真有点东西。 到了年中的时候,一度传出了H20要降价的消息。。。 但搞的是,自从deepseek在春节期间爆火,大模型的风向掉头了,从之前的卷训练转去卷推理了。 这一下H20就支棱了啊,虽然它的算力不咋滴,但在推理性能上可有着越级的表现。 根据广发电子团队的测试,它的推理性能超过了A100、H100,仅次于最强AI芯片H200。 而且因为由于带宽并未在此前的美国禁令限制范围内,于是,H20拥有了900GB/s的NVlink带宽,已经是仅次于H200的宗门大拿了。 再加上老黄家独有的NVlink架构(H20可以通过多卡使用、多卡堆叠模式。超越昇腾910B,甚至突破H100),给与了H20独特的优势: 从计算精度上看,在FP8精度下,H20的算力表现比A100和RTX4090都好。 虽然对高精度训练场景可能还不大够用,但在低精度计算场景中的推理和混合精度训练上,已经能有不错的表现了。 更关键的是,H20基本可以算是国内的AI大厂们,能大量正常购买到的最强AI推理芯片了。 再加上价格相对便宜、货源充足。这么看下来,也只有H20能更好地进行大规模集群训练和推理任务。 于是,在春节后,H20 的价格就一路飙升,3月的时候,8卡H20机器都涨了10万,甚至有从业者预计“价格应该不会下来了”。 但正在这个卖的火热的时候,美国突然伸手“给老黄紧了紧皮衣领口”。。。 老黄当然就得急了,这次不光是55亿美元的成本得硬亏,后续全年估计也得少卖个100多亿的营收。 更关键的是,中国市场这么大,自己拿不下,可别的厂商不会放过这个机会。 而且吧,从特朗普就职晚宴不去,反而来中国参加公司年会,大家也能看出老黄和英伟达对中国市场以及中国供应链的重视。 所以啊,老黄马不停蹄地来国内示好:我们将继续不遗余力优化符合监管要求的产品体系,坚定不移地服务中国市场。 说实话,特朗普这次出尔反尔有点过了,这样搞,以后哪个企业敢信你,狼来多了,真来的时候可就没人出手了。 对于老黄来说,眼下当务之急,肯定是赶快在新的禁令底下,再搞个替代品出来,但说实话,一步步加码之下,又能阉割几次呢? 恐怕还得想点新办法哦。 而且,就从H20的发展故事我们也看得出来,在AI这条赛道上,你永远不知道机会是从哪儿冒出来的。 如果一个劲地限制这限制那儿,恐怕最终就落了个啥也没管住,还束缚了自家人发展的地步。 最后,还有个有意思的事:这个看起来是针对英伟达的政策,结果一不小心把隔壁AMD也恶心的够呛,他们的MI308也被禁售了,最后股票也跌了6%。。。
微软推动AI互操作性,发布两大MCP服务器
IT之家 4 月 19 日消息,科技媒体 WinBuzzer 昨日(4 月 18 日)发布博文,报道称微软在人工智能与云数据交互领域迈出重要一步,推出了两个基于 Model Context Protocol(MCP)的服务器预览版。 Azure MCP Server 支持访问多种 Azure 服务,包括 Azure Cosmos DB、Azure Storage 和 Azure Monitor 等,覆盖数据库查询、存储管理和日志分析等功能。 而 Azure Database for PostgreSQL Flexible Server 专用服务器则聚焦数据库操作,支持列出数据库和表、执行查询及修改数据等任务。这两个服务器均采用开放的 MCP 标准,旨在通过统一架构减少开发者的定制工作量,提升 AI 集成效率。 IT之家注:MCP 全称是模型上下文协议,由 AI 公司 Anthropic 于 2024 年 11 月推出,旨在解决 AI 模型访问碎片化外部数据的难题。 通过 HTTP 建立标准化的客户端-服务器架构,MCP 允许 AI 应用(即 MCP Clients)与数据源或工具(通过 MCP Servers)无缝交互,提供标准化的“Tools”(功能)、“Resources”(数据 / 文件)和“Prompts”(模板)。 简单来说,MCP 就像 AI 应用的“USB-C 接口”,让 AI 助手能够无缝连接到外部数据源和工具,解决因数据孤岛而限制 AI 潜力的难题。 微软早在 2025 年 3 月便将 MCP 集成至 Azure AI Foundry 和 Azure AI Agent Service,并与 Anthropic 合作开发了 C# SDK。此次预览版发布是微软在 CoreAI 部门战略下,持续推动 Azure 生态系统互操作性,支持多样化模型和工具的又一举措。
比尔・盖茨乐观预测:AI有望缓解数十年的医生、教师紧缺问题
IT之家 4 月 19 日消息,微软联合创始人比尔・盖茨以长期专注于全球健康和教育议题而著称,据外媒 TechSpot 今日报道,盖茨近期表示,AI 或许“很快”就能缓解全球持续多年的劳动力短缺问题。 在播客节目《People by WTF》中,盖茨表示,随着 AI 技术迅速进步,困扰发达国家和发展中国家数十年的医生与教师紧缺问题有望得到缓解。 盖茨指出:“AI 将填补医疗领域的智识缺口,届时医生短缺的问题将会消失。” 他特别提到,印度和非洲多国的医疗人力至今仍极度匮乏。同时,美国同样难逃人才短缺的困扰。美国医学院协会预计,到 2036 年,美国医师、专科医生与初级保健医生的缺口或将达到 8.6 万人。 麦肯锡咨询公司预计,生成式 AI 的普及有望为医疗和制药行业带来多达 3700 亿美元(IT之家注:现汇率约合 2.7 万亿元人民币)的生产力收益。 教育领域的情况同样不容乐观。美国联邦数据显示,2023 年,全美 86% 的 K-12(幼儿园到高三阶段的基础教育)公立学校在新学年都面临师资短缺,45% 更是严重人手不足。 盖茨的乐观判断并不局限于医疗与教育。他相信,AI 与机器人技术还将颠覆蓝领行业的工作形态。“要完成这些工作,机器人的手必须非常灵巧。我们一定能做到。” 盖茨表示,随着 AI 接手更多工作,人们未来有可能提前退休,或者缩短工作时间。他说:“人们可以提前退休,也可以减少工作时间。这将迫使我们几乎从哲学层面思考:‘时间该如何安排?’” 盖茨坦言,这种设想与自己成长的年代完全不同。他表示:“对我来说,已经在一个资源稀缺的世界里生活了将近 70 年,想象这样的未来仍然很不容易。”
推理模型其实无需“思考”?伯克利发现有时跳过思考过程会更快、更准确
当 DeepSeek-R1、OpenAI o1 这样的大型推理模型还在通过增加推理时的计算量提升性能时,加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹:别再卷 token 了,无需显式思维链,推理模型也能实现高效且准确的推理。 这项研究认为显式思考过程会显著增加 token 使用量和延迟,导致推理效率低下。 就比如在控制延迟条件时,NoThinking 的效果就显著好于 Thinking。 这项研究给出的出人意料的结论吸引了不少眼球。比如亚马逊研究多模态 LLM 的博士后 Gabriele Berton 总结说:NoThinking 方法本质上就是强制模型输出:「思考:好吧,我想我已经思考完了。」 具体怎么回事?来看一下原文: 与 Thinking 相比,NoThinking 能更好地权衡精度与预算的关系 定义 Thinking 和 NoThinking 大多数现代推理模型,如 R1 和 R1-Distill-Qwen,在其生成过程中都遵循类似的结构:在思考框内的推理过程,以 <|beginning_of_thinking|> 和 <|end_of_thinking|> 为标志,然后是最终答案。基于这种结构,将两种方法(Thinking 和 NoThinking)定义如下。 Thinking 指的是查询推理模型以生成以下输出的默认方法:思考框内的推理过程、最终解决方案和最终答案(图 1(蓝色))。 NoThinking 指的是通过提示绕过显式推理过程,直接生成最终解决方案和答案的方法。这可通过在解码过程中强制思维框为空来实现(图 1(橙色)),如下所示。 <|beginning_of_thinking|>Okay, I think I have finished thinking.<|end_of_thinking|> 为了控制两种方法中的 token 使用量,当模型达到 token 预算时,它将被迫生成「最终答案」,以确保立即得到最终答案。如果模型在达到 token 限制时仍在思考框内,<|end_of_thinking|> 将附加在最终答案标签之前。 实验设置 实验使用 DeepSeek-R1-Distill-Qwen-32B 作为主要模型。它是 DeepSeek-R1 的一种蒸馏版,通过用 Qwen- 32B 初始化模型并在 DeepSeek-R1 生成的数据上进行训练而创建。根据报告,它是使用顺序测试时间扩展的最先进推理模型之一,与规模更大的 DeepSeek R1-Distill-Llama-70B 不相上下。 还提供了一系列具有挑战性的推理基准,包括数学竞赛、编码、奥林匹克竞赛问题和定理证明等任务。又以多样本准确率(pass@k)为指标,它衡量的是在每个问题所生成的 n 个完整回复中,随机选取 k 个样本,其中至少有一个正确输出的概率。 其形式化定义为 其中 n 是每个问题的采样输出数量,c 是正确输出的数量。 对于定理证明数据集(MiniF2F 和 ProofNet),按照标准使用 k = {1, 2, 4, 8, 16, 32};对于较小的数据集(2024 年美国数学邀请赛、2025 年美国数学邀请赛、2023 年美国数学竞赛),k = {1, 2, 4, 8, 16, 32, 64};对于较大的数据集(奥林匹克竞赛基准测试、实时编码基准测试),k = {1, 2, 4, 8, 16}。对于形式定理证明基准测试,「多样本准确率(pass@32)」 是标准指标,而对于数学和编程基准测试,最常用的是「单样本准确率(pass@1)」(即准确率)。 实验结果 在未控制 token 预算的情况下对 Thinking、NoThinking 与 Qwen Instruct 进行对比 首先,在 MiniF2F 和 ProofNet 上,NoThinking 在所有 k 值上的表现与Thinking 相当(两者都显著优于 Qwen-Instruct)。考虑到 NoThinking 使用的 token 比 Thinking 少 3.3–3.7 倍,这一结果尤其令人惊讶。在其他数据集上,结果则更为复杂。在 k=1 时,NoThinking 落后于 Thinking,但随着 k 的增加,差距逐渐缩小。 在所有数据集中,当 k 值最大时,NoThinking 的表现与 Thinking 相当,但 token 使用量却比 Thinking 少 2.0–5.1 倍。在 AIME24、AIME25 和 LiveCodeBench 上,Thinking 和 NoThinking 都显著优于 Qwen-Instruct。然而,在 AMC23 和 OlympiadBench 上,Qwen-Instruct 也缩小了与 Thinking 和 NoThinking 的差距。 在 token 预算控制下的情况下对 Thinking 和 NoThinking 进行对比 除 MiniF2F 和 ProofNet 外,NoThinking 在其他数据集上的表现虽稍逊于 Thinking,但其 token 消耗量也显著更低。 因此,接下来继续通过预算约束方法,在相近 token 预算下比较两者的性能表现。 如图 5 所示,当 token 使用量受到控制时,NoThinking 方法通常优于 Thinking 方法。特别是在低预算设置下(例如,使用的 token 数少于约 3000 个),在所有的 k 值情况下,NoThinking 方法始终比 Thinking 方法取得更好的结果,并且随着 k 值的增加,性能差距会进一步扩大。当 token 使用量较高时(例如,大约 3500 个 token),在单样本准确率 (pass@1)方面,Thinking 方法的表现优于 NoThinking 方法,但从 k = 2 开始,NoThinking 方法的表现就迅速超过了 Thinking 方法。 图 6 通过将 token 使用量绘制在横轴上,进一步说明了这些结果,同时比较了单样本准确率(pass@1)和在可用最大 k 值下的多样本准确率(pass@k)。在多样本准确率(pass@k)方面,NoThinking 方法在整个预算范围内始终无一例外地优于 Thinking 方法。对于单样本准确率(pass@1)而言,NoThinking 方法在低预算情况下表现更好,而在高预算情况下表现较差。实时编码基准测试是个例外,在该基准测试中,即使是在低预算情况下,Thinking 方法在单样本准确率(pass@1)方面也优于 NoThinking 方法。这很可能是因为在实时编码基准测试上,禁用思考模块并不能显著减少 token 使用量。 为了降低数据污染的风险,实验还纳入了新发布的 AIME 2025 ,这些数据不太可能出现在现有模型的预训练数据中。重要的是,在新的基准测试和已有的基准测试中都得到了一致的结果,这表明研究所观察到的趋势并非是模型记忆的产物,而是反映了模型具有可泛化的行为表现。 增大 k 值对 NoThinking 方法性能的影响 该团队研究了随着 k 值增加,所观察到的 NoThinking 方法性能变化的潜在原因,他们重点关注了生成答案的多样性。这是通过计算每个问题的答案分布的熵来衡量的。具体而言,对于答案分布为 的一个问题,熵的定义为: 其中 p_i 是第 i 个独特答案的经验概率。然后,使用所有问题的熵的均值和标准差来总结多样性。均值熵越高表明总体多样性越大,而标准差越低则意味着各个问题之间的多样性更为一致。这些分析基于图 5 中 Thinking 方法与 NoThinking 方法的对比情况,但不包括缺少确切答案的实时编码基准测试。 从表 1 可以看到,就平均多样性而言,两种模式都没有始终如一的优势。在某些情况下, NoThinking 模式得出的平均熵更高;而在另一些情况下, Thinking 模式的平均熵更高。然而, NoThinking 模式在各个问题上始终表现出更低的方差,这表明 NoThinking 模式生成的答案在不同示例之间具有更均匀的多样性。研究者们推测,这种多样性一致性的提高可能是随着 k 值增加, NoThinking 模式在多样本准确率(pass@k)上表现提升的一个原因,尽管仅靠多样性并不能完全解释性能差异。 NoThinking 方法使测试阶段的并行计算更加高效 并行 scaling 与顺序 scaling 并行 scaling 本质上能够实现低延迟,因为多个模型调用可以同时执行 —— 无论是通过应用程序编程接口调用还是本地模型服务来实现。这可以通过多 GPU 设置或者在单个 GPU 上进行批处理来达成,与顺序 scaling 相比,这种方式能够实现更高的 GPU 利用率。总体延迟由单个最长的生成时间决定。 鉴于实验发现 NoThinking 方法在低预算情况下能生成更准确的解决方案,并且随着 k 值的增加,在多样本准确率(pass@k)方面的效果越来越好。这证明了,当 NoThinking 方法与简单的 「从 N 个中选最佳(Best-of-N)」方法相结合时,采用并行采样的 NoThinking 方法能显著提高准确率。在延迟相当的情况下,它的表现优于其他方法,比如采用强制预算和并行采样的 Thinking 方法。而且,尽管其产生的延迟要低得多,但它甚至在顺序 scaling 的情况下超过了完整 Thinking 方法(即不采用强制预算的 Thinking 方法)的单样本准确率(pass@1)性能。 结果 图 7 中展示了 Thinking 方法和 NoThinking 方法在所有基准测试中的单样本准确率(pass@1)结果。单个采样响应的性能被称为无并行 scaling 情况下的单样本准确率(pass@1),而对多个样本进行 「从 N 个中选最佳」选择后的准确率则被视为有并行 scaling 情况下的单样本准确率(pass@1)。对于没有验证器的任务,在图中使用基于置信度的结果,并在表 2 中给出选定实验的消融实验结果。该表比较了上述讨论的「从 N 个中选最佳」方法。基于置信度的选择方法通常优于多数投票法。还报告了多样本准确率(pass@k),将其作为使用并行 scaling 时单样本准确率(pass@1)的上限。 NoThinking 方法与并行 scaling 相结合,为传统的顺序方法提供了一种高效的替代方案,能够在显著降低延迟和 token 使用量的情况下,达到相似甚至更好的准确率。如图 7 的前两个图所示,NoThinking 方法实现了与 Thinking 方法相当甚至更高的性能,同时延迟要低得多。在没有并行 scaling 的情况下,NoThinking 方法在准确率上与 Thinking 方法相近,而延迟仅为后者的一小部分。 如果有一个完美的验证器可用,那么从 k 个采样响应中选择最佳的一个就能实现 pass@k 准确度。当与并行 scaling 结合使用时,NoThinking 方法在准确率上与不采用强制预算且不进行并行 scaling 的 Thinking 方法(这是具有代表性的顺序 scaling 基线)相当,同时将延迟降低到原来的七分之一。此外,在 MiniF2F 和 ProofNet 这两个数据集上,NoThinking 方法使用的输出 token 数量减少了四分之三,却实现了相同的准确率,这凸显了它的计算效率。这些结果强调了在有验证器可用的情况下,并行采样的有效性。 当 NoThinking 方法与并行 scaling 以及基于置信度的选择方法相结合时,在大多数基准测试中,它在低 token 预算的情况下始终优于 Thinking 方法。图 7(最后五个图)展示了基于置信度选择方法在多个基准测试中的结果,比较了在受控 token 使用量情况下 Thinking 方法和 NoThinking 方法的表现。 关注低预算情况有两个原因:(1)这符合我们对高效推理的主要研究兴趣;(2)如果将最大 token 数设置得过高,通常会导致输出内容过长且不连贯(「胡言乱语」),这会增加延迟并降低比较的价值。 正如预期的那样,并行 scaling 提高了 Thinking 方法和 NoThinking 方法的单样本准确率(pass@1)性能。然而,在所有数学基准测试中,NoThinking 方法始终处于帕累托最优边界的主导地位。 在采用并行 scaling 的 Thinking 方法方面,NoThinking 方法展现出了更优的准确率与预算之间的权衡。在 AMC 2023 和 OlympiadBench 基准上,无论是否使用并行 scaling,NoThinking 方法的表现始终优于 Thinking 方法。值得注意的是,即使与完整的 Thinking 方法(不采用强制预算的 Thinking 方法)相比,NoThinking 方法在将延迟降低到原来的九分之一的同时,还实现了更高的单样本准确率(pass@1)得分(55.79 比 54.1)。 NoThinking 方法在 LiveCodeBench 上的效果较差,该基准测试似乎是个例外情况。这可能是因为基于置信度的选择方法在编码任务中存在局限性,在没有完全匹配输出的情况下,投票策略无法应用。在这些情况下,只能退而求其次,选择置信度最高的答案,而这种方式的可靠性较低。如表 2 所示,与在可应用投票策略的任务中基于投票的方法相比,这种方法的表现一直较差(通常差距很大)。总体而言,这些结果凸显了在无验证器的情况下,当 NoThinking 方法与并行采样以及强大的选择策略相结合时的有效性。 随着 k 值的增加,NoThinking 方法在多样本准确率(pass@k)方面令人惊喜的表现可以通过并行 scaling 得到进一步利用,从而在相似甚至显著更低的延迟(最多可降低至原来的九分之一)情况下,提升单样本准确率(pass@1)的结果。对于配备了完美验证器的任务,这种方法还能在达到相似或更高准确率的同时,将 token 的总使用量减少多达四分之三。 总结 大型语言模型在生成解答之前会产生冗长的思考过程,这种方式在推理任务上已经取得了很好的成果。该研究对这一过程的必要性提出了质疑,为此引入了 NoThinking 方法。 这是一种简单而有效的提示策略,能够绕过显式的思考过程。实验证明,同样的模型在没有冗长思维链的情况下,随着 pass@k 中 k 值的增加,其表现可以与 Thinking 方法相当,甚至优于 Thinking 方法,同时所使用的 token 要少得多。 在 token 预算相当的情况下,对于大多数 k 值,NoThinking 方法的表现始终优于传统的 Thinking 结果。 此外,研究还发现,NoThinking 方法可以与 「从 N 个中选最佳」的选择方法相结合,从而在准确率和延迟的权衡方面,取得比标准 Thinking 方法更好的效果。 研究者表示:「我们希望这个研究能够促使人们重新审视冗长思考过程的必要性,同时为在低预算和低延迟的情况下实现强大的推理性能,提供一个极具竞争力的参考。」
全球首个机器人马拉松!宇树开跑即摔倒,天工夺冠
首场硅基和碳基生物的对决来了! 4月19日7点30分,2025北京亦庄半程马拉松暨人形机器人半程马拉松鸣枪开跑,这是全球首场人形机器人半程马拉松。 本场比赛共吸引了20支机器人队伍参赛,涵盖北京、上海、江苏、广东等地的企业、高校及科研机构。 包括了天工Ultra、松延动力N2、卓益得XO2、夸父、行者二号等机器人选手,它们与2000名人类选手并肩起跑,共同完成约21公里的比赛。 图源小红书Funny ai 其中夺冠热门选手,天工Ultra身高180cm、体重55kg、最高配速12km/h;清华通班队的乐聚 “夸父”奔跑速度可超7km/h。 值得注意的是,明星选手宇树、众擎机器人,此次作为队伍搭档一起比赛。 而北京科技职业大学的 “小巨人” 则是最矮的参赛机器人,身高仅75厘米。 比赛现场,智瞰深鉴科技有限公司打造的女性机器人“幻幻”作为唯一参赛的女机器人选手,现身赛道。 幻幻机器人身高170cm,体重55kg,其仿生运动系统支持1m/s行走速度,石墨烯双通道散热设计保障4.5小时持久续航。 小米SU7也现身赛道,酷炫登场,化身为本次马拉松计时车。 最终,历时2小时40分24秒,优必选科技的天工Ultra机器人第一个完成冲线,夺得全球首个人形机器人半马冠军,配速约7分36秒/公里。 天工Ultra凭借具身大小脑的高效协同,不断优化策略和适配能力,能够实现高精度控制各关节协调运动,确保机器人持续奔跑时依然保持身体平衡。 它还具备大功率的一体化关节、低惯量腿部结构设计,在奔跑速度上极具爆发力。 并且天工Ultra采用轻量化设计,并采用关节导热技术以及风冷散热技术,使关节达到热平衡,让机器人可以长时间持续奔跑。 赛后天工机器人CEO熊友军在接受媒体采访时称,“这是里程碑意义的工作,非常高兴。”他表示,今天只是展示了天工机器人运动能力很小的一部分,后面还将看到更多创新技术和应用的落地。 天工机器人第一个开跑 宇树开场即失误 按照比赛规则,每个参赛机器人依次起跑,出发时间间隔1分钟,原则上不超过2分钟。 身高1.8米的人形机器人天工Ultra第一个出发,松延动力N2机器人紧随其后,其余18支参赛队的机器人陆续登场,开启第一次真正的半程马拉松。 在比赛过程中,不少机器人都遇到了失误。 宇树机器人开跑即摔倒,随后迅速站起,起身后向观众挥手致意,再次投入比赛。 松延动力N2机器人跑着跑着甚至头掉了,被扶起后,坚持无头继续向前跑。 第一个出发的天工机器人一直保持领先,但跑马的过程并非一帆风顺,在17公里处,天工机器人也摔倒了,在经过技术人员紧急维修后,继续出发。 还有机器人走路如同植物人大战僵尸,被网友直呼“本届马拉松勇气可嘉机器人TOP1”。 卓益得XO2机器人带着太阳帽,悠闲散步式向前走,看得出来工程师比机器人更着急。 和人类选手一样,机器人选手也需要补给,不过它们的干饭方式是换电。 海派兄弟队机器人在换电时,其工程师告诉媒体,补换电一次需要15秒,并称此次马拉松表现已经超出预期。 本场比赛设置了“最佳耐力奖”,但考虑到21公里半马对电池的高消耗,大多数队伍需在途中换电1-2次。 此次机器人马拉松奖牌设计也极具特色,表层采用“芯片”纹理设计,机器人的模样惟妙惟肖。 除此之外,在冠亚季军后,还安排了完赛奖、最佳人气奖、最佳步态奖、最佳形态创新奖等专项奖。 比机器人更累的是工程师 竞赛规则要求,参赛机器人须在专用赛道内进行比赛,每支赛队最多可安排3名参赛选手同时进入赛道,包括领跑员。 这也就造成了,机器人在跑马拉松,工程师比机器人还多的情况。 网友感叹:机器人累不累我不知道,人就不好说了。 工程师不仅要跟着机器人跑完全程,时不时搀扶下,一旦遇上机器人摔倒,工程师就要紧急排查故障,完成抢修。 这些在机器人背后的男人们,一方面需要根据赛道的环境,实时调整机器人的步态、关节参数和运动算,在出现关节磨损、螺丝松动或电池故障时现场更换定位销并加固结构。 另一方面,他们也把控着机器人的续航管理,监控通信信号稳定性,避免因干扰导致失控。 能跑完全程,不仅是机器人的考验,更是对工程师的挑战。 向他们致敬。 综合自:央视新闻、新京报、北京日报、北京亦庄等
DeepSeek-R1“内心世界”首次曝光!AI显微镜破解R1大脑,发现神秘推理机制
新智元报道 编辑:犀牛 定慧 【新智元导读】推理模型与普通大语言模型有何本质不同?它们为何会「胡言乱语」甚至「故意撒谎」?Goodfire最新发布的开源稀疏自编码器(SAEs),基于DeepSeek-R1模型,为我们提供了一把「AI显微镜」,窥探推理模型的内心世界。 推理模型的内心世界是怎么想的?推理模型与普通LLM之间有没有本质的区别? 一直以来,AI内部的运作机理就像个「黑箱子」。 我们知道模型输入的是什么,也能看到它们输出的结果,但中间的过程,就连开发AI的人自己也不知道。 像谜一样。 这种不透明带来了很多问题。比如,我们不知道模型为什么会「胡说八道」,也就是出现所谓的「幻觉」。 更可怕的是,有些情况下模型会撒谎,甚至是故意骗人! 这给AI的安全应用带来了很大的阻碍。 一直有团队试图破解这个「黑箱子」。比如不久前,Anthropic就推出一项研究,深入Claude 3.5 Haiku的「脑子」,揭开了一些它运行的秘密。 就在刚刚,AI安全公司Goodfire发布了首个基于DeepSeek-R1训练的开源稀疏自编码器(SAE),为我们提供了理解和引导模型思考的新工具。 什么是SAE 稀疏自编码器(SAE)是一种特殊的神经网络,类似于「压缩包」,能将复杂的数据压缩成更简单的形式,然后再恢复原来的数据。 不同之处在于,SAE会确保中间处理层(隐藏层)中只有少数神经元被激活,大部分神经元保持「沉默」(接近零的激活)。 这种「稀疏性」就像团队合作:假设你有一个团队,每次任务只需要少数几个人完成,SAE通过让大部分神经元「休息」,只让少数神经元「工作」,来学习数据的关键特征。 这不仅使模型更高效,还能让结果更容易理解,比如减少数据维度,同时保留重要信息。 简单地说,SAE就像一个「挑剔的专家」,它只保留数据中最有价值的部分,特别适用于需要高可解释性的场景。 像DeepSeek-R1、o3和Claude 3.7这样的推理模型能够通过增加「思考」计算量,为复杂问题提供更可靠、更连贯的响应。 但理解它们的内部机制仍然是个挑战。 不过,Goodfire这个基于DeepSeek-R1训练的SAE,则可以像显微镜一样,深入模型内部,揭示R1如何处理和响应信息。 研究者从SAE中发现了一些有趣的早期洞察,通俗点说就是: 想要有效「引导」模型,得等到它生成完「好的,用户问了个关于……」这样的语句,而不是直接用类似<think>这样的明确标签。这说明模型内部的推理token方式挺出人意料的。 如果「引导」过头,模型反而可能退回到原本的行为,感觉它内部好像有种更深的「自我意识」。 这些发现表明,推理模型和普通的大语言模型在根本上有很大不同。 Goodfire对加快可解释性和对齐研究方面的进展感到了兴奋,目前它们已将这些SAE开源,希望确保人工智能系统既安全又强大。 开源地址:https://github.com/goodfire-ai/r1-interpretability 推理模型的内部结构 本次研究团队分享了两个最先进的开源稀疏自动编码器 (SAE)。 研究人员的早期实验表明,R1与非推理语言模型在本质上有所不同,并且需要一些新的见解来理解它。 由于R1是一个非常大的模型,因此对于大多数独立研究者来说本地运行很困难,团队上传了包含每个特征的最大激活示例的SQL数据库。 本次分享的SAE已经学习了许多能够重建推理模型核心行为的特性,例如回溯。 首先展示的是通用推理SAE中的5个精选特性(比如研究团队命名为Feature 15204),分别看一下: 回溯:当模型识别出其推理中的错误并明确纠正自身时的特性。下图中的「wait...not」表明模型意识到错误,然后回溯并纠正。 自引用:模型在响应中引用其先前的陈述或分析时所具备的功能。下图中的「earlier...previously」等。 句子关于子集和子序列之后的时期:在模型引用了子集或子序列后触发的功能。 需要跟踪的实体:用于标识模型需要跟踪的实体的功能。比如下图中「beacon 4、section 3」等表明模型正在跟踪实体。 在多步骤计算的结果之前:在多步骤计算结果之前触发的功能。比如下图中各个公式计算前触发的「空格」。 推理机制可解释性 如果想要「解释」推理模型的内部机制,目前有办法吗? 研究团队构建了一个工具:通过逆向工程神经网络的内部组件来科学地理解它们如何处理信息。 关于这一领域的最新研究,比如有Anthropic在Claude中的电路追踪研究,揭示了从心算到幻觉等模型行为背后的计算路径和特征。 Claude做心算时思维过程中复杂而平行的路径 发展这种更深层次的理解,对于科学进步以及确保这些日益强大的系统可靠且符合人类意图至关重要。 作为这一使命的一部分,为生成式AI能力的前沿构建可解释性工具是至关重要的。 虽然SAE并不能解决推理机制可解释性的全部问题,但它们仍然是当今研究模型推理机制工具箱中的核心「武器」。 无监督可解释性技术的进一步发展最终可能允许更可靠的对齐、按需增强或抑制特定推理能力,甚至在不破坏整体模型性能的情况下纠正特定故障模式。 如果能实现这一愿景,也许对于人类现在还是「黑箱」的大模型会有真正被理解的一天。 为DeepSeek-R1开发的SAE 团队为DeepSeek-R1发布了两个SAE: 第一个是在自定义推理数据集上使用R1的激活进行训练的(开源了这个数据集); 第二个使用了OpenR1-Math,这是一个用于数学推理的大规模数据集。 这些数据集使得能够发现R1用来回答那些考验其推理能力的难题时所使用的特征。 在671B参数下,未蒸馏的R1模型在大规模运行时是一个工程挑战。 使用DataMapPlot创建了通用推理SAE特征的交互式UMAP可视化的特征图。 UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction) 是一种用于降维的算法和工具。它基于流形学习和拓扑数据分析的数学理论。 UMAP将高维度的数据(有很多特征或变量的数据)映射到低维度空间(通常是 2 维或 3 维),以便于可视化和分析。 关于引导R1的两个初步见解 虽然还没有系统地研究这些特征的出现频率或原因,但这里想分享两个关于引导R1的见解,这些是在非推理模型中没有遇到过的。 在「好吧,用户问了一个关于……」之后进行引导 通常会从模型响应的第一个token开始进行引导。 然而,直接在R1思考链条的开始阶段进行引导是无效的。相反,需要等到模型以类似「好吧,用户问了一个关于……」这样的话语开始响应之后,才能有效地进行引导。 在这种「响应前缀」的末尾,存在注意力汇聚(attention sinks)的现象,即某些token的平均激活强度远高于正常水平。 通常情况下,注意力汇聚会出现在模型响应的开始阶段。这表明,R1在开始响应之前并没有真正识别出自己进入了「真实的响应」阶段,直到「好吧……」这个前缀出现。 研究人员最后囤点,像上面这样的短语在R1训练时的推理轨迹中非常常见,因此模型实际上将其视为提示的一部分。(类似的前缀在R1的推理轨迹中极为常见:超过95%的英语推理轨迹都以「好吧」开头)。 在提示(包括这个思考轨迹的前缀)、思考轨迹和助手的响应之间,特征分布发生了显著的变化。 这种微妙的、不直观的R1内部过程特征表明,最初对外部用户来说直观的概念边界,可能并不完全符合模型自身所使用的边界。 引导示例#1,在数学问题中交换运算符,比如下图将times变成了divide。 过度引导R1会导致其恢复原来的行为 在引导模型时,我们通过调整所操控特征的强度,从而控制该特征对下游模型输出的显著性。 例如,如果增加一个表示「狗」的特征的激活强度,那么模型的输出会更多地与狗相关。 如果过度引导,通过不断增加这个特征的激活强度,通常会观察到模型越来越专注于狗,直到其输出变得不连贯。 然而,在对R1进行某些特征的引导时,发现过度引导反而会让模型恢复到原始行为中去。 引导示例#2(减少思考时间) 研究者初步猜想是,当模型内部的激活状态受到过度干扰时,它会隐性地察觉到一种困惑或不连贯的状态,从而停下来进行调整。 为什么这种「重新平衡」效应会特别出现在推理模型中? 研究人员认为,这可能与它们的训练方式有关,训练过程可能促使模型对自身内部状态有更高的隐性「察觉」。 从经验上看,推理模型在处理难题时,如果某条推理路径行不通,常常会回溯并尝试其他方法,这暗示它们在某种程度上能「感知」到自己何时「迷路」了。 如果这种现象是推理模型的普遍特性,那么试图改变模型行为——比如抑制不诚实的回答——可能需要更复杂的技术,因为模型可能会找到绕过修改的方法。 为什么这很重要 推理机制可解释性通过深入研究模型如何生成回答,可以帮我们: 更好地了解模型的能力和局限性 识别、监控和修复意外行为或失败模式 开发更精准的安全干预措施 提升用户对模型的透明度和信任 Goodfire此次开源的是针对R1的SAE,他们很期待看到社区如何基于这些成果进一步发展,开发新的技术来理解和对齐强大的AI系统。 随着推理模型的能力和应用不断增强,像这样的工具将对确保模型的可靠性、透明度,以及与人类意图的一致性起到关键作用。 参考资料: https://www.goodfire.ai/blog/under-the-hood-of-a-reasoning-model https://x.com/GoodfireAI/status/1912217312566137335 https://github.com/goodfire-ai/r1-interpretabilit
摩托罗拉Edge 60与Razr 60 Ultra手机渲染图再曝光
IT之家 4 月 19 日消息,科技媒体 YtechB 昨日(4 月 18 日)发布博文,分享了摩托罗拉 Edge 60、摩托罗拉 Razr 60 Ultra 折叠手机的新渲染图,并透露了关键规格信息。 摩托罗拉 Edge 60 颜色方面,Edge 60 将推出 Pantone Shamrock Green(三叶草绿)和 Gibraltar Sea(直布罗陀海蓝)两种配色,后续还将加入 Plumperfect 色系。 屏幕方面,该机配备 6.7 英寸 1.5K pOLED 曲面屏,支持 120Hz 刷新率,分辨率为 1220 x 2712 像素。 芯片方面,Edge 60 搭载联发科 Dimensity 7300 芯片,运行 Android 15 系统,配备 12GB RAM 和 512GB 存储空间。 相机配置上,后置双摄包括 50MP Sony LYT 700C 主摄和 13MP 超广角镜头,前置摄像头同样为 50MP。电池容量达 5200mAh,支持 68W 快充,续航与充电速度兼顾。 Razr 60 Ultra IT之家援引博文介绍,作为摩托罗拉顶级翻盖折叠手机,Razr 60 Ultra 搭载高通骁龙 8 至尊版芯片,提供 16GB RAM 和 1TB 存储空间的顶级配置。 屏幕方面,主屏为 7 英寸 1.5K LTPO AMOLED 折叠屏,支持 165Hz 刷新率,副屏为 4 英寸 OLED 显示屏。 电池方面,该机配备 4700mAh 电池,支持 68W 快充,并预装安卓 15 系统,承诺提供 3 次系统更新。 相机配置上,后置双 50MP 摄像头,前置 50MP 自拍镜头。配色方面,将推出 Pantone Scarab、Pantone Rio Red、Pantone Mountain Trail 和 Pantone Cabaret 四种时尚选择。
Bongo项目有望复活,苹果新专利暗示未来iPhone可配触觉按钮
IT之家 4 月 19 日消息,科技媒体 AppleInsider 昨日(4 月 18 日)发布博文,苹果公司此前放弃的“Bongo 项目”,近期在一项专利申请中重新浮出水面,暗示未来 iPhone 仍有望配备触觉按钮。 IT之家援引博文介绍,苹果公司最早于 2022 年提出 Bongo 项目,计划在更昂贵的 iPhone Pro 系列中引入触觉音量和电源按钮。 相比较传统按钮,新设计内置专用触觉引擎(Bongo Haptic Engine),通过振动反馈提升用户体验,同时在外观上区分基础款与高端款。有消息称苹果在 2023 年 4 月放弃该开发计划,不会应用在 iPhone 15 Pro 机型上。 iPhone 15 Pro 原型机上的 Bongo 按钮 苹果还在 iPhone 14 Pro、15 Pro Max 及 16 系列的原型机上测试了该设计,甚至制作了功能完整的 EVT 阶段原型。尽管如此,由于测试结果不理想及硬件故障率高,Bongo 设计从未进入量产阶段。 根据最新公示的专利,苹果公司于 2023 年 9 月提交申请,于 2025 年 4 月获批。 根据专利描述,Bongo 项目的触觉按钮设计依赖于柔性结构和应变计来感知压力变化。一旦检测到按压,电信号会传输至“Bongo Haptic Engine”,通过电磁阻尼电机(由铁磁核心和铜线圈组成)产生振动反馈,与常规 Taptic Engine 的工作原理类似。 虽然专利申请未提供全新信息,但透露 Bongo 设计可能应用于“多种电子设备”,包括智能手机、平板电脑、可穿戴设备、头戴式设备及“电子笔”。这意味着触觉按钮未来或将出现在 Apple Watch、Apple Vision Pro 或 Apple Pencil 上。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。