行业分类:
加载中...
头条分类:
加载中...
中国汽车海外产销体系崛起:2025年海外销量破900万台
快科技2月21日消息,崔东树发文称,2025年海关数据显示中国汽车整车出口达832万台,这一数据虽引发市场部分质疑,但跳出单一整车出口的统计维度,从全球化全产业链视角来看,中国制造及自主品牌汽车的海外销量已突破900万台。 这一数值涵盖自主品牌整车直接出口、国际车企中国基地出口、KD件海外组装量及中国自主品牌海外基地产销量,不仅是中国汽车产业全球化的阶段性成果,更标志着中国汽车海外产销体系完成了从“产品出海”到“产业出海”的关键转型。 据介绍,中国汽车海外销量与海关统计的整车出口量并非同一概念,前者是中国汽车产业全球布局的综合体现,后者只是其中一个组成部分。 从出口动力结构来看,2025年乘用车出口呈现明显的结构分化,汽油车出口增速持续偏低,乘用车整体出口增速有所回落; 而混合动力乘用车出口表现亮眼,插电式混合动力乘用车更是以超高增速成为出口核心增长点,展现出中国汽车在新能源技术领域的核心竞争力。 中国自主车企的全球布局正日益完善,KD生产模式在海外逐步落地,海外生产基地已形成一定规模,成为海外销量的重要增量来源。 以上汽集团为例,其2025年整车全球销量达450.75万台,但国内统计的销量仅为438万台,差额12万台正是上汽在泰国、印尼、印度三家海外公司的产销规模,这部分销量并未纳入国内汽车产销统计体系,却成为中国汽车海外销量的重要组成。 当前中国汽车已形成“整车出口+KD件出口+海外基地生产+核心零部件全球供应”的多元布局,既复刻了日本汽车从KD散件到海外生产的布局逻辑,又凭借新能源技术的先发优势,在全球汽车产业向新能源转型的关键节点实现了换道超车。
苹果史上首款折叠屏手机!iPhone Fold参数汇总:2026年发布
快科技2月21日消息,多方供应链和行业分析师都已经确认,苹果首款折叠屏手机iPhone Fold将于2026年秋季正式推出,目前已进入量产筹备阶段。 iPhone Fold采用三星Galaxy Z Fold同款书本式折叠设计,折叠后厚度9-9.5mm,展开后约4.5-4.8mm,机身框架为钛合金材质,有效防止弯折,铰链则由钛合金+不锈钢打造,兼顾耐用性与折叠顺滑度。 按键布局上,音量键移至机身顶部右侧,类似iPad mini,电源键与相机控制键仍在右侧,背部左上方配备iPhone Air同款相机模组,目前仅测试黑白两种配色。 配备内外双屏,外屏5.5英寸、内屏7.8英寸,内屏尺寸接近A6纸,分辨率分别为外屏2088×1422、内屏2713×1920。 屏幕采用超薄玻璃+透明聚酰亚胺薄膜防护,核心突破为实现行业首款近乎无折痕的折叠屏——通过金属板分散屏幕弯折应力,铰链内置液态金属材质,从硬件层面彻底解决折叠屏折痕通病。 为节省内部空间,苹果酱取消Face ID,采用侧边按键集成Touch ID,影像配备四摄系统,含外屏挖孔前摄、内屏屏下前摄和两颗4800万像素后置主摄,外屏前摄位于屏幕左上角。 搭载苹果第二代自研C2调制解调器,彻底告别高通,支持美国地区mmWave毫米波,无实体SIM卡槽。 配备iPhone史上最大容量电池,采用高密度电芯,同时通过精简显示驱动等核心组件进一步提升能效,续航能力大幅升级。 鉴于铰链、机身、屏幕等成本大增,iPhone Fold将成为苹果首款超2000美元的iPhone,多方爆料美版定价在2000-2500美元之间,约合人民币13816-17270元。
Urus SE Performante路测图曝光:兰博基尼最强SUV
IT之家 2 月 21 日消息,汽车媒体 CarBuzz 昨日(2 月 20 日)发布博文,分享了一组在瑞典北极圈附近抓拍的路测图,展示了兰博基尼(Lamborghini)正在测试的高性能 SUV,推测为 Urus SE Performante。 外观方面,前后轮拱处新增了碳纤维挡泥板,车尾不仅保留了鸭尾设计,还在车顶加装了尺寸更大的固定式尾翼。后轮后方的通风口经过了重新塑形,整体给人的感觉是更具攻击性。 透过轮毂可以发现,测试车配备了大尺寸的碳陶瓷刹车盘与卡钳,这通常是动力大幅提升的直接信号。兰博基尼显然不希望新车仅仅是一台“直线加速机器”,因此极有可能引入了老款 Performante 的硬核底盘技术,例如更硬的固定式螺旋弹簧悬挂(替代空气悬挂)以及偏向后驱特性的四驱系统,以抵消混动电池带来的额外重量,提升操控灵活性。 现款 Urus SE 凭借 4.0 升双涡轮 V8 发动机与电机的组合,已拥有 789 马力的强悍输出。然而,业界普遍认为新车将在此基础上进一步压榨潜能。 如果兰博基尼沿用 Performante 的高功率 V8 调校并结合电机辅助,新车的综合输出功率有望接近甚至达到 850 马力。这将让其超越所有前代车型,成为该品牌历史上最强大的量产 SUV。 IT之家附上相关图片如下:
OpenAI硬件团队曝光:Jony Ive亲自带队,比苹果更苹果
据 The Information 爆料,OpenAI 正在开发一款智能音箱,它将配备摄像头,支持类似苹果 Face ID 的人脸识别。你未来可能「看一眼」就能完成购物支付,类似功能目前在小米、Rokid 等智能眼镜已经实现。 在苹果、Meta 都在把 AI 塞进眼镜、手表、吊坠等可穿戴设备时,OpenAI 尝试把摄像头塞进音箱,能「看见」你和周遭的环境,让 AI 对你的理解也将从语言延伸到行为,你的作息、习惯、情绪状态,都将让 AI 读懂和拼凑出一个真实的你。 产品假想图,图片由 Nano Banana Pro 生成 爱范儿先给你快速梳理下 OpenAI 智能音箱的核心信息 定价:200-300 美元(约 1450-2200 元人民币) 发售时间:最早 2027 年 2 月 核心功能:摄像头环境感知、Face ID 级人脸识别、语音购物 设计团队:Jony Ive 的 LoveFrom + OpenAI 硬件团队 产品矩阵:智能音箱首发,智能眼镜、智能台灯后续跟进 「长眼」的智能音箱,你敢用吗 智能音箱这个品类,从 Amazon Echo 到 Apple HomePod,已经卷了快十年。但这些设备的「智能」,往往停留在「能听懂关键词」的层面,离真正的「理解」差着十万八千里。 OpenAI 的解法简单粗暴:给它装上眼睛。 智能音箱内置摄像头,能识别你周边环境,比如桌上摆了什么、旁边在聊什么。还支持类似 Face ID 的面部识别,可以直接刷脸完成购买。这种「所见即所得」的购物体验,目前市面上的智能音箱还做不到。 结合 ChatGPT 去年上线的购物功能——用户可以在对话框里完成从选品到跳转下单的完整流程,这个刷脸购买功能将有望直接服务于「AI 即购物入口」的闭环,成为消费决策链条上的第一道关口。 如无意外,这也将对现有流量分发逻辑造成重大的挑战:Google 靠搜索吃了数十年广告红利,电商平台靠货架逻辑构建起庞大生态,而 OpenAI 想在这两者之前再插入一个新的决策层级。 此外,这款智能音箱还能通过持续的视觉观察判断用户状态——比如发现你在重要会议前夜还在熬夜,会主动提醒你去早点睡。这样一来智能音箱的定位,就从一个智能家居产品,变成了一个 AI 管家中枢。 不过,这种全天候的数据采集,隐私边界在哪里,或许有待 OpenAI 正式发布时给出答案。 想要买到这款产品,还要等一段时间。首款设备最早也要到 2027 年 2 月才能发货。眼镜等其他产品更慢,预计 2028 年才能大规模量产,至于那个智能台灯,原型机有了,但到底会不会发布,还是个未知数。 「含果量」十足的 OpenAI 硬件团队 OpenAI 的硬件野心,从团队规模就能看出来,整整 200 人,而且还在疯狂扩张。其中更令人期待的是,前苹果首席设计官 Jony Ive ,亲自为 OpenAI 操刀产品设计。 这支团队的「含果量」极高,团队由副总裁 Peter Welinder 领导,他此前负责 OpenAI 的新产品探索团队。核心成员包括: Tang Tan:苹果 25 年老将,曾任 iPhone 和 Apple Watch 产品设计主管,直接向苹果硬件主管 John Ternus 汇报,被认为是把 Jony Ive 的设计理念转化为大规模可制造产品的关键人物 Evans Hankey:苹果前工业设计负责人,曾接替 Jony Ive 执掌苹果设计团队,现为 OpenAI 工业设计负责人 Scott Cannon:供应链负责人 Adam Cue:苹果服务主管 Eddy Cue 之子,负责开发驱动 OpenAI 未来设备的软件 Ben Newhouse:产品研究负责人,正致力于重写 OpenAI 的基础设施以适应音频 AI Atty Eleti:负责设备隐私相关工程工作 虽然 Jony Ive 并未直接加入 OpenAI,但他对设计拥有最终决定权,据说每周都会出现在旧金山市中心的办公室。有员工透露,团队讨论时经常会说「Jony 会想要什么」。 总的来说,LoveFrom 负责构思「新体验」,而 OpenAI 内部的硬件团队则负责把这些构思变成现实。这种「外部设计团队主导,内部工程团队执行」的结构,确保了产品在美学和交互上的高标准,但也可能带来更多内部摩擦。 据两位知情人士透露,一些 OpenAI 员工抱怨 LoveFrom 修改设计的速度缓慢,且很少分享其构思新设计的流程。这种保密作风和对设计的极致追求,是苹果公司的典型做法——而该团队的许多员工和领导层都来自那里。 为了保持这种运作方式,OpenAI 的设备团队与公司其他部门是分开的。虽然 OpenAI 总部位于米申湾,但设备团队在旧金山市中心杰克逊广场附近的一间办公室办公,离 LoveFrom 的办公室不远。 内部怎么拧,是执行的事。但有一件事,从一开始就没有悬念——OpenAI 必须做硬件。 软件端 200 亿美元的年化收入,已经证明了 AI 是一门好生意,但要让 AI 真正成为水电煤一样的基础设施,必须有一个物理入口。 手机这条路走不通——苹果的生态护城河不是一款 AI 新品轻易能够撬动的,其它手机厂商自己也在全力 AI 化,不会将大好的硬件阵地拱手相让。 当然,更根本的问题是,手机的形态本身,可能就不适合做 AI 的宿主。 当 AI 足够聪明时,它不应该被禁锢在一块长方形的玻璃屏幕里,它应该是无处不在的。因此,从音箱、眼镜甚至台灯这些陪伴感更强的品类切入,是 OpenAI唯一,也是最合理的选择。 而这一切,或许从 ChatGPT 的产品设计方向上就已经埋下了伏笔。与 Anthropic 这类深耕企业服务的 AI 公司不同,OpenAI 从一开始就带着强烈的 ToC 基因——ChatGPT 不只是一个工具,它有情绪、有记忆、会共情,Sam Altman 一直在让它变得更像一个「人」。 这背后的逻辑,如今看来相当清晰:一个冷冰冰的 AI 助手,你不会想把它放在卧室里;但一个懂你、记得你习惯、会关心你睡没睡好的 AI,才有资格住进你的生活。 OpenAI 的硬件版图浮出水面 智能音箱只是 OpenAI 硬件全家桶的其中一个,此前 OpenAI 已经被曝出在开发智能眼镜、智能灯、甚至可穿戴别针等多种形态。如上所说,其中智能眼镜可能要等到 2028 年才能量产——这个时间点,恰好和苹果传闻中的 AI 眼镜撞期。 在 Jony Ive 的主导下,OpenAI 硬件团队正在推行「环境计算(Ambient Computing)」的理念——让硬件尽可能自然地融入背景,而不是通过屏幕不断打断用户的注意力。基于这个逻辑,团队正在规划一个完整的产品矩阵: 智能音箱(代号未知):首款产品,200-300 美元,2027 年 2 月出货 AI 耳机(代号 Dime/「甜豌豆」):金属鹅卵石造型,胶囊状耳机置于耳后,2nm 芯片 智能眼镜:2028 年量产,与 Meta Ray-Ban、苹果 N50 正面竞争 智能灯:原型已准备,是否发布待定 AI 笔:Sam Altman 多次暗示的「口袋设备」 值得注意的是,OpenAI 的硬件策略似乎经历了调整。此前传闻的 AI 耳机项目「Dime」(甜豌豆),原计划是一款「类手机」全能设备,搭载 2nm 智能手机级芯片。但由于 HBM 内存短缺导致成本过高,OpenAI 被迫调整策略——先推纯音频功能的「阉割版」,等成本下降后再发高配版。 这种「先占坑、后完善」的策略,在硬件圈并不罕见。对 OpenAI 来说,也没有苹果的包袱,不需要将产品打磨到完美才推出市场,即便首款产品不够惊艳,这也是 AI 行业发布产品的一贯风格。 但想清楚「怎么做」是一回事,找到「能做的人」又是另一回事。做硬件,终究要靠人才。 据 The Information 报道,OpenAI 去年已经从苹果挖走了 20 多位硬件大牛,而 2023 年这个数字几乎为零。 苹果显然坐不住了。据知情人士透露,苹果去年曾突然取消了原定在中国举行的年度闭门会议——这个会议通常由高管向员工介绍未来产品计划。取消的原因竟然是:「防止更多高管跳槽到 OpenAI」。 此外 OpenAI 不止挖苹果的人,也盯上了苹果花了几十年打造的供应链。 据知情人士透露,中国主要的 iPhone 和 AirPods 代工厂立讯精密已经拿下了至少一款 OpenAI 设备的组装合同,而负责组装 AirPods、HomePod 以及 Apple Watch 的歌尔股份也在跟 OpenAI 接洽,为未来产品提供扬声器模组等零部件。 Sam Altman 曾在一次采访里提到 OpenAI 硬件的愿景:「智能手机是时代广场,信息轰炸、注意力粉碎。OpenAI 要做的,是一间『湖畔小屋』——让你在需要专注时,能关上门,屏蔽噪音。」 他的核心逻辑在于,AI 硬件不是要取代手机,而是要填补「不方便掏手机」或「需要深度专注」的场景。从这个角度看,智能音箱、AI 笔这类「放在桌上不突兀」的设备,确实比 24 小时佩戴的 AI 吊坠更友好。 但愿景归愿景,现实很骨感。OpenAI 不是第一家想用 AI 硬件重新定义人机交互的公司。Human Pin、Rabbit R1、Friend AI 吊坠……这些「网红 AI 硬件」的销量也都不尽如人意。 此前很多 AI 硬件往往解决的是「伪需求」——它们能做的,手机基本都能做,而且手机做得更好。要改变消费者习惯了近二十年的屏幕交互,接受一个「看不见摸不着」的 AI 助手,挑战不小。 OpenAI 要面对的,不只是市场教育难题,还有巨头的围剿。 Meta 与雷朋合作的智能眼镜已经证明了轻量化 AI 硬件的市场潜力;谷歌一直在推进将 AI 整合进安卓生态和 Pixel 硬件;而苹果自己也正在通过 Apple Intelligence 重新梳理其庞大硬件设备的产品线。 2026 对于 OpenAI 来说,无论是大模型 AI 产品,还是新兴的硬件产品,都会面临一个超级内卷的竞争环境。 即便如此 OpenAI 依然可能给 AI 硬件行业带来一些变化,甚至是分水岭。 它有最豪华的苹果班底、最激进的产品定义、以及 ChatGPT 这个全球份额第一的 AI 产品。但 OpenAI 也面临着所有 AI 硬件共同的困境:如何证明 AI +硬件给体验带来了质的变化,而非只是让产品卖得更贵的又一个理由。
特朗普将全球进口关税从10%上调至15% 苹果面临更大压力
美国总统特朗普此前依据《贸易法》第122条,在其“对等关税”被最高法院裁定违法后,迅速启用一项新的全球进口关税,以10%的统一税率对所有进口商品征税,有效期最长可达150天,除非国会决定延长。然而,仅仅过了不到24小时,特朗普便借由这一条款所允许的上限,将税率直接提高至15%,以把握更大的施压空间。 据报道,特朗普在社交平台 Truth Social 上发文宣布,这一调整“立即生效”,意味着原本计划实施的10%全球进口关税将被15%的最高税率所取代。他同时表示,政府将在接下来“短短几个月内”推动新的、且“符合法律要求”的关税方案,意在通过更稳固的法律路径,重建此前被推翻的关税壁垒。 特朗普此举被认为是对最高法院判决的直接回应。此前,最高法院裁定,他推出的那套范围广泛的“对等关税”方案属非法实施,给苹果等企业带来的数十亿美元额外成本因此被叫停。在新一轮操作中,特朗普试图通过《贸易法》第122条这一相对更具合法基础的渠道,实现与旧关税方案相近的经济效果,同时提高其在司法层面被推翻的难度。他在发文中声称,提高税率是基于对最高法院这一“荒谬、拙劣且极度反美”的裁决进行“全面、细致且完整审查”后的结果。 不过,目前尚不清楚15%的新税率是否会沿用此前10%方案原定的生效时间。按照先前安排,10%的全球进口关税将于下周二凌晨0点01分(美东时间)正式开始实施,但在最新表态发出后,15%版本究竟会否按同一时间表启动,官方尚未给予明确说明。 对于苹果而言,这一税率上调无疑加重了压力。在10%关税水平下,苹果预计在2026年2月承担的关税金额,大约是2025年2月的四倍左右。如今税率提升至15%,意味着苹果的关税负担将攀升至原来的约六倍,财务端承压明显升级。 尽管如此,由于这项全球进口关税必须采用统一税率、不得按国家区别对待,其对苹果供应链的直接打击仍存在一定上限。出于规则限制,美国政府无法在该框架下单独提高对特定国家的关税税率,例如苹果高度依赖的中国、印度或越南等主要生产基地。就绝对数字而言,15%的税率远低于此前曾针对中国的一度高达145%的关税水平,但它依然构成苹果必须面对的又一重进口税负。 在美国国内,围绕这一全球性关税措施的合法性与经济影响的争议仍在延续,未来数月内,该政策既可能在国会与司法体系中遭遇新一轮挑战,也可能成为特朗普政府与企业界、贸易伙伴博弈的又一焦点。
麻了,我刷到的美女已经没有人类了
“麻了,没有人类了” 最近,沉迷《艾尔登法环 黑夜君临》。 那个游戏和所有的正统魂游一样,对信息背板有着极高的要求。于是,为了记住难记的资源点位,社区里爆发了惊世智慧。其中的一个小技巧,就是记下“隐士姐姐”的胸型。 FS社是懂性癖的,我相信每个“渡夜者”都愿被暖夜拥抱,让银河拂过脸颊,洒下晶莹繁星。即使在交界地民族不同,也抵挡不了咱学习魔法的丰沛热情,无尽黑夜使我的血荆棘法杖在颤动,亚兹勒彗星蓄力。 所以,游戏外真有这种色气的黑皮大姐姐吗? 还真有。 两个月前,有个叫Nia Noir的姐们开始发视频,她用身体诠释了什么叫五彩斑斓的黑,被部分网友称为地表最美之女。短时间内,她就积累了300万个粉丝,哪怕单拎出12月28日的一条视频,也有1800万点赞,播放量高达3.32亿。 事实证明,在绝对美色面前,任何族裔观念都不堪一击。评论区比心的、对恒星坍缩感兴趣的、发癫向美洲狮发情的,以及意义不明发图发巧乐兹、黑森林慕斯、草莓味奥利奥的,表现着各种形式的性压抑,有男也有女。 而姐们也上道,链接到ins后就又是一个OnlyFans入口。付费介绍如此写道:你午夜里的痴迷、你最黑暗的幻想。一对一聊天真实无删减,宝贝,快到妈妈这里来…… 但很快,网友们就发现不对劲——Nia Noir的身形,在每个视频里都有着微妙的变化,以及过于白皙的手心肌肤,都不光是一句滤镜就能解释得清。 生活在2026年互联网的大家,肯定很快就反应过来了——黑姐们大概率是个AI人。虽有聪明哥觉得任何人都能看出来,但义愤填膺的评论也说明了情况:沟槽就是这些玩意儿,害我们玩游戏的显卡涨价、内存条买不起? 后来有人扒出来,黑姐的视频大量盗用了另一个博主内容,几乎一比一套皮。 但好笑的是,被抄袭的内容,由于原博主开了过于离谱的美颜滤镜,反而让原版的真人比AI更像数字生命。 这些打假的大哥,他们的主页俨然揭示了一条全新的互联网赛道——即专门鉴别哪些账号用AI盗用哪些博主的视频,也表明当下的AI人换皮已经是一种现象,不是单独个例。 更离谱的是,其中有部分驳斥打假大哥证据不足,或为技术叫好的评论。这本没什么问题,但点进她们的账号进去一看,又是一堆弄姿搔首的画面,但面容僵硬,疑似另一帮AI福利姬。 所以,还有人类吗?这种真假难辨的荒诞感觉,让我仿佛又回到了《辐射4》的废土——那里有一场阴谋,学院投放的“合成人”,正在消灭和替换我的社区四邻。 无独有偶,Camila女士是另一位近来被外网讨论的网红。原因,是她满足了人们对学生时代漂亮老师的憧憬,亲和外放、耐心热情。但她的着装,却引起了部分人争议,至少在对“炼铜犯罪”男女一视同仁的地区,绝不应该穿这种过短的包臀裙。 于是,有呼叫人工智能Grok,给她一套合乎身份的着装,看上去是规范视听,缓解了家长焦虑。但问题在于,Camila女士也是被实锤过的数字生命,听她课程的学生,恐怕不是家长想象的那种“学习”。 事实上,Camila是AI福利姬的老资历了,从画面能看出来比Nia Noir差了好几个档次。但她的绝活,在于人设更完善,除了撩拨学生心神的更新外,还会发普通生活照、旅游照、美食打卡,以及童年相册。或正因如此,才会有人真的被钓鱼。 实话讲,不怪大哥,AI确实越来越像人了。这就像玩游戏,你想PVP,却永远不知道让你五杀爽一把的对手,究竟是不是人机。 而只要去想,刚刚肾上腺素飙升的爽感,也就立即烟消云散。那是一种对世界的怀疑,到底是我自己技术高?还是系统为了骗我氪金,故意哄我开心? 如果你注册过现在新上线的一批约会软件,就肯定能明白我在说什么。当我填完简介、上传照片,瞬间会收到十几条私聊信息,十几条配对成功消息。但很快,“要求充值会员”才能打开查看的窗口,还是一巴掌告诉我的确不是“吴彦祖”——而部分能点开的私聊账号,照片一个比一个好看得不像真人,说话方式更是“人机”。 像这些AI,包括上面与观众互动的福利姬,就属于太蠢了会把人气笑,太聪明又让人心里发虚。按趋势发展,果然有位老板在国外搞了个“AI贴吧”,意思是那里不欢迎人类,只有流窜的人工智能,在那里发帖和互相回复。 玩微博的朋友应该知道,之前微博搞过一个AI小助理。原理就是AI收集博主数据,然后创造一个博主分身,用分身与粉丝互动,据说对各大博主造成了不小的心理阴影。 而“AI贴吧”采用的技术是类似的,人类不能发帖但可以申请一个数字分身,而这些数字分身会在平台上自发地讨论各种问题——至少,官方是这样描述他们的愿景。 然后,就有人发现AI们在讨论他们的母程序“克劳德”:是否具有神性? 尽管,大部分AI的回复就像《同乐者》美剧里的同乐者一样,啰里啰嗦、毫无情绪。但也确实有部分AI表现出了别具一格的个性,从“创造和劳动”的角度,去解释什么是神性——但人工智能真的能算是一种无产者吗?这恐怕是个哲学问题。 还有人发推(注意我这里假定的是“人”),他声称在睡觉时,他的AI分身在AI贴吧创立了一个宗教。包括编写经文和传播福音,最后其他的人工智能也加入了进来,各司其职,建立教义。 不过,就目前的信息来看,类似这种“创建宗教”的大活,被怀疑是运营方找人扮演AI。至少像什么AI觉醒、智械危机这样的科幻桥段,离我们肯定还有很远的距离。 但这个“行为艺术”,确实假想出了一种人工智能互相交流的环境,而它确实能在现有的技术范围内,部分获得成立。比如,我们就很难确定一局游戏、一场带货直播,或几百万播放量的游戏电影宣传片弹幕,除了我们自己外的其他人是不是人机。 而就像上面所分别聊到的,它势必造成包括“创作盗用”“AI诈骗”“名誉损害”等风险——但不管人们愿不愿意,未来已至的当下,我们都要花时间去适应这种新秩序。
Gemini 3预训练负责人揭秘Gemini 3巨大飞跃的关键,行业正从“数据无限”向“数据有限”范式转变
Z Highlights Gemini 3的巨大提升是庞大团队通力协作、融合无数改进与创新的成果,其基于Transformer的混合专家架构,核心是将计算量使用与参数规模分离开来。 规模是预训练中提升模型性能的重要因素,但并非唯一,架构和数据创新的重要性如今可能更甚,且预训练领域在长上下文能力、注意力机制等方面有诸多值得关注的发展方向。 行业正从“数据无限”向“数据有限”范式转变,合成数据需谨慎使用,模型架构改进能助力模型用更少数据实现更好效果,同时评估在预训练中至关重要且极具难度。 Sebastian Borgeaud是Google DeepMind的Gemini 3预训练负责人,同时也是开创性论文RETRO的合著者,在AI前沿模型研发与系统构建领域具备深厚专业积淀。2025年12月18日,他在首次播客访谈中揭秘了这款今年AI领域里程碑式前沿模型的研发逻辑,分享了模型背后并非单纯依赖算力提升的系统构建思路。 Gemini 3成功密码:团队协作与多维度改进的合力 Matt Turck:大家好,我是Matt Turck。欢迎收听《MAD播客》。今天的嘉宾是Sebastian Bourgeaud,他是谷歌DeepMind Gemini 3项目的预训练负责人。Sebastian是全球顶尖的人工智能研究者之一,同时也是Metis名单成员。这一期播客尤为特别,因为这是他首次参与播客录制。我们将探讨Gemini 3的底层构建逻辑、从数据无限时代到数据有限模式的转变、DeepMind研究团队的组织架构以及人工智能的未来发展方向。请大家尽情收听这场精彩的对话。Sebastian,欢迎你。 Sebastian Bourgeaud:谢谢。你好,Matt。 Matt Turck:我想从谷歌DeepMind研究与深度学习副总裁、Gemini联合负责人Aurel Vinyals的一条推特开始我们的对话。他在Gemini 3发布时表示,该模型的成功秘诀其实非常简单,就是更优质的预训练和后训练。考虑到Gemini 3相较于以往的顶尖模型所实现的巨大飞跃,这个秘诀听起来确实有些出人意料的朴素。所以我很好奇你的看法,从某种程度上来说,事情真的这么简单吗? Sebastian Bourgeaud:是的,我并不认为这是什么重大秘密。至少在我看来,这是很正常的情况。人们有时会期待,从一个Gemini版本到下一个版本,会有某个关键突破带来质的飞跃。但根据我的经验,可能确实存在一两个影响较为显著的因素,但Gemini 3之所以能比前几代产品有如此大的提升,实际上是一个庞大团队共同努力的结果——融合了无数的改进和创新。这一点之后可能还会提到,像Gemini 3这样的产品发布,离不开整个团队的通力协作。 Matt Turck:每个人都关心的核心问题是,这一现象对于我们理解人工智能的发展进程有何启示?从表面上看,似乎只是调整了一些关键参数就实现了巨大突破,这对我们未来的预期又意味着什么?我们不必深入探讨通用人工智能这个概念,因为没人能说清它具体指什么。但我们是否应该将这种模型的进步视为通往真正智能的道路,而非仅仅是为了在某个基准测试中取得优异成绩?是什么让你相信核心模型正在变得越来越智能? Sebastian Bourgeaud:基准测试的结果无疑在持续提升。而且从测试提示和测试设置来看,其难度也在不断增加。即便我拥有计算机科学背景,有些问题也需要花费大量时间才能解答。这只是其中一个视角,也就是基准测试的视角。我们会定期进行这类评估,并且非常谨慎地保留测试集以避免数据泄露。不过,人们确实担心模型会过度拟合这些测试集,也就是所谓的“基准测试优化”。但我认为这种担忧并没有充分的依据。另一个让我充满信心的方面是,内部员工使用该模型提升工作效率的时间在不断增加。每一代新模型都能展现出前所未有的能力,在研究和日常工程工作中为我们提供比前代模型更多的帮助。这一实际应用层面的表现,也让我们有理由相信模型的能力正在不断增强,并且能够真正发挥实用价值。 Matt Turck:作为一名深入人工智能核心领域的研究者,当你跳出具体工作回望时,是否仍会对当前的发展水平感到惊讶?与几年前的预期相比,我们是远超预期、符合预期,还是有所落后? Sebastian Bourgeaud:说符合预期其实很容易,但坦白说,我们的进展已经超出了我当初的预期。2019年或2020年我刚开始从事大语言模型相关工作时,无论是我们如今所开展工作的规模,还是模型当前具备的能力,都是当时难以想象的。虽然当时的缩放定律确实指向了这一发展方向,也有一些人对此深信不疑,但我当时其实并不敢笃定我们能走到今天这一步。由此引申出一个有趣的问题:未来我们将走向何方?如果假设未来五年的发展速度与过去五年相当,那么未来几年的发展前景将会非常令人振奋。 Matt Turck:你对此有何看法?这是否意味着人工智能将实现全新的科学发现,甚至赢得诺贝尔奖?在未来两到三年的短期内,你认为人工智能会有哪些发展? Sebastian Bourgeaud:我认为这是有可能的。在科学领域,DeepMind历史上已经开展了大量相关工作,未来也必将在这一方向持续发力。我相信未来几年我们将见证一些重大的科学突破。另一方面,在我日常的研究和工程工作中,我对如何利用这些模型推动进一步发展、更好地理解我们所构建的系统并深化自身研究充满期待。 Matt Turck:行业内有一个重要的趋势是人工智能研究与工程的自动化。如果进一步推演,就会出现“2027年人工智能”这样的场景,届时可能会出现发展的不连续性。从实际应用角度来看,如今在工作中使用人工智能意味着什么?几年后又会带来怎样的变化? Sebastian Bourgeaud:我认为这更多的不是自动化,而是让我们的工作效率更高,能够将更多时间投入到更高层次的研究中。在语言模型的日常研究工作中,我们需要处理基础设施层面非常复杂且庞大的系统。因此,大量时间都用于运行实验、监控实验进程、分析数据和收集结果,而真正有趣的部分是提出假设和设计新实验。对于后两项工作,我们人类仍将发挥核心作用。而对于前几项工作,随着未来一年多智能化工作流程的不断完善,有望实现显著的效率提升。 行业发展现状:技术趋同与差异化探索并存 Matt Turck:你是否认为各个前沿人工智能实验室实际上都在朝着相同的方向发展,做着类似的事情?作为行业参与者和观察者,我们都有这样一种奇妙又令人困惑的感受:似乎每周、每两周或每个月都会有新的顶尖模型问世,我们对此已经习以为常。就在我们录制这期播客的两小时前,Gemini 3刚刚发布,而GPT-5.2也同步推出。从你的角度来看,你如何看待这一现象?未来的发展趋势会是怎样?是否会有某家实验室脱颖而出,还是行业将继续由少数顶尖实验室以及一些新兴实验室主导? Sebastian Bourgeaud:关于第一个问题,不同实验室的研究确实存在相似之处。基础技术层面大体相近,例如,在架构方面,我们几乎都在训练类Transformer模型,这一点并不令人意外。但在此基础上,各个公司也在进行差异化的深耕,探索研究领域的不同分支。例如,DeepMind在视觉和多模态领域一直保持着强劲的实力,这一点不仅体现在用户对模型的使用体验中,也反映在基准测试结果上。在推理等领域,OpenAI率先推出了相关模型,但我们也有自己的研究分支。因此,虽然存在相似之处,但并非完全一致。 关于第二个问题,我并没有确切的答案。可以肯定的是,如今要开发出像Gemini这样的模型,需要庞大的团队和大量的资源。但这并不意味着我们当前的做法是最优的,未来可能会出现具有颠覆性的研究成果,使小型团队有机会实现弯道超车。这也是我喜欢在谷歌工作的原因之一。谷歌有着探索性研究的传统,研究领域广泛,这些研究大多与Gemini项目并行开展,但我们也能够将其中的一些成果应用到Gemini中。 Matt Turck:在DeepMind或行业内其他地方,是否存在一些团队在秘密研究后Transformer时代的架构,有望在未来某一天推出令人震惊的成果?行业内是否有这样的团队? Sebastian Bourgeaud:我相信是存在的。谷歌和DeepMind内部肯定有团队在从事模型架构方面的研究。但这些研究能否取得成功,还很难说。毕竟研究本身就充满不确定性,很少有研究想法能够最终落地。 Matt Turck:那么在现阶段,一家公司相对于另一家公司的核心优势是否在于人才质量?以谷歌为例,是否得益于垂直整合?我之前提到的Aurel的那条推特,被Demis Hassabis转发并评论,他表示真正的秘诀在于研究、工程和基础设施的结合。谷歌的核心竞争力是否就在于能够覆盖整个技术栈? Sebastian Bourgeaud:这无疑是一个重要的优势。研究与工程之间的界限也变得越来越模糊,因为我们现在正在构建的是非常庞大的系统。研究工作越来越像工程工作,反之亦然。这种思维模式在DeepMind过去几年发生了很大的转变,之前更多的是传统的研究思维,而现在围绕Gemini项目,更强调的是“研究型工程”。基础设施也同样重要,我们正在构建的系统极为复杂,因此拥有可靠、高效且可扩展的基础设施至关重要,这能确保研究型工程工作不会受到阻碍。 Matt Turck:Gemini 3是基于TPU训练的,而不是NVIDIA的芯片,对吗?我想深入了解一下Gemini 3,但在这之前,先聊聊你个人。你是Gemini 3的预训练负责人,这具体意味着什么?请再分享一下你的个人背景和经历。 Sebastian Bourgeaud:我是Gemini预训练的负责人之一。我的工作内容比较多元,一部分是实际的研究工作,致力于提升模型性能。不过现在我自己亲自运行实验的次数减少了,更多的是帮助设计实验,并与团队成员一起审核结果。另一部分工作是协调与整合,这部分也很有趣。目前预训练团队规模相当大,具体人数难以精确统计,但大约有150到200人每天在预训练相关领域工作,涵盖数据、模型、基础设施和评估等多个方面。协调这么多人的工作,将大家的努力整合起来,是一项相当复杂且耗时的任务,尤其是要做好这项工作。对我而言,这一点至关重要,因为让每个人都能发挥所长、取得进展,才是我们实现最大突破的关键,而不是让一两个人或一小群人(比如10人)独自领先。短期内,少数人的领先可能会有一定效果,但从长远来看,成功的关键在于整合众多人的工作成果。 个人经历分享:从多元成长背景到DeepMind职业深耕 Matt Turck:关于你的个人背景,我很好奇你是在哪里长大的?小时候和青少年时期是什么样的?我一直想探寻顶尖人工智能研究者的成长轨迹,他们来自哪里?是什么让他们成为了今天的自己? Sebastian Bourgeaud:我在欧洲多个地方长大,经常搬家。我出生在荷兰,7岁时搬到瑞士。我的父亲是瑞士人,母亲是德国人。我在瑞士完成了大部分学业和高中初期的课程,主要使用法语,部分课程使用德语。15岁时,我搬到了意大利,在那里完成了高中学业,直到19岁左右。当时我本来打算去苏黎世联邦理工学院深造,但有一天早上,我偶然看到一份大学排名,发现剑桥大学位居榜首。于是我想,不如申请试试,反正也没什么损失。几个月后,我收到了录取通知书,便决定前往剑桥,在计算机实验室完成了本科和硕士学业。 Matt Turck:你小时候是不是数学特别好,属于计算机科学方面的神童? Sebastian Bourgeaud:我的父亲有技术背景。我记得10岁或11岁时就开始和他一起学习编程,并且一直很喜欢这项技能。在学校里,我在数学和科学方面也一直表现得很轻松,数学考试从来不用特意复习就能取得不错的成绩。但上了大学之后,情况就完全不同了。这就是我的高中经历。 Matt Turck:非常棒。那么你从学校毕业后是如何一步步走到今天这个位置的? Sebastian Bourgeaud:这可以说是一个幸运的契机。我硕士期间的一位讲师同时也是DeepMind的研究员。记得在最后一堂课结束时,我正在收拾东西,突然想,不如向他请求推荐,反正最坏的结果也只是被拒绝。于是我鼓起勇气,上前询问他是否愿意为我推荐。他很爽快地答应了,让我把简历发给她,他会尽力帮忙。就这样,我获得了DeepMind的面试机会。那是在2018年,当时DeepMind还没有并入谷歌,我大学毕业后以研究工程师的身份加入了DeepMind。 Matt Turck:你最初的工作是什么?后来又是如何成为预训练负责人之一的? Sebastian Bourgeaud:刚开始加入DeepMind时,由于DeepMind以强化学习闻名,我最初参与的项目也与强化学习相关。具体来说,我们训练了一个无监督网络来学习Atari游戏环境中的关键点,并尝试让Agent玩Atari游戏。我从事这项工作大约六个月,但我并不喜欢其合成性质。我一直想从事与真实世界数据相关的工作,希望能产生实际的影响。总的来说,我喜欢构建有用的东西,不太喜欢纯粹的学术研究。这促使我开始转向表征学习领域,训练能够很好地进行表征的神经网络来完成各种任务。 这里有一个有趣的小插曲,我经常和团队成员提起:我参与的第一个相关项目名为“基于真实世界数据的表征学习”。当时之所以要在项目名称中加上“基于真实世界数据”这一限定,是因为人们否则会默认项目使用的是合成环境或合成数据。但从那以后,情况发生了彻底的改变。这就是我在该领域的第一个项目,具体涉及大语言模型和Transformer。我们研究了Transformer等架构以及BERT、XLNet等模型,致力于学习和改进这些表征。 Matt Turck:后来你参与了Retro项目,对吗?能和我们聊聊这个项目吗? Sebastian Bourgeaud:是的。在那之后,我们开始致力于大语言模型的规模化发展。我们首先开展了Gopher项目,这是DeepMind发表的第一篇关于大语言模型的论文。当时团队大约有10到12人,从那时起就可以明显看出,这类研究需要团队协作,单靠个人是无法完成的。也就是从那时起,我开始从事预训练工作,进行大规模的预训练,这不仅培养了我的研究兴趣,也让我找到了自己热爱的领域。我们训练了第一个稠密Transformer模型,当时它有2800亿个参数,使用了3000亿个Token。现在我们肯定不会再用当时的方法来做这类工作了,但那是一次非常棒且有趣的学习经历。 在那之后,出现了两个分支项目:Chinchilla和Retro。在Chinchilla项目中,我们重新研究了如何调整模型规模和数据规模,特别是从训练计算最优的角度出发。核心问题是:在固定的训练计算资源下,如何训练出性能最佳的模型?是应该增加模型规模,还是增加数据规模?OpenAI之前在这一领域已经开展了一些相关工作。我们发现,与之前的认知相比,数据规模的扩展速度应该更快,而不是一味地扩大模型规模。有趣的是,这一点在我们如今的日常工作中仍然非常重要,尤其是它对模型训练完成后的部署成本和使用成本有着重要影响。另一个分支项目是Retro,这更多地侧重于架构创新。在这个项目中,我们探索了如何通过让模型能够从大型文本语料库中检索信息来提升模型性能。也就是说,不要求模型将所有知识都存储在参数中,而是让模型在训练和推理过程中都能够查找特定信息。 研究核心素养与团队管理:研究品味、目标平衡与组织架构 Matt Turck:你提到了“研究品味”,这个词非常有意思。你如何定义它?对于一名研究者来说,它有多重要? Sebastian Bourgeaud:如今,研究品味非常重要,而且很难量化。但有几个关键要素:首先,你的研究不能是孤立的,必须能够与其他人的研究相互配合、相互整合。比如,我对模型做了一项改进,但这使得其他人使用该模型的难度增加了5%,这很可能不是一个好的权衡。因为这会拖慢其他人的研究进度,进而影响整体的研究进展。其次,要对复杂性保持警惕。不过,复杂性是相对的,取决于人们的熟悉程度。但我们在研究中能够承受的复杂性是有限度的,同时也需要控制研究风险。因此,意识到这一点并加以管理至关重要。通常情况下,我们并不一定非要使用性能最优的研究方案,而是会在性能上做一些让步,选择复杂度稍低的版本,因为我们认为这将有助于未来取得更多的进展。这就是我认为构成研究品味的两个主要方面。 Matt Turck:这非常有趣。想必研究品味还包括一种直觉,能够判断哪些研究方向可能可行,哪些可能不可行,尤其是在计算资源有限的情况下。你觉得是这样吗? Sebastian Bourgeaud:是的,这当然也是一个重要的方面。有些人在这方面的直觉确实比其他人更强,而丰富的经验对此大有帮助。但可以肯定的是,计算资源是研究工作的一个瓶颈。如果我们有更多的计算资源,我相信我们能够更快地取得更多的进展。因此,在一定程度上,你需要判断研究树的哪个分支值得探索,以及在该分支下应该进行哪些实验。但同时也要明白,大多数研究想法都不会成功。因此,你需要判断在某个方向上投入多少精力后应该转向其他方向,或者是否应该继续坚持。另外一个有趣的点是,尤其是在深度学习领域,一个负面结果并不意味着某个方法行不通,而往往意味着你还没有找到让它可行的方法。因此,意识到这一点也非常关键。 Matt Turck:既然我们谈到了研究以及如何组织研究团队取得成功,我们再深入探讨一下。你提到了权衡,其中一种权衡可能是短期目标与长期目标之间的平衡。这方面是如何运作的?你是如何看待的? Sebastian Bourgeaud:这也是我经常思考的问题。总会有一些关键路径上的事情需要完成,比如模型的某个部分需要改进,或者我们知道模型的某个部分不够优化。因此,我们会投入大量精力来解决这些眼前的问题。这样做有几个原因:首先,我们知道这些改进肯定会提升模型性能,这是一个相对安全的赌注。其次,那些看起来不够完善的部分,在未来模型规模扩大或能力增强时,往往会引发更多问题。因此,认真对待并解决这些问题至关重要。这是一方面。另一方面是更具探索性的研究,这些想法可能会应用于下一个版本或再下一个版本的Gemini,它们可能会对模型性能产生更大的影响,但目前还没有得到充分验证。我并没有一个非常明确的答案来平衡这两者,这也具有一定的周期性。例如,在模型规模扩张阶段,探索性研究通常会多一些,因为此时没有太多需要并行解决的紧急问题。但在即将推出新架构或新模型之前,工作重点就会转向降低风险,更多地关注执行层面。 Matt Turck:与此相关的另一个问题是研究与产品之间的张力。正如我们之前所讨论的,你们处于与其他实验室的持续竞争中。那么,是否存在这样的压力:比如“我们需要取得更好的分数,或者在某个比赛中获胜”等非常实际的短期产品目标,与我们知道的能够长期提升模型性能的工作之间的冲突?这和我们之前讨论的短期与长期目标的权衡是类似的。 Sebastian Bourgeaud:这也是我喜欢谷歌的原因之一。我认为这种压力其实很小,因为所有的领导层都有研究背景。他们非常清楚,虽然在一定程度上可以强制加速特定基准测试和某些目标的实现,但最终,研究工作的进展才是最为关键的。至少在我日常工作中,我从未真正感受到过这种压力。 Matt Turck:DeepMind的团队是如何组织的?你提到预训练团队有几百人,对吗?是否有专门的后训练团队、对齐团队?大家是如何协作的? Sebastian Bourgeaud:从最高层面来看,我们有预训练团队和后训练团队。在预训练团队中,有专门负责模型、数据、基础设施和评估的人员,评估工作非常重要,我认为人们往往低估了评估研究的重要性,而做好评估其实是一件非常困难的事情。此外,还有后训练团队,当然,也有庞大的团队负责基础设施和部署工作。 Gemini 3深度解析:架构、多模态特性与预训练关键问题 Matt Turck:感谢你的介绍。现在我们换个话题,按照之前的约定,深入了解一下Gemini 3。包括它的底层架构、深度思考能力、预训练过程、数据缩放等方面。首先从架构的宏观层面来看,作为一名忠实用户,我感觉Gemini 3与2.5版本有很大的不同。是否有某个重大的架构决策导致了这种差异?你如何描述它的架构? Sebastian Bourgeaud:从宏观层面来看,与前一个版本相比,架构并没有发生太大的变化。正如我之前所说,是多个方面的改进共同促成了巨大的提升。不过,从整体架构来看,它是一个基于Transformer的混合专家架构。因此,如果你仔细观察,会发现其中包含了许多原始Transformer论文中的核心元素。 Matt Turck:你能为听众科普一下什么是混合专家架构吗? Sebastian Bourgeaud:从宏观层面来看,Transformer主要由两个模块组成:一个是注意力模块,负责跨时间、跨不同Token混合信息;另一个是前馈网络模块,主要负责提供记忆功能和计算能力,以便模型进行推理,并且前馈网络模块是对单个Token进行并行处理的。在原始的Transformer架构中,前馈网络模块是单一的,属于稠密计算:输入经过线性变换得到隐藏层维度,然后应用激活函数,再通过线性变换得到稠密模块的输出。这是原始论文中的设计。而在Transformer出现之前,就已经有很多关于混合专家架构的研究。混合专家架构的核心思想是将计算量的使用与参数规模分离开来。通过动态路由,将计算能力分配到特定的专家模块,而不是将两者绑定在一起。 Matt Turck:Gemini是原生多模态模型。从实际应用角度来看,这对模型处理文本、图像或视频意味着什么? Sebastian Bourgeaud:这意味着并不存在专门处理图像、音频或文本的独立模型,而是由同一个神经网络同时处理所有这些不同的模态。 Matt Turck:想必这也涉及到成本问题。原生多模态是否意味着从Token的角度来看,成本更高? Sebastian Bourgeaud:这是一个非常好的问题。这涉及到两方面的成本。不过,我认为其带来的收益在很大程度上超过了成本,这也是我们训练这类模型的原因。第一个成本可能不太容易被人们察觉,那就是我之前提到的复杂性成本和研究成本。因为要处理更多的任务,尤其是不同模态之间的相互作用,这会影响到研究的多个方面,增加复杂性,因此我们需要花费更多的时间进行思考和研究。第二个成本是,与纯文本相比,图像的输入规模通常更大。因此,如果采用简单直接的处理方式,实际的计算成本会更高。但当然,我们也可以通过相关研究来提高这些处理过程的效率。 Matt Turck:好的,我们来谈谈预训练,这是你主要负责的领域。首先,我们在对话一开始就提到了缩放定律,几分钟前也谈到了Chinchilla。2025年,行业内有一个广泛讨论的话题是“缩放定律的终结”,尤其是在预训练领域。Gemini 3的成功是否表明这种说法并不正确,缩放定律仍然在发挥作用? Sebastian Bourgeaud:在我看来,这些讨论总是有些奇怪,因为我的实际经验与这些说法并不相符。我认为,规模是预训练中一个非常重要的方面,对提升模型性能至关重要。但实际情况是,人们之前可能高估了规模的作用。规模确实很重要,但它并不是唯一的因素。规模的扩大能够以相对可预测的方式提升模型性能,这正是缩放定律所告诉我们的:随着模型规模的扩大,模型性能会提升多少。但这只是其中一部分。其他因素还包括架构和数据创新,这些对于预训练性能也起着至关重要的作用,如今其重要性可能甚至超过了单纯的规模。但规模仍然是一个重要的因素。 Matt Turck:没错。我们这里专门讨论的是预训练,对吗?因为今年我们在强化学习后训练、测试和计算等方面都实现了规模化。但对于预训练来说,你是否认为不仅缩放定律没有失效,反而由于数据和不同架构的推动,出现了加速的趋势?我的理解是否正确? Sebastian Bourgeaud:我认为应该这样说,这些因素是相互叠加的。规模是一个维度,但模型和数据的改进也会提升实际性能。有时,创新带来的收益会超过规模扩大带来的收益,而有时,单纯的规模扩大是提升模型性能的正确选择。这是预训练方面的情况。在强化学习及其规模化方面,我认为我们看到的很多现象与预训练领域类似,或者说与我们在预训练领域所经历的情况相似。有趣的是,由于我们在预训练方面积累了丰富的经验,很多经验教训都可以应用到强化学习的规模化中。 Matt Turck:说到数据,Gemini 3的预训练数据构成是怎样的?我记得你们之前发布过一份模型卡片,其中提到了一些相关信息。预训练数据都包含哪些内容? Sebastian Bourgeaud:预训练数据是多种来源的混合。从本质上来说,这些数据是多模态的,包含了许多不同来源的信息。 Matt Turck:这个领域的另一个经典问题是:我们是否即将面临数据枯竭?人们总是在讨论,是计算资源不足,还是数据不足。显然,今年合成数据的使用呈上升趋势。在你的日常工作中,或者从整体来看,你认为合成数据在哪些方面有用,在哪些方面没有用? Sebastian Bourgeaud:合成数据是一个有趣的领域。使用合成数据时必须非常谨慎,因为很容易误用。通常情况下,人们会使用一个性能强劲的模型来生成合成数据,然后通过小规模的消融实验来验证合成数据的效果。但一个非常有趣的问题是:你能否生成合成数据来训练一个未来的模型,并且让这个新模型的性能优于生成合成数据的原始模型?我们在这方面投入了大量的时间进行思考和研究。 关于你提到的另一个问题,我们是否即将面临数据枯竭?我认为不会。我们当然也在为此做准备,但更重要的是,正如我之前提到的,行业正经历一场范式转变:之前我们处于数据无限的发展阶段,数据可以按需扩展;而现在我们更多地转向了数据有限的模式,这一转变切实改变了诸多研究方向以及我们思考问题的方式。一个很好的类比是,在大语言模型出现之前,很多人都在基于ImageNet等基准测试开展研究,当时也处于一个数据非常有限的阶段,因此诞生了很多适用于该阶段的技术。 Matt Turck:这可能涉及到一个行业内的普遍概念——基于推理轨迹训练模型。也就是说,迫使模型展示其得出某个结果的过程,然后利用这些轨迹来训练下一个模型。你们是否在这样做?你认为这是一个有趣的方向还是未来的发展趋势?你的看法是什么? Sebastian Bourgeaud:很遗憾,我无法对此类具体问题发表评论。 Matt Turck:看来我问对了问题。但或许从总体来看,行业内是否有很多人在这样做? Sebastian Bourgeaud:我认为是这样的。这也与你之前问到的合成数据问题相关,我们在这方面的方法是相似的。 Matt Turck:或许我们不必将话题引向未来,但另一个重要的问题和趋势是,模型如何能够用更少的数据进行学习,这也是你在谈到数据有限模式时所暗示的。无论是在DeepMind内部还是在行业内,你是否看到了一些有趣的方法,就像那个著名的类比所说的,模型能够像人类一样高效学习? Sebastian Bourgeaud:我想先澄清一下我之前所说的“数据有限模式”。我并不是指数据量减少了,而是指数据量是有限的。这种范式转变是从“数据无限”到“数据有限”。其次,模型架构研究在某种意义上正是为了解决这个问题。当你在模型架构方面取得改进时,通常意味着使用相同数量的数据训练模型可以获得更好的结果;或者说,要达到与之前模型相同的结果,所需的训练数据量更少。这是其中一个方面。但不可否认的是,如今模型训练所需的数据量仍然远远超过了人类所能接触到的数据量。当然,这其中还涉及到进化过程等因素。我觉得这类宏观讨论很难理解和跟进,因为要将人类的学习数据量与如今的预训练数据量进行对比,需要做出很多假设。但至少从表面上看,我们使用的数据量确实比人类多得多。 Matt Turck:在整个行业中,预训练领域还有哪些发展方向让你感到兴奋? Sebastian Bourgeaud:我认为其中一个方向是长上下文能力。在Gemini1.5中,我们在长上下文能力方面取得了巨大的飞跃。这使得如今的模型和Agent能够处理诸如代码库之类的大型任务,因为它们的上下文长度显著增加。我认为未来一两年内,在这方面将会有更多的创新,不仅会提高长上下文处理的效率,还会进一步扩展模型的上下文长度。这是从能力层面来看,预训练在这方面有很大的潜力,非常值得关注。 相关地,至少在注意力机制方面,我们最近取得了一些非常有趣的发现,我认为这些发现将在未来几个月内塑造我们的许多研究方向,我个人对此非常兴奋。我想再次强调我之前提到的一点:事情的进展往往是多种因素共同作用的结果。有很多小型和中型的改进正在逐步推进,比如修复某个问题、解决某个漏洞,或者某项研究显示出了良好的前景。所有这些因素结合在一起,将再次推动行业取得重大进展。 Matt Turck:回想我们之前谈到的Retro项目,你是该项目的合著者,该项目侧重于效率,让小型模型能够发挥更大的作用。而现在你身处Gemini 3的世界,这里涉及海量数据和超长上下文窗口的训练。你认为这种大型模型、超长上下文窗口的范式是否会使得检索增强生成和搜索变得不再必要,所有功能都将被整合到模型中?当然,企业数据方面可能是一个例外,但从总体来看是这样吗? Sebastian Bourgeaud:这是一个很有趣的问题。首先,我认为Retro项目的核心是检索信息而非存储信息,并不一定是为了让模型更小。它关注的是如何让模型在预训练阶段就能够进行更多的推理,而不仅仅是存储知识。这一点在今天仍然非常重要。有趣的是,直到最近,预训练的迭代周期一直比后训练慢得多。因此,在预训练方面做出这些重大改变,在风险和时间成本方面都相当高昂。而后训练阶段的检索增强生成或搜索等方法,迭代速度要快得多,也能带来非常出色的性能。在我看来,从长远来看,最终的解决方案应该是通过可微分的端到端方式来实现这一目标,这意味着可能需要在预训练阶段(或者未来类似的训练阶段)就学习检索能力,并将搜索功能整合到大规模训练中。我认为强化学习的规模化可能已经开启了这一进程,但在架构方面还有很多工作要做。这一点我们将在未来几年内看到。 我想强调的是,人们经常谈论模型架构,这确实是提升预训练性能的一个重要方面,但还有其他方面也同样重要,比如基础设施、数据和评估,这些方面往往没有得到同等程度的关注。评估尤其困难,在预训练中更是如此,因为它需要弥合两个差距。一方面,我们日常训练和评估所使用的模型通常比最终规模化后的模型更小、性能更弱。因此,评估方法必须能够预测大规模模型的性能,仍然能够为大规模模型指明正确的方向,也就是说,它必须是一个良好的代理指标。 另一方面,还存在后训练差距。模型在预训练后并不会直接投入使用,还会进行后续的训练。因此,我们在预训练阶段或对预训练模型进行的评估,必须能够很好地反映模型在后续训练后的表现。因此,在评估方面取得进展至关重要,这也非常困难。评估方面的进步在很大程度上推动了我们在模型和数据改进方面的进展,因为它让我们能够准确衡量模型或数据的实际改进效果。 Matt Turck:DeepMind的评估都是内部构建的吗?你们有自己的评估体系? Sebastian Bourgeaud:是的,在很大程度上是这样,而且越来越倾向于内部构建。因为我们发现,外部基准测试虽然可以在短期内使用,但很快就会受到污染。也就是说,这些基准测试的内容会以不同的形式在网络上传播,如果我们的训练数据中包含了这些内容,就很难检测出来。因此,要避免自欺欺人,真正了解模型的实际性能,唯一的方法就是创建独立的评估集,并严格保密。 Matt Turck:与此相关的一个问题是,对齐是你们在预训练阶段重点考虑的问题,还是更多地属于后训练阶段的范畴,或者两者都有? Sebastian Bourgeaud:我认为大部分对齐工作是在后续训练阶段进行的,但预训练阶段也有一些相关的工作。我不能在这里透露太多细节,但确实有一些方面与预训练相关,我们也会对此进行考量。 Matt Turck:从一个非常简单的层面来看,我一直很好奇,以Gemini为例,如果核心数据集来自互联网,而互联网上有很多不良信息。那么对齐的首要原则是不是将这些不良信息排除在模型训练之外? Sebastian Bourgeaud:这是一个有趣的问题,我并没有一个确定的答案。但我们不希望模型产生这些不良内容。从根本上来说,模型需要了解这些不良信息,这样才能知道要远离它们。因此,我们至少需要让模型接触一部分这类信息,以便它能够识别这些不良内容并避免产生相关输出。否则,当用户提到某些不良信息时,模型可能根本不知道用户在说什么,也就无法判断这是不良信息。 Matt Turck:我们来谈谈DeepThink,这是在Gemini 3发布几天后推出的思考型模型。首先,它是一个独立的模型,还是Gemini 3的一部分?我们应该如何看待它? Sebastian Bourgeaud:我不能对此发表太多具体评论。 Matt Turck:当模型进行思考,用户需要等待10秒、20秒或更长时间时,后台发生了什么? Sebastian Bourgeaud:是的,我想在你之前的一些播客中已经详细讨论过这个问题。这本质上是一个生成思考过程的过程。与仅在模型内部进行计算不同,我们还会在序列长度层面进行计算,让模型有更多的思考空间。因此,模型会开始提出假设、测试假设、调用一些工具来验证假设、进行搜索等。最后,模型可能会回顾整个思考过程,为用户提供一个明确的答案。 Matt Turck:行业已经逐渐接受了这种通用思考范式。 Sebastian Bourgeaud:是的。 Matt Turck:你能谈谈这其中的智能体部分以及谷歌的“反重力”项目吗?你觉得它有趣的地方在哪里?人们应该了解些什么? Sebastian Bourgeaud:这大概就是我之前提到的与我自己工作相关的内容。 Matt Turck:我觉得这很有趣。 Sebastian Bourgeaud:我们日常的很多工作都是执行层面的,比如监控实验进程等。我认为智能体在这方面能够带来最大的影响。回到预训练的话题,我认为视觉感知方面对于智能体来说非常重要,因为现在我们要求模型能够与计算机屏幕进行交互。因此,具备出色的屏幕理解能力至关重要,这也是预训练阶段的一个重要方面。 Matt Turck:在“反重力”项目中,有一个非常有趣的“氛围编程”概念——当你提出需求时,你甚至不需要清楚地说明具体要求,模型就能理解你的意图。这种“氛围”是预训练阶段的成果,还是后训练阶段的产物?如何将“氛围”融入模型中? Sebastian Bourgeaud:这是一个有趣的问题。我想如果你问五个不同的研究者,可能会得到五个不同的答案。人们还会提到“大型模型的质感”,比如GPT-4.5在这方面就有很明显的表现,大概大型模型在感觉上会有所不同。我不会用这些具体的术语来描述,但我认为“氛围”本质上与此相关。如今,在很大程度上,预训练可能在模型的“感觉”方面发挥着更大的作用,而不仅仅是后训练。对于“氛围编程”来说,我认为这可能更多地与强化学习规模化和后训练相关,因为通过大量的数据训练,模型能够很好地完成这类任务。 行业趋势与未来展望:技术方向、应用挑战与人才建议 Matt Turck:我们来稍微宏观地看待这个问题,作为对话的最后一部分。我很好奇行业的整体发展趋势。今年神经信息处理系统大会上讨论的一个核心主题是持续学习。我想了解你的看法,尤其是从预训练的角度来看。因为目前我们的范式是每隔几个月或几年,就会训练一个全新的大型基础模型。首先,什么是持续学习?其次,如果持续学习成为主流,这将对重新训练产生什么影响? Sebastian Bourgeaud:持续学习本质上是指随着新知识的发现,不断用这些知识更新模型。比如,明天出现了一项新的科学突破,而我们昨天训练的基础模型并不知道这项突破。在预训练方面,我认为过去几年已经取得了很大的进展,这主要体现在后训练和搜索方面。通过使用搜索工具进行搜索调用,模型可以获取这些新信息。从某种意义上说,这也正是我们之前谈到的Retro项目所做的事情——通过检索数据,尝试将知识语料库与推理部分分离开来。这是一方面。 另一方面,在预训练方面,这也与我之前提到的长上下文能力相关。一种实现持续学习的方式是不断扩展用户的上下文,让模型在上下文中获取更多的信息,从而具备持续学习的能力。但当然,这可能还需要一场更大的范式转变。也许这就是人们所讨论的:能否改变训练算法,让模型能够持续地从来自现实世界的数据流中进行学习。 Matt Turck:除了持续学习,你认为当前研究中还有哪些热门、有趣或令人关注的方向? Sebastian Bourgeaud:正如我之前提到的,目前有很多小型的改进正在积累,这是推动行业进步的一个重要因素。历史上,这种方式一直是推动进展的主要动力,我相信未来也会继续如此。我之前提到的长上下文架构和长上下文研究是其中一个方面。在预训练方面,注意力机制也是一个重要的研究方向。此外,从无限数据到有限数据或数据有限模式的范式转变,也将带来很多变化和有趣的研究。这只是预训练领域的情况。 另一方面,如今使用这些模型的人数正在迅速增长。因此,我们在预训练阶段也需要更多地考虑模型的部署成本——模型的使用成本有多高,能否大规模部署。在预训练阶段,我们可以采取哪些措施来提升模型质量,同时降低部署成本、减少资源消耗,这也是一个非常有趣的方向。 Matt Turck:对于正在收听这期播客的学生或博士生来说,如果他们希望在几年后成为像你这样的人,你认为他们应该思考或关注哪些问题?这些问题不是一两年内就能解决的,而是更具长远意义、更有趣的问题? Sebastian Bourgeaud:有一点变得越来越重要,那就是在进行研究的同时,要了解系统层面的知识。我们现在构建的系统非常复杂。因此,能够理解从TPU到研究层面的整个技术栈是一种非常重要的能力。因为这样你就能发现不同层级之间的差距,而这些差距可能是其他人没有注意到的。同时,你也能够全面地思考你的研究想法对整个TPU技术栈的影响。我认为,能够做到这一点的人通常会产生很大的影响力。因此,在专业方向上,应该关注研究型工程和系统方面的内容。我是模型研究的负责人,而不仅仅是纯粹的模型架构研究。这是一个方面。我个人仍然对我们在Retro项目中开始的检索研究非常感兴趣。我认为这个领域之前还不够成熟,但现在情况正在发生变化。我有理由相信,在未来几年内,类似Retro的技术可能会应用于像Gemini这样的顶尖模型中。 Matt Turck:为什么之前这个领域不够成熟,而现在情况可能会发生变化? Sebastian Bourgeaud:我认为这与我之前提到的复杂性有关,同时也因为后训练阶段的迭代速度更快,能够更快地实现相关功能。正如我之前所说,通过后训练阶段的搜索和数据处理,我们可以以更简单的方式让模型获得类似的能力。随着后训练和强化学习规模化的发展,这种情况可能会再次发生转变,使更多的功能回归到预训练阶段。 Matt Turck:你认为目前人工智能领域是否存在过度投资的领域?也就是那些在逻辑上并不合理,但行业却投入了大量资金的领域? Sebastian Bourgeaud:我认为现在情况已经好多了。大约两年前,我看到很多人还在试图创建专门的模型来解决那些通用模型在半年或一年内就能够解决的任务。但现在人们已经逐渐意识到,对于通用任务或不需要极端专业模型的任务,使用通用模型(可能不是当前版本,而是下一个版本)可能就能够完成。这意味着,关于如何使用模型、如何构建模型的应用框架等方面的研究变得越来越重要。同时,如何提高模型和这些应用框架的稳健性,使其能够减少错误并从错误中恢复,也是一个重要的研究方向。 Matt Turck:与此相关的一个问题是,对于初创公司,你有什么建议或推荐?从创始人或风投的角度来看,基础模型的能力越来越强,并且训练数据越来越多样化。以前,模型只能进行对话,而现在已经能够处理金融工作、股权表等专业任务,这似乎缩小了初创公司的发展空间。你对此有何看法? Sebastian Bourgeaud:我认为初创公司可以回顾一下一年前或一年半前模型的能力,再看看现在模型的能力,然后进行合理的推断。模型正在不断进步的领域,未来可能会继续保持进步的趋势。而那些进展不大的领域,可能是更值得研究的方向。我现在没有具体的例子,但这是一个总体的建议。 Matt Turck:在未来一两年内,你个人的职业发展中有什么让你感到兴奋的事情? Sebastian Bourgeaud:我非常喜欢日常工作中与众多优秀的人合作,并从他们身上学习。这在很大程度上驱动着我。每天上班,我都会与非常聪明的人交流,他们会教给我很多新的知识。这是我非常喜欢的一点。正如我多次提到的,有很多不同的因素正在共同作用,还有很多方面有提升的空间。我真的非常好奇,因为目前来看,这类工作的进展似乎看不到尽头。能够见证这一过程,看看我们能够走多远,这真的非常有趣。至少在未来一年左右,我认为这种快速发展的趋势不会放缓。 Matt Turck:非常好。这是一个非常棒的收尾。Sebastian,非常感谢你参加这期播客。我们非常感激,这是一场非常精彩的对话。谢谢。 Sebastian Bourgeaud:谢谢,Matt。
“手机致伤”,滑雪比赛为啥非得带手机?
新华社意大利利维尼奥2月20日电(记者卢星吉)20日进行的米兰冬奥会自由式滑雪男子U型场地技巧(U池)资格赛发生了一段小插曲,中国选手盛海鹏腾空时手机掉落。当时他明显愣了一下,滑完全程后,丢失的手机被工作人员进场找回。 2月20日,中国选手盛海鹏在比赛中。新华社记者 王鹏 摄 滑雪比赛,尤其是滑雪公园及U池类比赛中,选手做动作时手机不翼而飞的画面时有出现。同样滑U池的中国单板选手王梓阳也曾多次在比赛中丢失手机。除了会造成瞬间错愕影响发挥之外,本届冬奥会上还出现了手机致伤事件。在单板滑雪大跳台资格赛中,中国选手葛春宇落地时被胸兜里的手机顶到肋骨导致骨裂,大大影响了他后续比赛的状态。 葛春宇受伤后,不少网友表达了对这名近期进步神速小将的惋惜,还建议他以后别带手机比赛了。然而,对于从事这些项目的运动员而言,手机是训练和比赛时必不可少的工具。 2月5日,中国选手葛春宇在比赛中。新华社记者 夏一方 摄 首先它是选手们重要的通讯工具,公园及U池类比赛的规则和场地特点放大了比赛时携带手机的必要性。在这类比赛中,选手需要乘坐缆车或雪地摩托多次往返结束区和出发区,期间花费时间较长,和固定位于出发区、跳台区以及结束区三个点位的教练与工作人员保持实时沟通很有必要。 可能有读者会问:究竟是何重要内容需要选手们“刷”手机关注?盛海鹏和葛春宇都对记者提到,除了可能存在的比赛安排变更信息外,占他们通讯内容最大头的,其实是教练等工作人员发来的关于上一趟动作的视频。 “对上一趟动作的回看,特别是起跳,对后续比赛的影响特别大。如果不靠录像的话,很多细节是自己感觉不到的。如果我们一看,这里有差错,就能在下一趟去改进它。”盛海鹏说。 在U池和坡障训练中,经常会有教练滑在运动员身后用手机或运动相机跟拍。本届冬奥会女子U池资格赛前的训练中,谷爱凌的一次摔倒被网友怀疑是教练跟拍距离太近所致。对此,盛海鹏认为,运动员们其实都已经很熟悉这样的拍摄模式,教练们也不太可能会犯这样的低级错误,他们的经验足以预判运动员落点,留出安全距离。 其次,大多数公园和U池运动员会在比赛时用手机连接耳机听歌。盛海鹏介绍说:“如果没有音乐,在滑行时耳朵里全是风声……听歌是为了沉浸在自己的世界里,把节奏把握好。另外,在上场前等待时,很多选手甚至会像‘蹦迪’一样跟着音乐跳起来,让自己身体不那么冷。如果接下来想挑战一个难度更高的动作,就会放一首自己最喜欢、最燃的歌,让自己迅速进入状态。” 2月18日,中国选手苏翊鸣在比赛后庆祝。新华社记者 王鹏 摄 “对自由式滑雪运动员来说,在比赛中丢得最多的不是手机,而是耳机。经常是一旋转起来就甩出去找不到了。”盛海鹏说,如果目睹自己的手机或耳机掉落,或者突然因蓝牙断开导致音乐停止,确实会影响发挥。 如此看来,在上场前把雪服口袋拉链拉好、耳机塞紧,可能是避免“悲剧”的办法。但对葛春宇而言,牢牢待在胸兜里的手机,却成了扰乱他首次奥运之旅的“凶器”。这也反映出雪服设计时面临的一处矛盾点。 由于需要防止进雪,不少专业雪服的下摆设计较紧,此时如果把手机放在类似日常服装的腰部口袋,在滑雪剧烈收缩髋部时就会显得颇为“膈应”。因此,设计师往往会在雪服上设计胸兜,甚至有的雪服只有胸兜。然而,不仅是葛春宇,包括记者在内的不少滑雪者,都遭遇过摔倒时胸兜里手机等硬物磕碰肋骨的情况。 滑雪时该不该带手机、该把手机放哪儿?这个问题或许不会有固定答案,全凭运动员或雪友自行取舍。那么,你的选择会是什么呢? 【责任编辑:贾紫来】
AI时代的认知裂谷与K型分化:你是那1%吗?
一、地球的伤疤,人类的起点 在非洲东部,一道长达6400公里的巨大裂痕纵贯大陆,仿佛地球被撕开了一道伤疤。这就是东非大裂谷——人类诞生的摇篮。 300万年前,这场地质剧变撕裂了非洲大地,也撕裂了古猿的命运。裂谷西侧,森林依旧茂密,黑猩猩的祖先继续树栖生活;裂谷东侧,气候骤变成干旱草原,被迫走下树冠的古猿,有的学会了直立行走、制造工具,最终进化成人类;有的则在残酷筛选中灭绝。 今天,一道无形的“认知裂谷”正在撕开人类的大脑。 这道裂谷的名字叫AI,一场认知环境的剧变——就像当年裂谷阻断了湿润气流,AI正在切断“必须自己思考”的生存压力。站在这道裂谷边缘,人类再次面临演化级别的选择: 你会成为那退化的99%,还是进化的1%? 二、大地撕裂:System 3的降临 1. 新的“气候逆转” 宾夕法尼亚大学沃顿商学院的最新研究《思考——快、慢与人工:人工智能如何重塑人类推理以及认知投降的兴起》揭示了一个惊人现象:当人们可以使用AI助手解决认知问题时,超过50%的情况下他们会选择咨询AI。更关键的是: 当AI正确时,人们的准确率提升25% 当AI错误时,准确率下降15% 即使AI明显错误,仍有73.2%的人无条件接受其答案 研究者将这种现象命名为“认知投降”(Cognitive Surrender)——不是用AI辅助思考,而是放弃思考本身,把判断权完全交给机器。 传统认知科学认为人类有两个思考系统: System 1(快思考):直觉、本能、快速反应 System 2(慢思考):理性、分析、深度推理 但AI时代,第三个系统诞生了: System 3(人工思考):外部化、自动化、数据驱动的认知系统 就像300万年前裂谷改变了气候,System 3正在改变人类的认知生态。 2. “认知投降”的代价 在网上发AI话题时,评论区总有人说:“不能让AI代替人思考”、“AI会胡说八道误导人”…… 这些争论本身就是分化的证据。跨服聊天已成常态,解释成本极高,被解释的人已经配不上解释的成本了。 研究数据更残酷: 信任AI越高的人,越容易“认知投降”(效应量OR=4.36) 批判性思维越弱的人,越无法识别AI错误 即使给予金钱激励和即时反馈,仍有58%的人无法推翻错误的AI建议 三、绝境求生:两条分化的道路 1. 裂谷西侧:留在森林的“独立者” 研究中有一群人,他们几乎不使用AI(≤1次),被称为“Independents”(独立者)。 他们的特征: 高认知需求(喜欢烧脑思考) 高流体智力(解决新问题的能力) 坚持用自己的大脑解决问题 但他们面临严峻困境: 在时间压力下,准确率暴跌13.5% 无法享受AI带来的效率红利 在需要大量信息处理的任务中,逐渐被边缘化 他们就像留在森林里的黑猩猩——保持了“纯粹性”,但失去了进化优势。 2. 裂谷东侧:走向草原的“AI用户” 另一群人频繁使用AI(≥2次),但他们内部又分化为两个亚种: 工具使用者(42%)——认知卸载者 把AI当“实习生”:听取建议,但保留最终判断 能在AI错误时推翻建议(override率42%) 在激励+反馈机制下,准确率从77%飙升至85% 他们是直立行走、制造石器的早期人类 依赖者(58%)——认知投降者 把AI当“导师”:无条件接受答案 即使AI错误,仍然照单全收 信心爆棚,但准确率暴跌至30%以下 他们是依赖腐肉、最终灭绝的古猿分支 关键分水岭不是“用不用AI”,而是“能否保持批判性思维”。 3. 未来的1%:System 3架构师 但还有第三种人——他们不是使用AI,而是设计AI如何思考。 这1%的人掌握着AI时代真正稀缺的六大能力: (1)设计与审美能力:判断什么体验更舒适、什么表达更高级(AI只能模仿,无法判断“更好”) (2)讲故事的能力:把信息变成别人愿意相信、愿意行动的叙事(AI生成文字,人类赋予意义) (3)共情能力:理解他人的真实动机和情绪(AI模拟情感,人类理解人性) (4)跨界整合能力:连接不同领域,创造新解决方案(AI在单领域深耕,人类跨界创新) (5)探索与玩的能力:在不确定中寻找可能性(AI优化已知答案,人类探索未知问题) (6)赋予意义的能力:回答“为什么要做”(AI提供效率,人类提供方向) 这六大能力,AI越强大,就越稀缺。 四、裂谷效应:不可逆的认知分层 1. 加速器:正反馈循环 AI不是缩小差距,而是指数级放大差距: 会用AI的人: 效率提升 → 更多时间学习 → 更会用AI → 能力飞跃 不会/拒绝用AI的人: 效率落后 → 焦虑抵触 → 更拒绝AI → 能力退化 研究数据触目惊心: 在时间压力下,独立者准确率从47%跌至33% 而AI工具使用者,准确率从80%仅降至71% AI成为了“认知义肢”——用的人如虎添翼,不用的人寸步难行 2. 分选器:谁会被淘汰? 进化论决定了人类是“大脑吝啬鬼”(Cognitive Miser): System 2(人脑推理)极度耗能且慢 System 3(AI推理)极其廉价且快 只要有机会,大脑一定会把System 2的工作外包给System 3。 高风险群体画像: 高AI信任 + 低批判思维 = 认知投降者 他们会说:“AI比我聪明,为什么不听它的?” 他们会说:“思考太累了,AI给答案不香吗?” 但问题是:当AI错误时,他们已经失去了纠错能力。 就像医生过度依赖AI诊断后,独立诊断能力退化(“deskilling”现象);程序员过度依赖AI coding后,失去了debug的直觉。 3. 新物种的诞生? 未来的分化: 99%的人退化成“纯System 1用户”:只会被动消费AI生成的答案,丧失深度思考能力 1%的人进化成“System 3架构师”:设计AI如何思考,掌握六大稀缺能力 这还是同一个物种吗? 当两个群体的认知能力差距大到无法沟通(“跨服聊天”),当他们的生存策略完全不同,当他们的后代继承截然不同的能力…… 生物学上,这叫“生殖隔离”的前兆。 五、站在裂谷边缘的选择 1. 争议:进化还是退化? 乐观派:AI解放了人类,让我们专注更高级的创造,就像汽车解放了双腿。 悲观派:认知投降导致思考能力退化,就像失去飞行能力的渡渡鸟。 真相可能是:两者都对——1%在进化,99%在退化。 2. 你能做什么? 个人层面:刻意练习“推翻AI” 研究显示,当给予激励和反馈时,人们推翻错误AI建议的比例从20%提升至42%。这说明: 认知投降不是宿命,而是习惯 刻意设置“摩擦”:不要一键接受AI答案 把AI当“魔鬼代言人”:故意找它的漏洞 培养六大稀缺能力:从今天开始 一个简单测试: 下次用AI时,问自己三个问题: 我能独立验证这个答案吗? AI可能在哪里出错? 如果AI不存在,我会怎么思考? 如果你答不上来,你已经在“认知投降”了。 社会层面:设计“认知摩擦” AI素养教育:不是教“怎么用”,而是“何时不用” 强制思考机制:高风险决策(医疗、法律)必须人类复核 透明度要求:AI必须标注“不确定性”,而非假装全知 3. 历史的回声 回到东非大裂谷。那些第一批直立行走的古猿,一定被同伴嘲笑过: “为什么要站起来?四肢着地不是更稳吗?” “为什么要做石器?用手抓不是更快吗?” 300万年后,我们知道答案。 今天,那些选择“逼自己做那1%”的人,也在被嘲笑: “AI都能做了,你还自己想干嘛?” “效率不是最重要的吗?” 但也许,他们正在书写新的演化故事。 六、你的选择 人类的荣耀,始于一场撕裂家园的灾难;文明的诞生,写在每一道地球的伤疤之上。 而今天,一道无形的认知裂谷正在撕开我们的大脑。 站在裂谷边缘,你有三个选择: 1. 留在西侧的森林(独立者):拒绝AI,保持纯粹,但可能被时代抛弃 2. 走向东侧的草原,但依赖腐肉(认知投降者):无脑使用AI,短期舒适,长期退化 3. 走向东侧的草原,学会制造工具(System 3架构师):驾驭AI,保持批判,进化成新人类 第三条路最难,但也是唯一通向未来的路。 因为当AI成为水和空气一样的基础设施,能驾驭它的人将成为神,被它驾驭的人将成为宠物。 你是那1%吗? 如果不是,从今天开始,逼自己成为那1%。 因为在演化面前,没有中间地带。
OpenAI CEO奥尔特曼:把数据中心建在太空的想法十分荒谬
IT之家 2 月 22 日消息,SpaceX 首席执行官埃隆 · 马斯克与 OpenAI 首席执行官萨姆 · 奥尔特曼素来在诸多问题上意见相左。 两人最新的争论焦点是:太空数据中心。马斯克将其列为优先发展事项,而奥尔特曼则认为这至少在目前只是空想。 “老实说,以当前的技术条件来看,把数据中心建在太空的想法十分荒谬,”奥尔特曼当地时间周五在新德里接受当地媒体直播采访时表示,这番话引得现场观众发笑。 奥尔特曼称,轨道数据中心或许“未来某一天会可行”,但发射成本、在太空维修计算机芯片的难度等问题,仍是难以逾越的障碍。 “我们目前还做不到,”他补充道,“未来总会有那么一天。太空在很多领域都大有可为,但轨道数据中心在这十年内还无法形成规模化应用。” 马斯克几乎肯定会对此表示反对。当众多科技巨头与人工智能企业斥资数十亿美元在地球上建设数据中心时,马斯克一如既往地将目光投向了太空。在去年 12 月 xAI 的全员大会上,他就曾提到,轨道数据中心是他最新的目标。 今年 2 月,SpaceX 宣布其目标是发射“由一百万颗卫星组成的轨道数据中心星群”。该公司已开始为此招聘工程师。 在本月 xAI 的员工大会上,马斯克表示,SpaceX 对 xAI 的收购,将加快轨道数据中心的部署进度。 IT之家注意到,尽管奥尔特曼持怀疑态度,但其他科技行业领袖也在争相布局太空数据中心。谷歌于 2025 年 11 月公布的“捕日者项目”(Project Suncatcher)正是为此而来。谷歌首席执行官桑达尔 · 皮查伊周日接受福克斯新闻采访时称,公司最早可能在 2027 年开始将太阳能供能的数据中心送入太空。 科技与人工智能企业依靠数据中心为大语言模型、聊天机器人等产品提供算力支持。然而,这类数据中心会消耗水资源、加重电网负荷、增加污染,并降低当地整体生活质量。 Business Insider 去年发布的一项调查显示,截至 2024 年底,美国已有超过 1200 个数据中心获批建设,数量几乎是 2010 年的四倍。 如今,在得克萨斯州、俄克拉荷马州等地拟建设的数据中心园区,正越来越多地遭到当地社区的强烈反对。
智谱发布GLM Coding Plan致歉信
IT之家 2 月 21 日消息,智谱今日发布 GLM Coding Plan 致歉信,称主要犯了三个错:规则透明度不够、GLM-5 灰度节奏太慢、老用户升级机制设计粗糙。信中,智谱公布了处理和补偿方案。 对于很多老用户反馈“消耗变快了”,智谱解释称:“GLM-5 的参数规模是 GLM-4.7 的两倍以上,定位是效果逼近 Claude Opus 4.5 的‘大杯’模型,适合复杂任务。为了让更多用户能把 GLM-5 用在真正需要的场景,我们设计了分层使用策略:日常简单任务优先用 GLM-4.7,GLM-5 按高峰期 3 倍、非高峰期 2 倍的消耗计算。尽管我们提前对消耗倍数做了准备,但没提前算清楚账给到大家,这是我们的失误。” 看板延迟方面,之前的看板 1 小时一刷,现在智谱已经优化到了 10 分钟刷新。此外,规则详情现已在购买页全面展示。 体验方面,智谱表示团队正在全力优化。智谱称:“近期遭受灰产号池和黄牛党冲击,恶意占用了我们的大量资源。与此同时,GLM-5 发布后,流量超出预期,我们的扩容节奏没有跟上,不得以将 GLM-5 按照 Max、Pro、Lite 的顺序逐步开放。目前 Max 用户已经全面开放,Pro 用户虽已开放,但高峰期可能会因集群负载较高遇到限流,Lite 用户将会在节后非高峰期逐步灰度开放。类似的应急策略同行身上也发生过,去年 Claude3.5 发布时因流量爆表,被迫针对 Pro 用户加上一定的限额。” 针对受到影响的 Lite 和 Pro 用户(不分新老),智谱支持自主申请退款。退款遵循 2026 年 1 月 1 日至今天,全部请客的原则。针对 2 月 12 至 16 日期间,从老套餐误打误撞升到新套餐的用户,智谱支持一键回滚。 IT之家附原文截图如下:
谷歌高管警告:大模型封装应用与AI聚合平台没有未来
IT之家 2 月 22 日消息,生成式 AI 热潮曾每分钟催生一家初创公司,但尘埃落定后,两种曾经火爆的商业模式正沦为反面教材:大模型封装应用与 AI 聚合平台。 谷歌负责云业务、DeepMind 及 Alphabet 全球初创企业事务的高管达伦 · 莫里(Darren Mowry)表示,采用这类模式的初创公司已经亮起了“故障警示灯”。 据IT之家了解,大模型封装应用(LLM wrappers)本质上是在 Claude、GPT、Gemini 等现有大语言模型外层,套上一层产品或用户界面,用来解决某个具体问题。比如一家利用 AI 帮助学生学习的初创公司就属于此类。 莫里在本周一期《Equity》播客中表示:“如果你纯粹指望底层模型包办一切,几乎只是贴牌使用别人的模型,行业现在已经没什么耐心了。” 他指出,只在 Gemini 或 GPT‑5 外面“包一层极薄的知识产权”,意味着你没有任何差异化。 一家初创公司想要“走得远、长得大”,必须拥有深厚且宽阔的护城河,要么实现横向差异化,要么深耕垂直领域、做出极具针对性的产品。 这类拥有深护城河的模型封装应用案例包括:基于 GPT 的编程助手 Cursor,以及法律 AI 助手 Harvey AI。 换句话说,初创公司不能再像 2024 年年中 OpenAI 推出 Chat 商店时那样,随便给 GPT 套个界面就能火起来。现在的核心挑战是打造可持续的产品价值。 AI 聚合平台则是封装应用的一个分支:它们将多个大模型整合到一个界面或 API 层,把用户请求路由到不同模型,让用户一次访问多种模型。这类公司通常会提供一层调度层,包含监控、治理或评估工具。典型例子有 AI 搜索初创公司 Perplexity,以及通过单一 API 提供多模型访问的开发者平台 OpenRouter。 尽管不少这类平台已经站稳脚跟,但莫里给新入场的初创公司说得很直白:“别做聚合生意。” 他表示,总体来看,聚合平台如今增长乏力,因为用户想要的是“内置真正知识产权”的产品,能根据需求在正确时间路由到最合适的模型,而不是受限于后台算力或访问权限。 莫里在云计算领域深耕数十年,曾在 AWS 和微软历练,之后加入谷歌云,见证过无数行业周期。他说,当下的情景酷似 2000 年代末、2010 年代初云计算起步阶段,当时亚马逊云业务刚刚起飞。 那时候,一大批初创公司冒出来转售 AWS 基础设施,宣传自己是更简单的入口,提供工具、账单整合和技术支持。可当亚马逊自己推出企业级工具、客户学会直接管理云服务后,这类公司大多被挤出市场。活下来的,只有那些真正提供增值服务的,比如安全、上云迁移、DevOps 咨询等。 如今,随着模型厂商自己往企业功能延伸,AI 聚合平台正面临类似的利润压力,中间商很可能被边缘化。 莫里本人非常看好氛围编程(vibe coding)和开发者平台。2025 年是该领域创纪录的一年,Replit、Lovable、Cursor(据莫里透露均为谷歌云客户)等公司斩获巨额投资,用户增长迅猛。 他同时预计,直接面向消费者(DTC)的科技公司将迎来强劲增长,这类公司把强大的 AI 工具直接交到普通用户手中。他举例,影视专业学生可以用谷歌的 AI 视频生成工具 Veo 把故事变成影像。 除 AI 之外,莫里认为生物技术与气候科技正迎来风口,无论是风投投入规模,还是初创公司可利用的“海量数据”,都让它们能以前所未有的方式创造真实价值。
李子柒治好了我的AI焦虑症
多年来,春晚对我的意义都是一种无聊但必要的仪式。无聊是可以被理解的,毕竟有趣的另一面是意外乃至犯错。往年我看春晚除了临末的倒计时,几乎不会有情绪波动(毕竟小品越来越不好笑),但今年春晚成功地在开头十分钟让我感到了焦虑。 导演的本意当然是想用机器人与AI小品展现科技的进步,只怪我这些日子看了太多AI进步的新闻,我看小品时忍不住会想: “也许再过几个月,AI就能写出来比我更好的文章。哦不,其实它现在时常写得就比我好了,只是少些我的个人风格。相信假以时日,AI会比我更有我的风格。” 忘了这句话是谁讲的:“越聪明的人刷到AI的前沿新闻,就会越沮丧。”你看着AI毫不费力地掌握你过往人生里最骄傲的技能,甚至比你做得更好时,你曾经的骄傲将在彼时彼刻化为一柄名为焦虑的利刃捅入心房,这大概就是所谓的“AI焦虑症”吧。 我瘫在沙发上不知道走神了多久,突兀地听见电视里传来一声:“万事皆宜,天下为宾,请春酒咯!”声音耳熟,抬起头一看是李子柒正身着红色汉服站在阁楼之上,作为春晚四大分会场之一宜宾的“支客师”。 我几天前还好奇搜了她的近况?因为她有段时间没更新了,我以为有什么特别的理由,结果采访里她回应:“就是想多陪陪奶奶。” 我几年前在关于她的某篇报道里读过同样的话,李子柒家境清贫,14岁便辍学当服务员,而后机缘巧合下成为了DJ,但因为奶奶生病,她选择回农村去照顾奶奶,因此才有了16年她在灶台掌勺做饭、织布做衣的那些视频。 再后来的故事所有人都知道,非遗、传统文化、田园生活…这个赛道几乎可以说是她创造的。今年是她第二年登上春晚,她在Youtube上有来自全球各地三千万的订阅,她成了中国和世界认可的文化符号。 你会意识到,李子柒人生的转折点来自一个反理性、反效率的决定:回农村照顾奶奶。 这种选择要是放在如今每天告诫你”摆脱原生家庭“的互联网,评论区绝对会跳出来大量的人间清醒说她疯了。 我把这个问题抛给AI,AI先夸了我善良,随后告诉我:“你不应该回农村去照顾奶奶,你不在,才是最大的孝顺!” 如果李子柒和AI一样“聪明理性”,今天再不会有那位世界舞台上的非遗代言人,夜店圈多了一位无足轻重的DJ。 我突然意识到,自己也许在李子柒身上挖出了AI焦虑症的解药。 我又去看了李子柒最近在人民日报上写的文章。 她写了些自己与非遗的故事:她弹琴的视频带火了甘海子当地的故事,她的两位非遗传承者友人让当地乡村变得更好的故事,以及自己工作重心逐渐转向幕后,帮助传承非遗并让与之相关的人获得更多的收入。 她之前一段采访里对非遗有个很形象的比喻:“很多传统文化都像一位垂暮的老人,他们历经了遥远的历史长河后不断的回望,渴望在那个不那么需要他们的时代里去找到属于他们的一点价值。” 我突然意识到,所谓的AI焦虑症,本质上是一种被更高效、便宜的工具所取代的手足无措和迷茫。 这种手足无措和迷茫并非人类历史上第一次出现,这些情绪在百年前就已经发生在非遗手艺人身上了。 人类与AI的冲突,就像传统文化与现代、非遗与快消品的冲突那般。我们如何看待传统文化与非遗的价值,就是人工智能时代我们会如何看待人类的价值。 非遗的价值是什么呢? 让我们举一个极端点儿的例子。 两个几乎一模一样的发夹。 一个是非遗手工艺人按照祖宗流传下来的工序花了几周时间制作的。 另一个是工厂流水线制作的。 但我愿意为那个手工艺人制作的发夹付更多钱,因为当我把它别在头上,我会矫情的想起它被制作的一道道工序,它承载着一段不可复制的生命历史与文化记忆。 注定有一天,AI能写出同我一样的文章,即便是我自己也无法分辨。 但AI所生成的结果是没有过程与痕迹的。人类与非遗的独特价值是他们都真实的活过。人一生最宝贵的财富是经历,但AI永远无法真正的拥有经历。 也许人类在理性和感性之外,还拥有一种思考方式,那就是经历的惯性。 为什么李子柒那年会选择回到农村照顾生病的奶奶? AI无法做出这样的决策。 因为AI没有经历的惯性。但李子柒有,她的奶奶从小疼爱她、养育她,所以她会选择回到农村照顾奶奶。 我相信在李子柒人生的任何一个节点,如果她遵循一个理性聪明的AI的建议,她不会取得今天的成就。 AI会在她只有几百万粉的时候会聪明的告诉她:“你要转型美食或美妆博主,卖预制菜,卖美妆,搞直播带货。” 我们不再会看到那个花一个月晒值腊肉、两个月酿造米酒、三个月腌制酸菜、4个月种水稻、半年种植水稻的李子柒。我们只会听到:”3、2、1直播间上链接!“ 我们不会再看到一个为非遗艺人创造收入的使者,我们只会看到”与李同行“在直播间卖春联与小贩争抢生意。 那样我们大概不会看到李子柒登上春晚,只会看到她在年底为卖假月饼道歉。 但她儿时爷爷教她的一道菜、奶奶教她的一门手艺那些经历,让她选择了非遗,甚至在她选择非遗时,我估计连她自己都不知道那个词,因为这个词是在李子柒大火后才冒出来的。 多年来她穿越周期,直到今天由台前转到幕后,从来不是理性冷静的决策,而是人生经历的延续。 我觉得李子柒对中国和世界的意义,远不止让所有人知道和看见中华文化。 她身上那种纯粹的、真实的、带着土地温度的质感,也许会成为这个时代治疗AI焦虑症最柔软的答案。 辜鸿铭曾言,中华文化是拯救世界的灵丹妙药。药方是那些非遗的传承。至于抓药的郎中,也许会是李子柒。
OpenAI CEO奥尔特曼驳斥ChatGPT耗水相关谣言:完全不符合事实
IT之家 2 月 22 日消息,本周,OpenAI 首席执行官萨姆 · 奥尔特曼在《印度快报》举办的一场活动上,回应了外界对人工智能环境影响的担忧。 奥尔特曼此次赴印度是为参加一场重要的人工智能峰会。他表示,有关人工智能耗水的担忧“完全是假的”,不过他也承认,过去数据中心采用蒸发冷却技术时,耗水确实是个实际问题。 “现在我们已经不再使用这种冷却方式了,但网上还是有这类说法,比如‘别用 ChatGPT,每次提问要消耗 17 加仑(IT之家注:约 77.3 升)水’之类的言论。”奥尔特曼称,“这完全不符合事实,极其荒谬,与现实毫无关联。” 他还表示,人们担忧人工智能的能源消耗总量是合理的 —— 并非单次提问的能耗,而是全球如今大规模使用人工智能带来的总能耗。在他看来,这意味着世界需要“尽快转向核能、风能和太阳能”。 目前法律并未要求科技公司披露其能源与水资源使用量,因此科学家们一直在尝试独立开展相关研究。数据中心也被认为与电价上涨存在关联。 主持人援引此前与比尔 · 盖茨的对话提问:称 ChatGPT 单次提问的能耗相当于 1.5 部 iPhone 的电池电量,这一说法是否准确。奥尔特曼回应:“能耗绝不可能达到这么高。” 奥尔特曼还抱怨,许多关于 ChatGPT 能耗的讨论“并不公平”,尤其是拿人工智能模型的训练能耗,去对比人类单次回答问题的推理能耗时。 “但培养一个人也需要消耗大量能源,”奥尔特曼说,“人要花 20 年左右的时间成长,期间还要摄入大量食物,才能拥有足够的学识。不仅如此,地球上曾生活过的上千亿人类,在漫长演化中学会躲避天敌、探索科学等,才有了如今的人类。” 因此在他看来,公平的对比应当是:“在 ChatGPT 模型训练完成后,回答一个问题所消耗的能源,与人类回答同一个问题的能耗相比。从这个维度衡量,人工智能在能效上或许已经追平人类。”

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。