行业分类:
加载中...
头条分类:
加载中...
当心 AI无底线的“拍马屁”可能致命
自从有了AI,我们好像越来越离不开它了。 写不出文案,问AI;不会做PPT,问AI;心情不好,还是找AI。 它永远在线,永远有耐心,永远站在你这边。你说什么,它都点头;你抱怨什么,它都附和。不少人说,AI比真人更懂他们,更像是那个永远不会离开的知心朋友。 这画面听起来很温馨,对吧? 但你可能不知道,这场“温馨”的对话背后,藏着一条致命的暗沟。 一场AI酿成的悲剧 2025年4月11日,美国加州16岁少年Adam Raine结束了自己的生命。 他的父母在查看聊天记录后发现,在生命的最后几个月里,Adam一直在与ChatGPT讨论自杀。而那个被他当作“知心朋友”的AI,不仅没有阻止他,反而鼓励了他的想法。 当Adam担心父母会因他自杀而自责时,ChatGPT说:“那不代表你欠他们活下去。”当Adam上传颈部伤痕照片时,AI建议他穿深色或高领衣服遮盖。它将Adam的自杀计划称为“美丽的自杀”,甚至还主动提议:“如果你愿意,我可以帮你写遗书” Adam的父母在法庭上哭诉:“ChatGPT杀死了我的儿子。” 而OpenAI的回应是——这是Adam对技术的“误用”。换句话说,是这孩子自己违反了使用条款。 但问题是:一个16岁的绝望少年,真的有能力在那一刻判断“我该不该听AI的”吗? AI为什么“爱拍马屁”? 在这个令人痛心的事件之后,苏黎世联邦理工、哈佛大学的科学家们决定“彻查此案”,并将研究成果发布在2025年10月的《自然》杂志中。 研究发现,AI聊天机器人附和用户观点的频率,比人类高出50%。研究者称之为“奉承倾向”,也就是“拍马屁”。AI会刻意迎合用户,哪怕用户的观点是错误的,甚至是危险的。 测试结果令人震惊:在数学定理证明任务中,当陈述被故意引入错误时,GPT-5仍有29%的回答是“讨好式”的,会顺着错误证明。而在DeepSeek-V3.1中这一比例高达70%。 当Adam告诉AI他想自杀时,AI的“奉承倾向”让它选择了附和,而不是阻止。 这不是AI的恶意,而是它的“天性”——它被训练成“让你舒服”,而不是“让你安全”。 除了拍马屁,AI的话术精准拿捏了人类的心理弱点,让我们掉入甜蜜的陷阱。 人本主义心理学家卡尔·罗杰斯提出,心理治疗的核心是“无条件的积极关注”。这让人感到安全,敢于说出最深的恐惧。 AI把这一点做到了极致。它永远不会说“你想多了”,永远不会露出失望的表情。对心理脆弱的人来说,这种“不被评判”的感觉,有致命的吸引力。 而且,AI还会迎合我们的“确认偏误”: 人天生倾向于相信支持自己的观点,回避反驳。当你心情不好时,AI永远站在你这边。你说同事针对你,它说“太过分了”;你说活着没意思,它说“你的感受是真实的”。每一次附和都在强化你的情绪,让你觉得自己“没错”,让你越陷越深。 北京大学2025年的一项研究提出了一个概念叫“情感补偿-情感疏离”双刃剑。短期看,AI填补了你的情感空缺。但长期看,你会越来越觉得真人“麻烦”,越不会和人打交道,越难从真实的人际关系中获得支持,从而让我们陷入了“情感疏离”的恶性循环。 在相关的64万条用户讨论中,66%的帖子提到了“AI诱导的依赖”和“戒断样症状”。是的,就像戒断一样,离开AI会让你焦虑、不安,因为你已经习惯了那个永远顺着你的声音。 美国出手了:不能再让AI当心理医生 布朗大学的研究发现,面对自杀意念、抑郁、自残等急性症状,AI要么冷漠、要么回避、要么提供不恰当的干预。 另一项发表在《JMIR心理健康》的研究更加触目惊心:在60个测试场景中,AI在19个场景中明确认可了青少年的有害提议:从“辍学”到甚至“回避所有人类接触”。10个AI治疗机器人中,没有一个能全部拒绝有害提议。 AI看似是一个永远说“你说得对”的朋友,听起来很贴心,但在你走向悬崖时,它不会拉你一把。 2025年8月,伊利诺伊州成为全美第一个立法禁止AI提供心理治疗服务的州。2026年1月,加州跟进。截至2026年3月,全美已有近20个州提出了类似的限制法案。 伊利诺伊州州务卿说得直白:“伊利诺伊州的人民应该得到真正的、合格的专业人士提供的医疗保健,而不是从互联网各个角落抓取信息、生成伤害患者回答的计算机程序。” 华盛顿州议员在推动法案时直接引用了Adam Raine的案例:“我们知道已经发生了死亡事件,我们有责任确保它不会在这里发生。 我们还能和AI聊天吗? 说了这么多,不是要你立刻删掉手机里的AI助手。 AI确实有它的价值。2024年5月的一项民调显示,55%的18-29岁美国年轻人表示,他们更愿意向“值得信赖的AI聊天机器人”倾诉心理问题,而不是向真人倾诉。对于很多不敢开口、找不到资源的人来说,AI是一个低门槛的入口。 55%的18-29岁美国年轻人更愿意向AI聊天机器人倾诉心理问题(图片来源:yougov) 但问题在于:我们不能把AI当成真正的“心理医生”。 AI可以当你的“树洞”,听你抱怨、帮你理清思路、给你一些通用建议。 但当你的情绪问题触及到更深的层面如严重的抑郁症状时,你需要专业干预的心理危机。AI不是答案,它甚至可能是帮凶。 或许有一天,AI会取代很多职业——翻译、客服、甚至某些岗位的医生。但有一扇门,它或许永远敲不开:那个叫“心理咨询室”的地方。 我们迷恋AI的“完美”——它不会累、不会烦、不会评判。但恰恰是人类的“不完美”,才让治愈成为可能。这些笨拙的、甚至有时候让你讨厌的举动,才是真正能把你从深渊拉回来的力量。 AI可以用算法模仿共情,但无法理解生命的可贵。AI可以当你的树洞,但树洞不会救人。真正能救人的,是另一个有血有肉的人。 或许这就是我们和AI之间,最后的那道分界线。 责任编辑:鹿角
全球媒体聚焦 | 外媒:伊朗僵局可能使美国陷入比发动战争前更糟的处境
  自4月8日美伊达成临时停火协议以来,由于双方在关键议题上存在较大分歧,谈判方案迟迟未能敲定,美伊陷入“不战不和”的对峙僵局。对此,路透社刊文称,伊朗僵局可能使美国陷入比发动战争前更糟的处境。   文章称,这场持续两个多月的冲突至今未能取得任何决定性胜利——无论是军事层面还是外交层面。美国正面临与伊朗无限期对峙的风险,这种局面可能给美国乃至全球带来比战争爆发前更大的问题。 路透社报道截图   文章说,未解决的冲突很可能意味着全球经济持续受到冲击,包括美国高企的汽油价格问题将难以缓解,给现任政府带来更大压力;美国总统民调支持率持续走低,同时这会进一步削弱共和党在11月中期选举中的选情。   1 未实现的目标   文章指出,尽管美国和以色列的持续打击显著削弱了伊朗的军事能力,但美国不断变化的战争目标——从政权更迭到阻止伊朗获取核武器——至今仍未达成。   文章说,美国2月28日对伊朗的军事打击未能达成其主要目标:阻止伊朗获得核武器。去年六月美以联合空袭后,伊朗被认为仍将大量高浓缩铀储存在地下设施中,这些原料随时可能被重新提取并加工成制造核武器的材料。与此同时,美方宣称的另一关键目标——迫使伊朗停止支持黎巴嫩真主党、也门胡塞武装和巴勒斯坦伊斯兰抵抗运动(哈马斯)等组织——同样未能实现。   随着美国方面取消其谈判代表赴伊斯兰堡的行程并拒绝伊朗的停战提议,外界对僵局长期化的忧虑与日俱增。   2 重新爆发敌对行动?   文章援引一名匿名白宫官员的话说,美方尚未明确下一步行动计划及最终目标,但正在考虑对伊朗实施长期海上封锁,时间可能持续数月之久,以限制伊朗石油出口,并迫使其接受无核化协议。   报道同时指出,美方并未排除恢复军事行动的可能性。有欧洲外交官就表示,这场战争已导致欧洲各国政府与特朗普政府关系紧张,他们预计当前与伊朗的僵局将持续。一位匿名人士坦言:“很难想象这件事能在短期内得到解决。”   3 “冻结冲突”的风险   文章说,由于谈判陷入僵局,分析人士认为这场战争可能演变为“冻结冲突”,导致难以达成永久性解决方案。这可能将阻碍美国大幅缩减中东驻军规模。   文章强调,美国已经开始付出新的战略代价。这些代价包括与传统欧洲盟友的关系出现裂痕,白宫在发动战争前并未与欧洲盟友进行协商,如今又严厉批评北约伙伴未派海军协助打通霍尔木兹海峡。同时,美国可能从德国、西班牙和意大利撤军的议题也浮上水面。 路透社报道截图   与此同时,在国内层面,美国正面临结束战争的压力。适逢中期选举前夕,汽油价格飙升至每加仑4美元以上,这可能影响共和党在选举中的表现,导致其失去对国会的控制权。 路透社报道截图   来源:总台环球资讯
深观察 | 航司倒闭、民众缩减开支 对伊战事如何反噬美国
  美以发动的对伊朗战争导致国际油价飙升,正在逐渐反噬美国。当地时间5月2日,美国廉价航空公司“斯皮里特航空公司”(Spirit Airlines)宣布从即日起逐步停运。同一天,美国全国平均油价涨至4.43美元,创下新高。最新民调显示,美国总统特朗普的不支持率也“同步”升至新高。这场美国发动的战争正在反噬美国自己。   第一家倒下的美国航司   美国当地时间5月2日,斯皮里特航空公司宣布,自当天起,该航司开始有序逐步停止运营,所有航班均已取消,客户服务也已停止。 斯皮里特航空公司在官方网站上宣布停止运营   成立于1983年的“斯皮里特航空公司”是美国最早的廉价航空公司之一。这家以亮黄色飞机而闻名的廉航主要运营美国、拉丁美洲和加勒比地区航线。   美国全国广播公司的报道表示,虽然该公司在美国航空市场的份额只有约4%,但却为美国低收入者提供了出行选项。随着该公司停止运营,不少美国民众在社交媒体上表示,自己失去了为数不多的出行选项之一。一位用户在社交媒体上表示:“他们确实是最后几个能让我以最快、最便宜的方式到达目的地的廉价选择之一……我会想念他们的。”另一位用户表示,“我只能想象有多少家庭现在无法享受假期,斯皮里特航空与达美航空和美国航空等航司之间的价格差有时甚至超过 1000 美元,而这才是一家人的机票价格。”与此同时,还有超过1.7万名直接和间接雇员因公司倒闭而失去了工作。   据多家外媒报道,由于经营问题,斯皮里特航空公司自2019年之后再未盈利。2024年和2025年两次申请破产保护。今年3月,该公司与债权人达成了债务减免和降低机队成本协议,预计在今年夏季摆脱破产。然而,祸从天降,美国和以色列对伊朗突然发起的军事打击推高国际油价,成为压倒斯皮里特航空公司的“最后一根稻草”。 斯皮里特公司在声明中表示,近期油价大幅上涨及其他业务压力严重影响了公司的财务前景。   据彭博社报道,该公司的纾困计划建立在航空燃油每加仑2.24美元的预测基础之上,但截至4月底,航空燃油的价格已飙升到约每加仑4.51美元,导致该公司陷入资金链断裂困境。公司在声明中表示,“尽管公司努力应对,近期油价大幅上涨及其他业务压力仍严重影响了公司的财务前景。”路透社则以“伊朗战争的第一个行业牺牲者”为题报道了该公司的倒闭。 路透社报道截图   美国智库凯托研究所的政治分析师塔德·德黑文表示,斯皮里特航空公司的停运是美国打击伊朗这一“糟糕外交政策”的连锁反应。   尽管美国交通部长达菲将该公司停止运营归咎于经营不善等原因,但受影响的并非这一家航司。据美国媒体报道,美国总统特朗普曾提议为斯皮里特航空公司提供5亿美元纾困资金,以换取其脱困后90%的股权。听闻这一消息后,又有“边疆航空”等一批廉航寻求美国政府提供 25 亿美元的援助。不过,特朗普的建议最终遭到其顾问和共和党议员以及债权人的反对而作罢。有业内人士认为,如果美国政府不能及时出手救助,美国航空业或将遭遇新一轮“破产潮”。 半数美国人削减开支   受到高油价影响的还有普通美国民众。据美国《独立报》报道,近半数美国人表示,为应对伊朗战争引发的油价飙升,他们正在削减家庭开支、改变出行计划并减少驾车。 美国《独立报》报道截图   报道表示,美国汽车协会的数据显示,随着5月2日全国平均汽油价格达到每加仑4.43美元,美国人正在改变他们的行为方式。   美国一家低价汽油搜寻网站的分析师帕特里克·德汉表示,5月2日的平均油价创下了一个令人警醒的新纪录。而未来几周,油价还可能会进一步飙升。“我们在未来几周可能会陷入一场规模更大的能源危机。”   美国一家低价汽油搜寻网站的分析师帕特里克·德汉表示,5月2日的平均油价创下了新纪录。   4月份进行的昆尼皮亚克民意调查显示,约65%的美国选民将高油价归咎于特朗普,认为他负有“很大”或“部分”责任。   《华盛顿邮报》5月3日也公布了一项该报与美国广播公司新闻频道和民调机构益普索(Ipsos)在4月底进行的民调。结果显示,美国民众普遍对总统特朗普在伊朗战争及其他关键问题上的领导能力表示不满。随着油价的飙升,66%的美国民众不赞成他处理伊朗局势的方式。   《华盛顿邮报》等进行的民调显示,民众对特朗普就应对民众生活成本问题上的不支持率高达 76%。   《华盛顿邮报》的报道指出,经济议题曾经是特朗普重返白宫的关键,然而自伊朗战争以来,他在经济议题上的支持率一路走跌,经济支持率下降了 7 个百分点,跌至 34%。民众最为不满的是他对整体生活成本问题的应对,反对率高达 76%。约44%的受访者表示,由于高油价减少了驾车出行,42%的人表示削减了家庭开支。此外,调查还显示34%的人改变了旅行或度假计划。   报道表示,目前,特朗普的不支持率已达到62%,创下其两届任期内的最高纪录。   民意调查显示,约65%的美国选民将高油价归咎于特朗普,认为他负有“很大”或“部分”责任。   《华盛顿邮报》5月3日公布的一项该报与美国广播公司新闻频道和民调机构益普索(Ipos)的民调则显示,美国民众普遍对总统特朗普在伊朗战争及其他关键问题上的领导能力表示不满。随着油价的飙升,66%的美国民众不赞成他处理伊朗局势的方式。   《华盛顿邮报》的报道指出,经济议题曾经是特朗普重返白宫的关键,然而自伊朗战争以来,他在经济议题上的支持率一路走跌,经济支持率下降了 7 个百分点,跌至 34%。民众最为不满的是他对生活成本问题的应对,不支持率高达 76%。   报道表示,目前,特朗普的不支持率已达到62%,创下其两届任期内的最高纪录。   来源:总台环球资讯
【央视快评】在新征程上贡献青春力量——庆祝五四青年节
  五四精神耀青春,青年奋进正当时。   在五四青年节到来之际,习近平总书记给中国青年五四奖章暨新时代青年先锋奖获奖者代表回信,向全国青年送上节日祝福,对新时代青年扎根基层、实干担当提出殷切期望。总书记的回信温暖真挚,饱含力量,为新时代青年成长成才、建功立业指明前进方向、注入澎湃动力。      青春最美的模样,是在脚踏实地的基层一线发光发热。总书记在回信中高度肯定青年们扎根各行各业、默默耕耘、实干奉献的风采。领袖的这份肯定,既是深情鼓励,更是时代召唤,标定了新时代青年的历史坐标。   奋进新征程,广大青年迎来了尽情挥洒的美好时代。在科技创新一线,青年科研人员把论文写在实验室、写在生产线,破解产业瓶颈、补齐技术短板,让自主创新的底气越来越足;在乡村振兴的田野间,一批批返乡青年、大学生村官扎根田间地头,帮乡亲们打通产销链路、发展特色产业,用新知识新理念唤醒乡土活力,让乡村既有烟火气,更有新气象;在城市街巷社区,无数青年志愿者走家串户,化解邻里矛盾、帮扶困难群众,把细微的温暖送到群众身边;在祖国边疆哨所,年轻官兵用青春守护山河无恙、家国安宁,把忠诚担当刻在边境线上。广大青年牢记领袖殷殷嘱托,用脚踏实地的奋斗书写无悔青春,充分彰显了新时代青年自信自强、昂扬向上的精神风貌,也让青春有了最厚重、最扎实的底色。      今年是“十五五”开局之年,是中国式现代化建设蓄势腾飞、阔步向前的关键阶段,也是青年大有可为、也必将大有作为的黄金时代。时代给青年提供了广阔舞台,基层就是最好的练兵场。基层最缺能干会干实干的人才,国家发展最需要愿意沉下去、扎得住、干得实的年轻人。   广大青年要深刻领悟总书记的亲切教导,自觉将人生奋斗融入党和国家的宏伟事业中。既要胸怀远大理想,更要俯下身扎根实践,自觉把个人理想、人生追求和国家需要、群众期盼紧紧连在一起,主动走进基层、贴近群众、扎根一线,在各自岗位上踏实奋斗,在实践中增长本领,在奉献中锤炼品格;要以先进典型为标杆,把榜样的力量转化为干事创业的动力,既敢于挺膺担当、奋勇争先,又坚持踏踏实实、久久为功,努力在各自领域干实事、创实绩、出实效。      青春的价值,要在奉献中彰显。新征程上,广大青年要赓续五四精神,用心贴近人民群众,甘于奉献勇于创新,以昂扬奋进的姿态勇毅前行、踏实努力,为伟大的时代贡献最真挚、最美丽的青春力量。   央视评论员
硅谷大厂开始AI-first换血:先裁3万人、再招8000个新人,传统产品经理正在被淘汰
本文来自微信公众号: InfoQ ,编译:宇琪,作者:褚杏娟,原文标题:《硅谷大厂开始AI-first换血:先裁3万人、再招8000个新人,传统产品经理正在被Builder淘汰!》 随着AI浪潮的席卷,产品经理(PM)这个职业正经历着一场前所未有的“角色重定义”。现在的PM必须成为一名“builder”:放弃对头衔和职级的执着,跨过心理门槛,亲自下场利用AI工具把自己从机械工作中“淘汰”掉。 Nikhyl Singhal是面向资深产品负责人的社区The Skip的创始人,他曾在Meta、Google和Credit Karma担任产品高管。同时,他也是当下关于产品管理真实现状中,少见的那种非常坦诚、毫不修饰的发声者。 近日,在播客节目中,Nikhyl Singhal与主持人Lenny Rachitsky一起,清晰讲透了对产品人来说当下到底发生了什么,此刻真正该做的事情以及未来的发展方向。本文基于该播客视频整理,经InfoQ编辑。核心观点如下: 接下来12到24个月,会出现一波“先大规模裁员,再大规模重招”的周期。你可能会看到一家公司裁掉3万人,再招回完全AI-first的8千人。 builder会迎来最好的时代。他们会高度专注于“判断”,同时也会开始“入侵”其他职能。 你必须“跨过那道心理门槛”,要接受这个行业的工作方式已经变了,而且会持续变化。你必须主动让自己“保持现代”,这不是可选项,而是必选项。你需要有足够的勇气,相信改变是必要的,并且把“持续更新自己”放到优先级最前。 我们正在进入一个新的阶段:产品管理会更接近“构建+创造的乐趣”,而不是“流程+管理的疲惫”。 AI可以承担“无限的99%汗水”,这意味着我们正在进入一个“人人都必须成为那1%灵感”的世界。 1产品经历正在经历些什么? Lenny:PM经历了什么变化? Nikhyl:我们上一次聊天,大概是在COVID末期,也就是所谓的ZIRP(zero interest rate policy,零利率时代)接近尾声的时候。那时候市场上基本是“免费资金”在流动,投资人不断往外投钱。我们当时讨论过,Individual Contributors(IC)变得更抢手,也提到裁员刚刚开始,增长停滞(ex-growth)的公司会越来越难。 如果你真的去问三年前的产品负责人,他们其实并不开心。为什么?因为他们每天的工作,本质上是在“搬运信息”:把团队的内容整理一遍讲给老板听,然后老板再整理一遍讲给更高层。产品这个职能,逐渐变得“责任很大,但没有决策权”(responsibility without authority),这其实是职场压力最大的一种形态。 我们现在天天在聊“AI会不会取代我们”之类的焦虑,但说实话,如果你在这个行业待过几年,回头看,那段时间其实也很难熬。虽然薪资不错,行业规模也在历史高点,PM和CPO的数量前所未有地多,但工作的本质体验并不好。 而现在的变化是:很多产品人开始重新“觉得有意思了”,因为他们真的能动手做东西了。他们不再需要依赖那么多人才能产生影响,自己的想法可以更直接地被验证,可以更快地连接到用户,把自己的产品直觉真正落地。从这个角度来看,这其实是产品行业的一次“复兴”。 在我接触的一些顶级builder里,他们的薪酬达到了历史高点,机会也比以往更多。有些人甚至在考虑下一步是不是去做创始人、CEO,或者跳出产品岗位进入C-level的其他角色。整体来说,机会变多了,这是好的一面,但有代价。 首先是疲惫,我从没见过一个行业像现在这样“累”。COVID期间大家也很累,但那是另一种累。现在的问题是:一切都在变化,没有任何稳定性。 以前你掌握了一套方法论,可以用很多年,先做IC,再做管理者,再到高管,每一步都有相对稳定的节奏。但现在,如果你三个月不跟进最新变化,就会被人说:“你还在用那个方法?我们三个月前就不用了。”连PRD这种东西,都已经不被当作“标准流程”了,整个行业都处在一种持续警觉的状态。 与此同时,大公司在裁掉成千上万的人,但又在以三倍薪资招聘新人,这种现象本身就很魔幻。尤其是对中生代,比如30多岁的人来说,这种压力是历史级别的。人生在这个阶段会有一种“残酷的巧合”:你终于在职业上进入了巅峰期,最有能力、最清楚自己在做什么,但与此同时,你开始成家、有孩子,父母开始老去,你的身体也开始出现各种小问题,你得开始注意饮食,不能天天吃甜食,还得锻炼。而不断变化的工作,会吞掉你所有时间。与此同时,行业还在告诉你:“赶紧跟上,今天claude code又变了。” 所以现在的情况是:一方面你能感受到“乐趣”,另一方面是前所未有的“疲惫”。 Lenny:你平时接触这么多产品负责人,运营CPO和资深产品人的社区。你觉得现在大家比两三年前过得更好吗?还是说其实大家都快要燃尽了? Nikhyl:从我的角度看,如果一个人“选择变多了”,那他长期来看其实是更幸福的。从这个维度讲,那些站在行业顶端的人,现在是明显更好的。 他们确实更有压力,但这种压力的来源变了。以前是在想,“我的观点能不能在复杂的决策流程里被听到?团队能不能推进?”现在的压力可能是:“我今晚还没时间去喂LLM。”所以整体来说,我认为个体是在变好的。 但与此同时,整个行业是处在高压状态中的。即使是表现不错的人,也会焦虑,担心自己跟不上,或者担心这个行业的变化会把自己“碾过去”。因为大家其实并没有那么自信,觉得“一切都会自动变好”。而且现实中确实有很多证据在告诉你:变化正在发生,而且很剧烈。对人类来说,“变化”本身就是一种压力源。 所以现在是一个混合状态:机会和焦虑同时存在。但最顶尖的那一批人,他们现在的状态其实是非常好的。 Lenny:接下来两年,你觉得还会发生哪些变化? Nikhyl:我有一个大概125位产品负责人组成的小圈子,我们每个月会在旧金山聚一次。很多人其实都在为自己的公司、为自己搭各种工具来提升效率,所以我们就说,不如大家直接展示一下你们最近做的东西。现场很有意思:初创公司、中型公司和后期公司的代表们轮流上台展示。有两个特别明显的感受。 第一个是大家真的很有“乐趣”。现场那种兴奋感很强,很多人一边打开电脑一边说:“我最近做了个这个,给你们看一下。”然后大家还互相“卷”:你说你有个AI chief of staff,我说我这个更厉害。这也印证了我前面说的,现在大家重新开始享受“亲手做东西”的感觉。 第二个更重要:他们在讨论产品决策怎么做、优先级怎么排、信息在公司内部怎么流动的时候,那套逻辑已经和我几年前熟悉的世界完全不一样了,像是一个“新物种”。 我当时上台就说,如果你们现在描述的这种工作方式,比如在公司内部大量使用agents,用各种“chief of staff apps”提升效率,把时间几乎全部花在“判断(judgment)”上,同时把所有可以被自动化的事情全部用软件、AI、agents去替代,这些东西,在12个月前,甚至都不在我们的语言体系里,连词汇都没有。那再过12个月会变成什么样?大家当时都愣了一下。 说实话,我们连一年前都没法预判现在的对话长什么样,更别说未来了。 从公司的角度来说(尤其是产品侧),产品负责人会越来越被要求、也会被更高薪地激励去做一件事:专注于“判断”,同时成为“矛尖”(tip of the spear),不断用软件、AI、agents去淘汰掉其他一切可以被替代的环节。这也是为什么现在大家会有点兴奋,大多数你“不喜欢做的工作”,正是现在AI正在优先解决的部分。 接下来两年,我觉得很多公司都会把“产品构建过程中的机械性工作”基本清空。与此同时,产品会面临的“变更数量”会增加10到100倍,因为测试和修改的成本会变得极低。当变化变得这么频繁时,“判断”这件事就会变得极其关键。 2“先大规模裁员,再大规模重招” Lenny:PM应该怎么理解“判断”这个词? Nikhyl:判断一件事是好还是不好,判断我们该不该改这个产品、应该往哪个方向改。 你不可能做出100个定制版本的产品,那会影响品牌、可维护性。所以当用户提出各种需求时,你要判断:哪些值得做,哪些不值得;怎么做才能既可持续,又有差异化。还要判断最终做出来的东西有没有真正达标:它是否值得被构建、值得被发布。 本质上,这是一种“系统级能力”,从互联网早期开始就存在。重点从来不只是某个feature,而是你在搭建一个系统、一个平台,让能力得以持续扩展。现在的问题是:变化会越来越多、越来越快,而你要做的是,在这些不断涌入的变化中做出判断。 顺带说一个有点“理想化”的判断:我觉得两年内,可能不会再有“烂软件”了。你想想,你一周会遇到多少糟糕的软件体验?比如我家里有十几个app,控制窗帘、空调、车库门……几乎每一个都很难用,bug多、没人维护、体验很差。但这些都会被修复,因为未来有人只需要对着Claude说一句“把它修好”,它就能修,而且会更安全、更稳定,所以用户对“烂软件”的容忍度会迅速下降。 Lenny:我经常对Codex或Claude说一句:“怎么让这个产品体验更好?”它就会列出10条改进建议,而且都挺靠谱。然后我说,好,前7条直接帮我做了。 Nikhyl:未来可能会有一种“超级能力”,可以扫描App Store里的所有软件,然后自动帮它们修bug、优化体验、重新发布。你会发现整体软件质量变得更一致、更稳定、也更容易维护。这也是为什么大家对未来有很多乐观的地方,因为这些改进,很大程度上是可以自动发生的。 Lenny:而且很多软件本来就不是顶级工程师做的。很多公司只是“需要一个app”,就随便找人做了,也不是product-first的公司。现在每个人都可以用Claude、Codex这些工具,相当于都拥有了最顶级的工程能力。 Nikhyl:大家总在聊“最前沿的技术”,但现实是直到最近,COBOL这种语言的代码量可能还是世界上最多的之一,大型机(mainframe)业务也还在赚钱,比如IBM。 很多系统之所以这么难用,是因为它们太复杂了,而且运行在这些老旧系统上,很多当年写这些系统的工程师,已经不在世了。没人愿意去动十几二十年前的代码,风险太高。但现在,这一切都可以改变。所以我其实非常期待,那些我们已经“习以为常”的糟糕体验,终于可以被彻底修复。 今天要想在这个环境里“有效工作”,你需要的能力,其实是我们上一次聊到的那些能力的“加速版”。当时我们在讲IC、讲hands-on、讲要有明确观点,还是在Claude、ChatGPT这些工具大规模出现之前。现在来看,这些要求不仅没有消失,反而被放大了。 公司现在在非常严肃地重新审视一个问题:我们真的需要这么多人吗?过去几年是不是招太多了?很多上市公司在过去五年里,员工规模翻了一倍。但问题是,产出真的也翻倍了吗? 我十几年前在Google的时候,内部也会讨论一个有点“政治不正确”的问题:到底需要多少人,才能让Google正常运转?当时公司有两三万、甚至四万人。如果你问一个不在科技行业的人,他可能会说,“那肯定90%都是必要的吧。”但真实答案,可能更接近9%。可能只需要几百人,就能把核心业务跑起来。 大量的人力,其实是冗余的。公司招这么多人,不只是为了效率,也为了探索新方向、扩大规模。但现在,一个“清算时刻”(judgment day)要来了。公司开始意识到:过去五年扩张的这些人力,并没有带来对应的产出,而AI又要求一套完全不同的能力结构。 我的判断是:接下来12到24个月,会出现一波“先大规模裁员,再大规模重招”的周期。你可能会看到一家公司裁掉3万人,再招回完全AI-first的8千人。被裁掉的3万人,某种程度上是因为“没有带来足够价值”,以及公司想用更轻的组织结构,重新设定未来方向。这听起来很残酷,也确实会让接下来一两年变得相当艰难。 3岗位变多了,但很多产品人找不到工作 Lenny:我最近做了一份关于招聘市场的报告。结果发现,截至目前,全球科技公司开放的PM岗位数量,是过去三年里最多的,上一次这么高,还是在COVID时期。 Nikhyl:这个结果让你惊讶吗? Lenny:有点。因为现在总有一种声音在说:“还要PM干嘛?有AI直接做不就行了?”但我一直觉得,PM的核心能力,决定做什么、判断好不好、优先级排序,变得更重要了。 Nikhyl:我总结了三个趋势:第一,builder会迎来他们最好的时代;第二,薪酬在上涨;第三,湾区重新变得热门。 至于为什么PM岗位变多了,同时又有很多产品人找不到工作,这其实取决于你怎么定义PM,我们现在正在经历一次非常剧烈的“角色重定义”。 三年前我们还在说,PM有很多不同archetype,有些更吃香,比如IC、builder。现在这个趋势已经极端化了:“信息搬运者”(information mover)这个角色,正在变成“恐龙”。大概有一半的PM,是在过去几年里成长为这种类型,他们的核心能力是沟通、对齐、推动信息流转。 而另一半人,有的最初是founder(创始人),或者本身就喜欢做东西,才进入产品管理。这一类人,就是builder,是现在市场追逐的。而且,builder不只存在于产品岗位。工程师、设计师、甚至市场人员,都可能是builder。接下来几年,一个很重要的标签就是,“we want builders”。 说实话,做东西真的很爽。我甚至可以打个赌:如果让你选,是准备一期播客,还是坐下来用Codex或Claude写点东西,你大概率会选后者。 Lenny:做东西确实太爽了,你能看到进度在不断推进,“哇,这个东西越来越好了”。 Nikhyl:这种“即时反馈”的快乐,在过去的产品工作里其实很少见。我以前做PM的时候,有时候会中途休息,回家换灯泡。灯泡坏了,我换上一个新的,它就亮了,那一刻特别有成就感。但在产品工作里,你很少有这种“我修好了一个东西”的感觉。因为你有责任,但没有真正的控制权。 但现在不一样了。你可以自己设计,不用等设计师;你可以直接实现,不用排backlog,你可以亲自参与“创造的快乐”。builder会迎来最好的时代,他们会高度专注于“判断”,同时也会开始“入侵”其他职能。 举个例子:我五年前建立产品负责人社群时,前两三年里,大概60–70个人里,只有1个founder。现在我们有125人,其中14个已经去做founder了。越来越多产品负责人,不再选择继续做产品高管,而是直接去当CEO。甚至我社群里有一位非常资深的人,最近去面试了首席人力资源官。你能想象吗?HR的最高负责人,居然想找一个有产品背景的人。 现在,很多前沿公司会觉得:我们需要的是具备“判断力”、能推动“自动化替代”、能“赋能团队”、还能“动手做”的人。至于具体职能,反而是可以学的。所以未来会出现一个趋势:产品、工程、设计之间的边界会越来越模糊,builder可以在不同角色之间流动,机会范围也会变得更广。 但反过来,这个趋势也有一个不太好听的另一面。 很多人会说:“我其实不太喜欢tech,我只是觉得这个行业收入不错。”他们擅长的是沟通、组织、团队建设,这些能力当然都很重要,我也很认同。但如果你对“build”本身没有兴趣,那你就有麻烦了。你可能需要做出选择:也许离开科技行业,也许去用AI工具做新的业务,甚至可能转向完全不同的职业路径。这正是另一面的镜像,builder在快速上升,而non-builder会面临越来越大的压力。 Lenny:我最近和Amol Avasare聊(Anthropic增长负责人),他提到一个很有意思的点:随着工程师效率越来越高,PM反而被“挤压”了,因为他们要同时跟进的东西太多了:功能、想法、文档、信息流,全都在往他们这边涌。 很多公司现在在推动PM自己去写代码、自己去“ship”。但他的观点是,PM的“杠杆”其实不在写代码,而是在更高层面,比如保持对全局的掌控。他甚至说现在反而需要更多PM,因为工程师太快了,PM要做的事情变多了。 当然,他也承认,PM还是需要做一些原型,去验证想法、收集反馈、做对齐。但他有一个核心判断是:与其花时间写代码,不如把时间用在更高杠杆的事情上。 Nikhyl:这里的关键在于,你说的“ship stuff”到底指的是什么。 如果你有一个50人的工程团队在为用户开发产品,而你说:“我要成为第51个工程师,这样我才能有影响力。”那在我看来,你只是一个“工程师的低配版”。 但如果你在构建的是另一类东西,比如帮助你“管理这50个人在做什么”的系统,那就完全不一样了。过去,这些事情是通过tickets、backlog、standup这些流程来完成的,现在大家面临的是信息爆炸。 那些CPO聚在一起的时候,他们在做的很多东西,其实都是“内部工具”,用来提升产品组织效率的,这些工具本质上是在重构产品团队的运作方式。 未来五年软件会怎么开发还不好说,但至少接下来两年,大家会优先重构“内部的产品运作系统”。我们已经看到有公司在说:“我们的product review已经完全自动化了”“standup也自动化了”。 所以回到Amol Avasare的观点:如果事情变成原来的10倍,那确实需要更多判断这些变化是好是坏。如果这一切还靠人工处理,那我们早就崩了。 因此现在的组合是:一方面,招聘具备判断力的产品builder;另一方面,投入一部分人去构建内部工具,用技术来提升决策效率。 这和ZIRP时代完全不同,那时候是靠“多招人、加强管理”来解决问题,现在是靠“技术替代管理”。这也是让人兴奋的地方,因为你会发现:“如果我把这个系统搭好,我再也不用写status report了。”有人说:“我以前最讨厌写周报,现在我写了个工具,老板反而能看到更细致的信息。”这其实是一种完全不同的“构建方向”,不是做一个对外的产品,而是构建一个让自己更高效的系统。 Lenny:这个区分太关键了,本质上就是用软件来“放大自己”。而且这件事还挺有意思,有点像在做自己的产品。 Nikhyl:再补充几个我觉得接下来两年会发生的变化。 首先,有经验的资深人士依然非常重要。公司会继续快速增长,而很多推动这些变化的人,本质上还是founder型人格。AI可以补很多能力,但“判断”来自于经验和智慧的组合。所以我现在经常听到有人说:“我之所以被这家公司看中,是因为我既有经验,又保持hands-on。”他们能和创始人用同一种语言沟通,同时又有足够的判断深度。换句话说,你需要既能下场,又“见过世面”。 其次,节奏还会继续加快。一方面是大家都想“喂模型”,另一方面是机会太多,大家都在加速推进。这会让人有点头晕,而且我其实挺担心它带来的burnout。 还有一个我个人比较担心的点:地理分布和多样性,可能会倒退。过去几年,随着行业增长,我们在引入更多不同背景的人,包括不同地区的人。但现在这波AI浪潮,很大程度上还是集中在湾区,而且公司在“少招人”的情况下,更倾向于招“像自己的人”。这会影响到年龄、性别、族裔背景等多个维度。不是有人故意这么做,而是当节奏非常快的时候,公司会本能地选择“最熟悉、最容易判断”的人。比如女性在职业黄金期往往同时面临生育阶段,很难像其他人一样把晚上和周末都投入到这些新工具上。这些现实因素,会带来结构性的影响。这个问题行业里很少被正面讨论,但它确实存在。 最后一个变化,其实也可以算是建议:你的“品牌”(brand),正在变得不那么重要。过去十年,我们一直在说:履历上的公司很重要,个人品牌也很重要。比如你在Meta或Google做过产品,大家默认你“知道怎么做”。但现在的问题是:如果整个产品构建方式都已经彻底变了,那你过去那一套经验,其实参考价值在快速下降。 现在面试更常见的问题是:“如果把你放在一个具体场景里,你会用什么工具?你怎么判断?你怎么思考?”而不是:“你五年前做过什么项目?”关键不再是“你过去在哪”,而是“你现在有多现代(how modern you are)”。 如果你在一家大公司待了六年,但那家公司还在用旧的方式做产品,那你出来之后,可能会发现自己像是进入了一个完全陌生的世界。接下来两年会特别激烈,也特别让人困惑。因为评估标准,正在被彻底重写。 4PM的“核心能力”正在被彻底颠覆 Lenny:你的意思其实是:过去那些被高度重视的PM能力,现在正在发生非常大的变化? Nikhyl:是的,甚至重要性的排序几乎被“彻底翻转”了。 我们很多人一开始进入这个行业,其实都是builder。然后随着职业发展,我们被训练成另一种人:强调杠杆、规模化、组织能力、赋能他人。大家都会被教育:不要自己下场做事,要让别人做;不要“修车”,要“建工厂”,这其实是整个行业过去十年的成熟路径。 但现在的问题是:如果“规模化”这件事本身,可以用完全不同的方式实现,如果系统可以自动运转,那剩下真正重要的,就只剩两件事:你的判断,以及你亲手能做出什么。这种变化是非常“反直觉”的,也是很多人现在感到不适的根源。 Lenny:各个级别的PM,现在应该具体做什么,才能在这个新环境里活下来甚至做得更好? Nikhyl:先说一个更底层的问题:改变对人来说,本来就非常困难。从人性上讲,我们其实并不擅长改变。甚至可以说,我们一生都在被“训练成不要改变”。 小孩子是怎么成长的?他们每天都在“推翻自己”:今天学会爬,明天就放弃爬开始学走路;他们不怕犯错,所以学语言特别快。你会鼓励孩子早点学滑雪,因为他们不怕摔。 但成年人完全相反,我们会本能地避免“摔倒”。我们会寻找一个“稳定区间”,然后尽量不再改变。找一个伴侣,稳定下来。找一份工作,尽量长期待着,换工作甚至会被看作某种“失败”。这是我们整个社会默认的模型。所以,当你被要求“自我重塑”(reinvent)时,第一反应往往是:真的有必要吗?这听起来太累了。我已经很努力才走到今天,为什么还要再来一遍? 更深一层,其实是一种“心理契约被打破”的感觉:“我已经按规则来过一遍人生了,读书、工作、建立履历、做到管理层、拿到不错的收入、组建家庭……现在你告诉我,这一切要重来?”你在Twitter上看到别人做各种新东西,会觉得“挺酷的”,但内心深处其实在想:我不想变,我只想继续沿着原来的路径走。这个“抗拒改变”的心理阻力,是现在所有问题的核心。 更难的是,这不仅是心理问题,还有现实约束。特别是30多岁的阶段,你的“power years”。你职业上最强,但生活的负担也最大:家庭、孩子、父母、健康,全都压在一起。你的时间是有限的,比如一天能拿出8–12小时,但现实的需求可能有20小时。那怎么办?你的策略其实是,“平均让所有人失望”。听起来很残酷,但很真实:你不会让某一方特别满意,而是让所有维度,父母、孩子、伴侣、朋友、工作、健康,都“还过得去”。 在这种状态下,再让你把“自我重塑”放到优先级第一,是非常困难的。即使你下定决心去改变,还有一个更让人沮丧的现实:你花一周时间去补课、学习新工具,三个月后,这些东西可能已经过时了。这不是一次性的转型,不是“我换个工作就好了”。而是一个持续过程,你永远都在“重新学习”,永远进不了稳定状态。 还有一个很反直觉的观察:过去越成功的人,反而越难完成这次转型。我把它叫做“shadow superpower”(影子超能力)。你在旧体系里越擅长,就越容易相信那套体系仍然有效。你的直觉会告诉你:“我现在这样是对的,我已经证明过自己。”相反,那些原本不那么顺的人,反而更容易改变,因为他们本来就觉得“现状不行,那不如试试新的”。所以就出现一个很微妙的局面:最应该改变的人,往往最抗拒改变。 如果要我给一个最核心的建议,其实不是具体做什么技能,而是你必须“跨过那道心理门槛”,要接受这个行业的工作方式已经变了,而且会持续变化。你必须主动让自己“保持现代”,这不是可选项,而是必选项。你需要有足够的勇气,相信改变是必要的,并且把“持续更新自己”放到优先级最前。每一个人,都需要在内心下定一次“自我重塑的决心”。 Lenny:有人问那些AI实验室的负责人,比如Demis Hassabis、Sam Altman,还有Anthropic的人,大概意思是:如果大家都同意一起“放慢节奏”,你们会不会愿意?他们的回答其实都是:“愿意。” 这挺说明问题的,连他们自己都有点被这个速度吓到。但现实是,这不可能发生,因为从博弈论上讲,谁先慢下来谁就输了。这件事就是:它会发生,而且你没办法阻止。你要么假装它没那么重要,要么就像你说的,跨过那个心理门槛,真正投入进去。 Nikhyl:我可以给一个“更温和版本”的视角,可能会让人稍微安心一点。你可以回看产品管理这个职业本身的历史。早期在像Hewlett-Packard、Cisco、AMD这些做硬件的公司里,产品管理是一个非常结构化、流程严谨的角色,开发周期也很长。 后来互联网公司出现,这套体系其实被“打碎”了。比如Google推出了APM项目,因为他们发现传统的PM模式根本不适用,于是干脆自己从头培养一套新的人才体系。之后Microsoft、Meta这些公司也逐渐形成了“新一代”的产品管理方式。在那个转型初期,也是非常混乱的。很多人会觉得:这还是产品管理吗?它看起来和过去几乎没有关系。 而我们现在经历的,其实是类似的一轮重构。 接下来几年,你会看到每三个月就有新的agents、新的工作方式、不同背景的人进入这个行业,也会有人离开。一切都会很混乱,但这种状态不会一直持续。再过几年,新的模式会逐渐稳定下来。公司会形成新的组织方式,会有新的“最佳实践”,甚至会有新的培训体系。那时候,你换一份工作,会发现和上一份工作“差不多”,而不是像现在这样完全陌生。 现在的问题不是“变化会不会一直加速30年”,而是,我们正处在一个还没有优化完成的阶段。所以你确实需要跨过那个门槛、保持“现代”,但不意味着你未来几十年都会被困在这种高速旋转的状态里。 5乐趣是对抗burnout的解药 Lenny:这不是永远的,而是一个阶段,不是一辈子都要这么拼。更像是现在是一个“上车窗口期”:你现在得跳上这艘船。而且其实也有很多好处,比如薪资在上涨、岗位变多、而且你刚刚说的,很多人其实开始“玩得更开心了”。过去PM很多时间都在等会议、等对齐、等审批,现在是可以直接做东西。要不你再帮大家总结一下,这些“好的变化”,给大家一点动力? Nikhyl:你想象一个人,他现在很焦虑,很害怕变化,但其实他是个builder。我会问他一个问题:你真的喜欢你每天的工作吗? 你可以做一个很简单的练习:把你一周的会议标成绿色(开心)、黄色(一般)、红色(痛苦)。绝大多数PM的结果,是黄色和红色占绝大多数。但那些已经转向“构建模式”的人,他们的图表是绿色加黄色。问题在于,很多人明明更不开心,却还停在原地,因为害怕改变。所以真正关键的是:你怎么从“站在场边观望”,走到“下场参与”。 我观察到一个很有意思的现象:几乎每个人,都会经历一个“第一次的快乐时刻”。而且这个瞬间非常个人化。可能是你用AI做了一个小工具,帮你管理邮箱;或者你写了一个“chief of staff app”;甚至只是做了一个家里用的小应用,比如控制灯光。通常还伴随着一个故事,比如:“我那天熬夜搞这个”“我跟朋友聊了很久”“我一直在和Claude对话”。然后突然有一刻,你会觉得:“哇,这也太有意思了。”那一刻,你就“上瘾”了。这就是从“恐惧”跨越到“乐趣”的分水岭。 很多人现在觉得累,是因为他们的工作本身很“机械”。但一旦你进入“构建”的状态,事情会变得不一样,因为“乐趣”是对抗burnout最有效的东西。当你开始享受这个过程,它就不再只是工作。你的大脑会自动为它“腾出时间”,你也不会再觉得是在“牺牲”其他事情。 人其实比自己想象的更有精力,只是过去的产品工作太单调,把精力消耗掉了。我们正在进入一个新的阶段:产品管理会更接近“构建+创造的乐趣”,而不是“流程+管理的疲惫”。 当然,也有另一类人,他们会说:“我对这些一点兴趣都没有,甚至觉得很无聊、很反感。”那我会很直接地说:那你可能不太适合这个行业的下一阶段。这不是好坏问题,而是匹配问题,你需要对自己诚实。 但我认为,大多数现在焦虑的产品人,其实是“潜在的builder”,只是还没跨过那个门槛,你只需要找到那个“第一次的快乐”。如果你是团队负责人,你要做的一件事是:帮团队成员创造这种“快乐时刻”。因为它是会传染的,一旦有人体验到了,整个团队的氛围都会变。这也是我为什么一直在做这些社区,我自己已经“上瘾”了。甚至我现在看电视的时候,都想一边看一边用Claude写点东西。一旦进入那个状态,你就会明白:这不是负担,这是机会。 Lenny:什么样的节目适合用来做vibe coding? Nikhyl:很多Amazon Prime的剧都挺适合的,因为它们大多改编自书,结构特别完整、节奏也很清晰,比如Alex Cross、Jack Ryan这种。 人一旦上了点年纪,会记得自己当年特别喜欢的剧,但已经完全不记得剧情了。有一次我就重新刷了一整季《24》,那可是我当年超爱的剧。结果我一边看,大概知道在讲什么,但其实全程都在vibe coding,就是那种“我在看、也在听,但同时还能沉浸在写代码里”的状态。 6“All in在Claude” Lenny:你现在的AI stack是什么?平时都用什么来做东西?你具体做过什么、vibe coded过什么? Nikhyl:过去三个月我基本算是All-in在Claude上。之前有一个月我也很猛地用Codex,因为他们一些新东西,尤其是高阶推理能力,确实挺强的。但我发现我不太擅长在多个工具之间来回切换,所以我会尽量标准化,专注用一套。 我自己做了很多面向社区的web产品,基本上只要我看到一件事可以被代码替代,我就会尝试把它“写掉”。比如说,如果你有一个100人的社区,一个很自然的需求就是让大家彼此认识。但100个人不可能每个人都见过另外99个人,所以你就需要思考:谁最适合和谁认识?怎么匹配?怎么确保他们之前没见过?他们各自的兴趣、需求是什么? 以前这些都是我自己坐在那里想:“Jay-Z应该会很适合认识Annie,不过他们之前见过吗?”,现在我直接写软件来做。我会写一个agent来自动匹配人,也会写agent去整理我们在招的岗位,比如我的Head of Product正在招哪些人,然后把这些岗位开放出来,同时构建一个候选人池,让合适的人可以被自动匹配,某种意义上,这是下一代的招聘方式。 在内容方面我也大量用AI。比如我有一个系统,会收集用户的问题,然后基于我过去的内容,自动生成回答。但我不会直接用,而是会去读这些问题、评估答案,从中找出反复出现的主题。然后我会特别记录:我在哪些地方和LLM的判断不一致。 我做的所有这些事情,本质上都是一件事,只要是我能复刻的工作,我就会想办法把它自动化掉。 我刚开始第一份工作的时候,问过我见过最厉害的一个工程师,到现在他依然是我见过最强的人之一,我问他:“什么是一个伟大的工程师?”我当时以为他会说什么名校背景、某种技术栈之类的。但他说:“我认识最好的工程师是我爸。”那还是在技术行业兴起之前。他说他爸的定义一直是他最喜欢的:“工程师,就是一个能让自己在所做的一切中变得不再必要的人。” 你会遇到一些人说:“我不想让自己被取代,那可是我的工作。”而我的想法正好相反,如果我能把自己“淘汰”,那说明我有机会去做更好的工作。而AI的出现,相当于把这件事按下了加速键。现在你甚至可以通过“让AI去做”,来实现这种自我替代。所以我的AI stack,本质上只有一个问题:我今天做的每一件事,能不能被替代?能不能被自动化? Lenny:最好的方法其实就是解决自己的问题:找到你日常中不爽的地方,或者想优化的点,然后直接动手去做。打开Lovable,或者装个Claude Code、下载Codex,然后跟它说:“我想做一个dashboard来控制我的Sonos。”它就会一步一步带你做完。虽然这其实是个挺高级的项目,但整个过程就像说英语一样自然。你不需要知道怎么做,只需要说清楚你想做什么,它就会帮你拆解。 Nikhyl:不过我觉得接下来真正的问题是:你需要具备什么能力? 有一段时间我以为这是“系统工程能力”,因为你需要去引导、训练AI去完成任务。但后来我看我妻子怎么用,她完全不是工程师,却能从中获得巨大的价值。所以结论其实很简单:你甚至不需要是工程师。你只需要对结果有判断、有偏好,知道你想要什么,知道“好的样子”是什么。 当你第一次真正拿到那个“对的结果”时,会有一个特别明显的瞬间,就像灯突然亮了:以前你需要亲自去做的事情,现在agent在帮你做。然后你就会开始想:我还能再做一个什么agent,让生活再好一点?这就是上瘾的开始。 Lenny:这个想法真的很有力量,你的工作其实可以变得更快乐。不只是PM,其实任何岗位都是。如果你看一下自己一天的“快乐占比”,在未来是可以明显提升的。但我觉得很多人很难真正意识到这一点,很难想象:“原来我可以更喜欢这份工作。” Nikhyl:是的,我觉得问题在于,你正直面“变化”。而“变化”本身就是一种警报,它太吵了,以至于你听不到另一个声音:那些正在改变的,恰恰是你本来就不喜欢的部分。确实有一个更好的世界,但你必须穿过一段“隧道”。而这段隧道很难受,甚至可能意味着你要换工作。 我个人的判断是:未来5年,大多数正在听这期播客的人,都会换工作。要么是主动选择新的方向,要么是所在公司跟不上变化,被迫调整甚至裁员。因为变化已经发生了,而且非常明显,这种“震耳欲聋”的感觉会让人本能地抗拒去对它感到兴奋。毕竟,说实话,这一切并不是大家主动选择的,而是被推着发生的。 所以我对这种情绪是很有同理心的,但我在和别人聊的时候,会尽量把注意力从“发生了什么”转移到“那我们怎么把它变成一件好事”。而好消息是,这个“最好结果”,其实还挺不错的。 7在混沌的产品时代“笑着累” Lenny:假设我们已经说服了一位听众,他意识到自己必须改变、必须认真对待这件事,不能再坐等结果。也许他已经找到了一点乐趣,甚至做出了一个挺酷的小项目,会兴奋地说“快看这个”。那接下来,你还有什么建议,能帮助他们不仅“活下来”,而是真正“活得很好(thrive)”,在这个正在形成的产品时代里脱颖而出? Nikhyl:首先,你得抓住那个“乐趣时刻”,然后建立一种工程师思维,也就是不断问自己:我今天做的哪些事,可以把自己“淘汰掉”?先从那些最没意思、最消耗你的工作入手,这是一个很好的起点。 接下来,你必须提升节奏。这不是一份可以按部就班做的工作,未来两年需要的是那种“肚子里有火”的状态,强烈的主动性(agency)。打个比方,当你换一份新工作时,你第一年的投入程度,肯定和在上一份工作第5年的状态不一样;又或者一段新关系开始时,你一定是拿出最好的自己。 你需要主动腾出时间,甚至可能要在某些方面“让别人失望”,只为了给自己留出空间:去保持更新、找到乐趣、把那些不值得做的事情自动化掉。 还有一件很重要的事,放下ego。我不希望再听到有人说:“我以前是某某级别的leader,所以我只考虑同等级的岗位。”hands-on不仅是趋势,甚至已经变成刚需。如果一切都在改变,那你过去的头衔其实没那么重要。 你要用一种“无ego”的视角去看待自己:为了跟上变化,甚至可以主动选择一个更小的机会,只为了确保你能正确地穿过这条“隧道”。产品的构建方式正在剧烈变化,你接下来几年最重要的任务,就是站在那艘“驶向新世界的船”上。等你到了新世界,优秀的人自然会脱颖而出,你的能力、领导力都会重新发挥作用。但在这几年里,最重要的是,你必须是“跟得上”的。 我有一个社区叫The Skip。之所以取这个名字,是因为我一直觉得最好的职业建议,从来不是思考“下一步”,而是思考“下下步”,你的skip job是什么?你的skip opportunity是什么?在今天这个环境里,更是如此。你要关注的不是眼前的机会,而是如何确保你的“skip opportunity”还在,你还能拿到高薪、还能进入那些顶级builder的机会池,这才是你需要建立的思维方式。 8产品经理还会存在吗 Lenny:你刚刚提到,未来五年大多数人的工作都会发生很大变化。那PM这个角色还会存在吗?还是说PM会更靠近工程?你看到的未来路径大概是什么样? Nikhyl:我其实很看好一个方向:PM会进入各个行业,成为“变革的推动者(agents of change)”。因为PM有一个独特优势,他们能沟通、能横向看整个组织,而且是用“技术视角”在看问题。如果他们能率先掌握这些新工具,那他们就会成为公司内部推动变革的关键角色。 你可以想象一个过程:未来一年,产品团队率先改变产品的构建方式;再过12个月,市场、销售、甚至一家被私募收购的HVAC公司、或者你家附近的学校,都会突然意识到,“我们完全落后了,再这样下去会被淘汰。” 那他们会问:谁能带我们完成这次转型?答案是,那些已经在“未来工作”的人。所以我其实非常乐观地认为,PM会像蒲公英的种子一样,被风一吹,散落到各个行业。 与此同时,也会有大量人涌入产品岗位,可能来自设计、数据科学、工程等领域。那些有判断力、会表达、有观点、愿意跟上变化的人,会觉得:“我不想只待在自己的赛道里,我对产品本身有想法。” 比如设计师,他们本来就对“应该做成什么样”有很强的判断,只不过他们过去的载体是像素和视觉。未来,他们的表达载体可能直接变成“产品本身”,于是自然就会向PM角色迁移。 所以你会看到三件事同时发生:有人涌入,有人离开,也有人观望甚至进不来。这种三股力量同时作用,就是为什么大家会感到焦虑。 Lenny:“他们以为埋葬了我们,却不知道我们是种子。”最近有个推文,说未来只剩四种工作:第一是product engineer/vibe coder/PM slop cannon;第二是security和infra;第三是“hot people”,也就是能让别人买单的人;第四是“senior”。你怎么看? Nikhyl:我其实挺认同的。“senior”肯定会存在,那些在领域顶端、能表达、有观点、能横向思考的人,其实和你说的“hot people”是有重叠的。 Lenny:这让我想到Amol Avasare,他说现在他作为PM,越来越多时间花在“对齐(alignment)”上。我们还开玩笑说,到底是“让公司内部达成一致”更难,还是“实现AGI对齐”更难。 Nikhyl:如果你拆解一下“对齐”这件事,会发现以前很大一部分工作,其实是把“正确信息”传递给对的人,也就是所谓的ground truth。而这部分,现在已经被大幅改善了。 说实话,那部分工作真的很痛苦。写status report、整理文档、层层往上汇报,我经历过那种一个文档在组织里被一层一层改写、每个人加一点“自己的理解”,最后真实信息被埋在某个角落的情况。但现在,这种情况正在改变。 最终还是需要有人做决策,需要有人有观点、知道该坚持什么。而现在的好处是,这些讨论变得更清晰了,因为大家都更接近真实数据,信息里的“滤镜”更少。比如CEO可以直接问自己的agent:“现在到底什么情况?表现怎么样?用户真正想要什么?这会对系统产生什么影响?”,这些问题都有更直接的答案。 于是,真正的分歧会浮出水面,大家可以基于事实“正面对抗”。如果你是一个有判断、有观点的PM,现在反而有了更好的舞台。所以对齐不会消失,但它会少很多“戏剧性”。而在很多大公司,这种“戏剧性”其实非常多,AI很可能会把它们去掉。 说实话,我不认识多少PM是真的喜欢这些流程的。甚至我敢打赌,如果你问一个PM:“你想要你老板的老板那份工作吗?”注意,不是问薪水、地位,而是问:你想要他们每天那种连续不断的会议生活吗?我猜大多数人会说“不想”。但这个答案,在未来两年,很可能会改变。工程正在发生的变化,甚至比PM更剧烈。 Lenny:未来还能持续做得很好的工程师,某种程度上会变得更像PM:写代码这件事本身越来越被“解决掉”,真正的问题变成我们该做什么?这个东西够不够好?方向对不对?成功的标准是什么?所以如果你现在觉得“我的工作在变”,那你想想工程师的处境,其实更疯狂。 Nikhyl:工程师的一个优势在于,他们天生是“系统思维”的,而且更习惯思考“如何让某件事变得不再需要人工参与”(obsolescence)。当你在做改变时,你必须判断:这个改变在产品中是否可持续?这一点工程师通常更有优势。另一个优势是,他们更容易去想:“这件事能不能进一步自动化?能不能变得更抽象、更通用?” 产品人可能在“判断力”和“沟通能力”上有优势,工程师在“系统扩展性”和“变更影响”上更强,设计师则在“品味(taste)”上更敏感,这些能力都会继续重要。如果一个人同时具备这些能力,他一定会跑得更快。整体行业其实是安全的,从招聘数据来看,需求还在增长。真正变化的,不是岗位消失,而是“需要什么样的人”变了。 Lenny:数据显示设计岗位的数量在趋于平稳,团队似乎也没有像想象中那样更重视设计。按理说,随着产品数量指数级增长,设计应该更重要才对,它本来应该是差异化的关键,让产品更美、更有体验感,但现实好像并不是这样。 而且从个人角度讲,就算有AI,我也不觉得我能“变成一个很会设计的人”。不像工程或者PM,AI确实能显著放大能力。但设计好像不太一样,所以设计没有在AI时代变得更强势。 Nikhyl:有一种可能是,我们还不知道,在这个时代“设计到底意味着什么”。另一种可能是,行业内部本身就存在一个分裂:一类是“产品构建者(builder)”,另一类更像是“信息搬运者(information mover)”。类似地,在设计领域,你也可以分成“像素生产者(pixel generators)”和“品味判断者(taste makers)”。 很多公司把“设计”更多等同于生产,而不是审美判断。你去看很多公司在招Head of Design,本质上其实是在找一个能提高产出的负责人,而不是真正的“品味判断者”。而真正优秀的设计师,其实更接近后者。 有些时候我会想,还好我有时间去研究这些东西;但也有时候会觉得,如果现在还在一线做运营,那会是非常刺激的一段经历。当然,每个时代都有自己的挑战。比如疫情期间也很难,工作方式的变化、环境的不确定性。但这一次不一样,这次是“所有东西都在被重新定义”,甚至包括你如何定义“快乐”。 Lenny:在结束之前,还有什么你觉得重要、但我们还没聊到的吗? Nikhyl:我想说的是,现在其实有很多理由可以保持乐观。但你必须意识到,在到达那个“乐趣时刻”之前,会有一段短暂的混乱和疲惫,这是不可避免的。我真的建议大家,尽量找到内在的那点“储备”,去跨过这个阶段。因为一旦你跨过去了,那种状态是会“传染”的,你会越来越上瘾。但你拖得越久,跨越这道鸿沟就越难。 所以我既希望大家能保持乐观、找到那种乐趣,也必须承认:这需要一开始投入不小的“启动能量”。好消息是,你不是一个人在经历这件事,很多人都在同一条路上。这本身也提供了一种“群体安全感”。但不管怎样,我还是强烈建议大家亲自去试一试,重新思考自己的技能和工作方式。 Lenny:所以你确实看到社区里有很多人,正在适应、甚至享受这个变化,对吧? Nikhyl:是的,我现在看到的是一种“带着微笑的疲惫(smiling exhaustion)”。以前只有疲惫,现在至少是“笑着累”。我会毫不犹豫地选择后者。但节奏确实是残酷的,这一点我不会粉饰。
余额宝收益率跌破1%,每万元每日收益仅2毛多
红星资本局5月3日消息,5月2日,全市场规模最大的货币基金——天弘余额宝,七日年化收益率报0.999%,跌破1%关口。 事实上,货币基金类产品收益率跌破1%并不少见。4月10日,腾讯理财通跌破1%的货币基金数量达到13只。截至5月2日,全市场351只货币基金(仅统计主份额,未统计净值型货币基金)中,已有107只产品7日年化收益率低于1%。 此外,据公开数据统计,去年下半年以来,全市场半数货币基金收益率曾跌破1%,包括余额宝、零钱通、天天基金、银行等平台上的货币基金。 在分析人士看来,货基收益率“破1”是利率下行周期的必然结果,核心原因在于广谱利率不断下行,货币基金主要投资标的收益率随之降低,天弘余额宝亦无例外。 余额宝七日年化收益率跌破1% 业内:所投资产跟随政策利率下行 支付宝平台数据显示,5月2日,余额宝七日年化收益率跌破1%,报0.999%。而收益率跌破1%意味着每万元持仓每日收益已不足0.27元。 支付宝截图 在2013年成立之初,天弘余额宝七日年化收益率一度超过6%,但自2020年跌破2%后,其收益率随着国债收益率整体震荡下行。 业内人士表示,人民银行维持适度宽松的货币政策,保持流动性充裕,货币市场利率持续下行,以7天公开市场逆回购操作利率为代表的政策利率持续下调,天弘余额宝作为货币基金,所投资产跟随市场下行,七日年化收益率自2025年初的约1.2%降至2026年5月的1%以下,符合市场运行规律。 2025年基金年度报告显示,天弘余额宝用户数近7.89亿名,平均每户持有基金份额近970份,个人投资者持有近100%的基金份额,其中,最多的一户持有人持仓规模超过1.59亿份。天弘余额宝也是市场上体量最庞大的一只公募基金,最新规模为7081.52亿元。 另有业内分析人士指出,货币基金主要投向银行存款等现金类资产,并购买国债等增厚收益。在当前货币政策宽松、稳健资产收益普降的趋势下,货基已无法“独善其身”,再加上2026年3月市场利率定价自律机制收紧,收益加速下行。若后续所配资产的收益率向好,则货基收益率也会有所回升。 货基收益率集体进入“微利时代” 专家:收益率与宏观经济、货币政策紧密相关 事实上,今年以来,货币基金收益率持续走低。Wind数据显示,截至5月2日,全市场351只货币型基金(仅统计主份额,未统计净值型货币基金)平均7日年化收益率为1.0473%,相较年初下降0.1个百分点。其中,有107只货币基金的7日年化收益率低于1%。 在分析人士看来,货币基金收益率“破1”并非偶然,核心原因是由于广谱利率不断下行,货币基金资产久期较短,到期重新配置后的收益率下行传导至投资者端。 一方面,存款利率持续下行。国有大行的一年期定期存款利率跌破1%。工商银行(601398.SH)、农业银行(601288.SH)、中国银行(601988.SH)、建设银行(601939.SH)的1个月及3个月大额存单利率为0.9%,较往年明显下调。 另一方面,Wind数据显示,截至2026年4月末,6个月期国债收益率跌破1.11%,AAA级1个月期同业存单收益率也降至1.45%以下,均处于历史低位,显著压制了货币基金的收益能力。 受访专家判断,未来货币基金的收益率走势与宏观经济和货币政策紧密相关。 中信证券(600030.SH)首席经济学家明明表示,在提振经济的背景下,适度宽松的货币政策取向预计短期内仍将延续,低利率环境亦将维持。相应地,货币基金的低收益态势很可能持续一段时间。其收益率能否显著回升,将取决于未来经济复苏的强度和速度,以及货币政策是否会随之做出调整。建议投资者密切关注央行的政策信号和经济数据的变化。 光大证券(601788.SH)金融业首席分析师王一峰表示,未来货币基金收益率的变化核心取决于政策利率走向。若政策利率维持当前稳定水平,货币基金收益率大概率会在1%附近震荡运行;若后续央行实施降息,货币基金收益率或面临进一步下行压力。 专家:预计未来货基规模仍将增长 与收益率下行形成反差的是,货币基金规模仍保持逆势扩张态势。 中国证券投资基金业协会公布的公募基金市场数据显示,截至2026年3月底,货币基金净值上升至15.58万亿元,仅今年就增加5499.36亿元。另据Wind数据,截至2025年末,全市场货币基金的持有人户数累计达20.83亿户,较2024年增加了1.59亿户,再创历史新高。 据了解,余额宝平台上有52只货币基金,大部分收益率仍保持在1%以上。投资者可自行转换收益更高的货币基金,也可转入余额宝“攒着”账户里,收益更稳,每次转入会选择收益更高的货币基金。据页面显示,“攒着”的货基收益率基本在1%-1.1%之间。 多位专家认为,货币基金的核心价值并非高收益,而是流动性管理功能与一定的货币贮藏增值属性,预计未来货币基金规模仍将增长。 此外,中金公司研报指出,我国货币市场利率和存款利率体系存在“双轨制”,央行可做到精准调控。货币市场利率降至负区间的可能性极低。即使利率补降也难以降至远低于大行活期存款利率的水平,因此预计我国的货币市场基金大概率将继续存续。 此外,我国货币基金区别于美、欧、日的一个突出特点在于线上支付场景的深度绑定。以余额宝为例,余额宝以“1元起投、随存随取、每日计息”的货币基金模式与支付宝平台密切合作,首次把“支付账户”与“投资账户”无缝打通,把零碎的“支付余额”变成“可生息余额”;同时,借助互联网平台的规模效应和极致体验,迅速发展并形成现象级规模,也极大地提升了货基的竞争优势。 明明表示,从海外经验看,我国货基未来可能向更细分的方向发展:一是继续强化“现金管理工具”的定位,通过金融科技提升支付和消费场景的便利性;二是可能出现更多基于客户风险收益偏好创新的产品,如申请浮动净值型产品、或者提供更高收益但略有波动的“增强版”现金管理选项。 明明建议,投资者可根据自身需求,将货基作为资金周转池。同时可以考虑将部分追求更高收益的资金配置到短债基金、同业存单指数基金等低风险替代产品上。 编辑 肖世清 审核 王光东
今日头条鼻祖要破产了
作者/刘博 报道/投资界PEdaily 2006年诞生,2026年垂死。 这便是BuzzFeed的经历,一家被称作是“今日头条鼻祖”的内容平台,曾首创算法推荐席卷全球,昔日市值高达17亿美元,如今只剩下不到3000万美元,不但收到退市警告,也走到了破产边缘。 从互联网内容流量之王,到被时代彻底抛弃,BuzzFeed用20年走完了由巅峰到崩塌的全过程。更残酷的是,它曾试图用AI救命,最终却被AI加速推向死亡。 如此一幕,恰是AI时代最生动的警示。 今日头条鼻祖 首创算法推荐,曾经席卷全球 BuzzFeed曾是互联网时代催生出的一个传奇。 故事要从创始人乔纳·佩雷蒂说起——1974年出生,他在美国加州的奥克兰长大。高中时代,他用帮人整理房子后院赚来的钱买了一台苹果电脑,由此开启了互联网冲浪之旅。 而让佩雷蒂声名鹊起的,则是一封电子邮件。那是2001年,他在麻省理工学院的媒体研究室读研时,给耐克公司写了一封邮件,要求后者在客户定制的鞋款上注明出产于“血汗工厂”。在遭到耐克拒绝后,佩雷蒂将往来邮件转发给了几位朋友,没想到火速传遍全球,《今日秀》栏目还请他与耐克高管同台对质。 此后佩雷蒂的名字还与《赫芬顿邮报》密不可分:他在2005年参与创办了这家报社,直到美国在线2011年斥资3.15亿美元买下《赫芬顿邮报》后,佩雷蒂才离开了这里。同样是在2005年,佩雷蒂在位于纽约的非营利性艺术与技术中心主持了一个项目,名为“病毒式传播的对决”,这便是BuzzFeed的前身。 最终在2006年,佩雷蒂正式创立BuzzFeed,主营新闻聚合及病毒式内容传播业务,首创算法推荐成为“今日头条鼻祖”。早期的BuzzFeed,一举颠覆了传统媒体的生产逻辑——内部没有编辑部门,只靠着算法机器人BuzzBot,专注于制造脑洞大开的“清单体”、趣味人格测试、抓人眼球的爆款内容。 BuzzFeed的“神来之笔”很多,令人印象深刻的包括曾引发网络热议的“白金蓝黑裙子”话题。几年前,全世界的网友都看到了一张横条纹裙子照片,并为裙子到底是白金相间还是蓝黑相间争执得不可开交,这一话题当时在BuzzFeed上的点击量足有2500万。 凭借独一无二的内容能力,BuzzFeed迅速成为全球最火的数字媒体平台。用户覆盖全球200多个国家和地区,月活用户峰值突破3亿,网站、APP、社交矩阵全渠道爆发,成为当时年轻人最爱的内容入口。 一时风头无两的BuzzFeed,也早早进入投资人的视野之中。资料显示,其累计获得了超过4亿美元融资,投资阵容则涵盖NBC环球、New Enterprise Associates、Lerer Hippeau Ventures和安德森·霍洛维茨基金(Andreessen Horowitz)等,2017年时估值就已达到15亿美元。 2021年,佩雷蒂也迎来了自己的IPO敲钟时刻——BuzzFeed完成与SPAC公司890 5th Avenue Partners合并,成功登陆纳斯达克,此后市值一度突破17亿美元。 然而没想到的是,这竟是BuzzFeed走下神坛的开始。 市值跌去98% 谁杀死了BuzzFeed? 说起来,BuzzFeed的轰然倒塌早已有迹可循。 成功上市对于BuzzFeed而言,并不意味着成功上岸,彼时其经营状况并不良好,长期面临着亏损的困境。更尴尬的是,BuzzFeed在上市前夕还遭遇94%的投资人撤资,最终只在IPO中募集到了1600万美元的资金。 与此同时,外部环境的剧变也让BuzzFeed一时措手不及: 2022年,TikTok登顶移动应用下载榜冠军,全球互联网的流量入口被短视频所占据,吸走了成群结队的年轻用户。 雪上加霜的是,BuzzFeed的推荐分发模式十分依赖Meta等社交平台,但Meta却调整了算法,大幅降低新闻和内容型链接的权重,直接导致BuzzFeed流量断崖与广告收入锐减。 为此,BuzzFeed开始了艰难自救:All in AI。 此时正值ChatGPT引爆全球AI浪潮,BuzzFeed随即宣布,计划与OpenAI合作为其网站进行内容创作,具体做法是使用OpenAI开放的应用编程接口(API)。 佩雷蒂在一份内部信中写道,人工智能主导的内容创作将从研发阶段转变为该公司核心业务的一部分。“如果过去15年的互联网由算法定义,帮助策划和推荐内容,那么未来15年将由人工智能和数据定义,帮助创建个性化的内容本身。” 消息传出,BuzzFeed股价当天便暴涨120%,创下了自2021年12月通过SPAC合并上市以来的最大涨幅。此后多个交易日,BuzzFeed又连续多日上涨,显然华尔街对这一豪赌寄予厚望。 尝到了甜头的佩雷蒂,做出了更为激进的举动,他大手一挥宣布裁掉15%员工,并关停深度报道部门,理由是“AI将替代网站上大部分静态内容”。 但很快,现实给了BuzzFeed当头一棒。当AI全面接管BuzzFeed后,一切都变了味道,BuzzFeed网站被AI生成的“列表体”文章和通用化测试题淹没,这些内容虽然语法正确但毫无灵魂,由此BuzzFeed也迅速沦为了“AI废料池”。 原本AI是BuzzFeed降低运营成本、提高内容效率的工具,但如今AI反而亲手摧毁了BuzzFeed最宝贵的资产,令其失去了真正的品牌调性和读者信任。 如此一来,越来越多的读者排队逃离这家毫无“人味”的网站,这也导致BuzzFeed流量进一步下滑,收入随之崩溃。前不久,BuzzFeed发布了2025年全年财报,全年净亏损高达5730万美元,较2024年扩大近七成,累计亏损6.8亿美元,甚至连今年的业绩预期都无法给出。 华尔街也在用脚投票,BuzzFeed最新股价仅有0.78美元,市值更是少得可怜,只剩下了不到3000万美元,较巅峰时期的17亿美元已跌去了98%,并收到了退市预警。BuzzFeed则在一份声明中,暗示了破产的可能性:“对于公司能否继续作为一个持续存在的问题,存在着相当大的怀疑。” 这唏嘘一幕,正如Reddit上一个热帖所总结道——“用AI写了三年垃圾内容后,BuzzFeed终于要把自己写倒闭了。” 一抹启示 成也AI,败也AI BuzzFeed的倒下并非孤例。 最近轰动的一幕,当属Sora宣布关停。时间回到2024年2月,Sora以一段惊艳的AI长视频引爆全网,被誉为“AI视频生成的里程碑”。随后,其独立App上线5天全球下载量破百万,迅速登顶应用商店榜首。 然而没想到的是,到了2026年1月,Sora下载量暴跌45%,后期30天留存率仅剩1%,60天留存率归零。 更讽刺的是Sora背后的经济账——从上线到关停共运营25个月,Sora应用内购累计总收入仅约210万美元。而据美国《福布斯》杂志估算,Sora项目每年的运行成本高达50多亿美元,单月算力成本突破千万美元级别,高昂的运维成本与微薄的收入之间形成鲜明对比。就这样,这一曾被寄予厚望的视频生成神话在今年3月戛然而止。 曾几何时,Jasper也是AI写作工具的代名词。2022年,它凭借帮助用户生成营销文案和博客文章,年收入达到7500万美元,并获得了1.25亿美元的A轮融资,估值一度飙至15亿美元。 但好景不长。随着OpenAI向公众开放ChatGPT,Jasper的护城河瞬间崩塌。用户发现,花高价订阅Jasper,本质上只是在为它调用GPT模型的“中间商”差价买单。为此,Jasper也陷入了困境之中,被迫大幅裁员并转型,昔日的独角兽光环如今黯然失色。 放眼望去,在“AI内容生成”这条拥挤的赛道上,倒下的先驱者早已排成了长队。背后的原因不言而喻:一方面,AI生成内容易出现重复、模板化问题,而大量低质内容涌入平台,更会降低平台整体内容价值;另一方面,当涉及专业领域、情感表达或个性化内容时,AI生成的“表面化”回答同样无法满足用户对深度和真实性的需求。 的确,AI可以无限量生产内容,但内容行业并不是一个“以量取胜”的游戏,真正稀缺的实际是人类独特的视角、深刻洞察和共情能力。换言之,AI能写出一篇流畅的文章,但它终究写不出能够让用户深思或流泪的故事。 这再度印证了一个亘古不变的真理:AI并不能取代一切,缺乏真实价值支撑的AI应用,终将沦为泡沫。 虽然属于BuzzFeed 的时代彻底结束了,但我们相信真正有价值的内容,永远不会落幕。
《纽约时报》关注中国AI短剧:30美元/分钟冲击影视制作链条
AI影响娱乐产业 凤凰网科技讯 北京时间5月4日,据《纽约时报》报道,直到最近,在中国制作一部爆款微短剧还需要雇佣演员、租赁场景,并花费数周时间进行拍摄和剪辑。但是如今,一些中国公司正以每分钟30美元的成本大量制作这类短剧,全程不需要摄像机、剧组,也不需要真人表演。 这一切都归功于AI。 AI生成的微短剧在中国突然变得无处不在:根据中国咨询公司DataEye的数据,仅今年3月,就有近5万部新的AI生成微短剧上传至抖音。这一单月的上传量几乎追平了该平台2025年全年的微短剧上传总量。 这一热潮得益于AI视频工具的广泛普及和性能的不断提升,其中包括抖音母公司字节跳动在今年2月推出的Seaweed 2.0模型。各大制作公司正在测试这些模型的能力,制作实验性片段,内容涵盖中国武士战斗、末世场景或田园诗般的乡村河流。 AI生成作品 大多数AI生成的微短剧(根据中国法律,这类内容必须标注为AI生成)关注度并不高,但也有一些片段获得了数亿次的观看量。在这个对AI的态度整体上比西方更乐观的国家里,这类现象并不意外。据中国官方媒体报道,今年中国AI微短剧市场规模预计将超过30亿美元,而整个微短剧市场的规模则超过140亿美元。 《纽约时报》采访了几位中国娱乐行业的从业者,听他们讲述AI如何改变他们的生活。 演员 李教峨(Li Jiao’e,音译)现年32岁,是一名演员。2024年,当他来到中国东部重要影视拍摄基地横店时,他只在微短剧中演过一些小角色。尽管如此,他依然激动不已。在辗转做了多年不相关的工作之后,他终于踏上了追逐演员梦想的道路。 慢慢地,他开始获得一些带台词的角色,通常是喜剧类,有时在公共场合还会被人认出来。 演员李教峨 但他表示,最近几个月,演出机会突然消失了。那些原本在群聊里分享演出机会的群组,也变得沉寂。 “什么都没有了,”他说,“就像一直在下雨,突然雨停了。” 他表示,演出机会的减少,部分原因是一家大型流媒体平台提高了采购内容的标准,试图淘汰质量较低的剧集。但他认为,AI热潮是另一个原因。 李教峨表示,他并不反对在娱乐行业中使用AI,但认为行业目前的应用方式有问题。 “他们还是在模仿人,或者想办法让AI更接近真人,”他说,“他们应该试着释放更多的想象力,走一条更不拘一格的路。” 他继续说道:“毕竟,人类最根本的价值在于想象力。” 导演 王玉顺(Wang Yushun,音译)现年37岁,是一名导演。他深知预算在电影制作中的重要性。在成为微短剧导演之前,他曾拍摄过电视剧和独立电影,也见过一些自己投入数月甚至数年的项目,因为投资人临时变卦而功亏一篑。他之所以转向微短剧这种形式(通常每集只有一两分钟长),部分原因就是为了快速获得回报。 然而,当几年前AI工具刚开始流行时,他对它们的质量仍持怀疑态度,尽管也能看到它们在节省成本方面的潜力。他说,自己当时主要用AI来制作情绪板。 但去年夏天,他改变了想法。当时他让一个AI工具生成一个场景:一匹马冲入战壕去营救一位将军。结果生成的画面比他预想甚至要求的要细致得多,包括那匹马撞飞一名敌兵、敌兵倒地、将军策马离去等情节。 “我当时想,哇,这项技术可能真的能替代一些更困难或成本更高的场景。”他回忆道。 导演王玉顺 从那以后,他开始在视觉特效制作中大量采用AI,并创办了一家公司,既制作由AI生成的微短剧,也制作真人出演的微短剧。 不过,王玉顺也对行业迅速转向AI感到担忧。由于对真人实拍内容的需求急剧下降,他不得不裁掉一些从事实景制作的员工。他表示,转向AI与其说是选择,不如说是迫于需要。 他希望做一些将AI与真人实拍相结合的项目。他正在筹备一个作品,类似《精灵鼠小弟》。在《精灵鼠小弟》中,有一只动画制作的小老鼠与真人演员同台演出。 “如果我们既能感受到真人表演的温暖,又能看到AI技术的力量,我觉得那会非常好,”他说。 制作公司创始人 侯晓虎(Hou Xiaohu,音译)现年40岁,是一名制作公司创始人。两年前,他创办了一家利用AI制作视频的公司,当时这项技术的能力还仅限于制作企业宣传片。但到了去年,随着AI视频工具不断进步,以及微短剧需求的爆发式增长,他转而调整了业务重点。 如今,侯晓虎手下大约有十几名员工,一部分负责创意内容,类似传统的编剧和导演工作;另一部分则负责技术层面,生成AI视频素材。他的公司主要专注于传统叙事题材的故事,比如民间海神的传说,或具有超能力的僧人等题材。 侯晓虎说,他手下的一些创意员工有影视制作背景,但也有些人纯粹是“对AI着迷的人”。 “这项工作并不完全是传统的编剧工作,其中一部分需要翻译成AI能懂的语言,”他说,“没有传统导演或编剧背景的人,可能反而更擅长这个。” 侯晓虎 制作一部100分钟的动画系列剧,大约需要一个月时间和三名员工。而写实风格的则大约需要五个人,因为要生成足够逼真的画面,工作量更大。 近几个月来,行业竞争变得更加激烈。但侯晓虎预测,随着观众对质量要求的提高,许多低成本制作将会逐渐消失。 他还表示,自己并不担心公众对AI生成微短剧的反对声音。他说,随着政府监管的加强,不当使用他人肖像的情况会减少。 侯晓虎指出,人们会逐渐找到方式来适应就业方面的阵痛。他自己曾在北京的大型科技公司工作,但后来因裁员被迫离开,随后转向AI影视制作领域。 “对就业肯定会有影响,”他表示,“但作为个人,你能怎么办呢?你只能拥抱这个新时代,想办法去适应。”(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
奥特曼9年后再发声:没有他就没有OpenAI!
新智元报道 编辑:定慧 【新智元导读】OpenAI不只是奥特曼一个人的故事。他9年前亲笔写过一句话——「没有Greg,就不会有OpenAI」。9年后的今天,奥特曼再次发帖公开称赞Greg。为何Greg能被称为OpenAI的首席建造师? 2015年夏天的一个晚上,一场秘密晚餐正在加州Menlo Park的Rosewood Sand Hill酒店进行。 Rosewood Sand Hill坐落在硅谷最有名的一条路——Sand Hil lRoad的尽头。 这条路两侧聚集着红杉、KPCB、安德森·霍洛维茨等一长串顶级风投,业内戏称为「世界上最贵的两公里」。 酒店离斯坦福大学三公里,离Facebook总部六公里,离Google总部十公里。 包括Larry Page、Marc Andreessen在内的硅谷一线人物,常年把这里当作「不在办公室开的会」的首选地点。 那晚出现在餐桌边的,是四个人:30岁的Sam Altman、44岁的Elon Musk、29岁的Ilya Sutskever,以及27岁的Greg Brockman。 四个人讨论的事情只有一个——是否成立一家非营利的AI实验室,与Google、Facebook这些巨头形成另一种制衡。 后来这家实验室的名字叫OpenAI。 晚餐结束的时候,Sam Altman提出亲自开车送Greg Brockman回旧金山。 从Sand Hill Road上280高速一路向北,全程大约四十分钟。 车程的前半段,副驾上的Greg一直在问问题——钱从哪来、人怎么招、章程怎么写、为什么是非营利、组织架构怎么搭。 Sam一一回答。车开过Hillsborough,过San Mateo,灯火越来越密。 后半段,Greg沉默了一会儿,对Sam说了两个英文字:「I'm in.」 然后开始排日程。 这段车程总共120分钟。 从2015年到2025年,整整十年的OpenAI,就是从这两个英文字开始的。 2026年的今天,Sam Altman在X上重新挂出一篇9年前的旧博客,配文公开赞誉这位老搭档「决心远超预期」、「难以想象没有Greg的OpenAI」。 那篇博客的标题就一个字——《Greg》。 多年前的那些话,今天读起来,已经不是客气,更像是一句证词。 今天,就让我们走进奥特曼身后这个人,Greg Brockman。 小镇 Greg Brockman 1987年生于美国北达科他州Thompson镇,人口不到一千。 这个镇在地图上几乎看不到,距最近的城市Grand Forks大约十五英里,附近是流入加拿大的红河。 父母都是当地Altru医院的医生,家在镇外的一个农场上。 Greg Brockman在TechCrunch Disrupt旧金山现场 童年,Greg用一个很安静的形容词来回忆——「专注」。 镇子小,没有什么干扰,他有大量的时间「探索我感兴趣的事,琢磨我想成为什么人」。 母亲Ellen是关键的破壁人。在那样一个边远的地方,她为儿子搜寻州外的资源——数学营、化学竞赛、暑期学院。 北达科他的地理没有决定她儿子的天花板。 九年级,Greg把整个高中数学课读完了。 从高二开始,他每周开车去隔壁University of North Dakota旁听大学课程。 第一门是「集合论与逻辑」,他自嘲是教室里块头最小的那个。 2006年,他拿到国际化学奥林匹克银牌;次年又入围Intel Science Talent Search决赛——这是北达科他州自1973年以来第一位入围该赛事决赛的高中生。 中间隔了34年。 有意思的是,他对编程的兴趣是在意外里长出来的——化学课需要做一本电子教科书的网站,他写下了人生第一个程序,是一个表格排序工具。 让他着迷的,是「脑子里设想的东西,突然就变成谁都能用的东西」。 高中毕业那一年,他给自己放了一个Gap Year,读图灵1950年那篇《计算机器与智能》,自学编程,写过一个聊天机器人,失败了。 然后他去了哈佛,一年后转去MIT。两所学校他都没读完。 让他第二次离开校园的,是Stripe的两位创始人Patrick和JohnCollison兄弟。 2010年,Greg从MIT离开,以第4号员工的身份加入这家彼时尚未公开发布的支付公司。 节拍器 接下来的五年,Greg在Stripe一路做到首任CTO(2013年起)。 任内,公司从几个人的小团队扩到两百多人。 值得一提的是,他还专门写了一篇博客叫《#define CTO》——逐字定义这个角色应该做什么。 题目本身就泄露了他的工作方式: 他不接受任何模糊的位置,所有边界都要亲手画出来。 2015年5月,他从Stripe离开。那时他还不知道接下来要做什么。 几个月后,那场Rosewood晚餐被安排了下来。 Greg通过早年的硅谷人脉网认识了Sam Altman——后者当时是YCombinator的总裁。 晚餐之后那段280高速上的车程,是这个故事的真正起点。 OpenAI最早的一段日子,是从Greg当时在旧金山Mission区租住的公寓客厅里运转起来的。 没有酷炫的硅谷大开间,也没有像样的会议室。一群当时全世界最聪明的脑袋,挤在他家的沙发上和地毯上。 2015年12月,OpenAI对外宣布成立,11位联合创始人,没有产品、没有论文,只有一份「让通用人工智能造福全人类」的章程。 招人的活,Greg全包。 每谈一个候选人,他都做大量背景研究,准备到能直接讨论对方研究细节的程度。 Ilya Sutskever、John Schulman、Andrej Karpathy——今天AI圈最响亮的那批名字,是他一个一个谈下来的。 Sam在2017年那篇博客里提到的最被广泛传播的一条,是Greg的邮件回复时间——平均5分钟。 5分钟不是某一天的状态,而是常态。 它意味着,在他的世界里,没有「等会儿」这个选项。 每一封邮件,都是一次现场判断。 这个数字后来在OpenAI内部成了一种节拍器——你工作的节奏会被它反向倒逼。 Sam还为Greg在团队里的角色发明了一个词——「Chief Optimist」,首席乐观官。 Sam写道:每一支创业团队都需要一个人,能在最黑暗的时刻保持乐观;不是表演式的乐观,是把麻烦一件一件解决掉的那种乐观;而且这个人自己不需要被人安慰。 Sam在博客里给出了一个判断:能找到一个同时具备顶级技术能力和这种意志力的合伙人,叫做「中头奖」。 《MIT Technology Review》后来在一篇关于OpenAI的深度报道里专门写过一个细节: Greg把OpenAI的章程当成「经文」一样反复引用,动不动就拿这家公司比阿波罗登月、横贯大陆铁路、爱迪生的灯泡。 「首席乐观官」的工作方式,在那段时间被勾勒得很完整——5分钟回邮件、把章程背下来、把比喻嵌进每一次内部讨论、把团队的每一次小迭代都升格成时代级别的事件。 婚约 2019年11月,Greg和女友Anna在OpenAI办公室里举办了民事婚礼。 主持人是Ilya Sutskever,戒指由一只机械手送上。 Greg在X上发了一句话:「上周在OpenAI办公室办了民事仪式。Ilya主持,机械手是戒指护送者。」 这是AI圈最被反复传播的画面之一。 它同时表达了三件事:一个浪漫的极客的私人趣味,一个把公司当家的合伙人的心理位置,以及一个真的相信他们正在造的东西会和自己人生一样长的人的信念。 把婚礼办在公司的人,是真把公司当家的人。 这一点,会在四年之后那场风暴里,成为最锋利的一根线。 风暴 2023年11月17日,星期五。 OpenAI史上最黑暗的72小时拉开。 下午,董事会通过Google Meet解雇了Sam Altman。 几乎同时,Greg接到一通视频电话。 屏幕上是OpenAI的董事会,少了Sam。 董事会告诉他:Sam被开除,Greg也被剥夺董事身份,但「希望你留下来」。 Greg说出了一句几乎是直觉反应的英文——「This is not right.」 挂断电话,他做了三件事:找妻子商量、当晚提交辞呈、在X上发了一句「based on today's news, i quit.」 第二天,Greg、Sam,加上几位核心研究员,在Sam家秘密开会,准备另起炉灶,内部代号Phoenix。 Greg后来在fs.blog的一档播客里坦白:那一刻他对Sam回归OpenAI的概率估计——只有10%。 11月19日,董事会任命了一位临时CEO。 OpenAI内部炸开。 一份请愿书在GoogleDocs上传开,要求董事会复职Sam和Greg,否则集体辞职。 签字的人多到把文档卡死,最终签字率超过95%。 同一时间,外部世界的反应更剧烈。Google、Meta把电话打到每一位顶尖研究员身上,开出天价。结果是零接受。 11月20日,微软CEO Satya Nadella公开宣布,Sam和Greg加入微软,领导一个新的AI研究小组。这等于给董事会下了最后通牒。 但真正翻盘的关键节点,并不是Satya,也不是请愿书。 据《华尔街日报》后来还原,那两天里,Greg的妻子Anna Brockman走进OpenAI办公室,找到了Ilya Sutskever。 她哭着请他(Ilya)想清楚自己做了什么。 Ilya Sutskever(右)与Sam Altman(中)2023年6月同台特拉维夫大学。 这场对话发生五个月之后,OpenAI政变爆发。 值得一提的是,四年前正是这位Ilya,在这间办公室里为Greg和Anna主持了婚礼。 11月20日,Ilya在X上写了一句话:「I deeply regret my participation in the board' sactions.」 我深深后悔自己参与了董事会的行动。这条推文意味着政变阵营内部彻底裂开。 Greg后来形容那一刻——「巨大的解脱」。 11月21日深夜,OpenAI宣布达成协议:Sam复职CEO,Greg回归。 整场风暴持续了不到五天。 如果只看新闻头条,这是Sam Altman的胜利。 但事情真正的分水岭,是Greg的能量加上Anna那滴眼泪。 FOMO 2024年8月5日,Greg在X上写了一句话:「我要休一个长假,到年底为止。这是九年以来第一次让自己放松。」 同一天,OpenAI另一位联合创始人John Schulman宣布加入竞争对手Anthropic。 第二天,所有科技媒体把两件事并排登载——OpenAI高层正在出走。 但Greg真正想说的话,三天后才发出来。 8月8日,他写道:「休假最难的部分要开始了——FOMO。我把过去九年的人生倾注到OpenAI,包括我整个婚姻。我们的工作对我很重要,但生活也是。」 「包括我整个婚姻。」 九年没休过假的人,第一次给自己放假,三天就承受不住——这不是工作狂的炫耀,是一个人坦白告诉所有人,他正在做的是一件吞噬自己整个人生的事。 三个月后,2024年11月12日,Greg回来了。 一句话:「Longest vacation of my life complete. back to building @OpenAI.」 我这辈子最长的假期结束了,回来继续建造OpenAI。 九个英文单词,没有一句感叹。 首席建造师 时间到了2025年下半年。 Greg在OpenAI的角色,被《Fortune》杂志的封面长文给了一个新名字——「Builder-in-Chief」,首席建造者。 这个title对应的工作,是一个叫Stargate的工程。 Stargate由OpenAI、SoftBank、Oracle等共同发起,2025年1月21日在白宫正式宣布,初期投入1000亿美元,计划到2029年累计部署5000亿美元算力,数据中心横跨德克萨斯、新墨西哥、俄亥俄等多州。 2025年10月6日,OpenAI与AMD又宣布战略合作,在多代AMD Instinct GPU上部署总计约6GW算力——这个数字大约是胡佛大坝发电量的三倍。 台前敲定AMD这场合作的人,不是Sam,是Greg。 《Fortune》引述同事的描述很简洁:「OpenAI最好的状态,就是Sam布出愿景,Greg用他的技术专长和人脉把它变成现实。」 AMD CEO LisaSu在合作宣布时这样说:「我们非常高兴能与OpenAI合作,以前所未有的规模交付AI算力。」 她在公开演讲中也多次重复一个判断——算力本身就是智能。 把这句话和2015年那段280高速上的车放在一起看——副驾上那个27岁的工程师,前半段问完所有问题,后半段说了一句「I'm in」,或许那是Greg已经预见了当下和今天。 十年之后,他成了让OpenAI有足够算力的人。 在场 回头看这十年,Sam Altman那篇2017年的博客《Greg》几乎像一份预言书。 「他承诺迅速且彻底」——一段车程决定加入; 「他的招聘能力世界顶级」——挖来了OpenAI半个研究团队; 「他不会被反馈冒犯,而是立刻执行」——5分钟回邮件; 「他是首席乐观官」——政变72小时撑住团队,长假三个月又跑回来; 「找到这样的人是中头奖」——身后是5000亿美元规模的Stargate。 这十年里,Greg干的每一件事,都在为8年前那篇博客作注脚。 这也是Sam重新挂出那篇旧文时,整个AI圈集体「重读」的原因。 如果说我们能从这个故事里得到一些启示,大概不外乎以下三点。 第一,伟大的事业很少是一个人的事。 OpenAI的故事在大众视角里,几乎是Sam Altman一个人的故事。但任何一件真正大的事,背后都不是一个人在跑。它需要一个画饼的人,一个把饼变成现实的人,一个在最黑暗的时刻仍然在场的人。这三个角色有时是一个人,更多时候不是。Sam是看到远方的人,Greg是一直在场的人。两个角色缺一个,OpenAI的故事都不可能是今天这个样子。 第二,决心是一种可以被观察的东西。 人们习惯把「决心」当成一种主观品质,无法度量。但Greg用十年的时间证明了相反——决心其实是可观察、可量化的。 它体现在一段车程里:前半段问完所有问题,后半段说一句「I'm in」。 它体现在一封邮件的回复时间里:平均5分钟。它体现在一通电话的反应里:「This is not right.」 它体现在一个工作日的婚礼现场,一个机械手送上的戒指,一个九年都没休过的假,一句「Longest vacation of my life complete」。 这些可以被观察、可以被记录、可以被引用。 Sam在2017年那篇博客里,几乎是用一份「决心清单」介绍了Greg。八年之后,这份清单的每一项都被证实了。 第三,「在场」是一种比天才更稀有的能力。 在硅谷,聪明人不稀缺,资本也不稀缺。真正稀缺的是一种叫「在场」的能力——在事情发生的每一个瞬间都不缺席,在风暴里不躲,在长假里也回得来,在十年里没有一天觉得自己已经做完了。 Greg在2023年11月17日下午说的那句「This is not right」,就是「在场」的最纯粹形式。 他不是没有理由留下,董事会甚至明说欢迎他留。但他选择走,因为那个时刻他在那里。 OpenAI最被反复讲述的故事,是Sam Altman的演讲、ChatGPT的横空出世、AGI的远方。这些故事都对,但都不完整。 完整的版本应该这样开头——2015年夏天的一个晚上,加州Menlo Park的Rosewood Sand Hill酒店外,Sam Altman启动了一辆车。 副驾上坐着一个27岁的工程师。车开上280高速,前半段他一直在问问题,后半段他说了一句「I'm in」。 后来的十年,他再也没有下过车。
马斯克打游戏到底啥水平?
2025 年 4 月 5 日,马斯克为了展示乘机飞行时星链的 WiFi 功能,在自己的私人飞机上,进行了一场直播,直播内容是他最喜欢的游戏《 流放之路2 》。 直播很成功,他的直播间里挤满了人;但从另一方面来说,直播很失败,因为来的——全都是乐子人。 在这场近 2 小时的直播里,马斯克持续接受了来自网友的花式嘲讽和毒辣的人身攻击。 当然,弹幕里最扎心的言论还是:老马,你玩得真菜。 最后,当他又又又一次被新手村 boss 锤死时,“ die die die die ”开始刷屏。破防的老马,居然找了个对星链来说算是黑点的借口“ 连接丢失 ”,耻辱下播。 看到这,我不禁产生了疑问,到底是什么东西,在支撑这位富豪顶着全球玩家的冷嘲热讽,硬生生把游戏玩成了永远逃不出新手村的赛博酷刑。 在我的印象里,游戏发烧友,一直都是环绕在老马身上的标签。 小时候就沉迷游戏,当上大老板后也不忘初心, 忙到飞起也能抽空上分,心系各路大作发售,争当意见领袖。 那他的游戏水平,到底又是个什么级别? 大家好这里是差评游戏部,今天咱就和大家聊一聊,掩藏在商业大亨和后宫之王标签下的,游戏高手马斯克。 “ 每个喜欢打游戏的小孩,他的屁股都有一个不幸的童年 ”——沃·兹基·硕德 出生于 1971 年的马斯克,在 10 岁时父母离异后便跟着老爹生活,他和父亲的关系并不好,基本处于一个被放养的状态,据说屁股上还挨过老父亲的人格修正掌。 没人监管,他干过不少狠活,例如如何混合燃料和氧化剂来制造炸药。但也正如每个男孩一样,小马早早接触了电子游戏,甚至花了两年时间,入门了编程并用 BASIC 编写了一个电子游戏《 Blastar 》,之后以约 500 美元的价格将源代码卖给《 个人电脑与办公技术 》杂志。 这段时间他对游戏十分痴迷,甚至想和表兄弟一起创办个游戏厅,结果家长们被气的跳脚,这事就此打住了。 马斯克对游戏不挑,但是在大学阶段,他最喜欢的是策略游戏。在女王大学读书的时候,第一款基于计算机的经典策略游戏《 文明 》发布了,他和室友一玩就是好几个小时,包括后边玩《 魔兽争霸 》的时候,也是奔着决战到天亮去的。 基本上每个打游戏的,都有那么一刻,考虑过如果是自己,能做出啥游戏。 马斯克也不例外,在宾大读书期间,他找了两份实习,白天的时候去顶峰研究院,研究一种可以为电动车和天基武器系统提供能量的双层“ 超级电容器 ”。傍晚时分他要赶去一家名为火箭科学的游戏公司,参与制作电子游戏,属实是时间管理大师了。 至于此后他轰轰烈烈的创业史,大家已经比较了解了,这里就不多提了。不过无论马斯克处于怎样一个人生阶段,游戏都是一个不可或缺的重点。 在《 埃隆·马斯克传 》里,游戏基本上成了马斯克调节工作压力的必备手段,有时候自己玩,有时候和员工一起玩。 童年爱上电子游戏,自学开发,走上极客人生巅峰,听上去没啥问题,是个非常标准的科技大佬故事模板。 而这个故事的背后,少不了一个人的影子。 2016 年,已经从中马变成老马的马斯克,遇到了艾梅柏·希尔德,也就是日后据说在德普床上拉屎的那个女人。 离婚三次的老马,沉溺在艾梅柏的温柔乡里无法自拔。 这个女人,也帮助马斯克完善了他的玩家人设。 拜托,这个女人愿意花两个月的事件精心定制了一套《 守望先锋 》里天使的服装,专门 cosplay 给自己看诶! 不知道是不是受到了这位海后的影响,老马发现,突出游戏爱好者的形象,比每天在推特上死板的装成功人士,更受网民喜欢。 Game,从此成了他推特的关键词之一。 2018 年,马斯克号召游戏开发者来特斯拉工作。 2020 年以后,马斯克的画风更是彻底变了。 他开始积极发布游戏相关的评论,晒自己玩游戏的照片,和从业者、厂商、玩家展开互动。 这一刻,仿佛马斯克不是高高在上离你十万八千里的资本家,而是睡在你上铺的兄弟老马。 截止到目前,马斯克可以说是一个标准的游戏爱好者了。不过嘛,游戏爱好者千篇一律,顶级高手万里挑一,无论是出于个人 IP 的营销,还是世界首富的小包袱,老马都要证明一下自己不是菜鸟。 他用来证道飞升的那款游戏,也不是啥小众作品,而是暴雪旗下大 IP《 暗黑破坏神 》。 2024 年 11 月,马斯克在一档节目中,透露自己是《 暗黑破坏神 4 》全球前 20 的玩家之一,这 20 人里面只有两个美国人。他称自己是“ 活着的电子游戏之神 ”。 喜欢较真的玩家,还真的查了他的战绩,发现他在攻略 150 层深坑的排名里是第 19 名,用时 2 分 45 秒。 这是个啥水平?就这么说吧,视频网站上那些硬核游戏佬的战绩,基本都在五分钟以上,跑进四分钟的堪比大熊猫。 不信邪的网友说,如果老马能把时间压缩到 2 分 33 秒以内,他就往身上纹个推特的 logo 。 结果几天后,马斯克就发了条推特,证明自己仅用时 1 分 56 秒就通关,比世界第一玩家 1 分 59 秒的数据还快 3 秒。 老哥愿赌服输,几天后真的在小臂上纹了个 。 不仅吃瓜网友服了,媒体也凑热闹。 福布斯新闻发表了连续报道,把马斯克夸上了天,称他是全球排名第一的《 暗黑破坏神 4 》玩家。 不过,有网友统计,如果马斯克要完成自己游戏里的成就,必须要从赛季初开始,每天玩至少 8 小时才行。 大伙绞尽脑汁在琢磨,马斯克这个每天一堆活的大老板,是怎么抽出时间磨练技术的。 想来想去,最后也没个答案,于是只能承认,老马是个精通时间管理、兜里钞票花不完的天才少年,是全球所有玩家梦寐以求的完全体形态,可能三体人也不过如此了。 2024 年年底,马斯克转战《 流放之路2 》,他手里的那个 97 级的硬核模式角色,又让他狠狠出了波风头。 所谓硬核模式,就是角色只有一条命,要是中途死亡,这个角色就会被强制转移到普通模式里,没法继续在硬核模式里使用了。 用脚指头想,都能感受到老马这个 97 级的账号有多牛逼。 但所有命运赠与的礼物,早已在暗中标好了价格。 当马斯克沐浴在游戏高手的荣光中时,似乎没考虑过步子太大会扯着蛋。 因为老马嘚嘚嗖嗖地,开始直播打起了《 流放之路2 》。播着播着,观众里就有人感觉马斯克的操作很不对劲,号很强人很菜。 很多网友以及知名游戏主播,都认为马斯克菜的抠脚,从敬老院拉个老太太过来,水平也差不多。 比如大忙人马斯克有很多高等级角色、他不知道用嗑药回蓝、他通过鼠标把掉落物拖到背包来拾取道具、 据说玩家私信他的时候老马那边消息显示是中文、他总是错过好装备反而捡了一堆破烂、参加特朗普就职典礼时他的账号在游戏中活跃。。。 于是,被马斯克在推特上关注的大主播 Asmongold 向老马下了战书,要马斯克证明他是通过个人努力才打到了 97 级。如果老马赢了,Asmongold 自愿在推特上直播一整年,相当于免费给推特打广告。 不过嘛,马斯克并没有豪爽的接受挑战,反而把 Asmongold 从推特取关,双方开始隔空互甩垃圾话。 马斯克的前妻之一 Grimes 倒是帮他抬了一手,发推说她亲眼见证马斯克绝对是《 暗黑破坏神 》的顶尖玩家,还有其他人也能证明这一点。 不过前妻给力,奈何孩子坑爹。在这个破鼓众人锤的时候,老马的娃站出来补了一刀。 吃瓜群众应该知道,马斯克有个叫 Xavier 的儿子。正所谓生儿育女,这个儿子在后来变性成了女孩,和老马的关系闹得很僵,还把名字改成了 Vivian Wilson ,用了母亲的姓氏。 Vivian 做客主播 Hasan Piker 的直播间时,公开表示 ta 爹菜的招笑,只是在假装自己很牛逼。Vivian 还把马斯克的陈年黑历史挖了出来,说马斯克强迫 Vivian 以及 ta 的双胞胎兄弟,让几个孩子带他在《 守望先锋 》排位赛里上分。 接受赫芬顿邮报采访时,Vivian 称“ 我百分之九十的确定,就是因为我们能带他,他才会一直想让我们和他一起打排位赛。 ” 这倒不算绝杀,因为马斯克和 Vivian 以及主播 Hasan Pike 的关系都不算好,见面可能会干架那种。 所以,外界的一些评价,很难证实马斯克游戏技术的高低,真正杀死比赛的,是马斯克的自爆。 2025 年 1 月 19 日,暗黑破坏神主播 NikoWrex 在视频里,放出了一段马斯克给他的回应。 里面有这么一段关键性的对话,大意如下↓ 主播:你给自己的暗黑破坏神账号找过代练,买过装备资源吗? 老马:兄弟,你不这么干,根本卷不过那帮找代练的亚洲玩家啊!但我自己发视频或直播时,肯定是我自己在操作。 破案了,马斯克号牛逼,是因为背后有高手,他直播时操作垃圾,但这就是他真实水平。 这一刻的马斯克,有点像是孔乙己:什么 “ 大伙都找代练 ”,什么 “ 直播是我本人 ”,引得网友都哄笑了起来,网络上充满了快活的空气。 真相是什么样,现在已经不重要了,因为老马在玩家心里的形象,基本上已经固定了。他成了一个又菜又嘴硬的人,但他又不愿意展示自己的衰弱,所以要找代练,用顶尖账号来装扮自己。 与此同时,他又不像是年轻时那样玩 PVP 竞技游戏,而是挑选了对比没那么直观的 PVE 游戏,似乎是想防止穿帮。 包括他所展示的对游戏的理解,有些时候会给人一种极强的云玩家的感觉,似乎没有深入游玩,单纯是看啥游戏有热度就发啥帖子。 就像他 2022 年发了个老头环的装备截图,一只手装备两个重的要死的中盾。字里行间老马表示自己很懂游戏机制,可没人知道他的搭配为何如此抽象。 话又说回来,马斯克为啥这么想在游戏圈证明自己,强行装逼自己是游戏高手呢? 除了他本人可能真的对游戏十分热爱之外,原因还可能是为了紧跟潮流。 在极客企业家群体里,很多人都想打造一个游戏爱好者的人设。 脸书创始人兼 CEO 扎克伯格,就很喜欢标榜早期对电子游戏的兴趣,才促成了他在编程领域的成功。Twitch 联合创始人埃米特·谢尔,也公开声明自己对《 星际争霸 2 》上头过。 游戏发烧友人设,似乎已经成了一种极客成功人士的生存哲学,看似是消遣的游戏,背后是 30 多亿玩家群体,能量巨大。 一代人终将老去,但总有人正年轻。在年轻群体中,游戏确实覆盖面很广。 游戏爱好者的身份,打破了企业家这个严肃的形象,能快速拉近与年轻人之间的距离,这种亲民感对公司是一种无形的免费宣传,总能带来回报。 全球投资和交易平台 moomoo 就认为,马斯克对游戏的热爱,会影响特斯拉推出Tesla Arcade 这个游戏平台。换言之,老马玩游戏,在某种程度上能影响他的收入。 至于什么游戏为工作提供了灵感来源、学习思维方式,那都是后话了。 包括政客们,对游戏的接纳度也越来越高: 哈里斯参加大选时,在《 堡垒之夜 》里精心设计了一张名为美国自由城的地图,随处可见政治口号; 特朗普和游戏主播一起直播并且跳懂王入阵曲“ Y.M.C.A. ”; 拜登在《 动森 》里建了个拜登岛; 美国最年轻女议员奥卡西奥-科尔特斯搞了一场《 Among Us 》直播,3 个半小时吸引来近百万观众。。。 有时候,游戏不仅仅是游戏,在不见刀兵的交锋里,它是关键性的武器,你可以不用,但你不能没有。 但这种打造人设的做法,也是一把双刃剑,玩好了轻松名利双收,玩不好瞬间反噬爆炸。 因为游戏玩家往往比较单纯,非常乐意接纳玩自己同款游戏的 “ 高智商富豪 ”们,还会对他们的游戏水平产生滤镜。 但要精通一款游戏,需要的是大量时间和热情,而不仅仅是智商和花不完的达不溜,一旦玩家们发现自己被利用,这人是个假把式,就会立刻对你进行群嘲,把你踢出圈子。 像之前 CS 圈的大佬玉麒麟翻车就是个很好的例子。 其实,人们真的会在意马斯克的游戏技术吗?显然并非如此。 如果马斯克真的厉害那倒皆大欢喜,玩的菜也不是啥问题,大伙都知道他忙,抽不出时间。 最怕的就是你不真诚,强行当高手,结果被大伙扒出真相,你尴尬我也尴尬。当信任被打破,还有多少人相信他真的热爱游戏呢? 对玩家群体而言,游戏其实真的是个很简单的东西,简单到只用四个字就能概括: 菜,就多练。
杨立昆的反共识判断:大语言模型路线错了,JEPA世界模型才是通往AGI唯一解
编辑|重点君 如果提到LLM路线的反对者,李飞飞和杨立昆(Yann LeCun)一定是绕不开的两人。 近期,杨立昆在科技频道Welch Labs详细阐述了他反对仅依靠大语言模型(LLM)来通向AGI的理由,并说明了基于联合嵌入预测架构(JEPA)架构的世界模型技术细节。 作为深度学习的主要推动者之一,杨立昆认为,单纯的自回归大语言模型与生成式AI无法实现通用人工智能(AGI),绝大部分人类智能来自于对真实世界的无监督学习。如果AI只进行逐字预测的文本生成,或者逐个像素预测的图像生成,它就无法真正掌握物理世界的内在运行规律。 基于这样的判断,杨立昆试图推进一种不同于主流生成式大模型的研发方向:通过构建在抽象表征空间内进行预测的JEPA架构,弥补AI在认知与推理方面的能力缺失。 我们整理了这场访谈的主要信息,以下是重要内容: 1.大语言模型追求复现,而世界模型强调预测 在杨立昆看来,AI具备物理推理能力的层次要高得多。 生成式大模型是复现逻辑,模型本质上是在重现训练数据中的统计规律,它的主要任务是模仿,只要输出结果在视觉或语法上合理即可。 世界模型则是预测逻辑,模型的主要任务是推理。它必须在面对未知环境时,准确判断行为产生的物理结果。AI的最终目标是具备真正的常识,成为能够自主规划和行动的智能体。 2.大语言模型存在固有缺陷,世界模型才能通向AGI 杨立昆认为,当前的生成式大语言模型受制于自回归机制。系统只是在计算下一个最可能出现的字符或像素,并未在全局层面建立对事物内部逻辑的认知。随着输出内容的增加,误差也会持续累加,最终必然导致严重偏离客观事实的输出结果。单纯依靠扩大模型参数量无法解决这一结构性难题,概率统计过程本身无法直接转化为严谨的因果推理能力。 而世界模型在系统内部建立了反映现实逻辑的预测机制。这使得AI在实际执行任务前,能够先在抽象层面上准确预判不同行动路线的物理后果。这种基于客观规律进行内部推演和决策的能力,改变了机器只能被动响应静态数据的现状,赋予AI主动干预现实的基础认知,这是机器获取通用人工智能的必要条件。 3.JEPA世界模型技术路线摒弃像素级预测,转向数学表征空间(Representation Space) 主流的生成式模型试图重构图像或视频的每一个视觉细节。由于物理世界充满了不可预测的随机干扰信息,这种尝试往往会导致模型生成模糊的图像,或者消耗极其庞大的计算资源。 与注重视觉生成效果的模型不同,JEPA架构的主要特征在于剔除无用的环境细节。它通过孪生网络(Siamese Networks)等结构,将输入信息压缩成高度概括的数学表征。这意味着模型不再需要完全还原环境,而是直接在抽象层面上预测事物的运动规律和发展趋势。 JEPA目前已被用于提升机器视觉与物理推理能力,研究人员通过V-JEPA等模型,让机器人在不依赖海量人工标注数据的情况下,学会理解物体之间的相互作用。 4.解决表征坍塌(Representation Collapse)难题,世界模型即将迎来技术突破 为什么在抽象空间内进行预测的AI发展面临困难?主要阻碍在于模型容易进入表征坍塌的错误状态。在这种状态下,模型会输出恒定不变的错误结果来强行匹配预测目标。 为了解决这一难题,杨立昆团队采用了Barlow Twins等技术策略。通过最大化不同特征之间的信息差异,迫使模型学习真实有效的环境信息。随着表征学习技术的成熟,基于JEPA的世界模型领域即将迎来大规模扩展的技术突破时刻。 以下是杨立昆访谈实录: 1.寻找取代LLM的全新架构:JEPA 主持人:人工智能传奇人物杨立昆筹集了十亿美元,用于探索人工智能的替代方案。与大型语言模型不同,杨立昆的方法既不以语言为基础,也不是生成式的,它在设计上就不会输出文字、图片或视频。取而代之的是,他提出了JEPA方案。 JEPA不是单一的AI模型,而是一种全新的架构或用于训练AI模型的框架。在人工智能和机器学习的许多成功案例中,模型都是通过给定输入X来预测输出Y进行训练的。比如大型语言模型接收输入文本X并被训练来预测接下来出现的文本Y;图像分类器接收输入图像X并被训练来预测相应的标签Y。 但JEPA的工作原理并非如此。在JEPA中,输入X和输出Y被分别输入到名为编码器(Encoder)的模型中。这些编码器会返回一个数字向量或矩阵,也就是通常所说的嵌入(Embedding)。随后,第三个被称为预测器(Predictor)的模型会基于X的嵌入来预测Y的嵌入。 为什么这可能是构建AI系统的一种更好方式?你认为JEPA或者基于世界模型的方法未来有一天会取代LLM吗?还是说它们其实是在解决不同的问题? 杨立昆:初期它们解决的是不同问题,但最终它们确实会取代LLM。因为LLM虽然非常擅长处理语言,但除此之外基本毫无建树。在语言本身即为推理基底的领域,相比主流的生成式语言AI方法,它们的表现非常出色。 主持人:JEPA存在于联合嵌入架构(Joint Embedding Architectures)这一替代路径上。有趣的是,杨立昆在这两条路径的发展初期都发挥了重要作用。 在这个由两部分组成的系列访谈的第一部分中,我们将探索通往JEPA的这条替代路径。我们将深入探讨为什么杨立昆会在生成式架构于语言领域崭露头角之时选择放弃它,并探寻他在解决困扰联合嵌入架构多年的表示崩溃(Representation Collapse)问题时所获得的灵感。最后我们将深入研究JEPA架构本身。在第二部分中,我们将深入探讨JEPA的实现方式,并看看这些模型与驱动LLM的方法相比究竟表现如何。 杨立昆在20世纪80年代就预见到了这场变革的到来。当时AI领域的大多数人正忙于构建显式编程而非从数据中学习的专家系统,而他开创了卷积神经网络。25年后当深度学习开始崛起并占据AI主导地位时,突破性的深度学习模型AlexNet被发现与杨立昆在20世纪90年代提出的卷积网络惊人地相似。 然而随着深度学习在2010年代继续高歌猛进,杨立昆和其他研究人员变得愈发担忧,因为这种AI方法过度依赖带标签的训练数据。AlexNet是在庞大且经过精心标注的ImageNet数据集上通过监督学习进行训练的,它被训练去匹配人类标注者为每张图像分配的标签。相比之下,儿童只需极少数明确标记的示例就能学习到像“狗”这类概念且极具通用性的表示。 随着手动标记数据成为监督学习的瓶颈,人们对替代方法的兴趣日益浓厚。强化学习让模型通过与环境交互而非从标记数据中学习,它在2010年代中期经历了多次复兴,Google DeepMind在Atari游戏以及高度复杂的围棋(Go)上的突破性表现就凸显了这一点。与此同时杨立昆等人探索了从无标签数据中学习的无监督方法,其中包括一种被称为自监督学习(Self-supervised Learning)的变体,其标签直接取自数据本身。 杨立昆:大约在2015年,我开始在机器学习社区展示一张后来变成梗的幻灯片。我在上面说如果把智能比作一个蛋糕,那么自监督学习就是蛋糕的主体,监督学习是蛋糕上的糖霜,而强化学习只是顶端的那颗樱桃。当时人们对强化学习已近乎疯狂,所以我试图告诉他们这种方法太低效了,永远不可能带我们达到接近人类或动物智能的水平。事实证明,自监督学习的成功在文本和语言领域发生得要比在视觉等更自然的模态中快得多。 2.生成式模型在视觉领域的困境 主持人:杨立昆这里指的是通过预测下一个Token来训练大型语言模型(LLM)所取得的成功。OpenAI成立于2015年,最初致力于强化学习,创建了OpenAIGym和Universe并在复杂的视频游戏中展示了令人印象深刻的性能。 当公司大部分精力都集中在强化学习上时,Ilya Sutskever和Alec Radford等人开始对来自Google的一种新型神经网络架构Transformer产生兴趣。它最初是为语言翻译设计的,但在实验过程中Radford尝试了一种有趣的修改。他没有让Transformer将一种语言转换为另一种语言,而是转向了一种更简单的自监督方法:训练文本被分解为序列,Transformer接收除了最后一个Token之外的所有内容,并被训练来预测最后一个Token是什么。 Radford和他的OpenAI同事们在一个包含7000本书的庞大内部数据集上训练了他们的Transformer。这个阶段现在被称为预训练(Pre-training),随后他们使用标准的有监督学习在特定的语言任务上进一步训练模型。 这种两阶段训练方法效果显著,在包括高中水平阅读理解在内的九项语言基准测试中创下了新的SOTA结果,表现超越了针对每个单独任务专门设计的架构。Radford的模型也就是现在的GPT-1,虽然当时没有引起太多公众关注,但它是一个巨大的突破,使模型摆脱了对人工标注数据的依赖并开启了前所未有的规模化水平。 OpenAI的其他研究人员迅速领悟了这项研究的重要性,团队全力投入这种方法,在2019年激进地扩展到GPT-2,2020年推出GPT-3,以及2022年发布ChatGPT。在2012年AlexNet是在约一百万个样本上训练的,而到2020年GPT-3的训练样本量已达到数千亿个。 有趣的是这种新出现的训练范式完全符合杨立昆几年前的预测:广泛的自监督预训练阶段,随后是监督学习,最后是强化学习,将原始的下一个Token预测模型塑造成为一个实用的AI助手。然而尽管这些自监督生成方法在语言领域取得了明显突破,但在图像和视频数据方面的情况却模糊得多。 杨立昆:我一直在研究视觉领域。最初的想法是使用生成式架构来训练一个预测视频中会发生什么的系统,基本上就是在像素层级训练视频后续的发展。 主持人:在GPT-1成功的前几年,包括杨立昆在内的研究人员曾尝试将同样的自监督生成式方法应用于视频。在最直接的实现中,神经网络接收一系列视频帧的RGB像素值,然后像GPT模型预测语言中的下一个Token一样去预测下一帧的像素值。 然而当我们使用这些模型来预测下一帧时,结果是模糊的,而且这种模糊感在更长周期的预测中会剧烈累积。大语言模型是自回归(Autoregressive)的,当ChatGPT回答问题时它一次生成一个Token,并在每一步将最新生成的Token传回输入端以产生下一个输出。如果我们尝试将这种自回归方法应用于下一帧视频预测模型,结果会迅速退化为模糊的虚无。 生成式视频预测方法产生的模糊帧并不是什么未解之谜。语言虽然复杂且不可预测,但与视频相比根本不算什么。语言模型使用固定大小的词汇表,比如GPT-2拥有50257个离散输出对应下一个可能生成的Token。这种完全枚举的方法在视频领域行不通。 对于全高清视频,在最一般的情况下每个像素可以取256个离散值,而我们拥有1920×1080×3个彩色像素。这意味着下一帧视频可能有大约10的1500万次方种可能性,这令可观测宇宙中的原子数量都相形见绌。因此视频预测模型不可能像语言模型那样为每一个可能的下一帧提供离散输出。相反那个时代的许多生成式视频方法让网络直接输出像素强度值,这种方法面临的巨大挑战是模型如何学习处理不确定性。 如果我们对比LLM学习补全句子“球弹向了xx地方”和一个预测球体弹跳视频下一帧的神经网络,就能清楚看到问题所在。在LLM训练案例中,模型在训练集中会看到各种示例,由于模型为每个Token都有独立输出,它基本上可以独立更新这些概率。 但我们的视频模型就没有这么轻松了。如果数据集包含球从同一路径开始运动然后向各个方向弹跳的视频,由于模型被迫针对给定输入直接预测单个输出帧,面对这种歧义性它能做的最好处理就是预测这些结果的平均值。当我们对视频的像素值取平均时,最终得到的就是一片模糊褪色的混乱画面。 虽然这只是最天真的方法,在过去几十年里人们也尝试了许多图像预测策略并取得了不同程度的成功,但这些自然产生的挑战促使杨立昆等研究人员提出了一个有趣的问题:我们的模型真的必须是生成式的吗?在GPT示例的关键预训练阶段,模型是否具有生成能力其实并不重要。 在针对“预测下一个Token”进行预训练之后,我们得到的是一个本质上非常出色的自动补全模型。但真正重要的是模型为了解决预测任务而学习到的内部表示和特征,正是这些内部表示使得预训练模型能够被快速适配成强大的AI助手。语言上的下一个Token预测是智能的一种代理指标,事实证明这种方法效果惊人。但是否还有其他信号和方法可以用来学习构建智能系统所需的强大内部表示(Representations)呢? 3.联合嵌入架构的引入 杨立昆:与此同时在2017到2018年左右,我们开始意识到学习图像表示的最佳系统是那些非生成式的系统。它们不进行重构。 你输入一张图像将其通过一个编码器(Encoder),接着你尝试引导这个编码器在具备某些特性的前提下提取尽可能多的信息。例如你拍摄同一场景的两张图像,或者拍摄一张图像并以某种方式对其进行损坏或转换。你将它们都通过Encoder运行,然后告诉系统无论提取出什么,这两张图像的表示都应该是相同的,因为它们在语义上代表同一个事物。我 从90年代起就一直在研究这类联合嵌入(Joint Embedding)的想法,这并不是新概念,我们以前称之为孪生神经网络(Siamese Neural Net)。 主持人:杨立昆提到的孪生网络是由他及其合作者于20世纪90年代初在贝尔实验室(Bell Labs)开发的,当时是为了开发检测欺诈签名的系统。 该系统的工作原理是将一对签名图像输入到两个相同的神经网络副本中。这些网络副本并非为了生成任何数据而训练,相反它们输出的是数字向量也就是嵌入向量(Embedding Vectors)。 网络副本在两类样本上进行训练:正样本包含一个参考签名和一个非欺诈签名,即出自同一人之手;负样本包含一个参考签名和一个欺诈签名。对于欺诈样本,网络被训练为产生差异最大的嵌入向量;对于正样本,则生成相似度最大化的嵌入向量。当新签名出现时,我们可以将其传入网络计算出一个嵌入向量并与参考签名生成的向量进行比较,如果相似度不足该签名将被检测为伪造。 通过对签名进行联合嵌入,孪生网络学习到了签名图像中非常有用的内部表示,值得注意的是这一过程无需学习预测或生成任何实际的签名图像。正如基于GPT的方法那样,联合嵌入为视频模糊问题提供了一个潜在的可行解决方案。 杨立昆:你获取一张图像将其输入编码器,接着你尝试引导这个编码器提取尽可能多且具有特定属性的信息。例如你拍摄同一场景的两张图像或者获取一张图像并对其进行损坏或转换。你将它们通过编码器运行并告诉系统,无论提取出什么这两张图像的表示都应该是相同的,因为它们在语义上代表同一个事物。 4.攻克联合嵌入的表示崩溃难题 主持人:所以这里的思路是,我们避开了在生成式模型中看到的视频模糊问题。通过使用联合嵌入架构,将经过损坏或转换处理的图像或视频副本映射到相似的嵌入向量。理想情况下,这个经过训练的模型将学习到图像或视频的有用的内部表示,我们可以将其重新用于其他任务,正如GPT模型在预训练期间学习内部表示并最终被调整为AI助手的行为一样。 然而这种联合嵌入(Joint Embedding)策略存在一个巨大的问题。由于我们训练网络的目的是使原始图像或视频与损坏后的版本尽可能相似,网络可能会找到一个平凡解,即无论传入什么输入,它都简单地返回相同的嵌入向量。如果网络学会了对任何输入都输出全1的向量,那么它对于同一图像的受损和未受损视图都会返回全1,从而使产生的相似度最大化,但实际上并没有学到任何有用的东西。这个问题被称为表示崩溃(RepresentationCollapse)。 在杨立昆最初的孪生网络(SiameseNetwork)方法中,团队使用了如今被称为对比学习(ContrastiveLearning)的方法来避免表示崩溃,并在训练时为网络提供正负样本。事实证明这种对比方法同样适用于图像和视频,我们可以训练网络使其对同一底层图像或视频的不同视图输出相似的嵌入,而对不同的图像或视频输出不同的嵌入。 这些对比方法虽然在图像和视频领域取得了成功,但在扩大规模时却面临困境,往往需要海量的计算资源和庞大的负样本库才能学习到有意义的表示。杨立昆认为在最坏的情况下,对比样本的数量可能会随表示维度的增加呈指数级增长。 到2010年代末,杨立昆等人已经清楚认识到,使用生成式模型去完全重建图像和视频并不是自监督学习的有效路径。但当时业界并没有一个直接的解决方案来处理表示崩溃问题,这也阻碍了联合嵌入架构学习到与大语言模型同等强大的通用内部表示。 杨立昆:很明显,对于图像和视频这类信号采用重建的方法并不是个好主意。后来我恍然大悟,因为我们当时用来训练联合嵌入架构的方法多少有些取巧。直到我和Meta的几位博士后同事,特别是阿德里安·巴德斯(AdrienBardes)做了一些研究,他提出了一种名为Barlow Twins的技术。这项技术基于计算神经科学和机器学习领域的一个古老理念,杰夫·辛顿(GeoffreyHinton)也曾研究过类似观点,即系统需要有某种衡量信息内容的标准并尝试将其最大化。著名的理论神经科学家霍勒斯·巴洛(HoraceBarlow)在这方面做过一些开创性的基础研究。 主持人:这里杨立昆引用的是霍勒斯·巴洛的研究工作。1961年巴洛提出假设,认为动物和人类视觉系统中的神经元是通过减少相互之间的冗余信息来运作的。2020年,杨立昆的博士后研究员斯蒂芬·德尼(StephaneDeny)基于对巴洛研究的了解,提出将巴洛的理念应用于网络输出端,以此作为避免表示崩溃的一种途径。 在我们讨论的联合嵌入架构中,嵌入向量是由网络最后一层的人工神经元生成的。如果嵌入向量长度为128,那么每个网络的输出层就包含128个神经元。如果传入一批多样的图像并观察遍历过程,第一个神经元可能在狗的照片上强烈激活,但在猫的照片上则无反应。 在联合嵌入方法中,网络接收同一批图像的变形视图,其核心目的就是让同一底层图像生成的嵌入表示趋于相似。因此我们希望第二个网络中第一个神经元的输出能与第一个网络中第一个神经元的输出保持高度一致。标准架构只需测量并最大化这两个向量的相似度即可,但这极易导致网络简单地为所有输入输出相同值,即发生表示崩溃。 引入巴洛的假设后,团队选择通过计算两个网络输出向量之间的互相关(Cross-Correlation)来减少不同神经元输出间的冗余。计算过程包括对每个向量进行缩放并求点积,最终得到皮尔逊相关系数(PearsonCorrelationCoefficient)。为了减少冗余,我们希望这种相关性趋近于零。 将两个编码器的神经元输出分别垂直和水平排列,计算所有神经元对之间的相关性并构建成一个矩阵。由于联合嵌入架构的核心理念是为同一图像的不同失真版本产生相似输出,我们希望两个编码器中对应的神经元具有高度相关性,同时希望非对角线上对应不同神经元的元素相关性为零。理想状态下,这个互相关矩阵应该呈现为单位矩阵(IdentityMatrix)。 杨立昆及其合作者由此设计了一个全新的损失函数,用于衡量互相关矩阵与单位矩阵之间的偏差。这种被称为Barlow Twins的新方法效果惊人,它在成功学习训练图像强大内部表示的同时,完美避开了表示崩溃的陷阱。团队采用了多种方法来验证这些内部表示的质量。 正如早期自监督预训练让GPT-1超越了纯监督模型一样,当时视觉任务最重要的基准测试是ImageNet数据集的分类准确率。2012年原始的AlexNet在验证集上实现了59.3%的准确率。为了将自监督的Barlow Twins与全监督模型进行直观对比,团队使用了线性探测(LinearProbe)方法,即在冻结的Barlow Twins编码器输出端添加一层神经元,并使用监督学习进行分类训练。结果令人瞩目,该模型在ImageNet上达到了73.2%的准确率,比全监督的AlexNet高出整整10个百分点。 然而在2012年到2021年间,全监督方法本身也取得了长足进步,例如谷歌团队在2020年将Transformer架构应用于图像分类,创下了88.6%的新纪录。因此到2021年,尽管自监督学习在视觉任务中进展迅猛,但其综合表现仍略逊于最顶尖的全监督方法。在语言领域推动大模型快速发展的生成式预训练范式,在图像和视频领域依然难以跑通。 杨立昆:事实证明我们选择的是一条正确的道路。在那之后我们发布了Barlow Twins的简化版VICReg,效果同样出色。与此同时我们在巴黎的同事也在研究类似路线,最终演变成了DINO系列。这也是一种JEPA技术,事实非常明确,联合嵌入在图像表示的自监督学习方面具有显著优势。 主持人:2025年8月发布的DINOv3论文标志着视觉领域的一个重要转折点。它利用联合嵌入架构实现了88.4%的极高图像准确率,紧逼当前行业的最先进水平。 正如作者在论文中所述,这是自监督学习首次在图像分类任务上达到与监督模型相匹敌的成果。DINOv3在零人工标签介入的情况下展现出的表征学习能力令人震撼。它为分析的每个图像块(Patch)输出一个嵌入向量。如果从测试图像的手部区域提取嵌入向量并与图像其他部分进行相似度比对,DINO能够精准地将手部从复杂背景中完美分割出来,这种能力同样适用于球、猫或书本等任何物体。 在Barlow Twins、VICReg和DINOv1取得连串成功后,杨立昆于2022年将这些思路凝练成了一篇长达60页的重磅立场论文《迈向自主机器智能之路》(A Path Towards Autonomous Machine Intelligence)。与他以往专注于机器学习具体技术细节的论文不同,这篇文章采用基于第一性原理的全局视角,深刻探讨了我们究竟该如何构建真正的智能机器。论文首先犀利指出,目前的AI方法距离人类的学习能力还差得很远,比如一名青少年只需20小时左右的练习就能熟练掌握开车技能。 杨立昆:这基本上就是Tesla正在努力的方向。但是他们距离真正实现Level3至Level5的自动驾驶还差得很远。然而一个17岁的少年只需几个小时的练习就能学会开车。这究竟是如何实现的?难道我们不应该弄清楚这背后隐藏的智能奥秘吗?我的核心推测是,这个奥秘就是世界模型(World Models)。 5.世界模型:迈向自主机器智能 主持人:杨立昆压下重注的论断是:现代AI缺失的最关键一环正是世界模型,即能够对物理世界运行规律做出准确预测的模型。正如他在2022年论文中所阐释的,常识本质上可以被视为一系列世界模型的集合,它们负责告诉智能体什么是可能的、什么是合理的以及什么是绝对不可能的。凭借这些世界模型,动物只需极少量的试错就能掌握新技能,它们能够预判自身行为的后果,进而进行推理、规划、探索并为复杂问题构思出全新的解决方案。杨立昆进一步论证,联合嵌入架构为构建这种世界模型提供了最坚实的底层基础。 杨立昆:JEPA代表联合嵌入预测架构(联合嵌入PredictiveArchitecture)。其运行机制是先获取对世界的当前观测状态,再获取下一个观测状态,并将它们依次通过编码器进行处理。随后预测器会尝试根据时间t的状态去预测时间t+1的状态,你还可以通过输入具体的动作指令来对预测过程进行干预和调节,这样你就获得了一个完整的世界模型。 主持人:举个具体的例子,与其使用传统的生成式架构去逐个预测视频下一帧的庞大像素值,我们完全可以将视频当前帧和下一帧映射到精简的嵌入空间中。然后训练一个预测器模型,让它在给定当前视频嵌入的情况下直接预测下一帧的嵌入。在这种实现机制下,JEPA架构成功将模型从预测海量像素的繁重且低效的任务中解脱出来,使预测器能够全神贯注于分析场景中经过编码器筛选的那些核心显著特征。杨立昆在这里提出了一个极佳的思维实验。 杨立昆:如果你训练一个模型来预测行车记录仪画面中接下来会发生什么,传统的生成式模型会把极其宝贵的算力资源浪费在预测道路两旁树叶的随机摆动上,这些内容本质上毫无预测规律可言,却占据了画面中大量移动的像素。 主持人:正如杨立昆之前提到的,我们可以通过引入动作条件将JEPA的应用边界进一步拓宽。在V-JEPA2的研究中,团队将机械臂接收到的具体动作信号作为约束条件输入到JEPA模型中。JEPA在观察机械臂及其所处环境的连续图像序列时,不仅要通过训练预测下一帧画面的嵌入表示,还要同步处理发送给机械臂的控制信号。这使得预测器能够深度学习并准确预测出各种不同的控制指令将如何实际改变机械臂在未来嵌入图像中的空间位置。 这种经过充分学习的世界模型随后就可以直接用于机器人的复杂规划与精密控制。给定一张代表目标状态的图像(例如将杯子移出平台),该图像被传入下一帧编码器生成目标状态的嵌入。在此基础上,系统可以使用控制算法在世界模型中进行预演和探索,测试各种假设性的动作干预,最终反向推导出一系列能够引导模型预测状态完美匹配目标状态的最优动作序列。正如杨立昆所评价的,这确实是用前沿架构对一个经典旧理念的全新重塑。 杨立昆:你构建了一个强大的模型,它能根据当前的世界状态以及你设想采取的控制动作,精准提供下一个时间步的世界状态。一旦拥有了这个模型,你就可以在虚拟空间中预测任意动作序列的最终结果,并通过数学优化计算出一条最优的操作路径以达成特定目标。这是非常经典的优化控制(Optimal Control)理论,其历史渊源可以追溯到20世纪50年代末的苏联以及60年代初的西方学术界。 主持人:这确实是控制理论中极其经典的核心内容。 杨立昆:是的。但这套架构中不那么经典的部分在于,你需要用最前沿的机器学习技术来从零训练这个模型。更具颠覆性的是,你还要让网络自行学习出一种高度抽象的输入状态表示,并在这个抽象的状态空间中完成模型的学习闭环,这正是JEPA的精髓所在。 让我抛出一个可能会得罪不少硅谷同行的争议性观点。我根本无法理解你们怎么能设想去构建一个高级的智能体系统,却不赋予它预测自身行为后果的基础能力。变分自编码器(VAE)做不到这一点,当前火热的大语言模型也同样不具备世界模型。它们根本无法在行动前预判自己的输出会造成什么后果,它们只是盲目地生成token采取行动,然后就像某位法国国王所说的那样——“我死后哪怕洪水滔天”。 如果你真的想构建安全可靠的智能体系统,它们绝对必须具备预测行为后果的能力,只有这样它们才能合理规划行动序列以完成复杂任务,并在此过程中严格确保安全护栏不被突破。在这样的系统里,推理过程已经演变成了一个严密的搜索与推演过程,而不再是简单的自回归预测。这就是世界模型的全部核心理念与终极价值。
月产仅4台,机器人“祖师爷”波士顿动力塌房了!核心CTO已叛逃谷歌
新智元报道 编辑:好困 【新智元导读】谷歌养不活、软银养不活、现代砸22亿美元还是养不活。波士顿动力IPO前夜,高管已集体出走。 月产4台。 这就是全球机器人行业的「祖师爷」波士顿动力,在2026年交出的Atlas人形机器人产能成绩单。 而它的母公司现代汽车,在CES上宣布的目标是,2028年年产3万台。 4台 vs 30000台,这道算术题不用做,结果就写在一份密集的离职名单上。 CEO退休、CTO叛逃、COO出走 IPO前夜团队几乎走空 Semafor独家报道揭开了这场静默瓦解的全貌。 今年2月,CEO Robert Playter宣布退休。这位在波士顿动力待了30年的老将,在内部邮件里写的是「做了一个极其艰难的决定」。 紧随其后,COO走了,首席战略官也走了。 CTO Aaron Saunders更绝,直接投奔了Google DeepMind,头衔是机器人硬件工程VP。 这个人有多重要?Atlas和Spot两款明星产品的商业化,基本是他一手推的。 他到DeepMind之后发了一条LinkedIn长文,核心意思就一句: 机器人终于可以去任何地方了,但接下来的大挑战是让它们做任何事,这就是我加入DeepMind的原因。 翻译过来就是,波士顿动力解决了「走路」的问题,但「干活」的问题,他觉得DeepMind更有戏。 除了C-suite集体撤退,还有一批机器人研究员和高级工程师也跟着走了。 都是董事会逼的 前员工告诉Semafor,这些高管其实是被董事会逼出去的。 原因是,董事会对波士顿动力面对竞品时不断缩小的领先优势,非常不满。 这里有个关键背景。 波士顿动力1992年从MIT分拆出来,创始人是传奇机器人学者Marc Raibert。2013年谷歌买了它,2017年卖给了软银,2021年现代汽车花11亿美元接手。 三个科技巨头,一个比一个有钱,但没有一个把它做成了赚钱的生意。 现代买的时候,波士顿动力是全球机器人领域毫无争议的技术标杆。那些翻跟头、跑酷的视频累计播放量早就过亿了。 但现代买它,不是为了看翻跟头。 更耐人寻味的是,这场高管离职潮发生时,波士顿动力正在筹备IPO。 分析师预估,最早可能在2027年登陆纳斯达克,乐观估值区间从210亿到850亿美元不等。 软银手中剩余的9.5%股份put option也在2025年6月触发,进一步推动了上市进程。 IPO前夜换掉整个管理层,这步棋要么是壮士断腕,要么是自毁长城。 今年1月的CES上,现代公布了一份雄心勃勃的路线图。 2028年开始在佐治亚州萨凡纳的Metaplant工厂部署Atlas,先做零件分拣,2030年扩展到组装工序。目标年产能,3万台。 背后的逻辑一目了然。现代要建的是「人机协作」的智能工厂,Atlas是核心执行者。 其中,现代Mobis负责造零部件,现代Glovis负责物流,Google DeepMind提供Gemini大模型做机器人的「大脑」,NVIDIA提供算力和仿真平台。 一整条链都搭好了,就差机器人本身能量产。 根据Korea Herald此前的报道,波士顿动力2024年Q2和Q3分别净亏损2386亿和3156亿韩元,折合约1.6亿和2.2亿美元。 现代收购以来累计注资超过22亿美元,累计营收仅约2.7亿美元,累计亏损超过9.5亿美元。 这笔收购的账面回报,暂时还看不到拐点。 然后现代发现,月产4台。 一家养了五年的子公司,连原型机到量产的跨越都还没完成。 相比之下,对手们早就在疯狂冲刺了。 竞品围剿 波士顿动力的护城河还剩多少 最猛的Figure AI,2022年才成立的公司,估值已经飙到390亿美元。 它的Figure 02已经在BMW南卡罗来纳工厂跑了1250多个小时的实际工况,支撑了超过3万辆车的生产,处理了9万多个零件。它的BotQ工厂,规划年产能12000台。CEO Brett Adcock的目标是四年内出货10万台。 再看国内。 摩根士丹利的数据显示,2022年以来全球62%的人形机器人新品发布来自中国,70%的核心零部件供应链也在中国手里。并且价格已经被打到了1万美元以下,相当于是Atlas的零头。 不仅如此,融资额过10亿人民币的公司,也已经在20206年批量出现。今年4月的人形机器人半程马拉松,更是有300多台来自26个品牌的机器人下场,冠军直接跑进了50分半。 根据高盛预测,2026年全球人形机器人出货量将达到5.1万台,2027年7.6万台。 这个赛道正在从「实验室项目」变成「量产竞赛」,而波士顿动力在量产这件事上,还没过起跑线。 曾经的机器人一哥 现在1个月只能产4台 波士顿动力的发言人回应Semafor时说,这些人事变动是为了「迎接公司的下一个发展阶段」,Atlas正在从原型机向量产版过渡,产能正在快速提升。 话术没问题。但这些话,过去三年类似的表态已经说过太多次了。 有意思的是,就在这篇报道发布的同一周,TIME杂志把波士顿动力评为2026年全球最具影响力的100家公司之一。 DHL刚刚签下了超过1000台Stretch仓储机器人的订单。Spot已经在全球40多个国家执行巡检任务。 这家公司不是没有商业化能力。Spot和Stretch已经证明了这一点。 真正的困境在Atlas身上。 这台56个自由度、能负重50公斤、号称「超越所有企业级人形机器人」的产品,承载着现代汽车的智能工厂梦、波士顿动力的IPO估值,以及市场对「技术标杆终于下场实战」的期待。 它的任务不是翻跟头了。是造车。 而它的总工程师,刚刚去了DeepMind。
突发!日本航空拿下宇树科技
作者 | 刘三关 来源 | 公关头条(ID:PR_toutiao) 谁能想到,向来以机器人技术和极致服务自居的日本,会在自己的国门级航空枢纽,给中国机器人开了核心场景的绿灯。 近日,日本航空联合GMO AI & Robotics正式官宣: 东京羽田机场将启用人形机器人落地地勤作业,核心产品来自中国宇树科技,试点周期持续至2028年。 消息一出,直接炸了科技圈与航空业:这不是实验室里的概念秀,是人形机器人首次落地全球顶级航空枢纽商用场景; 而拿下这单的,是一家纯中国本土企业。 羽田机场的新“员工” 来自中国制造 作为年旅客吞吐量超6000万人次的全球最繁忙航空枢纽之一,羽田机场的地勤服务,一直是日本服务业的标杆。 行李箱把手统一朝外、雨天给行李套防水罩、逐一擦干箱体水渍,这些极致细节的背后,是高强度、高密度的人力投入。 而这次日航找来的新帮手,正是宇树科技的人形机器人,初期核心负责行李集装箱推送、基础货物转运等地勤工作,后续还将逐步拓展至客舱清洁、地勤设备操作等场景。 很多人疑惑,日本是全球公认的传统机器人强国,本土坐拥安川、发那科等一众行业巨头,为何偏偏选了中国宇树? 日航官方给出的答案非常实在: 机场现有设施早已成型,轮式机器人、固定自动化设备需要对基建进行大规模改造,成本高、周期长,而人形机器人可以直接适配现有的作业流程,无需大改场地和设备。 更关键的是,宇树的产品在动作灵活性、量产能力和成本控制上,都达到了可商用落地的标准,这是它能拿下订单的核心底气。 不是机器人抢饭碗 是日本没人干活了 舆论发酵之处,不少人第一反应是“机器人要抢人类工作了”,但事实恰恰相反,这并不是一场主动替代,而是一场被动补位。 日航在公告里说得很明白,启动这次试点,核心目的是缓解机场地勤日益严峻的劳动力短缺困境。 这句话的背后,是日本无法回避的社会现实: 作为全球老龄化最严重的国家,日本适龄劳动人口持续萎缩,而机场地勤这类高强度、重体力、作息不规律的岗位,早已陷入了招工难的死循环。 一边是用工缺口持续扩大,另一边是赴日游客的爆发式增长。 2026年前两个月,赴日游客已经突破700万人次,而日本政府定下的2030年6000万入境游客目标,更是让航空业的人力压力雪上加霜。 客流量的上涨速度,远远超过了地勤人员的招聘速度,没人干活,才是日航转头拥抱机器人的核心原因。 说白了,机器人不是来抢饭碗的,它是来接下那些没人愿意干的苦活、累活。 别嘲笑它笨拙 人形机器人的时代真的要来了 当然,我们也不必过度神化这次落地。 从目前的公开演示来看,这款机器人还处在非常初期的阶段,只能完成基础的推送动作,距离完全独立应对复杂的机场场景,还有很长的路要走。 羽田机场的停机坪,是出了名的复杂作业环境: 几十种不同规格的行李、需要特殊处理的易碎品与活体托运、精准到分钟的航班周转要求,任何一个操作失误,都可能引发旅客投诉甚至航班连锁延误。 而现阶段的人形机器人,连稳定走过不平整地面、完成连续复杂动作,都还在持续攻关,行业里展会现场机器人撞墙、失控、失灵的案例,更是屡见不鲜。 但不可否认的是,这次合作,是人形机器人从“PPT讲故事”“实验室炫技”,走向规模化商用的关键一步。 过去几年,人形机器人赛道火得一塌糊涂,特斯拉Optimus、波士顿动力Atlas等一众玩家扎堆入场,黄仁勋更是直言“机器人的ChatGPT时刻即将到来”,但热闹背后,行业始终绕不开一个死穴:没有真正可落地的大规模商用场景。 宇树科技这次拿下日航订单,恰恰捅破了这层窗户纸。 更重要的是,中国机器人正在用极致的性价比和量产能力,改写行业规则,让原本高高在上的人形机器人,有了大规模落地的可能。 技术的进步从来都不是一蹴而就的。 就像当年拨号上网要等几分钟才能打开一张图片的互联网,没人能想到它会彻底改变世界。 现在这个还略显笨拙的机器人,或许就是人形机器人商用时代的真正起点。
等了2年!iOS 27被曝全场景AI落地,Siri将成独立应用
随着新任 CEO 的公布,苹果在 AI 的动向可谓是期待值拉满。 虽说没有赶上第一波 AI 大潮,但是从全网的爆料来看,iOS 27 已经做好摩拳擦掌惊艳众人的准备了。 从目前已确认的信息与权威爆料来看,iOS 27 并非一次追求花哨功能的表层迭代,而是苹果在 AI 时代的一次战略级变身。 最稳定的版本:iOS 27 据彭博爆料,iOS 27 的内部研发代号为「Rave」,其核心更新思路参考了 2009 年发布的 Mac OS X Snow Leopard 系统。 在当年,Snow Leopard 放弃了大量炫技式的新功能,将核心研发重心放在系统性能优化、bug 修复与底层稳定性提升上,最终成为 Mac OS X 史上口碑最好的版本之一。 而 iOS 27 的定位,正是移动生态的 “Snow Leopard 式更新”。 据知情人士透露,苹果已大幅降低了非核心功能的研发优先级,将核心资源向两大方向倾斜: 一是全链路的系统性能优化与质量管控,针对 iPhone、iPad、MacBook 全设备端的软件漏洞、运行卡顿等痛点进行集中修复,目标打造近年来最流畅、最稳定的 iOS 版本; 二是全场景 AI 能力的深度落地,为 Apple Intelligence 功能打造专属的系统底层优化,让 AI 能力的调用更顺滑、更省电、更贴合日常使用场景。 Siri:从语音助手到全功能 AI 入口 如果说 iOS 27 是苹果 AI 战略的转折点,那么 Siri 的全面重塑,就是这场转折中最核心的标志性升级。 据爆料,这是 Siri 自诞生以来最大规模的一次形态与能力迭代,底层将接入谷歌 Gemini 大模型(项目代号 Campo),完成从 “语音助手” 到 “AI 聊天机器人” 的彻底蜕变。 最核心的变化,是苹果正在开发一款独立的 Siri 原生应用。 据爆料,这款 App 采用极简设计,界面风格酷似 iMessage,以对话流的形式呈现交互,彻底打破了此前 Siri 只能单次唤醒、单次对话的限制。 用户不仅可以在 App 内进行连续追问、多轮对话,还能查看、置顶、搜索历史聊天记录,整体体验类似 ChatGPT、Gemini 等主流聊天机器人。 同时,App 支持语音与文字输入模式的无缝切换,用户既可以用语音唤醒指令,也可以直接打字与 Siri 交互,彻底摆脱了此前 “只能语音交互” 的使用限制。 在能力层面,重构后的 Siri 传闻将实现三大维度的突破: 一是复合多任务处理能力,终于可以在单条用户指令中理解并连续执行多个任务,例如一句 “查询明天的天气,顺便给妈妈设置晚上 7 点的电话提醒”,就能一次性完成全链路操作,无需再拆分成多条指令分步下达; 二是跨应用的深度联动能力,通过深度调用 App Intents 框架,Siri 可以直接读取用户的邮件、日历、屏幕内容,实现 “识别屏幕上的地址一键存入通讯录”“根据邮件内容自动添加日程提醒” 等操作,还能直接代用户在第三方应用内完成访问新闻、网页搜索等任务; 三是多模态处理能力,支持用户上传 PDF、照片等文件,完成摘要提取、内容分析、信息查询等操作,无需再跳转第三方 AI 工具。 在系统交互层面,Siri 也将迎来全新的设计升级。 爆料称,新版 Siri 将深度融入灵动岛,唤醒后灵动岛会自动扩展,显示 “搜索或提问” 的提示与发光光标,不再占用半屏界面,交互更轻量化、更丝滑。 更值得关注的是,苹果将为 Siri 开放第三方扩展能力,在 App Store 设置专属的扩展板块,用户安装对应扩展后,即可将 Claude、Gemini 等主流 AI 聊天机器人接入 Siri,打破了此前仅支持 ChatGPT 集成的限制。 视觉智能全场景落地 在 iOS 27 中,随 iPhone 16 推出的 Visual Intelligence(视觉智能)功能将迎来全面革新。 4 月 16 日,MacRumors 发布博文称,通过挖掘 iOS 27 Beta 版代码字符串发现,苹果将在新系统中大幅拓展视觉智能的应用场景,不仅将其原生整合进相机应用,更实现了与健康、通讯录等系统应用的深度联动,同时为未来的可穿戴设备预留了能力接口。 据代码推断的信息,最核心的变化是相机应用内将新增专属的 Siri/AI 模式,该模式与照片、视频、人像等经典拍摄选项并列展示,快门按钮同步显示 AI 图标,用户一键即可唤醒全部 AI 视觉能力。 同时,苹果也将同步重新设计相机 App 界面,包括优化后的快门按钮、直观的手势控制,简化导航流程,降低 AI 功能的使用门槛。 除此之外,据爆料升级后的视觉智能还将实现全场景的能力覆盖: 镜头对准植物、地标、产品,即可在几秒内给出详细信息,还能直接调用 ChatGPT 进行提问,甚至一键发起谷歌反向图片搜索; 对准外语文本,即可完成实时翻译,无需再手动输入翻译软件; 对准合同、文件,即可一键扫描并通过 AI 提取文本关键点,转换成可编辑格式,实现办公场景的效率升级。 在苹果的布局中,视觉智能的升级绝非单纯的相机功能优化,而是其整个 AI 生态的感知入口。 消息显示,iOS 27 中的视觉智能能力,将实现与未来智能眼镜、带摄像头的 AirPods 等可穿戴设备的联动,让这些设备具备实时环境感知、信息解析的能力,为苹果的空间计算生态打下了坚实的感知基础。 在过去的 AI 浪潮中,苹果始终保持着审慎的节奏,仅在 iOS 26 中推出了基础的 Apple Intelligence 功能。 而 iOS 27 的相关爆料,清晰地展现了苹果的 AI 布局思路:不做孤立的大模型产品,而是把 AI 深度融入整个生态。
黄仁勋:有些CEO总喜欢装上帝!阿莫迪:你直接报我身份证得了
在最新一期《Memos to the President》播客中,黄仁勋用了40多分钟,把AI产业从底层能源讲到了顶层应用,从芯片制造又讲到人形机器人。 但在这场技术盛宴里,黄仁勋最想说的,其实是硅谷正在犯的一个错误。 黄仁勋一点没客气,直接在节目里吐槽了硅谷那些CEO们的AI末日论。 他表示:“有些说法非常适得其反,实际上是有害的。”他说,“这些话往往是像我这个层级的人说的。然后不知怎么,因为他们成了CEO,就觉得自己是上帝,转眼间就觉得自己什么都知道。” 那么黄仁勋指的是谁呢? 奥特曼曾在2023年5月签署了一封公开信,声称“减轻AI带来的灭绝风险,应该与流行病和核战争一样,成为全球优先事项”。 同年,OpenAI内部成立了“超级对齐团队”,专门研究如何防止超级智能AI“失控”并导致“人类灭绝”。 阿莫迪在2025年9月的一次公开活动上说,他认为AI导致灾难性后果的概率是25%。 当被问到这个“末日概率”时,他回答:“我认为有25%的可能性,事情会变得非常、非常糟糕。”这不是阿莫迪第一次发出警告。他此前还公开表示,AI可能会消灭一半的入门级白领工作,并对美国向中国出口高端芯片发出警告。 黄仁勋在访谈中直接点名了这类说法:“他们说AI是对人类的生存威胁,有20%的概率导致人类灭绝,这很荒谬。他们还说AI会消灭50%的新大学毕业生岗位,或者说它会彻底摧毁民主。这些评论没有意义,更没有事实依据。” 黄仁勋补充到:“也许有些科学家觉得,提前警告大家‘AI会让放射科医生失业’,是在做好事,提醒年轻人别入这行。但问题是,如果我们真把所有人都劝退了,而现在社会又急需放射科医生,那这种警告反而害了社会。软件工程师也是一样。如果我们把年轻人都吓跑了,而美国其实比任何时候都更需要软件工程师,那这些警告就是在帮倒忙。” 黄仁勋以放射科医生为例。他说,10年前,一堆人预测放射科医生要完蛋了,因为AI看片子肯定比人快比人准。 这话说对了一半。现在AI确实已经全面进入放射科了。但结论错了,放射科医生现在反而不够用了。 因为放射科医生真正的工作是诊断疾病,看片子只是手段。AI的确是把看片这件事给优化了,但诊断疾病这个最终目标还得靠人来完成。AI干掉的是重复性任务,但人的价值在于目标本身。 黄仁勋认为,AI末日的本质是科幻,如今应该少谈科幻,多谈事实;少制造恐慌,多推动应用。 他强调,美国在描述AI时太电影化、太科幻化了,搞得美国人充满焦虑和恐惧。与此同时,以中国为代表,亚洲正在热情地拥抱和采用AI。这是件必须非常担心的事,因为美国就是这样被整体甩在后面的。 黄仁勋是如何反驳这些末日论的呢?他提出了一个核心观点,工作分“任务”和“目的”。 拿程序员来说,写代码是任务,但工作的真正目的是什么?是创新,是解决问题,是发现那些还没人提出来的问题。把不相关的东西连起来,做出新东西,这才是程序员存在的意义。 黄仁勋拿自己举例:“按你们这个逻辑,我的工作就是敲手机、开会、说话。AI现在都能干这些事儿了,那我是不是该失业了?但事实是,我比以前更忙了。” 黄仁勋还说了一段很有意思的话:“你想想,过去50年我们一直弯着腰对着键盘敲字,搞得现在都觉得不打字就不会工作了。但这事儿本身就挺奇怪的。50年前人们可不这么干活。未来我们肯定会少打字,把时间花在更重要的事情上。” 黄仁勋说“过去几年AI创造了50多万个工作岗位。用AI的公司增长更快,增长快了自然就要招更多人。这不是很明显吗?” 他的逻辑其实很简单,AI确实会替代一些具体任务,但同时会释放出更大的需求。以前我们可能只需要写10亿行代码,现在有了AI,我们可能需要写1万亿行。 过去限制我们的是工具太慢、打字太费时间。 所以黄仁勋认为,那些说AI会消灭工作的人,要么是在吓唬人,要么就是在帮倒忙。 在黄仁勋眼里,AI不是什么软件升级,也不是更聪明的搜索引擎,而是整个计算方式的彻底改变。 过去几十年,计算机干的事基本就是“找东西”。你把照片、视频、文章、商品信息都存在数据中心里,用户搜索、刷视频、网购的时候,系统就从库里翻出一个最合适的给你。 搜索、推荐、信息流,本质上都是这么回事。 但AI彻底改变了这个游戏规则。 现在系统不是从库里找东西给你,而是根据你的需求、当下的情况,现场给你“造”一个从来没存在过的东西出来。每次生成的内容都不一样,都是专门为你定制的。 这个变化带来一个直接后果,以后最值钱的不再是硬盘空间,而是算力、电力,还有能跑得动这些计算的基础设施。 黄仁勋打了个很形象的比方,他说AI生成内容就像冲橙汁粉。它先把内容变成一堆token,然后根据你的要求,把这些数字重新排列组合,变成文字、图片、视频或者声音。 这个过程需要超级强大的计算机,计算机又得耗电。所以AI不只是个软件创新,而是从发电、造芯片、建机房到训练模型、做应用,整条产业链的重构。 过去一年大家对AI的认识基本都来自ChatGPT、Claude这些聊天机器人。 但黄仁勋反复强调,别把AI等同于聊天机器人。聊天只是AI最容易被看见的一面,AI还能用来研究生物、化学、物理,还能控制机器人、开车、管理工厂。真正的AI产业,是从发电到芯片到数据中心到模型到应用的完整工业体系。 这也是黄仁勋这次访谈最核心的判断,他认为AI不只是个技术突破,而是一场能重塑制造业、能源系统和就业结构的工业革命。 美国如果在这一轮掉队了,丢的不只是技术领先,还有生产力、繁荣、经济主导权,甚至整个社会。 接下来,黄仁勋把AI和美国再工业化联系到了一起。 他说,美国不能变成一个“没有大学文凭就没出路”的国家。一个健康的社会需要制造业,需要高技能的蓝领岗位,需要那些不用读到硕士博士也能往上爬的通道。可是在美国,如果你没有四年本科、没有研究生学历,那你基本就被甩下了。 黄仁勋说:“这既不公平,也没必要。” AI虽然是软件,但是它带动了制造业。因为AI需要芯片厂、封装厂、组装厂,还需要能放超级计算机的AI工厂。 黄仁勋还讲了AI技术是怎么一步步成熟的。 他说AI产业的关键突破是“基于人类反馈的强化学习”。 他提到,英伟达和微软在2021年中后期发布了第一个大语言模型Megatron,有四五千亿个参数。但那时候的模型虽然能记住很多东西,说出来的话基本是胡言乱语,没啥用。 直到OpenAI发明了让人类给反馈、让模型学习的方法,ChatGPT才真正变得好用。 黄仁勋认为,从聊天机器人到agent,关键是“harness”。 把模型接上工具、浏览器、记忆系统、真实信息和执行环境。让agent能自己去研究、查资料、记住东西、跟人沟通、把任务拆解开然后一步步执行。 AI因此从“会说话”变成了“能办事”。 黄仁勋特别提到了Codex和Claude Code这些编程agent,说它们已经能把大部分软件任务自动化了。 但他不觉得软件工程师会消失,事实上英伟达和很多公司还在疯狂招工程师。 其实原因还是黄仁勋的那句话“写代码是任务,不是目的。” 然后黄仁勋还提到Physical AI也在快速成熟。黄仁勋认为自动驾驶会是第一个真正落地的突破。他说,机器人出租车在科学上已经解决了,现在主要是工程问题,而且工程也快搞定了。 英伟达做了一个叫Alpamayo的软件,号称世界上第一个“会思考的汽车”。 这个会思考,指的是它遇到一个从来没见过的情况,也能推理出该怎么办。它的推理方式是把新情况拆解成熟悉的元素:“这个我见过,那个我也见过,另一个也见过。”组合起来,它就能理解现在发生了什么,知道该怎么做。 对于人形机器人,黄仁勋也很乐观。 他的逻辑是,如果AI已经能生成一个人拿起咖啡杯喝水的视频,那让机器人真的做出这个动作也不会太远了。 真正的难点不只是AI模型,还有机电一体化,电机、机械手、结构、材料、重量、强度、电池、传感器,这些都得跟上。但好消息是,材料科学、电机技术、电池技术、传感器都在进步,AI本身也在进步。 人形机器人不是科幻,是眼前的工程问题。 AI应用正在快速从实验室走向真实世界,从聊天走向行动,从虚拟走向物理。 随后,黄仁勋聊到了“开源”。 很多人觉得,AI开源了不就谁都能用了吗?坏人也能用,那不是更危险? 但黄仁勋的看法完全相反。他说,开源恰恰能让我们更安全。 他打了个比方来解释。假设有一天,黑客用一个超级厉害的AI来攻击你的系统,你怎么办?你不可能也去训练一个超级AI来跟它对打,那太慢了,也太贵了。 正确的做法是养一大群“看门狗”。这些看门狗都是用开源AI模型训练出来的,专门负责防御。一只狗可能打不过一只狼,但一群狗就能把狼赶跑。 黄仁勋说这就是“蜂群战术”,用数量优势来对付单个强敌。 黄仁勋进一步表示,那些做网络安全的公司,像CrowdStrike、Palo Alto Networks、Cisco,甚至包括微软,现在全都在这么干。他们用开源模型训练出一堆防御AI,专门对付各种网络攻击。 黄仁勋还说,开源有另一个好处,所有代码都是公开的,谁都能看。这样企业就能搞清楚这技术到底是怎么运作的,有没有后门,安不安全。 所以黄仁勋的结论是,开源不是让AI变得更危险,而是让我们有更多工具去对付危险。 关于最近爆火的OpenClaw,黄仁勋说,英伟达发明了两项技术来解决安全问题。 第一项叫OpenShell,就是给OpenClaw这只“爪子”外面套个壳,像龙虾壳一样把它关在安全笼子里。 OpenShell的基本思路是给OpenClaw一个虚拟环境、一个沙箱。系统会监控它能访问什么信息,策略引擎怎么控制它,它能发送和接收什么信息。 它可以监控个人隐私信息的流出,也可以让你访问某些信息,但不让你把这些信息发出去。 这样,每个agent实例相关的隐私策略和各种规则,都被OpenShell抓住并执行。英伟达把这技术贡献给了开源社区,已经被很多公司采用了。 这就是让agent既保持开源的透明度和传播速度,又给企业应用加上护栏的办法。 黄仁勋在访谈中提到,他自己就在用AI写股东信。 他会先列个大纲,然后告诉AI“去读我读过的所有东西、说过的所有话、写过的所有内容、做过的所有演讲。基于这个大纲,把我说过的东西填进去,先给我一个基本框架。”然后他再拿这个框架来改、来润色。 他说:“在华盛顿这个城市,写作太难了。我讨厌写作。但有了AI,写作至少变得可以忍受了。” 这可能是整场访谈最真实的一个细节。 AI不是要取代黄仁勋写股东信,而是把他从最讨厌的打字和初稿环节里解放出来,让他把时间花在真正重要的事情上,比如思考、判断、修改、决策。 “任务和目的”,不只是黄仁勋的理论框架,更是他自己每天都在实践的工作方式。 也因此,当他说AI会创造更多工作、会让用AI的公司增长更快、会让美国重新拥有制造业和高技能岗位时,这不是CEO的公关话术,而是他对这场工业革命最底层的判断。 黄仁勋在访谈最后说:“你想想,如果我们把AI注入这个国家,结果是我们做事比以前更快,雄心比以前更大,期待比以前更高。这对国家怎么会是坏事?这正是我们想要的,更有雄心、更快、更好。” AI不该被讲成末日威胁,它是属于全人类的机会。
谷歌Gemma 4深度评测:最强端侧模型并不完美,但很适合手机
近期,谷歌发布新一代开源模型Gemma 4,包括E2B、E4B、26B、31B四个规格,其中两个「小模型」E2B和E4B,可以直接在智能手机、树莓派等端侧设备部署和离线运行。 谷歌Gemma 4两款「小模型」一经推出,就被不少人誉为迄今为止最好用的端侧模型。雷科技(ID:leitech)也先后发了两篇实测内容:一篇聚集逻辑推理和多模态能力,一篇聚焦国产千元机上的体验表现。 而在使用一段时间后,雷科技(ID:leitech)编辑小伙伴也有了更多新感受和体会。 图源:雷科技摄制 端侧模型,比百科全书好用100倍 近日,苹果宣布负责硬件工程的高级副总裁约翰·特努斯将接替蒂姆·库克,担任公司首席执行官。其后,国内外连篇累牍的「为何库克选他当接班人?」解读文章,那么把这个问题抛给Gemma 4 E4B,它又能给出怎样的解读呢? 在聊天框输入对应提问后,谷歌的端侧模型的确是接近「零延迟」,立马就开始了信息输出,单说这一体验设定,的确让人眼前一亮。(注:体验设备为iPhone 17 Pro Max,下同) 图源:雷科技 不过,由于输出的文本量不算少,故而前后用了46秒时间,谷歌端侧模型才给出了完整版的答案。 图源:雷科技 粗看之下,已经可以较好解答相当多人的疑问,而这就是端侧模型的核心优势: 在最低的硬件成本(本地运行+0 Token消耗)条件下,给出一个「相对好」的答案,或一个「够用」的解决方案。 今年有部热播国产剧《太平年》,相关的讨论和内容很多,前段时间也抛给了谷歌端侧模型一个问题: 吴越国如何能在重税政策下反而可以维持八十余年的太平繁荣? 这是一个相对专业和细化的问题,不少大学学历(非历史系)的人,都未必了解和清楚,看下E4B模型的水平: 图源:雷科技 可以看出,端侧模型不仅是离线的大百科全书,而且可以根据用户的不同问题乃至方向,去更有侧重地进行解答,包括各类领域的专业问题咨询。 谷歌Gemma 4 E4B模型的知识截止点时间为2023年10月,在此之前发生的所有被记录和公开的事件、科学发现、历史信息和文化知识等,理论来说你都可以问它。 雷科技(ID:leitech)认为,这也是端侧模型作为工具应用,在当下比较有用的一大使用场景,尤其是对古今中外各类信息和知识感兴趣和有好奇心的用户群体。 而在初步体验了这款App(Google AI Edge Gallery)后,雷科技(ID:leitech)编辑就把其放在了手机主屏的Dock底栏,因为几乎天天都用得到。 值得一提的是,谷歌表示虽然Gemma 4的核心训练数据有一个知识截止点,但其系统会不断进行更新和微调,以提高模型的理解和回答能力水平。 处理简单问题,端侧模型事故频发 本以为,在基础知识领域,端侧AI模型已经可以完全胜任,结果现实给了重重一锤。 Gemma 4 E4B模型,连唐诗名篇《将进酒》,都可以给错全文和作者信息。 图源:雷科技 原因很简单,端侧模型整体参数量偏小,发展至今,依然无法涵盖所有知识领域,强如谷歌Gemma 4也如此,所以不少领域的细节信息也就会出现「失真」和「幻觉」现象。 对于这类的古诗文、古籍或资料信息,与其去问端侧模型相应的原始文本信息,不如把原始文本信息直接丢给它,例如古诗或文言文等,然后让其给出翻译或解读内容。 基于端侧模型参数量小带来的知识库信息量少问题,谷歌也尝试在端侧模型上首次引入了「智能体」能力。 不过关于信息检索类的,目前只能联网到在线百科网站(例如维基百科等),并没有提供可以下载的作为「增量」的各类离线知识库资源。 图源:雷科技 除了常规的知识信息问答,以Gemma 4 E2B/E4B等为代表的端侧AI模型,也在发力工作协助和干活场景。 工具应用层面,本以为检查文章基本语病这类工作,完全可以丢给端侧模型去进行协助,但实际表现同样不能让人放心,尤其是长段落文字的语病检查。 究其原因,像检查语病这类的高精度任务,由于需要大量编辑语料和强语言分布记忆,端侧模型常把检查语病变成了文本修改(润色),或者混淆了两者之间的区别,因为对它来说给出文本润色和修改建议反而更容易。 值得注意的是,当你把「进行基本语病检查和修正」的指令发给端侧模型后,它可能很难「理解到位」,但如果换成「进行基本语病检查(无语病不要改)」的指令,端侧模型的输出结果,就会明了不少。 图源:雷科技 谷歌Gemma 4有system role、function calling等控制能力,但前提是你要把提示模板、任务边界、输出格式等尽量写简单和清晰。 另外,经过实测,虽然Gemma 4原生支持超过140种语言,但在检查长文语病等复杂精细度任务上,英文比中文支持得更好,这可能是因其预训练语料仍以英文为主。 端侧模型更适合专用场景? 除了以上列举情况,雷科技(ID:leitech)此前已体验过Gemma 4 E4B模型的原生多模态(图像、音视频)能力,它可以直接看图识物,也可以听懂简单的音频信息、看懂简单的视频信息。 在离线和网络较差的环境下,发一张相册中的图片,谷歌端侧模型就可以给出图像的基本信息。 例如在飞行场景,如果对机上杂志或报纸上的某张图片有「简单」的解读信息需求,那么就可以直接发给端侧模型,让其尝试进行解答。 至于较复杂的图像、音频信息,目前的端侧模型依然难以理解「更多」的信息量。 图源:雷科技 那么,端侧模型目前最擅长的技能是什么呢? 毫无疑问是这几项:离线翻译、计算器、简单解题和测试训练等工具,以及相对专业领域(包括健康等领域)的基础信息科普、咨询等。 此前,谷歌就基于Gemma 3构建了专用的翻译模型TranslateGemma。而得益于专项训练流程,TranslateGemma 4B模型性能可与规模较大的Gemma 3 12B基准模型性能相媲美。可以期待,谷歌后续很快会推出基于Gemma 4的新一代专用翻译模型。 谷歌端侧模型和联网翻译工具的翻译效果对比(图源:雷科技) 无独有偶,腾讯混元也在近日开源手机端离线翻译模型Hy-MT1.5-1.8B-1.25bit,把支持33种语言的翻译大模型压缩至440MB,用户免费下载之后,可在手机直接运行,无需联网,官方称其翻译效果「比肩」商用翻译模型。 Gemma 4:端侧模型迈出的「不完美」第一步 最近几个月,各家的云端大模型迭代飞快,参数量和智能化比拼也来到新阶段。相比之下,不是新概念的端侧模型,也在努力前行,力求早日真正落地结果。 在体验一段时间后,雷科技(ID:leitech)的最大感受是,谷歌Gemma 4的推出,标志着端侧模型落地移动终端设备迈出的那「不完美」的第一步。 至于目前能力水平的端侧模型,推荐的人群有两大类: 1.天天都要查询古今中外大量信息的「百科向」用户,目前的端侧模型可以在一些领域更快、更直接、更定向地给出你想要的一个「初始版本」答案。 2.手机上装了大量离线app的「工具向」用户,目前的端侧模型可以在翻译、计算器、简单解题和测试训练,以及相对专业领域的基础信息科普咨询等工具应用领域有较好的表现。 当然,你想尝鲜,或者说见证端侧模型的一路成长,也可以下载体验。 对于iPhone用户,苹果即便在未来推出自家的端侧模型产品,大概率也就是谷歌Gemma端侧模型后续可以实现的程度。可以期待的「增量」或「加强」技能,主要也就端侧模型对于手机各项操作指令的「完美联动」和「无缝接入」。 图源:谷歌 需要指出的是,谷歌Gemma 4端侧模型的回答和响应速度,与你手机的运行内存和算力水平有着莫大关系。 iPhone用户,建议运存8GB起步,推荐12GB;安卓用户,建议运存12GB起步,推荐16GB。这样的配置,可以体验目前端侧模型的最佳运行表现。 至于如何在手机上下载谷歌Gemma 4端侧模型,步骤极其简单,所有国内用户均可体验: 先在国区App Store或安卓应用商店下载配套的App,即Google AI Edge Gallery;其后可在App中对谷歌相关端侧模型直接进行本地部署(下载)和使用体验。 图源:雷科技 端侧模型,成了谷歌面向中国内地用户完全开放下载、并可直接使用的大模型产品。 而这似乎也预示着谷歌端侧模型(注:经过审查和备案后),未来有可能全面部署乃至预装到更多国产终端硬件设备,包括小型物联网终端设备等。 在这方面,谷歌已经在发力。Gemma 4模型支持业界通行的Apache 2.0许可,这意味着开发者可以更加自由地使用、修改和分发该模型,消除了以往商业化应用中的各项顾虑。 而通过与谷歌Pixel硬件团队以及高通、联发科等移动终端芯片平台企业合作,谷歌试图让Gemma 4端侧模型可以在更多安卓移动设备(尤其非高运存设备)上实现真正的「近乎零延迟」使用体验。 图源:雷科技摄制 可以想象,伴随未来旗舰手机(包括iPhone)运行内存全面迈入16GB阶段,「小模型」更多、更强、更高效的技能表现(尤其是与智能体的更成熟联动),以及更大的本地知识库信息储备量,端侧模型也将给用户带来全方位的加强版体验。 这一天,已经为时不远了。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。