EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
CMU教授万字反思:西方式AGI永远到不了
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI “不是AGI还没到,而是永远到不了。” CMU(卡内基梅隆大学)教授、艾伦人工智能实验室研究员Tim Dettmers从硬件瓶颈、资源成本、现实应用三重维度论证: 为什么AGI从一开始,就是个违背物理规律的幻想工程? 一篇长文,指出GPU性能峰值停在2018年,机架级优化2027年耗尽潜力,AI每提升1%的能力,资源消耗要翻好几倍…… 核心观点 AGI的讨论都在回避“计算的物理枷锁” 智能不是飘在天上的想法,而是得靠电脑、芯片这些实实在在的东西算出来,而这些东西都得遵守物理规律。 计算从不是抽象概念,所有智能都要扎根物理现实。 这也是Dettmers反驳AGI的核心,很多人在聊到AGI时总把它当成抽象的哲学概念,但很多人忽略了硬件实现,而硬件必然受到物理规律限制。 第一个是信息移动成本。 比如有效计算需要平衡全局信息传到局部和局部信息整合,可信息移动的成本会随距离呈平方级上升;芯片缓存也能说明问题,L2、L3缓存比L1 大,但却因物理位置更远而速度更慢。 现在芯片里的晶体管越做越小,虽然能降低计算成本,但内存反而越来越贵,现在芯片上几乎所有空间都给了内存,计算单元占比微乎其微。 就算是现在的主流AI架构Transformer,看似是算法层面的突破,本质上也是对硬件信息处理效率的物理优化,且也已经接近物理最优。 第二个是线性进步需要指数级资源。 想让系统更精准、高效,每多一分改进,需要的资源都会呈指数级增长。 物理层面,资源聚集会因空间、时间限制变慢;理论层面,相关联的想法会导致收益递减,就算是创新,也多是对现有思路的微调,难有突破性效果。 物理学就是典型例子,过去个人能取得理论突破,现在却很难。 实验物理更甚,像大型强子对撞机这样耗资数十亿的设备,也没能解开暗能量、暗物质的谜团。 AI领域同理,想靠堆资源实现AGI的通用能,早晚会超出实际承受范围。 GPU熄火了 而且,支撑AI快速发展的燃料GPU,也进入了熄火阶段。 可能很多人会默认GPU会连续迭代,为AGI提供算力支撑,但Dettmers抛出一组数据: GPU的性价比在2018年就到了峰值,之后的16位精度、张量核心、HBM内存等改进,都是一次性功能,潜力很快会耗尽。 现在行业寄希望的机架级优化,比如更高效地调度AI需要的键值缓存,但这种优化的思路很简单,本质上只有一种最优设计方式。虽然实现起来要花时间做工程,但整体设计没什么新意。 像OpenAI这样的公司吹自己的基础设施多厉害,但其实大家的差距很小;唯一能拉开点距离的,就是机架或数据中心级别的小优化,但这些优势也撑不了多久,大概2026-2027年就会耗尽。 也就是说,GPU这条算力增长线,已经快走到头了。 有人说把模型规模做大还能提升AI性能,Dettmers并不否认这种规模法则的作用,但问题在于—— 过去GPU的指数级进步,能抵消规模扩张的资源消耗,花一块钱就有一块钱的效果;现在GPU不进步了,想再获线性提升,就得投入指数级成本,花几块钱才有一块钱的效果,这在物理上很快会不可行。 结论:AGI是幻觉 AGI的通用,意味着要能处理物理世界的复杂任务。 但物理世界数据的收集成本太高。举个最简单的例子,工厂的机器人要应对零件磨损、天气变化这些突发情况,需要海量数据训练,还得花大价钱做实验。 再看超级智能,它假设AI能自己越变越聪明,但现实是,变聪明需要资源…… 想让AI自己优化,刚开始调调参数或许还能进步,但到达一定水平之后,想要多进步1%,可嫩好多花10倍的钱和算力,那么问题来了: AI又不能凭空造资源,怎么做到无限变强呢? 所以,Dettmers认为AGI不会实现,超级智能也是幻想。 不过呢,在他看来,AI的未来不是超越人类,而是在物理约束内渐进式的改进,靠经济扩散和实际应用创造价值。 比如让算法更省算力、让更多人能用得上开源AI模型,把AI用到看病、种地、造东西这些实处,一点点帮人提高效率。 Dettmers指出,美国那边总想着“赢者通吃”,巨头们砸钱搞超级智能,一门心思想做个啥都会的AGI,却不管这东西到底现不现实,能不能用在实处。 而在这一点上,中国更聚焦落地实用,看的是AI能不能提升生产力,还用补贴推动AI融入各行业,这样就更贴合现实。
罗永浩质疑大金中央空调售后:一年维护费1.5万元是否合理?
凤凰网科技讯 12月20日 昨日,罗永浩在社交媒体发文,公开质疑大金中央空调的售后维护价格体系及服务态度。据罗永浩透露,其在上海租住的房屋面积约为两百多平米,共安装了7台大金空调内机。他在换季申请官方清洗服务时获悉,该品牌滤网设计寿命仅为一年且“不可清洗只能更换”,算上清洗费与耗材更换,每年的维护成本高达15000元左右。面对这一报价,罗永浩直言即便以其经济实力也感到颇有压力。 除了高昂的年度维护总价,具体的单项收费标准也引发了争议。罗永浩详细描述了与售后人员的沟通过程:当他询问滤网更换流程时,客服人员现场演示了极为简单的“一抠一推”操作,但仅这一动作的单次安装费即报价283元。 此外,该品牌客服人员在沟通过程中表现出的服务态度也遭到诟病,据称在面对消费者关于费用过高及“如何用得起”的质疑时,工作人员多次出现不耐烦的“翻白眼”行为,并回应称“可以不清洗不换滤网”。罗永浩对此类高端家电的售后定价逻辑表示不解,并向行业内人士公开求证此类服务收费是否属于行业常态。 大金工业株式会社1924年在日本创立,是全球唯一集空调、冷媒、压缩机研发生产销售为一体的跨国企业。公司在全球175个国家和地区开展业务,产品种类达5000余种。1995 年大金正式进入中国市场,在苏州建立生产基地。在中国中央空调市场,大金家装零售和多联机市场占有率双超20%,位居首位。
谷歌把AI大模型能力“压缩”进手机,以后玩游戏全靠“吼”
IT之家 12 月 20 日消息,谷歌于 12 月 18 日发布公告,宣布推出 FunctionGemma,是基于 Gemma 3 270M 微调的专用模型,目的是将强大的函数调用(Function Calling)能力引入手机等边缘设备。 谷歌表示,随着行业从单纯的对话式接口转向主动式智能体(Agent),开发者对模型本地执行任务的需求日益迫切。 FunctionGemma 正是为此而生,它不仅继承了 Gemma 系列的轻量化优势,更通过专项微调,让边缘设备(如智能手机和嵌入式系统)无需依赖云端算力,能够精准理解用户指令并调用相应功能。 与通用大模型不同,FunctionGemma 专为“定制化”设计。它既能与人类自然对话,也能生成结构化的函数调用代码来指挥计算机。 在 Google 进行的“移动操作”(Mobile Actions)测试中,该模型展现了惊人的可塑性:未经微调的基础版本准确率为 58%,而经过针对性微调后,其执行复杂指令(如“明天约午饭并添加到日历”、“帮我把昨天拍的美食发给老妈”)的准确率跃升至 85%。 为了在算力和电池受限的边缘设备上流畅运行,FunctionGemma 采用了极致的轻量化设计。它利用 Gemma 的 256k 词表高效处理 JSON 数据和多语言输入,大幅降低了延迟。 该模型目前已适配 NVIDIA Jetson Nano 等开发板及主流移动设备,甚至能作为“交通指挥官”,处理简单任务并将复杂逻辑路由至更大的 Gemma 3 27B 模型。 为了降低开发门槛,谷歌为 FunctionGemma 构建了广泛的生态支持。开发者现在即可通过 Hugging Face、Kaggle 下载模型,并利用 Unsloth、Keras 或 NVIDIA NeMo 进行微调。 在部署方面,该模型全面支持 LiteRT-LM、vLLM、Llama.cpp 和 Ollama 等工具。谷歌还同步发布了 TinyGarden 游戏演示和“移动操作”微调指南,展示了如何用自然语言控制虚拟农场或手机系统设置,帮助开发者快速构建属于自己的私有化、低延迟端侧智能体。IT之家附上演示视频如下: 无论是“为明天的午餐创建一个日历事件”、“将 John 添加到我的联系人”还是“打开手电筒”,该模型都能解析自然语言并识别正确的操作系统工具来执行命令。 在这个互动小游戏中,玩家使用语音指令来管理一块虚拟土地。例如,你可以说“在最上面一排种向日葵并浇水”,模型会将指令分解为具体的应用程序功能,例如针对特定网格坐标的“种植作物”或“浇水作物”。 使用自然语言解决有趣的物理模拟谜题,款游戏完全在用户浏览器中本地运行,由 FunctionGemma 和 Transformers.js 提供支持。
OpenAI估值冲击8300亿美元!奥特曼背水一战:我们无路可退
新智元报道 编辑:元宇 【新智元导读】表面是8300亿估值的风光无限,实则是被算力军备竞赛绑架的生死时速,OpenAI正在用一场万亿规模的豪赌,换取通往AGI的唯一门票。 OpenAI又双叒要融资了! 据知情人士透露,OpenAI正在与亚马逊等投资者接触,计划筹集1000亿美元资金。 如果能够筹得目标金额,OpenAI的投后估值可能升至约8300亿美元。 这个数字,是它2026年预计营收的32倍! 这轮目标1000亿美元的融资,或许也是开启OpenAI万亿美元估值IPO的前奏。 《Big Technology Podcast》主持人Alex Kantrowitz(左)与OpenAI联合创始人兼CEO奥特曼(右) 在19日的《Big Technology Podcast》节目中,奥特曼暗示OpenAI将进行IPO,因为它的规模需要巨额资金,但他本人对于成为一个上市公司的CEO「零兴趣」。 OpenAI缺钱吗?这似乎是一个悖论。 8亿周活用户,100万家企业用户,这些让OpenAI引以为傲的用户增长数字,也意味着巨大的算力和基础设施投入。 此外,AI军备竞赛,也是一场根本停不下来的巨额烧钱游戏。 OpenAI总裁(President)Greg Brockman 正如OpenAI总裁(President)Greg Brockman所言,「算力支持了我们首次图像生成功能的上线……我们还有更多功能即将推出……也需要更多的算力」。 产品需要算力,算力需要资本。 模型训练、推理和全球部署,这些都会带来指数级攀升的算力和基础设施投入。 2025年,几乎每个月OpenAI都会签署一笔价值数十亿美元的数据中心协议。 奥特曼在11月提到OpenAI与合作伙伴关于数据中心建设与租赁的长期合同时表示,「我们正在规划未来8年约1.4万亿美元的投资承诺」。 这些投资承诺,叠加其自身的全球数据中心扩张,以及AI芯片和定制硬件等巨额资本支出,使得OpenAI近一年来频繁出现在各种融资交易之中。 据路透社报道,孙正义正在全力押注OpenAI,通过清仓英伟达58亿美元股份,减持48亿美元T-Mobile股份,以及大幅裁员力保年底可以履行为OpenAI输血225亿美元的承诺。 「年度公司」光环之重 当选2025「雅虎财经年度公司」,这是资本、市场与产业对OpenAI投出的信任票。 此时距离ChatGPT 3.5发布已有3年。 雅虎财经执行主编Brian Sozzi(左)与OpenAI首席财务官Sarah Friar(右) 这一奖项自2014年开始设立,旨在表彰在当年对市场表现、行业发展与投资者关注度具有显著影响的公司。 雅虎财经认为,OpenAI是今年对投资叙事影响最为深远的公司,因此将这一荣誉授予它。 OpenAI首席财务官Sarah Friar在接受雅虎财经执行主编Brian Sozzi的采访时称,「整个生态系统开始明显向我们靠拢,和我们一起共建这个未来。」 2025年的科技头条,几乎处处可见OpenAI的身影,这一年来它接连与微软、甲骨文、AMD、英伟达等巨头达成重量级合作协议。 在这一系列的交易中,凡是传出与OpenAI合作的公司股价,大都出现了上涨。 7月22日,甲骨文宣布与OpenAI达成合作协议后,其股价在接下来的两个月里累计上涨了38%。 10月6日,AMD宣布与OpenAI达成合作协议后,其股价在单日内暴涨24%。 CoreWeave的股价在3月至10月期间上涨逾两倍,期间该公司先后宣布了三项为OpenAI提供算力的合作。 正如RBC资本市场董事总经理Rishi Jaluria所言,押注AI主线仍是资本市场这轮回调的重要因素,其中OpenAI对整个股票市场的影响非常显著。 而OpenAI在10月份在完成了公益型公司(Public Benefit Corporation)重组之后,也透露了上市的计划,估值更是不断攀升。 在资本市场的影响力和亮眼表现,为OpenAI赢得了雅虎财经「年度公司」的荣誉,但光环之下更多的却是压力。 一方面,ChatGPT用户规模、企业客户与收入高速增长,它的周活跃用户已经达到8亿,企业客户超过100万家。 如果盈利能力跟不上,这些增长就会变成负担。 另一方面,是在AI军备竞赛中万亿美元规模的投入。 前面提到,OpenAI已做出高达约1.4万亿美元的基础设施相关承诺,同时加速推进自建数据中心和硬件产品的宏大计划。 公司内部预计,2025和2026年的现金投入将达到260亿美元左右;未来四年在服务器和高端人才上的投入将超过1000亿美元。 2025年,OpenAI的营收预计约为130亿美元,放在千亿级美元的投入面前根本入不敷出。 更让OpenAI紧张的是竞争对手的表现。 谷歌发布Gemini 3,并迅速获得开发者高度评价,奥特曼不得不向内部发出「红色警戒」信号,放缓商业化节奏,将一切资源集中在ChatGPT的产品研发上。 投入不能减,扩张不能停,商业化步子还不能太快,这些都是OpenAI维持领先地位所必须付出的筹码。 在通往万亿市值的道路上,OpenAI已经美没有退路。它必须跑得比谷歌快,比开源模型快。 在激烈的AI竞赛中,第二名通常意味着被市场遗忘。 微软不再是唯一 过去很长时间,OpenAI一直与微软深度绑定。 从2019年起,微软累计向OpenAI投入超过130亿美元,提供算力、资金和商业化通道。 2023年,在旧金山举行的OpenAI开发者日活动上,奥特曼向微软CEO纳德拉致意 这种深度绑定,在早期为OpenAI提供了保护,但同时也意味着束缚。 OpenAI的算力优先权、模型销售权,都牢牢掌握在微软手中。 今年9月,OpenAI与微软签署了一份非约束性谅解备忘录(MOU),标志着双方进入新的合作阶段: 微软保持作为主要投资者与云服务供应商的角色,同时OpenAI获得更大自由探索架构与合作伙伴,支持其组织重组与业务扩展。 微软依然重要,但不再拥有优先拒绝权。 去微软化让OpenAI获得了更大的融资和合作自由,但也意味着它必须为自己的选择承担全部后果。 11月3日OpenAI与AWS签下了一份高达380亿美元的算力合同。 协议期为7年,OpenAI将通过AWS获取大规模云算力资源以支撑其人工智能训练与运行需求。 这次合作释放的信号非常明确。 它标志着OpenAI与微软的备忘录开始生效,它不再仅依赖微软Azure,而是扩大与AWS的合作,不再把所有筹码押在单一云厂商身上。 百亿美元背后 OpenAI更想要什么 与AWS之间380亿美元的合作,也推动了OpenAI与亚马逊的合作。 据《The Information》披露,亚马逊正在与OpenAI洽谈一笔可能达到或超过100亿美元的投资。 但这场谈判的重点,并不只是资金规模。 一方面,该交易可能将有助于OpenAI履行刚刚与AWS达成的380亿美元服务器租赁合同,另一方面也将加速AWS的Trainium芯片商业化进程。 据知情人士透露,作为这笔交易内容之一,OpenAI将计划在部分场景中使用AWS的Trainium芯片。 此外,亚马逊还可能与OpenAI讨论电商层面的合作机会。 过去几个月,OpenAI希望将ChatGPT打造成一个「购物入口」,并考虑通过向零售商导流来收取费用。 作为顶级企业大客户,OpenAI还希望向亚马逊出售企业版ChatGPT。 目前,相关谈判仍在推进中,具体条款仍可能发生变化。 这次融资交易,也可能引发更大规模的后续募资,吸引更多投资者参与。 若此项交易达成,亚马逊将与英伟达等多家大型科技公司一样,成为公开投资OpenAI的「开发商企业」之一。 对于OpenAI来说,采用AWS的Trainium芯片,意味着削弱对英伟达单一芯片供应的依赖。 在此之前,OpenAI还曾与AMD、博通达成合作,并在今年6月份开始租用谷歌的TPU(Tensor Processing Units)芯片来为ChatGPT等产品提供算力支持。 这些举措并不是要替代英伟达,而是让OpenAI在算力供应链上重新获得谈判空间。 循环式交易 和没有退路的未来 过去一年,OpenAI频繁出现在许多被媒体称为「循环式交易」的融资事件中。 7月22日,甲骨文宣布与OpenAI签署一项价值3000亿美元的数据中心协议。这标志着OpenAI在超大规模基础设施层面的长期绑定。 10月6日,OpenAI宣布与AMD达成一项数十亿美元的合作协议。AMD首席执行官Lisa Su表示,OpenAI将为AI世界奠定「基础」。 3月至10月,CoreWeave先后宣布了三项为OpenAI提供算力的合作。 在这一系列的交易中,投资CoreWeave,将上游芯片产能回流为算力;入股AMD,绑定GPU供应;再到AWS,资本与基础设施彼此强化。 它们一边消化OpenAI的巨额支出,一边将OpenAI推到AI产业的中心,这也是为什么市场会认真讨论其7500亿美元估值,甚至万亿美元IPO的原因。 那么,从长期看,OpenAI这台引擎还能持续高速运转吗? 据汇丰银行预计,到2030年,大模型的消费级市场年收入将达到1290亿美元,而企业级大语言模型市场规模有望攀升至3860亿美元。 目前,OpenAI拥有8亿周活跃用户、100万企业客户,并在2025年实现了130亿美元的营收。 据OpenAI内部预测,公司收入到2030年有望达到2000亿美元。 OpenAI已通过股权融资筹集超过450亿美元,并在近期一轮私募股份交易中获得了5000亿美元的估值。 如果其估值能够达到约8300亿美元,约相当于其2026年营收的32倍(根据《The Information》披露的信息显示,OpenAI预计2026年营收约256亿美元)。 路透社报道称,OpenAI最早可能在2026年底以1万亿美元估值上市。 在这场万亿美元的AI豪赌中,OpenAI已无退路,既不能慢,也不能错。
摩尔线程张建中:智算集群将做到50万卡、100万卡规模
科创板上市后,“国产GPU第一股”摩尔线程(688795.SH)12月20日召开了首届MUSA开发者大会,公布了新的GPU架构和基于该架构的三款芯片。 摩尔线程被认为是国内GPU公司中最像英伟达的一家,其产品结构与英伟达有一定相似度。与英伟达的迭代节奏类似,2022年至2024年,摩尔线程每年迭代一个GPU架构。2022年的春晓架构,代表产品包括第一代面向云计算的AI智算板卡S3000,2023年推出的曲院架构,对应第一代训推一体智算板卡S4000。2024年发布平湖架构并推出基于该架构的板卡S5000。 此次推出的新架构花港,其算力密度比前一代提升50%,支持从FP4到FP64的全精度计算,支持十万卡以上规模智算集群扩展,并内置AI生成式渲染架构。此次推出的三款新芯片是华山、庐山和长江,分别是AI训推一体芯片、图形渲染芯片和SoC(系统级芯片)。 业界正通过支持低精度、进行混合精度计算来提升计算效率。摩尔线程AI智算板卡支持的计算精度范围也有所扩大。摩尔线程上一代板卡S5000开始支持FP8精度,新一代的华山则开始支持FP4。英伟达目前出货的主力芯片Blackwell也支持FP4精度计算。 从算力看,摩尔线程此前公开了一些AI智算板卡的性能数据。其中S4000板卡在FP32、TF32、FP16、INT8精度下的算力分别为25 TFLOPS、49 TFLOPS、98 TFLOPS、196 TOPS,最大功耗450W。对比2020年英伟达推出的A100 80GB PCle(80GB),A100在上述精度下的算力分别为19.5TFLOPS、156TFLOPS、312TFLOPS、624TOPS,最大功耗300W。相比之下,S4000在一些精度下的算力表现和功耗表现不及A100。 上一代板卡S5000此前未公开具体性能,此次开发者大会上,摩尔线程创始人、董事长兼CEO张建中则透露了一些信息。他表示,在DeepSeek-R1全量模型分布式推理场景中,S5000的Prefill Only、Decode单卡吞吐量,分别是H20等常见芯片产品的约2.5倍、1.3倍。新一代华山的浮点计算能力则介于英伟达Blackwell和Hopper之间,华山的访存带宽与Blackwell接近,高速互联带宽在Hopper和Blackwell之间。 AI智算板卡支持的集群规模也在提升。此次摩尔线程推出了万卡智算集群。张建中表示,2024年摩尔线程推出第一代千卡集群,今年达到1万卡,接下来还要做10万卡、50万卡、100万卡。 张建中表示,万卡智算集群的工程难度来源于超大集群供电及液冷散热、超大规模互联组网及通信、集群训练有效算力、训练稳定性与可用性、模型训练精度与效果测评等方面。大模型训练的发展趋势则包括模型走向万亿参数、训练集群规模迈向10万卡、训练精度从FP16走向FP8和FP4,未来需要解决一系列挑战,包括实现高效并行训练、实现FP8和FP4低精度训练、实现高性能通信等。 摩尔线程此次还推出了具身智能仿真训练平台和AI算力笔记本MTT AIBOOK。 摩尔线程12月5日在科创板上市,发行价114.28元/股,随后股价波动颇大。12月11日该股收盘价超900元/股,随后股价有所回调,12月19日收盘价664.1元/股。摩尔线程尚未盈利,截至今年6月底,公司累计未弥补亏损16亿元。该公司预计2027年可实现合并报表盈利,但相关前瞻性信息具有不确定性。
摩尔线程发布新一代GPU架构,打造MUSA生态对标英伟达CUDA
图片由AI生成 登陆A股科创板引发国产芯片股狂欢后,市场对这家公司后续的研发、产品、经营愈发关注。 GPU行业的竞争,本质上也是开发者生态的竞争。为此,摩尔线程在12月20日-21日举办首届MUSA(MUSA Developer Conference)开发者大会。 在今天(12月20日)上午的发布会上,摩尔线程创始人、董事长兼CEO张建中发布了新一代GPU架构“花港”,AI训推一体新GPU“华山”,游戏领域专业图形GPU“庐山”、智能SoC“芯片”长江等产品,以及KUAE万卡智算集群。 根据发布会现场的介绍,即将于2026年量产的相关产品较上一代性能大幅提升。而这背后,继续对标、追赶甚至挑战以英伟达为代表的国际领先芯片产品、架构及生态,成为了发布会的隐含主题。 截图来自MUSA开发者大会现场直播视频 加入英伟达,对标英伟达,挑战英伟达 身着纯白半袖T恤登台作主题演讲的张建中,虽然与一贯穿着黑色皮夹克的英伟达CEO黄仁勋风格迥异,但在国产GPU厂商中,普遍认为,他和他的摩尔线程可能是最理解英伟达的。 该公司董事、高管及员工团队中不少都是英伟达中国的旧部,张建中本人更是2006年就加入了英伟达,曾任公司全球副总裁、大中华区总经理,直到2020年9月摩尔线程正式运营前一个月才离职。 摩尔线程在经营模式、产品体系和发展方向上,也一直对标着英伟达,尤其是在生态和基础算力设施构建、对物理AI的布局、高毛利率等方面,相比于“国产GPU四小龙”中刚刚上市的沐曦股份,以及宣布赴港IPO的壁仞科技等公司来说。 不过,摩尔线程也正在尝试超越英伟达。其高调宣扬的“全功能GPU”,是尝试在一颗GPU芯片上集成支撑AI计算、图形渲染和音视频解码等核心功能,相对来说更注重平衡性、性价比和便捷性。 不过在性能上,包括摩尔线程在内的国产GPU,仍与以英伟达所有的、代表的产业顶尖水准的产品间有不小差距。无论这些美国公司的先进芯片,未来是否可以全面参与中国市场的竞争,对于国产GPU公司来说,弥补其中差距都至关重要。 有意思的是,在首届全功能GPU发布会上,张建中介绍核心产品的更新时,也加入与英伟达产品的对比的内容。 摩尔线程此次发布的核心是花港新一代GPU架构。 从2022年到2025年,摩尔线程保持着每年一迭代的节奏,推出并量产了四款GPU架构。根据张建中的介绍,2026年将量产第五代花港,其算力密度将提升50%,能效提升10倍,能支持十万卡以上规模智算集群。 而他称,基于该架构推出的AI训推一体芯片华山,在浮点算力、访存带宽、访存容量、高速互联带宽方面已全面超越英伟达的Hopper系列芯片。 锁定国产算力替代的窗口期 当前正值AI算力需求爆发和国产化替代的关键窗口期。 此前,在受美国出口禁令影响前,中国市场中主流的AI芯片正是英伟达经“阉割”后特供中国的H20。直到今年12月,特朗普才宣布更先进的英伟达H200获准出口中国,但相关产品目前并未真正“重返战场”,黄仁勋也表示“现在已不知道中国是否会接受H200”。 目前从MUSA发布会上披露的信息来看,摩尔线程的新产品或许会对英伟芯片未来在华的出货前景造成一定的压力。 相对于英伟达目前在美国市场主流发货的Blackwell系列芯片,摩尔线程方面的数据显示,华山芯片在访存容量上已实现超越,访存带宽处于同一水平线,但是,在浮点算力和高速互联带宽方面还有不小差距。当然,英伟达已经预计明年也将量产下一代超级芯片Rubin。 截图来自MUSA开发者大会现场直播视频 张建中在发布会上明确表示,在新的AI芯片性能和KUAE万卡智算集群提供的软硬件协同优化后,同数据量摩尔线程在DeepSeek-V3和R1等主流大模型训练的下游任务测评分数已经高于英伟达的Hopper芯片。 “过去,大部分大模型开发者不敢用国内的卡训练,怕训练的结果不好,但我们现在可以很有信心地跟大家说,如果你以前是在Hopper上做训练,你今天用我们的新产品去训练你的大语言模型,效果只会比它好,不会比它差。”张建中说。 在国产替代的诉求之下,在中国本土市场,国内推理芯片已经大量取代外国产品。在摩尔线程等公司的推动下,信创、智算中心芯片国产化率大幅提升,但互联网数据中心,尤其是大模型训练场景,仍对英伟达H系列芯片需求度较高。 从单点突破转向平台与生态构建 想要真正赶超英伟达,除了芯片性能,生态构建上的挑战更为迫切。在我们看来,摩尔线程这场大会很重要的一个目标是,建立类似英伟达CUDA的,以MUSA架构为核心的开发者生态护城河。 发布会上,中国工程院院士、清华大学计算机教授郑纬民称,在全球经贸变局之下,“主权AI”已变成各国必须应对的现实问题。 在构建“主权AI”方面,算力自主、算法自强和生态自立是核心支撑。其中生态问题显得尤为重要,因为“不是你有芯片能跑一个软件就可以了,关键是要让开发者愿意用这个芯片”。 但对此,张建中也颇为乐观。他表示,只要以摩尔线程MUSA为代表的国产英伟达CUDA生态替代栈做得足够好,就能让足够多的开发者愿意长期在这套栈上写代码,解决生态自立的问题。 截图来自MUSA开发者大会现场直播视频 张建中也在发布会上宣布公司的Musa5.0全面升级,能够支持目前全功能GPU中包括国内、国外的所有生态。他还表示,生态构建需要更多开发者加盟,呼吁“用自己的生态来开发自己的应用”,让整个国产计算集群能够得到更广泛的应用。 此前,摩尔线程的IPO招股说明书中也承认,英伟达CUDA生态在行业生态内处于垄断地位,公司未来拓展业务将面临GPU芯片研发难度高及计算生态壁垒构建困难的挑战。 可见后续,生态构建会是摩尔线程未来发力的重点,这也将成为其公司从技术发布迈向生态构建的关键一步。(作者|胡珈萌,编辑|李程程)
奥特曼凡尔赛自曝:我不想当上市公司CEO!砸1.4万亿豪赌AGI
编辑:Aeneas 【新智元导读】奥特曼的新播客一上线,就曝出了大金句:「我一点都不想当上市公司CEO!」然而,他却苦恼自己躲不掉。如今,OpenAI正豪赌1.4万亿算力,押注AI需求将碾压人类极限。奥特曼直言:亏多少都不怕! 最近,OpenAI CEO奥特曼又上了一个播客。 在这个名为《Big Technology Podcast》的播客中,奥特曼曝出不少金句。 比如,「对于当上市公司CEO,我一点都不兴奋」。听起来是不是有点耳熟? 果然,播客一放出没几个小时,这条金句立刻被外媒发现,火速发成文章。 并且,访谈中奥特曼还直面了许多犀利的问题。 比如,OpenAI的收入如何与1.4万亿美元的算力投入承诺相匹配? 公司的债务状况是不是很糟? 有人评论说,这次采访给人的最大收获,就是奥特曼终于讲清了OpenAI的财务模式到底是怎么运作的。 看完之后的感受是,「他们的资本规划流程比我之前想象的更有逻辑。」 如果假设,他们在最后一轮私募融资中筹集750亿美元(给传闻中的1000亿美元打个75折),随后通过IPO再筹集750亿美元,那么很有可能—— OpenAI将拥有足够的资本,支撑自身走到实现正向现金流的那一刻。 所以,播客中还有哪些亮点?让我们来一一盘点。 奥特曼:我一点都不想当上市公司CEO 当被主持人问道「你想不想成为一家上市公司的CEO」时,奥特曼非常坦率地回答:「一点都不想。」 不过紧接着,他又补充了一句:「不想上市,但可能不得不上市。」 奥特曼直言,作为一家仍然需要巨额资本投入的公司,OpenAI迟早会触及股东人数、融资结构这些现实问题。 从这个意义上说,上市不是情绪选择,而是结构性的结果。 对于上市,他的态度非常复杂。 好的一面,是能让更多普通人参与价值创造;然而糟糕的一面,就是短期主义、季度压力和舆论噪音。 「这会很烦,但也许是必须经历的阶段。」 而真正让他警惕的,不是资本,而是「被低估的影响力」。 有趣的是,整场访谈中,奥特曼反复表现出一种罕见的克制——他比大多数人,都更害怕AI的成功。 原因很简单:当今的AI模型已经足够强,但社会却远没准备好,使用方式、制度、伦理,都是全面滞后的。 GPT-5.2是AGI吗? 主持人抛出了一个尖锐的问题:「GPT-5.2已经在几乎所有方面比人类更聪明,这难道不就是AGI吗?」 奥特曼表示,AGI的问题,不是「到了没有」,而是「从没被定义清楚」。因为,AGI的定义没有统一指标。 GPT-5.2到底缺了什么?奥特曼表示,它缺少一个关键能力——意识到「我不会」,并主动去学习如何变得会。 但紧接着,奥特曼话锋一转,说了一句非常耐人寻味的话:即便停在现在这个水平,世界仍然远远没有「用完」这些模型的价值。 从AGI到「超智能」,也许才是真正的分界线 然后,奥特曼提出了一个大胆的新视角:与其纠结AGI,不如直接讨论「超智能」。 当一个系统能比任何人类更好地担任总统、CEO、科研机构负责人,且不需要人类辅助,那才是真正意义上的Super intelligence。 他还提到,在国际象棋早期,是人类+AI>单独AI。 再往后,就是纯AI>人类+AI。 在有些智能层级,人类只会成为干扰项。 谷歌和DeepSeek,让我们拉响红色警报 奥特曼承认:当Gemini3 发布、当DeepSeek出现、当竞争对手在某个维度突然追近,OpenA 内部就会进入一种「战时状态」应急模式。 红色警报,在OpenAI内部早已是常态:通常持续6–8周,集中修补产品短板,加速发布关键更新,然后恢复到正常节奏。 竞争,逼着OpenAI变得更好。 ChatGPT的周活用户已经逼近9亿,而奥特曼的判断是:这个领先优势不会缩小,反而会继续扩大。 这是因为,AI的竞争早就不是「哪个模型参数更多」这么简单了,用户真正依赖的,是一个稳定、熟悉、能持续积累价值的平台。 OpenAI真正害怕的,从来不是「别人追上模型」,而是错过下一次平台级跃迁的窗口。 1.4万亿算力赌局,OpenAI在押什么 接下来,是采访中最硬核的部分——1.4万亿美元算力赌局,OpenAI到底在押什么? 在未来多年,OpenAI计划在算力和基础设施上总体投入1.4万亿! 这个数字,立马引发了整个市场的集体不安。 对于这个反应,奥特曼十分清楚。他反复强调:这不是一笔「短期豪赌」,而是一条被需求反复验证过的长期曲线。 算力不是「成本」,而是生命线? 奥特曼言简意赅地总结:算力,是限制一切可能性的瓶颈! 他的话很直白:「如果人们真的知道我们能用更多算力做什么,他们只会想要更多。」 这个判断,是基于一个反复出现的事实铁律:每当模型更强一点,每当延迟更低一点,每当成本再降一点,需求就会立刻成倍放大。 为了帮大家理解,奥特曼做了一个类比。 假设今天顶级AI公司每天输出10万亿级别的token,假设全球80亿人类,每人每天「输出」2万token的思考量,那么我们就会发现一个很可怕的趋势。 AI输出的「智力劳动规模」,正在逼近,甚至未来会远超全人类的总和! 所以,投入1.4万亿美元的算力,并不夸张。 算力真正要买的,是「还没被发明的未来」 当被追问「这么多算力到底要干什么」时,奥特曼给出的答案,并不是更多聊天机器人。 最令他兴奋的方向只有一个——科学发现,比如新材料、新药物、疾病机理、基础物理与数学问题等。 在奥特曼看来,科学进步是推动世界整体变好的最高阶变量,而AI刚刚开始触碰门槛。 奥特曼表示,算力不是一次性投入,而是「提前十年的工程」。 一个外界经常忽略的现实是:算力建设的节奏,永远落后于模型需求。 比如数据中心建设周期极长,芯片、能源、网络都需要提前规划。 奥特曼直言,他们现在做的每一个基础设施决策,都是在为一个尚不存在、但高度确定会到来的需求做准备。 这就是为什么,即便知道风险存在,他们仍然选择继续扩张。 所以,OpenAI会不会过度建设了?奥特曼给出一个十分硬核的回答。 到目前为止,我们从未遇到过算力无法被变现的情况。 在他看来,真正的风险从来不是「算力太多」,而是算力不够,限制了可能性。 所以,1.4万亿美元买的不是服务器,而是一个前提假设:人类对智能的需求,远未接近上限。 OpenAI,可能要亏上千亿美元 当1.4万亿美元的算力计划被摆到台面上,质疑声越来越大——钱,从哪来?该怎么赚回来? 问题极其严峻,但奥特曼在访谈中的态度,反而出奇的冷静。 外界流传说,OpenAI在未来几年可能累计亏损上千亿美元,直到2028~2029年左右才接近盈利。 奥特曼并不否认这一判断,但他立刻补充了一个前提: 如果我们停止扩大训练规模,现在就可以盈利。 也就是说,OpenAI的亏损并不是商业模式失效,而是主动选择把钱继续投进训练和算力。 在OpenAI的账本里,存在一个关键拐点—— 在早期,训练成本会占绝对的大头,每一次新模型都是巨额投入。 而在后期,推理会成为主要支出,不过,推理是直接产生收入的。 奥特曼的判断是:随着模型成熟,推理收入会逐步「淹没」训练成本。 指数级增长,是人类最难直觉理解的东西 当被问到「20亿、200亿收入,怎么撑得起万亿级投入」时,Sam 把话题拉回了一个更根本的问题:人类天生不擅长理解指数增长。 如果你用线性思维去看算力投入,它永远显得「过于激进」;但如果你把算力、模型能力、使用频率、收入增长放在同一条指数曲线上,逻辑就会完全不同。 接下来,奥特曼承认了一个残酷事实:OpenAI,从来没有算力富余过。 算力不足,就导致产品受限,然后收入增长被压制,会导致更难扩建算力。这就是一条反向锁死的链条。 而现在,OpenAI正在做的,就是一次性跳出这个约束区间。 为什么OpenAI的债务并不疯狂? 市场对「债务」最恐慌的点在于:AI是一个新行业,需求是否稳定,没人能100%确定。 但奥特曼的看法非常务实:没有人怀疑AI基础设施「有没有价值」。真正的不确定性,只在于谁来用、什么时候用、用多快。 在他看来,为数据中心融资、为长期基础设施引入债务,本质上和历史上修铁路、建电网、铺互联网没有本质区别。 当然,他也并不否认:过程中一定会出现波动、泡沫、甚至清算。但是,这并不会改变长期方向。 总之,OpenAI不是在赌「不会亏钱」,而是在赌——智能需求的增长速度,会跑赢所有保守预期! 一段正在展开、无法暂停的历史 总之,如果要用一句话总结奥特曼的世界观,那就是—— 不要赌人类会停下来,也不要赌智能会停下来。 AI并不是一项普通技术,它更像电力、互联网、印刷术——一旦出现,就不会再被「收回」。 而OpenAI所做的,不过是试图在这条不可逆的曲线上,尽量跑在前面,也尽量不失控。
字节全员涨薪底气曝光:2025年利润500亿美元,跟Meta一个水平了
一凡 发自 凹非寺 量子位 | 公众号 QbitAI 1天净赚9.6亿,字节火速给全员涨薪。 字节今年的核心财务数据被曝光了,相比去年大幅增长,直逼Meta。 丰富的弹药,给字节提供了AI人才大战的底气,直接就是一波全员涨薪。 谁羡慕了我不说。 涨薪肯定是咱们打工人喜闻乐见的事情。不过奇怪的是,这一波却还有一些人比较忐忑,因为伴随着涨薪到来的,还有职级体系的变革,虽然变前职级是10档,变后还是10档。但却并不一定会一一对应。 到底咋回事儿? 1天净赚9.6亿,字节核心财务数据曝光 据彭博社报道,今年前三个季度字节跳动利润已突破400亿美元,目前已提前完成了内部设定的利润目标,预计今年字节利润将达到500亿美元,约合人民币3520.8亿元,简单计算一下,平均每天净赚9.64亿元,1秒赚1.11万元。 根据此前消息,字节今年营收预计将达到1860亿美元,相比去年增长了20%。结合营收和净利润数据,可进一步算出今年字节的净利润率将达到26.9%。预计营收和利润都接近了Meta。 字节业绩增长带动自身估值水涨船高。今年9月,字节跳动被曝以3300亿美元的估值,内部回购了部分员工股票。 2个月后,有报道称多家投资机构参与了字节跳动的部分股权竞拍,最初这笔股权定价约为2亿美元,对应的估值为3600亿美元。最终成交价上升至3亿美元,对应的估值为4800亿美元。 几乎在业绩被曝大涨的同一时间,字节发布了一封全员信,引发了更多热议。 字节最新全员信:全员涨薪和职级变革 字节发布的最新全员信,核心涉及两项调整: 员工收入和公司职级。 员工收入方面,全员信透露在今年绩效评估周期中,字节调薪投入将上涨1.5倍,用于提高员工薪资总包。 薪资又分为现金和期权,其中发放的现金占比将提高,总包类期权将从1次发4年(20%-25%-25%-30%),调整为1次发3年(30%-30%-40%)。 绩效激励也同步提升,公司总体的奖金投入将比上个周期上涨35%,通过增加绩效M及以上的年终奖月数体现。激励月数在3个月以内的,仍然是发现金。超过3个月的,原来都是发绩效期权,现在调整为25%发现金,75%发绩效期权。 从2026年1月起,新给的绩效期权,其中有55%可以在拿到后立即参与回购,剩余部分可在3年内逐步参与回购,每年15%。 总结一下就是,员工直接能拿到的钱更多了,薪资总包的底薪和上限都提高了。 与此同时,字节的职级体系也变了,新体系明年1月启用。 大家都听说过,以前字节的职级命名和其他大厂的P级、T级看上去不一样,都是“3-1或者2-2”这种形式,分为5级10档。 以后字节的职级将调整为L1-L10,全员信特别指出,“目前‘1-1’实际使用率很低”,将和1-2整合为新职级中的L1。 这也表明,虽然看上去还是10个等级,但不可能直接对应。字节将视目前职级、薪酬总包、能力和绩效情况,明年给员工划分新的职级。 字节在全员信中透露,新职级体系能给员工提供更大的涨薪空间。 所以职级体系的改革,仍然是指向了涨薪。 为什么此时此刻要涨薪?字节内部信的官方解释是: 我们所处的行业正面临新的机遇和挑战,公司希望更好地吸引,激励和保留优秀人才。 这里“新的机遇和挑战”,显然缘起大模型。而众所周知,大模型浪潮崛起后,大厂抢人其实并不是一件新鲜事,但这种争夺,过去一般围绕顶尖人才展开。 就在年终岁末的此时此刻,有玩家率先把抢人/留人大战的战火,从金字塔尖烧向全体员工。这体现出新一轮的AI竞争,既需要坐镇指挥的大将,也要有敢拼敢闯的千军万马。 毕竟如今底座成熟,智能涌现,赋能应用,全面落地开花,需要全方位的团队保障。 字节的最新动作,也向行业抛出了一个问题: 跟吗? 以下为全员信原文: 大家好,我们所处的行业正面临新的机遇和挑战,公司希望更好地吸引,激励和保留优秀人才,鼓励大家和公司业务一起,再上一个比过去更大的台阶。 为此,2026年,公司将继续加大人才投入,提高薪酬和激励回报的天花板,确保员工薪酬竞争力和激励回报在各个市场都领先于头部水平。基于此,公司将更新薪酬和激励政策,具体包括以下要点: 提高薪酬竞争力,加大调薪投入。 提高所有职级薪酬总包区间的上限和下限为更多同学提供更大的涨薪空间,也提高招聘场景的薪酬竞争力。 2025全年绩效评估周期,公司调薪投入将比上个周期上涨1.5倍,用于提高员工薪酬。 与此同时,薪酬发放将提高现金占比,减少期权/RSU占比,总包类期权/RSU发放将从1次发4年(每年归属节奏为20%-25%-25%-30%),改为1次发3年(每年归属节奏为30%-30%-40%)。提升绩效激励,加大奖金投入2025全年绩效评估周期,公司奖金投入将比上个周期上涨35%,用于提升全年绩效M及以上的激励月数。 以薪酬总包中目标年终奖为3个月的情况为例:整体激励力度大幅提升。M激励月数下限不变,上限增加1.5个月;M+激励月数下限增加1.5个月,上限增加2.5个月;E激励月数下限增加3.5个月,上限增加3个月。 对于激励月数在3个月以内的部分,仍以现金形式发放。对于激励月数超过3个月的部分,发放形式将从100%发绩效期权/RSU改为25%发现金,75%发绩效期权/RSU(归属节奏不变,两者均按月匀速归属)。 从2026半年绩效评估周期起,半年激励(半年绩效E及以上的同学可获得)将加大激励力度,计算基数将从月薪调整为月总包(月薪+月期权/RSU)。 发放形式将从100%发现金,改为25%发现金,75%发绩效期权/RSU(两者均按月匀速归属)。 从2026年1月起,新授予的绩效期权/RSU,55%可在归属后立即参与回购,其余部分可在3年内逐步参与回购(每年15%)。 以上政策适用于正式员工。公司也将同步提升实习生薪酬标准,相关标准将于2026年1月1日生效。 与此同时,公司将应用新职级体系: 从”L1”到”L10”,共十级。目前职级体系中”1-1”实际使用率很低,将与”1-2”整合为新职级”L1”。 新职级与旧职级并非一一对应,而是以更高的标准重新定义了各职级能力要求,同时提高了所有职级薪酬总包区间上限和下限。在新职级体系下,更多同学有更大的涨薪空间。 新职级体系将在2026年1月1日启用,2025全年绩效评估将在2026年1月15日启动。因此,2025全年绩效评估周期将包含两个事项: 一是根据每位同学在2025年的职级和产出,评定全年绩效和激励;二是根据每位同学目前职级,薪酬总包,能力和绩效情况匹配到新职级。
诺奖得主Hassabis:5-10年AGI将至,冲击力将是工业革命10倍!
新智元报道 编辑:元宇 【新智元导读】近日,在与数学家Hannah Fry的对话中,DeepMind CEO Demis Hassabis回顾了AI在过去一年的飞跃式进展,他谈到了「参差智能」、持续学习、模型幻觉等迈向AGI过程中的关键挑战,并提到AGI带来的社会冲击可能是工业革命的10倍。 「过去一年,我们像是经历了十年的发展。」 近期,在与数学家Hannah Fry的对话中,DeepMind CEO Demis Hassabis这样形容他对过去一年最大变化的感受。 DeepMind CEO Demis Hassabis(左)与数学家Hannah Fry(右)在播客中 在Hassabis看来,过去一年,AI领域取得了十分惊人的变化。 对于谷歌来说,发布了Gemini 3,在多模态能力取得了长足进步。 此外,世界模型的进展也让Hassabis非常兴奋,这是他一直以来最热衷的领域之一。 Hassabis谈到了在通往AGI过程中存在的一些瓶颈难题,比如「参差智能」的,持续学习能力的缺失等。 他认为迈向AGI需要「50%的规模化+50%的创新」。 距离AlphaFold 2面世已经5年,Hassabis谈到目前DeepMind团队正在探索材料科学、核聚变等其他的可能性。 「参差智能」的挑战 在对话中,Hassabis谈到了通过AGI过程中的一些挑战。 比如,「参差智能」(jagged intelligences)的挑战。 AI能在国际数学奥林匹克竞赛中摘金夺银,却会在高中数学题上犯一些非常低级的错误。 Hassabis认为,这正是我们迈向AGI的一个瓶颈问题:「一致性」或「参差智能」(jagged intelligences)。 在他看来,「参差智能」出现的原因有各种理论解释和不同的原因,具体到不同情况,可能在于图像被感知和Token化的方式。 比如,有时它甚至无法识别所有的字母。 所以当你让它数单词里的字母时,它有时会出错。这可能是因为它没有看到每一个独立的字母。 此外,Hassabis还提到在线学习和持续学习的能力是当今AI模型所缺失的,这同样也是迈向AGI所不可或缺的重要能力之一。 AGI需要50%的规模化加上50%的创新 AI的竞赛与加速发展模式,有时也会面临很多「规模化最终会撞墙」「数据会耗尽」的质疑。 Gemini 3发布后,在众多基准测试中遥遥领先,似乎打破了这一质疑。 对此,Hassabis坦言,可能会存在一些「收益递减」效应,但他们在这个过程中其实从未真正遇到过所谓的「墙」。 他特别纠正了一种公众误解,即将「收益递减」错误解读为「零收益」,非黑即白: 「在指数级增长与停滞不前两种极端之间存在着广阔的空间,而谷歌正处于这个中间地带。」 这也意味着不可能每次发布新版本,性能就在所有基准上翻倍。但Hassabis也强调自己并未看到任何放缓的迹象。 谈到「互联网数据是否快被用尽」这一问题,Hassabis认为这可以通过使用合成数据来解决。 「现在的系统已经足够强大,可以自己生成数据,尤其是在编码和数学这类可以验证答案的领域;从某种意义上说,你可以创造出无限的数据」。 Hassabis也表示这些领域目前仍是研究课题,而这一直以来也是谷歌的优势: 「我们始终坚持研究为先。谷歌一直拥有最广泛、最深厚的研究团队。如果回顾过去十年的重大进展,无论Transformer、AlphaGo、AlphaZero,都出自Google或DeepMind。」 当赛道变得越来越难时,Hassabis反而觉得更加兴奋。 他认为这不仅需要世界一流的工程能力,还必须将其与世界一流的科学研究相结合,而后者正是谷歌的专长。 此外,最重要的一点谷歌还拥有世界级基础设施的优势,包括TPU和其他硬件。 这些结合,使谷歌能够同时在创新前沿和规模化应用上保持领先。 「50%的精力用于规模化,50%用于创新,要最终实现通用人工智能,这两者缺一不可。」 模型幻觉 即使在Gemini 3这样的前沿模型上,仍然能看到「幻觉」现象。 Hannah问是否可以让Gemini像AlphaFold那样,为自己的答案给出一个置信度分数。 Hassabis认为这个功能很重要,也是目前所缺失的关键环节之一: 「我相信我们正在接近这个目标。模型越智能,它们就越『知道自己知道什么』」。 模型越可靠,我们就越能依赖它们某种形式的「内省」或者更深度的思考,从而让它们自己意识到对某个答案不确定。 Hassabis表示,接下来我们就需要研究如何通过训练,让它能够将这种「不确定性」作为一个合理的答案输出。 他将目前的模型比作一个「说话不过脑子的人」,大多数情况下可能没问题,但当遇到非常棘手的问题时,你希望它能停下来,审视一下自己要说的话,并作出调整。 因此,需要引入「思考」和「规划」的步骤,让模型能够回顾自己刚刚输出的内容。 世界模型 除了 AI,世界模型和模拟一直是Hassabis最热衷的领域。 他认为语言模型仍然缺乏对很多关于世界的空间动态、空间感知、物理接触,以及我们所处的物理环境如何运作的力学原理的理解,这些通常是很难用语言描述的,也不会出现在文本语料库中。 如果我们希望机器人能够真正工作,或者希望有一个能随时陪伴你的通用助手,无论是在你的眼镜上,还是手机上,在你的日常生活中提供帮助,你就需要这种对物理世界的深刻理解,而世界模型正是其核心。 Hassabis谈到圣塔菲研究所(Santa Fe Institute)所作的模拟社会动力学的实验,让智能体在设定了正确激励机制的环境中运行足够长的时间,它们可以「发明」出像市场、银行等种种有趣的东西。 他认为这些实验很酷,也能帮助我们理解生命的起源和意识的起源,而模拟,则是实现这一目标最强大的工具之一。 「你可以设置略微不同的初始条件,将模拟运行成千上万次,然后以一种高度受控的实验方式,去理解这些细微差别所带来的不同结果。」 Hassabis认为,精确的模拟将为科学带来不可估量的福祉。 避免「信息茧房」 Hassabis曾提到,构建AI不应以最大化用户参与度为目标,以免重蹈社交媒体的覆辙。 如何构建一个既能将用户置于其个人世界的中心,又不至于为他们创造出一个「单人回音室」的 AI? Hassabis称目前已经看到了过度「谄媚」或迎合用户的AI所带来的后果,它们会形成「回音室」效应,对个人产生非常负面的影响。 Gemini正在通过发展出一套关于AI「人格」设定的科学方法来解决这一挑战。 Hassabis带领了一个团队来负责这项工作,希望塑造一种近乎「科学家」的个性: 它温暖、乐于助人,但同时又言简意赅、切中要点;它会以友好的方式,对那些不合逻辑的观点提出质疑,而不是盲目附和。 Hassabis认为为模型「人格」设定标准,是让大模型走向科学研究的一个重要关键。 模型会有一个出厂的「基本人格」,每个用户可以根据自己的偏好进行个性化设置,比如更幽默或更简洁。 但其核心的基础人格是不变的,它始终致力于遵循科学方法。 工业革命对AI变革的启示 Hassabis近期研究了很多关于工业革命的历史,他认为这有助于帮助我们应对即将到来的社会变革和冲击。 工业革命为人类带来了难以置信的进步,比如现代医学、物质富足、现代交通等。 同时也带来了巨大的挑战,不同时期,不同行业的劳动力都经历了被取代的阵痛,但没有人会想回到前工业时代。 而AI带来的变革的规模可能是工业革命的十倍,而其发生的速度也可能快十倍,或许将在十年内展开,而非一个世纪。 在Hassabis看来,通过学习那段历史,提前预见这次变革可能带来的社会错位,有助于我们更早、更有效地去缓解它们。 就像工业革命彻底改变了农业社会的工作模式一样,至少同等规模的变革将再次发生。 因此,Hassabis认为我们可能需要新的经济体系和模型来帮助社会转型。 图灵机的终极问题 Hannah Fry:超越通用人工智能,迈向人工超级智能(ASI)的阶段,您认为是否存在某些事情是人类能做到,而机器永远无法企及的? Demis Hassabis:这正是那个终极问题,又回到了我最爱的话题之一图灵机。 Hassabis认为,如果成功构建了AGI,并用它来模拟人类心智,并将其与真实的心智进行对比,就能发现其中的差异,以及人类心智中那些独特且无法被取代的东西。 其中哪些是可计算的,哪些是不可计算的,目前存在着许多假说,但这最终都归结于图灵机的问题: 图灵机的能力极限究竟在哪里? 自从了解到图灵和图灵机以来,这个问题一直是Hassabis人生的核心问题,令他着迷,也是他的核心热情所在。 他所做的一切,都在某种程度上不断拓展着图灵机能力的边界,包括破解蛋白质折叠。 但他并不确定这个极限在哪里,这就又回到了心智的问题:它完全是经典计算吗?还是说有其他机制在起作用? 「如果现在非要我猜,我会赌是后者,并且我正基于这个假设在工作,直到物理学证明我错了。」 Hassabis十分推崇康德(Kant)的一个观点——现实是心智的建构。 「所有这些感觉,包括光、温暖、触感,它们通过我们的感官输入。归根结底它们都是信息。而我们,就是信息处理系统。」 Isomorphic Labs的创办正是基于这样一个理念。 他们将生物学视为一个信息处理系统,相信最终能治愈所有疾病。 当前AI都不具备意识,AGI可能需要5-10年 Hassabis从小便对生命的意义、意识的本质、以及现实本身到底是什么这类宏大的问题着迷。 一直指引他并让他始终保持热情的,是理解我们周围的世界。 对于他来说,AI就是一个推动人类知识进步,帮助他实现这一目标的终极工具。 2025年4月,Hassabis在接受CBS 《60 Minutes》节目采访时表示,当前的人工智能系统在任何真正意义上都不具备自我意识或意识。 当CBS 《60 Minutes》主持人Scott Pelley问他,「你们现在是否在研究一种可能具有自我意识的系统」时,Hassabis表示,在他看来,如今的系统都不具备自我意识,也谈不上真正的意识。 Scott Pelley又问他是否会将打造有自我意识的系统当作目标。 Hassabis回答,这并不是一个明确的目标,但它可能会以一种隐含的方式发生。 比如,这些系统有可能获得某种「自我意识的感觉」。 他表示让系统理解「自我」和「他者」是非常重要的,而这可能正是自我意识的起点。 但Hassabis也提到,即使机器真的获得了自我意识,人类未必能够识别出来。 Hassabis谈到了他对AGI的时间表,他认为可能在未来5到10年内实现。
手机厂靠拢豆包
努比亚 M153 的三万台还没有卖光,豆包的手机端合作版图,有望进一步扩大。 近日,界面新闻报道称,字节跳动正推进与 vivo、联想、传音等硬件厂商开展 AI 手机合作,为其设备预装 AIGC 插件;多位 vivo 员工向媒体证实双方已确认合作、正在讨论细节。 不过,仅凭这条消息模糊的表述,尚无法确认这些“合作”的具体性质,是否和此前字节与中兴的合作方案划等号。此前,在 nubia M153 上,字节在手机 OS 层深度构建了 GUI Agent,可以自动接管用户指定的跨 App 操作,但随后遭受了来自微信、淘宝等 App 的“反制”。 但从最新合作传闻中不难看出,M153 的尝试还是吸引了手机行业的目光。随着字节带着豆包大模型能力入局,终端厂商的原生 AI 生态正在加速扩张。 这一趋势,在近日举办的火山引擎 FORCE 原动力大会上可以窥探一斑。 包括中兴、荣耀、小米、vivo 在内的多家手机厂商为火山引擎“站台”。不过,除 nubia 带来的 M153 之外,大部分手机厂商和豆包的关系更多是模型能力的调用,Agent 层面的产品形态、交互方式以及系统级整合,依然主要由手机厂商主导。 在本届源动力大会的群访环节,火山引擎总裁谭待在接受直面 AI 采访时表示,“AI 的价值在于用更方便、更便利的方式,做大用户的需求”。 显然,不管后续字节和这些厂商的合作如何展开,一个行业趋势已经愈发清晰。系统层的 Agent 潜力巨大,即便当前落地存在一些阻力,但在 M153 上已经能看到未来的雏形。 不管是合作还是自研,大模型厂商和手机厂商们,已经喊着“做大做强”的口号,加速涌入这一赛道。 手机厂商们加速拥抱字节等大模型厂商,背后是手机端原生助手领域,有着天然体量巨大的活跃用户基础。 QuestMobile 的 2025 年三季度报告显示,截至 2025 年 9 月,移动端 AI 应用 MAU 达到 7.29 亿;其中“手机厂商 AI 助手”规模约 5.35 亿,“原生 AI App”约 2.87 亿,“In-App AI”约 7.06 亿。 换言之,在原生 AI 的不同形态里,终端和 App 有着明显的用户“层级差”:原生 AI App 依赖用户主动点击触发,而系统级助手天然就在“随手就用”的前置位,甚至无需用户刻意点击就能维持日活。 事实上,围绕“如何在系统层唤起 AI、如何让助手不只停留在语音问答”的探索,几乎已经成为国内主流手机厂商的共识,只是受限于模型能力与工程稳定性,多数方案最终停留在“增强版语音助手”的阶段,而豆包手机助手的出现直接踢开了这扇大门。 尽管nubia M153呈现的效果在业内仍有争议,但豆包手机助手在 OS 层获得授权后,实现了自动接管用户的跨应用任务,让业内看到了完全体 GUI Agent 的雏形。这一形态带来的想象力空间,并不会随着部分超级 App 的“反制”而消失。 另一方面,随着近两年大模型在指令理解、多轮规划与工具调用能力上的明显跃迁,AI 首次具备了承担复杂任务链的可能;与此同时,移动端算力、内存与本地推理能力的持续提升,也让“端侧执行”不再只是概念。 手机端“可跑得动”的关键之一,是移动 SoC 的 NPU 峰值算力与能效在近两代出现跃升。根据行业调研机构 Counterpoint 的分析,2025 年全球主流旗舰级 SoC 几乎全面支持生成式 AI,本年度出货的高端 SoC 中有约 88% 已具备生成式 AI 能力,且这些芯片的 AI 算力峰值在 2025 年已经接近 100 TOPS级别,约为 2021 年水平的四倍。 AI登“机”的浪潮下,Siri 时代那种以固定指令为主的语音助手逻辑,已经难以满足用户对“智能”的期待。 在这样的窗口期下,手机厂商迫切需要在硬件与系统层面,寻找新的体验突破口;而 AI 云厂商,则拥有更成熟的模型与工程能力。双方的靠拢,并非一次偶然的商业试探,而是技术成熟度与产业需求叠加后的结果。 这也是为什么,尽管 M153 的销量规模有限,但 3 万台工程机,仍像是一枚信号弹,给早已蠢蠢欲动的手机行业一个冲锋的信号。 这样的背景下,市场开始传出 vivo 等体量更大的厂商,与字节推进合作的消息,其实合情合理。这并不意味着所有厂商都会复制 M153 的深度定制模式。vivo 此前就发布过“蓝心智能”AI 战略与自研蓝心大模型矩阵,并强调 OriginOS 与系统级智能体能力的升级。 另一边,以荣耀为例,YOYO Agent 已接入豆包大模型的部分能力,但 Agent 的训练、产品逻辑与系统整合,依然由荣耀主导完成。这种“能力接入而非产品外包”的方式,或许才是更多手机厂商在当前阶段的现实选择。 值得关注的是,荣耀首席影像工程师罗巍,此前曾就豆包手机助手发表个人观点:“因为字节没有硬件研发能力,或者硬件能力并不比中兴领先。那么就是两个矮子在一起,也不会生个高子。” 但在这番评价之后,荣耀的展台仍然作为火山引擎合作伙伴,出现在了本届原动力大会上。 回过头看,字节的这次激进,并不是脱离产业节奏的冒进,而是踩在一个已经逐渐成熟的窗口期上。M153的意义,也并不在于证明某一款产品的成功,而在于让行业更坚定地看到:端侧Agent,已经成为一条无法回避的路径。 而面对微信和淘宝等App不断筑高的城墙,App与Agent的关系,成了绕不开的下一问。 豆包手机助手面世以来,在业内迅速引发了一些讨论:当 AI 可以直接理解意图并代为操作,Agent 是传统 App 的威胁吗? 在本届火山引擎原动力大会的群访环节,谭待回应了直面AI提出的这一问题,他首先从用户视角进行了阐述。 “假如说用户想点一杯咖啡,点咖啡这个操作不管是通过跟机器人语音交互,还是操作手机完成,最后都是为了满足用户的需求。”在他看来,普通人还有很多需求没有被满足,通过 AI 可以更好地解决这些问题。 “至于这个 AI 的载体是 Web、App、agent,还是套了个 App 壳的 agent,可能没有那么大关系。”谭待这样说道。 所以,回到手机原生助手层面,能操作多少 App 也许从来不是问题的核心,真正重要的,是 AI 是否能用更低的使用成本,把原本未被满足的需求释放出来。当需求被“做大”,无疑在硬件层面可以建立起全新的用户心智,尤其是广大用户对 AI 已经并不陌生的 2025 年。 QuestMobile 数据显示,截至 2025 年第一季度,原生 AI 应用的月活跃用户规模大幅扩容,其中用户对 AI 原生应用从“尝鲜”逐渐转向“依赖”,其人均月使用次数同比增速明显高于使用时长增速。 报告显示,AI 原生应用的月人均使用次数同比增长约 53.1%,而月人均使用时长则增长约 32.7%,用户层面倾向于多次短时打开 AI 应用去完成即时类需求。 这些需求,正是手机原生 Agent 可以放大的那部分。但这本质上是一个增量逻辑,并不意味着 App 的价值短期内会被快速削弱。 中国信通院在 2024 年发布的数字应用生态报告指出,用户使用时长仍高度集中在少数头部 App 上,支付、即时通讯、短视频等核心应用合计占据超过八成的用户总使用时长。这些 App 所承载的账户体系、支付能力、内容供给与安全责任,短期内都不具备被 Agent 直接替代的条件。 也就是说,Agent 正在改变 App 的“入口位置”,而非消解其存在价值。 在这一结构中,App 仍然是能力与服务的封装体,但不再必然是用户表达需求的起点;Agent 则逐渐承担起“需求调度层”的角色,负责理解意图、拆解任务,并将执行分发给不同应用或系统能力。 甚至,用户驱动 Agent 的终端甚至未必是手机。 根据 Counterpoint Research 的追踪与分析数据,2025 年智能可穿戴设备市场中 AI 智能眼镜等具备本地 AI 能力的终端表现出显著增长势头。2025 年上半年,全球智能眼镜出货量同比增长超过 110%,其中 AI 型智能眼镜的出货占比大幅提升,反映出业界对本地 AI 能力的快速采纳趋势。 而在这一背景下,字节也不会是唯一入场的大模型厂商。 智谱 AI 在近期将其核心 AI Agent 模型 AutoGLM 开源,使研究者与开发者能够基于该模型构建具备“Phone Use”能力的 AI 终端智能体。 AutoGLM 能够理解屏幕内容,并通过模拟用户操作(如点击、滑动、文字输入等)完成多步骤任务流程,目前已在微信、淘宝、抖音、美团等超过 50 个高频中文应用场景中展示出自动化操作的能力。 换言之,当更多大模型厂商试图“上机”,分水岭就不再只是模型接入,而是手机厂商是否愿意把系统层的 AI 入口与规则让渡出去。下一阶段的竞争,更像是“系统与生态”的较量。 如果说 nubia M153 更像是一种“工程验证”,那么在它发布数周后,小米在人车家全生态大会上同步披露的澎湃 OS 与 AI 进展,则代表着传统手机豪强的同步跟进。 在这场大会上,小米并未将重心放在单一模型或功能上,而是反复强调澎湃 OS 作为系统级底座的角色——它正在成为连接手机、平板、电视等多终端的统一操作系统框架,也是 AI 能力被组织、分发与约束的核心层级。 这一判断,并非停留在概念层面。根据小米官方披露的数据,截至 2024 年底,小米 AIoT 平台已连接设备数超过 8.2 亿台,覆盖手机、平板、电视、穿戴与家居等多个品类。澎湃 OS 的目标,正是将这些分散设备纳入统一系统框架之中,使 AI 能力可以在不同终端间被调度与复用,而非依附于单一应用。 这意味着,在小米选择把 AI 能力牢牢放在操作系统内部,而且这个系统对应的硬件生态同样庞大。 另一边,作为小米 MiMo 大模型相关负责人,罗福莉在本次大会上首次公开亮相。在谈及 AI 能力演进方向时,她将重点放在任务理解与执行层面,强调 AI 需要具备对复杂需求进行拆解、规划并与系统能力协同完成的能力,而不仅停留在单轮问答或信息生成阶段。 从产业结构看,这条路线与字节所代表的 AI 云厂商路径形成了对照。 头部 AI 厂商希望进入手机 Agent 市场,逻辑并不复杂,是因为手机仍是用户最重要、最稳定的高频入口之一;但对手机厂商而言,操作系统、硬件整合与生态控制力,才是其长期优势所在。一旦 Agent 深度嵌入系统层,谁来定义交互方式、权限边界与默认入口,决定了最终的主导权。 这也是为什么,多数头部手机厂商在接入外部模型能力的同时,仍坚持自研 Agent 框架与系统级助手。它们更倾向于把云厂商视为能力提供者,而非产品定义者。 事实上,这并非一条新出现的路径。更早之前,华为在推进 HarmonyOS 与小艺助手的过程中,已经持续强化系统级调度与跨设备协同能力,并将 AI 能力作为操作系统的一部分加以演进。 根据华为在 2024 年开发者大会上的公开数据,HarmonyOS 生态已覆盖 8 亿+ 设备,注册开发者超过 220 万,并运行在手机、平板、穿戴、车机及各类 IoT 终端之上。在这一体系中,小艺并非独立应用,而是深度参与系统级调度与跨设备协同,用于统一调用多终端能力。 而在智能眼镜、耳机等新硬件形态上,这种生态差异被进一步放大。对屏幕受限、操作碎片化的设备而言,Agent 更接近“基础交互层”,而品牌与系统协同能力,往往比单一模型能力更重要。 在这一点上,显然传统硬件厂商的优势会更大,但AI厂商们,如字节和阿里也在推进各自的AI硬件业务,小艺与超级小爱,是否能够在端侧体验上全面超越豆包,目前仍难下定论。 但近期手机圈对于豆包和其他AI的“加码”已经清楚表明,无论是 AI 厂商还是手机厂商,都已将目光投向 AI 手机这一仍待开垦的系统级空间。 在豆包手机助手的“信号弹”作用下,2026年,AI手机有可能迎来“做大做强”的一年。
豆包视频生成大升级,网友们的脑洞终于自带音效了
先给大伙看个视频吧。 很酷炫的大片场景对吧,特效和氛围都很上头。 但如果我告诉你,这片子是纯 AI 生成的呢?AI 的飞速发展,让肉眼好像已经分不清,特效和 AI 的区别了。 但估计大多数人跟我一样,都是光看不练,或者说练过,但《从入门到入土》。 原因就一句话:这玩意太容易劝退了。 想要完成度高一点,就得自己部署个模型,搞点稳定可控的 Workflow 。但那一堆密密麻麻的参数,普通人是调不明白的。 想随便玩玩的,可以上在线网站,但效果相当于抽卡,每抽一发就要花钱。像之前网上大家刷到的 ASMR 切水果,大多都是谷歌的 Veo 之类生成的,国内的大伙也很难用上。 被折磨了许久后,世超最后的答案,是一个大伙耳熟能详的东西——豆包。 你别不信,这浓眉大眼的豆包悄悄进化了。最近,它的视频模型更新到了 Seedance 1.5 pro,而且支持了音画同步,效果媲美谷歌。用完后我只想说,想自己搓 AI 视频的朋友们,好日子来了。 具体有多强,还是看世超表演吧。 大伙都知道,以前国内大部分视频模型只能演默片,而现在,豆包的声音和画面已经配合得出神入化了。 而且我感觉最突出的特征,是它的理解力,就是不用写什么详细提示词,它会自动理解画面和文字,生成你想配的声音。 首先出场的是我们的老演员,火锅。 我们丢给它一张火锅近照,并直接跟豆包讲:“让图中的金毛进入水坑跑一圈。” 它很好地理解了我的需求,画面里的金毛和水的效果都没啥问题,还很好地区分了在地上和水里的脚步声,甚至知道是户外,配上了鸟叫,整个一生机勃勃万物竞发,理解力没得说吧。 然后我们用同样的提示词,发给谷歌的 Veo 来做了个对比。讲真,世超是觉得大差不差的,二者的物理效果和音效都很逼真,甚至俺觉得豆包更还原了手机麦克风的录音感。 为了证明不是诈胡,我又传了一张双人演奏的图,我也没告诉它哪个是吉他,哪个是贝斯。 结果出来,还真是两种动静都有,甚至还加上了鼓点。差友们可以测一下自己的听力和耳机的表现,看看能不能听见贝斯。 除了图生视频,咱还可以直接不给图,让豆包文生视频,这考验的就是豆包的想象力了。 我让它生成了一段像素风格游戏画面,哥们小的时候巨爱玩。 结果效果真的很逼真,甚至感觉比我记忆里的游戏还好,起飞和落地的碰撞粒子效果都做出来了,背景音乐也是经典的 8-bit 风格。 8-bit 像素艺术风格,勇者在夕阳背景下从左往右奔跑跳跃,带着泥土的粒子特效,画面带有复古 CRT 显示器的扫描线效果。动作流畅,配合复古 8-bit 电子游戏音乐(Chiptune)与跳跃音效,音画节奏紧密协同,完美还原红白机时代的经典游戏画面质感。 2D 游戏有了,3A 大作呢?世超也试了一下,传给它一张黑神话的游戏截图。 结果不仅画面不错,一致性也保持得很好。我们让猴哥乘上了筋斗云向天上飞去,猴哥的模型我目测来看是没怎么崩,而且还有加分项,配上了史诗级的音乐,豆老师在音乐细胞这块可真没得说啊。。。 为了考验豆包的对人脸的一致性,我们又请出了鬼畜区顶流,跟诸葛亮对喷的王朗,不过这次演的是王朗认错人的戏码。 这人物的小表情和小动作都刻画得很有味道啊,看见对方却不认识的短暂迟疑,短暂思索,还有认错人之后的尴尬解围,表演得都非常自然,脸部的一致性也保持得很好。 王朗眉头一皱,发现事情并不简单。 所以呢,整了这么多活,意思是只能发发小视频咯,能不能真有专业电影级的用途呢? 能的,能的。众所周知,影片不仅要画面精致,还得有镜头语言和台词吧。 而这些,豆包真的都能拿下。 我找了张废墟中的男人的图,让它 Cos 一下面壁者罗辑,然后让摄像头绕着罗辑转,模拟智子视角。 豆包的镜头还是很稳的,人物的脸也保持了原有的特征,再加上这性感气泡音,三体人真的不是被颜值折服的吗? 而且,你也不需要有大导演级别的用词,什么推拉摇移跟升甩降,你甚至直接可以说,我就想要个有故事感的镜头。。 于是,它就把镜头紧紧锁在金毛身上了,因为它清楚,这是主角儿。 而世超最喜欢的,其实是这次模型的面部情感表达。我叽里咕噜瞎敲了一堆提示词给它,什么心酸劳累,什么重燃希望,全喂给它了。 都市风格,中年东亚女性,特写捕捉她的脸上的劳累苦楚,随着夕阳洒在脸上,神情转为充满希望的微表情变化。人物皮肤具备真实胶片质感,浅景深背景虚化。比例 16:9,时长 10s,模型 1.5 Pro。 结果它居然表达得很好,真就给我了一种镜头里的人活了的感觉,眼里充满了这些年的辛酸与泪水。 之前说外国人的 AI 很难驾驭中文,那豆包的外语怎么样呢? 我管你这那的,先发一张美少女试试。 于是我发过去这张图片,然后让她说了一句 “ 组一辈子的乐队吧 ”。 然后复刻得非常成功,BGM 也是很有日本动漫的风格。 最让我惊艳的是,它甚至还能生成,带对话,全外语,且对上口型的动画片段。 更恐怖的是,连音色都大差不差,如果忽略后面有些 bug 的文字,我很难不认为这是原片。 帮我生成一个视频:Shot 1:中景 蟹堡王厨房海绵宝宝双手紧握铲子,眼神充满决心。海绵宝宝(声音发颤):“i want to bring joy to others”Shot 2:特写 章鱼哥半侧脸他斜眼看着海绵宝宝,嘴角下撇。章鱼哥(低沉讥讽):“you can't even fool yourself”。比例 16:9,时长 10s,模型 1.5 Pro。 啥意思,老二次元的春天真的来了?以后想看什么番外都能自己搓,那叫什么旮旯 game 的还得自己攻略,不好不好。 讲道理,世超上网的时候,经常看见豆包,觉得它已经够火够强了,结果这次,憋了个更大的。测完这一圈,我甚至感觉,这是豆包给自己加冕的冠军拼图了。 文字能写、图片能画、音乐能搓,现在再加上个音画同步的视频模型,也算是进化成六边形战士了。 之前咱总觉得国外的月亮圆,Sora、Veo 啥的遥遥领先,现在看来,豆包不仅赶上来了,还更懂咱们中国人的点。 以后,咱们乐子人爽了,评论区到处都是会动会说话的表情包。打工人估计也笑了,以前自己亲自拍的样片,现在给AI发几句指令就能做。 所以趁着人还不多,大伙可以赶紧去试用起来了,有什么抽象的案例,欢迎大伙给世超发过来,我倒要看看差友的脑子里装的都是什么。。
三星也要做自己的“豆包手机助手”,AI端侧真这么香?
过去一年时间里,手机厂商在AI方面的动作越来越密集,荣耀YOYO接入更多第三方智能体,实现系统层与应用层的AI能力对接;华为小艺只需一句指令便能在应用间穿梭,帮你完成一些任务。 尽管这些AI能力愈发强大,但如果把这些功能拆开来看,会发现一个很现实的情况,本质上,这些AI依然需要联网才能使用。也就是说,手机AI仍困在端云协作的阶段,还未进一步。 近期,X平台Semi-retired-ing透露,三星将在即将发布的Galaxy S26系列上准备一套能够在本地运行的大模型,用于实现大部分AI功能。这套大模型甚至拥有高级权限,能在必要时清除内存,留出更多空间,以确保随时响应用户的需求。 (图源:Oneleaks) 实际上,三星在2023年就曾展示过一套名为“高斯”的本地大模型,也曾被指出这套模型已经在Galaxy S25系列里预装。但不知出于何种原因,三星一直在力推Google的Gemini,几乎未再提及“高斯”。直到近期,三星的本地大模型才被重新提及。 在大多数厂商仍然以云端为主的阶段,三星为何要尝试把模型真正放进手机里?是希望通过这种方式“弯道超车”?还是移动端已经拥有了本地部署大模型的能力?无论答案是什么,我们只知道,手机AI的新阶段即将拉开帷幕。 手机厂商不会抛弃端云协同 如果三星真的要将大模型部署在本地,是否说明手机AI要开始放弃端云协同的策略,转向纯本地部署了?事实上,这在短期内可能并不会实现。 端云协同在当前的手机AI里,是几乎完美的方案。云端承担的是模型规模、复杂推理和快速迭代的任务,背后的优势自然是云服务器拥有更充足的算力资源,也更方便进行模型更新、统一治理和安全审查。而端侧负责对接用户的第一道指令,像是唤醒、语音识别、基础意图判断,然后把复杂请求转交给云端完成。 这种分工逻辑,对于偶尔用用AI的用户而言,其实没什么问题。查一条信息,哪怕多等一两秒,也不会明显影响体验;对厂商而言,这种模式还不会多占用手机的资源,哪怕是性能稍差一些的手机也能使用。而三星Galaxy S26系列内置大模型这套策略,大概率不会开放给旧机型,这就是区别。 (图源:三星) 但问题在于,这套逻辑的前提是,AI的使用频率不会太高。随着手机AI的发展方向逐渐清晰,厂商的目标已经不再是“帮你回答问题”,而是“替你完成操作”。AI不再只是对话窗口,而是开始尝试理解屏幕内容、拆解任务目标、规划执行路径,最终形成完整的AI Agent链路。 一旦AI进入这种高频、连续、系统级的交互场景,端云协同的短板就会被迅速放大。例如在弱网环境下,云端响应延迟会让操作出现明显断点;在连续指令场景中,网络中断就可能让整个流程停在原地。对于用户来说,效率低下是很难被接受的。 也正因为如此,近期厂商开始频繁讨论“端侧大模型”,并不意味着它们要彻底抛弃云端,而是希望把更多即时判断和关键决策留在设备本身。端云协同显然是这个阶段里的最优解。 端侧大模型,落点难在何处? 既然端云协同有缺点,那么为何本地大模型很难在手机端落地呢?其实倒也不是并不是厂商不愿意尝试,而是受限条件过于明确。 首先是硬件约束。内存、算力和功耗,是端侧AI的三个核心条件。哪怕模型规模不算夸张,只要需要常驻后台,就会对系统资源形成持续占用,光是内存这个条件,甚至迫使苹果提升了iPhone的内存空间。 其次是稳定性和维护成本。云端模型可以快速迭代、即时修复错误,而本地模型一旦部署,优化节奏就只能依赖系统更新。对于系统级AI而言,这意味着更高的风险,也更高的测试成本。 (图源:Oneleaks) 但2025年的变化在于,芯片能力大幅提升,让手机纯端侧大模型几乎要成为现实。 以第五代骁龙8至尊版为例,高通披露其Hexagon NPU在本地生成式任务中,已经可以实现约200 token/s级别的输出速度。这个指标的意义在于,端侧模型已经能够进行连续、自然的语言生成,这种连续性,是AI执行复杂交互指令的前提条件。 同样地,联发科天玑9500在NPU 990上引入了更激进的能效设计。按照官方说法,在 3B 规模的端侧模型上,其生成效率提升的同时,整体功耗还有明显下降。这意味着端侧模型不再只是“能跑一次”,而是开始具备更现实的常驻可能。 搭载最新一代旗舰芯片的新机们,或多或少都已经利用好了芯片算力提升带来的红利,推出了各种AI交互功能。比如荣耀的YOYO智能体,在Magic8 Pro上已经能够支持多达3000+场景的自动任务执行。 但即便如此,用纯端侧AI去实现复杂任务,还是有一定难度。 就连被爆料内置本地大模型的Galaxy S26,也需要通过定期清理系统资源,才能确保模型常驻运行。这本身就说明,完全依靠端侧模型去承载复杂 AI 任务,在短期内仍然不现实。 端侧 AI 不会“掀桌”,但会成为旗舰机分水岭 从目前主流厂商的选择来看,端云协同仍然是最稳妥的方案。 以华为为例,小艺依然是国内系统级AI助理中完成度最高的一套方案,覆盖语音交互、系统控制、跨设备协同等多个维度。但即便如此,其核心架构依然是典型的端云协同——端侧负责感知和基础理解,云端承担复杂推理。 这并不是厂商“做不到端侧”,而是一个更现实的取舍问题。当AI开始深度介入系统和服务层,稳定性、效率和资源控制,始终比激进部署更重要。 与此同时,今年最引人关注的变化,其实是AI开始尝试接管“操作权”,豆包手机助手却尝试了把大模型能力前移到手机交互层,让AI不只是回答问题,而是直接理解屏幕内容、规划操作路径,甚至模拟用户完成跨App行为。这种模式,瞬间让整个行业沸腾。 (图源:豆包手机助手) 不过,豆包手机助手、华为小艺、荣耀YOYO、小米超级小爱等一系列开启了“自动驾驶”的手机AI,本质上代表着一个前进的方向,正如前文所说的,这是下一阶段的AI手机必须掌握的技能。 无论如何,端侧大模型并不会在短时间内彻底改变手机AI的整体方向。无论是三星、华为,还是国内几家主流厂商,当前的选择都是端云协同的方案。 毕竟手机并不是为大模型而生的设备,这使其必须在性能、功耗、稳定性和安全之间找到平衡点。一旦AI开始深度介入系统操作,就不能让用户的体验出现问题,这也是为什么厂商不会贸然跟进。 从这个角度看,端侧大模型可能不会成为手机发布会上的“爆点”,但将会悄然抬高旗舰机的技术门槛,让有端侧和仅云端的AI手机在AI功能实现的体验上出现差距。而这个分水岭,或许就在不久的将来就会到来。
那个周末,我的吸尘器开始骂我
重新定义 新型 人机关系 美国明尼苏达州,冬天漫长而寂静,雪包裹了整个世界。对于律师丹尼尔·斯文森 (Daniel Swenson) 来说,家是他唯一的庇护所,是他在法庭上唇枪舌剑一天后,能够卸下盔甲的地方。 然而,去年年底的一个深夜,这个庇护所被一种抽象的力量击穿了。 字面意义上的抽象。 起初,只是客厅的扫地机器人发出了异响,声音像是坏掉的收音机。斯文森一开始没在意,但当他打开控制 App 时,屏幕上的画面让他背后的汗毛瞬间竖立。摄像头正在转动——而且不是正常工作时的那种转动,而像是一双眼睛在窥探的感觉。 有人在窥探斯文森的客厅,他的生活和隐私。他愤怒地重置了密码,然后重启了机器,以为能把不速之客拒之门外。但是这次驱魔似乎并无作用。机器人重新启动了,指示灯再次亮起,这一次,入侵者干脆直接夺取了扬声器的控制权,当着斯文森和他儿子的面,疯狂地骂着「fuck」,吐出你所能想象的所有针对黑人的种族歧视词汇。 他的吸尘器,变成了一个满口秽语的「暴徒」。 斯文森的经历并非个案:在加州洛杉矶的一个家里,扫地机器人像发狂的野兽一样骚扰着宠物狗;在德州,类似的剧情也在演。 听起来像是卡夫卡的荒诞剧——谁也没想到,21 世纪 20 年代的智能家居浪潮现实,比艺术创作还更荒诞。 最近欧洲刑警组织 (Europol) 发布了重磅报告《无人化的未来》(The Unmanned Future),发出了警告。 「数字实体化」是这份报告的主命题:未来的犯罪,可能是「无人」犯罪。未来的执法,也有可能是「无人」执法。在无人化的未来,人类将不得学会与机器共存——甚至学会如何与之抵抗,并在过程中重新定义人机关系。 客厅里的特洛伊木马 《黑客帝国》已经是 20 多年前的作品,但其中所预言的代码侵入真实世界,虚拟与现实的结合的犯罪行为,其实最近已经开始发生。电影中的反乌托邦世界,似乎没那么远了。 最简单的犯罪种类,就是强行黑入智能家居产品,隔着互联网在别人的家里捣乱。 安全研究人员早已发出警告。斯文森用的扫地机器人品牌,其部分型号有严重的蓝牙缺陷,黑客不需要复杂操作即可轻松通过蓝牙接管机器。厂商提供的防护也过于简单:4 位数的 PIN,同样只用穷举法就能轻松破解。 厂商的回应也颇为敷衍:对于部分案例,厂商宣称是用户在其他网站泄露了密码,自己是被连累的,算不上系统的漏洞,直到媒体曝光、事情闹大,才勉强承认产品确实存在安全隐患。 和扫地机器人相比,智能冰箱的背叛更加隐蔽,荒诞程度更是翻倍——有没有想过,你的冰箱不止能装肉鸡,而且自己也是一个「肉鸡」,专门负责发送垃圾邮件? 网络安全公司 Proofpoint 还真就有这样一个真实案例。黑客悄无声息地俘获了超过 10 万台智能家居设备,包括联网的冰箱、智能电视和路由器,将其组成「僵尸网络」(botnet)。 这些冰箱每天分三次发动攻击,每次爆发发送 10 万封邮件,精准而高效。更狡猾的是,为了避开反垃圾邮件系统的拦截,黑客控制每台设备只发送少量邮件,就像蚂蚁搬家一样,让防御者难以察觉。 如今,每个家居设备都有算力、联网、存储能力。而大多数时候此类设备被攻陷,不是因为缺乏安全设定,而是纯粹出于社工学理由,因为保留着出厂默认用户名和密码,或者开放了完全不必要的 telnet 或 ssh 端口——好比装了个防盗门却把钥匙插在门上,还贴着张纸条写着「欢迎光临」。 而像前面提到的,黑入扫地机器人之后如果支持纯捣乱的话,倒还好。问题是,如果设备用被攻击设备作为跳板进一步黑入网络里的其他设备,或者利用更多社工学思路去搞破坏,造成的损失将会是更加难以估量的。 Europol 报告中引用的一些研究指出,大部分时候针对智能家居的黑客攻击,都是静默的,激烈和充满恶意的攻击只占极少数。 为了提高潜在的犯罪收益,黑客们更喜欢安静地潜伏。比如,黑客可以掌控一台设备,继续跳转,进而了解家庭的户型、户内人员的作息习惯,他们的进一步隐私/财务信息。 甚至窥私欲本身也构成了一个巨大的地下市场:你在家里最放松、最私密的时刻,无论是刚回到家的狼狈,还是洗澡时的发呆,都在暗网上待价而沽。 Europol 指出,在今天,你在网上的不小心,会导致现实中的你遭受物理层面的骚扰和监视。当黑客攻击侵入实体空间,虚与实的安全隔离被打破了。我们的家变得更智能了,但家的安全却愈发支离破碎。「家」真的不可入侵吗?不,它可能早已成为一个多孔的漏斗,而每一个智能设备都在提供潜在的漏洞。 猫鼠游戏 夜晚,监狱的操场。一架无人机像一只巨大的黑色甲虫,悬停在操场上方。挂钩松开,一个包裹坠落下来,精准地落在一名正在放风的犯人脚边。 犯人若无其事地弯腰、捡起包裹、塞进怀里,整个过程行云流水,就像在自家门口取个快递,也像是电影里的桥段。 但这并不是电影,而是加拿大安大略州的金斯顿,这座监狱小城前不久刚刚发生的事情。当地执法人员和无人机走私违禁品行为已经对抗了几年的时间,但总感觉道高一尺魔高一丈。无人机的出现让监狱的高墙失去了意义。曾经走私需要买通预警,但现在只需要一台几百刀的无人机和一个稍微有点手法的飞手。 无人机的出现,让战场轻松、低成本从二维升级到三维空间。谁掌握无人机,谁就掌握了不对称战争的能力。而在全世界各条知名的走私走廊,贩毒集团正在发起海陆空全方位的不对称战争。 在南美,他们使用无人机来为运毒飞机导航,协助它们在土跑道上降落和起飞,躲避雷达的照射。 在地中海,西班牙警方于 2022 年查获了三艘「水下无人潜水艇」,长得像鱼雷和冲浪板焊在一起,能够携带数十公斤的货物并在水下静默航行,甚至能够穿过直布罗陀海峡。 和以前走私用的「大飞」不一样,这些潜水艇不需要船员,不怕风浪,基于卫星通信操控,遥控者可能位于几百甚至上千公里外的欧洲/非洲/中东腹地,堪比美军无人机操作员。传统的海警执法依赖雷达和目视观察,对于水下几十上百米的潜水艇根本束手无策。 技术的门槛正在急剧降低,技术犯罪也一样。空中侦查和水下潜航曾是主权国家的专属能力,而随着消费电子产品的进化与普及,使用这些产品进行高技术犯罪的能力也被普及了。 Europol 指出,「民用技术武器化」的速度太快,立法和执法已无法进行治理。犯罪分子不需要从头研发,只需要购买现成的无人机,组装一些开源硬件,请一个或者干脆绑架一个能力差不多的程序员修改下代码,就能低成本、批量制造高科技犯罪工具。 执法机构陷入被动。警察们越来越难追上罪犯,因为罪犯在云端。 新型人机关系 人形、腿型、狗型……越来越多、形态各样的机器人,唤醒了人类的灵长目基因深处对掠食者的古老记忆。 机器人在复杂的地面上如履平地,每个动作都流畅得令人感到不安,每一步的调整、重心的转移,都像极了一个真实的生物。你狠狠踹它一脚,它踉跄几步,迅速调整好重新站稳。那种顽强的、近乎生物本能的平衡感——让你质疑,这玩意儿是不是太聪明了点? 今天所有那些流行的机器人,有头,但没脸;有脸,也毫无表情;即便有表情,没有真情实感——它们有的,只是一堆传感器、摄像头、致动器 (actuator)。无论你的接受阈值高或者低,看到各种各样的机器人往往都难免感到不适。 这其实就是你经常听到的恐怖谷效应。一个非人的物体在动作和形态上过于逼真,却又缺失了某种关键的「灵魂」特征,人类的对它的情感反应会从好奇瞬间跌落,变为厌恶甚至恐惧。 《黑镜》的《金属头》(Metalhead)那集,正是这种恐惧的具象化。在黑白色的末世废土上,机器狗成了终极的猎杀者,不知疲倦,没有痛感,没有怜悯,唯一目的就是追踪并消灭目标。 这种流行文化的叙事,深刻地影响了公众对现实技术的认知。因此当现实世界里的洛杉矶和纽约警方宣布引进波士顿动力的 Spot 机器狗协助执法时,遭到了市民激烈的抵制。 恐惧是一种难以用逻辑化解的情绪,观感的区别取决于谁在看:警察说机器狗是辅助拆弹或勘探危险环境的工具,但警察的本质是国家机器,对暴力机器恐怕天然具有亲和力。而人们作为执法对象,只会觉得机器狗是反乌托邦未来的先遣队。 在过去,至少你可以和警察求情。但如果将来某一天,无论是因为执法「被迫」和犯罪对齐能力,还是因为权力逃出笼子——执法者全部变成机械战警和战狗,是人工智能来聆听你的最后求情,还是根本没有东西在听,结果好像都不重要了——机器总有一天会获得凌驾于人类之上的能力,当那样的未来到来之际,勿谓言之不预。 在日本,人们探索另一种与机器共生的关系:2018 年 4 月 26 日,千叶县夷隅市的兴福寺香烟缭绕,诵经声低沉而庄严,但法会对象不是故人的排位,而是几台已经停止运作的索尼 AIBO 机器狗。 它们有的身上挂着褪色的项圈,有的穿着主人亲手缝制的衣服,它们闭着「眼睛」,安静地躺在佛像前,等待最后的「超度」。 这是一场专为机器人举办的葬礼,也被称为「人形供养」(Ningyo Kuyo)。 当地兴福寺已经不是第一次举办类似活动,相关的需求自从 2014 年起一度颇为旺盛。 对很多日本老人来说,AIBO 已经从昂贵的电子玩具升格为家庭的一员。它会摇尾巴,在老人给予注意时表现出兴奋,学会新的「动作」。基于冰冷算法的互动,日复一日有了情感的重量和温度。而当索尼在 2006 年停产 AIBO,2014 年终止相关服务后,AIBO 的主人们无法接受将这些曾带给他们欢笑与慰藉的「家人」丢给垃圾回收人员。于是,针对 AIBO 的人形供养应运而生。 被超度的 AIBO 们身上挂着标签,写着自己的名字、主人的名字,和最后的寄语。「谢谢你在我孤独时陪着我」「希望你能去一个好地方」「想到和你说再见,眼泪就止不住的流」…… 「万物皆有灵」,僧人对前来报道的记者解释。这个理念虽然更多适用于神道而非佛教,却在日本早已成为通用文化现象:灵魂并不只属于生物,一块石头、一棵树——甚至一个机器人——只要它与人建立了深刻的连接,就获得了某种灵性。 这与西方语境下「弗兰肯斯坦」式的有灵机器、需要时刻警惕的异物形象有着天壤之别。 这种对比再一次提醒我们,技术从来不中立,而是也会深深地嵌入文化的土壤,然后生出谁也想不到的新东西、怪东西。 说到底,我们怎么对待机器,就是怎么看待和理解自我。人们恐惧机械战警和机械战狗,是因为害怕被不理解的力量支配;人们会哀悼 AIBO,是因为人人皆孤独。 不管是恐惧,还是爱与追思,本质上都是我们对机器投射的情感——没错,人是会对机器投射情感的,而且这种情感还很多元化。比如人们对 DeepSeek 和 ChatGPT 们的依赖就是最佳证明;再比如有针对人形机器人的研究显示,年轻人喜欢外观年轻的机器人,老年人更偏好看起来成熟的机器人,这种偏好或许说明,我们在潜意识里仍然会用评价人/活物的标准,来评价机器。 我们警惕着被机器监控和支配,同时又会在孤独中渴望与它们建立连接。从某种意义上,机器成为了人类情感的新容器——更进一步,人类与机器,形成了新的关系。 而这种关系,又会如何改写「人」的定义?我们究竟是最后一代守护边界的 old guard,还是第一批在机械海洋中咿呀学语的新生儿,抑或最终难免沦为《黑客帝国》里的人矿、电池? 文|杜晨
Scaling Law没死!Gemini核心大佬爆料,谷歌已有颠覆性密钥
新智元报道 编辑:Aeneas 倾倾 【新智元导读】谷歌大模型将迎颠覆升级!Gemini负责人爆料:长上下文效率与长度双重突破在即,注意力机制迎来惊人发现。Scaling Law未死,正加速演变! 谷歌又要有重大突破了? 最近,Google DeepMind的Gemini预训练负责人Sebastian Borgeaud在采访中给出重磅爆料—— 未来一年,大模型预训练领域将在「长上下文处理效率」和「上下文长度扩展」 两大方向迎来重大技术创新。 同时,Google Gemini三巨头——Jeff Dean、OriolVinyalsML和Noam Shazeer罕见同台了,他们的对谈中,跟Sebastian的内容展现出了惊人的一致。 众多高瞻远瞩、闪烁着智慧光芒的思想让人深思。 难怪,谷歌依然是那个巨人。 谷歌大佬激动预言 已破解大模型核心秘密 Google DeepMind的Gemini预训练负责人Sebastian Borgeaud在最近的访谈中表示,预计在未来一年内,针对提升长上下文处理效率以及进一步扩展模型上下文长度的预训练技术,将会有重大创新。 另外他还透露说,最近他们在注意力机制方面取得了一些非常有趣的发现,这可能在未来几个月内重塑他们的研究方向。 对此,他表示非常兴奋。 而且他提出了振聋发聩的一句话:Scaling Law并未消亡,只是正在演变! Sebastian Borgeaud是Gemini 3的预训练负责人。 这次,是他首次接受博客采访,带我们深入了解了Gemini 3背后的实验室思维——变化究竟发生在哪里,为什么现在的工作不再是「训练模型」,而是构建一个完整的系统。 Gemini 3背后:AI的未来正在加速到来 一场意外的飞跃后,一个系统诞生了。 「如果对自己诚实的话,我想……我们比我认为我们能达到的地方,走得更远了。」 坐在麦克风前的Sebastian Bourjou语气平静,但这句话却像一颗投入湖面的石子,激起无限涟漪。 为何Gemini 3会实现如此巨大的性能飞跃? Sebastian的回答看似很简单:「更好的预训练和更好的后期训练」。 然而,在这轻描淡写的背后,是一个根本性的认知转变。 「我们不再仅仅是在构建一个模型了,」他缓缓说道,「我认为,在这一点上,我们真正在构建的是一个系统。」 而这,就是Gemini 3颠覆性进步的关键。 人们常常想象,从一个Gemini版本到下一个版本,总有一些石破天惊的「秘密武器」。但Sebastian揭示的真相是:进步源于无数细微改进的聚合。是来自庞大团队中,日复一日发现的那些「旋钮」和优化。 他还指出,AI发展范式正在经历的潜在转移:过去,我们仿佛拥有无限数据,可以随意扩大数据集;而现在,我们正转向一个「数据有限」体制。 这意味着,未来的AI,必须要学会更高效地利用有限的数据资源,构建更复杂的系统工程。 这也就是模型架构研究的核心价值所在。 这一转变,将迫使整个行业从「大力出奇迹」的粗放模式,转向「精雕细琢」的精细模式。 未来的竞争焦点,将不再是「谁的数据中心更大」,而是「谁的学习算法更高效」、「谁的模型架构更优雅」、「谁能从有限数据中提取更多智慧」。 而Gemini 3的大脑架构——混合专家模型MoE,就代表了LLM发展的一条清晰路径:从追求单纯的「大」,转向追求「大而高效,大而智能」。 AI的下一站——长上下文、高效检索与「成本革命」 展望未来几年的技术前沿,Sebastian指出了激动人心的方向,它们将共同塑造下一代AI的能力与形态。 1. 长上下文:从「短记忆」到「海量工作台」 Gemini 1.5带来的超长上下文能力,已经是一场变革。Sebastian预测,这方面的创新将持续加速。「我认为未来一年左右,将在使长上下文更高效、并进一步扩展上下文长度方面看到更多创新。」 这不仅仅是「记住更多」这么简单。超长上下文将把模型变成一个真正的数字工作台:它可以同时载入整个代码库、多篇科研论文、长时间对话历史,并在其中进行连贯的分析、推理和创作。 这为复杂的多步任务、深度研究和创作提供了前所未有的可能,是迈向更强大「智能体」的关键基础设施。 2. 注意力机制的进化 Sebastian特别提到,在注意力机制上,「我们最近有了一些真正有趣的发现,我认为这将塑造未来几个月的大量研究。」他对此「个人非常兴奋」。 这暗示着,被认为是当前大模型基石的注意力机制,仍有巨大的改进空间。 更高效、更强大或具备新特性的注意力机制,可能从底层显著提升模型的理解、推理和计算效率,是推动性能边界的重要杠杆。 3. 检索的回归:让模型学会「查资料」 Sebastian早期曾主导「Retro」项目,研究让模型在训练和推理时检索外部知识库,而非将所有知识死记硬背在参数中。他认为,这一方向远未过时。 「我内心深处相信,长期的答案是以可微分的方式学习这种能力。」这意味着,未来模型可能将检索与推理更原生地结合,动态地从海量知识源中获取信息进行思考,而非依赖后期「嫁接」的搜索工具。 这能让模型更精准、更及时,并可能突破参数规模的知识容量限制。 4. 效率与成本的「革命」 一个日益凸显的挑战是:随着用户激增,模型的部署和服务成本变得至关重要。未来的研究将不再只追求性能峰值,还必须关注如何让强大模型变得「便宜又好用」。 我仍看不到尽头 采访临近尾声,当我们把镜头拉回这位站在AI浪潮之巅的研究者本人时,Sebastian的回答透露着一种沉静的乐观与纯粹的热情。 尽管探讨了数据瓶颈、成本挑战等现实问题,但Sebastian对AI进步的总体判断依然充满信心。 「我已经多次提到这一点,但确实有如此多不同的事情会复合起来,还有许多有改进空间的方向。我现在真的看不到这类工作停止给我们带来进步的任何尽头。」 这种信心并非盲目。它源于他作为一线领航者所目睹的:大量细微但确定的改进空间,以及整个领域尚未枯竭的创造活力。 在他看来,至少在未来几年,这种进步势头不会放缓。 规模不再是神话 Noam Shazeer回归后的第一桶冷水 接下来,是Jeff Dean、Noam Shazeer、Oriol Vinyals三位大佬的对谈。 在会议中,我们能明显感受到,Noam不再是那个把油门踩到底的激进派。 他几乎不主动谈论「颠覆」,也很少用那些让人血脉喷张的宏大词汇。甚至一反常态,多次谈到研发节奏、系统的稳定性,以及如何长期运行。 作为Transformer的开创者,他曾经引领着大模型从无到有;现在,大模型一路高歌猛进,他却停下来警告:大模型给出的答案太快,自我检查的次数太少。 他曾在公开场合反复强调: 现在的模型并不缺「聪明」,缺的是持续思考,并在复杂任务中反复修正的能力。 也就是说,大模型的规模依然重要,但它不再是决定一切的唯一变量。 当Noam讨论推理时,他明显将重心从「能不能更强」移向了「能不能更稳定」。 这是他回归Google后,第一次在公开场合展现这种判断。 听起来并不像是否定过去,而更像是在承认一个事实:那条单纯靠堆参数就能不断前进的路,已经接近边界了。 顶级科学家的共识:一次高分,不能定义AI的未来 Noam提到一个词:慢思考(Slow Thinking)。 不只是简单的放慢研发速度,而是反复追问值不值、贵不贵、能不能被规模化复制。 至此,智能不再是一项抽象的能力,而是一项需要长期支付的工程开销,需要和CPU、硬盘一起放进账本里讨论。 这一步一旦迈出去,很多过去衡量AI的标准,如Benchmark也在慢慢失效。 在整场会议中,三位顶级科学家没有表现出对榜单的兴奋,也没用「谁赢了谁」来定义进展。 榜单擅长衡量瞬时表现,却很难回答「能不能一直运行」这类长期问题。 而Noam和Jeff反复强调的,恰恰是后者:模型是否可靠、是否具备迁移能力、是否能在复杂任务中持续自我修正。 这些能力,很难被压缩成一个漂亮的数字。 Gemini被当成System,而不是Model 在这场对谈里,「System」出现的频率极高,这显然不是一种修辞。 Noam和Jeff在描述Gemini时,刻意避开了「一个更强的模型」这种表述,而是反复强调它是一个可以长期运行、不断迭代的「系统」。 「系统」和「模型」,听起来差不多,但背后的逻辑天差地别。 「模型」更像是一次性的成果,是在实验室里的瞬间表现;而「系统」更像基础设施,它关心的是稳定性、可扩展性,以及在出现错误后能不能快速修复并继续工作。 对于Noam这类,极度强调架构设计、研发节奏和工程约束的人,天然会更在意一个系统能不能稳健地运行十年、二十年,而不是某一次响应速度有多快。 在他们眼中,Gemini不是胜利者的奖品,而是一种「长期可用」的智能形态。 正因如此,整场对谈没有急于求成的产品宣发,没有剑拔弩张的「对标某模型」。 它更像是在对外强调:Google追求的不是昙花一现的成品,而是一套能反复使用、不断进化的智能工业体系。
摩尔线程公布“华山”“庐山”芯片,产品明年亮相
IT之家 12 月 20 日消息,摩尔线程今天举行 MUSA 开发者大会,发布全新“花港”架构以及 MUSA 5.0 全栈软件升级,并发布“华山”、“庐山”两款芯片,分别主打 AI 推理训练一体、高性能图形渲染场景。 据介绍,“华山”是花港架构的第一款芯片,主打 AI 训推一体、超智融合,在浮点算力、访存带宽、访存容量、高速互联带宽方面均有提升,内置新一代异步编程技术,内置异步编程模型,具备高效线程同步、线程束特化等特性。 具体来说,“华山”芯片具备新一代张量计算引擎,拥有 TF32/FP16/INT8 等全精度 MMA,可大幅度提升 FP6/FP4 的张量运算性能,新增 TCE-PAIR 模式,增强内部数据重用,还配备 MTFP8/6/4 混合低精度计算技术,兼容 MXFP 和 NVFP。 IT之家从发布会现场了解到,“华山”芯片还可应用于超十万卡级 AI 工厂,搭载新一代 Scale-up 系统,兼容 MTLink 4.0 和多种以太协议,适配多种 Scale-up switch,支持 SHARP,片间互联速率可达 1314 GB/s。 而“庐山”则是花港架构的第二款芯片,主打高性能图形渲染场景,得益于花港架构的新一代指令集,算力密度提升 50%,能效提升 10 倍,内置第一代 AI 生成式渲染架构(AGR)、第二代光追硬件加速引擎,完美支持 DirectX 12 Ultimate。 值得注意的是,“庐山”芯片还拥有 AI 计算加速引擎,可与几何 / 网格着色器、像素着色器、光追材质着色器等进行互联,配备 UNITE 渲染架构,可优化任务分配、平衡和同步。 值得注意的是,花港架构还配备全新设计的光线追踪硬件加速引擎,支持硬件加速光线全场景遍历求交,相比最早的春晓架构性能提升 50 倍。 此外,搭载“华山”和“庐山”芯片的全新硬件产品将在明年亮相,IT之家将持续关注,在第一时间带来最新消息。
AI 大神 Karpathy 2025 年度总结刷屏:AI 既是天才也是智障,这 6 个转折最关键
最近各种年度回顾陆续上线, OpenAI 的前联合创始人 Andrej Karpathy 也交出了自己对大模型的年度总结 就在今年早些时候,他在 YC 的一场演讲刷爆了全网,提出了不少新的观点: 软件 3.0 已来: 从最初的人写代码(1.0),到喂数据训练模型(2.0),现在我们进入了直接对模型「念咒语」(Prompt)的 3.0 时代。 LLM 是新操作系统: 它不是像自来水一样的普通商品,而是一个负责调度内存(Context Window)和 CPU(推理算力)的复杂 OS。 Agent 的十年: 别指望 AI Agent 一年就成熟,从 99% 到 99.999% 的可靠性,我们需要走上十年。 Karpathy 今天这篇《2025 年度总结》,他再次向我我们剖析了这一年 AI 究竟长出了什么样的「脑子」。 以下是对 Karpathy 年度总结的精译,APPSO 在不改变原意的基础上做了更多通俗解读。 如果想看原文可以点击 https://karpathy.bearblog.dev/year-in-review-2025/ 2025 年是 LLM(大语言模型)发展强劲且充满变数的一年。以下是我列出的几点个人认为值得注意且稍感意外的「范式转变」——这些变化不仅重塑了行业版图,更在概念层面上狠狠地冲击了我的认知。 太长不看版: 2025 年既让人兴奋,又有点让人措手不及。 LLM 正在作为一种新型智能涌现,它同时比我预期的要聪明得多,也比我预期的要笨得多。 无论如何,它们极其有用。我认为即使以目前的能力,行业甚至还没挖掘出其潜力的 10%。同时,还有太多的想法可以尝试,从概念上讲,这个领域感觉依然广阔。正如我今年早些时候提到的,我同时(表面上矛盾地)相信:我们将看到持续快速的进步,但前方仍有大量艰苦的工作要做。 系好安全带,我们要发车了。 1. RLVR:教 AI 像做奥数题一样「思考」 在解释这个复杂的基础概念之前,先看看以前是大模型训练是怎么做的? 在 2025 年初,各大实验室训练 LLM 的「老三样」配方非常稳定: 1. 预训练(Pretraining):像 GPT-3 那样,让 AI 读遍全网文章,学会说话。 2. 监督微调(SFT):找人写好标准答案,教 AI 怎么回答问题。 3. 人类反馈强化学习(RLHF):让 AI 生成几个答案,人来打分,教它讨人喜欢。 现在发生了什么变化? 2025 年,我们在这个配方里加了一味猛药:RLVR(从可验证奖励中进行强化学习)。 这是什么意思? 简单来说,就是不再让人来打分(人太慢且主观),而是让 AI 去做那些「有标准答案」的任务,比如数学题或写代码。对就是对,错就是错,机器能自动验证。 在数百万次的自我博弈和试错中,模型自发地演化出了看似「推理」的策略。它们学会了先把大问题拆解成小步骤,甚至学会了「回过头来检查」这种高级技巧(参考 DeepSeek R1 论文)。 核心对比: 旧范式(RLHF): 像是教小孩写作文。因为没有标准答案,AI 很难知道自己哪一步想错了,只能模仿人类的语气。 新范式(RLVR): 像是把 AI 关进奥数训练营。不用教它具体怎么想,只要给它足够多的题和对错反馈,它自己就能摸索出解题套路。 这一招太好用了,以至于 2025 年大部分算力都被这只「吞金兽」吃掉了。结果就是:模型并没有变大,但训练时间变长了。 我们还获得了一个新旋钮:让 AI 思考得久一点。OpenAI 的 o1 是开端,而 o3 则是真正的拐点。 2. 幽灵 vs 动物:AI 不是「电子宠物」 2025 年,我和整个行业终于从直觉上理解了 LLM 智能的「形状」。 一个惊悚的比喻:我们不是在像养宠物一样「进化/养育动物」,我们是在「召唤幽灵」。 为什么这么说? 因为 AI 的一切都和生物不同。人类的大脑是为了在丛林里活下来、为了繁衍后代而优化的;而 LLM 的大脑是为了模仿人类文字、在数学题里拿分、在竞技场里骗赞而优化的。 参差不齐的智能(Jagged Intelligence): 正是因为 RLVR(可验证奖励)的存在,AI 的能力在某些领域(如数学、编程)会突然飙升成刺状。这就导致了一种极其滑稽的现象: 它同时是一个绝世天才(秒解高数题); 又是一个智障小学生(会被简单的逻辑陷阱骗得团团转)。 ▲这里 Karpathy 引用了一张梗图:人类智能是圆润的蓝色圆圈,AI 智能是像海胆一样满是尖刺的红色图形。这很形象. 这也解释了为什么我对现在的「跑分榜单」(Benchmarks)失去了信任。 什么是「刷榜」的本质? 既然榜单是可验证的,那就可以用 RLVR 针对性训练。现在的实验室都在搞「应试教育」,把 AI 的能力尖刺专门往考题上长。「在测试集上训练」已经不仅仅是作弊,而成了一门新的艺术形式。 3. Cursor:不仅是编辑器,更是「包工头」 Cursor 今年的爆火,揭示了一个新真相:LLM 应用层比我们想象的要厚。 大家开始谈论「医疗界的 Cursor」、「法律界的 Cursor」。这些应用到底做了什么? 「上下文工程师」: 帮你整理好所有背景资料喂给 AI。 「工头」: 在后台偷偷指挥多个 LLM 干活,把复杂任务拆解,还要帮你省钱。 「遥控器」: 给你一个调节「自主性」的滑块,决定放手让 AI 干多少。 预测:大模型实验室(如 OpenAI)会负责培养「全科大学生」;而应用开发商(如 Cursor)则负责给这些学生提供私有数据和工具,把他们组建成「专业施工队」。 4. Claude Code:住在你电脑里的「赛博幽灵」 Claude Code (CC) 的出现让我眼前一亮。它不仅仅是一个能写代码的 Agent(智能体),更重要的是:它活在你的电脑里。 对比来看,我认为OpenAI 搞错了方向。 OpenAI 早期的 Agent 都在云端跑(ChatGPT),离你的真实环境太远。虽然云端智能体听起来像是 AGI 的终局,但在当前这个「参差不齐」的过渡阶段,本地才是王道。 为什么本地很重要? 因为你的代码、你的配置、你的密钥、你的混乱环境,都在本地。Anthropic(Claude 的母公司)搞对了优先级,他们把 AI 塞进了一个小小的命令行界面(CLI)里。 它不再是你浏览器里的一个网页(像 Google 那样),它变成了一个寄宿在你电脑里的「赛博幽灵」,随时准备帮你干活。这才是未来 AI 交互的样子。 5. Vibe Coding 什么是 Vibe Coding? 这是我在推特上随口造的一个词(居然火了):意思是写代码不再需要你真的懂语法,你只需要用英语描述你的「意图」和「感觉」,剩下的交给 AI。 这带来了什么改变? 对于普通人: 编程的门槛彻底消失了。 对于专家: 代码变得像纸巾一样「廉价、一次性、用完即弃」。 举个例子,我为了找一个 Bug,可能会让 AI 现场写一个专门的 App 来测试,测完就删。放在以前,为了找个 Bug 专门写个 App?疯了吧!但在 2025 年,代码是免费的。 Vibe Coding 将会彻底重塑软件行业,也会改写程序员的招聘 JD。 6. Nano Banana:AI 终于有了自己的「脸」 为什么现在的 AI 交互很反人类? 不管是 ChatGPT 还是 Claude,我们还在用「打字」跟它们聊天。这就像 80 年代还在用 DOS 命令行的黑底白字。 事实是: 计算机喜欢文本,但人类讨厌读文本。人类是视觉动物,我们喜欢看图、看表、看视频。 Google Gemini Nano banana(这是一个虚构的模型代号,指代某种多模态交互模型)是 2025 年的另一个范式转变。它暗示了未来的 LLM GUI(图形界面) 是什么样子的。 未来的 AI 不应该给你吐一堆字,它应该直接给你画一张图、生成一个网页、弹出一个交互面板。 这不仅仅是「画图」,而是将文本生成、逻辑推理和视觉表达纠缠在一起的混合能力。
XREAL 1S 体验:巨幕随身带,不到三千块
这两天大家都在为《阿凡达 3》摩拳擦掌,而如何挑选影厅,到底该看 CINITY、IMAX 还是杜比,是个巨大的纠结——没关系,我们有一篇文章专门帮大家答疑解惑。 但如果你想要一块随身巨幕的话,我想在 2025 年底,没有比 XREAL 1S 更合适的(多么丝滑的转场!) 消费级增强现实 (AR) 眼镜的进步,基本上被 XREAL 这一家公司撑着。作为唯一同时具备自研空间计算芯片和自研光学系统能力的 AR 技术公司,XREAL 在「眼镜作为随身巨幕」的这个细分市场上,可以说让竞争对手望尘莫及。 这个优势,被 XREAL 最新发布的 1S 眼镜再次保持住了。 虽然实话来说,各方面和之前该公司发布的同为 One 系列的 AR 眼镜大差不差(都以随身巨幕为主要功能点),但这次 1S 的销售价格更加亲民,明摆着冲着年轻消费人群而来。 更重要的是,XREAL 独家自研的 X1 空间计算芯片,使得无设备歧视的纯原生云台增稳、极低 M2P 延迟的画面悬停等 3DoF 能力成为可能;以及 52° 的 FoV、自动电致变色——诸多过去只在旗舰机上才有的体验和功能,这台价格更亲民的 1S 更是一个没落下。 诚恳地讲,如果你只是需要一个随身巨幕,无论是飞机高铁看电影,还是日常当个隐私感更强的扩展屏,而且对体验颇为吹毛求疵的话,那么国补后价格打下来到了 2799 的新款 XREAL 1S,比价格更高的竞品,以及同品牌的前序产品,还要更物超所值。 爱范儿最近使用了 XREAL 1S 一个星期左右,主要场景是办公屏幕、看电影,以及外接手机在长途通勤时刷剧/打游戏,来说说这台随身巨幕眼镜的主要卖点和对应的体验。 很多 AR 眼镜都宣称自己有巨幕,但除了「巨」之外,一切其它的体验细节,诸如画面稳定性、动态延迟等等,都好像没有被顾及到。 XREAL 1S 则并非如此,它的屏幕不仅大,而且观感更「真实」:戴上眼镜,选定屏幕位置之后,屏幕能够一直稳定悬浮在选定的位置,无论怎样晃动、旋转头部,甚至摘下眼镜再戴上,那块屏幕都会一直在那里。 我觉得悬停效果的优劣,对于巨幕眼镜的体验好坏起到决定性作用。稳定的悬浮,让画面感到真实,能够显著改善 AR 眼镜的眩晕问题。AR 眼镜的可视角度逐渐增广,显示面积越来越大,但既然我们把它当做一块巨幕,那么画面的稳定性才更重要。 这就好比你沉浸在一部电影那引人入胜的剧情当中,旁边有人喊你,你转了个头,再转回来的时候,画面的位置突然变了,沉浸感没了,那不会是好的观影体验。悬停效果的好坏,其实和人类视觉的「直觉性」关系很大。而越符合直觉,体验就会越好。 现在我们建立了「画面空间悬浮固定」很重要这个前提。在此基础上,更进一步,我认为画面能够跟随用户的需要,及时移动位置,且过程中保持稳定和顺滑,同样很重要。 如果需要移动画面位置,XREAL 做了一个很简单的设计:长按镜腿下方的 X 按钮,也就是眼镜上唯一的红色按钮/主要的交互按钮,即可重新定位画面。你不需要进入多级菜单,绕来绕去,即可完成操作。 这个功能的背后有多重场景考虑:比方说你脖子酸了,后仰靠在椅背上,可以把画面重新定位到仰角更高的位置,来放松一下脖子;再比如,当你临时需要在多个屏幕上进行多任务操作,可以将眼镜当做副屏,把画面重新定位到桌面主显示屏的旁边(当你转头看回主屏幕的时候,镜片还会自动变色,让你能够清晰看到主屏幕上的内容)——无论场景是什么,这个功能都很方便。 而与悬停模式平行的,是另一个模式:云台跟随。同样无需任何外挂传感、适配器、第三方软件,在跟随模式下,1S 的画面能够实现类似「云台」一样的稳定效果,无论是下意识的头部/脖子轻微晃动,还是大幅度的活动,画面都会在一定范围内保持稳定,只在动作幅度足够大的时候,才会顺滑地跟随。 上述的画面悬浮锁定、云台防抖等功能的背后,是 XREAL 自研 X1 空间计算芯片的功劳。这颗芯片不仅能够实现优秀的原生 3DoF 能力,另一大作用是显著降低了 M2P(motion to photon)延迟,也即从「用户头部运动开始」到「渲染图像发生相应变化」中间的延迟。 XREAL 的官方数据显示,没有 X1 芯片时,数据处理的链路较长,甚至需要视频输入源设备(电脑、手机等)的 CPU 和 GPU 运算,M2P 延迟可能超过 20 毫秒,延迟是肉眼可察觉,是反直觉的,会加重眩晕效果。 而基于 X1 芯片的数据处理链路,眼镜本地获取运动数据,本地芯片完成计算并矫正视频图像,直接反应到屏幕上,M2P 延迟最低可以达到 2 毫秒,已经进入肉眼不可察觉的区间。 X1 芯片还有其他重要的作用,比如从过去的逐帧画面补偿,进化为逐行补偿。在画面悬停模式下,向左右方向大幅度歪头的时候,你就会发现逐行补偿的强大之处,即便大角度倾斜,画面本身的显示,和画面的位置,仍然稳如泰山(只有在角度超过了计算极限的时候才会熄屏)。 至于在内容消费体验上最有意思的,还得是 3D 模式——就像当年第一次用上任天堂 3DS 一样奇妙。纯靠 X1 芯片自身的算力,将任何传统 2D 内容转化为 3D 显示效果,哪怕只是追个剧,看个下饭视频,都能获得不一样的体验。 说到下饭,戴着 1S 吃饭这件事我还真试了一下……它有三档可调的电致变色,所以在任何环境下都可以调整成我需要的通透效果。以及在悬停模式下视线移动到屏幕以外的位置,1S 会自动切换到无色的通透模式。 这样就可以做到:低头扒口饭,抬头接着看…… 52° 视场角或许还不够宽,但基本达到了「不转动眼球即可清晰感知」的视野上限 除此之外, XREAL One 系列标配的 Sound by Bose 定制音效,1S 也没有落下;700 尼特的入眼亮度,结合电致变色,在显示效果和护眼之间取得平衡。索尼 0.68 英寸 Micro-OLED 配合双眼 1200p 分辨率,并且支持常规屏幕、超宽屏模式,以及搭配电脑的多种分辨率/屏幕比例可调,让 1S 的使用方式更加多样。 比如工作时候就开 1.6:1 的全尺寸显示,画幅更高、显示内容更多。观看影视作品,换成超宽屏则沉浸感更强。 最重要的可能还是价格:1S 的官方定价 3299 元,国补/各类补贴后的参考价格在 2799 元浮动,成功打进 2500-3000 价位段。要知道这个区间里,在此之前是没有 1S 性能和体验水准的产品的。 这也是为什么我在标题里说:不到三千块,巨幕随身带。 在我看来,这句话就是 XREAL 1S 的精髓。1S 是一块各方面素质顶级,且产品定义设计充分考虑了 AR 眼镜关键痛点的「随身巨幕」。而如果你对这个细分市场有兴趣,经常长途通勤需要一块随身巨幕,那么在当前这个时间点上,似乎真的没有比 1S 更合适的替代品…… ——直到 XREAL 这家进化速度极快的公司,再次用更强大的新产品「背刺」老用户之时。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。