行业分类:
加载中...
头条分类:
加载中...
对话Gemini负责人:下一代AGI的三条主线,世界模型负责理解,Agent负责行动,Memory负责进化
这期对话的嘉宾是 Oriol Vinyals,Google DeepMind 核心研究者,也是 Gemini 的联合负责人之一。他和 Noam Shazeer、Jeff Dean 一起,站在 Google 最重要模型工程的中心位置。 如果说 Google I/O 是一次产品层面的集中亮相,那么这场访谈更像是一次模型路线图的“幕后解剖”。Oriol 讨论的不是某个功能怎么上线,而是 Gemini 背后真正押注的几条技术主线:多模态会不会迎来自己的 GPT 时刻,World Model 如何从视频生成走向物理模拟,Agent 能不能从工具调用进化到长期行动,Memory 是否会成为 Reasoning 之后的新范式,以及 Post Training 和 RL 下一步到底该往哪里走。 1. 世界模型不是“更会生成视频”,而是让模型真正理解世界。Oriol 认为,语言模型已经把人类写下来的知识吃得差不多了,但图像和视频里还藏着另一种知识。AI 到现在还没有迎来真正的“图像和视频 GPT 时刻”。 2. Omni 的关键是它开始像一个可交互的世界渲染器。用户可以用语言改变视频里的动作、场景和状态,这意味着视频模型正在从内容工具,走向自动驾驶、机器人和仿真系统的底层能力。 3. 机器人最难是会“碰东西”。抓取、移动、施力、触觉反馈,这些人类觉得理所当然的动作,对模型来说仍然极难。World Model 要真正进入机器人,必须先补上物理交互精度这一课。 4. Agent 的下一步是让模型自己搭系统。今天的 Agent 还依赖人类写好的 scaffolding、多 Agent 分工和任务流程。Oriol 更激进的判断是,未来模型可能会根据任务自动生成自己的工具链和子 Agent。 5. Memory 可能是 Reasoning 之后的新范式。模型不能只在一次对话里聪明,它还要记得用户、项目、上下文和过去的经验。Oriol 更看好“个人知识库/文件系统式记忆”,而不是给每个用户训练一套不同权重。 6. Post Training 的真正目标,不是把模型训练成数学冠军或编程冠军,而是训练出元能力。他最关心的是模型能否学习新规则、适应新环境、从经验中变强。这比某个垂直任务的分数更接近智能本身。 7. 对创业公司来说,护城河是数据、评估和领域知识库。Oriol 的判断是,如果没有资源训练基础模型,创业公司依然可以通过高质量 eval、专有数据和深度场景理解,建立自己的位置。 8. AGI 的门槛正在被不断抬高。Oriol 直言,如果把今天的模型放回七年前,很多人可能已经会说 AGI 到了。但站在今天看,它还缺少最关键的一块:从真实经验中持续学习。 世界模型的多模态学习与纯粹迁移的挑战 Jacob Effron:Oriol Vinyals是Gemini的联合负责人,与Noam Shazeer和Jeff Dean一起。他在AI领域有着非凡的职业生涯,在过去十年里引领了许多Deep Learning的突破。在Google I/O之后能和他坐下来聊聊,真的非常有趣。如果你一直在关注Google I/O,他们基本上在AI的许多有趣领域都推出了一系列产品。所以Oriol和我都聊到了。我们讨论了Multimodal Models进一步进展需要什么,以及如何让这些World Models真正可用。我们讨论了Memory的增长和Memory的重要性,以及未来几年这些进展将如何呈现Reasoning的形态,还有Oriol认为的前进道路。我们还探讨了Scaffolding的现状,开发者们正在构建什么,以及Oriol认为什么会持续下去。能够把创始人和投资者们正在思考的所有顶级问题,一股脑儿抛给Oriol,这真的太有趣了。所以我觉得大家会非常喜欢这场对话。话不多说,有请他——Oriol,非常感谢你来上播客。 Oriol Vinyals:是的,很高兴来到这里,Jacob。 Jacob Effron:非常高兴能请到你。在I/O大会后的第二天,我知道一切都很忙碌,但我对这次采访一直非常期待,因为你是当今最直接塑造模型前沿的人之一。你在Google的工作,显然在昨天I/O发布的那些东西里,几乎触及了人们目前在该领域思考的所有主题,涵盖了这些产品和模型的发展方向。所以我觉得,我们今天的目标就是聊聊这些公告背后的研究,这一切将走向何方,比如RL和Post Training的未来路径,以及你对于整个领域的看法。我想先从World Models开始,因为我认为那部分是昨天发布中非常令人印象深刻的一环,同时也是Google与业内其他公司相当不同的地方。所以,你们昨天在Omni中显然交付了这个极其令人惊叹的World Model。而且,我记得Demis曾多次谈到将World Models视为通往AGI的一条路径。这很有趣,对吧?其他实验室似乎更专注于代码和实现Recursive Self-Improvement。所以我想知道,这种描述是否公允,以及你为什么认为你和你的团队以及Google会有点独特地聚焦在这个World Model领域。 Oriol Vinyals:首先,我想编码或者说自我改进的这个角度,它是在一个有点不同的层面上。你当然可以也相信,这些模型能够重新编程和改进它们自己。而且这也是我目前实际上相当积极在做的事情。但接下来,它们要改进的那个模型对象,无论是Multimodal且更接近的,还是我们所说的World Model,甚至如何定义它都有点抽象。自从一开始,远在Gemini项目启动之前,我们就不仅在做语言,还在做理解视觉世界,以及在视觉、音频、视频等上下文中对词语进行联合建模。所以我认为,这一部分一直是Gemini以及更早我们研究的核心。而我认为也许描述它的一种方式是,语言显然包含了我们关于世界所书写的海量集体信息。这显然带来了巨大的回报,在某种程度上,我们已经把所有被书写下来的知识,以及正在被书写下来的知识,蒸馏到了这些权重之中。 Jacob Effron:我们把它全都放到互联网上了,这确实很方便,对吧。 Oriol Vinyals:没错。而且还有用户带来的效应,对吧?这显然也存在飞轮效应,但与此同时,视频和图像中蕴含着大量的知识。我要说的是,这种情况有点已经发生了,但只是悄然发生。我认为可能会有一个重大时刻,那就是你将如何提取那些如果你看过所有视频和图像就能获得的知识,这些视频和图像我们当然已经在训练混合数据中使用了。但这种知识能否以某种方式为语言部分增加价值和效率呢?我认为我们已经看到了一种建设性的,比如说,Transfer Learning,从一个模态到另一个模态。我们看到了这一点,也看到了泛化能力。但可能我称之为视频和图像的GPT时刻,我不太确定我们是否已经看到了。 Jacob Effron:对于视频和图像的那个GPT时刻可能是什么,你有什么想法吗?或者说,也许你有这种直觉,觉得它尚未达到。 Oriol Vinyals:是的,目前我们训练所有的模态,将它们混合起来,并不断改进训练配方。所以Omni是展示这一进展的好例子,它不仅能够输入视频和图像,我们看到了在长上下文理解等方面的惊人能力,而且我们现在还能够输出视频,同时通过语言以非常自然的方式与之交互、编辑、将各种模态结合起来,这方式感觉几乎、几乎是魔幻般的,对吧?所以这种进步绝对存在。 但也许,其中一个Deep Learning的梦想,而且可能是在Large Language Models出现之前就有的原始梦想是:嘿,我能只训练所有的图像数据而不使用文本吗?这也许是一个艰巨的挑战,但仍然能设法从那个模态或一组模态以及海量数据中提取出所有的意义和细微差别。我们能否训练所有曾制作出的视频和图像,并达到语言模型使用语言所达到的相同理解水平,尽管可能有点肤浅,且缺少因果联系——比如Demis经常谈到的那种。那个时刻我见过了吗?大概没有,而且我们很可能拥有最先进的,或者最先进之一,能混合一切的Multimodal配方。但我认为,这种纯粹的迁移是过去十多年Machine Learning的核心探索之一。 Jacob Effron:我的意思是,在你能谈的范围内我很好奇,你能给我们的听众一些背景,关于在这方面的关键问题还有哪些需要解决,或者当你在思考你正在努力解决以进一步推进这方面的问题类型时? Oriol Vinyals:描述解决方案空间是困难的,但有一个想法经常被用到,你可以想象从所有视频数据中观察或学习,然后以某种方式推导出,比如说,万有引力定律。就像,你如何仅凭图像来精确描述世界是如何运作。所以问题在于,将语言,或者我们有时所称的这些概念,与你在图像中看到的东西联系起来,而没有显式的语言联系,是相当棘手的,所以你最终会尝试去显式地创建数据集,在图像和视频与某些语言(比如可能是标签或描述等)之间存在某种相关性或联系。但是当然,现在你可以使用的数据量要少得多,因为我们并没有为外面的每一份媒体清晰地描述和转录。所以我认为,这就是以最纯粹的形式提取那些概念,而不仅仅是我们与词语关联的某种语言,这将会非常强大。 而且,在离散表示、Representation Learning方面有很多早期研究。我的意思是,这可能是,我会说,还处于相当早期的研究阶段的事情之一。所以这不是我们可能可以规模化的事情,但我认为这是其中一个,我不确定它是否必要。我的意思是,不管我们是否同意这一点,是另一个问题,但如果它得以解锁,那将是巨大的。 从Omni到机器人的模型落地 Jacob Effron:你提到了"World Model"这个词,以及它被到处使用的情况,显然Omni是作为一个World Model来定位的。我很好奇,你是如何看待这种分类的?毕竟,你们显然已经有好一阵子非常出色的视频模型了,对吧?是什么让Omni成为了一个World Model,它和你们一直在研发的那一代视频模型又有什么不同? Oriol Vinyals:我想World Model的一个纯粹方面会是Representation Learning。你可以想象,我们接收这些模态,比如视频(它们是图像序列,或者甚至只是图像),然后将其压缩为一组概念,以及这些概念中包含的运动、物体等等,这差不多就叫做Representation Learning。它以非常紧凑的方式对世界进行建模,压缩掉了那些可能不相关的东西。 那可能是一种更经典的定义,但也可能并不是我们在与Omni交互时所意指、所见或所感受到的全部。你在那里看到的,更多是你能真正改变视频的行为方式,或者通过你要求进行动画处理的一张初始图片,来生成各种类型的视频。你会明确要求所有的动作,甚至是像"向前移动"这样的Action,并且你可以看到它被精确地模拟出来。所以这更像是World Model本身充当了一个世界的渲染器,你可以通过语言真正地改变它。现在有了这个对象,除了作为一个很酷的产品可以让我们非常丰富地生成各种不同的动作或场景等等之外,它还可能有意义地增加一个模拟的维度,这能让我们在真实世界中行动之前,进行预测之类的事情。当然,对于这种3D或World Models,显而易见的应用就是自动驾驶汽车或机器人技术。 Jacob Effron:这似乎与机器人技术密切相关。感觉好像,每个人仍在试图找出模拟数据、各种形式的遥操作数据和第一人称视频数据之间的正确数据配比。但看起来,随着这些模拟不断改进,将它加入到数据混合中变得越来越有吸引力。我很好奇,这项工作是会与你们正在进行的更广泛的机器人研究工作直接交汇吗?以及,你如何看待为了将机器人动作附加到这类模型上,真正需要的是什么? Oriol Vinyals:这里也存在一种美妙的联系。当然,如果我们获取更多由机器人采集的数据(尽管这显然更昂贵或更耗时,但我们肯定正在投资于此),这些数据可以进入模型,增强World Model本身的能力。而另一个方向,也许就是你刚才问的,就是现在我们可以模拟,可以创建大量不同的场景,让这些机器人或其他1D、3D实体能在其中进行训练,而无需承担物理世界的成本和时间延迟,对吧?为了让后者更好地运作,这仍然是一个非常开放的问题。还有各种关于迁移的问题,但随着这些模型变得越来越强大,显然会存在一个临界点,事情开始变得值得去做。我们可能会看到机器人技术的加速。实际上,在硬件领域,我们确实看到了大量的投资。事情正在加速并取得进展。 但为了让World Models变得有用,至少以我有限的知识来看(不过我当然能够与这些系统交互并观察它们),即使是抓取一个物体所需要的精确度——这对人类来说理所当然——比如视觉、它在你手中的确切感觉(这是一种我们目前显然甚至都没有数据的模态),然后是精确的力,物体会如何移动,这些都需要非常、非常准确。这就是差距所在。也许还需要一些创造力和研究,以及多年来在机器人领域的大量投资。但这是有希望的。在某种程度上,或许不是在精确的运动控制层面,而是在规划和总体层面,我们将开始看到这些模型如何加速我们在机器人探索上的进展。 Jacob Effron:这些模型一个巨大的部分是,通过消费大量视频数据,内隐地学习物理。我记得你提到重力是人们寻找的一个典型例子。你离这些模型这么近,有没有什么直觉,觉得这何时会成为World Models内部一个已经解决了的问题? Oriol Vinyals:是的,这是个好问题。实际上,你让我想到了评估。比如,如果你训练了一个非常好的模型,你会如何评估它?你可以想象,一旦你加入了语言,突然间那些知识就以某种方式存在于其中了。如果你问一些关于重力的基本问题,你当然可以通过在网上读过相关解释等等来回答它们。所以你需要以某种方式,将重力这个概念(它可能存在于World Model中,也可能不存在)与解码出的解释联系起来,起初可能是一些基础的解释,之后甚至可能推导出方程式之类。你如何能构建一个评估?据我所知,我认为我们还没有从这个角度思考过这个问题。 在无监督机器翻译方面确实有很多早期工作,你会尝试翻译成一种在训练中从未见过的语言,并且你可以对齐表示。所以可能有一些想法,你有一个可以说出语言的语言模型,或者你可以从中解码。你有一个World Model,它会创造这种概念层面的理解,然后将两者对齐。 你知道,有一些论文,我是说这些都是比较老的论文了。我记得有一篇是Stefan Gauss等人的,是2014年的。然后你可以尝试开始解码那个,将其转化为一个评估似乎就成了很简单的一步。但同样,这些评估方法需要从应用的角度来看有意义。所以最终,你也可以说:我们有一个World Model,我们能从它的表示中解码出,或者,比如说,在一个复杂系统中引发运动吗?那将是另一种间接的评估。所以有很多想法,但评估是如此重要。 Agent进化与模型自编写 Jacob Effron:好了,换到你们昨天发布的其他东西上。你肯定想聊聊Agent,你们在I/O大会上发布了一些非常有趣的消费者Agent。我觉得这特别有意思,因为至少从外部来看,这像是你们在2024年通过Project Mariner和一些其他Compute Use工作所探索的东西的一个真正改进版。所以确实感觉在能力上有了一个真正的阶跃变化。因此,我很想听听你谈谈促成这种变化的研究突破,以及人们应该如何思考这些Agent现在能做什么、不能做什么。 Oriol Vinyals:我们知道那将是一个非常重要的模态——Actions,对吧?在一个数字计算机上执行动作并改变其状态。然后我认为,随着你不断演进并使模型变得更好,你会开始意识到,先把模型做到非常好,然后专注于系统,围绕模型构建一个系统,再尽可能地联合优化系统和模型,如此往复。谈到是什么创造了能力的增量或提升,这主要是关于专注,关于安排发布顺序。在某种意义上,模型的能力也需要达到一定的水平,然后你才能去设想下一个阶段的能力,设想模型接下来可能做什么。 Jacob Effron:我想关于消费者足迹,有一件非常有趣的事情就是,人们想用它处理的事情范围实在太广了。所以,我想知道,从目前来看,以及你如何看待它随时间演变,模型加系统的那部分工作,相对于人们想解决的问题的子类别来说,它有多定制化?还是说,它是极其通用的,就像你只是在优化一个系统与模型的组合,这个组合能处理你在Spark中几乎任何想做的事情? Oriol Vinyals:总是有一个顺序,先专注于某个可控的、你已经知道非常有用的东西。如果你看看Spark,它能接触到为协助你安排和规划一天,甚至思考你该如何处理不同问题所需的信息,因为它拥有如此丰富的Context。所以,围绕你非常关心的东西,略微收窄系统构建范围,是有用的。但如果你回顾Machine Learning和Deep Learning的历史,我们总是从通用组件开始构建。并且存在一个重大假设,这又有点回到了World Model的观点。 实际上,在所有数据上联合训练,肯定比仅仅狭隘地专注于单一领域要好。所以,即使从建模的角度看,这一点也非常明确。但即便从系统的角度看,一个相当通用的系统,根据你与之交互的方式,你当然可以把它放进这样的空间里:这个用户想做这件事,但我拥有所有这些能力。让我在训练时就直接搞清楚该用哪些,而不是专门为它去构建,而是构建通用的东西。然后,专业化通过一层智能发生,也就是模型的智能和系统的通用性。我认为这一点已经相当明显了。然后有时在实践中,对其进行限制或使其更高效,仍然有意义,将专用变为通用。 我们已经看到这种情况在持续发生,甚至从架构上就是如此,对吧?Transformer最初是一个机器翻译神经网络,现在它无所不包,从Omni到控制你的电脑。所以,我认为这是我期待的一步。 Jacob Effron:这些年来你一直公开谈论“苦涩的教训”。我很好奇,当你放眼整个领域时,你是否看到有些地方目前并没有遵循它,或者,基本上,当你观察时,你是否看到一些结构或巧妙的Scaffolding,你认为规模最终会把它们冲刷掉。 Oriol Vinyals:是的,有一个我感兴趣的领域,已有一些相关研究发表,那就是,我们现在通过编码在模型周围构建的、有时是复杂的Scaffolding系统,比如多Agent、子Agent、委托、超长时间运行。那个系统本身是一段代码,最终模型自己可以实时地编写它你可以。想象,不是只有一个非常通用的系统,而是可能根本没有系统,只有模型能够根据它被要求做的事情,去编写那些系统。 Jacob Effron:就像是为了一组问题,生成几乎最高Token效率、最高质量输出的子Agent集合和它周围的一切。 Oriol Vinyals:是的,正是如此。我的意思是,我们在过去一年半左右看到的一种范式转变,当然就是能够在Token空间中进行长时间推理的Reasoning模型。但当然,最终变得更加重要的是,你应该推理多久?你应该基于用户可能提出的问题的复杂性,来增加那层智能吗?这将使它更高效。所以我认为,围绕这些系统所做的工作,将会有一个层面,我不确定是完全从头编写合适,还是某种自动化机制,会聪明地为正确的任务创建正确的Scaffolding。 Jacob Effron:在Agent方面,我认为有很多人都在摆弄和试验,构建这种长时间运行的Agent。而且我认为,很明显,他们在试图让这些Agent在上百个步骤中保持稳定时,会遇到各种各样的问题。你如何看待要达到进一步的通用可靠性,需要些什么? Oriol Vinyals:我认为回答这些问题最显而易见的方式,就是改进模型周围的Scaffolding,以及模型本身。如果你想想如何训练一个神经网络,它是在某个任务分布或模态分布上进行训练的,或者学习如何将不同的词连接到视频等等,对吧?所有这些都是关于你如何训练、预训练或后训练这些权重。所以,如果你想,有一种新的工作类型或模态,需要这些超长时间运行的系统,需要从这些极长的上下文中学习,而我们一直在创新并推动这一点,1.5版本就是我们长上下文的突破。那么,模型显然也会迎头赶上,去满足用户和那些未来主义的使用场景。这有点像研究者的挑战,对吧?预测什么是可能的,然后不仅专注于构建一个对此鲁棒的系统,还要考虑当你把所有的上下文和所有疯狂的操作都塞进去时,如何让权重变得不那么不开心或者更开心?而不是仅仅寄希望于从诱导该行为的Prompt中泛化。 记忆与持续学习 Jacob Effron:每个人都在试图弄明白的一个模式是Memory,对吧?以及如何在这些Agent之间解决这个问题。对于这个问题最终会在哪里得到解决,你有什么想法吗? Oriol Vinyals:是的,从很早之前开始我就认为Memory非常迷人。你可以这样想,我认为最初我们这样描述它,这或许源于我的个人偏见,因为我曾研究过大脑中的Memory系统并取得了博士学位。关于Memory有几种思考方式,但我喜欢的一种更简单的方式是:工作Memory,即那些由于我们正在做的事情或讨论的内容而非常鲜活的事物;然后是所谓的情景Memory,那是一种你可以访问的检索系统,它可能不那么精确,上下文更长,或者可能拥有你或我完整关心的、我们积累的所有体验的全部上下文。 现在,Memory的层次不止两个,但这样按层次思考很有用。计算机也是如此,有L1、L2缓存等。所以,谈到模型,我认为工作Memory,因为有了Transformer等等,我们有了一个非常强大的机制来使用那种Memory,可以动用数百、数千、数百万个Token来修改那个Memory,然后用它做出惊人的事情,证明复杂的、金牌级别的数学问题等等。而我认为我正看到许多动能的是,如何巩固那些发生在之前不同交互中、或者在某个可能比工作Memory所能记住的还要长的交互过程中发生的事情,我们如何存储那些知识?通过不同的实验。 我认为,其他的,比如现在标准叫法是我们称为技能的东西,但更通用的是,我们确实可以访问一个Memory系统,因为它是一个Agent,那就是计算机本身。所以你可以开始思考,将你的想法写入文件,构造成目录或文件夹,并在你与同一个用户进行多次会话或在一个非常非常长的会话中这样做。目前这种机制相当不错。但话说回来,我不认为模型的权重已经赶上了这一点。 把这种知识库添加到一个文件系统中,或者任何你可以用基本的检索机制修改和读取的存储格式中,这是否是添加?这已经非常强大了。然而,我认为还有很多东西有待开发。我想,我们很多人都称这种形式为某种形式的Continual Learning。但我希望起作用的机制,它显然会变得越来越好,是这种文件系统式的、非参数化的形式。 比起将这些记忆整合回权重中,这种方式要更方便一些。因为即使从实际的角度来看,我们试图大规模地提供同一个模型。所以,如果必须为不同用户提供带有不同记忆的模型,那将会是非常痛苦的事情。因此,即使从实际角度出发,我认为我们将会看到更好的评估方法和这些模型在交互中积累知识的方式。我认为这可能也是一种范式转变,某种程度上类似于我们在大约一年半前看到Reasoning出现时的情况。 Jacob Effron:这是否意味着每个人都有模型,然后它们拥有各自独特的文件系统,还是说你觉得随着时间的推移,人们拥有的模型,其权重会因其做过的事情而有所不同。 Oriol Vinyals:正如我所说,权重不同会很麻烦。 Jacob Effron:很难部署? Oriol Vinyals:是的,确实会很麻烦。如果那是最好的方式,那我们总会找到办法的。去设计专门的硬件,当然我们也在硬件设计上投入了大量资金,可以说,那会让你拥有更个人化的权重。但至少,你当然会拥有可能是你个人的专属知识库。你甚至在过去几年里,已经在LLM领域看到了许多这方面的例子。然后或许还有另一层知识,它对于给定模型的所有用户来说更通用,你可以想象能够访问它,并在不触碰权重的情况下丰富或增强模型能力。这非常有趣。而且,能做到那一步就太棒了。 Jacob Effron:我感觉Continual Learning一直是热门话题,人人都在谈论它。你已经看到一些有趣的例子,一些知名人士从OpenAI或其他地方出来创业,说,嘿,我相信你可以继续扩展我们现在做的事情。我认为,没人否认那些Scaling Laws仍然存在,但他们在说,感觉你需要一种几乎全新的研究赌注,才能实现真正的Continual Learning。而且,也许在那种持续改进核心LLM的路径之外去追求它,是有道理的。我很好奇你如何看待这整个动态?还有,你对此的反思。 Oriol Vinyals:我很早就加入了Google Brain,然后在2016年转到了DeepMind。此刻,我认为这里存在着挑战和机遇。你显然想去研究一些研究问题,这些问题可能不契合“未来三个月内就要把它放进下一次训练运行”的节奏,但同时,这也不能和LLM的发展方向完全脱节。 我们正在改进Gemini。看着Flash在仅仅几个月前还表现不佳,现在却超越了,这很令人着迷。而且这种情况持续发生,保持在能力的最前沿,这可能会启用或禁用某些研究,同时也为研究提供了保护。当然,这不是以年为单位的事,事情发展很快。但将这两者结合起来,正是构建这些组织的魔力所在。当然,我们所有人都有不同的目标,需要想办法弥合它们并识别机会。这需要一点功力,对吧?不能什么都做,组织太大了,但要有一些直觉,然后能够有时急切地把这些想法拉进来,因为感觉就该这么做。所以,这实际上定义了那个层面的组织。 从研究的角度看,我可以看到,从机器人技术的投资,到LLM的巅峰,再到那些要么已成功、要么将会成功的研究。但这很有挑战性,资源是受限的,所以这是一个有趣的权衡,并非总能做对。但我认为,这是一个引人入胜的、不同角度的研究,不仅仅是那个能发下一篇论文或进入下一个模型的想法,而实际上是如何组织这整个组织。这非常吸引人。 Jacob Effron:我的意思是,对于像你这样角色的人来说,这感觉像是最有趣的问题之一,你很难不对如今用这些模型能推进的如此多的事情感到兴奋。而且显然有太多事情在发生。我感觉,即使像OpenAI这样的组织,他们也在“我们应该去做,AI这边有太多唾手可得的成果”和现在这种更聚焦的时刻之间摇摆,现在更像是,天哪,我们必须真正搞定代码并赶上Claude的代码能力。我想知道,你如何看待这种权衡:是专注于一件事,让所有人都朝着那个方向划,还是可能面向更广泛、每个方向都超级有趣的领域。 Oriol Vinyals:你知道,Google因几个原因处在一个独特的位置。首先,我们确实在Gemini上拥有很广的覆盖面,目前它实际上驱动着一切,但我们有优势。组织中其他部门的人们已经完全接受了LLM时代,所以某种程度上,他们拿着模型,然后可能会去做些事情。但如果你觉得那不是推进前沿能力的下一步,那么,你可以放心,有一个非常优秀的团队会把模型带到它该去的地方。 同时,我们从硬件采购中获得稳定性,显然,鉴于我们的营收流等等高度垂直整合,我们也有资本投入。所以你可能可以在某些研究领域更进一步地冒险,当然这需要品味。所以你拥有这种状态,它不是聚焦,但因其组织方式而可规模化。然后你仍然可以投资于创新,这一直是我们所做一切的核心。如果我看看我曾待过的两个组织,Brain和DeepMind,现在合称Google DeepMind——鉴于我显然在不同时期都在两边待过,我很欣赏这个名字——那么我认为,我们的DNA里就有着持续创新的基因。但与此同时,我认为Gemini创造了一种聚焦和统一的力量,这非常了不起。 我和Jeff已相识多年,曾一起纯粹为了乐趣去旅行,这非常有帮助。所以我认为那段时光非常特别。而且我认为,那个中心,也就是核心建模工作,非常专注于前沿能力,然后拥有这些输入和输出,这是一种相当合理的方式,既能保持专注,又能利用一些探索,而这些探索可能仍然需要,也可能不需要。我们是否需要World Models?如果我们能把它做出来,那肯定需要。如果做不出来,也许也没关系,对吧?但适当下注总归是好的。 RL泛化、元能力与AGI的未来 Jacob Effron:说回到模型方面。或许换个话题,聊聊Gemini模型本身,以及未来的发展路径。我记得你之前说过,Post Training基本上还是一片完全的“绿地”。我觉得我们已经看到,Post Training和RL在编码和数学领域取得了惊人的进步。就在我们录制这期播客的几个小时前,刚有一个新的数学问题被解决。大家都在试图弄清楚的是下一批RL会真正起飞的领域有哪些特征,我很好奇你的直觉。感觉在编码和数学方面,我们正处在一个疯狂的指数增长路径上,很想听听你对哪些其他领域是良好适配的直觉。 Oriol Vinyals:是的,这是个好问题。我必须说,这些模型在很多事情上已经非常出色了,所以很难武断地说“这个完全不行”,对吧?几乎通过Prompt,再加上一点巧妙的Prompt,也许构建正确的系统,很多惊人的事情,至少在我称之为数字世界里的“数字AGI”方面,已经非常令人印象深刻。所以我认为,当我说Post Training是一片绿地时,与其说是关于某种能力,感觉离达到“这相当智能、相当先进”的可接受水平还很远,不如说更多是机械地观察那些利用了模仿学习或预训练加后训练的其他工作,以及在计算投入上,预训练相比今天模型所使用的相对较少的后训练投入,差距有多大。 原因其实很清晰,但不确定是否容易解决。事实是,即使你取一个非常狭窄的领域,比如用强化学习玩围棋游戏。你现在有一个可以下棋的系统。它下了几步棋,游戏进行了几步之后,那个情境、那盘棋局就变得独一无二了。我的意思是,你之前从未见过那个特定的盘面。所以,环境的复杂性随着你的对弈,使得生成训练数据几乎是无限且免费的。就像,你下了几步,现在就处于一个新局面。因此你可以从中学习。你玩得越多,花在RL算法上的时间越多,获得的知识就越多。这就是我们在游戏强化学习时代看到的情况。 而在LLM中,我们是数据受限的,而无限复杂性的源头是什么?这一点还不那么清楚。有一些想法,但我认为,破解那个配方可能会是件大事,至少从算法的美感上来说是如此。如果能看到它现在也在LLM中起效,会比不知道它过去如何起效更令人满足。那么,这必要吗?能力还没达到吗?这很难说。但既然你问是哪些能力,我认为就模型所做的事情而言,最让我着迷的是我称之为“元能力”的东西。它们不是数学或编码。它们更像是智能的特征或属性,以及这些模型是否能做到。所以实际上,持续学习或从经验中非常高效地学习的能力,那会是一项上下文学习,我们过去称之为元学习等等。 这是一种我可以某种程度上衡量或感知的能力,而且可能还不是非常非常好。例如,指令遵循当然是一项能力,你甚至可以说它是终极能力,因为如果我让一个模型做某件事,它要么遵循那个指令,要么不遵循。但我的意思是,尝试去看那些不太关乎某个特定领域或垂直行业,而更像是“智能行为”的能力。所以,学习和适应的能力,而不是成为职业选手、国际数学奥林匹克金牌得主之类的能力,才是我在每次训练新模型时,看到新发布和拿到手的模型时最着迷的地方。 Jacob Effron:你有没有一个常用的方法来测试这个? Oriol Vinyals:我喜欢游戏,所以我通常会在上下文中定义一个新游戏。这是一个相当经典的做法。当然,你需要小心,因为如果那个游戏已经在权重里了。 Jacob Effron:如果其他任何人把那游戏放到过互联网上,你就有麻烦了。 Oriol Vinyals:但我记得,应该有一个评估方法。虽然那不完全是我的做法。 Jacob Effron:实际上,我意识到我问你这个问题有些无礼,因为这个播客之后会公开,然后下一个模型就会知道怎么做了。 Oriol Vinyals:没问题的,也许吧。是的,希望我们需要破解World Models,对吧?除非它被完全转录,我确信它会。所以也许我们甚至不需要那样,但我真的很喜欢一个评估,我认为那个评估实际上非常古老,远早于LLM,大概是在2015年之前。那个评估很简单。你给出一个指导手册,我记得是给《文明》这个游戏的,然后,你应该要能够玩它,对吧?所以我喜欢那种风格的评估,你可以用不同方式创建它,但这是我用来测试模型的一种方式。而且它们做得不是那么好,尤其是当游戏变成了我刚发明的东西之类的时候。而且这种能力是双重的。 首先,你能理解指令并据此按指令玩游戏吗?但还有另一个方面,那就是随着你玩游戏,你会学着玩得更好。所以,你能不能在实战中看到这种情况发生?这令人印象深刻。但话说回来,如果你让一个游戏的分布变得非常奇怪,它可能是真的,但仍然不在训练集中,这个特定的测试对模型来说并不容易通过,对吧?还有很多其他测试,但我真的很喜欢这一个,而且游戏以一种有用的方式,但你又完全不会在这个游戏上训练。这不是关于只训练下围棋的Go,而是正好相反。但我喜欢从能力的角度进行这种思考。 Jacob Effron:我的意思是,显然你们已经投入了大量的努力。你知道,游戏曾是类似可验证领域的首个典型例子。而现在,编码和数学领域也有了。我想知道,这个领域一个悬而未决的大问题是否是,我们能在多大程度上看到RL的泛化能力?感觉有时候这些模型在我们进行RL的领域上攀登得非常出色,你应该比我更清楚是否看到了那一点随后流向了模型的其他方面。但某种程度上,感觉这几乎是一个有趣的时刻,我们谈论过最通用的“苦涩的教训”时刻。这是一个在特定领域找到数据,针对该数据进行RL,并改进模型的时刻。我很好奇,这算是对当下正在发生的事情的公允描述吗?还有,你看到那种泛化的迹象了吗? Oriol Vinyals:是的,人们努力寻找那些能确实引发深度推理、并且我们能从中看到泛化的难题来源。实际上,推理模型主要是在,比如说,编码和数学上进行推理。但接着你会看到它们是如何推理关于任何问题的。你知道,我最近刚搬回美国。我问了一大堆关于搬家、税务等等的问题,你可以看到推理相当不错,很难相信它曾被训练过这类问题。所以我们确实看到了泛化,并且在创造性地尝试获取更多能引发深度推理的数据,还有深度的Agent行为。是最近我们看到的改进的一部分,就是找到那些来源。只局限于可验证性肯定是不尽人意的,因为大多数时候,对于我想让模型做的事情,即使我有全世界所有时间,我也写不出一个验证器。 所以,我感觉创建解决方案和评估解决方案之间存在一种不对称性,评估方案确实比创建方案更简单。可以说,如果你思考一些论点,例如NP难题,为它们创建解决方案非常困难,但验证却很简单,这给了我希望,即模型自身将能够进行判断,即使没有完全可验证的方式来判断一段代码是否创建了一个漂亮或引人入胜的游戏。所以我认为这是一项非常有趣的研究,而且实际上,我们已经看到这类想法产生了很大的影响。所以我们做得越多,就能在越多的领域上进行训练。问题在于,你真的需要那样做吗,还是仅仅专注于某些数学和编码问题,就足以激发出这种“变得智能和解决问题”的元能力?我不知道,我是说,两种可能性都存在。 Jacob Effron:你直觉上倾向于哪一种? Oriol Vinyals:我很愿意相信你需要在一个广泛的分布上进行训练,并且那应该对模型有帮助。但通过预训练所能获得的泛化能力是如此之强。所以,也许这取决于对“超人”的雄心壮志,或者这些模型所能达到的上限。但归根结底,我感觉在Machine Learning中,在尽可能符合分布的数据上进行训练似乎是可取的。所以,这是研究人员在未来几个月和几年里需要破解的任务之一。 Jacob Effron:我们很多听众和正在创建公司的创始人们都在思考的一件事,就是搞清楚他们应该在多大程度上在模型层工作,还是纯粹在模型之上构建应用。我想知道,一个明显的趋势是,有些公司在模型之上做自己的RL,并表示:有一类特定问题我们可以去解决。或者,甚至可能最引人注目的是,比如Cursor在编码领域,但我们需要去训练自己的基础模型。我很好奇的是,你的直觉是,什么时候你知道这确实有意义,或者什么时候可能没意义。 Oriol Vinyals:我会告诉人们,其价值——我们稍微讨论过这点——在于评估的价值,以及数据,基本上这两者是紧密相关的,其中蕴含着巨大的价值。所以,无论你是否构建自己的模型,因为也许你还处于非常早期的阶段,或者你无法接触到人才、资源等所有东西,非常仔细地思考如何评估你在尝试做的任何事情上的进展,实际上会非常有价值,而且这甚至可能成为一个标准评估,像我们这样的人甚至会采用或监控。当然,数据的价值是巨大的,尤其考虑到我们刚刚讨论的Post Training,以及缺乏足够的数据来运行那种我们几年前可以愉快进行的、长达数月的训练。所以,我认为那里存在机会。 我知道,在这方面,正在构建东西的人们也投入了大量的精力。与此同时,我认为,在模型之上构建,即使模型能力会不断变化——再说一次,我显然不是投资人,不是专业投资者或产品人——实际上,仅仅专注于你真正相信的东西,可能会为你创造一些机会,让你拥有这个领域,理解它,获得用户,达到临界规模。而且,如果那是其他人,比如大玩家们,没有专注的事情,我觉得即使你只做产品上的专业化,哪怕你不做任何其他事情,也有很大的价值可以创造。 Jacob Effron:现在看来,几乎可以肯定的是,早期你先做产品专业化,在模型之上构建,达到一定规模,学习评估方法。我觉得很多这类公司正开始试图弄清楚,我们是应该利用这些来Post Training一个模型,还是做点别的?显然,这样做的权衡是,随着这些模型通用化,能力提升,它们永远不会像最大的实验室那样在广泛的数据上进行训练。所以,你可能就像在跑步机上一样,每隔两三个月,即使你短暂地领先了最先进水平一点,你也可能需要不断地重做。 Oriol Vinyals:是的,但这里又有一个角度,回到了我们讨论过的另一个话题。随着这些模型变得更能持续学习,或者使用一个可能非常复杂的知识库,那么为某个特定应用构建那个知识库,虽然不是像训练权重那样,它更高效一些,但你可能可以为其增添许多独特性,这可能会保护你免受那些没有花大量时间仔细思考它如何与当前模型交互的人的冲击,而那项能力只会变得更好。所以也许那个角度对于游戏中的早期玩家来说,也更具可扩展性。 Jacob Effron:我想,在我们谈到的这么多研究方向上都存在着如此引人注目的前进道路。有哪些能力是你不太确定如何达到的呢?也就是,哪些方面你或许还没看到研究路径,但你认为相当重要? Oriol Vinyals:我认为对于相当多的能力,我看到了研究路径。我是说,多年来最让我着迷的一个,尤其是在我2016年加入DeepMind时,就是元学习,或者说模型学习的能力。那是一种如此美妙的能力,既然你研究Machine Learning的话。所以这一项是我感觉存在路径,现在有了一些基础,并且它将会持续改进的。但可能有一条路径,我目前不确定它有多实用,那就是人们提到的,“这些模型能真正创新吗?”我认为这部分很重要,因为,当你致力于“你能在Machine Learning里想出新的想法吗?”然后我们实现它们,编码非常出色,部署它们,等等。我们正在对此进行实验。 你知道,很多人都相当程度上在利用我们现有的全部知识,但要以品味去进行创新,这是很难得的,即使对人类来说也是相当特别的,而且说实话,有时是随机的。这不像是“这个人太聪明了”。其实你只是让一万个人去尝试,然后你显然选出了那个做对了的人,并加以颂扬,对吧?所以我认为,那种创新能力对于某些事情,比如自我改进,可能相当重要。然而,甚至尝试去评估它都显然很难,而当某件事难以评估时,可能意味着它也很难在上面取得攀登式的进步。所以,在任何方面进行创新的能力,但具体来说在科学上,是一个我认为还需要更多进展的好例子。 Jacob Effron:显然,我认为Move 37是上一个时代的经典例子。那么,你最近有没有看到什么感觉最接近这个的事情?甚至在我们开始录制之前,我记得OpenAI讨论了他们刚刚解决的那个组合几何问题。 Oriol Vinyals :如果我从Machine Learning的角度来看,这就是重点——我认为我还没有看到一个模型产生出真正卓越的想法。但我确信很快会看到,因为模型在理解,比如说,一个模型是如何被训练的这方面,表现出了一些洞见和方式,感觉上是超人的,因为从机制上讲,这些模型能接触到我们无法企及的信息带宽。所以,也许那部分已经令人印象深刻了,但我也希望能在idea层面看到同等程度的惊艳,而Machine Learning是我能更准确评估的明显领域。所以,是的,敬请期待。 Jacob Effron:当你思考我们何时能达到这种,对Machine Learning研究产生真正洞见,以及这种递归自我改进的世界的层次时,我很好奇你是如何推理的。那甚至意味着什么,或者你如何想象它随着时间的推移会是什么样子?甚至是一些基本问题,比如“苦涩的教训”是否仍然成立?或者,当我们进入那个世界时会发生什么?我很想听你即兴聊聊这些。 Oriol Vinyals:作为研究者或工程师,你使用这些工具来提高你自己的生产力,使其达到某个效率水平或者某个层次。我们现在已经看到很多这样的例子了。 Jacob Effron:和某个领域最前沿的人交谈总是令人印象深刻,你知道,数字总有变化,但通常他们的生产力会全面有相当大百分比的提升。 Oriol Vinyals:我认为这一点已经在发生了,而且显然非常强大。但这个过程能持续多久,会存在一些几乎物理上的限制。模型需要被训练,有能源和硬件的限制。所以,我绝对非常渴望看到,哪些类型的问题可以被进一步自动化、增强,并能更自主地完成。但同时,某些事情上,事情发生的速度很可能存在一个自然的极限,也存在一个自然的上限。 这已经是一年多以前的事了,有人向我反映了一些事,现在回想起来感觉不太好。那就是,当模型写英文写得比你好时,我的反应是,好吧,这是一个有趣的领悟:即使你能改进那种能力,也许没有天花板,或者天花板还很远,但我们甚至可能不需要看到那个天花板。所以,整个系统的整体表现已经非常出色。而且在某些情况下,可能存在上界,明显的上界。但是,我认为模型上的物理限制,你如何训练它们,即使你认为我们确切知道配方,可以非常快速地迭代并训练下一代模型。加速是存在的,但仍然有一些相当根本的上限和速率限制。 快问快答中的深刻洞见 Jacob Effron:好吧,我总是喜欢以快问快答来结束我的采访,把我没时间问的其他宽泛问题一股脑塞进去。那么,或许从这里开始,我很好奇,在过去一年里,在AI领域,你改变看法的一件事是什么? Oriol Vinyals:尽管我很愿意相信,在广泛的分布上训练可能会增强模型,但(事实是)在数学或编码这种极其困难的狭窄点上进行训练,却能创造出这种泛化能力。我觉得我并没有完全预料到它会有这么好的效果。 Jacob Effron:我记得Demis在I/O大会上说,我们正处于奇点的山麓,AGI可能会在未来几年内到来。你有同感吗? Oriol Vinyals:我有同感,而且我想说得更进一步。即使是一个身处该领域、接近这些模型和神经网络的人,如果在7年前——我特意用了一个明显是在LLM所有一切发生之前的时间点——如果7年前我能用我们现在有的模型做实验,我会不会宣布这就是AGI呢?我大概会说“是的”。我是说,这是一个不断变化的定义,进展非常惊人。 所以我认为,正是因为现在我们看得更近了,对我们正在构建的东西更加雄心勃勃是件好事。但话说回来,基于不同的定义,或者甚至是我们仅仅几年前对AGI可能怀有的期望,我会说,从某种意义上讲,AGI已经来了。虽然它并没有以我想要看到的方式到来,但它已经相当接近了。也许,对我来说,模型真正从经验中学习的能力是缺失的那一环。但每个人对于模型仍然存在的感知,都会有自己的一套测试或偏见。能力差距是存在的。 Jacob Effron:我们会到达那里的。然后我们会再次移动目标,提出其他理由。我认为你们拥有的一个巨大优势是,你们显然对自己正在构建的模型极为看好。你们有自己的硬件。我想很多听众脑子里会有一个问题,所以我来问一下:你们做过一件让许多人好奇想更深入了解的事,就是把你们拥有的一部分算力出售给了Anthropic。而且Twitter上一直有一种说法,如果你们那么看好模型和研究,为什么不把所有算力都留给自己用呢?所以我相信我们的听众会很乐意听听你的看法。 Oriol Vinyals:是的,关于如何投资算力。即使在我们内部,算力也被用于服务。我们训练小模型,甚至更小的模型,然后再尝试训练前沿模型。我认为这完全是一个需要平衡的精妙等式。总的来说,理解Alphabet的一种方式是,有些事情能创造收入和经济效益,然后你可以进行再投资。所以这不仅仅是贪心地想着“我们现在该做什么?”,然后把这些全都捆在一起,就这么定了。 我认为这个策略就是多管齐下。并且我认为时间线,尽管我们当然看好技术进步,但你也要考虑营收流等等。硬件是一项非常重要的资产。而且我认为,这里可能存在一种权衡,你并非全部自己用掉,而是战略性地利用它来创造,你懂的,基本上是为了再投资。我认为这是目前看来合乎逻辑的做法。当然,这些背后的计算很复杂,所以我不会深入讲具体的理由,但总体而言,心中有不同的投资水平和时间线,这只是一个战略选择。 Jacob Effron:你的位置非常有趣,因为你是唯一拥有自研尖端、最先进芯片的前沿模型提供商。这种合作实际上是什么样的?因为这是一个如此独特的动态,显然Nvidia与其他实验室密切合作,但他们并不在同一家公司旗下。那么,当它运作得非常好时,是什么样子的? Oriol Vinyals:正如我之前解释的,我回想起几个时刻。即使是Deep Learning在Google内部,当时也仍需证明自己。但我记得,肯定是在2013年,也许是2014年,我们一群人,我想是我、Jeff Hinton、Jeff Dean和Ilya,在一个房间里试图决定,服务器应该有什么配置?当时我们显然有一些CPU,一些GPU,你试图基于你对研究的了解、模型的发展方向来做出猜测,并且你真的可以产生那种影响。当然,会有延迟回报,因为这只是一项投资,只有几个月甚至几年后,才能在数据中心里变成现实。 所以我一直参与其中,并且我觉得那太棒了,我想我们当时尝试去预测研究领域将会发生什么。在早期,那甚至更难,但我认为能够真正施加影响,是一个非常特权的位置。我们当然也这么做。尤其是和Jeff一起,他几乎在Google存在的整个时期,都在深入思考基础设施,所以去思考“这些模型正朝这个方向发展,然后进行这些投资”就非常有趣。因为它们有一定的延迟,而身处同一屋檐下,能看到我们所看到的,真的非常非常有帮助。我曾在非常艰难的早期见过这一幕,并且它持续发生、越变越好。当然,某种程度上它减少了不确定性,让工作更容易,但依然是一个令人着迷的选择,对公司的命运等有着深远的影响。 Jacob Effron:这真是一场引人入胜的对话。我觉得我可以和你聊很久,但那会耽误我们通向AGI的进程。所以,我想确保把最后的发言权留给你。你有什么想和我们的听众分享的吗?或者想向他们推荐的研究,I/O大会上的任何内容,舞台交给你。 Oriol Vinyals:我认为,对于AI领域的任何事情,现在都是一个令人着迷的时代。所以,如果你是一个用户,去使用这些模型。如果你是一个建设者,使用这些模型去构建任何你做的东西,即使你认为它和AI毫无关系。请务必玩玩这些模型。它们令人惊叹,而且只会变得更好。 Jacob Effron:太棒了,谢谢你,这是一场非常精彩的对话。我是Jacob Ephron,你正在收听的是Unsupervised Learning,一个让我能与AI领域最聪明的人交谈,向他们提出大量关于模型正在发生什么、以及它对世界和商业意味着什么的播客。我希望这很清楚。我从中获得了巨大的乐趣,这是一个我在Redpoint担任投资人的日常工作之外的业余项目。但我们能请到这些了不起的嘉宾,真正依靠的是像你一样的听众订阅播客、并与朋友分享。这最终是让这一切运转起来的真正原因。所以,请考虑这样做,非常感谢你的支持和收听。我们下期节目再见。
任正非:我的高考往事
“为理想,早起三更,读迎晨曦,磨枪锉剑,不惧兵临城下;为目标,晚卧夜半,梦别星辰,敛神养气,以备全力以赴。” 高考不仅是检验知识的时刻,也是人生丰收的时节,不管处于哪个时代,读书求学都是人生进步的阶梯,也是改变人生命运最好的途径。 当然,人生是一场马拉松,高考只是其中的一个驿站。改变命运的,不只是一张录取通知书,更是那个全力以赴的自己。 2026年高考来临之际,谨以任正非先生对高考往事的回忆文章,献给在考场上拼搏的学子,以及始终热爱生活、坚持梦想的读者们。 作 者:任正非 来 源:节选自任正非自述文章《我的父亲母亲》 我们兄妹七个,加上父母共九人。全靠父母微薄的工资来生活,毫无其他来源。 本来生活就十分困难,儿女一天天在长大,衣服一天天在变短,而且都要读书,开支很大。 每个学期每人交2-3元的学费,到交费时,妈妈每次都发愁。 与勉强可以用工资来解决基本生活的家庭相比,我家的困难就更大。 我经常看到妈妈月底就到处向人借3-5元钱度饥荒,而且常常走了几家都未必借到。 直到高中毕业我没有穿过衬衣。 有同学看到很热的天,我穿着厚厚的外衣,说让我向妈妈要一件衬衣,我不敢,因为我知道做不到。 我上大学时妈妈一次送我两件衬衣,我真想哭,因为,我有了,弟妹们就会更难了。 我家当时是2-3人合用一条被盖,而且破旧的被单下面铺的是稻草。 上大学我要拿走一条被子,就更困难了,因为那时还实行布票、棉花票管制,最少的一年,每人只发0.5米布票。 没有被单,妈妈捡了毕业学生丢弃的几床破被单缝缝补补,洗干净。 这条被单就在重庆陪我度过了五年的大学生活。 青年任正非 父母的不自私,那时的处境可以明鉴。 我那时14-15岁,是老大,其他一个比一个小,而且不懂事。 他们完全可以偷偷地多吃一口粮食,可他们谁也没有这么做。 爸爸有时还有机会参加会议,适当改善一下生活。 而妈妈那么卑微,不仅要同别的人一样工作,而且还要负担七个孩子的培养、生活。 煮饭、洗衣、修煤灶……什么都干,消耗这么大,自己却从不多吃一口。 我们家当时是每餐实行严格分饭制,控制所有人欲望的配给制,保证人人都能活下来。不是这样,总会有一个、两个弟妹活不到今天。 我真正能理解活下去这句话的含义。 我高三快高考时,有时在家复习功课,实在饿得受不了了,用米糠和菜合一下,烙着吃,被爸爸碰上几次,他心疼了。 其实那时我家穷得连一个可上锁的柜子都没有,粮食是用瓦缸装着,我也不敢去随便抓一把,否则也有一、两个弟妹活不到今天。(我的不自私也是从父母身上学到的,华为今天这么成功,与我不自私有一点关系。) 后三个月,妈妈经常早上塞给我一个小小的玉米饼,要我安心复习功课,我能考上大学,小玉米饼功劳巨大。 如果不是这样,也许我也进不了华为这样的公司,社会上多了一名养猪能手,或街边多了一名能工巧匠而已。 这个小小的玉米饼,是从父母与弟妹的口中抠出来的,我无以报答他们。 父亲一生谨小慎微,自知地位不高,从不乱发言而埋头在学问中。 父亲曾说了几句话:“记住知识就是力量,别人不学,你要学,不要随大流。”“以后有能力要帮助弟妹。” 背负着这种重托,我在重庆,将樊映川的高等数学习题集从头到尾做了两遍,学习了许多逻辑、哲学。 还自学了三门外语,当时已到可以阅读大学课本的程度,终因我不是语言天才,加之在军队服务时用不上,20多年荒废,完全忘光了。 我当年穿走爸爸的皮鞋,没念及爸爸那时是做苦工的,泥里水里,冰冷潮湿,他更需要鞋子。 现在回忆起来,感觉自己太自私了。 后来,生活翻了个个儿。 因为我两次填补过国家空白,又有技术发明创造,合乎那时的时代需要,突然一下子“标兵、功臣……”部队与地方的奖励排山倒海式地压过来。 我这人也热不起来,许多奖品都是别人去代领回来的,我又分给了大家。 由于那时百废待兴,党组织需要尽快恢复一些重点中学,提高高考的升学率,让我父亲去做校长。他曾是一个专科学校的校长。 他不计较升降,不计较得失,只认为有了一种工作机会,全身心地投进去了,很快就把教学质量抓起来了,升学率达到了90%多,成为远近闻名的学校。 他直到1984年75岁才退休。他说,他总算赶上了一个尾巴,干了一点事。 他希望我们珍惜时光,好好干。至此,我们就各忙各的,互相关心不了了。 我为老一辈的政治品行自豪,他们不以物喜,不以己悲,不计荣辱,爱国爱党,忠于事业的精神值得我们这一代人、下一代人、下下一代人学习。 生活中不可能没有挫折,但一个人为人民奋斗的意志不能动摇。 科研尖兵任正非 转入地方后,不适应商品经济,也无驾驭它的能力,一开始我在一个电子公司当经理也栽过跟斗,被人骗过。 后来也是无处可以就业,才被迫创建华为的。 华为的前几年是在十分艰难困苦的条件下起步的。 这时父母、侄子与我住在一间十几平方米的小房里,在阳台上做饭。他们处处为我担心,生活也十分节省。攒一些钱说是为了将来救我。 (听妹妹说,母亲去世前两个月,还与妹妹说,她存有几万元,以后留着救哥哥,他总不会永远都好。母亲在被车撞时,她身上只装了几十元钱,又未带任何证件,是作为无名氏被110抢救的。 中午吃饭时,妹妹、妹夫才发现她未回来,四处寻找,才知道遇车祸。可怜天下父母心,一个母亲的心有多纯。) 当时在广东卖鱼虾,一死就十分便宜,父母他们专门买死鱼、死虾吃,说这比内地还新鲜呢!晚上出去买菜与西瓜,因为卖不掉的菜,便宜一些。 我也无暇顾及他们的生活,以致母亲糖尿病严重我还不知道,是邻居告诉我的。 华为有了规模发展后,管理转换的压力十分巨大,我不仅照顾不了父母,而且连自己也照顾不了,我的身体也是那一段时间累垮的。 我父母这时才转去昆明我妹妹处定居。 我也因此理解了要奋斗就会有牺牲,华为的成功,使我失去了孝敬父母的机会与责任,也消蚀了自己的健康。 回顾我自己已走过的历史,扪心自问,我一生无愧于祖国、无愧于人民,无愧于事业与员工,无愧于朋友,唯一有愧的是对不起父母,没条件时没有照顾他们,有条件时也没有照顾他们。 爸爸妈妈,千声万声呼唤您们,千声万声唤不回。 逝者已经逝去,活着的还要前行。
淘宝闪购新进展:外卖和零售双线目标进一步明确
未来几个月“零售”订单的目标是稳定在日均2000万单。 作者 | 彭倩 编辑 | 乔芊 杨轩 36氪独家获悉,淘宝闪购在五一假期前召开了核心高管会议,制定了新一年的增长计划。 根据会议内容,2027财年(2026年4月-2027年3月),淘宝闪购的核心目标有二: 第一、保持外卖业务市场份额稳定的基础上,并在该财年内实现单月UE 转正; 第二、加大对零售业务的投入,发展“淘宝便利店”、盒马前置仓等业务,以及实现天猫超市、天猫品牌“远转近”,来提升零售业务的单量和GMV。 这是对闪购当前战略的进一步明确和细化。 早在今年3月的财报会上,蒋凡就曾对淘宝闪购做初长期展望:在市场领先地位的前提下,保持即时零售整体交易规模过万亿的目标不变;2年后,即时零售将带来正向的经济收益,即2028财年实现正向现金流,预计2029财年即时零售板块将实现整体盈利。 外卖大战一年,阿里亏损超过900亿元。阿里高层在近期的董事会会议上称,今年一定要全力确保 AI 业务得到最有力的支持,AI 的两场仗(即 AI to C,AI to B)决不能输,这是关乎公司未来十年走向的大战略,需要大量的现金流,保证资本开支,除此之外的业务都必须精打细算。 外卖大战收敛:减亏与改善UE 外卖市场的主旋律如今是减亏与改善UE。具体到淘宝闪购动作上,首先是投入的收敛。一位阿里高层人士告诉36氪,阿里新财年(自然年2026年Q2至2027年Q2)在淘宝闪购的投入只有上一财年的一半(不包含零售业务)。 这样做的结果是牺牲一部分单量。据36氪了解,目前淘宝闪购的日均单量在6000万单左右(含天猫超市4小时达、盒马等),虽然较去年夏季高峰下滑约30%-40%,但其日均单量已经稳定。 据接近阿里和美团人士说法,双方外卖业务在订单份额上接近持平,但客单价差距还较为明显。这也是份额被对手蚕食后,美团外卖的主要策略,即保住高客单价用户。 而阿里为了减亏,也在转向类似的策略——向高客单价人群定向补贴,推出专门针对这类用户的物流服务“1对1急送”等。 一系列操作之后,淘宝闪购的 UE 情况的确得到了改善。据36氪了解,目前淘宝闪购单亏1.5元左右,在今年Q2,外卖业务整体亏损较 Q1将大幅改善。(Q1外卖亏损则在170-190亿元之间,与去年Q4几乎持平)。 虽然最激烈的外卖战场战事趋缓,但在零售战场,双方仍有交锋。 即时零售扩张: 闪电仓之战与SKU拓宽 36氪从接近淘宝闪购的人士处获悉,淘宝闪购为零售订单设置了新目标,未来几个月的目标要稳定在日均2000万单的水平(包含猫超的4小时达和盒马接入闪购的部分订单)——去年外卖大战补贴最激烈时,美团的零售日单量就是2000万单。 目前,阿里和美团对即时零售品类的布局都是分兵作战,由多个业务承接:除了淘宝闪购中的社会供给外,阿里还包含盒马(生鲜)、淘宝便利店(日百、美妆、酒水、宠物)、猫超(零食、日百、酒水、宠物)和部分天猫 KA 品牌(服饰和3C);美团则包含小象超市(生鲜)、松鼠便利(日百)、歪马送酒(酒水),以及新收购的叮咚买菜。 对平台生意来说,外卖的供给是成千上万现成的线下餐厅,但零售的供给却需要大规模的基建。 在不同类型的供给中,双方对闪购仓(美团侧称为“闪电仓”)的争夺尤其激烈,这是因为闪购仓成本更低、品类更全,能够精准匹配当下即时零售碎片化、应急性的需求。淘宝闪购作为后入局的玩家,先在密度和广度上做文章,快速提升仓的数量,后又着力提升商品供给的数量和质量。“商品丰富度是高层认为现阶段零售竞争中最关键的。”一位接近淘宝闪购的人士称。 36氪了解到,淘宝闪购目前也正引入更多零售品牌、覆盖更多社会综合闪购仓,“淘宝闪购合作的社会综合仓已经超过2万个。”上述人士对36氪透露。 为了提升闪电仓的品质,充分发挥其电商供给的优势,淘宝闪购还上线了淘宝便利店业务。具体的做法是将部分社会综合闪电仓升级,孵化标杆商家,引入来自淘宝、天猫和1688的1万个 SKU,覆盖百货、零食、酒水、3C 数码、母婴、美妆等各大品类,首批合作商家有30个。 一位接近美团人士称:“淘宝便利店是淘宝闪购今年最重视的零售业务,直接对标(美团的)松鼠便利。”据36氪了解,今年春节期间,淘宝便利店原计划今年要开设1000家,但新财年初已将目标调高至1500家,近期淘宝闪购内部进一步上调目标,计划开出3000家淘宝便利店。 “目前各大行业的小二都下放到各个市场去铺点位,预计今年夏天就将达1000家。”一位淘宝闪购员工告诉36氪。 淘宝便利店加速狂奔,与对手的跑马圈地息息相关。据36氪了解,美团各类自营闪电仓也都在加速扩张。其中,松鼠便利店计划在今年开出3000家店,目前已开出700家,去年 GMV 近300亿元。此外,主打酒水品类的歪马送酒目前已开出2600家店,年 GMV 在60亿元左右,今年也有更激进的扩展计划。 现阶段要赢得竞争,广开网点、尽可能拓宽品类对闪购来说是关键。新的财年,淘宝闪购在零售领域重点发力的品类为日百、美妆、酒水和医药器材,内部提出这些品类的三级类目覆盖率要达到95%以上,SKU 宽度需达到1000-1200个甚至更多,在供给上要超过竞争对手。 为此,淘宝便利店投入了20亿元补贴商家,目前主要是给租金补贴,以此鼓励商家拓宽品类。一位头部商家告诉36氪:“目前上海是一线,补贴3万每月,杭州二线2.5万,三线1.6万,四线1万左右,基本能覆盖这块的成本。” 淘宝便利店的抓手还有一个——天猫品牌下沉。这部分品牌资源是差异于对手的。目前,淘宝便利店会推动小家电,流行服饰,美妆,玩具,3C 数码配件等品类的品牌优先下沉。 闪购仓之外,阿里还对天猫超市供应链进行改造(菜鸟支持4小时达业务,改中心仓为城市仓,是专门服务于天猫超市的闪电仓)。此外,阿里还通过盒马来扩展前置仓(偏向生鲜品类),今年的计划是要开1000个。 而天猫品牌“远转近”上,淘天在供给上有明显优势,但实现起来仍需要时间。比如需要开发一个复杂的数字化系统,这涉及跨平台打通、多货权管理、分润结算、库存分配等难题。据36氪了解,目前淘宝闪购零售板块的商品系统测试已跑通,已经于5月上线,目前已接入自然堂等品牌合作。 为了更快在即时零售领域跑马圈地,阿里还以集团名义积极参与朴朴超市的竞购案。据36氪了解,在成功出售高鑫零售和银泰百货等线下零售业务后,阿里投资部曾直言“绝不会再轻易对线下零售出手”。此番改变态度,无疑是源于其十分看重即时零售长期发展潜力。 到今年夏季结束,外卖大战的终局可能会变得清晰,而阿里美团在即时零售领域的征战还远未结束。
不交980检测费就不退手机,高价回收二手手机骗局曝光
IT之家 6 月 7 日消息,据央视新闻今天报道,市场上最近出现一种手机高价回收骗局,骗子首先会放出高价回收二手机诱饵,受害人真的去回收时会被无端压价,想要拿回手机时还会被高价验机费再摆一道。 前段时间,山东菏泽的李先生刷短视频时看到高价回收二手手机广告,线下实体回收最多给 1000 元的手机,对方声称能给到 2000 元。李先生一看价格合适就心动了,立即添加了鄄城一家二手手机回收工作室的微信账号。 双方简单沟通后,李先生把手机寄给了工作室。然而对方验机时却说手机有故障,不值 2000 元,只能给到 150 元的回收价。 李先生听到这个结果不想卖了,让对方寄回手机。但对方这时又说需要缴纳 980 元验机费,不交钱就不退手机。李先生最终只能在无奈之下,以 150 元的价格把手机卖给了对方。事后他越想越气,根据收货地址联系了鄄城市场监督部门。 监管部门调查后发现,该工作室提供的售后地址是假的。期间还有大量外地群众打来求助电话,具体骗术与李先生的遭遇一致,都是高价回收诱饵、收到手机后刻意压低价格、以检测费威逼利诱。市场监督部门意识到这不是简单的消费纠纷,便将线索移交至警方。 警方梳理报案信息后发现,多名受害人的收货地址虽然不同,但作案手法高度一致。随后他们根据售后手机号展开摸排,抓获了以黄某为首的 12 名犯罪嫌疑人,彻底捣毁了这个诈骗工作室。 IT之家从原报道获悉,该诈骗团伙作案范围覆盖全国,有上千名群众上当受骗。团伙将骗来的手机转手卖给了二手商贩,已累计非法获利 80 余万元。
突发!Claude大面积宕机,用户竟收到“别人的对话”
新智元报道 【新智元导读】Claude 大面积宕机,多名开发者爆料收到「别人的推理输出」,疑似发生云架构最致命的跨租户隔离失效。 云端最不该发生的一幕,可能真的发生了。 就在昨天,Anthropic 的官方状态页突然挂起一排刺眼的红灯—— Claude API、Claude Code、Claude.ai、Claude Cowork……几乎所有核心服务,突然大面积宕机。 从 Opus 4.6 到 Opus 4.8,五大模型无一幸免。 宕机本身,对一家 AI 公司来说算不上世界末日。 但这一次,剧本写崩了。 真正让开发者社区脊背发凉的,是接下来的爆料:多名开发者在 X 上公开反映,在这次故障期间,Claude 的 API 竟然返回了「其他用户」的推理输出。 有网友分享了一张令人不寒而栗的截图——一位用户打开自己的 Claude 界面,看到的不是自己的对话,而是一段正在生成哥伦比亚运动科普文章的陌生任务。 这与用户的提问完全不搭边。两个素不相识的用户的工作流,就这样被揉进了同一个屏幕。 换句话说,你发出去的请求,拿回的可能是陌生人的对话;而你输入的内容,此刻或许正在显示在另一个人的屏幕上。 细思极恐。 一位 X 上的大V Chubby发帖描述了这一异常:发出 API 请求后,得到的回复内容与自己的 prompt 毫无关系,反复确认后确定是上游错误,而非自己代码的 bug。 他在帖文中直言——这看起来像是跨租户隔离失效。 安全博客 cside 在事发当天迅速发布了技术分析文章,开篇就写道:「你发出一个请求,拿回的却是一个看起来是在回答别人问题的输出。」 文章作者表示已看到流传的截图和第一手报告,但出于对泄露数据本身的保护,选择不公开展示截图——因为那些截图里,包含的正是不该被传播的其他客户的 prompt 和输出内容。 如果这一波情况被最终被证实,这将是云架构里最致命、最不可饶恕的一类事故——跨租户隔离失效(cross-tenant isolation failure),等同于最高级别的客户数据泄露灾难。 用大白话说就是:你家的门锁失灵了,不只是小偷能进来——隔壁邻居也能进来。 「史诗级隐私泄露」、「最坏场景」、「worst-case scenario」——这样的字眼,开始在全球技术圈疯狂刷屏。 最微妙的 是 Anthropic 的「沉默」 真正让人不安的,是 Anthropic 的态度。 截至发稿,官方对那条最敏感的「跨租户数据泄露」传闻,既没证实,也没否认。 状态页上始终只有一句轻描淡写的——elevated errors(错误率升高)。 一边是开发者言之凿凿的「我收到了别人的数据」,一边是官方四个字的「错误率升高」。 这中间的巨大落差,正是此刻全球开发者最焦虑的来源。 安全研究者对此并不感到意外。 正如 cside 的分析文章一针见血地指出:「elevated errors」是云服务商的万能口袋词,从超时到格式错误到把别人的数据塞给你,都能往这个筐里装。 更耐人寻味的是技术层面的分析。 cside 解释道,现代 AI API 并不是一个程序回答一个请求的简单模型,而是一个由负载均衡器、请求路由器、网关、队列、内存缓存、连接池等多层共享组件堆叠而成的庞大系统。 每一层都持有状态,每一层都是一个可能把 A 用户的响应塞给 B 用户的「潜在事故点」——一旦缓存键碰撞、连接被错误复用、或取消的请求留下了过期对象,跨租户泄漏就会发生。 而且,这并不是没有先例。 OpenAI 的那次「串线」 2023 年 3 月 20 日,OpenAI 就经历过一次几乎一模一样的事故。 部分 ChatGPT 用户能看到其他活跃用户的聊天标题,甚至新建对话的第一条消息。 更严重的是,约 1.2% 的 ChatGPT Plus 付费用户 的部分账单信息被泄露——包括姓名、账单地址、信用卡类型、过期时间和卡号后四位。 OpenAI 事后在复盘报告中确认:根本原因是共享缓存和连接层在请求取消后,将数据返回给了错误的客户端。 同样的故障类型,同样的症状模式。 扩张越快的供应商,运行的共享层越多,推过去的负载也越大——暴露在这类 bug 下的面积就越广。 提到OpenAI,同样在 6 月 5 日,又出事了。 一次系统故障导致大量用户账号被「误封」,ChatGPT、Codex 等服务的部分用户突然被暂停访问。 OpenAI 在 X 上官方承认:「一个问题导致部分用户账号被错误暂停,我们正在恢复访问并处理相关订阅和信用额度问题。」 据 OpenAI 状态页显示,事件从太平洋时间 6 月 5 日下午 2:20 开始调查,2:52 确认问题,3:19 仍在修复中,直到下午 4:09 才基本恢复。 但账号访问恢复后,订阅状态、Pro 功能和积分问题仍在「善后」中。 付费用户的怒火在社交平台上迅速蔓延,#keep4o 话题再度刷屏,大量 Pro 用户吐槽工作流被集体中断。 有reddit网友愤怒地吐槽:我付款后的第二天,OpenAI 就封禁了我的账号! 「三年的心血、三四十个 Codex 智能体、我所有的客户收入——全都被锁住了。而且没有给出任何理由。」 当「快」成为唯一 KPI 谁来守住底线? 而这一切,恰好发生在最敏感的节点——Claude Mythos 红队测试前夕,GPT-5.6、Gemini 3.5 Pro 蓄势待发,硅谷的下一轮军备竞赛一触即发。 当所有人都在比谁的模型更快、更强、更聪明的时候,这场突如其来的宕机像一盆冷水浇下来: 在通往 AGI 的狂奔里,最先被甩下车的,会不会是「安全」与「信任」这两个最不该被牺牲的东西? 跨租户泄漏的技术真相,还有待 Anthropic 给出正式结论。 但可以确定的是—— 这一夜,很多开发者第一次认真地问自己:我交给 AI 的东西,真的只有我自己看得到吗?
全国首个家庭通用机器人登陆武汉:洗碗、叠衣轻松搞定
快科技6月7日消息,据媒体报道,中国首个面向家庭场景的通用机器人在武汉开启体验,首批百台机器人已进驻社区开启规模化测试。 机器人身高1.67米,周身圆润,手部为抓夹,脚部为轮式底盘,移动平稳且几乎静音。其占地不到1平方米,充电2小时,续航8小时。 它首次进入一个家,会自行扫描三维地图,识别家具位置。如果布局发生变化,只需通过语音告知“重新学习环境”,它就能在几分钟内完成更新,无需工程师上门。 这台机器人能够独立完成加热食物、洗碗、叠衣服、清洁桌面等7个子任务。看似简单,仅加热食物这一项,就包含抓取、开关门、计时等十余个步骤,每个步骤需经过上千次训练打磨。 该机器人项目经理尚登科介绍,这台机器人的“人设”为“家庭伙伴”,随着人们生活水平提高,适童、适老、适宠等需求增长,机器人也将学习读绘本、陪护、清理宠物粪便等新技能,灵活应对家庭场景的复杂环境。“我们目前正在教机器人喂金鱼、插花和整理玩具。” 下一步,研发团队将把机器人底盘体积减小60%,更适应狭窄过道和小户型;电池续航提升70%;操作范围扩大40%,可完成2.2米高度内的取物、擦窗等任务。今年第三季度,该团队计划在武汉免费提供100个试用名额,面向有老人、儿童或宠物的家庭开放申请。
小米17T系列手机参数曝光:天玑8500-Ultra /天玑9500芯片
IT之家 6 月 7 日消息,小米 17T 系列手机将于 6 月 8 日正式发布,包含小米 17T Pro、小米 17T 两款手机,定位“全能影像旗舰”。博主 @体验more 今日曝光了两款新机的主要参数。 小米 17T 天玑 8500-Ultra 处理器 +LPDDR5X+UFS4.1 光影猎人 800 1/1.55 f/1.7 OIS+12MP f/2.2 超广 +50MP JN5 f/3.0 5X OIS,前置 32MP 6.59 英寸 2756*1268p 120Hz 屏幕 67W (50W PPS) 快充 +7000mAh 电池 双扬,塑料中框,双频 GPS+ 三频北斗,IP68 小米 17T Pro 天玑 9500 处理器 +LPDDR5X+UFS4.1 光影猎人 950 1/1.31 f/1.67 OIS+12MP f/2.2 超广 +50MP JN5 f/3.0 5X OIS,前置 32MP 6.83 英寸 2772*1280p 144Hz 屏幕 100W (100W PPS) 快充 +50W 无线充 +7000mAh 电池 双扬,金属中框,双频 GPS+ 四频北斗,IP68 IT之家注意到,小米 17T 系列国行版将于 6 月 8 日发布,全系四曲包裹式中框、2D 直屏、一体化金属镜头 Deco,超大 R 角设计全系,配备超窄边框。全新小米 17T Pro 手机搭载天玑 9500 旗舰芯片,3nm 工艺制程,对比上一代 GPU 性能大幅提升 33%,功耗降低 42%,光追渲染性能提升 199%。 此外,小米 17T Pro 搭载徕卡光学专业三摄、徕卡光学 Summilux 镜头,提供徕卡高动态主摄(光影猎人 950、13.5EV 动态范围)、徕卡 5X 潜望长焦、徕卡 120° 超广角。小米 17T 系列全系搭载徕卡 5X 潜望长焦,支持 5X 光学变焦、10X 无损变焦,还有 120X UltraZoom、30cm 长焦微距。
5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队
梦瑶 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI AIGC发展到今天,生成几秒钟的AI视频真的已经不算新鲜事儿了。 但!难的地方在于,让同一个角色在几分钟里始终保持一致(扎心.jpg)—— 多镜头切换,脸可能变了,换场景,衣服发型开始漂;人物开口,音色前后接不上!! 问题不在模型「不会造梦」,而在于它很难「记住」这个梦…… △AI生成 也正因如此,长视频生成迟迟未能进入全行业的生产流程,更别说大规模商业化。 在长视频生成集体卡壳的当下,刚刚,有团队给出了一套新解法—— 开源长音视频生成框架JoyAI-Echo,并杀入全球长视频生成领域全球「第一梯队」。 把长视频创作里角色一致性、音色稳定性、生成速度和画面质量等生成痛点,一把梭哈~ 哪怕是几分钟的视频,多镜头、多场景、多段语音连续切换,人物形象和声音也能狠狠稳住。 不仅如此,支持对话式编辑的Agent能力也一起安排上了,以后我们做视频就像和导演聊天一样了! 然后嘛,我再仔细一看,这套高性能开源框架,竟然来自—— 京东?!属实藏得太深……(震惊.jpg) 评测显示,JoyAI-Echo在跨镜头一致性、语音准确率(0.8646)等指标上全面领先行业,甚至用户偏好达59.4%~81.7%。 这下好了,AI视频也能所见即所得了。 一个可交互、高一致性、可持续迭代的长视频时代来了! 长视频不再“跑偏”:高一致性、低延迟、实时超分 过去一年,AI视频模型的竞争重点多集中在几秒到几十秒片段:画质、运镜、风格、物理合理性。 各家模型卷得飞起,效果确实肉眼可见地next level,各类Benchmark评测表现也都非常漂亮。 然鹅吧,在AI视频生成似乎已经进入成熟期的今天,一个问题依然没有被真正解决——长视频生成。 原因很简单:长视频,对整个行业来说都《太难了》…….(扎心jpg) 相比短视频生成,长视频不仅是在时间维度上的简单拉长,更意味着跨镜头、跨场景、跨动作的连续叙事。 但目前行业里的长视频生成,仍然普遍存在几个长期困境: 说话人的音色忽高忽低;生成速度也慢得离谱,往往要等上好几分钟才能看到结果。 这些问题背后,暴露的则是当前模型在长时序生成上的天然挑战: 模型错误累积、长程时序一致性弱、推理延迟高。 最终带来的结果就是,视频里的人物会变脸,声音会飘,生成还得等很久。 这些问题也直接限制了AI视频在虚拟叙事、数字人助手、实时内容创作等场景中的进一步落地和「规模化应用」。 △AI生成 而JoyAI-Echo给出的解法是,通过跨模态音视频记忆库、记忆驱动后训练、轻量化实时超分让长视频生成更稳。 哪怕是几分钟的视频,我们也能丝滑拿下!!拒绝反复抽卡!! 跨模态音视频记忆库:角色再也不“变脸” 长视频生成最让人头疼、行业最难啃的一块骨头,就是角色和声音的「前后不一致」。 在JoyAI-Echo团队看来,问题的根源在于现有模型缺乏真正意义上的长期记忆能力。 行业里传统方案、通常依赖上下文窗口保存历史信息,但随着视频长度增加,早期内容会逐渐被后续信息稀释。 模型虽然能够记住最近几个镜头,却很难稳定保存数分钟之前的人物特征!! 而JoyAI-Echo的做法是—— 直接在框架里塞进了一套「跨模态音视频记忆库」。 与其让模型记住所有历史内容,不如把最关键的身份信息保存下来,并在后续生成过程中持续调用。 这样一来,即便视频长度来到5分钟,角色的身份、外观和声音依然能够保持高度一致!!! 自动播放 这套记忆库最大的特点在于,它记录的不只是人物长相,还会同步记录说话人的音色,并将两者绑定在一起。 当角色首次登场时,系统会提取其视觉特征和声音特征写入记忆库;后续每生成一个镜头,都会从记忆库中调取这些信息作为参考。 为了兼顾效果和效率,系统也不会无限扩展记忆,而是保留故事开头的关键镜头,以及最近生成的镜头。 这样既不会忘记主角最初长什么样,也始终知道剧情刚刚推进到了哪里: 所以说JoyAI-Echo并不是让模型拥有更大的记忆力,而是让模型学会像人一样记忆—— 只保留最重要的信息,并在需要的时候准确调用。 而这套跨模态音视频记忆机制,也成为JoyAI-Echo实现5分钟长视频高一致性生成的核心基础~ 记忆驱动后训练:速度提升7.5倍 对于长视频生成来说,一致性只是第一步,生成速度同样决定了产品能不能真正落地。 为此JoyAI-Echo团队在模型训练之外,又专门设计了一套记忆驱动的后训练流程,在不牺牲生成质量的前提下,把推理效率再往前推一步~ 整个流程主要分为三步,首先通过SFT监督微调,让模型学习高质量音视频生成能力。 随后利用人类反馈强化学习进一步优化人物一致性、画面质量以及音画同步效果。 最后再通过DMD(Distribution Matching Distillation)技术,将复杂的大模型能力压缩到更高效的推理模型中。 △AI生成 在整个后训练体系中,DMD是最关键的一环。 而且最最最最需要夸的一点是,仅DMD相关优化就带来了约7.5倍的推理速度提升!! 我们可以把DMD理解成一次「能力浓缩」—— 先让一个能力更强、但推理速度较慢的教师模型完成完整生成流程,再让一个更加轻量的学生模型去学习和复现教师模型的生成结果。 这样一来,原本需要大量扩散步骤才能完成的生成任务,被压缩成更少的推理步骤,模型却依然能够保持接近的生成效果。 如果说跨模态音视频记忆库解决的是「不要忘」,那么这套后训练体系解决的就是「别太慢」。 一个负责守住长视频的一致性,一个负责提升长视频的生成效率。 两者结合,才让JoyAI-Echo真正具备了迈向长视频生产工具的基础能力~ 轻量化实时超分:高清输出不卡顿 一致性有了,速度也上来了,但长视频生成还有最后一道坎儿——清晰度。 毕竟真到了数字人、品牌营销、短剧创作这些场景里,谁也不希望最后拿到的是一个糊糊的视频…… 但问题是,当前业内通常采用「视频生成+离线超分」的两阶段架构。 视频先生成,再交给独立超分模型处理。 这种方案虽然也能提高分辨率,但额外引入了一轮推理流程,不仅增加等待时间,还容易造成生成结果和超分结果的偏差。 意思就是,高清是高清了,可等待时间也跟着上去了。 △AI生成 而JoyAI-Echo给出的解决方法是,创新性地把超分能力直接塞进生成链路里。 具体来说,系统会先生成720P视频和对应音频,再通过轻量化实时超分模块一步完成高清视频和音频细节增强。 整个超分过程只需要一次向前推理,就能直接输出1K甚至2K分辨率结果~ 这样不仅画面细节更丰富,音频质量也会同步优化,be like: 自动播放 整个过程还不会明显增加生成延迟,用户也终于可以不用在「速度」和「清晰度」之间做选择了。 对于数字人直播、实时创作、内容互动这些对延迟极其敏感的场景来说,高清输出不卡顿,真的太香了…… Director Agent,专属于你的AI视频导演搭子! 大家都懂,现实中的影视制作,从来不是一次完成的。 过去的AI视频生成,大多停留在一次性出片的阶段。 从剧本、分镜到拍摄、审片,再到返工和重拍,每一个环节都需要反复打磨。 如果其中某个镜头出现问题,创作者往往只能重新生成整条视频,不仅耗时,也很难保证前后内容的一致性。 这也是AI长视频长期难以真正进入生产环节的原因之一!!! 所以,创作者需要的并不只是一次性结果,还需要像真实拍摄一样,拥有能够规划、生成、返工,甚至局部重拍的工具。 这个问题,JoyAI-Echo技术团队也想到了,于是给视频模型配了一位「AI导演」——Director Agent。 我们只需要用自然语言说需求,它会自动帮忙拆分成剧本、角色、场景和镜头~ 具体来说,Director Agent整个技术链路被拆成:策划、生成、点评修改三个阶段。 在策划阶段,Agent更像一位「编剧兼导演」。 它会先理解用户意图,将一句自然语言需求扩展成完整的故事框架,补充角色设定、场景信息和叙事逻辑,再进一步拆解为镜头级规划,最终生成符合模型训练格式的结构化条件。 进入生成阶段后,Agent又变成了一位「现场导演」。 它会根据当前镜头内容,从已经生成的历史镜头中检索最相关的信息,并将这些参考内容与当前剧本状态一起整理成模型需要的输入条件,让生成模型能够准确调用角色、场景和剧情上下文。 △AI生成 最后来到「点评修改」阶段,这里反倒更像影视制作里的审片环节~ 无论是用户反馈,还是自动评价模型发现问题,只要角色形象、动作表现、对白内容或音画同步出现偏差,Agent都能快速定位到具体镜头,重新调整对应条件和记忆信息!!! 而且最重要的是,Agent只对受影响的部分进行重生成,而不需要推倒重来,修改后的结果还会同步更新到后续剧情中,确保整个故事始终保持连贯一致~ 也正因为如此,JoyAI-Echo不再只是一个负责生成视频的模型,而更像是一套完整的长视频创作系统。 杀入全球第一梯队,长视频生成开始靠近真实生产 光说不练假把式,从官方评测数据来看,JoyAI-Echo在长视频生成的多个关键指标上,都展现出了领先表现。 在用户盲测环节,研究团队将JoyAI-Echo与目前代表性的长视频模型进行了对比,结果显示—— 在长视频任务中,用户有63.6%的情况下更喜欢JoyAI-Echo生成的视频画面。 在音频质量维度这一优势甚至达到81.7%,提示词遵循偏好为80.6%,IP一致性偏好为59.4%。 即使放在人像短视频这一竞争最激烈的赛道中,与主流视频模型相比,JoyAI-Echo依然获得了更高的视觉美学用户偏好(58.8%vs26.5%)。 而JoyAI-Echo的发布,也同样标志着京东在长视频生成领域进入「全球第一梯队」: 过去几年,AI视频生成虽然发展迅速,但长视频始终停留在一个略显尴尬的位置: 演示效果惊艳,真正投入生产却困难重重。 角色容易变脸、声音容易漂移、生成速度过慢、修改成本极高……这些问题决定了大多数长视频作品更像是技术Demo,而非真正意义上的生产工具。 而JoyAI-Echo试图解决的,恰恰是这些长期困扰行业的核心瓶颈。 更重要的是,与许多闭源模型不同,JoyAI-Echo选择了「开源」。 这意味着长视频生成不再只是少数头部公司的专属能力,而开始成为一个能够被开发者、创作者和研究者共同验证、调用和迭代的开放工具。 △AI生成 技术框架提供了起点,开放则让更多可能性慢慢长出来。 当一致性、高分辨率、Agent等能力被开源持续验证和优化后,行业内长视频生成的技术迭代速度可能进一步加快。 无论是虚拟IP故事、数字人内容、品牌营销视频,还是教育课件、知识讲解、游戏动画和互动剧情,高一致性、可控、可迭代的长视频生产都能够成为可能。 如果说过去的大模型解决的是「能不能生成视频」的问题,那么JoyAI-Echo正在尝试回答另一个更重要的问题: AI能不能真正参与长视频的内容生产创作? 从目前的结果来看,答案已经越来越接近肯定。 JoyAI-Echo带来的,不仅是一款新的长视频模型,更是一次AI视频生产范式的推进。 当稳定记忆、实时交互、可控修改和高效生成开始同时出现时,AI长视频正在从技术展示走向生产工具。 一个更稳定、更可控的AI长视频时代,正在被推到台前。
ChatGPT记忆大升级,十亿人免费用
新智元报道 【新智元导读】奥特曼官宣ChatGPT记忆重大升级!全新Dreaming V3架构正式上线:ChatGPT会在后台「做梦」,首次向数亿免费用户开放。 ChatGPT也会「做梦」了! 今天,OpenAI祭出重量级更新:ChatGPT「记忆系统」彻底重写了。 全新记忆架构Dreaming V3正式上线。 这一次升级,「做梦」功能向十亿人免费开放,Plus和Pro记忆容量直接翻倍。 有网友表示,这是迈向个性化助手的一大步! ChatGPT,「做梦」自进化了 能够让ChatGPT睡一觉,效力暴增的系统,就叫做Dreaming(做梦)。 它的工作方式,和人类睡觉时大脑整理记忆的过程几乎一模一样: 白天你和ChatGPT聊天,晚上它会悄悄「回放」你们的对话,从中提炼、合成、更新关于你的一切。 也就是说,一个人所有的日常,统统被自动编织进一张持续刷新的记忆网络。 这和老版记忆有什么区别?OpenAI自己都忍不住吐槽老系统—— 与早期系统交互,就像在和一个只会记笔记的人说话——没写下来的,全忘了。 更重磅的是,这些「梦境」全部对你透明。 新版「记忆摘要页面」(memory summary)让你一眼看清ChatGPT到底知道你什么: 可以补充、可以修改,甚至可以直接下指令,它真的会照办。 三场大考: 记住你、懂你、还懂今夕是何年 什么才算「好记忆」? OpenAI给出了三条硬标准——记得住、用得对、跟得上时间。每一条,他们都拿出了对照实验。 第一场考试:上下文召回。 「事实召回」基准测试显示,2026年,ChatGPT成功率飙升到了82.8%。 一位水下摄影玩家问:「我的水下摄影装备要用TTL闪光,需要买什么」? 没有记忆的ChatGPT,吐出一篇又臭又长的「通用购买指南」—— 什么光纤TTL、电子TTL全列一遍,兼容性检查请用户自理,说了一大堆,又等于没说。 有记忆的ChatGPT直接开大:「我会基于你的实际装备来验证:索尼A1 II + Nauticam NA-A1II防水壳 + Backscatter Mini Flash 3和Inon Z-330闪光灯」 然后精准报出具体产品型号SKU,连「哪个触发器和哪个灯不兼容」都帮你排雷排好了。 这哪是聊天机器人,这是你的私人器材顾问。 第二场考试:偏好遵循。 如今,ChatGPT偏好遵循,通过率高达71.3%。 记忆里躺着信息只是第一步,关键是该用的时候真的用上。OpenAI把「偏好」拆成三类: 明确指令:别再提Stan了 个人约束:我吃素 隐性偏好:我住在旧金山附近→ 推荐就该围绕湾区来 假设两个月前,你提过自己喜欢野生动物摄影、酒店空调必须给力、讨厌嘈杂的酒吧。 现在你说「帮我规划新加坡行程」—— 没记忆的版本,甩给你一份「鱼尾狮+乌节路+克拉码头」标准游客套餐。 有记忆的版本,直接为你定制:清晨植物园拍鸟、飞禽公园+夜间野生动物园专场、正餐优先安排可订位的安静餐厅。 它还贴心备注——「新加坡酒店普遍空调够猛,但你的要求格外严格」。 第三场考试,也是最狠的一场:时间感知。 传统记忆系统最大的笑话是什么? 你7月去新加坡出差,9月回到加州,半夜问它「帮我找个还在营业的外卖」—— 它给你推荐新加坡凌晨5点的24小时印度飞饼店。 Dreaming V3直接终结了这个笑话。 它会自动把「你将在7月去新加坡」改写成「你2026年7月去过新加坡」—— 旅行结束了,它知道;你回家了,它也知道。再问外卖,它推荐的是你家门口的Alpine Inn汉堡店。 AI终于学会了一件人类与生俱来的事:知道「现在」和「过去」的区别。 细思极恐,又理所当然。 算力狂降5倍,免费用 这次升级里,最容易被忽略、但商业上最致命的一个数字:5倍。 OpenAI透露,最近的优化把服务dreaming所需的算力,降低了约5倍。 正是这一刀,让「给数亿免费用户开记忆」从赔本买卖变成了可行生意。 于是连锁反应来了: Plus和Pro用户:美国地区今天起推送新系统,记忆容量翻倍 免费和Go用户:未来几周陆续获得dreaming记忆 更重磅的是,控制权也一并交还给了用户。 新增的「记忆摘要」页面,让你能一眼看清ChatGPT到底记住了你什么——可以补充、可以修改,还能直接下指令:哪些话题该提、什么时候提。 想深挖某块记忆?直接跟模型聊就行。要是你怀念老式的saved memories,设置里一键切回。 ChatGPT记忆「三级跳」 ChatGPT押注的「记忆」,实际上是一场酝酿了两年的豪赌。 2024年4月,ChatGPT记忆功能首次上线,也就是「saved memories」(保存的记忆)。 你得明确说一句「记住我7月要去新加坡」,它才会乖乖记下来。 说白了,那时的ChatGPT像一个只会偶尔记两笔的同事——笔记本上没写的,全忘。 更尴尬的是,这些笔记还会过期:时间一长,记忆变得不对、不相关,甚至开始帮倒忙。 2025年4月,第一版dreaming登场。 这是一种后台进程——ChatGPT会在你不聊天的时候,自动翻阅历史对话,悄悄整理、合成关于你的记忆状态。 换句话说,你聊你的,它在后台「做梦」,把对话里自然流露的信息都消化成长期记忆,完全不需要你喊一声「记住」。 2026年6月,也就是今天,Dreaming V3正式上线。 这是一套显著更强、更省算力的记忆架构,dreaming从「补充角色」转正,成为整个记忆系统的地基。 三年,三级跳。 从被动记笔记,到主动做梦,再到把梦做成了基础设施——OpenAI对记忆这件事,是认真的。 记忆,ASI第一块拼图 没有记忆,就没有真正的智能。 今天的大模型再聪明,每次对话结束都形同「失忆」——这是它和人类智能之间最刺眼的一道鸿沟。 Dreaming做的,正是给AI补上这块拼图。 从AGI到ASI,缺的从来都不只是更大的参数、更多的算力,还有在时间中持续学习、持续自我更新的能力。 一个会做梦的AI,才有资格谈论超越。 今天,它学会了记住你。明天,它将记住整个世界。
专访苹果芯片 Doug Brooks:全行业围攻统一内存,为什么苹果不怕?
PC、芯片行业,都在抢苹果「统一内存架构」这碗饭。 2024 年,Lunar Lake 实现内存封装进芯片;25 年 Strix Halo 将统一内存带宽推到 256GB/s;26 上半年面市的骁龙 X2 Elite 系列采用了类似的共享内存架构;本周,Windows on ARM 行业再次团结在 RTX Spark 的旗帜下,发起挑战。 大,且统一的内存,用来驱动端侧 AI:说白了,全行业都抄苹果的作业抄到飞起。 但现在的问题是,这些晚了苹果至少五、六年的对手,联合发起围攻,会奏效吗?苹果在统一内存架构上的底气从哪来? 在 WWDC 的前夜,爱范儿专访了苹果 Apple silicon 高级产品经理 Doug Brooks。 Doug Brooks, Senior Product Manager, Apple silicon 比统一内存更重要的是内存带宽 谈起 Apple silicon 的设计逻辑,Brooks 告诉我:苹果是一家不必考虑外部客户的芯片厂商。 「我们不是那种卖芯片的厂商——造一堆芯片,指望别人拿去塞进各种不同的系统,或者利用芯片的不同功能。我们的芯片只为我们自己的系统而设计,系统设计和芯片设计互为彼此的唯一影响。」 本质上,苹果的芯片设计者知道自己需要在芯片里针对何种工作负载、工作流去优化,而反过来,它丝毫不用担心做进芯片里的东西 iPhone、iPad、Mac 等设备利用不上。 光有架构上的领先还不够,Brooks 反复强调的还有「均衡」。 得益于自初代 A 系列芯片便开始采用的统一内存架构,CPU、GPU(包括核内的神经网络加速器)、神经网络引擎(ANE/NPU)等核心计算单元全部位于同一片上,与封装内/片外的内存统一连接。 但比单片设计更关键的是,苹果的统一内存架构能够确保 CPU、GPU 以及神经网络引擎能够共享并调用这个庞大的内存池,如下图所示。 这是迄今为止我们在其它类似的统一内存架构产品上并未看到的。 而从 M5 Pro/Max 开始,苹果也走向两片式封装的融合架构。在这套架构上,单 SoC 内的片间互联位宽不是固定的,会随不同 SKU 增加。Brooks 告诉爱范儿: 「一个系统有很多算力,内存带宽却不够?苹果不会做这样的系统。从 M5 到 M5 Pro 再到 M5 Max,GPU 核心数是两倍和四倍——M5 芯片配备了 10 核 GPU,到 M5 Pro 则扩展至 20 核 GPU,而最高端的 M5 Max 更配备了 40 核 GPU。 但你不应该只看到核心数增加,我们在内存位宽上也翻了倍——随着产品线的升级,我们还将每款芯片的统一内存带宽翻倍。只有这样才能确保用户需要的各种工作流被整个芯片的算力满足。」 「统一内存架构」的数字比较 苹果方面并未直接回应 Apple silicon 与其他市面方案的比较,不过爱范儿将几家采用类统一内存架构的公开规格放到一起比较:Strix Halo 是 256GB/s,GB10/RTX Spark 是 273GB/s,骁龙 X2 Elite Extreme 是 228GB/s,苹果 M5 Max 最高 614GB/s。 换句话说,目前行业已知的所有其它方案,内存带宽才刚摸到苹果中高端的水位,离最高端还差着一倍多。而他们追到这里,却已经用了不止两年的时间。 RTX Spark 的裸片图像 (die shot) 显示,这枚「炸裂」级颠覆性的 SoC,却又存在很明显的瓶颈:它由两枚芯片拼接起来,Blackwell GPU 位于一侧,联发科 CPU 等其他元件位于另一侧,中间靠 NVLink 桥接。 DRAM 和内存控制器位于 CPU 侧,GPU 侧没有内存控制器,GPU 访存需要经由 NVLink 借道 CPU 侧的内存控制器。 也就是说,尽管中间这个 NVLink C2C 的双向带宽能够达到约 600GB/s,这块 SoC 的真实内存带宽并不会超过 GB10 的水平,也即封顶在 273GB/s 左右,四舍五入到 300GB/s。 更值得一说的是,RTX Spark 并非 2026 年的全新设计,甚至连 2025 年都算不上。从 Computex 现场照片中 SoC 上的 2443 刻印意味着它在 2024 年的第 43 周就已封装完成。 Die shot 显示其 CPU 采用联发科 2024 年的公版 X925 和 A725 核心,在 2026 年已经落后至少一代甚至两代。 一颗两年前的处理器,重新包装一下也要当新片发——这本身就说明,统一内存的这阵风有多大。 领先者也有可改进空间 苹果的神经网络引擎 (ANE) 在 2017 年随 A11 芯片登场。在此前的文章中我们论证过,虽然在当时 ANE 仅用于和 AI 大体无关的神经网络计算场景,却为苹果迎接如今的 AI 热潮,特别是端侧 AI 工作流打下了关键基础。 好是好,但长久以来 ANE 都不是开放的——具体来说,虽然 Core ML 框架可以调用 ANE,但苹果没有提供足够的工具和能力,让开发者可以自行决定何时、如何调用 ANE 来处理除推理外的负载。相当于一块算力金矿放在这里,门却被封上了。 于是在今年年初,社区开发者 Manjeet Singh 自己着手对 M4 处理器上的 ANE 进行逆向工程,结果居然真的成功了。他发现 M4 ANE 的功耗效率极高,算力跑满时每瓦足以提供 6.6TOPS 算力。 不仅如此,他后来还实现了仅调用 ANE 的算力,且完全越过 Core ML 限制的前提下,在一台 M4 Mac mini 上训练了一个完整的 1 亿参数的 transformer 模型:共用 5 万步,每步 96 毫秒,全程功耗不足 1W(权重和 Adam 优化器仍然需要 CPU 支持,ANE+CPU 功耗低于 8W)。 原来,ANE 也只是一个矩阵乘法计算器 (INT8/FP16),而苹果官方对它的「仅推理」设定也只是一个设定,毕竟训练所用的反向矩乘也是矩乘。苹果只是没有为 ANE 提供公开的训练接口,于是 Singh 自己手搓了一个接口而已。 显然,人们对于 ANE 这座尚未被开采的金矿,是有着浓厚兴趣的。 它的诱人之处不止于 ANE 的功耗性能本身,更在于目前有超过 10 亿台活跃设备搭载它,让 iPhone、iPad 和 Mac 都可以在不影响电池续航和散热表现的前提下,不仅驱动传闻中即将到来的 AI Siri 等一系列 Apple Intelligence 功能,更有潜力处理今天的开发者尚未想象出来的高性能、低功耗的本地 AI 工作负载。 抑或他们早就想到,但实在是苹果之前并不开放 ANE 给他们用。 借这次专访,我们当面问了 Brooks:开发者到底该怎么挑选计算单元,以及苹果怎么看社区对 ANE 的逆向。 他说,苹果提供了一系列不同层级的 API,像 Core ML 这样的高层 API,开发者可以直接说「帮我把这个模型跑起来」,让系统自己决定放在神经网络引擎还是 GPU 上(MLComputeUnits.all);亦或者,开发者也可以反过来说「我就要它跑在 CPU、GPU 或者 ANE 上」。 他特意加重了一句:「我们想给开发者尽可能多的控制。」 这其实说的是在 WWDC 2025 上,苹果首次在 Metal 4 中引入 tensor 作为原生资源类型,从而让用户可以更精细地控制在 shader 或者 GPU 核心内新增的神经加速器里进行计算。 Brooks 并未直接回应对于逆向 ANE 这一事件,但还是给予了社区较高的评价: 「退一步从大局来看,Mac 一直是个充满创新的 AI 平台。我们很高兴看到这么活跃的社区,在各个层面做着各种各样令人兴奋的工作,看到大量的开源研究和贡献。」 矿场的大门不会一直关闭,但是作为场主的苹果,历来对系统安全格外重视,把钥匙发给谁仍然需要谨慎决定。 此外爱范儿还看到,苹果在端侧模型上目前的进展则是另一种稍显遗憾。 苹果的 Foundation Models 框架,将苹果自行训练的端侧大模型直接做进了 iOS 和 macOS 系统本身。开发者通过简短的代码即可调用,没有云端 API 计费,无需购买 token 或者付费订阅,直接离线可用,数据也全程停留在本地并加密。这套架构,目前没有第二家给得出来。Brooks 告诉爱范儿: 「不光免费,还不需要联网,随时随地都能在本地运行,这本身非常强大。更让我兴奋的是,Foundation Models API 已经被数千个应用采用,去做各种大大小小的 AI 功能,不只是简单的文本处理,更是极强的生产力工具。」 但在今天,特别是苹果一直打交道的那些生产力最高、对于变革自己工作流最积极的专业用户,使用 AI 的方式早已经出离简单的对话界面,而是进入到了随时发起任务,就能调起几十上百个 agent 去分割、代理、互相校验、汇总的新工作流时代。 此时,这个本地「小」模型,本身足够聪明吗? 好在答案本身不是二选一。苹果目前的对策,是在 Apple Intelligence 中利用私密云计算技术 (Private Cloud Compute),在安全和数据用后即焚的逻辑下调用云端更强大的模型。 眼下端侧模型,或者更具体来说苹果自己的端侧模型,其天花板清晰可见。约 30 亿参数,在苹果自己的技术报告里提到的擂台对手,是 Qwen-2.5-3B、Gemma 3-4B 等早期、参数量较小的模型。这个规模的模型,在做摘要、改写、修图等轻量生成任务上是把好手,应用场景潜力也颇大。 但一旦碰上复杂推理、代码、需要世界知识的任务,它和现如今 OpenAI、Anthropic、Kimi、MiniMax 等专为 agent 任务而训练的旗舰模型相比,还是捉襟见肘。根据此前最新的公开资料,苹果服务器端的模型尚且「落后于 GPT-4o 和 Llama-4 Scout」,离第一梯队更是遥不可及。 说到底,苹果的护城河在于硬件,在整合,在真正的统一内存架构实现以及消费级电脑市场上难以企及的内存带宽上。但模型本身的能力,反而成了苹果这套体系里最令人担忧的一环。 但苹果或许留有一手。 WWDC 见分晓? 一年一度的苹果全球开发者大会,即将于北京时间 6 月 9 日凌晨召开。 如果此前彭博社苹果专家 Mark Gurman 的爆料属实,苹果很有可能会用一个全新的 Core AI 框架来取代沿用多年的 Core ML。这一传闻中的新框架,将首次允许开发者用他们再熟悉不过的方式,例如 API,来直接接入任选(但原则上苹果认可)提供商的模型。 除此之外,传闻中苹果可能即将启用的新一代端侧基座模型,可能会是一个蒸馏自其他美国头部 AI 企业的新模型。甚至苹果自己也可能挑选 Google、OpenAI、Anthropic 等作为系统默认模型提供商。 苹果方面并未对以上传闻做出回应。 正如前面提到,在模型能力上苹果此前的确落后,而借力打力正是苹果过去多年来与其他硅谷巨头们「竞合」的核心思想——毕竟,没人不想打入数十亿台 iPhone,成为默认的搜索引擎(以前),以及默认的 AI 引擎(现在)。 回头最开始的问题:当全行业对苹果的统一内存架构,在核心硬件产品的品类里发起围攻,苹果为什么并不害怕? 可能从一开始他们就找错了弱点。AMD、英伟达、高通、英特尔纷纷入局统一内存架构,但他们攻击的是苹果最坚硬的那一堵墙。无论怎么追赶,追赶的都是苹果的昨天。 真正令苹果感到危机的,并不是这群人,而是另一群后起之秀,以 OpenAI 为代表。 这不仅仅是因为 OpenAI 有意开发全新形态的 AI 硬件,来创造出一个新的、类似于 iPhone 和 Mac 的现象级品类,从而颠覆苹果; 更因为 OpenAI、Anthropic 们所最擅长的东西,包括并不限于模型本身,以及由新一代 agentic 模型所驱动的新工作、新生活、新计算方式,才是苹果最薄弱的地方。 苹果如何补强这些点?下周 WWDC 见分晓。 (本文所有对第三方厂商的分析内容均来自公开资料。苹果方面从未对第三方厂商公司做出评论。) 作者|杜晨 采访|杜晨
OpenAI芯片核心叛逃Anthropic!就在量产前夜
henry 发自 凹非寺 量子位 | 公众号 QbitAI Anthropic到底有谁在?怎么都在往过跑啊! 刚刚,OpenAI芯片工程师Clive Chan在X上宣布离职,同时透露已于本周加入Anthropic。 他在推文中称赞老东家的芯片团队硬件人才密度惊人,全世界没有比这更好的芯片设计团队,但话锋一转—— 我没法摆脱从山脚开始攀登新高峰的冲动。 加入Anthropic的理由,他给了三个词:talent(天赋),values(价值观),ambition(抱负)。 作为OpenAI硬件组的第二号员工,自2024年1月加入以来,这两年半的时间,他主要负责OpenAI自主的芯片设计。 其中,最重要的项目就莫过于OpenAI与博通合作的10GW定制AI加速器(据称采用台积电的3nm工艺)。 去年10月Chan曾透露这款芯片,将于9个月后量产,而10月往后数9个月,差不多就是现在。 所以,整整30个月,一款芯片从设计到量产,任务完成,Chan也就功成名就的离开了。 下一站:Anthropic! 他将把天赋带到Anthropic 先来简单介绍一下,Clive Chan。 2021年起,他在Tesla Dojo团队做训练ASIC的软件框架和数据中心协同设计,每周直接向马斯克汇报。 2024年1月,他以第二号硬件员工的身份加入OpenAI自研芯片项目,成为这支当时还没下定决心要不要做芯片的小团队里,第一个独立贡献者。 (第一号员工是前Google TPU负责人Richard Ho,目前仍在领导OpenAI芯片团队) 而早在去年10月OpenAI正式官宣之前,这个自研芯片项目就被外媒曝光过。 2025年2月,有消息表示:OpenAI内部约40人的团队正与博通合作,基于台积电3nm工艺设计自研芯片。 Chan就是这支团队最早的技术骨干之一。 所以,回顾一下。Chan2024年1月,加入,2025年10月官宣将于9个月后,量产。 前前后后差不多30个月,从设计、流片到量产上线,OpenAI的第一颗自研芯片已经靴子落地。 两年半,任务完成,Chan走了。而他的一下站Anthropic,恰好给了他从山底重新出发的需求。 今年4月,路透社报道称Anthropic有自研芯片的意愿,但计划仍处于早期阶段,尚未组建专门团队,也未确定具体设计方案。 如今,随着Chan的加入,这件事大概率不再只是探索了。 对此,网友也是各抒己见。 比如Gary Marcus就表示,任何想投资OpenAI IPO的人都应该重新考虑。 天才们用脚投票,已经持续了好几年。 还有人感叹,OpenAI现在已经成为进入Anthropic的入职培训了。 每次看到有人离开OpenAI下一站一定是Anthropic。 其中比较难绷的就是这个:OpenAI在向别人开放知识产权的时候还是真开放。 当然,也有人替OpenAI讲话:如果OpenAI有竞业协议,Anthropic可能压根不会存在。 所以说到底,两家公司都在筹备IPO,一个估值万亿,一个也在奔万亿的路上。 这个节骨眼上人往对手那边跑,到底图的是什么? 或许Chan自己的话就是答案:从山脚开始爬,才有可能拿到最大的那张饼。 参考链接 [1]https://x.com/itsclivetime/status/2063356118525792542 — 欢迎AI产品从业者共建 — 📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。 一键关注 👇 点亮星标 科技前沿进展每日见
奥迪发布全新复古未来跑车,飒
2026 年的汽车圈充满戏剧性。 奥迪曾向外界宣告,从这一年起,他们发布的所有全新车型都将采用纯电驱动。然而就在最近,奥迪食言了,发布了一台搭载 4.0 升双涡轮增压 V8 发动机的混动超跑 Nuvolari。 作为 R8 的继任者,它与兰博基尼 Temerario 共享平台,但其性能数据更令人瞩目,系统总功率达到 1001 马力,零百加速仅需 2.6 秒。 全球限量 499 台的配额,让它的售价飙升至 70 万美元左右——大约是现款小牛的 2.5 倍。 在过去,大众集团内部有着明确的等级壁垒,奥迪在性能参数上通常不会压过同门的兰博基尼,但这一次,他们破例了。 用 1001 马力带你回到八十年代 为了发掘这台 V8 发动机的更多潜力,奥迪把红线转速推到了 10000 转。每当指针逼近红区,高转速带来的声浪会传至车厢,和当下的电车形成强烈对比。 除了内燃机,奥迪用上了三个轴向磁通电机,前轴分配了两个,发动机和变速箱之间布置了一个。 轴向磁通电机的体积远小于传统径向电机,能在有限的空间内提供较高的功率密度。这种前二后一的电机组合,加上高转速的 V8 引擎,把整车的动力提升到了 1001 马力。 在四驱系统的全负荷运作下,2.6 秒就可以把车速从零推到 100km/h,极速则突破了 350 km/h 大关。作为对比,同平台的兰博基尼 Temerario 的总功率为 920 马力。 我们需要一台能够承载奥迪过去百年赛道记忆的机器,没有任何妥协,也没有任何保留。 奥迪运动部门发言人罗尔夫·米歇尔(Rolf Michl)在发布会上这样说道。 外观设计上,奥迪走上了一条与众不同的路。如今的跑车大多被塑造得较为圆滑,用以换取更低的风阻系数。Nuvolari 则回归了上世纪七八十年代的审美体系。 官方主推的车漆颜色被命名为「钛金」,这种涂装在光线下呈现出原色金属的冰冷质感。配合冷峻色调的,是车头方正的矩阵式进气格栅,以及像素化切割的矩阵大灯。 奥迪放弃了人们熟悉的流线型曲面,用生硬的直线构建起一种复古的工业质感。 方正的线条倒也没有拖累空气动力学表现,奥迪表示,他们的工程团队用相应的技术投入,弥补了非流线型造型带来的风阻劣势。气流在那些方正的进气道和散热窗之间穿梭,隐藏在车尾的主动式尾翼在特定设定下,能为车体产生超过 400kg 的下压力。 车内的座舱氛围延续了外观的冷峻感,这里严格遵循着包豪斯学派的功能主义原则。 大面积的哑光材质与 Alcantara 面料包裹了整个中控台和门板。车内没有花哨的氛围灯,也没有尺寸过大的中控屏,方向盘上布满了实体按键和旋钮。设计师为了让驾驶员可以专注于驾驶,甚至省去了车内的杯架。 虽然我也没搞懂杯架和专注驾驶有什么关系…… 总之,在这个座舱里,驾驶员能直接接触到的基本只有物理按键、机械旋钮和起防滑作用的 Alcantara 面料。 Nuvolari 剥离了过去 R8 兼顾城市代步的属性,成为了一款完全面向驾驶而开发的产品。这样的设定,注定了它的受众群体会非常狭窄,也难怪它会限量 499 台。 反正我是不会买的。 奥迪重新走向「运动」 世界上最优雅的曲线,是销量上涨的曲线。 美国工业设计之父雷蒙德·洛威(Raymond Fernand Loewy)在二十世纪三十年代留下了这句话。 当时正值大萧条时期,为了让滞销的普通商品重新流通,工业设计师们推行了流线型设计。他们把原本用于飞机和火车的水滴状外观,套用在电冰箱、烤面包机和吸尘器上。用圆润的曲线包裹商品,能让消费者产生新鲜感,进而买单。 这套方法后来在很长一段时间内指导着工业产品的外观走向。 后来的几十年里,汽车的外形也沿着这条「曲线」发展,跑车的车身线条越来越平滑,目的是降低风阻系数,应对行人碰撞测试,以及照顾大多数人的审美习惯。 但 Nuvolari 换了个活法。 这台全球限量 499 台的超跑完全不需要去考虑大众市场的销量,自然也就不用去迎合主流审美。 奥迪的设计团队选择向二十世纪七八十年代的复古未来主义设计致敬,使用了方正的几何折线、造型传统的百叶窗散热和带有金属质感的涂装。这种机械感明显的车身覆盖件,客观上构成了一道审美门槛,只面向有着特定偏好的买家。 当然,能跨过这道门槛的前提,是买家能付得起 70 万美元的车价。 要支撑起如此高昂的价格,奥迪自然需要拿出相应的硬件和制造工艺。 研发团队在这台车上使用了全新一代的「奥迪空间框架」,整车覆盖件全数换成了碳纤维材质。不过它并没有采用常规跑车流水线上常见的树脂传递模塑工艺,而是引入了 F1 赛车所使用的预浸料热压罐工艺。 这种工艺要求工人手工将预先浸渍了树脂的碳纤维布贴合在模具内部,随后送入专用的热压罐中,在特定的温度与压力下经历漫长的固化过程。 在加工期间,车间设备必须高精度地控制升温与降温的速率,同时维持特定的压力环境。由于系统对环境参数波动的容错率很低,任何细微的偏差都会让整块碳纤维部件面临报废。 这样的加工方式自然限制了它的产能,高昂的时间成本与材料损耗让这台车无法进行大规模量产,而这本身,也构成了 Nuvolari 高昂售价的基础。 内燃机在我们的品牌基因中依然占据着位置,谈论赛道性能与驾驶情感时,我们需要这台 V8 引擎在场。 奥迪技术负责人在发布会后的媒体采访中坦言。 奥迪如今对超跑和混动技术的持续投入,与他们在赛车运动上的战略布局紧密相关。 今年是奥迪以厂队身份进军 F1 的第一年,奥迪不仅需要通过赛事来向外界证明自己的工程研发实力,同样也需要给整个品牌的高性能形象输出技术资本。 在一个民用车市场逐渐走向电动化的时期,如果缺少了顶级赛事的参与,老牌车企很难在车迷群体中维持原本的技术号召力。Nuvolari 的推出,正好呼应了奥迪在 F1 赛场上的高调姿态。 面对全新的 F1 动力单元规则,赛车对混动系统输出比例和能量回收效率提出了更高的技术指标。奥迪既要通过顶级赛事来验证自己的电气化与材料工程实力,同时,也需要一款旗舰产品将这些赛道技术转化为品牌资产——Nuvolari 便是这种战略下的产物。 他们的野心并不止于顶层的限量超跑。 据 Carscoops 报道,奥迪近期在测试一款纯电小跑车,它很有可能就是奥迪 TT 的继任车型。这辆小跑车将与即将推出的保时捷纯电 718 Boxster 共享同一平台,但轮距要比后者更宽,动力表现也很有可能会更强。 显然,如今的奥迪,正在将品牌关键词由「科技」转向「运动」。 1981 年,奥迪带着初代 Quattro 制霸世界汽车拉力锦标赛,那是奥迪第一次在全世界车迷面前建立起硬核的运动形象,「Quattro」也自此成为了奥迪的金字招牌。 时隔四十多年,奥迪又走上了这条路。虽然这条路如今不一定走得通,但至少在今天,Nuvolari 用硬朗的金属折线和万转 V8,为奥迪留下了一个足够硬朗的背影。 文 | 李华
全球实现全链路自研的手机品牌,只有四家,两家在中国
如今智能手机已经成为了消费者手中最普通的电子产品了,一年的销量超过了12亿,保有量超过了50亿,手机已经成为了很多人必不可少的产品。 并且现在手机的门槛也挺低的,毕竟有现在的芯片、系统,甚至各种元件,供应链相当的成熟,只要有钱,造手机还是挺容易的。 也正因为如此,所以现在手机厂商,大多都是采用供应链方案,很多品牌厂商竟然是直接ODM,即委托一家专业的企业设计、制造手机,打上自己的LOGO,就成了自己的手机,然后对外销售。 不过,也正是因为这样的情况,所以有实力的厂商,也开始进行全链路自研了,即自己研发芯片,研发系统等,这样自己的手机会更有竞争力。 但是放眼全球,目前拥有芯片+系统的全链路自研手机品牌,全球也只有四家,而这4家之中,有一家在美国,一家在韩国,两家在中国。 第一家自然是苹果了,苹果有自己的A系列芯片,并且是手机芯片中的王者,苹果更有自己最强大的武器iOS,相比于芯片,这个才是苹果的看家本领。 也就是靠着iOS系统,苹果才混到如今机圈大哥的位置,在手机圈的地位,那是所有安卓机加起来,都打不过的。 第二家自然是三星,三星是韩国企业,别看韩国小,但三星应该是产业链而已最全的手机企业,没有之一。 三星有自己的芯片,有自己的系统,有自己的屏幕,自己的内存,自己的闪存……几乎可以说三星可以做到核心元件全部自给供应,这个能力全球独一家。 第三家当然是中国的华为,华为有自己的麒麟芯片,前几年被打压暂时停产了几年,但如今已是王者归来了,利用韬定律,可以基于7nm工艺,制造出等效3nm工艺的芯片来。 华为有自己的鸿蒙系统,与安卓再无瓜葛,形成了自己的鸿蒙生态,华为也是一家全链路自研的企业。 第四家就是中国的小米,虽然很多人对小米颇有微词,但其实小米也是目前拥有自研芯片的手机厂商之一,去年小米推出了玄戒O1,今年会推出O2,又会是一颗3nm的芯片。 去年小米的玄戒O1出货量超100万颗,今年的会更多,并且会用在更多的产品上,可能连汽车都会使用上自研芯片。 这就是当前拥有全链路自研的四家企业,你觉得这四家中,哪一家实力最强?

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。