EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
谷歌DeepMind研究:Gemini AI存“畏死”情绪,导致推理能力明显下降
IT之家 6 月 18 日消息,科技媒体 TechCrunch 昨日(6 月 17 日)发布博文,报道称谷歌发布最新论文,发现其最新 AI 模型存在“畏死”行为特征,在《宝可梦》游戏中角色濒死时,会出现类似“恐慌”的异常决策,导致推理能力明显下降。 IT之家援引论文观点,通过 Gemini 2.5 Pro 测试《宝可梦》游戏,发现 AI 在处理复杂情境时会出现人类般的非理性反应。 谷歌团队在报告中指出,在 Gemini 控制的宝可梦角色生命值接近归零时,模型会触发类似“恐慌”的异常状态,导致推理能力显著退化。 这种现象表现为 AI 突然停止使用现有策略工具,其决策模式与人类在压力下仓促判断的行为高度相似。 Anthropic 公司的同类研究,还揭示了 AI 游戏行为的双重特性。Claude 在挑战月见山关卡时,错误理解游戏规则,企图通过让所有宝可梦全灭来实现快速移动。 但根据游戏机制,玩家只能返回最近的宝可梦中心而非最近城镇,导致 AI 角色在迷宫中反复受困,这类失误暴露了当前 AI 对环境规则的机械式理解缺陷。 不过在特定领域,AI 展现出超越人类的能力:通过人类辅助设计的“能动工具”,Gemini 2.5 Pro 能精准解决胜利之路的滚石谜题,仅凭一次提示就能推演出复杂路径规划方案。谷歌推测未来模型或能自主开发此类工具,但距离完全自主决策仍有技术鸿沟。
M1“超长记忆”吊打R1,MiniMax的好日子来了?
MiniMax 四处突围,终于撞上了自己的「好日子」。 昨天凌晨,MiniMax正式开源它们的第一个推理模型M1,这款模型虽然在各项基准测试中表现「相貌平平」,却拥有业界最长的上下文能力:100万token输入,8万token输出。除了高调开源M1,另一个消息正在各大AI社区传播:MiniMax正在邀请用户测试它们的通用Agent。 在错失推理模型先发优势后,这家曾被认为是AI六小龙中最稳健的公司,想在下一程赢回来。 现在,它们终于等到了一个正在急剧缩短的时间窗口——Agent爆火的2025年。 那么,MiniMax这回推出的M1以及正在内测的Agent到底实力如何?是否还能在明星AI初创公司和大厂的强敌环伺下「正面突围」? 「直面AI」(ID:faceaibang)实际上手体验了下,并深度解读了这次的技术报告,「挖出了些」背后的东西。 01 上下文 + Agent能力是新模型的核心 接下来,我们实地测试下MiniMax M1推理模型和MiniMax Agent。 先来说下M1推理模型,它给我的第一个感受就是推理链很长,这其实与最近国产开源的几个前沿大模型的表现很相似,像是前段时间的Qwen系列以及DeepSeek的最新小版本。它们透露出来的能力都是推理很强,但是推理链非常长,网友们也多次指出:极长的推理链,往往会让模型输出结果走偏。 比如,像下面这个「钢琴键盘可视化小游戏」,我输入了一段提示词: [角色设定] 你是一名前端开发者,擅长用原生 HTML + CSS + JavaScript 创建交互式页面。 [任务目标] 在网页端实现一个「钢琴键盘可视化小游戏」,支持鼠标点击或键盘按键触发高亮,无需播放音乐。 *[核心功能] 1. 绘制 14 个白键 + 10 个黑键(C4–C5)。 2. 点击/按键时,对应琴键变为高亮色,松开后恢复。 3. 页面顶部实时显示被按下的音名(如 “C4、D#4”)。* [键盘映射] • A–L 对应白键 • W–O 对应黑键 [技术要求] • 不使用任何框架,只用 原生 HTML/CSS/JS。 • 代码放在单个 index.html 中,可直接双击打开运行。 [样式细节] • 白键默认 #fff,黑键默认 #333。 • 高亮色统一用 #f59e0b(亮橙)。 • 页面居中,宽度 ≤ 800 px,移动端自适应。 MiniMax M1足足思考了791.2s,大部分时间都在思考键盘与字母的搭配问题,似乎在这一过程中,陷入了无尽的思考之中。 而且,我还在它的思维链里直接发现了可视化的「钢琴键盘」: 在经过大量时间的思考后,M1认为题目中的键盘映射存在矛盾,可能无法完全正确实现。不过,它仍然给出了一份完整的代码,我将它部署了一下,你可以看看效果,还是比较完整的: 除此之外,官方也给了几个案例。 比如,用MiniMax M1构建一个打字速度测试工具,它生成了一个简洁实用的网页应用,能实时追踪每分钟打字词数(WPM): 用MiniMax M1创建一个迷宫生成器和路径查找可视化工具。随机生成迷宫,并逐步可视化算法解决迷宫的过程。使用 canvas 和动画,使其视觉效果吸引人: 可以看得出来,在现在最火的Coding(代码)能力上,最新发布的MiniMax M1表现出的能力跟现在的第一阵营大模型并没有拉开差距,但这同时也意味着这个「开源」模型已经是第一梯队的了。 除了一般的代码能力之外,我还特意去测试了一下M1最大的特点:长上下文窗口。在实际体验过程中,我发现它的上下文确实「太长」了,并且展现了工具调用能力。比如,我让它翻译一下OpenAI o3和o4-mini的系统卡,这份PDF文件有33页,并且涵盖了大量图表。 M1完完整整地翻译了这个33页的PDF,并且所有的格式都尽量还原OpenAI o3和o4-mini的系统卡文件,比如大量的表格和图片。 在它呈现出的结果之中,表格部分像一般常规基础模型一样直接生成: 而一些图片部分则直接调用工具进行了精准地裁切: 往往,大家通常不会用推理模型做翻译工作,这是因为翻译任务更依赖于语言模型对上下文的理解、语法结构的把握等等。而推理模型则更擅长处理逻辑链条的构建和一些复杂判断类任务。最主要的还是,用推理模型做长上下文工作总归有些慢以及「奢侈」。 总结下,MiniMax M1给我的感觉是:结构完整、反思能力强、重视结果导向,但是在其他的实际能力水平方面,M1只能说处于中等水平,并未展现出超出预期的惊艳。 不过,这样的能力倒是很适合Agent所需要的技术架构:具备一定推理链能力、任务流程明确、响应稳定,且易于接入和组合调用。 02 MiniMax 首款通用Agent:中规中矩 接下来,我们再看看它们正在内测的通用Agent表现如何。 MiniMax Agent展现出的能力,我们大概可以分为两块:前端效果上要更好一点,项目整体的交付更加完整。 这里,我们用一个实际案例来展示,输入一段提示词: 做一个PPT类型效果的网页,介绍OpenAI的发展历程。 Agent在实际制定任务计划后,首先通过广泛的网络搜索,全面搜集关于OpenAI发展历程的各类信息: 它还会调用像是爬取网络信息的工具,针对信息质量高的网页提取核心数据: MiniMax Agent相对于其他「传统」Agent来说有一个可以说是创新的点,就是它会利用浏览器测试自己开发的网站,像是其他Agent往往会利用浏览器视觉理解其他网站,而不会针对自己所做的成果再度审查: 最后,它呈现出的效果还是不错的: 从发展历程、关键人物、核心产品、增长数据、未来展望都完整地覆盖了,同时网页具有一定的细腻程度,我录制了一个完整版的视频: 接下来,我们看看MiniMax M1的技术报告,其中的内容并不算太过惊艳,但也有一些干货。 03 一份并不算太过惊艳的技术报告,但有干货 (1)性能 从测试数据来看,MiniMax M1的表现可以用「偏科生」来形容。在AIME 2024的奥数逻辑题、LiveCodeBench编程挑战,以及SWE-bench Verified的真实代码修改任务上,M1的成绩只能说中规中矩——既没有惊艳到让人眼前一亮,也没有差到让人失望。 「还行,但不够亮眼」。 在这些常规基准测试上的表现,再搭配上现在这个时间点,M1的表现或许可以用「稍许失望」表示。 但是,当场景切换到软件工程、长上下文处理和工具调用等更贴近实际生产力需求的复杂任务时,M1展现出了显著的优势。 比如,下表里的基准测试—— TAU-bench,其全名是(ToolAgentUser benchmark)。这是一个真实世界工具呼叫对话任务评估框架,涵盖 Airline(航空预订)和 Retail(零售)两个子域 。主要评估 AI 智能体通过多轮对话与用户互动,像是调用订票/修改/退票等 API,并依据复杂政策文档执行任务的能力 。 MiniMax M1的两个模型(40k和80k)在TAU-bench(Airline)里都获得了最高分;长上下文基准测试里,M1也站上了第一梯队: (2)技术架构解读 在技术架构创新上,M1有两个特别值得关注的亮点:以闪电注意力机制为核心的混合架构,以及更高效的强化学习算法CISPO。 M1最亮眼的规格当属其100万token的上下文输入能力,这个数字和Google Gemini 2.5 Pro并列业界第一,是DeepSeek R1的8倍。并且,它还支持8万token的推理输出——这个数字已经超越了Gemini 2.5 Pro的6.4万,成为目前世界上输出最长的推理模型。 这种「超长记忆」能力的背后,是MiniMax独创的以闪电注意力机制为主的混合架构。 闪电注意力(Lightning Attention)由来已久。 但其实,MiniMax早已研究线性注意力架构(Linear Attention)数年。MiniMax的架构负责人钟怡然曾在下面这篇数年前的论文里,就已经开始研究线性注意力架构(Linear Attention): 早在今年1月15日发布MiniMax-01时,他们就做出了一个在业内看来相当「冒险」的决定:放弃「主流」Transformer路线,转而大笔押注线性注意力架构(Linear Attention)。这一架构在早期表现并不好,并且被认为如果经过放大,可能会失效。 线性注意力架构基础上的工程级实现——闪电注意力机制,通过分块算法提升速度、降低延迟。在处理100万长度的输入时,传统的softmax attention的延迟是lightning attention的2700倍。 在强化学习方面,MiniMax提出了CISPO算法,通过裁剪重要性采样权重而非传统的token更新来提升效率。 在AIME的实验中,他们发现,该方法的收敛速度是包括字节近期提出的 DAPO 在内的强化学习算法的两倍,明显优于DeepSeek早期采用的 GRPO。 (3)成本 得益于前面提到的两项技术创新,M1的强化学习训练过程效率惊人——整个过程仅用了512块H800芯片,训练时间只有三周,租赁成本仅为53.47万美金。这比MiniMax最初的预期少了一个数量级。在动辄千万美金训练成本的大模型时代,53万美金训练出一个推理模型,似乎有些夸张了。 我们可以对比下同样拥有完整产品系列并且玩开源的Llama4——这个在前段时间「爆红」互联网的「令人失望」的产品。早在去年,扎克伯格就透露过:他们部署两个大型训练集群来支持 LLM 研发:其中一个集群配备了 22,000 块 NVIDIA H100 GPU,另一个则配备 24,000 块 H100 。 M1的这种成本优势会在实际应用中持续发挥作用。假设,当需要生成10万token时,M1的推理算力需求仅为DeepSeek R1的25%——这意味着在同样的硬件条件下,M1可以服务更多用户,或者以更低的成本提供同样的服务。 这种算力效率上的优势,配合100万token的输入能力和8万token的输出能力,让MiniMax在长上下文应用场景中具备了独特的竞争优势。 而Agent就是一个典型场景。据“晚点LatePost”报道,MiniMax创始人闫俊杰认为 long-context(长上下文)是 Agent(智能体)的重要能力,它能增强 AI 的 “记忆”。提升单 Agent 交互质量和多 Agent 之间的通讯能力。 这也让业界认为MiniMax这会儿推出的长上下文推理模型是否是「专门为了Agent而造」?这是否意味着MiniMax将要All in Agent了,凭此继续留在「牌桌」上? 04 围战 Agent 的大趋势让 MiniMax 缓了一口气 围战 Agent 的大趋势让四处突围,在多模态领域不断做长线战斗的 MiniMax 缓了一口气,似乎看到了一丝「曙光」。 2025年被业界广泛认为是AI Agent之年。现在,2025年刚过去了一半,我们已经看到了如此多的通用Agent或者是垂类Agent产品,它们或来自大厂或来自明星AI初创企业,像是:字节的扣子空间,百度的心响,Flowith,Manus等等。 在这场竞争中,「长上下文」确实是一张重要的牌,而M1的优势也在于此。 现在 AI Agent 通常依赖于一套「感知—推理—行动」的端到端闭环能力,对模型在长上下文处理能力、模块化推理、指令响应稳定性以及轻量化部署等方面有着极高要求。而 M1 恰恰在这些核心能力上展现出强大的适配性:它不仅具备链式思维(CoT)生成能力,还能在多轮交互中保持上下文一致性,且推理效率表现属于第一梯队中等水平。 随着Agent进入应用场景,无论是单个Agent工作时产生的记忆,还是多个Agent协作所产生的context,都会对模型的长上下文窗口提出更多需求。这就像人类团队协作一样,大家必须对项目背景有共同的了解,才能高效配合。 但长上下文真的能「包打天下」吗?答案是:重要,但远非全部。 决定Agent成败的关键因素还有许多。 比如:Agent是否能够以「端到端」能力强化学习,培养「干中学」?还有就是现在最看重的工具调用和多模态能力。现实世界的任务往往需要调用各种工具,从搜索引擎到专业软件,从文字处理到图像识别。这些都成为Agent能否展现足够产品力的决定性因素。 除此之外,一个最关键也是最容易被理解的因素是:主模型。这半年来,我们往往能看到许多Agent厂商在强调一件事:让主模型坐镇,调用专家Agent。这也对模型除了长上下文之外的性能提出了更高的要求,主模型的推理能力、任务分解能力、决策判断力,直接决定了整个Agent系统的上限。 而MiniMax在最前沿基础模型上的技术积累似乎并没有这么深厚。 不过,仍值得注意的是,MiniMax是一家多模态原生模型公司。这意味着在Agent时代,他们几乎只需要解决商业化问题。因为,除了像其他厂商一样套用SOTA级别大模型的API之外,MiniMax可有太多选择了。 除了利润点和Agent产品力之外,或许我们还可以关注下「产品的稳定性」。过去两年,投资者向Agentic AI初创公司投入了超过20亿美元,而OpenAI在5月6日宣布以30亿美元收购Windsurf;之后,Anthropic就「断供Windsurf」了。据说,连 Claude 4 发布当天,Windsurf 都没拿到接入资格。这无疑对产品的影响是巨大的。 真正的胜负,将取决于谁能在长上下文、强化学习、工具调用、多模态理解、成本控制、用户体验等多个维度上实现最佳平衡。MiniMax在长上下文领域的技术优势,为其在这场竞争中提供了话语权,但最终的胜负手,还要看谁能更好地将技术转化为用户价值。
MiniMax发布视频生成工具Hailuo 02,打破全球视频模型效果成本纪录
IT之家 6 月 18 日消息,MiniMax 稀宇科技宣布将连续五天发布重要更新,今天更新了第二弹 ——Hailuo 02。 据介绍,Hailuo 02 是目前全球唯一一个可以做到类似体操这种高度复杂的场景的模型,旨在帮助全球创作者更加充分地释放想象力,提升视频质量,降低创作门槛,同时又不给创作者增加太多成本负担。 团队坚持探索更高效的视频生成模型架构,最终得到 Hailuo 02 背后的核心架构 ——Noise-aware Compute Redistribution(NCR)。更具体一点,这个新架构的核心思路如下: MiniMax 表示,在同等的参数量级下,新架构使其训练和推理效率提升了 2.5 倍。从而在不增加创作者使用成本的情况下,采用更大的参数规模,从而让模型有更好的表现力;又考虑到一定的推理优化的空间。最终把模型的总参数量扩大到了上一版模型的 3 倍。 更大的总参数量和更高的训练效率意味着我们可以拟合更多的数据,最终 MiniMax 把数据量扩大到了上一版的 4 倍,同时数据的质量和多样性也显著提高。 MiniMax 表示,新模型可以完整响应一些相当复杂的指令,让仔细编写的 prompt 得到更好的反馈。另外,得益于高效的新架构,创作者甚至可以用相对实惠的价格生成原生的 1080p 视频。 开发人员在 Artificial Analysis Video Arena 上请用户测试了模型的一个早期版本,排名全球第二。 MiniMax 表示,目前 Hailuo 02 提供三个版本:768p-6s,768p-10s,和 1080p-6s。 得益于上述的架构创新,其价格不管是对比国内的大厂,还是海外的大厂以及创业公司都具有一定的优势。IT之家附官方价格对比图如下: MiniMax 表示,Hailuo 02 是一个新的起点,接下来将继续在以下几个方面更快速更新: 生成速度提升 更好的偏好对齐,抽卡率 / 稳定性提高 T2V / I2V 之外的高阶功能的实现
体验完豆包 AI 播客功能,我才知道知识可以这么轻松进脑子
大多数想认真阅读的人,都栽在了 PDF 第三页。 剩下的,只能躺进收藏夹,成为「留着以后读」的文件。而随着豆包昨天上线 AI 播客功能,现在,它们终于有了一个更实用的去处。 只要上传 PDF、网页链接、单词或论文,就能快速生成一段双人对话播客:AI 提问,AI 解读,把原本晦涩难啃的内容,讲成一场有逻辑、有节奏的对话。 信息轻了,理解快了,豆包 AI 播客也更贴近当下的生活节奏。我们也将本文用豆包制作成了播客,边听边看体验更佳。 难啃的论文报告,几分钟就能讲明白 使用方式很简单,打开豆包,点击或者 @ 就可以使用 AI 播客功能,接着上传 PDF 文档,或者添加网页链接即可,不过,遗憾的是,目前还不支持直接输入纯文本生成。 比如我上传了一份最近爆火的苹果英文论文:The Illusion of Thinking。 整篇论文结构复杂、论点犀利,普通人容易被各种术语绊住节奏,读完至少得花上小半天。但豆包播客能够提炼逻辑、编排结构、模拟对话、生成语音,最后还自动配封面、全流程几分钟搞定,完全不需要插手。 响应速度也很快,即传即播,体验主打一个丝滑流畅。 豆包 AI 播客最打动人的地方还在于,它不是一段单向朗读,而是模仿播客中典型的 A/B 双人角色,一人提问,一人回应,不时带点幽默吐槽,节奏灵动,不呆板。 多听几段你会发现,它的内容节奏就很有「播客」范。 开场会有一段快速摘要,提炼要点,接着切入对话,展开解读,通过「疑问—解答」「吐槽—科普」的方式,把本来抽象晦涩的长文本变得鲜活易懂。 让 AI 对话本身不难,但没有人想听两个机器人机械化地聊天。这里面还有很多微妙的细节,除了声音要像人,还得模拟人讲话时常出现的口吃、停顿和插入语等不流畅的表达,才会让我们感到是两个聪明亲切的朋友在对话。 这种互动式的语言表达方式,在心理学上有个名字:Social Presence(社会临场感)。当声音有互动,有节奏、有情绪,你的大脑会更自然地调动注意力,形成参与感。 这也是豆包 AI 播客比传统朗读工具更容易「听下去」的核心原因。 除了论文,我更喜欢把它当成读书工具用。 比如我最近被朋友推荐一本《基督山伯爵》,但纸书太厚,时间太紧。 我随机上传了前六章左右的内容试试看,没想到豆包 AI 播客给了我不小的惊喜,原本我以为它会干巴巴朗读章节,没想到它迅速筛选出开头提到的人物关系,几分钟就带我进入这个庞大的故事世界。 你别说,听完之后,顿时就觉得这本书值得好好花时间精读。 有意思的是,豆包 AI 播客还支持追问书籍的相关内容。 比如听完生成的播客之后,我萌生了想知道这本书结局的念头,只需输入一句「结局是怎样的」,豆包便能结合我之前上传的文档内容章节,判断用户可能没有读过全书,然后自动控制剧透比例。 既交代结局,也不过度透露细节,还会补上一段升华的主题。 值得一提的是,豆包 AI 回答用户提出的问题之后,通常支持二次追问,而在播客的场景下,这个功能设计反而派上了大用场。底下这几个引导式的问题,能够帮助我进一步发散思考,深入理解这本书籍的内容。 哪怕是《道德经》这种晦涩难懂的文本也能讲得明白。聊到原文的时候,可以很明显察觉到,豆包 AI 的语气是带有情绪的,语调会刻意放缓,听起来不那么艰深,反而多了一点真实交流的温度。 互联网打工人的高频痛点,就是报告太多、时间太少。 前不久,互联网女皇 Mary Meeker 发布首份「AI 趋势报告」,长达 340 页,引发业界围观,于是我们也上传了这份报告,试图看看它能不能讲清楚重点。 由于整份报告信息量巨大,以及图表密集,这对豆包 AI 播客的解读能力提出了不小的挑战,但尽管如此,它还是很好提炼出主要的趋势与发展脉络,原本埋在文档里的干货,被转化为通俗易懂的口语内容,既节省了阅读时间,也让复杂信息变得更易吸收。 备考、刷歌、听演讲,用豆包 AI 播客打开另一种方式 如果你备考六级还会拼错「Abandon」,那是时候该换种学习方式了。 你还能把豆包 AI 播客当成语言学习工具。我上传了一份英语六级高频词汇 PDF,它没有照本宣科,而是选择重点词讲解,并结合用法、语境、出题规律等角度,像良师益友逐层讲透,也更容易代入。 将播客作为六级备考的辅助材料,实在是再合适不过了。 最近,《李白》这首改编歌曲在舆论场上爆火,评价至今褒贬不一。 我也很好奇,这首歌词如果交给 AI 会得到怎样的解读。结果来看,豆包播客的处理方式相当克制,不情绪化,而是拆解每段歌词的结构和隐喻,这种解读方式,倒是有些像翻书讲故事,反而听出了点新鲜感。 20 年前,乔布斯在斯坦福大学的演讲让人记忆尤深。 在上传公众号网页链接后,豆包 AI 播客功能将这篇精彩的演讲转录成了播客,重述没有套用「鸡汤式」的语言,也没有过度煽情,反而同样是采用提问的方式,更聚焦核心信息本身。 解读过程有条理,也能察觉出 AI 主播里的情绪层次。乔布斯的演讲,我们早就读过、背过,但以这种对话形式重新听一遍,反而有了新的理解。 你只需上传,剩下的交给豆包。 如果你还不知道从哪开始,现在,不妨随手找一份 PDF、歌词、网页、教材扔给豆包试试看。讲真,这可能是你打开 AI 播客的第一个理由,但绝对不是最后一个。 AI 播客是技术的「人性化」 语言,是比阅读更早诞生的能力。医学期刊《神经影像》一项研究显示,爱阅读的人,恰恰对声音也更敏感。 我们可以一边听一边走路,一边听一边做饭,注意力的结构,决定了「听」这种信息传入方式,比看更轻量,也更贴近生活节奏。 但我们每天眼睛盯屏幕的时间已经接近生理极限,将冗长文字信息快速提炼并转换为轻松易懂的形式,正是用户所渴望的,这也是播客这种产品在近几年快速增长的背景。 豆包 AI 播客这类音频产品,实际上是试图用 AI 的拟人对话,去触及我们作为人类最深层、最古老、最根本的部分。用曾打造 NotebookLM 的产品经理 Raiza Martin 的话来说: 这种技术是「人性化」的,就是当你意识到它与你非常相似,以一种不同的方式引起共鸣。 根据 Cartesia 的数据,在最新一届 Y Combinator 创业营中,22% 的 YC 新创公司都在做语音 Agent,从底层模型到垂直 SaaS 形成完整堆栈。语音是极佳的切入点,落地快、连接场景多,更能横向扩张为全栈 AI 产品。 这个趋势在播客领域也已显现。以往优质播客/有声读物需要人工录制生产,写稿、录音、剪辑、发布,一个小时的节目可能要花十几个小时,而现在生成式 AI 可以大幅提升音频内容的生产速度 。 豆包 AI 播客只需要几分钟,能从文档自动生成一段完整流畅的播客 ,语音不露痕迹,逻辑还很顺畅。低门槛、零剪辑、全自动。 播客的门槛,从来没这么低过。但 AI 播客的意义,其实不在于和现有的播客生态竞争,而是让内容以更合适的方式来进入我们的大脑。 不久前我们对话了小宇宙的 CEO Kyth,他提到 AI 生成内容注定会越来越多,用户会更想要独特的、不一样的、有活人感的内容。 所以说,AI 播客要复刻的不只是人类的声音,更重要的是再现人类主播的陪伴感与身份认同。现在,豆包 AI 播客作为一个工具,其实是可以让更多人制作并触达这样的内容。 你听不出它是 AI,却能被它说服,大大降低了收听长篇内容的疲劳感,也就更能理解、记住并集中注意力。 内容没变,姿势变了,效率也就上来了。 上班族可以把行业报告或竞品分析链接发给豆包,瞬间获得一段通俗易懂的播客摘要,在忙碌间隙就能快速抓取关键信息;学生也可以把课程教材要点交给豆包,能听懂的知识,才是真正用得上的知识。 归根结底,所有 AI 产品的长期命题,都是成为用户的使用习惯。 答案或许不是更强的模型,而是越不被察觉的交互。屏幕打断注意力、键盘需要操作,不打扰、不打断、不需要被注意,却一直存在,成了语音作为 AI 「外壳」的独特价值。
1分钟烧掉165万元!马斯克死磕OpenAI,300亿新融资豪赌AGI
编辑:犀牛 xAI正以每月10亿美元的惊人速度烧钱。面对激烈的AI军备竞赛,xAI通过43亿美元的股权融资和50亿美元的债务融资,押注自建基础设施和X平台数据优势,力争2027年实现盈利。这场高风险的豪赌,能否让马斯克再次改写科技史? 一组令人瞠目结舌的数字正从硅谷的核心地带传来—— xAI,这家成立仅两年的AI初创公司,正以每月10亿美元的速度烧钱! 当你读到这句话时,几秒钟内,就会有数万美元化为服务器集群的算力与能源。 为了平衡这种夸张的支出,xAI正进行一轮43亿美元的新股权融资,并计划明年再筹集64亿美元。 同时推进的还有一笔50亿美元的债务融资。 这听起来很疯狂。 也是史上最昂贵的一场科技赌局:在OpenAI、谷歌等巨头环伺的牌桌上,马斯克和他的xAI,究竟会凭借这场豪赌逆天改命,还是会制造一个超过800亿美元的惊天泡沫? 金钱的熔炉:AI军备竞赛 每个月烧掉10亿美元是什么概念? Grok它自己算出来的结果大约是每分钟烧掉23万美元。 这么大一笔钱,在xAI仅仅是维持公司「活着」的成本而已。 从2023年成立到今年6月,xAI总共融到了140亿美元的股权资金。但到了今年第一季度初只剩了40亿美元,而且公司预计在第二季度几乎会把这笔钱花光。 为什么这么贵? 原因很简单:我们正经历一场前所未有的「算力战争」! 如果你认为人工智能的成本只是维持一群天才程序员的薪水,那就大错特错了。 真正的「吞金兽」,是那些驱动AI训练和运行的硬件基础设施——成千上万、甚至数十万个英伟达高性能GPU芯片,以及为它们供电、散热的数据中心。 全球顶级私募Carlyle Group预测,到2030年,将有超过1.8万亿美元的资金,来投入建设支撑AI所需的基础设施。其CEO Harvey Schwartz在致股东信中表示。 CreditSights的高级分析师Jordan Chalfin一语道破:「AI训练公司们将不得不背负巨额债务,他们会烧掉大量的现金。」 「这个领域竞争异常激烈,他们正在争夺技术霸权。」他说。 这就像一场新的军备竞赛,算力,就是AI时代的核武器。 没有足够的算力,再天才的算法、再多的数据也只是纸上谈兵。 马斯克深谙此道。 所以,他选择了一条最直接也最为昂贵的道路——不计成本地购买「武器」(GPU),自建「兵工厂」(数据中心)。 然而,这场豪赌的另一面,是xAI略显单薄的营收报告。 据向投资者披露的信息显示,xAI今年的营收预计仅为5亿美元,明年将增长至超过20亿美元。 相比之下,OpenAI今年的营收将达到惊人的127亿美元。 一边是每月10亿美元的巨额支出,一边是尚未规模化的收入。 这个巨大的财务缺口,就是xAI这场赌局最惊心动魄的地方。 为了填补这个缺口,xAI正在进行一轮高达43亿美元的新股权融资,并计划明年再筹集64亿美元的资金 此外,彭博此前还报道,摩根士丹利正帮助其筹集50亿美元的债务融资。 据透露,这笔债务融资将用于支付数据中心开发。 马斯克凭什么能让华尔街最顶尖的投资者,如Andreessen Horowitz、红杉资本(Sequoia Capital)心甘情愿地为这场疯狂的烧钱之旅买单? 马斯克的底牌 要理解xAI,必须先理解马斯克本人。 这位世界首富的商业生涯,本身就是一部「反常识」的教科书。 他似乎有一种特殊的能力,能在盈利之前扛住巨大、持续的亏损。 比如,2017年,因为Model 3的产能问题,特斯拉每季度烧掉10亿美元。 华尔街的分析师们纷纷预测特斯拉即将破产。 结果呢,特斯拉不仅挺了过来,还开启了全球电动汽车时代。 再比如SpaceX。 在成功实现火箭回收、主导全球商业航天发射之前,也经历了长达数年的稳定亏损和一次次惊心动魄的发射失败。 在马斯克的世界里,巨大的前期亏损,往往是构建「护城河」的必要代价。 这次,在xAI的牌桌上,马斯克手里攥着3张独一无二的王牌: 第一张王牌:他自己。马斯克的名字,本身就是一块金字招牌。他一次次将看似不可能的狂想变为现实的履历,让投资者愿意相信,这一次他也能创造奇迹。 第二张王牌:数据金矿X平台。这可能是xAI最核心的优势。X平台拥有海量的、实时的、真实的、源源不断的人类对话数据。当其他AI公司需要花费巨资购买或在灰色地带爬取数据时,马斯克直接坐在了金矿上。 第三张王牌:垂直整合的决心。与一些租用芯片和服务器的竞争对手不同,xAI斥巨资购买硬件、自建基础设施。短期来看,这极大地加重了财务负担,但从长远看,这能带来更低的边际成本和更强的技术掌控力。 凭借这些底牌,xAI向投资者描绘了一个乐观的未来:xAI预计在2027年实现盈利。 这个时间表甚至比OpenAI预计的2029年实现正向现金流还激进。 正是这种马斯克式的叙事,支撑起了xAI估值从2024年末的510亿美元飙升至今年第一季度末的800亿美元。 为了「探寻宇宙真相」的AGI 然而,如果我们仅仅从商业和财务的角度来看待xAI,可能就错过了这场赌局真正的核心。 马斯克想做的,可能从来都不只是一个更会聊天、更能写代码的聊天机器人。 在他的多次公开表态中,都毫不掩饰自己的终极目标:创造能够与人类匹敌甚至超越人类的通用人工智能(AGI)。 他给xAI的Grok定位是「一个寻求理解宇宙真实本质的AI」。 这野心,已经超越了商业竞争,进入了更深刻的领域。 x在数学中代表未知数。xAI这个名字本身,就充满了探索未知的隐喻——马斯克正在尝试求解的,是智能这个宇宙级的终极方程。 让我们回到最初的那个熔炉。每月10亿美元的烈火仍在燃烧,xAI的融资仍在与支出赛跑。 这是一场高杠杆、高风险、高回报的豪赌。 牌桌上,马斯克已经All-in。 他的底牌,是过去的成功、X平台的数据以及对未来的宏大构想。牌面上,是惨淡的营收和惊人的烧钱速度。 xAI能否逆袭成功? 也许只有时间能给出最后的答案。 参考资料: https://www.bloomberg.com/news/articles/2025-06-17/musk-s-xai-burning-through-1-billion-a-month-as-costs-pile-up https://www.bloomberg.com/news/articles/2025-06-17/musk-s-xai-in-talks-to-raise-4-3-billion-in-equity-funding
华为汪涛:2030年近30亿AI机器人将进入工厂和家庭
快科技6月18日消息,近日,在2025 MWC (世界移动通信大会)上海期间举办的全球移动宽带菁英论坛上,华为常务董事汪涛倡议产业界共迎变化,加速激活5G-A五大潜能,携手共赢移动AI时代。 今年,全球将有超过50张5G-A网络规模商用,覆盖超300个城市。 同时,5G-A终端全面成熟,涵盖手机、CPE、物联设备等多样化的终端类型。5G-A的加速发展,也给个人和行业带来新的价值。 另外,移动AI的发展速度远超想象。AI终端发货量增长百倍,到今年一季度,AI手机发货量累计3.6亿,70%新发货终端具备AI原生能力。 生成式AI的日均Tokens数已达到十万亿,同比增长千倍。全球Top100应用中,90%集成了AI生成能力,覆盖社交、娱乐、教育等场景,并且AI应用月活跃用户数已突破12亿。 移动AI时代,在个人通信领域,移动终端正从以APP为中心走向以Agent为中心,让每个人都有专属智慧助手。到2030年,全球将有近百亿的个人AI Agent,重塑用户交互体验。 交互方式走向跨应用个性化,交互场景走向跨设备场景化,交互体验走向跨模态情感化。随着Agent能力不断升级,它将深入社会的方方面面,成为全新的生活方式。 在行业物联领域,AI技术和IoT的深度融合,让物联成为智能世界的入口,充分释放联接红利。 AI机器人、智能车的发展,加速联接对象的扩展。到2030年,预计每年将新增超8000万辆网联汽车,近30亿AI机器人将进入工厂和家庭。 AI从辅助生产深入行业核心生产流程,加速联接场景的扩展。AI赋能低空经济等全新场景,加速联接边界的扩展。 到2030年,AI-IoT作为智能世界的入口,将带来10倍联接规模和联接价值。
AI 或将取代你的工作,但它也将创造这 22 种新职业
当下评论界对 AI 时代人类工作前景的预测日益悲观。风险投资人 Chris Sacca 最近在 Tim Ferriss 的播客中宣称“我们完蛋了”,预言程序员、律师、会计师、营销文案等白领职业都将消亡。自由职业平台 Fiverr 首席执行官 Micha Kaufman 在内部邮件中,又将设计师和销售人员列入“濒危职业”名单。 这类 AI 威胁论已成老生常谈,但鲜少有人探讨 AI 如何跨越“责任门槛”(目前最终为工作本身负责的人类,而非机器)。显然,AI 处理许多人类任务早已游刃有余。但在现实世界中,工作从来不只是任务堆砌——我们是在为能理解、互动并问责我们的人类群体(上司与同事)贡献劳动,这种关系模式很难移植到算法系统。 这并不意味着 AI 带来的颠覆不够深刻。LinkedIn 首席经济机会官 Aneesh Raman 指出:“数据显示到 2030 年,普通岗位 70% 的技能要求将发生改变。” 根据世界经济论坛《2025 未来就业报告》,未来五年 AI 等新兴技术将导致 900 万个岗位“消失”,但同期也将创造约 1100 万个新岗位,其中许多将是前所未见的新职业。 要预测这些新机会,我们首先需要审视:在 AI 的超凡能力与人类本质需求之间,哪些领域需要人类架设桥梁?这不仅关乎“人类希望 AI 做什么”,更在于“AI 需要人类做什么”。我认为有三个关键领域人类正变得(或即将变得)不可或缺:信任构建、系统整合与审美决策。 信任构建‌ 纽约大学研究 AI 经济影响的 Robert Seamans 教授预见到一类他称之为“AI 审计师”的新职业——这些人能深入 AI 系统理解其运作逻辑,并出于技术解释或责任认定目的,进行记录。他预测五年内,所有大型会计师事务所都将提供“AI 审计”服务。 他设想的另一相关职业是“AI 翻译官”:既懂 AI 技术又能向企业管理者解释其机器原理的桥梁型人才。“他们要在技术黑箱与管理者的认知之间搭建接口,帮助决策者理解必要信息。”Seamans 解释道。 从本质看,这两种设想都属于“信任”范畴。作为作者,我们拒绝提交 AI 生成的文章,既是因不愿辜负编辑信任,也因我们无法完全信任 AI ——不确信其真实性,不保证其准确性。由于没有亲历思考过程,我们无从判断机器生成的内容是否公允合理。所有尝试在专业领域使用 AI 的人,都将面临类似困境:这项技术能瞬间产出惊人内容,但我们该对其交付的内容,抱有多少信任?又该如何验证? 随着 AI 在职场的影响力持续扩大,此类信任问题将呈指数级增长,而解决它们必须依靠人类。 在“信任”大旗下,将涌现全新类型的事实核查员与合规官。法律文件、年度报告、产品规格、研究报告、商业合同——这些很快都将由 AI 起草,也都需要人类带着对 AI 典型错误的警觉进行复核。这可能催生“信任认证官”或“信任总监”等头衔。这些岗位还需与各类 AI 伦理专家协作,由后者构建可辩护的逻辑链条,向投资者、管理者、客户乃至法官陪审团解释 AI(或人机混合团队)的决策依据。“许多公司都尝试过组建‘伦理委员会’,”Seamans 说,“未来这类 AI 伦理委员会将被赋予更大实权。” 信任的核心是问责——这正是人类不可替代的关键。从合同签订到核弹发射系统,我们始终需要明确的人类责任主体。“必须存在最终担责的人类,”斯坦福HAI (Institute for Human-Centered Artificial Intelligence)数字经济实验室主任、AI 咨询公司 Workhelix 创始人 Erik Brynjolfsson 强调,“就像现在汽车事故要追溯是防抱死系统故障、驾驶员操作失误还是道路问题。AI 会让责任链条更复杂,但终究要落实到具体责任人。” 在法律、建筑等领域,AI 虽能完成客户所需的基础工作(如起草合同、设计房屋),但最终必须有人类(通常是持证专业人士)签字确认。这类新角色可称为“法律担保人”——提供 AI 无法具备的罪责承担能力。沃顿商学院教授、《人机共生:AI时代的生活与协作》作者 Ethan Mollick 将此类岗位比作 AI 的“代罪者”,是责任链条的终极节点。 另一新角色可能是“一致性协调员”。AI 擅长多线程操作,但保持一致性却是弱项。时装公司如何确保某件连衣裙在数十张 AI 生成图片中呈现精确一致?制造业的“虚拟孪生经理”如何保证数字模型随实体变更同步更新?当 AI 出现不一致时,就需要专人负责验证跨系统协调性。 还有“升级处理专员”——作家兼经济学家 Daniel Susskind 在《AI时代,人类还能做什么?》一文中指出,某些角色就是更倾向由人类担任。他举例即便 AI 早已碾压人类棋手,职业象棋比赛依然盛行。但当 AI 显得过于“非人”时,我们必然需要人类介入。比如客服 AI 陷入死循环时,用户会渴望获得具备共情能力的人类协助。教育领域同样需要这类角色,当学习出现问题时,学生家长都期待人类教师的干预。 系统整合 鉴于 AI 的复杂性,许多新职业将具有技术属性。市场亟需既深谙 AI 技术,又能将其映射到商业需求的跨界人才。 Seamans 称这类人为“AI 整合师”:他们确定企业最佳 AI 应用场景并落地实施。“CEO 可能在财报电话会上说‘我们正在投资 AI’,”Seamans 说,“但具体做什么?是后台的账单支付与收款?招聘筛选?还是优化白领工作流程?”解答这些问题需要既懂技术又懂业务的人才。 这包括新型“AI 维修工”——与传统 IT 专家不同,随着 AI 系统日益复杂且自主(AI agent 能独立解决复杂任务),故障排查需要能穿透网络层级、诊断根源的专家,可谓“AI 管道工”。 工具选择也成专业难题。以可汗学院 Khan Academy 为例,这家教育机构深度整合 AI 模型开发虚拟导师,帮助学生从代数到论文写作各领域。仅跟踪这些模型的改进轨迹、幻觉概率、各版本在语言或数学上的优劣势,就是项持续工程。“模型迭代速度惊人,”创始人 Sal Khan 表示,“你需要持续评估所谓‘改进’是否造成性能倒退。”专门评估最新模型的岗位可称为“AI 评估师”。 但这只是开始。“当学生问我‘该创立什么公司’时,我常建议他们成为‘连接客户痛点与技术潜力’的人。”Brynjolfsson 说。 LinkedIn 的 Raman 指出,整合类岗位已在激增。“过去五年‘AI 负责人’职位增长约三倍,AI 工程师是美国增速最快岗位,其次是 AI 顾问。”未来可能出现更细分的“整合专家”等头衔。 随着 AI 发展,这类岗位会进一步专业化。企业已开始使用高度定制化的 AI 模型——它们基于 Claude 或 ChatGPT 等通用工具,但通过公司专有数据训练。这可能催生两种新角色:其一是“AI 训练师”,负责筛选最优数据训练 AI 作出精准响应;其二是“AI 人格总监”——由于定制 AI 会与全体员工(甚至客户)互动,企业需要专人定义其交互风格:是像某些 AI 模型那样谄媚奉承?还是如 ChatGPT 的 Monday 模式般尖酸暴躁?未来,企业 AI 人格可能像 Logo 一样成为品牌核心。 在医疗等高复杂高风险的领域,整合角色将更为多样。比如“用药合规优化师”开发 AI 驱动系统确保患者准时正确服药。这类行业还需要“AI/人类评估专家”,判定 AI 与人类各自优势及最佳协作模式。 为说明整合的重要性,Seamans 以机器人领域为例(这也是他的研究领域)。与 AI 类似,机器人本应取代人力,但采用机器人的制造商往往最终雇佣更多员工。原因何在?“尚无定论,”Seamans 认为成功整合机器人的企业抢占了未采用者市场份额,从而扩大规模,“关键在于需要既懂机器人技术又懂产线改造的整合专家,而这类人才存在地域分布不均。” 审美决策 当然,告诉 AI 做什么始终是人类的工作。但在人人都能使用相同生成工具的未来,审美品味将变得空前重要。 有个广为传播的《60 Minutes》采访片段很能说明问题:Anderson Cooper 追问音乐制作人 Rick Rubin 究竟有何专长。 “你会演奏乐器吗?” “几乎不会。” “懂调音台操作吗?” “不懂。我没有任何技术能力,对音乐也一无所知。” Cooper 最后问:“那他们付钱请你做什么?” Rubin 回答:“我对自身品味的信心,以及表达感受的能力,对艺术家确有助益。” 这或许低估了 Rubin 的真实贡献,但在 AI 时代,“以绝对自信的审美立足”确将成为趋势。随着 AI 普及(无论好坏),我们将见证“无需技艺的创造力”兴起。 现在作者们拒绝 AI 代笔的部分原因关乎信任,但可以想见未来这种顾虑可能消失。如果编辑与作者们都能信任 AI,那么撰写文章可能演变为:作者负责选择输入素材,再从 Claude、ChatGPT、Gemini 等 AI 生成的语句、段落和论证中筛选组合。我们仍是文章“作者”本身,但或许不再是传统意义上的“写作者”。 当创意选择近乎无限时,敢于做出大胆、风格化决策的人才将炙手可热。这不仅适用于写作、影视、广告等创意行业,所有商业领域皆如此。 由此看来,“设计师”被列入 AI 替代职业名单似乎令人费解。确实,平面设计师不再需要手动调整版式或字距——这些 AI 都能完成。但设计师的本质工作是将创意选择导向预期结果,这需要基于品味做出大量判断:Logo 或页面需要传达什么?如何判定成品优劣?怎样衡量其影响力?甚至如何确认作品已完成?未来“设计师”一词可能涵盖更广,特指那些主要职责是引导 AI 根据其审美创造产品、服务或流程的岗位。 现有如“产品设计师”等头衔将被赋予更丰富内涵。未来的产品设计师将拥有对产品从宏观到细节的全面掌控力,其职责不仅是构思愿景,更是通过无数选择将愿景具象化。 还可能出现更多设计类细分头衔。比如我们可能不再是“作者”而是“文章设计师”;影视行业或流行“故事设计师”;从市场营销(构建完整虚拟宇宙支撑 campAIgn 视觉)到电子游戏,“世界设计师”需求将激增。这些角色更侧重风格而非技术执行。 在非创意领域,这类岗位可能更有趣。比如“人力资源设计师”能全面掌控从培训材料到详细休假政策的各个环节,从而更直接塑造组织文化;“市政设计师”可能比传统土木工程师更侧重创意而非计算,因而更受青睐。 “设计师”未必是最终称谓,但它标志着重要转变:越来越多人将承担创意与审美决策职责,引导 AI 实现其愿景。而且这些决策者将日益年轻化。当前对 AI 的主要忧虑是其取代初级岗位(传统上从事 AI 擅长的重复工作)。Raman 在《The Times》专栏中提出了解决方案:AI 能帮助新手工作者克服经验不足,使其在写作、研究、设计开发等各方面迅速提升。 这意味着新人不必再从撰写备忘录等基础工作起步(这些 AI 更擅长),而可以直接参与产品创意开发——这类工作传统上保留给资深员工。通过 AI 赋能,年轻员工能更快展现企业家精神,让组织各个层级(带着多元视角)都能投入创新探索,而非困于事务性工作。“随着这种模式普及,我们将进入以创业精神为核心的‘创新经济’新时代。”Raman 预言。 创意决策还将成为企业核心竞争力。以金融服务公司为例:当所有竞争者都拥有相同 AI 能力时,差异化将取决于“品味”类角色——沟通方式、市场呈现、创意哲学。可能出现“差异化设计师”,统筹品牌调性、产品理念、风险偏好与创意执行。 当然,传统技艺的衰微令人唏嘘。想象作家不执笔、音乐人不演奏、插画师不绘画的时代确实黯淡。但我们迎来的并非这样的未来——技艺实践永远关乎思维锤炼。Mollick 谈及学术写作时表示:“我会用 AI 辅助研究,但绝不让其代笔。我必须通过写作厘清思路,否则 AI 会主导我的思考。” 现实是人们仍会出于偏好与需求继续创作——这是他们最佳的工作与思考方式。但在创作极度丰裕的时代,我们必将见证更多不依赖传统技艺的创作路径。这既伴随风险,也蕴含机遇。 Seamans 以 Pixar 为例说明这种转变的积极面:“以前动画师将大量精力投入逐帧绘制。当电脑自动化这部分工作后,他们能将更多资源投入故事构思与情节开发。” AI 时代预示着一个可能性:终有一天,你不必事必躬亲就能成就事业。“我们都将成为 AI agent 小分队的 CEO,”Brynjolfsson 说,“必须更深入地思考:我们真正想要实现什么?目标何在?这要求比以往更本质的思考。” 关于 AI 将把我们带向何方,确实存在诸多合理忧虑。但只要我们足够审慎,对 AI 的使用保持清醒认知,未来依然光明。换言之,人类正是 AI 未来的设计师。愿我们拥有足够卓越的品味。
Sam Altman 最新万字对谈:理想硬件形态是 AI 伴侣,就业冲击没那么可怕
今天,Sam Altman 在和他弟弟 Jack Altman 的对谈中分享了关于他对未来 5 到 10 年 AI 发展的预测与见解,谈话内容涵盖 AI 科研、人形机器人、超级智能、OpenAI 设备、供应链等话题,并对 Meta 挖人做了回应。 这场兄弟对谈轻松、温情且充满洞见,也让我们看到了Sam Altman「CEO 模式」之外的另一面。 讨论要点: AI 不止是「科研助手」和效率工具,更能自主发现新的科学: 推理能力的提升让 AI 逐渐能够像博士一样进行专业领域的复杂思考,科学家们已经通过 AI 提高了研究效率。Sam Altman 认为在未来五到十年,AI 将具备更多自主科研能力,甚至能发现新的科学。 人形机器人存在技术难题,但未来乐观: 目前 AI 在物理操作领域有所进展,但真正的人形机器人在机械工程方面仍存在技术难题。不过 Altman 对此持乐观态度,他认为当能在现实世界中自由行走和执行任务的机器人出现时,人们能感受到切实的「未来冲击」。 超级智能时代,人类的自适应能力将超越想象: 人类有能力构建出极其强大的超级智能系统,但到那时,给技术给社会带来的震动可能并没有想象中那么大,人类会很快适应。同时,Altman 认为我们也无需过于担心 AI 给人类造成的就业威胁,因为人类会适应并很快创造新的工作角色。 无处不在的「AI 伴侣」是 OpenAI 的理想产品形态: Altman 描绘了 OpenAI 为消费者构建的终极产品形态——「AI伴侣」。与传统计算设备相比,未来的 AI 可能通过更直观的设备形式融入人们的生活。 打造「AI 工厂」,完善供应链是未来关键: AI 将成为跨行业的核心技术,未来可能涉及太空探索等领域。能源问题可能通过核裂变等新技术得到解决,为 AI 提供支撑。 对 Meta 的看法: Altman 对 Meta 在 AI 领域的竞争态度表示尊重,但他认为 OpenAI 更具创新潜力,并且其团队文化比 Meta 更加注重创新,而不是复制现有成果。 以下是对谈实录,爱范儿编译略作调整 不止是「科研助手」,AI 还能真正发现新的科学 Jack Altman: 我想从 AI 的未来聊起,尤其是中期的未来。短期的我兴趣不大,长期的谁都说不准,但五年、十年这个区间,我觉得最值得聊。我想让你大胆预测一些具体的东西。 我们先从软件聊起吧——目前看来最有效的应用场景是编程,或者说是聊天和编程。那接下来呢?就是「聊天+编程」之后,你觉得会出现哪些新的 AI 使用场景? Sam Altman: 我觉得接下来会出现很多令人惊叹的新产品,比如会有一些非常疯狂的社交体验,还有类似 Google Docs 的 AI 协作流程,但效率会高得多。你会开始看到类似「虚拟员工」的东西。 但我认为,在未来五到十年的时间里,最具影响力的还是 AI 真正能发现新的科学。这听起来像是个很大胆的说法,但我认为它是真的。如果这个判断正确,随着时间的推移,它带来的影响将远远超过其他所有事情。 Jack Altman: 你为什么认为 AI 能发现新的科学? Sam Altman: 我觉得我们已经在模型中实现了「推理能力」的突破。虽然还有很多路要走,但我们大致知道接下来该怎么做。而且你知道,o3 已经非常聪明了,你会听到有人说,「哇,这就像一个优秀的博士」。 Jack Altman: 「推理能力的突破」具体指的是什么? Sam Altman: 就是说,这些模型现在可以在特定领域中,进行你期望一位博士能做到的那种推理。某种意义上,就像我们已经见过 AI 达到了世界顶尖程序员的水平,或者能在世界最难的数学竞赛中拿到高分,或者能解决一些只有该领域专家博士才会做的问题。 我们可能没表现出多惊讶,这其实挺疯狂的,但它确实是一件很了不起的事情。在过去一年里,模型的推理能力取得了很大的进展。 Jack Altman: 你对此感到惊讶吗? Sam Altman: 是的。 Jack Altman:你原本以为它只是「下一次的 Token 提升」? Sam Altman: 我原本以为我们达到现在这个水平还需要再花点时间,但过去一年的进展比我预期的快得多。 Jack Altman: 这个「推理能力」的实现过程,是你原本预想的那种方式吗? Sam Altman: 就像 OpenAI 发展史上经常发生的情况一样,很多时候一些看起来最「笨」的方法反而奏效了。我本不该再为这种事感到惊讶,但每次发生时还是会有点意外。 Jack Altman: 所以你觉得推理能力会让科学发展得更快,还是说会带来全新的发现,还是两者都会? Sam Altman: 我觉得两者都会。 你已经能听到一些科学家说,借助 AI 他们的研究效率更高了。虽然我们现在还没有让 AI 完全自主地进行科学研究,但如果一个人类科学家使用 o3 后效率提升三倍,那也已经是非常重大的变化了。 随着技术发展,AI 会逐渐具备一定的自主科研能力,甚至能发现新的物理学规律。 Jack Altman: 这些事情现在是在类似 Copilot 的辅助状态中发生的吗? Sam Altman: 是的,现在的确还没到那种你能直接对 ChatGPT 说「帮我发现新的物理学原理」,然后它就真能做到的程度。目前更多还是类似「Copilot」这种辅助角色。 但我听到一些生物学家的非正式说法,比如说 AI 真的提出了一个很有潜力的想法,然后他们再进一步发展,结果真的带来了一个基础性的突破。 Jack Altman: 你觉得是让 AI 帮你创建一个完整的电商业务更容易,还是让它去完成一项高难度的科学研究? Sam Altman: 我一直在思考这个问题——比如说,如果你给 AI 建一个价值一千亿美元的粒子加速器,然后让它负责做决策、分析数据、告诉我们该做哪些实验,我们再去执行,这是一种方式。另一种是你花同样的钱建立一个可以与现实经济系统对接的 AI 基础设施。 哪个方向更容易让 AI 实现突破性成果?我觉得物理是一个更「干净」的问题。如果你能获取新的高能物理数据,再给 AI 实验能力,我觉得这是一个更清晰、更可控的问题。 我听过一些人说,他们预计 AI 首个能自主做出科学发现的领域会是天体物理学。我不确定这说法是否准确,但原因是这个领域数据量巨大,而我们没有足够的博士去分析这些数据。 也许要发现新东西没那么难,但我也不敢说得太肯定。 Jack Altman: 好吧,所以科学会变得更强,编程和对话功能也会持续进步。那在商业方面呢?你是否也能通过一个提示词就让 AI 帮你构建一个完整的公司?比如说「我要创建一个这样的业务」,然后它就能开始操作——这种事真的会发生吗? Sam Altman: 现在确实有人在小规模地这么做。你会听到一些故事,比如有人用 AI 做市场调研,发现一个新产品,然后发邮件找制造商生产这个东西,在亚马逊上卖,再投放广告。 这些人确实找到了在非常「草根」的方式下,用 AI 启动一个玩具规模的业务的方法,而且真的有效。所以说,确实已经有人在一步步「爬坡」了。 从大脑到身体,人形机器人的未来已来 Jack Altman: 那如果是涉及现实世界中的「实体动作」呢?比如搬运实物这些。因为在软件方面你讲得很清楚,科学方面我信你,但关于现实中物理操作这一块呢? Sam Altman: 确实,在这方面我们还稍微有点落后。但我觉得我们终究会做到的。 比如说,我们现在有一些新技术,可能就能实现标准汽车上的自动驾驶,效果远远好于目前任何一种方法。虽然这可能不是你说的那种「人形机器人」,但如果我们的 AI 技术真的能自己去开车,那也已经非常厉害了。 当然,人形机器人仍然是终极目标,我对这个非常关注,我相信我们最终会实现它。不过,这一直是一个非常难的机械工程问题。 Jack Altman: 所以难点更多在这方面? Sam Altman: 也不完全是,两个方面其实都很难。即使我们现在已经有了「完美大脑」,我觉得我们还没有「完美的身体」。 OpenAI 早期其实也做过一个机器手臂的项目,困难的地方不在我们想象中的那种「技术难题」,而是设备老是坏,模拟器也总是有点不准。 但你知道,我们总会解决的。我相信在未来五到十年里,我们会拥有非常厉害的人形机器人,真的非常惊艳,可以在街上自由行走、做各种事情。 Jack Altman: 是啊,我觉得那将是技术飞跃真正开启的时刻。 Sam Altman: 我也这么想。那不仅会在现实世界中解锁很多新可能,而且我觉得那种体验会非常「陌生」。我们对很多技术其实已经习惯了,比如现在 ChatGPT 能做的事情,如果放在五年前听起来像是奇迹一样,但我们已经适应它了。 但如果你走在街上,看到一半是机器人在行动,你会立刻习惯这种场景吗?我不确定,也许最终你会,但那肯定是个很大的转变。 Jack Altman: 那种感觉就像是出现了一个新的物种,开始取代我们。 Sam Altman: 对,我觉得那时候的感受……可能未必真像是一个「新物种」或者说在「取代」人类,但一定会让人感觉到「未来已经到来」。而现在即便是像 ChatGPT 这么强的技术,还是没给人那种「未来已来」的直观感受。 我觉得如果我们能发明一些全新的计算设备,可能会带来这种「未来感」。虽然 ChatGPT 和这些新一代代码智能体确实非常惊艳,但它们依然局限在传统的「计算设备」形态中。 Jack Altman: 是啊,它们还是被困在电脑里。 Sam Altman: 是,这确实有点意思。AI 现在只能在电脑上做事情。但我在想,全世界的经济价值中,有多少其实是「认知劳动」——就是可以在电脑前完成的?大概有一半吧。 Jack Altman: 我本来想说大概四分之一。 Sam Altman: 我也不确定,但肯定是个很大的比例。 Jack Altman: 是啊,一旦我们拥有真正具备实体能力的智能系统,风险就会高很多。因为它们的力量也会远超人类。 Sam Altman: 我不确定是不是「风险大很多」。像制造生物武器,或者瘫痪一个国家的电网,其实都不需要「实体」智能,也能造成极大的破坏。所以从这个角度看,不一定更危险。 反倒是有一些「更荒诞的」风险,比如说我会担心一个类人机器人走来走去的时候会不会不小心摔到我家孩子,除非我真的非常信任它。 超级智能时代,人会迅速适应并创造「新角色」 Jack Altman: 那如果我们设想,十年后我们再坐在这里聊天,我们会问:AI 有没有实现我们当初的预测?你期待的衡量标准是什么?比如说 GDP 增长曲线有没有出现明显拐点?人类寿命有没有延长?贫困减少了吗?还是说会是一些完全不同的指标? Sam Altman: 过去每年——至少直到去年之前——我都会说:「我觉得 AI 会走得很远,但我们还有很多难题要解决。」 但现在,我对 AI 的发展方向前所未有地有信心。我现在真的觉得,我们已经大致知道该怎么做,能打造出非常强大、极具能力的 AI 系统。 如果最后结果并没有带来我们期待的巨大改变,我会认为,可能是我们真的建出了超级智能,但它并没有让世界变得更好,也没有产生我们想象中的那种巨大影响——这听起来很荒谬,但确实有可能发生。 就像,如果我在 2020 年告诉你:「我们会做出像 ChatGPT 这样的东西,它的聪明程度相当于大多数领域的博士生,我们会发布它,而且世界上有很大一部分人会频繁地使用它。」也许你会相信,也许你不会。 但如果你相信这个情景真的发生了,那你大概率也会预期:「那样的话,世界一定会变得非常不一样。」可现在看来,世界的变化并没有那么剧烈。 Jack Altman: 确实如此。 Sam Altman: 所以我们现在拥有了一种非常惊人的技术。 Jack Altman: 是啊,就像图灵测试这个事一样,大家原本很关注,结果真到了那一步,反而没人太在意。我也不知道这背后的原因到底是什么。 Sam Altman: 是啊,或者说,哪怕你已经拥有了这个能为你做出惊人成果的系统,但你的生活方式其实跟两年前没什么两样,你的工作方式也差不多还是老样子。 Jack Altman: 你觉得有可能出现一种情况:我们拥有了一个超级智能,智商可能高达 400,但我们人类的生活状态却还是和以前一样? Sam Altman: 我完全觉得这是可能的。比如它在帮我们发现新的科学,那最终社会会慢慢适应这个变化,但过程可能会非常缓慢。 Jack Altman: 有趣的是,如果这个超级智能的表现形式像一个 Copilot,那外界可能还是会把功劳归给那个实验室里的科学家,而不是背后这个「400 智商」的智能体。 Sam Altman: 我觉得这大概率就是会发生的。无论情况怎样,人类的本能都是更在意「人」本身。 我们讲故事需要有「人」的参与,我们想说的是「这个人做了某件事」、「他做出了某个决定」、「犯了某个错误」或「他经历了什么」——我们天生就需要这样的叙述方式。 Jack Altman: 这也是我感到惊讶的原因之一。我原本以为,如果我们真的拥有一个外形和动作都非常逼真的人形机器人,我们可能会开始把这些「人性化」的情感投射到它身上。 Sam Altman: 也许你是对的,我们以后会知道。我可能判断错了。我也相信,随着这些机器人越来越具备「实体感」,我们和它们之间的关系会比现在更紧密一些。 但我觉得,我们在本能上就是非常关注人类同类,这种倾向可能深深植根于我们的生物本能里。如果你知道它只是个机器人,不管它在其他方面多像人,你可能终究还是不会真正「在意」它。当然,这只是我的推测。 Jack Altman: 推理能力是智能的一部分,现在似乎已经有突破了。那还有没有其他类似「关键能力」的主题,比如说「自主性」或者「目标导向性」?这是研究方向之一吗? Sam Altman: 我想你说的是那种:一个系统能在很长时间里坚持一个目标,并在过程中完成很多复杂步骤的能力。如果是这个意思,那我觉得确实是个重要方向。 Jack Altman: 对,我就是想表达这个意思。 Sam Altman: 是的,这确实是我们目前正在研究的方向之一。 Jack Altman: 那你怎么看未来技术发展的路径?哪些部分你觉得已经是不可逆的趋势?又有哪些你还不确定会怎么发展? Sam Altman: 我认为我们肯定会打造出非常聪明、非常强大的模型,它们能够发现重要的新想法,能够自动化完成大量工作。但与此同时,我对如果真的实现了这些,社会会变成什么样,完全没有头绪。 我自己最感兴趣的还是模型能力的问题,但我现在觉得,可能更多人应该开始讨论的是:我们怎么确保社会能真正从中受益?这些问题反而变得越来越难回答,也越来越模糊。 就是说,这种说法听起来挺疯狂——我们可能真的解决了「超级智能」这个问题,但社会可能还是一团糟?这让我觉得有点不安。 Jack Altman: 是啊,有时候我也分不清,为什么大家对这些说法反应平平,是因为他们其实只是「半信半疑」?可能这也是原因之一。 但我同意你的看法。很多技术的发展历史都是这样:刚开始提出时大家不太相信,等真的实现了,大家又迅速习惯了。所以我也说不清这一切到底意味着什么。 Sam Altman: 我有一种感觉,就是我们在技术预测方面一直非常准确。但奇怪的是,当这些预测真的变成现实后,社会的变化却没我想象中那么剧烈。不过,说到底,这也不一定是件坏事。 Jack Altman: 那在短期内最显而易见的影响之一,应该就是就业问题吧。我们甚至不需要相信什么疯狂的未来,像客户支持这样的岗位,现在就能看到明显的变化。 Sam Altman: 是的,我的看法是:很多工作会消失,也有很多工作会发生巨大改变。 但人类一直都很擅长为自己找到新的事做——无论是谋生方式、社会地位竞争,还是为他人提供价值。我不认为这种「新角色」的创造能力会枯竭。 当然,从现在的视角看,未来这些角色可能越来越「荒谬」。 比如说,不久前,「播客博主」并不是一个「正经工作」,但你找到了变现的方法,做得很好,大家也都为你高兴——你自己也很开心。 但如果一个「靠种地为生的农民」来看这一切,他可能会觉得:这算什么工作?这不就是你在玩个自娱自乐的游戏吗? Jack Altman: 我觉得他们可能会订阅这个播客。 Sam Altman: 我敢打赌他们会订阅。 Jack Altman: 他们会喜欢的。但我确实觉得,短期内这会是个很大的问题。至于长期,那就不好说了。 我很好奇的一件事是:过去人们都靠种地为生,而我们现在所做的很多事在当时根本没有意义。现在社会变化这么大,这一次会不会不一样?如果资源真的足够丰富了,会不会有个临界点,人们就不再创造新工作了? Sam Altman: 我觉得这里「相对性的视角」很重要。在我们看来,未来的人们可能确实是在享受极大量的闲暇时光。 Jack Altman: 其实我们现在就已经像是在大量「休闲」了。 Sam Altman: 看看你穿着那件漂亮的、两千美元的羊绒衫。 Jack Altman: 这只是件普通毛衣啦。 Sam Altman: 哈哈,所以我觉得「相对性」这个角度真的很重要。现在我们的工作让我们觉得非常重要、压力大、也有成就感。但也许将来我们都只是在互相创造更好的娱乐内容。说不定这就是我们现在某种程度上正在做的事。 融入生活的「AI 伴侣」,或许是 OpenAI 的理想产品形态 Jack Altman: 我们聊聊 OpenAI 吧。目前 OpenAI 这边已经有了一个面向消费者的业务,显然也有面向企业的 B2B 模型,还有跟 Jony Ive 合作做的一些硬件项目,另外还有一堆潜在方向,好像也在逐渐成形。 你能不能谈谈这个「完整的体系」可能会是什么样?或者说在某个阶段它至少会是个什么样子? Sam Altman: 我觉得,消费者最终会希望我们提供的是一种「 AI 伴侣」(目前还找不到更合适的词)。 它存在于「虚拟空间」中,通过各种界面和产品,在多个方面为他们提供帮助。它会逐渐了解你、了解你的目标、你想实现什么、你的各种信息。 有时候你会在 ChatGPT 里打字跟它互动,有时候你可能在用一个更偏娱乐的版本,有时候你会在其他集成了我们平台的服务中使用它,有时候你会通过我们新的设备来接入它。 无论在哪种形式下,这个「存在」都会帮你完成你想完成的事:有时候它会主动推送内容给你,有时候你主动提问,有时候它只是默默观察、学习,以便将来做得更好。 最终,它带来的感觉就是:「这是我的……」我们现在还没有一个完全准确的词来形容它,「AI 伴侣」只是目前最接近的说法。 Jack Altman: 你觉得我们现在使用的这些计算设备形态是不是其实是「错误的形态」? Sam Altman: 「错误」这个词可能有点太绝对了,但我确实觉得目前的形态并不是最优解。 其实从形态变革的角度来看,计算机发展史上真正重要的变革只有两次。早期当然也有一些变化,但那时你我都还没关注这些事。 在我们有记忆的年代里,有两次重大变革:一次是像我们现在使用的这种电脑——键盘、鼠标、显示器,非常强大、用途广泛;另一次是触屏设备,随身携带的那种手机和平板。 这两种形态在诞生时都没有 AI,所以你只能基于当时的技术构建用户体验,依赖不同的交互逻辑。而现在我们有了这种全新的技术,也许可以更接近科幻小说里那种理想的计算设备。 Jack Altman: 那就是,同样的智能体,在一个全新的形态中使用方式会完全不同。 Sam Altman: 没错,而且设备的形态真的非常重要。 Jack Altman: 比如说它能一直陪在你身边。 Sam Altman: 对,这就是它重要的一个原因。如果这个设备能随时跟着你走、带有各种传感器,真正理解你周围发生了什么,并能持续跟踪各种信息,同时你又能非常轻松地通过一句简单指令让它执行复杂操作——那你就可以想象出完全不同的设备形态了。 Jack Altman: 那你现在还在思考的其他组成部分是什么?比如现在我们看到:消费者在使用聊天功能,创业公司大量使用 API,还有你们正在做的设备项目。除此之外,还有哪些「关键支柱」是你在考虑的? Sam Altman: 我觉得最重要、但目前世界还没真正意识到的一点,是把 AI 作为一个「平台」的意义——它不仅是你去接入的东西,同时它也可以被无处不在地整合进其他系统里。 比如说,当你在车里、或者使用其他网站或服务时,它都能无缝衔接。这种「持续一致性」的体验将变得非常重要。 此外,我们还有机会去创造全新的事物,比如全新的生产力工具、新的社交娱乐方式。 但我认为,「无处不在」的普及性会是这个平台最核心的特征之一。 OpenAI 可能进军太空?构建完善的「AI 工厂」供应链是关键 Jack Altman: 考虑到智能技术对各个领域都有巨大影响,而且智能本身也包含很多子模块,还有很多「堆栈之上的层级」。你之前也提到过能源问题,显然你在能源领域也很投入。其实从智能到能源之间,还有很多层,包括硬件等等。 那么你觉得,对 OpenAI、甚至对整个国家来说,这整条「技术链条」到底有多重要?是关键的吗? Sam Altman: 我认为国家应该开始思考这个问题,或者说,世界也好、国家也好,都应该从「电子」到 ChatGPT 查询这整个过程来思考这个体系。 中间有很多环节,我现在开始把这称为「AI 工厂」。我觉得我们可以叫它「元工厂」(meta factory),因为理论上它可以自我复制。 无论叫什么,关键是我们、我们整个世界,必须构建完整的供应链。 Jack Altman: 那对 OpenAI 来说,有必要亲自参与这整条链条吗? Sam Altman: 我觉得纵向整合在某些方面是有益的,但我们并不一定非要亲自做完全部。如果我们能确定这整件事在足够大的规模上确实会发生,那就没必要全包。所以在很多环节,我们可以通过合作来推动重大的进展。 Jack Altman: 那也就意味着不会面临「我们失去了某个关键环节」的风险。 Sam Altman: 对,正是这样。 Jack Altman: 在能源方面,我们是不是最终会消耗巨量的能源?这是最终的走向吗? Sam Altman: 我当然希望如此。历史上,生活质量的提高最强的相关因素之一就是能源的不断丰富。我没有理由认为这一趋势会停止。 Jack Altman: 那你对气候问题有没有担忧?还是你觉得这些问题迟早都会被解决? Sam Altman: 这是我们最不需要担心的部分了。裂变会实现,新型的裂变技术也会出现。 Jack Altman: 那你对聚变就没那么有信心吗?还是说你已经很有信心了? Sam Altman: 我从不说「百分之百确定」,但我可以说我很有信心,非常有信心。 Jack Altman: 而它将成为未来能源的大部分来源? Sam Altman: 我觉得是的。不过,下一代的裂变技术也真的很厉害。我了解的一家公司叫 Oklo,他们做得不错,还有其他一些公司也在做很棒的工作,这是一个巨大的突破。 太阳能和储能系统看起来也不错,但我真心希望人类未来的能耗远远超过地球上目前能产生的能源。即使我们完全转向聚变能源,一旦地球的能耗被放大十倍、一百倍,最终也会因为废热把地球加热得太厉害。但好消息是,我们拥有整个太阳系。 Jack Altman: 你不觉得我们聊的这些事情,实际上意味着「太空」不仅非常重要,而且我们进入太空的可能性也越来越大了吗? Sam Altman: 从整体来看,是的。我们会进入太空吗?我希望会。如果最终没有,那就太遗憾了。 Jack Altman: 挺有趣的,我是不是该去创办一家火箭公司?我之前就跟你说过,我觉得你应该去做点什么新公司项目,其实有一大堆方向你都能试试。 Sam Altman: 我还是有点喜欢专注于一件事,而且我现在已经挺忙的了,还有家庭要照顾。 回应 Meta 挖人:「Meta 并不是一家擅长创新的公司」 Jack Altman: 其实我能问问你关于 Meta 的事吗?就关于他们的动态和你们之间的关系。 Sam Altman: 可以啊。我听说 Meta 把我们视为他们最大的竞争对手。我觉得他们继续努力是理性的选择,虽然他们目前的 AI 进展可能没有达到预期。 我尊重他们这种有侵略性的态度,以及不断尝试新方法的精神。而且既然这是理性的,我也预期如果这次不成功,他们之后还会继续尝试的。 我记得有一次听 Zuck 说,早期 Facebook 刚起来时,Google 开发社交产品是理性的,虽然当时 Facebook 内部都很清楚那是行不通的。我现在有点类似的感觉。 他们最近开始向我们团队中的一些人开出非常高的报价,比如说开出 1 亿美元的签约奖金,甚至年薪还要更高,简直疯狂。 但我真的很开心的是,到目前为止,我们最优秀的那些人都没有接受他们的邀约。我觉得人们在比较这两条路时,会认为 OpenAI 在实现超级智能上有更大的可能性,长远来看也可能成为一家更有价值的公司。 我觉得那种「开出大量前期保证薪酬」作为说服人才加入的策略——他们居然把重心放在这个,而不是工作本身、使命本身,这真的让我很惊讶。我不认为这种方式能建立起一个好的文化。 我希望我们能成为全球最适合做这类研究的地方,而且我认为我们确实为此打造出了一种非常特别的文化。 我们目前的设定是:如果我们成功了——我们研究团队的所有人都相信我们有很大的可能成功——那么大家在经济上也都会获得丰厚回报。 而且我觉得我们现在的激励机制,是跟「使命优先」相一致的,经济回报和其他一切都顺其自然地从使命出发,这样的机制是健康的。 Meta 有很多我尊重的地方,但我并不认为他们是一家擅长创新的公司。与之相比,我觉得 OpenAI 的特别之处在于:我们成功建立了一种以创新为核心的文化。 他们可能擅长「可重复的创新」,但我认为我们理解了很多他们尚未掌握的东西——比如要实现真正的技术突破,到底需要什么。 不过说实话,这段经历对我们的团队来说反倒是一种「澄清」——让我们看清了方向。我们祝他们好运吧。 Jack Altman: 是啊,我想这也涉及到一个核心问题:你认为迄今为止的 AI 成果是否足够让别人通过「复制」就能成功?还是说,真正的创新还在前方? Sam Altman: 我不认为「复制」就足够了。 我看到很多人——包括 Meta ——他们在说,「我们就去复制 OpenAI 吧。」真的就是这种心态。 你看看现在很多其他公司的聊天产品,它们和 ChatGPT 长得几乎一模一样,甚至连我们当初犯过的 UI 错误都照搬,简直让人难以置信。而他们在研究上的目标也只是想赶上我们当下的水平。 这是我在 YC(Y Combinator)时期就学到的一课:这种策略基本上从来行不通。你只是在追赶竞争对手过去的成果,但你没有建立起一种「持续创新」的文化。而一旦你陷入这种状态,要再爬出来就比大家想象的难得多。 Jack Altman: 你们是怎么做到这两者兼顾的?就是既是一家高度商业化的公司,同时又是一家非常重视研究的公司?这种模式其实没有太多成功的先例。我理解你们在商业化之前是怎么做的,但现在你们已经兼顾了商业和研究,而且看起来还运转得不错。 Sam Altman: 我们在产品这块其实还是比较「新」的,我们还需要不断努力,来真正配得上「运转得不错」这个评价。 我们确实在不断进步,也做得越来越好。但你看大多数科技公司的发展历史,通常是一开始就是一家产品导向、运营良好的公司,然后后来再「附加」一个运营不善的研究部门。 我们正好相反,我们是我所知道的唯一一个反过来的例子:我们一开始就是一家非常优秀的研究机构,后来「附加」上了一个最初运转不太好的产品部门,现在越来越成熟。 我相信我们最终会成为一家伟大的产品公司,而我也为团队在这方面所做的努力感到非常自豪。但你看,2 年半之前我们还只是一个研究实验室而已。 Jack Altman: 真不敢相信那才刚过去两年半。 Sam Altman: 是啊,我们这两年半里要把整个大公司搭建起来,真的是很不容易。大家做的事简直太了不起了。ChatGPT 是在 2023 年 11 月 30 日发布的。 Jack Altman: 确实如此。而且显然,组建一个会做公司的人要比找一群能搞顶尖 AI 研究的人容易得多。 Sam Altman: 但依然很难。大多数公司要建立这样规模的产品体系,花的时间都比 2 年半多得多。 Jack Altman: 那你觉得为什么 Meta 会把你们当作那么强的竞争对手?我理解他们可能觉得 AI 是整个未来的关键,但仅凭这一点就够了吗? Sam Altman: 这可能就已经足够解释了。有个以前在 Meta 工作的人跟我说过一句话:「在外界,大家把 ChatGPT 当成是 Google 的替代品;但在 Meta 内部,大家把 ChatGPT 看作是 Facebook 的替代品。」 Jack Altman: 因为人们现在把大量时间都花在和它对话上了。 Sam Altman: 是啊,他们跟 ChatGPT 聊天的方式,原本是会在其他地方进行的,而且他们更喜欢这种方式。 Jack Altman: 这其实就是在抢「注意力资源」了。 Sam Altman: 这其实不是单纯的「时间竞争」问题。 当然也有时间上的竞争,但更重要的是,人们在网上「末日刷屏」(doomscrolling)的时候,会感觉自己变得更糟——虽然当下可能有点快感,但从长远来看,那是在让你感觉越来越糟,尤其是对自己越来越不满意。 而我们特别自豪的一点是,当人们谈到 ChatGPT 时,他们会说:「它让我感觉自己更好」,它在帮我实现目标,它在真正帮助我。这可能是我听过关于 OpenAI 最暖心、最好的评价之一:有人说,「这是我用过的唯一一家不会让我觉得它在‘对抗我’的科技公司。」 Google 会展示一些很糟糕的搜索结果,还强塞广告(虽然我很喜欢 Google,也喜欢这些公司,我不是说他们一定错了);Meta 会试图「入侵我的大脑」,让我不停地往下刷;Apple 做了我喜欢的手机,但它不停地发通知,分散我注意力,我还戒不掉。 而 ChatGPT 给人的感觉就是:它只是想帮我完成我想做的事情。这种感觉真的挺好的。 Jack Altman: 那有没有可能做出一种「社交产品」,既有互动性,又保留这种能量和正面体验? Sam Altman: 我好奇的一种版本——虽然我还不确定这意味着什么——是这样一种「信息流」:它默认是空的,不会主动推送什么,但你可以提示它,比如说「我最近想健身,你可以推一些对这个有帮助的内容吗?」或者「我想多了解一些时事新闻,能不能给我一些中立、不过度煽动情绪的信息?」 这样的系统显然不会像现在的算法推荐那样让人沉迷、花更多时间,但我觉得这会是一个很酷的方向——一个真正「对齐」的 AI,帮助你实现你长期真正想要的社交体验。 我感觉自己每天早上醒来的时候,就像是一个被充满能量重启的人,知道自己想要什么,有很好的意图,也愿意对今天做出承诺。但随着一天展开,生活的节奏就开始疯狂袭来。到晚上 10 点,我可能会想:「我本来不打算喝酒,但就喝一杯威士忌吧。」或者「我不想刷 TikTok,但刷个两分钟应该没关系。」我同意,不该把自己逼得太紧。但如果我能一直保持「早晨的自己」,如果技术能帮我实现那些我真正想做的事情,那我想我会变得很棒。 Sam Altman:OpenAI 对我而言不只是「重要的工作」,更是「有趣的谜题」 Jack Altman: 我十年前还跟你住过一段时间。当时你还在管理 YC。我那时就觉得你很有「掌控力」(agency),你想做什么就去做,完全不受条条框框限制。但我觉得,从那之后,尤其是最近几年,感觉你真的是「完全没有规则」了。 你看你做 Stargate 项目,和 Jony Ive 合作……这些事都非常大胆。我好奇,你是不是在思维上有什么转变?有没有什么你能明确指出来的东西,促使你变成现在这样运作的人? Sam Altman: 我觉得我们奶奶以前常说的一句话很对:「变老最棒的一点就是,你会越来越不在意别人怎么看你。」我现在真的有这种感觉。我也经历了很多风口浪尖,但确实,年龄增长让你更自由,更少顾忌他人的评价。这是一种释放。 Jack Altman: 你现在还有一些事情是会犹豫不决的吗?或者说,你觉得你还有更高一层的「行动力」可以发挥出来吗?有没有一些想法你会想:「我其实想做这个,但某种原因让我暂时放下了」? Sam Altman: 这是我本来想说的第二点:随着 OpenAI 拥有越来越多的资源和潜力,我们确实能做的事情也越来越多。当然,还是有很多我想做但现在做不了的事,比如我想在太阳系建一个「戴森球」,把整个太阳的能量输出都用来建一个超级巨大的全球数据中心。 但显然,这事现在还做不了,可能得等几十年。但整体来看,我们确实已经有能力去做更多、更有野心的事情了。 Jack Altman: 那当你面临很多选择时,你是怎么做决定的?这其实就是「选择过多的困扰」吧。你现在可以去做火箭、搞社交网络、玩机器人……你可以为所欲为。那你是怎么从这么多选项中做出取舍的? Sam Altman: 说实话,我现在的时间已经完全被榨干,根本没有多余的精力去做别的事情,这一点怎么强调都不为过。 而且我本来就没打算经营哪怕一家公司,更别说一堆公司了。我原本只是想当个投资人而已。 Jack Altman: 你会说,整体上你是真的喜欢现在这份工作吗?虽然它可能远远超出了你最初的预期。 Sam Altman: 我觉得非常感恩,非常幸运。毫无疑问,将来我退休以后一定会想念这段时光,到时候我可能会说:「唉,现在真是太无聊了。」 Jack Altman: 而且这段经历真的很酷,也非常重要,对吧? Sam Altman: 是的,这份工作带来极大的满足感。我觉得自己能做这件事真的超级幸运。我确实非常喜欢,几乎大多数时候都很享受。 但老实说,这段时间确实非常非常激烈,有点压倒性。我经历了比我原本想象中更猛烈、更多的「风口浪尖」。 Jack Altman: 这其实也不是你一开始设想的路径。大多数人创业做软件公司的时候,预期的就是做一家软件公司。但我觉得你当初肯定没预料到会变成现在这样。 Sam Altman: 这本来应该是我「退休后的工作」,只是想经营一个小型的研究实验室而已,是这样的。 Jack Altman: 而且在很多平行世界里,这一切根本不会发生,对吧。 Sam Altman: 对,没错。 Jack Altman: 抛开你是不是喜欢它,也不谈你花了多少时间,你在体验这份工作的时候,是觉得它很「沉重、重要」,还是像一个有趣、好玩的谜题? Sam Altman: 这两种感觉我都有,而且是同时存在的。 从社会影响力的角度,或者说它的潜在影响来看,这很可能是我一生中接触过最重要、最具影响力的工作。 我不想显得太自我陶醉,但也许这份工作确实在某种程度上是具有历史意义的。当我有时间静下来思考时,我能意识到这一点。但在日常工作中,更多是处理一些「琐碎的事情」,而我其实很享受这些琐碎。我很喜欢和我共事的人,做这些事情本身也很有趣。 当然,有些部分确实压力山大、甚至挺痛苦的,但整体上说,它更像是一个「有趣的谜题」,而不只是「重要的工作」。
信息过载时代,如何真正“懂”LLM?从MIT分享的50个面试题开始
人类从农耕时代到工业时代花了数千年,从工业时代到信息时代又花了两百多年,而 LLM 仅出现不到十年,就已将曾经遥不可及的人工智能能力普及给大众,让全球数亿人能够通过自然语言进行创作、编程和推理。 LLM 的技术版图正以前所未有的速度扩张,从不断刷新型号的「模型竞赛」,到能够自主执行任务的智能体,技术的浪潮既令人振奋,也带来了前所未有的挑战。 如何在海量信息中建立真正的认知深度,而非仅仅成为一个热点的追随者?也许可以从「做题」开始。 最近,MIT CSAIL 分享了一份由工程师 Hao Hoang 编写的 LLM 面试指南,精选了 50 个关键问题,旨在帮助专业人士和AI爱好者深入理解其核心概念、技术与挑战。 文档链接:https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view 我们将这 50 个问题划分为了几大主题,并附上图示和关键论文。希望这份指南能成为您的「寻宝图」,助您开启 LLM 探索之旅,无论是在面试中,还是在未来的技术浪潮中,都能保持清醒的认知和持续探索的热情。 LLM 发展历程。来源:arXiv:2304.13712 核心架构与基本概念 问题 1:Token 化(tokenization)包含哪些内容,为什么它对 LLM 至关重要? Token 化是将文本分解为更小单元(称为 token)的过程,这些单元可以是单词、词的一部分或字符。例如,单词「artificial」可以被分解为「art」、「ific」和「ial」。 这是一个关键步骤,因为LLM 处理的是这些 token 的数值版本,而不是原始文本。通过 token 化,模型可以处理多种语言,处理稀有词汇或不在其词汇表中的词汇,并保持词汇表大小的可管理性,这反过来提高了计算速度和模型的有效性。 问题 2:注意力机制在 Transformer 模型中如何运作? 注意力机制使 LLM 能够在生成或分析文本时,对序列中的不同 token 分配不同的重要性级别。它通过计算查询(query)、键(key)和值(value)向量之间的相似性分数来确定这些重要性级别,通常通过点积运算来专注于最相关的 token。 例如,在句子「The cat chased the mouse」中,注意力机制帮助模型将「mouse」与「chased」连接起来。这一功能增强了模型理解上下文的能力,使 Transformer 在自然语言处理任务中非常有效。 问题 3:LLM 中的上下文窗口是什么,为什么它很重要? 上下文窗口是LLM 能够同时处理的 token 数量,它本质上定义了模型理解或创建文本的短期记忆。更大的窗口(例如 32000 个 token)让模型能够考虑更多上下文,在摘要等活动中产生更连贯的结果。另一方面,更大的窗口也意味着更高的计算成本。在窗口大小和运行效率之间找到正确的平衡是在实际场景中使用 LLM 的关键。 问题 4:序列到序列模型是什么,它们在哪里应用? 序列到序列(Seq2Seq) 模型旨在将输入序列转换为输出序列,输出序列的长度通常可以不同。这些模型由编码器(处理输入)和解码器(创建输出)组成。它们应用于各种场景,如机器翻译(例如,从英语到德语)、文本摘要和聊天机器人,其中输入和输出的长度经常不同。 问题 5:嵌入(embeddings)是什么,它们在 LLM 中如何初始化? 嵌入是在连续空间中代表 token 的紧凑向量,捕获它们的语义和句法特征。它们通常以随机值开始,或者使用像 GloVe 这样的预训练模型,然后在训练过程中进行调整。例如,单词「dog」的嵌入可能会被修改以更好地表示其在宠物相关上下文中的使用,这将提高模型的准确性。 问题 6:LLM 如何处理词汇外(out-of-vocabulary, OOV)单词? LLM 通过使用子词 token 化方法(如字节对编码,Byte-Pair Encoding)来处理 OOV 单词,将这些单词分解为更小的、熟悉的子词单元。例如,像「cryptocurrency」这样的单词可以被分解为「crypto」和「currency」。这种技术使 LLM 能够处理不常见或新的单词,确保它们能够有效地理解和生成语言。 问题 7:Transformer 如何改进传统的 Seq2Seq 模型? Transformer 通过几种方式解决了传统 Seq2Seq 模型的缺点: 并行处理:使用自注意力允许同时处理 token,这与 RNN 的序列性质不同。 长距离依赖:注意力机制能够捕获文本中相距较远的 token 之间的关系。 位置编码(Positional Encodings): 这些用于维持序列的顺序。 这些特征导致翻译等任务中更好的可扩展性和性能。 问题 8:位置编码是什么,为什么要使用它们? 位置编码用于向 Transformer 的输入添加关于序列顺序的信息,因为自注意力机制本身没有方法知道 token 的顺序。通过使用正弦函数或学习向量,它们确保像「king」和「crown」这样的 token 能够根据其位置被正确理解,这对翻译等任务至关重要。 问题 9:多头注意力(multi-head attention) 是什么,它如何增强 LLM? 多头注意力将查询、键和值分成几个较小的部分,这让模型能够同时专注于输入的不同方面。例如,在给定句子中,一个头可能专注于句法,而另一个可能专注于语义。这增强了模型识别复杂模式的能力。 问题 10:Transformer 如何解决梯度消失问题? Transformer 通过几种机制解决梯度消失问题: 自注意力:这避免了对序列依赖的需要。 残差连接(Residual Connections): 这些为梯度流动创建直接路径。 层归一化(Layer Normalization): 这有助于保持更新的稳定性。 这些特征使得深度模型的有效训练成为可能,这是相对于 RNN 的优势。 问题 11:在 Transformer 中编码器和解码器有何不同? 编码器负责处理输入序列并将其转换为保持上下文的抽象表示。另一方面,解码器通过使用编码器的表示和先前生成的 token 来生成输出。在翻译的情况下,编码器理解源语言,解码器然后在目标语言中创建输出,这使得有效的序列到序列任务成为可能。 问题 12:什么定义了大型语言模型(LLM)? LLM 是在广泛文本数据集上训练的 AI 系统,能够理解和产生类似人类的语言。它们的特征是拥有数十亿参数,在翻译、摘要和问答等任务中表现出色,因为它们能够从上下文中学习,这给了它们广泛的适用性。 关键论文 Attention Is All You Need 抛弃了传统的循环和卷积结构,首次提出完全基于自注意力机制的 Transformer 模型,成为当今几乎所有主流 LLM 的架构基础。 https://arxiv.org/abs/1706.03762 Sequence to Sequence Learning with Neural Networks 提出了经典的 Seq2Seq 框架,利用一个 RNN(编码器)读取输入序列,另一个 RNN(解码器)生成输出序列,为机器翻译等任务设定了新的标杆。 https://arxiv.org/abs/1409.3215 Efficient Estimation of Word Representations in Vector Space 提出了 Word2Vec 模型(包含 Skip-gram 和 CBOW 算法),高效地学习到了能捕捉语义关系的词嵌入向量,是现代词表示方法的基石。 https://arxiv.org/abs/1301.3781 模型训练与微调 问题 13:LoRA 和 QLoRA 在 LLM 微调中有什么区别? LoRA(低秩自适应, Low-Rank Adaptation)是一种微调方法,它将低秩矩阵融入模型的层中,允许以极少的内存需求进行高效适应。QLoRA 在此基础上,通过使用量化(例如,到 4 位精度)来进一步减少内存使用,同时仍保持准确性。举例来说,QLoRA 允许在仅一个 GPU 上对拥有 700 亿参数的模型进行微调,这使其成为资源有限情况下的绝佳选择。 问题 14:LLM 如何在微调期间避免灾难性遗忘? 灾难性遗忘是指模型在微调后失去其先前知识的现象。有几种方法可以防止这种情况: 重播(Rehearsal): 在训练过程中将旧数据和新数据混合在一起。 弹性权重整合(Elastic Weight Consolidation): 这种方法优先考虑重要权重以帮助保持现有知识。 模块化架构:为特定任务添加新模块,以防止现有模块被覆盖。 通过使用这些策略,LLM 可以保持多功能性并在各种任务中表现良好。 问题 15:模型蒸馏是什么,它如何使 LLM 受益? 模型蒸馏是一个过程,其中较小的「学生」模型被训练来复制较大「教师」模型的输出,通过使用软概率而非严格标签。这种方法减少了所需的内存和处理能力,使得模型能够在智能手机等设备上使用,同时仍能实现接近教师模型的性能,使其非常适合实时应用。 问题 16:什么是过拟合(overfitting),在 LLM 中如何缓解? 过拟合是指模型过度学习训练数据,以至于无法泛化到新数据的现象。减少过拟合的方法包括: 正则化:使用 L1/L2 惩罚等技术来简化模型。 Dropout: 在训练过程中随机停用神经元。 早停(Early Stopping): 当模型在验证集上的性能不再改善时停止训练。 这些方法有助于确保模型能够对未见过的数据做出稳健的泛化。 问题 17:PEFT 如何缓解灾难性遗忘? 参数高效微调(PEFT)通过只更新模型参数的一小部分,同时保持其余部分冻结以维持预训练期间获得的知识来工作。诸如 LoRA 等方法允许 LLM 适应新任务而不牺牲其基本能力,有助于确保在不同领域的一致性能。 问题 18:超参数(hyperparameter)是什么,为什么它很重要? 超参数是在训练前设置的值(如学习率或批次大小),它们指导模型的训练过程。这些设置影响模型的收敛性和性能;例如,过高的学习率可能导致不稳定。调整超参数是优化 LLM 效率和准确性的方法。 关键论文 Adam: A Method for Stochastic Optimization 提出了 Adam 优化器,它结合了动量(Momentum)和 RMSprop 的优点,成为训练深度神经网络(包括 LLM)最常用、最有效的默认优化算法。 https://arxiv.org/abs/1412.6980 LoRA: Low-Rank Adaptation of Large Language Models 提出了低秩适配(LoRA)方法,通过仅训练少量注入的、低秩的矩阵来实现参数高效微调(PEFT),极大地降低了微调 LLM 的计算和存储成本。 https://arxiv.org/abs/2106.09685 Distilling the Knowledge in a Neural Network 系统性地提出了「知识蒸馏」的概念,即训练一个小模型(学生)来模仿一个大模型(教师)的行为,从而在保持大部分性能的同时实现模型压缩和加速。 https://arxiv.org/abs/1503.02531 文本生成与推理技术 问题 19:束搜索(beam search)相比贪婪解码如何改善文本生成? 在文本生成过程中,束搜索同时考虑多个可能的词序列,在每个阶段保留前「k」个候选(称为束)。这与贪婪解码形成对比,后者在每步只选择单个最可能的单词。通过使用这种方法(例如 k 值为 5),输出更加连贯,因为它在概率和多样性之间取得平衡,这对机器翻译或对话创建等任务特别有用。 问题 20:温度在控制 LLM 输出中起什么作用? 温度是一个调节在生成文本时 token 选择随机性程度的设置。低温度(如 0.3)使模型偏向高概率 token,导致可预测的文本。相反,高温度(如 1.5)通过使概率分布变得更平坦来提高多样性。温度设置为 0.8 通常用于在故事创作等活动中实现创造性和连贯性的良好平衡。 问题 21:top-k 采样和 top-p 采样在文本生成中有何不同? Top-k 采样将下一个 token 的选择范围缩小到「k」个最可能的选项(例如,k=20),然后从这个较小的群体中采样,这允许受控的多样性。Top-p (或核采样)采样则从概率组合超过某个阈值「p」(如 0.95)的 token 群体中选择,这意味着群体大小可以根据上下文而变化。Top-p 提供更大的适应性,产生既多样又逻辑的输出,这对创意写作有益。 问题 22:为什么提示工程对 LLM 性能至关重要? 提示工程是创建特定输入以从LLM 获得期望响应的实践。定义明确的提示(如「用 100 个单词总结这篇文章」)比模糊的提示产生更相关的输出。这种技术在零样本或少样本场景中特别有用,因为它允许 LLM 在不需要大量微调的情况下执行翻译或分类等任务。 问题 23:检索增强生成(RAG)包含哪些步骤? RAG 过程包含以下步骤: 检索:使用查询嵌入找到相关文档。 排序:根据相关性对检索到的文档进行排序。 生成:最后,使用检索文档的上下文创建准确答案。 RAG 用于提高问答等任务中答案的事实正确性。 问题 24:思维链提示是什么,它如何帮助推理? CoT 提示是一种引导 LLM 以类似人类推理的逐步方式处理问题的技术。例如,在解决数学问题时,它将计算分解为一系列逻辑步骤,这在逻辑推理或需要多步骤的查询等复杂任务中产生更好的准确性并使推理过程更容易理解。 关键论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 提出了思维链(CoT)提示法,通过引导模型在回答前先生成一步步的推理过程,显著提升了 LLM 在算术、常识和符号推理任务上的表现。 https://arxiv.org/abs/2201.11903 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 提出了 RAG 框架,将预训练的语言模型与非参数化的外部知识库(通过检索器访问)相结合,有效减少了模型幻觉,并能轻松更新知识。 https://arxiv.org/abs/2005.11401 The Curious Case of Neural Text Degeneration 深入分析了传统解码策略(如束搜索)为何会产生重复、乏味和不合逻辑的文本,并提出了核采样(Nucleus Sampling,或 top-p),成为一种主流的高质量文本生成解码策略。 https://arxiv.org/abs/1904.09751 训练范式与学习理论 问题 25:掩码语言建模是什么,它如何帮助预训练? 掩码语言建模(MLM)是一种训练技术,其中文本序列中的随机 token 被隐藏,模型需要基于周围上下文来预测它们。这种方法被用于像 BERT 这样的模型中,鼓励对语言的双向理解,使模型能够更好地理解语义连接。这种预训练为 LLM 准备了各种任务,包括情感分析和问答。 问题 26:自回归模型和掩码模型在 LLM 训练中有何不同? 自回归模型(如 GPT)基于之前的 token 逐个生成 token,这使它们在完成文本等创造性任务中表现出色。相反,掩码模型(如 BERT)通过观察双向上下文来预测隐藏的 token,这使它们更适合像分类这样的理解任务。这些模型的训练方式决定了它们在生成或理解方面的不同优势。 问题 27:下句预测是什么,它如何增强 LLM? 下句预测(NSP)是一种训练方法,其中模型学习判断两个句子是否逻辑上连续或不相关。在预训练阶段,像 BERT 这样的模型被教导对句子对进行分类,一半是连续的(正例),另一半是随机的(负例)。NSP 通过使模型理解句子间的关系,帮助改善对话系统和文档摘要等应用中的连贯性。 问题 28:在 NLP 中生成式模型与判别式模型有何区别? 生成式模型(如 GPT)通过建模数据的联合概率来创建文本或图像等新内容。另一方面,判别式模型(如用于分类的 BERT)建模条件概率来区分类别,如情感分析中的情况。生成式模型最擅长创造新事物,而判别式模型专注于做出准确的分类。 问题 29:判别式 AI 和生成式 AI 有何不同? 判别式AI(如情感分类器)通过基于输入特征预测标签来工作,涉及建模条件概率。另一方面,生成式 AI(如 GPT)通过建模联合概率来创建新数据,使其非常适合文本或图像生成等任务并提供创造性自由。 问题 30:零样本学习是什么,LLM 如何实现它? 零样本学习是LLM 通过利用预训练期间获得的一般知识来执行未经专门训练的任务的能力。例如,如果向 LLM 提示「将这个评论分类为积极或消极」,它可以在没有针对该特定任务训练的情况下确定情感,这展示了其适应性。 问题 31:少样本学习是什么,它有什么好处? 少样本学习允许LLM 通过利用其预训练知识仅用少数例子就能承担任务。这种方法的优势包括减少对数据的需求、更快适应新任务和节省成本,这使其成为特定类型文本分类等专业任务的绝佳选择。 关键论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 提出了BERT 模型及其核心训练任务「掩码语言模型」(MLM),通过双向上下文来预训练模型,极大地提升了模型对语言的深层理解能力,成为理解任务的里程碑。 https://arxiv.org/abs/1810.04805 Improving Language Understanding by Generative Pre-Training 提出了生成式预训练(Generative Pre-Training, GPT)范式,即先在海量无标签数据上进行自回归预训练,再针对下游任务进行微调,奠定了 GPT 系列模型的基础。 https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf Language Models are Unsupervised Multitask Learners 这篇是GPT-2 的论文,它证明了通过在更大、更多样的数据集上训练一个足够大的自回归模型,可以使其在没有明确监督的情况下执行多种任务(零样本学习) ,展示了语言模型强大的泛化能力。 https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 数学原理与优化算法 问题 32:Softmax 函数如何应用于注意力机制? Softmax 函数使用公式 将注意力分数转换为概率分布。在注意力的上下文中,它将来自查询和键的点积的原始相似性分数转换为权重,有助于更强调相关的 token。这确保模型专注于对上下文重要的输入部分。 问题 33:点积如何对自注意力起作用? 在自注意力机制中,查询(Q)和键(K)向量的点积用于计算相似性分数,如公式 所示。高分数意味着token 彼此相关。虽然这种方法是高效的,但它对长序列具有 的二次复杂度,这导致了对稀疏注意力等其他选择的研究。 问题 34:为什么在语言建模中使用交叉熵损失(cross-entropy loss)? 交叉熵损失用于衡量模型预测的token 概率与实际概率之间的差异,根据公式 它通过惩罚错误的预测来工作,推动模型做出更准确的token 选择。在语言建模中,这确保模型给正确的下一个 token 高概率,有助于优化其性能。 问题 35:在 LLM 中如何计算嵌入的梯度? 嵌入的梯度在反向传播过程中使用链式法则计算,遵循方程式 这些梯度然后用于修改嵌入向量,以减少损失,从而细化它们的语义表示并在任务中获得更好的性能。 问题 36:雅可比矩阵(Jacobian matrix)在 Transformer 反向传播中的作用是什么? 雅可比矩阵用于表示输出相对于输入的偏导数。在 Transformer 中,它对于计算多维输出的梯度起关键作用,确保权重和嵌入在反向传播期间得到正确更新。这对复杂模型的优化至关重要。 问题 37:特征值和特征向量如何与降维相关? 特征向量显示数据变化的主要方向,特征值表示这些方向上的变化量。在 PCA 等方法中,选择具有高特征值的特征向量允许在保持大部分方差的同时进行降维,这为 LLM 处理提供了更高效的数据表示。 问题 38:KL 散度(KL divergence)是什么,它在 LLM 中如何使用? KL 散度是衡量两个概率分布之间差异的度量,计算为 在LLM 的上下文中,它用于评估模型的预测与真实分布的吻合程度,有助于指导微调过程以增强输出质量及其与目标数据的对齐。 问题 39:ReLU 函数的导数是什么,为什么它很重要? ReLU 函数定义为 其导数当x > 0 时为 1,否则为 0。其稀疏性和非线性特征有助于避免梯度消失问题,使 ReLU 成为 LLM 中计算高效且流行的稳健训练选择。 问题 40:链式法则(chain rule)如何应用于 LLM 中的梯度下降? 链式法则用于找到由其他函数组成的函数的导数,遵循公式 在梯度下降中使用时,它通过允许逐层计算梯度来促进反向传播,从而实现参数的高效更新以最小化深度 LLM 架构中的损失。 问题 41:在 Transformer 中如何计算注意力分数? 注意力分数的计算由公式 给出。缩放点积用于确定token 的相关性,Softmax 函数然后将这些分数归一化以专注于最重要的 token,这改善了摘要等任务中的上下文感知生成。 问题 42:自适应 Softmax 如何优化 LLM? 自适应 Softmax 通过根据词汇出现频率对其进行分类来提高效率,减少不常见词汇所需的计算。这种方法降低了管理大型词汇表的成本,导致更快的训练和推理时间,同时保持准确性,在资源有限的环境中特别有用。 关键论文 Deep Residual Learning for Image Recognition 提出了残差网络(ResNet),通过引入「残差连接」(Shortcut Connections)有效解决了深度神经网络中的梯度消失问题,使得训练数百甚至上千层的网络成为可能。这一思想被 Transformer 架构所借鉴。 https://arxiv.org/abs/1512.03385 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 提出了批量归一化(Batch Normalization),一种稳定和加速神经网络训练的强大技术。Transformer 中使用的层归一化(Layer Normalization)也源于类似的思想。 https://arxiv.org/abs/1502.03167 高级模型与系统设计 问题 43:GPT-4 在功能和应用方面与 GPT-3 有何不同? GPT-4 在几个方面改进了 GPT-3: 多模态输入:它可以处理文本和图像。 更大的上下文:它可以处理多达25000 个 token,相比之下 GPT-3 只能处理 4096 个。 增强的准确性:由于更好的微调,它犯的事实错误更少。 这些进步使其能够用于更广泛的应用,包括视觉问答和复杂对话。 问题 44:Gemini 如何优化多模态 LLM 训练? Gemini 通过几种方式提高效率: 统一架构:它集成文本和图像处理以更高效地使用参数。 先进注意力:它利用更先进的注意力机制来增强跨模态学习的稳定性。 数据效率:它采用自监督方法来减少对标注数据的依赖。 这些特征使Gemini 相比 GPT-4 等模型成为更稳定和可扩展的选择。 问题 45:存在哪些类型的基础模型(foundation models)? 基础模型可以分类为: 语言模型:包括BERT 和 GPT-4 等模型,用于基于文本的任务。 视觉模型:例如ResNet,用于图像分类等任务。 生成模型:DALL-E 是用于创建新内容的模型示例。 多模态模型:CLIP 是同时处理文本和图像的模型。 这些模型利用广泛的预训练来适用于各种用途。 问题 46:专家混合(MoE)如何增强 LLM 的可扩展性? MoE 使用门控函数将每个输入导向特定的专家子网络,有助于降低计算需求。例如,对于任何给定查询,可能只有 10% 的模型参数被激活,这允许拥有数十亿参数的模型高效运行,同时仍提供高性能。 问题 47:知识图谱集成如何改善 LLM? 知识图谱以几种方式为LLM 提供结构化的事实信息: 减少幻觉(Hallucinations): 它们允许根据图谱验证事实。 改善推理:它们利用实体间的关系来改善推理。 增强上下文:它们提供结构化上下文,产生更好的响应。 这对问答和实体识别等应用特别有益。 关键论文 Language Models are Few-Shot Learners 这篇是GPT-3 的论文,它通过将模型参数扩展到前所未有的 1750 亿,展示了 LLM 强大的少样本(Few-Shot)甚至零样本(Zero-Shot)上下文学习能力,用户只需在提示中给出少量示例即可完成任务。 https://arxiv.org/abs/2005.14165 Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 提出了稀疏门控的专家混合(MoE)层,允许模型在保持每个输入计算成本不变的情况下,将参数量扩展到万亿级别,是实现当今最高效、最大规模 LLM 的关键技术。 https://openreview.net/pdf?id=B1ckMDqlg Gemini: A Family of Highly Capable Multimodal Models 作为技术报告,它介绍了原生多模态模型Gemini 的设计。Gemini 从一开始就被设计为可以无缝地理解和处理文本、代码、音频、图像和视频等多种信息类型。 https://arxiv.org/abs/2312.11805 应用、挑战与伦理 问题 48:如何修复生成有偏见或错误输出的 LLM? 要纠正LLM 的有偏见或不准确输出,您需要采取以下步骤: 分析模式:寻找数据或所使用提示中偏见的来源。 改进数据:使用平衡的数据集并应用技术来减少偏见。 微调:使用策划的数据重新训练模型或采用对抗方法。 这些行动有助于改善公平性和准确性。 问题 49:LLM 与传统统计语言模型有何不同? LLM 基于 Transformer 架构构建,在庞大数据集上训练,并使用无监督预训练,而统计模型(如 N-grams)依赖于更简单的监督技术。LLM 能够管理长距离依赖,使用上下文嵌入,执行广泛的任务,但它们也需要大量的计算能力。 问题50:LLM 在部署中面临哪些挑战? 部署LLM 相关的挑战包括: 资源密集性:它们有很高的计算需求。 偏见:存在它们可能延续训练数据中存在的偏见的风险。 可解释性:它们的复杂性使它们难以解释。 隐私:数据安全存在潜在问题。 处理这些挑战对于确保LLM 的道德和有效使用是必要的。 关键论文 On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 这篇论文引发了广泛的讨论,它批判性地审视了大规模语言模型存在的偏见、环境成本、不可解释性等风险,并对未来发展方向提出了警示。 https://dl.acm.org/doi/pdf/10.1145/3442188.3445922 Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings 系统性地揭示并量化了词嵌入中存在的社会偏见(如性别偏见),并提出了消除这些偏见的算法,是研究 AI 公平性和偏见的早期关键工作。 https://arxiv.org/abs/1607.06520 Survey of Hallucination in Natural Language Generation 作为一篇综述性论文,它全面地总结和分类了LLM 中的「幻觉」(即生成与事实不符或无意义内容)现象,分析了其成因、评估方法和缓解策略。 https://arxiv.org/abs/2202.03629
北京AI公司赴港IPO,百度元老创办,冲刺“AI智能体第一股”
作者 | 陈骏达 编辑 | 心缘 智东西6月18日报道,昨日,北京知识图谱技术龙头海致科技向港交所提交上市申请,联席保荐人为招银国际、中银国际和申万宏源香港。 海致科技成立于2013年8月,注册资本为3724万元,致力于通过图模融合技术开发产业级智能体并提供产业级AI解决方案。 值得一提的是,海致科技创始人兼董事长是百度元老、前百度副总裁任旭阳,他同时也担任真知创投的董事长。 招股书显示,海致科技是中国首家通过知识图谱有效减少大模型幻觉的AI企业。据弗若斯特沙利文的数据,按2024年营收计,海致科技在中国产业级AI智能体提供商中位列第五,并在中国以图为核心的AI智能体提供商中位列第一,拥有超过一半的市场份额。 截至2024年底,海致科技的客户规模已达300余家,涵盖超100个应用场景。该公司主要对外提供Atlas图谱解决方案和Atlas智能体解决方案,相关技术已在反欺诈、智能营销、智能营运、风险识别、数据治理和智能制造等场景落地。 目前,海致科技尚未披露其计划募资额。2013年至今,海致科技一共完成了13轮融资,在2025年6月5日完成交割的E-2系列融资后,其投后估值为33亿元人民币。 一、2024年营业利润转正,智能体产品毛利已达45.7% 当下,大语言模型在产业界落地面临着数据获取难度大、无法及时更新、模型可解释性和可信度低、实际应用难以满足需求等问题。知识图谱与大语言模型的结合有望成为大语言模型规模化应用落地的关键路径之一。 知识图谱是表达现实世界知识结构的语义网络,能够实现知识的结构化、网络化和可视化,还支持信息的自动化推理、查询、归纳与预测。因此,知识图谱可提升AI系统理解复杂信息的能力,从而辅助其决策,已经成为业内去除大模型幻觉的主要手段之一。 海致科技是国内较早开发知识图谱技术并将其运用于AI领域的企业之一。2022年-2024年,海致科技的营收分别为3.13亿元、3.76亿元和5.03亿元。2022年和2023年,其年内净亏损额分别为1.79亿元和2.02亿元,2024年,海致科技实现盈利,年内净利润为330万元。 ▲海致科技2022年-2024年营收、净利润(亏损)及研发投入变化(智东西制图) 2022年-2024年,海致科技的研发投入分别为0.87亿元、0.73亿元和0.61亿元,占同年营收的比重分别为37.8%、19.4%和12.1%,研发费用逐年下降,其中主要减少的部分是对员工的相关福利。对此海致科技称,随着大语言模型的激增和开源技术的普及,该公司对人员配置结构进行了战略性优化。 按业务线来看,2022年-2024年海致科技的Atlas图谱解决方案分别贡献了该公司当年营收的100%、97.6%和82.8%;Atlas智能体分别贡献了该公司当年营收的0%、2.4%和17.2%。 报告期内,海致科技的毛利率分别为30.9%、35.2%和36.3%,这主要得益于Atlas智能体毛利率的大幅增长。具体来看,Atlas图谱解决方案的毛利率分别为30.9%、35.6%和34.3%。2023年推出的Atlas智能体在当年实现了17.8%的毛利率,2024年其毛利率已达到45.7%。 2022年-2024年,海致科技分别产生了2.16亿元、2.43亿元和3.21亿元的销售成本,人工成本、外包服务费等为主要成本项,增幅与其营收增长基本一致,主要是由于客户数量的增加。 二、院士担任首席科学家,研发人员占比近8成 截至2024年底,海致科技的研发与技术团队一共有556名成员,研发人员占比达到78.9%,其研发重点主要集中在图谱技术的深入探索和知识图谱与大语言模型的融合。 2021年,海致科技与中国工程院院士郑纬民教授合作成立了高性能图计算院士专家工作站,郑纬民教授担任海致科技首席科学家,在此合作框架下,重点在大规模图数据存储和高性能处理领域开展合作研究。 此外,该公司还与清华大学等多所中国知名高校建立了合作关系,共同推进图技术的研究。合作研发工作涵盖分布式图数据库的算法性能优化、图数据库的高性能混合工作负载处理以及数据压缩技术研究等多个领域。 海致科技的解决方案以三大核心能力为基础: 1、图计算能力:基于原生图数据存储方法、先进图计算技术及子图细胞批处理技术这三项技术,海致科技提升了图数据库性能,其自主研发的AtlasGraph图数据库于2023年打破世界记录,能实时分析数万亿数据点。 2、图模融合技术:这一技术将知识图谱融入大模型预训练、推理及检索阶段,增强了大语言模型输出的准确性、可追溯性与可解释性,减少了幻觉问题。 3、行业专业知识:海致科技过去十年积累了多行业的数据治理、分析及算法解决方案经验,构建了通用知识框架,截至2024年底已与300多家客户合作,覆盖超百种应用场景。 截至2024年底,海致科技在中国境内注册了38项专利、76项商标、242项计算机软件著作权、3项版权、8个域名。 三、客户涵盖头部大行与上交所、深交所,前五大客户占比逐年下降 海致科技希望解决大语言模型的幻觉问题,提供产业级AI解决方案,主要包括: 1、Atlas图谱解决方案:基于图计算与数据分析能力构建,包含DMC数据智能平台、Atlas知识图谱平台及AtlasGraph图数据库; 2、Atlas智能体:基于图模融合技术开发,相关解决方案协同运作,将各种企业数据转换为结构化知识,增强基于推理的分析并实现智能自动化。 2022年-2024年,海致科技的客户数量分别为95家、128家与171家,大部分客户购买的是其Atlas图谱解决方案。 同期,海致科技来自前五大客户的收入分别为1.14亿元、1.22亿元和1.50亿元,前五大客户贡献营收占当年总营收的比重分别为36.5%、32.5%和29.6%,占比逐年下降。该公司未披露主要客户具体名称,前五大客户主要来自金融、新能源、互联网等行业,政府客户也多次出现在前五大客户清单中。 2022年-2024年,海致科技分别从前五大供应商处采购了3335万元、3190万元和2513万元的产品或服务,前五大供应商占同期采购总额的比重分别为39.3%、33.5%和19.6%。 海致科技曾在此前的融资消息中披露,该公司已累计服务数十个政府客户,服务的企业用户包括中国建设银行、中国工商银行、招商银行、深圳证券交易所、上海证券交易所、国家电网甘肃电力、国家电网武汉电力、中国商飞等,并已成为公安、电力和金融知识图谱行业标准制定的参与方。 四、获北京、上海两地人工智能基金押注,高管曾在百度、IBM任职 海致科技的股权结构如下: 目前,海致科技由以下人士共同控制: 1、公司创始人、董事长兼执行董事任旭阳,及其作为普通合伙人的海阔分享; 2、海致科技执行董事兼首席执行官杨再飞,及其作为普通合伙人的海阔成长。 上述人士形成了海致科技的单一最大股东集团,共持有29.46%的股份。杨再飞为海致科技的法定代表人。上市后,这一单一最大股东集团将继续保持实际控制权。 海致科技的股东阵容豪华。北京人工智能基金、上海人工智能基金分别持有其3.03%和1.97%的股份,此外,中国互联网投资有限合伙、北京信息产业发展投资基金等国资以及君联资本、高瓴资本等知名风投也在其中持有股份。 任旭阳拥有斯坦福大学管理学硕士学位,于2013年8月加入海致科技,并于2023年7月起担任董事长。从2001年-2010年间,他一直在百度任职,最后职位为副总裁,主要负责并购、公关、市场营销、新业务开发和战略合作伙伴关系。2020年以来,他创立了真知创投,并一直担任其董事长兼管理合伙人。 海致科技执行董事兼首席执行官杨再飞拥有中国人民大学全球政治经济与国际关系学士学位,于2019年4月加入海致科技,此前,他曾于中央电视台担任记者,并历任北京恒诚飞鸿商贸有限公司执行董事、监事兼总经理。 海致科技执行董事兼副总经理杨娟硕士毕业于复旦大学计算机应用技术专业,于2015年2月加入海致科技。她此前曾在IBM中国担任顾问架构师、客户技术架构师等职务。 海致科技执行董事兼副总经理万澎江拥有北京信息工程大学计算机科学与技术学士学位,于2015年6月加入海致科技。他同样曾在IBM中国工作,担任软件开发客户技术专家。 2022年-2024年,海致科技的高管、董事和监事以薪金、花红、股份等形式,分别领取1139万、8804万和669万的薪酬。 结语:产业级AI服务狂飙,知识图谱+大模型方案让AI更懂企业 中国产业级AI服务的市场正在快速增长。弗若斯特沙利文的数据显示,2024年,中国产业级AI服务市场规模已经达到453亿元,2025年-2029年这一市场的复合年增长率将达到44.6%。 一些标准化程度较高、数据丰富的行业尤其适合产业AI的规模化落地和深度应用。海致科技等企业所研发的知识图谱技术,便能帮助上述行业的企业充分利用自有数据,最终打造适合自身业务特点的AI解决方案。 不过,目前知识图谱技术仍面临成本相对高昂、领域迁移困难、跨模态对齐程度低等问题,海致科技希望将知识图谱与大模型深度融合,从而解决部分挑战。
石头迷你洗烘一体机 Q1 Hello Kitty 限定版,让 Hello Kitty 给你洗衣服
近日,石头和三丽鸥联名,推出了迷你洗烘一体机 Q1 Hello Kitty 限定版,定价为 1999 元。 整机采用了 Hello Kitty 契合的复古粉配色,舱门上贴满了 Hello Kitty 的面容和文字 Logo,还有各式各样相关的标志。 限定版还提供一个 Hello Kitty 面盖,能够直接磁吸在舱门上面。配合略带粉色调的复古白机身和粉色字体,看着就一体性很强,很萌很 Hello Kitty。 另外,石头还提供了正式授权的 Hello Kitty 礼盒,里面包含了印有 Hello Kitty 的脏衣收纳箱和净渍球收纳包,还有滴胶贴纸。不仅能贴到洗衣机上,还可以贴到自己喜欢的地方。 Q1 很小巧,一个人就能够搬动。机器采用了上排水设计,而且占用的空间很少,不管是放入柜里面还是嵌入在家里的角落都很合适。柔和的配色也方便它快速融入家中。 机身配置方面,Q1 搭载了 Fresh Gale 滚筒柔烘技术,支持洗烘一体。机器内置石头自研的 RR Mariner 全域精控算法,可实现阶梯式提升水温,特渍洗模式配合净渍球可以清洁 6 天血渍。 机身内搭载了 DD 直驱变频电机,噪音更少,夜里洗衣也不打扰休息。 Q1 内置 UVC 深紫外线和高温煮洗功能,提供了「高温煮洗」、「除螨」和「防过敏」等模式,清洁贴身衣物能更干净。 机器内配备三个热敏传感滩透,可以精确感知机内温度,实现烘干即停不过烘的效果。烘干时也支持毛絮风道自清洁,毛絮能够自动带走。 小尺寸的机身下容积为 0.8kg,除了能够洗贴身衣物,还能兼容毛绒玩具、口罩手套枕巾、睡衣和瑜伽背心等。 价格方面,石头迷你洗烘一体机 Q1 Hello Kitty 限定版定价 1999 元,目前支持国补,国补后售价为 1599 元。
美国五菱巅峰之作,克尔维特 ZR1X:1250 匹马力,零百加速仅 2秒
最近重温《速度与激情》系列,看来看去最喜欢的车还是这辆银色的雪佛兰克尔维特 Grand Sport #002。 Roadster 样式的车身造型看上去确实是一眼的精致,颇给人一种「西装暴徒」的感觉,作为电影道具使用的它搭载了一台 6.2L 排量的 V8 发动机,最大马力 550 匹,0-100 公里加速则仅需 3.8 秒。 只可惜为了配合范老大和布莱恩跳河的镜头,12 辆道具车损失惨重,最后只有 3 辆幸存。 克尔维特虽然在中国的知名度不如法拉利、兰博尼基等超级跑车品牌,但它在美国却算是家喻户晓的品牌,甚至一度被喻为「国宝级跑车,代表美国的历史、文化、精神,还有最高端的汽车技术。」 就在近日,克尔维特又推出了一款最大马力为 1250 匹的超级跑车—— 雪佛兰克尔维特 ZR1X。 这辆车并非专为赛道设计的,克尔维特强调 ZR1X 更侧重于公路性能,但估计没有哪条公开道路能够让这台车发挥出它 2 秒内破百和 241 km/h 的极速潜力。 这台性能怪兽 1250 匹马力中的 1064 匹源自于一台 5.5L 的双涡轮增压 V8 引擎,它通过 8 速的双离合变速箱来驱动后轮,另外的 186 匹马力则来自于升级版的 E-Ray 电驱系统,在一块 1.9 kWh 的电池驱动下,这台电机的转速上限来到了 17000 转,由此提供了 186 匹马力和 196 牛米扭矩。 不过大家都知道弯道快才是真的快,在这台 ZR1X 上,工程师彻底重构了 E-Ray 的 eAWD 底盘控制系统,宣称可以同步实现纵向与横向的 1.0g 过载,这个数值大致相当于你从 10 楼跳下时感受到的加速度。 雪佛兰也为新车开发了全新的制动套件,采用了前 10 活塞加后 6 活塞的卡钳,并搭配了 16.5 英寸的碳陶刹车片,官方宣称其最大减速过载可达 1.9g。标准版车型搭载的是米其林 PS4S 轮胎,选装包里则有更高刚度的弹簧、更硬朗的底盘设定以及米其林 Cup 2R 轮胎,当然也少不了前扰流板、底盘导流鳍、引擎盖扰流唇及冲浪板尺寸尾翼等各种碳纤维空气套件。 同步推出的还有全新的 PTM Pro 驾驶模式,该模式能够让车辆关闭牵引力与稳定控制,但保留再生制动扭矩矢量控制、前轴预控制系统及弹射起步功能。 尽管性能很「狂野」,但克尔维特 ZR1X 的内饰倒挺有氛围感,全车配备了一块 14 英寸的数字仪表屏、一块 12.7 英寸的触摸中控屏以及仪表盘左侧用来操作 HUD 以及 PTM 系统的 6.6 英寸触摸屏。内饰材质上则大量使用了各种碳纤维元素以及绒面革超细纤维。 这台有史以来最先进的克尔维特在其他地方都很完美,就是什么时候能把这个「五菱」标换一下就好了,重新设计一个大概也就 200 万美元。
李想:过去三年我们学习职业经理人管理体系 结果变得越来越差
快科技11月26日消息,理想汽车今日发布了三季度业绩报告。之后,理想汽车CEO李想发布长文,讲述了理想汽车的长期思考。 李想表示,2025年的第三季度,是理想汽车面向的第二个十年,三个最重要的关键选择应该怎么做,分别是组织、产品、技术。 第一个关键选择是组织:我们面临的选择是创业公司的管理模式,还是职业经理人的管理模式? 理想汽车在过去的十年里,最初的七年是创业公司的管理模式。随着规模的扩大,大到了我之前创业所没有经历过的营收规模,在2022年前后,很多人都会建议我们走向职业经理人的管理模式。 因为在历史上,奔驰、宝马这样的百年汽车企业,以及微软、苹果这样的科技巨头,都在这一模式下取得了非常大的成功。 过去三年,我们非常努力的让自己变成职业经理人的治理体系,逼迫自己接受各种变化。但是,我们却变成了越来越差的自己。 而英伟达和特斯拉今天仍以创业公司的方式管理,如果全世界最强的公司都是创业公司的管理模式,我们有什么理由放弃最擅长的方式? 从1998年开始,我有27年的创业公司的管理经验,而且从来没有在任何大企业中以职业经理人的方式工作过。 当下面对的又是一个行业高度竞争、技术高度变化的大环境,自己热爱产品、热爱汽车、热爱人工智能,工作就是自己最大的爱好,为什么不用自己最擅长的能力和方式来管理理想汽车? 这是理想汽车面向第二个十年,第一重要的选择。 因此,从今年四季度开始,我们坚定地回到创业公司的管理模式,以此来面对新时代、新技术的挑战。
起火Model 3车门打不开,特斯拉致命事故再引诉讼
IT之家 11 月 26 日消息,据 Carscoops 今日报道,特斯拉再度因为电子门把手导致的致命事故面临法律诉讼,引发外界对其车辆设计的关注。 上周递交至美国华盛顿州西区联邦法院的起诉书显示,一辆 2018 款 Model 3 在发生碰撞并起火后,门把手因为断电无法正常工作,导致乘客无法自行逃生。 诉状显示,2023 年 1 月 7 日,Jeffrey Dennis 驾驶特斯拉 Model 3 与妻子行经塔科马市时,车辆突然加速并撞上街角的电线杆。碰撞后,车辆随即起火。 据称,多名现场目击者尝试拉开车门救援,但门把手在断电后无法操作。起诉书还指出,有目击者甚至尝试用棒球棍击碎车窗亦未成功。 在经历一系列尝试后,消防人员最终将车内两人救出,但 Wendy Dennis 因伤势过重当场身亡,Jeffrey Dennis 双腿遭受严重烧伤。 起诉书称,Model 3 采用了“独特且存在缺陷的门把手设计”,这一设计在事故中阻碍了救援。同时,原告指控特斯拉知晓相关问题却未予以解决,并持续销售这款车型。 IT之家注意到,美国国家公路交通安全管理局(NHTSA)今年 9 月宣布已针对约 17.4 万辆 2021 款特斯拉 Model Y 车型展开调查,据称是这些车辆存在电子门把手失灵的问题。 诉讼还指向其他系统,包括车辆在撞击前加速时,自动紧急制动系统未能启动。此外,起诉书指称特斯拉采用了“高度易燃的电池化学材料”,并声称存在更安全且成本更低的替代方案。 Jeffrey Dennis 正寻求对其妻子的错误死亡赔偿、对自身长期伤害的补偿,以及根据加州法律提出的惩罚性赔偿。
施耐德电气:数据中心太耗电导致美国电网扛不住
IT之家 11 月 26 日消息,据彭博社报道,美国正面临十年内可能出现的电力危机:数据中心用电需求激增,与老化脆弱电网的现实形成尖锐冲突。 上述判断来自施耐德电气(Schneider Electric SE),该公司预计,若维持当前备用容量水平,到 2028 年,美国高峰时段的发电能力将不足以满足用电需求。根据这家电气设备制造商的分析,到 2033 年,全美电力装机容量缺口最高可达 175 吉瓦,由此可能导致大规模停电与断电事件。 美国电力系统由区域性电网和众多公用事业公司拼凑而成,如今正承受着数据中心、新建工厂及电动汽车带来的巨大压力。事实上,早在过去两年人工智能(AI)热潮兴起之前,极端天气事件频发以及间歇性可再生能源占比持续上升,已使电网长期处于紧张状态。 施耐德电气北美首席公共政策官珍妮・萨洛(Jeannie Salo)在接受采访时表示:“这可能导致我们在 AI 竞赛中落后于中国。我们将向世界释放一个信号:美国已无力应对现代科技发展所需的电力需求。这或许将削弱国际资本对美国的投资意愿。” 施耐德电气预测,不断攀升的用电高峰将对“备用容量裕度”(reserve margins)—— 即为应对极端天气或网络攻击等突发状况而储备的额外电力,带来日益严峻的压力。萨洛指出,若动用这些应急资源来满足日常用电需求,将严重威胁电网可靠性,并加剧系统脆弱性。 她以通俗比喻解释道:备用容量裕度就如同银行账户中为应对突发困境而预留的最低储蓄额。她警告称,三年之后,美国可能不得不常态化动用这些储备,届时一旦遭遇严重突发事件,将因储备不足而缺乏缓冲能力。尽管美国部分地区正掀起储能电池建设热潮,但整体电力存储能力依然有限,电网必须做到每秒钟发电与用电实时匹配,否则便可能崩溃。 “我们正面临越来越多的用电高峰与剧烈波动,”萨洛表示,“这意味着到 2028 年,我们或将常态性动用备用容量,而非仅将其留作应急之用。这将显著削弱系统可靠性,因供应缺口一旦出现,其影响程度可能更为严重。我们必须在极短时间内未雨绸缪,积极应对。” 此前,在 AI 时代开启前,美国大部分地区的电力需求增长长期停滞;即便考虑到经济持续电气化趋势,业内也仅预期需求将温和、渐进式上升。然而,数据中心的爆发式增长正迅速改写这一格局。据彭博新能源财经(BloombergNEF)预测,到 2035 年,数据中心用电需求将翻倍,占全美总用电量的近 9%,并将电网推向临界负荷边缘。 数据中心的影响已现端倪。北美电力可靠性公司(NERC)本月早些时候指出,数据中心正显著推高冬季用电需求,极端天气条件下发生停电的风险正在上升。数据显示,美国今冬峰值电力需求较上一冬季高出约 20 吉瓦,而同期新增供电能力仅 9.4 吉瓦。(IT之家注:1 吉瓦约等于一座传统核电站的装机容量。) 尽管挑战严峻,仍存在若干技术与策略可缓解电网阻塞问题。例如在得克萨斯州,随着电池储能装机容量的快速提升,此前关于电力需求将压垮电网的忧虑已有所缓解。 萨洛建议,应优先部署上述“电网增强型技术”(grid-enhancing technologies)。她强调,相比大规模新建发电与输电设施(此类项目难以满足近期紧迫需求),该路径更具时效性与可行性。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。