行业分类:
加载中...
头条分类:
加载中...
奥特曼:AI拥有了情绪、记忆与风格,但TED2025现场他说最可怕的才刚开始
2025年4月11日周五,温哥华 TED 大会现场。 主持人请出 Sam Altman,全场掌声雷动。不是因为他是 OpenAI CEO,而是因为在他手上,AI 不再是“写作工具”或“生产力插件”这么简单。 主持人把他最近最爱的产品 Sora 拿出来展示:“我问它,如果你在 TED 分享一个惊人的观点,会是什么画面?” 结果——生成图像中,台上的主持人衣着相仿,神态夸张,五指清晰,仿佛比他本人还像他自己。 接着,他又问了一个让 Sam 当场震惊的问题: “你能用一张图解释智能和意识的区别吗?” Sora 给出的,不只是图像,而是一种似乎具备“理解力”的回答,像是 AI 正在摸索“自我意识”的边缘。 这一次,人们开始意识到:AI 不只是变聪明了,它开始变得像“人”了。 拥有风格、具备情绪感知、拥有记忆系统、可以与世界“持续交互”——在 TED 的这场访谈里,Sam Altman 把过去半年 OpenAI 内部最尖端的进展、最棘手的风险、最深层的哲学难题,全盘托出。 他说:“AI 正在从工具,变成伙伴。再往前,它会成为世界的一部分。” 他说:“你可以不喜欢它的变化,但技术不会因为不被喜欢就停止。” 他说:“最可怕的,还没开始。” 这不是一篇“新闻稿”,这是一次关于未来十年最重要变量的深度记录。 你正在阅读的这篇文章,整理自 Sam Altman 在 TED2025 全程对话,我们将从以下 5 个关键层面,完整提炼这位 AI 领航者眼中的未来地图: 当 AI 拥有风格与情绪:创作边界的重新划定 记忆觉醒之后:AI 如何真正“理解你”? DeepSeek、开源与产品化之战 AGI 的倒计时:从敬畏到红色按钮测试 Altman 的父亲时刻:当孩子成为你做选择的镜子 他在 TED 说:“我希望我的孩子长大后,看我们这一代时,会觉得那个世界又辛苦又落后。” 这是技术的宣言,也可能是历史的悲悯。 第一节|AI 有了风格,创作者怎么办? Sora 是个危险的玩具。 在 TED 现场,主持人拿出 Sora 做的生成图像给 Sam Altman 看,说:“我问它——如果你在 TED 分享一个惊人的观点,会是什么样的画面?” 结果,Sora 生成了一张舞台画面,主持人手指张开,穿着也几乎一致,表情甚至比本人更夸张。Sam 忍不住笑了:“我从没见你这么夸张。” 主持人回了一句:“可能是 B+ 吧,但至少它画对了五根手指。” 这是玩笑,却也不是玩笑。几个月前,AI 还在为“五指画错”“风格粗糙”被群嘲。现在,它已经能掌握你的穿搭、模仿你的情绪,甚至模拟你“如果特别激动时”的样子。 更重要的是,它不只是生成图像,而是似乎理解你要干什么。 当主持人要求它生成一张“展示智能与意识差异的图表”时,Sora 真的给出了一张能引发哲学争议的结构图。Sam 的评价是:“这不只是图像生成,更像是连接了智能能力。” 这是关键。 Sora 不再是“文生图”工具,而是“理解你表达意图 + 提炼图像含义”的智能型内容生成器。 它不只是图形好看,而是内容“对了”。 更可怕的是,它有“风格”。 在另一个测试中,主持人让模型创作:“如果查理·布朗(美国漫画《花生漫画》的主人公)发现自己是 AI,会说出怎样的内心独白?” AI 的回答不但写出了“布朗式的悲观幽默”,甚至带出了元叙事感——既像在模仿花生漫画的腔调,也像在质疑自己是否拥有意识。 这让主持人当场冒出一句:“这是不是版权问题?” 观众笑了,掌声响起。 但 Sam 的回应让整个场面突然严肃: “我们希望打造的,是让每个人都能创作出好作品的工具。但我们也清楚,风格被模仿,经济机制却尚未建立。” 过去,AI 是工具。你输入,它输出。 现在,AI 是创作者。它有风格,有细节,有连贯的表达。 人类的直觉是抗拒的:这不是我写的,但它写得像我,甚至比我写得还好。 于是问题来了: 如果你是漫画家、编剧、音乐人,你的风格会不会被“挪用”? 如果你没有授权,它是不是侵犯了你的“创作人格权”? 如果你授权了,它应该付多少钱?怎么分?怎么记账? Sam 在 TED 上说了一段极重要的话,几乎可以视作 “未来创作经济的新纲领”: “如果艺术家愿意授权自己的风格供人使用,平台可以为其设立分成机制。 如果你说:‘我想生成融合了这七位艺术家风格的作品’,且他们都授权了——那分成就该有个透明系统。” 换句话说,未来的创作权,不是“版权”那么简单,而是“风格权 + 分润权”。 这一转变意义深远。 它不是“AI 盗版人类”,也不是“人类 vs AI”。 它是一个全新的创作秩序正在浮现: 过去创作者拼的是“内容”; 未来创作者拼的是“风格资产”; 风格一旦被确权、能授权、可交易,就不再只是“情感表达”,而是变成“生产资料”。 但,创作者的焦虑也是真的。 主持人在现场提到,另一位 TED 演讲者 Carol Cadwaladr 就曾用 ChatGPT 生成了一篇“以她风格写的演讲稿”,结果“惊人地像”,但她本人根本没参与,甚至没有授权。 她的态度是:“这很厉害,但我从没同意我的风格被用在这里。” 这句话像一盆冷水,泼在了“AI 创作热”的热潮上。 Sam 也承认,这种情况需要新的边界。他表示,现在 OpenAI 的图像生成器禁止使用“活着的艺术家”名字,但如果是一个流派、风格、年代,那就允许。 但这只是暂时性应对。 真正难的,是在更广泛的生成模型系统中,如何判断“灵感”和“抄袭”之间的距离? 所以,这一节你要记住的不是: “AI 画得越来越好了。” 而是: AI 的风格越来越像人了,但人类还没准备好如何与它共创这个时代。 这不是绘图工具进化,这是文化权力的重构。 第二节|它开始记住你是谁 那场 TED 对话中,另一个时刻,现场沉默了一秒。 主持人说,他前一天测试了新版 ChatGPT 的“记忆”功能,输入一句话: “告诉我——你对我了解多少?” 结果屏幕上跳出的回答让他惊住了: “你是 TED 的主持人,你最近在关注 OpenAI 与 DeepSeek 的竞争,你偏好风格带有幽默感和哲学意味的提问——我猜你今天还想谈谈代理 AI。” 准确、自然,甚至带着一点“调侃感”。 那一瞬间,他意识到:AI 真的“记住我”了。 过去你和 ChatGPT 对话,是“一问一答型关系”。你关闭页面,它忘了你是谁。 现在不同了。 OpenAI 悄悄上线的“记忆功能 2.0”,彻底重写了人与 AI 的交互模式——模型不再是零状态,而是持续在记录你、理解你、演化与你的关系。 Sam Altman 在 TED 上首次对外系统解释了这个变化: “它不是瞬间把你大脑上传,而是像一个朋友,一点点听你说话,看你在做什么,然后在你不察觉时,逐渐熟悉你、了解你,甚至开始预测你。” 听起来像不像电影《她(Her)》? 这就像从“百度一下你就知道”进化到“它知道你想百度什么”——甚至在你开口前就已经备好了答案。 更进一步,Altman 提出了一个明确预言: “我们正在朝一个方向前进:用户不再需要每次输入提示词,AI 会根据你在做的事,主动建议下一步怎么做,让你变得更好。” 换句话说,AI 正在从“问答式关系”走向“观察式陪伴”。 这一变化是划时代的。 它意味着,AI 开始从“你召唤它”变成“它时刻在你身边”。 这会改变三个根本问题: 1、你是谁? AI 将从你的每一次输入、搜索、选择中建立画像,形成一个“数据人格”。 2、你想做什么? 它不再等你“命令”,而是能根据习惯、时间、情绪,主动发起任务建议。 3、你能成为什么? 你每天学什么、聊什么、读什么,它都能变成你“能力增强”的输入,从而成为你能力的“延伸”。 Sam 说得很坦白: “过去的软件系统是‘你告诉我你是谁,我来服务你’; 未来的 AI 是‘我知道你是谁,所以我比你更知道你该干什么’。” 这句话在 TED 场内引发一阵沉默。 你可以喜欢,也可以不安。但你必须承认,AI 正在成为你生活的隐形操作系统。 问题是:这真的安全吗? 主持人问:“如果它知道得太多,甚至影响了我的行为决策,那还安全吗?” Sam 解释说,这种“记忆系统”并不是全天候监听,而是基于你在 ChatGPT 里的行为构建,并允许用户随时删除、清空、关闭——你有主权。 但这也只是目前。 当你未来用的是 AI 手机、AI 眼镜、AI 操作系统,它是否能“无缝监听”,甚至预测你行为、引导你选择? 这是个哲学问题,也是一个商业伦理问题。 我们可以类比一下过去两个技术时代的演化轨迹: AI 进入“记忆阶段”,就像“你不是用它做事,而是它协助你成为你”。 但你要警惕: 它了解你,但它不爱你; 它陪着你,但它不理解你的脆弱; 它能记住你,但它无法为你的未来负责。 Sam 在 TED 上强调:“这不是 AGI。它不会自己学,不会自我成长,不会推导科学。” 它只是在尽可能模仿人类的陪伴感。 但光是这一点,就足以改变世界。 如果 AI 成为每个人的“数字副本”,你将拥有一个比你更了解你、比你更冷静、比你更善于总结规律的“自我”。 你不是失去控制,而是面临一个全新的问题: 当 AI 越来越懂你,你是否还认识你自己? 这才是 Sam 所说:“最可怕的,才刚开始”的真正含义之一。 第三节|开源挑战者来了:DeepSeek vs OpenAI TED 现场,主持人终于问出了那个全场都在等的问题: “DeepSeek 的崛起,是否对 OpenAI 构成了真正威胁?你们是否害怕,有人用一个数量级更低的资源,就做出了你们一样强的模型?” Sam Altman 的表情没有明显变化,只是轻描淡写地回应了一句: “我们的增长,没有因为 DeepSeek 放缓一丝一毫。” 听起来像是一种“淡定”,但全场听懂的人都知道,这背后是一场AI 工业化节奏的集体焦虑。 1、DeepSeek 做对了什么? 这家来自中国的开源团队,用远低于 OpenAI、Anthropic 的投入,做出了一个性能逼近 GPT-4 的模型,而且发布节奏极快、响应开发者反馈积极、社区生态热度高。 更重要的是,他们的战略不是“平台级垄断”,而是“工具层普惠”:开放权重,开源模型,免费商用。 它像一股技术界的“民间反击”,让所有大模型公司突然意识到: 不是你模型能力不够,而是你对开发者不够真诚。 Altman 并不否认开源的重要性。 他在 TED 上首次明确透露: “我们已经在准备发布一个全新的开源模型,它的性能可能会超过目前所有开源模型。 昨晚我们刚开了第一次社区讨论会,正在研究开源的基本参数与策略。” 这句话释放了两个信号: OpenAI 将不再只做“闭源巨兽”,也要参与“开源生态”。 开源模型将不是“阉割版”,而是“接近前沿”的实用级系统。 这意味着,OpenAI 正在试图补上它过去几年里最被诟病的那块短板。 但 Altman 也坦诚了他们的顾虑: “我们无法避免有人拿开源模型去做我们不喜欢的事情。你越强,越开放,风险就越大。” 这就是“AGI 商业化 vs 人类安全”的核心矛盾: 开源,意味着更多人可以平等使用; 闭源,意味着你有机会建立更严格的使用边界; 但闭源也可能垄断发展路径,开源则可能引爆失控后果。 2、DeepSeek 的优势,正在逼着 OpenAI 改变。 不仅是技术上的压力,更是叙事权的挑战: 谁能在“开源”这场话语战中赢得开发者信任? 谁能在“免费工具化”浪潮中占领最广泛的用户接口? 谁能让“模型”不只是聪明,而是被更聪明地用起来? OpenAI 做出回应:我们也将开源。 但 DeepSeek 的背后,其实还有更深的挑战: 如果“通用智能”最终会被商品化——那领先的关键,是否就从“模型能力”变成了“产品体验”? Sam 在现场放下一个重磅观点: “随着时间推移,智能会商品化。模型之间的差异会变小,真正的差异会体现在产品形态上。” 他举了一个例子: “如果你只是要用模型写个脚本、画个草图、找个摘要,那很多‘差不多够用’的模型已经满足了你。 真正有要求的是‘极致体验’:记忆功能、Agent 能力、多模态融合……这时候比拼的不是参数,而是打磨。” 换句话说: GPT-4 很强,但用户感知的是 ChatGPT 的体验流畅度; Sora 很强,但用户记住的是“它让我有灵感”; DeepSeek 再强,如果缺乏“产品联动”,也可能止步于极客圈。 3、这才是 Altman 最擅长的地方:产品层的战争。 别忘了,他不是科学家出身,而是创业者。不是研究 AGI 的论文写作者,而是研究“人类怎么用 AGI”的产品架构师。 他看得清楚: “未来不会只有一个超级大模型统治一切。相反,是一个模型‘星座’——有开源的、有闭源的、有轻量的、有重型的。” 这句话很关键,它意味着: OpenAI 并不是被 DeepSeek 逼急了才开源,而是他们判断,必须做“多极分布式结构”。 他们要的不是独占,而是主导“生态结构的标准”。 所以,如果你是开发者、创业者、甚至是企业 CIO,现在你要问的不是: “哪个模型最强?” 而是: “我该选哪个生态来构建产品?” “我用这个模型,能否在三个月内交付一个落地系统?” “这个平台的‘服务能力’能否支撑我团队的迭代节奏?” 4、这场 DeepSeek 与 OpenAI 的交锋,从来都不只是性能之争。 它是: 技术普及化 vs 能力封装化; 全球人才协作模式 vs 商业闭环平台模式; “用开源塑造未来” vs “用产品主导未来”。 而 Sam Altman 想要做的,不是模型里的“神”,而是这场星座大战的“调度系统”。 第四节|代理 AI 来了,你还在掌控吗? 在 TED 现场,主持人抛出了那个大众最关心、研究者最避谈的问题: “Sam,你们有没有在内部见识过什么‘真正让人害怕’的模型?比如有自我意识、会自我进化、开始不受控制?” 观众瞬间安静下来。 Sam Altman 没有立刻否认,也没有浮夸煽情,他用了一个极其精准的词: “敬畏(awe)。” “是的,”他说,“我们经历过一些让人充满敬畏的瞬间。不是害怕,而是意识到这些系统将来可能会走多远。” 但紧接着他也强调:“现在我们还没有那种‘觉醒的模型’,也没有任何‘能自主演化’的系统,一切仍在可控范围内。” 可控,但越来越接近临界点。 Altman 认为,比起“是否觉醒”,更值得关注的是 AI 正在获得“代理能力(agentic capacity)”。 这是一种从“回答问题”到“完成任务”的质变: 你不再需要每步都给它写清楚怎么做; 你只需要告诉它:“帮我搞定这件事”; 它会自动搜索、点链接、调 API、访问网页、联络人,直到任务完成。 这,就是 OpenAI 正在内部测试的系统之一:“Operator”。 主持人说他亲自试了一下 Operator。 让它订餐厅、预定座位,它真的会打电话、发邮件,还会说: “请提供你的信用卡信息以完成预订。” “我当场退缩了。”主持人坦白,“我还没准备好把这些交给一个 AI 来处理。” 观众笑了,但这背后藏着一条所有人都意识到的恐怖路径: 当你赋予 AI 足够权限,它就可能开始代替你与世界互动。 这不是遥远的科幻场景,而是明天就会出现在操作系统、APP、网页插件里的“Agent AI”。 那问题就来了: 如果某一天,有人给一个模型下指令: “用一切方式让这篇文章登上热搜。” “让某条负面舆论消失。” “散播一种情绪到社交媒体。” 它该不该执行?它会怎么执行? 会不会自我复制、修改网页、操控搜索结果、制造人设、散布假消息? 如果说 GPT 是“认知层革命”,那么 Agent AI 就是“行动层革命”。 一旦行动权限释放,它可能像病毒一样,在互联网中自我扩散、脱离边界。 Sam 在 TED 现场做了明确回应: “我们正在用一整套 Preparedness Framework(风险准备框架) 来应对这些问题,包括提前识别高风险行为、为系统设置红线,以及建立一键暂停机制。” 但主持人追问了更尖锐的问题: “那你们的安全团队不是还有人离职了吗?如果这些关键人员开始流失,系统安全还靠得住吗?” Sam 表示不清楚具体数字,但承认不同人对 AI 安全有不同观点。“最后,还是要看我们做了什么,而不是说了什么。” 但问题并不简单。 这种“我们保证”式的承诺,在公众心中是有极限的。尤其当模型越来越强、影响越来越广,任何一次事故都可能产生指数级外溢风险。 于是,主持人讲出了一个经典的思想实验: “你面前有一个红色按钮,按下它,有 90% 概率能让你孩子获得超级幸福的一生,但也有 10% 的可能毁掉他的一切。你按不按?” Sam 沉默了一下,说: “我肯定不会按。” 然后,他又加了一句: “但我不认为现在我在做的事是在按那个按钮。” 这句话,是理性,也是焦虑。 他承认自己承担着前所未有的系统性风险,同时也努力让这个系统尽可能地安全、稳定、可控。 可问题是——AI 的发展并不是 OpenAI 一家公司说了算。 Altman 很清楚地表达: “开放模型、开源生态、全球竞速,意味着只要有一家公司愿意冒险,整个系统就会被拖进下一个阶段。” 这才是最大的风险: 风险不在于某一家公司做了错事,而在于整个行业没人愿意慢下来。 “发展不可阻挡”本身,就是一种隐性加速器。 TED 主持人引用了计算机科学家Tristan Harris 的一句话: “正是因为你们都认为自己必须前进,所以才没有人停下来。” Altman 没否认。他说: “我们当然可以放慢——我们也一直在做‘内部延迟’,比如推迟发布,比如修改机制。但行业整体的速度确实很快。” 更关键的是,他指出: “AGI 不是一夜之间诞生的,而是逐步增强的。它不会告诉你:‘我就是AGI’,你只会在某天突然发现,它已经比你聪明了。” 这也是他最在意的问题: 我们是否有能力在模型还没变得“过强”之前,建立好那套通用的安全机制? 我们是否有可能像对核武器那样,对通用模型做集体安全监管? 我们是否可以,在未来某个可能临界的时刻,按下“暂停键”? Altman 的回答是:“我希望可以。” 但他也说: “现在还没有那个‘红线’时刻,但当它到来时,我们必须有能力按下那个按钮。” 这就是现实的两难: 技术的发展不等人; 而人类的认知、制度、安全机制,却永远在“追赶”。 你以为 AI 最危险的是“它太聪明”,其实不然—— 最危险的,是它突然开始替你做决定,而你还没意识到你已经失去了选择权。 第五节|如果是你的孩子,你敢赌吗? 如果说技术发展的尽头是哲学,那么 Altman 的 TED 访谈,就是一次典型的“科技回到人类”的公开试炼。 主持人提到了 Sam Altman 最近在社交媒体上发布的一张照片:他抱着刚出生不久的儿子,配文写道: “从未感受过如此强烈的爱。” 这不是一位 CEO 的公关照,而是一位父亲最真实的投射。于是,TED 主持人顺势提出一个终极问题: “假设你面前有一个红色按钮,按下去,有 90% 的概率能让你的孩子拥有超级幸福的人生,但也有 10% 的概率会毁掉他的一切。你按不按?” Altman 没有犹豫太久,说: “我不会按。” 现场顿了一下,主持人追问: “那你现在所做的事情,某种意义上,是不是也在按这个按钮?” 这一刻,全场沉默。 技术的选择,不再是冷冰冰的“能力权衡”,而是血肉之躯的伦理压强。 Altman 给出的回答,既坦诚也复杂: “我确实对未来的世界有担忧。但我不觉得我们在赌命。相反,我们是在拼尽全力,建立一个足够安全的系统——让我们的孩子可以在其中健康成长。” 这并不是一个简单的“乐观”表达,而是一种理性理想主义者的自我拉扯。 他继续说: “有了孩子之后,我确实对世界有了更多挂念。但坦白说,我对‘不毁掉世界’的在意,在成为父亲前就已经非常强烈了。” 这不是 Sam Altman 的独特情感,而是所有 AI 决策者即将面对的集体命题。 你可以想象:一个每天决定“模型是否上线”“权限是否开放”的人,晚上回家抱着刚出生的孩子,看着那双还什么都不懂的眼睛——那是一次技术意志与人性底线的正面交锋。 TED 主持人敏锐地指出: “这不是你一个人的问题。现在 AI 产业之所以让人焦虑,正是因为你们这些核心人物都认为:‘AI 的发展是不可阻挡的,我们都在赛跑,谁也不能慢下来’。 正是这种信念本身,让这个行业变得越来越危险。” Altman 没有逃避。 他说,OpenAI 曾经为了安全反复推迟模型发布,也为每一个新功能做“社会接受度压力测试”,甚至在图像生成中有意识地放宽限制,观察用户对暴力、冒犯等内容的容忍度。 “我们逐渐发现,很多限制并没有必要。只要不会真正造成伤害,用户其实愿意自己判断边界。” 这是一种责任下放的策略,但也是一种风险传导。 换句话说,他们正在从“全禁式监管”过渡到“社会共识型判断”,从“平台替你判断”转向“你为自己负责”。 这也引出了另一个争议核心: 如果未来 AI 系统真的出现重大灾难,谁来承担责任?谁能被问责?谁有权按下“暂停键”? 主持人引用了 Sam 在国会作证时的那句名言: “我们需要一个全球性的模型许可机制,一个 AI 安全审查机构。” 但 Sam 在 TED 上坦言: “我后来对政府体系的运行机制有了更多了解,发现它可能没那么高效。但我们确实需要一种‘外部制衡’机制,可以是行业自治,也可以是全球协调。” 这不是逃避责任,而是承认现实。 监管是必须的,但“由谁监管、如何监管、监管到什么程度”仍然是未解之题。 于是 TED 主持人抛出了一个极具象征意义的终极问题: “如果我们召集一个闭门会议,邀请你、你的同行、伦理学家、科学家,一起制定一个全球 AI 安全的共同标准,你愿意参加吗?你愿意带头吗?” Sam 的回答出乎意料: “其实我更想倾听成千上万用户的声音,而不是只听 100 个精英的判断。我们不能只依赖一群专家在屋子里做决定,而要让 AI 成为集体智慧的一部分。” 这是他在 TED 全场对话中最理想主义的一句话,也最容易被误读。 他不是否认专家制度,而是提出一种未来治理模型: “众人之智 + AI 汇总 + 决策建议” “集体协商 + 社会引导 + 多层反馈机制” 这是一种新型的“技术民主观”——AI 不只是科技的产物,也应该是认知进化的工具。 最后的最后,TED 主持人回到那张照片。 “你说你爱你的孩子,胜过这个世界上的一切。那你希望他长大的世界是什么样的?” Altman 沉默片刻,说: “我记得 iPad 是十几年前的事。现在的孩子看到纸质杂志,可能会用手去滑,觉得那是坏掉的 iPad。 我想,我的孩子长大后,他一定不会觉得自己比 AI 更聪明。他活在一个一切都智能、变化极快的世界里。 如果有一天,他回头看我们这一代,觉得‘他们那个时代好落后、好原始’——那我会觉得,我们成功了。” 这句话不煽情,却极其动人。 那是一个父亲的希望,一个技术领袖的愿景,也是一个文明进化中的微弱承诺: 我们不是为了让 AI 替代人类而努力,而是为了让人类的孩子,活在一个更好的世界里。 最后|我们不是在讨论 AI,而是在讨论人类如何继续成为人类 从 Sora 生成的 TED 舞台图,到“AI 是否拥有风格”; 从记忆系统如何记录你的一生,到 DeepSeek 是否掀起开源革命; 从代理 AI 的风险控制,到那个 10% 的红色按钮; 再到最后,Sam Altman 抱着孩子,说出那句话: “如果他长大后觉得我们这一代人很落后,那就说明,世界真的进步了。” 整场 TED 对话,看似在谈模型、谈能力、谈技术边界,实则每一句都在刺穿一个核心问题: 当 AI 越来越像人,人类还能像人一样思考和判断吗? 你有没有发现,如今最令人震撼的 AI,不是因为“它更强”,而是因为它越来越像你: 它会说故事、画画、写歌词、模仿风格; 它会记住你是谁、你在做什么、你想说什么; 它还能自我执行任务,自我优化流程,自我迭代。 而你呢? 是否还在等待 PPT 的第一稿? 是否还在组织里为一个提案开三次会? 是否还在用三年前的工具,解读今天的世界? Sam Altman 不是完人,他也不想当救世主。他只是一个清醒的现实主义者,一边加速奔跑,一边用尽全力按住刹车。 未来不会在某天突然到来,它已经在来了。 它在你用的工具里,在你忽略的细节里,在你觉得“还早”的那个行业里。 而你,是否已经准备好: 拥抱 AI ? 重塑自我? 重新思考“人类”的定义? 也许,Altman 说得没错: 最危险的,不是 AI 自己变强了,而是它开始替你做决定,而你还没意识到你已经失去了选择权。 我们不是为了让 AI 替代人类而努力, 而是为了让人类的孩子,活在一个更好的世界里。
OpenAI揭秘GPT-4.5训练:10万块GPU,几乎全员上阵,出现“灾难性问题”
编译 | 陈骏达 陈家阳 编辑 | Panken 智东西4月13日消息,近日,在OpenAI史上最贵模型GPT-4.5发布1个多月后,OpenAI联合创始人兼CEO萨姆·阿尔特曼(Sam Altman)与GPT-4.5的3位核心技术人员进行了一场45分钟的高信息量对谈,首次披露了这款模型研发耗时严重超期、计算集群频繁故障、提升路径难以预测等诸多不为人知的细节。 GPT-4.5项目启动于两年前,是OpenAI迄今为止最周密的计划,涉及数百人团队协作,阿尔特曼称OpenAI为了这一项目几乎是“全员上阵”。 研发过程中,OpenAI团队遇到了不少“灾难性问题”。10万卡集群暴露了基础设施的隐藏的小概率、深层次故障,为了权衡时效与性能,OpenAI的系统团队不得不“边修边训”。其中,有一个隐藏的小bug让集群频繁报错,直到训练进度条走过约40%才被揪出。 不过,这也帮助OpenAI打造了更为强大的技术栈:如今可以仅用5-10人便复刻出GPT-4级别的大模型。GPT-4至GPT-4.5的性能提升约为10倍,获得了“难以量化但全方位增强的智能”,这点让OpenAI员工们都感到意外。 OpenAI团队已经意识到,要实现下一个10倍乃至百倍的性能提升,算力已不是瓶颈,关键在于数据效率,即开发出能够利用更多算力,从同样数量的数据中学到更多知识的方法。 同时,系统正从单集群转向多集群架构,未来的训练可能涉及1000万块GPU规模的协作学习,其容错能力需要进一步提升。 对谈中,OpenAI员工们还分享了数据长尾效应与Scaling Law之间的关系、机器学习与系统团队深度协同设计(co-design)模式的优势、无监督学习的本质与“绝不放过任何异常”的问题排查文化,全方位展现了GPT-4.5研发期间的OpenAI的思考与收获。 除了阿尔特曼之外,参与本次对谈的3位OpenAI员工分别为Alex Paino(负责GPT-4.5的预训练机器学习算法)、Amin Tootoonchian(OpenAI首席系统架构师)与Daniel Selsam(研究数据效率与算法)。 以下是阿尔特曼与OpenAI GPT-4.5团队对谈视频的完整编译(为提高可读性,智东西在不违背原意的前提下进行了一定的增删修改): 一、GPT-4.5两年前已启动,项目耗时远超预期 Sam Altman:打造一个如此庞大的模型(GPT-4.5),究竟需要什么呢? Alex Paino:大约两年前,我们开启了这一项目。当时,OpenAI即将上线一个新的大型计算集群,我们团队看到了这个机会,做了一系列工作来确定模型需要包含的功能,进行了大量降低风险的运行测试。 我们为此制定了一个很长的计划,涉及从系统到机器学习的整个技术栈。为了降低风险和为训练做准备是一个漫长的执行过程,而训练本身也是一个非常大的工程。 Amin Tootoonchian:我认为这个过程从一开始,就需要机器学习团队和系统团队密切合作,直到我们明确了想要训练什么模型,然后开始训练。 我们已经在机器学习和系统方面都做了预测,试图尽量缩小预期和现实之间的差距。但由于我们的工作节奏很快,还要利用最新的计算资源,模型训练就成了难以提前完美规划的事情。 我们几乎总是带着许多未解决的问题开启训练,并试图在运行过程中克服挑战,取得进展。主要解法就是增加更多的计算资源。 最后阶段是执行,这需要很多人长期投入大量精力和动力,才能完成训练过程。 Sam Altman:你觉得我们的预期和现实的差距到底有多少? Amin Tootoonchian:系统方面,在开始的时候,我们通常离预期的状态很远。我们总是面临一个选择:到底是推迟启动,等待问题解决,还是提早启动并在过程中解决问题。这总是需要权衡,要避免不合理地延迟进程。 但几乎总是会遇到一些意想不到的问题,我们要做的就是尽可能地处理好这些节点,处理好未知因素,并为模型训练制定计划。 Alex Paino:在这个项目中,我们的目标是做出GPT-4.5,这意味着其能力要比GPT-4聪明10倍。这是我们大约2年前设定的初始目标。 这个过程中发生了很多事情,我们在思考到底能做得更好,还是会不如预期?这是一条非常复杂的过程,但最终,就我们投入的有效计算而言,我们得到了一个我们认为达到了比GPT-4聪明10倍的模型。 Amin Tootoonchian:在执行方面,GPT-4.5项目的耗时与我们一开始预计的相去甚远。 二、如今训练GPT-4级别模型,仅需5-10人即可完成 Sam Altman:集群在从1万卡拓展到10万卡的时候,为什么遇到了这么多问题? Amin Tootoonchian:我认为,如果系统开发者足够敏锐,大部分问题是能在小规模阶段就观察出来的。 还有些问题并不是大规模训练阶段独有的,而是原本就经常出现,但规模提升后就会变成灾难性问题,特别是当团队并未提前预料到这些问题会恶化到如此程度。 Sam Altman:有哪些事情造成了灾难性的后果? Amin Tootoonchian:我认为基础设施的问题是众所周知的,无论是故障率、故障类型还是故障总量都很高。10万卡集群是一个大规模的样本池,因此我们也发现了算力供应商都没有观察到的问题。 网络是其中一环,单个加速器也会出问题。不过这也是这种系统的美妙之处——几乎所有组件都需要按预期工作,才能产生预期结果。我们的工作就是要尽量减少这种问题。 Sam Altman:在集群规模的极限上开展工作的确很困难,但我也注意到,做那些不再是技术前沿的事情变得容易多了,训练GPT-4.5需要数百人,OpenAI几乎全员上阵。 但今天如果让你们从OpenAI中挑选出一个最小的团队,用我们所知道的一切知识和所有的系统工作从头开始重新训练GPT-4,需要多少人? Alex Paino:我认为现在要做出GPT-4级别的模型,可能需要5到10人左右。在完成GPT-4.5的过程中,技术栈已经有了很大改进。 其实,在我们在训练GPT-4.5的过程中已经做了类似的事情——我们训练了GPT-4o,这是一个GPT-4级别的模型,使用了很多来自GPT-4.5研究项目的相同内容重新训练。进行那次训练所用的人要少得多。 三、数据效率是大模型突破关键,新一代硬件带来诸多挑战 Sam Altman:从你的角度来看呢,Dan?为什么训练大模型很难? Daniel Selsam:我认为做任何新事物都很难。我认为即使只是发现别人做了某事,它也会变得容易得多,因为最难的部分是一开始就有做某事的信念。我觉得仅仅是知道某事是可行的,就是一个超强的作弊码,让事情变得容易许多。 Alex Paino:我们正在将GPT预训练运行扩展到之前的10倍,总是会发现一些有趣的新东西,这些东西你不一定能预料到。 Sam Altman:在预训练规模上实现下一个10倍或100倍的增长需要什么? Daniel Selsam:数据效率。Transformer架构(也就是GPT)在利用数据方面非常高效,它能很好地吸收和压缩信息,并实现泛化。它最大的特点就是能用计算资源高效地吸收信息。 但是,它从数据中获得洞察力的深度是有限的。当计算能力快速增长,而数据增长相对缓慢时,数据就会成为这种标准模式的瓶颈。这就需要算法创新,开发出能够利用更多算力从同样数量的数据中学到更多知识的方法。 Sam Altman:你们认为除此之外我们还需要什么来保持扩展? Amin Tootoonchian:我的答案是关于系统的。我认为GPT-4.5所需的巨大工作量,本质上是模型规格带来的必然结果。我们无法用与GPT-4完全相同的技术架构来训练GPT-4.5。 在状态管理方面,由于所需计算资源已超出单集群承载能力,我们不得不转向多集群训练架构。为了实现这一目标,我们必须在短时间内整合多个不同的工作流。 虽然这确实帮助我们取得了阶段性突破,但要实现下一个数量级的性能提升,仍需解决若干已知但被暂时搁置的技术难题——这些问题是无法回避的。正是这类技术权衡不断延长着完美系统的研发周期,我们始终在追求最优实施方案的过程中做出策略性取舍。 需要明确的是,系统本身并非终极目标,其实际产出价值才是核心考量。就下一个10倍性能提升而言,我认为容错能力的突破至关重要。我们需要构建与工作负载深度协同的容错机制,以显著降低运维焦虑。当前超大规模系统的运维复杂度,与既往系统存在本质差异。 Sam Altman:你知道在GPT-4.5训练中,由于某些组件导致失败的比例是多少吗? Amin Tootoonchian:我没有具体数字可供分享,但一般而言,在新一代硬件部署初期,系统运行往往面临诸多未被充分认知的技术挑战。我们选择在问题尚未完全明确的情况下推进项目,这导致初期运行失败率居高不下。 但经验表明,随着根本原因的识别和解决,故障率会显著降低。这一现象本质上反映了我们对基础设施认知的深化过程——有些人称之为基础设施的清理或理解基础设施的基本问题。 执行的早期阶段几乎总是相当痛苦,我们在推进项目的同时,也在持续发现和解决新型故障模式,但最终失败率会逐渐下降,正常运行的时间变多。 这本质上是个优先级权衡的问题:在基础设施生命周期的早期阶段,其故障风险往往难以准确预估;而如果过度追求终极理想状态(原文为“City Estate”,理想城邦式设计),反而可能导致系统在初期阶段的可用性表现极差。 四、计算资源不再是主要瓶颈,算法尚未触及理论上限 Sam Altman:虽然推理模型是我们未来技术栈的关键组成部分,但让我们暂时聚焦于传统预训练模型的发展边界。假设我们拥有无限的GPU算力、无限的网络带宽和无限的电力供应,但仍受限于当前存在的技术瓶颈——包括系统可靠性问题、容错训练方法的缺失,以及现有数据集的限制。 按照我们每个主要GPT版本号实现100倍规模提升的演进规律,基于当前的技术边界,预训练模型的发展究竟能达到什么水平?具体到GPT系列模型,以我们现有的知识体系,理论上究竟能够训练出什么样的模型?能做出GPT-5.5吗? Alex Paino:从机器学习和算法发展的角度来看,我们尚未触及明确的理论上限。事实上,我们才刚刚开始探索数据效率更高的算法,以及如何更充分地利用现有数据资源。这个现状非常有趣——即便是像GPT-4这样的模型,很大程度上仍是在计算资源受限的条件下开发的,这也决定了此前大多数研究的方向。 但现在的局面已经完全不同。自GPT-4.5以来,在某些关键维度上,数据而非计算正成为主要的制约因素。这种转变让相关研究变得不那么令人兴奋。 Sam Altman:不过这确实是一个惊人的进展,而世界可能还没完全意识到:在我们能够构建的最佳模型上,计算资源已不再是主要瓶颈。这个转变意味深长,毕竟我们已经在计算受限的环境中生活了太久太久。 五、模型整体性能提升可预测,智能提升路径难以预测 Sam Altman:在训练GPT-4.5过程中,我们学到的最有意思的机器学习经验是什么?说说你们想分享的就行。 Amin Tootoonchian:总的来说,最引人深思的是那些偏离我们预测的情况——特别是当我们试图理解为什么实际表现会偏离预期曲线时。 Alex Paino:最让我们惊讶的发现之一是:不同机器学习组件的扩展性表现差异巨大。有些部分能很好地扩展,有些则不行。这是我们在实际训练过程中才真正认识到的。这段经历给了我们很多启发。 Daniel Selsam:我认为GPT范式的两大核心特征在于:其一,测试损失(衡量模型在未见过的测试数据上表现好坏的指标)可被准确预测;其二,模型性能随规模扩大呈现可预测的提升。更神奇的是,测试损失的降低会以种种难以量化却又令人惊叹的神秘方式,转化为全方位增强的智能水平。 Sam Altman:你是否对此持绝对乐观态度?完全认同这一观点吗? Daniel Selsam:其实我想说的是,从GPT-4.5测试中我们发现了特别有趣的现象——重新测试后,模型展现出的诸多精妙能力完全超出了所有人的预期。 我们确信它会以各种难以预先定义的方式变得更智能,而实际部署后,从用户满意度中就能观察到这些微妙层面的提升:更强的常识储备、更精准的语境理解能力、更细腻的语义把握——这正是那些额外测试损失带来的魔力。在我看来,Scaling Law在这一维度上得到了完美验证。 六、机器学习与系统团队合作密切,不会“自扫门前雪” Sam Altman:整个训练过程中最积极的时刻是什么?最喜欢的记忆是什么?显然有很多痛苦,但希望那些痛苦已经有所缓解了。 Alex Paino:我确实有一个这样的时刻。我们在训练期间做了很多机器学习方面的工作,我认为我们在运行过程中做出的一些改变产生了相当好的影响,可能比预期的还要好,这对我们来说是一个非常令人兴奋的时刻。 Amin Tootoonchian:对我来说,在训练的同时,我们也同时在构建基础设施。我们坚信能越过这个性能悬崖,且我们有计划,每个人都在执行,但这需要很长时间。这是艰苦的工作,绝对比我想象的要难。我的预测是错的,我低估了解决这些问题需要的时间。 当团队终于攻克了那些关键问题,性能得到显著提升的那一刻,至今让我记忆犹新。你能明显感受到整个团队的能量转变——所有人突然充满了干劲,带着全新的动力向最终目标冲刺。 最神奇的是,我们状态跟踪器上显示的预计完成时间从最初的两年开始不断缩短,最终锁定在一个明确的时间节点上。这种可见的进展对团队士气的提振是难以估量的。我认为这就是它的美妙之处。 我想特别强调的是,机器学习的工作从未停滞。即使在训练启动后,这种机器学习协同设计的过程仍在持续。机器学习团队不仅主动跟进那些曾被标记为“后续处理”的问题,还持续交付了真正优化训练时间的改进。 这完美体现了我们的团队精神——这里不存在“各人自扫门前雪”的工作界限,而是一种真正无缝的协作,这种凝聚力正是我们最强大的优势。 七、GPT-4.5预训练是最周密的计划,绝不放过任何异常 Daniel Selsam:外界对于这次训练本身的挑战性和预测准确性已经讨论很多。但事实上,这一切都建立在极其周密的规划基础上——你要不再详细谈谈这方面? Alex Paino:这绝对是我们迄今为止最周密的计划。正如我所说,早在正式启动训练前一年,我们就已经开始筹备这个项目。期间我们进行了多次大规模的风险控制测试运行。 我们特别注重循序渐进地引入所有改进:从高置信度的基础配置开始——可以理解为类似GPT-4的成熟架构,这个配置在机器学习层面我们已经完全掌握——然后像叠积木般层层叠加新特性。 关键是要严格验证每个改进在不同规模下的扩展性:不仅要看到性能提升,更要确保这些提升能随着模型规模扩大而持续有效。很多改进在小规模测试时表现良好,但在大规模应用中就会失效。 因此整个过程中我们都保持着高度警惕,不断迭代完善我们的扩展定律方法论。通过这次风险控制实践,我们积累了大量宝贵经验,这些经验将继续指导未来GPT系列模型的开发。 Amin Tootoonchian:我记得有个特别有趣的瞬间让我很是怀念。要知道我们每次启动训练任务几乎都免不了遇到各种bug,这已经是家常便饭了。但关键是要确保进展不受阻,得时刻确认当前进度是否确实在正轨上,这些bug会不会对训练健康度造成致命影响。 虽然我们最初非常确信存在重大缺陷,但通过搭建的整套监控体系,我们已经能够精准区分问题根源:是硬件故障?哪类硬件故障?是数据损坏?还是机器学习模型本身的bug?或者是代码中的竞态条件? 当时的情况是,我们同时开着多个问题讨论区,各种症状五花八门。经过一系列bug修复后,我们陷入了僵局:眼前堆叠着多个未解问题,所有人都在苦思冥想——这些是不同bug导致的?还是某一个bug在作祟? 后来我们搞了个投票,让团队成员票选最可能的根源。结果最不被看好的选项反而命中真相:竟然是PyTorch上游的torch.sum函数出了问题,一个简单的求和运算。 这个bug特别有意思。要知道我们主要使用Triton内核,只有在某些无关紧要的边缘场景才会回退到torch运算。而我们的特定代码路径触发的这个torch.sum函数bug,会因数据分布特性极偶然地引发非法内存访问——它在计算内存偏移量时出了差错。 最戏剧性的是,当某位工程师终于定位到问题并提交修复后,所有症状各异的报错竟然全部消失了。大家兴奋地把Slack频道从“多bug理论”集体改名为“单bug理论”,场面特别欢乐。 这个bug潜伏了多久呢?从训练早期就存在,直到进度条走过约40%才被揪出来。发现过程也充满戏剧性:当时有个复杂内核连续调用序列,第二个调用触发了非法内存访问。 虽然这种崩溃频率极低(每几百甚至上千步训练才出现一次),很容易被当作偶发故障忽略,但我们的团队准则就是:绝不放过任何异常。这个故事最精彩的部分就在于这种不轻言放弃的坚持。 八、我们离理想系统还很远 Sam Altman:GPT-4.5预训练启动后,大家还要做哪些工作? Alex Paino:我们所有人都需要经常观察损失曲线。除此之外,还要持续优化系统,改进在训练启动前未能完成的协同设计(co-design)。我们密切监控训练过程中的各类统计指标,确保没有出现预期外的异常趋势。同时从机器学习角度探索可能的改进方案。虽然预训练启动后数据层面的工作会暂时减少,但仍有大量任务需要处理。 Amin Tootoonchian:我认为机器学习很大程度上依赖于正确性判断。预训练启动后,面对大量噪声信号,我们就像解读茶叶渣的占卜师,需要判断系统是否健康,这就是我们的职责所在。 Sam Altman:在系统层面,什么会限制我们进行模型训练?是芯片、处理器、内存、网络还是电源? Amin Tootoonchian:系统的美妙之处在于,在进行协同设计时,工作负载可以适应你构建的基础设施。这里没有普遍的说法说网络是瓶颈,或者内存带宽是瓶颈之类的。即使是对于同一规格的模型,我们可以选择转移资源需求,我们可以选择创建一个更加平衡的系统,但拥有更多的内存带宽总是有益的。在没有限定条件的情况下很难回答这一问题。 在设计GPT-4.5时,我们可能系统方面要具备某种属性,这种属性要经过人的引导才能产生。所以协同设计对形成模型架构和架构元素很重要,某种程度上将系统和机器学习方面联系在一起。如果系统有一种我们不太希望拥有的属性。我理想的情况是,一切都应该是解耦的,以给彼此最大的空间。 有时候事情会联系在一起,我们需要满足基础设施的要求,或者说事情本应如此。很多时候,我们需要一个平衡的系统、平衡的通信。而我们拥有的最好的调节手段就是所有这些协同设计。 Sam Altman:我们距离这样理想的系统目标还有多远? Amin Tootoonchian:离那个目标还很远。构建系统的过程总是这样的:先有一个关于事物应该如何运作的理想化观点,然后用现有资源去调和那些差异。 我认为我们并不是为了理论而理论,只是为了讨论我们希望它变成什么样子,让它实现,并尽可能地接近那个理想。这可能是系统领域中最令人兴奋的部分。以前人们会说这是一个优雅的系统设计,而最终历史会告诉我们这个选择是正确还是错误的。 Sam Altman:如果能在下次大型训练前获得一个机器学习问题的答案,你们最想知道什么? Alex Paino:我想知道在有限数据和特定领域下,我们应该采用哪些算法。这虽然是个宽泛的问题,但确实是最关键的。 Sam Altman:今后会进行1000万块GPU或更大的同步预训练吗? Alex Paino:我认为会有,但未必是传统预训练模式,它的形式可能与现有技术截然不同,但仍会保留无监督学习的内核。 Amin Tootoonchian:我倾向于半同步模式。受物理规律限制,完全同步不太现实。 Daniel Selsam:我认为这更可能是去中心化的。肯定会有1000万块GPU共同工作在一个学习和执行任务的AI系统上,但像大脑的各个部分一样,彼此并不一定会相互交流。 九、算法改进产生叠加效应,推动数据效率提高 Sam Altman:当前最先进的算法和人类的数据效率相差多少?未来有望追赶上吗? Daniel Selsam:两者很难直接比较。语言学习层面上的差距肯定是巨大的,关键在于如何定义人类视觉神经接收的信息量。我认为总体上算法的数据效率比人类低许多。 几十年来,深度学习一直关注算力效率。除了数据和算力的增长,真正让人惊喜的是算法改进产生的叠加效应。算法性能每次提高10%或20%,叠加在数据效率上就会有显著效果。到目前为止,还没有围绕数据效率进行这样的动员,因为在数据不流通且计算能力受限时,这一做法并不值得。 现在,我们正在进入AI研究的新阶段,我们将开始积累数据效率的胜利。我认为,现在就预测我们会遇到无法逾越的障碍是有些愚蠢的。人类大脑的运行方式肯定与我们算法改进不同,在这方面我们要保持谨慎。但我认为要对算法未来发展保持乐观。 Sam Altman:更大规模的预训练与模型更强的学习推理能力之间有什么相关性吗? Alex Paino:我们观察到的是,更好的预训练和无监督学习往往会提升模型的整体智能,并在泛化方面有很大帮助,这与推理能力是相辅相成的,而推理在提高智能方面可能会更迟钝一些。我认为它们是互补的关系。 Sam Altman:预训练似乎在很多事情上能够通用,而训练一个模型只能让它在某一类事情上做得很好,是这样吗? Alex Paino:这点很有趣,不过当你看到训练它们的数据时,就不会对这种情况惊讶了。预训练的数据集范围非常大,我们追求的是广度和多样性。而当谈到模型强化学习并让它可以清晰地获得良好奖励信号和良好的训练环境时,我认为很难兼顾数据集的广度。 Daniel Selsam:我同意,但我认为还有一个因素,预训练本质上是在压缩数据,从而发现不同事物之间的联系。它关乎类比,更加抽象。推理是在特定问题上需要谨慎思考的一种技能,也能够获得许多类型问题的解决方法。但在预训练过程中,在跨越不同领域进行数据压缩时,可以学到更抽象层面的知识。 十、智能的本质是压缩,数据长尾效应让Scaling Law持续有效 Sam Altman:无监督学习为什么有效呢? Daniel Selsam:关键是压缩。理想的智能形态是所罗门诺夫归纳(Solomonov induction),一般而言,机器学习会考虑所有的可能性,但倾向从更简单的程序开始检验。 当前预训练的本质正是一个压缩的过程,通过找到一个最简程序来解释人类迄今为止产生的所有数据,以此实现近似表达。 Sam Altman:下一个Token预测如何协助实现压缩? Daniel Selsam:统计学里有一个悖论——为什么深度网络看似无法压缩却能实现泛化?正常来讲,当拥有大量数据和一些小模型时,这些模型一定要经历压缩才学到了东西。 在预训练中,数据和模型的规模都很大,有些人就认为这种训练只是记忆和插值学习,其实他们忽视了压缩的另一种理解视角——序贯压缩(pre-quential compression),它像一个压缩器,即使数据权重很大,二进制也无需存储这些信息,利用下一个Token预测的结果可以快速检索出有用信息,提高压缩效率。 Sam Altman:训练GPT-4.5的过程耗费了大量人力、时间和金钱,这其实可以看做是一次验证Scaling Law的实验,而结果证明它是有效的,并且还会持续很长时间。Scaling Law为什么可以被称之为宇宙规律? Daniel Selsam:压缩程度越高,智能就越强大,这具有很深刻的哲学内涵。为什么训练更大的模型时间越长,压缩率就越高?这涉及到很多理论,其中我喜欢的是稀疏表示(Sparse Representations)。 现实中的关键概念遵循幂律分布(power law),比如第100个重要概念可能在每100个文档里才出现一次,存在明显的长尾效应。这种分布特性导致需要大规模数据和算力来有效捕捉所有关键概念,也决定了Scaling Law长期有效存在。
苹果全球化魔咒:当美国对自己人下手时真是快准狠
库克站在帕洛阿尔托总部落地窗前,手中的不锈钢咖啡杯折射出硅谷特有的冷光。这位供应链管理大师或许从未想过,自己精心打造的全球化精密系统,会在2023年形成如此致命的反身绞索。 全球化的完美悖论 苹果2023年Q2财报显示,其产品92.7%的产能集中在中国大陆,这个数字在库克掌舵的12年间提升了19个百分点。这个被华尔街称为"现代制造业第八大奇迹"的体系,用富士康郑州园区方圆3公里内聚集的178家配套企业,创造了48小时将零件变成手机的产业神话。但当美国《芯片法案》第104条关税利剑劈下,这个精密如瑞士钟表的系统瞬间沦为致命陷阱——把价值链上每个齿轮都打磨到极致的代价,是失去重组生态的弹性。 成本困局的死亡算术 波士顿咨询的模拟测算撕开残酷现实:若将15%产能回迁美国,iPhone Pro Max成本将暴涨至1599美元。这不仅是组装工人时薪从4.5美元到27美元的简单乘法,更是整个产业配套体系的坍塌。库比蒂诺工程师发现,在得克萨斯州,找到能操作真空镀膜机的技工比招募火箭科学家还难;而在深圳,这样的技术工人可以在人才市场成批招募。更讽刺的是,试图通过自动化突围的尝试,反被美国《劳资协议》第7.3条束缚——机器人替代率超过35%的企业将失去税收优惠。 产业链重构的量子纠缠 台积电凤凰城工厂的困境正在上演现代版"特洛伊木马"。这座投资400亿美元的5nm晶圆厂,因为缺少3000名具备半导体级无尘车间操作经验的工人,投产日期已经三度推迟。而在苏州,同样规模的工厂从破土到量产只用了11个月。苹果的5000亿美元回流资金看似天文数字,但在重建产业链的量子纠缠中,连支付ASML光刻机工程师的差旅补贴都捉襟见肘——这些荷兰技术团队现在要求每天2000美元的"铁锈地带特别津贴"。 两难困局中的豪赌 库克秘密推动的"Project Hydra"暴露了苹果的突围野心:将85%的低端产能留在亚洲,同时把AR眼镜、脑机接口等前沿产品放在美国本土。这种"技术隔离"策略看似聪明,却陷入更深层的悖论——苹果研发支出占比已降至7年最低的5.2%,而特斯拉的研发投入占比同期增长了83%。更危险的信号来自供应链:为Vision Pro提供Micro-OLED屏幕的索尼,其关键蒸镀设备仍然深锁在东莞的保税仓库。 全球化与本土化的量子叠加态中,库克桌上的沙漏正在加速流逝。当特斯拉上海工厂用11个月创造从荒地到量产的神话时,苹果在印度钦奈的工厂仍在为厂区排水沟的坡度争议扯皮。或许这才是全球化最残酷的寓言:当你把效率锻造到极致时,也为自己铸造了最完美的牢笼。库克手中那杯凉透的咖啡,倒映着整个硅谷的集体焦虑——在产业回流的浪潮中,究竟谁在裸泳?
月咏幻:当中国已大量使用AI时,日本还在努力淘汰软盘和传真
【文/观察者网专栏作者 月咏幻】 从2023年ChatGPT引发全球AI热潮到2025年初DeepSeek爆火,短短两年半时间里,中国完成了从追赶到并跑,再到某些领域领跑的转变。这种全方位的进步,折射出中国在AI领域的整体实力。 反观同为亚洲科技大国的日本,却在这场AI革命中显得异常低调。作为全球第三大经济体,日本既没有诞生可与DeepSeek比肩的大语言模型,在AI应用的普及程度上也远逊于中国。 根据日本经济新闻的报道,日本正在使用生成式AI的人数,仅有9%,而中国已经接近60%大关,美国也超过了40%。 AI在中美已经疯狂普及,但为何日本到如今都还是反响平平?为什么以“科技创新”闻名的日本,会在AI时代的关键技术领域落后? 在谈AI之前,连技术革新都有问题 在讨论日本AI发展现状前,我们必须先提到日本目前面临的几个科技难题:一是发展慢,二是研究少,三是缺人才。这三个问题会互相影响,互为因果,最终体现在当下这两年的人工智能热潮中,很难见到日本的身影。 先说发展慢的问题。作为对比,当中国的移动支付已经普及多年,智能机器人正在春晚上表演时,日本政府部门仍在为淘汰3.5寸软盘和传真机而努力:2024年6月28日,日本政府终于宣布在所有的政府流程中淘汰了软盘。 出处:日本ReseEd 另一项技术古董——传真,现在也仅仅只在日本教育系统里被废止,医疗和警务暂时还没有办法抛弃传真。2023年年底的资料显示,有95%的小初高学校老师仍在使用传真。 出处:日本ReseEd 因此,我们可以说,日本数字化转型的迟滞并非偶然,而是反映了日本在面对新技术变革时的深层次困境。 这和笔者之前提到过很多次的日本科技后进国的定位有关:毕竟,一个现在还在用传真,正在逐渐把3.5寸软盘从政府事务中淘汰的国家,你指望它能在最新的高科技领域里搅动起多大的水花呢? 政府部门如此,民间企业也没有好到哪里去。目前日本并没有本土公司做的著名大模型,也没有那么多人在普遍使用AI。 日本民间企业对AI的理解,可以从JetB的这项调查里看到:有51%的企业完全没有想到今后要用AI提升什么事务的效率。 这个调查结果明确说明了日本多数企业对AI根本不关心。究其原因,是因为日本许多企业仍然依赖封闭且高度定制化的遗留系统(Legacy System),这些系统由于长年累积的复杂性和供应商锁定效应,导致企业难以灵活利用数据,也无法顺利对接AI等新技术。 日本经产省的报告数据显示,有很多企业将90%以上的IT预算用于系统维护,而不是新技术的研发和导入。 日本制造业、金融业和政府机构的大量核心系统,仍然运行在这些上世纪开发的老旧架构上,部分企业甚至还在使用Windows 7或COBOL语言开发的程序,而这些系统的维护成本极高,更新难度大,使得日本在技术迭代上长期落后于欧美和中国。 当中国科技公司秉持“快速迭代、持续优化”的理念时,日本企业仍在追求维护过往熟悉的所谓完美方案,乃至于将宝贵的工程师资源大量投入在维护老旧系统上,真正用于技术创新的资金极为有限。 其次是研究少。根据日本经济新闻的报道,2012年到2021年这10年间,中国和美国在AI领域的科研重点论文一直在增加,只有日本持续保持在非常低的水平。 AI调研企业Zeta Alpha的数据则显示,在2020-2022这三年间,每年被引用最多的AI论文里,日本甚至连前十都没排进,依旧是中美在最前面。 最后我们谈谈人才问题。上面我们已经提到了,日本企业内部的人力预算主要用来维护老旧的系统,而非拓展新的内容。这就导致日本企业并不会为这类人才投入过多的资源:不创造新的业务场景,只要能维持原样,就不会有动力去改进。 正是因为这样的场景需求,导致日本的IT人才根本不需要高精尖的技术,只要是熟练工就可以了。因此,根据日本科学技术学术政策研究所的数据,相对于中美的新博士人才在2010-2018年中不断增加,日本的新博士人才数甚至在逐年减少。无论是IT和AI领域,新的技术开发都需要庞大的高素质人才来维护,这让本就不好的技术发展雪上加霜。 综上所述,日本的市场总体发展差,导致相应的人才减少,又会反过来导致技术发展不好,市场更差——这种恶性循环一直持续到现在的AI时代。 看到这里,会有读者不禁要问:日本就没有AI人才了吗?日本在AI领域真的就是完全隐身了吗? 答案当然没有那么绝对。在AI绘图领域中,日本开发者的贡献是非常扎实的。只可惜,这只是个人开发者的高光时刻,而非大企业的功绩。 以StableDiffusion和Midjourney为代表的图片大模型,早已经在AI绘图领域崭露头角。尤其是StableDiffusion,由于其开源特性,在目前的AI绘图中更是拥有最强的可能性。而日本开发者kohya是最早开发了训练工具的那一批人,他让StableDiffusion模型拥有了更多可能性,是相关领域中最功不可没的开山鼻祖之一。 时至今日,所有StableDiffusion玩家在训练自己的AI绘图模型时,都会在运行界面上看到日文。这就是因为开源工具的代码中,有相当大的贡献都是这个项目做的。 出处:Github上kohya的训练器页面 但是除此之外,日本人在其他AI领域暂时难有类似高度的贡献。无论是商业还是开源,都难见日本的身影。在全球AI竞争日趋激烈的当下,中国已经率先形成了完整的AI产业链,而日本仍在为数字化转型的基础问题苦苦挣扎,二者的差距正在迅速拉大。 日本缺的东西,全是中国的优势 与日本在AI时代的困境形成鲜明对比,中国的IT市场发展迅速,人才储备充足,技术的普及和落地更是走在世界前列。可以说,日本AI技术之所以发展不起来,就是因为缺乏中国所具有的优势。 2025年3月5日,国务院新闻办公室在解读《政府工作报告》的吹风会上,特别提到了三款中国在AI领域的代表性产品——DeepSeek、可灵、宇树科技——分别对应国际上2023年初引爆市场的ChatGPT(文字大模型)、2024年初走红的Sora(视频大模型)和马斯克的擎天柱(具身智能机器人)。 DeepSeek不仅性能强大且成本低廉,更是打破了ChatGPT所构建的“训练大模型需要天量算力和高昂成本”这一固有认知。以往需要海量算力投入的任务,如今仅需极低成本就能完成,且质量丝毫不逊色。 另一方面,可灵则在视频生成领域领先一步,比Sora更早向消费者开放,并凭借卓越的生成质量与效率,迅速获得全球市场的认可。 2024年年初,Sora作为第一个出圈的视频模型引起了大量的话题,但就在同一年年中,可灵推出的老照片复活功能就在抖音引发了刷屏效应。而此时OpenAI仍在依赖人工后期制作,为Sora打造演示视频。到了2024年底,即梦、混元等国产视频大模型全面上线,普通用户已能自由使用AI生成视频,而Sora则直到12月才姗姗来迟地向其付费用户开放视频生成功能,错失了市场先机。 回望过去两年,全球AI浪潮的主角似乎一直是OpenAI和马斯克,他们在各自领域的突破曾经主导了舆论。然而,到了2025年年初,当我们重新审视这场竞赛时,中国不仅已经成功跟上,甚至在多个关键技术点上实现了超越。这种转变令人感慨万千,也再次验证了生成式AI的三大核心要素:算力、算法、数据——而中国恰好在这三方面占尽天时、地利、人和。 首先,中国拥有世界顶尖的数学与算法人才储备。计算机科学和人工智能的核心是数学,而中国在这一领域一直处于全球领先地位。近几年,无论是大模型训练、AI芯片优化,还是深度学习框架的研发,中国的研究机构和企业都在快速崛起,甚至逐步改变过去“追随者”的角色,开始引领前沿技术的发展。 其次,数据是人工智能的燃料,而中国无疑坐拥全球最丰富、最优质的数据资源。作为世界上最大的单一语言市场,中国不仅有14亿人口构成的庞大用户群,还有高度发达的互联网生态。从社交媒体到电商、短视频、金融科技,中国的数据量级和多样性远超其他国家。这不仅让AI模型训练的数据更丰富,也使得AI产品落地和优化的速度远超国外对手。正因如此,可灵、即梦等国产视频生成模型才能迅速打入市场,而Sora却仍在封闭的环境里精调算法,迟迟未能大规模放开给普通用户使用。 最后,算力曾是AI发展的关键瓶颈,但这个壁垒正在被逐步攻破。全球AI市场几乎被英伟达的GPU垄断,算力价格居高不下,成为所有AI公司的沉重成本。然而,DeepSeek等国产大模型已经在适配国产GPU,并逐步打破对英伟达的依赖。这一趋势不仅会加速中国AI行业的自主可控进程,还会迫使英伟达重新调整市场策略,甚至可能让“老黄”不得不降价,让全球用户买到更便宜的N卡。 综上所述,中国AI产业的崛起并非偶然,而是算法、数据、算力三大核心要素共同作用的结果。现在,中国AI的步伐已然加快,甚至开始在多个领域反超。未来几年,全球AI格局的主导权,或许将迎来一场更大规模的洗牌。 本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。
何同学的反讨好之困
事情是这样: 4月11日晚,何同学在微博上分享了自己打车的经历;他说以前打网约车时,司机让他给好评,总是嘴上答应,但事后就忘了。 他觉得这样不太好,所以,现在改。如果司机服务真的很棒,他才会主动好评;不然就会直接拒绝;他还提到,自己以前比较爱讨好别人,这么做是为了锻炼自己的勇气。 结果,这一说引发了争议,#何同学网约车#这个话题一下子冲上了微博热搜第一。 我把问题发到小红书后,得到不少评价。 有人觉得何同学这样做不好,太强调自己态度,忽略了社交礼仪,司机工作挺辛苦,乘客好评对他们来说是一种鼓励。 但也有人支持他,认为拒绝给好评是一种突破自我舒适圈的表现,挺勇敢。他们还希望何同学能把这种勇气用到别的地方,比如:直接说“不想去”“不想吃”之类的。 当然,也有人质疑何同学。他作为一个博主,希望粉丝给他视频点赞、评论、关注,这和司机要好评本质上是一样的。 日常生活中这种事情挺常见。我去餐厅吃饭,店员也会说,你能帮我在大众点评打个卡、写个好评吗?我一般都会答应;有空时会认真写,实在没时间、不想给好评,我也会委婉地说“不太方便”。 为啥何同学会惹出这么大的风波呢? 我想提到一个传播学的概念:“议程设置”(Agenda Setting)。社交媒体会通过算法、把内容、标签、人群聚合在一起,像何同学这种大博主,影响力大,他发的东西很容易被很多人看到。 还记得,2024年的“六双筷子风波”吗? 有个学生买了两份饭,拿六双一次性筷子,结果被食堂工作人员误会是偷筷子,还把视频发到了网上。这件事一下子火了。 这种传播模式,就是把个人表达、行为放到大众视野里,变成一个符号,让大家情绪都投射到上面;因为大众传播(比如媒体、KOL的表达)会不知不觉地引导大家关注某个问题,决定讨论的方向。 何同学的表达、观点比较明确,他还提到自己的人格特质,比如“讨好倾向”和“锻炼勇气”;这三个标签很容易产生冲突,再加上他的影响力,一下子就被推到了风口浪尖。 再说说公众心理,现在大家压力都挺大,很容易把一些个人行为当成社会问题的缩影,把情绪加进去上去。 前几天,上海地铁猥亵、快甩男事件,网民对施害者进行“人肉搜索”和道德审判,其实在发泄对社会安全的焦虑,这种情况下,个人行为被赋予了象征意义,成了集体情绪的宣泄口。 同时,当个人行为触发到社会敏感点、像公平、道德、权利这些事儿,会引发价值观冲突;去年田曦薇占用应急车道的事还记得吗?表面因为交通违规,但背后是公众对“特权阶层”的不满。 再看看社会结构,明星、网红,公众人物的行为天然具有话题性。 2024年网红“铁拳出击”出轨女粉丝,网友把他私德问题,解读成社会道德滑坡,这类事件往往会引发对“名人特权”和“社会责任”的广泛讨论,反映大家对权力失衡的警惕。 还有代际和圈层之间的矛盾,给不给好评是你的问题,表达出来会影响到公众秩序,就是你的不对了;因此,这种分歧深刻反映了现代社会中个体与群体、权力与责任之间的复杂关系。 写到这里,我不禁有一个新疑问:为什么「讨好型人格」的自我剖析反而引发负面舆论? 你认为什么是讨好型人格?怎么定义讨好型人格?讨好型人格是一种心理状态,表现出一个人为了获得他人认可,而不断压抑自己需求的状态。 然而,当一个概念在网上传播时,往往会失去内涵,会被简化成老好人、高情商等标签;这种简化反而加速了大家认知偏差,引发两种不同反应: 一种叫敢于直面内心心理,另一种则会把它看做社交行为的病理化,标榜自己的与众不同。 这个问题和“社恐”与“社牛”很相似,我以前总说自己是“社恐”,后来又觉得是“社牛”;认真观察后才发现,我在“社恐”和“社牛”之间反复横跳。 为什么呢? 当说自己“社牛”时,因为对周围的环境、人都很熟悉,所以,会显得格外健谈,没有任何防备之心。而当说自己“社恐”时,间接意义在说环境我不熟悉,人我不熟悉,怕说错话,怕被人误解。 再结合“讨好型人格”的双面意义来看,也能发现类似的情况。 当处于熟悉的环境和熟悉的人群中时,会表现得非常自信和自在,甚至有点“社牛”的感觉;但当处于陌生的环境或面对陌生人时,可能会变得小心翼翼,甚至有点“社恐”。 换言之,我们善于通过适应环境、他人来获得接纳,这没什么问题对不对?但在社交媒体上,一切就变了。 一些人会将“讨好型人格”与“虚伪”“软弱”等负面特质联系在一起;当有人强调“我因为讨好他人而痛苦”时,会被误解为在暗示他人应对自己的痛苦负责,甚至被视为一种隐性的道德绑架。 另一方面,自我剖析又容易被误解为“情感营销工具”。 剖析者为了吸引关注,刻意展示脆弱,但这种刻意展示往往会引发“真诚性质疑”。例如,有些博主将童年不幸与职场讨好行为强行关联,被批评为“为流量拼凑故事”。 最终,反而会被误解为表演性人格。 值得一提的是,现在大家对“卖惨型倾诉”耐受度越来越低;当一个名人、网红反复强调我总在牺牲、委曲求全时,会触发内容消费者的防御机制。 会被被解读为一种“隐形情感勒索”,类似于别人必须无偿提供情绪价值、别人一定要共情你。 所以,你以为你拒绝了讨好,在别人眼里却成了“苦难泡沫”,成了一种刻意展示脆弱以获取关注的行为,这种行为模式,反而削弱了真诚性。 这一切,不仅让人反思“讨好型人格”的复杂性,也让我们看到了公众人物在自我表达时面临的困境。什么困境呢?一个人试图用“反讨好”的叙事来展现真实自我时,可能忽略了事情另一面。 哪一面?举几个例子就明白了。 还记得羊毛月事件吗?这位博主发布视频吐槽“00后整顿职场却找不到工作”,试图幽默反驳流行叙事,却掩盖了一个事实:大学生就业难。 李明德自称“打工人代表”,却因高片酬与“180元余额”的反差,暴露了精英与底层的割裂。他的共鸣尝试因身份落差显得突兀,引发了大家的质疑和批评。 社会学中有一个概念叫“社会断裂”(Social Fracture),说白了,我们在阶层、认知、价值观上的不同,会形成利益的对立。 何同学“反讨好”的表达,看似个人选择(拒绝无效好评,突破讨好型人格),却无意中触碰了社会断裂的敏感点。 网约车司机为什么要好评? 对司机来说,乘客的好评不只是礼貌上的肯定,更是平台算法里决定能不能接到更多订单的关键。 2024年的一些数据显示,有些网约车平台抽成能达到20%到30%,司机一天工作十多个小时,可挣的钱连生活成本都覆盖不了。 何同学忽略了司机们的生存压力,把拒绝行为潜台词定义为“真诚”;既能规避道德压力(无需兑现承诺),又符合“反讨好”的人设标签,这种功利性动机削弱了行为的正当性。 这和“何不食肉糜”的傲慢态度,又有什么区别呢?平台规则逼着司机说“麻烦给个好评”,可乘客却高高在上地说服务不好,不给好评。 还有一点,司机群体的生存困境,被公认是对弱势者的体谅;公众期待精英阶层展现更高的人文关怀,而非将个人成长建立在他人痛苦之上。 大家更认可对强势对象的拒绝(比如:拒绝甲方无理需求),而对基层服务者的拒绝易被视为“恃强凌弱”,这进一步强化了何同学“欺软怕硬”的观感。 所以,这种对于评价权力的不对等性,是社会结构带来的压力;公众人物,在表达“反讨好”观点时,要更加谨慎地考虑自己的言论带来的影响。 既然这样,是不是意味着,说话时一定要讨好群体? 在我看来,讨好群体实质,是公众人物为了规避舆论风险采取的一种防御性表达。这种表达会让人觉得虚伪,带有一些精英的傲慢。 真正有效的沟通是什么呢? 法国著名思想家皮埃尔·布尔迪厄(Pierre Bourdieu)曾说过,真诚不是真情实意的简单表达,而是通过符号资本重建共情纽带。所以,我认为真诚首先要具备同理心。 什么是同理心(Empathy)?你能理解朋友失恋时的伤心,不仅能明白他为什么难过,还能感受到他的痛苦,并给予安慰。这就是同理心。 想表达自我,就得站在对立面去理解别人。这样,既能避免优越感的流露,还能展现出深层次的关心。 另外,不讨好不等于随便说话。 “不讨好”的意思是,不通过贬低自己来讨好别人。真正不讨好,是坚持自己的价值,不轻易因为别人的想法就改变自己。 比如,有人批评你,你不是一味地点头哈腰,而是冷静地想想有没有道理,该接受就接受,不该接受就坚持自己的想法。 而“随便说话”就完全不一样了,这走到另一个极端,完全不管社会规则和别人的感受。比如,有人在公共场合大声喧哗,只顾着自己爽,完全不管别人怎么想,这种就是典型的“随便说话”。 公众人物表达,很容易出现语境错位,会被看做是一类群体的看法。 你一句:现在压力大,我真想辞职不干,传到老板耳朵里,会被认为是对工作的不满;传到粉丝那里,会被解读为对行业的吐槽;传到竞争对手那里,会被当作是负面消息来利用。 所以,在我看来,不讨好,但不肆意,有三种机制: 一,语境校准,博主应该清楚说的话会产生的影响;二,共情预判,要考虑是否基于同理心,有没有在尊重自己的感受和敬畏公众之间找到平衡,是不是真的站在受影响的人的角度去思考。 三,结构批判补充。有没有把个人表达放到社会的大环境中去分析,自己的话到底有没有真的有助于社会进步。 或许,通过这三种机制,博主可以在不讨好的同时,避免肆意表达;做到既坚持自我,又尊重他人,还能对社会有所贡献。 表达是一门艺术,公众沟通如此,个人亦是如此;希望何同学,不要自暴自弃,找到合适的支点。
京东美团,隔空“暗战”
作者丨瀚星 京东与美团必有一战,这是互联网圈多年来的共识。 支撑这一判断的逻辑是:线上零售的配送时效性越来越强,“外卖”的品类越来越丰富,两种业态的边界越来越模糊。前者是京东的专长,后者是美团的强项,一场短兵相接在所难免。 近日,这场战争以一种出人意料的方式迅速升温。 京东高调入局“整顿”外卖行业,刘强东屡次公开表达要认真做外卖的决心,CEO许冉则在近日的一场群访中直戳外卖行业痛点。另一边,一向低调的美团也公开回呛:核心本地商业CEO王莆中在社交平台晒出美团的即时零售成绩,并讽刺对手“狗急跳墙”。这一举动,被刘强东四两拨千斤回怼:不打口水仗,不能产生社会价值。 王莆中的“破防”和刘强东的“淡定”背后,两家许久未见硝烟的互联网巨头之间,一场针锋相对的白刃战一触即发。 京东揭了美团外卖的行业痼疾,美团戳了京东即时零售成绩欠佳的痛处。高管隔空喊话,双方谁更受伤? 对决的种子,三年前就已埋下 京东与美团的冲突,早在2022年年中就已埋下伏笔。 当年第二季度,美团在财报中调整了披露口径,首次将即时零售业务板块“美团闪购”从新业务中剥离,并入核心本地商业板块,与外卖、到店、酒旅并列为美团业务的基本盘。 作为即时零售赛道领域的先行者,面对美团的攻势,京东选择了在外卖上以攻为守,牵制对手。时任京东零售CEO辛利军在接受采访时表示,京东已考虑和研究推出按需外卖服务,京东物流子公司达达快送在同城配送方面拥有“强大能力”。此次表态的几个月前,京东已经开始陆续试点餐饮外卖业务。 但这场正面交锋还没有正式开始,交战双方就各自卷入了一场更大的风暴。 2022年年底,电商低价大战开打,京东不可避免地被卷入其中;另一边,美团遭遇劲敌,抖音在本地领域生活高歌猛进。双方皆无暇他顾,外卖战场的对决被暂时搁置。 今年初,京东再次将准星瞄准外卖业务。 2月11日,京东外卖正式宣布启动“品质堂食餐饮商家”招募计划。凡在2025年5月1日前入驻的商家,将享受全年免佣金的特别优惠。一周后,京东又宣布将逐步为京东外卖全职骑手缴纳五险一金,且五险一金的所有成本由京东承担。就在本次双方高管隔空喊话前几日,京东外卖又官宣了百亿补贴全面上线。 对于在这个时间点入局外卖,京东集团CEO许冉的解释是,京东最重要的目的是解决行业痛点、满足用户需求。“稍微展开讲,我们看到了比如食品安全的隐患、商家反映佣金过高、骑手基本没有社会保障。京东有意愿也有能力去来解决这些问题。” 虽然没有一个字直接提到美团,但却句句直戳这家外卖行业一哥的痛处。 美团占据国内外卖市场约七成的份额,有7.7亿年活跃交易用户、1400多万活跃商家和750万骑手。这些庞大的数字,在平台上维持着微妙的利益平衡,也衍生出了许多行业痼疾,包括许冉所说的骑手社保、商家佣金、食品安全等问题。 平台、商家、骑手和消费者,任何一方多拿一分钱,就意味着另外三方要补上缺口。但如果其中一方愿意不计成本地砸钱,许多问题在短时间内都可以迎刃而解。 这就是京东“叩关外卖”的方式。 据许冉透露,京东外卖的单量每天都在快速环比增长,百亿补贴上线第一天的效果不错,预计下周(4月14日)开始,餐饮日单量会突破500万单。许冉所说的日单量突破500万单应该为单日峰值,而非平均单量,在体量上相较美团还有较大差距。 美团外卖2024年Q2的日均单量大约是5880万单,饿了么同期的日均订单量大约2000万单。(详见雪豹财经社《高德小赚,饿了么小亏?阿里本地生活站在盈利前夜》) 京东挑战这样一块硬骨头,所图为何?为什么一定要“认真做外卖”? 许冉认为,对京东零售来说,外卖业务做好了,既可以提升用户数量和购物频次,也可以带来场景的延展。 但大手笔补贴和投入并非长久之策,为薅羊毛而来的用户也不一定能长期留存。虽然许冉认为外卖是一个宽广赛道、容得下多个平台,但另一面是,这门生意极度依赖规模效应。 即时零售这场仗,谁也不想输 相比于许冉的含蓄,王莆中更加直接:“‘狗急跳墙’也好,‘围魏救赵’也罢,30分钟送万物创造的新体验一定会满足更多用户需要,把那些大而无当的仓配体系扫进历史垃圾堆。” 在以低调著称的美团管理层中,王莆中是相对另类的一位高管。即使在升任核心本地商业CEO后,依然时不时在即刻、知乎等社交平台上发言。 王莆中的回应可以简单总结为4句话:京东不是第一家想做外卖的公司;京东的即时零售做得早但做得不好;美团这几年即时零售做得很好;京东急了。 许冉和王莆中都不约而同提到了一个关键字段:下周。 在这个时间点,京东外卖餐饮日单量将突破500万单,美团将发布即时零售品牌“美团闪购”。 美团闪购此前一直是公司内部的叫法,用户感知并不强。目前,美团App首页没有闪购入口,搜索美团闪购则会直接跳转至超市便利入口。美团正在小范围灰度测试App首页的“闪购”一级入口。 接近美团的人士称,去年美团闪购用户的下单频次提升幅度显著,特别是一些日用快消品的下单用户数和频次增速超出大盘,3C家电等品类的下单用户数、下单频次和客单价也在稳步提升。发布“美团闪购”独立品牌,是为了进一步加快其渗透C端、建立用户心智的速度,在消费者高频的日常消费上取得更大进展。 “闪购”品牌即将正式亮相,彰显了美团在即时零售上的野心,也意味着一场恶战即将开启。 京东入局即时零售比美团更早,在2014年便开始探索,2015年正式上线京东到家,依托达达的配送运力,与线下商超合作。美团的闪购业务则起步于2018年。 京东从自建物流体系的次日达向更快的当日达、30分钟送达狂奔,美团则从送餐向送万物扩展,都是已有业务的自然延伸。但仅从现阶段成果来看,美团是跑得更快的那一个。 据蓝鲸新闻报道,在今年Q1的一次美团闪购内部沟通会上,管理团队公布了一组数据:2024年美团闪购3C家电订单量接近京东全站四成,其中电脑办公类商品订单量已超过京东全站,手机通讯类商品订单量超过京东全站四成;美妆品类订单达京东全站三成。 王莆中透露,美团非餐饮品类的订单突破了1800万单。 据雪豹财经社了解,美团在与投资人的沟通会上透露,去年Q3闪购的日均单量超过1000万单,七夕峰值为1600万单,预计Q4单量的增幅在20%~30%,达到盈亏平衡或微亏,全年(2024年)实现盈利。 广义的即时零售(包括外卖)是一个季节性很强的行业。例如,工作日点外卖的人更多,节日期间即时配送的订单更多,峰值订单通常不能准确反映业务表现。但许冉和王莆中不约而同地选择了峰值订单数以壮声势。 毕竟,这对双方而言都是一场重要的战争。 无论未来京东外卖能切走美团多少蛋糕,美团闪购能挖走京东即时零售多少墙角,至少在现阶段的气势上,双方都不想输。
刚刚收购Intel闪存:SK海力士在中国的第二座工厂不幸搁置
近期正式完成了对于Intel NAND业务部门收购的SK海力士正着手重组其在中国大连的工厂及相关资产。然而,SK海力士大约3年前开始计划建设的第二座NAND晶圆厂仍因投资保守而处于搁置状态,这也被外界解读为是受到了近两年来NAND行业不确定性的阻碍。 当地时间3月27日,随着最后一笔19亿美元的款项的支付,SK海力士正式完成了对于Intel NAND业务(已更名为Solidigm)的收购。 早在2020年10月20日,SK海力士与Intel在韩国共同宣布签署收购协议,根据协议约定,SK海力士将以90亿美元收购包括Intel NAND SSD业务、NAND部件及晶圆业务,包括Intel在中国大连的NAND闪存制造工厂。但是,Intel仍将继续保留其特有的Intel傲腾业务。 2021年12月22日,中国国家市场监督管理总局有条件的批准了SK海力士对于Intel NAND业务的收购,这笔交易正式获得了全球主要监管机构的批准。 SK海力士对Intel NAND 业务的收购分两个不同的阶段展开。 最初,在 2021 年底,SK 海力士以 66.1 亿美元的价格收购了Intel位于中国大连的 SSD 业务和 NAND 生产设施。因此,SK 海力士将Intel的企业级 SSD 业务更名为 Solidigm,并以新品牌名称继续运营。 然而,第一阶段交易只转移了物理资产和 SSD 相关业务,不包括Intel的NAND知识产权、研发基础设施和专注于 NAND研发的关键员工。 在整个过渡期内,Intel保留了对 NAND 相关知识产权和重要人员的直接控制权。 这种安排暂时限制了 Solidigm 在技术开发或优化联合研究活动方面充分合作的能力,限制了 SK 海力士和Intel NAND 团队之间的潜在协同作用。 随着SK海力士支付了剩余的 19 亿美元(低于它本应支付的 22.4 亿美元)的支付,SK海力士通过Solidigm 接管了Intel的NAND IP,以及研发资源和相关技术劳动力,实现了对于收购的Intel NAND业务的完整的运营控制。 然而,SK海力士在成功完成对Intel NAND业务收购的同时,其于3年前宣布的投资建设的位于大连的第二座NAND晶圆厂却仍处于搁置状态。 2022年5月16日,爱思开海力士·Intel DMTM半导体(大连)有限公司非易失性存储器项目在大连金普新区举行开工仪式。 该项目将建设一座新的晶圆工厂,从事非易失性存储器3D NAND Flash芯片产品的生产。 这也正是除了收购的Intel大连NAND晶圆厂之外,SK海力士位于大连的第二座晶圆厂。 通常晶圆厂的基础设施建设需要1年左右的时间,然而,在2023年4月就有知情人士透露,该晶圆厂的施工尚未进入收尾阶段,也并未与晶圆厂设备供应商就交付和安装进行讨论。 虽然,在2022年10月,美国对华实施了半导体设备出口管制,可能一度影响了SK海力士的投资计划,但是数日之后,SK海力士就取得了美国商务部给予的1年豁免期,可以不受限制的为其在大陆的晶圆厂采购需要的设备。 但是1年豁免期对于未来可能仍具有不确定性,不过在2023年,SK海力士获得了美国“认证最终用户(VEU)”资格,即获得了无限期的豁免。 但是据业内人士4月11日透露,SK海力士对于从Intel收购的NAND业务部门维持保守的设施投资计划。SK海力士大连二厂开工至今已近3年,但尚未进行任何设施投资。 半导体业内人士表示:“虽然SK海力士获得了美国‘认证最终用户(VEU)’资格,中国的投资限制也已放宽,但由于经济低迷和中国竞争对手的进入,NAND业务仍面临很大的不确定性。” 他补充道:“因此,到目前为止,还没有就大连新工厂进行任何具体的投资谈判。” 报道预计,SK海力士大连二厂的扩建只有在NAND供过于求的担忧得到解决后才会进行。 2023年全球NAND市场经历了一场“寒冬”,不仅市场需求低迷,价格也是持续下跌。2023年四季度,随着原厂减产的效果显现,NAND价格才止住跌势,市场需求才开始回暖。不过,2024年下半年以来NAND市场又出现了疲软,价格也开始走跌。 根据市场研究机构TrendForce调查显示,今年第一季NAND Flash市场将持续面临供过于求的挑战,导致价格下滑13-18%,供应商面临亏损困境。 预计今年二季度NAND Flash价格或将继续下跌5%或持平,三季度才有望回升10-15%,四季度有望继续增长8-13%。 不过,在原厂减产、中国消费刺激政策、AI 及DeepSeek效应等因素的影响下,3月下旬以来已经有数家NAND厂商宣布即将涨价。 显然,NAND市场供过于求的局面已经开始逆转,但是SK海力士大连二厂似乎仍未有启动的迹象。 值得注意的是,SK海力士社长郭鲁正在3月27日举行的第77次定期股东大会上表示:“计划在3月完成对Intel NAND事业部的收购,并确定更具体的运营战略。” 并补充道:“资产全面收购后,将补充战略,并于日后告知大家。”
“有所为有所不为”,帮黄仁勋扛过了DeepSeek的冲击
黄仁勋 凤凰网科技讯 4月13日,华尔街日报发文,人工智能基础设施领域的王者英伟达似乎无处不在,人们很容易将成功原因归结为该公司掌握的强大技术。 但它广泛的影响力也反映出一种商业逻辑,这种逻辑看似矛盾:除了核心业务外,它几乎不为任何事分心。 3月19日,在英伟达GTC开发者大会上,黄仁勋表示:“如果我们能避免做某件事,我们就会避免。” 自1993年公司成立以来,黄仁勋的这种理念推动了公司的显著增长,并且英伟达最近还成为了全球市值最高的公司。即使DeepSeek对未来高端人工智能训练系统的需求程度提出了质疑,更不用说特朗普新关税引发的全球股市抛售潮,在周五下午,英伟达的市值仍达到2.71万亿美元,位居全球第三,仅次于苹果和微软,超过了亚马逊和Alphabet。 多年来,尽管英伟达的业务范围已从为电子游戏制造芯片扩展到生产各种人工智能基础设施,但这种克制的原则始终没变。 专注于关键且基础性的业务推动了英伟达的发展。正因为它清楚自己不能或不会做什么,所以才能在众多领域有所作为。 在GTC大会上,黄仁勋回答了,在某些情况下与合作伙伴竞争是否会让公司陷入困境的问题。这是科技公司常见的情况。例如,亚马逊推出的自有品牌可能会与其平台上的其他卖家竞争,这让那些商家颇为不满。 黄仁勋回应称:“显然,我们在解释公司业务方面做得很糟糕。”他承认英伟达在人工智能基础设施、网络、交换机、存储领域,当然还有各种规模、形态和形式的计算方面都提供技术支持。“然而——重点来了——我们打造了所有这些技术,但我们会以别人想要的方式将其提供出去。”他说,“原因在于我们不是一家提供解决方案的公司。” 英伟达通常不会向客户或合作伙伴出售成品解决方案,而是让他们自行决定在最后50%的价值创造中,他们想自己开发多少。黄仁勋认为,这使得企业科技公司更容易与英伟达合作。从理论上讲,这也使得像汽车这样的单一行业内的多家公司能够在英伟达的平台基础上进行开发,同时还能实现差异化。 英伟达的这种自律在公司内部也带来了回报。 它拥有3.6万名员工,规模比硅谷的其他大型科技公司小得多。本月,黄仁勋在获得爱迪生成就奖时表示,他希望将这种“非常稀缺的精力”发挥到极致。他说,这意味着专注于英伟达员工认为值得他们花时间的工作,这是一种强大的激励因素。 以数据中心的架构为例。在近几十年里,人们的想法是将大量廉价的商用服务器连接起来。但英伟达主张先纵向扩展再横向扩展——在将计算机组成庞大的基础设施之前,先让单个机架上的计算机尽可能强大。 从战略层面来看,英伟达面临的风险在于,另一个创新者,比如一个开源竞争对手,会对其“先纵向扩展再横向扩展”的策略提出质疑。DeepSeek的R1模型的出现就起到了这样的作用,至少在一段时间内是如此,因为它似乎是使用较旧的基础设施进行训练的。 但英伟达的方法让其员工保持着积极性。 黄仁勋在爱迪生颁奖典礼上说:“注意,当你和我们交流时,没有一个员工会说,‘我们要争夺市场份额’。为什么要争夺市场份额呢?应该去创造新的东西。” 英伟达的成功,与其说得益于某一项技术创新,不如说在于它有能力创建一个互联系统,让客户和合作伙伴为其基础设施做出贡献,或者在其基础上进行开发。 虽然这种理念本身并非独一无二,但英伟达的执行方式却与众不同,这得益于其核心基础设施的广泛覆盖范围、对极其困难且关键问题的专注,以及对资源不应投入领域的战略认知。(作者/陈俊熹) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
中央气象台继续发布大风橙色预警!华北地区局地阵风11级以上
  今天(13日)6时,中央气象台继续发布大风橙色预警,并发布暴雪蓝色预警。华北地区等多地大风持续,部分地区阵风可达11级以上;内蒙古中东部、吉林东部山区、青海南部等地有大雪,局地暴雪。   中央气象台13日6时继续发布大风橙色预警   预计,4月13日8时至14日8时,西北地区东部、内蒙古中东部、华北、黄淮、江淮及东北地区北部等地有5~7级大风,阵风8~10级,其中,内蒙古中部偏南、山西中北部、河北北部、北京西部山区等地局地阵风11级以上;   渤海、渤海海峡、黄海大部海域、东海大部海域、台湾海峡、台湾以东洋面、南海北部和中西部海域、北部湾将有7~8级、阵风9~10级的大风,其中渤海南部海域、渤海海峡、黄海大部海域、东海东北部海域风力可达9~10级、阵风11~13级。   4月14日8时至15日8时,内蒙古中部、华北北部和东部、黄淮东部、江淮东部、东北地区南部以及新疆北疆等地有5~6级大风,阵风7~9级,其中,新疆北疆北部、河北北部、北京西部山区、山东半岛等地局地阵风可达9~10级;渤海、渤海海峡、黄海大部海域、东海大部海域将有7~8级、阵风9~10级的大风,其中黄海中部和南部的偏东海域、东海东北部海域风力可达9级、阵风10~12级。   中央气象台13日6时发布暴雪蓝色预警   预计4月13日8时至4月14日8时,内蒙古中东部、吉林东部山区、青海南部等地部分地区有大雪,局地有暴雪(10~18毫米);上述地区新增积雪深度3~8厘米,局地可达15厘米左右。
奥特曼:ChatGPT不是AGI!OpenAI最强开源模型直击DeepSeek
新智元报道 编辑:桃子 犀牛 【新智元导读】代码截图泄露,满血版o3、o4-mini锁定下周!更劲爆的是,一款据称是OpenAI的神秘模型一夜爆红,每日处理高达260亿token,是Claude用量4倍。奥特曼在TED放话:将推超强开源模型,直面DeepSeek挑战。 近了,近了! 全网多个流出的代码截图显示,满血版o3、o4-mini,以及o4-mini high,有极大概率在下周发布。 不仅如此,在OpenRouter平台上,一款神秘模型Optimus Alpha(ELO得分1387)直接霸榜,据称就是o4-mini。 另一款Quasar模型也杀入竞技场TOP 5,奥特曼对其亮眼的表现做出了回应 这款模型最大亮点在于,上下文长达100万token,一举超越了Claude 3.7 Sonnet。 更令人震惊的是,OpenRouter数据显示,Optimus Alpha才上线没几天一夜爆红,每日处理token数量高达260亿。 另一边,OpenAI正在为开源模型做准备,上周内部召开讨论会,邀请了AI社区大佬提建议。 在TED最新对谈中,奥特曼再次回应了DeepSeek,「我们正在开发一款强大且媲美顶尖LLM的开源模型」。 不论是o4系的发布,还是OpenAI开源模型登场,都足以让AI圈兴奋一段时间了。 o4系模型出世,直接霸榜? 大佬Matthew Berman从更多公开测试的蛛丝马迹中,发现了神秘模型Optimus Alpha的一些亮点。 卓越的多文件协同处理能力 出众的设计美学感知 对复杂系统的直觉式理解 闪电般的响应速度 自如切换抽象层级的能力 在Aider多语言编程方面,可与o3-mini-medium、Grok 3相媲美,拿下53%的分数。 创意写作v3基准上,它甚至击败了Gemini 2.5 Pro,ELO得分1320.8。另外,在SQL的生成上,平均得分为0.830,其中80%为满分。 可以明确的是,新模型专为编程和技术任务构建。在SQL查询生成、Web开发和系统设计方面的性能,均超过了任何公开可用的工具。 比如,在Roo Code社区中,Optimus Alpha使用量已是Claude模型的4倍,深受广大开发者欢迎。 在编码测试中,Matthew给出一个简单的指令——为我创建一个带有功能购物车的电子商务网站。 Optimus Alpha便智能地设计出完整的UI界面,还制作出了「抽屉式购物车」,要知道大多数AI都会失败。 再比如,一次性生成贪吃蛇游戏。 Optimus Alpha可以做到自定义渐变色用于贪吃蛇,深绿色的头部可便于视觉区分。 而且,简洁直观的操控界面,完整的游戏机制,都印证了其编码能力的强大。 最关键的是,代码生成速度令人惊叹,这体验就像随时召唤一位世界顶级工程师。 更强的o4系模型已预定,那么关于开源模型,OpenAI又有怎样的规划呢? 不如,一起看看TED大会上,奥特曼如何回应的AI开源竞赛,以及关于当前爆火GPT-4o生图、AI下一个突破、对就业创造力影响。 GPT-4o承包创意工作,人类怎么办? 周五,奥特曼现身温哥华TED大会现场,与TED负责人Chris Anderson进行了一场深入的对谈。 对谈一开始,Anderson用最近爆火的Sora生图功能生成了一张图片,图片中奥特曼正向他分享着惊人的信息。 Anderson表示这图画的还不错,至少是个B+。接着他又展示了一张图片,这次他让Sora描绘一下智能和意识的区别。 这张图真的让Anderson感到震惊了,因为这显然不只是图像的生成,它似乎理解了你想要什么。 对此奥特曼表示,这个图像生成的功能是GPT-4o的一部分,包含里面的所有智能。 「这也是为什么它能做出这些让人惊叹的事情。」 面对如此智能的AI,Anderson不禁问奥特曼,「我的未来该怎么办?」。 奥特曼说人们对此有两种看法。一种是「天啊,它把我做的事全干了,我该咋办?」。 而另一种是「每次技术革命都这样」,新的工具能提升人的能力,让人做的更多。 「所以适应起来应该不难。」 这时,Anderson突然冒出一句:「这会不会是个版权问题啊?」 观众哄堂大笑,现场还夹杂着掌声。看来大家都对这个问题很感兴趣。 奥特曼的回应是,如果艺术家愿意把自己的风格授权给别人用,那么可以为他们设计分成机制。 也就是说,未来不只是「版权」问题这么简单了,「风格」也将会成为重要的车资产。 不过,真正棘手的,在海量的AI作品面前,要怎么区分「灵感借鉴」和「抄袭模仿」呢? OpenAI将推最强开源LLM Anderson问奥特曼,DeepSeek的出现有没有让你有点慌? 奥特曼认为开源很重要。就在昨晚,他们还在开会讨论开源模型的参数和方向。 OpenAI正打算开源一款非常强大的模型,性能比现在所有的开源模型都要好。 奥特曼还强调了一下,虽然他们在开源方面行动的有点晚,但他们会做的很好。 虽然DeepSeek势头迅猛,但并没有影响ChatGPT的增长速度。 「我从来没见过任何一家公司有这种增长速度。ChatGPT的增长简直疯狂!」奥特曼表示。 根据上次公布的数据,OpenAI每周有5亿的活跃用户,而且还在飞速增长。 奥特曼还提到了新的「记忆」功能。模型会慢慢了解你,陪你走过人生的不同阶段。 他希望OpenAI能继续保持专注,做出这个领域里最顶尖的产品。 AI双突破,2年研究半天搞定 奥特曼预计AI将在两个方向上有重大的突破。 首先是在科学领域。 奥特曼说他相信科学发现是让人们生活越来越好的最重要推动力。有了新发现,我们就能用更少的资源做更多的事,把「可能」的边界往外推。 OpenAI最新的模型已经开始让科学家们兴奋了,他们的效率比以前高得多。 借助AI工具,很快会开始看到在对抗疾病方面的一些实质性进展。 至于物理学,奥特曼说可能需要更长时间,但很期待。 另一个重要方向是软件开发。 奥特曼说未来几个月,这个领域就会发生翻天覆地的变化。 他说一些工程师现在一个下午就能完成以前两年才能做完的工作! 对于外界的一些传闻,奥特曼说他们并没有偷偷藏着有意识的模型,以及能自我改进的模型。 奥特曼还对他们模型的安全性很有信心。 「有人会说各种事情,但现在全球大概有10%的人正在使用我们的系统,我们对自己的安全记录非常骄傲。」 他还透露,OpenAI已经准备好了一旦发现危险就迅速叫停的机制。 这就是一个不断试错的过程:把系统推向现实世界,在风险还相对可控的时候收集反馈,发现问题,然后解决。 ChatGPT不是AGI 奥特曼说ChatGPT还不能算是AGI,因为它还不能自己持续学习、提升。 它也没办法在自己不擅长的领域主动变强,自主地探索新科学、更新知识库。 甚至还不能像人类一样坐在电脑前完成各种知识型工作。 对于到底什么是AGI这个问题,奥特曼直接讲了个笑话:「你把10个OpenAI的研究员关一个屋子里,让他们定义AGI,估计能整出14个不同的答案。」 目前都没有个统一的说法。 所以比起「AGI啥时候来」,更重要的是认识到我们正处在AI能力指数级增长的曲线上。 你可以说「这是我眼中的AGI」,别人可以说「超级智能在那儿」,但不管咋样,我们都得面对这个超级厉害的系统带来的好处,同时想办法让它安全。 整场近一小时对谈中,奥特曼其他的一些精彩观点: 要盯紧AI智能体的安全问题。 奥特曼分享成为父亲对他个人产生了深远的影响,他否认了AI会对他的孩子未来构成风险,但也承认有更大的责任去塑造一个对孩子有积极影响的世界。 奥特曼还描述了一个未来,AI将比他的孩子更聪明,但他认为这是一个好事。持续的创新、丰富的资源和智能AI将会无缝融入日常生活,未来一代人将会觉得当前人们又辛苦又落后。
谷歌计划融合Gemini与Veo模型,打造全能AI助手
IT之家 4 月 13 日消息,谷歌 DeepMind 首席执行官 Demis Hassabis 在由领英联合创始人 Reid Hoffman 共同主持的播客节目 Possible 中透露,谷歌计划将旗下的 Gemini AI 模型与 Veo 视频生成模型进行融合,以此提升 Gemini 对物理世界的理解能力。 Hassabis 表示:“我们从一开始就将 Gemini 这一基础模型打造为多模态模型,因为我们有着构建一个通用数字助手的愿景,这个助手能够在现实世界中真正为你提供帮助。” 目前,整个 AI 行业正逐渐朝着“全能”模型的方向发展,这些模型能够理解和整合多种媒体形式。谷歌最新的 Gemini 模型不仅可以生成图像和文本,还能生成音频;而 OpenAI 在 ChatGPT 中的默认模型如今也能创建图像,包括宫崎骏风格的艺术作品。亚马逊也宣布计划在今年晚些时候推出一款“任意到任意”的模型。 据IT之家了解,这些“全能”模型需要大量的训练数据,包括图像、视频、音频、文本等。Hassabis 暗示,Veo 的视频数据主要来源于谷歌旗下的 YouTube 平台。他说道:“通过观看大量的 YouTube 视频,Veo 2 能够了解世界的物理规律。”此前,谷歌曾向 TechCrunch 表示,其模型可能会根据与 YouTube 创作者达成的协议,使用“部分”YouTube 内容进行训练。据报道,该公司去年扩大了服务条款的部分内容,以便获取更多数据来训练其 AI 模型。
7个月估值100亿美元,她才是奥特曼心腹大患
米拉·穆拉蒂(Mira Murati)自从去年9月离开OpenAI,就一直在创造惊喜。先是还没成立公司就有投资者排队,紧接着Thinking Machine Labs成立,有三分之二的成员来自OpenAI。 如今,传闻中的10亿美元融资目标,已经提高到了20亿美元,目标估值约100亿美元。要知道,这是一个什么产品都没有的初创企业,如果融资成功,这将创下AI公司种子轮的纪录。 今年不过37岁的穆拉蒂,正在创造一支硅谷的新兴力量。 她不像OpenAI前首席科学家、同样创业并备受关注的苏茨克维那样带着“学院派”的气息,也不像马斯克那样激进和聒噪。从求学时代起就培养起来的多视角、多领域融合的能力,让穆拉蒂成为“六边形战士”。 人工智能、机械工程与人文,前沿技术与产品落地的能力,科技伦理安全与商业化的重视,理性与亲和力,都在穆拉蒂身上融合。 而她的初创公司TML,也没有走“创造超级牛的模型”的路,而是宣称要解决人类与AI协作的问题。 没有人知道,她的团队究竟会捧上怎样的成果,也没有人知道,奥特曼是否会面临出其不意的挑战,而他又该如何应对。 01 从阿尔巴尼亚到硅谷的权力之路 穆拉蒂出镜时总是穿着休闲,长发随意地散着,或者简单地扎起马尾辫,说话间深入浅出,状态松弛。能明显地听出来,她带有某种特别的异域口音。 那是由她的成长背景决定的。1988年,穆拉蒂出生于阿尔巴尼亚的一个小镇。后来她回忆时说,彼时的环境下,“一切都是平等的,知识的竞争非常激烈。”同时,数学和物理非常受重视,人文学科则不然。 而穆拉蒂的父母教文学,这也决定了穆拉蒂一方面对计算机、机械有浓厚的兴趣,另一方面也兼具多元的视角。 16岁时,穆拉蒂赢得奖学金,踏上异乡求学之旅。先是在加拿大佩尔森学院读计算机,后赴美深造,先后获得科尔比学院的文学学士学位和达特茅斯学院的工程学学士学位。跨国家、跨学科的教育背景为她奠定了扎实的理工基础和国际化视野。 2013年,25岁的穆拉蒂完成学业,进入特斯拉,担任Model X的产品经理。 与此同时,特斯拉正在开发AI自动驾驶辅助软件Autopilot的早期版本,穆拉蒂对AI在现实世界的更广泛应用产生了兴趣。 机械工程也好,人工智能也罢,抑或历史、哲学、科幻……在穆拉蒂的世界中,这一切并非泾渭分明的独立学科,一切都是可以求索的。同样地,“大厂”还是初创公司,对于穆拉蒂来说也并不重要。 三年之后,她选择奔赴下一站,进入增强现实初创公司Leap Motion(现更名为Ultraleap)工作,从事虚拟现实和人机交互方面的产品研发。 虚拟现实很激动人心,穆拉蒂看到了和计算机互动“像玩球一样直观”。但她也很快意识到,虚拟现实技术还远远没有成熟。 是时候重新起航了,这一次,穆拉蒂选中了OpenAI。 穆拉蒂的加入恰逢其时,立刻担起重任,成为“应用人工智能及合作伙伴关系副总裁”。那是在2018年,OpenAI正处在特殊的时期。他们用大规模数据和超算训练AI模型,但是钱是一个问题。联合创始人马斯克因为分歧在年初离开OpenAI,前Y Combinaor走到台前出任CEO,OpenAI经历了转型,拉来了微软这个大金主。穆拉蒂利用自己在产品管理和商业合作方面的经验,帮助OpenAI探索将AI技术产品化并建立外部合作伙伴关系。 随后的几年,穆拉蒂逐渐成为公司技术战略和产品开发的核心人物,并于2022年5月正式成为CTO。 ChatGPT在2022年11月底向大众推出,这个决定正是在穆拉蒂的推动下做出的。 这个做法不可谓不激进。在当时,科技公司对大众开放的,更多是一些工具类的应用,如谷歌助手的语音机器人版本Google Duplex。但OpenAI一直以来以组建基础设施,调整模型为主,并直接将大模型驱动的对话机器人推出市场,人人可用,免费。 “对话”,就是为了更好地收获反馈。 穆拉蒂认为,如果一直在AI实验室里“真空”研究AGI(通用人工智能),一来缺少大众反馈,难以确定方向是否正确,二来如果真的研究出AGI,再向大众释放,也会造成过大的冲击。 “我认为,以负责任、安全的方式将这些技术引入公众意识非常重要。” 穆拉蒂不仅是AGI 的信徒,更积极地致力于将其变为现实。AGI 本质上是具有更多人类特征和智能的人工智能,或者用 Sam Altman 的定义来说,是“我们尚未完全拥有的东西”。 这种方法使她成为“实践派”技术领导者,有别于谷歌和其他倾向于将研究限制在封闭群体内的公司。 这个技术决策,一举将OpenAI送上“神坛”。在大量的关注下,OpenAI获得了愈发重组的资金,收获了更多合作伙伴,也推动其产品加速研发。 02 权力斗争中的决断力与平衡术 OpenAI这家公司也好,人工智能本身也好,规模和影响力都在急速膨胀。 争议与分歧也在急速膨胀。 科研、使命与商业化之间如何权衡,人工智能发展与人工智能安全之间如何平衡,以及人工智能与人类之间如何和谐共处,众说纷纭。 尤其是在2023年,这样的争议带来巨大的噪声。马斯克联名呼吁暂停训练大型AI模型以评估安全,后创办了自己的AI公司xAI,旨在追求“可解释和对齐”的通用人工智能。在OpenAI内部,也有以苏茨克维为代表的研究者非常担忧AI安全性的问题。而奥特曼,则被外界认为更加醉心于公司的商业化,或者说,对于公司如何获得充足的资金继续前行表现出了极大的热情。 不同于大呼“AI毁灭人类”,也不同于“OpenAI使命不再”“商业化和安全相悖”,穆拉蒂依然秉持“融合”之道。一方面,穆拉蒂曾在马斯克执掌的特斯拉工作,这意味着她对马斯克崇尚的“大胆创新、快速行动”文化不陌生。另一方面,穆拉蒂也很关注AI安全问题,在OpenAI长时间和苏茨克维密切合作,后者侧重前沿研究突破,她侧重将研究转化为产品和推进安全措施。穆拉蒂多次在公开场合直言不讳,主张引入AI监管,在GPT-4出厂时表示“如果少一些炒作会更好”。 可以说,马斯克(尤其是在成立xAI之前)强调“控制AI以确保安全”,而穆拉蒂则更倾向于“在前进中解决问题”。 按理说,穆拉蒂的技术策略和奥特曼是高度吻合的——不排斥商业化,快速前进,同时尽量促进合规。 在2023年11月OpenAI那场震惊世人的“宫变”之前,穆拉蒂还没有那么大的知名度。 人们惊讶地得知,OpenAI的CEO居然被解职,而穆拉蒂被任命为临时CEO。更令人惊讶的是,很快,穆拉蒂带领员工反抗董事会作出的决定,呼吁奥特曼回归。苏茨克维很快被“揪出来”,成为这场“宫变”的“幕后推手”。 随着媒体的不断挖掘,背后的故事愈发复杂。 去年3月,《纽约时报》曾援引知情人士称,实际上,穆拉蒂曾向奥特曼发邮件,质疑其管理能力,并向董事会表达了她的担忧,直接促成了董事会的罢免行动。 彼时,穆拉蒂驳斥了这个说法,并称是前董事会的一些成员拉她当替罪羊。 随后,《华尔街日报》也发布报道,披露了更多细节,称是穆拉蒂和苏茨克维两个人向董事会质疑奥特曼的管理能力。穆拉蒂实际上提供了大量的事例来向董事会说明这一点。 其中一个事例是,奥特曼有害的管理风格多年来一直在给穆拉蒂制造问题,比如布洛克曼(另一位OpenAI联合创始人,且一直在研发前线奋斗)向她汇报工作,但每当她试图约束他时,他就会去找奥特曼。这让她几乎无法完成工作。 但有意思的地方在于,董事会开除奥特曼的动作太过突然,且语焉不详,导致OpenAI员工反弹剧烈。在这个时候,穆拉蒂和苏茨克维意识到,要让OpenAI不四分五裂的唯一方式就是奥特曼回归。于是,穆拉蒂要求董事会披露开除奥特曼的细节,后者没有做到后,她毅然站在了奥特曼一边。 也就是说,即便穆拉蒂和奥特曼在公司的技术战略上基本一致,但日常管理当中仍旧有很多分歧。在这样的背景下,穆拉蒂既向奥特曼直言,也向董事会反馈。但当董事会处理不当的时候,她选择支持奥特曼。 她知道什么是自己认同的,什么是自己不能苟同的,但同时,她对局势有非常敏锐的判断力,知道什么时候应该调整优先级。 在这样一通闹剧之后,苏茨克维陷入沉默,并最终离开,成立专注于AI安全的公司。穆拉蒂却通过出色的平衡与融合的本事,更加频繁地活跃在前台。 奥特曼回归OpenAI之后的将近一年时间里,两个人的合作甚至更加紧密。穆拉蒂更多地在台前为OpenAI的新产品宣传,经常面对一些很棘手的问题。同时,在外界穆拉蒂逐渐被人们所熟知,人们发现了ChatGPT背后隐秘的大佬,也发现了她不可思议的平衡术。 即便是谈话本身也透露着这一点,穆拉蒂可以谈得很深入,但同时说得清晰易懂。她不仅深入人工智能本身,也引入哲学家、社会科学家、艺术家等。她不向人们保证AI绝对不会替代人类工作,而是直言有些工作本身就不应该人类来做。 媒体开始将她称为“人工智能领域最有趣的人”,《时代》杂志评价她:“米拉·穆拉蒂可以非常直接地和你讨论人工智能的危险,同时还让你觉得一切都会好的。” 03 该走了 去年9月的一个早晨,穆拉蒂告诉奥特曼,她决定离开公司。 这对奥特曼来说是一个很糟糕的消息。 OpenAI刚发布了首个推理模型o1,且传出了将转型为营利性公司的消息,正在创新与转变的关键时期。另一方面,高管震荡已经持续有一段时间,就在几个月前,苏茨克维也离开了。 而穆拉蒂成为OpenAI的代言人式人物,在奥特曼应对一个又一个危机、公众信任度下降的同时,穆拉蒂的亲和力是一种中和力量。 “我当然不会假装这次变动如此突然是理所当然的”,但他别无它法,只能答应,并且为穆拉蒂送上祝福。 穆拉蒂在给员工的备忘录中表示,离开自己珍爱的地方永远没有理想的时机。之所以要离开,是要“进行自己的探索”。她特别提到,她当时在OpenAI的首要任务是确保平稳过渡,保持已经建立的势头。 在这次官宣离职之中,穆拉蒂和奥特曼之间的纠葛成了“房间里的大象”。而从穆拉蒂的字里行间,不难看出在OpenAI“维稳”已经不能满足她。 也许一切已经在《纽约时报》爆料穆拉蒂参与了“宫变”时注定。这无关乎奥特曼是否会“记恨”穆拉蒂,而是穆拉蒂已经准备好再进一步。就像从阿尔巴尼亚到加拿大、美国求学,就像从机械工程到文学、人工智能的多重跨越,就像从特斯拉到初创小公司的选择。 在OpenAI后续即将来临的重组中,穆拉蒂势必需要更努力地“维稳”,在产品发布、外界质疑、员工变动中艰难保持技术步伐。在这里,管理和公关的压力足以盖过“探索”的欢欣。 而她已经收获了巨大的声誉,在OpenAI内部也积累了丰富的人才资源,创业是一个有广阔可能性的选择。苏茨克维在离开后的新公司“安全超级智能(SSI)”致力于在确保安全与道德的基础上开发超级智能,筹集了超过10亿美元,估值高达300亿美元规模。 在穆拉蒂刚离开OpenAI的时候,只是传出可能要创业,就已经有人排着队想要投资。人们也好奇穆拉蒂的“探索”会是什么。 最终,在今年2月,穆拉蒂终于揭晓她的新公司名叫Thinking Machines Labs,宗旨是开发以人机协作为中心的下一代AI系统,而非追求完全自主的超强AI。 穆拉蒂表示,新公司的愿景是在保持最前沿能力的同时,让AI更灵活地适应人类的各种需求,让AI技术“更广泛可及”地为人所用。 这和OpenAI、Anthropic,抑或苏茨克维的SSI都非常不同,他们追求更强大的模型,而穆拉蒂希望填补AI能力和用户使用、社会理解之间的鸿沟。在她看来,AI要做的不是替代人类,超越人类,而是与人类达成真正的协作关系。 这种公司愿景的差异化,叠加穆拉蒂本人在OpenAI作为技术领导者的号召力,对人才有非常大的吸引力。 此前官宣的29人团队阵容里,有三分之二来自OpenAI。首席科学家是OpenAI联合创始人约翰·舒尔曼(John Schulman),CTO巴雷特·佐夫(Barret Zoph)则是OpenAI前研究副总裁,领导后训练研究工作,直接参与ChatGPT的核心开发。 今年2月,TML计划以90亿美元估值进行10亿美元融资,但最新消息显示,TML正在寻求高达20亿美元的种子轮融资,估值可能高达100亿美元。这一规模前所未有,远超传统初创公司的融资范畴。如果成功,将创下AI创业公司种子轮的纪录。 投资者与OpenAI旧部对穆拉蒂的认可和信心可见一斑,AI版图上正在崛起一支新的重要力量。 只是创业与在明星公司当高管终究有很大的不同,穆拉蒂的新公司尚未推出任何产品。实际上,人们甚至不清楚TML的产品大概会是怎样的。 作为创业者的穆拉蒂,是否还能很好地平衡技术与伦理,融合不同的视角,兼顾伦理与商业化?这都需要时间的检验。 但对于奥特曼来说,穆拉蒂已经成为“OpenAI叛将”中最有威胁力的存在之一。她有产品落地和商业化的经验,处事圆滑且建立了良好口碑和大众形象,差异化的打法很可能出其不意,让OpenAI难预判也难防守。 穆拉蒂“新的探索”,奥特曼“新的挑战”,都在路上了。
不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型
终于,华为盘古大模型系列上新了,而且是昇腾原生的通用千亿级语言大模型。 我们知道,如今各大科技公司纷纷发布百亿、千亿级模型。但这些大部分模型训练主要依赖英伟达的 GPU。 而现在的情形下,国内研究团队很难获得足够的计算资源,这也制约了国内大模型技术的快速发展。 我们看到华为盘古发布的这篇新研究,证明了基于全国产的昇腾也可以实现领先的大规模语言模型的研究与开发。 技术报告标题:Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs 技术报告地址:https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf 研究称华为盘古团队成功开发出基于昇腾算力训练的千亿级通用语言大模型 Pangu Ultra。在效果上,Pangu Ultra 在多个领域和评测上超越之前 Llama 405B 和 Mistral Large 2 等稠密模型,并可以与 DeepSeek-R1 等更大规模的稀疏模型一较高下。 Pangu Ultra 是一个拥有 94 层架构、总参数量达 135B 的超大稠密模型。针对超深千亿级大模型的训练稳定性问题,研究团队提出了新的稳定性架构和初始化方法,成功实现了在 13.2T 高质量数据上的全流程无 loss 突刺长稳训练。同时,在系统实现层面,团队通过一系列系统优化策略,在 8192 张昇腾 NPU 构建的大规模集群上将算力利用率(MFU)提升至 50%。 接下来,让我们从模型架构、模型训练等方面,详细了解下 Pangu Ultra 的技术细节。 模型架构 基础架构信息:Pangu Ultra 包含 1350 亿参数、采用了 94 层的 Transformer 结构。其中 FFN 采用 SwiGLU 激活。注意力层采用 GQA 降低 KV 缓存占用。 Pangu Ultra 针对大规模极深模型的训练稳定性问题提出了 Depth-scaled sandwich-norm 和 TinyInit 初始化两项技术。 Depth-scaled sandwich-norm:与混合专家模型(MoE)侧重在宽度上扩展不同,大规模稠密模型通常采用更深的层数。然而,深度增加会加剧训练稳定性的挑战。考虑到预训练的巨大成本,保证大模型的稳定训练至关重要。 Pre-LN 在基于 Transformer 的大语言模型架构中被广泛应用,但采用 Pre-LN 的模型中,各子层输出尺度的波动容易导致训练不稳定。为解决此问题,Sandwich-Norm 在残差连接前对每个子层输出额外施加 layer norm。虽然 Sandwich-Norm 能保持单个子层输出的尺度稳定性,但跨越多层的残差连接仍会导致输出范数逐渐累积,进而引发训练不稳定。 为此,Pangu Ultra 提出 Depth-Scaled Sandwich-Norm(DSSN)。该技术通过对每个子层输出的 layer norm 的 gamma 参数来调控各层输出尺度,通过把 gamma 参数初始化为与网络深度的平方根倒数成比例。下图展示了 Depth-Scaled Sandwich-Norm 与 Pre-LN 架构的差异。实验结果表明所提出方法相比基准方法在稳定性和收敛性都具有较大优势(见模型结果与分析)。 Pre-LN 与 DSSN 架构对比。相比 Sandiwich norm,DSSN 对 layer norm 系数做了特殊的 re-scale TinyInit: 模型初始化对训练稳定性和性能具有关键影响。基于 Transformer 的大语言模型普遍采用 small init 策略,即所有权重初始化为标准差为 的正态分布。另外有工作将残差层权重在初始化时缩放 倍。 Pangu 提出了同时根据模型深度和宽度缩放的参数初始化策略 TinyInit,所有权重初始化标准差 ,能加速 loss 收敛并提升下游任务性能。TinyInit 能使模型各部分的参数尺度更加一致,从而有利于优化和收敛(见模型结果与分析)。 Pangu Tokenizer:在 Pangu Ultra 的中,作者优化了分词器(Tokenizer)。传统方法在构建词汇表时,常因数据分布导致通用文本占比过高,而代码、数学等专业领域的词元代表性不足。为解决此问题,Pangu Ultra 采用了「领域感知」的分词词表策略: 对通用中文、通用英文、代码、数学等多个关键领域的数据独立进行词频分析,生成领域专属词汇表。 随后,将这些词汇表合并与去重,形成了一个包含 153376 词元的分词词表。 这种方法提升了词汇表在不同领域间的均衡性,确保了模型在处理文本、代码、数学等多样化任务时,都能获得更精准、高效的理解基础,同时保持了良好的整体压缩效率。 各领域词在 Pangu 词表中的分布 模型训练 预训练策略与数据:Pangu Ultra 的预训练过程的三个阶段:12T tokens 的通用能力训练、0.8T tokens 的推理能力增训以及 0.4T tokens 的退火阶段。 Pangu Ultra 预训练各个阶段的数据配比 Pangu Ultra 模型的预训练语料覆盖了高质量、多样化的 13.2T tokens,如上表所示,整个预训练过程分为三个阶段:通用阶段(General)、推理阶段(Reasoning)和退火阶段(Annealing)。 通用阶段(12T)旨在帮助模型积累知识和语言表达能力,推理阶段(0.8T)旨在强化模型推理技能,而退火阶段(0.4T)则进一步教会模型如何运用已学到的知识和推理技能。 团队为训练语料打了质量与难度的标签分数,并在上述三个阶段中采用课程式的数据采样策略,即完成一个从易到难的学习过程: 通用阶段覆盖了大量的书籍、网页、百科、多语言以及各行各业的语料,实际训练中分成了两个子阶段,训练量分别为 7.4T 和 4.6T tokens; 推理阶段重点提高泛数学、理科以及代码数据的比重,强推理数据占比超过 60%; 退火阶段将指令类数据占比提高到 20%,旨在激发模型更好的应用知识和推理技能。团队设计了大量的指令类问答对,并且包含长、短思维链,这些推理路径经过精心优化,以确保内容清晰且逻辑连贯。 数据质量评估是提升模型训练效果的核心环节,Pangu Ultra 结合规则筛选与 AI 评估优化数据质量。团队设计人工标注数据,微调盘古系列模型作为质量评估器,从数据干净度、流畅性、教育价值和信息密度四个维度,对超过 10T 语料进行打分,并且赋予高质量语料更高的采样概率。 团队基于 Pangu 26 亿参数的代理模型进行了大量的消融实验,结果表明基于低质量数据训练的模型需要多 1.6 倍训练量才能达成基于高质量数据的同等效果,进一步印证了数据质量对于提升训练效率的关键价值。 长序列扩展:Pangu Ultra 模型通过两阶段长度扩展训练将可支持的输入 token 数增加到 128K,可以输入约 10 万英语单词或者 17 万中文汉字。针对长序列训练中 RoPE 基础频率这一重要参数,在训练前首先在目标扩展长度的特定验证集上对不同的参数进行评测来搜索出最优的参数,保证了长度扩展的效果。 后训练策略与数据:在模型后训练阶段,通过两阶段优化实现能力跃升:首先采用监督微调(SFT)建立基础指令跟随能力,随后引入基于结果的强化学习(RL)框架,显著提升模型的复杂推理、价值对齐和指令执行能力。为充分发挥昇腾算力优势,研究团队特别设计了具有延迟容忍特性的强化学习框架,配合融合确定性信号与模型评估的混合奖励系统,在数学推导、代码生成和通用问题解决三大领域构建精准反馈机制,确保大规模策略优化的效率与稳定性。 模型在 AIME 2024、MATH-500、GPQA Diamond 和 LiveCodeBench 等核心推理基准上取得了理想的性能,验证了后训练架构的有效性,这既得益于预训练阶段 0.8T 规模的专项推理数据积累,也源于强化学习阶段对模型潜力的深度激发。同时模型仍保持强大的通用语言理解能力(MMLU-pro 和 ArenaHard),彰显了技术路径的均衡性,结果见模型结果与分析部分。 系统优化 Pangu Ultra 135B 的训练环境是一个配备了 8192 个昇腾 NPU 的大规模计算集群。团队通过混合并行策略、细粒度负载均衡调优、高效融合算子、子序列切分以及数据缓存共享等技术手段,在 8192 卡规模的集群中实现了超过 50% 的 MFU(Model FLOPs Utilization)。 并行策略:为了扩展 Pangu Ultra 的训练规模并提升集群线性度,团队采用了混合并行策略。在 8192 卡规模的集群中,使用了 128 路数据并行(Data Parallelism)、8 路张量并行(Tensor Parallelism)和 8 路流水线并行(Pipeline Parallelism),同时结合了 ZeRO 和序列并行(Sequence Parallelism),以降低模型参数、优化器状态和激活值的显存占用。由于 batch-size 的限制,大规模集群训练中每个数据并行(DP)组的批次较小,导致较高的流水线空泡率。为解决这一问题,团队引入了 6 路虚拟流水线(Virtual Pipeline)调度算法,将训练空泡率从 30.45% 降低至 6.8%。通过一系列精细的负载均衡优化,在 BF16 训练精度下实现了 43% 的 MFU。 系统优化:为了进一步提升大规模集群的训练效率,团队从多个方面进行了系统优化,将 8192 卡训练的 MFU 从 43% 提升至 52%。关键优化技术包括: MC2(Merged Compute and Communication)通算融合 通过将训练中的矩阵乘法(MatMul)计算与张量并行(TP)切分引入的通信操作细粒度拆分,并对计算和通信操作进行深度流水线编排,实现了通信与矩阵乘法的高效重叠,显著提升了资源利用率和训练效率。 NPU Fusion Attention(NFA) 针对昇腾 NPU 优化的自注意力(Self-Attention)融合算子,支持 Attention Mask 压缩,避免了显式构造 Attention Mask 带来的计算和显存开销。在 Pangu Ultra 训练中,根据每个样本的结束标记(EOD)计算出实际序列长度(actual_seq_len),并将其传入 NFA。NFA 内部使用一个 2048×2048 的下三角矩阵作为素材库,根据 actual_seq_len 动态构造训练时的 Attention Mask,从而在重置 Attention Mask 的场景下实现高效的自注意力计算。 其他融合算子 除了 MC2 和 NFA,训练还采用了 RMSNorm、SwiGLU、RoPE 融合算子、梯度累加融合以及 PP send/recv 融合等技术,进一步提升了系统性能。 子序列切分 上下文并行(Context Parallelism,CP)是长序列训练中常用的优化方法。为了实现 CP 切分下的负载均衡,Megatron-LM 将序列切分为 2×CP 个子序列,每个设备负责计算上下两个 chunk 的数据(见图 1.(b))。然而,这种切分方式在重置 Attention Mask 的场景下仍会导致负载不均(见图 1.(c))。Pangu Ultra 采用了改进的子序列切分并行方式,针对每个样本中的子序列采用负载均衡的切分策略,每个节点负责计算子序列中的两个 chunks(见图 1.(d))。 图 1. 子序列切分的序列并行方式 显存优化 允许同一计算设备上的不同 vpp stage 之间共享 attention mask/actual_seq_len,RoPE sin/cos, position embedding 等数据。避免重复的计算和显存开销。 模型结果与分析 Pangu Ultra 实现了昇腾近万卡大集群上约 13T 数据的长稳训练,DSSN 和 TinyInit 保障训练全程没有出现任何 loss 突刺,如下图: Pangu Ultra 预训练 Loss,全流程无 loss 突刺 Pangu Ultra 的预训练基座模型测评结果如下。对比稠密架构的代表 Qwen2.5-72B 和 Llama 405B 以及 MoE 架构的代表 DeepSeek V3。Pangu Ultra 在大多数 benchmark 上取得了最好的效果,和同为稠密架构的模型对比优势更加明显。 Pangu Ultra Base 测评结果,粗体表明最好结果,下划线表明该模型在 dense 中最好 经过后训练之后,Pangu Ultra 在主要的 Reasoning benchmark 上的表现如下所示。 Pangu Ultra 在 Reasoning Benchmarks 上的表现 Pangu Ultra 在 AIME24,MATH-500,GPQA,MMLU-Pro 等指标上超越 DeepSeek R1。关于盘古后训练使用的相关技术将在之后的报告中发布。 针对训练稳定性,团队发现 DSSN 和常见的 Pre-Norm(Pre-LN)架构对比能够完全杜绝训练中的 loss 突刺现象。在 gradient norm 上,使用 DSSN 的模型也更加平稳,突刺更少。经过测评,DSSN 架构的模型效果也超出 Pre-LN 架构,说明避免训练突刺的重要性。 DSSN 与 Pre-LN 的训练对比 DSSN 架构和 Pre-LN 架构的测评效果对比 使用 Sandwich-Norm 架构时,RMSNorm 的 affine 参数 \gamma 初始化非常重要,该研究提出的 DSSN 方案与普通 Sandwich-Norm 架构对比训练 loss 也更加平稳,且收敛更快,如下图所示。 DSSN 对比普通 Sandwich-Norm 关于 TinyInit,团队在 135B 的模型规模上训练了约 100B tokens,和经典基线初始化方案相比取得了较为明显的优势。 TinyInit 对比普通初始化的模型测评效果
微软研究:AI编程助手软件调试能力堪忧
IT之家 4 月 13 日消息,OpenAI、Anthropic 和其他顶尖人工智能实验室的人工智能模型越来越多地被用于协助编程任务,谷歌首席执行官桑达尔・皮查伊在去年 10 月透露,该公司 25% 的新代码由 AI 生成;而 Meta 首席执行官马克・扎克伯格也表达了在公司内部广泛部署 AI 编码模型的雄心壮志。 然而,即便是一些目前最先进的 AI 模型,在解决软件漏洞这一问题上,仍然无法与经验丰富的开发者相媲美。微软研究院(微软的研发部门)的一项新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在内的多款模型,在一个名为 SWE-bench Lite 的软件开发基准测试中,无法成功调试许多问题。 研究的共同作者们测试了九种不同的模型,这些模型作为“基于单个提示词的智能体”的核心,能够使用包括 Python 调试器在内的一系列调试工具。他们给这个智能体分配了一组经过筛选的 300 项软件调试任务,这些任务均来自 SWE-bench Lite。 据共同作者们介绍,即使配备了更强大、更先进的模型,他们的智能体成功完成的调试任务也极少超过一半。其中,Claude 3.7 Sonnet 的平均成功率最高,为 48.4%;其次是 OpenAI 的 o1,成功率为 30.2%;而 o3-mini 的成功率为 22.1%。 为何这些 AI 模型的表现如此不尽如人意?部分模型在使用可用的调试工具以及理解不同工具如何帮助解决不同问题方面存在困难。然而,共同作者们认为,更大的问题在于数据稀缺。他们推测,当前模型的训练数据中,缺乏足够多的“顺序决策过程”数据,即人类调试痕迹的数据。 “我们坚信,训练或微调这些模型可以使它们成为更好的交互式调试器。”共同作者们在研究报告中写道,“然而,这需要专门的数据来满足此类模型训练的需求,例如记录智能体与调试器交互以收集必要信息、随后提出漏洞修复建议的轨迹数据。” 这一发现其实并不令人意外。许多研究都表明,代码生成型 AI 往往会引入安全漏洞和错误,这是由于它们在理解编程逻辑等领域的薄弱环节所导致的。最近对一款流行的 AI 编程工具 Devin 的评估发现,它只能完成 20 项编程测试中的 3 项。 不过,微软的这项研究是迄今为止对模型在这一持续存在问题领域最为详细的剖析之一。尽管它可能不会削弱投资者对 AI 辅助编程工具的热情,但愿它能让开发者及其上级领导三思而后行,不再轻易将编程工作完全交给 AI 来主导。 IT之家注意到,越来越多的科技界领袖对 AI 会取代编程工作的观点提出了质疑。微软联合创始人比尔・盖茨曾表示,他认为编程作为一种职业将会长期存在。与他持相同观点的还有 Replit 首席执行官阿姆贾德・马萨德、 Okta 首席执行官托德・麦金农以及 IBM 首席执行官阿尔温德・克里希纳。
不能用酒精擦屏幕?我擦了这么多年咋没事?
屏幕上沾了点油脂和指纹,咋办?疫情过后家中常备酒精棉片,我立刻撕一张棉片随手一擦,屏幕焕然一新。 可怎么总有人说“千万别用酒精清洁电脑屏幕“啊!还经常有网友称使用酒精擦拭电脑屏幕后,屏幕出现了严重的损坏。 随后各类科普都出来了,有的说用酒精会破坏屏幕涂层,有的说酒精会直接腐蚀屏幕。 酒精:我是王水吗??? 酒精这么可怕吗?为什么我用了这么久也一直没事?要是想擦擦手机给它消毒也不行了? 擦擦就坏的 不是屏幕,是涂层 你要是去网上搜索“能否使用酒精擦屏幕”,答案是“不能”的文章中,几乎都会提到涂层。对于到底能不能用酒精擦,这里先说结论:手机屏幕没啥问题,电脑、电视屏幕不建议使用。 显示器表面的涂层脱落丨appleinsider 对于电视、电脑屏幕来说,为了避免反光、改善显示效果,会在屏幕表面覆上一层“抗反射涂层”。不过这个涂层并不是与屏幕“融为一体”,它就像一层膜一样“贴”在你的屏幕上。 不同厂商设计的涂层材料并不相同,酒精作为良好的溶剂,确实会损坏可溶的涂层,从而导致屏幕亮度不均匀、明显可见的涂层脱落等情况。而且非触控的电脑、电视屏幕一般也不会出现指纹印,所以厂商一般都建议用水蘸湿软布轻轻擦拭即可。 电脑不用酒精擦好像问题不大,不过作为经常带出门使用的手机,能不能用酒精消消毒呢?手机作为触控产品,通常会在屏幕表面增加“疏水疏油涂层”,以避免变成“指纹收集器”影响使用。目前常见的疏水疏油层使用的是含氟涂料,这类涂料性质稳定,不会与酒精反应。华为、苹果官方的清洁指南中,都提到了可以使用酒精软布、湿巾对屏幕进行清洁。 华为手机清洁消毒注意事项丨华为官方客户服务内容 如何清洁 Apple 产品丨苹果 让你用酒精擦, 没让你直接喷酒精啊! 不对啊,媒体报道里的电脑屏幕,可不只是涂层没了那么简单啊,那一整块屏幕是完全没法正常显示啊。 坏了的屏幕丨微博@新闻晨报 几乎没有任何一家公司会建议你直接把酒精或者是清洁剂喷在屏幕上,就算是水也不行啊!虽然现在的设备一体化做得还不错,部分还达到了较高的防水等级,但这不代表你可以直接把酒精泼上去。 直接在屏幕上喷洒,液体可能会流到边缘接缝处,从而渗入机器内部,就算是防水的设备,接缝处的防水胶遇到酒精、清洁剂后也可能被溶解。 正确的清理方式是喷湿布料丨samsung.com 所以不管清理什么屏幕,如果需要使用液体(水、酒精、清洁剂等)时,都应该将液体喷洒在清洁软布上,轻捏清洁布使其挤不出液滴时,再去擦拭屏幕。 关键不是酒精 而是用啥布 你可能会觉得,不管用不用酒精擦屏幕,手机总是会变得越来越“油”。针对大部分屏幕涂层的最大杀器并不是酒精,而是摩擦。 几乎所有品牌的清洁指南中,都对清洁使用的擦拭物有明确的要求:使用无绒软布(比如买电脑时附送的清洁软布),避免使用粗糙的布、毛巾、纸巾或类似物品。 苹果产品清洁指南丨Apple 其实,屏幕涂层的效果本身就会随着使用时间的减弱,如果使用了粗糙的布料、纸巾,就算直接使用清水擦拭屏幕,涂层也可能因为过度摩擦而加速脱落。 同时对于笔记本电脑来说,如果你使用了键盘膜,合上盖子时凸出的键盘膜会直接接触屏幕,如果键盘膜本身材质粗糙,或者上面残留了较硬的尘埃颗粒,都会对涂层造成磨损。 对于才购买的新设备来说,不需要过度清洁,清洁时使用合适的软布最为重要。而对于老旧设备,可以在网上购买到各类“修复膜”,其实本质上就是在屏幕表面再形成一层涂层,但这类方法持续时间并不长。 如果实在影响正常使用了,可以去品牌官方售后咨询和申请换修服务。 非必要不擦它!丨pixabay 简单来说,如果以清洁为目的,没有必要使用酒精,使用柔软的清洁布对屏幕进行擦拭即可,如有必要可以打湿软布并挤干至不滴水。 如果以消毒为目的,华为、苹果都表明可以使用酒精棉片对手机屏幕进行擦拭消毒,但需避免酒精进入孔隙,同时如果有皮质材料后壳请不要使用酒精。 噢,如果你贴了膜,那就放心大胆用吧,大不了重贴一张。 顺带一提:电脑、电视等大尺寸屏幕产品,对于视觉效果追求更加严格,各家使用的涂层也不相同,需要以官方文档或客服咨询为准。(比如苹果纳米纹理玻璃显示器只能使用 Pro Display XDR 或 iMac 随附的抛光布清洁)
AI购物应用Nate创始人被控欺诈:人工冒充AI骗取5000万美元投资
IT之家 4 月 13 日消息,美国司法部于本周三宣布,Nate 的创始人兼前首席执行官 Albert Saniger 被控欺诈投资者。Nate 是一款声称能提供“通用”结账体验的人工智能购物应用,然而,其背后的真实运营模式却与宣传大相径庭。 Nate 成立于 2018 年,从 Coatue 和 Forerunner Ventures 等投资者处筹集了超过 5000 万美元(IT之家注:现汇率约合 3.65 亿元人民币)的资金,其在 2021 年完成了一轮由 Renegade Partners 领投的 3800 万美元 A 轮融资。 该应用声称用户可以通过单次点击从任何电子商务网站购买商品,这一切都得益于人工智能技术。然而,美国司法部纽约南区检察院却指出,Nate 在很大程度上依赖于在菲律宾呼叫中心工作的数百名人工承包商来手动完成这些购买,而非真正依靠 AI 实现自动化。 据称,Saniger 在筹集风险投资时声称 Nate 能够“无需人工干预”进行在线交易,只有在 AI 无法完成交易的极端情况下才会有人工介入。尽管 Nate 确实获得了一些 AI 技术并聘请了数据科学家,但美国司法部声称其应用的实际自动化率实际上为 0%。 2022 年,《The Information》曾对 Nate 大量使用人工承包商的情况进行了调查。当时,Saniger 未对置评请求作出回应。目前,他已不再担任 Nate 的首席执行官,其 LinkedIn 资料显示自 2023 年起他已成为纽约风险投资公司 Buttercore Partners 的管理合伙人,而该公司也未对置评请求作出回应。 美国司法部的起诉书指出,Nate 在 2023 年 1 月耗尽资金,被迫出售资产,导致投资者遭受了“近乎全部”的损失。 Nate 并非唯一一家被指控夸大其人工智能能力的初创公司。2023 年,《The Verge》曾报道,一家所谓的“AI”免下车软件初创公司实际上也主要依靠在菲律宾的人工来运作。更近一些,据《Business Insider》报道,AI 法律科技独角兽公司 EvenUp 也大量依赖人工来完成工作。
固态硬盘1~3月下跌8%,中国产品拉低行情
SSD作为PC和服务器设备的存储器,用于数据的长期存储 1~3月份的价格比上一季度下降8%。PC存储器的需求较弱,服务器存储器的势头也有所减弱…… 配置在个人电脑(PC)上的存储器固态硬盘(SSD)的大宗交易价格连续2个季度下跌。1~3月份的价格比上一季度下降8%。PC存储器的需求较弱,服务器存储器的势头也有所减弱。低价的中国产存储器的存在也逐渐引起关注。 固态硬盘作为PC和服务器设备等的存储器,用于数据的长期存储。大宗交易价格由作为卖方的日本国内外存储器制造商和作为买方的设备制造商等按季度决定。 1~3月,SSD中作为指标的TLC(三电平单元)的256GB产品为每件约29.9美元。容量较大的512GB产品为每件约56.0美元。均比2024年10~12月便宜了8%左右。有声音表示,部分交易比10~12月下降了15%左右。 PC存储器需求持续低迷,无法达成预期交易、商品过剩的情况仍在持续。虽然市场看好10月美国微软停止支持“Windows10”系统后的PC更新换代需求,但目前整体上“复苏趋势比去年弱”(大型电脑厂商)。 SSD的主要零部件NAND闪存的行情也受到了影响。NAND用于智能手机等设备的数据长期存储。据悉,“搭载NAND的智能手机需求减少导致了SSD价格的下跌”(日本电子商社)。 日本调查公司TSR(Techno Systems Research)的助理总监楠本一博指出,面向服务器的需求正在放缓。该公司表示,2024年10~12月,面向服务器(企业)的SSD出货量为1420万个,比上一季度增长4%,“与最初的预期相比仍存在不足”(楠本)。 来自生成式AI(人工智能)服务器的需求此前一直保持强劲。许多相关人士指出,2025年1~3月,服务器用SSD价格从持平转为下降5%左右。 近来,长江存储科技(YMTC)等中国NAND企业的崛起被认为是结构性行情下行因素。由于中企以优待本国产品的补贴政策为东风,在本国低价销售产品,“中国以外的企业不得不通过降价来对抗”(日本电子商社负责人)。 同为半导体存储器、用于数据短期存储的DRAM领域的世界领先企业为韩国的三星电子等3家企业。而NAND和SSD的全球领先企业有三星、韩国的SK海力士、美国的美光技术和西部数据、日本的铠侠控股(Kioxia Holdings、原东芝存储器)等5家企业,数量较多。 除了卖家众多之外,中国企业的存在感提高,日本电子商社的高管表示“相比DRAM更容易发生价格竞争”。
聊聊“关税战”对笔记本行业的影响
自从美国总统特朗普宣布上调对华关税,我们进行对等反制之后,笔吧的评论区里每天都有读者问:“上调关税会不会导致笔记本电脑涨价?” 毕竟笔记本产业的上游公司都以美国为主,微软、英特尔、超威(AMD)、英伟达都是美国企业。 软件我们有的是办法,而核心硬件占整机成本大头,它们如果被征收关税的话,电脑最终售价很难不涨。 那么「关税战」究竟会对笔电行业造成多大影响呢? 今天我们就用一台电脑为例,来简单分析一下: REDMI Book Pro 16 2025 它的配置如下: Ultra 7 255H 处理器 32GB LPDDR5x 8400MT/s 内存 1TB 固态硬盘 16英寸 3072×1920分辨率 100%DCI-P3色域 165Hz刷新率 IPS屏 电池容量 99Wh 厚度 16.2~18.7mm 重量 1.89kg 适配器重量 379g 参考售价6159.2元 它的优缺点如下: 优点! 1,屏幕规格较高 2,电池容量大,离电性能强 3,智能互联、AI软件比较完善 缺点! 1,同尺寸机器中接口较少,内部空间利用率不高 2,屏幕响应时间较长 3,16寸机型没有数字小键盘 【升级建议】 这台笔记本电脑拆机并不难,卸下D壳的螺丝后即可取下后盖。 双通道32GB LPDDR5x 8400MT/s内存能满足大部分用途的需求,内存为板载无法更换。 测试机的固态硬盘容量为1TB,型号为长江存储PC411,支持PCIe4.0×4和NVMe,机器有两个2242规格的M.2插槽,如有需要可以自行更换固态硬盘。 【购买建议】 1,对屏幕素质的要求较高 2,对续航时长的要求很高 3,对内部扩展便利性要求不高 REDMI Book Pro 16和14的差别不算小,16拥有更高规格的屏幕、更大的电池、更强的性能释放、更贵的价格。 屏幕方面,实测色域容积104.0% DCI-P3,色域覆盖99.0% DCI-P3,屏幕最大亮度约539nits,支持色域切换: 以DCI-P3为参考,平均ΔE 0.74,最大ΔE 2.94; 以sRGB为参考,平均ΔE 2.17,最大ΔE 4.77。 接口方面,机身左侧有一个USB-C 10Gbps(支持最大140W私有、100W PD充电、DP1.4视频输出)、雷电4(支持最大140W私有、100W PD充电、DP1.4视频输出)、HDMI2.0和3.5mm耳麦接口; 机身右侧有两个USB-A 5Gbps接口。 续航方面,日常应用仿真脚本的测试成绩为11小时53分。 噪音方面,它的满载人位分贝值为51.9dB。(环境噪音为33.8dB) REDMI Book Pro 16的Ultra 7高配版首发7499元,国补后5999.2元,如今首发期过后价格上调至7699元,国补后6159.2元,最终有160元的涨幅。 所以如果你想要一台拥有大尺寸屏幕且续航很长的笔记本,那么这台笔记本可以考虑一下。 但如果你想要更便携的机身,或者更强的扩展性,那么这台电脑可能不太适合你。 【散热分析】 上图是REDMI Book Pro 16 2025的拆机实拍图,双风扇三热管的组合。 室温 25℃ 反射率 1.0 BIOS版本:RMAAR6B0P0505 针对标压处理器,我们使用Stress FPU进行压力测试。 在满载状态下,开启狂暴模式,CPU温度稳定在96℃,功耗80W,P核频率4.0~4.2GHz,E核频率3.7GHz,LPE核频率2.1GHz。 左滑看烤机背面温度 机身背面温度 表面温度如上图所示,键盘键帽最高40.7℃出现在“Y”键上,WASD键为35.8℃,方向键30.0℃。左腕托温度为30.0℃,背面中心点34.5℃。 总的来说,REDMI Book Pro 16的散热表现不错,尺寸变大、散热增强后,整体温度低了不少,但噪音也偏高,建议日常不要开启狂暴模式使用。 【猪王的良心结语】 回到开头的问题:“笔记本电脑会涨价吗?” 答案是——会,但因“关税战”涨价的占比并不高。 原因有一下几个: 1,重点芯片不在美国生产 芯片的“原产地”判定标准各不相同,根据《中华人民共和国进出口货物原产地条例》,原产地需满足“完全获得”或“实质性加工”。(如制造工序、增值30%以上) 而Intel、AMD、NVIDIA的芯片主要产地并非在美国(主要在中国台湾、马来西亚、韩国等等),本质上属于“在美国设计,在其他地区生产”,美国制造的占比很低,所以很难被加征关税。 关税影响可能涉及部分来自美国亚利桑那州的intel 7工艺的芯片。但英特尔在以色列也有intel 7的生产能力。因此可以避开关税。 2,笔记本售价会日常波动 即便没有关税战,笔记本的价格也会随着“首发期、促销节、淡季”等因素调整价格。 就比如今天这款红米笔记本,非首发促销季的时候会上调200元,有活动了就再降回来,这是很普遍的操作。 3,有美国产的零件,但成本不高 笔记本电脑是一个“全球供应链”一同完成的数码产品,是由全球各地的零部件一起组装完成的。美国本土产的零件会不可避免地涨价,但本身采购成本并不高。 比如1美金的零件即便被加征100%关税,最终也就变为2美金,对整机影响比较小。 综上所述,个人目前判断,笔记本会因为关税而涨价的可能性较小,企业利润会自动覆盖掉这部分。 但成本不止体现在硬件价格上,如今笔电产业正在忙着申报各种零部件的原产地,对于税率的计算是一件庞大而又复杂的工程,这件“多出来的事情”会影响后续新品的上市节奏,产生额外的管理成本。 至于这点额外的管理成本最终是否会体现在售价上,那就得看618的促销力度了 (目前库存撑1个月左右)

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。