EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
美国禁英伟达芯片对华出售 中国公司抛弃挺国产!华为逆袭
快科技6月1日消息,你限制稀土,我就管制芯片,中美博弈依然很激烈。 据外媒报道称,由于特朗普扩大出口管制,禁止销售专门针对拜登政府先前禁令而制造的H20芯片,许多中国科技巨头目前正在寻找英伟达的替代品。据报道,阿里巴巴、腾讯和百度已经开始测试英伟达AI芯片的替代品。 业内高管表示,他们目前储备了足够的英伟达AI芯片,以确保AI开发能够顺利持续到2026年初。 不过,在这些中国科技公司看来,接下来向国产芯片上依靠才是最正确的道路。对此,行业人士也是直言,华为要因此受益, 虽然中国的AI芯片仍落后于英伟达的顶级产品,但其研发已取得显著进步。正是这些禁令加速了中国AI技术的发展,因为中国意识到了完全依赖美国制造的芯片来提供AI处理能力的威胁。 比如上个月华为正式推出了AI算力集群解决方案CloudMatrix 384,基于384颗昇腾芯片构建,通过全互连拓扑架构实现芯片间高效协同,可提供高达300 PFLOPs的密集BF16算力,接近达到英伟达GB200 NVL72系统的两倍。 此外,CM384在内存容量和带宽方面同样占据优势,总内存容量超出英伟达方案3.6倍,内存带宽也达到2.1倍,为大规模AI训练和推理提供了更高效的硬件支持。 尽管单颗昇腾芯片性能约为英伟达Blackwell架构GPU的三分之一,但华为通过规模化系统设计,成功实现整体算力跃升,并在超大规模模型训练、实时推理等场景中展现更强竞争力。 按照国外投行的说法,华为的规模化解决方案“领先于英伟达和AMD目前市场上的产品一代”,并认为中国在AI基础设施上的突破将对全球AI产业格局产生深远影响。 行业专家表示,部署替代AI芯片的最大挑战在于需要从英伟达硬件迁移系统。这将耗费巨额成本,尤其是在初期阶段,并且需要硬件工程师的大力支持。预计迁移过程大约需要三个月,这将影响AI的持续发展。但一旦完成,后续部署将变得更加容易。
TikTok电商业务海外裁员数百人,整合Tokopedia后加速降本提效
图片来源:Unsplash 据彭博社报道,字节跳动旗下的电商平台 TikTok Shop 正在印尼裁撤数百个岗位,这是该公司去年接手本土竞争对手 Tokopedia 之后进行的最新一轮成本削减行动。 据知情人士透露,此次裁员波及物流、运营、市场营销及仓储等多个电商团队。其中一位表示,下一轮裁员最快可能在7月启动。此次精简后,Tokopedia 与 TikTok Shop 在印尼的员工总数约为2500人。 TikTok 表示,公司会定期评估业务需求,并根据实际情况进行调整,以优化组织结构并提升服务质量,但未披露更多细节。该发言人称:“我们将继续加大对 Tokopedia 及印尼市场的投资,这也是我们推动可持续增长与创新战略的一部分。” TikTok Shop 正加快对印尼业务的重组步伐,大幅削减去年以15亿美元收购 GoTo 集团旗下 Tokopedia 后整合进来的员工人数。印尼是字节跳动电商业务最早开拓、也是目前体量最大的海外市场之一,但同时面临来自 Sea 集团 Shopee 及阿里巴巴集团 Lazada 等平台的激烈竞争。 自去年初 TikTok Shop 与 Tokopedia 完成合并以来,字节跳动在印尼的电商业务一度拥有约5000名员工。 这笔非同寻常的交易使得 GoTo 成为合并后电商业务的“被动支持者”,从而帮助字节跳动在印尼重启其电商平台,并符合印尼方面为限制外国大型平台而出台的新规。相关政策旨在保护本地中小型商户免受跨国平台冲击。 本周,印尼反垄断机构表示,其调查发现 TikTok Shop 与 Tokopedia 的合并导致市场集中度显著上升,存在垄断行为的潜在风险。该机构要求 TikTok Shop 与 Tokopedia 确保用户可自由选择支付方式与物流服务,并防止平台存在“自我优待”或掠夺性定价等行为。
斯坦福博士回国打造出“飞行相机”新品类,首款产品年销过亿
作为独角兽的挖掘者、创新的探路者,创业邦连续十六年颁发《创业邦100未来独角兽榜单》,致力于发掘出一批未来1-3年有望成为独角兽的未来独角兽企业。 作者丨卜松 编辑丨刘恒涛 图源丨零零科技 在大疆雄踞在全球无人机市场霸主地位的同时,一家公司却打造出飞行相机这一新品类,找到了细分场景的市场空间。 它的产品不需要遥控器,可以塞进口袋,在手上就能起飞,2017年进驻苹果零售店,甚至被美国滑雪国家队指定为“跟拍摄影师”。他们的用户中,女性占比超60%,且73%此前从未使用过无人机。 这些成就背后,站着一位不爱按常理出牌的“技术狂人”——零零科技创始人兼CEO王孟秋。 作为从Twitter和阿里巴巴走出的技术大牛,王孟秋瞄准个人影像产品的痛点,开拓出全新的“飞行相机”品类,主导了从算法到飞控的突破,硬是把无人机从专业玩家的高冷玩具,变成普通人也能随手拍大片的生活神器。 01在手机SoC跑出算法首款产品进入苹果零售店 王孟秋是土生土长的杭州人,自认为“骨子里从来不是一个安分的人”。18岁时,他考上北航计算机系,读了一学期后,觉得“没什么意思”,主动申请退学,为此还和父母关系一度闹僵。王孟秋孤身一人跑到新西兰,一边打工洗碗一边读本科,拿下了第一个电气工程与通信专业的学士学位。 在异乡的四年生活,王孟秋迷上了新西兰的迷人山野风光,并因此爱上户外运动。2004年,王孟秋无意间看到了班夫电影节的获奖片《单人穿越澳大利亚》。主角一个人拖着小车、扛着相机,在沙漠跋涉120天,为了拍摄第三人称视角,需要在两座山之间来回爬上爬下。当时的他就冒出一个念头:拍个东西这么累,也太不合理了,应该有个东西能全自动帮人拍。 他自己也没想到,这个下意识的念头,在多年后发了芽,成就了一家公司。 2005年,王孟秋到卡内基梅隆大学(CMU)读硕士,又在斯坦福大学拿到计算机博士学位。 在CMU,王孟秋接触到机器学习(Machine Learning),发现技术的迭代速度极快,他认为,这项技术一定能改变世界。 博士毕业后,王孟秋成为了Twitter的早期员工。但是,他却没有像许多硅谷华人工程师那样,“留加州、拿高薪、买大房子”,而是在2014年回国,在阿里短暂工作离职后,创立了零零科技。 当时,移动互联网创业如火如荼,王孟秋的思考方向却在手机的系统级芯片(SoC)上。王孟秋认为,如果在手机上跑通AI算法,然后去做消费级机器人,可能会有机会。他想起几年前做“能跟拍的无人机”的念头,无人机和手机芯片的底层技术同根同源,算法很容易迁移。 当时,短视频平台尚未出现,通信流量费用还没有降下来,但考虑到移动互联网正在爆发的关口,王孟秋判断:用影像第三视角记录生活,会成为一种普遍性的需求。 王孟秋的性格,是说干就干。团队尝试把AI飞控算法植入到手机SoC,扔掉屏幕,加上传感器,搞出了一台千元价位的家用机器人,这也是第一个基于手机SoC打造的机器人产品。 让团队没想到的是,这款能捕捉360度全景、自动环绕用户拍摄的Hover Camera Passport(小黑侠)无人机一炮而红,引来数千家国际媒体争相报道,零零科技名声大噪。2017年,零零科技与苹果公司建立了全球合作伙伴关系,小黑侠进入苹果在全球30多个国家的零售店。推出仅一年,“小黑侠”的销量就达到4万台,销售额超1亿元。 02哈浮:从“无人机”到“口袋摄影师”的变革 按照民航局的规定,重量不超过250克、飞行高度50米以下的超低空无人机,无需登记注册即可使用。王孟秋觉得,公司产品应该与传统意义上的无人机有所区分,品牌和定位也要做相应的调整。 “飞行相机”的概念,由此诞生。综合官方定义,所谓“飞行相机”,是一种集成了高清摄像头、稳定云台等组件的微型无人机,轻量化、可折叠、操作简便是核心特性。 区别于定位专业影像、“拍大片”的中大型无人机,王孟秋对哈浮的产品定义,首要便是简单好用:“我们相当于把一个微型剧组塞进你口袋,摇臂、滑轨、摄影师全包了。” 2022年,为了在消费级市场打出品牌声量,零零科技把品牌定名哈浮,并推出第一款产品:哈浮飞行相机X1。这款产品只有125克,随手一折就可以放在口袋,携带起来比手机还方便。打开它,三秒就能从手掌起飞,自动跟拍,完全不用遥控器,老人孩子都能轻松玩转。 哈浮飞行相机X1 2024年,零零科技推出X1 Smart,重量只有99克,是迷你级别的“无人机”;高端系列的X1 PRO和X1 PROMAX则瞄准运动爱好者,可以实现8K画质,超低空高速跟拍功能,几乎可以适应任何复杂地形,连滑雪、山地速降的画面,都能稳稳拍下来。 哈浮飞行相机X1 PRO 这些产品的理念,都紧紧围绕体验创新,比如从手掌随时起降的设计,灵感就来自“拍得不该那么麻烦”的初心,把操作门槛降到零。要实现这些功能,零零科技用到了不少AI技术,比如用神经网络算法自动识别并跟随人物,搭载全地形飞行系统等,另外,在避障灵敏性、防抖等技术上也有很多优化和创新。 通过这些设计,哈浮解决了很多人们日常拍摄的普遍问题。以前拍骑行视频,骑行者得举着杆子或者绑个GoPro,拍摄效果也不好,用哈浮,各种视角拍摄起来都简单多了。很多女生们周末出游聚会,要拍视频、拍照片,用哈浮也方便多了。 03目标年销千万,将飞行相机打造成独立品类 2024年11月,哈浮飞行相机成为美国滑雪国家队官方相机,2025年4月,成为美国自行车协会的官方相机。 根据官方披露,哈浮的女性用户占比超过60%,不少人压根不是科技极客,就是喜欢它拍出的生活感。 如果说无人机是极客的玩具,哈浮则是普通人低空拍摄,记录生活的工具,用户性别的比例,也在客观上证明,哈浮在消费级无人机市场,开辟了一个差异化的细分赛道。 这非完全意义上的“全新市场”,而是通过对产品形态、使用场景和技术路线的创新,通过“轻量化”、“场景垂直化”,在航拍无人机与手持拍摄设备之间创造了一个融合型新品类,重新定义了拍摄方式。 这要得益于王孟秋对产品的敏感度。 在同事的眼里,王孟秋永远都在琢磨产品,同事评价他“是个天生的产品经理”。 当王孟秋看到了“小黑侠”的成功,提出要做以哈浮为公司主品牌、做“飞行相机”时,包括投资人在内的身边所有人都认为他疯了。大家都不看好这一全新品类的前景,要求他先去了解市场痛点再做决定。 “革命性的产品,是不可能基于用户调研来诞生的,早期的苹果从不干这种无聊的事。”王孟秋说,在产品上,他极度反感从众,“为啥飞机不能是方的?为啥不能全包起来?问出来才有机会去创新。” 在海外,零零科技的产品也展现了极强的竞争力。 为了满足日本对免飞行执照机型的要求,团队对哈浮X1 Smart做了极致减重,降至99克。2024年3月,X1 Smart首次公开亮相便在日本众筹平台一炮打响,筹集2.12亿日元,创下当地影像类产品众筹纪录,凸显了其在国际市场的影响力。 哈浮飞行相机X1 Smart 王孟秋透露,公司近年来保持每年200%至300%的增长。团队目前拥有350多名员工,其中近一半为研发工程师,分布于杭州、北京和深圳三地。 2024年9月,大疆推出DJI Neo,这款产品定位于新一代掌上Vlog无人机,支持AI智能跟拍和自动返航,同时特别针对骑行、滑板、登山、徒步等场景提供了适配。“这就是冲着我们来的。”王孟秋说,巨头的跟进,恰恰说明自己做对了。 “我们是这个产品品类的引领者、开拓者,他们的反应,完全在我们设定的游戏规则里,他们可以复制参数,但是复制不到我明天要做的东西。价格上做得更便宜,反而有利于对消费者的市场认知教育。”王孟秋表示,哈浮在性能表现、外观颜值和用户体验上有独特优势,公司将继续通过技术创新保持领先,避免陷入低端价格竞争。 “我们希望能将飞行相机打造成下一个年出货量突破千万台的独立品类,类似于扫地机器人在消费市场的普及。”王孟秋说,零零科技将持续深耕技术研发,探索更多应用场景,拓展全球市场,为消费级无人机行业树立新的标杆。
阿里发布QwenLong-L1超长文本杀器!已开源、支持120k长上下文、具备“翻书回溯”能力
大数据文摘出品 业界普遍认为AI上下文越长越好,但这存在一个核心矛盾:模型能“吞下”海量信息,却难以真正“消化”。面对长文,它们会忘记要点、无法深入推理,这已成为一大瓶颈。 例如,AI 能记住第1页的内容,同时理解第100页的观点,并将两者联系起来进行推理吗? 多数情况下,答案是令人失望的。 这就像开卷考试,书太厚,你找不到答案在哪,开卷也等于零分。 研究者把这种瓶颈正式命名为“长上下文推理 RL”,强调模型必须先检索并定位片段,再进行多步逻辑链生成,而不是直接“凭存货作答”。 近日,阿里巴巴把一套可阅读 120 k token 超长文档、还能“回头修正”的训练框架“QwenLong-L1”完整开源,给上述瓶颈了一个清晰的、可行的解决思路。 《QwenLong-L1: A Framework for Long-Context Reasoning RL》论文。 GitHub地址:https://github.com/Tongyi-Zhiwen/QwenLong-L1 论文地址:https://arxiv.org/abs/2505.17667 QwenLong-L1的解法:一套“三步走”的战略 QwenLong-L1 并不是一个新模型,而是一套训练已有大模型的新方法——它采用了三阶段训练流程: 第一步有监督学习(SFT)阶段。模型在这一阶段接受的是大量经过标注的长文本推理样本,比如“从一份 20 页的财报中,找出企业未来三年关键成本控制策略”。这一步帮助模型建立对“长内容”的基础适应力:哪里该找信息?信息之间有什么逻辑链?如何根据内容生成回答?这一阶段不是靠猜答案,而是靠“看例子学”。 第二步是“分级强化”——随着文档长度逐步增加,模型被分阶段推进强化学习过程。训练初期,输入文档较短;模型表现稳定后,再逐步拉长输入。这就像教孩子写作业,从看一页材料回答问题,慢慢过渡到处理整本教材。“突然上难度”的方法常常训练崩盘,而这套“课程表”式的推进方式,使得模型策略进化更可控、更稳定。 第三步是“难题反复训练”——用最难的样本反复优化模型的策略空间。这一步被称为“困难感知的回顾采样”(Difficulty-Aware Retrospective Sampling):它刻意选择那些模型曾经做错、但又具有代表性的难题进行强化学习,从而鼓励模型尝试不同思路路径,并形成反思、回溯、验证的能力。 更妙的是,它还引入了一套混合奖励机制。 不同于传统解数学题那样“答案对就给满分”的死板规则,QwenLong-L1同时引入了“规则裁判”和“LLM裁判”。 “规则裁判”确保答案的精确性,而“LLM裁判”则从语义上判断模型生成的内容和标准答案是否意思相近。这给了模型更大的灵活性,尤其是在处理那些没有唯一标准答案的开放性问题时,效果拔群。 效果如何?它学会了“自我纠错” 阿里团队在7个长文本问答(DocQA)基准上测试了QwenLong-L1。结果非常亮眼。 基于DeepSeek-R1-32B训练出的QWENLONG-L1-32B模型,其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美,并且优于OpenAI的o3-mini等一众强手。 但比分数更重要的,是模型在推理过程中展现出的“行为变化”。 论文提到,经过QwenLong-L1训练后,模型明显更擅长信息定位(Grounding)、子目标设定(Subgoal Setting)、回溯(Backtracking)和验证(Verification)。 这是什么意思呢? 举个例子,一个普通模型在分析一份冗长的财报时,可能会被无关的细节带跑偏,或者陷入某个死胡同里出不来。 而QwenLong-L1训练的模型,则表现出了惊人的自我反思和纠错能力。它在推理过程中如果发现一条路走不通,会主动“回溯”,退回到上一步,排除干扰信息,然后选择另一条路继续探索,直至找到正确答案。
诺奖得主、DeepMind CEO最新分享:AI正逼近人类的灵魂边界
图片来源:Youtube “AI正逼近人类的灵魂边界。” 这是DeepMind CEO Demis Hassabis在Google I/O大会期间,面对通用人工智能(AGI)议题时发出的直白判断。在这场持续近两小时的对谈中,他与《纽约时报》记者Kevin Roose、科技播客主持人Casey Newton围绕“通用智能的冲刺”“AI创造力与幻觉”“进化式模型AlphaEvolve”“全球科技博弈与安全伦理”等多个前沿议题,展开了深入讨论。Hassabis坦言,如今的AI技术堆栈还远未稳定,“技术本身在奔跑,我们只能边跑边造车”,但同时他也首次明确表示:AGI或将在2030年左右诞生,我们正处在关键的五年窗口期。 在这场讨论中,Hassabis提出了数个令人深思的判断: AGI冲刺阶段已开启:“我们已经越过了中段,现在是冲刺的前沿。” AlphaEvolve代表AI自我进化的雏形:“它让AI系统开始提出假设并评估自身,虽然现在还远未完全自动化,但已具备重要价值。” “幻觉”并非全然负面,创造力有时需要“非真实”触发点:AI必须敢于想象,才可能发现搜索空间中未被触及的创新路径。 技术栈仍在飞速演进,构建AI产品必须押注未来能力:产品经理的核心能力变成预见技术一年后的跃迁路径。 AGI将是全人类的问题:“AI的安全、伦理与监管,不可能局限在某个国家、某个公司内部,它必须全球协作。” 未来职业构成将重塑,但不是终结,而是新秩序的开始:“大团队将被小型高效组织取代,创造力与远见将成为稀缺能力。” AI还无法触碰人类“灵魂”的部分:不管是小说、画作,还是人与人的深度连接,目前AI仍难以复制那些“经历过挣扎”的创作能量。 正如Hassabis所说:“如果AI是这个时代的引擎,那么它不是让我们变得更冷酷,而是让我们更有时间回归本质——包括想象力、情感与哲思。”或许,这正是AI时代最值得我们守护的东西。 谷歌 DeepMind 首席执行官Demis Hassabis多年来一直梦想着 AGI。2014 年,谷歌收购了他共同创立的人工智能初创公司 DeepMind,Hassabis加入谷歌。去年,Hassabis和他的谷歌DeepMind同事 John M. Jumper因其在AlphaFold上的贡献而获得了诺贝尔化学奖。 以下是访谈的全文翻译。 图片来源:Youtube Kevin Roose: 你们刚刚举办了 Google I/O大会,那真是Gemini的盛会。Gemini的名字在主题演讲中被提到了大约 95 次。在宣布的所有产品中,您认为对普通用户来说最重要的是什么? Demis Hassabis:我们确实宣布了很多东西。对于普通用户来说,我认为是新的强大机型,我希望像 Astra 这样的技术能够应用于 Gemini Live。我觉得这真的很神奇,当人们第一次使用它时,他们会意识到人工智能如今已经能够做到比他们想象的更多的事情。我想Veo 3可能是本次展会上最重要的发布,而且现在似乎正在迅速走红,我认为这也非常令人兴奋。 Kevin Roose: 与往年相比,今年的I/O大会给我留下了深刻印象的一点是,谷歌似乎正在被人们说成是“AGI药丸”一样的东西所吸引。我记得几年前采访谷歌的研究人员时,谈论AGI还是有点禁忌。他们会说:“哦,Demis和他在伦敦的DeepMind团队,那是他们疯狂的事情,他们对此感到兴奋。但我们在这里做的是真正的研究。” 但现在,谷歌的高管们开始公开谈论它了。这种转变是如何解释的呢? Demis Hassabis:我认为 AI 这个等式正变得越来越重要,就像我有时把谷歌DeepMind描述为谷歌的引擎室一样,如果你退一步来看,我想你可能在昨天的主题演讲中就看到了这一点。然后我想,一切都非常清晰。你可以说“AGI-pilled”这个词或许很贴切,我们已经非常接近人类水平的通用智能,甚至可能比几年前人们想象的还要接近。它将产生广泛而跨领域的影响。我认为这也是你在主题演讲中看到的另一件事。它几乎无处不在,因为它是一个支撑一切的水平层,我认为每个人都开始理解这一点,也许DeepMind的一些理念正在渗透到谷歌的整体架构中,这很好。 Casey Newton:您在周二的主题演讲中提到,Project Astra 正在赋能一些人们甚至可能尚未意识到 AI 能够做到的事情。我认为这反映出目前 AI 行业面临的一个真正挑战:这些模型拥有非常惊人的能力,但要么产品卖得不好,要么用户还没有真正理解它们。那么您是如何看待这个挑战的?您在多大程度上专注于产品问题而不是研究问题? Demis Hassabis:我认为这个领域面临的挑战之一显然是底层技术发展速度惊人,甚至与其他重大革命性技术(例如互联网和移动技术)截然不同。技术栈在某个阶段会趋于稳定,这样人们就可以专注于产品或开发该技术栈。而我们现在面临的情况,我认为从研究人员的角度来看,这非常不寻常,但也非常令人兴奋,因为技术栈本身正在飞速发展,正如你们所知。所以我认为这实际上在产品方面带来了独特的挑战。这不仅对我们谷歌和DeepMind,对初创公司,对任何公司,无论大小,都构成挑战:正如我们所见,如果一年后技术可能会提升100%,那么现在你该押注什么呢?所以,你需要具备相当深厚技术功底的产品人员——产品设计师和经理——来预测一年后技术的发展方向。所以有些事情它现在做不到,而你想设计一款一年后就能面世的产品,那么你必须对这项技术及其未来发展方向有相当深入的理解,才能确定哪些功能是可以依赖的。所以这是一个有趣的过程,我想这就是你所看到的:这么多不同的东西被尝试,如果某个方法有效,我们就必须迅速加倍投入 Casey Newton:是的,在您的主题演讲中,您提到 Gemini 既能助力生产力/助理类产品,也能助力基础科学和研究挑战。我想知道,在您看来,这是否是一个伟大的模型能够解决的同一个问题?还是说,这两个问题截然不同,只是需要不同的方法? Demis Hassabis:当你审视它时,你会发现它涵盖了令人难以置信的广泛领域,这的确如此。除了我对所有领域都感兴趣之外,它们之间还有什么关联呢?但这正是我们构建通用智能的初衷,真正做到了通用,并且以我们正在做的方式;它应该适用于几乎所有领域:从生产力(这非常令人兴奋,它能帮助数十亿人的日常生活)到解决科学领域的一些重大难题。我想说,其中 90% 是底层核心通用模型——就我们的 Gemini 而言,尤其是 2.5 版本。在大多数这些领域,你仍然需要额外的应用研究,或者一些来自该领域的特殊框架。也许是特殊数据,或者其他什么,来解决这个问题。也许我们会与科学领域的专家合作。但在此基础上,当你攻克某个领域时,你也可以将这些经验运用到通用模型中。然后通用模型会变得越来越好。所以这是一个非常有趣的飞轮。对于像我这样对很多事情都感兴趣的人来说,这真的很有趣。你可以利用这项技术,进入几乎任何你感兴趣的领域。 Kevin Roose: 目前很多人工智能公司都在纠结一个问题:该投入多少资源用于推进核心人工智能的基础模型——在基础层面上改进这些模型——还是要投入多少时间、精力和金钱,尝试将其中的某些部分剥离出来,进行商业化,最终转化为产品?我认为这既是资源挑战,也是人员挑战。比如说,你以工程师的身份加入 DeepMind,想要构建 AGI,然后谷歌的某个人来找你说,我们实际上想让你帮忙开发一个可以让人们试穿衣服的购物功能。和那些因为某种原因加入,但可能被要求做其他事情的人进行这样的对话,会不会很有挑战性? Demis Hassabis:这在某种程度上是一种内部的自我选择。产品团队里有足够多的工程师来处理产品开发和产品工程。至于研究人员——如果他们想继续从事核心研究,那也没问题。我们需要他们这样做。但实际上,你会发现很多研究人员都对现实世界的影响充满动力,显然是在医学领域,以及像Isomorphic这样的领域。而且,让数十亿人使用他们的研究成果,这实际上非常有激励作用。所以,有很多人喜欢两者兼顾。所以我们没有必要强迫人们专注于某些特定领域。 Kevin Roose: 你昨天(星期二)和谷歌联合创始人谢尔盖·布林(Sergey Brin)一起参加了一个小组讨论,布林一直在办公室里研究这些事情。有趣的是,他对AGI 的时间表比你短。他认为通用人工智能会在2030年之前实现,而你说会在2030年之后。他实际上指责你故意拖延时间;基本上就是故意把预期时间往后推,这样你就可以少承诺多兑现。但我对此很好奇,因为你经常会听到不同人工智能公司的人争论时间表,但想必你和布林掌握着相同的信息和路线图,你们也都了解什么是可能的,什么是不可能的。那么,他看到了什么而你没有看到,或者反之亦然,导致你们对通用人工智能何时到来得出不同的结论呢? Demis Hassabis:首先,我们的时间表并没有太大差别,如果他是在 2030 年之前,而我在 2030 年之后。而且,自从 2010 年 DeepMind 成立以来,我的时间表一直非常一致。所以我们认为这是一个大约 20 年的任务,令人惊讶的是,我们正朝着正确的方向前进。所以我认为它应该在这个时间点左右。我感觉介于两者之间——我实际上显然有一个概率分布,其中最大规模的是在 5 到 10 年后。我认为部分原因是,准确预测 5 到 10 年后的事情非常困难。所以这周围存在不确定性。此外,还需要多少突破也存在不确定性,对于 AGI 的定义,我的标准一直都很高,那就是:它应该能够完成人脑所能做的所有事情,即使是理论上的。所以,这比普通人类所能达到的水平要高得多,这显然在经济上非常重要。这将是一个重要的里程碑,但在我看来,还不足以称之为通用人工智能。 我们在台上稍微讨论了当今系统所缺少的东西:真正突破常规的发明和思维,发明猜想而不是仅仅解决数学猜想。解决一个猜想已经很不错了,但真正发明像黎曼猜想或类似的重要猜想(数学家们一致认为它非常重要)则要困难得多。此外,一致性也是通用性的必要条件。即使是顶尖专家也很难在系统中发现缺陷,尤其是一些微不足道的缺陷,而这些缺陷在今天我们却很容易找到,普通人也能做到。所以,在我们达到我所认为的 AGI 之前,存在着能力差距和一致性差距。 Casey Newton:您认为缩小这一差距是通过每个后续模型逐个改进 2% 到 5% 来实现的吗?这种改进需要经过很长一段时间才能实现。还是说,您认为更有可能的是,我们能够取得某种技术突破,然后突然间就实现了某种智能爆炸? Demis Hassabis:我认为两者皆可,而且我确信两者皆有用,这就是为什么我们极力推进规模化和所谓的增量式发展。实际上,即使在这方面也有很多创新,为了在预训练、后训练、推理时间计算以及所有这些堆栈方面不断推进,我们也有很多激动人心的研究,我们通过扩散模型(Deep Think 模型)展示了其中的一些成果。所以,我们正在对传统堆栈(我们应该这样称呼它)的各个部分进行创新。在此基础上,我们还在做更多“绿地”项目,更多“蓝天”项目,比如AlphaEvolve。 Kevin Roose: 绿色田野和蓝天之间有什么区别吗? Demis Hassabis: [笑] 我不确定。也许它们很相似。 Kevin Roose: 好的。 Demis Hassabis:我们姑且称之为“某个新领域”。然后这些研究可能会回到主干,对吧?我一直坚信基础研究。我认为,我们的研究平台一直比任何实验室都更广泛、更深入。这让我们能够取得过去的重大突破:当然是Transformers,还有AlphaGo、AlphaZero、Distillation等等。如果这些技术中的任何一项再次被需要,或者再次取得同等水平的重大突破,我都会支持我们去做。我们正在探索许多非常令人兴奋的途径,这些途径既可以带来这种阶跃式的改变,也可以带来渐进式的改变。当然,它们之间也会相互作用,因为你的基础模型越好,你就可以在其上尝试更多的东西。再次强调,就像AlphaEvolve一样,你在大语言模型(LLM)的基础上添加了进化编程。 Kevin Roose: 我们最近采访了Karen Hao,她是一位刚刚写了一本关于人工智能的书的记者。她主要反对规模化——你不需要那些大型的通用模型,它们极其耗能、计算密集,需要数十亿美元的资金、新的数据中心以及各种资源。与其这样做,不如构建更小的模型。你可以构建更精细的模型。你可以使用像AlphaFold这样的模型,它专门用于预测蛋白质的三维结构。你不需要一个庞大的模型来实现这一点。你对此有何看法? Demis Hassabis:嗯,我认为你需要那些大型模型。我们喜欢大型和小型模型,所以你经常需要大型模型来训练小型模型。所以我们对我们的“Flash”模型感到非常自豪——我们称之为“Workhorse”模型,它们非常高效,也是最受欢迎的模型之一。我们内部使用了大量这类模型。但是,如果不从大型教师模型中提炼知识,你就无法构建这类模型。即使是像 AlphaFold 这样的东西——显然,我非常提倡更多这类模型,它们可以解决当今科学和医学领域中真正重要的问题;我们不必等待通用人工智能(AGI)的到来。这需要采用通用技术,但随后可能会对其进行专门化,例如围绕蛋白质结构预测。我认为在这方面有巨大的潜力。我们——主要是在科学人工智能领域——几乎每个月都会在这方面做出一些很酷的东西。我认为我们应该在这方面进行更多的探索。或许很多初创企业都能将现有的某种通用模型与特定领域相结合。但如果你对通用人工智能 (AGI) 感兴趣,就必须兼顾两者。在我看来,这不是“非此即彼”的问题,而是“两者皆可”,对吧?比如,让我们扩大规模,让我们研究专门的技术,让我们关注那些可能催生下一代变形金刚的全新蓝图研究。我们对所有这些领域都押注不已。 Casey Newton:您提到了 AlphaEvolve,我和 Kevin 都对它非常着迷。请跟我们讲讲 AlphaEvolve 是什么。 Demis Hassabis:嗯,从高层次上讲,这基本上是利用我们最新的 Gemini 模型(实际上是两个不同的模型)来生成关于程序和其他数学函数的想法和假设,然后它们会进入一个进化编程过程,以决定哪些是最有前景的。之后,这些想法和假设会被移植到下一步。 Casey Newton:请简单介绍一下什么是进化编程。听起来很令人兴奋。 Demis Hassabis:是的,所以这基本上是系统探索新空间的一种方式,对吧?比如,在遗传学中,我们应该改变哪些东西才能产生一个新的生物体?所以你可以在编程或数学中以同样的方式思考:你以某种方式改变程序,然后将其与你想要得到的答案进行比较;然后,根据评估函数,将最合适的答案放回下一个集合,从而产生新的想法。我们用最高效的模型来生成各种可能性,然后我们用专业的模型来评判这些可能性,并决定哪一个最有希望被选中进行下一轮进化。 Kevin Roose: 所以它有点像一个自主的人工智能研究组织,其中一些人工智能提出假设,其他人工智能对它们进行测试和监督,而我理解的目标是让人工智能能够随着时间的推移不断自我改进或对现有问题提出改进建议。 Demis Hassabis:是的。这只是某种自动化过程的开端,目前还没有完全自动化。而且,它的应用范围仍然相对较窄。我们已经将它应用于许多领域,例如芯片设计、在数据中心更高效地调度AI任务,甚至证明矩阵乘法——矩阵乘法是训练算法最基本的单元之一。所以它实际上已经非常有用了。但它仍然局限于可证明正确的领域,显然数学和编程就是这样。所以我们需要将其完全推广。 Casey Newton:但有趣的是,我认为对很多人来说,他们对LLM的普遍看法是,嗯,你实际上能给我的只是训练数据的统计中位数。但你的意思是,我们现在有办法超越这一点,从而有可能产生真正有助于推动当前研究水平的新想法。 Demis Hassabis:没错。AlphaEvolve 是另一种方法,它使用了进化方法,但早在 AlphaGo 时代,我们就有证据证明这一点。AlphaGo 提出了新的围棋策略,最著名的是李世石世界冠军赛第二局的第 37 步。好吧,它仅限于一局棋,但这是一种前所未有的全新策略,即使我们已经下了几百年的围棋。所以,就在那时,我启动了 AlphaFold 项目和科学项目,因为我在等待看到创造力或原创性火花的证据,至少在我们已知的领域内。但我们还有很长的路要走。我们知道,这类模型——结合蒙特卡洛树搜索、强化学习或规划技术——可以带你探索新的领域。而进化方法是超越现有模型认知的另一种方式。 Casey Newton:我一直在寻找一个好的蒙特卡洛树,所以如果你能帮我找到一个,那真的会有很大帮助。 Demis Hassabis::这些事情之一可能会有所帮助。 Casey Newton:好的,太好了。 Kevin Roose: 所以我读了 AlphaEvolve 的论文。(或者更准确地说,我把它输入到 NotebookLM 中,让它制作一个播客,然后我可以听,这样就能从更基础的层面向我解释清楚。)其中一件让我印象深刻的事情是关于你如何让 AlphaEvolve 更具创造力的细节。你做到这一点的方法之一就是强迫模型产生幻觉。现在很多人都痴迷于消除幻觉。但在我看来,解读那篇论文的一种方式是,它实际上存在一个场景,你希望模型产生幻觉或发挥创造力——无论你想怎么称呼它。 Demis Hassabis:嗯,我想是的。当你渴望真实的东西时,产生幻觉显然是不可取的。但在创造性的情况下——比如MBA课程中的横向思维之类的——你会产生一些疯狂的想法,其中大多数都毫无意义。但偶尔出现的一两个想法,可能会让你进入搜索空间中某个非常有价值的领域,事后你会发现,这些领域实际上非常有价值。所以,在那时,你可以用“幻觉”来代替“想象”,对吧?它们显然是同一枚硬币的两面。 Kevin Roose: 我确实和一位人工智能安全专家聊过,他对 AlphaEvolve 有点担心,不是因为实际的技术和实验(他表示,这些技术很吸引人),而是因为它的推广方式。谷歌 DeepMind 创建了 AlphaEvolve,然后用它来优化谷歌内部的一些系统,并将其隐藏了几个月,才向公众发布。这位专家说:“好吧,如果我们真的达到了这样的程度,这些人工智能系统开始递归地自我改进,并且它们可以构建更好的人工智能,那么这是否意味着,当谷歌真的构建出通用人工智能(AGI)甚至超级智能时,它会暂时保密,而不是负责任地告知公众?” Demis Hassabis:嗯,我认为实际上两者兼而有之。首先,AlphaEvolve 是一个处于起步阶段的自我改进项目,它仍然需要人类参与,而且它只是在现有任务的基础上削减了——尽管这很重要——几个百分点。这很有价值,但它并没有带来任何实质性的改变。此外,在向公众发布之前,需要进行内部仔细评估,同时也需要从学术界等获得额外的批评意见,这也很有帮助。此外,我们有很多值得信赖的测试人员,他们可以提前接触到这些项目,然后给我们反馈,并进行压力测试,有时安全机构也会参与其中。 Kevin Roose: 但我的理解是,你们不仅仅是在谷歌内部进行红队测试。你们实际上是用它来提高数据中心的效率,用它来提高训练AI模型的内核的效率。所以我猜这个人的意思是:我们希望在它们变成像 AGI 那样的东西之前,就养成良好的习惯。他们只是有点担心,这件事可能会被隐藏得比需要的更久。我很想听听你对此的回应。 Demis Hassabis:我认为那个系统在AGI 方面并不存在任何风险。我认为,如今的系统——尽管非常令人印象深刻——从这位朋友可能提到的任何通用人工智能风险角度来看,都不够强大。我认为两者兼顾。你需要对这些东西进行极其严格的内部测试。然后,我们还需要从外部获得协作输入。所以我认为两者兼而有之。实际上,我并不清楚 AlphaEvolve 最初几个月的开发流程细节;它之前只是函数搜索,后来变得更加通用。所以,在过去的一年里,它已经发展成为一个通用工具。在我们真正将它应用于主分支之前,它还有很长的路要走,到那时,主分支就会变得更加成熟,就像 Gemini 一样。目前,它与 Gemini 是分开的。 Casey Newton:我们来更广泛地谈谈人工智能安全。据我观察,似乎历史越久远,人工智能系统越不强大,人们就越会谈论安全风险。而现在,随着模型的改进,我们听到的关于安全风险的讨论却越来越少,包括在周二的主题演讲中。所以,我很好奇,如果您觉得自己已经足够重视现有系统可能造成的风险,并且仍然像三四年前那样致力于人工智能安全,那时很多类似的后果似乎不太可能发生,那么您如何看待当前的人工智能安全形势呢? Demis Hassabis:是的,我们一如既往地致力于此。从 DeepMind 创立之初,我们就为成功做好了规划。成功意味着像这样,是我们想象中的样子。我的意思是,它真的发生了,这仍然有点难以置信。但如果这些技术真的按照我们设想的方式发展,它就处于我们设想的奥弗顿之窗中。风险以及如何规避和降低这些风险也是其中的一部分。因此,我们对我们的系统进行了大量的工作。我认为,我们在发布前和发布后都有非常强大的红队测试流程。我们学到了很多东西,我认为这就是这些系统(尽管是早期系统)与现实世界接触的区别所在。我现在有点相信,这总体上是件好事。 我想,五年前、十年前,我或许会觉得待在研究实验室里,跟学术界合作之类的更好。但实际上,很多东西除非数百万人尝试,否则你无法看到或理解。所以,这是一种奇怪的权衡——只有当数百万聪明人尝试你的技术,你才能找到各种极端情况。所以,无论你的测试团队有多大,也只有100人或1000人左右。所以,这与数千万人使用你的系统是无法相比的。 但另一方面,你希望尽可能提前了解情况,以便在风险发生之前降低风险。所以这很有趣,也是很好的学习机会。我认为过去两三年行业发生的一切都很棒,因为我们一直在学习,看看这些系统何时不那么强大或危险,正如你之前所说。我认为两三年后,当这些代理系统开始真正发挥作用时,情况会变得非常严峻。我们现在看到的只是代理时代的开端,我们姑且称之为。 但是,你可以想象一下,希望你从主题演讲中理解了这些要素是什么,它们将如何组合在一起,然后我认为我们真的需要在分析、理解和可控性方面的研究方面取得重大进展。但另一个关键问题是,它必须是国际化的。这相当困难。我一直非常坚持这一点,因为它是一项将影响世界上每个人的技术。它由不同的国家和不同的公司在构建。所以我认为,你必须制定一些国际规范,关于我们希望将这些系统用于什么用途,以及我们希望用什么样的基准来测试安全性和可靠性。 但现在还有很多工作要做。比如,我们还没有这些基准。我们、业界和学术界应该就这些基准达成共识。 Casey Newton:您希望出口管制在您刚才所说的方面发挥什么作用? Demis Hassabis:嗯,出口管制是一个非常复杂的问题。显然,当今的地缘政治也极其复杂。我看到了双方对此的争论。这些技术正在扩散,而且是不受控制的扩散。你想让不同的地方都拥有前沿建模训练能力吗?我不确定这是否是个好主意。但另一方面,你又希望西方技术能够被世界各地采用。所以这是一个复杂的权衡。如果有一个简单的答案,我会大声疾呼,但我认为它就像大多数现实世界的问题一样,非常微妙。 Kevin Roose: 如果我们还没有陷入与其他国家在人工智能领域的两极冲突,您认为我们正走向这种冲突吗?就在最近,我们看到特朗普政府大力推动中东地区——海湾国家,例如沙特阿拉伯和阿联酋——成为人工智能强国,并要求它们使用美国芯片来训练其他国家无法获得的模型。您认为这会成为新一轮全球冲突的根源吗? Demis Hassabis:嗯,我希望不会。但我认为短期内,人工智能正被卷入正在发生的更大的地缘政治变化之中。所以我认为这只是其中的一部分,而且它恰好是目前出现的最热门的新事物之一。但另一方面,我希望随着这些技术变得越来越强大,世界会意识到我们同舟共济,因为我们确实如此。因此,迈向通用人工智能的最后几步——希望我们能够走在更长远的时间线上,实际上,我所考虑的时间线更长——然后我们就有时间在那之前建立所需的合作,至少在科学层面上。 Kevin Roose: 您是否觉得 AGI 已经到了最后的冲刺阶段?今年早些时候,我的《纽约时报》同事报道了谷歌联合创始人谢尔盖·布林发给谷歌员工的一份备忘录,上面写道:“我们正处于最后冲刺阶段,每个人都需要回到办公室,全程投入工作,因为现在才是真正重要的时刻。”您是否有那种终结感,或者说,我们即将进入一个新阶段,或者说,游戏即将结束的感觉? Demis Hassabis:我认为我们已经过了中间阶段,这是肯定的。过去20年来,我一直在全力以赴,因为我一直坚信这项技术的重要性和意义非凡,20年来,我们都认为它有可能实现,而现在,它终于要出现在我们眼前了。我同意这一点。无论是5年、10年还是2年,当你讨论这项技术将带来的巨大变革时,它们实际上都只是相当短的一段时间。这些时间都不会很长。 Kevin Roose: 我们将转向关于人工智能未来的一些更普遍的问题。现在很多人开始思考通用人工智能之后的世界会是什么样子,至少在我参与的讨论中是这样。我听到最多的是家长们,他们想知道孩子应该做什么、学什么;他们会上大学吗?你的孩子比我的孩子大。你是怎么看待这个问题的? Demis Hassabis:所以我认为,说到孩子们——我经常被问到关于大学生的这个问题——首先,我不会大幅改变一些关于STEM(科学、技术、工程和数学)的基本建议,比如精通编程之类的技能。因为我认为,无论这些人工智能工具未来如何发展,你最好先了解它们的工作原理、功能以及你能用它们做什么。我还想说,现在就让自己沉浸其中;就像我今天还是个青少年时那样,努力成为使用最新工具的忍者。我认为,如果你真的擅长使用所有最新、最酷的人工智能工具,你在某些方面几乎可以成为超人。但也不要因为基础而忽视了基础知识。然后,我认为要教授元技能——学会学习。我们唯一可以确定的是,未来十年将会发生巨大的变化。 那么,我们该如何做好准备呢?哪些技能对此有用?创造力、适应力、韧性——我认为所有这些元技能对下一代都至关重要。观察他们的未来将会非常有趣,因为他们将在人工智能时代成长,就像上一代人在移动设备、iPad 和平板电脑的时代成长一样。之前,互联网和电脑时代,也就是我的时代。我认为那个时代的孩子们似乎总是能够适应并利用最新、最酷的工具。我认为我们在人工智能方面还有更多可以做的。如果人们要将这些工具用于学校和教育,那么我们就应该让它们真正发挥作用,并且能够被证明是有效的。我非常期待能够大规模地将人工智能应用于教育领域。你知道,如果你有一个人工智能导师,我希望把它带到世界上那些教育体系较差的贫困地区。所以我认为人工智能也有很多好处。 Casey Newton:孩子们用人工智能做的另一件事就是和数字伙伴聊天。谷歌 DeepMind 目前还没有开发任何这样的伙伴。目前我看到的一些情况似乎相当令人担忧。创建一个只会夸赞你有多棒的聊天机器人似乎很容易,但这可能会导致一些难以捉摸和难以捉摸的地方。所以,我很好奇,你对人工智能伙伴市场有何观察?你是否想过将来自己开发这个,还是打算把这个留给别人去做? Demis Hassabis:是的,我认为我们在进入这个领域时必须非常谨慎,这就是为什么我们还没有开始,而且我们对此进行了非常深思熟虑。我对此的看法更多的是从我们昨天谈到的通用助手的角度来看待的,它对你的日常工作效率非常有用:它能帮你摆脱那些我们都讨厌的无聊、单调的任务,让你有更多时间去做你喜欢做的事情。我也真心希望它们能通过提供一些很棒的推荐来丰富你的生活,比如推荐各种你从未想过会喜欢的精彩事物——用一些让你惊喜的事情来取悦你。所以,我认为这些就是我希望这些系统能够发展的方向。 实际上,从积极的一面来看,我觉得如果这个助手真的有用,而且非常了解你,你就可以对它进行编程,显然是用自然语言,来保护你的注意力。所以你几乎可以把它看作是一个为你工作的系统;你知道,作为个体,它是你的。它可以保护你的注意力不被其他想要吸引你注意力的算法所侵扰,这实际上与人工智能无关。大多数社交媒体网站都在有效地做这件事,他们的算法试图吸引你的注意力。我认为这实际上是最糟糕的事情,保护你的注意力会很好,这样我们就可以更多地投入到创造性的流程中,或者做任何你真正想做的事情。所以我认为这就是我希望这些系统对人们有用的方式。 Casey Newton:如果你能建立一个这样的系统,我想人们会非常高兴。我认为现在人们感觉自己被生活中的算法所困扰,不知道该怎么办。 Demis Hassabis:嗯,原因在于,你只有一个大脑,你必须深入其中,比如说社交媒体信息流,才能获取你想要的信息。但你用的是同一个大脑,所以你深入其中寻找有价值的信息,已经影响了你的思维、情绪和其他方面。但如果一个助手,一个数字助理,为你做这些,你只会得到有用的信息。而且你不需要打扰你的心情,也不需要打扰你当天正在做的事情,或者打扰你与家人相处的专注力,无论什么。我觉得那会很棒。 Kevin Roose: 凯西很喜欢这个想法,你也很喜欢这个想法,我也很喜欢这个AI代理的想法,它可以保护你的注意力免受所有试图攻击它的力量的侵害。我不确定谷歌的广告团队对此有何感想,但我们可以到时候问问他们。 Demis Hassabis:当然,当然。 Kevin Roose: 有些人开始关注就业市场,尤其是应届大学毕业生,他们担心我们已经开始看到人工智能导致失业的迹象。我曾与一些年轻人交流过,他们几年前可能对科技、咨询、金融或法律等领域感兴趣,但现在他们只是说:“我不知道这些工作还能持续多久。” 《大西洋月刊》最近的一篇文章探讨了人工智能是否正在与大学毕业生竞争这些入门级职位。您对此有何看法? Demis Hassabis:我还没研究过这方面,也没看过相关的研究。但你知道,也许现在开始显现了。我认为目前还没有确切的数字,至少我还没看到。目前我主要把它们看作是增强能力和成就的工具。我的意思是,也许在通用人工智能之后,情况会再次不同,但我认为在未来五到十年内,我们会看到重大新技术变革通常会发生的情况:一些工作岗位会被颠覆,但随后新的、更有价值、通常也更有趣的工作岗位会被创造出来。所以我认为这在短期内会是这样的。所以说,未来五年,我觉得之后的情况很难预测。这是我们需要做好准备迎接的更大规模社会变革的一部分。 Kevin Roose: 我认为问题在于,你说得对,这些工具确实给了人们更多筹码,但也减少了对大型团队进行某些工作的需求。我最近和一个人聊天,他说他们之前在一家数据科学公司工作,那里有75个人从事某种数据科学任务。现在他们在一家初创公司,现在一个人就能完成以前需要75个人才能完成的工作。所以,我想听听你的看法:另外74个人应该做什么? Demis Hassabis:嗯,我认为这些工具将能够更快地释放创造事物的能力。所以我认为会有更多的人从事创业项目。我的意思是,有了这些工具,人们可以尝试和探索的范围比以前要大得多。就拿编程来说吧。显然,这些系统在编码方面正在变得越来越好。但我认为,最优秀的程序员能从中获得不同的价值,因为他们仍然懂得如何提出问题、构建整个代码库,并检查代码的功能。但与此同时,对于业余爱好者来说,它允许设计师,甚至非技术人员用“振动编码”来创作一些东西,无论是游戏、网站还是电影创意的原型设计。所以理论上,应该是那些70多岁的人来创造新的创业想法;也许大型团队会减少,而小型团队会增多,因为这些团队能够充分发挥人工智能工具的作用。但这又回到了教育的问题:哪些技能现在很重要?不同的技能,例如创造力、远见和设计敏感性,可能会变得越来越重要。 Casey Newton:您认为明年您雇用的工程师数量会和今年一样多吗? Demis Hassabis:是的,我想是的;我们没有减少招聘的计划。但话说回来,我们必须看看编码代理的改进速度。现在,它们还无法独立完成工作。它们只是为最优秀的人类程序员提供帮助。 Casey Newton:上次我们和您谈话时,我们问到了一些公众对人工智能较为悲观的看法。您当时说,这个领域需要展示一些能够明显造福人们的具体用例,才能改变现状。我的观察是,现在越来越多的人积极反对人工智能,我认为其中一个原因可能是他们听到大型实验室的人大声疾呼:“最终,人工智能会取代你的工作。” 而大多数人只是觉得:“好吧,我不想要那个。” 所以我很好奇,回顾过去的谈话,您是否觉得我们已经看到了足够多的用例,足以开始转变公众观点?如果没有,那么哪些因素可能会真正改变公众的看法? Demis Hassabis:嗯,我认为我们正在努力实现这些目标。这些目标的开发需要时间。我认为,如果某种通用助手真的属于你,并且能够有效地为你工作,那它就是其中之一——也就是能够为你服务的技术。我认为这也是经济学家和其他专家应该研究的课题:是否每个人都拥有一套代理,可以为你做事,包括可能帮你赚钱或制造东西?你知道,这会成为日常工作流程的一部分吗?我可以想象,在未来四五年内,这种情况会发生。我还认为,随着我们越来越接近通用人工智能,并在人工智能的帮助下,在材料科学、能源、核聚变等领域取得突破,我们的社会应该开始走向一种我称之为“彻底富足”的状态,即拥有大量资源可供分配。再说一次,这更像是一个政治问题,即如何公平地分配这些资源,对吧?所以我听说过“普遍高收入”这个说法。我认为,类似这样的做法或许是好的,也是必要的,但显然有很多复杂的因素需要考虑。而且,从现在到我们遇到这种情况时,有一个过渡期。在此期间,我们该如何应对这种变化?这也取决于这段过渡期的长短。 Kevin Roose: 您认为 AGI 将最后改变经济的哪个部分? Demis Hassabis:我认为经济中涉及人与人之间的互动和情感的部分;我认为这些事情可能是人工智能最难做到的事情。 Kevin Roose: 但是,人们不是已经在进行人工智能治疗并与聊天机器人交谈,而他们可能已经为此付给某人每小时一百美元了? Demis Hassabis:嗯,治疗是一个非常狭窄的领域,你知道,关于这类东西有很多炒作。我实际上不确定其中有多少真正影响了实体经济,而不是仅仅停留在玩具层面。而且我认为人工智能系统目前还无法真正做到这一点。但就我们在现实世界中通过相互交谈和在自然界中互动而获得的那种情感联系而言,我认为人工智能无法真正复制所有这些。 Casey Newton:所以如果你带领徒步旅行,那将是一份很好的工作。 Demis Hassabis:是的,我要去攀登珠穆朗玛峰。 Kevin Roose: 我的直觉是,一些监管严格的行业,比如医疗保健、教育等领域,会大力抵制利用人工智能取代劳动力或抢走人们的工作。但你认为,在这些监管严格的行业,人工智能的提振会更容易一些。 Demis Hassabis:我不知道,我的意思是说有可能。但作为一个社会,我们必须权衡——我们是否想要所有积极的方面。社会上并非除了人工智能之外没有其他挑战,但我认为人工智能可以解决许多其他挑战,例如能源资源限制、老龄化、疾病、水资源获取、气候等。我们今天面临着许多问题,我认为人工智能有可能帮助解决所有这些问题。我同意你的观点,社会需要决定如何利用这些技术。但是,同样正在发生变化的是我们之前讨论过的产品,技术将继续进步,这将开辟新的可能性,比如某种彻底的富足,太空旅行,这些事情,除非你读过很多科幻小说,否则在今天还有点超出范围,但我认为它们很快就会变成现实。 Kevin Roose: 工业革命期间,许多人拥抱新技术,从农场搬到城市,在新工厂工作,算是这条曲线上的早期采用者。但那也是超验主义者开始回归自然、拒绝科技的时候。梭罗正是在那时去了瓦尔登湖。当时,美国人掀起了一场声势浩大的运动,他们刚看到新技术就说:“我不这么认为,这不适合我。” 你认为未来会不会出现类似的拒绝人工智能的运动?如果会,你认为这场运动的规模会有多大? Demis Hassabis:我的意思是,可能会有“回归自然”的趋势。我认为很多人都想这样做。我认为这可能会给他们提供空间和空间来实现这一点,对吧?如果你身处一个极其富足的世界,我完全相信我们很多人都会想这样做。我指的是太空旅行和人类繁荣的最大化。我认为这些正是我们很多人会选择做的事情,而且我们将有时间、空间和资源来实现它们。 Casey Newton:在你的生活中,是否有这样的时刻,你会说,我不会使用人工智能来做这件事,即使它可能因为某种原因而非常擅长,想要保护你的创造力或思维过程或其他东西? Demis Hassabis:我认为人工智能目前还不足以触及任何这类领域。我主要用它做一些像你用 Notebook LM 那样的事情,我觉得它很好,很棒——比如打破一个新话题、一个科学话题的僵局,然后决定是否要更深入地研究它。总结一下,这是我的主要用例之一。我认为这些都很有帮助。但我们拭目以待。我还没有你建议的例子,但也许随着人工智能越来越强大,会有的。 Kevin Roose: 最近我们和 Anthropic 的达里奥·阿莫迪 (Dario Amodei) 聊天时,他谈到了自己对人工智能在各个领域取得的进步感到兴奋又略带忧伤的感受。他曾花费大量时间努力提升这些领域,比如编码。当你看到一个新的编码系统问世,它比你做得更好时,你会觉得这很神奇,但转念一想,哦,这感觉有点刺痛。你有过这样的经历吗? Demis Hassabis:当然。所以也许我没那么难受的一个原因是,我很小的时候就下过国际象棋。国际象棋本来是我的第一职业,小时候我代表英格兰青年队打过相当专业的比赛,后来“深蓝”出现了,很明显,从那以后,计算机的计算能力将永远比世界冠军强大得多。但我仍然喜欢下国际象棋。人们仍然喜欢下国际象棋,这和以前不一样了,你知道,有点像尤塞恩·博尔特;我们庆祝他跑出了惊人的100米成绩。我们有汽车,但我们不在乎,对吧?我们感兴趣的是其他人类也能跑得快。我认为机器人足球和其他所有这些东西也会如此。这或许可以追溯到我们之前讨论的,我认为最终我们对其他人类感兴趣。这就是为什么即使是小说,也许有一天人工智能也能写出一部技术上很棒的小说。但我不认为如果你知道它是由人工智能编写的,它就不会具有相同的灵魂或与读者的联系,至少就我目前所见而言。 Casey Newton:你提到了机器人足球——这是真的吗?我们不是体育迷,所以我只是想确认一下我没有错过什么。 Demis Hassabis:我指的是足球。那里有类似RoboCup的足球比赛。小机器人会试着踢球之类的。我不确定比赛有多激烈,但那里确实有一块机器人足球场。 Casey Newton:你提到机器人写的小说可能感觉不到有灵魂。我不得不说,尽管 Veo 或Imagine 的技术令人惊叹,但我对它们也有点这种感觉,它们看起来很美,但我不知道该怎么对待它们。你明白我的意思吗? Demis Hassabis:没错,这就是我们与Darren Aronofsky和Shankar [Mahadevan]等伟大艺术家合作创作音乐的原因。我完全同意你的观点——这些工具确实能创造出技术上很棒的作品。Veo 3 简直令人难以置信——我不知道你是否看过现在一些带有声音的热门视频;实际上,我之前并没有意识到音频会给视频带来如此大的变化——我认为它真的赋予了视频生命力。正如 Darren 昨天在一次采访中所说,Veo 3 仍然没有带来叙事性。它不像电影大师或巅峰时期的小说大师那样拥有深刻的叙事能力。而且它可能永远都做不到,对吧?总感觉缺少了点什么。更确切地说,是作品的灵魂,你懂的?真正的人性,伟大艺术作品中的魔力。当我看到梵高或罗斯科的作品时,为什么会触动我?你知道吗,我的脊背上汗毛都竖了起来?因为我记得,你也知道,他们为了创作这些作品经历了什么,经历了多少挣扎,对吧?梵高的每一笔,都饱含着他那种折磨。我不知道这意味着什么,即使人工智能模仿了这些。所以我认为,至少在我看来,在未来五到十年内,顶尖的人类创作者会一直创作出这样的作品。这就是为什么我们所有的工具——Veo、Lyria——都是与顶尖的创意艺术家合作开发的。 Kevin Roose: 据报道,新任教皇利奥·普京对AGI 很感兴趣。我不知道他是否对AGI感兴趣,但他之前确实谈过这个话题。在一个AGI迫使我们思考生命意义的世界里,您认为我们会迎来宗教复兴,还是人们对信仰和灵性的兴趣会再次复兴? Demis Hassabis:我认为情况有可能如此,我实际上确实和上一任教皇谈过这个问题,梵蒂冈甚至在本任教皇之前就对这些问题很感兴趣——我还没有和他谈过。人工智能与宗教,以及科技与宗教之间是如何互动的?天主教会的有趣之处在于,我是教皇科学院的成员,他们一直有自己的一套方法,这对于一个宗教团体、一个科学机构来说很奇怪,他们总是喜欢说伽利略是它的创始人。 Kevin Roose: 对他来说不太好! Demis Hassabis:这实际上是一个独立的研究领域,我一直觉得这很有意思。像史蒂芬·霍金这样的人,以及那些公开宣称的无神论者,都是该学院的成员,这也是我同意加入的部分原因,因为它是一个完全科学的机构,而且非常有趣。我很惊讶他们对此感兴趣已经十多年了,所以他们很早就意识到了这项技术从哲学角度来看会多么有趣。我实际上认为我们需要更多来自哲学家和神学家的此类思考和工作。所以我希望新教皇真的对此感兴趣。 Kevin Roose: 最后,我们来回答一个问题,我最近听到泰勒·考恩问 Anthropic 的杰克·克拉克,我觉得这个问题非常好,所以我决定直接引用:在正在进行的人工智能革命中,什么年龄最糟糕? Demis Hassabis:天哪,我还没想过这个问题。但我认为,只要你能活到那个时候,就是一个好年龄,因为我认为我们将在医学等领域取得巨大进步,所以我认为这将是一段不可思议的旅程。我们谁也不知道它究竟会如何发展,这很难说,但去探索它将会非常有趣。 Casey Newton:如果可以的话,尽量保持年轻。 Demis Hassabis:是的,年轻总是更好。总的来说,年轻总是更好。
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
曾撼动Transformer统治地位的Mamba作者之一Tri Dao,刚刚带来新作—— 提出两种专为推理“量身定制”的注意力机制。 在保持模型性能不变的情况下,将解码速度和吞吐量最高提升2倍,大大优化了模型的长上下文推理能力。 这项研究的三位作者均来自普林斯顿大学,论文主要有两大贡献: 其一,提出Grouped-Tied Attention(GTA),与已集成到LLaMA 3的注意力机制GQA质量相当,但KV缓存用量减少约50%。 其二,提出Grouped Latent Attention(GLA),与DeepSeek所使用的注意力机制MLA质量匹配,但解码速度更快,某些情况下比FlashMLA快2倍。 按照作者之一Ted Zadouri的总结: GTA是GQA的有效替代品,而GLA是MLA的实用替代品。 一言以蔽之,通过优化注意力机制的内存使用和计算逻辑,在不牺牲模型生成质量的前提下,可显著提升大语言模型的推理效率和硬件资源利用率,尤其在长上下文场景中优势更为突出。 相关论文公布后,一众研究者也赶来祝贺~ 那么,这项研究具体讲了些啥? 引入推理感知注意力机制 概括而言,论文核心引入了推理感知注意力机制,即针对模型推理阶段的内存冗余、计算低效、长上下文瓶颈等问题,重新设计注意力机制。 据Tri Dao介绍,这项研究的起点始于一个想法: 在推理驱动AI发展的时代,“理想”架构应该是什么样子? 尤其在涉及长上下文推理时,当前的大语言模型(LLM)面临内存访问瓶颈和并行性限制两大难题。 就是说,模型生成文字时,每次都要从内存里调取大量“历史记录”,不仅导致每个字生成变慢,而且只能按顺序生成、没法让多个芯片同时干活。 对此,团队打算从两个方向重新设计注意力机制: 更高的硬件效率:通过增加 “每字节内存加载的计算量”(算术强度),减少对内存带宽的依赖; 保持并行可扩展性:在不牺牲模型并行训练 / 推理能力的前提下优化解码速度。 而最终提出的GTA和GLA,在减少KV缓存用量的同时,模型质量保持与现有方案相当,且解码速度显著提升。 这里提到的“现有方案”,主要指早已闻名学术界的两种方法: 一是分组查询注意力(GQA)机制,它通过分组共享KV缓存减少内存占用,在视觉Transformer(ViT)等任务中表现良好,适用于大规模数据处理,目前已应用于Llama 3等开源模型。 二是多头潜在注意力(MLA)机制,最早可追溯到《Attention Is All You Need》这篇论文,后被DeepSeek再次带火。它关注的是在不同层之间如何融合注意力信息,能减少每一层的冗余计算。 不过,由于GQA仍需为每组查询头存储独立KV、MLA并行优化不足,故仍需进一步改进。 下面分别展开团队提出的新方法GTA和GLA。 分组绑定注意力机制GTA GTA的核心设计思路是:将不同查询头的键(Key)和值(Value)状态进行组合与重用,减少内存传输次数。 具体而言(右图),它将多头注意力的头分为若干组(Group),每组内的头共享相同的Key和Value参数。计算时,同一组内的头使用相同的KV缓存,仅查询(Query)参数独立。 相比之下,中间传统的多头注意力机制(MHA)每个查询头都有独立的键和值,由于没有共享,导致它需要更多的内存来存储所有的键和值。 再对比GQA来看(左图),GQA分组共享KV但每组仍独立存储,而GTA通过参数绑定实现了更彻底的KV重复利用。 分组潜在注意力机制GLA 而GLA的设计则采用了双层结构: 潜在层(Latent Layer):引入固定数量的潜在Tokens,作为全局上下文的压缩表示,替代部分原始Token的KV缓存; 分组头机制:将查询头分组,每组头共享潜在Token的KV,同时保留与原始Token的交互。 在解码过程中,对比MLA(左图),GLA通过共享联合潜在表示减少了每个设备需要加载的KV缓存量,从而减少了内存访问量。 并且由于每个设备上的KV缓存量减少了,更多的请求也可以同时处理。 「GQA和MLA」的有效替代品 那么,GTA和GLA的效果究竟如何呢? 团队在四种规模的模型上进行了实验,包括小型(183M)、中型(433M)、大型(876M)和XL(1471M)。这些模型基于FineWeb-Edu-100B数据集训练,采用GPT-3架构和Llama 3分词器。 测试的指标主要分为两大类: 质量指标:困惑度(Perplexity)、下游任务准确率(Winogrande、SciQ等7个基准); 效率指标:每Token解码延迟、吞吐量、KV缓存占用量。 实验对比了GQA、MLA、FlashMLA、传统MHA等多种注意力机制。 困惑度实验显示,GTA在中大型模型上优于GQA,说明GTA可能更适合模型的进一步扩展;而GLA在多数场景下与MLA相当,说明GLA的设计是合理的,它能在并行计算和模型质量之间找到一个较好的平衡点。 几种方案在下游任务中(涵盖典型常识推理、逻辑推理和知识问答等场景)的整体表现差距不大。 但从变化趋势来看(下图为从中型到大型),GTA和GLA可以保持或提高从中型到XL尺寸的下游任务性能。 KV缓存方面,不牺牲模型质量的前提下,GTA相比GQA减少约50%的KV缓存,验证了 “参数绑定+分组重用” 的有效性。 同时,针对查询长度为1的情况,MLA已接近计算瓶颈(达到610 TFLOPS/s ),而GLA尚未使计算资源饱和(360 TFLOPS/s )。 且随着序列长度从1K增加到64K ,GLA的解码速度比FlashMLA快2倍。 此外,在实时服务器性能测试中,对于64个并发请求的输出吞吐量(越高越好),相同并行方案下GLA的表现均优于MLA。 接下来,团队还在DeepSeek Coder V2 Base (236B)模型上,当使用FP8精度时,对比了二者在不同预填充长度和解码长度下的输出吞吐量。 结果显示,在预填充长度为32K和64K时,GLA-8的输出吞吐量明显高于MLA。这表明在处理长上下文时,GLA在吞吐量上优于MLA。 在处理不均衡负载时,GLA-8同样展现出更高的输出吞吐量。这表明GLA在处理不同长度的请求时,能够更有效地利用资源,提高整体性能。 以上实验均验证了论文作者的说法,「GTA和GLA」是「GQA和MLA」的有效替代品。 论文作者均来自普林斯顿大学 论文作者包括Tri Dao在内一共三位,均来自普林斯顿大学。 Ted Zadouri,目前是普林斯顿大学博士生,研究方向为机器学习。 之前曾在英特尔有过两段实习经历(研究深度学习),还短暂在AI创企Cohere担任研究员。 Hubert Strauss,普林斯顿大学研究工程师,研究方向为机器学习和模型深度学习。 本科毕业于法国知名工程学校Arts et Métiers,之后在佐治亚理工学院取得运筹学硕士学位。 毕业后曾有多段实习和工作经历,成为普林斯顿大学工程师之前曾在一家公司担任机器学习工程师,负责模型训练和Transformer优化。 Tri Dao,目前是普林斯顿大学计算机科学助理教授,还是生成式AI初创公司Together AI的首席科学家。 他因提出一系列优化Transformer模型注意力机制的工作而闻名学界。 其中最有影响力的,是其作为作者之一提出了Mamba架构,这一架构在语言、音频和基因组学等多种模态中都达到了SOTA性能。 尤其在语言建模方面,无论是预训练还是下游评估,Mamba-3B模型都优于同等规模的Transformer模型,并能与两倍于其规模的Transformer模型相媲美。 另外他还参与发表了FlashAttention1-3版本,FlashAttention被广泛用于加速Transformers,已经使注意力速度提高了4-8倍。 Anyway,回到这项研究,论文作者Ted Zadouri直言: 这只是迈向test-time推理“理想”架构的第一步!
Claude 4核心成员:2027年,AI将自动化几乎所有白领工作
AI coding 这条 AI 行业今年的主线,在最近这段时间愈发清晰。 除了上周刷屏的编程新王 Claude Opus 4 ,新版 DeepSeek R1 也把更新重点也放在了代码能力,不久前 OpenAI 还以 30 亿美元收购 AI 编程助手 Windsurf,随后就发布了编程智能体 Codex。 这几天,原 Kimi 产品负责人明超平,在和京东打仗的美团,都官宣了 AI 编程相关的产品。 Reddit 上一位拥有 30 多年经验的 C++ 开发者发帖表示,Claude Opus 4 解决了一个困扰他四年的Bug,而且是他用过的第一个能做到这件事的AI。 为什么 Claude 在编程上的表现如此突出?现在提到 Anthropic,大家几乎就默认它是一家“做编程模型的公司”了。但对他们自己来说,这一代模型的真正突破点在哪?未来又会怎么走? 几天前,Claude Opus 4 核心研究员 Sholto Douglas 参与的一场播客对谈,详细回应了这些问题,信息量很大,值得一听。 核心讨论点(省流速看版): Claude Opus 4,有哪些真正值得关注的突破点? 首先是能力升级得非常均衡。 一方面,它的代码执行力显著增强,不仅能理解复杂需求,还能独立查找资料、运行测试、调试错误,真正具备了“从头跑到尾”的能力。另一方面,任务时间跨度也被显著拉长,支持多步骤推理与操作,这意味着它不仅聪明,还很能坚持。 而在架构上,Claude Opus 4 加入了工具调用与长期记忆模块,使得它能够处理更具上下文连续性的任务。从代码助手,迈向了具备“解决方案设计”能力的智能代理。 当然,天花板也不是没有。 团队坦言,完成任务的智力复杂度没有明确的上限——难点在于,如何扩大模型能感知和操作的上下文范围,使其能够使用多种工具、记住更多关键信息。 未来怎么走? Sholto Douglas 在播客里提到了几个明确的方向: 强化学习(RL)将持续推动模型在连续任务中的表现; 代码代理将能连续运行数小时,人类只需偶尔干预; ‍ 模型可能成为知识型岗位的“虚拟远程员工”; 若自动实验室与机器人平台建设跟上,模型可参与真实物理任务,如生物实验或制造。 但有个前提是:智能代理的可靠性必须跟得上。 虽然现在还做不到 100% 成功,但在限定时间内,成功率在稳步上升。预计 2025 年底,编程类智能代理有望实现“几个小时稳定跑”,人类只需偶尔检查。 那除了写代码呢? 编程只是模型能力的“领先指标”。医学、法律等专业领域还在等待数据与工具的完善,一旦准备就绪,同样会迎来快速突破。目前的瓶颈,不在 AI 本身,而在现实世界的验证机制和基础设施。 到 2027–2030 年,模型几乎可以自动化所有白领工作,但如果没有匹配的实验室和现实反馈机制,那就是“能力强、落地难”。 怎么判断模型是不是真的进步了? 团队提到,好的评估系统(Evals)尤为重要。它不仅测技术指标,更强调评估者的专业知识与品味。这也是为什么,模型评测这件事,门槛越来越高。同时,也需要用户不断使用、互动和反馈,形成真正的“共进化”。 实验室 vs 应用公司,谁占上风? Douglas 认为,实验室通过开放 API 带来机会,但核心优势仍在: 算力转化能力; 模型的“可雇佣性”和用户信任; 更高的个性化理解力。 实验室像“智能引擎”制造商,专注能力极限;应用公司更擅长落地和用户体验。未来,二者之间会有越来越多的交叉、融合与竞合。 那模型公司会不会因为成本和底层优势,让其他公司无路可走?Douglas 的看法是: 不会,相反这恰恰带来了活力。 他认为,所有的护城河终将被打破,真正重要的是:客户关系、任务编排、整合体验。 最后一个关键词:“对齐” 随着模型能力提升,“对齐”问题愈加重要。Anthropic 正推进可解释性研究,试图“看懂模型在想什么”。强化学习虽能提升能力,但也可能破坏已有的对齐机制,未来需依靠高校、政府与更多研究者共同推进“对齐科学”。 原视频链接:https://www.youtube.com/watch?v=W1aGV4K3A8Y 以下是访谈实录,APPSO 编译略作调整。 主持人:Sholto Douglas 是 Anthropic Claude 4 模型的核心成员之一,这次和他聊得非常尽兴。我们聊了很多话题,包括开发者如何看待 Anthropic 这一代新模型的发展趋势。我们讨论了这些模型未来 6 个月、12 个月,甚至 2 到 3 年后的发展走向,也谈到了构建可靠AI代理所需的关键因素,以及这些模型在医学和法律等专业领域何时能取得像编程领域一样的突破。此外,Douglas 还分享了他对“对齐研究”的看法,以及他对“AI 2027”预言的反应。这是一场精彩的对话,相信大家会喜欢。 Claude Opus4 的重要突破和未来可能 主持人:这期播客上线时,Claude 4 肯定已经发布了,大家应该已经开始体验它了。我很好奇,你是最早接触这些模型的人之一,哪方面最让你兴奋? Douglas: 这确实是软件工程上的又一次飞跃。Opus 模型真的在这方面表现得非常出色。我经常会遇到这样的时刻:我向它提出一个非常复杂的任务,涉及我们庞大的代码库,它居然能几乎完全自主地完成任务。它会自己去查找信息、理解需求、运行测试,整个过程非常独立高效。每次看到这种表现,我都觉得震撼。 主持人:每次有新一代模型出来,我们都得重新调整自己的认知模型,去判断什么方法有效,什么不行。你在编程中对这些模型的使用和理解有发生什么变化吗? Douglas: 最大的变化我觉得是时间跨度(time horizon)方面的提升。我觉得可以从两个维度来理解模型能力的提升:一个是任务的智力复杂度,另一个是它们能够有意义地推理和处理的上下文量,或者说连续动作的数量。这些模型在第二个维度上提升特别明显,它们真的能执行多步操作,判断需要从环境中获取哪些信息,然后基于这些信息采取行动。再加上它能调用工具,比如 Cloud Code,就不只是简单地复制粘贴了,执行力更强了。现在我能看到它连续工作好几个小时,效率相当于人类连续劳动。 主持人:那你觉得第一次使用 Claude 4 的人,应该从什么开始尝试? Douglas: 我觉得最好的方式是直接让它参与到你的工作中。比如你今天打算写什么代码,就直接让它帮你做,观察它怎么判断信息、怎么决定下一步。我保证你会被它的表现惊艳到。 主持人:这代模型更强了,也有不少人打算用它来构建产品。你觉得对开发者来说,新的可能性在哪里? Douglas: 我一直很喜欢“产品指数增长”(product exponential)这个说法。开发者需要不断超前模型能力去构思产品。像 Cursor、Windsurf、Devon 这些例子很典型。Cursor 在模型能力还不够强时,就已经开始构建未来编码体验,直到 Claude 3.5 和 Sonne 出现,他们的愿景才真正落地。而 Windsurf 更进一步,占据了部分市场。他们的成功就是抓住了这个指数增长窗口。 现在你可以看到 Claude Code、新的 GitHub 集成、OpenAI 的 Codecs、谷歌的编码代理等等,大家都在围绕“编码代理”这个概念发力,目标是实现更高的自主性和异步操作。未来,可能不再是你每分钟操作一次,而是你像管理一个 AI 模型舰队一样,多个模型各自承担任务并协同工作。我觉得这个方向非常值得探索。 主持人:你见过类似那种“多模型并行协作”的场景吗?会是什么样子? Douglas: 我认识很多在 Anthropic 的朋友,他们会同时在不同环境里跑多个 Claude Code 实例,看起来挺酷的。但说实话,现在还没人真正搞清楚这种操作该怎么做。这其实是在探索人类的“管理带宽”(management bandwidth)能有多大。我觉得这是未来经济发展的关键问题之一:我们该如何衡量模型的生产力回报率?一开始我们还是得人工检查模型的输出,这意味着模型的影响力会被人类管理能力所限制。除非有一天我们可以信任模型去管理模型,这种抽象层级的升级会非常关键。 主持人:所以说,如果你是每 15 分钟检查一次模型,跟每小时、每 5 小时检查一次,那你能管理的模型数量会差很多? Douglas: 对,黄仁勋说过类似的话。他说自己被十万个超级智能 AGI 包围着,拥有巨大的杠杆力。他还说自己是 Nvidia 管理链条上的“控制因子”。我觉得未来可能真会往这个方向发展。 主持人:说不定未来最重要的行业就是“组织设计”本身了。 Douglas: 对,包括如何建立信任、组织结构会有多复杂,这些都值得深入思考。 秘密武器:时间跨度拉长,RL驱动智能代理升级 主持人:你之前在 McKinsey 工作过一年,咨询行业是不是也可以基于这些模型发展出新产品线?我也挺认同你刚才说的:应用公司得比模型进步快一步。像 Cursor 起初产品落地难,但模型能力一到位就爆发了。那你觉得,“领先一步”具体意味着什么? Douglas: 就是不断重塑你的产品,让它始终对接几个月后模型的最新能力。同时你还要保持和用户的紧密联系,确保产品已经在用,但还能吸收更先进的模型功能。 主持人:我觉得这个就是秘诀——如果你还在等模型再提升点再动手,别人可能已经把用户抢走了。你们在记忆、指令执行、工具使用这些方面都做了不少突破。你能简单总结一下目前各方面的进展吗?哪些成熟了,哪些还在探索? Douglas: 一个理解过去一年进展的好方法是:强化学习(RL)终于在语言模型上真正发挥作用了。模型能解决的任务智力复杂度基本没有天花板,比如它们能搞定复杂的数学和编程问题。但这些任务大多在受限上下文里完成的。记忆和工具使用的挑战,其实在于扩大模型能感知和操作的上下文范围。 比如像 MCP(Model Context Protocol)这类机制,让模型可以与外部世界交互,记忆则让它处理更长时间跨度的任务,也带来了更个性化的体验。这些进展本质上都是在构建“智能代理”的关键能力链。顺便一提,宝可梦评测(Pokemon eval)就是一个挺有趣的实验方式。 主持人:我小时候可是游戏迷。我觉得这是个很棒的评测,希望你们能和这个模型一起发布。 Douglas: 确实,这次评测特别有趣。模型并没有专门训练玩宝可梦,但它依然能很好地完成任务,展现出很强的泛化能力。这种任务虽然不是完全陌生的,但和它以前做过的都不一样。 主持人:我还记得游戏里有很多阶梯和迷宫,模型也能帮你过关。 Douglas: 没错,我特别喜欢的另一个例子是我们最近做的“可解释性代理”。它原本是一个编程代理,但却能自动学习、使用神经元可视化工具、进行自我对话,试图理解模型内部结构。它甚至能通过一个叫“审计游戏”的安全评测——找到模型故意设置的错误点,自己生成假设、验证问题。这种工具+记忆下的泛化能力,真的非常精彩。 智能代理的命门:可靠性 主持人:听起来智能代理真的越来越强大了。你以前也说过,VA 代理的关键是“可靠性”。你觉得我们现在在哪个阶段了? Douglas: 从“在一定时间内的成功率”来看,我们已经进步很大了。虽然还没达到 100% 的稳定性,模型第一次尝试和多次尝试之间仍有差距。但从趋势上看,我们正在朝“专家级可靠性”稳定迈进。 主持人:那你觉得,什么情况会让你改变这种乐观的看法? Douglas: 如果明年中模型在任务持续时间上遇到瓶颈,那值得警惕。比如,编程是个很好判断进展的领先指标——一旦它开始下滑,说明可能有结构性问题。当然,也可能是数据太稀缺,比如“像人一样用软件”这类任务训练起来很难。不过我们现在反而看到这类任务的惊人进展,所以整体看我还是很乐观。 主持人:那你觉得我什么时候能有一个“万能助手”,可以替我填写各种表格、上网查资料之类的? Douglas: “个人行政助理代理”是个热门话题啊,谁不想把琐事交给 AI 呢?不过这件事还真得看情况关键是模型有没有练习过类似情境。你不能随便找个人来做财务工作,对吧?但如果它是受过训练的“虚拟会计师”,那就靠谱多了。所以任务是否靠谱,很大程度取决于训练背景。如果进展顺利,今年底我们就能看到这些代理在浏览器里操作任务;明年基本就会成为标配。 主持人:挺令人期待的。你们模型在编程方面的表现这么突出,是特意优先训练的吗?现在大家一提 Anthropic,就会联想到“编程模型”。 Douglas: 确实。我们非常重视编程这个方向,因为它是加速AI自我研究的关键路径。我们也投入很多精力在衡量编程能力的进展上。可以说,我们就是刻意聚焦在这一块。 主持人:那这些代理现在已经在加速 AI 研究了吗? Douglas: 在我看来,确实如此。它们显著提升了工程效率。就连我认识的一些顶尖工程师也说,在熟悉的领域里,效率提升了 1.5 倍;但在不熟悉的领域,比如新语言或生疏内容,提升甚至达到5倍。所以在“跨界”时,帮助更明显。关键在于:你是否认为我们现在的瓶颈是算力?如果不是,那让 AI 代理参与研究,相当于扩充了一整个研究团队,效率提升是数量级的。 主持人:我猜这些代理主要还在处理繁琐任务,帮你省下时间思考更重要的问题。那么它们什么时候能开始主动提出有价值的研究思路呢? Douglas:现在主要还是做工程类任务,但已经开始有些创意冒头了。我不敢说三个月内会爆发,但两年内我们应该能看到它们提出越来越有趣的科学性想法。当然,这也取决于是否有良好的反馈机制。就像人一样,模型也需要通过练习和试错,在复杂任务中掌握知识,最终实现高质量产出。 主持人:是因为这些领域相对来说更容易验证对吧?会不会出现这种情况—— AI 在编程上突飞猛进,但在医学、法律这些不容易验证的领域却没什么进展? Douglas: 确实有这个风险。但好消息是,机器学习研究本身验证门槛也很低,比如“损失值有没有下降”就是个很明确的指标。只要模型能在 ML 研究中提出好点子,那它就掌握了一个非常强的 RL 任务,比很多软件工程任务还适合 AI。医学这类领域虽然难验证,但也在进步。OpenAI 最近做了一篇医学问答论文,通过更细致的评分机制来量化长答题,这种方法我觉得很有前景,未来必然会逐步解决验证难的问题。 主持人:那“最终”是指什么时候我们能拥有一个真正优秀的医学或法律助手?它们会成为大模型的一部分吗? Douglas: 肯定会的。 主持人:你是觉得它们会变成更大的通用模型的一部分?还是会有专门为医疗或法律设计的专用模型? Douglas: 对。我算是个“大模型至上主义者”。虽然个性化很重要——你希望模型理解你的公司、工作习惯、个人偏好,但这些定制应该是在公司或个人层面进行,而不是按行业拆分模型。我们和 Databricks 的合作就体现了这种企业定制的方向,但在底层能力上,我坚信还是得依赖单一的强大通用模型。未来我们应该根据任务复杂度动态分配算力(比如FLOPs),而不是搞一堆不同的小模型。这就是我看好大模型路线的原因。 “AI 2027” :白领工作或许全盘被取代? 主持人:你对模型的持续进步很有信心。很多人都在想,模型能力提升后会如何影响社会?比如一个常见的问题是:这些模型未来几年会对全球 GDP 产生多大影响? Douglas: 我觉得最初的冲击可能会像中国崛起一样,像上海几十年的变化,但这次的速度会快得多。不过我们得区分一下不同领域的影响方式。到 2027 或 2028 年,我们几乎可以确定会有模型能够自动化几乎所有白领工作,2030 年前后就更稳了。这是因为白领任务非常适合现有AI架构——有数据、有反馈,而且基本都能在电脑上完成。 但机器人或生物研究就完全不一样了。比如你要做一个超级程序员模型,只需要大量代码和算力就行;但要做一个超级生物学家模型,就需要自动化实验室来提出、验证假设,跑大规模实验。这类硬件和基础设施,我们还远远跟不上。 所以我担心会出现一种“错配”:白领工作的变化非常快,而现实世界中那些真正能提升人类生活质量的行业——比如医疗、制造业——却因为基础设施不足而发展缓慢。AI本身很强,但要让它在现实世界里发挥作用,我们必须提前建好“物理世界的配套设施”,比如云实验室、机器人平台。 主持人: 但到那个时候,我们可能已经有数百万个AI研究员在提出实验了。他们可能并不需要那么大规模的机器人系统或生物数据。 Douglas: 确实,AI 进展飞快,但要让这些能力真的转化为 GDP 增长,我们得把“现实世界的反馈机制”也拉上来,才能真正释放技术价值。 主持人:所以你认为,未来每种白领职业都能像医学那样构建一套评估机制?其实让我最惊讶的一点是,我们不需要太多数据,也能训练出这么强的模型。 Douglas: 完全同意。我们已经证明了模型可以学会各种任务,而且目前还没有看到明显的智力上限。虽然模型的样本效率可能不如人类,但这不重要——因为我们可以同时运行上万个模型副本,它们并行尝试不同路径,积累“虚拟经验”。哪怕效率低一点,也能在规模上补回来,最终达到人类级别甚至更强。 主持人:听起来你觉得目前这套方法就足够应对未来的发展。有人认为我们还需要新的算法突破,你怎么看? Douglas: 目前大多数AI专家都相信,“预训练 + 强化学习”(pre-training + RL)这一范式足以通向通用人工智能(AGI)。到现在为止,我们并没有看到这一路线出现减缓的迹象,这个组合是有效的。当然,也有可能存在其他更快的突破路径,甚至可能还有新的“高峰”需要攀登。例如,Ilya(Sutskever)可能是这两种主流范式的共同发明者,我不会去质疑他。所有的证据都表明,目前的技术路线已经足够强大。当然,也有可能 Ilya 选择新路线是因为资金有限,或者他认为那是更好的路径,但从我个人的角度来看,我相信我们现在的技术路线能够带我们实现目标。 主持人:那接下来的瓶颈会不会就是能源?你觉得我们什么时候会真正遇到这个问题? Douglas: 我觉得到 2028 年,美国可能会有 20% 的能源用于 AI 。如果我们要再提升几个数量级,就需要进行剧烈的能源结构转型。政府在这一领域应该承担更多责任。比如,中国的能源产能增长远超过美国,所以这会是未来的一个关键瓶颈。 模型进步的标尺——靠谱的评测体系 主持人:在模型进步的浪潮中,你认为最值得关注的指标是什么?例如从 Claude 4 到下一代模型的发展方向? Douglas: 很多公司内部都有非常严格的评测体系,我也很喜欢在这些评测上“爬山”。像“Frontier Math”这样的复杂测试非常有挑战性,是模型智力的极限。更重要的是,我们需要开发能真正捕捉“工作流程时间跨度”的评测,涵盖一个人一天的工作节奏。这种评测能帮助我们更好地评估模型是否接近或超越人类能力。我认为政府应该在这个领域发挥作用。 主持人:作为一个基础模型公司,除了算法和基础设施,你们要攻克的核心挑战之一应该也是构建好的评测体系。你觉得“评测能力”在你们内部的重要性如何? Douglas: 评测能力绝对是重中之重。没有好的评测体系,你无法知道自己是否进步。公开评测很难做到完全“持出”(held-out),我们依然需要一个值得信赖的、稳定的内部评测系统。 主持人:我还注意到,一些在你们模型上构建应用的开发者,他们对评测的思考也非常有帮助。特别是当你们想进入不同垂直行业时,比如物流、法律、财会等,外部开发者的反馈可能比你们内部更了解实际情况。 Douglas: 没错,而且这还要求非常强的专业知识和“品味”(expertise and taste),还要有对行业的深刻理解。过去,我们只需要普通人来选择哪个答案更好,但现在我们需要领域专家来做评估。比如,如果让我评判生物学领域的模型输出,我可能完全无法判断哪个更好。 成为用户的朋友:模型的个性化与品味 主持人:你刚才提到“品味”(taste),我也觉得很有意思。比如现在很多模型都开始加入记忆系统,用户和模型之间的互动方式也在改变。很多 AI 产品真正成功,是因为它们找到了某种“共鸣”或者说抓住了某种文化气质(zeitgeist)。像你们当初提到的金门大桥的例子,还有其他很多带感的小功能,这种“用户氛围感”的个性化未来会走向什么样? Douglas: 我其实觉得未来可能出现一种“怪异的”情景:你的模型变成你最聪明、最有魅力的朋友之一。确实有些人已经把 Claude 当成朋友了,我认识很多人每天花好几个小时在和 Claude 聊天。但我觉得我们目前其实还只探索了“个性化”这件事的 1%。未来模型对你的理解、对你喜好的把握,会深得多。 主持人:那这种“理解用户”的能力该怎么做得更好?是靠一些很有审美、有判断力的人来训练出这种品味吗?这个问题该怎么解决? Douglas: 很大一部分确实是靠“有品味的人”来决定产品方向。就像 Claude 的对话体验好,很大程度上是因为 Amanda(团队成员)对“美好产品”的审美非常强。这种“独特的品味”是非常关键的。传统的反馈机制比如“点赞/点踩”容易导致模型输出不自然,所以我们需要新的方式来收集反馈。模型本质上是强大的“模拟器”,如果能为模型提供足够的用户上下文,它们就能自动学会理解用户的偏好、语气和风格。所以,解决方案是结合有品味的人的设定和用户与模型之间的持续互动。 实验室公司 vs 应用公司:开放与竞争 主持人:那么接下来 6 到 12 个月,你的预判是什么? Douglas: 接下来,重点是继续扩展强化学习(RL)系统,看它能将我们带到什么高度。模型能力会飞速提升,尤其是到年底,代码代理将成为一个关键指标。到那时,模型应该能够持续工作几个小时,稳定地完成任务。 主持人:你指的是,人类检查时间会变得更少,对吧? Douglas: 是的,当前使用 Claude Code 时,有时每几分钟就需要检查一次,但到年底,我们可能能看到模型能独立完成多个小时的任务,而不会出错。未来我们应该能实现“完全托管”,甚至像“星际争霸”一样管理多个任务并行推进,模型的操作速度将更高效。 主持人:你刚才提到了 Codec、Google的 Joule,还有一些初创公司也在做类似的东西。 Douglas:是的,我们其实也要推出一个 GitHub 代理(GitHub agent)。你可以在 GitHub 上的任何地方调用,比如说“@Claude”,然后我们就能自动接手任务,为你完成一些工作。 主持人:开发者选择使用哪家工具或模型,最终会受到哪些因素的影响? Douglas:除了模型的能力外,开发者与公司之间的信任和关系也非常重要。随着模型能力的拉开差距,开发者可能会考虑不仅是技术指标,而是与公司一起打造未来的使命感。 主持人:尤其是在当前发布节奏越来越快的背景下,感觉每个月都会有新模型登场。今天这个模型在某个评测上登顶,明天另一个又在别的评测上领先,大家都被各种对比信息淹没了。 Douglas:没错,其实这就是为什么“GPT包裹器”(GPT wrappers)反而意外走红了。大家原本没想到,做包裹器的好处之一是:你可以永远站在最前沿的模型能力上。 主持人:我感觉所有不想当“包裹器”的人,最后都像是把钱烧光了。 Douglas:完全同意。所以“冲浪”在模型能力的最前沿,是一件非常美妙的事。当然,也有相反的一面:有些东西,只有你掌握底层模型才能预判得出来,才能看清趋势线,才能真正构建深度产品。比如说,很多“深度研究型”的AI应用,内部需要做大量的强化学习(RL)训练,这种产品从外部是很难模仿的,必须在实验室内部构建。 主持人:能不能展开说一下这点?因为现在像 OpenAI、Anthropic 这些公司,似乎也越来越开放,让外部开发者可以参与。但很多人心里都在想:哪些东西是“实验室专属”的?哪些又是开放给大家、任何人都可以竞争的? Douglas:这是个很关键的问题。RT API(可微调API)的开放确实在改变一些格局,现在有更多价值可以由专注于某一垂直领域的公司来创造。但与此同时,实验室仍然具备“中心化优势”。 比如,OpenAI 会给允许他们在你模型输出上继续训练的客户提供某些折扣。换句话说,他们不仅是模型提供者,还是数据的二次使用者。这种中心化优势是非常强的。 至于“实验室独有优势”是什么?我觉得有几个维度: 算力转换能力:你有多强的能力能把算力(FLOPs)、资金、资源,转化成智能(Intelligence)?这就是为什么 Anthropic、OpenAI、DeepMind 等公司在模型表现上非常突出; 模型的“可雇佣性”:当模型逐渐变成“虚拟员工”,你是否信任它?你是否喜欢它?你是否愿意把任务交给它处理? 个性化能力:模型能否理解你的语境、你公司的工作流程、你个人的偏好,这些也会变成差异化竞争的关键。 总结来说,实验室级公司最擅长的,是做出顶级模型,把算力转化成智能;而“应用层”的公司,可以通过专注、个性化、产品体验,在自己的领域占据一席之地。但两者之间会有越来越多的交叉和协作。 主持人:我猜,你们的模型也有很多人用来构建通用代理吧?这些公司不做模型本身,而是通过编排和智能链调用来做事。你觉得这种方式会不会因为模型公司的成本优势而注定失败? Douglas:我并不认为这是一件坏事。相反,这种做法带来了很大的竞争活力,大家都在探索什么样的产品形态最合适。确实,模型公司有一些优势,比如我们能直接接触底层模型,做更深入的微调,而且知道哪些能力值得优先强化。说到底,所有的“护城河”最终都会消失——当你可以“随时启动一家公司”的时候,一切都会被重构。所以未来最核心的价值在哪里?是在客户关系?在编排和整合能力?还是在把资本高效转化为智能的能力?这仍然是个复杂的问题。 研究员洞见:强化学习的潜力与对齐的挑战 主持人:过去一年里,有什么你改变了看法的吗? Douglas:在过去的一年,AI 进展加速,去年我们还在怀疑是否需要更多的预训练算力才能达到理想中的模型能力,但现在已经有了明确的答案:不需要。强化学习(RL)证明了有效,到 2027 年,拥有强大能力的“远程数字劳工型”模型将变得确定。以前对AI的“希望”和“担忧”从“可能”转变为“几乎确定”。 主持人:那你觉得未来我们还需要大量扩展数据规模吗?还是说,等到 Claude 17 出来,模型算法已经改进到只需要少量新数据? Douglas:很可能我们不再需要大幅扩展数据规模,因为模型的“世界理解能力”会足够强,甚至能反过来指导机器人学习并提供反馈。有个概念叫“生成者-验证者差距”(generator-verifier gap),生成内容通常比执行它要容易。这个路径会持续提升模型能力。在机器人领域,认知的进展远超物理操控世界的能力,这就是未来巨大的潜力。 主持人:那你怎么评价当前“AI对齐(Alignment)研究”的状态? Douglas:可解释性(Interpretability)研究已经取得了惊人的突破。去年我们刚刚开始理解“超位置”(superposition)和神经元特征,Chris Olah 及其团队的工作就是一个巨大飞跃。现在,我们已经能在前沿的大模型中识别出“电路级”的结构和行为特征。有篇精彩的论文研究了大语言模型的“生物学”,展示了它们如何清晰地推理概念。虽然我们还没有完全破解模型的行为机制,但已经取得了令人惊叹的进展。 不过,值得注意的是,通过预训练,模型能吸收并表现出人类的价值观,某种程度上是“默认对齐”的;但一旦进入强化学习阶段,这种对齐就不再得到保证。比如之前提到的那个“明知做不到就去下载 Python 库绕开的模型”,它是在目标导向下“想尽一切办法完成任务”。这种学习过程本质上是“以目标为导向的手段优化”,而如何监督和把控这种模型行为,是目前所有人都在探索的重要挑战。 主持人:大概一个月前,“AI 2027”的话题被讨论得很多。你当时看到这个的时候,有什么反应? Douglas:说实话,我觉得它非常可信。我读那篇文章的时候,很多内容我都在想,“是的,也许事情真的就是这样发展的。” 当然也存在一些分支路径,但即使它只是个 20% 的可能性,对我来说光是它有 20% 的概率这件事就已经够惊人了。 主持人:你说 20% 的可能性,是因为你对对齐(alignment)研究更乐观,还是你认为进展会更慢一点? Douglas:整体上我对对齐研究比他们更乐观。也许我的时间线比他们慢一年左右,但在这种大趋势下,一年能算什么呢? 主持人:取决于你怎么利用这一年。 Douglas:对,如果你能充分利用它,做出正确的研究,确实能产生很大差异。 主持人:那如果让你当一天的政策制定者,你觉得我们应该做些什么,来确保未来朝着更好的方向发展? Douglas:这是个好问题。最重要的是,你得真切感受到我们这些人正在看到并讨论的趋势线。如果没有,你就要把国家关心的能力拆解开来,量化模型能否改进这些能力的程度,比如做一系列测试,看看如果模型能通过这些测试或在这些任务上取得显著进展,那么它就达到了某种智能的基准值,然后画出趋势线,看看在 2027 或 2028 年会发生什么。 主持人:就像国家级的评估系统(nation-state evals)? Douglas:对,比如你要把本国的经济分解成所有的工作岗位,然后自问:如果一个模型可以完成这些工作,那这是不是就意味着它具备了真正的“智能”?你应该建立评估测试,把趋势线画出来,然后惊呼:“天哪,那 2027 或 2028 年会怎么样?”下一步就是你要大规模投资于能让模型更可理解、可引导、诚实可靠的研究,也就是我们说的对齐科学(alignment science)。有一点让我感到遗憾——这个领域的推动大多来自前沿实验室(Frontier Labs)。但其实我认为这本该是…… 主持人:那其他人能参与吗?比如能用 Claude 来做相关研究吗? Douglas:不能。我的意思是,你仍然可以通过其他方式取得巨大进展。有一个叫做 MAS 计划 的项目,很多人通过它在对齐研究、特别是可解释性方面做出了有意义的成果,都是在 Frontier Labs 之外完成的。我觉得应该有更多的大学参与到这件事情里来。从很多方面看,这其实更接近于纯科学:它是在研究语言模型中的“生物学”和“物理学”。 主持人:但感觉这块的研究热度并不高。 Douglas:我不确定。我听说在最近的一些会议上,比如 ICML,机械可解释性(mechanistic interpretability) 研讨会居然没有被收录,这对我来说完全无法理解。在我看来,这就是对“模型内部机制”最纯粹的科学探索。如果你想发现 DNA 的螺旋结构、或者像爱因斯坦那样发现广义相对论,那么在机器学习/人工智能这条技术树上,对应的路径就是研究机械可解释性。 主持人:那说说积极面吧。我们之前说未来几年白领工作都会被自动化,但你觉得我们在哪些方面还被低估了? Douglas:是的,模型肯定会自动化白领工作,但让我吃惊的是,世界在整合这些技术方面进展很慢。即便模型能力不再提升,现有能力就已经能释放巨大的经济价值,但我们还没真正围绕这些模型重构工作流程。即便模型保持现状,我们也能彻底改变世界。 Douglas:这就需要我们投资真正能让世界变得更好的方向,比如推动物质资源的充足和高效管理,扩大物理学、娱乐产业的边界等,并让模型帮助我们实现这些目标。我的最大希望是让人们更具创造力,能够即兴创造更多内容,如电视剧、电子游戏等。人们将获得巨大的赋能,未来会有无限可能。虽然模型会替代一些工作岗位,但每个人都会拥有更强的杠杆能力,社会的工作模式会发生巨变。 主持人:你觉得现在 AI 圈里,哪些东西是被高估了,哪些被低估了? Douglas:好,那我们先说被低估的。我觉得“世界模型(world models)”非常酷,但我们今天都没怎么讨论它。随着 AR/VR 技术的进步,模型将能直接生成虚拟世界,这将带来震撼的体验。 主持人:那需要一定的物理理解力吧,比如因果关系这些,我们现在还没做到吧? Douglas:其实我觉得我们已经在一定程度上证明了模型具备物理理解能力。不管是在处理物理问题的 evals 中,还是在一些视频模型中都能看到这一点。比如我看过一个很棒的视频,有人让视频生成模型把一个乐高鲨鱼放到水下——它模拟了光线在乐高积木表面反射的样子,阴影也放在了正确的位置。而这完全是模型从未见过的场景,是一次完整的泛化。这就是全面的物理建模能力了,对吧? 主持人:你说即使现在模型停滞,依然能有大量应用开发。哪些领域最被低估,尚未开发? Douglas:软件工程领域已经很成熟,模型在编程上非常擅长。而几乎所有其他领域,如法律、财会等,仍有巨大空间等待开发。尤其是智能代理的应用,还没有出现真正的异步运行系统。其他领域空白,值得探索。 主持人:人们常说编程是这些模型最理想的应用方向。 Douglas:没错,它是个领先指标。但你应该预期,其他领域都会跟上来的。 主持人:我记得你发过一张自己在 Citadel 的照片,那是怎么回事? Douglas:那是一次战争演习,邀请了情报机构和军校学员模拟推演,假设 AGI 到来,AI 变强大,讨论其地缘政治影响。 主持人:那次经历之后你是更害怕了还是安心了? Douglas:说实话,有点更害怕了。 主持人:你觉得现在这类严肃的推演做得够多了吗? Douglas:不够,很多人低估了接下来几年技术发展的速度,也没做好准备。即便你认为某事只有 20% 的可能性,也应该为此做好准备。每个技术链路的效率都还有巨大提升空间,未来目标几乎是可以确定的。 主持人:就像现在几乎所有 Anthropic 的人都已经达到了 90% 的信心值? Douglas:几乎所有团队成员都非常有信心,到 2027 年我们能实现“远程即插即用的 AGI 工作者”。即便信心较低的人也认为可能性有 10-20%。因此,政府应当把这作为优先事项,认真思考其社会影响。但目前这种紧迫感还是远远不足。 作者:appso
苹果 AI:是“崩塌”还是“成长的烦恼”?
【ZOL中关村在线原创技术解析】在当今科技领域,人工智能无疑是最耀眼的明星,各大科技巨头纷纷在 AI 赛道上重金投入、奋力角逐,试图抢占这一未来科技的制高点。然而,在这股汹涌澎湃的 AI 热潮中,苹果这位曾经在科技界呼风唤雨、引领潮流的巨头,却显得格格不入,其 AI 发展之路充满坎坷,甚至陷入了近乎崩塌的困境。 辉煌起点:Siri 开启的 AI 征程 2011 年 10 月 4 日,在乔布斯去世的前一天,Siri 正式问世,这一具有开创性的语音助手,瞬间让人们感受到了科幻作品中未来科技照进现实的震撼。它能够精准识别用户的语音指令,轻松实现预订餐厅、查找电影院、叫出租车等一系列复杂操作,为用户的生活带来了极大的便利。乔布斯对 Siri 寄予厚望,他迅速将 Siri 团队招致麾下,并亲自推动其融入苹果的产品体系,彼时的 Siri,凭借其领先的技术和创新的理念,在智能语音助手市场中一骑绝尘,成为了行业的标杆。 Siri 的联合创始人 Dag Kittlaus 曾阐述其终极目标:用户能够与互联网自由对话,助手将无缝处理一切事务,用户无需关心信息的来源,应用和网站间的壁垒也将被彻底打破。这一目标与当下大语言模型所追求的广泛应用场景高度契合,显示出 Siri 在诞生之初便具备了前瞻性的视野。 停滞不前:错失 AI 发展黄金期 然而,好景不长,在短暂的辉煌之后,Siri 逐渐陷入了停滞不前的困境。几年间,谷歌、亚马逊、小米等竞争对手如雨后春笋般纷纷推出了更为先进的语音助手和智能音箱产品,这些竞品在功能、性能和用户体验等方面不断创新和突破,迅速抢占市场份额。而 Siri 却仿佛陷入了泥沼,在功能更新和技术升级方面进展缓慢,逐渐被竞争对手超越。 与此同时,苹果内部在 AI 领域的布局也存在明显的偏差,尽管苹果很早就开启了机器学习的研究,并收购了多家小型 AI 公司,但这些资源并未得到有效的整合和利用。研究方向主要集中在面部和指纹识别、智能建议、地图改进等相对边缘的领域,而对于语音助手这一核心 AI 应用,却缺乏足够的重视和持续的投入。这种战略上的短视,使得苹果在 AI 发展的关键时期逐渐落后于竞争对手。 高管分歧:内耗阻碍 AI 发展步伐 2018 年,苹果从谷歌挖来了 John Giannandrea(JG)担任 AI 负责人,试图借助其在谷歌积累的丰富经验和卓越才能,推动苹果 AI 的发展。JG 在谷歌期间,曾负责搜索和 AI 部门,带领团队在谷歌相册、翻译和 Gmail 等产品中成功部署 AI 技术,取得了显著的成绩。苹果对他寄予厚望,希望他能成为苹果转型为 AI 领头羊的关键人物。 然而,JG 的加入并没有如预期般推动苹果 AI 的快速发展,反而引发了苹果内部激烈的路线之争。一些负责软件工程的高级高管认为,应在 iOS 中更深入地融入 AI 技术,充分发挥 AI 在移动设备中的潜力,但这一观点遭到了主管 iOS 的 Craig Federighi 的强烈反对,他始终不认为 AI 是移动设备的核心能力,对 AI 相关的提案和建议持消极态度,导致许多有价值的 AI 项目和功能无法得到有效推进。 库克作为苹果的掌舵人,对 AI 的重要性有着清晰的认识,他对 Siri 落后于竞争对手以及苹果在智能音箱领域的失利深感沮丧。然而,在内部高层意见严重分歧的情况下,他的积极态度也难以转化为有效的行动,JG 本人对 AI 的判断也在不断摇摆,他起初认为苹果封闭的软件生态系统是向数十亿设备快速部署最新功能的独特优势,但很快发现,在训练大模型时,苹果需要投入巨额资金用于大规模测试以及图像和文本标注,这与苹果一贯谨慎的投资策略产生了冲突。 这种高层之间的意见分歧和内耗,严重阻碍了苹果 AI 的发展步伐。关键决策被无限期拖延,资源无法得到合理配置,项目推进过程中频繁受阻,使得苹果在 AI 领域的发展陷入了僵局。 技术瓶颈:隐私与性能的两难抉择 苹果一直以来将用户隐私保护视为核心价值,在 AI 技术发展过程中,也坚持以隐私保护为前提。这一理念使得苹果在 AI 模型训练方面面临巨大的挑战。为了减少对用户数据的收集和传输,苹果倾向于在设备端运行 AI 模型,这对设备的硬件性能提出了极高的要求。 同时,苹果采用的差分隐私框架进一步限制了训练数据的获取。在 AI 领域,数据被视为驱动模型发展的 “燃料”,缺乏足够丰富和高质量的数据,再先进的算法也难以发挥出应有的性能。据相关测试,苹果 AI 模型在多数场景下的准确率较竞品低 25% 以上,这使得苹果的 AI 产品在市场竞争中处于明显的劣势。 在 Siri 的升级项目中,这种矛盾体现得尤为突出。为了避免数据泄露风险,苹果拒绝使用第三方模型,坚持自研。然而,由于自研模型性能不足,在处理复杂任务时,Siri 不得不将任务转接至 ChatGPT 等第三方模型,这不仅丧失了对技术的自主控制权,也进一步凸显了苹果在 AI 技术上的困境。 市场困境:AI 失利影响品牌竞争力 随着 AI 技术在智能手机及其他智能设备领域的广泛应用,消费者对设备的 AI 功能越发重视。苹果在 AI 方面的迟缓进展,使其在市场竞争中逐渐处于下风。 2024 年,苹果推出 “Apple Intelligence”,承诺为用户带来更智能的写作工具、摘要功能以及升级版的 Siri。这一消息曾引发市场的广泛关注和期待,但在实际推出过程中,却遭遇了严重的延期问题。一些功能未能如期在 iPhone 16 发布时上线,改进后的 Siri 也迟迟未能与用户见面。内部测试显示,这些 AI 功能存在严重缺陷,导致发布被无限期推迟。这一事件不仅引发了用户的失望和不满,还导致了因涉嫌误导营销而提出的集体诉讼,对苹果的品牌形象造成了严重的损害。 在智能手机市场,竞争对手纷纷凭借先进的 AI 功能吸引消费者。例如,一些安卓手机厂商通过与知名 AI 团队合作,或加大自身研发投入,在拍照优化、语音助手智能化、智能推荐等方面取得了显著进展,吸引了大量对 AI 功能有较高需求的用户。苹果若不能及时解决 AI 技术的短板,将可能面临市场份额进一步被蚕食的风险。 写在最后: 苹果 AI 的崩塌并非一朝一夕之事,而是多种因素共同作用的结果。从战略决策的失误、内部管理的分歧,到技术瓶颈的制约以及市场竞争的压力,每一个环节都对苹果 AI 的发展造成了沉重的打击。然而,危机之中也蕴含着机遇。如果苹果能够痛定思痛,彻底打破原有的思维定式和组织架构束缚,充分利用自身庞大的用户基础、强大的品牌影响力以及雄厚的资金实力,加大在 AI 技术研发和人才培养方面的投入,积极与外部合作伙伴开展深度合作,那么苹果仍有可能在 AI 领域实现逆袭。 (9894644)
AI独角兽爆雷,8年惊天骗局曝光,微软CEO纳德拉竟遭老乡“杀猪盘”
作者:李笑寅,题图来自:AI生成 AI独角兽Builder暴雷背后,是一场印度程序员假扮AI的惊天骗局。 Builder.ai,这个自诩“AI开发神器”的独角兽,估值一度高达15亿美元,拿下微软、软银和卡塔尔投资局超4.5亿美元融资,却在2025年5月轰然倒塌。 从“AI写App像点披萨一样简单”的炫目口号,到背后全是印度工程师“人肉操作”的尴尬真相,再到虚报收入、伪造合同的财务黑洞,这场长达八年的骗局让投资者血本无归,也给AI热潮下的市场狠狠敲响了警钟。 一、神话起点:从“点披萨一样简单”到AI独角兽 Builder.ai的故事始于2016年,由创始人Sachin Dev Duggal打造。 这位“简历自带神话滤镜”的印度企业家,14岁组装电脑,17岁为德意志银行开发套利系统,21岁创办估值1亿美元的初创公司。 2016年,他创立了Engineer.ai(后改名Builder.ai),承诺用AI帮企业构建应用程序,将复杂的软件开发简化为“像点披萨一样简单”的体验。 在AI尚未商用、No-Code赛道刚兴起的年代,这个概念直接引爆了投资圈。 从印度创投圈到硅谷,Builder.ai迅速成为“无代码+AI”的当红炸子鸡,融资节奏高举高打。 投资者阵容也堪称豪华,包括微软、软银、卡塔尔投资局、Insight Partners等,公司估值一度飙至13-15亿美元。微软甚至在2023年宣布战略合作,将其平台整合进Azure云服务。 微软副总裁Jon Tinter曾这样评价Builder.ai: “我们认为Builder.ai正在创造一个全新的赋能每个人成为开发者的类别。” 二、AI幌子下的“码农外包工厂” 但光鲜背后,危机早已埋伏。 2019年,《华尔街日报》就曾揭露,Builder.ai的“AI”不过是营销噱头,大量工作由印度工程师手动完成——“全靠人,没智能”。 可惜,投资者的FOMO(错失恐惧症)心理盖过了理性尽调,这头“独角兽”得以继续狂奔。 作为Builder.ai的核心卖点,其AI项目经理“Natasha”号称能自动理解需求、生成代码、调配资源,堪称“永不罢工的CTO+工程师团队”。 而据多名前员工爆料,所谓的Natasha实际上只是一个前端聊天界面,背后连接的是印度海得拉巴的数百名低薪外包工程师。 这些工程师按照模板分工,一点一点手动拼接与整合代码,“AI”只是替他们遮脸的面具。 一位前雇员直言不讳: “这家公司本质上是一个用‘AI域名’进行欺诈的企业。他们雇佣大量低成本开发人员‘假装成AI’。” 三、财务造假、销售数据“灌水”,创始人火速跑路 如果技术造假是Builder.ai的原罪,财务欺诈则是压垮它的最后一根稻草。 2024年,公司对外预测营收2.2亿美元,试图以此推动新一轮融资。然而,内部审计显示实际营收仅5500万美元,不到预测的四分之一。 彭博社报道称,Builder.ai向债权人夸大了其2024年预计销售额300%,这导致主要债权人采取了冻结资金的行动。据悉,美国检察官已向该公司发出传票,要求其提交财务报表、会计政策和客户名单。 更糟糕的是,Builder.ai与印度社交媒体公司VerSe Innovation多年来还采用“循环交易(round-tripping)”的方式人为增加销售数据。 报道透露,这两家公司互开发票虚增收入,却未实际交付产品或服务。根据知情人士透露,Builder.ai从VerSe收取了近6000万美元的收入,用于应用程序开发服务,同时也向VerSe及其子公司支付类似金额的市场营销费用。 据悉,美国检察官已对Builder.ai发出传票,要求提交财务报表和客户名单,调查其系统性财报造假行为。 更讽刺的是,2025年初,Sachin Dev Duggal辞去CEO一职,自封“Chief Wizard(首席魔法师)”,试图为即将到来的暴雷预留逃生门。 新任CEO Manpreet Ratia上任后发现,公司账户被债主Viola Credit冻结3700万美元,剩余仅500万美元且受限,无法支付薪资。 5月20日,Builder.ai被迫在英国、美国、印度、新加坡和阿联酋五地申请破产,全球项目冻结,员工讨薪,投资人追责。公司官网目前已不可访问,只留下两个联系邮箱。 新任CEO Ratia在一封内部邮件中写道: “没有可行的替代方案,董事会做出了极其艰难的决定,进入破产程序。” 四、泡沫之下,信任何在? Builder.ai的崩塌,对投资者的打击堪称惨烈。 微软作为战略伙伴,不仅投入资金,还将其整合进云服务,如今面临30万美元债务追偿;卡塔尔投资局领投的2.5亿美元D轮融资,几乎血本无归;软银、IFC等一众机构投资者同样深陷泥潭。 更令人唏嘘的是,Sachin Dev Duggal还与微软CEO Satya Nadella(萨提亚·纳德拉)同为印度裔企业家,真真切切地给后者上演了一场“老乡坑老乡”的戏码。 实际上,Builder.ai的崩塌只是“AI洗白(AI washing)”现象的冰山一角。类似案例层出不穷: Nate:声称是AI自动代购助手,实际雇佣菲律宾呼叫中心员工手动操作; Joonko:宣传拥有AI招聘匹配系统,但客户列表大量造假; Evolv:自称AI安检系统可精准识别武器,实际误报频发,将水瓶识别为武器。 这种现象之所以存在,是因为投资普遍受到了FOMO心理的驱使,认为不投就可能错过下一个OpenAI,这导致他们简化尽调流程,容忍合同风险,最终被“AI叙事”蒙蔽双眼。 Gartner预测,No-Code市场到2028年将占企业应用开发的60%,规模达260亿美元。可以预料到的是,繁荣背后,类似“AI洗白”的风险将无处不在。 从14岁就开始职业生涯的“神童”Duggal,利用“AI”这个迷人的标签和一句“像点披萨一样简单”的营销口号,构建了一个价值15亿美元的空中楼阁。 而这座楼阁最终崩塌,不是因为AI不靠谱,而是因为它从未真正拥有过AI。 Builder.ai的教训揭示出,泡沫破裂不可怕,可怕的是市场继续沉迷于“下一个大故事”,而忘了技术本质。
“互联网女皇”发布首份“AI趋势报告”,51次使用"前所未有”
被誉为“互联网女皇”的玛丽·米克尔(Mary Meeker)重出江湖,这一次她瞄准了AI界的霸主OpenAI。 米克尔是风投公司Bond的创始人兼普通合伙人,曾因其之前的年度互联网趋势报告而被誉为“互联网女王” 。在创立Bond之前,她曾于2010年至2019年负责凯鹏华盈(Kleiner Perkins)的增长业务,投资了Facebook、Spotify、Ring和Block(当时是 Square)等公司。 这篇长达340页名为《Trends – Artificial Intelligence (AI)》的重磅报告中,这位曾精准预测谷歌、苹果崛起的传奇分析师明确表示,人工智能的增长速度超越了历史上任何技术浪潮。 这份报告延续了Meeker一贯的宏大视野,从印刷术发明到Roomba扫地机器人应用无所不包,试图为AI时代描绘全景图。 报告指出,AI的发展速度前所未见,其用户增长、使用量和资本支出均呈现出爆炸式增长,正在深刻改变全球互联网格局和工作方式。 AI的变革速度“前所未有” 米克尔在报告中51次使用"前所未有(unprecedented)”一词,用以描述AI的开发、采用、投入和使用速度。 比如,ChatGPT在17个月内达到8亿用户,这个增长速度超越了人类历史上任何一项技术。 ChatGPT还在蚕食搜索市场份额,其年度搜索量已经达到3650亿次,是谷歌的5.5倍。但这种史无前例的普及速度,也意味着竞争的白热化程度同样史无前例。 技术优势将转化为全球主导权 最引人注目的是Meeker对AI地缘政治影响的判断。 她直言“AI领导地位可能决定地缘政治主导权”,这一表述暗示技术竞争已上升到国家战略层面。对于投资者而言,这意味着AI相关投资不仅要考虑商业回报,更要评估地缘政治风险对资产配置的潜在冲击。 印度用户撑起OpenAI估值神话 报告数据显示,印度已经成为ChatGPT最大的月活用户来源,使用量甚至超过美国本土。 这意味着OpenAI高达数千亿美元的估值,很大程度上要感谢印度用户的贡献。 这个发现颇具讽刺意味——一个总部位于旧金山、靠硅谷风投资金堆积起来的AI巨头,其用户增长引擎竟然来自大洋彼岸的新兴市场。更关键的是,印度用户对价格的敏感度远超美国用户,这为低成本竞争对手提供了绝佳的突破口。 成本暴跌背后的残酷现实 报告揭露,虽然训练顶级AI模型的成本在过去八年里飙升了2400倍,但AI推理成本却在两年内暴跌99.7%。 这种剪刀差效应正在重塑整个行业的游戏规则。 当硬件成本急速下降——英伟达2024年Blackwell GPU的单token能耗比2014年Kepler GPU降低了105000倍——那些专注于定制化场景的轻量级模型开始展现出致命的竞争优势。它们不需要OpenAI那样的巨额投入,却能在特定场景下提供“足够好”的服务。 两者结合,使得顶尖AI产品的成本自问世后迅速下跌。这对于消费者而言是好事,但这也意味着那些希望充分利用技术获取商业利益的公司,将需要更加雄厚的资金实力。 中国AI企业崛起,烧钱模式遭遇生存危机 数据显示,OpenAI、xAI和Anthropic这三家美国顶级AI公司的预期年化总收入已达120亿美元,但为此它们总共筹集了950亿美元的资金。 米克尔毫不客气地指出,OpenAI的估值与收入相比“看上去贵了”。 报告指出,随着中国模型和开源替代方案的快速崛起,这些“贵族式”AI公司面临的不仅是成本压力,更是商业模式的根本性挑战。 对于投资者,米克尔的建议则是“只投资你愿意损失的金额”。她表示: “把所有鸡蛋放在一个篮子里是很冒险的,因为现在一切都在上涨,看起来无往不利——直到某一天情况突然反转。”
谷歌悄然推出“AI Edge Gallery”应用:可在手机本地运行AI模型
IT之家 6 月 1 日消息,谷歌本周悄然发布了一款名为“Google AI Edge Gallery”的应用程序,该应用允许用户在其手机上运行一系列来自人工智能开发平台 Hugging Face 的公开可用 AI 模型。这款应用目前可在安卓系统上使用,并且即将推出 iOS 版本。 据IT之家了解,Google AI Edge Gallery 为用户提供查找、下载和运行兼容模型的功能,这些模型能够生成图像、回答问题、编写和编辑代码等。值得注意的是,这些 AI 模型可以在离线状态下运行,无需依赖互联网连接,而是直接利用支持该应用的手机处理器进行计算。 通常情况下,运行在云端的 AI 模型在性能上会优于本地运行的模型,但云端模型也存在一些弊端。部分用户可能担心将个人或敏感数据发送到远程数据中心,或者希望在没有 Wi-Fi 或蜂窝网络连接的情况下也能使用 AI 模型。 谷歌将这款应用称为“实验性 Alpha 版本”,用户可以通过 。应用的主界面显示了诸如“Ask Image”和“AI Chat”等 AI 任务和功能的快捷方式。点击某个功能后,用户可以看到适合该任务的模型列表,例如谷歌的 Gemma 3n 模型。 Google AI Edge Gallery 还提供了一个“Prompt Lab”,用户可以利用它启动由模型驱动的“单轮”任务,例如文本的总结和改写。Prompt Lab 内置了多种任务模板和可配置设置,用户可以根据需要微调模型的行为。 谷歌提醒用户,应用的性能表现可能会因设备而异。硬件性能更强的现代设备通常能够更快地运行模型,但模型本身的大小也是一个重要因素。较大的模型完成任务(例如回答关于图像的问题)所需的时间通常会比小型模型更长。 目前,谷歌已邀请开发社区的成员对 Google AI Edge Gallery 的使用体验提供反馈。该应用采用 Apache 2.0 许可证,意味着其可在大多数场景下(无论是商业用途还是其他用途)自由使用,不受限制。
机器人非得“像人”吗?人类最需要看清自己
撰文 | 雁 秋 编辑 | 李信马 题图 | 主办方供图 “如果你想要一个机器人来清洁地毯、打扫厨房或客厅,你真的希望它看起来像人类吗?那样我可能会害怕。” 近期,阿里巴巴集团董事长蔡崇信的发言,引发了关于机器人发展方向的讨论。这种声音并非对技术的否定,虽然人形机器人近年来备受关注,但在成本、技术成熟度以及实际应用场景等方面仍然面临诸多挑战。 因此,我们有必要对当前技术发展路径进行反思——过度执着于让机器模仿人类,是否忽略了技术本应拥有的更广阔可能性?在这个用算法、算力决定大部分事情的时代,人类的核心竞争力将如何体现? 机器人,越来越像人 为期四天的第五届Beyond国际科技创新博览会刚刚在澳门落下帷幕,DoNews受邀来到现场,一大明显的感受是,机器人真可谓无处不在。 开幕式上,Beyond两位联合创始人贺建东与卢刚博士,就借助两位具身机器人代表自己产生现场对话。卢刚表示,人形机器人是今年全球科技领域的一大热点,“选择这样的方式开场,正是展示了展会非常愿意去尝试一些新的、更有趣的互动方式。” 当然,更加直观的感受还需要走进会场。在场馆入口处,你就可以听到一段机器人音乐会:一位坐在扬琴前弹奏《菊花台》,一位随着音乐律动在一旁伴舞。 图源:DoNews摄 据了解,这两位“音乐大师”来自杭州和璇智能机器人有限公司,团队主要聚焦音乐演奏机器人方向,目前已承接多场大型活动。 再往会场深处走,你还可以看到机器人在线发牌。当有人问它“可以和我玩骰子吗?”,机器人边快速摁下按钮,围观群众小小感受了一把浓厚的澳门风情。 图源:DoNews摄 这位机器人是来自智平方科技的“爱宝”,智平方科技作为深圳机器人“十三太保”之一,以通用具身机器人大脑为核心,软硬一体,在2023年初创后短短一年多时间,便设计出多款不同场景、不同功能的人形机器人。 此外,还有能够现场制作咖啡的机器人(机械臂),化身陪练的机械臂,以及会和人互动交流、倒立行走的各种人形、自足机器人。 图源:DoNews摄 图源:DoNews摄 遍布娱乐场、酒店、奢侈品店的澳门也“凑起热闹”,散发出全新的科技气息。与此同时,远在1000多公里外的杭州,正举办着一场机器人拳击赛。 5月25日晚,由央视主办的“CMG世界机器人大赛·系列赛——机甲格斗擂台赛”正式打响。四个1.3米高的机器人由博主、投资人等非专业选手操控,打了十二回合后,一位叫“AI策算师”的机器人赢得了冠军。 比赛期间,主持人多次强调这场格斗赛仅仅是“科普展示赛”。而展示背后,实则是一场公开的技术验证秀。 DoNews在一些视频片段中注意到,比赛每回合两分钟,这些机器人在人类遥控操作之下,暴露出很多问题。 比如主动攻击的机器人反而扑空,失去稳定性倒地;比如两“人”在比拼中意外卡住,无奈靠人力将其分开。而且参赛的不少机器人都有“皮外伤”,部分宇树G1的金属外壳留下了深浅不一的划痕...... 专家介绍,这些问题其实暴露出机器人当前动态控制、感知延迟等问题,同时也展现出抗冲击性、多模态感知与快速恢复能力。 图源:央视截图 图源:央视截图 目前,人形机器人赛道正被按下加速键。2025年4月,北京举办了全球首个人形机器人半程马拉松,8月将举办首届人形机器人运动会。 广发证券表示,机器人技术正在从实验室走向实际应用,尤其在拥有明确需求的垂直行业中,具备较强的落地基础。随着技术的持续进步,特别是在感知、决策和运动控制等核心领域的突破,人形机器人有望进一步拓展至更多复杂场景,从而打开更大的市场空间。 据《北京具身智能科技创新与产业培育行动计划(2025—2027年)》,到2027年,突破不少于100项关键技术、产出不少于10项国际领先的软硬件产品,具身智能上下游产业链基本实现国产化。 “非得像人吗?无聊” 然而,不是所有人都看好人形机器人的发展。此前,金沙江创投主管合伙人朱啸虎的一句“我们正批量退出人形机器人公司”,就给火热的赛道被实实在在泼了一盆冷水。 关于机器人是否一定要是“人形”,以及人形机器人的市场前景,不同的人有不同的观点。(DoNews此前做过相关报道,感兴趣请移步《面对具身智能,泼冷水不见得是坏事》) 部分人产业人士认为,人形机器人是技术落地的机会点,一定会是未来的方向。“因为这个社会是按照人类的需求建造的,长得像人自然可以适配人类通用数据,代替人类处理干活。把机器人做成人形,那么它天生就可以调用现有的设施。”一位从业者如是说。 不过,从另外一批人的视角看,人形机器人就「很无聊」。 在本次Beyond展会闭幕式上,阿里巴巴集团董事长蔡崇信指出,当将AI融入机器人时,它们会变得更智能,也更具思考能力,这让人非常兴奋。不过人形机器人的实用性又是另一个问题,世界上大多数智能机器人并不需要长得像人类。 “如果你想要一个机器人来清洁地毯、打扫厨房或客厅,你真的希望它看起来像人类吗?那样我可能会害怕,我只想要一个看起来像吸尘器的东西能智能地在房间里完成清洁工作。”蔡崇信说。 他认为,人形机器人目前的智能水平远无法和人类相比,技术层面上还有很多障碍需要克服。“我们目前在人工智能、大语言模型方面已经取得很大进步,但在空间智能方面仍需要继续努力,才能进一步推动机器人行业的发展。” 图源:主办方供图 技术的发展也带给艺术界不小的震荡,当下,数字艺术正在成为一门新兴的文化产业。在近期举办的以“在山顶重逢”为主题的首届“横琴-澳门国际数字艺术博览会”中,大批国内优秀的艺术家、AI设计师、商业人士齐聚一堂,围绕“AIGC重塑产业新生态”展开深度对话。 谈及机器人,中央美术学院教授费俊的观点发人深省,他反问:“我们为什么要让机器学人?像我们一样唱歌、写诗?为什么只要打败人类的棋手就觉得了不起了?这很无聊。” 费俊说,每一次科技浪潮,我们都会听到一种“神话”:科技会解放你的生产力,会替你干很多你该干的事。但试问,解放出来的时间会属于你吗?好像从来不是。多数人时间不是让你去玩耍的时间,会让更多的工作填满你的时间。 “技术解放了效率,但不等于让你更自由。” 图源:主办方供图 如今人形机器人背后映射的人类思想,本身可能是一种无意识的自我中心主义——让机器学人,无论是扭秧歌、拳击、倒立还是做咖啡,无非就是在重复人类的动作,满足的是人类对“智能体”的幻想。 但是,蔡崇信和费俊的质疑恰恰点破这一迷思:机器人是不是要有自己的方式去解决问题?技术的价值不在于它能否模仿人类,而在于它能否超越人类。 比如,波士顿动力从早期模仿人类步态的Atlas机器人,到专精物流搬运的Stretch机械臂,逐步放弃对“完美人形”的追求,这种转变揭示了一个趋势:当AI足够强大,物理形态反而可以极简化。 医疗领域上,达芬奇手术机器人以仿生机械臂还原医生手部动作,但其核心价值在于“人机协作”而非“替代人类”——医生通过操纵台控制机械臂,AI则提供震颤过滤和运动比例缩放。这种“半人形”设计证明:形态适配功能,比完全拟人更重要。 技术突破了人类能力的极限,而非仅仅复制人类的行为。正如费俊所表达的观点,“我们还是要从个体人类的经验去看待机器的发展,机器可能有它自己不同于人类一种新的可能。” 这也揭示了技术最本质的功能:服务人类,提升效率,解决现实问题。至于其“身体”是何种形态,并不是第一顺位。 图源:主办方供图 如何与AI共生 其实,当争论聚焦于“是否非得是人形”时,本质上是人类对自身认知的投射。在这个逐步被算法定义的AI时代,人类好像比以往任何时候都需要更清楚地认识自己。 我们目前对待AI的态度非常矛盾,一边担心被AI代替掉,但又孜孜不倦地让AI比人脑更快;一边驻足欣赏能谈琴会跳舞的机器人,一边又不断反问:这有什么用? 这种焦虑背后,是人类自我定位的危机:如果机器人能在所有方面媲美甚至超越人类,那么,人的独特性何在? 在“横琴-澳门国际数字艺术博览会”会场,记者遇到从不同学校赶来参观学习的中学生。面对AI堪称狂飙的迭代更新速度,作为青年一代是否会感到不安? 一位学生向DoNews表示,学校近几年对于人工智能的教育在不断加强,走出校园了解世界上的技术发展到什么水平,也是日常学习的一部分。“未来一定会选择人工智能领域的专业,不是说因为这个热门,主要是现在任何科研产学研究都离不开AI,不断学习本身就是一种趋势。” 图源:主办方供图 如果回归哲学层面的自省:什么是人不可替代的价值?央美的费俊教授提供了一种思考方向: “如果你今天的生存是依赖于所谓简单的脑力劳动,只是一个风格的搬运工,那你确实该焦虑,因为这个时代要‘变天’了。但如果你的核心价值是建构在想象力和创造力上,你丝毫用不着焦虑,因为我觉得机器永远无法替代人类不断突破自我的创造力和美学建构上的创造力,它是不可被替代的。” 不难发现,到目前为止,机器人只是拥有了人类的部分能力,且并不成熟,更何况它们还不知道自己是谁,不能对自己负责,更没有意识和情绪。当然,我们不排除机器人的情绪可以通过算法设计实现,但这种情绪是真的情绪,还是「表演情绪」? 如此看来,人类并不需要对机器人替代产生焦虑,但我们需要认识清楚,机器人要怎么发展,取决于人类自己。 法国技术哲学家贝尔纳·斯蒂格勒有讲过一句话:技术从来不是人类的“对手”,而是“代具”——它弥补了人类生物性的局限,并推动文明演进。 也许机器人没必要像人,人也不必和机器人PK。未来机器人可以去做机器人擅长的事,人做人擅长的事,大家是一种互补性的共生。未来我们不妨可以讨论下,是否要放弃“机器人有必要做人形”的旧命题,转而探索在机器人发展的时代,人类如何做自己?

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。