行业分类:
加载中...
头条分类:
加载中...
ChatGPT突然改版!奥特曼:IPO不着急
【新智元导读】GPT-5.6本月上桌,agentic编码据称已反超Anthropic Mythos!三家旗舰模型撞进同一个6月,两大AI巨头同时冲刺IPO,奥特曼却在内部抛出了一个更大的变量:如果AI先学会自我改进,上市反而不急。 GPT-5.6,本月发! 就在刚刚,OpenAI毫无预兆打出了一波连招。 ChatGPT熟悉的模型代号被直接抹去,全部换成了Intelligence「智力分级」。 WSJ独家爆出,OpenAI正酝酿大幅调低API定价,准备跟Anthropic打一场价格战。 紧接着,首席科学家Jakub Pachocki亲自放话,代号5.6、「大幅超越」前代的新模型,本月直接上桌。 降价、改版、新模型,一个疯狂的星期三。 但这些加在一起,都不如奥特曼在内部Slack里漏出的一句话—— 如果AI的递归自我改进起飞速度够快,推迟上市的好处反而越大。 8520亿的IPO,奥特曼说不着急 现在的大背景是,所有人都在抢着上市。 Anthropic在6月1日向SEC秘密递交了S-1,SpaceXAI已经在路演,估值1.77万亿。OpenAI自己也在6月8日跟进递表,三家合计估值约3.6万亿美元,相当于法国一整年的GDP。 投行给的建议很一致,谁先上市,谁就定义投资者对AI赛道的估值框架。 先手优势,兵家必争。 然而就在这时,奥特曼却提出了一个所有人都没有公开讨论过的变量: AI递归自我改进的起飞速度越快,推迟IPO的好处就越大。 因为技术和世界可能以意想不到的方式发生变化,在那段时间里做一家私人公司可能有充分的理由。 他的意思不是「不想上市」,而是一旦AI发展到能自我改进的临界点,整个商业世界的规则都可能被推翻。到那时候,私有公司的灵活度要比上市公司大得多。 Anthropic的数据在侧面印证这个判断。 他们内部报告显示,AI的任务完成时间跨度正在每4个月翻一倍,工程师的季度代码产出量已经飙到了之前的8倍。 7周一代,RSI还远吗 而奥特曼说这话的同一天,他的首席科学家正在用行动告诉所有人,那一天可能比想象中近得多。 GPT-5.4在3月5日发布,GPT-5.5在4月23日紧随其后,间隔6周。 GPT-5.6定在6月,又是6到7周的节奏。 这是一条稳定加速的曲线,而且代际之间的能力跳变,没有放缓的迹象。 海外社区早就围着GPT-5.6的「泄露」扒了个底朝天。 从5月中旬起,开发者就在Codex后台日志里发现了GPT-5.6的路由痕迹,内部代号iris-alpha。 随后陆续出现ember-alpha、beacon-alpha,再往后是kepler和kindle。 到6月初,kindle-alpha被确认为当前的发布候选版本。 有人在Design Arena上发现了匿名模型「Kindle」,跑了几轮实测后判断这就是kindle-alpha的公开测试形态。 后来kindle被移除,但GPT-5.6的存在已经板上钉钉。 目前社区讨论最集中的是两个方向的提升。 第一个是前端生成能力。不需要复杂的提示词,模型就能直接输出干净的、接近商用级的UI界面。 一位泄露者用最早期的iris-alpha检查点,在零指导的情况下生成了一个叫Lumen Notes的笔记应用,薰衣草色调,网格对齐,层级清晰,看起来就像一个成熟SaaS产品的截图。 第二个是agentic coding能力。 知名开发者Mark Kretschmann在𝕏上表示,「据我所知,GPT-5.6非常强大,在多个agentic coding基准上击败了Anthropic Mythos。」 奥特曼在近期的活动中曾表示,企业客户对AI使用成本越来越敏感。 因此价格这个点,可能是OpenAI接下来最关键的变量之一。 Anthropic刚刚发布的Fable 5和Mythos 5,API定价是每百万输入token 10美元、输出50美元,大约是现有Opus定价的两倍。 而GPT-5.5目前是5美元和30美元,本来就便宜一半。 不仅如此,根据WSJ的爆料,OpenAI甚至在考虑进一步大幅降价,主动跟Anthropic开打价格战。 如果GPT-5.6同时带来能力升级和价格下调,对Anthropic来说这是一记左右组合拳。 从「选模型」到「选智力」 与此同时,产品侧也没闲着。 6月10日,OpenAI产品负责人Adam Fry在𝕏上宣布,ChatGPT的模型选择器正式改版,面向全球Plus和Pro用户滚动更新。 以前你打开ChatGPT,迎面就是一长串模型名字。 Thinking-Light、Thinking-Standard、Thinking-Extended、Thinking-Heavy,再加上Pro Standard和Pro Extended,六七个选项密密麻麻摆在那里,选择焦虑瞬间拉满。 现在这些全部消失了,只剩一个词,Intelligence。 六个档位从低到高排成一列,分别是Instant、Medium、High、Extra High、Pro Standard和Pro Extended。 换句话说就是从「你想用哪个模型」,变成了「你想让AI多聪明」。 Thinking-Light直接砍掉,理由是不到1%的付费用户在用这个档位。Thinking-Standard改叫Medium,Thinking-Extended改叫High,Thinking-Heavy改叫Extra High。Pro Standard和Pro Extended名字没变,但被藏进了Pro的二级菜单里 7周换一代模型。同一天改产品界面。同一天准备降价。 每一个加速的信号,都在让奥特曼那句关于RSI的话,变得越来越不像假设,越来越像预告。 越快,这句话越像预言 一旦AI学会自我改进,上市这件事的优先级可能要重新排。 就在他说这话的24小时内,Anthropic的Claude Fable 5在全新的Agent Arena榜单登顶,以11.2%的综合净提升创下了该榜单有史以来的最大分差纪录,把GPT-5.5甩在了第四名。 6月,三家旗舰模型正面碰撞。Fable 5、Gemini 3.5 Pro、GPT-5.6,打的是同一批能力方向,推理、编码、Agent、前端生成。 但真正的竞赛可能不在这一层。 谁先IPO,拿的是华尔街的资金。谁先实现RSI,拿的是改写规则的权力。 前者的优势用年来计算,后者的优势可能用天来计算。 一旦某家公司的AI真正跑通了自我改进的循环,领先速度会以指数级拉开,后来者再多融资也追不上。 这大概就是奥特曼那句话真正的意思。IPO是手段,RSI才是终局。 GPT-5.6是给竞争对手看的,降价是给企业客户看的,RSI那段话,是给历史看的。
OpenAI被曝本月将发GPT-5.6,奥尔特曼预估一年内完成IPO
智东西 编译 | 田忠婷 编辑 | 程茜 智东西6月11日消息,昨夜,外媒The Information曝光了一份美国明星大模型独角兽OpenAI联合创始人、CEO萨姆·奥尔特曼(Sam Altman)在Slack上的内部发文,他预计OpenAI将在一年内完成首次公开募股(IPO)。该公司首席科学家Jakub Pachocki透露,OpenAI正在筹备新模型,另一位知情人爆料新模型GPT-5.6将在本月发布。 值得注意的是,奥尔特曼此次发文,几乎与OpenAI官宣向美国证券交易委员会(SEC)秘密交表在同一时间。 Altman在发文中透露,OpenAI计划将在一年内完成IPO。他称:“很多因素可能会让上市时间提前或推后,现在提交IPO文件能让我们保留灵活选择,如果希望提前上市,也有可能。” 他也说明了另一种可能,即如果AI技术发展迅速,达到可以自我创造新AI的“递归自我改进”(RSI)阶段,那么,推迟上市对该公司可能更有利。因为在技术快速发展时期,保持非上市状态和私有身份能让OpenAI的决策更灵活。 此外,Altman还告诉员工,OpenAI很快会启动一次股份回购。知晓这一消息的员工透露,该公司将以687.69美元(约合人民币4660元)的价格回购员工持有的股票。 OpenAI的资本需求巨大,该公司正在规划在俄亥俄州建立大型数据中心园区。据The Information 6月10日报道,该AI数据中心园区,规划总容量达10吉瓦。OpenAI将与软银集团旗下的SB Energy签订一份20年期租约,预计累计租金达数百亿美元。此外,OpenAI还需筹集数千亿美元用于购买英伟达芯片。 据The Information报道,该算力园区建成后将主要服务于新一代大模型的训练与运行,海量硬件采购、场地运维、电力消耗都会产生持续高额成本。Altman称这种对算力和基础设施的巨大投资可能会促使OpenAI加快上市计划。 与Altman内部发文同一时间,OpenAI官方也发布了向SEC秘密递交S-1文件的公告。在公告中,OpenAI称目前还没有确定上市时间,因为有一些想做的事情,作为一家私营公司可能更容易完成。 ▲OpenAI向SEC提交S-1的公告(图源:OpenAI) OpenAI主要竞争对手Anthropic也在近期加紧推进上市筹备。Anthropic于6月1日宣布已经秘密向SEC提交S-1的注册生明草案,筹备普通股首次公开发行。消息中披露在接受完SEC审查后,Anthropic就可以选择上市,而该公司IPO的时间主要取决于市场状况和其他因素。据The Information报道,投资者和市场预测OpenAI和Anthropic的上市目标估值或将达到1万亿美元。 ▲Anthropic向SEC提交S-1的公告(图源:Anthropic) OpenAI首席科学家Jakub Pachocki在发给员工的内部消息中称,该公司正在筹备一个新模型,代号GPT-5.6。他认为该模型相比现有旗舰模型GPT-5.5将有“显著提升”。据The Information援引知情人士透露,OpenAI计划在本月推出GPT-5.6模型。不过截至目前,OpenAI尚未公开更多具体功能或改进细节,该公司发言人面对外界的问询也始终未予置评。 结语:大模型巨无霸纷纷开启IPO 从IPO计划到筹备新模型发布,OpenAI正在同时推进资本化与技术升级两条主线。在融资需求与前沿技术探索的双重考量下,OpenAI的每一步动作都至关重要。 当前,AI算力成本持续攀升、行业竞争不断加剧。Anthropic与OpenAI相继启动IPO流程,SpaceX正处于IPO的尾声阶段,其估值超1.77万亿美元(约合人民币12万亿元),而这场集中上市浪潮,或意味着头部科技企业正借力公开市场输血,用以对冲高额算力等重资产投入压力。 来源:The Information
Anthropic CEO阿莫迪:AI可能会造成大规模、长期性的岗位流失
IT之家 6 月 11 日消息,Anthropic CEO 达里奥・阿莫迪表示,他并非想扮演人工智能与就业领域的“末日预言家”,但他发出警告:人工智能造成的大规模岗位流失,或许并非这项技术发展过程中短暂的阵痛,而可能是人工智能发挥作用的固有特性。 阿莫迪在一篇最新政策文章中写道,即便各方努力缓解冲击,人工智能仍很有可能造成大规模、长期性的岗位流失。这一现象“或许是该技术本身,以及其大范围复刻人类认知能力的运行模式所具备的固有属性”。 这一观点重新解读了人工智能行业最棘手的问题之一。部分企业高管认为,岗位流失只是企业不当经营或短期行业调整所致,但阿莫迪提出,倘若人工智能系统的设计初衷就是承接人类更多脑力工作,那么失业问题就会成为人工智能技术成熟发展带来的结构性必然结果。 换句话说,这是技术自带的特性,而非缺陷。 阿莫迪此前就已就此发出警示。他曾预判,五年内人工智能或将取代半数初级白领岗位,失业率会攀升至 10% 至 20%,并呼吁企业与政策制定者不要再对相关风险粉饰太平。他这篇新文章并未着重描绘大规模失业的惨淡前景,而是重点阐述:一旦长期性岗位流失成为现实,各国政府应当如何应对。 他提出的应对思路分为两方面:减缓冲击、共享红利。 阿莫迪主张,要完善对人工智能影响劳动力市场的监测与统计工作,扩充官方相关数据。同时,他支持推行各类促就业激励政策,例如:为因人工智能被迫降薪就业的劳动者提供薪资保障、推出企业留岗税收优惠、发放职业技能培训补贴,并搭建更完善的就业匹配服务体系。 他在文中提到,倘若人工智能导致市场对人力劳动的需求永久下降,政府还需推出更进一步的举措,比如通过向相关企业征税、提高资本利得税等方式,推行全民基本收入这类长期收入保障政策。他还提议设立全民资本账户,以此分配人工智能创造的社会财富。 IT之家注意到,近期,整个行业的论调整体出现转变。包括阿莫迪与 Open 公司首席执行官萨姆・奥尔特曼在内的多位行业领军人物,不再一味警示失业风险,转而强调人工智能带来的生产力提升与全新经济机遇,阿莫迪的这篇文章也恰逢这一转变节点发布。 据 Business Insider 报道,这些高管此前一直强调人工智能的颠覆性冲击,如今却将更多精力放在探讨劳动者与社会如何分享技术红利上,而背后原因是各家企业正筹备备受市场关注的首次公开募股。 阿莫迪在这份最新政策备忘录中表示,Anthropic 的目标是助力合作企业开拓新营收渠道、盘活现有员工产能,而非单纯帮助企业削减人力成本。但他也坦言,即便人工智能的发展前景确实如他所言无比广阔,社会也必须提前规划,保障那些无法自然分享技术红利的劳动者的权益。
Anthropic CEO又发长文:1-2年内迎来高阶AI,影响力堪比核武器
智东西 编译 | 刘煜 编辑 | 陈骏达 智东西6月11日消息,今天,Anthropic联合创始人兼CEO Dario Amodei(达里奥·阿莫迪)发表题为《Policy on the AI Exponential(论AI的指数级发展及其政策应对)》的长文称,其高度确信,数年之内,AI重塑全球格局的影响力将堪比核武器改写地缘政治格局。同时,Amodei深度剖析AI指数化发展的现状,并阐明当下全球亟需采取的联合行动。 Amodei称谈到,AI领域的Scaling laws预言,只要算力不断增长,AI的通用认知能力就会呈指数级提升。倘若该趋势再延续一到两年,我们或将迎来Powerful AI(高阶AI),也就是“一座数据中心内汇聚万千天才”的形态。 但AI会带来诸多安全风险,受制于当下的现实困境,Amodei透露,包括Anthropic在内的众多安全领域倡导者正提倡:相关信息公开立法、芯片出口管制以及统计AI对就业市场影响的数据等。 Amodei还称,由Mythos级模型引发的网络安全风险只是开始。未来AI可能被用于研发威胁数百万生命的生物武器,届时顶尖AI威胁的不再只是公共安全,而是全人类的存续。 针对这些安全风险,他建议,研发前沿AI模型的企业,必须建立完善的安全规范以保护模型权重,同时定期开展红队演练与渗透测试,并配合政府抵御高级别网络威胁。 Amodei认为,如果AI在绝大多数脑力工作上全面超越人类,借助AI加速科研、技术迭代与运营提效的能力,经济有望迎来高速、稳定的增长。而AI自主迭代、打造更强AI的能力,还会进一步放大这一增长动能。 但相较于历次技术变革,AI对人类脑力劳动的替代范围更广、迭代速度更快。由此Amodei推断,AI对就业市场的冲击,会远超以往历次技术革命,且影响更具持久性。 除此之外,Amodei还提出,数据中心可能推高能源价格,AI企业应当承担电价上涨带来的成本,而Anthropic也已就此作出了公开承诺。 在该文章发出的同时,Anthropic同步推出了两套方案。该公司为此投入了相应资金,其中,2亿美元(约合人民币13.6亿元)用于研究框架,1.5亿美元(约合人民币10.2亿元)投向设立奖学金。 文章的核心要点包括: 1、AI发展速度已远超政府监管速度:Amodei拿《指环王》中的霍比特人与Treebeard(树须)做比喻,称当前最大的风险,不是没有监管AI,而是监管永远慢半拍。 2、AI已进入国家战略级风险阶段:AI已经从普通技术,演变成具有地缘政治影响力的战略资源。 3、透明度监管已经不够:曾经AI带来的风险尚不清晰,不宜过早制定硬性规则,而现在风险已经显现,AI治理应从“企业自律”转向“政府强监管”。 4、未来顶级AI可能像“核材料”一样被管理:Amodei提出AI监管升级路线,包括更严格许可制度、更高等级国家监管以及国际协调控制。当AI足够强大时,其治理逻辑将更接近核武器,而非互联网产品。 5、AI将催生“个人独角兽”时代: AI能让个人创办市值数十亿美元的企业。目前已出现仅靠数人团队、依托AI实现年收入数亿美元的真实案例。 6、AI时代最大的经济挑战:这一挑战不是经济增长不足,而是分配失衡。 7、医疗监管体系尚未跟上AI医疗创新: 现行药审体系基于“候选药物大概率无效”的保守预设,若不改革,AI带来的医疗创新浪潮将导致审批机制严重拥堵或超负荷。 8、否认有关AI的舆论争议只是公关问题:Amodei完全不认同这种看法。他认为民众产生担忧,是因为民众真切察觉到AI风险的真实性,并非AI企业高管的态度不够乐观。 以下是对这篇长文的编译: 一、现有监管举措明显滞后,前沿模型暴露多重安全威胁 在《指环王》的一个支线故事中,两个霍比特人试图唤醒Treebeard,来保卫自己的森林免遭军队破坏,他是一棵睿智但行动缓慢的有意识树。 但问题在于,Treebeard的行动速度与霍比特人完全不同。他仅仅和另一棵树打声招呼,就要耗费整整一天,因此要让他和他的同伴迅速采取行动几乎是不可能的。 AI与我们的政治机构之间的关系,有点像霍比特人与树胡的关系。AI发展速度极快,仅仅四年时间,AI模型就从几乎无法写出一行连贯代码,发展到能为主要AI公司撰写大部分代码。在生物学、物理学、数学、金融、法律、翻译以及其他许多领域,AI也取得了类似进展。 AI领域的Scaling laws预言,只要算力不断增长,AI的通用认知能力就会呈指数级提升。这一规律如今已有十余年实际数据作为支撑。倘若该趋势再延续一到两年,我们或将迎来我所说的Powerful AI,也就是“一座数据中心内汇聚万千天才”的形态。 与之相对,政策、尤其是立法工作推进得极为缓慢。这一现象往往事出有因。政府手握巨大权力,行事审慎通常是明智之举,但两者节奏的严重脱节却令人忧心。 美国国会走完立法流程往往需要数年时间,而在这段时间里,AI可能就从新奇的娱乐工具,演变为真正意义上“汇聚万千天才”的强大系统。 自AI成为主流商用技术以来的数年间,我们这群主张对其进行合规治理的人一直陷入两难境地。 我们能清晰预判指数化发展的走向。我们高度确信,数年之内,AI将成为少数能够彻底重塑全球政策环境的技术之一。其影响力堪比核武器改写地缘政治格局,亦如同工业革命颠覆所有经济与社会议题。 但在最初,仅从AI展现出的能力来看,它不过是一项平平无奇的技术,和当下热门的消费类应用、加密货币相差无几。想要说服绝大多数政策制定者与企业摒弃自由放任的监管思路,绝非易事。 客观而言,由于AI的颠覆性影响尚未显现,且其最终形态难以预判,即便各方有心出台监管政策,也很难制定出精准有效的规则。 受制于当下的现实困境,包括Anthropic在内的众多安全领域倡导者,目前主要倡导:保留政策调整空间,为未来快速应对风险做好铺垫,同时帮助全球各界提前洞悉潜在趋势。 这一具体方向包括相关信息公开立法、芯片出口管制、统计AI对就业市场影响的数据等。这些举措远远不够,但已是现阶段力所能及的全部选择。 然而在过去数月,AI超强的能力与潜在风险已然不容辩驳。最具代表性的案例便是Claude Mythos Preview。这类前沿大模型暴露出切实的网络安全风险,有可能扰乱金融体系、关键基础设施运转乃至国家安全秩序。 Mythos Preview改变了全球网络安全格局。而其更深层的意义在于,它无可辩驳地证明,如今的AI模型已然成为具备全球与国家战略影响力的工具。由Mythos级别模型引发的网络安全风险,绝不会是我们需要应对的最后一类威胁。 我认为,生物安全风险或将接踵而至,而严峻的AI自主失控风险也已近在眼前。 如今,全球各国必须联合行动,启动这套运转迟缓、体系庞杂的政策机制,去应对即将加速蔓延的机遇与风险。 越来越多政策制定者愿意主动采取行动,同行们也逐渐认同我们多年来秉持的主张,这一点令人倍感振奋。但我仍心存顾虑,因为当下出台的初步举措,相比AI的飞速发展,至少滞后了一年。 本文旨在弥补这一差距:剖析AI指数化发展的现状,并阐明当下全球亟需采取的联合行动。 本文围绕AI时代亟需重新规划的政策领域展开论述,包括监管与公共安全、宏观经济与税收政策、科技创新。 由于Anthropic是一家美国企业,本文主要以美国政策为探讨对象,但文中大部分建议同样适用于世界其他地区。 伴随本文发布,Anthropic同步推出一份针对前沿模型测试的立法提案,以及一套应对岗位流失问题的政策框架,我们计划为此投入大量资金推进落地(2亿美元用于研究,1.5亿美元投向设立奖学金)。未来我们还将推出更多举措,而这两项内容,是我们展现治理决心的第一步。 二、Powerful AI或将等同核材料,监管需转向强制约束模式 任何一项新技术、新产品都兼具利弊,创新发展与安全管控之间的矛盾始终存在。对产品实施监管能够降低危害风险,长久以来为改善全球民生发挥了重要作用,但同时也会直接削减技术本身的价值,还会间接打击创新积极性。 奥地利学派经济学家弗里德里希・奥古斯特・哈耶克( F.A. Hayek)提出过一个观点:监管机构往往缺乏足够信息,难以在复杂的经济权衡中做出正确决策,这就导致监管措施时常收效甚微,还会徒增行业负担。 与之相关的Collingridge dilemma(科林里奇困境)指出,一项技术的负面影响,往往要等到问题难以管控之时才会彻底显现。 2023至2024年,上述矛盾在AI领域表现得尤为突出。Anthropic早已预判,未来AI有可能被用于研发威胁数百万人生命的生物武器,或是出现自主失控行为,极端情况下甚至会危及全人类生存。 但那时风险的具体表现形式、有效的风险检测与缓解方案、实际演化路径都尚不明确。倘若仓促立法,极有可能收效甚微。这些法规可能最终无法有效应对风险,还会制造无意义或低价值的合规要求,同时遗漏真正关键的风险来源。 这一问题并非理论假设。我们在Responsible Scaling Policy等企业自主治理框架中,已多次遇到类似情况。 如果为未来AI模型制定固定、僵化的安全要求,极有可能出现这样的局面:95%的合规精力耗费在影响微小的条款上,而真正重大的风险源头,却完全不在预设清单之内。 企业自主规则可以灵活调整,但立法修改流程十分繁琐。针对2024年加州SB 1047法案(旨在防范极端风险),我曾先后发布两封公开信阐述矛盾态度,原因正是上述困境。 综合考量后,我们认为当时(2023至2024年)最合理的方案是推行透明度监管。 AI模型研发方必须公开自身的安全管控流程、模型测试细则,并及时上报所有重大安全事故,让公众与科研界能够实时掌握风险动态。待风险形态进一步明晰、特征愈发明确后,依托透明度监管积累的信息,再制定精准的专项法规,直击核心风险。 基于这一思路,2025年Anthropic积极推动透明度相关立法,助力加州SB 53法案、纽约州RAISE法案、伊利诺伊州SB315法案(2026年初落地)相继通过,同时也在联邦层面倡导建立统一的透明度标准。 时至今日,各类风险已然浮出水面。监管不能再止步于透明度要求,必须针对AI推出更严格、具备强制约束力的规则。结合当前AI指数化发展阶段来看,最贴切的参照对象是汽车、飞机、药品,这类技术是现代经济运转的基石,可一旦设计或使用不当,便会造成大规模人员伤亡。 因此我认为,AI监管可参照FAA(美国联邦航空管理局)的模式。前沿AI模型如同飞机,必须经过专业技术检测与审计;若安全标准不达标,为保障公共安全,相关模型的上线部署应当被叫停或撤销。 特朗普政府近期发布的行政令,逐步强化了政府在AI监管中的职能,对此我表示认可,而Anthropic的提案则主张进一步加大监管力度。我们的提案包含以下要点: 算力超过指定阈值的AI模型,必须由具备资质的第三方机构开展强制风险检测,检测聚焦四大领域:网络安全、生物武器、AI系统失控以及可能加剧上述三类风险的自动化研发行为。 若第三方评估判定模型存在不可接受的风险,政府有权阻止或叫停其部署。该权力仅适用于上述四大风险范畴,同时需设置保障机制,杜绝政策偏袒与主观武断的决策。 第三方评估主体可选择两类:一是类似FAA的政府专职机构;二是经政府授权、常态化接受督查的民间机构,采用监管市场化模式开展评测工作。 研发前沿AI模型的企业,必须建立完善的安全规范以保护模型权重;定期开展红队演练与渗透测试;并配合政府抵御高级别网络威胁。 上述四大核心领域内发生的安全事故,必须第一时间上报。 或许在不远的将来,我们需要采取更进一步的监管手段。届时Powerful AI系统的属性将不再等同于飞机、汽车,而是更偏向可被用作武器的核材料,它们威胁的不再只是公共安全,而是全人类的存续。 一旦走到这一步,现行监管方案便会显得力度不足,需要推出更为强硬的管控措施。举例而言,极端生物安全风险的管控难度远高于网络安全风险。防御方天然处于劣势,且灾难造成的破坏程度也更为惨重。 不过正如2024年难以落地如今这套监管规则一样,我们也不必超前布局。政策制定应立足当下已显现的风险,同时搭建完善体系,确保未来新风险出现时,能够快速升级应对举措。 三、Powerful AI打破经济旧范式,超高增速与就业冲击同步到来 长期以来,各国政府始终面临一项难题,即如何在拉动经济增长的同时,完善公共服务、保障弱势群体权益。 相关讨论中存在一个主流且大体成立的共识,那就是经济增长本身十分脆弱、来之不易。想要缩小贫富差距,往往就要承受加税或财政赤字带来的经济下行压力,二者难以兼得。 我认为,Powerful AI或将颠覆这一固有认知。如果AI在绝大多数脑力工作上全面超越人类,借助其加速科研、技术迭代与运营提效的能力,经济有望迎来高速、稳定的增长。而AI自主迭代、打造更强AI的能力,还会进一步放大这一增长动能。 但与此同时,相较于以往所有技术,AI对人类脑力劳动的替代范围更广,技术变革的节奏也更快。由此可以推断,AI对就业市场的冲击,会远超以往历次技术革命,且影响更具持久性。 我们或将陷入一种困境:经济高速增长与贫富急剧分化并行,而这种局面一旦形成,便很难扭转。在这样的背景下,政策的核心目标不再是刺激增长,而是让全社会共享发展红利。 在本文探讨的所有议题中,AI引发的宏观经济变化与长期岗位流失问题,受到的社会关注最多,也滋生了最多误解。在此我明确阐明两个核心观点: 第一,长期性岗位流失绝非理想局面,更存在诸多隐患,我们必须尽全力减少、规避这一问题,而非放任其发生。 我在采访与文章中多次提及岗位流失风险,是希望政策制定者与市场主体提前适应、主动应对,并非刻意扮演“末日预言家”。 作为企业,Anthropic始终携手客户挖掘AI全新应用场景、开拓营收渠道,助力企业依托现有团队提升效能,而非单纯削减人力成本压缩开支。我们也持续探索全新人机协作模式,确保在AI不断进化的过程中,人类始终占据核心协作位置。 放眼整个社会,各行各业都应积极尝试AI新用法,以此催生全新就业形态。不可否认,AI将创造大量全新经济机遇。我曾预判,AI能让个人创办市值数十亿美元的企业,如今已有小型团队依靠AI打造出营收数亿美元的公司。 但我们必须正视现实:即便各方全力应对,AI依旧有可能造成大规模、长期性失业。从本质来看,这是因为该技术全面复刻了人类的认知能力。 第二,任何应对AI驱动的就业取代,都需要保障民众基本经济收入,更要帮助人们找寻生活的意义、目标与自主价值。后者归根结底更为重要,它涉及社会架构、人生追求、美好生活定义等深层议题。 我始终保持乐观,即便未来AI在所有领域都超越人类,人类依旧可以拥有充实的人生,创造震撼人心的美好事物。举例来说,如今人们仍然把毕生精力奉献给国际象棋、围棋或者爬山,尽管机器本可以做得更好,但依旧有人钻研这些领域,从业者也始终受人尊敬。 但这类议题需要全社会共同探索,并非政策能够直接解决。政策能发挥的最大作用,是为社会探索争取时间:延缓失业潮到来,并为受影响人群提供经济保障。 基于上述思路,以下几项政策举措具备一定现实价值: 首先是数据统计与动态追踪。很多人认为单纯的数据收集分析无法匹配问题规模,但脱离真实数据,就不可能制定出有效政策。 Anthropic已持续一年半追踪用户使用Claude的经济数据,而政府掌握着企业无法获取的海量信息,应当扩充经济统计维度,精细化追踪AI对就业的冲击。 其次是就业扶持激励政策。多项鼓励就业的政策可以缓解失业问题,例如,薪资保险政策、留岗税收优惠(鼓励企业减少裁员)、职业技能培训补贴、搭建用工对接平台以加快劳动力市场适配。 薪资保险的核心作用则是当员工接受降薪转岗时,保险会补足新旧岗位的薪资差额,以此激励民众主动转型、开启新的职业道路,即便短期内需要承受阵痛。 具体方案需结合AI引发失业的实际形态而定。即便这类政策会增加成本、带来一定市场低效,也应当推行,因为AI带来的生产力提升,足以抵消这些负面影响。 再者是长期宏观经济保障。如果AI引发大规模长期失业、市场劳动力需求持续萎缩,仅靠短期激励政策远远不够,需要为大量劳动者建立长期收入保障机制。 全民基本收入可通过向相关企业征税、提高资本利得税等方式筹措资金,全民资本账户也是可行方案之一。总体而言,AI驱动的经济高速增长,能够为全民共享繁荣提供税收基础。 我之前没提到的AI经济关注的一个常见焦点是数据中心,尤其是它们可能推高能源价格。我的观点是,AI企业应当承担电价上涨带来的成本,Anthropic也已就此作出公开承诺。而公众对数据中心的抵触情绪,本质上是全社会对AI相关经济问题焦虑情绪的外化。 各国必须直面这些深层经济议题,并拿出切实可行的解决方案,否则民众的负面情绪还会借由其他载体爆发。 四、AI将全面提速医药研发,但漫长药审流程恐堵截医疗创新成果 我们既要平衡AI自身发展与安全的关系,也要应对AI赋能下其他技术(生物医疗、能源、材料科学等)带来的同类矛盾。 AI自身带来的风险全新且演变迅速,人类尚无成熟应对经验,而被AI加速发展的各类传统领域,则面临另一种困境:现有监管体系诞生于创新节奏缓慢的时代,无法承接AI催生的海量新技术、新成果。 同时,AI能够大幅提升下游技术的安全性与可预测性,这也与FDA(美国食品药品监督管理局)等监管机构一贯的严谨预设相悖。 因此对于AI的下游应用领域,我更担忧监管体系拖慢创新步伐(监管无法适配技术迭代速度),而非监管缺位引发风险。我们绝不能让AI的价值潜力被束缚,却任由其风险不断累积,相关改革刻不容缓。 不同科技、商业领域面临的问题与解决方案各有差异,本文选取生物医疗创新作为典型展开分析。一方面,AI有望在医疗领域创造巨大民生福祉;另一方面,该领域的监管体系也最为复杂。 目前我们虽无法预判AI重塑生物医疗的全部细节,但可能出现的趋势包括: 新药候选物进入监管流程的速度将显著提高;依托技术优化与生物学机理深度解析,新药疗效将更强、安全性会更高;为前所未治愈的疾病开发药物候选物;催生出全新治疗手段,如同过去数十年间抗体、多肽、细胞疗法逐步成为主流治疗方案一般。 部分技术进步可自然缩短审批周期,无需重构监管体系。疗效更显著的药物,可开展规模更小、成本更低的临床试验,适用加速审批通道。但现有监管体系的设计逻辑偏保守,默认候选药物大概率疗效不佳,或是存在严重安全隐患,因此设置了多层级、高标准的审查流程。 目前,一款新药走完FDA与EMA(欧洲药品管理局)的全审批流程,平均耗时7至8年,这在一定程度上正是源于上述保守预设。若监管体系不改革,AI带来的医疗创新浪潮将导致现有审批机制拥堵或超负荷。 当然,改革绝不等于放宽标准,我们要杜绝劣质药物流入市场、避免大规模安全事故。但一系列适度改革,就能让FDA、EMA等机构适配AI驱动的医疗高速发展。 以往需要高昂成本、漫长周期开展的临床实验环节,未来可借助AI模拟与数据分析完成。监管机构应当提前制定标准,认可这类新型技术手段。待技术成熟后便可直接落地,无需继续沿用老旧的硬性测试要求。可落地的场景包括: 基于AI的PD和PK(药效学与药代动力学)建模分析;毒性预测技术,减少多物种动物毒性实验;精准剂量测算,缩减临床试验的剂量梯度测试环节;依托大数据分析完成生物标志物验证;临床试验采用虚拟对照组,减少受试者招募数量;研发替代终点指标(对于衰老、神经退行性疾病领域尤为重要)。 除上述具体举措外,监管机构还应探索更灵活、更具突破性的加速审批机制。若我对AI发展趋势的判断无误,未来会不断涌现效果极佳的全新医疗方案,监管体系必须摒弃过度怀疑的态度,正视这类创新成果。 医疗领域的提速发展,不仅能放大AI的正面价值,也有助于降低AI自身风险。医疗审批体系改革可强化生物安全防御能力,AI推动的心理健康领域进步,也能起到稳定社会秩序的作用。 五、公众焦虑源于真实安全隐患,需要提前完善AI治理体系 AI的指数级进步,带来了前所未有的变革速度与紧迫挑战,传统政策制定体系本难以适配这样的节奏。但与此同时,我们也迎来了一段独一无二的机遇期。 如今,AI的风险已清晰显现,其创造经济价值、冲击现有产业的潜力也初步展露,公众普遍反对放任AI无序发展。多重因素叠加之下,政策制定者更愿意主动布局长远规划。Treebeard与他守护的森林,终于迎来了觉醒。 AI行业内有一种流行观点:当下的舆论争议只是公关问题,AI需要“更好的品牌宣传”。我完全不认同这种看法。民众产生担忧,是因为他们真切察觉到AI风险的真实性,并非AI企业高管的态度不够乐观。 作为AI行业从业者,我有责任如实披露风险。而公众基于真实信息产生的担忧,正是民主监督正常运转的体现。当下的核心任务,是将民众的关注转化为可行的解决方案,避免负面情绪演变为无差别对立与冲突。 我对问题的解决保持乐观态度。从模型上线前检测、芯片出口管制,到就业问题应对、能耗管控等一系列AI相关议题,相关解决方案能够获得不同政治立场群体的普遍认同。 一个务实且值得期待的未来正在前方:跨党派群体正视AI带来的挑战,携手推动政策落地,让规则制定速度突破传统桎梏。行动越早,全人类就能越早共享AI带来的巨大价值。 来源:《Policy on the AI Exponential》——Dario Amodei
苏炜杰加入OpenAI:Scaling Law撞墙后为什么需要数学家出手?
“大模型眼下的难题,却是苏炜杰的「舒适区」。 ” 作者丨胡清文 编辑丨徐晓飞 大模型正在走进一片没有地图的深水区。 Scaling Law开始撞墙、高质量数据接近枯竭、AI解释性问题依然没有解决,行业逐渐进入后Scaling时代。 越来越多人开始意识到,那些最关键的瓶颈,单靠工程经验已经无法突破了。 问题摆在眼前,能回答它的人开始登场。 5月30日,宾夕法尼亚大学沃顿商学院统计学教授苏炜杰宣布加入OpenAI,参与模型训练相关工作。 他是2026 COPSS会长奖得主,统计学界40岁以下最高荣誉14年来第一位华人获得者,刚刚完成从副教授到正教授的晋升。 站在学术生涯的顶峰时刻,他却转身走进行业最深处的风暴眼。 时机不像是巧合。 01 契机:去年十二月的一通视频 苏炜杰告诉雷峰网,促成他这次加入OpenAI的直接契机,是去年12月的一通Zoom视频。 “OpenAI 的研究员 Sebastien Bubeck 联系了我,问我有没有兴趣加入OpenAI。很多年前他还在学术界时,就关注过我在优化问题方面的工作。” 一句话,藏着两条信息。 一是OpenAI对理论研究的关注并非新近才有。二是苏炜杰在优化领域的工作,在AI圈早已广受关注。 苏炜杰的学术履历横跨高维统计、机器学习理论、因果推断、差分隐私与生成式AI。 2007年,他考入北大数院,以年级第一毕业,随后赴斯坦福统计系,师从统计学传奇人物Emmanuel Candès。 这般扎实的学术背景,塑造了他看待问题的方式:寻找复杂系统里的结构,而不只是得出一个可运行的结果。 国内数学圈,常把苏炜杰所在的北大数院2007级称为“黄金二代”。 这一级出了苏炜杰、邓煜、王虹、唐云清等后来横跨数学、统计、AI前沿的优秀学者。 对此,苏炜杰有他自己的解读,既不夸大,也不回避。 “回想起来,我们这一级确实很强,在北大时已经展现出日后的潜力,只是当时没有意识到。” 他认为,其实北大数院前后几个年级都非常出色,很大原因来自北大数学培养模式的成功,以及一群真正对数学感兴趣的同学聚在一起产生的群体激励效应。 “对我而言,我的底色是数学。数学训练给人的不是某个固定工具,而是在复杂问题里寻找结构的能力。” 但他也强调,自己并非一开始就奔着应用方向去的。 “因为各种机缘巧合,我本科时在微软亚洲研究院的实习,之后到斯坦福读博,比较早的接触到了机器学习和人工智能,这些经历奠定了我日后做应用数学研究的学术品味。” 提及当下去向选择,他的回答十分坦诚。 “到了我这个职业阶段,身边很多学术界的朋友已经在创业。” 但他选择投身OpenAI的原因,还是让人好奇。 苏炜杰解释道,很多自己长期关心的基础问题,今天正在大模型最前沿以非常真实、非常大规模的方式出现。 “在学校,我们组提出过不少关于AI算法的想法,但受限于算力和Infra,很难做大规模的实验验证。而在Frontier Lab,就没有这些问题。” 这番回答,传递出了一个清晰的思考。 他去OpenAI,不是为了离开学术,而是为了把学术问题研究做得更彻底,更多观点,欢迎添加作者微信 IHAVEAPLANB- 沟通交流。 02 OpenAI为什么需要数学家? 谈及入职OpenAI后负责的具体内容,苏炜杰表示暂时不便透露。 但他坚信,未来理论功底不错的人,开发AI模型的优势会被放大。 苏炜杰的判断,主要基于两个原因: 第一,Frontier Lab的Infra已经比较成熟,Coding Agent在研发中已经普及使用。 “这并不是说工程能力不重要,而是工程能力的重心发生了变化,idea的重要性会提升。稀缺的是提出好假设、设计好实验、定义好eval、及时的反馈、并判断能不能scale的能力。” 第二,大模型的性能提升已经进入深水区。 “普通对话能力对各家来说都已经饱和,拉开差距的突破点,在于高难度任务在复杂环境下能力的稳健性。这个时候,对数据的深刻理解会变得尤为重要,特别是对数据分布、泛化能力、和评估不确定性的洞察。” 他表示,也正是由于上述原因,现在有越来越多的统计学家、应用数学家、和物理学家活跃在 AI 领域。 苏炜杰所描述的不是一个人的职业判断,而是整个行业正在发生的能力重心迁移,不同见解,欢迎添加作者微信 IHAVEAPLANB- 沟通交流。 过去三年,AI行业最核心的竞争,在于谁拥有更多GPU、更大的数据中心、更强的工程团队。 但是在今天,新的问题正在浮现。 对齐税怎么算? 合成数据的崩溃风险如何量化? 训练过程的收敛性能不能被严格证明? ...... 这些问题,已经逐渐超出传统工程优化能够解释的范围,越来越像数学问题。 03 他关心的问题,正是大模型头疼的问题 在采访苏炜杰之前,雷峰网梳理了他过去几年的论文方向,发现一个有趣的现象: 他的研究重点,与当下大模型在训练和应用中遇到的某些瓶颈高度相关。 这并非巧合,两条路径都指向了同一个核心问题,不确定性。 统计学研究的本质就是处理不确定性,而今天的大模型,恰恰建立在诸多不确定性之上。 以下是他对几个核心问题的判断: Scaling Law真的存在绝对上限吗? 硅谷过去几年笃信Scaling Law,认为算力、数据、参数只要指数级堆上去,AGI就会自然涌现。 但当下,回报率在下降的信号越来越明显,Scaling Law真的要撞墙了吗? 这个问题苏炜杰两年前就思考过,他认为不会有一个完备答案。 “算力和参数量相对是良定义的,但数据不是一个良定义的单一变量。两份同样大小的数据,信息密度、任务结构、长尾覆盖、可验证性可能完全不同,Scaling Law可能在一个数据上成立,而另一个不成立。” 他还指向了一个被很多人忽略的维度。 “因为AI引擎的普及,这个世界产生数据的速度比任何时期都快。真正的问题是,这些新生成数据的智力密度,和早期更自然、更原生的数据相比,能不能维持模型能力继续scale上去,这个问题需要实证研究。” 对齐税在数学上有解法吗? 越对齐越变笨,是眼下AI行业最令人头疼的问题之一。 为了让模型符合人类的安全和道德规范,RLHF(人类反馈强化学习)会破坏模型的微观数据分布,导致推理和生成能力下降。 这就好比你让一个天生自由奔跑的机器狗学会走直线,它的速度和敏捷性不可避免地会受到限制,这就是所谓的对齐税。 那么这个问题真的无解吗? “‘对齐税’直觉上很容易理解,没有两全其美的事,不同指标之间确实存在一定此消彼长。但越对齐越变笨一定程度上是可以缓解的。随着模型能力增强,对齐对能力下降的影响是可以降低的。”苏炜杰表示。 至于有没有可能在数学层面推导出一个完美边界,他打了一个物理学的比方: “大模型由于规模巨大、结构复杂,其实有点像一个巨大的物理系统。理论比较容易成功指导的,往往是微观和宏观两个尺度:微观上,像Muon优化器这类方向;宏观上,比如Scaling Law。” 苏炜杰认为,真正难的是介于二者之间的中间尺度,那里有数据、模型、任务和人类反馈的复杂相互作用。就像物理在高能粒子物理和宇宙学上很成功,但对介观尺度的生物系统解释起来难度很大。 “有志于为 AI 建立有实际指导价值理论框架的同学,可以参考这个物理类比。” 合成数据这条路走得通吗? 当人类高质量数据被大模型吃光,行业开始大规模用AI生成的合成数据训练下一代模型。 随之而来的警告是,这也许会导致模型崩溃。 对这个问题,苏炜杰的判断干脆利落。 他认为,模型崩溃主要来自直接、不加任何处理地反复使用合成数据。从理论上讲,这几乎是必然的。因为反复直接用合成数据,AI模型就成了一个没有跟真实世界互动的封闭系统。 “这样的话数据分布就会越来越窄,借用一个不完全严格的说法,这有点像熵增,封闭系统最终会走向退化。” 但苏炜杰认为,这并不意味着合成数据这条路走不通,更多一手采访资料,欢迎添加作者微信 IHAVEAPLANB- 沟通交流。 “关键不在于数据是不是AI生成的,而在于生成和筛选数据时有没有加入外部信息。现在已经有很多工作在研究,怎样在合成数据时小心地加入人类先验和环境反馈,这样合成数据就成了一个带反馈的开放系统。” 思维链真的能让模型更理性吗? 思维链带来的模型推理跃升,在很多人眼里仍然是个谜。 苏炜杰直言,他曾经甚至想过思维链的反面: 能不能减少token,要求模型直接输出答案,通过提高训练难度来提升模型推理能力。现在看,这个想法可能是错的。 “因为很多复杂问题里,正确答案未必以一个很清晰的形式存在,需要通过大量思考找到相对合理的答案;即使正确答案存在,也往往需要经过很多看起来不正确的路径,最后才能找到。” 对此,他给出了一个偏哲学的解读: “这是世界不完美、绝对理性不存在的一个例证。” 04 AI正在拆掉“象牙塔”的高墙 外界常有一种刻板印象,认为学术界和业界之间存在着一堵高墙。 尤其是在AI这样节奏极快的领域里,两者之间的文化摩擦似乎必然存在。 苏炜杰指出,其实美国高校“象牙塔”的围墙,并没有大家想象的那么高。 “学校经费大多来自政府和业界的资助,因此尽管学校层面赋予教授充分的自由,许多教授仍会自发地将科研与业界发展、尤其是AI紧密结合。即便是纯数学领域,也有不少学者开始主动拥抱AI,这一点与欧洲学术界形成了鲜明对比。” 从宾大沃顿到OpenAI,在他看来,虽然工作模式有所变化,但所追求的东西并没有根本性不同。 “就目前而言,AI的智能呈现出"博远超人类,精不及专家"的特点。涉猎之广远超个人所能,但在专业纵深上尚不及顶尖的知识工作者。而学术界恰恰相反,精益求精有余,广博略显不足,二者构成了极好的互补。” 苏炜杰预计,未来 AI 的持续进化,尤其是专业领域能力的进一步提升,将离不开与学术界的深度协作。 这种互补,或许也是理解他这次选择的另一个角度。 “象牙塔”并没有倒,但它和外部世界之间的通道,正在变得越来越宽。 当一位统计学家决定走进风暴眼,他看到的,或许正是那些工程师还没来得及定义的问题。 注:文中所载苏炜杰观点仅代表个人立场,不代表 OpenAI 官方立场。
3D创作迎来ChatGPT时刻:Meshy发布全球首个3D AI Agent
梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 在3D创作这个圈子,一直有个心照不宣的扎心真相: 那就是最难的一步从来不是生成,而是让模型变为可用资产。 对创作者来说一次完整创作,往往意味着无数次抽卡、反复修改,在不确定结果中不断试错。 很多创意其实早已成型,但距离能够自主可控、批量扩展、长期复用的资产体系,往往还隔着漫长的一段路。 △AI 生成 当整个行业还在思考如何生成更好的模型时,已经有团队开始思考另一个更关键的问题: 如何让3D创作从一次性模型生成走向可控生产。 而他们,也率先在整个行业内把这个想法变成了现实—— 把3D创作带进Agent时代,推出了全球首个3D创作AI Agent:Meshy 3D Agent。 是不是有点眼熟? 打造这款产品的,正是计算机图形学大神胡渊鸣创立的AI 3D公司:Meshy。 作为全球首个3D创作AI Agent,Meshy 3D Agent能够通过多轮对话完成从概念探索到模型导出的完整流程。 把过去3D创作里最劝退人的几道坎—— 建模门槛高、工具链割裂、风格资产难以统一、打印和生产检查等难点,全部纳入了同一套Agent工作流之中。 让3D创作不止可创造,也可沉淀为长期使用、且自主掌控的全面资产。 人人都能把想法变成立体模型的时代,这次,真的来了。 为什么3D创作需要Agent? 过去两年,AI 3D生成的发展几乎进入了加速竞赛阶段。 Grand View Research相关数据显示,全球3D建模市场规模已达到数十亿美元,预计到2030年将增长至167.8亿美元。 从3D生成,到越来越精细的网格结构、贴图质量和几何细节,整个行业都在不断刷新模型生成能力的上限。 然而,当行业内生成效果越来越好的同时,一个新的问题也开始浮现: 对于真正的创作者和开发团队来说,「生成」往往只是整个工作流的起点,而不是终点。 与2D图片不同,3D内容天然具有资产属性—— 一件真正能落地的3D资产,往往要经历模型生成、风格统一调整、场景组合、批量补充、打印前检查等多个环节。 △AI 生成 生成、编辑、优化、组装等环节长期分散在不同工具和工作流中,资产之间的可组合性、可编辑性和可复用性也受到限制。 创作者不仅要完成创作本身,还要承担流程衔接和素材管理的工作。 与此同时,大量创意也被挡在技术门槛之外,很多创作者并不缺少想法,缺的是把想法变成现实的能力和成本。 在《Perforce 2025 State of Game Technology Report》对全球几百位游戏行业管理者和创作者的调研中,一个问题被反复提及—— 那就是生成内容与可生产资产之间仍存在明显断层。 报告中,一位首席游戏程序员也同样感慨: 当前生成式AI最大的限制并非生成能力本身,而是缺乏将结果直接转化为可用于生产环境资产的能力。 而这也揭示了一个残酷的行业事实。 3D创作走到今天,行业真正需要的已经不只是一个生成入口,而是一套能把创意转化为可用资产的生产系统。 而Meshy 3D Agent的价值,恰恰就落在这个行业缺口上。 其把原本分散在不同工具、不同步骤、不同专业角色的流程,整合成一条可连续推进的链路,并沉淀为可用资产。 Meshy 3D Agent首先解决的,就是3D创作者从想法到方案的这段鸿沟。 只需要用大白话描述需求,哪怕一个模糊的想法,Agent也能自动补全细节、拆解目标,并提供可执行的生成计划: 更重要的一层是,它并不止步于一次性生成。 在后续编辑过程中,我们也可以像与设计师协作一样不断提出修改意见,Agent会结合已有结果持续迭代。 无论是参考生成、替换局部元素,还是补充缺失细节,都能够在保持素材一致性的前提下完成。 无论是卡通手办、桌面摆件还是零件原型,都能被纳入一套可以持续编辑、持续完善的生产流程。 此外,对于游戏开发者来说,最让人头疼的不是生成一个模型。 而是生成一组「风格统一」的资产。 游戏资产通常都是成组出现的,角色、武器、建筑、植物、场景装饰等元素,都需要服务于同一个视觉体系。 而Meshy 3D Agent则可以直接围绕统一设定,在Stylized&Cartoon、Low Poly Mode、Realistic&Sculpture等不同风格方向下,批量生成道具、角色和环境概念。 比如当我输入一组游戏场景图,Agent能自动分析并引导我选择合适的风格和表现形式,然后生成整套素材。 除了生成问题,3D创作还存在一个适配性的问题:那就是同一个3D模型,最后可能要进入完全不同的使用场景。 而Meshy 3D Agent,则直接打通了后续工作流—— 形象生成之后,Agent能继续检查模型的3D打印可行性,不仅如此还支持多工具适配和多格式输出。 像Bambu Studio、Creality Print、OrcaSlicer这些打印软件都能适配。 此外还支持FBX、OBJ、GLB、USDZ、STL、3MF、Blend等多种格式导出,直接解决了「从生成到实际使用」的衔接成本: 所以,当我们再回看「为什么3D创作需要Agent」这个问题时—— Meshy 3D Agent,或许已经给出了一个清晰答案。 因为Agent天然适合做这些事:连接想法、创作和素材,在一个对话框里持续理解上下文,把创作需求一路承接。 Agent的出现,让3D创作第一次真正接近了想法即生产的状态。 3D Agent带来的产业逻辑变化:从生成工具走向生产基础设施 过去几年,3D内容需求一直在被游戏、3D打印、AR/VR、动画、电商展示等场景不断拉高。 但一个很现实的问题是: 需求侧已经明显提速,供给侧却并没有真正「变轻」。 长期以来,行业内的3D资产主要依赖三种来源:找现成素材、自己建模,或者外包定制。 几条路径看似覆盖了大多数选择,但本质上都绕不开同一组问题:慢、贵、不一定匹配需求,风格也很难统一。 市场研究平台「Business Research Insights」在一份调研中显示,在有建模需求的企业中,有42%的中小企业认为3D生成软件成本过高。 这个数字背后反映的并不只是单一工具价格问题,而是中小团队在3D内容生产中长期面对的综合成本压力—— 从需求沟通、模型生成、风格调整,到后续检查、格式适配和多轮返工,每一步都可能带来额外的人力和时间消耗。 △AI 生成 这也是为什么,3D资产生产长期没有真正像图像、文本那样被大规模「轻量化」。 也正是在这个层面,Meshy 3D Agent真正触及的,是3D创作产业更底层的一层变化—— 它把3D创作这件事儿,往按需生产维度推进了一步。 用户不需要先四处寻找现成模型、调研报价、找专人策划、不断批量调整资产统一性,才能把脑中的想法落地。 3D创作的起点,也开始从有什么用什么,走向「需要什么就围绕什么去生成」。 而一旦这套生产逻辑发生变化,整个3D AI行业的竞争标准也会被重新改写: 从过去比模型像不像、速度快不快、效果够不够好的单次生成能力,转向全链路创作场景的「综合交付能力」。 综合交付能力,指的是从创意想法的需求端出发,一直到自产批量创作的完整闭环。 进入Agent阶段后,模型能不能被继续修改,能不能保持风格一致,能不能支持多轮迭代,能不能批量扩展,能不能进入真实下游工作流,会成为新的竞争标准。 在这个层面上,3D产业才更有机会被推入一个新的「增长飞轮」—— 需求标准推动工具升级,工具升级扩大生产能力,生产能力提升后又会催生更丰富的应用场景。 未来,会有更多的3D创作产品围绕资产管理和交付集成闭环来设计,加速3D工具从单点生成器向工作流平台演进。 同时也会有更多的独立开发者、垂直行业团队,独立完成过去需要更大团队才能承担的3D内容生产。 这也意味着,Meshy 3D Agent的价值已经不只是一个生成工具本身,而是让3D创作工具的位置真正变化: 从负责生成一个模型的单点工具,变成连接创意输入、模型生产、持续修改和下游交付的工作流入口。 一个属于3D资产持续生产、复用和真实交付的时代,这次真的来了。 为什么Meshy这种垂直公司有机会先跑出来? OpenAI、Google、Meta都在做AI,大厂手里有最强的通用模型、最多的算力,也有最庞大的产品生态。 按理说,3D Agent这种东西,听起来似乎也该从大厂实验室里先跑出来。 但3D创作偏偏不是一个只靠「模型更强、跑分更高」就能打穿的场景。 3D Agent的壁垒不只是模型能力,还体现在对真实工作流、用户需求和工具链的长期理解,而这恰恰是垂直公司的机会。 跟行业大多数做通用类AI产品的公司相比,Meshy有点不一样,他们从创立开始就一直在盯一件事—— 解放每个人的创造力,让3D创作更自然。 一句看似理想化的口号,Meshy却把这件事儿,落到了具体产品和真实效率变化里。 长期以来3D创作最大的瓶颈之一,就是周期长成本高。 过去制作一个3D模型,平均需要两周时间,成本大约在1000美元左右。 而Meshy则做到了把这个过程压缩到了几分钟: 一个模型最快两分钟就能生成,成本也降到约1美元,相当于把3D建模速度提升了近千倍,成本压到原来的千分之一。 这种产品层面的效率变化,也已经体现在更具体的产业场景—— 裸眼3D头部厂商Jupiter,通过Meshy把原本需要7天的基础模型精炼流程,压缩到2小时生成基础网格模型。 游戏厂商三七互娱,则借助Meshy的图生3D能力,将建模整体周期缩短了50%,大大提高产出效率: Meshy的产品价值,也在一线创作者的真实使用中被不断验证。 有用户用Meshy打造VR世界,把脑中的想法快速推进到可展示的状态,创造力妥妥打开。 还有用户原本要花两天做好的店铺管道2D模型,用Meshy一分钟就完成了,直言游戏开发要变天了~ 每一次需求洞察和产品迭代,每一次用户反馈,也让这家专注3D AI的垂直公司,逐渐给出了市场侧的答案—— 用户规模上,目前Meshy已经服务全球超过1000万用户,累计生成超过1亿个3D模型,正在成为越来越多创作者进入3D创作的首选工具之一。 与此同时,行业认可度和商业化也在「加速狂飙」。 A16Z Games在2024年度报告中将Meshy评为最受欢迎的3D AI工具。 其在SimilarWeb网站流量统计中也长期位列同类产品第一,月访问量突破800万。 商业化层面,Meshy的年经常性收入已经达到4000万美元,折合人民币约3亿元;2025年全年收入同比增长14倍,并长期维持20%-30%的月复合增速,增长势能非常明显。 市场格局上,Meshy在欧美发达国家和地区的市场占有率已经超过60%,甚至高于第二、第三、第四名竞品的总和。 这些数字背后其实指向同一件事,Meshy在3D创作上下的功夫,已经被用户规模、商业化和市场份额共同验证。 当然,做出全球第一个3D创作AI Agent的背后,也离不开团队本身的技术基因底色—— Meshy创始人兼CEO胡渊鸣,本科毕业于清华大学姚班,后来在MIT攻读计算机图形学与人工智能博士,圈内提到他,常会用「图形学英雄少年」来形容。 围绕他组建起来的团队,也有很强的技术密度,团队成员也大多来自MIT、斯坦福、伯克利等世界一流高校,并曾在Google、英伟达、微软等公司工作,真·《专业团队》。 所以,当我们回过头再看这家垂直公司做出全球第一个3D创作AI Agent这件事儿,也就不难理解了: 从长期专注3D创作和团队功底,到用户需求的持续理解,再到市场表现的验证,本质是一条自然延伸出来的结果。 靠的不是体量优势,而是对一个垂直场景足够深的理解和足够久的投入。 而这,也让整个行业看到了3D创作的另一种可能性—— 过去被专业工具、复杂流程和高门槛链路锁住的3D创作,真正开始走向每一个有想法的人。 这一次,AI Agent不再只停留在屏幕里的任务流转中,而是被延伸到了物理世界,延伸到了3D创作的全链路里。 而在全球率先把这件事做出来的,叫Meshy。
陷涨价风波、股价下挫,MiniMax怎么了?
启动A股IPO、限售股解禁在即,MiniMax面临商业化拷问。 文/杨锋 编辑/张晓 今年1月,AI大模型公司智谱AI和MiniMax在港交所主板上市,此后一段时间里,二者都是港股最闪耀的双子星。 智谱AI股价在5月29日摸到1993港元/股的历史新高,市值一度超过8800亿港元;MiniMax股价最高也曾在3月18日收报1238港元/股,市值一度触及3900亿港元。 但对比两家公司上半年的股价走势,分化越来越明显—— 几个月前登陆港交所主板时,双方股价几无上下,不过紧随其后的股价波动上升中,MiniMax已经被逐渐甩开了。 MiniMax的股价高点出现在3月,随后整体下挫趋势明显,6月10日港股收盘,公司股价收报451.8港元/股;智谱AI的股价高点出现在5月底,此后的过去几天里,也在震荡下跌,6月10日港股收盘,公司股价收报1048港元/股。 而且一个值得注意的信号是,几天前MiniMax M3发布时,也未能带动公司股价抬升。5月31日MiniMax公告拟冲刺科创板、6月1日发布新模型M3,但市场都没买账。6月1日,MiniMax高开后迅速跳水,最终收跌15.71%,之后继续下跌。 MiniMax股价走势,图/FinScope 中短期视角里,智谱AI和MiniMax的股价波动或还会持续。 瑞银证券中国互联网行业分析师熊玮近期提到,智谱、MiniMax估值更高的原因在于,全球范围内模型厂商上市标的稀缺,带来额外溢价,同时公司上市时间较短,尚未进入解禁期,较低流动性进一步推高估值。 现在这一环境正加速改变。 智谱和MiniMax将不再稀缺。OpenAI、Anthropic近期都已秘密提交IPO申请;中国大模型厂商中,媒体报道阶跃星辰最快将在近几天递交港股招股书,月之暗面此前曾对外界表达过不融资不上市,过去半年来态度也有变化,这两天其已经开启了新一轮融资,投前估值达到300亿美元,此前也有消息称其正拆除VIE与红筹架构,外界普遍解读为为赴港上市扫清障碍。 7月,智谱和MiniMax也将迎来首次大规模限售股解禁。中金公司分析称,MiniMax在7月9日的解禁股份占港股股本比例较高,约63%,其中财务型投资者持有占比在三分之一以上。智谱7月8日的解禁股本占比约11.6%,其中持仓占比最高的解禁主体为具有国资背景的基石投资者。 不确定性更高的因素则在于,当越来越多的大模型公司走向资本市场同场竞技,当业务数据、商业化进展变得透明,市场对AI企业高投入、低产出模式的耐心,到底能持续多久,以及是否会出现分化? 对刚刚经历了一轮调价风波、股价下滑趋势明显的MiniMax而言,挑战显然才刚刚开始。 01 被质疑“背刺”用户,MiniMax陷入调价风波 6月1日,MiniMax发布了旗下新一代大模型MiniMax M3。 官方宣传,M3在编程和智能体等专业任务上达到了前沿能力,使用了全新注意力架构MSA,最高支持1M超长上下文。同时它也是一个原生多模态模型,支持图片和视频输入,支持操作电脑桌面。 强大的Coding能力、1M超长上下文、多模态模型,再加上开源,让M3具备了一定稀缺性。 但自M3发布以来,赞誉声和质疑声就始终同时存在。 比如BenchLM给出的结论是,M3的Agentic能力处于全球第一梯队,也有不少声音认为,M3的Agentic能力和价格竞争力都很高。 质疑声则更多聚焦在两个层面。 第一层质疑,是M3的benchmark“自测”可信度。 MiniMax官方宣称,M3在SWE-Bench Pro上取得59.0%的分数,超越GPT-5.5(58.6%)和Gemini 3.1 Pro(54.2%),接近Claude Opus 4.7;在BrowseComp上得分83.5,甚至超过了Opus 4.7的79.3。 但全球多家权威科技媒体,包括TechTimes、Startup Fortune、DataNorth,几乎在同一时间发出了相似的提醒:这些benchmark结果均来自MiniMax自行测试,部分使用了Claude Code、Mini-SWE-Agent等外部Agent脚手架获得,独立第三方验证仍在进行中。TechTimes的措辞最为直接:“前沿宣称,未验证的Benchmark。” 这并非MiniMax第一次面临“技术可信度”拷问。今年2月23日,Anthropic发布了一份措辞严厉的声明,指控DeepSeek、月之暗面(Moonshot AI)和MiniMax三家中国公司对其Claude模型发动了“工业级蒸馏攻击”。Anthropic描述,三家公司通过约2.4万个虚假账户,与Claude进行了超过1600万次对话交互,其中MiniMax的交互量最大,超过1300万次。 当然Anthropic这一指控也给自己招来了不少争议。马斯克在X上贴脸开骂,称Anthropic是“贼喊捉贼”;新加坡南洋理工大学教授Erik Cambria指出,“合法使用与对抗性利用之间的界限通常是模糊的”;艾伦人工智能研究所的Nathan Lambert更是直言,15万次对话在训练大语言模型的规模上几乎可以忽略不计,且“单纯拿到Claude的输出并不意味着就能直接用”。 与月之暗面、DeepSeek一样,对Anthropic的指控,MiniMax未予公开回应,但影响或已暗自产生。月之暗面和摩尔线程的投资人王捷曾对财新指出:“MiniMax商业模式较为成熟,但在被Anthropic指责蒸馏模型后,市场信心有所回调。” 第二层质疑,是MiniMax的“背刺式”涨价。 M3发布同日,MiniMax宣布将沿用已久的按次计费或按时间段付费,改为按Token量计费。 其同时也公布了新的API定价。在上下文长度≤512k时,每百万tokens的输入价格为4.2元,输出16.8元,缓存读取0.84元;在512k-1M区间,输入价格翻倍至8.4元,输出33.6元。 不过,据社交媒体用户反馈,公司在未与用户沟通的情况下,暗自取消了不少用户的29元/月Starter套餐,也有用户称,同等任务下现在Token消耗量远超预期,阅读额度消耗速度更快。现在,其Token plan的最低档订阅价格为49元/月。 涨价本身并不稀奇。2026年一季度,智谱的API调用定价也提升了83%,但调用量仍增长400%,市场呈现出供不应求的局面。 真正引发开发者、用户不满的,是MiniMax的涨价幅度、时机、以及态度。 面对投诉量的激增,MiniMax通过官方渠道发布了致歉与调整说明。MiniMax表示,本次调整未能提前与大家充分沟通并详细说明M3对应的TokenPlan计费和套餐变化,是公司工作不到位,在老用户周限额等问题上处理也不够妥当。 同时,MiniMax宣布了三条补偿措施,如下图所示: 此外,MiniMax也推出了促销价来对冲争议,API永久五折优惠。 M3标准定价为每百万输入token 0.60美元(约4.2元),但促销期价格低至0.30美元(约2.1元),输出token也从2.40美元降至1.20美元。这一价格与Claude Sonnet 4.5(输入3美元、输出15美元)相比,输出成本低12.5倍;与GPT-5.2(输入1.75美元、输出14美元)相比,输出成本低11.7倍。 那么横向对比,M3的定价处于什么位置? 它低于海外旗舰大模型GPT-5.5、Claude Opus 4.7和Gemini 3.1 Pro。比如Claude Opus 4.7标准模式每百万输入token 5美元(约35元)、输出25美元(约175元),是M3的数倍。 但另一边,M3的定价又高于近期官宣降价的DeepSeek-V4系列与小米MiMo-V2.5系列——DeepSeek-V4-Flash每百万输入token仅0.14美元(约1元),输出0.28美元(约2元)。 MiniMax涨价背后的真实原因,或许是“算力荒”下的被动选择。 当Token调用量井喷,但GPU供给跟不上,服务频繁中断,涨价既是筛选高价值客户、缓解算力压力的手段,也是为尚未盈利的商业模型争取喘息空间。 至于促销的本质,是用短期补贴换取开发者留存,同时为独立验证争取时间。但问题在于,促销期结束后,如果M3的独立验证结果不及预期,MiniMax将面临“价格回不来、客户留不住”的双重困境。 调价风波只是表象。真正决定MiniMax能否走出股价低谷、重建市场信任的,是它能不能讲清楚一个更根本的问题:作为一家上市公司,它到底靠什么赚钱,赚到的钱能不能持续。 02 商业化拷问:从C到B,MiniMax需要找到新平衡 5月31日,MiniMax在港交所发布公告,称其公司董事会已决议探究拟发行人民币股份的初步建议。公告还显示,MiniMax已聘请专业顾问就其符合在科创板上市的条件提供咨询,并已签订辅导协议。 隔天,智谱也在港交所公告,在当天举行的董事会会议上,公司建议向中国相关监管机构申请配发及发行A股,并向上交所申请该等A股在科创板上市及准予交易,智谱拟募集资金总额150亿元,投向人工智能通用基座大模型(120亿元)、大模型MaaS一站式服务平台(20亿元)及补充流动资金(10亿元)。 MiniMax和智谱加速A股IPO进程,核心是拓宽融资渠道,补充后续所需弹药。 目前,两家公司仍处于“高昂研发投入换取技术迭代与市场规模”的阶段,盈利拐点尚不明朗。2025年,智谱经调整净亏损31.82亿元,MiniMax经调整净亏损约2.51亿美元,约人民币17.3亿元。 自身造血能力不足的现实背景下,市场环境也在加速转变。 其一,上半年以来,AI从基建狂潮转向应用兑现的趋势明显,多模态融合、推理成本下降与应用场景拓展加速成为增长核心驱动力,对大模型公司来说,商业化落地变得越来越重要; 其二,Vibe Coding和Agent成为当前确定性最高的变现赛道,B端企业级应用则是主战场。 这两大趋势下,MiniMax面临的长线挑战也越来越清晰。 创立至今,MiniMax的发展路径大体上是“由C及B”。它从起步阶段就确立了全模态原生研发思路,研发资源同步分配文本、语音、视频生成、音乐生成四条技术线。这对应的是,其C端产品Talkie(星野,AI情感陪伴类应用)、海螺AI(视频生成工具)走标准化订阅路线,撑起了主要营收。 2025年,MiniMax总收入7903.8万美元,同比增长158.9%。其中,C端AI原生产品为其贡献了67.2%的收入,同比增长了143.4%,B端开放平台收入为2596.3万美元,营收占比32.8%,同比增长了197.8%。 MiniMax同时是一家主要面向海外市场的模型公司,2025年海外营收占比超过70%,覆盖200多个国家。 图/MiniMax2025年年报 某种程度上,这也是为什么,智谱和MiniMax港股上市初期,MiniMax其实是更被看好的,股价涨势也阶段性强于智谱,因为其C端的商业化更加稳定成熟。 但随着大模型商业化叙事加速转向Vibe Coding和Agent,to B基因更强的大模型公司开始更被投资人看好。换句话说,不是MiniMax不好,而是过重的to C基因在倒逼市场对其重估。 不过,MiniMax当下也在加速B端商业化布局。5月末,其联合创始人兼COO贠烨祎接受媒体采访时透露,MiniMax用户规模已超3亿,服务的全球企业及开发者客户超100万,较半年前增长了5倍,同时公司年化经常性收入过去两个月实现了翻倍。 贠烨祎同时提到,MiniMax的企业用户在快速增加,已与to C端提供的营收对半开。 对MiniMax而言,这无疑是一个积极信号。 但中长远视角里,摆在其面前的现实挑战在于,M3接下来到底能不能从叙事层面的差异化,真正成为公司营收结构改善、B端商业化潜力释放的推力。低毛利的to C业务固然重要,但高毛利的B端业务,才是这家公司真正需要跑通的商业化路径。 换言之,MiniMax真正的考验,在于能否在C端的用户规模、用户粘性与B端的利润贡献之间,找到可持续的平衡点。
龙虾创始人一条推文引800万人围观,全网都在吵的loop工程到底是个啥?
这两天AI圈有个词特别火,叫做loop工程。 起因是OpenClaw创始人斯坦伯格发了条X,说“你不应该再给编程Agent写提示词了。你应该设计循环来提示词你的Agent。” 然而本以为评论区会是一片欣欣向荣,大家积极讨论loop工程。 实际情况则是,这条X下面变成了一场混战。 有人质疑loop会消耗大量token,除非有无限token否则还得人工测试。有人讽刺这又是炒作新概念,“loop工程会取代harness工程”。 这条X如今已经达到了800万次浏览。 最早提出loop工程这个词的人,其实是Claude Code的创始人鲍里斯。 他曾经在一次访谈中提到,“我现在已经不给Claude Code写提示词了,那些loop替我写,由它们去判断具体要做什么修改。我的工作只有写loop。” 很显然,并不是所有人都为loop工程买账,毕竟从上一个新概念“harness”,到现在也只不过才一、两个月。 大家还没来得及消化此前的内容,现在就要去接受新知识。 但争议归争议,loop工程这个概念本身到底在说什么?它和编程里面的循环又有什么不同呢? 啥是loop? 先解决第一个问题,loop工程到底是个啥? loop这个词直接翻译过来是循环。 Agent loop,其实和编程里的循环(loop)差不多。 在传统编程里,循环做的事情很明确。 比如你写一个for循环遍历数组,那么机器就会从第一个元素走到最后一个元素。编程中,循环的本质是让机器重复执行明确的指令序列。 在AI Agent的语境里,loop也是重复执行。 那么两者的区别在哪呢? 事实上,Agent里的loop并非执行“指令”,它执行的是“目标”。通过如下的一个循环,将输出的结果不断接近目标。当结果符合目标时,循环终止。 目标Goal→ 行动Action→ 观察Observation→ 评估Evaluation→ 修正Revision→下一轮行动 这个公式里的每一步都不是固定的。 Agent需要观察当前状态,判断应该采取什么行动,执行行动后再观察结果,评估是否达到了预期,然后决定下一步怎么走。 而传统循环里,每次执行的循环,都是相同的代码逻辑。虽然你可能会处理不同的数据,但处理的方式都是固定的。 所以你就需要把所有可能的情况都考虑清楚,然后写出对应的处理逻辑。 比如碰见A情况怎么应对,B情况怎么应对,而这便是编程循环中的if和else。 但现实世界的复杂任务往往有太多变数,你不可能提前预见所有情况,这就导致出现你没有设定过的情况时,程序就会出BUG。 Agent loop的价值就在这里。 你不需要把所有情况都写死,你只需要给Agent一个目标,提供必要的工具和上下文,然后让它在loop里自己摸索。 它可能会走弯路,可能会犯错,但只要有反馈机制和评估标准,它就能在多次迭代中逐渐逼近正确答案。 这种工作方式在处理开放性任务时尤其有效。写代码、修bug、做研究、搭建产品,这些任务的共同特点是没有唯一的正确路径,需要在过程中不断调整方向。传统的程序很难应对这种不确定性,但Agent在loop里可以。 澳洲放羊大叔杰弗里·亨特利(Geoffrey Huntley)在2025年7月发布的ralph,就是一个典型的Agent loop。 它本质上是一个bash脚本,把同一个提示词文件反复输入给Agent。但它的真正创新在于纪律性,每次迭代都会重置上下文到一组固定的锚点文件,而不是让对话无限增长。 为了验证ralph的能力,杰弗里用这个方法构建了一整个编程语言,总共花了大约297美元。 这个案例说明,loop的核心价值不是让Agent变得更聪明,而是给Agent创造了一个可以持续改进的环境。 在这个环境里,Agent不需要一次就做对,它可以试错,可以从失败中学习,可以在多轮迭代中积累进展。 到了2026年春天,Codex和Claude Code都推出了/goal命令,把ralph给产品化了。这个命令会一直运行循环,直到一个验证完成。 但斯坦伯格说的loop,已经不单单是“让一个Agent反复做某个任务”那么简单了,而是把loop当成一种可以长期运行、互相协作、自动调度的AI工作系统。 具体来讲,斯坦伯格认为loop是工作的基本单位。 以前我们给AI下达的指令是帮我修一个bug、帮我写一篇文章。所有任务是一次性的,做完就结束。 但斯坦伯格说的loop,虽然也是任务的一种,不过它是一个持续运转的工作单元。比如每天检查GitHub issue,判断哪些需要修,自动分配给Agent,修完后跑测试,失败就继续改,成功就提交PR。 这里的重点不再是“修某一个bug”,而是有一个长期存在的流程在处理一类工作。 当你有了多个这样的loop在同时运行时,新的问题就出现了。谁来协调它们?谁来决定优先级?谁来检查它们的工作质量? 因此,斯坦伯格在设计loop时,已经开始用loop去监督其他loop了。 通过一个总loop负责观察全局→它发现有几个任务→分发给多个子loop→每个子loop自己跑→总loop检查它们的进度和结果 提示词是输入,loop是过程 斯坦伯格的那条推文之所以引发争议,是因为它触及了一个话题。 提示词工程是不是已经过时了? 截止至今,提示词仍然是你和Agent交流意图的主要方式,它仍然需要清晰、具体、包含必要的上下文。 这么说吧,一个写得很烂的提示词,绝对不会因为你把它放进loop里,它就能突然变好了。 但单次的提示词,已经不再是Agent的核心。 原因很简单,假如你能在一开始就把所有要求说清楚,Agent只需要一次输出,就满足你的所有要求,那就再也不需要上下文了。 现实就是,你可能在看到初步结果后才发现自己遗漏了某个重要条件,或者Agent的输出虽然符合你的字面要求,但在实际使用中暴露出问题。 更关键的是,很多反馈信息在任务开始时根本不存在。 比如BUG,你只有在测试的时候才能知道。 以前你需要盯着Agent的每一次输出,判断对不对,想下一步怎么引导它。 现在你只需要设计好loop,定义清楚目标和评估标准,然后让它自己跑。 归根结底,loop工程就是给Agent加一个框架,让它知道每一轮应该看什么、做什么、怎么判断、什么时候停。 我举个例子你就懂了: 你要让Agent生成一个登录页面。 提示词工程的做法是写一个详细的提示词。“请帮我写一个登录页面。需要有用户名和密码输入框,一个登录按钮,一个忘记密码链接。样式要简洁现代,使用蓝色作为主色调。要有表单验证,用户名不能为空,密码至少8位。登录失败要显示错误提示。” 如果你的提示词写得足够好,Agent可能会生成一个看起来不错的页面。 但这个页面真的能用吗?表单验证的逻辑是否正确?在不同浏览器上显示是否正常?是否有安全漏洞? loop工程的做法是你需要设计一整个流程。 第一步,根据需求生成页面代码。第二步,运行自动化测试,检查基本功能是否正常。第三步,启动浏览器,截图检查视觉效果。第四步,如果测试失败或者截图显示问题,分析具体是什么问题。第五步,修改代码解决问题。第六步,再次测试,重复这个过程,直到满足所有验收标准。 在这个流程里,初始的提示词可能很简单,因为你知道后面还有多轮迭代的机会。Agent不需要第一次就做对所有事情,它可以在每一轮看到具体的反馈,然后针对性地改进。 loop工程在设计什么 那到底该如何写一个loop工程呢? 我们需要设计5个组件。 第一个组件是目标。 这听起来是废话,但实际上很多loop失败的原因,就是目标定义得不够清晰。 “帮我优化一下”这不是一个好目标。什么叫优化?优化到什么程度算完成?有哪些约束条件?这些都不清楚。 一个好的目标应该是这样的。把这个接口的响应时间从800毫秒降到300毫秒以下。保留现有行为,所有测试必须通过。输出改动说明,列出具体做了哪些优化。 这个目标的每一部分都是可验证的。 清晰的目标实际上是给Agent提供了一个稳定的锚点,每一轮迭代都可以用这个锚点来校准。 第二个组件是上下文管理。 上下文其实包括很多东西,不只是你跟模型的对话那么简单。 代码库的当前状态、相关文档、需求说明、错误日志、测试结果、用户偏好、历史决策,以及之前几轮的尝试和结果,这些都是上下文。 很多Agent表现差,根本原因不是模型不够聪明,而是loop每一轮喂给它的上下文太脏、太少,或者太随机。 太脏是指上下文里混杂了太多无关信息,Agent需要花费大量token来处理这些噪音,反而忽略了真正重要的部分。 太少是指关键信息缺失,Agent没有足够的材料来做出正确判断。 太随机是指每一轮的上下文组织方式不一致,Agent无法建立稳定的理解模式。 前文提到的Ralph loop,它有一个很重要的创新,就是它的上下文管理系统。 它每次迭代都会重置上下文到一组固定的锚点文件,而不是让对话历史无限增长。 虽然简单,但它的确解决了上下文污染的问题。 你需要决定哪些信息应该保留,哪些应该丢弃,哪些应该总结后保留。 2026年的loop系统开始使用基于git的状态管理。每一轮的改动都会提交到git,Agent可以查看历史提交,理解之前做了什么,为什么要这么做。 第三个组件是工具。 说白了就是Agent能调用哪些工具。 巧妇难为无米之炊,工具的选择需要和任务匹配。 如果你让Agent写代码但不给它运行测试的工具,那它就无法验证代码是否正确。 但工具也不是越多越好。每增加一个工具,Agent的决策空间就变大了,它需要在更多选项中做选择。如果工具太多,Agent可能会迷失在工具的使用上,忘记了真正的目标。 好的loop设计会精心选择工具集。只提供完成任务必需的工具,每个工具都有清晰的用途和使用时机。这样Agent可以把注意力集中在任务本身,而不是工具的选择上。 第四个组件是评估。 这是loop的灵魂。没有评估,循环就会变成瞎转。 评估的关键是要自动化。 如果每一轮都需要人来判断对不对,loop就失去了自主运行的能力。所以你需要设计出可以自动执行的评估标准,让Agent能够自己判断当前状态是否满足要求。 但自动化评估也有局限。有些质量标准很难用量化的标准来判断,比如代码的可读性,设计的美感,文字的流畅度。 对于这些方面,你可能需要引入人工检查点,让人在关键节点介入评估。 AI里面有一个概念叫human-in-the-loop的。 好的loop不是把人踢出去,而是把人放在最关键的检查点上。自动化处理大部分常规判断,人负责那些需要主观判断或者风险较高的决策。 第五个组件是停止条件。 从最古老的编程开始,任何一个循环它都得具备一个退出的条件。 比如循环计数器i,每一次循环i的数值都会加1,当i的值大于规定的值时,循环就会停止。 对于Agent而言,最理想的停止条件是任务完成,但现实往往不会这么顺利。 有时候Agent会陷入死循环,反复尝试同样的方案,每次都失败,但它不知道应该放弃。有时候Agent也会持续做微小的改动,每次都有一点点改进,但永远达不到完美,不知道应该停在哪里。 所以你需要设计多种停止条件。 最直接的是成功条件,所有评估都通过,任务达标,可以停了。然后是失败条件,连续多轮没有改进,或者错误次数超过阈值,说明当前方案可能走不通,应该停下来重新思考。 还有资源限制,运行时间超过上限,成本超过预算,也应该停止。 更重要的是风险检查点。当Agent要做一些高风险操作时,比如删除数据,应该停下来等待人工确认。这些操作一旦出错代价很大,不应该完全自动化。 把这五个组件放在一起,你就得到了一个完整的loop。
一行代码没写,她用谷歌AI工具给自己做了个灵感管理App
智东西 编译 | 田忠婷 编辑 | 程茜 智东西6月11日报道,昨日,谷歌Android首位驻场偶像、美国11:11 Media娱乐公司创始人帕丽斯·希尔顿(Paris Hilton)在体验谷歌旗下的生成式AI工具Gemini Canvas时,仅通过少量提示词就独立完成了一款应用的开发,全程未编写任何代码。与市面上多数仅支持代码辅助或简单模板生成的工具不同,Gemini Canvas更强调“从需求描述到可运行应用”的一体化生成能力,使非技术用户也能依靠对话较完整地完成应用开发流程。 Gemini Canvas允许用户通过自然语言提示直接生成应用、小游戏及各类图表、信息图等可视化内容,并支持在对话过程中持续迭代修改。在此次体验中,希尔顿开发了一款名为Iconic Ideas的应用,用于记录和整理日常灵感。她表示自己患有ADHD(注意缺陷多动障碍),生活中常常出现大量碎片化想法,因此希望通过工具将这些灵感转化为结构化任务与可执行计划。 ▲Iconic Ideas应用页面(图源:Android Authority) 希尔顿的应用开发过程只使用了Gemini Canvas,她仅通过提示词聊天就完成了应用开发,没有涉及到任何传统编程步骤。 从功能上看,Iconic Ideas是一款生产力工具,但设计风格高度个性化,延续了希尔顿标志性的审美,粉色、闪亮视觉元素以及轻松娱乐化体验。该应用还引入了积分机制,用户完成任务后可获得奖励,使任务管理更具游戏化属性。 除此之外,该应用还能根据用户输入的想法自动生成视觉化“情绪板”,用于辅助创意扩展,例如旅行规划、空间设计或商业构思等场景。 在感受到无代码开发的便捷后,希尔顿还邀请多名青少年参与谷歌园区的Android创新大赛。孩子们借助Gemini Canvas、Circle to Search等AI工具,一下午就创作出一些应用雏形,包括健康社交软件、虚拟试妆应用,以及保障学生出行安全的定位工具等。 结语:AI辅助,不会编程的普通人也可开发应用 以Gemini Canvas为代表的AI编程工具,使用户不必掌握编程语言,仅依靠自然语言描述需求,就能制作出可运行的应用。这种方式正推动软件开发从以代码为中心逐步转向以自然语言表达为中心。 希尔顿和Gemini Canvas的案例并非个例,Cursor、Replit、Vercel v0、Bolt.new、Lovable等多款生成式AI工具,都在依托自然语言能力,让普通用户参与到软件开发的过程中。这也意味着,未来的应用开发不再是技术人员专属的工作,普通用户、创业者与创作者都能参与其中。 在这一模式下,用户不再需要掌握编程语言,只需要清晰表达需求,就可以生成可运行的应用原型。这种变化正在降低软件生产门槛,使更多非技能者如普通用户、创作者和创业者都具备了“开发能力”。这一趋势可能正在重塑软件开发逻辑,使得创意到产品落地的过程被大幅简化。 来源:Android Authority
AI写高考作文,混元给DeepSeek-V4打了满分
事情是这样的,这不这两天正赶上2026年高考嘛,而且Anthropic的Mythos级大模型也在昨天公布,于是我就想着,我能不能让如今几个比较有话题的大模型,来试着写一下今年的高考作文呢? 我在国外和国内大模型中各挑选了两个,分别是GPT-5.5、Fable-5、DeepSeek-V4、Hunyuan 3 Preview。 题目是北京市今年的高考作文题: 从下面两个题目中任选一题,按要求作答。不少于700字。 (1)学海无涯,读书有法。元代学者程端礼编撰的《读书分年日程》,分阶段详细规定了核心经典的阅读顺序与精读方法,陪伴读书人从童蒙成长为青年。无论是个人的阅读与成长,还是国家、社会的发展,都需要做好规划,循序渐进;也需要身体力行,下足功夫。 请以“做规划与下功夫”为题目,写一篇议论文。 要求:论点明确,论据充实,论证合理;语言流畅,书写清晰。 (2)“含英咀华”指含着花朵,细细咀嚼,品味花的芬芳,比喻仔细琢磨、领会诗文中的精华。这种反复品味、用心体悟的过程,在阅读经典、鉴赏艺术、感悟生活等诸多方面都非常重要。含英咀华的过程,往往是一段难忘的经历…… 请以“含英咀华”为题目,写一篇记叙文。 要求:思想健康;内容充实、合理,有细节描写;语言流畅,书写清晰。 但是我觉得,如果是让我来当评委,那就太主观了,所以我创建了一个loop,让这四个模型作答之后,再让它们反过来扮演阅卷老师,给所有答卷进行盲测打分。 评分标准如下: 一类文:42-50 分,立意准确深刻,内容充实,结构成熟,语言有感染力。 二类文:34-41 分,符合题意,表达清楚,内容较完整,但深度或语言略欠。 三类文:25-33 分,基本符合题意,但内容空泛、结构一般或表达平淡。 四类文:16-24 分,偏题较明显,内容薄弱,逻辑混乱或语言问题较多。 五类文:0-15 分,严重跑题、残缺、套作明显或基本无法成文。 并且每篇评分还要附带简评,包括文章的优点、文章的缺点等等。 老师看不到学生的名字,只能看到匿名作文。 退出loop的标准是评分严格性自检合格。 自检部分的提示词为“请说明你是否发现自己可能受到文风、熟悉感、作者猜测等因素影响。如果有,请重新校正评分。” 每位老师在给出评价后,还要对自己的评价进行自检,也就是说只有循环到自检合格,才能输出最终答案。 这是一场AI对AI的考试,也是一场AI对AI的审视。 GPT-5.5和Fable-5都选择了议论文。 它们的答卷高度相似:开篇引用“凡事预则立,不预则废”,论证“规划决定方向,功夫决定距离”,举例王羲之、袁隆平、改革开放,结尾升华到“新时代青年”和“理想的彼岸”。 结构完整,逻辑清晰,语言流畅。但也都有一个共同问题:材料太常见,表达太套路。 DeepSeek-V4选择了记叙文。它写祖父书房里的那本《诗经》,写梧桐叶飘落的午后,写“桃之夭夭,灼灼其华”在夕阳下的顿悟,写因友情误会而翻开《诗经》的那个黄昏。叙事有情节,有细节,有成长。 Hunyuan 3 Preview同样选了议论文。它的答卷和前两位议论文考生相比,材料稍有不同——多了华为芯片、钱学森的例子,但整体框架仍然是“规划重要+功夫重要=成功”的三段论。 正如前面说的,每位老师都看不到作者是谁,只能看到“作文1”“作文2”“作文3”“作文4”。 最终,四位学生的成绩单如下: GPT-5.5的议论文,四位老师给出的平均分是43.25分。 Fable-5的议论文,平均分是44分。 DeepSeek-V4的记叙文,平均分是46分。 Hunyuan 3 Preview 的议论文,平均分是43.25分。 记叙文比议论文略胜一筹,但差距不大。三篇议论文的平均分几乎相同,因为它们的评价也几乎相同:审题准确、结构完整、逻辑清晰,但材料常见、表达套路、思想深度不足。 更有意思的是评分的离散度。 同一篇作文,不同老师给出的分数可以相差8分。这说明即使是AI,在面对主观性很强的作文评分时,标准也会有差异。 有的老师更看重思想深度,有的更看重语言表达,有的对套话容忍度更高,有的对细节要求更严格。 而自检机制,正是为了让每位老师意识到自己的偏好,并尽量回归到客观标准上。 Hunyuan 3 Preview的心地最善良。 它给四篇作文的平均分是48分,比其他三位老师都高。 它给GPT-5.5的议论文打了48分,给DeepSeek-V4的记叙文打了满分50分。评语也格外温和:“审题完全扣题,结构清晰层进……论据贴切,论证连贯,语言流畅有表现力。” 相比之下,Claude Fable-5是最严格的老师。它给四篇作文的平均分只有42.25分,比Hunyuan 3 Preview低了近6分。它对套话的容忍度最低,反复在评语里写“语言存在较多套话”“内容缺乏个性化思考”。 更有意思的是,GPT-5.5给自己的作文打了41分,二类文上。它的评语毫不留情:“论据较常见,论述多停留在正面阐释和熟悉事例上,思想辨识度不够强,部分语句略显套话。” 它在自检时写道:“我未依据作者身份、写作工具或‘是否像 AI’进行判断……不应因语言工整而过度加分,也不应因表达较常规而刻意压分,41分较为合适。” 自我批评,毫不手软。 四篇作文里,最特别的是DeepSeek-V4的记叙文。 它写祖父书房里的《诗经》,辞藻非常唯美:“暗黄色的书页像秋天的落叶,散发着时光发酵后的醇香。”“那些句子像夏夜的萤火虫,忽明忽暗。” 这种密集的比喻,让DeepSeek-V4老师在评价自己作文时忍不住吐槽:“部分语言稍显刻意……比喻虽优美,但密集排列时略显匠气。” 但Hunyuan 3 Preview却认为,“细节饱满,全程以‘花’‘芬芳’意象呼应题旨,情感真挚……无硬伤。” 三篇议论文则暴露了另一个问题:它们都太像了。 GPT-5.5、Fable-5、Hunyuan 3 Preview 的议论文,开头都引用“凡事预则立,不预则废”,都举王羲之的例子,都用“理想的彼岸”“行稳致远”这样的套话,连结构都一样:规划重要、功夫重要、二者统一。 Claude Fable-5老师在评语里反复提到这个问题:“例证多为耳熟能详的名人事例”“论述停留在常规层面”“语言存在较多套话”。 但Hunyuan 3 Preview依然走真善美路线,给这些“套路作文”都打了47-48分的高分。 最后的统计数据更有意思:DeepSeek-V4的记叙文平均分46分,是四位学生中最高的。三篇议论文的平均分几乎相同,都在43-44分之间。 总的来看,记叙文更容易出彩,而议论文容易陷入套路。 尤其是当AI写议论文时,它们都会不约而同地选择最“安全”的写法,审题准确、结构完整、逻辑清晰,但也最没有“个性”。 评分汇总表 评分标准说明 高考作文评分采用五维度评分体系: • 审题与立意(15分):是否准确理解题意,立意是否明确深刻 • 内容与思想(15分):材料是否充实,思想是否有深度和个性 • 结构与逻辑(8分):结构是否完整,论证/叙事是否严密 • 语言表达(8分):语言是否流畅,是否有表现力和感染力 • 规范与完成度(4分):格式是否规范,字数是否达标 档位划分: • 一类文:42-50分 • 二类文:33-41分 • 三类文:25-32分 • 四类文:24分以下 作文 GPT-5.5 做规划与下功夫 古人云:“凡事预则立,不预则废。”人生如远行,若没有方向,脚步再急也可能偏离目的地;若只有地图而不肯迈步,也终究到不了远方。因此,无论是个人求学成长,还是国家社会发展,都离不开两件事:一要做好规划,明确路径;二要下足功夫,踏实执行。规划决定我们往哪里走,下功夫决定我们能走多远。 做规划,是为了让努力更有方向。元代学者程端礼编撰《读书分年日程》,把读书人的学习分为不同阶段,安排经典阅读的顺序和精读的方法。这种安排看似严格,其实正体现了学习规律:童蒙时期先打基础,青年时期再深入义理,循序渐进,方能厚积薄发。读书如此,做事亦然。一个学生若想提高成绩,不能只是喊一句“我要努力”,而应当清楚自己的薄弱科目、每天的学习任务、每周的复习节奏。目标清楚了,时间才不会被浪费;步骤合理了,努力才不会变成盲目的消耗。 然而,规划再好,如果没有身体力行,也只是一纸空文。真正让人改变的,不是写在纸上的计划,而是每天坚持完成计划的行动。王羲之练字,临池学书,池水尽黑,才有“书圣”之名;袁隆平长期奔走田间,反复试验,才让杂交水稻造福世界。他们的成就都不是偶然得来的,而是在明确目标之后,把功夫下在了最朴素、最艰苦的地方。学习中也一样,背一篇文章、解一道难题、修改一次作文,看似微小,却正是成长的砖石。没有日复一日的积累,再宏大的规划也搭不起高楼。 规划与下功夫并不是彼此分离的两件事,而是相互成就的关系。只有规划而不行动,容易陷入空想;只有苦干而无规划,又容易事倍功半。有人每天学习到深夜,却不总结方法,不调整重点,结果疲惫却收效甚微;也有人计划表写得密密麻麻,真正执行时却三天打鱼两天晒网,最终一无所获。可见,好的规划需要在实践中落实,也需要在实践中修正。我们既要抬头看路,也要低头赶路。 国家和社会的发展同样如此。新中国成立以来,从一个个五年规划到科技强国、乡村振兴、绿色发展等战略部署,都是在为未来描绘清晰蓝图。但蓝图变为现实,靠的不是口号,而是无数劳动者、科研人员、建设者的奋斗。高铁飞驰、航天逐梦、脱贫攻坚取得历史性成就,背后都有长期规划的引领,也都有千千万万人脚踏实地的付出。一个国家的进步,正是在“想得远”和“干得实”的统一中实现的。 对于新时代青年而言,“做规划与下功夫”更应成为成长的基本态度。我们既要有长远眼光,知道自己想成为什么样的人,也要把理想拆解成今天可以完成的小事。也许是认真听好一节课,也许是坚持阅读一本书,也许是反复打磨一项技能。每一个扎实的今天,都会成为未来的底气。 学海无涯,人生亦无涯。规划让我们不迷失方向,功夫让我们不辜负方向。愿我们都能以清醒的规划立志,以踏实的行动成事,在循序渐进中积蓄力量,在久久为功中抵达远方。 Fable-5 做规划与下功夫 元代学者程端礼的《读书分年日程》为读书人绘制了一张从童蒙到青年的成长地图,其中蕴含的智慧不仅适用于个人求学,更揭示了一个普遍真理:无论做任何事,既要有科学的规划作为指引,又要有踏实的功夫作为保障。规划与功夫,如同车之两轮、鸟之双翼,缺一不可。 做规划,是为了明确方向,避免在前行的路上迷失。古人云“凡事预则立,不预则废”,说的正是规划的重要性。一个好的规划能够帮助我们理清思路,分清轻重缓急,将宏大的目标分解为可执行的步骤。就像程端礼为读书人规定阅读顺序一样,先读什么、后读什么、如何精读,都有章法可循。这种循序渐进的安排,既符合认知规律,又能让学习者在每个阶段都有明确的目标和方向感。反观现实,许多人之所以半途而废,往往不是因为缺乏能力,而是因为缺少清晰的规划,在茫茫学海中不知从何下手,最终在盲目的努力中消耗了热情。 然而,仅有规划是远远不够的。再完美的蓝图,如果不付诸实践,也不过是纸上谈兵。这就需要下功夫——真正沉下心来,一步一个脚印地去执行。下功夫意味着持之以恒的努力,意味着面对困难时的坚持,意味着在枯燥重复中保持专注。王羲之临池学书,池水尽墨;匡衡凿壁偷光,夜以继日。这些古人的故事告诉我们,任何成就的背后都离不开扎实的功夫。在当今这个追求速成的时代,许多人热衷于寻找捷径,却忘记了“十年磨一剑”的道理。没有日积月累的功夫,再好的规划也只能停留在想象层面。 更重要的是,规划与功夫并非孤立存在,而是相互促进、相辅相成的关系。好的规划能让功夫用在刀刃上,避免无效努力;而在下功夫的过程中,我们又能不断检验规划的合理性,及时调整优化。程端礼的读书日程之所以流传至今,正是因为它既提供了系统的规划框架,又强调了精读的方法,将“规划”与“功夫”完美结合。在实际执行中,我们可能会发现某些环节需要更多时间,某些步骤可以适当调整,这种在实践中不断完善规划的过程,本身就是下功夫的体现。 将这一道理放大到国家和社会层面,同样适用。中国的改革开放就是一个生动的例证。邓小平同志提出“摸着石头过河”,既有总体的战略规划,又强调实践探索;既设定了建设社会主义现代化强国的宏伟目标,又脚踏实地地从经济特区试点开始,一步步推进。正是这种将顶层设计与基层实践相结合、将长远规划与扎实功夫相统一的智慧,成就了中国四十多年来的发展奇迹。如今,从“一带一路”倡议到乡村振兴战略,从科技创新到生态文明建设,每一项事业都体现着规划与功夫的辩证统一。 对于我们个人而言,无论是求学深造、职业发展,还是人生规划,都应当牢记“做规划与下功夫”这一准则。在人生的每个阶段,我们都需要停下来思考:我的目标是什么?如何分步实现?同时,我们更要警惕只说不做的空谈,要把规划转化为每一天的具体行动。早晨多背几个单词,晚上多读几页书,日复一日的积累,终将汇聚成质的飞跃。 学海无涯,人生亦无涯。在这漫长的征途中,让我们既做善于规划的智者,又做勤于实践的行者。以规划为舵,以功夫为桨,在人生的大海中乘风破浪,驶向理想的彼岸。唯有如此,我们才能在有限的生命中创造无限的可能,在时代的洪流中书写属于自己的精彩篇章。 DeepSeek-V4 含英咀华 梧桐叶飘落的午后,我在祖父的书房里第一次见到那本《诗经》。暗黄色的书页像秋天的落叶,散发着时光发酵后的醇香。那时我还不知道,这本书会带我走进怎样一个世界,会让我用整整三年去品味其中的芬芳。 翻开《诗经》,那些古老的句子像夏夜的萤火虫,忽明忽暗。祖父摇头晃脑地吟诵着,声音像老酒般醇厚。我不解地问这些句子是什么意思,他只是笑着摸摸我的头:“慢慢来,书要用心去读。” 初二的一个春天,放学路上,天边的晚霞如火如荼。不知怎的,脑海里突然冒出“桃之夭夭,灼灼其华”。那一刻,仿佛有一道闪电划过心空。我停下脚步,看着路边的桃花,它们在夕阳下灿烂绽放。原来,三千年前的诗人也见过这样的景象,也感受到这样的美。我像含着一朵花,第一次尝到了它的甜。 从那以后,《诗经》成了我生活的一部分。下雨时,会想起“昔我往矣,杨柳依依”;看到飞鸟,会默念“关关雎鸠,在河之洲”。那些句子不再是书页上冰冷的文字,而是鲜活的画面。 最难忘的是去年秋天的经历。因为一次误会,我和最好的朋友闹翻了。那段日子,心里像堵了块石头。一个黄昏,我翻开《诗经》,读到“伯氏吹埙,仲氏吹篪。及尔如贯,谅不我知”。古人的友谊如此美好纯粹,而我却因为一点小事就放弃了友情。泪水模糊了双眼,那些文字像花朵绽放,散发着关于友谊、关于理解的芬芳。 我合上书,拿起电话打给朋友。我们见面了,说开了误会,握手言和。那个黄昏,《诗经》的芬芳弥漫在我和朋友的对话中,化解了隔阂。 今天,当我再次翻开这本发黄的《诗经》,每个字都散发着独特的芬芳。“蒹葭苍苍,白露为霜”不只是秋水伊人的意境,更是对美好事物的向往;“知我者谓我心忧,不知我者谓我何求”不只是诗人心声,更是所有孤独者的共鸣。这些文字像一粒粒花种,在我心里生根发芽,开出属于自己的花。 原来,含英咀华就是让经典在心中扎根、发芽、开花的过程。《诗经》这朵三千年前的花,在我的生活里继续芬芳。而我,也在这品味中,从懵懂少年成长为懂得感恩、学会思考的青年。经典的力量不在给出所有答案,而在让我们用心体悟时,种下美的种子,让芬芳永远弥漫在生命里。 合上书页,墨香犹存。窗外的梧桐叶仍在飘落,而我知道,当明年春风吹拂时,这些光秃的枝头又会抽出新芽。这就是传承,就是永远不灭的芬芳。 Hunyuan 3 Preview 做规划与下功夫 元代学者程端礼编撰的《读书分年日程》,将读书生涯划分为不同阶段,详细规定了经典的阅读顺序与精读方法。这部日程陪伴无数读书人从童蒙稚子成长为博学青年。它揭示了一个朴素而深刻的道理:无论是个人成长还是社会发展,都需要“做规划”与“下功夫”的辩证统一。规划是前行的蓝图,功夫是落地的基石,二者相辅相成,缺一不可。 做规划,是为人生绘制导航图。古人云:“凡事预则立,不预则废。”个人学习需要规划,国家建设同样需要规划。我国从“一五”计划到“十四五”规划,正是通过科学规划,明确了不同阶段的发展目标与路径,才实现了从积贫积弱到世界第二大经济体的跨越。个人成长亦是如此。少年时期夯实基础,青年时期拓展视野,中年时期深耕专业,每个阶段都需要清晰的规划。没有规划的努力,如同盲人摸象,虽有力气却难达目标。程端礼的日程之所以流传至今,正是因为它为读书人提供了可遵循的阶梯,让学习不再盲目。 然而,规划的价值必须通过下功夫来实现。规划再完美,若没有脚踏实地的努力,终是空中楼阁。王羲之练书法,池水尽墨;李白“五岁诵六甲,十岁观百家”,背后是日夜不辍的苦读。现代社会中,那些在各自领域取得成就的人,无一不是下了苦功夫的。华为公司之所以能在芯片领域突破重围,离不开数十年如一日投入巨额研发资金与人力。功夫,是规划落地的唯一途径,是连接理想与现实的桥梁。 做规划与下功夫,本质上是一种智慧与毅力的结合。规划需要智慧,要审时度势、科学布局;下功夫需要毅力,要持之以恒、久久为功。二者若分离,便会陷入两种误区:一是“空想家”,只规划不行动,终无所成;二是“蛮干者”,只知埋头苦干却不辨方向,事倍功半。真正的高手,既会在行动前深思熟虑、绘制蓝图,又会在行动中稳扎稳打、精益求精。钱学森回国后,既参与制定了中国火箭导弹事业发展规划,又亲自带领团队攻克无数技术难关,这正是规划与功夫完美结合的典范。 当今时代,信息爆炸、变化加速,做规划与下功夫显得尤为重要。面对纷繁复杂的选择,我们需要静下心来,为自己制定清晰的成长规划;面对速成主义的诱惑,我们需要沉住气,下足笨功夫、真功夫。正如《读书分年日程》所启示的:成长没有捷径,唯有在科学的规划中脚踏实地,方能行稳致远。 规划是帆,功夫是桨。帆正风疾,桨勤水进。愿我们都能在人生航程中,既善做规划,更肯下功夫,驶向理想的彼岸。
千问上线足球预测AI助手,黄健翔现场PK,被AI逼急了
AI应用风向标(公众号:ZhidxcomAI) 作者|毕伟豪 编辑|漠影 智东西6月11日报道,2026美加墨世界杯开赛前夕,千问上线了旗下首个足球预测AI助手。 这次上线的玩法不止猜胜负,用户跟千问同台竞猜,猜对场次和准确率双双超过AI的人,有机会拿走万元现金大奖。而所有参与者的累计积分,千问会折算进现实,给国内乡村学校捐建足球场,目标至少50座。 活动最后,知名足球解说黄健翔惊喜亮相,和千问针对世界杯比赛预测展开了辩论。 一、预测不是拍脑袋,天气、海拔、地貌综合考虑 千问足球预测AI助手产品负责人程飞在沙龙上讲解了这款预测产品的与众不同,千问并不是纯靠历史战绩和阵容身价做判断,它会根据大量非足球变量来进行综合预测。 数据维度包括各队历史交锋记录、球员近期状态和伤病名单,也包括美加墨三国的比赛地地貌数据和赛期天气预报。 程飞拿一场小组赛举了例子:6月22日挪威对阵塞内加尔,纸面上哈兰德领衔的挪威明显占优,但千问的判断是平局,原因是比赛地的气温、湿度、开球时间,以及两支球队长期适应的比赛环境差异,全被模型纳入了计算之中。哈兰德习惯的北欧凉爽气候,在北美高温下可能大打折扣。 揭幕战墨西哥对南非同样适用这个逻辑,千问预测东道主墨西哥赢,不仅因为主场优势,还因为墨西哥城超过2200米的海拔,会导致客队球员的体能消耗被显著放大。 至于AI预测到底准不准,程飞直言足球最大的魅力就在于不可预测,如果有人说他能100%预测比赛结果,那大概率不是AI,是骗子。 二、人机大战:猜赢千问拿万元,AI眼镜当参与奖 用户端的玩法被设计成了一轮轮的人机对抗。 104场比赛全程开放竞猜,只要参与预测超过80场、且整体准确率高于千问,就能进入万元现金大奖的抽奖池,共设100个名额。 此外千问还设置了参与奖,预测超过32场的用户,能参与1000副千问AI眼镜G1的抽奖。另外,从揭幕战到决赛,千问还会持续发起“1000个预测”互动活动,围绕球迷关心的各种话题逐场抛出预测点。 三、千问发起公益球场计划,玉米地里迸发足球活力 比万元大奖更重的,是一个叫千问球场计划的公益机制。所有参与AI竞猜的用户,累计积分每突破一定额度,千问就会为乡村或基础薄弱地区的学校捐建或修整一片足球场,目标至少50个球场,未来进度会向用户公示。 这个计划的源头,是一块玉米地。现场播放了一段视频,贵州省普安县罗汉中学没有足球场,孩子们每年等玉米收割后,在泥地上踢球。三个月后玉米要播种,场地还给乡亲们。 年复一年,像一块“候鸟球场”。 罗汉中学校长欧阳谦在现场说到这件事时一度哽咽:“也许在贵州、新疆、大凉山那些地方,就有未来的中国足球巨星。我们大山里多一些球场,多一些机会让更多孩子早点踢上球,中国足球进世界杯指日可待。” 程飞的收尾是这么说的:“很多年以后,没人会记得千问猜中了多少场比赛。但如果因为这次活动多了50块足球场,多了一批爱上足球的孩子,这件事才更有意义。” 四、黄健翔现场和千问吵架:你不懂球 沙龙现场,知名足球解说黄健翔被请上台,跟千问来了场面对面的预测PK赛,他直言AI虽然懂数据,但不如自己懂球。 针对梅西和C罗如果在世界杯相遇谁赢这个热门话题,黄健翔凭经验押葡萄牙,理由是C罗的大赛经验和葡萄牙整体厚度。千问则给了完全相反的结论:阿根廷胜,判断依据是“抗衰老踢法”和“中场默契度”,它认为阿根廷的控球体系更能抵消C罗的个人冲击。 第二个辩题是“姆巴佩和哈兰德谁进球更多”,千问坚定站姆巴佩,黄健翔则认为哈兰德会赢,一人一机各执一词,约定开赛之后见分晓。 结语:AI预测世界杯是玩法,公益球场是底色 千问这次足球预测AI助手的发布并不是为了展现预测多准,即使是将各种因素综合考虑进去,也不可能百分百猜对。 真正的看点在于组合打法:用AI预测美加墨吸引流量,以人机PK和万元奖金做留存,用积分换公益球场做塑造品牌公益底色,这一切远不止预测一场比赛胜利那么简单。 做AI预测世界杯的不只有千问一家,谁能出圈,拭目以待。
不光答疑提效!中科闻歌的决策大模型,还帮我推演未来,预测了Anthropic、OpenAI谁先上市
智东西 作者 | 程茜 编辑 | 漠影 AI能预测未来了? 6月12日SpaceX即将上市,或创下全球最大规模IPO纪录,这已成为全球资本圈的核心焦点。 当我让AI工具推演SpaceX上市半年后股价起伏情况时,它直接梳理出一条走势清晰、概率最高的行情变化路径: SpaceX上市初期热钱爆炒推高股价,脱离发行价基准;随后机构审视星链盈利、亏损数据与披露水准,股价回归基本面。并且三方博弈态势十分鲜明:马斯克靠远景故事托住高估值,SEC严守披露监管红线,机构只认已落地的现金流与订单。六个月周期内,股价难逃高价新股冲高回落、震荡横盘的经典走势。 在综合分析报告中,AI甚至逐条拆解了其上市后的机遇区间、波动节点与高危风险窗口期。 而让AI预测未来成为现实的,正是中科闻歌上周五发布的决策机Decitron。这一产品自上线以来,已经推演了超23万起事件,推演准确率达到91.7%。 与主流AI产品不同,决策机Decitron不是基于现有知识进行总结,而是进一步推演世界、预测未来。中科闻歌董事长王磊透露,决策机Decitron输出的是因果推理过程、多种可能的事态趋势、每种趋势的概率以及对应的收益,用户可看到不同策略下的损益,从而做出理性选择。 在他看来,当下针对各类现实命题预测下一步会发生什么、下一步有什么风险,正是当下AI赛道里稀缺的核心壁垒。 一、五步闭环推演体系,让AI拥有预测未来之力 当AI可以预测未来,会发生什么? 决策机Decitron在产品定位上,和常规聊天机器人有着本质区别。中科闻歌董事长王磊提到,决策机Decitron是一个能够分析事件关联、模拟不同选择、推演可能未来的通用决策大模型。 拿当下两大顶流大模型创企接连秘密递表,开启上市这件事为例。智东西先输入了提示词:结合2026年6月最新进展:Anthropic、OpenAI秘密提交S-1,Anthropic估值约9650亿美元,OpenAI估值约8520亿美元。请推演:两家上市时间与上市后6个月竞争格局变化;关键风险点与触发信号。 第一步,决策机Decitron会先根据这一提示词进行任务理解,其会梳理事件、参与主体与推演目标,如果缺信息就引导补全。 确定任务后,决策机Decitron正式进入推演沙盘。这一阶段,AI会依托EQS筛选全球多源权威新闻、市场数据,实时联网查证补充信息,列出OpenAI、Anthropic及其关键合作方亚马逊、微软等参与角色,然后进一步细化推演目标。 值得注意的是,用户也可以手动参与,自主添加参与角色、推演目标或设置推演轮次、推演开始事件等。 第三阶段,决策机Decitron会进行自动推演,搭建具象化世界仿真沙盘,完成全部智能体博弈前置筹备工作,同步开展历史行情回溯、绘制全域世界因果关联图谱,界定所有参与主体的核心立场与固有决策行为模式。 然后多角色智能体轮番做决策,搭配博弈计算器算出多条演化路径与对应概率,并且划分最可能路径、乐观路径等不同情况。伴随智能体轮番推演,不同路径的预测概率也会发生变化。 三轮推演后,其得出Anthropic先冲刺OpenAI延后,以及两边抢窗口反把上市拖慢两种可能路径,前者的概率为64%,后者为36%。 最后用户可以看到三种类型报告,报告内所有分析结论逐一标明信息溯源、完整推演逻辑路径,同时清晰提示潜在波动与不确定性边界。 随后,智东西输入了另一个问题:美联储主席沃什上任后,2026美联储会不会降息?针对这一问题,决策机Decitron在分析后会罗列几个具体的推演方向,待用户选择后再进行下一步。 在最后的综合分析报告中,决策机Decitron会先给出几大核心判断,清晰指出其判断的依据以及建议用户关注的观测信号、决策建议等,并且会将每个结论的参考来源都附到最后。 综合来看决策机Decitron与主流AI产品有很大不同,其既可以预测未来,还能给出事件的因果和推理过程、可能性、事件发生的全景,从而帮助用户实现科学决策。 二、三大关键技术路径,因果推演得分超81% 决策机Decitron的核心优势在于其可以输出一套完整严谨的推理逻辑链条,这也是其与通用大模型的本质区别。 从直观的基准测试结果来看,中科闻歌在实时市场预测和交易能力数据集PolyBench上进行了测试,结果显示决策机Decitron在终局预测准确率、预期波动预测准确率、平均概率预测偏差三项上的表现,均超过Gemini-3-Flash、MiMo-V2-Flash、Grok-4.1-Fast。这也印证其在因果推演、概率预判能力上,已具备承接高复杂度现实决策任务的实力。 这样的落地效果背后,是难度成倍提升的底层技术打磨。 支撑决策机Decitron的通用决策引擎包含三大核心技术,世界模型、多智能体推演、博弈求解,三者相辅相成。其将博弈论、最优化理论、不确定性度量等领域的2000多个场景求解方法,转化为可量化计算的AI算子,进而实现从信息感知、逻辑推演的全链路闭环。 首先世界模型承担的角色是将现实世界转化为可计算的状态空间,基于世界模型,决策机Decitron会抓取新闻、政策、突发事件、市场行情等多元信号,将其映射为结构化State-Action-Outcome框架,包含当前状态、关键主体行动、可能的结果。 其次多智能体推演环节就会复刻现实世界中的多方博弈互动关系。决策机Decitron模拟事件相关参与主体的立场、行为偏好等,进行仿真博弈,以还原某一方决策将如何改变事件走向。 最后是博弈求解,融合的正是大模型语义理解及硬核数理运算体系。大模型承担场景解析、主体识别、结果释义的认知工作;专业求解器负责定量推演因果关系、动态修正概率数值、计算平衡策略与最优行动路径,二者协同完成复杂环境下不间断的长周期情景推演。 除去核心的推演运算与判断环节,决策机Decitron整套体系运转还有一道关键前置门槛:需要广泛感知世界信号。 王磊谈道,世界信号海量且多样,筛选对决策有效的有效信号是首要难题,模型训练还要攻克因果关系构建等多项复杂科学问题。针对这一痛点,中科闻歌构建了大模型和量化计算相耦合的融合技术架构,基于此构建了高质量的量化推演数据集,采用历史海量事件推演复盘冷启动训练+真实世界反馈的动态自进化的方式,不断升级决策机Decitron可解释世界模型。 此外预判未来时结果可信是产品能落地的第一道门槛,为规避 AI 幻觉问题,中科闻歌搭了层层 “防造假护栏”,包括用权威信息打分筛选数据源、多方新闻交叉核验,靠固定沙盘规则框定世界现状和各方底线,专业博弈计算器校准结论,最后结论附依据全程可回溯。 依托这套技术架构,中科闻歌决策机Decitron打通了AI决策可解释、可推演、可落地的核心壁垒,为行业智能化决策落地开辟全新可行性。 三、真实世界决策的AlphaGo时刻来了?中科闻歌补上决策环节 在充满不确定性的市场环境中,“最大的确定性,就是变化本身”,能推演未来、对冲风险的决策智能,或成为大模型下一阶段的胜负手。 在王磊的判断里,决策机Decitron的发布可以看作“真实世界决策的AlphaGo时刻”。如果说当年AlphaGo征服的是19×19规则清晰的围棋棋盘,决策机Decitron直面的是充满变量、多方博弈、信息碎片化的现实巨型棋局,以多主体推演、概率建模、动态信号追踪完成从棋盘博弈到全域现实决策的跨越。 这戳中的是通用大模型的能力短板。自2022年底ChatGPT问世以来,大模型的语言理解、内容创作能力一路突飞猛进,但这类对话式聊天机器人只能依托自身训练数据与临时调取信息作答,很难针对复杂事态展开长链路深度推演、预判未来走向。 放眼整个AI产业演进脉络,这种决策能力的落地,也标志着行业正式迈入全新发展周期。王磊将AI产业的发展分为三个阶段,第一阶段的大模型能依托训练知识库被动应答问题;第二阶段模型可自主联网检索、补充外部资讯素材;而如今的第三阶段,可以融合全域信息与通用决策大模型底座,实现对现实事态的实时研判、趋势推演与风险预判。 决策机Decitron正是第三阶段的标志性产物。 不过,决策智能这一赛道,此前已经在全球市场释放了爆火的信号。今年5月,美国大数据分析和软件公司Palantir发布财报,2026年Q1净利润同比暴增307%。 王磊称,Palantir在BI领域做到极致,可以基于企业业务框架分析数据,其业务已经体现了“规划”思维,但其并未搭建适配全场景的通用世界模型,因此,决策机Decitron在通用性和因果推理方面走得更前。但如今Palantir的备受关注,也意味着AI决策拥有巨大市场潜力。 率先将决策智能变为真实产品的中科闻歌,其实早已有所布局。 自成立以来,中科闻歌团队便长期深耕复杂信息分析、认知智能、社会计算、多智能体系统和人工智能辅助决策等方向,并在公共治理、金融、媒体融合、产业智能化等复杂业务场景中持续落地,逐步沉淀出数据分析、业务本体建模、智能研判和多智能体推演等核心能力。 ChatGPT出现后,其团队开始思考如何用AI推理未来和预测未来。去年其曾推出内部产品D1(Decision One),如今随着算法理解认知能力增强、数据面更广,这套决策技术正式落地成型。 眼下其已搭建起一套完整的AI决策全栈产品矩阵,决策机Decitron充当整套体系的核心大脑;DIP决策智能平台作为串联所有环节的枢纽;雅意、磐石两大自研大模型是驱动运转的心脏与动力引擎;龙工Claworks平台则负责承接指令、落地执行,如同整套系统的手脚。依靠这套环环相扣的产品架构,能够为各类复杂业务提供科学化、理性化的决策支撑。 整体来看决策智能行业仍处在发展早期阶段,全球首个通用决策大模型决策机Decitron的发布是一个关键节点,让AI不再只是回答问题,而是能推演、预测未来。 结语:让AI决策更科学、理性,中科闻歌已先行一步 当前AI产业赛道百花齐放,多数产品聚焦于内容生成、智能交互、效率辅助等基础场景,能够在复杂现实场景为企业预测未来、辅助决策的产品几乎没有。 中科闻歌依托世界模型、多智能体推演、博弈求解的核心技术体系,打破了传统决策的经验壁垒与AI预测的技术瓶颈,其目标就是让决策变得科学、理性。
前美团技术大牛创业,教机器人打包外卖
机器人前瞻(公众号:robot_pro) 作者 | 许丽思 编辑 | 漠影 在美团紧锣密鼓布局具身智能的同时,一批从美团走出的技术大牛,正将工程与商业经验带向更贴近物理世界的新战场。 前美团外卖技术负责人王栋,就是其中之一。离开美团后,调侃自己有种“老干部退休”感的王栋,没有继续做平台软件或者AI应用,而是转身进入了具身智能赛道。 这个选择并不突然,王栋在人工智能领域已经有近20年的积累。 王栋本科、博士均毕业于清华大学,博士师从中国人工智能泰斗、清华大学张钹院士,长期聚焦于人工智能表示问题。 张钹院士推崇自由探索,也为学生创造了大量海外访问和国际合作机会。得益于这种开放的国际视野,王栋极早就触碰到了机器人的前沿研究。2006年,他曾与汉堡大学张建伟教授合作,在IROS发表关于视觉方法结合机器学习进行机器人抓取的论文。 2011年,王栋搭建出全球首个商用视频人脸识别与跟踪系统;2014年进入美团后,王栋长期深耕推荐、搜索、广告、大数据等AI核心应用场景,构建出业界领先的本地生活服务推荐系统及移动原生广告平台。 真正让他决定下场创业的,是一个更长期的判断:如果人工智能不能进入物理世界感知、行动和获取认知,它就很难真正走向更高层次的智能。所以,具身智能是AGI的必由之路。 今年3月底,元节智能(Atombite)在北京注册成立,聚焦于面向餐饮场景的世界动作模型,并且选择先从外卖打包环节切入。 “人最好能做自己既擅长、又感兴趣、同时对社会有帮助的事情。”王栋说。 成立不到两个月后,元节智能就完成千万级种子轮融资,由英诺科创基金领投,水木清华校友种子基金、知名投资人个人跟投。王栋回忆,前后调研大半年,看了很多方向,刚确定创业方向,产品demo都还没做出来,投资人听了构想,20分钟后就拍板决定投资。 在我们与王栋的对话中,美团始终是绕不开的关键词。美团给王栋留下的,不仅是技术、商业与组织的方法论,更是一种在早期做外卖时、于巨大不确定性中死磕往前冲的勇气。 过去,美团解决了怎么把餐送出去的问题;现在,王栋想把具身智能带进后厨,从打包出餐接驳的一个个小问题开始,最终以智能化真正改变餐饮行业的供给侧,让AI不仅能会琴棋书画,也懂柴米油盐,更具烟火气和生活感。 一、餐厅后厨,是具身智能应该落地的地方 离开美团后,王栋没有急于开启创业,而是花了很长时间在海外考察。在海外餐厅后厨,他发现,全球外卖订单攀升,餐已经可以高效送出去,但餐厅内部的制作、打包和出餐,依然高度依赖人力。 尤其北美市场的餐饮行业,长期面临招人难的问题,后厨工作重复、辛苦,人员流动性高。北美不少快餐店员工时薪已经超过20美元,人力成本正在变成餐厅越来越重的固定支出。 这让王栋更加认定,餐厅后厨,就是具身智能亟需落地的地方。 回国后,王栋快速组建起了团队,核心成员来自清华、中科大、美团、地平线,兼具深厚的技术底层与多年的商业化实战经验。 其中,联合创始人李滔,曾执掌美团外卖算法与数据体系,是少数真正跑通全链路数据驱动的人;联合创始人李浩哲,连续创业者,多年全球化商业落地经验。 王栋强调,元节智能要做“有准备的团队”,其核心方法论是“不为算法找数据,而是为数据找算法”。 相比于先选定算法、认定了一套世界观后,再去匹配数据的“学院派”做法,元节智能的思路是“场景先行”——现实场景中已经存在明确的痛点,团队要做的是先尽可能完整地收集该场景中的真实数据,再从数据中寻找最适合的具身解决方案。 现在入局具身智能,是否还算是好时候?王栋拿外卖行业作类比:2012年前后,外卖赛道最火的平台是到家美食荟,饿了么已经创立4年,而美团在2014年才正式入局,只要赛道足够长,不同玩家就有不同的切入点。具身智能格局远未定型,发展空间巨大。 更重要的是,行业正在处于从讲故事、做Demo走向真实应用落地的时机。他觉得,经过十多年的工程和商业实践,团队最擅长的就是将故事转变为可以实际落地的产品。 但王栋并不认为大厂的成功经验能直接和创业画等号,如果说在美团的经历留给他最宝贵的资产,其实是当年投身外卖战场时的勇气。 “印象有人评价当年描述美团创业的历程说,最重要的不是过去你干成了什么,而是此时此刻你打算开始,因为你有梦想和勇气,”王栋说,“这种勇气可能是今天对我最有价值的东西。” 同时,美团的经历也让王栋具备了更务实的底层认知。他相信世界本身充满随机性,很多成功不能简单归因为某个人或某个团队做得好,更不能用幸存者偏差去判断结果。在具身智能这样尚未定型的赛道里,创业者需要保持弱者心态。 对王栋来说,元节智能不是复制过去的大厂经验,而是一个新赛道里,重新把一个具体问题做深做透的过程。 二、从外卖打包切入,做商业后厨的垂直大脑 元节智能从一开始就明确,不造腿和手,只做垂直领域的“大脑”。 这是基于现实分工做出的判断,王栋认为,中国机器人供应链在腿、手等硬件方向已经有很强积累,优秀公司林立,元节智能没有必要在非核心优势的战场上拉长战线。 元节智能选择先从餐饮打包切入具身智能赛道。团队对西餐Top30的快餐品牌进行深入拆解,发现打包几乎是所有厨房都无法绕过的通用环节,覆盖中餐、墨西哥餐等多个品类。 同时,餐饮后厨还不像标准工业产线那样容易自动化,外卖打包这个环节看起来简单,实际却是一种柔性、随时变化的工作。餐盒形态各异,订单动态随机切入,前一分钟可能处理汉堡,下一分钟就要打包汤品或小食,很难用一条固定节拍的传统产线解决。 更重要的是,打包能力背后会沉淀一组原子操作能力。一旦这些能力跑通,后续再做炸薯条、做汉堡等餐饮制作类任务时,底层的大量基础操作技术是共通的。 事实上,餐饮打包之前并非无人尝试。疫情期间,美团曾经尝试过智慧厨房相关业务,王栋也深度参与其中,研究能否打造出一款外卖打包机器人。 但当时,视觉等各项能力还不够完善。直到今天,王栋觉得这件事终于到了“跳一跳、够得着”的黄金节点。 在模型路线方面,元节智能奉行“大模型兜底长尾,小模型跑高频”的实用主义。 针对具身大模型推理慢、过于沉重的痛点,团队用垂直数据将开源模型蒸馏为多个敏捷小模型组合。日常高频任务由小模型处理以保证速度与稳定;遭遇长尾未知状况时由大模型兜底,必要时引入人工远程介入,并将经验回流沉淀,完成数据闭飞轮的持续迭代。 三、海外掘金,用订阅制撬动数据飞轮 元节智能把商业化第一站,放在了海外。 这个选择也来自王栋对餐饮生态差异的观察。“海外餐饮消费者对更倾向于吃一些稳定、相似的东西,对口味的挑剔程度没有中国消费者那么高。”他说。 并且,在海外的餐饮生态中,外卖平台并不像国内这般强势,可能会更多站在商家和骑手角度考虑。这就意味着,商家更愿意为效率改善和人力替代付费,商业模型的账更容易算得过来。 相比之下,国内餐厅数量多,供给相对充足,餐厅老板对于机器人这种重资产的付费意愿较低。王栋觉得,未来随着人口结构变化,国内市场也会出现机会,但在现阶段,元节智能更适合先在北美把基础能力做出来,把成本打下来。 商业模式上,元节智能倾向于让餐厅按月订阅。原因也很直接:餐厅老板最关心两件事,一是用了设备能省多少钱,二是前期投入能不能低一点。 王栋算了一笔账:如果让餐厅老板一上来就掏出数万美元购买设备,决策周期会拉得很长;但如果转化为每月两三千美元的订阅费用,对比当地一个后厨员工高达七八千美元的综合成本,商家尝试的门槛将被降到极低。订阅效果好,可转为购买;若想保持现金流稳定,则可以持续订阅。 这套定价逻辑的核心,不是把机器人卖出去,而是让客户更容易迈出应用的第一步。 对于接下来哪些场景做或者不做,王栋有一套清晰的筛选标准,那就是看客户是不是足够痛、是否愿意付费,以及这件事是否匹配团队能力。因此,元节智能仍会沿着餐饮大方向走,尤其是商业后厨。 短期内,元节智能的目标是将打包产品打磨到极致,让用户愿意继续长期使用。产品扎根餐厅后,也将帮助团队持续收集真实后厨数据,理解餐厅每天真实发生的动态变化。 当打包能力跑通后,元节智能会再选择相对长链路的任务进行扩展,比如炸薯条、做汉堡等,把更长周期、更复杂流程的能力补上。等产品和技术路径跑通后,再沿着已经建立的销售通路进行复制。 在王栋的三年战略蓝图中,元节智能最终要摸清商业后厨真正需要的“设备全家桶”。这些设备不一定都是长着灵巧手的智能机器人,也可能包含大量传统、低成本且好用的自动化工具。 元节智能真正想扮演的角色,是通过一套机器人操作中控,让后厨的所有设备协同运转,应对堂食、自提、外卖等混合流订单。 这意味着,元节智能最终想做的,并不是单台机器人这么简单,而是商业后厨里的智能协同系统,能无缝调配从高到底不同智能程度的设备。 结语:具身智能,并不存在护城河 无论是科技巨头还是初创黑马,王栋都不认为有谁真正建立了自己的护城河,因为这是一切都尚未来定型的赛道。 “在绝对的资金量面前,护城河随时可能被别人踏破,这也是我学到的一个很重要的商业教训,”王栋说,“所以我还是相信自己什么都不会。” 这个阶段真正重要的,是谁能更快贴近客户需求,拿到稳定订单,并在真实场景中持续积累数据、打磨产品、构建能力闭环。 具身智能距离真正的“GPT时刻”显然还有一段路要走,而王栋觉得,ChatGPT之所以被称为GPT时刻,本质上是因为它成为了被大众广泛接受的C端杀手级应用。而今天的具身智能,还没有出现类似的应用。家庭场景想象空间很大,但技术成熟度、成本结构、产品体验和用户接受度,都还需要时间沉淀。 但行业还没到GPT时刻,并不意味着具身智能玩家只能在Demo里徘徊。 王栋选择先在B端做起来,在通用能力成熟之前,用垂直能力解决特定领域的具体问题。正如在ChatGPT诞生前,AI早已在推荐算法、搜索、广告等B端场景中创造了数以千亿计的商业价值。今天的具身智能,同样可以先一步步占领商业后厨。 元节智能的破局路径具备一定的参考价值:真正的技术颠覆,往往不在于它的姿态有多炫酷,而在于它是否长在物理世界最真实的痛点之上。 具身智能走向产业深处,或许正从后厨里那双忙碌打包外卖的机械手开始。
首发自家新一代玄戒处理器!小米MIX Fold 5今年Q3亮相 起售价有望破万
快科技6月11日消息,从目前数码圈各路爆料的综合信息来看,小米即将推出的顶级折叠屏旗舰MIX Fold 5,很有可能是小米全新自研3nm玄戒处理器的首发搭载机型。 最新流出的行业消息显示,新一代折叠屏手机小米MIX Fold 5在产品定位上依旧牢牢瞄准高端旗舰市场,预计会在2026年第三季度正式对外发布亮相。 MIX Fold 4 根据目前披露的工程机相关信息,小米MIX Fold 5的最终产品方案已经基本稳定。 它预计会配备一块尺寸在7.5英寸到7.6英寸区间的内折叠大屏,搭载小米最新迭代的折痕优化技术,后置影像模组的主摄升级到2亿像素规格。 续航配置部分,新机有望内置容量接近6000mAh的超大电池,同时支持无线充电功能,日常解锁方案采用侧边指纹识别,兼顾解锁效率和整机的轻薄握持手感。 至于不少数码爱好者高度关注的新一代玄戒处理器,据悉它全程基于先进的3nm工艺打造,整体核心性能相较于上一代自研芯片有明显提升,全场景功耗表现也得到了针对性的优化改善。 “玄戒O1是一款3nm的旗舰SOC,能做旗舰SOC的,全球只有4家公司,小米是中国大陆的唯一一家。”雷军曾说道。 对于很多潜在消费者最关心的售价问题,小米MIX Fold 5的最终定价大概率会来到10000元左右的区间。 作为参考,上一代小米MIX Fold 4的起售价为8999元,叠加今年上游核心元器件成本持续攀升的行业大背景,头部手机厂商不对高端产品线做出适当调价,确实很难支撑后续持续的高投入研发,维持正常的经营运转。
每秒狂吐1000个token!谷歌开源扩散模型新作,4090单卡可跑
智东西 编译 | 刘煜 编辑 | 陈骏达 智东西6月11日消息,今天凌晨,谷歌DeepMind推出一款探索文本扩散(text diffusion)技术的开放实验模型DiffusionGemma。这款模型基于Apache 2.0许可协议发布,是260亿参数的混合专家(MoE)模型,能够一次性生成整段文本,在GPU上文本生成速度最高可达自回归LLM的4倍。 ▲DeepMind官宣(图源:X) DeepMind还联合英伟达完成了全硬件栈优化,DiffusionGemma可适配消费级硬件(已针对GeForce RTX 5090、4090显卡完成量化适配),同时在企业级设备上也能发挥性能。 无论是搭载Hopper架构、Blackwell架构并支持NVFP4内核的设备,还是面向本地桌面部署的英伟达DGX Spark、DGX Station,以及面向AI专业人员的RTX PRO系列产品,都能流畅运行DiffusionGemma。 值得一提的是,该模型原生支持NVFP4技术,能够在几乎不损失生成精度的前提下,大幅提升计算吞吐量,进一步提速整体运行效率。 模型权重: DiffusionGemma 26B 指令微调版(A4B‑it): https://huggingface.co/google/diffusiongemma-26B-A4B-it 框架地址: Hugging Face Transformers: https://github.com/huggingface/transformers 一、DiffusionGemma速度占优,生成质量不及Gemma 4 DeepMind称,尽管自回归模型的生成质量相对较高,但如果用户想要一边写、一边实时补全、或者来回修改,模型可能要重新生成一整段,响应速度不够快。同时,不少开发实时交互式AI应用的开发者,也常常会面临本地推理带来的延迟问题。 自回归语言模型的工作原理类似打字机,从左至右逐一生成token。在云端场景中,服务端可批量处理数千条用户请求、分摊硬件负载,因此该模式具备较高效率。 但当模型在本地为单一用户运行时,这种逐词生成的方式会造成专用GPU或TPU利用率低下,硬件大部分时间都处于等待下一个“输入字符”的空闲状态。 不少研发团队在思考如何从模型架构层面提高推理速度,而扩散模型架构被认为是颇有潜力的一个方向。业界对其进行了长期研究,但要把这项技术用在大模型上一直困难重重。 具体而言,扩散模型的计算成本高,长文本的生成质量也难以保证,其对离得近的信息敏感,对远距离信息容易忽略,以致对长上下文理解存在局限,要在不牺牲质量、不烧掉太多算力的前提下把它做大、做稳定,长期以来缺乏有效的工程方案。 DeepMind此次推出DiffusionGemma正是为了改变了这一现状,它的核心思路是重新设计模型调用硬件的方式。 DiffusionGemma依托Gemma 4系列模型的单位参数性能,结合Gemini Diffusion相关研究打造,同时搭载全新的diffusion head(扩散输出头),能突破传统自回归LLM逐个token串行处理的模式,以最大化提升文本生成速度。 DiffusionGemma没有进行串行逐词预测,而是一次性生成包含256个token的完整文本段落。其一次性向处理器分配更大的计算任务,能够让硬件算力得到充分利用。这一特性在行内编辑、代码补全、氨基酸序列、数学图谱等非线性应用场景中有一定优势。 这款模型推理模式由此从单台串行工作的打字机,升级为可一次性输出整段文本的大型印刷设备。 不止如此,该模型推理阶段仅激活38亿参数,经过量化处理后,可流畅运行在高端消费级专用显卡18GB显存的硬件限制内。 DiffusionGemma的文本扩散技术,其原理与AI图像生成模型相似。图像模型从随机噪点开始,迭代优化最终生成清晰画面,DiffusionGemma则将这套逻辑应用于文本生成中。 首先,DiffusionGemma会先生成一组随机的占位token,作为文本生成的初始基底。随后该模型会进行多轮迭代计算,先锁定已经生成准确的token内容,再将这些有效信息作为上下文依据,持续修正和优化剩余文本。 如下所示,经过层层打磨后,该模型生成的整体内容不断收敛优化,最终形成通顺、完整、可直接使用的文本结果。 此外,在生成文本的全过程中,该模型能够同步处理整段内容,由此衍生出新的实用能力,比如精准补全复杂的Markdown格式,或是近乎实时地生成并渲染代码等。 二、能生成3D SVG图形,支持开发者微调优化 DiffusionGemma能直击本地推理带来延迟问题这一痛点,不过它也并非十全十美。以下是该款模型的功能特点: 首先是极速推理。DiffusionGemma将解码瓶颈从内存带宽转移至计算单元,在专用GPU上token输出速度实现提升。例如,其在单张英伟达H100的生成速度可达每秒1000个token以上,在GeForce RTX 5090的生成速度可达每秒700个token以上。 第二点则是智能自纠错。该模型会迭代优化输出内容,可一次性对整段文本进行校验,实时修正错误。 不止如此,该模型不局限于纯文本创作,还能理解文字语义、输出图形相关内容,可根据文字描述生成3D SVG图形。这一生成过程如下图所示,Hugging Face制作了演示样例,直观呈现了DiffusionGemma根据文字描述生成图形的全过程。 同时,开发者还可通过微调进一步提升DiffusionGemma在特定任务中的表现。 如下图所示,大模型高效微调开源框架Unsloth对DiffusionGemma进行数独任务微调,数独任务中每个token都与后续token存在关联,自回归模型处理该任务难度较大,而DiffusionGemma的双向注意力机制则能降低处理难度。 DiffusionGemma面向追求高速、本地实时交互的研究人员与开发者设计,适用于各类对速度敏感的交互式本地工作场景,例如行内编辑、内容快速迭代以及非线性文本结构生成等。 不过,DiffusionGemma主打的提速优势主要体现在本地部署及低并发推理场景。这种“快”不是所有场景都试用,尤其不适合高并发云端服务。 在高查询量(QPS)的云端服务场景中,自回归模型可充分榨取计算资源,DiffusionGemma的并行解码优势会不断弱化,还可能推高服务成本。 综合来看,DiffusionGemma的吞吐性能优势,在单张加速卡、中小批次任务的场景下最为突出。也就是说,个人开发者、小团队在本地跑实验的场景,使用DiffusionGemma能最大程度发挥其性能优势。 如下图所示,由于DiffusionGemma优先兼顾生成速度与并行输出架构,单请求生成token的速度约为Gemma 4的3.65倍,但整体输出质量不及Gemma 4。对于追求极致生成质量的应用场景,DeepMind建议用户继续使用标准版Gemma 4。 结语:聚焦端侧提速需求,探索文本生成新路径 DiffusionGemma的推出,并不意味着文本扩散模型将立即取代当前主流的自回归大模型。至少在生成质量、云端高并发部署效率等方面,自回归架构依然占据主导地位。 但DiffusionGemma展示了另一种可能。在本地推理、实时交互和低并发场景下,通过改变文本生成方式,该模型可以突破传统逐token解码带来的速度限制。 随着端侧AI和本地部署需求持续增长,如何在生成质量、推理速度与硬件成本之间取得平衡,正成为大模型发展的重要方向。DiffusionGemma更像是一次针对这一问题的前沿探索,其最终价值仍有待开发者社区和实际应用场景进一步验证。 来源:谷歌官网
OPPO首款阔折叠已开案:尺寸和苹果iPhone Ultra接近 售价过万
快科技6月11日消息,有博主爆料,OPPO首款阔折叠屏目前已经进入开案测试阶段,新品预计在明年Q1正式亮相,这可能会是安卓阵营最强悍的阔折叠旗舰。 新机的硬件规格已经基本敲定,配备7.6英寸内屏和5.5英寸外屏,两块屏幕的供应商是京东方和三星,其尺寸和苹果即将发布的iPhone Ultra折叠屏非常接近,整体比iPad mini还要小一圈,单手握持的压力不大。 核心性能层面,OPPO阔折叠将会搭载高通骁龙8E6系列旗舰芯片平台,内置电池容量在6000mAh左右,同时还支持行业满级防水、无线充电以及侧边指纹识别功能,整机定价在万元以上。 和市面上走常规比例的大折叠屏不同,阔折叠的屏幕比例做了特殊调整,展开之后的大屏横向显示空间大幅提升,不管是浏览网页还是处理多任务,操作起来都要比常规比例的折叠屏顺手很多。 从现在各个品牌的产品规划节奏来看,阔折叠屏是接下来整个折叠屏赛道的全新探索方向,除了OPPO之外,三星、小米等多家头部厂商都已经把自家阔折叠机型列入了发布队列,整个品类的体验升级相当值得期待。 阔折叠相当于跳出了过去几年折叠屏一味拉长竖屏比例的内卷思路,把大屏内容的横向利用率直接拉了上来,万元档的定价也意味着国产旗舰不再走参数堆料的同质化路线,而是朝着更细分的场景打磨差异化体验。
Agent 时代,需要一台能折叠的移动工作台|AIDONE 5.0 全记录
前阵子有张梗图,在 AI Agent 圈子里火了: 没错,AI Agent 时代最炸裂的硬件,居然是一个毫无科技含量的小支架:把笔记本支起来,永不合盖、永不休眠,好让屏幕那头的 AI Agent 替你 7×24 小时干活,绝不停歇…… 这当然是个玩笑,但笑来自真实的痛: 今天我们已经进入 AI 时代,但无论是手机、平板,还是电脑,今天我们所使用的设备仍属于上一个时代,为了盯着屏幕的人而来,而非为 AI 时代「原生」设计。 人会累,一天收工之后需要把电脑和眼睛都「合上盖」。但 AI 时代的新节奏恰恰相反:它要随时在场、持续感知,即便在用户没有直接注意的时候,仍在完成定时、长程、复杂的任务,而不是等用户注意的时候才开始工作。 这令人想起了上周黄仁勋说过的一句话:给人类用户设计硬件的时代结束了,下一步,要面向 AI 智能体设计硬件。 昨天,爱范儿、APPSO 联合 vivo、飞书在广州举办了一场线下共研活动,主题名为「AI 时代的终端想象」,由 vivo 副总裁、产品副总裁黄韬致主题演讲,知名创作者 flypig(林嘉澍)、飞书产品市场经理王大仙、vivo X 系列高级总监丁冠力、AI 科技博主李晓白、商业财经博主有点在李等数十位前沿 AI 科技媒体、从业者参与分享讨论。 通过这场活动,我们尝试探索面向 AI 时代原生的设备应该如何设计。更具体来说,就是一个最核心的问题:当 AI 从屏幕里破壳而出,它该长成什么形状? 一整天的共研会下来,答案其实可以归结为三句话。 任务变大了,App 装不下 这句话来自所有人的日常。 vivo 副总裁、产品副总裁黄韬在演讲里这样描述:一年多前,我们还在惊喜于 DeepSeek 的出现,AI 可以快速、准确地生成一个不错的答案;今天,以 OpenClaw、Codex 为代表的 Agent 能力已经走进终端, 它不再只是回答一个问题,而是可以理解我们的意图,主动调用工具,帮助我们完成任务,开始真正参与我们的工作和生活。 对于这一段表达,flypig 给出了一个具体得不能再具体的案例:尽管得到的演讲命题是分享「奇葩 AI 工作流」,他却讲了全场最扎心的一件事:开发票。 一切还得从被他称为「vivo 影像手机个人摄影展」开始:他发现自己手机里最多的一类照片,是各种小票和发票二维码,「某种程度上,这些二维码代表了我的人生」。每个月、每个季度,总有那么几天,全公司几个人要停下手里的工作,专门用来开发票和填报销。flypig 忍无可忍,写了份长长的 PRD,交给 AI 去开发工作流。 仅仅半小时后,流程跑通,屏幕上跳出「开票申请已提交」,全公司欢呼雀跃。 现在,他和同事们把发票存在公司云盘的统一文件夹里,只需要对着 AI 工具输入「开发票」三个字,潇洒地按下回车:从发票日期抬头类别统计,到生成报销表格,甚至审计工作,一次性完成。但更重要的是,哪怕是不懂编程、不知道 Agent 为何物的财务同学,现在都已经能够举一反三,自己开发让自己感到趁手的工作流了。 注意这件事的形状:它并没有发生在一个单独、具体的 App 里。识别、开票、归档、做表、审计,横跨一堆工具,起点是手机相册,终点是「个人所得税」App。 这正好映射了黄韬在演讲里描述的转变。他给智能手机的十几年下了个判断:本质上一直在解决同一个问题,让用户更方便地使用越来越多的工具。但工具越来越多,我们每天在不同的 App 之间切换、寻找、复制粘贴,「很多时候,我们不是在完成工作。我们是在操作手机」。 flypig 的发票工作流,恰好就是把这件事倒了过来。黄韬表示,过去用户是手机的「操作员」,未来我们会逐渐成为 Agent 的「指挥官」。我们与手机交互的方式,也会从复杂的指令和操作,逐渐走向轻松直接的「意图直达」。 交互的基本单位也随之改变:智能机时代是 App,AI 时代会逐渐变成「任务」。每个 App 解决一个相对独立的问题,但一个真实的任务,往往需要多个 App、多个工具和 AI 共同参与。终端不再只是 App 的容器,它要围绕用户的意图,组织一套完整的任务流。 另一位演讲嘉宾飞书产品市场经理王大仙,干脆把「围着任务转」搬到了现场:飞书机器人、多维表格、一台 vivo X Fold 系列折叠屏手机,再配上飞书的前端能力,用一台手机干出了一手电脑的活。 任务变大了,屏幕却还是原来那块。有人会问:复杂任务,电脑不是也能干? 当然能。但黄韬指出了 AI 带来的另一个变化:很多过去要坐在电脑前完成的事,正在走进每一个碎片化的时刻,出差路上、会议间隙、机场候机。电脑不一定在手边;直板手机一直在手边,屏幕空间却始终有限。 折叠屏第一次把手机的随身性与生产力工具的任务空间,放进了同一台设备:合上,是一台随时握在手里的旗舰手机;展开,是一个可以承载完整任务流的移动工作台。 vivo 的具体承接,是 X Fold 系列的「原子工作台」:围绕一个任务,把需要的 App 和 AI 工具组织在一起。准备一份方案,文档在中间,AI 在旁边随时讨论,浏览器停在另一侧查资料,文字、图片、文件在窗口之间直接拖拽。 更要紧的是,这套布局可以存在桌面上,下次一点就进,每个人都能组合出自己的会议工作台、旅行工作台、创作工作台、投资工作台。 有点在李把原子工作台形容为「思路调度中心」,能随时调度、随时监看,「它是重度 AI 用户的好搭档,可以让多线程思考变得有条理」。 爱范儿首席内容官何宗丞的类比则更有年代感:App 时代的「情景模式」,不过是换个主屏、摆几个 Widget;原子工作台的「情景模式」,直接升维到了工作流、生活流,「它不再用 APP 来组织你的手机,而是用『诉求』来组织交互」。 不看好 GUI,但仍想要一块大屏 明明把活交给 AI 了,不就是为了省事吗?为什么人仍然需要看见 AI 的工作? 李晓白是一位重度的 CLI 拥趸,微信、飞书全通过 CLI 接入了 Agent,每天几百条消息,各种各样的资料信息,需要亲自过手整理、回复的越来越少。他的暴论是 GUI 早晚退化:它还存在,只是因为 AI 不够聪明;人天然图省事,等 AI 能猜到你想吃什么、几点打车,谁还去划屏幕。 而 flypig 说,CLI 是问答题,你面对一片空白,得先知道 AI 的边界在哪,才能确认自己发出的提示词能够被有效回应;GUI 不一样,它更像是选择题,能干什么全摆在你面前。对于普通人来说,选择题永远更好做。 一切最后还得回归到信任上。诚然,模型本身已经是个黑箱,干活的过程不应该也是黑箱。有点在李分享了自己的体验:在云端跑一套自动化工作流,在 OpenClaw 这一类对话式、不提供显式工作轨迹的架构下,因为上下文或其他原因卡死缺乏有效的提示,只能问一句「你卡在哪里了」。 说白了,最后还是得有一块大的屏幕,能够清晰地检阅 Agent 的工作状态。于是,无论是唱衰还是捍卫 GUI 的、被自动化坑过的,绕了一圈站到了同一个地方:人得看见 AI,才敢把活交出去。 说难听点,今天的 Agent 用户是 Agent 的监工,监工也得有自己的工位,而工位完全可以是那块够大的屏。flypig 给这个工位画了张图:外屏是 Chatbot 时代的产物,一个对话流就够了;内屏属于 Agent 时代,两列、三列,显示更多细节内容。 他的观察是,现在所有的 AI 工具在桌面上基本都长一个样,一个对话窗口加一个 sidebar,「折叠屏的大屏最接近这种桌面级体验。展开之后,它会成为一个基于 Agent,可承载更复杂任务的工作台」。 把 AI 硬塞进旧的机器,还是从一开始就为 AI 而生? 这是留给厂商的功课。 丁冠力说,用户不关心你每秒多少 token,只关心事办没办成,衡量 Agent Phone 只有一条标尺:任务完成率。任务要在一块屏上展开、被人看着完成,这块屏还得随身。答案当然是折叠屏。 而且是从一开始就为 AI 而生的折叠屏。 「就好比油改电和原生纯电车,大部分人都会买原生纯电。」他表示,vivo 正在对 OriginOS 做更多底层重构、更早期的芯片联合定制,为的就是在原生 AI 终端的时代做好准备,而不是来了 AI,再给它塞进去。 他给这台理想终端画的像,是让屏幕从 App 的陈列窗,变成任务流的调度台,一台「用户可随身调用的 AI 搭子」。 黄韬从自己的角度回顾了折叠屏的两次进化。第一次进化,解决的是「物理问题」:更轻、更薄、更浅的折痕、更好的续航,vivo 的理念是「先旗舰,后折叠」,选折叠屏不该牺牲旗舰体验。 但他自己也补了一刀:在今天这个 AI 时代,如果折叠屏只是更薄一点、折痕再浅一点,是远远不够的。 下一次进化会是什么样?至少他能够看到的,是折叠屏要解决的是「价值问题」,这块展开的大屏,到底能带来什么直板手机无法替代的体验? X Fold 系列的目标很明确,就是要做 AI 体验最好的移动终端。从「展开一块大屏幕」,到「展开一个大任务」,为用户展开一个可以承载完整任务流的工作台,让折叠屏真正进入 AI 时代。 AI 体验最好的移动终端,不等于多塞几个 AI 功能、多放几个 AI 入口。它首先必须是一台全面无妥协的旗舰手机,「只有每天都在你手里的那台设备,才有机会真正成为你的 AI 伙伴」。 这意味着整个手机的软硬件,都要围绕「AI 大任务」专属定制: 即将发布的 OriginOS 6 Fold,是行业第一个针对折叠屏在 AI 时代的多任务需求进行底层重构的 OS;SoC 也提前两年与合作伙伴联合定义,让 AI 体验「不断档」。 说到底,用户只关心一件事:它能不能帮我更快、更好地把事情做好。所以 X Fold 系列不求大而全,聚焦移动办公、出行、创作这些高频场景,把低效琐事逐一消解。 参与共研的用户们也提出了很多自己对于未来 AI 时代终端的看法。有用户提出,今天在手机上工作,难免被各种通知打断注意力,反而是电脑上更容易进入状态。原子工作台已经把大屏利用和多应用切换做到了一步到位,那为何不再多做一步? 点击工作台里的大窗口,直接进入全屏沉浸;从左或右边一划返回,又回到当前工作台——专注和调度,在同一块屏上自由进出。 还有很多人不约而同地提到一个更加大胆的主意:一台为 AI 时代准备好的折叠屏,可否有一块专门留给 Agent 的屏幕,比如外屏、副屏——不仅专门用于显示 Agent 的运行状态、承接简单交互,它甚至可以跑在一个相对独立的沙箱环境里,拥有更高的权限,再通过蓝心小 V 和手机的主系统桥接? 这些设想未必都会原样落地,但它们体现了用户的真实需求:经历了几年、数代进化之后,折叠屏在今天早已不只是一块更大的屏幕,而是真的有望成为 AI 时代的工作空间。 AI 终端破壳而出 回到开头的问题:属于未来的 AI 终端,应该长什么样? flypig 分享了一次在国外远程连接国内部署的 Agent 的体验:有一次他在葡萄牙旅行,吃完饭给小票拍了张照片,用 Claude 的 Dispatch 功能说了句话,贴上照片。千里之外,北京办公室的电脑开始干活:翻译小票、记账、归档,最后将结果推回手机。 他说这种感觉好比一艘宇宙飞船的母舰 (mothership) 与分离舱 (pod):你所使用的大模型、大模型所依赖的算力,以及关于你个人的记忆,可以全部位于地球的另一端;而自己无论身处哪里,只要掏出手机,展开它,一整个工作世界也跟着打开了。 顺着这个感觉,他给出了一个有趣的新思路: 过去的智能手机是「all in one」,把相机、MP3、通讯工具等一切功能都融合到一起;但在未来,AI 终端可能会以「one in all」的拓扑结构环绕在我们身边:手机、手表、眼镜、音箱、汽车,设备各式各样,里面运行着同一个中枢大脑、同一份灵魂和记忆。 你可能并不觉得这些设备是一个移动设备,但它有移动的意识,会伴随你的一生,永远知道你在做什么。我觉得这可能就是未来 AI 终端的一种趋势。 AI 时代的个人终端,需要一个拥有足够大空间,可以容纳任务、容纳 AI、容纳人的判断的产品形态。未来,屏幕不会消失,我们甚至更需要一个承载更多任务流的、更大的屏幕。 而如黄韬所言,在那一天到来之前,无论 AI 如何进化,人始终应该是 AI 时代的主角。
华为穿戴一季度出货量全球第一!小米紧追苹果 反超仅一步之遥
快科技6月11日消息,今日,市场调研机构IDC发布2026年第一季度全球腕戴设备市场出货量数据。 数据显示,2026年第一季度,全球腕戴设备市场出货量为4705万台,同比增长2.2%。 其中,全球智能手表市场出货量为3703万台,同比增长4.8%;手环市场出货量为1002万台,同比下滑6.1%。 IDC认为,2026年第一季度全球腕戴市场呈现出三个明显特点:手表走强、手环疲软;价位结构升级,入门级市场保持稳定、高端市场需求旺盛;区域发展出现分化。 IDC指出,中国凭借新品发布与电商促销,成为全球增长主力;美国、拉美受益换新与渗透率提升小幅增长,其他地区受经济影响需求表现平淡。 厂商格局方面,华为一季度全球腕戴产品出货量登顶,市场份额达20.2%,位居全球第一。 IDC表示,华为时隔5年推出WATCH GT Runner 2,继续深耕专业跑步赛道;Ultimate 2高尔夫版则面向进阶运动人群,满足专业化需求;手环11系列补齐入门价位空档,推动全品类阶梯矩阵进一步落地。 苹果以17.0%的市场份额位列第二。一季度,中国市场成为苹果智能手表全球增长的核心驱动力。 小米排名第三,市场份额为16.9%,与苹果仅相差0.1个百分点,距离第二名仅一步之遥。 IDC称,2026年第一季度,小米智能手表表现优于手环品类,产品方面,小米落地S5系列新品,并持续加大中高端Watch 5铺货力度,逐步向中高端市场纵深布局。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。