EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
豆包踢开Agent大门 但微信说不定先进门
近日,字节与腾讯在刚刚发布的豆包手机助手上,在权限与生态边界持续短兵相接。 在这台豆包和中兴合作的nubia M153上,字节有着宏大的设想:把豆包AI前置在手机系统层,代替用户全局操作各类App。字节显然也清楚这不是一件可以一蹴而就的事,据字节方面人士此前透露,首批技术验证机备货大约在3万台,本质上还是一次技术验证意味的实验,“超级Agent”豆包短期内并没有铺开到大众市场的条件。 随着腾讯、阿里系平台相继对豆包手机助手说“不”,这款刚面世的端侧AI产品,很快就迎来了主要竞争对手在权限侧的防御动作。眼下,摆在豆包手机助手面前的大致有两个方向。 进,是继续试图在OS层的GUI Agent形态上站稳脚跟,同时在头部对手之外争取更多生态伙伴的支持。但考虑到字节与中兴目前公开表态仍停留在技术验证阶段,未来与其他手机厂商的合作动向尚不明朗,豆包手机助手短期内不存在“跑量”占领市场的可能。 退,则是把战线收拢回熟悉的App生态,在抖音App内部挖掘潜力,结合小程序等“轻应用”场景,先把Agent落地在一个可控的内部生态里。端侧原生AI真正做大做强之前,超级App很可能会成为通用Agent的“过渡形态”——依托小程序等形态承载大量企业服务,在一个封闭但足够大的“内生市场”里打通任务链路。 不过,一旦把视角切回“App内部生态/小程序丰富度”,一下子就来到了微信的主场。根据QuestMobile数据显示,截至2024年10月,微信小程序用户规模已达9.49亿,月人均使用时长约1.7小时。超级App微信,有足够丰富的场景让Agent大展拳脚。 腾讯总裁刘炽平在2025年三季报电话会上则释放了更直接的信号:理想状态下,微信未来会在自身生态内推出一个AI智能体,直接在微信里帮用户完成各种任务。 换言之,移动端Agent的大门确实是被豆包率先一脚踢开,但豆包在手机助手上的技术验证才刚刚开始。与此同时,在App时代的余晖之下,那些超级App仍然握着最重量级的流量入口与生态筹码,有望成为短期内“超级Agent”的落地场景。 A 自2023年上线以来,字节一直将豆包当作C端“通吃一切”的AI全能助手,并迅速在原生AI时代站稳脚跟。 QuestMobile 报告数据显示,豆包的月活跃用户规模已达到约1.57 亿,稳居中国原生AI应用月活榜首。而在更早些的QuestMobile报告显示,豆包与抖音用户群体高度重合,重合用户数超过5000万。 但在2025年这个AI应用层飞速迭代的时间点,只停留在App层面,始终隔着一层“应用玻璃墙”,很难把大模型的能力完全释放出来。因此,豆包选择与中兴这样的手机厂商合作,尝试把大模型能力直接植入操作系统层。 从豆包App变成“豆包手机助手”之后,能力边界的确被显著拓宽:一方面,用户可以通过实体键或语音,把与豆包的交互前置于所有App之前,抬手就能唤醒;另一方面,字节“釜底抽薪”般的通过模拟点击的方式,通过用户的一句指令就可以接管所有跨App操作(除了付款环节),“革命性”地改变了手机端的交互逻辑。 但“革命”的代价很快显现出来:要让Agent真正跑得起来,就必须借助操作系统层面的权限,直接将AI的手伸到App的生态内部;而无论从风控视角,还是从商业视角,这都意味着压缩了“超级App”的使用时长、削弱了其对用户行为数据和广告曝光的控制力。 大厂之间,一旦出现这种新老业态上的冲击,意味着很快演变为阵营上的对立。微信和阿里系先后被披露不允许豆包手机助手访问。随后,豆包手机助手下线了操作相关App的权限,而此时距离其发布还不到一周时间。 微信方面随后的回应称:“没有什么特别的动作,可能是中了本来就有的安全风控措施。” 面对舆论场的争论,字节很快通过官方渠道辟谣“黑客行为”与“未授权获取隐私”等说法,称将“规范AI操作能力”,并与合作方沟通。但在一些外界观察看来,这无异于一种后撤步行为,暂时回避在操作权限问题上和微信等竞争对手正面交锋。 另一方面,考虑到nubiaM153只是一款技术验证机,字节仍有一年甚至更久的时间来调整战略,任何战略调整的可能性都有可能出现。 如果选择在OS上继续做大做强这一生态,而对于微信这样的超级App而言,和字节妥协/达成协议的概率很小。在移动互联网时代开始,微信占据绝对的武林盟主地位,不允许其他企业试图动摇微信的生态。事实上,字节并不是第一个在这一问题上“撞线”的玩家。 今年以来,国内多家手机厂商都在系统层推出了带有“截屏识别+自动操作”能力的AI助手:VIVO、OPPO的新版本系统中,都曾经支持对微信账单自动记账、对长视频一键生成时间轴总结等功能;但到了10月底,有用户发现微信已从支持列表中消失,OPPO官方回复称“由于微信应用限制,自动记账相关功能暂不支持使用”。 根据21世纪经济报道披露,今年下半年以来,监管部门也在关注AI助手采用截屏识别,并执行自动化操作的情况。 除了头部企业,市场内仍然有一些其他的流量入口,不排除字节会“招安”一部分企业加入豆包手机助手的生态。当然,这往往需要一点产业协作和“钞能力”的加持,类似的先例已经出现在大模型的数据攻防战里有所体现: 2024年5月,Reddit主动选择与OpenAI结盟,宣布开放官方DataAPI,让OpenAI可以实时访问站内帖子与评论,用于训练模型并在ChatGPT中调用相关内容,在此之前,Reddit已经和Google签下年金额约6000万美元的数据授权协议。 另一方面,字节若选择持续后撤,战场无疑又会拉回到App生态中,但如果比拼起App内部的生态规模,字节系产品明显不是微信的对手。 QuestMobile数据显示,截至2025年5月,支付宝和抖音小程序用户规模约为6.54 亿和2.83 亿,而微信小程序月活则高达约 9.45 亿。微信的小程序生态覆盖最广,流量与用户粘性也最强,为落地Agent 和服务闭环提供了最坚实的基础。 换言之,只看接下来1-2年,Agent这件事,还真不一定是字节先跑通。 B 经过多年演化,微信已经从一款通讯工具,成长为中国互联网的“基础设施”之一。最新披露的财报显示,微信及WeChat合并月活跃账户数已达14.14亿,创下历史新高。 其中,小程序的地位尤为关键。它为无数第三方创业者或企业提供“顺风车”:他们不必开发独立App,只需开发小程序就能享受微信的流量入口与支付体系。这种合作机制形成了一种“共赢生态”:微信提供入口与基础设施,第三方提供服务、内容与消费场景。 QuestMobile数据显示,在超过9亿微信小程序用户中,月人均使用次数接近70次,且百万用户量以上的小程序占比达到14.1%。从行业分布看,生活服务、移动购物、金融理财等多个小程序行业的用户规模均超过8亿,成为连接线下服务与线上流量的“默认入口”。 在这套分工下,微信承担的是入口和基础设施的角色:掌握用户身份、社交关系、支付工具、内容分发和搜索能力;第三方则提供具体服务和消费场景。对所有参与者来说,这套机制天然就是“共赢生态”,只要用户愿意留在微信,小程序就有源源不断的新增流量,微信也有持续增长的支付流水与广告库存。 因此,如果微信要做超级Agent,它天然会与字节在端侧OS层的Agent形成明显差异: 豆包手机助手的王牌是“系统级权限”,它可以在任何App之上模拟真实用户操作,这对用户和手机厂商是提升手机体验的利器,却让被访问的App成为时长和数据上的“隐形牺牲品”。 而对微信而言,小程序本身就是建立在“平台与第三方可控分工”的前提之上,进驻小程序的机构/企业借助微信平台收获了额外的流量入口,与微信形成了一种合作共赢的模式。 换句话说,如果微信内部嵌入一个通用Agent层,这个Agent并不需要系统级权限,也无需绕过操作系统,只要调用微信已经打通的小程序、支付、内容和搜索,就可以完成从意图识别到任务执行的闭环。 比如“帮我订一张明天从上海到北京的机票”,如果是微信Agent操作,只需从搜一搜出发,调起小程序完成比价和下单,整个流程都在微信App生态内搞定。 当然,不管是豆包还是微信,超级Agent的安全问题仍然是一个尚未厘清的命题,模拟点击、AI自主操作,这意味着一旦出现误操作、盗刷或者隐私泄露,责任链条就变得极长:手机厂商、App、Agent平台之间的归责难以理清。 毫无疑问,在App生态时代,腾讯享有“武林盟主”的地位,旗下或投资的公司涵盖社交、游戏、金融、内容、云服务等多个领域,几乎把国内互联网基础设施与服务织成一张网。 一方面,腾讯与海量小程序商家、内容机构、政务与医疗服务方有长期合作基础,且很多已经形成稳定的产品、数据和结算接口;另一方面,这些合作方也早已熟悉微信的风控与审核体系。 换言之,相比起字节引发业内强烈反弹的“试水”,腾讯在微信上落地通用Agent,生态内都是可以坐下来聊的“自家人”。 那么,对微信来说,真正的问题可能只剩下两个:要不要做,以及什么时候做。 C 在AI战略上,元宝和混元是腾讯AI的两条主线,一个是面向C端用户的AI助手应用,一个是面向全场景的大模型基座。但在过去几年中,腾讯长期把AI视作服务内部效率、风控、推荐与商业变现的基础设施。腾讯2024年度ESG报告披露,腾讯的AI技术已经应用在超过700个业务场景中。 2024年5月正式上线的元宝,则是腾讯AI基础设施面向C端的窗口。今年以来,微信已开始将“元宝”深度接入其生态:用户可在微信内通过“搜一搜”或搜索“元宝”添加其为好友。 但另一方面,这些功能还是独立场景中的AI能力,App层面的完全体Agent尚无任何明确的时间线。 与此同时,尽管App端的叙事依旧宏大,但原生AI的新战场已悄然从软件延伸至终端:字节方面,“豆包手机助手”落地中兴手机,同时配套OlaFriendAI耳机等硬件试水;外界也持续关注其在AI眼镜等形态上潜在动作。 阿里方面则通过通义千问在多设备的系统级能力开放,并与推出“夸克AI智能眼镜”试水市场,同时在产业链传闻中,也多次出现其与iPhone国行版Apple Intelligence深度合作的可能性。 但如果拉长时间线则不难发现,相比其他AI厂商,腾讯AI策略上整体都相对谨慎,特别是在硬件生态上保持着相对“游离”的姿态。一些腾讯AI业务方面人士此前曾对字母榜表示,腾讯的AI战略中,确实存在会优先赋能既有业务的情况。 这是腾讯离不开的“惯性”。过去十多年里,马化腾多次公开表态,早在2012年与TCL合作“冰激凌”产品时,他就明确表示“腾讯不会做手机硬件”,更关注可穿戴设备和“手机里的服务”。 2018年,在回应《腾讯没有梦想》文章时,马化腾表示,投资和业务布局都要从腾讯核心优势出发,而不是为了故事去赌博。 “游离”于硬件生态之外的腾讯,把微信作为AI Agent的试验田,也许已经是眼下最切实际的选择。 但另一方面,这不只是一个技术和产品层面的决定,也涉及到社会责任和监管责任的考量。微信不仅服务普通用户,也承载着支付、政务、医疗、公共服务等社会基础功能。一旦开放通用Agent权限,就意味着承担更多安全与合规责任。 因此,腾讯对于微信的谨慎态度不难理解,在2025年三季报电话会上,尽管刘炽平明确表明“微信最终会推出一个Agent”,但他同时也表示“目前这个时间点,实际上还处于非常早期的发展阶段。” 随着字节方面已经携豆包登“机”——虽然只是3万台备货的试水,但这位新秩序的挑战者,已经向移动互联网时代的“武林盟主”发出了挑战的信号。在端侧AI成熟之前,这个时间窗口留给了腾讯和微信,但也可能留给微信的只有这个时间窗口。 武林盟主微信,是时候该翻一翻那本名为“Agent”的秘籍了。
“红色警报”下的OpenAI:奥特曼平息内讧将推两模型 剑指苹果
奥特曼 凤凰网科技讯 北京时间12月9日,《华尔街日报》周一发文称,OpenAI CEO萨姆·奥特曼(Sam Altman)正迅速采取行动,纠正公司的发展方向。为了应对眼下谷歌构成的威胁,OpenAI将发布两款大模型。但是奥特曼认为,OpenAI的真正对手是苹果,因为硬件才是AI载体。 战略纠偏 上周,奥特曼在公司内部拉响了“红色警报”,以应对咄咄逼人的谷歌。他列出的首要修正事项之一就是:应暂停Sora视频生成模型等次要项目八周时间,专注于改进旗下引爆AI热潮的明星产品ChatGPT。 奥特曼此举实际上在进行一次重大战略纠偏,并在公司内部更广泛的理念分歧中选边站队。这场分歧在于:究竟是追求满足大众用户的爆款产品,还是在研究层面实现重大突破。 OpenAI创立的初衷是追求通用人工智能(AGI),也就是能够在几乎所有任务上超越人类智慧的AI。但奥特曼暗示,为了公司的生存,或许必须暂缓这一追求,先满足用户的实际需求。 此举之所以引人注目,部分原因在于外界对奥特曼领导风格的一项批评正是:他不愿为公司能够取得的成就设限。 更能说明问题的是,他在备忘录中指示员工要以一种特定方式增强ChatGPT:“更好地利用用户信号(反馈信息)”。 奥特曼要优先改进ChatGPT 借助这项指令,奥特曼实际上是在推动加大使用一种颇具争议的训练数据源:纳入那些基于用户一键反馈(如点赞、点踩)形成的信号,而非专业人士对聊天机器人回复的评估。今年早些时候,OpenAI内部曾转向依赖此类用户反馈的做法,但导致ChatGPT 4o模型变得过度谄媚,甚至被指控加剧了部分用户的严重心理健康问题。 现在,奥特曼认为公司已经降低了该策略带来的最严重弊端,并准备好收获其积极成果:根据追踪日活跃用户的内部仪表盘数据显示,这一调整显著提升了用户参与度。 “这不是一次微小的、仅具统计意义的大幅增长、而是那种让人‘哇’一下的显著提升。”一位参与该模型工作的人士说。 苹果才是真正对手 OpenAI此次拉响“红色警报”,是迄今为止该公司领导地位遭遇的最严峻挑战。竞争对手正以前所未有的速度赶上来,抢走市场份额,并拖慢OpenAI的增长。如果这一趋势持续下去,OpenAI可能无法承担其最近几个月签下的巨额算力合同,甚至可能在财务上面临生存困境。 周一,奥特曼在纽约与记者举行了一场午餐会。他表示,尽管业界观察家聚焦于OpenAI与谷歌的对抗,但他认为真正的较量将发生在OpenAI与苹果之间。他指出,设备终将成为人们使用AI的关键载体,而当前智能手机尚无法完美适配AI助手及其应用场景。值得注意的是,OpenAI新成立的硬件部门近期正从苹果大规模吸纳人才。 谷歌势头很猛 但是,OpenAI迫在眉睫的威胁来自谷歌。自从谷歌的Nano Banana图像生成器在八月爆红后,该公司势如破竹。上个月,谷歌新模型Gemini 3在备受关注的第三方模型性能榜单LM Arena上超越了OpenAI。与此同时,竞争对手Anthropic在企业客户中也略微领先于OpenAI。 派系之争 然而,据知情人士透露,奥特曼拉响“红色警报”的背后,是公司内部酝酿多年的派系矛盾。 一方是以Meta前高管、现任OpenAI产品负责人菲吉·西莫(Fidji Simo)和CFO莎拉·弗里亚(Sarah Friar)为代表的阵营,他们一直在推动公司向ChatGPT投入更多资源。西莫曾向员工强调,在开发新功能前,OpenAI必须让用户充分认识到ChatGPT现有功能的价值,同时也要提升聊天机器人的响应速度和可靠性。 另一方则是研究团队,他们则优先追求可能实现AGI的最前沿技术,但对改善基本聊天机器人体验投入较少。 两款模型待发 OpenAI计划在本周发布新模型ChatGPT 5.2,管理层希望借此重振势头,特别是在编程和企业用户领域。据知情人士透露,他们否决了部分员工关于推迟发布该模型的要求,后者希望争取更多时间进一步提升模型质量。 奥特曼表示,公司还计划在1月发布另一款模型。该模型将具备更好的图像生成能力、更快的速度以及更好的“交互”。在此之后,OpenAI将结束“红色警报”。 OpenAI发言人则称,这两种理念并不冲突,AI工具的广泛普及正是公司实现AGI惠及大众的方式。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
李开复在《金融时报》发文:中国开源AI是一项国家优势
李开复 凤凰网科技讯 北京时间12月9日,创新工场董事长、零一万物CEO李开复在英国《金融时报》撰文称,开源AI是中国的一项国家优势。这种模式类似于一起学习考高分,而不是依靠个人的聪明才智。 以下是文章全文: 今年1月,在DeepSeek发布R1大语言模型后,美国纳斯达克指数单日下跌3%。R1在性能上可与美国头部AI模型相媲美,但使用的算力却低得多。这表明,美国在生成式AI领域的先发优势可能正在缩小。更重要的是,该模型以开源形式发布。任何人都可以免费下载并修改它,将其用于自己的商业用途。 如今,我们有比以往更多的理由相信,中国AI公司能够与美国同行一较高下。DeepSeek最新的两款模型在推理性能上可媲美OpenAI的GPT-5和谷歌的Gemini-3 Pro。R1与阿里巴巴千问模型的大获成功,使开源模型在中国成为常态。百度、智谱、月之暗面、美团等公司都允许用户下载其尖端模型、探究其运行原理并进行修改。与美国大语言模型的秘密开发模式形成鲜明对比的是,它们为中国AI发展提供了一条截然不同的道路。 开源AI能够让用户定制模型,例如针对特定行业进行微调。这些模型也可以在客户内部服务器上运行,这意味着企业用户不必将数据发送给AI公司。免费的开源模型让研究人员、学生、发烧友和企业家都能用上最先进的AI技术。 对此,我深有体会。早在1988年,在我完成语音识别方向的博士研究后,我的导师、图灵奖得主拉吉·雷迪(Raj Reddy)教授就建议我将工具包开源。数十年过去了,这套工具仍在被使用和更新。这让我深刻认识到开源社区的力量以及共享资源的持久生命力。 DeepSeek 随着更多中国AI公司将模型开源,技术发展步伐已经加快。不同企业的工程师们互相研究彼此的模型以及成千上万个独立开发的变体,让创新者能够择优吸收功能并进行渐进式改进。这种效果类似于一起学习考高分,而不是依靠个人的聪明才智。如今,我们有比以往更多的理由相信,中国AI公司能够与美国同行一较高下。 这种模式是应需而生的。尽管Meta通过Llama模型倡导AI开源,但大多数美国开发商仍将其尖端大语言模型掌握在自己手里。美国在生成式AI领域的早期领先优势,遵循的是经典硅谷模式:OpenAI、Anthropic和xAI等公司利用海量风险资本获取高性能GPU和顶尖研究人员,在封闭实验室中开发模型。它们当前正陷入一场赢家通吃的竞赛:竞相打造性能最佳的模型、压制竞争并建立垄断。 在被迫追赶的情况下,中国的AI行业将重点放在提升效率上,致力于开发所需算力更少、使用成本更低的模型。DeepSeek选择开源模型,是为了鼓励客户在其基础上构建产品生态系统。例如,在其R1模型发布数日内,AI社区Hugging Face上的开发者就创建了500多个衍生模型,下载量达250万次。 如今,排名前十的开源AI模型几乎都来自中国。这种主导地位已如此明显,以至于谷歌前CEO埃里克·施密特(Eric Schmidt)警告称,美国企业可能将开源AI领域完全拱手让与中国。 但这并不意味着中国必然能在AI竞赛中战胜美国。美国企业仍在研发领域保持领先,并投入巨资进行开发。他们的企业客户愿意支付高昂的订阅费使用闭源模型,这为持续研发提供了资金支持。与中国企业受限于英伟达芯片的出口管制不同,美国企业还能毫无阻碍地获得顶尖的GPU。这种硬件对AI计算至关重要。 因此,AI发展的未来格局可能类似于苹果与谷歌在智能手机操作系统领域的竞争。美国企业正如苹果的iOS系统一样,正在构建一个封闭的生态系统,通过高定价提供高端产品体验。而中国的AI发展路径则更接近谷歌开放且可定制的Android操作系统。 尽管iPhone深受高端消费者青睐且利润丰厚,但Android系统驱动着全球超过70%的智能手机。中国的AI企业正采用类似的“Android战略”,旨在通过开放技术实现更广泛的市场覆盖。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
谷歌承认Pixel 9 Pro系列屏幕问题,符合条件手机3年内免费换屏
IT之家 12 月 9 日消息,科技媒体 Android Authority 今天(12 月 9 日)发布博文,报道称谷歌承认 Pixel 9 Pro 系列手机存在屏幕问题,为其启动免费延长维修计划(Extended Repair Program)。 IT之家援引博文介绍,针对 Pixel 9 Pro 和 Pixel 9 Pro XL 两款机型,谷歌明确了具体的故障表现:若用户发现手机屏幕出现从底部延伸至顶部的垂直线条,或遭遇屏幕闪烁现象,即符合免费维修申请条件。 谷歌承诺,对于确诊存在上述显示缺陷的设备,将提供自原始零售购买之日起长达三年的免费显示屏更换服务,大幅延长了标准保修期限。 谷歌虽然将折叠屏手机 Pixel 9 Pro Fold 纳入了此次延长维修计划,但并未像直板机型那样列出具体的显示屏故障特征。 官方公告仅模糊地指出,该计划涵盖影响设备“功能性”的问题。这意味着 Fold 用户若遇到非人为损坏的运行异常,需送至维修中心进行个案评估,以确定是否符合免费维修标准。 谷歌严格设定了维修门槛,并非所有 Pixel 9 Pro 系列设备均能自动获批。官方明确指出,凡是存在屏幕破裂、盖板玻璃受损或有液体入侵(进液)迹象的手机,均将被排除在延长维修计划之外。对于此类因意外或使用不当造成的物理损坏,用户只能选择标准保修(如适用)或付费进行保外维修。 该延长维修计划目前已正式生效。受影响的用户可以通过谷歌线下维修中心(Walk-in centers)、授权服务合作伙伴或在线维修渠道申请服务。所有通过该计划完成维修的设备,其更换的部件或修复的故障点将自动获得为期 90 天的额外保修,为用户提供进一步的售后保障。
亚马逊Agent全家桶爆更!连甩9个大招,锁定最强智能体平台
打造最强智能体平台,最大云巨头狂堆猛料。 作者 | ZeR0 编辑 | 漠影 智东西拉斯维加斯12月3日报道,在年度云计算盛会AWS re:Invent大会上,AWS Agentic AI副总裁Swami Sivasubramanian发表主题演讲,详细阐述为什么是亚马逊云科技(AWS)构建和运行智能体的最佳选择,并发布多项智能体(agent)开发新工具。 Strands Agents SDK智能体框架新增对TypeScript和边缘设备的支持,让智能体构建更轻松,并拓展至更广泛的汽车、游戏、机器人等边缘领域。 Amazon Bedrock AgentCore智能体平台推出多项创新:策略功能支持团队为智能体的工具使用设定边界,评估功能帮助团队了解智能体在实际场景中的表现,情景记忆功能让智能体能够从经验中学习并持续优化。 Amazon Bedrock全托管AI平台新增强化微调功能,提供自动化微调能力;Amazon SageMaker AI平台新增模型定制功能,支持深度底层调整,简化高效AI的构建流程。 Amazon SageMaker HyperPod新增的无检查点训练功能则实现了大规模、低成本的训练,整体目标是最大化客户在生产环境中这些工作负载的价值和投资回报率(ROI)。 此外,针对构建智能体可靠性的Amazon Nova Act服务,正式版全面可用,有助于实现智能体大规模生产部署。 01. Strands Agents SDK新增两大功能, 支持TypeScript和边缘设备 Strands Agents SDK是一款开源、模型驱动的AI智能体框架,提供模型驱动编排,自发布以来下载量已达到529.9万次。 今日,亚马逊云科技宣布两项新功能: 一是支持TypeScript(预览版)。TypeScript是全球最受欢迎的编程语言之一,这将让全栈智能体应用的构建变得更加轻松。 Strands Agents对TypeScript的核心特性提供全面支持,包括类型安全、async/await异步语法,以及现代JavaScript/TypeScript编程范式。开发者可借助AWS CDK(云开发工具包),全程使用TypeScript构建完整的智能体技术栈。 二是支持边缘设备。客户可通过Strands Agents SDK构建能在小型设备上运行的自主式AI智能体,落地汽车、游戏、机器人等领域的智能体应用场景,在现实世界中交付智能服务。 02. Amazon Bedrock AgentCore新增策略、评估、情景记忆功能,助力下一代智能体开发 将智能体引入生产困难重重,需要快速规模化部署智能体,记住过去交互和学习,识别和访问所有智能体和工具的控制,掌握用于执行复杂工作流的智能体工具使用,最后观察和调试问题。 而复杂性会拖慢创新。如何帮助客户大规模构建、部署安全的生产级智能体?这正是Amazon Bedrock AgentCore的核心价值所在。 Amazon Bedrock AgentCore是一款专为安全、大规模构建和部署智能体而设计的智能体平台,兼容各类框架和模型,于今年7月在AWS纽约峰会上首次发布预览版,随后快速迭代,10月已正式全面可用。 企业要将智能体从原型推向生产环境,需要一套安全、可靠、可扩展且适配智能体非确定性特性的专用基础设施。智能体需要动态扩展的底层支撑,能支持长期运行的工作负载,并可即时、安全地存储和检索上下文信息。 然而,当前早期采用者需要投入大量资源从零构建这类基础设施,过程耗时费力,严重拖慢开发周期。 Amazon Bedrock AgentCore则通过提供全托管服务来解决这一挑战。它包含一系列关键组件,提供了大规模运行生产级智能体所需的种种,包括: Runtime:无服务器、安全且隔离的运行时计算资源; Observability:可观测性工具(开源且兼容OpenTelemetry协议),帮助客户了解智能体的运行状态; Memory:记忆功能,让智能体能够长期与用户互动,记住过往交互内容,从而构建智能、个性化的应用; Code Interpreter:代码解释器,让智能体能够通过编写代码访问以往无法使用的工具; Gateway:网关功能,支持连接AWS内外系统; Managed Browser与Identity:网络使用权限和身份认证功能,明确智能体的身份及其代表的主体,这与治理和可观测性密切相关。 客户既可以使用Amazon Bedrock Agent构建智能体,也可以结合任何开源智能体构建框架。目前该平台已获得广泛采用,迄今开发者下载量已超过200万次。 在此基础上,Bedrock AgentCore新增两项新功能: 一是Policy in AgentCore,策略功能,为智能体的操作设定明确边界。通过独立于智能体代码的实时确定性控制,主动拦截未授权的智能体操作。 企业只需用自然语言描述规则即可创建精细化策略,可以为智能体定义策略(可访问的工具和数据、可执行的操作、适用条件等),比如“当报销金额超过1000美元时,拒绝所有客户的退款申请” 之类的策略。 这些策略会在智能体执行前进行评估,确保智能体始终在设定的规则边界内运行。 二是AgentCore Evaluation,评估功能,帮助开发者基于智能体的行为持续检测其质量,确保其行为符合预期。 AgentCore评估功能无需管理复杂基础设施,提供了13种预置评估器,覆盖正确性、实用性、工具选择准确性、安全性、目标达成率、上下文相关性等常见质量维度。开发者还可灵活使用自己偏好的大语言模型和提示词,编写自定义评估器。 三是AgentCore Memory Episodic Functionality,情景记忆功能,自动保存交互过程中的关键事件和状态,助力智能体从过往经验中学习,提升决策水平。 它包含短期记忆和长期记忆。短期记忆用于记录当前的交互过程,帮助智能体了解与用户或操作者的实时互动状态;长期记忆用于追踪长期的交互历史。情景记忆则能在这些记忆基础上,叠加特定交互场景的上下文信息,让智能体能够给出更智能的建议。 举个实际例子:假设有一个预订智能体,你第一次使用时,它为你预订了车辆,并预留了45分钟的赶航班时间,但你当时因照顾家人和孩子而错过了航班,不得不重新预订。借助情景记忆,系统会记录下这次交互经历。 当你6个月后再次预订航班时,智能体将记得你需要更多的准备时间,会自动为你预留2小时的车辆预订窗口,而非45分钟。这一功能已深度集成到AgentCore中。 这些功能的核心目标,都是加速智能体从想法到大规模生产落地的进程。 03. Amazon Bedrock与SageMaker AI新功能:简化模型定制流程,构建更快速高效的智能体 随着智能体应用的普及和生产环境中模型规模的扩大,效率已成为客户必须关注的核心问题。企业客户在使用现成模型时面临一种挑战:这些模型功能强大,但往往未针对效率和规模进行优化,最终导致不必要的成本支出、响应速度变慢以及资源浪费。 而效率并不仅仅关乎成本,它涉及多个关键因素:延迟(智能体能否快速响应,实现实时互动)、扩展性(能否应对预期的高负载)、敏捷性(能否根据应用演进和客户交互快速迭代调整)。 解决这一问题的关键在于定制化:通过定制小型专用模型,处理智能体最常执行的工作,以更低成本实现更快、更精准的响应。 但在此之前,强化学习等先进定制技术需要深厚的机器学习专业知识、庞大的基础设施支持,且开发周期长达数月。 对此,亚马逊云科技宣布Amazon Bedrock与Amazon SageMaker AI推出全新功能,以便开发者运用先进的模型定制技术。 1、Reinforcement Fine-tuning in Amazon Bedrock:强化微调,提升模型准确率 亚马逊云科技宣布Amazon Bedrock的一项新的强化微调功能——Reinforcement Fine-Tuning(RFT)。 该功能简化了模型定制流程,核心目标是让客户无需具备深厚的机器学习和AI模型开发专业知识,就能轻松提升模型准确率。 其相比基础模型平均可提升66%的准确率,帮助客户无需依赖庞大昂贵的模型,而是通过更小、更快、更具成本效益的模型,获得更优结果。 操作流程很简便:开发者选择基础模型,指定调用日志或上传数据集,选择奖励函数,然后Amazon Bedrock中的自动化工作流会全程处理微调流程,以最大化奖励函数的结果。 如此一来,客户无需专业知识,就能获得更贴合自身需求的定制化模型。 发布初期,Amazon Bedrock强化微调功能将支持Amazon Nova 2 Lite模型,后续将逐步兼容更多模型。 2、Model Customization in Amazon SageMaker AI:模型速度更快、成本更低、准确率更高 还有一类客户是领域专家,希望对AI工作流拥有更多控制权。 虽然Amazon Bedrock的强化微调功能非常便捷,但部分客户希望深入底层进行自定义调整,因此亚马逊云科技在用于大规模训练和定制模型的平台SageMaker AI中新增了Model Customization深度模型定制功能。 SageMaker AI自2017年推出以来,一直是客户进行AI和机器学习模型开发的核心平台。为了满足客户的深度定制需求,亚马逊云科技让这一过程在SageMaker中变得更加简单:客户无需管理基础设施,可为其生成合成数据,助力提升应用效果。 亚马逊云科技提供了两种体验模式: 一是智能体驱动模式(预览版):通过智能体引导开发者完成模型定制流程。客户用自然语言描述需求后,智能体将全程引导完成定制流程,从生成合成数据到模型评估无一不包。 二是自主引导模式:适合喜欢自主操作、希望获得精细化控制和灵活性的开发者。这种模式无需管理基础设施,同时提供合适的工具供开发者选择定制技术,并能调整相关参数。 通过这两种模式,开发者都能运用先进的定制技术,包括基于AI反馈的强化学习、带可验证奖励的强化学习、监督式微调及直接偏好优化。 SageMaker AI新增功能将支持Amazon Nova以及Llama、Qwen、DeepSeek、gpt-oss等热门开源模型。 亚马逊云科技希望通过多样化的界面,为专业客户提供所需的全部功能、控制权和灵活性,让客户能够定制模型,以最低成本获得最佳性能,并根据自身专业水平和偏好的工作模式提供适配的解决方案。 04. SageMaker HyperPod无检查点训练: 数分钟内从模型训练故障中恢复 在与客户合作进行模型定制和训练的过程中,亚马逊云科技意识到仍有改进空间,模型训练成本高昂且流程繁琐。 通常,客户需要运行大型GPU集群,这些集群运行时成本不菲,闲置或故障时损失更大,无法开展有效工作。 为解决这一问题,亚马逊云科技开发了Amazon SageMaker HyperPod。 它是SageMaker中的托管训练功能,是目前大规模模型训练成本最低的方案之一, 能最大化集群运行时间,让客户在进行训练和定制任务时,充分发挥集群的价值。 Amazon SageMaker HyperPod简化了模型训练与部署的基础设施管理,最高可降低40%成本。当训练规模扩展至数百或数千个加速器时,可能会出现硬件或软件故障等问题。 传统基于检查点的恢复方式耗时最长可达1小时,不仅成本高昂、占用存储资源,还会导致价值数百万美元的计算集群在恢复期间处于闲置状态。 对此,亚马逊云科技宣布SageMaker HyperPod推出Checkpointless Training无检查点训练功能。 该功能无需人工干预,即可在数分钟内自动从基础设施故障中恢复,使包含成千上万张AI加速器的集群训练效率最高可达95%。 对于大型长期运行的任务,重启和重跑极其痛苦。而无检查点训练彻底改变了这一模式:系统自动记录所有操作,若发生故障,可在几分钟内快速恢复,客户能迅速继续工作。 当故障发生时,系统会自动替换故障组件,并通过从邻近正常加速器进行模型和优化器状态的点对点传输来恢复训练。这一机制大幅缩短了停机时间。 这不仅降低了整体运营成本,还能让客户更快地将定制模型部署到生产环境。 它真正实现了,无论客户需要多大的规模,都能以简单、经济、可靠的方式完成训练。 05. Amazon Nova Act正式发布: 构建可靠智能体,实现UI工作流程自动化 当智能体应用和这些工作流部署运行后,可靠性就成为了核心要求。 每个企业都有希望自动化的流程,但他们需要的,是可预测、可靠、可规模化的自动化,而这一点靠企业自身很难实现。 为了简化这一过程,亚马逊云科技构建了一套端到端服务Amazon Nova Act,帮助开发者构建、部署和管理大量可靠的智能体,实现生产环境用户界面(UI)工作流程的自动化。 企业使用智能体进行自动化时,通常都是针对屏幕和界面的自动化操作,而Amazon Nova Act的设计初衷就是让这类开发更简单,同时保障可靠性和规模化部署能力。 今年早些时候,亚马逊云科技发布了Amazon Nova Act研究预览版。为了将智能体投入生产环境,亚马逊构建了一个完全集成的解决方案,用于实现可用于生产环境的可靠浏览器自动化。 今日,Amazon Nova Act正式版即日起全面可用。 该服务与Amazon Nova、Bedrock和AgentCore深度集成,让客户能够轻松构建可靠的智能体。它能够大规模地提供超过90%的任务可靠性,同时与其他AI框架相比,还能更快实现价值,并简化部署过程。 客户可在自己选择的任何开发环境中构建这些应用,系统支持部署大量并行的UI智能体,这些智能体依托模型,具备高可靠性。 Amazon Nova Act基于定制的Amazon Nova 2 Lite模型,能够出色地驱动浏览器、支持API调用,并在必要时将问题升级至人工处理。该服务具备Web质量保证(QA)测试、数据录入、数据提取和结账流程等核心功能。 如今大多数模型都是独立训练的,与执行任务的协调器和执行器分离,这降低了可靠性。Amazon Nova Act采用不同的方法,利用强化学习,让智能体在模拟真实世界用户界面的定制合成环境(Web Gym)中运行。 这种模型、协调器、工具和SDK的垂直集成,以及所有组件的同步训练,实现了规模化下更高的任务完成率。最终得到的智能体系统不仅偶尔有效,而且能够大规模可靠运行,并具备推理和适应变化的能力。 Amazon Nova Act将适配客户使用的各种集成开发环境(IDE)。它是一套可扩展的框架,完全适配客户的开发习惯,同时让客户能够轻松实现大规模生产部署。其核心适用场景是任何需要自动化UI的场景。它包含一个动作模型,亚马逊云科技还针对该模型开发了大量SDK和工作流,用于操控UI。 06. 结语:构建智能体的最佳平台, 亚马逊云科技志在必得 亚马逊云科技坚信生成式AI是人们正在经历的关键变革之一,将助力客户实现业务转型,并在未来数月、数年内普及开来。 当前,这家云巨头致力于成为客户构建智能体、实现业务自动化的最佳平台,不仅让开发过程更简单,还提供了安全、高弹性的基础架构,保障运营的领先性和世界级的基础设施,让客户能够按需定制所使用的基础设施和技术栈,从而获得理想的结果。 其平台提供了丰富的AI功能,内置负责任的AI机制,拥有支撑这些技术在现实世界发挥作用所需的数据资源,还依托全球最大的合作伙伴网络,使其客户可通过市场轻松获取各类智能体。 而亚马逊云科技会处理好各种底层复杂工作,助力企业及开发者通过生成式AI应用实现业务变革。
谁是中国 AI 创新的第一公里?
创新连接器 创办 Plan Coach 之前,开发者苏晓江在专注开发一个笔记类 App。为了跑通完整流程,他先做了一个轻量级的 HDR 小应用放到小红书上,但仅仅只有零星的反馈。 意外的的转折,发生在一个偶然时刻。 一天晚饭后,他想去刷碗,却怎么也起不来身。他忽然想起一个方法:如果把一件拖延的事拆得足够具体,只做第一步,事情就会开始动起来。他打开 GPT,GPT 给出了第一步:「只要站起来就算赢」。 他站了起来。然后,他真的把碗刷完了。这件事让他觉得有趣,于是花了一天时间写了一个 MVP 发到了小红书。第二天评论区炸了:能不能加一个倒垃圾模式?能不能给我拆一下税务报表?能不能加一个交互界面? 这条内容涌入 1000 多条评论,最终收获了 3000 多个赞。 这是一个典型的产品敏捷流程:fail fast, learn fast,只不过发生在小红书,用户用脚投票,开发者决定是否投入资源。 苏晓江最终决定把这个用 AI 拆解任务、「杀死拖延症」的 APP 开发出来, 这就是 Plan Coach 诞生的过程。 「在过去,开发一个产品四五个月、功能成型后再亮相是再正常不过的节奏。但在小红书,一种更快速的验证范式正在成型:MVP 可以以天为单位上线。」苏晓江说,「产品从 day one 开始面向用户,毕竟开发者最终还是要面向市场,走商业化路径。」 连续创业者陈锴杰,在小红书上首发「Macaron」这款个人生活管家 Agent 时,初衷很简单:为什么 AI 能写论文,却不能管理一个普通人的生活?比如帮人运动、陪你记录饮食,帮人记录心情,普通人是不是也能捏一些属于自己的小应用? 这是他的第三次创业,发布后,他的心里是有担忧的,不知道用户接受度怎样。「结果发上去的第一天,很多用户开始留言。」 如今,用户已经在 Macaron 中创造了接近 20 万个小应用。陈锴杰认为,创始人要有勇气把产品放到小红书让用户看一看,哪怕遭遇质疑,「产品不是被创始人设计出来的,而是和用户的真实需求共同长出来的。」 如果把 2025 年的中国科技行业按「信号强度」排序,小红书科技内容的增长绝对是今年最出乎意料的现象。 先是 DeepSeek 新玩法、AI恋爱、AI 陪伴的讨论,之后是 AMA 破圈,李开复、印奇等大佬入驻,新人群也在涌入,第一批是独立开发者,然后是AI创业者,之后是投资人…… AI 闹今年采访的大部分创始人都在小红书做过冷启动,很多投资人也告诉我们,他们每天都会在小红书上搜索项目,发现高潜创始人。 如今,小红书平台上已经聚集了超 5 万名开发者,科技内容发布同比增长超 100%,据站内统计,每个开发者平均能得到 20 条真实的用户反馈,许多热门的产品可以得到成千上万条建议。 这背后得益于小红书 3.5 亿的月活用户,这个群体高度生活化,同时又具备极强的表达欲和互动意愿。恰好为 AI 创新提供了真实、具体、多样以及长尾的需求场景。 也因此小红书在 AI 时代被推向了一个新位置:创新的连接器。 并非技术社区,却承担了技术创新的早期验证;不是创投孵化器,却成为很多产品被发现的地方——这很像早年 Kickstarter 对硬件创业者的意义,或是 Twitter 初期对硅谷创业公司的价值。 更极端点说,如果一个 AI 产品,在小红书上没有任何水花,它很可能是「不对」的。 新人群 = 创新土壤 一个普遍的行业共识:2025 年是 AI 技术的场景元年。 随着大模型的成本降低,能力提升,AI 创业者之间的技术差距正在变小。真正决定创新的不再是模型参数,而是产品能不能在一个具体、真实的场景落地。 换句话说,随着技术成本的下降,中国 AI 的下一阶段竞争:谁能更快找到 PMF。 「移动互联网因为技术成本过高,只能做大众需求,这一波 AI 创业,一些个性化需求和小众场景被重新挖掘。」一位创业者告诉 AI 闹。 另外,创新的本质最需要的三样东西:真实需求、可验证场景、即时反馈机制——恰好在小红书天然存在。 分析其背后原因,是因为与很多互联网平台不同,小红书一直以来不围绕「增长」和「流量」,而是始终围绕「人」展开。 小红书的科技生态发展时间很短,仅仅只有两年,即便很多人认为,这个平台没有科技基因——但小红书在冷启动做科技内容时,也遵守人的原则—真实的需求和真实的互动。 科技运营负责人散兵曾带着团队分析过,现在很多科技社区的门槛太高,大家必须在上面输出观点,普通人常常不敢发言,而微信私域的讨论又相对封闭,「我们认为普通人也在关心 AI的发展,科技圈需要有一个场域,让大众和圈内的大咖们平等交流。」 于是,小红书的科技团队决定「先从一句话开始」,今年最破圈的 AMA 由此诞生。顶会论文写作者,AI 领域技术大咖、AI 创业者第一次在公开场景和普通人对话。 这无形中拆掉了科技走向大众的那堵墙,让 AI 不再只是行业生僻词,而是渗透进入了普通人的生活。 对于新技术的普及而言,能否与用户建立真实的链接、形成可落地的应用,比技术本身的讨论更重要。 而今天比起模型参数的竞速,大多数普通人只是关心:AI 能不能能解决我每天遇到的实际问题? 小红书上的活人感恰恰也构成了 AI 时代最稀缺的资源:具体问题、真实的痛点,带着生活经验的反馈。 Plan Coach 的创始人苏晓江用了一个很有趣的比喻,他形容小红书的用户很像自己的精神股东,每一次产品迭代背后都有用户的「指点」,「好像在和用户共创。」 一方面是普通用户乐于在小红书分享真实的需求,无论是生活、工作还是更私密的情绪,这些需求长尾,所以细分场景密度高,是很多AI产品的天然测试地。 一方面是开发者群体普遍在平台能得到快速响应:一个 idea 也许在 24 小时内就获得了用户反馈,一个 MVP 也许在评论区就能完成迭代,一个初创团队也许短期内就能获得上千个种子用户、第一次媒体曝光和第一笔融资。 由此小红书构成一条通路:让 AI 从业者和普通人身处在一个平台。 创新,被日常生活不断催生。 只有「人」重要 如果把互联网二十年的发展拉开观察,会发现一个稳定的规律: 只要一个社区聚集足够多愿意表达、愿意互动的真人,新人群和新趋势自然会在这里诞生。 2000 年网络初期,天涯和豆瓣是最活跃的真人社区,有人在连载小说;有人在讨论电影;有人发行单曲…市场浪潮里最早的一批作家、出版人、到电影导演都在这里诞生。 2006 年我在豆瓣认识了一个叫塔吉克坦克手的人,他在豆瓣笔耕不辍,若干年后我发现他的真名叫班宇。 2010 年的微博是一个新的公共场域,很多移动互联网公司的「第一次用户增长」都靠微博扩散,比如美团最早的外卖红包,陌陌「附近的人」的功能被微博用户广泛讨论后才真正启动,小米「参与感」主要阵地就在微博。 我有一个朋友,从大厂辞职后,在微博积累了 2 万用户就从 VC 拿到了种子轮融资。 很有趣的是,微博最初的定位不是创业孵化器。 进入移动互联网,小红书成为了新场域,相继挖掘出了对美妆、潮流、生活方式感兴趣的年轻人,完美日记、三顿半、元气森林、蕉内……这些新消费品牌的第一批用户、第一篇种草笔记、第一次直播甚至第一个客诉都是在小红书发生的。 消费行业有句名言:品牌好不好,上小红书看一看。 当 2025 年这波AI浪潮泛化到生活场景时,小红书自然又承担了「第一公里」的角色。 不过,今天的小红书显然也意识到只是创新的「起点」是不够的,平台也在承担「连接器」和「创新土壤」的角色。 很多创业者已经把小红书当成创业的实验场:产品在打磨,先丢进社区看反应;想不清楚方向,用几张截图测需求;应用原型刚跑通,到小红书找人试。 有人在这里成功的找到第一批用户,有投资人顺着热帖挖到了硅谷的创业者;有独立开发者获得了第一笔收入。 如果把众筹、小组件、C2C 等功能继续深挖,小红书成为了一个「从想法到变现」的闭环生态:用户有需求,开发者写 demo,社区直接试用、反馈、付费。 这意味着小红书已不是传统意义上的内容社区,而是一个诞生创新的平台。 其实外界早期对小红书印象最深的一点是,高管常常把《美国大城市的生与死》视为社区运营的典范。 这本书里举过一个反例:波士顿部分区域的衰落不是因为经济下行,而是因为过度的重复和模仿,导致街区多样性的瓦解,新创意和新人群得不到更好的资源,于是出走、流失。 所以,AI 浪潮是否会长期停留在小红书,其实不是关键问题。真正决定平台生机的是能否把目光持续始终聚焦在「人」身上。 从中国新消费的萌芽到今天 AI 浪潮,小红书的核心优势从来不是流量,而是对「新人群」的感知力。那些尚未成形的需求、尚未被定义的趋势、刚刚冒出的创造力在这里「被看到」。 一个社区持续能与最具创造力的人群站在一起,才有无限的可能性—因为时代从来不是被「平台」决定的,而是被「人」决定。
机器人香港开启极限挑战,丢掉遥控器,硬刚全自主
智东西 作者 | 许丽思 编辑 | 漠影 机器人花式后空翻、拳击、拟人化奔跑、跳舞……这些高难度炫技已经让人见怪不怪,进工厂干分拣、组装、巡检也越来越多,有时候容易让公众觉得,机器人看上去很聪明能干,距离走进日常生活不远了。 但把视角从屏幕拉回到产业现场,画风却不太一样。行业整体处在试点多、规模化少的早期阶段,多数项目仍停留在实验室demo和展会秀场,技术路径、商业模式都还在探索,真正能落地的少之又少。 这种观感上领先、应用上滞后的强烈反差感,不由得让人追问,无遥操、全自主的机器人距离走进人类生活到底还有多远? ATEC2025赛事专家委员会主席、香港工程院院士刘云辉教授提出,机器人有三大核心能力,行走、操作、改造环境。这也是判断机器人能否适应真实环境的重要依据。再具体一些,从机器人完整的“感知-决策-执行”的流程上来看,机器人需要准确感知真实环境,进行全自主决策,并完成最终的长链条任务执行。 问题是,这些能力在今天的机器人身上,究竟到了哪一步?行业需要一个尽量接近真实又能公开观察的窗口。 近日,第五届ATEC科技精英赛构建了一套真实世界适应力测试框架,比赛由香港中文大学主办,ATEC前沿科技探索社区、北京大学、北京师范大学、蚂蚁集团联合承办,专家评审阵容包括刘云辉、谢立华、Masayoshi Tomizuka等多位国际知名机器人学者。 赛事在全户外场景下考察行走、操作、改造环境等多项能力,来自全球的13支顶尖赛队完成了吊桥穿越、定向越野、自主浇花与垃圾分拣等系列任务。 就像蚂蚁集团技术战略部负责人所说,“设计的每一道题,都不是为了让它‘完成得好看’,而是为了让它在碰撞中暴露真正的弱点。因为如果问题不是真实的,就不会牵引出真实的技术进步。只有“真问题”,才能让行业知道下一步要突破什么。” 一、拒绝标准化环境,机器人须进入非结构化的真实场景 当前,多数机器人技术验证,基本都是在灯光可控、地面平整、障碍物规则的标准化环境中。 结果就是,这种设置屏蔽了真实世界的大量不确定性,就算取得不错的表现,也难以拓展到其他场景的应用中。这是在判断全自主机器人能否进入人类生活场景时,最先被标准场地抬高预期的第一个维度——环境感知能力。 感知到底难在哪?对机器人来说,要求它能习惯各种乱七八糟的光影、背景和杂物,能实现多模态信息融合,还要在目标和环境不断变化的情况下,保持输出稳定。 ATEC2025赛事组专家、香港中文大学(深圳)理工学院助理教授钟仿洵提到,“真实环境里最大的问题是不确定性和高动态性,你看到的不一定是真的。”机器人必须具备识别并处理感知信息中“不确定性”的能力,这是实现高级自主的前提。 垃圾分拣就是一个很典型的例子,这样的任务尤其注重机器人的环境识别能力:垃圾类型、材质、形状都各不相同,还可能有污渍、遮挡、随意堆叠。同一个物体只要在堆叠顺序、污渍上变一下,在实验室里训练出来的识别能力很可能一下子就无法正常工作了。 多支赛队在采访时提到,实验室里的精准识别,到了真实场景可能瞬间失效。比如,比赛当天,香港大晴天的太阳光线非常强烈,香蕉皮在被反复抓取后发生不可回弹形变;实验室采集的桌子数据完全不适用,现场桌子反光影响了激光相机点云;透明物品比如矿泉水瓶由于反光等原因,导致多台机器人识别失败;有的机器人垃圾还没抓取到,就急着往垃圾桶走…… 这与很多机器人应用试点中,换一个工位、灯光,应用效果就大打折扣的情况高度相似。它们指向的都是同一个行业事实:机器人在真实环境的感知能力,是可大规模部署的基本前提。 在运动场景中,类似的问题同样存在。定向越野比赛,复杂蜿蜒的林间小路光影摇曳,树荫和坑洼不断交错,机器人必须判断眼前的暗块到底是可以踩上去的土路,还是需要回避的坑洼,需要感知系统可靠估计地形、识别可通行区域。 刘云辉教授表示,这类任务强调是在自然场景下测试运动能力和环境识别,在一些有限引导下,看看机器人能不能通过实时反应克服障碍、爬山涉水。 作为冠军选手的浙大Wongtsai团队称,面对复杂的真实环境,他们在Isaac LAB中搭建了一个尽可能还原比赛场景的环境,甚至专门对RealSense相机的噪声,比如双目视差、散斑投射、纹理缺失等问题进行模拟。这种“仿真到真实”的闭环设计,让他们的四足机器人成为首个全自主跑完全程定向越野的参赛选手。 行业正加快从标准场地可用走向真实场景可用,真实环境是机器人走出Demo、能在更多场景复制落地的必修课。 如果机器人能学会全自主垃圾分拣,解决了背后复杂视觉感知、多材质物体识别、稳定抓取上的长期难题,就有望在工厂、环卫、物流等“脏乱差”场景应用;如果机器人能自主完成定向越野,就能解决未来在园区巡检、户外勘探、灾害救援等复杂地形场景中遇到的真实难题。 二、摆脱人类遥控,机器人大规模落地需要自主决策 现在,我们看到的许多炫酷的机器人能力展示,很多都是由人类操作员遥控操作,机器人更多扮演远程操作平台,而非具备真正决策能力的智能体。这种机制,在产业发展早期,确实能够更快速验证机器人能力、收集数据、积累经验等。 但是,机器人的表现很大程度上来自人类的经验判断和临场操作,是人脑在替机器人的大脑工作,容易掩盖了机器人在感知、决策等的短板,难以真实反映其在无人干预下的表现。这是在判断全自主机器人能否进入人类生活场景时,最容易被遥控表现美化的第二个能力——决策自主性。 一些头部公司已经做出调整,以特斯拉Optimus为例,年中,其宣布放弃了传统遥控操作学习的方式,之后,马斯克10月发表对Optimus功夫视频的评论:“是AI,不是遥控”,这都说明,无遥控已经成为具身企业未来发展的清晰共识。 全自主、无遥操是行业发展的重要趋势所在,赛事通过评分规则,明确奖励无遥操的参赛选手。但这也极具挑战性,浙大Wongtsai团队的队长朱承睿形容,从人类远程遥控操作到自主控制,大概是蒸汽机时代到电气化时代的飞跃。 吊桥穿越任务中,机器人需要通过三种不同间距的桥面段,自主识别桥面结构,决定是否需要借助工具通过、是否拉绳搭桥等。有的选手给机器人装上宽大的“脚底板”,避免穿越过程中被缝隙卡住;有的机器狗通过跳跃绕开缝隙,还省略了拉绳搭桥的步骤。 在刘云辉院士看来,这类任务的核心是决策与规划,因为桥板位置不一样,机器人要自己做思考、做决策,比如拿起板来填充,从而改变环境,适应自己的运动。这是包含了环境评估、工具使用、任务规划的高级智能行为。 港中文CUMAE团队谈道,比赛中的不同任务对机器人的硬件和AI能力有不同要求,AI和机器人的发展应在一个大系统里相互配合、发挥优势,而不是彼此单独发展,这给了团队在未来解决类似问题的一个思路。 目前,机器人在小脑的运动控制与运动性能进步飞快,但在大脑部分的AI能力还很基础,不少业界人士都曾表示,AI能力不足也导致了机器人没能真正大规模落地。 随着行业向规模化落地迈进,全自主能力必然会成为机器人企业的核心竞争壁垒,也是机器人从“工具”迈向“伙伴”的核心标志。 三、不止单一能力,机器人需要稳定跑完一整条长程任务链 即使感知、决策能力都过关,机器人能否进入人类生活场景,还取决于第三个维度:能不能稳定执行具有一连串复杂动作的长程任务链,而不是只完成某一个精彩动作。 不少演示都是通过遥控来实现对机器人单一动作能力极限的展示,但是在仓储拣选、园区巡检、灾害救援等真正应用场景中,机器人需要完成的是具有多个步骤的长程任务链。 家庭场景也是如此,叠衣服、浇花、洗碗、收纳等也是长程任务,以家庭浇花这样看似小事的精细任务为例:机器人需完成取水壶、接水、走到花盆前、控制浇水、再归位的全流程,水壶重量和重心在过程中持续变化,这考验的是从感知、规划到力控、步态协同的一整套能力。 在ATEC的自主浇花任务中,这种系统性挑战被直观呈现:有的机器人在拿起水壶后频频摇晃、对不准浇花位置等,需要多次调试,人工多次干预;少数队伍能完成全流程,但往往速度较慢。这些场景与现实中“机器人总是要人去救场”的情况非常相似。 “VLA模型有一定的泛化能力,但它只能理解图像和语言指令,无法将这些指令与真正的物理交互相对应,在物理世界的理解和交互能力方面存在不足。”浙大Wongtsai团队说。最终,团队还是选择了传统的视觉识别+机械臂规划的方案。 北理工CyberPrime团队提到,自主浇花任务难以全自主完成的原因主要有两方面:硬件上,传统高精度机械臂重量大、速度慢,搭载在四足机器人平台上不稳;软件上,操作算法泛化能力有限,实验室用少量道具训练的策略,到了比赛现场完全不适用。在他们看来,机器人走入生活,硬件运动能力没问题,主要瓶颈在于操作精度、安全性和自主性,这也是实验室未来几年主要攻破的方向。 这也揭示了具身智能正面临的处境:各种模型、算法看上去很聪明,但一落到具体机器人的执行层面上就处处受限,软硬件脱节;机器人下半身能够顺利移动,但是上半身操作环节却格外吃力。 更严格地说,即便能跑起来,在长时间、多轮次、多场景的任务链下,它们也很难保持一贯的稳定性和可维护性。 未来,真正落地的机器人产品,必须要面对长程任务链这道坎,重视系统可靠性、任务完整性实现移动与操作的统一。 结语:真实世界“翻车”很正常,是具身智能落地的必经之路 两天的比赛看下来,任务挑战大,全自主太难,机器人翻车情况确实存在。 不过,刘云辉院士觉得,翻车很正常,也是一个进步,至少把机器人拿到场景下测试了,失败也是一个结果,但能够给到反馈,让开发者反思哪里做的不够好、技术应该怎么改进。“我觉得你没有失败,其实就永远不可能有成功的一天。” 针对户外复杂场景,各参赛队伍尝试了多样化的技术路径与创新方案:有的团队将传统模块化算法与前沿的端到端大模型方案并行测试,寻找稳定性与智能化的最佳平衡;有的为应对吊桥的动态晃动,设计出轻量化控制与实时环境建模相结合的独特策略。这些充满创造力的技术探索,为机器人场景落地积累了宝贵实践经验。 不少参赛选手在采访中都提到,ATEC的比赛设置贴近现实场景,对技术发展来说具有更实际的意义。他们基本都怀抱着强烈的使命感,期待着机器人未来更多地去完成人类无法完成的工作,让机器人去承担人类危险的工作,这种真实世界极限挑战就是通往那条路的起点。 具身智能要从风口上的故事变成基础设施,需要一套能经得住时间考验的测试场和评价体系。 几年后回头看,这场没那么多“爽感”的基于真实场景的大赛,或许正是这套体系的早期雏形。
苹果加速OLED屏幕在iPad全系渗透 三星、LG率先受益
【CNMO科技消息】根据市场研究机构Omdia和UBI Research的数据与分析,苹果正计划将OLED显示屏的应用从高端iPad Pro扩展至中低价位型号,预计将明显推动未来几年中型和大型OLED面板市场的增长。 据CNMO了解,由于搭载OLED的iPad Pro销售不及预期,今年整体OLED平板面板出货量预计将同比微降3.5%,至1090万片。然而,从明年开始,随着OLED向更多机型渗透,增长将变得显著。Omdia预测,2026年OLED平板出货量将激增39%,达到1500万台。UBI Research更为乐观,预计平板用OLED面板将从今年的1390万片跃升至明年的1770万片,并在2029年达到2890万片,成为中型和大型OLED市场中占比最大的部分。 苹果的扩张计划具体如下: 2025年:计划为iPad mini引入OLED屏幕。与iPad Pro采用的“双层串联”(Tandem)结构不同,新款iPad mini预计将采用结构更简单的“单层”(Single)OLED,并搭配LTPS背板技术,以控制成本。据悉,初期约300万台的OLED面板订单很可能由三星显示独家供应。 2027年:计划将OLED屏幕扩展至iPad Air产品线。 2028年:计划为新一代iPad Pro引入采用“彩色滤光片封装”(CoE)技术的OLED面板,以进一步降低功耗。 在供应链方面,韩国面板企业预计将在初期主导供应。三星显示正致力于为iPad全系(从高端到中低端)供货,而LG显示则继续专注于高端iPad Pro的订单。回顾去年,iPad Pro的OLED面板供应由三星显示(约280万片)和LG显示(约350万片)共同完成。 韩媒指出,虽然中国面板制造商如京东方(BOE)、华星光电(CSOT)等正积极扩大对华为等品牌的柔性OLED供应,并努力进入苹果供应链,但在质量认证,特别是复杂的双层串联结构技术上仍面临挑战。分析师表示,由于初期iPad mini的OLED订单量不大且技术要求相对可控,苹果很可能仍会优先依赖已验证的韩国供应商。 与此同时,LCD(液晶)屏幕凭借中国厂商的成本优势,目前仍是平板电脑面板市场的绝对主力,预计今年出货量将达2.865亿片,同比增长8.3%。这显示出在可预见的未来,OLED与LCD将在平板市场长期共存,分别主导不同价位段。
冰火两重天的苹果:iPhone史上大卖,多名高管离职,库克退休生变?
智东西 作者 | 王涵 编辑 | 心缘 智东西12月8日报道,12月1日至7日,短短7天,至少6位苹果高管被曝出宣布离职或即将离职,分别是: 苹果硬件技术高级副总裁乔尼·斯鲁吉(Johny Srouji),环境、政策和社会倡议副总裁丽莎·杰克逊(Lisa Jackson),总法律顾问的凯瑟琳·亚当斯(Katherine Adams),人机界面设计副总裁艾伦·戴伊(Alan Dye),设计团队高级总监比利·索伦蒂诺(Billy Sorrentino)以及人工智能业务主管约翰·詹南德雷亚(John Giannandrea)。 自9月以来,苹果至少已有8位高管确认离任或退休,同期仅从外部挖来了2名新高管。 苹果流失高管名单(2025年9月起,据公开报道)(智东西制图) 苹果新增高管名单(2025年9月起,据公开报道)(智东西制图) 但在销量方面苹果依然风光无限,2025年有望迎来史上iPhone大卖新记录。11月26日,全球知名市场研究机构Counterpoint最新预测报告显示,今年,苹果iPhone2025年预计出货量达2.43亿部,将以19.4%的市场份额,比三星市场份额多出3.3%。 然而,在iPhone“热卖狂欢”的背后,苹果AI、芯片、设计、法务等多个业务部门的人才却正在加速流失。 一、苹果“自研芯片之父”萌生去意,或设CTO挽留 据彭博社知名苹果爆料记者马克·古尔曼(Mark Gurman)12月7日消息,苹果硬件技术高级副总裁乔尼·斯鲁吉(Johny Srouji)近期已告知库克,自己正认真考虑在不久后离职。 这位苹果自主芯片战略的核心架构师,已向身边同事透露,若最终离开苹果,他计划加入其他科技公司。 苹果硬件技术高级副总裁乔尼·斯鲁吉(Johny Srouji)(来源:彭博社) 古尔曼还透露,库克一直在竭力挽留斯鲁吉,不仅开出优厚的薪酬方案,还承诺其未来可承担更多管理职责。 苹果内部部分高管甚至提出了一个设想:提拔斯鲁吉担任首席技术官,统筹硬件工程与芯片技术两大核心领域,这一职位或将使其成为苹果内部权力仅次于库克的二号高管。 但这一人事调整存在现实阻碍:若设立首席技术官并由斯鲁吉接任,可能需要同步将现任硬件工程主管约翰·特纳斯(John Ternus)擢升为CEO。 更关键的是,据苹果内部人士透露,斯鲁吉本人更倾向于不接受在其他CEO的领导下开展工作,即便能获得更高级别的头衔。 倘若斯鲁吉最终确定离职,苹果大概率会从其麾下两位核心副手Zongjian Chen或斯里巴拉姆·桑塔纳姆(Sribalan Santhanam)中择一接任。 二、掌舵苹果ESG十年,前美国环保署署长官宣退休 在其他领域,据彭博社消息,曾主导苹果公司可持续发展战略、且有美国国家环境保护局(Environmental Protection Agency)局长履历的丽莎·杰克逊(Lisa Jackson),将于明年1月正式退休。 苹果环境、政策和社会倡议副总裁丽莎·杰克逊(Lisa Jackson)(来源:TechCrunch) 杰克逊早在2013年便加入苹果,此前她曾担任美国环保署署长。在苹果任职期间,杰克逊的职责范畴十分广泛,既负责统筹公司政府事务、推进全链条减碳降排等环境影响优化工作,还牵头运作了苹果耗资1亿美元(约合人民币7.1亿元)打造的“种族平等与正义倡议”(Racial Equity and Justice Initiative)。 三、苹果法务掌门更替,Meta首席法律官接棒 另外,自2017年起担任苹果总法律顾问的凯瑟琳·亚当斯(Katherine Adams),计划于明年年底卸任。这一消息颇令外界震惊,尤其是考虑到她目前正牵头处理苹果多起重大法律纠纷,但从任期时长来看,作为苹果总法律顾问,她的任职年限已属于行业内的较长水平。 苹果总法律顾问凯瑟琳·亚当斯(Katherine Adams)(来源:芝加哥大学) 苹果迅速官宣了法务线的核心继任者:苹果已从Meta挖来其首席法律官詹妮弗·纽斯特德(Jennifer Newstead),由其接任亚当斯的总法律顾问一职。 前Meta首席法律官詹妮弗·纽斯特德(Jennifer Newstead)(来源:Meta) 纽斯特德的履历极具含金量,她曾担任美国国务院法律顾问,牵头团队就影响美国外交关系的各类法律议题为国务卿提供专业决策建议。 此外,她还曾在联邦政府出任多个核心法务要职,包括白宫管理与预算办公室总法律顾问、司法部法律政策办公室首席副助理检察长、白宫副法律顾问,甚至曾担任美国最高法院大法官史蒂芬·布雷耶(Stephen Breyer)的法律助理。 苹果CEO库克在公告中特别强调,纽斯特德将同时统管苹果法律与政府事务两大部门。 四、曾主导“液态玻璃”界面,苹果交互设计支柱转投Meta 过去五年间,负责苹果产品物理外观与握持触感的硬件设计团队,几乎被掏空。 大批核心员工要么追随前设计主管乔尼·艾维(Jony Ive)加入其工作室LoveFrom,要么跳槽至其他科技企业。 12月3日,该团队再生变故,据彭博社报道,苹果前人机界面设计副总裁艾伦·戴伊(Alan Dye)将加盟Meta,牵头负责Meta现实实验室旗下全新设计工作室。苹果设计团队高级总监比利·索伦蒂诺(Billy Sorrentino)也将一同入职该实验室。 左:苹果前人机界面设计副总裁艾伦·戴伊(Alan Dye)右:苹果设计团队高级总监比利·索伦蒂诺(Billy Sorrentino)(来源:雅虎科技) Meta创始人兼首席执行官马克·扎克伯格(Mark Zuckerberg)在Threads的帖子中透露,戴伊和索伦蒂诺两人将联手执掌新工作室,核心使命是“融合设计、时尚与科技,共同定义下一代产品与用户体验”。索伦蒂诺也已在个人Instagram账号上确认了这一消息。 扎克伯格官宣帖子(来源:Threads) 目前,苹果已由资深界面设计师史蒂芬·勒梅(Stephen Lemay)接替戴伊的职位,而库克本人也开始承担更多设计监督工作。 戴伊曾是苹果设计团队的核心支柱,一手主导了watchOS系统迭代、Apple Vision Pro交互设计,以及iOS 26“液态玻璃”界面的全面重绘等关键项目。 他转投Meta的选择,侧面印证了扎克伯格治下的Meta正渴望复刻苹果在交互设计领域的“绝对统治力”。 科技咨询机构Moor Insights & Strategy分析师安谢尔·萨格(Anshel Sag)认为,Meta此次挖角的首要意图,是着手改善旗下各平台长期以来呆板乏味的用户界面。 “Meta的软件体验一直难言理想,旗下所有平台都存在严重的体验割裂问题。Facebook、Instagram、WhatsApp、Quest头显——这些产品的质量标准参差不齐,用户界面的缺陷尤为突出。若想稳住用户基本盘,他们必须对界面体验进行彻底革新。”萨格评价道。 这波人事变动,恰逢Meta全力布局AI智能眼镜赛道的关键节点,凭借Ray-Ban Meta镜片,Meta几乎实现了市场垄断。 这也正是扎克伯格近来格外重视设计与时尚属性的核心原因,Meta智能眼镜的成功,很大程度上得益于其合作伙伴依视路陆逊梯卡(EssilorLuxottica)打造的精致镜框。 追求更优雅的产品设计已成为Meta的首要任务,而实现多设备间的无缝协同则是更为核心的诉求。 “多数情况下,硬件只是实现体验的载体,”萨格强调,“如果用户界面操作繁琐难用,哪怕眼镜的外观再精致,也终究是徒劳。” 戴伊与索伦蒂诺曾一手塑造了Apple Watch、Apple Vision Pro及所有现代苹果产品的交互逻辑,二人的加盟,无疑将为Meta现有的可穿戴设备矩阵注入全新能力。 这波核心人才的流入,预示着Meta相关产品或将迎来方向性调整——其设计风格很可能会向苹果的简约精致靠拢。 值得关注的是,戴伊与索伦蒂诺离开苹果的时间点,恰逢苹果AI业务深陷发展瓶颈的阶段。彭博社报道称,苹果始终未能复刻Meta凭借Ray-Ban智能眼镜建立的设备生态优势,其Vision Pro头显更是被外界视作一次高调的市场失利。 据报道,苹果正试图通过研发更贴近Meta风格的智能眼镜,来弥补这一战略短板。 五、AI主管卸任“意料之中”,前Gemini负责人接手 苹果人工智能业务主管约翰·詹南德雷亚(John Giannandrea)的卸任,其实早在意料之中。 苹果前人工智能业务主管约翰·詹南德雷亚(John Giannandrea)(来源:彭博社) Apple Intelligence自推进以来便深陷延期困局,且功能表现未达预期,原本备受期待的Siri语音助手全面革新,已较原计划推迟约一年半。此前更有消息称,苹果曾考虑与谷歌达成合作,以此填补自身AI能力的短板。 在此背景下,苹果早在今年3月就已开始逐步剥离詹南德雷亚的相关职责。在苹果内部,员工们长期以来便普遍认为他终将卸任,甚至有不少人对其能留任至今感到意外。 不过据知情人士透露,苹果若更早与詹南德雷亚分道扬镳,无异于公开承认自身AI业务存在重大问题。 12月1日,苹果正式任命微软资深研究员阿马尔·萨布拉曼尼亚(Amar Subramanya)出任人工智能副总裁,接替詹南德雷亚的职务。 微软资深研究员阿马尔·萨布拉曼尼亚(Amar Subramanya)(来源:Time of India) 未来萨布拉曼尼亚将主导苹果基础模型与机器学习领域的工作,直接向软件业务负责人克雷格·费德里吉(Craig Federighi)汇报。 萨布拉曼尼亚履历深厚,此前在微软担任人工智能企业副总裁,更早之前,他曾在谷歌供职16年,期间还曾出任Gemini智能助理的工程负责人等核心岗位。 六、苹果运营灵魂退休,库克未来或转任董事长 近期苹果密集的高管离职潮背后,更值得关注的是上月发生的一场核心人事变动——库克多年来的得力副手杰夫·威廉姆斯(Jeff Williams)正式退休,为其长达十年的首席运营官生涯画上句号。 前苹果首席运营官杰夫·威廉姆斯(Jeff Williams)(来源:彭博社) 威廉姆斯的卸任,恰好与库克的年龄节点形成叠加:库克上个月刚满65岁,这一信息迅速引发外界对他是否会加入离职浪潮的猜测。 不过据接近库克的知情人士透露,库克短期内离任的可能性极低。业内分析认为,即便库克最终卸任CEO职务,他也大概率会转任公司董事长,从而继续对这家iPhone制造商保持强大影响力。 这一预期使得苹果选择外部人士接任CEO的可能性微乎其微——尽管外界曾有人推荐耐斯特实验室(Nest Labs)创始人托尼·法德尔(Tony Fadell)等候选人。 耐斯特实验室(Nest Labs)创始人、“iPod之父”托尼·法德尔(Tony Fadell)(来源:TED) 值得一提的是,法德尔虽曾助力苹果研发出标志性产品iPod,但他15年前离开这家科技巨头时,双方关系并不融洽,这也降低了他回归接任的可能性。 目前在苹果内部,50岁的硬件工程主管约翰·特纳斯(John Ternus)被员工普遍视为下一任CEO的最有力竞争者。 从目前状态来看,库克仍在苹果保持着高强度的工作节奏,频繁代表公司出差处理全球业务。不过近几个月,苹果内部员工间开始讨论一个细节:库克存在不明原因的手部震颤症状。 据知情人士透露,在内部会议及大型公司活动中,不少高管和普通员工都曾注意到这一现象。对此,接近库克的人士明确称他身体健康,并驳斥了硅谷流传的相关不实猜测。 结语:苹果高层权力格局已然重塑 当前,更多核心权力正集中到四位高管手中:除了前文提及的特纳斯,还包括服务业务主管埃迪·库伊(Eddy Cue)、软件负责人克雷格·费德里吉(Craig Federighi),以及新任首席运营官萨比赫·汗(Sabih Khan)。其中,特纳斯、埃迪和费德里吉曾被认为是最有可能接任库克掌舵苹果的人选。 在AI业务领域,苹果管理层已完成重新分配,费德里吉已成为苹果事实上的AI负责人。 对特纳斯而言,多重机遇正助力他进一步巩固地位:明年苹果将迎来成立50周年的重要庆典,他被确定将在其中扮演核心角色,这无疑会大幅提升其内部知名度。 与此同时,公司还将机器人与智能眼镜这两大未来增长核心领域的更多职责交予他,足见对其战略能力的认可。 苹果的管理层调整或许尚未结束。目前零售与人力资源主管迪尔德丽·奥布赖恩(Deirdre O’Brien)已在苹果任职超35年,营销主管格雷格·乔斯维亚克(Greg Joswiak)的任职年限更长达40年,两人的退休规划已提上日程——苹果近期已着手提拔二人手下的核心副手,为后续的人事交接提前铺路。
群核科技亮出战略全景图,开放底层空间智能能力,连发两大新品
作者 | ZeR0 编辑 | 漠影 智东西12月9日报道,今日,“杭州六小龙”之一群核科技发布战略全景图,宣布将系统性持续开放其底层空间智能相关能力,并推出Aholo空间智能开放平台、基于3D技术的AI内容创作工具LuxReal。 群核科技CEO陈航发布群核空间智能全景图 当前,群核科技正从3D空间软件提供商逐步向空间智能基础设施提供商升级,公司使命从帮助人在三维空间实现想象力进一步拓展至帮助具身智能、AIGC等智能体更智能。 Aholo空间智能开放平台整合了群核科技从大模型、数据到工具的核心3D能力,开放包括空间重建、空间生成、空间理解、空间编辑等底层能力。 3D视频生成工具LuxReal可生成确保空间一致性的3D模拟世界,已开启全球内测邀请,并将于12月下旬启动内测,2026年第一季度正式开启公测。 群核科技联合创始人兼CEO陈航谈道:“当AI加速迈向三维世界,行业最需要的是底层技术的‘卖水人’。群核致力于提供‘可落地’的空间智能能力,不仅实现可视化层面的真实感,更要输出结构化的空间数据。同时,在算力受限的现实条件下,我们通过生成、仿真等多元技术组合,更高效连接物理世界与数字世界。” 陈航还晒了晒今年群核的新朋友们,其中不乏智元机器人、银河通用、星海图等机器人企业。 今天,群核科技的品牌全面升级,致力于让每一个物理空间,都成为可计算的世界。 一、Aholo空间智能开放平台上线,全面开放底层能力 群核科技联合创始人兼CEO陈航谈道,创业14年来,群核科技一直以空间为关键词,并从创业中看到两个重要趋势:一是3D空间软件会从本地化往云原生的方式发展,二是GPU会在云端提供强大的算力。 因此,群核科技打造了全球领先的云设计软件平台,并一直努力成为物理空间与数字空间的桥梁。 在AI加持下,空间从数字化向智能化发展,从服务于人发展成服务智能体,通过空间训练平台,让机器人能更有效地在空间里运动。 群核科技不变的是专注于空间技术,变的是从提供空间3D软件发展向建设空间智能的基础设施。 空间智能意味着让AI创造更丰富的3D空间,让AI更好地认知理解空间,让机器更好地在空间中交互。 “只有实现空间智能,机器才有可能真正与人类产生共鸣。”陈航说。 他预测,很长一段时间内,靠大语言模型都很难实现空间智能。AI还无法理解空间,也无法合理生成空间,无法做到时空一致性,亦无法让机器人完成物理世界的任务。 其中一大难点是数据。在空间智能领域,丰富且更加真实的数据极度稀缺。而群核科技具备突破它的条件,过去14年逐步形成了一个空间智能飞轮,不断产出数据,构建模型,通过模型生成更好的工具: 第一,拥有全球最大的空间云设计平台,包括酷家乐和海外版COOHOM。 第二,拥有全球最大的室内深度学习数据集,5亿个3D结构化场景和4.4亿个商品模型,今年还发布了InteriorGS数据集,该数据集一度登顶Hugging Face数据集榜单。 第三,拥有前沿的开源空间语言模型SpatialLM。 陈航公布群核的空间智能四大核心能力:空间重建、空间生成、空间编辑、空间理解。 空间重建方面,他现场演示了通过电脑操作与3D全息重建的时思寺进行互动。群核还与博物馆合作,把一些很难建模的文博产品留存下来。 空间生成,即如何用一张图还原出已不存在的空间?给一张低分辨率角度照片,群核就能还原出可移动的空间结构化场景。 如果要达到商业级内容,还需要有更专业的人借助工具链软件去进行更深入的编辑。 空间编辑可帮助电商行业生成超真实、高品质的营销内容。例如在一张会场空镜里放进去一辆车,再对汽车进行材质、场景、氛围等各种编辑渲染。 空间理解,叠加空间重建、空间编辑能力,就能便捷完成老房改造设计。 这些能力怎么用呢?陈航宣布,Aholo空间智能开放平台正式上线。该平台整合了群核科技过去14年在空间重建、空间生成、空间编辑、空间理解方面沉淀的核心能力,并将以底层模型和工具的形式逐步对外开放。 目前Aholo平台已启动内测。开发者和相关领域企业可通过API或SDK的方式自由调取上述能力。用户可通过图片、视频或全景图等多模态输入,在平台上快速构建高保真的全息3D空间。 该平台能够助力空间设计、XR、影视短剧、文化遗产保护等3D内容创作领域,以及工业数字孪生、机器人仿真训练等对3D结构化数据有高要求的场景,实现提质增效。 活动现场,国内影视行业龙头企业华策影视与群核科技达成战略合作,共同推进空间智能技术在影视内容创作与制作领域的前沿应用与深度融合。 华策影视将借助Aholo开放平台,围绕虚拟片场生成与影视场景重建以及产业生态协同共建等方向展开深度合作,以提升影视制作效率与艺术表现力,并推动影视行业向智能化、数字化方向转型升级。 二、3D AI内容创作工具LuxReal:增强AI视频可落地性 群核科技还发布了基于3D技术自主研发的AI内容创作工具——LuxReal。 群核科技3D AI内容创作工具LuxReal界面 该产品由群核一支95后年轻团队历时半年打造,是内部基于其空间能力的一次AI原生化产品的重要探索。 群核科技团队认为,如果未来有一个视频生成工具,既能够在降低操作门槛的同时,又能进一步提升可控性,它将代表行业进入真正的全民创作新时代。 据群核科技AI产品总监龙天泽分享,当前AI视频生成的娱乐属性整体大于应用属性,处于“可玩”大于“可用”的“跛脚”状态。在非严肃市场里,AI视频工具已经将操作门槛大幅降低,但当前AI视频算法与可商业化的可操作性、可控性、物理真实之间依然存在距离。 AI并非真正理解世界。现有AI视频生成技术在创作过程中,常因视角切换而出现人物形变、物体位移、材质错乱、频繁抽卡、凭空出现和消失、空间逻辑混乱、遮挡关系错误等问题。原因是,多数视频生成模型基于图像或视频数据训练,缺乏对3D空间结构和物理法则的理解和推演能力。 商品视频、游戏、短剧等应用,都需要空间一致性。比如商品广告中,创意可以天马行空,但商品主体必须精准还原。 对此,LuxReal以群核自研的AI 3D生成模型Lux3D为底座,融合图像和视频生成模型,构建业内第一个3D Agent系统。 LuxReal通过构建3D渲染与视频增强一体化的生成管线,让AI视频真正理解空间,从而在保证时空一致性的前提下,能够高效生成符合要求、富有创意的视频内容,使AI视频创作实现稳定性和灵活性的高度统一。 这将进一步满足电商从业者、影视剧编导、广告导演、产品经理等群体更为严格的内容创作需求。 相比其他AI模型,Lux3D生成的材质效果更细腻。在两项指标中,Lux3D的分数小幅领先于其他模型。 群核即日起向普通用户提供LuxReal SaaS版本,向专业用户/开发者提供Lux3D API。 “用户付费意愿是检验真理的唯一标准。”龙天泽谈道,群核借助流程设计与模型能力的协同,构建兼具可控性、空间一致性的创业工具,让AI视频既能带来惊艳眼球的创意,也能提供值得信赖的生产力。 三、与谋先飞、地瓜机器人、PICO等达成合作 除了多年累积的空间计算能力之外,群核科技在空间智能领域的另一大优势在于海量可交互的空间数据。 今年群核将3D高斯这一技术引入AI空间训练领域,在原有数据集的基础上,借助3D高斯重建能力,全面拥抱真实数据,显著提升仿真环境的真实感与物理一致性,进一步缩小Sim2Real(仿真到现实)之间的差距。 会上,谋先飞(Motphys)、地瓜机器人与群核空间智能训练平台SpatialVerse正式达成深度合作,将共同推进机器人仿真训练解决方案的创新落地。 三方将整合各自在具身智能仿真训练平台、云算力、空间训练数据等领域的优势,共建高效、精准、可扩展的机器人仿真训练体系,攻克机器人仿真训练中场景泛化难、训练效率低、Sim2Real迁移落差大等核心挑战。 XR平台PICO与群核科技达成生态合作。双方基于PICO的XR硬件系统与群核科技平台丰富的空间数据集,携手打造“世界最大的可交互XR资产库”,为全球开发者与企业用户提供XR内容生产基座,并探索开放共赢的 “空间智能 + XR” 创新生态。 据悉,基于其空间智能技术,群核科技过去一年持续升级产品矩阵,实现深度AI化。 酷家乐上线AI智能设计平台,成为用户全链路的AI设计智能体,仅需5分钟就内完成一套全屋空间设计方案,效率提升100倍。该平台目前已上线全球化版本,服务更多海外客户。 助力智能体更智能的SpatialVerse与智元机器人、银河通用、穹彻智能、智平方、松应科技等一批具身智能企业达成合作。 同时,SpatialVerse拓展工业场景,推出工业AI孪生平台SpatialTwin,探索具身智能时代的人机协作新模式。 结语:做空间智能的“卖水人” 今天,互联网对世界的呈现还是AI对世界的学习,依然以1D文字和2D图片视频为主,是因为进入3D世界有很大的挑战。 群核希望成为“走向3D空间的卖水人”角色,持续开放底层能力,通过提供空间智能的基础设施,助力空间智能技术在千行百业加速落地。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。