行业分类:
加载中...
头条分类:
加载中...
学而思发布新品学习机:搭载DeepSeek,配备专属1对1 AI老师,“精准学”等功能迎升级
作者 | 陈骏达 编辑 | 心缘 智东西5月7日报道,今天,学而思正式发布了P、S、T三大系列的学习机,并在旗舰机型上推出“小思AI 1对1”智能交互功能,能引导学生主动探索,带来个性化、高效能的智能学习新体验。 本次发布的三款学习机,搭载了由学而思九章大模型和DeepSeek构成的双核大模型。学而思CTO田密介绍,九章大模型是国内首批通过备案的教育大模型,全科解题、全科批改能力处于行业领先水平,多模态批改技术、基于大模型驱动的步骤级知识图谱是本次“精准学”等AI功能升级的核心支撑。 这三款学习机分别面向不同学段和学习需求的学生群体。其中P4标准款首发价2699元,主打性价比;S4经典款能力较为全面,首发价为4899元;T4旗舰款主打智能学习体验,集成了58项AI功能,首发价为7299元。在AI功能之外,这三款学习机还根据新课标要求更新了课程体系。 学而思智能学习负责人赵璞铮称,教育领域存在“高品质、大规模、个性化”难以兼顾的“不可能三角”困境,而AI有望帮助所有孩子获得专属的1对1老师。 一项学而思与北京大学教育学院学习科学实验室共同开展的研究表明,学生在使用学习机时的提问频次与内容,与学业成绩、自我调节水平显著相关。基于此,学而思推出“小思AI 1对1”等创新功能。 “小思AI 1对1”能够主动引导学习,与学生展开连续对话,根据学情动态生成内容,实现因材施教。在答题批改环节,不仅能精准指出错误,还能深入分析原因并给出改进建议。在现场演示视频中,“小思AI 1对1”识别了学生在解题过程中出现的问题、错误,并给予针对性的提示,而非标准化答案。 “小思AI 1对1”还具备情绪感知能力,可及时给予学生鼓励或祝贺。 “精准学”是学而思学习机的特色功能之一。本次新品发布后,“精准学”将升级至3.0版本,打通了学情数据和知识图谱。其中,“过滤学”功能可自动生成课程思维导图,帮助孩子快速把握课程核心内容。 “过滤练”功能则针对学习机内置练习、老师布置作业等,智能分析出未掌握题目、易错题和必考题,优先练习关键题目,避免盲目刷题。 学而思旗下原“随时问”App也全新升级为“小思AI”。新功能则将于6月初上线,旗舰机型用户可免费更新。 结语:推理、多模态技术升级,引发AI学习机竞争升级 中研普华研究报告显示,2024年,中国学习机市场规模已达到约180亿元人民币,预计2025年将突破200亿元大关,年复合增长率保持在15%以上。其中,AI功能已经成为市面上大部分学习机的标配。 介绍新品时,学而思将大部分时间都花在了AI功能与其底层技术能力的解析。2025年以来,在新一轮多模态、推理模型技术迭代的背景下,学而思、科大讯飞等学习机厂商都不约而同地接入了DeepSeek,并进一步优化了产品的解题能力。未来,学习机厂商们在AI教育领域的竞争,或将愈演愈烈。
杨元庆回应Agent落地战略、关税影响、产品是否涨价
作者 | 程茜 编辑 | 心缘 智东西5月7日报道,今天,在2025联想创新科技大会上,联想正式发布超级智能体三大功能,并展示了覆盖全场景的个人、企业、城市超级智能体矩阵。(联想推出多个超级智能体,秀全球首款卷轴屏AI PC,人形机器人现场打太极) 随后,联想集团董事长兼CEO杨元庆,联想集团执行副总裁兼中国区总裁刘军,联想集团高级副总裁兼首席技术官Tolga Kurtoglu,联想集团高级副总裁 智能设备业务集团全球创新中心总经理贾朝晖,联想集团高级副总裁、中国方案服务业务群总经理戴炜与智东西等媒体,围绕超级智能体的独特性、AI落地等进行了深入交流。 杨元庆告诉智东西,目前联想混合式AI优势集包含计算、数据、模型、服务、应用库层面,其中有部分能力需要和第三方合作伙伴合作构建,如网络能力、数据、模型、服务层面。具体来看,联想在构建结构性和非结构性的数据、知识库等需要依赖第三方;模型层面,去需要帮助客户挑选最适合其需求的模型。 戴炜补充说,联想在构建宜昌城市超级智能体时,首先和合作伙伴构建了大模型“超市”,将几乎所有的大模型放在一个平台上,然后再往上迭代成智能体集市。此前,其合作模式是ISV模式,指与某一家公司或组织合作,提供软件产品或服务吗,现在这种合作方式已经远远不够,联想需要和生态合作伙伴共创领域智能体,同时集合领域智能体形成超级智能体集合,最终实现统一调度和协同。 贾朝晖称,个人超级智能体也在以生态合作的模式展开,联想会和业界其他智能体合作,为用户提供完整的解决方案,其独特性在于,让这些方案在联想的设备上能够有不一样的用户使用体验。 一、超级智能体与人深度捆绑,可跨设备、多方式自然交互 杨元庆提到了初代智能体小天和此次升级的超级智能体的不同,小天智能体和设备捆绑,超级智能体是和人捆绑,在保证数据安全、隐私的前提下,可以使用个人所有设备的所有数据来执行任务。 他重申了超级智能体的三个特征:感知和自然交互,用户可以通过各种设备和超级智能体交互,并且以语音、键盘、手势等诸多方式进行自然交互;认知以及在认知基础上帮助(用户)做决策甚至规划一些事情,认知的基础是记忆,超级智能体拥有长期记忆,用户习惯等可以作为其决策的依据;自主规划、自主学习演进,超级智能体可以将复杂任务分解为相对简单的任务,规划采取行动。 关于AI落地,杨元庆谈道,混合式AI是AI落地的最好方式之一。真正让AI有用处,需要和每个人、每个企业相连接,混合式AI的提出,就是要帮助AI在个人和企业层面构建更多应用。未来,每个人都有自己的个人智能体,而非每个设备的智能体。 水平方向上研产供销服都有智能体,在垂直行业上也会有垂直行业智能体出现,将来这些智能体之间互相打通、沟通就是AI落地的方式。 Kurtoglu提到像MCP这样的标准化协议正是市场的发展方向,联想也已经将其融入到现有的部分Agent功能当中。他认为,未来标准化和通用的API将会很重要,MCP是一个起点,也是目前最先进的技术之一。 但他也提到MCP目前是在Agent、工具、应用程序以及数据之间搭建桥梁,但就Agent的核心而言,还有更多功能需要去构建,未来联想将在保证安全的基础上,通过更多的增强功能来支持更多的标准等。 针对联想为企业提供的智能体即服务交付方式,戴炜称,联想百应是智能体即服务的一个典型代表。企业能够在不断使用联想百应的过程中,获得更加个性化的服务,而不是和SaaS服务一样,一旦交付就是固化的软件,只是以分期订阅式的方式获得。 二、内部客服70%请求无需人工干预,正探索用“硅基替代碳基” 围绕AI在国内的探索,刘军谈道,联想有针对个人智能和企业智能两条线。 个人智能方面,去年联想推出AI PC,同时推出第一代个人智能体系统天禧AS。过去一年,联想在AI PC、本地算力、天禧AS能力上都实现提升,用户净推荐指数和满意度、活跃度增长。今天发布的天禧超级个人智能体将是联想又一个重要里程碑,将达到L3(协作级)水平。 联想会基于端-边-云架构,在可信计算环境下给每个人做一个联想个人云,并且未来联想的产品可能会和非联想产品协同,智能体可以全方位实时从不同设备进行采集,并为用户服务。 企业智能方面,联想先拿自己进行实验,不断迭代智能IT引擎擎天。 联想内部,客服部门是首个用AI替代的业务,刘军透露目前联想在中国每年有3000万个服务请求,其中70%的请求已经不需要人工干预。 联想还在做用“硅基替代碳基”,其目标是工作流中的30%要用机器人完成。目前,联想已经可以为企业直接提供服务或者帮企业做AI转型服务等。 对于企业,联想把中国企业细分为两大类客户:政企、500人以下的SMB中小企业。面对政企客户,联想有擎天解决方案和服务,拥有“3+2”五大offerings,三个方案是xCloud混合云方案、智能体矩阵、ESG;两个服务是全周期服务、直接提供服务。 对于SMB企业,联想构建了提供IT运维服务、AI营销和AI办公等的联想百应。 三、联想安全底座:混合式AI架构、中间件的安全设计、推进行业标准、用AI防治AI 在保护用户的数据安全、隐私方面,杨元庆说:“联想之所以提出混合式AI,就是从个人、企业数据保护等角度出发,OpenAI、DeepSeek等发布的模型都是公有AI,需要通过公有云获得问答能力,但这一过程必然会暴露个人的数据。” 这背后的矛盾点是,没有真实个人数据的投喂,用户就无法通过AI获得精准的能力。因此,联想提出的更好解决方案就是,利用可信的设备,让其学习私有数据然后进行推理。对于企业也是如此,企业员工需要AI基于企业财务、产销、客户等数据帮助企业进行精准决策、优化流程。 Kurtoglu补充道,联想会将敏感信息在本地进行处理,同时会对信息去敏,然后在不同设备当中进行安全转移。对于需要上传到云端的数据,联想也会通过不同的数据安全和隐私保护措施来更好处理数据、转移数据。 贾朝晖总结了联想在保护数据安全方面的四个举措,分别是混合架构设计、硬件和操作系统层面中间件有相应的安全设计、合作推进行业安全标准、用AI防治AI。 四、关税对联想产品价格影响较小,两大模式可减弱国际形势影响 面对美国加征关税的潜在影响,当被问到联想的产品是否会在几个月后涨价,杨元庆说:“肯定没有一个绝对的回答。”他认为零部件的供需情况是一个很重要的考量因素,目前高科技产品有豁免条例,所以对价格的影响较小,但未来的不确定性很大。 此外,联想在应对高关税方面已经有诸多经验,通过在中国制造,然后将零部件运到海外进行组装,一方面可以满足交付时间需求,另一方面还能为当地提供就业、税收等。 他透露,联想构筑了全球生产制造基地布局,在10个国家建立33家工厂。其通过端到端整合的“ODM+”模式以及全球资源本地交付的global +local(全球本地化)业务模式,这两者相结合可以帮助其应对复杂的国际政治经济形势。 结语:联想重构个性化AI入口 相比于联想的初代智能体小天,联想超级智能体凭借感知与交互、认知与决策、自主与演进三大核心能力,超级智能体将成为个性化AI的超级入口。 目前,PC作为算力最强的个人终端设备,在智能体时代的重要性不言而喻。作为全球占有率第一的PC厂商,联想或许将凭借超级智能体的解决方案,构建从PC到智能体服务的商业闭环。
00后华人打造AI作弊工具狂揽3800万融资:求职不再是人找人,AI对轰时代来了
一个21岁的华人大学生,因为开发一款AI产品被学校开除,转头就凭借这个产品拿到了530万美元(约合 3825 万人民币)融资。 最近你或许看到过这个传奇故事,这个大学生开发的AI工具,号称能够帮助用户「在一切事情上作弊」。 产品演示,AI在约会中提供建议 这是一个叫为Interview Coder的面试作弊工具,可以隐藏浏览器窗口不被面试官察觉,为用户在考试、销售电话和工作面试等各种场景中获取AI的实时帮助。 创始人Chungin Lee表示,他自己就用这个工具获得了TikTok、亚马逊、Meta等公司的offer。 虽然金三银四已经过去,但工作很难找并不是一天两天了,尤其是 AI 越来越强大的情况下。 仿佛全世界的坏消息都涌了上来:还不会用AI,你就要被淘汰啦。 最近Shopify已经宣布要将AI使用情况纳入绩效考核中,员工如果要申请增加人力,就得先证明这个工作无法由AI完成。 前几个月国内一家公司流出的内部聊天记录就曾引发巨大讨论,就是因为里面惊人的裁员数字。虽然后来CEO发布了公开信表示不实,上美的确有计划整合AI进入业务当中,但好的人才依然是不可或缺的创新基石。 上美的姿态还是太激进了,连AI公司自己都开始调整招聘策略。 Claude背后的人工智能小巨头Anthropic二月更新了许多在招岗位,有眼尖的网友发现,申请表格中有这么一项: 有点滑稽。要知道Anthropic曾经还宣传过,Claude和招聘平台Skillfully的合作,通过协同不同的 AI 模型,定制出专属的 LLM 基础设施,实现了时间成本减少50%,招聘总成本减少70%的成果。 Anthropic开发AI是降低招聘成本,但自己招人的时候却放出了这样的条款。只许州官放火,不许百姓点灯呐。 新时代面试就是AI对轰 无论是用人方还是求职者,对AI工具的依赖都肉眼可见。 美国人力资源管理协会(SHRM)在2023年的调查显示,25%的组织已在 HR 活动中使用 AI,不仅用于简历筛选,还用于分析面试中的肢体语言、表情等。猎聘《2024 年度非凡洞察报告》指出,61%的企业 HR 部门在简历筛选、AI面试等环节使用AI工具,职位对AI工具的需求增长 68%。 以AI面试为例,面对面交流对于招聘来说必不可少。不仅能够进一步挖掘简历上的经验,还能了解求职者是怎样一个人。而用 AI 和数字人,已经成为许多大厂做初面的方式。 招聘网站们也在紧锣密鼓的赶工,迎接 DeepSeek 入驻自家平台。 自动生成岗位描述,5 秒即可分析千人简历,还能自动回复求职者咨询。 还有美团在「招聘做 AI 招聘的实习生」,很奇怪的一个句子,大概是想要找愿意把自己做成数字人的 HR。 第一条和第二条之间,堪称二律背反,但那又怎么样,这说不定可以改变世界。 现在的AI面试官已经很卷了,到了极其精细的程度,并不仅仅是甩几个问题出来回答、录音,而是会判断着装、陈述质量,甚至会检测眼神和表情是否僵硬,以判断有没有读稿。 甚至连瑞幸咖啡都有了 AI 面试。记忆里瑞幸是用全自动机,一键出液,人工摇杯,AI 是能帮助判断什么…… 据说这个AI面试的淘汰率还很高,会直接刷掉人。在AI替人类做咖啡之前,就先开始淘汰人类了是吧。 渗透率到这个程度,求职者怎么可能不拿起同样的武器呢? 像垂直考公培训的粉笔 app,推出了面试模拟功能,连场景设计不禁让人心头一紧。 去年GPT 4o发布时,官方也出了一个面试准备的视频。 专门针对AI的面试攻略也越来越多,人还能被AI给难住不成。 眼下的求职市场,堪称是 AI 之间的对轰。对于普通打工人来说,谁家的模型上了什么榜单不重要,能搞定简历、拿下面试才最重要。 恶性循环 可是,用人单位对于 AI 真的信任吗?Anthropic 的态度可能正反映了这一点:AI 有帮助,但问题也不少。 专门针对 AI 面试的攻坚层出不穷,带来的问题是所有人都千篇一律,而且还都用大模型给出的标准模板。 人人都摆出镜头里最好看的姿态,用最标准的答案。为了迁就模型的理解力,让自己的回答尽可能的结构化、逻辑简单,方便大模型理解。 求职者的削足适履,影响到的是企业的用人多样性。Tim Cook 曾经说过,多样性是苹果在招聘时非常关注的一个维度。对于这样一个跨国巨头来说,多元化的人才结构,有助于理解和洞察不同市场的需求,适应不同的客户群。 每个人的经历、经验不同,哪怕是刚刚毕业的应届生们,实习、上学的经历也各不相同。咨询公司 AESC 去年发表的报告中,指出数字化转型,更需要多样性的团队,在创新能力上可以比同质化的团队高出 35%,更易拿出颠覆性的解决方案。 虽然说打工人就像螺丝钉,只做点微不足道的小事。但人跟螺丝钉最大的区别在于,即便两个人都可以完成同一件事,这两个人始终是不同的两个人。 DeepSeek 在 2023 年接受暗涌采访时,梁文锋解释过自己对于人才的理解。 不要求海外学历、不要求工作经验、从细节招人。连 HR 都出来说,这样的取向在简历初筛阶段很难实现,但到了面试阶段,一般都能看出来。 梁文锋在用人上的独到见解,在今天多多少少像一种都市传说。真正敢不拘一格降人才的用人单位,简直像鬼一样:人人都说有,从来没见过。 更多的用人单位是标榜自己广纳贤士,然后转身开始布局 AI 面试,然后遇上求职者也拿 AI 工具应付,陷入恶性循环。 人才密度永远战胜人才数量 某种程度上 Anthropic 希望求职者不要用 AI,可能也出于类似的心态。春节前,在达沃斯论坛上,Dario Amodei 在访谈里还谈到了对于人才的看法。 「人才密度永远战胜人才数量,高质量的人才互相合作时,会产生某种独特的化学反应。」这是他秉承的信念。 AI 行业日新月异,三个月前 Anthropic 对于竞争,可能还没有很准确的认识。一个农历春节过去,不知道 Dario Amodei 现在是不是已经大跳反了。 Anthropic 的发心可能是好的,但做法却走偏了——在要求求职者不用 AI 之前,应该是公司少用 AI 来一刀切地评估候选人。 《商业研究杂志》刊发的研究显示,当 AI 以标准化、重复化的方式评估候选人时,求职者会担心自己的工作技能和经验没有被准确的解析出来,从而降低接受 offer、乃至入职的意愿。 至于预备打工人,则是要再多一点耐心。找工作是很难,现在也的确并非「是金子总会发亮」的时代。我们只能多一点耐心,用来自我成长,用来跟规则搏斗。一直到自己的光亮成功突围之前,耐心是最有用的武器。
换装横屏——这就是蔚来新5566最大的变化
蔚来终于缓了一口气。 整个 4 月份蔚来一共交付了 23900 台新车,同比增长了 53%,其中蔚来品牌 19269 台,乐道品牌 4400 台。 ▲蔚来近期销量 图片来自:蔚来官方微博 目前,NT2现款车型优秀的性价比,确实引发了市场的热烈反响,但是现在对我们团队来说更大的任务与挑战集中在,2025款「5566」能否上市后不打折还可以延续热销的气氛,我觉得是现在公司内部团队重点准备和观察的指标。(蔚来秦力洪) 对于这个增长情况,蔚来内部的态度是「谨慎乐观」,毕竟在目前新老产品交替的时期,有很大一部分销量来自于清库存,在叠加了降价以及「5 年免费换电」和「5 年 0 息」等因素后,很难说这部分的销量对蔚来的利润率有多大贡献。 ▲蔚来 24 款车型优惠方案 图片来自:蔚来销售 真正想要实现李斌「今年第四季度盈利」的愿望,还是得看接下来换代的 ET5、ET5T、ES6 和 EC6 的市场表现。 根据《西部证券》发布的研究报告,蔚来 ES6 和 ET5+ET5T 车型在 2024 年的总销量分别为 75433 辆和 77379 辆,分别占比 31.32% 和32.31%,两者销量合计占比超 60%,是蔚来销量和营收的绝对大头。 改款「5566」的公开信息并不少,而且大部分都是蔚来 CEO 李斌在直播中泄露出来的,再加上 2 月份「5566」们正式登陆了工信部网站,可以说除了具体价格以外,其他方面的信息都很透明了。 先来看看外观,根据《新出行》整理的现款与工信部申报图的对比汇总,改款「5566」的整体造型设计变化不大,只是在前杠、日行灯、前唇等细节上做了微调,ET5 和 ET5T 也用上了新的 ADB 智能矩阵多光束大灯。 ▲蔚来「5566」新旧款对比 图片来自:新出行 座舱和内饰则做了比较大的调整,蔚来此前已经确认,四台车都将采用与旗舰车型 ET9 相同的横屏设计,换挡拨片也将被怀档替换,此外中控台也进行了重新设计,会提供两个额外的无线充电板和额外的储物空间。 ▲蔚来新款 ES6 谍照 在车主群体中呼声很高的 AR-HUD 抬头显示系统预计也将下放到新款 ET5 和 ET5T 上。 据说蔚来这次也对「5566」的座椅舒适性进行了改进,并且新增了 ANC 主动降噪功能,不过由于 ET5 和 ET5T 换电结构的限制,估计两车坐姿过高的问题很难能得到改善。 ▲蔚来新款 ET5 谍照 智驾方面,新款「5566」的智驾芯片将从 4 颗英伟达 Orin 芯片更换为蔚来自研的神玑 NX9031 智驾芯片,也将搭载天枢 Sky OS 整车全域操作系统和基于蔚来世界模型的 NOP+。 这颗自研芯片的算力官方虽然没有正面提及过,但是业内普遍认为大致与 4 颗英伟达 Orin 芯片相当,约 1000 Tops 左右。 ▲蔚来神玑 NX9031 智驾芯片 在整车的电子电气架构上,「5566」依然将采用 400V 架构,所以整套动力系统和电池容量大概率都与现款相同。 至于为什么不上蔚来最新的 900V 和 NT 3.0 平台,李斌给出的答案是「成本摊销」。目前 3.0 平台的制造成本较高,且400V 在补能的适配性和便利性上都有优势,也能够兼容蔚来已有的大部分换电站。 ▲蔚来新款 EC6 谍照 总结一下,这次新「5566」的换代很大程度上是一次小修小补,蔚来改掉了现款车型上最容易感知的座舱部分,补强了之前竞争力匮乏的智驾部分。 ▲蔚来新款 ES6 内饰谍照 李斌在去年年底的一次媒体群访上,曾经讲过一段对于「二代车型」的看法—— 第二代车这三年,总体上落后于我们自己早期规划 2 年左右,蔚来现在的状态按照 17、18 年的规划,大概 2022 年就应该完成。 迟到两年的「5566」,在这次小修小补之后,或许能为蔚来维持一些市场热度并填补技术空窗,但很难让蔚来摆脱目前困境并实现盈利,尤其是李斌还明确表示了「改款的 5566 肯定不会比现款更便宜」。 还是期待一下乐道 L90 和萤火虫吧。
“最近看的AI项目,全是一个模子出来的”
“天哪,学不完根本学不完。每当你以为能够专心研究某样事物时,就会又出来一个新东西,你又得再分一些精力出来学习。”投资人Leo(化名)总在深夜陷入知识焦虑的漩涡。回忆起Manus公布那晚,他已经准备睡觉,突然微信推送出Manus创始人那条展示视频。他想,不管了,无论如何要睡觉。第二天起来,AI Agent又刷屏了。 1个月前,我们在一间咖啡馆里,聊着彼此都是刚学到的知识点。AI是当下最大的投资共识,他所在机构也把AI设为主要方向。以朱总为代表,盯着的是现实的商业化,考量的是项目能不能成为即刻可用的提效工具,或者说,能不能赚钱。这当然是市场的主流。当我把同样的问题抛给Leo,他的回答则让人意外。 Leo读的是别人嘴里面没用的专业。比起有没有商业模式,他更关心的命题是,当AI越来越先进,除了从纯商业的角度看能带来多少投资收益和效率提升外,是不是还应该同时考虑这种破坏性创新带来的负面影响,以及这种成本是不是现阶段我们能承受的? 从更广阔的维度,他思考的是新科技和新产品对于生产关系的变革。基于此,Leo分析了Agent大规模落地的挑战——因为人是社会性的动物,这导致Agent没有办法去实现更大的想象空间。他对AI应用的投资悲观——因为现有的项目在他眼里都长得差不多,仅仅局限在优化现有流程的层面。他还在等待一个奇点时刻,“当AI从本质上改变了生产关系,能创造出人与人之间、人与物之间交互的全新模式,在这个模式里真得离开AI都玩不转。” 在效率和商业模式主导的投资行业,这是不接地气的思考吗?我不这么认为。 Manus后面,又有Genspark出来,但只有业内人在围观。DeepSeek也正在经历祛魅时刻——短暂的尝鲜后,人们开始抱怨网络上充斥着DeepSeek味道的文章。AI应用像一个模子出来的,AI生成的语句也带着明显的机器烙印。短短数月,世界彻底变了。 这是一场史无前例的技术革命,也必然深刻塑造未来的人类社会。正是在这个意义上,Leo对当下AI投资的困惑和质疑,不一定都对,但也不乏价值。 以下内容根据访谈整理,投中网略作编辑: 自动驾驶会带来新岗位,这是在扯淡 很多纯理工科或者纯金融背景的投资人,不太关注具体的人在技术变革中所遭受的困境。 一个最直接的问题是,AI取代掉人的岗位之后怎么办。很多人的工作没了,而且是彻底没了。工业革命带来了蒸汽机和纺织机,之后出现了纺织工人这样的岗位,但再往后,连纺织工人都不用了。 我以前看过一些文章,预测未来数千年人类社会按劳分配的原则可能会改变。这眼看着机器工作就是比人的效率高,怎么办呢?社会可能不需要那么多人劳作了,那对于那些无法通过劳作获取报酬的人来说,如何应对这种历史的摩擦力呢? 大胆设想一下,国家发钱可能是一个思路,类似北欧那样的税收体系和财富再分配体系,但制度建立需要时间,磨合成合适的样子也需要时间,必然有一部分人的利益来不及得到保障。这些利益受损的人就会成为技术推广过程中的牺牲者。 美国从上个世纪70年代开始加速,发展成今天以金融服务业为主的国家,这个过程中美国工人的利益被牺牲。现在他们为什么要回到一种更低效的经济生产方式呢?虽然金融赚钱是效率最高的,但如果没有做好财富再分配,人民再就业的引导,那些利益受损的人就会用脚投票。 这可能是一个不太恰当的类比,总之我想表达的是,技术不是万能的。我看到一部分人现在有点太乐观了,但这社会怎么会像你想得那样在很短时间内发生翻天覆地的改变。当AI越来越先进,除了从纯商业的角度看能带来多少投资收益和效率提升外,是不是还应该同时考虑这种破坏性创新带来的负面影响,以及这种成本是不是现阶段我们能承受的? 去年7月,当时一个事件引发的说法是,自动驾驶会带来新的工作岗位。我觉得这种说法很扯淡,它是放在了一个很宏观的历史的角度去讲。没错,它确实能够带来一些新的岗位。但是,首先,这些岗位有多少呢?如果他们指的是安全员或者说给自动驾驶的车收集数据的这些驾驶员,能有多少跟这些的士司机的岗位数量相当?其次,新的岗位更偏爱年轻人。他们上网,能更理解技术,更能接受新事物。但那些四五十岁的司机怎么办? 很多人不去讨论AI的伦理,其实这是一个很重要的问题。商业上总会有一个模式出来,前提是先把伦理的问题给解决了。比如说,自动驾驶的车出车祸了,责任是由谁来担?现在很多地方在推车路云协同之类的,但是关键并不在于技术上或者说商业上未来有没有实现的可能,而是恰恰是权责的问题。没有人愿意站出来承担风险,所以就推不下去。 另外,技术本身的发展水平也是一个挑战。自动驾驶出来三四年了,但是直到今年才允许它开到人流和车流量大的地方。背后的原因是,一旦路上车多起来,一定开得很慢,掉个头变个道,都可能磨蹭半天,因为它要保证安全。就跟我小时候过马路似的,其实车离我大概50米远,成年人觉得能过了,但是小孩就觉得我要左看右看,直到视野范围内一辆车都没有。客观的结果,就是我在斑马线前面停了很久。自动驾驶的车也是这样,无论是从安全还是交通效率的角度,都没有办法大规模地开到哪个市区,所以自动驾驶依然会有争议。 技术当然在不断进步,但技术改进,又是一个“鸡生蛋还是蛋生鸡”的问题。因为自动驾驶的训练需要数据,数据需要上路开来获取,但是高峰期的路不让你开,那你就收集不到这个数据,所以技术就总是没法进步到足够好。 当然,行业内早在探索采用仿真数据,包括李飞飞在美国做的World Labs,也包括智慧君当年发布的机器人,它的强化学习也是靠着仿真数据,苹果最近也在搞仿真数据。他们都在试图绕开现实的场景中收集不到数据的问题。我直接打造一个模型,模型里面仿真现实世界里面可能会发生各种各样的问题。问题是,你能仿真到多大的程度?总有一些没有办法求取出来的场景。 比如,路上突然跑过来一只猫,这种问题怎么处理?比如,有人看到老朋友突然变道到机动车道怎么办?很多仿真数据是人建立的,在这种情况下,人的认知的上限就是仿真数据的上限。 相比于过往的任何一次技术革命,AI给每个人带来的影响都更深远持久。之前的技术浪潮只是提升效率,但在不同场景的复用性没那么强,从来没有一个技术能替代每一个人。所以技术推广面临的问题不只是来自技术本身,也不只来自商业,还来自文化传统、监管、以及社会公平正义的要求。 我对AGI的到来有信心,但现阶段多数人还是在赌 说回AI应用,说白了,人类基本就两个需求嘛,一种是save time,一种是kill time。save time就是生产力工具,帮你完成绩效,帮你写个文档,帮你画个PPT。kill time就是陪伴工具,娱乐休闲谈恋爱。 有的创业者试图在二者之间做一个嫁接,比如,在同一个平台上,这边让你用AI生产一个东西,那边再给你搭建一个社区,让你把生产出来的内容发进去,大家一起讨论。但我不是特别理解这个逻辑。无论是效率工具,还是娱乐工具,本质上都是用户直接跟AI互动。我觉得很难在这个平台上交流怎么一起玩AI,这一点都不AI原生。非要我跟你到一个新的平台上聊,我们各自是怎么玩AI的,那我为什么不跟你加个微信聊呢? 现在大家都还在拿移动互联网的思路来做AI的产品,当然这也是因为技术的局限,大家还想象不出来一个AI原生的东西是什么样的。AI帮你写东西,帮你画PPT,都只是把人给替代掉了。AI搜索,也只不过是改变了检索排列和归纳信息的方式,但搜索这个东西早就有了。 我还是在等待一个奇点时刻,当AI从本质上改变了生产关系,能创造出人与人之间、人与物之间交互的全新模式,在这个模式里真得离开AI都玩不转。什么事是离开AI做不了的?一个是技术上实现不了,一个是离开AI的话,这个生意就实现不了。 比如说,AI能够帮一个模式从不成立到成立,我原来用人来做这件事情没有办法形成正向现金流,这个时候我把人替代掉换成AI,现金流变正了。这是一个质变对吧?就是所谓的改变了生产关系。我在等待和寻找这样的东西。 从这个角度来看,现在的项目确实都长得很像,看不出什么区别。你会发现用AI做PPT的,都是先在数据库里放了一堆的PPT模板,然后用AI来写文字,再把文字填充到模板里,再稍微调一下字体。其实从技术实现上来说很简单,壁垒可能就是你原来写的文字有多好,摆放文字的位置合不合理。 从商业上考虑,我再讲另外一件事。在印度,洗衣机是很稀有的家用电器,因为印度用人洗衣服比用机器洗衣服更便宜。所以这背后还是一个商业问题。我知道洗衣机很省人力,而且洗得更干净,但是我用人来洗比用机器来洗更便宜,哪怕慢一点。类似地,在我们国家,如果开启一些业务也比在美国更难,因为美国的人工成本太高了。就拿打车来说,美国打车老贵了,所以这个时候换成打那些无人驾驶的、不用给小费的、以及有补贴的车能省很多。卡车也一样,司机一年工资老高了,把人力省掉以后,利润率暴涨,所以无人卡车这个场景在美国的商业空间也很大。 再看国内,2016、2017年左右的时候,做卡车无人驾驶的图森未来就已经拿了很多融资,但后面出了一堆鸡毛蒜皮的事情。架不住国内人力成本不算太高,所以你打一个真人开的车跟打一个自动驾驶的车,价格没差多少。 所以,我对AGI的到来是有信心的,我对AI会带来很多的商业机会也是有信心的。但现阶段我看到的让我感觉多数人都还只是在赌。当然也有逻辑很顺的场景,比如AI coding,海外的cursor,国内字节的Trae,基本上已经可以满足很多人对写代码的需求,只是独创性的部分还是需要人来实现。 其实创业者都很有激情,很有理想,但还是那个鸡和蛋的问题。技术就这个水平,你看不到他能做更多的事情,所以就只能先做水平以下的产品,产品就不能由量变引起质变。原来的模式没有受到冲击,新入场者就分不到市场上的那杯羹,就只能靠投资人的钱活着。所以说去年AI投资一下子缩水这么多,大家好像不敢再这么下注了,你这什么时候才能有回报呢? 当然,具体到项目上,我们除了看团队看创始人,看这个技术有没有壁垒,产品上有没有一些独到的东西,也看其他投资人有没有关注。别人投了,哪怕我看不懂,应该也是个有价值的东西对吧? 为什么Agent无法大规模应用 现在的共识是,Manus和复刻Manus的产品,还在一个小白装机的阶段。因为它们只是把各个东西拼凑起来,算力的消耗并不是最经济的路径,任务完成的效果也未见得满足人的期待。重点是,它们形成了一个富有启发性的新范式——我们可以围绕这么一个核心的技术这样来操作,也许未来就会有更多人把它做得更好,做成一个可以卖钱的台式主机。 Manus也再次印证了一个AI时代的原则,人们都喜欢白盒。当DeepSeek的R1把思维链展示出来的时候,用户很激动,意识到原来AI是这么思考问题的。当Manus把规划工作的流程展示出来,也让用户觉得很新奇很有意思,而且增加了信任度。当电脑只是一个庞大的机器的时候,它是一个标准的to B商品。后来它走向寻常百姓家,还是因为有可视化的操作系统,用户还是想看到它里面到底在干嘛。 过去,我们把Agent理解成一个类似于插件的东西,比如说豆包里面,有各种AI翻译、AI学术和AI编程的工具。放在一个通用的模型里面,然后你自己主动或者是模型帮你去调动另外一种工具,完成特定的任务,之前对于Agent的认知是这样的。也是因为技术限制,Agent没有办法像今天一样做那么多事。 但今天Agent仍然面临很多技术以及技术之外的限制。我自己有时会幻想,会不会有一天Agent就像钢铁侠的助手小辣椒一样,本身独立存在,像个真正的得力助手。但是技术上能实现吗?能不能打通那么多的数据孤岛,获得那么多权限?就算可以,那有多少人愿意为这个付费? 首先是数据的问题。Manus声称他们是General Agent,你会发现它实现通用能力的方式是给它配个虚拟机,让它像人一样去开网页开视频,调用别的工具。比如说,你让它剪个视频,它其实不会剪,但让它给你打开一个能剪视频的网站,它就能帮你剪了。厉害的点在于,它能理解你的意图,并且找到对应的能用的工具。 我担心的地方是,万一之后这些地方就像是APP之间的数据孤岛一样,把你给屏蔽了,不让你用怎么办?不管是Agent还是AI应用,真正的价值在于垂类深耕。做得太浅了,没办法触动真正的付费意愿。那要深耕某一个领域,就涉及到数据收集和打通的问题。 比如说,医疗垂类Agent,要能帮你完成从线上诊疗到线下挂号到复诊的就医全流程,必须得打通上下游的数据体系。前述到这么多的数据,这么多的服务机构,这件事情很难办。事实上,你能拿到医院的病历数据就已经很难了。咱们现在老说数据不够用,或者数据用完了,前提是互联网上的高质量的公开数据。但更多的数据埋在水下,在各个公司的数据库里,这些都是私有数据,都是商业机密。 在这样的情况下,我不给你这个数据,你拿什么来训练模型?或者是就算你仿真出来一些数据,似乎是具备了某种能力,但真要用的时候还是调不出来。你不知道我的身份证号背后对应的是哪张社保卡,不知道对应的之前的病例都有哪些,不知道这次开药的时候要注意哪些过敏原。当然,国家也在发力打通数据。中央和各个地方最近都成立了数据集团,就是为了把零散的数据收集起来。 算力和成本也是大问题。执行任务的算力消耗和聊个天的算力消耗完全不能同日而语。一个任务可以拆解成几百步,每一步都需要思考和消耗算力,这个是几何量级的算力增加。一个现实的问题是,不是每个人都愿意为这个算力付费。一个员工要是干不好,我可以扣他工资,或者不给他发奖金。但是AI做不好,得是它做完了以后,你才知道它做不好,而且这时候钱已经花掉了。当你不是月结工资,而是每秒结工资的情况下,你肯定不敢给这个员工随便安排任务。你必须得让他做那些确保能做出来的东西,才能保证每一秒的工资都是有回报的。 相当于给你两个选择,A是你做完了再付费,B是边做边付费。这个时候多数客户会在二者之间做一个相对风险小的选择。宁愿上限低一些,也要保下限高一些。 在营销界有一个很重要的概念叫experiencing markting。很多店很多品牌在搞一些旗舰店和体验店,那些店里面没卖多少商品,人家就没打算让你在里面买东西,就是为了塑造一个品牌调性,让你在里面玩,让你体验感受一下原来拥有这个品牌是这种感觉。如果Agent真帮人把这些过程都替代掉,你确实能省很多时间,但是我也丧失了我的生命体验。 再来问一个问题,万一Agent出错了怎么办?以采购为例,你让Agent去采购一个公司需要的零件,零件的编号都特别长,特别细。万一有一个字母或者一个数字出错,完了,它给买成另一个型号了,或者在后面多加一个0之类的,那就是巨大的错误。这种情况下,谁来背责任?Agent公司吗? 反正我认可Agent的前景,但对于它为什么现阶段无法大规模应用有一些自己的思考,不仅仅是从技术的角度出发,而是更多从商业上,或者从社会文化的角度出发。假如我是一个自己要去做这个事的人,我需要这个专属体验,或者说我花不起这个钱。如果我是一个老板的话,我雇佣一个真的人来干某件事,也不仅仅是因为我需要这个人的专业知识,而是也许需要有个人来帮我背锅。 很多人开玩笑说会计是最难被AI取代的东西,因为AI没法背锅。不妨换一个更正面的例子,我招聘一个人,不只是需要他来干活,也需要这个人来跟着公司一起共同成长。AI能背股权吗?AI能给你注资吗?但是你拉一个真人来公司干这个活,他或许真能给你带来钱和更宝贵的资源。有个理论叫六度空间,我跟世界上任何1个人之间都隔着不会超过6个人,AI能做到吗?所以在很大程度上,Agent能否普及不仅仅是有技术的趋势就足够。人是社会性的动物,这点导致Agent没有办法去实现更大的想象空间。 回到那个问题,Agent的投资是一个课题吗?首先,现在没有多少人做出真正值得投的Agent,Manus以及复刻Manus的东西,都没有什么技术壁垒。投资人就是关心壁垒的问题,担心我投了你,万一另外一家做起来了,我不就白投了。就像前面讲的,Manus的意义并不在于它这个产品本身,而在于它打开了一个想象力的空间。哪怕是套壳,但能在这个基础上再加一些独有的壁垒,也许它就能work,就是一个商业上能赚钱的东西。
理想创始人李想再度发声:不追特斯拉 FSD,自己的老师是 DeepSeek
今年 3 月,英伟达 2025 春季 GTC 大会,理想汽车自动驾驶技术研发负责人贾鹏在台上介绍了他们的最新成果:MindVLA 大模型。 这是一个拥有 22 亿参数的视觉-语言-动作(Vision-Language-Action Model,VLA)模型,贾鹏进一步介绍称,他们已经成功将该模型部署于车端。在理想看来,VLA 模型是解决 AI 与物理世界交互难题最有效的方法。 在过去的一年里,端到端架构成为智能驾驶领域的技术热点,推动车企从传统的分模块规则设计转向一体化系统。曾凭借规则算法领先的车企面临转型阵痛,而后发者则抓住了弯道超车的机会。 理想便是其中的代表。 理想去年在智能驾驶上的进步可谓飞快,7 月份就率先实现了全国无图 NOA(导航辅助驾驶),还推出了独特的「端到端(快系统)+VLM(慢系统)」架构,受到行业广泛关注。 今晚,随着理想 AI Talk 第二季进行,我们对李想口中的「人工智能公司」有了更深的了解。 是「司机大模型」,也是你的司机 理想汽车 CEO 李想第一次提到 VLA,是在去年 12 月的与腾讯新闻科技主笔张小珺对谈的 AI Talk 第一季上。当时他说: 我们在做的理想同学和自动驾驶,按照行业的标准其实是分割开的,处于早期阶段。我们做的 Mind GPT,其实是大语言模型;我们在做的自动驾驶,我们自己内部叫行为智能,但是像李飞飞(斯坦福终身教授、前 Google 首席科学家)的定义,叫空间智能。只有你真正大规模去做的时候,你才知道,这两个之间,有一天一定会连在一起,我们自己内部叫 VLA(Vision Language Action Model,视觉语言行动模型)。 李想认为,基座模型到一定时刻一定会变成 VLA。原因在于,语言模型只能通过语言和认知去理解三维的世界,这是显然不够的。「它需要真正向量的,用 Diffusion(扩散模型)的方式,用生成的方式(去认识世界)」。 可以说,VLA 的诞生,既是对语言智能和空间智能深度结合的一次大胆尝试,也是理想汽车对「智能汽车」概念的一次重新诠释。 李想在今晚的 AI Talk 中进一步定义:「VLA 是一个司机大模型,像人类的司机一样去工作。」它不仅是一项技术,更是一个能与用户自然沟通、自主决策的智能伙伴。 那么,VLA 究竟是什么?核心其实非常直白:通过整合视觉感知、自然语言理解和动作生成能力,让车辆变成一个能与人沟通、能自己做决定的「司机 Agent」。 ▲ 导航走 ETC 时,驾驶员可以直接命令系统走人工通道(辅助驾驶开启状态) 想象一下,你坐在车里,随口说一句「今天有点累,开慢点吧」,车辆不仅能听懂你的意思,还会调整速度,甚至选择一条更平稳的路线。这种自然流畅的交互,正是 VLA 想要实现的。李想透露,所有的短指令,都有由车端直接处理,复杂指令则交由云端 32 亿参数模型解析,确保高效与智能兼得。 实现这样的目标并不容易。VLA 的特别之处在于,它把视觉、语言和动作三个维度打通了。用户的一个简单指令背后,可能涉及到对周围环境的实时感知、对语言意图的精准理解,以及对驾驶行为的快速调整,三者缺一不可。 而 VLA 的厉害之处就在于,它能让这三者无缝协作。 从愿景到现实,VLA 的研发是一片无人区。李想坦言:「视觉和动作数据的获取最为困难,没有公司能替代。」 要理解 VLA 的技术底色,还得看看理想汽车在智能驾驶上的演进脉络。 李想表示,早期的系统是「昆虫级别」智能,仅有百万参数,靠规则和高精地图驱动,遇到复杂路况就束手无策。后来,端到端架构和视觉-语言模型让技术跃升至「哺乳动物级别」,摆脱地图依赖,全国无图 NOA 成为现实。 实际上,这一步已经让理想汽车走在了行业前列,但他们显然不满足于此。在李想看来,VLA 的出现,标志着理想汽车的智能驾驶技术迈入了「人类智能」的新阶段。 相比之前的系统,VLA 不仅能感知 3D 物理世界,还能进行逻辑推理,甚至生成接近人类水平的驾驶行为。 举个简单的例子,假设你在一条拥堵的街道上说「找个地方掉头」,VLA 不会机械地执行指令,而是会综合路况、车流和交通规则,找到一个最合理的时间和位置完成掉头。 李想表示,VLA 能通过生成数据快速适应新场景,哪怕初次遇到复杂修路,三天内也能优化应对。这种灵活性和判断力,正是 VLA 的核心优势。 理想的老师,是 DeepSeek 支撑 VLA 的,是理想汽车自研的一套复杂而精妙的技术体系。这套体系让汽车不仅能「看懂」世界,还能像人类司机一样思考和行动。 首先是 3D 高斯表征技术,即用很多个「高斯点」来拼出一个 3D 物体,每个点都含有自己的位置、颜色和大小等信息。这项技术通过自监督学习,利用海量真实数据训练出一个强大的 3D 空间理解模型。有了它,VLA 就能像人一样「看懂」周围的世界,知道哪里是障碍物,哪里是可通行区域。 ▲当记忆车位被占,系统会自动寻找其他车位。还能听懂驾驶员指令,通过墙上的指示牌找到「C3 区」 接着是混合专家架构(MoE),该架构由专家网络、门控网络和组合器组成。当模型参数超过千亿级别时,传统方法会让所有神经元参与每个计算,比较浪费资源,MoE 架构中的门控网络会根据任务的不同调用不同的专家,保证激活参数不会大幅增加。 聊到这里,李想还顺带夸了一下 DeepSeek: DeepSeek 运用了人类的最佳实践…… 他们在做 DeepSeek V3 的时候,其实 V3 也是一个 MoE 的,671B 的一个模型。我觉得 MoE 是个非常好的架构。它相当于把一堆专家组合在一起,然后每一个是一个专家能力。 最后,理想为 VLA 引入了稀疏注意力机制(Sparse Attention) ,说人话就是 VLA 会自动调整关键区域的注意力权重,从而提升端侧的推理效率。 李想表示,在这个新的基座模型训练过程中,理想的工程师们花了很多时间去找到最佳的数据配比,融入了大量 3D 数据和自动驾驶相关的图文数据,并减少了文史类数据的比例。 从感知到决策,VLA 借鉴了人类思维的快慢结合模式。它既能快速输出简单的动作决策,比如紧急避让,也能通过短思维链进行「慢思考」,应对更复杂的场景,比如临时规划一条绕开施工区域的路线。为了进一步提升实时性,VLA 还引入了投机推理和并行解码技术,充分利用车端芯片的算力,确保决策过程快而不乱。 在生成驾驶行为时,VLA 用到了 Diffusion 模型和基于人类反馈的强化学习(RLHF)。Diffusion 模型负责生成优化的驾驶轨迹,而 RLHF 则让这些轨迹更贴近人类习惯,既安全又舒适。比如,VLA 会在转弯时自动减速,或者在并线时留出足够的安全距离,这些细节都体现了对人类驾驶行为的深度学习。 世界模型是另一关键技术,理想通过场景重建和生成,为强化学习提供了高质量的虚拟环境。李想透露,世界模型将验证成本从每万公里 17-18 万元降至 4000 元。它让 VLA 在模拟中不断优化,应对复杂场景如履平地。 说到训练,VLA 的成长过程也颇有章法。整个流程分为三个阶段:预训练、后训练和强化学习。「预训练像学习知识,后训练像驾校学车,强化学习像社会实践。」李想说。 预训练阶段,理想汽车为 VLA 打造了一个视觉-语言基座模型,塞进了丰富的 3D 视觉数据、2D 高清影像和驾驶相关的语料,让它先学会「看」和「听」;后训练加入动作模块,生成 4-8 秒驾驶轨迹,模型从 3.2 亿参数蒸馏到 4 亿。 强化学习分为两步:先用 RLHF 对齐人类习惯,分析接管数据,确保安全舒适;再用纯强化学习优化,基于 G 值(舒适性)、碰撞和交通规则反馈,让 VLA「开得比人类更好」。李想提到,这一阶段在世界模型中完成,模拟真实交通场景,效率远超传统验证。 这样的训练方式,既保证了技术上的先进性,也让 VLA 在实际应用中足够可靠。 李想坦言,VLA 的成功离不开行业标杆的启发。DeepSeek 的 MoE 架构不仅提升了训练效率,还为理想提供了宝贵经验。他感慨:「我们站在巨人的肩膀上,加速了 VLA 的研发。」这种开放学习的态度,让理想在无人区中走得更远。 从「信息工具」到「生产工具」 当下,AI 行业正经历一场从「信息工具」到「生产工具」的深刻变革。随着大模型技术的成熟,AI 不再局限于处理数据和提供建议,而是开始具备自主决策和执行任务的能力。 李想在 AI Talk 第二季中提出,AI 可分为信息工具(如搜索)、辅助工具(如语音导航)和生产工具。他强调:「人工智能变成生产工具,才是真正爆发的时刻。」随着大模型技术成熟,AI 不再局限于处理数据,而是开始具备自主决策和执行任务的能力。 这种趋势,在「具身智能」概念中体现得尤为明显——AI 系统被赋予物理实体,能够感知、理解并与环境互动。 理想汽车的 VLA 模型正是这一趋势的生动实践。它通过整合视觉、语言和动作智能,将汽车打造成一个能够自主驾驶、与用户自然交互的智能体,完美诠释了「具身智能」的核心理念。 只要人类会雇佣专业司机,人工智能就能成为生产工具。当 AI 成为生产工具时,人工智能才会真正爆发。 李想的这段话,点明了 VLA 的核心价值——它不再是简单的辅助工具,而是能够独立执行任务、承担责任的「司机 Agent」。这种转变,不仅提升了汽车的实用价值,也为 AI 在其他领域的应用打开了想象空间。 李想对 AI 的思考,总是带着一种跳出框框的视角。他还提到:「VLA 不是突变的过程,是进化的过程。」这句话精准概括了理想汽车的技术路径—— 从早期的规则驱动,到端到端的突破,再到如今 VLA 的「人类智能」水平。这种进化思维,不仅让 VLA 在技术上更具可行性,也为行业提供了可借鉴的范式。相比一些一味追求颠覆的尝试,理想的务实路径或许更适合复杂的中国市场。 从技术到信念,理想的 AI 探索并非坦途。李想坦言:「我们在 AI 领域经历了很多挑战,就像黎明前的黑暗,但我们相信,坚持下去就会看到光。」VLA 的研发面临算力瓶颈、数据伦理等难题,但理想通过自研基座模型和世界模型,逐步迎来了属于他们的技术曙光。 李想在采访中还提到,VLA 的成功离不开中国 AI 的崛起。 他表示,DeepSeek、通义千问等模型的出现让中国 AI 水平迅速接近美国。其中,DeepSeek 所秉持的开源精神尤为令人振奋,它直接直接促使理想开源星环 OS。李想称:「这不是出于公司战略考量,DeepSeek 给我们那么大帮助,我们应该为社会贡献点什么。」 在追求技术突破的同时,理想汽车并未忽视 AI 技术的安全性和伦理问题。VLA 引入的「超级对齐」技术,通过基于人类反馈的强化学习(RLHF),让模型的行为更贴近人类习惯。数据显示,VLA 的应用使高速 MPI(平均干预里程)从 240km 提升至 300km。 更重要的是,理想汽车强调打造「有人类价值观的 AI」,将道德和信任视为技术发展的基石。从更宏观的视角看,VLA 的意义还在于,它重新定义了车企这一角色。 过去,汽车是工业时代的交通工具;如今,它正在演变为人工智能时代的「空间机器人」。李想在 AI Talk 中提到:「理想以前走的是汽车的无人区,以后走的是人工智能的无人区。」理想的这种转变,为汽车行业的商业模式带来了新的想象空间。 当然,VLA 的发展并非没有挑战。算力的持续投入、数据伦理以及消费者对自动驾驶的信任建立,都是理想汽车需要面对的课题。此外,AI 行业的竞争日趋激烈,国内外巨头如特斯拉、Waymo 和 OpenAI 都在加速布局多模态模型,理想需要在技术迭代和市场推广上保持领先。「我们没有捷径,只能深耕。」李想说。 毫无疑问,VLA 的落地将是关键节点。 理想汽车计划在 2025 年 7 月与纯电 SUV 理想 i8 同步发布 VLA,并在 2026 年实现量产。这不仅是对技术的一次全面检验,更是市场的一块重要试金石。
扎克伯格深度专访:怼苹果,夸DeepSeek,聊AI开源痛点
编译 | 金碧辉 编辑 | 程茜 智东西5月7日消息,据Stratechery报道,4月28日下午,社交媒体平台Stratechery的创始人、记者本・汤普森(Ben Thompson)在Meta总部对Meta的创始人、董事会主席兼CEO马克・扎克伯格(Mark Zuckerberg)进行了专访。 从访谈中得知Meta在AI领域的布局以开源大语言模型Llama为核心,实现了生成文本、数学推理、代码生成等能力的跃升,其关键创新在于仅使用公开数据集训练,并通过1.4万亿tokens的数据量弥补参数规模的不足。这种“小模型大智慧”的技术路径,印证了扎克伯格“效率优先”的AI哲学。 这是继2021年10月和2022年10月之后,Stratechery对扎克伯格的又一次访谈。访谈前,Stratechery已了解了LlamaCon(Meta的新开发者大会)的部分公告,并体验了新的Meta AI应用。 Stratechery在体验Meta AI应用后,扎克伯格透露了这个新应用的更多细节,Meta AI已实现月活跃用户近10亿,成为全球用户规模最大的AI助手之一。其核心功能包括自然语言交互(支持语音对话和文字输入)、多模态内容生成(如通过文本描述创建3D虚拟场景、生成广告素材),以及个性化推荐系统(根据用户行为优化信息流和社交匹配)。 此外,Meta在AR/VR领域的布局(如Orion AR眼镜)与AI结合,探索元宇宙内容生成和智能交互场景,计划通过眼镜设备实现AI助手与用户的全天候无缝互动。 ▲Meta的创始人、董事会主席兼CEO马克・扎克伯格 以下是主持人与扎克伯格访谈全程内容的编译(为提高可读性,智东西在不违背原意的前提下进行了一定的增删修改): 一、元宇宙概念持续推进,LlamaCon因开源模型需求诞生 主持人:马克・扎克伯格,欢迎回到Stratechery。 扎克伯格:谢谢邀请。 支持人:此次采访的契机是Meta新推出的开发者大会。不过在深入这个话题前,我想先回顾下历年开发者大会的历史。例如2007年至2019年的F8大会(这期间停办过几年),还有很多重要发布,包括最初的Facebook平台、开放图谱(Open Graph)、Parse平台等。按最初愿景衡量,这些项目如今要么已终止,要么被大幅收缩。 扎克伯格:这倒是个不错的开场话题。 主持人:这对您来说是种遗憾,还是说这可以看作是吸取教训?您如何看待这段历史? 扎克伯格:不。你看,最初的Facebook平台本质上是一个基于网页的产物,属于移动时代之前的产物。当用户行为从桌面网页转向移动端时,苹果公司直接表态不允许在一个已有的平台上再构建一个具有独立平台功能的生态系统,也不允许应用调用你们的服务。 因此,这套体系曾是我们业务的重要部分,2012年IPO时,游戏和应用贡献了约20%的收入,但现在基本失去了发展前景。于是我们围绕Connect(社交互联)和应用登录(Sign In)等功能尝试了不同版本。 主持人:但有一个很有说服力的观点,我在2013年就提出过,这对你们来说是件好事,它迫使你们蜕变成今天的模样。 扎克伯格:或许我认为我们本可以既达到现在的成就,还能实现更多。回想起来,我们本有机会在应用中构建各种差异化体验。 主持人:是的,至今仍在坚持的功能中,Facebook提供的一种第三方登录功能,允许用户通过Facebook账号快速登录其他应用或服务,而无需单独注册新账号的功能仍然是个典型案例。 扎克伯格:没错,这与开发者希望通过社交网络获取应用安装量等诉求存在关联。但如今其价值已大幅稀释,我认为这本质上是苹果政策催生的产物。 不仅在此领域,他们在多个层面持续宣称“你们没办法开发出那些我们认为有价值的功能”,这种限制性政策导致了我们两家公司间的深层矛盾,我认为这种局面令人遗憾,本应存在更开放的移动生态。 我们只是被告知不可为,现在回顾来看,很难相信这些限制为我们服务的用户或开发者创造了价值。 主持人:对了,你们还有Meta Connect大会。元宇宙概念是否仍在推进? 扎克伯格:当然,毋庸置疑。我们希望通过完整活动来展示所有规划的VR/AR愿景。 主持人:是的,这个方向清晰明确,显然是很完美的一次布局。如今这个全新的开发者大会LlamaCon进展如何? 扎克伯格:二者定位不同。聚焦AR/VR的Connect大会吸引特定类型的开发者与兴趣群体,当然未来所有事物都将融入AI元素。 比如雷朋Meta智能眼镜本质是AI设备,但属于特定产品形态。对于专注Llama模型开发的群体,我们认为有必要打造专属活动,因此诞生了LlamaCon。 回顾F8开发者大会与平台发展史颇具启示。Llama的核心特质在于开源属性,而我们坚信构建开放平台的部分动因,源于移动生态历史遗留问题。 从我们的视角看,那些强加于开发者的诸多限制显得相当武断,这正是开发者渴求开源模型的深层原因之一。尽管从某些方面看,直接调用OpenAI或Anthropic等公司的API接口更为便捷,但必须面对其潜在风险,这些服务商可能随时变更接口规范导致应用功能突变,可对你发起的查询进行内容审查。 若其不认可你的请求即可单方面拒绝响应,且模型自定义空间极为有限。开源生态恰好能打破这些限制,而过往封闭平台带来的“切肤之痛”,使我们对此的认知愈发深刻,也促使我们更坚定地投入开源建设。 现在这个领域已经不光是Llama一家独大,像DeepSeek这些AI模型也做得风生水起。我早就说过,到2025年,大家做开发主要都会用开源模型,现在看来这个预测越来越准了。说的通俗易懂一点,这就是我们整个公司战略最根本的出发点。 主持人:有个新动态,虽然您之前和我沟通时强调这不算大动作,但我觉得外界未必这么看,Llama API究竟是什么? 扎克伯格:我倒不觉得这是小动作。准确地说,这并不是我们打算重点经营的商业项目。 扎克伯格:大家看到付费API上线,第一反应肯定是商业变现。但根据我们收到的反馈,开发者热爱开源的核心原因正如之前所说的那样,他们渴望掌控权、能自由定制、不会被突然断供、使用方式不受限,还能降低成本。这些都是开源的核心价值。但开源模式一直有个痛点… 主持人:其实没人真想自己搭服务器维护。 扎克伯格:是因为托管起来很麻烦,对吧?没错。开源模型的缺点就在于,相比之下,直接调用一些成熟服务的API要简单得多。 当然,现在有很多公司以托管不同的模型为业务,其中也包括开源模型,而且我觉得,有些公司在这方面做得比其他公司要好。最近我们发布了Llama 4模型,我认为我们在发布过程中学到了很多东西。 但我觉得有一点做得不太好,就是我们发布了这个模型之后,很多API供应商在实践的过程中出现了一堆漏洞,所以很多人在对Llama 4进行首次测试时,用的就是这些存在实现问题的外部API供应商。 主持人:不过那都是最近发生的事了,你们当时那么快就决定“不,我们需要在这里提供一个参考API”了吗? 扎克伯格:不,我刚才举那个例子只是为了说明问题。但其实早在Llama 3的时候,你就能在网上看到很多人在讨论:“好吧,我想要一个能提供405B未量化版本的API供应商。我很难判断不同的API供应商采用了哪种量化方式或者走了什么捷径,质量参差不齐,我们就想要一个可靠的来源。” 所以我觉得,拥有一个广泛的API供应商生态系统是件好事,而且很多供应商都做了非常有趣的事情,比如Groq公司。他们通过垂直整合,定制芯片来实现低延迟,这真的很有吸引力。 主持人:你这里说的是芯片公司Groq,而不是AI模型Grok,对吧? 扎克伯格:是的,Grok也很有意思,那是xAI公司创始人兼CEO埃隆・马斯克(Elon Musk)的项目,但我现在说的是芯片公司Groq。 如今,他们的业务是制造芯片,构建一个垂直整合的服务体系,提供超低延迟的API,真的很酷。我觉得有这样能够使用开源模型的公司存在于一个生态系统中是很棒的。 二、AI领域的资源分配,优先支持核心业务,API业务处于次要位置 主持人:也许我应该在你几分钟前提问的时候就给出主题句,Llama API的目标是为行业提供一个参考实现。我们并不是想围绕这个API建立一个庞大的业务,我们基本上就是想做一个非常简单、基础的API,让人们知道这就是我们想要构建的模型,而且它是可行的。你可以直接把你之前调用OpenAI API或者其他API的部分,替换成调用我们这个API的网址,它就能正常工作。而且我们不会大幅加价,基本上就是按照我们的资金成本来提供这个API。如果不加价太多的话,这听起来可能会发展成一项相当大的业务呢。 扎克伯格:但对我们来说,它不会带来很高的利润。 主持人:是的,我知道。你说“就这么个小业务,我们不会收很多钱”,但我不确定这两者是否一致。如果你收费不高的话,为什么大家不都用你们的API,而要去用其他云服务提供商的呢? 扎克伯格:理论上来说,其他把托管模型作为核心业务的公司,应该能提供更有趣、更有价值的服务。比如我们刚才提到的Groq公司,他们通过定制芯片来做特定延迟优化的推理计算,就是很有特色的例子。 主持人:没错。但比如很多人在亚马逊云服务上使用Llama模型。 扎克伯格:对的。亚马逊云服务的优势很明显。如果你是他们的客户,他们本身就有一整套广泛的服务,能满足你不同场景的需求。 主持人:所以如果有人刚开发一款应用,还没有锁定任何云服务,Llama API会是最简单、最便宜的解决方案吗? 扎克伯格:没错。当你刚开始想用Llama 4模型,想找一个能稳定运行的靠谱入门选择时,直接用我们的API就行,它肯定能正常工作。等你后续需要扩大使用规模时,可能会根据自己的需求调整,比如选择自己搭建服务器运行模型,或者用其他更适合的工具。 但关键是,整个开源技术圈需要有一个像我们这样简单好用的“标准版本”,让大家能轻松起步,这对推动技术发展很重要。 主持人:如果某个用户通过你们的API把业务做得很大,你们会不会对他们说“你现在规模太大了,得换个地方,不能继续用我们的服务了?” 扎克伯格:目前还不确定,我们还没深入想过这个问题。 主持人:待定? 扎克伯格:对,确实还没仔细规划过。其实我们内部也在想,为什么我们之前没把API作为一项业务来做。 主持人:这正是我接下来的问题,为什么Meta整体上没有发展云业务,特别是考虑到你们需要从Llama的训练成本中获取回报,毕竟花了这么多钱训练模型,需要通过更多方式盈利。 扎克伯格:对,这里有个很有意思的业务逻辑。对我们来说,把新增的GPU资源分配到内容推荐或广告优化上,总能获得更高的边际收益。我一直为Meta没有提供API服务而辩护,我觉得这是有其合理性的。 主持人:我完全认同,之前就是这个观点。 扎克伯格:没错。所以现在我们认为,Llama的成长本身有价值,而提供参考实现的API能推动它的成长。我们觉得这个东西有存在的必要,但从经济角度看,我不认为它会成为核心业务。 如果未来它真的消耗大量算力资源,而且能盈利,那当然好,我们可以同时做好推荐系统和API业务。 主持人:现在确实存在机会成本的问题。 扎克伯格:说实话,我们根本没法完全算准到底需要多少算力资源,其实我们内部一直在纠结是把更多算力留给Meta公司旗下的Instagram Reels团队优化视频推荐,还是分给其他团队搞新项目。 目前来看,API业务在我们的优先事项里排得比较靠后,因为像内容推荐这种核心业务更需要算力资源。不过,我们有超大规模的数据中心,算力资源很充足。所以拿出一小部分来做这个“标准版本”的API,让大家能轻松上手用开源AI,其实是件划算的事。这就是我们的整体考虑。如果真有用户规模做得非常大,我们可能会再协商具体方案。 主持人:如果有第三方开发者靠你们的API把业务做得特别大,作为平台方的你们是否要求其进行业务调整呢? 扎克伯格:到时候再看。 主持人:船到桥头自然直? 扎克伯格:一般来说,在这个行业里,用户能做大做强是好事。 主持人:当然,这算是个幸福的烦恼。不过回到成本问题,你刚才提到的担忧,也是我关心的,就是模型推理的成本。这些算力资源你可以留给自己用,也可以给外部用户,确实需要权衡。还有个疑问,你们花了几十亿训练模型,怎么才能让这些钱花得更值、回报更高呢?很多投资者觉得你们做API业务能赚钱,估计也是冲着这个来的。另外听说好多公司用Llama模型尝到了甜头,他们是不是该多分担点训练成本呢?你们有没有打算找他们合作,会有公司愿意一起掏钱吗? 扎克伯格:我们和一些公司聊过,但目前还没谈成。随着训练成本持续上升,未来可能会有变化,但现在实际情况是,市场上反而有很多公司开始自己研发模型。 原本我以为一些公司会加入Llama的开源生态,通过标准化来降低成本,结果他们反而纷纷开始自行研发模型。所以未来如何还不好说。但我猜测,未来几年内,模型训练可能需要千兆瓦级的算力集群,行业应该会出现整合。 主持人:总会有公司选择退出吧。 扎克伯格:不一定。你看,我们做财务规划时,是假设自己承担全部训练成本的。如果未来能和其他公司分摊,那是额外的好处,但我们并不依赖这一点。 我觉得这对我们来说反而是个优势。如果你需要,我可以详细解释一下背后的商业逻辑。 三、布局四大业务方向,广告优化、用户参与度提升、商业消息服务、AI原生业务 主持人:我确实想聊聊你们的整体开源策略。一方面,作为行业的观察者,我非常感谢你们的开源举措,你们通过技术开放策略,系统性消除了阻碍AI大规模应用的非理性障碍,加速了实用化进程。另一方面,包括Meta在内的大公司,一直是开源领域的主要贡献者。你曾把Llama比作“开放计算项目”(Open Compute Project),在那个项目中,全球数据中心采用你们的标准,硬件制造商按标准生产,最终都为你们的盈利助力。而你们并不是数据中心提供商,这些都是额外的收益。所以对于Llama,我的问题是开源带来的经济回报是什么?尤其是当你们考虑“或许我们确实需要对模型进行自有适配”时,这仅仅是品牌建设吗?还是说研究人员喜欢开源模式?特别是经济层面的回报。 扎克伯格:开源其实是构建模型之后的决策,对吧?我们不是为了开源而开发Llama,而是因为我们相信,要构建自己想要的服务就必须先拥有这样的模型。 主持人:我接下来的问题是你是打算始终站在技术前沿吗?还是可能落后一段时间? 扎克伯格:从长远来看,我们必须保持技术领先。我们注意到行业里有几个新变化,现在各个公司开始各有专长,有的专注于某个领域,有的主攻特定方向,而我们的业务场景和需求跟别人不太一样。以我们的业务规模来说,开发真正符合自己需求的模型是很自然的事。 主持人:哪些具体场景对你们来说最重要。 扎克伯格:这可能会稍微偏离我刚才的回答。我们现在主要盯着四个业务方向,从最容易落地的到需要长期投入的都有。最基础的一个,就是用AI把广告业务做得更高效。通过优化推荐技术,以后任何想达到业务目标的企业,只要找到我们就行。不用自己制作广告内容,也不用费心研究客户是谁。 他们只需要说“我想要达到这样的效果,愿意花这么多钱,现在绑定银行账户,你们每帮我达成一个目标,我就付一次费。”对吧? 主持人:这简直是史上最强“黑箱”系统。 扎克伯格:对,这就好比一个全能的商业助手。把广告业务拆开来看,包括做广告内容、想创意点子、锁定目标客户和评估广告效果。 我们最早搭建的是评估效果的系统,现在整个业务都是围绕“帮客户实现实际的业务目标”来开展,而不只是看广告被多少人看到。 主持人:按效果付费。 扎克伯格:对,接下来是基础的目标客户定位。过去5到10年,我们基本已经说服企业不要刻意限定目标人群范围。以前企业会跟我们说“我们想接触某个地方18到24岁的女性用户。”我们会回应:“没问题,你可以告诉我们你的需求。” 主持人:没错,但我们保证能以更低成本找到更多潜在客户。 扎克伯格:如果他们坚持限制范围,我们也提供这个选项。但总体而言,我们相信自己比企业更擅长找到真正会对产品产生共鸣的人群,这就是目标定位的部分。 但还有创意内容的部分,企业找到我们时,往往只有模糊的信息,比如想传达什么信息、需要什么视频或图片,而制作这些内容非常困难。不过我认为我们已经接近突破了。 主持人:企业制作的内容越多越好,因为可以测试哪种效果更好,但如果能无限生成内容呢? 扎克伯格:对,或者我们直接帮他们生成。当然,企业永远可以提供自己的创意建议,尤其是当他们想精准调整时。但总体趋势是企业找到我们,告知目标,连接银行账户,不需要准备创意素材、设定目标人群或自行衡量效果,只需要读取我们输出的结果即可。 我猜这将是颠覆性的,可能会重新定义广告行业的范畴。如今广告占GDP的比例可能会大幅提升,因为传统广告受限于“买广告牌或投电视广告”的模式…… 主持人:没错。我记得传统广告占GDP的比例一直是1%或2%,但数字广告已经提升了这个比例。 扎克伯格:确实在增长,但如果未来出现显著增长,我也不会感到意外。 主持人:我完全同意你的看法,你这是在跟本来就认同的人聊这些,大家确实都该接受这个高效的“黑箱”模式。我举双手赞成,那第二个业务机会是什么? 扎克伯格:第二个机会主要是提升用户在消费者平台上的参与度和推荐效果。首先是更精准地为用户展示现有内容,Instagram Reels就在做这件事。接下来,AI不仅会推荐内容,还会帮助用户创作内容,甚至直接生成内容。 你可以把我们的产品发展分为两个主要阶段。第一阶段是用户主要和朋友分享内容、获取信息;现在我们进入了第二阶段,叠加了“创作者内容”层,朋友和关注者的内容依然存在,但我们新增了大量推荐的创作者内容。 我觉得接下来会进入第三个阶段,AI生成的内容会迎来大爆发。创作者做的内容和朋友分享的东西不会消失,但AI根据每个人喜好生成的个性化内容会越来越多,甚至呈爆发式增长。 从大的趋势来看,随着我们走向通用人工智能(AGI)时代,生产力会大幅提高,而人类过去一百年来的趋势也会延续下去。工作时间越来越少,花在娱乐和文化上的时间越来越多。 所以像信息流这种内容平台,以后会占据用户更多时间。而AI在生成内容和精准推荐上的能力越强,这个机会就越大,这就是我们第二个业务机会的关键所在。在进入第三个机会前,我先回答你刚才的问题。 主持人:如果你是创作者,拥有受众是合理的,但如果是普通用户想社交,那该怎么办? 扎克伯格:说实话,普通用户根本不想让内容走红。我的意思是,人们希望真实地分享,而小群体场景让人更愿意分享。现代社交的形态是消息应用的结构更适合这一点,因为你不再只有一个分享群体,而是有各种群聊和一对一聊天。比如我可以和家人分享一些内容,和一起运动的朋友分享另一些内容。 主持人:当年你担心谷歌的社交圈产品(Google Circles),但最终你们通过消息业务实现了类似的目标。 扎克伯格:最后我们是通过消息聊天功能(比如微信这种)实现了这种社交模式,而不是靠朋友圈/动态页那种信息流。要是你还想接着聊这个…… 四、Meta推出独立AI应用,构建专属AI模型 主持人:是的,我想继续。我想聊聊Meta AI,但在我看来还有两个潜在的支柱(或可能成为支柱的方向)。我们之前提到过元宇宙,我认为生成式AI将成为元宇宙的关键。因为即使是屏幕上的游戏,我们在“游戏资产”(如角色、场景等)的创造上也遇到了瓶颈,比如制作成本太高,而生成式AI能解决这个问题。还有一点,用户在这些应用中的体验场景就像一块完整的画布,每一个“像素”都可能被“变现”。比如看到一个网红,她身上的每一件物品都能被识别、标注,链接到对应的商品,只要品牌方注册了相关服务。我觉得你们就像“消费者领域的微软”。微软之所以能持续成功,是因为他们掌握了分发渠道,连接了所有人,而你们拥有类似的“数字分发网络”。正如你所说,未来人们空闲时间更多,花在这些应用上的时间更长,变现方式多种多样。既然如此,为什么还需要专门做一个Meta AI和独立应用呢? 扎克伯格:刚才咱们聊的四个主要赚钱方向,第一个是优化广告体验,第二个是让用户更喜欢用我们的产品,第三个是把消息类应用打造成能赚钱的商业平台,第四个就是专门靠AI驱动的新业务。我重点提Meta AI,因为它现在是这一块最大的产品,每月有10亿人在用。 主持人:你们还有一个新应用。 扎克伯格:现在每月10亿用户分布在我们的全家桶应用里,但我们也推出了独立的Meta AI应用,给有需要的用户使用,它还包括在元宇宙里生成内容等纯AI驱动的功能。我们做财务规划时,并不需要这四个业务全部成功才能盈利,只要两三个方向大获成功,即使算上高昂的模型训练成本,我们也会处于很好的状态。 但关键在于,要在每个领域做出世界级的成果,就需要构建训练专属模型,让它具备实现每个业务目标的能力。根据我以往的经验,企业必须能掌控从底层到顶层的整个技术栈。Meta是一家“全栈公司”,我们一直自己搭建基础设施、AI系统和产品。 目前,每月有10亿用户通过我们旗下的社交应用(如Instagram等)使用Meta AI功能,同时我们也推出了独立的Meta AI应用,方便用户专注体验AI服务。这个应用还支持在元宇宙中生成虚拟内容,比如用文字描述直接创建3D场景或虚拟角色。 在财务规划上,我们并不要求四个核心业务方向全部成功才能盈利。只要其中两到三个方向(例如广告体验优化、商业消息服务、元宇宙内容生成或AI原生服务)实现突破,即使算上高昂的模型训练成本,公司也能保持良好的财务状况。这就像投资组合,分散风险的同时抓住关键增长点。 主持人:我觉得你们自己研发AI模型(比如Llama)的做法挺对的。但问题是,Llama作为开源项目太火了,现在你们办Llama开发者大会,很多开发者会跑过来问“能不能让你们的模型实现某个功能?”但其实你们心里可能在想:“我们做这个模型主要是为了自家的业务(比如Instagram的广告和推荐功能),并不是专门为了满足外部开发者的需求。”对吧? 扎克伯格:我懂你的意思。长期来看,这确实是个有趣的平衡。我们首先是为了自己的业务需求开发模型,然后再开放给有需要的开发者。 比如Llama 4 Maverick模型,它根本不是为任何开源基准测试设计的。所以当人们使用时会觉得“效果不错”,但在某些基准测试中得分不高,不过这并不影响它是个高质量模型。 主持人:之前有个争议,说有些模型是专门为测试训练的,如果用对了模型,得分可能会很高。 扎克伯格:这其实挺有意思的。我们设计Llama 4时的一个核心目标,就是让它比其他模型更具可调控性,因为我们有不同的应用场景,比如Meta AI、正在开发的AI Studio,以及商业消息服务等。 我知道有团队曾通过调控让某个版本的Llama在LMArena(AI模型基准测试平台)上表现出色,因为它确实具备这种可调控性。但目前公开的版本完全没有针对LMArena做优化,所以得分是现在这个样子。 不过无论如何,这是个高质量模型。你提到的关键点没错,当我们为自身业务需求设计模型时,必然会忽略一些开源开发者关注的功能,但开源的魅力正在于此,其他人可以填补这些空白。开源是一个生态系统,而非单一供应商。我们承担了最困难的部分,比如耗资巨大的预训练过程,完成大量基础工作后开放模型,并搭建了参考实现API的基础设施,但我们不打算包揽所有环节。 这为其他公司创造了巨大机会,就像Linux系统催生了围绕它的众多项目,开发出各种功能、驱动程序和工具,以满足开发者的多样化需求,Llama生态也会走上同样的道路。 五、AI在朋友关系维护中具潜力,或能辅助用户记忆细节、规划社交活动 主持人:所以,我可以问这个AI:“为什么我看到这么多关于某个特定主题的视频呢?” 扎克伯格:是的。你可以问它关于你的事情,它会向你解释。我觉得作为一家公司,我们可能对人们的需求非常敏感。一般来说,人们渴望表达自己,希望被理解,希望有归属感,不希望感到孤独。我认为在过去20年里,我们推出的产品在这方面一直非常有效。 展望未来,一个有趣的问题是AI在这种需求中扮演什么角色。有一个有趣的社会学发现,平均每个美国人拥有的朋友少于三个,而平均每个美国人希望拥有超过三个朋友。 所以,理想情况下,你应该帮助他们与合适的人建立联系,这显然也是我们一直在努力做的事情。当人们无法面对面相聚时,他们可以通过我们的应用保持联系,与人互动,结识新朋友。但我猜,未来会有一些新的动态,即人们围绕不同的事物与不同的人互动。 我个人相信,每个人都应该有一个倾诉对象,就像一个可以随时倾诉的人,不一定是一整天,但可以倾诉他们所担心的问题。对于那些没有心理咨询师的人来说,我猜未来每个人都会有一个AI。当然,这并不会取代你的朋友,但它可能会在很多人的生活中起到补充的作用。我觉得在某种程度上,我们可能比那些纯粹提供机械性生产力技术的公司更理解这类需求。 我们也很清楚这里面可能出现的问题,而且我们一直在琢磨怎么让AI在交朋友、聊天这些事儿上发挥好作用,而不是搞砸了。我特别在意的一件事就是,怎么让AI帮你把朋友关系搞得更好。比如说,我有时候会忘记朋友的一些事情,但我又想对他们更好一点儿。 还有那种情况,比如我总是拖到最后才想去做计划,然后又想:“我也不知道谁有空,也不想打扰别人。”要是有个AI能清楚地知道你朋友的情况,那它就能在这上面帮到你。 一个好的个性化AI不仅仅是了解你感兴趣的东西,一个好的助手或好的个性化服务,是要能够理解你的思维方式。我们和朋友相处时就是这样,我们不会只是简单地说“这是我的朋友鲍勃,他喜欢……”,而是要深入了解这个人的生活,了解你的朋友面临什么挑战,以及这些事情之间的相互关系。 主持人:鲍勃的AI能和你的AI对话,能解决一些问题吗? 扎克伯格:我觉得具体的API接口可能还需要进一步研究,因为这里面涉及到很多隐私问题。其实,这在人际关系中也是一样的。当你和另一个人打交道,或者试图帮助别人解决某个问题时,总会有一些问题,比如该分享哪些背景信息。人们在交流中需要保持一定的谨慎,AI也需要做到这一点。 我觉得现在更重要的是,先让AI真正“懂人”,这不是简单记住你表面的喜好(比如“他喜欢打综合格斗”),而是能理解你背后的经历和感受,比如“他为什么喜欢格斗?是不是曾经通过练格斗克服了困难?现在他的生活里有什么开心或烦恼的事?”这种能深入理解人内心世界的能力,才是AI发展最根本的东西。 六、Meta AI多点突破,多款应用及独立网站协同推进开启智能交互时代 主持人:你觉得你们在让AI真正“懂人”这方面能做得比别人更好吗? 扎克伯格:大概率是的。当然,我不确定其他公司是否也在尝试做这件事。 主持人:我一直开玩笑说,那些开发AI的人其实并不太适合去琢磨AI的使用场景。 扎克伯格:是啊,我觉得最明显的一个方向是生产力。从某种程度上说,谷歌、OpenAI这些公司都在朝着这个方向努力,而Anthropic似乎更专注于开发软件代理。 我觉得这些领域未来肯定会冒出特别大的商业机会,至少那些在这些领域做出成绩、有突破的公司会吃到甜头。当然,我不是要单独评判哪家公司好坏,毕竟每家都有自己的长处和短板。 未来可能会有很多大型公司依靠他们的技术和资金来参与这个领域,同时也会有很多初创公司出现。我一直都在思考的问题是如何在深度技术和帮助人们建立连接的结合点上开发出新的技术。 主持人:我觉得这个方向非常有吸引力,而且你提到的这也符合公司一直以来的方向,但我总觉得公司一直以来都存在某种矛盾,甚至在我们之前讨论移动化转型时就体现出来了,你们不得不成为一个娱乐应用,而无法成为一个平台。马克,你想做一个平台,但你现在在一个开发者大会上。 扎克伯格:你不能总是做你想做的事!我觉得如果只跟着市场走,那最终会变得很无趣。我认为你需要下一些新的赌注。 主持人:我觉得你的想法挺有意思的,咱们绕了一圈又回到了“连接人与人”的核心,只不过这次是靠AI来牵线搭桥。 扎克伯格:没错,我觉得这事儿挺有意思的。不过作为行业领先者,挑战在于尝试新东西不一定每次都能成。这就像打棒球,不用追求每次挥棒都击中球,只要比对手击中的次数多,或者当击中的时候能打出更远的全垒打就行。 这个比喻可能不太贴切,但你应该懂我的意思,关键不是永远不出错,而是抓住机会时比别人做得更漂亮。 主持人:我明白你的意思了。如果你在人生中有三分之一的时间是成功的,那你就已经进入名人堂了。 扎克伯格:是啊。过去20年里,我确实有很多事情没做成,或者没达到预期。但我认为,即使这样,还是要有信心去做那些有意思的事,这才是做这些事情的乐趣所在。 主持人:这就不禁让我发出疑问了,那你为什么还要接着做这些事呢?我记起来2017年的时候,你说你打算在应用里少放点视频,因为你希望人们能用它好好交流,而不是光为了消遣。可现在呢,视频到处都是,还越做越大。 扎克伯格:是的。在那段时间里,我觉得自己犯了很多错误,尤其是在听从一些所谓专家的意见时,他们告诉我什么对用户有价值。当然,研究是有帮助的,但我从那段经历中学到的是,大多数人其实都很聪明,他们知道自己生活中什么是真正有价值的。 当有专家说某件事情不好,但用户却说它很好时,十有八九,真正使用它的人才是对的。 主持人:说到这点,我不确定这个观点是否站得住脚,但人们都在用AI来做什么呢?排在前几位的可能是心理咨询师或者人生导师。 扎克伯格:Meta AI的一个主要用途就是“我想讨论一下问题”“我需要和某人进行一场艰难的对话”“我和女朋友有矛盾”“我需要和老板谈一件棘手的事情”“帮我模拟一下这个对话”或者“帮我理清思路,我该怎么开口”。 顺便说一下,我觉得这种情况更适合用语音,因为你在模拟对话,而不仅仅是打字。但不管怎样,我认为这会是AI的一个重要用途。 主持人:如果人们已经在用ChatGPT或者其他类似的工具了,他们心里已经把AI等同于ChatGPT了,那你该怎么让他们来尝试你们的产品呢? 扎克伯格:其实,目前Meta AI每月的活跃用户数量大约有十亿。 主持人:我前几天和谷歌的人讨论过类似的问题。谷歌其实拥有全球使用最广泛的AI产品,那就是AI搜索概览,但大家都说“Gemini只有3000万用户,Meta AI会不会也面临这种情况?没人用Meta AI,看看那些排名靠后的应用。”而你却说“不,我们这里可是有十亿用户。” 扎克伯格:我也不确定,走着瞧吧。我觉得并不是所有的事情都必须成功,但总得有一些能取得重大突破。我觉得没人能精准预测到底哪些事情会成功。 你得先大致判断一下世界会朝着哪个方向发展,然后下一些赌注,看看哪些能成,接着再灵活地把资源加倍投入到那些表现好的领域。 说回你的问题,通常情况下,如果你想在一个领域超越领先者,光靠做和人家一样的事情是不行的,你得做得更好。而所谓的“更好”,有时候可能就是让用户在他们已经习惯的产品里无缝地体验到这种服务。如果人们想通过文字或语音和Meta AI交流,那么在一个他们已经用来聊天的应用里实现这个功能,肯定是很方便的。 七、VR与AR差异化布局,Orion头显提前曝光倒逼技术突破 主持人:换个话题。我一直觉得这和国际局势也挂钩,Meta其实是个“反脆弱”型公司。比如之前大广告主集体抵制你们,结果反而让竞争对手的广告更便宜了。苹果推出ATT隐私政策时,虽然你们受创,但后来发现对手伤得更重。那从商业角度看,会不会担心像关税这种外部冲击连Meta都扛不住?特别是影响中小广告主的话就麻烦了。 扎克伯格:看过去的经济衰退就知道,我们公司能活这么久,什么周期都见过。经济一紧张,所有企业都会收紧预算,只投见效快的东西。在数字营销里,效果可衡量的渠道才是王道,在这方面我们基本是顶流。就像你说的,08年金融危机、疫情期间、ATT冲击等,虽然每次收入都受影响,但我们市场份额反而涨了。 作为创始人掌舵的公司,最大好处就是能看长远。看到市场份额在经济寒冬里增长,我就会加码投资。比如扩建GPU集群来服务更多企业用户。但短期投资者肯定要发出为什么收入不达标还追加开支的疑问。 主持人:这是要增加资本支出啊。 扎克伯格:这种大起大落我们早见怪不怪了,股价暴跌到底都经历过,三年前就跌到过每股90块。 不过公司由创始人掌舵的好处就是,我不怕因为短期业绩差被开除。我们董事会的设置,说的通俗易懂点就是铁了心要搞长期投资。就像大学基金会钱生钱的套路,死磕长远眼光本身就是我们的优势,时间久了自然赚得更多。 主持人:如果你们追求的“长期价值”不包括成为平台,只是做个应用,能接受吗? 扎克伯格:这要看定义。早年我很崇拜微软,觉得做开发者平台超酷。 主持人:确实酷。 扎克伯格:但本质上我们不是这类公司。现在消费者业务和开发者业务有点矛盾,我更聚焦前者。当然在VR实验室和Llama项目里我们还是在赋能开发者。越多人用Llama,英伟达就会优化适配,反过来降低我们的硬件成本,形成良性循环。不过现在最核心的还是做好产品,我认为垂直整合是关键。 说到做智能眼镜,重点不是为了打造什么生态系统,而是我们相信这会是实现“身临其境感”的最佳设备。想象一下,你的AI助手能通过眼镜看到你看到的、听到你听到的东西,全天候像个贴身伙伴一样和你互动。很难想到还有比这更合适的AI“载体”了。 主持人:所以做眼镜才是你的终极梦想?VR只是跳板?VR到底扮演什么角色? 扎克伯格:眼镜肯定是更大市场。全球10-20亿人戴眼镜,十年后这些都会升级成AI眼镜,至少带基础功能,高端版会有全息投影。现在戴隐形的人可能都会转投智能眼镜,毕竟太实用了。 主持人:你现在戴的是平光镜吧? 扎克伯格:对,其实我日常戴隐形。最近才开始戴智能眼镜,因为太方便了。 八、MetaAI加强内容创新,探索AI在社交陪伴和信息流内容中的新应用 主持人:说到VR,最初是连接人与人,未来可能连接人与AI。AI生成内容会让VR更沉浸,解决冷启动难题。除了游戏,设备还能干嘛?等普及了,大家会又回归本质吗?比如和好友虚拟看球赛。 扎克伯格:完全可能。AR眼镜会是未来的手机,VR则是未来的电视。没人会整天扛着电视出门,但人均每天看几小时。随着VR的画面越来越清晰,它会把平板和一些电视给比下去。AR的全息投影再厉害,也没法像VR那样让人完全沉浸进去,因为VR是从头开始打造一个虚拟世界。反正这两样东西以后都会发展得很好。 主持人:Orion头显(Meta开发的先进AR眼镜)什么时候上市?去年我体验过原型机。 扎克伯格:目标几年内,具体看进展。 主持人:为什么提前曝光?这不等于告诉苹果“我们能做但暂不量产嘛”? 扎克伯格:我们需要用户反馈,喜欢开放式研发,总要权衡,竞争对手会看到,但也能倒逼团队进步。 主持人:这会给你们团队施压要求加快进度吗? 扎克伯格:展示成果能提振士气,但开放式和封闭式研发各有利弊。如果你确信能独立做出惊艳产品,保密有理。但大多数创新需要迭代反馈,开放式开发配合长期投入,往往比闭门造车更快出成果。 在AR/VR领域,每次我们突破,友商就重启项目。谷歌AR项目反复取消重启,苹果看到雷朋联名款成功才重拾眼镜。未来10-15年我们会持续公开推进,持续收集反馈。我们比谁都认真,也聚集了全球顶尖人才,我们过往成绩就是证明。 在AI领域同理。有些方向公认有价值,有些还边缘化。比如AI社交陪伴,或信息流内容创新,目前还没实证能成。 主持人:你看到吉卜力工作室用OpenAI而不用Meta AI创作,会失落吗? 扎克伯格:其实用Meta Imagine工具的人也不少。我觉得挺好,行业足够大,容得下多家创新。 主持人:那些作品都发社交媒体了吧? 扎克伯格:对,这样很好。世界上不可能一家公司包揽所有“酷炫”的事。如果你看到别人做出了很酷的事情却无法为之感到高兴,那你大概会成为一个很郁闷的人。 主持人:最后一个问题,我们第一次采访是在你们公司改名为Meta的时候。你现在还满意这个名字吗? 扎克伯格:是的,我觉得这个名字很棒。它让人联想到未来,一个数字世界和物理世界更加融合的未来,而这一切因为AI的发展,比我预想的还要快地成为现实。让我感到意外的是,如果回到过去问我,“我们是会先迎来全息世界的到来,还是AI?”我会猜是全息世界。 所以,AI提前到来是很棒的,但从本质上讲,AI和全息世界都是我们对未来同一个美好设想的一部分。而我觉得,眼镜对于实现这两个目标都很关键。现在,因为AI技术发展得这么快,用AI眼镜的人比以前多多了。 主持人:您回答的非常好,很高兴再次和你交流,非常感谢。 扎克伯格:也很高兴见到你。
联想发布超级智能体矩阵 杨元庆首次定义三大核心功能
凤凰网科技讯(作者/于雷)5月7日,联想集团今日在上海世博中心举办“Tech World 2025”创新科技大会,正式发布覆盖个人、企业与城市场景的“超级智能体”矩阵,标志着端侧AI推理能力已逼近云端水平,人工智能正式进入“强推理+端侧化”新阶段。 联想集团董事长兼CEO杨元庆在大会上首次定义了超级智能体的三大核心功能:感知与交互、认知与决策、自主与演进,并表示这些技术已从概念阶段迈向规模化应用,超级智能体将成为“认知操作系统”。他预测:“未来12个月,端侧AI综合能力将实现至少三倍的提升”。 大会现场,联想正式发布了“天禧个人超级智能体”、“乐享企业超级智能体”以及“城市超级智能体”三大产品线,同时推出新一代联想推理加速引擎。这款由联想、清华大学和无问芯穹联合研发的推理引擎,通过高性能并行解码、异构计算架构和算子融合优化等技术,解决了大模型轻量化与推理效率的行业痛点。 个人层面,联想“天禧”超级智能体可实现跨设备数据调用,具备多模态感知、意图理解和自主任务拆解能力。同时联想发布四款搭载天禧的智能终端:AI元启版moto razr折叠屏手机、AI元启版Yoga平板、全球首款卷轴屏AI PC ThinkBook(屏幕可扩展至16.7英寸)以及3D拯救者游戏设备。现有联想设备用户只需满足特定硬件要求,即可升级安装天禧个人超级智能体。 企业应用方面,联想构建了基于“端-边-云-网”四层架构的混合计算基础设施,推出“万全异构智算平台”作为企业智能体的算力基座。通过突破性的GPU内核态虚拟化技术(与上海交通大学联合研发),该平台有效降低了AI训练成本,加速了推理效率。 “乐享”企业超级智能体深度集成企业全域业务数据与知识资产,覆盖从供应链到市场营销的全业务链条,可化身产品经理、销售人员或采购专员,实现"硅基生命"与实体业务的深度融合。 城市治理层面,联想提出“1×N城市超级智能体”架构——由一个城市核心中枢与多个领域智能体协同工作。该技术已在武夷山和宜昌等城市落地应用,在旅游行程智能规划、文旅资源优化、城市精细化运营等方面展现价值。 大会最后,联想宣布与国际足联(FIFA)世界杯达成技术合作,将为2026年世界杯提供智能基础设施支持,开发AI分析引擎帮助球队与教练实时调整战术,研发球员3D分身技术辅助裁判决策,并为球迷打造沉浸式观赛体验。
ChatGPT做电商,先拆了传统搜索的信息围墙
4月29日,X平台OpenAI的官方账号宣布正在对ChatGPT的搜索功能进行了多项改进,并正式上线了网购功能,随后便放出了一则实机演示视频。 在视频中,当我们向ChatGPT询问“200美元以内口味最接近意式最好用的咖啡机是哪台?”时,它会先从问题中解读出提问者对“家用”“意式风味”以及“200美元预算”等硬性需求,接着便会从信息库中筛选出多款符合条件的咖啡机。 到此还没有结束,如果仅仅是筛选产品的话和百度、Google等搜索引擎的功能也并未相差太多,真正让ChatGPT成为电商的点在于当用户看中了德龙ECP3220这款咖啡机后,仅需点击一次,便会将购买链接、购买建议以及消费者评价多模块显示出来,如同淘宝与京东的布局类似,后续只用点击购买按键即可一键跳转到网站购买。 但这并非是OpenAI对电商的初次尝试,正如其总裁Greg Brockman一直强调的观点“2025年是智能体之年”一样,早在四个月前,OpenAI便正式放出了智能体Operator,其拥有推理以及联网自主执行的任务,用户只需向智能体发布任务,它便能实现网购买菜以及订酒店等功能。 01 ChatGPT转行做导购,AI跨入电商蓝海 回想过去,消费者是如何完成网购流程的?首先是种草阶段,大多数消费者会在小红书等平台了解产品信息以及评价,接着进入比价环节,在淘宝、京东等五花八门的电商平台综合价格、评价以及质量等多个因素综合对比,最终选出一款最心仪的产品。 这种消费流程实在是太冗长了。面对愈发海量的产品信息,消费者时常会陷入一种“选择瘫痪”中,就像很少有人能在几款价格相差不大,功能又基本相似的吹风机中坚决地选择其中一款一样,消费者有时是需要外界来帮他做决策的。 而OpenAI此举,正是盯准了当下消费者在网购决策方面未被满足的需求与传统搜索信息冗余的矛盾。OpenAI上线电商功能,本质上是打通了搜索和下单的商业链路,在其最擅长的AI搜索上,加上了后链路的转化。与其说是OpenAI在做电商,不如说是在做AI搜索的商业化尝试。 那ChatGPT电商的优势在哪里呢? 首先是个性化的服务。AI与传统网页最大的区别在于AI是有逻辑能力与记忆能力的,而传统网页只有强关联词锁定的能力。使用传统搜索引擎搜索资料时或是用传统电商平台搜索商品时,往往会出现“捡了芝麻丢了西瓜的情况”,必须要一次性地把自己的所有需求都输入到搜索框中才能得到相对满意的答案。 而ChatGPT能记住用户过往的需求,用户在一开始输入的需求后续也会一直在AI的筛选条件中。具体理解的话就是第一次向AI提问时提到了“防过敏”这一需求后,后续每次提问也都会将“防过敏”作为筛选的条件之一。 其次,打通了平台间的壁垒。以国内为例,当消费者想购买一台手机时,既可以用抖音商城买,也可以用京东淘宝等传统商城买,但问题在于这些平台并不是打通的,就导致消费者为了去比价和比性能就需要来回切换不同的平台,最后耗时又费力。 ChatGPT打通了沃尔玛与亚马逊等多家主流电商平台的数据,基本做到了“一键全网性价比”。正如视频中展示的一样,直接显示了德龙咖啡机在品牌官网以及沃尔玛等平台的不同价格,想在哪买一键跳转即可。 最后是相对竞价广告更高的信任度。据OpenAI官方透露,它能够通过第三方结构化数据,让推荐结果完全只基于商品评分与需求关联度等硬性指标,而OpenAI官方也曾表示“不会从购买中获得回扣”,也就是说Chatgpt的网购不接受广告植入。 但虽然OpenAI到目前为止对广告呈现出抵抗的态度,但谁也不知道未来的发展走向如何,毕竟OpenAI去年还开辟性地设立了CMO并在超级碗发布了自己的首支广告片,很难保证未来是否广告也会应用到ChatGPT的问答场景中。 但无论如何,OpenAI作为AI行业的先锋品牌,每次举动都能引发一波热潮,正如前阵子其带火的吉卜力风格一样,这次是否又能带动电商行业迎来一阵AI热潮呢? 02 AI电商“闯关”:技术、营销与伦理的三重考验 在Morketing看来,AI电商一定会是新蓝海,但目前无论是从技术上还是从伦理角度仍未达到能引发热潮的程度,可以从技术、营销与伦理三个角度来理解: 首先,目前的AI技术未必每一次都能做出正确决策。ChatGPT购物功能主要是通过像o3/o4-mini模型提问来实现。但当下几乎以OpenAI为代表的AI智能体都面临严重的“AI幻觉风险”,第三方机构曾对目前AI幻觉的现象进行过测试,发现推理能力越强的模型幻觉率反而更高了。OpenAI也曾承认o3的幻觉率是o1的两倍,而o4-mini的幻觉率是o1的三倍。 AI自身的幻觉问题导致的回答错误是一方面,另一方面则在于消费者的多样化表达会加重AI给出错误答案的频率。因为在电商中格外需要AI去理解购物场景下具体的语义表达,但消费者往往会用到“不死板”或是“活泼”之类的不在常规商品词库中的词汇,可能会导致AI导购“会错意”,最后给出驴唇不对马嘴的回答。 所以从技术层面来看,AI自身回答的准确率仍需要改进,对消费者长尾语言的理解能力也需要优化。 其次则是从营销角度来讲,虽然目前OpenAI对广告表现出了一种明显的反对态度,但近期Sam Altman的采访中却表示“或许未来会用一种有品位的方式做广告,即便我本人不太喜欢广告”。并且OpenAI的盈利能力也一直备受争议,因此很难不怀疑未来AI给出的答案有没有“金钱的力量”。 其实当用户的消费习惯从传统的网页搜索后转向AI搜索后,已经有不少品牌或是咨询公司都意识到传统的SEO优化可能不奏效了。要将以前SEO的那套逻辑想办法套到AI智搜上,因此GEO生成式引擎优化策略也逐渐进入了萌芽期,简单来讲就是靠对品牌内容文本的优化来“诱导”AI推荐自己的产品。 但值得注意的一点是,在GEO相关话题下的评论区往往都是以持反对意见为主,有不少人都认为“广告做的满地都是很让人反感。”因此,如何去解决那些利用策略诱导AI推荐自家产品,但自家产品本身又比较一般的品牌也是AI电商需要思考的问题。 最后一点则聚焦于伦理层面,几乎任何有AI模型参与的场景都面临着较为严重的伦理问题,核心争议点就在于AI智能体的推断能力太强了,如同有读心术一般。其实大数据时代后带来的隐私问题就已经很严重了,大部分人都反对各个APP肆意调动数据精准推送而带来的“监视感”。 03 结语 但不可否认的是,ChatGPT的这一创新已经为电商行业打开了一扇新的大门。它让我们看到了AI在电商领域的巨大潜力,也为未来电商的发展提供了一种全新的思路。 尽管目前还存在诸多问题,但随着技术的不断进步和完善,相关规则的逐步建立,这些问题或许都将得到解决。那时,电商行业将迎来一个全新的智能化时代,为消费者和商家创造更多的价值。
Android 新设计被指抄袭苹果?但这可能改变你用手机的方式
在科技行业的年度盛事中,除了被称为「科技春晚」的苹果秋季发布会,还有一场发布会,虽在国内的声量稍逊,却深刻影响着占据全球智能手机市场半壁江山的 Android 生态——Google I/O 开发者大会。 不过,就在今年 I/O 大会启幕前夕,Google 却上演了一段小插曲:一篇关于设计语言的博文被悄然发布,然后在短时间内被删除。 这篇昙花一现的博文,犹如一扇被意外推开的窄门,虽然惊鸿一瞥后便匆匆关闭,却已足够让我们窥见 Google 对安卓系统未来设计所勾勒的蓝图雏形,及其背后酝酿着的诸多革新思路。 下一代设计,是学会表达 虽然博文在互联网上存在的时间很短,但还是被捕捉了下来,数字化的互联网档案库 Wayback Machine 精准捕捉到了这篇博文的详细内容。 博文的标题,开门见山地指出新设计语言 Material 3 Expressive 三大核心特性——更好、更简单、更有情感。 在明确核心特性后,Google 提出了一个引导性问题: 什么是表达性设计? 表达性设计能激发情感。它通过设计传递功能,帮助用户达成目标——可以理解为有灵魂的设计。 Material 3 Expressive 的核心要素包括色彩、形状、尺寸、动态效果和容器设计,这些设计元素需要提升产品的视觉吸引力,还能通过突出关键操作、分组相似元素,显著提升界面的可用性。 简单来说,就是 Material 3 Expressive 表达性设计以大胆的形状与充满活力的色调,创造愉悦的用户体验。 不过,这样的自问自答,可能听起来仍然有些抽象,对吧? 没关系,Google 在这篇博文中充分解构了 Material 3 Expressive 设计语言,我们接着往下看。 想要从零打造一个设计语言,前置条件是大量的研究,Google 设计了一系列方式,包括: 眼动追踪:观察用户注意力集中在哪些区域 问卷与焦点小组:评估用户对不同设计的情绪反应 实验:情绪与偏好 可用性测试:测量用户理解与操作界面的速度 举例来说,哪个进度指示器能让等待感觉更短,同时展现出高级感?哪种按钮尺寸能提升点击效率,又不喧宾夺主?Google 还研究了新浮动工具栏在现代感、清洁度、活力感知上的表现,以及组件的可见性和整体可用性。 比如下面的音乐播放软件,就通过不同形状、尺寸与颜色的按钮重构界面,重新排布画面元素,达成个性化表达的效果。 ▲ 左:非表达性设计 / 右:表达性设计 从调研结果建立指南,再依照指南进行设计。这些研究帮助 Google 创造了 Material 3 Expressive 这一表达性设计语言的指南。 与表达性设计对应的,就是遵循 iOS 人机交互指南的「非表达性设计」。 一直以来,苹果认为设计应该强调清晰、功能性和内容优先,界面元素、文本、图标都应该易于理解和识别,为用户的注意力服务,而不是与内容争夺焦点。 呼声很高的拟物化设计也是由于这条核心的设计哲学,退出历史舞台。 不过,Google 的研究显示,在不同年龄段用户中,表达性设计普遍更受欢迎。尤其在 18-34 岁的用户中,有超过 80% 的比例表示更喜欢表达性设计,认为它视觉更吸引人且更愿意使用。 不过,表达性设计的回归,并不意味着拟物化设计的复兴,Google 对表达性设计的理解,更侧重于其所传达的「酷」。 Google 研究了 Caleb Warren 等人在 2019 年发布的论文《Brand Coolness》,这篇文论认为一些品牌之所以吸引人,是因为它们拥有一种独特的「酷」。 这些酷往往象征着反叛、突破、原创的,而随着大众接受这些元素,其形象就会更受欢迎,也更具标志性。 这也是为什么某些产品成为了流行风潮中的必备单品,人人都想拥有;而另一些产品,即使功能相似,却始终无法引发同样的共鸣。 Google 的研究发现,采用 Material 3 Expressive 设计后,用户对「酷」的感知显著提升: 亚文化感知提升了 32%,让品牌显得更贴近潮流、更懂行 现代感提升了 34%,让品牌形象更显新颖、具前瞻性 叛逆性提升了 30%,让品牌更具突破性,表现出敢于挑战常规、引领创新的特质 更重要的是,Google 认为这种「酷感」不仅仅是上面那些流于表面的印象指标,而是能实际驱动用户行为意图的东西。 换句话说,用户更愿意尝试或切换到采用这种设计的产品,这为表达性设计提供了有力的支撑。 这种「酷」不仅利于品牌的建设,也有在实用上也有正面反馈。 Google 将不同的参与者带入实验室,让他们与 Material 3 Expressive 和当前 Material 3 版本的 10 款不同应用程序进行交互,且进行了随机排序。参与者发现,使用采用表达性设计的界面,他们能够以最高 4 倍的速度找到关键的用户界面元素,这表明这些设计能够迅速将用户的注意力引导到屏幕上的重要区域。 当然,在博文的最后,Google 也坦言,这种表达性设计并非万能的解决方案。当表达性设计过度介入基本的交互范式时,可能会导致可用性下降,从而间接影响用户的情绪。 为此,Google 将会提供指导,明确如何使用表达性元素,同时确保基本的交互范式不会受到影响。 值得一提的是,Material 3 Expressive 设计语言的源头,来源于 2022 年的一次分享。 当时,Google 的研究实习生在慕尼黑一家啤酒馆中向同事分享了她对 Material Design 在谷歌应用中用户情感反馈的初步发现,这次分享却意外引发了一场团队范围内的设计辩论: 为什么所有应用看起来如此相似?如此无聊?难道不能让设计更有趣、更富有情感吗? 抛出疑问后,Google 花了三年的时间,围绕这一问题展开了数十轮设计与研究迭代,通过 46 项独立研究、数百种设计方案,以及全球 18000 多名参与者的反馈,最终打造出一套既美观又高度可用的系统,推动 Material Design 进化来到用户的面前。 不约而同,却背道而驰的设计 虽然 Wayback Machine 捕捉下来的博文信息缺少了部分超链接,要等 Material 3 Expressive 正式推出后才能一览全貌,但我们仍不难 看出,Google 正在为 Android 系统筹备一场大刀阔斧的设计革新。 无独有偶,就在前段时间,iOS 19 的设计也传出将迎来重大变动,但不同的是,苹果对下一代设计的理解,几乎与 Google 背道而驰。 在 iOS 19 中,苹果将 Vision Pro 作为设计锚点,推动整体视觉风格向 visionOS 靠拢,并大量使用毛玻璃等材质,来承担界面中的层级分化任务。这一设计理念最终可能成为 iPhone、iPad、Mac 以及 Vision Pro 等设备共同的交互认知体系—— 在基于屏幕显示的移动终端(如 iPhone、iPad 和 Mac)中,毛玻璃材质将用于平面层级的轻量化交互;而在 Vision Pro 中,它则用于支持三维空间中的多窗口叠加与深度交互。 显然,苹果仍将 Vision Pro 视为「明日产品」,并希望以其设计理念为基础,构建下一代用户界面体系。 本轮更新预计将覆盖操作系统的核心视觉元素,包括图标、菜单、应用、窗口样式及系统按钮,其整体目标是通过简化交互逻辑,让用户更高效、更自然地使用设备——从这个角度来看,苹果依旧坚定地遵循着「非表达性设计」的人机交互指南。 如果一切顺利的话,这套全新的系统体系将在今年 6 月的 WWDC 上与我们见面,并更新在 iOS 19、iPadOS 19、macOS 16、visionOS 3 等系统中。 有趣的是,在这篇博文泄露后,有人指出,Google 这个尚未正式推出的 Material 3 Expressive 设计语言与 iOS 的某些元素具有很高的相似度。 具体来说,手机状态栏中的电池图标,展示了这种设计的相似性。 与传统 Android 上那种竖直放置、形状锐利的矩形电池图标不同,新的电池图标采用了圆润的边角,呈水平放置状态,电池图标内还可以显示数字,并且使用了较为圆润的字体风格。 除此之外,部分界面的新的悬浮工具栏,也与苹果传闻的 iOS 19 的悬浮菜单栏有些撞车。 ▲ 图片来自 @MysticLeak 高情商地说,这或许也算是 iOS 与 Android 一直以来「你中有我,我中有你」的证据吧。 不过,要是我们将目光放到更大的设计理念上来看,Google Material 3 Expressive 的「表达性设计」与苹果 iOS 19 的「非表达性设计」,完全是两个不同的思路,毫无疑问可以称得上真的分道扬镳了。 比起小细节上的争议,苹果和 Google 同时对设计语言进行大规模改动这件事,其实更有意思。 在这个时间点,两家手机行业的巨头,几乎同时对设计语言进行改动,却走向截然不同的方向,一下子让手机市场再次热闹了起来,但细究之下,我们不难发现,这其实是一件必然的事情。 目前,智能手机的主流设计基本还是以 2013 年推出的 iOS 7 与 2014 年推出的 Material Design 为主,但时间已经过去十几年,手机的模样早已天翻地覆,竞争也更为激烈紧张。 在智能手机功能日益成熟且趋于同质化,又像所有行业一样,逐渐陷入缓慢与停滞的背景下,影像成为高端旗舰手机的竞争主战场,但相较而言,影像对手机阵营的整体影响力依然有限。 此时,厂家再次把目光放在设计上,通过全面更新设计语言和视觉效果,对自家阵营的所有设备进行整体翻新,寻求差异化,是个吸引并留住用户的机会,也是探索新的增长点的好办法。 但从为手机买单的我们来说,如果设计的更迭仅仅停留在表面的视觉革新,那就很容易变成新时代的「诺基亚换壳」,固然能带来一时的新鲜感,但最终还是会陷入换汤不换药、没有创新的困境中。 曾为 Nike、Microsoft、Adobe、Facebook 等知名品牌提供设计服务的设计师 Frank Chimero 在他的著作《The Shape of Design》中表达过自己的见解: 设计是一种承诺,承诺你能做出最好的事。 在这里,我想将这句话做个小小的更改:设计是一种承诺,承诺你能做出更好的事。 只有这样,设计的探索,才能成为真正的创新。
全面屠榜!谷歌最强编程模型提前释出,碾压Claude 3.7
编译 | 王涵 编辑 | 漠影 谷歌史上最强编程模型来了! 智东西5月7日消息,北京时间5月6日晚,谷歌DeepMind AI研究部门正式推出Gemini 2.5 Pro “I/O”特别版,回应开发者社区对实际编程和界面设计效能的强烈需求,给全球用户提前“尝鲜”。 WebDev Arena Leaderboard基准测试最新榜单显示,自2022年底ChatGPT引爆生成式AI竞赛以来,谷歌首次在关键编程基准测试中超越Claude,实现全面领先。新版模型代号“Gemini-2.5-pro-preview-05-06”已取代03-25版本,目前可通过Gemini API、Vertex AI、AI Studio平台获取,普通用户可以通过Gemini聊天机器人应用体验。 ▲数据来源于Imarena.AI 新模型定价与Gemini 2.5 Pro模型相同,每百万token输入和输出费用分别为1.25美元和10美元(约合人民币9元和72元)(支持20万token上下文),相较Anthropic的Claude 3.7 Sonnet模型的3美元和15美元(约合人民币22元和108元)更具性价比。 谷歌DeepMind首席执行官戴密斯·哈萨比斯(Demis Hassabis)在海外社交媒体X平台盛赞其为“我们迄今构建的最强编程模型”。 一、编程能力首次超越Claude,AI编程“头把交椅”或将易主 这次的特别款是三月发布的大热模型Gemini 2.5 Pro的升级新版本,谷歌Gemini API高级产品经理Logan Kilpatrick在技术博客中确认,本次升级重点优化了函数调用功能,降低错误率并提升触发可靠性。据谷歌博客内容,Gemini 2.5 Pro“I/O”特别版在编程和构建交互式网页应用方面的能力有“显著”提升,在代码转换(即修改代码以实现特定目标)等任务上的表现也更好。 ▲数据来源于WebDev Arena Leaderboard 博客文章中提到了Gemini 2.5 Pro“I/O”特别版在WebDev Arena Leaderboard基准测试(衡量模型创建美观且功能完备的网页应用的能力)中的表现。在最新排名中,Gemini 2.5 Pro Preview (05-06)以1419.95分超越Claude 3.7 Sonnet(1357.10分)登顶,相较前代03-25版本1272.96分的表现,新版实现了146.99分的提升。 谷歌DeepMind首席执行官哈萨比斯对此十分自豪,还狠狠“凡尔赛”了一番: 此外,本次升级最突出的能力在于根据单条文本提示生成完整交互式网页应用或模拟程序。Gemini应用内的演示显示,用户可将视觉图案或主题提示直接转化为可用代码,大幅降低设计导向型开发者的入门门槛。 二、视频理解超强,领跑视觉基准测试 Gemini 2.5 Pro“I/O”特别版在视频理解方面也具备超高性能,谷歌在其博客中称该版本在VideoMME基准测试中获得84.8%的分数,占据榜首。据谷歌官方博客透露,该模型还驱动着Gemini移动应用的Canvas画布等核心功能。 ▲数据来源于Imarena.AI 在Gemini 95等应用中,新模型能自动统一视觉元素的风格匹配。其工作流支持将YouTube视频转化为功能完备的学习应用,并可快速生成响应式视频播放器、动态听写界面等高度风格化组件,几乎无需手动编写CSS代码。 结语:谷歌Gemini模型向实用生产力工具转型 AI编程工具企业Cursor的首席执行官Michael Truell透露,内部测试显示Gemini 2.5 Pro“I/O”特别版的工具调用失败率显著下降。目前Cursor已将Gemini 2.5 Pro集成至其code agent系统。 代码托管平台公司Replit的总裁Michele Catasta也评价称该模型是“平衡性能与延迟的最先进模型”。 虽然谷歌未公开Gemini 2.5 Pro的架构细节,但其核心目标始终是提供更快速、更直观的开发体验。通过强化代码生成和多模态输入优势,Gemini 2.5 Pro正从研究性创新转向解决实际编程挑战的生产力工具。此次提前发布让谷歌DeepMind在重大会议前满足开发者需求、保持市场势头的意图更加明确。
没公布风阻系数,焕新款阿维塔 12 上市,优惠售价 25.99 万元起
焕新款阿维塔 12 在一片喧嚣声中上市了。 改款的阿维塔 12 依旧有纯电和增程两种动力形式,共计六款车型,售价也维持了 26.99-42.99 万元不变,如果在 5 月 31 日前下定,则可以享受 1 万元的现金优惠。 优惠后的车价则来到了 25.99—41.99 万元。 此外,新车还可享至高价值 40000 元的配置权益,包括 ADS 高阶功能、25 扬声器英国之宝音响系统和 21 英寸轮圈等等。 阿维塔 12 的这次改款主要是对配置进行了精简,让 6 个 SKU 分布的更清晰了一些。 新车增加了阿维塔 11 同款的 20 英寸旋叶轮圈作为选装,也拥有了全新的岱红内饰配色,也提供桦木直排纹、炭灰色装饰以及超纤仿麂皮顶棚作为搭配。 Ultra 增程版车型则增加了智能电动门套装,包含电动门和前门迎宾 logo 灯。 阿维塔 12 定位是一款中大型轿车,其长宽高分别为 5020/1999/1460mm,轴距 3020mm。 阿维塔的内饰设计一直很讨喜,这次的焕新款也依旧采用了家族化的科技豪华风格,采用了 35.4 英寸 4K 全景宽屏和 15.6 英寸的中控屏幕,内置了 Harmony OS 操作系统,高配车型还拥有电子外后视镜。 焕新阿维塔 12 全系配备了前排双零重力座椅,加热通风按摩一应俱全,后排则搭配了悬浮天幕屏和全功能座椅,腿部空间也达到了 1M 左右,让后排乘客的乘坐舒适性提升了不少。座舱材质上则大量使用了 Nappa 真皮和超柔触感类麂皮以及纯天然实木。 智能驾驶辅助部分,阿维塔12号称是同级唯一配备「大三激光雷达」方案的车型,其全系搭载了华为乾崑ADS 3.0,支持全场景车位到车位智能辅助驾驶和VPD泊车代驾功能。 智驾硬件上,阿维塔 12 全车配备了 29 颗感知元件,其中包含 3 颗长距离的激光雷达可以覆盖 300 度的水平方向视角范围,以及 25 度的垂直视角范围,两侧的长距离的激光雷达的照射距离最远可以达到 150M。 升级的智驾系统也带来了更好的安全能力,阿维塔 12 支持了华为全向防碰撞 CAS 3.0 ,对行人车辆突然的切入、近距离的加塞,还有十字路口的大转角等场景都具备了更好的监测能力和防护能力。 动力方面,焕新阿维塔 12 是全系 800V 平台, 增程版电机最大功率 231kW,CLTC 纯电续航约 245 公里;纯电动版车型单电机后驱版最大功率 237kW,CLTC 续航里程 755km;四驱版搭载了最新一代的碳化硅电机,前/后电机最大功率分别为 165kW / 237kW,综合功率 402kW,CLTC 续航里程 705km。 阿维塔 12 这次短时间内推出改款估计与其销量不达预期有关,根据《车主指南》的数据,阿维塔 12 在 4 月份销量为 2111 辆,2025 年累计销量为 5220 辆。 可惜,最重要的一个参数——风阻系数,这次发布会倒是完全没提。 有关于阿维塔 12 风阻系数的争论已经持续了好几天,阿维塔官方和表达质疑的博主之间你来我往交锋了好几轮,相关内容热度也在被马斯克转发后达到了顶峰,阿维塔官方更是顺势邀其请马斯克来现场见证测试过程。 不过风阻测试本身就有很大的操作空间,双方估计还要你来我往再打一阵子口水仗。
AI原生手机之战:三大阵营的对决
现实状况是,没有AI卖点,智能新机都不好意思拿出手。 刚刚过去的4月,各大手机厂商密集发布新品,实则无形中掀起一场行业AI革命。好似喊了数十年的智能终端,现在才真正「智能兑现」。 比如,OPPO Find X8系列的AI一键闪记功能,「小布记忆」堪称「健忘症救星」;荣耀x70i则具备AI拍照聚焦的效果,还提供任意门、AI换脸检测、灵动胶囊;华为畅享80也退出AI通话的卖点...... IDC最新数据显示,2024年中国AI手机出货量同比激增591%,渗透率已从2023年的3%跃升至22%,预计2025年将突破1.18亿台,占据整体市场的40.7%。 值得注意的是,2024年全球600美元以上高端机型占比突破30.9%,其中AI功能贡献了75%的溢价能力;头部厂商研发投入占比攀升至12%-15%,远超传统硬件创新周期,2025年这一情况还将得到进一步增长。 数字背后折射出,手机厂商在硬件创新枯竭、用户换机周期拉长至51个月的困境压力下,集体押注AI。 如果说2010年iPhone 4开启了智能手机的黄金十年,AI时代,手机创新面临从功能叠加到系统重构,从工具到智能体的演进。 参数竞赛不足以体现实力,人机交互的重构才是王道。 手机全面AI化 AIGC的发展,重新赋予手机新的含义。 行业对AI手机的理解各有不同,核心共识却已浮现:需具备端侧大模型算力、系统级AI融合、场景化主动服务等诸多特征。 与早期仅搭载语音助手或美颜算法的「伪AI手机」不同,新的旗舰机型必须实现「从芯片到操作系统等端到端」的AI原生设计。 通俗一点讲,AI在手机中的表现,类似于自动驾驶技术在新能源汽车上的应用落地,可以被分为辅助驾驶和高阶辅助驾驶。 所谓辅助就是利用AI功能进行简单的功能操作,比如基础的语音对话(不涉及复杂任务部署)、AI拍照聚焦。「高阶智能驾驶辅助」则意味着,手机从影像到交互的全面AI化。 首要体现的便是影像革命。 传统语境下,厂商们比拼的卖点往往是前后主摄的范围或者超广角的大小,影像方面仅限于「拍的远和看得见」。AI时代,手机影像不仅仅是拍照需求,还涉及视频创作,这意味着从芯片到算法,从光学重构到未来影像,涉及全新的技术方案体系。 比如vivo X200系列搭载的「蓝心大模型」,能实时分析画面中30种元素并分层优化,夜景动态范围提升3倍,vX200Ultra的影像套装更让手机变身专业相机的「仪式感」,凭借一款外接长焦镜头和AI超感知水准,彻底打破了手机影像的物理限制; OPPO Find 系列则在后期调校方面,采用「AI导演模式」,可自动剪辑15秒短视频,成片率达专业水准,与借助其他工具进行视频处理效果不相上下。 至于交互升级方面,AI最大的影响在于智能体的任务调度与复杂处理。在此领域,不同厂家的旗舰手机各显千秋: 荣耀前CEO赵明曾在发布会上通过Magic7的「YOYO智能体」现场指令,为观众购买2000杯咖啡,AI从听取命令到识别需求再到跳转外卖页面、选择品类直至完成自动支付,实现了全流程任务执行。 华为的体验也不逊色,通过鸿蒙系统与麒麟芯片的软硬协同,手机具备「预判能力」。 比如当检测到用户每日7:30通勤时,手机会自动预加载导航App并推送路况预警,Mate70还支持隔空传送功能,当消费者看到有意思的图片想要分享给旁边的家人,只要在摄像头前做一个「抓」的动作,然后拖拽到另一台手机前,松开手就能完成传送,活生生地把AI玩成了魔法。 正如余承东所言:「未来的手机不再是冰冷的设备,而是能感知、决策、进化的数字伙伴。」 在此基础上,所有手机厂商面临的共同问题就是系统重构。毕竟AI深刻影响硬件,最底层的部分还是操作系统。 2024年开发者大会,苹果公司首次披露了「Apple Intelligence」体系,将大模型能力深度嵌入iOS 18,用户可通过自然语言直接调用跨应用服务,如「帮我预订明天飞上海的航班,并同步到日历和健康App」——系统能自动分解任务、调用接口并规避隐私风险。这一点,并非是在普通语音助手中部署大模型,而是基于操作系统的深度AI指令能力。 这意味着手机厂商,将再次卷入新一轮硬件装备竞赛。 手机也要AI原生化 AI手机趋势已不可更改,只是相比简单粗暴的手机+AI,用户对AI 原生手机的诉求更强烈。厂商也意识到,这场革命必须从芯片适配大模型开始。 这源于目前AI手机面临的困局。 因为在谈及「我们需要怎样的AI手机时」,消费者并不愿意为没有太多革命性体验的设备付费。 GSMA智库针对全球万名消费者的调研显示,51%的受访者认为「AI手机就是多了个语音助手」,仅12%用户能准确区分设备端AI与云端AI的技术差异。正如IDC分析师Will Wong指出:「当所有厂商都在讲述AI故事时,真正的较量将回归到最基础的体验。」 其核心内在逻辑是,尽管云端大模型(如DeepSeek、豆包)可通过API赋能现有手机,但消费者对流畅性要求、隐私保护与功耗的体验需求催生了硬件底层必须AI化的刚需。 换句话讲,真正的AI手机绝不是把各种模型套进硬件,端侧大模型虽然可以在终端设备上部署各种各样的轻型模型AI技术,真正好的实用体验往往取决于芯片硬件本身。 比如,荣耀Magic7系列搭载专业通信芯片HONOR C2,该芯片通过AI使能,弱网场景下手机信号可提升20%,而联发科天玑9400通过NPU能效优化,AI摄影功耗下降80%。如果只是靠大模型,只能做到影像画面优化。 即便从厂商放大到整个行业看,AI芯片也早成趋势。工信部数据显示,2025年Q1智能硬件AI芯片出货量同比激增420%。 相比之下,未硬件AI化的机型,正陷入「功能性淘汰」。2024年Q4,有统计显示非AI手机均价同比下跌12%。 如此一来,硬件厂商与AI开发者的关系正在重塑。 高通骁龙8 Gen4预留「AI算力池」,供开发者调用优化算法;华为向第三方开放「盘古大模型」接口,吸引超过2000家应用接入鸿蒙生态。这种「硬件搭台、软件唱戏」的模式,正打破传统手机行业封闭的供应链体系。 正如联发科CEO蔡力行所言:「未来的芯片不仅是计算单元,更是AI生态的孵化器。」 生态、算力与场景的博弈 AI 时代,当前主流手机厂商已分化为三大阵营。 苹果自立为一派,AI路线坚持自研和本地化合作,端侧闭环。比如,针对中国这个全球智能手机最大的单一市场,苹果选择与阿里巴巴合作,共同开发面向中国市场的AI应用。 3月最后一天,Apple Intelligence更新,中国区用户正式对苹果 AI能力有了综合体验,可以理解为苹果在朝着「更加本地化的 Apple 智能」方向的最新进展。除了可以使用一定额度的 ChatGPT 访问数量,图像识别等AI功能也有了新的体验。 但是苹果一贯被认为在AI方向过于保守,Siri 不尽如人意,不急于拓展 AI 能力在智能手机上的边界,还在主动为 AI 设置围栏。这可能跟苹果坚持「隐私优先」的技术路径有关。 AI手机不能忽视的还有华为派,以实现「1+8+N」(8代表手机之外的智能硬件)的全AI能力为核心。 华为主打端云协同,通过自主研发的芯片响应用户指令的存储、计算需求,而云端盘古大模型则负责处理复杂任务,通过两侧协同来为用户提供服务。 最具代表性的例子是,华为Mate70首发软硬端云协同全栈AI,依托软硬端云协同的技术底座,打造多个AI智慧功能,还能实现与车、PC等功能的互通互传。 而以小米、OV、荣耀为代表的开放派,一方面拥抱第三方大模型,通过「智能体商店」构建应用生态,并进行着对外宣称的系统或芯片自研;同时也尝试与其他手机打破原有的封闭边缘,如荣耀在阿尔法AI战略下,就试图建立与实现安卓、Windows、HarmonyOS三大系统间的文件实时互通体系。 虽说AI手机技术路线有差异,但厂商决胜的关键还是在于,如何在「算力、生态和场景」的平衡中获得最大的优势。 因为即便如强如骁龙8 Gen4的NPU算力突破50TOPS,却仍难支撑多模态大模型的端侧部署,核心就在于高通并不是算力提供商。考虑到高通这样的供应商都需要更底层的AI源动力,手机厂商自然局面更艰难。 如此看来,华为是最有机会率先吃到AI手机红利的厂商。 华为拥有鲲鹏、异腾等国产算力计算平台,也具备在GPU、芯片等AI领域的技术、工程储备,再考虑到华为每年近20%左右的研发投入强度,汽车、全屋等生态场景的布局,这些都为华为领跑奠定基础。 Counterpoint还曾预测,到2028年,90%的中端机需依赖云端协同,这对网络基建提出更苛刻的要求。而厂商若仅聚焦「摄影、语音」等传统场景,将陷入同质化泥潭。 届时,一场残酷的变革开启,厂商难有试错机会——正如诺基亚死于触摸屏、HTC困于生态,未来5年,无法构建AI原生能力的品牌不得不被动退场。 更重要的是,AI手机之战是不是终极命题还是未知。 未来的智能终端设备一定就是手机吗?如果不是,AI原生智能设备会是怎样的存在。对手机厂商来说,这才是最为致命的。
德国igus发布首款人形机器人Iggy Rob,覆盖工业与服务领域
编译 | 江宇 编辑 | 漠影 机器人前瞻5月7日消息,德国igus GmbH上周发布了其首款人形机器人Iggy Rob,正式进军人形机器人领域。 作为一家专注于动态设备用高性能塑料(即“运动塑料”)的技术企业,igus将其多年在低成本自动化领域的技术积累,应用到整机级人形机器人的开发中。据介绍,Iggy Rob可广泛应用于工厂产线、物流运输、客户接待、场内搬运等场景,覆盖工业与服务领域的多种任务。 目前,Iggy Rob定价为47,999欧元(约40万人民币)。 一、低价背后,“塑料公司”的技术积累 Iggy Rob基于igus在低成本自动化领域的经验,采用了该公司自主研发的运动塑料组件。过去三年,igus通过以下产品逐步构建了其机器人产品体系: 2022年推出ReBeL低成本协作机械臂; 2023年发布ReBeL Hand人形机械手,并获得2024年RBR50创新奖; 2024年推出ReBeL Move低成本自主移动平台(AMR)。 igus表示:“这些技术积累促成了经济型人形机器人的诞生。” 上周,igus通过自家Axis Community平台向全球用户展示了Iggy Rob,并在机器人峰会暨博览会上公开亮相。 二、高效能、强兼容的智能工厂机器人 Iggy Rob高1.7米,单次充电可运行8小时,配备ReBeL协作机械臂、仿生手、激光雷达和3D摄像头,具备物体识别、障碍感知与路径规划能力,可在复杂、多变的工作环境中自主移动和作业。 其搭载igus自研的控制软件iRC,并支持ROS 2接口——这是一种广泛用于机器人系统中的开源通信框架,能够实现不同模块之间的协同控制与数据交换。 此外,Iggy Rob通过了欧洲CE认证,并兼容VDA 5050通信协议,可与工厂中的多品牌自动移动机器人实现统一调度与管理。 同时,Iggy Rob基于ReBeL Move自主移动平台(AMR),采用三点支撑结构,具备50公斤的自身负载能力,以及最高100公斤的有效搬运能力。这一底盘设计可无缝对接标准工厂地面与通道系统,兼顾运行稳定性与环境适应性。 三、低成本入场,助力企业智能化转型 Iggy Rob面向多样化的应用环境,适用于接待服务、物料搬运、餐厅回收等日常任务,也可用于工业内部场景。 目前,igus已在其工厂中部署Iggy Rob,用于辅助摆放注塑机的组件。 “我们的世界是为人类设计的,这为人形机器人的发展带来了巨大潜力。”igus LCA/RBTX业务部门经理Jan Hennecke表示,“Iggy Rob为企业提供了一个进入这一领域的低成本选项。” igus还推出“先试后买”计划。企业客户可先在实际场景中测试Iggy Rob,由igus专家进行适用性评估。如果试用达标,再决定是否购买。 整个方案的总成本远低于市面上同类人形机器人,后者价格通常高出两到三倍。
苹果放大招!iOS 19三大核心升级点提前揭秘
在科技界,苹果每年的WWDC开发者大会都如同一场盛大的科技狂欢,吸引着全球开发者与科技爱好者的目光,今年6月即将举行的WWDC,苹果将推出备受瞩目的iOS 19系统。爆料显示,iOS 19堪称苹果十年来变化最大的操作系统,其变化程度甚至超越iOS 7,并拥有三大核心升级点。 UI革新:视觉与体验的双重升级 iOS 19在UI设计上进行了大刀阔斧的改革,引入类似vision OS的半透明窗口,将半透明图标叠加在背景图像之上,这一设计绝非仅仅是为了追求美观,其背后蕴含着苹果对用户体验的深刻理解。 从视觉层面来看,半透明窗口的引入极大地提升了视觉深度与设计元素的层次感, 在当今这个视觉信息爆炸的时代,用户对于界面的审美要求越来越高。 iOS 19的这一设计能够让界面更加生动、立体,为用户带来全新的视觉享受,无论是浏览照片、查看信息还是使用各种应用程序,半透明窗口都能让内容与背景更好地融合,营造出一种沉浸式的视觉体验。 从用户体验角度而言,这种设计有助于让操作更简洁、导航更迅捷、学习成本更低更易上手,半透明窗口可以让用户更清晰地看到界面下方的信息,减少在不同层级界面之间切换时的困惑。 例如,当用户在使用某个应用程序时,半透明的工具栏可以同时显示下方页面的部分内容,让用户对当前操作的上下文有更清晰的了解,从而更高效地完成任务。此外,简洁的界面设计降低了新用户的学习门槛,使得更多人能够快速适应iOS 19的操作方式。 然而,UI的革新也并非一帆风顺,苹果需要在创新与传统之间找到平衡点,一方面,要确保新的UI设计能够吸引用户,满足他们对于新鲜感和个性化的需求。 另一方面,也不能过度改变用户已经熟悉的操作习惯,以免引起用户的不满,毕竟iOS系统经过多年的发展,已经形成了自己独特的操作逻辑和用户群体,苹果需要在保留iOS系统核心优势的基础上,进行有意义的创新,这无疑是一项巨大的挑战。 AI升级:开放与整合的智慧抉择 在AI领域,苹果一直有着自己的节奏和策略,去年推出Apple Intelligence时,苹果采用了双轨并行策略,核心AI功能由自研大语言模型驱动,同时将ChatGPT智能整合至Siri及写作工具之中,iOS 19将继续沿用这一策略,并引入多款第三方AI模型供用户选择。 这一举措体现了苹果在AI领域的开放态度,在当今的科技行业,AI技术发展日新月异,单一的AI模型很难满足用户多样化的需求,通过引入第三方AI模型,苹果为用户提供了更多的选择,让用户能够根据自己的喜好和需求使用不同的AI功能。 例如,谷歌Gemini在自然语言处理和图像识别等方面具有强大的能力,将其引入iOS 19可以为用户带来更丰富的AI智能体验,如更智能的语音助手、更精准的图像搜索等。 同时,开放第三方AI选项也有助于苹果提升自身的竞争力,在智能手机市场日益饱和的今天,各大厂商都在寻找差异化的竞争点。AI技术无疑是未来的发展方向之一,通过与第三方AI厂商合作,苹果可以借助外部的力量加速自身AI技术的发展,同时也能更好地应对竞争对手的挑战。 不过,开放第三方AI选项也带来了一些潜在的问题,首先是数据安全和隐私保护问题,不同的AI模型可能会收集和处理用户的不同数据,如何确保这些数据在传输和使用过程中的安全性,是苹果需要解决的重要问题。 其次,第三方AI模型的质量和稳定性参差不齐,苹果需要建立一套严格的审核机制,确保引入的AI模型能够为用户提供优质、稳定的服务,否则,一旦出现AI模型故障或数据泄露等问题,将会对苹果的品牌形象造成严重影响。 生产力提升:为折叠屏时代埋下伏笔 iOS 19在生产力方面的升级也备受关注,消息称,iOS 19将支持外接显示器,并加入了iPad OS的台前调度功能。当iPhone连接显示器时,iOS 19的台前调度功能就会被激活,用户在显示器上就能实现类似iPad OS的多任务操作,非常适合会议演示这类场景。 这一设计看似小众,实则暗藏深意,从当前的用户需求来看,随着移动办公的普及,越来越多的用户希望能够在手机上实现更高效的多任务处理,支持外接显示器和台前调度功能,可以让iPhone在办公场景中发挥更大的作用。 从苹果的未来战略布局来看,这一设计为明年的折叠屏iPhone做好了系统适配的准备,折叠屏手机被认为是未来智能手机的发展方向之一,苹果也在积极布局这一领域。 通过在iOS 19中加入台前调度功能,苹果可以提前收集用户对于多任务处理和折叠屏设备操作的需求和反馈,为折叠屏iPhone的系统优化提供依据。当折叠屏iPhone推出时,iOS系统能够更好地适配其独特的屏幕形态和操作方式,为用户带来更流畅、更高效的使用体验。 然而,要真正实现生产力的提升,苹果还需要解决一些问题,首先是硬件性能的匹配,支持外接显示器和多任务处理对手机的硬件性能提出了更高的要求,苹果需要确保iPhone的处理器、内存等硬件能够满足这些需求,避免出现卡顿、发热等问题。 其次是应用程序的适配,目前,许多应用程序可能并没有针对外接显示器和台前调度功能进行优化,苹果需要与开发者合作,推动应用程序的适配工作,让更多的应用程序能够在新的功能下发挥最佳性能。 写在最后: iOS 19的三大核心升级点,无论是UI革新、AI升级还是生产力提升,都展现了苹果在技术创新和用户体验方面的追求,对于苹果来说,iOS 19不仅仅是一个操作系统的升级,更是其在未来科技竞争中抢占先机的重要一步。 通过不断地创新和优化,苹果有望继续保持其在智能手机市场的领先地位,为用户带来更加出色的产品和服务。而对于广大用户来说,iOS 19的推出也将带来更多的惊喜和便利,让我们拭目以待6月WWDC开发者大会上iOS 19的正式亮相,看看它能否真正成为苹果史上变化最大的OS。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。