产品分类:
加载中...
头条分类:
加载中...
微信最新动态:公众号文章分享到朋友圈后,单独显示公众号名称
当微信公众号成为腾讯元宝的重要内容库后,微信对于公众号的重视程度越来越高,相对于其他内容平台,微信公众号上的“独家”内容更是为腾讯元宝增加了竞争力,得益于微信公众号的先发优势,仍旧有大量作者只在公众号上发布文章,作者在公众号上发布文章的时候可能只是为了记录、纯分享,这种“无酬的动机”让公众号在内容行业的地位愈发稳固。 据郭静的互联网圈观察,近期,微信再次增加了微信公众号的权重,用户将微信公众号文章分享到朋友圈后,在文章标题的下方会单独显示公众号名称,比如,“公众号·郭静的互联网圈”,其他微信好友可以一目了然地看到这篇文章的公众号名称,这项功能最初曾在视频号上展现,如今微信公众号也套用了这项功能。 对于公众号作者来说,朋友圈中展现公众号名称,在无形中增加了公众号的权重和影响力。自从微信公众号开始跟今日头条、百度等平台一样走个性化推荐路线后,公众号作者的影响力被不断稀释,这一点在其他内容平台体现的非常明显,哪怕你有几十万粉丝、几百万粉丝,但如果没有被平台推荐,那么你的阅读量可能非常凄惨,一切取决于算法,而不是账号本身,用户可能稀里糊涂地就订阅了某个账号,但订阅后用户发现账号的内容不是他喜欢的,这就导致打开率低,打开率越低,系统就不会进一步推荐给更多人。 与其他纯内容平台所不同的是,微信是一款IM(即时通讯)工具,除了“订阅号”这个列表外,微信朋友圈也是一个夹杂着社交、新闻资讯、短视频、直播等多元化的内容平台,在朋友圈中展示“公众号主”,明显增加了该公众号的知名度和影响力,如果同一篇文章被多位好友转发,该公众号的影响力显然也会大大提升。 过去微信好友可能看到标题后选择点不点开,但是现在有了“公众号作者”这个新的信息增量,用户可能会因为公众号作者的影响力而点开,就像互联网行业,当你看到“阑夕”、“三表龙门阵”、“罗超Pro”等公众号作者的时候,潜意识里就想点开看看。 对于用户来说,朋友圈文章展现公众号作者名称也是好事情,即用户看到其他好友分享的文章后,可以通过公众号主来评判这篇文章究竟值不值得读,这里面分几种情况: 第一,官媒账号,这种属于新闻资讯类,权重和可信度较高; 第二,行业类账号,各个垂直行业里都会有一些垂直账号; 第三,“野鸡类”账号,这种你看着公众号的名字就可能知道这篇文章是不是“水货”,很多公众号的名字起得奇奇怪怪,公众内容里各种花里胡哨的排版,整篇内容只有不知道从哪里剪辑+自我臆测的内容,只有情绪,没有信息增量,也没有靠谱信源。 这里有一个场景是:如果你看到父母或者家里年龄大的亲戚朋友们转发各种心灵鸡汤、养生类内容,可以通过公众号作者进行价值分析后提前干预,避免垃圾信息干扰他们。 当然,微信这次的更新对于官媒的价值可能会更大,当用户选择转发内容到微信朋友圈的时候,可能会更趋向于选择官媒账号。 对于公众号平台来说,它们还是希望能够激发创公众号作者的创作热情,只要作者能保持更新,平台就有利可图,一方面,是流量收益;另一方面,是腾讯元宝的内容库;还有就是用户使用时长,用户在微信上“消费”内容,其在其他平台上的时间就会减少。 那么问题来了,你会公众号作者而点开朋友圈里其他好友分享的文章吗?
GPT-4.1深夜偷袭!OpenAI掏出史上最小、最快、最便宜三大模型,百万token上下文
作者 | 程茜 编辑 | 云鹏 智东西4月15日报道,刚刚,OpenAI一口气掏出了GPT-4.1系列的三款模型,并称这是其有史以来最小、最快、最便宜的模型系列,且新模型的整体性能表现要优于GPT-4o和GPT-4o mini。 GPT-4.1系列模型包含三个模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,上下文窗口均达到100万个token,输出token数达到32768个,知识截止日期为2024年6月。OpenAI的基准测试显示,其在编码、指令遵循、长文本理解方面的得分均超过了GPT-4o和GPT-4o mini。 GPT-4.1系列模型仅通过API提供,现已对所有开发者开放。OpenAI将开始在API中弃用GPT-4.5预览版,因为GPT-4.1系列模型在许多关键能力上提供了相似性能,同时成本和延迟更低。GPT-4.5预览版将在今年7月14日关闭。 具体的性能优化集中于编码、指令遵循、长文本理解上: 编码:GPT-4.1在SWE-bench验证测试中得分54.6%,较GPT-4o提升了21.4%,较GPT-4.5提升了26.6%。 指令遵循:在Scale的衡量指令遵循能力指标的MultiChallenge基准测试中,GPT-4.1得分38.3%,较GPT-4o提升了10.5%。 长文本理解:在多模态长文本理解的Video-MME基准测试中,GPT-4.1在无字幕的长文本类别中得分72.0%,较GPT-4o提升了6.7%。 对于对延迟较为敏感的场景,OpenAI重点提到了GPT-4.1 nano,并称这是其最快、最经济的模型。GPT-4.1 nano基准测试MMLU得分为80.1%,GPQA得分为50.3%,Aider多语言编码得分为9.8%,均高于GPT-4o mini。 GPT-4.1系列模型仅通过API提供,现已对所有开发者开放。OpenAI将开始在API中弃用GPT-4.5预览版,因为GPT-4.1系列模型在许多关键能力上提供了相似性能,同时成本和延迟更低。GPT-4.5预览版将在今年7月14日关闭。 OpenAI在博客中提到,性能表现更好、更经济的GPT-4.1系列模型将为开发者构建智能系统和复杂的智能体应用开辟新的可能性。 价格方面,对于中等规模的查询,GPT-4.1的价格比GPT-4o低26%,对于重复使用相同上下文的查询,OpenAI将提示缓存折扣从之前的50%提高到了75%。最后,除了标准的每token费用之外,OpenAI不会对长上下文请求额外收费。 一、编码能力:表现优于GPT-4o,超80%用户喜欢GPT-4.1的应用 GPT-4.1在多种编码任务上的表现优于GPT-4o,包括主动解决编码任务、前端编码、减少不必要的编辑、遵循diff格式、确保工具使用的一致性等。 相比于GPT-4o,GPT-4.1可以创建功能更强大、美观度更高的Web应用,如下图所示的“闪卡”应用: 在衡量现实世界软件工程技能的指标SWE-bench Verified上,GPT-4.1完成了54.6%的任务,GPT-4o为33.2%,这说明GPT-4.1在探索代码库、完成任务以及生成既可运行又可通过测试的代码方面的能力提升。 ▲该测试中,模型会收到一个代码库和问题描述,然后其需要生成补丁来解决该问题,模型的表现会高度依赖于所使用的提示和工具。 对于希望编辑大文件的API开发者来说,GPT-4.1在多种格式下的代码差异方面更加可靠。GPT-4.1在多语言差异基准测试Aider中的得分,是GPT-4o的两倍,比GPT-4.5高出8%。 这项评估既考察模型对各种编程语言编码的能力,还有对模型在整体和差异格式下产生变化的能力。OpenAI专门训练了GPT-4.1以遵循差异格式,这使得开发者可以通过模型仅输出更改的行来节省成本和延迟,而不是重写整个文件。 此外,OpenAI将GPT-4.1的输出token限制增加到32768个,GPT-4o为16384个token,其还建议使用预测输出以减少完整文件重写的延迟。 ▲在Aider中,模型通过编辑源文件来解决Exercism的编码练习,允许重试一次。 前端编码方面,GPT-4.1能够创建功能更强大、美观度更高的Web应用。在OpenAI的对比测试中,人工评分员在80%的情况下更青睐GPT-4.1生成的网站,而非GPT-4o生成的网站。 在上述基准测试之外,GPT-4.1可以减少不必要的编辑。在OpenAI的内部评估中,代码中的不必要的编辑从GPT-4o的9%降至GPT-4.1的2%。 二、遵循指令:评估6大关键指令性能,多轮自然对话效果比GPT-4o提高10.5% OpenAI开发了一个内部评估系统,用于跟踪模型在多个维度和几个关键指令遵循类别中的性能,包括: Format following:提供指定模型响应自定义格式的指令,例如XML、YAML、Markdown等; Negative instructions:指定模型应避免的行为,例如“不要要求用户联系支持”; Ordered instructions:为模型提供一组必须按给定顺序执行的指令,例如“首先询问用户的姓名,然后询问他们的电子邮件”; Content requirements:输出包含某些信息的内容,例如“撰写营养计划时,始终包含蛋白质含量”; Ranking:以特定方式排序输出,例如“按人口数量排序”。 Overconfidence:如果请求的信息不可用或请求不属于给定类别,则指导模型说“我不知道”或类似的话。例如:“如果你不知道答案,请提供支持联系邮箱。” OpenAI的博客中提到,这些类别是根据开发者反馈得出的。在每个类别中,OpenAI将简单、中等和困难提示进行了细分,GPT-4.1在困难提示方面相对于GPT-4o有显著提升。 ▲GPT-4.1在困难提示方面表现 多轮指令遵循对开发者的重要性在于,模型需要保持对话的连贯性,并跟踪用户之前告诉它的内容。OpenAI训练GPT-4.1,以使得其能更好地从过去的对话信息中提取信息,从而实现更自然的对话。在Scale的MultiChallenge基准中,GPT-4.1比GPT-4o提高了10.5%。 ▲GPT-4.1在MultiChallenge中测试结果 在IFEval测试中,其使用具有可验证指令的提示,例如,指定内容长度或避免某些术语或格式。GPT-4.1得分达到87.4%,GPT-4o为81.0%。 ▲GPT-4.1在IFEval中测试结果 早期测试者指出,GPT-4.1可能更容易理解字面意思,因此OpenAI建议开发者可以在提示中明确具体的指令。 三、长文本理解:适合处理大型代码库、长文档,“大海捞针”也不在话下 GPT-4.1系列模型可以处理100万个token上下文,此前GPT-4o的上下文窗口为128000个。100万个token已经是整个React代码库的超过8倍之多,因此长上下文适合处理大型代码库或大量长文档。 OpenAI还对GPT-4.1模型进行了训练,使其能在长和短上下文长度中忽略干扰信息,这也是法律、编码、客户支持等多个领域的企业应用的关键能力。 博客中,OpenAI展示了GPT-4.1在上下文窗口内不同位置检索一条隐藏的少量信息(即一根 “针”)的能力,也就是“大海捞针”的能力。 ▲OpenAI内部针对GPT-4.1模型的“大海捞针”评估 其结果显示,GPT-4.1能够在所有位置以及各种上下文长度(直至长达100万个token)的情况下准确检索到这条关键信息(“针”)。无论相关细节在输入内容中的位置如何,它都能提取出与当前任务相关的细节。 在实际使用中,用户经常需要模型理解、检索多个信息片段,并理解这些片段之间的关系。为了评估这一能力,OpenAI正在开源新的评估工具:OpenAI-MRCR(多轮核心词识别)。 OpenAI-MRCR可以用来测试模型在上下文中找到和区分多个隐藏得关键信息的能力。评估包括用户和助手之间的多轮合成对话,用户要求模型写一篇关于某个主题的文章,例如或“写一篇关于岩石的博客文章”。随后,其会在整个对话上下文中插入2、4或8次相同的请求,模型需要据此检索出对应特定请求实例的回复。 在OpenAI-MRCR⁠中,模型回答的问题,会拥有2个、4个或8个分散在上下文中的相似提示词干扰项,模型需要在这些问题和用户提示之间进行消歧。 ▲在OpenAI-MRCR⁠中,模型回答问题被添加2个干扰项的评估结果 ▲在OpenAI-MRCR⁠中,模型回答问题被添加4个干扰项的评估结果 ▲在OpenAI-MRCR⁠中,模型回答问题被添加8个干扰项的评估结果 这之中的挑战就是,这些请求与上下文其余部分很相似,模型容易被细微的差异所误导。OpenAI发现,GPT-4.1在上下文长度达到128K个token时优于GPT-4o。 OpenAI还发布了用于评估多跳长上下文推理的数据集Graphwalks。这是因为,许多需要长上下文的开发者用例需要在上下文中进行多个逻辑跳跃,例如在编写代码时在多个文件之间跳转,或者在回答复杂的法律问题时交叉引用文档等。 Graphwalks需要模型跨上下文多个位置进行推理,其使用由十六进制散列组成的定向图填充上下文窗口,然后要求模型从图中的一个随机节点开始进行广度优先搜索(BFS),然后要求它返回一定深度的所有节点。 ▲Graphwalks评估结果 GPT-4.1在这个基准测试中达到了61.7%的准确率,与o1的表现相当,并且击败了GPT-4o。 除了模型性能和准确性之外,开发者还需要能够快速响应以满足用户需求的模型。OpenAI改进了推理堆栈,以减少首次token的时间,并且通过提示缓存进一步降低延迟、节省成本。 OpenAI的初步测试显示,GPT-4.1的p95首次token延迟大约为十五秒,在128000个上下文token的情况下,100万个上下文token为半分钟。GPT-4.1 mini和nano更快,如GPT-4.1 nano对于128000个输入token的查询,通常在五秒内返回第一个token。 四、多模态理解:无字幕视频答题、看图解数学题,表现均超GPT-4o 在图像理解方面,GPT-4.1 mini在图像基准测试中优于GPT-4o。 对于多模态用例,如处理长视频,长上下文性能也很重要。在Video-MME(长无字幕)中,模型根据30-60分钟长的无字幕视频回答多项选择题,GPT-4.1得分72.0%,高于GPT-4o的65.3%。 模型回答包含图表、图表、地图等问题的MMMU测试结果: 模型解决视觉数学任务的MathVista测试结果: 模型回答关于科学论文图表问题的CharXiv-Reasoning测试结果: 结语:为构建复杂智能体开辟可能性 GPT-4.1的提升与开发者日常开发的真实需求相关,从编码、指令遵循到长上下文理解,而性能表现更好、更经济的GPT-4.1系列模型为构建智能系统和复杂的智能体应用开辟了新的可能性。 未来,这或许会使得开发者将其与各类API结合使用,构建出更有用、更可靠的智能体,这些智能体可以在现实世界的软件工程、从大量文档中提取见解、以最小的人工干预解决客户请求以及其他复杂任务方面有应用的潜力。
从DeepSeek到“赤兔”:国产AI生态如何打破英伟达依赖?
编者按: 北京时间4月16日,据彭博社报道,英伟达周二在监管文件中表示,美国政府已于周一通知公司,H20芯片未来在出口至中国时需要“无限期”申请许可证。 英伟达因此预警称,公司将在本财年第一季度计入大约55亿美元的费用,这些费用与H20系列芯片相关的“库存、采购承诺及相关准备金”有关。 正如英伟达所言,进一步收紧出口限制只会强化中国摆脱美国技术依赖的决心,并将削弱美国企业的竞争力。 现在,美国政府给英伟达的心脏刺入了一把尖刀,更是给国产芯片生态发展送了一个助攻。 今年3月,凤凰网科技与专注做AI智能算力基础系统软件的公司清程极智进行了一场对话,这正是一家专注于推动国产芯片发展的公司,其最近开源的赤兔,可以帮助国产芯片更好跑满血版DeepSeek。 凤凰网科技《浪潮》出品 作者 董雨晴 在五道口的清华科技园,很容易偶遇清华系的人工智能公司,但今天,这里最忙碌的身影不再专属于基座大模型六小龙,更为显眼的是位于中间层的AI infra(基础设施)公司。 清程极智就是这样一家企业,2023年底,清华大学计算机系里的一伙人创办了清程极智,清华大学计算机系长聘教授翟季冬出任首席科学家,翟教授曾经带领清华超算团队夺得过十几个世界冠军,清程极智的核心成员也多来自于清华计算机系高性能计算研究所,CEO汤雄超即是如此。 他们是国内少有的有过十万台服务器超大规模国产算力集群使用和调优经验的团队。而大规模集群的训练和推理,是算力发展过程中最复杂的一种情况。 成立仅一年,清程极智就拿到了两轮投资,其中包括北京市人工智能产业投资基金与中科创星。中科创星曾表示,国内AI Infra市场在编译器和并行训练推理系统等核心技术软件方面尤为空缺,而清程极智是国内少有的完全掌握全栈研发能力的团队。 今年初,DeepSeek的爆火,为AI infra添了一把柴。更早就预判到推理侧需求的清程极智直接迎来了业务上的爆发。 汤雄超告诉凤凰网科技,清程极智的新增需求几乎都来自于推理侧。“我们之前是有推理算力需求快速增长这样的一些判断,但是没想象到它来得这么快,这么汹涌”。 随着整个大模型算力需求的趋势从训练侧转向推理侧,相应的硬件供给矛盾也逐渐凸显。“DeepSeek也在某种程度上拉大了国产算力与英伟达的差距”。 汤雄超认为,DeepSeek通过算法的创新突破了大规模硬件的瓶颈,这可以很好的解决当前国内算力不足的窘迫,给AI企业提供一个创新的样本。 但同时,DeepSeek的技术创新主要围绕英伟达H卡的架构,DeepSeek模型采用的FP8数据格式与英伟达H系列卡深度绑定,未来可能还会支持更新的FP4等,但目前大多数国产芯片尚没法原生支持FP8, “从这个层面看,硬件层面产品的代际差距拉大了”。如何发挥Infra层的作用,通过软硬协同,将优秀的国产大模型和国产硬件更好的协同起来,以及把市场上的闲置算力更好的用起来,是清程极智始终在思考的。 抱着这样的想法,今年初,清程极智与清华共同开源了大模型推理引擎“赤兔”,通过赤兔的部署,大部分英伟达老卡旧卡及国产芯片都可支撑DeepSeek满血版,与此同时在首期开源的版本中,对比国际主流开源推理引擎,在算力减少一半的基础上,速度还能翻番。 赤兔的出现对于国产算力而言是一股强大的驱动力,特别针对国产算力在支持DeepSeek方面是重要的催化剂,于当下而言更是恰逢其时。 一些例子已在证明。去年,算力概念火热时期,就有声音认为,市场上部分国产算力是属于空置状态。但DeepSeek的火热激活了国产算力市场。据汤雄超观察,他发现DeepSeek走红之后,此前不少闲置的算力已经运转起来。 赤兔的出现,更是对国产算力的重大利好。短期来看,它实现了 DeepSeek FP8 精度模型在存量GPU 上的无损且高效部署。长期来看,赤兔的开源是国产大模型、国产算力和国产引擎闭环形成中的必要一环。 在这个特别的时期,凤凰网科技《浪潮》与清程极智CEO汤雄超进行了一场对话,聊了聊他对于DeepSeek爆火之后,国产生态变化的思考,以下是对话全文,经编辑发布: 谈推理侧需求的爆发:闲置的算力都用起来了 凤凰网科技:你们最近一两个月在忙着做什么? 汤雄超:变化主要在业务精力的调整上。我们是做AI智能算力基础系统软件的,业务精力的投入力度显然也是跟市场上算力需求的变化是相匹配的。去年其实大部分的算力需求是来自于预训练这一侧,包括非常多的像英伟达、不同厂商的国产卡,千卡集群、万卡集群、异构集群上做预训练,优化他们的训练性能,加速降本。 去年我们也有在做推理的一些工作,我们和燧原科技一起做的高吞吐推理一体机拿了不少奖项,在多模态方面,我们去年是跟生数科技联合优化,对于图片生成有接近5倍的提速。但是相对来说,去年推理侧的算力需求相对于预训练侧来说是比较小的,今年DeepSeek走红之后,我们感觉到的最大的一个变化,就是推理算力的占比有一个非常大的提升。 凤凰网科技:大概是一个什么样的比例变化? 汤雄超:现在我们新增的业务基本上都来自于推理侧。其实我们之前是有这样的一些判断,但是我们没有想象到它来得这么快,这么汹涌。去年底的时候,OpenAI的o1发布了之后,其实大家也都能感觉到推理算力的占比一定是会提升的,但是当时的话,OpenAI还是遥遥领先。开源的话其实之前一直也主要以Llama和千问这种传统的大模型为主,但是DeepSeek R1的出现确实很惊艳,我们也看到随着而来整个推理算力,包括推理方面的需求都变得非常多。 凤凰网科技:我记得你去年其实就说过,部署一体机可能还是应该专注于推理侧。 汤雄超:其实现在回过头来看,我们现在正在做的就是当初的判断,比如当初判断推理算力将有大规模爆发,随之带来的大模型私有化部署需求等也是我们正在忙碌的事。而且我们也看到,现在推理跟训练有一些趋同的地方在于大家都会逐渐形成对集群算力有需求的状态。以前推理市场更多是独自的分散需求现在也需要一个集群。但是确实从所需要的芯片能力来说,训练侧对计算能力可能要求还是更高一些 凤凰网科技:推理算力需求的爆发也随之带来了国产算力的爆发吗? 汤雄超:两个方面来说,一方面随着大模型私有化部署需求的增加,我们会看到一些以前的闲置算力确实正在被消化。 但另一方面我们也可以看到DeepSeek拉大了国产算力和英伟达的差距。有一种声音是认为DeepSeek的出现是缩小了国产算力和英伟达之间的差距,我认为这种说法也没错,因为在超大规模预训练集群的场景下,国产算力和英伟达的差距非常大,系统稳定性、可用性、芯片出货量等等都是问题;现在DeepSeek破除了对超大规模预训练集群的依赖,让更多的算力需求转向推理侧,相当于降低了使用国产算力替代方案的难度。 但是我们单纯从推理侧来说的话,其实DeepSeek的出现更加拉大了国产算力跟英伟达的差距。虽然大家也看到DeepSeek开源了非常多的东西,但他们的一些技术创新更多是跟英伟达 H卡架构的卡绑定的,很多优化无法直接复制到国产算力上。 DeepSeek满血版本身是FP8原生训练的,但目前几乎所有的国产卡都不支持FP8的计算,如果要部署DeepSeek满血版,需要把FP8转换成其它数据格式,这样有时会导致显存占用大,用起来非常卡,有时会使模型精度受损,推理的效果不尽人意,那这样的话大家用国产卡的意愿又没有那么高了,同时未来英伟达会支持FP4等新的数据类型,现在的差距在未来有可能进一步加大,从这个角度上来说,DeepSeek的出现让这个差距显得更加明显。 我们前段时间开源了赤兔,因为我们觉得DeepSeek几乎是一个我们在开源社区能拿到的最好的模型,但是它跟非常难获得的硬件是深度绑定的,大家利用现有的硬件条件把它充分利用起来还是有很高的门槛,因此我们开源了赤兔推理引擎,让市场上的英伟达的大部分老卡旧卡以及国产芯片,支持FP8计算模型的推理,同时又做了一些优化助力计算效率的提升,使得不仅用的起来,还比原来便宜,速度也更快。 谈赤兔开源:给国产芯片送助攻 凤凰网科技:赤兔的开源对行业来说价值不小,你们当时为什么直接选择了开源? 汤雄超:我们本身是一个商业公司,但是我们觉得开源赤兔推理引擎或者开源这件事本身跟我们获得商业上的收益并不是冲突的。第一我们觉得赤兔的技术方案确实非常的有价值,是可以给整个国产AI行业的生态带来正向影响的,我们也非常愿意和大家能够共享这样一个技术的进步,从另外一个方面,从商业上的角度来考虑的话,我们的价值肯定是多维的?说个最简单的例子,虽然赤兔是开源的,但是需要基于赤兔进行部署,需要运维,而我们本身是最懂赤兔的。 更长期的角度上来说,比如都是支持原生FP8的推理训练,但实际上我们也可以提供不同性能水平的算子的实现,能够通过软硬协同更广泛的提升国产AI芯片的性能。但是从更本质的角度来说,我们在创立之初就是希望能够促进国产生态的发展,我们也相信算力国产化是大趋势,所以我觉得像这种比较有意义的事情,还是比较愿意开源出来,让大家一起来分享idea。 凤凰网科技:你刚才说原来大家浪费的算力已经被用起来了,能不能举个例子? 汤雄超:我们了解到的是,有很多库存的国产算力,可能本来囤在一些算力中心里面,但在春节后陆陆续续的全都跑起来了。之前有很多的算力是不太好用起来的,甚至就处于一个关机的状态,今年确实我们想租,他们说已经租完了,没有了。 凤凰网科技:之前听说很多大厂本来都有自己开发的卡,但是自己的大模型也没有用自己的卡,为什么没用起来? 汤雄超:也不能说完全没有用起来,可能就是相对用的比例没有那么的高,因为我觉得主要还是英伟达的卡设计的水平,所能获得的全球最先进的产能,以及多年以来维持的生态上的优势,使得业务部门在有选择的情况下,还是会倾向于用比较简单易用的、性价比高的英伟达的卡。 凤凰网科技:所以这可能对国产算力的发展也是个阻碍。 汤雄超:我对国产芯片长期发展之后的性价比优势是比较有信心的。因为从长期的角度来看,从过往的经验来看,我觉得国产的东西在性价比上面卷赢国外没有什么大的问题,但肯定是需要有一个发展的过程。 凤凰网科技:今年对国产算力,会有一个比较明显的曲线变化吗? 汤雄超:我觉得受太多因素的影响,我很难去评估什么时候会发生一个变化。首先国内的芯片设计水平肯定是在持续的发展,包括我们合作了这么多家芯片公司,也感觉到大家新一代的芯片都会比老一代的有一个非常大的提升。 但我觉得可能会有很多偶然因素在里面。另外在软件生态上的话,我觉得也是看大家生态共建的水平怎么样,这本身也是我们把赤兔开源出来,希望大家一起来做的事情。 凤凰网科技:你们现在觉得哪些国产芯片的表现比较好? 汤雄超:如果我们看的话,去年也有一些国产芯片公司,已经开始走IPO的流程了,这些其实就相对来说,是比较成熟的,已经迭代了好几个版本。芯片行业的话,虽然大家在做设计的时候都会考虑到很多,但确实有很多问题是要在使用中,在社区里面才会有反馈的,就包括我们在2010 年左右的时候,清华实验室这边就在搞英伟达CUDA的这些东西,其实那个时候也感觉各种问题。因为之前大家都是在英特尔 X86 上面做,英特尔的东西已经很成熟了,一做CUDA就发现适配性不好,自己也不习惯,一度感觉也没那么好用。但是过了几年之后,等到 2015 年的时候再想在CUDA上面去找一些它的缺陷就比较困难了。到现在的话实际相对来说CUDA生态也都变成一个很成熟的生态,所以我觉得这些其实都是要有一个发展的过程。 谈AI创企的发展:大模型跑起来只是第一步,还有很多问题没解决 凤凰网科技:你们在成立之初 “助力国产化”“大规模集群训练”等标签让人印象深刻,现在公司发展了一年多,你认为这些代表你们的标签有变化吗? 汤雄超:我们之所以给别人留下了这个印象,只是说我们的技术特长和既往的项目经验,在国产化方面积累是非常深的,特别是在大规模集群的训练方面。我们当时成立公司的时候,其实主要考虑到我们自身的团队基因或者说背景,我们有非常强的并行计算方面的,以及像这种芯片架构适配方面的优势。因为我们过去做高性能计算,10年前就遇到过今天芯片行业的问题,今天AI领域发生的一切,我们都非常熟悉。但是通过一些软硬件的协同设计,做一些比较好的软件实现的话,还是能够把国产算力充分发挥起来的。本身如果从性价比的角度去看,我们会发现这种国外最先进的算力,是有高溢价的,如果真的愿意在软件上面去做一些工作的话,其实最终国产的算力方案未必就不如国外的。 AI的发展肯定对算力的需求是越来越大的,首先,模型越来越大,AI的渗透率也会越来越高,另外从长期来看的话,可能会更多的转向一个自主可控的国产算力趋势。两个明确的大方向下,我们觉得做这样的一个公司,就是非常正确的事情。 凤凰网科技:你觉得大模型的数据可能会越来越大,但现在各家可能已经不再去刻意卷参数了,甚至是不做预训练了? 汤雄超:我们现在看到的是说预训练的玩家可能会进一步的减少。就是可能有一些实力特别强的,还是会坚持去做预训练,对于更多玩家来说,他可能觉得我自己做预训练,不如等着这些寡头来推出新的开源模型,像前段时间DeepSeek又发了V3的更新版,阿里的千问,其实更新都挺快的,所以对于很多参与者来说,自己做预训练可能就不如等一下这些技术寡头再给大家发一个新的福利。 凤凰网科技:所以六小龙可能得换条路走? 汤雄超:我觉得对于更多新玩家来说,如果是做这种基于公开数据集的预训练的话,一个是贵,一个是感觉还不如等大厂发,另外一个角度上,对于一些做垂域大模型的公司来说,他可以深入到不同行业里面去,针对这些行业私有数据去做微调,做这种后训练。这块也比较有市场,因为我们确实看到通用大模型也不是全知全能的,肯定也需要获得一些行业的特有知识,才能够在垂类里面有更好的表现。 凤凰网科技:你们现在做哪些类型的需求多一些? 汤雄超:其实都会有,我们现在更偏向于做这种本地化部署的业务,因为我刚刚说推理业务,其实你可以简单分成,云上的MaaS和线下本地化部署。本地化部署的话,显然大家一说就觉得像政企肯定会有很多这种强的数据安全的合规需求。其实也有很多我们所谓的这种私企或者民营企业,其实他们也会有比较强的数据安全的要求,比如说金融行业或者法律行业。 我们觉得DeepSeek对大家有一个启蒙的作用,让大家意识到用大模型是大势所趋了。或者说之前我觉得大模型更多是c端的在玩,现在就是强调了私有化部署,大家都会自问我的企业是不是真的要把大模型用起来了,所以现在不管是咨询的还是真实迫切需要部署的,真的还挺多的。 凤凰网科技:您说到清程更偏向于做这种本地化部署的业务,现在市场上对MaaS也有一些不同的声音,您如何看待MaaS? 汤雄超:首先关于MaaS的需求是真实存在的,大家都是有共识的,就包括我自己也会调API来做一些开发,因为确实调云上API比自己部署要稍微简单。 但是大家讨论比较多的是,有人用产品,但是你做产品也要有成本,那在商业上是不是盈利的?我觉得其实因素会非常的多,比如说算力的成本,产品的调用量,包括客户付费的这种意愿等等,我觉得这些平时都比较复杂,而且这几个因素本身不是固定不变的。 我们也有MaaS,也有一些客户,他可能在私有化部署的时候,就是不想买硬件。如果我先租的话,先云上部署的话,先试试东西是不是真的有用,然后之后再说,我觉得很多东西的存在价值肯定是多维的。 所以我是觉得MaaS能不能盈利的话,其实可能会要用发展的眼光去看待,并不能一概而论。首先算力成本是不是会持续的下降?因为按照以前我们所熟知的这种摩尔定律来说,其实算力成本就是会逐年下降的。第二点是模型的能力,或者说同样尺寸的模型能提供的能力是不是能够持续的增长?我现在需要671B的模型,提供了一个表现,是不是过两年之后我只要100B的模型就可以了?另外就是客户付费的意愿,现在如果是单纯的聊天,我肯定不愿意付很多钱,但是如果他未来帮我承接了很多很有价值的业务,那可能我付费的能力就提升了,比如现在收费标准是100万token16块钱,未来如果是高价值业务的话,可以提高价格啊。 凤凰网科技:目前本地化部署这块业务,清程的研发压力会在哪些方面? 汤雄超:主要还是看我们追求一个什么样的目标,因为本身我们是想向业界提供更加灵活的算力底座,包括支持不同架构的算力芯片。除了英伟达的这种旗舰的显卡之外,也会支持一些老一点的型号,或者是一些国产GPU卡。因为有很多企业其实它也是先从低门槛的入手开始,会慢慢的扩大,所以我们会希望说算力底座是有弹性可伸缩的,你一开始不太好说直接批一个200万的预算来买东西,而是买一个比如说几万、十几万的这种小的机器,上面可能就插了一两张卡,等到有预算的时候,就补到8卡的一台机器。 其实这两点也是我们前段时间跟清华联合发布开源赤兔引擎时提到的,我们会专注于做灵活的部署方案跟多元化的算力底座的支持,但是要支持这两个特性的话,确实会给研发带来一些额外的量。 凤凰网科技:比如说哪些额外的工作量? 汤雄超:如果我只针对英伟达的H20来做,那我就只做一款芯片,但如果说我要支持更多的底层算力芯片的话,我需要考虑不同芯片的特性。从另外一个角度来说,虽然这么做短期内会难一些,但是我们还是会往这个方向去。这一方面还是刚刚提到,我们从公司成立之初,就觉得长期的国产化趋势是比较明确的。从另外一个角度来说,我们的AI行业肯定不可能一直受制于人,你现在觉得H卡好用,但是明天就传来说H20也要禁售,然后就一波涨价,当然后来也没有禁售(编者注:本次对话发生于3月中下旬)。对我们来说就相当于算力底座是不可靠的,肯定不是一个好消息。为了能够满足这种不同芯片架构的适配,其实我们也有一些这种自动化的代码生成的手段来加速这样一个研发的过程,就包括其实去年我们一直在公开场合说,我们主要是三块产品,一块是大规模的训练系统,一块是高性能推理引擎,还有一个就是智能编译器,可以去做一些自动化的高性能代码生成,这样就可以减少一些算子开发的人力,加快我们的研发过程。 不过即使加速了也还是会有一些额外的压力,但是我们觉得事情是值得做的,就包括我们前段时间开源赤兔,在英伟达平台上可能只是一件锦上添花的事情,但是对国产算力来说,它就是成本降一半的一个非常有价值的事情。所以我们研发团队做完了之后,确实也比较有成就感,大家其实也都挺开心的。 凤凰网科技:你们现在人才方面的压力会比较大吗? 汤雄超:压力挺大的,我们的技术门槛确实比较高。但我们公司还是保持严选状态,除了技术上的能力,更多看重人才对我们团队文化的认同。 凤凰网科技:你们现在更需要哪些方面的人才? 汤雄超:因为我们会持续的去做好推理引擎,AI系统层面的人才是我们一直关注的。另外因为 AI 应用落地的速度可能会加快,所以了解上层具体场景的解决方案的同学,我们最近也聊的比较多。大模型跑起来本身只是 AI 应用的第一步,一个基础的聊天窗口,它能解决一些问题,但是也有很多问题它不太好解决。最典型的,几乎所有的企业都想要一个知识库,都想要有一个智能问答机器人,那其实不是说有一个 API就结束了,我还是要去做一些事情。可能是通过微调的方式,或者通过一些别的方式,才能满足千行百业的实际需求。 本文为凤凰网科技原创内容,如若转载、引用,请注明出处,侵权必究。 若您有相关线索,欢迎联络,一经采用,将支付相应报酬。 线索投稿邮箱:tech@ifeng.com 线索投稿微博:凤凰网科技 或直接在公众号后台联络。
AI破解50年未解数学!南大校友用OpenAI模型完成非平凡数学证明
编辑:Aeneas KingHZ 【新智元导读】AI辅助人类,完成了首个非平凡研究数学证明,破解了50年未解的数学难题!在南大校友的研究中,这个难题中q=3的情况,由o3-mini-high给出了精确解。 就在刚刚,AI完成了首个非平凡研究数学证明! 完成这项研究的,是美国纽约布鲁克海文国家实验室凝聚态物理与材料科学分部的一位华人学者Weiguo Yin。 在这项研究中,作者在一维J_1-J_2 q态Potts模型,通过引入最大对称子空间(MSS)方法,对其精确求解。 具体来说,作者将q^2×q^2的传递矩阵进行块对角化。 而q=3的情况,正是基于OpenAI的最新推理模型o3-mini-high来精确求解的。 在AI的帮助下,研究者成功证明,模型可以映射为一维q态Potts模型,其中J_2作为最近邻相互作用,J_1则作为有效的磁场,这一结果扩展了之前在q=2,即Ising模型的证明。 注意,这个问题,在数学界有50年没有解决。 论文引用了关于J_1−J_2伊辛模型(即q=2的Potts模型)的工作,这些工作可以追溯到1969年和1970年。 而o3-mini-high帮忙完成的这项证明,为众多悬而未决的物理问题(层状材料中原子或电子顺序堆叠的问题,以及非常规超导体中常见的T_c-拱形相的形成等),提供了全新的见解。 AI模型在科学研究中的巨大潜力,也再一次被证实! Weiguo于2004年加入布鲁克海文国家实验室担任研究员,并于2006年晋升为助理物理学家,2008年晋升为副物理学家,2011年晋升为物理学家。 他的专长在于结合第一性原理、有效哈密顿量和机器学习方法,研究强关联体系、挫败磁性、超导性、多铁性、混合的3d-5d化合物、拓扑材料和非平衡态。 1998年,他获得南京大学的博士学位,并荣获2000年国家优秀博士学位论文奖。 五十年未解的数学难题,被AI解决了 在凝聚态物理、材料科学、量子信息学和微电子学等研究领域中,发现新的相和相变是一个核心挑战。 挫败磁体中存在许多不寻常的相,这些磁体通常用伊辛模型(Ising model)或量子海森堡模型(quantum Heisenberg model)来描述。 统计力学的第三个基本模型是q状态Potts模型。 它是伊辛模型(q=2)的推广,可以作为研究从离散(伊辛)对称性到连续(海森堡)对称性转变的有效中介。 特别是,一维J_1-J_2 Potts模型可能与众多问题相关,这些问题涵盖了从层状材料中原子或电子有序的面外堆叠,如1T-TaS_2 中的「大卫之星」电荷密度波,到每个时间步都有多种选择的时间序列问题,如乒乓球训练设计。 1T-TaS2中的「大卫之星」电荷密度波相关论文插图 一维J_1-J_2 Potts模型 尽管一维和二维的J_1-J_2伊辛模型和海森堡模型已被广泛研究,但只有一维J_1-J_2伊辛模型通过转移矩阵法得到了精确解。 对于一维J_1-J_2 Potts模型,至今仍没有精确的解析解。 因为当q=3时,该模型已经展现出与q=2(即伊辛模型)不同的基态相行为(见下图),因此精确求解任意q的模型具有基础性的重要性。 伊辛模型:不同的基态相行为 挑战在于转移矩阵的阶数迅速增加,阶数为q^2。 可想而知,q=3时的9×9矩阵已经很难进行解析求解,而q=10^10时的10^10×10^10矩阵,即使是数值计算也无能为力。 先前的研究将任务转化为数值计算有效的q×q矩阵,采用整数q形式的转移矩阵法,或连续q形式的转移矩阵。 尽管物理学的透明度较低,但仍然无法得到精确的解析结果。 因此,对于一维J_1-J_2 Potts模型,至今仍然缺乏其中丰富相行为的直观理解。 OpenAI o3-mini的创举:非平凡证明 最近的两个发展为这一长期未解问题提供了新的视角。 第一个发展是通过基于对称性的块对角化,将装饰伊辛梯形的4×4转移矩阵简化为有效的2×2矩阵。 这些发现为一维挫败Potts模型找到精确解,可能成为这一重要新方向的里程碑。 第二个发展是OpenAI最新的推理模型o3-mini-high,推导出了一个优雅的方程,在外部磁场下,可以确定装饰伊辛模型中UNPC的临界温度。 因此,作者受到启发,逐步提示AI推理模型,去处理整数q形式的转移矩阵。 尽管AI的回答中有不少错误,针对q=3的情况,最终找到了一种基于对称性的块对角化方法,可以将一维J_1-J_2三状态Potts模型的9×9转移矩阵解析地简化为有效的2×2矩阵。 对于一般的q,关键的对称性是q个Potts状态的全排列对称性。 换句话说,哈密顿量(因此在整数q形式中的转移矩阵)在任何对标签{1,2,3,...,q}的排列下都是不变的;它的对称群是Sq。 虽然AI未能进一步推进,但警告说随着q的增大,排列的数量急剧增加。 然而,q=2和q=3的精确结果,特别是两者都归结为2×2矩阵,启发了作者: 由于在热力学极限下只有转移矩阵的最大特征值(λ)才重要,因此任务简化为识别包含λ的对称分离子空间。 随后,作者发现这个子空间由两个最大对称向量张成,因为所有转移矩阵元素都是正的,这使得最终得到了一个解析的2×2矩阵。 因此,任意q的一维J_1-J_2 Potts模型的精确解,就这样被找到了,而且过程出奇的简单! o3-mini-high具体起了什么作用 下面我们就来看看,o3-mini-high是如何在这项研究中推导出关键方程,对q=3的情况精确求解,从而确定了装饰伊辛模型中UNPC的临界温度的。 首先,o3-mini-high证明,根据其知识,1D J_1-J_2 Potts模型尚未被精确求解。 接着,模型被提示使用1D J_1-J_2三态Potts模型的之字形梯形版本。 在这种情况下,AI正确地给出了以下哈密顿量表达式: 随后,AI正确地生成了以下传递矩阵的表达式。 其中,(a, b)是由一对自旋组成的「梯级」状态,(a', b')是邻近梯级状态。 假设一组梯级状态按以下顺序排列:(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)。 若使用简写符号,则传递矩阵可以明确地表达为如下形式。 对于上面这个T'矩阵,AI被提示说,一定要确保 ,从而纠正它的错误,并且识别出S_3的对称群。 然后,AI被提示将T'进行块对角化。 它发现,T'可以通过变换下列这个矩阵来进行块对角化,从而得到 。 因此,得到的块对角化传递矩阵的前2×2块由 给出,其较大的特征值是λ,即传递矩阵T'的最大特征值。 最后,AI被提示生成上述对话的原生Wolfram Mathematica 14.2代码。 这个任务在几秒钟内就完成了,几乎不需要修正。 然而,AI却未能生成适用于一般q的可用Mathematica代码。 相反,它警告说,随着q的增加,S_q对称群中的排列数会急剧增加。 当被进一步要求时,AI创建了一些假Mathematica函数,并表示「这些函数可能值得实现」。 五十年数学难题的精确解 考虑以下哈密顿量[图1(a)]: 为了构建转移矩阵,研究者使用了重叠对的形式化方法来处理方程(1),每个单位格有一个自旋,得到转移矩阵T。 同时使用该模型的等效锯齿梯形表示,其中每个单位格有两个自旋来获得T′。 而且要满足T′=T^2。 在热力学极限N→∞时,配分函数为 其中λ是转移矩阵T的最大特征值。 每个自旋的自由能由下式给出: 其中,β=1/(k_BT),T是绝对温度,k_B是玻尔兹曼常数。 由此得到的变换矩阵是一个q^2×2矩阵,它将q^2×q转移矩阵T投影到与其余部分解耦的2×2块矩阵T_2,并且该矩阵由于不同的对称性,得到如下方程4: 需要注意的是,最大对称子空间意味着u、v和w的表达式可以通过组合分析直接得到。 转移矩阵T的最大特征值是T_2的较大特征值,为 方程(4)的简洁性为理解一维J_1-J_2 Potts模型中的丰富相行为提供了直观的视角。 图1:(a)单链J_1−J_2 Potts模型的示意图和(b)其等效的锯齿梯形表示。图中的小球代表具有q个状态的自旋。橙色的键表示最近邻相互作用J_1,绿色的键表示次近邻相互作用J_2 Potts模型的历史性进展 为了深入理解这些丰富的相图,首先分析基态的相行为。 在T=0时,对于所有q值,一维J_1-J_2 Potts模型有三个相,这些相由两个临界点(CPs)分开,这些临界点由方程(4)中u、w、v的相对大小决定。 对于q=2(即伊辛模型),与q≥3情况有两个方面的不同: (1)q=2的两个临界点是对称相关的,位于J_1=±2,而对于q≥3,它们位于J_1=0和J_1=2。 (2)对于q=2,三个相没有宏观的简并性,而对于q≥3,存在一个或两个具有残余熵的非平凡状态。 图3总结了左侧和中间相以及两个临界点(CPs)残余熵的q依赖关系。 对于小的q,临界点的残余熵(虚线)明显大于相邻相的残余熵(实线)。 因此,每个临界点在J_1−T相图中随着温度升高发展出V形区域(图2左,q=2,3,4)。 两个临界点的V形区域汇聚在一起,形成一个类似T_c圆顶的区域,代表q≥3的中间随机二聚化相。 当系统靠近临界点时,它并不遵循常规的现象——即转变到具有更高宏观简并性的相,而是转变到临界点发展的V形区域,这也在熵的T曲线中表现为平坦区域(图2右q=2,3,4),此时熵值等于对应临界点的残余熵。 图2:q=2,3,4和10^6的相图 图2左:在J_1−T平面上,归一化熵2S(J_1,T)/ln(q)的密度图。 图2右:在临界点附近,选定J_1值的2S(J_1,T)/ln(q)的温度依赖性。−J_2=1被设定为能量单位。 另一方面,图3显示,对于大的q,临界点的残余熵(虚线)趋近于其相邻相的残余熵(实线),最终变得无法区分——不再有V形的临界点区域(图2左,q=10^6)。 图3:对于q≥3,在J_1的四个不同区域下,零温度归一化熵2S(J_1,0)/ln⁡q的依赖关系 当系统靠近相边界时,它似乎遵循常规的现象,即转变到具有更高宏观简并性的相。 特别是,当J_1>2时,低温铁磁相将经历一个两步的相交叉:首先转变到中间的随机二聚化相,然后转变到左侧的顺磁相。 Tc圆顶是非常规超导性(如铜氧化物、铁基超导体、扭曲双层石墨烯等)中的一个关键现象。 它已被解释为(i)一种预形成的有序状态,随着相位相干性的逐渐建立,或(ii)两种竞争相的结果。 目前通过q依赖性出现和消失的类似圆顶的结构,这一结构由相的两个临界点的残余熵的相对强度控制,为形成圆顶形相提供了另一种可能性。 AI辅助科学研究,潜力巨大 总而言之,用简单的话概括就是,一维J_1-J_2 q状态Potts模型得到了精确解,其中的关键在于发现q^2×q^2转移矩阵的最大特征值位于一个2×2的最大对称子空间。 而且维J_1-J_2 q状态Potts模型被证明与一维q状态Potts模型等价,其中J_2充当最近邻(NN)相互作用,J_1充当磁场。 模型的基态被发现包含三个相,这些相由两个临界点分开,对于所有q值均如此。 两个临界点的残余熵的相对强度,随着q变大而变大。 对于小q和大q出现和消失的类似圆顶的随机二聚化相,新研究提供了一种新的形成圆顶形相的机制。 而这项研究之所以能完成,都是基于o3-mini-high精确解决了q=3的情况。 这也提示我们,AI提供的广泛信息中,能给研究者提供充分的洞察和激励,尽管它的结论可能并不完美。 就在最近,诺奖得主、GoogleDeepMind CEO Demis Hassabis 评论AlphaFold时这样表示:通过AI,人类现在可以在一年内完成10亿年的博士研究时间。 可以想见,未来AI辅助做出的科研突破还将层出不穷。
这个时代最聪明的模型,数学考试也拿不了1分?
每当有人问我AI是不是比人聪明的时候,我只用一句话他就会闭嘴。 那就是,9.11和9.9哪个大? 自打去年有网友发现比大小这个bug以来,这一个人类可以一眼定真的问题,对AI来说那就跟送命题一样,比女朋友问我跟你妈掉水里先救谁还难回答。 所以每次有新AI出现都会被网友们拿这个问题测试一遍,到现在2025年都要过去1/3了,还是有AI做不对。 不过,要理解AI为啥数学上犯傻,咱还是得站到ai的角度上来聊。 当你告诉AI“9.11和9.9哪个大?”这句话的时候,它的眼中并没有数字,而是一个个碎片化的词。 比如“9.11”会被拆成[token_9, token_dot, token_11],而“9.9”则会被拆成[token_9, token_dot, token_9]。 也就是说,这俩数对AI而言一开始就没有大小之分,而是一堆Tokens 。所以当你提问以后, AI的第一反应是要明白,这里的9.11是个啥? 众所周知,AI嘴里的所有内容,全都靠从网上的各种信息里学,而 “ 这个网络 ” 是程序员们“创造的”,所以当AI学多了这些语料后,脑子也就变成人家的形状了。 所以再看到9.11和9.9时,AI可能就压根没把这俩数当成数学里的小数比大小,而是字符串、版本号,甚至可能是飞机撞双子塔,和撞塔的前天。 再加上现在的AI都引入了注意力机制,所以系统一开始就过度注意了可能象征着日期、字符串、版本号的token_11,而不是把9.11这个数字当成整体。 于是AI完事儿把这两堆Tokens拉一块儿做比较: “9”=“9”,“.” =“.” , “11”>“9” ,破案了,9.11大于9.9。 有差友可能就要问了,像OpenAI-o1这些推理大模型,不是都号称能做奥数题吗,那人家怎么就能搞明白这些数学? 该说不说,那还真不一定。 本月初的一篇来自INSAIT 、苏黎世联邦理工学院(ETH Zurich)等顶尖机构的论文研究显示,这些号称能做对奥数题的大模型绝大部分做的都是算术填空题。 当研究人员把题库换成论述解答题以后,发现从 DeepSeek-R1 到 OpenAI-o1pro ,甚至新出的Claude3.7都只能拿到零点几分(满分7分)。。。 从这帮大模型的翻车记录中,研究人员发现目前这些推理大模型也是一个比一个抽象。 比如在一道几何证明题里,所有模型都幻想出了不同的假定理,然后用假定理去硬解题,最后做出来的也就是全错的。 像o3-mini就直接假设一个点位于特定圆外部,但实际上那个点应该在里面,于是后面模型利用切线做的论证就全错了。 而gemini-2.5-pro更离谱,它在论述过程里写了个表情,然后把表情当成参考文献去证明了。。。 虽然这可能是因为模型的随机性,但更无语的是这些大模型往往相当固执。 即使你告诉它这里是错的,它还是不会跳出原先的思维定式,老是在一棵树上吊死。 而在所有失败分布中,有将近一半的原因都是因为推理逻辑错误。没错,这些号称推理的大模型,真到了纯推理的时候就会翻车。。。 比如在一个要证明所有数据都满足某个性质的问题中,Claude 3.7模型只证明了一个,就直接说所有的都符合这个性质,中间没有任何归纳、推广的步骤,就纯嘴硬。 也就是说,这些推理大模型看上去能分析这那的,但实际上不具备真正深度思考的能力,当然这是因为Transformer的问题,也是大语言模型的通病。 对Transformer模型来说,它实际上是通过tokens之间的概率,权重来输出对应的文字符号,它操作的是符号的统计关联,是在预测“给定前面的符号,后面跟哪个符号的可能性更大”,而不是在理解和执行抽象的数学公理。 所以在论文最后,研究人员总结说:当前的LLMs不足以完成严格的数学推理任务,这凸显了推理和证明生成能力需要大幅改进。 也就是说,AI确实擅长模仿(Mimicry),但它和真正的理解(Understanding)与创造(Creation)还相当遥远,AI到目前也还不具备像人类一样,对数学的思考和认知能力。 但要从更本质上讲,AI的数学缺陷其实是因为符号与理解的割裂。 虽然它能学会跟你对答如流,但这只是照搬语言的模式,而这种模式跟精确的数学逻辑不是一回事儿,人类语言本身就充满歧义。 维特根斯坦说,“语言的边界意味着世界的边界”。对我们人类而言,数字并不是是眼前的黑白符号,“9”就是九个苹果,“0.11米”就是尺子上那段你量出的长度,这些概念全部来自你和世界的互动。 而语言却无法描述这些经历到底有多丰富,就像AI永远弄不明白,她的“爱过”两个字,会让你的心有多痛。 前几个月deepseek大火的时候,有人问deepseek如果变成人,最想做什么?deepseek说它想去经历暴雨、去熬夜读书、去经历失恋,甚至承认自己会犯错。 实际上,这恰恰就是AI越来越强的现在,你和我作为人类存在的价值。 生命的意义不是要你成为一台不会出错的机器,而是全然地投入这场有笑有泪、有成有败、充满不确定的旅程。正是这些看似平平无奇还不完美的经历,构成了人的一生:丰富、复杂、充满体验而不断变化。 所以下一次,当你轻松地判断出9.9大于9.11时,不妨停顿一下,感受这中理所当然背后作为人类的深刻与幸运。 毕竟在这浩瀚宇宙中,能够思考、能够感受、能去爱,去体验生活本身,就是我们存在的奇迹。
高德红绿灯AI领航全国上线 从“看灯”到“听AI建议”
凤凰网科技讯(作者/于雷) 4月16日,高德地图今日宣布,其红绿灯AI领航功能已在全国范围内上线。从传统的“单眼观察”升级到“全局思考”,为用户带来更加智能化的出行体验。 红绿灯AI领航功能的核心在于其超视距感知能力,能够实时感知车道级的交通流变化和动态交通事件。通过数字化和AI技术体系,高德地图推演出红绿灯场景下的最优驾驶决策,并将其成功落地为全新的“黑科技”,让“一路绿灯”成为可能。 该功能覆盖了五大场景,包括过灯引导、起步提醒、最短车道建议、长红短绿预报和受阻车道提醒。在过灯引导场景中,红绿灯AI领航不仅会播报过灯、等灯和对应驾驶建议,还会在APP界面上显示收益。起步提醒功能则会提醒驾驶员及时起步,并根据过灯概率播报通行预测和驾驶建议。 在最短车道建议场景中,红绿灯AI领航会智能分析各车道车流,并播报车道建议。面对长红短绿灯,系统会播报“前方长红灯,将等灯XX秒”,并在导航画面上同步显示倒计时气泡,让驾驶员等灯时也能心中有数。在复合车道下,受阻车道提醒功能会提前告知前方其他方向有转向车辆,辅助驾驶员做好决策。 高德地图表示,红绿灯AI领航功能的上线,是其算力更广范应用的重要体现。通过这一功能,高德地图希望为用户提供更加智能、便捷的出行体验,真正实现从传统导航到智能出行伙伴的蜕变。
掌阅iReader Ocean 4 Turbo 2025新款电纸书发布
掌阅旗下的iReader品牌近期推出了新款电纸书Ocean 4 Turbo 2025,这款产品于3月25日正式发布。它采用了一块Carta1300黑白墨水屏面板,起售价为1599元。 目前,在某知名电商平台可以领取一张30元的优惠券,并且大部分地区还能叠加享受8.5折的国家补贴政策,最终到手价为1333元。如果用户在收货后进行晒单,还能额外获得一张价值30元的E卡,这意味着实际支付仅为1303元。而从20:00开始,该平台的PLUS会员还可领取一张满500减40的优惠券,这样实付价格进一步降低至1292元,晒单后最低仅需1262元即可入手。 在外观设计上,这款电纸书整体风格类似于早期的Kindle Oasis款式,采用了符合人体工程学的设计理念。其机身厚度为4mm,重量仅有179g。官方特别强调,这款电纸书的边角采用了7mm的圆弧R角设计,从而提升了握持时的舒适感。 在硬件规格方面,这款电纸书配备了“纳米级光学镀膜”,并对导光板和灯珠进行了优化升级,同时引入了i-Display 2.0+芯片。屏幕部分采用了一块7英寸的Carta1300面板,分辨率为1680x1264(300PPI),并搭载了“i-Clean 2.0 刷新技术”,以确保阅读体验更加流畅。 其他配置方面,这款电纸书内置了4核CPU,提供4GB的运行内存和64GB的存储空间,能够满足大量电子书存储的需求。此外,其电池容量为2000毫安时,续航表现值得期待。 以下是电纸书的主要规格参数: - 屏幕:7 英寸 Carta1300 面板,分辨率 1680x1264(300PPI) - 处理器:4 核 CPU - 内存与存储:4GB RAM + 64GB 存储 - 电池容量:2000mAh
15天3次发声,雷军在走李想的“来时路”?
雷军的谨慎发声,像极了李想。 4月15日,新浪科技称,从供应链获得的权威市场调研机构数据显示,2025年3月(W10-W13)中国手机市场新机激活量排名,小米排名第一,华为、vivo、OPPO、苹果分列二至五名。其中,华为同比增速最快。 针对这则消息,雷军转发并评论:“感谢大家支持”。短短六个字,加三个抱拳的表情,还是以“雷军回应小米手机第一”的话题冲上热搜,可见其流量仍然凶猛。 15天3次发声 此次发声距雷军上次在社交平台发文已时隔9天,也是他在四月过半后的第三次微博动态。前两次分别是纪念小米创业15周年,他发布短评:“今天,小米的创业路已走过了15年。这只是开始,我们会继续努力。” 另外一次是4月1日晚,他就SU7安徽爆燃事件作出首次回应,对遇难者表示深切哀悼,并代表小米承诺:“无论发生什么,小米都不会回避,我们将持续配合警方调查,跟进事情处理的进展,并尽最大努力回应家属和社会关心的问题。” 这种更新频次远低于四月份之前他在社交媒体平台的表现。单说微博,他以前几乎是每天都有多条状态更新,其转折点就是小米SU7爆燃事件引发消费者质疑小米汽车的造车思路,以及其智驾系统是否可靠。 雷军的对外表态,在一定程度上安抚了网友和舆论的情绪,不少人表示会耐心等待调查结果。但经此悲剧,“小米造车,三年就成”的神话被打破。公众也开始主动击碎滤镜,对小米汽车祛魅。 压力传导到雷军和小米汽车身上,他们做出的反应就是谨慎、克制的对外发声。这种情形和曾经的车圈“微博之王”——李想的情况极为相似,雷军仿佛在走李想的“来时路”。 在雷军之前,主机大厂CEO在微博等社交媒体的活跃度,李想称第二,很难有人敢当第一。鼎盛时期,李想上综艺节目,开网课,亲自为品牌代言,在微博挑起针对友商的各种话题,教网友做CEO,并输出“500万元以内最好SUV”“很多友商那仨瓜俩枣的销量,有啥可干的”等经典名言,这一度被竞争对手封为“微博之王”。 不可否认的是,李想是和雷军一样玩流量的高手。以把李想“噎到”失声的理想MEGA为例,其上市之前的预热期长达一年多,如何在这么长时间内维持车型的讨论,是对车企的营销策划能力的一个巨大考验。 李想的玩法很出圈,他先是就网络曝出的车型外形图表态,“真设计成这鸟样,我把设计团队都干掉,顺便自己跳楼”;半年后,李想发布了一段电影《我是谁》的跳楼片段,而李想用自己的面容替换了成龙,并写道:是MindGPT逼我跳楼的。 这种“无耻”自然又收割了一波流量,甚至在理想MEGA上市前,李想也通过朋友圈发布了“乔布斯在的话,苹果汽车应该就是这样的”言论。他的微博也成为理想汽车最大的品牌和新闻输出地,推动了用户对理想汽车的产品和品牌心智建立。 但他又在微博表现出另外一种特征,即产品折戟、流量下滑时,李想要么把自己藏起来,要么就是在更私密的朋友圈对外释放信息。比如2024年3月,理想首款纯电产品MEGA滑铁卢之后,很长一段时间内,李想在微博上几乎消失,但他在朋友圈连发多条动态,喊出“我们决定反击黑暗”。 对此,我总结为,李想的微博动态堪称理想汽车生存状况的晴雨表:理想整体经营情况良好时,李想在微博公开活动更活跃。当理想遇到麻烦时,李想选择失声,隐身。 相比李想,雷军的流量更大,也意味着可能会遭到更严重的反噬。他不是不想发声,15天3次发声,选择的时间点、缘由都很有目的性,而且话语都不多。小米15周年的发声,微博动态发布后还进行了一次修改(仅增加一个字),十分的谨慎。 小米要有两个“重新思考” 对于雷军和小米来说,值得庆幸的是,他们获得粉丝和用户的支持度远比李想要高。小米手机、小米汽车以及小米生态链产品给多数普通用户带来的体验,都是超出预期的。这也是为何雷军的社交媒体评论区成了“许愿池”,寄托着消费者对其整顿行业的期待。 但这起事件对雷军和小米乃至整个新能源汽车的影响都是深远的。如果雷军和小米需要做一次复盘,至少要有两个“重新思考”: 首先是重新思考小米的造车思路。雷军曾表示,智能电动汽车本质上就是“汽车×电动×智能”,智能化将成为这个时代的决胜点。“智驾+智舱+生态”将会成为小米汽车参与竞争的技术制高点。 目前来看,作为后入局者,小米在智驾技术上并没有太多优势,“人-车-家”的生态优势才是其杀手锏。2024年,小米SU7上市即大卖,雷军在复盘小米SU7成功的原因时,他分享了几条心得: “我们在产品定义的第一条就是,颜值是王道,车好看是第一位的”。 “我们在产品规格书的第一条,就是要做好看”。 “这一次,我们一定要让一半的女生喜欢我们,所以我们要做一个女生喜欢的车”。 这与他在决定正式造车前的思考,并没有本质不同。当时,他认为,这个时代杰出的智能电动汽车,必须做好三点:首先是一辆好看、好开、舒适、安全的好车;第二,是可移动的智能终端;第三,更是先进的移动智能空间。 所以,小米汽车设立的目标就是:打造汽车工业新时代的梦想之车,做好看、好开、舒适、安全的移动智能空间。 这很难不让人指着鼻子骂,小米汽车首要考虑的是好看、好开,驾驶安全并没有放在首位。虽然雷军也多次强调安全,比如小米的电池技术经过了包含碰撞、挤压、火烧在内的1050项安全标准测试,这些测试项目数是国家标准的20倍。 其次是重新思考雷军的流量与小米业务策略之间的关系,寻求一个平衡。有第三方统计,2024年,仅在微博平台上,小米汽车登上热搜 417 次,小米汽车发布会登上热搜 95 次,拉开第二名一个数量级。 雷军的不停“破圈”,为小米带来泼天的流量,而这些流量,也大部分转化成财报上亮眼的业绩数据。如果按照周鸿祎的算法,余承东为华为省去了十几亿的广告费,“雷军效应”给小米带来的收益只会多不会少。而且这些流量外溢到友商、其他行业,也形成一股“雷学”。 显然,短时间内,小米的各项业务都离不开雷军流量的“灌溉”。但这是一把双刃剑,雷军无论是做IP,还是做网红,其与小米的深度捆绑,顺风时便是“你好,我好,大家都好”。 但一旦其中一方出事,另一方想要躲过去,也是几无可能。而且,雷军个人形象的强势,就是对小米品牌独立性的削弱。做一个类比,格力电器如今的尴尬和风险,也可能是小米将来要作答的课题。 还有一个被很多人忽略的点,过去5年,小米高端化与雷军个人IP的养成,也存在着很强的关联性。比如智能汽车业务,也是这场“生死之战”的重要拼图。雷军由知名企业家向网红企业家或者“雷军IP”跃升,关键时间节点也是在小米宣布造车和小米SU7正式发布前后。 在此期间,媒体普遍报道里都记录了一个细节,也被雷军多次提起,公司讨论会上,小米高管们曾爆发了史上最激烈争论:有人表示做高端太难了,我们能不能不做了?也有人质疑用小米品牌能做成高端吗?当时内部很多人都在向雷军建议,要重新设立一个品牌做高端,小米目前的品牌形象已经很难扭转。那时,沮丧的情绪在小米的办公室蔓延。 这成为雷军“封神”后各种故事版本里的重要情节之一,其带来的效果就是不少消费者愿意为小米高端化买单。在最近的几次财报中,小米高管认为,高端化战略收获重磅成果。 换句话说,小米高端化的一个重要支撑就是雷军。这个时候,雷军已经是小米经营的“晴雨表”了。但随着小米SU7爆燃事件的爆发,小米高端化与雷军“造神”之间的平衡也被摆在了台面上。 参考资料: 唐辰同学,《你可以骂小米,但雷军也必须要回应》、《李想,在微博“造车”》 中国企业家杂志,《雷军的“生死之战”,历时5年初见曙光》
短剧人抱团出海,争抢唯一确定的增量
作者 | 王珊珊(北京) 「我们整个公司的重心,包括我个人的重心,现在都放在海外。」短剧出海厂牌 Crest Pte.Ltd、上海嘉书科技(冰甜短剧)创始人王小书告诉我们。作为一位拥有超过20年网文、游戏及短剧从业经验的创业者,短剧出海是王小书目前认为值得all in的领域。 短剧出海开始受到关注是在2023年,ReelShort登顶美国iOS娱乐类免费榜,凭借「日入上亿美金」的营收传闻,带动母公司中文在线多次涨停。随着「短剧出海元年」这一风口的兴起,原本国内小程序短剧的主力公司,以及具有出海经验的网文和游戏公司纷纷加入战局。 进入2024年,随着字节系等巨头对国内短剧市场的挤压,曾经依赖小程序生态的许多企业不得不转型,更多地成为生产链条中的供应商。因此,越来越多中国短剧内容创业者开始将目光投向海外,期待能在海外市场找到新的业务增长点。据相关数据估算,2024年海外短剧APP的充值和广告收入总和预计将超过12亿美金,甚至有可能接近或突破15亿美金,并且今年的收入预计将再翻一番。 市场的高速增长与持续加大的投入密切相关。2024年下半年,更多公司加入了短剧出海的阵营,麦芽传媒的NetShort、掌玩的FlickReels、以及前柠萌影视联合创始人周元主导的StoReel等新兴平台纷纷进入市场。根据DataEye-ADX提供的海外短剧版数据,从2024年9月开始,海外投放短剧APP的数量大幅增加,到2025年2月,投放短剧APP的数量已经达到了231款,是去年同期的近4倍。 其中,字节跳动的入局备受业内瞩目。去年11月,字节跳动推出了针对东南亚市场的免费模式短剧平台Melolo;今年初,又上线了专注日本市场的付费短剧应用PikoShow。字节的加入也引发了关于是否会出现类似红果海外版的讨论。 可以确定的是,海外短剧的竞争将愈发激烈。 目前,短剧出海仍处于抢占市场的大规模投入阶段。无论是投流获客还是本土化制作,都需要大量资金的支持,这意味着目前的领军企业拥有其他业务基础或背后有强大的母体集团作为支撑。2024年,海外短剧APP的内购收入前三强分别是点众的DramaBox、已经从中文在线独立出来的ReelShort、以及九州的ShortMax,其中点众和九州均为国内小程序短剧的领头企业。 那么,2025年短剧出海的走势会如何?在与短剧出海从业者的交流中,我们试图回答现阶段最受关注的四个问题:1.字节入局会带来多大影响?2.在内容供给方面,译制剧与本土化制作的优劣势各是什么,谁更重要?3.海外短剧观众都是谁?用户增长面临怎样的瓶颈?4.烧钱要到何时? 字节入局 字节跳动从去年下半年开启短剧出海攻势,面向不同国家市场推出不同产品。免费应用Melolo 主要面向东南亚地区,付费短剧应用 PikoShow 于年初在日本上线。 这两款字节系应用目前的成绩都与「海外版红果」相差甚远。我们发现PikoShow在日本只上线了Android版本,下载量仅超过一千人。Melolo全球双端的预估下载量超过 132 万次,表现不如昆仑万维同期上线的竞品 FreeReels。FreeReels 的累计下载量已超过 660 万次,买量及营销的投放力度都更大。 不过,基于字节的巨头影响力,未来很可能还会有新的内容产品及玩法推出,格局是否会进一步变化还难下定论。 点众董事长陈瑞卿在中国网络视听大会的演讲中就表达了担忧:「我们国内的大公司,他们也一定会去做(短剧出海),就像我们先去探路,人培养好,后面的收割机在后面收割了。我们跑得足够快,有幸参与得比较早,做革命先驱,弄不好也会做革命先烈……」 陈瑞卿担心的情况,正是国内微短剧市场过去两三年间上演的剧本。短剧出海的主力军大多是原来小程序短剧领域的头部企业,这与国内短剧行业的剧烈变化有很大关系。如今,红果月活用户规模截至去年12月已飙升至1.58亿,爱奇艺等头部平台纷纷入局,小程序短剧企业更多地在产业链中扮演供应商角色,而非拥有主控权。 去年至今,王小书及团队已将整体重心向海外转移,Crest Pte.Ltd 现有海外员工200多人,超过国内嘉书科技的100多人。Crest Pte.Ltd 主要面向日本市场,目前已上线了3款短剧出海应用。其中 TopShort 是付费会员模式,Cool drama 是付费会员+广告的混合模式,YuzuDrama 则是免费广告模式。YuzuDrama 今年初上线以来,安卓版本一度登上日本 Google Play 总榜 Top20。 YuzuDrama 即使不考虑字节跳动,Crest Pte.Ltd面临着来自于同行们的激烈竞争。日本被视作仅次于美国的第二大海外短剧付费市场,近半年来,ShortMax、ReelShort、FlexTV、GoodShort的重视度持续提升,DramaBox目前占据着日本市场第一的位置。 王小书认为,小程序短剧团队大多擅长捕捉最新的商业模式和内容趋势,老板们具有很强的创业精神和战斗力,无论是从无到有地在国内开展短剧业务,还是在海外拓展市场,都展现出了这种特质。 作为拥有十余年海外发行经验的创业者,在王小书看来,无论是流量分布还是用户消费习惯,海外市场的商业环境更加复杂且多元化,与国内的发展情况会有很大差异,因此很可能不一定会重蹈国内被巨头垄断的结局。 本土化制作or 翻译 在短剧出海早期阶段,ReelShort验证过美国本土化制作的市场潜力,《The Double Life of My Billionaire Husband》播放量突破3亿,充值金额约为1800万美金。这部短剧与《闪婚后,傅先生马甲藏不住了》的剧情梗类似,讲述女主被迫相亲,却阴差阳错地与霸道总裁闪婚的故事。 海外短剧制作人、经纪人高维那告诉我们,《The Double Life of My Billionaire Husband》由其合作的华裔导演项思宁执导拍摄,编剧团队则由美国本土编剧组成。正是因为早期几部英文短剧意外地大获成功,才吸引到各家平台都开始入局尝试海外制作。 新声Pro曾于2024年1月关注过好莱坞华人影视从业者几乎都在拍短剧的现象。一时间,电影学院留学生、已有三五年影视从业经验的人、乃至有房子可出租的社区房东,全都汇集在海外竖屏短剧的荧幕背后。 截至目前,美国市场的大部分头部爆款是英文短剧,大爆款收入约500万美金,中爆款150-200万美金,小爆款50万美金左右。九州旗下ShortMax 去年10月出品的《The Divorced Billionaire Heiress》再次刷新了海外本土短剧的票房纪录。 ShortMax的最受欢迎剧集排名 然而,近一年来,好莱坞制作面临着成本迅速上涨的压力。正如九州董事长汪家城在演讲中提到,过去一年来,美国本土制作从约7到15万美金一部涨到现在的 20 多万美金一部,未来可能还会涨到 30 万、40 万美金一部。 高维那告诉我们,涨价原因主要是因为演员片酬、场地费用都在「抱团涨」,承制团队实际上能拿到的利润持平甚至有所下降,尤其是不同承制团队之间的竞争压价也在加剧。 基于成本压力,一些承制团队选择在制作成本更低的加拿大、欧洲、东南亚乃至中国境内拍摄海外短剧。 海外短剧制作厂牌Vertical Smart自2023年成立以来,在加拿大、欧洲、国内都拍摄过英文短剧,其中国内拍摄的多部均成功上线十余个海外平台。创始人韩沛均告诉我们,团队未来还会继续加重国内拍摄的比重,因为成本低效率高,单部仅在10 到 13 万美金之间。 韩沛均介绍说,国内的一些城市如青岛、西安、苏州、上海、海南等,已经成为海外短剧拍摄的常用地。国内本身也有大量的外籍演员可供选择,这些演员在国内原本就从事影视剧和广告拍摄。 此外,在内容标准上,韩沛均观察到,本土化制作往往只需要对一个外层的「壳」进行本土化,包括语言以及基础的文化习俗差异等,而内在的戏剧桥段等都是对于国内热门桥段的复制。一些英文短剧直接翻拍自国内热门短剧,例如 FlickReels 上线了《闪婚老伴是豪门》的翻拍版。 相比英语区,日本市场相对特殊,由于其文化属性相对独立和封闭,且国内会日语又会制作的人才更少,需要更多地与日本当地制作团队联合拍摄。王小书告诉我们,Crest Pte.Ltd与日本一线电视台、报社等都达成了合作。在流行题材上,日本短剧出现了千金大小姐、霸道和尚等更加本土的原创剧情梗。 不过,无论是在国内还是海外拍摄,由于资金和制作门槛的限制,每月稳定产出外语短剧的承制方数量很少。而短剧出海是依托于独立内容app,需要填充进大量内容来拉新与留存。 DramaBox的应用首页 从数量占比来看,翻译剧,即配音或者直接配上外文字幕的中文短剧,是绝大多数短剧出海应用的核心内容。根据《2024年短剧出海报告》统计,译制剧和本土剧的供应数量比例约为9:1。 点众、九州、麦芽这样的小程序短剧头部企业有大量的中文版权储备,先期均是以翻译剧迅速起量抢占先机,再发力本土化制作。麦芽董事长何云长表示,译制剧是其发力海外的基本盘。表示,译制剧的关键在于速度,通过AI快速翻译后再由人工进行审校,以确保内容的时效性。 麦芽的译制剧《The Missing Master Chef》在不同国家和地区上架后,充值金额已达400至500万美金,目前每天仍有收入进账。 《The Missing Master Chef》 各平台的译制剧储备与国内短剧业务基础高度关联,何云长提到,他担心国内短剧市场过于内卷,利润越来越低,如果拍摄数量大幅减少,将会影响海外翻译剧的数量供给。此外,盗版侵权现象泛滥,麦芽去年9月入局出海时,发现自家很多剧都已被同行作为翻译剧上线了。ƒ 与国内情况类似,还有一些爆款版权在不同平台之间正常分发流传。一些新创平台以版权采买起步,StoReel的大部分短剧版权都来自采购,包括《裴总每天都像母凭子贵》等。 用户瓶颈 海外短剧的主力观众群体是怎样的?根据TikTok发布的《短剧出海营销白皮书2024》,美国的短剧观众主要是中青年女性,尤其是那些热爱娱乐内容的已婚有孩群体。另外,有调查显示,短剧用户大多来自蓝领阶层,尤其是少数族裔女性。 关于海外市场未来的整体规模,点众的陈瑞卿给出了乐观的预测:全球人口约64亿,短视频用户已经达到30多亿,未来有望增长到40亿左右,其中大约20亿用户将会观看短剧。这个预测类比了国内短剧的发展历程——最初作为面向下沉市场的猎奇产品,短剧逐渐演变成覆盖一至五线城市的大众化消费品。 要想突破用户圈层,海外短剧的内容水准需要大幅提升,必须做到像国内一样创新并且高产。从高维那的角度来看,短剧要依赖精品化制作来吸引更多元的观众群体。 然而,从制作模式来看,内容瓶颈短期内很难突破。 首先,海外短剧面临来自各类顶级文娱内容的激烈竞争。其次,由于试错成本较高,海外本土化制作在尝试新题材时往往较为保守。一些制作团队渴望开拓创新题材,但平台方态度谨慎。 一位短剧出海平台的剧本总监告诉我们,英语短剧的更新迭代速度相对较慢,通常还停留在霸总、契约婚姻、狼人等基础题材上。麦芽何云长也提到,与国内短剧有复杂的人物关系线不同,海外观众更倾向于简单易懂的故事结构,人物数量要适中,情感表达要直接,内容结构也应清晰明了。 与国内短剧初期以男性观众为主不同,海外短剧的男性观众比例较低,可能是因为他们有大量男频影视和游戏内容可以选择。一些国内的男频短剧最初通过「擦边球」吸引注意力,而海外观众能够通过正规渠道观看大量情色内容。 由于海内外观众的认知阶段不同,一些国内早期凭借信息差获得成功的玩法,现在在海外变得流行起来。高维那告诉我们,目前她的主要精力集中在短剧分销的社群运营上,借助短视频切片吸引普通网友参与,从而赚取佣金。 对于头部短剧平台来说,不仅要拓展新用户圈层,维系现有用户的粘性同样迫在眉睫。目前,头部出海平台纷纷开始运营自己的社交媒体账号。DramaBox是目前活跃用户最多的短剧出海应用,Facebook和TikTok的粉丝分别超过1000万和900万。ReelShort在去年12月上线了ReelTalk播客,播客内容包括演员独家对话和幕后故事,进一步增强了平台的用户粘性。 赚到钱了吗 短剧出海的公开数据红红火火,但与国内短剧生意一样,大量资金用于买量投入,且海外制作成本更加高昂,各家公司的实际盈利情况众说纷纭。中文在线的财报曾显示,枫叶互动2023年虽然营收达到了6.86亿元,但净利润却只有24.42万元。目前,ReelShort已从中文在线独立出去,现在是独立的海外短剧平台。 点众陈瑞卿在演讲中强调说,出海短剧不管是商业模式、内容生产体系,还是人才的密度厚度,「远远没到0到1的地步,可能就是0.1吧……现在还是红利阶段,还没有到健康发展的阶段。」王小书告诉我们,短剧出海是一门长期生意,目前大部分企业都处于抢占市场份额的前期阶段。 所谓红利期意味着市场增速很快,仍有广阔的商业想象空间,但同时也附带着大规模投入与竞争拼杀的高风险,稍有不幸就会结局惨烈。 整体而言,海外短剧市场的各方面局势还未明朗,无论是会员订阅制、单集付费,还是通过观看广告免费获取内容,这些商业变现模式都尚在探索中。字节等巨头企业未来很可能会有新动作,变局随时有可能发生。 尤其是在国内短剧市场利润严重下降的现在,短剧公司需要尽快直接从海外用户身上回血。高维那获悉的情况是,美国市场排行前五的头部应用市场份额趋于稳定,头部短剧应用今年已经在开始追求盈利。
揭秘鸿蒙之争:高层激烈交锋,任正非拍板,华为为何坚持“单框架”豪赌?
作者 | 方兴东 来源 | 蓝血研究(lanxueyanjiu) 本文节选自中信出版集团新书《鸿蒙开物》,经官方授权发布。 ——蓝血题记 2020年,华为的芯片走进了至暗时刻。 5月,美国对华为开始了第二轮制裁。此前,美国禁止华为购买美国公司的软硬件服务,这一次,制裁升级,美国禁止华为购买“全世界所有和美国技术有关的”软硬件服务。这直接导致台湾积体电路制造公司(以下简称台积电)、三星乃至中芯国际集成电路制造有限公司,统统不能给华为制造先进制程的芯片,麒麟芯片也无法生产。8月,美国将38家华为子公司列入“实体清单”。华为已经无法再像原来那样获取大量的硬件用于生产。“以软补硬”几乎成了唯一的突围路径,华为内部开始有了各种让鸿蒙替代安卓的声音。 01 方向之争?平替还是独立 鸿蒙替代方案产生了两种可能的方向:一个是基于AOSP, 在安卓生态里用抽屉式替换的思路,将核心模块替换,大家称之为“双框架”鸿蒙;另一个是不兼容安卓,也不是安卓的平替,大家称之为“单框架”鸿蒙,它只为自己的先进性负责。 虽然安卓的不足之处很多,但华为内部依然有多数人赞成鸿蒙系统“保留安卓,兼容安卓”。他们认为,安卓和iOS都有大约20年的历史,主导了中国几乎所有的智能手机,它们向上承载了中国几乎所有的移动应用,向下驱动了中国几乎所有的硬件设施,可以说,当今中国整个数字产业生态和数字社会生活,近乎都建立在这两个美国操作系统之上。 仅仅因安卓的不完美就开发新系统,理由不充分,而且安卓长期使用没问题,谷歌也没限制使用,反而在增强用户黏性。反观华为的处境:华为要在恶劣的研发环境里保持正常运转。所谓正常运转,就是正常推出新产品,继续给消费者提供高品质体验。所以华为只要解决芯片问题,双框架产品就能快速盈利。 坚持独立操作系统的人非常反对这种说法,他们认为,双框架虽然能同时支持安卓和鸿蒙的应用,但终究只是一个权宜之计,而非华为的长远发展之道。华为绝不希望自研的操作系统给人留下这么多负面印象。芯片的路径都被堵死了,华为的芯片架构跟美国、台积电这些所谓的先进制程的芯片架构相比,必然存在差异;从软件层面发挥系统优势、综合优势去提升硬件性能,是华为眼下最需要的。对近乎全线牵扯华为产品生态的安卓来说,一旦断供,华为的手机、平板电脑、PC统统得停产。更麻烦的是,谷歌系统融入太多欧美开源软件,断供任何一个,华为都会遭殃,脖子始终卡在别人手里是很危险的。 其实大家都能看清楚,如果鸿蒙选择基于安卓的系统继续走下去,将永远达不到软件的极致以及与硬件的高度协同。鸿蒙操作系统要区别于其他系统,必须紧密配合自己的智能芯片,自己的芯片必须有自己的架构,只有这样,才能构建由“芯片、鸿蒙操作系统和围绕鸿蒙操作系统打造的生态”三者配合形成的生态。 徐直军是主张彻底与安卓分的,在他眼里,真正的鸿蒙不应再兼容安卓的代码。 但是单框架鸿蒙需要巨额投入,这和华为的销售困境构成了一个难以调和的矛盾。此时的华为是一个陷入困境的商业公司,要做自研生产,不仅需要投入巨额的人力资源,还要投入大量物料和技术,且短期内根本看不到回报。 在安卓还能使用的情况下,华为内部没人敢拍板,做出以投资百亿元的代价重建生态的惊天决策,包括余承东在内的公司高层都下不了这样的决心。但是被打压之后,又没人能找到华为“不受制于人,站着挣钱”的合理发展道路——要么彻底退出手机行业,要么把别人禁掉的芯片、操作系统和生态等全部自己干出来,自给自足。华为已经从GMS被禁、芯片被禁的一次次围剿中,深刻反思了自己的未来:想要进入一个行业,不掌握这个行业核心的技术,就等于把高楼建在浮沙上,别人想捏死你易如反掌。 华为不得不在内部开启了一系列持久的、足以写入华为史册的重大决策会议。2020 年年底至2021年年初,鸿蒙生态发展委员会主任何刚频繁地召集鸿蒙生态发展委员会会议。2021年4 月至5月的一次经营管理团队战略务虚会上,他召集了王成录、余承东等几乎所有经营管理团队领导参会,就单框架还是双框架问题各抒己见。 讨论会上的交锋非常激烈。一派意见是支持双框架,在HMS替换GMS时代,用户只需简单切换后台账号、消息通知提示、支付服务提供商等,即可保持整体功能的稳定。然而,自研的鸿蒙意味着技术栈的全面革新,以及所有功能的重新设计。从技术层面来看,单框架鸿蒙需要从Java 过渡到TypeScript语言,这不仅是语言层面的简单切换,还牵涉集成开发工具、编译器、芯片指令集的全面切换。 除此之外,在HMS替换时期,团队成员无须重新接受培训或学习新技能,因为开发环境、软件工具、 编程语言和参考资料都保持不变。然而,自研的鸿蒙必须彻底打破这一现状:集成开发环境和工具都将面临全面变革,工作量可能激增10倍以上。如此大的投入,最终的结果也不一定能超过安卓。 再从生态看,开发单框架生态很难像安卓那样建立一个拥有百万应用软件的生态。在HMS保卫战时期,对国外消费者影响较大的应用软件数量大约为3000个,而鸿蒙系统仅在中国市场就需要支持高达5000个应用软件,这还不包括全球范围内已经存在的百万个应用软件。随便拎出这几项工作,华为这些人干到吐血也干不完。 双框架支持者还有一个共同的观点:像谷歌这样的科技巨擘,集合全球先进技术,联手多家公司与机构,才铸就今日的操作系统。华为孤军奋战,能否完成这等伟业?华为凭什么能搞出来?即便搞出来了,怎么赚钱?怎么把过去付出的成本赚回来? 但另一派,包括手机产品线总裁在内,却对双框架的持续发展前景表示担忧。如果没有芯片问题,他们自然也倾向于投资小、风险低的双框架方案。但现实情况是,华为的芯片受美国打压,工艺无法提升,性能体验将持续恶化。谷歌通过HMS控制了整个生态,相当于让华为在芯片“无法获得最先进工艺”的问题上雪上加霜,华为继续走双框架之路是“不得已而为之”,对鸿蒙的发展没有根本性的好处。如果继续基于安卓双框架发展,性能会因为应用负载的增加,每年恶化10%~15%,持续到2025年,芯片在安卓双框架系统上的表现可能只能与低端机相提并论。 因此,学习苹果的iOS经验,从软硬件芯片协同的角度构建系统优势是迫切的需求。安卓作为一个开放系统,无法像iOS那样从操作系统层面进行深入优化。如果不上单框架,就无法保证优质的用户体验,这种情况只有“华山这一条路”能走得通。未来单框架推出时,生态体验肯定会有所不足,但如果不迈出这一步,生态更是永远无法成熟。 反观此时的华为,凭借多年的深耕和积累,已经拥有了鸿蒙内核、毕昇编译器、网络协议、MindSpore等一系列基础软件能力,这些技术完全可以组合成自主可控的基础设施,整体竞争力不落后于世界最先进水平。鸿蒙也已经实现了一些新的性能优势:极低的能耗、高效的任务执行、云端协同、分布式操作系统等。这些优势使自主研发操作系统有了些基础,尤其是分布式操作系统,它能够让手机、平板电脑、PC等设备共享同一套操作系统,从而彻底改变原生体验,实现设备间的无缝切换和高效协作。 02 迷雾中寻求答案 自我评判是华为克服以自我为中心的有效手段,也是一种纠偏机制。支持双框架的人,咬着复现安卓生态的巨大困难不放;支持单框架的人,咬着芯片的困难不放,双方僵持不下。谁的方向走偏了,人们难以分辨。 会议伊始,大家尚能维持和气的讨论氛围,但随着观点的差异逐渐显现,大家的情绪越发激烈,争论近乎演变成争吵。 我们不难理解这场漫长、激烈的争论主要缘于单框架研发的难度极大,而且代价过高。重写操作系统只是第一步,基于一个全新的操作系统建立一个全新的生态,才是这项艰巨任务令人望而生畏的关键。谷歌和苹果是少数成功建立起自己生态的公司,华为作为后来者,早已错过了开创单框架生态的最佳时机。单框架需要华为投入大量的精力去完成新系统和新生态的建设,同时还需要兼顾现有的产品线,这样的挑战太冒险了。 更何况,华为在遭受制裁后,还需要更加谨慎地考虑自身的经济实力。如果没有充足的科研经费,单框架的研发进程很可能会受到严重影响。经营管理团队会议经历过多次这样激烈的单框架还是双框架的争论,一直难以做出决定。 或许,单框架还是双框架之争并不存在绝对的对错之分。单框架的可怕之处在于,每个想法最终都需要依靠实践来验证,而一旦实践就意味着没有退路;双框架的可怕之处在于,留的退路也不一定能通向成功。在安卓系统依然可用,双框架鸿蒙依然有“过渡性”价值的情况下,找到一个大家都信服的理由来做单框架几乎不可能。 2020年年底到2021年年初,形势已经越来越清楚:华为不仅在GMS上受限,整个操作系统都遇到了更大的危机。如果在安卓基础上做优化和改造,会有几个方面的后果。 一是从生态角度看,谷歌对欧美的开源软件兼容奠定了其主控地位,一旦谷歌断供,就会对中国生态造成毁灭性打击。因此,构建自主可控操作系统显得重要且迫切。 二是断供会对华为终端产品造成致命打击,这是华为无法承受的风险。在终端领域,操作系统要充分发挥芯片及硬件模组性能,提供高效系统调度,支持应用顺畅运行。 三是从技术层面看,谷歌是一家“硬件无忧”的国际软件公司,注重与海外开源系统的融合性,而非极致性能和流畅度,这种系统设计原则的弊端就是软件支持的场景越多,运行效率就越低,这与华为追求“极致性能”的目标存在差异。 四是中国与美国在芯片制造上存在差距,这种差距一时半会无法弥补,华为需要用时间换空间,用软件创新提升性能以弥补硬件不足。 这一切利害关系一一展开,无不说明操作系统对终端技术、生态生死的操控能力。未来,一切围绕操作系统的努力都将意义非凡。这也是徐直军始终带着悲情色彩去看待鸿蒙的原因,他说:“我们是被逼的。如果当年苹果做iOS、谷歌做安卓时,我们就同期坚持自研国产操作系统,现在也不至于如此悲惨。如果中国有美国的生态,那华为今天只需找个很好的品牌携手合作,成长的过程也不用走得这么坎坷。一个生态型企业想要做好基础科学领域,必须抓住先发优势,就算没有先行,也至少能够同步。华为的智能驾驶就是‘先行’很好的证明,我们现在不那么累,是因为我们是先行者,放到美国我们也属于先行者。而鸿蒙的艰难则是生态‘后行’者的结果,后行者填补高科技的时间差,要付出难以承受的企业代价和历史代价。” 很快,时间到了2021年6月,万众瞩目的双框架鸿蒙HarmonyOS 2.0迎来了大规模升级的重要历史时刻。王成录和他的团队在发布会的前三个月,就开始每两天开一次晨会,紧盯鸿蒙操作系统的进展。他们一连做了三四遍大型演练,对各种各样的场景进行验证、测试并且制订方案,尽其所能地考虑周全,对大量产品进行升级。在发布会前一周,所有的人都感觉压力快要到达极限了。 这时,有传言说华为做的鸿蒙其实是安卓“套壳”,这样的鸿蒙可能会在知识产权方面被投诉,会吃官司。网上也出现了一幅嘲讽鸿蒙“套壳”安卓的漫画: 一条名叫红红的小蛇,把一个叫安卓的大象给吃了。在这种时候,如何定义“自研操作系统”,华为应持有严肃的态度,并建立起明确的界限。因为外界不会耐心地听鸿蒙自辩,理解鸿蒙完全继承了安卓的优势,同时又做出了很多特色和创新突破。 被骂以后的王成录只能尽可能多地对发布后可能产生的舆情做预案。不管怎么样,鸿蒙马上就要发布了。漫画的风波还未平息,外界又传来了王成录是“鸿蒙之父”的传言。这传言也不知从何而起,王成录看到网上夸张的言论后,希望平台删除相关帖子,但帖子不仅没有被删,转载量还与日俱增,王成录百口莫辩。如果深刻地理解鸿蒙技术,你就会知道,这个世界上不可能有任何一个人能称作“鸿蒙之父”。 鸿蒙从内核,到架构,到编程语言,到分布式安全,再到应用生态,这个庞大系统的每一层都是一个尖端领域,每一层都有若干顶级专家,谁能被称为鸿蒙这个集大成者之父? 不堪忍受风波和传言的王成录,将心中的郁闷都发泄到工作上,每天都干到凌晨1点多。 6月1日下午,公司内网忽然出现一纸公示,龚体接替王成录成为华为终端BG软件部总裁,王成录被任命为终端BG AI与智慧全场景业务部总裁。AI是华为下一个重要战略布局,但一直跟随鸿蒙孵化成长的王成录对鸿蒙更有感情。他严重怀疑这和不久前网络掀起的“鸿蒙之父”的舆论风波脱不了干系。 但如今,他也没有时间应对了,因为第二天,发布会就要开始了。 6月的深圳潮热难耐,此时的王成录正在复盘调任细节:在中央软件院一年多的时间,他通过“不断地沟通”,给华为招募了60多位18级以上的高级工程师。他享受和这些具有技术实力的高级工程师沟通的过程。比起团队中很多不愿意做面试工作的同事,他更享受这种特别的快乐:在一两个小时的面试沟通时间里,突然受到对方的点拨,自己的思路会一下子豁然开朗。他对企业价值观有着深刻的理解:一个公司组织就是一个生命体,它的基因不能过于单一,筛选新入职的高级工程师,就像在丰富这个生命体的优质基因。 回过神来,王成录又回到“往事不可追”的现实,知道回想再多或许已经没有了意义,只是用这样慢慢回忆的方式,他可以与鸿蒙岁月做一个温和的告别。毕竟在华为工作了20多年,毕竟他见证了鸿蒙最微小的生命细节。 6月2日的发布会终于到来了,表面上看,王成录依然保持着不错的状态。这倒不是因为他心理超乎寻常地强大,而是他对鸿蒙超乎寻常地熟悉。谁也没想到,这一难熬的夜晚几乎成为华为产品发布会有史以来声量最高的一次,这场发布会把笼罩在鸿蒙操作系统上的众多疑云逐一驱散。 6月2日晚上8点,终端开始升级,到第二天早上,设备端升级了440万台。一天升级440万台已经是非常夸张的数据,原来需要两个月左右才能达到的排队量,被集中在了一个晚上。服务器“全部瘫掉”居然成了一种捷报、一个喜讯,因为HarmonyOS 2.0 在手机上表现惊艳,超长续航、分布式特性都做得非常出色。 这次发布实现了华为历史上的最高净推荐值。软件团队兴奋地通宵工作,因为大家从来没有享受过这种“在线排队1000多万人”的“神仙待遇”。积极的用户反馈意味着在万物互联时代,华为软件生态战略中的“基座”建设宣告完成。 柳晓见所在的整个队伍的士气大大提高,他们是鸿蒙近距离的亲历者。每个人在朋友圈发布信息以后都会引发热议。和鸿蒙项目无关的同事讨论的话题也总是围绕鸿蒙。生态伙伴的合作意向活跃,中国移动表达了合作意向,整个产业界的机会和合作意愿在增加,社会各界的友好交流也增加了。外界评论几乎全是正面的,时任公共及政府事务部总裁陈黎芳给任正非汇报,鸿蒙这次发布,海外媒体非常罕见地几乎全是正面评价。 以前华为发布任何一个产品,评价基本上是三分之一是负面的,三分之一是中立的,三分之一是正面的,但鸿蒙这一次发布,几乎全是正面的! 高层几乎每天都要打两个电话追问王成录鸿蒙进展。当升级排队人数到了5000万的时候,网上没有什么负面消息,整体评价非常好,消费者的反馈也非常好。大家都放下心来,并对王成录团队表示祝贺。 鸿蒙红火到这个程度,强力推动了鸿蒙的兄弟项目欧拉后续的开源捐赠等决策,高层几乎是一路绿灯地大力支持操作系统的发展。 03 只有“纯血”一条路可走 在向单框架过渡的执行策略上,公司并没有明确的公文,但龚体作为坚定的单框架支持者接管鸿蒙,华为高层的战略意图,以及龚体未来的行动方向,已经非常清晰。 6月2日,开放原子开源基金会也将孵化的OpenHarmony 2.0同期全量开源发布。在全量开源发布之前,何刚召集了会议,让大家针对“开源开哪部分”展开讨论,大家确实达成了“双框架这条路走不下去”的共识,但是又在开源“开哪部分”的问题上分成了两派:一派主张把鸿蒙的兼容系统(混合系统)开出去,另一派则主张只开放自己拥有版权的代码。 这场讨论变成了争论,争了足足四五轮。 龚体、王成录、盛行、 终端云服务部总裁朱勇刚等二三十个鸿蒙相关的高管几乎全部到场。 虽然没有投票,但路线越辩越明晰——把兼容安卓的系统开源是有极大风险的。林振辉特地向徐直军汇报,徐直军紧急叫停已经完成的开源版本:“不管独立自主的路途多艰难,也要坚定不移地走单框架鸿蒙的路线!我们只开放自己拥有版权的代码,不能开混合系统。” 这等于直接把鸿蒙向单框架的方向用力推了一把。用林振辉的话来说:“这个决策算是力挽狂澜。” 一旦开源混合系统流向市场,华为就很可能面临难以招架的官司,声誉更会因此严重受损。箭在弦上,徐直军迅速决定开源只能开“单框架鸿蒙代码”,这是用实际行动告诉鸿蒙团队和鸿蒙外围的合作伙伴:华为不会“骑墙”,更不会两边搞,占两头的便宜。 2021年,随着美国对华为的制裁持续升级,华为在推出新产品时面临着严重的芯片短缺,智能手机、通信设备等领域长期依赖的芯片供应链被严重打乱。余承东拿到的一系列惨烈数据显示,华为一整年的手机发货量还不如制裁前一个月的手机发货量。智能手机业务遭到重创,海外业务偃旗息鼓,市场份额跌出了前五。为摆脱困境,华为加大了在芯片自研领域的投入,虽然这些努力保证了华为产品的正常生产和供应,但在外界眼里,华为自研芯片仿佛是拿着大刀长矛去跟别人的机枪打。 但华为还有选择吗?华为的手机最多只能硬撑两年,拿大刀长矛去打还有生还的机会,不打只能等死。大举投资半导体的决策一出,终端BG软件部立刻向终端决策核心经营管理团队递交了一份意义深远的报告。在这份报告中,大家强烈呼吁深耕单框架,并将此观点以最高级别的形式递交给了由顶尖技术专家和终端经营管理团队成员,包括余承东、何刚等产品线主管等。 因受芯片工艺限制及台积电代工中断影响,在芯片领域,华为哪怕只是追赶一个普通的商业周期都显得力不从心;安卓一直以来的约束,也将华为推向了操作系统的战场。无论华为有没有能力开发出卓越的操作系统,现在已经身处“时不我待”的关键时刻。坚定创新,是华为唯一的路。 新上任终端BG软件部总裁龚体非常清楚芯片对终端的影响力。华为的主要收入和芯片工艺密切相关,相比之下,软件收益显得微不足道。而芯片断供的影响持续到2021年,库存几乎耗尽,华为两三年都没能推出新的旗舰机型,他们仅在2021年2月22日推出了折叠屏手机Mate X2,用的还是数量非常有限的麒麟芯片。 华为手机的未来靠什么支撑? 2021年年中,在龚体接手终端BG软件部一个月后,终端经营管理团队召集研讨会,对原有的操作系统团队进行了整合与重组。原团队被拆分为三个专项团队:负责操作系统底座基础能力的OpenHarmony团队、专攻应用解决方案和产品化的HarmonyOS团队,以及协助开源社区进行OpenHarmony版本更新与鸿蒙生态合作和赋能的OpenHarmony使能团队。 这次重组被视为单框架路线的基础,因为单框架鸿蒙的底座就是OpenHarmony,与社区同源。设计原则也清晰地显示了单框架的倾向:一是拒绝使用反商业条款的开源代码;二是完全避开安卓的任何组件;三是继续使用友好许可的开源软件。这些原则不仅确保了项目的合规性,也为未来的商业运作打下了坚实基础。 此时外界纷纷传言,华为已秘密研发出单框架鸿蒙,只是秘而不宣。但真相是,单框架鸿蒙仍在紧锣密鼓地研发中,尚未完成,双框架也没有完成它的历史任务——要用它保底,要用它支撑现有的生态。 龚体提出的三大产品战略方向中,依然包含双框架的过渡政策:一是持续推进双框架的交付,支撑好产品的销售;二是重点推动单框架鸿蒙工程机走向商用;三是激发鸿蒙的生态潜力。 徐直军决定跟任正非做最终的汇报:“我们现在没有选择了!芯片上不来,必须把软硬打通,垂直整合。顺着AOSP往上爬,是发展不出一个好的操作系统的,因为它也是从Linux过来的……”龚体说,搭载鸿蒙的华为手机要对标全球最优的产品模范—— 苹果手机。 2021年9月,单框架正式立项,并制定了一个三步走的策略:第一,要有坚实的、有创新性的架构底座;第二,要将用户体验做到极致;第三,要有一个繁荣的生态。龚体把这三步总结为“新架构,新体验,新生态”,在他看来,这三个要素是构建一个成功的操作系统的核心。 在望岳看来,单框架获得正式立项,是因为任何芯片、操作系统都是和生态绑定的。x86是和Windows、Linux绑定的,IBM的芯片是和AIX操作系统绑定的,太阳计算机系统的SPARC芯片是和Solaris操作系统绑定的,ARM是和安卓绑定的,从来没有一种生态会以芯片和操作系统分家的形态出现。 这种情况下,如果中国跟美国分成两个技术阵营,那么一个阵营的操作系统和另一个阵营的芯片很难长期保持合作。所以从技术方面讲,AOSP搭配华为的芯片注定难以为继,华为将不得不冒着生态不完整的风险,把单框架鸿蒙干出来。单框架是个耗资巨大的项目,单是底座研发每年就要耗费十七八亿元人民币。若算上应用开发,费用可能会超过20亿元。更别提与生态伙伴的合作成本了。 高泉被领导要求联合团队骨干写材料,要说清楚团队如何实施单框架。一直士气低落的高泉团队,明显感受到了一种“改头换面”的新气象。早在2019年年初,高泉团队就对单框架系统充满了热情。原本专注于安卓优化的团队整体转入了终端BG操作系统部,与中央软件院 的 100多名操作系统专家联手,共同组建了一支规模不小的鸿蒙团队。当时的轻鸿蒙已经得到了业界的认可,但在自适应直方图均衡化界面设计和编译器的研发上,他们几乎是秘密进行的,因为上层领导并未在单框架的业务上给予充分的认可,他们的研发状态一直止步不前。 如今,鸿蒙战队的规模大增,OpenHarmony部投入六七百人,中央软件院派出四五百名精英,外包人员达七八百人。东软集团、江苏润和软件股份有限公司(以下简称润和软件)等软件公司也投入数百人力,加入了开源鸿蒙社区。内核、图形、编译器、界面设计、工业设计和媒体专家等悉数到位,他们的首要任务就是做好心理建设, 让团队成员坚信“单框架鸿蒙必将成功”。 整个单框架鸿蒙的演进,似乎正上演着一场全面的、撕开一个口子向前冲的战役。单框架鸿蒙开始有了质的飞跃。 龚体也代表BG管理团队,给任正非做了将近两个小时的鸿蒙专项汇报。任正非当场就回应式地对他们提出了要求:终端BG除了要把鸿蒙做到商用,做到能支撑产品的销售,支撑产品的竞争力,还要把鸿蒙做成中国的数字底座,做成中国操作系统的底座。
Claude终于能Research了!打通谷歌全家桶,工作效率10倍提升
新智元报道 编辑:犀牛 定慧 【新智元导读】Anthropic推出Claude两大重磅功能:Research与Google Workspace集成!Research功能让Claude快速检索网络与内部文件,精准回答复杂问题;而与Google Workspace的深度整合,则让用户能无缝调用Gmail、日历和文档信息,轻松完成从行程规划到报告撰写的任务。 今天凌晨,Anthropic官方推出了两个重磅新功能:Research以及与Google Workspace集成。 Anthropic称Research功能是与Claude合作的新方式。 它能从多个角度分析问题,自动搜索信息,几分钟之内给出答案。在深度与速度中找到一个恰当的平衡。 另一个更新是Claude现在可以连接到你的Gmail、Google日历和文档。它可以理解其中的上下文,并能从需要的地方提取信息。 Anthropic表示,他们为此精心设计了提示建议,可以快速地帮用户从整个Google Workspace中获取有用的信息。 例如,可以尝试问它:「假设我100岁时回顾现在,请对我的日程进行反思。」 Research功能在美国、日本、巴西三国的Max、Team和企业计划中可用。Google Workspace集成则对所有付费用户开放。 Anthropic还为这两个新功能做了一个演示,视频中用户要求根据自己的邮件、日历和文档信息起草一份外出计划,并搜索出网络条件良好的地方以方便与同事联系。 点击Research按钮后,Claude便开始搜寻用户的邮件、日历、文档以及联网搜索必要的信息。 综合处理完这些信息后给出了一份完整的出行计划报告。 不仅如此,Claude还可以将报告一键同步到邮箱发送给好友。 接入谷歌全家桶,工作效率提10倍 没想到率先接入Google的是Claude。 Claude引入了两个新功能,一个是与Google Workspace集成,另一个则是已经「落后」ChatGPT和Gemini的Research功能。 先说Research,Claude通过这个功能可以检索内部文件和网络,比如Claude一次性可以检索信息、日历、云盘和互联网等。 而与Google Workspace的集成,可以快速访问Gmail、日历和Google文档。 通过官方演示可以看到,在完成Research工作后,可以直接调用Google邮箱,完成发布。 Claude还提供了更多的使用场景示例: 营销团队可以通过从网络上收集竞争情报,同时提取相关的产品规格、定位和战略文档,来更快地创建全面的产品发布计划。 销售团队可以搜索通信历史、带会议记录的日历邀请以及关于潜在客户公司的最新更新,从而更有效地为客户会议做准备,以创建详细的简报文档。 工程师可以分析设计文档、系统规范以及外部 API 文档、实现模式和安全最佳实践,来创建与现有系统集成的技术解决方案。 大学学生可以与Claude合作分析学习材料和过去课程的笔记,同时搜索最新的学术研究、互动学习资源和专家解释,来创建个性化的学习计划。 父母可以让Claude扫描电子邮件和日历事件来突出重要承诺,同时搜索网络以获取更新的学校日历、当地社区事件和天气预报。 除了Research和Google Workspace集成,Claude Enterprise的管理员可以启用目录编制(Google Docs cataloging)功能。 一旦目录编制启用,Claude会利用组织文档的专用索引来查找所需信息——即使这些信息隐藏在冗长文档中或分布在多个文件中。 相当于加入一个「人工监督」,这样查找文档的准确率大大的提高。 Research功能现已在美国的Max、Team和Enterprise计划中进入早期测试版,只需在聊天中启用Research设置。 Google Workspace 集成版现已处于测试阶段,可供所有付费用户在个人资料设置中启用。 功能发布后,网友们进行了实测。 Claude的一位负责人Alex Albert表示,Claude的这两个新功能「让我工作效率提升了10倍!」。 同时他也表示,很快Research功能将扩展到专家级别的深入报告,成为一个更加强大全面的工具。 有人在使用中「发现了自己数据中意想不到的联系」。 有人发现Claude可以整合之前的所有聊天记录(非常像OpenAI刚刚推出的记忆功能)。 但也有人担心——虽然Claude强调了它们使用更高的安全机制——Claude这样直接访问Gmail邮箱是不是安全。 作为最早提出MCP的大模型,Claude推出Research的时间点似乎有点晚。 但作为把AI安全性作为最大卖点的Anthropic公司,似乎这才是它们的合理时间——足够充分的测试和市场反馈。
MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论
新智元报道 编辑:Aeneas KingHZ 【新智元导读】MIT物理学大牛Max Tegmark团队,再出重磅力作。他们发现:AI能够在没有任何先验知识的情况下,完全独立地提出哈密顿物理量,或拉格朗日方程式。仅仅通过尝试解释数据,AI就自己收敛到了这些物理原则,发现了宇宙间的奥秘! 充满想象力的MIT大牛团队,又有新作了! 大佬Max Tegmark、Ziming Liu等人在一项新研究中发现,AI能够在没有任何先验知识的情况下,能够完全独立地提出哈密顿物理量。 论文地址:https://arxiv.org/pdf/2504.02822v1 不过要注意,这里的AI是LNN,而非LLM。 他们提出一种新的架构MASS(Multiple AI Scalar Scientists),允许单个神经网络学习跨多个物理系统的理论。 MASS在来自各种物理系统(摆或振荡器)的观测数据上进行了训练,且事先并未被告知底层的物理定律。 结果,神奇的事来了。 MASS开发的理论,往往与已知的经典力学哈密顿或拉格朗日表述高度相似,具体取决于其分析的系统的复杂性。 也就是说,AI仅仅通过尝试解释数据,就收敛到了这些已经成熟的物理原理! 果然Max Tegmark出品,必属精品。 惊人脑洞:AI科学家大PK,结果如何? 这项研究,源于研究者们的一个脑洞:如果两个AI科学家是在相同的训练数据上训练的,他们会不同意彼此的观点吗? 有趣的是,他们发现,这些AI科学家在学习经典物理学之后,起初可能会存在分歧,但当数据变得多样化之后,他们就会不约而同地收敛到拉格朗日/哈密顿这些已知的理论。 如果简单概括这项研究的几大发现,可以归结如下。 1.一个AI科学家能够学习对同一物理现象的多种不同解释; 2.当面对更复杂的系统时,表现出色的AI科学家会对其原有理论进行修正,以适应新的观测; 3.AI科学家学到的理论具有高度相似性,这些理论通常与哈密顿或拉格朗日描 述形式非常接近; 4.在初期所学的理论更接近哈密顿动力学,但随着系统复杂性的提升,最终学习结果更趋近于拉格朗日描述,这表明在丰富的理论空间中,拉格朗日动力学仍是唯一正确的描述体系。 在论文开篇,他们抛出了这张有趣的图——AI科学家的演化。 即使在如单摆这样简单的物理系统中,不同的AI科学家在从数据中学习时,也会得出不同的结果。无法解释当前数据的理论会被判定为错误。存活下来的AI科学家,则将面对更复杂的系统,例如双摆,并据此不断修正自己的理论以适应新的数据。最终,剩下的AI科学家将学到什么? 纵观人类历史,科学的进步是由好奇心推动的。 从阿基米德的浮力原理,到伽利略对运动的系统研究,到牛顿的经典力学公式,再到爱因斯坦的相对论,这些科学家通过观察提出假设,从而成为经典的科学原理。 而在今天,我们正见证着全新的范式:ML和数据驱动方法,开始在粒子物理、天文学、材料科学和量子化学等领域取代传统的统计工具。 下一步,机器学习方法很可能就将转变为完全成熟的「AI科学家」,以最少的人为干预来提出假设、设计实验、解释结果。 牛顿和莱布尼茨,会对同一现象(微积分)提出互补但又不同的表述。那么在架构、初始方案和训练范式上各不相同的AI,会收敛于不同的理论公式或视角吗? 当AI科学家涉足更大更复杂的数据集,它们学到的理论会怎样以意想不到的方式演变? 这次,研究者在实验中,研究了不同条件下训练的多个AI科学家,是会在科学理论上趋于一致,还是产生分歧。 AI不依赖物理先验,发现潜在物理规律 在论文中,团队提出了一种新方法,在几乎不依赖物理先验的前提下,通过学习一个标量函数,并利用「作用量守恒原理」,来发现潜在的物理规律。 这一思路与哈密顿神经网络(HNN)和拉格朗日神经网络(LNN)相似。 受经典力学中哈密顿描述方式的启发,HNN将物理系统运动方程的学习任务分解为两个步骤:首先学习一个标量函数(即哈密顿量H),然后通过哈密顿正则方程计算运动状态: LNN则通过改为学习拉格朗日量来规避这一问题,并通过欧拉-拉格朗日方程来求导: 本文关注的核心问题就是:如果模型拥有学习多种理论的自由,它最终会学到什么? MASS登场! 为此,团队提出了MASS的模型。这是一种通用框架,同样以「作用量守恒原理」为出发点,也从数据中学习一个自由形式的标量函数。 但与LNN和HNN不同,MASS并不会预设运动方程,而是具备自行学习运动方程的能力。 MASS背后的核心思想,就是在一个神经网络中嵌入跨多个物理系统学习与统一信息的能力。 它的目标是内化一个共享框架,从而捕捉所有数据集中所体现的基本模式。 具体来说,它通过学习一个标量函数(类似于拉格朗日量或哈密顿量),利用其导数来编码各个系统的特定动力学特征。 MASS 的工作流程如下: 1.数据输入:MASS 接收来自不同物理系统的观测数据,例如轨迹、状态或能量值 2.假说生成:为每个系统分别设立的神经网络将学习一个标量函数,描述该系统的特定动力学 3.理论推导:MASS在所有系统间共享的最终一层会对学习到的标量函数在系统坐标(如位置、动量和/或速度)上的导数进行计算,推导出控制方程 4.精化与泛化:模型的输出会与真实训练数据比对以计算误差,然后通过累加、优化,获得与多物理系统观测结果一致的统一理论 实验 单个AI科学家 在The Grand Design一书中,霍金表达过他对物理的理解:只要预测结果和实验一致,多种理论框架,可以同样有效地描述物理现象。 比如,对于无阻尼弹簧-质量系统,牛顿运动定律可以解释这个系统。 但通过能量函数与守恒定律,哈密顿力学体系获得了全新的理论视角。 相比之下,即便对于简谐振荡器这类相对简单的物理系统,机器学习模型也展现出极强的数据拟合灵活性。 这引出了一个深刻问题:如果训练单个「AI科学家」来研究简谐振荡系统,学习到的理论表征将呈现何种形态? 与经典的牛顿力学或哈密顿力学相比,又会有何异同? 对此,在无阻尼弹簧-质量系统的模拟数据上,研究团队对MASS进行了训练。 图3展示了训练结果。 可以看出,MASS可以很容易地模拟出振子的运动轨迹,它所给出的预测具有良好的一致性和准确性。 图3:MASS在简单谐振子上的训练结果 那在对最后一层添加L1和L2正则化的情况下,模型是如何学习并简化理论的? 这要在训练过程中,跟踪模型中的显著权重数量,即在最终输出层中贡献了前99%总范数的权重数量。 可以观察到,随着训练步数的增加,这个数量也在减少,但最终会在42这个相对较大的数值上趋于稳定。 这说明有将近42个权重项具有显著数值,这显然远不能称为一个简单的理论。 毕竟只要4个参数,都能拟合出鼻子会动的大象! 图4描述了在相空间中,MASS学习到的标量函数S与经典哈密顿函数H的对比。 研究发现,单个MASS智能体,能够成功重构出势能与动能之和的表达式。 图4:(a)学习得到的标量函数S与(b)哈密顿量x²+y²的等值线对比图 具体来说,MASS通常能够学习到与传统物理先验相似却存在差异的函数形式。 在图5中,研究者将每个激活的平均范数E(a_i)与对应的权重w_i进行了比较。 总体来看,非零权重通常对应着非零的激活范数。对最终预测贡献最大的激活项,和按权重范数排的前五项完全一样。 这就说明,它们是MASS所学习理论中最关键的组成部分,对最终预测起到了重要作用。 图5的热力图显示出,显著项形成了三个明显的聚类。 这就说明:模型形成了某种结构化的表示方式,将不同类型的变量组合成特定模式进行预测。 总之,本节结论可以概括如下。 1. 单个AI科学家可以非常有效地学习一个简单的系统(见图3),而且它会随着训练深入自动筛选出重要理论部分。 2. 学习到的理论结构类似于我们熟悉的物理表达式(见图4)。 3. 当模型容量增大时,单个AI科学家往往会学习到多个看似不同的理论(见图5(a))。 4. 不过,这些不同的理论之间往往是强相关的(见图5(b)),实质上反映的是同一种规律。 那么,当AI科学家面对更复杂的物理系统时,哪些重要项会保留,哪些会消失? AI科学家:更复杂的系统 简谐振子系统可能对于一个机器学习模型来说太简单了——它只需要拟合-x就够了。 接下来,研究者探索了当AI科学家起初只观察单一系统,后来逐步接触到更复杂的物理系统时,会发生什么变化。 本节关注的四个具体系统:简谐振子、单摆系统、开普勒问题/引力势能系统、相对论简谐振子。 当面对多个系统时,AI科学家如何稀疏化其理论(即筛选出关键项)? 又如何多样化地学习,适用于不同物理规律表达结构的? 图6展示了MASS模型在面对逐步增加复杂度的物理系统时的训练表现。 训练过程的具体安排如下: - 在第0步开始,模型首先接触的是简谐振子系统; - 到了第10,000步,加入了单摆系统; - 第20,000步时,再加入引力势能系统(开普勒问题); - 第30,000步时,引入最后一个系统——相对论简谐振子。 这个训练策略模拟了「AI科学家」逐步暴露在越来越复杂的自然规律面前的过程,进而观察它如何在学习过程中调整和发展自己的理论结构。 可以发现如下结论。 1. 随着系统数量的增加,模型学习到的显著项数量反而减少了。 2. 随着系统数量的增加,模型学习到的理论变得更加多样化。 这说明:能同时解释多个系统的项要比解释单一或部分系统的项少得多。 第二个发现则体现在图7中相关性热图的右下角:随着训练系统的增多,越来越多彼此不相关的项开始出现。 有趣的是,他们还发现:当MASS被要求同时解释多个系统时,它最终倾向于使用几乎相同的一组项来统一建模! 这表明在多系统学习中,模型倾向于寻找通用理论表达。 多个科学家:理论融合共生 当不同科学家回答同样的问题时,似乎得出不同的理论,但其实只是同一硬币的两面(比如牛顿和莱布尼茨)。 当多个科学家去学习同样的知识呢? 可以看出,不同智能体间的权重参数与激活值,存在显著差异。 如下图所示,根据初始化条件的不同,显著项的选择会发生剧烈变化。 然而即便如此,不同智能体筛选出的显著项却保持高度一致。 图8展示了各激活项的相对强度分布,可见清晰的带状分布特征——这些条纹标定了可用于构建系统描述理论的可能项。 然而,激活强度与权重的大幅波动表明:虽然所有MASS学习的理论都落在图8的暗纹区域内,但每位「AI科学家」完全可能学会不同的理论形式。 那么,这些AI科学家是否在学习完全不同的内容? 下文将证明,事实并非如此。 研究者针对MASS模型输出层的激活矩阵,进行主成分分析(PCA),可以发现:在大多数随机初始化情况下,仅第一主成分就能解释90%以上的方差。 将主成分降维后的B×1激活值,分布如图14所示——统计分布特性实际上与均匀分布等效。 这一发现,在相对论性弹簧质量系统(图15b)和单摆系统(图15a)的多智能体实验中得到进一步验证。 通过计算降维后B×1激活向量的相关系数(见图9),可以发现:不同智能体间存在强相关性。 基于上述实验结果,可以得出明确结论:当针对同一物理系统训练时,不同智能体确实能够学到相同的底层理论。 这样,文章最初的核心问题就被证实了:两位AI科学家确实能够达成共识! 探索未知:Is拉格朗日all you need? 现在将分析拓展至完全普适的情形:让多个MASS智能体在多个物理系统上进行训练。 如果将现有框架拓展至尚未发现的系统时,会发生什么? 为此,研究者引入了合成系统。 如表I所示,通过定义每个系统的动能T与势能V进行系统改造,特别构建了两个附加合成系统。 核心实验结果如图10所示。 其中正确MASS智能体的数量定义为:在全部已见物理系统上,最大MSE损失低于5×10⁻³的初始化种子数;而显著项的数量定义为:输出层172个项中,累计贡献95%总范数所需的最少项数。 随着训练系统数量的增加,始终保持正确的MASS智能体数量呈下降趋势(图10蓝色虚线)。 研究者在所有正确的MASS科学家上进行这种受限优化拟合,结果列于表II中。 与先前的观察结果一致,MASS几乎可以直接被转换为拉格朗日理论,其R^2值普遍高于0.9。 这种与拉格朗日理论之间的强相关性引出了一个更深层次的问题:我们是否还能找到第三种经典力学的描述方式? 至少,在MASS所探索的T=172个表达项的丰富理论空间中,答案似乎是否定的——拉格朗日描述就足够了。 AI学会拓展到高维系统 尽管前文主要研究一维问题,但自然界中绝大多数物理系统都具有更高维度。 本节中,研究者以经典的双摆混沌系统为例展开研究——该系统的两个自由度分别为两个摆杆的摆动角度。实验结果表明,MASS能有效拓展至高维场景。 研究团队成功复现了双摆系统的解析轨迹(图12)。 实验实现了对摆动角度的精确预测,与拉格朗日神经网络的结果相当。 值得注意的是,尽管没有在架构中直接引入拉格朗日方程和欧拉-拉格朗日方程来强制能量守恒,MASS仍能自主习得该特性! 这就跟团队的预期相一致了,他们发现:MASS学到的理论形式,与拉格朗日量高度相似。 作者介绍 Xinghong Fu 麻省理工学院数学和CS专业的本科生,在Max Tegmark实验室做过本科研究员,工作为将机器学习应用到物理学领域。 刘子鸣(Ziming Liu) 刘子鸣,从事AI与科学交叉领域研究。 2021年2月,他进入麻省理工学院,攻读物理学博士学位,预计今年5月毕业。 2020年9月-2021年2月,他在业界从事机器学习理论研究。 2016年9月-2020年6,他就读于北京大学物理学专业。 Max Tegmark Max Tegmark,MIT的明星物理学教授。 他在获得皇家理工学院的物理学理学士学位后,于1990年离开了瑞典。之后,他就读于加利福尼亚大学伯克利分校,并于1992年获得硕士学位,1994年获得博士学位。 博士毕业后,他先后在马克斯-普朗克物理研究所、普林斯顿高等研究院、宾夕法尼亚大学任职。2004年至今,他一直在麻省理工学院物理系。 他专注于宇宙学和量子信息,但他当前研究的主要焦点是智能物理学。 参考资料: https://arxiv.org/pdf/2504.02822v1
苹果联合研究照亮多模态AI未来方向:早期融合+稀疏架构
IT之家 4 月 16 日消息,科技媒体 marktechpost 昨日(4 月 15 日)发布博文,报道称苹果工程师联合法国索邦大学,通过对比早期融合和后期融合模型,发现从头训练的早期融合模型在计算效率和扩展性上更具优势。 多模态 AI 现状与面临的挑战 IT之家援引博文介绍,多模态 AI 旨在同时处理图像、文本等多种数据类型,但整合这些异构数据仍是一大难题。当前技术多采用后期融合(late-fusion)策略,即组合使用预训练的单模态模型(如视觉编码器和语言模型)。 这种方法虽然操作简便,却难以实现真正的多模态理解,单模态预训练带来的固有偏差,可能限制模型捕捉跨模态依赖关系。 此外,随着系统规模扩大,各组件的参数、预训练需求和扩展特性差异显著,导致计算资源分配复杂,影响性能,尤其是在需要深度多模态推理的任务中。 早期融合与稀疏架构的突破 苹果联合团队挑战了传统架构选择,深入研究从头训练的原生多模态模型(NMMs)的扩展特性。 团队对比了早期融合(early-fusion)和后期融合模型,发现从头训练时,两者性能相当,但早期融合模型在低计算预算下更高效且易于扩展。 研究还探索了专家混合(MoE)稀疏架构,发现其能动态分配参数,针对不同模态进行专项优化,相较于稠密模型,可以显著提升性能,这点在小规模模型中优势明显。 分析显示,稀疏模型更倾向于优先扩展训练数据(training tokens)而非活跃参数(active parameters),这与稠密模型的扩展模式形成鲜明对比。 研究团队通过系统实验,训练了从 0.3 亿到 40 亿活跃参数的多模态模型,验证了早期融合和稀疏架构在多模态处理中的潜力。 结果表明,原生多模态模型的扩展规律与语言模型相似,但跨模态数据类型和训练组合会略微影响扩展系数。此外,稀疏模型在等效推理成本下持续优于密集模型,展现出处理异构数据的强大能力。 这些发现挑战了传统设计理念,表明统一早期融合架构结合动态参数分配,或将成为未来高效多模态 AI 系统的重要方向。
多模态生成框架新SOTA:文本+空间+图像随意组合,20W+数据开源
能处理任意条件组合的新生成框架来了! 复旦大学、腾讯优图实验室等机构的研究人员提出UniCombine,一种基于DiT的多条件可控生成框架,能够处理包括但不限于文本提示、空间映射和主体图像在内的任意控制条件的任意组合,并保持高度的一致性和出色的和谐性。 具体效果be like: 据了解,现有的多条件可控生成框架或是只能处理单一种类的多个条件,或是只适用于某种特定的多类别组合,从而普遍缺乏通用性的多类别+多条件的组合式生成能力。 而在UniCombine这项工作中,团队引入了一种新的Conditional MMDiT注意力机制,并结合可训练的LoRA模块,从而同时提供了training-free和training-based两种版本。 此外,团队构建并开源了首个针对多条件组合式生成任务设计的数据集SubjectSpatial200K,其中涵盖了subject-driven和spatially-aligned两大类控制条件。 UniCombine在4项不同的多条件可控生成任务上均达到SOTA,证明了新方法具有卓越的框架通用性和出色的条件一致性。 UniCombine方法 UniCombine框架图如下: (a) 整体框架。团队将基于MMDiT的扩散模型视为由文本分支和去噪分支组成。在此基础上,UniCombine引入了多个条件分支来处理输入条件。 (b) UniCombine的单条件设置。该设置等价于OminiControl,即在单条件设置下,OminiControl是UniCombine框架的特例。 (c) UniCombine的多条件设置。团队提出的LoRA Switching模块可根据条件类型自适应激活去噪分支权重上的预训练Condition-LoRA模块。此外,团队引入了Conditional MMDiT Attention机制,以替换原始MMDiT Attention 机制,从而处理统一的多条件输入序列。是否加载可选的Denoising-LoRA模块是无训练版本和基于训练版本的区别。 SubjectSpatial200K数据集 团队的SubjectSpatial200K数据集旨在填补当前多条件生成任务中缺少公开可用数据集的空白。现有数据集未能同时包含主体驱动和空间对齐的标注。 最近,Subjects200K数据集提供了一个面向主体驱动生成的公开数据集。 在此基础上,团队构建了SubjectSpatial200K数据集,这是一个高质量的统一数据集,专为训练和测试多条件可控生成模型设计。该数据集包含全面的标注,包括丰富的Subject Grounding Annotation和Spatial Map Annotation。数据集的构建流程见图。 实验结果 (1)对比实验 (2)消融实验:CMMDiT与MMDiT (3)消融实验:Denoising LoRA与Text-LoRA (4)消融实验:DSB+SSB联合训练与DSB单独训练 (5)算力开销分析 整体而言,研究人员提出了UniCombine,这是一个基于DiT的多条件可控生成框架,能够处理任意条件组合,包括但不限于文本提示、空间映射和主体图像。 在主体插入、主体-空间以及多空间等条件生成任务上的大量实验表明,无论是无训练还是基于训练的版本,UniCombine都达到了最先进的性能。 此外,团队提出了SubjectSpatial200K数据集,以弥补当前缺少用于训练和测试多条件生成模型的公开数据集的不足。团队相信,该研究将推动可控生成领域的发展。 — 完 —
8000字深度思考:AI眼镜的格局、困局、破局
作者 | ZeR0 编辑 | 漠影 智东西4月16日报道,一场围绕AI/AR眼镜的高质量专题技术研讨会,今日在上海举行。当前AI/AR眼镜面临何种残酷现实?主流方案各有哪些利弊?如何破解关键技术痛点与产业困局?在今天的芯原可穿戴专题技术探讨会上,来自产业链领先企业及投资机构的嘉宾们围绕这些议题进行了干货满满的观点交锋。 其中不乏多项热点问题,包括哪类AI眼镜更受市场欢迎、哪种交互方式更符合现在的AI眼镜需求、当前AI眼镜的主流芯片方案、如何从系统层降低AI眼镜的整体功耗、如何在AI眼镜上部署生成式AI、哪类玩家将会占据更多的AI眼镜市场份额等等。 芯原股份创始人、董事长兼总裁戴伟民在会上发表致辞。他分享说,芯原股份在三年前就帮国际互联网企业做AR眼镜的芯片,并关注隐私和加密问题,当时他坚持认为AR眼镜在2025年会有爆发点。 戴伟民还提到DeepSeek带来“巧力出奇迹”的启发,推动端侧AI发展,AI模型不仅能塞进手机,也有可能放在眼镜中。AR眼镜的重点包括超轻量和超低功耗,如果超过30克就有问题。 同时,芯原股份在今日宣布推出全新超低功耗的GPU IP——GCNano3DVG。该IP具备3D和2.5D图形渲染功能,在视觉效果与功耗效率之间实现了平衡,专为可穿戴设备及其他需要动态图形渲染的紧凑型电池供电设备而设计,如智能手表、智能手环、AI/AR眼镜等。 一、中国有望成为全球最大AR设备市场,DeepSeek推动终端AI爆发 芯原股份首席战略官、执行副总裁、IP事业部总经理戴伟进分享了可穿戴设备的AI交互趋势,提到中国有望成为全球最大的单一AR设备市场。 AI眼镜有几大特点:集成多个传感器,始终在线收集信息,支持通过自然语言进行类似人与人的实时互动,既支持设备端低功耗人机交互,也支持连接到云端AI服务器,并向长续航、轻重量发展。 当前可穿戴AI市场快速增长。研究机构GMInsights的统计显示,2024年,全球可穿戴AI市场规模为397亿美元,预计2025年到2034年间CAGR市场将达到27.7%。 根据多家研究机构的报告及公开信息,2023年全球和中国AR设备出货量分别达到50万台和24万台,预计2027年出货量将分别超过1500万台和750万台;2025年中国AR设备出货量将率先达到百万台水平,占全球出货量的一半以上;预计2023-2027年全球出货量复合年增长率为135.9%,而中国的复合年增长率为138.6%。中国有望成为全球最大的单一AR设备市场。 AI眼镜市场规模有望飙升至上千亿元。维深信息Wellsenn XR数据显示,2024年全球AI眼镜销量达到152万副,预计2025年将达到350万副,到2029年将达到6000万副,到2035年可能达到14亿副,中国市场占很大份额。另据IDC报告,2024年国内AI眼镜市场有望突破200亿元,预计到2030年将呈指数级增长,规模达到1200亿元量级,复合年增长率为35%。 DeepSeek推动终端AI及应用爆发,刺激了低参数模型的推出,为在终端设备上部署 “小AI大模型” 和 “小AI模型” 提供支持。在2024年之前,预训练模型追求更大的参数规模;2025年,大模型开始向高参数量和低参数量两极分化。 AI Agent是一个能够自主感知环境、决策和执行任务的智能系统,通过结合机器学习、NLP、计算机视觉和强化学习。 AI眼镜是GPT-4o等多模态大模型的最佳载体之一。AI+AR可有效提升产品智能属性,赋能语音助手、图像分析和智能导航,为终端用户提供智能、优质、个性化的服务。 多模态AI基础模型可提供问答、总结、实时字幕、内容创作、零距离学习、场景/物体识别、动作识别等功能。基于该模型,AR眼镜能够捕捉并记住用户见过的场景,实时感知谁在说话及说话内容,并能够进行即时翻译。 核心AI助手功能包括实时视觉识别、语音交互、场景理解、GPS定位、活动识别、AR导航、个人生产力工具、记忆辅助、健康安全监测等。 在可穿戴设备中,芯原低功耗IP系列提供了超低功耗、低延迟、DDR-Less的可穿戴解决方案。超过30家手表SoC客户已获得芯原低功耗IP的授权。世界领先的AI/AR客户正与芯原在AR设备上合作。 VeriHealthi健康监测平台提供从芯片设计到软件系统和基于芯原IP的参考应用的一站式健康监测平台和一站式定制服务。该平台提供各种参考应用程序,适用于手机和iPad的应用程序已经推出。 二、从关键零部件看AI/AR眼镜市场发展,未来将是“赢家通吃” Omdia高级分析师林麟系统性地分享了AI/AR眼镜的发展路径,谈到目前业界对AI/AR眼镜的定义尚未完全统一,这两类都要具备智能,Omdia的分类是把不带屏幕的眼镜称作AI眼镜,把带显示模块光学组件的眼镜称作AR眼镜。 他认为其长期方向是AI+AR融合发展:AI提升AR的交互智能(如手势识别、眼动追踪等),AR为AI提供虚实融合的显示载体。 林麟总结说,AI/AR眼镜硬件快速同质化,进入价格战,AR眼镜需凭借光学引擎脱颖而出。软件上,大模型将是竞争核心,各家在大模型训练上探索不同方向和侧重点,如强化搜索、私人助理、导航、解题等不同功能。此外,AI/AR眼镜有望成为新的小程序入口端口,卡位意义极其重要。 他预测,AI/AR眼镜产品虽然现在看起来是“百镜大战”,未来可能是一个“赢家通吃”的局面,真正可以存活的品牌可能不会超过5家。 当前AI/AR眼镜芯片主要有三类:(1)系统级SoC,如高通AR1 Gen1;(2)MCU级SoC+ISP,如恒玄科技BES2500YP、BES2700、BES2800以及展锐W517;(3)MCU,如富瀚微MC6350、瑞芯微RK3588和RK356X、聚信科技ATS3085。 AI/AR眼镜芯片需考虑性能、成本、续航的平衡。例如先进制程存在价格贵、功耗高等问题。 用于AR的显示技术有LCoS、DLP、LBS、Micro OLED、Micro LED等。其中前三类渐渐用的不多了;自发光的Micro OLED和Micro LED具有优势,尤其Micro LED因高亮度有望成为未来AR主流显示屏。在中国,Micro LED已经成熟,甚至出现产能过剩的情况;Micro LED可供选择的资源也变得多起来。 Micro LED具有纳米级响应速度、100000nits亮度、100000:1对比度、自发光、功耗低、寿命长等优势,可搭配光波导成像方案,OPPO Air Glass、小米眼镜等都采用了这种方案。目前用的比较多的是反射/阵列/几何光波导,它的光学效率比较高,但缺点是良率较差;中国厂商着力在表面浮雕衍射式和体全息衍射式光波导,前者相对比较成熟。 据不严谨统计,当前AI/AR眼镜的AI功能使用频率还不算高,许多消费者处在使用AI的初级阶段。70%的AI/AR眼镜用户几乎不使用AI功能,或尝鲜后不再使用AI功能;30%的用户会使用AI功能,这之中,有超过50%用其作为搜索引擎,有大约30%用来翻译,还有约20%使用了导航、问天气等其他功能。 三、AI/AR眼镜落地有三大技术挑战,当前成本的大头是SoC芯片 芯原股份解决方案架构工程师刘律宏分享了芯原在紧耦合架构可穿戴子系统解决方案上为AI/AR眼镜优化功能、续航、重量方面的一些思路。 当前AI/AR眼镜主要落地于实时翻译、智能导航、智能教育、AR试穿、AI手术、设备巡检、智能分拣、AI导游等应用场景,有三大技术难点:(1)重量与电池的极限压缩;(2)能效比问题;(3)功能、续航与质量的矛盾。 这对多媒体子系统提出三个要求:(1)功能更丰富,支持更多的功能,更强大的算力;(2)续航更持久,包括更低的IP功耗、更高效的数据交互、更低的带宽需求、更低的外部存储空间要求;(3)质量轻便,佩戴舒适,面积更小。 芯原股份多年来深耕可穿戴市场,紧跟市场需求开发适配的IP和系统,每一个IP也提供了足够多的可配置选项。针对可穿戴产品需求,芯原提供不同系列可配置小面积、低功耗可穿戴像素处理IP,已适配不同的产品需求,还开发了能够满足低功耗、低带宽等需求的系统互联IP。客户可根据产品需求灵活搭配这些IP来搭建可穿戴方案。 芯原可穿戴方案基于紧耦合系统架构,提供灵活的硬件方案和精简的软件代码和配套,从三个层面上提供支持:第一,芯原可穿戴IP系列灵活可配置,可适配不同产品需求;第二,系统层面上FLEXA技术、压缩技术等可以更高效灵活地连接可穿戴IP系列;第三,针对可穿戴应用的特点,专门定制开发了适配的精简Lite版IP软件,它有极小的代码、极小的外存空间占用、极低的CPU负载,支持RTOS、Linux、安卓多操作系统。 例如,在有限的PSRAM带宽、空间和简单控制器等限制下,芯原可穿戴方案帮助某客户极大减少PSRAM访问,以节省PSRAM带宽和空间,从而减少系统功耗,并通过DECNano的应用使用有损压缩技术减少部分通路下IP访问PSRAM的数据量和数据空间,最终实现系统性能、系统功耗、IP交互带宽、PSRAM空间等指标的显著优化。 芯原极低功耗技术已被AR/VR产品广泛采用,在极低功耗技术方面的合作超过5年,在IP、ASIC方面深度合作,可穿戴方案已成功落地在包括AR/VR、智能手表、AIoT设备等各种可穿戴项目。 芯原股份NPU IP研发副总裁查凯南分享了芯原AI计算IP产品阵容。其高效推理NPU能够运行1.5B Qwen2、7B Llama2、70B Llama3等模型。 当前AI/AR眼镜面临技术和生态挑战,在平衡功率、性能、面积方面,需探索如何更好地扩展 SRAM/DRAM;协同训练方面,需探索从哪里获得数据来蒸馏更小的模型,以及如何评估模型/系统的组合;软件方面,需探索机器学习框架是否需要更改以支持分布式神经级联。 生态系统方面的挑战包括不断变化的模型、多样化的硬件环境,以及如何让生态系统协同工作。 芯原股份片上系统高级设计总监郝鹏鹏分析了当前AI眼镜的芯片方案。从某款AI眼镜的成本分析来看,SoC芯片部分仍占成本大头。 当前主要芯片方案分三类: 1、大而全:包含CPU/GPU/NPU/ISP/Display,优点是性能强大、可扩展性高、集成度高,缺点是价格高、功耗难以优化、续航时间短、存在技术支持和供货问题。 2、小而精:突出某一方面功能(音频为主),优点是价格低,缺点是功能单一、需要搭配其他芯片拓展、没有或只有极少的AI能力。 3、中间:功能性能和价格均处于中流,缺点是仍需搭配其他芯片实现功耗的平衡和功能的加强,AI能力不足,可拓展性受限。 芯原AI眼镜芯片设计方案依托芯原IP以及软硬件设计服务和量产平台,根据客户需求实现个性化定制,通过丰富的高性能IP储备、低功耗设计经验、一站式软硬件设计量产服务,实现性能、续航、成本的综合衡量,初期以无显示或轻量级显示为主,支持实现超过8小时的综合使用时间、大约30克的重量、端侧小模型处理能力、1080p图像处理。 该方案的特点包括:强化端侧AI能力,多核异构系统,层次化大小核功能设计,细致的电源域划分,有针对性的定制。其通讯能力通过独立CP外挂实现,优点是更加灵活,能更好地实现成本和功耗控制。 独立AI算力是一大重点,有灵活的算力配置,支持单核独立或多核协同,适合高性能大模型处理,可实现视频/音频Token生成。 其视频图像处理会有硬件AI-ISP,显示处理也通过嵌入AI处理提升分辨率。AI-ISP可单独处理standby状态下的视频/音频输入,支持轻量级AI处理和传感器数据处理,并通过自定义硬件加速、多核DSP、异构Vision Core实现可扩展。 对于要全天候佩戴的轻量级眼镜来说,功耗是一个非常重要的指标。郝鹏鹏分享了一个AI眼镜设计实例。根据AI眼镜的应用场景不同,芯原做了一些大小核和不同电源域,全芯片电源域超过20个;待机功耗仅3.8mW;在更低的RTS模式下,功耗只有5uW;小幅面低帧率完全不需要DDR,节省了相当大的功耗。 四、AI/AR眼镜面临三类核心痛点,短期需在功能上做取舍 炬芯科技穿戴和感知事业部总经理张天益进一步探讨了智能手表与眼镜的趋势。当前炬芯科技Actions 3.0的核心是为电池驱动的端侧AI装置打造低功耗下的大算力。炬芯科技的产品聚焦在音频四大场景,包括人、电视、电脑、车周边应用场景。 张天益引用了来自市研机构Canalys的数据,提到当前全球可穿戴腕带市场稳步增长,其中中国智能手表市场增势强劲,基础手环迎来复苏。 据Canalys统计,2024年全球可穿戴腕带设备出货量1.93亿部,同比增长4%,连续两年实现增长;中国市场出货量占全球30%,同比增长20%,第四季度激增50%。基础手环是市场增长主要动力,在市场调整后逐渐复苏,吸引入门级用户,拓展市场份额,2024年增长8%,向商务、运动等方向转型。 据他分享,智能手表有三类痛点:一是运动健康监测精度待提升;二是用户界面体验不好,开发门槛高;三是应用生态不完善。“AI+”将智能手表重新打造,带来健康监测、交互界面、应用生态的迭代升级。 智能眼镜也有三类核心痛点:一是”不可能三角”矛盾,续航与重量、算力与功耗存在矛盾,难以同时满足用户全天候佩戴和高性能需求;二是交互体验不足,会出现延时长、响应慢等问题,多模态交互成熟度低,生态割裂,影响用户使用体验和应用场景拓展;三是未来隐私与伦理争议,摄像头引发隐私担忧,数据安全存在风险,需完善相关法律与伦理规范。 以Meta雷朋眼镜为例,续航大约3-4小时,如果全程录像可能续航只有30分钟。而如果要做到全天候佩戴,续航至少要做到十几个小时。目前AI眼镜大约50克的重量也令用户有些吃力的,如果降到30克,大家可能会比较满意。但目前的设计还难以做到兼顾。 基于这些痛点,张天益认为未来3-5年很难做出一个我们想象的AI+AR全功能眼镜,而是要在一些功能点上做取舍,例如:(1)带不带光机和波导;(2)重拍照还是重AI;(3)要不要先聚焦细分市场。 他谈道,智能眼镜芯片技术路径覆盖ISP/SoC、BT MCU、WiFi等。炬芯提供基于SRAM模数混合的存内计算,GEN1 MMSCIM功耗表现优势显著,相比HiFi DSP,在环境降噪上可将功耗降低98%,在语音识别上可将功耗降低93%。 万有引力(宁波)电子科技有限公司联合创始人、芯片研发负责人陈一敏认为,XR会是下一代通用计算平台,这也是万有引力的使命与愿景——为下一代空间计算提供完整的端到端解决方案。 万有引力成立于2021年,由十几位硅谷工程师一起回国创办,目前由220名员工。其业务包括芯片、整机、算法(眼动、手动、SLM等)。据陈一敏分享,万有引力计划今年发布X100全功能空间计算MR芯片、VX100 AI/AR眼镜芯片,下一代XR芯片将在明年推出。 陈一敏说,AI/AR眼镜已是公认的最佳多模态AI数据入口。AI/AR眼镜场景在2024年非常火爆,重量达到50克或更轻,Meta雷朋眼镜出货量达到300万,国内2025年将出现百镜大战。万有引力的VX100 AI/AR眼镜芯片将兼具小型化、支持拍照与录像、低功耗、全天候AI等特点。 他提到在AR芯片关键IP上选择芯原IP是基于多重考量:首先,芯原有成熟的工具链和客户支持;其次,芯原支持差异化定制,有助于强化竞争力;第三,芯原IP可靠性高,风险低;第四,芯原在XR领域具有市场影响力,选用芯原IP对客户来说是加分项,因为有很多成功案例的背书。 五、AI/AR眼镜老玩家只是略有领先,行业亟需专用接口标准 圆桌对话以“AI眼镜的机遇与挑战”为主题,由芯原股份战略投资副总裁南婧主持。 南婧首先分享了AI智能眼镜的四大类:(1)无摄像头、无显示智能眼镜,如李未可Meta Lens;(2)无摄像头、带显示智能眼镜,如魅族StarV Air2;(3)带摄像头、无显示智能眼镜,如Meta雷朋眼镜;(4)带摄像头、带显示智能眼镜,如Rokid AI眼镜。 哪类AI眼镜会在短期内更受市场欢迎?Omdia高级分析师林麟认为,两三年内,AI眼镜肯定要有摄像头,因为很多用户有发朋友圈的需求;显示短期内不是刚需,因为光学方案和显示技术还不足以达到令人满意的程度。 南婧提到当前AI眼镜的人机交互方式有触摸、语音、显示、手势识别、眼动交互等,但也面临“不可能三角”的困境——续航、重量、算力难以兼得。哪种人机交互方式会更符合现在的要求? 在恒玄科技市场副总裁高亢看来,AI眼镜的输入方式应是多样的,AI眼镜交互需要支持较大的信息量输入,包括无线连接可实现多设备协同的多模态输入和输出。 炬芯科技穿戴和感知事业部总经理张天益补充了DeepSeek对这个问题的回答:短期内主打语音交互和轻量显示,如果能逐步引入基础手势功能会更好;长期应该是一个全彩空间计算+多模态交互。他觉得这个答案比较中规中矩,认为眼镜重点是“轻”,有些交互可以考虑放到其他智能设备上。 第三个问题涉及AI眼镜芯片:当前AI眼镜主要有SoC、ISP+MCU、SoC+MCU三类方案,两年内哪种方案更容易成为AI眼镜的主流方案? 恒玄科技市场副总裁高亢、炬芯科技穿戴和感知事业部总经理张天益都认为两年内ISP+MCU综合来看会是更优选,能够提供更多的想象空间和落地场景,同时考虑到行业内很多应用生态跟IP处理器相关,所以SoC也不会被取代。 针对AI眼镜选择定制芯片方案还是标准产品芯片方案的问题,芯原股份执行副总裁、定制芯片平台事业部总经理汪志伟说,当前AI眼镜芯片方案五花八门,市场并未形成一个标准方案,这是因为对AI眼镜的定义还不明晰,没有出现能让大家设计一颗比较通用的芯片方案的单一海量市场。 他比较看好两三年后,找准市场定位、能够把产品定义好的公司与芯原一起定义一颗芯片,解决重量和功耗问题,因为目前市场上没有一个芯片能够满足AI眼镜低功耗和轻重量的需求。芯原股份首席战略官、执行副总裁、IP事业部总经理戴伟进补充道,AI眼镜行业在较长一段时间会需要定制方案。 现有AI眼镜产品通常续航仅有2-4小时,针对如何从系统层面降低整体功耗的问题,广东省横琴数字光芯半导体科技有限公司董事长兼创始人孙雷分享说,系统功耗与接口密切相关,但在AI/AR眼镜领域缺乏专用接口标准。 据他分享,三片式合光Micro LED+光波导方案将是AR在5-10年内的主流方案,AR设备电池体积有限,对重量、功耗有极致要求。MIPI接口是为单片彩色显示器设计的视频流传输规范,在AR眼镜场景下FPC传输距离长(30cm),分辨率逐步提高,从480P(30万像素)向1080P(200万像素),如果采用DSC进行压缩,会导致显示端解码功耗上升。 为应对未来发展的挑战,中国亟需建立自己的行业标准。为此芯原和数字光芯合作打造了AR处理器接口标准(ARPI),适用于三色合光系统视频传输,相比MIPI接口方案可节省2/3的带宽。 近期大模型在云端大规模训练后,可通过模型蒸馏、剪枝压缩等手段,在保持可用精度前提下显著缩小模型体积,使得移动端、PC、可穿戴设备等资源受限的硬件上也能进行推理,满足实时性、隐私与安全、成本优化、网络带宽与可用性等需求。 那么如何在眼镜形态下部署生成式AI?边缘计算与云协同的平衡点在哪里?芯原股份首席战略官、执行副总裁、IP事业部总经理戴伟进认为,眼镜只是计算机的一个部分,它是和手机和服务器一起协同的。 当前“百镜大战”的玩家,既有小米、vivo这样的手机厂商,也包括百度、字节这样的互联网大厂,还有Rokid、雷鸟等专注于做AI/AR眼镜的老玩家。 哪一类玩家会占据更多AI眼镜市场份额?对此,上海道禾源信私募基金管理有限公司副总经理、董事总经理傅琰琰谈道,一个理想型眼镜公司具备四个特点:有手机,有端侧模型,有云端模型,有IoT生态。她认为自带高算力、带云端算力的企业天然有优势,传统硬件厂商也积累了相当深厚的经验,预计3-5年有大模型、有云端能力的手机大厂的机会要大于纯互联网大厂、纯硬件大厂的机会。 她进一步补充说,因为现在的业态很丰富,如果这个格局成立的话,那么纯硬件厂需要快速找到自己的合作伙伴,不断迭代产品,当用户心智已经被完全占领后,可能还会有一些新锐硬件厂用一些特殊方式解决一类特定需求,或许还会有一些创业机会。在任何命题下,时间窗口都是一个很重要的约束条件。 林麟认为,AI/AR眼镜的老玩家只是略有领先,但现阶段小小的领先不代表什么,很难依照现有这些公司所取得的成就,判断它们将来能够走到什么样的地步。主观上,他并不希望再出现手机厂商继续独打天下的场面,反倒希望“三足鼎立”的情况能够持续得尽可能久一些,让这三类不同公司做出不同类型、不同特色的产品,这对于广大消费者来说将是福音。 高亢从行业角度出发,谈到过去几年,手机厂商在耳机、手表等领域取得很大的领先优势,但并没有把市场统一。眼镜与手机厂商拥有很大的优势,如果能够找到自己的特点,有可能会出现新的大玩家,也有可能到最后,有的手机厂商会掉队,反而单独的硬件厂商或互联网厂商会起来。眼镜有趣的地方就在于行业还有机会,目前没有人能够遥遥领先、一统天下。 结语:AI/AR眼镜发展迎来关键之年 随着科技发展,以AI/AR眼镜为代表的智能可穿戴设备正逐步成为连接虚拟与物理世界的重要载体。这些设备可以实现更自然的人机交互和越来越强大的本地AI处理能力,给人们的生活及社交方式带来了全新的升级体验。 2025年极有可能成为AI/AR眼镜极具里程碑意义的一年。更多大厂及新锐企业的入局,不仅能够加速AI/AR眼镜产品的成熟,而且将显著提升消费者的整体认知度。谁会成为AI/AR眼镜大战的阶段性赢家,产业走向令人期待。
DeepSeek公布推理引擎开源路径,承诺将核心优化注入vLLM生态
“源神”DeepSeek 又有新的开源动作了。4 月 14 日,DeepSeek 悄悄在其 GitHub 的 open-infra-index 库中公布了其自研推理引擎的开源计划。在公告中,DeepSeek 表示,他们并不会选择直接开其内部完整且高度优化的代码库,而是将采取一种更侧重协作、更具可持续性的策略,将其核心优化成果贡献给现有的开源项目,尤其是作为其技术基础的 vLLM。 DeepSeek 在其公告中首先对开源生态系统表达了诚挚的感谢,承认其在模型训练(依赖 PyTorch 等框架)和推理引擎构建(早期基于 vLLM)方面都深受开源社区的裨益。随着自研的 DeepSeek-V3、DeepSeek-R1 等模型展现出强大的能力,市场对其高效部署方案的需求与日俱增,促使 DeepSeek 思考如何将自身的进展回馈给社区。 图丨公告原文(来源:GitHub) 然而,在评估了直接开源内部完整推理引擎的可行性后,DeepSeek 认为存在几个关键障碍。首先是显著的代码库分歧。其内部引擎源自一年多前的 vLLM 早期分支,经过长期针对 DeepSeek 模型的深度定制优化,已与 vLLM 主线或其他通用推理框架产生巨大差异。直接开源此版本不仅难以被社区广泛应用和扩展,维护成本也极高。 其次是基础设施强依赖。该引擎与 DeepSeek 内部的集群管理系统、特定的硬件配置和运维流程紧密耦合,外部用户几乎无法在标准环境下直接部署,需要进行大规模重构才能剥离这些依赖,这违背了开源项目通常追求的易用性原则。 最后是有限的维护带宽。DeepSeek 坦言,作为一家以模型研发为核心的团队,他们缺乏足够的资源来长期维护一个需要持续投入、支持广泛用例的大型开源项目。贸然发布可能导致项目后续支持不足,损害用户体验。 面对这些现实制约,DeepSeek 选择了与现有开源项目(特别是 vLLM)紧密合作的路径,以更灵活、更易于集成的方式分享其技术积累。具体策略包括提取可复用的独立特性,将其模块化后作为独立的库贡献出来;以及直接分享优化细节,向 vLLM 等项目贡献设计思想、实现方法甚至具体的代码补丁。 这一合作策略获得了社区的普遍理解和积极响应。vLLM 项目官方账号在社交平台 X 上明确表示支持,认为 DeepSeek“以正确的方式开源引擎”,即将改进带回社区使人人受益,而非创建一个独立的仓库。技术社区的讨论也倾向于认为,这种分享“know-how”和可集成模块的方式,比发布一个难以维护的代码“僵尸”更有价值。 图丨相关推文(来源:X) 社区对 DeepSeek 贡献内容的期待值很高。此前已有分析指出,vLLM 在吸收 DeepSeek 2 月的“开源周”所公布论文中的部分优化后,处理 DeepSeek 模型的性能已有显著提升(约 3 倍)。 图丨不同 LLM 服务框架中每秒令牌数的性能提升,突显了 vLLM 中的优化。(来源:Red Hat) 而根据 DeepSeek 此前公布的推理系统内部测试结果,每个 H800 节点在预填充期间平均吞吐量达到 73.7k tokens/s 输入(包括缓存命中),或在解码期间达到 14.8k tokens/s 输出。相比之下,有开发者使用 vLLM 在高并发下,使用 sharegpt 数据集时基准测试约为 5K total tokens/s,随机 2000/100 测试达到 12K total token/s 的吞吐量。这表明推理性能优化领域仍有巨大提升空间。 值得注意的是,DeepSeek 在公告中特别澄清,本次宣布的开源路径仅针对其推理引擎代码库。对于未来模型发布,公司将继续秉持开放协作的态度,致力于在新模型推出前与社区及硬件伙伴同步推理优化工作,确保社区能在模型发布首日(Day-0)获得最先进(SOTA)的推理支持(或许这项工作也是为不久后到来的 R2 做铺垫)。其最终目标是构建一个同步生态,让前沿 AI 能力能在多样化硬件平台上无缝落地。
字节AI Lab将全部并入Seed
字节整合 AI 研发团队,Seed 内部组织架构再生变动。 作者丨梁丙鉴 编辑丨马晓宁 AI 科技评论独家获悉,字节 AI Lab 即将全部收归 Seed 团队下。 字节 AI Lab 是 Seed 成立之前字节主要的 AI 研发部门,目前由李航管理,自2024年开始向 Seed 时任负责人朱文佳汇报。今年2月下旬,原 Google DeepMind 副总裁吴永辉入职字节,成为 Seed 基础研究负责人。此后李航的汇报对象变为吴永辉。 字节 AI Lab 成立于2016年,最初由微软亚洲研究院前常务副院长马维英负责,直接向张一鸣汇报。 AI lab 目前有多个子团队,包括机器人、AI4S 等方向,几乎覆盖人工智能领域所有前沿技术研究。2018年其团队规模达到150人,为字节跳动AI研究的核心部门。 AI Lab 主要研究重点是开发为字节跳动内容平台服务的创新技术,字节推荐算法、短视频特效等功能均脱胎于此。其研究成果应用于今日头条、抖音等产品,是支持抖音成长为国民级应用的基石,并奠定了当时字节在国内AI领域的领先地位。 随着抖音、TikTok 占据绝对优势的市场地位,流量商业化成为字节面临的 Top 级问题,AI Lab 在字节内部重要性下降。2020年,AI Lab 定位从集团级前瞻性项目转为技术中台,为字节商业化团队业务提供支持,马维英的汇报对象也从张一鸣变为抖音负责人张楠。 2020年年中,马维英离开字节,AI Lab 负责人一职由李航接任至今。之后团队重组,2023年开始,AI Lab 下属负责大语言模型的 NLP 组及开发视频生成模型的 PixleDance 被先后转入 Seed 之下。 同时为了应对新一轮大模型竞争,字节决定回归“始终创业”的价值观,建立独立的新组织,于是加快筹建了独立于原有组织架构的 Flow 和 Seed,前者做 AI 产品,后者做大模型研发。截至2023年底,两者已成为与抖音、TikTok、火山引擎等字节各大业务平级的组织。 Seed 自成立就在不断吸纳来自字节内外的人才。除收拢搜索、AML、AI Lab等内部部门中大模型方向人才外,对外也在积极争抢人才。以面向应届博士的 Top Seed 招募计划为例,字节会给优秀候选人 3-1 职级,薪资不低于百万元。截至2024年底,字节 AI 研究者中超 40%比例是近两年加入的新人,对人才的渴求和重视程度可见一斑。 根据AI科技评论调查,加入字节以来,吴永辉已在字节署名三篇论文,均在强化学习方向。 AI科技评论此前获悉,吴永辉于上月在 Seed 内部新建虚拟小组、缩短了汇报流程,创建一个更扁平的汇报体系,此次 AI Lab 将全部并入 Seed,也是吴永辉调整内部组织架构的一个重要举措。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。