EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
学而思学习机智能助手“小思”升级:新增作业模式、圈圈学等功能
凤凰网科技讯(作者/刘俣辰)5月31日,学而思学习机内置智能助手“小思”正式全新升级,新增了作业模式、圈圈学、AI口语分级练、小思对话等AI功能,在多个学习场景中为孩子和家长提供帮助。 据介绍,小思作业模式有多样化的作业布置方式,可以自己拍照添加,也可以喊家长通过家长端添加;在开始写作业之后,会有任务计时、背景轻音乐,打造高效自学的绿色学习环境。写完之后,可以拍照提交作业,同步到家长端。 除了专注场景,作业模式还提供了多款实用工具。如果写作业过程中遇到不懂的问题,随时可以呼唤“小思小思”,比如不认识的字和单词,小思可以给出提示,如果数学题不会,小思会给出思路引导并进行主动提问,帮助孩子解决问题。听写背诵、口算批改等原本需要家长参与的任务。 此外,在家长端,有视频伴学、作业报告分析等多项功能,让家长实现远程伴学,帮助留守儿童、老人带娃、父母工作繁忙孩子独立学习的家庭获得教育与陪伴。 同时,除了作业模式,小思伴学还新增了“小思圈圈学”功能和AI口语分级练。据悉,“小思圈圈学”是学而思学习机开发的创新式屏上答疑方案,随时随手一圈识别,即可实现数学题目思路指引、英语翻译、生字讲解等,即刻答疑解惑。 “AI口语分级练”是基于大语言模型的英语口语练习功能,考虑学龄孩子的具体学情,独创渐进式AI口语对话,并让AI人设具备更强的亲和力,缓解孩子开口难、不爱说的问题。同时,根据新课标要求,筛选出适合学生练习的主题话题,参考权威剑桥系列考试口语标准,分层次组织成阶梯内容体系。 除了上述三项功能升级,小思还有其他方面的改变升级。 一方面是“小思建议”,能根据每个孩子的学习行为记录,包括做过的题、看过的课、每次语音互动等,来提出个性化的学习建议。这些建议遵循艾宾浩斯遗忘曲线,并且背后有包含动机、能力、提示三大版块的行为模型,来引导孩子在恰当的时间进行恰当的学习,自驱养成好习惯。 另一方面是“小思对话”的全方位升级,全线升级后的小思对话支持连续式话题问题,并上新了记忆式系统,昨天聊过的话题,今天仍可触发后续对话,让孩子感受到陪伴和情感支持。 小思还新增了情绪识别系统和科学育儿模块,可以根据孩子提问的声音、状态,识别孩子当下情绪属于开心、害怕、悲伤还是生气,并给予对应语气回应。 在此基础上,小思会通过对话记录,挖掘孩子兴趣、发现其优势,在家长端提供成长报告和养育建议,家长可以了解到孩子的学练行为。
罕见同台:xAI、Llama 3和Mistral的核心科学家对谈,详解三家最强模型
作者|张潇雪 在硅谷叫一辆Uber,极大概率司机会和你聊到AI。 如今铺天盖地的信息轰炸,营造出一种生成式人工智能步入全盛时代的氛围。而对于真正身处其中、手搓大模型的开发者们来说,他们思考的却是现实世界里仍待解决的技术挑战与边界。 GenAI 旧金山峰会第一天,xAI联合创始人Tony Wu,Llama 2和Llama 3联合作者Sharan Narang,以及Mistral AI研究科学家Devendra Chaplot同场的小组讨论异常火爆,吸引了众多硅谷AI开发者。 三位都是资深技术专家,也都是业内顶尖模型的缔造者,各自带领一支炙手可热的AI团队:马斯克旗下xAI刚刚宣布完成史上最大的60亿美元B轮融资,估值180亿美元风头正盛;Llama独自顶起开源模型半边天,蓄势待发的Llama3-400B被视为“可能改写人工智能生态版图”;而欧洲最火AI公司Mistral凭实力获得微软垂青,在较小尺寸模型的开发上马不停蹄、一路狂奔。 在这场时长40分钟、主题为「A Deep Dive into the State-of-Art LLMs」的分享中,Tony、Sharan和Devendra透露了各自公司的最新动向,深入讨论了模型预训练、数据质量及合成数据、多模态模型挑战和Transformer创新替代架构,预测2025年的人工智能突破,也对观众关于小模型企业用例、杜绝幻觉与偏见和Mamba架构的提问进行了解答。 要点总结: 各家动向:xAI将把融资用于建设拥有10万个H100芯片的数据工厂;Mistral AI最新推出掌握80种编程语言的新模型Codestral;Llama3很快会发布400B参数版本和研究论文以供社区学习。 数据收集与质量:预训练数据需考虑数量、质量和多样性,评估和反馈机制是关键。合成数据有助于提升数据质量,有助通向AGI,但生成时需防止传播偏见和错误。 Transformer架构及替代方案:Mistral AI一直努力研究新架构,Transformer目前最适合扩展,替代方案需证明其在大规模上能与Transformer竞争,Mamba架构有前途但仍需优化。 模型规划和推理能力:强化学习可用于提高性能,多模态模型的计算量是主要挑战,需提高数据效率。 偏见和道德标准:使用基准测试能减少模型偏见,预训练和后期训练阶段可加入缓解措施。 未来预测:2025年数字代理和具身智能将会日趋成熟,合成数据将发挥关键作用,希望模型的持续改进和新技术超越当前扩展法则。 1 以下为硅星人整理的现场对话实录: Sharan Narang:我是 Llama团队的研究经理,领导Llama预训练工作,并参与了Llama 2、Llama 3及后续项目的开发。非常高兴能在这里和大家讨论。 Devendra Chaplot:我是Mistral AI的研究员,参与了Mistral AI发布的所有模型。最近一直在研究多模态模型。 Tony Wu:我来自xAI。加入xAI之前从事数学推理工作,现在xAI也是如此,但更多是在基础方面。 Minfa Wang(主持人,CTO of 1Gen Labs):太棒了。我想先从一些个人故事和成就开始。首先是Tony。最近xAI刚刚宣布了60亿美元的B轮融资,祝贺你们。你能谈谈这次融资将如何推动xAI的下一步发展吗? Tony Wu:是的,我们非常幸运地获得了这次融资,这是很大一笔钱,所以我们想要非常明智地使用它。我想现在唯一明智的花钱方式就是把钱给NVIDIA对吧?所以我们将建设一个数据中心,这是公开信息,我们将在未来几个月内建设这个数据中心,它将拥有大约10万个H100芯片。这将是迄今为止最大的单个数据中心,由包含10万个芯片的单一集群组成。这将使我们能够训练出我认为是最强的模型。 Minfa Wang:谢谢分享。Devendra,上个月Mistral AI发布了Mixture 8x22B,这是Mistral AI迄今为止发布的最大和最新的模型。你能简单介绍一下这个新模型的关键特性和亮点,以及你和Mistral AI接下来的重点工作吗? Devendra Chaplot:上个月我们发布了基于稀疏混合专家架构的Mixture 8x22B模型。我们设计这个模型的主要目的是优化每个参数的性能。因此,我认为我们的模型在性价比方面是最优的。其实我们今早还发布了一个新模型,叫Codestral,这是一个专门为编程训练的模型,掌握了80种编程语言。它可以用于指令或人类聊天提示,也可以进行代码补全。这意味着你可以在编辑器中将其作为编码助手使用。它与VS Code和JetBrains集成,并且在发布当天可以在我们的API上免费使用八周。 Minfa Wang:这很酷。那么这个模型会进化成某种垂直基础模型吗?比如,它是否会作为基础设施层为从事AI软件工程的公司服务? Devendra Chaplot:是的,我们希望为开发人员和AI构建者提供最好的体验,以便他们能开发出下一代AI应用程序。这是我们创建一个强大的代码模型的动机,不仅在编程时帮助开发人员,还可以使用这个模型构建新的代理技术应用。 Minfa Wang: 接下来是Sharan,现在Llama3已经成为新闻焦点,感谢你和团队为开源社区的杰出贡献。你能简要介绍一下Llama3的关键特性和用例吗?还有关于神秘的400B参数模型,有什么可以分享的吗? Sharan Narang: Llama3是一个非常出色的团队合作成果。我们希望在许多方面推动边界。从小模型开始,我们希望看看能将它们训练到多远,能提高多少。8B和70B参数的模型现在向所有人开放,我认为它们在计算规模上非常强大。所有三个模型都是非常好的通用模型。我们的目标是构建最好的基础模型,所以希望它们在所有方面都表现出色。我们正在开发400B 参数的模型,这是一段冒险之旅,团队做得非常棒,我们很快会有更多的消息分享。我们希望发布一篇研究论文,详细介绍它,以便社区从中学习。所有这些都即将发布,我希望它能给所有在这个领域工作的人带来启发。 1. 数据收集与质量: Minfa Wang:我们期待这篇研究报告。接下来我想深入探讨一些技术主题。在模型构建工作流程中,数据是所有模型研究的基石,也是发现扩展法则的前提。谈到数据收集,既要考虑质量,也要考虑数量。在预训练中,我们显然需要大量的数据。在后训练中,质量也是关键。各位有没有关于如何获取高质量和大规模数据的技术可以分享?你们使用哪些技术,如何做到? Sharan Narang:我可以先谈谈预训练。在预训练中,我们考虑数据的数量、质量和多样性。我认为这三者都很重要。用大量低质量的数据训练出一个糟糕的模型其实很容易。因此,考虑这些因素非常重要。这里的挑战在于数量是一个可以量化的指标,很容易报告出来,大家也会关注这个指标。而多样性和质量则复杂得多。在Meta,我们非常重视后两者。我们依赖扩展法则和数据消融来确保我们数据集的质量和多样性都达到标准。数据是任何模型的基础,我们希望构建最佳的数据集来训练这些大型语言模型。 Devendra Chaplot:我认为人们往往低估了数据质量,尤其是在预训练期间。人们认为只要向模型投入更多数据,它就会变得更好,但我们发现数据质量在预训练中也起着非常重要的作用。如果你想让一个特定规模的模型表现最佳,质量是最重要的。如果你以更好的形式整理数据,你可以从一个非常小的模型中提升性能。 Tony Wu:是的,补充一下前两位的分享,我认为有两点需要注意。首先,评估在确保数据质量方面非常重要。你需要有某种反馈机制,以迭代地提高数据质量,这对预训练和后训练都适用。定义评估标准是一个非同寻常的问题。特别是对预训练来说,这是一个更普遍的任务,人们看重学术基准,但这些基准可能会受到污染。因此,这些都需要认真考虑。第二点是,一旦你有了一些初始模型,你也可以用它来改进数据质量。这也是一个迭代过程,你可以使用较旧、性能较差的模型来整理数据集,从而获得更高质量的数据,然后训练出更好的模型。这是一种自我改进的循环。 Minfa Wang:谢谢分享。作为一个曾经从事微调工作的人,我理所当然地认为预训练模型会有很好的质量,觉得预训练只需要数量,但显然多样性和质量也非常重要。这非常有见地,还有评估过程。接下来我想问关于专有数据和特定应用数据的问题。这可能更与Tony相关,考虑到xAI与x.com的特殊关系,xAI可能有某种推特数据的访问权限。这种专门数据会带来优势吗? Tony Wu:这是个好问题。我不负责法律方面的问题,所以在法律方面可能有更合适的人来回答。但就这些数据带来的好处而言,我认为有两点。首先最大的优势是这些数据可以让我们的模型访问最新、最鲜活的X平台信息。我们与X公司合作,建立了Grok,能够检索相关的推文或帖子,为用户提供最新的信息。第二点是,在推理期间,你可以让模型检索和总结信息,但也有可能是你想将某些特定功能内置到模型权重中,比如让模型理解X上的特定内容。所有这些知识可以通过微调甚至预训练过程来获取,以便模型更好地理解平台上的动态。所以,总结来说,我认为我们有特权访问的数据使我们能够向用户提供更新鲜的结果。 Sharan Narang: 我同意Tony的观点,将专有数据添加到预训练中很棘手,除非数据已经经过审核且质量保证。预训练非常昂贵,相比之下,在后期训练中添加特定应用数据更容易。 Minfa Wang:有个相关的问题是,如果有特定应用数据并在后期训练中微调,会不会损害模型的通用知识,比如通用推理能力?如何权衡模型能力的不同方面? Tony Wu:这取决于你是否需要模型仍然具有通用能力。如果有非常具体的应用,有时不需要模型具有那么广泛的通用性。另一方面,如果你有一个非常好的基础模型,虽然运行成本会更高,但这个模型在微调后仍然会非常通用。 Sharan Narang: 你可以通过微调添加一些能力,而不会失去预训练期间获得的通用规划或推理能力。但谨慎的后期训练非常重要。 2. 数据稀缺问题、怎样看待合成数据 Minfa Wang:下面是一个相对有争议的话题,随着我们几乎用尽互联网上的数据,是否会遇到数据稀缺的问题?合成数据会是解决这个问题的方法吗? Devendra Chaplot:我认为我们短期内不会遇到数据稀缺的问题。目前训练的模型几乎只用了开放网络上一小部分的数据,我们现在只是在玩文本数据。还有大量的图像、视频、音频数据,然后当我们能够扩展到所有这些多模态模型时,还有数字行为、物理行为等可以利用。所以我认为短期内不会有数据数量的问题,但我仍然认为合成数据在提升整体数据集质量方面是有用的。你还可以使用半合成数据,通过模型来改进你的原始数据,例如进行分类、重述、摘要等操作,以提高数据质量。 Tony Wu:我对这个问题有比较强烈的看法。我在合成数据方面工作了一段时间,我确实认为这是通向AGI的道路。尽管从长远来看,我们可以从开放网络获取更多的tokens,但考虑到当前的扩展速度,每年计算能力(flops)可能会增加10倍,至少也会增加5倍,而数据增长可能需要以平方根的速度增加,也就是两到三倍。因此需要收集、爬取和处理大量数据。我个人认为,如果能找到一种方法让合成数据在预训练中起作用,意味着它可以很好地扩展,那么我们就不需要一直从互联网收集更多数据,或总是遇到数据短缺的问题。这个问题已经迫使我们进行思考。X.AI正在建立一个拥有10万个H100芯片的数据中心集群,预训练需要大量数据。因此,我们必须投入大量精力来使合成数据起作用。 Sharan Narang:我同意他们两位的观点,数据量很大,合成数据可以发挥很大的作用。我认为在生成合成数据时,需要非常小心,因为很容易将先前训练模型的偏见和错误传播到下一个模型中。因此拥有一个良好的策划流程,并确保你能捕捉到先前模型的错误和偏见是非常重要的,否则我们可能会陷入同样的困境。 Tony Wu:再补充一点,如果我们有一天希望这些模型或机器真正具备像人类甚至超越人类的智能,它需要能够生成非常新颖、原创的内容,以某种方式成为自我改进过程的一部分。那么我认为,你不能从人类大规模地获取高质量的推理数据,唯一的生成方式是通过合成数据。 Minfa Wang:对于合成数据生成,你们认为会有人类参与其中,还是完全由模型自我生成和自我改进?现在社区中也有一些怀疑论者,他们认为如果模型纯粹为自己生成数据,就没有真正的新信息输入模型中。 Tony Wu: 我认为有不同类型的合成数据。正如之前提到的,我们可以进行简单的、半合成的数据生成,比如重写、重述,这几乎是相同的信息内容。但这几乎可以被视为一种不同的数据增强方法,只是增加数据量以使模型更壮大。但最终,一旦超越这一点,我认为某种反馈循环需要发生。无论是来自人类的反馈,还是来自机器本身或其他验证工具的反馈,这是生成大量高质量数据的真正途径。 Sharan Narang: 我们已经在后期训练中看到这一点了,对吧?我们用于RLHF(强化学习奖励模型)循环的数据都是由人类验证的合成数据。因此在预训练中进行某种反馈也是非常有价值的。 3. Transformer架构与替代创新 Minfa Wang:谢谢分享。接下来我想谈谈模型的问题。Transformer模型是在2017年那篇《Attention Is All You Need》论文中出现的,自那以后,它就占据了整个行业的主导地位。现在它已经无处不在,大家都在使用它。然而,不时会有一些创新的模型架构被提出,挑战Transformer的地位。你们是否进行过关于Transformer替代方案或模型架构搜索的研究?你们觉得这值得继续探索吗,还是认为Transformer足以引领我们最终实现AGI? Devendra Chaplot: Mistral AI确实在新架构研究方面做了不少工作。比如稀疏专家混合模型,这仍然是基于Transformer架构,但在某些方面有很大不同,因为它帮助你在内存需求和推理速度之间取得平衡。学术界定期会提出新的架构,那些看起来有前途的我们也会尝试。关于Transformer是否是最终的解决方案,我认为不是。我认为在我们实现AGI之前,这个领域会有更多的创新。 Sharan Narang: 我可能会分享一些不同的看法。我花了大约两年时间与一个相当大的团队一起努力尝试构建更好的架构,但我们得出的结论是,Transformer是最适合扩展的模型。我认为所有新的架构都值得在学术界进行探索,但在它们能够扩展并与Transformer竞争之前,还有很多工作要做。人们应该继续研究这些新架构,并且要考虑扩展法则,不仅要在简单任务上显示评估改进,还要覆盖广泛的任务。展示这些改进不仅在小规模上有效,在大规模上也能保持优势,才可以与Transformer相比。至于Transformer是否能带我们实现AGI,这取决于你对AGI的定义。有些人可能会认为我们已经实现了某种形式的AGI。但如果你说的是高度智能的通用代理,那么可能我们还需要更多。 Devendra Chaplot:我明白这个观点,但我也理解那些构建新架构的人的感受。人们总是将新架构与Transformer进行比较,但Transformer已经过了多年优化,我们有专门为Transformer架构构建的硬件,推理过程、训练过程中的超参数等都已优化过。因此,如果有人提出一个新架构,你必须将其与2017年或2018年的Transformer进行比较。这在今天是很难做到的,因为这个领域竞争非常激烈,人们总是想要最好的东西,而不愿意投入时间去优化一个替代架构,这可能会有很大的风险,同时商业需求又很高。所以我认为我们处于某种局部最小值。我们有一个高度优化的架构,它工作得非常好,在达到饱和之前,还有很长的路要走。但一旦我们达到饱和,替代架构仍然很难出现,除非我们摆脱这个局部最小值。 4. 强化学习与自回归学习、如何提升模型的长效推理能力 Minfa Wang:希望在这个领域会有持续的研究,总有创新架构被提出。下一个话题是,随着我们迈向AGI,我们需要更强的规划和推理能力。目前大多数LLM仍然围绕着预测下一个词的目标,有人质疑它是否能真正带我们实现AGI。对此你们有任何想要分享的内容吗? Devendra Chaplot: 我们已经在使用强化学习,这是一种长期反馈机制,因为模型在长生成过程中获得奖励,而不仅仅是在预测下一个词时获得奖励。我之前在机器人学领域也使用强化学习,它对学习规划或推理非常有用。到目前为止,我们在语言或其他任务中使用的奖励模型都是基于人类数据训练的,但在数学或编程等任务中,我们可以有形式验证或编程测试作为模型的外部反馈,这在某种程度上是自动化的,也具有长期性,因此模型可以基于这种反馈优化推理和规划。 Sharan Narang:我认为提高规划和推理能力的一种方法是将其更多地纳入预训练中。正如Tony之前提到的,我们从互联网上获取的推理数据有限,我们如何扩展数据集?我们如何使用合成数据?我们能在多大程度上改进基础模型?另一个关于下一个词预测目标的考虑是,如果你仔细想想,对于任何一个人来说,预测句子里的下一个词其实非常复杂,即便你非常了解某人。因此,这个目标本身就具有一些长期规划的性质。但正如Devendra提到的,在后期训练阶段使用强化学习确实也可以改进规划能力。 5. 多模态模型 Minfa Wang:接下来我想谈谈多模态大模型。X.ai最近宣布了其多模态模型。到目前为止,开源版的Llama和Mistral还不是多模态的,但显然你们正在朝这个方向努力。我想知道你们在研究多模态模型时遇到的最大挑战是什么?有哪些关键技术可以让它们成功? Devendra Chaplot: 是的,其中一个最大挑战是多模态模型计算量增长非常快。即使是一张图片也可以包含数千个tokens。如果你训练数十亿张图片,计算量就变得非常巨大。而且因为你想在这些图片中进行推理,或者在图片和文本之间交织数据,你还需要增加模型的上下文窗口,以便模型能接受多张图片,进行推理并使用一些文本。所以当你增加上下文窗口时,它再次增加了计算强度。这只是图片,如果涉及视频,计算量会增加一个数量级。因此,我认为现在的多模态模型仍然处于其能力的初级阶段。它们可以扩展10倍、100倍,仍然可以获得大量的性能提升。因此,挑战在于如何使其在数据效率方面更高,以便我们不需要100倍的计算能力来使用100倍的数据。 Sharan Narang:我同意。语音也是一个非常复杂的问题,因为当你考虑文本到语音时,延迟就成了一个问题。而且,正如Devendra提到的,数据非常重要,尤其是当你尝试获取图文或视频文本的交织数据时,如果视频很长而文本本身很短,这将变得非常有挑战性。多模态模型的设计空间实际上非常广阔,有许多不同的方法可以在预训练、后期训练中使用。我认为这些技术现在正在起飞,所以看看下一波多模态模型会带来什么将会非常有趣。 6. 未来预期 Minfa Wang:在我们进入观众提问环节之前,让我最后问一个问题。2024年被称为多模态模型之年,我们确实看到了多模态模型和其产品化方面的突破。如果你们要对2025年做一个预测,你们认为大型语言模型或基础模型的下一个重大里程碑会是什么? Devendra Chaplot: 我认为会是数字和物理代理。我有机器人学背景,对具身智能非常有热情。今年在初创领域围绕构建通用类人机器人有很多兴奋情绪。我认为它们可能会在明年或两年后开始起飞,变得有用。此外,我认为数字代理方面,例如软件工程代理或可以执行操作的代理,像预订航班或叫车,这些也将在明年变得非常成熟。 Sharan Narang:这个领域同时发生了这么多事情,很难预测。但我会说两件事。首先,我认为我们会看到扩展带来的持续改进。比如现有模型的阶梯式改进,小模型和大模型之间的差距也会缩小,因为我们在尝试使用蒸馏、量化等技术来训练更强大的小模型。其次,我希望能找到一些技术来超越当前的Scaling Law趋势,无论是通过创新模型,还是通过合成数据或高参数等技术,来做得比现在更好。 Tony Wu:我的赌注在于合成数据。 观众提问: Q1:对于企业用例来说,很多非结构化数据都存在于文本中。且大多数是基于RAG(检索增强生成)和一些微调。所以我的问题是,你们的公司是否在研究更适合语言能力和推理能力的小模型,可能并不需要大量数据和多模态数据,以便我们能处理更长的上下文并回答问题? Tony Wu:是的,首先,我实际上认为企业用例仍然有一些多模态的需求。如果你考虑X.ai的情况,我们正在与特斯拉和X平台合作,X平台上有很多图像。我认为我们可以尝试理解这些图像。在特斯拉的情况下,我们希望帮助自动驾驶和机器人工作,很多这些都需要多模态能力。第二点,是的,我们确实在做小模型。我们正在努力降低API成本,这是我们的工作,提供好服务的同时降低客户成本。为此我们需要训练非常小的模型,这些模型可以非常快速地运行,成本非常低。 Devendra Chaplot:Mistral AI专注于小模型,因为我们希望将性能与成本的比率推到最高。我们去年9月发布的7B模型在企业和开发人员中很受欢迎,他们部署到笔记本电脑、手机等设备上运行,或者在数据处理管道中使用它进行摘要或某种自动化。我们也听说很多企业在内部使用它,虽然它很小,但它在特定用例中仍然非常强大,运行成本也非常低。 Q2:非常感谢你们分享这些非常有启发性和信息丰富的讨论。我的问题是,迄今为止调试大语言模型的最佳策略是什么?例如很多人都遇到过的幻觉问题。我很好奇你们如何调试LLM,特别是在看到这些故障案例时。第二个问题是,作为普通用户,我们能做些什么来应对这些故障案例?除了RAG技术,还有其他补救措施吗?还是我们给你们当拉拉队员,希望你们解决问题?谢谢。 Sharan Narang:我认为幻觉是一个大问题。解决事实准确性的问题非常棘手。比如,你问一个基础模型任何问题,很难知道它是否在产生幻觉。而且事实也在变化。不过,像RAG和改进的微调技术可以帮助减少模型幻觉。总的来说,调试LLM非常具有挑战性,无论是预训练还是后期训练,调试LLM的故事甚至可以写一本书。我无法详细介绍所有内容,但我认为投资于一个好的微调和RAG管道可以大大减少幻觉。 Q3:谢谢你们深入探讨如何通过预训练和合成数据提高数据质量。除了防止幻觉,我对这些方法如何防止模型中潜在的偏见和错误信息感到困惑,特别是当我们开始使用像推文这样的专有数据时。我想听听你们如何确保未来的AI模型保留道德标准并包含多样化的观点,特别是在涉及推理、情感和意见时。 Devendra Chaplot:这是我们训练模型时的优先事项之一。我们有学术基准测试,它们专门测试种族、民族、性别等方面的偏见。无论是预训练还是微调时,我们都会关注模型在这些基准测试上的表现。这也作为一种模型选择方法。如果某个模型在这些基准测试上表现不好,我们就会避免使用那个数据集或训练技术,通过这种方法可以大大减少模型的偏见。 Sharan Narang: 除了一些基准测试,我们还可以改进基准测试。因为在预训练期间捕捉和测量偏见非常棘手,数据多样性也很难衡量。在Meta我们非常重视这一点。还有一个是在后期训练阶段,我们加入了许多缓解措施,有很多团队在研究如何改进后期训练阶段以减少偏见。合成数据的一个主要问题是它是否会迭代传播偏见。安全性是一个非常重要的话题,我们需要更多的人关注和研究。 Q4:我有两个问题,都是关于前沿模型的。第一个问题是关于Transformer的替代方案,你们怎么看待Mamba?它在过去一两年里非常火。第二个问题是关于视频生成模型。我们在GPU上优化视频生成时遇到了很多计算和内存带宽的挑战。不知道是否有一些前沿的研究方向可以改变视频生成的设计? Sharan Narang:我来尝试回答一下。我不是视频生成方面的专家,所以没有答案。关于第一个问题,Mamba,我认为这是一个有前途的架构,但还有很多工作要做才能与Transformer相比。正如Devendra提到的,Transformer非常优化,而且在它的工作方面非常高效。Mamba来自RNN世界,但经过了简化和改进。不过,我认为还有很多工作要证明Mamba可以与Transformer架构相媲美。 Minfa Wang:希望这回答了你的问题。由于时间限制,我们只能到此为止。再次感谢所有演讲者慷慨分享他们的观点。期待你们在未来推动技术前沿的发展。谢谢。
接入零一万物、百川智能大模型!云大厂扩张生成式AI版图,大秀三层技术栈与架构创新
作者 | ZeR0 编辑 | 漠影 智东西5月31日报道,5月29日-30日,亚马逊云科技中国峰会在上海举行。峰会第二日,亚马逊云科技大中华区产品总经理陈晓建分享了构建和应用生成式AI的多款创新产品;亚马逊云科技大中华区解决方案架构总经理代闻以桥梁设计做精巧比喻,从三个方向分享生成式AI时代下架构的演进与迭代。 企业开展生成式AI应用落地的过程中面临新的挑战,主要体现在:1)底层算力资源短缺;2)缺乏合适的工具,用于访问和部署世界一流模型,从而进行端到端的生成式AI应用构建;3)缺少匹配自身需求的,可开箱即用快速上手的应用。 为了助力企业生成式AI应用落地,亚马逊云科技打造三层生成式AI技术栈: 1)底层是以GPU和自研芯片为代表的基础设施,用于基础模型的训练以及在生产环境中运行推理; 2)中间层是以Amazon Bedrock为代表的,提供可以访问所需基础模型,以及构建和扩展生成式AI应用程序的工具; 3)顶层则是以Amazon Q为代表的,利用基础模型构建的开箱即用的生成式AI应用程序,用户无需任何专业知识即可快速上手生成式AI。 一、技术栈底层:联手英伟达构建AI超算,上线零一万物、百川智能基础模型 亚马逊云科技大中华区产品总经理陈晓建谈道,生成式AI应用开始于基础模型的训练和推理,这两种工作负载对算力有大量需求,也是限制企业模型开发步伐的关键制约因素。 为了帮助企业降低经济压力,亚马逊云科技推出了一系列专门构建的、高性价比的芯片和计算实例供企业选择,用于运行模型的训练和推理工作负载。 今天的模型规模需要分布式的调度以及相应的存储和网络的性能。以训练500亿参数量的模型为例,需要提供1T(1万亿)token的数据量,如果用一张A100的GPU需要74年的时间才能完成,而用2048张GPU则只需要13天。Stability AI训练Stable Diffusion用了4000张A100 GPU,而Meta训练Llama 3则使用了超过16000张A100 GPU。 算法工程师通过分布式训练的技术,同时使用数千张甚至上万张的GPU卡来训练基础模型,需要更好的卡到卡之间,实例到实例之间的高带宽来降低通信延迟,提高GPU利用率,进而缩短整个集群的训练时间。 Amazon UltraCluster提供了超大规模、超高带宽以及超高稳定的高性能计算集群,FSx for Lustre和S3提供了高性能存储的稳定方案。 基于英伟达全新GPU资源的系列实例建立在亚马逊云科技的高性能存储和网络服务基础之上,支持广泛的编排选项和开源框架,通过EFA网络,允许企业配置高达2万个GPU的超级集群来支持最大工作负载。 Project Ceiba项目是亚马逊云科技为英伟达构建的AI超级计算机,由英伟达和亚马逊云科技联合开发,搭载了超过2万个英伟达Grace架构的Blackwell GB200超级芯片和亚马逊云科技第四代EFA网络。每个超级芯片可提供高达800Gbps的网络带宽,其算力将能达到惊人的414Exaflops。 基于英伟达 A10G GPU的Amazon EC2 G5实例在中国区正式可用,性能达到Amazon EC2 G4DN的3倍,推理性价比提高了40%。 过去5年,亚马逊云科技在定制芯片领域的投资带来了机器学习训练和推理成本的大幅下降。其中,基于Amazon Trainium的Trn1 EC2实例和基于Amazon Inferentia芯片的Inf2 EC2实例,与基于英伟达GPU的Amazon EC2实例相比,可分别将训练成本降低高达50%,推理成本降低高达40%。 训练和推理也需要合适的软件工具。亚马逊云科技推出了Amazon SageMaker托管机器学习服务,帮助企业轻松构建、训练、微调和部署模型。 亚马逊云科技宣布来自零一万物的Yi-1.5 6B/9B/34B的基础模型在中国区域正式上线SageMaker Jumpstart,同时来自百川智能的Baichuan-2 7B基础模型也即将上线中国区域的SageMaker Jumpstart,为开发生成式AI应用提供更多基础模型选择。 Amazon SageMaker JumpStart是Amazon SageMaker的一项重要服务,可帮助客户获取、微调和部署来自业界最新公开的可用预训练基础模型,包括Meta Llama 3、Cohere Command等。 该服务还为机器学习从业者提供深度模型定制和评估功能,允许其通过已经使用的环境轻松访问基础模型。 此外,Amazon SageMaker HyperPod正式可用,专门助力大规模分布式训练,能够将训练模型的时间减少多达40%。 二、技术栈中间层:用基础模型加速应用构建,四大价值让生成式AI触手可及 技术栈的中间层对于大部分企业来说更加重要,构建生成式AI应用通常是从选用既有的基础模型开始,而不是直接参与构建基础模型。 所以如何选择更加适合自身业务的模型,便成为了企业首先需要作答的问题。 在模型选择方面,Amazon Bedrock是一项全面托管的服务,用户可通过单一的API访问来自Al21 Labs、Anthropic、Cohere、Meta、Mistral Al、Stability AI和亚马逊等领先AI公司的高性能基础模型。 值得一提的是最新推出的亚马逊云科技自研Embedding模型Amazon Titan Text Embeddings V2模型,针对检索增强生成(RAG)工作流程进行了优化。 另一款最新推出的Titan Text Premier基础模型,是Titan Text系列中先进的型号,旨在为各种企业应用程序提供卓越的性能,并对RAG及Agent提供了专门优化,提供了更高的准确性。 为了帮助企业选择合适的模型,亚马逊云科技正式推出了Amazon Bedrock模型评估功能,可将模型评估时间从数个星期压缩至几个小时。 在模型定制方面,Amazon Bedrock支持企业自定义模型的导入。企业可将基于Amazon SageMaker或其他工具开发的存储在Amazon S3里面的定制模型导入到Amazon Bedrock中,以完全托管的API形式进行访问,而无需管理底层基础设施。 目前Amazon Bedrock自定义模型导入已提供预览版,支持Llama、Mistral、Flan-T5三种流行的开放模型架构,同时还将在未来进一步扩展支持范围。 从数据准备到数据运用,亚马逊云科技打造了一套全面的数据服务体系,涵盖数据库、数据湖、数据治理、数据分析、机器学习和生成式AI五大维度。 该体系可以帮助企业连接现有的数据源,定制面向生成式AI应用构建的高质量企业数据资源,配合Amazon Bedrock提供的微调、持续预训练、RAG等功能,打造与企业业务相关的生成式AI应用。 为了进一步帮助企业使用RAG技术优化模型的个性化响应,亚马逊云科技正式推出了 完全托管的Amazon Bedrock知识库功能。 该功能支持企业使用上下文相关的内部数据自定义基础模型响应。Amazon Bedrock上的知识库会自动执行端到端的RAG工作流程,使用者无需编写自定义代码来集成数据源和管理查询。 在应用集成方面,Amazon Bedrock的Agent功能提供了一种工具,支持开发人员定义特定的任务、工作流程或决策过程,增强控制和自动化,同时确保与预期用例保持一致。 Agents for Amazon Bedrock现已支持Claude 3 Sonnet和Haiku模型。 亚马逊云科技还提供了一站式生成式AI应用开发工作站Amazon Bedrock Studio。借助这一工作站,开发者可以使用简单易用的交互界面进行模型选择、模型评估,还可以与团队成员协作,共同试验,创建和完善生成式AI应用。 在负责任的AI方面,亚马逊云科技承诺以负责任的方式构建服务,同时重点考虑公正性、隐私性和安全性、可解释性、可治理性、稳健性、透明性6大方面。 企业在构建生成式AI应用程序时,通常希望其客户和应用之间的交互是安全并遵守企业指导方针的。对此,亚马逊云科技推出了Amazon Bedrock的Guardrails功能,可帮助企业轻松实施生成式AI应用程序的保护措施,并根据自身需求和负责任AI政策进行定制。 同Amazon Bedrock上基础模型原生提供的保护能力相比,Amazon Bedrock的Guardrails功能可帮助企业用户阻止多达85%的有害内容。 三、技术栈上层:开箱即用的生成式AI应用 亚马逊云科技构建的生成式AI助手Amazon Q可帮助企业达成加速软件开发、发挥业务数据价值等目标。 目前,Amazon Q Developer、Amazon Q Business、Amazon Q in Connect、Amazon Q in QuickSight均已正式可用。 Amazon Q Developer可协助开发人员完成从编码、测试、升级应用到故障排查、安全扫描和修复、优化云资源等繁琐重复的工作,让开发者把更多时间专注于创新体验的开发,加快应用部署速度。 在实际应用中,Amazon Q Developer共包含3大核心应用场景:1)大规模消除技术冗余;2)提高开发人员生产力;3)近乎实时生成代码建议和推荐,帮助开发人员更快、更安全地进行构建。 为了帮助企业发挥大量难以访问和解析的数据的价值,亚马逊云科技推出了具有从任意数据中获取洞见能力的Amazon Q Business。 通过它,企业员工可以通过连接企业数据库,来提问关于公司政策、产品信息、业务结果、代码库、人员等诸多问题,从而总结数据逻辑、分析趋势并就数据进行对话。 Amazon Q Business有四大应用场景:统一的对话检索式体验、生成总结与提炼关键发现、提升内容创作的效率、简化任务流程。 Amazon Q Business中的Amazon Q Apps功能公开预览。借此创建应用程序非常简单,员工可以用自然语言描述他们想要的应用程序类型,或者只需告诉Amazon Q Apps从Amazon Q帮助解决问题的对话中执行即可。 Amazon Q Developer 和 Amazon Q Business截止到6月30号免费试用。 四、亚马逊云科技全方位助力人才成长,三大力量驱动架构创新 亚马逊云科技计划到2025年向全球2900万人提供免费培训,而目前已经有2100万人受益。 为了让更多的开发者有机会低门槛体验到前沿的生成式AI服务,亚马逊云科技推出了云上探索实验室CloudLab平台。开发者不需要注册账号、不需要购买云资源,只需扫码进入云上探索实验室,即可在24小时之内尽情构建。 同时,亚马逊云科技还为中国开发者量身定做了“从基础到应用:LLM 全景培训”课程。 生成式AI时代,构建应用有什么不一样的方法?有何种新的架构趋势? 亚马逊云科技大中华区解决方案架构总经理代闻说,技术架构演进过程里面不变的三个主题需求——基础组件能力,架构体系创新,多元技术融合。 代闻从桥梁发展历程入手,提出桥梁的发展和构建是由基础材料,建筑架构和多元化需求三者共同作用的结果,而技术的发展往往也是如此。 最基础的组件,例如材料、技术往往决定了能采用的架构。对于信息技术来说,最基础的材料就是算力。 云计算的最基础组件是计算、存储和网络,其中又以计算作为最核心的组件。 自2006年推出Amazon EC2服务以来,Amazon EC2从最初的70种实例类型增长到超过750种,亚马逊云科技在虚拟化技术和硬件加速方面正持续进步。 亚马逊云科技已发布五代Nitro芯片。Nitro提供了一个隔离的敏感数据处理环境Nitro Enclaves,可以为客户自己的实例带来额外的隔离,保护正在使用的数据免受任何未经授权的访问,即使是来自客户管理员级别的用户。 在自研处理器方面,从2018年的Amazon Graviton到2023年的Amazon Graviton4,每一代的Graviton都会上一代有两位数的性能提升,并且单位算力的功耗在不断下降。 亚马逊云科技在全球规模化提供的基于Graviton的Amazon EC2实例种类达150多个,已经构建的Graviton处理器数量超过200万个,并拥有超过50000客户。 如今亚马逊云科技的诸多托管服务都全面采用了Graviton架构,如Amazon DocumentDB、Amazon Aurora、Amazon RDS等,这些服务不仅提高了性能,还降低了成本,为客户提供了更高的性价比。 代闻认为,构建的风险管理意识非常重要,企业在构建时往往要面临着大量的不确定性,各种风险因素层出不穷,因此架构韧性成为了重中之重。 通过单元化架构,亚马逊云科技将IAM拆分成细小的计算和存储单元,实现了高可用性和极小的故障影响范围,不仅保障了服务的稳定性,也使得IAM能够每秒处理超过10亿个API调用。 架构创新的第三大驱动力量是多元技术融合。 通过Zero-ETL集成,亚马逊云科技消除了数据提取、转换和加载的复杂性,使得用户可以无缝地将数据从Amazon DocumentDB同步到Amazon OpenSearch Service,或者将 Amazon DynamoDB的数据直接用于Amazon Redshift的分析。这种无缝集成不仅简化了数据流动,也提高了数据的价值和业务的敏捷性。 结语:推动服务和架构创新,助力生成式AI普惠化 过去十年,云计算为创新和创业提供了前所未有的便利。未来十年,生成式AI带来了重塑各行各业的新机遇。 整体应用架构是多元技术均衡的结果,需要考虑成本、合规、扩展性、可持续发展、韧性、安全、性能、访问可达性、可用性等因素。一个良好的架构需能随着多元因素的影响不断演进。 亚马逊云科技的优良架构体系到现在已经超过十年,从卓越运营、安全、可靠、性能效率四个维度演进到六个维度,新增了可持续发展和成本优化。随着客户对各种组件更深入的使用,架构师的决定和组件选择会直接影响到整块的应用负载在云上的成本。 伴随着技术的进步,亚马逊云科技将继续推动架构的演进,通过创新的服务和架构,突破技术壁垒,助力生成式AI普惠化。
星环科技全面战略升级!帮企业高效构建AI Infra,助攻大模型快速落地
作者 | ZeR0 编辑 | 漠影 智东西5月31日报道,今日,在2024向星力·未来数据技术峰会上,大数据基础软件龙头星环科技面向企业构建大模型和应用生成式AI的需求,发布最新AI基础设施产品Transwarp Knowledge Hub星环知识平台(以下简称TKH), 提供企业级多模态知识存储及服务,并推出一款一站式多场景语料开发工具TCS(Transwarp Corpus Studio)、大模型运营平台Transwarp Sophon LLMOps。 基于无涯大模型,星环知识平台TKH打造了无涯·问知、无涯·问数、无涯·金融、无涯·工程等AI原生应用,可广泛应用于金融、能源、制造、工程等多个领域,通过精准的数据分析和知识管理,满足企业不同类型的知识应用需求,提升企业业务效率和竞争力。 星环科技发布了企业版、AI PC版企业级垂直领域问答产品无涯·问知Infinity Intelligence。无涯·问知公有云服务也正式发布,首批邀请用户已经可以在线测试。 同时,星环科技推出企业智能业务分析洞察平台无涯·问数,让用户用自然语言轻松进行数据分析,解决传统BI(商业智能)使用门槛高、效率低的挑战。 星环科技创始人、CEO孙元浩宣布,星环科技的定位从Data Infra进一步延伸到AI Infra,为企业客户打造AI基础设施,打造覆盖语料处理、模型训练、知识库建设等的一整套工具链,帮助企业快速建立行业大模型,快速使用AIGC。 孙元浩告诉智东西,在支持生成式AI的数据管理方面,企业可能会用到向量数据库、关系数据库、图数据库、实时数据库等不同类型,这些都是为AI提供数据的主要方式,现在很难说哪类比重会更高。 对于用户而言,已构建数据仓库的基础较大,结合大模型直接问数据库比较立竿见影,需求相对多。向量数据库预计会加速增长,语音、图片、视频必须要用向量数据库,文档建议也变成向量数据库以拓展检索范围。知识图谱构建要求较大,但同样是必要的补充。当关系图谱不足时,星环提供了实时数据库,还有传感器分析。 面向AI PC布局,孙元浩认为AI PC是提高生产力的必需品,他透露说星环希望在本地做到千亿参数模型,可能今年年底就可以做到。 一、今年全球将生成159.2ZB数据,企业落地AI面临4类挑战 AI大模型正在催生新一轮技术创新与产业变革,将为金融、制造、交通、政务等众多行业企业数字化转型和高质量发展带来新动能。 生成式AI出现后,深度学习从以前的可能几千万、上亿的样本数量的大样本机器学习,演变成现在小样本机器学习,让行业大模型应用范围变得更广,让模型能够思考、学习,理解自然语言,完成更多的工作。 当前市场以通用基础大模型为主,通识能力强,但缺少行业专业知识。让企业的AI应用从早期直接调用通用大模型发展到建立自己的AI基础设施,打造行业或特定领域、任务的专用大模型,助力生产力革新和产业升级,已经成为企业关注的核心。 在峰会上,IDC中国副总裁钟振山分享了一些IDC调研结果。 IDC预测,全球2024年将生成159.2ZB数据,2028年将增加1倍以上,达到384.6ZB,复合增长率为24.4%,分布在不同的数据库中。DataSphere 2024最新预测还呈现了3D特征:分布式、多样化、动态。未来两年里,预计组织中的数据量、数据速度、数据多样性均会提升。 为了实现生成式AI,企业需要管理多方数据源,被调查企业中50%使用数据仓库支持生成式AI,35%使用向量数据库,33%使用数据湖,33%使用支持向量搜索能力的NoSQL数据库。 从落地形式来看,企业更多选择私有化方式来训练、推理和部署大模型。在实施AI技术时,企业或机构经历过/预计会经历成本、缺乏具备学习和使用AI所需技能的员工、缺少专项技能人才、缺少AI治理&风险管理、缺少AI监管规则等方面的挑战。 总体来看,企业落地AI面临4个主要挑战:1)高投入成本与专业人才匮乏,是企业落地AI最大的阻碍;2)数据基础设施建设不足,需要商业落地、安全性、可持续发展和数据管理;3)缺乏统一数据管理底座,海量、多元、非结构化数据高频流动;4)缺少知识库的支撑,知识的存储、共享和流动。 二、定位延伸至AI Infra,为企业提供全流程开发工具链 从需求上看,目前通用大模型数量快速增加,并不断升级迭代、提质增效,但却不能适应企业AI应用的需求。 企业对行业大模型需求增加,迫切需要降低使用门槛,更加普惠地使用大模型、生成式AI技术,以解决企业内部人才、算力、数据等不足的挑战。发展面向特定领域或任务的领域大模型,不断提升模型准确度,成为一条切实可行的发展途径。 每个国家都需要主权AI,企业同样需要自身的AI Infra来打造行业大模型,从而更快速便捷地用大模型释放数据价值。 针对企业的AI Infra建设,星环科技通过自主研发,可向用户提供一站式企业级大模型生产及应用全流程开发工具链,让大模型快速落地。 星环科技拥有从语料到模型再到应用的完整的AI Infra工具集,覆盖语料开发和管理、大模型训练与持续提升、多模态知识工程、多模知识存储与服务、原生AI应用构建编排和应用服务等重要阶段,提供提示词工程、检索增强、智能体构建等大模型应用快速构建和提升、模型推理优化、模型安全和持续提升技术。 星环科技AI Infra工具支持异构算力、语料、知识、大模型应用的统一管理,为数据和语料资产的集约化提供了一站式平台,且具备企业级的组织空间管理能力。 通过该工具,企业能够准确、高效地将拥有的多种来源的多模语料转换为高质量的专业领域知识,源源不断支撑专业知识库问答、业财数据分析、智能投研、设备预测性维护等丰富的使用场景和应用,让企业构筑知识壁垒,实现“人工智能+”业务的落地和创新。 后续星环科技将通过自主研发,不断完善AI从基础设施到应用的产业链条,为客户提供端到端的全套AI解决方案。 三、企业界垂直领域问答产品无涯·问知:四大应用场景,将数据和资料转换为知识 星环科技发布了企业级垂直领域问答产品无涯·问知Infinity Intelligence,有企业版、AI PC版、云端版,包括四大应用场景: 1)企业可以基于星环知识库TKH,建立企业自己的知识库应用; 2)企业算力不足时,可采用安装了天涯·问知的AI PC,在本地直接访问天涯·问知; 3)中小企业用户不用自己构建知识库,可直接利用星环科技无涯·问知公有云服务; 4)个人可利用AI PC或者公有云服务,访问天涯·问知服务。 无涯·问知是一款基于星环自研预训练模型无涯Infinity和向量数据库Hippo、图数据库StellarDB构建的企业级垂直领域问答知识库应用。 该产品基于星环科技大模型底座,结合个人知识库、企业知识库、法律法规、财经等多种知识源,充分利用了星环科技自研大模型底座的自动化知识工程特性,使其在处理和分析数据方面具有显著的优势,允许用户上传文档、表格、图片等多源数据,并支持与外部数据源的对接,使用户能够构建属于自己的专属领域大模型。 借助这一工具,用户可基于自身私域知识库进行更为个性化和深入的数据分析。 该产品支持不限长度的音视频图文等多模态数据快速入库,且支持自动化文档切片及向量化处理,配合自研的RAG框架,可实现知识的精准召回,可用于市场研究分析、企业供应链分析、法律风险预警、智能写作等业务场景中。 面向个人用户,星环科技推出无涯·问知AI PC版本,可在搭载英特尔新一代CPU的主流个人电脑(AI PC)上基于集成显卡和NPU流畅运行。 无涯·问知AI PC版本提供本地化的向量库,支持多种格式、不限长度的文件资料入库,并支持影、音、图、文等多模态数据和资料的“知识化”处理,以及相应的“语义化”查询和应用能力,能够对可量化的数据进行精准的分析和研判。 该工具打通了个人文件资料与企业知识库,形成本地和云端的知识联动推理,而且能保障个人的数据安全。 据介绍,无涯·问知AI PC版本具备出色的内容理解能力,包括对感知和认知层的深度理解,以及对事实、流程、图谱等高级语意的把握,因此能够更准确地理解用户需求。 四、无涯·问数:用自然语言搞定数据分析,兼顾安全性与准确性 今日星环还发布了一款智能业务分析洞察平台无涯·问数,基于星环数据分析大模型打造,旨在解决传统BI在数据获取、使用门槛和效率方面的挑战,为决策者和业务人员带来更好的数据分析体验。 该平台集合了大语言模型、AI和BI的能力,并结合数据分析主体、指标、标签设计、数据开发和治理,形成了从自然语言转数据查询语言并返回数据表或数据图表的完整流程。 非专业用户可在无涯·问数平台上使用自然语言轻松查询数据,无需掌握数据库编程语言,有效解决取数需求开发链路长、指标二义性、缺乏数据挖掘能力、数据分析高度依赖人工经验等传统数据分析痛点,简化了用户与数据交互的方式,让数据分析变得更加便捷和直观。 在安全性上,无涯问数结合NL2SQL和可视化能力,将模型输出结果解析为易于理解的界面化配置,并从多个维度提供全面的数据安全管控,在更快、更高效获取数据的同时,保证查询过程的安全性和结果数据的可解释性。 在传统BI场景中,缺乏经验的分析师难以给出高质量的分析报告,且靠人力经验积累的业务逻辑、业务洞察无法沉淀为企业知识库。 无涯问数针对数据安全保障有一系列精细的数据安全和权限控制措施,可以结合企业自由数据进行模型训练,理解行业黑化和业务逻辑,在智能分析场景下提供更高的模型准确率和分析方法论等知识输入。 针对数据一致性,无涯问数通过先进的指标和标签模块解决取数渠道和计算口径不一致的情况,提供包括针对数据、指标和标签的智能业务洞察范围,并满足客户数据来源准确和分析口径统一的需求;确保数据分析结果的可靠性,支持数据驱动的决策制定。 在应用场景上,无涯·问数提供分析仪表盘和智能问数能力,让决策者/管理者以自然语言提问快速自助获取目标数据;预定义指标计算口径,依托数据分析大模型理解用户的分析意图,让数据分析人员实现对话即分析;通过页面配置的方式快速完成数据准备,让数据开发人员,快速整合多种数据。 五、星环知识平台TKH:帮企业高效构建AI Infra 星环科技整合大数据、AI等技术,推出一款知识平台Transwarp Knowledge Hub(TKH),为企业提供一个全面、高效、智能的数据处理和知识管理解决方案。 TKH旨在为企业打通从AI基础设施到大数据、AI等研发应用的完整链条,实现企业内部所有资料知识化,能统管企业Al Infra算力、语料、模型、应用,助力企业打造安全可控的AI Infra、快速使用AIGC。 星环知识平台TKH包括知识存储与服务、语料开发与知识构建、大模型基础服务等几个重要部分。 第一,TDH for AI,打造新一代一站式多模型数字底座。 TKH提供企业级多模态知识存储与服务,助力企业打造新一代一站式多模型数字底座。基于Transwarp Data Hub for LLM知识管理平台的多模型统一技术架构,支持关系型数据、向量数据、全文检索、图数据、时序数据等的统一存储管理,满足各类场景下多模态数据的统一存储管理与服务,大幅简化知识库的知识存储与服务层架构,降低开发与运维成本。 星环科技新推出的产品可以让企业的数据底座实现四个一体化:湖仓集一体化、多模型处理一体化、历史数据与实时数据处理一体化、本地集群和云平台一体化。 其中,大数据基础平台TDH 9.4的多模基座加速AI分析;仓集资源隔离架构,在混合业务场景下依然保持极致性能;湖仓一体架构,大幅降低TCO;同份数据跑批查询与混合负载,实时备份强在线业务容灾;同时支持多模型存诸架构、大模型海量训练数据存储、多模型混合检索召回增强、Python生态等。 分布式向量数据库Hippo支持文本、图片、音视频等转化后的百亿级向量数据的存储、索引和管理,支持多种索引,具有全文检索+向量检索以及稀疏向量+稠密向量的混合检索等能力。Hippo 2.0可实现百亿级向量存储,提供灵活索引支持、20倍内存成本下降和向量全文混合检索等特性。 分布式图数据库StellarDB提供万亿级图数据存储、毫秒级点边查询和10+层深度链路分析等能力,支持丰富的图算法和图机器学习,创新的动态时序图能力更便捷地挖掘数据变化规律和预测分析。新推出的StellarDB 5.1实现了向量/全文模糊检索、秒级子图匹配、跨集群数据灾备、RAG增强大模型、GPU算法加速等功能,更稳定、安全、易用。 星环分布式分析型数据库ArgoDB支持标准SQL语法,提供多模分析、实时数据处理、联邦计算、隐私计算、数据脱敏等能力,一站式满足OLAP分析,实时数仓、数据集市、湖仓集一体等场景。 新推出的ArgoDB 6.1 版本以“增量数据实时处理”技术为基础,定义并发布“实时数据加工”的智能高效新范式;结合集群级实时同步与数据海量版本能力,协助用户够构建高可靠的实时可信大集群,以数据透明加密、SQL审核/阻断等安全技术手段为辅,共建“快好省”湖仓集一体的融合数据处理架构。 星环分布式时序数据库Timelyre支持海量时序数据库的存储与处理,具备每秒千万级数据吞吐、5~20倍无损压缩和毫秒级检索能力,支持Python、C++等API,易用的时序分析框架满足金融智能投研需求。TimeLyre 9.2新增了多模型时序分析、极速分布式回测平台、投研数据中台、时序数据湖引擎等,助力用户解锁数据深层价值。 星环分布式文件系统TDFS支持10亿级以上的大小文件的存储,并同时支持对象存储,基于Raft保障强一致,支持HDFS平滑迁移,标准POSIX协议支持上层知识等AI场景应用无感对接。 第二,语料加工工具与图谱构建工具,助力企业建立高质量模型及应用。 语料是决定行业大模型质量的关键因素,语料的质量决定了模型的质量,同时高质量语料也是解决行业大模型“幻觉”、“可信可控”等核心落地难点的重要手段。 高质量行业专用语料是企业、机构独特的竞争优势和天然壁垒。星环科技发布了一站式多场景语料平台Transwarp Corpous Sudio(TCS),旨在通过全面的语料生命周期管理,极大提升语料开发效率,助力企业或机构高质量地构建大模型及其应用。 TCS覆盖了语料获取、清洗、加工、治理、应用和管理的全生命周期,具有多种灵活的采集和构建方式,能分布式的高效处理海量语料。 这是一个功能全面、易用高效、安全可靠的语料开发利器,支持20+主流文档格式、数据化学公式、复杂语料处理、语料自动标注及筛选、多视角体系化资产编目和数据治理等。它具有三大核心优势: 1)强大的语料知识化能力,能够自动标注知识元素、识别知识类型、推荐知识应用,并构建有针对性的场景知识库,简化了知识管理和知识应用的过程。 2)易用的语料应用化能力,支持将语料快速转化为多种应用形态,如自然语言处理、机器学习等,大大降低了应用语料的门槛,加速了从数据到知识的转化过程。 3)完善的数据安全机制,TCS提供了完善的认证权限管理和加密机制,确保语料数据、模型和应用的安全可信,满足企业对数据保护的严格要求。 企业知识库的建设,让数据可以用自然语言方式进行对话和检索。企业可以集中式地管理和利用知识资源,提高运营效率和创新能力。只要企业保有自己的知识库,就可以通过微调得到企业专属大模型,实现大模型随时选、随时换,且企业核心竞争力得到保护。 企业用户利用TKH提供的星环图谱构建工具Transwarp Knowledge Studio for LLM,可将企业内部数据、个人经验数据和公开信息数据转化为知识,让数据平台更加智能化,同时能将AI PC端和云端资源联动,确保数据安全性。个人经验数据的知识转化和不断的模型微调让知识库建设更具个性化。 TKS是一套全流程、端到端的知识图谱构建工具集,涵盖了知识模型定义、多源异构数据接入、概念与物理数据映射、多元化知识的抽取融合、全自动知识构建、图谱综合查询等功能,能够帮助政务、工业、能源等多领域客户高效构建领域知识体系,并提供智能应用的场景定制化和一站式解决方案。 第三,大模型基础服务Infinity和LLMOps,让大模型快速落地。 在行业大模型发展中,企业面临技术复杂、数据和算力稀缺、管理成本高等挑战,已经意识到必须建立自己的AI基础设施,从而能够自己对模型进行预训练、微调等。 星环科技推出大模型运营平台Transwarp Sophon LLMOps,提供一站式企业级大模型生产及应用全流程开发工具链,助力企业完成从预训练到微调,到强化学习,到持续模型评估的全生命周期,让每个企业都能构建自己的专属大模型。 一个Sophon LLMOps平台可解决企业在大模型时代语料、模型、应用三类资产的持续积累和加速迭代。 星环科技自主研发的无涯大模型Infinity主要功能包括智能问答、文档问答、智能写作等,具备自主可控特性,在确保数据安全的同时,通过0-1预训练,可为各行业量身定制自有大模型,提供强大的意图理解、语义召回、数据处理和分析能力。 基于无涯大模型底座,星环科技微调了三款垂类大模型,包括问答大模型、数据分析(代码生成)大模型、多模态大模型,以应对内容生成、数据分析图片及音视频理解及检索等多样的使用场景。 星环无涯大模型Infinity提供了灵活的部署模式,包括私有化部署(AIPC版、企业版)、公有云服务等,提升了大模型数据分析能力,在语法正确性、数据库方言、语义正确性等方面有重要突破,能够精准问答,减少大模型幻觉,并通过多模数据来源来提升回答丰富度,通过构建自有知识库来确保企业数据安全。 六、Data Infra产品与服务持续完善 星环科技在推出全新的AI Infra的同时,也在不断完善Data Infra产品与服务。 星环大数据云平台推出TDC 5.0,将原来的多个TDH集群统一纳管,统管多个TDH集群,形成物理上分散、逻辑上统一的企业级一体化大数据平台。 TDC 5.0的优势包括多集群及其基础设施、多数据应用实例统一管理;跨多集群统一调度资源,均衡多个集群资源使用;跨集群共享存储组件,实现NoCopy的跨集群数据共享;隔离和控制资源配额,快速、灵活地为不同业务部门提供多租户的PaaS服务。 星环科技推出了分布式交易型数据库KunDB 4.0,提升了高可用能力与Oracle兼容性,支持跨系统多租户部署。 星环大数据开发工具TDS 4.0,增加了数据实时同步、数据入湖向导、智能化数据资产盘点、数据资产门户、数据服务编排等功能。 星环大数据安全与隐私保护工具软件Transwarp Defensor致力于帮助企业建设以数据为中心的数据安全防护体系,包括了解内部敏感数据分布情况,能够帮助管理者发现潜在风险、监管重要数据的合规合理使用等。Transwarp Defensor 4.5,增加了大模型核心资产识别、数据资产流转链路监控、安全策略智能推荐,安全风险预警与应急响应。 星环数据要素流通平台Transwarp Navier通过提供隐私计算环境,使得数据供需双方可以进行安全的数据交易。Transwarp Navier 3.1新增了全链路智能合约确保安全合规、数据流通全链路行为监控与分析、实时告警与阻断等。 结语:大模型成为企业核心能力,新型AI Infra生态走向繁荣 孙元浩谈道,大模型技术已快速融入企业生产经营的方方面面,在企业生产效率提升、业务职能提效和行业应用场景创新中无处不在,不但重构产业,打造企业的核心竞争力,而且成为企业的基础设施和核心能力,助力企业打造新质生产力。 如今顶尖基础模型参数量达到千亿级,基于MoE架构的稀疏大模型更是达到万亿参数,再加上大模型及生成式AI进入广泛落地阶段,迫切需要发展新型AI基础设施来满足对算力资源、高性能计算及存储、数据管理、安全可靠、可解释性等方面的严苛要求。 高质量的语料资源、高效率AI基础设施已成为训练和部署大模型的关键。星环科技一系列AI Infra工具及Data Infra产品与服务的推出,为企业和机构提供了更加全面、易用、安全的开发利器,有助于帮企业高效构建和管理知识库、加速实现大模型落地部署,提升数据处理、价值挖掘和业务决策的效率。
上线即满载,点军智算中心探索本土AI新基建的范式变革
作者 | 程茜 编辑 | 漠影 数字经济时代,算力就是新质生产力。 如今为企业提供多元化算力资源、能实现算力资源合理分配的智算中心正快速发展,开始进入商业化落地加速期,目前,国内已经有超30个城市布局智算中心。 随着数字经济发展加速,大模型快速演进,对算力的性能和易用性提出了更高要求,对于算力融合、软硬件协同、成本优化等诸多特性的关注度也日益增高。 在此背景下,正在打造融合智算、超算、通用算力为一体的的多元算力高地和国家算力“中继站”的宜昌市,已建成运行了605PFLOPS的算力中心,华中区域规模最大、类型最全、传输最快的异构算力集群正在加速形成。 其中建成仅5个月,点军智算中心的300PFLOPS算力资源已经实现全消纳,与无问芯穹、爱奇艺、贝式计算、启智社区等多家头部互联网企业及行业大模型企业达成算力合作,带动算力生态协同发展。 点军智算中心已经成为本土智算中心建设上线即满载的标杆案例,为业界驱动算力最大动能释放打了个样。 一、东数西算驶入快车道,点军智算中心打造行业样板 算力发展已经成为大数据时代科技发展的重要支柱,让算力资源成为一种像水和电一样的普惠公共基础资源迫在眉睫。 自2022年起,国家“东数西算”工程正式全面启动,在打通全国算力资源的基础上为各地发展带来新的增长动力。同年,湖北省响应东数西算战略,将“算力”写入大数据产业发展规划,明确在2025年建成全国领先的算力基础设施和重要的数据汇聚枢纽。 当下,算力发展与各行各业密切相关再加上大模型带来的突破性技术革命,使得算力资源能被合理、高效利用起来尤为关键,智能算力中心的基础设施建设已经成为通往数字时代的必由之路。 燧原科技创始人兼COO张亚林谈道,AI架构的发展与计算、模型大小、编程语言、时延、网络带宽、存储容量、存储带宽等密切相关。他认为,国产算力想要在每一个点实现突破,使得算力满足每一种需求,成为“全能七边形战士”难度很大。 因此,本土算力企业需要在其中找准适合自己的赛道。从整个AI架构和算法的演进来看,AI发展的每一个关键节点都会由算法驱动,这背后算力的发展突破衍生出两条路,一方面以集聚化算力为主,提倡“大力出奇迹”,另一方面通过降本增效赋能更多人工智能企业。 作为国内聚焦云端AI的领先算力企业,燧原科技已经在半导体产业的深度产业链支持、产品方面积累颇深。与泛互联网的头部厂商合作,成为燧原科技构建算力底座、加速算力普惠的支撑。 当下,燧原科技通过点军智算中心项目探索的本土算力中心市场化运营新思路,找到了本土算力企业在数字经济发展中提出的新范式的可行性。 二、“点亮”运行5个月,300PFLOPS算力全消纳 新一轮科技革命和产业变革正在向纵深演进,算力基础设施的重要性不断提升,智算中心作为新型基础设施,正为大模型等前沿技术发展提供强大算力支持。 点军智算中心从2023年8月启动建设,今年1月投入运营,“点亮”运行5个月,就已与多家头部互联网企业及行业大模型企业达成算力合作,实现上线算力300PFLOPS全消纳。 目前,点军智算中心300PFLOPS的算力资源中,包含250PFLOPS的推理算力以及50PFLOPS的训练算力,均由燧原科技提供核心算力支撑。 未来,点军政府还将在今年年内建成3000PFLOPS以上算力,其中点军人工智能算力中心二期的算力规模将达到300~500PFLOPS。 张亚林将智算中心与生成式AI比作了“容器”与“溶液”的关系,点军智算中心作为算力的“容器”,其他互联网企业的算力需求就是“溶液”,智算中心为互联网企业提供算力租赁,真正让算力用户的需求和算力资源实现匹配,实现智算中心和生成式AI的双轮驱动发展。 点军智算中心项目建成后,除了为大模型提供推理和微调任务提供算力支撑外,还为宜昌市智慧城市应用场景提供AI视频智能化解析,与智能摄像头等场景应用联动,同时为文旅、金融、科教等行业提供生成式AI服务。 在此基础上,该智算中心还将以宜昌点军为据点,对接外省市的算力调度需求,实现异地异构算力跨省市对接,加速助力宜昌打造国家东数西算战略中多元算力高地和国家算力“中继站”,联动上下游产业链玩家,支撑各省市、区域、行业的应用实践创新,实现真正按需调度算力资源。 点军智算中心已经成为宜昌“数算一体、数实融合”产业格局的重要一环。 三、打通算力、大模型、应用开发全链路,发布“燎原”生态合作计划 如今,大模型部署加速,智算中心加生成式AI的新商业模式到来。除了智算中心这样的基础设施,大模型的落地应用离不开算力提供商、大模型玩家以及应用开发服务平台的深度参与与生态协同。 张亚林提到,点军智算中心实现上线全消纳本身也说明了大模型广泛部署阶段已经来临,在这之后,大模型部署会带动更多数据产生,促进算法的演进,衍生出生成式人工智能的应用。 因此,他预计,今年下半年或明年将迎来更大一波的真正模型升级,大模型的飞轮将滚动起来。 这背后就是燧原科技与生态合作伙伴的机遇。燧原科技与贝式计算、开放传神、思迹信息、无问芯穹、澎峰科技、中电金信等多个生态合作伙伴发布了“燎原”生态合作计划和燧原生态技术伙伴培育计划,构建一个开放、协作、创新的人工智能生态系统,在此之上孵化出更多创新应用。 目前,点军智算中心的重要客户已经涵盖了大模型玩家、应用开发服务平台、垂直行业玩家、开源生态社区等丰富多元的泛互联网企业。 3月底,燧原科技和无问芯穹宣布在宜昌共建千卡集群,无问芯穹的Infini-AI平台接入了点军智算中心的算力集群,开发者可以基于该平台直接无缝使用云燧i20推理卡。这使得开发者可以在灵活调用算力资源的基础上,更直观的感受到什么样的芯片与自己的模型更加匹配,从而加速大模型在具体业务中的应用创新。 贝式计算从2019年参与燧原第二代产品设计与合作至今,燧原科技的产品在贝式自研任务中的占比已经超过85%。大模型时代计算芯片的需求呈指数级增长,硬件的迭代同样会带来软件的整体切换迁移。基于燧原科技的软件栈统一特性以及持续的研发投入,企业在算力领域的投资可以持续沿用。 大模型的应用端层面,国内头部的流媒体服务平台爱奇艺正在文生图等领域试用点军智算中心提供的算力,之后将与燧原科技探索生成式AI在影视内容制作领域的应用。这也是生成式AI在泛娱乐领域实现商业应用,大模型与更多场景相结合的一大体现。 更为重要的是开源开放的生态建设,燧原科技为AI开源开放平台OpenI启智社区提供了GCU算力资源,社区开发者可以在启智平台上基于燧原GCU进行模型训练和推理,开发者提供算力,并通过引导让开发者对国产算力的效果有所感知。 点军智算中心作为重要桥梁,将算力、大模型厂商、大模型运维商和应用开发的玩家连接起来,并通过开源开放的生态体系协同降低大模型创新的门槛,进一步推动企业的应用探索。 结语:AIDC+AIGC,驱动算力范式变革 点军智算中心不仅是燧原科技进行智算中心建设的标杆案例,同时也是湖北宜昌打造全省大规模算力集群的示范场景。从算力基础设施,到开源开放的生态建设,燧原科技为大模型应用开发和部署落地释放算力资源赋能已经得到了充分验证。 智算中心+生成式AI的生态,将建设、应用、运维算力的伙伴们聚集起来,让国内智算中心真正达到满载应用、商业落地。正如张亚林所言,当下云边端一体化为国内产业带来了更大的机遇,To B和To C开始融合,中国拥有最大的用户和场景,基于用户场景和需求推动应用、模型、服务、系统软硬件一体化的商业模式将推动AI 2.0时代新纪元到来。
对话Arm终端产品副总裁:当生成式AI与Arm的DNA相契合,会擦出怎样的火花?
作者 | 云鹏 编辑 | 李水青 智东西5月31日报道,今天,智能终端产业正与以大模型为代表的生成式AI技术进行一场前所未有的深度融合,以AI手机和AI PC为代表的移动领域,作为与我们每个人生活关系最为密切的赛道,已经涌现出诸多新的AI需求和场景。 生成式AI带来了新的算力挑战和存储挑战,并加速着背后一系列硬件、软件、算法、生态等方面的技术迭代,从芯片厂商到终端厂商,再到大模型厂商,每一个领域的玩家都被深度卷入。 作为移动领域底层计算解决方案提供者的科技巨头Arm,近期也亮出了一系列与生成式AI产业发展密切相关的新产品、新技术,可以说,作为移动生态巨头的Arm,正在向AI加码布局。 就在昨天,Arm在中国北京举办了一场线下发布会,公布了自家最新的终端计算子系统(CSS),这一系统结合了Armv9架构的特性,基于3nm工艺节点打造,包括Arm最新的CPU和GPU。同时Arm还发布了为开发人员量身定制的开发工具Kleidi库。 新CPU Cortex-X925实现了41%的AI性能提升,并显著提高了LLM等设备端生成式AI的响应能力,而Arm Immortalis-G925则在多个AI和ML网络上提升了34%的性能。 可以说,Arm的一系列重磅技术和新品都剑指AI。 值得一提的是,这是Arm首次为Arm CPU和GPU交付物理实现,这可以让构建和部署基于Arm架构的解决方案变得更加简单。 此次智东西也有幸与Arm终端事业部产品管理副总裁James McNiven进行了面对面的深入交流,对Arm在生成式AI时代的机遇、挑战进行了深入探讨,并挖掘了Arm在架构、硬件、软件、生态等方面的核心优势和深入思考。 在生成式AI时代,计算的“能效”成为行业首要关注焦点,而能效正是Arm的“DNA”。Arm毫无疑问已经成为搅动移动智能终端产业的重要变量。 一、生成式AI掀起存储、计算需求暴涨,安卓端CPU挑大梁 毫无疑问,当下正是移动智能终端行业的关键时刻。生成式AI的端侧落地,重新定义了智能手机的“智能性”,而在这一关键时刻中,Arm是计算的“基石”。从手机、笔记本电脑到可穿戴设备和数字电视等设备,Arm正在为最大的计算生态系统提供普适应用。 生成式AI的到来必将会催生更多的计算需求,带来更多新的用例,这对Arm、芯片厂商、终端厂商来说都是一件好事,但同样这对于Arm来说也是一种挑战,他们需要不断迭代架构、硬件、软件等方面的技术,让生成式AI可以在Arm平台上更好地运行。 McNiven谈到,针对生成式AI的到来,Arm针对AI推理和训练优化了Arm CPU和GPU,并持续在架构中对一些新的指令和数据类型新增支持,此外,为了应对内存流量需求的激增,Arm也花费了大量时间优化数据流。 在生成式AI落地的过程中,异构计算成为了行业的主流,CPU、GPU、NPU需要相互协同,但实际上,有70%的第三方安卓ML工作负载都是在CPU上运行的,因此CPU仍然是AI时代计算的核心。 二、CPU、GPU性能能效提升,死磕AI能力,新软件工具剑指AI落地 正如Arm高级副总裁兼终端事业部总经理Chris Bergey称,Arm平台秉承了Arm DNA的能效理念,随着AI时代的加速发展,它正为下一波计算需求奠定根基,这也是Arm的核心竞争力所在。 Arm全面计算解决方案(TCS)我们已经不陌生了,而此次推出的Arm终端CSS带来了新的CPU与GPU,提升了性能、能效、对开发者软件的支持以及AI方面的诸多能力,并首次为Arm CPU和GPU交付物理实现。 据了解,此次发布的Arm终端CSS是迄今速度最快的Arm计算平台,提升了30%以上的计算和图形性能,以应对要求苛刻的实际用例中的安卓工作负载,同时其AI推理速度提高了59%,可以更好地处理AI、ML和计算视觉工作负载。 McNiven在发布会上特别强调称,Armv9重点提升了在矢量加速、ML等领域的计算能力,并增加了面向AI的功能。 据称,新Arm Cortex-X925实现了Cortex-X系列推出以来最高的同比性能提升,该CPU采用3nm工艺,主频最高达到3.8GHz,配合微架构的改进,与2023年旗舰智能手机采用的4nm SoC相比,其单线程性能提高了36%。 McNiven谈道,Arm想通过命名的更改更清楚地呈现其与前代产品的不同——Cortex-X925是Cortex-X推出以来取得最高IPC同比增幅的CPU。 在AI性能方面,Cortex-X925的token首次响应时间提高了41%,这意味着如大语言模型等设备端生成式AI的响应能力有明显提升。 具体来看,Arm对微架构进行了重点改进,采用了迄今为止最宽的解码和矢量设计,实现了50% TOPS数的增长。同时,Arm通过更强的可配置性和更大的私有L2缓存大小,保留进出过CPU的指令和数据。 GPU方面,新Arm Immortalis-G925 GPU在各款头部手游应用中实现了37%的性能提升,在多个AI和ML网络上实现了34%的性能提升,此外,Arm Mali-G725和Mali-G625 GPU可以覆盖更多移动智能终端产品,比如智能手表和XR可穿戴设备。 在可扩展性方面,Arm的合作伙伴可以利用一系列不同的CPU和GPU选项,针对大屏幕计算、智能手机、数字电视和可穿戴设备设计自己的解决方案。 在工具和软件库方面,Arm首次发布了Arm Kleidi,其中包括面向AI工作负载的KleidiAI和面向计算机视觉应用的KleidiCV。 据了解,KleidiAI是一套面向AI框架开发者的计算内核,让开发者们能够在各种设备上轻松获得Arm CPU上的最佳性能,支持Neon、SVE2和SME2等关键Arm架构功能。 KleidiAI与PyTorch、Tensorflow、MediaPipe等热门AI框架集成,可以加速Meta Llama 3、Phi-3等关键模型的性能,并且还可前后兼容,以确保Arm在引入更多技术时依然能适用未来市场的需求。 在Arm看来,CPU是唯一可以确保运行未来网络的计算引擎,因此Kleidi的解决方案都是为CPU构建的。Arm一直在将KleidiAI集成到各种框架中,从可以在任何设备上运行任何网络的通用框架到特定任务的点对点解决方案。 值得一提的是,Kleidi一词来源于希腊语,意为“钥匙”,即为开发者释放更多性能的钥匙。 三、AI PC浪潮涌起,WoA生态加速生长 值得一提的是,此次Arm重点提及了他们在Windows on Arm(WoA)生态系统中所取得的进展,这部分也归功于AI PC的快速发展。 McNiven特别谈到,对于WoA生态系统来说,今年是成果丰硕的一年。除了Microsoft Office、Dropbox、Zoom、Adobe套件,越来越多的应用正在成为Arm原生应用,尤其是百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等头部应用。 此外还有许多针对创作者的开源工具,例如最近新增的Audacity、Blender和OBS Studio,这些应用整合了大量的开源库和开发者工具。 Arm与微软合作,通过资助开源和发布面向Windows的Arm性能库来发展生态系统。据了解,对于大多数用户来说,他们绝大部分时间都在基于Arm CPU的AI PC上运行Arm原生应用。 在McNiven看来,新用例的涌现会为市场带来新的活力,无论是在PC笔记本电脑、物联网、基础设施还是手机中,Arm希望任何有计算发生的地方都有Arm的技术。 AI用例的兴起带来无处不在的计算,这对Arm和合作伙伴而言都是一个很好的机会,生态系统对Arm而言至关重要。 结语:构筑面向未来AI的计算平台,Arm先行一步 可以看到,Arm正将前沿的CPU和GPU技术、生产就绪的物理实现和持续的软件优化相结合,Arm终端CSS结合Kleidi软件,成为未来AI计算的优秀平台。 面向生成式AI的未来,移动智能终端产业必然将涌现出更多创新,Arm将如何通过技术创新保持自身的核心竞争力并不断壮大自身的生态,我们拭目以待。
像手机却不是手机,XREAL 发布了 AR 时代的iPod
提到智能眼镜,现在行业有两个主流方向。一边在向 Vision Pro 和 Meta Quest 的方向发展,虽然价格高昂、体积庞大,但可以带来极致的视觉体验。 另一边,还有一类产品,从一开始就是奔着全天候佩戴来。没有显示但相对轻巧,而且还会加入一些小功能,例如 Meta 和雷朋联名的眼镜。 而 XREAL 则想走一条中间道路,尝试在两者之间取一个平衡之处。它选择在眼镜上放置显示模组,而计算单元则被外置。 XREAL 一直是分体式 AR 眼镜的代表,最近它在眼镜本体之外,又发布了一个新品。 5 月 30 日,XREAL 在「尽在眼前」新品发布会上,正式发布了空间计算新品 —— XREAL Beam Pro,一款用来解放手机的全能空间计算终端。 这款酷似手机的新品,实际上并不是手机,而是一个「像 Phone 一样的 AR 空间计算终端」。它就像是一款 AR 时代下的 iPod Touch,除了不能打电话,其他的触摸屏、摄像头等部件一应俱全。 Beam Pro 的正面搭载了一块 6.5 英寸的 90Hz LCD 屏,运行的是基于 Android 14 的 nebula OS。 其余配置方面,Beam Pro 搭载了 4nm 骁龙八核空间计算协作处理器,配有 4300mAh 电池 + 27W 快充,还支持 Wi-Fi 6 和 蓝牙 5.2,以及最高 1TB 存储卡扩展。 XREAL 想尝试解决「空间计算」总强调概念,却始终匮乏内容的痛点。他们称 Beam Pro「既是驱动手机应用在 AR 眼镜上的『手机』,又是客厅娱乐串流的设备,也是一个空间影像的采集与拍摄设备。」 Beam Pro 采用了塑料机身,整机非常轻巧,仅有 208 克。和普通手机不同的是,Beam Pro 在机身上配备了两个 Type-C 接口。这使得 Beam Pro 在驱动 AR 眼镜的同时,还可以进行充电。 在独立使用时,Beam Pro 是就是一台能够胜任碎片化使用的移动终端,用户就如使用正常手机一般。可以随时通过 Beam Pro 的屏幕管理机内设置、下载更新应用和多媒体内容,也可以尽情享受平面娱乐内容。 当连入 AR 眼镜之后,Beam Pro 又能化身随身的空间娱乐中枢。Beam Pro 还通过了 Android 的 XTS 测试(仅海外版支持),能够兼容绝大多数移动端 Android 应用。 无论是刷 B 站、看球赛、逛小红书,还是将 PC、主机上的 3A 大作串流到空间大屏,用户都能即刻进入自己喜欢的应用中,享受一段完整流畅的沉浸体验。 Beam Pro 为 AR 眼镜内容匮乏的问题提供了新的解决方案,不仅让用户能够畅享移动平台的丰富内容,还沿用了对应的帐号会员体系与设置。这意味着用户可以随时随地观看电影,而无需再次购买大屏会员,这与其他 AR 盒子仅支持电视端应用十分不同。 在交互上,由于 XREAL 眼镜没有向下的传感器,所以无法实现像 Vision Pro 一样的手势操作。但 Beam Pro 的出现,降低了用户的使用 XREAL 眼镜的门槛。 Beam Pro 在将用户熟悉的手机端 APP 移动到 AR 空间的同时,还将用户的使用习惯也同步迁移。同时支持空鼠和空间射线交互搭配游戏手柄、蓝牙键盘、蓝牙鼠标、蓝牙触控板等多种外设交互。 除了第三方内容外,用户自己创作的内容也十分重要。空间视频意味着人类进入现实的方式又往前走了一大步。现在我们不仅可以留住时间,更可以把空间也给留住。 在 XREAL 的发布会上,影视飓风的 Tim 这样说道: 千百年来无数英雄豪杰好汉都想留住他所见到的一切,然而直到近代都找不到影像留存的最优解,空间视频意味着人类记录现实的方式又迈出了一大步。 iPhone 等手机虽然已经可以拍摄空间视频了,但为了照顾全焦段的拍摄体验,手机从来不会用两款完全一样规格的摄像头。 只能使用有着不同的焦距、光圈和传感器尺寸的两个摄像头来拍摄。而且由于手机内部需要对布局进行考虑,所以无法设置较大的镜头间距。 手机如此安排造成的结果,就导致拍摄出的左右画面景深是不一致的。 长时间观看这样的空间视频,很容易产生眩晕感。此外,因为手机摄像头之间的距离和人眼瞳距差距较大,实际上视频呈现出的立体感也会被大大的削弱。 而 Beam Pro 最吸引人的一点,便是它原生的双目 3D 摄像头。 它搭载了两颗完全一致的摄像头,做到了手机上从未出现过的 50mm 超大镜间距,完美模拟了瞳距,很贴近人眼的透视感。 Beam Pro 选择了双主摄规格的三星 JN1 传感器,拥有 5000 万像素,F/2.2 的光圈,支持纳秒级同步和双主摄像素级同步。 另外,Beam Pro 的空间拍摄帧率领先于高端旗舰机型,支持防抖效果更好的 30fps 模式,和流畅度更好的 60fps 模式。 XREAL 还根据用户日常使用习惯不断优化 3D 拍摄效果,延续核心防抖科技 EIS,并为空间拍摄做了深度算法优化,实现双摄像头自动对焦测光,将使用门槛降至最低,让摄影新手也能拍出立体大片。 每台 Beam Pro 的相机在出厂时,都进行了精确的逐台校准,最终实现了亚像素级别的双目合像误差,在各环节都有效提升了拍摄清晰度。 知名风险投资公司 Loup Ventures 创始人 Gene Munster 认为: 从视频迈进空间视频,就像一百年前从静止照片到视频带来的改变。 想象一下,在一个演唱会或者赛事现场,有了 Beam Pro,你就能用空间视频能够捕捉场地的全貌,包括人群、舞台和动作。 又或者你和家人去海滩玩,在你不需要借助特殊的设备,只需要拿出 Beam Pro 便可记录下来。 若干年后,也许照片会褪色,但空间视频会让你再次身临其境,留住「你爱的人」。 在适配性上,Beam Pro 也完全不用担心。Beam Pro 可与 XREAL 推出的所有 Air 系列眼镜一起使用 售价方面,Beam Pro 6GB+128GB WiFi 版本为 1299 元,8GB+256GB WiFi 版本售价为 1599 元。稍后还会推出 Beam Pro 5G 版本,起售价 1999 元。而面向企业用户的 Beam Pro 企业版,则售价 2999 元起。 XREAL 创始人兼 CEO 徐驰在发布会上表示: 苹果巧妙地把移动互联网生态「移植」过来,让大家看到了空间计算的未来,而我们努力让大家看到空间计算的现在。 当前,消费者对产品的便携与多面手特性追求日益升温。正如一些网络声音指出,任何产品若未能彰显超越智能手机的独特价值,其市场地位难免遭受审视。 iPod Touch 的谢幕,在某种层面上映射出市场对单一功能设备兴趣的逐步减退。大众愈发偏爱集多种功能于一身的科技产品,以此减轻携带的负累及经济成本。 XREAL Beam Pro 的设计初衷,并非意在取代手机,而是作为手机功能的延伸与增强。它构建了一个为 AR 眼镜量身定制的空间计算平台,虽能解锁更为沉浸、专业的体验维度,但这些体验并非独此一家,通过其他设备亦能触及。 实质上,我们内心渴求的,并非是标榜为「下一代 iPhone」的产物,而是那些能让日常生活增添乐趣、工作效率显著提升的创新体验。 即便这些创新不涉及彻底的行业颠覆,只是令少数日常场景得到细微却实质的优化,也足矣赢得肯定。然而,将这一愿景化为现实的过程,无疑还是需深思熟虑。
“反英伟达联盟”成立,UALink能否取代NVLink?
作者|王艺 编辑|赵健 看不下去英伟达的垄断,科技巨头们联合出手了。 据科技媒体TechCrunch最新消息,英特尔、谷歌、微软、Meta、AMD、惠普、博通、思科联合成立了一个新的行业组织——UALink促进会(the Ultra Accelerator Link Promoter Group,超级加速器链接促进会),该组织正在提议制定一项新的行业标准,应用于数据中心里AI芯片之间的互联。 提议标准的第一个版本UALink 1.0将通过单个计算“Pod(舱,服务器中的一个或者多个机架)”连接多达1024个AI芯片(仅限GPU)。据UALink促进会称,UALink 1.0基于包括AMD的Infinity Fabric在内的“开放标准” ,将允许在连接到的AI芯片的内存之间进行直接加载和存储,与现有互连规范相比,可以提高速度并降低数据传输延迟。 同时,该组织表示,将在今年第三季度成立“UALink联盟”,以监督UALink规范未来的发展;UALink 1.0将在同一时间向加入该联盟的公司提供,带宽更高的更新规范UALink 1.1则将于今年第四季度推出。 1.一切都怪英伟达 UALink的名单中,没有英伟达。 这或许和英伟达长期垄断数据中心市场的“霸权”有关——英伟达目前是世界上最大的AI数据中心制造商,约占全球80%-95%的市场份额。凭借着其专有的互联技术NVLink、NVLink Switch(NVSwitch)和Infiniband,英伟达实现了AI芯片和数据中心之间的高速数据传输: NVLink 是一种专为GPU与CPU之间高速数据传输设计的互连技术,相较于传统的PCIe接口,它提供了更宽的带宽和更低的延迟,极大提升了GPU密集型应用如深度学习、科学模拟和大数据分析的性能; 第五代NVLink极大地提高了大型多GPU系统的可扩展性,单个NVIDIA Blackwell Tensor Core GPU支持多达18个NVLink 100 GB/s连接,总带宽为1.8TB/s,比上一代带宽高2倍,比PCIe Gen5带宽高14倍以上(图源:NVIDIA) NVSwitch是英伟达开发的一种高速交换机技术,它扩展了NVLink的概念,可以将多个GPU和CPU节点在更大范围内连接起来,形成更为复杂的互连网络。NVSwitch拥有多个NVLink端口,能够在一个系统内实现任意两个GPU之间的直接通信,这对于构建大规模GPU加速的超级计算机和数据中心架构尤为重要; 图源:NVIDIA NVSwitch可在一台NVL72中实现130TB/s的GPU带宽,以实现大型模型并行; NVL72可以支持的GPU数量是单个八GPU系统的9倍 与此同时,英伟达通过收购Mellanox Technologies,将高速网络解决方案InfiniBand纳入麾下,进一步巩固了其在数据中心生态的影响力。InfiniBand以其极高的数据传输速度和低延迟特性,成为高性能计算集群和数据中心内部通信的优选方案,尤其适合大规模并行计算和存储架构。 图源:TechTarget InfiniBand网络由交换机和路由器组成,数据包使用串行方式发送,可以同时发送多个数据通道。 这三者的结合,使得英伟达能够提供端到端的高速数据通路,从GPU到CPU,再到整个网络基础设施,这种垂直整合能力极大地优化了数据处理流程,不仅提升了用户在人工智能、科学模拟、数据分析等领域的计算能力,还极大地增强了英伟达在高性能计算市场的竞争力,确立了其作为行业标准制定者的角色,进一步扩大了其在技术前沿的垄断地位。 英伟达最新财报(2025财年第一财季)显示,英伟达第一季度总营收260亿美元(创历史新高);其中,数据中心业务贡献了英伟达的绝大部分营收,收入达226亿美元,同比增长427%,环比增长23%。如果英伟达继续保持目前增长势头,或许将在今年某个时候超越苹果成为全球第二大市值的公司。 在披露财报的同时,英伟达CFO Colette Kress还表示,“大型云服务提供商大约占据数据中心收入的45%左右”。钱都被英伟达赚了,科技巨头们难免不高兴,因此组团成立UALink定义新的行业标准,试图在英伟达的“垄断”体系下突围。而英伟达不支持基于竞争对手技术的规范也无可厚非。 2.第二次围攻 UALink的成立,是科技巨头们对英伟达的“第二次围攻”。 早在2023年7月,Linux基金会就联合博通、思科等多家公司成立了一个“超级以太网联盟(Ultra Ethernet Consortium)”,通过使用针对AI和HPC工作负载优化的新拥塞控制方法(如晶片堆栈和硅光技术),以实现比InfiniBand或RoCE网络更高效、更具可扩展性的互联网络,从而打破Inifiband的垄断。 而2023年12月,UALink促进会就有了初步的苗头。当时AMD和博通发表了一个联合声明,表示博通未来的PCI-Express交换机将支持xGMI和Infinity Fabric协议,使用NUMA架构,用于AMD的Instinct GPU和CPU之间的相互连接。这一最新交换机被命名为“Atlas 4”,遵循PCI-Express 7.0规范,将于2025年上市。 但PCI-Express不是UALink唯一的互联, xGMI也不是唯一的协议。AMD为UALink贡献了范围更广的Infinity Fabric共享内存协议,而所有其他参与者都同意使用Infinity Fabric作为数据中心互连的标准协议。英特尔高级副总裁兼网络和边缘事业部总经理Sachin Katti表示,UALink促进会正在考虑使用以太网第1层传输层,并在其上采用Infinity Fabric,以便将GPU内存粘合到类似于CPU上的NUMA的巨大共享空间中。 很少有人想过将多个不同供应商的GPU连接到一个机箱内,或者是连接到一个Pod(舱)内。但UALink就在试图这么做—— UALink GPU和加速舱(图源:The Next Platform) 使用以太网将Pod链接到更大的集群(图源:The Next Platform) 使用UALink,可以将一个带有AMD GPU的Pod,一个带有Intel GPU的Pod,和另一个带有若干AI芯片的其他品牌供应商的舱连接在一起。就像Meta和微软发布的开放加速器模块 (OAM) 规范允许系统板上加速器插槽的通用性一样,UALink也在互连层面上实现了服务器设计的通用性。 据介绍,Ultra Ethernet仍将用于扩展到更多节点,博通可能会在800Gbps的Thor产品中推出一款早期的Ultra Ethernet NIC,但仅根据规范标准化的程度,可能还需要一代才能获得完整的UEC支持。 对于AMD和英特尔等公司来说,UALink为其提供了一条复制NVLink和NVSwitch、并与其他公司共享开发成果的途径。此外, UALink也让博通这样的公司制造UALink交换机来帮助其他公司扩大规模。 “行业需要一种能够快速推进的开放标准,这种开放标准允许多家公司为整个生态系统增加价值”,在外媒TechCrunch的采访中,AMD数据中心解决方案总经理Forrest Norrod表示,“这种标准需要允许创新不受任何一家公司的束缚,快速推进”。 3.微软、Meta、谷歌或成最大受益者 UALink的最大受益者可能是微软、谷歌以及Meta,它们总计花费了数十亿美元购买英伟达的GPU和服务器来训练其大模型,因此他们迫切地想要摆脱对于英伟达硬件的依赖。 比如谷歌于2020年就在自家的数据中心上部署了当时的最强AI芯片“TPU v4”,去年在Cloud Next 2023大会上推出了新款自研AI芯片TPU v5e,并推出了搭配英伟达(NVIDIA)H100 GPU的 “A3超级计算机”GA(通用版);今年的Cloud Next 2024上,谷歌又宣布推出基于Arm架构的CPU Axion。其性能比通用Arm芯片高30%,比英特尔生产的当前一代x86芯片高50%; 微软于去年11月推出了Azure Maia AI芯片和Azure Cobalt CPU,Maia是为满足微软服务的特定性能要求而定制的,可以显著减少能耗;Cobalt CPU则基于Arm架构构建,以其能效和性能而闻名;此外,微软和OpenAI也计划投入1000亿美元建造超级计算机用于训练大模型,该超级计算机将配备未来版本的Cobalt和Maia芯片,而UALink恰好可以将它们连接起来; 而Meta则在2021年和2022年分别推出了模型训练平台ZionEX和Grand Teton,又在今年在3月宣布设计了两个新的AI计算集群,每个集群包含24576个GPU。这些集群基于Meta的Grand Teton硬件平台,其中一个集群目前被Meta用于训练其下一代Llama 3模型。Meta还致力于PyTorch框架实现,试图用并行化算法,将初始化时间从“有时数小时缩短到数分钟”。 在众多科技巨头的努力下,一个可以与英伟达分庭抗礼的新的互联行业标准,或许离我们不远了。
奥尔特曼公开回应AI语音争议,但回避关于OpenAI治理的问题
OpenAI近期陷入多起与公司治理和产品合规相关的舆论风波。美国演员斯嘉丽·约翰逊(Scarlett Johansson)近日质疑OpenAI聊天机器人使用酷似她声音的Sky语音。此外,OpenAI解散“超级智能对齐”团队后于当地时间5月28日成立了新的安全委员会,引发外界对于公司安全治理转向的担忧。 OpenAI CEO萨姆·奥尔特曼(Sam Altman)在日内瓦当地时间周四的国际电信联盟(ITU)AI for Good全球峰会上,回应了相关敏感话题。 “那不是约翰逊的声音,不应该是这样的。对于声音的相似程度,人们会有不同的看法,但我们不认为那是她的声音。”奥尔特曼在与大西洋月刊CEO尼古拉斯·汤普森的现场对话中表示。 根据斯嘉丽·约翰逊此前的说法,奥尔特曼在去年9月找到她,希望她为ChatGPT配音,她拒绝了,但近期她发现OpenAI Sky系统声音跟她很像。受质疑后,OpenAI同意删除相关语音。 奥尔特曼对于公司治理的相关话题则有所回避。本月,OpenAI与安全相关的“超级智能对齐”团队两名负责人相继出走,其中一名负责人詹·莱克(Jan Leike)在社交媒体上表示,他与OpenAI高层在核心优先事项上存在分歧,到了不可弥合的临界点,在过去的几年间,公司安全文化和流程已被“闪亮的产品”取代。 尼古拉斯·汤普森现场询问了关于OpenAI治理情况和成立新安全委员会的想法,奥尔特曼回应称“我们继续讨论如何实施治理,我现在可能不应该说太多”。但奥尔特曼也表示,成立新的安全委员会是为了帮助OpenAI为下一个模型做好准备。 近日还有OpenAI前董事会成员质疑奥尔特曼不够诚实。在一档播客节目中,去年投票支持解雇奥尔特曼的OpenAI前董事会成员海伦·托纳(Helen Toner)表示,奥尔特曼多年来一直在隐瞒信息,ChatGPT于2022年11月推出时董事会未得到提前通知,而是在社交媒体上知晓此事。她还表示,奥尔特曼多次提供了关于公司少数安全流程的不准确信息,董事会基本不可能知道这些安全流程效果如何。 关于上述说法,奥尔特曼现场表示,他不同意海伦·托纳对事件的回忆,并表示海伦·托纳关心AGI(通用人工智能)的结果,他很欣赏她,祝她一切顺利,而自己不想在此逐句反驳。 OpenAI近日宣布公司开始训练下一个前沿模型,并预计该模型有望将人工智能技术能力提升到一个新层级。奥尔特曼现场还分享了关于AI运行机制的想法,他认为AI系统运行与人类大脑有相似性。“我们没有解决可解释性(解释AI系统如何作出决策)的问题。”奥尔特曼表示,但即使没有完全的认知,这些AI系统通常也被认为是安全和强健的,“我们不知道你的大脑在一个个神经元之间发生了什么,但我们知道你可以遵守一些规则,而且可以解释为什么会想一些事情。”
对话XREAL CEO徐驰:苹果让行业看到空间计算未来,我们让大家看到现在
作者 | 云鹏 编辑 | 李水青 智东西5月31 报道,苹果Vision Pro的发布,可以说向整个XR产业抛入了一枚重磅深水炸弹,时至今日,在各大XR厂商发布会上,我们都能看到高管们对于苹果这款产品的讨论。 前不久,苹果Vision Pro在美国市场销售遇冷的消息在行业内广泛传播,也引发了大家对于XR产业的新一轮深入思考和讨论,空间计算的方向真的对吗?现阶段品类繁多、体验参差不齐的各类XR产品,到底是否会走向某一个“终极形态”? 在XR行业中,似乎每个玩家都在给出自己的答案和解法,而这一行业现状,在XREAL CEO徐驰来看,是一件“大好事”。 就在昨天,中国AR独角兽企业XREAL在北京召开新品发布会,亮出了自家新一代空间计算新品XREAL Beam Pro,XREAL给其的定义为一款“用来解放手机的全能空间计算终端”。 XREAL Beam Pro的外形酷似一部手机,也引起了大家的热烈讨论,难道XREAL要做手机了吗?答案当然是否定的。 在与徐驰和XREAL联合创始人兼首席算法科学家吴克艰进行了一个多小时的深入交流后,我们看到一家AR创企正坚定地向着空间计算的方向迈着步子,一步一个脚印,把内容、生态等一个个关键痛点逐步解决,并围绕核心关键技术,构筑起了属于自己的竞争壁垒。 而对于当下火爆的生成式AI,徐驰和吴克艰都有着共同的坚定认知:AR是AI最好的载体,AI是AR最好的交互,AI和AR可能是未来十年最能够改变消费电子和终端体验的两个核心技术。XREAL也在积极探索生成式AI与AR眼镜的融合,尤其是AI大模型在多模态交互领域带来的新机遇。 可以说,一场新的风暴,正在XR产业中酝酿。 一、苹果Vision Pro加速XR产业发展,XREAL选择让大家看到“现在” 对于苹果Vision Pro在美国市场销售遇冷,徐驰谈到,大家一开始抱有过高期待是不对的,颠覆行业的产品,很难是“横空出现”的,往往也需要经过量变到质变的积累的。 比如iPhone一代发布之初,没人觉得它会颠覆诺基亚、摩托罗拉的功能机帝国,但到了iPhone 4、iPhone 4s之后,没人会质疑智能手机对功能机的颠覆。 在Vision Pro这个节点上,苹果让大家看到了空间计算的未来,但它显然并非一个大众消费级产品。苹果未来一定有做消费级XR的野心,行业需要用更长的时间来看待苹果产品的迭代。 在徐驰看来,苹果帮助整个行业去教育了市场,Vision Pro的发布其实对他们的AR眼镜销量也起到了巨大的带动作用。他希望有更多科技巨头共同参与进来教育市场,这必然会是一件好事。相反,如果企业纷纷从XR赛道中撤离,行业变得冷清,那才是大问题。目前行业内的玩家都在不断增加投入、探索新的产品形态,共同推动行业的发展。 吴克艰也在交流中提到,苹果Vision Pro的发布,吸引了更多开发者去开发真正属于3D、AR或者MR的原生应用,这些是悄无声息的变化,从大众的角度很难看到,但对行业却有非常重要的意义。 我们可以看到,Vision Pro更多是把行业中已知的技术以一种非常工程化、非常高难度的方式结合起来,代表了行业技术的天花板。但最终其3万的售价和屈指可数的应用场景成为其最大掣肘之处。 相比之下,花十分之一的价格,用户可以通过一副AR眼镜获得相近的沉浸式3D空间计算体验,同时产品更轻便,这就是XREAL选择的一条更脚踏实地的路。用徐驰的话来说,XREAL让大家看到了空间计算的“现在”。 二、徐驰:AR是AI最好的载体,AI是AR最好的交互 如今,谈及智能硬件,生成式AI几乎是绕不开的一个话题,在XR领域,同样如此。 在谷歌的I/O大会上,我们看到智能眼镜与AI的结合带来了诸多革命性的体验升级,这也让我们对AI和可穿戴产品的结合产生了更多遐想。 在徐驰看来,AR是AI最好的载体,AI是AR最好的交互,AI和AR很可能是未来十年最能够改变消费电子和我们终端体验的两个最核心的技术。 在AI领域,XREAL一直有长期的积累和探索,早在大模型火爆之前,XREAL在产品的软件算法中就大量用到了AI技术,包括各种传统模型的应用、机器学习算法等。 吴克艰提到,XREAL一直非常看重AI能力在AR硬件平台上的落地,一方面XREAL在积极探索,但另一方面,作为头部AR眼镜企业,他们不可能抱着“追热点”的心态去做AI,XREAL会谨慎地去研究到底真正有意义的落地场景。XREAL会负责任推出基于AR平台的AI场景,而不是仅仅拿AI做一个噱头。 徐驰对此也强调说:“如果一个APP就能解决的事,就不要打着AI的旗号做新硬件了。”XREAL对消费电子行业以及这一赛道的颠覆式创新是有自己的理解的。 在徐驰看来,XREAL作为终端厂商,要设置一个体验的标准,不能“什么火蹭什么”,在有了一定的销量规模后,XREAL会变的更克制,当然,这种克制并不意味着对新技术的“畏惧”。 如果AI与XR的结合上会有什么突破,XREAL一定是走在第一梯队把体验带给消费者的厂商。 三、聚焦显示、感知、交互三大关键技术,跑赢供应链建立竞争壁垒 光有目标肯定是不够的,对于XR行业的企业来说,或许最不缺的就是信心和目标。对于如何脚踏实地走下去,XREAL选择死磕技术。 在AR领域,显示、感知和交互是最核心的三大块技术,当然,这些技术都是“软硬一体”的,从电池技术、芯片技术、显示技术到背后的复杂的交互算法。 据了解,目前XREAL是国内几乎唯一一家在显示、感知和交互的研发上自建团队做投入的创企,当前XR行业发展处于早期,供应链没办法解决所有问题,如果厂商要做出颠覆式体验,必须自己在核心技术上有所突破,XREAL正是借此建立了自己的技术护城河。 徐驰提到,如今有一些行业是供应链成熟之后才有企业脱颖而出,也有一些行业的企业是领跑在供应链之前的。消费电子上半场偏“电子”,下半场偏“消费”,XREAL给自己的定位就是要跑在上半场,通过自身的技术研发能力跑赢产业链,这样才能在AR赛道中脱颖而出,建立自己的竞争壁垒。 吴克艰对此也谈到,目前AR行业包括XR行业都是属于行业的“上半场”,供应链能提供的已有技术并不成熟,这是为什么XREAL决定要自研核心的光学器件、软件系统、核心算法。 一路走来,XREAL攻克了很多难关,包括光学的设计和量产,特别是在量产环节中,如何在控制成本的情况下保持非常高的良率和品控,都充满挑战。 软件系统层面,XREAL从无到有定义了nebulaOS这套软件系统,解决3D空间显示的难题。在核心算法方面,让3D的显示、3D的感知和交互做到丝滑和精准,需要解决空间定位、空间计算、空间感知、空间交互等方面的诸多难题。 优秀的产品体验,是XREAL自建团队,从无到有攻克这些技术难题换来的。 四、“土地够肥”才能长出够多原生内容,Beam Pro“解放”而非替代手机 谈及未来行业发展,徐驰给出了自己非常乐观且坚定的看法。 如今XR行业发展提速,越来越多的厂商都在往这个方向探索,徐驰也期待AR赛道中能有更多科技巨头加入,这无疑会加快整个行业的增长。 根据徐驰预测,未来五年之内,AR体量将会远超VR,当终端规模能够达到2000万部到5000万部的“拐点”,内容生态的生长就会更加健康自然、水到渠成。 说到内容,此次XREAL重点解决的一大AR领域的痛点就是内容的缺乏,通过Beam Pro,2D内容的直接3D化解决了很大一部分问题。 徐驰说,XREAL在内容端本质上是在做“3+1”,“3”是如何最大化给用户现在既有的内容,包括空间影像、移动手机生态空间化移植、客厅娱乐串流的移植。而这个“+1”就是SDK,加速原生AR内容的开发。 对于XR行业,人们总爱谈论“杀手级应用”的话题,但实际上,在《愤怒的小鸟》、《切水果》这种杀手级应用出来之前,iPhone的市场终端规模已经达到了5000万到1亿部。 XREAL希望借助“3”的内容能,让终端逐渐发展到2000万部、5000万部的拐点,这时“+1”自然会有更多势能释放出来,“地足够肥”,自然就能长出很多原生内容。 在徐驰看来,在行业规模没有到达相应阶段就着急让开发者来这条赛道上开发是不对的,开发者核心是要能够赚到钱,才能形成正向循环。作为终端厂商,他们要跟行业共同解决的问题,就是在开发者还不足的时候,让赛道上的玩家看到希望,让消费者看到希望,让开发者看到希望,指望开发者来解决赛道缺乏杀手级应用的问题,是不可能的。 面对AR眼镜未来的发展,徐驰也坦言道,手机仍然是过去20年甚至30年最成功最伟大的单一消费电子产品,急于寻找某些“颠覆性”方式去替代手机,是不可能也不现实的。 手机至今也没有替代掉PC,但可能已经替代了绝大部分照相机,XREAL要做的是努力让眼镜替代掉大部分电视或其他的数字化显示设备。 对于XR眼镜可以完成手机全部的功能,替代和转变会悄无声息、自然而然地到来。可穿戴产品与手机的关系,XREAL的做法是先“拥抱”,用Beam Pro“解放”手机而不是替代手机,等行业发展到有一天 结语:XREAL拥抱空间计算,生成式AI给行业带来更多变量 据市场调查机构IDC预测,2024年全球AR/VR设备出货量预计将增长46.4%,行业呈强劲上升态势。 面对持续升温的AR市场,Beam Pro无疑是XREAL这家独角兽面对当下AR市场交出的一份新答卷,而XREAL也通过Nebula OS解决了当下XR领域内容端的缺失问题,并借此重整生态,构建属于自己的全能空间计算场景。 在深入交流中我们感受到XREAL对于技术研发的执着追求,同时从CEO徐驰到首席科学家吴克艰,他们对XR行业的发展有着清晰地认知和判断,并且对XREAL什么时候该做什么事,要做成什么样,都有着明确坚定的方向。 研究机构IDC的数据显示,2023年XREAL旗下Air系列AR眼镜占据了全球消费级AR眼镜43%的市场份额,在所有品牌中位列第一。作为AR领域的领头羊,XREAL一系列关键动作势必会向整个XR产业释放更多能量。 面向生成式AI的未来,AR眼镜必然大有可为,我们也期待XREAL能给行业和消费者带来更多惊喜。
绿色计算机标准发布,英特尔和伙伴发了 7 款绿色电脑
一般来说,电脑用户不太会把自己日常办公的产品和环保联系在一起,比较普通的电脑不像空调冰箱那样功率巨大,或者内置冷却剂压缩机之类的,但其实环保是个精细活,也是个全链条概念。无论是生产,包装,运输还是后期使用维修,其实都和环保息息相关。 2024 年 5 月 30 日,在英特尔大湾区科技创新中心,中国电子学会和中国计量科学研究院分别公布了《台式微型计算机和一体机绿色评价规范》(T/CIE 221-2024)、《台式微型计算机和一体机电源绿色评价规范》(T/CIE 222-2024)、《绿色计算机用可降解刚性印制电路板规范》(T/CIE 223-2024)。 《台式微型计算机和一体机绿色评价规范》(T/CIE 221-2024)针对设计定义、生产交付、使用维护、回收循环和加分项设置了 5 个评价单元,由 15 个一级指标和 27 项二级指标构成评价体系。针对计算机的绿色等级由高到低,划分为一级、二级、三级这 3 个等级,为计算机生产企业、第三方评价机构和需方提供了明确的绿色评价依据,成为绿色计算机产业统一且清晰的标准。 之所以说这个标准很统一且清晰,是因为考虑了从设计、生产、使用和回收等等整个电脑生命周期的问题,具体来说就是:高能效绿色电源的使用、环保型塑料的使用、特定部件免工具拆卸维护等「设计定义」环节指标;获得绿色工厂评价、商品包装的要求等「生产交付」环节指标;通过绿色模式、人体感应与识别技术节能、实时功率监控和呈现等「使用维护」环节指标;提供产品的回收服务等「回收循环」环节指标;产品中电路板部件应使用基于新型可降解 PCB 材料、可回收金属的使用等「加分项」指标。 既然涉及到整个电脑的生命周期,也意味着需要整个产业链来参与,所以标准出炉也比想象中要复杂和规范一些,这个绿色电脑标准就涉及到 3 级划分,27 项标准,由中国电子学会提出并归口,由中国计量科学研究院、中国质量认证中心有限公司等单位完善,同时还有整个产业链的参与和示范。 比如生益科技首创可降解回收覆铜板技术和产品,为解决全球性电子废弃物回收的难题提供了一个解决思路。长城电源提供了满足能耗标准的绿色电源方案,并将通过第三代半导体 SuperGaN 继续推动绿色电源演进。 幕后工作很复杂,消费者看到的则是面向市场端的终端产品,配合绿色电脑标准的发布,英特尔携手产业合作伙伴,来自华硕、戴尔、新华三(H3C)、惠普、攀升科技(iPason)、联想、软通计算(同方计算机)这 7 家 OEM 的 7 款符合《台式微型计算机和一体机绿色评价规范(T/CIE 221-2024)》的绿色计算机正式亮相,分别是 ASUS D700MER、Dell OptiPlex Tower 7020、H3CDesk X500s G2、HP Pro 280 SFF G9 Desktop PC、攀升腾龙 T1、ThinkCentre M70a Gen5、同方超越 A7000。 以同方超越 A7000 为例,这是软通计算(同方计算机)正式推出全新绿色智能一体机,从设计到回收的全生命周期都贯彻了绿色理念。 比如它的屏幕是由华星光电为绿色智能一体机打造了 23.8 英寸绿色显示模组,显示模组采用了环保材料,在产品能效设计上,使用低功耗 TCON,支持一体机 Low carbon mode,该模式开启后,在 Windows 桌面下,功耗可下降 17%。 另外,在零部件的生产制造端,TCL 华星也在通过数字化、智能化转型升级,同时逐步开发使用清洁能源,开展节能减排项目,有效降低了碳排放。 智微智能(JWIPC)则是这款绿色一体机的 ODM 厂商,为了达到绿色计算机的标准,智微智能深度参与了 ID 设计和结构设计,采用了单风扇均热板设计,大量减少整机的螺丝数量,还采用了主板集成 I/O 接口,比传统 PC 大幅减少各类连接线材的使用,更简洁可靠。 生产上也尽量减少能耗更高的铝材使用,将整机可回收材料使用率提升至 90%。 环保也有新技术应用的一席之地,智微智能为绿色一体机开发了 AI 控制中心,能够根据系统实时负载,智能调节碳排放策略,还能够通过智能协作以及集成的光学和人体感应传感器,实现心跳、呼吸等用户健康监测的功能。 当然,这些 AI 功能也有赖于其内置的英特尔酷睿 Ultra7 165H 处理器,因为是酷睿 Ultra 处理器的高性能混合架构设计,能兼顾性能和能耗表现。 对于消费者来说,环保固然是产品的加分项,前提自然是不要让消费者付出太多,所以软通计算(同方计算机)方面也表示,他们的绿色电脑在售价上不会因为投入了绿色生产而有所增加,不会让消费者为环保而多掏钱。
华为手机回归:小米、荣耀、OV等打响线下渠道守卫战
快科技5月31日消息,据腾讯《深网》报道,随着华为手机在中国市场的强势回归,小米、荣耀、OPPO、vivo等品牌正面临着一场关键的线下渠道守卫战。 目前国产手机厂商的线下渠道,依然占据了出货量的约70%,而随着华为手机回归,线下渠道商的格局被再次打乱。 在这场线下渠道的守卫战中,OPPO、vivo、荣耀、小米等厂商纷纷加大了对渠道商的支持力度,包括房租补贴、推销员提成等,以稳固核心渠道商的忠诚度。 OPPO提供了新开门店的两年租房补贴,小米对新开的小米体验店提供高达50%的房租补贴。 而vivo则通过售后服务上的补贴变相为渠道商分摊房租,同时提供提货额的两个点作为新开门店的房补,以激励核心渠道商开设更多专卖店。 华为对线下渠道的掌控力更强,要求核心渠道商在提货热门手机的同时,也必须提货包括IoT商品在内的其他产品。 这一策略虽然给渠道商带来了一定的库存压力,但也反映了华为对线下渠道的重视和对品牌忠诚度的要求。 华为的回归不仅给其他品牌带来了压力,同时也激发了渠道商对华为产品的重新关注。 去年,部分原OPPO、vivo和荣耀的渠道商开始将资金向华为倾斜,以期抢占华为5G回归的红利期。 华为手机渠道商的综合毛利率在8%-12%之间,相较于OPPO和vivo的5%-10%,显然更具吸引力。 华为在去年发布的Mate 60系列及MateX5系列手机,在二级市场上出现了高溢价现象,这进一步证实了华为品牌的强劲吸引力和市场对其新品的热切期待。
国产机该学学了:苹果是真降价,不玩套路,销量大增52%
最近你买苹果iPhone15了么?有同事问我。 我问为什么这么问,他说苹果这次是真降啊,一点套路都没有,像iPhone15 Pro max,不到7500元了,而iPhone15 Pro不到5800,降了25%以上了。 他表示,和国产机降价,要各种凑单、玩套路,搞计算不一样,苹果降是直降,不搞什么凑单,领券,直接一降到底…… 同事称,他没忍住,买了个128G的iPhone15 Pro,不到5800元,想想去年首批上市7999元的价格,美滋滋。 他还和我说,在5800这个价位,我觉得没有任何国产机,能够挑战iPhone15 Pro,从性能,体验、拍照水平、生态来考虑,iPhone15 Pro就是王者,没有对手。 虽然,我对他说的这个结论,不敢苟同,但却对苹果的不玩套路直降,表示认同。 而之前有机构表示,虽然2023年,以及2024年一季度,苹果表现不好,但到4月份的时候,因为苹果狂降价,销量同比上升了52%。 很明显,降价就是苹果的利器,而在经过降价之后,苹果重新获得了增长。 很多人吐槽称苹果已经没有其它招了,只有降价,但其实降价就是苹果最大的招,这一招使出来,估计国产机接不下。 一方面是苹果手机本来就品牌认可度,体验、生态、性能一流,一旦降价之后,性价比就凸显了,比如5800不到的iPhone15 Pro,你们觉得它真的很贵么? 如果对比这个档次的国产机,还真一点都不差,不管是论性能,还是论其它方面,一点都不输给友商。 另外一方面则是,对于苹果而言,降价并不是什么太难的事,因为苹果的利润太高了,现在才降25%而已,算什么,估计再降都有充足的利润。 同时苹果还有AppStore这个摇钱树存在,就算手机不赚钱,靠着AppStore也能赚钱,这是国产手机不能比的。 但对于国产机而言,可就麻烦了,本来利润空间就薄,谁敢和苹果打价格战,这几年国产机努力的卖高价,就是为了冲击高端市场,要是再把价降了下去,几年的努力,不都白费了么? 而不降价,又卖不过苹果,降价不仅没利润,还堵了自己冲击高端的路,所以确实是左右为难。 当然,对于苹果而言,iPhone15也是最后的挣扎,真正的重点,应该是今年发布的iPhone16了,因为一切迹象表明,苹果在iPhone16系列上,或会实现更具革命性的AI体验突破,因为很可能OpenAI的技术,会在苹果新品中集成亮相。 到时候不知道哪些国产机,能够和苹果一战了,毕竟目前国内所谓的AI手机,更多的只是噱头,没太多实质性的用。
完蛋,AI一不小心把手机影像颠覆了
文|刘俊宏 2024上半年的发售季,手机影像大战再起。 近年来,影像年年卷,年年挤牙膏,直到AI大模型来临。 刚推出的荣耀跟法国百年摄影工作室雅顾合作,主打手机上拍出2万一张人像照片的高级感。华为nou在Pura 70上强调抓拍功能,在线下店里放了个高速运动的转盘,搭起了各路品牌手机抓拍的“擂台”。vivo在影像功能颇受好评的X100 Pro基础上,进一步在感光器件和玻璃镜片上猛猛堆料,推出了号称“灭霸级”影像功能的X100 Ultra。 重回征战影像的手机厂商们,看似是在“旧活新整”。但结合手机销量复苏的当下,厂商们再度卷影像的举措,似乎有了更深层的意义。 据信通院数据,2024年1-4月,国内市场手机出货量9148.6万部,同比增长12.3%。其中,4月国内市场手机出货量达到2407.1万部,同比增长28.8%。 图片:国内手机市场迎来较大幅度增长 来源:信通院 2024年手机市场的增长,固然有去年基数较低的影响。但结合AI重塑千行百业的当下,我们也从本轮手机影像的大战中,看到了全新的主线。 手机影像正在被AI重新定义。 告别了以往以硬件为主的影像“堆料式”升级,这次有了AI的加持,影像的专业级能力,有了根本上的提升。 例如荣耀通过对AI大模型的精调,拟合了雅顾拍摄写真时的复杂光影。华为在抓拍功能中,利用AI对两次曝光画面的矢量运算,保证了抓拍画面的清晰度和亮度。vivo也将AI大模型引入了影像系统中,利用物理建模数据和AI多帧算法来改善图像质量,让画面更清晰。 正如荣耀CEO赵明所说,“手机端侧AI真正能带给消费者的,不应该仅仅是工具和助手”。 AI对手机影像的重塑,让手机与AI的结合又深了一个层次。同时,在AI软件的引导下,手机影像功能也呈现出了不同于硬件主导的时代,能够实现快速迭代、能力泛化、兼容多模态信号源输入的升级方式。 AI时代,影像和手机都变了。 01 从好看到专业,AI让手机影像卷到了新高度 一张好的照片,其实非常稀缺。照片的价值,不仅是拍摄设备,单反相机“长枪短炮”的价值,更体现在拍摄时的回忆和情感上。 为了抵御岁月和记忆的“沧海桑田”,消费者甚至愿意花2万一张的代价,在曾服务过约旦皇后、法国前总统密特朗、电影明星苏菲·玛索、足球明星齐达内、时装之母可可·香奈儿等明星的雅顾工作室,留下自己的剪影。 然而一张大片的写真并不是人人能时刻拥有的,十几盏光源的相互配合,从预约到出品15天的等待。用户真正渴望记录的,更多的是转瞬即逝的生活画面。用随身携带的设备,拍下那些“逝者如斯,而未尝往也”的瞬间。 而AI与手机影像的深度结合,给了消费者随时随地拍出完美瞬间的可能。AI对影像的改变,已经渗入到了画面光影重构、画面增强和画面计算的阶段。 如何在室内灯光和室外阳光下,更好地展现人物面部轮廓? AI影像已经可以重构画面的光影了。 通过荣耀与雅顾的合作中看到,在手机厂商们对AI大模型输入的数据下,AI影像正在掌握高级写真工作室的光影排设和后期处理方式。当手机按下快门时,AI可以直接从RAW数据(传感器原始数据)出发,通过分析不同光影场景特点,“篡改”画面的光影构图,改为突出人像光影的立体感、空间感和艺术感。同时,在结合AI对人物识别的优化下,人像照片还能主动虚化背景和穿着服饰。以清晰和模糊的空间交错感,再度强化被拍摄者面容的冲击力。 由于AI在影像的拍摄中,直接接触传感器的“一手数据”。AI对原照片光影“理解”,也能从更加细化的角度重新排布,从而超越滤镜修图“一刀切”的画面处理。 正如荣耀CEO赵明在发布会后对光锥智能解释道,“我们跟滤镜有本质的差别,滤镜效果本质上是对画面一致性的处理,而我们是重新排布了光影。这种细节的微调,滤镜是学不来的”。 只有好的光影,还远远称不上一张优秀的照片。善于捕捉画面的摄影师们,还会根据情感,对照片画面中的不同物体进行“有的放矢”的表达。而结合了AI大模型的手机影像,不仅能够正确识别并增强表达画面拍摄的“中心思想”,甚至还能优化到“毛发级”精度。 要实现这样的专业级影像,对AI来说并不难,只需要针对特定功能,进行针对性的训练。 比如,手机厂商会针对物体做轮廓识别的强化训练,这样AI就能充分地强化表达人物和动物的形象。 例如在OPPO的影像功能上,从展示的样张中能够看出,结合了AI的哈苏人像模式对人像的理解更加精细,对人物头发和服饰的绒毛都做了清晰化处理。同时,AI对物体的精准“拿捏”,也体现在动物的拍摄上。对猫拍摄的这张图上,可以看到AI除了增强表达了对焦点附近的胡须外,也清晰显示了耳朵附近伸出的绒毛。 图片:OPPO影像对画面的精准识别 来源:产品官网 不过,在普通用户日常的拍摄中,并非所有拍摄画面都以近景静态的方式呈现。在AI对影像的加持下,手机影像能通过画面计算,将运动场景下的画面,从模糊变得清晰。 拍摄高速运动的画面时,华为在XD Motion 运动引擎,利用AI合成图片的方式实现了高速闪拍的能力。 在相机曝光的原理中,抓拍高速运动的物体需要搭配极短的快门。但极短的快门,又会导致曝光量不足,导致画面过暗。为了解决这个问题,XD Motion运动引擎是在拍摄时进行前后两次长短不同的曝光。短曝光记录运动瞬间的细节,长曝光保留丰富的画面背景信息。再利用AI将两次曝光的照片重新计算融合,最终生成一张兼顾清晰度和画面亮度的照片,从而满足消费者在运动场景下拍摄的需求。 另一边,在长焦镜头拍摄超远的物体时,AI也能通过对物体的学习,结合多张照片的计算,实现“近在眼前”的效果。 例如vivo在手机影像中,通过AI大模型对超过十亿的物体数据学习,解决了100多种光学串扰引起的相质退化问题。最终,再结合AI多帧高像素算法,实现了远景画面的高清拍摄。通过消费者实拍的画面看到,在上百倍远景拍摄中,vivo不仅能拍到石碑上的纹路,并且下方小字也能轻松辨认。 图片:vivo在超大倍数长焦放大下,仍能拍清文字 来源:B站@深夜评测 总的来看,通过AI对影像的升级,手机拍摄的照片不仅变得更加清晰,还表现出了更智能、更“懂”消费者的特征。 同时,在手机厂商不同方向强调落地的AI影像中,正在形成荣耀(高级感人像)、OPPO(高清晰度人像)、vivo(更清晰的长焦)和华为(高速抓拍)的差异化趋势。 软件(AI)定义手机影像的时刻,已经到了。 02 告别硬件堆料,软件重新定义手机影像 手机行业上个卷影像的时代,升级基本是靠硬件驱动。 以主摄传感器为例,自2019年小米在CC9(HMX传感器)开始,手机影像的COMS(感光元件)尺寸便开始了“越做越大”的军备竞赛。 尽管当时在影像的升级理念上,不同手机厂商分为“高像素”和“感光能力”两派。但COMS作为决定影像能力的基础,“底大一级压死人”的基本规则下,各家手机厂商只能猛猛堆料。 然而,COMS的大小终归是有极限的。在摄像原理上,同样的焦距下,搭配更大的COMS需要更厚的镜组,也意味着更厚的手机。 由此,手机厂商们终于在2022年开始初步达成了“停战协议”。主摄的COMS尺寸被共同“约定”在了1英寸左右。与此同时,“暴力扩张”COMS带动着手机厂商们的设计外观,开始变得趋同。影像能力升级的速度,也开始减缓。 图片:从左到右依次为小米12S Ultra、华为Mate 50 Pro、vivo X90 Pro+ 然而,在AI手机时代,软件能力升级成为了主导影像进化的新方向。AI的加入,正在让手机影像能力超越原本硬件的限制,影像功能的边界正在被快速延展。 AI影像重构光影能力为例。实现思路正是在AI与手机结合的四层架构上,先通过云端大模型的拟合训练,再将训练结果落地到手机的操作系统(影像)层级,实现了用户体验层面的功能迭代。最终,最懂人像的雅顾和最懂AI的荣耀在历时四百多天的合作后,完成了AI对影像的专项训练,新的AI影像能力像“搭积木”一样落地手机。 图片:荣耀本次影像升级,基于AI手机四层架构的结合 同时,在软件升级的驱动下,手机的影像能力也开始呈现出应用泛化的特征,并能容纳多模态的感知信息输入。 例如在OPPO对大模型行了物体识别训练后,AI获得了现实世界的理解和“毛发级”的物体识别精度。这种能力,既能用于照片后期处理的AIGC画面消除,也能直接介入拍摄环节,在成片阶段增强影像的展现力。另一边,在AI大模型的多模态能力下,手机影像的感知能力也已经不局限于感光元器件的输入了。手机厂商已经可以在影像模组上加装激光雷达模块,实现更快速和精准的对焦。 AI对于影像的改造,或许还只是AI改变手机进程中微小的一环。未来AI还将在更多层面颠覆过往手机的种种功能,进而从各种角度引发消费者的换机需求。 正如vivo副总裁、影像副总裁于猛所说,“融合全自研能力的系统级AI影像,是未来AI手机之争的重心”。 然而,就在本轮手机厂商们卷AI影像的动作下,一场线下市场的角逐战正在打响。 03 手机线下的新一轮较量 本轮手机厂商们在AI影像的升级,虽各有千秋,但说到底,用户对影像功能的评价,还是基于个体差异化的体验。 毕竟,人与人之间对色彩的感受都不尽相同。AI影像功能强不强,并不能仅依赖厂商的参数宣传和评测中的样张展示。用户还是希望亲自上手感受后,再做最终的购买决策。正如赵明所言,“用户只有在体验到之后,才能更好地理解产品和品牌”。 而手机厂商们线下出货的重要性,一位消费电子行业分析师告诉光锥智能,头部国产手机品牌中,除了小米偏线上外,其他品牌的线下销售占比大概在7成左右。如此一来,线下渠道的战略价值,在AI影像时代再度被拔高。 率先明牌加码的是荣耀。据Counterpoint的数据显示,尽管荣耀在2024年一季度取得了双位数增长的好成绩。但荣耀仍在5月27日宣称,预计将在2024年内新建超1000家门店。具体新店规模和落地城市规划,虽并未详细列出,但根据荣耀在成都宽窄巷子新开旗舰店的规模来看,超1000㎡建筑面积所打造的AI科技体验空间,必然投入不小。 图片:2024年一季度中国市场手机厂商份额及增长情况 来源:Counterpoint 或许,荣耀本次加大线下渠道的布局,与其继续强化内部股权架构中30余家渠道商和零售商股东们的联动有关。 横向观察其他玩家,暂未有其他厂商公开调整线下布局策略。不过,不少手机厂商正通过推出吸引消费者兴趣的线下渠道产品和营销策略,侧面展示品牌和产品的优势,提升线下渠道的客流量。 例如OPPO在今年4月推出的OPPO A3发布会上,将手机扔进洗衣机快洗,强调了防水和抗摔的特性,引起了不少消费者的好奇。而华为为了凸显Pura 70的抓拍能力,在线下店门口摆了个画面高速转动的转盘,以此吸引用户前来。 或许,手机本轮的AI影像升级,还不足以掀起手机行业更激烈的竞争。但在未来,AI手机综合能力的一战,终会打响。 在荣耀200发布会采访的最后,赵明感叹道,“只有现在踏踏实实提升AI的能力,才能确保未来的领先”。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。