EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
AI手机,苹果摸着安卓过河?
作者 | 云鹏 编辑 | 心缘 做AI,苹果摸着安卓过河?未必。 智东西8月1日报道,最近,苹果正式发布iOS 18.1开发者测试版,苹果画的“Apple Intelligence”大饼,总算是先让开发者们尝到了一小口。 Siri告别“智障”,语言理解能力大幅提升,写作工具、图片工具这些发布会上的亮眼功能也部分在苹果系统App中落地。 苹果的开发者们,似乎已经提前“开香槟”了,相关上手视频直接在科技圈炸了锅。 为什么苹果AI如此受大家关注?这离不开最近半年多AI手机圈的火爆。 当智能手机全面转向“AI手机”时,所有厂商都在紧锣密鼓、加班加点地上马新功能,生怕掉队一丝一毫。 从2023年8月至今,短短不到一年的时间,华为、小米、OPPO、vivo、荣耀五大中国手机巨头都已经完成了自家AI手机操作系统多个版本的迭代,各类基于端侧、云侧AI大模型实现的AI功能如雨后春笋般涌现。 ▲安卓旗舰机上的各类生成式AI功能 文本生成、图像生成、AI摘要、AI总结、AI搜图,更自然的互动对话、更出色的意图识别和理解能力,半年前还新鲜的AI功能如今已经成为AI手机的“标配”。 相比之下,苹果发布Apple Intelligence带来的升级,似乎并没有满足业内和消费者们对于苹果的期待。 因此,当很多人看到苹果AI之时,都会下意识的想到:安卓早就做过了。因此有一个结论逐渐被很多人所提及或认可:做AI手机,苹果是在摸着安卓过河。 事实真的是如此吗?当我们逐帧拆解苹果在WWDC上演示的一系列AI功能,并尝试在五大国产安卓旗舰机中“对号入座”时,我们发现一个有些“唱反调”的事实:大部分苹果的AI功能,安卓阵营都做不到。 ▲苹果VS安卓,苹果WWDC关键AI功能对比 同样的功能,安卓即使可以通过其他方式变向实现,从根本的实现逻辑上与苹果也有所区别。 ▲智东西深度体验国产五大旗舰机的AI功能,从左至右依次为:vivo X100 Ultra、小米14 Ultra、OPPO Find X7 Ultra、华为Pura 70 Pro+、荣耀Magic6 Pro 做AI手机,苹果绝不是在摸着安卓过河,苹果做AI的思路和方式,甚至还有很多值得安卓阵营学习的地方。 前不久三星在发布会上一系列AI功能对苹果的像素级“模仿”,恰恰也证明了苹果方向的正确性。 与其高歌安卓阵营在AI功能落地速度上的“遥遥领先”,不如将苹果AI吃透,将苹果AI与安卓的核心差异点摸清,取长补短,为我所用。 AI手机的竞赛绝不是百米赛跑,一定是一场“马拉松”。第一个跑的不一定第一个到达终点,谁的后劲更足,才是重头戏。 AI手机这场精彩的较量,选手们才刚刚到齐。 一、都是生成式文本图像能力,苹果赢在了“系统级”整合 在对比苹果AI和安卓AI之前,我们要先弄清一个关键问题——苹果AI到底是啥? 在逐帧拆解苹果WWDC关于AI的部分后,我们可以清晰地梳理出苹果AI的五个关键能力组成部分: 1、理解生成语言和图像 2、跨应用操作能力 3、个性化专属能力 4、智能体 5、云端大模型调用 其中最重要的是前四个部分,尤其是智能体Siri的重要升级。我们这次暂时只对比前四个。 有一个结论要明确,苹果AI绝对不是“OpenAI换皮”。 苹果做AI,最最最不想做的一件事,就是调用ChatGPT。 用通俗的话来讲,在苹果的AI体系中,只要是能端侧解决的,坚决不能上云,只有实在没辙了的时候,才会“不情愿”地调用一下云侧大模型,调用时还要“层层设防”,生怕用户一个不留神交出了自己的敏感数据或信息。 苹果在发布会上透露,苹果在端侧跑了三四十个模型,这些模型服务于各类功能,而这些功能融入在系统体验的各个环节。 这就是在对比过程中我们感受到安卓与苹果差距最大的一点——端侧系统级AI体验,这也是我们对比分析的重点。 到底,什么是系统级?什么是系统级AI? 现在很多国内的安卓厂商也在强调自己的AI功能并不是“下载一个App”那么简单,已经是与各个应用相结合了,但从实际“疗效”来看,跟苹果的逻辑还有所不同。 比如在理解和生成语言、图像这件事上,苹果的逻辑是把这种能力直接润物细无声地做到日常体验的各个环节。 在需要的时候可以迅速调用、比较无感,操作符合直觉,几乎没有学习成本。 安卓阵营的许多手机都推出了各类文本生成和总结的功能,比如我们可以呼出智能助手,然后让它帮我们生成一段精彩的文案,或者帮我们总结摘要一段通话录音。 ▲安卓旗舰机在笔记App中加入的AI文本创作功能 当然,我们也可以直接调用各家的智能助手,将手机里的文档发给它,让它帮我们总结重点。 这里有没有发现什么特点?这个功能或者服务的发起者,仍然是“我们”,也就是人与AI的交互,仍然是人要主动发起。 相比之下,苹果在理解和生成语言、图像环节是怎么做的? 在锁屏通知显示环节,AI会直接理解你收到的通知的文本内容,判断重要性,并将重要的应用通知前置。 虽然安卓手机可以手动设置重要应用的通知置顶,但跟苹果这种AI主动判断完全不同。 在显示通知的同时,苹果AI会把通知的内容以摘要的形式简要呈现出来,方便我们判断信息的重要性,邮件也是如此。 跟显示通知很类似,苹果AI还可以直接把我们收到的邮件中的要点信息提炼并放在邮件的开头。 这一切不需要复杂的操作,不需要选中文本内容,也不需要下载某个App。苹果很多的AI功能,会给人一种自然而然的感觉: 当你觉得某个地方如果AI帮我做一下就好了,苹果AI已经做好了放在那里供你参考使用。 你不需要思考我应该调用什么工具,我应该打开什么软件,我应该如何召唤出语音助手帮我做这件事,AI都已经“无处不在”地帮你做好了。 这,是苹果AI最显著的特点之一,这也是“系统级AI”的典型体现之一。 其实这种“系统级AI”能力,在苹果AI处理文本、图像方面都有鲜明的体现。 苹果在发布会上发布了两个工具,一个是书写工具,一个是图像生成工具,但大家千万不要觉得这个“工具”就等于某个App,我们需要打开某个App才能使用这个功能,并非如此。 ▲书写工具 形象地来说,使用苹果的这个AI功能,就好像我们用电脑办公,点击鼠标右键一样自然。 苹果特别在发布会上强调说,不论是书写工具还是图像生成工具,都是“全系统适用”。 简单来说,文字工具可以用在任何有文字的地方,从邮件、备忘录、浏览器、Pages、Keynote到各类三方App,图像生成工具同样如此。 我们打开一个活动邀请的邮件,AI会自动识别邀请函的内容、需要我们回答的问题并提供智能选项,我们是接受邀请还是拒绝?选择后AI就会快速生成回复邮件的草稿。 我们只要选中邮件文字内容,书写校对功能就会弹出来,我们可以对内容进行润色,更换不同的语气口吻。 一切流程都很自然,我们想到了,AI就已经做到了。 安卓阵营这边,其实大部分厂商很早就落地了各种文本生成、文案创作类的功能,比如帮我写一个商品评价、写一个会议邀请的邮件、写一个简短的自我介绍或是一个临场演讲发言。 如果就文案创作的丰富程度来说,苹果似乎还要稍逊一筹。 ▲安卓旗舰机中的各类文本生成、文案创作功能 但问题在于,这些功能往往藏在一些App中,或者需要我们调出智能助手,将我们需要让AI总结、重写、润色的内容先发给助手,助手再去解读。 有些安卓机型的文本润色重写功能做在了“笔记”应用中,但实际上这可能是一个我们平时生活中非常“低频”打开的一个应用。 当然,一些安卓厂商将AI文案的写作、润色这样的功能做到了输入法里,相对来说,这还算是一个比较“系统级”的App。 ▲部分安卓旗舰机将AI写作功能做到了输入法中 从最终结果来看,安卓这边都可以变向,或者多几个步骤实现同样的生成式文字处理功能,但跟苹果AI所做的“系统级AI”相比,并不相同。 图像也是如此。 生成式图像处理一直是安卓阵营津津乐道的一大优势项目,很早安卓这边就推出了类似一句话生成图像、图像风格优化、AI抠图、AI路人消除这样的功能。 今天一提到AI手机,很多普通人的第一反应就是AI消除、AI生图。 相比之下,苹果在发布会上强调的AI生图能力有些不同: 苹果的AI可以在聊天中随时随地根据朋友的照片生成一张带有特定氛围的卡通图片。 同样是在聊天场景中,我们可以随时让苹果AI根据我们的描述生成一张表情图。 AI还可以直接识别我们选中的联系人头像,根据手机中这位联系人的照片生成相应的表情包图像,这一切都不涉及任何应用跳转。 AI可以在你记笔记的时候随时根据你记录的文字内容生成相关的图像。 比如根据你记的建筑学笔记生成一副建筑的图像,并且图像中哪些建筑特点是根据哪些文字生成的都可以一目了然的直观呈现。 苹果的AI图像生成功能同样是做到了“系统级”。 在我们使用各类应用时,只要我们需要生成图像,生成图像的功能就可以马上发挥作用,不需要我们跳转到另一个地方,去生成一个图片,再复制粘贴回来。 苹果与安卓的逻辑依然不同。 当然,像AI路人消除、AI照片搜索、AI视频生成,以及常规AI文生图这些功能都是苹果AI和安卓AI通用的能力,大家也看的很多了,这方面差距并不大,我们不必赘述。 但我们需要关注的是这些功能具体的应用效果,比如视频生成的精美程度,是否传达出主题,这些有待苹果AI正式落地后进一步关注。 系统级AI是什么?看下来有几个关键词: 自然而然、随时随地、操作极为简单、主动提供、高可用性。这就是苹果的系统级AI。 二、苹果与安卓达成共识:打造理解个人情境、个性化专属AI 在分析系统级AI时,有一个很重要的AI特性,是“主动性”,这个特性的实现,牵涉到苹果AI的另一层关键优势:对个人情境的理解。 用苹果高级副总裁Craig的话来说,这是个人智能化极为关键的要素。 对于个人情境的理解与AI的个性化专属能力也紧密相关,简单来说,就是AI真的要懂你、了解你。 什么叫懂你、了解你? 苹果的AI,可以给你的照片、日历日程、各类文件、往来消息和邮件中的信息等内容创建语义索引,相当于你的一切个人化信息都被AI所理解、记住了,你再让AI办事的时候,AI就可以很自然的利用这些信息。 AI认识你,认识你的朋友、家人,AI了解你最近的日程、手机里储存了哪些重要的文件。 比如在你填表格需要输入某个证件号码的时候,AI就可以直接帮你找到那张证件的照片并自动将驾照编号提取出来,填入表格。 苹果高管在发布会上举了一个形象的例子: 当一个临时会议突然出现,你不知道还能否赶上晚上女儿的音乐会时,AI可以帮你做出判断,AI会知道你今天的日程安排,知道你的女儿是谁,知道你女儿前几天发给你的音乐会海报,提取其中的时间地点信息,AI也会知道你的公司在哪里,从而规划路线和时间。 目前,这些安卓阵营暂时都做不到。 这一切,都是基于AI需要真的了解你。 只有真正了解你,能够理解你的个人情境,才能说得上是个性化专属的AI,也就是我们梦想中的“贾维斯”。 在安卓这边,AI对我们的了解更多停留在我们每天几点通常会使用哪个应用,然后在对应时间段就会将应用建议放在桌面的醒目位置这样的水平。 当然,我们也可以在图库中自定义联系人,定义谁是妈妈、谁是妻子,AI就可以搜到“妈妈的照片”、“妻子的照片”。 ▲安卓旗舰机相机App中的人物自定义功能 苹果这种个人情境理解能力,实际上在前文提到的生成式文本、图像功能中也有体现。 比如AI会基于你当前跟朋友聊天的情境智能推荐生成相应的图片,比如AI会知道你跟哪个朋友在聊天,你们聊的话题是轻松愉悦的,还是紧张压抑的,进而推荐相应的图片生成提示词供你选择。 在苹果看来,AI唯有真正可以理解你的个人情境,才真正变得有价值。 这话诚然不假,但实现起来却并不容易,信息需要打破应用的边界,为AI所掌控,AI智能体掌握着所有关键信息,同时知道你当下在做什么、需要什么,并自然而然地提供相应的AI服务和建议。 虽然安卓阵营也一直在向这个方向努力,但不得不说,目前绝大部分AI功能,人都需要率先发出请求,并且在操作的繁琐程度上也要超过苹果,AI的主动性体现,仍然较少。 总体来看,安卓阵营目前的“个性化AI”,更像是“人工个性化”,我们仍然需要手动设置大量的自定义信息,才可以让AI获得更多的信息,而不是AI主动对我们的信息进行学习、理解,建立语义索引。 这跟苹果AI是有本质区别的。 ▲安卓旗舰机中对于个人信息与偏好的设置界面 三、AI跨应用操作成主流,国内应用生态繁杂或成最大挑战 正如前文所说,苹果AI实现个人情境理解的一大前提就是信息不在停留于每个角落、每个应用中,而是打破边界,实现“流动”,为AI所用,这其实就牵涉到了苹果AI的另一大关键能力——跨应用的操作。 在跨应用操作方面,安卓阵营的确已经做出了不少成果。 比如我们可以很轻松地让AI找到手机中关于某些内容或主题的文件,找到某位家人或朋友的照片,找到一首特定的歌曲。 ▲让智能助手找文件 我们还可以将找到的文档发送给微信中的某位联系人,或者直接让AI给我们的某个微信联系人发一个指定金额的红包。 ▲给指定微信联系人发指定金额红包 在这些方面,安卓AI与苹果AI的差距并不大。 这里有一个问题需要注意,也就是我们前文所提到的“应用生态存在巨大差异”的问题。 在海外市场,AI功能与苹果系统级应用的结合是极具价值的。因为绝大部分苹果用户都被系统应用生态强绑定,是真的在用这些App。 相比之下,中国安卓手机厂商面临的最大挑战之一,恰恰就是应用生态过于庞杂,每一类应用,都有无数“主流应用”。 ▲安卓应用商店 苹果AI可以只把邮件应用做好就可以提升绝大部分人的办公AI体验,但在国内,把办公体验做好牵涉到的App数量难以想象,甚至每家公司都在使用独立的办公应用。 ▲安卓应用商店 对于国内安卓手机厂商来说,一些系统自带的邮件、浏览器、音乐、视频、笔记等软件,恰恰是用户不常使用的。 国内安卓手机AI跨应用的操作、AI功能与应用的深度融合,必然涉及到产业各方的共同努力。 问题如何解决?安卓或许仍然可以跟苹果取经。 苹果让三方App也可以快速接入苹果AI,使用苹果AI,或被苹果AI所使用。 目前国内一些安卓厂商也在向着这一方向努力,推动开发者将应用提供的服务转化为一个个AI可以调用的能力,而AI所具备的功能也可以被各类三方应用所调用。 可以说,生态这件事,还要用生态的思路来解决。 四、AI手机时代:智能系统就是智能体,智能体就是智能系统 既然我们最开始就提到,智能体是苹果AI里非常重要的一部分,那我们为什么最后才来说Siri?实际上,在AI手机时代,智能体与AI系统之间并没有那么清晰的边界了。 一个个人化智能系统,实际上就是一个个人智能体。 上述提到的所有苹果AI的能力,实际上就是Siri的能力。 不论是文本、图像的生成式创作,还是个人情境的理解,亦或是跨应用的操作,我们都可以通过Siri来完成操作,服务也可以由Siri直接提供。 在AI手机时代,智能系统就是智能体,智能体就是智能系统。 理解生成语言和图像、跨应用操作能力、个性化专属能力、智能体这四个苹果AI重要组成部分,实际上是相互关联,相互深入,你中有我我中有你的。 当然,在智能体这个环节,还是有一些功能是可比的了,比如自然的语言对话能力、上下文联系理解能力,以及一些语音助手更常用的功能。 在自然语言对话理解方面,其实目前各家的差异并不大,这里我们不需要过多对比。 ▲通过语音助手设置日程 Siri这边能够读懂、理解屏幕内容并执行相应操作的能力给我们留下了比较深刻的印象。 ▲Siri的AI识屏 目前安卓阵营各家AI也几乎都已经具备了AI识屏的能力,比如通过双指长按屏幕,AI就会对屏幕内容进行分析。 我们可以点击地址信息跳转到导航App,点击日程安排信息创建日程,或者点击电话号码创建联系人。 ▲安卓旗舰机的AI识屏功能 当然,AI也可以识别某个图片中的人物。 ▲安卓旗舰机的AI识屏功能 总体来看,智能体这一环,反而是安卓与苹果阵营差异最小的一方面,智能体,其实更多承担了AI与人交互的“入口”功能,也就是信息输入输出的窗口。 苹果和安卓的核心差异,仍然存在于智能体背后整个智能系统的能力、底层逻辑、实际体验等方面。 结语:AI手机,让子弹再飞一会儿 当我们细心逐帧梳理并对比苹果AI和安卓AI后,我们发现,最核心的差异其实并不在于表面上看到的那些功能,比如AI写作、AI生图、AI摘要或是AI路人消除。 这些AI功能并不是最大的挑战,难点在于如何将这些AI能力内化到系统的每一个组成部分、每一个应用,每一个体验的细节中,这也是苹果AI和安卓AI核心的差异。 说“苹果摸着安卓过河”,更多是从表面AI功能上来看的,但实际上,这就像如今手机操作系统功能设计趋同一样,“表面上看起来一样”是一件再正常不过的事了。 在使用过国内五家头部厂商的旗舰机AI后,我们也能感受到,各家的AI真正用起来的体验,的确有着不小的差异。 当然,话说回来,苹果的AI目前来说仍然是“一张大饼”,虽然发布会上的功能演示都是用真机进行的,但真正未来苹果AI落地能有怎样的体验,还是个未知数,苹果AI国内的体验,同样是未知数,半年甚至一年后,等苹果AI全面落地后,国内安卓厂商又会放出怎样的AI大招,也是未知数。 在这么多“未知”的前提下,我们不如让子弹再飞一会儿。 哦对了,说一千道一万,苹果说的所有的AI,现在还是“一张大饼”。 最后到我们手里长啥样,这事还真没准呢。
这一次,AMD带领芯片股反弹
英伟达股价在今年7月迎来最差表现,单月跌幅达十个百分点。作为竞争对手的AMD也不算好过。 但这一情况在7月30日出现反转。AMD董事会主席及首席执行官苏姿丰披露二季度业绩,数据中心GPU销售额突破10亿美元。31日晚间,芯片股开始大幅反弹。 7月早些时候,AMD斥资6.65亿美元收购了芬兰公司Silo AI。此举被解读为AMD剑指英伟达的又一大动作。 苏姿丰能否再一次将AMD带入增长快车道?或许Silo AI能给出一些答案。 原标题:《AMD 为何花 6.65 亿美元收购一个小型AI研究团队》 在北极圈以南不到200英里的一个芬兰小镇上,有一个曾经的造纸厂,里面安置着欧洲最强大的超级计算机。 如今,大多数的数据中心都安装了成千上万个英伟达(Nvidia)的芯片,这也是构建人工智能应用程序的首选芯片,但在这台价值1.6亿美元、名为“Lumi”(芬兰语中的“雪”)的超级电脑内部,安装了1.2万个来自英伟达的竞争对手AMD的MI250X图形处理单元。 正是这些芯片引发了AMD与总部位于芬兰赫尔辛基的研究型初创公司Silo AI之间的合作,Silo AI拥有300名博士和研究人员,主要为大型企业开发人工智能软件,而AMD在7月10日以6.65亿美元的价格将其收购,这是自2014年谷歌以4亿美元收购Deepmind以来欧洲最大的一起人工智能初创公司收购案。 Silo AI获得了使用Lumi超级计算机和AMD芯片的授权,而它将这种算力用于了一个附带项目:训练一个基于芬兰语和英语的开源大型语言模型(LLM),以及另一个北欧语言模型。使用超级计算机来进行这种训练并不寻常,因为GPU专用集群更擅长人工智能的数学计算,但Silo AI的首席执行官兼联合创始人彼得·萨林(Peter Sarlin)告诉《福布斯》,他意识到AMD的芯片可以胜任这项任务。不仅如此,它们还更便宜。 “我们已经证明,你在AMD芯片上可以进行扩展训练,”萨林告诉《福布斯》。“我们有一个相当大的团队,并为此付出了一些努力,但基于上述理由,我们认为AMD非常有竞争力。” AMD人工智能部门高级副总裁瓦姆西·博帕纳(Vamsi Boppana)告诉《福布斯》,Silo AI为劳斯莱斯、联合利华和欧洲最大的保险公司安联(Allianz)等公司开发软件的经验与AMD的工作非常契合。“客户会找到我们说:‘在AMD芯片上运行这个模型的最佳方式是什么?’所以我们有能力帮助他们做到这一点,”博帕纳说,并补充道,Silo AI也可以帮助塑造AMD未来的GPU设计。 博帕纳说:“吸引我们的一个重要因素是Silo AI团队的质量、先进的产品......以及他们在AMD平台上所做的工作。” 收购Silo AI可以帮助AMD缩小与其最大竞争对手英伟达之间的差距,尤其是在软件方面的差距。 目前,AMD的芯片已经接近英伟达较旧芯片的性能,其总部也在加利福尼亚州圣克拉拉市,距离英伟达总部不远,但英伟达在软件领域占据了巨大的领先地位,因为该公司花了近20年时间打造Cuda平台,该平台被数百万开发者用来组装人工智能工具和应用程序。Moor Insight & Strategy首席分析师帕特里克·穆尔黑德(Patrick Moorhead)表示:“人工智能的核心不仅在于硬件,还在于软件及其日益增长的复杂性。” 除了在硬件方面的成功之外,随着ChatGPT在2022年11月横空出世,英伟达在软件方面的领先地位也帮助其市值激增至3万亿美元,而AMD同时期的股价则仅增长了134%,目前市值为2860亿美元。 AMD的亿万富豪首席执行官苏姿丰(Lisa Su)去年斥资1.25亿美元,成立了一些规模较小的人工智能实验室,包括Nod AI和Mipsology等人工智能工具初创公司,试图让开发人员更容易使用AMD的人工智能芯片。 AMD还与硅谷一些最大的公司合作,支持由OpenAI投资的Cuda竞品Triton。在这些努力之下,AMD今年的GPU销售额预计将突破40亿美元,较去年增长了一倍。如果AMD能使其芯片更易于使用,那么英伟达高昂的价格和供应链的限制也可能会让更多公司转而投向AMD的怀抱。 萨林的团队是少数几个依赖AMD硬件的小型人工智能研究项目和初创公司之一。然而,人工智能研究中心Hugging Face最近与AMD进行了合作,让人工智能模型更容易在其芯片上运行,而Meta和OpenAI也签署了AMD最新芯片的订单,旨在与英伟达的旗舰产品H100相抗衡。但AMD的竞争对手还不仅仅是英伟达:微软、亚马逊和Alphabet也在开发自己的定制人工智能芯片,谷歌的Gemini聊天机器人就是在其张量处理单元(Tensor Processing Units)上训练出来的。 Silo AI去年为欧洲企业提供的咨询工作带来了2200万美元的收入,并帮助这家由萨林和其他五位企业家和研究人员于2017年共同创立的公司成为了欧洲最大的人工智能研究实验室之一。2022年,该公司以未披露的估值从瑞典私募股权投资者Altor那里获得了1700万美元的融资。 博帕纳表示,Silo团队的技术能力及其在企业内部应用技术的经验帮助敲定了这笔交易。他说:“搭建这个很酷的模型是一回事,但部署它并让它发挥作用是另一回事。”
美国禁令升级,进口,或自产AI芯片,都要受影响?
AI被人称之为新一轮的工业革命,因为不管什么业务,什么产品,有了AI加持后,都会是一个大颠覆。 比如AI和手机结合,形成AI iPhone,AI和PC结合,形成AI PC,AI和自动驾驶结合,不是AI 自动驾驶,而是端到端自动驾驶技术…… 而AI的背后,是算力,是GPU芯片,也就是AI芯片。 所以美国一直限制中国的AI能力,之前就各种禁售先进的AI芯片卖到中国来,比如英伟达的H100、A100、H800、A800等都禁了。 后来英伟达推出H20,这款芯片基于H100而来,但相当于将H100阉割掉了80%的性能,只保留了20%,才准卖给中国市场。 不过,这些举动似乎没有让中国 AI受到影响,中国的AI产业依然在迅速发展,大有超过美国之势头。 这让美国感到害怕了,近日有消息传出,美国的禁令可能会升级,这次不单单是针对AI芯片本身了,连AI芯片中,最重要的元部件,也要限制了。美国或要针对HBM存储下重手了。 HBM是什么?它是“High Bandwidth Memory”缩写,意即高带宽内存,以前的一些GPU上,使用的是DRAM存储,但目前的AI芯片上,都使用这种HBM,因为HBM速度更快,性能更强,只有和HBM搭配,AI芯片才能满足海量算力需求。 可以说,一旦没有了HBM芯片,AI芯片的性能就会大打折扣。 按照媒体的说法,美国考虑最快在这个月(8月),就会限制中国大陆获得人工智能(AI)上的HBM这种芯片及相关生产设备。 媒体表示,美国一是会限制三星、美光、SK海力士这三大厂商,出售HBM内存到中国大陆来,甚至有可能搭载了HBM芯片的AI芯片,也不准出售到中国大陆。 其次,限制中国大陆生产HBM芯片,会禁止生产HBM芯片的设备,销售到中国大陆来,因为不限制的话,中国有能力自己生产出HBM芯片,那么像华为等厂商,也能够生产出使用HBM内存的AI芯片来。 一旦HBM芯片被禁止,那对于我们的AI产业而言,还是相当麻烦的,到时候进口AI芯片,甚至自己制造AI芯片,都会受到影响,只能使用更差的内存,那么问题就大了。 目前还没有确切消息,但只怕不是空穴来风,可见在科技领域,真的是落后就要挨打,只有自己强大起来,才真正无惧打压。
iPhone可跑2B小钢炮:谷歌Gemma 2小模型来袭,跑分超GPT-3.5
就在刚刚,谷歌 DeepMind 发布 Gemma 2 2B。 它是从 Gemma 2 27B 中蒸馏而来。 虽然它的参数只有 2.6B,但在 LMSYS 竞技场上的得分,已经超越了 GPT-3.5 和 Mixtral 8x7B! 在 MMLU 和 MBPP 基准测试中,它分别取得了 56.1 和 36.6 的优异成绩;比起前代模型 Gemma 1 2B,它的性能超过了 10%。 小模型击败了大几个数量级的大模型,再一次印证了最近业界非常看好的小模型方向。 谷歌在今天,一共公布了 Gemma 2 家族的三个新成员: Gemma 2 2B:轻量级 2B 模型,在性能和效率之间实现了最大的平衡 ShieldGemma:基于 Gemma 2 构建的安全内容分类器模型,用于过滤 AI 模型的输入和输出,确保用户安全 Gemma Scope:一种可解释性工具,提供对模型内部运行机制的无与伦比的洞察 6 月,27B 和 9B Gemma 2 模型诞生。 自发布以来,27B 模型迅速成为大模型排行榜上,排名前列的开源模型之一,甚至在实际对话中表现超过了参数数量大两倍的流行模型。 Gemma 2 2B:即刻在设备上使用 轻量级小模型 Gemma 2 2B,是从大模型中蒸馏而来,性能毫不逊色。 在大模型竞技场 LMSYS 上,新模型取得令人印象深刻的 1130 分,与 10 倍参数的模型不相上下。 GPT-3.5-Turbo-0613 得分为 1117,Mixtral-8x7b 得分为 1114。 足见,Gemma 2 2B 是最好的端侧模型。 有网友在 iPhone 15 Pro 上,让量化后的 Gemma 2 2B 在 MLX Swift 上运行,速度快到惊人。 具体来说,它能够在各种终端设备,包括手机、笔记本,甚至是使用 Vertex AI 和 Google Kubernetes Engine(GKE)强大的云,皆能完成部署。 为了让模型加速,它通过 NVIDIA TensorRT-LLM 完成了优化,在 NVIDIA NIM 平台也可使用。 优化后的模型适用于各种平台部署,包括数据中心、云、本地工作站、PC 和边缘设备。 它还可以支持 RTX、RTX GPU、Jetson 模块,完成边缘化 AI 部署。 此外,Gemma 2 2B 无缝集成了 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp 等,并很快将与 MediaPipe 集成,实现简化开发。 当然,与 Gemma 2 一样,2B 模型也同样可以用来研究和商用。 甚至,由于其参数量足够下,它可以在 Google Colab 的免费 T4 GPU 层上运行,降低了开发门槛。 目前,每位开发者都可以从 Kaggle、Hugging Face、Vertex AI Model Garden 下载 Gemma 2 的模型权重,也可在 Google AI Studio 中试用其功能。 仓库地址: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f ShieldGemma:最先进的安全分类器 正如其名,ShieldGemma 是最先进的安全分类器,确保 AI 输出内容具有吸引力、安全、包容,检测和减少有害内容输出。 ShieldGemma 的设计专门针对四个关键的有害领域: 仇恨言论 骚扰内容 露骨内容 危险内容 这些开源分类器,是对谷歌现有的负责任 AI 工具包中安全分类器套件补充。 该工具包括一种基于有限数据点构建针对特定策略分类器的方法,以及通过 API 提供的现成 Google Cloud 分类器。 ShieldGemma 基于 Gemma 2 构建,是行业领先的安全分类器。 它提供了各种模型参数规模,包括 2B、9B、27B,都经过英伟达速度优化,在各种硬件中可以高效运行。 其中,2B 非常适合在线分类任务,而 9B 和 27B 版本则为对延迟要求较低的离线应用提供更高性能。 Gemma Scope:通过开源稀疏自编码器揭示 AI 决策过程 此次同时发布的另一大亮点,就是开源稀疏自编码器 —— Gemma Scope 了。 语言模型的内部,究竟发生了什么?长久以来,这个问题一直困扰着研究人员和开发者。语言模型的内部运作方式往往是一个谜,即使对于训练它们的研究人员,也是如此。 而 Gemma Scope 就仿佛一个强大的显微镜,通过稀疏自编码器(SAEs)放大模型中的特定点,从而使模型的内部工作更易于解释。 有了 Gemma Scope 以后,研究人员和开发者就获得了前所未有的透明度,能够深入了解 Gemma 2 模型的决策过程。 Gemma Scope 是数百个适用于 Gemma 2 9B 和 Gemma 2 2B 的免费开放稀疏自动编码器(SAE)的集合。 这些 SAEs 是专门设计的神经网络,可以帮助我们解读由 Gemma 2 处理的密集、复杂信息,将其扩展成更易于分析和理解的形式。 通过研究这些扩展视图,研究人员就可以获得宝贵的信息,了解 Gemma 2 如何识别模式、处理信息、做出预测。 有了 Gemma Scope,AI 社区就可以更容易地构建更易理解、负责任和可靠的 AI 系统了。 同时,谷歌 DeepMind 还放出了一份 20 页的技术报告。 技术报告:https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf 总结来说,Gemma Scope 有以下 3 个创新点 —— 开源 SAEs:超过 400 个免费提供的 SAEs,覆盖 Gemma 2 2B 和 9B 的所有层 互动演示:在 Neuronpedia 上无需编写代码,即可探索 SAE 功能,并分析模型行为 易于使用的资源库:提供与 SAEs 和 Gemma 2 交互的代码和示例 解读语言模型内部的运作机制 语言模型的可解释性问题,为什么这么难? 这要从 LLM 的运行原理说起。 当你向 LLM 提出问题时,它会将你的文本输入转换为一系列「激活」。这些激活映射了你输入的词语之间的关系,帮助模型在不同词语之间建立联系,据此生成答案。 在模型处理文本输入的过程中,模型神经网络中不同层的激活代表了多个逐步高级的概念,这些概念被称为「特征」。 例如,模型的早期层可能会学习到像乔丹打篮球这样的事实,而后期层可能会识别出更复杂的概念,例如文本的真实性。 然而,可解释性研究人员却一直面临着一个关键问题:模型的激活,是许多不同特征的混合物。 在研究的早期,研究人员希望神经网络激活中的特征能与单个神经元(即信息节点)对齐。 但不幸的是,在实践中,神经元对许多无关特征都很活跃。这也就意味着,没有什么明显的方法,能判断出哪些特征是激活的一部分。 而这,恰恰就是稀疏自编码器的用武之地。 要知道,一个特定的激活只会是少数特征的混合,尽管语言模型可能能够检测到数百万甚至数十亿个特征(也就是说,模型是稀疏地使用特征)。 例如,语言模型在回答关于爱因斯坦的问题时会想到相对论,而在写关于煎蛋卷时会想到鸡蛋,但在写煎蛋卷时,可能就不会想到相对论了。 稀疏自编码器就是利用了这一事实,来发现一组潜在的特征,并将每个激活分解为少数几个特征。 研究人员希望,稀疏自编码器完成这项任务的最佳方式,就是找到语言模型实际使用的基本特征。 重要的是,在这个过程中,研究人员并不会告诉稀疏自编码器要寻找哪些特征。因此,他们就能发现此前未曾预料过的丰富结构。 然而,因为他们无法立即知道这些被发现特征的确切含义,他们就会在稀疏自编码器认为特征「触发」的文本示例中,寻找有意义的模式。 以下是一个示例,其中根据特征触发的强度,用蓝色渐变高亮显示了特征触发的 Token: 用稀疏自编码器发现特征激活的示例。每个气泡代表一个 Token(单词或词片段),可变的蓝色说明了这个特征的存在强度。在这个例子中,该特征显然与成语有关 Gemma Scope 有何独特之处? 比起此前的稀疏自编码器,Gemma Scope 有许多独特之处。 前者主要集中在研究小型模型的内部工作原理或大型模型的单层。 但如果要把可解释性研究做得更深,就涉及到了解码大型模型中的分层复杂算法。 这一次,谷歌 DeepMind 的研究者在 Gemma 2 2B 和 9B 的每一层和子层的输出上,都训练了稀疏自编码器。 这样构建出来的 Gemma Scope,总共生成了超过 400 个稀疏自编码器,获得了超过 3000 万个特征(尽管许多特征可能重叠)。 这样,研究人员就能够研究特征在整个模型中的演变方式,以及它们如何相互作用,如何组合形成更复杂的特征。 此外,Gemma Scope 使用了最新的、最先进的 JumpReLU SAE 架构进行了训练。 原始的稀疏自编码器架构,在检测特征存在与估计强度这两个目标之间,往往难以平衡。而 JumpReLU 架构,就能更容易地实现二者的平衡,并且显著减少误差。 当然,训练如此多的稀疏自编码器,也是一项重大的工程挑战,需要大量的计算资源。 在这个过程中,研究者使用了 Gemma 2 9B 训练计算量的约 15%(不包括生成蒸馏标签所需的计算),将约 20 PiB 的激活保存到了磁盘(大约相当于一百万份英文维基百科的内容),总共生成了数千亿个稀疏自编码器参数。
消息称英特尔仍在开发集成CPU+GPU的数据中心XPU,目前预计2027年发布
IT之家 8 月 1 日消息,匈牙利媒体 PROHARDVER! 表示,英特尔仍在内部开发数据中心 XPU 产品,目前看来有望 2027 年发布。 IT之家先在此整理下原有望成为英特尔首款 XPU 产品的 Falcon Shores 处理器的来龙去脉: 英特尔 2022 年公布了初版 Falcon Shores 设计。在英特尔那时的预想中,这款 XPU 将在单一插槽中容纳 x86 CPU 与 Xe GPU,较当时产品拥有 5 倍以上的每瓦性能、计算密度、内存容量与带宽。 ▲ XPU 版 Falcon Shores 规划 ▲ XPU 版 Falcon Shores 设计目标 来到 2023 年,英特尔首先在 3 月宣布调整数据中心 GPU 的产品线规划,将 Falcon Shores 归入数据中心 GPU Max 的序列并推迟至 2025 年,首先推出纯 GPU 版本。 此后英特尔又在 2023 年 5 月确认 Falcon Shores 将定位为 AI GPU,作为 Ponte Vecchio 数据中心 GPU Max 与 Gaudi 3 人工智能加速器的共同后继者,放弃含 CPU 版本。 英特尔在解释这一变化时表示,随着数据中心工作负载的演变,CPU 和 GPU 的最佳比例也发生了变化,而 XPU 仅能提供特定固定比例的 CPU 与 GPU,XPU 尚未来到合适的推出时机。 匈媒在报道中宣称,XPU 版的 Falcon Shores 在开发中并未遇到问题,样品工作正常。被放弃的核心原因是其 CPU 模块性能较差、功耗过高,无法与 AMD 的 Instinct MI300A 等类似产品竞争。 而英特尔未来真正的 XPU 产品仍在开发途中,目前看来有望 2027 年发布。相较 XPU 版 Falcon Shores,新一代的 XPU 对 CPU 模块进行了重大修改,导入了符合 2027 年发布计划的新 CPU 设计。 而对于英特尔 CEO 帕特・基辛格此前提到的 Falcon Shores 2 芯片,报道称这款计划 2026 年推出的产品仅是 AI GPU 版 Falcon Shores 的小幅修改。
迪士尼是怎么做双足机器人的?
编译 | 陈骏达 编辑 | Panken 智东西8月1日消息,7月15日,迪士尼公布了一篇16页的论文,详细介绍了他们新型双足机器人BD-X的主要设计和控制方法。这个机器人外形酷似《机器人总动员》里的“瓦力”,灵感源自于《星球大战》中的同名机器人。其硬件采用标准零件和3D打印外壳,腿部有5个自由度,通过强化学习掌握了动画人物的行走姿态,动作灵巧流畅,还锻炼出跨越复杂地形的能力。 在不久前的IEEE活动上,这个迪士尼机器人还跟杭州宇树科技的机器狗面对面炫技斗舞。 ▲迪士尼BD-X机器人与宇树Go2互动(图源:YouTube) 更早之前,它在今年3月的英伟达GTC大会上作为惊喜嘉宾压轴出场,与英伟达创始人兼CEO黄仁勋亲密互动,还摇头晃脑撒娇卖萌。 ▲酷似瓦力的BD-X机器人与黄仁勋在GTC大会上互动(图源:英伟达) 这一机器人以娱乐为目的的设计理念极大降低了硬件复杂度与成本。但迪士尼为这台机器人加上了额外的扬声器、天线、头灯和眼睛,这让它能以更多的方式表现自己的“情绪”。 虽然BD-X看上去活灵活现,似乎真的能理解人们说的话,但其实它并不具备主动的感知和行为能力。它的一举一动都是通过人工操作实现的。这台机器人配备了来自英伟达的机载计算机Jetson,能将人类指令与训练时积累的经验结合,输出最终的行动指令。 ▲论文首页截图(图源:迪士尼) 论文地址:https://la.disneyresearch.com/publication/design-and-control-of-a-bipedal-robotic-character/ 一、机械设计简单有效,服务娱乐与创意目的 迪士尼在设计BD-X机器人时选择了与大多数企业都不同的路径。他们并不追求最好、最强大的机械设计,而是选择了能够满足创意和娱乐目的的简单设计。研究者成功集成了动画内容、设计、控制、实时操纵等元素,并用不到1年的时间实现了定制机器人角色的快速开发。 这一机器人主要使用了市面上的标准化零件,而外壳则是3D打印的,但经过软件调试后,仍然可以在降低硬件复杂度的前提下实现不错的表现。 ▲迪士尼BD-X机器人设计图(图源:迪士尼) 这一双足机器人的总重为15.4公斤,高度为0.66米。每条腿上有5个自由度,而头部与颈部则有4个自由度。腿部的高自由度使得这一机器人能完成大幅度的动作,而头颈部的高自由度则让机器人可以通过动作表现各种妙趣横生、情感丰富的动作。 ▲BD-X机器人在迪士尼乐园亮相,画面最右侧的二人为操作员(图源:YouTube) 迪士尼的工程师还通过巧妙的设计让机器人能在没有膝盖弯曲执行器的情况下,依赖与地面的接触实现逼真的膝盖弯曲效果。这一机器人配备一块微控制器驱动的通讯板,能以600赫兹的频率实现内置电脑、执行器和惯性测量单元之间的通讯。1块可拆卸电池为机器人供电,能维持至少1个小时的运转时间。 有趣的是,除了头部和躯干上配备的扬声器,这台机器人还有具备执行器的天线、能点亮的眼睛和一盏头灯。这些设备为机器人提供了更多表现情绪的方式,同时其控制和驱动都是相对独立的,因此可以选择是否搭载这些功能。 二、利用强化学习掌握动画动作,在英伟达Isaac Gym中模拟训练 为了给机器人动作提供一个清晰的框架,迪士尼的研究人员将机器人的动作分为以下3类。 1、持续性动作:没有明确的起点和终点。机器人保持平衡,并对测量到的状态和连续的控制输入流做出响应。 2、周期性运动:有一个周期性的相位信号传递给策略。在这种模式下,相位信号无限循环。 3、偶发性运动:有预定的持续时间。策略接收单调递增的相位信号,一旦运动结束,就会强制过渡到新的运动。 ▲BD-X机器人的3种运动类型(图源:迪士尼) 机器人的控制策略是机器人学中的重要概念,指的是将机器人的状态映射为动作或电机命令的函数,使机器人能实现预期的行为和任务。 研究人员让BD-X机器人通过强化学习的方式掌握了多种控制策略,分别针对上述3种类型的动作。 根据机器人的CAD模型,迪士尼的研究人员构建出了这一机器人的准确物理形态、执行器和它与环境的互动,并通过英伟达的机器人训练平台Isaac Gym模拟出这一机器人的刚体动力学特征。研究人员还通过定制的执行器模型进一步模拟了这一机器人的完整动力学特征。 ▲BD-X模拟训练系统(图源:迪士尼) BD-X机器人的动作是根据动画内容学习的。迪士尼的研究人员提取了动画中人物的特定动作指标,如躯干的全局位置、关节的位置和矢量等信息,这些信息将用来训练这一BD-X机器人模仿动画中的动作。 在Isaac Gym的模拟训练中,机器人会收到强化学习系统的奖励和惩罚。这一系统会考虑动作与动画人物的相似度、动作的规范程度(如有无关节扭曲、动作是否流畅)以及机器人是否生存(“死亡”被定义为头和躯干与地面接触,或头和躯干碰撞),并给出相应的奖惩。 训练过程中,系统还会模拟出随机的扰动、牵引力还有不同的地貌,这提升了机器人的鲁棒性(Robustness,指抗干扰性或稳定性)。 三、并无主动感知和行动能力,通过复杂控制器实现运动 迪士尼的研究人员称,在发布这篇论文时,BD-X机器人已经有过累计10小时的公开展示运行时间,在这10小时里这一机器人表现完美,一次都没有摔倒。许多观众都被这一机器人可爱的外表吸引,而未注意到这一机器人的操纵者。 实际上,BD-X机器人并无任何主动的行为和感知能力,其动作都是通过专业人员操纵一个复杂的控制器实现的。在运行期间,操作员可以使用直观的遥控互动界面控制这一机器人。这一操纵设备较为复杂,有2个摇杆、2块路径板,正反面总计有十几个按键。 ▲BD-X通过控制器实现灵动的动作(图源:迪士尼) 在虚拟训练结束后,神经控制策略的权重被冻结,策略网络被部署到机器人的机载计算机Jetson上。部署后的控制策略和低层次控制器直接与机器人的硬件交互,还能融入惯性测量单元和执行器的测量数据。 机器人内置的动画引擎能自动将操作员输入的指令,与机器人内置的策略控制命令、展示功能信号(天线、眼睛、头灯的控制信号)和声音信号结合起来,为控制策略生成最终指令。 ▲操作员在英伟达GTC 2024的后台调试BD-X机器人(图源:YouTube) 人工操纵指令和内置策略控制命令的结合能避免机器人出现训练过程中研究人员希望规避的动作,如摔倒、动作僵硬不流畅等等。 ▲BD-X机器人展现出很强的鲁棒性,能在多种复杂地面情况下保持稳定(图源:迪士尼) 展示功能和音频是机器人的受控元素,在表现角色方面起着关键作用,但不会影响系统的动态。它们的行为通过动画引擎发出的动画信号和状态反馈与机器人的运动同步。 结语:AI让动画人物走进现实,“不实用”的机器人也有价值 其实迪士尼是机器人领域的资深玩家,从上世纪60年代以来他们就一直深耕机器人相关研究,并且在迪士尼乐园中尝试部署他们的研究成果,探索让动画人物走进现实世界的各种方式和场景。 ▲迪士尼过去在机器人领域的相关研究(图源:迪士尼) AI技术的发展让机器人的一举一动都更为逼真自然,而强化学习让专业动画师制作的人物动作在现实中落地。虽然BD-X机器人并不像其它双足机器人那样能进工厂、上流水线,但我们也乐见娱乐目的的机器人技术进一步发展,让普通人也能享受到机器人带来的快乐。
价格疯狂跳水!国产显示器高端化难题待解
在你的记忆中,一台高刷电竞显示器的价格一般是多少?一千?还是一千多?毕竟在很多人的印象中,一台普通的1080P显示器,价格也往往都要五六百,加上高刷等要求,售价基本已经来到了千元水平。 实际上,如果说最近一年以来,PC市场哪一个硬件降价最快,那么显示器认第二就没有人敢称第一。随便在京东搜一下,就能很直观感受到当下显示器市场的环境:24英寸1080P 180Hz,548元;27英寸2K 180Hz,699元;27英寸4K 160Hz,1499元。 图源:雷科技 放在三年前,如果有人告诉我,只需要五百就能在京东自营买到主流品牌的高刷电竞显示器,我肯定得问问他是不是没有睡醒。而且,降价的不只是入门级的1080P屏幕,偏高端的2K屏和原本定位高端的4K屏幕都一样呈现出明显的降价趋势。 此外,显示器的降价趋势不仅限于传统的IPS显示器品类,而是很快就蔓延到了miniLED、OLED等近两年才逐渐量产的中高端品类中,其中miniLED的降价幅度只能以「跳水」来形容,甚至已经到了与IPS同台竞争的地步。 国产显示器的持续降价,影响的不只是国内市场,同时也在全球范围掀起一轮换新潮。 显示器市场,加速进入「高端化」 在降价的影响下,国产市场也悄然开始了用户体验的「高端化」进程,洛图科技的数据报告显示,随着高分高刷显示器的价格下降,FHD(1080P)显示器的市场销量首次下跌到50%以下,2024年第一季度显示,FHD显示器销量仅占总销售量的48%。 图源:洛图科技 虽然从整个市场的分布来看,FHD仍然是绝对的主流,但是QHD(2K)的上涨势头非常明显,以目前的增长速度计算,最快在2024年的第四季度,QHD就会超越FHD成为市场销量占比第一的分辨率。 看似仅在短短的一年时间里,QHD就击败FHD成为新王,实际上背后却是长达十年的竞争。直到去年显示器市场开始大规模降价,2K与1080P的面板价格越发接近后,前者才逐渐占领了上风。 另一方面,与高分显示器的十年博弈不同,高刷显示器的销量在年初就已经完成了反超,传统的60Hz和75Hz刷新率显示器,市场销量在2023年第一季度仍有21%和32%,而在2024年第一季度就已经分别下滑到了13%和17%。 图源:洛图科技 背后的原因就是1080P和2K高刷面板的大批量出货,导致市场价格直接崩溃,供远大于求的情况下,1080P高刷显示器的价格从千元直接跌到百元,可以说直接取代了传统刷新率显示器的生态位。 在最新的统计中,100Hz刷新率的销量占比从1%提高到了10%,这个参数的面板最近两年产品开始增加,并在价格上与传统显示器几乎持平。虽然100Hz距离真正的高刷144Hz还有一定差距,但是效果也明显优于传统的60Hz,导致在价格差距几乎可以忽略的情况下,多数用户都转而选择100Hz显示器,这也是传统显示器销量大跌的主要因素之一。 而在真正的高刷领域,144Hz和165Hz作为曾经的高刷入门参数,销量占比反而有所下降,165Hz的占比对比2023年第一季度下降了5%,而180Hz、240Hz和更高刷新率的显示器销量占比则是有明显上升。 其中180Hz的提升涨幅最明显,从2023年第一季度的2%,到2024年第一季度的16%,大涨14%,240Hz的占比也从4%上涨到7%。从调查的情况来看,180Hz显示器占比暴涨的主要原因是大量品牌开始扎堆出货,涌现出一大批1080P 180Hz的显示器,而且价格优势明显。 以京东自营的价格做参考,小米的24寸1080P 180Hz的高刷电竞显示器,价格为549元,而同样是24英寸1080P的100Hz显示器,价格则是469元,两者的差价仅80元。 高刷与高分辨率所带来的体验「高端化」,已然成为趋势。更有意思的是,体验高端化的同时销售均价却在下降,意味着市场竞争已经趋于白热化。 新技术平民化,显示器进入转型期 传统显示器,一般是指采用IPS、VA和TN三种面板的LCD显示器,技术成熟且各有优点,后续为了满足用户对亮度、对比度、色彩的更高要求,一些厂商开始逐渐推出miniLED、OLED等采用新技术的显示器。 其中miniLED面板本质上仍然是LCD显示器,但是因为采用了分区背光技术,所以在亮度、对比度等方面的表现远超传统LCD显示器。在亮度参数上,传统的LCD显示器亮度一般在300尼特-500尼特之间,少数高端旗舰显示器可以达到600尼特,而miniLED显示器的亮度起步就是1000尼特,目前市面上部分产品还提供1400尼特和1600尼特的选择。 图源:京东 miniLED的超高亮度,使其在显示HDR内容上有很好的体验,甚至可以说是显示器市场里唯一能够提供真正HDR体验的面板(因为其他面板大多数都达不到1000尼特亮度的要求,仅少部分可提供峰值1000尼特)。 在这一轮降价潮中,miniLED显示器的价格下降最为明显,其中2K180Hz的入门级高分高刷显示器,价格直接下跌到千元级别,即使是高端的4K 160Hz显示器,价格也降低到两千元级别。 这是什么概念?简单来说,如果是在两年前,这个价格你只能买到普通的4K高刷屏幕,亮度普遍在350尼特-400尼特之间。而且,为了能够最大限度地释放miniLED产能,可以看到非高刷miniLED显示器的价格,与传统IPS显示器仅相差400-500元,考虑到miniLED在HDR显示等方面的体验提升,其有望成为更受欢迎的4K入门面板。 图源:京东 至于OLED,估计不少玩家也“久仰”其大名,除了惊人的色彩、对比度和响应速度外,OLED的最大特点就是贵。早期OLED显示器的价格基本超过万元,即使在三星、LG等大厂推出第二、三代产品时,均价也在8000元左右,堪称显示器里的“超跑”。 然而,即使高贵如OLED,也在这一轮降价潮中败下阵来,首先是三线品牌开始大量推出4000元以下价位的OLED显示器,使得OLED显示器的入门价格下降50%。随后三星、LG等面板大厂也开始跟进,进而引发其他一、二线品牌的跟进,AOC、ROG等品牌的OLED显示器均价也明显下降。 图源:京东 图源:喵喵折 OLED与miniLED的均价暴跌,使得显示器市场正在进入新一轮的转型期,传统的LCD显示器虽然价格便宜,但是在各项参数上与新技术也有着显著差距。当新老产品价格差距较大时,传统显示器所受的影响尚不明显,但是当两者的价格开始趋同时,新技术必然会引发一轮换机潮。 目前来看,这一轮价格下降仍未结束,特别是在中低端市场,激烈的竞争正在促使部分品牌加快新产品上线的速度,并且给出更多的优惠来吸引消费者注意。 国产显示器出口猛增,高端仍是难题 随着国产显示器的价格暴跌,2024年上半年,中国大陆的显示器出口总量也显著增长,达到4966万台,与2023年同期相比增长高达13%,出口总额达到393亿元,同比增长达到23%。 图源:洛图科技 从中不难发现,国产显示器不仅是出口总量显著增加,商品均价也有所提升,随着大陆显示器面板厂商的技术及产业升级,显示器产品也不再是以低端入门级产品为主,miniLED等采用新技术的产品,在出口总量中的占比也开始提升。 不过,中高端市场仍然是LG、三星和戴尔的天下,数据显示,OLED显示器的线上销量同比增长50%,其中三星占比达36%,戴尔占比达21%,LG占比则是19%,三个厂商的OELD显示器销量占整个OLED显示器市场的76%。 图源:TrendForce 在桌面端OLED显示器市场中,LG和三星作为主要的面板生产厂商优势确实很大,加上品牌中高端市场的口碑与技术领先,使其成为多数高端消费者的首选。 而且,这个趋势不仅在OLED市场中出现,在普通显示器市场也是如此。根据数据统计,中国显示器的线上市场品牌份额排名中,三星在销量榜单上仅排名第八,而LG则是在十名之外,但是在销售额榜单中,三星却高居第八,LG则是位列第五。 图源:洛图科技 可见三星和LG的产品均价要远超国产品牌,在中高端市场更受欢迎。不过,除了技术和口碑外,国产品牌缺席高端市场,也是主因之一。除了AOC之外,榜单中的小米、KTC、HKC等品牌均以中低端产品为主,鲜少有高于3000元的产品,等于在高端市场直接「隐身」。 对于国产显示器而言,如何突破中低端市场,会成为接下来大多品牌需要面对的问题,从目前的市场情况来看,只有华硕、AOC等少数国产品牌在高端市场具有影响力,其余品牌均以性价比著称。 不过,随着国内面板厂商的新一代产线陆续投产,以及显示技术的进一步升级,可以预见LG、三星和戴尔在未来或许将被迫卷入一场新的竞争当中,至于发起者,自然是对高端市场虎视眈眈的中国品牌。
谷歌狂卷小模型,20亿参数Gemma 2赶超GPT-3.5,实测iPhone上跑得飞快
编译 | 香草 编辑 | 李水青 谷歌DeepMind的开源小模型家族,又迎来新成员! 智东西8月1日消息,今日凌晨,谷歌DeepMind开源了轻量级模型Gemma 2 2B,其在大模型竞技场上的分数超越了GPT-3.5、Llama 2 70B等更大参数的模型。 ▲Gemma 2 2B 只有20亿参数使得Gemma 2 2B可以轻松在手机、PC等终端设备上快速运行。开发者实测在Google AI Studio上,其推理速度达到30~40 tokens/s。 ▲开发者测试Gemma 2 2B 与Gemma 2 2B一起推出的,还有用于增强模型可解释性的工具Gemma Scope,以及用于过滤有害内容的安全分类模型ShieldGemma。 Gemma Scope基于稀疏自动编码器(SAE)放大模型中的特定点,并采用JumpReLU架构对其进行优化,从而帮助解析模型中处理的密集复杂信息,像一个显微镜一样让研究人员能“看到”模型内部。 ShieldGemma则针对仇恨言论、骚扰、色情内容、危险内容四个危害领域构建,在响应测试中超过GPT-4等基准模型。 Gemma系列模型最初在今年2月推出,是谷歌DeepMind在Gemini模型的经验基础上构建的开源模型。6月,谷歌推出第二代开源模型Gemma 2,包括9B、27B两种参数规模,其中27B模型迅速在LMSYS大模型竞技场上跃升开源模型前沿。 一、击败35倍参数大模型,比大小没难倒Gemma 2 Gemma 2 2B是从更大规模的模型中提炼而来的,是继27B、9B后谷歌推出的第三款Gemma 2模型。 作为一款只有20亿参数的轻量模型,Gemma 2 2B并没有牺牲性能来换轻便。在LMSYS大模型竞技场(Chatbot Arena)排行榜中,Gemma 2 2B以1126分的成绩超越了GPT-3.5,以及其数十倍参数规模的Mixtral 8x7B、Llama 2 70B模型。 ▲Gemma 2 2B在大模型竞技场的成绩 有网友测试了Gemma 2 2B在众多大模型上“翻车”的9.9和9.11比大小问题,Gemma 2 2B迅速给出了正确答案。 ▲Gemma 2 2B答题 运行速度是轻量级模型的一大优势。具体有多快呢?苹果机器学习研究员Awni Hannun在他的iPhone 15 pro上的MLX Swift测试了Gemma 2 2B,其推理速度肉眼可见的快。 ▲Gemma 2 2B运行速度 开发者Tom Huang实测后称,其在Google AI Studio上运行速度大概30~40 tokens/s,“比苹果的模型推得快”。 在部署方面,Gemma 2 2B提供灵活的部署方式,可在各种硬件上高效运行,包括边缘设备、笔记本电脑,或是基于Vertex AI进行云部署。 开发者可以在Hugging Face、Kaggle等平台下载Gemma 2 2B的模型权重,用于研究和商业应用,也可以在Google AI Studio中试用其功能。 二、针对四类内容构建分类器,响应率优于GPT-4 为了提升模型的安全性和可访问性,谷歌推出了一套基于Gemma 2构建的安全内容分类器模型ShieldGemma,用于过滤AI模型的输入和输出,是对谷歌的负责任AI工具包中现有安全分类器套件的补充。 ▲ShieldGemma工作原理 ShieldGemma针对仇恨言论、骚扰、色情内容、危险内容这四个危害领域构建,提供多种模型尺寸以满足不同的需求,包括2B、9B和27B。其中,2B参数模型适合在线分类任务,9B和27B版本则用于为离线应用程序提供更高性能。 在外部数据集上的测评结果中,ShieldGemma超越了OpenAI Mod、GPT-4等基线模型。 ▲ShieldGemma测评结果 ShieldGemma的技术报告也同步公开,其中解读了该模型的构建方法、数据来源以及有效性。在四类有害内容的响应测试上,三个规模的ShieldGemma响应率都优于GPT-4。 ▲ShieldGemma响应测试 三、大模型内部“显微镜”,零代码分析模型行为 为了研究语言模型内部的工作原理,谷歌推出一套全面、开放的稀疏自动编码器Gemma Scope。它就像一个显微镜,能帮助研究人员“看到”模型内部,从而更好地理解工作原理。 Gemma Scope使用稀疏自动编码器(SAE)放大模型中的特定点,这些SAE可帮助解析模型中处理的密集复杂信息,将其扩展为更易于分析和理解的形式。 ▲使用SAE解释模型激活的程式化表示 通过研究这些扩展的视图,研究人员可以了解Gemma 2如何识别模式、处理信息,并最终做出预测,从而探索如何构建更易于理解、更可靠、更可靠的AI系统。 此前,对SAE的研究主要集中于研究微型模型或大型模型中,单层的内部工作原理。而Gemma Scope的突破之处在于,它在Gemma 2模型的每个层和子层输出上训练SAE。其共生成了400多个SAE,学习了3000多万个特征。 ▲Gemma Scope的SAE发现特征的示例激活 Gemma Scope 还采用了全新的JumpReLU SAE架构进行训练。原始的SAE架构很难平衡检测哪些特征存在,和估计其强度这两个目标。JumpReLU架构可以更轻松地实现这种平衡,从而显著减少错误。 Gemma Scope共开放了超过400个免费SAE,涵盖Gemma 2 2B和9B的所有层,并提供交互式演示,研究人员不需要编写代码即可研究SAE特性并分析模型行为。 ▲Gemma Scope交互式演示 结语:生成式AI的风,刮向小模型和AI安全 生成式AI发展至今,模型从“卷”参数“卷”规模,到现在“卷”轻便“卷”安全,体现了在技术落地的过程中,离用户更近、成本更低、更能满足特定需求的重要性。 AI PC、AI手机逐渐进入消费者的生活,在这个过程中,如何将大模型“塞进”小巧的终端设备,并且保障用户的隐私安全,是各大AI厂商亟待解决的问题。
苹果AI真来了!外媒体验iOS 18.1首个测试版,Siri“变身”首秀
编译 | 陈骏达 编辑 | 程茜 智东西8月1日消息,7月30日凌晨,苹果推出了面向开发者的iOS 18.1 Beta版本,初步展示了总结、写作工具、照片搜索和AI加持的Siri等功能。除了Siri之外,本次更新的Apple Intelligence功能分布于系统中的各个角落,从邮件、Safari到录音中都能看到新增加的AI功能,是名副其实的“系统级AI”。 具体来看,总结功能让用户能在数秒内看到网页的内容概要,节省不必要的阅读时间。写作工具几乎全面嵌入所有涉及文本输入和编辑的页面,能实现语气调整,还可将文本内容一键整理成表格。此外,相册中的照片现在可以通过搜索快速定位,还可以一键生成回忆视频。 ▲一键生成回忆视频功能(图源:YouTube) Siri在这波更新后变得更聪明了,它对情景和语境的理解能力有很大提升。The Verge的测试人员发现,Siri现在不会在用户犹豫或者停顿的时候打断用户,而是会根据对话的上下文内容判断是否要等待用户说完。 不过,测试人员还提到,刚更新的Apple Intelligence功能在部分时候反应仍然较慢,还会出现无法理解复杂文本指令的情况,但这些功能预计会在接下来的更新中得到改进。在过去,苹果一般不会在正式发布系统前推出Beta版本,此举或许是为了在正式发布前与开发者一道解决Apple Intelligence的潜在问题。 一、Safari浏览器内置总结功能,节省阅读时间 苹果在Safari浏览器中嵌入了网页总结功能。用户只需点击地址栏左侧的图标进入阅读模式,再点击“总结”按钮,Apple Intelligence便能提供类似阅读笔记的内容,这在用户需要快速阅读的时候很有帮助。 ▲总结功能演示(图源:YouTube) 总结工具能帮助用户快速了解文章是否有阅读价值,若总结中的文章看上去不错,也能吸引读者读完完整文章。这一工具还可以用来辅助用户阅读较为复杂的论文、分析文章、总结转录后的录音和阅读电子邮件等。 ▲总结功能嵌入通话录音功能(图源:苹果) 总结工具缺点之一是速度不是特别快,需要数秒钟才能输出总结,但类似的AI工具也需要花费差不多的时间。Apple Intelligence输出的总结条理清晰,甚至可以从对话录音中快速输出要点,这样看来,几秒钟的等待是值得的。 二、定制化修改消息语气文体,还能将文本整理为表格 写作工具是苹果在今年WWDC上重点展示的Apple Intelligence功能之一。从实际使用界面来看,苹果的写作工具能提供文本校对、重写等功能,还可以对文本的语气进行调整,如“友好”、“职场”或者“简洁”。写作工具还能输出指定格式的文本,可以将文本整理成要点、列表和表格。 ▲写作工具界面(图源:Mashable) 在iOS 18.1开发者测试版中,所有文本输入和编辑页面都可以使用写作工具,用户只要选中需要修改的文本,点击“写作工具”按钮,便可以按照指定的方式让Apple Intelligence修改文本内容。如果用户对修改结果不满意,还可以点击“重试”按钮,生成新的版本。 ▲写作工具可快速根据用户指令修改语气(图源:YouTube) 科技媒体Mashable的测试人员在使用Apple Intelligence的写作工具后发现,她平时确实在有些消息中表达得并不符合语境,或者夹杂了情绪,写作工具帮她规避了这些问题,她发送了被写作工具修改的消息后,收到了更为积极的回应。 三、快速定位旧照片,还可查找图片中的文本 Apple Intelligence在相册中的集成是实实在在的“懒人福音”。有些用户并没有在拍照后整理相册的习惯,Apple Intelligence让这部分用户不必再在相册中无休止的滚动,只需输入“笔记本电脑”等关键词,就可以快速定位到包含相应元素的图片位置。 ▲相册搜索功能(图源:Mashable) 这种搜索功能还可以检测照片上的文本,不过这一基于自然语言的搜索功能尚不成熟。Mashable的测试人员发现,虽然她可以输入“笔记本电脑”和“食物”之类的文本,Apple Intelligence也能快速找到这些照片。但它还无法掌握更复杂的搜索,例如“穿着红色衬衫的女人”。 相册还能利用Apple Intelligence为用户生成回忆视频。下方图片中,相册在分析用户过去一段时间中的手机照片后,为这位用户的猫猫生成了一则短片,还在给短片取名时将“Perfect”写成了“Purr-fect”,玩起了谐音梗。 ▲相册生成的回忆视频(图源:Youtube) 不过,iOS 18的测试版还处于早期阶段,当iOS 18今年晚些时候正式发布时,照片搜索功能可能会得到进一步提升。 四、Siri更有用了,情境感知能力提升 虽然Siri全面引入Apple Intelligence的重大更新还要等上好几个月,但开发者测试版中的Siri在语言理解能力方面已经有所提升。根据科技媒体The Verge的体验报告,在用户和Siri说话时有犹豫或停顿时,Siri能更有耐心地等待,而不会打断用户。在用户提出后续问题时,Siri也能理解。 此外,Siri还引入了新的交互方式,用户只需双击屏幕下方就能给Siri“发消息”,以文本的形式和Siri互动。 Mashable的测试人员认为Siri最大的提升是情景感知能力。例如,在浏览网页时,用户只需对Siri说,“将这篇文章发送给Jason”,便能让Siri转发她正在阅读的文章。 结语:Apple Intelligence初显成效,但多项功能或推迟更新 从iOS 18.1开发者测试版中嵌入的多项Apple Intelligence功能来看,苹果确实在系统层面深度集成了AI技术,并给用户带来实实在在的便利。 不过,根据知名苹果爆料记者马克·古尔曼(Mark Gurman)的报道,普通用户用上Apple Intelligence的时间可能还要推迟,今年9月即将发布的iPhone 16系列等苹果设备可能不会搭载Apple Intelligence。用户可能需要在今年年底和明年年初的一系列更新后,才能在美版设备上使用到WWDC上演示的大部分Apple Intelligence功能,而目前国内用户何时能用上Apple Intelligence仍无确切消息。
大疆Neo 4K无人机曝光:仅重135克,拥有螺旋桨护罩
IT之家 8 月 1 日消息,大疆即将推出的一款全新无人机 Neo 遭到泄露,根据曝光的照片、包装盒、参数以及沃尔玛的定价信息,这款无人机有望成为大疆旗下最轻、最便宜的全功能无人机。 泄露的沃尔玛产品页面显示,大疆 Neo Fly More 组合套装的售价仅为 329 美元(IT之家备注:当前约 2385 元人民币)。考虑到该套装通常包含额外电池、充电器和肩包,单独无人机的起售价可能会更低。 爆料人 Jasper Ellens 在社交媒体上发布的零售包装照片以及 FCC 数据库的信息进一步揭示了该无人机的参数,其将支持 4K 视频拍摄。 这款无人机仅重 135 克,有望成为大疆迄今为止最轻的消费级无人机,比 249 克的大疆 Mini SE 还要轻。值得一提的是,Neo 配有螺旋桨护罩,提升了室内使用的安全性。此外,机身上还配备了一个一键切换飞行模式的按钮。 虽然“Fly More”套装中包含了一个遥控器,但包装盒上提到了多种控制方式,并表示无人机可以手持起飞和降落。结合机身上的模式切换按钮和“AI 主体追踪”功能,用户可能无需遥控器即可启动无人机并自拍。目前,关于电池续航和无线传输距离的信息尚未曝光。 与大疆 Mini 系列不同,Neo 似乎无法折叠成更小的尺寸,其形状更接近大疆 Avata FPV 无人机。这或许意味着 Neo 可以通过连接 Avata 兼容头显实现第一人称视角飞行。 至于发布日期,Ellens 猜测如果产品照片属实,大疆可能会在几周内发布 Neo 无人机。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。