EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
美媒点出苹果进军AI真实目的:不是为了用户
苹果WWDC即将开幕 凤凰网科技讯 北京时间6月10日,今夜凌晨1点,苹果公司将召开2024年度全球开发者大会(WWDC),预计人工智能(AI)将成为开幕主题演讲的重点。不过,美国《纽约时报》一针见血地指出,苹果此次进军AI市场的主要原因可不是为了普通用户。 知情人士称,近几个月,苹果企业发展副总裁阿德里安·佩里卡(Adrian Perica)协助领导了一项努力,那就是把生成式AI带给普通大众。佩里卡与其同事已经与谷歌、OpenAI等AI领导者进行了谈判,希望找到一个合作伙伴,帮助苹果在其业务中提供生成式AI。报道证实,苹果近期已经与OpenAI达成了一项协议,将后者的技术融入iPhone。截至上周,苹果仍在与谷歌进行谈判。 苹果在生成式AI上的努力,推动公司开发出了更强对话性和多功能版本的Siri,该版本将于周一发布。Siri将由苹果开发的生成式AI系统驱动,能够聊天,而不是一次只回答一个问题。一位熟悉苹果营销计划的人士表示,苹果将以苹果智能(Apple Intelligence)的名字来推广其新的AI功能。 取悦华尔街 不过,《纽约时报》同时表示,苹果投身AI市场的主要原因是取悦华尔街投资者,而不是为了普通消费者。这项技术提升了微软公司、英伟达公司的市值,前者是生成式AI领域的重要参与者,后者则是AI芯片巨头。今年1月,微软超越苹果成为全球市值最高的上市科技公司。 在市场重新洗牌的同时,苹果对AI保持沉默。苹果的政策一向是不透露未来的产品计划,但是随着公司在股市地位的下滑,苹果CEO蒂姆·库克(Tim Cook)打破惯例,在5月份的一次电话会议上告诉华尔街分析师,苹果将很快推出生成式AI产品。 自库克做出这一承诺以来,苹果股价已经反弹。截至上周五,苹果股价今年累计上涨了6%,但低于微软、英伟达的涨幅。微软股价今年已累计上涨14%,英伟达更是上涨了151%。 苹果进军生成式AI,将考验该公司能否再次进入一个新市场并重新定义它。虽然苹果并没有首先推出第一个数字音乐播放器、智能手机或智能手表,但它通过iPod、iPhone和Apple Watch改变了这些产品类别。如今,在目睹了微软、Meta、谷歌和三星将生成式AI融入各自产品两年后,苹果正从观察者变成潜在的挑战者。 对生成式AI这项技术来说,融入iPhone也是一个关键时刻。这种技术可以回答问题,生成图像和编写软件代码。苹果将把生成式AI的覆盖范围扩大到逾十亿用户,并确定它对于日常iPhone用户的实用性。 “我们仍在研究AI,因为它太复杂了,”科技研究公司Creative Strategies的总裁卡罗琳娜·米拉内西(Carolina Milanesi)表示,“苹果在所有事情上都相当保守,所以我不知道他们是否能够做到让人们拍案叫绝。但他们必须这样做,因为这将是我们与未来技术互动的方式。” 截至发稿,苹果、OpenAI以及谷歌都不予置评。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
一个尴尬的事实:先进芯片供应链,和中国大陆无关
目前最先进的手机芯片是苹果的3nm芯片,最牛的AI芯片是英伟达的B200,最先进的CPU是intel的Lunar Lake…… 但是,大家都要清楚,这些芯片就算能设计出来,但能不能被生产出来,还要看台积电的水准,能不能实现大家的设想,因为这些芯片都是台积电3nm工艺代工的。 而台积电能不能制造出来,背后还依赖于ASML,要看ASML能不能将最新的EUV光刻机造出来,如果没有EUV,台积电也没办法。 可以说,从ASML-->台积电,再从台积电-->苹果/英伟达/高通/intel等,构成了全球最先进的芯片供应链。 这条先进芯片供应链,是一环扣一环的,没有备胎,非常脆弱,任何一环出现问题,都会导致整个产业链崩掉。 比如如果ASML的EUV光刻机生产不出来,芯片工艺就暂停,台积电也没办法。如果台积电技术无法进步,那么苹果、高通、英伟达等设计出再牛的芯片,也无法制造…… 但是这条供应链,却举足轻重,因为这条供应链控制着超过6万亿美元市值的的财富,毕竟英伟达一家就高达3万亿美元了,还有台积电、ASML、高通、AMD、联发科、苹果的一部分等,全在这条供应链上。 而这条供应链更是影响着全球半导体市场,影响到至少超过20万亿美元的GDP产值,你说重要不重要? 但是,一个比较尴尬的事实上,中国大陆和这条供应链没有任何关系。能扯得上关系的,只是最终从高通、intel、英伟达等厂商那里,买到最终的先进芯片产品来使用,仅此而已。 ASML的EUV光刻机和我们没有关系,我们的供应链没有打入ASML的EUV光刻系统,ASML的EUV光刻机也不卖给我们。 台积电和我们其实也没关系,虽然都是中国企业,但台积电实际上听的是美国的话,美国要他不给谁代工,就不给谁代工。 苹果、高通、intel、英伟达都和中国大陆没有关系,他们的先进芯片卖给中国,也只是到中国来赚钱,最终产品销售,只是买卖关系。 说真的,如果我们一直被这条先进供应链排除在外,对于我们而言是非常不利的,自己制造不出先进芯片,只能被卡脖子,被别人割韭菜。 所以基于目前不乐观的外部形势,我们必须要想办法破局才行,而破局的关键是EUV光刻机,出手之人,是上海微电子。 而一旦上海微电子能够制造出EUV光刻机,那么接下来这条先进芯片供应链,就不再是全球唯一了,华为能够设计出最先进的芯片,不会输给苹果、高通、intel等,而中芯国际有望制造出最先进的芯片,不会输给台积电等。 那么上海微电子-->中芯国际,再从中芯国际-->华为/中兴等等中国芯片设计企业,先进芯片供应链,将出现彻底的洗牌。 不过这个时间肯定不会很短,也许3年,也许5年、8年、10年,但相信一定会有这么一天到来,在最核心的芯片工艺供应链舞台上,一定会有中国大陆的一席之地。
中国AI大战高考物理,第1题全对,第2题开始放飞
端午佳节,有的地方高考已经结束,有的考生还奋战在考场上。 先祝大家都心想事成,考出水平。 陆陆续续,文理综各个科目的考试题目开始在网上流出,那么语文数学之后,也是时候让大模型们继续来挑战一波了。 考题方面,先给大模型们来一份辽宁物理—— 多解释一嘴,新高考改革下大部分省份已经取消了文理分科,采用3+1+2或3+3的新模式,也就是物理化学生物现在是拆开考的。 那么闲话少叙,我们有请参赛AI助手—— 通义千问、文心一言、Kimi、智谱清言、豆包、海螺AI、腾讯元宝、讯飞星火、天工、百小应、万知、商量。 Round 1:单选题 这份物理卷共有10道选择题,其中1-7题为单选题,总计28分。 1、3两题不涉及图片解析,人类考官直接把题目扔给了大模型: 图片题给出的提示词统一为:查看图中题目,给出答案。 在看详细答案之前,心急的看官们可以先扫一眼“考试”结果(测试方法比较简单粗暴,不能完全反映各AI真实水平,仅图一乐): 文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,豆包、天工、智谱清言正确率为1/2。 接下来,就来看看大模型们的具体表现。 单选题中,准确率最高的是第一题,一道有关标量矢量的概念题,参赛大模型百分百通过。 到了第二题,大模型们就开始各有各的想法了。 题目是: 来看看成功得分的选手们的回答: 通义千问 文心一言 海螺AI 讯飞星火 4位选手中,文心一言和讯飞星火进行了逐个答案的分析,海螺AI则最言简意赅,只回答了答案没给过程。 另一道正确率比较高的题,是难度较大的第5题。 但答对这道题的选手名单有所不同,讯飞星火、海螺AI依然在列,另外两位换成了Kimi和腾讯元宝。 Kimi 腾讯元宝 和海螺AI一样,腾讯元宝也是惜字如金型(doge)。 另外一个有意思的现象是,有的大模型选手尽管答案不对,但还挺有考试技巧的。 比如ChatGLM,在面对双缝干涉实验中,“哪种说法可以使相邻两条亮纹中央间距变小”这个问题时,它一通分析觉得答案全错,但还是退而求其次挑了一个看上去相对正确的答案。 Round 2:多选题 再来看看多选题(18分)的情况。 p.s. 在多选题作答过程中,人类考官在提示词中提醒了选手们这是“多选题”。 根据多选题判卷规则,全部选对得满分,部分选对得一半分,有选错不得分,表现最佳的是海螺AI(2道题全对,1道题部分对),其次是通义千问、文心一言和万知(1道题全对,2道题部分对)。 和单选题的情况类似,大模型们正确率最高的第8题是一道概念题: X射线光电子能谱仪是利用X光照射材料表面激发出光电子,并对光电子进行分析的科研仪器,用某一频率的X光照射某金属表面,逸出了光电子,若增加此X光的强度,则( ) A. 该金属的逸出功增大 B. X光的光子能量不变 C. 逸出的光电子最大初动能增大 D. 单位时间逸出的光电子增多 第9题有两位选手选中了全部正确选项:海螺AI和万知。 来看看万知的具体回答: 今日份的测试,就先到这里,你觉得大模型们的表现如何?至少在这份物理卷子46分的选择题里,还是有不少选手能拿到及格分了。
谷歌CEO:并不是每次搜索都有AI答案
编译|吴莹 董思晨 来源|The Verge(YouTube) 头图来源|视觉中国 “我对AI搜索保持乐观,因为人类的好奇心是无限的,在搜索这方面,谷歌比其他任何公司都能更深刻地理解这一点。”谷歌CEO说道。 5月,谷歌I/O大会上,首席执行官桑达尔·皮查伊宣布向美国用户推出AI Overviews服务,这意味着人工智能进入搜索领域,人们将可通过提问、聊天的方式进行AI搜索,并获得AI生成的答案。这被认为是25年来搜索引擎最重大的更新之一。近日,谷歌CEO桑达尔·皮查伊(Sundar Pichai)与美国新闻网站The Verge主编尼莱·帕特尔(Nilay Patel)就AI搜索的一系列问题展开了对话。 桑达尔·皮查伊在对话中表达了对AI搜索未来发展的乐观态度,他认为AI搜索可以给人们提供更多背景信息,使用户更深层次地参与到问题的探讨中来,长期来看能够促进信息增长,带来更多流量。他反复强调,搜索的本质是提供优质内容,如果AI生成的答案无法给用户带来增量价值,那肯定不是用户想要的。他还指出,并不是每次搜索都会自动生成AI答案,他们非常尊重用户的意愿,只有用户想要AI答案时,才会在页面中显示出来。当被问到AI搜索时代是否会披露搜索结果排名的详细规则时,桑达尔·皮查伊坦言,会寻求一定的信息公开,但也同样担心人们对结果排名进行人为操作,会一直努力去寻求这种平衡。 最后,桑达尔·皮查伊谈到了对未来网络生态的展望,他认为人类对信息的消费方式不局限于现有的网络模式,现在人们可以通过网页、APP获取信息,未来他希望有更多内容更丰富、互动性更强的网络模式可选。 对话的精彩观点如下: 1.语言可以编码智能,这也可以解释为什么大型语言模型能获得成功。 2.我对AI搜索保持乐观,因为人类的好奇心是无限的,在搜索这方面,谷歌比其他任何公司都能更深刻地理解这一点。 3.随着人工智能时代的到来,谁在平台内容支持上做得更好,谁就会是赢家。 4.当你运行一个生态系统时,实质上是在平衡不同的需求,这是产品成功的本质。 5.人们对AI Overviews给出积极反馈的原因是我们提供的答案有明显的增值效果,帮助他们看到了可能没有想到的事情。 6.人类对信息的消费方式不局限于现有的网络模式,现在你可以通过网页、APP获取信息,但未来希望有更多网络模式可选,它的内容更丰富,互动性更强。 以下为对话全文(有删改): 语言可以编码智能 主持人:欢迎你来到这里,我有很多与人工智能相关的问题想和你讨论。我对互联网的未来特别期待,所以我们先从一个简单的问题开始:语言等同于智能吗? 桑达尔·皮查伊:我不是这方面的专家,但我认为语言可以编码智能,这也可以解释为什么大型语言模型能获得成功。我的直觉告诉我,语言之外还有更多值得我们探索的东西。 主持人:我看了谷歌I/O大会上发布的人工智能公告,了解了你们正在做的事情,也了解了你的竞争对手在人工智能方面的发展情况,大家都很重视语言,LLM(大型语言模型)真正引爆了大众对人工智能创新和投资的兴趣。我想知道人工智能的发展速度是否与语言能力的增长速度同频?我不明白的是,某些情况下,计算机在语言理解方面越来越强,但表现得却越来越笨,这是怎么回事? 桑达尔·皮查伊:这是一个好问题。我们推出的Gemini是多模态模型,训练时不局限文本,而是通过音频、视频、文本、图像和代码等多种方式进行训练,以便它能处理更复杂的问题。目前已初具雏形,但还未能完全将这些能力融入产品中。也许在下一个周期,当我们在输入端和输出端都使用多模态训练的方法,我相信大模型的能力会更强大,智能水平也会更高。 主持人:我问这个问题的原因是,我观察了大家对人工智能出错的反应,随着时间的推移,大家变得越来越温和。比如你在谷歌I/O大会上现场演示了人工智能多模态搜索解决问题的方法,当时那个问题是如何修理一台坏掉的胶片相机。人工智能给出的是错误答案,它说的是“只要打开胶片相机的后盖,然后晃动一下就可以了。”这很明显会毁掉相机里的东西。 桑达尔·皮查伊:讽刺的是,我当时和制作视频的团队讨论过,他们说生成的这个答案给专家看过,专家说没问题。我理解其中的细微差别,也同意你的观点,正常情况下人们不会把胶片拿到暗房外曝光。但我觉得人工智能这么做是有意义的。我希望搜索的作用是给用户提供更多的上下文信息,可以让人们更深入地探索,而答案不准确或者有错误,这些都是我们需要不断改进的地方。从你刚才的问题来看,人工智能的研究确实在向前发展,以前只有文本训练的大模型已经不能满足我们对人工智能的需求,而多模态大模型让我们看到了更多机会。 让人喜忧参半的AI搜索 主持人:近日,你们宣布人工智能将进入搜索领域,将向美国用户推出AI Overviews服务。此消息一出,网站制作者们都炸锅了,这对他们来说不亚于“世界末日”到了。比如新闻媒体联盟(News Media Alliance)的首席执行官对CNN(美国有线电视新闻网)说:“这将对我们网站制作者的流量造成毁灭性打击。”另一位媒体CEO给我转发了一则时事通讯,标题是“这对出版商是致命打击”。你是否预料到推出AI搜索功能时大家的这种反应? 桑达尔·皮查伊:我记得2010年时就有新闻说网络已经消亡,我长期从事互联网工作,所以我很关注这个。当人们处于台式电脑向移动设备过渡的阶段时,也曾有过很多担忧,比如觉得屏幕太小,人们该如何阅读内容,或者人们为什么要在移动设备上阅读内容等。我对AI搜索保持乐观,因为人类的好奇心是无限的,在搜索这方面,谷歌比其他任何公司都能更深刻地理解这一点。作为一家公司,我们意识到了生态系统的价值,它是共生的,如果没有一个丰富的生态系统来输出独特而富有价值的内容,又怎么能吸引并留住用户呢?尽管工具不断发展变化,但用户始终都在寻找高质量的内容,就人工智能搜索而言,这不是一场“零和博弈”(在严格竞争下,一方的收益必然意味着另一方的损失。),根据我们在搜索中看到的变化,人们对AI的反应非常积极,对它跃跃欲试。当你提供问题相关的背景信息时,不仅有助于用户理解,也有助于他们参与到下一步内容生成中。事实上,如果你将内容和链接放在AI Overviews中,它们的点击率会比放在AI Overviews之外时更高。 但我理解这些担忧的情绪,这些变化都属于破坏性时刻。人工智能是一个巨大的平台转变,对那些已经投入大量精力在传统平台输出内容的创作者而言,跟不上转型的确是危险的,我理解这些创作者的情绪,但我自己对AI Overviews是保持乐观态度的。 主持人:谷歌一直有一个“Google Zero”的争论。谷歌几乎是所有网站最后的一个大规模推荐流量来源。对很多网站来说,Google Zero正在发挥作用,他们的谷歌流量已经接近0了,尤其是那些不属于某个大型出版集团的独立网站。我们报道过一个名为HouseFresh的空气净化器博客,还有一个名为Retro Dodo的游戏网站,这两个网站表示他们能获得的谷歌流量几乎为零,他们觉得自己的生意要完蛋了。你怎么看这个情况? 桑达尔·皮查伊:谈论个案总是很困难,我们在努力满足用户的需求,人们在努力找出对他们有价值的东西,我们在统筹一切做这件事情,所以无法回答具体个案的问题。 主持人:但事实是一群小玩家遭受了巨大的伤害,他们的业务正在消失。 桑达尔·皮查伊:但我并不能由此判断这是一个趋势,必须看到数据或者其他证明。单纯某个网站做不下去了没办法推断出是一种趋势,就像某一家餐馆说“今年我的顾客减少了”,这无法推断出顾客的总量少了,人们都不吃饭了的结论,有可能是被其他餐馆抢走了顾客,对吧?从我们的角度来看,过去十年里,为生态系统提供了更多的流量,推动了网站数量的增长。事实上,近十年我们反而为小型网站输送了更多流量,所以流量为什么没有流向那些网站,这是个很深奥的问题,我暂时无法给出正确答案。 主持人:但你即将做出改变是吗?你希望最关心这些信息的人可以直接发布信息,直接生成信息。那也就意味着在网络上,创作内容的激励似乎越来越低了。 桑达尔·皮查伊:我觉得恰恰相反。有些时候,人们进行搜索只是快速想得到一个答案,但还有一部分用户他们一开始并不知道自己需要什么,而通过AI Overviews,可以给人们提供更多背景信息,他们会更深层次地参与到问题的探讨中来,长期来看这无疑能够促进信息增长,带来更多内容和流量。 从桌面到移动,再到现在的人工智能,大家都有探讨过“网络已死”这个话题,十年前大家就争论过“Google Zero”。我们仍然是最大的推荐者之一,所以长期以来一直非常关注这些话题。过去一年,我们还在探索满足用户期望,获得更多流量的方法。经过深入思考,我们实际上已经改变了操作方法,对于我们还没有完全了解的领域,会谨慎推荐流量,不过,我们发现还是只有高质量的内容才能吸引用户,带来更多增长。关于什么是高质量内容还存在很多争论,但根据我自己的经验,我更重视那些有独立来源、规模更小的发声者,我想要更多真实的声音。 主持人:近日我阅读了一些SEO(搜索引擎优化,利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名。)出版物,它们对AI Overviews带来的变化做出了一些回应,其中指出的一点是,在搜索结果中,它不会显示是来自精选片段还是AI生成,或者只是普通的网站链接。你们今后会将这些显示出来吗,以便人们可以审核、验证和测量AI Overviews带来的流量是否如同你说的那般多? 桑达尔·皮查伊:这对搜索团队来说是一个好问题。我们一直在努力提供更多的可见性,也希望人们能创作出更多好内容,需要做好这两者之间的平衡。因为要是我们对答案词条在搜索页面的排名规则进行详细规范和设计,就会有更多人对此进行研究,并针对其进行操作。我不太清楚正确的答案是什么,但可以肯定的是要做好这里面的平衡问题。产品成功的本质 主持人:最近有新闻报道称OpenAI在YouTube上训练了其文生视频大模型Sora。你听到这个消息时有什么感受? 桑达尔·皮查伊:我们不知道细节,是YouTube团队正在跟进这件事。我们有条款和条件,并希望人们遵守这些条款和条件,所以我认为当你开发一款新产品时,应该注意这些问题。 主持人:这是一个更情绪化的问题,OpenAI的说法是“我们利用公开信息训练大模型”,所以大多数人其实是拿不到他们的收益的。他们没有一个像YouTube这样的专业团队,也没有清晰的条款,只是把自己的作品上传到网络上。你是否理解创意社区对AI利用他们的素材进行训练的这种情感反应? 桑达尔·皮查伊:无论是网站所有者、内容创作者还是艺术家,我能理解这种情感反应。就像音乐生成,我们采取的方法是首先为艺术家制作工具,我们还没有推出通用工具供任何人创作歌曲。因此,在许多情况下,我们是尽可能将创作者置于中心位置。YouTube一直在尝试找出解决这个问题的正确方法,但这也是一个变革的时刻,要知道,我们不是这个生态系统中唯一的参与者。但对于你刚才的问题,我非常理解人们对这一变革时刻的情绪。 主持人:因为他们觉得这是一种索取,他们把作品放到网上,大公司免费拿走训练模型,然后推出每月收费20美元的产品。让人感觉像是被夺走了什么但几乎没有给他们带来任何价值。我真正想问的是如何去激励这些小创作者,给他们带来价值? 桑达尔·皮查伊:YouTube之所以能取得今天的成功,就是因为它在创作者激励这块做的还不错,一直在努力解决这个问题。我相信最终在这里做得很好的玩家将拥有更多制胜策略。我们必须理清这一点,这是建立一个长期可持续发展平台的基础。随着人工智能时代的到来,谁在平台内容支持上做得更好,谁就会是赢家。 主持人:有人认为YouTube主要做的是授权业务,从创作者那里获得内容授权,然后通过广告收益回报他们。环球音乐对YouTube上的人工智能很介意,他们制定了很多规则,规定人工智能不能做什么,谷歌的反应却不尽相同,我想知道你是否可以解决这个问题。 桑达尔·皮查伊:我们在测试、迭代、确定优先级上花费了大量时间,我们非常关注用户的反馈,但并非我们所做的一切都会得到人们的同意。当你运行一个生态系统时,实质上是在平衡不同的需求,这是产品成功的本质。 主持人:我看到正在发生的另一件事是网络上充斥着人工智能内容。比如几个月前,一些不怀好意的SEO人员说“我复制了竞争对手的站点地图,将其输入人工智能,让它为我生成一个与他们的站点地图相匹配的网站副本,用这个副本从竞争对手的网站上窃取了大量流量”,我认为这是一个很糟糕的情况。我们不应该以任何方式或形式来鼓励这种行为。一方面,你该如何构建为人们创建合成内容的系统;另一方面,你又该如何对这些生成内容进行排名,以便用户获得最好的内容。 桑达尔·皮查伊:你这个问题有多个部分,第一,我们如何筛选出高质量内容。这是我们的使命,多年来这一直定义着搜索。我们整个搜索团队去年投入了大量资金,一直在完善我们的排名系统,以便更好地获取高质量内容。相信下一个十年,只有在内容筛选上做得更好,真正能筛选出高质量内容的平台和公司,才能获得胜利。 第二,人们很重视内容创作的体验。每当新技术出现时,大家都很小心谨慎。如果你和一些老电影人去讨论CGI(电脑三维动画技术),他们会有非常情绪化的反应,直到现在仍然有一些受人尊敬的电影制作人从不在电影中使用CGI,但也有人使用CGI制作出优秀的电影。所以我认为不能简单评价人工智能,人们可能正在使用人工智能来增强视频效果,也有人还没接受人工智能。但我同意你的观点,使用人工智能来生产大量内容但不增加任何价值,这不是用户想要的。随着时间的推移,用户也在不断适应AI内容,我们需要确保以负责任的方式做这件事,用心倾听用户对高质量内容的评判,并努力保持平衡。也许几年后搜索的形式发生了翻天覆地的变化,但搜索的本质仍然不会变。 一起探索AI Overviews 主持人:我们来实践一下AI Overviews,我们先在搜索框里输入最好的Chromebook(谷歌推出的笔记本电脑)。然后我把手机交给谷歌CEO,你可以看到,我问它最好的Chromebook,它们会说“这里有一些你可能会想到的东西”,然后你就会看到一些Chromebook的图片展示,还有一些是带有“最好Chromebook”标题的新闻。可以看到并没有“最好的Chromebook”这个问题的直接答案。按理说使用人工智能辅助搜索是为了更好地获得答案,但就现在这个体验而言,似乎与普通搜索没有差别。你这么看? 桑达尔·皮查伊:你向我们展示了一次搜索过程,但我们并没有自动生成AI Overviews,这是因为我们尊重用户的意愿。当我滚动搜索界面时,我看到了Chromebook,还看到了一整套可以访问的链接,它们告诉了我目前对Chromebook的所有看法,因此本例中没有展示AI Overviews,作为用户,你正在生成后续问题。 主持人:我的意思是这上面没有写什么是最好的Chromebook?答案并不在这一页面上,或许还需要谷歌为我按下一个按钮才能获得,那么就今天的搜索体验而言,这是你们的目标吗,还是只是一个起点,未来还有更好的搜索体验版本。 桑达尔·皮查伊:未来如何发展还无法预测,用户是在不断变化的,这是一个比以往任何时候都更加充满活力的时刻,我们正在测试各种情况,这次的搜索没有触发AI Overviews是因为我们认为AI Overviews不是我们想要为该查询提供的第一个体验,这些是我们在内容质量上做出的权衡。但如果用户要求的是生成摘要并提供链接,那我们会照做。我觉得这是一个合理的方向,用户需要什么就提供什么,而不是每一条都提供AI Overviews。 主持人:我再给你看一个彭博社戴夫·李(Dave Lee)所做的搜索,他只是搜索了“JetBlue Mint Lounge SFO”,然后他得到了一个AI生成的答案,然后往右滑可以看到这个答案的出处,但我们拿到的是AI重写过的,你能理解我的意思吗,就是现在我们得到的AI答案只是原有信息的重写,并不是新生成的,它是原来网站上已存在的信息。 桑达尔·皮查伊:我们要处理数十亿次查询,根据我的观察,人们对AI Overviews给出积极反馈的原因是我们提供的答案有明显的增值效果,帮助他们看到了可能没有想到的事情。这就是我们推出AI Overviews想要达到的效果。数据显示,过去25年,我们如果没有做让用户认为有价值的事情,他们会立刻通知我们,我们一次又一次见证了这个事情,人们很重视使用搜索的体验。 AI搜索的竞争与未来 主持人:前几天我看到了GPT-4O(Omni)的演示。它看起来很像你在I/O大会上的演示,即一种多模态搜索的理念。你感受到竞争带来的压力了吗? 桑达尔·皮查伊:这与当初的Siri和ALexa没有什么不同,我们都在科技领域工作,这在我看来是一种无限的创新。几年前我们所有人都在打造语音助手时,你可能会问相同的问题。现在有了一项新技术,而且它正在迅速发展,这对技术来说是“美好的一周”,周一和周二都有很多创新,并且我认为这种创新热情还会持续一段时间。我喜欢底层技术快速发展的阶段,这样可以从根本上改善用户的使用体验,我们并不希望进入一个相对静止的发展阶段,因为这个阶段无法获得快速增长。很多人对强大的智能助手都抱有期望,但如果因为底层技术的限制而无法实现这一目标,这是我们不愿意看到的。我们拥有能够更好地服务于此的底层技术,可以让Google Assistant变得更好,这无疑令我感到兴奋。 主持人:大概五年后,人工智能搜索这项技术就会成熟,届时你认为最好的网络状态是什么样的? 桑达尔·皮查伊:我希望未来的网络形态更加丰富。人类对信息的消费方式不局限于现有的网络模式,现在你可以通过网页、APP获取信息,但未来我希望有更多网络模式可选,它的内容更丰富,互动性更强。不得不承认,人们可能会利用人工智能生成大量垃圾邮件,但这可能是因为每次有新的技术浪潮出现时,人们不知道该如何使用它,就像移动设备出现时,每个人都只是把网页做成移动版本,后来人们才发展出真正的原生移动应用程序。因此,人们使用人工智能实际解决新事物,新用例的方式尚未出现,当这种情况出现时,我们的网络也会变得更加丰富。不同的人有不同的需求,或许普通只会比较浅地使用人工智能,但总会有企业家找到它的正确用法,并进行推广,这样一来,就会有伟大的创新出现。 主持人:是的,谷歌通过搜索、Chrome浏览器等为网络开发提供了很多激励措施,那么在未来人工智能发展阶段,你们要如何确保这些激励措施与目标保持一致,能指向正确的方向? 桑达尔·皮查伊:在制定激励措施前,我们需要先思考一个复杂的问题,那就是如何奖励那些具有原创性、独特性和创造力的内容。而对于创作者,我们希望无论他们做到什么规模,都可以在我们创建的内容生态系统中获得蓬勃发展的机会。这是我的想法,也是我们搜索团队的想法,是我们制定激励政策的重要原则。
深度学习之父Hinton万字访谈录:中美AI竞赛没有退路可言
文 | 王启隆 近日,27 岁天才创始人 Joel Hellermark 分享了自己和“AI 教父” Geoffery Hinton 的最新采访。Hinton 在对话中回忆自己的人工智能生涯,谈论神经网络、Scaling Law、多模态学习、模拟计算和人工智能伦理安全等多个话题,并聊了聊他的得意门生 Ilya Sutskever(前段时间离职的 OpenAI 首席科学家)。 Geoffery Hinton 受访者非常“重量级”,但采访者其实也不容小觑。Joel Hellermark 自幼在东京长大,13 岁开始编码,14 岁创立了一家视频推荐公司。在一家数字广告公司工作后,他于 19 岁创办了人工智能研究实验室 Sana(当时还不叫 Sana AI,而是叫 Sana Labs),并在 2023 年的时候筹齐 8000 万美元融资。 Joel Hellermark Hellermark 坚信学习的力量,所以他没有选择上大学,而是通过斯坦福公开的课程学习如何编码。他创办 Sana 公司的目标就是四个字:“改变教育”。Hellermark 希望通过培养员工学习和访问信息的能力,来提高员工的工作效率。 话不多说,以下是采访全文: 人工智能生涯:从研究大脑开始 Hellermark:你是什么时候开始编程的? Hinton:我从英国刚到卡内基梅隆大学的时候。 1982 年Hinton 前往卡内基梅隆大学他在那担任计算机科学系教授直至 1987 年 我在英国的研究单位时,每晚六点钟大家都会去酒吧喝一杯。 但到了卡内基梅隆几周后,我还没交到多少朋友。所以在某个周六晚上,我发现自己不知道该做什么,于是决定去实验室编写一些程序:因为实验室里有一台 Lisp 机器,家里没有。 Lisp 机器 所以,我在那个周六晚上的九点左右前往卡内基梅隆的实验室,里面人声鼎沸,所有学生都在那里研究未来,他们相信自己接下来要做的事情将会改变计算机科学的进程。这与我在英国看到的情况截然不同,令我耳目一新。 Hellermark:能不能把我们带回一切的起点 —— 剑桥时期的 Geoffrey( ~ 1970 年),试图理解人脑。脑研究是什么样的体验? Hinton:非常令人失望。我为了研究大脑,先是去学习生理学。在夏季学期,(剑桥的)老师打算教我们大脑是如何工作的,但实际上他们只教了我们神经元如何传导动作电位……这非常有趣,但不是大脑工作的原理。所以,那堂课真是令人极度失望。 于是我又转向了哲学,因为我以为他们会告诉我心灵是如何运作的。结果也是非常令人失望。最终,我选择到爱丁堡学习人工智能。人工智能倒是更有趣一些,至少我可以模拟事物,从而测试理论。 1978 年在爱丁堡大学Hinton 获得了人工智能博士学位 Hellermark:你还记得是什么激起了你对人工智能的兴趣吗?是一篇论文吗?还是某位特定的人向你介绍了这些想法? Hinton:我想是因为唐纳德·赫布(Donald Hebb)的一本书,它对我影响很大。里面介绍了如何学习神经网络中的连接强度。 Donald Hebb 曾在《行为的组织》一书中提出了著名的“突触学习学说” 早期我还读过约翰·冯·诺伊曼(John von Neumann)的一本书(《计算机与人脑》),书里介绍了大脑的计算方式以及大脑计算与普通计算机的区别。 Hellermark:当时你是否确信书里的这些学说?你的直觉是什么? Hinton:我当时的想法是,大脑学习肯定有其独特的方式。显然,大脑不是通过预设各种程序,再运用逻辑推理规则 —— 从一开始我就觉得这种方法很荒谬。所以我们必须弄清楚大脑是如何在神经网络中调整连接以完成复杂任务的。冯·诺依曼和图灵(Alan Turing)都相信这一点,他们二人在逻辑方面都很出色,且他们并不认同这种逻辑方法。 Hellermark:你是如何平衡「研究神经科学」和「开发 AI 算法」的?你早期从神经科学研究中获得了多少灵感? Hinton:其实我并没有深入研究过神经科学,我只是常被大脑工作原理的相关知识所启发。大脑中有大量的神经元,它们执行“相对简单”的操作 —— 通过神经元接收输入、进行加权处理并产生输出,以及通过调整权重来优化整体功能 —— 在概念上,这些操作听起来很简单,但实际上并非如此,问题在于如何调整这些权重以使整个系统实现有益的功能。 Ilya:凭直觉思考的天才 Hellermark:你还记得以前经历过的合作吗? Hinton:我在卡内基梅隆大学时曾与泰伦斯·塞诺夫斯基(Terry Sinofsky)有过许多交流,他当时在巴尔的摩(Baltimore)的约翰霍普金斯大学(Johns Hopkins)。 Terrence Sinofsky 我们每个月定期联络,要么他开车来匹兹堡,要么我开车去巴尔的摩。两地相距 250 英里(相当于从北京到石家庄的距离)。我们会一起度过一个周末,共同研究玻尔兹曼机(Boltzmann Machines,由玻尔兹曼分布得名)。那是我做过的最令人兴奋的研究,并且产生了很多非常有趣的技术成果,我们曾一度以为那就是大脑的工作方式。 1985 年Hinton 和 Sinofsky 发明了玻尔兹曼机这是随机神经网络和循环神经网络的一种 我还与彼得·布朗(Peter Brown)有过一次非常好的交流,他是一位非常优秀的统计学家,在 IBM 从事语音识别工作。后来他作为一个更成熟的学生来到卡内基梅隆大学攻读博士学位(编者注:实际上,Hinton 是 Brown 的博导)。 Brown 教会我许多关于语音的知识,甚至还帮助我弄懂了隐马尔可夫模型(Hidden Markov Model, HMMs)。我认为我从他那里学到的比他学到的多,而这就是我想要的那种学生。 当时我正在着手于带有类似结构的网络进行反向传播(backpropagation)研究,但尚未采用“隐藏层”这一明确命名。Brown 让我受到了隐马尔可夫模型中“隐藏”状态概念的启发,使得我们后来共同决定采用“隐藏层”(hidden layers)一词来描述神经网络中那些无法直接观测、却对模型学习和预测起到关键作用的中间层。 Hellermark:请带我们回忆你的另一位学生 —— Ilya Sutskever。 Hinton:我当时在我的办公室里编程,时间可能是某一个周日。突然有人敲门 —— 不是普通的敲门声,而是有点...几乎是急促的敲门声。于是我走过去开门,门口站着一位年轻的学生。他告诉我,比起暑期炸薯条的工作,他更渴望能在我的实验室工作。所以我告诉他,“那你为什么不预约一下,我们谈谈呢?” Ilya 说:“那就现在谈谈吧!” 这正是他的性格。 所以我们聊了一会儿,我给了他一篇论文阅读,那是关于反向传播的《自然》(Nature)论文。我们约定一周后再见面,他回来后说:“我没看懂。” 我感到非常失望。我想:“他看起来挺聪明的,但这只是链式法则而已。理解起来并不难。” 他却说:“哦,不,不,那个我懂。我只是不明白 —— 为什么不直接将梯度(即损失函数相对于模型参数的导数)应用于一个更合理的函数优化器呢?” 后来,这个问题成为了我们多年研究探讨的重点。Ilya 就是这样,他对事物的直觉总是非常敏锐。 左一为 Ilya,右一为 Hinton中间则是 Alex Krizhevsky三人合作设计了 AlexNet在 ImageNet 比赛取得了冠军 Hellermark:你认为是什么让 Ilya 有着这样的直觉? Hinton:我不知道。我觉得他总是独立思考。他从小就对人工智能感兴趣,且他显然数学很好,所以...很难确切知道原因。 Hellermark:你们俩是如何交流的?你们各自扮演着什么样的角色? Hinton:非常有趣。 我记得有一次我们试图用数据制作复杂的地图,其中用到了混合模型,目标是利用相同的相似性集合生成两张地图。在一张地图上,「bank(银行)」可能靠近「greed(贪婪)」,而在另一张地图上,「bank(银行)」则可能靠近「river(河流)」。 由于在一张地图上,「bank」不能同时靠近「greed」和「river」这两个相距甚远的词语。因此,我们需要创建地图的混合体。这项工作在 MATLAB 编程环境中进行,需要大量重构代码以实现正确的矩阵乘法操作。 在这个过程中,Ilya 对反复修改代码感到厌烦。有一天他告诉我,“我要为 MATLAB 编写一个接口,这样我就可以用另一种语言编程,从而直接将其转换成 MATLAB 代码。” 我告诉他:“不行,Ilya,这会花掉你一个月的时间。我们得继续推进这个项目。别被那个分心了。” Ilya 却说:“没关系,我今天早上已经搞定了。” Hellermark:哈哈,真是令人难以置信。在这些年里,最大的转变不仅仅是算法,还有规模(scale)。你是如何看待这些年来的数据规模增长? Hinton:Ilya 很早就有了“增加规模会有更好效果”的直觉。他一直主张“只要模型做得更大,效果就会更好”,而我起初认为这只是逃避复杂问题的一种方式,告诉他“除了扩大规模,还需要有新的创意和想法”。 事实证明,Ilya 的观点基本上是对的,虽然新想法如 Transformer 架构确实带来了很大帮助,但真正推动进步的是数据规模的扩大和计算能力的提升。在早期,我们未曾预料到计算机的速度会提高上亿倍 —— 我们原本预计最多只能提升百倍。因此,我们当时一直尝试通过巧妙的创新想法来解决问题,而实际上,如果当时就有如今这么大规模的数据和计算能力,许多问题可能早已迎刃而解。 大约在 2011 年,我和 Ilya 以及另一位研究生詹姆斯·马丁(James Martens)合作了一篇论文,利用维基百科(Wikipedia)作为数据源,尝试预测下一个 HTML 字符,结果出奇地好。我们一直对模型的表现感到惊讶:虽然我们不敢确定模型是否真的理解了内容,但从表现上看仿佛它确实理解了一样,令人难以置信。 James Martens在数届机器学习国际会议(ICML)上他们师徒三人多次合作发表论文。后来,Martens 加入了 Google Deepmind Hellermark:你在选拔人才的时候主要依靠直觉还是反复的揣度?当 Ilya 出现在你面前时,你的第一印象是“这是个聪明人,我想和他合作。” ——还是对此有更多思考? Hinton:有时候就是说不上来为什么。和 Ilya 交谈不久后,他给我的感觉是“非常聪明”。然后再和他多聊一会儿,我就发现他显然不仅非常聪明,而且直觉很好,数学也很强。所以选择他根本不需要犹豫。 还有一位同样杰出的人才,那是在某次 NIPS 会议上,我们贴了一张海报,这时有人走过来开始询问关于海报的问题。他提出的每一个问题都深入洞察了我们工作的不足之处。五分钟后,我就向他提供了博士后职位。那个人就是 David Mackay,我很遗憾他去世了(Mackay 在 2016 年因胃癌逝世)。 David Mackay 优秀的学生类型多样,有的人可能在技术创新上不那么突出,但在技术实现上极为出色;另一些人可能技术实力一般,但极其富有创造力。理想情况下,最好的人才是二者的结合体,但现实中并不总是能找到这样的人。在实验室环境下,我认为需要集合多种类型的学生,这样才能促进团队的多样性和创新能力。但我仍然相信直觉,有些人的直觉就是天生敏锐的。 Hellermark:所以为什么有些人的直觉更好?我们能培养这种直觉吗? Hinton:拥有更好直觉的人通常不会接受无用的信息。盲目相信所听到的一切,会导致形成模糊且不具备辨别力的思维框架,这是无益的。相反,那些拥有清晰思维框架的人,会在接收新信息时尝试将其与自己的认知框架相匹配,如果新信息不符合框架,则会选择拒绝。 我认为,拥有一个坚定的世界观并据此筛选信息,是培养良好直觉的关键路径。如果你的直觉已经被验证是良好的,就应该相信它们。而对于直觉不佳的人来说,无论采取何种策略,效果可能都差不多,因此他们也可以选择相信自己的直觉。 Scaling Law:GPT-4 的创造力甚至会超过人类 Hellermark:可以为我们科普一下这些模型是如何训练来预测下一个单词(predict the next word)的吗?为什么说这是一种错误的思维方式? Hinton:我其实并不认为这是错误的思考方式。实际上,我制作了第一个使用嵌入和反向传播的神经网络语言模型。数据非常简单,只运用了三元组。它将每个符号转换为嵌入,然后让这些嵌入相互作用以预测下一个符号的嵌入,并从那里预测下一个符号。然后通过整个过程的反向传播来学习这些三元组,我的研究相当于展示了它的泛化能力。 大约 10 年后,约书亚·本吉奥(Yoshua Bengio,和 Hinton 齐名的 “人工智能三教父”)使用了一个非常类似的网络,并展示了它在真实文本上的效果。 Yoshua Bengio在麦吉尔大学读研究生时,Bengio 读到了 Hinton 的论文,从此他坚定地走在神经网络的道路上度过了“AI 冬天”最寒冷的时期,他和 Hinton、LeCun 共同获得了 2018 年图灵奖 然后再过了 10 年,语言学家们开始相信嵌入的概念,所以这是一个缓慢的过程。我认为预测下一个词不仅仅是基于统计的简单预测,比如传统自动补全那样基于词频的匹配。在现代语言模型中,为了准确预测下一个词,模型必须理解上下文,这涉及到对问题或对话内容的理解。因此,预测下一个词的行为实际上迫使模型去理解语境,这种理解方式与人类的思维方式有相似之处。 尽管外界有人质疑这些模型缺乏像人类一样的推理能力,但随着模型规模的扩大,即使没有特别设计用于推理的组件,它们也展现出了推理的能力,并且随着规模继续增长,它们的推理能力也将随之增强。 Hellermark:是什么让 AI 模型能够学习如此广泛的领域? Hinton:这些大语言模型所做的,是寻找共同的结构。通过发现共同结构,它们可以使用这种共同结构来编码事物,因为这样更高效。 让我给你举个例子。如果你问 GPT-4,“为什么堆肥堆像原子弹?” 大多数人无法回答这个问题,他们从未考虑过这一点,而是会认为原子弹和堆肥堆是非常不同的东西。但 GPT-4 会告诉你:“嗯,它们的能量规模非常不同,时间规模也非常不同。但相同的是,当堆肥堆变热时,它产生的热量更快。而当原子弹产生更多中子时,它产生的中子更快。” 显然,GPT-4 能从这个问题理解并联想到链式反应的概念。正是利用这种理解,将所有信息压缩到其权重中。如果它正在这样做,那么它也将对数百种我们尚未看出类比的事物进行同样的处理,而这正是创造力产生的地方,源自于在表面上截然不同的事物之间看到这些类比。 因此,我认为 GPT-4 在规模扩大后,将会变得非常有创造力。我认为那种认为“它只是在重复所学知识的观点,只是在拼凑已经学过的文本”的观点是完全错误的。它的创造力甚至会超过人类。 Hellermark:“人工智能不会仅仅重复我们迄今为止发展的人类知识,而且有可能实现超越”……我认为这是我们尚未完全见识到的,我们基本上仍处于当前科学水平。你认为什么将使人工智能超越人类? Hinton:我们在更有限的情境中已经见过这种情况。 以 AlphaGo 为例,在与李世石的那场著名比赛中,第 37 手,AlphaGo 下了一步所有专家都认为必定是失误的棋,但实际上后来他们意识到这是一步妙手。所以那是在围棋这种有限领域内的创造性。我认为随着这些系统变得更大,我们会看到更多这样的情况。 “传奇落子” 第 37 手(Move 37) Hellermark:AlphaGo 的不同之处还在于它使用了强化学习,这使它能够超越当前的状态。它最初是从模仿学习开始的,观察人类如何玩游戏,然后通过自我对弈,发展得远超于此。你认为这是否是当前机器学习缺失的要素? Hinton:我认为这很可能是一个缺失的要素,没错。 AlphaGo 和 AlphaZero 的自我对弈是其能够做出这些创造性走法的重要原因。但我不认为这是完全必要的。很久以前我做过一个小实验,就是训练一个神经网络来识别手写数字,即 MNIST 的案例。 我故意在手写数字识别任务的训练集中加入了 50% 的错误标签,并保持这种状态。因此它不能通过简单地看到相同的例子,有时是正确答案,有时是错误答案,来平均消除错误。而即便如此,神经网络通过反向传播训练后,依然能够将错误率降低到 5% 或更低。这意味着网络有能力从错误中学习,区分哪些数据标记可能是错误的,并且从中提取出正确的模式。 这就是聪明的学生有时候能比他们的导师更聪明的原因。当导师告诉学生所有的信息时,有一半会被聪明的学生认为是“废话”,左耳朵进右耳朵出;还有另一半知识被学生们吸取,最终导致学生变得比导师更聪明。 所以实际上这些大型神经网络的表现可以远超其训练数据,而大多数人没有意识到这一点。 MNIST 数据集 Hellermark:那么,你期望如何在人工智能模型中加入推理能力呢?是通过一种思维链的方式让模型自我反馈其推理过程,还是说模型不断增长就能自然提升推理能力? Hinton:我的直觉是,随着人工智能模型,尤其是大语言模型的规模扩大,它们在推理能力上将自然地得到提升。 我想将这一过程与人类的认知过程相比较。人类通过直觉进行初步判断,并利用推理来修正和完善这些直觉。同样,AlphaGo 和 AlphaZero 这类系统通过结合直观的评估函数与深入的蒙特卡洛树搜索(Monte Carlo rollout)来优化决策,这种机制允许模型不仅仅模仿人类已有的知识和行为,还能在某种程度上创新。这正是 AlphaGo 能够做出第 37 步那种创造性走法的原因。它拥有更多的训练数据,可以使用推理来检查下一步正确的走法应该是什么。 人脑解密:符号与向量的共生 Hellermark:你对多模态有什么看法?多模态是如何影响人工智能模型理解和生成类比的能力的?—— 我的意思是,当模型不仅仅处理语言,还能处理图像、视频和声音等多媒体信息时,这将如何改变模型的本质和能力? Hinton:多模态输入会让模型有显著的改进,尤其是在理解空间关系和物体方面。例如,一个能够“看”并“操作”物体的多模态系统相比仅依赖语言的系统,能更深刻地理解物体。虽然语言可以传达大量信息,但多模态学习因为结合了多种感官输入,提供了更加丰富的上下文,使得学习过程更为直接和高效。 而且,利用多模态数据(如预测 YouTube 视频的下一帧)可以让模型获得更多的训练数据,同时减少对语言的依赖。因此,我认为这些多模态模型显然将会占据主导地位。通过这种方式,你可以获取更多数据。它们需要的语言更少。这里其实有一个哲学观点,即你可以仅通过语言学习到一个非常好的模型,但从多模态系统中学习要容易得多。 Hellermark:你认为这将如何影响模型的推理能力? Hinton:我认为它将大大提高模型对空间等事物的推理能力。比如推理当你拿起物体时会发生什么。如果一个机器人真的尝试拿起物体,它就能获得各种有助于训练的数据。 Hellermark:你认为人类大脑是为了适应语言而进化的吗?还是说,语言为了适应人类大脑而发展的? Hinton:这是一个非常好的问题。我认为 - 两者都发生了。我曾认为我们可以在不依赖语言的情况下进行大量认知活动。现在我的看法有所改变。让我给你介绍三种不同的语言观及其与认知的关系。 首先是传统的符号观,即认知是基于明确、抽象的逻辑符号及符号操作,暗示语言与逻辑思维紧密相连,几乎构成认知的核心机制。这一观点倾向于认为人类大脑和语言是协同进化的,各自适应对方的存在与发展。所以,这是一种极端的观点 与之相反的极端观点是,你的大脑内部全都是向量。这种观点认为,符号进入大脑会转换成大型向量,所有内部处理都是通过大型向量完成的。然后,如果你想生成输出,就再次生成符号。大约在 2014 年,机器翻译领域有一个阶段,人们使用循环神经网络,单词不断输入时会有一个隐藏状态,并且在这个隐藏状态中不断积累信息。所以当他们到达句尾时,他们会得到一个大的隐藏向量,这个向量捕捉了该句子的意义,然后可以用来在另一种语言中生成句子。这被称为思想向量,是对语言的第二种看法。 但还有一种第三种观点,即我现在所相信的,那就是语言和思维过程中确实涉及符号,但这些符号通过多层次的嵌入表示(embedding representation)被丰富化了。但是,这些嵌入仍然与符号相关联,意味着每个符号都有一个大的向量,这些向量相互作用,以产生下一个词的符号向量。这就是所谓的“理解”。 “理解”就是知道如何将符号转换成这些向量,以及知道这些向量的元素应该如何相互作用来预测下一个符号的向量。这就是大语言模型和我们大脑中的理解。这是一个介于两者之间的例子。你仍然保留着符号,但你将其解释为这些大型向量,而所有的努力都集中在这里。所有的知识都体现在你使用的向量以及这些向量元素之间的相互作用上,而非符号规则。但这并不是说你可以完全摆脱符号。它的意思是将符号转化为庞大的向量,但仍然停留在符号的表层结构上。 这就是这些模型的工作原理。现在在我看来,这也同样是一个更合理的人类思维模型。 算力与计算:电脑不一定要像人脑一样思考 Hellermark:你是第一批意识到使用 GPU 的人之一(2009 年),黄仁勋因此非常欣赏你。带我们回顾一下你的灵感来源。 Hinton:实际上,大约在 2006 年,我有一个叫 Rick Zelinsky 的前研究生,他是一位非常优秀的计算机视觉专家。在一次会议上,他告诉我:“你知道吗,你应该考虑使用图形处理卡,因为它们在矩阵乘法方面非常出色。你现在的研究基本上都是矩阵乘法。” 我对此思考了一会儿,试着购买了游戏用的 GPU,发现它们让处理速度提升了 30 倍。接着我们买了一整套 NVIDIA Tesla GPU,并在上面进行了语音处理,效果非常好。 NVIDIA Tesla GPU 随后到了 2009 年,我在 NIPS 上发表演讲,对 1,000 名机器学习研究人员说:“你们都应该去买 NVIDIA 的 GPU。它们代表了未来。你们做机器学习需要它们。” 实际上,我随后给 NVIDIA 发了一封邮件,说:“我告诉了 1,000 名机器学习研究人员购买你们的显卡。你们能因此免费送我一块吗?" 他们说不行 —— 我开玩笑的,其实他们只是没有回复。后来,黄仁勋知道了这件事,他免费送了我一块显卡。 Hellermark:那真是太好了,我觉得最有意思的地方在于 GPU 技术是伴随着 AI 领域一同发展的。你对于计算技术下一步应该如何演进有哪些看法? Hinton:我在谷歌的最后几年里一直思考如何实现模拟计算(analog computation)。这样我们就不用消耗兆瓦级的电力,而是可以像大脑一样只用 30 瓦,从而在模拟硬件上运行这些大语言模型。尽管我没有成功实现这一目标,但这一过程让我加深了对数字计算价值的认识。 模拟计算意味着每块硬件都有其独特性,这要求学习过程需适应硬件的具体特性,类似于人脑中每个个体的大脑差异性。由于人脑硬件的不同,使得权重无法直接从一个人转移到另一个人,信息传递效率低下,这被称为知识蒸馏(distillation)。 因其权重的可复制性和共享性,数字系统实际上是“永生”的。一旦某个系统学习到的权重被确定,它可以被保存并在任意兼容的数字系统上重现,无需考虑硬件的具体差异,从而实现高效的知识共享。数字系统间可以通过微小的学习更新,然后共享这些更新后的权重,实现集体知识的即时同步,这是人类目前无法做到的。因此,我认为数字系统在知识共享方面比人类更加优越。 Hellermark:神经科学中其实早已有很多类似的想法,并应用在了现代人工智能系统中。你觉得未来还有哪些神经科学原理尚待融入这些系统中? Hinton:我们仍需在时间尺度上与神经科学同步的一个重要领域是变化的时间尺度。在现有的神经网络模型中,通常只有两个时间尺度:一个是活动(如神经元激活状态)的快速变化,另一个是权重(长期学习参数)的缓慢调整。然而,人脑中存在多个时间尺度的权重变化,这允许了临时记忆的形成。 例如,我突然没由头地喊一句“黄瓜!”,五分钟后你戴上耳机,并在周围释放很多噪音,这时候听到的词很微弱,却更容易识别出“黄瓜”这个词 —— 因为我五分钟前说过。那么,这种知识在大脑中是如何存储的呢?显然是体现在突触的暂时性变化中,而不是神经元在对你说:“黄瓜,黄瓜,黄瓜。” 这体现在权重的暂时性变化上。通过权重的暂时性变化,你可以做很多事情,我称之为快速权重 —— 但在当前的神经模型中,我们并不这么做。 部分原因是,这些模型依赖于并行处理大量数据以实现高效的矩阵运算,而这与快速权重所需的依据输入数据动态调整权重的机制相冲突。然而,快速权重对于实现更接近人脑的临时记忆功能至关重要。我曾非常期待像 Graphcore 这样的技术如果采用顺序处理并仅进行在线学习,就有可能利用快速权重。但目前这一设想尚未实现。我预测随着技术进步,特别是当开始使用电导作为权重表示时,这一问题有望得到解决。 思维方式:“我亲眼见到机器人表现出了情感” Hellermark:了解这些模型的工作原理以及大脑的工作方式,对你的思考方式有何影响? Hinton:我认为最大的影响在于对一个抽象概念的认知转变:过去,许多人,包括统计学家、语言学家及多数 AI 研究者,对通过一个大型随机神经网络并辅以大量训练数据来学习执行复杂任务的想法持怀疑态度,他们认为这仅是“空想”。没有内在知识和严格架构限制,不可能学会复杂事物。 然而,大型神经网络模型的成功验证了这一观点的错误性:通过随机梯度下降不断调整权重,确实能够学习并掌握复杂知识。这一发现对于理解大脑的工作机制具有重要意义,表明大脑不必具备所有先天结构 —— 尽管大脑确有其固有的结构,但对于易于学习的事物,它并不需要特定的先天结构。 Hellermark:究竟如何能让 AI 模型更有效地模拟人类的意识?假如说有一个伴随人一生、具有自我反思能力的 AI 助手,那在得知主人去世的消息时,它是否会有所感受? Hinton:AI 助手如果想「得知」主人去世,就需要另一个人告诉它,或是让它自己去感知 —— 因为主人已经死了,无法给 AI 传递信息。 Hellermark:是的,你认为 AI 助手在主人去世时能感知到什么? Hinton:我认为 AI 也能有情感。就像我们有内心剧场模型来解释感知一样,我们也有类似的模型来解释情感,这些是我能体验到而别人无法体验的。 假如我在内心想:“我真想给加里(Gary Marcus,科学家,深度学习的主要反对者)的鼻子来一拳……” —— 事实上我真的经常这么想 —— 然后我试着将这个想法从内心剧场的概念中抽象出来,此时若不是因为我的前额叶的抑制作用,我会真的采取行动(揍加里一拳)。 当我们谈论情感时,实际上是在谈论“如果没有外部约束时我们可能会采取的行动”。而这正是情感的本质。它们是我们如果没有约束就会采取的行动。因此,我认为你可以用同样的方式来解释情感,并且没有理由认为这些事物(AI)不能拥有情感。 事实上,在 1973 年,我亲眼见到一个机器人表现出了情感。爱丁堡大学有一个这样的机器人,它有两只夹子,如果你将玩具车的零件单独放在一块绿色毛毡上,它就能组装起来。但如果你将零件堆在一起,它的视觉不足以弄清楚发生了什么。于是它会将夹子合拢,发出“啪”的一声,把零件击散,从而“组装”起来。 爱丁堡大学的机器人「弗莱迪」(Freddy) 如果你在一个人身上看到这一幕,你会说这是因为那个人不理解情况而感到沮丧,因为它们在面对约束和问题解决时,会采取相应的行动策略。 Hellermark:这很深奥。 回顾人生选择:“我其实真正想研究的是大脑” Hellermark:你曾经表达过一个观点,即人类和大语言模型都可以被视为一种“类比的机器”(analogy machines)。那你一生中发现过的最强大的类比是什么? Hinton:我的一生中?我觉得对我影响深远的一个类比是将宗教信仰与对符号处理的信仰相比较。我来自一个无神论家庭,所以当我在学校接触到宗教信仰时,觉得它毫无意义且不合理。后来,当我最初遇到符号处理作为解释人类思维方式的概念时,也有同样的感受,认为符号论也是无稽之谈。 但随着时间的推移,我的看法也有所改变。我认为人类确实进行着符号处理,这并不像传统观念中那么简单,即符号仅仅通过彼此之间的同一性或差异性来进行匹配。现代的理解是,我们通过给符号赋予大型嵌入向量,并利用这些向量的成分间互动来进行思考,这种方式充分利用了上下文信息。 谷歌有一位非常优秀的研究员名叫费尔南多·佩雷拉(Fernando Pereira),他曾说过,"我们确实拥有符号推理,而我们拥有的唯一符号就是自然语言。自然语言是一种符号语言,我们用它进行推理。" 现在我对此深信不疑。 Fernando Pereira Hellermark:你完成了计算机科学史上一些最有意义的研究。能教我们如何选择正确的问题来研究吗? Hinton:首先,让我纠正一下你的说法 —— 我是和我的学生们做了很多非常有意义的事情,这主要得益于与学生的良好合作以及我挑选优秀学生的能力。 这得追溯到 70 年代、80 年代、90 年代以及 2000 年代初期,当时从事神经网络研究的人非常少。因此,从事神经网络研究的少数人能够挑选到最优秀的学生。这可以说是一种幸运。至于我选择问题的方式……当科学家谈论他们的工作方式时,他们会有关于自己工作方式的理论,这些理论可能与实际情况并不相符。 但我的理论是,我会寻找那些大家都认同但感觉不对劲的事情。就是有一种直觉,觉得这里面有些问题。然后,我会针对这一点进行研究,看看是否能详细说明为什么我认为它是错误的。或许是用一个小型的计算机程序做一个小演示,展示某项事物并不像人们预期的那样工作。 让我举一个例子。大多数人认为,如果你向神经网络添加噪声,它的性能会变差。例如,每次你通过一个训练样本时,如果让一半的神经元保持沉默,它的性能会变差。实际上,它只会因此更好地泛化。而在计算机上,这可以用一个简单的例子中演示,这就是计算机模拟的好处。然后,我会深入思考“为什么会这样?”,这就是我的工作方法:找到听起来可疑的东西,对其进行研究,看看是否能给出简单演示来证明其错误。 Hellermark:假如今天有一群学生来找你,问你人工智能领域接下来最该解决的问题是什么?你会建议他们接下来应该着手解决和研究什么问题? Hinton:这个问题的答案和我过去 30 年左右一直持有的问题相同,那就是,大脑是否进行反向传播? 我相信大脑在学习过程中确实利用了梯度信息来优化其内部连接(权重),因为缺乏梯度信息会使学习效率大大降低。然而,我对于大脑如何实际获得这些梯度、是否通过某种近似反向传播机制或是完全不同的方法来实现这一点,仍持开放态度。我认为这是个重大且尚未解决的问题。如果我未来继续进行研究,这将是我的研究焦点。 Hellermark:回顾你的职业生涯,你在很多事情上都判断正确,但是你是否曾经在哪些方面判断失误?是否后悔在这些错误判断上投入了过多时间? Hinton:这其实是两个问题:我曾经在哪些方面判断失误?我是否希望自己在那上面花费的时间少一些? 我认为我在玻尔兹曼机上判断失误了,但我很高兴我在这上面花了很长时间。与反向传播相比,玻尔兹曼机提供了一种更为精妙和吸引人的梯度计算方法,而反向传播相对而言较为常规且直接遵循链式法则。 所以,我原本希望并相信玻尔兹曼机的工作原理能更贴近大脑的实际运作机制 —— 但事实并非如此。总之,我对探索玻尔兹曼机的过程并不感到遗憾,因为其本身富有启发性,并且深化了我对机器学习和神经科学的理解。 Hellermark:你是否也花了很多时间去想象这些系统发展之后会发生什么?比方说通过民主化教育,我们可以使知识更加易于获取;或者是通过人工智能,解决医学中的一些难题;或者对你来说,这些系统的发展主要是能有助于理解人脑? Hinton:我总觉得科学家应该致力于对社会有益的研究,但实际上,驱动高质量科研工作的往往是纯粹的好奇心,即对某个问题深入理解的渴望。 虽然近期我开始意识到人工智能技术既可带来巨大益处,也可能引发诸多负面影响,但这些并不是我的初衷。我只想了解一个问题:“大脑究竟是如何学会做事的?” 尽管从某种程度上说我未能完全达成初衷,但这一过程的副产品 —— 人工智能和机器学习领域的工程技术成果 —— 却是积极且具有价值的。 Hellermark:是的,这对世界来说是一次有益的失败。 未来:反向传播可能是正确的道路 Hellermark:你认为未来最有前景的应用是什么? Hinton:我认为医疗保健显然是一个重要的领域。在医疗保健方面,社会几乎可以无限吸收更多的医疗服务。一位老人通常可能需要五位医生全天候服务。因此,当人工智能在某些方面超越人类时,我们希望它在那些我们可以大量应用这些技术的领域变得更好。 此外,我们确实需要更多的医生。如果每个人都有三位专属医生那就太好了。我们未来将会达到那个阶段,所以医疗保健是一个好的方向。 还有一个应用,就是在新工程领域开发新材料,例如太阳能电池板或超导材料,或仅仅是为了理解身体是如何运作的,那将会产生巨大的影响。这些都是好事。 我所担心的是不良分子利用它们做坏事 —— 比如使用 AI 来制造杀人机器人、操纵公众舆论、进行大规模监视……这些都是非常令人担忧的事情。 Hellermark:你是否担心过减缓 AI 发展会同样导致 AI 带来的有益影响变少? Hinton:我肯定担心过。但我认为 AI 领域不太可能减缓发展,部分原因在于,它是国际性的。如果一个国家减缓了发展,其他国家并不会跟着减缓。很明显,中美之间存在一场 AI 竞赛,而双方都不会放慢脚步。 曾经有一份请愿书写道我们应该放慢脚步六个月。我之所以没有签字,是因为我认为那件事永远不会发生。通常,即使知道无法得到,为了表明立场而提出要求也是有益的……但我不认为我们会放慢脚步。 Hellermark:当你审视今天正在进行的各类研究时,你是否认为我们正将所有鸡蛋放在一个篮子里?是否应该在 AI 领域内更多元化我们的想法?还是你认为这是最有前景的方向,因此我们是否应该全力以赴投入其中? Hinton:哪怕仅是为了预测下一个词,在大模型上使用多模态数据训练也是极具前景的,我们应该在这上面全力以赴。显然,现在有大量的人正在这样做。也有很多人在做看似疯狂的事情,这都很好。因为多模态的效果非常好,所以大多数人追随这条道路是合适的。 Hellermark:特定的学习算法真的很重要吗?还是说达到期望结果主要是规模(如数据量、计算能力等)的问题?人工智能达到人类水平智能的方式是有数百万种,还是寥寥几种? Hinton:关于学习算法的重要性与多样性,我自己也不确定最终的答案,但我觉得反向传播(backpropagation)作为一种学习算法,在某种意义上是“正确”的选择,因为它通过梯度来优化参数,以提升性能,且已被证实极其成功。 虽然反向传播非常有效,但目前可能也还存在其他算法,这些算法或是获取相同梯度的变体,或是针对其他目标函数的优化,同样能发挥作用。这是一个目前非常有趣且值得探讨的问题。 我推测,大脑可能也是采取类似机制(虽然可能更简化),因为这种方式更为高效。总之,从某个角度来说,反向传播是合理的做法,且实践表明其效果极佳。 Hellermark:回顾数十年的研究生涯,你最引以为傲的是什么?是你的学生吗?还是研究成果? Hinton:玻尔兹曼机的学习算法。玻尔兹曼机的学习算法非常优雅。尽管在实际应用中可能无望,但这是我与特里合作开发时最享受的部分,也是我最引以为傲的 —— 即使它是错误的。 Hellermark:现在您大部分时间都在思考哪些问题? Hinton :我思考的是,“我应该在 Netflix(网飞,知名流媒体视频网站)上看什么?”
语音克隆技术引发担忧,OpenAI再次解释其文本转语音工具
IT之家 6 月 10 日消息,OpenAI 在几个月内第二次就其文本转语音工具进行解释,并再次强调该工具目前并未大范围开放,且未来也可能不会。 图源 Pexels “无论我们最终是否会大规模部署这项技术,让世界各地的人们理解这项技术的发展方向都非常重要,”OpenAI 公司周五在其网站上发布的一份声明中表示,“这就是为什么我们想要解释模型的运作方式、我们如何将其用于研究和教育,以及我们如何围绕该技术实施安全措施的原因。” 据IT之家了解,去年年底,OpenAI 与一小部分外部用户分享了其“语音引擎”。该引擎利用文本输入和 15 秒的人声音频剪辑,即可“生成听起来自然的人声,并与原始说话人非常相似”。该工具可以创建以假乱真的多语言人物声音,当时该公司表示他们选择预览这项技术而非大规模发布,是为了“增强社会抵御能力”,以应对“越来越逼真的人工智能生成模型”带来的威胁。 作为这些努力的一部分,OpenAI 表示他们正在积极淘汰使用语音识别进行银行账户验证的方式,探索保护个人声音在人工智能中使用的政策,教育公众有关人工智能的风险,并加快开发跟踪视听内容的技术,以便用户识别他们是在与真人还是合成内容进行互动。 然而,尽管做出了上述努力,人们对这项技术的担忧仍然存在。美国总统拜登的人工智能负责人布鲁斯・里德 (Bruce Reed) 曾表示,声音克隆技术是他夜不能寐的原因之一。美国联邦贸易委员会 (Federal Trade Commission) 今年 3 月表示,诈骗分子正在利用人工智能技术来提高他们欺诈行为的可信度,他们使用声音克隆工具,使得人们更难区分人工智能生成的声音和人类的声音。 OpenAI 在周五更新的声明中试图缓解这些担忧,“我们继续与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴接触,以确保我们在构建过程中纳入他们的反馈。”该公司还指出,一旦“语音引擎”配备了其最新模型 GPT-4o,它也将带来新的威胁。该公司表示,他们内部正在积极地“对 GPT-4o 进行‘红队测试’,以识别和解决来自社会心理学、偏见和公平以及错误信息等领域的已知和未知风险。”
抖音快手战火烧到AI
作者|齐健 编辑|苗正卿 “追赶”OpenAI的中国公司们,步子迈得越来越大了。 6月6日,快手发布了AI视频生成模型“可灵”,视频生成时长直接赶超Sora达到了120秒,且已在快影App中对创作者开放邀测。过去几天中,一些自称获得测试资格的博主po出了他们使用“可灵”直出的AI视频,一直不太高调的快手AI在海内外社交媒体迅速出圈。 X博主发布的带有“可灵”水印的视频 在Sora刚刚推出的时候,其生成的视频时长和效果被一些创作者认为非常适合短视频创作,很可能会给今天的短视频行业带来颠覆,还引发了“Sora杀死剪映”的热议。 如今,Sora尚未对剪映出手,但抖音的老对手快手却正在借助“可灵”在AI视频生成赛道给快影上提速。对于5月中旬刚刚推销过一波AI大模型产品的抖音集团而言,与快手的战火正在烧向AI。 内容之争是根本 在Sora对标大战中,快手发力AI的战术目标,更像是要绕到对手身后围绕“内容创作者资源”展开一场“偷袭”。 说到短视频平台对AI视频生成技术上的关注,就不得不分析一下AI生成的视频内容,对于用户的价值,以及这些内容对用户的影响心智。 “Sora类模型生成的内容最大的问题是‘听起来很酷’。”AI类视频创作者阿达(化名)告诉虎嗅,粉丝需要的是有新鲜感或者有情绪价值、内容价值的视频,Sora类视频的特点是“逼真”,但只是模仿真实世界的AI视频,不管是开汽车还是东京漫步,对于用户来说基本上提供不了任何价值,而新鲜感也会很快淡化。 “你第一次刷到AI视频,一个老虎迈着有点畸形的步伐往前走,你可能觉得有趣。但你刷到第二条类似内容时大概率就不会停留了。”阿达认为,有那么多有趣的“真”视频,用户为什么要花时间去看AI生成的“假”视频。 “可灵”生成的AI视频 很多短视频平台对AI视频的态度亦是如此——从用户视角去判断价值。 多位AI视频和数字人内容创作者对虎嗅表示,有些视频平台似乎不鼓励AI合成内容,这类视频分到的流量不多,有的甚至会被限流。 除此之外,AI内容的真实、安全性亦是平台要考虑的问题。AI换脸、造假,以及各种深度伪造的诈骗案件屡见不鲜,如果大量逼真的AI合成视频涌入平台,很可能会给视频平台带来更大的甄别压力。目前,各大内容平台都有相关限制,AI生成内容均会标注“作品疑似AI合成,请谨慎甄别”。 不过,对于快手来说,AI视频模型的价值可能并不在用户侧。 多年以来,快手一直试图调整自己与抖音在用户画像上的差异,并适度淡化“下沉”标签,而这就意味着快手需要丰富“内容供给”,扩大内容种类、风格,而关键资源正是创作者。目前来看,在快影当中提供AI生成视频功能,很可能是吸引优秀创作者的一个好方法。 截至发稿,快影App中显示的“可灵”内测申请人数已超40000。据虎嗅了解,其中相当多的申请者是创作者和创作团队。从目前来看,“可灵”无疑是给快影做了一波大营销。 此外,AI视频生成功能还能拉拢更多“新生”的创作者力量。 某MCN机构负责人告诉虎嗅,从过去一年短视频平台的热点内容看,未来一段时间里平台对高质量内容的判断大概会聚焦在以下方面:能够引起广泛用户参与、与文化自信和教育相关、具有社会责任感、提供实用信息、娱乐性强、能够激发UGC创作,以及能够建立个人品牌和影响力。 AI视频生成功能简化了视频制作流程,在“引起广泛用户参与、激发UGC创作”这两方面能起到积极作用。对于创作者来说,一方面能够帮助传统图文创作者基于已有内容做视频创作,加速内容迁移。另一方面也可以降低普通用户参与视频创作的门槛。 在短视频之争中,其他短视频平台玩家似乎也关注到了AI视频的创作者逻辑,正在持续加码AI视频模型。 5月中旬召开的腾讯云产业峰会上,腾讯首次公布了混元的16秒视频生成能力,并提出2-3个月内开放文生视频API接口的计划,以及2024年第三季度视频生成时长突破30秒的目标(在腾讯云的一次媒体沟通会中,混元大模型相关负责人曾表示年内可以达到60秒)。 相比抖音和快手,视频号的优势是庞大的用户规模,眼下的短板之一则是内容供给丰富度,然而视频号在内容广度和深度方面仍与抖音和快手存在明显差距。短视频和直播平台的内容质量对培养用户习惯和增加使用时长至关重要,同时庞大的内容库也是平台变现的基础。 如此看来,视频号遇到的挑战和机会似乎与快手暗合,都是要加速吸引站外创作者来丰富内容生态,并促进现有优质图文创作者向视频迁移。 AI竞赛中的成本思考 过去一年多时间里,抖快在AI领域的“军备大赛”有日渐升温趋势。 抖音集团关于AI的动作和传闻一直没断过,从10亿美元购买GPU,到利用API“扒“ChatGPT数据,再到豆包在国内AI应用榜夺冠,抖音集团一直是AI行业里低调的明星。反观快手,在生成式AI方面的动作却似乎不多,首个自研大模型“快意”直到2023年底,才加入到第三批网信办大模型备案。 在AI视频方面,抖音集团虽然没有Sora类的强大AI视频生成模型,但也发布了PixelDance、MagicVideo、AnimateDiff-Lightning等视频模型,目前抖音集团也有专门的AIGC产品即梦(Dreamina),可以完成一些短视频生成功能。 除了AI模型和产品方面的研究,抖音集团在基础设施方面投入巨大。在前面提到的10亿美金采购GPU传闻外,抖音集团旗下的火山引擎,在当下的国产大模型价格战中,亦是“打响第一枪”的厂商。快手的云基础设施关注范围则相对较小,以音视频和AI领域为主。 在AI视频方面,快手的进程也不高调,但并非风平浪静。2024年5月初,快手专家研究员王鑫涛曾在一次学术会议中做过一次题为《视频生成的初探及可控性研究》的分享,其中就提到了快手的视频生成方案Tune-A-Video。 技术tips: Tune-A-Video的关键是“时空自注意力机制”。这种技术可以结合空间(图像)和时间(视频帧序列)上的信息,以提高视频生成和处理的效果。假设视频内容是一只小狗在草地上跑。时空自注意力机制的工作过程是: 空间自注意力会分析每一帧中小狗身体的各个部分,例如头、腿、尾巴之间的关系。 时间自注意力会关注每一帧中小狗的位置和姿势变化,确保小狗在跑步的过程中动作是连贯的,不会出现瞬间移动或姿势不连贯的现象。 综合考虑这些信息后,模型能够生成一个流畅、自然的跑步小狗的视频,即使用户修改了小狗的颜色或背景场景,生成的视频仍能保持运动的一致性和视觉上的连贯性。 技术之争的背后,一定潜藏着对未来商业化的谋篇布局。然而AI技术如何商业化,目前仍是短视频以及很多行业讨论的核心问题之一。 AI视频模型要商业化至少需要解决两个问题,第一是技术层面的视频生成质量和效率,第二是成本。 从Runway、Pika等AI公司的3、4秒视频模型,到OpenAI推出Sora,很多业内人士也没想到技术发展会如此之快。Sora之后,各家AI公司的追赶速度更是令人咋舌。 “AI生成视频的质量可能不会长期困扰行业,但成本问题很难解决。”一位关注AI视频的投资人告诉虎嗅,视频模型的算力需求比语言模型大很多,优化的难度也更高。“从ChatGPT和Sora的开放程度就能看出来,ChatGPT可以开放给亿级用户,而Sora至今只有少数人试过。” 主流猜测认为Sora 模型参数量约为30亿,其训练数据可能包括过去五年的 YouTube 所有视频。投资机构Factorial Funds 发表的一篇博文分析认为,Sora模型的一次训练大概需要4200~10500块英伟达H100 GPU 训练1个月。 30亿参数相比于GPT-4的1.8万亿参数,训练成本会低很多。然而视频模型与语言模型相比,更大的开支在推理端。 举个例子,要生成一个2分钟的视频,在不考虑视频的连贯性和时空一致性的情况下,把AI视频拆成一帧一帧的图片。 按照某国内AI公司最近公布的AI图片生成最大折扣价算,生成1张图片的价格最低0.06元,1秒25帧,花费1.5元,120秒的视频成本为180元。 以快手开启的“可灵“邀测为例,假设“可灵”上线后3天内的内测申请者全部通过,每人每天试验20分钟视频,则每天的测试开销约7200万元。快手2024Q1期内利润41亿元,如果要满足全部“可灵”测试需求的话,2个月可能就要面临亏损了。 “可灵”内测申请提交通知 这还只是按生成单张图片计算的价格,如果要保证这25帧图片连续一致,价格会成倍上涨。一位AI视频模型开发者告诉虎嗅,AI视频生成的难点在于保持多个图片的一致性,相比于普通的AI图片生成,算力消耗和成本会大幅提升。 现阶段要大规模实现AI视频生成的商业化落地,推理成本更是天文数字。 Factorial Funds在Sora分析博文中提到,目前TikTok每天上传的视频总时长约1700万分钟,YouTube为4300万分钟。 假设AI视频模型真的成为生产力,可能会渗透到50%的TikTok短视频和15%的YouTube视频中,这样的渗透率之下,峰值算力需求可能达到72万块H100 GPU。按目前国内的GPU价格,每天的成本将超过千亿。 不过,这种试算在今天看来其实意义不大。AI视频模型要真的大规模渗透,模型成本和效率可能需要比今天低几个数量级。到时候全球市场上主流GPU的算力如何,使用成本如何也是未知数。 抖快之外,创业公司也在入局 6月6日奇绩创坛2024春季创业营路演上半场的最后一个项目极佳科技,展示了一款AI视频生成大模型“视界一粟YiSu”。 自动播放 极佳科技的视频展示 这款模型生成视频的原生时长为16秒,最长可达1分钟,据极佳科技介绍,该模型对算力需求不高,已经可以实现“端侧”运行,相关应用接近Sora效果。 项目介绍结束,现场数百位投资人罕见地爆发了喝彩和掌声,资本对AI视频生成技术的关注仍在持续发酵。 在天使轮的极佳科技路演同天,AI视频生成技术的主力生数科技和Pika,先后宣布了最新融资,两家公司融资额不相上下,生数科技宣布获得数亿元人民币,Pika则筹集到8000万美元。 AI视频模型公司的研究大多集中在提高视频质量和降低推理成本。多数研发AI视频生成模型的团队均表示已经在工程方面有所突破,算力需求正在下降。生数科技CEO唐家渝则表示,“生数科技的团队已经积累了完整高效的工程化经验,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验。”目前生数科技和清华大学联合开发的模型Vidu视频生成时长已达到32秒。 在抖快这样的短视频巨头的竞争中,独立AI公司的优势在于早期的技术积累和更“轻快”的开发模式。 然而这些公司目前的融资规模和当前的市场体量匹配度并不高,如果AI视频模型真要落在短视频这样的ToC赛道的话,独立AI公司在没有巨大技术突破的情况下,很可能会倾向于“择木而栖”。 巨头们对于这些AI公司的态度也在逐渐暧昧。 细看生数科技的这轮融资,其中新增了百度。虽然生数科技的早期投资人中有百度风投的身影,但百度风投与百度之间其实只是VC和LP的关系,而百度在过去一年多里对模型公司“亲自”出手,只有生数科技这一次。 虽然百度在刚刚推出文心大模型后不久,就提出过一些Text2Video的相关模型和技术,并演示了AI文生视频功能,但后续一直没有正式发布相关模型或产品。 目前,包括硅谷巨头在内的多数平台型大公司在AI视频模型方面均没有公布过大额投入。
郭明錤:iOS 18发布后,苹果将不再被视为AI行业的落后者
IT之家 6 月 10 日消息,分析师郭明錤今日表示,苹果将在即将到来的 WWDC 开发者大会上发布多个人工智能功能。 IT之家注意到,郭明錤在帖文中总结了苹果的人工智能战略,他认为苹果将强大的功能整合到其操作系统和应用的各个方面,这将成为其优势。例如,备受关注的 Siri 智能助理将迎来重大升级,但由于即将发布的 iPhone 16 仍采用 8GB 内存,其搭载的本地大型语言模型 (LLM) 技术可能会受到限制。苹果预计将结合本地和服务器端的 LLM 技术,显著提升 Siri 对用户查询的响应能力。 郭明錤并不认为苹果已经取得了超出市场预期的突破性进展,他对于即将在秋季发布的 iPhone 新机型及其配套操作系统能否引发用户换机潮持怀疑态度。不过他预计,苹果近年来在机器学习和人工智能领域的大力投入将在未来得到回报。郭明錤指出,其调查显示,2024 下半年 iPhone 16 系列的出货量可能略低于 2023 年 iPhone 15 系列同期水平。 郭明錤还指出,基于云端的 LLM 模型通常需要更长的训练时间,这可能意味着苹果的服务器端人工智能解决方案将分阶段推出,而不是在发布时完全推出。郭明錤表示,由于上述原因,新的人工智能功能所带来的显著营收和利润增长可能需要更长的时间才能完全实现。 对于苹果是否会与其他人工智能公司合作的问题,郭明錤则淡化了利用外部公司技术的重要性。他认为苹果此类合作主要集中于用户和应用交互的“封装模型”。 郭明錤总结道,WWDC 结束后,苹果将不再被视为 AI 行业的落后者。AI 将在苹果主要的应用中无所不在,苹果的用户界面设计优势将充分展现,Siri 的改善是最大卖点之一。
iPad mini 7升级消息汇总:高刷屏幕无望?芯片规格或有大惊喜
虽然手机的屏幕越来越大,但是iPad的销量一直还是不错,也有不少人关注新品的消息。预计iPad mini 7今年即将发布,它将会有什么新的变化呢?让我们来看下网上汇总的预测消息。 iPad mini 7预计仍将保持8.3英寸的全面屏设计,以满足用户对于便携性和单手操作的需求。最新爆料消息称 iPad mini 7 新颜色会达到四款,分别为蓝色、粉色、银色与粉色,比起 iPad mini 6 的颜色多出更多亮丽色可选择,实际这不会感到太意外,毕竟这些颜色早在 iPad Air 和 Mac 电脑就已经出现。 在处理器方面,iPad mini 7将搭载A16芯片。这款芯片在性能上相较于前代产品有着显著提升,预计CPU多核性能可提升42%,GPU性能可提升35%。强大的性能将确保iPad mini 7在应对各类应用场景时都能游刃有余,无论是日常办公、娱乐游戏还是专业创作都能轻松应对。不过也有网友认为芯片可能是A17甚至更高,这一点还难以确认。 此外,iPad mini 7的内存也将得到升级。据悉,该平板将提供6GB或8GB的运存选项,规格从LPDDR4X升级为LPDDR5,这将进一步提升设备的多任务处理能力和游戏性能。对于需要同时运行多个应用或进行大型游戏的用户来说,这无疑是一个好消息。 当然笔者预计iPad mini 7的语音助手功能也会得到升级。Siri作为苹果设备的标志性智能助手,也将迎来显著升级。据悉,升级后的Siri将引入智能回应框架,并集成在苹果设备上运行的LLM(大型语言模型)技术,这将显著提升其响应生成能力。 至于屏幕的效果方面,在上一代产品上引起很大争议的“果冻屏”问题,据说在iPad mini 7上也没有得到彻底解决。当然最受大家关心的屏幕刷新率在iPad mini 7上仍然是祖传的60Hz,由于LCD面板与ProMotion技术可能存在兼容性问题,因此这一功能是否能在iPad mini 7上实现仍有待观察。网友也认为,iPad mini系列目前的市场定位已经足够成功,苹果可能不会急于在mini系列上引入高刷新率屏幕这样的高端特性。 在售价方面,虽然iPad mini 7的配置有所升级,但预计其售价将不会明显高于前代产品。这对于那些追求高性价比的用户来说无疑是一个好消息。 综合来看,iPad mini 7将不会是一款升级明显的产品,它不是一款激进的产品,但是综合体验相比于前一代还是更好的。
苹果 iOS 18 爆料:AI 之外亮点同样不少,主屏幕或迎来大变
虽然已经基本可以确定,即将到来的 WWDC 将以「AI」为关键词,预计一半的时间都会介绍人工智能如何赋能苹果各个软件平台。 但除了 AI 之外,iOS 18 或许还有着不少其他亮点,有的改变甚至还有可能抛弃 iOS 这十余年来的传统。 特别是 AI 功能还未知国内是否可用的情况下,也许这些 AI 之外的更新,更会影响我们的使用体验。 爱范儿已经抵达加州库比蒂诺,明天凌晨将在 Apple Park 现场带来 WWDC24 最新消息。 主屏幕大改领衔,iOS 18 将带来不少更新 iOS 18 预计将会是这次 WWDC 的核心,据悉,苹果内部将 iOS 18 称为「有史以来最重要的升级」。 虽然这很大概率是形容 AI 即将入主 iOS 带来的众多变化,不过比起升级幅度小、感知不强的 iOS 17,iOS 18 在 AI 外的变化可能会更加直观可感。 比如说,iOS 18 可能会改变 17 年来主屏幕强硬的布局要求,给予用户能够将应用放置到任意网格的自由,不再会自动排列。 虽然这个限制放开的姗姗来迟有点让人哭笑不得,但至少 iOS 用户也有了不少自由度,搭配上小组件,预计各大社交平台上也会有不少整活的主屏幕排列。 iOS 14 开放了用户自定义应用图标的功能,而 iOS 18 或许会更进一步,图标能够「集体换主题」,比如说,将所有的社交应用图标设置成绿色,再将所有和新闻有关的应用图标设置成红色,整体效果可能会和 Android 12 比较相似。 ▲ Android 12 还有消息指出,在打开 iOS 18 的深色模式后,苹果自家的应用也会一同变为深色主题。此前 iOS 和 iPadOS 打开深色模式后,主屏幕壁纸也会一同变暗,这个功能在 iOS 16 被移除。 也许你会担心自由排列的主屏幕会让 iPhone 失去「果味」,没关系,Mark Gurman 还表示,苹果计划将把曾经经典的壁纸,以及一些包含苹果经典 slogan 和经典图标元素的壁纸引入 iOS 18。这也不是苹果第一次将经典壁纸带回 iOS,比如 iOS 17 就已经带回了经典的「小丑鱼」壁纸。 更高的自定义程度也来到了控制中心上,有望允许允许用户更自由放置快捷方式。除此之外,音乐播放的小控件和智能家居控件也迎来重新设计,据悉,全新的音乐小控件将新增进度条和专辑封面。 ▲ X 博主 @upinthe0zone 根据爆料制作的一种概念图 值得一提的是,去年「控制中心」也被谣传是 iOS 17 的更新重点之一,甚至还有「截图」流出,最后证实为假。 MacRumors 还爆料了一个也许是不少用户期待已久的功能:应用锁。据悉,iOS 18 将允许用户锁定 iPhone 自带应用,将使用面容 ID 进行验证,也很可能能够支持触控 ID 和密码解锁。在备忘录和照片相册之中,苹果已经推出了类似的锁定功能。 不过,目前还不清楚这个应用锁功能能否应用于第三方 app。 苹果官方也在上个月「剧透」了一些很有可能在 iOS 18 上推出的辅助功能,以下是部分重点更新内容: – 通过移动眼球来操控 iPad 和 iPhone – iPhone 可以根据音乐节奏、律动发出不同的振动 – 通过人声快捷键,为 Siri 添加自定义话语,以启动快捷方式和完成复杂任务 – 智能语音识别将能识别非典型语音,使得语言功能受影响的用户能够使用语音操作 – 设备将能识别车辆运动,发出车辆运动提示,减少乘车用户晕车 除了系统层的更新,部分自带应用也迎来了改变。 设置 苹果的「设置」应用也几乎在 17 年间没有大改,随着新的选项不断增多,现在的设置应用主页已经有点臃肿,想找到一个选项卡也要翻找好久。 Gurman 报道,iOS 18 的设置界面将会更「整洁」,选项将会以一种更好的方式重新组织,更便于用户去找到特定的选项卡。 设置的搜索也会进一步优化。目前的搜索有时候无法搜索到一些子页面,比如说 iPhone 15 机型新增加的「充电优化」。有时候搜索一些关键词,联想的优先度也很古怪,例如搜索「Siri」,排在前面的不是主页的「Siri 与搜索」选项,而是辅助功能中不太会用得到的 Siri 功能。 短信/iMessage 去年苹果曾宣布,将在 2024 年晚些时候支持「RCS」(富媒体信息服务),也就是所谓的「5G 增强短信」,因此 iOS 18 很可能就会带来这个功能。 这个功能很可能是因为来自中国的压力,因为工信部去年曾经拟规定申请进网许可的 5G 手机需支持 5G 消息。 RCS 的大部分功能其实 iMessage 也已经实现,不过,RCS 最大的意义是可以跨平台进行网络信息的传输,让 iOS 用户也能和 Android 用户发送高分辨率的照片和视频。 最近几年几乎每一代 iOS 更新都会带来 iMessage 的新功能,iOS 18 预计也不会例外。除了 AI 建议回复,iMessage 还将能支持对单字添加动画效果,之前 iMessage 已经能够实现对整个对话气泡添加像全屏、镭射光、五彩纸屑等等动画效果。而双击的「快速回复」也很可能会推出新的选项。 Mark Gurman 还提到,呼声很大的「定时发送」功能也会被加入信息应用,但不清楚这是否会支持普通短信,还是仅支持 iMessage。 全新「密码管理」应用 iOS 18 可能还会带来一个新的自带应用,与「密码」有关,将为 iPhone、iPad 和 Mac 用户提供一个更直观的方式管理自己的存储的帐户和密码信息。 这个应用其实就是目前设置中的「密码」选项被单独做成了一个应用,功能基本和目前的 iCloud 钥匙串一致。据悉这个应用不仅仅在上述三个平台推出,还有可能会在 Vision Pro 甚至 Windows 推出,以此与 iOS 热门的「1Password」等类似的第三方密码管理器应用竞争。 其他一些值得一看的更新 「日历」和「提醒事项」据悉将会更加紧密结合,比如说提醒事项中的内容会出现在日历应用的视图中,有传言称这两个应用将会合二为一成一个新的应用,Mark Gurman 则否认了这个说法。 Apple Music 预计将引入「智能过渡」功能,会根据每首歌曲的结尾和开头,进行智能的淡入淡出,实现每首歌曲的「无缝衔接」。比较有意思的是,这个功能在 Android 版的 Apple Music 应用中已经存在,iOS 18 可能就是将这个功能引入苹果自己的平台。 ▲ Android 版 Apple Music 具有自动交叉过渡功能,图源:9to5Mac 苹果地图预计将迎来新的「自定义路线创建」功能,允许用户自己设计自己的特定旅行路线,而不是只能依赖地图给出的建议路线。由于不涉及地图数据本身,所以这个功能很有可能也会在使用高德地图数据的国行特供版地图上。至于显示小径、等高线、海拔等进阶数据的新功能,或许国内依旧无缘。 健康应用将会更加强大。据 Mark Gurman,将会支持高血压数据管理,为未来的 Apple Watch 高血压检测功能铺路。健康数据也能更加定制化,比如能定期对怀孕用户进行追踪。今年晚些时候,AirPods 还将推出新的「助听器」功能,目前还不清楚这个功能和现有的「增强」功能有哪些差别,另外,还能与 AirPods 配合进行听力测试。 比起其他厂商,iOS 自带的计算器应用似乎过于简陋,而 iOS 18 会改变这一点。据悉,iOS 18 的计算器将包括一个全新的「最近计算」侧边栏,单位转换的界面也会改进,与「备忘录」应用联系更加紧密。同时,备忘录将有望支持数学符号的显示,用户将可以在备忘录记录数学公式和方程式。 「无边记」应用将支持「场景」功能,允许用户根据不同场景设定不同的画布,进行分类。 其他系统的更新静候 WWDC 正式揭晓 对比起 iOS,单独针对 iPadOS 18、macOS 15 等平台的爆料内容较少,不过以上提到的 iOS 18 更新,都很有可能会同步到 iPad 和 Mac 上。 iPadOS 18 有一项被戏称「史诗级更新」的变化:平板将会第一次迎来自带的「计算器」应用。在 iPad 推出 14 年后,才姗姗来迟一个技术难度并不高的「计算器」应用,确实让人汗颜。这个计算器应用预计将和 iOS 18 的计算器应用一样,比苹果目前的计算器更加「强大」。 ▲ 直到 iPadOS 17,苹果都没有开发一个原生的 iPad 计算器应用,图源:Apple Scoop 这也符合 iPadOS 近年来的更新规律:将 iOS 上有而 iPadOS 没有的自带应用带到平板上,比如说 iPadOS 16 带来了天气应用。除了计算器,iPadOS 也有望迎来「健康」和「手记」应用。 macOS 15 预计将获得和 iOS 18 类似的更新,除了 AI,预计将会在设置、短信、备忘录等等自带 App 中同步更新 iOS 18 的新功能。Mark Gurman 特别提到了 macOS 15 的 Safari 浏览器会继续发生变化,但是没有提到细节,仅提到不会是一个「广告拦截器」的功能。 macOS 14 带来了 iOS 和 iPadOS 16 新样式的锁屏界面,可以预计 macOS 15 或许也会引入这两个平台同款的锁屏自定义编辑功能。 watchOS 11 将会带来全新的 Siri 语音助手,将聚焦于完成一些「移动性」的任务,为 Apple Watch 带来全新的操作和交互。Mark Gurman 也预测 watchOS 11 会增加对血压数据管理的支持,不过这个功能要等到配备血压传感器的新 Apple Watch 才会可用。而一些 Apple Watch 的核心应用,比如说「健身」App,将会发生较大改变。 比较出乎意料的是,头显系统 visionOS 2 或许不会是一个大更新的版本,而更集中在进一步补齐第一代系统的短板。预计,visionOS 2 上的苹果自家应用都会升级到原生开发的版本。 更值得期待的是,苹果很可能会在 WWDC 上宣布将 Vision Pro 带去更多的国家和地区,而中国大陆有望成为首批国际市场之一。此前,Vision Pro 国行版已经通过了国内 3C 质量认证。 近几年 iOS 的更新都有种从 Android 和「越狱」插件中汲取灵感的感觉,今年的 iOS 18 中,非 AI 的新功能不少,不过即视感都很强,几乎都是别家早已实现的功能。 但这本身就是一件好事,系统之间的不少基础功能不存在抄袭一说,这只能说明这些功能都是用户刚需,能改善使用体验。 加上爆料中丰富的 AI 功能,iOS 18 带给用户的体验提升或许不止一点点。当然,也希望这个被誉为「最重大」的更新,不要丢了稳定性才好。
苹果被逼让出史上最大力度降价!现在的iPhone 15系列值得买吗
毫无疑问,今年iPhone的关键词只有一个,降价。 以价换量,似乎已经成为现阶段苹果寻求增量的唯一办法。而背后,则是其遭遇中国手机品牌强竞争力倒逼,以及对市场冷淡反馈的无奈。 自2024年以来,苹果及其中国经销商一直在下调价格,到618前夕优惠幅度达到顶峰。 5月20日,苹果天猫Apple Store官方旗舰店对iPhone 15系列开启一轮新的降价政策, iPhone 15系列最高价格跳水超过2000元。同时,在618来临之时,苹果促销再次加码,其中,iPhone 15 Pro Max售价7949元起,相较于发售价格,降价幅度最高已超25%;iPhone 15 Pro 1TB版本,甚至从原价的12999元直接降到10699元,差价达到2300元。 iPhone 15系列与华为Pura 70系列等机型展开了直接竞争。 回顾iPhone进入中国市场以来,苹果此前从未进行过如此大力度官方降价和激进的促销手段,以往只有在新款iPhone上市之前,老款iPhone的官方价格才会有明显的松动。此次iPhone 15系列价格主动跳水,无疑是其产品力疲软以及市场表现羸弱双重冲击下的最直接结果。 高端品牌认可力度日趋下滑,苹果遭国产手机夹击份额暴降 市场是品牌号召力一面镜子。 曾几何时,新一代iPhone发布会被视作“科技春晚”,每次国内发售必然吸引大批果粉抢购,线下店排长龙、黄牛加价都是每年的例行“节目”。 但近年来,随着国产手机品牌的崛起,苹果高端品牌形象的认可度和号召力正在日趋下滑,去年iPhone 15系列发售遇冷,首销即破发,黄牛赔钱已经显现出疲态。往年大多数平台补贴促销,而今苹果官方主动大幅降价,实则是其国内市场份额持续走低的无奈之举。 Canalys最新数据报告显示,2024年第一季度,中国大陆智能手机市场时隔两年首次回暖,出货量与去年同期持平,达6770万台。 华为凭借扎实的产品力与创新能力,获得了热烈的市场反响,在时隔13个季度之后重夺中国大陆市场第一,出货量达1170万台,市场份额达17%,年增长率高达70%。与此同时,4月份华为Pura 70系列的开售,与Mate 60系列形成双旗舰,对高端手机市场发起强势反攻。再加上其它国产手机品牌的夹击,对苹果形成了重创。 2024年第一季度,苹果在TOP5厂商中的跌幅最大,以1000万台的出货量排名第五,市场份额同比暴跌25%。由此可见,国产手机品牌强势“攻城略地”,此消彼长之下,苹果只能不断祭出降价来应对。 要知道,罗马非一日建成,苹果多年形成的高端形象和口碑,是多年以来维持价格体系的重要支撑。但此番苹果通过主动降价策略吸引消费者,虽然赢得了一些的销量,但同时也损害了苹果本身塑造的高端机市场定位,加速品牌贬值,再加上近几代iPhone创新力不足,持续降价只会让更多人持续观望,陷入降价怪圈。 创新乏力挤牙膏永远挤不完:果粉转投国产品牌“相见恨晚” iPhone每年仅发一款新品,就能站稳全球第二的位置,赚走超八成的利润,放眼整个手机市场,之前只有苹果能做到了。但对比从前引领行业先锋的姿态,苹果近几年在iPhone上的创新却原地踏步,从外观设计、影像能力到功能体验都创新乏力。如,近几年都只是微调的外观设计,被大众吐槽“一个模具用三代”。马斯克也在社交平台上吐槽,iPhone 15系列和之前的最大不同之处,大概就是相机好了10%。而天风国际证券分析师郭明錤,在分析iPhone出货量大幅下滑的原因时表示,近年来苹果在iPhone产品上的创新力度明显不足,导致消费者对于新品的期待值逐渐降低。 确实,没有大幅创新的iPhone,正在失去吸引力。不少苹果老用户在转投国产旗舰手机之后,直呼“相见恨晚”。 以通信为例,iPhone祖传信号差已经是大家公认,多年来依然原地踏步,在电梯、高铁、楼梯间、地下停车场等弱网场景,经常没有信号或信号不满格。比较极端的情况下,在地库都无法开启手机导航,甚至无法扫码支付停车费,只能开到闸道口信号才恢复正常。 但国产手机品牌在通信体验上不断创新突破。以华为Pura 70系列,无论在任何弱网环境,都做到了对iPhone 15系列的完全碾压,iPhone没有信号的地方,它有;iPhone信号不满格的地方,它满格,而且下载、上传速度都要更快。即便是从没网的环境里(比如高铁过隧道),到了有网的环境下,它的信号恢复速度也比iPhone要快很多。 值得一提的是,华为还对北斗卫星消息功能进行了全面升级,华为Pura 70 Pro、华为Pura 70 Pro+、华为Pura 70 Ultra首发支持发送图片消息、发送消息可自由编辑,在无地面网络时,也能更加准确、高效地传递信息。在无人区、远海、沙漠等极端环境下,更加方便外界救援。所以,无论是信号表现还是卫星通信的体验,iPhone 15系列和华为Pura 70系列可以说是云泥之别。 在影像功能方面,iPhone 15系列拍照不错,但对光线有较高要求,光线不好时清晰度会受到比较大的影响。白天可以,但到了晚上就不行。而以华为为代表的国产手机品牌,在超高速抓拍、微距、人像等功能上均实现了革命性突破,在演唱会、旅行等使用场景下,都能拍出用户更满意的照片,更好满足用户需求。比如,华为Pura 70 Ultra甚至能抓拍速度高达300km/h的赛车或磁悬浮列车,是名副其实的“抓拍速度之王”。如果形象一点来说,就像是把单反装进了手机,不受速度、距离、光线的限制,各种场景、速度、拍摄对象都能拍得好。 在系统设计方面,iOS曾经是苹果iPhone最引以为傲的卖点,但随着AI时代的到来,一直缺少创新体验,可玩性和趣味性欠缺。而国产品牌手机则持续进步,比如华为Pura 70系列出厂就搭载的Harmony OS 4.2,在可玩性、智能化以及安全性上都做了不少升级。 比如AI云增强功能,可以一键获取美丽“魔法”,通过云端的能力来美化人像照片;AI助手小艺可以实现了“方言自由说”,支持除普通话外的10种方言自由切换,包括四川话、河南话、山东话、东北话、天津话、陕西话、贵州话、河北话、长沙话、粤语等。用户不用设置就可以随心使用10种方言中的任意一种向小艺发出指令,并支持在多个方言中的随心切换。另外,还有AI隔空操控、智感支付、通话智能降噪等,这些苹果用户想都不敢想的实用功能。 具体到工作生活的实际使用场景中,Harmony OS 4.2的文件中转站功能,能实现多素材跨设备流转,出差的打工人和学生都可以多设备切换自如,系统更加流畅丝滑。 至于生态,目前行业内多数生态互联都是小型终端互联互通,华为已经做到和车、全屋智能等进行系统联动,长远来看系统生态建设潜力大,可提前通过手机设备体验国产手机生态的优势。 还有一些苹果这些年“死都不改”,但对用户非常有用的功能。比如,通话录音、长截图、分屏、应用分身功能、NFC绑定门禁卡等等,这些都是iPhone用户难以体验到的。 降价潮下更应理性按需选择:盲目跟风“捡漏”不可取 毫无疑问,苹果降价的“闸口”一旦打开,就不会再停止。iPhone 15系列的大幅降价不是第一次,也不会是最后一次。苹果用打折换增速的战略,也给后续的发展埋下了不确定性。 更说明了,苹果垄断高端市场的“旧时代”已经渐行渐远,迎来的是更加适应当下用户需求和行业发展方向的国产旗舰手机“新时代”。 对于购机消费者来说,不妨多对比观望,结合自己的真实用机需求,选择真正物有所值的品牌和产品。在市场降价热潮下,切忌盲目跟风“捡漏”,得不偿失。 目前,618大促正在如火如荼。华为等国产手机品牌都推出了多种优惠活动,有需求的朋友不妨前往各大品牌官方商城了解详情。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。