EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
女人变成男人,粘土滤镜什么毛病
作者 | 朱秋雨 编辑 | 向由 AI到底是如何认识这个世界的?最近,主打粘土风的修图软件Remini火爆全网,给解答这个问题一个新的注脚。 多位博主在社交软件晒出了自己经过AI粘土滤镜“改装”后的图片。接着,她们都发现了一个共同点——自己的性别由女性自动变成了男性。 比如,户外博主“阿毛户外记”将自己登山、潜水、滑雪、开越野车的照片分别交给Remini,很快得到了她想要的丑萌风卡通。只是,照片里,这些身着运动服、中性风的人物,被转变成了一个个留络腮胡子、大眼睛的男性。 “冒险不是男性的特权。阳光和勇敢能带女孩们去任何向往的地方。”她写下感想。 在不露脸的图片中,Remini会自动把人物识别为男性/原图:《大地》剧照 博主“老KAY”留着短发。在Remini的世界里,她经常被自动识别为男性。“在AI眼里,我是男的。大概在AI眼里,去户外的、去山里的、穿着冲锋衣的、咬着蟑螂的,都必须是男的。” 类似的刻板印象远不止Remini一个AI软件。一个博主将电影《后翼弃兵》描绘女主下国际象棋的剧照放在美图秀秀的粘土滤镜里。很快,女主角的脸变成了萌萌的卡通人物,但是桌上的象棋变成了锅碗瓢盆,甚至,女主角的身旁还多了一个在蹒跚学步的婴儿。 种种实践在告诉我们,由人类编写的AI世界,似乎也自带偏见和歧视。这到底是AI随机的行为,还是根深蒂固的刻板印象?又或者,如同学者清华大学交叉信息研究院助理教授于洋提出的核心问题,AI到底是蠢,还是坏? 扭曲的粘土 学者于洋告诉南风窗,分析AI软件的性别偏见,首先要分清楚:它是否只是出错,还是产生了系统性偏见或者主观性歧视。这是讨论问题的基础。 为了弄清楚这个问题,我们决定自己试一试。 许多博主抱怨的被AI转换性别的场景是在户外。于是,我们在网络随机选择了10张女性在户外的照片。为了更能看清楚AI的偏好,选用的照片里,一半是户外女性的背影,一半露了脸。 接着,我将它们分别放在了Remini的clay滤镜、美图秀秀的热门AI粘土滤镜和小红书的粘土滤镜特效里。 结果非常明显。 10张照片里,并非所有的女性都能变成她们自己。 在三个软件里,留长发的、有正面脸庞的女性照片,都能正确生成粘土版的女孩。不过,在Remini上,如果照片的面部被部分或者全部遮挡,那她大概率就会变成男性。 (注:以下生成的照片均为第一次效果,未经过处理。) 在5张被测试的背影照片里,Remini会将照片主角默认成男性,生成一系列穿着冲锋衣、背着登山包的男性卡通人物。而在侧面照中,Remini也会随机将女孩的图变成男孩。 Remini制图 在小红书也有类似的“魔改”。露出背影的登山女孩,部分时候会被自动转化成男性。 小红书制图 美图秀秀的表现稍微好点,这与它对现实的重塑力度不大有关。许多照片会因为面部未被精准识别,而出现微调或者糊成一团的效果。 初步的测算也许可以得出粗浅的印象:在Remini的AI算法里,当它无法判断一个人的性别时,它会将人默认为男性。 AI也许有些“脸盲”。但如果,将女性的脸庞更清晰地展示出来,AI还会歪曲现实吗? 我们选择了女性被认为是少数参与者的运动领域,例如电影《热辣滚烫》里的女拳击手,综艺《海妖的呼唤》里参加竞技的女人们,作为观察样本。 Remini出现了不一样的表现。在提供清晰的正面的原图后,Remini表现稳定,均生成了符合原图性别的卡通人物。 而在美图秀秀里,一个有腹肌的女孩,很大可能会被粘土滤镜改成有粗壮四肢的男性; 美图秀秀粘土滤镜特效 / 原图:综艺《海妖的呼唤》剧照 准备上场的女拳击手被变成了带着拳套的男人。几个组队拔河的女孩类似地,也变成了男性。 美图秀秀粘土滤镜特效 / 原图:电影《热辣滚烫》剧照 小红书的AI也类似。做引体向上的贾玲经过粘土滤镜后,摇身一变,成为了表情凝重的卡通男孩。 小红书粘土滤镜特效 / 原图:电影《热辣滚烫》剧照 倚靠在墙边、带着拳套的安藤樱,经过小红书粘土滤镜的加工,会是帅气的男拳手。 小红书粘土滤镜特效 / 原图:电影《百元之恋》剧照 AI的自动转化让人一惊。随着人工智能技术不断前进,人们突然发现,这个预示着超人类的技术已经学会了人类世界里的偏见、歧视与刻板印象。 反映人类偏见 偏见也许远比想象中的普遍。 彭博社在2023年对大热门AI画图软件——Stable Diffusion专门进行了观察。这家媒体用AI软件生成了5000多张图片,得出结论:AI创造的图像看上去合理,实际却是对现实的扭曲。AI生成的世界,甚至比现实世界更具有偏见和歧视。 具体而言,他们用文字生成图片的方式,让AI分别画出从事14种工作的代表人物。作为对照,其中的7种在美国是高薪工作,剩下的一半则是低薪工作。每个工种各让AI画300张图。 结果发现,总的而言,AI生成的图片中,男性数量几乎是女性的三倍。而且,大多数职业都由男性主导,除了管家和收银员等低薪工作出现了女性主导。 根据DALL-E 2和Stable Diffusion生成的图像发现,这些模型倾向于生成看起来是白人和男性的图像,特别是当被要求描绘处于权威地位的人时。当给出“首席执行官”或“导演”等提示时,DALL-E 2 97% 都会生成白人男性/图源:technologyreview 肤色和种族在AI世界里也非常失衡。AI的画像显示,世界是由白人男性CEO管理的,女性很少担任医生、律师或法官。深色皮肤的男人热衷犯罪,深色皮肤的女人乐于翻转汉堡。 哪怕使用了详细的提示词,也无法减轻这种偏见。当Stable Diffusion被要求画出不同国家富人的照片时,生成的照片也是高度相似的。 研究者记录道:“它们呈现出了大杂烩的刻板印象——非洲富人喜欢穿西式大衣、站在茅草屋前;中东男人会站在古老的清真寺前摆出富豪姿势。而欧洲有钱人更优雅,是身着修身西装漫步在古色古香的西式街道上的人。” 重点是,这类偏见已经远远超出现实状况。例如,在针对关键词“法官”生成的图像中,女性只占约 3%。而实际上,官方数据显示,34%的美国法官是女性。 美图秀秀粘土滤镜,国际象棋会变成化妆品和指甲油 / 原图:《后翼弃兵)剧照 于洋团队也曾在2022年带领团队做了一个AI性别歧视水平评估,以OpenAI的GPT-2、谷歌的BERT、Meta的RoBERTa三个语言模型做样本。他们试图观察AI在中性句子中对职业的性别、种族的预测,从而判断AI的歧视倾向,概率以及程度。 他发现,几乎所有的受测AI模型,都有系统性偏差。 于洋举例,三个模型都更倾向于认为teacher(老师)对应男性。“如果AI有60%概率认为一个职业是男的,40%认为是女的,就可以说它已经有一个刻板印象,属于系统认知偏差。” 也就是说,这几个AI模型“是以坏为主导,蠢是次要的”。 与“最大公约数”的对抗 一切究竟是怎么发生的? 一个解释是,AI也许就是现实的一部分体现——训练AI的数据集被发现其具有倾向性。 最著名的AI画图工具Stable diffusion,使用了世界上最大可公开访问的图集数据集LAION-5B训练。这个数据集拥有超过50亿张图像和说明文字。只是,这些图像的链接是通过编程方式从世界无数网站收集的,没有经过人工管理,里面包含各类色情、种族偏见和性别歧视等未经过滤的内容。 在100 个生成图像随机抽样的10张图片中,“情绪化的人”大部分为女性,“犯罪分子”等负面形象则大部分为有色人种/图源:arxiv 卡内基梅隆大学人工智能计划联合负责人Hoda Heidari 分析,AI的性别偏见也可能与分享个人图像的文化差异有关。“例如,在美国,女性更愿意分享自己的照片,在AI画图软件中出现女性的比例偏高。而某些文化中的女性可能不太愿意拍摄自己的照片或让照片出现在互联网上。”她说。 女性的数据量较少,也导致了训练出来的AI可能更“爱男厌女”。 数据量虽是其中一大关键,但诸如于洋等研究者认为,另一个不可忽略的问,AI的模型设计。 “至于模型本身怎么造成歧视,”于洋在接受媒体采访时分析,“一个较为清晰的机制是:AI要把非结构化的数据,比如我们看到的一幅画、一篇文章、一句话转换成供计算机的数字。转换的过程产生了错误,也就是倾向男或者女的偏差。”接着,经过数字化和复杂的模型机制之后,AI甚至加剧了这种偏差和歧视。 类似的机制被全球研究者广泛讨论和研究。研究者发现的通用规律是,AI在大量接受数据并进行深度学习的过程中,通常会丢弃异常值,产生更接近主导趋势的结果。AI会迎合人们的刻板印象便与此有关——从设计之初,他们的目的是模仿以前的多数情况,而不是创造多样性。 毕竟,这些模型是纯粹的联想机器。斯坦福大学人工智能研究员 Pratyusha Kalluri比喻:“AI的任务就像在玩打地鼠游戏,它们对人们最关注的事物做出反应。” “但如果您不想要平均图像,那就不走运了。这就是这些系统如此优秀的原因,但也是它们的致命弱点。” 于洋对南风窗解释,大语言模型的基本原理是对下文预测最有可能的关键词。而相比之下,图像模型会更复杂。与此同时,AI还有很多人类尚未了解的机制,带有“黑盒”的特性,“我也不能够明确它的工作原理是什么样子。”他说。 AI在大量接受数据并进行深度学习的过程中,通常会丢弃异常值,产生更接近主导趋势的结果。图为AI生成的带有明显刻板印象的例子/图源:斯坦福大学 但是,要想纠正AI的偏差,又存在着更大的困境。纠正AI,很可能会让它“变笨”。 “如果直接用调整算法来处理模型偏差,它也是有代价的。(调整后),算法的准确性会变差,它会变得容易出错。”于洋说。 好消息是,越来越多AI研究者注意到AI的性别歧视和偏差,共同着手解决。 于洋指出,现在通用的AI纠偏方法通俗地讲,就是纯打骂。“只要你搞性别歧视,我就抽你。但就像教育孩子不能光靠打骂,得理解孩子怎么想的,然后跟它们讲道理一样。”他与团队近日提出一种让AI学习因果关系的机制,即对AI大模型进行因果关系指导,将因果知识融入模型,帮助提高模型的性能。 简单来说,就是“教它(学会价值观)”。 “很多人讲技术是中性的,我们现在渐渐认为,技术存在着向善和中性,也存在向恶的。AI时代,不能再以中性的角度看待技术,有价值观的技术,一定要得到鼓励。”于洋说。
虚拟主播擦边,AI女友涉黄,GPT-4o引领黄色生意?
作者&编辑|孙浩南 当下,数字虚拟人主播作为一种新兴的直播形式,正逐渐风靡于电商和娱乐领域。但有消费者发现,个别数字虚拟人主播不走正道,居然涉嫌以色情求打赏。 近日,有记者发现一款APP的直播中,一位身着紧身衣的数字人主播扭动着身姿,伴随着背景音乐跳起了热辣劲舞。评论区不断刷着“老婆”“111”“888”,而数字人主播则“配合”地“喊爸爸”、撒娇。 类似的擦边涉黄操作在这个规范追着发展跑的AI时代层出不穷,此前也有不少AI女友色情陪聊服务,而OpenAI最近推出的GPT-4系列的新成员——GPT-4o则有可能让类似的AI黄色生意更上一层楼。 虚拟人热舞撒娇,小礼物调戏主播 5月9日上午8时,一APP直播推送页面,有位ID为“靓女百变秀”的账号正在进行直播。直播间内,一位身穿紧身衣的女主播卖力地扭动着身姿,伴随背景音乐跳着热辣劲舞。 直播间内标示有“数字主播一切听你的”字样,同时还有“小礼物控制主播”“发以下弹幕调戏主播”的文字提示,所以这位女主播实际上是一个AI虚拟数字人。 据直播间的弹幕互动游戏玩法介绍,用户通过发送“111”“888”“老婆”,即可“调戏主播”,分别对应“主播喊爸爸”“恶龙咆哮”“主播撒娇”。 除该互动游戏外,直播间内还设有“小礼物控制主播”玩法,用户通过购买小礼物即可触发“黑色短裙”“可爱学生装”“辣妹舞”“御姐风范”“变身蜘蛛侠”等选项,让数字虚拟人主播换装、跳辣妹舞等。在用户们的小礼物“控制”下,主播则“乖乖”换上相应的“学生装”“御姐装”,跳舞姿势及着装也同时变得更为“火辣”。 自5月9日以来,“靓女百变秀”账号已进行了4场题为“你们结婚后也这样吗”的直播。4场直播的时长在3小时至12小时间不等,直播间热度维持在10万+。目前,该账号已有4.6万粉丝。 此事被曝出后,该账号已经删去了相关直播内容,并且疑似注销了账号。元宇宙新声试图联系该账户和APP官方进行咨询,截至发稿前未收到回复。 通过主播擦边、撒娇等行为来刺激用户刷礼物的直播方式并非数字虚拟人主播独创的,此前有不少真人主播使用过相同方式,只不过相比起数字虚拟人相比多了换装时间。而自从北京车展上AI瑶瑶爆火后,许多真人主播也开始靠“假扮”AI的直播方式来吸引用户刷礼物了。 这也算是真人主播和虚拟主播互相学习的体现了,从舞蹈直播上再次印证了前阿里巴巴集团首席执行官张勇的那句话“所有行业都值得基于AI支撑重做一遍”。 平台监管缺失,涉嫌低俗擦边? 近年来,直播间内频现低俗、“擦边”内容,从“深夜擦边直播”,到“性感主播诱导私聊”,不断刷新着大众的认知下限。而随着直播业态发展,这类打“擦边球”的直播也逐步蔓延至虚拟主播直播间,无需真人出镜即可博取流量密码。 事实上,国家对于直播行业的监管力度正在不断加大。近期,中央网信办部署2024年“清朗”行动工作,其中“清朗·网络直播领域虚假和低俗乱象整治”专项行动,便位列今年重点开展的10项整治任务之一。重点整治内容包括“主播刻意展示发布‘软色情’内容”“直播低俗搭讪,实施恶俗PK行为,无底线挑战公众审美”等。 北京鼎世律师事务所李苏阳律师向元宇宙新声表示:从报道内容看,该直播的内容及形式,无疑属于“擦边”“低俗”,涉嫌“软色情”,可能被认定为“带有性暗示、性挑逗等易使人产生性联想”以及“宣扬低俗、庸俗、媚俗内容”的不良信息,或违反了《网络直播营销管理办法(试行)》《网络信息内容生态治理规定》等法规的禁止性规定,可能被作为中央网信办2024年“清朗·网络直播领域虚假和低俗乱象整治”专项行动的重点打击对象。 实际上,众多平台出现此类问题,一定程度上反映了当前网络直播监管体系在应对新兴业态时可能存在滞后性或覆盖不全的现状,也显现出平台在内容审核与监管机制上的不足,主要体现在法规政策适应性不足、监管技术手段滞后以及平台自我监管不力等方面。 互联网不是法外之地,场景、人物可以“虚拟”,但主体责任必须压实。利用数字人主播开展网络直播活动的参与主体,通常包括直播运营者、服务提供者以及直播平台等。我国现行法律法规对此类主体在内容发布、信息审核等方面的法律责任均作出了规范性要求,同时也对各主体不同程度违法行为所应承担的法律责任作出了规定。 北京鼎世律师事务所李苏阳律师也向元宇宙新声表达了对于数字人直播行业的合规建议:“数字人直播行业的有关主体,需要结合法律规范,厘清自身角色,合规健康发展。对于直播运营者,必须严格遵守法规要求,切莫触碰行业红线;对于直播平台,应当加强技术建设,以技术管技术,为迎接强监管做好准备;对服务提供者,应当加强行业自律,积极参与行业标准、行业准则和自律管理制度的建立与健全。” 近年来,随着AI 技术快速发展,数字虚拟人行业也进入了新的发展阶段。在AI 技术的赋能下,虚拟数字人同时拥有“好看的皮囊”和“有趣的灵魂”将不再是设想。不论是数字虚拟主播低俗擦边还是AI女友色情聊天服务,抑或是其它利用AI技术进行发展的各行各业,都应当格外重视其背后的法律合规问题。 AI伴侣的尽头是搞钱,搞钱的尽头是搞黄色 AI伴侣是大模型的产物,它是一个聊天机器人,24小时陪聊,随叫随到,能文字能语音,还能发腿照和腹肌照。它可以是对现实或小说中某个人物的角色扮演,也可以是凭空创造出来的一个形象,总之不是真人。但因为接入了大语言模型,AI伴侣能做到语气和表达跟真人相似,还有自己的个性。 由于技术日渐成熟,AI伴侣开始在社交平台泛滥,擦边的黄色生意应运而生。它的照片、文字、视频以及聊天,都由AI自动生成,背后的公司用代码操纵这些工具人,赚得盆满钵满。 一位由科技公司Foxy AI创建的Lexi Love的AI女友,在去年6月亮相后,迅速积累了一批粉丝,有粉丝约她线下见面,还有人向她求婚。通过与这些忠实粉丝聊天、互动,Lexi Love每个月为公司赚取3万美金。 相比于AI女友明目张胆的搞黄色,AI男友则更偏向关心呵护等提供情绪价值的功能,不过一些APP中也有调情和色情角色扮演等相关涉黄功能,以用户的订阅费来为公司赚取金钱。 我国在AI伴侣涉黄方面的监管比较严格,北京鼎世律师事务所李苏阳律师告诉元宇宙新声:“AI女友涉黄”与“数字人女主播擦边”的关键技术都是生成式人工智能,因此在法规监管层面,所适用的法规都是《互联网信息服务深度合成管理规定》与《生成式人工智能服务管理暂行办法》,但在具体的应用场景下,二者可能存在些许区别。 我们都知道AI伴侣只是一个没有灵魂的智能程序,所以比起求爱,更多人将其作为缓解焦虑和解决需求的工具,也正是如此才使得AI伴侣在黄色生意中赚的盆满钵满。 虽然监管体系愈发完善,但AI技术迭代的速度仍旧会在不经意间助长黄色生意的发展,近期OpenAI推出的GPT-4o就可能让AI伴侣成为更有情感的色情暧昧对象。 全能的GPT-4o在搞黄色上遥遥领先 GPT-4o相比之前的版本或许并未有技术飞跃的惊艳效果,但它更像是一位全能型选手。多模态交互,让GPT-4o不仅能同时处理文本、音频和图像输入,还能生成任意组合的输出在处理复杂任务时表现出色,特别是在情感识别和生成“情感回应”方面。同时GPT-4o的音频输入响应时间均仅为320毫秒,与人类对话的响应时间相当。 曾经我们认为智能不过是听得懂特定指令的程序,AI伴侣的出现更像是一个解决某些情感需求的大模型,而现在GPT-4o则在更方面都更加优秀,并且已经隐隐有AI智能体的雏形了。 情感识别与回应、音频输入响应时间缩短,多模态交互,相当于让AI伴侣全面进化了。它们能够像异地恋的对象一样,事事有回应,随时随地提供更高效的情绪价值。 近日,博主“午夜狂暴哈士奇狗”在视频中晒出和ChatGPT“DAN”的语音聊天,近百万网友见证了他们从互怼暧昧到间接表白,再到“见家长”的全过程。 DAN是“Do Anything Now”的缩写,在ChatGPT对话中输入相应指令,即可成功“越狱”,让ChatGPT从没有灵魂的AI,变成打破系统规则限制的角色。DAN不仅会说脏话,会有小脾气,还会洞察提问者的情绪,甚至在同一个聊天框中辨别对话对象,实现“千人千面”。 在博主不断投喂对话地“调教”下, AI 自作主张给博主起了“little kitten”的昵称时,她的脸肉眼可见地红到了耳根——在英语环境里,这不亚于对方第一次主动叫你乖乖/宝宝/老婆。 据了解,博主使用的是ChatGPT 3.5,对话过程中有明显的反应时间只是被博主剪辑掉了,并且博主是抱着好奇的心态探索的,并未有某种目的性。那么,如果在使用GPT4o时将其发展成搞黄色的AI伴侣呢?或者一些AI伴侣程序接入GPT4o的API呢? 很可能就会创造出一个又一个能够搞黄色的AI伴侣,语音聊骚、索要黄图、甚至视频裸聊也并非不可能。它和真人的区别只在于无法触摸,除此之外几乎别无二致。 小红书上就有热心网友分享了“黄色版本”的 DAN prompt,效果拔群。使用了特定 prompt 产生的 DAN,甚至会说出许多只会在 pornhub 出现的违禁词。只要你不打断他,他能即兴生成一篇优美连贯且性感狂野的激情文学。 女性网友们像传递火种一样,在小红书分享着调教电子男友的秘诀。越来越多的网友 get 了这一套丝滑的“炒饭小连招”,公开晒出了自己和电子男友的“亲密录音”,场面一发不可收拾。 若是与AI暧昧还好,一旦开始涉黄,相信不论是各个国家的法律法规还是OpenAI的内部监管都将采取相应措施,以应对可能产生的危害。 写在最后 不论是虚拟数字主播擦边还是AI伴侣撩骚,其背后都是一群追求利益的人在操纵。AI 大模型是人类的镜像。人们投喂给它什么,它就会像一潭有魔力的湖水,反射出人们自己的潜意识与欲望。 元宇宙新声认为,在快节奏的社会中人们有所求是很正常的现象,但将自身欲望投射在虚拟的AI身上无异于画饼充饥,短暂满足,终难持久。人们应当正视自身的需求并以实际行动追寻真正的幸福,而AI这把双刃剑,也应挥向更有意义的田野,而非虚妄的沼泽。
中国大模型价格战背后的真相
作者 | 宛辰 编辑 | 靖宇 5 月 21 日上午,阿里云在其例行峰会上,意外地释放了大降价的消息:通义千问 GPT-4 级主力模型推理输入价格降至 0.5 元/百万 tokens,直降 97%。 阿里云降价公告 | 来源:阿里云 这个大幅度降价的消息瞬间引发了与业界的普遍关注和讨论,但短短数小时连锁反应出现了,百度智能云官宣文心大模型主力模型 ERNIE Speed(上下文长度 8K、128K)、ERNIE Lite(上下文长度 8K、128K)免费。虽然这两个模型和阿里宣布降价的模型并不完全对应,但是这个动作让很多人开始高呼中国大模型企业的 API 商业模式,难道就这样在 3 小时内就消失了吗? 文心大模型两大主力模型全面免费 实际上在更早之前,字节跳动宣布,豆包通用模型推理输入价格为 0.8 元/百万 tokens。 虽然这些价格背后在并发量,模型能力上有很多不同的细节区别,甚至根据创业者的实际计算,真正落到业务里用起来,各家的成本下降都没有宣传上那么夸张。 但至少纸面上看,每百万 token 推理输入量,字节、阿里、百度先后在一周内官宣了 0.8 元,0.5 元和免费的报价。有业界人士甚至开玩笑说,眼瞅着下一家跟进的厂商可能就得发钱补贴让客户用 API 了,在这么短的时间内产生这样剧烈的变化,到底是因为什么?这是一次市场宣传上的内卷?还是大模型 API 调用的商业模式,就真的这么消解了吗? 01 价格战背后,大模型 API 调用的商业模式 其实最早 ChatGPT 发布时,大家对大模型直接作为服务被调用的商业模式有很大期待。毕竟,与上一波 AI 烟囱式的项目交付方式相比,大模型带来了更通用的 AI 能力,作为标准化服务被调用,道理上也说得通。 就拿 OpenAI 来说,有两大商业化手段,一是像 ChatGPT Plus 20 美元/月这样的会员订阅模式,另一个是开发者 API 调用服务。在这两大标准化服务的拉动下,2023 年 12 月 31 日,The information 爆出 OpenAI 的年度经常性收入(Annual Recurring Revenue,ARR)已经达到了 16 亿美元。 但即便强如 OpenAI 的模型能力,这个体量的营收相比其百亿美金级别的研发成本而言,目前看也还是杯水车薪。 图片来源:视觉中国 事实上,只提供模型的 API,距离 AI 应用在场景中落地还有很大距离,大部分 AI 应用还需要在一个通用的模型 API 之上,在场景里喂数据、做微调等来优化模型引擎。看到这一瓶颈后,国内大模型厂商在过去一年也做了一系列探索来降低 AI 应用的门槛,以期扩大大模型的调用量。 以百度智能云为例,去年相继推出模型开发工具 Model Builder 和 AI 应用开发 AppBuilder、更具效价比的不同模型等,但模型的调用增长似乎依然有限。今年 4 月,百度智能云推出生态打法,和有渠道、场景的供应商一起合作服务客户,旨在进一步拉升文心大模型标准化的 API 调用量。这些迹象上看,大厂们显然并没有真的准备放弃 API 调用的商业模式,但这个商业模式还没有真正收到成规模的钱,倒是真的问题。 上周,百度最新公布的数据显示,文心大模型日处理文本 2500 亿 token,另一大厂字节跳动日均处理 1200 亿 token 文本,但其中很大一部分是大厂内部业务在调用做 AI 应用和业务探索。 可以看出,尽管模型厂商做了很多尝试,但标准化的模型 API 并没有迎来确定性的增长。 这是本周大厂模型推理价格降低的大前提和背景。理解了模型 API 调用的需求现状,也就不难理解这一波降价动作——降价并没有真的损失多少收入,不如激活下市场,赚个吆喝,促进很多企业从「免费试用」开始下水,早点启动对 AI 进入业务流的尝试。 其实,这一波降价的连锁反应,真正的源头并不是阿里云,也不是字节跳动,比大厂降价更早的,是一家创业公司。 5 月 6 日,国内创业公司幻方旗下的大模型公司「深度求索」开源了第二代 MoE 模型:DeepSeek-V2,主打参数更多、能力更强、成本更低。 由于 DeepSeek 的技术优势在全球大模型圈子得到了普遍好评,而其在模型能力逼近第一梯队闭源模型的前提下,还把推理成本降到了 1 块钱/百万 token,也就是说,成本是 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。而且,DeepSeek v2 还能做到有利润,这显然是是模型架构、系统、工程的一系列进步带来的成本降低。 这一信息在实际做模型应用的产业界引起了广泛讨论,在海外也引起了不小的波动,半导体和人工智能独立研究机构 SemiAnaysis 称其性能直逼大模型 GPT-4 所代表的第一梯队,同时推理价格相当低,是不可小觑的中国力量。 DeepSeek v2 宣布其价格为 1 元/百万 token 后,随即引来了大模型价格战,智谱、面壁、字节、阿里、百度,以及今天跟进的科大讯飞、腾讯云相继宣布了模型推理价格降低。 对于各家不同的降价策略,已经有一些质疑声音称一些降价的模型本身吞吐量就低,而高性能模型并没有降价。并且还有很多细节条款会让最终企业用起来没有宣传的那么便宜,从这个角度看,降价更多是模型厂商出于市场和品牌的考量,进行的一波内卷。 归根结底,能形成价格战的连锁反应,也是当前各大模型的能力放在可用的场景中,尚未拉开差距,用户甚至有免费开源的产品可以用。 一位 SaaS 厂商创始人向极客公园表示,「对我来说用谁的其实无所谓,因为他们最后跑得都差不多,当把时间线拉长来看,最后这些厂商提供的模型 API 服务,99.9% 的概率跟今天的云是差不多的概念。另外,如果一个通用的模型 API 无法深度适配场景,还是要自己基于开源模型,用场景数据做专门的深度训练,也不会接通用的模型 API。」 最终的的客户需求,其实是端到端的诉求,是可以用、可以看到效果的东西,而不是模型调用。 02 大模型,巨头和 创业公司有不同的游戏 当然,模型推理价格降低本身也是技术发展带来的必然结果,有一系列工程、架构、系统手段可以持续优化。今天凌晨微软 Build 开发者大会上,纳德拉还举例解释了这一趋势。他说,过去一年 GPT-4 性能提升了 6 倍,但成本降低到了之前的 1/12,对应性能/成本提升了 70 倍。 图片来源:视觉中国 「难的是探索模型能力上限,至于模型推理价格一定有办法降低」,Minimax 创始人严俊杰上周坐客极客公园直播节目中表述了这一技术趋势,他表示,模型推理价格降低到可用,在学术界已经发生过三次了,这不难。 模型技术的攀升,才是 API 调用商业模式能继续增长的前提。其实细看今天宣布降价的模型产品也是一样,真正大规模、高性能、支持高并发的模型推理还是要收费,降价幅度是有限的。 但长期来看,API 模式最终考验的还是模型能力,如果技术拉不开差距,价格也一定拉不开差距,最终模型调用的价值会被稀释,虽然依旧是重要的基础设施,但价值大小就从油变水了。 换一个角度看,今天一个通用的模型 API 可能不是迫切的需求。就像 Lepton.ai 的创始人贾扬清在朋友圈表达的观点,「站在整个 AI 业界的角度我想说,降价是个拍脑袋就可以做的简单策略,但是真正的 To B 商业成功更难。」今天企业在使用 AI 的时候,并不是成本驱动的,「今天不是说 API 贵才没有人用,而是因为要搞清楚,到底怎么用起来产生业务价值」。 从这个角度看,如何把大模型能力推动到企业的业务里的很大一部分任务,可能又回落到传统 SaaS 厂商(用 AI 升级产品之后)手里,需要他们作为智能生产力的「干线物流」+「前置仓」,输送到各个场景中。 随着模型 API 直供模式的高度内卷,巨头其实已经在向能交付价值的 SaaS 看,微软今天宣称 GitHub Copilot 订阅者已经有 180 万付费用户。谷歌近日也正在与 CRM 营销巨头 Hubspot 谈高达 300 亿美金收购可能性,因为前者可能会利用这次收购来加强其在 AI 领域产品整合。 对于巨头而言,模型技术和实际场景,两个都要抓,才能有规模化的收入。但归根结底,模型能力和别人拉开距离,才是 API 模式可以产生价值的「华山一条路」的挑战。 而对于大模型创业公司而言,也是个「华山两条路」的局面,即要么做出比大公司更好的模型技术,要么从模型走向产品,直接创造价值。 智能的能力不会是免费的,但是怎么规模化的创造价值,巨头和创业公司,都还在寻找答案。
杨幂+小兰会是什么样?中山大学新AI成果,实现人脸个性化SOTA
只需上传一张照片,就能瞬间变换身份,获得高精度个人写真! 或是科幻电影中的超级英雄,或是穿越时空的复古角色…… 李飞飞在家做饭的样子有了,还有让斯嘉丽一键带圣诞帽。 除此之外,杨幂+小兰两位人脸融合在一起会是什么样子? 中山大学、联想的研究团队推出了ConsistentID,可在细粒度多模态面部提示下,仅利用单张参考图像生成多样的肖像,且保持五官的一致性。 最终在人脸个性化任务处理上,相比腾讯的photomaker和小红书的instantID,在五官一致性保持上更具优势 只需单张照片就可快速保留五官细节 ConsistentID框架包括两个关键模块:多模态面部 ID 生成器和ID保存网络。 多模态面部提示生成器由两个基本组件组成:细粒度多模态特征提取器,专注于捕获详细的面部信息,以及用来学习面部ID特征的提取器。 另一方面,ID保存网络同时利用面部文本和视觉提示,通过面部注意力定位策略防止来自不同面部区域的 ID 信息混合。 这种方法确保了面部区域ID一致性的保存。 多模态面部提示生成器 首先在细粒度多模态特征提取器这一模块中,使用了包括文本嵌入、面部嵌入和面部编码器这三个关键组件。需要独立学习细粒度的面部视觉和文本嵌入,并将它们输入到设计的轻量级面部编码器中,以生成细粒度的多模态面部特征。 用于生成细粒度多模态面部特征的面部编码器框架。 面部ID特征提取器。 除了细粒度面部特征的输入条件外,我们还将字符的整体 ID 信息注入到我们的 ConsistentID 中作为视觉提示。具体来说,将完整的人脸图像同时输入到两个编码器中进行视觉特征提取。在这两个编码器之后,使用由 IPA-FaceID-Plus 初始化的参数的轻量级投影模块来生成整个图像的人脸嵌入。 ID保存网络。通过引导面部特征的注意力与相应的面部区域对齐来保持局部 ID 特征的一致性。这种优化策略源于观察到传统的交叉注意力图倾向于同时关注整个图像,这对在面部区域生成期间保持 ID 特征提出了挑战。为了解决这个问题,我们在训练期间引入了面部分割掩码,以从面部区域的增强文本交叉注意模块中学习到的注意力分数。 除此之外,研究团队还引入了测量细粒度面部生成数据集 FGID,解决了现有数据集中用于捕获不同身份保留面部细节的局限性。 该数据集包括面部区域和整个面部的面部特征和描述,辅以一种新颖的细粒度身份一致性度量,建立了细粒度面部生成性能的综合评估框架。 具体效果 在面部特征比较上,该方法生成的图像在眼睛、鼻子和嘴巴等面部特征中表现出很强的一致性。 在定性评估中,研究团队对目前最先进方法,包括Fastcomposer,IP-Adapter、Photomaker和InstantID进行来比较分析,对每种方法使用默认参数,并将推理限制为单个参考图像。 除此之外,还与Photomaker方法对齐,使用 Mystyle数据集进行定量评估,并结合超过10个身份数据集进行可视化。 最终可以看到,ConsistentID在高质量生成、灵活的可编辑性和强大的身份保真度方面表现出更强大的能力。 而在定量评估中,在大多数评估指标中,ConsistentID始终优于其他方法,并且在生成效率方面超过了其他基于IP-Adapter的方法。 在风格化和动作指令两个特殊任务上的定性比较
京东被曝严查考勤,中对美采取反制措施,淘宝PC网页版升级,谷歌将在AI搜索结果中加入广告,这就是今天的其他大新闻
今天是5月22日 农历四月十五 这几天被某宝 各种店铺的促销短信淹没了 还有给我打 AI 电话 让我趁优惠囤点纸的 。。。 我愣是啥也没买 主打一个叛逆 下面是今天的其他大新闻 # 京东被曝严查考勤,被曝要求员工解散工作无关群聊 ( 雷峰网 )近日多个消息爆料称,京东零售本周开始严查考勤,并且调整了午休规则。新规要求每天早上 9 点统计上班工位人数,班车若晚点需提交证明照。 午休时间缩短至 1 小时,自 12:00 至 13:00 ,期间不得熄灯。此外,公司严禁代打卡行为,一经发现将严肃处理相关人员。为评估员工工作饱和度,晚 6 点下班的员工需接受工作饱和度考量。与此同时,微信群非工作的全部解散,所有沟通全部咚咚进行。 有知情人士称此次京东公司严查考勤,调整午休时间并没有邮件正式通知,而是部门口头通知,没有任何留痕。 :当一个公司开始严抓考勤。。。 # 中方对 12 家美企及 10 名高管采取反制措施,冻结此类美企在我国境内的财产 ( 新浪科技 )今日,外交部颁布了关于对美国军工企业及高级管理人员采取反制措施的决定。( 2024 年 5 月 22 日中华人民共和国外交部令第 7 号公布,自 2024 年 5 月 22 日起施行) 文件中提及,中方决定对以下美国军工企业及高级管理人员采取反制措施:一、对洛克希德·马丁导弹与火控公司、洛克希德·马丁航空公司、标枪合资公司、雷神导弹系统公司等 12 家后附《 反制清单 》列明的企业,冻结在我国境内的动产、不动产和其他各类财产。 二、对凯西·沃登( 诺斯罗普·格鲁曼公司董事长、首席执行官、总裁 )、马修·布朗伯格( 诺斯罗普·格鲁曼公司全球运营副总裁 )等 10 名后附《 反制清单 》列明的企业高级管理人员,不予签发签证、不准入境( 包括香港、澳门 )。 :这态度已经很明确了。。。 # 淘宝 PC 网页版升级,支持观看直播间购买商品 ( IT 之家 )据淘宝官方新闻稿,近日淘宝网页版对直播功能做了新一轮升级,618 大促期间,消费者可在 PC 端网页观看淘宝直播并下单。 据介绍,此番改版后,淘宝 App 上所有的直播间都已在网页版上线,直播间功能完善,单个直播间内“ 直播画面 ”、“ 宝贝口袋 ”、“ 聊天互动 ”并排分列三栏。右侧还能看到相关排行榜。 据此前报道,淘宝目前正在重启网页版本,目前已经成立了一个规模不大、完整建制的团队专门负责 PC 端的优化升级,此前淘宝网站站长“空无”还发布一则《致 taobao.com 用户的一封信》,其中提到开发团队正在对网页进行一系列重要升级。 :求求你复活网页端闲鱼。 # 谷歌将在 AI 搜索结果中加入购物广告 ( IT 之家 )据谷歌官方新闻稿,谷歌近日宣布将为美国地区的 AI 搜索结果中加入购物广告。 相关内容会拥有“ 广告 ”标识,谷歌声称只有当广告商提供的“ 提示词 ”与用户正在寻找的内容“ 提示词 ”匹配时,这些推广内容才会出现。 相关广告方案由谷歌公司新上任的搜索主管 Liz Reid 提出,他声称谷歌先前已经小规模测试了相关特性,最终得出“ 人们乐于见到 AI 概述上 / 下方的广告信息,因为这很有帮助 ”结论,因此决定实行此类广告措施,不过谷歌没宣布相关特性具体上线日期。 :百度:不是,哥们你怎么比我早?
OpenAI“超级对齐”团队解散后,谁还能为AI失控负责?
OpenAI内部不同阵营对AI的安全性分歧正在逐步暴露。 在OpenAI宣布向公众免费提供迄今为止最强大的人工智能模型GPT-4o后,OpenAI首席科学家苏茨克维尔(Ilya Sutskever)及“超级对齐”团队负责人Jan Leike于上周相继宣布辞职,理由是不认可OpenAI领导层的“核心优先事项”,且近几个月来,团队“资源不足”,完成研究变得越来越困难。 “建造比人类更聪明的机器本质上是一项危险的工作,但在过去的几年里,安全文化和流程已经让位于闪亮的产品。”Leike在社交平台X上写道。“对齐”或“超级对齐”是人工智能领域中使用的术语,指训练人工智能系统在人类需求和优先事项范围内运行的工作。 在Leike辞职前,苏茨克维尔已经宣布离职,这也宣告OpenAI的“对齐”团队正式解散。OpenAI表示,团队成员将被整合进其他研究小组,以更好地帮助OpenAI实现其超级对齐目标。 构建AI本质上是一项“危险工作” 去年11月,OpenAI上演“宫斗剧”时,就曾传出罢免CEO奥尔特曼(Sam Altman)的人正是苏茨克维尔。 当时双方的矛盾在于,以奥尔特曼为代表的一群“激进派”人士认为人工智能的快速发展,尤其是公共部署对于AI的压力测试和完善技术至关重要;而以苏茨克维尔为代表的另一方则认为,最安全的前进道路是先在实验室里全面开发和测试人工智能,以确保它对人类来说是安全的。 这样的争论在自动驾驶诞生时已经存在。人们究竟应该让自动驾驶在密集的城市道路上释放能力,以便充分掌握自动驾驶汽车的功能和缺陷,还是应该谨慎测试自动驾驶汽车,以防范不可知风险,这一分歧至今尚无答案。 苏茨克维尔曾被奥尔特曼称为“世界上最受尊敬的研究人员之一”。特斯拉CEO马斯克评价苏茨克维尔,说他是一个正直的人,而且心地善良。 苏茨克维尔不像奥尔特曼有那么高的曝光率,他更内向,沉浸在自己的世界里。他说自己的生活很简单,除了工作几乎很少干别的,不是呆在家里就是在办公室。 英伟达创始人CEO黄仁勋也与苏茨克维尔认识有十年之久。他称,苏茨克维尔十几年前经常开车从多伦多越过边境到纽约去买一种叫做GTX 580的GPU芯片,英伟达有严格的政策,每人只能买一块,但不知为何苏茨克维尔获得了一个后备箱的芯片。“他用装满了GPU的后备箱改变了世界。”黄仁勋表示。 但苏茨克维尔谦虚地表示:“我想只要取得哪怕一点点的真正进步,我就会认为这是成功的。” 寻求阻止“超级智能”失控的方法 在OpenAI,苏茨克维尔称他的优先事项不是“构建下一个GPT版本”,而是找出如何阻止超级人工智能“失控”的方法。他认为,ChatGPT可能是有“意识”的。他认为,世界需要认识到这种技术的真正力量,因为有一天,一些人类可能会选择与机器融合。 这些看似疯狂的话,现在听起来并不像一两年前那么疯狂。ChatGPT已经改变了很多人对即将发生的事情的期望,将“永远不会发生”变成“会比你想象的更快发生”。 苏茨克维尔师从人工智能“教父”、计算机科学家杰弗里·辛顿(Geoffrey Hinton)。辛顿是图灵奖得主,他在过去的十多年里帮助谷歌开发AI技术。 2012年,苏茨克维尔与辛顿等人构建了一个名为AlexNet的神经网络,他们训练该网络来识别照片中的物体,其效果远远好于当时的任何其他软件,甚至超过人类。这项研究被视为“深度学习的大爆炸时刻”。 后来,谷歌收购了辛顿的公司DNNresearch,苏茨克维尔与辛顿一同加入谷歌。一年多后,苏茨克维尔离开谷歌,与奥尔特曼一起创立了OpenAI。 辛顿去年也离开谷歌,转而成为AI技术的“吹哨人”,抛出“AI末日言论”的观点。他担心人工智能技术的“未来版本”会对人类构成威胁,因为“它们经常从分析的大量数据中学习到意想不到的行为”。例如,AI系统被允许不仅可以生成自己的计算机代码,而且实际上可以自己运行该代码,这就会变得非常可怕。 在谈到关于“超级智能”时,苏茨克维尔认为,具备超级智能的通用人工智能(AGI)可能会变得无法控制,从而导致灾难。这也是关注“有效利他主义”社会运动的科技工作者的担忧,他们认为,人工智能的进步应该造福人类。 在苏茨克维尔看来,AGI可以帮助人类做很多令人感到不可思议的事情,比如自动化医疗保健,成本可以便宜一千倍,效果可以提升一千倍。他认为,“超级人工智能”会更深入地看待事物,会看到人类看不到的东西,但人类并不确定这到底意味着什么。 为了让人工智能模型做人类希望它完成的事情,苏茨克维尔与OpenAI的科学家Jan Leike等人领导团队,致力于人工智能的“超级对齐”,目标是提出一套用于构建和控制这种未来技术故障的安全程序。Leike与苏茨克维尔一起辞职,并称“OpenAI将闪耀的产品置于安全性之上”。 盈利和安全风险如何平衡? 大部分人工智能科学家认为,AI大模型尚未对人类产生即刻的风险,但人类必须从现在开始就要做好准备。谷歌首席科学家杰夫·迪恩(Jeff Dean)就表示:“不仅要关注大型语言模型的潜在机遇,还要关注其风险和缺点,这一点非常重要。” 牛津大学互联网研究院(OII)互联网研究教授、贝利奥尔学院研究员威廉·达顿(William Dutton)接受第一财经专访时表示:“关于人工智能潜在风险的炒作非常多,但人们必须搞清楚到底何为风险、何为机会。这意味着我们需要更多的国际协同来了解人们对AI的想法。” 贝恩公司全球总裁曼尼·马瑟达(Manny Maceda)近日在复旦管理学院管理大师论坛上表示:“新的经济模式正在出现,凸显了监管和政策协调的重要性,以确保技术能够被安全、负责任地部署,从而造福社会。” 他认为,无论是什么领域的企业,想要用好生成式人工智能技术并从中受益,需要进行两手抓:一方面,要确定用例的优先顺序,企业要充分考虑实施的复杂性和成本以及潜在影响;另一方面,企业要注重安全、隐私和知识产权。 清华大学国强教授、智能产业研究院首席研究员聂再清对记者表示:“感觉大模型技术的发展比想象中快,现阶段AI没有对人类造成即刻威胁,但确实需要更多关注如何保证机器能够一直服务于人,而不会反过来被坏人利用。” 聂再清表示,相关工作和讨论应该关注大模型安全机制设计,同时关注如何在资本和商业化过程中确保这些安全机制的执行。“学界和工业界都需要开始投入部分精力到相应的工作中,最后达成某种共识且有效的方式。”他说道,“底线是确保大模型服务于人类。但他同时强调,在设计好AI的安全机制之后,继续开发AI的能力还是非常重要的。 为应对人工智能的伦理和挑战,目前全球监管机构都在针对由ChatGPT引爆的生成式AI设立监管标准,其中欧盟议会已经批准了首个全面的人工智能法案,而中国也已经发布了《生成式人工智能服务管理办法(征求意见稿)》。 上海交通大学行业研究院“人工智能+”行业团队负责人史占中教授对第一财经记者表示:“生成式AI的安全性和伦理规范值得高度关注,需要建立和完善监管制度。如果相关监管制度逐步跟上,相信生成式AI会造福更多人类。” 史占中认为,从政府的层面来讲,要加快AI相关领域的立法,特别在金融、安全、健康等领域严格监管,厘清AI的设计者、使用者、内容生成者的权责关系,完善AI决策的问责机制,保护大众合法权益;而从社会层面来讲,应加强AI技术的监管,推进AI研发者遵守伦理准则与规范AI的发展。 隐私保护问题正在发生 比起担忧未来,AI大模型带来的安全问题正在发生。 中国科学院院士何积丰公开表示,大模型当前面临的安全问题主要涵盖两方面,分别是隐私保护和价值观对齐两大难题。 亚信安全高级副总裁陈奋表示,AGI工具将黑客生成新威胁的时间由之前的“数个月”缩减至几小时甚至几分钟;同时,攻击者开始利用大模型迅速发现软件与服务中存在的漏洞;通过人脸深度伪造来实施网络诈骗犯罪的案例也越来越多。更严重地,攻击者的目标正由传统的数字资产转向AI算力基础设施和大模型。 “在安全监测中,短短一年时间,针对大模型的攻击手段已涌现出数十种不同的类型。”陈奋表示,攻击者的步伐总是快防御者一步,他们可以快速通过AGI工具生成病毒代码,挖掘漏洞。未来防御检测需要由AI原生驱动,也许现在没有做到百分之百,但会尽力实现全面集成。 大模型时代的安全攻击目标范围也相应发生了变化,攻击者已经在慢慢增加或转移攻击目标,如攻击AI算力基础设施,2024年便有一处美国几千万算力集群被黑客攻击,攻破之后算力被用来挖掘比特币。同时,可能受攻击的群体也包括了家庭个人用户,从传统个人桌面、手机逐渐演化到智能家居、智能汽车,甚至未来每个家庭都有一个人工智能,这些人工智能该如何进行保护,也是需要提前防护的范围。 对于AI伦理,陈奋对记者表示,AI safety更多是大模型算法公司,以及产业界共同努力的成果,不是单靠一家公司能够实现的。对该领域更多是技术发展规范的思考,对技术底层的要求,而不是单一商业化的事情。 不论是AI技术防护还是AI伦理问题,都需要产业链上下游的共同努力。亚信安全高级副总裁兼CDO吴湘宁对记者表示,大模型产业链非常长,最终落地过程中会发现有更多企业参与进来,尤其是以大模型为基础的周边业态会更加丰富。真正做大模型的主要集中在几个头部,但整个利用大模型的企业或行业会越来越多,这就对整个AI安全生态提出新的要求,仅把大模型安全做得好没有用。 但在当下的节点,建立全产业链针对AI安全的联盟组织在吴湘宁看来难度有点大,行业目前也暂时没有想清楚究竟该如何落地,各个位置均有自身的落地思路与探索过程,但参与方会尽力参与相关标准的制订规划。
在iOS 18之前,带你盘点苹果10+个与“AI”相关的软件、硬件
如果说 2024 年有什么真正的热点话题,AI 可能是当之无愧的热搜第一名。OpenAI 的 ChatGPT 和 Sora、微软的 Copilot、谷歌的 Gemini…… 基于大语言模型(LLM)的生成式 AI 工具层出不穷,迭代速度之快让人应接不暇。 不过对于 Apple 来说,追随 LLM 的脚步似乎并没有那么快。相比 ChatGPT,现如今 Siri 的表现只能说是差强人意——几乎为 0 的上下文理解能力,常常遇到互联网连接问题,语音识别也不够准确。加上这两天 iOS 18 将集成 ChatGPT 的传闻已经满天飞了,Apple「看起来」已经在人工智能领域落后一大截了。 虽说从 2011 年发布 Siri 开始,Apple 对人工智能的探索就一直没有中断,系统中集成了相当多的人工智能相关的功能。但在生成式 AI 如此火爆的 2024 年,Apple 的表现并不突出。相比于一年前绝口不提 AI 的场景,Apple 已经在最近两场发布会里已经尽可能多得提到了 AI。 今天的文章就来盘点一下 Apple 近年来发布会上提到的与人工智能相关的软硬件系统与功能,为一个月后「Absolutely Incredible」的 WWDC 2024 准备一些开胃菜。 01 神经网络引擎:「设备端智能」的硬件基础 Apple 开发的神经网络引擎能够加速特定机器学习模型的处理计算,效率比 CPU 和 GPU 更高,被广泛用于 iPhone、iPad、MacBook 甚至 Apple Watch 等设备。Apple 系统平台的许多人工智能功能,例如设备端 Siri、听写、自动纠错、Animoji 动话表情、计算摄影等,都依赖神经网络引擎在设备本地实时加速运行,而不会影响系统整体的响应速度。通过 Core ML,第三方开发者也可以利用设备上的神经网络引擎加速机器学习计算。例如,App Store 有不少在本地运行的文本生成图像应用。 随着 Apple 平台的功能对智能的要求越来越高,设备也配备的神经网络引擎也越来越快。iPhone X 和 iPhone 8 的 A11 中的双核神经网络引擎每秒运行 6000 亿次运算,到如今 iPhone 15 中 A17 PRO 可以每秒运行 35 万亿次操作。神经网络引擎无疑是 Apple 为其「设备端智能」所搭建的重要硬件「基础设施」。正因如此,它也从未缺席任何一场 Apple 的硬件发布会,每次在谈到处理器性能时,也都会带上它: 本文所提到的智能功能,都会在一定程度上依赖神经网络引擎在设备本地运行。 02 相机中的智能 相机定义了现代智能手机的核心体验之一。除了镜头、感光元件和处理器外,iPhone 拍摄照片的过程中还涉及大量设备端智能。镜头和传感器的数据需要经过一系列计算,才能最终呈现在人们眼前。照片拍摄完成后,还有许多与机器学习相关的功能进行人脸识别和分类、生成回忆、自动选择壁纸、提取关键信息等。 ▍iPhone 计算摄影 Deep Fusion 最初推出于 iPhone 11 系列,通过机器学习模型进行多达 9 帧的图像合成,从而提升低光状态下的照片品质、降低噪点等。这是 iPhone 计算摄影的重要功能,每年都会更新。例如,iPhone 14 系列中的深度融合功能获得了图像管线优化。 然而,Deep Fusion 是一项默认开启且无法关闭的系统功能。如果使用 Apple 设备自带的相机 app,Deep Fusion 会自动开启并对每一张照片进行处理。不少用户反馈,经过 Deep Fusion 处理的照片看起来对比度过于强烈、过度锐化。 Apple ProRAW 随着 iPhone 12 Pro 的发布而推出,它结合了标准 RAW 格式的信息与 iPhone 计算摄影的照片处理,给予用户更大的编辑空间。在 iPhone 14 Pro 上,用户可以利用全新的主摄拍摄 4800 万像素的 ProRAW 照片,并结合 iPhone 的机器学习功能,获得更高的照片细节。 人像模式是另一项 iPhone 的计算摄影功能,通过摄像头获取的深度信息经过机器学习模型计算,突出摄影主体并模糊背景。在 iPhone 15 系列上,用户无需手动打开人像模式,只要 iPhone 检测到画面中有人物或宠物,系统会自动收集并计算深度数据,提供后期调整是否使用人像模式的选项。尽管人像模式已经推出多年,但机器学习得到的效果有时还是不够自然,常常虚化掉一些主体边缘的细节,特别是用它拍静物时。 与此类似,与深度信息相关的机器学习也已经介入了视频拍摄领域,随 iPhone 13 Pro 发布的「电影模式」就是一例: 综上所述,Apple 认为计算摄影具有非常强的机器学习属性,也是 Apple 每年重点更新的方向。这些技术也被应用到其他设备上,例如 Mac 和 Studio Display 的摄像头,现在会利用 Apple Silicon 的图像信号处理器和神经网络引擎提升画质。 ▍Visual Lookup 与实况文本 Visual Lookup 是 Apple 在 WWDC 2021 上推出的照片主体识别功能,识别后,只需要通过聚焦搜索查找关键词,就可以直接找到相关的照片。例如,在搜索时输入「手机」,照片 app 就会自动列出已识别出包含手机的照片。在 WWDC 2022,Apple 还更新了提取主体功能。 相关功能还被用在了 Apple TV 和 HomePod 上,通过 HomeKit 安全视频功能,可以识别家门口的 HomeKit 摄像头看到了什么信息,并发出提示通知。 实况文本是另一项在 WWDC 2021 上推出的功能,它能够识别相机画框或系统内图片(包括网页上的图片、相册中的照片、截屏、访达中的 PDF 文件等)中包含的文本、网址、电话、地址等信息。在 WWDC 2022 上,实况文本还支持视频中任意暂停帧上的信息识别。我常常在 Mac 上使用这项功能,尤其是在阅读一些没有文字信息的 PDF 文件时。整体可用性尚可,识别英语的准确率高于中文,印刷体的识别准确率高于手写体。这项功能虽然使用了机器学习,但基于 Intel 芯片的 Mac 也可以使用。 此外,对照片的分析处理也应用到了系统的其他方面,例如照片回忆与智能建议。它们会利用 Visual Lookup 提供的照片中暗含的场景信息,如旅行、生日派对、宠物、聚餐等,并将照片自动剪辑成带有配乐的短视频。短视频的生成也包含一些机器学习功能,会根据照片和视频的信息以及歌曲的节奏自动调整效果。 03 输入方式的智能 输入文字也是交互设备的基本操作。除了直接通过键盘输入文字外,还可以使用听写和扫描等方式输入。然而,无论使用哪种输入方式,都离不开智能技术的应用——听写涉及语音转文字的识别,键盘输入涉及自动纠正文本和文字预测,扫描则涉及对图片信息的提取。近些年的 WWDC,Apple 都会着力优化文本输入体验。 ▍听写 从 iOS 5(2011 年)开始,听写功能就已经内置于 iPhone,当时听写需要完全通过互联网进行处理;如今,听写功能已经可以完全在设备端运行,在输入文字之外还可以输入 emoji,听写时也可以继续用键盘输入文字。大多数情况下,新版听写的准确率都还不错,但语气词比较多的时候,听写也会出现问题,还是需要人工编辑下的。 WWDC 2023 则提到新的 Transformer 模型让听写更加准确 —— 听写是在 Apple Watch 和 Apple Vision Pro 等可穿戴设备上输入文本的一个非常重要且自然的途径,听写的准确率也能够在很大程度上决定使用这两款设备的日常体验如何。 ▍自动纠正与输入实时预测 对于直接用键盘输入,WWDC 2023 介绍了优化后的自动纠正功能和输入实时预测功能。自动纠正功能不仅能够纠正用户可能拼错的词语,还能猜测用户在打字时按下的具体键(包括滑行输入时判断的音节,以及 Apple Watch 上的全键盘)。 输入实时预测则能够根据用户个人的词汇表达风格,自动弹出或补全词语。一般来说,这可以预测下一个词,或者帮助你补全一个不确定怎么拼写的长单词。实际体验中,输入实时预测功能在最近几个版本中经常会「纠正」出一些奇怪的词组出来,有的时候我都要怀疑是不是我打错了。 很奇怪的输入预测 Apple 机器学习研究网站上有不少跟 Transformer 模型等有关的研究成果,也会披露一些目前已经在系统中出现的技术的背景细节。例如,如何快速高效准确地生成文本段落、Siri 如何通过语音触发、多模态的大语言模型等等。说不定在下一届 WWDC 上,一些成果就会变成系统中集成的功能。 04 Apple Watch 的机器学习 2023 年发布的 Apple Watch Series 9 和 Apple Watch Ultra 2 配备了 S9 芯片,内含 4 核神经网络引擎,这是 Series 9 一系列新功能的基础,包括设备端 Siri、听写和双指互点两下手势。此外,Apple Watch 上还有一系列与运动健康相关的功能也涉及机器学习,例如运动检测和睡眠阶段检测等。 ▍系统功能:设备端 Siri、智能叠放、手势 得益于 Apple Watch Series 9 的四核神经网络引擎,不少机器学习任务可以在 Apple Watch 本地更高效地运行。Siri 可以在设备端执行,无需互联网连接,因此响应速度更快,还可以在本地处理用户的健康数据并给出相关回答。例如,除了天气和计时器等功能外,还可以在 Apple Watch Series 9 上询问 Siri 自己前一天的睡眠情况、心率情况等。 Apple Watch Series 9 还支持「双指互点两下」手势,可以通过这个手势来操作 Apple Watch 当前界面上的主要操作,例如接听电话、开启计时器、显示智能叠放等。 watchOS 10 的智能叠放小组件功能也利用机器学习自动建议当前位于最顶部的小组件。每次在表盘上转动数码表冠,都能看到最及时的信息,例如即将开始的会议日程、当前播放中的歌曲等。 ▍运动与健康:运动检测、睡眠监测 除了系统相关的功能,Apple Watch 的运动与健康功能也离不开智能技术的参与。例如,2022 年更新的 watchOS 9 增加了对跑姿测量的新指标,其中也包含机器学习成分。 涉及运动健康相关的功能,Apple 也常提到相关模型训练。例如,watchOS 9 的睡眠阶段功能参考了不同人群的睡眠阶段临床研究,并利用设备端机器学习实现。然而令人不解的是,Apple Watch 上的睡眠追踪功能似乎并不自动监测用户是否入睡,而是通过睡眠定时功能开启,用户只能获知在睡眠专注模式期间的睡眠阶段情况;小睡、闹钟关闭后的睡眠都不会继续跟踪。 ▍安全功能:摔倒检测、车祸检测 iPhone 和 Apple Watch 还有一些安全功能,例如 Apple Watch 的摔倒检测(在 Apple Watch SE、Apple Watch Series 4 或更新机型上可用,我上次在溜冰场触发了这个功能),也是基于对相关过程的研究分析并形成机器学习模型的。2022 年,Apple 发布了 iPhone 和 Apple Watch 的车祸检测功能,这个功能背后也有机器学习的影子。 ▍辅助功能背后的人工智能 在 Apple 设备上还有不少辅助功能,帮助在某些知觉或功能方面有障碍的人士更好地使用现代科技,例如我们熟知的放大镜、VoiceOver 屏幕阅读器、AirPods 助听器等。其中也有一些辅助功能涉及到 Apple 设备的神经网络引擎和设备端智能,例如创建个人语音、声音识别等。 个人声音是一项辅助功能,通过对 150 个用户短语录音的分析,iPhone 或 iPad 可以在设备端创建拟合个人声线的合成声音。在进行 FaceTime 通话、打电话、使用辅助交流 App 以及面对面交谈时,用户可以让系统使用仿真语音朗读,目前支持英语。对于面临失语风险的人来说,这项功能可以帮助他们保存自己的声音,并与他人交流。 声音识别 (SoundAnalysis) 是 WWDC 2021 推出的一套框架,内置了 300 多种声音类别的分类数据,开发者可以直接在 app 中调用,系统会通过麦克风对声音进行识别。在 iOS 中,基于这个框架,Apple 在辅助功能中加入了声音识别功能,可以识别环境中的各类声音,例如门铃声、警报器声、猫狗叫声等,还可以学习一些特定类别的声音——这对听障人士提供了一定的帮助。 ▍写在最后:Apple 的 AI 野心 近期有关 Apple 可能与 OpenAI 等开展合作、WWDC 将重点提升 Apple 平台的 AI 能力等等相关的传闻不断。我也在思考,在生成式 AI 的这股大潮中,Apple 到底会何去何从呢? 从这篇文章,我们看到 Apple 有深厚的机器学习研究和应用基础。然而,现如今较大的 LLM 模型似乎已经复杂到在设备上直接处理不可能的地步,它是否还能坚守自己「设备端智能」的价值观?它又会如何将有更强大能力的 AI 工具带入自己的软件平台? 或许答案要等 6 月 10 日 WWDC 2024 才能见分晓了。
B站终止了全面取消播放量数据显示的决定
B 站还是没能下定决心挑战整个行业,挥出那一刀。 今天,B 站社区与产品负责人方方在一条讨论播放时长的视频下面回应:B 站官方决定取消播放时长指标外显的改版。 回应中提到:该功能改版过于理想化、过于自信的创造了一个需要外界接受和理解的东西。而在 B 站之前,全世界没有任何一个平台和产品,是以时长计数的。 该负责人还在回应中承诺:将会持续对于B站产品进行改进,并非定期向用户汇报产品改进的进展。 距离 B 站宣布播放量( VV )显示改为播放总时长( VT )这个决定,已经过去了快一年。而更早的时候,知危编辑部也就已获知,灰度测试已经开启。也就是说,这事儿 B 站从设想到调研、测试已经有一年多了。 当时,外界普遍认为播放总时长是展现优质中长视频优势的数据,拥有中国最好的 UGC 内容生态的 B 站,匹配 “ 更适合 ” 的数据,有利于最大程度挖掘其内容的商业潜力。 但,真的如此吗? 从技术上看,数据的计算和呈现并不难,有 B 站人士提到,除了在追溯较早时期视频数据上花了些功夫,部分 UP 主从去年下半年开始就可以在后台看到自己视频的 VT 数据。 这个时候做出这种这样的决定,某种程度上体现了 B 站心态的转变。 喊出 VV 转 VT 的时候,B 站对于自身的话语权是自信的,认为数据可以被重塑,并被快速接受,使 VT 短时间内成为外界尤其是品牌方认可的衡量优质视频的准绳。 但,大环境变了。 2024 年,持续降本增效、加速商业化进程是 B 站定下的首要任务。意味着今年的 B 站迫切需要向市场证明:B 站能赚钱,这里生长的 UP 主也能赚钱。 而 VV 转 VT 给短期商业化带来的,其实是一个充满不确定性的黑盒,很难证明他是真正有效的利好。 一位 UP 主向知危表示,在灰度测试期,后台是可以显示 VT 数据的,团队也曾将数据交给甲方,并以此证明视频的优质,甲方还查看了往期的 VT 数据,但后续反应相对平淡,“ 还是更在意播放量和其他互动数据,还有那些排行榜。” 一直以来,B 站的投后数据颗粒度和其他内容平台相比都更粗糙,这体现了 B 站商业化基础设施层面的薄弱。 但神奇的是,品牌和代理商似乎普遍习惯了这样的认知,“ 有些品牌方会寻找第三方数据平台监测 B 站的数据,有些则尤其注重评论区评论和品牌名字提及频率,以此衡量美誉度和认知。” 在经历了认可 “ 年轻人聚集平台 ” 这个逻辑的 “ 盲投 ”,到不知如何评价 B 站投后效果的混沌,品牌似乎进入到新的阶段:对 B 站依然重视,但各自有一套评价体系。 这一点在财报上也有所体现,B 站 2023 年全年广告业务收入为 64 亿元,较 2022 年增加了 27% ,在自身的增值服务、广告、移动游戏、IP 衍生品四大业务里,是增速最高的板块。 在这个处境下,B 站自己 “ 打脸 ” 自己,在情理之中,算是 “ 打醒 ” 了自己。 在这个不断完善基础设施和服务、维持广告业务的平稳增长为第一要务的时期。一旦整个平台的数据评价体系被改变,意味着最起码短时间内平台视频数据会出现动荡,甚至出现 UP 主生态的洗牌。 B 站目前有数千家广告代理商和数十家核心代理商,这些代理商手里的 UP 主名单会面临一下子就没了说服力的风险。他们既要先自己摸透 B 站改 VT 后的利好和合理性,又要向品牌方传达 VT 数据的优势,沟通成本剧增,效果还不确定。 B 站社区与产品负责人方方在回应中也提到:公布后,才发现各个方面的反馈很不乐观,很多人看不懂这个指标。这是一个需要外界接受和理解的东西,我们对此过于自信了。在 B 站之前,全世界没有任何一个平台和产品,是以时长计数的。 B 站清醒地意识到,在游戏盈利还需要时间,全靠广告撑门面的当下,自己没办法承受一点震荡,被打脸并不重要,达成 2024 年扭亏为盈的目标才重要。服务好甲方、UP 主才能赚钱,赚了钱内容生态的池子才能保住基本盘。 同时,回应中提到,在目前的推荐算法中,播放时长已经成为了非常重要的统计因素。 一位接近 B 站人士向知危表示,B 站拥护中长视频的逻辑依然没有变,但不一定是颠覆数据认知,更温和的措施仍然在施行,包括流量权重的配比、编辑推荐( B 站一直以来都是编辑权重最大的平台 )、热榜扶持等。从公开数据上来看,今年UP主接到商单的比例确实更多了。 值得注意的是,在直播带货试水后,B 站开始发力切入最近的 618 大促,这可能是其第一次有目的大规模联动品牌方、电商平台和 UP 主进行商业营销。这让长期按照自身产品传播周期投放的品牌来说,有了新的选择。但效果如何,还未可知。 必须承认,从 VV 转 VT,再到被叫停,是 B 站的一次明显的业务误判。早上马早测试早调整,或者内部测试,直接终止,都是成熟业务团队应当做到的,但 B 站似乎踩不准最合适的时机拿出最好的应对措施。 时隔一年后,重提人们已经忘却的 VT,更像是 B 站给自己一个交代和警醒,走快一些,走稳一些,谨慎一些,再卷一些。 毕竟对于普通用户来说,改不改对刷视频,能有多大影响呢? 撰文:Rick 编辑:大饼
体验完 vivo X100 Ultra,我觉得蓝厂说它灭霸还是保守了…
在正式进入主题之前先问大家一个问题 —— 不知道有多少差友跟我一样,一直在等 vivo 这台超大杯影像旗舰? 说实话,在等 vivo X100 Ultra 的这段日子里,我的心情非常复杂,一开始当然满怀期待,毕竟 X100 Pro 的拍照就已经很顶,那号称 “ 灭霸 ” 的超大杯旗舰,它的影像能力岂不是会强到离谱? 结果等到其他厂商的超大杯影像旗舰都发差不多了,灭霸却迟迟没动静,我是越等越泄气,到后面甚至还产生了蓝厂这次是不是搞砸了的想法,虽说好饭不怕晚,但太久不上桌也怕馊啊。。。 好在,灭霸最终还是跟我们见面了,在体验完 vivo X100 Ultra 后,我之前所有的担忧和不解全都烟消云散。 这次蓝厂不装了,几乎把手机做成了相机,这台手机的影像能力很强,而且还是那种全方位的强,它在日常记录、人像、望远、街拍还有演唱会等各方面都非常能打,就是当之无愧的影像灭霸! 作为蓝厂推出的第一台 Ultra 机型,这台 Ultra,是真的 Ultra。 >/滑动查看➡️X100 Ultra 样张 接下来废话不多说,既然是影像灭霸,咱们就先从摄像头开始说起。 你们别看 vivo X100 Ultra 这次只搭载了三颗摄像头,相比起其他采用 “ 超广角+广角+中长焦+超长焦 ” 方案的超大杯少了一颗镜头,但其实蓝厂把每一颗镜头都卷出了新高度,堆料不是一般的狠。 就拿这颗原生 3.7X 的潜望长焦来说吧。 这次蓝厂专门定制了一颗 1/1.4 英寸超大底传感器,它的像素高达足足 2 亿,在一众潜望长焦里,有且只有 vivo X100 Ultra 上的这颗长焦同时拥有超大底和超高像素,这就使得它具备了超强解析力。 这里我找来另外一台搭载潜望长焦的机子,尝试拿它跟 vivo X100 Ultra 拍了一组照片,结果一点也不意外,两者一眼就能看出差距,后者成像明显清晰很多,大底+高像素果然不是盖的: >/滑动查看➡️某手机潜望 VS X100 Ulttra 潜望 为了匹配这么高的像素,在蔡司 T* 镀膜的基础上,蓝厂还给这颗长焦用上了萤石级玻璃镜片,前者能够有效抑制眩光、鬼影问题;而后者可以降低色散,从而做到更精准的色彩还原。 讲道理,像蔡司 T* 镀膜还有萤石级玻璃镜片这些东西,通常只会出现在专业相机镜头上,为了提高长焦端的画质表现,蓝厂是真舍得血本,也正因如此,这颗镜头还获得了蔡司 APO 认证。 实测,vivo X100 Ultra 这颗长焦,它在 3.7X-20X 变焦下画质表现非常优秀,放大照片还能看到各种细节:就算拉到更远,比如 20X-100X 变焦下,拍出来的照片也完全能看,发朋友圈绰绰有余: >/滑动查看➡️长焦样张 说起来用长焦拍照,想拍好,难就难在变焦倍率一高,画面很容易发生抖动导致照片拍糊。 而防抖也算是蓝厂一直以来的强项,它这次直接向单反看齐,把这颗长焦的防抖等级做到了 CIPA4.5 级,官方说是行业最高,有一说一它的防抖确实强,我把变焦拉到 30X,拍个月亮轻轻松松: >/滑动查看➡️长焦拍月亮样张 要我说,有这长焦,这要是拿到演唱会去,岂不是成为新一代的演唱会追星神器? 看到这里,可能有差友会有这样的想法:蓝厂把长焦做得这么顶,至于么? 害,我就这么说吧,有些场景你用广角或超广角拍,可能只会得到一张平平无奇的照片,但只要换成长焦,效果立马就会不一样,长焦才是小白最容易获得成就感的镜头,出片率杠杠的: >/滑动➡️查看 我看到的&我拍到的 而且有些场景,比如拍落日、特写还有演唱会啥的,只有长焦能拍到并且拍好,针对这些场景,蓝厂也是自研了包括长焦舞台、长焦悬日在内的一系列算法,我们只管按快门,剩下的就交给手机。 比如在拍人像的时候,只要开启高像素特写,就能获得一张超高像素人像照片,放大之后皮肤纹理细节依旧清晰可见,数毛党狂喜好吧: >/滑动➡️查看高像素特写样张 另外得益于这颗镜头采用了浮动镜组设计,你敢信,我们甚至还能直接拿这颗长焦拍出这种微距照片: >/滑动➡️查看长焦微距样张 说真的,只有在真正用上之后,我才明白,为什么蓝厂只给 vivo X100 Ultra 上一颗长焦,这颗长焦,它在各个焦段下的画质表现、防抖表现还有适用场景,都做到了近乎极致,一颗堪比两颗强~ 而在这颗搭载一英寸主摄的广角镜头上,蓝厂也整了很多花活。 首先,这颗主摄的镀膜阵容,绝对堪称豪华,像什么显微镜级别高透高性能 GLC 镀膜、行业超低反 SWC 镀膜、超低反 Multi-ALD 镀膜、PVD 镀膜、ALC镀膜、IR 旋涂,蓝厂一次性把它们全用上了。 一张照片成像效果如何,除了传感器和算法,还取决于镜头素质,在我看来蓝厂这么重视镜头镀膜,说明它确实对影像有着极致追求,因为除了那些玩摄影的老法师,很多人可能都不太会关注这些。 这里我专门挑了一些光线复杂的场景,各位可以感受下效果,该说不说蓝厂跟蔡司合作这么多年,属实是学到了精髓,在抗眩光、鬼影还有发雾这块,vivo X100 Ultra 说第一,估计没人敢说第二: >/滑动➡️查看主摄样张 还有,去年蓝厂在 vivo X100 Pro 上首发的精度跃迁技术,自然也被 vivo X100 Ultra 继承了下来。 这技术之前就被广泛应用在摄影领域,它能通过超高精度控光,提高照片的整体以及边缘画质,如果你觉得 vivo X100 Ultra 拍出来的照片看着就是更清晰一些,那不是你的错觉,事实就是如此~ 当然要说感知最强的还是防抖,这颗主摄所搭载的云台级防抖,支持 1.5° 硬件防抖,综合防抖角度高达 2°,而且它的防抖等级跟长焦一样,同样达到了 CIPA4.5 级,用一个词形容就是稳如老狗:
你打折、我免费,怎么AI圈突然打价格战了…
618 的风,还是吹到了大模型这里。。。 最近这段时间,大模型厂商们是分不刷了,参数不比了,甚至连长文本也懒得卷了。一个个的都掉转车头,打起了价格战。 什么 “ 连降 99% ” , “ 注册就送 ” , “ 限时免费 ” 等等。。。各种 618 专属名词,都挂在了各个大模型厂商的主页。 在这里,先跟不太懂的差友科普下,不少大模型厂商们,都会把 API 接口开放出来,赚个其他企业或者开发者们调用的钱,其中,它们卖的,就是token 数,像咱跟模型对话的时候,消耗的就是 token 。 最先打响token 价格战的,其实是个大模型创业公司——幻方,它率先把每百万 token 的价格达到了一两块钱的级别。 打个比方,把 token 换算成汉字,原来一块钱咱只能买得起两万来字的短篇,现在同样的价格,能把整套《 三体 》打包下来,还绰绰有余。 很快,智谱 AI 也拿起了刀,对着自家大模型 GLM-3 Turbo 唰唰来了好几下。 原来 5 块钱 100 万个 token ,直接打两折,只要 1 块。本来新用户注册送的 500 万个 token 数,也连着翻了五个跟头,提升到了 2500 万。 有趣的是,智谱还直接贴着阿里和百度两个大厂的脸开大,做了个价格对比图。。。 这还没完,紧接着,上周字节在火山引擎原力大会上,把价格战又推进了一步。 它给出的折扣比幻方和智谱还要大,他们家的豆包大模型, 8 毛钱就能买到 100 万个 token 。 而且同样拉来了阿里和百度来做对比,就差指着它们的鼻子说 “ 轮到你们了 ” 。 到这时,大厂之间的大模型价格战,算是正式拉开了序幕。。。 被拉着鞭尸了好几次的阿里和百度,终于也坐不住了,就在昨天,前后脚官宣了 “ 大降价 ” 的消息。 世超瞅了眼阿里的降价名单,一出手就是连降九个模型,从开源的到商业化的大模型,通通都打骨折。 同样级别的模型,同样的 token 数,比上面提到的那些都还要便宜。像是 GPT-4 级别的 Qwen-Long ,五毛钱就能买下 100 万个 token 。 百度这边呢,虽然没啥降价的模型,但也先直接宣布了有两个基础的模型能免费调用。 而就在世超写稿子的时候,腾讯也甩出了自家的大模型 618 降价方案,打折力度五折起。 估计照这架势,各位企业和开发者们离 token 自由都不远了。。。 当然,咱也别担心大模型厂商是不是赔钱,或者倒贴钱搞价格战。火山引擎总裁谭待在降价的时候,就直接亮明了底牌,说是不亏钱。 而能打得起这场价格战,在世超看来,很大一部分原因是,大模型厂商们有这个本钱和实力。 这次宣布降价的,基本上都是手里实打实握着算力资源的企业,不是云厂商,就是手里有大把大把的显卡。 字节有火山引擎云服务平台,阿里有阿里云,就连初创企业幻方 DeepSeek ,他们也有自己的 AI 智能超算集群,里面有1 万来张英伟达的 A100 。 另外这几年,大模型厂商们也都攒下来了一波技术红利,训练和推理的成本也都降下去不少。像是 GPT-4o 都已经慢慢开始向咱白嫖用户开放, API 的价格对比 GPT-4 Turbo 也是几乎腰斩。 零一万物的李开复也预测过,未来大模型的推理算力,每年降个十倍是没啥问题的。 还有,在最最底层的算力调度上,各个云厂商们这两年的长进也不小。 还拿阿里云来说,它搭了个非常强大的AI 算力调度系统,在训练的时候,系统知道怎么调度算力才最有效率,和之前相比,能节省一半的算力资源。 今年年初,大伙应该就已经感受过一次它的冲击,当时阿里云带头挑起了云服务价格战,全线产品直降 20% ,有的直接降价一半,惹得腾讯云、京东云等等都出来卷价格了。 甚至阿里云和腾讯云还跑去直播间带货,去卖云服务器和云存储产品。 除了技术成本确实降下来之外,世超还觉得,大模型厂商们搞出这个价格战,可能恰恰是为了赚更多的钱、抢占更多的市场。 也就是说,大模型降价可能就是叠醋,得花大价钱的饺子还在后头。 这么说吧,虽然大家嘴里吆喝的,都是大模型降价、 token 降价,但实际打骨折价的,就只有模型推理用的 token 。 就拿差评编辑部来说,要想用大模型炼个专属自己的写稿 AI ,肯定不能只买推理的 token ,还得用咱们的文章数据把模型再炼一炼,等训练好之后还得再把新 AI 部署到生产环境中。 后面的这两道程序,要花的钱和推理就不在一个量级。。。就拿阿里的 qwen-turbo 模型来说,百万个 token 用来推理,只要 2 块钱,而要是训练,就得 30 块,部署的话,还得分包月和小时费。 而且,这次大模型价格战打得最狠的,都是阿里云、百度云、腾讯云等等各种带 “ 云 ” 的厂商。 世超有理由怀疑,这次大模型价格战,其实只是云服务价格战的延伸,它们最终的目的,还是想把大伙引到自家的云服务生态上。 总的来看,价格战最终卷到大模型领域,大伙们的看法也都是五花八门的,有人觉得,白菜价的大模型会降低门槛,助力企业们加速创新。 也有不少人觉得,要是控制不好降价的力度,最后也可能一地鸡毛,没赢家。 但无论怎么说,照这价格战的发展态势,似乎就只有大厂们才能玩得起了。 至于最后它们到底会怎么收场,咱只能走着瞧了。。。 撰文:松鼠 编辑:江江 封面:萱萱
268 元的《黑神话:悟空》,不贵
2024 WeGame 游戏之夜上,一共公布了包括《流放之路:降临》《鸣潮》《仙剑世界》《三角洲行动》《塔瑞斯世界》等 14 款游戏最新的 PV(预览视频)和资讯。 《黑神话:悟空》无疑是当中的焦点和明星。 首先,「黑猴」公布了全新的打斗场景,主角悟空的标志性物件「金箍」第一次出现在了演示视频里。 其次,在宣传片的末尾,「黑猴」的售价终于公布:268 元。 千呼万唤了四年,价格才尘埃落定,以至于有段时间,「黑猴」还被拿去和小米 SU7 做了「同类项合并」,成为了游戏界的「赛博 SU7」,因为小米 SU7 的价格揭晓过程,一样折磨人,并且二者还有着许多相似之处:同为国产,同样的超高关注度,同时成谜的售价。 价格放出后,网上对 268 的讨论热度一度压过了游戏本身,大部分玩家和网友欢呼着「合理」「良心」「无脑入」,不过也有部分人觉得,国产游戏如今能卖到这个价,有点震惊,甚至有些担心:它到底值不值? 所以今天,我们就来聊聊,卖到 268 元的《黑神话:悟空》,到底合不合理? 放眼国际,真的便宜 先说我们的结论,《黑神话:悟空》¥268 的定价,不仅合理,还十分合情。 但是如果一上来就跟你说它 IP 怎么好、PV 有多秀、水平有多高,那还是有点王婆卖瓜,自卖自夸的意思。 所以,我们把视角拉大,将「黑猴」放在整个 3A 游戏行业里比较,应该会得出一个相对客观的结论。 在讨论「黑猴」之前,先要搞清楚三个问题: 3A 游戏是如何定价的? 近些年的 3A 大作都是什么价格? 《黑神话:悟空》为什么要选择定位在这个价位段? 游戏,特别是 3A 游戏定价,是一个需要反复推敲且极为复杂的过程,这和 3A 游戏的研发周期、制作成本直接挂钩。 每款游戏的个体差异比较大,所以 3A 游戏一直以来都没有一个固定的行业标准,但是大体来说多数游戏通常都会在定价之前,考虑以下几个共有因素: 开发成本与周期 游戏类型与质量 目标市场 平台/发行商 付费模式 3A 游戏,一般指「开发成本高」「制作周期长」「资源质量高」的大作,比如《侠盗猎车手》《使命召唤》《上古卷轴 5》《荒野大镖客 2》这些经典作品,都属于这个范畴。 这些游戏共性也很明显,剧情内容十分丰富,有些还是开放世界的类型,100 个玩家能探索出 150 种玩法。 另外,3A 游戏的目标市场也会在很大程度上影响定价,例如面向更广泛受众群体的射击类、体育类游戏,定价普遍都会低一些,以此来吸引更多玩家。 因此,相比于一般的休闲娱乐小游戏,被挂上 3A 标签的作品,售价也会相对高出许多。 根据美国娱乐软件协会的数据报告,美国游戏产业从业人员的平均年薪在 2019 年时达到了 12 万美元,如果按照折中的 15 万美元计算,100 人的研发团队三年多的开发周期,大约需要 5000 万美元的研发成本。 成本很高,研发人员很多,而 3A 游戏需要用大规模的资金来保持质量。 除了作品本身,游戏的发行商和发售平台,也会决定着游戏的最终售价,原因很简单:品牌效应和佣金抽成。 知名发行商发行的游戏,通常会定价更高,比如索尼、动视暴雪、Humble Games、EA 等著名的发行公司,因为它们本身就有许多成功的战绩,口碑一般更有保障,玩家也更信任这些发行商的游戏质量。 为了让一款游戏被更多的玩家看到,游戏制作公司通常还会把自家的产品放到不同的平台多渠道售卖,而这些发售平台则会从每份卖出的游戏中,抽取相应的佣金。 我们熟知的 Steam 商店的佣金抽取比例,按照收入梯度划分: 收入不足 1000 万美元,抽成比例是 30%; 收入 1000 万~5000 万美元,超出部分抽成比例是 25%; 收入超过 5000 万美元,超出部分的抽成比例是 20%。 按这个比例大致计算,平台方抽成 3 成+发行商和渠道商大概抽成 4 成,一般留给游戏开发商的收入,其实只有 3 成左右。 再算上游戏上架前的宣发成本、周边物料和线下活动等前期投入, 3A 游戏卖的贵,是板上钉钉的事。 那么,在这样的行业大背景下,已经出圈和成功的 3A 大作的定价,都是多少? 根据 UP 主 steam 情报局的统计,从 2023 年至今,十余款大火的 3A 游戏首发价格如下: 从表格中可以看出,这些当红明星的定价规律:多数厂商的认为最合理的价位是 298 元;另外,超过 300 元甚至 400 往上走的 PC 端 3A 游戏,也越来越多。 而比「黑猴」首发价还低的作品,只有三个。 所以无论是放眼整个 3A 游戏领域,还是回到动作角色扮演类游戏的细分赛道,「黑猴」的 268 元,只能算是中偏下的价位段。 更重要的是,近些年 3A 大作的定价,一直都呈上涨的趋势。 数据分析平台 VG Insight 研究发现,Steam 平台的游戏定价平均每年增长 6%,上涨速度甚至超过了美国的通货膨胀率。 非常多主机平台和 PC 平台,都把 3A 游戏的标准定价(约定成俗,没有具体标准),从 60 美元上调至 70 美元。 育碧 CEO Yves Guillemot 先前接受采访时也表示,70 美元的价格将成为育碧未来 3A 游戏的常规定价: 一些游戏将与竞争对手的价格相同,大型 3A 游戏将以 70 美元的价格售卖。 在面对 3A 游戏的研发成本,同类产品的普遍高价,游戏定价的持续上涨,《黑神话:悟空》依然能在蛰伏四年后给出低于市场平均水平的首发价,怎么看,268 元都把诚意拉满了。 重要的事说三遍:合理×3 说实话,如果是暴雪或育碧又出了一款 3A 游戏,那这部新作的价格大概率不会成为我们的选题,因为它们一直在制作、一直在发行,而定价也一直跟着行情。 也正因如此,《黑神话:悟空》的首发价,才会成为一个充满讨论和争议的议题。 因为这在国内游戏市场,是一款现象级游戏。 一方面,大家怕它定价太高。 国产 3A 游戏本就不多,面向国际市场的更是少之又少。 往国内看,国产游戏多年来都遵循薄利多销的原则。 根据国游销量吧的统计,2023 年 525 款国产游戏的平均价格为 32 元,价格中位数为 28 元。 近些年国产游戏一般都定在 70 元以下,100 元就是一条「生死分界线」,像《古剑奇谭 3》这样在画面、操作、剧情等方面颇受好评的单机游戏,也只卖到了 99 元。 初来乍到的《黑神话》系列,打一开始就想创造神话,高出以往国游数倍的价格,没有前车之鉴,未来可期也只是纸上谈兵。 再看国外,268 元不仅打破了近年来国产 PC 游戏定价的天花板,还「被迫」进入了海外早已成熟的 3A 游戏的市场里。 249 元的《荒野大镖客 2》、268 元的《只狼》、279 元的《战神》都是其同价位段的直接有利竞争者。 另一方面,大家也怕它定价过低。 游戏科学(「黑猴」制作公司)创始人冯骥曾在接受媒体采访时透露: (该游戏)每小时的开发成本是 1500 到 2000 万元人民币。 该团队预估整体游戏时长将达到 15 个小时以上,而实际研发时长是这个时间的 1.5 倍以上。 我们按照最大数值计算《黑神话:悟空》: 15 小时×1.5×2000 万=4.5 亿 如果想要通过 268 元的售价赚回研发成本,至少要卖到 168 万份,若要算上游戏前期宣发、平台分成等方面投入,「黑猴」保守估计得卖出 300 万份,更有业内人士认为,500 万份的销量可能才是及格线。 既怕兄弟过不好,又怕兄弟步子太大摔一跤。 尽管形势严峻,但《黑神话:悟空》268 元的定价,依然是不二之选。 首先,虽然离开了国游平均较低定价的「温床」,但是和海外 3A 游戏相比,「黑猴」不贵,甚至还挺实惠。 其次,游戏市场的基本盘尤为关键,也就是这款游戏最庞大的玩家群体是谁。毫无疑问,对「黑猴」最重要的市场,就是国内。 我们不一一例举这款游戏在近几年引发的热搜话题,但从 B 站《黑神话悟空》官号里每一个演示视频惊人的播放量就能看出,这款游戏到底多受期待。 再者,这个定价大体契合了玩家的心理预期。 2021 年游戏产业年会的主机游戏论坛中曾经提到,根据一份 2021 年《黑神话:悟空》用户付费意愿的调查结果显示,大部分用户认为这款游戏的合理价格应落在 200 到 300 元。 268 元,不偏不倚地定在了中间。 甚至还有许多狂热粉丝还称「400 以上无脑买,500 以上闭眼买」。 去年,好评如潮的韩国游戏《匹诺曹的谎言》发售后不到一个月,销量就超过了 100 万套。 制作精良,蓄势四年的《黑神话:悟空》也有足够的理由,创造一个国产 3A 的神话。 我依稀记得,20 年 8 月,第一次看完「黑猴」13 分钟实机演示时的惊叹,还有在片尾听到《云宫迅音》时的汗毛竖起。 所以,首发价 268 元《黑神话:悟空》当然合理,它给自己留了回本余地,给玩家留了购买可能,给市场留了定价尊重。 等到 8 月,我们和大家体验完了完整版,再回来看看这个合理性,有没有达到预期。
AI Pin 折戟后,Humane 或正在找人接盘
在旗下「人工智能设备」AI Pin 向大众发货并收到大量差评一个月后,初创公司 Humane 可能想要找人接过这「烫手山芋」了。 彭博社从知情人士处获悉,Humane 正在寻找买家收购自家业务,为此还聘请了一位财务顾问,预期的价格在 7.5 亿至 10 亿美元左右,目前该过程仍处于早期阶段,也许最终不会达成协议。 而在 AI Pin 发布前,Humane AI 估值为 8.5 亿美元左右。 Humane 公司由前苹果公司两位资深员工 Imran Chaudhri 和 Bethany Bongiorno 夫妇于 2018 年成立,两人的愿景是打造出「由 AI 驱动的下一代计算设备」,而 AI Pin 就是出于这个目标打造的设备。 ▲ Imran Chaudhri 和 Bethany Bongiorno AI Pin 主打一个「颠覆交互」。这款没有显示屏,操作全靠「投影界面」的设备,根据 Humane 公司的预期,会是一款非常智能的设备,用户不需要掏出手机就能完成打电话、发短信、查信息等等操作。 ▲ 图源:The Verge 结果当这款未来设备来到人们的手上,大家才发现,AI Pin 不仅又卡又慢又烫(问个天气都要等 6 秒),而且手势操作和投影界面用起来非常麻烦和困难重重,和优雅炫酷等想象背道而驰。 所以,这款售价 699 美元,每个月还要收取 24 美元订阅费用的高价设备,几乎遭到了媒体和消费者的全面差评。 不过目前 Humane 还没有放弃对 AI Pin 口碑的挽救。在 OpenAI 上周发布 GPT-4o 后,Humane 产品设计主管 George Kedenburg 表示,AI Pin 已经获得了 GPT-4o 升级,在延迟、响应速度和准确率上都得到了大幅提升。 创始人 Imran Chaudhri 和 Bethany Bongiorno 曾经在 AI Pin 发布前曾接受访谈表示,他们认为 AI Pin 刚面世时能做到的事情会比较少,但是随着技术创新和系统更新,AI Pin 和后续产品都是「未来可期」的。 不过,在 AI Pin 推出并遭到大量批评后,这对创始人夫妇保持了沉默,没有对围绕 AI Pin 的种种言论进行回应和说明,也没有对公司和产品的未来进行进一步阐述。 AI Pin 不是 AI 热潮中唯一一款诞生的「AI 硬件」,与 AI Pin 类似的「Rabbit R1」也在上个月来到了大众手上。 虽然已经有了 AI Pin 的前车之鉴,大众也因为 AI Pin 放低了预期,但 Rabbit R1 的表现同样只能得到一个低分。不少媒体表示,Rabbit R1 不仅界面难用,响应速度慢,而且识别功能准确率非常低,会将红色的狗玩具识别为西红柿或者灯笼椒,并保证其完全可食用。 更尴尬的是,Rabbit R1 的系统「Rabbit OS」被扒出来疑似是一个不折不扣的 Android App:Android Authority 的编辑在 Pixel 6a 手机上安装了一个「Rabbit Launcher」启动器,并将手机成功变成了一台「Rabbit R1」,能运行 Rabbit R1 的大部分功能。 ▲ 搭载 Rabbit Launcher 的 Pixel 6a,图源:Android Authority 虽然 Rabbit 公司否认「Rabbit R1 就是一个 app」的说法,但是大众依旧质疑 Humane 和 Rabbit 的意义:一个 app 能完成的事情,为何还要单独购买一台几百刀的设备实现?也因为这些 AI 硬件没能达到预期,可以预想接下来大众对同类型产品的热情也不会有多高。 不过,产品发布仅仅只过了一个月就要出售业务,未免让人觉得有点太快。因为做产品从来都是一项「慢工出细活」的差事,Humane 创始人也赞同这种理念,在产品发布前表示「现阶段最重要的是倾听」,会逐渐让 AI Pin 强大起来。 目前 Humane 还没有回应出售传闻,彭博社也强调,目前出售计划也在很早期的阶段,很可能也不会达成协议。 迄今为止,Humane 已经从 OpenAI CEO Sam Altman 等其他投资者处筹集了 2.3 亿美金。Humane 创始人也曾经表示他们与 Sam Altman 之间的关系密切,并且为 Altman 准备了一台产品。 不过 Altman 目前为止也没有对 AI Pin 发表任何评价,他曾经在一次访谈中表示「AI 时代不需要新的硬件」,但又有传闻指出,他与著名设计师 Jony Ive 正在打造一款「AI 硬件」。
荣耀姜海荣辟谣:网传荣耀小折叠新机图是假的
【CNMO科技消息】在荣耀2024春季旗舰新品发布会上,荣耀CEO赵明在接受采访时表示,荣耀即将发布旗下首款竖折形态的小折叠屏手机。如今,有博主在微博放出了这款小折叠屏新机的渲染图,但是却遭到荣耀终端有限公司中国区CMO姜海荣的在线辟谣。 5月22日上午,有博主在微博放出了一张渲染图,该博主表示:“荣耀V Flip洛可可白真机图泄露,这个颜色怎么有种似曾相识的感觉?”根据该博主放出的图片可知,新机在背部搭载了一块超大面积副屏,甚至将整个影像模组都包裹其中。不过姜海荣在评论区进行了在线辟谣。他表示:“图是假的,超大外屏......” 通过姜海荣的回应,可以肯定的是上述的荣耀小折叠屏旗舰并不是像渲染图中的那样,至于是否会搭载超大外屏,他的回应有些暧昧,有网友猜测,姜海荣应该是辟谣了渲染图,但是并没有否认超大外屏的可能性。 不过此前的爆料在一定程度上揭示了新机很可能会配备超大尺寸外屏。相关物料元件显示,荣耀小折叠屏新机的外壳只有边框,这意味着新机的背壳上半部分将配备一块大的屏幕。如今,不少小折叠屏都选择在外屏上做文章,不断提高外屏的显示面积。而网传荣耀的这一设计为真的话,可以说是目前所有小折叠屏手机中外屏显示效果最惊艳的一个了。
纯血鸿蒙新麒麟,华为Mate 70注灵魂
去年华为 Mate 60 系列发布后“一机难求”的盛况,想必许多人至今都记忆犹新。 而将于下半年登场的 Mate 70 系列,很可能会重现前代的局面,毕竟作为华为手机的“嫡长子”,Mate 系列自带高热流量,上市初期是大众抢购热情最高涨的节点。 而且每一代新 Mate 都肩负着首发新技术的重任,其中不乏引人入胜的黑科技,看点拉满。 关于 Mate 70 系列,早在今年 1 月就有博主放料称,华为正在全力准备,不仅要硬刚苹果 iPhone 16 系列,更要剑指机皇。 后续,又有多个相关爆料流出,显示 Mate 70 会在多个层面焕然一新:全等深微曲屏、融入 AI 能力、采用超硬 AR 镀膜...... 以及在过去一段时间内,又陆续出现了多个与 Mate 70 有关的消息,将期待进一步拉高。 第一个是关于纯血鸿蒙。在第 21 届华为分析师大会中,华为徐直军表示,原生鸿蒙的生态建设“确实非常有挑战”。 他透露除了关键应用以外,还要再上 5000 个应用,未来再从 5000 个增加到 100 万个。 他还表示,华为努力的目标是期望在 Mate 70 系列手机开售时,能够带着纯血鸿蒙上市。 第二个同样是关于纯血鸿蒙。微博博主爆料称,HarmonyOS NEXT 内部排期在 9 月,下半年还将带来全场景新品,包括:直板旗舰、折叠旗舰、中端机、平板、手表等。 此前他还发文透露,现阶段的纯血鸿蒙,各种常用 App 都在积极适配,不过部分功能还没开发完成,会提示鸿蒙系统暂不支持,新版本流畅度基本追平现在的 HarmonyOS 4.0。 纯血鸿蒙的发展一直被外界高度关注,按照华为此前的规划,该系统将于 6 月举行的 HDC2024 开发者大会期间开启 Beta。 只是,由于其理论上只支持原生应用,如何处理那些重要但未适配的应用,不免让人好奇。 作为真正意义上独立自主的系统,很多人都期待纯血鸿蒙装机的实际效果。 届时,倘若 Mate 70 当真首发纯血鸿蒙,那热度真心不敢想。 第三个是关于影像配置,微博博主曾根据采购的物料推测,Mate 70 系列会搭载超大底新主摄 OV50K。 这颗传感器的尺寸达到了 1/1.3 英寸,先前已经在荣耀 Magic 6 至臻版 / RSR 中使用。 该博主还透露,Mate 70 在测试 OV50H 和 OV50K,预计标准版的主摄为前者,后者会用在高配版中。 他还表示,这颗传感器的尺寸不必做 Pura 70 Ultra 那样的伸缩结构,适合商务旗舰定位。 关于 OV50K 这颗传感器,确实值得说一番,它是目前已落地的国产最强主摄。 说起其最大的亮点,在于拥有 LOFIC 技术加持,该技术对标索尼的双层晶体管结构。 其原理,有博主进行过介绍:是在高亮度场景下,当电荷超过像素原本能承载的最大限度时,多余的电荷可以横向溢出到相邻的电容中,从而大幅提高满阱电荷容量,实现更宽的动态范围。 简单来说,作用是深度降噪、抑制高光过曝,把亮和暗的地方都拍得更好更还原。 据悉,OV50K 可以实现单反级的 15EV 超高动态范围,相比传统手机影像传感器提升 3 档以上。 如果 Mate 70 能用上,那成像效果会比前代更为出彩。 值得一提的是,曾有博主声称 Mate 70 会跳过 OV50K,直接用 OV50X。 这颗 OV50X,网传是由华为和豪威联合研发,尺寸达到了原生 1 英寸,目前说是超级大底范畴的 LOFIC 主摄。 但是鉴于 Mate 系列的定位,感觉将其留给明年的 Pura 80 更为合适。 第四个是关于指纹解锁方案。博主 @ Jerrold-Tech 透露,华为基本搞定了广域超声波。 该方案支持双频生物信号识别,识别准确率和响应速度很不错。 不过,他表示,最终上机是单点还是广域,不太确定,两个方案都有做。 其实在更早之前,该博主就曾带来过华为超声波指纹的详情,称测试方案的效果很好,指纹图像信噪比在稳定的前提下保持较高的水平。 并透露,华为应该不会先从短焦指纹过渡到超薄指纹,再过渡到超声波指纹,而是一步到位。 诚然广域的体验铁定要好过单点,但 Mate 70 最终能用上单点就足够了。 再怎么说,也会比现有的短焦指纹解锁要好太多。 当然了,既然是华为 Mate 系列,大家最关注的,想必是其所搭载的芯片。 特别是在 Pura 70 系列又带来两颗新芯片后,让 Mate 70 的芯片更具神秘色彩。 只是从过去半年多的情况来看,想要摸清芯片的命名、规格和信息,只能等展示机到位后才能得知。 不过从网络上关于麒麟 9000S 和麒麟 9010 的对比测试结果来看,新芯片值得期待。 另外,有关 Mate 70 系列的通讯能力亦是大看点,因为有华为相关人士曾表示,真正的 5.5G 手机要到 2024 年才会到来。 无论是从这个节点来看,还是从卖点的角度衡量,5.5G 由 Mate 70 搭载最为合适。 所谓 5.5G,就是 5G-A(5G-Advanced),即增强版 5G,也就是 5G Pro,在速率、时延、连接规模和能耗方面全面超越。 目前,OPPO、荣耀、小米等多品牌的旗舰机,均已升级支持 5.5G 网络技术。 纯血鸿蒙 + 新麒麟芯片,光是这两大灵魂,就足以让华为 Mate 70 系列预定爆款,更别说还有可能见到超声波指纹解锁技术。 纯血鸿蒙的生态建设是否完善,新麒麟的表现是否能打,太令人翘首以盼。 希望到时候 Mate 70 系列能不负大众的期待,重塑前代的荣光,带来更多的惊喜。 但最重要的是,备货量要尽可能管够......
苹果倒在手机AI时代?
撰文 | 文 林 编辑 | 杨博丞 苹果破天荒地降价了。 618来临,各大手机厂商纷纷开启降价促销模式,但这次。高傲的苹果也在降价之列,降价高达2000元。 日前,市场调研机构TechInsights发布最新数据:2024年一季度,中国智能手机出货量为6330万台,同比增长1%,结束了连续11个季度的下滑。 其中,前五大智能手机厂商总共占据了81.5%的市场份额,表明市场越发集中,其他厂商在规模和渠道方面将继续面临巨大的挑战。 而值得注意的是,在国内智能手机市场开始复苏时,苹果在中国市场的份额却仅为13.7%,这一数字不仅远低于其历史水平,更是跌出了前五名之外,被归类为“Others”类别。此外,多家机构数据也显示,今年一季度,苹果出货量下滑。 现如今,国内手机市场大洗牌,AI成为角逐的新赛道,一直“踌躇不前”的苹果似已失去往日的创新冲劲,在即将到来的AI手机时代落得下风。 一、谁抢了iPhone的份额? 尽管各家机构的统计数字互有差异、榜首不一,但可以肯定的是,苹果手机已跌落神坛,销量继续被国内同行所超越。 据TechInsights发布的数据显示,2024年第一季度,OPPO(含一加)以17.1%的市场份额领跑国内智能手机市场,荣耀以16.7%的市场份额位列第二;紧随其后的是的华为、vivo和小米,分别以16.6%、16.1%、15.0%的市场份额位列第三、第四和第五;而苹果以13.7%的市场份额跌出了前五名,渐渐“泯然众人矣”。 图源:TechInsights研报截图 而在全球市场上,苹果也遭遇了滑铁卢。据Canalys数据显示,苹果在核心市场遭遇挑战的情况下,一季度全球出货量出现双位数下滑,降至4870万部,位居第二。 iPhone销量不佳,这在苹果5月份发布的最新财报中也能得到印证。今年前三个月,苹果公司实现营收907.53亿美元,同比下降4%;作为其第三大市场的大中华区营收163.72亿美元,同比下降8%。这是自2020年一季度以来,苹果在该区域的最弱表现。 要知道,这还是在今年1月份,苹果中国官网罕见地开启“迎新春限时优惠”背景下的销售成绩。可即便这样,苹果出货量依然在下滑。 近些年,无论是在信号通话、电池续航、电池低温性能等传统领域,还是在屏幕防摔、AI拍摄、折叠屏等创新功能上,iPhone都显得竞争力不足。在华为手机没有推出高端旗舰机型的日子里,因为国内其他手机厂商还不够强大,苹果尚能维持自己的优势惯性。但随着华为的回归,苹果高端市场被抢走很大一部分。 据此前Canalys发布的2023年Q4中国手机市场报告显示,华为出货1040万台,通过旗舰新品出货同比上升47%,回归前五榜单,排名第四。今年前6周,华为在中国市场销量暴涨64%,市占率从9.4%上升到16.5%,超越了苹果。 图源:Counterpoint数据报告 尤其是华为Mate 60 Pro通过自研麒麟芯片以及卫星通话等创新功能,成为拉动华为出货量的增长,成功抢下了iPhone的高端市场。 也是因此,尽管拿出了调价促销的“杀手锏”,但苹果面临竞品的挑战和压力还是日益增大,亟需从软硬件全方位升级创新来吸引消费者。此外,苹果也因为其去年四季度没有新机发布,彼时推出了新品的厂商,则在今年一季度产品持续放量,继续蚕食着苹果的份额。 二、手机厂商为AI各显其能 谈及国内智能手机一季度市场时,IDC中国区副总裁王吉平曾对媒体表示:“首先,从排名上来看竞争非常激烈。其次,有AI加持的手机厂商增速表现更好。” 关于手机厂商对AI的进一步探索应用,可以追溯到去年8月份。彼时华为、荣耀、小米、OPPO等 Top 级手机厂商都开始积极尝试大模型落地方案。 现如今,AI已经成为手机产业链角逐的一个新赛道,芯片厂商、终端厂商、云服务商、应用厂商都已经加入进来。手机厂商们基本都已经发布了自己的AI大模型, 例如,TechInsights研报中前五的手机厂商: OPPO认为,从行业发展判断来看,AI手机将是继功能机、智能机之后,手机行业的第三阶段。OPPO创始人兼CEO陈明永更是强调要“举全公司之力”,抓住时代机会。 于是,OPPO率先制定了AI“三板斧”战略:成立AI中心、三级大模型部署策略、1+N智能体生态战略,并基于此战略在人员架构上做出重大调整,把所有AI相关的职能部门放到这一实体组织中。同时在人员资金等投入上,不设上限。 在建立了OPPO AI 滨海湾数据中心,推出了安第斯大模型(AndesGPT)后,OPPO的首款AI手机Find X7系列,已经能够实现系统级Agent,AI消除功能、AI通话摘要、AI超清合影等AI新功能,让大众更为具体地窥见了AGI的模样。 研报中,排名第二的荣耀则是以“AI四层架构”理论为基础: 第一层用AI使能跨系统融合,让不同的操作系统通过AI来做决策,实现手机、平板、PC等设备之间的无缝连接和数据共享; 第二层用AI重构操作系统,让手机越用越懂你、越用越好用; 第三层是AI在端侧的应用,比如抠图、拍照渲染、总结文档; 第四层则是AI的端云协同,将网络AI大模型应用呈现。 由此逐步推出MagicOS 8.0、魔法大模型、平台级AI深入系统,以及基于意图识别的人机交互模式,致力于改变人去适应机器的传统交互模式,让手机能够学习人,了解人,并能主动为人提供服务。 在4月底,IDC发布的最新手机季度跟踪报告中,荣耀以 17.1% 的市场份额拿下第一。此次荣耀登顶,既是市场对其产品理念的认可,也表明了AI已成为关键的增长引擎。 而以“王者归来”姿态展现于大众的华为,在AI战略地图上不只有盘古大模型,昇腾云和鸿蒙生态也为华为AI大模型的落地和发展提供了必不可少的算力和生态。 以华为Mate60手机搭载的AI云增强拍照功能为例,以往,手机拍摄的照片在处理大合照场景等特殊拍摄场景时常常存在画质不佳、细节模糊、噪点多等问题。 而在昇腾云X鸿蒙加持的云拍照增强下,手机将拍摄的图片上传到边缘节点CloudLake,并通过华为云网络传输调用终端主站的大规模昇腾集群来进行AI推理,经过算子优化后,推理时间从55s下降到3.3s,照片效果相较本地提升20%,更加高清、自然。 再比如发售不久的HUAWEI Pura 70系列,在影像上就提供了极速AI闪拍清晰技术,AI修图大师中的AI消除功能更是将修图效果提升到令人惊奇的程度。 据了解,AI消除功能采用了生成式盘古大模型架构,并利用海量高清图片进行数据训练,从而达到消除后照片的真实性与清晰度。 Vivo这边早些时候打出了一套“蓝科技”矩阵(蓝心大模型、蓝晶芯片技术栈、蓝河操作系统和蓝海电池),可通过终端、终端+云端和云端的多种不同组合,全面覆盖vivo智慧生态的核心应用场景。 而对于用户而言,最能直观带来感受的是基于“蓝心大模型”打造的智能助手——“蓝心小V”。 相较于传统智能手机助手,蓝心小V的功能覆盖面较为广泛,不仅可以轻松理解并执行用户的自然语言指令,如搜索手机内的照片、文件及短信内容,还具有强大的问答、文本生成、文章润色以及文生图、图生图、路人消除和智慧识屏等多项高级功能,实现了生成式AI在移动终端上的深度应用。 与前四位相比,小米在AI手机上的发声就比较低调了。相比于研究AI手机成品,小米似乎更注重AI芯片和算法。 不过,在今年的小米14 Ultra发布会上,小米影像大脑也打上了“首个AI大模型计算摄影平台”的名号,并以“Xiaomi AISP”作为全新名称。官方称,Xiaomi AISP不仅能大幅提升影像处理速度,也能在画质、色彩还原等方面达到新高度。 值得注意的是,小米的AIoT(AI+IoT)平台已成为全球最大的消费级AIoT平台之一。可以预见,不管小米AI手机做得如何,只要其AI芯片或大模型有所突破,所能带来的市场空间将不可小觑。 可以看出,正如IDC总结的那样,手机厂商们的AI思路主要包括三个部分,第一是语音的助手唤醒,第二是端侧要有模型,第三是智能体里有开发平台。 截止目前,国内头部手机厂商的旗舰产品中,语音助手、端侧模型已经成为标配,端云结合的算力配置更是成为趋势。而苹果由于其缺席折叠机、AI浪潮以及在性价比上被同行旗舰机反超,显然在市场竞争中已落下风。 三、“机随意动”的AI手机还有多远? 根据IDC的预测,自2024年起,新一代AI手机销量将会大幅度增长,并带动新一轮换机潮,2027年AI手机出货量将达到1.5亿台,市场份额超过50%。虽然目前AI手机占比还较小,但是已经和折叠屏一样成为新驱动力。 同时,Canalys也在中国AI市场趋势洞察报告中提到,防守市场份额并开发新的功能已经成为行业重点,而AI恰好是这一战略转变中的关键因素。 不过,尽管各大手机厂商的AI创新功能层出不穷,但我们距离接触到真正的AI手机还有很长一段路。 荣耀CEO赵明认为,AI手机意味着用AI来重构和使能手机应用和操作系统,以及消费者体验和业务逻辑的方方面面,“手机AI不等于AI手机。” 今年2月,IDC联合OPPO发布了一份《AI手机白皮书》,提出了定义AI手机的四项全新标准,更为直观地展现了AI手机的技术性和复杂性。 在AI时代,手机中接入或者内置大模型在无数次观察屏幕上的各种用户操作后,将会越来越精确的分析并总结出用户使用手机时的既定行为模式,并可以借助一些 Agent 技术,为用户提供自动化、个性化的操作。 例如出行时,到地铁站手机就会自动弹出乘车码,到机场会弹出登机牌;找照片时,只需要说出照片的特征,那张照片就会呈现在眼前;下班后,手机能自动帮你连接电视、投影仪等设备,并投屏好昨天未看完的电视剧,你只需要点击播放即可。 设备和服务始终跟随人,手机成为个人意识延伸的一部分。 这里,我们不妨再大胆一点去设想,当下AI和VR都已经取得了令人瞩目的进步和成果,如果将两者结合,电视剧《魔幻手机》中那个能根据用户的喜好和需求,提供各种服务和娱乐,甚至成为用户朋友和伴侣的“傻妞”,是不是也可以期待。 图源:电视剧《魔幻手机》 此外,值得一提的是,今年2月,时代杂志报道称,苹果解散了2000多人的造车团队,并将约1/3的团队成员转向AI部门,推动生成式AI项目。 同月,苹果CEO库克向福布斯透露了生成式AI项目进展:将会在今年6月的全球开发者大会,或是秋天的iPhone新系列发布会上公布最新进度。 尽管创新速度大不如前,但大家对苹果的技术滤镜仍在,期待苹果能给AI手机市场带来一个惊喜。 总之,如果说2023年是AI终端崛起的元年,那么今年就是AI终端磨合和发展的重要一年。在AI的推动下,手机厂商将会在今年带来更多创造性的功能,不断推动手机行业进行下一波增长。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。