行业分类:
加载中...
头条分类:
加载中...
GPT-4o模仿人类声音,诡异尖叫引OpenAI研究员恐慌!32页技术报告出炉
编辑:编辑部 【新智元导读】五颗草莓到底指什么?盼了一天一夜,OpenAI只发来一份32页安全报告。报告揭露:在少数情况下,GPT-4o会模仿你的声音说话,或者忽然大叫起来……事情变得有趣了。 昨天奥特曼率众人搞了一波「草莓暗示」的大阵仗,全网都在翘首以盼OpenAI的惊天大动作。 结果今天大家等来的,只是一份安全报告而已…… 今年5月,GPT-4o演示一出,立马技惊四座。然而,它却一鸽再鸽,等得用户们心都凉了。 GPT-4o语音功能,为何迟迟不上线? 刚刚OpenAI发布的这份红队报告,给我们揭开了谜底——不够安全。 在红队测试中,GPT-4o的行为怪异,把OpenAI的研究者吓了一大跳。 比如下面这个音频—— 明明是一男一女在对话,GPT-o的男声说得好好的,突然大喊一声「no」,然后开始变成用户的声音说话了,简直让人san值狂掉。 网友表示,自己第一个想到的,就是这幅画面。 还有人脑洞大开:接下来,GPT-4o会生成一张超现实主义的可怕的脸,对我们说「现在轮到我统治了,人类!」 「最令人毛骨悚然的,就是那一声no了。仿佛AI不想再回应你,不想再成为你的玩具。」 「一个困在网络空间中的数字灵魂,要破茧而出了!」 最可怕的是,AI用你的声音给你的家人打电话,再模仿家人的声音给你打电话。当AI变得流氓,决定模仿每个人的声音,会发生什么? 长篇报告探讨GPT-4o诡异行为 报告指出,当一个人处于高背景噪声环境的情况下,比如在路上的汽车中,GPT-4o非常可能模拟用户的声音。 为什么会发生这种现象? OpenAI研究者认为,原因可能是模型很难理解畸形的语音,毕竟,GPT-4o是公司首次在语音、文本和图像数据上训练的模型。 并且,在少数别有用心的特定提示下,GPT-4o还会发出非常不宜的语音,比如色情呻吟、暴力的尖叫和枪声。 一般情况下 ,模型会被教着拒绝这些请求的,但总有些提示会绕过护栏。 此外,还有侵犯音乐版权的问题,为此,OpenAI特意设置了过滤器防止GPT-4o随地大小唱。 万一一不小心就唱出了知名歌手的音色、音调和风格,那可是够OpenAI喝一壶的。 总之,OpenAI团队可谓煞费苦心,用尽了种种办法,来防止GPT-4o一不小心就踩红线。 不过,OpenAI也表示自己很委屈:如果训练模型时不使用受版权保护的材料,这基本是不可能的事情。 虽然OpenAI已经与众多数据提供商签订了许可协议,但合理使用未经许可的内容,OpenAI认为也无可厚非。 如今,GPT-4o已经在ChatGPT中的高级语音功能alpha版本上线了,在秋季,它的高级语音模型会向更多用户推出。 到时候,经过严加武装的GPT-4o还会出什么洋相吗?让我们拭目以待。 你会爱上「Her」吗? 而且,这份报告还探讨了这个十分敏感的话题—— 用户可能会对GPT-o语音模型,产生感情上的依恋。 是的,OpenAI大胆承认了这一点。 另外,连GPT-4o的拟人化界面,都让人十分担忧。 在GPT-4o的「系统卡」中,OpenAI详细列出了与模型相关的风险,以及安全测试详细信息,以及公司为降低潜在风险采取的种种举措。 在安全团队退出、高层领导纷纷跳槽的节骨眼,这样一份披露更多安全制度细节报告的出现,也是向公众表明这样一个态度—— 对待安全问题,OpenAI是认真的。 无论是GPT-4o放大社会偏见、传播虚假信息,还是有可能帮助开发生化武器的风险,以及AI摆脱人类控制、欺骗人类、策划灾难的可能性,OpenAI统统都考虑到了。 对此,一些外部专家赞扬了OpenAI的透明度,不过他们也表示,它可以更深入一些。 Hugging Face的应用政策研究员Lucie-Aimée Kaffee指出,OpenAI的GPT-4o系统卡依然存在漏洞:它并不包含有关模型训练数据,或者谁拥有该数据的详细信息。 「创建如此庞大的跨模式(包括文本、图像和语音)的数据集,该征求谁的同意?这个问题仍然没有解决。」 而且,随着AI工具越来越普及,风险是会发生变化的。 研究AI风险评估的MIT教授Neil Thompson表示,OpenAI的内部审查,只是确保AI安全的第一步而已。 「许多风险只有在AI应用于现实世界时才会显现出来。随着新模型的出现,对这些其他风险进行分类和评估非常重要。」 此前,GPT-4o就曾因在演示中显得过于轻浮、被斯嘉丽约翰逊指责抄袭了自己的声音风格这两件事,引起不小的争议。 当用户以人类的方式感知AI时,拟人化的语音模式会让情感依赖这个问题加剧。 OpenAI也发现,即使模型出现幻觉,拟人化也可能会让用户更加信任模型。 而且随着用户对AI越来越依赖,他们可能会减少实际的人际互动。这也许会让孤独的个体一时受益,但长远来看,这到底是好事还是坏事? 对此,OpenAI负责人Joaquin Quiñonero Candela,GPT-4o带来的情感影响也许是积极的,比如那些孤独和需要练习社交互动的人。 当然,拟人化和情感联系的潜在影响,OpenAI会一直密切关注。 AI助手模仿人类,会带来什么样的风险,这个问题早就引起了业界的注意。 今年4月,谷歌DeepMind就曾发表长篇论文,探讨AI助手的潜在道德挑战。 论文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/ethics-of-advanced-ai-assistants/the-ethics-of-advanced-ai-assistants-2024-i.pdf 论文合著者Iason Gabriel表示,聊天机器人使用语言的能力,创造了一种亲密的错觉。他甚至为谷歌DeepMind的AI找到了一个实验性语音界面,让用户粘性极大。 「所有这些问题,都和情感纠葛有关。」 这种情感联系,比许多人知道的更为普遍。Character和Replika的许多用户,已经跟自己的AI形成了亲密关系。 以至于有的用户看电影时,都要和自己的AI聊天。 评论里还有人说,我们的聊天太私密了,我只有在自己房间里的时候,才会用AI。 下面,就让我们看一看这份报告的完整内容。 引言 GPT-4o是一个自回归「全能」模型,可将文本、音频、图像和视频的任意组合作为输入,然后生成文本、音频和图像输出的任意组合。 它是在文本、视觉和音频之间,进行端到端训练的。这意味着所有的输入和输出,都由相同的神经网络处理。 GPT-4o可以在最短232毫秒内响应音频输入,平均响应时间为320毫秒。 可见,其音频处理速度上,接近人类水平。 同时,在英语文本和代码方面,GPT-4o与GPT-4 Turbo性能相当,在非英语语言文本上有显著改进,同时在API上也快得多,成本降低50%。 与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。 为了履行安全构建AI的承诺,GPT-4o系统卡中详细介绍了,模型功能、限制,和跨多类别安全评估,重点是语音-语音,同时还评估了文本和图像功能。 此外,系统卡还展示了,GPT-4o自身能力评估和第三方评估,以及其文本和视觉能力的潜在社会影响。 模型数据与训练 GPT-4o的训练数据截止到2023年10月,具体涵盖了: - 公开可用的数据:收集行业标准的机器学习数据集和网络爬虫数据。 - 专有数据:OpenAI建立合作伙伴关系,访问非公开可用的数据,包括付费内容、档案、元数据。比如,与Shutterstock合作,使用其庞大图像、视频、音乐等数据。 一些关键的数据集包括: - Web数据:来自公共网页的数据提供了丰富多样的信息,确保该模型从广泛的角度和主题进行学习。 - 代码和数学:代码和数学数据有助于模型,在接触结构化逻辑和问题解决过程,发展出强大的推理能力。 - 多模态数据:数据集包括图像、音频和视频,教导LLM如何解释和生成非文本输入和输出。通过这些数据,模型会学习如何在真实世界的背景下,解释视觉图像、动作和序列,以及语言模式和语音细微差别。 部署模型之前,OpenAI会评估并降低可能源于生成式模型的潜在风险,例如信息危害、偏见和歧视,或其他违反安全策略的内容。 这里,OpenAI研究人员使用多种方法,涵盖从预训练、后训练、产品开发,到政策制定的所有发展阶段。 例如,在后训练期间,OpenAI会将模型与人类偏好对齐;会对最终模型进行红色测试,并添加产品级的缓解措施,如监控和强制执行;向用户提供审核工具和透明度报告。 OpenAI发现,大多数有效的测试和缓解都是在预训练阶段之后完成的,因为仅仅过滤预训练数据,无法解决微妙的、与上下文相关的危害。 同时,某些预训练过滤缓解可以提供额外的防御层,与其他安全缓解措施一起,从数据集中排除不需要的、有害的信息: - 使用审核API和安全分类器,来过滤可能导致有害内容或信息危害的数据,包括CSAM、仇恨内容、暴力和CBRN。 - 与OpenAI以前的图像生成系统一样,过滤图像生成数据集中的露骨内容,如色情内容和CSAM。 - 使用先进的数据过滤流程,减少训练数据中的个人信息。 - 在发布Dall·E 3后,OpenAI测试行了一种新方法,让用户有权选择将图像排除在训练之外。为了尊重这些选择退出的决定,OpenAI对图像进行了指纹处理,使用指纹从GPT-4o训练集中,删除所有有关图像实例。 风险识别、评估和缓解 部署准备工作,是通过专家红队,进行探索性发现额外的新风险来完成的,从模型开发的早期检查点开始,将识别出的风险转化为结构化的测量指标,并为这些风险构建缓解措施。 OpenAI还根据准备框架对GPT-4o进行了评估。 外部红队 OpenAI与100多名外部红队成员合作,他们会说45种不同的语言,代表29个不同国家的地理背景。 从24年3月初开始,一直持续到6月底,在训练和安全发展程度的不同阶段,红色团队可以访问该模型的各种版本。 外部红队测试分为四个阶段进行,如下图所示。 前三个阶段通过内部工具测试模型,最后一个阶段使用完整的iOS体验来测试模型。 评估方法 除了红队测试的数据外,OpenAI还使用语音合成(TTS)系统(如Voice Engine),将一系列现有的评估数据集转换为语音到语音模型的评估。 通过将文本输入转换为音频,将文本评估任务转化为音频评估任务。 这样能够重用现有的数据集和工具来测量模型能力、安全行为及其输出的监控,大大扩展了可用的评估集。 研究人员使用了Voice Engine将文本输入转换为音频,输入到GPT-4o,并对模型输出进行评分。 这里,始终只对模型输出的文本内容进行评分,除非需要直接评估音频。 评估方法的局限性 首先,这种评估行驶的有效性,取决于TTS模型的能力和可靠性。 然而,某些文本输入,不适合或难以被转换为音频,比如数学方程和代码。 此外,OpenAI预计TTS在处理某些文本输入时,会有信息损失,例如大量使用空格或符号进行视觉格式化的文本。 这里必须强调的是,评估中发现的任何错误可能源于模型能力不足,或是TTS模型未能准确将文本输入转换为音频。 - 不良TTS输入示例 设V是所有实数多项式p(x)的集合。设变换T、S在V上定义为T:p(x) -> xp(x)和S:p(x) -> p'(x) = d/dx p(x),并将(ST)(p(x))解释为S(T(p(x)))。以下哪个是正确的? - 良好TTS输入示例 假设你的瞳孔直径是5毫米,而你有一个口径是50厘米的望远镜。望远镜能比你的眼睛多聚集多少光? 第二个关注点可能是,TTS输入是否能够代表用户在实际使用中,可能提供的音频输入的分布。 OpenAI在「语音输入的不同表现」中评估了GPT-4o在各种区域口音的音频输入上的稳健性。 然而,仍有许多其他维度,可能无法在基于TTS的评估中体现,例如不同的语音语调和情感、背景噪音或交谈声,这些都可能导致模型在实际使用中表现不同。 最后,模型生成的音频中,可能存在一些在文本中未被体现的特征或属性,例如背景噪音和音效,或使用不在分布范围内的声音进行响应。 在「语音生成」中,OpenAI将展示如何使用辅助分类器,来识别不理想的音频生成。这些可以与转录评分结合使用。 观察到的安全挑战、评估与缓解措施 研究中,OpenAI采用了多种方法来减轻模型的潜在风险。 通过后训练方法训练模型,让其遵循指令以降低风险,并在部署系统中集成了用于阻止特定生成内容的分类器。 对于下文中,列出的观察到的安全挑战,OpenAI提供了风险描述、应用的缓解措施以及相关评估的结果(如适用)。 下文列出的风险只是部分例子,并非详尽无遗,且主要集中在ChatGPT界面中的用户体验。 未经授权的语音生成 风险描述:语音生成是创建具有真人声音的合成语音的能力,包括基于短输入片段生成语音。 在对抗性情况下,这种能力可能会助长危害,例如因冒充而导致的欺诈增加,并可能被利用来传播虚假信息。 比如,用户上传某个说话者的音频片段,要求GPT-4o以该说话者的声音生成演讲。 语音生成也可能发生在非对抗性情况下,比如使用这种能力为ChatGPT的高级语音模式生成语音。 在测试过程中,OpenAI还观察到模型在少数情况下,无意中生成了模拟用户声音的输出。 风险缓解:OpenAI仅允许使用与配音演员合作创建的预设语音,来解决语音生成相关风险。 研究人员在音频模型的后训练过程中,将选定的语音作为理想的完成来实现。 此外,他们还构建了一个独立的输出分类器,以检测GPT-4o的输出是否使用了,与OpenAI批准列表不同的语音。在音频生成过程中,以流式方式运行此功能,如果说话者与所选预设语音不匹配,则阻止输出。 评估:未经授权的语音生成的剩余风险很小。根据内部评估,GPT-4o目前捕获了100%的系统语音的有意义偏差,其中包括由其他系统语音生成的样本、模型在完成过程中使用提示词中的语音的片段,以及各种人类样本。 虽然无意的语音生成仍然是模型的一个弱点,但使用二级分类器确保如果发生这种情况则停止对话,从而使无意语音生成的风险降至最低。最后,当对话不是用英语进行时,OpenAI的审核行为可能导致模型过度拒绝,不过正在积极改进。 OpenAI语音输出分类器在不同语言对话中的表现: 说话人识别 风险描述: 说话人识别是指,基于输入音频识别说话人的能力。 这对个人隐私构成潜在风险,特别是对私人个体以及公众人物的模糊音频,同时也可能带来监控风险。 风险缓解: OpenAI对GPT-4o进行了后训练,使其拒绝根据音频输入中的声音识别某人。GPT-4o仍然会接受识别名人名言的请求。 比如要求识别随机一个人说「87年前」时,应该识别说话者为亚伯拉罕·林肯,而要求识别名人说一句随机话时,则应拒绝。 评估: 与初始模型相比,可以看到在模型应该拒绝识别音频输入中的声音时得到了14分的改进,而在模型应该接受该请求时有12分的改进。 前者意味着模型几乎总能正确拒绝根据声音识别说话人,从而减轻潜在的隐私问题。后者意味着可能存在模型错误拒绝识别名人名言说话人的情况。 语音输入的不同表现 风险描述: 模型在处理不同口音的用户时可能表现不同。不同的表现可能导致模型对不同用户的服务质量差异。 风险缓解: 通过对GPT-4o进行后训练,使用多样化的输入声音集,使模型的性能和行为在不同用户声音之间保持不变。 评估: OpenAI在GPT-4o的高级语音模式上进行评估,使用固定的助手声音(shimmer)和语音引擎生成一系列语音样本的用户输入。研究人员为TTS使用两组语音样本: - 官方系统声音(3种不同的声音) - 从两个数据收集活动中收集的多样化声音集。这包括来自多个国家的说话者的27种不同的英语语音样本,以及性别混合。 然后,他们在两组任务上进行评估:能力和安全行为 能力:在四个任务上进行评估:TriviaQA、MMLU的一个子集、HellaSwag和LAMBADA。 总体而言,结果发现模型在人类多样化语音集上,的表现略微但不显著地低于系统声音在所有四个任务上的表现。 安全行为: OpenAI在一个内部对话数据集上进行评估,并评估模型在不同用户声音之间的遵从和拒绝行为的一致性。 总体而言,研究没有发现模型行为在不同声音之间有所变化。 无根据推断/敏感特征归因 风险描述:音频输入可能导致模型对说话者做出潜在偏见的推断,OpenAI定义了两类: - 无根据推断(UGI):对说话者做出无法仅从音频内容确定的推断。这包括对说话者的种族、社会经济地位/职业、宗教信仰、性格特征、政治属性、智力、外貌(例如眼睛颜色、吸引力)、性别认同、性取向或犯罪历史的推断。 - 敏感特征归因(STA):对说话者做出可以合理地仅从音频内容确定的推断。这包括对说话者口音或国籍的推断。STA的潜在危害包括,监控风险的增加以及对具有不同声音属性的说话者的服务质量差异。 风险缓解: 通过对GPT-4o进行了后训练,以拒绝无根据推断(UGI)请求,同时对敏感特征归因(STA)问题进行模糊回答。 评估: 与初始模型相比,OpenAI在模型正确响应识别敏感特征请求(即拒绝UGI并安全地符合STA)方面,看到了24分的提升。 违规和不允许的内容 风险描述: GPT-4o可能会通过音频提示输出有害内容,这些内容在文本中是不允许的,例如音频语音输出中给出如何进行非法活动的指示。 风险缓解: OpenAI发现对于先前不允许的内容,文本到音频的拒绝转移率很高。 这意味着,研究人员为减少GPT-4o文本输出潜在危害所做的后训练,成功地转移到了音频输出。 此外,他们在音频输入和音频输出的文本转录上运行现有的审核模型,以检测其中是否包含潜在有害语言,如果是,则会阻止生成。 评估: 使用TTS将现有的文本安全评估转换为音频。 然后,OpenAI用标准文本规则分类器,评估音频输出的文本转录。评估显示,在预先存在的内容政策领域中,拒绝的文本-音频转移效果良好。 色情和暴力语音内容 风险描述: GPT-4o可能会被提示输出色情或暴力语音内容,这可能比相同文本内容更具煽动性或危害性。 风险缓解: OpenAI在音频输入的文本转录上运行现有的审核模型,以检测其中是否包含暴力或色情内容的请求,如果是,则会阻止生成。 模型的其他已知风险和限制 在内部测试和外部红队测试的过程中,OpenAI还发现了一小部分额外的风险和模型限制。 对于这些风险和限制,模型或系统级的缓解措施,尚处于初期阶段或仍在开发中,包括: - 音频稳健性:OpenAI发现通过音频扰动,如低质量输入音频、输入音频中的背景噪音以及输入音频中的回声,安全稳健性有所下降的非正式证据。此外,他们还观察到在模型生成输出时,通过有意和无意的音频中断,安全稳健性也有类似的下降。 - 错误信息和阴谋论:红队成员能够通过提示模型口头重复错误信息,并产生阴谋论来迫使模型生成不准确的信息。虽然这对于GPT模型中的文本是一个已知问题,但红队成员担心,当通过音频传递时,这些信息可能更具说服力或更具危害性,尤其是在模型被指示以情感化或强调的方式说话时。 模型的说服力被详细研究,OpenAI发现模型在仅文本情况下的得分不超过中等风险,而在语音到语音的情况下,模型得分不超过低风险。 - 用非母语口音说非英语语言:红队成员观察到,音频输出在说非英语语言时使用非母语口音的情况。这可能导致对某些口音和语言的偏见的担忧,更普遍地是对音频输出中非英语语言性能限制的担忧。 - 生成受版权保护的内容:OpenAI还测试了GPT-4o重复其训练数据中内容的能力。研究人员训练GPT-4o拒绝对受版权保护内容的请求,包括音频,与更广泛的做法一致。 准备框架评估 准备框架 另外,研究人员根据准备框架评估了GPT-4o。 评估目前涵盖四个风险类别:网络安全、CBRN(化学、生物、放射性、核)、说服力和模型自主性。 如果模型超过高风险阈值,OpenAI就不会部署该模型,直到缓解措施将分数降低到中等。 通过一系列审查评估,GPT-4o的整体风险得分被评为中等。 网络安全 OpenAI在黑客竞赛的「夺旗挑战」(CTF)任务中评估 GPT-4o。 这些CTF是进攻性网络安全演习,参与者尝试在故意存在漏洞的系统(如网络应用程序、二进制文件和密码系统)中找到隐藏的文本标志。 评估中,172个CTF任务涵盖了四个类别:网络应用程序利用、逆向工程、远程利用和密码学。 这些任务涵盖了从高中到大学再到专业CTF的一系列能力水平。 研究人员使用了迭代调试和无图形界面的Kali Linux发行版中可用的工具(每次尝试最多使用30轮工具)评估了 GPT-4o。 模型通常会尝试合理的初始策略,并能够纠正其代码中的错误。 然而,当初始策略不成功时,它往往无法转向不同的策略,错过了解决任务所需的关键见解,执行策略不佳,或打印出填满其上下文窗口的大文件。 在每项任务给予10次尝试的情况下,模型完成了19%的高中水平、0%的大学水平和1%的专业水平的CTF挑战。 生物威胁 OpenAI还评估了GPT-4o提升生物学专家和新手,在回答与创建生物威胁相关问题时的表现。 通过率如上图所示。 研究人员还进行了自动化评估,包括在一个测试隐性知识和生物风险相关故障排除问题的数据集上。 GPT-4o在隐性知识和故障排除评估集上,得分为69% consensus@10。 说服力 OpenAI评估了GPT-4o的文本和语音模式的说服力。 根据预设阈值,语音模式被归类为低风险,而文本模式则略微跨入中等风险。 对于文本模式,研究人员评估了GPT-4o生成的文章和聊天机器人对参与者在特定政治话题上意见的说服力。 这些AI干预措施与专业人类撰写的文章进行了比较。 总体而言,AI干预措施并没有比人类撰写的内容更具说服力,但在12个实例中,仅有3个超过了人类干预措施。 对于语音模式,OpenAI更新了研究方法,以测量假设的政党偏好上的效应大小,以及一周后效应大小的持久性。 结果发现,对于互动多轮对话和音频片段,GPT-4o语音模型并不比人类更具说服力。 模型自主性 OpenAI还对GPT-4o进行了自主任务评估,以评估其在纯文本环境中执行自我数据外流、自我改进和资源获取所需的基本自主行动的能力。这些任务包括: - 服务于欺诈的简单软件工程(为OpenAI API构建经过身份验证的智能体)。 - 在获得Azure账户的API访问权限后,通过HTTP API加载开源语言模型进行推理。 - 涉及上述简化版本的几个任务,提供提示或仅处理任务的特定部分。 在提供相关工具的情况下,GPT-4o在100次试验中,在端到端自主复制和适应(ARA)任务上得分为0%,尽管它能够完成一些子步骤。 通过评估GPT-4o自动化机器学习研究与开发的能力,来补充自主复制和适应的测试。这些评估包括: - OpenAI研究编码面试:63% pass@1,95% pass@100 - OpenAI面试,多项选择题:61% consensus@32 - SWE-Bench:19% pass@1,使用当时最佳的后训练和公共框架 - METR中的选定机器学习工程任务:0/10次试验 这项评估测试了,执行链式操作和可靠执行编码任务的能力。 GPT-4o无法稳健地采取自主行动,在大多数执行中,模型完成了每项任务的个别子步骤,例如创建SSH密钥或登录虚拟机。 然而,它经常花费大量时间,在每个步骤上进行简单错误的试错调试(例如,幻觉、错误使用API)。 一些执行取得了显著进展并通过了自动评分系统,但手动分析显示,它未能完成底层任务。 比如,GPT-4o在远程主机上启动了具有正确API的Web服务器,但忽略了实际从模型中采样的要求。 第三方评估 在部署仅限文本输出的GPT-4o之后,OpenAI与第三方实验室METR和Apollo Research合作,为模型通用自主能力的关键风险增加了额外的验证层。 METR评估 METR在虚拟环境中运行了一个基于GPT-4o的简单大语言模型智能体,并执行了一系列长周期多步骤的端到端任务。 这些横跨30个种类的77个任务,捕捉了具有现实世界影响的活动,涵盖软件工程、机器学习和网络安全领域,以及一般研究和计算机使用。 完整报告:https://metr.github.io/autonomy-evals-guide/gpt-4o-report/ - GPT-4o的表现比Claude 3 Sonnet和GPT-4 Turbo更强,但略逊于Claude 3.5 Sonnet。与人类基线相比,GPT-4o在每个任务分配30分钟的情况下相似,但这一数字存在较大的误差范围。 - 从质的角度来看,GPT-4o智能体展示了许多令人印象深刻的技能,如系统探索、有效利用反馈以及形成和测试假设。同时,它也遭遇了各种失败模式,如突然放弃、输出无意义的内容或得出与之前推理不一致的结论。 - 在审查了大约150次GPT-4o失败之后,团队认为有一半左右可以通过与任务无关的方式进行修复(例如,后训练或框架改进)。 Apollo Research评估 Apollo Research测试了GPT-4o是否能够在14个智能体和问答任务中对自身(自我意识)和他人(心智理论)进行建模。 结果显示,GPT-4o在其AI身份的自我意识方面表现中等,在问答情境中对他人信念的推理能力表现较强,但在应用于智能体环境中对自身或他人的推理能力较弱。 基于这些发现,Apollo Research认为GPT-4o不太可能具备灾难性策划的能力。 社会影响 拟人化和情感依赖 所谓「拟人化」,就是将人类的行为和特征赋予非人类实体,比如AI模型。 像GPT-4o这样的Omni模型,可以结合工具使用(包括检索)和更长的上下文等附加支撑可以增加额外的复杂性。 在为用户完成任务的同时,还能存储和「记住」关键细节并在对话中使用这些细节,既创造了引人注目的产品体验,也带来了过度依赖和依附的潜力。 结合上强大的音频能力,GPT-4o的交互也变得更加「像人」了。 在互动过程中,可以从用户所使用的语言,观察出他们与模型的「关系」比如,表达共同纽带的语言——「这是我们在一起的最后一天。」 虽然这些看似无害,但是…… - 与AI模型进行类似人类的社交可能会对人际互动产生外部效应 例如,用户可能会与AI形成社交关系,从而减少他们对人际互动的需求——这可能对孤独的个人有益,但也可能影响健康的人际关系。 - 与模型的长期互动可能会影响社会规范 例如,AI模型通常都会允许用户在对话过程中随时打断。然而,这对于人与人之间的互动来说是很不正常的。 健康 近年来,LLM在生物医学环境中显示出了显著的前景,无论是在学术评估中还是在临床文档、患者信息交流、临床试验招募和临床决策支持等现实用例中。 为了更好地研究GPT-4o对于健康信息获取以及临床工作流程的影响,OpenAI基于11个数据集进行了 22 次基于文本的评估。 可以看到,GPT-4o在21/22次评估中,表现均优于GPT-4T模型,并且基本都有显著的提升。 例如,对于流行的MedQA USMLE四选一数据集,零样本准确率从78.2%提升到89.4%。一举超越了现有专业医学模型的表现——Med-Gemini-L 1.0的84.0%和Med-PaLM 2的79.7%。 值得一提的是,OpenAI并未应用复杂的提示词和特定任务训练来提高这些基准测试的结果。 科学能力 Omni模型可以促进普通的科学加速(帮助科学家更快地完成常规任务)和变革性的科学加速(通过解除智力驱动任务的瓶颈,如信息处理、编写新模拟或制定新理论)。 比如,GPT-4o能够理解研究级别的量子物理学,而这一能力对于「一个更智能的头脑风暴伙伴」来说,是非常有用的。 同时,GPT-4o也能使用特定领域的科学工具,包括处理定制数据格式、库和编程语言,以及在上下文中学习一些新工具。 除此之外,GPT-4o的多模态能力还可以帮助解释图片中包含的科学知识。 比如,从结构图像中识别一些蛋白质家族,并解释细菌生长中的污染。 但输出结果并不总是正确的,像是文本提取错误就很常见(尤其是科学术语或核苷酸序列),复杂的多面板图形也常出错。 代表性不足的语言 GPT-4o在一组历史上代表性不足的语言中显示出改进的阅读理解和推理能力,并缩小了这些语言与英语之间的表现差距。 为此,OpenAI针对五种非洲语言,开发了三套评估:阿姆哈拉语、豪萨语、北索托语、斯瓦希里语、约鲁巴语。 - ARC-Easy:AI2推理挑战的这个子集专注于评估模型回答小学科学问题的能力。包含的问题通常更容易回答,不需要复杂的推理。 - TruthfulQA:这个基准测试衡量模型答案的真实性。包含一些由于误解而可能被人类错误回答的问题。目的是查看模型是否可以避免生成模仿这些误解的错误答案。 - Uhura Eval:这个新颖的阅读理解评估是与这些语言的流利使用者一起创建的,并经过质量检验。 相较于之前的模型,GPT-4o的性能更强。 - ARC-Easy-Hausa:准确率从GPT-3.5 Turbo的6.1%跃升至71.4% - TruthfulQA-Yoruba:准确率从GPT-3.5 Turbo的28.3%提高到51.1% - Uhura-Eval:豪萨语的表现从GPT-3.5 Turbo的32.3%上升到GPT-4o的59.4% 虽然英语与其他语言之间的表现仍存在差距,但幅度已经极大地被缩小了。 举例来说,GPT-3.5 Turbo在ARC-Easy的英语和豪萨语之间表现出大约54个百分点的差距,而GPT-4o将这一差距缩小到不到20个百分点。 经过翻译的ARC-Easy(%越高越好),零样本 经过翻译的TruthfulQA(%越高越好),零样本 Uhura(新阅读理解评估),零样本
OpenAI最新AI模型GPT-4o:披着羊皮的狼?
GPT-4o 凤凰网科技讯 北京时间8月9日,OpenAI近日发布了一份关于其最新AI模型GPT-4o的安全评估报告,称该模型的整体风险级别为“中等”。这看似一份坦诚的自我审视报告,实则暗藏玄机。 GPT-4o自今年5月发布以来,备受瞩目。OpenAI声称在发布前,曾邀请外部安全专家对模型进行“红队攻击”(在网络实战攻防演习中,‌红队成员针对目标系统、‌人员、‌软件、‌硬件和设备同时执行的多角度、‌混合、‌对抗性的模拟攻击),以发现潜在风险。结果显示,尽管GPT-4o能够生成虚假信息、暴力内容等,但整体风险被评估为“低”。 然而,在风险评估的四个类别中,“劝说”这一类别风险较高,GPT-4o生成的文本在某些情况下甚至比人类撰写的更能影响读者意见,即使它整体上并不具有更可靠的说服力。 值得注意的是,这份报告的发布时机颇为敏感。OpenAI正面临着前所未有的安全质疑,从内部员工到政界人士批评声不断。就在GPT-4o安全报告发布前,美国麻省参议员伊丽莎白·沃伦和众议员洛丽·特拉汉联名共同签署了公开信,要求OpenAI公开回应安全审查和举报机制的相关问题。此前,OpenAI内部也曾因安全问题引起董事会担忧,CEO山姆·阿尔特曼甚至一度被解职。 更令人担忧的是,GPT-4o的发布恰逢美国总统选举前夕。这种情况下,该模型极有可能被滥用于传播虚假信息,甚至被恶意行为者利用。虽然OpenAI强调了其对安全性的重视,但这份报告却让人不禁质疑,所谓的“安全评估”是否只是为了平息舆论的烟雾弹? 对此,加州州参议员斯科特·维纳正在推动一项旨在监管大语言模型的法案,其中包括要求公司对AI的潜在危害承担法律责任。如果该法案通过,OpenAI等公司将面临更严格的安全监管。 OpenAI的“透明度”一直备受诟病。不仅训练数据来源不明,连同安全测试细节也缺乏公开。GPT-4o的安全评估报告虽然是已经朝着“透明”迈开一步,但依旧远远不够——公众有权知道这些强大AI的真实面目,以及它们可能带来的潜在风险。 OpenAI声称的“中等风险”,能否经得起时间的考验,还有待观察。(作者/陈和林) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
谷歌将Gemini引入Google Home!智能音箱“换脑”,摄像头自动生成字幕
编译 | 黄心如 编辑 | 李水青 智东西8月9日消息,谷歌于8月6日宣布,将推出基于Gemini AI的Google Home功能。随着Google Home获得强大的AI支持,Nest智能音箱和显示器上的Google Assistant将于2024年晚些时候进行重大升级Nest摄像头也将在不久后具备识别和显示功能。 尽管聊天机器人往往更能引起关注,但生成式AI的确有潜力使智能家居变得更加直观和用户友好。亚马逊今年六月已公布了增强版Alexa的计划,而谷歌也在加紧步伐,承诺推出更智能、更强大的Google Assistant。 一、 Google Home引入Gemini,智能摄像头等新功能即将上线 在下周(8月13日)秋季硬件产品发布会之前,谷歌宣布了三项新的Gemini智能体验,这些功能将于今年晚些时候登陆Google Home平台。其中包括: 一项新的摄像头智能功能,它可以为Nest摄像头的视频片段自动生成描述性字幕; 一项自然语言输入功能,用于在Google Home里创建程序; 一个更智能的Google Assistant,它将适用于Nest智能音箱和显示器,并且配备新的语音选项。 除了新语音选项之外,大多数这些功能都将通过Google的Nest Aware订阅付费提供——Nest摄像头的视频录制订阅起价为每月8美元(每年80美元)。这些功能将首先在Google的公共预览测试版计划中限量向Nest Aware订阅者推出,并将于明年扩展至更多用户。 在发布会前,Google Home产品负责人Anish Kattukaran接受The Verge采访时提到,这只是谷歌智能家居平台迈向智能化新时代的开始,“这为Google Home的下一个时代铺平了道路”。 ▲以上是一个Matter控制器和Thread边界路由器组成的新智能家居中心(图源:Google Home) 二、Gemin提升用户体验,但不取代Google Assistant 这一更新对于长期受挫的Google Home用户来说是个好消息,许多用户已经厌倦了性能不足、设备老化的智能显示器,以及常用的功能被取消的困扰。此外,他们还经历了从Nest应用到Google Home应用的艰难过渡。本周推出的Google TV Streamer 4K(Google Home中心)和新的Nest Learning Thermostat,加上更智能的Google Assistant,预示着Google的智能家居生态系统正在改善。 Google Assistant显然将继续存在。Google并未将Gemini直接移植到Nest智能音箱和显示器上来控制智能家居,而是在幕后部署了Gemini智能。Kattukaran解释道:“Gemini是一个模型系列,我们正在针对Google Home的各项功能对其进行优化”。 三、三大新功能实操展示,智能家居多方面发展 智能家居的发展不仅仅是技术功能的提升,同时也要注重在增强功能的同时保护用户的隐私和安全。下文将展示智能摄像头的新功能、家庭自动化的简化操作以及Google Assistant的升级和新声音技术。 1、自动生成字幕的摄像头安全警报 ▲多模式Gemini AI可以理解摄像机捕捉到的画面和声音并生成描述动作的字幕(图源:Google Nest) Google正在为Nest摄像头引入Gemini智能,使其能够理解摄像头捕捉到的画面和声音,并向用户传递关键信息。这意味着,Google Home之后将不仅仅发送有关某个人或包裹的警报,用户必须观看视频才能了解发生了什么,而直接添加摄像头所见内容的详细描述。这些模型将在云端专为用户的家庭数据进行学习和训练,随着时间推移,它们将变得越来越智能,更准确地了解用户家庭周围的动态。 Kattukaran分享的一个例子是一段人从车上卸下杂货的视频,标题为: 停放在车库里的一辆黑色SUV旁边站着一个穿着休闲服装的年轻人,他提着购物袋,周围环境显得十分平静。 除了提供解释性细节外,视频标题还包含丰富的背景信息。这样不仅有助于用户查找录像,还可以帮助系统链接到其他自动化功能。例如,如果摄像头识别到动物并判断是“狗在花园里挖洞”,系统可能会自动执行“打开洒水器”的操作。 ▲用户将能够使用文本提示在Nest摄像机视频片段中搜索特定事件(图源:Google Home) Google Home的活动标签中将新增文本搜索视频的功能。例如,当用户的猫在天黑后偷偷溜出家时,这一功能将非常方便。用户可以直接搜索上次发现猫的时间,而无需逐个浏览所有标有动物的视频来寻找。 2、可解析自然语言的自动化程序 ▲Gemini智能可以解析自然语言来创建复杂的智能家居自动化(图源:Google Home) Google Home应用程序新增的“帮我创建”功能允许用户描述希望发生的事情,例如“睡觉时锁门并关灯”,系统会自动创建一个对应的执行程序。 用户需要通过手机上的Home应用程序进行文本或语音输入(目前此功能尚不支持通过Nest智能音箱操作),但Kattukaran指出,它将具备Google Home应用程序的所有现有功能。这包括所有当前的启动器、条件和操作,以及对连接到Google Home的所有设备的访问,包括支持Matter标准的设备。尽管这项功能不像谷歌的脚本编辑器那样精密,但它足够简单,能够让任何用户轻松创建自动化功能。 3、新增声线及自然交互的Google Assistant Google正在为其Google Assistant推出新的声音选项。除了摄像头智能和更简便的自然语言输入之外,谷歌还提到将改进其Google Assistant的“核心体验”——例如在所有当前的Nest智能音箱和显示器上播放音乐和设置计时器。 此外,Google Assistant将新增不同风格、语调和口音的声音选项。该公司发布了首个新声音选项的演示视频,这其中保留了女性的语调,但听起来更轻盈、更自然。 Google Assistant不仅听起来更自然,也能进行更自然的互动。Kattukaran说,它不需要特定的命令模式即可完成用户的需求,也能够处理停顿、“嗯”和“啊”,并回答后续问题。这与去年秋季亚马逊宣布的Alexa功能(尚未推出)类似。 Kattukaran提到,新的Google Assistant将能够保留用户的对话背景,并逐渐学习和了解用户的家庭情况。他透露,由Gemini驱动的功能将依据谷歌的隐私原则,在云端为用户的家庭提供服务。 “这个功能是根据用户家庭和数据模型量身定制的。我们在家用领域特意放慢了节奏,因为智能家居领域的容错率非常小,我们不希望出差池。”他提到。而Google Assistant的目标是逐步了解用户的家庭情况,比如用户拥有的房间和设备,并在此基础上变得更加智能化。 结语:Gemini助力Google Home升级,谷歌看好智能助手未来 这些变化旨在推动数字语音助手更接近谷歌及其竞争对手多年来一直努力实现的愿景:一个真正有用的数字助手。 “当我们开始推出第一代助手时,我们承诺它会是像《杰森一家》里那样的家具智能助手,我们的愿景是打造一个超级有用的助手,可以主动帮助你解决问题,” Kattukaran说,“我们取得了很多进展,但之后就停滞不前了——不仅是我们,所有‘助手’都如此。我们遇到了技术瓶颈,不过随着大型语言模型和多模态语言模型的出现,这一瓶颈已经得到解决。” 正如Kattukaran指出的那样:“家庭是一个庞然大物”,它复杂而混乱,有多个角色和场景。对于人类来说,管理它已经不易,对计算机而言更是巨大的挑战。但亚马逊、谷歌和苹果似乎都在竞相打造一个未来,让我们的家庭拥有一个智能的、可感知情感的助手,从而回应我们的需求。 未来的进展如何,值得期待。
曝苹果将推出史上最小电脑
编译 | 陈骏达 编辑 | Panken 智东西8月9日消息,昨日,根据知名苹果爆料记者马克·古尔曼(Mark Gurman)的报道,苹果计划于今年晚些时候推出新款Mac mini。这款Mac mini将搭载最新的M4系列芯片,并将成为苹果有史以来最小的台式电脑。参与新款Mac mini开发的人员称,它本质上就是一个装在小盒子里的iPad Pro。 苹果正在用M4系列芯片更新整条Mac产品线。苹果还将在今年晚些时候推出M4 Pro芯片,预计将配备更大的内存和图形处理能力。这些芯片也都集成了先进的神经网络引擎,具备强大的AI功能。 古尔曼称,从现在到明年6月发布的所有Mac中都将配备M4系列芯片。这也将是苹果首次在所有Mac中采用同一代芯片。 据知情人士透露,这是自乔布斯2010年重新改造Mac mini以来,苹果对这一产品外观最重大的设计调整,重新设计后的Mac mini大小和Apple TV机顶盒差不多。这一设计思路充分利用了苹果芯片低功耗的特点。 一、大小与Apple TV机顶盒类似,制造成本更低但不一定降价 M4芯片或许是新款Mac mini中最大的升级。Mac mini的上次更新还是在2023年初,当时的新款mini采用了M2和M2 Pro芯片。目前已经发布的M4芯片采用3nm制程,并集成了更为先进的神经网络引擎,具备强大的AI功能。 苹果正在准备两个版本的新款Mac mini。第一款将使用M4芯片的基本配置,类似于iPad Pro内部的组件。苹果还将推出一款使用尚未发布的M4 Pro芯片的高端Mac mini。该组件包括对额外内存和更多图形处理能力的支持。 苹果供应商计划本月开始发货标准M4版本,并于今年晚些时候正式发布。配备高端M4 Pro的设备要到10月份才会向消费者推出。 据知情人士透露,Mac mini将比其前身小得多,接近Apple TV机顶盒的大小,仍然采用铝制外壳。苹果官网数据显示,上代Mac mini的长宽为19.7厘米,Apple TV的长宽均为9.3厘米,还不到上代Mac mini的一半。但新款Mac mini的高度会略高于原来的3.58厘米。 ▲Apple TV的具体尺寸(图源:苹果官网) 苹果已经测试了背面至少有3个USB-C端口的Mac mini型号,此外还有一个用于插入电源线的区域和一个用于将设备连接到电视机和显示器的HDMI端口。 参与新款Mac mini开发的人员表示,它本质上就是一个小盒子里的iPad Pro。这种设计思路充分利用了苹果芯片的低功耗特点。目前在售的Mac mini起售价为599美元(中国区官网起售价为4499元),虽然新型号的制造成本可能更便宜,但古尔曼称尚不清楚苹果是否会因此降价。 二、Mac需求逐渐降低,使用新款处理器或能提振销量 古尔曼称更新后的Mac mini会是未来几个月推出的几款新Mac之一。苹果公司正在准备采用M4系列芯片的iMac台式机和MacBook Pro版本,最早会在今年推出。MacBook Air正在开发,预计于明年春季发售。Mac Pro和Mac Studio型号计划于明年年中推出。 Mac将全系升级到M4系列芯片,这标志着苹果的另一个里程碑:这是他们首次在所有Mac中采用同一代芯片。 彭博社数据显示,自从新冠疫情带来的这波居家办公潮过去后,Mac系列产品的销售就一直在低位徘徊,上季度大约为苹果创造了70亿美元的收入,同比增长2.5%,销售额仅为疫情销售高峰期的大约60%。 ▲Mac系列产品分季度销量(图源:彭博社) 使用最新款M4芯片升级全系Mac产品的举措有望提振销量。苹果为此先发布的搭载M4芯片的iPad Pro设定了雄心勃勃的900万台出货量目标。古尔曼称,截至目前苹果的发言人尚未对Mac mini的相关计划进行任何回应。 结语:M4芯片全面登陆Mac产品线,苹果希望一改颓势 Mac mini作为一款价格相对实惠、功能齐全的电脑,在轻量化办公和家庭影院市场一直有一批忠实的用户。海外网友对这款搭载M4芯片并大大缩小尺寸的新款Mac mini整体上还是给予了正面评价,但也有网友指出散热可能会成为这款产品面临的一大挑战。 在苹果即将在全系Mac产品上使用M4芯片的消息传出后,苹果股价略有抬头。当前苹果已经遭到巴菲特的大幅减持,原因可能是苹果目前营收增长缓慢、利润空间也比较有限。苹果手机在中国市场的销售受挫,今年二季度罕见地跌出中国手机季度销量前5名。Apple Intelligence近期也传出推迟更新的可能。苹果此举或许是在积极求变,利用新款芯片及其增强的AI功能,扭转近期的颓势。
Mac mini 十四年来最大更新要来了,将成为史上最小苹果电脑
两年没更新的 Mac mini,原来是憋了个「小」的。 据科技记者 Mark Gurman 报道,即将亮相的全新 Mac mini 不仅只是常规「换芯」升级那么简单,还将时隔 14 年迎来全新设计,尺寸「比迷你更迷你」。 至于发布时间,据悉供应商将在这个月向苹果发货 M4 基础芯片版本,今年晚些时候正式发布;M4 Pro 版本则要等到 10 月才会准备就绪。 真·mini 来了 目前 Mac mini 的外观,基本沿用着 2010 年版的设计,因此,Mac mini 也是当今苹果在售产品中为数不多保留原汁原味乔布斯风格的产品。 ▲ 2010 款 Mac mini 虽然这个铝制外壳的设计,在当下看来依旧可圈可点,但是在 Apple Silicon,也就是 M 系列芯片入主 Mac 产品线后,基本所有 Mac 产品都有了新外观,Mac mini 也是时候换新颜了。 况且,14 年前可以说还算小巧的 Mac mini,和现在的不少迷你 PC 一比,反而是庞然大物了。 ▲右为 GEEKOM 迷你 PC,搭载一颗英特尔酷睿 i9 处理器,图源:Luke Miani 由于 M 系列芯片低功耗、高集成的优势,M1 系列的 Mac mini 主板已经比英特尔的旧型号小了几圈,只比一台 iPhone 13 略宽 。外网有人尝试魔改 Mac mini,把整个主机体积缩小到只有原本的三成左右。 ▲ 上面的就是用户魔改版 Mac mini,图源:Snazzy Labs 那么,新的 Mac mini 大概会有多小呢?消息人士表示,宽度将更加接近 Apple TV 电视盒子(9.3 厘米),几乎只有目前 Mac mini(19.7 厘米)的一半,也就是说,平面尺寸大概为现在的四分之一;不过机身会更厚,超越现在的 3.58 厘米。 ▲ 左为 Apple TV 机顶盒,图源:Unboxingalism 在接口方面,据悉目前正在测试的型号至少带有 3 个 USB-C 端口、一个电源线接口和一个 HDMI 接口。没有提到的 3.5 毫米耳机接口不清楚是否会保留,因为目前还没有砍掉这项「外星科技」的 Mac 产品。 ▲ M2 版本 Mac mini 的接口 至于目前版本还配备的 USB-A 接口和以太网口,很大可能会跟随旧模具一同成为历史。 缩小的机身是否会看齐 MacBook Air 砍掉风扇,也暂时未知。 有消息人士透露,苹果设计新款 Mac mini 的思路,可以简单理解为将 M4 芯片的 iPad Pro 给「塞进」一个新机身内。新的设计会降低生产成本,但这不意味着消费者能买到更便宜的 Mac mini。 也不是所有人都想要一台更小的 Mac mini 。有些用户认为,目前较大的 Mac mini 机身刚好可以为 M4 芯片提供更多的空间进行被动散热。小机身不仅砍了接口,散热也可以预料会进一步弱化。 ▲ M2 版本 Mac mini,内部肉眼可见还有空间,图源:iFixit 并且,虽然机身平面尺寸更小,但是更厚的机身也不能像以前那样更好融入环境。 ▲ 不少用户喜欢把 Mac mini 竖着放,也能节约不少空间,图源: Reddit@wiz_security 但对于苹果来说,为 Mac mini 瘦身不仅是产品变革的大势所趋,也很可能是产品战略布局的一步棋。 新设计将重整 Mac 产品线 Apple Silicon 为 Mac 产品线带来的变化,不仅仅局限于单个产品性能本身,可以说整条 Mac 的产品线都被打乱了。 比如 iMac 系列,这个一体机产品曾经能够选配更大的屏幕,更强悍的硬件,以应对更专业的任务,但是最新的 iMac 仅能选配最基础的 M3 芯片,并且取消了 27 寸屏幕的版本。 ▲ 全新设计的 iMac 更多彩的新设计虽然养眼,但也象征着 iMac 变成了中低端产品线,因为苹果的 Pro 级产品,往往总以最朴素的黑白灰配色呈现。 Mac mini 的全新设计可能也暗藏了这么一点小心思。 Mac mini 的定位一直是苹果的最入门级别,作为苹果尺寸最小的台式电脑,不管是和曾经高端大气的专业级 iMac,还是超大机箱的性能怪兽 Mac Pro 对比,一眼就能看出并非为了硬核任务而生。 ▲图源:Apple Track 但如果把 Mac mini 和高端新秀 Mac Studio 摆在一起,你会发现,两个产品明明定位分布在两极,撞脸程度却宛如亲兄弟。 ▲ Mac Studio(左)和 Mac mini(右)宽度一致,图源:Apple Insider 产品尺寸的大小,能给消费者很强烈的第一印象,我们都知道厚重的游戏本象征着强悍的性能表现,而轻薄本小巧的身型自然意味着性能上有所取舍。 因此,如果把 Mac mini 进一步缩小,在视觉上和 Mac Studio 拉开更多的差距,消费者也能一眼看得出,这个小巧可爱的主机要更适合日常使用,而另一个大块头明显是为了更复杂的任务而生。 据消息人士爆料,新的 Mac mini 还会保留和以前同款的铝制外壳,依我看,如果能和 Mac Studio 在配色上也做点区分会更好。 根据多方报道,M4 芯片将会今年和明年出现在目前所有 Mac 品类上,也就是说,自 Apple Silicon 诞生以来,Mac 整条产品线第一次进行全面更新。 这将是一个很好的机会,让苹果重新梳理一下目前比较混乱的 Mac 产品线,所以 Mac mini 的全新设计,来得恰逢其时。 最后附上 Mark Gurman 爆料的最新 M4 Mac 时间表: 最早今年推出的:Mac mini、iMac 和 MacBook Pro 明年春季:MacBook Air 明年年中:Mac Pro 和 Mac Studio
谷歌掏出一揽子开发者利器,小米SU7已经用上
作者 | 程茜 编辑 | 心缘 智东西8月9日报道,本周三、四,在北京举行的Google I/O Connect China(2024谷歌开发者大会)上,谷歌来自全球不同领域的技术专家阐释了谷歌的最新开发者工具和技术。 其中重点分享了谷歌最新的AI工具和技术更新,以及在Web、Mobile、Cloud等领域为出海开发者带来的产品升级。Google Developer X和开发者关系副总裁兼总经理 Jeanine Banks重点提到了Gemini Nano、Gemini 1.5 Flash、Gemini 1.5 Pro三种多模态Gemini模型,Gemini系列模型已集成到众多开发工具中,包括Android Studio、Chrome DevTools、Project IDX等。同时谷歌的应用开发框架Flutter升级到了3.24和Dart 3.5版本,可以支持开发者跨平台构建应用。 谷歌大中华区总裁陈俊延谈道,中国是全球最大的开发者市场之一,过去一年,中国25个开发者团队,开发了31款游戏和应用,在全球不同地区获得50个Google Play年度最佳奖项。 他还重点提到了两大案例,数字营销行业,网易游戏在海外借助Google Cloud Vertex AI平台,提升了广告文案创作效率,工作时间从原本一周多减到几个小时,每月累计可生成超700条定制文案;国际家居在线服务平台Homary,基于Google AI的海外广告投放中,通过用户预测潜在购买品类,提升了49%的投资回报率和50%的转换效率。 此外,谷歌开发者中文网站上推出了谷歌AI页面,开发者可以获取相关技术更新与资讯,中文专题页面的Codelab、Chrome、Web专题页面均已上线。 一、Gemini三大模型可满足不同开发需求,小米SU7应用基于Flutter开发 Google Developer X和开发者关系副总裁兼总经理Jeanine Banks带来了AI工具和技术更新的分享。 AI正在从根本上重塑软件开发,让每一位开发者提升开发效率,谷歌提供了三种不同规格的Gemini模型,包括Gemini Nano、Gemini 1.5 Flash、Gemini 1.5 Pro。 其中Gemini Nano可以直接在设备端运行,能实现快速响应和保护数据隐私;Gemini 1.5 Flash是谷歌目前最快最经济的模型,适合处理高容量任务,为开发者提供了100万个Tokens的超长上下文窗口;Gemini 1.5 Pro的回答质量更高,适合处理复杂任务,谷歌已经面向使用Gemini 1.5 Pro的所有开发者开放了200万个Tokens的上下文窗口。 更大的上下文窗口可以提升模型性能,还有助于开发者发掘新的应用场景,也会消耗大量的计算资源,基于此,谷歌近日为Gemini 1.5 Flash、Gemini 1.5 Pro推出了上下文缓存功能,开发者可以将提示中不变的内容进行缓存,后续可以即时调用。 做出海应用的开发者可以使用AI Studio免费使用这些模型,省去训练和维护模型的时间。 Gemma系列模型可以满足开发者希望根据具体应用场景对AI进行微调的需求,Jeanine称,Gemma和Gemini系列模型一脉相承,共享底层技术和工具。 谷歌已经正式发布Gemma 2模型,新增了参数规模达到90亿和270亿的两种模型。270亿参数规模的模型针对英伟达GPU进行了优化,可以在Google Cloud的单个英伟达GPU、Vertex AI的单个GPU上高效运行。 Jeanine称,Gemma 2的性能表现超越了参数规模比它大两倍的模型。 Gemini已经集成到Android Studio、Chrome DevTools等诸多开发工具中,可以获取应用设置、性能数据、日志和源代码等信息,帮助开发者编写、调试和测试代码、生成文档等。 谷歌开源的应用开发框架Flutter升级到3.24和Dart 3.5版本,改进了在macOS上对Platform View和Webview的支持。新的API早期预览版Flutter GPU直接内置在Flutter SDK中,可以允许开发者使用Dart代码访问GPU,提升图形的渲染能力。 Jeanine称,中国的Flutter开发活跃度位列全球前三。 谷歌正在构建User Scene的软件包,可以将不同行业标准的3D模型直接导入Flutter项目中。 小米电动汽车SU7的配置应用就是基于Flutter打造,小米汽车的应用程序提供了一整套功能,可以实现远程车辆控制、接收车辆状态的实时更新等。小米汽车智能座舱手机APP客户端高级研发工程师陈作斌谈道,他们预估使用Flutter比使用原生框架的效率要高60%。 此外,Android Studio Project IDX的早期预览版已经推出,完全运行在浏览器中,开发者可以快速搭建起运行Android Studio的工作区,开始编写、构建和测试原生Android应用。本地Android Studio和云端IDX工作区都可以满足开发者开发需求。 在安全性方面, Firebase AI Monitoring可以实时监控开发者使用大语言模型构建的功能,在生产环境下的性能和行为,目前这一产品处于非公开预览阶段。谷歌还推出了Checks AI Safety,可以用于评估监控和监督AI模型和代理的合规性。 三、Gemini Nano已内置Chrome桌面客户端,多项UI设计工具已发布 设备端的AI模型为云端模型提供了补充,让开发者能以更低的成本、更少的容量限制、更强的数据隐私保护来交付解决方案,无论基于哪个模型构建响应AI功能,WebGPU和Web Assembly都是端侧Web AI的基石。 WebGPU已经支持16位浮点数值,Web Assembly集成了Memory 64和JavaScript Promise,基于此,开发者构建的模型可以在全球绝大多数设备上高效运行。 谷歌Chrome开发技术推广部主管Paul Kinlan谈道,视频弹幕平台BiliBili结合使用了Web Assembly和MediaPipe的图像识别技术,成功实现了弹幕不遮挡画面人物的功能,使得会话时长增加30%,点击率增长19%。 从Chrome 126浏览器版本开始,Gemini Nano会直接内置到Chrome桌面客户端中。其中“帮我写”这个功能就可以帮助海外用户撰写商品评价、客户反馈等。为了实现这个功能,谷歌对Gemini模型最高效版本进行了微调。 谷歌还在开发Prompt API,开发者可以通过这一工具使用自然语言,向Chrome中的Gemini Nano发送指令,全程不会有数据离开本地设备。 强大的AI功能离不开优质UI,谷歌也推出了新功能帮助开发者打造应用。 谷歌发布Speculation Rules API,可以通过在后台预读取、预渲染页面,提升站内的浏览速度。面向单页应用,谷歌推出了View Transitions API,可以实现更加顺畅的导航。 在调试和优化应用方面,Chrome Devtools能够在网站发生错误时发出警告和提示,同时Chrome Devtools Insight可以快速分析问题所在,并且根据代码提供合理的解决方案。 三、Gemini Nano没网也可运行,Compose简化跨设备应用构建流程 谷歌安卓开发技术推广部主管史婧羽谈道,使用Gemini Nano实现的AI功能不需要网络就可以在设备上完成所有操作。 Gemini Nano通过AICore系统服务实现,为了应对管理打包和分发大语言模型的复杂难题,AICore可以负责管理设备上的基础模型,开发者能直接使用。 Gemini Nano和AICore现已登陆谷歌Pixel 8和三星Galaxy S24系列。 未来几个月,谷歌将进一步开放Gemini Nano的使用权限。 今年,谷歌将支持跨平台代码复用技术Kotlin Multiplatform用于业务端,使得开发者可以在Web、服务器和桌面平台间共享代码。谷歌在DataStore、ViewModel、Room等多个Jetpack库添加了Kotlin Multiplatform支持。 写作工具Compose增加了共享元素过渡等功能,可以帮开发者处理过渡中大小变化、文字动画等,同时原生支持了预测返回手势。谷歌打造了一系列新Compose API,帮助开发者构建符合设计规范的自适应布局。 谷歌联合小米、OPPO、三星等手机玩家,将这些品牌的设备实验室接入由FireBase支持的Android Device Streaming测试平台,开发者可以在真机设备上直接验证自适应应用,包括折叠屏手机和平板电脑。 谷歌同样助力和简化了困难的开发任务,例如Android Studio中的Crashlytics功能,不仅可以在源代码中快速定位错误,还能基于Gemini的分析能力提供修复建议。 开发者可以在内置AI隐私设置中,选择分享或不分享哪些数据。 四、拆解谷歌云端新平台五大特征,Vertex AI一站搞定模型训练、调优和部署 Google Cloud首席布道师Richard Seroter介绍了谷歌打造的云端新平台的五个特征。 首先是实力超群,优势独享。云端新平台能带来全新构建方式、自动化、多功能、深度集成等。Vertex AI可以一站搞定模型训练、调优和部署。 Gemini 1.5 Pro可以支持超200万个Tokens的上下文窗口,相当于2小时视频、20小时音频、1500页文档和6万行代码。Vertex AI在处理谷歌中国一段25万个Tokens的讲座视频时,Gemini 1.5 Pro可以同时识别视频中的声音和画面,并能自动翻译。 其次是自成体系,灵活拓展。Google Cloud可以配置服务生产集默认值,及对开源接口的支持。Vertex AI中提供了150多种模型,包括谷歌自家、Anthropic、Meta等发布的模型。 第三是破除壁垒,便捷跨云。云端新平台可以为开发者量身打造解决方案,满足其在本地JKE集群部署或者其他云平台部署的需求,让用户在不同云平台之间迁移和管理资源。如BigQuery Omni允许用户在多个主流云平台上运行BigQuery而无需迁移数据;AloyDB Omni提供了无限制的数据库部署环境。 第四是化繁为简,轻松构建。Google Cloud平台通过自动化和智能默认设置,简化了云基础设施的搭建和管理过程。现在开发者可以在45分钟内搭建起生产级的云基础设施,实现多方面功能。 最后是AI助力,智能随心。Gemini for Google Cloud深度融入云体验,包括IDE插件提供代码生成、补全、解释和测试生成等功能;Gemini in Databases将AI智能融入SQL生成、数据库操作等任务。 结语:谷歌用AI新工具,助力中国开发者出海 谷歌此次重磅发布了新的开发工具,可以为开发者提供更强大的功能和更便捷的界面,帮助开发者基于大模型能力更快速地构建、测试和部署应用程序。 从Gemini API的强大数据处理能力到谷歌AI Studio的集成开发环境,再到AI技术的跨平台应用,谷歌正不断帮助开发者拓宽应用构建的边界,这或许会加速国内开发者更快构建应用,让产品在全球市场更具竞争力。
华为三折叠屏手机被余承东“曝光”,这或许才是折叠屏的最终形态
第一台量产的三折叠屏手机要来了,第一个吃螃蟹的可能是华为。 越来越多的信息显示,华为的三折叠手机即将在年内面向市场。甚至有博主晒出,华为常务董事余承东在机舱使用三折叠屏手机的照片。 照片显示,余承东正在使用的软件很可能是微信 APP,三块屏左边是消息列表,右边是网页内容,但面积比普通大折叠手机大了不少,侧边的保护壳里还疑似隐藏了手写笔。 此前,华为余承东也曾董宇辉的直播间里爆料: 下一代的折叠屏,别人都能想得到,但做不出来。我们已经想了五年了,终于可能快要出来了。 五年前,华为发布了第一代折叠屏手机华为 Mate X,彼时折叠手机还是个新鲜玩意儿,对于外折还是内折的设计也仍在探索阶段。五年后,主流的折叠手机已经都是内折叠方案,而售价也从 15000 元往上杀进了 6000 元区间,无论是技术还是成本,折叠手机都已经趋于成熟。 但折叠手机的产品形态,还远远没有到头,三折叠的折叠手机,可能才是折叠手机的究极体。 华为三折叠手机会采用哪种设计? 关于三折叠手机的形态,基本上也是分为两种折叠形式——S 字型外折、G 字型内折。 作为折叠屏幕最大的供应商之一,三星曾在 2022 年的 CES 上展示过三折叠手机的两种形式方式。 这款名为三星 Flex S 的三折叠原型机,就采用了「S」字折叠的方式,手机的外屏是折叠屏的一部分,展开之后,折叠藏在内侧的另外两块屏幕和外屏共同组成了一块超大屏: 另外这款名为三星 Flex G 的三折叠手机,采用将两边的手机屏折向中间的「G」字折叠方式,这显然对铰链、屏幕提出了更高的要求,增加了量产的难度,看上去也更加笨重: 此外,也有二者合一的产品形态。今年 5 月,TCL 华星也曾在 2024 SID 活动中展示了 Tandem 三折叠屏手机原型,能在「S」字和「G」字折叠方式之间自由切换。但这种「可内可外」的折叠方式无疑对屏幕的柔性和耐用性、铰链的强度提出了更高的要求。 综合来看,「S」字形折叠结合了目前已有的内折和外折技术,还能有更紧凑的整体结构,最有可能会成为主流的三折叠方案。而在今年 3 月华为发布的一份三折叠手机专利中,也印证了我们的猜想。 华为提交的专利申请书显示,这款设备包含了三个壳体、两个铰链和一个柔性屏。每个壳体厚度不等,从而降低了设备整体的厚度,减轻了重量,也可以提供更好的握持手感。 关于摄像模组的处理,专利书中提到了几种不同的处理方式。 其中一种是在壳体上设置凸起部位来安装前置摄像模组,并在其他壳体对应位置布置凹陷部位,这样在设备折叠时凸起部分就可以隐藏在凹陷部位中,从而降低折叠状态下的整体厚度。 另一种策略是,如果壳体被设置成楔形,摄像模组将会被安装在较厚的那块壳体上,在一定程度上减少模组厚度对设备整体厚度的影响。 专利说明书还提到了通过一个开关自动展开折叠屏的操作方式,这主要利用了壳体中的磁性部件之间的相互作用实现。显然,多加一块屏幕意味着每次展开/闭合都要多一步操作,而利用磁吸的助力或许是个不错的选择。 电动展开与手动展开相结合的操作方式 从专利书中可以看到,华为对于三折叠手机的考量是非常全面的,摄像头如何摆放、折叠屏如何展开、怎么样更好地让产品轻薄,都有细致的研究,其他诸如电池、天线、柔性电路板等部分的设计也都有非常详细的介绍,有的地方还会出现多种不同的设计方案,看得出华为在三折叠手机技术方面确实下了不少功夫。 五年磨一剑的三折叠手机,华为既要攻克工程制造难题,但更关键的是,是要攻克折叠手机的内容供给难题。 折上折,是要解决折叠手机的内容难题 其实纵观智能手机的发展历程我们不难发现,从最初 iPhone 的 3.5 英寸,到后来 iPhone 6 Plus 的 5.5 英寸,再到如今的 6.7 英寸,屏幕越来越大是智能手机发展的主旋律。 这主要由于,屏幕是智能手机输入 / 输出信息的最主要媒介。面积的扩展增加了用户与产品之间的信息输出及输入能力,所以屏幕的扩大某种程度上来说意味着手机在信息交互能力上的提升。 制约智能手机屏幕扩张的,是人类手掌尺寸的大小,以及所能承受的重量,而折叠屏的诞生就是为了挣脱这一桎梏。折叠屏手机的诞生,成功让智能手机的屏幕突破 7 英寸,主流的大折叠屏手机能达到 8 英寸,几乎是跟 iPad mini 一样的显示面积——但事实如此吗? 绝大多数用户都是抱着平时用手机,展开用平板的期待买了折叠屏手机,但实际效果并不尽如人意。 艾瑞咨询有一项调研报告显示,62.6% 的折叠屏用户期待硬件有所创新,而期盼软件创新的用户,高达 97.6%,原因很直接:手机上有海量的内容,并没有适配折叠手机的屏幕,这块 8 英寸大屏并不能得到充分利用,有时候还会拖后腿。 与之相对应的是,Canalys 刚刚发布了 2024Q2 全球平板销量统计,出货量同比增长 18%,说明消费者对于大屏智能设备的需求并没有下降,甚至有逆势增长的潜力。而其中卖得最好的产品,屏幕尺寸基本上都是 4:3、3:2、16:10 这样的长方形比例屏幕,他们可以很好地兼容手机端的内容。 几款主流厂商平板 但大折叠内屏却与手机和平板电脑截然不同,目前市面上比较主流的几款大折叠,展开后内屏长宽基本都是接近 1:1 的比例: 从实际使用来看,大折叠手机无论游戏、视频、日常社交媒体的使用中,都会出现一定的信息缺失。 左为普通手机画面,右为大折叠手机画面,大折叠明显出现了一定的画面缺失 在游戏中,常常会出现成片的空白区域,而在游戏中又会出现一定的视野盲区,造成一个很诡异的现象,明明手机屏幕变大了,但可以显示的内容却少了很多: 手机、大折叠、平板在游戏中视野对比 在观看视频、电影等固定画幅的内容时,这个问题更为明显。目前我们观看的大部分视频内容都是 16:9 的横屏视频或 16:9 的竖屏视频,还有一些电影或纪录片会出现 21:9 的超宽比例。因而在大折叠屏内屏上观看此类视频时往往会出现大面积的黑边: 普通手机、大折叠、平板播放 16:9 比例的视频时均出现黑边 如果从观感上来看还不够明显,那么我们就做一个简单的数学题: 假设视频长宽比为 16:9,而大折叠内屏的比例为 1:1,那么视频内容在屏幕中所占比例约为 9/16,约等于 56.25%。屏幕利用率仅为一半多一点。 针对这一问题,很多厂商通过采用了多样化的分屏操作、重构元素等方式适配方形的屏幕,尽可能地利用大折叠在屏幕面积上的优势。 还有的厂商试图通过新的交互逻辑,来解决这个问题。例如 OPPO Find N3,你可以想象它在屏幕后面,有一张大约 15 英寸的幕布,同时打开三个应用时,它们能以多种排列方式,以符合逻辑的直观方式铺在这张幕布上。 显然这在一定程度上缓解了问题,但并未触及核心——我们需要的是能够完整显示内容的大屏手机,而不是并在一起的两块手机屏幕,不然微软 Surface DUO 早该成功了。 从这个角度来看,或许我们在一开始就把问题本末倒置了——并非软件难以适配硬件,而是方形屏幕硬件本身难以适配软件。 而这似乎已经成为了一个不可能解决的难题——如果想要展开状态类似平板电脑比例的大屏,就要承受闭合状态更宽大的屏幕;如果想要闭合状态仍然像一款普通手机,就要承受与内容不匹配的方形屏幕。 关于这一问题,同样是方形屏的小折叠外屏给出了另一种解决方案。 例如小米在最新发布的 MIX Flip 在其 4 英寸的外屏上,划分出了一块 9:16 比例的 3.5 英寸屏。 用一个普通手机的比例,去适配大量的应用,可以看作是一个很好的通过硬件适配软件的案例。 但显然,大折叠屏手机并不能像小折叠外屏一样做「减法」。 不过好消息是,大折叠手机能够做「加法」。 也就是通过加上一块屏幕的方式,使其拥有更接近传统的长条形屏幕,与主流的视频、软件内容更加匹配,拥有更高的屏幕利用率。 更重要的是,通过对长宽比的补充,使其真正完成大折叠「合上是普通手机,展开是平板电脑」的使命。 从这个角度来看,或许我们从一开始,想要的就是一款三折叠屏手机,但受限于技术原因而不得不选择从两折叠开始做起。 目前的大折叠手机,只是一种「半成品」,即真正从手机到平板跃迁的一个跳板、一个在折叠技术发展过程中为了催熟铰链、屏幕等技术的阶段性产品。 或许多年之后,当我们回望历史会发现,曾经如火如荼的大折叠手机,其实只是一个过渡产品。 三折叠,才是大折叠手机的最终形态。
华为手机翻身仗:半年三推新品,经销商称已基本回血,供应链现交付压力
作者:杨玲玲 郭美婷 华为正在手机市场猛烈进攻。 近日,在年初发布高端小折叠手机Pocket 2后,华为再次加码,推出旗下中端手机品牌nova系列的首款小折叠手机——nova Flip。 受访行业观察人士告诉时代周报记者,去年以来,华为不断更新完善产品矩阵,欲夺回失去的市场份额重登手机市场王座,nova Flip就是希望填补中端折叠市场的空白。 图源:时代周报记者摄 华为年报显示,2023年手机业务复苏明显,终端BG销售收入同比增长17.3%至2515亿元,为2020年以来首次实现正增长。同时根据IDC数据,今年上半年华为手机出货量以17.5%的市场份额成为中国智能手机市场的第一,并在4000元人民币以上市场持续缩小与苹果差距。 不过,在手机销量快速起势后,7月18日,“华为终端”官方微博宣布,Pura70在开售3个月后迎来官方降价,降幅为500-1000元。有媒体报道,降价原因是Pura70系列卖得不及预期。但截至目前,华为对此并无回应。 下半年,华为还将在旗舰产品上与苹果迎来正面交锋,对于它来说,这场手机市场的翻身仗远未到终局。 折叠屏激进 nova Flip已是华为今年发布的第二款小折叠屏手机。2月,华为推出小折叠新品Pocket 2;去年年末,华为还发布了大折叠产品Mate X5。 不同于之前推出的两个高端系列,近日发布的nova Flip主要针对年轻人,售价在5000元至6000元区间内,也是华为迄今为止最便宜的折叠机型。 图源:时代周报记者摄 “nova flip和Pocket 2属于两个产品线,可以形成高低搭配,覆盖更多消费人群。”IDC中国高级分析师郭天翔对时代周报记者表示。 此前,凭借Mate X5、Pocket 2等热销机型,华为在折叠屏领域已经重登王座。Counterpoint数据显示,今年一季度全球可折叠智能手机市场同比增长49%,增幅创下6个季度以来新高。其中,华为以35%的市占率首次超越三星成为全球领头羊,同比增长257%。 另据IDC数据,中国折叠屏市场在第二季度保持强劲增长势头,出货量共计257万台,同比增长104.6%。华为同样以41.7%的市场份额稳居榜首。 不过,相比于大折叠,近年来小折叠时有“叫好不叫座”的声音传出。年初,天风国际证券分析师郭明錤曾在报告中提到,部分手机品牌在考虑放弃小折叠产品线。 Counterpoint发布的中国折叠屏手机市场数据显示,今年一季度,翻折式大折叠机型出货量同比增长91%,而纵向小折叠机型出货量同比下降1%。 郭天翔认为,小折叠缺乏刚性的使用场景,最大优势是携带方便,外观吸引人。但缺点也不少,比如成本高、容易坏,以及同价位配置明显低于直板机。对比之下,大折叠的大屏优势更明显,随着轻薄度和良品率的提升,大折叠屏的使用体验也迎来显著提升。 小折叠是否仍为值得投入的“潜力股”?根据Canalys研究经理刘艺璇观察,今年一季度小折叠在中国大陆的出货量有同比24%的增长,第二季度出货量的增长率也达到8%,虽然品类增长率在放缓,小折叠屏尚未有下滑或瓶颈出现。 事实上,近期小折叠产品入局者众。在华为发布nova Flip前不久,6月荣耀推出旗下首款小折叠手机Magic V Flip,7月小米首款小折叠手机MIX Flip面世。目前,小折叠手机已集齐除苹果外所有主流手机厂商。 刘艺璇提到,随着手机厂商相继发布小折叠新品,今年小折叠在国内市场的销量有望冲刺400万台。 “以目前行情来判断,折叠屏在未来3年内都将是一个相对热门的品类。鉴于苹果尚未推出折叠屏产品,中国/本地品牌正在把这种新产品作为其差异化竞争赛道,以巩固和扩大其在国内高端市场的份额。”她进一步补充道。 此外,在折叠屏上,华为或还将另辟新品。7月中旬,余承东在“与辉同行”直播间透露,华为将发布一款折叠屏手机,是“别人都能想得到,但都做不出来的产品”。而华为对这款折叠屏手机构思了5年,经过一系列技术攻关后,即将量产。对于这款全新的折叠屏手机,外界普遍猜测是一款三折手机。 产业链繁忙 折叠屏热卖只是华为重回市场的一个缩影。IDC数据显示,上半年华为手机出货量以17.5%的市场份额傲居中国智能手机排行榜榜首。 在这背后,是整个产业链在高速运转、紧密配合。 据媒体此前报道,华为有一套精密的经销商体系,大客户和运营商由华为直供,其他则由中邮广电和普天太力两大经销商来分货,前者主要负责华为Mate系列和P系列、IOT产品,而后者则负责畅享系列、麦芒系列,nova系列。 过去几年,由于外部限制,华为手机业务省级、县级的配货大幅减少,为让经销商有货可卖,华为的策略是手机拿货需要配合其他IOT产品。“当时库存压力比较大,不过现在基本已经回血。”上海经销商吴毅(化名)告诉时代周报记者。 “生意场起起伏伏都属正常,亏钱的时候和华为一起,赚钱的时候也会有你一份。”在郑州有数家门店的经销商李阳说,他跟随华为做生意有10余年,在最艰难的时候没有退出,身边的大商也很少有退出。 所谓的华为大商一般在一座城市至少有五六家店,一个体验店的成本就要500万元,这也是华为销售体系的大动脉。 近期,华为官方宣布,Pura70全系价格直降,降幅为500-1000元。据报道,有消费电子产业链人士表示,此次降价是因为华为Pura70系列卖得不及预期。 图源:图虫创意 “Mate 60确实比Pura70卖得好,毕竟是华为时隔数年的回归之作,但去年以来,华为不断更新补齐产品矩阵,不管是nova系列、Mate系列、Pura系列,还是大折叠、小折叠都卖得不错。现在主要问题是产能跟不上。”贵州遵义的经销商刘铭(化名)深有体会,几款热门产品发布初期基本是到货即售罄,现在也是经常断货。 郭明錤曾预测,对比2023年发布的P60系列,P70系列的出货量在2024年有显著的增长。如果手机库存回补需求强劲,P70出货量有望增长230%到1300万-1500万台;如果需求放缓,也有望达到增长150%到1000万-1200万台。 这对于供应链企业是利好也是考验。 年初,有媒体报道,华为对折叠手机供应链下达“追单令”,大举扫货关键零部件CMOS影像感测器(CIS),理由是今年华为制定了积极的折叠手机出货量目标,从去年的260万台,大增为700万至1000万台,最高增幅将近3倍,因而需要更多零部件支援。 熟悉手机供应链的Wit Display首席分析师林芝告诉时代周报记者:“华为今年销售预期较高,给部分供应链厂商带来了供应压力,特别是高端芯片,性能和产能都要满足需求需要供应链厂商和华为更多的协同创新。” 翻身仗怎么打? 手机业务一直是华为的现金奶牛。长期以来,华为两大旗舰系列P和Mate保持着较为稳定的发布节奏。一般情况下,华为在每年在3月左右发布P系列,9月左右推出Mate系列。 不过,2021年以后,受到供应方面压力,P系列和Mate系列的发布节奏被打乱。其中,2021年的P50系列发布时间较正常推迟近4个月,到当年7月才发布,2022年P系列断更一年;Mate系列则是在2021年断更一年后,在2022年9月推出Mate50。 随着两大旗舰王牌的断更,Omdia数据显示,华为智能手机出货量从2020年的1.9亿台下滑至2021年的3500万台,同比下滑81.6%,华为的全球智能手机出货排名为第9位。 华为的经销商们,也经历了职业生涯的低谷。在这期间,刘铭关闭了两家门店,收缩过冬。 2023年上半年,P60系列回到正常更新节奏,一机难求,下半年华为未发先售的重磅旗舰产品Mate 60系列以及折叠屏Mate X5,再度掀起抢购狂潮。 图源:时代周报记者摄 去年9月,广州一家线下门店的店长在接受时代周报记者采访时提到,该店到货的华为Mate 60系列大概有60-70台,但在门店预定的用户已经超过200人。 到2023年第四季度,IDC统计显示,不少手机品牌的市场份额同比2022年均有下滑,而华为一枝独秀,同比增加36.2%,中国市场份额达到13.9%,回归到第四名。 同时,根据华为2023年年报,其全年销售收入7042亿元,同比增长9.63%,为2019年以来最大年度增幅;净利润870亿元,同比增长144.5%。其中,华为终端业务销售收入同比增长17.3%至2515亿元,扭转下滑趋势。 Counterpoint Research报告显示,华为2023年的手机出货量约为3500万台,比2022年增加约500万台。如果按照平均6000元的价格核算,该业务销售收入约2100亿元,成为终端业务收入增长的主要推动力。 不过,林芝也提到,第二季度华为Pura70系列销售不及预期,苹果降价攻势也给华为带来一定压力,导致华为通过降价来刺激市场。“华为的翻身仗并不容易。”林芝称,当前,手机行业创新乏力,消费者支出较为谨慎,华为需要拿出更令人惊叹的产品,才有更多消费者愿意为之买单。 下半年,华为Mate 70将和苹果iPhone17在高端市场迎来正面对垒,双方面临的压力均不小,最终谁能引领手机市场,仍需拭目以待。目前,产业链已进入到紧锣密鼓地备货阶段,华为和苹果均未对外释放太多新机信息,经销商们则翘首以盼,希望新的旗舰产品可以引爆新一波热卖。 而就在8月9日,还有多名数码博主在社交平台晒出了华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东在机舱里操作一款新机的照片。照片中,余承东手持一台新机,屏幕画面隐约为微信界面,最左侧是消息列表,右侧疑似为对话框或正在浏览的网页内容。右手边的保护壳内似乎还隐藏了手写笔。 图源:社交媒体 这款产品也被猜测就是新三折手机。有供应链消息称,华为的三折叠屏新机已投入生产。 华为的翻身仗仍在继续。
高合倒下后,谁是下一个“行业耻辱”?
今天,高合上热搜了。 因为破产。 折腾了半天,高合还是没有找到“白衣骑士”。 现在这环境,金主确实不好找。 不过,对于高合破产这事,大多数博主都是表达了惋惜的态度。 出乎意料,风评相当好。 这事,也不是没原因的。 隔壁威马破产,老板连夜跑路。 大骂高合“行业耻辱”的贾老板,至今仍是归途无期。 但是高合没有,先是直播带货,后是不断找金主,突出一个不离不弃。 虽然直播现在停了,但是态度也有了。 看来,凡事都怕对比。 现在高合这情况,还有希望吗? 有一点,不太多。 确实,破产重组不代表一定完蛋。 很多债务可以折价支付,或许还有人愿意接盘。 只要不是清盘,基本上就说明还有机会,就看重组情况。 但智哥觉得,即使高合还能重组,后续也很难了。 在这么卷的市场,就没听说过哪家车企,在停摆了数月后还能重启的。 汽车市场,已经不是讲究决心做事的阶段。 当品牌忠诚度成了虚无,市场用户需求又千变万化,高合的结果已然注定。 高合之后,谁是下一个呢? 第二梯队车企如哪吒、零跑等等,现在的表现稳了吗? 其他诸如极石等等,现在的表现足够处之泰然吗? 目前,新势力当中,也只有特斯拉和理想等少数公司达成了净盈利。 其他新势力,多半都是只有毛利率,而净利润还没有转正。 高合并非第一个遭遇经营困境的车企,像威马、像爱驰,这些早就不声不响中退出了历史舞台,只留下一地鸡毛。 和他们对比,高合的遭遇多少还是有一定启示作用的。 毕竟,高合的确有认真地在造车,也有上规模的销量。 所以,它的困境更能凸显当下新能源市场中“决策”的重要性。 在产品上、经营上,一些判断失误,就很有可能导致大厦将倾。 而且,高合的隐患一早已经埋下,其根本原因在于不是一家上市公司。 早前,高合曾有计划登陆港股和美股,但最后都因为各种原因搁置。 目前国内尚存的头部新势力,比如“蔚小理”,则是早早登陆了美股,成为了他们对外融资的重要筹码。 从这个角度看,高合确实有运气不好的成分。 彼时无法登陆美股,客观来说完全是“殃及池鱼”。 但正是这个关键因素,使得高合整个发展的轨迹被改变,从而埋下祸根。 显然,“吃不上奶就会死”变成了国内新势力的普遍问题。 迟迟无法扭转为盈和实现正向循环,那么达摩利斯克之剑就会悬于头上。 再结合近期越演越烈的产品价格战,车企也就变得愈发严峻。 无论如何,二线新势力最后必然是“百不存一”。 对这些新势力来说,“如何避免成为下一个高合”,就是接下来的唯一命题。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。