EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
34B参数量超越GPT-4!“数学通用大模型”MAmmoTH开源,平均准确率最高提升29%
新智元报道 编辑:LRS 【新智元导读】数学通才「猛犸」模型给开源语言模型带来了「推理春天」,面对GPT-4都有一战之力! 数学推理问题是语言模型绕不过的痛点,在各种黑科技的加持下,开源模型的推理性能依然不够看。 最近,滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学的研究人员联合开源了一个专为「通用数学问题」定制的大模型MAmmoTH和一个指令调优数据集MathInstruct. MathInstruct由13个具有中间原理的数学数据集编译而成,其中6个为新数据集,混合了思想链(CoT)和思想程序(PoT),并确保覆盖了广泛的数学领域。 CoT和PoT的混合不仅可以释放工具使用的潜力,而且还允许模型针对不同的数学问题进行不同的思维过程。 因此,MAmmoTH系列在所有尺度上的9个数学推理数据集上的表现大大优于现有的开源模型,平均准确率提高了12%至29%。 其中MAmmoTH-7B模型在MATH(竞赛级数据集)上的准确率达到了35%,超过了最好的开源7B模型(WizardMath)25%,MAmmoTH-34B模型在MATH上的准确率达到了46%,甚至超过了GPT-4的CoT结果。 数学推理领域新王:MAmmoTH 在数学推理任务上,开源和闭源的大型语言模型(LLM)之间存在巨大的性能差距,目前基准数据集上的sota仍然是GPT-4,PaLM-2和Claude等闭源模型,其他开源模型如Llama,Falcon和OPT等仍然远远落后。 为了弥补性能差距,主要的研究方法有两类: 1. 如Galactica,MINERVA等模型,继续使用数学相关的网络数据对语言模型进行训练,可以提高模型的通用科学推理能力,但计算成本会更高; 2. 如拒绝采样微调(RFT)和WizardMath等,使用特定领域数据集对模型进行微调,虽然可以提高领域内性能,但无法适用于更广泛的数学推理任务。 在解决数学问题时,现有方法通常会采用思维链(CoT)方法引导语言模型循序渐进地用自然语言描述来解决数学问题。 虽然在大多数数学主题下表现出很好的通用性,但在需要精确或复杂的数学计算、算法推理的问题下(如求解二次方程根,计算矩阵特征值)表现不佳。 相比之下,思维程序(PoT, Program-of-Thought)方法和PAL利用外部工具(即Python解释器)大大简化了数学求解过程,将计算过程卸载到外部Python解释器,以解决复杂的数学和算法推理过程(例如,用sympy求解二次方程或用numpy计算矩阵特征值)。 然而,PoT在处理更抽象的推理场景方面有所欠缺,尤其是在没有内置API的情况下,常识推理、形式逻辑和抽象代数的推理能力会更差。 方法概述 研究人员的目标是编制一个高质量、多样化的数学指令调整(instruction-tuning)数据集列表。 1. 覆盖不同数学领域和复杂度 更全面的数据集可以让模型接触到多样化的数学知识,提升模型的多功能性。 研究人员将选择范围缩小到几个被广泛采用的高质量数据集,包括GSM8K、math、AQuA、Camel和TheoremQA. 还可以注意到,现有的数据集缺乏对大学水平的数学知识的覆盖,如抽象代数和形式逻辑,所以研究人员选择使用GPT-4来合成TheoremQA问题中的思维链(CoT)原理,利用网络上找到的数个种子样例,通过自我指导(self-instruct)创建问题和CoT的数据对。 2. 混合CoT和PoT 现有的研究方法大多只关注CoT,并且数据集中也只包含有限的解题思路,导致CoT和PoT的数据量十分不均衡。 为了解决该问题,研究人员利用GPT-4来补充选定数据集的PoT解题思路,通过对比合成程序的执行结果以及人工标注的答案进行过滤,确保生成数据的高质量。 遵循上述方法,最后得到了26万条指令、回复数据对,涵盖了广泛的核心数学领域,如算术、代数、概率、微积分和几何等,混合了CoT和PoT基本原理,并提供多种语言、多个难度级别的数据,足以证明数据集的高品质和独特性。 训练步骤 研究人员统一了MathInstruct中的所有子集,将指令数据集的结构标准化为Alpaca模型的格式,使得模型无需考虑原始数据集的格式,在微调阶段统一处理数据即可。 研究人员选择开源模型Llama-2和Code Llama作为基础模型,在7B、13B、34B和70B尺寸的模型上进行微调。 实验部分 评估数据集 研究人员选择了不同数学领域下的样本,对模型的通用数学推理能力进行评估: 领域内数据集包括GSM8K,MATH,AQuA-RAT,NumGLUE;领域外数据集包括SVAMP,Mathematics,SimulEq,SAT-Math和SimulEq,涵盖了小学、高中和大学水平的数学问题,部分数据集甚至包括形式逻辑和常识推理。 问题类型为开放式问题和多选题,其中开放式问题(如GSM8K、数学)采用PoT解码,因为大多数问题都可以由程序解决;多项选择题(如AQuA、MMLU)采用CoT解码。 实验结果 总的来说,MAmmoTH和MAmmoTH-Coder在不同的模型尺寸上均优于SoTA模型,并且在领域外(OOD)数据集上的增益要显著优于领域内(IND)数据集,展现出了该模型作为数学通才模型的潜力,甚至在几个数据集上,MAmmoTH-Coder-34B和MAmmoTH-70B甚至超过了闭源模型。 在领域内数据的评估,MAmmoTH模型的主要竞争对手是WizardMath和Platypus,其中WizardMath的训练深度依赖于GSM8K和MATH数据集,Platypus在更广泛的文本和数学推理数据集上对LLM进行微调。 相比之下,MAmmoTH实现了全面的改进,并且更擅长解决复杂数学问题,相比WizardMath(MATH数据的sota)的增益最高超过了25% 在领域外数据评估中,主要竞争模型依然是Platypus,不过MAmmoTH可以实现比领域内数据更高的性能提升,展现出对未知数学问题的通用能力。 值得注意的是,MAmmoTH-7B还将WizardMath-7B在MMLU-Math上的CoT性能大幅提高了9%,其中包含大量没有在训练数据集中涵盖的主题。 不同基础模型之间的对比 可以发现,Code-Llama作为基础模型时的效果始终优于Llama-2,尤其是在领域外数据集上,二者之间的性能差异甚至达到了5%,其中MAmmoTH-Coder(34B)在领域外数据集上的平均性能实际上高于MAmmoTH(70B) 研究人员认为,MAmmoTH-Coder从Code-Llama的持续代码训练中受益匪浅,不仅增强了PoT能力,还提高了Llama的通用推理技能。
金融和大模型的“两层皮”问题
几年前,我采访一位产业专家,他提到了一个高科技到产业落地的主要困惑:两层皮。 一些特别牛的技术成果在论文上发表了,这是一层皮。企业的技术人员,将这些成果产品化、商品化的时候,可能出于工程化的原因,会做一些简化,这是另一层皮。 两层皮之间,是有gap的,就像卖家秀和买家秀一样,并不是融合且一致的。 而往往是那些有技术人才、研发能力、转化意愿的企业,会先碰到“两层皮”的问题,产生对技术有效性、ROI回报率不明确的疑虑。 在冲入大模型热潮的各路人马中,金融机构可能是率先遭遇“两层皮”挑战的。 我们知道,金融产业一贯是新技术的早期采用者,在AI方面的尝试很早就开始了,可以说是产业AI化的“优等生”,更是有着良好的信息化、数字化基础。金融机构的前中后台各个场景中,都有被大模型降本增效的空间。因此,金融也被认为是大模型落地的首选场景。 作为大模型落地的先行者,金融领域如果解决不了“两层皮”的问题,意味着大模型在实际应用中还是存在卖家秀和买家秀的差距。 本文希望说清楚,究竟是哪些问题拉开了金融和大模型之间的gap? 问题一:以谁为主? 既然是做大模型,当然是由OpenAI/BAT这样的科技企业和技术公司为主导了,而这也是金融机构不想看到的事。 有个金融领域的专家告诉我们,这波大模型的热度起来之后,金融机构都特别焦虑,有一种FOMO(Fear of Missing Out害怕错过)情绪。 因为上一波技术浪潮,智能手机和移动互联网崛起,导致传统银行、券商的很多业务,被互联网金融公司分走了。在业内人看来,这种“史诗级的悲剧”绝不能重演。 在技术焦虑的驱动下,金融机构非常积极想跟上大模型的风口,几乎不需要科技厂商做太多市场教育,整个行业在接纳大模型这件事上表现极其良好。 同时,金融机构也非常重视将金融大模型的“核心筹码”牢牢掌握自己手里,强调“以我为主”。有银行业人士提出:只有适应银行的大模型,才是真正可以深度应用到场景里、业务流程中的大模型。具体怎么做呢? 一类是硬筹码。 对金融机构来说,数据安全隐私合规,是没有妥协的硬指标,有非常严格的要求。这也就导致,大模型落地金融更加需要本地化的搭建和私有化部署、运行。 本地部署的要求,对大模型厂商来说有利有弊。有利的地方是,相比其他行业直接调用API接口的MaaS模式,本地部署的客单价高、利润大,商业价值更高。不利的地方在于,私有部署需要在云化方案、数据处理、存储、模型训练、提示工程、运维服务等多方面,形成一套完整的解决方案,竞争焦点不仅是基座模型本身,这就增加了技术服务商的成本和难度。 另一类是软筹码。 金融大模型要表现良好,需要专有数据的精调、领域知识的引入、基于场景的反馈,而银行业本身的数字化基础非常好,数据积累深厚,这便成了掌握在手中的软筹码。 摩根斯坦利公司在研发生成式AI产品中,就结合超过10万份财务报告、内部资料和金融文献等,对OpenAI的基础模型进行微调。据透露,我国农业银行业也沉淀了2.6TB的高质量训练数据,用于大模型的训练。此外,基础大模型虽然通识能力很强,但“专业课”能力不足,缺少金融专业知识,加上金融场景业务复杂,初出茅庐的大模型,要形成高质量的服务能力,成为优秀的“AI副驾驶”,并不容易。 这就要求,大模型厂商和技术公司,改变“技术为中心”“我是来赋能/颠覆你的”的惯有思路,增强服务意识,与金融客户合作,以金融客户为主。 大模型落地金融绝不是,也不能是又一次“技术颠覆行业”。无论是通用大模型厂商还是ISV服务商集成商,都要在“客户为主”这条baseline(基线)上跳舞。 问题二:融合为什么难? 以金融机构为主,那科技公司岂不是成了“大模型施工队”,只能收点辛苦费,发挥不了技术创新性了? 大no特no。 一来,金融AI不是新事物。 金融机构,并不是大家想的那样,面对AI一窍不通。事实上,在所有行业里,金融领域的“含AI量”绝对是排名前列的。几年前我采访国内某985高校人工智能学院的院长,对方直言,AI方向的学生毕业后不去BAT、不去创业公司,去的是招商银行这类金融机构下面的信息中心/技术中心,搞金融的人工智能。 所以,金融AI的趋势其实早在几年前,就已经大幅开展了,这也是为什么今年大模型热度刚起,国內工行、平安、农行、招商银行、中信银行等一大波银行,能很快组建了自己的GPT大模型专项研究团队。银行能及时行动,靠的就是几年来投入AI的积累。所以,以金融机构为主,也做得好金融大模型。 二来,大模型是个新事物。 大模型究竟比这些“传统AI”强在哪里,能干什么?这是一个完全空白的新问题。 理论上讲,大模型可以贯穿银行全产业链的各个环节,每条业务线、每个智能都能找到LLM的应用场景。但现实中,全环节全面上马大模型,怎么跟业务结合都不清楚,意味着会有大量探索是失败的、浪费的。 要加速探索、减少成本、降低风险就必须金融机构和科技公司一起,让金融专家、算法科学家、工程师、测试员等坐在一起,一点一点地共同探索,深入洞察场景,对需求“去伪存真”。 有金融机构的负责人直言,今天金融业能够获取的智能化应用非常丰富,翻开AI企业的金融产品推介手册,可以看到上百个细分能力,但如何选取最合适的整合到自家机构的业务中,这个过程中会有大量的试错。 目前来看,业内基本已经达成共识,金融大模型,必须优选场景。有几个关键词: 1.高频次。在一些重点场景、重点应用上,尽快让大模型可以上岗解决问题,降低应用的门槛。比如智能客服、智能投顾等原本的劳动密集型岗位,可以很快带来显著的降本增效成果。 2.高价值。对于一些有社会价值、商业价值的领域,率先开始探索。比如普惠金融,就是目前从政府到民间都非常看中的金融服务,需要精准的数据洞察、更低成本、高可及性的服务能力,去综合降低中小微企业/商家的金融成本。其中,大模型的多模态表达能力、强大的理解分析能力都可以发挥很好的作用。 3.易部署。不少金融从业者,听到大模型的第一反应是,这事儿小模型能干吗?大模型对硬件基础设施的算力、稳定性等都提出了更高的要求,金融机构又在加速推进国产化硬件,各个业务线都部署大模型,带来的性能压力、成本压力、部署压力都是非常大的。所以,大模型压缩优化后或者同样效果的小模型,可以落地的业务场景,比如大模型生成银行理财产品推荐建议,大模型作为券商机构的研究助理,对这些已经在应用的传统AI,用大模型进行升级,不会增加过高的算力成本和工程量,是更易落地的渐进式场景。 正因为大模型是一层皮,实际应用是另一层皮,两层皮怎么融合,在哪些场景优先融合,是一条无人走过的路。金融机构和科技企业,都不能独行,唯有紧密配合,才能寻找到金融场景与大模型之间的最佳融合之路。 问题三:镣铐怎么这么多? 是不是找到场景,重点攻克,然后规模化复制,金融大模型就能突飞猛进了? 我们说金融机构“人多、钱多、技术多”,只是相对其他行业而言。现实中,金融机构也不可能拿出无限的预算、投入无限的人力、开放无限的场景,供大模型随意大显身手。而且,金融领域还存在大量的中小银行、券商,能负担的技术创新成本也是有限的。 一位银行从业者提到AIGC就说:竞争是加剧的,人员是有限的,人才是缺乏的,费用是紧张的。 可以说,带着镣铐跳舞,正是金融和大模型“两层皮”“卖家秀和买家秀”的关键原因。 比如算力的问题。国产化替代进程中,金融大模型要打破训练昂贵、算力成本高的桎梏,对模型厂商的硬件基础、自研能力、生态兼容能力、软件协同优化,提出了综合的考验。 目前,头部云厂商都下大力气在自研硬件上,比如百度的昆仑、阿里的倚天、华为的昇腾,以及配套的软件、生态,没有这些很难真正拿下金融大模型。 还有技术本身的限制。坦率来说,大模型技术本身还存在不少问题,尤其是在金融领域落地,必须解决幻觉问题,胡说八道对严谨的金融业务是不可接受的。模型黑箱性会导致AI智能决策不可信、不敢信,无法真正用于金融投顾、市场分析决策。 另外,金融机构也会衡量ROI投入产出比。但因为金融场景中,已经沉淀了大量的传统AI,比如智能客服,大家可能都接过机器人打来的产品推销电话、账单催收电话。 所以引入大模型后,究竟能给客户带来多少收益,回报产出比ROI怎么评估,哪些是大模型带来的提升,这些目前还没有一个明确的衡量标准。 无法量化大模型给业务带来的贡献,显然会导致大模型厂商的无序竞争,或者比拼客户关系,这也成为金融大模型效果不彰的一个隐忧。 消除产业和大模型之间的gap,将会是接下来,大模型赛道的标准动作。 这个过程中,最早遇到“两层皮”问题的金融大模型,或许会提供大量有益的参考和实践,而金融机构也会成为更早挖掘到金矿的第一批大模型淘金者。
生成式AI对未来就业有何影响?到2030年将重塑1100万个工作岗位
站长之家(ChinaZ.com) 9月19日 消息:根据Forrester的最新报告,生成式人工智能(GenAI)的“过度采用”将到 2030 年消除240万个工作岗位,但将重塑超过1100万个工作岗位,这一预测描绘了一个充满“魔法和混乱”的未来景象。 Forrester在8月30日发布的关于GenAI对就业的影响报告中,对这一技术进行了自相矛盾的描述。GenAI自10个月前发布ChatGPT以来,迅速成为主流技术,一方面,它因其看似神奇的结果而广泛受到采用,但另一方面,这种“魔法”也将给就业市场带来混乱。 报告引用了Resumebulder.com在2月份的一项调查,该调查显示四分之一的公司已经用ChatGPT替换了员工。高盛的预测认为GenAI可以提升世界经济产出7%(约7万亿美元),同时实现相当于3亿个全职工作岗位的自动化。然而,Forrester分析师写道:“夸大的预测、令人心碎的事实、普遍的恐慌——在浓烟中很难看出火灾的范围。”他们认为只有通过基于最可靠数据的分析才能真正了解GenAI对就业的影响。 根据Forrester的估计,到2030年,自动化和人工智能合计将取代4.9%的工作岗位,其中30%的工作岗位流失,即约240万个工作岗位,主要是由于GenAI造成的。然而,分析师指出,虽然GenAI自动化了一些工作,但它也将改变1100万个工作的完成方式,相差4.5倍。 分析师写道:“技术作家、社会科学研究助理、校对员和文案撰稿人等更容易自动化且具有较高人工智能影响力的工作更有可能消失。” “具有较高生成式人工智能影响力的较难自动化的工作,例如编辑、作家、作家和诗人、作词家和创意作家,更有可能影响工作的进行方式(通过增强),而不是取代它们。”Forrester表示,GenAI将影响的工作岗位数量是其直接取代的工作岗位数量的4.5倍。 Forrester还指出,办公室和行政工作将受到最严重的打击,而支付中等工资的中层工作将受到最严重的打击。薪酬更高的更高级别工作对GenAI的抵抗力更强。他们写道,管理职位很大程度上将不受GenAI的影响,“因为他们的工作依赖于人工智能的技能,如人类判断、同理心和领导力”。 那么,业务领导者该如何为GenAI的“魔法与混乱”做好准备呢?Forrester的分析师提出了一些建议。其中之一是投资“RQ”(机器人系数),即度量个体适应人工智能和自动化的能力。将增强作为策略的核心部分是另一个建议。 Forrester的分析师还建议业务领导者采取主动的方式来应对GenAI,分析哪些工作岗位将从中受益最多,然后为员工提供适当的工具。当然,还需要投资于GenAI开发技能,因为您需要员工能够运用这些新技术。 尽管没有人确切知道GenAI竞赛将如何结束,甚至第三局会是什么样子,但可以确定的是,这将充满竞争。
狂降 4.6 万!G9 改款发布,小鹏涅槃重生
地缘打碎了文明,又在文明的边缘重新定义文明。 坐落在河西走廊最西端的敦煌,就是一个这样的地方。 公元前 121 年,霍去病出陇右击匈奴,河西走廊首次纳入华夏版图。在这之后,敦煌成为了丝绸之路三线的重要节点。贸易往来、思想的冲刷交融,让敦煌的文化破碎又重组,最终衍生出了独特的华戎文化,复杂的地缘碰撞催生了瑰丽的艺术成就。 敦煌莫高窟里的壁画,从简约奔放再到细腻秀丽的风格演变,勾勒出一幅幅飞天、涅槃的经典故事。 ▲ 敦煌莫高窟第 229 窟-窟顶北坡-伎乐飞天 图片来自:敦煌研究院 敦者,大也;煌者,盛也。 小鹏少有地将上市发布会定在敦煌,兴许有着特别的用意。对于小鹏来说,全新 G9 的改款事件就像是商业版图中的「敦煌郡」,走过长安-敦煌的三万里,站在丝绸之路的起点,何小鹏对旗下车型的西进、重塑有了新的思考。 在今晚的敦煌博物馆,小鹏正式上市 2024 款小鹏 G9,起售价为 26.39 万起,上市即交付。其中,2024 款全新小鹏 G9 共提供 5 种配置车型选择: G9 570 Pro 版:26.39 万起 G9 702 Pro 版:28.39 万起 G9 570 Max 版:28.99 万起 G9 702 Max 版:30.99 万起 G9 650 Max 版:35.99 万起 相比旧款 30.99 万的起售价,新款 G9 的起售价进行了 4.6 万元的大幅下调,无论是 Pro 版本还是 Max 智驾版本都已经真正下探到了国内 30 万以内的纯电市场。 从改款 G9 开始,小鹏打碎过往,迎来自己的涅槃重生时刻。 改款 G9,是一道加减乘除题 如果你觉得难,你看看小鹏汽车的何小鹏就不难了。 何小鹏这样形容去年小鹏所面对的艰难时刻。对于小鹏汽车来说,去年 G9 的失利足够刻骨铭心。 发布会上,何小鹏谈起了更多小鹏内部为 G9 改款付出的努力,「加减乘除」是小鹏内部团队对 2024 款 G9 的高度概括。 新款 G9 的「加法」做在了架构技术上,2024 版的 G9 将会标配更多扶摇架构的核心技术。何小鹏认为,尽管去年的 G9 也使用了相当多扶摇架构的技术元素,但小鹏认为新款能够在智能、电能以及性能上做得更加出色。 在扶摇架构的赋能下,新款 G9 几乎全系标配了核心能力。谈到当家智能驾驶技术,何小鹏再次提到了 XNGP 的实际进展,在过去一年中小鹏城市 NGP 的周度使用率达到了 82%,XNGP 的周用户使用率达到 94.6%, 其中单辆最长累积智驾里程突破 15000km。 更高频的使用,带动了小鹏开城进度。何小鹏宣布,到 2023 年底小鹏城市 NGP 智能驾驶将扩增至 50 城,覆盖接近 80% 小鹏车主所在的城市;2024 年,城市 NGP 预计会扩增至 200 城,做到核心城市全覆盖。 实际上,小鹏智能驾驶的野心并不只停留在开城,何小鹏还进一步确立了内部智能驾驶团队的目标——2025 年,XNGP 要在城区路段实现平均 1000km 接管 1 次的效果。小鹏有信心能够在未来 2-3 年内,从现今平均 10km 接管 1 次的水平,完成 10-1000km 量级的跨越。 做起「加法」的还有新款 G9 的性能表现。2024 版全新 G9 将会搭载同级领先「超线程智能底盘」,在全车视觉以及智能双腔空气悬架等核心底盘部件的支持下,超线程智能底盘可以进行每秒 1000 次路况扫描和 200 次的悬架调节。 值得一提的是,这一套底盘有着相当高的可玩性,根据小鹏官方介绍,超线程智能底盘支持自定义极客模式,可以为有明确驾驶取向的车主开放多达 13.5 万种驾驶模式。后期,这样的「数字底盘」还会通过 OTA 不断升级优化,适应更加极致的操控需求。 主打「听劝」的小鹏,在过去一年中,小鹏通过不同的渠道方式,与用户沟通交流超过 1000 次,接收来自用户的建议超过 10000 条。最终,小鹏在改款 G9 的豪华感上做了更丰满的诠释。 全新小鹏 G9 共有 5 款外观配色方案,其中新增 2 款配色,分别是星际绿以及暗夜黑;而在遭受诟病已久的座舱内部,小鹏内部团队也做了更多思考,新款内饰新增气宇灰配色,为 G9 营造年轻运动感。 电控能耗方面,新款 G9 亦有进步。根据小鹏官方的说法,新款 G9 全系标配 X-HP 2.0 智能热管理系统,新系统加持下新款 G9 的冬季空调能耗降低 30%,采暖效率提升 50%,冬季续航里程提升 15%,做到了同级最低能耗、最实续航。能耗的优良控制,成为了小鹏西进「出海」的一张王牌,在 2023 年挪威乘联会夏季续航实测中,小鹏 G9 摘得桂冠,成为了榜单中续航里程最扎实的纯电车型。 出色空间、能耗表现,精准打击了欧洲纯电市场的痛点。相比 P7i 车型,G9 在欧洲取得的关注和成功是远超内部想象的,何小鹏透露,G9 在欧洲市场的热度表现高出了自己心里预期的 10 倍。从 9 月的慕尼黑车展开始,小鹏 G9 将会开启西进启动海外交付,2023 年 10 月将在挪威、丹麦、荷兰、瑞典四国开始交付,2024 年小鹏计划打进德国市场。 「要把钱花在刀刃上」,小鹏 G9 贯彻了这个宗旨。对于一些用户低感知的配置,小鹏内部团队主动做起了减法。正如传闻消息那样,小鹏 G9 取消了 5D 智能音乐座舱,以及在座舱内部换上了一套全新自研的音响系统——Xopera 2.0 小鹏音乐厅。 用自研取代丹拿音响,小鹏有着自己的考量。何小鹏认为,Xopera 2.0 音响系统能够通过自研算法达到丹拿音响的同等效果,过往丹拿音响需要用户选配,而小鹏用更低的成本还原了丹拿效果,并且将选配打造成了标配,用户和车企都是「win-win」双赢。 另外,小鹏还回应了更多有关与大众的合作细节。在大众汽车官宣与小鹏达成技术战略合作之后,G9 将会成为「内销转出口」的中国汽车高端代表,未来双方将会基于 G9 车型平台共同开发两款纯电车型。 G9 的过往是惨痛暗淡的,但对于擅长技术的小鹏来说,改款 G9 却是一道加减乘除题,小鹏在新款 G9 上面找到了降本和重生的答案。 从产品到渠道,瘦身减重 在不久前的第二季度财报电话会议上,何小鹏表示,在今年的第四季度小鹏汽车的毛利率有望回正,小鹏有信心在 2024 年年底前完成整体成本降低 25% 的目标,并显著改善毛利率表现。 降本增效,将会是小鹏贯穿未来一整年的主线任务。 好消息是,G6 的销量表现让小鹏暂时卸下了沉重的销量包袱。 电话会议中何小鹏透露,G6 已经成为了 20-30 万级最有统治力的纯电车型之一,Max 版本订单量突破车型总订单的 70%,远远超过了小鹏内部团队的预期。在刚刚过去 8 月,小鹏单月累计交付 13690 台新车,其中 G6 交付量环比增长 80%,累计交付超过 7000 台新车,占据总销量的 51.13%。凭借 G6 单车型的市场表现,小鹏挽救了自己的销量基本盘。 销量回暖复苏,继而推进 G9 改款,至少在产品层面上,小鹏已经达到了瘦身目的。想要完成从臃肿到轻盈的蜕变,小鹏还要将目光抛向销售渠道体系的变革。 未来三年,小鹏汽车要达到百万销量。 在「木星计划」零售选商沙龙上,王凤英这样地说道。 ▲ 木星计划-王凤英 小鹏内部可能很早就在销量预期上达成了共识。在 G9 遭遇滑铁卢之后,何小鹏重新开始思考怎么让小鹏汽车「活」得更好,内部架构调整已经势在必行。在 8 月初回应吴新宙离职的消息中,何小鹏就已经透露小鹏在 2022 年底就已经提前进入了架构调整阶段。 实际上,这个时间点是稍显微妙的,王凤英正式确定入局小鹏是在今年 1 月,可以推测小鹏内部针对各个职能部门的内部调整从 22 年底就开始并线进行了。 ▲ 何小鹏、吴新宙、黄仁勋三人合照(从左起) 在王凤英入职后,何小鹏曾经向外界透露自己的销量思考。他认为,新能源汽车赛道的淘汰赛刚刚开始,300 万销量仅仅只是一张入场券,在未来 10 年,主流新能源车企的牌桌上只会剩下 8 位玩家。 想要突破 300 万销量这条行业生死线,成本平衡是其中不可或缺的一环,销售渠道的改革,是一次自下而上的体系减重。 从直营模式落地之后,小鹏维持了非常长一段时间让直营与加盟并行。从年初开始情况开始发生变化,小鹏选择加速拥抱经销商。 ▲ 图片来自:REUTERS 3 月,何小鹏曾经表示小鹏汽车的直营店比例约为 70%,这个数字也将会在之后随着渠道改革发生较大的变化。根据晚点 Auto 报道,小鹏不仅关闭了部分低效的直营店,还将相当数量的直营店转给了经销商经营,在保留直营模式的同时拉升经销商的门店比重。 另外,小鹏主动降低了综合店(包含销售、体验全链路的门店)的开设门槛。过往经销商想要开设大体量的综合门店需要达到一定的业绩指标,而在木星计划调整后,小鹏对授权经销商的要求只从城市位置、场地面积、经销商资产健康这些维度进行考量,业绩 kpi 不再成为决定性指标。 所有的动作,都是为了以更轻的资产方式,铺开更多的小鹏门店。 在未来的下半年,小鹏将会明显加快渠道(包含国际市场)的商业模式变革,希望能够用更快的速度吸引优秀经销商伙伴,提速门店在二线,甚至是三线以下城市的渗透。小鹏内部对于下半年的预期是乐观的,在二季度财报电话会议的末尾,何小鹏表示从今年第三季度开始,小鹏将会进入销量、品牌的初步正循环,最终在明年进入更全面的正循环。 如果说,G6 吹响了小鹏触底反弹的前哨,那么 G9 改款和持续大刀阔斧的渠道改革,就是小鹏涅槃重生的真正转折点。
给自动驾驶AI搞个“外挂”,0.1M就能显著提升运动状态判别力
原标题:给自动驾驶AI搞个“外挂”,0.1M就能显著提升运动状态判别力,来自港大&TCL丨开源 只需“100K大小的外挂”,就能让自动驾驶AI识别“物体运动状态”的能力大幅上升! 这是一项来自香港大学计算机视觉与机器智能实验室(CVMI Lab)和TCL AI Lab的新研究,目前论文已被CVPR 2023收录。 研究提出了一种叫做MarS3D的轻量级模型,给原本只能识别物体“是什么”的语义分割模型用上后,就能让它们进一步学会识别这些物体“是否在动”。 而且是任意主流模型即插即用,几乎不需要额外的计算量(推理时间只增加不到0.03秒),目前已开源。 要知道,对于靠激光雷达来判断周围环境的自动驾驶系统而言,其感知能力,很大程度上依赖于3D点云语义分割模型的准确率和效率。 如果想提升模型识别“运动物体”的能力,往往需要将繁重的室外多帧点云数据分别进行特征提取和处理,但这种方法不仅要增加大量计算,识别性能也没提升多少,属实是事倍功半。 相比之下,MarS3D参数量只有约100K大小,却能将主流点云分割模型的性能提升近5%。 这究竟是怎么做到的? 01 100K参数让模型学会识别“运动”物体 首先要了解一下3D点云的两种语义分割任务,单扫描(single-scan)和多扫描(multi-scan)。 这两种方法的核心差异,在于能否区分物体的运动状态。 单扫描任务只需要根据单帧点云,把场景中汽车、行人、道路等语义信息分割并标注出来。像下图,不同的颜色代表不同的物体,如蓝色的点云代表车: 多扫描任务,则需要根据时序上的多帧点云,同时分割语义信息和运动状态。 换言之,不仅要学会区分汽车、行人、道路,还得识别这些物体是否在运动。如汽车标签扩展成“运动的车”和“不动的车”,以及行人扩展成“运动的行人”和“不动的行人”: 目前,自动驾驶做激光雷达点云数据的处理,主要还是通过单扫描语义分割方法。 虽然能通过扩展标签、融合点云数据,直接将单扫描模型训练成多扫描模型,从而让AI掌握识别物体运动状态的能力,但存在两个问题: 一个是性能收效一般;另一个是融合点云数据量大,导致这种模型复杂、计算时间长,而这正是“争分夺秒”的自动驾驶系统无法接受的。 为了解决这两个问题,让语义分割模型又快又好地掌握识别“运动物体”的方法,MarS3D横空出世。 即使之前模型只能做单扫描语义分割,给它加个MarS3D后,不仅能大幅提升多扫描语义分割能力,区分物体“是否在运动”,效果还比其他多扫描方法更好。 所以,MarS3D的核心思路是什么? 具体来说,模型设计了一个基于2D CNN网络的分支BEV Branch,这个模型能提取点云数据转换的BEV(Bird’s Eye View)表征,即自上而下的鸟瞰视角。 之所以选用BEV,主要有两个原因。 一方面,目前的运动物体基本都是在地上跑(即使在空中飞,也几乎不存在垂直上升的情况),也就是说,几乎所有的运动都在水平面上有位移,因此它能很好地反映物体在绝大部分场景中的运动状态; 另一方面,BEV相比点云数据量更小,还能通过参考帧和特征图相减,降低点云稀疏性带来表征不稳定的问题,即同样静态区域的表征近似,含有动态物体区域的表征距离更远。此外,多尺寸卷积对表征抽取特征图,以保证模型对不同运动速度的物体都有很强感知力。 随后,将这个分支提取的运动状态信息特征、和其他被时序嵌入向量增强的单扫描任务模型分支3D Branch提取的语义信息特征结合起来,进行特征融合,最终实现语义分割。 那么,这样实现的3D点云语义分割,效果究竟怎么样? 02 几十毫秒计算,分割性能提升近5% 相比和其他输入如RGB图像进行结合,论文重点测试了模型针对纯点云输入的分割效果。 从下表可见,对于SemanticKITTI数据集,在目前主流的单扫描点云分割模型如SPVCNN、SparseConv和MinkUNet上,MarS3D在只给模型增加0.1M的情况下(参数量增加不到0.5%),将性能(mIoU)分别提升了4.96%、5.65%和6.24%。 同时,计算时间(延迟)只增加了19ms、14ms和28ms。 5%对于模型分割性能提升有多显著?下图是在两个扫描场景中,模型增加MarS3D前和增加后的效果对比,其中左图是增加前,中间是增加后,右边是真实值: 显然,增加MarS3D后模型识别物体的效果要更好。 直接将分割效果和真实值对比,可见增加MarS3D后的“错误值”,比增加前要低不少: 整个推理过程,只需要一块英伟达GeForce RTX 3090 GPU就能搞定。 对MarS3D感兴趣的小伙伴们,可以去试试了~ 项目地址: https://github.com/CVMI-Lab/MarS3D 论文地址: https://arxiv.org/abs/2307.09316
在大模型数量全国领先的北京,昇腾AI“点燃”首个普惠算力底座
大模型在抹平 AI 模型底层架构多样性的同时,也在悄然抹去城区之间的差异。 站在北京石龙经济开发区20号院,很难将这里与京西地区百年钢铁史、千年采煤史联系起来。曾是一代又一代人集体记忆的铁花飞溅、机械轰鸣,如今已化作蔚然成风的「京西智谷」。 图源备注:图片由AI生成,图片授权服务商Midjourney 2月,大模型「炼丹炉」—北京市门头沟区与中关村发展集团、华为技术有限公司共建的北京昇腾人工智能计算中心(以下简称计算中心)在20号院内正式点亮。6月,首批上线运营人工智能训练算力规模100P。 在今年企业争抢算力大背景下,在坐拥全国近三分之一人工智能企业、打响大模型创业「第一枪」的北京,它是第一个面向中小企业提供普惠算力的人工智能训练算力平台。 7月,计算中心又成为北京第一个拿到「国智牌照」的「新一代人工智能公共算力开发创新平台」,跻身国家人工智能算力发展战略体系。 夯实的基座:算力「大」且「稳」 走进一楼计算中心机房,原以为巨大房间里会屹立几座哄哄作响的「铁皮疙瘩」,结果出乎意料:一间仅50平米「小户型」,里面只有一台 Atlas900AI 集群( Atlas900PoD )。 一个集群共有8台机柜,中间五台是核心计算设备,每个机柜里塞进了八个计算节点,是100P 真正来源。最左边两个柜子其实是液冷分配器,决定液冷水输往哪个管道。最右边两个机柜负责高性能卡之间快速通信。 100P 是什么概念?1P 相当于每秒可进行一千万亿次运算,100P 大约相当于五万台高性能电脑的算力。就计算精度而言,100P 是指半精度( FP16)算力。 大模型时代有一个明显趋势,企业都是基于一些开源模型做微调,包括二次训练。「他们会跟我们要两个节点。几十亿参数规模的模型,一到两天就能训练完毕。」北京昇腾人工智能生态创新中心 CTO 杨光介绍说,计算中心目前有四十个节点,按照一家企业需要两个节点来算,可以同时服务二十多家。 绕到机柜身后,触摸背后的液冷门,感觉冰凉,大概只有十几个度。打开厚重的液冷门,依然可以感到热风袭来。只见每台服务器背后都有不少细长管子,直接通到服务器里: 从底部上来的液冷水经由这些管道与服务器进行热交换,带走热量,使温度下降,升温的液冷水回到冷却塔后,恢复以往温度。 整个过程都被封闭在液冷门里,关上门后,外面只剩嗖嗖的凉意。 得益于液冷技术,一台机柜可以塞进八个计算节点,传统运营商的一个机柜通常只能放一台,计算中心 PUE 也做到了1.15(多数地方要求是1.2以下)。 目前使用到中心算力的企业大概有36家,算力使用率的峰值可以到80%。长远来看,100P 只能算「起步价」,「企业业务对应到算力需求都很大。」北京格灵深瞳信息技术股份有限公司副总经理周瑞告诉我们,「像我们这样的企业,未来都是几倍的算力需求。」 今年,计算中心算力规模将达到400P,并持续扩容至1000P。100P 算力集群内置320张卡,以此类推,400P 算力集群将有1200多张卡,1000P 集群卡数将猛增到3200张。卡的数量激增,工程复杂度也会呈指数级增长,这对算力集群高可用性提出巨大挑战。 比如,模型训练一个多月,已经完成99%,突然有张卡出现故障,一切只能从头再来。高性能卡之间的通信问题、训练时无法快速调度到足够算力资源也常常导致训练断掉,之前的努力付诸东流。 为此,计算中心的集群系统提供断点续训能力:平台会保存临界点的 check point (权重文件),故障恢复之后,自动拉取一个非故障节点,将之前保存的权重文件加载进去,继续训练。 「我们最长的稳定时间能做到25天」杨光给了一个具体数字。作为对比,Meta 发布 OPT-175B 模型时曾提到它的稳定训练时间只有2.8天。 针对比较知名的开源大模型,计算中心的硬件水平可与英伟达 A100PK,千卡 NPU 利用率基本能做到40%。 「易用」与「普惠」:最难的是让企业用起来 除了算力资源充沛、数据安全,价格和易用性也是任何一家想要落地行业大模型企业选择算力底座时考虑的核心因素。 本质上,大模型是对小模型时代作坊式底层算力运作的重新洗牌。过去有一个工作站、几张显卡就能做模型训练,现在完全行不通。 「等了一秒钟,底层的模型才蹦出四、五个字,然后又是几秒的等待,体验很差。」在拜访未接入计算中心算力的企业后,中心工作人员介绍到:「如果接入计算中心的算力,大约每秒可以输出20个 Token 。」 从 Transformer 时代开始,主要面向智慧交通领域的中科视语就在做一些大模型的基础建设。对于这样一家智慧交通领域的成长型 AI 企业来说,自建机房训练大模型的前期资本投入过于巨大,周期也不可控。 去年,手握大几百张卡的格灵深瞳也开始与计算中心合作大模型的研发,「因为需要更加专业、系统的算力基础。」周瑞说。 为了做中国医疗领域最好的科学大模型,医渡科技已经买走了计算中心大部分算力。 其实,像中科视语、格灵深瞳、医渡科技这样人工智能企业都有自己的优势。他们往往拥有一支精细的 AI 团队、积累多年的行业数据和自己的知识图谱,知道怎么将这些「独家秘笈」、行业 know-how 与大模型更好地结合。至于算力与大模型强耦合的工作,他们更愿意交给更有经验的合作伙伴。 在这些方面,昇腾已经积累了二年多经验。北京昇腾人工智能生态创新中心 COO 李天哲说到,我们调优有很好的经验,系统级的工程上也做了很多的优化,保证机器的高可用。 在服务定价上,「我们不收回一次性投入数据中心的成本,只收运维的费用(比如电,水,物业等)。」李天哲说。价格相当于现在市场公有云、对外提供算力 IDC 价格的二分之一到三分之一,如果是门头沟区的企业,费用仅为云上企业的七分之一。 相较于算力充沛、高可用和普惠,计算中心面临的最大挑战还是基于国产、全栈自主可控算力系统的易用性。现在计算中心也通过两大服务,提升平台的易用性,尽量降低客户对国产底层硬件的感知。 一个是开源的大模型服务。在昇腾自主可控的全栈基础底座能力上,主动安排技术人员积极适配业界主流的开源大模型。 目前,计算中心基于昇思 MindSpore/MindFormers 套件,已成功适配 LLaMA、ChatGLM、Bloom、PanGuAlpha、GPT 等主流开源 NLP 大模型和 VIT、Swin 等主流开源 CV 大模型。 计算中心还做了很多兼容第三方的算子模型还有框架,甚至引入一些加速库和推理服务,服务上层不同框架、模型的 AI 应用。 现有基于其他系统研发的软件是否能容易地迁移到国产生态中,也是易用性的一个重要指标。为了让大模型方便地迁移到昇腾平台,计算中心也积极拥抱 Huggingface等开源社区,做了很多工具套件。比如,只需5行代码就能快速将模型从 Huggingface 迁移到计算中心。目前计算中心已经完成了超过200个 AI 模型的迁移。 第二个服务就是技术工程师提供贴身技术服务,包括支持训练、微调和在线推理服务( FaaS ,微调即服务)。 告诉我们你用的什么基础模型,把一些公开非涉密的数据上传到计算中心,不用企业再去做太多模型调优,我们就能帮你调好,一到两个月的时间就能交付。李天哲解释说,到时企业直接上来训练就行了。 「我们在门头沟有一个本地化的十几人团队专门做这种技术服务。」杨光说。现在,也在慢慢将一些上层应用封装成服务,我们对上层算法进行了部署,企业只需上传数据,就能立刻使用。 北京昇腾人工智能计算中心已经完成了超高清视频修复增强算法部署。 把脉趋势:为何百亿行业大模型先行? 作为计算中心第一批使用者,中科视语在这里完成了坤川大模型的研发及优化工作。 「我们的感知模型最新成果 FastSam,对标的是Meta提出的SAM(SegmentAnythingModel,SAM),在同等效果下,速度提升50倍,就是在门头沟区的计算中心实现的。」中科视语联合创始人张腊告诉大家。 公司视语通途®智慧交通解决方案在应用场景中实现精准感知、高效运算、快速检索等能力,也充分利用了昇腾 AI 能力。比如,基于针对 AI 场景推出的异构计算架构 CANN 及细粒度正则化模型压缩技术实现了模型高效推理;在 MindX SDK 帮助下,优化了业务效率。 医渡科技的行业模型也是本地企业与计算中心密切合作的典型例子。「我们希望做中国医疗领域最好的科学大模型,」医渡云首席数据科学家彭滔告诉我们。这家医疗 AI 技术公司已经嗅到大模型给医疗领域带来的巨大机遇:公司的业务场景会拆解成很多产品,它们都有可能被大模型的崭新能力升级一遍。 比如,一个新药从科学家研发到最后的上市,可能需要十五年时间、二十六亿美金,大部分花在临床实验上。其中,临床实验的执行阶段具有知识密集、时间地域跨度大、人员流动性强的特点,这也导致企业投入数亿美金,但执行结果往往像开盲盒。类似 ChatGPT 这样的技术可以将繁复的文档查询转化为一个问题,有利于实验执行阶段新进人员快速掌握背景知识,增加结果可控性。 医渡科技的行业大模型目前有两个版本(70亿、130亿),公司也在与计算中心合作,「调一些基座的模型,叠加数据进行持续的精进,通过轻量的工具达到更好的效果。」 彭滔说。医渡科技有自己的优势,积累了相当多的医学洞见和疾病知识图谱,也在不断尝试如何更好地将知识图谱与大模型相结合。 在智慧体感方面深耕的北京格灵深瞳信息技术股份有限公司与昇腾之间的合作已有5年之久。据格灵深瞳副总经理周瑞介绍,公司目前正在图像大模型预训练、微调以及计算加速等底层技术上与计算中心合作。另一方面,大模型落地方面也依托计算中心,提供推理服务。 格灵深瞳大规模沉浸式人机交互系统是一种可以提供沉浸式交互体验的空间型XR产品,游戏是其主要应用领域之一。 目前,计算中心在智慧能源、智慧医疗、智慧城市、智慧交通、智慧金融等行业输出基于昇腾 AI 基础软硬件平台的创新解决方案已经超过250项。 根据昇腾对大模型发展趋势的判断,未来千亿大模型会走向收敛,行业大模型将迎来百花齐放,其中,百亿级别的行业大模型大约占75%,构成算力需求主体,也是昇腾 AI 基座重点支撑的对象。 具体而言,大模型的第一个发展阶段是千亿级大模型。因为知识量非常庞大,它会是千亿训练、千亿推理,用一些高端的卡(像以前的训练卡)去做模型推理。落地场景可能会以2C 为主,就像 ChatGPT 、百度文心一言和讯飞星火大模型都有人机对话的功能。 对于2C 来讲,人工智能大模型还有很长的一段路要走,面对很多的用户量和算力需求,最终怎么落地,客户怎么付费?怎么降低推理成本?都是很大的挑战。 在第二阶段,会有大量分布在中长尾部分,面向行业的大模型。我们估计大部分是7B、13B 的模型,13B 可能会是一个面向行业的大模型主流规模。杨光解释道。因为,与千亿级的通用大模型相比,行业大模型的推理成本没那么高。一方面,行业知识量要求没有那么通用,参数量不用那么多。另一方面企业用户也会追求极致性价比。 人工智能要走向千行百业,百亿行业大模型的孵化可能会是爆发式,昇腾也因此选用一些百亿规模的行业模型作为算力产品的主要支撑对象。 众人拾柴,自然生长 目前,昇腾 AI 芯片已经孵化了30多个大模型,国内原创的大模型一半基于昇腾开发。 相比前大模型时代打造算力底座的繁琐,大模型对国产化平台来说,其实是一个利好。过去视觉领域的模型结构各异,数都数不过来。现在主流开源大模型也就五、六个,很多企业都是基于主流开源模型做改造和训练。 「所以,我们只要把 LLAMA 等几个主流开源大模型的支持做到极致,就能从金融、互联网走向千行百业。」杨光说。 不过,计算中心也认识到自己对这些开源大模型的支持,很难在第一时间完成拟合、适配,会有开发 bug 等问题。这也是他们对培育中国自己的开源社区、打造昇腾 AI 原生大模型抱以极大期待的原因。 我们还在今年推出了面向算子开发场景的昇腾 Ascend C 编程语言。「希望更多算法工程师能用昇腾 Ascend C 来写自己的算子。」杨光说。 计算中心也在与北京高校合作,通过创新大赛、合作创新课程等方式,让昇腾 AI 平台、Ascend C 为更多年轻人所熟悉,伴随他们的成长足迹,一路渗透到行业深处。 发展大模型,算力、模型、生态,缺一不可。昇腾底座能否成为更多行业客户的选择,还是要看企业是否感到好用,要看昇腾的生态,这并非单靠昇腾就能做起来,需要众人拾柴。 这里最关键的是时间,就跟农民种地一样,需要慢慢耕耘,自然生长。
iPhone 15 首发体验:刚需改善型手机,务实的浪漫主义
截止至发稿前,我仍有机会在苹果官网订购首发日到货的 iPhone 15 和 iPhone 15 Plus——在钛合金机身的 iPhone 15 Pro 反衬下,这一代常规升级的 iPhone 15 系列显得不太起眼,连官方宣传片也只有短短 48 秒,而 iPhone 15 Pro 的片子足足有 4 分钟。 iPhone 15 值得换吗,适合什么样的用户? 在深度体验了一段时间后,我想这个问题的答案显而易见: 这是一台刚需改善型手机,是不那么 Pro 但更好的 iPhone 14 Pro。 外观与性能 每一次苹果推出粉色 iPhone,都会是全场的目光焦点,iPhone 15 也不例外。 这一代 iPhone 数字系列延续了之前清新的配色风格,提供了黑色、蓝色、绿色、黄色、粉色五种颜色。虽然机身尺寸没有大的变化,但首次采用了融色玻璃工艺——这是一种新改良的玻璃着色工艺,背板玻璃先经过双离子交换工艺强化,再进行纳米结晶粒子抛光、蚀刻,让玻璃颜色更加清爽水灵,粉色尤其好看。 背板玻璃手感也贴近前几代 Pro 系列的哑光玻璃质感,摸起来还要更细腻一些,不容易沾染指纹,耐脏又耐看。另外,iPhone 的铝合金中框变得圆润贴手了,屏幕玻璃也做了弧边处理,回归到了 iPhone X 时期的设计,握持感更舒适,从正面到后盖,整机手感协调一致。 屏幕部分,最直观的升级就是 iPhone 15 全系配备灵动岛,经过一年的适配,大部分应用厂商已经摸清楚了这块区域的适用场景,听歌、外卖、打车、导航都是很实用的高频场景,比弹窗信息的触达更方便,也更有效。 10 年前,苹果收购了以色列 3D 体感技术公司 PrimeSense,在被收购前,这家公司最有名的产品是 Kinect,是微软 XBOX 360 游戏机专用的体感摄像头,比现在很多智能电视上的摄像头还要大好几倍。 6 年前,苹果发布了 iPhone X,倾尽当时最先进的供应链技术,把 Kinect 缩小几十倍,成为了屏幕上的「刘海」——原深感摄像头,实现了从 Touch ID 到 Face ID 的变迁。 去年,iPhone 14 Pro 系列采用了新的原深感摄像头模组,只有两个小拇指的指甲盖大小,并首次引入了灵动岛的交互设计。 经过六年的迭代,iPhone 终于将 Face ID 融入到 iOS 的交互之中,让 iPhone 实现了某种意义上的全面屏——屏幕交互趋于完整,每一个部分都能各司其职。 除了灵动岛之外,iPhone 15 的屏幕在亮度上相较 iPhone 14 提升明显,日常最大亮度从 800 尼特提升到了 1000 尼特,看 HDR 内容时峰值亮度可以到 1600 尼特,户外时峰值亮度最高可以到 2000 尼特,在绝大多数场景都能保持高可看性,户外大太阳下使用体验提升很明显,是一块除了缺少高刷新率之外已经无可指摘的好屏。 性能方面,由于芯片、内存都没有太大变化,iPhone 15 在性能上基本上和 iPhone 14 Pro 持平,还是 A16 仿生+6GB RAM 的配置,整体性能放在一众智能手机里仍处于领先水平,跑主流应用、游戏也都完全够用,但杀后台的情况仍时有发生。 续航能力基本上与上一代持平,iPhone 15 不太能够撑起一整天的续航,手机重度用户选择 Plus 版本可以有效缓解充电焦虑。 值得一提的是,这次 iPhone 15 终于换上了 USB-C 接口,充电确实方便多了,用 20W 以上的充电器即可激活快充,爱范儿实测充电功率最高可以到 25.7W。 虽然传输速率是 USB 2 的水平,最高只有 480Mb/s,但支持 DIsplayPort 协议,可以配合 USB-C 接口的 DP 线外接显示器使用,看个电影追个剧还是挺方便的。 除此之外,USB-C 接口还支持反向充电,可以用 iPhone 15 给 AirPods 或 Apple Watch 充电,4.5W 的充电功率不高,没电的时候倒是可以应应急。 总的来说,iPhone 15 的外观设计、屏幕表现、整机性能都比较出色,你可以发现过去几代 iPhone Pro 系列上的新技术、新功能都下放到了 iPhone 15 上,带来的好处感知非常明显,一上手就能有很好的体验。 影像系统 2 倍长焦镜头,曾经是许多人纠结 iPhone 买不买 Pro 型号的分水岭。随着 iPhone 主摄越来越广、长焦越来越长,更适合拍人像的 52mm 焦段越来越成为刚需。 苹果显然也意识到了这个问题,给 iPhone 15 全系列配上了主摄 2 倍焦段的变焦能力——希望用计算摄影实现「光学品质」。 实测下来,这个 2×焦段确实能堪重用。 首次是 iPhone 15 主摄规格的升级,采用了 4800 万像素的传感器和新的相机算法,在不变焦、不触发人像模式、夜间模式或闪光灯的情况下,可以对照片的分辨率进行控制,拍摄 1200 万像素、2400 万像素或 4800 万像素的照片。 iPhone 默认隐藏了这个选项,需要在「设置-相机-格式-分辨率控制」中手动开启,之后在取景上方画面中点击 HEIF MAX 选项即可开启 4800 万像素的最大分辨率,成像解析力提升非常明显,很适合风光摄影。 得益于 4800 万像素的传感器和 A16 仿生芯片的强大算力,即使是在主摄 2 倍变焦的情况下,也能保证有接近光学长焦镜头解析力。 ▲样张:48MP 样张对比 24MP 样张(图片有压缩) ▲ 样张:iPhone 15 白天室外样张(图片有压缩) ▲样张:iPhone 15 弱光室内样张(图片有压缩) ▲样张:iPhone 15 夜景模式样张(图片有压缩) 而全新的人像模式则大大降低了拍摄所需要的决策成本。 在 iOS 17 的加持下,相机会自动识别出画面主体并获取场景的空间信息,这时候取景画面角落会出现光圈符号 f 的标志,表示 iPhone 已经启动了人像模式,此时点击 f 即可预览人像模式的虚化效果,点击画面可以选取焦点。 当然,也可以直接进行拍摄,之后再对焦点、光圈进行调节,使用起来非常方便,过往用人像模式拍半天激活不出来的情况大大减少,对焦距离也能比光学长焦镜头更近一些,拍人像、静物都很合适。 ▲iPhone 15 焦点调节功能演示 ▲样张:iPhone 15 人物样张(人像模式开启) ▲样张:iPhone 15 静物样张(人像模式开启) 值得一提的是,iPhone 15 极其依赖计算摄影,能够同时在实况、人像、夜景等模式间切换,还会为照片添加各种优化算法,也就意味着拍照会是芯片计算量最大的场景之一,拍照时间一长手机会明显发热,这也是 iPhone 的老大难问题,只能寄希望于后续的系统更新能够改进了。 自 iPhone 7 Plus 发布以来,苹果就一直在探索计算摄影的潜能,我想 iPhone 15 上这个 2 倍长焦焦段、iPhone 15 Pro 上的 35mm 人文焦段,都是苹果计算摄影的最新成果。两个镜头的 iPhone 15,却有了超广角、广角、长焦三个焦段,而三个镜头的 iPhone 15 Pro,更是配备了七个焦段,从微距到超长焦一应俱全。 计算摄影的意义在于,用户做更少的决策,就能得到更多的选择。而支撑这一切的核心,是封装在 4nm 芯片中的一百多亿个晶体管,每按下一次快门,都意味着数以亿计的计算将在毫秒之间完成——这张照片应该激活实况照片还是人像模式,是白天还是夜景,是长焦还是微距——在看不见的地方,iPhone 已经完成了无数次选择,而最后呈现到用户面前的,则是一个个经典镜头焦段。 这是最有趣的部分,iPhone 更多用焦段而非场景来区分手机拍照模式,究其背后的原因,我想还是要回归到摄影的本源。计算摄影用算法解决了许多问题,但最终决定影像好坏的,永远不是算法,而是镜头背后的你。 结语:刚需改善型手机,务实的浪漫主义 自 iPhone 11 起,苹果就将手机产品线调整为数字系列和 Pro 系列。数字系列保障优秀的基础体验,这是一条名为 iPhone 的金线,通常是务实主义者的选择。而 Pro 系列则集行业之所长,新技术、新制程、新材质统统安排上,这是一种名为 iPhone 的憧憬,无论失望还是惊喜,都属于消费电子的浪漫主义。 浪漫主义的宏大叙事总是引人入胜,但务实主义总是让人安心的选择。在深度体验了 iPhone 15 之后,我越来越喜欢这代 iPhone 带来的踏实。这种踏实源于苹果不断夯实的技术壁垒——清爽水灵的机身设计、浑然一体的全面屏交互、4nm 制程芯片的强劲性能以及能堪重用的计算摄影系统,尽管新东西不多,但体验好不少。 做个不严谨的比对,iPhone 15 就是一台少了高刷屏幕和长焦镜头的 iPhone 14 Pro,起售价 5999 元,而目前 iPhone 14 Pro 目前已经从苹果官网下架,三方渠道的主流价格在 7500 左右。二者 1500 元价差,就是 iPhone Pro 系列这几年技术迭代带来的红利,当 iPhone 14 Pro 铅华推进,摇身一变成了 iPhone 15。 如果你手持 iPhone 13 或之前的手机,那 iPhone 15 我认为是一个相当实惠的选择,前几代数字系列 iPhone 遭人诟病的长焦镜头、屏幕表现等短板都一次补齐,考虑到以旧换新(我手头 256GB 的 iPhone 12 Pro Max 可以折扣 3500 元,价格还算不错)以及 24 期免息分期付款的折扣力度,iPhone 15 的换机门槛确实也来到新低。 这也是我认为 iPhone 15 是刚需改善型手机的原因,这不是一部适合追新的 iPhone,确实也没有太多创新点可言。可这也是几番迭代后,体验最好的 iPhone 基础款,无论体验还是价格,都是实实在在的。 我想,这也是一种务实的浪漫主义。 本文作者:肖钦鹏
荣耀V Purse折叠屏手机发布:8.6毫米刷新轻薄纪录 售价5999元起
凤凰网科技讯 9月19日,荣耀今日在上海举行新品发布会,此前在德国IFA消费电子展上发布的荣耀V Purse钱包折叠屏手机在国内正式发布。该手机首创钱包折叠屏形态,闭合状态下机身厚度8.6mm,展开状态下厚度4.3mm,整机重量214g,打破了由荣耀Magic V2保持的9.9mm行业纪录,售价5999元起。 荣耀V Purse的设计灵感源自法国芳登广场,以钱包折叠屏的独特形态助力消费者实现个性化的自我表达。手机的不同配色借鉴了经典腕表的纽索饰纹,或提供了经典奢品的Swift牛皮纹和Togo荔枝纹,为用户带来了典雅舒适的感官享受。 荣耀V Purse的屏幕正面、背面以及侧面可以分别显示个性内容,独立表达。通过更换或自定义风格迥异的壁纸,荣耀V Purse就成为可穿戴的时尚单品;而侧边显示,可自定义展现个人状态、社交宣言,内心独白等手机“个性签名”。 荣耀V Purse的展开键提示音也可以选择不同的声音和效果,甚至可以自己录制,打造出与众不同的个性风格。 荣耀V Purse采用外折形态,带来了前后双屏拍摄体验。5000万像素超自由写真相机,抬手一翻就能轻松实现主摄自拍。得益于HONOR Image Engine计算影像平台全新升级的AI人像肤色算法,让荣耀V Purse实现人像拍照体验的全面升维。 荣耀V Purse的铰链组件从高端腕表中汲取灵感,首次采用了荣耀蝶翼铰链和自研游丝结构,使得铰链厚度仅有2.98mm,同时铰链的强度提升了400%。此外,荣耀V Purse还采用了自研盾构钢材料,不仅减轻了手机的重量,还提高了其强度。 为了在轻薄的同时保证耐用性,荣耀V Purse采用了“四重柔性装甲”解决方案,包括保护层、缓冲层、支撑层和防护层,提高了手机的防刮性能,使其具备强耐磨度。荣耀V Purse还获得了瑞士SGS五星级整机抗跌耐摔能力认证和瑞士SGS五星级屏幕抗冲击能力认证。全新硅碳负极电池技术,带来仅2.3mm如卡片般超薄体积和低电压超稳定性的“双升级”,高达4500mAh的电量,在轻薄的同时也能提供持久的续航体验。 荣耀V Purse提供了山茶金、冰川蓝、雅黑色三种配色,分别售价为5999元(16GB+256GB版本)和6599元(16GB+512GB版本)。预售将于9月19日21:00开始,在荣耀商城、各大授权电商、荣耀体验店及授权零售门店开启,9月26日10:08正式开售。
机器人降本增效福音!AMD甩出系统模块利器,大降能耗成本,新手也能速成
作者 | ZeR0 编辑 | 漠影 智东西9月19日报道,刚刚,AMD宣布面向工业和商业的边缘应用,推出重磅新品AMD Kria K24系统级模块(SOM),并同步发布与K24 SOM配套的KD240驱动器入门套件。 这是Kria系列自适应SOM及开发者套件产品组合的最新力作。相比AMD的消费级芯片、服务器芯片,“系统级模块”可能相对不那么耳熟而详,这是AMD近年来一直在布局的一步重棋——对于一些有业务门槛的市场,如果客户想根据业务来设计自家芯片,那么系统模块会是一种更高效的选择,能够显著降低设计门槛。 作为小尺寸嵌入式板卡级设计,K24 SOMl可直接插入最终产品进行部署。值得一提的是,借助InFO封装技术,AMD将Kria K24 SOM的尺寸缩至只有信用卡一半大小,同时功耗也是连接器相兼容的更大尺寸Kria K26 SOM的一半。 ▲Kria K24 SOM 据AMD工业、视觉、医疗与科学高级总监Chetan Khona在媒体沟通会上分享,目前全球只有两家公司获得了这样的技术。 尤其在工业、医疗设备等大量依赖电力的场景,作为各种电器或机械动力源的电机,是最常见且最关键的设备之一。而K24 SOM能够支持下图所示所有类型的电机,包括最受欢迎的无刷直流电机,以及无刷直流电机中最有名的伺服电机。 Chetan Khona告诉智东西,在工业物联网时代,经常需要多项任务同时进行,电机控制系统也需同时处理多轴,而Kria产品的一大优势便是能将多轴集成,以此来控制成本。 其他优势还包括低功耗、低时延、高确定性等,这使得K24 SOM能够在需要密集数字信号处理和传感融合的应用场景中大展身手,出色地应对DSP相关应用以及与之相配套适应的设计流程。 ▲AMD工业、视觉、医疗与科学高级总监Chetan Khona 一、大降工业能耗与电力成本,AMD甩出系统模块妙招 机器人开发常被称为系统集成的艺术,这是因为其开发非常复杂,开发者很难自己开发所有要素,经常需要使用一些预购器件和元素。也正因此,无论是工厂自动化机器人、仓储机器人还是其他工业机器人,都是Kria SOM能够发挥核心优势的核心应用场景之一。 在工业场景,电机正源源不断地带来了惊人的用电量——根据国际能源署调查,电机足足消耗了全球工业能源总用量的约2/3。 要将扭矩、速度及应变速达到最大,同时使能耗降到最低,离不开电机驱动系统。在迫在眉睫的节能减排之下,如何从电机驱动系统来优化复杂电机的控制系统以及控制电机的电度,已经日渐成为控制用电量的一项焦点议题。 Kria K24 SOM,便是AMD交出的最新答卷。 电机驱动系统有三要素:驱动器、电子电力器件、电机。电机本身一般是带磁的;有些电机是和驱动放在一起的,和电子电力器件是分开的;也有一些小的伺服电机,把所有的三个部分都放在一起,形成一个单元。而K24 SOM非常灵活,能够支持所有的布局。 ▲Kria K24 SOM 在工业4.0时代,电机控制系统的职能不仅是控制电机这么简单。如果微控制器(MCU)只是控制一个单轴的电机,它能够不错地完成。但工业物联网的大环境中,经常有多项任务需要同时进行,电机控制系统也需要处理很多的轴,还要顾及功能安全、网络安全、人工智能(AI)、预测性维护等等。 面临这些复杂的需求,MCU就撑不住了。相比之下,集成了自适应计算技术的K24 SOM不仅具备将多轴集成的优势,还能够支持以上所述的所有功能,能够提供适应多类应用的灵活性。 K24 SOM提供了高水平确定性和低时延,适合为边缘端计算密集型数字信号处理(DSP)应用中的电气传动和电机控制器供电。用户可以用它来降低能耗、增加扭矩及优化其它性能,以及进行预测性维护和OTA、降低噪音和震动,提升电机的生命周期。 不止是工业机器人,从公共交通、电动汽车充电站到其他发电系统,从手术机器人、磁共振成像(MRI)床体等医疗设备到农业空中系统,电机无处不在,并涉及到密集的数字信号处理以及器件上采集数据的融合,这些都给K24 SOM带来了巨大的市场需求。 二、以小尺寸提供高能效计算,支持运行深度学习AI推理 Kria K24 SOM是一个基于Arm处理器系统的可编程逻辑器件(FPGA),提供工业和商业两种版本,专为10年工业生命周期而打造。除了支持扩展的温度范围,工业级SOM还包括用于高可靠性系统的具有ECC保护的LPDDR4内存。 新推出的K24 SOM是之前的K26 SOM的补充,基于同样的Zynq UltraScale+ MPSoC架构,同样内置A53四核和双R5F处理器,连接器与K26 SOM兼容。这样设计的好处是具备可扩展性,可以实现K24 SOM和K26 SOM之间无缝迁移,而不需要让客户更换板卡。 相比K26 SOM,K24 SOM对于关注小尺寸、低功耗、低成本的需求是更理想的选择。 由于采用了集成扇出(InFO,Integrated Fan-Out)封装技术,实现了更小型封装MPSoC器件,K24 SOM更加紧凑,尺寸只有信用卡大小的一半,与此同时,功耗也是连接器相兼容的更大尺寸Kria K26 SOM的一半。 K24 SOM采用的MPSoC架构,在提供多功能性和自适应计算能力的基础上实现了混合关键性,即可以轻易控制不同任务间的优先级,也可以通过使用MPSoC来确保功能安全性,提升网络安全,还内置有人机界面(HMI)。 可编程的I/O接口使其能与环境、方向、视觉等传感器进行连接。K24 SOM能够支持从EtherCAT到TSN的40多种工业互联网标准,并支持最新的22.04 Ubuntu OS,I/O接口数量比K26 SOM少,LPDDR数量是K26的一半。工业级K24 SOM的2GB LPDDR4支持ECC内存,还支持AI推理深度神经网络处理单元。 Chetan Khona告诉智东西,Kria SOM本身对AI的处理能力很强,但现阶段会更侧重于处理嵌入式应用中其他先进、复杂的任务。他也分享了生成式AI在工业场景的发展近况:当前生成式AI模型还没有在工业场景中运用于嵌入式的应用,这类应用可能会随着时间的推移在未来出现。 三、自适应技术四大优势加持,如何助攻电机实现最佳功效? 相比嵌入式计算中的其他架构,像FPGA这样的自适应技术有四大优势: 第一,低时延。处理相同任务时,传统DSP的处理方式动辄需要200个时钟周期,而基于FPGA的自适应SoC是完全并行的,只需1个时钟周期就能完成200次操作,所以能带来时延优势。 第二,低功耗。相比传统方式,FPGA的时钟速度可以更慢,也更省电,200 MHz即可。 第三,灵活应变性。开发者可以在功耗、时间及时钟速度方面进行取舍,即实现时分复用,例如能根据具体任务进行调整,不需要在1个时钟周期内完全200次操作,只要在4个时钟周期内进行200次操作。 第四,独立性。如果是多访问的电机控制应用,用一个电路来控制多个电机会稀释性能,这时就更适合用FPGA硬件来控制回路。 Chetan Khona认为,要通过控制算法和控制流程的优化来实现电机的最佳功效,仅靠控制电机的算法是不够的。 首先要优化电子电力器件材料,比如采用碳化硅、氮化镓等等。这将有助于提升切换的速度,尤其是对DSP能力要求非常高的场景,在这种情况下使用K24 SOM能更好地提升能效。 其次,电子电力器件的颗粒度控制和速度至关重要,能够提升电源响应、能源消耗等情况,K24 SOM相关技术也能够解决这方面的问题。 第三,有电机控制算法方面的专业知识。AMD有两个解决方案:一是正在建立自己的电机实验室,二是和行业伙伴一起开发和完善生态系统,并以此提供一些电机控制的素材。 据Chetan Khona分享,在功能安全性方面,通过K24 SOM可以实现很多功能整合,无论是将两个单芯片合成一个芯片,还是做电机的多种整合,都能在整个系统层面大幅降低能耗和成本。 四、搭配KD240驱动器入门套件,简化DSP开发并加速设计周期 与K24 SOM配套的KD240驱动器入门套件是一款价格399美元、基于FPGA的电机控制套件,其功耗大约在5到10瓦范畴,具体要看电机的负载情况。 该入门套件的主要特点是开箱即用,基于电机控制的开发平台使用。开发者不需要具备FPGA编程专业知识,就能在等待客户构建硬件期间,先用这个入门套件来进行K24 SOM的开发,如果是电机控制,不到1小时即可完成启动过程,因此能让开发者能更快介入开发流程,加快电机控制和DSP应用上市进程。 与其它基于处理器的控制套件相比,KD240支持开发人员在设计周期中更为成熟的节点入手,使入门级人员也能轻松使用。 AMD早先发布的KR260可以用于机器人的行动和传动,KV260是视觉AI,可以用于摄像头与系统中的视觉来辅助导航。而今日发布的KD240驱动器入门套件则可以看作是机器人的肌肉,用来控制机器人的行动和传动。 ▲机械臂混合使用K26 SOM和K24 SOM KD240的大小和之前发布的入门套件相当,顶端有micro SD、多个USB、以太网、CAN的接口,右侧和底部有跟电机、传感器的连接接口,左下角是主要是用于扩展的Pmod。 通过推出KD240入门套件,AMD率先提供了预构建的电机控制应用,使用户能够创建可靠、可用且具有高级安全功能的高能效工业解决方案。KD240由可选的电机配件包(MACCP)提供支持,未来还将提供可单独购买的附加电机套件,为开发人员带来强化的加速体验。 据悉,用于量产的商业版K24 SOM和KD240驱动器入门套件现在起直接可订购,也可以通过全球渠道分销商订购。K24 SOM商业版、KD240电机配件包即日上市,工业版K24 SOM预计今年年底前供货。 五、软件开发门槛一降再降,不懂FPGA也能快速上手 在打造高性能和自适应产品方面,AMD为AI开发者、软件开发人员、硬件开发人员持续降低开发门槛所做的种种努力,对于很多芯片企业来说都具有参考价值。 考虑到一些开发人员并没有接触过自适应计算,或者不熟悉FPGA设计流程,AMD Kira系列产品支持Python、MATLAB Simulink、ROS2、AI框架等非自适应计算的工具,并推出面向边缘应用的应用商店(App Store),让不具备传统FPGA专业知识的客户也能轻松上手。 K24 SOM能够支持的范畴包括Python等语言、控制系统开发人员经常使用的MATLAB Simulink等常见的设计工具,PYNQ框架广泛的生态系统,并支持Ubuntu操作系统和Docker等引擎。软件开发人员也可在使用AMD Vitis电机控制库的同时,保持对传统开发流程的支持。 其另一大特色在于应用商店,里面提供了很多的参考设计,方便用户下载或参考,从KV260到KR260、KD240,AMD预计今年年底会有超过25款应用在这个应用商店里推出。 机器人公司Rev Robotics的首席执行官Greg Needel对Kria SOM给予了高度评价:“借助Kria SOM,我们能够简化高级控制环路算法的开发,适应不断变化的软件与硬件需求,并为商业和STEM教育客户构建真正炫酷的产品。” Rev Robotics 2合1电机套件配件能帮助用户实现不同的KD240设置,可制作一个简易的机械臂,同时配备可选视觉AI的射球器,能和USB摄像头进行连接,用AI帮助瞄准。该配件将在今年晚些时候问世。 结语:“互补性”布局+“组合拳”打法,横扫工业及商业边缘应用的多元需求 “AMD Kria K24 SOM和KD240开发平台建立在Kria SOM产品组合带来的突破性设计体验之上,为机器人、控制、视觉AI和DSP应用提供了解决方案。”AMD核心垂直市场副总裁Hanneke Krekels总结说,“系统架构师必须满足日益增长的性能和能效需求,同时还要降低成本。K24 SOM能以小尺寸提供高每瓦性能,并将嵌入式处理系统的核心组件安装在单块量产就绪型板卡上,以加速上市进程。” 从Kria产品组合的布局可以看到,AMD并不急于迭代同类产品的迭代升级版本,而是更多基于互补原则,循序渐进地推出能够通过组合拳满足更广泛应用需求的不同定位产品,包括三个入门套件以及K24 SOM和K26 SOM两个量产型SOM。 无论是考虑多功能、易用性还是降低工业能耗,AMD最新推出的高能效K24 SOM都为电机控制及数字信号处理提供了一个优异的解决方案。再加上其带来的可扩展特征,有望在整个Kria产品组合产生一个重塑效应,进而为工业及商业边缘应用产生的多元化需求提供更适配的支撑。
曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中
编译 | 陈佳慧 编辑 | 徐珊 智东西9月19日消息,据The Information报道,OpenAI意图赶在谷歌推出多模态大语言模型Gemini前,发布其多模态大语言模型GPT-Vision。而后,OpenAI或许会推出一个更强大的多模态大模型,代号为Gobi。 今年3月OpenAI发布的GPT-4已经融入了部分多模态功能,相较于GPT-3.5只能接受文本输入,GPT-4还可以接受图像输入,但该视觉输入性能并不开放使用。而Gobi与GPT-4不同,Gobi从一开始就是按多模态模型构建的,可以接受更多类型的信息输入并做出相应的处理。 OpenAI与谷歌将多模态功能纳入大语言模型,可以将图像、文字、音频等不同形式的数据整合起来,让大语言模型更准确、更全面地处理用户所给信息,为用户提供便利。据The Information报道,OpenAI与谷歌的多模态大语言模型之争,就像AI领域的苹果与安卓之争。这或许预示着AI大模型领域未来的发展趋势,同时也是OpenAI与谷歌抢占这项新技术的首发先机,提高用户影响力和技术引领地位的重要竞赛。 一、Gobi VS Gemini,OpenAI与谷歌多模态大语言模型赛跑 此前有报道称,谷歌即将推出Gemini,并且已经向一小批外部公司分享了这个项目。但据知情人士透露,OpenAI正在争分夺秒地把公司最先进的GPT-4与多模态功能相结合,想要抢在谷歌之前发布Gobi。并且,OpenAI在今年3月发布GPT-4时,就对GPT-4中融入的多模态功能进行了预展示。不过,根据The Information报道,OpenAI还没有开始训练Gobi,因此现在还不知道Gobi最终能否成为GPT-5。 对于OpenAI能否在多模态大语言模型方面超越谷歌,据The Information报道,目前,谷歌拥有来自谷歌搜索引擎和YouTube等平台的文本、图像、音频、视频等专有数据,这是谷歌相较于OpenAI发展多模态大语言模型的一项特殊优势。并且一位使用过Gemini早期版本的人士说,与现有的各种大语言模型相比,Gemini产生的错误答案似乎更少。 ▲OpenAI联合创始人Greg Brockman演示GPT-4中的多模态功能(来源:OpenAI官网) 二、多模态功能肩负重任,被滥用的信息安全问题值得重视 在3月发布GPT-4预览多模态功能时,除了为盲人或低视力者开发技术的Be My Eyes公司,OpenAI没有给其它公司提供多模态功能。到现在,OpenAI才准备在更大范围内推出被称为GPT-Vision的功能。据The Information报道,OpenAI可能会在GPT-Vision之后再推出Gobi。 根据The Information报道,OpenAI之所以耗费大量时间来推出Gobi,主要是担心新的视觉功能会被坏人利用,例如通过自动解决验证码来冒充人类,或者通过人脸识别追踪人们。但现在,OpenAI的工程师们似乎想到办法来缓解这个安全问题了。 谷歌的Gemini也面临同样的问题,当谷歌被问到采取了哪些措施防止Gemini被滥用时,谷歌的一位发言人称,谷歌在7月份做出过一系列承诺,以确保对其所有产品进行负责任的AI开发。 ▲谷歌的新多模态大语言模型Gemini 结语:多模态大模型之争或成下个AIGC焦点 多模态功能正被不断融入大语言模型,以提高大语言模型分析的精准度。如今,因ChatGPT名声大噪的OpenAI与AI老牌公司谷歌都致力于开发多模态大语言模型,可见其或许将成为AI大模型发展的未来趋势。 据The Information报道,这场OpenAI与谷歌的竞赛类似于AI版的苹果与安卓之争,而未来Gobi与Gemini的到来,将揭示OpenAI和谷歌的竞赛结果。 多模态大模型作为当前AI大模型领域的最新进展,OpenAI与谷歌之间的多模态大模型之争不仅是科技竞争的焦点,也可能引发全球范围内关于技术应用、合作、监管和伦理等方面的重要讨论。
小米亲自下场“扫地”,石头科技没所谓?
真·年轻人的第一台扫地机器人? 小米近期动作不断,各项业务都迎来新进展。 手机这边,9月13日和华为达成全球专利交叉许可协议,备受关注的5G通信技术也包括在内;此外小米还迎回了轮岗两年的王腾,后者将回到总部担任Redmi市场部总经理一职。汽车这边则已经进入试生产阶段,据媒体报道目前每周大概能生产50辆样车。 在备受关注的手机和汽车之外,小米另一个支柱——IoT,也悄悄发生了一些变化。 据报道,小米生态链部在近日完成了一轮组织架构调整,新成立智能硬件部和扫地机部。其中,原小米生态链部副总经理陈维扬将兼任扫地机部负责人,直接向生态链部总经理陈波汇报,足以表明小米对该业务的重视。 目前,智能手机市场仍处于寒冬,汽车尚未实现量产,小米能抓住的增长点并不多——IoT绝对是最重要的那一个。发力扫地机,会不会为小米IoT打开一片新天地? (图片来自小米官方微博) 从扶持生态链企业到亲自下场,小米扫地机路线几经更迭 小米进入扫地机器人行业的时间并不晚,2016年便推出了初代米家扫地机器人。初代产品功能没有太大特别之处而且只有白色一种配色,路径规划、远程控制、实施清扫地图等常规功能倒是一应俱全,通过小米官网和小米之家首发销售。 往后几年,小米扫地机器人的更新迭代速度很快,并凭借性价比优势迅速在市场占据一席之地。如今,小米已经形成了扫地机器人、洗地机在内的清洁机器人产品矩阵,扫地机产品线里则包括T、S、C等多个系列,覆盖不同价格区间以及扫拖一体、自清洁等多种复合功能产品。 为了减轻成本压力、提高生产环节的灵活度,小米一直坚持轻资产运营策略。客观地说,集团给这项业务投入的资源并不多,和生态链企业合作是小米最重要的策略,也是保证扫地机生产、供应的关键。 公开资料显示,通过投资、控股等形式,小米先后将追觅、石头科技、云米、睿米、顺造、德尔玛等企业纳入扫地机生态链之中。其中,追觅和石头科技的戏份是最足的。 根据天眼查数据,小米早在2015年进入扫地机器人行业前就向石头科技抛去了橄榄枝,参与后者的A轮融资。之后几年,小米系的顺为资本连续参与石头科技三轮融资,成为后者最重要的金主。小米对追觅也同样慷慨,先后参与其A轮、B+轮、C轮融资,且多次领投。 正如上文所说,小米押宝这些生态链企业的意图很明确:自身缺乏扫地机生产经验且中间环节利润低,找一个贴牌生产的企业是最经济实惠的方案。不过投资的生态链企业太多,也会有副作用。 一方面,各个品牌既是和小米有千丝万缕关系的盟友,也是业务上的直接竞争对手。加上小米对生态链企业的限制很多,彼此之间的关系并没有看上去那么和谐。另一方面,贴牌生产虽能转嫁成本,却也削弱了小米对供应链的控制力,并给品控带来不确定性。 说回此次调整。在调整前,小米没有单独的扫地机部门,扫地机只是生态链部旗下的一条产品线。此次独立出来后,扫地机业务的地位明显提升。另有消息称,小米此次还将IoT产品线划分为S/A/N三个等级,扫地机属于最高一级。作为扫地机部的负责人,陈维扬曾管理过智能音箱、小米路由器等产品,项目经验也十分丰富。 种种迹象表明,小米扫地机将要追求更高的出货量和市场份额。如果要提高产销规模,品控是非常重要的一环。同样靠代工起家的石头科技就在近期投资自建工厂,加强对上游供应商和中游生产环节的掌控。而且一旦日后出货量飙升,小米还可能出现和生态链企业争夺产能的情况。 成立扫地机部、加大投入后,小米或许需要找一个没有利益冲突的代工伙伴,或者加强对生产线的干预。新团队新作风,加上集团加大资源投入,看得出小米真的想在扫地机这条赛道上走得更远。 发力扫地机,只因手机不争气? 小米在此时选择发力扫地机业务,说到底离不开几点考量。 首先,手机市场遇冷,小米迫切需要抓住新增长点。 财报显示,小米手机二季度收入同比下滑13.4%至360亿元,总出货量则同比减少15.9%至3290万部,国内、海外的出货量同比均录得下滑。虽然小米的高端化战略已经初见成效,二季度智能手机ASP同比提高了2.9%到1112元,但仍难抵市场大盘的萎缩。 Omdia的统计显示,今年二季度全球智能手机出货量为2.659亿台,同比、环比分别下滑9.5%和1.2%,IDC、Counterpoint等机构统计的数据稍有出入,下滑趋势却出奇一致。唯一值得欣喜的是,小米的库存已经较此前几个季度有所下滑。但大环境何时回暖仍要打一个问号,做好两手准备总是没错的。 其次,和手机相比,小米IoT发挥尚算稳定。虽然毛利率比不上逆天的互联网服务,也比之前几个季度有很大进步。 财报显示,小米IoT业务二季度营收为223亿元,同比增长12.3%,高于市场预期的207亿元。从增长曲线来看,小米IoT终于告别了连续四个季度的负增长——此前四个季度分别为-4.4%、-9%、-14.4%和-13.6%,二季度增速也远高于市场预期的4.4%,可以说是打了一场漂亮的翻身仗。 更重要的是,IoT业务在利润端表现突出,几项数据都接近甚至超过历史同期最佳水平。其中,毛利润同比增长38.3%至39.1亿元,毛利率则同比增长3.3%至17.6%,创下历史新高,且连续四个季度录得上涨。除了毛利率高达74.1%的互联网服务外,IoT就是小米赚钱最容易的业务了。 从细分数据来看,现阶段小米IoT业务以传统大家电为主,扫地机等新兴产品贡献并不大,仍有很大提升空间。 财报显示,小米主要IoT产品收入为47亿元,主力是电视和笔记本电脑两大类产品;其他IoT产品收入则录得176亿元,同比增长21%,其中智能大家电收入同比增长超过70%。总的来说,空调和电视是小米目前最重要的两类产品,贡献了大部分收入和利润。 这种趋势其实已经延续较长时间,过去一年智能大家电一直是小米IoT业务的增长引擎。在最先突围的电视之外,小米空调这两年的进步也有目共睹,去年全年出货量突破了300万台,同比增长超过50%。 不过小米空调的市场份额还无法和美的、格力、海尔三巨头相提并论,只是和二线阵营的TCL、海信、奥克斯们拉近了距离。数据显示,美的、格力和海尔的是市场份额合计超过70%,二线阵营的奥克斯们份额则在5%-8%左右,对应的年出货量均在千万级别。 最后,相信小米也看到了扫地机器人市场的潜力。 和传统大家电相比,扫地机器人市场规模确实不大。来自华经产业研究院的报告显示,截止去年年底中国扫地机器人市场规模为124亿元,同比增速约为3.4%,全年总零售量则约为441万台。对比之下,空调、冰箱、电视等大家电出货量都在数千万级别,市场规模也在千亿以上。 扫地机器人市场规模比不上大家电,和起步晚、发展时间短有直接关系。但也得益于较晚的起步时间,扫地机器人权力金字塔没有像大家电那么牢不可破,谁都还有上位机会。 同样来自华经产业研究院的数据显示,科沃斯、小米、石头科技、云鲸和追觅是国内扫地机器人行业的一线玩家。份额最高的是科沃斯,占有率约为38.6%,小米、石头科技和云鲸也在10%以上。 如今悄悄对内部组织架构进行调整,也表明了小米分散投资的态度。大家电业务有进步当然是好事,可惜空调、电视等市场老巨头太过强势。小米想挖掘新增量,扫地机肯定是一个不容忽视的突破口。 而小米的发力,必然会让扫地机器人行业泛起新的涟漪。 盟友变对手,小米和石头科技都乐见其成? 正如上文所说,石头科技是小米扫地机最重要的生态链企业之一。在石头科技起步那几年,小米为其提供了大量资源和订单,米家扫地机器人、无线吸尘器的生产就大多由石头科技负责。如今小米自己要发力,等于和石头科技等生态链企业从合作伙伴变成直接竞争对手,双方的关系肯定不会如以往那么融洽。 现在回过头想,小米此前多次减持石头科技股份和后者解绑,或许正是为今天做准备。数据显示,截止今年8月底,小米系的顺为资本和天津金米年内分别减持了石头科技不超过6%和2%的股份,按照当时的股价换算套现超过20亿元。减持过后,两家公司的股权占比都来到5%以下。 从小米的角度出发,既然选择主动和石头科技解绑,心里肯定是有底的。一则,既然要发力扫地机器人业务,和石头科技的竞争关系就会加剧,再有太多利益纠葛肯定不是好事。二则,代工环节要求并不高,石头科技给小米提供的服务并非不可替代。 站在石头科技的角度看,小米主动切割也不见得是一件坏事。 小米早期确实带来了真金白银和充足的订单,是其崛起路上的贵人。但扫地机器人和传统大家电一样,产业链中游生产组装是利润率最低的环节。更何况石头科技此前一直以外包模式为主,大部分产品都是由欣旺达代工。 这样一来,石头科技等于做了小米的“包工头”,揽下米家产品订单、转接给欣旺达等代工厂,自己再赚取少得可怜的服务差价——换算下来,石头科技承接的小米订单只是讨个温饱,并没有赚到太多钱。 往前追溯,2019-2020年石头科技已经意识到从ODM模式转型的必要性,开始发力自有品牌。如今最畅销的T系列和G系列初代产品,基本上都诞生于这个时期。到2021年推出U 10系列洗地机之后,石头科技已经建立了完整的清洁机器人产品矩阵,对小米订单的依赖程度不断下降。 事实上,2021年5月交出上市后第一份财报时,石头科技的去小米化已经大获成功。财报显示,该财年石头科技自有品牌收入占比为90.72%,同比提升超过24个百分点。与此同时,米家品牌订单下降、手持吸尘器及配件营收下滑53.55%,毛利率却不降反升。 当然,失去小米这个盟友肯定也有不利影响,比如丧失了大量渠道、推广资源。在石头科上市敲钟当天,雷军被调侃“活跃得像一个水军”,亲自在个人微博发布了多条道贺信息,并将石头科技的上市称作“小米生态链模式的又一次成功”。 自带流量的雷军亲自站台只是一方面,更重要的是小米生态有过亿用户、过万家线下门店,还有家电商场梦寐以求的线上流量入口。这些资源对于石头科技这种新兴品牌来说,诱惑是巨大的。虽然小米之家不会直接帮石头科技卖扫地机器人,但小米提供了可复制的经验和线上曝光率也是事实。 财报显示,过去一年石头科技销售费用明显增加,全年下来同比增长40.48%至13.18亿元,高于同期的营收增速,可见脱钩小米终究是有阵痛的。只能说有得必有失,从当前的业绩看石头科技和小米主动切割仍是利大于弊,更何况主动权从来都不是掌握在石头科技手里。 至于未来会不会被作为对手的小米反杀,就要看后者的本事了。 除了性价比,小米还能甩出哪些王牌? 硬币总有两面。正如上文所说,扫地机器人起步晚、头部品牌的统治地位并非牢不可破。但也正因现阶段市场规模有限、推广不易,竞争也非常激烈。 和早两年相比,扫地机器人这门生意看上去已经没有那么美好了:新老品牌扎堆,赛道日渐拥挤;功能、价格严重内卷,俨然来到存量竞争时代。各大品牌要站稳脚跟、撬动对方的用户,必须找到自己的差异化优势。 几个头部品牌中,石头科技素来有“扫地茅”之称,坚持高端定位。科沃斯则胜在入局时间最早,产品线最丰富、线下渠道也铺得很快。至于小米的王牌,相信大家都很清楚——性价比。 以京东平台为例,小米销量最高的几款产品分别为米家小米免洗扫地机器2、米家扫拖一体机器人3C和米家小米扫拖洗烘四合一机器人,官方售价为1999元、1099元和1499元。作为对比,科沃斯最畅销的T10 OMNI扫拖一体机补贴前售价为2899元,石头科技的P10自清洁扫拖机器人售价为3299元。 在理性消费大行其道的年代,性价比当然很重要。根据奥维云网和京东共同编撰的《中国扫地机器人消费趋势洞察报告》(简称报告),大众市场(售价1500元及以下产品)在过去两年TOP 4品牌占有率是最低的,增量空间巨大。在科沃斯、石头科技鏖战高端市场的时候,小米等于独辟蹊径,找到自己的独特定位。 然而,光有性价比也不够。 上述报告还指出,用户对扫地机器人的功能需求越来越多、越来越细致。如今头部厂商的技术内卷大多集中在清洁度、避障及路线规划等少数几个环节。比如科沃斯最近的几代产品都将激光导航、3D避障作为卖点,热风烘干、自动除菌/集尘、扫拖洗一体和无感清洁则已经成为各大品牌畅销产品的标配。 小米如果还想找到差异化优势,就得开发具备特定功能或者针对特殊场景的产品。如今大热的AI技术,就是一个可以尝试的突破口。 智能语音交互和远程操控只是最基础的一步,小米最大优势是拥有丰富的IoT生态矩阵:小爱智能音箱、电视、冰箱、空调、除螨仪、除湿机、空气净化器等等,都可以和扫地机器人形成互动。比如在清洁过后通过系统判断室内湿度,自动启动空调抽湿或除湿器,又或者在清洁时配合空气净化器使用,保证室内空气清新。 属于扫地机器人的故事,这才刚刚开始。小米这位重磅玩家要是全力以赴,保不准会颠覆原有的格局。
iPhone 16上的A17,居然是缩水版
谁说芯片不会缩水。 上周发布的iPhone 15 Pro系列,搭载的芯片不是大家原本以为的A17,而是“A17 Pro”。这种命名方式,在苹果A系列芯片上还是第一次。这似乎说明iPhone 15 Pro用上了规格高于预期的芯片,但这也让人隐隐感觉不对劲,A17 Pro发布了,那么A17呢? 近日,来自@手机晶片达人、MacRumors等多个渠道的爆料消息显示,A17的确存在。不过,相比A17 Pro,A17不仅性能更弱,甚至工艺制程方面都要缩水。看来,苹果不仅要在产品配置上秀刀法,还要对不同型号的芯片规格进行精准地区隔细分。 (图源:微博截图) A17明年到来,工艺制程砍了一刀 就目前的爆料来看,A17已经确定存在,相比A17 Pro的区别之一就是工艺制程上的差异。A17 Pro用的是台积电的3nm工艺,即N3B;A17用的也是3nm工艺,但是N3E,成本相对更低。这意味着虽然A17用的同一代工艺,但在性能、能效方面大概率不如A17 Pro。 基本可以确定的是,明年秋季发布的iPhone 16和iPhone 16 Plus两个基础款新机,搭载的芯片将是A17,而不是iPhone 15 Pro系列同款的A17 Pro。 根据苹果官方说法,A17 Pro的CPU性能提升幅度最高10%、GPU提升20%。A17 Pro的跑分也已在GeekBench中曝光,小雷找到了一款疑似iPhone 15 Pro Max的GeekBench6跑分:单核2914、多核7316。和iPhone 14 Pro Max上的A16(典型跑分单核2555,多核6649)对比的话,A17 Pro CPU单核性能提升了14%,多核提升了10%。 (图源:GeekBench截图) 这样来看,A17 Pro的性能涨幅的确不是特别明显。而定位更低的A17,大概率还不如它,相比A16的性能升级幅度就会更小了,可能低于10%。这样来说,A17相比A16的性能升级,更多是来自工艺的进步,而非CPU架构的更新。 苹果刀法更精湛,砍完配置砍芯片 自从数字系列扩军后,同期基础款和高阶款iPhone之间的规格差异在被人为放大。iPhone 6和iPhone 6 Plus之间的差异还只是屏幕尺寸,到了后期二者的相机、屏幕等各方面都有不同。从iPhone 14系列开始,低阶型号公然使用上一代芯片,和Pro款机型已经出现了性能代差。 不过,iPhone 15尚能使用和iPhone 14 Pro同款的芯片,明年的iPhone 16则只能用缩水版的A17,整体规格还不如今年的iPhone 15 Pro。 苹果不断拉大高阶、低阶机型之间的配置差距,直接目的无非是让更多人去买Pro款机型,从而让iPhone乃至整个苹果公司的利润最大化。iPhone 15和iPhone 15 Plus两款低阶机型,不仅芯片、相机、屏幕落后于iPhone 15 Pro系列,甚至刚换上的USB C口也不是满血的,还是USB 2.0的速率。 (图源:苹果官方) 苹果区分出A17和A17 Pro两个芯片型号,最直接的原因还是降低成本、增加利润。毕竟3nm工艺的良率仍然不高,首发的厂商只有苹果一家,把缩水版3nm工艺的芯片给低阶机型用,倒也符合苹果近些年来的产品策略。 在芯片上秀刀法的行为,苹果之前也有过不少次。比如iPhone 6s上的A9芯片,有台积电16nm和三星14nm两种版本,前者的性能和能效表现更好,这导致当时的用户买苹果手机还得开盲盒。 另外,2021年发布的A15芯片,用在了好几款苹果设备上。这样一款芯片,被苹果“打磨”出多个不同版本: 性能最强的A15用在iPhone 13 Pro上,CPU主频3.23GHz,配备了5核GPU; 削弱版的A15用在iPhone 13和iPhone 13 mini上,GPU只有4核心; 降频版A15用在iPad mini6上,CPU主频降低到2.93Hz,GPU仍是5核心; 残血版的A15用在了Apple TV 4K 2022上,CPU核心数从6核降为5核。 (图源:苹果官方) 一款芯片,折腾出4个版本,有人认为这是苹果故意秀刀法,也有人表示是因为工艺成本导致的,体质差的版本被用在定位更低的设备上。现在,苹果弄出A17、A17 Pro两个芯片型号,理由也无外乎这些。 买iPhone,要考虑芯片版本吗? A系列芯片一直是历代iPhone的核心卖点之一,它们相比同时代安卓芯片往往有更强的性能和能效。不过,一个非常现实的问题是,iPhone上的散热设计已经大幅度落后于安卓厂商。这就导致,即便iPhone的理论性能很强,但实际性能持续输出的稳定性并不好。 所以,很多时候用iPhone玩游戏的体验并不好特别好,游玩一段时间后就会陷入机身发热——降频——游戏卡顿的过程。这种时候,芯片本身的能效和机身的散热效率,比理论性能更重要。 还是以前面提到的A15芯片为例,它用在iPhone 13 Pro上的是满血版本,用在iPad mini6上的是降频版。但就实际游戏体验来说,iPad mini6的实际游戏性能完爆iPhone 13 Pro,峰值性能可以长时间输出。这并不难理解,iPad mini6的体积比手机大得多,散热条件也好得多。就像一台100分的设备,只能发挥出60分,自然就不如90分理论值但能发挥出80分的设备。 (图源:雷科技摄制) 虽然说A17的详细参数尚未曝光,但从以往的经验来看,它相比A17 Pro的差异主要还是体现在核心数、主频方面。两款芯片之间会有性能差异,但不会有代差。在手机芯片理论性能略有过剩的今天,选择A17或者A17 Pro都不会在体验上有特别大的区别。 只是,在用户角度,这种阉割感仍然会在心理上带来不适的感觉。毕竟,大家的普遍态度都是“我可以不用,但你不能没有”。 小结 苹果之所以敢频频秀刀法,砍完配置砍芯片,本质上还是因为它在手机市场上没有遇到真正的威胁。苹果一直以来专注于高端旗舰市场,手机出货量常年稳居全球第二,并且独自拿走了市场上的大部分利润。苹果精心打造的商业帝国,在源源不断地带来利润。 但同时也能看到,苹果产品层面上的优势在持续降低。iPhone相机不如安卓几乎已经是共识,快充、续航这方面也被安卓对手拉开了差距。屏幕算是iPhone高阶款的优势之一,但出于续航、发热考虑,iPhone屏幕刷新率常年被限制在80Hz,流畅度和120Hz拉满的安卓机仍然没得比。 苹果芯片方面的优势,则不断被奋起直追的对手们削弱。以去年发布的A16来说,GPU在部分场景的性能已经不如骁龙8 Gen 2。而下个月,高通新一代旗舰芯片骁龙8 Gen 3即将登场。如果这款芯片能在局部场景领先A17 Pro,并得到更好的散热装置,那么游戏体验比iPhone 15 Pro好也顺理成章。 更重要的,随着华为Mate60系列等重量级的产品到来,将极大地压缩苹果在高端手机市场上的生存空间。作为消费者,这一刻我们等待很久了。毕竟,苹果上一次在手机销量上遭遇重大挫折还是iPhone XR/XS那一代产品上,竞争压力、销量挫折,都会让苹果的产品更有吸引力。如果历史重演,未来低阶iPhone的配置和价格都会更加友好。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。