EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
聚合平台首度纳入网约车管理,是大势所趋吗?
定州是首个将网约车聚合平台纳入网约车经营者范畴进行管理的地方,主要思路是合规、安全运营。这一做法,是否会引发更多城市的效仿,从而成为一种政策趋势? 文|财经E法 张剑 编辑|郭丽琴 9月初,河北省定州市发布《网络预约出租汽车经营服务管理暂行办法》(下称《暂行办法》)。《暂行办法》提出,将网约车聚合平台公司纳入网约车平台公司进行管理,成为全国首个将网约车聚合平台纳入网约车经营者范畴进行管理的地方政策。 定州的这一最新监管要求,首次从政策上明确了聚合打车平台的性质,主要思路聚焦于网约车的合规、安全运营。纵观中国各地政府,既有地方将聚合平台定性为“网约车平台”,也有地方将聚合平台定性为“电商平台”。 定州的新规,是否会引发更多城市的效仿,从而成为一种政策趋势? 01 聚合平台首度纳入网约车管理 《暂行办法》于9月5日发布,其第二条规定,本办法所称网约车经营者(含网约车聚合平台公司,以下称网约车平台公司),是指以互联网技术为依托构建网络经营服务平台,从事网约车经营服务的企业法人。第十条规定,网约车平台公司应当在取得相应《网络预约出租汽车经营许可证》并向企业注册地省级通信部门申请互联网信息服务备案后,方可开展相关业务。 河北当地媒体在报道中提及,《暂行办法》是中国首个将网约车聚合平台纳入网约车经营者范畴进行管理的地方落地政策。在《暂行办法》之前,已有地方监管部门在具体监管中将网约车聚合平台与网约车经营者同等看待。 此前,部分城市监管部门以约谈、处罚等方式对聚合平台进行了监管,其间均涉及到对聚合平台的定性。 今年2月3日,云南省昆明市出租汽车管理局曾对高德作出一次行政处罚,这一处罚对高德打车的运营模式作出详细解析,并否定了聚合平台的电子商务平台性质。昆明市出租汽车管理局在处罚中提出: 第一,“高德打车”本案中地位表现并非电子商务平台,其提供的服务已超过单纯的信息撮合范畴,其通过控制运价与平台内聚合的网约车平台身份相同,表现为互联依附性。 第二,本案中“高德打车”通过在提供服务的车辆上张贴“高德打车”外观标识,开展品牌建设和宣传营销,已经建立起了消费者对其品牌的认知,是依托互联网技术构建的打车服务平台。 第三,本案中“高德打车”与一般的网约车平台在整合人车资源、乘客信息方面,性质是一样的,两者之间只存在直接整合和间接整合的区别。 第四,“高德打车”依托Saas系统在昆明市聚合了多家网约车平台,各网约车平台线下招募驾驶员和发展车辆,并将驾驶员和车辆信息通过SaaS系统介入“高德打车”,从而使“高德打车”实质掌握了驾驶员和车辆的基础信息、实时位置,形成了自身的“运力池”。“高德打车”在本案中是价格的制定者,是服务品牌的实控者,是实际运力的控制者,是乘客费用的收取者和分配者,其实质就是一个大号的网约车平台。 今年5月,江西省交通运输综合行政执法监督管理局对外表示,该省各地交通执法部门约谈“高德打车”负责人,将未取得经营许可、不具备线上线下服务能力等问题的网约车企业名单移交至许可机关清理,开展安全生产执法检查等系列措施,一定程度上制约了网约车聚合平台的盲目扩张和野蛮发展。 此外,该局对高德打车的行为做了定性:高德打车一直以“信息服务平台”自居,并没有取得网约车平台行政许可,也没有承担承运人责任、作为运输单位对应的企业安全生产主体责任和其他经营者责任,涉嫌变相违规从事网约车经营活动。 02 定州思路是大势所趋吗? 中国各地政府对聚合平台性质的主流认识,包含“网约车平台”和“电商平台”两类。 例如,定州、昆明将聚合平台定性为“网约车平台”,而广州、烟台等地则将聚合平台定性为“电商平台”。 北方工业大学汽车产业创新研究中心主任纪雪洪告诉财经E法,五部委的《通知》发布后,各地结合这一新规制定本地细则,在对聚合平台进行界定过程中,出现不同认识属于正常现象。定州的这一界定应是当地交通运输主管部门结合聚合平台在当地运营的现状,充分考虑了日常监管工作开展的难度和复杂性。 但在中央层面,针对聚合平台监管的认识是比较一致的。 4月末,交通运输部、工业和信息化部等五部委发布《关于切实做好网约车聚合平台规范管理有关工作的通知》(下称《通知》)。该《通知》虽然提到,聚合平台有面向乘客并匹配供需信息这一属性,但也提出,存在聚合平台和网约车平台公司的企业责任落实不到位、从业人员和乘客合法权益保障不到位等问题。也就是说,合规运营、运营安全等事关司乘权益的问题仍是监管部门针对聚合平台的重要关注点。 8月末,中国消费者协会围绕五部委的上述监管新规,提出将对聚合平台开展社会监督。中国消费者协会表示,针对网约车聚合平台的兴起及快速发展,根据《通知》和消费者权益保护法、电子商务法等法律法规,中国消费者协会认为,相关网约车聚合平台及合作网约车平台公司应依法维护消费者合法权益,不断优化出行消费体验,同时呼吁广大消费者共同做好网约车聚合平台的社会监督工作。 定州的监管思路聚焦于安全问题。 上海金融与法律研究院研究员刘远举认为,定州此次发布的《暂行办法》,将聚合平台定义为网约车平台,可以避免聚合模式下层层嵌套而导致的责任归属不清问题。他指出,聚合是一个多层次嵌套的模式,大平台下有小平台,小平台再接入司机,一层套一层,类似商业上的多层控制结构。基于此,刘远举认为,网约车的治理思路,应当是将平台作为抓手,通过确立平台在审核、安全、质量方面的义务,推动平台提升服务、保障消费者权益,促进行业发展。 但是,聚合平台的商业模式给监管带来挑战。刘远举表示,多层结构有利于商业活动,商业交易中的双方都是高度专业的,也有成本去进行专业的识别、考察。但日常出租车的交易是零散和频繁的,消费者没有知识、精力、成本去识别。出了问题,多层嵌套结构容易导致推诿、扯皮,即便出了大事,法律适用上的漏洞和陷阱也很多。监管部门要独立面向多个层次的平台,监管难度加大,监管成本增加。最终,聚合模式下,各方都会钻空子,减少自己的责任,消费者的权益就会受到损害。 中国司法大数据研究院社会治理发展研究部部长、中国政法大学知识产权研究中心特约研究员李俊慧也认为,对聚合平台可以纳入网约车平台管理。 在李俊慧看来,2016年,《网络预约出租汽车经营服务管理暂行办法》(下称《暂行办法》)的制定出台,就是为了规范网约车服务,既包括以在线技术撮合乘客与巡游出租车服务,也包括在线技术撮合乘客与网约车服务。而《通知》则明确了网约车聚合平台的资质核验范围,不仅仅局限于网约车平台公司的许可,也包括接入的司机和车辆都应该完成许可。作为《通知》 的上位规定,《暂行办法》明确要求,任何企业和个人不得向未取得合法资质的车辆、驾驶员提供信息对接开展网约车经营服务。 李俊慧认为,从行业业态看,如果一家网约车平台管理不善或只注重盈利,接入大量不合规的车辆和驾驶员,这既损害了取得资质的车辆和驾驶员的利益,违反市场公平竞争,同时也增加了安全隐患。 公开信息显示,聚合平台上的车辆在运营中事故屡发。 2022年6月,郑州一名女乘客通过聚合平台约到一家小平台车辆,在行驶途中遭遇车祸,酿成重大事故。2023年7月初,成都再次发生一起类似事件。上述两起事故发生后,在调查中,涉事网约车均被发现系无证运营。聚合平台为何依然可以约到无证车辆成为公众质疑的核心问题,此外,郑州事故中,乘客方曾质疑,聚合平台和网约车公司均在事发后试图推卸责任。 2023年6月1日,山东省烟台市《网络预约出租汽车经营服务管理实施细则》开始实施,烟台的监管新规虽然将聚合平台界定为电子商务平台,但也要求,聚合平台应加强对接入的网约车平台公司运营安全及服务质量的管理,确保接入的网约车平台公司在本市取得网约车经营许可且符合其它有关规定,并督促其加强车辆和人员管理。这一新规还要求,发生安全事件时,第三方电子商务平台公司要依法履行先行赔付责任,并与涉事网约车平台公司共同妥善进行处置。 纪雪洪认为,即便在一些地方,聚合平台被界定为电子商务平台或参照电子商务平台进行监管,不用去申请网约车平台证,也不意味着聚合平台在该地方的法律责任会降低,“运营中遇有事故,各地还是应该根据事故的具体情况来划分和认定各方责任”。 定州新规出台后,是否会对网约车市场格局产生影响? 中国城市公共交通协会网约车分会秘书长殷浩对财经E法表示,由于定州网约车市场规模小,其新规是否会对网约车市场格局带来改变,还需要继续观察,主要看是否有一二线城市跟进,出台类似规定,“将聚合平台纳入网约车平台管理,意味着聚合平台也要去办理网约车平台证,但现在很多地方,这一经营资质已不再新增”。 殷浩认为,如果定州思路在更多地方获得效仿,特别是一些网约车热点城市也出台类似规定,作为流量平台的聚合平台就可以直接和租赁公司合作,无需再与目前接入的小平台合作。 “目前接入聚合平台的超过300家小平台,运力很弱,在安全管理方面也还无法全面解决。” 殷浩概括说。
大模型需求涌现,算力如何跟上节奏?
图片来源:视觉中国 过去的10个多月,以ChatGPT为代表的生成式AI浪潮席卷全球,无论是国际,还是国内,各大科技巨头都在积极布局生成式AI,甚至在浪潮的影响下,有不少中小企业也纷纷入局,意图乘着生成式AI的“东风”,帮助企业快速发展。 当一个个大模型如雨后春笋般涌现时,作为大模型重要底层支撑的“算力”也自然成为业界关注的焦点。 算力产业变革已经开始 对于算力产业,乃至整个数字产业而言,在大模型快速发展的当下,已经进入了变革的时代。以点看面,以数据中心为例,过去,数据中心服务器大多是以CPU为主,驱动移动互联网,以及企业数字化转型。 如今,在大模型等AI应用呈井喷式增长的背景下,对智能算力的需求愈发旺盛,越来越多的智算中心投产,也预示着数据中心将从以CPU为主的时代,转变为以GPU为主的智能算力时代。而以英伟达为代表的相关GPU价格及企业股票的增长也在印证这个趋势。 对此,青云科技总裁林源表示,随着一大批以AIGC为代表的AI应用的涌现,用户对智能算力的需求越来越大,“用户对算力的需求将是以前的10倍、100倍,甚至更多。”林源强调。 无疑,生成式AI和大模型的爆发,对于整个数字产业,以及企业数字化来说是颠覆性的。林源认为,在数字化时代的背景下,生成式AI和大模型的出现,为人类提供了一个可以提升效能的生产工具,并且伴随着这些技术的发展,让人工智能更贴近了用户侧,让人们使用人工智能的门槛越来越低。 不过,以目前我国算力产业发展来看,处于变革时代的算力产业还有诸多痛点亟待解决。现阶段,我国主要存在,东西部算力供需失衡、跨数据中心算力调度难、算力基础设施能耗大、企业利用算力成本高等问题。 我国算力产业发展的四大痛点 目前我国算力产业仍处于快速发展的初期阶段,上述提到的四个算力产业发展的问题,主要可以细分为四大痛点,分别是: 1、 算力资源分配不均/供需失衡 我国AI算力资源的分配存在着严重的不均衡现象。据统计,目前我国AI算力主要集中在一线城市和部分经济发达地区,而中西部地区的AI算力资源相对匮乏。这种现象导致了资源的浪费和效率的降低。 对于算力需求旺盛的东部地区,算力供不应求,而对于西部地区,算力资源充沛,却“无人问津”。这是目前制约我国算力产业整体高质量发展的关键问题之一。 而算力供需失衡不仅是我国亟待解决的痛点。国际数据公司(IDC)发布的报告显示,全球数据量每年增长约60%,但算力每年的增速仅为10%,这表明算力的供给与需求之间存在巨大差距。 放眼全球,当前,全球范围内的算力需求持续增长,但算力供给却相对滞后。这种供需失衡现象在很大程度上限制了数据处理和人工智能等领域的发展。 2、 核心技术瓶颈 尽管我国在AI领域取得了显著的成果,但在算力调度技术方面仍存在一定的瓶颈。例如,我国在GPU计算、云计算等方面的技术积累相对较少,这使得我国在AI算力调度方面的能力相对较弱。 在算力调度中,效率是一个关键问题。然而,当前许多算力调度系统在处理大规模数据时,效率低下的问题普遍存在。这主要是由于系统架构、算法优化等方面的限制所导致的。 3、 算力使用成本高昂 算力使用成本高昂主要可以从两个方面来看,一方面,正如前文所述,东西部算力供需失衡,导致了东部地区算力成本高;另一方面,AI算力调度涉及到大量的硬件设备、软件平台和人力资源,因此成本较高。这使得一些中小企业在面临AI算力调度时,很难承受高昂的成本压力。 4、 数据安全隐患 随着AI算力调度的普及,安全问题也日益凸显。在数据驱动的时代,数据是企业的核心资产。然而,在算力调度过程中,数据的安全与隐私保护存在一定程度的不足。例如,数据泄露、黑客攻击等现象时有发生,给我国的AI算力调度带来了很大的安全隐患。 据IBM Security 发布的《2023年数据泄露成本报告》中显示,2023年全球数据泄露的平均成本达到 445 万美元,创该报告有史以来以来最高记录,较过去 3 年均值增长了 15%。 数据安全问题是一个“老生常谈”的问题,确保数据安全也是每个企业数字化转型过程中的“必修课”。 综上,我国目前算力产业主要面临了四大痛点,如何解决这四大痛点,将是我国算力产业实现高质量发展的关键。 算力如何像“水、电”一样,灵活取用? 为了更好地发展算力产业,助力数字经济腾飞,我国提出了“东数西算”战略工程,在笔者看来,“东数西算”的核心目的是,为了让西部地区利用资源方面的优势,在带动当地经济发展的同时,满足未来我国各行业对算力的需求。 众所周知,AI大模型在训练、调整的过程中,需要海量的数据及算力,而这些用于训练大模型的算力又需要消耗大量的电力资源,在林源看来,AI应用属于“成本敏感型”应用场景。拥有低廉、绿色电力西部地区,是大模型训练的“沃土”,西部训练,东部应用,这将是未来的大趋势,对此,林源认为,未来,算力一定是分散的,东西部都有算力分布,只不过这些算力的用途有所区别。 为了满足未来用户对于智能算力的需求,青云推出了AI算力调度平台,林源表示,AI算力调度平台将成为智算中心运营者的关键工具,帮助智算中心构建从建设到运营的全生命周期闭环。 从2022年开始,无论是企业侧,还是地方政府主管部门,都在积极建立自己的算力调度平台,帮助企业以更低的成本,使用更优质的算力资源,那么青云的AI算力调度平台又有哪些优势呢? 青云科技产品经理苗慧对钛媒体表示,青云AI算力调度平台主要有九大能力,“通过多区、多业务资源整合,分布式调度、管理,AI训练平台,混合组网,算法开发支持,灵活调度,高速并行存储,容器推理服务平台,模型仓库这九大关键能力,青云AI算力调度平台能帮助企业实现安全、高效的算力调度。”苗慧指出。 与此同时,在苗慧看来,青云AI算力调度平台与其他友商相比,主要优势有两个,一个是,青云针对上百台服务器的大集群管理方面,优化了调度算法,让数据“不绕路”;另一个是,在应用环境上,青云用了K8s和Slurm两种调度平台同时为我们的客户服务,是完全集成好的。“青云在颗粒度和运维传统机器方面上,也会有更多的优化。”苗慧强调。 值得注意的是,青云AI算力调度平台已经与济南超算中心联手,为政企用户提供算力服务多年,“目前在HPC领域和AI智算领域越来越面向终端用户,有越来越多的科研工作者、学生使用青云的平台。”苗慧表示。 经过近两年的运营,不断的优化,本次推陈出新的青云AI算力调度平台进行了全新的产品升级,“我们这次推出的主要产品和主要迭代,像AI算力平台、推理平台、镜像仓库,全都是面向AIGC或整个AI领域上,专门推出业务化的产品。”苗慧介绍道,“另外,在物理节点层,由于面向AI行业,所以我们在网络、计算节点这部分,最关注的是GPU、并行文件存储和高速网络这三件事。” 不仅于此,针对时下企业最关注的数据安全的话题,青云采用零信任机制,并将用户间的数据存储与计算 “完全隔离”,“青云为每个用户的资源生成一个子网,该子网只有用户自己可见。子网既支持25G及以上的以太网,也支持IB网络,帮助用户确保数据安全。”苗慧在于钛媒体的分享中表示。 据笔者了解,青云AI算力调度平台目前除了与济南超算展开深度合作以外,还在北京、宁夏、河南、湖北、四川等省市,与众多地方高校、央企、政府部门等,建立了合作关系,“未来,青云将联合更多的企业、高校、研究机构,并整合算力产业链上下游,打造算力生态,满足企业算力需求,让用户以更低廉的成本,使用更优质的算力”,展望未来,林源表示。 (作者 | 张申宇)
微软38TB内部数据惨遭泄露!私人密钥、3w+工作对话流出,背后原因震惊了
昨天,微软在GitHub上发布开源训练数据时,无意中泄露了38 TB的内部数据。好在,百亿独角兽Wiz及时发现了漏洞,现在微软已经连夜修补上了。 出大事了! 几个月前,微软的人工智能研究团队在GitHub上发布大量开源训练数据时,曾发生了大规模泄露。 高达38 TB的数据流出,包括员工电脑的的个人备份、私人密钥和三万多条内部的Teams消息。 原来,是微软的AI研究团队在发布开源训练数据集时,不小心打开了「小金库」的门。 而泄露之所以会发生,是因为一个SAS token配置错误了。 微软的工作人员,都是使用Azure来共享文件的。但现在,它的便利性也成了一把双刃剑——容易共享,却也容易泄露。 就在昨天,微软和Wiz同时发博,梳理了一下这件事的来龙去脉,因此广大群众们才了解到,原来三个月前发生过这么一场严重的泄漏事件。 01 Microsoft调查结果 在得知了捅出这么大一个篓子之后,微软也马上修复了这个问题,并对可能产生影响的文件进行了全面的排查,还发了一个官方博客对泄露事件进行了总结。 官方博客最主要的目的是安抚客户,微软一开头就表示了「没有客户数据泄露,也没有其他内部服务因为这个问题而处于危险之中。对于此问题,不需要客户采取任何行动。」 但是如此大规模的数据泄漏,别说微软的客户了,就是路过的吃瓜群众看了消息也不是很放心啊。 我们就来看看这次数据泄漏的前因后果。 最早发现泄漏的是一个云安全公司Wiz,他们在发现了这个问题之后,在将问题告知微软的同时,把自己的发现和分析写了一篇长文博客,为自己的业务能力打了一波广告。 按照Wiz的说法,微软的人工智能研究团队在GitHub上发布大量开源训练数据时,意外暴露了38 TB的额外私人数据,其中包括2名员工工作站的硬盘备份。 其中包括:机密文件、私钥、密码和超过 30,000 条内部 Microsoft Teams 消息。 但是因为发现这个漏洞的公司本来就是网络安全公司,而且第一时间联系了微软,所以大概率这些数据没有被真正泄露出去。 而数据意外暴露的过程,是源于Wiz的研究团队在网上扫描意外暴露云托管数据时的发现。 Github上Microsoft的组织下找到了一个名为robust-models-transfer的Repo。浏览者可以通过Azure的存储URL来下载模型: 但是,用户通过这个URL能够访问的不仅仅是这个开源模型。它被配置为授予用户访问整个存储帐户的权限,从而公开了其他私人敏感数据。 扫描显示,此帐户包含38 TB的额外数据,包括两个微软员工的电脑硬盘备份。 图:「robustnessws4285631339」存储帐户下泄漏出来的文件夹 图:在文件备份中发现的一小部分敏感文件 两名微软员工的Teams聊天记录 而且除了错误的访问权限之外,这个SAS token还被错误地配置为「完全控制」权限。这意味着,其他用户不仅可以查看存储帐户中的所有文件,还可以删除和篡改这些文件。 因为Repo原本的目的是提供一个用于训练代码的AI模型。Repo会引导用户从SAS链接下载格式为ckpt的模型数据文件。 它是使用Python的 pickle 格式化器格式化的,很容易引发任意代码执行(ACE)攻击。 攻击者可以将恶意代码注入到这个存储帐户中的所有AI模型中,每个信任这个微软GitHub Repo的用户都会受到威胁。 不过还好,因为这个账户是在Wiz研究团队主动扫描时找到的,并并没有公开给所有的访问用户。 微软Azure使用了一种被称为「SAS token」的机制。用户通过这个机制来创建链接分享自己的存储账户的访问权限,而经过他们检查,这个账户还是完全私有的。 微软也表示,由于Wiz的研究发现,他们已经扩展了GitHub的一项特殊监控服务,会监视所有公开开源代码的更改,以防止可能的代码篡改和敏感文件泄露。 02 SAS token简介 SAS(Shared Access Signature)即共享访问签名。 在Azure中,SAS token是一个经过认证的URL,它能够授予对Azure存储数据的访问权限。 SAS的访问权限可由用户自定义。 访问的内容可以是单个文件、容器或整个存储帐户,权限介于只读和完全控制之间。 过期时间也可以自定义,并允许用户创建无限期的访问 token。 这种精细的操作划分为用户带来了极大灵活性和机动性,但也可能会导致授权过多带来的一系列风险。 这次微软内部数据的泄露印证了这一点。 在权限最大的情况下,token可以永久开放对整个帐户的所有权限,基本上与账户密钥的访问权限相同。 SAS token有3种类型:账户SAS、服务SAS和用户授权SAS。 其中,最常用的是账户SAS token,微软的Repo中使用的也是这种token。 生成账户SAS的过程很简单,如下图所示: 用户配置token的范围、权限和有效期,然后生成token。随后在后台中,浏览器会从Azure下载帐户密钥,并用密钥签署生成的token。 整个过程都将在浏览器上完成,与Azure云中的资源或事件无关。 因此,当用户创建了一个具有高权限且无限期的token时,管理员根本无法得知这个token的地点以及流通范围。 这使得想要吊销token变得十分困难。 管理员需要轮换签署token的帐户密钥,从而使所有由相同密钥签署的其他令牌也变得无效。 这个缺陷让这项服务很容易成为寻找暴露数据的攻击目标。 除了意外暴露的风险,该服务的缺陷还使其成为攻击者在入侵账户中进行持久攻击的有效工具。 微软最近的一份报告表明,攻击者正在利用该服务缺乏监控功能的特点,生成特权SAS token作为后门。 但由于token的发放在任何地方都没有记录,所以管理员无法对其采取相应的行动。 SAS安全建议 Wiz在回顾分析了微软数据泄露的整个流程后,贴心地针对这次的始作俑者SAS,为用户提出了一些提高SAS安全性的建议。 03 SAS管理 首先是管理方面,由于账户SAS token缺乏安全性和管理,因此应将其视为与账户密钥本身,给予同样的重视 要避免将账户 SAS用于外部共享,token创建的错误很容易被忽视并暴露敏感数据。 如果要进行外部共享,可考虑将服务 SAS与存储访问策略一起使用。 该功能可以将 SAS token与服务器端策略相连,从而能过以集中方式管理策略和撤销策略。 如果需要以有时间期限的方式共享内容,可以考虑用户授权SAS,它仅提供上限为7天的访问权。 并且,它还能将 SAS token与 Azure Active Directory的身份管理连接起来,提供对令牌创建者及其用户身份的控制和可见性。 此外,Wiz建议为外部共享创建专用的存储帐户,以确保过度授权的token其潜在影响仅限于外部数据。 为了禁用SAS token,企业必须分别禁用每个存储账户的 SAS访问权限。云安全策略管理(CSPM) 可以作为一项策略来进行跟踪和执行。 另一种禁用SAS token创建的解决方案是阻止Azure中的“列出存储帐户密钥”操作(因为没有密钥,无法创建新的SAS令牌),然后轮换当前的帐户密钥,以使现有的SAS令牌无效。 这种方法仍然允许创建用户授权SAS,因为它依赖于用户密钥而不是账户密钥。 SAS监管 其次是监管方面,如果要跟踪活动SAS token的使用情况,需要为每个存储账户启用Storage Analytics日志。 生成的日志将包含SAS token访问的详细信息,包括签名密钥和分配的权限。 但需要注意的是,只有主动使用的token才会出现在日志中,并且启用日志会产生额外费用,这对于活动频繁的账户来说可能会很昂贵。 此外,Azure Metrics也可用于监控存储账户中 SAS token的使用情况。 在默认情况下,Azure会记录和汇总长达 93 天的存储帐户事件。利用Azure Metrics,用户可以通过查找 SAS 验证请求,找到使用 SAS token的存储账户。 SAS秘密扫描 最后是使用秘密扫描工具来检测工件和公开暴露资产(如移动应用程序、网站和 GitHub 存储库)中泄漏或过度授权的 SAS token,这在微软的案例中可以看到。 对于Wiz的用户,Wiz提供了秘密扫描功能来识别内部和外部资产中的SAS token,并探索其权限。此外,还可以使用Wiz CSPM跟踪支持SAS的存储账户。 04 Wiz介绍 帮助微软发现这次数据泄漏,防止了可能出现的更严重的后果的Wiz,是一家位于美国纽约,创立于2020年的网络云安全初创公司。 根据公司自己的介绍,他们的业务主要是帮助企业发现公共云基础设施中的安全问题,为企业安全团队设计云原生可视性解决方案,可分析整个云环境,提供跨云、容器和工作负载的安全风险 360° 视图。 在8月底,他们刚刚完成了接近3亿美元的D轮融资,估值接近100亿美元,是云安全领域的一只巨型独角兽。 客户包括了各行各业对于云服务和安全有需求的公司。 4位创始人:Ami Luttwak、Assaf Rappaport、Yinon Costiva 和 Roy Reznik都来自以色列,他们相识于在以色列军队服役期间。 后来4人开发了一个名为Adallom的云访问代理产品,2015年被微软收购。4人因此加入了微软。而他们开发的云安全产品被微软整合了进自己的服务之中,为微软创造了每年接近10亿的云安全业务收入。 当他们发现自己做的业务和产品,在微软Azure之外,也有非常好的市场前景时,他们4人决定离开,共同创立第二家企业——Wiz。 因为他们发现与本地网络安全不同,安全团队无法在「单一管理平台」中查看所有云服务器,而Wiz正是瞄准了这个市场发力,提供了一个支持多个公有云服务的安全管理平台。
34B参数量超越GPT-4!“数学通用大模型”MAmmoTH开源,平均准确率最高提升29%
新智元报道 编辑:LRS 【新智元导读】数学通才「猛犸」模型给开源语言模型带来了「推理春天」,面对GPT-4都有一战之力! 数学推理问题是语言模型绕不过的痛点,在各种黑科技的加持下,开源模型的推理性能依然不够看。 最近,滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学的研究人员联合开源了一个专为「通用数学问题」定制的大模型MAmmoTH和一个指令调优数据集MathInstruct. MathInstruct由13个具有中间原理的数学数据集编译而成,其中6个为新数据集,混合了思想链(CoT)和思想程序(PoT),并确保覆盖了广泛的数学领域。 CoT和PoT的混合不仅可以释放工具使用的潜力,而且还允许模型针对不同的数学问题进行不同的思维过程。 因此,MAmmoTH系列在所有尺度上的9个数学推理数据集上的表现大大优于现有的开源模型,平均准确率提高了12%至29%。 其中MAmmoTH-7B模型在MATH(竞赛级数据集)上的准确率达到了35%,超过了最好的开源7B模型(WizardMath)25%,MAmmoTH-34B模型在MATH上的准确率达到了46%,甚至超过了GPT-4的CoT结果。 数学推理领域新王:MAmmoTH 在数学推理任务上,开源和闭源的大型语言模型(LLM)之间存在巨大的性能差距,目前基准数据集上的sota仍然是GPT-4,PaLM-2和Claude等闭源模型,其他开源模型如Llama,Falcon和OPT等仍然远远落后。 为了弥补性能差距,主要的研究方法有两类: 1. 如Galactica,MINERVA等模型,继续使用数学相关的网络数据对语言模型进行训练,可以提高模型的通用科学推理能力,但计算成本会更高; 2. 如拒绝采样微调(RFT)和WizardMath等,使用特定领域数据集对模型进行微调,虽然可以提高领域内性能,但无法适用于更广泛的数学推理任务。 在解决数学问题时,现有方法通常会采用思维链(CoT)方法引导语言模型循序渐进地用自然语言描述来解决数学问题。 虽然在大多数数学主题下表现出很好的通用性,但在需要精确或复杂的数学计算、算法推理的问题下(如求解二次方程根,计算矩阵特征值)表现不佳。 相比之下,思维程序(PoT, Program-of-Thought)方法和PAL利用外部工具(即Python解释器)大大简化了数学求解过程,将计算过程卸载到外部Python解释器,以解决复杂的数学和算法推理过程(例如,用sympy求解二次方程或用numpy计算矩阵特征值)。 然而,PoT在处理更抽象的推理场景方面有所欠缺,尤其是在没有内置API的情况下,常识推理、形式逻辑和抽象代数的推理能力会更差。 方法概述 研究人员的目标是编制一个高质量、多样化的数学指令调整(instruction-tuning)数据集列表。 1. 覆盖不同数学领域和复杂度 更全面的数据集可以让模型接触到多样化的数学知识,提升模型的多功能性。 研究人员将选择范围缩小到几个被广泛采用的高质量数据集,包括GSM8K、math、AQuA、Camel和TheoremQA. 还可以注意到,现有的数据集缺乏对大学水平的数学知识的覆盖,如抽象代数和形式逻辑,所以研究人员选择使用GPT-4来合成TheoremQA问题中的思维链(CoT)原理,利用网络上找到的数个种子样例,通过自我指导(self-instruct)创建问题和CoT的数据对。 2. 混合CoT和PoT 现有的研究方法大多只关注CoT,并且数据集中也只包含有限的解题思路,导致CoT和PoT的数据量十分不均衡。 为了解决该问题,研究人员利用GPT-4来补充选定数据集的PoT解题思路,通过对比合成程序的执行结果以及人工标注的答案进行过滤,确保生成数据的高质量。 遵循上述方法,最后得到了26万条指令、回复数据对,涵盖了广泛的核心数学领域,如算术、代数、概率、微积分和几何等,混合了CoT和PoT基本原理,并提供多种语言、多个难度级别的数据,足以证明数据集的高品质和独特性。 训练步骤 研究人员统一了MathInstruct中的所有子集,将指令数据集的结构标准化为Alpaca模型的格式,使得模型无需考虑原始数据集的格式,在微调阶段统一处理数据即可。 研究人员选择开源模型Llama-2和Code Llama作为基础模型,在7B、13B、34B和70B尺寸的模型上进行微调。 实验部分 评估数据集 研究人员选择了不同数学领域下的样本,对模型的通用数学推理能力进行评估: 领域内数据集包括GSM8K,MATH,AQuA-RAT,NumGLUE;领域外数据集包括SVAMP,Mathematics,SimulEq,SAT-Math和SimulEq,涵盖了小学、高中和大学水平的数学问题,部分数据集甚至包括形式逻辑和常识推理。 问题类型为开放式问题和多选题,其中开放式问题(如GSM8K、数学)采用PoT解码,因为大多数问题都可以由程序解决;多项选择题(如AQuA、MMLU)采用CoT解码。 实验结果 总的来说,MAmmoTH和MAmmoTH-Coder在不同的模型尺寸上均优于SoTA模型,并且在领域外(OOD)数据集上的增益要显著优于领域内(IND)数据集,展现出了该模型作为数学通才模型的潜力,甚至在几个数据集上,MAmmoTH-Coder-34B和MAmmoTH-70B甚至超过了闭源模型。 在领域内数据的评估,MAmmoTH模型的主要竞争对手是WizardMath和Platypus,其中WizardMath的训练深度依赖于GSM8K和MATH数据集,Platypus在更广泛的文本和数学推理数据集上对LLM进行微调。 相比之下,MAmmoTH实现了全面的改进,并且更擅长解决复杂数学问题,相比WizardMath(MATH数据的sota)的增益最高超过了25% 在领域外数据评估中,主要竞争模型依然是Platypus,不过MAmmoTH可以实现比领域内数据更高的性能提升,展现出对未知数学问题的通用能力。 值得注意的是,MAmmoTH-7B还将WizardMath-7B在MMLU-Math上的CoT性能大幅提高了9%,其中包含大量没有在训练数据集中涵盖的主题。 不同基础模型之间的对比 可以发现,Code-Llama作为基础模型时的效果始终优于Llama-2,尤其是在领域外数据集上,二者之间的性能差异甚至达到了5%,其中MAmmoTH-Coder(34B)在领域外数据集上的平均性能实际上高于MAmmoTH(70B) 研究人员认为,MAmmoTH-Coder从Code-Llama的持续代码训练中受益匪浅,不仅增强了PoT能力,还提高了Llama的通用推理技能。
金融和大模型的“两层皮”问题
几年前,我采访一位产业专家,他提到了一个高科技到产业落地的主要困惑:两层皮。 一些特别牛的技术成果在论文上发表了,这是一层皮。企业的技术人员,将这些成果产品化、商品化的时候,可能出于工程化的原因,会做一些简化,这是另一层皮。 两层皮之间,是有gap的,就像卖家秀和买家秀一样,并不是融合且一致的。 而往往是那些有技术人才、研发能力、转化意愿的企业,会先碰到“两层皮”的问题,产生对技术有效性、ROI回报率不明确的疑虑。 在冲入大模型热潮的各路人马中,金融机构可能是率先遭遇“两层皮”挑战的。 我们知道,金融产业一贯是新技术的早期采用者,在AI方面的尝试很早就开始了,可以说是产业AI化的“优等生”,更是有着良好的信息化、数字化基础。金融机构的前中后台各个场景中,都有被大模型降本增效的空间。因此,金融也被认为是大模型落地的首选场景。 作为大模型落地的先行者,金融领域如果解决不了“两层皮”的问题,意味着大模型在实际应用中还是存在卖家秀和买家秀的差距。 本文希望说清楚,究竟是哪些问题拉开了金融和大模型之间的gap? 问题一:以谁为主? 既然是做大模型,当然是由OpenAI/BAT这样的科技企业和技术公司为主导了,而这也是金融机构不想看到的事。 有个金融领域的专家告诉我们,这波大模型的热度起来之后,金融机构都特别焦虑,有一种FOMO(Fear of Missing Out害怕错过)情绪。 因为上一波技术浪潮,智能手机和移动互联网崛起,导致传统银行、券商的很多业务,被互联网金融公司分走了。在业内人看来,这种“史诗级的悲剧”绝不能重演。 在技术焦虑的驱动下,金融机构非常积极想跟上大模型的风口,几乎不需要科技厂商做太多市场教育,整个行业在接纳大模型这件事上表现极其良好。 同时,金融机构也非常重视将金融大模型的“核心筹码”牢牢掌握自己手里,强调“以我为主”。有银行业人士提出:只有适应银行的大模型,才是真正可以深度应用到场景里、业务流程中的大模型。具体怎么做呢? 一类是硬筹码。 对金融机构来说,数据安全隐私合规,是没有妥协的硬指标,有非常严格的要求。这也就导致,大模型落地金融更加需要本地化的搭建和私有化部署、运行。 本地部署的要求,对大模型厂商来说有利有弊。有利的地方是,相比其他行业直接调用API接口的MaaS模式,本地部署的客单价高、利润大,商业价值更高。不利的地方在于,私有部署需要在云化方案、数据处理、存储、模型训练、提示工程、运维服务等多方面,形成一套完整的解决方案,竞争焦点不仅是基座模型本身,这就增加了技术服务商的成本和难度。 另一类是软筹码。 金融大模型要表现良好,需要专有数据的精调、领域知识的引入、基于场景的反馈,而银行业本身的数字化基础非常好,数据积累深厚,这便成了掌握在手中的软筹码。 摩根斯坦利公司在研发生成式AI产品中,就结合超过10万份财务报告、内部资料和金融文献等,对OpenAI的基础模型进行微调。据透露,我国农业银行业也沉淀了2.6TB的高质量训练数据,用于大模型的训练。此外,基础大模型虽然通识能力很强,但“专业课”能力不足,缺少金融专业知识,加上金融场景业务复杂,初出茅庐的大模型,要形成高质量的服务能力,成为优秀的“AI副驾驶”,并不容易。 这就要求,大模型厂商和技术公司,改变“技术为中心”“我是来赋能/颠覆你的”的惯有思路,增强服务意识,与金融客户合作,以金融客户为主。 大模型落地金融绝不是,也不能是又一次“技术颠覆行业”。无论是通用大模型厂商还是ISV服务商集成商,都要在“客户为主”这条baseline(基线)上跳舞。 问题二:融合为什么难? 以金融机构为主,那科技公司岂不是成了“大模型施工队”,只能收点辛苦费,发挥不了技术创新性了? 大no特no。 一来,金融AI不是新事物。 金融机构,并不是大家想的那样,面对AI一窍不通。事实上,在所有行业里,金融领域的“含AI量”绝对是排名前列的。几年前我采访国内某985高校人工智能学院的院长,对方直言,AI方向的学生毕业后不去BAT、不去创业公司,去的是招商银行这类金融机构下面的信息中心/技术中心,搞金融的人工智能。 所以,金融AI的趋势其实早在几年前,就已经大幅开展了,这也是为什么今年大模型热度刚起,国內工行、平安、农行、招商银行、中信银行等一大波银行,能很快组建了自己的GPT大模型专项研究团队。银行能及时行动,靠的就是几年来投入AI的积累。所以,以金融机构为主,也做得好金融大模型。 二来,大模型是个新事物。 大模型究竟比这些“传统AI”强在哪里,能干什么?这是一个完全空白的新问题。 理论上讲,大模型可以贯穿银行全产业链的各个环节,每条业务线、每个智能都能找到LLM的应用场景。但现实中,全环节全面上马大模型,怎么跟业务结合都不清楚,意味着会有大量探索是失败的、浪费的。 要加速探索、减少成本、降低风险就必须金融机构和科技公司一起,让金融专家、算法科学家、工程师、测试员等坐在一起,一点一点地共同探索,深入洞察场景,对需求“去伪存真”。 有金融机构的负责人直言,今天金融业能够获取的智能化应用非常丰富,翻开AI企业的金融产品推介手册,可以看到上百个细分能力,但如何选取最合适的整合到自家机构的业务中,这个过程中会有大量的试错。 目前来看,业内基本已经达成共识,金融大模型,必须优选场景。有几个关键词: 1.高频次。在一些重点场景、重点应用上,尽快让大模型可以上岗解决问题,降低应用的门槛。比如智能客服、智能投顾等原本的劳动密集型岗位,可以很快带来显著的降本增效成果。 2.高价值。对于一些有社会价值、商业价值的领域,率先开始探索。比如普惠金融,就是目前从政府到民间都非常看中的金融服务,需要精准的数据洞察、更低成本、高可及性的服务能力,去综合降低中小微企业/商家的金融成本。其中,大模型的多模态表达能力、强大的理解分析能力都可以发挥很好的作用。 3.易部署。不少金融从业者,听到大模型的第一反应是,这事儿小模型能干吗?大模型对硬件基础设施的算力、稳定性等都提出了更高的要求,金融机构又在加速推进国产化硬件,各个业务线都部署大模型,带来的性能压力、成本压力、部署压力都是非常大的。所以,大模型压缩优化后或者同样效果的小模型,可以落地的业务场景,比如大模型生成银行理财产品推荐建议,大模型作为券商机构的研究助理,对这些已经在应用的传统AI,用大模型进行升级,不会增加过高的算力成本和工程量,是更易落地的渐进式场景。 正因为大模型是一层皮,实际应用是另一层皮,两层皮怎么融合,在哪些场景优先融合,是一条无人走过的路。金融机构和科技企业,都不能独行,唯有紧密配合,才能寻找到金融场景与大模型之间的最佳融合之路。 问题三:镣铐怎么这么多? 是不是找到场景,重点攻克,然后规模化复制,金融大模型就能突飞猛进了? 我们说金融机构“人多、钱多、技术多”,只是相对其他行业而言。现实中,金融机构也不可能拿出无限的预算、投入无限的人力、开放无限的场景,供大模型随意大显身手。而且,金融领域还存在大量的中小银行、券商,能负担的技术创新成本也是有限的。 一位银行从业者提到AIGC就说:竞争是加剧的,人员是有限的,人才是缺乏的,费用是紧张的。 可以说,带着镣铐跳舞,正是金融和大模型“两层皮”“卖家秀和买家秀”的关键原因。 比如算力的问题。国产化替代进程中,金融大模型要打破训练昂贵、算力成本高的桎梏,对模型厂商的硬件基础、自研能力、生态兼容能力、软件协同优化,提出了综合的考验。 目前,头部云厂商都下大力气在自研硬件上,比如百度的昆仑、阿里的倚天、华为的昇腾,以及配套的软件、生态,没有这些很难真正拿下金融大模型。 还有技术本身的限制。坦率来说,大模型技术本身还存在不少问题,尤其是在金融领域落地,必须解决幻觉问题,胡说八道对严谨的金融业务是不可接受的。模型黑箱性会导致AI智能决策不可信、不敢信,无法真正用于金融投顾、市场分析决策。 另外,金融机构也会衡量ROI投入产出比。但因为金融场景中,已经沉淀了大量的传统AI,比如智能客服,大家可能都接过机器人打来的产品推销电话、账单催收电话。 所以引入大模型后,究竟能给客户带来多少收益,回报产出比ROI怎么评估,哪些是大模型带来的提升,这些目前还没有一个明确的衡量标准。 无法量化大模型给业务带来的贡献,显然会导致大模型厂商的无序竞争,或者比拼客户关系,这也成为金融大模型效果不彰的一个隐忧。 消除产业和大模型之间的gap,将会是接下来,大模型赛道的标准动作。 这个过程中,最早遇到“两层皮”问题的金融大模型,或许会提供大量有益的参考和实践,而金融机构也会成为更早挖掘到金矿的第一批大模型淘金者。
生成式AI对未来就业有何影响?到2030年将重塑1100万个工作岗位
站长之家(ChinaZ.com) 9月19日 消息:根据Forrester的最新报告,生成式人工智能(GenAI)的“过度采用”将到 2030 年消除240万个工作岗位,但将重塑超过1100万个工作岗位,这一预测描绘了一个充满“魔法和混乱”的未来景象。 Forrester在8月30日发布的关于GenAI对就业的影响报告中,对这一技术进行了自相矛盾的描述。GenAI自10个月前发布ChatGPT以来,迅速成为主流技术,一方面,它因其看似神奇的结果而广泛受到采用,但另一方面,这种“魔法”也将给就业市场带来混乱。 报告引用了Resumebulder.com在2月份的一项调查,该调查显示四分之一的公司已经用ChatGPT替换了员工。高盛的预测认为GenAI可以提升世界经济产出7%(约7万亿美元),同时实现相当于3亿个全职工作岗位的自动化。然而,Forrester分析师写道:“夸大的预测、令人心碎的事实、普遍的恐慌——在浓烟中很难看出火灾的范围。”他们认为只有通过基于最可靠数据的分析才能真正了解GenAI对就业的影响。 根据Forrester的估计,到2030年,自动化和人工智能合计将取代4.9%的工作岗位,其中30%的工作岗位流失,即约240万个工作岗位,主要是由于GenAI造成的。然而,分析师指出,虽然GenAI自动化了一些工作,但它也将改变1100万个工作的完成方式,相差4.5倍。 分析师写道:“技术作家、社会科学研究助理、校对员和文案撰稿人等更容易自动化且具有较高人工智能影响力的工作更有可能消失。” “具有较高生成式人工智能影响力的较难自动化的工作,例如编辑、作家、作家和诗人、作词家和创意作家,更有可能影响工作的进行方式(通过增强),而不是取代它们。”Forrester表示,GenAI将影响的工作岗位数量是其直接取代的工作岗位数量的4.5倍。 Forrester还指出,办公室和行政工作将受到最严重的打击,而支付中等工资的中层工作将受到最严重的打击。薪酬更高的更高级别工作对GenAI的抵抗力更强。他们写道,管理职位很大程度上将不受GenAI的影响,“因为他们的工作依赖于人工智能的技能,如人类判断、同理心和领导力”。 那么,业务领导者该如何为GenAI的“魔法与混乱”做好准备呢?Forrester的分析师提出了一些建议。其中之一是投资“RQ”(机器人系数),即度量个体适应人工智能和自动化的能力。将增强作为策略的核心部分是另一个建议。 Forrester的分析师还建议业务领导者采取主动的方式来应对GenAI,分析哪些工作岗位将从中受益最多,然后为员工提供适当的工具。当然,还需要投资于GenAI开发技能,因为您需要员工能够运用这些新技术。 尽管没有人确切知道GenAI竞赛将如何结束,甚至第三局会是什么样子,但可以确定的是,这将充满竞争。
狂降 4.6 万!G9 改款发布,小鹏涅槃重生
地缘打碎了文明,又在文明的边缘重新定义文明。 坐落在河西走廊最西端的敦煌,就是一个这样的地方。 公元前 121 年,霍去病出陇右击匈奴,河西走廊首次纳入华夏版图。在这之后,敦煌成为了丝绸之路三线的重要节点。贸易往来、思想的冲刷交融,让敦煌的文化破碎又重组,最终衍生出了独特的华戎文化,复杂的地缘碰撞催生了瑰丽的艺术成就。 敦煌莫高窟里的壁画,从简约奔放再到细腻秀丽的风格演变,勾勒出一幅幅飞天、涅槃的经典故事。 ▲ 敦煌莫高窟第 229 窟-窟顶北坡-伎乐飞天 图片来自:敦煌研究院 敦者,大也;煌者,盛也。 小鹏少有地将上市发布会定在敦煌,兴许有着特别的用意。对于小鹏来说,全新 G9 的改款事件就像是商业版图中的「敦煌郡」,走过长安-敦煌的三万里,站在丝绸之路的起点,何小鹏对旗下车型的西进、重塑有了新的思考。 在今晚的敦煌博物馆,小鹏正式上市 2024 款小鹏 G9,起售价为 26.39 万起,上市即交付。其中,2024 款全新小鹏 G9 共提供 5 种配置车型选择: G9 570 Pro 版:26.39 万起 G9 702 Pro 版:28.39 万起 G9 570 Max 版:28.99 万起 G9 702 Max 版:30.99 万起 G9 650 Max 版:35.99 万起 相比旧款 30.99 万的起售价,新款 G9 的起售价进行了 4.6 万元的大幅下调,无论是 Pro 版本还是 Max 智驾版本都已经真正下探到了国内 30 万以内的纯电市场。 从改款 G9 开始,小鹏打碎过往,迎来自己的涅槃重生时刻。 改款 G9,是一道加减乘除题 如果你觉得难,你看看小鹏汽车的何小鹏就不难了。 何小鹏这样形容去年小鹏所面对的艰难时刻。对于小鹏汽车来说,去年 G9 的失利足够刻骨铭心。 发布会上,何小鹏谈起了更多小鹏内部为 G9 改款付出的努力,「加减乘除」是小鹏内部团队对 2024 款 G9 的高度概括。 新款 G9 的「加法」做在了架构技术上,2024 版的 G9 将会标配更多扶摇架构的核心技术。何小鹏认为,尽管去年的 G9 也使用了相当多扶摇架构的技术元素,但小鹏认为新款能够在智能、电能以及性能上做得更加出色。 在扶摇架构的赋能下,新款 G9 几乎全系标配了核心能力。谈到当家智能驾驶技术,何小鹏再次提到了 XNGP 的实际进展,在过去一年中小鹏城市 NGP 的周度使用率达到了 82%,XNGP 的周用户使用率达到 94.6%, 其中单辆最长累积智驾里程突破 15000km。 更高频的使用,带动了小鹏开城进度。何小鹏宣布,到 2023 年底小鹏城市 NGP 智能驾驶将扩增至 50 城,覆盖接近 80% 小鹏车主所在的城市;2024 年,城市 NGP 预计会扩增至 200 城,做到核心城市全覆盖。 实际上,小鹏智能驾驶的野心并不只停留在开城,何小鹏还进一步确立了内部智能驾驶团队的目标——2025 年,XNGP 要在城区路段实现平均 1000km 接管 1 次的效果。小鹏有信心能够在未来 2-3 年内,从现今平均 10km 接管 1 次的水平,完成 10-1000km 量级的跨越。 做起「加法」的还有新款 G9 的性能表现。2024 版全新 G9 将会搭载同级领先「超线程智能底盘」,在全车视觉以及智能双腔空气悬架等核心底盘部件的支持下,超线程智能底盘可以进行每秒 1000 次路况扫描和 200 次的悬架调节。 值得一提的是,这一套底盘有着相当高的可玩性,根据小鹏官方介绍,超线程智能底盘支持自定义极客模式,可以为有明确驾驶取向的车主开放多达 13.5 万种驾驶模式。后期,这样的「数字底盘」还会通过 OTA 不断升级优化,适应更加极致的操控需求。 主打「听劝」的小鹏,在过去一年中,小鹏通过不同的渠道方式,与用户沟通交流超过 1000 次,接收来自用户的建议超过 10000 条。最终,小鹏在改款 G9 的豪华感上做了更丰满的诠释。 全新小鹏 G9 共有 5 款外观配色方案,其中新增 2 款配色,分别是星际绿以及暗夜黑;而在遭受诟病已久的座舱内部,小鹏内部团队也做了更多思考,新款内饰新增气宇灰配色,为 G9 营造年轻运动感。 电控能耗方面,新款 G9 亦有进步。根据小鹏官方的说法,新款 G9 全系标配 X-HP 2.0 智能热管理系统,新系统加持下新款 G9 的冬季空调能耗降低 30%,采暖效率提升 50%,冬季续航里程提升 15%,做到了同级最低能耗、最实续航。能耗的优良控制,成为了小鹏西进「出海」的一张王牌,在 2023 年挪威乘联会夏季续航实测中,小鹏 G9 摘得桂冠,成为了榜单中续航里程最扎实的纯电车型。 出色空间、能耗表现,精准打击了欧洲纯电市场的痛点。相比 P7i 车型,G9 在欧洲取得的关注和成功是远超内部想象的,何小鹏透露,G9 在欧洲市场的热度表现高出了自己心里预期的 10 倍。从 9 月的慕尼黑车展开始,小鹏 G9 将会开启西进启动海外交付,2023 年 10 月将在挪威、丹麦、荷兰、瑞典四国开始交付,2024 年小鹏计划打进德国市场。 「要把钱花在刀刃上」,小鹏 G9 贯彻了这个宗旨。对于一些用户低感知的配置,小鹏内部团队主动做起了减法。正如传闻消息那样,小鹏 G9 取消了 5D 智能音乐座舱,以及在座舱内部换上了一套全新自研的音响系统——Xopera 2.0 小鹏音乐厅。 用自研取代丹拿音响,小鹏有着自己的考量。何小鹏认为,Xopera 2.0 音响系统能够通过自研算法达到丹拿音响的同等效果,过往丹拿音响需要用户选配,而小鹏用更低的成本还原了丹拿效果,并且将选配打造成了标配,用户和车企都是「win-win」双赢。 另外,小鹏还回应了更多有关与大众的合作细节。在大众汽车官宣与小鹏达成技术战略合作之后,G9 将会成为「内销转出口」的中国汽车高端代表,未来双方将会基于 G9 车型平台共同开发两款纯电车型。 G9 的过往是惨痛暗淡的,但对于擅长技术的小鹏来说,改款 G9 却是一道加减乘除题,小鹏在新款 G9 上面找到了降本和重生的答案。 从产品到渠道,瘦身减重 在不久前的第二季度财报电话会议上,何小鹏表示,在今年的第四季度小鹏汽车的毛利率有望回正,小鹏有信心在 2024 年年底前完成整体成本降低 25% 的目标,并显著改善毛利率表现。 降本增效,将会是小鹏贯穿未来一整年的主线任务。 好消息是,G6 的销量表现让小鹏暂时卸下了沉重的销量包袱。 电话会议中何小鹏透露,G6 已经成为了 20-30 万级最有统治力的纯电车型之一,Max 版本订单量突破车型总订单的 70%,远远超过了小鹏内部团队的预期。在刚刚过去 8 月,小鹏单月累计交付 13690 台新车,其中 G6 交付量环比增长 80%,累计交付超过 7000 台新车,占据总销量的 51.13%。凭借 G6 单车型的市场表现,小鹏挽救了自己的销量基本盘。 销量回暖复苏,继而推进 G9 改款,至少在产品层面上,小鹏已经达到了瘦身目的。想要完成从臃肿到轻盈的蜕变,小鹏还要将目光抛向销售渠道体系的变革。 未来三年,小鹏汽车要达到百万销量。 在「木星计划」零售选商沙龙上,王凤英这样地说道。 ▲ 木星计划-王凤英 小鹏内部可能很早就在销量预期上达成了共识。在 G9 遭遇滑铁卢之后,何小鹏重新开始思考怎么让小鹏汽车「活」得更好,内部架构调整已经势在必行。在 8 月初回应吴新宙离职的消息中,何小鹏就已经透露小鹏在 2022 年底就已经提前进入了架构调整阶段。 实际上,这个时间点是稍显微妙的,王凤英正式确定入局小鹏是在今年 1 月,可以推测小鹏内部针对各个职能部门的内部调整从 22 年底就开始并线进行了。 ▲ 何小鹏、吴新宙、黄仁勋三人合照(从左起) 在王凤英入职后,何小鹏曾经向外界透露自己的销量思考。他认为,新能源汽车赛道的淘汰赛刚刚开始,300 万销量仅仅只是一张入场券,在未来 10 年,主流新能源车企的牌桌上只会剩下 8 位玩家。 想要突破 300 万销量这条行业生死线,成本平衡是其中不可或缺的一环,销售渠道的改革,是一次自下而上的体系减重。 从直营模式落地之后,小鹏维持了非常长一段时间让直营与加盟并行。从年初开始情况开始发生变化,小鹏选择加速拥抱经销商。 ▲ 图片来自:REUTERS 3 月,何小鹏曾经表示小鹏汽车的直营店比例约为 70%,这个数字也将会在之后随着渠道改革发生较大的变化。根据晚点 Auto 报道,小鹏不仅关闭了部分低效的直营店,还将相当数量的直营店转给了经销商经营,在保留直营模式的同时拉升经销商的门店比重。 另外,小鹏主动降低了综合店(包含销售、体验全链路的门店)的开设门槛。过往经销商想要开设大体量的综合门店需要达到一定的业绩指标,而在木星计划调整后,小鹏对授权经销商的要求只从城市位置、场地面积、经销商资产健康这些维度进行考量,业绩 kpi 不再成为决定性指标。 所有的动作,都是为了以更轻的资产方式,铺开更多的小鹏门店。 在未来的下半年,小鹏将会明显加快渠道(包含国际市场)的商业模式变革,希望能够用更快的速度吸引优秀经销商伙伴,提速门店在二线,甚至是三线以下城市的渗透。小鹏内部对于下半年的预期是乐观的,在二季度财报电话会议的末尾,何小鹏表示从今年第三季度开始,小鹏将会进入销量、品牌的初步正循环,最终在明年进入更全面的正循环。 如果说,G6 吹响了小鹏触底反弹的前哨,那么 G9 改款和持续大刀阔斧的渠道改革,就是小鹏涅槃重生的真正转折点。
给自动驾驶AI搞个“外挂”,0.1M就能显著提升运动状态判别力
原标题:给自动驾驶AI搞个“外挂”,0.1M就能显著提升运动状态判别力,来自港大&TCL丨开源 只需“100K大小的外挂”,就能让自动驾驶AI识别“物体运动状态”的能力大幅上升! 这是一项来自香港大学计算机视觉与机器智能实验室(CVMI Lab)和TCL AI Lab的新研究,目前论文已被CVPR 2023收录。 研究提出了一种叫做MarS3D的轻量级模型,给原本只能识别物体“是什么”的语义分割模型用上后,就能让它们进一步学会识别这些物体“是否在动”。 而且是任意主流模型即插即用,几乎不需要额外的计算量(推理时间只增加不到0.03秒),目前已开源。 要知道,对于靠激光雷达来判断周围环境的自动驾驶系统而言,其感知能力,很大程度上依赖于3D点云语义分割模型的准确率和效率。 如果想提升模型识别“运动物体”的能力,往往需要将繁重的室外多帧点云数据分别进行特征提取和处理,但这种方法不仅要增加大量计算,识别性能也没提升多少,属实是事倍功半。 相比之下,MarS3D参数量只有约100K大小,却能将主流点云分割模型的性能提升近5%。 这究竟是怎么做到的? 01 100K参数让模型学会识别“运动”物体 首先要了解一下3D点云的两种语义分割任务,单扫描(single-scan)和多扫描(multi-scan)。 这两种方法的核心差异,在于能否区分物体的运动状态。 单扫描任务只需要根据单帧点云,把场景中汽车、行人、道路等语义信息分割并标注出来。像下图,不同的颜色代表不同的物体,如蓝色的点云代表车: 多扫描任务,则需要根据时序上的多帧点云,同时分割语义信息和运动状态。 换言之,不仅要学会区分汽车、行人、道路,还得识别这些物体是否在运动。如汽车标签扩展成“运动的车”和“不动的车”,以及行人扩展成“运动的行人”和“不动的行人”: 目前,自动驾驶做激光雷达点云数据的处理,主要还是通过单扫描语义分割方法。 虽然能通过扩展标签、融合点云数据,直接将单扫描模型训练成多扫描模型,从而让AI掌握识别物体运动状态的能力,但存在两个问题: 一个是性能收效一般;另一个是融合点云数据量大,导致这种模型复杂、计算时间长,而这正是“争分夺秒”的自动驾驶系统无法接受的。 为了解决这两个问题,让语义分割模型又快又好地掌握识别“运动物体”的方法,MarS3D横空出世。 即使之前模型只能做单扫描语义分割,给它加个MarS3D后,不仅能大幅提升多扫描语义分割能力,区分物体“是否在运动”,效果还比其他多扫描方法更好。 所以,MarS3D的核心思路是什么? 具体来说,模型设计了一个基于2D CNN网络的分支BEV Branch,这个模型能提取点云数据转换的BEV(Bird’s Eye View)表征,即自上而下的鸟瞰视角。 之所以选用BEV,主要有两个原因。 一方面,目前的运动物体基本都是在地上跑(即使在空中飞,也几乎不存在垂直上升的情况),也就是说,几乎所有的运动都在水平面上有位移,因此它能很好地反映物体在绝大部分场景中的运动状态; 另一方面,BEV相比点云数据量更小,还能通过参考帧和特征图相减,降低点云稀疏性带来表征不稳定的问题,即同样静态区域的表征近似,含有动态物体区域的表征距离更远。此外,多尺寸卷积对表征抽取特征图,以保证模型对不同运动速度的物体都有很强感知力。 随后,将这个分支提取的运动状态信息特征、和其他被时序嵌入向量增强的单扫描任务模型分支3D Branch提取的语义信息特征结合起来,进行特征融合,最终实现语义分割。 那么,这样实现的3D点云语义分割,效果究竟怎么样? 02 几十毫秒计算,分割性能提升近5% 相比和其他输入如RGB图像进行结合,论文重点测试了模型针对纯点云输入的分割效果。 从下表可见,对于SemanticKITTI数据集,在目前主流的单扫描点云分割模型如SPVCNN、SparseConv和MinkUNet上,MarS3D在只给模型增加0.1M的情况下(参数量增加不到0.5%),将性能(mIoU)分别提升了4.96%、5.65%和6.24%。 同时,计算时间(延迟)只增加了19ms、14ms和28ms。 5%对于模型分割性能提升有多显著?下图是在两个扫描场景中,模型增加MarS3D前和增加后的效果对比,其中左图是增加前,中间是增加后,右边是真实值: 显然,增加MarS3D后模型识别物体的效果要更好。 直接将分割效果和真实值对比,可见增加MarS3D后的“错误值”,比增加前要低不少: 整个推理过程,只需要一块英伟达GeForce RTX 3090 GPU就能搞定。 对MarS3D感兴趣的小伙伴们,可以去试试了~ 项目地址: https://github.com/CVMI-Lab/MarS3D 论文地址: https://arxiv.org/abs/2307.09316
在大模型数量全国领先的北京,昇腾AI“点燃”首个普惠算力底座
大模型在抹平 AI 模型底层架构多样性的同时,也在悄然抹去城区之间的差异。 站在北京石龙经济开发区20号院,很难将这里与京西地区百年钢铁史、千年采煤史联系起来。曾是一代又一代人集体记忆的铁花飞溅、机械轰鸣,如今已化作蔚然成风的「京西智谷」。 图源备注:图片由AI生成,图片授权服务商Midjourney 2月,大模型「炼丹炉」—北京市门头沟区与中关村发展集团、华为技术有限公司共建的北京昇腾人工智能计算中心(以下简称计算中心)在20号院内正式点亮。6月,首批上线运营人工智能训练算力规模100P。 在今年企业争抢算力大背景下,在坐拥全国近三分之一人工智能企业、打响大模型创业「第一枪」的北京,它是第一个面向中小企业提供普惠算力的人工智能训练算力平台。 7月,计算中心又成为北京第一个拿到「国智牌照」的「新一代人工智能公共算力开发创新平台」,跻身国家人工智能算力发展战略体系。 夯实的基座:算力「大」且「稳」 走进一楼计算中心机房,原以为巨大房间里会屹立几座哄哄作响的「铁皮疙瘩」,结果出乎意料:一间仅50平米「小户型」,里面只有一台 Atlas900AI 集群( Atlas900PoD )。 一个集群共有8台机柜,中间五台是核心计算设备,每个机柜里塞进了八个计算节点,是100P 真正来源。最左边两个柜子其实是液冷分配器,决定液冷水输往哪个管道。最右边两个机柜负责高性能卡之间快速通信。 100P 是什么概念?1P 相当于每秒可进行一千万亿次运算,100P 大约相当于五万台高性能电脑的算力。就计算精度而言,100P 是指半精度( FP16)算力。 大模型时代有一个明显趋势,企业都是基于一些开源模型做微调,包括二次训练。「他们会跟我们要两个节点。几十亿参数规模的模型,一到两天就能训练完毕。」北京昇腾人工智能生态创新中心 CTO 杨光介绍说,计算中心目前有四十个节点,按照一家企业需要两个节点来算,可以同时服务二十多家。 绕到机柜身后,触摸背后的液冷门,感觉冰凉,大概只有十几个度。打开厚重的液冷门,依然可以感到热风袭来。只见每台服务器背后都有不少细长管子,直接通到服务器里: 从底部上来的液冷水经由这些管道与服务器进行热交换,带走热量,使温度下降,升温的液冷水回到冷却塔后,恢复以往温度。 整个过程都被封闭在液冷门里,关上门后,外面只剩嗖嗖的凉意。 得益于液冷技术,一台机柜可以塞进八个计算节点,传统运营商的一个机柜通常只能放一台,计算中心 PUE 也做到了1.15(多数地方要求是1.2以下)。 目前使用到中心算力的企业大概有36家,算力使用率的峰值可以到80%。长远来看,100P 只能算「起步价」,「企业业务对应到算力需求都很大。」北京格灵深瞳信息技术股份有限公司副总经理周瑞告诉我们,「像我们这样的企业,未来都是几倍的算力需求。」 今年,计算中心算力规模将达到400P,并持续扩容至1000P。100P 算力集群内置320张卡,以此类推,400P 算力集群将有1200多张卡,1000P 集群卡数将猛增到3200张。卡的数量激增,工程复杂度也会呈指数级增长,这对算力集群高可用性提出巨大挑战。 比如,模型训练一个多月,已经完成99%,突然有张卡出现故障,一切只能从头再来。高性能卡之间的通信问题、训练时无法快速调度到足够算力资源也常常导致训练断掉,之前的努力付诸东流。 为此,计算中心的集群系统提供断点续训能力:平台会保存临界点的 check point (权重文件),故障恢复之后,自动拉取一个非故障节点,将之前保存的权重文件加载进去,继续训练。 「我们最长的稳定时间能做到25天」杨光给了一个具体数字。作为对比,Meta 发布 OPT-175B 模型时曾提到它的稳定训练时间只有2.8天。 针对比较知名的开源大模型,计算中心的硬件水平可与英伟达 A100PK,千卡 NPU 利用率基本能做到40%。 「易用」与「普惠」:最难的是让企业用起来 除了算力资源充沛、数据安全,价格和易用性也是任何一家想要落地行业大模型企业选择算力底座时考虑的核心因素。 本质上,大模型是对小模型时代作坊式底层算力运作的重新洗牌。过去有一个工作站、几张显卡就能做模型训练,现在完全行不通。 「等了一秒钟,底层的模型才蹦出四、五个字,然后又是几秒的等待,体验很差。」在拜访未接入计算中心算力的企业后,中心工作人员介绍到:「如果接入计算中心的算力,大约每秒可以输出20个 Token 。」 从 Transformer 时代开始,主要面向智慧交通领域的中科视语就在做一些大模型的基础建设。对于这样一家智慧交通领域的成长型 AI 企业来说,自建机房训练大模型的前期资本投入过于巨大,周期也不可控。 去年,手握大几百张卡的格灵深瞳也开始与计算中心合作大模型的研发,「因为需要更加专业、系统的算力基础。」周瑞说。 为了做中国医疗领域最好的科学大模型,医渡科技已经买走了计算中心大部分算力。 其实,像中科视语、格灵深瞳、医渡科技这样人工智能企业都有自己的优势。他们往往拥有一支精细的 AI 团队、积累多年的行业数据和自己的知识图谱,知道怎么将这些「独家秘笈」、行业 know-how 与大模型更好地结合。至于算力与大模型强耦合的工作,他们更愿意交给更有经验的合作伙伴。 在这些方面,昇腾已经积累了二年多经验。北京昇腾人工智能生态创新中心 COO 李天哲说到,我们调优有很好的经验,系统级的工程上也做了很多的优化,保证机器的高可用。 在服务定价上,「我们不收回一次性投入数据中心的成本,只收运维的费用(比如电,水,物业等)。」李天哲说。价格相当于现在市场公有云、对外提供算力 IDC 价格的二分之一到三分之一,如果是门头沟区的企业,费用仅为云上企业的七分之一。 相较于算力充沛、高可用和普惠,计算中心面临的最大挑战还是基于国产、全栈自主可控算力系统的易用性。现在计算中心也通过两大服务,提升平台的易用性,尽量降低客户对国产底层硬件的感知。 一个是开源的大模型服务。在昇腾自主可控的全栈基础底座能力上,主动安排技术人员积极适配业界主流的开源大模型。 目前,计算中心基于昇思 MindSpore/MindFormers 套件,已成功适配 LLaMA、ChatGLM、Bloom、PanGuAlpha、GPT 等主流开源 NLP 大模型和 VIT、Swin 等主流开源 CV 大模型。 计算中心还做了很多兼容第三方的算子模型还有框架,甚至引入一些加速库和推理服务,服务上层不同框架、模型的 AI 应用。 现有基于其他系统研发的软件是否能容易地迁移到国产生态中,也是易用性的一个重要指标。为了让大模型方便地迁移到昇腾平台,计算中心也积极拥抱 Huggingface等开源社区,做了很多工具套件。比如,只需5行代码就能快速将模型从 Huggingface 迁移到计算中心。目前计算中心已经完成了超过200个 AI 模型的迁移。 第二个服务就是技术工程师提供贴身技术服务,包括支持训练、微调和在线推理服务( FaaS ,微调即服务)。 告诉我们你用的什么基础模型,把一些公开非涉密的数据上传到计算中心,不用企业再去做太多模型调优,我们就能帮你调好,一到两个月的时间就能交付。李天哲解释说,到时企业直接上来训练就行了。 「我们在门头沟有一个本地化的十几人团队专门做这种技术服务。」杨光说。现在,也在慢慢将一些上层应用封装成服务,我们对上层算法进行了部署,企业只需上传数据,就能立刻使用。 北京昇腾人工智能计算中心已经完成了超高清视频修复增强算法部署。 把脉趋势:为何百亿行业大模型先行? 作为计算中心第一批使用者,中科视语在这里完成了坤川大模型的研发及优化工作。 「我们的感知模型最新成果 FastSam,对标的是Meta提出的SAM(SegmentAnythingModel,SAM),在同等效果下,速度提升50倍,就是在门头沟区的计算中心实现的。」中科视语联合创始人张腊告诉大家。 公司视语通途®智慧交通解决方案在应用场景中实现精准感知、高效运算、快速检索等能力,也充分利用了昇腾 AI 能力。比如,基于针对 AI 场景推出的异构计算架构 CANN 及细粒度正则化模型压缩技术实现了模型高效推理;在 MindX SDK 帮助下,优化了业务效率。 医渡科技的行业模型也是本地企业与计算中心密切合作的典型例子。「我们希望做中国医疗领域最好的科学大模型,」医渡云首席数据科学家彭滔告诉我们。这家医疗 AI 技术公司已经嗅到大模型给医疗领域带来的巨大机遇:公司的业务场景会拆解成很多产品,它们都有可能被大模型的崭新能力升级一遍。 比如,一个新药从科学家研发到最后的上市,可能需要十五年时间、二十六亿美金,大部分花在临床实验上。其中,临床实验的执行阶段具有知识密集、时间地域跨度大、人员流动性强的特点,这也导致企业投入数亿美金,但执行结果往往像开盲盒。类似 ChatGPT 这样的技术可以将繁复的文档查询转化为一个问题,有利于实验执行阶段新进人员快速掌握背景知识,增加结果可控性。 医渡科技的行业大模型目前有两个版本(70亿、130亿),公司也在与计算中心合作,「调一些基座的模型,叠加数据进行持续的精进,通过轻量的工具达到更好的效果。」 彭滔说。医渡科技有自己的优势,积累了相当多的医学洞见和疾病知识图谱,也在不断尝试如何更好地将知识图谱与大模型相结合。 在智慧体感方面深耕的北京格灵深瞳信息技术股份有限公司与昇腾之间的合作已有5年之久。据格灵深瞳副总经理周瑞介绍,公司目前正在图像大模型预训练、微调以及计算加速等底层技术上与计算中心合作。另一方面,大模型落地方面也依托计算中心,提供推理服务。 格灵深瞳大规模沉浸式人机交互系统是一种可以提供沉浸式交互体验的空间型XR产品,游戏是其主要应用领域之一。 目前,计算中心在智慧能源、智慧医疗、智慧城市、智慧交通、智慧金融等行业输出基于昇腾 AI 基础软硬件平台的创新解决方案已经超过250项。 根据昇腾对大模型发展趋势的判断,未来千亿大模型会走向收敛,行业大模型将迎来百花齐放,其中,百亿级别的行业大模型大约占75%,构成算力需求主体,也是昇腾 AI 基座重点支撑的对象。 具体而言,大模型的第一个发展阶段是千亿级大模型。因为知识量非常庞大,它会是千亿训练、千亿推理,用一些高端的卡(像以前的训练卡)去做模型推理。落地场景可能会以2C 为主,就像 ChatGPT 、百度文心一言和讯飞星火大模型都有人机对话的功能。 对于2C 来讲,人工智能大模型还有很长的一段路要走,面对很多的用户量和算力需求,最终怎么落地,客户怎么付费?怎么降低推理成本?都是很大的挑战。 在第二阶段,会有大量分布在中长尾部分,面向行业的大模型。我们估计大部分是7B、13B 的模型,13B 可能会是一个面向行业的大模型主流规模。杨光解释道。因为,与千亿级的通用大模型相比,行业大模型的推理成本没那么高。一方面,行业知识量要求没有那么通用,参数量不用那么多。另一方面企业用户也会追求极致性价比。 人工智能要走向千行百业,百亿行业大模型的孵化可能会是爆发式,昇腾也因此选用一些百亿规模的行业模型作为算力产品的主要支撑对象。 众人拾柴,自然生长 目前,昇腾 AI 芯片已经孵化了30多个大模型,国内原创的大模型一半基于昇腾开发。 相比前大模型时代打造算力底座的繁琐,大模型对国产化平台来说,其实是一个利好。过去视觉领域的模型结构各异,数都数不过来。现在主流开源大模型也就五、六个,很多企业都是基于主流开源模型做改造和训练。 「所以,我们只要把 LLAMA 等几个主流开源大模型的支持做到极致,就能从金融、互联网走向千行百业。」杨光说。 不过,计算中心也认识到自己对这些开源大模型的支持,很难在第一时间完成拟合、适配,会有开发 bug 等问题。这也是他们对培育中国自己的开源社区、打造昇腾 AI 原生大模型抱以极大期待的原因。 我们还在今年推出了面向算子开发场景的昇腾 Ascend C 编程语言。「希望更多算法工程师能用昇腾 Ascend C 来写自己的算子。」杨光说。 计算中心也在与北京高校合作,通过创新大赛、合作创新课程等方式,让昇腾 AI 平台、Ascend C 为更多年轻人所熟悉,伴随他们的成长足迹,一路渗透到行业深处。 发展大模型,算力、模型、生态,缺一不可。昇腾底座能否成为更多行业客户的选择,还是要看企业是否感到好用,要看昇腾的生态,这并非单靠昇腾就能做起来,需要众人拾柴。 这里最关键的是时间,就跟农民种地一样,需要慢慢耕耘,自然生长。
iPhone 15 首发体验:刚需改善型手机,务实的浪漫主义
截止至发稿前,我仍有机会在苹果官网订购首发日到货的 iPhone 15 和 iPhone 15 Plus——在钛合金机身的 iPhone 15 Pro 反衬下,这一代常规升级的 iPhone 15 系列显得不太起眼,连官方宣传片也只有短短 48 秒,而 iPhone 15 Pro 的片子足足有 4 分钟。 iPhone 15 值得换吗,适合什么样的用户? 在深度体验了一段时间后,我想这个问题的答案显而易见: 这是一台刚需改善型手机,是不那么 Pro 但更好的 iPhone 14 Pro。 外观与性能 每一次苹果推出粉色 iPhone,都会是全场的目光焦点,iPhone 15 也不例外。 这一代 iPhone 数字系列延续了之前清新的配色风格,提供了黑色、蓝色、绿色、黄色、粉色五种颜色。虽然机身尺寸没有大的变化,但首次采用了融色玻璃工艺——这是一种新改良的玻璃着色工艺,背板玻璃先经过双离子交换工艺强化,再进行纳米结晶粒子抛光、蚀刻,让玻璃颜色更加清爽水灵,粉色尤其好看。 背板玻璃手感也贴近前几代 Pro 系列的哑光玻璃质感,摸起来还要更细腻一些,不容易沾染指纹,耐脏又耐看。另外,iPhone 的铝合金中框变得圆润贴手了,屏幕玻璃也做了弧边处理,回归到了 iPhone X 时期的设计,握持感更舒适,从正面到后盖,整机手感协调一致。 屏幕部分,最直观的升级就是 iPhone 15 全系配备灵动岛,经过一年的适配,大部分应用厂商已经摸清楚了这块区域的适用场景,听歌、外卖、打车、导航都是很实用的高频场景,比弹窗信息的触达更方便,也更有效。 10 年前,苹果收购了以色列 3D 体感技术公司 PrimeSense,在被收购前,这家公司最有名的产品是 Kinect,是微软 XBOX 360 游戏机专用的体感摄像头,比现在很多智能电视上的摄像头还要大好几倍。 6 年前,苹果发布了 iPhone X,倾尽当时最先进的供应链技术,把 Kinect 缩小几十倍,成为了屏幕上的「刘海」——原深感摄像头,实现了从 Touch ID 到 Face ID 的变迁。 去年,iPhone 14 Pro 系列采用了新的原深感摄像头模组,只有两个小拇指的指甲盖大小,并首次引入了灵动岛的交互设计。 经过六年的迭代,iPhone 终于将 Face ID 融入到 iOS 的交互之中,让 iPhone 实现了某种意义上的全面屏——屏幕交互趋于完整,每一个部分都能各司其职。 除了灵动岛之外,iPhone 15 的屏幕在亮度上相较 iPhone 14 提升明显,日常最大亮度从 800 尼特提升到了 1000 尼特,看 HDR 内容时峰值亮度可以到 1600 尼特,户外时峰值亮度最高可以到 2000 尼特,在绝大多数场景都能保持高可看性,户外大太阳下使用体验提升很明显,是一块除了缺少高刷新率之外已经无可指摘的好屏。 性能方面,由于芯片、内存都没有太大变化,iPhone 15 在性能上基本上和 iPhone 14 Pro 持平,还是 A16 仿生+6GB RAM 的配置,整体性能放在一众智能手机里仍处于领先水平,跑主流应用、游戏也都完全够用,但杀后台的情况仍时有发生。 续航能力基本上与上一代持平,iPhone 15 不太能够撑起一整天的续航,手机重度用户选择 Plus 版本可以有效缓解充电焦虑。 值得一提的是,这次 iPhone 15 终于换上了 USB-C 接口,充电确实方便多了,用 20W 以上的充电器即可激活快充,爱范儿实测充电功率最高可以到 25.7W。 虽然传输速率是 USB 2 的水平,最高只有 480Mb/s,但支持 DIsplayPort 协议,可以配合 USB-C 接口的 DP 线外接显示器使用,看个电影追个剧还是挺方便的。 除此之外,USB-C 接口还支持反向充电,可以用 iPhone 15 给 AirPods 或 Apple Watch 充电,4.5W 的充电功率不高,没电的时候倒是可以应应急。 总的来说,iPhone 15 的外观设计、屏幕表现、整机性能都比较出色,你可以发现过去几代 iPhone Pro 系列上的新技术、新功能都下放到了 iPhone 15 上,带来的好处感知非常明显,一上手就能有很好的体验。 影像系统 2 倍长焦镜头,曾经是许多人纠结 iPhone 买不买 Pro 型号的分水岭。随着 iPhone 主摄越来越广、长焦越来越长,更适合拍人像的 52mm 焦段越来越成为刚需。 苹果显然也意识到了这个问题,给 iPhone 15 全系列配上了主摄 2 倍焦段的变焦能力——希望用计算摄影实现「光学品质」。 实测下来,这个 2×焦段确实能堪重用。 首次是 iPhone 15 主摄规格的升级,采用了 4800 万像素的传感器和新的相机算法,在不变焦、不触发人像模式、夜间模式或闪光灯的情况下,可以对照片的分辨率进行控制,拍摄 1200 万像素、2400 万像素或 4800 万像素的照片。 iPhone 默认隐藏了这个选项,需要在「设置-相机-格式-分辨率控制」中手动开启,之后在取景上方画面中点击 HEIF MAX 选项即可开启 4800 万像素的最大分辨率,成像解析力提升非常明显,很适合风光摄影。 得益于 4800 万像素的传感器和 A16 仿生芯片的强大算力,即使是在主摄 2 倍变焦的情况下,也能保证有接近光学长焦镜头解析力。 ▲样张:48MP 样张对比 24MP 样张(图片有压缩) ▲ 样张:iPhone 15 白天室外样张(图片有压缩) ▲样张:iPhone 15 弱光室内样张(图片有压缩) ▲样张:iPhone 15 夜景模式样张(图片有压缩) 而全新的人像模式则大大降低了拍摄所需要的决策成本。 在 iOS 17 的加持下,相机会自动识别出画面主体并获取场景的空间信息,这时候取景画面角落会出现光圈符号 f 的标志,表示 iPhone 已经启动了人像模式,此时点击 f 即可预览人像模式的虚化效果,点击画面可以选取焦点。 当然,也可以直接进行拍摄,之后再对焦点、光圈进行调节,使用起来非常方便,过往用人像模式拍半天激活不出来的情况大大减少,对焦距离也能比光学长焦镜头更近一些,拍人像、静物都很合适。 ▲iPhone 15 焦点调节功能演示 ▲样张:iPhone 15 人物样张(人像模式开启) ▲样张:iPhone 15 静物样张(人像模式开启) 值得一提的是,iPhone 15 极其依赖计算摄影,能够同时在实况、人像、夜景等模式间切换,还会为照片添加各种优化算法,也就意味着拍照会是芯片计算量最大的场景之一,拍照时间一长手机会明显发热,这也是 iPhone 的老大难问题,只能寄希望于后续的系统更新能够改进了。 自 iPhone 7 Plus 发布以来,苹果就一直在探索计算摄影的潜能,我想 iPhone 15 上这个 2 倍长焦焦段、iPhone 15 Pro 上的 35mm 人文焦段,都是苹果计算摄影的最新成果。两个镜头的 iPhone 15,却有了超广角、广角、长焦三个焦段,而三个镜头的 iPhone 15 Pro,更是配备了七个焦段,从微距到超长焦一应俱全。 计算摄影的意义在于,用户做更少的决策,就能得到更多的选择。而支撑这一切的核心,是封装在 4nm 芯片中的一百多亿个晶体管,每按下一次快门,都意味着数以亿计的计算将在毫秒之间完成——这张照片应该激活实况照片还是人像模式,是白天还是夜景,是长焦还是微距——在看不见的地方,iPhone 已经完成了无数次选择,而最后呈现到用户面前的,则是一个个经典镜头焦段。 这是最有趣的部分,iPhone 更多用焦段而非场景来区分手机拍照模式,究其背后的原因,我想还是要回归到摄影的本源。计算摄影用算法解决了许多问题,但最终决定影像好坏的,永远不是算法,而是镜头背后的你。 结语:刚需改善型手机,务实的浪漫主义 自 iPhone 11 起,苹果就将手机产品线调整为数字系列和 Pro 系列。数字系列保障优秀的基础体验,这是一条名为 iPhone 的金线,通常是务实主义者的选择。而 Pro 系列则集行业之所长,新技术、新制程、新材质统统安排上,这是一种名为 iPhone 的憧憬,无论失望还是惊喜,都属于消费电子的浪漫主义。 浪漫主义的宏大叙事总是引人入胜,但务实主义总是让人安心的选择。在深度体验了 iPhone 15 之后,我越来越喜欢这代 iPhone 带来的踏实。这种踏实源于苹果不断夯实的技术壁垒——清爽水灵的机身设计、浑然一体的全面屏交互、4nm 制程芯片的强劲性能以及能堪重用的计算摄影系统,尽管新东西不多,但体验好不少。 做个不严谨的比对,iPhone 15 就是一台少了高刷屏幕和长焦镜头的 iPhone 14 Pro,起售价 5999 元,而目前 iPhone 14 Pro 目前已经从苹果官网下架,三方渠道的主流价格在 7500 左右。二者 1500 元价差,就是 iPhone Pro 系列这几年技术迭代带来的红利,当 iPhone 14 Pro 铅华推进,摇身一变成了 iPhone 15。 如果你手持 iPhone 13 或之前的手机,那 iPhone 15 我认为是一个相当实惠的选择,前几代数字系列 iPhone 遭人诟病的长焦镜头、屏幕表现等短板都一次补齐,考虑到以旧换新(我手头 256GB 的 iPhone 12 Pro Max 可以折扣 3500 元,价格还算不错)以及 24 期免息分期付款的折扣力度,iPhone 15 的换机门槛确实也来到新低。 这也是我认为 iPhone 15 是刚需改善型手机的原因,这不是一部适合追新的 iPhone,确实也没有太多创新点可言。可这也是几番迭代后,体验最好的 iPhone 基础款,无论体验还是价格,都是实实在在的。 我想,这也是一种务实的浪漫主义。 本文作者:肖钦鹏
荣耀V Purse折叠屏手机发布:8.6毫米刷新轻薄纪录 售价5999元起
凤凰网科技讯 9月19日,荣耀今日在上海举行新品发布会,此前在德国IFA消费电子展上发布的荣耀V Purse钱包折叠屏手机在国内正式发布。该手机首创钱包折叠屏形态,闭合状态下机身厚度8.6mm,展开状态下厚度4.3mm,整机重量214g,打破了由荣耀Magic V2保持的9.9mm行业纪录,售价5999元起。 荣耀V Purse的设计灵感源自法国芳登广场,以钱包折叠屏的独特形态助力消费者实现个性化的自我表达。手机的不同配色借鉴了经典腕表的纽索饰纹,或提供了经典奢品的Swift牛皮纹和Togo荔枝纹,为用户带来了典雅舒适的感官享受。 荣耀V Purse的屏幕正面、背面以及侧面可以分别显示个性内容,独立表达。通过更换或自定义风格迥异的壁纸,荣耀V Purse就成为可穿戴的时尚单品;而侧边显示,可自定义展现个人状态、社交宣言,内心独白等手机“个性签名”。 荣耀V Purse的展开键提示音也可以选择不同的声音和效果,甚至可以自己录制,打造出与众不同的个性风格。 荣耀V Purse采用外折形态,带来了前后双屏拍摄体验。5000万像素超自由写真相机,抬手一翻就能轻松实现主摄自拍。得益于HONOR Image Engine计算影像平台全新升级的AI人像肤色算法,让荣耀V Purse实现人像拍照体验的全面升维。 荣耀V Purse的铰链组件从高端腕表中汲取灵感,首次采用了荣耀蝶翼铰链和自研游丝结构,使得铰链厚度仅有2.98mm,同时铰链的强度提升了400%。此外,荣耀V Purse还采用了自研盾构钢材料,不仅减轻了手机的重量,还提高了其强度。 为了在轻薄的同时保证耐用性,荣耀V Purse采用了“四重柔性装甲”解决方案,包括保护层、缓冲层、支撑层和防护层,提高了手机的防刮性能,使其具备强耐磨度。荣耀V Purse还获得了瑞士SGS五星级整机抗跌耐摔能力认证和瑞士SGS五星级屏幕抗冲击能力认证。全新硅碳负极电池技术,带来仅2.3mm如卡片般超薄体积和低电压超稳定性的“双升级”,高达4500mAh的电量,在轻薄的同时也能提供持久的续航体验。 荣耀V Purse提供了山茶金、冰川蓝、雅黑色三种配色,分别售价为5999元(16GB+256GB版本)和6599元(16GB+512GB版本)。预售将于9月19日21:00开始,在荣耀商城、各大授权电商、荣耀体验店及授权零售门店开启,9月26日10:08正式开售。
机器人降本增效福音!AMD甩出系统模块利器,大降能耗成本,新手也能速成
作者 | ZeR0 编辑 | 漠影 智东西9月19日报道,刚刚,AMD宣布面向工业和商业的边缘应用,推出重磅新品AMD Kria K24系统级模块(SOM),并同步发布与K24 SOM配套的KD240驱动器入门套件。 这是Kria系列自适应SOM及开发者套件产品组合的最新力作。相比AMD的消费级芯片、服务器芯片,“系统级模块”可能相对不那么耳熟而详,这是AMD近年来一直在布局的一步重棋——对于一些有业务门槛的市场,如果客户想根据业务来设计自家芯片,那么系统模块会是一种更高效的选择,能够显著降低设计门槛。 作为小尺寸嵌入式板卡级设计,K24 SOMl可直接插入最终产品进行部署。值得一提的是,借助InFO封装技术,AMD将Kria K24 SOM的尺寸缩至只有信用卡一半大小,同时功耗也是连接器相兼容的更大尺寸Kria K26 SOM的一半。 ▲Kria K24 SOM 据AMD工业、视觉、医疗与科学高级总监Chetan Khona在媒体沟通会上分享,目前全球只有两家公司获得了这样的技术。 尤其在工业、医疗设备等大量依赖电力的场景,作为各种电器或机械动力源的电机,是最常见且最关键的设备之一。而K24 SOM能够支持下图所示所有类型的电机,包括最受欢迎的无刷直流电机,以及无刷直流电机中最有名的伺服电机。 Chetan Khona告诉智东西,在工业物联网时代,经常需要多项任务同时进行,电机控制系统也需同时处理多轴,而Kria产品的一大优势便是能将多轴集成,以此来控制成本。 其他优势还包括低功耗、低时延、高确定性等,这使得K24 SOM能够在需要密集数字信号处理和传感融合的应用场景中大展身手,出色地应对DSP相关应用以及与之相配套适应的设计流程。 ▲AMD工业、视觉、医疗与科学高级总监Chetan Khona 一、大降工业能耗与电力成本,AMD甩出系统模块妙招 机器人开发常被称为系统集成的艺术,这是因为其开发非常复杂,开发者很难自己开发所有要素,经常需要使用一些预购器件和元素。也正因此,无论是工厂自动化机器人、仓储机器人还是其他工业机器人,都是Kria SOM能够发挥核心优势的核心应用场景之一。 在工业场景,电机正源源不断地带来了惊人的用电量——根据国际能源署调查,电机足足消耗了全球工业能源总用量的约2/3。 要将扭矩、速度及应变速达到最大,同时使能耗降到最低,离不开电机驱动系统。在迫在眉睫的节能减排之下,如何从电机驱动系统来优化复杂电机的控制系统以及控制电机的电度,已经日渐成为控制用电量的一项焦点议题。 Kria K24 SOM,便是AMD交出的最新答卷。 电机驱动系统有三要素:驱动器、电子电力器件、电机。电机本身一般是带磁的;有些电机是和驱动放在一起的,和电子电力器件是分开的;也有一些小的伺服电机,把所有的三个部分都放在一起,形成一个单元。而K24 SOM非常灵活,能够支持所有的布局。 ▲Kria K24 SOM 在工业4.0时代,电机控制系统的职能不仅是控制电机这么简单。如果微控制器(MCU)只是控制一个单轴的电机,它能够不错地完成。但工业物联网的大环境中,经常有多项任务需要同时进行,电机控制系统也需要处理很多的轴,还要顾及功能安全、网络安全、人工智能(AI)、预测性维护等等。 面临这些复杂的需求,MCU就撑不住了。相比之下,集成了自适应计算技术的K24 SOM不仅具备将多轴集成的优势,还能够支持以上所述的所有功能,能够提供适应多类应用的灵活性。 K24 SOM提供了高水平确定性和低时延,适合为边缘端计算密集型数字信号处理(DSP)应用中的电气传动和电机控制器供电。用户可以用它来降低能耗、增加扭矩及优化其它性能,以及进行预测性维护和OTA、降低噪音和震动,提升电机的生命周期。 不止是工业机器人,从公共交通、电动汽车充电站到其他发电系统,从手术机器人、磁共振成像(MRI)床体等医疗设备到农业空中系统,电机无处不在,并涉及到密集的数字信号处理以及器件上采集数据的融合,这些都给K24 SOM带来了巨大的市场需求。 二、以小尺寸提供高能效计算,支持运行深度学习AI推理 Kria K24 SOM是一个基于Arm处理器系统的可编程逻辑器件(FPGA),提供工业和商业两种版本,专为10年工业生命周期而打造。除了支持扩展的温度范围,工业级SOM还包括用于高可靠性系统的具有ECC保护的LPDDR4内存。 新推出的K24 SOM是之前的K26 SOM的补充,基于同样的Zynq UltraScale+ MPSoC架构,同样内置A53四核和双R5F处理器,连接器与K26 SOM兼容。这样设计的好处是具备可扩展性,可以实现K24 SOM和K26 SOM之间无缝迁移,而不需要让客户更换板卡。 相比K26 SOM,K24 SOM对于关注小尺寸、低功耗、低成本的需求是更理想的选择。 由于采用了集成扇出(InFO,Integrated Fan-Out)封装技术,实现了更小型封装MPSoC器件,K24 SOM更加紧凑,尺寸只有信用卡大小的一半,与此同时,功耗也是连接器相兼容的更大尺寸Kria K26 SOM的一半。 K24 SOM采用的MPSoC架构,在提供多功能性和自适应计算能力的基础上实现了混合关键性,即可以轻易控制不同任务间的优先级,也可以通过使用MPSoC来确保功能安全性,提升网络安全,还内置有人机界面(HMI)。 可编程的I/O接口使其能与环境、方向、视觉等传感器进行连接。K24 SOM能够支持从EtherCAT到TSN的40多种工业互联网标准,并支持最新的22.04 Ubuntu OS,I/O接口数量比K26 SOM少,LPDDR数量是K26的一半。工业级K24 SOM的2GB LPDDR4支持ECC内存,还支持AI推理深度神经网络处理单元。 Chetan Khona告诉智东西,Kria SOM本身对AI的处理能力很强,但现阶段会更侧重于处理嵌入式应用中其他先进、复杂的任务。他也分享了生成式AI在工业场景的发展近况:当前生成式AI模型还没有在工业场景中运用于嵌入式的应用,这类应用可能会随着时间的推移在未来出现。 三、自适应技术四大优势加持,如何助攻电机实现最佳功效? 相比嵌入式计算中的其他架构,像FPGA这样的自适应技术有四大优势: 第一,低时延。处理相同任务时,传统DSP的处理方式动辄需要200个时钟周期,而基于FPGA的自适应SoC是完全并行的,只需1个时钟周期就能完成200次操作,所以能带来时延优势。 第二,低功耗。相比传统方式,FPGA的时钟速度可以更慢,也更省电,200 MHz即可。 第三,灵活应变性。开发者可以在功耗、时间及时钟速度方面进行取舍,即实现时分复用,例如能根据具体任务进行调整,不需要在1个时钟周期内完全200次操作,只要在4个时钟周期内进行200次操作。 第四,独立性。如果是多访问的电机控制应用,用一个电路来控制多个电机会稀释性能,这时就更适合用FPGA硬件来控制回路。 Chetan Khona认为,要通过控制算法和控制流程的优化来实现电机的最佳功效,仅靠控制电机的算法是不够的。 首先要优化电子电力器件材料,比如采用碳化硅、氮化镓等等。这将有助于提升切换的速度,尤其是对DSP能力要求非常高的场景,在这种情况下使用K24 SOM能更好地提升能效。 其次,电子电力器件的颗粒度控制和速度至关重要,能够提升电源响应、能源消耗等情况,K24 SOM相关技术也能够解决这方面的问题。 第三,有电机控制算法方面的专业知识。AMD有两个解决方案:一是正在建立自己的电机实验室,二是和行业伙伴一起开发和完善生态系统,并以此提供一些电机控制的素材。 据Chetan Khona分享,在功能安全性方面,通过K24 SOM可以实现很多功能整合,无论是将两个单芯片合成一个芯片,还是做电机的多种整合,都能在整个系统层面大幅降低能耗和成本。 四、搭配KD240驱动器入门套件,简化DSP开发并加速设计周期 与K24 SOM配套的KD240驱动器入门套件是一款价格399美元、基于FPGA的电机控制套件,其功耗大约在5到10瓦范畴,具体要看电机的负载情况。 该入门套件的主要特点是开箱即用,基于电机控制的开发平台使用。开发者不需要具备FPGA编程专业知识,就能在等待客户构建硬件期间,先用这个入门套件来进行K24 SOM的开发,如果是电机控制,不到1小时即可完成启动过程,因此能让开发者能更快介入开发流程,加快电机控制和DSP应用上市进程。 与其它基于处理器的控制套件相比,KD240支持开发人员在设计周期中更为成熟的节点入手,使入门级人员也能轻松使用。 AMD早先发布的KR260可以用于机器人的行动和传动,KV260是视觉AI,可以用于摄像头与系统中的视觉来辅助导航。而今日发布的KD240驱动器入门套件则可以看作是机器人的肌肉,用来控制机器人的行动和传动。 ▲机械臂混合使用K26 SOM和K24 SOM KD240的大小和之前发布的入门套件相当,顶端有micro SD、多个USB、以太网、CAN的接口,右侧和底部有跟电机、传感器的连接接口,左下角是主要是用于扩展的Pmod。 通过推出KD240入门套件,AMD率先提供了预构建的电机控制应用,使用户能够创建可靠、可用且具有高级安全功能的高能效工业解决方案。KD240由可选的电机配件包(MACCP)提供支持,未来还将提供可单独购买的附加电机套件,为开发人员带来强化的加速体验。 据悉,用于量产的商业版K24 SOM和KD240驱动器入门套件现在起直接可订购,也可以通过全球渠道分销商订购。K24 SOM商业版、KD240电机配件包即日上市,工业版K24 SOM预计今年年底前供货。 五、软件开发门槛一降再降,不懂FPGA也能快速上手 在打造高性能和自适应产品方面,AMD为AI开发者、软件开发人员、硬件开发人员持续降低开发门槛所做的种种努力,对于很多芯片企业来说都具有参考价值。 考虑到一些开发人员并没有接触过自适应计算,或者不熟悉FPGA设计流程,AMD Kira系列产品支持Python、MATLAB Simulink、ROS2、AI框架等非自适应计算的工具,并推出面向边缘应用的应用商店(App Store),让不具备传统FPGA专业知识的客户也能轻松上手。 K24 SOM能够支持的范畴包括Python等语言、控制系统开发人员经常使用的MATLAB Simulink等常见的设计工具,PYNQ框架广泛的生态系统,并支持Ubuntu操作系统和Docker等引擎。软件开发人员也可在使用AMD Vitis电机控制库的同时,保持对传统开发流程的支持。 其另一大特色在于应用商店,里面提供了很多的参考设计,方便用户下载或参考,从KV260到KR260、KD240,AMD预计今年年底会有超过25款应用在这个应用商店里推出。 机器人公司Rev Robotics的首席执行官Greg Needel对Kria SOM给予了高度评价:“借助Kria SOM,我们能够简化高级控制环路算法的开发,适应不断变化的软件与硬件需求,并为商业和STEM教育客户构建真正炫酷的产品。” Rev Robotics 2合1电机套件配件能帮助用户实现不同的KD240设置,可制作一个简易的机械臂,同时配备可选视觉AI的射球器,能和USB摄像头进行连接,用AI帮助瞄准。该配件将在今年晚些时候问世。 结语:“互补性”布局+“组合拳”打法,横扫工业及商业边缘应用的多元需求 “AMD Kria K24 SOM和KD240开发平台建立在Kria SOM产品组合带来的突破性设计体验之上,为机器人、控制、视觉AI和DSP应用提供了解决方案。”AMD核心垂直市场副总裁Hanneke Krekels总结说,“系统架构师必须满足日益增长的性能和能效需求,同时还要降低成本。K24 SOM能以小尺寸提供高每瓦性能,并将嵌入式处理系统的核心组件安装在单块量产就绪型板卡上,以加速上市进程。” 从Kria产品组合的布局可以看到,AMD并不急于迭代同类产品的迭代升级版本,而是更多基于互补原则,循序渐进地推出能够通过组合拳满足更广泛应用需求的不同定位产品,包括三个入门套件以及K24 SOM和K26 SOM两个量产型SOM。 无论是考虑多功能、易用性还是降低工业能耗,AMD最新推出的高能效K24 SOM都为电机控制及数字信号处理提供了一个优异的解决方案。再加上其带来的可扩展特征,有望在整个Kria产品组合产生一个重塑效应,进而为工业及商业边缘应用产生的多元化需求提供更适配的支撑。
曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中
编译 | 陈佳慧 编辑 | 徐珊 智东西9月19日消息,据The Information报道,OpenAI意图赶在谷歌推出多模态大语言模型Gemini前,发布其多模态大语言模型GPT-Vision。而后,OpenAI或许会推出一个更强大的多模态大模型,代号为Gobi。 今年3月OpenAI发布的GPT-4已经融入了部分多模态功能,相较于GPT-3.5只能接受文本输入,GPT-4还可以接受图像输入,但该视觉输入性能并不开放使用。而Gobi与GPT-4不同,Gobi从一开始就是按多模态模型构建的,可以接受更多类型的信息输入并做出相应的处理。 OpenAI与谷歌将多模态功能纳入大语言模型,可以将图像、文字、音频等不同形式的数据整合起来,让大语言模型更准确、更全面地处理用户所给信息,为用户提供便利。据The Information报道,OpenAI与谷歌的多模态大语言模型之争,就像AI领域的苹果与安卓之争。这或许预示着AI大模型领域未来的发展趋势,同时也是OpenAI与谷歌抢占这项新技术的首发先机,提高用户影响力和技术引领地位的重要竞赛。 一、Gobi VS Gemini,OpenAI与谷歌多模态大语言模型赛跑 此前有报道称,谷歌即将推出Gemini,并且已经向一小批外部公司分享了这个项目。但据知情人士透露,OpenAI正在争分夺秒地把公司最先进的GPT-4与多模态功能相结合,想要抢在谷歌之前发布Gobi。并且,OpenAI在今年3月发布GPT-4时,就对GPT-4中融入的多模态功能进行了预展示。不过,根据The Information报道,OpenAI还没有开始训练Gobi,因此现在还不知道Gobi最终能否成为GPT-5。 对于OpenAI能否在多模态大语言模型方面超越谷歌,据The Information报道,目前,谷歌拥有来自谷歌搜索引擎和YouTube等平台的文本、图像、音频、视频等专有数据,这是谷歌相较于OpenAI发展多模态大语言模型的一项特殊优势。并且一位使用过Gemini早期版本的人士说,与现有的各种大语言模型相比,Gemini产生的错误答案似乎更少。 ▲OpenAI联合创始人Greg Brockman演示GPT-4中的多模态功能(来源:OpenAI官网) 二、多模态功能肩负重任,被滥用的信息安全问题值得重视 在3月发布GPT-4预览多模态功能时,除了为盲人或低视力者开发技术的Be My Eyes公司,OpenAI没有给其它公司提供多模态功能。到现在,OpenAI才准备在更大范围内推出被称为GPT-Vision的功能。据The Information报道,OpenAI可能会在GPT-Vision之后再推出Gobi。 根据The Information报道,OpenAI之所以耗费大量时间来推出Gobi,主要是担心新的视觉功能会被坏人利用,例如通过自动解决验证码来冒充人类,或者通过人脸识别追踪人们。但现在,OpenAI的工程师们似乎想到办法来缓解这个安全问题了。 谷歌的Gemini也面临同样的问题,当谷歌被问到采取了哪些措施防止Gemini被滥用时,谷歌的一位发言人称,谷歌在7月份做出过一系列承诺,以确保对其所有产品进行负责任的AI开发。 ▲谷歌的新多模态大语言模型Gemini 结语:多模态大模型之争或成下个AIGC焦点 多模态功能正被不断融入大语言模型,以提高大语言模型分析的精准度。如今,因ChatGPT名声大噪的OpenAI与AI老牌公司谷歌都致力于开发多模态大语言模型,可见其或许将成为AI大模型发展的未来趋势。 据The Information报道,这场OpenAI与谷歌的竞赛类似于AI版的苹果与安卓之争,而未来Gobi与Gemini的到来,将揭示OpenAI和谷歌的竞赛结果。 多模态大模型作为当前AI大模型领域的最新进展,OpenAI与谷歌之间的多模态大模型之争不仅是科技竞争的焦点,也可能引发全球范围内关于技术应用、合作、监管和伦理等方面的重要讨论。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。