EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
深扒麦当劳对讲机,除了国产芯,还有个500亿市场
临近六一儿童节,麦当劳推出的限量版玩具麦麦对讲机又接住了“泼天流量”。限量50万对,全网大朋友小朋友都抢疯了,一开售在线上线下迅速售罄,原价38元被黄牛炒至300元。 手持经典麦乐鸡块和薯条的独特造型,可在300米内进行通讯联络,“薯条薯条,我是鸡块”,“鸡块收到!”,消费者在社交媒体分享自己的趣味体验,迅速形成病毒式传播。某电商平台上,有店铺的麦当劳对讲机链接显示已卖出上万件,售价为54-88元,3日内吸金超54万元。 来源:网络 有网友拆开麦当劳对讲机,发现内部的射频收发和MCU都是国产芯片,而在网上购买对讲机主板,量大可以做到仅1.5元一块。套上“鸡块”和“薯条”的壳子,品牌力加上饥饿营销,得以让麦麦对讲机实现身价飙升。有芯片方案商表示,整个成本最多不超过15元。 5月29日,麦当劳表示麦麦对讲机正在加急补货20万份,预计在6月底陆续发货。不少放弃抢购的大小朋友,开始陆续讨论和选择其他玩具对讲机/民用对讲机。某义乌爆款玩具工厂表示,麦麦对讲机正在爆单赶货中。在某宝和拼夕夕,已经大量上线预售7-15天的同款麦麦对讲机,估计不少商家们都在火速开模量产,包括华强北的电路板方案商。 来源:网络 麦麦对讲机爆火,背后的对讲机产业是什么样的?陡然“出圈”的对讲机市场,谁能从中受益? 01 华强北诞生了一个对讲机龙头 麦麦对讲机一火,大家盲猜,一贯高效的华强北又要蹭一波商机了。华强北听罢,笑而不语。 中国对讲机产业的发展,离不开深圳华强北。国内对讲机龙头海能达就是在深圳华强北的“一米柜台”中诞生,另一家科立讯也是在华强北做大做强。 1992年陈清州来到华强北,创立海能达的前身好易通科技有限公司,并租了个“一米柜台”卖进口品牌对讲机,吸引了许多老乡同行聚集在此。1994年,华强北有了专门的通信市场,售卖电话机、无绳电话、对讲机等,琳琅满目。 陈清州是泉州人,泉州不仅是古代海上丝绸之路的起点,还是现代“对讲机之乡”,我国对讲机发源地,全球对讲机重要的“生产基地”和“销售集散地”,2016年泉州销售对讲机2000万台,占全球70%以上的市场份额,到了2018年,泉州每年生产对讲机约3000万台,产量占全国总产量的80%,每年产值约30亿元。 早在1972年泉州就创办了泉州半导体器件厂,同期创办的还有泉州无线电元件厂、泉州电子仪器厂。后来集聚了一大批来自各个研究所和高校的技术人员,泉州半导体厂成为国内起步较早的微波电路专业化工厂,实现了前期研发到自主生产。1975年后,泉州半导体厂的微波电路能生产17个系列、200多种产品。 80年代,大功率无绳电话进入中国市场 ,覆盖广泛,俗称“黑珍珠”,或者“二哥大”、“大无绳”。它接听不要钱,对外打电话只是座机花费。后来的BP机搭配一个“黑珍珠”回电话变得非常方便。“黑珍珠”彻底满足了手持机与手持机之间、手持机与母机之间通讯,还可以直接拨打免费电话。 对讲机巨头美国眼镜蛇公司1980年代的无绳电话广告,来源: 最牛博弈 泉州迅速抓住大功率无绳电话的热潮,时值80年代改革开放后深圳、福建的现代电子产业兴起,以泉州南安市霞美镇为中心,许多小电子厂开始制造各种类型的无绳电话子机和对讲机,部分芯片从中国台湾和日本购买,并逐步采用大陆产器件。 从泉州制造到华强北销售,中国现代对讲机产业迎来了大爆发。 但到了90年代中期,由于“黑珍珠”大量使用,对广播电视、航空无线通信等业务带来干扰,国家对大功率无绳电话严格限制,大家生意就不好做了。 此后,虽然国家一方面严格限制无绳电话的发射功率,但另一方面也不忘大力发展正规的对讲机产业。 如今我国已经成为全球对讲机的重要的生产地区之一,尚普咨询集团数据显示,对讲机生产端,2022年中国、北美和东南亚分别占有41.96%、20.21%和23.91%的市场份额,预计未来几年,中国地区将保持最快增速,预计2029年份额将达到43.04%。 (芯世相注:此生产份额应为产值占比) 02 500亿对讲机市场超七成在中国生产 和手机类似,对讲机的通话也经过接收输入—处理信息 (将输入编码成信号) —发送信号这一过程。收音机可以接收空气中的通信信号 (电波) ,而英文“two-way radio”指的就是双向无线电通信或者对讲机,既能接收电波,又能发送电波。其中功率较小、体积较小且可随身携带的对讲机则被称为“手持对讲机”。 不过,对讲机一般不依赖网络,不产生通话费,通话成本低且不受网络限制,而且一按下通话键就可通话,无需等待对方接听,非常适合需要快速响应的场景。在公共安全、生产调度、工程施工等许多不同的场景和业务中被广泛应用,服务石油化工、酒店餐厅、学校等单位,应用量大面广。 来源:对讲机世界 根据搭载的通信技术不同,可以分为数字对讲机、模拟对讲机及公网对讲机。按设备领域,分为民用和专业两大类。 数字对讲机和公网对讲机用的都是数据化的通讯模式,而模拟对讲机需要将语音、信令以连续波方式调制到对讲机载频上,并经过放大优化处理。 数字对讲机性能明显优于模拟对讲机和公网对讲机,其市场占比最大 ,2022年占全球46.02%的市场份额。随着专网通信设备应用的普及,频率资源紧张,用户需求不断提升,使用环境越来越复杂等问题,中高端客户将更倾向于使用数字产品。但由于模拟产品技术成熟、价格有优势、市场存量大,对国内的工商业用户和公共事业用户仍有明显的吸引力,“模转数”仍是一个渐进的过程。 由于麦当劳对讲机电路板价格成本极低,满足消费者基础功能需求,大概率是模拟对讲机。其射频输出功率 ≤10mW,频率409.9MHz,也是妥妥的民用对讲机。 根据我国法律规定,不同用途的无线电必须使用不同的频率,因此无线电频谱属于国家战略资源,不能随意使用。民用对讲机的频段在409-410MHz,功率低于0.5W。这是中国信产部于2001年12月6日宣布开放民用对讲机市场时规定的,其开放的频段为409-410MHz,共分20个频道,称为“公众频道”,这个段是开放和免费使用的。 专业对讲机 根据场景分,城市使用U段 (400-470MHz) ,旷野和海面使用V段 (136-174MHz) 。注意,专业段必须执当地 (地市级) 无线电管理委员会执照才能合法使用,并且要年审,其中铁路专用的频率有照无照使用都是违法的。 而机器本身,需要经过国家无线电管理机构核准,确定机器性能参数符合法律要求,才允许合法售卖。麦当劳对讲机就取得了工信部核准。 来源: XANYITOP 对讲机产业链并不复杂,上游是外壳、主机电路板、电池等,中游是对讲机厂商、对讲机代工厂商等,国际大牌的对讲机有不少是在中国代工制造,下游就是它的应用领域,涵盖范围非常广泛。 尚普咨询集团数据显示,2022年,全球对讲机市场规模达到了53.1亿美元,预计2029年将达到70.3亿美元,年复合增长率 (CAGR) 为4.35%。目前亚太地区是全球最大的消费市场,2022年占有43.37%的市场份额,预计未来几年,中国地区增长最快,2023-2029期间CAGR大约为4.73%。 摩托罗拉 位于专业通信领域的第一梯队,是全球对讲机行业领头羊,主导全球主要专业无线通信技术标准的制定,占领了行业的高端市场。按照2022年销售数量计算,摩托罗拉在专业对讲机市场的份额达到53%,海能达占据25%的市场份额,建伍的市场份额约为9%。 第二梯队,目前我国海能达、艾克慕、科立讯、欧宇航等对讲机厂商具有自己的核心技术,它们在某些细分市场与摩托罗拉展开竞争,取得了良好的市场业绩。 专业领域和商业领域是对讲机的两大市场 ,民用领域市场较小。数据显示,2022年我国对讲机专业领域 (政府、公安、铁道等部门) 需求规模21.94亿元,占比43.02%;商业领域 (安保、出租车等) 需求规模22.53亿元,占比44.18%;民用领域 (物业等) 需求规模6.53亿元,占比为12.80%。如上所述,摩托罗拉、海能达与建伍三家厂商垄断了绝大多数专业对讲机市场份额。 至于中国市场,海能达凭借本土优势,2022年份额达到50%,摩托罗拉为30%。 对讲机厂商进入的应用领域很大程度上决定厂商产品的均价。全球主要厂商对讲机设备的均价在81.3美元/台,其中Tait Communications的均价最高,达到236.6美元/台,海能达与Entel Group紧随其后,分别为161.3美元/台和157.1美元/台。 来源:头豹研究院 中国厂商 的产品均价 (除海能达其余中国厂商均低于70美元/台) 大幅低于海外厂商,往往处于第三梯队,通常没有自己的核心技术,一般采取低价营销、低成本竞争的策略获取市场份额,在本土价格敏感度高、数量众多的工商业领域中低端客户中占据一定的市场份额。如福建宝锋电子,以出售模拟对讲机为主,单价仅为7.3美元/台。 03 谁在受益?有哪些“芯”机会? 对讲机主板是对讲机的核心部件,主要芯片包括系统级芯片、MCU、收发芯片、存储芯片、调度芯片、电源管理芯片、LCD驱动芯片等等。 对讲机的收发芯片或系统级芯片,是对讲机主板的重要组成部分,是影响对讲机性能的关键因素。 一颗射频收发芯片由低噪声放大器、混频器、射频、中频和镜像频率抑制滤波器、压控振荡器等组成,成品集成化程度越来越高,多模化已是硬性要求,因此CMOS集成工艺极为复杂和困难。中国和美国垄断大部分射频收发芯片专利,特别是中国在国内拥有庞大的射频收发芯片布局,但输出专利较少,射频收发芯片也是国产极难突破的领域。 在窄带对讲系统级芯片中,我国的上海博通集成和深圳力同科技是两大佼佼者,在不少市售的对讲机里面可以看到它们的影子。 博通集成是我国无线连接芯片设计领域上市企业,在博通集成的官网,可以看到博通集成研发了各类对讲机收发器,覆盖玩具对讲机、支持全球个人无线电多频段对讲机等,相关系列包括BK4802 (玩具) 、BK481x 和 BK482x、BK481x 和 BK482x。麦当劳对讲机采用了博通集成的对讲机收发芯片BK4802。 力同科技是对讲机芯片提供商,拥有SoC芯片设计、软件无线电设计及宽窄融合通讯系统等关键技术和知识产权。力同科技也发布了自己的专网通信终端产品,涵盖各类数字和模拟对讲机,它还是各类对讲机企业的重要供应商。小米对讲机2S采用了力同AT1846S射频收发芯片。 全球射频收发领域的强者,分为两类,一类是依托基频平台,将收发器作为平台的一部分,如德州仪器、高通、恩智浦、联发科,另一类则是专业射频厂商,不依赖基频平台拓展收发芯片市场,如英飞凌、意法半导体、RFMD、Skyworks。 MCU,负责控制对讲机的各项功能,在电路板中价值量也比较大。 麦麦对讲机搭载了一颗来自辉芒微电子的8位MCU FT60E011A做主控。 来源:BH9DWE、BI1OHI 有开发者基于NXP双核MCU——LPC54114,采用Silicon Labs的射频模块方案SI4463开发了无线数字对讲机,广泛应用于餐饮点菜机、工业应用、人员搜救等。 来源:网络 宝锋DM-5R数字对讲机 (专业对讲机) ,频率范围为VHF:136-174MHz ,UHF: 400-470MHz,MCU用的也是NXP的芯片,为MK22FN512,采用浙江宏睿通信的HR_C6000电梯专用全双工数字对讲模块 (定位高端应用) ,收发器用的力同AT1846S,EEPROM用的K24C512,功放来自TDA2822,FLASH是华邦的25Q800。其余包括辰达半导体的肖特基二极管 SS110F、UN (友恩) 5W充电方案U6215B等等。 2017年小米发布的米家对讲机,采用意法半导体STM32F070RB的MCU,力同的AT1846S 单芯片收发器,德州仪器的LM2904 通用型运算放大器,德州仪器的BQ24092充电管理IC,盛群型号为HT9032的主叫线路识别接收器。 小米最新的2S对讲机,发射功率:4W,频段:业余U段,频率范围:430.000MHz-440.000MHz。搭载了泰凌微的TLSR9515多标准无线SoC,单芯片集成了32位RISC-V MCU、DSP、无线电、闪存、模拟和数字麦克风输入等多项功能;采用AUCTUS力同AT1846S射频收发芯片,圣邦微SGM4890音频功率放大器、SGM41513电源管理芯片、SGM3132背光调光芯片,韦尔半导体ESD56241D18 TVS保护管,思瑞浦TP1542A双运算放大器,博通集成的BK1080调频接收机等。 从以上对讲机电路板的芯片品牌可以看到,对讲机相关芯片的国产化率已经是大势所趋。 借助麦麦对讲机这个爆品,芯片方案商们瞄准商机,可以大展身手复刻或开发新的电路板 (外壳抄袭为侵权,不提倡) 。当然,这给大家开发新的玩具对讲机提供了无限想象,市面上已经有不少例子,比如售价299元的迪士尼对讲机,大量不到百元的白牌玩具对讲机等等。值得注意的是,玩具对讲机也需要取得国家无线电管理机构核准才允许合法售卖。 04 结语 对讲机相对手机市场已经是非常小众了,而它们往往就在我们身边,安保、餐饮、酒店、娱乐等行业随处可见,作为一种古老而又坚韧的通信工具,通过麦当劳这个流行文化制造机彻底打入公众视线,助推了大家对业余无线电的兴趣爱好。 从可达鸭到麦乐鸡再到对讲机,麦当劳的走红不可复制,主打一个快进快出,生命周期很短。 根据IPS CG,以微博为例,监测期内,“麦当劳对讲机玩具被炒至300元”事件在微博平台声量高峰出现在2024-05-27,此后几天热度明显下降。 来源:IPS CG 可以看出给背后相关厂商的时间并不多,甚至还没出货,就要对热度骤降做好准备。目前麦当劳对讲机已售的50万对和补货的20万对,合计仅70万对,某宝销量最高的亲子玩具对讲机,售价21.8元一对,已售10万多件,数量最大的是拼夕夕销量最高的玩具对讲机,对标麦当劳正品,售价29.5元一对,已拼106.5万多件。 总体上玩具对讲机整体需求量其实不大,上述爆款销量加起来不到500万,对相关芯片的需求量不大,单个成本价值较低。 同时 方案商的讨论比较少,热度不及前两年火爆的可达鸭产品。 真正受益的可能还是麦麦对讲机直接相关的供应商,或是在玩具对讲机领域本身有一定市占的厂商。 不变的是,每一个迅速崛起的爆款背后,都潜藏着消费者对个性化和创新型产品的渴望,这给民用对讲机带来了一些潜在机会。
顶尖AI科学家李飞飞演讲:机器人进化离不开空间智能
编译 | 陈骏达 编辑 | Panken 智东西6月4日消息,今年4月,著名计算机科学家、斯坦福教授,有“AI教母”之称的李飞飞在温哥华举行的2024年TED大会上,发表了以《有了空间智能,AI将会理解现实世界》为题的15分钟演讲,分享了她关于空间智能及其改变世界的力量的看法。 值得一提的是,李飞飞在斯坦福大学的个人资料显示,她从2024年初到2025年底处于部分休假状态。据路透社报道,目前她正在创办一家初创公司,创业的方向正是空间智能。 李飞飞在演讲中提到,随着神经网络算法的出现、GPU能力的提升,加上大数据的助力,计算机视觉领域实现了快速的发展。 目前,研究者们已经不满足于仅仅让计算机看见世界,而是追求让计算机理解世界,在观察世界这个三维空间的过程中学习知识并做出行动。这便是所谓的“空间智能”(Spatial Intelligence)。 李飞飞指出,行动的冲动是所有具有空间智能的生物的天性。如果想让目前的AI实现能力上的突破,完全发挥出当下这场数字寒武纪大爆发的潜力,空间智能是必不可少的。 同时,她也提醒道,要实现空间智能并不容易。开发者需要深思熟虑,确保AI技术始终以人为本。但如果我们真的能开发出造福人类的空间智能计算机与机器人,我们定能创造出一个更为美好的世界。 以下是李飞飞四月份TED演讲的完整编译: 一、看见世界理解世界,是智能的催化剂 我要向大家展示一些东西。确切地说,我要展示的是一片虚无。这就是5.4亿年前的世界:纯粹的、无尽的黑暗。世界一片漆黑并不是因为缺乏光线,而是因为缺乏能看见这个世界的眼睛。 在这个世界里,阳光能穿透到一公里深的海底,海底热液喷口也正散发着光芒,生命在这里蓬勃发展。但在这些古老的水域中,却没有一只眼睛能够看到这些景象。没有视网膜,没有角膜,没有晶状体。所有这些光芒,所有这些生命都无人见证。 在过去,“看”这一概念并不存在,没有生物真的看到过世界。直到这个时刻的到来。 三叶虫出现了,这是地球上第一种能够感知光的生物。它们出现的原因我们目前也才略知一二。但它们是我们现在习以为常的生活环境中的第一批栖息者,也是第一批发现除了自己外还有其他事物存在的生物。它们意识到,世界是由许多其它“自我”组成的。 视觉被认为是寒武纪生命大爆发背后的推手。这是一个动物物种大量进入化石记录的时期。最初,这些动物只是被动地接受光线,逐渐演变成更为主动的行为。神经系统开始进化。视力转化为洞察力,理解转化为行动,这一切催生了智能。 二、三股力量推动AI时代到来,不可能已成为可能 现在,我们不再满足于仅仅依靠自然赋予我们的视觉智能。好奇心驱使我们创造出和我们一样甚至更聪明的机器。 九年前,在这个舞台上,我汇报了计算机视觉这一AI分支领域的早期进展。当时,有三股强大的力量首次汇聚在一起:第一股力量是一种被称为神经网络的算法家族;第二股力量是快速的专用计算硬件,也就是GPU;第三股力量是大数据,比如我的实验室当时花了数年时间构建出来的ImageNet图片数据库。这三股力量一同推动了AI时代的到来。 我们现在已经有了长足进步。当时,单单是给图片打上标签就是一个重大的突破。但这些算法的速度和准确度迅速提高。由我的实验室主导的年度ImageNet挑战赛评估了这一进展。在这个图表上,你可以看到每年的改进和具有里程碑意义的模型。 我们更进一步,创建了能够分割对象或预测它们之间动态关系的算法,这一算法是我的学生和合作者们的工作成果。 不仅如此,还记得上次我展示的第一个能用自然语言描述照片的计算机视觉算法吗?那是我和我杰出的学生Andrej Karpathy合作的成果。当时,我碰运气般地问他:“Andrej,我们能让计算机做相反的操作吗?”Andrej笑着说:“哈哈,那是不可能的。” 但正如这篇推文中所说的,不久前,不可能的事情变成了可能。 这要归功于一系列扩散模型,它们推动了如今生成式AI算法的发展。这些算法可以根据人类提示的句子生成全新的照片和视频。许多人已经看到了OpenAI的Sora最近令人印象深刻的成果。 但即便没有大量的GPU,我的学生和我们的合作者也开发出了一个叫做Walt的生成视频模型。我们模型的发布时间领先Sora数月。你现在看到的是其中一些生成结果。 这些结果还有改进的空间。看看那只猫的眼睛,还有猫虽然在水下但却没有打湿自己。这真是一场灾难(cat-astrophe)。 三、看见世界远远不够,空间智能让看见变为行动 过去仅仅是序章,我们将从这些错误中学习,创造我们想象中的未来。在这个未来中,我们希望AI能帮我们完成一切事情,或者拥有帮助我们完成一切事情的能力。 数年来我一直在强调,拍下一张照片并不等于看见和理解所拍的内容。而今天我还想补充一点,仅仅是看见还远远不够。 看是为了做和学。 当我们在三维空间和时间中对这个世界采取行动时,我们也在学习。我们在学习如何更好地看和做。自然创造了这个由“空间智能”(Spatial Intelligence)驱动的良性循环。为了展示“空间智能”有什么用处,我要向大家展示这张图片。如果你看到它之后,有想要做点什么事情的冲动,请举手。 在刚才短短的一秒钟里,你的大脑看到了这个玻璃的几何形状,看到了它在三维空间中的位置,与桌子、猫等一切事物的关系。你可以预测接下来会发生什么。 行动的冲动是所有具有空间智能的生物的天性,它将感知与行动联系在一起。如果我们想要推动AI超越当前的能力水平,我们需要的不仅是能看和说的AI。我们需要能做出行动的AI。 四、空间智能已取得初步进展,机器人可以给你做饭了 实际上,我们正在取得令人兴奋的进展。最近在空间智能方面的里程碑时间是教会计算机观察、学习、做出行动以及更好地学习和做出行动。这并不容易。 自然界花费了数百万年时间才进化出了空间智能。这种智能需要依靠眼睛接收光线,将二维图像投射到视网膜上,然后让大脑将这些数据转换为三维信息。 直到最近,谷歌的一组研究人员才开发出一种算法,可以将一组照片转化为三维空间(如下图所示)。 我的学生和我们的合作者更进一步,创建了一种算法,可以将一张输入图像转换为三维形状(如下图所示)。 还记得我们谈过的能够将人类的语句转换为视频的计算机程序吗?密歇根大学的一组研究人员找到了将这句话转换为三维房间布局的方法(如下图所示)。 而我在斯坦福的同事和他们的学生们开发出了一种算法,可以从一张图片生成无限可能的空间供观众探索(如下图所示)。 这些都是未来种种可能性的萌芽。一个可以将我们整个世界转化为数字形式,并通过建模展现出这个世界的丰富与参差的未来。 自然在我们各自的心智中隐秘地完成了这些事情。而空间智能技术有望能为我们的集体意识实现这点。随着空间智能的进展加速,一个新的良性循环正在我们眼前展开。 这种相互作用正在催化机器人学习。这是任何需要理解和与三维世界互动的具身智能系统的关键组成部分。 十年前,我的实验室的ImageNet数据库帮助训练计算机,让它们有了看的能力。现在,我们正在用行为和动作来训练计算机和机器人,让它们具备在三维世界里行动的能力。 但我们并不收集静态图像,而是开发了由三维空间模型驱动的模拟环境,使计算机能够在无限多样的可能性中学习行动。你现在看到的是一个由我的实验室领导的Behavior项目中的机器人学习示例。 我们还在机器人的语言智能方面取得了令人兴奋的进展。我的学生和合作者们是第一批在这方面取得进展的团队。利用基于大型语言模型的输入,他们研发的机械臂现在能够根据口头指令执行各种任务。 例如,打开抽屉或拔出充电的手机,或者用面包、生菜、西红柿做个三明治,甚至为用户放上餐巾纸。通常,我会想要在三明治里多放点料,但这是个好的开始。 五、空间智能未来可期,能在医疗等领域发挥重要作用 在远古时代,在那片原始的海洋中,看见和感知环境的能力开启了寒武纪大爆发的序幕,不同的生命形式开始互动。如今,那束光芒正在触及数字大脑。 空间智能不仅让机器能够与其它机器互动,还能让它们与人类以及真实或虚拟的三维世界互动。随着这种未来逐渐变为现实,它将对许多人的生活产生深远的影响。 让我们以医疗为例。在过去的十年里,我的实验室一直在应用AI,解决患者预后效果不佳和医务人员过劳的问题。 我们与斯坦福医学院和合作医院的工作人员展开合作,正在试点使用智能传感器。这些传感器可以检测医务人员进入病房时是否正确洗手,还能跟踪手术器械,或者在患者处于危险(如跌倒)时提醒护理团队。 我们将这些技术视为一种环境智能,就像一双额外的眼睛。它们确实能起到一些作用。但我希望对我们的患者、医务人员和护理人员提供更多互动式的帮助,他们正迫切地需要一个能真正做点事情的帮手。 想象一下,如果有了能运送医疗用品的自主机器人,护理人员就只需专注于患者。利用增强现实技术,我们也能引导外科医生进行更安全、更快和创伤更小的手术。 想象一下,严重瘫痪的患者通过脑电波控制机器人,完成我们司空见惯的日常任务。是的,通过脑电波就可以。大家可以在我实验室最近的一项试点研究中,看到这一未来的雏形。 在这个例子中,机械臂的控制是通过非侵入性的脑电帽收集的脑电波信号实现的。这个机械臂现在正在烹饪一顿寿喜烧。 六、数字生命寒武纪大爆发即将到来,但必须确保技术始终以人为本 五亿年前,视觉的出现彻底颠覆了原本那一片漆黑的世界。它开启了一场影响最深远的进化过程:动物世界中智能的发展。 过去十年中,AI的惊人进步同样令人震撼。但我相信,如果我们想要完全发挥这场数字寒武纪大爆发的潜力,我们就必须为计算机和机器人提供空间智能。这也正是自然界为我们提供的东西。 这是一个激动人心的时刻,我们可以教我们的数字伙伴学会推理,教会他们与我们称之为家园的三维空间互动,并创造更多我们可以探索的新世界。 实现这一未来并不容易。我们需要大家在采取行动时深思熟虑,开发始终以人为本的技术。 但如果我们能以正确的方式推进技术的发展,这些具备空间智能的计算机和机器人将不仅仅只是实用的工具,还将成为可信赖的伙伴,提升和增强我们的生产力,促进人类社会的发展。它们也将尊重人类个体的尊严,促进人类的共同繁荣。 最令我兴奋的,是这样的一个未来:AI将拥有更强的理解能力、洞察能力和空间感知能力,并与我们一起不断努力,以更好的方式创造出一个更美好的世界。谢谢。 结语:空间智能开启AI发展新篇章,或成下一代AI的“原爆点” 在九年前的TED演讲中,李飞飞介绍了ImageNet这一深度学习爆发的起点,这也为当代AI奠定了基础。如今,她再次站在TED的舞台上,阐释了“空间智能”这一全新概念,指引AI朝着更高境界迈进。 李飞飞本人曾在多个场合指出,AI学术界能获得的资源实在是太有限了。她呼吁政府能为学术界提供必要的支持,以促进AI研究的发展。现在,李飞飞已暂离象牙塔,下场创业,并拿到了硅谷知名风投公司a16z的投资。我们也期待她能在学界之外,给AI领域带来新的惊喜。
股价跌至1.2美元!车车科技又亏1220万,押注新能源车险业务
作为一家在美国纳斯达克上市的中国保险科技公司,车车科技近日交出了一张不太理想的成绩单。 5月30日,车车科技公布2024年第一季度未经审计的财务业绩报告。报告显示,公司实现净营业收入7.87亿元(人民币,下同),较上年同期增长 1.0%;经调整后净亏损为1220万元,较去年同期增加57.0%。 成立于2014年的车车科技,当前已经拥有两张保险中介牌照,包括车车保险销售服务有限公司和汇财保险经纪有限公司,拥有约110个分支机构的全国性网络,获准在中国25个省、自治区和直辖市销售保险单。 自泛华于2007年成功上市以来,保险中介公司的上市进程几乎陷入停滞。直至慧择和水滴分别在2020年及2021年登陆资本市场,再度打开这一通道。 2023年,保险中介领域出现久违的IPO热潮——恒光保险、众淼创科、致保科技、圆心科技等接连冲击IPO。 市场竞争如此激烈,2023年9月,车车科技作为国内保险领域首个借壳SPAC的公司,成功赴美上市杀出重围。(编者按:SPAC又称“特殊目的收购公司”,是一种快速、高效的融资手段,由SPAC公司发起人先设立空壳公司在纳斯达克或纽交所上市募资,并在约定时间1-2年内寻找企业收购完成资产注入。) 上市时车车科技风光无限,上市首日股价收报75美元/股,首日涨幅高达581.82%。但此后,车车科技股价一路下滑,截至5月31日,股价已跌至1.2美元/股。 在业绩方面,车车科技在上市后仍亏损,未来该公司如何扭转这一局面,成为保险中介市场的一大关注点。 01 一季度保费、营收均增长 净利又亏1220万元 「界面新闻·子弹财经」综合车车科技上市后首份年报以及招股书数据来看,车车科技在保费规模、净营收等方面均保持增长,但净利润延续了上市前的亏损情况。 数据显示,2021年至2023年,车车科技通过其平台承保保单数量分别为780万份、1230万份及1580万单,2022年和2023年分别同比增长了57.7%、28.5%。 净营业收入方面,2021年至2023年,车车科技分别实现营收17.35亿元、26.79亿元及33.01亿元,2022年和2023年同比增长分别为54.4%、23.2%。 虽然业务增长态势较好,但当前车车科技仍处于亏损状态,盈利难题待解。 2021年至2022年,车车科技录得净亏损分别为1.47亿元和9100万元。2023年,车车科技虽亏损收窄但未扭转亏损的局面。该公司经调整后的全年净亏损3320万元,同比减亏35.7%。 对此,车车科技在年报中解释,亏损主要与股份补偿费用、上市相关专业开支、应付关联方款项公允价值变动等有关。 车车科技2024年一季度业绩报告显示,第一季度总保单数量达400万单,同比增长21.2%;总保费规模达54亿元,同比增长9.2%。实现净营业收入7.87亿元,较上年同期增长1.0%。 图 / 车车科技2024年第一季度业绩公告 但经调整后净亏损为1220万元,较去年同期调整后净亏损人民币780万元增加57%。 车车科技方面称,净收入增长主要得益于与新能源汽车制造商的合作产生的 SaaS和技术服务收入增加,以及推荐合作伙伴和第三方平台合作伙伴通过车车平台进行的保险交易增加。 净亏损增加则是由于上市后专业服务费用增加。 一季报显示,一般及行政开支项中较上年同期的3010万元增加12.9%至3400万元,主要是由于专业服务费增加人民币250万元。剔除股权激励费用和上市相关专业服务费的影响,一般及行政开支增加43.5%,主要是由于产生了520万元的专业服务费。 02 借壳SPAC上市后,股价一路下滑 公开资料显示,车车科技的核心高管来自于华为、字节跳动、美团、中国人保、BlackRock等知名企业的高级管理人员与资深技术团队。车车科技创始人张磊是华为高级工程师出身,曾任云动力科技CEO、大唐投资执行副总裁及华为公司高级经理职务。 自成立以来,车车科技获多轮融资,累计融资金额超过10亿元人民币,主要投资方包括腾讯投资、顺为资本、中金汇财、宽带资本等。 2023年9月18日,车车科技与SPAC公司Prime Impact Acquisition I完成合并后,正式在纳斯达克挂牌上市,同步发行不超过9779.49万股普通股。 值得注意的是,2023年3月,《境内企业境外发行证券和上市管理试行办法》正式实施。新规对境内企业直接和间接境外上市活动统一实施备案管理,明确境内企业直接和间接境外发行上市证券的适用情形。 车车科技是上述管理试行办法生效后,首家获放行的VIE架构(也称:可变利益实体)企业,也是保险领域首家通过SPAC方式上市的企业。 头顶种种光环,上市首日车车科技股价收报75美元/股,首日涨幅高达581.82%,盘中最高涨幅一度达到1750%,总市值达到59.62亿美元。然而仅仅过去10个交易日,车车科技的股价便跌破10美元/股。此后股价一直在10美元之下游走。 图 / 车车科技上市至今股价一览表 进入2024年,车车科技股价仍没有回暖迹象。今年4月之后,车车科技股价下跌趋势更加明显,5月30日受业绩发布影响,车车科技更是创出了1.11美元/股的股价新低。截至5月31日,车车科技报收1.2美元/股,总市值仅9089万美元。 业内观点认为,美股市场相对成熟,当上市初期的种种光环褪去之后,市场投资者对该公司的盈利、抵御市场风险等能力更为关注。除了车车科技以外,同样在美国上市的保险中介泛华、慧择、水滴也都在经历着低股价困境。 03 车险市场“神仙打架”,能否凭借新能源业务突围? 从车车科技具体的业务构成来看,净收入包括保险交易服务收入、SaaS收入两大板块。 此前招股书显示,车车科技的保险交易服务收入占比97%以上。数据显示,2021年和2022年,车车科技的保险交易服务收入分别16.99亿元和26.17亿元,占总收入97.9%及97.7%;SaaS服务收入为2990万元、5900万元,占总收入仅1.7%、2.2%。 其中,保险交易服务收入又主要来自车险交易服务。车车科技在招股书中坦言,业务的成功取决于中国汽车市场。 这一市场竞争激烈且发展迅速,该行业的其他参与者,包括保险公司、保险中介机构、第三方平台、推荐合作伙伴和保险消费者,可能很难将车车科技的平台与其竞争对手的平台区分开来。 此外,汽车需求下降可能会对汽车保险需求产生不利影响,进而影响保险公司客户、第三方平台、推荐的数量使用其平台的合作伙伴、保险中介机构和消费者。 车车科技曾表示,随着行业及其业务的发展,车车科技可能会修改其业务模式或改变其平台、服务或产品。这些变化可能无法达到预期结果,并可能对其财务状况和经营业绩产生重大不利影响。 「界面新闻·子弹财经」注意到,新能源车险是车车科技当前重点布局的业务。无论是2023年年报还是近期发布的一季度报告中,新能源车险保费收入均为亮点,在财报中被重点提及。 2023年,车车科技新能源汽车保单数41.6万单,新能源车险保费收入达14.5亿元,同比均翻了5倍。根据业绩报告,截止2023年末,车车科技与国内10家新能源车企建立合作关系,如小鹏汽车、长安阿维塔等,提供嵌入式保险解决方案服务。 一季度业绩报告显示,在新能源车险业务上,车车科技新能源汽车保单数达11.9万单,同比增长124.5%;新能源车险保费达3.7亿元,同比增长78.5%。 图 / 车车科技2024年第一季度业绩公告 车车科技方面称,新能源车险保单、保费的快速增长,得益于车车科技在新能源车险领域的技术积累,以及与多家新能源车企建立的战略合作关系。 车车集团创始人、首席执行官兼董事长张磊表示:“自4月份以来,我们看到新能源汽车开始占中国新车销量的50%以上。我们与小米、安徽大众等新能源汽车制造商的合作,表明我们有能力利用基于保险数字化的新能源汽车人工智能技术,开启人工智能车险时代。” 然而,新能源车险虽前景广阔,但保费高、出险率高、赔付率高等问题始终待解。 据中国银保信(CBIT)发布的《新能源汽车保险市场分析报告》,新能源汽车的平均保费实际上比燃油车高出大约21%。但整体在出险频率、案均赔款上均高于传统燃油车,仍导致赔付成本增加。新能源车主对车险贵、投保难、续保难、理赔难等“吐槽”愈加频繁。 更为严峻的是,当下除了保险公司也发力新能源车险之外,车企也在加速布局保险业,如蔚来、特斯拉、小鹏汽车、理想汽车、比亚迪等先后进入新能源车险行业。 在这个“神仙打架”的市场里,车车科技面临越来越多的挑战。车车科技究竟能否凭借新能源汽车业务破局盈利、股价难题,有待时间与市场给出答案。
俞敏洪的近忧和远虑
作者|吴文武 俞敏洪直言东方甄选做得乱七八糟,何出此言? 01 东方甄选成了俞敏洪讨厌的样子 东方甄选又上热搜了,但这次的热搜不是正能量。 《新品略财经》关注到,6月3日下午,“俞敏洪称东方甄选做得乱七八糟”话题冲上热搜,引发全网热议,俞敏洪居然会“痛批”东方甄选,这是为何? 近日,俞敏洪出现在物美创始人张文中的直播间。在对谈中,张文忠提及向俞敏洪学习直播带货经验时,俞敏洪称:东方甄选现在做得乱七八糟,没有任何向你提建议的本领。 就这样,乱七八糟这个关键词从俞敏洪口中说出来,而且还是说自家的东方甄选,俞敏洪可谓是“自曝家丑”,这一言论很快冲上热搜。 在对谈中,俞敏洪也谈及了网络负面对自己的影响,表示在过去一年里,自己在网络上的谩骂、指责和侮辱次数比100辈子加起来都多。 俞敏洪表示,以后准备远离生意场,把更多的时间留给自己去游山玩水,不想没命的奋斗,也不想纠缠到纷争中。 资本市场很敏感,6月3日,港股市场涨声一片,不过,东方甄选的股价却高开低走,大跌近10%,报16.52港元/股,市值缩水至170亿港元。 有网友评论称,可能是被俞敏洪的话给误伤了。也有分析人士表示,也可能与东方甄选近期的业绩表现有关。 前几天,“董宇辉走后,东方甄选直播间画风变了”话题冲上热搜,这对于东方甄选直播间的老粉来说,应该感觉尤为明显。 在今年的618大促期间,东方甄选直播间的主播居然声嘶力竭地喊出了“321,上链接”“您都来了,买一单再走吧”,这样的画风,的确让很多人不适应。 有网友评论称,全网最有文化的直播间咋变成这样了。另有网友评论称,真是刷新我对东方甄选的认知了,好希望恢复到原来有文化的直播间。 而在去年3月,俞敏洪曾坦言,自己看不起网络直播中那些“买买买”的嚎叫噪声,他心中的直播应该是心平气和地对产品进行讲解并且进行传播知识。第一场东方甄选的直播是他亲自做的。 从东方甄选直播间画风的改变,再加上俞敏洪最新的言论来看,俞敏洪似乎对东方甄选有怨言了,东方甄选居然“活成”了俞敏洪讨厌的样子。 但至少值得俞敏洪欣慰的是,董宇辉和他带领的“与辉同行”团队的表现还是很给力的。 今年5月28日,董宇辉带着“与辉同行”团队在深圳进行了一场“科技+文旅”主题的直播带货火爆出圈,累计直播观看人数近2000万,整场直播累计完成60万单销量,销售额超过1.2亿元。 02 东方甄选没能复制第二个董宇辉 当初陷入绝境的新东方,进入直播带货赛道,成立东方甄选,东方甄选火爆出圈,成功挽救了新东方,上演了互联网行业一大绝地重生的精彩案例。 东方甄选之所以能从激烈竞争的直播带货中杀出一条血路来,快速逆袭,一跃发展成直播带货头部玩家,有一个关键爆点就是东方甄选有一个董宇辉。 正是董宇辉的温文儒雅,知识丰富,出口成章的直播带货风格,在全网一片疯狂咆哮式的直播带货环境中成为了一股清流,这股清流模仿者众多,但没有一家能超越东方甄选。 知识型直播带货的模式成了东方甄选最为吸引人的标签,也是东方甄选直播带货的核心竞争力。 在外界看来,最能代表东方甄选的除了俞敏洪是掌舵者外,然后就是董宇辉了,当东方甄选没有了董宇辉,东方甄选就失去特色。 东方甄选的转折点就发生在2023年年底,当时上演了“小作文风波”,可谓是东方甄选的一次内部管理失控而引发的翻车事件。 后来,董宇辉注册了新账号“与辉同行”,另立山头,从某种程度上来说,东方甄选原来的主阵地账号就“失去”了董宇辉。 很多原来董宇辉的粉丝转移阵地到了与辉同行,这也让与辉同行在极短的时间里成为超越东方甄选直播间的头部大号,说与辉同行和东方甄选这两大直播间,无论是在东方甄选内部,还是外界看来,犹如竞争对手般的存在。 蓝鲸新闻报道称,据第三方平台数据,自2023年1月9日,与辉同行正式开播以来,东方甄选主号粉丝量与销售额都出现了不同程度的下滑,累计掉粉112万。2月份以来,连续多月场均销售额都不及1000万元,均在750万元至1000万元之间。 可见,东方甄选的直播间没有了董宇辉之后,其吸引力自然减弱,这是俞敏洪最不愿意看到的场景,但也无奈。 董宇辉离开后,东方甄选的直播间开始尝试新的直播风格,试图寻找新的增长点,但效果并不理想。 所以,我们也很容易理解,为什么现在东方甄选的直播间的带货风格发生了变化,主播声嘶力竭地喊出了“321,上链接”。 东方甄选直播间可能早就想培养第二个董宇辉,但没想到后来董宇辉突然离开,时至今日,东方甄选直播间也没能复制第二个董宇辉。 03 俞敏洪的近忧和远虑 在外界看来,新东方的直播带货业态旗下有东方甄选和与辉同行两大头部直播带货主号,还进军文旅产业,看起来东方甄选已经很成功了。 但在《新品略财经》看来,虽然俞敏洪和东方甄选现在没有当初刚起步那么大的压力,但综合各种信息来看,俞敏洪不仅有近忧,更有远虑。 先说,俞敏洪和东方甄选的近忧,主要是表现在三个方面。 第一方面,东方甄选直播间没能复制第二个董宇辉,需要找到新爆点。 董宇辉离开后,东方甄选的直播间就出现了变化,掉粉、带货业绩下滑,甚至主播带货的言行和风格都大变,这在外界看来很是惊讶。 东方甄选接下来要做更多新的直播带货模式尝试,需要打造一个新爆点,虽然并不是一定要复制第二个董宇辉,但最起码东方甄选要改变这种激动的嘶吼式的带货风格,长此下去,东方甄选和其他同类直播间就没什么区别了。 第二方面,东方甄选和与辉同行不是此消彼长的关系,需要协同发展,需要战略性平衡。 很明显,现在与辉同行的直播带货继续爆火,但东方甄选的直播间风格大变,两者形成鲜明对比,俞敏洪最不想看到的就是两大主账号间失衡。 所以,与辉同行未来要继续保持董宇辉式的直播带货,而东方甄选的直播间还是要找回初心,寻找更多新亮点,虽然两大主账号都是东方甄选旗下,但要对两者需要进行战略性平衡。 第三方面,从东方甄选直播间风格大变就可以看出来,快速发展和规模不断壮大的东方甄选内部的企业管理、团队协调,乃至是企业治理方面都可能或多或少存在一些问题。 这次俞敏洪称东方甄选做得乱七八糟,也从侧面反映出来了俞敏洪对东方甄选的现状有诸多不满,但这些问题都需要逐一解决。 不过,更值得关注的是,俞敏洪也有远虑,那就是:新东方和东方甄选未来的接班人问题。 俞敏洪是中国第一代杰出的企业家代表,临近退休年纪。俞敏洪这次在直播间中也坦言到了该退休的年纪,之后会离生意远一些,想把更多的时间留给自己。 俞敏洪曾表示,自己的孩子没有表达过要去新东方,可能新东方下一代接班人会是一名出色的职业经理人。 但俞敏洪在退休之前,一定要选出未来新东方的接班人,还要为其铺路,甚至是解决障碍。 虽然俞敏洪对董宇辉寄予了厚望,外界也有观点将董宇辉视为俞敏洪未来的接班人,以董宇辉现在的资历和阅历,虽然直播带货很成功,但还不足以能独立掌舵东方甄选这艘巨轮。 现在很难预测东方甄选未来的接班人是谁,这肯定是当下俞敏洪思考比较多的问题。 俞敏洪想退休,但现在还不是时候,未来只有时机成熟之时,俞敏洪才会放手,安心去游山玩水。
AI训练数据的版权保护:公地的悲剧还是合作的繁荣?
就算是 OpenAI 在舆论场也无法逃过版权保护的呼声。 GPT-4o内置声音模仿「寡姐」一案闹的沸沸扬扬,虽然以OpenAI发布声明暂停使用疑似寡姐声音的「SKY」的语音、否认曾侵权声音为阶段性结束。但是,一时间「即便是AI,也得保护人类版权」这一话题甚嚣尘上,更刺激起了人们本来就对AI是否可控这一现代迷思的焦虑。 近日,普林斯顿大学、哥伦比亚大学、哈佛大学和宾夕法尼亚大学共同推出了一项关于生成式AI版权保护的新方案,题为《An Economic Solution to Copyright Challenges of Generative AI》。 论文链接:https://arxiv.org/abs/2404.13964 生成式人工智能(AI)技术的快速进展已经深刻影响了文艺产业,带来了文学、视觉艺术和音乐等领域中由AI生成的内容时代。这些AI模型如大型语言模型和扩散模型能够创作出能够与人类艺术家的作品媲美乃至可能取代的高复杂性内容。 这种能力的迅速增长引发了关于大模型训练数据作者权利的法律和道德界限的重要问题,特别是在版权侵犯方面的争议。 版权保护一直以来都是各国法律中不可或缺的一部分 。保护创作者的权益,可以更有利于调动创作者的积极性,使得文化事业更加繁华。版权保护为创作者不止提供了精神支持,也同时提供了物质支持 (利益分配),这也是为创作者进一步提供了再创作的物质基础和精神动力。 另一方面,版权保护也更利于优秀作品的传播,因为版权保护也是在保护传播者的正当权益和保护公众对于分享知识文化成果的权利。诚然,一部作品的诞生,不是为了孤芳自赏,更多的是为了以某种形式分享给大众,为大众所用。而且, 版权保护也可以让创作者更加合理地使用他人的结果,避免引发剽窃等诸多麻烦。 因此,目前有几家AI公司因涉嫌生产侵犯版权的内容而卷入法律诉讼。比如说 《纽约时报》起诉 Chatgpt的开发者 OpenAI [1],控诉后者将数百万篇 《纽约时报》的文章被用于训练智能聊天机器人(例如ChatGPT )。这些机器人现在作为新闻消息源与《纽约时报》展开竞争。 《纽约时报》声称,OpenAI和微软大型语言模型 (LLM)能够模仿《纽约时报》的文字风格从而生成类似内容,有时候甚至能原封不动生成已有的内容,这种现象影响到《纽约时报》通过订阅和广告获得收入,并且有违版权许可。 起诉书中,《纽约时报》提及到一个例子 – 微软的「以必应浏览(Browse With Bing)」中的功能,能够几乎一字不差地重现《纽约时报》旗下网站「The Wirecutter」的内容,但完全没有为提供相关的链接进行引用。这个例子充分体现了AI 非法使用版权内容。 目前,针对OpenAI的类似诉讼案件正在不断增加,例如近来GPT-4o内置声音模仿「寡姐」一案 [2]。但由于对于AI 非常使用版权内容难以界定,诉讼案件尚在激烈讨论中。 图1:NY Times指控ChatGPT生成内容和NY Times文章高度一致。 为了缓解训练数据版权所有者与AI开发者之间的紧张关系,人们已经开始尝试修改生成模型的训练或推理过程,以减少生成侵权内容的可能性。然 而这些改动可能会因为排除了高质量的受版权保护的训练数据或限制内容生成而损害模型性能。版权法的复杂性和模糊性增加了额外的难度,使得区分侵权和非侵权成果变得模糊不清。 这种不确定性可能导致双方在法庭争议中浪费大量资源。 本文提出一种在AI开发者和版权所有者之间建立互利的收益分享协议的方案,此提议呼应了经济学中最近提倡的观点。然而,模型训练和内容生成的「黑箱」特性使得传统的按比例直接分成方法不再适用。 因此,需要一种新的框架来公平合理地处理这些新出现的版权问题,确保在鼓励创新的同时,也保护数据提供者的合法权益。 图2:该工作被Ethan Mollick宣传。 Shapley版权分享框架 该文章的框架分为两步: 第一步是评估模型在整个数据集的每一个可能子集上训练的效用。直观上,如果在某数据子集上训练的模型能够有很大的可能性生成与部署模型相似的AI生成内容(例如艺术作品),那么该数据子集的效用就会很大。 第二步是根据第一步的效用使用合作博弈论工具(即Shapley值)来确定任何训练数据版权所有者的应得份额。简而言之,如果将其数据包括在模型训练中能够增加效用,那么版权所有者的份额就会大。 图3:基于Shapley值的版权分配框架。 不同数据源组合的效用 设有 n 个版权所有者,第 i个拥有训练数据集 的版权,其中i∈N≔{1,2,…n}。部署的模型训练在整个数据集 上,并生成内容 考虑一个在数据子集 上训练的反事实模型,其中S⊆N表示数据所有者的一个子集。 该反事实模型生成同一内容 的概率密度函数由 表示。对于生成模型生成的内容, 一个子集的效用最容易反映在该反事实模型生成目标内容的概率。当比较不同模型时,可以通过生成目标内容的概率比例衡量它们之间的效用差距。 因此,该文章定义此模型对内容 的 效用为 ,这样可以直接根据 来比较两个数据集之间的效用。 这种效用提供了一种衡量数据源S在生成内容方面的责任程度的方式。如果反事实模型不太可能生成与部署模型相同的内容,其效用就小,反之亦然。 版权所有者间的版税分配 效用v(S)可以解释为所有S成员为训练生成式AI模型提供数据所应得的总补偿。下一步是基于所有可能的数据源组合的效用来确定每个个别版权所有者的收益。该文章提议使用Shapley值。 Shapley值 是博弈论中的一个解决方案概念,它提供了一种根据每个玩家组合作为联盟的效用分配收益的原则性方法。它是由诺贝尔奖获得者Lloyd Shapley (此后简称为Shapley) 提出的。 Shapley (1923-2016)是美国籍数学家和经济学家,并且由于对稳定分配理论和市场设计的实践做出突出贡献,而获得了2012年的经济学诺贝尔奖 [3]。Shapley是博弈论领域的传奇,并且在其博士工作和博士论文中引入了Shapley值。 美国经济学会称Shapley是「博弈论和经济学理论的巨人」。 Shapley值的具体计算如下: 参与者i的Shapley值计算为其在所有可能联盟中边际贡献的加权平均: Shapley值是唯一满足几个重要经济属性的支付规则,并在机器学习模型的数据估值中获得了普及。 利用Shapley值,该文章提出使用SRS(Shapley Royalty Share)来计算版权分配。 SRS定义如下: 这里, 是版权所有者i的Shapley值。 SRS提供了一种经济学方法解决生成式AI环境中的版权和收益分配问题,支持公正的数据使用和创新激励。 该文章用一个简单的例子来解释Shapley值的计算过程。在这个例子中,有三个数据所有者(A, B, C),他们共同训练一个模型,使用模型对某生成内容的log-likelihood作为效用函数。假设使用不同的数据组合训练后的模型的log-likelihood如下: 可以根据以下量来计算A的Shapley值: 数据所有者A单独贡献:v({A})=5 数据所有者A和B的贡献:v({A,B})-v({B})=15-7=8 数据所有者A和C的贡献:v({A,C})-v({C})=10-3=7 数据所有者A、B和C的贡献:v({A,B,C})-v({B,C})=20-12=8 根据Shapley值公式,可以得到 计算考虑 在应用SRS框架时,主要挑战在于其相当大的计算成本。对不同数据源组合的效用函数评估需要多次重新训练模型。在版权所有者数量较少的某些应用中,计算挑战可能并不像看起来那么严重。 实际上,可以预见这种基于合约的框架在整个版权数据被少数几个版权所有者分割时效果最佳,这样每个数据源都有足够的数据影响训练结果。如果数据源的规模非常小,版权所有者的版税份额可能微不足道,且由于训练AI模型的随机性,结果可能更加噪声化。 为了减轻这种计算负担,可以采用两种方法: 第一种是使用蒙特卡洛方法来近似计算Shapley值,这种技术特别适用于版权所有者众多的情况。 第二种方法是通过从另一个在较小数据子集上训练的模型微调来训练模型。因此,可以通过对整个训练数据只训练一次,来近似在不同数据子集上训练的模型。具体来说,对于随机抽样的版权所有者排列,可以首先在第一个版权所有者上训练,然后是第二个,一直到最后一个版权所有者。这种技术可以与著名的Shapley值排列抽样估计器一起使用。 在实践中,商业AI模型可能每天进行数百万次交易。仅估计每个版权所有者应得的聚合收益,而不是按照公式为每个AI生成的内容计算收益,可以节省计算成本。理论上,可以仅评估所有交易中一小部分的SRS,然后按比例计算从所有交易中获得的收入分布。 实验结果 该文章通过实验评估了所提出框架在分配AI生成内容版税方面的有效性,重点关注创意艺术和图像领域的标志设计。 评估使用了公开可获取的数据集:WikiArt和FlickrLogo-27。 评估SRS的有效性 对于WikiArt数据集,该文章选取了四位著名艺术家的四个不相交的画作子集。一个最初在更广泛的训练图像集(不包括这四位艺术家的作品)上训练的模型,作为基础模型。通过在选定艺术家的四组画作的各种组合上进一步微调基础模型,计算SRS。 类似地,对于FlickrLogo-27数据集,该文章选取了四个品牌的四个不相交的标志设计子集,并使用在其他品牌标志图像上训练的基础模型计算SRS。该文章的目标是评估SRS是否能反映每个版权所有者对图像生成的贡献。 图4:使用SRS评估每个版权所有者对图像生成的贡献。 结果表明,当 的风格与训练数据源的风格非常接近时,SRS值最高。这一关系凸显了SRS框架准确归因于AI生成图像创作贡献的能力。 评估SRS对于混合风格的生成图像的归因能力 在WikiArt数据集上,该文章探讨了针对要求从多个数据源生成内容的提示的SRS分布。显著地,提示要求生成模型融合多位艺术家的风格。SRS有效地识别并奖励了融入生成艺术作品的数据源的贡献,展示了该框架在辨识和评价多样化数据源输入以生成内容的能力。 图5:使用SRS评估每个版权所有者对混有不同艺术家风格的图像生成的贡献。 讨论与深入研究 生成式AI的快速发展对传统版权法构成了深刻挑战,这不仅是因为其强大的内容生成能力,还因为对AI生成内容版权的解释复杂以及大型AI系统的“黑箱”本质。该文章从经济学角度出发,开发了一个允许在版权数据训练中交换收入分配的版权分享模型,促进了AI开发者和版权所有者之间的互利合作。通过数值实验,该文章证明了这一框架的有效性和可行性。 该文章的研究也为未来的研究开辟了道路。例如,版权所有者可能会通过合并或分割他们的数据来最大化版权分成,SRS可能会被恶意版权所有者操纵。尽管已经探索了抗复制的解决方案,但这些主要关注于Shapley值的影响而非复制下的比率。开发一种抗操纵的机制是未来工作的一个重要方向。 另一个开放问题是处理无法或不愿意协商协议的版权所有者的版权数据,特别是当每个拥有者的数据集很小的情况。在这种情况下,该文章的方法可以与生成合法内容的方法结合使用, 增强他们的模型以确定版权所有者和AI开发者之间适当的收入分配,认识到计算资源、算法设计和工程专长在开发高性能AI模型中的关键作用,是另一个研究方向。 该文章已经通过采用合作博弈理论中的权限结构概念来初步适应这种情况。 从方法论角度看,未来研究的一个关键方面是使用Shapley值比率进行收入分配。直接使用Shapley值的主要挑战在于任何版权所有者数据联盟的总收入未知。但当考虑比率时,Shapley值的效率属性(确保所有Shapley值之和等于大联盟的效用)失去了意义。 在这种情况下,半值(一种放弃效率公理的Shapley值推广)可能提供了一个可行的替代方案。未来的工作可以旨在建立公理化的理由,以识别此背景下用于版税分配的最合适的解决方案概念。 从实用性的角度讲,Shapley值最大的不足之处在于计算开销。尽管Monte Carlo方法可以加速计算过程,但仍需要大量的模型重复训练。这种计算需求在处理大型数据集和复杂模型时变得尤其突出,可能导致计算资源的极大消耗和时间的延长。 未来的工作可以着重于解决这一问题,通过开发更高效的算法或启用新的方法来减少计算开销,从而使Shapley值在实际应用中更加可行和高效。
套壳丑闻让斯坦福AI Lab主任怒了!抄袭团队2人甩锅1人失踪
量子位 | 公众号 QbitAI 斯坦福团队抄袭清华系大模型事件后续来了—— Llama3-V团队承认抄袭,其中两位来自斯坦福的本科生还跟另一位作者切割了。 最新致歉推文,由Siddharth Sharma(悉达多)和Aksh Garg(阿克什)发出。 不在其中、来自南加利福尼亚大学的Mustafa Aljadery(简称老穆)被指是主要过错方,并且自昨天起人就失踪了: 我们希望由老穆首发声明,但自昨天以来一直无法联系到他。 悉达多、我(阿克什)和老穆一起发布了Llama3-V,老穆为该项目编写了代码。 悉达多和我的角色是帮助他在Medium和Twitter上推广这个模型。我俩查看了最近的论文以验证工作的创新性,但我们没有被告知和发现面壁智能先前的工作。 被指跑路的老穆本人,X主页目前已经开启保护锁定状态,申请才能关注: 整体来看,这条致歉推文和昨天那条发出后又急忙删掉的推文内容大差不差,主要是突出了道歉和进一步甩锅。 毕竟连斯坦福人工智能实验室主任Christopher Manning都下场开喷: 这是典型的不承认自己错误! 他认为团队在事发后避重就轻,用“架构相似”、“MiniCPM比我们更快实现”的借口推脱,拒不承认是抄袭。 但全新道歉声明,并没有止住网友们的质疑。并且最新爆料还指出,这几位老哥根本就是抄袭惯犯,之前写的教材也是一整个大抄特抄。 而原作者团队面壁智能这边,除CEO李大海昨天回应“也是一种受到国际团队认可的方式”外,首席科学家刘知远也已在知乎出面“亲自答”: 已经比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5套壳。 人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。我们这次开源的MiniCPM-Llama3-V 2.5就用到了最新的Llama3作为语言模型基座。而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。他们在受到质疑后已在Huggingface删库,该团队三人中的两位也只是斯坦福大学本科生,未来还有很长的路,如果知错能改,善莫大焉。 新的证据 还是先来简单回顾一下这个大瓜。 一句话总结就是,有网友发现,最近在开源社区大火的斯坦福团队多模态大模型Llama3-V,架构和代码与国产MiniCPM-Llama3-V 2.5几乎一毛一样,并列举了诸多证据直指Llama3-V抄袭。 随着事件逐渐发酵,斯坦福AI团队删库跑路,面壁智能团队也就此事展开了调查。 面壁智能首席科学家、清华大学长聘副教授刘知远给出的判断Llama3-V是MiniCPM-Llama3-V 2.5套壳的一大理由,正是对于清华简的识别能力。 这是MiniCPM-Llama3-V 2.5的“彩蛋”能力,是他们用了从清华简逐字扫描并标注的数据集训练的,并未公开。而Llama3-V的表现和MiniCPM-Llama3-V 2.5一模一样,不仅做对的题一样,出错的地方都一样。 今天,在第一波证据的基础之上,又有其他网友扒出了新线索。 有人研究后发现,Llama3-V几乎每一层的权重差值都符合均值为0、标准差为1.4e-3的高斯分布。 于是推测,Llama3-V只是直接在MiniCPM的权重上添加了低方差噪声。 除此之外,那个跑路的大兄弟老穆还被曝之前写了本关于“计算机网络设计”的书,也是抄的。 从书中随便抽出一章,用抄袭检测器检测一下就是一堆红点: 以及,这本书的作者栏里,据网友爆料也有悉达多的名字。 也有网友认为抄书这事儿是不是真的还有待考究。不过,现在这本书也404了。 说回这次的抄袭,悉达多和阿克什的致歉声明中也有提到他们之所以和穆哥一起宣传这个项目,最初也是被这个多模态模型惊艳到了,特别喜欢穆哥所描述的基于Idefics、SigLip和UHD的架构扩展。 但实际上网友一早扒出Llama3-V在空间模式等很多方面的具体实现都和LLaVA-UHD不同,却跟MiniCPM-Llama3-V 2.5出奇一致。 根据MiniCPM-Llama3-V 2.5主页介绍,MiniCPM-Llama3-V 2.5是面壁智能MiniCPM-V系列的最新开源模型,基于SigLip-400M和Llama3-8B-Instruct构建,总共8B参数。 从性能上讲,MiniCPM-Llama3-V 2.5在OpenCompass上取得了65.1的平均分,性能超过如GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max等专有模型,且显著超越其他基于Llama 3的多模态语言模型。 此外,MiniCPM-Llama3-V 2.5的OCR能力也很强,在OCRBench上得分700+,超越GPT-4o、GPT-4V-0409、Qwen-VL-Max和Gemini Pro。 基于最新的RLAIF-V方法,MiniCPM-Llama3-V 2.5在Object HalBench上的幻觉率为10.3%,也低于GPT-4V-1106的13.6%。 “中国大模型被忽视了” 尽管甩锅甩得飞快,但网友们很快又从阿克什和悉达多童鞋的道歉声明里发现了华点: 合着你俩啥也没干,帮着搞搞推广就算项目作者啦? 宣发的时候说是你们仨的项目,出事了就把锅全甩给一个人? 如果是老穆一个人写了所有代码,那你俩是干啥的,就发发帖吗? 还有网友挑起了一个更关键的话题,进一步引发热议—— 开源社区是否忽视了来自中国的大模型成果? 谷歌DeepMind研究员、ViT作者Lucas Beyer就提到,Llama3-V是抄的,但成本低于500美元,效果却能直追Gemini、GPT-4的开源模型确实存在: 但相比于Llama3-V,MiniCPM得到的关注要少得多,包括我自己也有所忽略。 主要原因似乎是这样的模型出自中国实验室,而非常春藤盟校。 抱抱脸平台和社区负责人Omar Sanseviero说的更加直接: 社区一直在忽视中国机器学习生态系统的工作。他们正在用有趣的大语言模型、视觉大模型、音频和扩散模型做一些令人惊奇的事情。 包括Qwen、Yi、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、OpenBMB、Skywork、ChatTTS、Ernie、HunyunDiT等等。 对此,不少网友表示赞同,“他们推出了目前最好的开源VLM”。 从更客观的大模型竞技场的角度看,此言不虚。 在模型一对一PK的视觉大模型竞技场中,来自零一万物的Yi-VL-Plus排名第五,超过了谷歌的Gemini Pro Vision。智谱AI和清华合作的CogVLM也跻身前十。 此外,DeepSeek、通义千问和这次遭到抄袭的MiniCPM系列多模态模型,也都有不错的表现。 在更受到广泛认可的LMSYS Chatbot Arena Leaderboard竞技场榜单中,来自中国的大模型也同样在不断刷新“最强开源”的新纪录。 正如刘知远老师所说: 从横向来看,我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距;同时,从纵向来看,我们已经从十几年前的nobody,快速成长为人工智能科技创新的关键推动者。 此瓜甚巨,吃瓜者众,或许更重要的是,一些成见正在破壁。你觉得呢? 原标题:套壳丑闻让斯坦福AI Lab主任怒了!抄袭团队2人甩锅1人失踪、前科经历被扒,网友:重新认识中国开源模型
斯坦福团队抄袭清华系大模型实锤,作者深夜道歉,中国大模型已经无法被忽视
前段时间,斯坦福大学人工智能研究院(Stanford HAI)发布了一份报告,表示美国在大模型领域遥遥领先。 报告指出,2023 年 61 个著名的人工智能模型来自美国的机构,远远超过欧盟的 21 个和中国的 15 个。 OpenAI 早期投资人 Vinod Khosla 去年还曾在 X 发文称,美国的开源模型都会被中国抄袭。 然而,一直被认为在「追赶美国」的国产大模型现在却成了被抄袭的对象,而这个抄袭的 AI 团队,正是来自发布上述报告的斯坦福大学。 斯坦福 AI 团队主导的 Llama3-V 开源模型,被揪出涉嫌抄袭国内清华&面壁智能的开源模型「小钢炮」MiniCPM-Llama3-V 2.5,瞬间在 AI 圈里炸开了锅。 在实锤之下,斯坦福团队也不得不紧急道歉。 正如面壁智能 CEO 李大海调侃式的回应,这是一种「受到国际团队认可的方式」。无论我们距离最顶尖的大模型还有多少差距,但国产大模型已经到了不能再被忽视的阶段。 简单梳理一下时间线: 斯坦福 AI 团队发布 Llama3-V,号称 SOTA 多模态大模型 网友质疑该模型抄袭国内面壁智能 MiniCPM-Llama3-V2.5 质疑证据涌现,Llama3-V 作者上演「删库跑路」 面壁智能官方实锤抄袭,深夜给出声明 Llama3-V 作者正式道歉,网友各持己见 抄袭面壁智能「小钢炮」,斯坦福 AI 团队上演「删库跑路」 近日,一个斯坦福 AI 团队宣布,只需 500 美元就可训练出一个超越 GPT-4V 的 SOTA 多模态大模型。 但很快,X 用户 @yangzhizheng1 指出,该项目使用的模型结构和代码与面壁智能不久前发布的 MiniCPM-Llama3-V2.5 惊人地相似。 为此,X 用户 @yangzhizheng1 也放出了相应的质疑证据。 证据一: Llama3-V 和 MiniCPM-Llama3-V 2.5 的模型结构、代码,简直是复制粘贴级别的相似,区别大概就是换了个马甲——变量名改了改。 就像是同一件衣服,只是换了不同颜色的纽扣,你说巧不巧? 证据二: Llama3-V 的作者被问到为啥能提前用上还没发布的 MinicPM-Llama3-V2.5 分词器时,他们解释称,用的是面壁智能上一代 MinicPM-V-2 项目。 但有媒体向面壁智能官方求证,在 HuggingFace 中,MiniCPM-V2 与 MiniCPM-Llama3-V 2.5 分词器分别是两个文件,文件大小也完全不同。 更何况,MiniCPM-Llama3-V 2.5 的分词器是用 Llama3 分词器加上 MiniCPM-V 系列模型的特殊 token 组成。 考虑到 MiniCPM-V2 的发布时间早于 Llama3,理论上它不可能包含尚未公开的 Llama3 分词器技术。 证据三: 更离谱的是,llama3-V 项目的作者面对用户的质疑,一看事情不妙,干脆上演了一出「删库跑路」的好戏。 连 GitHub 上的项目页面都撤了,堪称掩耳盗铃 2.0 版本。 Hugging Face 地址如下,目前打开该页面,我们只能看到「404」。 https://huggingface.co/mustafaaljadery/llama3v/commit/3bee89259ecac051d5c3e58ab619e3fafef20ea6 这还没完,更多证据正在不断涌现: X 用户 @yangzhizheng1 表示如果往 MiniCPM-Llama3-V 2.5 的 checkpoint 添加高斯噪声(由单个标量参数化),出来的模型跟 Llama3-V 就像是一个模子刻出来的。 不仅如此,这模型还能识别「清华简」这种深奥的战国古文字,而且错得都一模一样,用面壁智能官方的话来说: 不仅对得一模一样、连错得都一模一样。 要知道这一古文字数据,是面壁智能和清华大学自然语言处理实验室团队花费数月时间,从清华大学收藏的清华简上逐字扫描并人工标注得来,从未对外公开过。 那斯坦福 AI 团队是如何凭空获得呢? 可以说,面壁智能的连番声明算是彻底实锤了斯坦福 AI 研究团队的抄袭。 直到今天凌晨,斯坦福 Llama3-V 团队的两位作者 Siddharth Sharma 和 Aksh Garg 在社交平台 X 上就这一学术不端行为向面壁 MiniCPM 团队正式道歉, 表示 Llama3-V 模型将悉数撤下。 名校学霸也抄袭?中国开源大模型正迎头赶上 此事之所以在网络上激起千层浪,一个重要的原因在于抄袭作者的背景实在光鲜。 公开信息显示,Siddharth Sharma 与 Aksh Garg 均是斯坦福大学计算机系的本科生,曾发表过机器学习领域的相关论文。 其中,Siddharth Sharma 曾在亚马逊实习过一段时间,目前主要从事于 AI 和数据相关工作。 而 Aksh Garg 的实习履历,那叫一个丰富,涵盖 SpaceX、斯坦福大学和加州理工学校等知名企业机构。 至于被这上述两位作者称为「代码搬运工」的 Mustafa Aljadery,是南加州大学出身,在舆论发酵之后,目前 X 账号已经被设为隐私状态。 对于斯坦福 Llama3-V 团队的道歉声明,眼尖的网友却不吃这套。 例如,X 用户 @xunie 指出,这哥俩将责任归咎给一个人的甩锅行为,莫不是「有福同享,有难你当」? 斯坦福 AI 实验室主任 Christopher David Manning 也站出来谴责这一抄袭行为,并且对 MiniCPM 这一优异的中国开源模型表示赞扬。 不过,也有网友抱着「得饶人处且饶人」的态度,悠悠然地鼓励道: 开放和诚实是科技界非常重要的价值观,期待你的新作品。 Google DeepMind 研究员 Lucas Beyer 表示,中国开源大模型拥有像 MiniCPM 这样好的模型,但国际上却没给够应有的关注…… 面壁智能团队也于昨天对此事进行回应。 面壁智能 CEO 李大海表示:「技术创新不易,每一项工作都是团队夜以继日的奋斗结果,也是以有限算力对全世界技术进步与创新发展作出的真诚奉献。 我们希望团队的好工作被更多人关注与认可,但不是以这种方式。」 面壁智能首席科学家刘知远也在知乎上发文表示,表示这次事件从另一个角度证明了中国创新成果的国际影响力,强调了开源共享的重要性,以及对原创精神的尊重。 不得不说,这出 AI 圈的抄袭大戏,教科书般地诠释了叫「创新不易,且行且珍惜,学术诚信,人人有责」。 要知道,模仿了代码的形,却抄不来那份原创的风姿卓绝。 事实上,自去年以来,中国大模型如同雨后春笋般陆续开源,从以往的受益者转变为贡献者,不吝于向世界提供更多开源的优异成果。 上至阿里巴巴、腾讯等巨头,下至面壁智能,智谱 AI 、昆仑天工等 AI 初创,也都是开源社区的积极分子,为中国大模型的发展添砖加瓦。 我们也盼着,这股子开放共享的春风,能吹得更猛烈些。 正如面壁智能 CEO 李大海所呼吁的那样,大家一起共建开放、合作、有信任的社区环境。加油合作,才能让世界因 AGI 的到来变得更好!
面壁智能CEO发文回应斯坦福某AI团队“抄袭”:感到遗憾
本文字数:1680,阅读时长大约3分钟 导读:斯坦福大学AI团队疑似抄袭中国大模型创业公司的消息引发业内高度关注。 作者 | 第一财经 吕倩 近日,斯坦福大学AI团队疑似抄袭中国大模型创业公司的消息引发业内高度关注。 6月3日,面壁智能CEO李大海与联合创始人刘知远先后发文,回应开源模型被斯坦福大学AI团队抄袭一事。李大海表示:“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式,另一方面呼吁大家共建开放、合作、有信任的社区环境。”“我们希望团队的好工作被更多人关注与认可,但不是以这种方式。” 5月29日,一个来自斯坦福的AI团队开始在网络上宣传500美元就能训练出一个SOTA 多模态模型,该模型名为Llama3-V,作者声称Llama3-V比GPT-4V、Gemini Ultra、Claude Opus 性能更强。公开资料显示,团队两位成员是来自斯坦福大学的本科生,曾发表多篇机器学习领域论文,实习经历包括了AWS、SpaceX等。 由于该团队成员拥有斯坦福、特斯拉等亮眼背景,Llama3-V项目很快冲到HuggingFace (一个开发者社区和平台)首页,并引发开发者群体的关注。 一位用户在社交平台X 与 HuggingFace 上质疑 llama-3V 是否套壳MiniCPM-Llama3-V 2.5 ,后者为面壁智能推出的开源端侧多模态模型,于 2024 年 5 月 21 日发布。 Llama-3V 团队彼时回应,他们只是使用了 MiniCPM-Llama3-V 2.5 的tokenizer(分词器,自然语言处理中的一个重要组成部分),并在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作。但团队并未解释如何做到在MiniCPM-Llama3-V 2.5发布之前就获取详细tokenizer的具体方式。 但随后,关于上述AI团队抄袭的声音越来越多。比如,Llama3-V的模型结构和配置文件与MiniCPM-Llama3-V 2.5完全相同,只是进行了一些重新格式化并将部分变量重新命名,如图像切片、分词器、重采样器、数据加载等变量。Llama3-V也具有与MiniCPM-Llama3V 2.5相同的分词器,包括MiniCPM-Llama3-V 2.5新定义的特殊符号。 据HuggingFace 页面显示,最初Llama3-V的作者在上传代码时直接导入了 MiniCPM-V 的代码,然后将名称更改为 Llama3-V。但作为其中一个作者,Mustafa Aljadery(穆斯塔法·阿尔贾德里)并不认为该行为属于抄袭。他发文称,llama3-v推理存在bug,并不是抄袭。“我已经指出了架构是相似的,但MiniCPM的架构来自Idéfics,我们遵循Idéfics论文中的那些内容。架构是基于综合研究的,你怎么能说它是MiniCPM呢?MiniCPM代码的视觉部分看起来也是从Idéfics那里使用的。” ▲清华简识别,圈红为正确答案 在李大海看来,另一证据在于Llama3-V同样使用了面壁智能团队新设置的清华简识别能力(清华大学于2008年7月收藏的一批战国竹简),且呈现的做错案例都与MiniCPM一模一样,而这一训练数据尚未完全公开。李大海称,这项工作是团队同学耗时数个月,从卷帙浩繁的清华简中一个字一个字扫描下来,并逐一进行数据标注,融合进模型中的。更加微妙的是,两个模型在高斯扰动验证(一种用于验证模型相似性的方法)后,在正确和错误表现方面都高度相似。 ▲作者之一解释删库原因 目前,上述斯坦福AI团队已对HuggingFace 上的Llama3-V模型进行隐藏处理,作者解释该动作时表示:“我是为了修复模型的推理问题而将其隐藏,因为模型必须有特定的配置运行。” “非常抱歉,我删除了它们,因为推理代码还没有准备好,每个人都有运行错误。我觉得人们现在最好不要用。你必须有特殊的配置。我一修好就把它放回去。”上述团队回应。 记者向作者团队之一的Siddharth Sharma发送邮件,询问删库动作的具体原因,以及后续在满足什么条件后会进行大模型的恢复。截至发稿前,暂未得到回应。 刘知远对此事评论称,人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。面壁开源的 MiniCPM-Llama3-V 2.5 就用了最新的Llama3 作为语言模型基座。而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。他们在受到质疑后已在Huggingface删库,该团队三人中的两位也只是斯坦福大学本科生,未来还有很长的路,如果知错能改,善莫大焉。 刘知远表示,国内大模型团队如智谱-清华GLM、阿里Qwen、DeepSeek和面壁-清华OpenBMB正在通过持续的开源共享,在国际上受到了广泛的关注和认可,“这次事件也算侧面反映出,我们的创新成果也一直受到国际关注。”刘知远说。
斯坦福AI团队被曝抄袭中国大模型开源成果,推特舆论开始发酵
原标题:重磅!斯坦福 AI 团队被曝抄袭中国大模型开源成果,推特舆论开始发酵 过去一年,中国大模型一直被贴上「追赶美国」的标签,但近日,推特上却有人曝出: 美国斯坦福大学的一个 AI 团队疑似抄袭、「套壳」一家中国大模型公司的开源成果,模型架构与代码完全相同。雷峰网 舆论已经开始发酵,引起了圈内人士的广泛讨论。雷峰网 根据 AI 科技评论整理,事情的经过大致如下: 5 月 29 日,斯坦福大学的一个研究团队发布了一个名为「Llama3V」的模型,号称只要 500 美元(约等于人民币 3650 元)就能训练出一个 SOTA 多模态模型,且效果比肩 GPT-4V、Gemini Ultra 与 Claude Opus 。 Github开源:https://github.com/mustafaaljadery/llama3v HuggingFace开源:https://huggingface.co/mustafaaljadery/llama3v(已删库) Medium发布文章:https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee Twitter官宣模型:https://twitter.com/AkshGarg03/status/1795545445516931355 由于该团队的作者(Mustafa Aljaddery、Aksh Garg、Siddharth Sharma)来自斯坦福,又集齐了特斯拉、SpaceX、亚马逊与牛津大学等机构的相关背景经历,很快该模型发布的推特帖子浏览量就已经超过 30 万,转发 300+次,并迅速冲到了 Hugging Face 首页: 但很快,没过几天,推特与 Hugging Face 上就开始出现怀疑的声音,质疑 Llama3V 套壳面壁智能在 5 月中旬发布的 8B 多模态小模型 MiniCPM-Llama3-V 2.5,且没有在 Llama3V 的工作中表达任何「致敬」或「感谢」 MiniCPM-Llama3-V 2.5 的声音。 对此,Llama3V 团队回复,他们「只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer」,并宣称「在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作」。 紧接着,6 月 2 日,有网友在 Llama3V 的 Github 项目下抛出事实性质疑,但很快被 Llama3V 的团队删除。为此,提出质疑的网友被激怒暴走,跑到了 MiniCPM-V 的 Github 页面进行事件还原,提醒面壁智能团队关注此事。 随后,面壁团队通过测试 ,发现 Llama3V 与 MiniCPM-Llama3-V 2.5 在「胎记」般案例上的表现 100% 雷同,「不仅正确的地方一模一样,连错误的地方也一模一样」。 至此,推特舆论开始发酵,「斯坦福抄袭中国大模型」一事不胫而走。 1、「套壳」证据实锤,斯坦福团队百口莫辩 最开始,用户质疑 Llama3V 套壳 MiniCPM-Llama3-V 2.5 开源模型时,Llama3V 作者团队并不承认,而是声称他们只是「使用了 MiniCPM-Llama3-V 2.5 的 tokenizer」,并宣称他们「在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作」: 不过,好心网友对 Llama3V 作者团队的回应并不买单,而是在 Llama3V 的 Github Issue 上发布了一系列质疑,列举具体 4 点证据,但很快被 Llama3V 的团队删除。幸好作者事先截了图保留: 面对网友的质疑,Llama3V 作者只是避重就轻地回复,称他们只是使用了 MiniCPM 的配置来解决 Llama3V 的推理 bug,并称「MiniCPM 的架构是来自 Idéfics,SigLIP也来自 Idéfics,他们也只是追随 Idéfics 的工作」而非 MiniCPM 的工作,因为「MiniCPM 的视觉部分也是来自 Idéfics 的」—— 并且将原来 readme 里引用致谢 「MiniCPM-Llama3 」改为了「致谢 MiniCPM」: 但根据网友的复盘、梳理,Llama3V 并非只是简单的借鉴,而是有 4 点证据能充分表明其「套壳」了 MiniCPM-Llama3-V 2.5。 证据 1: Llama3V 项目使用了与 MiniCPM-Llama3-V 2.5 项目完全相同的模型结构和代码实现。 Llama3-V 的模型结构和配置文件与 MiniCPM-Llama3-V 2.5 完全相同,只是变量名不同。 图左为 MiniCPM-Llama3-V 2.5,图右为 Llama3V Llama3-V 的代码是通过对 MiniCPM-Llama3-V 2.5 的代码进行格式调整和变量重命名得到的,包括但不限于图像切片方式、tokenizer、重采样器和数据加载: 证据 2: Llama3V 团队称其「引用了 LLaVA-UHD 作为架构」,但事实是 Llama3V 与 MiniCPM-Llama3-V 2.5 结构完全相同,但在空间模式等多方面却与 LLaVA-UHD 有较大差异。 Llama3-V 具有与 MiniCPM-Llama3V 2.5 相同的标记器(tokenizer),包括 MiniCPM-Llama3-V 2.5 新定义的特殊标记: 证据 3: Llama3V 作者曾在 Hugging Face 上直接导入了 MiniCPM-V 的代码,后改名为 Llama3V。事件发酵后,AI 科技评论打开 Hugging Face 页面发现已经「404」: https://huggingface.co/mustafaaljadery/llama3v/commit/3bee89259ecac051d5c3e58ab619e3fafef20ea6Llama3V 作者回应删除 Hugging Face 仓库的原因是「修复模型的推理问题」,并称他们「尝试使用 MiniCPM-Llama3 的配置,但并没有用」: 戏剧效果拉满的是,该网友随后贴出了如何使用 MiniCPM-Llama3-V 的代码,跑通 Llama3V 模型推理的详细步骤。 当 Llama3V 的作者被询问如何能在 MinicPM-Llama3-V2.5 发布之前就使用它的 tokenizer 时(因为其一开始称他们在 MinicPM-Llama3-V2.5 发布前就已经开始了 Llama3V 的研究),Llama3V 的作者开始撒谎,称是从已经发布的上一代 MinicPM-V-2 项目里拿的tokenizer: 但事实是,据 AI 科技评论向面壁团队了解,MiniCPM-V-2 的 tokenizer 与 MinicPM-Llama3-V2.5 完全不同,在Huggingface 里是两个文件,「既不是同一个 tokenizer 件,文件大小也完全不同」。 MinicPM-Llama3-v2.5 的 tokenizer 是 Llama3 的 tokenizer 加上 MiniCPM-V 系列模型的一些特殊 token 组成,MiniCPM-v2 因为在 Llama3 开源之前就发布,所以不会有 Llama3 的 tokenizer : 证据 4: Llama3V 的作者删除了 GitHub 上的相关 issue,并似乎不完全理解 MinicPM-Llama3-V2.5 的架构或 Llama3V 自己的代码。 Perceiver重采样器是一个单层的交叉注意力机制,而不是两层自注意力机制。SigLIP 的 Sigmoid 激活函数并未用于训练多模态大型语言模型,而仅用于 SigLIP 的预训练。 但 Llama3V 在论文中的介绍却说其采用了两层自注意力机制: 而 MiniCPM-Llama3-V 2.5 和 Llama3V 代码如下,体现的却是单层交叉注意力机制: Llama3-V: MiniCPM-Llama3-V 2.5: 且视觉特征提取不需要激活 sigmoid: 2、推特舆论发酵,面壁回应 6 月 2 日下午,该事件开始在推特上发酵,MiniCPM-V 的作者亲自发帖,表示「震惊」,因为斯坦福的 Llama3V 模型居然也能识别「清华简」。 据 AI 科技评论向面壁团队了解,「清华简」是清华大学于 2008 年 7 月收藏的一批战国竹简的简称;识别清华简是 MiniCPM-V 的「胎记」特征。该训练数据的采集和标注均由面壁智能和清华大学自然语言处理实验室团队内部完成,相关数据尚未对外公开。 斯坦福的 Llama3V 模型表现与 MiniCPM-Llama3-V 2.5 检查点的加噪版本高度相似: 以下是面壁团队成果与 Llama3V 对「清华简」的识别对比。结果显示,两个模型不仅正确的地方一模一样、错误的地方也雷同: Q:请识别图像中的竹简字? MiniCPM-Llama3-V 2.5:民 Llama3-V:民 GT:民 错误识别示例: Q:请识别图像中的竹简字? MiniCPM-Llama3-V 2.5:君子 Llama3-V:君子 GT:甬 以下是在 1000 个清华简字体上的识别效果: 可以看到,Llama3V 与 MiniCPM-Llama3-V 2.5 的重叠高达 87%,且两个模型的错误分布律高度相似:Llama3V 的错误率为 236,MiniCPM-Llama3-V 2.5 的错误率是 194,两个模型在 182 个错误识别上相同。 同时,两个模型在清华简上的高斯噪声也同样高度相似: 此外,Llama3V 的 OCR 识别能力在中文字上也与 MiniCPM-Llama3-V 2.5 高度相似。对此,面壁团队表示,他们很好奇斯坦福团队是如何只用「500 美元就能训练出这么高深的模型性能」。 根据公开信息显示,Llama3V 的两位作者 Siddharth Sharma 与 Aksh Garg 是斯坦福大学计算机系的本科生,曾发表过多篇机器学习领域的论文。 其中,Siddharth Sharma 曾在牛津大学访问、在亚马逊实习;Aksh Garg 也曾在 SpaceX 实习。 这件事反映出,AI 研究的投机分子不分国度。 同时,也反映出,中国科研团队的开源大模型实力已经冲出国门,逐渐被越来越多国际知名的机构与开发者所关注、学习。 中国大模型不仅在追赶世界顶尖机构,也正在成为被世界顶尖机构学习的对象。 由此可见,今后看客们审视国内外的大模型技术实力对比,应该多一份民族自信、少一点崇洋媚外,将关注度多聚焦在国内的原创技术上。雷峰网(公众号:雷峰网) 最后,一句话总结:投机不可取,永争创新一。
OpenAI突袭谷歌TPU芯片人才,奥特曼亲自下手,准备从微软另起炉灶?
OpenAI从来没有掩藏其芯片和基础设施野心,它一度被吹到了7万亿美元。但之前一直停留在各种讨论上,江湖上传闻也很多。 这一次,他们要玩真的了。OpenAI准备构建性能/总拥有成本(TCO)最优的机器学习基础设施。 OpenAI对谷歌TPU芯片的顶尖人才开始了大胆的偷猎行动,据半导体博客Semianalysis, 其半导体团队人数迅速从几个人增加到两位数。几乎所有被挖走的人,要么现在 Google TPU 工作,要么曾在 Google TPU 工作过。 TPU的前员工大多在初创公司工作,试图以更创新/激进的方式解决 AI 扩展的最大障碍。如加速芯片和推理引擎独角兽公司Groq的创始人兼CEO Jonathan Ross,曾在谷歌参与设计并实现了第一代TPU芯片。 OpenAI对顶尖TPU人才有各种诱惑: 首先,加入OpenAI,就有机会参与构建人类有史以来最宏大的计算机系统,涉及许多机器学习系统、扩展和软硬件协同设计挑战,事业心强的人会对此心向往之。OpenAI的算力雄心超过了任何竞争对手,它要构建百万加速器级的系统,其规模比训练GPT-4的系统大了数个数量级。相比之下,谷歌最新的两代TPUv5 和TPUv6(Trillium) 在系统设计和微架构上目标不够雄心勃勃,更像是迭代改进。 其次,团队成员可以与模型研究团队合作,障碍比在其他公司要少得多。尽管TPU团队和Google DeepMind团队合作相当密切,但业内普遍认为,在谷歌庞大的官僚体系中,这种合作的深度远不及OpenAI团队内部。 最后一个原因当然是金钱。OpenAI开出的基本工资很体面,但更重要的是,他们向高级工程师提供每年数百万美元的“股权”。这里所谓的股权,是指OpenAI内部自己制定的“利润分红单位”的股权结构。 OpenAI已经挖到了很棒的人才。据Semianalysis,在问到这些人的同行时,得到的评价往往是“他们是我合作过的最好的工程师之一”。Google已经采取了一些行动试图防御,但相对于OpenAI提供的诱人条件,力度显然不够。连奥特曼都亲自下手了。 实际上,Google TPU团队已经是报酬最高的半导体设计团队之一,工程师的平均收入远高于大多数半导体公司,如AMD、Intel、Qualcomm等。只有Nvidia在薪酬方面能与Google竞争,但都不及OpenAI。 OpenAI自己做芯片和基础设施也是迫不得已。他们目前处境尴尬,不能完全依赖微软的芯片,因为两者的关系已经紧张,微软正在认真制定自己的应对计划。 而且从长远来看,要想节约成本,OpenAI也无法从微软那里获得多少优惠,因为微软希望从“外部”租用其内部芯片中获利。OpenAI希望自己设计,以更接近制造成本获得自己的芯片和系统。最后,OpenAI对微软芯片的设计缺乏控制,因此这些芯片及其系统不太可能完全符合其需求。 OpenAI也不敢从英伟达或AMD这样的合作伙伴处挖角,因为那样会损害合作关系。Google TPU是唯一在超大规模系统上能从内部替代英伟达的芯片。亚马逊、Meta和微软团队仍然严重依赖英伟达的GPU,所以不必从那些尚未成功的团队挖人。没有别的选择,只能从自己的死敌Google TPU团队挖人。 初创芯片团队,失败率很高,新组建的芯片团队,困难重重。芯片只是第一个难关,还有系统、互连、数据管理、网络和规模、软件等一堆的挑战。假设OpenAI挖到了他们想要的人才,预计至少要到2027年底,才可能有一个完全自主设计的芯片以一定的量产进入市场。 也有一种可能,是OpenAI先强化基础设施团队,为其下一代大模型训练和部署做准备,如Sora和GPT-4o,甚至GPT-5。 运行人工智能软件的硬件基础设施对资本支出(Capex)和运营支出(Opex),以及随后对毛利率的影响,显著大于以往软件时代,其中开发成本相对较高。因此,优化人工智能基础设施,对于部署人工智能软件显得尤为重要。在基础设施方面具有优势的公司,也将在部署和扩展人工智能应用方面具有优势。 在这方面经验最丰富、最具优势的,无疑是谷歌。早在2006年,谷歌就开始推广建立人工智能专用基础设施的想法,2013年开始开发TPU芯片,2016年投入量产。在SOTA模型与基础设施之间的协同,谷歌做得最好。 自2016年以来,谷歌已经开发了8种不同的人工智能专用芯片:TPU、TPUv2、TPUv3、TPUv4i、TPUv4、TPUv5,TPUv5e和刚发布的TPUv6 (Trillium)。这些芯片主要由谷歌设计,同时在中端和后端与博通有不同程度的合作,均由台积电制造。自TPUv2以来,这些芯片还采用了三星和SK海力士的HBM内存。 谷歌具备在大规模部署人工智能时以低成本和高性能可靠运行的能力。谷歌在人工智能工作负载的性能/总拥有成本(perf/TCO)方面优于微软和亚马逊,这归功于谷歌从微架构到系统架构的整体方法。 谷歌介绍,在最近的谷歌I/O大会上推出的Trillium TPU,在每个芯片的峰值计算性能上,相比TPUv5e提升了4.7倍,使得下一代基础模型的训练速度更快,并能以更低的延迟和成本提供这些模型。能效提高了67%以上。Trillium TPU可以扩展到数百个节点,用每秒数个petabit的数据中心网络,连接成千上万数量级的芯片,形成建筑级的超级计算机。
对标 Steam Deck,续航同级最强,为什么说这台 799 美元游戏掌机诚意满满?
Steam Deck 在 2022 年刚发售时,引起了不小的轰动。 多数主机游戏爱好者对它好评如潮的原因,简单直接: 能把 3A 游戏捧在手上玩了。 之后,PC 掌机进入了爆发期,AYANEO 2、LOGITECH G Cloud、LEGION Go、PlayStation Portal 等产品逐渐走进玩家的世界。 华硕 ROG Ally 在当中的关注度很高,因为它从性能、屏幕、硬件、平台兼容性等各个方面,都全面对标甚至超越 Steam Deck。 这周,ROG Ally 发布了旗下的第二款产品,和一般游戏掌机的「半代更新」不同,华硕从命名上就想体现出,这是一台迭代机—— ROG Ally X。 外观细节优化,内部结构重组,比起 Steam Deck 推出的 OLED 版,ROG Ally X 的诚意更足,当然 799 美元(约合人民币 5788 元)的售价,也来到了历史新高。 顺手,是每台掌机的必修课 说到底,PC 掌机始终都要拿在手里,顺手与否,往往决定着玩家们的游戏时长。 ROG Ally X 的外观,有了很大的改进,结果就是,新机器握着更舒服。 在手柄部分,Ally X 用了更坚固的材料,虽然看起来只是加厚了 4.5mm,不过新曲线的设计更贴手,不会在设备和人手之间留出太多空间,压力也得到了更好的分摊。 与手掌贴合的部分还做了防滑纹理,这是手汗大的玩家的福音。 摇杆的位置也有微调,新的布局让大拇指在各个按钮之间的移动更加轻松。 另外,摇杆的耐用性在 Ally X 上直接翻倍,霍尔摇杆技术的加入,让组件从上代的 250 万次的额定转动次数直接翻了一番,新摇杆为 500 万次。 喜欢暴力操作和微操的玩家,有了更多的发挥空间。 D-Pad 方向按钮同样被重新设计,新十字按键的反馈更加直接清脆,8 个方向的输入更容易让玩家知晓,上一代被诟病的粘性过高有了调整。 机身顶部略微凹陷的电源键,其实也能体现「人因设计」,一是只用手就能快速定位按键位置,二是结合了指纹识别,按下就能快速开启游戏。 另外,食指专属的肩键和扳机,细微调整了轮廓角度,在不降低准确、响应性的同时,更加符合手指放松状态下的位置和角度。 来到背面,M 键是 Ally 的标志性按键,可自定义的宏按钮能够执行部分游戏的额外功能。 Ally X 的 M 键相较于上代小了一圈,既保留了按键的灵活性,又减少了误触的几率。 最后,作为一台游戏机,特别是 ROG 的游戏机,灯光自然必不可少。 两个摇杆下方的环形 RGB 灯组可以和 Aura Sync 支持的游戏配合使用,不管是游戏氛围还是情绪价值,有时候就是一盏灯的事儿,现在 Ally X,给了两盏。 虽然 ROG Ally X 的屏幕材质没有更新,但 7 英寸 1080p 的触摸屏依然能打,比起普通 LCD 屏 200-300 nits 的最大亮度,Ally X 则可以达到 500 nits。 高亮度不仅能给游戏带来更好的视觉体验,也能让掌机在室外使用,「移动」属性因为屏幕亮度彻底释放。 而且 Ally X 的玻璃采用了康宁 DXC 涂层,这种材料可减少屏幕表面的反射,环境光反射的减少,意味着玩家即使白天在户外,也能轻松看清游戏画面。 新材料的使用,也把屏幕硬度提高了 40% 以上,耐刮擦性有了明显的提升。 看不见的地方,才是重头戏 如果说外形的升级只是开胃菜,那在看不见的机身内部,才是这次 Ally X 更新的「黑科技」。 移动设备的散热,是全球电子厂商共同面对的难题。 越追求移动便携的设备,由于体型的限制,散热效果也会更差,第一代 Ally 就被反应有长时间使用后发热严重,甚至烫手的问题。 哪怕手能受得了,但高温带来的性能下降、游戏掉帧的减分体验,最后还是会把玩家劝退。 因此 Ally X 的内部散热系统,也进行了全面升级,运行中的机器想要大幅升温,得先经过「五重关」。 华硕在机器内部的上方,装了一条粗又长的零重力热管,利用当中的微小结构改善热量的传递。 新结构使管道的毛细压力增加了 15% 以上,让设备在任何角度使用时,都能保持高效散热。 第二关是重构了散热风扇,新的风扇更薄,每个叶片之间有更多的空间让空气通过,0.15mm 的厚度让整体气流增加了 10%,还给电池流出了更大的空间。 并且,两个风扇都采用了流体轴承结构,不管设备怎么摆放,这种结构在运行时的摩擦力都很小,保证了在多年的使用中,风扇都能高速旋转。 在风扇模组的外围,覆盖了一大片防尘网,进入的灰尘越少,机器在长时间使用后,冷却效率就能保持得越好,也不会发出噪音。 最后,Ally X 仅有 0.1mm 的散热器增加了翅片的密度,提高散热效果的同时,还降低了空气阻力。 整块散热器上的翅片加起来,共有 102 个,总面积达到了 12173 mm²,相当于两张名片的大小。 好掌机的奥义:软硬兼顾 更好的散热,终究是为了更加的性能,Ally X 在内部配置上,也有了不少的升级。 Ally X 的核心,依然搭载的是 AMD 锐龙 Z1 Extreme 处理器,内置集成显卡为 RDNA3 。 另外 Ally X 将前代的 16GB LPDDR5-6400 内存,升级为更高速的超高频内存 24GB LPDDR5X-7500。 新的内存容量更大,游戏数据的传输延迟更低。 原装 SSD 硬盘容量也从 512GB 升级至 1TB,且硬盘插槽长度,也由 M.2 的 2230 延长到 2280,更方便扩展。 让 Ally 可玩性增加的点,实际上在 I/O 配置(输入/输出)的升级。 掌机顶部的 XG Mobile 显卡拓展坞接口,更换为 2 个 Type-C 接口:USB 4 和 USB 3.2 Gen2。它们同时支持 PD 3.0 充电与 DP 1.4 显示输出功能。 简单讲, Ally X 可以连接更多的第三方显卡坞和外接设备。 更重要的是,电池容量由前代的 40Wh 翻倍升级至 80Wh。 这不仅远超同类竞品,也体现了华硕对 PC 掌机的深入理解:便携且兼顾续航。 游戏平台的体验,除了要有强大的硬件支持,也需要好用的软件协同。 ROG Ally X 自带的奥创智控中心 SE,升级到 1.5 版本,全新界面,支持导出和导入按键映射,集成 BIOS、显卡驱动更新。 经过一年的积累,ACSE 已经成为集成了丰富的游戏生态功能: 管理游戏库 设定游戏设置档 调节机身性能 设定陀螺仪 支持高开放度摁键映射 校准手柄灵敏度 管理软件更新等 外部重构,内部重组,硬件升级,软件优化。 可以看出,华硕很重视这台 ROG Ally X,在市场竞品大部分都选择屏幕、颜色、内存等小项目半代更新的策略时,它们则多走了半步。 这些在外观和配置上看似微小的更新,实则会给玩家的使用体验带来巨大的提升。 前代的小毛病就像鞋里的小石子,虽然没有伤害也不影响使用,但心里会很难受。 不衬手的手柄、总是误触的按键,用一会儿就发烫的屏幕,其实都是一颗颗「伤害性不大侮辱性拉满」的石子。 ROG Ally X 不仅把这些膈应人的小问题一一解决,还在那些看不见的配置和性能上,走在了行业的前列。 配置顶级,续航顶级,价格也是。 只是希望,Ally X 大版本的更新,以及在体验上的提升,能对得起「遥遥领先」的 799 美元。
亚马逊推出“侦探”项目:AI火眼金睛确保商品发货前无瑕疵
IT之家 6 月 4 日消息,为了让顾客收到满意的商品,亚马逊祭出利器 ——“Project PI”(侦探项目)。这项结合生成式 AI 和计算机视觉技术的系统,能够在商品运送给顾客之前,就找出损坏、颜色错误或尺寸不对的产品。 具体工作流程是这样的:即将送达的商品会通过一个装有扫描装置的隧道。计算机视觉程序 (一种能分析图像内容的 AI 技术) 会检查商品是否存在瑕疵。如果发现问题,系统就会将这件商品分离出来,并进行缺陷评估,同时检查是否有类似问题存在于其他批次商品中,以便追根溯源。 据亚马逊介绍,Project PI 目前已在美国多个仓库投入使用,并将在今年内覆盖更多站点。去年,亚马逊还推出了另一套系统,可以标记经常被退货的商品,帮助顾客在购买前避开潜在的问题产品。这些举措都旨在避免让顾客陷入“噩梦般的”退货流程,不仅对顾客有利,而且对亚马逊自身和环境(减少碳排放)都大有裨益。 亚马逊表示,人工审核员会检视 Project PI 标记出的商品,并决定是将其放入亚马逊特有的“Second Chance”折扣区销售,还是捐赠给其他机构。 IT之家注意到,亚马逊还正致力于引入一种多模态大型语言模型,来调查顾客不满的原因。该 AI 工具会分析顾客的反馈意见,然后结合 Project PI 捕捉的图像和其他数据源,找出问题所在。亚马逊表示,这项技术可以帮助其他卖家识别是否意外地错贴了标签。
三星先发制人 起诉Oura以阻止智能戒指专利申请
三星并没有坐等 Oura 对其即将推出的智能戒指提出专利索赔。相反,三星抢先对 Oura 提起诉讼,寻求"宣告性判决",声明 Galaxy Ring没有侵犯 Oura 的五项专利。 这起诉讼称,Oura 以"几乎所有智能手环的共同特征"为由对竞争对手提起专利诉讼。诉讼中特别提到了传感器、电子设备、电池和基于传感器收集的指标的评分。该案列举了Oura起诉Ultrahuman、Circular和RingConn等竞争对手的事例,有时这些公司甚至还未进入美国市场。 出于这些原因,三星在诉讼中表示,它预计会成为 Oura 诉讼的目标。在 Galaxy Ring 发布后不久,Oura 向媒体发送了一份未经提示的声明 , 介绍了其知识产权组合的实力,指出公司拥有"100 项已授权专利、270 项正在申请的专利和 130 多个注册商标"。 诉讼还引用了CNBC对 Oura 首席执行官汤姆-黑尔(Tom Hale)的采访,他在采访中表示,公司将密切关注三星的 Galaxy Ring,并"采取适当的行动"。三星还引用了 Hale 和其他 Oura 高管吹嘘该公司知识产权组合实力的其他几个例子,以及该公司愿意采取行动保护其专利的事实。 诉讼还证实了即将推出的 Galaxy Ring 的一些细节。诉讼指出,硬件设计于 5 月中旬完成,计划于 6 月中旬开始量产,预计"今年 8 月左右"登陆美国市场。它还包括一张三星健康应用截图,显示了基于睡眠、活动、心率和心率变异性等指标的"能量分数"功能。 这类专利战在小型数码产品领域并不少见。例如,医疗设备制造商 Masimo 去年底赢得了美国国际贸易委员会(ITC)对 Apple Watch 的进口禁令,声称Apple Watch 侵犯了它的血氧专利,从而成为头条新闻。尽管如此,如果法院判决三星胜诉,可能会对智能手环市场产生连锁反应。 到目前为止,Oura 作为智能手环市场的领军者几乎没有任何争议。三星是第一个加入竞争行列的大牌科技巨头--鉴于其丰富的小工具生态系统,它对 Oura 构成了真正的威胁,而规模较小、知名度较低的智能戒指制造商则没有这种威胁。此外,三星的胜利也会给较小的智能手环制造商提供一些对抗 Oura 的筹码。 无论如何,三星进军智能手环市场表明,经过几年的沉寂,这一类别正在升温。如果过去几个月有任何迹象表明,Oura 可能已经感受到了这种热度。它在过去几个月里发布了几个软件更新,同时还将销售渠道扩展到百思买、塔吉特和亚马逊等零售商。
2024台北电脑展首日看点:英伟达AMD强芯“炸场”,ARM CEO放豪言
凤凰网科技讯(作者/刘俣辰)6月4日,2024台北电脑展会开幕。展会首日,英伟达公布了其在AI领域进展,AMD在会上展示了重新定义性能和效率的新处理器。 在2024台北国际电脑展首日,英伟达在其主题演讲中,展示了公司全面的生态系统,包括蓬勃发展的开发者社区、大量优化的应用程序和多样化的芯片、系统、网络解决方案和专业技术组合。 英伟达CEO黄仁勋强调,公司正致力于不断改进人工智能加速器,将降低成本和能源需求,增加新的工具和软件模型作为年度升级的重点。CEO黄仁勋的虚拟形象和语音克隆在主题演讲中亮相,展示出英伟达GPU在提供高达每秒万亿次操作性能方面的功能。 在此次活动中,英伟达推出了预训练的人工智能模型——NVIDIA Inference Microservice (NIM),该模型集成了CUDA、QDNN、TensorRT和Triton等云原生技术,旨在支持企业数据中心和云服务提供商。 同时,AMD将于2024年第四季度推出MI325X,与英伟达的年度发布周期保持同步。 这个新版本强调了AMD提供高性能人工智能计算解决方案的承诺,可以与英伟达的产品进行正面竞争。此外,AMD推出了第三代锐龙系列的Strix Point处理器,突显了其在个人电脑和笔记本电脑领域的影响力。这些处理器专为超薄和高端笔记本电脑而设计,结合了Zen 5 CPU, RDNA 3.5图形和XDNA 2 NPU,能够在低功耗下为AI体验提供50 TOPS的计算。 据悉,第三代Ryzen AI系列处理器提升了AI和计算性能,AMD最新的NPU达到50 TOPS,计算能力是其前身的5倍,能效是其前身的2倍。 Copilot PC由AMD的新处理器提供支持,集成了设备上的人工智能,实现了具有强大性能和效率的高级功能。 高通在2024年台北国际电脑展上的重点集中在AI PC、合作伙伴关系和能效上。高通与Microsoft、戴尔、联想和惠普等主要参与者的合作伙伴关系标志着其进入PC行业。这些合作对于高通在竞争激烈的PC市场中站稳脚跟的战略至关重要。 展会上,Arm首席执行官Rene Haas宣布,到2025年底,将有超过1000亿台Arm设备准备好用于AI应用。Arm推出了面向客户端和Cortex X925的新CSS,承诺在下一代pc的AI和安全性方面取得重大进展。 此前,其专属于数据中心,目前公司准备提高消费设备的性能和效率。
Flyme Auto 和 EM-P,领克打出两张技术牌
中国汽车市场的竞争态势现在已经激烈到了历史的极值,上个月的销量过万的爆款,下个月可能因为竞品的突然出现或者大降价就销量减半,甚至也会因为一个技术的出现,一款大爆款的出现,直接宣判这个品类里只有一家胜者。 5 月底,领克在深圳举办了一场 Co:Talk 技术分享会,主要是两个技术重点:领克 EM-P 超级增程电动方案和 Flyme Auto 智能座舱,分别关系到了车怎么开,以及车怎么坐。 其实这就是关于竞争态势的回答,在一个品牌信仰逐渐崩塌,技术和产品信仰逐渐崛起的时代,把产品搞好是应对竞争的唯一的答案。 EM-P 方案,特别在哪里 前不久比亚迪第五代 DM-i 混动技术发布,加上秦 L 那 9.98 万元售价,又让汽车圈,尤其是合资车企大受震撼。其中关于发动机热效率谁是世界第一的争辩,也牵扯到了比亚迪和吉利两家汽车大厂。 不过那相差无几,区别只有百分之零点几的热效率在实际场景下可以忽略不计,真正的区别是,EM-P 超级增程电动方案特别在哪儿,和领克契合在哪儿。 首先就是关于 3 档 DHT 和单档 DHT 的路线之争。 和把省油省电放在第一位的车型相比,领克车型,尤其是刚刚发布会的领克 07 和领克 08 定位上更偏中产定位和驾驶乐趣。所以「有电龙,没电虫」的情况在领克车型上不被允许,这就是 3 档 DHT 的意义,领克方面表示: 领克 EM-P 拥有纯电/直驱/并联/串联驱动方式,电混引擎还能够 3 挡调速,降挡增大扭矩,确保亏电状态下加速能力衰减小,有电没电都能做到动力反应迅捷,提速快。 这就是 EM-P 方案的第一个特点:全程高能。 另外,在 Co:Talk 上,领克还介绍了 EM-P 超级增程电动方案另外的两个优点:超长续航和超级性能。 超长续航是指领克 07 和领克 08 EM-P 车型的 CLTC 工况纯电续航里程都超过了 100km,最高可达 245km,城市通勤的话,245km 足够一般情况一周的上下班通勤,满油满电的综合续航超过 1000km,最高能够达到 1400+km,足够京沪京杭跑一遍,中间无需补能。 超级性能则是指几款新车的前驱电机功率达 160kW,在混动车型里处于前列,最强的领克 08 EM-P 220 四驱性能 Halo 版本总功率达到了 436kW,最快零百加速达到了 4.6 秒。 另外,在驱动电机与电混引擎的配合下,领克 EM-P 车型的时速 100-120km 再加速能力也会强,在高速场景下超车利索,不并行更安全。 问题来了,强是强一些,但会不会更费油啊? 领克也给了相应的解决方案,就是超级增程驾驶模式,以及智能能量管理。 按照领克的说法,超级增程模式就是 AUTO 模式,系统智能调节动力模式,城市场景中,时速 88 公里以下时候,处于驱动电机的高效区间,EM-P 优先以电驱动(纯电或串联增程)行驶,降低能耗。 当在高速公路,也就是时速 88 公里以上时候,处于电混引擎的高效区间,EM-P 优先以电混引擎直驱或并联驱动,确保动力性能的同时,降低能耗。 这其中还有关键的智能能量管理技术,能够结合算法,导航数据、惯用路线、环境感知、驾驶习惯,智能调节能量管理策略,降低能耗。 举个例子来说,导航数据显示 10km 后进入拥堵路段,领克 EM-P 将在拥堵之前的路途中保电,拥堵时车辆就能以纯电行驶,节省能耗。 再具体说一下环境感知,基于已行驶的一段路程,车辆可以智能识别城市、高速、山路、低温、高原,全气候,采取不同的能量管理策略。比如说领克 EM-P 感知到车辆正持续以中低速大负荷行驶+海拔变化,智能判断车辆正处于盘山路驾驶,动力输出更灵敏;山路较多时(如在重庆),系统的电量平衡点会更高,因为爬坡路段动力需求更高。 Flyme,吉利和领克的软实力 在 Co:Talk 技术分享会现场的 PPT 右下角水印上,和 EM-P 并列的,则是 Flyme Auto,并且领克还预告,不久后的 Flyme Auto 更新,将会支持 CarPlay。 如果说 EM-P 是硬技术的话,那么 Flyme Auto 就是软实力,自去年首发在领克 08 之后,市面上关于领克车机的吐槽就减少了,2022 年吉利通过星纪时代控股魅族的投资,也迎来了开花结果的时刻。 虽然手机业务开展并无明显进展,但是对于整个吉利系,尤其是领克来说,Flyme Auto 毫无疑问地增强了他们的产品力。 在领克 07 上,Flyme Auto 的玩法更多样,除了此前领克 08 上 Flyme Auto 的 3D 车模无缝转场,如然引擎映射真实世界,如然空调,Flyme Link 车手互联之外,这一次在领克 07 上还加入了 Co Pad。 Co Pad 是领克以车企身份首发的平板电脑,可通过 Flyme Link 实现座舱多屏无缝互联,实现各种功能: 可控车:后排随心控车,四座同享便捷,可控制座椅、空调、氛围灯等功能 可娱乐:影视多屏共播,全车视听联动;Pad 海量应用无缝流转上车, 畅享亲子时光 可看护:车机关怀模式,前后实时交互,路途陪伴、安全呵护 并且,Flyme Auto 帮助领克 07 成为 20 万以内首个实现多屏互联娱乐生态的新能源汽车,协调了中控屏、全液晶数字仪表、AR-HUD、后排 Co Pad、手机多屏联动。 无独有偶,在 Co:Talk 技术分享会的同一时间,吉利银河 E5 Flyme Auto 智能座舱迎来首发,这意味着 Flyme Auto 登陆更多吉利系车型,并且随着 Flyme Auto 成为银河 E5 的座舱系统,「Flyme Sound 无界之声」也随之亮相,在银河 E5 上进行首发。 吉利银河方面则表示,在龍鷹一号芯片、16G 运行内存、吉利星睿智算中心算力的加持下,银河 E5 上的 Flyme Auto 能够和华为车载鸿蒙系统和小米澎湃系统处于并驾齐驱的水平,这三者都是车手互联的典型。 Flyme Sound 无界之声作则是吉利自研的智能音响系统,以平价车型价格,媲美「柏林之声」,银河 E5 搭载了 16 个扬声器,拥有 1000W 独立功放,以及同级唯一头枕扬声器。 这里吉利把自研音响系统以 Flyme 命名,也是明白了一件事,随着 Flyme Auto 口碑和体验向好,吉利系包括领克需要一张对外的招牌,现在看来,这块招牌上印着 Flyme。
大湾区首个大模型AI生态社区来了!华为腾讯智谱AI等大佬齐聚,沈向洋谈五大思考
作者 | 李水青 编辑 | 心缘 智东西6月4日深圳报道,6月3日,2024深圳人工智能生态大会暨“模力营”AI生态社区揭牌仪式在深圳举行。大会期间,多项重大政策、平台成果、联盟、生态计划集中发布。 大湾区首个大模型AI生态社区——深圳“模力营”正式揭牌,算力供应服务平台、语料数据服务平台、大模型合规服务平台等七大“模力营”模力支撑平台同步推出。 同时,首批11家AI企业入驻“模力营”。入营企业将率先获得算力、空间及应用场景方面的补贴及支持,比如获得每年最高100万元的算力补贴,享受两年免租、空间装修免费等优惠政策等。 大会主题演讲汇聚了多位产学研重磅嘉宾——IDEA研究院理事长、美国国家工程院外籍院士沈向洋,华为首席战略架构师党文栓,腾讯云副总裁王麒,智谱AI首席执行官张鹏,香港生成式智能研发中心总经理柳崎峰,神州数码副总裁、CTO李刚,分别从数据、算力、模型与框架、应用、产品、治理、未来目标等关键维度分享前沿进展。 会上,深创赛首届“人工智能领域挑战赛”、南山区人工智能场景应用示范“揭榜挂帅”项目征集相继启动,成功揭榜企业、团队将最高获得800万元的支持。此外,深圳市计算机学会大模型专委会、南山区根技术生态联盟、南山区新质生产力协会也于昨日创立,成为推动AI产业发展的关键平台。 在AI专题展区,神州数码、优必选科技、逐际动力、宇树科技、雷鸟创新等24家具身智能、大模型领域企业展出了前沿技术、产品及解决方案。 ▲大会现场的AI专题展区吸引了众多产业人士驻足了解 一、IDEA研究院理事长沈向洋:AI革命将带来智力的大规模生产 IDEA研究院理事长、美国国家工程院外籍院士沈向洋出席现场,讲述了关于大模型产业五个方向的体会。 一是“算力是门槛”。今天如果没有500-600亿做算力投入而去做AI云,基本是不可能的,“讲卡伤感情,没卡没感情”。 二是“关于数据的数据(Data abaut data)”。从GPT-3到GPT-5,所需的数据量很可能暴增到200T,多模态数据和人工合成数据成为关键的数据类型,互联网40年的数据积累是否就在等待这个AI时刻? 三是“智力的大规模生产”。经过了农业革命带来粮食的大规模生产,工业革命带来钢铁的大规模生产以及信息革命带来信息的大量生产,今天,新的AI革命将带来智力的大规模生产。 四是“开源和闭源问题”。中美AI技术差距难以用标准数据来回答,互联网和开源为赶超差距带来了机会,中国开源需要引领一些项目,这些领域有很多机会。 五是“大模型的下一章”。从语言模型到多模态模型,再到未来的世界模型,其中一个巨大的机会在于机器人,未来的世界将是机器人的世界,这尤其对深圳及南山区来说是巨大的机会。 ▲IDEA研究院理事长、美国国家工程院外籍院士沈向洋在演讲 二、大湾区首个大模型AI生态社区来了,首批11家企业入驻,享三类优惠政策 昨日,大湾区首个大模型AI生态社区——深圳“模力营”正式揭牌。 深圳市“模力营”定位是一个集资源与服务于一体的生态服务平台,而非传统意义的孵化器或产业园。“模力营”秉承“拎包入住”政策,辅以“南山AI 10条”专项政策,提供总额超2000万元的资金补助,以减轻企业负担,激发创新活力。 从空间布局来看,“模力营”首期总面积接近2万平方米,将于南山“云科技大厦”和“神州数码国际创新中心”启航运营;后续规划的第二、三期项目亦将规划落户南山智城,总面积拓展至10万平方米。“模力营”包括研发办公区、产业服务区、共享交流区、硬件实验室、国际互动区等具体区域,主打复合型创业空间。 ▲深圳“模力营”正式揭牌 从政策支持来看,“模力营”将提供算力补贴支持、空间补贴支持及场景应用支持: 1、算力补贴支持。提供算力补贴支持,算力券申领额度为算力服务合同费用的30%,每年最高支持100万元,优质孵化项目的算力补贴可一事一议支持。 2、空间补贴支持。对入驻“模力营”的企业实施两年免租的优惠政策,空间装修免费,企业可拎包入住。 3、场景应用支持。一些企业将获得广泛的政策倾斜与市场推广机会,率先在真实的环境中验证其AI解决方案的有效性和适用性,并借助政府平台及公共资源加速产品和技术的研发迭代进程。 昨日,首批11家AI企业正式入驻深圳“模力营”,覆盖了从上游基础算法供给到下游创新场景应用的多个产业链环节。 首批入驻“模力营”的企业包括:深圳元始智能有限公司、深圳生境科技有限公司、深圳市塔普智能科技有限公司、广东具身风暴机器人有限公司、小惟科技(深圳)有限公司、基本操作(深圳)科技有限公司、熵增力场(深圳) 科技有限公司、智因科技(深圳)有限公司、深圳市原力创造科技有限公司、物启科技有限公司、深圳陆兮科技有限公司。 ▲首批11家AI企业正式入驻深圳“模力营” 三、“模力营”七大模力支撑平台发布,算力、数据、模型、资金等全覆盖 随着深圳“模力营”开营,深圳“模力营”七大模力支撑平台发布。 1、算力供应服务平台。平台提供强大的算力保障和成本补贴,优先保障入驻空间企业使用消耗;对接优质云服务商,构建强大且稳定的算力资源池;建立算力动态调度机制,同时为降低企业算力使用成本;根据AI企业需求定制算力支持方案,并结合政府补贴政策发放算力券。 2、语料数据服务平台。平台搭建数据供需对接的桥梁,提供低成本、高效率地获取所需高质量语料数据资源,并构建教育、医疗、政务数据公共库;提供一站式全方位的数据服务解决方案,并组织企业之间的数据共享与流通,帮助企业快速提升模型性能和场景适应性。 ▲AI数字人主持人在讲解语料数据服务平台 3、大模型合规服务平台。针对国家正式实施的《生成式人工智能服务管理暂行办法》等法规要求,携手权威机构为入驻企业提供了全方位的大模型安全评估和算法备案辅导服务;帮助企业在大模型开发与应用过程中严格遵守国家法律法规和行业规范,通过专业的指导和咨询服务确保其技术产品和服务的安全性和合规性。 4、大模型开源生态平台。助力AI创新者在开源框架下进行技术研发与应用,通过引入国内外领先的大模型项目以及MaaS服务,建立国产开源服务建立专区。同时,平台还将对经备案认证的国产开源模型标注认证,帮助快速明确产品定位;举办各类线上线下的开源生态的交流活动,推动开发者社群间的知识共享与协同创新。 5、AI硬件开发工具平台。助力企业获取最新的AI芯片技术资源,以及一站式软硬件协同设计的解决方案;通过与全球领先的科技企业和机构深度合作,引入多样化的AI芯片、开发套件、原型设计方案及技术支持服务;搭建完善的开发环境、工具包,简化开发流程,缩短产品研发周期;定期举办硬件开发者培训和技术交流活动,提升企业团队在AI硬件领域的专业技术水平和创新能力。 6、融资对接服务平台。撬动南山区引导基金及战略直投平台的作用,打造具有引领效应的科技与金融零距离空间,与“模力营”共建活跃的人工智能产业融资对接平台。对接人工智能头部投资机构,建立多方基金投资联动,发挥南山区金融资本优势,开展融资招商及路演活动服务。 7、AI场景创新培育平台。立足专项产业政策“南山AI 10条”,锚定“全域全时场景示范试点”要求,以“揭榜挂帅”场景应用、“AI+百业”产业融合政策为抓手,构建面向智慧政务、生命健康、教育等领域的完整孵化生态。 除了七大核心公共服务平台,“模力营”还将构建一个全面且高效的综合性服务平台,帮助入驻企业解决资金链难题,为企业搭建信息交流与合作网络,定期组织各类前沿技术培训课程,并帮助企业精准定位和吸引优秀人才。 ▲深圳“模力营”七大模力支撑平台发布 四、AI场景应用示范“揭榜挂帅”项目征集启动,最高奖励800万元 会上,南山区人工智能场景应用示范“揭榜挂帅”项目征集启动。 首批次“揭榜挂帅”项目聚焦智慧政务、智慧教育、智慧医疗、智慧交通、智慧社区五大领域,共计25个AI应用方向,面向全社会征集场景建议,择优制定“揭榜挂帅”榜单。 对成功揭榜企业、团队,南山区将给予最高800万元的支持,并为企业全程保驾护航,帮助企业破除场景应用中的各项阻碍。 ▲南山区人工智能场景应用示范“揭榜挂帅”项目征集启动 同日,深创赛首届“人工智能领域挑战赛”启动,由南山区独家承办。 赛事集结阿里云等科技巨头、联合国大学澳门研究所等顶尖学术机构,以及深圳市人工智能产业协会等社会组织,并汇聚企业领袖、技术专家、国家级学者等,推动AI领域创新与合作。 符合南山产业扶持资质的参赛企业,将获深圳“模力营”AI生态空间优先入驻权。赛后选择在南山落地的项目,将享受在NVIDIA Inception&IECG Co-incubator自用办公场地的租金减免,以及被推荐(申请)加入NVIDIA Inception初创加速计划,获得产品折扣、全方位技术支持等服务。 ▲深创赛首届“人工智能领域挑战赛”启动 此外,深圳市计算机学会大模型专委会、南山区根技术生态联盟、南山区新质生产力协会也于当日创立,成为推动AI产业发展的关键平台。 ▲多个大模型相关协会及联盟成立 五、重磅AI领域大牛群星汇聚,华为腾讯智谱分享前沿AI实践 会上,华为首席战略架构师党文栓,腾讯云副总裁王麒,智谱AI首席执行官张鹏,香港生成式智能研发中心总经理柳崎峰,神州数码副总裁、CTO李刚,分别从模型与框架、数据、算力、应用、治理、未来目标等关键维度分享前沿进展。 华为首席战略架构师党文栓带来了题为《共赢数智化未来》的主题演讲。党文栓首先谈及了AI给企业带来的影响,比如在企业运营智能化方面,“人+AI”场景出现了基于角色的Copilots,“事+AI”场景出现了基于场景的AI Agents;在企业商品智能化方面,AI PC、智能驾驶等新品类产品层出不穷。与此同时,大模型也在变革人才能力和组织,并为企业带来了各种新的机会。 党文栓认为,基于价值驱动,AI在各行业应用逐步深入。从第一步的“功能”级解决方案到第二步的“流程”级解决方案,AI开始使能单个独立可部署的新流程;从第二步“流程”级解决方案到第三步的“系统”级解决方案,多个现有流程将被改变,这类方案将使能多个新流程并改变流程的依赖关系。 ▲华为首席战略架构师党文栓在进行主题演讲 腾讯云副总裁王麒以《紧抓AI大模型时代的历史契机,助力AI产业跨越式高质量发展》为题进行了演讲。王麒谈道,以大模型技术为核心,AI已成为数字化发展的关键动力。2023年大模型产业发展出现了三大趋势——大模型数量不断变多,超60%中国企业计划在未来1-2年部署生成式AI,以及大模型在用户运营、营销和销售、软件工程和产品研发四个场景最受期待。与此同时,加速大模型产业创新,产业还需要解决降低使用门槛、提高平台适配性和安全合规保障三大挑战。 如何探索AI产业高质量发展?王麒提出,场景和路径是关键。助力AI落地,腾讯通过算力加速、AI开发加速、AI落地加速和全场景数智化加速这“四级加速”推动产业数智化进程。具体来看,腾讯在算力及平台之上搭建了混元大模型生文、生图、生视频和生3D等多种功能,并通过最新推出的一站式AI智能体创作与生成平台腾讯元器和移动AI助手腾讯元宝,实现从基础设施到模型应用的全面布局。目前,腾讯内部已有600+业务接入混元大模型。将混元大模型能力对外赋能,腾讯云还推出了知识引擎、图像创作引擎和视频创作引擎三大工程性工具,以及智能座舱、营销分析、代码提效、数智人等多款应用,助力产业生态紧抓AI大模型时代契机。 ▲腾讯云副总裁王麒在进行主题演讲 智谱AI CEO张鹏以《大模型和通用人工智能之路》为题发表了演讲。大模型是新型AI基础设施的关键底座,大模型的竞争也上升为国家科技战略的竞争,张鹏认为,国产大模型的研发已经刻不容缓。智谱AI推出了全自研大模型预训练框架GLM,突破一系列以全自主、多模态、高可用为核心的关键技术,其中GLM-4在MMLU、LAMBADA等国际权威测评中达到了GPT-4的95%能力水平。 张鹏谈道,通用人工智能一定是通过生态合作达成的。智谱AI坚持做基座模型的提升,赋能上下游伙伴,从而在市场端服务客户。其推出的智谱AI开放平台提供各类场景的强大模型API,覆盖语言、视觉、文生图、向量等模型能力。公司目前已拥有2000+家生态合作伙伴、1000+企事业单位模型规模化应用、200+深度共创客户。智谱AI进一步通过GLM OS打造大模型为核心的智能操作系统,实现更高层次的突破创新,并打造全面对齐人类认知能力的多模态大模型,进而推动AI行业应用落地和原生范式的发展。 ▲智谱AI CEO张鹏在进行主题演讲 香港生成式智能研发中心总经理柳崎峰带来了题为《大模型技术发展与深港合作》的演讲。柳崎峰谈道,当下大模型仍面临一些问题,包括不够智能、可用数据不足、模型难以评价、GPU和能耗限制、现象级应用不足、制裁限制等。 柳崎峰谈道,HKGAI(香港生成式人工智能研发中心)建立了强大算力集群并于今年3月推出了70亿参数模型,在当时性能优于Llama 2-7B、Baichuan-2-7B等同类模型;7月将推出千亿参数模型,预计性能超越国内同类模型。HKGAI打造的大模型的差异化一是在于高质量数据,同时从去年就开始做MoE(混合专家模型),且在中英文语料数据配比上更加均衡。其目前推出的大模型在AI音乐生成、视觉生成、文本生成、伪造检测等领域都已支持应用。 ▲香港生成式智能研发中心总经理柳崎峰在进行主题演讲 神州数码副总裁、CTO李刚发表了题为《探索与实践GenAI 从技术革命到生产力爆发》的演讲。李刚透露,神州数码已经联合多个大模型厂家进行了落地实践。生成式AI(GenAI)技术落地需要场景和生态,神州数码致力于做生成式AI技术与场景落地的连接器,连接最新全栈AI技术与企业全场景创新需求。 在AI开发中,用户可以通过神州数码推出的“神州问学”这一AI创新工程化平台,屏蔽底层复杂技术并实现规模化、体系化企业生成式AI的应用创新。面对算力的异构和多样化问题,神州问学提出新的智算架构策略,推出HISO异构智算调度运营平台,支持生成式AI在企业释放出更大潜力。此外,神州数码还通过DC·AI生态创新中心,提供沉浸式体验、开发实验室、AI着陆工作坊及AI人才培训,助力AI创新生态的发展。 ▲神州数码副总裁、CTO李刚在进行主题演讲 结语:AI生态大会沸腾南山,“政产学研资用”共赴大模型时代机遇 随着通用人工智能及具身智能技术浪潮到来,深圳南山区是国内少有的兼具人工智能与机器人技术产业积淀的地区。本次AI生态大会沸腾南山,印证了其在企业实力、人才储备、数据要素资源、算力设施等方面都建立了坚实的基础。 南山区正打造大模型产业发展的新模式。大湾区首个大模型AI生态社区——深圳“模力营”通过算力、空间及应用场景多方位补贴及支持,打造应用场景、底层技术和产品方案三螺旋驱动的产业发展新模式。 南山区正加速谋划大模型产业发展的新场景。通过人工智能场景应用示范“揭榜挂帅”项目征集,首先推动政务、教育、医疗、交通及社区几大领域破除场景应用中的各项阻碍,紧抓了新技术驱动性强、应用示范难度大、政府统筹价值高、可复制可推广的新场景。 南山区也正打造大模型产业发展的新机制和新引擎。通过算力供应服务平台、语料数据服务平台等“模力营”七大模力支撑平台,以及各类跨“政产学研资用”的赛事、联盟、展会,南山区为AI产业提供全周期伴随式专业服务,赋能千行百业升级。 通用人工智能一定是通过生态合作达成的。当下,大模型的竞争已上升为国家科技战略的竞争,与此同时产业发展还面临算力、模型、数据、生态等多重挑战。以南山区为代表的深圳力量正通过构建大模型产业的生态合力,助产业快速找到突破创新的路径,从而紧抓大模型时代机遇。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。