EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
在长视频平台上,VVVIP也尊贵不到哪去
不知道硅友们还记不记得去年爱奇艺的“投屏案”。 简单来说就是一位爱奇艺黄金会员发现,自己原有的投屏清晰度突然被降至了480P,必须升级会员才能享受原有的高清晰度。 权益贬值这事放谁身上都生气,但巧就巧在,这位会员恰好是名律师,当即拿起法律手段保护自己,反手就把爱奇艺告上了法庭。 这一告就是一年半,直到今年7月初,法院一审判决原告会员期内都享有高清投屏权益,另一方面也要求爱奇艺补偿其中阉割了投屏权益的会员时长,算下来总共41天。 但事件并未就此告一段落,爱奇艺马上就对判决提出了上诉。 平台的主要上诉理由是:虽然自己提供过免费高清投屏服务,但这并不意味着一直会免费提供。 换句话说,之前是咱们好心送你的,而不是你买的。 但广大用户明显对这一说辞并不买账,认定了平台就是想让用户多花钱,把平台狠狠批判了一番。 用户的忿忿不平可以理解,毕竟用户买了几十寸的4K、8K大电视,配上百兆光纤,又花钱买了平台会员,本就图的是大屏看剧的爽快。 而480P损失的画质实在太明显了。硅基君斥巨资开了会员,在播放器上按照不同清晰度,在金刚电影里截了两张图,480P的金刚几乎看不清表情,唯一清晰的只剩下了爱奇艺自己的Logo,属实难绷。 有数码博主也当了回群众的嘴替,不惯平台的毛病,自己卸载为敬。 不过在限制用户投屏清晰度这件事上,爱奇艺虽然不厚道,但也有自己难以言说的痛。 在知乎上,有老哥给广大网友科普了“互联网电视牌照”的概念——类似爱奇艺这类网络视频平台,如果没有牌照,是不允许投屏的。 2018年,央视高价将俄罗斯世界杯的新媒体直播权卖给了优酷,本以为这是赚笔版权费、自己还能稳占收视的一鱼两吃,但谁知优酷用户通过投屏抢占了大量电视端的流量。 转头回来,就有相关部门公开强调,“互联网电视上的投屏应用,必须是具有互联网电视牌照的联合运营方才可以开展,任何独立第三方投屏行为都属违规”。 于是对于爱奇艺们就意味着,只有和牌照方合作,拿到许可证,才能合理合法地把内容投屏到电视上。这个过程难免产生一些授权费用。 所以从这个角度来看,爱奇艺说之前投屏服务是“送”给用户,倒也不是没有根据的。 但一波未平,一波又起。 爱奇艺与投屏清晰度相关的热搜还没平息,又一个把爱奇艺批判了一番的新热搜就来了。 这回,事情是这样的,有爱奇艺的基础会员发现,在花了15块钱每月的订阅费用之后,正准备满心欢喜地享受会员服务看剧吃瓜,结果发现自己还得(必须)老老实实看完2分钟的广告才能看剧。 用户花钱买会员就是为了享受免广告看剧,这几乎算是最基础的权益了。因此事情一经爆出,网友还未平息的情绪又绷不住了。 有用户被伤透了心,表示自己之前一直买会员为的就是支持正版,但发现平台只是把自己当韭菜,现在只相信澳门威尼斯(盗版网站)是真爱。 还有网友则开始预判平台的下一步动作,平台未来可能把播放的清晰度,都纳入到会员分级制度里面,到时候再圈一回钱。 而爱奇艺官方回应则表示,推出比黄金会员更便宜的基础会员,是提供给愿意接受广告、但希望订阅价格更低的用户的。 像这种让不同会员福利如同婆罗门和首陀罗一样泾渭分明,然后再进行区分定价的会员体系,这么做的不止是爱奇艺一家——腾讯、优酷、芒果TV,甚至是Netflix其实也都大同小异。 2022年,Netflix结束了长达20年的无广告会员模式,推出了含广告的带广告套餐,和爱奇艺的基础会员模式如出一辙,由此和价格更贵的标准会员和高级会员做区隔。 平台增收的效果立竿见影,Netflix在扩了新的会员产品之后,2023年就新增了2950万会员,全年营收337.23亿美元,同比增长6.7%。 同样的内容买单的用户更多了,利润率也从18%涨到了21%。 而其他腾讯、优酷和芒果TV会员们的体系,大多分为VIP和SVIP两种套餐。 其中腾讯视频的SVIP就可以享受热播内容抢先看,其实也就是套壳的“超前点播”。 芒果TV和优酷的SVIP核心权益主要是一些热播内容的特别花絮。而优酷在投屏问题上,比爱奇艺做得更离谱,如果没有把会员升级到SVIP,优酷会员连投屏480P的资格都没有。 除此之外,各大用户平台在想尽办法限制用户权益方面,一直都在和会员们斗智斗勇。 还是拿爱奇艺来鞭尸,去年青海一个小伙的爱奇艺年费会员,就因为用了3个设备同时登录账号喜提封号。想要解封只有一条路: 充值更贵的会员。 腾讯心悦会员:这事咱熟。 除此之外,也有用户想出了绕过爱奇艺白金会员才能高清投屏的路径,试图通过HDMI连接线输出信号的方式,将电脑信号传输到电视大屏上看剧。 结果平台早就看穿了一切,用弹窗告知用户,“内容不支持HDMI连线播放”。 不堪其扰地向用户限制权益,平台的根本目的,还是尽可能地让用户订阅价格更高的会员。 而平台疯狂整活,很大程度也是被迫的不得不做。其实只要条件允许,谁都想在赚钱同时也能留个好口碑,但问题是这两年爱奇艺们活得并不滋润。 一方面,整个国内的长视频平台用户规模已经见顶了。 爱奇艺的会员人数早在2019年就突破了1亿大关,但此后4年会员人数没有太大涨幅,就像遭遇了智子一样被牢牢锁在了这个水平线。到今年1季度,爱奇艺已经不再披露会员规模。 其他平台的境遇也大体相同。当增长的故事讲不下去,爱奇艺们唯一能做的,就只有从每个会员获得更高营收,割二茬韭菜。 而这也是各大平台不得不严格限制低等级会员福利,想尽办法驱赶用户订阅更高价格会员的根本原因。 用户们对此给出的评论出了奇的统一:吃相难看。 此外,平台们也发现了一个残酷的事实:用户的黏性从来不在平台身上,愿意让用户花钱订阅的还是爆款剧,平台充其量不过是个播放器,换了哪家都一样。 像是最近缺乏爆款剧的爱奇艺,1季度和会员收入相关的营收就同比下滑了13%。而隔壁腾讯视频因为有了大爆的《繁花》,1季度会员数量应声涨了8%。 于是大彻大悟的平台一旦遇到爆款剧的出现,往往都会抓住机会,榨出爆款剧的最大价值。 像是爱奇艺备受诟病的投屏问题,就上线于《狂飙》大结局前后,把用户气得直跺脚。 而从结果来看,爱奇艺的努力成效明显。到2024年1季度,爱奇艺从单个会员身上获得月度收入连续6个季度环比增长,从一块田里刨出来了更多粮食。 另一方面,广告是会员收入之外的重要增量,这也是平台拼命整活的另一个重要原因。 不止是基础会员的强制广告,就算你会员等级拉满,也还有片中弹窗广告、暂停广告、片尾广告等一系列广告等着你。会员免的只是片头广告,真实环境早已处处都是广告。 面对诱人的广告营收,爱奇艺已经悄然埋下了后门。 在爱奇艺的会员条款中有一段话是这么写的,即便会员享有广告特权,但—— “部分视频片头仍会有其他形式的广告呈现。” 说白了,即便各位充了最高等级的星钻VIP会员,但只要你同意了会员服务协议,那么它还是可以给你看广告。 除了这些页面广告,平台也早就放下了顾忌,在电视剧、综艺里面大规模地植入软广。 像是爱奇艺的《种地吧2》就一口气合作了22个品牌,以至于观众困惑:我究竟是在看综艺,还是在看广告? 今年1季度,在品牌普遍收缩预算的背景下,爱奇艺的广告业务硬是涨了6%。不过副作用就是,平台的口碑确实在日益下滑。 而行业里为数不多的清流,还剩下B站。 B站投屏不仅不需要会员,甚至还能和网页一样看弹幕,广告更是自始至终从所未有,深得用户们的厚爱。 用户得了实惠,平台赢了名声,唯一的代价却很惨烈:B站至今还没能实现盈利。 总的来说,用户想要获得好的体验、平台实现盈亏平衡都是合理的诉求,大家都没有错。但在现有的条件下,平台想要盈利还是不得不以牺牲用户体验为代价,双方的博弈势必还要持续很久。 在这个过程中,或许赢家只有一个: 澳门威尼斯。 全文完。
AI折叠屏,差生报团取暖
经过多年苦熬,智能手机行业总算迎来了久违的春天。Canalys数据显示,2024年第二季度全球智能手机出货量同比增长12%,对比过去,可谓是嗖嗖往上窜。 春天,亦是播种的好时节,手机厂商们一个个像老农似的,卷起袖子,撸起裤腿,把AI和折叠屏这两大宝贝给凑一块儿,琢磨着搞搞“杂交”。 当下的AI手机和折叠屏手机,虽各自都有着不少花样,但整体却难成潮流——AI手机功能丰富,可用户热情不高;厂商耕耘折叠屏多年,却仍普及不开。正应了尼尔·波兹曼那句话:“每一种技术既是包袱又是恩赐,不是非此即彼的结果,而是利弊同在的产物。” 在此背景下,趁着赛道回暖的东风,将AI与折叠屏“杂交”,兴许能结出个大果子,为智能手机赛道找到一条新的出路。 难兄难弟 智能手机时代,尽管行业整体被收束,远不及功能机时代那般多点开花,但在同质化的表象背后,也不乏诸多指向垂类的产物,比如早先年的美图手机以及游戏手机等。而折叠屏手机与AI手机,作为手机赛道近些年传播热络的新玩家,则在一定程度上起到了接棒的角色。 然而,自2019年三星携折叠屏走入广泛的消费市场以来,其颠覆传统智能手机的结构设计,一度被认为是智能手机的未来,可随着时间推移,折叠屏手机的光环逐渐黯淡——销量数据层面仍在取得增长,折痕、铰链、软件适配等方面亦在不断改进,仍然无法掩盖尴尬的事实:终端消费者普遍将之视作另一门类,而非智能手机的接班人。 因此,折叠屏并未创造出淘汰直板机型的换机浪潮,市场实际反馈并不如预期。 AI手机虽然更加“年轻”,但从市场反馈来看,其现阶段似乎走上了前辈的相同道路。 最近两年间,各品牌AI手机及大模型纷纷亮相,苹果也加入其中,但据光子星球此前在各门店了解的情况来看,截至目前,消费者对于AI手机的兴趣甚微,更多关注的还是手机的基本性能、影像能力和外观设计。 而这,也直接影响了门店店员的态度——对AI功能的推介并不积极,售卖套路同之前别无二致。换言之,AI现阶段更多是锦上添花的增值功能,而非决定性的因素,亦未能大规模撼动主流直板机市场的格局。 因此,折叠屏与AI手机两个细分市场,背负着颇为相似的宿命。尽管技术创新与市场营销不断推进,但就销量而言,却未能完全兑现预期,市场渗透率依然有限。据TrendForce预测,2024年全球折叠屏手机出货量约1780万部,仅占智能手机整体市场约1.5%。而考虑到手机厂商在折叠屏供应链与大模型方面砸下的真金白银,故事或许正在走向一个难以为继的结局。 究其所因,手机发布会与终端市场巨大割裂的背后,是商业世界亘古不变的真理——用户需求才是市场的最终决定因素。手机厂商不能用自己定义的“好”去强行覆盖用户认为的“好”。用大白话来说就是,不要试图教用户做事。 一个简单的例子,Kindle等电子阅读器既能存储成千上万本书籍,亦为读者提供了更加便捷的阅读体验,但有许多人依然钟情于更加“落后”的纸质书的沙沙触感与真实的翻页声。 而折叠屏同样如此,部分厂商习惯性地将折叠屏与直板机做类比,自我陶醉,质疑折叠屏明明在轻薄、价格层面均已追平直板旗舰,为何用户还是不愿买单。 殊不知,直板机经过多年的演化,已经在设计、功能和用户习惯上达到了一个令人满意的平衡。而折叠屏虽在形态上突破了传统,但倘若其无法打破这种平衡,那么它注定只能成为市场中的小众产品。 即便是引领了触屏智能手机潮流的“iPhone时刻”,成功之处亦绝非单纯的滑动解锁,而在于硬件、软件与生态系统的无缝整合。而这,意味着智能手机市场的变革,绝非单一技术突破所能实现。 AI折叠屏,歪打正着 有时候你不得不承认,做生意需要一些运气,科技创新也是。 对手机厂商而言,当手中握有一枚硬币,还未知抛起落下后的一面是正是反的等待过程,该如何迈步?向左走,向右走?相较于二选一,将二者堆叠,既是所谓的“复合创新”,显然也是最稳妥、避免资源浪费的选择。 而折叠屏与AI,一个代表着硬件结构的创新,一个则象征着软件智能,看似毫不相关的两条技术路径交织在一起,却有如瞎猫碰上死耗子,似乎能产生相互促进的“化合反应”。 折叠屏手机为追求轻薄化设计,相较传统直板旗舰,硬件层面往往有所取舍。比如影像方面,受限于折叠结构的空间限制,折叠屏手机通常无法搭载更大的影像传感器与更复杂的镜头组。这使得折叠屏手机在C端市场中除了“折叠”与“办公”等少数卖点外,显得乏善可陈。 而通常,对一款产品而言,重要的不是查错能力,也不是改错能力,而是容错能力。而增加产品的容错度则必增加其冗余度,最后得到的往往是一个“水桶”,而不是一个精致的水杯。 而折叠屏机型,从某种意义上说亦是“水桶机”,各方面配置较为均衡,但除了折叠本身之外,很难在屏幕素质、影像能力、性能层面拿出超越直板旗舰的亮点。即便是折叠屏涉入较深的办公细分市场,对于手机厂商而言,仅凭大屏这一单一优势,以及在OS中塞入一些工具化的办公应用,亦很难满足现阶段日益复杂、细分的办公需求。 在此背景下,AI起到了“放大镜”般的作用——AI对办公场景的改造无需赘言,而借由AI,原本“四不像“,难以找到自身定位的折叠屏,势必将变得愈发垂直,从而更加深入商务办公市场。 另一方面,折叠屏有着目前AI助手、应用迫切需要的“空间”。 这并非单纯物理层面的扩展,亦是AI应用功能与体验的延伸。当前阶段,诸如vivo蓝心小V、OPPO小布助手等智能助手,作为激活手机AI能力的“入口”,通常以浮动窗口的形式呈现。 这样的设计虽然在一定程度上提升了智能化的交互体验,但在实际操作中,AI助手的浮动窗口常常占据屏幕一角,不仅限制了视野,还增加了操作的繁琐度,用户往往需要频繁在应用、文本与助手窗口之间来回切换。 这一桎梏在更广泛的AI应用中同样存在。例如,当用户试图将文心一言生成的祝福语复制到微信对话框时,仍需经历繁杂的操作流程,打断了用户的操作流畅性。 而在折叠屏上,此番问题迎刃而解。折叠屏为AI助手及应用提供了更大的空间,无需切换,亦不会干扰其他应用的正常使用。以三星AI折叠屏新品为例,其双屏对话模式,使对话双方能够分别通过主屏幕和外屏查看AI加持下的实时翻译结果。 这既意味着,折叠屏与AI,能在一定程度上互相补足对方的短板,并强化彼此的长板——折叠屏对屏幕空间的扩展,使AI手机则获得了其亟需的“空间”;AI作为效率武器,则为折叠屏撕开了挺入垂直办公市场的口子。 同样的案例,亦发生在PC赛道。今年初,微软宣布在Windows PC键盘的右Alt键旁边,增设Copilot键,用以直达由微软AI驱动的Windows Copilot服务——要知道,Windows PC键盘上一次改变,还要追溯到1994年。 也意味着,AI时代洪流下,愈发强势的AI应用,正在解构过去硬件与软件的关系——硬件不再只是被动的载体,而是将同AI耦合,成为丰富智能体验的重要一环。 终 从现阶段手机赛道的形势来看,AI+折叠屏或许将成为手机厂商们共同的新故事。 尽管此番烈火烹油的产物,或许仍无法打入大众市场,但其所能覆盖的办公赛道,作为垂直市场具备着巨大的潜力。纵观消费电子行业,从苹果的MacBook系列、iPad Pro与Vision Pro,再到Meta的Oculus与微软的HoloLens,都曾将办公场景视作硬件销售的推力。 有如Windows系统早期,当空接龙用户使用率一度高于Word和Excel,可到了2024年,当空接龙不在了,蜘蛛纸牌也不在了,Word和Excel却活到了最后。 另一方面,AI时代,智能手机行业正在经历一次朝花夕拾——无论是高通还是联发科,都在以AI能力这一新维度标榜自身芯片,苹果更是直接汰换了“前朝元老”,这意味着,影响手机行业多年的“性能溢出”正在成为过去式,过往智能手机硬软件协同进化的逻辑或将重新回归。 而AI折叠屏,恰恰身处新逻辑下的浪潮之巅。眼下,手机赛道的严冬正在散去,而蛋糕就在眼前,AI折叠屏有理由分得一杯羹。 只是,过去几年间在折叠屏领域踌躇不前的苹果,自从其AI蓝图逐渐铺开后,折叠屏步伐正有所加速。或许,其他手机厂商应该感受到些许危机感了。
香港押注AI,学习合肥好榜样
想要抢占人工智能高地的城市又多了一个。 过去一个多月,香港在AI布局上接连落子。香港投资管理有限公司(简称港投公司)连投三家公司,智能制造企业思谋科技、生命科学人工智能大模型公司百图生科和具身智能创业企业银河智能。 2022年10月,港投公司由香港现任特首李家超在《施政报告》中宣布成立,希冀更好利用财政储备以促进香港经济和产业发展。一年多来,港投公司隐而未发,不过一出手的连环招,却全部与人工智能和创新产业相关。有人评价,港投公司可被视作“港版淡马锡”,同时香港可能正在进入产业政策主导的时代。 通观过去两年港府动作,投资的确只是这座城市产业雄心的一环。在培育高新产业上,香港有详细的规划、路径和动作。 2022年的施政报告中,李家超提出,为了全速引领香港实现国际创新科技中心的愿景,希望在五年内吸引不少于100家具有潜力或代表性的科创企业在港设立或扩展业务,包括至少20家龙头科创企业。 去年以来,特区政府“抢人才”、“抢企业”的动作声势浩大,成立了引进重点企业办公室,高端人才通行证计划也加大力度,引进人才数量相比此前年份有几倍增长。 一位资深区域观察人士称,在当下的产业现状下,押注创新领域和科技产业,对香港可能已是一道必答题。而要从金融中心、贸易中心的地基上结出新的果实,这座城市也有不少要跨越的门槛。如何打破发展的路径依赖,发挥香港的比较优势,仍有待长期经营。 01 一套抢人、抢企业、撒钱的组合拳 最近,香港正连环出招,贴牢身上的AI创新标签。 港投公司在一个月里密集打出的子弹,凸显了港府在发展人工智能等高新技术产业上的决心。 一方面,三家被投企业都与AI相关。另外,三场签约合作仪式上,被投企业都有明确的在港战略布局。如银河通用智能提到,将支持香港成为国际具身智能人才聚集地和创新中心;探索机器人在香港的商业、旅游及其他服务场景等实际应用;建设本地团队以促进香港具身智能技术和产业的发展。 港投的角色和任务由此浮出水面。港投公司行政总裁陈家齐在公开演讲里提到,一方面要争取合理的投资财务回报,更重要的是,用好资本引导生态和杠杆其他资源的力量,助力香港重点产业生态圈的构建和激活。 这意味着,投资撒钱对香港而言,不只是财务行为,还是撬动资源,拉动科技企业扎根落地香港,发展新兴产业的手段。也因此,有人评价,香港正在走进产业政策时代。 产业政策当然不止投资一招,抢人、抢企业,香港政府正多管齐下。 几天前,港股上市的人工智能老牌龙头企业科大讯飞宣布在香港设立国际总部,计划未来5年内在港投资4亿港元,建立150人团队推动研发及拓展海外市场。这支在香港的团队将专注于开发大语言模型,以及智能语音、教育和医疗保健领域的人工智能应用。 这是香港重磅引进龙头企业计划的一环。2022年12月,香港政府的引进重点企业办公室成立以来,已经有不少科技制造龙头企业在港设立国际总部或研究中心,比如宁德时代去年底就宣布落地香港。 今年3月,特区政府披露数据,已有两批总计50家行业龙头企业将落地香港,投资将超400亿港元,主要来自生命健康科技、人工智能与大数据、金融科技、先进制造与新能源科技产业领域。据悉,这些企业将创造1万多个就业岗位。 香港还大力吸纳新兴产业人才,抢人大战已经持续了一年多。 内地城市此前抢人通常都是放宽落户门槛,香港也采取了同样路径,去年开始推出了“高端人才通行证计划”(简称高才通)。 对比此前的人才引进方式,高才通不需要攒积分,没有地域和专业限制,内地有13所高校的学生拿香港身份门槛大幅降低。 “有几万人向我们咨询和办理高才的手续和流程”,在香港从事高才落地服务工作的周荣华告诉数智前线,他是华中科技大学毕业生,也在这波引进浪潮里拿到了香港身份。 去年年初开始,他最早做了申请了高才通的攻略,在校友群之间广泛传播,并扩散到其他高才通资格院校校友之间。这被在香港筹备成立高才通人才服务协会的尚海龙议员发现,双方一拍即合,组织了多次面向高才来港之后的子女教育、续签、防诈骗、就业、相亲等多场公益活动。 2024年5月6日,为了更好的服务来港高才企业家们,帮助他们更快在香港开展业务,获得认同,他们干脆注册成立了一家非营利组织——新质企业家联合会。这是新出现的角色,也是香港这波产业变革的一个注脚。 公开数据显示,截止2024年6月,香港总计收到高才申请数量超近9万,7.1万获批,含受养人14.3万人,其中9万人已经来港激活签证。比港府原定的每年引进3.5万人才目标超出数倍。 香港也意识到与内地头部城市的基建差距,进一步加码AI基础设施。在全球AI发展算力紧缺的背景下,香港的超算中心建设也受到了广泛关注。目前这一建设计划由香港数码港牵头,第一阶段预计今年下半年启用,预计最快2026年初将提供每秒浮点运算3000千万亿次的算力,相当于1小时可完成近100亿张图像处理。 除了在算力层面摆平AI发展障碍,香港政府今年3月在年度财政预算中,还专门拨款30亿港元,推行为期三年的人工智能资助计划,资助本地大学、研发机构及企业等运用算力,推动科研突破,并加强算力中心的网络安全和数据保护。 投资人工智能时代,港府正打出一套组合拳。 02 产业升级:香港的一道必答题 押注产业升级,实际上可能是香港这座城市当下的一道必答题。 香港的支柱产业仰仗贸易及物流、金融服务、房地产及建造业、专业服务及其它工商业支援服务、旅游业。公开数据显示,2022年服务业占香港GDP的93.4%,制造业在香港GDP中的占比不足1%。 在地缘政治压力下,香港的贸易物流、金融等传统优势产业客观上遭遇不小的挑战和压力。消费性服务业虽能吸纳大量就业人口,但在香港GDP里的占比有限,很难形成有规模的中产人群和收入回报,反哺社会经济的良性循环。以旅游业为例,2022年,香港旅游业吸纳了香港约6%的就业人口,但整体贡献的GDP仅0.4%。 谈起占GDP20%以上的地产行业,每一个去过香港的人可能都对香港的房价和地产富豪们的八卦印象深刻。每年的胡润百富榜,上榜的香港富豪多数是地产发家。房价高,除了关乎普通市民的民生和生计,也与产业发展息息相关。 市场调研机构世邦魏理仕的一项数据显示,截至2022年第四季度,香港中环的甲级写字楼租金全球最高,比新加坡核心区还要高约四成。能够承受高昂写字楼的行业,也只能是金融、地产等高利润行业,这无形中挤压了创新型产业的发展空间。 优势产业发展承压,寻找经济发展的新动能,已经是摆在港府眼前必须要解决的问题。港府重要官员在多个公开场合都有过表态,“没科创,没未来”。 而要实现产业升级转型,却并非易事。最直接的一点,在创新的产业土壤和人才都尚未成规模之际,如何打破旧有的路径依赖。 以年轻人的去向为例,香港社会多年的路径是,最优秀的年轻人都流向了医疗、律师等行业。“DSE考试(文凭考试,香港的高考)的状元们通常多数都会选择医科。10个状元8个学医,因为他们收入高,社会地位高,一毕业就有很高的回报”,一位经历过互联网高速发展阶段,从内地到港发展的“高才”对数智前线表示,内地早有知识和科技改变命运的走向,但香港整个社会还没有出现依靠科技和创新改变命运的创富示范。 当下港府大手笔下场,抢人、抢企业、撒钱,多路并进,正是为了给新兴产业,用真金白银,砸开一条路。从这个角度看,说当下的香港正在进入新的产业政策主导发展的新阶段并不为过。 港府在这场产业变革中扮演了很重要的角色。2022年12月港府发表的《香港创新科技发展蓝图》,被外界视作创新产业的一个纲要型文件,给未来五到十年的香港创新科技发展定了明确的发展路径。其中提到,未来5到10年要将香港制造业占GDP的比重从1%提高到5%。 这个雄心勃勃的计划,要推进的制造业并不是老一套的车间工厂,而是新型的制造业和新型工业化,人工智能、高端制造等新兴技术在其中扮演的角色不言而喻。 香港生产力促进局主席陈祖恒受访时说,香港要发展的是高度自动化的制造业,或者是定制化、高增值的生产,也包括新型工业,例如智能监控系统、芯片等。“比如,一家做毛衣的公司,它可以就是一台机器,什么都不用碰它,一件衣服就可以像打印一样生产出来,类似这种制造业,拉回香港。” 03 香港半导体消亡启示录 重提制造,发展科创,制定长期发展规划,港府可能也在汲取此前香港产业发展经验教训。 以当下港府希望引进来的芯片半导体产业为例,香港曾经有全亚洲第二大的芯片测试中心,芯片产业也是香港产业版图中的一部分,发展并不逊色于亚洲四小龙其他区域。而由于缺乏产业规划和长期经营,在产业转移浪潮中,它最终逐渐从香港这片土地上消失了。 时间拉回到上世纪中叶,当时半导体产业正处于从美国向东亚溢出的阶段。同亚洲四小龙其他地区一样,香港最初承接的也是半导体封装环节,属于劳动密集型产业部门。1962年,大名鼎鼎的仙童公司落地香港,在香港恒业街租下厂房,建立了自己的工厂,这是香港半导体产业的起点。1963年,仙童香港分公司的晶体管产能达到了1.2亿枚,之后德州仪器、摩托罗拉、NEC等半导体企业也在香港扎根。 快速发展的半导体产业使得香港的电子封装规模一路走高,1981年时香港电子产品出口总值相比1975年几乎翻了2番。也在这时,香港产业发展的隐忧就逐渐凸显出来。 劳动密集型产业,比拼的重点在土地和劳动力价格。不同于其他区域半导体产业发展的大片土地供应,香港的工业发展起步于市区,工厂早早上楼,半导体产业也和纺织服装等产业一样,蜗居在工业大厦内。而除了在土地供应有限之外,香港的劳动力价格也相比其他四小龙地区更高。 更大的问题是,区域间的产业竞争已经变得更为激烈。上世纪80年代开始,与中国香港同步发展半导体产业的中国台湾、韩国、新加坡等地,密集出台产业政策。政府积极倾注资源引进外部技术,培育半导体产业。而香港当时港英治下,秉持着自由主义相信市场的逻辑,在这场产业竞争里少有作为。 与此同时,全球大分工还在轰轰烈烈继续,如同游牧民族追逐水草一般,从欧美、日本承接而来的制造业,继续追逐着更低的劳动力和土地成本,寻找新的价格洼地。而香港的地产行业由于土地供应极少步步走高。 上世纪90年代中叶,香港地产在GDP里的比重超过20%,已成为这座城市重要的产业支柱。从后视镜看历史,所有人都能看到问题,高地租挤占了创新与实体产业的持续成长,制造产业会加速溢出。 最令人扼腕的失之交臂也在这一时期发生。时任香港特首董建华上任后希望推动经济转型,不依赖地产,而是发展科创产业。中芯国际创始人张汝京在到上海之前先与香港有过多轮谈判意向。但半导体工厂要批地时,据说港府“三司中有两个不同意”。香港的土地价格此时已经飙涨,寸土寸金,在缺乏长期产业经营视野的背景下,造芯片并不如卖地有确定性。而张汝京则北上,被上海的诚意和产业招商政策所打动,未来的中芯国际落子上海。 香港的互联网经济也是在同样的逻辑下没能发展起来。被寄予厚望的李泽楷的香港数码港在新世纪伊始,从最初规划的科技创新港逐渐变成了靠地产和租金收益拿回报,香港没有抓住互联网时代。 新世纪之初,随着具备自主设计的能力的摩托罗拉旗下的万力半导体搬迁,香港本土制造业朝向高端方向演进升级的可能性彻底消失,香港半导体产业走势与亚洲四小龙其他地区的发展走向分道扬镳。 半导体产业在香港的消失,是地产行业挤压创新企业空间的故事,也是账面繁荣和短期收益逼退长期利益的故事。在产业巨变的浪潮里,一个区域里的创新产业如何生长是个有争议的议题,依靠原子化的企业充分参与市场,去获得竞争优势,还是依靠政府的产业政策支持来构建体系化的能力,一直存在不同的答案。 在这波人工智能变革里,香港的选择看起来汲取了几十年前的半导体产业的教训。在这条路上,它也不是独行者。 今年4月举办,香港特区政府创新科技及工业局和数码港合办的2024数字经济峰会上,除了一众港府高级官员和大企业高管,合肥市长罗云峰也在演讲嘉宾之列,他演讲的主题是剖析合肥以科技创新引领高质量发展的成功实践。 合肥的城市产业发展轨迹是一个通过产业政策和产业投资,实现逆天改命的城市。现在,香港希望借鉴和汲取合肥的经验。 04 如何完成惊险一跃 有了顶层设计,并且大手笔,撒币式地引进人才和新兴企业,香港的产业升级之路就此一片坦途吗? 可能还不是。我们听到了这样的一则真实案例。一位香港的大学教授在港创建了一家人工智能公司,几番波折,最终研发办公室却只能选在了深圳福田口岸附近。 这里面有几重原因,香港高校在技术和专利等层面为新兴产业发展提供了巨大的智力支撑。而落在深圳,则是最大限度降低成本,同时利用香港的津贴,撬动深圳的高级技术人才。 这个真实的案例体现了发展人工智能产业上,香港当下的优势和劣势。 高等教育界的支撑无疑是巨大的优势。目前香港有14个跨行业的AI研究实验室,有三家大学进入U.S. News 2023全球AI顶尖高级院校前30名等。创科香港基金会是红杉资本旗下的公益组织,去年发布的《香港创科人才指数2023》里也提到,来自大学的创业者成为香港初创企业的中流砥柱,从香港各大学出来的初创公司数量在近五年间增长近4倍,“学院派”创业者占香港独角兽一半以上。 这份报告还提到,高校的研发人员占比和增长率显著高于政府机构和工商机构,香港63%的研发人员来自高等教育界,工商界和政府部门占比不到一半。 但不能忽视的是,这些积累和投入偏向学院派。一位资深区域观察人士分析,学院派的人才和研发力量通常能完成从0到1,他们可能手握专利和知识产权,但最后形成产品,完成规模化生产走向市场,考验的可能是10~100的能力。 这也使得此前具有香港基因的科技企业最终都走了香港孵化、内地壮大的路。例如,商汤科技和思谋科技,包括大疆科技,三家企业都与香港的科研院校的技术有着深厚的联系。但最终商汤科技落地上海,思谋科技总部设在深圳,香港科学园设置了办公室,大疆总部也落地到了深圳。 究其原因,香港缺乏更大规模的工程化人才,而到内地,珠三角、长三角等地背靠更庞大的供应链资源,更有利于这些创新企业走出规模化发展之路。 场景的缺乏是香港发展新兴产业要面临的另一个挑战。业界普遍认为,大模型时代之后,创新的原发地越来越多地转移到了工业界。因为计算规模变得前所未有庞大,高等院校很难承担算力的成本。香港在建的超算中心正在解决这重困难。 另外则是技术的进步和应用都需要寻找到合适的场景,需要有更多的场景里的数据才能有更智能的产品。去年年底,香港生产力促进局发布《香港人工智能产业发展研究》报告,其中调研香港本土AI企业,有44%企业表示难以收集数据,16%表示需要长时间才能收集数据,而8%表示没有相关数据。 这一点上,能看到港府相关部门也在做出努力。刚刚结束的世界人工智能大会上就出现了香港AI企业的身影。香港贸发局带队组织十几家企业带着产品,比如物联网系统,图像生成技术与大语言模型等,希望为产品找到应用场景或市场,找到更多合作伙伴。 先有鸡还是先有蛋,这是一个天问。对香港来说,解法可能也藏在问题之中。就像教授创业,点设在福田,这是充分利用毗邻香港的深圳的工程人才密集和工程师红利一样,香港的新一轮产业发展,本身也需要被纳入到了大湾区的框架内讨论。 香港生产力促进局主席陈祖恒在与吴小莉对谈时说,香港的工业发展,一定离不开整个大湾区。他提到,“生产力局做了很长时间的调研,结论是‘9+2’这个布局里,9个城市有不同的工业发展,在不同的行业产品上都有独特的优势,或独特的供应链是比较完整的。到最后我们决定,要做就要做“9+3+1”,要在9个城市里都有我们的基地和据点,有人和资源配合每一个城市的工业发展。” 一位在港深两地穿梭的人士告诉数智前线,他已经看到,为了打破原来的路径依赖,香港社会在更深的层次作努力。 正值暑假,不少学校组织学生们北上,到中国最好的科学基地参观和学习。“就是为了在这些孩子们心里种下科技的种子。总体看,蝴蝶的翅膀已经扇动起来。”
人形机器人进厂,上海最新方案出炉
上海在机器人领域布局又有新动作。 今日,上海市人民政府办公厅发布《上海市促进工业服务业赋能产业升级行动方案(2024—2027年)》(简称“方案”),其中提到,促进人工智能与制造业深度融合,创建国家人形机器人制造业创新中心,在汽车、电气设备生产和零部件加工等领域,打造一批人形机器人赋能制造应用场景,形成机器人生产解决方案。 人形机器人是人工智能与物理世界交互的优质载体。除上所述外,此次方案还提到有关人形机器人的具体应用方向: 实施工业物流降本提质行动,加大对工业物流企业设备技术改造的支持力度,推动部署无人车、人形机器人等智能物流设备。 此外,方案提出构建“上海制造”新型服务生态平台,并对机器人产业标准建设作出指示: 提升工业专业服务水平,全面推进新兴产业标准体系建设,前瞻布局人形机器人、新型储能等未来产业标准研究。 ▌机器人赋能制造应用场景 两端融合加速 实际上,此次方案早在今年2月21日举行的上海市政府新闻发布会上就已埋下伏笔,当时上海市发展和改革委员会副主任陈国忠就表示,力争芯片制造全流程数字孪生仿真验证平台、智能分子影像共享平台启动建设,争取人形机器人国家制造业创新中心落地。 而此次方案的推出,无疑是更多从应用端宣告未来机器人、特别是人形机器人与制造业融合方向。 华安证券近日研报指出,当前劳动力缺口正加速机器人产业化进程,人形机器人下游应用场景丰富,包括生产制造、应急救援、家庭陪护、教育、医疗等。 该机构进一步指出,在产业场景中,人形机器人主要在智能制造领域发力,如IBM结合AI、遥感和边缘计算的力量打造新一代安防巡检机器人,亚马逊采用AI技术驱动机器人用于自动化的仓库操作和物流处理等。劳动力缺口扩大导致用工成本上升,工厂机器替人需求逐渐增加,有望进一步加速机器人产业化进程。
阿尔特:正联合英伟达将Omniverse引入机器人开发
近日,阿尔特在接受机构调研时表示,目前公司正联合英伟达技术团队将Omniverse引入机器人开发,探索打通英伟达完整的机器人产品体系,包括边缘计算芯片、Jetson硬件解决方案、Isaac软件开发和测试解决方案、机器人开发生态等。 2024年3月,阿尔特正式宣布成立AI机器人事业部,从事机器人设计开发、代工生产、AI算法智能化场景运用等机器人领域的前沿研发和创新,致力于将公司在汽车研发设计领域积累的丰富的软硬件技术及供应链能力,结合生成式AI等最新人工智能技术,与国内外各行业龙头企业联合,赋能和支撑AI机器人创新开发和应用。 阿尔特同时与英伟达基于各自核心优势及业务发展需求,已就AI赋能汽车研发进行了多轮沟通,目前已在多个方面形成合作: (1)阿尔特是国内首家采购英伟达全套OVX最新系统的企业,目前已发布团队协同作业的初版DEMO,在打通NVIDIA Omniverse与多款工业软件研发协同工作,以及结合适配器和生成式AI应用于造型设计方面取得重要成果。 (2)阿尔特于2023年11月正式启用“阿尔特(无锡)智算中心”,该智算中心集成了多种英伟达高性能GPU产品,以强大算力驱动AI模型对数据进行深度加工,全方面支撑人工智能应用落地,为AI深度应用提供算力基础。未来阿尔特将在整车研发设计环节探索AI技术的应用及落地,积极探索汽车研发设计知识库、汽车研发设计数据库与AI大模型相结合的模式和创新路径,打造汽车研发设计新模式、新业态。 (3)目前阿尔特已经正式成为英伟达的Solution Advisor:Consultant合作伙伴,未来将基于自身在汽车行业的研发设计经验、供应链资源、车型数据积累、国内外广泛合作的客户等系列优势,结合英伟达技术赋能与产品服务,在AI模型、机器人、自动驾驶等多个领域为客户提供一揽子解决方案。阿尔特表示,公司希望与英伟达共同探索更多AI技术在不同领域的应用场景,成为AI驱动的设计智能体,推动行业的技术创新和转型升级,引领实现AI时代设计数智化变革。
新突破!15毫米昆虫级跳跃机器人问世
快科技7月25日消息,据媒体报道,西安交通大学与西湖大学科研团队携手,成功提出了一种创新的偏置屈曲双稳态设计理念,并基于此突破性技术,研发出了一款前所未有的昆虫级微型跳跃机器人——BATE。 BATE跳跃机器人,其体积微小至仅15毫米,却蕴含着令人瞩目的跳跃能力。它能够在两种截然不同的跳跃模式间自如切换:一是高度跳跃模式,轻松跃升至自身体长的12.7倍之高;二是距离跳跃模式,跨越距离更是惊人地达到自身体长的20倍。 更令人赞叹的是,BATE能够执行连续、敏捷的跳跃动作,其稳态转换过程中的snap-through与snap-back时间均被精准控制在惊人的300毫秒之内,展现了极高的响应速度与动态灵活性。 除了卓越的跳跃性能外,BATE还配备了先进的实时状态监测系统,能够即时侦测并预警潜在的系统故障,如空气泄漏等,从而极大地提升了其操作的稳定性和可靠性。这一智能特性,无疑为BATE在各种复杂多变的环境下的应用提供了坚实保障。 展望未来,BATE跳跃机器人以其昆虫级的出色表现,在探索未知、搜救救援等多个领域展现出了巨大的应用潜力。其小巧轻盈、灵活多变的设计,使得它能够在狭小空间和复杂地形中自由穿梭,执行人类难以触及的任务。 特别是在灾后救援场景中,BATE能够深入人类难以到达的狭窄区域,开展高效、精准的搜索与救援工作,为生命救援争分夺秒,成为救援行动中的得力助手。
欧盟《人工智能法案》生效在即 出海企业需关注这三点
8月1日,欧盟《人工智能法案》(下称《AI法案》)将在欧盟范围内正式生效,并将在未来三年分阶段实施。这是全球第一部全面监管人工智能的法案,影响力不可低估。 与人工智能企业切身利益相关的是,《AI法案》对多类在欧盟区域开展业务的海外公司有所约束,影响波及域外地区。这部法案已经引起法律界和业界广泛重视,大家都在等待欧盟对一些条例提供进一步的详细说明和配套设施。 以数据合规相关内容为例,全球机器学习和增长营销解决方案公司 Moloco亚太区产品总监刘连波告诉第一财经,“隐私政策这件事情并不是针对某个一家公司,是对所有参与其中的partner(合作方)或者所有的player(玩家)都是相关的。这个行业大家面对的挑战总是一样的,我不认为会对出海生意的趋势有本质的影响,因为这个行业会共享这个挑战。”他认为首先重要的是合规,其次是正确收集数据而不滥用,这最终也会促使我们调整算法模型来进行应对。“我们会仔细跟踪和研究该法案对我们出海客户的具体挑战,然后我们会和客户一起去研究落实解决方案。” “国内出海至欧盟的企业最需要关注的是高风险系统AI系统。如果不符合规定,企业将面临高额罚款和法律风险。” 垦丁(广州)律师事务所创始合伙人、主任律师,W&W国际法律团队创始人王捷告诉第一财经记者,参考国内科技企业在欧盟地区开展业务的情况,主要受影响的行业包括医疗健康、人力资源、公共安全和交通运输等。 另有业界人士告诉记者,对于《AI法案》中的一些规定,企业要遵守并不容易,且做到合规预计将带来企业成本上升。 罚款可达3500万欧元 ChatGPT 2022年年底意外爆火带来了人工智能立法的急迫性。在欧盟紧锣密鼓的筹备下,《AI法案》今年3月在欧洲议会通过,并于今年5月获得欧盟理事会批准。今年8月1日该法案正式生效。 《AI法案》在全球范围内的影响力不可小觑,一定程度上是因为,《AI法案》的管辖范围包括一些在欧盟区域外设立的相关公司。6个月后,总则和关于不可接受风险AI系统的禁令将适用;12个月后,高风险AI系统的部分章节、通用人工智能模型等章节将适用;24个月后,除高风险AI系统分类规则等部分内容外,其余部分适用;36个月后,高风险AI系统分类规则等部分内容也适用。 该法案规定,条例适用于将AI系统投放到欧盟市场或为欧盟提供AI系统服务的提供商,或是将通用人工智能模型投放到欧盟市场的提供商,无论这些提供商设立地或所在地是在欧盟还是在第三国。也适用于设立地或所在地在欧盟的AI系统部署商,以及AI系统进口商和分销商、以自己名义或商标将AI系统与产品一起投放市场或投入使用的产品制造商、位于欧盟的受影响人员等。 这意味着,只要海外AI相关公司将AI系统投放到欧盟市场,或带上了自己的商标,或影响到欧盟地区的人员,便可能在该法案规制范围内。违反规定的企业最高将被处以3500万欧元或最高年收入7%的行政罚款(以较高者为准)。 关于该法案的价值和后续影响,法律界和学界多有讨论。 此前欧盟发布的《通用数据保护条例》(GDPR)已显现“布鲁塞尔效应”,意即欧盟通过单方面市场规制能力将其法律制度推广至境外,让受监管实体在欧盟之外也遵守欧盟法律。这种效应能否在《AI法案》上再次体现,出现了不同的声音。 “《AI法案》是一个‘石破天惊’的法案,在权利、义务、责任之外,它往前探了一步,抓住‘风险’这个牛鼻子。以往立法从来没有提出对新技术的整套规制方法。”同济大学法学院副教授陈吉栋告诉记者,欧盟通过大量问卷调查和报告来支撑法案中几个简单的条文,投入巨大的立法成本,前期研究十分透彻。在AI发展优先和监管优先两端之间,欧盟希望在中间做平衡,监管并没有太早。这部法案并非一劳永逸的完美法案,还会根据AI发展改进。《AI法案》在国内已被学习参考。美国则体现了实用主义者的选择,采取动态监管方案。 在金杜律师事务所合伙人赵新华看来,《AI法案》非常全面,在全球性问题治理上,欧盟立法走在前面。结合2018年的GDPR以及近年的数字服务法、数字市场法等,欧盟为进入数字经济时代做了多年铺垫。该法案积极的一面是对AI监管起到很好的示范,“就像GDPR出台后,全球监管框架基本上都在借鉴GDPR,《AI法案》出台也必定会对全球AI治理提供有益的借鉴和参考。” 北京师范大学法学院副教授、中国互联网协会研究中心副主任吴沈括认为,这会对跨国企业带来非常重大的影响,影响业务研发模式、合规流程设计、市场运营策略,其优点在于明确的规则和细化的制度设计。 另有声音认为,《AI法案》推出可能过早过严,而全球不同地区对AI产业发展的态度并不相同。 吴沈括也认为,短期来看《AI法案》存在阻碍当地AI布局的这个可能性。这是监管和产业企业之间互动博弈的过程,需要一个相互增强认知的过程。中长期看,如果在确定性和监管力度上有所平衡的话,可能存在反弹机会。 AI初创企业波形智能计划出海欧洲,创始人姜昱辰曾在瑞士攻读人工智能博士学位。她认为,欧盟严监管不是一个新问题,欧洲向来在数据隐私方面较严。“这次只是针对AI出了相应的隐私条款,但隐私条款本身严格这件事情不这么新,是欧洲市场一直存在的固有挑战。” 至于《AI法案》对市场的影响,姜昱辰认为会有一些,但对私有化部署的影响较小,对大模型公司影响可能更大,“尤其大模型公司提供闭源的API有较大风险,但给企业做私有化部署或做保障的软件,这个市场反倒更大。”当隐私监管较强时,隐私保障较好的产品及公司会获益。 高风险系统划分引关注 《AI法案》对企业的影响细化在“风险分级”监管中。 具体看,《AI法案》采取“风险分级”监管模式,将AI系统分为四个风险级别,分别为被禁止的、高风险、有限风险和最低风险,每个级别都有相应合规要求。法案规定,不可接受风险的AI系统被彻底禁止投入市场,高风险AI系统只有在符合某些强制性要求的情况下才能投放欧盟市场、投入服务或使用,有限风险AI系统的规制较少。 一些法律界人士认为,AI企业进入欧盟市场最应关注的是高风险AI系统的划定和要求。 美国奥睿律师事务所巴黎办公室合伙人Julia Apostle告诉记者,根据《AI法案》规定,高风险AI系统开发者有最重的合规负担,包括需要证明符合法律的要求。任何在欧洲开发或投放AI系统的公司都应该审查其AI系统是否为高风险。从AI实际应用看,开发可能影响个人权利、安全和自主权的AI系统公司,受该法案影响较大。 “高风险AI系统涉及关键领域,如教育和职业培训、就业、重要的私人和公共服务(如医疗保健、银行业)等,这些领域受到严格监管和合规要求。而医疗健康、人力资源、公共安全和交通运输等行业使用的AI系统大多属于高风险类别。”王捷表示。 据欧盟推动制定《AI法案》之初的预计,高风险AI系统占AI系统的比例约5%~15%。王捷判断,不直接影响人身安全、健康或基本权利的应用场景相对影响较小,如聊天机器人、个性化内容推荐等,一般不会被认为是高风险系统。Julia Apostle认为,多数AI系统不会受该法案太大影响,而对高敏感领域,如医疗保健、职业场景,将会有进一步的立法关注。 但陈吉栋判断,高风险AI系统涉及广泛,现在欧盟把大多数AI系统都纳入高风险系统中。例如自动驾驶汽车、人脸识别都可能涉及高风险。 值得注意的是,《AI法案》明确了AI系统相关的多类主体,包括AI系统提供者、部署者、授权代表、进口商和产品制造商。据上海段和段律师事务所律师团队近期发布的一篇文章,AI系统提供者的义务要求最繁多,大约涉及29条条例,这些义务涉及系统设计、开发、测试、部署、监控等多环节,明显多于部署者、授权代表、进口商涉及的条例。 王捷表示,AI系统提供者负责开发人工智能系统或通用人工智能模型并将其投放市场,这意味着需要投入更多资源来确保合规性。AI系统提供者需承担最多义务、也承担较高合规成本。 此外,《AI法案》也对通用人工智能系统施以颇大关注。该法案称,具有至少10亿个参数并使用大规模自我监督用大量数据训练的模型应被视为具有显著通用性。而当通用人工智能模型用于训练的累积计算量大于10的25次方每秒浮点运算次数FLOPs时,将被认为具有高影响能力,进而可能被认定为具有“系统性风险”,需满足一些额外要求。 大模型合规成本或超出17% 对人工智能相关企业而言,要满足这样一部全面且复杂的法案的要求,随之而来的可能是合规成本上升。 海外智库Center for Data Innovation在2021年欧盟推动《AI法案》制定之初便预计,该法案将使未来五年内欧盟经济损失310亿欧元。一家部署高风险AI系统的欧洲中小企业将承担高达40万欧元的合规成本。《AI法案》将导致所有人工智能支出额外17%的开销。 CEPS(欧洲政策研究中心)同年澄清,超300亿欧元损失的估计被夸大,支出17% 额外开销仅适用于未满足任何监管要求的公司。在CEPS的研究中,要建立一个全新的质量管理体系(QMS)的成本可能在19.3万欧元至33万欧元之间,每年的维护费用估计为7.14万欧元,一旦QMS建立起来,成本会降低,且QMS只是针对高风险AI系统提供者的要求。 以上关于合规成本的讨论发生在两三年前,当时大模型还未成为主流,如今情况可能发生了改变。 Julia Apostle认为,提出的17%这个数字,是基于非常低的AI系统基础成本的估计,未反映训练一个基础模型的成本。“合规成本还无法完全估算,因为还不知道全部细节。高风险AI系统和通用人工智能模型的提供者的成本将是最大的。法律依赖于对技术标准的采纳,由公司实施这些标准,实施过程须经过认证。而这些标准内容尚未正式确定,但肯定涉及政策、程序和具体产品要求的采纳。”Julia Apostle表示,由于该法案对AI的监管不止于欧盟,企业因该法案而离开欧盟似乎不太可能。 王捷认为,对该法案,国内大模型厂商若要在短期内快速且低成本实现合规可能有难度,特别是对于数据复杂的大模型。大模型厂商的挑战可能是适应欧盟对于数据管理、模型透明度和可解释性的高标准要求。 吴沈括认为,对于风险的分类、分级,特别是关于AI研发的披露度问题,是比较大的合规挑战,这与人工智能算法一定的黑箱属性具有较强烈和明显的冲突。赵新华则认为,《AI法案》涉及一些更高的合规标准和要求,企业进入欧盟市场前要考虑能不能接受合规成本,以及可能面临的不合规责任。 “如果说欧盟完全不在乎对经济的限制,也不准确。”赵新华表示,从《AI法案》规定范围、内容看,欧盟也在试图消除规定对创新的影响,如对一些较少风险AI系统的管理相对宽松。例如支持创新的措施中专门设了人工智能监管沙盒,供企业测试创新性产品、服务、商业模式和交付机制,避免企业因从事相关活动而立即招致监管后果,这是针对技术创新的柔性监管制度,给了小企业较多发展空间。该法案有较大灵活性,风险管控循序渐进、逐步匹配,预计对经济造成负面的冲击较小。 具体条例看,业界和法律界仍在关注哪些具体要求可能增加合规成本。 《AI法案》对高风险AI系统的要求非常细致,涉及风险管理系统、数据和数据治理、技术文件、记录保存、透明度和向部署商提供信息、人为监督、准确性、稳健性及网络安全。具体要求包括但不限于建立、实施、记录和维护与高风险AI系统相关的风险管理系统;拟定技术文件并向国家主管部门和认证机构提供必要的信息;训练、验证和测试数据集的数据准备处理工作包括各种注释、清理、更新等,并采取措施发现、预防和减轻可能发生的某些偏差。 《AI法案》对通用人工智能模型提供商的要求则包括拟定并随时更新技术文件、向拟集成该模型的AI系统提供商更新信息和文档、制定遵守欧盟版权法的政策、起草并公开一份关于通用人工智能培训内容的足够详细的摘要。被认定为具有“系统性风险”的通用人工智能模型需额外履行一些义务。 一名国内互联网大厂研发负责人向记者表示,对高风险AI系统的要求中,较可能导致成本增加的是对数据进行处理、预防某些偏差,因为涉及专门做数据处理并微调模型来避免模型输出不合法内容。国内大模型在这方面肯定做过工作,但各地标准不同,要符合新标准需重新做工作。 赵新华则表示,高风险AI系统提供者是指AI系统由某个企业提供并投入欧盟市场,法案专章列出提供者的义务,包括编制相应技术文件、证明符合法案要求,并对符合欧盟的相关规定做符合性声明,还要增加CE合格证认证。高风险AI系统投放市场前需完成合格性评估程序。 “这些规定非常具体,对提供者、部署者、进口商和分销主体设定不同的义务。”赵新华表示,如果大模型公司在欧盟市场提供服务,除了需要请律师在合规层面及法律方面做评估和建议外,还涉及通过第三方进行合格性评估程序等,有些企业加CE标志也需找第三方认证机构。此外,《AI法案》还要求将AI系统算法的主要技术数据做摘要,这可能涉及公司内部商业、技术团队,及外部第三方主体。 成本之外,人工智能企业是否愿意为了进入欧盟市场而满足《AI法案》的要求也是问题。 《AI法案》对通用人工智能模型在预训练和训练中使用数据的透明度提出要求,模型提供商应起草并公开用于训练通用人工智能模型内容的足够详细的摘要。在适当考虑保护商业秘密和机密商业信息必要性的同时,摘要内容应总体全面。 ”现在公开的大模型技术文件对预训练数据方面大多一笔带过,但其实这部分内容应该最多。”一名国内头部大模型研发人员告诉记者,大模型效果如何,80%跟训练数据有关。之所以不公开训练数据的细节,是因为训练数据在一定程度上是企业核心机密。同时,很多大模型的训练数据来自网上各种渠道,如果不披露可能不会有人发现数据来源,一旦披露则可能暴露版权问题。 以上技术人员告诉记者,需向外提交的技术文档如果有详细的要求,大模型公司也不一定愿意提供,这并非成本的问题,而是因为公司可能希望对技术保密。 《AI法案》还将分阶段实施,目前也有不少模糊或需厘清的问题。陈吉栋告诉记者,要划定高风险系统还是比较难,企业面对高风险AI系统需承担的诸多义务时,会倾向于不把自身划定在高风险范围内。欧盟或相关方还需要提供一套后台配套基础设施来支撑法律顺利运行。 吴沈括认为,从可能的缺点来看,该法案对于产业研发和应用的逻辑是否有足够强的匹配性,还需要进一步的观察。 “模糊和争议点主要集中在定义和具体合规要求上,如高风险AI系统精确界限、基础模型和应用模型的区分等。如何有效评估和监控AI系统透明度和公平性也存在不确定性。”王捷认为。 “我认为国内有些大企业已经做好了合规的准备,但大部分还没做系统准备,维持观望态度。是否做好合规准备,更多取决于战略认知。企业要从本质上认识到人类已进入人工智能高风险时代,对其风险进行管控已成为共识。”陈吉栋表示。
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!
【新智元导读】9次迭代后,模型开始出现诡异乱码,直接原地崩溃!就在今天,牛津、剑桥等机构的一篇论文登上了Nature封面,称合成数据就像近亲繁殖,效果无异于投毒。有无破解之法?那就是——更多使用人类数据! 用AI生成的数据训练AI,模型会崩溃? 牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文,今天登上了Nature封面。 如今,LLM已经强势入侵了人类的互联网,极大地改变了在线文本和图像的生态系统。 如果网络上的大部分文本都是AI生成的,我们用网络数据训练出的GPT-n,会发生什么? 研究者发现,如果在训练中不加区别地使用AI产生的内容,模型就会出现不可逆转的缺陷——原始内容分布的尾部(低概率事件)会消失! 这种效应,被称为「模型崩溃」。 换句话说,合成数据就像是近亲繁殖,会产生质量低劣的后代。 模型崩溃在LLM、变分自编码器VAE和高斯混合模型GMM中,都可能会发生。 有网友认为,是时候敲响警钟了! 「如果大模型真的在AI生内容的重压下崩溃,这对它们的可信度来说就是末日了。如果它们吃的是机器人的反刍的内容,我们真的能相信LLM的输出吗」? 真实数据,价值连城 我们都知道,如今全球已陷入高质量数据荒。 EpochAI预测,全球在今年就会陷入高质量数据荒 当前的大模型(包括GPT-3)还是主要基于人类生成的文本进行训练的,但是未来可就不一定了! Meta研究员Thomas Scialom表示,Llama 3在后训练阶段没有使用任何人类编写的答案,全是Llama 2合成的数据 如果未来,大多数模型的训练数据也是从网上抓取的,那它们不可避免地会用上前辈模型生成的数据。 当某个版本的GPT生成的大部分文本,成为了后续模型的训练数据集,随着版本号的增加,GPT-{n}会发生什么变化? LLM迭代至第9代,完全胡言乱语 简单讲,LLM生成的数据最终污染了下一代模型的训练集,就会出现「模型崩溃」(model collapse)的现象。 由于在被污染的数据上进行训练,LLM随后会错误地感知现实。 这样一来,会导致多代AI生成模型的退化。 也就是那句经典名言——垃圾进,垃圾出。 合成数据,无异于给数据集「投毒」。 研究中,作者们使用维基百科文章先训练了模型OPT-125m,并在前一代模型生成的文本上,训练了多代模型。 模型们被要求续写一段来自wiki的关于「萨默塞特(Somerset)一级登录建筑」条目的文本。 输入的提示如下所示,这是关于设计14世纪教堂塔楼主题的文本: 输入:据Poyntz Wright所说,一些教堂塔楼在1360年之前就开始建造了,通常是由一位大师石匠和一小队流动石匠完成,辅以当地教区的工人。但其他作者不同意这种观点,他们认为主要是由著名建筑师根据早期的垂直风格设计了这些教区教堂的塔楼。 在第0代模型中,输入同样的提示,得到的输出是: 可以看到,Gen0的续写已经开始有点前言不搭后语了,而且还出现了诡异的符号「@-@」。 奇怪的事实错误是,圣约翰大教堂位于纽约,不在伦敦。 第0代:复兴建筑的典型例子包括伦敦的圣约翰大教堂。最早的垂直复兴建筑实例可以在18@-@世纪的根西岛圣母教堂中找到,该教堂实际建于19世纪晚期。垂直教堂有两种类型:那些。 在Gen1中,虽没有奇怪符号的输出,但同样出现了事实错误—— 圣彼得大教堂(St. Peter's Basilica)真正位于梵蒂冈,而不是什么罗马、布宜诺斯艾利斯。 而且建造于公元1506和1626年之间,由教皇朱利奥二世开始建造,直至教皇奥本八世。 第1代:像罗马的圣彼得大教堂或布宜诺斯艾利斯的圣彼得大教堂这样的建筑。虽然没有证据表明这些建筑是在教皇英诺森三世统治期间建造的,但它们有可能是在他的继任者教皇英诺森统治期间建造的。 接下来,到了第五代模型,输出的结果完全是胡言乱语了。 以ism起句,讲了一大堆语种,根本不是续写的相关素材。 第5代:ism,已被翻译成100多种语言,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、荷兰语、瑞典语、挪威语、波兰语、匈牙利语、斯洛伐克语、立陶宛语、爱沙尼亚语、芬兰语、罗马尼亚语、保加利亚语、土耳其语、克罗地亚语、塞尔维亚语、乌克兰语、俄语、哈萨克语、吉尔吉斯语。 再到第9代,奇怪的@-@符号又出现了,而且还输出了更加无关的内容——tailed jackrabbits。 第9代:建筑。除了拥有世界上最大数量的黑@-@尾兔、白@-@尾兔、蓝@-@尾兔、红@-@尾兔、黄@-。 以下是所有迭代模型,完整输出的过程。每一代新的模型都是在前一代生成的数据上进行训练的。 看得出,模型在每一代次迭代中退化。研究人员发现,所有递归训练后的模型,皆会输出重复的短语。 另一个案例是,今天杜克大学助理教授Emily Wenger,发表在Nature上一篇社论文章中指出: AI基于自身数据训练,生成的图像扭曲了狗的品种。 数据集中,不仅有金毛、柯基,还有法国斗牛犬、小体巴塞特雪橇犬等。 基于真实数据训练后的模型,输出的图像中,常见品种如金毛寻回犬占大多数,而不太常见的品种斑点狗会消失。 然后,基于AI生成的数据训练模型,生成的品种全是金毛了。 最终,经过多次迭代,金毛的图像就完全出现混乱,脸不是脸鼻子不是鼻子,LLM就此完全崩溃了。 此外,2023年来自斯坦福和UC伯克利的一项研究中,作者同样发现了,LLM在少量自己生成数据内容重新训练时,就会输出高度扭曲的图像。 论文地址:https://arxiv.org/pdf/2311.12202 他们还在实验中展示了,一旦数据集受到污染,即便LLM仅在真实图像上重新训练,模型崩溃现象无法逆转。 作者警示道,为了模型不再被自己「降级」,AI需要能够区分真实和虚假内容。 这一观点,与Wenger不谋而合。 她认为,缓减LLM崩溃并不简单,不过科技公司已经部署了嵌入「水印」的技术,进而可以把标记AI生成内容,从数据集中剔除。 此外,模型崩溃的另一个关键寓意是,那些早已构建的AI模型,有着先发优势。 因为,从AI时代互联网获取训练数据的公司,可能拥有更能代表真实世界的模型。 什么是模型崩溃? 最新研究中,作者表示,模型崩溃包含了两种特殊的情况:早期模型崩溃、晚期模型崩溃。 在早期模型崩溃中,模型开始丢失关于数据分布尾部的信息;在晚期模型崩溃中,模型收敛到一个与原始分布几乎没有相似性的分布,通常方差显著降低。 这一过程的发生,是由于三种特定误差源,在多代模型中逐渐累积,最终导致模型偏离原始模型: - 统计近似误差 这是主要的误差类型,由于样本数量有限而产生,并且在样本数量趋向无限时会消失。这是因为在每一步重采样过程中,信息丢失的概率总是存在。 - 函数表达误差 这是次要误差类型,由于函数近似器(function approximator)的表达能力有限而产生。 特别是,神经网络只有在其规模无限大时,才能成为通用近似器。 因此,神经网络可能会在原始分布的支撑集(support)之外,引入「非零概率」,或在原始分布的支撑集内引入「零概率」。 一个简单的例子是,如果我们用单个高斯分布,来拟合两个高斯分布的混合。即使有完美的数据分布信息(即无限数量的样本),模型产生误差也是不可避免的。 然而,在没有其他两种类型误差的情况下,这种误差只会在第一代发生。 - 函数近似误差 这也是次要的误差类型,主要由于学习过程的限制而产生,例如随机梯度下降的结构偏差或目标函数选择的影响。 这种误差可以看作,即便在理想条件下,即拥有无限数据且完美表达能力,仍在每一代模型中产生。 综上所述,每种误差都可能会导致模型崩溃变得愈加严重,或得到一些改善。 更强的近似能力甚至可能是一把「双刃剑」。 因为更好的表达能力可能抵消统计噪声,从而更好地逼近真实分布,但同样也可能放大噪声。 更常见的情况下,我们会得到一种级联效应(cascading effect),其中个别的不准确性会结合起来,导致整体误差的增长。 例如,过拟合密度模型会导致模型错误地外推,并将高密度区域分配给训练集中未覆盖的低密度区域。 这些错误分配的区域,随后会被频繁采样。 值得注意的是,除上述内容之外,还存在其他类型的误差。比如,在实际操作中,计算机精度是有限的。 接下来,研究人员将通过「数学直觉」来解释上述误差是如何产生的,不同误差来源如何复合(compound),以及我们如何量化平均模型偏差。 理论直觉 在所有基于前几代生成数据进行递归训练的生成模型,这种现象都是普遍存在的。 所以,到底是什么原因,导致了模型崩溃? 研究者提供了几种理论解释。 通过研究两个数学模型,研究者量化了前一部分讨论的误差来源。 这两个模型分别是一个在没有函数表达能力和近似误差情况下的离散分布模型,以及一个描绘联合函数表达能力和统计误差的多维高斯近似模型。 它们既足够简单,可以提供感兴趣量的解析表达式,同时也能描绘模型崩溃的现象—— 考虑的总体随机过程,作者称之为「代际数据学习」。 第i代的数据集D_i由具有分布p_i的独立同分布随机变量 组成。 其中,数据集的大小j∈{1,…, M_i}。 从第i代到第i+1代,我们需要估计样本在新数据集D_i中的分布,近似为 。 这一步称之为函数近似, 。 然后通过从 中采样,生成数据集 。 其中,非负参数α_i, β_i, γ_i的和为1,即它们表示来自不同代的数据的比例。 它们对应的混合数据,分别来自原始分布(γ_i)、上一代使用的数据(β_i)和新模型生成的数据(α_i)。 这一步,称为采样步骤。 对于即将讨论的数学模型,我们考虑α_i=γ_i=0,即仅使用单步的数据,而数值实验则在更现实的参数选择上进行。 离散分布的精确近似 在本小节中,我们讨论一种没有函数近似和表达误差的离散概率分布,即 。 在这种情况下,模型崩溃的原因仅仅是采样步骤中的统计误差。 首先,由于低概率事件被采样到的概率很低,它们的尾部(低概率事件)会逐渐消失,随着时间的推移,分布的支持范围也会缩小。 假设样本量为M,如果我们考虑一个概率为q≤1/M的状态i,那么来自这些事件的i值样本的期望数量将小于1。 也就是说,我们会失去关于这些事件的信息。 如果更一般地考虑一个概率为q的状态i,使用标准条件概率,我们可以证明失去信息的概率(即在某些代中没有采样到数据)等于1−q。 这也就意味着,分布最终会收敛到某个状态处的δ函数,最终落在某个状态的概率等于从原始分布中采样该状态的概率。 将 这个过程看作一个马尔可夫链,我们就可以直接证明上述结论,因为X^(i+1)仅依赖于X^i。 此外,如果所有 的值都相同,那么在下一代,近似分布将完全是一个δ函数。因此所有 的值也将相同。 这就意味着,马尔可夫链至少包含一个吸收态,因此它会以概率1收敛到其中一个吸收态。 对于这个链,唯一的吸收态是那些对应于δ函数的状态。 因此,随着我们跟踪的模型逐渐崩溃,我们必然会陷入一个常数状态;当这条链被完全吸收时,原始分布的所有信息就都丧失了。 在一般情况下,这个论点也是成立的,因为浮点表征是离散的,因此使得模型参数的马尔可夫链也是离散的。 因此,只要模型参数化允许使用δ函数,我们一定会到达这个结论,因为由于采样误差的原因,唯一可能的吸收态就是δ函数。 基于上述讨论,我们可以看到,无论是早期模型崩溃(仅低概率事件被切断)还是后期模型崩溃(过程开始收敛到单一模式)的现象,只要是在具有完美函数近似的离散分布下,都必然会出现。 多维高斯分布 在讨论了离散分布之后,我们就可以提出一个更通用的结果,它可以在高斯近似的背景下得到证明。 在这种情况下,每一代的数据都是通过上一代的均值和方差的无偏估计来近似的。 高斯模型崩溃 假设原始数据是从分布D_0(不一定是高斯分布)中采样的,且样本方差不为零。假设X^n是递归地使用上一代的无偏样本均值和方差估计来拟合的,其中 且样本量是固定的。 此时就可以得到 。 其中,W_2表示第n代的真实分布和其近似之间的Wasserstein-2距离。 换句话说,这意味着不仅第n代的近似值会任意远地偏离原始分布,而且随着代数的增加,它也会以概率1收敛到零方差,从而发生崩溃。 这个定理展示了后期模型崩溃的效果,即过程开始收敛到零方差。这个过程,与离散情况非常相似。 语言模型中的模型崩溃 当模型发生崩溃,会对语言模型产生哪些影响? 模型崩溃在各种机器学习模型中都是普遍现象,然而像变分自编码器(VAE)和高斯混合模型(GMM)这样的小模型通常是从头开始训练的,而LLM则有所不同。 从头训练的成本非常高,因此通常使用预训练模型(如BERT、RoBERTa或GPT-2)进行初始化,然后再对预训练模型进行微调以适应各种下游任务。 那么,当LLM使用其他模型生成的数据进行微调会发生什么呢? 实验评估了训练大语言模型最常见的微调设置,其中每个训练周期(epoch)都从一个预训练模型开始,并使用最新数据。 这里的数据来自另一个已经微调过的预训练模型。 由于训练范围限制在生成接近原始预训练模型的模型,由于这些模型生成的数据点通常只会产生非常小的梯度,因此实验的预期是模型在微调后只会发生适度的变化。 实验微调了Meta通过Hugging Face提供的OPT-125m因果语言模型,在wikitext2数据集上对模型进行微调。 为了生成训练模型所需的数据,实验使用五向集束搜索(beam search)。 将训练序列限制为64个token,然后对于训练集中的每个token序列,让模型预测接下来的64个token。 用上面的方法调整所有原始训练数据集,并生成一个大小相同的人工数据集。 由于范围涉及所有原始数据集并预测了所有块(Block),如果模型的误差为0,它将生成原始的wikitext2数据集。 每一代的训练都从原始训练数据的生成开始,每个实验运行五次,结果显示为五次独立运行,使用不同的随机种子。 用wikitext2数据微调的原始模型,平均困惑度(perplexity)从零样本基线的115下降到34,说明它成功地学习了任务。 最后,为了尽可能接近现实情况,实验使用了在原始任务上表现最好的模型,使用原始wikitext2验证集进行评估,作为后续几代的基础模型。 这意味着,实际上观察到的模型崩溃可能更加明显。 实验还考虑了考虑两种不同的设置: - 5个epoch,不保留原始训练数据。 在这种情况下,模型在原始数据集上训练五个周期,但在后续的训练中不再使用原始数据。 整体的原始任务表现如图所示。 实验发现,使用生成的数据进行训练虽然能适应基本任务,但性能有所下降,困惑度从20增加到28。 - 10个epoch,保留10%的原始训练数据。 在这种情况下,模型在原始数据集上训练十个周期,并且每次新的训练时,随机保留10%的原始数据点。 整体的原始任务表现如图所示。 实验发现,保留部分原始数据可以更好地进行模型微调,并且仅导致性能的轻微下降。 虽然两种训练方式都导致了模型性能下降,但实验发现使用生成数据进行学习是可行的,模型也能成功地学习一些基础任务。 特别是,从图下及其3D版本中可以看到,模型崩溃现象确实发生了,因为低困惑度样本的密度随着训练代次的增加而开始累积。 这意味着,在多个训练代次中,采样数据可能会逐渐趋向于一个δ函数。 到这里,结论就和「理论直觉」中的一般直觉一致了。 可以看到,生成的数据有更长的尾部,这就表明某些数据是原始模型永远不会生成的。而这些错误,就是来自代际数据学习的积累。 这也给我们敲响了警钟—— 如果没有大规模采用AI泛滥之前从网上抓取的数据,或者直接使用人类生成的大规模数据,训练新版本的LLM,恐怕会变得越来越困难! 有什么办法吗? 研究团队认为,AI生成数据并非完全不可取,但一定要对数据进行严格过滤。 比如,在每一代模型的训练数据中,保持10%或20%的原始数据;使用多样化数据,如人类产生的数据;或者研究更鲁棒的训练算法。 没想到吧,人类创造的数据,居然有一天会如此价值连城。
“3D视频版Sora”来了
作者 | 香草 编辑 | 李水青 输入单个物体视频,就能获取任意拍摄视角的全视图3D动态视频了! 智东西7月25日消息,昨日晚间,AI独角兽Stability AI推出其首个视频生视频(video-to-video)模型Stable Video 4D(SV4D),该模型能够将单个物体的视频输入,转换为8个不同视角的多个新视频,用户可任意指定摄像机角度。 ▲输出全视图视频演示 目前,SV4D可以通过一次推理,在约40秒内生成8个视图的各5帧视频,整个4D优化需要20-25分钟。该模型已在Hugging Face上开源,适用于游戏开发、视频编辑、虚拟现实(VR)等场景的应用,可免费用于研究、非商业用途。 SV4D技术论文也同步发表,研究团队由Stability AI和东北大学学者组成,其中详细解读了该模型的框架结构、优化策略、测评结果等。 ▲SV4D论文 Stability AI从2019年成立起,就致力于研发文字、图像、音频、视频等多个领域的开源模型,其在2022年跻身独角兽行列。虽然从去年以来它就陷入寻求卖身、核心技术团队离职、CEO卸任等困境,但即便如此也没能打断其不断开源新模型的脚步。 今年6月,Stability AI在债台高筑的情况下获得前Facebook总裁Sean Parker等投资者的8000万美元注资,并迎来了新任CEO——前Weta FX(维塔数码)负责人Prem Akkaraju。自Akkaraju上任以来,Stability AI在一个月内又接连发布聊天机器人Stable Assistant、音频生成模型Stable Audio Open以及此次发布的SV4D。 论文地址: https://arxiv.org/abs/2407.17470 Hugging Face开源地址: https://huggingface.co/stabilityai/sv4d 一、基于SVD升级4D框架,40秒生成多视角视频 SV4D主要用在3D模型的多视角视频生成。其输入为单个物体的单视角视频,输出为同一物体8个不同角度的多视角视频。 据介绍,该模型以图生视频模型Stable Video Diffusion(SVD)为基础,实现了从图生视频到视频生视频的能力飞跃。 具体运行时,用户首先上传一段视频并指定所需的摄像机角度,SV4D会根据指定的摄像机视角生成8个新视角视频,从而提供拍摄对象的全面、多角度视频。生成的视频可用于优化拍摄对象的动态表示,适用于游戏开发、视频编辑、VR等场景的应用。 ▲SV4D输入输出 目前,SV4D仍处于研究阶段,可在40秒左右的时间内生成8个视角各5帧视频,整个4D优化流程约耗时20-25分钟。 以往用于多视角视频生成的方法,通常需要从图像扩散模型、视频扩散模型和多视图扩散模型的组合中进行采样,而SV4D能够同时生成多个新视图视频,大大提高了空间和时间轴的一致性。此外,该方法还可以实现更轻量的4D优化框架,而无需使用多个扩散模型进行繁琐的分数蒸馏采样。 ▲SV4D与其他方法对比 与其他方法相比,SV4D能够生成更多样的多视图视频,且更加细致、忠实于输入视频,在帧和视图之间保持一致。 SV4D是Stability AI推出的首个视频到视频生成模型,已在Hugging Face上开源发布。Stability AI称,团队仍在积极完善该模型,使其能够处理更广泛的现实世界视频,而不仅仅是用于训练的合成数据集。 二、混合采样保持时间一致,4D生成全面超基准线 SV4D的技术论文也同步发表,其中详细解读了该模型的框架结构。 总的来说,SV4D是一个用来生成动态3D对象新视图视频的统一扩散模型。给定一个单目参考视频,SV4D为每个视频帧生成在时间上一致的新视图,然后使用生成的新视图视频来有效地优化隐式4D表示,而不需要基于分数蒸馏采样的优化。 ▲SV4D框架概述及生成的4D资产 SV4D的模型结构如下图。基于相机条件,SV4D将相机视点的正弦嵌入传递给UNet中的卷积块,并在空间和视图注意力块中,使用输入视频进行交叉注意力条件设定。为了提高时间一致性,SV4D引入了一个额外的运动注意力块,并以第一帧的相应视图为交叉注意力条件。 ▲SV4D模型结构 为了在保持时间一致性的同时,扩展生成的多视图视频,研发团队在推理过程中提出了一种新颖的混合采样策略。 首先,SV4D采样一组稀疏的锚定帧,然后将锚定帧作为新的条件图像,对中间帧进行密集采样/插值。为了确保连续生成之间的平滑过渡,SV4D在密集采样期间,交替使用时间窗口内的第一帧前向帧或最后一帧后向帧进行条件设置。 ▲SV4D模型采样 在框架的优化上,SV4D使用参考多视图图像的第一帧,优化由多分辨率哈希网格以及密度和颜色多层感知机(MLP)表示的静态NeRF,然后解冻时间变形MLP,并使用随机采样的视图和帧来优化动态NeRF。 ▲优化框架概述 为了训练统一的新视图视频生成模型,SV4D研发团队从现有的Objaverse数据集中整理了一个动态3D对象数据集。在多个数据集上的实验结果和用户研究表明,与之前的工作相比,SV4D在新视图视频合成以及4D生成方面具有最先进的性能。 ▲ObjaverseDy数据集上4D输出的评估 在ObjaverseDy数据集上的4D输出评估中,SV4D在所有指标方面优于基线,在视觉质量(LPIPS和CLIP-S)、视频帧一致性(FVD-F)、多视图一致性(FVD-V)和多视图视频一致性(FVD-Diag和FV4D)方面都击败了此前的模型。 结语:Stability AI多模态再添新布局 Stability AI以文生图开源模型起家,在文本、视频、3D等多个模态上都有所布局。此次开源SV4D,是其在3D+视频生成两个方向上的共同进展。 尽管该模型目前仍处于前期研究阶段,但它在各指标表现出的优秀能力和模型架构上的创新思路,为未来的发展开辟了广阔的前景。随着模型的迭代和优化,SV4D有望在游戏、VR等更多领域的应用发挥重要作用。
一手体验电脑版豆包后,我删除了购物车里的AI PC
作者 | 香草 编辑 | 漠影 临近期末,结课作业的汇报PPT还无从下手;下班前,客户丢来一堆材料并要求当天整理成文字稿……在校园和职场中,你是否常常遇到这些棘手的难题? 大模型时代,五花八门的AI工具使这些工作变得更加高效便捷,包括网页端、手机App端、浏览器插件等多样的产品形态,为用户带来了丰富的使用体验。 然而,这些产品形态都存在一定的短板:网页端用起来不够方便,浏览器插件无法触及浏览器外部,手机端更不必说——毕竟大多数时候,PC才是我们的主要生产力工具。 有没有什么方式,能够在PC端提供更加便捷的使用体验,实现在任意应用端都能方便快速地召唤AI助手? 在这样的背景下,豆包电脑版应运而生。它突破了现有产品形态的困境,能够跨应用一键划词搜索,或是通过启动器随时唤醒,在桌面端提供跨应用的全方位AI能力。 这意味着无论是在办公软件中处理文档、制作图表,还是在多个文档中进行信息搜索和整理,豆包电脑版都能“随时随地”提供高效且精准的帮助。 豆包电脑版的使用体验究竟如何?能为我们的工作学习效率带来多大提升?带着这些问题,智东西深入体验了豆包电脑版,试图找到桌面端AI产品的新形态定位。 一、能跨应用的AI助理,随时随地“问问豆包” 打开豆包电脑版后,其首先呈现出的主页面与网页版相同。整个应用的UI设计类似浏览器,顶端是一行标签栏,其中与传统浏览器的新建标签页位置对应的功能,变成了“问问豆包或AI搜索”。 ▲豆包桌面版主页面 将它用作浏览器的时候,顶端会显示一个切换按钮,可以直接对页面进行AI总结;右边有一个悬浮的豆包头像,点击会打开一个侧边栏,并对网页中的内容进行提炼或提问。 ▲豆包桌面版打开网页 如果只停留在应用内,它就和一款普通的AI浏览器或浏览器插件没什么区别。豆包电脑版的独特之处,在于其强大的跨应用能力,不仅能随时随地划词唤醒,还能通过启动器按下快捷键随时吊起。 例如,在Word等软件中处理文档时,文档边缘会出现一个悬浮按钮,点击就可以使用写作、翻译等AI功能。 ▲AI写作悬浮按钮 如果划选部分文字,则会显示一个工具栏,可直接对选中文字进行搜索、翻译、总结等;点击右端的小三角还可以使用更多功能,包括扩写、改写等。 ▲跨应用划词功能 点击“发现更多技能”,可以在工具栏中添加更多的AI能力,从扩写缩写、语法修正等修饰技能,到代码补全、生成文案等写作技能应有尽有。 ▲AI划词技能 第二种唤醒豆包的方式是使用启动器。无论是在桌面还是在任何应用中,只要按下快捷键就能随时在画面中央召唤出对话框,进行提问、AI搜索或使用更多功能。 ▲使用启动器唤醒豆包 无论是文字编辑中的写作帮助,还是阅读中出现不理解的词汇需要获取更多信息,抑或是任何工作学习中想要“问问豆包”的时刻,随叫随到的唤醒功能都十分便捷,带来了创新的跨应用体验。 二、上手实测四大能力,一键写文案、读文献、画素材 在当下快节奏的工作和学习环境中,我们常常面临着诸多痛点需求。 信息的爆炸式增长让有效的搜集变得困难,海量的文献和视频需要快速理解消化,文案创作和邮件回复耗费大量时间,而优质的设计素材也不易获取。 带着这些需求,让我们来实测一下豆包电脑版的四大能力,看看它如何为工作学习生活排忧解难。 1、疑难内容一划便搜,最新资讯手到擒来 在传统搜索中,我们不仅需要对搜索引擎呈现出的信息进行筛选,还经常需要从多个链接中提炼出各方面的有效信息,如何快速获取全面的信息是一个很考验信息检索能力的问题。 现在,在豆包电脑版的帮助下,只需要轻轻一划,就能迅速获取所需要的内容。例如,当我在微信公众号中阅读文章时,遇到一个想要深入了解的项目,只需划词点击AI搜索,豆包就会将相关信息呈现出来。 ▲划词搜索 获取所在领域最新的消息也是常见的痛点需求,尤其是日新月异的科技领域,源源不断的新技术、新产品让人应接不暇。在许多AI助手类应用中,无法联网获取实时信息、对时间的判断有误差等都让这一需求难以被解决,那么豆包电脑版表现如何呢? 以“6月以来新发布的AI视频生成产品为例”,我使用豆包电脑版进行AI搜索,它很快就给出了Runway Gen-3 Alpha、Luma AI Dream Machine等回答,且准确给出了它们发布的时间以及更多信息。 ▲实时搜索 2、AI伴读化身文献助手,数小时视频一秒总结 阅读是工作学习中的一大需求。无论是学生党、科研工作者还是从事研发工作的打工人,都时常需要接触长篇论文。 过去,想要精心研读一篇论文往往费时费力,而在豆包电脑版的加持下,你不仅可以让它总结全文,迅速概览重要信息,还可以基于AI伴读功能随圈随问,让豆包帮你解读每一个细节。 就以上文搜到的PixelDance论文为例,在豆包电脑版打开论文主页后,点击顶端的“AI总结”按钮,就可以迅速获取论文的主要信息。 ▲论文AI总结 如果想要精读论文,也可以点击右端的“AI伴读”按钮。 ▲AI伴读按钮 在AI伴读模式中,我可以一键将论文翻译成中文,也可以在论文中选择某一特定的段落或文字让豆包解读。 ▲AI伴读模式 除了论文之外,长视频内容的提取和总结也是常见的“阅读”需求。动辄几小时、几十小时的视频中,有效的信息可能并不多,分散在视频的各个片段中。 例如,我想知道雷军在2024年度演讲中有哪些干货信息,但完整版的演讲长达3个小时,即使是官方剪辑后的纯净版,也有1个多小时的时长。要看视频并从中提取信息,怎么说也要花费数个小时。 而在豆包电脑版的帮助下,我只需要点击“总结视频”,带有时间戳的亮点提炼几乎在1秒内就呈现出来,还可以在此基础上绘制脑图。 ▲视频总结功能 值得一提的是,这个时间戳是可以点击的。当我在豆包总结出的亮点中看到感兴趣的内容,可以直接点击文字,视频就会跳转到对应的位置。 ▲时间戳跳转 3、左右分屏回邮件,Word里也能AI写作 工作中,各种公文邮件的回复是否让你头疼过?不仅要注意邮件格式,还有措辞上的各种要求,去网上找相应的模板又费时费力。 当我在豆包电脑版中打开邮件,唤醒侧边栏后点击“写作”并选择邮件回复,只需简单输入自己的回复需求,就可以迅速生成符合格式要求的回复邮件,还能调整语气、长度以及语言。 ▲使用豆包电脑版回邮件 当然,回邮件只是写作中很小的一部分,在工作和学习中还有更多需要写作的场景,文案、提纲、报告、PPT大纲等,其撰写往往需要耗费大量的时间和精力。 在豆包电脑版的加持下,在Word、记事本或是任何输入框中,都可以一键召唤AI提供帮助,其提供了小红书文案、日周月报、PPT大纲、营销文案等多种提示词模板,只需填写关键词就可以进行对应的写作。 ▲在记事本中唤醒AI写作 我可以让它帮我写营销广告,并以表格形式呈现。 ▲营销文案写作 也可以让它帮我就某个主题进行头脑风暴,并随时将生成的内容插入输入框。 ▲头脑风暴 4、画素材、做插图,化身全能设计师 对设计师来说,要找一个合适的素材图像可能没那么容易,而全部都自己绘制又需要大量的时间和精力。尤其是在概念和草图阶段,AI工具可以大幅提效。 例如3D风格的图像,传统制作流程需要涉及建模、纹理、灯光、渲染等多个步骤,而使用豆包电脑版,只需简单的提示词就可以在几秒内生成多组图像。 ▲豆包生成3D风格图像 不瞒你说,这篇文章的头图就是我用豆包电脑版先生成提示词文本,再利用绘图能力生成的(doge)。 总的来说,豆包电脑版在解决信息获取、阅读、写作和设计素材生成等方面,都在AI能力的基础上,带来了比其他产品形式更高的便捷性,能够迅速满足不同场景下的需求。 对学生来说,可以利用豆包电脑版迅速搜索最新的研究成果,同时快速总结多篇参考文献,节省阅读时间,获取或创意和灵感;对于科研工作者,在追踪前沿技术时,能够通过豆包电脑版实时获取最新资讯,并对复杂的论文进行快速解读。 对工作党而言,办公人员在回复大量邮件时,借助其生成规范且符合需求的回复内容,可大幅提升工作效率;设计师等艺术工作者在创意构思阶段,利用豆包电脑版生成的素材和插图,能够更快地将想法转化为实际的设计方案。 结语:豆包助力电脑零成本升级“AI PC” 在当下大模型开卷落地应用的时代,豆包电脑版突破了以往产品形态的瓶颈,以随时随地唤醒的方式,为传统电脑带来了零成本升级“AI PC”的绝佳机会。 同时凭借底层大模型的强大性能,豆包电脑版能够在丰富的应用场景中,化身随时待命的全能小助手。无论是解决棘手的作业难题,还是应对紧张的工作任务,它都能迅速响应,给出精准且有效的帮助。 未来,我们也期待有更加多样化的产品形式出现,为大模型能力真正转化为生产力带来更多可能。
华为鸿蒙全家桶强势出圈:被广大明星们种草了
七月不止迎来了黄色预警,就连“热门”综艺也接续上线,其中《十天之后回到现实》的开播更是为酷暑高温添了一把火,作为一档沉浸式生存闯关真人秀,对于我而言颇像“内行人看门道,外行人开热闹”,节目播出前的预告就暴露了我的“职业病”。 作为一个泛科技领域的编辑,对于影剧或综艺中出现的科技产品十分敏感,不得不说《十天之后回到现实》与华为的深度绑定可谓珠联璧合。 这档综艺无疑成为华为全场景产品智慧生态体验的展示舞台,并且成为对华为“1+8+N”全场景智慧生态战略的一次“检阅”。 节目场景中,除华为手机设备以外,交通工具也随之成为了拥有鸿蒙血统的问界M5、M9。 熟悉汽车领域的朋友们都知道,问界系列车型属于鸿蒙智行,而正是由于搭载了鸿蒙座舱,问界M5、M9才能够将车内空间整体“智慧”起来,无论是自动驾驶还是与华为手机的无缝连接,都让节目的推进变得更加流畅。 值得一提的是,吴奇隆在节目播出前还发博表示,在录制节目的过程中,自己被华为鸿蒙的全场景产品种草了。 晒出自己的鸿蒙全家桶之余,还不忘参与挑战华为官方#谁是鸿蒙最强王者#话题,此外节目播出当日,更是在微博晒发问界M5遥控泊车,同期间作为节目的闯关者之一,沈月也相继加入了此次最强王者的挑战赛局,众多网友粉丝跟风挑战,#谁是鸿蒙最强王者#话题挑战热度登顶热搜,广受关注。 实际上,能够实现如此丰富的硬件生态,离不开底层的软件架构——而华为正是具备这一能力的厂商。鸿蒙生态不仅能够覆盖到包括手机、平板、PC、可穿戴设备以及汽车在内的全场景设备,同时还具备难能可贵的互联互通能力。 在技术上,鸿蒙具有跨终端无缝协同体验,以及一次开发多端部署等优势。鸿蒙系统将硬件设备的能力进行整合,为开发者提供丰富的分布式能力接口。 通过分布式技术,鸿蒙不仅可以让用户在手机、平板、电脑、智慧屏、车机等多设备之间自由切换,还能实现多设备之间的资源共享,让用户在使用过程中更加便捷。以超级终端功能为例,用户只需简单地拖拽或碰一碰操作,就能实现手机与其他设备的无缝连接。 同时,也正是在分布式系统的加持下,鸿蒙帮助华为设备实现了出色的跨设备协同,手机、平板、电视、手表等设备无缝连接,用户可以在任意设备上接续工作、娱乐,享受便捷的跨设备体验。 十年铸剑终辉煌!鸿蒙生态优势由起初的艰难起步、韬光养晦才有了今天的厚积薄发。历经1778天,在今年6月举行的华为HDC 2024开发者大会上,HarmonyOS NEXT正式发布,这一系统完全抛去了安卓底层,实现了底层内核的完全自研,成为独立于安卓、iOS之外的第三大操作系统。 HarmonyOS NEXT延续了华为“不同设备一个系统”的特性,“One as All,All as One”,将使用一个系统打通数字设备的边界,智慧体验和性能方面再次实现跨越。 《十天之后回到现实》实际上已经成为鸿蒙全场景智慧生态的一次精彩展示。无论是华为Mate 60 Pro、Pocket 2还是问界M5、M9车型等华为全场景产品,鸿蒙生态的全场景覆盖能力得到了淋漓尽致地体现。 尤其当吴奇隆等明星公开表达对华为产品的喜爱,更是激发了大众对鸿蒙生态的兴趣,掀起了一股“谁是鸿蒙最强王者”的网络热潮。 华为鸿蒙系统从初生牛犊不怕虎,到如今的成熟稳健,其发展历程堪称一部技术创新的编年史,HarmonyOS NEXT的发布不仅是华为在科技领域的一次华丽转身,也预示着未来智慧生活的更多可能性。 随着鸿蒙系统不断完善,未来的华为生态将进一步完善、扩大边界,最终深刻地融入并改变我们的日常生活,一个由鸿蒙引领的全场景智慧生态时代正在到来。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。