EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
刻俩萝卜章骗了300亿?诺亚诉京东案一审判决出炉
近日,第一财经从知情人士处获悉,上海金融法院对于诺亚诉京东一案进行了一审判决。 该案件之所以受到关注,是因为2015年至2019年,承兴系公司用“萝卜章“、假员工等骗过诺亚财富及旗下歌斐资产等公司,涉及超300亿元,共造成超80亿元损失。 第一财经收到的判决书显示,上海金融法院支持了上海歌斐、自言租赁(曾用名:诺亚(上海)融资租赁有限公司)对于承兴的诉讼主张。该判决判令承兴向上海歌斐支付承兴应收账款的未偿还金额人民币34亿元,上海歌斐产生的相关法律费用及开支人民币360万元,承兴向自言租赁支付应收账款回购款 8500 万元。此外,承兴还被判令承担上海金融法院产生的费用及开支人民币1710万元。 不过,对于上海歌斐、自言租赁对京东贸易的诉讼请求,缺乏依据,上海金融法院不予支持。 上海金融法院认为,自言租赁对于其经济利益损失,可以侵权为由向京东贸易主张赔偿,但其主张可否成立应根据侵权责任构成要件予以分析。自言租赁主张京东贸易未对员工管理、办公场所管理、邮件收发机制、财务发票管理、POP 业务管理等层面尽到基本的注意义务,导致其损失依据不足,法院不予支持。 第一财经就判决内容询问诺亚控股相关工作人员,上述工作人员表示已在上市公司层面进行了正常进展播报。 诺亚5月8日在港交所发布的公告显示,于2024年5月6日,诺亚收到承兴民事案件判决,于该判决中,上海歌斐针对共同被告人提出的其他索偿被上海金融法院驳回。上海金融法院的判决将于上诉期结束后生效。诺亚将继续密切监察及评估与承兴有关的法律程序的任何未来发展,并适时知会投资者任何更新资料(如适用)。诺亚亦将继续采取最佳行动,在法律允许的最大范围内推动该判决的执行,并保障承兴债权基金投资者的利益。 去年11月24日,诺亚财富旗下的上海歌斐资产管理有限公司诉广东承兴控股集团有限公司、广东中诚实业控股有限公司、苏州晟隽营销管理有限公司、北京京东世纪贸易有限公司的合同纠纷在上海金融法院开庭。 2015年至2019年,承兴系公司通过虚构与京东、苏宁等公司的购销业务,以应收账款债权向投资机构融资,共造成超80亿元损失。根据2022年11月1日上海市第二中级人民法院出具的刑事判决书,结合被告人罗岚、石勉乾等人的供述,多家鉴定机构对购销合同的鉴定意见等证据,可证实承兴系公司通过伪造京东公司印章、伪造相关购销合同等底层资料,虚构了对京东公司的应收账款债权,又以虚假的应收账款债权转让诱骗各被害单位签订合同。 在诺亚展开尽调时,承兴系公司有派员工假扮京东员工、拦截快递、修改结算单、冒充京东网银在线有限公司等行为。根据判决书,罗静(承兴系创始人)犯合同诈骗罪,判处无期徒刑。 去年12月4日,京东通过微博“京东发言人”发布“关于诺亚财富恶意起诉京东、误导投资人和公众的声明”。 京东称,在承兴系合同诈骗过程中,承兴系公司用假冒的京东公章、假冒的京东员工、假冒的京东系统和虚假的交易数据,轻易骗过号称“全球综合金融平台”的诺亚财富及旗下歌斐资产,获得歌斐巨额融资,直至爆雷。面对持续两年多的诈骗行为,歌斐资产尽调工作出现明显缺陷、投融资管理出现巨大漏洞,高管方建华接受承兴巨额贿赂(一审已被判刑),导致投资人受到重大损失,对投资人没有尽到相应责任和义务。 目前,前述两起案件的一审判决还处于上诉期,判决结果还暂未生效。
喜马拉雅的“声”意,这次资本能买单吗?
文丨 高山 编辑 | 西贝 四月中旬,喜马拉雅在高盛、摩根士丹利、中金的联合保荐下,再一次向港交递交了招股书。这意味着2021年、2022年一共三次,冲击美股、港股失败后,喜马拉雅再次向IPO发起冲击。这次更新的招股书同以往对比,最显著的变化就是公司终于盈利了。 最新的招股书显示,2023年喜马拉雅全年营收为61.6亿元人民币,经调整净利润达到2.24亿元,这意味这喜马拉雅终于可以摘掉亏损的帽子,更有底气地交出自己的招股书。那么盈利后的喜马拉雅真能上市成功吗?作为国内音频龙头的喜马拉雅执着上市,又反映了在线音频行业怎样的行业困境? 01 节衣缩食,换来的艰难盈利 根据公司自述,之所以能在2023年实现扭亏,原因有三个:用户群扩大,变现能力增强,以及成本结构优化带来的毛利率改善和经营效率提升。 但细看招股书就不难发现,前两个看上去积极的因素跟理想中,用户快速增长、商业化路径走通的美好愿景相去甚远。2023年喜马拉雅月活用户达到3.03亿,虽然实现了增长,但增速只有4.1%,对比2021、2022年7.2%、8.6%的增速,出现明显下滑。所以就用户数来看,所谓的用户群扩大其实是遇到了增长瓶颈。 说来其实也可以理解,毕竟时至2023,互联网早就过了当年那个“所有传统行业都值得再做一遍”的黄金时代,在存量竞争的时代,喜马拉雅坐拥3亿月活,虽然比不上一线的国民级应用,但在在线音频领域,国内还难有对手可以望其项背。 存量市场里,扩大付费会员占比,进一步提升货币化率,也能带来营收和利润的增长,可在这点上,2023年喜马拉雅的表现也不尽如人意。移动端平均月活跃付费用户和移动端平均月活跃付费会员的付费率,相较于2022年都出现略微下降。好在,依靠客单价相对高的儿童会员、家庭会员等类别,喜马拉雅勉强实现了订阅营收的增长。 更令人担忧的是其第二大营收来源广告收入,在2023年只有14.23亿元,而该项营收已经连续两年出现下滑,虽然跌幅不大,但作为占营收超过20%的公司第二业务,这样的表现确实不算良好。 而真正让公司实现业绩扭亏的主要原因,是成本结构的优化,又或者说,是节衣缩食。 去年年末,市场上就曾广泛报道喜马拉雅多名高管离职,将裁员30%的消息,虽然之后公司出面澄清,表示只是人员的正常调整。但在招股书的数据中,还是可以清楚地看到,2021年末,公司共有员工4342人,而2023年末这一数字是2636人。再加上以余建军为首的一批高管薪资大幅下降,使得公司的员工福利开支,从2021年的1.92亿元,下降到2023年的1.15亿元。 对内缩编降薪,对外花钱也开始变得“抠搜”。最明显的,就是销售及营销开支的下降,该项支出连续累计下降超过20%,从2021年的26.3亿,来到2023年的20.7亿。对此,公司的解释是,由于公司战略性地调整销售及营销开支重点,导致公司的渠道推广开支及品牌推广和广告开支出现变化。 总结起来,2023年喜马拉雅虽然盈利,但达成方式难免给人一种“跌跌撞撞”的感觉,精确到上市来说,增长略显乏力的喜马拉雅,能引起二级市场投资人多大兴趣,还很难说。 02 曾经的资本宠儿 虽然从23年的财务表现看来,上市前景难言乐观,但事实上,从2012年创立到2020年获得E轮融资,喜马拉雅在成立后的很长一段时间内都可以称得上是资本的宠儿。 根据招股书中披露的数据,喜马拉雅创立以来一共获得了12轮融资,2020年E轮融资结束后,喜马拉雅投后估值达到280多亿元,相较于天使轮投后的345万美元,估值增长了上千倍。 而根据招股书披露,目前喜马拉雅的股东阵容不可谓不豪华,腾讯、阅文、小米、百度、美国泛大西洋投资集团、高盛等知名机构都出现在其股东名单内,这些知名投资者的背书,将成为喜马拉雅上市过程中的一个重要助力。 除了财务支持,这些股东们还在业务上为喜马拉雅提供支持,比如喜马拉雅利用腾讯的广告平台进行推广、同阅文合作获得大量作品版权、借用百度技术提升自身智能化水平等等。这些助力使得喜马拉雅迅速成为中国在线音频领域的老大,拥有25%的市场份额,领先第二名12个百分点。 借助各方“大佬”的投资帮助,喜马拉雅实现了快速的增长,但近几年,喜马拉雅由于用户增长失速,在2020年后便再也能没能获得外部融资。于是,自身对资金的需求和外部投资者的退出诉求,成为喜马拉雅近些年反复冲击IPO的最关键因素。 03 AI会是解药吗? 作为行业龙头,增长遇到瓶颈,盈利要依靠降本艰难实现,这同音频生意本身的性质有关。这门生意天生有着成本高、变现难的特点。 从分类上说,喜马拉雅其实同抖音、快手一样,都属于内容平台,都属“注意力经济”。但在音频平台,用户通常只收听,而且常在健身、开车等时间收听,这就导致平台收获的注意力只是残缺的注意力,这就导致其产生的经济效应要大打折扣,最明显的就是音频频台能获得的广告资源要弱于图文平台和视频平台。 而在内容上,传统的音频平台的节目制作,比如喜马拉雅上受到广泛喜爱的郭德纲系列、名著系列,需要版权、需要专业的录音设备和制作团队,这些相比于短视频的制作成本要高得多。 收入的问题短期没有看到好的解决办法,行业主要精力集中于降本,喜马拉雅解法是拥抱AI。 根据招股书披露,喜马拉雅研发了“珠峰音频AI模型”和一站式AI音频制作工具“音剪”,这些工具能够大幅缩短创作者的后期制作时间,并提升创作效率,从而进一步拉低创作门槛。同时,喜马拉雅还通过AIGC生产有声书、有声剧,截至2023年12月21日,喜马拉雅平台AIGC内容2.4亿分钟,占其音频内容的6.6%,平台的AIGC作品每日播放时长超过250万小时。其中不少AI合成的作品,比如评书大师单田芳的《明朝那些事儿》、《蜀山仙侠传》等受到广泛好评。 正如招股书中,喜马拉雅自述“拥抱AI新时代”,AI肯定是行业发展的大方向,但这个大方向里,喜马拉雅也将面临新的竞争。AI的军备竞赛需要长期的技术积累,需要大量人力物力的投入,这是大厂的优势,而大厂其实早已盯上了音频行业。微信在界面上新增“听一听”入口,字节带着番茄畅听来势汹汹,B站收购猫耳FM后,又投资配音公司音熊联萌,各大巨头纷纷加速自己在音频领域的布局。可以预见,在AI时代的音频领域的竞争只会加剧,不会减弱,而喜马拉雅能否利用好自己的先发优势,讲出更令投资者信服的故事,会是决定其能否上市成功,以及估值水平的关键因素。
王炸芯片,难再成苹果救星
在昨晚(5月7日)时长半小时的发布会上,苹果推出了该公司史上最轻最薄的新款iPad Pro,这也是苹果首次把OLED屏幕应用在iPad产品线上。 但要说这场发布会的主角,还得是苹果的M4芯片。为了在iPad Pro上首发这颗芯片,苹果不惜跨过半年前刚发布的M3,而苹果给出的M4参数,也让一些媒体直呼“变态”。 激进堆料背后,其实是苹果的销量焦虑,iPad收入已连续多个季度下滑。而根据机构统计,过去两个季度,iPad已经丢掉中国市场第一,iPhone出货量也跌出了国内前五。 但苹果通过大幅涨价硬上M4的策略,能否挽回iPad颓势,仍要个打问号。芯片一直是苹果最硬核的实力不假,但随着性能普遍过剩和芯片制程猫腻,用户对这招越来越不感冒。 会后不温不火的股价也反映出,用户期待的并不是最轻、最薄和最强,而是苹果能否在AI等领域再拿出引领式创新。即便后退一步,苹果也要升级最该升级的地方,才能获得市场认可。 苹果发布会截图 屏幕技术被中国品牌抢跑 昨晚的发布会,是苹果时隔18个月再度更新iPad产品线,库克等高管对新品做了大量介绍。 比如新款iPad Air首次迎来双尺寸版本,芯片从M1升级到M2,起售内存也升级到128GB,11英寸起售价和上代一样仍为4799元,13英寸起售价为6499元。 在更高端的iPad Pro上,苹果将起售内存升级到256GB,并且首次搭载OLED屏幕,还通过双层串联OLED技术打造了超精视网膜XDR显示屏,支持1000尼特的全屏亮度。 并且得益于全新的OLED屏幕,13寸版本的iPad Pro机身厚度从前代的6.4mm减薄至5.1mm,重量比前代轻了将近113克,便携性提升明显。 但在平板电脑领域,OLED技术早有国产品牌率先采用。 去年9月,华为推出了全球首款柔性OLED平板——13.2英寸的MatePad Pro。在这款产品助力下,去年四季度华为在中国平板市场反超苹果成为第一,这也是10余年来首次。 苹果这次高调宣传的双层串联OLED技术也并不是行业首发。 早在今年1月,荣耀就发布了搭载双栈串联OLED架构的Magic6 RSR。该技术是通过提供两层堆叠的RGB发光层,让屏幕在相同发光亮度下,电流更小、功耗更低、老化速度更慢。 这两个案例也证明,中国厂商再次实现了对苹果的领跑。 同时今天市场还有消息传出,苹果所使用的这款双层OLED屏幕,和荣耀一样也是由国产面板厂京东方供货,不知道三星对此作何感想。 梳理完这些相对常规的升级,苹果就只剩一个王炸——M4芯片。该公司高管甚至直言,没有M4芯片就没有新款iPad Pro。 苹果发布会截图 起售价大涨32%,只为性能更过剩? 从以往的惯例来看,苹果新款M系列芯片都是由笔记本电脑Macbook首发,并且通常是一年半更新一次。而苹果这次越过半年前刚推出的M3,直接给iPad Pro上M4,凸显出对该产品的重视。 根据苹果公布的参数,M4芯片采用4大核+6小核CPU设计,CPU速度比M2提升50%;GPU采用10核,相比M2速度提升4倍,并且首次支持光线追踪;搭载16核神经网络引擎,运算速度达到每秒38万亿次,是A11芯片的60倍。而M4提供与M2相同的性能时,功耗仅为M2的一半。 值得指出的是,苹果M4芯片采用的是台积电第二代3nm制程,而这种制程量产一年多来,客户仍只有苹果一个,这意味苹果要为此承担更多成本。 根据市场上的数据,2023年台积电3nm晶圆代工价格约为14万元人民币/片,比5nm(约9.55万元)上涨超40%,更比7nm(约7.3万元)暴涨100%。 苹果必然会把这个成本转嫁给用户。 这次新款的iPad Pro,从上代的6799元起售(11英寸、128GB存储)变成了8999元(11英寸、256GB存储),13英寸的起售价也从上代的9299元上涨至11499元,暴涨2200元,涨幅高达32%,当然这里面还有OLED面板和内存等关键部件的成本。 对用户来说,自然要思考要不要为M4的强劲性能买单。 如果说早些年,苹果的A系列等自研芯片确实有些差异化优势。 但自2020年推出M1系列以来,尤其是苹果将其应用到平板电脑中后,M系列芯片的综合性能一直远远超出其他平板电脑,毕竟除了苹果没人把桌面级处理器塞进平板电脑里。 苹果当前最大的问题是,是没有向用户解释清楚,为何要为这么过剩的性能买单。 可能有些用户对平板电脑的生产力有期待,但从这次发布会来看,除了升级屏幕和芯片,苹果对iPadOS并不怎么上心,唯一的重大软件更新是与Mac同款的多任务处理“台前调度”,以及与Mac协同的“通用控制”,但这两个功能对iPad生产力的提升可谓杯水车薪。 对大部分用户来说,平板能做的事,手机基本也能做,甚至折叠屏比平板更便携,而平板不能做的事,笔记本电脑可以做,没必要在平板上搭载更多性能。 虽然苹果也宣布将为新款iPad带来Final Cut Pro 2和Logic Pro 2,让它们更适合在iPad工作。但在业内普遍看来,真正限制iPad走向“电脑”的还是iPadOS,而非几款应用软件。 这次苹果宣称,M4芯片的神经网络引擎“性能强到足以傲视当今的AI PC”。但从新款iPad的AI功能来看,主要还是在加速软件性能方面,而非时下流行的生成式AI。例如,搭载M4芯片的iPad Pro在Final Cut Pro中能轻松将4K视频中的主体从背景中分离,在StaffPad中可在钢琴演奏实时自动生成乐谱等。 总之,苹果这次仍然把升级重心放在了芯片和屏幕等硬件上,OS和AI层面的能力,只能等到6月WWDC(苹果开发者大会)上再一探究竟。 苹果发布会截图 只专研“刀法”,必定难挽颓势 虽然M4芯片的性能够强,成本也向用户转嫁了,但苹果依然展示了自己精准的“刀法”。 256G和512G版本的iPad Pro,被阉割掉了一颗CPU大核,搭载的是9核CPU的M4芯片和8GB内存,而1TB和2TB存储版本搭载的是10 核CPU的M4芯片和16GB内存。 同时,前三代都有的超广角镜头离奇消失,平板影像能力本身就不如手机,现在镜头数还倒退了。 苹果还有一点小心思,就是在对比M4芯片的性能时,选择的对象是M2和A11,这两个芯片一个发布于2022年,另一个亮相于2017年。 这些一方面反映出苹果诚意不够,另一方面也凸显出摩尔定律放缓的窘境,在一定程度上佐证了昂贵的3nm带来的性能提升,已远不如前些年。 当前苹果硬件销售正全面承压。一季度,苹果营收同比下滑4%,iPhone收入下滑10%,iPad下滑17%。有机构统计,去年四季度iPad丢掉中国第一,iPhone今年一季度掉出中国前五。 在全球平板市场上,今年一季度苹果和亚马逊也是前五大厂商中唯二下滑的品牌,同比下滑13.9%。这导致苹果的市场份额直接少了6个百分点,从2023年同期的42%降至36%。华为和小米是增长最快的两大厂商,其中华为连续两个季度位居第三,小米市场份额则直接翻倍。 从这次苹果跨代在iPad使用更强的M4,可以看出苹果确实很急,库克也连连向中国示好。 但不可否认,在性能普遍过剩的时代,单纯的硬件性能升级已很难打出差异化优势。当中国厂商在生成式AI和折叠屏领域百花齐放时,苹果的创新能力已经有些相形见绌。对苹果来说,未来唯有展现出更多引领式创新,提升用户综合体验,而不是专研“刀法”,才有可能挽回颓势。
菜鸟倒逼拼多多自建驿站
两年前,拼多多“侵入”菜鸟驿站,曾引发一场长久的诉讼。 也就是2022年,拼多多旗下的“多多买菜”在社区团购业务之外,还将触角伸到快递代收业务上。当时有媒体称,多多买菜宣布已与多家快递公司签署合作协议,打通签收系统。此外为吸引驿站网点入驻,拼多多还将为首批入驻的站点提供补贴。还有报道称,多多买菜将被命名为多多驿站,且已经开始招揽有资质的驿站入驻。 拼多多输了官司 若是正常的业务布局,这对大多是夫妻店的驿站、代收点来说,无疑是个好消息,多一家平台接入,就可能多一份收入。 但在实际执行过程中,多多买菜的开拓,直接部分瞄准已经拥有快递代收业务的站点。按照官方说法,拼多多无意做传统快递驿站,只是升级了多多买菜团长端软件,服务市场上现有存量站点。其中就包括菜鸟旗下的菜鸟驿站。这种行为在不少评论看来,就是菜鸟种树,多多买菜直接摘果子。 当时,菜鸟做了两件事进行“回击”。菜鸟驿站先是给旗下加盟商下通知,如果违反相关合作约定,擅自接入第三方收件系统属于违约行为。菜鸟有权终止与驿站的合作,并取消驿站的资质备案。紧接着,2022年4月,菜鸟以不正当竞争为由向拼多多提起了诉讼。 对于前者,不少人质疑菜鸟有强迫驿站“二选一”的嫌疑。 对于这个质疑,菜鸟内部人员曾对外公开回应称,多多买菜系统不具有经营快递业务许可资质,菜鸟驿站针对旗下站点要求使用公司统一的收发件系统,是根据国家相关规定和作为开办者的管理需要,并不涉及“二选一”。 按理说,这个说法并没有毛病。没有资质还强行接入自家签收系统,有专业人士表示,“这好像一个品牌超市,要在另一家品牌超市里设置自己的结算体系,以及卖它自己的货物一样,后者怎么可能忍受”? 这桩旧案在今年4月28日得到一个判决结果。菜鸟集团官方宣布,浙江省高级人民法院作出了二审判决,判决结果为驳回拼多多上诉,维持一审判决,认定拼多多在菜鸟驿站末端门店推广“多多买菜末端系统”,构成了不正当竞争行为,判决拼多多向菜鸟赔偿500万元,并在拼多多网站“多多买菜”平台刊登道歉声明。 也就是说,从法律层面可以认定,拼多多存在不正当竞争行为,所谓“二选一”的质疑也并不存在。 而且,在二审判决中,拼多多的一个核心诉求点在于,它认为与菜鸟是不同商业模式进行的正当竞争,“没有损害其他相关市场主体的利益以及公共利益”,这也间接说明,其自身并不认为菜鸟存在“二选一”的胁迫。二选一的一个必要条件即是双方在相同或者类似的业务层面进行竞争。 自建驿站直面菜鸟 一直以来,末端配送的“最后一公里”都是电商和物流企业争夺的焦点,也是一个“堵点”。 菜鸟经历多年的沉淀和网络建设,才取得在这一赛道的领先地位,其艰难程度也是一门“捡钢镚”的生意。案件审结并不代表拼多多与菜鸟的争斗结束,因为这背后涉及到末端快递收发业务的蛋糕分食。 在抢食未果后,拼多多选择自建驿站,这在国家邮政局政务服务门户网站里得到证实。 查询信息显示,拼多多旗下多多买菜的背后公司——上海禹璨信息技术有限公司已经获得了快递业务经营许可。 这意味着拼多多在上海拿到设立快递驿站的“入场券”,也标志着拼多多正式踏入快递末端服务领域。公开信息还显示,拼多多的快递服务还延伸到了南京、广西、山东等地,对应区域的关联公司也陆续获得经营许可,这说明其快递业务的布局步伐明显加快。 过去的一战,拼多多输了与菜鸟的官司,被认为是无证经营。如今,拼多多取得快递业务经营许可,预示着其将在快递末端市场与菜鸟驿站展开直接的竞争。而更大的意义在于,拼多多也将形成从线上到线下无缝衔接的商业模式,摸着京东、淘天过河。 快递业务的融入为其实现了一个商业闭环。 在与菜鸟的竞争中,拼多多采取的策略是融合其在社区团购上的既有优势,通过优化多多买菜团长端软件,提出不抽佣金、不截留取件码的合作模式。这是在多多买菜现有团购网络上的优化,一定程度上降低末端站点的合作门槛,同时也减少了自身运营成本。 在这个过程中,拼多多作为后入者,将直面京东物流、菜鸟甚至抖音、快手的竞争,其合作模式的成本也将由拼多多自行承担。据了解,拼多多的驿站采用高额补贴策略,提供包括3000元入驻补贴、包裹补贴、免费智能通知服务以及硬件设备赠送等优惠政策。 但快递行业的竞争,已经不再仅仅围绕着“快”和“便宜”,更是逐渐转向服务、技术的全方位比拼。 比如,京东物流的次日达、菜鸟网络的“分钟级配送”等,都在现有服务基础上,极大的提升用户体验。 在这些方面,拼多多在物流基础设施建设、末端配送网络成熟度、用户体验等方面,都与排在前面的竞争对手存在很大的差距。 美团创始人王兴说过一段话:“我们犯了很多错误,交了很多学费,才明白这个世界没有神话,只有一些很朴素的道理:便宜的打败贵的,质量好的打败质量差的,认真的打败轻率的,耐心的打败浮躁的,勤奋的打败懒惰的,有信誉的打败没信誉的。” 同样的,大力未必都能出奇迹,尤其在面对快递上门服务的新规要求下,拼多多需要平衡成本与效率,确保快递服务质量。当拼多多业务模式越来越重时,更多的问题也将回到王兴所说的“朴素道理”之上。
华熙生物最担心的事正在发生
文/王慧莹 编辑/子夜 “玻尿酸第一股”华熙生物告别增长神话。 近期,华熙生物发布2023年全年报。财报显示,2023年公司营收60.76亿元,同比下降4.45%;归母净利润为5.93亿元,同比下降38.97%。 营收、利润双降,华熙生物遭遇滑铁卢。尤其是对比“医美三剑客”的另两家爱美客、昊海生科的表现,华熙生物此次掉队明显。 华熙生物在公告中解释称,2023年公司高速增长遇到压力,主要源于过去业务增长过快,导致内部组织管理滞后于业务的发展速度,组织管理有待提高,运营效率有待提升。 的确,2023年华熙生物进行了包括研发体系和品牌管理团队的组织人事架构调整,但此次业绩不佳的根本原因仍在于业务本身。这意味着,华熙生物的“病”要自己医。 曾经,华熙生物站在风口上,头顶“玻尿酸第一股”的光环,掀开中国玻尿酸的“造富神话”,创始人赵燕也被称为“玻尿酸女王”,华熙生物的故事紧紧围绕玻尿酸展开,这也为华熙生物的发展埋下了隐患。 一个大背景在于,这几年,医美及护肤领域竞争加剧,技术迭代频繁,新成分、新物质层出不穷,“抗衰新星”重组胶原蛋白、肉毒素成为行业新宠,玻尿酸不再受到消费者追捧,逐渐失色。 华熙生物意识到了危机和变化,开始寻找第二曲线。近些年,华熙生物走的是“大而全”的发展路线,除功能性护肤品外,还将业务拓展到了功能性食品、肉毒素、重组胶原蛋白等多个赛道。只可惜,新的业务探索还未找到增长密码。 如今,第二曲线还没跑通,核心业务便陷入增长困境,华熙生物“不只玻尿酸”的故事又将何去何从? 核心业务跑不快,华熙生物也焦虑 2023年,华熙生物遭遇增长困境,它最担心的状况正在发生。 自2019年上市以来,依靠玻尿酸光环,华熙生物高歌猛进,2023年是其首次出营收、归母净利润双降的情况。 与之相对的,是我国快速增长的化妆品市场。根据艾媒咨询发布的《2024—2025年中国化妆品市场运行状况及发展趋势研究报告》,2023年中国化妆品行业市场规模约为5169.0亿元,同比增长6.4%,2025年有望增至5791.0亿元。 这从侧面表明,华熙生物此次营收、归母净利润双降,要从自身找原因。 细分来看,华熙生物有四大业务板块,分别是原料产品、医疗终端产品、功能性护肤品、其他。 2023年,华熙生物原料业务和医疗终端业务保持增长,分别达到11.29亿元、10.90 亿元的营收,各自同比增长15.22%、58.95%;2023年两者分别占据华熙生物主营业务收入的18.59%、17.95%。 其中,医疗终端业务下的皮肤类医疗产品实现收入7.47亿元,同比增长60.29%。具体到产品端,微交联润致娃娃针收入同比增长超过200%,润致填充剂收入同比增长超过250%。 两大业务的增长仍阻挡不了总体业绩的下滑,这主要是由于华熙生物功能护肤品业务和功能性食品业务的下滑,尤其是华熙生物的营收支柱功能性护肤品业务,已经跑不快了。 财报显示,功能性护肤品业务2023年营收为37.57亿元,同比下滑18.45%,占公司主营业务收入比例由2022年的72.45%下降至61.84%;功能性食品业务方面,2023年收入为0.58亿元,同比下降 22.53%。 图源华熙生物财报 要知道,功能性护肤品业务一直是华熙生物的增长引擎,此次该业务也是首次出现营收下滑的情况。 自2019年上市后,玻尿酸原材料价格持续下跌,华熙生物开始转变重心,从B端原料生产转向C端销售功能性护肤品,目前旗下拥有润百颜、夸迪、米蓓尔、BM肌活四大功能性护肤品品牌。 彼时,外界对华熙生物的转型很有信心,从B端转向C端,是个自然而然的转变路径。 一方面,华熙生物业务几乎覆盖了玻尿酸全产业链环节,生产C端护肤品在成本上有优势;另一方面,从B端起家,华熙生物的研发能力也远高于传统护肤品品牌。 反映到数据上,也印证了华熙生物转型的成功。2019年至2021年,华熙生物功能性护肤业务营收分别为6.34亿元、13.46亿元、33.19亿元,同比分别增长119%、112%、147%,连续三年营收增速超过100%,到2021年,功能性护肤业务贡献近70%的营收,是华熙生物当之无愧的营收支柱。 只是,好景不长。玻尿酸原材料不再那么受宠,新兴成分重组胶原蛋白、肉毒素挤压着玻尿酸的市场,以玻尿酸为原材料的功能性护肤品受到冲击,华熙生物“四大金刚”踩了急刹车。 伴随业绩的寒意,华熙生物在资本市场的表现也不尽如人意。短短一年半,华熙生物的市值从1500亿元缩水至如今的320亿元。 业绩承压、股价下跌,第二曲线尚未跑通,核心业务已经疲软,如今的华熙生物可谓是“进退两难”。 危机早已显现,华熙生物怎么破局? 危机并不是突然发生的。 2021年,被行业认为是玻尿酸元年,医美行业的“造富神话”就此开始。玻尿酸又称透明质酸,被广泛应用在填充脸部凹痕等医美整形、去除皱纹等医美项目上。 乘着玻尿酸的风口,华熙生物业绩连年增长,并跑在高增速通道上。即便是在2022年疫情期间,整个医美市场受到巨大冲击,华熙生物仍然保持着30%左右的营收增速,且营收首次突破至60亿大关。 然而,风总有停的时候。随着重组胶原蛋白成为行业新技术风口,市场对玻尿酸的热情逐渐消散,华熙生物随之告别高光时刻。 拉长时间来看,早在2022年,四大功能性护肤品牌中,除了BM肌活保持三位数增长,润百颜、夸迪、米蓓尔的增速都已从2021年的三位数滑落到不足50%增速;2023年半年报中,华熙生物功能性护肤业务下滑7.56%,四大品牌全线下滑。 华熙生物四大功能性护肤品牌,图源华熙生物官网 这种变化的背后,是玻尿酸产业正在失速。过去几年,玻尿酸上下游产业的热度吸引了众多企业的入局,随着玻尿酸赛道竞争者增多,产品同质化严重,玻尿酸原料、终端产品的价格都在逐年下降。 早在2021年,弗若斯特沙利文发布的《2021全球及中国透明质酸(HA)行业市场研究报告》显示,玻尿酸原材料的平均价格已由2017年的210元/克,逐渐降至2021年的124元/克,降幅超过四成。 方正证券研报也曾显示,玻尿酸产品供给端红利期已经结束,供过于求。虽然行业整体有望长期增长,但品牌获取增量的难度大大增加。 玻尿酸告别红利期,相关产品同质化严重,行业玩家都在寻找玻尿酸之外新的故事,华熙生物也是如此。 早在2015年,华熙生物与韩国公司Medytox签署合资协议,布局Medytox旗下肉毒素及其他医美产品在国内的独家开发、销售等工作。去年2月,华熙生物以Medytox违约为由提出索赔要求。这也意味着,耗时七年,华熙生物在肉毒素上的探索又回到原点。 此外,华熙生物还探索合成生物学领域、胶原蛋白、麦角硫因、人乳寡糖等赛道,希望找到新的增长点。 它尤其重视近两年大火的重组胶原蛋白。2022年4月,华熙生物通过收购益而康生物,正式切入胶原蛋白产业,2022年8月底,又发布胶原蛋白原料产品,宣布将对胶原蛋白全产业链进行布局,赵燕表示“要把胶原蛋白打造成继透明质酸之后的第二大战略性生物活性物”。 2023年半年报中,华熙生物更是将自己定义为一家“以合成生物科技创新驱动的生物科技公司”,再次释放发力第二曲线的信号。 据弗若斯特沙利文数据,中国胶原蛋白产品市场规模2027年有望达1738亿元。风口正盛,竞争也更大,在胶原蛋白领域,有已登陆港交所的巨子生物,还有登陆北交所的锦波生物。 劲敌在前,华熙生物转型之路肉眼可见的艰难。耐人寻味的是,在2023年4月召开的业绩发布会上,赵燕公开“炮轰”市场上的胶原蛋白产品,认为在护肤产品与食品领域并不能保证胶原蛋白的真正作用。 “胶原蛋白在护肤品上用,那就是个概念,因为它吸收不了,它也不是在你皮肤里面形成保护膜。胶原蛋白分子量比较大,吃进去就变成肽和氨基酸,为了保证胶原蛋白真正的作用,应该在医疗器械方面应用”。 这或意味着华熙生物在胶原蛋白领域的应用研究方向发生变化,但无论路径怎么样,华熙生物在新领域的探索都任重而道远。想要靠第二曲线走出瓶颈,也需要时间。 玻尿酸的标签, 对华熙生物来说已经不是光环 提起华熙生物,外界的第一反应是玻尿酸。的确,华熙生物抓住玻尿酸的红利,以透明质酸钠类产品起家,开启了医美护肤市场的新纪元。 可以说,玻尿酸是支撑华熙生物成长的基石。正如上文提到,随着玻尿酸告别红利期,新型原料占据C位,玻尿酸的故事已经不再性感,华熙生物头顶的标签也影响着它的发展。 更关键的是,随着玻尿酸市场的成熟度变高,玻尿酸已经不再是华熙生物独有的专利,尽管其还占有着最大的市场份额,但已经不再是唯一的玻尿酸原料生产商。 市场供需变化之下,曾经的华熙生物有多需要玻尿酸,现在的华熙生物就有多希望撕掉玻尿酸的标签。 这几年,华熙生物创始人赵燕一直有意将华熙生物与美妆、医美和原料公司区隔开,试图强调华熙生物的生物材料、生物技术的属性,但这一切并不容易。 首先从华熙生物本身来看,从成立以来,华熙生物就与玻尿酸有着千丝万缕的联系,玻尿酸也是华熙生物故事中最频繁出现的词,市场已经对华熙生物有了固有印象,甚至会因其玻尿酸的概念忽略旗下品牌的名字。 近期,赵燕在与磐缔创投创始合伙人屈红林的对话中提到,华熙生物消费品业务面临最大的问题是增长,以及怎么发展独立于华熙生物的消费品品牌。 “尽管各品牌在产品和独有技术上有了一些探索,但这些探索并没有彻底夯实。在营销生态、营销组织和科技沟通方面还有很大的改善空间。”赵燕提到。 比如,在功能护肤领域,华熙生物共有14个品牌,如此大而全的产品线,全部被打上了玻尿酸的标签。这个打法在玻尿酸红利期,自然可以迅速占领消费者心智,但在红利衰退期,一些反噬效应开始出现。 在消费者心中,提起华熙生物只有玻尿酸的概念,而忽略了品牌各自的产品心智,无论是高端产品线夸迪,还是功能性食品水肌泉,消费者都只知道玻尿酸,而对产品的细分功能所知甚少。 简言之,除了玻尿酸这个普适的概念,华熙生物尚未培养出属于旗下不同品牌的心智。这直接导致了,在越来越成熟的玻尿酸市场,即便拥有先发优势,但伴随后来者居上,华熙生物的竞争力大不如从前。 回到此次业绩下降,华熙生物提到流量红利消散的问题。事实上,无论是护肤品还是食品,面向C端市场的华熙生物必须通过烧钱营销来抢占市场,因此华熙生物花的钱并不少。 财报显示,2020年—2022年,华熙生物销售费用分别为10.99亿元、24.36亿元和30.5亿元,营收占比分别为41.75%、49.24%、47.95%。2023年上半年,华熙生物销售费用为14.2亿元,占总营收的46.18%。 营销先行,虽能帮助品牌快速打开市场,但并非长久之计,华熙生物也意识到了这点。2023年年报显示,华熙生物销售费用为28.42亿元,同比去年下滑6.79%,华熙生物精细化运营初见成效。 说到底,华熙生物在新领域,仍需要像个创业公司一样去摸索。不过,资本市场留给它的耐心并不多,这意味着它必须尽快撕掉标签,抓住新时代的红利,否则将很快在激烈的竞争中掉队。
韵达、申通上演“争三”大战
作者 | 林心林 编辑 | 黎倩 国家邮政局监测数据显示,截至4月29日,今年我国快递业务量已达500亿件,比2023年提前32天。 与此同时,新版《快递市场管理办法》实行、价格战持续、IPO暂缓,头部快递企业在过去的一季度并不容易。 截至5月7日,顺丰、圆通、韵达、申通、极兔等已相继披露2024年第一季度财报或3月快递业务情况。 总体而言,头部企业业务量规模持续攀升,但争夺依旧激烈。一名生产运动服饰的义乌商家告诉时代财经,目前是电商淡季,为抢夺业务量,其所在区域的快递发货价格“极低”,“有的快递品牌100g可以谈到1.5元以内。” “争三大战”激烈, 新一轮价格战开启 今年一季度,头部快递企业均实现开门红。 其中,圆通速递录得快递业务量55.68亿件,韵达股份为49.42亿件,申通快递为45.87亿件,极兔速递为39.42亿件,顺丰控股则为29.7亿件。 “通达系”中,申通快递在一季度业务量增速最高,同比涨幅录得36.7%;其次是韵达股份,在2023年先后经历网点动荡、业务萎缩后,今年业务量修复明显,一季度同比增长29.14%,摆脱去年同期跌势,其中3月单月业务量涨幅甚至超过申通。 从当前格局看,中通快递(2023年中通的年业务量达302亿件,是首个年业务量超300亿的快递企业)、圆通速递稳坐前二,韵达股份与申通快递的“争三”大战依旧焦灼。 后来者也追赶迅猛,去年底登陆资本市场的极兔速递,在今年一季度跑出了快递企业中的最高增速46.1%。今年1月,极兔单独拆分设立中国区,由创始成员之一的刘伟担任中国区CEO,以精细化运营国内市场业务。 营收上,顺丰控股一季度依旧领跑,达653.41亿元,其中供应链及国际业务在经历长达一年的颓势后止跌。顺丰控股方面在近日举行的股东大会上提及,“伴随国际空海运需求回稳及运价提升,以及公司深化业务不断开拓供应链及国际市场,一季度供应链及国际业务实现同比增长6.4%。” 通达系中,圆通快递、申通快递一季度营收分别为154.27亿元和101.32亿元,增速均在15%以上;而业务量修复明显的韵达股份一季度营收仅同比增长7.71%,录得111.6亿元。 尽管价格战会对企业利润产生影响,但快递企业们“以价换量”的打法并未改变。 以韵达股份为例,其在3月录得快递单票收入2.08元,同比下降17.79%。其他快递企业的单票收入也有不同程度的下降,3月份申通快递单票收入为2.1元,同比下降12.86%;圆通速递、顺丰控股跌幅在5%以内,较为温和。 对于持续不止的价格战及市场竞争,中通快递董事长赖海松在此前电话会议上也表示,当前行业竞争还是非常激烈,每一家企业都非常注重份额的提升,“快递是‘马拉松’,做好自己、有成本优势、有服务时效、效率明显的企业一定会越来越强,长期来看份额肯定会越来越集中。” 申通快递、圆通快递、韵达股份等则在近期投资者调研活动中指出,今年的价格将保持相对稳定,不过仍存在淡旺季等季节性价格波动。 图源:图虫 快递咨询机构双壹咨询总经理龚福照也指出,3月是快递传统淡季起始月,各家快递企业价格普遍下降,目前已经接近去年旺季开始前的价格,预计接下来会进入持续下行区间,尤其是电商件调价幅度较为明显。 不过,龚福照认为,今年价格战竞争虽已开始,但与去年相比有所收敛,各快递企业在市场波动和新规的双重影响下采取了相对谨慎的价格策略。 菜鸟顺丰上市迟缓, 快递股开启回购潮 不同于业务量的快速修复,在资本市场,快递股则表现相对低迷。 去年下半年以来,顺丰、菜鸟、极兔三 家快递巨头开启港股上市计划,按照正常IPO流程,三家快递企业有望最迟在今年一季度完成上市。 而截至目前,仅有极兔速递在去年10月顺利敲钟上市。去年9月递交上市招股书的菜鸟,在今年3月招股书失效之际宣布撤回上市申请;去年8月寻求在港交所二次上市的顺丰控股,在今年初招股书失效后,至今尚未重新递交招股书。 资本市场环境的变化或是快递企业推进上市的顾虑之一。在阿里巴巴3月份的电话会议上,董事长蔡崇信谈及撤回菜鸟上市原因时称,当前市场情绪不振,充满挑战的IPO环境无法反映菜鸟真正的估值。 而今年以来,中通快递、韵达股份、顺丰控股等快递股股价亦表现疲软,极兔速递的股价则在上市初期不断冲高后迎来回落,加上受禁售期到期影响,年内下跌近55%。 有熟悉上市业务的某四大会计师事务所人士对时代财经分析称,国内快递公司的估值整体处于中低水准,这与国内电商市场近几年放缓、快递价格战抬头、行业集中度提升空间有限等有关。 浙商证券在今年初发布的研究报告则称,目前快递行业竞争格局未达稳态。该报告指出,2023年以来受行业价格竞争影响,快递板块市场情绪相对低迷,当前估值已普遍跌至较低位,反映行业长期增速下行和价格竞争持续。 面对股价下行,一众快递公司也纷纷回购股票。去年底至今,韵达股份、申通快递、圆通股份均抛出回购方案。 其中顺丰控股手笔最大,4月29日,顺丰控股宣布推出2024年第2期回购股份方案,计划以自有资金回购部分社会公众股份,资金总额不低于5亿元且不超过10亿元,回购价格不超过53元/股。 截至5月7日收盘,顺丰控股股价报37.31元/股,较最高点跌去七成。加上第一期回购金额,年内顺丰控股推出合计近20亿元的回购方案。 快递企业也在寻找新的增长曲线。 出海是目前国内快递企业重点发力的方向之一,除极兔、顺丰、菜鸟外,以圆通为代表的通达系也在追赶。财报显示,2024年圆通将继续全面开启国际化进程,今年3月圆通国际快递人事调整,来自顺丰系的周建担任行政总裁一职。 在快递业务之外,今年中通快递则在本地零售方面频频布局,包括开出首家生鲜店、奥莱折扣店后。中通快递方面曾对时代财经表示,公司旗下的中通甄选计划上半年完成200家生鲜门店开业。在3月份电话会议上,赖海松预测快递行业会保持中高速的发展,公司希望通过一系列政策落实,中通能“跳出通达”,形成差异化竞争力。 内卷不断、加速出海的市场竞争下,快递行业的牌局还会如何改写?
Sora使用中的真相:进步令人难以置信,但离不开大量人工
作者 | 连冉 编辑 | 郑玄 2 月初,OpenAI 发布的 Sora 惊艳了全世界,它在文生视频上的革命性突破,一度被视为吹向好莱坞的一场大风暴。 Sora 是一种扩散模型,与以往的 AI 视频生成器相比,Sora 能够依据提示词生成长达一分钟的视频内容,保持视觉质量和一致性,并且实现镜头的切换和构图调整,它还能使视频与背景相关的主题细节准确符合,生成的视频更加逼真,仿佛是现实世界的延伸。 当时,OpenAI 还发布了技术说明,表明它未来可以将生成的视频延长或无缝混合两个视频。 3 月起,Sora 对一些艺术家开放了使用权限,月末,OpenAI 在官网发布了几位艺术家使用 Sora 生成的超现实视频作品。近日,这些作品之一《气球人》背后的艺术家团队 Shy Kids 全揭秘了使用 Sora 的制作过程。 整体看下来,真正投入到影视制作中的 Sora 并没有当初那么惊艳,但它已经足够令人震撼——能让一个仅有三人的团队,在大约 1.5 至 2 周的时间内便制作出了一部精彩短片。 在该团队看来,当前形态的 Sora 在特定的图像生成方面取得了令人难以置信的进步;但对于相对复杂的项目,可能还需要一段时间的进化才能满足导演的具体需求。除了 Sora 的使用,这部《Air Head》依然使用了大量的编辑和人为指导才制作完成。团队表示,「将 Sora 融入创作流程是一种很真实的工作方式,但如果不这么干,好像也没什么关系。」 01 以下为 fxguide 与 Shy Kids就 Sora 目前的工作原理进行讨论的内容整理: 作为获得了 Sora 的有限访问权限的制作团队之一,Shy Kids 团队制作了 Sora 短片《Air Head》。Shy Kids 是一家加拿大制作公司,以其多样化和创新的媒体制作方法而闻名。 Sora 目前正在开发中,并通过像 Shy Kids 这样的团队的反馈积极改进。重要的是要认识到:Sora 尚处于非常早期的发展时期,几乎可以称之为前阿尔法阶段。 Shy Kids 中负责后期制作的帕特里克评论道,使用 Sora 是很有趣的过程,Sora 是一个非常强大的工具,「我们已经在梦想着它可以如何融入我们现有的流程。但我认为对于任何生成性 AI 工具来说;控制力仍然是最令人向往的,也是目前最难捉摸的东西。」 用户界面和交互: 为提升一致性,仅支持文本输入 Sora 的用户界面设计简洁,它允许艺术家通过输入文本提示来启动视频片段的生成过程。 艺术家输入想要的场景描述后,OpenAI 的 ChatGPT 技术会将其转换成更长的字符串,这一步骤是触发 Sora 生成视频片段的关键。 目前,Sora 仅支持文本输入,尚未整合多模态输入方式,也就是说,除了文本描述外,用户无法通过其他形式如图像或声音来提供输入。 这种设计的重要性在于,尽管 Sora 在保持视频镜头内对象的一致性方面做得非常出色,但系统目前还无法确保第一个镜头中的内容与随后的镜头完全匹配。 换句话说,即使是使用相同的文本提示,Sora 在不同时间生成的视频片段也可能存在差异。为了尽可能保持一致性,用户需要在文本提示中尽可能详细地描述场景,包括角色的服装和道具的类型等。然而,即便如此,Sora 在镜头之间的一致性控制方面仍然存在局限,因为它尚未具备完整的功能集来实现完全的控制。 「我们能做的最接近的事情就是在我们的提示中加入更详细地描述,」帕特里克解释道。「解释角色的服装,以及气球的类型,是我们实现一致性的方式,因为目前还没有完整的功能集来完全控制镜头到镜头的一致性。」 Sora 生成的每个独立片段,就其所代表的技术而言,都是令人惊叹的。然而,如何有效利用这些片段,取决于用户对 Sora 隐式或显式镜头生成方式的理解。 例如,如果你要求 Sora 生成一个在厨房里长距离跟踪的镜头,并且镜头中包含一个放在桌上的香蕉,Sora 将依赖于其对「香蕉」这一概念的隐式理解来生成一个显示香蕉的视频。 通过训练数据,Sora 已经学习了香蕉性的隐式特性:例如「黄色」、「弯曲」、「末端有深色」等。但它没有香蕉的实际记录图像,也没有「香蕉库存库」数据库;它有一个更小的压缩隐藏或「潜在空间」来代表香蕉的概念。因此,每次生成的运行都会展示出这个潜在空间的不同解释,这意味着用户输入的提示必须基于对这些隐式特征的理解。 角色 Sonny 的一致性: 团队试图在不同镜头中保持黄色气球头 Sonny 的一致性,但 Sora 无法确保每个镜头中的气球颜色和样式完全相同。有时气球的颜色或样式与提示不符,甚至出现意外的脸部图案。 Sora 输出的并不需要出现的面部图案|图片来源:fxguide 分辨率和图像处理: 《Air Head》使用了 Sora 生成的镜头,但其中很多都被分级、处理和稳定化了,所有镜头都被放大或提升了分辨率。团队处理的片段都是以较低分辨率生成的,然后使用 Sora 或 OpenAI 之外的 AI 工具进行了放大。「我们所有的《Air Head》都是以 480 的速度制作的,然后使用 Topaz 进行校正。」 时间控制的不精确性: Shy Kids 使用的是最早的原型(Sora 仍在不断改进中),尽管可以在时间线上对关键帧进行调整,但对于动作发生的确切时间点控制并不精确,结果具有一定的不确定性。 宽高比的选择: Sora 允许用户选择不同的宽高比,如肖像或风景模式,这一功能对于特定的镜头设计至关重要。尽管 Sora 提供了灵活性,但它在原生渲染某些复杂镜头动作方面存在限制。例如,当需要从角色 Sonny 的牛仔裤向上摇摄到他的气球头时,Sora 无法直接生成这样的镜头。为了解决这一限制,团队先以肖像模式渲染了镜头,然后通过后期裁剪手动创建了后期的全景。 Sora 生成的镜头需要后期手动裁剪|图片来源:fxguide 相机方向的提示: Sora 在理解和执行相机运动指令方面还不够成熟。尽管用户可以输入如「相机平移」的提示,但 Sora 并不总是能够准确执行。 渲染时长: 根据不同的云使用需求和时间,渲染一个片段可能需要 10 到 20 分钟。团队倾向于渲染更长的片段,以便在后期制作中有更多编辑和调整的空间。 旋转: 虽然所有的图像都是在 Sora 中生成的,但气球仍然需要大量的后期工作。除了隔离气球以便重新上色外,还需要移除一些不应该出现的面部图案或其他痕迹。 Sora 的原始输出|图片来源:fxguide 后期成品页面|图片来源:fxguide 素材与成品比例: 帕特里克估计,最终影片中一分半钟的镜头,是基于「数百次生成,每次 10 到 20 秒」的素材制作的,大约是 300:1 的源材料与最终成品比例。 拍摄合成和重新定时: 在《Air Head》中,大多数镜头是一次性生成的,没有将多次拍摄合成在一起。 许多由 Sora 生成的视频片段似乎被自动处理成了慢动作,速度只有正常速度的 50% 到 75%。团队需要重新定时,以让它们看起来像是实时拍摄的。 版权: Sora 不允许生成会构成侵犯版权或看起来像是模仿特定作品的内容。 例如输入以下提示词:「在一艘未来主义的太空船中,使用 35mm 胶片拍摄,一个男人手持光剑向前走」,Sora 将不允许生成片段,因为这样的内容太接近《星球大战》。 Shy Kids 在早期测试中也遇到了这个问题。帕特里克回忆说,「我输入了『阿罗诺夫斯基式的镜头』,结果收到了无法执行的反馈。」他还提到,「希区柯克式变焦」也是一个会被 Sora 拒绝的提示。 02 小结 去年,大模型的快速发展引起了一场好莱坞大编剧罢工,电影行业对于这项技术的担忧开始增多。今年 2 月,OpenAI 推出的 Sora 被视为硅谷再次对好莱坞发起冲击的信号。3 月初,更是有计划了 4 年,资金规模约 8 亿美元,场地面积高达 330 英亩的 12 个摄影棚的设计和建造等一系列的影视工作室扩建计划,因为 Sora 的出现被迅速搁浅。一时间,似乎好莱坞人人自危。 但当使用 Sora 制作了短片的 Shy Kids 对这一技术进行了全揭秘,人工后期被大量使用,Sora 还不能完成一些高级的复杂需求,这些似乎又都给了好莱坞更多缓冲的时间——毕竟 Sora 目前尚处于非常早期的阶段,还远远不能在电影工业的各个环节替代人工。 但值得注意的是:人工智能正在以比过去摩尔定律更快的速度提升智能,这点在以 GPT 为代表的大语言模型已经得到了验证。今天 Sora 的出现意味着视频生成模型已经来到了拐点,或许用不了多久我们就能看到可以用于视频产业甚至电影工业的视频大模型。
35分钟的iPad发布会里,苹果为何句句都离不开AI?
「M4 的神经网络引擎性能强到足以傲视当今的 AI PC。」 在昨晚结束的 iPad 春季发布会上,苹果发布了新款的 iPad Air 和 iPad Pro,苹果平台架构副总裁 Tim Millet 在介绍 iPad Pro 首发搭载的 M4 芯片时,尤其强调了其在 AI 加速性能上的领先,是一款「胜任 AI 任务的超强芯片」。 在介绍中,苹果还频繁地提到了 iPad Pro 的「AI」属性,包括 NPU(神经网络引擎)和混合架构下 AI 性能的领先,也包括在音频、图像创作中的 AI 体验。 事实不仅是 iPad Pro,在 iPad Air 的发布环节,苹果也声称 M2 的加持让 iPad Air 也「化身为实力超强的 AI 设备」。 图/苹果 但在一年前,苹果可不是这样的。 当时全球科技公司都在争先恐后拥抱大模型,每一个大型科技展会都在谈论「大模型」和「AI」,全球第一大科技公司——苹果却是一概不提 AI 和大模型。 就算在 WWDC23 开发者大会上,苹果也是多次使用更专业也更学术的「机器学习」(Machine Learning,简称 ML)一词,却一次没说「GPT」「大语言模型」或者「AI」。即便是 iOS 17 上的「自动纠正」功能,也只会说基于「设备端 Transformer 模型」。 当然不算苹果「错」,最多就是说苹果「拧巴」,或许是 AI 包含了太多概念和涵义,苹果可能出于各种因素就是不想提「AI」一词。 但反过来,从闭口不谈 AI,到满口 AI,又是什么让苹果转变了对「AI」的态度? 关键转变,从 M3 MacBook Air 开始 今年 3 月 4 日,苹果在官网上架了搭载 M3 芯片的新款 MacBook Air,同时还发布了新款 MacBook Air 的新闻稿。 与突然更新 MacBook Air 同样让人意外的是,苹果在 MacBook Air 新闻稿的第一段就提到了「AI」,并强调「MacBook Air 是世界上最好的消费级 AI 笔记本电脑」。 M3 MacBook Air,图/苹果 从公开资料来看,这大概是苹果第一次在官方表述中如此明显地强调产品的 AI 属性。 在此之前,苹果从很早就开始研究 AI 技术,最典型的就是在 Siri 上。但同时,苹果一直很谨慎地使用 AI 一词进行表述,更多使用机器学习等专业术语,在产品介绍中也往往只会作为某个功能背后的技术支撑,从来没有将 AI、机器学习技术上升到产品的整体层面。 一直到 M3 MacBook Air,我们能明显感受到苹果对于「AI」的态度开始转变。从新闻稿到官网介绍页,苹果开始主动强调 AI,强调 M3 芯片使 MacBook Air 成为世界上最好的消费级 AI 笔记本电脑,甚至强调: 「随着向 Apple 芯片的过渡,每台 Mac 都成为人工智能的绝佳平台。」 要知道,M3 芯片最早搭载于 2023 年 10 月发布的 MacBook Pro 和 iMac 上,当时苹果在新闻稿和产品介绍页却并未提及「AI」,更遑论强调产品的 AI 属性。 此外,在 M3 MacBook Air 上,苹果也开始强调 Mac 平台应用的「AI」体验,表示通过内置神经网络引擎的 AI 性能,带来更强的语音转录和视觉理解功能等。比如在剪映专业版里可以利用 AI 降低背景噪音,在 Goodnotes 上能利用 AI 辅助作业检查,在 Pixelmator Pro 中可以用 AI 自动美化照片等。 而这一切,在一定程度上也为 2024 年的苹果定下了新的基调。 正是从开始新款 MacBook Air 开始,苹果不再「克制」AI 一词的表达,包括在前不久的一季度财报电话会上,库克就多次提及苹果的「AI」,并预告将在这次的春季发布会以及下个月的 WWDC 大会上谈论 AI 技术。 活在开场和结尾的库克,图/苹果 春季发布会已经结束了,但 WWDC24 还在路上,而且考虑到 WWDC 软件开发者大会的定位,WWDC24,才是苹果真正谈论 AI 技术的「主舞台」。 但在背后,苹果对 AI 的重新聚焦和重视还要更早一些。 从忽视 AI 到聚焦 AI,苹果无法被低估 面对新一轮的生成式 AI 技术浪潮,苹果的步伐显然是落后的,这一点从去年开始就频繁被外界提及。事实也的确如此。 最初 ChatGPT 的爆火可以说出乎了所有人的意料,包括 OpenAI,而在此之后,几乎所有互联网公司、硬件厂商都表现出了前所未有的重视。苹果是个例外。 不是说没有 AI 相关的研究和应用,但不管是重视程度和节奏,苹果都比竞争对手慢得多。就拿苹果最核心的智能手机业务来说,当主流旗舰手机都开始搭载端侧大模型,iPhone 还要再等等。 iPhone 15 Pro,图/苹果 当然,苹果也有明显的转变。年初放弃造车将团队转向 AI 是一个重要的例子,包括收购加拿大 AI 初创公司 DarwinAI,训练出拥有 30 亿、70 亿、300 亿三种参数规模的多模态大语言模型(MM1)等。 这可能也是苹果开始转变用词,开始正面强调「AI」的重要原因之一。 另一方面,虽然在大模型性能上,苹果(MM1)距离 GPT-4、Gemini 等头部大模型还有明显的差距。但这其实并不太重要,毕竟苹果是一家收入主要依赖消费电子产品销售的公司,而非大模型厂商。 并且从消费电子产品的角度,苹果也有着其他厂商所没有的绝对的优势。 以笔记本电脑为例。今天包括英特尔、AMD 才刚刚开始在消费级处理器中集成 NPU,而苹果很早就开始在 SoC 中集成 NPU(神经网络引擎),并且随着苹果的历史性架构迁移(M 系列芯片)也来到了 Mac 平台,在 AI 性能和开发生态都遥遥领先对手。 苹果平台架构副总裁 Tim Millet,图/苹果 所以在实际上,苹果说「MacBook Air 是世界上最好的消费级 AI 笔记本电脑」并不是一句虚话。就算是在桌面端 PC,搭载 M2 Ultra 的 Mac Studio 在实际 AI 运行中也有机会跑赢英伟达 3080Ti。 iPhone、iPad 也是同理。iPhone 15 Pro 系列上的 A17 Pro 就拥有 35TOPS(每秒万亿次运算)的 AI 算力,新款 iPad Pro 搭载的 M4,仅 NPU 的算力就高达 38TOPS。 算力就像石油,是 AI 计算的根本动力来源。苹果在不同平台都能提供领先的算力,本身就是一大优势。更何况比起其他硬件厂商,苹果早在 2017 年 WWDC 上就面向软件开发者推出了 Core ML 机器学习框架,并且不断迭代。 这也是为什么,AI 改变软件世界这一年,iOS 平台涌现的 AI 应用比起 Android 来得更加丰富。 应用 AI 的 iOS App,图/苹果 写在最后 聚焦在个人设备,这一轮的生成式 AI 技术浪潮到底会带来怎样的改变,实际上,我们还是处在各种探索的阶段。与此同时,技术还在狂飙突进。 OpenAI 首席运营官 Brad Lightcap 最近就说,以 ChatGPT 为代表的生成式 AI 聊天机器人将在未来 12 个月内取得突破性进展,我们现在使用的系统届时将显得糟糕得可笑。 换句话说,AI 世界仍然存在很大的变局和可能。对苹果来说,这意味着还有机会和时间加快大模型的研发和应用,并且充分发挥端侧 AI 算力,以及从芯片到操作系统到硬件的垂直整合优势。 不过反过来,这种机会也不会只留给苹果。
M4 iPad Pro,一场盛大的AI PC预告发布会
8999 元起售的 iPad Pro,创造了很多个“第一”: 起售价最贵的 iPad Pro 第一台 128GB 起的 iPad Pro 第一台取消实体 SIM 卡槽的 iPad Pro 第一台早于 Mac 采用新处理器的 iPad Pro ...... 按照惯例,这一代 iPad Pro 应该跟随 MacBook 的芯片更新,用上 M3 芯片。出人意料的是,苹果将 M4 芯片首发的任务交给了这一代 iPad Pro。 为了配得上这么一块旗舰芯片,iPad Pro 用了双层 OLED 屏幕,机身比 iPod nano 更轻薄,并首次加入了石墨散热材料。关于新 iPad Pro 的具体信息,你可以在我们的另一篇文章《首发 M4 芯片,苹果正准备将 iPad 进化为“Ai Pad”》中查看详细内容。 这么一台顶级的 iPad Pro,其关注点无外乎两个:售价和芯片。 抛开售价不谈,一个很大的疑问,一颗支持 AI 的 M4 芯片为什么会在 iPad Pro 上首发亮相? M4,最强芯? 先来简单回顾一下苹果对 M4 芯片的介绍。 M4 芯片采用第二代 3nm 制程工艺打造,内有 280 亿颗晶体管,统一内存带宽达 120GB/s。 对比 M3 的 250 亿个晶体管,其实苹果对它的提升并不多,毕竟还是同样建立在 3nm 工艺之上的。甚至 M4 与 M3 也共享一个 CPU 架构,最多 4 个性能核和 6 个能效核,并配备新一代机器学习加速器。 在苹果官方的介绍中,没有直接和 M3 进行对比,而是选择了搭载 M2 的 iPad Pro——M4 相比 M2 速度提升了 50%。 在 GPU 上,同样是 10 核架构,相比 M2 的 iPad Pro 快了 4 倍。加入了硬件加速的网格着色和光线追踪,为大型游戏提供了更好的画面质感。 更重要的是,在如此强大的性能之下,M4 将功耗控制在了 M2 的一半,而对比其它轻薄笔记本的芯片,更是只需要 1/4 的功耗。 于是 M4 的目标出现了,它不止是打造了一台 AI iPad,更是在为接下来的 AI MacBook 做铺垫。我们在 iPad Pro 上并没有看到太多的 AI 功能演示,但库克给它加了一个彩蛋:发布会中库克所穿的一双定制 Nike AirMax 1 '86,就是在 iPad Pro 上绘制出来的。 往年苹果在推出全新 M 系列芯片的时候,往往还会推出更高级的 Pro/Max 芯片,但在 iPad Pro 上,苹果显然留了一手,M4 只是为了下一次 AI 爆发做了预告而已。 AI MacBook? M4 搭载的 NPU 被称为“神经网络引擎“,用更直白的话来说,现在人们往往认为 NPU 是 AI 功能的基础,M4 的算力达到了 38 万亿次(38TOPS),对比 M3 的 18 万亿次,这一次苹果把牙膏给挤爆了。 苹果平台架构副总裁 Tim Millet 是这么为自家芯片站台的:“芯片行业才刚刚开始为部分处理器加入NPU,但苹果芯片早在多年前,就配备了尖端的神经网络引擎。” Millet 所说的多年前,指的是 2017 年苹果发布的 A11 Bionic 芯片,它第一次搭载了 NPU,算力是 6000 亿次(0.6TOPS),而 M4 的算力已经是它的 60 倍了。 按照苹果的说法,M4 完全能够胜任一台笔记本电脑所需要的性能与算力,它比当前的轻薄本所搭载的芯片还要强。M4 MacBook Pro 应该在路上了。 今年 3 月 8 日,苹果正式推出了搭载 M3 芯片的 MacBook Air,被苹果官方称为“最好的消费级 AI 笔记本”。很显然,M4 的定位比 M3 更高,考虑到 M4 iPad Pro 的起售价,我们有理由猜测搭载 M4 的 MacBook Pro 定价会更高。 并且随着下一代 MacBook Pro 的到来,我们还可能会见到 M4 系列芯片其它成员。M 芯片自替代 intel 芯片以来,已经顺利更新了四代,苹果的 Apple Silicon 计划已经成功完结。 但在 AI PC 时代,苹果仍然面临着竞争对手的挑战。 在苹果的语境里,M4 自然是当下最强的芯片,不过高通 Snapdragon X Elite 仍然是一座不可忽视的大山,后者能够提供比 M4 更强的 45TOPS 算力,目前已经有搭载该芯片的笔记本电脑测试信息流出。 另一方面,微软已经确认于 5 月 20 日推出消费者版本的 Surface AI PC,这将是 Windows on ARM 的又一款新产品。 AI,消费型还是生产型? 外界对苹果加码 AI 的关注度远高于 iPad Pro 这一款产品。自苹果解散汽车团队,换到 AI 赛道以来,还没有一款真正能为大众所接受的 AI 产品/功能。 尽管 M4 iPad Pro 已经是目前苹果官宣声音最响亮的 AI 加持产品,但它与大众还有一定的距离。 这里面有一个定位区分,大众更需要消费型的 AI 产品,而苹果现在着眼于生产型的 AI 产品。 无论是从 M4 iPad Pro 还是 M3 MacBook Air 来看,但它们的定位有着明显的区别。以苹果命名的规律来看,数字版与 Air 通常对应的是主流用户,Pro 则是面向的专业用户,前者更多消费功能,后者则能在现有功能上进行有价值的创造。 从高端产品,逐步向中低端市场渗透,这种“高价值市场进入策略”已经在苹果、特斯拉等企业上看到实战案例。 如今市场上充斥着各种各样的 AI 产品与功能,它们无不有着明显的瓶颈。打着新一代 AI 产品旗号的 AI Pin 和 Rabbit R1 上市备受非议,市面上的 AI 手机与 AI PC 所提供的 AI 功能局限在某一些 AIGC 领域,例如 AI 消除、AI 对话、AI 生成图等等。 虽然它们都由 AI 驱动,但这可能并不是苹果想要的。 大众对苹果 AI 的期待,其实更加偏向于 AI iPhone——只有手机形态才能代表大众所需,智能手机已然是人们的第二层皮肤。 而这一切的答案,可能还需要两次抽丝剥茧:WWDC2024 和秋季发布会。
程序员最爱的问答网站,给ChatGPT当起了“奶妈”
Stack Overflow,一个类似知乎、Reddit的老牌网站,因专注于技术问答和社区运营,因此在全球程序员圈内备受欢迎。 然而自从ChatGPT问世以来,该网站的访问量和搜索量都在短时间里骤降,众多程序员开始放弃使用。 为了挽留住用户,Stack Overflow先是封杀ChatGPT,紧接着推出自研AIGC产品,但接二连三的“自救”依然止不住流量的大幅下降。 令人惊讶的是,Stack Overflow突然在本周一宣布与OpenAI签订协议,为其提供数据。 有意思的是,Stack Overflow不仅与OpenAI合作,其丰富的数据也被谷歌的Gemini模型买走。 程序员最大的问答网站,挡不住AI 在程序员圈里,Stack Overflow地位有多高? 简单点说,作为一家老牌问答网站,Stack Overflow已经成立了16年、最高时每月都有2亿台主机访问。 无论一线大厂技术大佬,还是刚入门的计算机小白,只要提出了编程问题,总会有网友挺身而出,提供思路,甚至直接给出最优解的答案。 正是因为有着庞大的数据,Stack Overflow虽然名气比不上Reddit,但也算是圈内人的必备网站。 但事情在ChatGPT横空出世后,开始朝着衰落的方向发展。 在 ChatGPT上线后,迅速有网友发现其出色的代码生成能力,因此“ChatGPT可以取代Google、Stack Overflow”的言论吸引了大批程序员的目光。 然而令人没想到的是,仅仅上线5天后,Stack Overflow反手就把 ChatGPT 给封杀了。 原因是ChatGPT生成的代码错得过于离谱,因此Stack Overflow宣布这些生成垃圾答案的账号都会被封号。 有意思的是,Stack Overflow团队发现,很多用来训练AI模型的数据,其实就是来自Stack Overflow。 如果放任AI机器人生成垃圾回答,那不就等于搬起石头砸自己的脚吗? 虽然Stack Overflow的表态很明确,广大程序员们也能理解,但奈何ChatGPT的体验实在是真香! 最终,面对AI的强势来袭,Stack Overflow的流量也是越来越差,到了2023年6月,浏览量几乎已经是腰斩。 为了止住颓势,Stack Overflow 开始是一系列措施。 先是在7月,技术团队利用自家5800万个问题和答案的数据库,做了一款名为「OverflowAI」的AI 工具,其功能主要围绕着编程,但没有掀起太大的水花。 到了10月,公司CEO宣布解雇了约28%的员工,通过缩减营销预算的方式,为 AI工具持续输血。 不过由于OverflowAI还处于初级测试阶段,面对实力强劲且不断进化的ChatGPT,OverflowAI能做的仅仅是拖延Stack Overflow衰落的速度。 卖数据,真香 在面对ChatGPT的威胁时,Stack Overflow一开始选择使用“防御”的姿态。 但殊不知,这些公开的互联网数据早已被OpenAI等科技公司用“爬虫”等手段进行搜刮,自己不仅要面临用户的流失,更要面临数据的流失。 不过毕竟日访问量摆在那里,Stack Overflow手握着大量优质的数据,倒也成为一笔可以交易的资源。 自《纽约时报》带头起诉OpenAI后,越来越多的新闻媒体和门户网站加入到讨伐OpenAI的队伍中。 在面对版权问题时,科技公司们只能乖乖掏钱为训练数据付费,并承诺不会使用私人数据。 Reddit、Youtube、ShutterStock、Photobucket等网站都是数据交易的受益者,手握大把优质的训练材料,科技巨头们花起钱来也是毫不吝啬。 相比之下,Stack Overflow的数据同样出色,甚至比Reddit这样的综合性网站更加专业。 因此,Stack Overflow CEO也开始学会了向各大科技公司推销自家数据,其中就包括了Google的 Gemini 模型。 或许正是看到了科技公司对于优质数据的渴望,让高层选择来了一次360度的态度大转变,既然用户是回不来了,那至少把钱赚到口袋里。 值得一提的是,Stack Overflow当时强调,该协议并不具有排他性,这就意味着任何科技公司都可以购买同样的数据,剩下就看哪家训练得更好。 据报道称,Stack Overflow 的技术内容将与 OpenAI 的 GPT-4 等模型相结合,通过OverflowAPI访问,未来开发者可以直接通过 OpenAI获得可靠且经过验证的数据,并帮助他们快速找到解决复杂问题的方法。 而Stack Overflow 也能从开发社区收集反馈,确保 AI 开发工具持续改进。 简单点就是说,Stack Overflow与 OpenAI来了一次技术和数据的互换,前者提高了AI能力,后者得到了可靠的数据,两者双赢。 据悉,此次合作将带来的第一组集成功能和能力,预计将于 2024 年上半年发布,这也说明双方的合作其实已经进行了很久。 隐私还是大问题? 目前,越来越多的社区网站开始加入到AI训练中,包括百度贴吧的“弱智吧”,在一次研究里显现出不俗的数据训练效果,一度冲上热搜。 对于访问量不断下降的传统内容网站们,优质的数据确实是一个可以长期进行的“副业”。 另外,AI固然很香,但不是没有缺点。 自Stack Overflow开始转向开发AI能力后,开发者社区的一些成员对这一变化表示反对,他们对人工智能生成的信息的有效性、以及数据隐私表示担忧。 也有专家指出,AI会导致更多错误代码被推送到代码库中,甚至放大软件项目中现有的漏洞和安全问题。 但对于“饥渴”的AI公司们,不断膨胀的数据消耗问题已经足够头疼。 而网站的帮助,刚好可以为自己分担一些风险。
2021年,马斯克杀死了波士顿动力
2021年的特斯拉AI Day,特斯拉PPT首发了人形机器人Tesla Bot的概念机设计方案。按照马斯克画的大饼,Tesla Bot可以完全代替人类“从事重复性/无聊的工作”。 也许是担心在场观众干看PPT无聊,马斯克请来了一位身着紧身衣的皮套人,模仿Tesla Bot尬舞了一段。 AI Day结束,科技媒体The Verge表示,马斯克的Tesla Bot就是个笑话[1]。文章还援引中央兰开夏大学机器人工程教授Carl Berry的评价:说它是马粪都算抬举它了(horse shit sounds generous, frankly)。 Carl Berry还专门搬出机器人领域的网红公司波士顿动力,认为后者正在踏踏实实的做事,而特斯拉在加深公众对机器人不切实际的幻想。 今年4月,特斯拉的皮套人尬舞再度被拉出来鞭尸。在波士顿动力展示新款机器人的视频中,机器人以一种灵活到有些诡异的方式从地上站起来。 波士顿动力也在推特上阴阳怪气了一句:“我们保证这不是一个穿着紧身衣的人。” 事情的起因是,波士顿动力宣布11岁“高龄”的人形机器人Atlas正式退休——Atlas算得上是初代机器人网红,它被波士顿动力员工一棍子撂倒,接着踉踉跄跄爬起来的视频,一度引发了“停止霸凌机器人”的后现代哲学思考。 结果Atlas领退休金的第一天,“焕新版”Atlas正式出道。最大的变化是,波士顿动力抛弃了原有的液压结构,改为电机驱动。 目前,“焕新版”Atlas的宣传片已经在YouTube上收获了500多万播放量。 相比Atlas熟悉的后空翻大劈叉,相较之下,去年年底的第二代Tesla Bot才刚学会缓慢行走和90度深蹲。 加上马斯克近几年大饼画的太多,也不难理解The Verge会提出“机器人为什么要像人”的质疑。 然而,可能恰恰是2021年PPT上的Tesla Bot和滑稽的皮套人尬舞,决定了波士顿动力的命运。 谷歌发现了什么? 相比荒诞开场的Tesla Bot,波士顿动力这家公司是机器人领域根正苗红的祖师爷。 波士顿动力成立于1992年,前身是麻省理工学院的腿部实验室,长期致力于有腿机器人的研究。 2012年,DARPA(美国国防高级研究计划局)为了推动机器人研究,资助了一场机器人挑战赛,波士顿动力由此进入美国军方的视野。 DARPA是五角大楼旗下的研究机构,和NASA一起诞生于美苏争霸的白热化时期,目的是借助国家意志确保美国在高科技领域的领先。只不过NASA负责地球以外,DARPA负责地球以内。过去几十年间,DARPA直接或间接的推动了GPS、互联网等技术的诞生。 2012年,正值DARPA在机器人、自动驾驶等领域大力投资,为了降低参赛门槛,DARPA希望能有一款标准化的人形机器人,供参赛团队编程。 在这之前,波士顿动力已经为DARPA开发了多款产品,比如外型神似野猪的LS3,能够穿梭于各种极端战场环境,快速运送物资。 波士顿动力LS3 2013年7月,在DARPA的资助下,波士顿动力打造出了身高1.88米,重达150千克的初代Atlas。这个新闻很快传到了谷歌的耳朵里,波士顿动力的命运随之改变。 当时,谷歌正在秘密筹备一个代号为“Replicant(复制人)”的机器人项目,由“安卓之父”安迪·鲁宾亲自带队。按照鲁宾的设想,谷歌将打造一个编程平台,从而推动机器人普及,最终在机器人身上复刻安卓系统的成功[3]。 为了这个庞大计划,谷歌疯狂扫货,一口气收购了九家机器人初创公司,Atlas问世不到半年,波士顿动力就被谷歌收入囊中。此后,Atlas的迭代速度也坐上了火箭。 2016年,波士顿动力毫无征兆的发布了一则新款Atlas的演示视频,视频中Atlas熟练的行走跳跃,尤其是被推倒在地后,仍能自主起身继续完成工作,整个过程栩栩如生,带给公众的震撼不亚于2022年底ChatGPT的问世。 目前,这条视频的Youtube播放量已经积累到了4059万。2017年,Atlas再接再厉,用一个精彩的后空翻再度把波士顿动力送上全球热搜。 Atlas表演后空翻,2017年 然而,就在波士顿动力风头正盛的2017年,投资了五年之久的谷歌却将其甩卖。按照彭博的说法,谷歌管理层的核心分歧在于商业化。 波士顿动力希望埋头研究,但谷歌希望尽快打造能商业化的产品:“我们不可能用30%的资源去投入一个需要10年以上的项目[4]。” 在彭博的报道中,丰田和亚马逊都是潜在的买家,但波士顿动力最终被卖给了软银,2020年又被卖给了韩国现代。 谷歌内部,安迪·鲁宾因性丑闻被扫地出门,Replicant项目也草草收场,划上一个满是遗憾的句号。 一家明星公司在当打之年被潦草脱手,谷歌内部真实的决策过程难以知晓。但在这个过程中起到决定性作用的,很可能是2017年发生在谷歌内部的另一件事。 我来组成头部 2017年6月,谷歌的8位AI科学家联名发表了一篇名为《Attention Is All You Need》的论文。这是继2012年AlexNet勇夺ImageNet挑战赛冠军之后,人工智能发展史上的又一个里程碑事件。 谷歌的科学家在论文里提出了一种“注意力机制”,并基于此开发一个名叫Transformer(变形金刚)的深度学习模型,解决了传统RNN模型的一系列问题。 2020年,谷歌又提出了Vision Transformer ( ViT )概念,赋予了Transformer处理图像的能力。 随着Transformer一口气解决了众多缺陷,它渐渐发展成了AGI领域的唯一解。 2012年的AlexNet让AI有了“感知”的能力,而Transformer和之后的大模型让AI有了“生成”的能力。换句话说,2012年的AI可以识别出各种各样的猫,2017年之后的AI已经可以自己生成猫的图片了。 因此,Transformer的推出直接开启了今天的大模型时代,2018年6月,OpenAI推出了基于Transformer模型的GPT-1,GPT里的“T”,就是Transformer的首字母。此后,OpenAI沿着这条路线持续迭代,并基于GPT模型开发了ChatGPT。 在大模型百花齐放的同时,Transformer也为人形机器人的进步打开了一扇窗户。 传统机器人大多基于特定的规划执行特定的操作,比如运输、分拣,不具备感知和决策能力。人形机器人不仅能与物理世界交互,还有感知和理解能力。 举一个不太恰当但好理解的例子:送餐机器人执行“把外卖送到1203号房”这个任务时,并不理解什么是“外卖”和“1203号房”,只是根据软件系统既定的指令和路线规划完成任务。 但人形机器人可以借由智能化,理解物理世界各种物体、语言和文字的含义,并自主规划和决策。也就是说,机器人可以不依赖预先的编程,就能完成诸如“关掉最上层抽屉”等较为模糊的指令。 波士顿动力的问题在于,无论Atlas的机械与动力结构多么优秀,都无法解决“穷举法”的问题。 Atlas的软件原理是通过摄像头与传感器输入外界环境数据,再根据提前创建的行为库,执行对应的动作。在其官方的文档里,波士顿动力坦诚了这么做的弊端: “如果盒子向一侧移动了0.5 米,那么Atlas会找到并完成跳跃;如果盒子移动得太远,那么系统将停止[5]。” 由于Atlas的所有动作都依赖提前设计的模版,那么真实环境的一点点变化,都可能让机器人无所适从。这也是为什么传统机器人只被用于环境、路线和职能极度固定的工厂、酒店送餐等场景。 而Transformer带来的思路是,只要让机器学习足够多的数据,就能拥有类人的智能,可以脱离预设的规划进行自主决策。 去年7月《纽约时报》探班谷歌实验室, 完整记录了基于RT-2模型的机器人智能闪现的瞬间: 桌子上放着一堆塑料玩具,工程师让单臂机器人“捡起灭绝的动物”,机器人拿起了恐龙。 这意味着机器人不仅能识别三种动物,也能理解“灭绝的动物”的含义,还可以完成具体的操作。 Google RT-2 Transformer的出现彻底改变了机器人的技术路径,在感知-决策-执行的完整链条中,核心能力不再是驱动机器人后空翻大劈叉的机械结构,而是组成机器人大脑的软件算法。 人工智能的进步在各行各业上演着软件对硬件的夺权,机器人只是其中之一。 另一个正在由软件定义的行业是自动驾驶,这也是为什么马斯克会说:当你能解决自动驾驶,你就能解决现实世界中的人工智能。 特斯拉的三张牌 特斯拉在AI世界的出场,常常呈现某种荒诞不经的色彩。 2022年特斯拉备受期待的Tesla Bot第一次“真人”亮相,居然要依靠三名壮汉搀扶。两个月后ChatGPT横空出世,Tesla Bot成了一块无人问津的背景板。 然而,特斯拉在机器人领域的积累,可能比任何一家公司都要深厚。 自动驾驶本质上是机器人的一个“前置产业”,两者的核心都是基于人工智能,实现感知-决策-执行的完整链条。 这就意味着无论是软件层面的算法,还是硬件层面的视觉传感器、FSD芯片等零部件,理论上都可以用于人形机器人。 特斯拉也的确是这么做的:Tesla Bot共配置有3颗摄像头,左右眼各一个,外加一颗鱼眼广角。芯片是和特斯拉电动车一模一样的FSD自动驾驶芯片。软件上,Tesla Bot也承袭了自动驾驶的技术方案。 2023年特斯拉股东大会,马斯克也确认了这一点:特斯拉已经打通了自动驾驶芯片FSD和机器人的底层模块,实现了一定程度的算法复用。 任何人工智能的发展都需要算法、算力、数据三驾马车来拉动,算法决定了计算机用什么方式识别事物;但算法又需要足够大的算力来驱动;同时,算法的提升又需要大规模高质量的数据;三者相辅相成,缺一不可。 算法和算力层面,特斯拉已经借助电动车业务,完成了从云端(D1)到终端(FSD),核心软硬件的自研。 数据层面,2022年的AI Day上,特斯拉宣称已经存储的有价值训练数据集有23.2万帧,验证数据集0.38万帧。上百万车主正在源源不断的为算法训练贡献着数据。 马斯克本人在AI领域的涉足也常被忽略,他是OpenAI的创始人之一,也是DeepMind的早期投资人。他参与的人工智能公司还有脑机芯片Neuralink、聊天机器人Grok。特斯拉每天接受并处理的视频画面超过1600亿帧,这很可能是商业公司能拥有的最大的真实世界数据集。 波士顿动力很可能意识到了这个问题,但“焕新版”Atlas最大的改变,是从液压改为全电动,最大的好处可能是降低成本。 在一次采访中,创始人Marc Raibert曾表示Atlas在一定程度上激励了马斯克制造Tesla Bot的想法。但在人工智能残酷的竞争中,波士顿动力已经落后太多。 波士顿动力的问题在于,他们用了20年的时间试图教会机器人如何“运动”,但实际上,机器人应该先学会“思考”。 或许在不久的将来,判断机器人的智能化程度,可能不是看它会不会后空翻大劈叉,而是能不能从九张图片中选出包含红绿灯或摩托车的图片,或者滑动滑块使图片位于正确的角度。
假期被“Remini”硬控五天,这就是古希腊掌管粘土人的神?
作者|椰子 你们猜此时此刻,AppStore免费软件排名第一是谁? 超越了抖音极速版、番茄小说、夸克、高德地图等一系列国民级 App 登顶 AppStore,这款名为“Remini”的App你可能没听过,但这两天应该会在社交媒体看到过这样被粘土化风格的图片。 五一假期的旅游照经过 AI 处理,几十秒就能变成一张独一无二的属于你的粘土人风格旅游照。 在芭提雅沙美岛的白色沙滩上,热风吹拂着脸颊。有几个孩子正在堆沙堡,也有情侣手牵手在沙滩上漫步。 顶着艳阳喝一杯柠檬汁不要太爽。 经过 AI 处理成粘土风格之后,你就是朋友圈最亮的仔。 这次 Remini 爆火一方面是粘土风格本身足够拟真,另一方面也来自于超高的还原度。 比如下面这张,给雷军和李想的表情还原的十分到位: 或者是甄嬛传中的宜修挠头: 和甄嬛抱被: 不管是背景还是神韵,至少能还原 80%,而且粘土风格还能平添了新的喜感。 如果是一些经典传世之作,还原度几乎能到 100%,比如The Beatles 的《Abbey Road》的专辑封面,每个人的衣服颜色、车的位置和颜色都保持了统一: Nirvana 的《Nevermind》,文字没有任何错误,而且保留了文字本身的特效样式。: 周杰伦的首张专辑《Jay》,神韵、头发和文字,几乎是一比一的还原: Remini 最早是由大觥科技开发,国内版本名为 “你我当年”,国外版本叫做“Remini”。不过在完成 0-1 的冷启动阶段后就被卖给了Bending Spoons。 Remini 在国内不太有名,但它多次在印尼 AppStore登顶,通过在 TikTok 传播获得了一次又一次的热度。 这次粘土风格先在 instagram 以#粘土加工的hashtag爆火,又被自来水转至国内的小红书和抖音。伴随五一旅游热,被大家争相用来爆改自己的旅游照。 它的功能很简单:图片/视频的图像增强、AI画像和 AI 滤镜。粘土人就是 AI 滤镜中的一种。 图像增强是前两年的重点功能,以老照片修复作为传播点: 随着生成式 AI 的爆发,Remini 也推出了 AI 画像功能,通过上传多张自己的照片,来生成一些像自己的图。类似之前爆火妙鸭相机和 InstantID。 除了粘土人滤镜之外还有些很有意思的滤镜,比如这个 GTA 罪恶都市风: 还有像素风,可以直接做 T 恤了: 目前 Remini 定价548 一年,确实略贵,美图秀秀也有同款功能(比开头那张可爱一点): 美图秀秀生成 只不过感觉比 Remini 稍微差一些,Remini 可以完全把握住 GTA 的感觉。 Remini 爆火似乎能分析出一个脉络,就像是上面提到的:它在国外有充足的用户基础以及超高还原度的生成效果。 但最关键的其实是粘土风本身。在这之前很难断言一款粘土风格的 AI 滤镜会有这么强的传播属性。 看起来 Remini 给所有文生图模型都做了一个教科书级别的传播案例。一款能吸引人的滤镜,比绞尽脑汁想创意玩梗还要好用。
AI解梦靠谱吗?学界目前进展如何?
“庄周梦胡蝶,胡蝶为庄周。”纵观东西方历史,人类对梦境有着不约而同的执念。梦境也是神秘学的重要部分,常常与预知未来、认识自己等概念联系在一起。时至今日,人类一直试图解开梦境背后的意义,经常求助于各种解释方法,甚至发展出了许多流派。 的确,梦境提供了对我们潜意识深处的一瞥,揭示了隐藏的欲望、恐惧和情绪,对我们的现实生活也不无影响。随着大模型等技术的兴起,在GPT store等平台上,也出现了声称能够通过对话解析梦境的AI助手。 ▷图1. 基于大模型的梦境解析网站:https://dreamybot.com 与民间占卜解梦不同,脑科学与梦境的相关研究首先关注的是梦境的内容,例如梦里看到的图像、听到的声音,之后才是梦境的意义。其研究对象也并非单个人的自述(轶事),而是一群人叙述的汇总及其中的统计规律。伴随技术进步,研究方法还包括了使用功能性磁共振成像(fMRI)等脑电检测,依据客观记录而不是主观描述来解析梦境。本文将从科学研究现状到商业应用前景,概述人们在“如何用AI作为工具指导人们更好地理解做梦”这件小事上做出的努力。 基于个人自述的梦境汇总, 男生女生的梦有区别吗? 梦境的内容可归因于大脑对白天收集的信息的处理和整合,这便是美国心理学家卡尔文·霍尔(Calvin Hall)提出的延续假设(continuity hypothesis)。当我们睡眠时,我们的大脑通常会从之前的记忆、经历和情感中提取片段并拼贴成一个故事。这些神经活动的复杂相互作用产生了我们在梦中遇到的生动的、有时令人费解的场景和人物。 人的大脑就像一个专长蒙太奇的导演,它采用日常经历中看似无关的事件、人物和物体,并以只有潜意识才能理解的方式将它们组合在一起。在梦里,物理和逻辑定律被扭曲,产生了脱离现实引力的奇幻景象和意识流情节,让我们常常在第二天醒来后反复琢磨前一晚梦境的深意。 然而科学研究毕竟不是奇闻怪谈的收集,不论哪个学科,科研的第一步是建立基线,也就是理解大多数人的典型状况,以便在后续尝试理解个案时,能够有一个合适的锚点。2020年的一篇发表在皇家协会开放科学(Royal Society Open Science)的期刊上的研究[1],通过自然语言处理,分析了不同年龄和性别的24000个被试自述的梦境,构建了数据库Dream Bank。研究发现,年龄,性别,过往经历(如是否当过兵)等不同因素都会对被试者的梦境产生影响(图2)。该研究基于是美国收集的数据,由于各国文化风俗上的差异,该研究的结论不适用于国内,但其研究思路是可以借鉴的。 ▷图源:参考文献[1] 不同年龄的梦境报告中攻击性的等级从20世纪60年代到现在在逐步减少,这个趋势和美国的暴力犯罪统计数据相符。 除了统计性的群体描述,这类研究还让人们可以比较和自己处境相似的人会做什么样的梦。例如在dreamcatcher中,人们可以根据自身身份查看下图中的每一个叶子(点击后对应一个梦的描述),通过了解与自身处境相似的人做了什么梦,从而缓解因梦境引发的焦虑,也可以上传自身的梦境描述,丰富数据库的内容。 ▷图3.基于自然语言处理的梦境解析和汇总网站 基于Dream Bank数据库的衍生研究[2],还包括通过GPT模型分析梦境自述文本的困惑度(Preplexity,一个衡量文本意外程度的统计量)。以维基百科的文本作为基线,研究表明梦境中的文本并非人们之前预计的那样格外不可预测,两者困惑度接近。该研究的另一个发现也符合常识,即女性对梦的描述文本困惑度更高,组间差异更大,这意味着相比女性,男性的梦更容易预测。 ▷图4.男性和女性梦境自述文本的困惑度对比,图源:参考文献[2] 科学家是如何读心的? 与上述依赖主观自述的研究不同,梦境可视化试图将人脑在潜意识或无意识状态下的内在认知活动转化为显性的图像或标签,例如做梦时看到了什么,听到了什么,有什么样的情感。这其中的研究,包括研究者要一次次的将被试从睡眠时唤醒,询问梦到了什么的实验,用以考察人们清醒后对梦的回忆。在这之中,又以清醒梦最为热门。所谓的“清醒梦”,可看成梦境与清醒的叠加态:做梦者有“正在做梦”的意识,并能描述出自己在做的梦。 梦境可视化的基础,首先是需要证明经由核磁共振成像,近红外线光谱仪及脑电图(EEG)等方法测量得到的大脑的血流,脑电及因工作而发热的变化模式,可被用以预测脑中的所思所想。19年的研究[3]根据人脑活动,复现了被试观察的影像。而23年的研究[4],基于Stable Diffusion,能够更准确地再现被试者脑中所看的画面。 对比图5和图6,可以显著的看到重塑的图像更加准确了,那这性能进步的背后,是有哪些创新促成的? ▷图5.基于脑电MRI记录,实用深度神经网络重现被试观察到的图像。图源:参考文献[3] ▷图6.被试者看到的真实图片(第一行)和模型重构的图片对比。图源:参考文献[4] 对比2019年的研究与2023年的研究,最直观的区别在于2023年的研究增加了语义解码部分。不过在谈及这一点之前,先看看23年研究的图像解码是怎么做的。在大脑处理图像的过程中,像经过有损压缩后再放大的图片一样进行操作,脑中图像会先被压缩成基本的素描形式,保留关键信息,同时形式更简洁,便于管理。这些压缩后的信息在大脑中是分布式存储的,这为科学家提供了解码的可能性。通过fMRI技术,科学家可以记录大脑活跃的部分,类似于观察一个拥有数万块硬盘的超级电脑处理特定数据时哪些硬盘处于工作状态,从而建立起一个基本的模型。 在解码大脑的实际操作中,基于fMRI数据,研究者首先根据大脑的信息压缩和分布式处理特点,构建了一个类似简笔画的初步图像。随后,在扩散过程中,模型会像绘画时一样逐步渲染上色,让图像逐渐丰富起来。然而,正如绘画时需要明确所画目标,重构大脑中想象的图像也需要利用大脑在观看图像后产生的语义信息,即大脑对图像的描述。 ▷图7.研究5的模型框架示意图。图源:参考文献[4] 根据大脑的“语义地图”[5],被试在听到某些词汇时,相关的fMRI数据显示这些词汇在大脑周围分布,而没有一个明确的语言处理区域。与此同时,与意义相关的词汇在大脑中的分布更为集中。而研究[4],则将语义信号和视觉信号分别用不同的神经网络去处理,从而用解码的语义信息来帮助图像重建。 例如,当被试者看到的是一个狗的图画,但只基于视觉信号,重建的图像可能会缺少狗的典型特征,使得重建图像看起来更像是猫;而有了语义信息的帮助,解码系统发现观察到的词汇和骨头接近,于是在潜在扩散过程丰富简笔画的时候,就会选择突出那些狗的特征。这种结合了两种模型的图像重建方法,比单一依赖语义或视觉信息的方法,能够实现更清晰、更准确的图像还原。 ▷图8. 由985个词构成的大脑语义地图。图源:参考文献[5] ▷图9. 图源:参考文献[4] 对比被试看到的原图,以及只基于图像特征(第二列),只基于语义特征(第三列)以及基于两者(第四列)的效果图。 近年来,科学家通过类似的思路,可以基于脑电数据生成被试听到的声音信号[6],从而让失语者可以说出自己脑中所想的话。此外,当前还有研究能通过脑电信号解读出被试者默念的文本[7],并重建被试观看的短视频内的场景[8]。所有这些研究,都说明了研究者目前有能力根据大脑活动读心。 但这距离解梦还有很长的距离。原因首先是梦境大多是迷幻的,跳跃的,人们会怀疑对梦境的描述更加没有逻辑,充满了离奇的意外(前述的基于梦境描述文本困惑度的[2],已提供了相反的证据);第二个原因,则在于很多梦境中包含了强烈的情绪,人们会担心梦境中强烈的情绪可能干扰其解读。 对此,24年的一项研究[9]声称可以结合个人叙事和fMRI,以此开发预测自发思维情感内容的模型,从而判断清醒梦中的主观体验是积极还是消极的。该预测模型不仅在阅读故事时能够预测被试的自我相关性和情感体验,同样适用于在自发思维(清醒梦)或休息状态下的199名参与者。 在这一研究中,研究人员监测参与者阅读故事时大脑活动,旨在解码思维的情感维度。为了捕捉各种思维模式,参与者参与了一对一访谈,以制作反映他们过去经历和情感的个性化叙事刺激。当参与者阅读他们的故事时,其大脑活动在MRI扫描仪内被记录。在fMRI扫描后,参与者再次阅读故事,并报告每个时刻感知到的自我相关性(即这些内容与他们的相关程度)和情感(即这些内容是积极还是消极)。使用每个参与者的自我相关性和情感评分的五分位数,研究团队创建了25个不同的情感和自我相关性组合,使用机器学习技术结合这些数据及49名参与者的fMRI数据来实时解码思维的情感维度。 研究发现前扣带回皮层和岛叶前部等关键大脑区域在预测个人相关性和情感调子方面至关重要。通过解码与具体情节无关的情感,该研究有助于我们理解影响主观体验的内部状态和背景,可能有助于揭示思维和情感方面的个体差异,并有助于评估心理健康。 梦境可视化的现实与理想 前述的研究都还没有直接涉及对做梦时大脑的解析,只是试图对清醒状态(或清醒梦)下受试者的所思所见进行预测。然而,有研究开始直接探索梦境中大脑的活动,并尝试将梦中的图像可视化。 例如,研究[10]依据两名受试者在fMRI下的大脑活动数据和他们自述的梦境内容,揭示了大脑在梦境中的图像处理具有层次化特点,即做梦时会激活与梦到物体相关的分层视觉特征表征。研究表明,从自做梦时大脑活动中解码的特征值与梦中物体类别相关的特征值,在在中间到高级深度神经网络中表现出正相关。这不仅提高了区分梦中物体类别的准确性,而且表明梦境中的视觉特征表征与清醒时的视觉处理相似,意味着大脑在做梦时可能和清醒时使用相同的机制,这支持了通用解码方法在不同视觉体验(清醒和梦境)中的泛化能力,从而论证了梦境解析的可行性。 ▷图10.图源:参考文献[10] 单次实验中,针对梦境在出现图片的预测,可基于较高抽象层级的特征得出。 早在2013年,研究[11]在视觉皮层区域刺激诱导的脑活动上训练的解码模型,显示出模型对梦境内容的分类能力超过随机猜测。在这项研究中,三名受试者在进行磁共振睡眠实验时,每当脑电信号被检测到,他们便被唤醒,并描述醒来前的视觉体验。为了收集充分的数据,每位受试者平均每5-6分钟就被唤醒一次,主要关注人们刚入睡阶段产生的类梦境视觉感受。在超过75%的唤醒中,受试者报告了梦中的内容。预测模型试图区分受试者梦见的是人还是椅子等物体,并在解码器的输出中使用了多个标签来提升准确性。这距离上文所讲的解码梦境中的所思所想,还相距甚远。 21年来自清华大学未来实验室的研究[12],基于11名被试者REM睡眠期的EEG数据,结合心理问卷帮助评估情绪,最终生成了梦境的抽象视觉表述。图11展示了基于EEG产生的对梦境的艺术化展示,该例中梦境的情感关键词是如释重负(relieved)。这项研究进一步说明了当前对梦境的解读,还远远做不到“像素级”的准确度,只是能够对情感进行定性的含糊描述,或者对梦境中出现的物体生成有一个比随机更准确的有根据猜测。 ▷图11.基于EEG数据对梦境中的情感产生的艺术化表征。图源:参考文献[12] 然而,前文关于清醒时大脑解析的研究,以及梦境和大脑遵循相同神经机制的研究,共同说明了梦境解析具有技术可行性,只是目前受限于当前研究条件(例如fMRI的机器噪音,实验成本,受试者过少等技术因素)还不够成熟。未来随着技术的进步,有着巨大的潜力。且梦境可视化这项技术在心理健康领域的应用具有重要意义。对梦境的理解可能带来新的治疗方法,特别是创伤后应激障碍(PTSD)、抑郁症和焦虑症等疾病。 除了心理干预,对梦境的重现还可以用于创意生成。应用创意设计等方式对梦境中的内容进行重构,可以产生更有艺术创造力的内容。此外,在科学史中,凯库勒在梦中找到了苯环的结构,门捷列夫在梦中产生了元素周期表的概念,我们不知道有多少科学上的创意,出现又无声的消失在梦中,通过对梦境的记录和解读,我们未来也许能够捡起更多这样带有科学创新点的梦。 总的来说,EEG和fMRI已经将梦境分析从纯粹的猜测转变为实证科学探索,从而得以让我们更加接近揭示梦境的真相的那一天。 梦境解析和引导的商业应用 说起解梦,人们最熟悉的是弗洛伊德-荣格的精神分析学派。虽然这一派的理论广为人知,但学术界对其有效性存在争议。随着大模型及对应智能体的成熟,市面上出现了不少号称可以解梦的聊天机器人,但这样的机器人带给笔者的个人体验并没有多么惊艳。更有一些解梦的应用,宣称结合中医典籍,对于这样有“伪科学”嫌疑的研究,读者更应该批判性地审视,不能因为大模型的套皮而轻信。 除了就梦境内容展开对话,基于梦境和AI结合还可以考虑梦境记录方面的应用。考虑到我们对梦境的记录往往出现在刚睡醒或半睡半醒间,并且很大比例的梦境会在我们醒来后消失,一个记录工具显得尤为重要。苹果平台的PlotPilot[13]可记录使用者对梦境的语音描述,并通过AI文本分析配上属于对应的背景音乐,制作成专属的有声书(现在可以根据梦境描述产生视频)。这样的工具不仅能帮助用户更好地了解自身潜意识的心理需求,还可以促进对梦境的研究。 如果说根据脑电活动预测个人的所思所想,会让人想到许多科幻小说里的场景,那么能帮助用户进入且稳定在清醒梦中的工具,则充满了《盗梦空间》的意味。2024年1月,美国初创公司“Prophetic”开发了一款名为“Morpheus-1”的新型人工智能模型,该模型可以以大脑的脑电活动作为提示词,基于多模态大模型生成与该大脑状态相互作用的形状声波。据称,输出的声波可与Prophetic计划明年春季发布的一款新头带产品“The Halo”绑定。The Halo会发送声波进入大脑,与当前的大脑状态相连接,从而使心灵进入清醒状态。据Prophetic称:“引导产生的清醒梦是一种梦者意识到自己正在睡觉的梦。”而公司设想的产品则可以让用户有效控制自己的梦境。 由于该公司成立不久,宣传的产品还没有发布,其技术的实际能力还有待进一步观察。一旦成功,此举对学界和市场都有重要的意义,引导清醒梦将有助于减少PTSD等心理疾病引发的噩梦,促进正念,为意识的神秘本质打开新的窗口。 另一方面,无论是引导还是预测梦境,这些涉及个人私人体验的应用无疑将产生大量敏感的数据。如何避免这样的技术被滥用?消费者需要提前意识到技术的双刃剑性质,有保护自身的权利和隐私的意识。在技术成熟前,不妨先通过科幻小说进行思想实验,模拟各种情况下新技术产品的推动可能对社会造成的影响:例如,如果未来的打工人要通过清醒梦来证明自己对企业的忠诚,多疑的伴侣可以偷偷记录并解析枕边人的梦境以查找出轨的证据时,社会又将成为什么样? 小结 “Life is but a dream···” 从弗洛伊德和荣格的心理学,到最新的基于脑电的读心术,以及基于大模型的海量梦境自述的文本分析,我们对大脑的理解,正在从定性转为定量,从个体案例转为群体统计,从依赖主观描述转为客观数据。随着对梦境产生机制的了解,人们也能够逐渐去控制梦的产生,从而避免或减少噩梦的出现,甚至引导清醒梦的产生。 同时,随着人们对梦境的测量和控制手段的进步,研究者得以用科学地方式去尝试回答更多之前无法解答的问题,如梦境中的情感体验究竟是什么样的?动物们在做梦时在想到了什么场景?AI是否具有做梦的能力?知识带来新的技术应用,而新技术扩展了可触及知识的边界。对梦境的研究,一旦脱离了民科和伪科学,就将踏上科学界通用的正向飞轮。
索尼 Xperia 发布会官宣,两款新品的爆料都在这了
今天,索尼 Xperia 官方账号在 X 平台上宣布,将于北京时间 5 月 15 日下午 3 点举行 Xperia 新品发布会。 这场发布会预计将发布两款手机新品:Xperia 1 VI 和 Xperia 10 VI。 Andriod Headlines 在近期分享了 Xperia 1 VI 和 Xperia 10 VI 的一些渲染图。 根据图片来看,这两款手机依然保留了宽厚的「额头」和「下巴」设计。 Xperia 1 VI 作为索尼手机的旗舰机型,预计将搭载高通骁龙 8 Gen 3 移动平台,并会配备 12GB 或更大的运行内存。 有报道称,索尼手机可能会放弃传统的 4K 屏幕和 21:9 超长屏幕纵横比。之后的机型会采用 2K 屏幕,纵横比例也将调整为 19.5:9 ,和三星 Galaxy S24 Ultra 类似。 相较于前代,Xperia 1 VI 机身宽度也会有所增加,达到了 74.5mm,比上一代增加了 3.5mm。至于机身背部,Xperia 1 VI 将提供黑、白、绿三款配色。 根据此前传言,Xperia 1 VI 将配备三个摄像头,包括一个 16 毫米超广角镜头、一个 24 毫米广角镜头以及一个 85-170 毫米长焦变焦镜头(最高支持 7 倍光学变焦)。 根据预测,Xperia 1 VI 的 24 毫米镜头将配备索尼的「Exmor T for mobile」堆叠式 CMOS 图像传感器,并且还可以裁切出一个 48 毫米镜头,以实现 2 倍变焦。 在音频方面,除了 Hi-Res Audio、Hi-Res Audio Wireless、360 Reality Audio、LDAC、DSEE Ultimate 的支持外,索尼 Xperia 1 VI 还将继续保持 3.5mm 音频插孔,并会带来一些新的音频芯片和电路方面的性能改进。 有传闻称 Xperia 1 VI 的建议零售价可能为 1224 美元(约合人民币 8870 元),相较于前代产品 Xperia 1 V 的 1288 美元,这一代旗舰手机价格下调幅度虽不大。 这场发布会上,另一个可能会发布会的新品是 Xperia 10 VI。 这一代最明显的变化,就是后置摄像头模组取消了前代的长焦镜头,只保留了主摄和超广角。不过索尼或许会为 Xperia 10 VI 的主摄进行升级,以提供 2 倍的无损变焦。 硬件方面,Xperia 10 VI 可能会配备 8GB 的运行内存。据 Geekbench 上的测试数据显示,其单核测试成绩为 934 分,多核测试成绩达到了 2816 分。 根据 Geekbench 的页面信息,Xperia 10 VI 手机型号为「XQ-ES72」,搭载高通骁龙 6 Gen 1 芯片,运行安卓 14 系统。 此前网上已有 Xperia 10 VI 的泄漏渲染图。从图片上来看,Xperia 10 VI 同样保留了 3.5mm 耳机接口,并且会拥有黑、白、蓝三种配色。 值得注意的是,索尼有可能会放弃推出摄影大师、电影大师等「大师」App,取而代之的将会是一个单一的 App。新的 App 中将包含索尼 Alpha 系列相机和 CineAlta 系列电影机的一些功能。
Beats Solo 4耳机评测:一款掉队的新耳机
Beats 在耳机行业一直是一个特立独行的品牌。在品牌创立之初,Beats 利用了创始人 Dr.Dre 在音乐人圈中的影响力,与大量著名音乐人推出联名款,将耳机从功能优先的电子消费品打造成潮流时尚单品。 但在打出 Beats 的品牌知名度后, Beats 却没有像 V-Moda 一样「两耳不闻窗外事情,一心只换耳机壳子」,反而开始在声音表现方面下起了功夫。比如 Beats 被 Apple 收购后推出的 Studio Pro、Flex 和Fit Pro,声音表现都非常不错,Studio Fit Pro 甚至是很长一段时间里小雷的首选 TWS 耳机,近几年甚至还推出了为 Android 生态适配的 Solo Buds 系列耳机。 但尽管 Beats 近乎已将 Solo 这条产品线划分到了 Android 生态中,为 Beats打下了「半壁江山」的 Beats Solo 3 却多年不见换代的消息,仿佛已经被 Beats 忘掉了一样——直到 2024 年,Beats 才终于想起了这个沉寂已久的系列,并推出了 Solo 系列的新台柱——Beats Solo 4。 图片来源:雷科技 那么这款售价 1799 元的 Beats 新台柱,能否接得住 Beats Solo 3 身上的重任,在带着 Beats Solo 系列一种新品在 Android 生态打出一片新天地呢? 很遗憾,我觉得不能。 好设计用不着常更新 配置方面,Solo 4 对 Solo 3 Wireless 的声学架构进行了升级,用上了被动调音动态振膜传感器。虽然读起来有些拗口,但这个被动调音动态振膜其实是一个非常经典、对装配精度有较高要求的方案。 一般来说,主动调音通过电子方式调整音频信号,通常涉及数字信号处理器(DSP)或其他形式的电子电路。这种技术可以在耳机放大信号之前调整频率响应,以适应特定的听音环境或用户偏好。主动调音能够动态地调整音频,提供更加精确和多样化的音频控制,常用于降噪耳机中以优化不同环境下的听音体验。 图片来源:雷科技 而被动调音通常指的是通过耳机设计本身来影响音质,如耳机的物理结构、驱动单元的设计、耳机内部材料的使用等。被动调音不依赖于外部电源或电子设备,完全依靠耳机的物理属性来调整音频输出。 而对于 Beats Solo 4 这种蓝牙有线双模耳机来说,被动调音的设计可以保证耳机在任何工况下拥有始终如一的声音表现,不至于像某些耳机那样,开降噪一种声、关降噪一种声,插耳机线使用时又是另一种声音。当然了,被动方案也是有代价的——尽管 Solo 4 售价高达 1799 元,但并没有主动降噪功能。 佩戴舒适度不错,声音还有进步空间 造型上,Beats Solo 4 延续了从 2016 年至今的设计风格。尽管头梁很薄,但下方依旧有足够厚的缓冲软垫。配合上 Solo 4 圆形而非蛋形的头梁曲线和浮动耳罩,佩戴舒适度非常不错。 图片来源:雷科技 值得一提的是,Solo 4 没有像主流耳机品牌一样全面转向耳罩式方案,而是保留了 Solo 的精髓——压耳耳罩。和全尺寸的耳罩相比,压耳头戴不会完全罩住耳朵,长时间佩戴时通风性更好,不易使耳朵感到闷热或出汗。因体积较小,耳机整体在收纳时相对耳罩方案也更加方便,同时也不容易压住眼镜腿,对戴眼镜的用户更加友好。 不过在声音方面,Solo 4 的表现却只能说「勉强使人满意」。尽管升级了声学单元,Solo 4 这套 40mm 依旧非常「挑歌」。在《BOOM》中,Solo 4 的低音取向并不激进,由于没有低频补偿等心理声学设计,Solo 4 在低频区域的衍生并不明显,低音量控制的也中规中矩,没有「True Music」「动词打次」那种「廉价感」。中低频方面,Solo 4 的表现我觉得非常不错,低频冲击的感觉也非常明显和直接,只不过在细节处理上略微有些毛刺。 图片来源:雷科技 尽管 Beats Solo 4 的中频和高频还是有些许松散,但对于大多数常见的流行曲目、甚至是偏向金属风格的华丽金属类曲目,Solo 4 都能拿捏到位。以《Cheery Pie》为例,即使不使用 Apple 后制的空间音频技术,Solo 4 依旧能提供一定的声相定位,元素复杂但不凌乱。 换句话说,Beats Solo 4 是一款综合素质不错,也依旧带着 Beats 标志性音染的耳机。用 Solo 4 听宇多田光、YOASOBI 不会有出戏的感觉,但如果想体验 Beats Solo 4 的全部表现能力,OneRepublic、Blitzkid 或 AC/DC 的曲目会是更好的选择。 但或者如果你想要「原汤化原食」,用 Beats Solo 4 来听 Dr.Dre 的 G-Funk 曲目,那当然更好不过了。 不同的生态、同样的体验 就像小雷之前体验过的 Beats Studio Pro 类似,Beats Solo 4 和 Apple 品牌的耳机一样,提供了空间音频功能,iCloud 账户快速匹配、Find My 查找网络等功能也一应俱全。 图片来源:雷科技 但由于 Solo 4 用的不是 Apple W2 芯片,所以即使在 Android 平台上,Beats Solo 4 也提供了一键配对、账户同步、设备查找等功能。考虑到大多数手机现在都不提供 3.5mm 耳机,Beats Solo 4 即使有线也能双模——用户可以同 3.5mm 耳机线或 USB-C 数据线连接 Solo 4。再加上 Solo 4 的被动调音设计,即使通过音频线连接 Solo 4,耳机的声音表现也不会出现偏差,好评。 只把声音做好,对现在的耳机而言还不够好 说完 Beats Solo 4 的优点,接下来该聊聊我对它不太满意、或者说认为还可以继续改进的地方了。 首先,我认为 Solo 4 的定价和功能严重脱节于国内市场。即使从 Beats 品牌特点的角度来考虑,一款售价 1799 元(199 美元)的蓝牙耳机,不提供主动降噪功能,放在 2024 年也是说不过去的。 尽管 Beats Solo 4 是一种「潮流符号」,但除了挂脖子上一年不给耳机开机的「潮人」,绝大多数接触、了解过国内耳机市场的消费者对 Solo 4 显然有着更高的期待。 图片来源:雷科技 当然了,Beats 可能也会从耳机「被动方案」的角度找补。但归根结底,耳机采用被动方案这本身就是一种节省成本的考虑。没错,Solo 4 因为使用被动音频方案,对耳机的装配、质检有更高的要求,但这额外的成本并没有为消费者带来更好的体验,在功能上甚至落后于其他品牌售价更低的产品。 在我看来,在这一点上,被动方案并不是 Beats Solo 4「刀法精准」的借口。当然了,Beats 也可以说「Solo 头戴数字系列从来都没有降噪」。确实,在 Beats 的产品序列中,降噪是 Pro 的独占功能。但就像 Beats Solo 系列产品开始接触 Android 生态一样,Android 的配件生态在变,Beats 也在主动求变,「祖宗的章程」不是、也不应是 Beats 不提高自身竞争力的理由。 图片来源:雷科技 同样受到「祖宗章程」限制的还有 Beats 在设计上的一些细节:作为一款在 2024 年中上市、定价 1799 元的国际大牌头戴式耳机,Beats Solo 4 还在大大咧咧使用「明线」,连接单元的线缆在头梁折叠的铰链处也没有补强设计,仅在内侧开了个小缺口,为耳机线留反复折叠的空间。 图片来源:雷科技 更不用说 Beats Solo 祖传的「收纳问题」了——因耳机采用内折收纳方案,尽管收纳体积不大,但 Solo 4 依旧不能像 AirPods Max 或 Bose 700、那样「摊平」放在飞机座椅背面的收纳槽内。 图片来源:雷科技 另外,Beats Solo 并没有在耳罩或转轴处加入佩戴传感器或折叠识别触点,这意味着 Solo 4 不能像同价位的其他耳机那样摘下或收纳自动暂停播放。在 Sony 和 Bose 在 2000 元价格区间「神仙打架」、「二线」品牌下探到千元级别,倍思、Anker 等手配品牌在千元以下「虎视眈眈」的 2024 年,Beats Solo 4 这样的产品竞争力和定价,似乎有些「过于乐观」了。 确实,Beats Solo 4 在声音上表现得还不错,在软件功能上也有自己独一无二的竞争力,但在和用户息息相关的使用体验上,Beats Solo 4 的扣分点确实有点多。相比之下,电商平台上到手价和 Solo 4 定价相差无几的 Beats Studio Pro 显然更有竞争力。 图片来源:雷科技 放在三年前,Beats Solo 4 的定价和产品力其实也还算不错,但在 2024 年的耳机市场中,如果 Beats 想用 Solo 4 吸引更多新用户,甚至是重塑大家对 Beats 的品牌认知,那 Beats 显然还需要继续努力。
华为、苹果发布会“贴脸开大”,谁遥遥领先?
作者 | 陈法善 编辑 | 刘杨 华为“最神秘发布会”撞上苹果“最早发布会”,会发生什么? 5月7日,苹果、华为相继举办产品发布会,发布平板电脑、手写笔、手表、笔记本电脑等设备。不论是时间,还是产品种类,两场发布会重合度颇高,两位老对手再次擦出浓浓的火药味。 类似的“不约而同”曾多次上演,早在2023年9月,两家公司默契选在同一天,发布各自旗舰款手机Mate 60和iPhone 15系列,被网友戏称为“华为对苹果贴脸开大”。 一直以来,华为被认为是能在高端市场挑战苹果的公司之一,虽然中途因芯片被“卡脖子”而一度被看衰,但随着Mate 60搭载麒麟9000S芯片复出,华为正抢回短暂失去的市场。而在压力之下,苹果特地将此次发布会的时间提前了约3小时至当地时间早上7点(北京时间晚上10点),以照顾国内用户作息。 在苹果销量接连受挫之际,华为在迪拜举办“创新产品发布会”暗含重启出海的雄心,两家公司从硬件设备到AI应用,将全方面对线,类似的“默契”也将继续重演。 又一场“孪生”发布会 这或许是华为近期最神秘的一场发布会。 早在4月底,网络上便透出华为将于迪拜举办发布会的消息,但直到5月7日当天,不论是新闻资讯、社交平台,还是IT行业网站,都没有关于这场发布会的最新消息。 从5月7日中午起,就不断有网友在社交媒体询问发布会时间和链接,但没有人回复。当晚8点多,仍有不少人吐槽不知道上哪儿了解发布会信息。直到晚些时候,才陆续流传出一些用户发布的现场照片和视频。 华为消费终端的一位员工对《豹变》表示,公司没通知具体的时间,按惯例一般是下午两点半开始,近期发布了很多新品,要忙着宣发,外面的消息甚至比员工知道的还准。华为云一位员工也表示不知情,称“数字中国”“华为开发者大会”是近期要举办的影响力更大的会,迪拜的发布会“不是啥大会吧”。 与华为预告的信息一致,这场发布会重点推介了全新MateBook、MatePad、Watch Fit3、第3代M-Pencil、FreeBuds 6i、自研绘画软件GoPaint天生会画等。近期热度很高的新品Pura 70手机没有出现在发布会上。 其中,MateBook X Pro 2024笔记本已经在中国开售,以980克的轻盈机身和高性能Intel Ultra 9处理器为两大卖点。而可穿戴设备Watch Fit 3采用方形表盘,配有一个醒目的红色旋转按钮和功能键,外形设计与苹果手表相似度颇高。 此外,华为还带来全新自研平板绘画软件“天生会画”,搭配第3代M-Pencil,可以使用更丰富的笔刷,为普通人创作带来更强大的绘图功能。 而Pencil也是苹果发布会的重头戏,在苹果的预告海报中,C位正是一只Pencil,也是海报上唯一能看出外型的产品。 新发布的苹果Pencil Pro堪称该产品近六年的最大升级:“挤压”新手势可以解锁签名、添加形状、贴纸等功能。同时,Pencil Pro将首次搭载震动反馈,让触控笔的书写感受更接近真实纸币。华为选择此时发布“天生会画”和第3代M-Pencil,针锋相对的意味明显。 Apple Pencil Pro 相比起华为的神秘,近年来,苹果的发布会没有秘密可言,在发布会前,产品信息就已经被剧透的差不多了。苹果这场“放飞吧”发布会,主角是iPad生态多款新品,包括iPad Pro及Air,升级的Apple Pencil Pro,以及让iPad“变身”笔记本的妙控键盘。 其中,iPad Pro直接跳过了M3芯片,搭载了苹果最新的M4处理器,将显著增强AI能力。今年2月,苹果官宣停止造车,加注AI研发,新款iPad Pro可被视作苹果进入AI时代的急先锋。 相较目前 11 英寸iPad Pro搭载 LCD屏幕、12.9英寸搭载了miniLED屏幕,新款iPad Pro两个版本同步升级至OLED屏幕。以往,购买小尺寸iPad Pro的用户只能使用被阉割的屏幕,而新款则能获得满血版的屏幕体验,对“小屏党”而言,无疑是一种利好。 iPad Air除了11英寸,还增加了13英寸版本,满足了“大屏党”的胃口,而在处理器上延续了“落后一代”的惯例,从M1升级至M2芯片。 巨头针锋相对 几乎同时举办发布会的两家公司,近期的表现截然不同。 由于股价下跌、销量下滑、被巴菲特减持,近年来,苹果公司被不少人唱衰,走得有些磕磕绊绊。 巴菲特的动向一直被市场当做投资风向标。今年一季度,巴菲特减持了约13%的苹果股票,一时间,苹果仿佛成了巴菲特“弃儿”。对此,在5月4日的巴菲特股东大会上,巴菲特表示,减持苹果是出于税收原因,因为投资获得了可观的收益,而不是基于对该股的长期看法的任何判断。即便减持后,苹果仍是伯克希尔投资规模最大的公司。 在巴菲特股东大会前一天,苹果公布了2024财年第二财季业绩,当季营收907.5亿美元,同比下降约4.3%;净利润236.4亿美元,同比下降约2.2%。iPhone在中国销量的下滑,被认为是影响苹果股价、收入的关键因素。 市场调研机构Canalys数据显示,2024年一季度,华为拿下中国智能手机市场第一,出货量1170万部,市场份额为17%;苹果手机出货量1000万部,同比下滑25%,市场份额15%,位居行业第五。 从产品售价看,华为旗舰手机Mate 60系列、Pura 70系列跟iPhone 15系列高度重合,从6000元左右的入门款,到上万元的顶配版,每个价格区间都针锋相对。在手机的较量中,华为明显更强势,这从二者的售价就能看出来。 目前,华为Mate 60、Pura 70系列仍一机难求,少有价格优惠,而iPhone 15入门款在电商平台价格已降至4600元左右,较官方定价下调约1400元。可以说,华为卷土重来后,改变了高端市场的格局。 不过由于众所周知的原因,华为Mate 60系列并没有在国外正式开售,当前的销量主要依靠国内市场。这也是近期新发布的Pura 70系列未亮相迪拜的重要原因。 一直以来,迪拜因自由开放的经贸环境、特殊的地理位置,被视为进军欧洲、非洲市场的关键枢纽。2023年12月,华为就已经在迪拜举办过新品发布会,加上此次发布会,被外界解读为华为意欲重新搭建经销渠道,为重返欧洲市场铺路。目前,Pura 70系列已经在马来西亚、欧洲开启了预售。 华为手机等产品重启海外市场的底气,除了来自突破“卡脖子”,还因为“钱袋子”鼓了。2024年一季度,华为总营收1785亿元,同比增长37%;净利润197亿元,同比增长557%。 AI变局,谁能遥遥领先? 除了争夺海外市场,华为、苹果未来的较量更看AI。 华为Pura 70一经推出,其AI功能就被网友推上了热搜,最吸引人眼球的莫过于强大的抠图功能。当用户拍了一张照片,又不想要照片上的一些画面时,可以用手指圈住,AI会将其抹除,并自动填补空白。从网友拍摄的实操视频看,Pura 70的反应速度、处理效果在同级产品中属第一梯队。 不过,这一功能被一些别有用心的人“玩坏了”:圈住女性胸口位置,这部分衣服就被P掉了。华为不得不紧急回应,这属于AI的漏洞,并迅速更新AI,禁止用户进行此类操作。 在华为线下门店,AI成了手机的重要卖点。在温州一家华为门店,Pura 70旁边摆放着一张高速旋转的光盘,肉眼无法看清光盘上的图案,但用Pura 70拍摄后,静置几秒,AI便还原出清晰的图案。这能大大提高用户在弱光、高速、手抖环境下的拍摄成功率。 在硬件配置已经堆到天花板、旗舰机型同质化的当下,AI成了手机厂商打破瓶颈的突破口。《豹变》在小米、荣耀、OPPO、VIVO等品牌门店看到,大模型成了标配,旗舰机型都搭载了AI功能,实现了人机智能交互、一键剪辑视频、生成文本等功能。 OPPO创始人兼CEO陈明甚至在全员信中称,AI手机将成为继功能机、智能机后,手机行业的第三阶段。2024是AI手机元年,未来五年,AI对手机行业的影响,完全可以比肩当年智能手机替代功能机。 当国产手机争相进入AI时代时,苹果的AI产品有些姗姗来迟。在2月官宣停止造车后,苹果将不少造车工程师转岗至AI部门,加大对生成式AI的研发投入。新款iPad Pro成了苹果AI战略的先手棋。 iPad Pro之所以一反常规跳过M3、直接使用M4芯片,就在于AI。M4搭载了为AI量身订制的神经引擎,算力较M3提升10%—15%。神经引擎主要负责图形处理、面容解锁等机器学习部分,将使得搭载M4芯片的产品在处理这些任务时,效率得到大幅提升。这些使用场景正是iPad的优势领域。 此前,每代M系列芯片的升级间隔约在一年半左右,M3芯片于2023年10月底推出,根据Canalys预测的时间表,M4系列芯片有望于2025年第一季度上线。此番M4提前上市,意味着苹果将加快AI应用的步伐。 今年2月,在苹果年度股东会上,苹果CEO库克对外界认为苹果在AI上掉队的观点进行了回应。他表示,苹果多款设备由AI驱动,正在AI领域进行重大投资,认为生成式AI具有突破潜力。 此前,苹果已经发布了基于终端硬件的OpenELM模型,AI功能在手机本地运行被认为比ChatGPT等开源的大模型更能保护信息安全和用户隐私。而将硬件、软件、服务结合,一直是苹果的强项。 不过,《豹变》在走访中与经销商、用户沟通中了解到,目前用户购买手机,主要还是看摄像、芯片、屏幕等核心配置,AI是一个卖点,但不是影响消费决策的关键变量。由此看,AI的作用不在当下,而是未来的想象力。
谷歌掏中端机杀招:自研Tensor芯片+Gemini大模型,499美元起
编译 | 一支笔 编辑 | 云鹏 智东西5月8日报道,5月7日,谷歌发布新一代平价智能手机Pixel 8A,并在当天开启预售,预计在5月14日正式发售。谷歌承诺,Pixel 8A将提供内置VPN功能以及长达7年的安全更新。手机配备128GB的存储空间,并新增256GB的选项,但仅适用于黑曜石颜色。 据报道,与Pixel 8系列一样,Pixel 8A搭载了谷歌最新自研芯片Tensor G3,配备了8GB的RAM。这意味着Pixel 8A将具备去年谷歌旗舰产品首次亮相时展示的大部分软件功能。其中,“音频魔术橡皮擦”(Audio Magic Eraser)可以消除视频片段中不需要的声音,如警报声。“最佳照片”(Best Take)能非常高效地达到最佳的合影效果,让照片中每个人的面部看起来都不错。此外,通过“魔法编辑器”(Magic Editor)功能,用户还可以移动拍摄对象,并使用软件生成背景来填充空间。 除了出色的性能和长期的软件支持,Pixel 8A在屏幕方面也进行了升级。Pixel 8A保留了与前代相同的6.1英寸屏幕尺寸,但搭载了一种谷歌称为“Actua”的新型OLED显示屏。这种新型OLED面板据称比Pixel 7A的峰值亮度高出40%,最高可达2000尼特(HDR为1400尼特)。此外,它还支持120Hz的刷新率,以实现更加平滑的滚动体验。 谷歌称Pixel 8A为“500美元以下最好的智能手机相机”。该设备配备了64兆像素主摄像头、13兆像素超宽摄像头、13兆像素自拍摄像头,为用户提供出色的拍摄体验。同时,谷歌还引入了“自然色调”(Real Tone)功能,该功能可以通过更准确的图像处理算法,使不同肤色在视频拍摄中更加真实地呈现。 在Pixel 8A手机设计方面,谷歌对该设备的盖玻璃做出了一些调整。Pixel 8A采用的是康宁公司于2013年推出的第三代大猩猩玻璃,其背面则采用了哑光塑料复合材料,并配有哑光铝框。谷歌称,手机外壳和相机杆均由100%可回收的铝制成,其后部的塑料则含有76%的可回收材料。手机依然具备IP67级防尘防水功能,因此,即使在游泳池或雨中也可以安心使用。 此外,Pixel 8A的电池容量增加至4492毫安,谷歌声称这将比7A提高15%的电池续航时间。用户可以通过Qi标准进行无线充电,也可以使用随附的USB-C电缆。 除了硬件方面的优势外,Pixel 8A还整合了谷歌的Gemini Nano大型语言模型。一旦启用Gemini Nano,用户可以在特定的设备上使用AI功能。谷歌提到,Gemini Nano功能将在未来的软件更新中提供,但Pixel 8A默认使用Google Assistant作为助手,不过用户可以轻松将其替换为Gemini助手。 结语:Pixel 8A发布,谷歌有望巩固其在智能手机市场的地位 当前,智能手机市场竞争日益激烈,各大智能手机品牌竞相推出新产品以吸引消费者。在此背景下,5月7日,谷歌Pixel 8A手机面世,这进一步增加了消费者在购买智能手机时的选择范围。 Pixel 8A的亮点之一在于长达7年的安全更新承诺,这一承诺也彰显了谷歌对用户隐私和数据安全的重视;而搭载的Tensor G3芯片和Google AI功能,则为用户带来了更加智能化的使用体验;在摄影能力、设计环保性以及电池续航方面,Pixel 8A也有着明显的竞争优势,为用户提供了更加全面的选择。 随着Pixel 8A的问世,谷歌有望进一步巩固其在智能手机市场的地位。未来,我们或许可以期待智能手机技术的持续创新和进步,以及智能手机市场走向更加多元化的发展趋势。
OpenAI媒体管理器明年投用!识别内容版权,允许创作者退出AI训练
编译 | 庞小春 编辑 | 香草 智东西5月8日消息,昨日,OpenAI宣布正在开发一款名为媒体管理器(Media Manager)的工具,旨在让创作者能够更好地控制其原创内容在生成式AI训练中的使用方式。OpenAI可以通过媒体管理器识别内容创作者的作品,并按照他们的要求将这些作品纳入或排除在AI研究或训练之外。 OpenAI计划2025年之前将该工具投入使用,可能会通过公司最近加入的C2PA(内容来源和真实性联盟)的行业指导委员会,联合创作者、内容所有者和监管机构共同制定一项标准。OpenAI在公告中写道:“作为有史以来的第一个此类工具,媒体管理器需要大量的学习研究,来帮助我们识别多个来源的受版权保护的文本、图像、音频和视频,并反映创作者的偏好。”并称随着时间的推移,他们会推出更多的选择和功能。 无论最终采用何种形式,媒体管理器似乎都是OpenAI对其开发AI的方式日益受到批评的回应,即严重依赖于从网络上收集公开可用的数据。最近,包括《芝加哥论坛报》在内的八家美国著名报纸以侵犯知识产权为由,对OpenAI提起诉讼,指控其窃取文章用于训练生成式AI模型,并且在没有补偿或署名的情况下商用。 以ChatGPT为代表的生成式AI大模型,通常都是利用来自公共网站和数据集的大量数据进行训练。这些生成式AI公司认为,基于公平使用的法律原则,他们有权从公共数据中获取并用于模型训练。但并非所有人都这样认为。 事实上,OpenAI认为,如果没有版权材料,就不可能创建有用的AI模型。但为了回应批评人士,并在未来的诉讼中为自己辩护,OpenAI已采取措施,与内容创作者达成妥协。 去年,OpenAI允许艺术家“选择退出”,对于他们不希望用于训练图像生成模型的数据进行删除。公司还允许网站所有者通过robots.txt标准对其网站内容进行指示,选择是否可以用来训练AI模型。 OpenAI将继续与新闻机构、媒体库、问答网站等海量数据管理者签订许可协议,但一些内容创作者表示,OpenAI做得还不够。艺术家们认为OpenAI的图像选择退出工作流程太过繁琐,对于要删除的图像都需要提交单独副本以及描述,并且OpenAI为授权内容支付的费用也相对较少。另外,OpenAI也在公告中承认,公司目前的解决方案无法解决创作者的作品在其他无法控制的平台上被引用、二次创作或转发的情况。 除了OpenAI之外,其他大模型公司也正在尝试为生成式AI构建来源标注和选择退出工具。初创公司Spawning与其合作伙伴Stability AI和Hugging Face等共同构建了一款应用程序,可以识别和跟踪机器人的IP地址以阻止抓取尝试,并且提供一个数据库,艺术家可以在其中注册自己的作品,阻止AI供应商用于大模型训练。Steg.AI和IMATAG公司也通过应用人眼无法察觉的水印来帮助创作者建立图像的所有权。另外,芝加哥大学开发了一种名为Nightshade的工具,可以使AI图像生成器无法使用未经许可的图像进行训练。 结语:OpenAI推出媒体管理器,助力AI训练数据应用规范化 AI大模型严重依赖大量公开可用数据,其使用方式容易侵犯内容创作者的知识产权,OpenAI推出媒体管理器,使内容创作者能够控制其作品在AI研究和训练中的使用方式。 作为AI大模型引领者,OpenAI这一做法或许会助力AI训练数据应用走向规范化,加快AI大模型迭代升级。
OpenAI推出图像检测新工具!可检测DALL·E 3生成图像,准确率达98%
编译 | 长颈鹿 编辑 | 李水青 智东西5月8日消息,5月7日,OpenAI宣布推出一个面向文生图模型DALL·E 3的图像检测分类器,该工具能帮助用户识别AI工具生成的内容。据内部测试,该工具识别DALL·E 3生成图片的准确率达到了98%。 此外,OpenAI称为了应对图片内容是否真实的挑战,公司希望与业界各方机构一起采用、开发和推广开放标准。据悉,OpenAI昨日开放了图像检测分类器的API,希望通过技术共享来提升数字内容的真实性和完整性。 5月7日,OpenAI宣布加入C2PA(内容来源和真实性联盟)指导委员会。C2PA是一个开放数据标准,其元数据(Metadata)可用以追踪数字内容的初始来源。同日,OpenAI和微软宣布推出200万美元的“社会韧性基金(Societal Resilience Fund)”,用于推动人们对AI技术的认知。 一、OpenAI加入数字内容认证机构,助力鉴别AI生成内容 OpenAI在5月7日加入了C2PA指导委员会,由多家机构共同开发的C2PA是一个被广泛使用的数字内容认证标准。这个标准可以协助用户确认内容的来源,即鉴别一张图是直接由相机拍摄的照片,还是通过像DALL·E 3这样的文生图工具创作的作品。 ▲添加了C2PA元数据的DALL·E 3 今年2月7日,OpenAI在ChatGPT和OpenAI API中为DALL·E 3创建的图像嵌入了C2PA元数据。据悉,OpenAI即将推出的视频生成模型Sora也将集成C2PA元数据。 OpenAI称用户无法轻易伪造或修改C2PA元数据。无论内容被如何传播和使用,其元数据都将保持不变,C2PA等标准能够提供关于内容来源和真实性的可靠信息。 OpenAI和微软于5月7日共同设立了一个资金规模为200万美元的基金,这个基金的目的是加强人们对AI的理解,以及推动人们理解和接受数字来源标准。这个基金支持的组织包括美国退休人员协会(AARP)、国际IDEA联盟,以及相关的AI合作伙伴。 OpenAI称实现内容真实性需要全行业的共同努力。平台、内容创作者和处理者需协作保留元数据,以确保内容来源的清晰,从而建立更真实的数字生态系统。 二、OpenAI自研图像检测工具,准确率约达98% 为了增强数字内容的完整性,OpenAI在推广C2PA认证标准的同时还在自研一款图像检测分类器。该工具有助于抵制删除或篡改内容真实来源的行为。 图像检测分类器可以识别出压缩、裁剪、更改饱和度/颜色、去除水印等常规图片操作。OpenAI称,图像检测器在内部测试中,能正确识别约98%由DALL·E 3生成的图像,有约0.5%的概率会将非AI生成的图像误判为AI生成。但其在区分DALL·E 3生成图像和其他AI模型生成图像方面性能较低,约有5-10%的误判。 OpenAI的图像检测分类器现已向AI实验室和AI初创公司开放申请,公司希望通过业内集体协作共同完善图像检测技术。 OpenAI还在其语音模型Voice Engine中引入了音频水印技术,目前处于产品预览阶段。 结语:AI强企斥资普及AI知识,发展可识别数字生态 OpenAI正积极参与构建一个标准化、可信赖的数字内容生态系统。其不仅加入C2PA指导委员会并集成C2PA元数据于DALL·E 3中,还正自研图像检测分类器。 OpenAI与微软共同推出的“社会韧性基金”进一步凸显了OpenAI对于普及AI知识、提升公众对AI技术认知的承诺。 OpenAI的这些努力将使AI生成内容向更规范、透明的方向发展。我们也希望有更多AI企业间技术共享、开放合作的行为来构建一个更加真实和可信的数字世界。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。