EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
打工人掉入WPS的AI连环套
作者丨王思原 编辑丨伊页 百模大战之后,金山办公似乎成了最着急赚钱的那个。 去年4月,大模型火得发烫,金山WPS也随之调整了会员体系,在超级会员之上推出了Pro版,主打AI功能的辅助。 作为国产大模型在C端伸手要钱的先驱,WPS凭借AI功能的集合赚得盆满钵满。公开数据显示,去年金山办公仅国内个人办公服务订阅业务收入便达到了26.53亿元,同比增长29.42%。 如今,金山办公再将“镰刀”伸向去年帮其书写美好业绩的先驱用户。近期不少网友反映WPS开始向用户弹窗,称“加钱升级成大会员才可使用AI功能”,从超级会员到Pro再到现在的大会员,AI功能成了WPS的敛财套娃。 金山办公的AI商业化是否操之过急?内卷的在线办公市场,AI一定是那条突围之道?大模型能改写金山办公的命运吗? 用AI来“套娃” AI功能上线不足半年,“吃相难看”成了金山WPS给用户留下的印象。 多年付费用户小金(化名)称:“去年4月会员体系变动,我本来是WPS超级会员,考虑到平时用得多,就加钱购买了6年超级会员Pro,想着一劳永逸。后来WPS出的AI功能,超级会员Pro也可以用。但现在又出现弹窗,若要继续使用AI功能需要交钱升级成大会员。” 弹窗的具体内容为:WPS超级会员Pro套餐升级为WPS大会员,升级时长62个月,升级金额310元。“这不就是套娃式收费吗?今后是不是每增加一个新功能,就增加一项收费?”小金质疑道。 社交平台上也能发现不少用户的声讨,“最早为了WPS的AI功能,一次性购买了好几年的超级会员,当时明明显示超级会员能够使用AI功能,结果今天却显示要继续用AI需要升级大会员,这个大会员当时压根就没有,算不算欺骗消费者?” 对于用户的不满,WPS官方在回应时表示,“目前还没有会员体系整合政策,但是今后可能会对会员体系进行升级或者推出完善会员功能的产品。” 在第三方的黑猫投诉平台,也有不少消费者对WPS的套娃式收费进行投诉。有投诉称,WPS平台在销售会员时明确表示,充值Pro超级会员将包含WPS会员的所有功能,并允许用户持续使用AI功能。 然而,近期平台突然限制了Pro会员对AI功能的使用,并推出了新的WPS AI会员和AI大会员来提供该功能。这种行为试图通过所谓的“体验权益”等说辞来掩饰对消费者的误导。WPS购买长时间会员,不包含原有功能构成误导消费者,现在要额外收费构成霸王条款。 “套娃式”收费的本质,就是通过不断推出新的会员等级和功能,以诱导用户不断升级和付费。原本只需要购买一个会员就能享受所有功能,现在却需要不断升级、续费,才能保持对软件的使用权。这不仅违背了用户购买软件的初衷,也损害了用户的权益。 从商业角度来看,WPS或许能够通过这种模式在短期内获得可观的收益,然而从长远来看也削弱了用户的信任和忠诚度。当用户发现自己被不断套牢,需要为同一个软件支付越来越多的费用时,对WPS的好感度自然会大打折扣。 这不是WPS第一次陷入争议。去年11月,WPS AI开启公测仅两天,便有用户发现其隐私政策中提到,“我们将对您主动上传的文档材料,在采取脱敏处理后作为AI训练的基础材料使用”,引发广泛关注。 尽管金山办公积极回应并且更新了《WPS隐私政策》,但还是遭到了部分用户的抵触,隐私问题也成了悬在金山办公用户头上的达摩克里斯之剑。 金山办公离不开AI 事实上,无论是为了短期收益,还是未来竞争,金山办公都非常需要WPS AI。 2023年4月,WPS AI首次对外亮相,随后进入持续优化迭代。过去一年时间,金山办公构建起了AIGC+Copilot+Insight的产品线,分别对应内容生成、人机交互、知识提炼三方面功能,并按计划将这些功能逐步嵌入到文件、表格、演示、PDF四大组件当中。 节奏上,金山办公的AI步调比原计划快了不少。从3月接入文心一言开启测试,到4月官宣WPS AI,再到5月发布WPS 365、7月开启申请体验,直至11月4日获准面向公众正式开放,一步步加速将手伸进用户口袋。在某些节点上,金山办公甚至走在了微软前面。 AI功能收费模式的加持下,金山办公在二级市场的股价也水涨船高。去年内最高市值为2444亿元,第一季度涨幅69.74%,即便价值回归后仍稳定在千亿以上。 股价一飞冲天之际,股东迫切地选择集体减持。WPS AI发布当天,上交所同时发布了金山办公的股东计划减持公告,称“WPS香港及奇文N维(指奇文一维至奇文十维共十家企业)已通过询价转让、大宗交易、集中竞价的方式累计减持公司股份21,836,531股,占公司目前总股本的4.73%”。据统计,金山办公大股东去年全年减持数量达到2183万股,接近百亿。 除了股价上涨带来的收益外,金山办公重押WPS AI同样是出于业务发展的需要。 据其2023年财报显示,订阅及服务业务仍扮演拉动金山办公收入的主引擎。个人办公服务订阅业务,和国内机构订阅及服务业务的营收占比达到八成。 去年全年,主要产品月度活跃设备数为5.98亿,同比增长4.36%。其中WPS Office PC版月度活跃设备数2.65亿,同比增长9.50%;WPS Office移动版月度活跃设备数3.30亿,同比增长0.61%。除了第四季度,去年的主要产品活跃用户已连续三个季度下降。 由此可见,WPS AI面向市场及商业落地的重要性:其一,金山办公需要向广大个人订阅和机构订阅客户提供相关服务,以保住现有的行业份额不被其它竞争对手蚕食。 其二,移动月活下降,也反映出WPS需要更多新功能来吸引客户,而AI无疑是最重要的一个部分。 AI给办公软件带来的演变,预计是革命性的。不过这一次,金山办公的竞争对手不再只有微软,发起挑战的更不乏国内巨头。比如百度推出了智能办公平台如流,钉钉背靠阿里云的通义千问大模型,印象笔记推出“印象AI”,飞书也已推出了“My AI”办公助手。金山办公的WPS AI虽然发布最早,但从开放使用效果来看,并未拥有太多绝对的领先优势。 体验过相关AI功能的用户,不少认为“体验不佳”,如文字润色出来的文章太过口语化,就是简单地语句堆叠;PPT框架千篇一律,没有创新等。WPS AI公测以来,暴露的“隐私政策”问题、“套娃收费”问题,一定程度上也显示出这款产品仍需打磨。 看疗效还得拼C端 对当前的WPS AI来说,除了内部完善,更需要外部御敌,尤其在C端市场。 金山办公的核心壁垒有两个,一是高度模块化的产品定位,也就是面向企业的定制服务;二是C端市场占有率,以及几十年来养成的用户习惯。 不过随着大模型的代码生成能力逐渐成熟,企服企业提供服务的成本和效率都能够得到大幅优化,对致力于数字化转型的公司来说,量身打造一套办公系统逐渐成为了具备性价比的选择。未来或许对模块化组件的需求并不会消失,但付费和使用频率上会产生一定下滑。 此消彼长,C端市场就成了各大厂商的主阵地。而大模型C端落地主要有两种模式,一种是打造文心一言、Kimi等所谓的原生应用,另一种则是将其应用到原有硬件或应用上从而优化体验,金山办公在这一方面有着天然优势。 事实上,AI+办公产品作为解放生产力的工具,在头部企业中早已加速商业化落地。微软、谷歌在去年3月、5月先后推出AI办公产品Microsoft 365 Copilot和Duet AI,体现了其对AI办公方向商业化价值的看重。 收费是C端最理想的变现模式,但这对产品力要求很高。金山办公在C端市场的占有率,本质上是雷军时代留下的遗产,帮助其抢先推出了手机端应用,继而靠移动端和PC端的云协同拉动增长。 虽然这些年里,金山办公的产品不断迭代,但依旧没有脱离范式,用户已经习惯了Word、PPT、Excel的操作范式,这也是外界认为金山办公一直在吃红利的原因。 但如今不论是手机端编辑,还是PC+移动的云协同,都有飞书、钉钉、企微、甚至各种云办公文档等多款软件可以实现,虽然这些后来者在功能上和用户心智上可能不如WPS、Office全面,但这不意味金山办公可以高枕无忧。 道理很简单,以微软Copilot为代表的新型人机交互方式,意味着协同办公将有更便捷的操作范式,并且迁移成本极低,只需要像日常对话沟通一样将需求输入Copilot,它就能自动调用各种功能来满足用户。 即便缩小到国内AI办公市场,背靠着阿里巴巴的通义千问大模型的钉钉、印象笔记也有“印象AI”,飞书也早已推出了“My AI”办公助手,甚至连手机厂商都开始将自家的大模型办公应用植入成硬件标配。而当金山办公和微软、钉钉、各大手机厂商这样级别的玩家硬碰硬,谁输谁赢就真的不一定了。 科技的车轮已经转动,移动办公时代的王者进入AI时代,终局成了未知。只能确定的是,尊重用户、珍惜消费者的眷顾,应该是整个行业奉行的金科玉律,侵犯隐私、套娃收费等操作不仅吃相难看,更会将之前培养的忠诚度败光,导致口碑市场双输。
纽约时报:不管爱、恨还是恐惧,TikTok已经改变了美国
TikTok已成为美国人生活的一部分 凤凰网科技讯 北京时间4月19日,《纽约时报》周四发文称,不管美国人是热爱TikTok、憎恨TikTok,还是畏惧TikTok,这款热门短视频应用已经改变了美国。 《纽约时报》称,可能没有哪款应用比TikTok更美国化了,它完全没有限制,上面有杂乱的民主创意、表演狂,还有各种跳舞妹子。但是,TikTok不是美国自己的应用,所以美国国会推出了剥离法案,迫使其母公司字节跳动将TikTok出售给非中国所有者,否则就被封禁。 TikTok在2018年正式登陆美国,连续在2020年、2021年和2022年都是美国乃至全球下载量最多的应用。这并不是说它的设计元素有多新颖,观看引人入胜的随机视频长期以来一直都是美国流行文化的主要组成部分,但是TikTok以一种新的方式将这些元素组合在一起。 与Instagram、脸书或Snapchat不同的是,TikTok并不是围绕社交关系建立起来的。它的目标是纯粹、不加删减的娱乐。该算法可以从用户跳过、点赞或分享的内容中获取每一个数据点,并直接将其推送到令人抓狂的“为你推荐”动态中。这让用户们不禁感觉TikTok比他们自己更了解他们。 《纽约时报》列举了TikTok改变美国的19个领域,它已成为美国人生活的一部分,从美国人听的音乐、看的电影、相信的阴谋论、如何决定一个产品的成功到定义一个名人。这一切都受到了TikTok的影响,有好有坏。即使你从未打开过这个应用,你也会受到TikTok文化的影响。 以下分类概述TikTok对美国的影响: 政治 美国拜登总统拒绝了在哥伦比亚广播公司电视台上露面,向数千万收看今年超级碗的潜在选民宣传的机会。相反,他发布了自己的第一条TikTok视频。 拜登入驻TikTok 与大多数其他主要政界人士一样,拜登团队此前曾拒绝入驻TikTok,原因是担心安全问题。特朗普的竞选团队也没有使用TikTok,这位前美国总统对这款应用表达了不同的看法。他在担任总统期间曾提议禁止使用TikTok,但最近批评了国会限制该应用在美国使用的企图。 拜登的让步就是对TikTok无可争辩的重要性的认可。今年是大选年,大约14%的美国成年人经常在TikTok上获取新闻。现在,拜登在特拉华州威尔明顿市的竞选办公室里有一个小工作室。在那里,工作人员可以与候选人拍摄“坦率”视频。 TikTok还引发了美国的国家安全顾虑。它的核心算法被蒙上了一层神秘面纱,该算法不属于TikTok,它是由字节跳动公司的工程师提供的。字节跳动控制着TikTok,并在北京、新加坡和加州山景城等世界各地的实验室里极其秘密地编写代码。 娱乐界 TikTok现在已成为好莱坞最喜欢的营销机器。2018年,当TikTok在美国上线时,保守、变革迟缓的好莱坞做出了一个典型反应:完全不予理会。他们都忙着拍照片无暇顾及新的短视频应用。但现在,好莱坞已经开始认为TikTok是不可或缺的了。 由西德尼·斯威尼(Sydney Sweeney)和格伦·鲍威尔(Glen Powell)主演的索尼浪漫喜剧《只想爱你》在去年圣诞节周末的票房收入仅为800万美元。在索尼的催促下,TikTok用户开始制作他们自己重新演绎片尾彩蛋的视频,这让它成为了一部热门电影,票房达到了2.19亿美元。 斯威夫特的歌曲重新上架TikTok 今年,TikTok因为版税低成为了又一个引发音乐行业愤怒的科技平台。今年2月,代表泰勒·斯威夫特(Taylor Swift)、比莉·艾利什(Billie Eilish)和德雷克(Drake)等艺人的环球音乐集团撤销了TikTok播放其音乐的权利,称TikTok试图“欺负”该公司,让其接受不好的条件。 然而,就在上周,斯威夫特赶在新专辑发布前打破常规,把自己的歌曲重新上架TikTok。斯威夫特通过环球音乐发行自己的音乐,但自2018年以来她一直拥有自己作品的版权。现在的问题是,其他艺术家是否会效仿。 学校 TikTok已经把学校厕所变成了电影片场。南阿拉芒斯中学(Southern Alamance Middle School)是北卡罗来纳州格雷厄姆的一所公立学校。该学校老师最近发现了一个问题,那就是上课去厕所的学生数量激增,有时每天多达九次,原来他们在厕所里利用镜子制作TikTok视频。于是,学校下令拆除了厕所里的镜子。 美国学生利用厕所镜子拍摄TikTok视频 TikTok“令人上瘾的设计”已经说了很多,但是它到底对人类的大脑有什么影响呢?一项针对中国大学生的小型研究,使用磁共振成像比较了他们在观看个性化TikTok视频(算法根据他们过去使用情况推荐的视频)和通用视频(应用推荐给新用户的视频)时的大脑活动。 结果发现,学生在观看个性化视频时,大脑的多个区域活动增加,其中包括与奖励、注意力和处理社交信息相关的区域。换句话说,算法发挥了作用。 购物 TikTok现在是一个价值数十亿美元的购物体验,很多公司都抓住了这个机会。互联网可能扼杀了实体购物中心,但现在它成了一个线上大型购物中心。 基亚拉·斯普林斯(Kiara Springs)在她的TikTok账户上发布她在亚马逊上找到的迷你裙或亚麻上衣,大多数月份会赚到1万到1.2万美元。在收入最高的一个月,25岁的斯普林斯靠着TikTok赚了5万美元。 TikTok也成为了带货工具 当一种产品在TikTok上走红时,用户的口碑往往会直接转化为销售额的增长。在某些情况下,效果惊人。例如,在美国保温杯品牌Stanley的一款水杯在TikTok爆红后,该公司去年的收入达到7.5亿美元,远超2019年的7300万美元。 烹饪 现在的烹饪方式不同了。今天的热门食谱和过去的热门食谱之间的一个关键区别就是TikTok。过去,你只能依靠静态图像学习烹饪,看着食谱中的逐步说明。现在,一个30秒的视频就能让你掌握烹饪技巧。这些视频描述了整个烹饪过程,而不仅仅是各个阶段,让你在眨眼之间就能跳接出你的食谱。 TikTok教你做饭 尽管TikTok为家庭厨师们提供了各种技巧和烹饪风格,但这个平台更喜欢推广概念,而不是实际的食谱,例如在在香蒜沙司中煎鸡蛋,三明治馅切成均匀的混合物。最可分享的食谱是那些你可以看一遍,然后转身就做的食谱,不需要测量、烘烤时间或阅读。 竖屏视频 竖屏视频并不是TikTok发明的,但是它在推广这种观看方式而不是横屏观看的过程中发挥了十分重要的作用,引发了其他公司的模仿。比如苹果公司、西班牙职业足球联赛和主要新闻出版商都在制作竖屏视频,就连《纽约时报》也加入了进来。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
国产“大小姐短剧”霸屏日本
中国土味短剧的风,从欧美吹到了日本。 不同于执着“扇巴掌、误会、下跪”三件套的中式霸总,在日本,隐藏身份打工、整顿职场的豪门大小姐,才是短剧主流。女主隐藏豪门身份从底层实习生做起,却被冒充豪门小姐的女配联合上司推倒在地,而后亮明身份的女主手撕绿茶女配,扇上司巴掌,怼职场前辈,完美戳中观众爽点。不同于国内对“出轨”行为的厌恶,在日本,女主主动“出轨”年下小奶狗的题材大受欢迎,霸总彻底让位给了大小姐。 选择出海日本的短剧公司,吃到了大小姐红利。今年2月,上海嘉书公司旗下的短剧APP TopShort,在日本iOS应用畅销榜排名一度超过Netfilix,累计下载量达到40万。如今TopShort单月营收稳定在70-80万美元之间,30倍碾压日本本土的短剧APP。 图/TopShort的短剧(大小姐文学和出轨文学) 来源/TopShort TikTok官方账号 出海日本看似小众,但背后是一本经济账。 国内短剧行业早已卷起精品化,短短半年,单部短剧成本从2023年前的10万元飙升至30万。一批短剧公司选择出海,但短剧行业的头部公司,如九州旗下的ShortTV、中文在线旗下应用Reelshort等,早已在人口基数更大、消费力更强的欧美市场,将短剧卷到了“单部15-20万美元制作成本,投流成本达千万”的量级。而日本单集拍摄成本则基本稳定在80万元(10万美元)。 不是欧美出海去不起,而是日本出海更有性价比。 短剧出海日本,拍摄成本4倍于国内,入局风险不低,但随着国内成本水涨船高,日本反倒成为了如TopShort一样的短剧公司,更具性价比的出海新选择。 不过,尽管短剧是2024年少见的仍在增长的产业。春节以来,信达雅、国脉文化、华扬联众等诸多A股的短剧概念股连续涨停。但随着短剧行业驶过爆发期,短剧公司们在苦求新机会的同时,也意识到出海已经成为了一场更重资本的金钱游戏。 即便月入七八十美金,提起盈利,TopShort兼上海嘉书科技创始人王小书直言,“仍然在赔”。 与国内一天能百集相比,“按时下班”不断拉长日本短剧拍摄周期,迥异的本地职场文化仍需培养的本土制作团队,缺乏短剧观看习惯的用户,已经出海的短剧公司们面前,还有不少硬仗要打。 01 靠着颇受日本用户喜爱的“大小姐文学”,TopShort在今年2月份压过了Netfilix一头。 根据广大大数据,2月,TopShort主要投放剧集为自家热度最高的短剧《お嬢様のパワハラ退治(大小姐的权利骚扰退治)》,与《お嬢様は只今、インターン中(大小姐正在偷偷实习)》相似。主要角色皆是假冒大小姐身份的恶毒女配、狗腿同事,媚上欺下的上司,而真大小姐女主则一路“整顿职场”,持续打脸,爽点不断。 霸总的旧套路,在日本套上了“大小姐文学”的新壳,熟悉的中国土味短剧,在海外照样大杀四方。 居住在东京的you告诉字母榜,偶然一次在instagram上刷到《お嬢様のパワハラ退治(大小姐的权利骚扰退治)》的广告后,她一口气追完了免费的前9集,就彻底上头了。 短剧单集仅1分钟,月度会员就要约7600日元(49.99美元),比看一场电影(约3000日元)还昂贵,但是为了追完全集55集,她还是选择了为爱付费。 和you一样,在日本留学的阿丹,不止一次在TikTok首页刷到过短剧的解说推广。除了大小姐文学之外,她更喜欢颇有日本本土特色的“出轨文学”。 不同于在国内短剧里,出轨往往是恶毒女配的标签。在日本,“寂寞主妇出轨年下”是大热题材,这也给厌倦了国内“霸总娇妻”桥段的阿丹,带来别样的新鲜感。在日本留学半年以来,阿丹下载了TopShort、RealShort等等短剧APP,“毕竟,大胆出轨的女主,重生手撕渣男,这种桥段只能在日本看得到。” 中国短剧出海日本曾简单地翻译国内已有的短剧,2023年6月,TopShort一次性上线了170多个国家及地区,但王小书发现,在日本拍摄短剧,直接照搬国内爆火的短剧和题材,用户不会买单。不仅是题材“水土不服”,就连国内已经自成一套的拍摄手法,如“10秒内亮钩子抓住眼球,1分钟内重重反转”等都面临失效。 短剧导演阿亮也表示,在国内,一集短剧至少3重反转才够爽,但在日本,往往数集过后,女主仍然在被上司刁难、女配打压、众人误解,最终揭示身份“手撕恶毒女配”的爽点剧情,比国内延后好多集。这种情况不仅受到日本用户观看习惯的影响,也有日本缺乏有网感的短剧导演的因素。 本土化成了出海的必然之选。如同RealShort将中式霸总变身狼人,撬动欧美市场,进入日本后,TopShort选择在2023年10月在东京设立办事处,王小书认为,只有当地有正式办公室,才能帮助获得日本当地制作人员的信任度。2024年1月,TopShort上线日语原创剧集,从“出轨文学”到豪门大小姐,它终于抓住了日本女性用户的喜好。 想象中的降维打击似乎并不轻易,对于出海短剧公司来说,花大力气本土化,才是出海的第一步。 02 第一批出海日本的短剧公司,吃到了行业红利。 2024年2月,TopShort 下载量排名数据登上Top6,超越了排在第12名的Netflix。同时在日本ios娱乐类应用畅销榜上为第11名,超过Netflix。“目前营收稳定在每月70-80万美金。”王小书表示。 尽管成绩不错,但出海日本的短剧公司也面临盈利的问题。即便已经在日本推出了十几部短剧,但王小书还未赚到实际意义上的“第一桶金”,“我们在日本市场的短剧,还在赔钱。” 对国内的短剧公司而言,出海往往意味着更大量资金的集中投入,以及更缓慢的资金回报速度。 不同于国内小程序短剧大行其道,短剧出海第一步,就是推出独立的短剧APP,而组建专业团队,研发APP,初始成本便可达数百万元。 出海短剧APP变现方式一般为IAA(用户看广告解锁剧情)、按集付费、订阅三种方式。在日本,TopShort的定价更多参考了网费,用户可以直接购买平台内货币(5.99美元95个币,单集解锁10个币),主要以包月订阅(49.99美元)及包年订阅(199.99美元)为主。 相比国内即时投流、用户即时付费,用户订阅会员、续费的决策路径更长,也使得制作方面临着更长的回款账期。“国内短剧推出几小时或者当天就能有回款,100万元的资金能支撑3000万元的业务,但在日本,回款账期接近两个月,想达到同样的业务规模,可能需要准备一个亿的资金。” 王小书告诉字母榜,不像国内早已形成的成熟短剧拍摄产业链,TopShort进入市场前,日本并没有严格意义上的短剧工种分类,因此,包括下游的翻译,上游的编剧、导演等,都需要从头培养。而习惯了到点下班的日本演员和工作人员,也拉长了拍摄周期。国内单部短剧拍摄周期已缩短到7-10天,在日本却需要近2倍的时间。 图/日本短剧拍摄现场 来源/@miracle wang 小红书平台 如今,在日本拍摄单部短剧(50集以上,每集1分钟),成本约为10万美元,再加上投流费用,TopShort单月成本突破100万美元。 导演阿亮表示,海外短剧投流的成本结构与国内差异不小。相比起国内“小程序内卡点付费”带来的资金迅速回笼,已经养成的用户观看习惯,在日本还要多付30%的平台税、广告费,此外,由于用户需要通过Instagram、TikTok等社交媒体,跳转到下载APP页面,付费路径更长,导致花钱买来的用户容易在下载环节流失,而单集付费的用户如何留存,也成为了关键。 因此,即便TopShort已经是当前日本市场的头部玩家,也仍然处在烧钱开拓市场的投资期。 出海日本已经是性价比之选,但王小书直言,“无论选择出海欧美还是日本,如果是平台方,至少需要准备一亿以上的资金。如果是制作方,也要准备两三千万的资金。”如今,出海早已不是小玩家能轻易入局的游戏。 “出海你只能当作一个长期的事业来做,因为挣快钱是非常困难的。”王小书表示。 03 对王小书们来说,出海日本的性价比,大都来自于国内市场的衬托。 随着国内短剧“卷向精品化”,产业链上游的演员和服化道等成本都水涨船高。上海嘉书是国内第一批尝试短剧制作的公司,2021年至2022年期间,单部短剧的制作成本大都稳定在十几万元,但到了2023年年中,半年时间,“单部短剧的制作成本涨到30多万,翻了一倍,对利润空间的影响很大。”王小书表示。 王小书曾做过调研,2023年前,日本拍摄短剧的单部成本在10万美元(80万元人民币),拍一部短剧的成本,能在中国拍3-4部,“在日本拍片子显得不太划算”。但随着2023年后,国内单部成本上涨到30万元,从拍摄成本角度看,出海日本便变成了一种成本较低的出海新尝试。 根据SensorTower数据,2022年头部短剧出海平台下载量/净流水仅4.4万次/2.0万美元,2023年达2823万次/5671万美元,实现爆发式增长。 2024年3月中旬,九州文化旗下应用ShortTV登上了美国App Store下载榜单第一名,2023年11月,中文在线旗下应用Reelshort也多次霸榜Google Play应用商店和App Store的应用商店榜单。但随着头部公司火热拼杀,欧美早变成了“拍摄成本只需十几万美元,投流成本可达上千万美元”的销金地,相入局分杯羹并不容易。 日本市场,便成了不得不出海的短剧公司的“性价比之选”。盯上日本这片新市场的,也不仅是TopShort一家。 头部企业如九州旗下的ShortTV、中文在线旗下应用Reelshort等,都已通过推出大热短剧的日语翻译版,出海日本,日本本土的bumpTV,也在争夺日本市场。 根据七麦数据,在日本(娱乐)畅销榜,Reelshort近3个月的排名最高曾短暂到达62名,其余时间均稳定在70~200名之间。ShortTV则在近两个月,短暂在2月冲上过13名的好成绩,随即掉落在50名上下。先一步组建了近100人的日本本地团队,针对性开发了日本本土短剧的TopShort的排名,则能够稳定在前20名。 图/TopShort、Reelshort、ShortTV日本市场畅销榜排名 来源/七麦数据 不过,即便论在日本的营收和下载量,TopShort已经是中国头部短剧出海企业,但王小书仍然表示,“(片子)仍然不够好。”在还需要培养用户观看短剧习惯的日本市场,王小书发现,想要制作一部质量和国内齐平的短剧,那些颜值更高、更好的演员,往往对短剧平台缺乏了解和信任。本地招聘和宣传,也成为了短剧制作公司出海的关键环节。 国内短剧市场日益内卷,使得出海已经成为短剧公司们的必选项。随着日本市场受到关注,Reelshort等成熟平台也纷纷跟进。在王小书看来,真正意义上的竞争“还未开始”,但显然也不会太远了。
用户有多少,奈飞不想告诉你了
转舵两年,奈飞还是很行。 当地时间4月18日,奈飞公布2024年第一季度财报,业绩再次闪耀。 订户数量增量超预期一倍,增长了960万。营收同比增长15%,净利润同比增长79%,营业利润率也增加了7个百分点。 也就是说,奈飞用户更多了,赚了更多的钱,盈利能力也变强了。 回头看两年前,奈飞经历史上首次用户下滑,股价跌到2018年以来的最低点,一代流媒体巨头貌似要神话终结了。 通过一系列组合拳,包括缩减成本开支、打击共享账号(不让“白嫖”了)、推出含广告订阅计划、涨价等,奈飞已经在2023年重新站起来,并且维持了很好的劲头,几乎每次财报都长得像奖状。 奈飞一次又一次地对外表示:我们不一样了,我们现在注重盈利,注重可持续性,而不是光盯着用户增量。 光强调可能还不够。随着财报发布,奈飞公布了一个惊人的消息:用户数量多少,不会定期自曝了。 从2025年开始,奈飞将不再持续地、定期地披露其用户数量。只会在达到一些里程碑时,对外宣布一下好消息。 这是奈飞的又一次重大改变,过去,奈飞一直保持着高透明度,并对此颇为自豪。但就像当年对广告低下高贵的头颅一般,在发展面前,没有什么是不可改变的,哪怕是奈飞也一样。 奈飞已经进化了,它想让外界看到这一点。 1. 奈飞的季度盈利和收入超过了预期,盈利能力指标也表现强劲。 2024年第一财季,奈飞营收93.7亿美元,较去年同期增长15%,净利润同比增长79%至23.3亿美元。每股收益5.28美元,高于预期的4.52美元。相比之下,去年同期奈飞每股收益为2.88美元。 第一季度奈飞营业利润率为28.1%,而去年同期为21%。此外,公司的季度自由现金流为21.4亿美元,高于19亿美元的普遍预期。 简而言之,奈飞2024年第一季度不仅新增用户较预期翻倍,且收入至少是两年来的最佳水平,而利润率至少是三年内最高。 连续几个季度的业绩飘红,让奈飞的股价不断上涨。目前,奈飞的股价处于52周以来的高位,从2023年3月低于每股300美元,到如今600美元以上。不过,奈飞预警下季度用户增量将有所下降,引发4月18日美股盘后股价下跌4%。 2024年第一财季,奈飞的订户总数增长960万,达到2.696亿,远超增长480万的华尔街预期。这也是奈飞连着两个季度用户增长远超预期,上个财季奈飞的订户总数净增1300万。 这将是我们最后一次看到奈飞订户数量的季度报告。奈飞表示,从明年开始将停止报告季度会员数量,只会在订户达到某些里程碑时对外宣布。 转向后的奈飞如今更关注的是赚钱和用户留存:“正如我们在前几封信中指出的那样,我们把收入和营业利润率作为我们的主要财务指标,把参与度(也就是花费的时间)作为客户满意度的最佳代表。” 2. 广告计划的威力已经初显。一季度选择含广告订阅计划的用户比上一季度增长了65%,且在此前两个财季已经相继增长了70%。目前,广告计划的订户占奈飞所有订户的40%以上。 两年前,奈飞2022年第一季度订户环比减少20万,是其历史上首次出现的用户量下滑,并在第二季度再流失97万用户。疫情之间的股价涨幅奈飞全部吐了出来,还迎来了2018年以来的股价最低点。 压力中的奈飞开始转向,不仅一改对“共享账号”的宽容态度,更是破天荒地对广告低头。跟随竞争对手迪士尼、HBO等的脚步,奈飞在2022年11月正式推出广告服务,这个时间点,比外界预期的还早。这一举动,也被国内戏称为“偷师爱优腾”。 含广告的订阅计划价格远低于标准订阅,彼时奈飞新推出的“广告基础套餐(Basic)”收费6.99美元,用户每小时会看大约4分钟的广告,而不含广告的最廉价基础套餐价格9.99美元/月。其后,奈飞在广告计划上加大力度,取消了其在美国和英国的无广告基础套餐。也就是说,用户要么选择每月6.99美元的套餐,忍受广告;要么选择15.49美元的标准套餐或19.99美元的高级套餐。 付费共享的模式则瞄准了过去通过免费共享账号“白嫖”的用户,奈飞称这样的用户有将近1亿。 这是一次战略级的转变,奈飞明确表示将财报的重点从关注用户数量转向关注盈利能力和可持续性。 奈飞拥抱广告,也许打脸了过去,却造福了未来。推出广告计划仅半年多,奈飞的业绩就开始回暖。2023年第二季度,奈飞新增用户589万,公司将业绩增长归功于扩大了账户付费共享应用的范围,以及推出的广告订阅计划开始起效。奈飞的股价也开始上扬,一年的股价累计涨幅达136%,财报发布前,华尔街多家大型机构纷纷上调目标价。 正如奈飞所强调的,用户增长已经不再是奈飞最关键的指标。含广告订阅模式、打击共享账号、涨价,已经是奈飞的赚钱三板斧。 除此之外,奈飞还在体育直播、视频游戏以及其他提供商的内容许可协议方面下了大赌注。 过去奈飞对原创内容执念颇深,但现在对授权内容加大采买力度。美国网络有线电视台播了九季的剧集《金装律师》去年登陆奈飞,迅速打破观看记录,并在流媒体服务的十大排行榜上“霸榜”数周,证明了授权内容的巨大价值。 今年2月,奈飞宣布和WWE(美国职业摔角)达成为期10年的协议,自2025年开始在平台播出其王牌节目Monday Night Raw,同时成为其美国之外所有WWE节目的播放平台。这是Monday Night Raw首次离开传统有线电视进入流媒体平台播放,而奈飞此举也被外界认为是进军体育的号角。 至于视频游戏,据《华尔街日报》,奈飞已花费约10亿美元购买游戏工作室并建立业务。奈飞的一些成功剧集被改编成游戏,如《鱿鱼游戏》。今年初,媒体援引知情人士的消息称奈飞高层已经讨论如何从游戏中进一步创收,涉及的想法包括内购、对正在开发的更复杂的游戏收费、提供含广告游戏等。 转舵两年,奈飞已经告别“单纯”,在追求成为六边形战士的路上越走越远。 3. 停止每季度披露用户数量,是奈飞做出的又一重大决定,这一消息迅速吸引外界注意。 《好莱坞报道》认为奈飞停止披露用户量“标志着流媒体战争时代的结束”,因为在流媒体战争早期,利润尚不明朗,该指标一直是华尔街关注的焦点。 而The Verge则指出,奈飞“正在变成有线电视”,不再把价值寄托在注册用户身上,而是打赌他们会保持订阅,甚至可能会为增加一个额外的成员而付费。 对于这一决定,奈飞解释:“在我们的早期,当我们没有收入或利润,会员增长是我们未来潜力的一个强有力的指标。但现在我们正在创造非常可观的利润和自由现金流(FCF)。” “我们还在开发新的收入来源,比如广告和我们的额外会员功能,因此会员资格只是我们增长的一个组成部分。此外,随着我们的定价和计划从单一层级发展到多层级,并根据不同国家的不同定价点,每个增加的付费会员都会产生非常不同的商业影响。” 奈飞不想再被用户数量牵着鼻子走。 长期以来市场形成了以用户数量论奈飞成败的习惯,对奈飞用户波动反应强烈。正如这次,奈飞的财报业绩喜人,但因预警下个季度因为“季节原因”用户增量会减少,公司在美股盘后的股价转跌4%。 奈飞未必能一直维系用户的高增长。如今的第二波用户增长更多的是拜赐于打击账号共享和低廉的广告订阅计划的组合拳,在明年这种增长可能会放缓。 通过停止定期披露用户数量,奈飞想要迫使外界以收入、盈利和自由现金流等指标来评判自己。 “我们已经进化了,我们还将持续进化。”奈飞联席CEO格雷格·彼得斯(Greg Peters),他在财报电话会议上表示。
AI大模型催生App“通胀”
文 | 简斐然 孙静 AI工具独立开发者「Alchain花生」最近做了一个小测试。在GPT Store上,他把自己开发的一款用户数5000+的GPT(模拟Claude 3 Opus)调成了付费模式,想看看海外用户是否真有更高的付费意愿。 6小时后,他获得了第一笔用户打款,5美元。在他展示的后台截图中,这款应用在最近7小时内,入账20美元。 「每天收获几笔咖啡钱吧。」Alchain花生轻描淡写地聊到付费测试的初衷——既然当下Open AI无法按照年初承诺的那样——在一季度启动GPTs开发者收于分成计划,且GPT Store已有烂尾之嫌,他想试试AI开发者有没有可能找到自己的商业模式。 ▲「Alchain花生」应用后台的入账截图 从去年下半年开始,基础大模型厂商就不断呼吁,口袋不够深的就别卷模型层了,赶紧去开发AI应用。比如百度创始人李彦宏不厌其烦地布道:AI原生时代,我们需要100万量级的AI原生应用。 IDC预计,到2024年,全球将诞生超过5亿个新应用,这一数字几乎等同于过去40年累积的应用总数。 这些乐观的判断皆指向终局,一个宇宙大爆炸后的新时代。不过我们更关注的是当下,这个由大模型主导的狂热浪潮是否会带来前所未有的AI类App「通胀」? 一方面AI应用开发门槛已经极大降低——2008年苹果推出 App Store时,应用开发者还需要学习Objective-C语言,如今的大模型厂商们则提供自然语言开发,懂不懂代码不再重要,人人都可以成为开发者。 另一方面,AI技术迭代速度远超移动互联网。熵基科技首席科学家陈书楷直言,大家都知道,能力更强的新模型如ChatGPT5出来之后,有可能你现在正在做的很多事情都是白做了,「今天这个现象,是互联网时期没有的。」这也意味着一批AI应用的生命周期可能短如蟪蛄。 起码目前看起来,时代的金矿仍蕴藏于混沌之中。 但没有人愿意在牌桌之下。 01 AI应用「通胀」时代: 开发者、「App工厂」们都发动了 当一名国内普通用户想要体验AI助手应用,他可能要患上供给过剩的选择恐惧症:手机应用商店里,不仅有五花八门的豆包、文心一言、讯飞星火、Kimi、通义千问、智谱清言、紫东太初……还有一堆形神都似ChatGPT的套壳产品,可以说应有尽有,但似乎又难免趋于同质化。 迷惑的远不止用户。当被问及自家到底有多少个AI应用上线时,至少有两家科技大厂的内部人士都对我摇起头:「说不上来」「数不清」。 在这波AI原生应用浪潮中,不少大厂本着所有应用都值得被AI重构一遍的思路,鼓励内部疯狂赛马,也由此导致,部分AI应用以独立App或PC端插件形式推出,并未叠加到主App当中,甚至可能连其他业务部门的同事都不知情。 没有科技公司想错过这波AI应用浪潮。况且,中国公司本就以擅长做应用层著称。 从公开信息来看,目前百度、字节、阿里等都在争分夺秒。 像百度,除了用AI改造原有App、上线文心一言之外,还发布了「万话」「小侃星球」「SynClub」等社交类AI应用、「文心一格」等AI绘画工具以及「AI用药说明书」、「智能候诊室」、「有医笔记」等医疗类AI应用。 暗中发力的「App工厂」字节,最近半年推出的AI应用不下10款,除了聊天机器人「豆包」、AI伴侣类「心晴」、AI社交类「话炉」(猫箱),类似Sora的AI视频工具「Dreamina」也在内测之中,而这些还只是字节野心的冰山一角。有媒体报道,字节还在秘密研发多模态数字人产品、AI生图产品,剪映团队也在封闭研发全新AI产品。 其他公司如科大讯飞,除了聊天机器人「讯飞星火」,也有AI口语助手「星火语伴」、讯飞写作、智慧工牌等效率工具上线……此前专注技术解决方案的AI技术公司商汤科技,也在发布自家大模型之外,下场搞起应用,推出「商量」、「秒画」、「如影」「小浣熊」等生成式AI应用产品,并将生成式AI应用列入今年的重点发力方向。 在国内外基础大模型厂商、技术解决方案商、开发者、投资人的联合推动之下,AI应用正进入一个供给侧的爆发阶段。2023年,软件项目托管平台GitHub人工智能项目的数量暴增59.3%。百度方面数据显示,截至今年3月,其千帆AppBuilder平台上每周新增应用突破3000;到4月,平均每周新增应用达六七千个。 在北京的地铁车厢中,甚至已经出现智谱清言这类对话式AI应用针对C端市场的高调推广。在此之前,同类型的Kimi已经在线上渠道刷足了存在感。 C端用户也正对AIGC报以极大热情。根据QuestMobile的洞察,独立APP的需求持续增长。2024年1月,TOP10 APP去重用户规模同比增长37倍。头部APP的活跃用户超5千万。 不过这场爆发的「暗面」则是AI应用的速生速死。去年9月,美国知名科技风投公司a16z根据月访问量整理了一份Top50 AI应用榜单;今年3月,该公司推出最新Top50 AI应用榜单时发现,名单上40%的应用都是新面孔。这意味着,半年内至少有20款AI应用已经掉队。 对于这个数字变化,a16z表示,「令人瞠目」。 QuestMobile数据也直接印证了这一行业趋势。今年1月,国内头部AIGC APP活跃率均在20%以下,比较低;忠诚度方面,3日留存均在50%以下;流失风险高,部分APP的卸载率在50%以上。 这一点同移动互联网时代不同。移动互联网初期,一大堆高频的原生应用很快被创造出来,并形成崭新的商业模式,比如国外的Instagram,国内的微信、滴滴……「但AI目前还没到这地步」,独立开发者「Alchain花生」认为,当下AI应用更多是在提升既有产品的用户体验,而且主要作用在生产力端。 AI应用进展比大家期待的要慢,背后主要「卡脖子」的大概还是基础大模型。打个不太恰当的比方,45亿年前地球诞生之初是不太可能出现寒武纪那样的物种大爆发盛况的,因为地球本身仍处于剧烈变化中,动不动就被其他行星碰撞,还没有大气保护罩,可以说,尚未完成塑形。只有等地球内外部环环境于相对稳定了,才有生命可言。 大模型便处于类似的阶段。业内人士公认,大模型的迭代几乎以周为单位。反映到科技媒体的资讯弹窗中,「炸裂」这个词都快不够用了,因为每隔几天就会有新的颠覆者出现。 MiniMax创始人闫俊杰在接受《晚点》采访时提到,产品价值的来源,核心还是模型性能和算法能力,「你可以做很多产品feature,但你会发现,几乎所有大的提升都来自模型本身的进步。」 传说中将于今年登场的GPT-5,被认为将掀起更大的海啸,或者说成为AI发展史上举足轻重的一个分水岭。某工具软件出海企业人士姜辛在同《降噪NoNoise》交流时提到,今年可能会有一大波套壳类应用受到大模型迭代的挤压,预计会死掉一批,「基础大模型自身功能的迭代,就可能替换掉那些App的产品价值。」 对于这一点,曾经的AI文本生成工具明星——Jasper大概是如鲠在喉。而OpenAI 发布新一代视觉大模型Sora后,也有业界人士担心Pika、Runway等一众AI视频产品再无活路。 在「Alchain花生」看来,一些没有护城河的AI应用原本就属于「屎上雕花」,价值不大;但一些工具类产品在跟场景结合后产生价值的,不至于被颠覆,比如Monica、sider、沉浸式翻译等插件应用。它们把大模型能力和用户实际使用场景结合后,都提供了不错的价值。 02 有价值的AI应用 都跟特定场景结合 价值正成为衡量AI应用会否被技术迭代所覆盖的重要标准。 在a16z整理的AI应用榜单中,生产力工具类应用MaxAI,把ChatGPT、Claude、Gemini/Bard、Bing AI等模型的部分能力抽离出来,整合到一起,基于应用场景做一个封装的插件,可以帮用户总结文本、辅助写作、创建图像。 本质上,MaxA做的是「水管」生意。有业内人士透露,该团队已获得高额融资。 另一款受到关注的Chrome插件——Monica,其创始人肖弘在阐述产品价值的时候提到,他们做了很多很具象的场景里面的工作,比如回邮件、帮用户总结文章或者在用户打开一个YouTube视频的时候,帮其总结每段内容。这些功能都通过插件潜入浏览器,因为浏览器插件在海外是一个比较主流的产品形态。 在极客公园大会上,肖弘还提到关键一点,应用层创业者应该想办法收集用户在特定场景的数据,有了数据,AI应用便可以与大模型这个大脑形成协作关系。 数据也是很多AI应用即便没有找到商业模式、也会依然做下去的原因。姜辛告诉我们,像个人助手和效率工具,可以积累用户数据、行为数据,这样在产品下一次迭代时就有了数据参考。 至于基础大模型迭代带来的App「短命」,姜辛坦言,这样也好,倒逼C端应用继续迭代、在细分场景做深,也倒逼开发者思考——产品下一步要往哪个方向迭代?护城河是什么?「打个比方,剪映是通用的视频制作工具,但创业者可以根据剪映拆分出细分功能,单独做成产品。 姜辛认为,C端应用比B端应用更容易触及天花板,因为当前字节、百度这类大公司,甚至商汤科技这种技术方案提供商都开始下场做AI应用了,竞争会很激烈。 对于小规模的大模型初创公司来说,关键是如何能够找到自己的竞争壁垒。趣丸网络副总裁、前经纬中国副总裁庄明浩此前对媒体表示,他观察到,很多初创公司转向了「小作坊做小工具」的模式:先找准一个市场上还没有的功能与产品,抓住窗口期,通过运营手段快速推广,哪怕这个窗口期只有3到6个月,也可以挣到一笔钱,而后继续寻找新的市场机会。 以妙鸭相机举例,这一产品刚推出便受到了市场的追捧,从第一天便开始收费,但两个月后市场的热度也很快就降了下来。这与移动互联网时代的应用早期通过免费争夺用户市场,而后再逐步开始收费的创业模式已经完全不同。 沪渝人工智能研究院的徐工程师告诉我们,AI时代和移动互联网时代创业最大的不同是,当时大家最主要的关注点在于抢占市场份额,但现在大家主要是在探索商业模式。 量子位智库新近发布的《中国AIGC应用全景报告》显示,C端AIGC产品以智能助手以及图像生成类的生产力工具为主,虽然用户量大(纯C端占比50%以上),但盈利状况普遍不乐观,近50%的产品当前仍未有明确的收入模式,以免费为主。相较之下,B端产品商业模式较为清晰,以订阅和按需付费为主。 姜辛直言,包括他所在公司在内的很多应用开发商,大家其实都想去切B端场景,瞄准行业+AI,但囿于缺少行业kown-how,其实也很难切进去,更别提大幅改造。 在同《降噪NoNoise》交流时,蚂蚁数科某业务负责人也认为,大模型加持下的场景化能力要想在产业端落地、做出价值,还需要一点时间。这个「价值」,要么让此前的业务更有效,要么让企业能做此前做不了的业务。但目前来看,大多数企业还在探索阶段,「没那么快」。 如果从全球视角来看,追求风险投资也成为一类AI企业的专属道路。例如意大利科技公司Bending Spoons,便是视频编辑器Splice和照片增强器 Remini的幕后推手。不久前,该公司对外宣布获得了1.55亿美元的股权融资。 03 急不来 按照人工智能研究者、认知学家Gary Marcus的判断,生成式AI要达到互联网甚至智能手机带来的那种变革水平,还须有巨大的改进。 一个繁荣的AI原生应用生态,需要大模型、智能算力、AI原生应用研发新范式三要素相辅相成。从这个维度来看,杀手级的AI原生应用的问世是急不来的。 熵基科技首席科学家陈书楷直言,「大家要去做开发、做测试,要克服各种困难,解决各种各样的实际问题,所以不可能太快,但是润物细无声,大家确实都在做。」 他认为,作为AI应用的开发者,大家首先要关注的是AI怎么去解决实际业务当中的问题,再者就是随时关注最新的技术发展。 陈书楷看到,当前各种应用模式也是在不断的成熟和发展的过程当中,比如基于知识库的应用、基于Agent的应用,都会不断的有新的成果出来,这些成果能够直接提升现有AI应用的水平。与此同时,大模型本身的基础能力在不断提升,AI应用的一些局限性也会不断被打破。 业内不少人认为,AI Agent或许可打造出AI原生场景及应用。AI Agent是指在人工智能领域具有自主决策能力、环境感知能力和反应能力的智能体。AI Agent强调主体的自主性、反应性、主动性和社交性等方面的能动特征,而具有理解生成、复杂推理、自主学习等类人脑功能的大模型,则可以作为Agent的基础而存在。 当AI Agent以App的形态出现时,这也意味着,Open AI的GPT Store可能会面临来自APP Store的竞争。毕竟,Writerbuddy研报告中显示,超过60%的用户习惯于在手机等移动终端上访问AI工具。 这同时或许也表明,AI领域的创业公司们,可能会迎接更大层面的机会和挑战。 回望移动互联网时代,在2014年,中国智能手机用户首次超过5亿人,成为拥有智能手机用户最多的国家。疯狂生长的移动App正占据新的风口。2015年4月,我国主要应用商店的应用规模已累计超过400万个。 但这些App的生命周期平均只有十个月。其中,85%的用户会在1个月内将其下载的应用程序从手机中删除,而到了5个月后,这些应用程序的留存率仅有5%。 而这一场景,恐怕在AI时代只会愈发惨烈,AI应用「通胀」在所难免。 但即便如此,在同样大厂当道的当时,字节跳动、陌陌、滴滴等一系列创业公司,依然杀出了属于自己的生路。腾讯更是凭借微信,将原本平起平坐的对手们远远甩下。 那么,在可能新一轮时代「金矿」中,又有谁可能会成为新一轮的优胜者?谁有可能会被时代抛下?对此,我们充满好奇,只不过,这一答案,要先交给时间。 (注:应受访者要求,姜辛为化名)
“最强开源大模型”登场!扎克伯格最新访谈揭秘Llama 3规划、AI下个前沿战场和开源风险
当地时间4月18日,Meta正式发布了外界期待已久的大语言模型Llama 3,共有80亿和700亿参数两种版本,号称是最强大的开源大语言模型。 Meta表示,Llama 3在多个关键的基准测试中性能优于业界先进同类模型,其在代码生成等任务上实现了全面领先,能够进行复杂的推理,可以更遵循指令,能够可视化想法并解决很多微妙的问题。 在同日Youtube平台公布的一段长达1个多小时、2万字的深度访谈中,Meta公司首席执行官扎克伯格分享了有关Llama 3的更多信息,以及Meta在人工智能(AI)领域的深入思考,包括AI助手Meta.ai的演变、未来AI技术的发展方向和开源AI的潜在风险等。 图片来源:访谈视频截图 关于Llama 3模型:4050亿版本预计今年晚些时候推出 Meta的Llama 3大模型不仅将作为开源软件提供给开发者社区,还将为AI助手Meta.ai提供支持。扎克伯格在访谈中表示,“我们正在做的最重要的事情是升级模型。有了Llama 3,我们现在认为Meta.ai是人们可以免费使用的最智能的AI助手。我们还整合了Google和Bing以获取实时知识。” 谈及Llama 3,扎克伯格称,“我们实际上训练了三个版本,分别是80亿、700亿和4050亿的密集模型,其中4050亿的模型仍在训练中。然而,对于80亿和700亿的模型,我对其结果感到非常兴奋。它们在规模方面处于领先地位。” 据他介绍,这些新版本将为现有版本带来多模态性、更多语言性和更大的上下文窗口。Meta希望今年晚些时候推出4050亿的模型,尽管仍在训练中,但就目前的训练水平而言,它已经达到约85 MMLU(注:MMLU意为“多语言理解均值”,是一项用于衡量大语言模型性能的指标),预计其将在许多基准测试中拥有领先的基准。700亿的模型大约是82 MMLU,在数学和推理方面拥有领先的分数。 关于AI模型训练:资本之外,能源将成为限制 谈及AI大模型的训练,此前有报道称,Meta计划在今年年底前采购35万个英伟达Nvidia GPU。 对此,扎克伯格在访谈中透露,“那是我们的整个舰队。我们建立了24000个集群,这些集群是我们用于训练大型模型的单个集群。由于我们服务的社区规模庞大,我们所需的推理计算与训练的比率可能比大多数其他做这些事情的公司高得多。” 他同时指出,大型AI模型的训练可能会面临资本和能源限制等问题。“我认为在我们达到这一点(指的是资本投入不再值得)之前,你会遇到能源限制。因为我认为还没有人建造过千兆瓦的单一训练集群。”未来,也许获得能源许可就像一个受到严格监管的政府职能。 图片来源:访谈视频截图 关于AI未来:多模态和情感理解至关重要 当被问及Llama版本如Llama 10最终是否会强大到取代程序员时,扎克伯格说:“我不确定我们是在取代人,还是在为人们提供工具来做更多的事情。但是,我并不认为人类存在一个单一的智力门槛,因为人们拥有不同的技能。在某种程度上,我认为人工智能可能会在大多数方面超越人类,这取决于模型的强大程度。但我认为这是一个渐进的过程。我并不认为AGI(通用人工智能)是一蹴而就的。我认为你基本上是在添加不同的功能。” 他还特别提到了多模态性的重要性。“最初是照片、图像和文本,但最终是视频。”他同时称,“我还没有看到业内其他人关注的一点就是情感理解。”Meta正在努力提升AI的推理能力和记忆能力,以应对更复杂的用户需求。 至于未来几十年AI的发展,扎克伯格认为,人工智能的出现与人类进化的重要性相当。AI将改变我们的工作方式,并为人们提供所有创造性的工具来做不同的事情,将真正使人们能够做他们更想做的事情。 关于开源:会开源100亿美元模型,但不会开源产品 谈及广泛使用AI可能带来的问题时,扎克伯格说:“我想到的一个安全类比是,并不只是人工智能,很多不同的东西都有安全漏洞。” 那社会应该如何应对这个问题呢?他认为,开源软件是解决此问题的一个重要部分,它使得当对软件进行改进时,它不会仅仅局限于一家公司的产品,而是可以广泛部署到许多不同的系统中。而且这些东西的工作原理是有标准的,世界有可能在短时间内共同升级。在他看来,这种情况比一个人工智能更集中的世界要健康得多。 在访谈中,他也坦承,AI也可能带来风险。“我认为缓解这种情况的最佳方法可能是拥有优秀的开源人工智能,使其成为标准。在很多方面,它可以成为领导者。这样一来,它就确保了这是一个更加公平和平衡的竞争环境。” 他强调,“基本上,我通常非常倾向于认为开源对社区和我们都有好处,因为我们会从创新中受益。但如果在某个时候,某样东西的能力发生了一些质的变化,我们觉得开源是不负责任的,那么我们就不会开源。” 在被问及是否会开源100亿美元的模型时,他表示,只要对他们有帮助,就会开源。然而,他同时也提到,“我们在开源软件方面有着悠久的历史,但我们不倾向于开源我们的产品,我们不会将Instagram的代码开源。我们采用了大量的基础设施,并将其开源。在我们的历史上,最大的项目可能就是开放计算项目,我们将所有的服务器、网络交换机和数据中心的设计开源。这个项目最终证明非常有价值,因为虽然很多人都可以设计服务器,但现在行业已经对我们的设计进行了标准化。这意味着供应链基本上都是围绕我们的设计建立的。随着数量的增加,对每个人来说都更便宜了,为我们节省了数十亿美元。”
专治大模型说胡话,精确率100%!华科等提出首个“故障token”检测或分类方法
如今,大型语言模型(LLM)已经成为了我们生活中的好帮手。 当用户使用大模型时,模型首先会将输入的内容拆分成一个个的词元(token),通过分析这些词元来生成答案,为我们解答疑惑、提供建议、翻译外语、撰写报告······但是,你能想象大模型也会出错吗? 想象一下,你正在使用最新款的智能手机,它快速、聪明、几乎可以做任何你想要的事情。 但偶尔,你发现手机的一两个按键不按常理出牌——比如说,你按下「S」,它偏偏跳出「E」,或者干脆点了没反应,那估计用的时候就只想砸手机了。 大模型中存在一些故障词元(glitch token),一个个本应协助模型流畅运行的小小词元,偏偏要搞点小破坏。 针对这个情况,由华中科技大学、南洋理工大学等高校联合组成的研究团队近日发表了一项研究,该工作已经被软件工程领域国际顶级会议——FSE 2024接收。 论文链接:https://arxiv.org/abs/2404.09894 项目链接:https://sites.google.com/view/glitchhunter-fse2024/glitchhunter 该研究是第一个关于故障词元的全面研究,并且研究中针对故障词元的检测方法为减少大模型中与分词(tokenizer)相关的错误提供了有意义的见解。 简单来说,这项研究就像是在告诉我们:在大模型的世界里,有些小故障不仅仅是小插曲,它们可以大大影响模型的输出质量。通过识别出这些故障,可以更好地理解和优化这些聪明但偶尔会犯糊涂的大型语言模型。 论文简介 这篇工作中,作者首先提出了一个实证研究来了解故障词元在大语言模型中的存在性与普遍性。作者调查了包括GPT-4,Llama-2在内的七种热门的大模型,其中包含了三种不同的分词器,总共分析了十八万个不同的词元。 作者要求大模型完成针对词元的三个基础且简单的任务:复现,拼写以及求长度。根据不同的词元的完成情况,作者从完成形式上不能完成任务的词元分为了如下图所示的5个种类。在此基础上,只要这个词元不能够完成以上的三个任务之一,他就会被标记为故障词元。 实证研究的第二个问题是对故障词元的形式进行分类。这些词元有些是不同单词的组合,一些是无意义字母的堆叠,还有一些是单纯的无意义的符号。作者通过人工标注的方法,将这些所有的故障词元分为了表所示的5个种类。 实证研究的第三个问题故障词元在真实的数据集中的存在情况。作者研究了包括Alpaca,ShareGPT在内的用于大模型微调的主流数据集,发现在每个数据集中平均有2%以上的故障词元。这说明了故障词元在数据集中很普遍,而且很可能会影响到使用这些数据集进行微调的模型的效果。 在实证研究中作者还发现,故障词元在嵌入空间中有聚集效应,这便启发作者可以通过聚类的算法来完成针对故障词元的识别工作。 作者基于上述的发现构建了GlitchHunter,一种用于检测大模型中故障词元的自动化工具,主要依赖迭代聚类技术来识别潜在的故障词元群组,整个检测流程分为几个步骤: - 构建词元嵌入图(TEG, Token Embedding Graph):首先,GlitchHunter会构建一个包括所有词元及其相应的嵌入向量的词元嵌入图,来展示所有词元在嵌入空间中的位置和相互之间的关系。 - 候选聚类:接着,GlitchHunter在词元嵌入图上寻找紧密聚集的词元,使用Leiden聚类算法形成潜在的故障词元群组,这些词元通常有相似的特征。 - 假设检验:在每个词元群组内,GlitchHunter进行假设检验,通过分析群组内词元的行为和输出结果来找出群组内行为显著偏离预期规范的词元,确定哪些群组实际上包含故障词元。 - 更新与迭代:选定包含故障词元的群组后,这些词元会被整合到一个更新的词元嵌入图中。随后,GlitchHunter会继续进行聚类和检测,直到词元嵌入图不再经历任何更新,即没有新的故障词元被发现。 通过这种方法,GlitchHunter能够有效地在大数据集中快速定位并处理故障词元,减少错误输出,提高语言模型的整体质量和可靠性。 为了验证GlitchHunter的效果,本文采用了几项关键指标来比较GlitchHunter与几种基线方法的性能,包括随机抽样、基于规则的随机抽样和K-means聚类。评估结果显示,GlitchHunter在各个测试模型中普遍表现出色。 首先,GlitchHunter的真阳性率(True Positive Rate)显著高于其他方法,这表明它在实际检测到故障词元的准确性方面表现优异。同时,其精确度(Precision)达到接近或等于100%,远高于其他比较方法,这反映了其在识别故障词元时的高精确性。 在召回率(Recall)方面,GlitchHunter同样展现了较高的性能,有效地识别了大部分存在的故障词元,确保了较少的遗漏。 此外,GlitchHunter相较于完整遍历词元表的方法,显著减少了所需的时间和处理的词元数量,展示了其在达到高性能的同时保持了较低的资源开销。这些评估结果充分验证了GlitchHunter在实际应用中提高LLM输出质量和可靠性的潜力,证明了其作为故障词元检测工具的有效性和实用性。 未来工作 在这个工作中,作者完成了对故障词元的系统性探究,但是对于故障词元出现的原因以及如何进行修复并未进行过多的探讨,而这也是进行故障词元研究的终极目标:解决掉所有这样的故障词元,完善大语言模型对于每一个词元的理解。
扎克伯格“开源”上分,但Meta还没到庆功时刻
作者丨 kiki 编辑 | 山核桃 严格遵照自己日程表的Meta没有人们失望,在上周曝出推出Llama 3 两个版本后,扎克伯格向大模型开源阵营补给了最新的子弹——Llama 3 系列的 8B 和 70B 参数的两个模型。 英伟达研究经理Jim Fan 表示,即将推出的Llama 3-400B+模型将是社区获得GPT-4级别模型的重要里程碑。Abacu.AI的联合创始人Bindu Reddy,也是开源大模型的支持者,则认为,封闭人工智能的时代很有可能结束,Meta用一个「小故事」改变了世界。 Meta是开源大模型的执旗者,在过去一段时间内,随着谷歌、xAI等陆续加入开源阵营,「开源or闭源」这一老生常谈的话题又再度回到舞台之中。不过对Meta来说,放出Llama 3 不是重点,对手的竞争、人才的流失,Meta还远没到「开香槟」的时刻。 对于Llama 3 的表现,扎克伯格在最新一档播客中接受采访时这样评价:“80亿的模型几乎与我们发布的最大版本Llama 2一样强大,因此最小的Llama 3 基本上和最大的Llama 2 一样强大。” 市面上针对Llama 3 的分析已不再少数,「硅基研究室」提供的「省流版」将Llama3的亮点总结为六个方面: 1、在多个基准测试中展现出领先的性能; 2、推理、代码能力明显增强; 3、Meta构建了一个新的、高质量的人类评估集,包括了12个关键场景的 1800 个提示词。 4、数据上,Llama 3 在超15万亿token进行了预训练,数据集是Llama 2 的7倍。 5、通过技术优化提升训练效率。Meta通过数据并行化、模型并行化和管道并行化技术,Llama 3 训练的效率比Llama 2 提高了约三倍。 6、降低了虚假回答的拒绝率,这是因为配备了Llama Guard 2、Code Shield、 CyberSec Eval 2等安全工具。 从上述亮点中不难看出,扎克伯格和Meta显然是有备而来而来,不仅继续秀了scaling laws的魔力,还针对训练效率、虚假回答的拒绝率等科技圈关注的模型能力一整个进行了升级。 当然,除了模型能力外,另一个关键词,还是「开源」。扎克伯克在采访中也再度强调了开源的重要性:“如果未来人工智能系统没有得到广泛部署,而且不是每个人都能使用它们,我会感到失望.....缓解这种情况的最佳方法就是拥有优秀的开源人工智能,使其成为标准,它确保了一个更加公平和平衡的竞争环境。” 过去一段时间内,「开源阵营」的呼声似乎日益强大。前有谷歌开源大模型Gemma,后有马斯克开源 Grok,不久前,在评测榜单上,AI独角兽Cohere的 Command R+ 还跑赢了GPT-4。 不过,目前Llama 3 系列的「超大杯」模型(400B参数),目前还在训练,此前报道或在今年7月推出。Meta表示,未来将在发布具有新功能的多个模型,包括具备多模态能力、多语言交互能力、更长的上下文窗口和更强大的整体能力。不过据The Verge报道,Meta目前尚未最终决定是否开源400B的版本。 在《那些年扎克伯格的错过与过错》一文中,我们曾详细梳理Meta的AI战略。在这场生成式AI浪潮中,之所以说在Meta迅速变革,原因有二:一个是区别于OpenAI等巨头的闭源路线,Meta加入战场的姿态是「开源」,这无疑为其争夺了更多的好感。 另一个原因则是扎克伯格本人对AI的态度,从过去混乱的AI策略转变为整合。关注无论是与微软合作,还是此次发布Meta AI加速与自家的产品生态融合,这都不难看出Meta在积极改变。 但之所以说,Meta还没到庆功时刻,原因也有两点:首先,从宏观来看,Meta想要的还是太多了。一方面需要继续应对自己的AR/VR头显「元宇宙」野心,除此以外,还需要继续投身大模型的基础研发。 其次,则是人才隐忧。Meta在2023 年7 月发表 Llama 2相关研究论文中,其中 68 位作者已至少有10 人离开了Meta。而不少参与Llama 3 的研究人员也离开了 Meta,其中包括负责安全事务的Louis Martin和负责强化学习的Kevin Stone。 不久前,Meta又失去了三位高级AI员工,包括AIGC高级总监Devi Parikh、计算机科学家Erik Meijer和Meta AI 研究科学家Abhishek Das。 一位业内人士此前曾形容,今年的AGI竞赛不是「短跑」,更像是一场「马拉松」。对扎克伯格和他的Meta也是如此,据其采访透露,扎克伯格已经在考虑Llama 4、Llama 5,这会是一场更持久的竞争。
希腊Z世代女生打造3D建模AI工具,年收入7位数
去年,和英伟达合作的Masterpiece Studio被推荐为最好的3D建模生成式AI之一,也是人工智能文本到3D生成器,可创建实时可用的3D头像、角色和道具。 Kaedim也是英伟达人工智能初创计划启动的一个项目,位于伦敦,它是一家AI 2D转3D模型公司,提供简单的图生3D资产创建服务,用户上传1-6张图便能生成3D模型。据官网,平台已生成资产51098个,最近他们推出3D资产交易平台Marketplace,提供10000种易编辑、无损的3D资产给消费者选择。其主要服务行业为游戏娱乐,另有电商、建筑设计、动画影视等合作伙伴。 图源:Kaedim官网 Konstantina Psoma在2020年创立Kaedim,起初是因为她在课程作业的3D动画制作艰难,后在英国布里斯托大学读研时全心投入2D转3D的ML算法研究,并在校园企业竞赛中创立该公司。 3月11日,Kaedim筹集到A轮1500万美元,领投方为A16z Games,Scott Gelb(Riot Games前总裁)、Nate Mitchell(Oculus联合创始人)、Eden Chen(Pragma首席执行官)、Siqi Chen(财务分析软件Runway首席执行官)等参投。 据报道,Kaedim已有250个大型客户,用户基数每月增长2万,实现7位数年收入。它的C端用户包括3D建模爱好者、室内设计师、产品设计师、动画师。 1. 2D转3D,做到7位数年收入 AI生成3D并不简单,受限于训练数据的获得和开发的难度,尽管有公司做这项业务,但大多成本高昂,需要思考好商业化路径。 今年1月,A16z领投的另一家生成3D资产的公司Lumalabs生成高质量资产,成品模型放在现实世界中可以“以假乱真”,被称为3D领域的Midjourney。1月,Luma AI发布了Genie 1.0,一句文字提示,10秒生成4个高保真3D模型,尽管效果五花八门,但贴图、材质让模型十分逼真。 00:19 视频源:Luma官网展示作品,Created by @Jhues Luma的融资主要用于研发和创新。有分析指出,其面向C端,但没有清晰的商业模式,未来极大可能在游戏、影视、电商等场景商业化。 Meshy AI也是备受推荐的3D资产平台,与Kaedim一样可以实现文、图生3D,速度快,质量还在继续提升。在专访中,Meshy CEO、“天选程序员”胡渊鸣提到,游戏搭建起了他创业3D生成AI的桥梁,3D AIGC是一个激动人心的创业方向,虽然有很多不确定性,但是值得和市场一起探索。目前该公司是否盈利尚未可知。 图源:Meshy AI官网 Kaedim的愿景则是加速从数字2D世界到数字3D世界的转变。Konstantina Psoma表示:“在过去5年中,我们已经看到了3D技术在电商、游戏、3D打印、AR/VR等市场上的巨大增长,我们在赋予下一阶段3D内容创作以力量,就像DALL-E对2D图像的帮助。” 他们已产生收入。据Finsmes资讯,Kaedim的年收入已超过7位数,拥有超过250家大型客户,每月新增2万名创作者。这其中包含电子游戏、商务、建筑、产品设计和动画等行业的爱好者和开发团队及财富100强公司。 技术上,Kaedim运用GAN(生成对抗网络)和迁移学习等知识,借助PyTorch、Tensorflow等技术打造AI产品,使其能生成和风格化3D资产。“人类在日常生活中看过很多汽车,人们的视觉是3D的,当我们看到未发布的新车图片时,就会联想现实中的它。同样的道理,我们教算法从2D图像中识别3D数据。” Kaedim称,他们帮创作者构建了一个完整的工具套件,旨在增强艺术家的创作,而不是取代创作本身。他们采用将工具与工作流(如Unreal和Blender)程集成的方案,一组智能附加组件用于3D建模管道,如自动UV展开,一组使用Kaedim的机器学习模型定制3D资产生成的托管服务。 再加上Kaedim图生成3D资产的过程较为简单,容易上手,没有繁杂的参数调整。 Kaedim界面 在输入菜单中,有图(image)、文(text)生成3D模型两个选项,据演示视频,用户在编辑页面中可以上传目标生成角色1-6张图像,选择“标准”、“高质”、“极致”三个选项,对应1、2、4积分花销,做好命名和高度设置后点击生成,即可排队进入处理环节。 图源:Kaedim编辑器实例模型 图源:Kaedim Discord社区用户DV的模型作品 此外,用户可以用提示词生成2D图像,在得到满意的示意图后,按照之前图生3D的步骤点击生成。 同样,在其内部编辑器中,用户可检查模型骨架、尺寸,也可要求系统针对需求强化模型细节。 接下来,用户可以使用其UV Unwrapping创建模型的UV贴图。专业人士可以打开模型线框检查拓扑,也能为模型上色。由文转图生成的模型可以在编辑器中添加描述或更改草图要求增加细节。 最后,Kaedim允许用户以image、glb、gitf、obj等模式形式下载。 图源:YouTube,Kaedim视频演示 横向对比三类图生3D模型效果,可见Kaedim效果不差。从白模效果来看,Kaedim(图1)的线条效果较明晰,用时未知,可用性较强,支持自定义填色。尽管Meshy AI(图2)自带贴图,用时1分钟,但其免费生成的效果还需加强。此外,Luma的高质量成品也能作为游戏资产直接使用,使用Wall-E提示词生图转3D模型后,10分钟左右可生成一个边角稍有变形的Wall-E。 图源:图1来自Kaedim视频演示Wall-e模型,图2为作者在Meshy AI使用图生模型生成,wall-E原图来自维基百科 00:14 00:11 00:09 来源:Kaedim视频演示Wall-e模型,Meshy AI积分生成模型,Luma免费生成模型 近期,Kaedim推出了一个拥有1万种资产的3D资产市场Marketplace,内部3D资源素材没有不良拓扑、网格破损的状况,适用于独立游戏开发者。此网站仅订阅用户可进入查看。 图源:Kaedim 2.挂科带来创业灵感 在官网中,Kaedim的建模主视觉是一组可爱小动物,与他们的创始人Konstantina Psoma的气质相似,Konstantina是一位爱笑、开朗且富有冒险精神的希腊女生。她是一名年轻的Z世代创业者,去年入选福布斯欧洲“30under30”科技精英。 图源:Konstantina Psoma领英 Konstantina毕业于雅典国立技术大学和英国布里斯托大学,在17岁独自离开雅典去英国读书。做3D AIGC源于她在大学时学习3D建模和3D动画学习的挫败。“这能有多难?”Konstantina自信地打开Autodesk Maya(一款3D动画软件)后又沮丧地发现,“非常难,软件的学习曲线非常陡峭。” 别的同学选择建模简单的咖啡馆和公寓大楼,Konstantina选的是城里最大的建筑——细节复杂繁琐的布里斯托尔大教堂。一顿操作猛如虎,费心渲染3个月,电脑崩溃好几回,最后成绩不及格。 图源:维基百科,图为Bristol Cathedral “Maya里面成百上千个按钮,我在里面迷路了。我花了一周时间才建一把椅子,”Konstantina复盘整个过程,发现将大教堂变成3D动画的过程非常重复、耗时,“然而一张静帧状态下的3D视频游戏画面里,至少有数百个3D物体。” 不仅如此,3D建模设计需掌握大部分软件,创作者有一定美术基础后操作模型、材质、贴图、灯光、渲染才得心应手。为了找到更轻松的建模“魔法”,Konstantina和专业从业者进行了交谈。她发现,无论是3D设计师还是游戏开发者,都透露了一个问题:3D创作流程对游戏行业来说,是一个巨大的瓶颈。即使采用了先进的游戏引擎,开发者仍需投入大量时间和精力来优化和调整,以确保最终产品质量。 她不敢想象,在大多数人讨论VR、AR的2019年,游戏内难以计数的3D资产仍在靠手工建模。如果连大规模生成3D数字内容都无法做到,那如何实现真正的数字3D体验? 一个简单的创业想法在她脑中形成,“我们可以帮助游戏开发者、3D打印厂商、产品设计师加速他们的3D资产生产流程。”Konstantina将读研期间的研究重点放在了2D到3D的深度学习方向上,她和团队致力于构建机器学习算法,将草图和照片的2D输入转换为3D模型。其想法也引起了PlayStation游戏部门前负责人、她导师 Shawn Layden的注意并加以指导。 2020年2月,Kaedim作为英伟达人工智能初创企业孵化计划的一个项目成立。 “初创公司就是一个宏伟的idea,全世界都以为你疯了,但是你得有自信。”尽管只是一个项目,她们以公司名义与许多游戏工作室交谈,洞察其制作流程,看产品想法是否符合工作室已有作品。Konstantina通过调查发现,在创建3D内容的概念艺术、3D建模和纹理制作过程中,建模是劳动强度最大的部分,而且游戏制作总成本的25%到60%都用于3D建模。 “那些工作室认为,‘你给我一个现成的3D模型,我们才会考虑调整一下使用’,”Konstantina很快意识到,文生3D、3D生3D对大部分游戏公司行不通,她选择了2D生3D的产品思路,用以加速工作室的生产并帮助他们节约成本。 21岁的Konstantina提出的解决方案吸引了Aardman公司(制作《小羊肖恩》的动画公司)的合作意向。她们最终在学校的新企业竞赛中获胜,也顺利地获得了第一笔投资,来自英国游戏开发商Rebellion Games的联合创始人Chris Kingsley。 知名游戏团队Epic Games在早期阶段助力了Kaedim的人工智能技术开发,与此同时,Konstantina正式筹到了第一笔资金持续创业。2021年,他们推出了第一版Kaedim网络应用程序并开始了销售,和Quell(YC 21)等10家公司做试点计划。 图源:Kaedim 看得出来,Kaedim在早期吸引的客户都较为成功,但投放产品时一波三折。 Kaedim开放测试版后,数以千计的新用户加入了他们的Discord,很快多数用户对其发出质疑声,Kaedim并非完全AI生成,而且AI生成的质量低。404 Media的报道表示Kaedim的3D转换实际上是由人类设计师从头开始完成的,没有使用任何AI——他们聘请了“质量控制员”,薪资为每个模型1-4美元,负面报道接踵而至。 Konstantina即刻回应,质量控制工作对他们来说至关重要,能为算法创建反馈循环。因为AI算法的输出不稳定,需要质量控制员检测以达到标准,才能反馈给用户进一步编辑和添加纹理。她的目的始终是提速3D生产流程,“(2022年)整个过程平均用时15分钟,与手工工作相比,速度提升10-20倍。”按她计划,随着算法的进步,这个流程要在缩短至1分钟内完成。 解决了质疑声音,Kaedim在2022年的10月筹集了种子轮,并获得了Little Buffalo Studios艺术工作室、3D打印公司Nakkara、游戏或影视公司Netflix、Voodoo、Upland等的合作机会,并成功在2024年获得A16z的青睐,筹得最新一轮1500万美元。A16z称其为“3D世界的下一代合作开发平台。” 在Konstantina看来,随着元宇宙和数字空间的概念火热起来,3D建模的需求只增不减。目前公司员工已从最开始的2人增加到50人,还在持续增员中。 3.给游戏开发商提速10倍 该公司不提供免费试用,涉及上色、修整模型的步骤都要求付费,起步价300美元/月。这也是Kaedim被大量吐槽的一个点,但这不耽误多数3D设计师对其一探究竟。 图源:Kaedim 在其discord社区内,“show your model”话题内有大量用户展示模型效果。例如活跃用户liamine创了个“高达”系列,他使用Kaedim2D渲染生成3D建模,在Blender 3D完成动画、纹理和渲染,产出了高质量结果。 00:59 来源:discord用户liamine话题页分享 再从合作案例来看其具体效果,Kaedim从设计师或开发人员已知的困境提供解决方案。 “我们为游戏开发商的3D资产创建管道提速10倍。”Kaedim团队称。游戏是Kaedim生成资产的主要应用行业,他们服务过AZRA、Myth、Upland、Voodoo(法国知名休闲游戏公司)、Voldex等。 图源:Kaedim 一是弥补时间、资源和制作难度的差距。3D工作流程长,建模成本高,资产制作慢是行业共识。据透露,即使是小制作的3分钟3D动画成本也是数十万元甚至更高。然而受限于规模、项目架构、制作周期等因素,3D制作的成本无法具体到准确市场价格。 Kaedim瞅准了这一点,他们会帮动画工作室补齐3D资产短板。Myth是一家伦敦动画工作室,与芬达、Pixelart等合作过商业动画,主要接单基础图形、插画动画等2D动画业务。据介绍,他们的设计人员在Cinema 4D创建3D动画资产时耗时多,往往需要一天或半天时间,使用Kaedim则可以将时间控制在15-30分钟,几小时内创建多个网格,“我们每周可以制作一部新的动作测试/小短片。” 00:06 来源:Kaedim,Myth与其合作的短片 二是提供资产创建管道,简化开发流程,创建无缝的桥梁。火爆一时的《赛博朋克2077》总成本4.5亿美元,光是更新和补丁费用都是4100万美元。据GameLook介绍,在游戏开发领域中,美术部会扮演“吞金兽”的角色,在3D开放世界、2D卡牌游戏中,美术常占据核心开发团队的70%以上。游戏领域对3D资产要求高,即使是AIGC时代来临,批量生成建模粗糙、缺少细节、结构扭曲的资产也无法提升效率。 所以,Kaedim将AI集成至工作流程中提高效率,如其与Upland的合作。Upland是一家区块链虚拟财产交易游戏,已有虚拟资产超400万个,加上Upland还在培养UGC社区,为促进游戏体验,他们对3D资产创建的数量和速度上有要求。据介绍,Kaedim为他们添加了自动纹理、UV展开和LoD(细节层次)等功能。 图源:Kaedim,与Upland合作的3D资产示例 “Kaedim帮助我们扩大了游戏内3D资产的生产规模,同时扩大了UGC平台。”据Upland案例描述,Kaedim给其图像到网格技术提供了解决方案,消除了手动灰度模型的步骤。原本需245天(非AI)生产的70个模型仅用70天完成,利用AI驱动3D的流程,将5000个特色图腾生命形态的生产时间的生产时间缩短72%。 但在工作原理上,Kaedim强调公司是将AI和人类专业知识相结合,并非全然依靠AI生成。原本,在2022年8月时,Kaedim的对外宣传都是“几分钟生成定制的3D模型”、“自动化3D建模”等,如上文所述,在2023年9月媒体透露Kaedim会有人类艺术家进行质量控制后,官网对说法进行了回应和更正。 Konstantina Psoma在Medium发文表示,人工质量控制有助于训练算法:“3D团队成员对公司来说非常重要,他们与机器学习工程师共同提供技术反馈。”此外,他们与3D设计师合作优化可用、可即刻投入的3D资产,确保输出的3D素材符合行业标准。 在过去的一年里,Kaedim发布了自动化工具套件,包括自动纹理、自动UV和生成LoD(细节层次)功能,添加了3D资源“预修改器”以便客户自定义工作流程。此外,Kaedim的目标行业不仅是游戏,还可以完成室内设计、电商等公司的资产需求。 “我们的技术发展还有很长的路要走,实现构想的未来3D建模工作流程。我们将始终专注于客户,埋头苦干,不断构建。” 尽管Konstantina后来知道了3D建模确实没有快速秘诀,但她正在塑造这个平台加速建模流程,以便人们想到快速生成3D资产时,只需要念一句魔法口诀:Kaedim。
AI时代新风口!吴恩达亲授智能体四大设计模式
AI时代的风口在哪里? 吴恩达认为,AI Agent将在今年推动人工智能的大规模进步。 ——甚至,有可能超过下一代基础模型所带来的影响。 他希望所有从事人工智能工作的人,都能关注AI智能体的发展。 Andrew Ng 大佬「退役」后,作为专业的「教书先生」,仍然孜孜不倦,授业传道解惑。 最近在工作之余,吴恩达连续分享了很多关于智能体的见解,并定义了AI Agent的四大设计模式, Reflection(反思)、Tool use(工具使用)、Planning(规划)和Multi-agent collaboration(多智能体协同): -反思:LLM检查自己的工作,并提出改进的方法。 -工具使用:LLM利用Web搜索、代码执行或任何其他功能的工具,来帮助自己收集信息、采取行动或处理数据。 -规划:LLM提出并执行实现目标的多步骤计划(比如一篇论文,首先写大纲,然后搜索和研究各部分内容,再写草稿)。 -多智能体协作:多个AI agent协同工作,分工任务,讨论和辩论想法,提出比单个智能体更好的解决方案。 智能体工作流 我们大多数人使用LLM通常是zero-shot模式,模型根据提示逐个输出token,没有返回修改的机会。 ——这相当于要求人类从头到尾一口气写完一篇文章,不允许回退,——尽管是个比较困难的要求,不过大模型们目前都做得非常出色。 但事实上,我们人类正常的工作流程一般是迭代式的。 比如对于一篇文章,可能需要: 计划一个大纲;通过网络搜索来收集更多信息; 写初稿; 通读初稿,发现不合理的论点或无关的信息; 反复修改...... 这种工作模式对于人类写出好文章至关重要,——那么对于AI来说,是不是也应如此? 前段时间,世界上第一个AI程序员Devin的演示,在社交媒体上引起了轰动。 吴恩达团队于是研究了多个相关算法,在HumanEval编码基准测试中的表现,如下图所示: 在zero shot的情况下,GPT-3.5的正确率为48.1%,GPT-4的表现更好,达到67.0%。 然而,加入了迭代智能体工作流程之后,GPT-3.5的正确率直接飙到了95.1%,——Agent工作流效果显著,而且GPT-3.5比GPT-4得到的提升更加可观。 目前,各种开源智能体工具和相关研究的数量正在激增,擅于利用这些工具和经验,将使你的LLM更加强大。 Reflection 反思,作为容易迅速实现的一种设计模式,已经带来了令人惊讶的性能影响。 我们可能有过这样的经历:当LLM( ChatGPT/Claude/Gemini等)给出的结果不太令人满意时,我们可以提供一些反馈,通常LLM再次输出时,能够给出更好的响应。 ——如果这个反馈的过程留给LLM自己执行,是不是会更好?这就是反思(Reflection)。 以编码任务为例,可以通过类似的提示,让LLM反思自己的输出: 这是用于任务 X 的代码,仔细检查代码的正确性、风格和效率,并就如何改进它提出建设性的批评。 接下来,将之前生成的代码和反馈放进提示的上下文,并要求LLM根据反馈重写代码。 当然,我们也可以利用一些评估LLM输出质量的工具,使上面这个过程更进一步, 比如通过单元测试检查代码在测试用例上的结果,或者通过web搜索来比对输出的正确性。 此外,也可以像上图那样,使用多智能体框架实现Reflection:一个负责生成输出,另一个负责对输出提出建议。 如果诸位对Reflection感兴趣,这里推荐下面几篇文章,可以提供更多相关的知识: 论文地址:https://arxiv.org/pdf/2303.17651.pdf 论文地址:https://arxiv.org/pdf/2303.11366.pdf 论文地址:https://arxiv.org/pdf/2305.11738.pdf Tool Use 工具使用,LLM可以调用给定的函数,来收集信息、采取行动或操作数据,——这是AI智能体工作流的关键设计模式。 最常见的例子就是LLM可以使用工具,执行Web搜索或执行代码。事实上,一些面向消费者的大型公司已经采用了这些功能。 比如如果你问Copilot这样的在线LLM:「最好的咖啡机是哪一款?」,它可能会决定进行网络搜索,并下载一个或多个网页以获取上下文。 毕竟,仅依靠预训练的Transformer来生成输出答案是有局限性的,而提供Web搜索工具可以让LLM做更多的事情。 LLM使用特殊的字符串,例如 {tool:web-search,query:coffee maker reviews} ,以请求调用搜索引擎。 后处理步骤会查找字符串,调用具有相关参数的Web搜索函数,并将结果附加到输入上下文,传递回LLM。 再比如,如果你问,「如果我以12年复利7%,投资100美元,最后会获得多少收益?」, LLM可能会使用代码执行工具,运行Python命令来计算:{tool:python-interpreter,code:100 *(1+0.07)**12}。 现在这个过程更近一步,我们可以搜索不同的来源(Web、Wikipedia、arXiv等),与各种生产力工具交互(发送电子邮件、读/写日历条目等),并且我们希望LLM自动选择正确的函数调用来完成工作。 此外,当有太多函数可供使用时,无法将所有函数都放入上下文中,这时可以使用启发式方法,在当前处理步骤中选择要包含在LLM上下文中的最相关子集。 事实上,当有太多的文本无法作为上下文包含,检索增强生成(RAG)系统也是采用同样的方法,选择要包含的文本子集。 这里同样推荐几篇相关文章: 论文地址:https://arxiv.org/pdf/2305.15334.pdf 论文地址:https://arxiv.org/pdf/2303.11381.pdf 论文地址:https://arxiv.org/pdf/2401.17464.pdf Planning 规划,使用LLM将目标任务分解为更小的子任务,然后自主决定执行的步骤。 例如,如果我们要求智能体对给定主题进行在线研究,LLM可以将其拆解为特定的子主题、综合发现、编写报告。 曾经,ChatGPT的发布让很多人经历了「ChatGPT时刻」,AI的能力大大超出了人们的预期。 ——而类似的「AI Agent时刻」,也许很快就会到来。 吴恩达回忆了之前的一次现场展示,因为网速问题,Agent的Web搜索API返回了错误,——眼看就要被公开处刑,Agent居然转到了维基百科的搜索工具,最终完成了任务(救大命了)。 吴恩达表示,看到一个Agent以出人意料的方式执行任务,并获得成功,是一件美好的事情。 不过也有网友表示,大事不好啦,Agent失控啦! 现实中,有许多任务无法通过单个步骤或单个工具调用完成,但Agent可以决定要执行哪些步骤。 例如,要求智能体参照一张男孩的照片,画一张相同姿势的女孩的照片,则该任务可以分解为两个步骤:(i)检测男孩图片中的姿势,(ii)以检测到的姿势渲染女孩的图片。 LLM可能会通过输出类似 {tool:pose-detection,input:image.jpg,output:temp1 } {tool:pose-to-image,input:temp1,output:final.jpg} 这样的字符串来指定计划。 Planning是一种非常强大的能力,不过它也会导致难以预测的结果。 吴恩达表示Planning仍是一项不太成熟的技术,用户很难提前预测它会做什么,——不过我们可以期待技术的快速发展来解决这个问题。 这里同样推荐3篇相关的优秀工作: 论文地址:https://arxiv.org/pdf/2201.11903.pdf 论文地址:https://arxiv.org/pdf/2303.17580.pdf 论文地址:https://arxiv.org/pdf/2402.02716.pdf 参考资料: https://twitter.com/AndrewYNg/status/1779606380665803144
Nothing 新耳机发布:新配色亮了,还和 GPT 有联动
「什么都没有」公司 Nothing 旗下产品总是以酷炫吸睛的设计,获得不少热度。不过说到产品力本身,似乎总是「差强人意」,亮点不多。 不过最新的耳机产品 Nothing Ear(a) 和 Nothing Ear 或将改变这个局面,外媒在体验过后,普遍都给出了好评。 与耳机一同到来的是,Nothing 为 Nothing Phone (2) 带来集成 ChatGPT 的更新,并且,这两款新的耳机可以以语音方式和 ChatGPT 交互。 ▲ 图源:Wired 「小品牌」耳机也能和大厂掰手腕? Nothing Ear 第一款产品 Ear(1) 不能算是一次非常成功的尝试:bug 不少,音频素质一般,降噪效果也不优秀,到最后,设计成了最大亮点。 而 The Verge 测评后表示,经过两次迭代后,Nothing Ear 已经从「堪堪可用」进化到「用着不错」的产品,作为旗舰产品,NothingEar 延续了前代 Ear(2) 的价格,售价 149 美元,国行售价 999 元。 同样延续的还有设计。也许 Nothing 对其耳机的设计十分满意,最新的 Nothing Ear 和 Ear(1)、Ear(2) 外观上几乎别无二致。如果将三代 Nothing Ear 混在一起,也许很难分辨出哪一代是最新的 Ear。 ▲Ear 和 Ear(2) 用的真的不是同一张图吗 Nothing Ear(a) 则是一条新的产品系列,(a) 的后缀表明,这款耳机是一款「青春版」,对比 Nothing Ear 配置上会有所削弱,与之对应的是 99 美元和人民币 699 元的更低价格。 Nothing Ear(a) 耳机本体上的设计也几乎和 Nothing Ear 一致,不过充电仓则使用了全新设计,比 Nothing Ear 更扁更小巧,据悉设计灵感来自「药片盒」,耳机规规矩矩排列其中,少了 Nothing Ear 和数字系列耳机对角放置的一丝「酷炫感」。 不过 Nothing Ear(a) 上迎来了一个「违背祖训」的决定:带来了 Nothing 常规黑白二色之外的黄色配色。 鲜艳的黄色与 Nothing 科技感十足的透明设计相搭配,还是相当惊艳的,也为 Nothing 产品注入了一丝从未有过的「卡通感」。 虽然外观上变动不大,但是 Nothing Ear 内部经过了重新设计,配备了 11 毫米动态驱动器,还加入了全新的陶瓷隔膜作为驱动材料,这种比较少用于耳机的材料,会使每个耳机内的气流增加 10%,减少失真,清晰度更丰富。 Nothing Ear(a) 作为「青春版」,在驱动材料上采取了更加传统的 PMI + TPU 隔膜,不支持旗舰系列标配的 LHDC 5.0 解码协议,没有 Nothing Ear 的自动 ANC 算法,电池续航略弱,也无法如 Nothing Ear 一样在手机上通过 app 自定义均衡器。 不过,除了上述这些配置外,Ear(a) 和 Nothing Ear 在规格上几乎没有其他区别,并且都支持 45db 的降噪效果,这也使得 Ear(a) 俨然变成性价比之选。 ▲如果不是 Ear(a) 独占黄色,也很难分清 Ear 和 Ear(a) 耳机本体的区别(图源:The Verge) Wired 杂志也认为 Ear(a) 更值得购买,因为这两款耳机在听感上非常接近,而 Ear(a) 价格还要低个 50 美元,还有更特别的黄色配色可选。 如果和苹果和三星耳机对比,Nothing 这两款产品还有优势吗?The Verge 认为和这两家在无线耳机领域的头部企业产品对比还是有点太勉强,不过 Nothing 价格更便宜,在音质和综合体验上,也已经能和不少大厂的同类产品掰掰手腕了。 AI 功能或许还只是噱头 在耳机发售这天,Nothing 还推出「史诗级更新」:Nothing 将集成 ChatGPT,Nothing Ear(a) 和 Nothing Ear 两款新品支持以语音的形式和 ChatGPT 交互,而以前的耳机产品 Ear(1)、Ear(2)、Ear(stick) 也将会在日后更新支持。 新推出的 Nothing Phone(2) 系统更新将集成 ChatGPT 的功能,日后还会来到 Nothing 另外两个型号 Nothing Phone(1) 和 Phone(2a) 上。 通过 Nothing 旗下的耳机管理 App Nothing X,Nothing 的耳机将能够和 ChatGPT 对话,捏合耳机柄还将能快速呼出 ChatGPT。 不过,从目前的情况来看,Nothing 称其「集成 ChatGPT」可能有点言过其实,首先就体现在 ChatGPT 并非整合进入了系统底层,而是还需要用户单独下载客户端,才能支持系统级的功能。 而这些「系统级」的 ChatGPT 功能适配,Nothing 更像是为 ChatGPT 提供了不同的进入和使用快捷方式:不同启动模式的小组件,截图和粘贴板提供粘贴 ChatGPT 的快捷方式等等,老实说和 AI 手机的还差有点远。 ▲ 在 Nothing Phone (2) 上的 ChatGPT 小组件 而 ChatGPT「语音交互」则更像是噱头,作为一个主要以文字输入和输出为主的平台,ChatGPT 在耳机交互中恐怕不会有很好的体验,毕竟现在 GPT 的回答总是长篇大论,即使 GPT 支持语音播报,最终可能还是要拿出手机看看它刚刚说了什么。 所以说,耳机呼出 ChatGPT 的功能,本质上和耳机呼出 Siri、小爱同学这些语音助手没有太大区别,并且这些语音助手还能回答实时天气状况,或者帮你放歌。 ▲Nothing Ear 耳机产品的 ChatGPT 语音交互功能 Nothing 作为一家成立年份并不长的企业,无法像一些手机厂商一样老早布局 AI,形成技术积累,能够把大模型深度融合进入系统底层,因此直接投靠现成的大模型也是比较好的做法。 同样是接入第三方大模型,三星 Galaxy S24 搭配 Galaxy Buds 耳机,则可以实现实时翻译等功能,灵活性比单纯呼出聊天机器人更高。 Nothing 也表示,会在日后将 ChatGPT 更深入集成入系统,将会为其嵌入「系统级的入口」,也许对 Nothing 来说,耳机快捷呼出 ChatGPT 只是其 AI 策略的第一步。
54位大咖演讲精华!中国生成式AI大会圆满收官,TOP50企业榜单揭晓
作者 | 智东西编辑部 爆!爆!爆!好火爆的一场AI主题盛会。 智东西4月19日报道,为期两天的2024中国生成式AI大会,今日在京圆满收官。 54位产学研投嘉宾代表全程干货爆棚,报名咨询人数逾5200人,超过1800位观众到场参会,线上观看人次更是超过850万。 参会观众们的热情溢满了1230平方米主会场,连分会场收费制的具身智能、AI智能体技术研讨会和免费开放的中国智算中心创新论坛都座无虚席,展区附近交流讨论声此起彼伏。 ▲中国智算中心创新论坛座无虚席,连追加两排座椅,还有不少观众站着听会 还有多个“行业首发”:会上,2024「AI生产力创新先锋(AiiP)-中国生成式AI企业TOP50」正式揭晓,李未可科技发布面向眼镜等未来终端定向优化的自研WAKE-AI多模态大模型,58同城宣布其大语言模型平台今晚将上线Llama 3。 ▲智一科技联合创始人、智车芯产媒矩阵总编辑张国仁公布年度榜单 大会以“重构世界 奔赴未来”为主题,聚集54位产学研投嘉宾代表同台共探生成式AI全产业链的发展现状与未来趋势,为业界把握时代脉搏提供原创性、高质量的洞见参考。 清华大学计算机NLP实验室是国内开展NLP研究最早、深具影响力的科研单位。清华NLP实验室的学术带头人——欧洲人文和自然科学院外籍院士、清华大学人工智能研究院常务副院长孙茂松教授,为生成式AI大会作开场报告。 孙茂松分享道,通用人工智能已开始登上历史舞台,生成式AI会开启人类全新的创造模式。原来的创作往往是从人类创造的现实空间出发,现在机器创造了更大的现实可能空间,使人们能通过鉴赏选择和修改提升进行创作。 当前生成式AI的基本定位是启发、辅助人类,不会取代人类,因为其均属于概率式方法范式,兼具创造与幻觉一枚硬币的两面,难以精确操控。生成式AI面临的近期挑战,一是走向多智能体,需要让模型在尽量减少人为干预的情况下完成某些任务更加“靠谱”,二是走向具身智能,其中的关键难点是如何有效建立可计算的世界模型。 ▲欧洲人文和自然科学院外籍院士、清华大学人工智能研究院常务副院长孙茂松 国内资深大模型行业投资人,“清华系”、“北大系”、“前大厂高管”等光环加身的明星创业者,国内外顶级AI大厂的资深算法专家,三大国内头部AI研究机构的科学家与青年学者,最懂AI基础设施的大厂与创企嘉宾代表,异军突起的爆款AIGC应用先行者,他们悉数而来。 大会首日,25位嘉宾畅谈大语言模型、视频生成、具身智能、音乐生成、世界模型、垂类行业大模型、AI全栈软件、加速大模型端侧部署等前沿议题。(生成式AI大会沸腾北京!从Sora到具身智能,25位大佬密集输干货) 今日,来自生成式AI前线的学术代表、商业领袖、技术专家、青年学者们,继续分享对关键技术创新、全栈软件及智算基础设施升级、AI应用落地探索实践、可持续商业模式的趋势洞察。其中多位嘉宾cue到了昨夜新鲜登场的Llama 3。 一、AI Infra专场:攻克这些“基建”挑战,才能通往高阶AGI 顶尖大模型的强大性能,不止有赖于技术研发实力,还需要扎实的工程功底。底层算力基础设施和AI软件基础设施的升级,都在加速大模型训练与部署的过程中发挥了关键作用。 开源大模型领导者Meta最新发布的开源力作Llama 3 8B和70B,再度例证攻克“基建”难关何其重要。据Meta披露,两款模型是同体量中最好的开源模型,Llama 3 400B还在训练中;Llama 3用两个定制24K GPU集群进行训练,训练数据量逾15T tokens,比Llama 2的7倍还多。 ▲Meta研究团队在4月15日评估了预训练和Instruct版中经过部分训练的模型,并报告了性能数据 这背后,Meta采用指令微调技术来改善对话效果,并结合了数据并行、模型并行、流水线并行三类并行方式来训练Llama 3,再加上其他优化策略,综合训练效率比Llama 2提高了约3倍。 在大会AI Infra专场,来自潞晨科技、NVIDIA、星环科技、中科加禾、天津大学&派欧云、阿里云、焱融科技、Zenlayer的嘉宾代表,分享了类Sora开源架构、大模型全栈AI解决方案、应用开发工具链、编译器、分布式算力网络、高效存储等方向的技术、挑战与策略。 新加坡国立大学校长青年教授、潞晨科技创始人兼董事长尤洋谈到模型训练流程开源的重要性,包括模型架构、模型权重、训练细节、数据处理等。正如Meta最新发布Llama 3,其超过4000亿个参数的版本开源后,将造福大量开发者。 面向视频生成领域,他认为现在正处于“GPT-2时刻”,还没有出现成熟的应用。尤洋带领团队开源的全球首个类Sora架构视频生成模型Open-Sora采用STDiT架构,相比DiT成本大幅降低。Open-Sora未来的发展方向主要是完善数据处理流程以及训练视频压缩Encoder。 ▲新加坡国立大学校长青年教授、潞晨科技创始人兼董事长尤洋 NVIDIA解决方案架构与工程总监王淼谈到大语言模型生态系统四大趋势,一是新基础大语言模型发布提速,最新代表便是Meta刚发布的Llama 3,二是新算子和定制技术持续优化,三是模型规模继续增加,四是从Dense到MoE转变趋势形成。这意味着需要全栈AI解决方案助力模型开发和应用部署。 NVIDIA如何搭建大语言模型基础设施?王淼分享说,NVIDIA为GPU增加的FP8支持相比FP16、BF16实现2倍吞吐性能提升,同时进一步将数据精度缩减到FP4并胜任推理任务。他还分享了NVIDIA在网络基础设施上的布局,包括融合标准以太网连接和专业高性能架构的NVIDIA Spectrum-X以太网平台、助攻大语言模型应用落地全流程的NVIDIA NeMo、NVIDIA Triton推理服务器等。 ▲NVIDIA解决方案架构与工程总监王淼 星环科技大模型产品负责人童欣欣谈道,当下大模型幻觉问题凸显,通用的大模型难以解决特定场景的问题。企业内部落地大模型应用时,可通过组合提示词工程、检索增强、智能体、有监督微调及预训练等不同方式,来解决垂直场景的业务问题。他还表示大模型及应用开发和落地不是一锤子买卖,需要企业级别的长期运维和监控。 Sophon LLMOps是星环科技推出的企业级大模型和应用开发工具链,提供语料知识精细化处理入库、提示词开发、语料数据标注、大模型微调训练、大模型评估部署到大模型应用构建和应用部署上线的全链路工具能力。此外,星环科技还推出大模型和应用开发服务一体机,通过预装Sophon LLMOps工具平台,用户可按需快速的体验大模型开发和应用的全流程能力。 ▲星环科技大模型产品负责人童欣欣 中科加禾创始人、CEO崔慧敏谈道,在AI芯片落地过程中,关键是要构建整个基础软件的能力,从而增强可持续发展能力。正如CUDA成就了英伟达,软件生态成为AI基础设施的标准和竞争优势,决定了芯片的可用性和市场接受度。 崔慧敏强调了跨平台编译技术的重要性,对标CUDA层次,能跨多种芯片的底层编译工具是解决国产芯片长期可持续的重要基础能力。中科加禾利用编译技术构建的大模型推理引擎可以实现一套软件对多种AI加速卡的支持。 ▲中科加禾创始人、CEO崔慧敏 天津大学计算机科学与技术学院教授、PPIO派欧云首席科学家王晓飞分享了三个AGI时代的思考:首先,计算与算力供需长尾化且分布不均;其次,计算任务和需求是否完美匹配、能否精准调度;第三,“核心+边缘”分层协同的算力网络计算范式及算力经济。 基于上述思考,他认为要搭建AGI Infra,分布式算力网络是云边端协同计算基础设施的收敛形态。PPIO推出的“派欧算力云”覆盖全国数千个分布式算力节点,通过智能调度和推理加速技术,可以实现算力性价比提升数十倍,推理成本大幅度降低。 ▲天津大学计算机科学与技术学院教授、PPIO派欧云首席科学家王晓飞 阿里云高级技术专家、阿里云异构计算AI推理团队负责人李鹏谈道,大模型的发展给计算体系结构带来了功耗墙、内存墙和通讯墙等多重挑战。其中,大模型训练层面,用户在模型装载、模型并行、通信等环节面临各种现实问题;在大模型推理层面,用户在显存、带宽、量化上面临性能瓶颈。 对于如何进一步释放云上性能?阿里云弹性计算为云上客户提供了ECS GPU DeepGPU增强工具包,帮助用户在云上高效地构建AI训练和AI推理基础设施,从而提高算力利用效率。目前,阿里云ECS DeepGPU已经帮助众多客户实现性能的大幅提升。其中,LLM微调训练场景下性能最高可提升80%,Stable Difussion推理场景下性能最高可提升60%。 ▲阿里云高级技术专家、阿里云异构计算AI推理团队负责人李鹏 焱融科技CTO张文涛解读了存储对大模型训练和推理的重要性,从数据加载、协议、模型加载到Checkpoint保存等,过程中存在大量小的读写请求、GPU传输等。对于多模态大模型,高性能存储对训练的提升效果更好,效率可提升20-40%。 针对训练推理,焱融科技推出了多云存储解决方案,基于统一的数据湖底座,通过数据编排将数据按需加载到数据中心,并异步将新增的模型数据推到数据湖。数据加载支持对接OSS、COS、BOS等各大主流对象存储平台。 ▲焱融科技CTO张文涛 Zenlayer行业拓展总监陈秀忠谈道,通往更高级AGI的挑战在于更即时的交互、更广的数据、更广的算力。因此,面向AGI的全球边缘云方案需要考虑支持实时交互的全球网络、数据本地存储和全球流动、大量的边缘节点。 专线对中国企业在海外部署关键应用十分重要。陈秀忠称,安全合规的跨境专线是企业连接全球的第一跳。Zenlayer通过边缘数据中心服务,可为企业提供定制化的机房托管和托管主机解决方案。 ▲Zenlayer行业拓展总监陈秀忠 二、AIGC应用专场:核心问题是高质量数据,3D生成今年将实现真正可用 过去一年,中国生成式AI产业出现很多代表性的商业化探索成果。在手机、互联网、影视、音乐、游戏、金融、电商、文娱、教育、工业、自动驾驶、生活服务等应用场景,搜索、办公、写作、创意到绘画、修图、视频编辑、3D建模等AI提效工具如雨后春笋般蓬勃而生。 探索视频生成和世界模型的极佳科技,用AIGC赋能影视行业的天图万境,将3D生成带入秒级时代的VAST,为生活服务打造垂类大模型的58同城,提供决策式AI和生成式AI相辅相成技术方案的百融云创,打造游戏行业一站式AI赋能平台的行者AI,提供全链路电商内容生成引擎的极睿科技,用AIGC降低音乐制作门槛的灵动音DeepMusic,均在今天下午的AIGC应用专场进行分享。 极佳科技创始人兼CEO黄冠认为,当下所有“通用智能”都在走向“端到端大模型”,一切问题都变成了“高质量数据”问题。“世界模型”是未来具身智能最重要的“高质量数据”来源,它结合互联网数据、仿真数据、遥操数据、真实采集数据等多种数据,学习、训练、组合,从而得到交互式物理世界模拟器。 极佳科技正基于世界模型打造新一代数据平台,面向端到端自动驾驶和通用机器人提供服务。极佳科技DriveDreamer自动驾驶世界模型、WorldDreamer通用世界模型目前已成功商业化落地。 ▲极佳科技创始人兼CEO黄冠 天图万境创始人图拉古认为,AI应该是能够给人们带来温暖、弥合世界的创作工具,而不是取代人工作的的“内卷武器”。因此AI不能离开应用谈技术,而是要建立到应用端的完整产业链。天图万境从AI文本创作,到视频生成,再到服务用户的应用端,打造了全产业链技术解决方案,且都早于国际巨头发布了对应产品,目前正在快速迭代中。 其展示的声音生成工具Sora Opera,可以自动感知、智能识别视频画面中的物理逻辑,精准配出风格多变的音乐音效,为视频增加声音的魅力。还有声音克隆工具SoundMax,它不走传统TTS路线,而是将输入的人声转换成其他声线。这样的人工智能工具,不会让配音演员失业,而是让他们在演绎不同角色时插上飞翔的创意翅膀。 ▲天图万境创始人图拉古 从文字、图片到视频、3D,信息载体不断升级,VAST创始人兼CEO宋亚宸谈道,3D的体验质量、信息密度不断提升且更具互动性。他认为目前3D生成已经达到类似Midjourney V3的效果,今年9月将达到类V4效果,年底达到类V5效果,实现真正可用。 为了应对3D生成创作成本和门槛过高的挑战,VAST将3D内容平台和大众级创作者平台结合。VAST的3D大模型Tripo已实现模型生成数量超150万个。 ▲VAST创始人兼CEO宋亚宸 58同城TEG-AI Lab大语言模型算法部负责人孙启明认为,通用大模型+提示不会代替一切,应用方需要结合自身业务场景,微调出自己的大模型。58同城构建了模型领先、敏捷易用的AI平台,助力AI应用在内部各业务线快速落地。 58同城搭建了一套支持大语言模型训练、推理的平台,集成开源通用大模型,今晚将上线Meta最新推出的Llama 3模型。基于大语言模型平台,58同城已推出了垂类大语言模型灵犀大模型(ChatLing),相比官方开源大模型实现了更好效果。 ▲58同城TEG-AI Lab大语言模型算法部负责人孙启明 百融云创AI创新负责人谈道,生成式AI是AGI的先导,其与决策式AI最大的区别在于问题空间的扩大。传统模型提供的优化候选集合约为数千个。而Llama 2提供词表中包含3.2万个选项,对信息的压缩比达到14倍;刚刚发布的Llama 3候选词表扩充超过了12万个,对信息的压缩比也提升到30倍以上。 面向金融行业,百融云创开发了百融大模型一站式应用开发平台,针对信息安全、复杂沟通等需求构建了BR-Coder编程助手、数字员工和交互式数字人Web-Copilot等应用。 ▲百融云创AI创新负责人分享生成式AI是AGI的先导 行者AI创始人&CEO尹学渊认为,此前AI辅助内容创作在快、好、便宜之间的“不可能三角”,被生成式AI打破了,并为教育、文旅行业开启了交互式、沉浸式新体验。 在他看来,大模型走向落地时,“最后一公里”需要结合具体行业、具体领域工作流,一致、可控、高精度是工业化AI成为工具必不可少的特性。而行者AI的解决方案可以将产品策划、美术总监等用户的工作效率提升3-5倍。 ▲行者AI创始人&CEO尹学渊 极睿科技创始人兼CEO武彬谈道,当下电商行业图文和短视频的内容数量与需求都在大幅上升,内容关联着平台、卖家与买家的核心交易诉求,但内容制作效率严重不足。 成立于2017年的极睿科技专注于打造电商内容生成引擎,推出了ECGPT+FashionCLIP基座模型及多种电商垂直大模型,可支持商品AI拍摄、AI排版上新、AI直播切片、AI生成商品短视频、AI带货、一站式AI技术与数据服务平台、智能商品操作系统等多种功能,目前已合作超4万电商客户。 ▲极睿科技创始人兼CEO武彬 DeepMusic CEO刘晓光分享说,当前的音乐商业格局,主要面向泛音乐爱好者的听歌及浅度实践用户的唱歌消费体验,而中间有1亿以上活跃的音乐人、音乐实践者群体,其需求尚未得到好的产品满足;同时音乐制作流程长、门槛高,这使得音乐AIGC技术有用武之地。 对此,DeepMusic构建了跨平台一站式AI音乐工作站“和弦派”,以更直观的音乐知识呈现、编辑形式,解决音乐中歌词、旋律、伴奏等不同模态之间沟通困难的问题,覆盖音乐创作、制作多个流程;未来DeepMusic也会通过积累的精细化标注数据数据,实现对音频模型的精细化控制。 ▲DeepMusic CEO刘晓光 除了上述嘉宾外,另有7位嘉宾在分会场的中国智算中心创新论坛进行分享,6位嘉宾在分会场收费制的智猩猩AI智能体技术研讨会上输出干货。 智东西后续将整理中国智算中心创新论坛的精华报道,以及部分嘉宾的演讲干货,敬请关注。 结语:下一站,上海见! “我们正站在历史的转折处,见证和参与由生成式AI引领的新一轮科技变革。”智一科技联合创始人、CEO龚伦常代表主办方为大会致辞。 过去一年,生成式AI狂飙突进,整个产业链成为全球创新、投资和应用最活跃的领域之一,每位参与者都在与时间赛跑。作为智能产业的长期观察者,我们期待见证并记录中国生成式AI浪潮之变,并将持续邀请这股浪潮中的生力军们,分享他们最新的技术进展与商业化探索。 今日,为期两天的2024中国生成式AI大会·北京站圆满收官。半年后的11月份,我们将在上海,为中国生成式AI产业再办一场秋日盛会。 除此之外,智一科技旗下AI与硬科技知识分享社区智猩猩将联合智能汽车产业新媒体车东西、芯片产业新媒体芯东西,6月在上海举行中国智能汽车算力峰会,9月在深圳举行第六届全球AI芯片峰会,12月在深圳举行第四届全球自动驾驶峰会。欢迎参会交流。
云鲸逍遥 001 发布:双眼看世界,扫地机也要上 AI
4 月 19 日,云鲸发布了全新的高端扫地机器人系列 —— 云鲸逍遥 001。 云鲸称要做行业第一台能像人一样思考、一样聪明的「全智能清洁机器人」。 对于扫地机器人来说,避让大型家具家电已经不是一个问题,真正难的是类似手机充电线这样纤细物体,一旦扫地机器人吸入,很容易「机毁线亡」。 云鲸逍遥 001 通过利用双目摄像头和即时计算距离的能力,无论是缠绕在一起的电源线或极细的数据线,它都能紧贴边缘平滑地移动。 云鲸逍遥 001 采用了「双芯双目架构」的「全智能空间感知系统」,拥有两个 136° 视场角的摄像头,使其感知能力达到了行业最高水平。 双目识别除了看得更全面,还有看得更精准。双目摄像头 + 结构光传感器的方案,在「逍遥 AI 大模型」的加持下,能识别超过一百种物品。 与行业传统的「假」双目摄像头相比,云鲸逍遥 001 的识别精度达到了 5mm ,障碍物识别能力提升了惊人的 737 倍。甚至还可以检测黑色物体和无纹理物体,实现毫米级别的避障。 2022 年,云鲸就自创「鲸灵托管」系统。现在,云鲸逍遥 001 更是升级至「鲸灵托管 3.0」。配合双目视觉与双芯片的极限能力,云鲸带来了全新升级的自适应动态清洁功能。 云鲸逍遥 001 可以根据脏污情况自动切换清洁模式:面对颗粒物垃圾时能自动增大吸力,而对于液体垃圾则能自动切换成拖地模式。真正做到「干湿分离,科学清洁」。 NarGPT 智能语音助手的加入,让云鲸逍遥 001 支持语音指定地点清洁、语音召唤清洁、以及语音预定清洁。配合用户的各项语音指令,能够自我学习以及配合用户的需求。 NarGPT 还可以结合摄像头来进行复杂交流,具有长对话能力,回答各种问题不在话下。 为了打消用户对隐私安全的疑虑,云鲸采取了多隐私保护措施,并且顺利也获得了德国莱茵国际安全认证。 云鲸逍遥 001 还通过了中国信通院的 4 星+ 的大模型认证,也是目前中国企业取得的最高级别的认证。目前,获得该大模型认证的企业只有八家,而云鲸是其中唯一一家清洁机器人企业。 云鲸特别考虑了宠物家庭的需求,「气旋导流式零缠绕滚刷 2.0」做到了不缠毛发,还能降低噪音。 云鲸逍遥 001 独家设计的集尘风机,采用柔性聚合物,有效隔离集尘风机产生的噪音,实现集尘时最低噪声仅为 71dB。做到了业内效率最高、噪声最小,噪声能量低于行业 3 倍。 全新宠物安全模式可以精准检测宠物移动,主动回扫对应区域,而且还能绕过粪便,让宠物和机器人和谐共处。 瓷砖、地板、毛毯……对于不同的材质,需要采用不同的清洁策略, 为此,云鲸逍遥 001 会根据地板的材质和污渍的程度,自动调整扫拖的方式。它着有行业 TOP 级的动态加压拖地技术,会根据地面材质切换 7-12N 的下压力。 云鲸逍遥 001 还专门带来了「SPA 级地板养护功能」,让地板「越用越亮」,满足用户对于地板清洁和维护的高标准需求。 在基站方面,云鲸也花了很多时间去设计。 为了便于老人使用,避免复杂 App 用不懂的情况,云鲸坚持在基站上面保留了一个触摸屏。 方便女生移动的把手槽、减少占地的包裹型外形……这些设计都体现了云鲸的细致心思,也成为了云鲸的家族式设计。 云鲸深耕「中国人洗拖布的智慧」,通过细细研究中国人洗拖布的流程,采用 45 – 75 摄氏度的动态热水清洗拖布,针对不同污渍还会有不同清洁方式。 在全链路九重抑菌系统的加持下,云鲸逍遥 001 做到了「120 天超长健康集尘」,实现一年仅需倒 3 次垃圾,这对懒人来说无疑是个福音。 为了方便用户能够更好的体验和购买,云鲸还在九个城市开设了十家线下门店,并且未来还会不断拓展。 售价方面,云鲸逍遥 001 基站集尘版定价 5399 元,轻集尘版定价 4999 元。将于 4 月 19 日下午 19 点开启预售,4 月 26 日上午 10 点全渠道正式开售。
云鲸逍遥 001 扫拖机器人:把净这件事细分一下
Failure to apply the principle of least effort is a major cause of design failure. 未能应用最小努力原则是设计失败的主要原因。 设计领域的经典参考书《设计的普遍原则》指出,当设计过于复杂或需要用户投入过多的认知或行为时,用户往往会感到沮丧或困惑,从而导致他们放弃使用产品或服务。 这一原则尤其适用于扫拖机器人。 扫拖机器人诞生的初衷,是要减轻人们在家庭清洁上的负担。但现实中,机器人的使用往往需要用户投入额外的人力:扫前清理地面的障碍、扫时监督它的工作进度,以及扫后还要清洁它的尘盒和拖布。这一系列的动作让人疑惑: 人类到底是被解放了,还是被奴役了?云鲸智能给出了自己的解答: 这台机器的特别之处,在于它的智慧与感知。云鲸逍遥 001 能准确理解家庭的清洁需求,并以一种全自主的方式进行导航、完成清洁。 突破传统的纯白设计,云鲸逍遥 001 首次用上了高雅的深空灰色调。无论是基站还是机器人本身,一如既往的精巧姿态是云鲸对干净、有序环境的追求,以及通过技术简化生活复杂度的愿望。 如果要去评价它,与其说它是个省心至上的清洁电器,我更愿意将它称之为一个家庭新成员,因为它是有头脑、有情绪、有洞察的智慧产物。 识别地面的参差:云鲸首创双芯双目架构 如何及时避让与极限贴近? 这是每台扫拖机器人出厂前的必修课,在地面的清洁工作中,机器人要及时避让人类、宠物这些随时移动的物体,还要用合适的距离贴近线材、鞋子、凳子这些不移动但异形的障碍物。 要避让与贴近,首先得懂识别。 云鲸逍遥 001 配置了一对慧眼,拥有行业最大的 136°*2 视场角。双目识别除了看得更全面,还有看得更精准。 双目摄像头+线结构光传感器的方案,让它识别地面物体的能力达到了汽车驾驶级别。 对比行业传统的避障方案,云鲸逍遥 001 在能精准识别物体之外,还能精确地感知物体的距离,从而实现毫米级别的避障。 就像我们在驾驶新能源车时看到的立体人车识别,云鲸逍遥 001 不仅能够捕捉到各类障碍物的形状和位置,还能够理解这些障碍物在空间中的三维结构。 像是立体识别常见的障碍物——鞋子、椅子、插线板等等,以及其他异形障碍物——玩具、钥匙、文具等等,且不同障碍物则采取不同贴边距离。 但地板上并非只有障碍物,还有会移动的人和宠物。 对扫拖机器人而言,人和宠物的轨迹难以预测。想及时避让就得有超快的计算力,云鲸逍遥 001 要在人或宠物移动到其眼前的 0.1 秒内做到识别物体、算准距离、判定方向、转头走开一系列动作。 对此云鲸逍遥 001 首创了双芯双目智能清洁架构。 它在配置了一对超广视角的慧眼之外,还在主芯片的基础上增加了一颗芯片,专门用于快速地计算物体的边缘距离。 而这颗边缘 AI 计算芯片可提供 4TOPS 自动驾驶级别算力(每秒钟一万亿次计算),最小精度的识别达到了 5mm。这也是迄今为止行业最强大的空间计算能力。 依赖于强大的双芯双目架构,云鲸逍遥 001 彻底减少了清洁过程中的人力耗费。 通常情况下,许多家庭在使用扫拖机器人进行清洁之前,都需要先手动清除地板上的一些小而细的障碍物,例如典型的易缠绕物体如数据线。 但是,云鲸逍遥 001 通过利用双目摄像头和即时计算距离的能力,无论是缠绕在一起的电源线或极细的数据线,它都能紧贴边缘平滑地移动。 极限距离贴近数据线做清洁,真正将洁净做到了毫厘级别。 当面对复杂的障碍物,比如餐桌下的椅子脚,它不是简单粗暴地碰触椅子脚然后调转方向,而是始终保持大约 8mm 的安全距离,避免与椅子脚直接碰撞。然后利用伸出机身外沿的边刷和拖布来带走脏污。 对比一板一眼的 Z 字形行动方式,云鲸逍遥 001 的智能行动不走寻常路。 同时,如果监测到厨房某区域脏污严重,云鲸逍遥 001 会在初次清扫完毕后专门回过头重点清理该区域。而对于那些难以触及的边角位置,它会采用 “扭屁股” 的专有模式,确保任何犄角旮旯都能被彻底清理。 当然,不止于极限避让与贴近,它的「智慧」还显现在清洁策略上。 丝滑行动拖扫闭环:仿人自适应清洁策略 云鲸逍遥 001 的「双目」拥有仿人类的视觉,而它的「手」还会灵活借鉴人类的清洁哲学。 面对不同的污渍和地面材质,负责吸尘的「手」会调节吸力,负责扫拖的「手」也会调整清洁方式和拖扫力度,就如同人类自己面对清洁任务时的灵活多变。 看清楚想策略,灵活变换扫拖。 自 2022 年,云鲸就自创了独有的「鲸灵托管」系统,在云鲸逍遥 001 已经迭代至 3.0,配合双目视觉与双芯片的极限能力,实现了动态视觉脏污闭环。 它会双目即时识别地面上的脏污类型、程度,随即智能切换清洁模式、调整行为参数。 比如养猫家庭经常遇到的猫砂颗粒,云鲸逍遥 001 会自动抬升拖布避免打湿猫砂,用边刷扫入中间并加大吸力吸入尘盒中。 而厨房洒出的酱油之类的液体垃圾,就会自动收起边刷、抬升中扫、用拖布丝滑擦拭干净。 对于不同的地板材质,需要采用不同的清洁策略,以确保地板的美观和延长使用寿命。为此,云鲸逍遥 001 会根据地板的材质和污渍的程度,自动调整拖地的方式。 这样提升了清洁效率的同时,还能确保对地板的精心养护,从而满足用户对于地板清洁和维护的高标准需求。 它有行业 TOP 级动态加压拖地技术,会根据地面材质切换 7-12N 的下压力。 建图之后,机器人会自动识别并保存地面材质,在铺设瓷砖、大理石的客厅增压擦拭,常用木地板的卧室则会自动降低压力,并且还能用选配的 SPA 级养护功能。 安装上养护模块和地板养护剂后,云鲸逍遥 001 会在木地板区域自动养护,让地板常用常新。平面的地板可以清洁,垂直面的踢脚线也不会落下。 云鲸首创的 Smart-Swing 智能贴边清洁,通过侧面安装的拂尘模块,使云鲸逍遥 001 在接近墙边时能够深度清洁踢脚线,同时下压拖布反复拖洗墙壁边缘。这项创新不仅提高了清洁覆盖率,还实现了地面到踢脚线的立体清洁,首次在行业内将清洁效果从 2D 拓展到了 3D 。 让不少用户头疼的地毯区域,云鲸用了高度自由化的方案:用户可以选择直接跨越,机器人会抬起拖布、滚刷,收起边刷横穿地毯。又或者是将其设定成禁区,干脆让机器人不要触及这一区域,比较厚的毛毯也能免于被拖布污染。 把自己当主角思考:独家自清洁模式 在云鲸逍遥 001 的设计中,每一处细节都是对清洁工艺的深思熟虑。 在扫地机器人最后一步工序中,自清洁是否高效直接影响着主人维护机器所需花费的精力。云鲸逍遥 001 能想主人所想,它用独家自清洁模式传递出一种深层的生活哲学: 真正的生活应该净化和更新,而非不断地积累尘埃和杂物。 滚刷是扫拖机器人的重污染区之一,毛发很容易缠绕其中。 若仔细探察云鲸逍遥 001 的底部,你会发现它的滚刷并非传统圆筒形,而是采用了优雅的锥形结构,这样单悬臂固定加上气旋导流式的设计,会让悬空端的气流流速更大。在滚刷旋转的过程中,高速气旋流经滚刷表面时,实时清洁滚刷表面的灰尘,时刻让滚刷保持洁净。 而且滚刷上的毛簇有一定的倾斜,云鲸解释:这是为了避免毛发缠绕打结的同时,加速绕成圈的毛发向滚刷杆尾部脱落而做的特殊设计。 而另一个重灾区——拖布,需要注重洁净,更需要做好抑菌。 基站支持智能调节 45°-75° 的热水洗拖布,在云鲸独家 DirtSense 脏污感应系统的加持下,能主动识别脏污制定清洗策略,用更合适的温度清洗拖布。 对付日常轻微的污迹,它会调用温和的 45° 水温;而面对厨房的油脂,则启动 60° 的热水清洗,确保彻底洗净。扫拖结束为了彻底消毒,基站会用 75° 的水消除拖布上的细菌,保障了清洁后的拖布在烘干前,也能处于无菌的状态。 当所有清洁工作结束,机器人回到基站。你不会听到轰隆隆的嘈杂吸尘声,健康静音基站集尘时最低的噪音仅有 70dB(A) ,而行业普遍在 76dB(A) 以上。 集尘袋的容量大至 2.5L 尘袋结合多重抑菌处理,大约一年只需更换 3 次。 而集尘后所有的垃圾,通过紫外线的照射进行彻底的杀菌处理,再进行 45° 热风干燥处理,以此让不更换集尘袋的 120 天内,垃圾不会滋生细菌或散发不愉快的气味。 捕捉生活的情绪:语音、视频功能 云鲸逍遥 001 不仅是一台清洁机器人,它还是捕捉生活情感的艺术家。 你只要说声 “Hello Navo” 就能唤醒机器人,也可以用模糊的指令让它行动起来,听你说哪儿就去扫哪儿。之所以能理解各类模糊指令和多任务意图,背后要归功于内嵌的云鲸最新研发的 NarGPT 多模态大模型,而这一技术也得到了中国信通院的权威认证。 用上它的双目,从实干的扫地僧变成浪漫的观察者。 它不仅可以在遇到障碍物时实时拍照,并通过手机应用即刻展示,还能从一个独特的宠物视角出发,帮助主人寻找那些不慎遗失的小物品。 更进一步,用它的视频监控功能,让远在异地的你也能通过手控操作,一边指导它完成地面的清洁工作,一边通过屏幕看到地面的即时状态——就像你亲自在现场一样。 当然,如果你选择让它自动进行清扫,同样可以打开视频功能,随时观察家中的情况,无论是检查清洁效果,还是瞄一眼宠物。 在视频隐私方面,云鲸逍遥 001 也获得第三方机构 TÜV 莱茵的隐私保护认证。 而这种设计不仅提升了家庭的智能生活体验,也为用户与家中的每一个瞬间,无论是温馨还是日常,提供了一种全新的记录和连接方式。 云鲸认为一款真正的「全智能」扫拖机器人,要做到感知力、决策力和行动力的完整闭环。 在云鲸逍遥 001 的清洁环节中,从双目识别障碍、脏污、地面并调整清洁模式,到智能规划清扫房间、脏污的最优路径;从对家中环境实时感知精准避障,到在完成清洁后自我清洁的最终步骤,每一步都是环环相扣。这种设计理念和实际效用,正是对最小努力原则最佳的诠释和实践。 当行业还在内卷如何让懒人更懒,让垃圾储蓄容量 bigger than bigger 时,云鲸已经跳出了容量茧房,开始探索清洁智能与家庭环境如何和谐共生。 云鲸始终坚持着「引领科技创新与体验突破,让每个家庭拥有自由美好的智能生活」的使命和愿景。 正是这样的坚持,让云鲸在智能清洁领域持续深耕,走在了智能清洁行业的前沿。 从简化日常清洁工作到提升家居生活的舒适度,让智能服务于人的理念始终贯穿于产品之中,而技术的魅力恰恰在此。 我们也期待在云鲸逍遥 001 之后,云鲸能够继续简化清洁和舒适生活,让用户能够享受每一个被技术隐去繁杂后的智能化生活。
全球体积最小全屋净水系统发布 反渗透滤芯8年不衰减
凤凰网科技讯(作者/孙云瑞)4月18日,安吉尔在北京水立方举办了发布会。发布会上,安吉尔提出了“全球科技领先的净水专家”的战略方向,举行了安吉尔战略联盟发布仪式。还发布了新品——空间大师系列全屋净水,新品获得了由世界纪录认证机构(WRCA)颁发的“体积最小的全屋净水系统”认证。 空间大师系列全屋净水由全屋大水量净水器M7 Home 800和全屋Mini软水机组成。 M7 Home 800搭载独创龙鲸双效净水系统,通过独创双ACF2000复合滤芯实现4T/h大通量,覆盖全屋净水需求;长效反渗透滤芯2.0 Plus总净水量达到64000L,实现净水效果8年不衰减,该滤芯曾荣获2022年中国专利优秀奖。同时,该产品采用APCM航天除菌科技,对ESKAPE超级耐药性细菌去除率达99.99%。 全屋Mini软水机搭载双驱增效软化系统,使水流路径提升约2.2倍,实现双次软化,配合专利平板布水系统,360°无死角喷淋,软化效率高达99.8%,软水流量高达1.5m³/h,可满足双卫软水使用。产品同时搭载IoT智能互联、专利AI智能多路阀等技术,实时监测机器状态,自动定制再生周期的同时有效减小软水机体积。 赵凯表示:空间大师系列深入洞察用户全屋净水痛点,以小型化满足中小户型用户全屋净水需求。
外媒推测苹果今年不会推出iPhone 16 Ultra 等2025年?
当前的手机市场,各个厂商都推出了自家的“Ultra”机型,它们基本上都是定位最高的旗舰机。此前,有消息称苹果也会推出“Ultra”机型,但外媒最新推测,苹果今年大概率不会推出传闻中的iPhone 16 Ultra。 外媒指出,Mark Gurman在2023年2月曾透露,苹果已经讨论过与Pro Max一起推出更高端的Ultra机型,并且可能会在iPhone 16系列上实现这一点。换句话说,他们认为我们可能会看到 iPhone 16 Ultra。考虑到iPhone 16 Pro Max可能比iPhone 16 Pro好得多,苹果也有可能简单地将Pro Max重新命名为Ultra。 外媒认为,鉴于苹果已经推出了Apple Watch Ultra系列,Ultra的名称也很有实际意义。那么,推出 iPhone Ultra也会让这款手机感觉像是三星S24 Ultra更直接的竞争对手,这对苹果来说是理想的选择。 不过,近期关于iPhone Ultra的消息少之又少。在另一家外媒获得的早期iOS 18代码中,仅提到了四款即将推出的iPhone的型号,可能是iPhone 16(D47)、iPhone 16 Plus(D48)、iPhone 16 Pro(D93)和iPhone 16 Pro Max (D94)。 相关报道 最后,外媒总结称:考虑到网络上有关iPhone Ultra的讨论已经平息,并且没有任何真实证据或最近的爆料表明iPhone 16系列中有这么一款机型,我们认为今年不太可能看到iPhone Ultra……考虑到iPhone 16 Pro Max 的传闻规格,你基本上可以将其视为iPhone 16 Ultra。“iPhone Ultra仍然完全有可能在2025年或更远的时间推出,无论是通过品牌重塑还是新型号。”

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。