EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
不随便鼓励明星做内娱活人
1 啥是当下内娱领域,最最困难的叙事? 答:如何成为一个内娱活人。 内娱,活人,这两个看起来十分平凡的词,一旦连在一起,就等于要求一个活人,同时完成身材单薄如纸、情感纯粹如雪、人设活色生香这三个KPI。 经济学大师保罗克鲁格曼,曾与欧元之父罗伯特·蒙代尔共创出一个不可能三角,说的是资本自由流动、固定汇率和货币政策独立这仨事儿三者不可兼得。 但是当内娱活人这三个KPI同时出现,我都觉得,也许内娱活人不可能三角,更不可能一些。 不过,内娱人太想要画出这个不可能三角了,毕竟,往好看的皮囊里硬塞一个有趣的灵魂,就相当于让钱包生出更多的金币。 于是,他们地交出了大量如何成为内娱活人的答卷,演绎出了多款经典错误答案。 比如,纸片人演满级吃货。艺人假扮吃货模样在我们普通人双下巴底下横晃,这是什么行为?是用他们的业余挑战姆们的专业。 再比如,半夜翻字典,白天演学霸。他们努力地复制金句、努力地烹制鸡汤、努力地给分手文案上古诗词,然后被一些稚嫩的提问、较真的考据击垮。大家突然回过神来,发现他们的努力是装出来的,成绩是代工生产的。 再再比如,上了社交媒体,立马恩爱附体的夫妻。明明已经积累了一腔哀怨,还得逼着彼此演绎你侬我侬、至死不渝的的模范夫妻人设。自己信也就算了,还非让网友信。他们自信地以为,在爱情片里没有发挥的演技,在现实生活里一下就能飞升到登峰造极的高度。 以上都是吃瓜群众带过最差的一届,排名不分先后。 这些尴尬现场,绝大多数都是战术性懈怠导致的。当某个“人设”仿佛火了,立刻一大批艺人便蜂拥而上,抱着试试看的心态,给自己也整一个同款。 于是,好不容易出现的一个“内娱活人”,就在争当活人的同质化踩踏中,全军覆没。 2 被点名的差生们,此刻应该三分不甘三分哀怨四分假装漫不经心,看着隔壁直播间的优等生。 直播间的优等生,当你听到这个词儿的瞬间,脑子里一闪而过的是不是只有“一二三上链接”。 别慌,赶紧打开小红书刷新下认知系统。 春节期间,我闲得无聊点进了好几个明星的直播间,发现他们的画风竟然变了! 在小红书支起的“真心话小冒险”的大锅里,明星直播竟然熬出了一个色香味俱全的九宫格。 杨天真那一格,职场味儿简直快溢出屏幕了。 虽然在综艺里,我们已经见识过杨天真的职场哲学,但在直播间看完她现场面试助理,还是会再次被她的犀利征服。被面试的除了三个来连线的打工人,还有屏幕前三十五万的观众。 到底多犀利,你翻翻热心网友总结出的“杨天真送的面试建议”,就能得到延迟体感。 于正那一格,是网红款的八卦味儿。 网友们提的是怎么看待撕番、捧过的演员里谁演技最差这类问题,主打一个贴脸开大。身经百战的于正也扛得住,围绕“谁的名字在前面谁就负责扛剧”疯狂输出,逗得直播间观众直呼带感。 真心话小冒险这种东西,还是看别人玩最有意思。 大张伟那一格,是无法定义的混搭味儿。 精神状态遥遥领先的他依旧是张嘴出梗,“假话不全说,真话说不全”“最累的是不快乐”“新步入职场的人不应该需要的是一句话,而是一笔钱”,打工人听完原地破防。再有粉丝要听《静止》,他火速给整了段京韵大鼓版的,宠粉也不妨碍一身反骨。 钟汉良、王星越、杨迪等直播间也都各有滋味,因为真心话小冒险这个直播组件,他们跟围观群众也有了一种相互链接和赋能的方式。 一群人和另外一群人交汇时,内娱活人就这么热气腾腾地上了桌,拼成了一缕缕人间烟火气。 3 明明都是“明星+直播间”的配方,怎么人家就能炒出有滋有味的九宫格? 可能是姿势不同。 明星直播很普遍,但绝大多数人只是想稳妥地带货、站台或者被动营业。我们打工人都知道,热情这玩儿很难装得逼真。所以,他们的直播间干巴巴的,一点都不带劲,更别说经得起细品或推敲。 这么比起来,小红书直播间的明星显得有劲多了。每个人反正都是做自己、或是做自己擅长的事儿,不用费劲吧啦地经营某个人设,底气足了,也就有血有肉了起来。 不过,在明星直播常态化的今天,这些人怎么突然悟了,我想了很久。 我觉得是找对了容器。 往自己的皮囊里硬塞有趣的灵魂,难免会因为尺寸不合磨得生疼。你把自己投入到一个多样性的容器里,寻找能发现你有趣灵魂的人,成功概率高多了。 很多明星早就开了小红书,在上面分享自己的生活日常,几乎把这里当朋友圈。他们实在太原生态、太生活化了,反差感大到有时候网友都发现不了那就是本人。钟汉良一开始发跑步视频,下面还有人评论“太像钟汉良了”。 不把网友当看客糊弄,将现实和创作用真实拌匀到了一起,这就是内娱活人的味儿了。 4 因为明星没办法随时迁就我的娱乐档期,所以我看素人直播的次数更多。闲得无聊点开小红书就能赶上,好内容还应接不暇,可以归入高性价比消遣活动。 过年那几天,我在小红书看了“国际宫and乡土莉”的直播,两个人聊起育儿内容滔滔不绝,比一般家庭剧精彩八百倍。老粉丝在线求助,问自己的老公死懒怎么破,乡土莉当场揭露国际宫的黑历史。 原来,在线实锤的不一定是黑历史,还可能是甜狗粮。 其实,小红书直播间也不全是家长里短,你可以从诗词歌赋聊到人生哲学,从家居装修聊到科学技术,从田间垄头聊到繁华都市。 有一个素人的直播让我印象深刻,她到底多素呢,素到我想找一张她账号的配图,已经忘了名儿。 但我没忘记,她说热气球这玩意儿其实不能控制方向,可以调整下高度寻找不同风景,或者原地打转。我没忘记,她说这就跟生活一样,人大概率不能控制结果,但总能上上下下折腾做点啥,如果没办法上上下下折腾做点啥,那原地转个身也能换换风景。 世界上最遥远的距离原来是,我在热气球,人家在生活美学。 在小红书直播间,你可以表达真实的自己,可以跳脱直播的剧本,可以发生遥远的共鸣,在这些“可以”的加持下,更多人拥有一些抚慰灵魂的细碎快乐。 什么内娱不内娱,活人不活人的,都在生活里。挺好,谢谢每一个真诚交付自我的人,让直播不再只是一场你上链接,你演剧本,你闹腾就好的单机游戏。 贪财好色的花儿街致力于为大家带来更有价值的阅读。原创转载请注明来源花儿街参考(zaraghost)、作者,侵权必究。 往期热文· 推荐 点击下方图片即可阅读 后台回复「好色」获取有颜色内容 点在看的人怎么吃都不会胖
山姆回应三文鱼不再标注开袋即食:会员体质不同可引起肠胃不适
快科技2月19日消息,据媒体报道,有网友发帖称,在山姆买的一款冰鲜三文鱼包装上已经没有“开袋即食”的字样,推荐的食用方法为“加热后烹饪食用”。 对此,山姆客服人员回应称,三文鱼和之前是一样的,但因为会员个人体质不同,可能引起肠胃不适,所以不建议生食。 有不少网友表示,没有了“开袋即食”,不敢生吃这款三文鱼了。 其实,三文鱼不是单指某种鱼,而是鲑鳟鱼类的商品名,主要分布在大西洋与太平洋、北冰洋交界的水域,属于冷水性的高度洄游鱼类,被国际美食界誉为“冰海之皇”。 “三文鱼”并不是某种鱼类的科学名称,而是对鲑鳟鱼类产品俗称。“三文鱼”最初是由港澳地区的人们根据英文的salmon音译而来。 早期三文鱼只是针对人工养殖的大西洋鲑,随着国内鳟鱼养殖业的发展,十几年前一些鳟鱼养殖场附近地区的餐厅也以三文鱼的名称来销售鳟鱼。 网上流传一种说法,“海水鱼比较干净,能做生鱼片吃,淡水鱼会有寄生虫,不能生吃。” 这种说法是正确的吗? 专家表示,无论是淡水鱼还是海水鱼,都有可能成为某些寄生虫的天然宿主,这是自然规律,并不是说海水鱼寄生虫就比淡水鱼少。因此,海水三文鱼比淡水虹鳟更安全,这个说法并不科学。 那想生吃怎么办呢? 为了保证生鱼片的质量安全,美国和欧洲一些国家早已出台针对性的食品安全法规,规定鱼肉必须预先处理杀死异尖线虫的幼虫。杀死异尖线虫最有效的方法是高温,但为了保持鱼肉的食用价值,目前是以冷冻为主。 美国食品药品管理局规定,鱼肉必须在零下35℃冷冻15个小时或零下20℃冷冻7天后才能食用。 此外,除了满足超低温冷冻的要求,一次解冻后要尽快吃完。千万不能反复解冻、冷冻,否则会滋生细菌,加速鱼肉腐败。
Sora为何未在中国出现?交大天才少年谢赛宁反问我们准备好了吗
天才少年 紧急辟谣 这几天,关于 OpenAI 视频生成模型 Sora 的话题被炒的沸沸扬扬。 不到 48 个小时,Sora 背后的核心团队成员被扒的清清楚楚,团队中甚至不乏 00 后。 当我们还在感慨团队成员的年少有为时,CV 大神谢赛宁却被误传为「Sora 作者之一」,以至于其本人在朋友圈以及「交大校友荟」上紧急辟谣。 简单划重点: Sora 是 Bill(Sora 核心成员负责人之一)等人在 OpenAI 的呕心之作,和谢赛宁一点关系都没有。 对于诞生 Sora 这样复杂的系统,人才第一,数据第二,算力第三。 在问 Sora 为何未在中国出现的同时,谢赛宁反问「我们准备好了吗」? Sora 的创新性和此前的 AI 图片生成不是一个量级的,《真相捕捉》和《黑镜》里讲的故事,很有可能很快变为现实。 谢赛宁之后也会在纽约大学开展一些相关的工作。 目前,发表《震惊世界的 Sora 发明者之一,是毕业于上海交大的天才少年-谢赛宁!》的文章已经「因违规无法查看」。 虽然谢赛宁并不是 Sora 背后的作者,但其也是 AI 界的大神级人物。他曾作为第一作者和 CV 大神何恺明提出了 ResNeXt 深度学习模型。 ResNeXt 提出了一种简化的设计理念,即通过均匀地分配资源到不同的路径上来提高效率,而不是不断加深或加宽网络。这种设计理念为后续的神经网络架构设计提供了新的方向。 目前谢赛宁担任纽约大学计算机科学系助理教授。在此之前,他是 Meta 人工智能研究中心 (FAIR) 的一名研究科学家。 谢赛宁本科毕业于上海交通大学 ACM 班,硕士毕业于加州大学圣地亚哥分校 CSE 系,导师为屠卓文。 在攻读博士学位期间,他还在 NEC Labs、Adobe、Meta、Google、DeepMind 等大厂有过非常丰富的实习经验。 Sora 发布之后,谢赛宁在 X 上对 Sora 进行了一顿分析: Sora 应该是建立在 DiT 这个扩散 Transformer 之上的。简而言之:DiT = [VAE 编码器 + ViT + DDPM + VAE 解码器]。 至于视频压缩器网络,Sora 可能采用了 VAE 架构,但经过了原始视频数据训练。而由于 VAE 是一个 ConvNet,所以 DiT 从技术上来说是一个混合模型。 由于在 Sora 报告中,第一个视频的质量很差,谢赛宁推测 Sora 使用的模型参数大概只有 30 亿 。 这意味着训练 Sora 模型可能不需要像人们预期的那样多的 GPU。因此谢赛宁预计 Sora 未来的迭代会非常快。 有趣的是,在 Sora 发布之前,谢赛宁还在 X 上发布了其最新研究成果 SiT 新模型。 SiT 新模型是一个建立在 DiT 模型基础上的生成模型系列,它和 DiT 模型具有相同的骨干,但质量、速度和灵活性要更好。 论文地址仙人指路👉:https://huggingface.co/papers/2401.08740 谢赛宁朋友圈原文 很少发票圈,如果大家看到这个公众号标题党的离大谱的文章,求一定帮忙点下举报不实信息。如果有认识微信相关部门的朋友也请联系我一下。 Sora 是 bill 他们在 openai 的呕心之作,我虽然不知道细节,但是 bill 告诉我他们每天基本不睡觉高强度工作了一年。跟我的关系是什么呢,只能说是一点关系都没有。标题党 ai 写稿,胡乱挂钩,误导事实,结果也有些阅读量了,希望票圈各位点点举报,不要误解、误传,帮忙想想办法早点take it down. 多说两句。 1.对于 Sora 这样的复杂系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的。 2.在问 Sora 为什么没出现在中国的同时,可能也得问问假设真的出现了(可能很快),我们有没有准备好? 如何能保证知识和创意的通畅准确传播让每个人拥有讲述和传播自己故事的「超能力」,做到某种意义上的信息平权。但是又不被恶意利用,变成某些人某些组织的谋利和操纵工具。oai 有一整套的 redteaming, safety guardrail 的研究部署,欧美有逐渐成熟的的监管体系,我们准备好了吗? 这件事跟技术成熟前,生成点小打小闹的漂亮图片不是一个量级,真相捕捉和黑镜里讲的故事,很有可能很快变成现实。 我之后在 nyu 也会开展一些相关的研究,我想这也是学术界可以为这个时代肩负的重责之一。 3.真是求求了,人到中年,害丢这么大人。拜托帮忙举报下
清华博士李一舟,AI搞钱第一人
作者 | 史慧芳 来源| 创头条 有人说,AI 热潮里,赚到钱的只有卖算力的和卖课的。 这句话不无道理。 AI应用开发者都在替平台打工,平台在替显卡厂打工,最后钱都到了英伟达。 许多估值达数亿美元的AI初创公司,收入几乎为 0 。 国外有一家AI绘画公司,成立4个月就倒闭了。 关门前,创始人痛心疾首地说: 这玩意根本赚不到钱。 国内也有很多AI创业者辛苦地开发应用,要论搞钱,却被一个卖AI课的给秒杀了。 如果你关注科技或AI,你大概率会在抖音刷到过李一舟。 李一舟堪称卖课个体户“天花板”。曾有过靠卖课月入上千万元的战绩。 目前他在抖音坐拥325万粉丝。如今又在朋友圈打广告卖课了。这是要在 新的阵地上开启变现之旅了? -1- 清华美院博士,卖课赚了上千万 近一年多来,短视频平台上掀起一股卖AI课的风潮。一位自称清华博士的大V——李一舟,推出199元的AI课程,在抖音已经吸引了上百万粉丝。 最近,李一舟又开始在微信朋友圈打广告了。这一次,他要卖的是原价999元现价199元的AI课。 噱头还如往常一般,“清华博士教你能听得懂的人工智能课”。而且用上了饥饿营销的手法,“限量前200名同学,每人100万个算力单元”。 近两年来,在知识付费领域,冲出来的网红讲师有很多。 李一舟算是异军突起的一类 , 长期 霸榜 卖课销量 名单。 经常刷抖音的朋友,估计会偶尔刷到李一舟,大力推他的AI课。 就个人观感来说,李一舟最引人注意的标签,是清华大学博士和人工智能。 一提到清华人,大家的印象是务实、低调、技术理想主义者…… 在中国的AI创业大潮中,清华人也往往扮演着“挑大梁”的角色。 当清华博士和AI的标签叠加在一起,李一舟博士的人设也瞬间高大上起来。 不过,李一舟学的专业跟AI八竿子打不着。 李一舟是湖南长沙人,毕业于清华美院,是工业设计和设计创新方法专业、设计战略与原型创新专业的博士。 与很多根正苗红的清华人不同,李一舟本科和硕士就读于湖南大学设计艺术学院。 早在2012年,李一舟就登上《非你莫属》舞台,在节目中舌战BOSS团反被众家企业哄抢,成为“最强势求职者”,自此开始出名。 后来,李一舟创业屡创屡败,直到转战抖音做自媒体教人创业,开始混得风生水起。 清华博士、口才了得,长得还一表人才。 这样的人做自媒体,简直是天选之人。 2021年底,李一舟抓住抖音流量风口,用3个月时间输出创业知识,积累10几万粉丝。 后来, 账号开始起更大的量。李一舟顺势来了波转型,开启他的知识付费之旅。 凭借着抖音创业导师人设,抖音创业课程《一舟一课》大卖,一度冲到抖音创业课程销售榜首。曾拿下4个月变现2300W的战绩,粉丝也长到了一百多万。 2023年初,ChatGPT的流量如山呼海啸一般而来,李一舟果断放弃月销200万的“普通人翻身最后的希望:抖音”,转身推出“一家三口必学的人工智能课”。 不到一个月时间,一套199的GPT课程,就卖了20万份,销售收入超4000万元。 从“抖音大师”瞬间切换到“AI大师”,由“多家亿级企业商业顾问”瞬间切换到“多家亿级企业人工智能顾问”,不得不佩服李一舟抓风口的能力。 -2- 李一舟的自媒体起飞之路 在知识付费这条路上,李一舟绝对是头部主播。有人形容他是“自媒体天才”。 李一舟有着近乎完美的人设: 清华大学博士,三家科技公司创始人,融资数千万,职业经理人,擅长解决AI,商业模式,知识IP和流量问题…… 可以说,几乎满足了大家对于清华、高学历、高知、赚钱、流量的一切想象。 刚开始,李一舟的自媒体之路也没那么顺畅。很长一段时间里,都不温不火。 直到2021年2月14日,他发布了一条跟以前的方向都不一样内容,标题是:35岁之后,有多少朋友和我感触是一样的? 这条视频刚发出去1小时就有4万多播放。李一舟果断给这条视频投流,次日早上,视频播放量变成20万,粉丝量大增。 李一舟判断,这个内容方向或许是抖音想要的。于是他又拍了好几条类似的视频。 比如“ 穷人怎么逆袭”“普通人怎么变有钱”…… 不出意外地,这几条视频中又有一条火了,势头比第一条还要猛。 两天时间,李一舟发了8条视频,有2条爆火,涨粉近10万。 为了抓住了这波流量,李一舟直接在车上开启了直播,一直播了5个小时,回答粉丝的各种问题,下播后粉丝量直接过10万。 自此,命运的齿轮也开始加速转动。 起号成功之后,李一舟正式开启了知识付费之旅。 从卖课到现在,一直都有人骂他,割韭菜、没底线、课程质量差等。 但不得不承认,李一舟在目标人群和游戏规则上,拿捏得很好。 在李一舟的直播间里,他曾经多次提到完全零基础的同学,非常适合学习他这套课程。 他的粉丝画像,是35岁左右的中年人,有的是在家的全职宝妈,有的是有点小钱的小老板……他们有个共同点就是:有点聪明,但不多。 无论看起来多低级、多low的课,只要有人愿意买单,就说明它能解决某部分人的痛点。 同时也告诉我们一个道理:产品只是其中一个环节,游戏规则也很关键。 李一舟“一舟一课”给用户的承诺:每周都给你上一课。这个承诺能让用户感觉到自己在输入知识,这一点是很最重要的。 从2022年9月份开始,李一舟几乎每天都播3个小时,最疯狂的时候,1天会播8个小时,这也让到过直播间的人数从1万变成10万。 此外,李一舟抓风口的能力,也值得普通人学习。AI风口来了,直接开卖人工AI课了,说干就干。 -3- 2024,值得在AI上有所投入 但要避免被“割韭菜” 在这场流量的狂欢中,李一舟博士褪去了文人的脸皮薄,身上多了一副商人的铠甲。 他的成功再次证明,给淘金者卖水、卖地图、卖铲子,比下水淘金的人赚得更多。 自2023年开年不久,ChatGPT爆火,两个月时间全球用户数就突破1亿,而嗅觉最为敏锐的知识付费行业,也在一个月时间内磨好了镰刀。 一位叫鹤老师的卖课人,以前是教人做投资的,也迅速all in AI课。他的《人人必修的人工智能启蒙课》受到1400万粉丝的追捧。 一个名为“诗童AI领学”的抖音号,其上架的《AI新人类商业课》,也获利不菲。 不过,用户对这些课程的褒贬不一。有的被用户直言“水得一匹”“非常的小白级别”,也有人自己就是“韭菜”。 和此前的大数据、区块链、元宇宙热潮一样,ChatGPT火了之后,抖音、快手、知识星球等各大内容平台涌现出一批又一批“AI导师”,相关“课程”不计其数。 这些AI“导师”们的套路万年不变。先立人设,再追热点,接着灌输焦虑,再指出一夜暴富的路径——买课,环环相扣、行云流水。 这几年,抖音卖课培训产生诸多造富神话,除了李一舟,还有大蓝、海参、透透糖等。无论是卖课,还是直播,都是几十万、上百万地进账。 必须要承认目前AI产品所展现出来的能力以及影响,也毫不怀疑AI产品带来的创业机会。 只是绝大部分所谓的“AI课程”,其“含金量”或许根本给不了学员们任何帮助。 为了降低成本,导师们通常会使用质量极低的教学材料,这些材料可能来自于网络上的免费资源,或自己编写的一些简单教程,更有甚者,只做简单的“拼凑”。 有人曾经两度攻击李一舟,第一次说他没真正创过业、却教大家创业;第二次说他清华美术生却教大家人工智能。 尽管网络上各种攻击此起彼伏,但依然阻挡不了李一舟卖课变现的节奏。 任何一个课程或内容,都会有人去反对,去攻击。 对有些人来说,李一舟的课程或许有用,对另一部分人来说,他的课程可能太简单了,难免生出被“割韭菜”的感觉了。 不管怎么说,AI大模型技术已经逐步走进大家的日常生活。 2024年在AI方面投入一些时间学习一下,或者花点钱找一些靠谱人学习AI课,也是值得的。
传2月底大裁员,小米回应:正常年终绩效评估人员调整
集微网消息,此前有小米员工称,小米将于2月底大规模裁员,赔偿标准是N+1,而且“只通知、不协商”。对此,小米集团公关部总经理王化于2月18日在微博发文,强调公司并无任何裁员计划,仅为基于年终绩效评估的正常人员调整。 近日,有认证为小米员工的网友在社交平台上表示,小米在2024年2月29日又要进行一轮大规模的裁员,赔偿标准是N+1,而且只通知,不协商。该网友对此十分感慨:由于3月5日才发年终奖,提前裁员就可以坑员工一波年终奖。该员工还表示,一个大企业搞这种鸡鸣狗盗的事毫无社会责任感。据悉,入职谈薪资时,公司表示该网友是14薪,“强行把月薪压入年终。”“工作一年后,绩效又要看公司脸色,入职3年,年终一次也没有拿全过”。 关于裁员,有小米内部员工向集微网表示,“不是大裁员,每年都会有一定比例优化,这次还是正常比例优化,应该人数很少。” 小米集团公关部总经理王化2月18日发微博称,“过年期间我注意到某职场社交App上出现一则关于我司2024年裁员的信息,开工第一天我就多方确认并无任何裁员计划,仅有基于年终绩效考核的正常人员调整。” 王化还在评论中进一步指出,“我觉得这可能是不想承认自己是绩效不合格的那个人,更不愿意承认团队里面就自己是垫底的人,所以就造谣希望通过一个裁员的大帽子来掩盖自己的不足。”“员工连续三年绩效不合格,给机会了,这种不淘汰?”这又引发网友讨论。 与此同时,小米创办人、董事长兼CEO雷军表示,专注生产旗舰手机的北京昌平智能工厂正式投产,年产能超过千万部,为小米历史上首座自有大规模工厂,也是小米智能制造的另一个关键里程碑。 据了解,该工厂隶属于小米昌平园区,整个园区占地287亩,总投资121亿,其中小米手机智能工厂第一期投入24亿元。园区亦包括小米智能工厂、小米创研中心、小米未来产业园区及配套办公大楼。小米计划今年底前所有产线投产,绝大部分工作将由智能机器人自主完成,实现日均产量可达3万部智能手机。 雷军还发文称,目前正为小米SU7汽车上市做最后准备,为了能让自己把更多精力放在汽车业务上,公司决定,小米集团总裁卢伟冰兼任小米品牌总经理,以后小米手机发布会也将由卢伟冰主讲,而Redmi市场总经理王腾接任Redmi品牌总经理。 小米14 Ultra暨“人车家全生态”新品发布会已定档2月22日19:00,目前小米14 Ultra旗舰手机的外观已公布,相比上一代小米13 Ultra更加轻薄,配备全等深微曲屏,延续经典的相机圆环设计,影像方面依旧采用徕卡光学,配备四颗后置摄像头。
Sora到底懂不懂物理世界?一场头脑风暴正在AI圈大佬间展开
Sora 到底是不是物理引擎甚至世界模型?图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。 最近几天,OpenAI 发布的视频生成模型 Sora 成了全世界关注的焦点。 和以往只能生成几秒钟视频的模型不同,Sora 把生成视频的长度一下子拉长到 60 秒。而且,它不仅能了解用户在 Prompt 中提出的要求,还能 get 到人、物在物理世界中的存在方式。 以经典的「海盗船在咖啡杯中缠斗」为例。为了让生成效果看起来逼真,Sora 需要克服以下几个物理难点: 规模和比例的适应:将海盗船缩小到能够在咖啡杯中缠斗的尺寸,同时保持它们的细节和结构,是一个挑战。AI 需要理解和调整这些对象在现实生活中的相对尺寸,使得场景在视觉上显得合理;流体动力学:咖啡杯中的液体会对海盗船的运动产生影响。AI 模型需要模拟液体动力学的效果,包括波浪、溅水和船只移动时液体的流动,这在计算上是复杂的;光线和阴影的处理:为了使场景看起来真实,AI 需要精确地模拟光线如何照射在这个小型场景中,包括咖啡的反光、船只的阴影,以及可能的透光效果;动画和运动的真实性:海盗船的运动需要符合真实世界的物理规律,即使它们被缩小到咖啡杯中。这意味着 AI 需要考虑到重力、浮力、碰撞以及船体结构在动态环境中的行为。…… 虽然生成效果还有些瑕疵,但我们能明显感觉到,Sora 似乎是懂一些「物理」的。英伟达高级研究科学家 Jim Fan 甚至断言,「Sora 是一个数据驱动的物理引擎」,「是一个可学习的模拟器,或『世界模型』」。 部分研究者同意这样的观点,但也有不少人反对。 Yann LeCun:生成视频的过程与基于世界模型的因果预测完全不同 图灵奖得主 Yann LeCun 率先亮明观点。在他看来,仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。 他接着讲到,模型生成逼真视频的空间非常大,视频生成系统只需要产生一个合理的示例就算成功。不过对于一个真实视频而言,其合理的后续延续空间却非常小,生成这些延续的代表性片段,特别是在特定行动条件下,任务难度更大。此外生成视频的后续内容不仅成本高昂,实际上也毫无意义。 因此,Yann LeCun 认为,更理想的做法是生成视频后续内容的抽象表达,并消除与我们可能所采取动作无关的场景中的细节。 当然,他借此又 PR 了一波 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构),认为上述做法正是它的核心思想。JEPA 不是生成式的,而是在表示空间中进行预测。与重建像素的生成式架构(如变分自编码器)、掩码自编码器、去噪自编码器相比,联合嵌入架构(如 Meta 前几天推出的 AI 视频模型 V-JEPA)可以产生更优秀的视觉输入表达。 图源:https://twitter.com/ylecun/status/1758740106955952191 François Chollet:只让 AI 看视频学不成世界模型 Keras 之父 François Chollet 则阐述了更细致的观点。他认为,像 Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形? Chollet 强调,这些问题至关重要,因为它们决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。 Chollet 通过海盗船在咖啡杯中缠斗的例子,讨论了模型能否准确反映水的行为等物理现象,或者仅仅是创造了一种幻想拼贴。这里,他指出模型目前更倾向于后者,即依赖于数据插值和潜空间拼贴来生成图像,而不是真实的物理模拟。有人将这种行为类比为人类做梦,认为 Sora 其实只是达到了人类做梦的水平,但是逻辑能力依然不行。 Sora 生成的人类考古视频,椅子在画面中凭空出现,而且不受重力影响漂浮在空中。 Chollet 指出,通过机器学习模型拟合大量数据点后形成的高维曲线(大曲线)在预测物理世界方面是存在局限的。在特定条件下,大数据驱动的模型能够有效捕捉和模拟现实世界的某些复杂动态,比如预测天气、模拟风洞实验等。但这种方法在理解和泛化到新情况时存在局限。模型的预测能力依赖于其训练数据的范围和质量,对于那些超出训练数据分布的新情况,模型可能无法准确预测。 所以,Chollet 认为,不能简单地通过拟合大量数据(如游戏引擎渲染的图像或视频)来期望得到一个能够泛化到现实世界所有可能情况的模型。这是因为现实世界的复杂性和多样性远超过任何模型能够通过有限数据学习到的。 田渊栋:学习物理需要主动学习或者策略强化学习 针对 Jim Fan 的观点,一些研究者提出了更激进的反驳,认为 Sora 并不是学到了物理,只是看起来像是学到了罢了,就像几年前的烟雾模拟一样。也有人觉得,Sora 不过是对 2D 像素的操纵。 图源:https://twitter.com/IntuitMachine/status/1758845715709632873 当然,Jim Fan 对「Sora 没有在学习物理,而只是操纵 2D 像素」这一说法进行了一系列反驳。他认为,这种观点忽略了模型在处理复杂数据时所展现出的深层次能力。就像批评 GPT-4 不是学习编码,只是随机挑选字符串一样,这种批评没有认识到 Transformer 模型在处理整数序列(代表文本的 token ID)时所表现出的复杂理解和生成能力。 图源:https://twitter.com/DrJimFan/status/1758549500585808071 对此,谷歌研究科学家 Kevin P Murphy 表示,他不确定最大化像素的可能性是否足以促使模型可靠地学到精确的物理,而不是看似合理的动态视觉纹理呢?是否需要 MDL(Minimum description length,最小描述长度)呢? 图源:https://twitter.com/sirbayes/status/1759101992516112864 与此同时,知名 AI 学者、Meta AI 研究科学家田渊栋也认为,关于 Sora 是否有潜力学到精确的物理(当然现在还没有),其背后的关键问题是:为什么像「预测下一个 token」或「重建」这样简单的思路会产生如此丰富的表示? 他表示,损失函数如何被激发的并不重要,损失函数的设计动机(无论多么哲学化或复杂)并不直接决定模型能否学习到更好的表示。事实上,复杂的损失函数可能与看起来很简单的损失函数实际上产生了类似的效果。 最后他称,为了更好地理解事物,我们确实需要揭开 Transformers 的黑匣子,检查给定反向传播的训练动态,以及如何学习隐藏的特征结构,并探索如何进一步改进学习过程。 图源:https://twitter.com/tydsh/status/1759293967420805473 田渊栋还表示,如果想要学习精确的物理,他敢打赌需要主动学习或者策略强化学习(无论如何称呼它)来探索物理的精细结构(例如物体之间的相互作用、硬接触)。 图源:https://twitter.com/tydsh/status/1759389064648888395 其他观点:Sora 被认为是「数据驱动的物理引擎」太荒谬 除了众多 AI 圈大佬之外,也有一些专业性的观点开始反驳 Sora 懂物理引擎这一说法。 比如下面这位推特博主,他认为 OpenAI 是数据驱动的物理引擎这一观点是荒谬愚蠢的, 就好像收集了行星运动的数据并将它们喂给一个预测行星位置的模型,然后就得出该模型内部实现了广义相对论的结论。 图源:https://twitter.com/ChombaBupe/status/1759226186075390033 他称,爱因斯坦花了很多年时间才推导出了重力理论的方程。如果有人认为随机梯度下降(SGD)+ 反向传播仅凭输入输出对就能理解一切,并在模型训练中解决问题,那这个人对于机器学习的理解是有问题的,对机器学习的工作方式了解也不够。 爱因斯坦在理论推导中对现实做出了很多假设,比如光速恒定、时空是灵活的结构,然后推导出了微分方程,其解揭示了黑洞、引力波等重大发现。可以说,爱因斯坦利用因果推理将不同的概念连接了起来。 但是,SGD + 反向传播并不是这样,它们只是将信息压缩到模型权重中,并不进行推理,只是更新并转向实现具有最低误差的参数配置。 他认为,机器学习(ML)中的统计学习过程可能会显然低误差「盆地」,即无法探索不同的概念, 因为一旦陷入这些低误差「盆地」或者局部最小值就无法重新开始。 因此,SGD + 反向传播发现了看似有效但却很容易崩溃的、脆弱的解决方案捷径。这就是为什么深度学习系统不可靠并且实际训练起来很难,你必须在现实中不断更新和训练它们,这就很麻烦。 梯度下降的工作原理就像一只苍蝇寻找气味源一样,即苍蝇跟随空气中的化学浓度向下移动,从而引导它导向气味源。但如果仅依赖这种方式,则很容易迷路或陷入困境。 在机器学习中,模型的可调节参数就像苍蝇,训练数据就像气味源,目标函数测量的误差就像气味。而调整模型权重的目的是向着气味源(这里是低误差,相当于更浓的气味)移动。 最后,他得出结论,如果认为机器学习模型仅仅通过训练行星运动的视频就能在内部学到广义相对论,那就更荒谬了。这是对机器学习原理的严重误解。 此外,有网友指出 Sora 视频示例中充满了物理错误,比如一群小狗在雪中玩闹的场景就很糟糕,大块雪的运动就完全违反了重力(是否真如此,有待判断)。 图源:https://twitter.com/MikeRiverso/status/1759271107373219888 Sora 到底懂不懂物理?将来会不会懂?「预测下一个 token」是不是通往 AGI 的一个方向?我们期待各路研究者进行进一步验证。
Sora来了,字节发力:张楠的重任和挑战
OpenAI再次引发全球注目。 北京时间2月16日,OpenAI发布了文生视频大模型Sora。从官方介绍看,Sora能够根据文本提示创建详细的视频,扩展现有视频中的叙述以及从静态图像生成场景,最长能生成60秒视频。 这熟悉的一幕,让人梦回2023年。彼时,ChatGPT引发了大模型的浪潮,掀起了全球范围内的AI军备竞赛。到了今年,OpenAI再次扔出一枚石子,在文生视频的池子里激起涟漪。 Sora让“一句话生成视频”变成可能,这是一场人工智能改变视频制作的革命,全球短视频巨头字节跳动也不能忽视这个浪潮。 图例 巧合的是,Sora问世一周前,字节跳动宣布了一项人事变动,原抖音集团CEO张楠宣布,自己已经辞去集团CEO一职,未来把精力聚焦在剪映的发展上。字节跳动CEO梁汝波表示,感谢张楠过去带领中国信息平台业务做出的贡献和突破,期待她在新岗位上再接再厉。 作为元老级员工,张楠已经加入字节跳动十年整,主导推出了抖音、火山等产品。她带领抖音完成了对竞争对手的反超,成为字节跳动实现二次飞跃的关键人物。如今,抖音的日活已经超过6.5亿,成为全球范围内短视频领域的佼佼者。 高层的变动常常伴随业务的调整,让最熟悉抖音生态的人来负责剪映,字节跳动的目标很明确,要在AI文生视频制作方面抓住新的爆发机遇。 据时代周报报道,接近剪映的人士透露,过去一年,张楠已经把绝大多数精力倾斜到剪映先关的业务上,并亲自带队寻求在AI辅助创作上有所突破,并即将推出一个AI生成和视频的产品。 ChatGPT和Sora给字节跳动带来了新的启发,也带来了更多压力。过去一年,字节跳动延续超级APP的逻辑,接连推出了多款基于AI技术的产品,分布对话、工具、互动剧情等多个类别,包括豆包、扣子等APP。 动作很多,但速度不快,成果不显,这让字节跳动感到焦虑。年初内部会议上,梁汝波把对技术部门的不满表达得很直白。他说,字节跳动居然直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司都是在2018年至2021年创立的。 AI风口下,字节还没能大力出奇迹,张楠再次担任了冲锋者的角色。能否带领剪映再次创造奇迹,对张楠和字节跳动来说至关重要,这决定了字节跳动能否走出增长困境,寻找到新的生机。 1、Sora来了,压力给到了字节跳动 一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包;她戴着太阳镜,涂着红色口红;她走路自信又随意…… 潮湿积水的街道倒映着上空的影像、女性皮肤上的毛孔清晰可见,如此逼真写实的视频画面,出自AI之手。 Sora示例视频,来源OpenAI官网 没有任何预告,OpenAI再放大招。北京时间2月16日OpenAI在社交平台X发帖,首次对外公布了名为Sora的文生视频AI模型。 Sora带来的震撼,不亚于去年的ChatGPT,瞬时成为开年最火爆的话题之一。 事实上,文生视频并非新鲜事物。在Sora发布前,根据知名投资机构a16z统计,截至2024年底,市场上共有21个公开的AI视频模型,包括大众熟知的Runway、Pika、Genmo以及Stable Video Diffusion等等。 但Sora为何会如此惊艳,并以颠覆性再次搅动AI行业?理解力、还原力是Sora效果超预期的核心。 OpenAI官网上的多段视频也证明了Sora的能力。两艘海盗船在一杯咖啡中航行,在泛白的咖啡泡沫中互相激斗;载满乘客的列车驶过光影交替的城市,车窗上投射出生动的车内倒影;舞龙队伍在周边人群的围观和随行中前进,远近透视真实感十足。 在视频时长上看,用户只需要输入一段文本,Sora就能自动生成最长一分钟的高清视频。这超出了市面上的大多数产品。根据a16z统计,现有的AI视频模型制作的视频长度大都在10秒以内,像此前大热的Runway Gen 2、Pika,其制作的视频长度分别只有4秒和3秒。 更重要的是,Sora对真实世界的理解能力和还原能力都超出了市面现有的大模型。 正如OpenAI在官方博客上写道,Sora不仅可以理解用户的需求,还知道这些事物在现实世界如何存在。具体而言,Sora不仅能实现一镜到底,还能完成多角度镜头、分镜头的切换,更能还原真实世界中的光影反射、人类行为等。 超预期的表现离不开技术支撑。据OpenAI介绍,因使用Transformer架构,Sora具有极强的扩展性,同时在基于过去对DALL·E和GPT的研究基础构建上还利用了DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注。 Sora的出现能否掀起中国乃至全球范围新一轮的AI军备竞赛尚不可知,但能生成60s视频的Sora,把压力实实在在给到了字节跳动。因为60s视频所处的赛道,正是字节跳动王牌业务抖音的大本营。 图源抖音官网 在抖音生态越来越丰富后,为了服务内容创作者,剪映也应运而生。背靠抖音的流量池,截至2021年,剪映的月活用户已经突破1亿,是国内最大的移动视频编辑产品。而TikTok在全球的风靡,也带动了剪映海外版CapCut的下载量激增。 剪映之所以能够如此风靡,原因在于降低了门槛,让普通人都能够更快更简单地产出视频内容。 而近两年,随着AIGC的火爆,视频制作门槛将被再次降低。这也是如今Sora对剪映产生威胁的核心原因:更多人将倾向于选择门槛更低,但效果更好的平台,剪映的用户将可能被AI视频生成产品抢走。 为了留住用户,同时也为了抓住新的机会,剪映布局AIGC几乎是必然。 2023年11月,剪映测试名为“Dreamina”的AIGC工具,用户只需输入一段文字,Dreamina即可生成四幅由AI生成的创意图像。这些图像可以从抽象、写实等多个维度生成,满足不同用户的审美需求。 彼时,据Tech星球报道,消息人士透露,该工具未来会用于抖音的图文或短视频的内容创作,丰富抖音在AI创造方面的内容库。 不过从效果来看,目前剪映面临和Runway、Pika、Genmo等产品一样的困境:视频的运动不自然,保真度不高、视角单一等问题,这些问题本质上是技术问题,Sora靠技术解决了这些问题,威胁到“剪映们”生存的同时,也给“剪映们”提供了思路。 今年,原抖音集团CEO张楠卸任,转而投入剪映的发展,透露出抖音乃至字节对AI创作的重视。值得关注的是,在张楠发给剪映的内部信中,张楠提到,AI图像生成技术正在内容创作工具行业带来巨大的变化和可能性。 如今,Sora的横空出世,给了字节跳动压力,它不能再慢了,而如何带剪映突围,则成了张楠新阶段的重任。 2、张楠要为字节跳动再次“开疆” 加入公司十年,原抖音集团CEO张楠算得上是字节跳动的功臣。某种程度上看,字节跳动短视频业务能够快速“开疆扩土”,靠的就是张楠。 2015年开始,张楠先是带着团队推出了火山小视频,上线后迅速爆火,日活跃用户很快突破5000万;2016年,张楠从0到1推出了抖音,为当下国内最火的短视频APP奠定了基础,如今抖音的日活超过了6.5亿。 2020年3月12日,字节跳动在成立八周年之际,宣布张楠担任字节跳动(中国)CEO,作为中国业务总负责人,全面协调公司中国业务的产品、运营、市场和内容合作,包括今日头条、抖音、西瓜视频、搜索等业务和产品。 张楠,图源字节跳动官网 没过多久,伴随字节组织架构调整,抖音从字节跳动旗下的APP成长为拥有复杂生态的抖音集团,旗下拥有抖音、火山、剪映、轻颜相机等多个APP,张楠出任抖音集团CEO。 身份的变化,让张楠更像是幕后掌控抖音全局的指挥官,而非冲锋陷阵的将军,但她始终是最了解抖音生态的人。 伴随市场环境的变化,抖音短视频的增长不及以前是事实,但抖音要为字节寻找新增量的目标没变。AI的东风越吹越大,原本是抖音视频创作工具的剪映站在风口之上,这是个机会,字节跳动必须抓住。 这时候,张楠的位置和角色很重要,最了解抖音的人,现在转去负责剪映。 离开自己一手带出来的抖音,张楠在告别文中表示,“在未来的十年再折腾一些我热爱的事情”。 张楠职位的变化,与其说是她离开抖音权力中心,不如说是被放在了新的关键位置上,也释放出字节要在AI领域突围的信号。 就在张楠辞任抖音CEO一周前,字节CEO梁汝波在字节举行的2024年度全员会上发表了“始终创业,逃逸平庸的重力”的内部讲话。 在这场分享会上,梁汝波多次提及“危机感”一词,梁汝波甚至还将“加强危机感”列入年度目标。他坦言,最大的危机感,是担心字节作为一个组织,正在变得平庸,无法取得新的突破。 字节跳动CEO梁汝波,图源字节范儿微信公众号 当短视频业务趋近天花板,字节需要找到新的增长点。当OpenAI的两枚炸弹证明了AI行业蕴藏的想象力,字节跳动作为一家拥有丰富内容生态的公司,拥有天然的AI使用场景,必须跟上AI的脚步,用AI技术为自身寻找突破。 “字节跳动是最好的平台,既有梦想,又务实的浪漫,我很期待和剪映的小伙伴们一起造梦,与这个AI的时代一起成长,共同绘制出脑海中的奇幻世界。”张楠如此写道。 这个AI梦,不只属于张楠自己,更肩负着字节跳动的希望。 3、AI时代,字节跳动的全球挑战 如果一家创业公司2023年上半年营收超越腾讯,2024年开年估值达到2250亿美元,位于全球独角兽榜首,那这家公司的年度关键词会是什么? 不是信心、不是振奋,字节跳动CEO梁汝波给出的答案是危机感。 梁汝波提到,组织上,字节跳动变得平庸:低效、迟钝、标准低;人才管理上,去肥增瘦效果不明显,对优质人才吸引力降低;业务上,核心业务领先不明显,其他业务需要突破。 “对机会敏感度不如创业公司”,公司业务上迟钝加重了梁汝波的危机感。对大模型的技术浪潮跟进太慢,就是梁汝波感到危机的原因之一。 2023年,由OpenAI开启了“ChatGPT热”,也掀起了全球范围内的GPT竞赛,国内外多个知名互联网巨头都推出了自研大模型产品。 回看字节跳动的动作:2023年1月组建了首个大模型团队,将远在新加坡负责TikTok技术负责人朱文佳调回国内担任团队的业务负责人;2023年5月,字节跳动创始人张一鸣忙着研究OpenAI的一系列论文,并且常常读至深夜。 只是,相比字节跳动曾经的战斗力,在新的AI时代,字节跳动似乎没能一鸣惊人。 图源字节跳动官网 当其他公司都在加入大模型竞赛,一个接着一个产品陆续推出后,字节跳动在2023年8月才推出自研大模型“云雀大模型”。在此之后,字节跳动的AI动作才变得快速而频繁起来。 先是AI对话产品“豆包”开启测试,它的前身是字节内部代号为“Grace”的AI项目,可以生成歌词、小说、文案等文本内容,还可以提供数学计算、翻译、英文写作等功能;后有扣子、AI角色互动APP“话炉”、AI产品“PicPic”等产品进入内测和研发阶段。 目前,字节在国内外已上线十余款AI产品,除了上述提到的产品,还有“AI搜”、 AI情绪伴聊机器人的“抖音小晴”、 针对电商内容创作的产品“即创”、AI工具合集小悟空(ChitChop)、 AI 剧情互动平台BagelBell等。 这些产品的背后,是一个全新的AI部门Flow,也是字节在AI时代的排头兵。据36氪报道,Flow部门技术负责人为字节跳动技术副总裁洪定坤。一位知情人士告诉36氪,这一新部门的业务带头人,为字节大模型团队的负责人朱文佳;据Tech星球报道,字节跳动产品与战略副总裁朱骏已负责Flow部门的产品线。 调用多名主力干将,字节发力AI的意图已经十分明显。只是,虽然在AI的投入不少,但字节系产品要突围并不容易。比如,“豆包”的推出不仅比ChatGPT晚了八个月,从效果上看,多家媒体评测结果显示,“豆包”的智能化水平在大模型C端助理类产品中没有明显优势。 图例 一个明显的变化是,到了AI时代,字节跳动还处在追随者的角色,且尚未有弯道超车的迹象。 而放眼TikTok在全球的发展,要面对的挑战和竞争也不少。在这种情况下,字节跳动在AI时代还没有自己的独特优势,甚至有可能被新技术颠覆,这或许正是梁汝波的危机感所在。 “字节跳动目前的业务有非常大的惯性,哪怕团队不额外努力,公司仍然可以依赖惯性滑行很长一段时间,但这是很危险的。” 梁汝波提到。 在过去的十年,字节跳动抓住了短视频时代的红利,而下一个十年,如何在AI时代,从追随者变成创造者,保持创业状态继续突围,考验着字节跳动。正如梁汝波所说,只有保持危机感和始终创业的心态,字节跳动才能“逃逸平庸的重力”。
AI创业冰火两重天:Sora降世资本狂欢,数家创企倒闭关门
AI创企,陷入冰火两重天。 这一边,OpenAI甩出文生视频大招Sora,继GPT-4之后再度掀起生成式AI热潮,引发文生视频概念股集体涨停。 ▲Sora概念/文生视频股票表现(图源:同花顺) AI相关投融资也迎来一波小高峰。近期,国内大模型创企月之暗面传出融资超10亿美元,加拿大AI创企Cohere被曝正洽谈5-10亿美元新融资,Quora、Sakana等AI创企接连拿下数千万美元融资。 据智东西不完全统计,2023年11月-2024年1月全球共诞生4家AI独角兽,包括美国AI语音合成公司ElevenLabs、印度AI模型创企Krutrim、法国开源模型创企Mistral AI以及国内大模型创企零一万物。随着新融资尘埃落定,月之暗面等公司也有望立刻升级为新晋A1独角兽。 就在昨晚,ElevenLabs凭借Al配音版Sora视频出圈,再吸一波热度。 与此同时在另一边,不少AI创企走向下坡路。它们或是被曝寻求收购,或是大幅裁员,更有甚者直接走入“坟墓”。据智东西不完全统计,2023年11月-2024年1月,全球有AI新闻创企Artifact、AI医疗公司Olive等4家AI创企宣布关停。 OpenAI、谷歌等频放大招,凭借技术积累、人才储备、庞大的资本和生态影响力等优势挤占小型创业公司的生存空间,更是让一些创企的生存状况岌岌可危,随时面临被“秒杀”的危机。 AI创企呈现出两极分化的现象。在AI这把火“狂飙”之际,有几家欢乐几家愁?新晋独角兽们在哪些方面表现突出,走向灭亡的创企又是遇到了哪些困境?它们之间有什么相似或不同点?AI创企在生存路上都面临哪些难题,该如何去解决?一起来看看数据背后的真相。 01.AI创企之火:OpenAI新模型席卷全球, 4家独角兽来势汹汹 要说春节期间,AI领域最受关注的是什么,无疑是OpenAI在大年初七放出的文生视频模型Sora。(Sora爆火48小时:杨立昆揭秘论文,参数量或仅30亿) 60秒时长、多角度镜头、3D仿真能力,Sora凭借惊艳的视觉效果迅速引爆科技圈。同时,OpenAI被曝完成一笔新交易,使其估值超过800亿美元,为2024的AI创业打响劲爆头炮。 与此同时,投资者对AI创企的热情明显见涨。2024年以来,获得人民币亿元级别以上融资的AI创企包括大模型创企月之暗面、生成式AI创企Rasa、制造业AI平台Daedalus、AI编程创企Codeium、大模型创企Sakana、AI平台Poe、AI法律创企Robin AI、AI语音克隆创企ElevenLabs等。 AI热吸引了不少大佬出走创业。今年以来,前推特CEO帕拉格·阿格拉瓦尔(Parag Agrawal)、DeepMind科学家洛朗·西弗雷(Laurent Sifre)和卡尔·图尔斯(Karl Tuyls)、OpenAI联创安德烈·卡帕蒂(Andrej Karpathy)等纷纷创办AI公司。 AI创企高歌猛进,涌现出不少新晋的独角兽。据智东西不完全统计,2023年11月-2024年1月全球有4家AI创企估值达到10亿美元。2月以来,新融资的月之暗面等公司有望立刻成为新晋独角兽,此外,Sora的爆火可能为文生视频赛道进一步吸金。 ▲近期新晋独角兽的AI创企名单(智东西统计制表) 这些创企来自全球各个地区,共同点是均在极短的时间内就跻身独角兽,最慢的也不到两年。根据其主要业务可以看出,AI热门赛道不仅有文生视频,还有基础模型、AI语音克隆、AI基础设施等。从这些创企的创始人背景、具体赛道、商业模式等方面,我们尝试探讨它们为何能在现阶段取得市场认可。 1、ElevenLabs:半年估值增至10倍,AI语音克隆赛道首个独角兽 ElevenLabs成立于2022年4月,主要业务是开发AI语音合成模型和软件,创始人皮奥特·达布科夫斯基(Piotr Dabkowski)和马蒂·斯坦尼斯泽斯基(Mati Staniszewski)分别来自谷歌和大数据公司Palantir。 在Sora发布两天后,ElevenLabs迅速蹭了一波热度,为Sora的无声演示Demo添加了各种音效和解说,并预告AI音效功能即将推出。 截至目前,ElevenLabs共获得3轮累计1.01亿美元融资,在今年1月获得风投机构a16z(Andreessen Horowitz)等领投的8000万美元时,估值达到11亿美元,晋升独角兽。 ▲ElevenLabs融资情况(图源:Crunchbase) 目前ElevenLabs最主要的产品是文字转语音合成工具,其支持中文、英文等29种语言,并提供1000+种声线,用户也可以上传自定义声音进行克隆。 面向不同类型的客户,ElevenLabs提供从月费5美元至330美元的不同订阅计划,企业用户还可以根据需求进行个性化定制。 ▲ElevenLabs定价(图源:ElevenLabs) 2、Mistral AI:半年融资38亿,英伟达加注“欧洲版OpenAI” Mistral AI是一家法国创企,成立于2023年4月,联合创始人阿瑟·门什(Arthur Mensch)来自谷歌DeepMind,纪尧姆·兰普(Guillaume Lample)、蒂莫西·拉克鲁瓦(Timothée Lacroix)则来自Facebook,也就是现在的Meta。 ▲从左至右依次是兰普、门什、拉克鲁瓦(图源:David Atlan) Mistral AI的主要业务是构建开源AI模型。2023年12月,它凭借MoE(混合专家模型)Mixtral 8x7B在小型模型领域杀出一条“血路”,测评成绩直追GPT-3.5。 成立不到一年,Mistral AI已完成2轮共计5.28亿美元融资,光速创投、a16z、英伟达、Salesforce等知名投资者都加注其中。 ▲Mistral AI主要投资者(图源:Crunchbase) 据光速创投信息,在DeepMind工作期间,门什是Retro、Flamingo和Chinchilla等项目的主要贡献者,在优化大型语言模型方面积累了丰富的经验;兰普和拉克鲁瓦则一起领导了开源模型Llama的开发。 3、零一万物:李开复领军,创始团队“大佬”云集 零一万物成立于2023年5月,专注于开发大语言模型,其创始人李开复曾任谷歌、微软全球副总裁。 ▲李开复(图源:领英) 2023年3月,李开复曾发布“英雄帖”宣布入局AI创业并招募人才。短短数月,零一万物便攒出了一个由数十名核心成员组成的联创团队,团队成员的履历十分亮眼,包括前阿里巴巴副总裁、前百度副总裁、前滴滴/百度首席算法负责人、前谷歌中国高管、前微软/SAP/Cisco副总裁等多位大厂出走的高管。 成立仅半年,零一万物于11月宣布以超10亿美元估值完成了阿里云领投的天使轮融资,融资金额未披露。同时,零一万物发布了首款开源大模型Yi系列,包括60亿参数、340亿参数两个规模,支持中英双语。Yi模型发布没几天就陷入套壳Llama的争议,但零一万物给出澄清,经由国际国内法律研判确认不涉及套壳、抄袭。 4、Krutrim:4年创造网约车独角兽的CEO,用7个月孵化印度首个AI独角兽 Krutrim成立于2023年4月,创始人是印度电动车独角兽Ola联创兼CEO巴维什·阿格瓦尔(Bhavish Aggarwal)。其官网显示,公司的主要业务包括提供用于构建生成式AI应用程序的基础模型、用于AI计算的云基础设施以及针对AI计算优化的芯片开发和制造。 2023年12月,Krutrim推出首个同名大型语言模型及生成式AI平台,支持约22种印度语言,能生成印地语等10种语言的文本,并预计于今年第一季度推出更大的模型Krutrim Pro。 ▲Krutrim聊天机器人使用示例(图源:Krutrim) 截至目前Krutrim共获得2轮融资,总计7400万美元,均由经纬创投(Matrix Partners)领投,阿格瓦尔以个人名义参与了第2轮投资。 ▲Krutrim融资情况(图源:Crunchbase) 这些迅速成为独角兽的创企有一个共同点,那就是创始团队的背景都十分亮眼,要么是知名的大厂高管,要么是大厂出走的顶尖技术人员。 具体来看,不同赛道的AI创企都可以得到市场认可。这几家独角兽分别聚焦AI语音合成、大模型、AI基础设施等不同细分赛道,且相比竞品较早拿出了体现差异化的产品。 它们各自有不同的有力竞争点,如ElevenLabs有着完善的商业模式,Mistral AI、零一万物的大模型霸榜多个榜单,Krutrim则资源集中、以印度本土的数据为重点。 02.AI创企之冰:小至8人团队, 大至千人公司,接连出局 逆水行舟,不进则退。Sora横空出世,此前的文生视频顶流工具Runway、Pika、PixVerse等瞬间从“香饽饽”变得“黯然失色”。从目前表现来看,后者无论是视频时长、文字理解力还是视觉效果都遭到降维打击。 正如此前OpenAI推出GPT商店时引发AI创企“哀鸿遍野”一样,此次OpenAI、谷歌、Meta几乎同一时间接连发布重磅模型,再次引发业界争论:AI创企还有出路吗? 这个问题的答案我们目前还不得而知,但能够确认的是,在一些AI创企砥砺前行的同时,已经有一些企业走上了下坡路。 首当其冲的是明星独角兽Stability AI,虽然其一直在不断发布新模型,但持续的高管离职、投资者的质疑体现了其内部管理的混乱。 2023年11月,Stability AI被曝出由于财务状况压力巨大正在寻求出售。此外,其重要投资者美国对冲基金Coatue Management还在10月致信管理层,要求CEO埃马德·莫斯塔克(Emad Mostaque)辞职。 Stability AI不是唯一被曝考虑出售的AI创企。据外媒The Information报道,近几个月来,AI搜索创企Perplexity至少与4家公司讨论了收购事宜,企业级AI助手Writer已与3家寻求收购的公司接洽。 大比例的裁员也是AI创企泡沫破裂的迹象之一。生成式AI独角兽Jasper、AI语音识别创企Deepgram等首批明星AI创企在近半年纷纷宣布裁员。 下坡路的尽头是创企的坟墓。据智东西不完全统计,2023年11月-2024年1月,有4家AI创企宣布关停。其中有大厂独立出来的团队,有明星产品创始人新成立的公司,也有已经走过十余年的“老牌”企业。 ▲近期关停的AI创企名单(智东西统计制表) 它们处于不同的赛道,关停的原因也各不相同,有的出于资金短缺,有的是因为没找准定位,还有创始人洋洋洒洒列举了12条“死亡原因”。通过其融资情况、产品表现、关停公告等,我们试图找到这些创企失败背后的深层次真相。 1、Artifact:社交巨头Instagram联创成立,8人团队一年解散 Artifact由社交平台Instagram联合创始人凯文·斯特罗姆(Kevin Systrom)和迈克·克里格(Mike Krieger)于2023年1月创立,主要业务是提供AI驱动的个性化新闻推荐。 谈及Artifact这个名字,斯特罗姆称,它代表了文章(Article)、事实(Fact)以及AI(Artificial Intelligence)的融合。简单来说,Artifact可以视作一种文字版抖音,它基于算法从精选的出版商列表中选取热门文章摘要,并随着用户观看记录和时间的推移自动调整算法。 ▲Artifact的两位创始人(图源:InnovationTrail) 虽然有着相同的创始人,但Artifact与Instagram的命运大相径庭。后者在成立不到两年、仅有13名员工时,被Facebook以10亿美元收购,而前者成立仅一年,8人团队就宣告走向“死亡”。 ▲Artifact宣布关停(图源:Artifact) 在宣布关停的博客文章中,斯特罗姆这样描述Artifact停运的原因:“虽然我们已经构建了拥有核心用户群体的内容,但最终得出的结论是,市场机会还不够大,不足以保证获得持续投资。” 2、Coqui:出身于Mozilla机器学习团队,或因资金不足关停 Coqui是从火狐浏览器母公司Mozilla机器学习小组独立出来的创企,由约书亚·迈耶(Joshua Meyer)等人于2021年成立,专注于构建快速语音克隆、文本转语音等领域的开源模型和应用。 2023年3月,Coqui获得330万美元的种子轮融资。但不到一年光景,2024年1月3日,迈耶在领英宣布Coqui即将关停。 ▲Coqui宣布关停(图源:领英) 在“告别”博客中,他提到Coqui作为一个“小团队”,创造了语音转文本模型DeepSpeech、文本转语音模型XTTS等优秀的开源模型,但并未明确关闭的原因。 不过,从Coqui的AI负责人埃伦·戈尔格(Eren Gölge)在GitHub社区上的回复来看,Coqui的停运很可能是由于资金短缺和商业化挑战。 在一名用户询问Coqui关闭后,语音合成项目是否会继续维护和改进时,戈尔格称暂时不打算主动维护,除非能找到一些赞助商,“现在DL(深度学习)太贵了。” ▲戈尔格回应是否会维护项目(图源:GitHub) 3、DataDistillr:创始人总结12条失败原因,缺乏变现手段居首位 DataDistillr成立于2020年8月,主要业务是面向企业的AI数据分析平台,其创始人查尔斯·吉夫尔(Charles Givre)是一位在网络安全领域有超过18年经验的数据工程师,曾担任摩根大通数据与分析副总裁、美国中央情报局分析师。 在成立同时以及2021年4月,DataDistillr分别获得160万美元、500万美元的种子轮融资,即便如此仍然走向了灭亡。2023年12月5日,吉夫尔在领英宣布DataDistillr关闭,并总结了12条失败的原因。 ▲吉夫尔宣布DataDistillr将关闭(图源:领英) 总的来说,吉夫尔认为DataDistillr的失败是由于未能实现产品与市场的契合。面对不断变化的市场条件,吉夫尔作为CEO没能带领团队构建正确的产品、有效地销售已有的产品。 吉夫尔总结的12条失败原因分别是:缺乏商业化变现计划、构建太多没有必要的功能、构建了错误的产品、缺乏营销计划、雇佣了错误的人、招聘太快/烧钱太多、没有合理利用外包、关注了错误的企业客户目标、没有采用构建-测量-学习循环(Build-Measure-Learn Loop)方法论、与投资者沟通不足、在潜在客户未付钱时就开始执行、非工资费用支出较多。 4、Olive:估值最高达到40亿美元,因增长过快分崩离析 Olive成立于2012年6月,是一家面向医疗保健行业的AI独角兽。2023年11月,新媒体网站Axios援引一份内部备忘录,报道了Olive即将把部分解决方案出售给两家公司,并关闭其他所有业务。 ▲Olive转发部分业务被收购的消息(图源:领英) 十年间,Olive共获得9轮融资,共计约8.56亿美元。其中最后一笔也是金额最高的一笔融资发生在2021年7月,使Olive估值达到40亿美元。 但一年之后,Olive逐渐分崩离析。2022年7月和2023年2月,Olive裁员450人、215人,给出的原因分别是公司的快速增长和缺乏重点使产品和工程资源紧张、持续的经济状况低迷以及对客户持续财务紧张的预期。 03.赛道选择、商业模式、“护城河”, AI创企生存路上的拦路虎 在AI创企的冰火两重天中,那些成功突围的企业往往具备一些共同的特质,而那些走向衰败的企业则在某些关键点上出现了失误。结合这些创企的失败教训和现阶段成功的经验来看,AI创企在生存路上至少需要克服这些难关: 首先,赛道的选择很重要。 “AI”是一个非常宽广的领域,每一个细分赛道的技术难度、市场规模等方面都有区别,并非所有赛道都适合一个新建立的团队。初创企业需要明确自己的目标和定位,结合市场需求,选择有潜力的、适合自己团队的细分市场。 如Artifact所选的“AI+新闻”赛道,虽然有一定的用户需求,但整体市场规模不够大。在外媒The Verge报道其关停服务的文章评论区,有不少用户扼腕叹息,表达自己对这个个性化新闻应用产品的喜爱。此外,它还曾获得苹果App Store的年度生成式AI趋势奖。可以看出,Artifact的失败不是由于产品做的不好。但与此同时,虽然背靠Instagram联创这样优秀的创始人,Artifact成立一年并未获得融资,这也反映了市场和投资者对其有所疑虑。 随着ChatGPT、Sora等生成式AI产品或模型越来越多地走入大众视野,现如今,相较于传统的决策式AI,搭上生成式AI顺风车的AI创企更容易起飞。 第二,建立自己的技术“护城河”。 在AI领域,技术创新是企业生存的关键。拥有核心技术和专利可以为企业构建强大的竞争壁垒,保护企业免受竞争对手的挤压。同时,持续的技术创新也是吸引投资和市场关注的重要因素。 OpenAI为自己建立了坚硬的“护城河”,Mistral AI、零一万物等也在试图建立自己的技术壁垒。放眼未来,AI创企需要不断加固迭代技术“护城河”,才能够持续发展。 ▲零一万物、Mistral AI模型在Hugging Face预训练开源大模型榜单名列前茅(图源:Hugging Face) 其次,从初期就要构建具体的商业模式。 “护城河”固然重要,但如果缺乏可持续的商业模式,一家创企也很难在竞争激烈的市场中站稳脚跟。 出于用户增长等方面的考虑,一些企业在成立初期对商业模式的构建不够重视。但“烧钱”只能带来短期的增长,无法支撑一家公司长远地走下去。创业公司从初期就应构建清晰的商业模式,不仅包括产品或服务的设计,还包括如何盈利、如何吸引和保留客户。 在DataDistillr的关停公告中,吉夫尔将没有制定收费计划列在了首位,“我们知道自己的产品需要收费,但具体如何收费以及收费内容决定得太晚了。”他提到,公司经常为客户提供免费试用,这涉及到大量客户成功工作。 ElevenLabs和Coqui同为AI语音合成赛道,发展却背道而驰。在Coqui宣布停运的帖子评论区中,很多用户感到遗憾,还有不少声音称Coqui的XTTS模型是自己用过最好的AI语音模型,这表明Coqui在技术层面并不弱。 表面来看,Coqui很可能是因为资金短缺而倒闭,但从更深层次去分析,一方面,Coqui成立3年仅获得330万美元融资,这表明它可能缺乏宣传和营销;另一方面,其社交平台X的“画风”比较偏向“技术流”,不时甩几个新模型的链接,而不是推出新的功能或产品改良,这表明它可能专注于技术研发而忽略了产品的设计与商业化运营。 第四,前期专注一小部分核心业务。 在资源有限的情况下,创企应该专注于发展自己的核心业务,避免资源分散。通过在某一核心领域深耕细作,公司可以快速地建立起品牌影响力和市场地位。 据外媒TechCrunch报道,Olive CEO莱恩在2022年6月的一次活动上透露,公司在寻找适合当前产品市场的战略方向时,前后进行了27次调整。同时,它试图扩展到医疗保健的不同领域,失去了对核心产品和客户的关注。在裁员时,莱恩公开承认公司在战略上的“失误”。 最后,避免过快的增长和扩张。 过快的增长往往伴随着风险。企业需要合理规划发展步伐,确保在扩张的同时有足够的资源和能力来支持,包括资金管理、团队建设、市场策略等方面,都需要有条不紊地进行。 Olive的倒闭就是最有力的证明。在2020年和2021年,Olive发展迅速,估值一度飙至40亿美元,公司也迅速扩张。但这带来的是产品和工程资源紧张,使得公司在关键计划的执行上变得困难。 04.结语:AI创业,机遇与挑战并存 AI创企的境遇两极分化,一方面反映了市场的残酷竞争,另一方面也展示了AI技术的无限潜力。对于那些能够在挑战中找到出路的创企来说,AI不仅是技术的前沿,更是商业的新蓝海。 随着技术的不断进步和市场的成熟,我们有理由相信,会有更多AI创企走进人们的视野。创始人们需要吸收过来人的经验教训,在实践中开辟自己的道路。
GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
今日GitHub热榜榜首,是最新的开源世界模型。 上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。 强大的模型,命名也是简单粗暴——没有任何额外点缀,直接就叫LargeWorldModel(LWM)。 LWM支持处理多模态信息,能在100万token中准确找到目标文本,还能一口气看完1小时的视频。 网友看了不禁表示,这种大海捞针般的测试,LWM能完成的如此出色,而且还开源,实在是令人印象深刻。 那么,LWM的表现到底有多强呢? 百万上下文窗口,可看1小时视频 在测试过程中,研究人员用多段一个多小时的视频检验了LWM的长序列理解能力,这些视频由YouTube上不同的视频片段拼接而成。 他们将这些视频输入LWM,然后针对其中的细节进行提问,涉及的片段位于整个视频的不同位置,同时研究者还将LWM与GPT-4V等模型做了对比。 结果GPT-4V是一问一个不吱声,闭源强者Gemini Pro和开源强者Video-LLaVA都给出了错误的答案,只有LWM回答对了。 在另一段视频的测试中,其他模型都说找不到有关信息,只有LWM找到了答案,而且完全正确。 不仅是理解细节,LWM也能把握视频的整体内容,做出归纳总结。 在理解的基础之上,LWM也可以结合自有知识进行推理,比如分析视频中不符合常理的地方。 Benchmark测试结果显示,LWM在MSVD-QA等三个数据集上的评分仅次于Video-LLaVA。 LWM不仅能理解长短视频,在超长文本任务上的表现同样优异。 在1百万token窗口的“插针”检索测试中,LWM取得了单针检索全绿的成绩。 多针检索时,表现也同样优异: 语言任务数据集的测试结果表明,LWM在32k到1M的窗口长度上表现不输甚至超过只有4k窗口的Llama2-7B。 除了多模态信息理解,LWM还支持图像和视频的生成,至于效果,还是直接上图感受一下吧。 那么,研究人员又是怎样训练出这样一款世界模型的呢? 循序渐进,分而治之 LMW的训练过程,大致可分为两个阶段。 第一阶段的目标是建立一个能够处理长文本序列的语言模型,以理解复杂的文档和长文本内容。 为实现这一目的,研究人员采取了渐进式的训练方式,使用总计33B Token、由图书内容组成的Books3数据集,从32k开始训练,逐步将窗口扩增至1M。 而为了增强LWM的长文本处理能力,开发者应用了RingAttention机制。 RingAttention是该团队去年提出的一种窗口扩增方式,入选了ICLR 2024。 它运用了“分而治之”的思想,将长文本分成多个块,用多个计算设备做序列并行处理,然后再进行叠加,理论上允许模型扩展到无限长的上下文。 在LWM中,RingAttention还与FlashAttention结合使用,并通过Pallas框架进行优化,从而提高性能。 在文本能力的基础上,研究人员又用模型生成了部分QA数据,针对LWM的对话能力进行了优化。 第二阶段则是将视觉信息(如图像和视频)整合到模型中,以提高对多模态数据的理解能力。 在此阶段,研究人员对LWM-Text模型进行了架构修改,以支持视觉输入。 他们使用VQGAN将图像和视频帧转换为token,并与文本结合进行训练。 这一阶段同样采用循序渐进的训练方法, LWM首先在文本-图像数据集上进行训练,然后扩展到文本-视频数据集,且视频帧数逐步增多。 在训练过程中,模型还会随机交换文本和视觉数据的顺序,以学习文本-图像生成、图像理解、文本-视频生成和视频理解等多种任务。 性能方面,研究人员在TPUv4-1024(大致相对于450块A100)上训练,批大小为8M、全精度(float32)的条件下,花费的时间如下表所示,其中1M窗口版本用了58个小时。 目前,LWM的代码、模型都已开源,其中多模态模型为Jax版本,纯文本模型有Jax和PyTorch两个版本,感兴趣的话可以到GitHub页面中了解详情。
Sora爆火,马斯克急了!“特斯拉才拥有最好的视频生成技术”
这两天有没有被OpenAI的新成果Sora刷屏? 熙熙攘攘的龙年春节,人物众多,同时各有各的行为: 雨后的东京街头,光影和反射都处理得很到位: 甚至是超近景的蜥蜴,细节拉满: 以上均来自OpenAI首个视频生成模型Sora。 只要输入提示词,就能生成1分钟的高清视频,已经被看作是改写整个视频生成领域的新王炸技术。 这不仅轰动了学术圈,还让同为科技圈的老马坐不住了。 在推特上直言:特斯拉拥有世界上最好的现实世界模拟和视频生成能力! 哎呦,打起来,打起来 。 马斯克回应Sora Sora发布后,效果立刻震惊全网。 不过并不像ChatGPT,现在只有少数人拥有Sora的访问权限。 但不少人还是想自己玩玩看的,所以OpenAI CEOSam Altman立刻抓住这次展示能力的机会,发布Sora后在推特上开始在线接单。 只要发布提示词并艾特Sam,或者在Sam的推特下回复,就有可能收到Sora生成好的视频。 这其中认真回复的有之,乘机捣乱的也有之。 狗狗币图形设计师DogeDesigner就回复了Sam的推特,他给的提示词是: 一个人把一家开源的非盈利公司变成闭源的盈利公司。 这描述,你要不直接报Sam身份证号得了 。 而马斯克直接把这条回复po了出来。 一方面他最爱的数字货币就是狗狗币,在推特上和这位用户也经常互动;而更重要的另一方面,马斯克和OpenAI有不少过节。 虽然马斯克是联合创始人,但后来被踢出了董事会,并且在OpenAI转变为盈利公司后,多次在公开场合批评和指责OpenAI失去初心,开始逐利。 随后,马斯克又转发了一条和OpenAI有关的内容,并配了个带单片眼镜的emoji表情,像是在疑惑。 这条内容是在说Sam拥有一家OpenAI的风险投资基金,这家基金截至去年已承诺投资1.75亿美元。 并且这家基金并没有由OpenAI来管理,只是“暂时”放在Sam的名下。 众所周知,Sam并不直接拥有OpenAI的股权,并且把自己通过YC基金对OpenAI投资的间接持有称为“不重要”,表示自己成立OpenAI就是因为喜欢AI。 而这则Sam拥有OpenAI风投基金的新闻曝出,马斯克又表示疑惑,可能想暗指Sam还是想要用OpenAI获利,并不是之前表现出“淡泊名利”的样子。 本以为马斯克嘲讽两条就结束了,谁知在有用户发布对比Sora和特斯拉FSD V12的推特后,马斯克又上线回复: 特斯拉大概在一年前就能生成真实世界的视频了,并且精准符合物理学。 但这并不是很有趣,因为所有的训练数据都来自汽车,所以视频也看起来像来自特斯拉车辆上的摄像头,尽管这是动态生成而不是记录下的世界。 那接下来就看看,Sora和特斯拉的能力对比到底如何? Sora是什么 Sora,OpenAI的首个视频生成大模型,或者说是文生视频大模型。 本质上是一个扩散模型(Diffusion models),基于不同时长、分辨率和宽高比的视频和图像训练得来。 官方只浅浅介绍了一些技术细节,其中比较关键的有patch、潜(latent),以及训练路线上的选择。 对应语言大模型中的token,OpenAI创造了patch这一概念,模型可以将视频压缩进低维潜空间中,并分解为Spacetime latent patches,统一不同的视觉数据表现形式。 也就是说,正如token可以简化、统一不同的自然语言,patch可以统一不同分辨率、时长和宽高比的视频和图像。 而这个视频压缩网络也是OpenAI特意训练的,用来降低视觉数据维度,并且训练也是基于该网络进行,可以减少计算量的压力。 并且,由于Sora的训练直接在视频数据的原始尺寸上进行,和其他模型不同,所以在输出结果上,Sora也能hold住各种分辨率、时长、宽高比、视角等等的视频。 同时还优化了构图和布局。比如业内同类型模型都会盲目裁剪输出视频为正方形,造成主题元素只能部分展示,但Sora可以捕捉完整的场景。 另外,Sora的技术还包含OpenAI之前在DALL·E 3、扩散型Transformer方面的技术积累和突破。 最终展示出的Sora,就不仅能够理解提示词中的要求,还了解这些物体在物理世界中的存在方式。 能理解纸飞机在林中穿过时会发生碰撞,同时光影也会发生变化。 一群纸飞机在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。 同时在单个视频中创建多个镜头,并靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。 美丽、白雪皑皑的东京熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。 不过,Sora现在并不完美。OpenAI指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。 例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。 还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。 如提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。 但这些缺点也没让各路大佬吝啬他们的赞美,比如纽约大学助理教授、ResNeXt一作谢赛宁直言,Sora将改写整个视频生成领域。 以上就是Sora当前展示出的能力,还有背后的技术,那么特斯拉的能力又如何? 特斯拉的视频生成能力 去年7月,特斯拉自动驾驶软件总监Ashok Elluswamy在CVPR2023的演讲中提到,特斯拉正在为其人工智能技术构建一个基础的世界模型(General World Model)。 根据他的介绍,该模型基于神经网络,使用过去的视频和其他事物为条件来预测未来。 该模型不仅能预测一个摄像头的视角,而是可以预测八个摄像头的视角(展示的是七个)。 比如对于同一段视频,该模型可以预测本车在“继续直行”和“向右变道”两种情况下,未来周围环境的演变。 这其实也就是一种基于文本生成不同视频的能力。 同时在不同摄像头视角之间,周围车辆的颜色可以保持一致,也就是符合3D物体移动的运动规律。 特斯拉这里还强调,我们并没有特意训练它在3D层面的能力,或者要求它表现出3D层面的能力,这意味着神经网络已经理解了深度、运动等物理概念。 并且,特斯拉的这个模型不局限于RGB数据维度,也可以是语义或者几何维度。 一句话总结就是,基于过去的视频,给出车辆行动提示,甚至不给提示,该模型可以预测不同的未来情况,以及生成视频。 那么既然特斯拉有了如此强大的模型,为什么之前并没有很多曝光度? 因为当时介绍时,Ashok直言这还是个“半成品”,关键是它可以提供一个神经网络模拟器,推演出不同的未来结果,跟踪道路中所有移动的物体。 并且,在马斯克这次展示自家视频生成能力时也坦言称,目前对于FSD训练的算力还不够,所以并没有用模型生成的视频进行训练。 不过马斯克也表示,特斯拉是可以训练的,在今年晚些时候,当公司有空余算力了就会开始。 到这里其实能看出特斯拉的世界模型和Sora之间的相似点,都是通过视觉让AI能够理解甚至模拟真实的物理世界。 只不过OpenAI在探索过程中,先放出Sora给世界带来一点震撼;而特斯拉把这个能力运用在了探索自动驾驶,通过纯视觉方案,以及视频数据训练出的端到端神经网络,FSD V12已经能比肩老司机。 所以FSD和Sora,不过是AI通过视觉认知世界理解世界上的两个开花结果,FSD最终用来行动,Sora则是用来生成视频。 殊途同归。 马斯克的认知,确实了不得。
有多少中国人,把乌克兰网红的脸做成了带货工具?
也许你还记得,在去年六月,有一群中国人利用特效换脸,开始假装俄罗斯人带货。 从室内到户外,从城市到农村,他们活跃在在每片能支棱起手机拍视频开直播的土地上,操着一口带有浓郁方言味的普通话,在商品橱窗里上链接。 他们的视频和直播里,没有什么狠活。 总结起来就一句话, “ 我,俄罗斯人,喜欢中国,打钱 ” 。 我本以为,随着那篇报道的结束,中国人假冒毛子的故事就告一段落。 但我万万没想到,在 2024 年,这个套路他 360 度大升级了。 具体是咋回事呢? 这两天,一个叫 Olga Loiek 的乌克兰女孩发了条视频,说有个朋友给她发个链接,自己一看,人都傻了。 好家伙,我怎么在中国咔咔带上货了?? 原来在小红书上,有这样一类账号,天天就是一个长相完全一致的金发美女,变着法的讲中俄友谊长存,三句离不开谢谢中国。视频结尾,还会给你介绍下俄罗斯的美食。 而看视频的老铁们,自然也要照顾下大妹子的生意。 是的,成百上千万中国观众看到的这张侃侃而谈的 “ 脸庞 ” ,就是 Olga Loiek 。 反观 Olga ,自己还没在 YouTube 上赚到半毛钱呢。 而且更尴尬的是,脸被别人偷去用来带货不说,作为一个乌克兰人,人设还是个俄罗斯人,带得还都是人俄罗斯的土特产。。。这找谁说理去。 如果你没法和这个女孩共情,不妨可以设想一下,一个美国人顶着你的脸,假装自己是日本人,变着法吹日本。 然后他还利用你的脸,从其他美国人手里,赚了你这辈子都不一定能赚到的钱,在视频评论区里,观众们刷的都是 “ 你好日本,爱来自美国 ” 。 你气不气? Olga Loiek 也不是唯一一个倒霉蛋,另一位来自瑞典的网红拉纳布莱克利的脸,也被移花接木到了中国人脸上。 在视频里, “ 她 ” 大谈中国人的勤劳善良,并且嫁给中国老公,余生在中国定居。 看完视频的网友也不知道自己成了即将被噶的韭菜,还在问她喜欢中国哪个城市。 在抽查了几个被 Olga Loiek 展示的账号之后,我发现这些假冒外国人的中国账号,有些已经在各大平台注销掉了,但还有一些依旧逍遥法外。 可世上只有千日做贼,哪有千日防贼。 AI 技术的发展速度,明显比人类目前的应对速度要快。 在一年前, AI 技术还是被网友嘲笑的对象,网友看了也只会觉得这辈子的恐怖谷效应都犯完了。 然而现在, AI 技术已经可以产生以假乱真的效果了。 变化总是在悄无声息中进行,在 AI 技术日渐进步的今天,眼睛和耳朵,正在逐渐失去辨别能力。 人的知觉,正在信息时代的冲击下 “ 被退化 ” 。 看到这,估计很多差友会觉得这些事都离自己太远,比如那个假冒的乌克兰女孩,懂行的一看就知道了,完全骗不到自己啊? 那你再试试这个呢? 如果你比较关注游戏杂谈,那你可能还记得一个叫做敖厂长的视频博主,他因为几波舆论潮,基本败完了自己的口碑。 在去年,他先后停止了 B 站和抖音的更新,悄无声息的从网友的关注列表里消失了。 可就在前两天,一位 B 站 UP 主用自研 AI 文本转语音技术,搭配上他原有的文案和剪辑风格,愣是复刻了一整个 UP 主敖厂长出来,给我看恍惚了。 弹幕里都在刷 “ 亡灵法师 ”“ 招魂成功 ” 。 在这个 UP 主页贴出的网址中,还能找到更多奇奇怪怪的 AI 音声,比如丁真、科比、孙笑川,以及一些知道这个网站八成要发律师函的明星们。 那么,使用 AI 生成一个人的音声,要搜集多少真人的声音呢? UP 主在视频介绍中,给出的答案是:5 秒。 没错,你只要说 5 秒钟的话,你的声音就可能已经被克隆了。 如果以上的技术,能够用在发展生产力,推动社会进步上,那勉强还能算是最好的结局。 但你要知道,现在的 AI 技术,已经越来越下沉。 第一天出了个厉害的 AI 软件,第二天使用教程就有博主给你发抖音了,简直就是手把手教学,从入坑到精通给你安排的明明白白。 不可否认,这是一件好事,可它也把人心底的阴暗面一点点放大,最后形成公共事件。 前几天, AI 生成的泰勒斯威夫特虚假不雅照片,在整个网络上疯传,甚至惊动了美国白宫。 白宫新闻发言人卡里娜 · 让 - 皮埃尔警告 AI 生成照片的传播 “ 令人担忧 ” ,并敦促社交媒体公司防止此类错误信息的传播。 泰勒这事为啥这么爆炸?毕竟早在 PS 时代,就有很多女性饱受换脸的困扰了对吧? 但在 AI 时代,照片里的所有细节都可以被精心定制。 泰勒这次,就是因为交了一个橄榄球星男朋友,被生成出了在橄榄球更衣室里的照片。。。 换谁不急眼? 后来也是由于类似的图片过多,推特一度封锁了对斯威夫特的相关搜索。 为什么全美国因为这事都开始变得神经兮兮,因为大家都清楚,今天是泰勒,明天可能就是自己。 而且 AI 干的坏事,也不只是下三路,它的能量比你想的庞大。 在中国香港,发生过一起 AI“ 深度伪造 ” 诈骗案。 诈骗者就是通过 AI 技术,把网上搜集到的跨国公司总部高层的声音和面貌,替换到自己身上,然后,简简单单从该公司的香港分公司骗走了 2 亿港元,甚至,公司财务连老板的人脸和声音都没看出来有啥异常。 你以为 AI 也就到这种程度吗? 别忘了, 2022 年,乌克兰总统泽连斯基 “ 呼吁乌克兰士兵放下武器投降 ” 的视频在网上传播。 这条十分整蛊的视频,逼到乌克兰国防部都要站出来声明 “ 这是不可能的 ” 。 由此可见,从个人到团体,甚至是国家之间的战争,每个能钻的空子,都成为了 AI 的突破口。 更可怕是,到目前为止,还没有一个特别好的招儿能防让住人用 AI 干坏事。 网络安全业内人士,i春秋的朋友小傲( 化名 )就告诉世超,反 AI 犯罪的难点主要有两方面,一个是技术层面,一个是经济层面。 在技术层面上, AI 生成内容的识别难度大,特别是 AI 越发展,肉眼能识别出来的概率也越小,这种时候就只能上机器。 而在经济层面上,用 AI 来犯罪并不是难事也不需要花什么钱,但用 AI 来反 AI 的成本就高了,你得砸钱出力去搞研究。 现阶段,国内外有不少监管机构和公司在想法子拴住 AI ,去年公安部就端了个用 AI 写勒索病毒的团伙。 市面上,也有不少检测 AI 生成内容的工具,但效果还不好说。 像 OpenAI 之前就推出过一款文本检测工具,但因为检测错误率太高偷偷给下架了。。。 两年前,微软还有 BBC 等几家科技公司和媒体一起合作,成立了个内容来源和真实性联盟 ( C2PA ) 。 有了 C2PA 协议之后,内容是谁创作的,历史的修改记录,都会被记录下来。就相当于给生成的内容,打上了一层看不见的水印。 但用小傲的话来说, C2PA 这玩意属于防君子不防小人,大厂守规矩,不代表很多开源调出来的小模型,也会遵守协议。 而且, C2PA 现在还有不少 Bug ,像一截图水印就没了,要生效也得好几个平台都使用协议才行。 所以很残酷的一个现实是,现阶段咱们没法儿杜绝 AI 干坏事。 关键在于, AI 技术发展得实在是太快了, AI 生成的内容越来越逼真,生成的门槛却越来越低,就像 Sora 问世后,大家都在说 “ 现实,不存在了 ” 。 不可否认,之后的立法、反 AI 技术肯定会跟上,但这种敌在暗我在明的情况,监管就很被动了。 这就像一场猫鼠游戏, AI 知道规则就会绕过去,人类再设置新的规则,这场游戏,或许永无止境。 我们能做的,除了多加分辨,就只剩下下载国家反诈中心 App 了。 撰文:张大东&江江 编辑:莽山烙铁头 封面:焕妍
三星Galaxy Fit3健身手环宣传物料曝光:宽46%、薄10%,满电续航13天
IT之家 2 月 19 日消息,三星 Galaxy Fit3 健身手环的更多宣传图曝光,信息显示这款健身手环配备 1.6 英寸 sAMOLED 显示面板,分辨率为 256*402,像素密度为 302ppi。 三星 Galaxy Fit3 健身手环尺寸为 42.9 x 28.8 x 9.9 毫米,重量仅为 36.8 克。在做工方面,显示屏将采用 2.5D 玻璃,表身将由铝合金制成。 功能方面,三星 Galaxy Fit3 健身手环一个全触摸显示屏和一个侧面按钮。该健身手环配备了 16MB RAM 和 256MB 存储空间。这款智能手环还具有 IP68 等级和 5ATM 防水能力,非常耐用。 该手环内置 208 毫安时电池,常规使用满电情况下可持续使用 13 天。此外该手环支持 101 种锻炼模式和 6 种自动跟踪模式。正如早些时候透露的那样,该设备将有三种颜色可供选择:灰色、银色和粉金色。 说到它的健康功能,它的日常监测系统包括活动和步数跟踪器、心率和压力跟踪器,以及一个新的血氧和周期跟踪器。持续睡眠管理系统也是该设备的一部分,它将包括血氧和打鼾检测、睡眠评分和分析以及睡眠教练等功能。 除了上述 101 种锻炼模式和 6 种自动跟踪模式外,智能手环的用户还可以在连接的手机上查看最近和过去的锻炼情况。 IT之家从报道中获悉,Galaxy Fit 3 与之前的 Galaxy Fit 2 相比,宽度增加了 46%,厚度减少了 10%(9.9 毫米),并采用了更耐用的铝制机身。此外,还增加了更多的手表界面(100 种可定制的手表界面)。 在健康方面也有重大改进。锻炼模式从以前的 90 种增加到现在的 101 种,自动检测模式也从以前的 5 种增加到 6 种,并改进了 11 种连续 / 同步监测功能和更先进的睡眠指导功能。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。