行业分类:
加载中...
头条分类:
加载中...
Sora到底懂不懂物理世界?一场头脑风暴正在AI圈大佬间展开
Sora 到底是不是物理引擎甚至世界模型?图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。 最近几天,OpenAI 发布的视频生成模型 Sora 成了全世界关注的焦点。 和以往只能生成几秒钟视频的模型不同,Sora 把生成视频的长度一下子拉长到 60 秒。而且,它不仅能了解用户在 Prompt 中提出的要求,还能 get 到人、物在物理世界中的存在方式。 以经典的「海盗船在咖啡杯中缠斗」为例。为了让生成效果看起来逼真,Sora 需要克服以下几个物理难点: 规模和比例的适应:将海盗船缩小到能够在咖啡杯中缠斗的尺寸,同时保持它们的细节和结构,是一个挑战。AI 需要理解和调整这些对象在现实生活中的相对尺寸,使得场景在视觉上显得合理;流体动力学:咖啡杯中的液体会对海盗船的运动产生影响。AI 模型需要模拟液体动力学的效果,包括波浪、溅水和船只移动时液体的流动,这在计算上是复杂的;光线和阴影的处理:为了使场景看起来真实,AI 需要精确地模拟光线如何照射在这个小型场景中,包括咖啡的反光、船只的阴影,以及可能的透光效果;动画和运动的真实性:海盗船的运动需要符合真实世界的物理规律,即使它们被缩小到咖啡杯中。这意味着 AI 需要考虑到重力、浮力、碰撞以及船体结构在动态环境中的行为。…… 虽然生成效果还有些瑕疵,但我们能明显感觉到,Sora 似乎是懂一些「物理」的。英伟达高级研究科学家 Jim Fan 甚至断言,「Sora 是一个数据驱动的物理引擎」,「是一个可学习的模拟器,或『世界模型』」。 部分研究者同意这样的观点,但也有不少人反对。 Yann LeCun:生成视频的过程与基于世界模型的因果预测完全不同 图灵奖得主 Yann LeCun 率先亮明观点。在他看来,仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。 他接着讲到,模型生成逼真视频的空间非常大,视频生成系统只需要产生一个合理的示例就算成功。不过对于一个真实视频而言,其合理的后续延续空间却非常小,生成这些延续的代表性片段,特别是在特定行动条件下,任务难度更大。此外生成视频的后续内容不仅成本高昂,实际上也毫无意义。 因此,Yann LeCun 认为,更理想的做法是生成视频后续内容的抽象表达,并消除与我们可能所采取动作无关的场景中的细节。 当然,他借此又 PR 了一波 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构),认为上述做法正是它的核心思想。JEPA 不是生成式的,而是在表示空间中进行预测。与重建像素的生成式架构(如变分自编码器)、掩码自编码器、去噪自编码器相比,联合嵌入架构(如 Meta 前几天推出的 AI 视频模型 V-JEPA)可以产生更优秀的视觉输入表达。 图源:https://twitter.com/ylecun/status/1758740106955952191 François Chollet:只让 AI 看视频学不成世界模型 Keras 之父 François Chollet 则阐述了更细致的观点。他认为,像 Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形? Chollet 强调,这些问题至关重要,因为它们决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。 Chollet 通过海盗船在咖啡杯中缠斗的例子,讨论了模型能否准确反映水的行为等物理现象,或者仅仅是创造了一种幻想拼贴。这里,他指出模型目前更倾向于后者,即依赖于数据插值和潜空间拼贴来生成图像,而不是真实的物理模拟。有人将这种行为类比为人类做梦,认为 Sora 其实只是达到了人类做梦的水平,但是逻辑能力依然不行。 Sora 生成的人类考古视频,椅子在画面中凭空出现,而且不受重力影响漂浮在空中。 Chollet 指出,通过机器学习模型拟合大量数据点后形成的高维曲线(大曲线)在预测物理世界方面是存在局限的。在特定条件下,大数据驱动的模型能够有效捕捉和模拟现实世界的某些复杂动态,比如预测天气、模拟风洞实验等。但这种方法在理解和泛化到新情况时存在局限。模型的预测能力依赖于其训练数据的范围和质量,对于那些超出训练数据分布的新情况,模型可能无法准确预测。 所以,Chollet 认为,不能简单地通过拟合大量数据(如游戏引擎渲染的图像或视频)来期望得到一个能够泛化到现实世界所有可能情况的模型。这是因为现实世界的复杂性和多样性远超过任何模型能够通过有限数据学习到的。 田渊栋:学习物理需要主动学习或者策略强化学习 针对 Jim Fan 的观点,一些研究者提出了更激进的反驳,认为 Sora 并不是学到了物理,只是看起来像是学到了罢了,就像几年前的烟雾模拟一样。也有人觉得,Sora 不过是对 2D 像素的操纵。 图源:https://twitter.com/IntuitMachine/status/1758845715709632873 当然,Jim Fan 对「Sora 没有在学习物理,而只是操纵 2D 像素」这一说法进行了一系列反驳。他认为,这种观点忽略了模型在处理复杂数据时所展现出的深层次能力。就像批评 GPT-4 不是学习编码,只是随机挑选字符串一样,这种批评没有认识到 Transformer 模型在处理整数序列(代表文本的 token ID)时所表现出的复杂理解和生成能力。 图源:https://twitter.com/DrJimFan/status/1758549500585808071 对此,谷歌研究科学家 Kevin P Murphy 表示,他不确定最大化像素的可能性是否足以促使模型可靠地学到精确的物理,而不是看似合理的动态视觉纹理呢?是否需要 MDL(Minimum description length,最小描述长度)呢? 图源:https://twitter.com/sirbayes/status/1759101992516112864 与此同时,知名 AI 学者、Meta AI 研究科学家田渊栋也认为,关于 Sora 是否有潜力学到精确的物理(当然现在还没有),其背后的关键问题是:为什么像「预测下一个 token」或「重建」这样简单的思路会产生如此丰富的表示? 他表示,损失函数如何被激发的并不重要,损失函数的设计动机(无论多么哲学化或复杂)并不直接决定模型能否学习到更好的表示。事实上,复杂的损失函数可能与看起来很简单的损失函数实际上产生了类似的效果。 最后他称,为了更好地理解事物,我们确实需要揭开 Transformers 的黑匣子,检查给定反向传播的训练动态,以及如何学习隐藏的特征结构,并探索如何进一步改进学习过程。 图源:https://twitter.com/tydsh/status/1759293967420805473 田渊栋还表示,如果想要学习精确的物理,他敢打赌需要主动学习或者策略强化学习(无论如何称呼它)来探索物理的精细结构(例如物体之间的相互作用、硬接触)。 图源:https://twitter.com/tydsh/status/1759389064648888395 其他观点:Sora 被认为是「数据驱动的物理引擎」太荒谬 除了众多 AI 圈大佬之外,也有一些专业性的观点开始反驳 Sora 懂物理引擎这一说法。 比如下面这位推特博主,他认为 OpenAI 是数据驱动的物理引擎这一观点是荒谬愚蠢的, 就好像收集了行星运动的数据并将它们喂给一个预测行星位置的模型,然后就得出该模型内部实现了广义相对论的结论。 图源:https://twitter.com/ChombaBupe/status/1759226186075390033 他称,爱因斯坦花了很多年时间才推导出了重力理论的方程。如果有人认为随机梯度下降(SGD)+ 反向传播仅凭输入输出对就能理解一切,并在模型训练中解决问题,那这个人对于机器学习的理解是有问题的,对机器学习的工作方式了解也不够。 爱因斯坦在理论推导中对现实做出了很多假设,比如光速恒定、时空是灵活的结构,然后推导出了微分方程,其解揭示了黑洞、引力波等重大发现。可以说,爱因斯坦利用因果推理将不同的概念连接了起来。 但是,SGD + 反向传播并不是这样,它们只是将信息压缩到模型权重中,并不进行推理,只是更新并转向实现具有最低误差的参数配置。 他认为,机器学习(ML)中的统计学习过程可能会显然低误差「盆地」,即无法探索不同的概念, 因为一旦陷入这些低误差「盆地」或者局部最小值就无法重新开始。 因此,SGD + 反向传播发现了看似有效但却很容易崩溃的、脆弱的解决方案捷径。这就是为什么深度学习系统不可靠并且实际训练起来很难,你必须在现实中不断更新和训练它们,这就很麻烦。 梯度下降的工作原理就像一只苍蝇寻找气味源一样,即苍蝇跟随空气中的化学浓度向下移动,从而引导它导向气味源。但如果仅依赖这种方式,则很容易迷路或陷入困境。 在机器学习中,模型的可调节参数就像苍蝇,训练数据就像气味源,目标函数测量的误差就像气味。而调整模型权重的目的是向着气味源(这里是低误差,相当于更浓的气味)移动。 最后,他得出结论,如果认为机器学习模型仅仅通过训练行星运动的视频就能在内部学到广义相对论,那就更荒谬了。这是对机器学习原理的严重误解。 此外,有网友指出 Sora 视频示例中充满了物理错误,比如一群小狗在雪中玩闹的场景就很糟糕,大块雪的运动就完全违反了重力(是否真如此,有待判断)。 图源:https://twitter.com/MikeRiverso/status/1759271107373219888 Sora 到底懂不懂物理?将来会不会懂?「预测下一个 token」是不是通往 AGI 的一个方向?我们期待各路研究者进行进一步验证。
Sora来了,字节发力:张楠的重任和挑战
OpenAI再次引发全球注目。 北京时间2月16日,OpenAI发布了文生视频大模型Sora。从官方介绍看,Sora能够根据文本提示创建详细的视频,扩展现有视频中的叙述以及从静态图像生成场景,最长能生成60秒视频。 这熟悉的一幕,让人梦回2023年。彼时,ChatGPT引发了大模型的浪潮,掀起了全球范围内的AI军备竞赛。到了今年,OpenAI再次扔出一枚石子,在文生视频的池子里激起涟漪。 Sora让“一句话生成视频”变成可能,这是一场人工智能改变视频制作的革命,全球短视频巨头字节跳动也不能忽视这个浪潮。 图例 巧合的是,Sora问世一周前,字节跳动宣布了一项人事变动,原抖音集团CEO张楠宣布,自己已经辞去集团CEO一职,未来把精力聚焦在剪映的发展上。字节跳动CEO梁汝波表示,感谢张楠过去带领中国信息平台业务做出的贡献和突破,期待她在新岗位上再接再厉。 作为元老级员工,张楠已经加入字节跳动十年整,主导推出了抖音、火山等产品。她带领抖音完成了对竞争对手的反超,成为字节跳动实现二次飞跃的关键人物。如今,抖音的日活已经超过6.5亿,成为全球范围内短视频领域的佼佼者。 高层的变动常常伴随业务的调整,让最熟悉抖音生态的人来负责剪映,字节跳动的目标很明确,要在AI文生视频制作方面抓住新的爆发机遇。 据时代周报报道,接近剪映的人士透露,过去一年,张楠已经把绝大多数精力倾斜到剪映先关的业务上,并亲自带队寻求在AI辅助创作上有所突破,并即将推出一个AI生成和视频的产品。 ChatGPT和Sora给字节跳动带来了新的启发,也带来了更多压力。过去一年,字节跳动延续超级APP的逻辑,接连推出了多款基于AI技术的产品,分布对话、工具、互动剧情等多个类别,包括豆包、扣子等APP。 动作很多,但速度不快,成果不显,这让字节跳动感到焦虑。年初内部会议上,梁汝波把对技术部门的不满表达得很直白。他说,字节跳动居然直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司都是在2018年至2021年创立的。 AI风口下,字节还没能大力出奇迹,张楠再次担任了冲锋者的角色。能否带领剪映再次创造奇迹,对张楠和字节跳动来说至关重要,这决定了字节跳动能否走出增长困境,寻找到新的生机。 1、Sora来了,压力给到了字节跳动 一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包;她戴着太阳镜,涂着红色口红;她走路自信又随意…… 潮湿积水的街道倒映着上空的影像、女性皮肤上的毛孔清晰可见,如此逼真写实的视频画面,出自AI之手。 Sora示例视频,来源OpenAI官网 没有任何预告,OpenAI再放大招。北京时间2月16日OpenAI在社交平台X发帖,首次对外公布了名为Sora的文生视频AI模型。 Sora带来的震撼,不亚于去年的ChatGPT,瞬时成为开年最火爆的话题之一。 事实上,文生视频并非新鲜事物。在Sora发布前,根据知名投资机构a16z统计,截至2024年底,市场上共有21个公开的AI视频模型,包括大众熟知的Runway、Pika、Genmo以及Stable Video Diffusion等等。 但Sora为何会如此惊艳,并以颠覆性再次搅动AI行业?理解力、还原力是Sora效果超预期的核心。 OpenAI官网上的多段视频也证明了Sora的能力。两艘海盗船在一杯咖啡中航行,在泛白的咖啡泡沫中互相激斗;载满乘客的列车驶过光影交替的城市,车窗上投射出生动的车内倒影;舞龙队伍在周边人群的围观和随行中前进,远近透视真实感十足。 在视频时长上看,用户只需要输入一段文本,Sora就能自动生成最长一分钟的高清视频。这超出了市面上的大多数产品。根据a16z统计,现有的AI视频模型制作的视频长度大都在10秒以内,像此前大热的Runway Gen 2、Pika,其制作的视频长度分别只有4秒和3秒。 更重要的是,Sora对真实世界的理解能力和还原能力都超出了市面现有的大模型。 正如OpenAI在官方博客上写道,Sora不仅可以理解用户的需求,还知道这些事物在现实世界如何存在。具体而言,Sora不仅能实现一镜到底,还能完成多角度镜头、分镜头的切换,更能还原真实世界中的光影反射、人类行为等。 超预期的表现离不开技术支撑。据OpenAI介绍,因使用Transformer架构,Sora具有极强的扩展性,同时在基于过去对DALL·E和GPT的研究基础构建上还利用了DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注。 Sora的出现能否掀起中国乃至全球范围新一轮的AI军备竞赛尚不可知,但能生成60s视频的Sora,把压力实实在在给到了字节跳动。因为60s视频所处的赛道,正是字节跳动王牌业务抖音的大本营。 图源抖音官网 在抖音生态越来越丰富后,为了服务内容创作者,剪映也应运而生。背靠抖音的流量池,截至2021年,剪映的月活用户已经突破1亿,是国内最大的移动视频编辑产品。而TikTok在全球的风靡,也带动了剪映海外版CapCut的下载量激增。 剪映之所以能够如此风靡,原因在于降低了门槛,让普通人都能够更快更简单地产出视频内容。 而近两年,随着AIGC的火爆,视频制作门槛将被再次降低。这也是如今Sora对剪映产生威胁的核心原因:更多人将倾向于选择门槛更低,但效果更好的平台,剪映的用户将可能被AI视频生成产品抢走。 为了留住用户,同时也为了抓住新的机会,剪映布局AIGC几乎是必然。 2023年11月,剪映测试名为“Dreamina”的AIGC工具,用户只需输入一段文字,Dreamina即可生成四幅由AI生成的创意图像。这些图像可以从抽象、写实等多个维度生成,满足不同用户的审美需求。 彼时,据Tech星球报道,消息人士透露,该工具未来会用于抖音的图文或短视频的内容创作,丰富抖音在AI创造方面的内容库。 不过从效果来看,目前剪映面临和Runway、Pika、Genmo等产品一样的困境:视频的运动不自然,保真度不高、视角单一等问题,这些问题本质上是技术问题,Sora靠技术解决了这些问题,威胁到“剪映们”生存的同时,也给“剪映们”提供了思路。 今年,原抖音集团CEO张楠卸任,转而投入剪映的发展,透露出抖音乃至字节对AI创作的重视。值得关注的是,在张楠发给剪映的内部信中,张楠提到,AI图像生成技术正在内容创作工具行业带来巨大的变化和可能性。 如今,Sora的横空出世,给了字节跳动压力,它不能再慢了,而如何带剪映突围,则成了张楠新阶段的重任。 2、张楠要为字节跳动再次“开疆” 加入公司十年,原抖音集团CEO张楠算得上是字节跳动的功臣。某种程度上看,字节跳动短视频业务能够快速“开疆扩土”,靠的就是张楠。 2015年开始,张楠先是带着团队推出了火山小视频,上线后迅速爆火,日活跃用户很快突破5000万;2016年,张楠从0到1推出了抖音,为当下国内最火的短视频APP奠定了基础,如今抖音的日活超过了6.5亿。 2020年3月12日,字节跳动在成立八周年之际,宣布张楠担任字节跳动(中国)CEO,作为中国业务总负责人,全面协调公司中国业务的产品、运营、市场和内容合作,包括今日头条、抖音、西瓜视频、搜索等业务和产品。 张楠,图源字节跳动官网 没过多久,伴随字节组织架构调整,抖音从字节跳动旗下的APP成长为拥有复杂生态的抖音集团,旗下拥有抖音、火山、剪映、轻颜相机等多个APP,张楠出任抖音集团CEO。 身份的变化,让张楠更像是幕后掌控抖音全局的指挥官,而非冲锋陷阵的将军,但她始终是最了解抖音生态的人。 伴随市场环境的变化,抖音短视频的增长不及以前是事实,但抖音要为字节寻找新增量的目标没变。AI的东风越吹越大,原本是抖音视频创作工具的剪映站在风口之上,这是个机会,字节跳动必须抓住。 这时候,张楠的位置和角色很重要,最了解抖音的人,现在转去负责剪映。 离开自己一手带出来的抖音,张楠在告别文中表示,“在未来的十年再折腾一些我热爱的事情”。 张楠职位的变化,与其说是她离开抖音权力中心,不如说是被放在了新的关键位置上,也释放出字节要在AI领域突围的信号。 就在张楠辞任抖音CEO一周前,字节CEO梁汝波在字节举行的2024年度全员会上发表了“始终创业,逃逸平庸的重力”的内部讲话。 在这场分享会上,梁汝波多次提及“危机感”一词,梁汝波甚至还将“加强危机感”列入年度目标。他坦言,最大的危机感,是担心字节作为一个组织,正在变得平庸,无法取得新的突破。 字节跳动CEO梁汝波,图源字节范儿微信公众号 当短视频业务趋近天花板,字节需要找到新的增长点。当OpenAI的两枚炸弹证明了AI行业蕴藏的想象力,字节跳动作为一家拥有丰富内容生态的公司,拥有天然的AI使用场景,必须跟上AI的脚步,用AI技术为自身寻找突破。 “字节跳动是最好的平台,既有梦想,又务实的浪漫,我很期待和剪映的小伙伴们一起造梦,与这个AI的时代一起成长,共同绘制出脑海中的奇幻世界。”张楠如此写道。 这个AI梦,不只属于张楠自己,更肩负着字节跳动的希望。 3、AI时代,字节跳动的全球挑战 如果一家创业公司2023年上半年营收超越腾讯,2024年开年估值达到2250亿美元,位于全球独角兽榜首,那这家公司的年度关键词会是什么? 不是信心、不是振奋,字节跳动CEO梁汝波给出的答案是危机感。 梁汝波提到,组织上,字节跳动变得平庸:低效、迟钝、标准低;人才管理上,去肥增瘦效果不明显,对优质人才吸引力降低;业务上,核心业务领先不明显,其他业务需要突破。 “对机会敏感度不如创业公司”,公司业务上迟钝加重了梁汝波的危机感。对大模型的技术浪潮跟进太慢,就是梁汝波感到危机的原因之一。 2023年,由OpenAI开启了“ChatGPT热”,也掀起了全球范围内的GPT竞赛,国内外多个知名互联网巨头都推出了自研大模型产品。 回看字节跳动的动作:2023年1月组建了首个大模型团队,将远在新加坡负责TikTok技术负责人朱文佳调回国内担任团队的业务负责人;2023年5月,字节跳动创始人张一鸣忙着研究OpenAI的一系列论文,并且常常读至深夜。 只是,相比字节跳动曾经的战斗力,在新的AI时代,字节跳动似乎没能一鸣惊人。 图源字节跳动官网 当其他公司都在加入大模型竞赛,一个接着一个产品陆续推出后,字节跳动在2023年8月才推出自研大模型“云雀大模型”。在此之后,字节跳动的AI动作才变得快速而频繁起来。 先是AI对话产品“豆包”开启测试,它的前身是字节内部代号为“Grace”的AI项目,可以生成歌词、小说、文案等文本内容,还可以提供数学计算、翻译、英文写作等功能;后有扣子、AI角色互动APP“话炉”、AI产品“PicPic”等产品进入内测和研发阶段。 目前,字节在国内外已上线十余款AI产品,除了上述提到的产品,还有“AI搜”、 AI情绪伴聊机器人的“抖音小晴”、 针对电商内容创作的产品“即创”、AI工具合集小悟空(ChitChop)、 AI 剧情互动平台BagelBell等。 这些产品的背后,是一个全新的AI部门Flow,也是字节在AI时代的排头兵。据36氪报道,Flow部门技术负责人为字节跳动技术副总裁洪定坤。一位知情人士告诉36氪,这一新部门的业务带头人,为字节大模型团队的负责人朱文佳;据Tech星球报道,字节跳动产品与战略副总裁朱骏已负责Flow部门的产品线。 调用多名主力干将,字节发力AI的意图已经十分明显。只是,虽然在AI的投入不少,但字节系产品要突围并不容易。比如,“豆包”的推出不仅比ChatGPT晚了八个月,从效果上看,多家媒体评测结果显示,“豆包”的智能化水平在大模型C端助理类产品中没有明显优势。 图例 一个明显的变化是,到了AI时代,字节跳动还处在追随者的角色,且尚未有弯道超车的迹象。 而放眼TikTok在全球的发展,要面对的挑战和竞争也不少。在这种情况下,字节跳动在AI时代还没有自己的独特优势,甚至有可能被新技术颠覆,这或许正是梁汝波的危机感所在。 “字节跳动目前的业务有非常大的惯性,哪怕团队不额外努力,公司仍然可以依赖惯性滑行很长一段时间,但这是很危险的。” 梁汝波提到。 在过去的十年,字节跳动抓住了短视频时代的红利,而下一个十年,如何在AI时代,从追随者变成创造者,保持创业状态继续突围,考验着字节跳动。正如梁汝波所说,只有保持危机感和始终创业的心态,字节跳动才能“逃逸平庸的重力”。
AI创业冰火两重天:Sora降世资本狂欢,数家创企倒闭关门
AI创企,陷入冰火两重天。 这一边,OpenAI甩出文生视频大招Sora,继GPT-4之后再度掀起生成式AI热潮,引发文生视频概念股集体涨停。 ▲Sora概念/文生视频股票表现(图源:同花顺) AI相关投融资也迎来一波小高峰。近期,国内大模型创企月之暗面传出融资超10亿美元,加拿大AI创企Cohere被曝正洽谈5-10亿美元新融资,Quora、Sakana等AI创企接连拿下数千万美元融资。 据智东西不完全统计,2023年11月-2024年1月全球共诞生4家AI独角兽,包括美国AI语音合成公司ElevenLabs、印度AI模型创企Krutrim、法国开源模型创企Mistral AI以及国内大模型创企零一万物。随着新融资尘埃落定,月之暗面等公司也有望立刻升级为新晋A1独角兽。 就在昨晚,ElevenLabs凭借Al配音版Sora视频出圈,再吸一波热度。 与此同时在另一边,不少AI创企走向下坡路。它们或是被曝寻求收购,或是大幅裁员,更有甚者直接走入“坟墓”。据智东西不完全统计,2023年11月-2024年1月,全球有AI新闻创企Artifact、AI医疗公司Olive等4家AI创企宣布关停。 OpenAI、谷歌等频放大招,凭借技术积累、人才储备、庞大的资本和生态影响力等优势挤占小型创业公司的生存空间,更是让一些创企的生存状况岌岌可危,随时面临被“秒杀”的危机。 AI创企呈现出两极分化的现象。在AI这把火“狂飙”之际,有几家欢乐几家愁?新晋独角兽们在哪些方面表现突出,走向灭亡的创企又是遇到了哪些困境?它们之间有什么相似或不同点?AI创企在生存路上都面临哪些难题,该如何去解决?一起来看看数据背后的真相。 01.AI创企之火:OpenAI新模型席卷全球, 4家独角兽来势汹汹 要说春节期间,AI领域最受关注的是什么,无疑是OpenAI在大年初七放出的文生视频模型Sora。(Sora爆火48小时:杨立昆揭秘论文,参数量或仅30亿) 60秒时长、多角度镜头、3D仿真能力,Sora凭借惊艳的视觉效果迅速引爆科技圈。同时,OpenAI被曝完成一笔新交易,使其估值超过800亿美元,为2024的AI创业打响劲爆头炮。 与此同时,投资者对AI创企的热情明显见涨。2024年以来,获得人民币亿元级别以上融资的AI创企包括大模型创企月之暗面、生成式AI创企Rasa、制造业AI平台Daedalus、AI编程创企Codeium、大模型创企Sakana、AI平台Poe、AI法律创企Robin AI、AI语音克隆创企ElevenLabs等。 AI热吸引了不少大佬出走创业。今年以来,前推特CEO帕拉格·阿格拉瓦尔(Parag Agrawal)、DeepMind科学家洛朗·西弗雷(Laurent Sifre)和卡尔·图尔斯(Karl Tuyls)、OpenAI联创安德烈·卡帕蒂(Andrej Karpathy)等纷纷创办AI公司。 AI创企高歌猛进,涌现出不少新晋的独角兽。据智东西不完全统计,2023年11月-2024年1月全球有4家AI创企估值达到10亿美元。2月以来,新融资的月之暗面等公司有望立刻成为新晋独角兽,此外,Sora的爆火可能为文生视频赛道进一步吸金。 ▲近期新晋独角兽的AI创企名单(智东西统计制表) 这些创企来自全球各个地区,共同点是均在极短的时间内就跻身独角兽,最慢的也不到两年。根据其主要业务可以看出,AI热门赛道不仅有文生视频,还有基础模型、AI语音克隆、AI基础设施等。从这些创企的创始人背景、具体赛道、商业模式等方面,我们尝试探讨它们为何能在现阶段取得市场认可。 1、ElevenLabs:半年估值增至10倍,AI语音克隆赛道首个独角兽 ElevenLabs成立于2022年4月,主要业务是开发AI语音合成模型和软件,创始人皮奥特·达布科夫斯基(Piotr Dabkowski)和马蒂·斯坦尼斯泽斯基(Mati Staniszewski)分别来自谷歌和大数据公司Palantir。 在Sora发布两天后,ElevenLabs迅速蹭了一波热度,为Sora的无声演示Demo添加了各种音效和解说,并预告AI音效功能即将推出。 截至目前,ElevenLabs共获得3轮累计1.01亿美元融资,在今年1月获得风投机构a16z(Andreessen Horowitz)等领投的8000万美元时,估值达到11亿美元,晋升独角兽。 ▲ElevenLabs融资情况(图源:Crunchbase) 目前ElevenLabs最主要的产品是文字转语音合成工具,其支持中文、英文等29种语言,并提供1000+种声线,用户也可以上传自定义声音进行克隆。 面向不同类型的客户,ElevenLabs提供从月费5美元至330美元的不同订阅计划,企业用户还可以根据需求进行个性化定制。 ▲ElevenLabs定价(图源:ElevenLabs) 2、Mistral AI:半年融资38亿,英伟达加注“欧洲版OpenAI” Mistral AI是一家法国创企,成立于2023年4月,联合创始人阿瑟·门什(Arthur Mensch)来自谷歌DeepMind,纪尧姆·兰普(Guillaume Lample)、蒂莫西·拉克鲁瓦(Timothée Lacroix)则来自Facebook,也就是现在的Meta。 ▲从左至右依次是兰普、门什、拉克鲁瓦(图源:David Atlan) Mistral AI的主要业务是构建开源AI模型。2023年12月,它凭借MoE(混合专家模型)Mixtral 8x7B在小型模型领域杀出一条“血路”,测评成绩直追GPT-3.5。 成立不到一年,Mistral AI已完成2轮共计5.28亿美元融资,光速创投、a16z、英伟达、Salesforce等知名投资者都加注其中。 ▲Mistral AI主要投资者(图源:Crunchbase) 据光速创投信息,在DeepMind工作期间,门什是Retro、Flamingo和Chinchilla等项目的主要贡献者,在优化大型语言模型方面积累了丰富的经验;兰普和拉克鲁瓦则一起领导了开源模型Llama的开发。 3、零一万物:李开复领军,创始团队“大佬”云集 零一万物成立于2023年5月,专注于开发大语言模型,其创始人李开复曾任谷歌、微软全球副总裁。 ▲李开复(图源:领英) 2023年3月,李开复曾发布“英雄帖”宣布入局AI创业并招募人才。短短数月,零一万物便攒出了一个由数十名核心成员组成的联创团队,团队成员的履历十分亮眼,包括前阿里巴巴副总裁、前百度副总裁、前滴滴/百度首席算法负责人、前谷歌中国高管、前微软/SAP/Cisco副总裁等多位大厂出走的高管。 成立仅半年,零一万物于11月宣布以超10亿美元估值完成了阿里云领投的天使轮融资,融资金额未披露。同时,零一万物发布了首款开源大模型Yi系列,包括60亿参数、340亿参数两个规模,支持中英双语。Yi模型发布没几天就陷入套壳Llama的争议,但零一万物给出澄清,经由国际国内法律研判确认不涉及套壳、抄袭。 4、Krutrim:4年创造网约车独角兽的CEO,用7个月孵化印度首个AI独角兽 Krutrim成立于2023年4月,创始人是印度电动车独角兽Ola联创兼CEO巴维什·阿格瓦尔(Bhavish Aggarwal)。其官网显示,公司的主要业务包括提供用于构建生成式AI应用程序的基础模型、用于AI计算的云基础设施以及针对AI计算优化的芯片开发和制造。 2023年12月,Krutrim推出首个同名大型语言模型及生成式AI平台,支持约22种印度语言,能生成印地语等10种语言的文本,并预计于今年第一季度推出更大的模型Krutrim Pro。 ▲Krutrim聊天机器人使用示例(图源:Krutrim) 截至目前Krutrim共获得2轮融资,总计7400万美元,均由经纬创投(Matrix Partners)领投,阿格瓦尔以个人名义参与了第2轮投资。 ▲Krutrim融资情况(图源:Crunchbase) 这些迅速成为独角兽的创企有一个共同点,那就是创始团队的背景都十分亮眼,要么是知名的大厂高管,要么是大厂出走的顶尖技术人员。 具体来看,不同赛道的AI创企都可以得到市场认可。这几家独角兽分别聚焦AI语音合成、大模型、AI基础设施等不同细分赛道,且相比竞品较早拿出了体现差异化的产品。 它们各自有不同的有力竞争点,如ElevenLabs有着完善的商业模式,Mistral AI、零一万物的大模型霸榜多个榜单,Krutrim则资源集中、以印度本土的数据为重点。 02.AI创企之冰:小至8人团队, 大至千人公司,接连出局 逆水行舟,不进则退。Sora横空出世,此前的文生视频顶流工具Runway、Pika、PixVerse等瞬间从“香饽饽”变得“黯然失色”。从目前表现来看,后者无论是视频时长、文字理解力还是视觉效果都遭到降维打击。 正如此前OpenAI推出GPT商店时引发AI创企“哀鸿遍野”一样,此次OpenAI、谷歌、Meta几乎同一时间接连发布重磅模型,再次引发业界争论:AI创企还有出路吗? 这个问题的答案我们目前还不得而知,但能够确认的是,在一些AI创企砥砺前行的同时,已经有一些企业走上了下坡路。 首当其冲的是明星独角兽Stability AI,虽然其一直在不断发布新模型,但持续的高管离职、投资者的质疑体现了其内部管理的混乱。 2023年11月,Stability AI被曝出由于财务状况压力巨大正在寻求出售。此外,其重要投资者美国对冲基金Coatue Management还在10月致信管理层,要求CEO埃马德·莫斯塔克(Emad Mostaque)辞职。 Stability AI不是唯一被曝考虑出售的AI创企。据外媒The Information报道,近几个月来,AI搜索创企Perplexity至少与4家公司讨论了收购事宜,企业级AI助手Writer已与3家寻求收购的公司接洽。 大比例的裁员也是AI创企泡沫破裂的迹象之一。生成式AI独角兽Jasper、AI语音识别创企Deepgram等首批明星AI创企在近半年纷纷宣布裁员。 下坡路的尽头是创企的坟墓。据智东西不完全统计,2023年11月-2024年1月,有4家AI创企宣布关停。其中有大厂独立出来的团队,有明星产品创始人新成立的公司,也有已经走过十余年的“老牌”企业。 ▲近期关停的AI创企名单(智东西统计制表) 它们处于不同的赛道,关停的原因也各不相同,有的出于资金短缺,有的是因为没找准定位,还有创始人洋洋洒洒列举了12条“死亡原因”。通过其融资情况、产品表现、关停公告等,我们试图找到这些创企失败背后的深层次真相。 1、Artifact:社交巨头Instagram联创成立,8人团队一年解散 Artifact由社交平台Instagram联合创始人凯文·斯特罗姆(Kevin Systrom)和迈克·克里格(Mike Krieger)于2023年1月创立,主要业务是提供AI驱动的个性化新闻推荐。 谈及Artifact这个名字,斯特罗姆称,它代表了文章(Article)、事实(Fact)以及AI(Artificial Intelligence)的融合。简单来说,Artifact可以视作一种文字版抖音,它基于算法从精选的出版商列表中选取热门文章摘要,并随着用户观看记录和时间的推移自动调整算法。 ▲Artifact的两位创始人(图源:InnovationTrail) 虽然有着相同的创始人,但Artifact与Instagram的命运大相径庭。后者在成立不到两年、仅有13名员工时,被Facebook以10亿美元收购,而前者成立仅一年,8人团队就宣告走向“死亡”。 ▲Artifact宣布关停(图源:Artifact) 在宣布关停的博客文章中,斯特罗姆这样描述Artifact停运的原因:“虽然我们已经构建了拥有核心用户群体的内容,但最终得出的结论是,市场机会还不够大,不足以保证获得持续投资。” 2、Coqui:出身于Mozilla机器学习团队,或因资金不足关停 Coqui是从火狐浏览器母公司Mozilla机器学习小组独立出来的创企,由约书亚·迈耶(Joshua Meyer)等人于2021年成立,专注于构建快速语音克隆、文本转语音等领域的开源模型和应用。 2023年3月,Coqui获得330万美元的种子轮融资。但不到一年光景,2024年1月3日,迈耶在领英宣布Coqui即将关停。 ▲Coqui宣布关停(图源:领英) 在“告别”博客中,他提到Coqui作为一个“小团队”,创造了语音转文本模型DeepSpeech、文本转语音模型XTTS等优秀的开源模型,但并未明确关闭的原因。 不过,从Coqui的AI负责人埃伦·戈尔格(Eren Gölge)在GitHub社区上的回复来看,Coqui的停运很可能是由于资金短缺和商业化挑战。 在一名用户询问Coqui关闭后,语音合成项目是否会继续维护和改进时,戈尔格称暂时不打算主动维护,除非能找到一些赞助商,“现在DL(深度学习)太贵了。” ▲戈尔格回应是否会维护项目(图源:GitHub) 3、DataDistillr:创始人总结12条失败原因,缺乏变现手段居首位 DataDistillr成立于2020年8月,主要业务是面向企业的AI数据分析平台,其创始人查尔斯·吉夫尔(Charles Givre)是一位在网络安全领域有超过18年经验的数据工程师,曾担任摩根大通数据与分析副总裁、美国中央情报局分析师。 在成立同时以及2021年4月,DataDistillr分别获得160万美元、500万美元的种子轮融资,即便如此仍然走向了灭亡。2023年12月5日,吉夫尔在领英宣布DataDistillr关闭,并总结了12条失败的原因。 ▲吉夫尔宣布DataDistillr将关闭(图源:领英) 总的来说,吉夫尔认为DataDistillr的失败是由于未能实现产品与市场的契合。面对不断变化的市场条件,吉夫尔作为CEO没能带领团队构建正确的产品、有效地销售已有的产品。 吉夫尔总结的12条失败原因分别是:缺乏商业化变现计划、构建太多没有必要的功能、构建了错误的产品、缺乏营销计划、雇佣了错误的人、招聘太快/烧钱太多、没有合理利用外包、关注了错误的企业客户目标、没有采用构建-测量-学习循环(Build-Measure-Learn Loop)方法论、与投资者沟通不足、在潜在客户未付钱时就开始执行、非工资费用支出较多。 4、Olive:估值最高达到40亿美元,因增长过快分崩离析 Olive成立于2012年6月,是一家面向医疗保健行业的AI独角兽。2023年11月,新媒体网站Axios援引一份内部备忘录,报道了Olive即将把部分解决方案出售给两家公司,并关闭其他所有业务。 ▲Olive转发部分业务被收购的消息(图源:领英) 十年间,Olive共获得9轮融资,共计约8.56亿美元。其中最后一笔也是金额最高的一笔融资发生在2021年7月,使Olive估值达到40亿美元。 但一年之后,Olive逐渐分崩离析。2022年7月和2023年2月,Olive裁员450人、215人,给出的原因分别是公司的快速增长和缺乏重点使产品和工程资源紧张、持续的经济状况低迷以及对客户持续财务紧张的预期。 03.赛道选择、商业模式、“护城河”, AI创企生存路上的拦路虎 在AI创企的冰火两重天中,那些成功突围的企业往往具备一些共同的特质,而那些走向衰败的企业则在某些关键点上出现了失误。结合这些创企的失败教训和现阶段成功的经验来看,AI创企在生存路上至少需要克服这些难关: 首先,赛道的选择很重要。 “AI”是一个非常宽广的领域,每一个细分赛道的技术难度、市场规模等方面都有区别,并非所有赛道都适合一个新建立的团队。初创企业需要明确自己的目标和定位,结合市场需求,选择有潜力的、适合自己团队的细分市场。 如Artifact所选的“AI+新闻”赛道,虽然有一定的用户需求,但整体市场规模不够大。在外媒The Verge报道其关停服务的文章评论区,有不少用户扼腕叹息,表达自己对这个个性化新闻应用产品的喜爱。此外,它还曾获得苹果App Store的年度生成式AI趋势奖。可以看出,Artifact的失败不是由于产品做的不好。但与此同时,虽然背靠Instagram联创这样优秀的创始人,Artifact成立一年并未获得融资,这也反映了市场和投资者对其有所疑虑。 随着ChatGPT、Sora等生成式AI产品或模型越来越多地走入大众视野,现如今,相较于传统的决策式AI,搭上生成式AI顺风车的AI创企更容易起飞。 第二,建立自己的技术“护城河”。 在AI领域,技术创新是企业生存的关键。拥有核心技术和专利可以为企业构建强大的竞争壁垒,保护企业免受竞争对手的挤压。同时,持续的技术创新也是吸引投资和市场关注的重要因素。 OpenAI为自己建立了坚硬的“护城河”,Mistral AI、零一万物等也在试图建立自己的技术壁垒。放眼未来,AI创企需要不断加固迭代技术“护城河”,才能够持续发展。 ▲零一万物、Mistral AI模型在Hugging Face预训练开源大模型榜单名列前茅(图源:Hugging Face) 其次,从初期就要构建具体的商业模式。 “护城河”固然重要,但如果缺乏可持续的商业模式,一家创企也很难在竞争激烈的市场中站稳脚跟。 出于用户增长等方面的考虑,一些企业在成立初期对商业模式的构建不够重视。但“烧钱”只能带来短期的增长,无法支撑一家公司长远地走下去。创业公司从初期就应构建清晰的商业模式,不仅包括产品或服务的设计,还包括如何盈利、如何吸引和保留客户。 在DataDistillr的关停公告中,吉夫尔将没有制定收费计划列在了首位,“我们知道自己的产品需要收费,但具体如何收费以及收费内容决定得太晚了。”他提到,公司经常为客户提供免费试用,这涉及到大量客户成功工作。 ElevenLabs和Coqui同为AI语音合成赛道,发展却背道而驰。在Coqui宣布停运的帖子评论区中,很多用户感到遗憾,还有不少声音称Coqui的XTTS模型是自己用过最好的AI语音模型,这表明Coqui在技术层面并不弱。 表面来看,Coqui很可能是因为资金短缺而倒闭,但从更深层次去分析,一方面,Coqui成立3年仅获得330万美元融资,这表明它可能缺乏宣传和营销;另一方面,其社交平台X的“画风”比较偏向“技术流”,不时甩几个新模型的链接,而不是推出新的功能或产品改良,这表明它可能专注于技术研发而忽略了产品的设计与商业化运营。 第四,前期专注一小部分核心业务。 在资源有限的情况下,创企应该专注于发展自己的核心业务,避免资源分散。通过在某一核心领域深耕细作,公司可以快速地建立起品牌影响力和市场地位。 据外媒TechCrunch报道,Olive CEO莱恩在2022年6月的一次活动上透露,公司在寻找适合当前产品市场的战略方向时,前后进行了27次调整。同时,它试图扩展到医疗保健的不同领域,失去了对核心产品和客户的关注。在裁员时,莱恩公开承认公司在战略上的“失误”。 最后,避免过快的增长和扩张。 过快的增长往往伴随着风险。企业需要合理规划发展步伐,确保在扩张的同时有足够的资源和能力来支持,包括资金管理、团队建设、市场策略等方面,都需要有条不紊地进行。 Olive的倒闭就是最有力的证明。在2020年和2021年,Olive发展迅速,估值一度飙至40亿美元,公司也迅速扩张。但这带来的是产品和工程资源紧张,使得公司在关键计划的执行上变得困难。 04.结语:AI创业,机遇与挑战并存 AI创企的境遇两极分化,一方面反映了市场的残酷竞争,另一方面也展示了AI技术的无限潜力。对于那些能够在挑战中找到出路的创企来说,AI不仅是技术的前沿,更是商业的新蓝海。 随着技术的不断进步和市场的成熟,我们有理由相信,会有更多AI创企走进人们的视野。创始人们需要吸收过来人的经验教训,在实践中开辟自己的道路。
GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
今日GitHub热榜榜首,是最新的开源世界模型。 上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。 强大的模型,命名也是简单粗暴——没有任何额外点缀,直接就叫LargeWorldModel(LWM)。 LWM支持处理多模态信息,能在100万token中准确找到目标文本,还能一口气看完1小时的视频。 网友看了不禁表示,这种大海捞针般的测试,LWM能完成的如此出色,而且还开源,实在是令人印象深刻。 那么,LWM的表现到底有多强呢? 百万上下文窗口,可看1小时视频 在测试过程中,研究人员用多段一个多小时的视频检验了LWM的长序列理解能力,这些视频由YouTube上不同的视频片段拼接而成。 他们将这些视频输入LWM,然后针对其中的细节进行提问,涉及的片段位于整个视频的不同位置,同时研究者还将LWM与GPT-4V等模型做了对比。 结果GPT-4V是一问一个不吱声,闭源强者Gemini Pro和开源强者Video-LLaVA都给出了错误的答案,只有LWM回答对了。 在另一段视频的测试中,其他模型都说找不到有关信息,只有LWM找到了答案,而且完全正确。 不仅是理解细节,LWM也能把握视频的整体内容,做出归纳总结。 在理解的基础之上,LWM也可以结合自有知识进行推理,比如分析视频中不符合常理的地方。 Benchmark测试结果显示,LWM在MSVD-QA等三个数据集上的评分仅次于Video-LLaVA。 LWM不仅能理解长短视频,在超长文本任务上的表现同样优异。 在1百万token窗口的“插针”检索测试中,LWM取得了单针检索全绿的成绩。 多针检索时,表现也同样优异: 语言任务数据集的测试结果表明,LWM在32k到1M的窗口长度上表现不输甚至超过只有4k窗口的Llama2-7B。 除了多模态信息理解,LWM还支持图像和视频的生成,至于效果,还是直接上图感受一下吧。 那么,研究人员又是怎样训练出这样一款世界模型的呢? 循序渐进,分而治之 LMW的训练过程,大致可分为两个阶段。 第一阶段的目标是建立一个能够处理长文本序列的语言模型,以理解复杂的文档和长文本内容。 为实现这一目的,研究人员采取了渐进式的训练方式,使用总计33B Token、由图书内容组成的Books3数据集,从32k开始训练,逐步将窗口扩增至1M。 而为了增强LWM的长文本处理能力,开发者应用了RingAttention机制。 RingAttention是该团队去年提出的一种窗口扩增方式,入选了ICLR 2024。 它运用了“分而治之”的思想,将长文本分成多个块,用多个计算设备做序列并行处理,然后再进行叠加,理论上允许模型扩展到无限长的上下文。 在LWM中,RingAttention还与FlashAttention结合使用,并通过Pallas框架进行优化,从而提高性能。 在文本能力的基础上,研究人员又用模型生成了部分QA数据,针对LWM的对话能力进行了优化。 第二阶段则是将视觉信息(如图像和视频)整合到模型中,以提高对多模态数据的理解能力。 在此阶段,研究人员对LWM-Text模型进行了架构修改,以支持视觉输入。 他们使用VQGAN将图像和视频帧转换为token,并与文本结合进行训练。 这一阶段同样采用循序渐进的训练方法, LWM首先在文本-图像数据集上进行训练,然后扩展到文本-视频数据集,且视频帧数逐步增多。 在训练过程中,模型还会随机交换文本和视觉数据的顺序,以学习文本-图像生成、图像理解、文本-视频生成和视频理解等多种任务。 性能方面,研究人员在TPUv4-1024(大致相对于450块A100)上训练,批大小为8M、全精度(float32)的条件下,花费的时间如下表所示,其中1M窗口版本用了58个小时。 目前,LWM的代码、模型都已开源,其中多模态模型为Jax版本,纯文本模型有Jax和PyTorch两个版本,感兴趣的话可以到GitHub页面中了解详情。
Sora爆火,马斯克急了!“特斯拉才拥有最好的视频生成技术”
这两天有没有被OpenAI的新成果Sora刷屏? 熙熙攘攘的龙年春节,人物众多,同时各有各的行为: 雨后的东京街头,光影和反射都处理得很到位: 甚至是超近景的蜥蜴,细节拉满: 以上均来自OpenAI首个视频生成模型Sora。 只要输入提示词,就能生成1分钟的高清视频,已经被看作是改写整个视频生成领域的新王炸技术。 这不仅轰动了学术圈,还让同为科技圈的老马坐不住了。 在推特上直言:特斯拉拥有世界上最好的现实世界模拟和视频生成能力! 哎呦,打起来,打起来 。 马斯克回应Sora Sora发布后,效果立刻震惊全网。 不过并不像ChatGPT,现在只有少数人拥有Sora的访问权限。 但不少人还是想自己玩玩看的,所以OpenAI CEOSam Altman立刻抓住这次展示能力的机会,发布Sora后在推特上开始在线接单。 只要发布提示词并艾特Sam,或者在Sam的推特下回复,就有可能收到Sora生成好的视频。 这其中认真回复的有之,乘机捣乱的也有之。 狗狗币图形设计师DogeDesigner就回复了Sam的推特,他给的提示词是: 一个人把一家开源的非盈利公司变成闭源的盈利公司。 这描述,你要不直接报Sam身份证号得了 。 而马斯克直接把这条回复po了出来。 一方面他最爱的数字货币就是狗狗币,在推特上和这位用户也经常互动;而更重要的另一方面,马斯克和OpenAI有不少过节。 虽然马斯克是联合创始人,但后来被踢出了董事会,并且在OpenAI转变为盈利公司后,多次在公开场合批评和指责OpenAI失去初心,开始逐利。 随后,马斯克又转发了一条和OpenAI有关的内容,并配了个带单片眼镜的emoji表情,像是在疑惑。 这条内容是在说Sam拥有一家OpenAI的风险投资基金,这家基金截至去年已承诺投资1.75亿美元。 并且这家基金并没有由OpenAI来管理,只是“暂时”放在Sam的名下。 众所周知,Sam并不直接拥有OpenAI的股权,并且把自己通过YC基金对OpenAI投资的间接持有称为“不重要”,表示自己成立OpenAI就是因为喜欢AI。 而这则Sam拥有OpenAI风投基金的新闻曝出,马斯克又表示疑惑,可能想暗指Sam还是想要用OpenAI获利,并不是之前表现出“淡泊名利”的样子。 本以为马斯克嘲讽两条就结束了,谁知在有用户发布对比Sora和特斯拉FSD V12的推特后,马斯克又上线回复: 特斯拉大概在一年前就能生成真实世界的视频了,并且精准符合物理学。 但这并不是很有趣,因为所有的训练数据都来自汽车,所以视频也看起来像来自特斯拉车辆上的摄像头,尽管这是动态生成而不是记录下的世界。 那接下来就看看,Sora和特斯拉的能力对比到底如何? Sora是什么 Sora,OpenAI的首个视频生成大模型,或者说是文生视频大模型。 本质上是一个扩散模型(Diffusion models),基于不同时长、分辨率和宽高比的视频和图像训练得来。 官方只浅浅介绍了一些技术细节,其中比较关键的有patch、潜(latent),以及训练路线上的选择。 对应语言大模型中的token,OpenAI创造了patch这一概念,模型可以将视频压缩进低维潜空间中,并分解为Spacetime latent patches,统一不同的视觉数据表现形式。 也就是说,正如token可以简化、统一不同的自然语言,patch可以统一不同分辨率、时长和宽高比的视频和图像。 而这个视频压缩网络也是OpenAI特意训练的,用来降低视觉数据维度,并且训练也是基于该网络进行,可以减少计算量的压力。 并且,由于Sora的训练直接在视频数据的原始尺寸上进行,和其他模型不同,所以在输出结果上,Sora也能hold住各种分辨率、时长、宽高比、视角等等的视频。 同时还优化了构图和布局。比如业内同类型模型都会盲目裁剪输出视频为正方形,造成主题元素只能部分展示,但Sora可以捕捉完整的场景。 另外,Sora的技术还包含OpenAI之前在DALL·E 3、扩散型Transformer方面的技术积累和突破。 最终展示出的Sora,就不仅能够理解提示词中的要求,还了解这些物体在物理世界中的存在方式。 能理解纸飞机在林中穿过时会发生碰撞,同时光影也会发生变化。 一群纸飞机在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。 同时在单个视频中创建多个镜头,并靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。 美丽、白雪皑皑的东京熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。 不过,Sora现在并不完美。OpenAI指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。 例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。 还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。 如提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。 但这些缺点也没让各路大佬吝啬他们的赞美,比如纽约大学助理教授、ResNeXt一作谢赛宁直言,Sora将改写整个视频生成领域。 以上就是Sora当前展示出的能力,还有背后的技术,那么特斯拉的能力又如何? 特斯拉的视频生成能力 去年7月,特斯拉自动驾驶软件总监Ashok Elluswamy在CVPR2023的演讲中提到,特斯拉正在为其人工智能技术构建一个基础的世界模型(General World Model)。 根据他的介绍,该模型基于神经网络,使用过去的视频和其他事物为条件来预测未来。 该模型不仅能预测一个摄像头的视角,而是可以预测八个摄像头的视角(展示的是七个)。 比如对于同一段视频,该模型可以预测本车在“继续直行”和“向右变道”两种情况下,未来周围环境的演变。 这其实也就是一种基于文本生成不同视频的能力。 同时在不同摄像头视角之间,周围车辆的颜色可以保持一致,也就是符合3D物体移动的运动规律。 特斯拉这里还强调,我们并没有特意训练它在3D层面的能力,或者要求它表现出3D层面的能力,这意味着神经网络已经理解了深度、运动等物理概念。 并且,特斯拉的这个模型不局限于RGB数据维度,也可以是语义或者几何维度。 一句话总结就是,基于过去的视频,给出车辆行动提示,甚至不给提示,该模型可以预测不同的未来情况,以及生成视频。 那么既然特斯拉有了如此强大的模型,为什么之前并没有很多曝光度? 因为当时介绍时,Ashok直言这还是个“半成品”,关键是它可以提供一个神经网络模拟器,推演出不同的未来结果,跟踪道路中所有移动的物体。 并且,在马斯克这次展示自家视频生成能力时也坦言称,目前对于FSD训练的算力还不够,所以并没有用模型生成的视频进行训练。 不过马斯克也表示,特斯拉是可以训练的,在今年晚些时候,当公司有空余算力了就会开始。 到这里其实能看出特斯拉的世界模型和Sora之间的相似点,都是通过视觉让AI能够理解甚至模拟真实的物理世界。 只不过OpenAI在探索过程中,先放出Sora给世界带来一点震撼;而特斯拉把这个能力运用在了探索自动驾驶,通过纯视觉方案,以及视频数据训练出的端到端神经网络,FSD V12已经能比肩老司机。 所以FSD和Sora,不过是AI通过视觉认知世界理解世界上的两个开花结果,FSD最终用来行动,Sora则是用来生成视频。 殊途同归。 马斯克的认知,确实了不得。
有多少中国人,把乌克兰网红的脸做成了带货工具?
也许你还记得,在去年六月,有一群中国人利用特效换脸,开始假装俄罗斯人带货。 从室内到户外,从城市到农村,他们活跃在在每片能支棱起手机拍视频开直播的土地上,操着一口带有浓郁方言味的普通话,在商品橱窗里上链接。 他们的视频和直播里,没有什么狠活。 总结起来就一句话, “ 我,俄罗斯人,喜欢中国,打钱 ” 。 我本以为,随着那篇报道的结束,中国人假冒毛子的故事就告一段落。 但我万万没想到,在 2024 年,这个套路他 360 度大升级了。 具体是咋回事呢? 这两天,一个叫 Olga Loiek 的乌克兰女孩发了条视频,说有个朋友给她发个链接,自己一看,人都傻了。 好家伙,我怎么在中国咔咔带上货了?? 原来在小红书上,有这样一类账号,天天就是一个长相完全一致的金发美女,变着法的讲中俄友谊长存,三句离不开谢谢中国。视频结尾,还会给你介绍下俄罗斯的美食。 而看视频的老铁们,自然也要照顾下大妹子的生意。 是的,成百上千万中国观众看到的这张侃侃而谈的 “ 脸庞 ” ,就是 Olga Loiek 。 反观 Olga ,自己还没在 YouTube 上赚到半毛钱呢。 而且更尴尬的是,脸被别人偷去用来带货不说,作为一个乌克兰人,人设还是个俄罗斯人,带得还都是人俄罗斯的土特产。。。这找谁说理去。 如果你没法和这个女孩共情,不妨可以设想一下,一个美国人顶着你的脸,假装自己是日本人,变着法吹日本。 然后他还利用你的脸,从其他美国人手里,赚了你这辈子都不一定能赚到的钱,在视频评论区里,观众们刷的都是 “ 你好日本,爱来自美国 ” 。 你气不气? Olga Loiek 也不是唯一一个倒霉蛋,另一位来自瑞典的网红拉纳布莱克利的脸,也被移花接木到了中国人脸上。 在视频里, “ 她 ” 大谈中国人的勤劳善良,并且嫁给中国老公,余生在中国定居。 看完视频的网友也不知道自己成了即将被噶的韭菜,还在问她喜欢中国哪个城市。 在抽查了几个被 Olga Loiek 展示的账号之后,我发现这些假冒外国人的中国账号,有些已经在各大平台注销掉了,但还有一些依旧逍遥法外。 可世上只有千日做贼,哪有千日防贼。 AI 技术的发展速度,明显比人类目前的应对速度要快。 在一年前, AI 技术还是被网友嘲笑的对象,网友看了也只会觉得这辈子的恐怖谷效应都犯完了。 然而现在, AI 技术已经可以产生以假乱真的效果了。 变化总是在悄无声息中进行,在 AI 技术日渐进步的今天,眼睛和耳朵,正在逐渐失去辨别能力。 人的知觉,正在信息时代的冲击下 “ 被退化 ” 。 看到这,估计很多差友会觉得这些事都离自己太远,比如那个假冒的乌克兰女孩,懂行的一看就知道了,完全骗不到自己啊? 那你再试试这个呢? 如果你比较关注游戏杂谈,那你可能还记得一个叫做敖厂长的视频博主,他因为几波舆论潮,基本败完了自己的口碑。 在去年,他先后停止了 B 站和抖音的更新,悄无声息的从网友的关注列表里消失了。 可就在前两天,一位 B 站 UP 主用自研 AI 文本转语音技术,搭配上他原有的文案和剪辑风格,愣是复刻了一整个 UP 主敖厂长出来,给我看恍惚了。 弹幕里都在刷 “ 亡灵法师 ”“ 招魂成功 ” 。 在这个 UP 主页贴出的网址中,还能找到更多奇奇怪怪的 AI 音声,比如丁真、科比、孙笑川,以及一些知道这个网站八成要发律师函的明星们。 那么,使用 AI 生成一个人的音声,要搜集多少真人的声音呢? UP 主在视频介绍中,给出的答案是:5 秒。 没错,你只要说 5 秒钟的话,你的声音就可能已经被克隆了。 如果以上的技术,能够用在发展生产力,推动社会进步上,那勉强还能算是最好的结局。 但你要知道,现在的 AI 技术,已经越来越下沉。 第一天出了个厉害的 AI 软件,第二天使用教程就有博主给你发抖音了,简直就是手把手教学,从入坑到精通给你安排的明明白白。 不可否认,这是一件好事,可它也把人心底的阴暗面一点点放大,最后形成公共事件。 前几天, AI 生成的泰勒斯威夫特虚假不雅照片,在整个网络上疯传,甚至惊动了美国白宫。 白宫新闻发言人卡里娜 · 让 - 皮埃尔警告 AI 生成照片的传播 “ 令人担忧 ” ,并敦促社交媒体公司防止此类错误信息的传播。 泰勒这事为啥这么爆炸?毕竟早在 PS 时代,就有很多女性饱受换脸的困扰了对吧? 但在 AI 时代,照片里的所有细节都可以被精心定制。 泰勒这次,就是因为交了一个橄榄球星男朋友,被生成出了在橄榄球更衣室里的照片。。。 换谁不急眼? 后来也是由于类似的图片过多,推特一度封锁了对斯威夫特的相关搜索。 为什么全美国因为这事都开始变得神经兮兮,因为大家都清楚,今天是泰勒,明天可能就是自己。 而且 AI 干的坏事,也不只是下三路,它的能量比你想的庞大。 在中国香港,发生过一起 AI“ 深度伪造 ” 诈骗案。 诈骗者就是通过 AI 技术,把网上搜集到的跨国公司总部高层的声音和面貌,替换到自己身上,然后,简简单单从该公司的香港分公司骗走了 2 亿港元,甚至,公司财务连老板的人脸和声音都没看出来有啥异常。 你以为 AI 也就到这种程度吗? 别忘了, 2022 年,乌克兰总统泽连斯基 “ 呼吁乌克兰士兵放下武器投降 ” 的视频在网上传播。 这条十分整蛊的视频,逼到乌克兰国防部都要站出来声明 “ 这是不可能的 ” 。 由此可见,从个人到团体,甚至是国家之间的战争,每个能钻的空子,都成为了 AI 的突破口。 更可怕是,到目前为止,还没有一个特别好的招儿能防让住人用 AI 干坏事。 网络安全业内人士,i春秋的朋友小傲( 化名 )就告诉世超,反 AI 犯罪的难点主要有两方面,一个是技术层面,一个是经济层面。 在技术层面上, AI 生成内容的识别难度大,特别是 AI 越发展,肉眼能识别出来的概率也越小,这种时候就只能上机器。 而在经济层面上,用 AI 来犯罪并不是难事也不需要花什么钱,但用 AI 来反 AI 的成本就高了,你得砸钱出力去搞研究。 现阶段,国内外有不少监管机构和公司在想法子拴住 AI ,去年公安部就端了个用 AI 写勒索病毒的团伙。 市面上,也有不少检测 AI 生成内容的工具,但效果还不好说。 像 OpenAI 之前就推出过一款文本检测工具,但因为检测错误率太高偷偷给下架了。。。 两年前,微软还有 BBC 等几家科技公司和媒体一起合作,成立了个内容来源和真实性联盟 ( C2PA ) 。 有了 C2PA 协议之后,内容是谁创作的,历史的修改记录,都会被记录下来。就相当于给生成的内容,打上了一层看不见的水印。 但用小傲的话来说, C2PA 这玩意属于防君子不防小人,大厂守规矩,不代表很多开源调出来的小模型,也会遵守协议。 而且, C2PA 现在还有不少 Bug ,像一截图水印就没了,要生效也得好几个平台都使用协议才行。 所以很残酷的一个现实是,现阶段咱们没法儿杜绝 AI 干坏事。 关键在于, AI 技术发展得实在是太快了, AI 生成的内容越来越逼真,生成的门槛却越来越低,就像 Sora 问世后,大家都在说 “ 现实,不存在了 ” 。 不可否认,之后的立法、反 AI 技术肯定会跟上,但这种敌在暗我在明的情况,监管就很被动了。 这就像一场猫鼠游戏, AI 知道规则就会绕过去,人类再设置新的规则,这场游戏,或许永无止境。 我们能做的,除了多加分辨,就只剩下下载国家反诈中心 App 了。 撰文:张大东&江江 编辑:莽山烙铁头 封面:焕妍
三星Galaxy Fit3健身手环宣传物料曝光:宽46%、薄10%,满电续航13天
IT之家 2 月 19 日消息,三星 Galaxy Fit3 健身手环的更多宣传图曝光,信息显示这款健身手环配备 1.6 英寸 sAMOLED 显示面板,分辨率为 256*402,像素密度为 302ppi。 三星 Galaxy Fit3 健身手环尺寸为 42.9 x 28.8 x 9.9 毫米,重量仅为 36.8 克。在做工方面,显示屏将采用 2.5D 玻璃,表身将由铝合金制成。 功能方面,三星 Galaxy Fit3 健身手环一个全触摸显示屏和一个侧面按钮。该健身手环配备了 16MB RAM 和 256MB 存储空间。这款智能手环还具有 IP68 等级和 5ATM 防水能力,非常耐用。 该手环内置 208 毫安时电池,常规使用满电情况下可持续使用 13 天。此外该手环支持 101 种锻炼模式和 6 种自动跟踪模式。正如早些时候透露的那样,该设备将有三种颜色可供选择:灰色、银色和粉金色。 说到它的健康功能,它的日常监测系统包括活动和步数跟踪器、心率和压力跟踪器,以及一个新的血氧和周期跟踪器。持续睡眠管理系统也是该设备的一部分,它将包括血氧和打鼾检测、睡眠评分和分析以及睡眠教练等功能。 除了上述 101 种锻炼模式和 6 种自动跟踪模式外,智能手环的用户还可以在连接的手机上查看最近和过去的锻炼情况。 IT之家从报道中获悉,Galaxy Fit 3 与之前的 Galaxy Fit 2 相比,宽度增加了 46%,厚度减少了 10%(9.9 毫米),并采用了更耐用的铝制机身。此外,还增加了更多的手表界面(100 种可定制的手表界面)。 在健康方面也有重大改进。锻炼模式从以前的 90 种增加到现在的 101 种,自动检测模式也从以前的 5 种增加到 6 种,并改进了 11 种连续 / 同步监测功能和更先进的睡眠指导功能。
魅族手机凉了?我这个十年魅友想说几句
放假回来开工第一天啊,魅族就搞了个大新闻。 星际魅族的 CEO 沈子瑜,在魅族第一款智能手机,魅族 M8 发布整 15 周年的这一天,在全网各个平台,发布了一个 “ 真心话大冒险 ” 的视频,让还没从假期状态缓过来的托尼是虎躯一震。。。 视频内容省流概括下就是——魅族我不做手机啦! 沈总表示,接下来魅族准备全力 “ All in AI ”,并准备停止 “ 传统智能手机 ” 新项目的投入。 关于不做手机的真心话,托尼觉得魅族聊的还挺中肯的。 众所周知,现在的手机市场基本是卷无可卷的状态,厂商们都执着于堆料堆性能、卖联名、冲高端。 但凡在创新或资金投入上差一点,就做不出有竞争力的旗舰手机来。 所以魅族也认清了目前的现状——纯纯靠创新,手机行业已经走不下去了。 用沈总的原话来说,魅族不想 “ 在一个无限内卷的环境里,用宝贵的智慧资源和创造力,去对抗传统手机 ”。 托尼觉得,且不说这话是不是魅族在手机领域的正式投降宣言,但最近两年头部手机厂商挤牙膏的情况确实是相当普遍。 把这些问题放到魅族手机的产品力上,得出的答案在消费者那里也是心知肚明。 不管怎么说吧,魅族在这个节骨眼上,是做出了一个 “ 违背祖训的决定 ”。 他们停止了 “ 传统智能手机 ” 新项目的投入,转而将这些有限的资源和时间,全面转向 AI。。。 好家伙,前脚 OPPO 才在春晚打广告宣布拉开 AI 手机序幕,魅族这边就更进一步梭哈 AI,不做 “ 传统智能手机 ”。 你俩干脆去练舞室打一架算了。 就在托尼准备洗耳恭听,沈总到底打算怎么 “ All in AI ” 的时候,他掏出了 “ AI Pin ” 和 “ Rabbit R1 ” 两款 AI 硬件产品。。。 合着梭哈 AI 是这个方向的玩法?如果说是大冒险,那这个冒险的成分真还挺大的。。。 简单来说,“ AI Pin ” 和 “ Rabbit R1 ” 本质就是两款完全基于 AI 的硬件产品。 上面的所有操作和交互都离不开 AI 的加持,购买了他们的硬件产品之后,消费者想要正常使用,还得每月支付一定的联网费用。 对,这玩意儿用的还不是本地的端侧大模型算力,要联网。 之前在 CES 的时候,这款 “ Rabbit R1 ” 是在全网铺天盖地的投放广告。 当时已经预售的第三批一万台已经全部预定完,目前预售到的第五批也全部 “ Sold Out ”,发货日期已经排到了今年 6 月。 不过根据 CES 前方小伙伴发来的线报,这家 Rabbit 在现场甚至连展台都没有找到,很难不怀疑这款产品的热度只是营销手段。 在好奇心的趋势下,差评硬件部也斥巨资订购了一台 Rabbit R1,不过到目前为止还没有任何发货的信息,不知道会不会真的要等到六月份。 有意思的是,作为首批十万台 Rabbit R1 的买家,对面还送了我们一个价值 200 刀的 Perplexity 大模型体验券,这款软件在网页上的体验倒是还挺不错的。 咳咳,扯远了。 托尼是想说,如果将来魅族的 AI 硬件产品,真的往 “ AI Pin ” 和 “ Rabbit R1 ” 的方向发展,在实用性上,可能更难超越 AI 手机的方向。 一个最简单的道理,人们的生活可以没有 AI 硬件,但一定离不开手机。 可留给魅族做手机的时间真的不多了。 我们盘一个简单的逻辑就会发现,星纪魅族从成立开始,主营业务就注定不会再是手机产品。 你想啊,魅族现在还活着的重要原因,本质上是靠着吉利在关键时候的雪中送炭。 而天下哪有免费的午餐? 吉利投资这笔钱的目的,就是意识到了未来车机对于整车的重要性,他们看中的是魅族最拿得出手的 Flyme 系统,想让魅族把车机的部分给完善好,这才是最终目的。 所以在这个终极目标之下,做手机也好、搞 AI 硬件也罢,最终都是为了吉利自己的汽车生态圈而服务的。 就像魅族前产品经理李楠在自己微博上说的那样,魅族手机到了应该终结的时候了。。。就是缺一个比较盛大的句号。 当然,要是魅族能将目前 “ 传统智能手机 ” 的功能融入他们未来的 AI 产品中,倒也是一种全新的方向。 像已经发布的 MYVU 眼镜,就是一个很不错 AI 硬件载体。 而且沈总也没有把话完全说死,只是不做 “ 传统智能手机 ”,把魅族21 Pro、22、23 都 Stop 了。 那未来魅族再开一个全新的系列,推出个非传统的 “ AI 智能手机 ”,那也不能算是瞎掰扯,而且托尼觉得这个可能性挺大的。 魅族过去提过的 “ 手机域 ”、“ 手机车机算力共享 ” 的概念都还没捂热,就连同手机一起砍了,也说不太过去。 未来三年魅族到底会发布什么样的硬件产品,确实还留有悬念。 但在软件系统层面,魅族打算利用 AI 大模型重构 Flyme 系统,并且背靠 OpenAI,对其他家硬件产品同样开放大模型的方式,也是能够预想到的办法。 退一步说,只要吉利集团的车机系统还需要魅族,那在自研 AI 大模型这一块,就必须得快速的形成即战力。 这是吉利和魅族目前的关系所决定的。 至于具体操作上到底要怎么个 “ All in AI ” 法,这支视频里聊的东西都还是在画饼规划阶段。 假如上面的图片大家放大看,会发现有一行小字,预研 “ 以 XR 形态满足全天候使用场景 ”,换句话说,这不就是 AI 版 Vision Pro? 这野心大了去了,但是预估发布时间是 2025 年,然而苹果自己的大模型不出意外的话,今年上半年就要来了。 对如今的 AI 和大模型有所了解的小伙伴应该知道,AI 是一个极端需要人才的行业,“ 有多少人工、才有多少智能 ” —— 魅族一步慢,很可能就会步步慢。 都说梭哈是一种智慧,魅族这家公司在历史上也并不缺乏像 “ 赌宝联发科 ”、“ 扶持魅蓝 ” 这样的魅力时刻。 可将来魅族到底会在发布会上搬出什么样的东西来,这谁也打不了包票,但它给过魅友的惊喜,总的来说还是要大于惊吓的。 所以作为一个十年的老魅友,托尼还是希望这次魅族的运气能好一点,在 AI 这条新赛道上能一往无前吧! 撰文:布拿拿 . Fin 编辑:米罗 美编:焕妍
TechInsights:2023年Q4全球平板电脑出货量下降12%,苹果iPad下滑 21%
IT之家 2 月 19 日消息,技术分析和知识产权服务提供商 TechInsights 今日发布报告,2023 年 Q4,全球平板电脑出货量再次同比下降 12%,至 3920 万台。 图例 报告称,苹果 iPad 出货量同比下降 21%。三星、联想、小米和其他拥有更高端产品组合的厂商蚕食了苹果的份额,但不足以提高总体增长率。 ▲ 图源 TechInsights,下同 IT之家从报告获悉,2023 年 Q4,苹果 iPad 的全球出货量为 1430 万台,同比下降 21%,市场份额降至 36%;由于苹果缺乏新产品,损害了其市场存量,并将新客户推向了三星、联想和小米等改进了高端产品组合的安卓厂商。安卓平板电脑的全球出货量下降到 2020 万,但市场份额提高到 52% —— 这是自 2021 年 Q4 以来安卓的最高纪录。 图例 在经历了艰难的开局后,2023 年全年(日历年)全球平板电脑出货量同比下降 16%,至 1.37 亿。与下半年相比,2023 年上半年大多数市场的经济状况不佳,这导致消费者支出在年底时更加强劲。 尽管在 2023 年 Q4,凭借强劲的 Pad 6 需求,小米首次跻身全球前五,挤掉了正在复苏的华为,但华为全年的平板电脑出货量仍高于小米。TechInsights 预测两家公司都将在 2024 年实现增长。华为在国内找到了新的先进半导体供应,并针对中国市场改进了其 HarmonyOS 生态系统,重新焕发了活力。另一方面,小米正在利用其在中国以外的品牌认知度,将其业务扩展到欧洲。 TechInsights 预计,苹果将在 2024 年更新其 iPad 产品线,并将在长时间没有发布新 iPad 之后,从其忠实的庞大客户群中获得增长。
秦PLUS直接降到7.98万,但还有比降价更恐怖的…
今天脖子哥还在上班路上呢,就看到比亚迪放了个大招:起售价 7.98 万元的秦 PLUS 和驱逐舰 05 ( 荣耀版 )。 不仅如此,他们还打出了一个贼唬人的口号——电比油低。 要知道秦 PLUS 这车,在前年还是要卖 10 多万的,然后在去年初降到了 9.98 万,接着在年尾限时优惠到了 8.98 万,这才没隔几个月,就又降到了 7.98 万。 同时,秦 PLUS 的其他配置的也都有 1-2 万的降幅。 作为一台能省掉购置税的新能源车, 7.98 万的秦 PLUS 荣耀版,落地所需要的花销,差不多就撵上了 7 万左右的油车。 但降价归降价,荣耀版其实没砍啥配置,电机、续航这些都没动,甚至还有智能上下电这样的增配项。 很明显,比亚迪这一波降价增配,主要目标就是大家常说的 “ 马路三大妈 ” 。 毕竟在销量上,秦到现在还没能赢过它的 “ 三大妈 ” 对手们。 我们看一眼 2023 年的轿车销量榜,秦排在第三,前两位是它的老对手轩逸和朗逸,其中轩逸比秦多卖了 7 万辆。 其实去年秦能卖到第三已经够强了,毕竟这个价位某些合资车的基本盘是真的坚挺。尤其是在三四线城市,简直可以说是轩逸这类车的大本营。 就说去年 12 月吧,车主之家的数据显示,秦销量最好的城市是在老家深圳,当月一共卖了 1173 台。而轩逸在赣州这个三线城市,就卖了 1110 台。 去年 10 月也差不多是这个情况,秦在杭州、苏州、武汉卖出了 400 多辆,而轩逸是在赣州、济宁、茂名这三个地方卖出了这个数。 看看这数据就知道,秦虽然在一二线卖的不差,但轩逸也不赖,而且能在三四线嘎嘎通吃。像他们这样基本面大的选手,销量上要赢,当然简单了。 但这里头有个有意思的事:如果把俩车来比配置,看性价比,秦各方面都是秒杀。 就拿俩车的入门款对比,轩逸卖 10.86 万,秦卖 7.98 万,便宜 2.88 万。 在轩逸上,你有卤素大灯( 无自动大灯 )、手动空调、塑料 2 向调节方向盘;而在秦上,你能获得 LED 大灯( 自动大灯 ),自动空调、皮质 4 向调节方向盘。 这还没完,秦的入门款还给了你倒车雷达、倒车影像、无钥匙进入、定速巡航等配置。这些东西你在低配轩逸上,当然是想都不用想,它甚至连车机屏幕都不给,就是个经典 “ 丐中丐 ” 车型。 随便看两眼就能发现,轩逸比秦售价更高、配置更低。( 什么?你说底盘和沙发? ) 这就让人搞不懂了呀,明明差距摆在这,怎么它还卖这么好呢? 诶,别急。 “ 三大妈 ” 们多少也是有点本事,才能保着自己销量在线。 首先,你秦嚷嚷着要降价是吧,那我这边的优惠力度也得够够的。 轩逸的指导价是 10 万多,但在经销商动不动就给你 3-4 万的优惠,就随便一看, 7 万多的报价比比皆是。 在价格之外,这批合资车这么多年积累下来的口碑,也是不能忽视的。 虽然有身边统计学的嫌疑,但就今年过年回家,我还是发现在我们那十八线小城,合资油车稳定耐用的印象根深蒂固。 我和人说插混可以省油,人家却觉得多加了个锂电池是负担,以后电池坏了还要花一大笔钱换电池,得不偿失。 再加上三四线城市,又不用考虑蓝绿牌的因素。 所以在不少人眼里, “ 三大妈 ” 就是同价位的最佳选择。看似保守,实则稳健。 所以比亚迪想要攻到人家的腹地里,也得见招拆招。 一方面,秦在配置上既然不输人家,那就从价格上下刀子呗。原来 998 还不好使是吧?那我这回再降两万,够意思了吧。 不用多说,手里只有几万块预算的用户,对价格肯定是非常敏感。没准人家就差这两万块,现在秦降价了够到门槛,正好可以上车了。 而另一方面,比亚迪这次的降价动作,也是在营销层面入手,持续地影响了潜在用户。 前面说了,传统车企的降价,很多是经销商自己的促销。 像 4S 店这些经销商,都是从车厂批发买车,然后再转手卖给消费者。他们为了多卖车,给的优惠力度也是各不相同。同车同配置,在不同的 4S 店里,卖不同价是很正常的。 所以一款车具体能降多少,你不去店里刨根问底,中间没个几次反复拉扯,是不会知道答案的。 什么朗逸、威朗、科鲁泽这些车也差不多,其实是能找到优惠后卖 6、7 万的。 但比亚迪这边呢,直接全网发布,一点不藏着掖着,998 就是 998 ,798 就是 798 。 虽然说 798 的秦未必有朗逸、轩逸们便宜,买这些车的人,也未必乐意加万把块买个秦。但比亚迪在降价上干脆利落的宣发和执行,已经在营销上赢麻了。 我就问一句,谁还记得我前面说的最低配轩逸卖多少钱? 但秦前一个 998 后一个 798,都快整成顺口溜了。。。 打个不是很恰当的比方,比亚迪这些年的官降和宣传,都有拼多多内味儿了:它不一定是最便宜的,但是它能让大家认识到,它的价格足够便宜。 俗称,击穿了用户的心智。 这一套宣发和降价的组合拳,前两年已经给主打实惠的合资车们带来了不小的冲击。而今年这 798 一出,冲击只会更狠。 能不能把 “ 三大妈 ” 打趴咱不好说, 但打得想骂人是肯定的。 还记得去年也是刚过完年的时候,比亚迪左手掏出了 998 的秦冠军版,然后直接不讲武德,化身千手观音,在唐、宋、汉等主力车型上,都掏出了个冠军版,把大家逼得浑身难受( 包括老车主 )。 今年,比亚迪已经用 798 的秦和驱逐舰两个荣耀版开局,想必其他车型的荣耀版也是箭在弦上了。 当然,秦的对手们肯定也不会在那干瞪眼等着被削。 这不,反击已经来了。 这边比亚迪刚说降价,那头人家的海报也出来了,五菱星光、长安启源、哪吒都在今天下午跟进降价。 对手速度是很快,但这些在比亚迪看来,或许没那么重要。 比起降一两万、版本更新这些变化,更重要的是比亚迪用降价这张牌达成了先发制人的目的。 上头这些车降了多少,一个月后大概就没多少人记得了。但秦的 998 、 798 ,可能很长一段时间,都会被大家反复提及。 可以说对于比亚迪而言,降价的作用,已经远大于降价本身了。 撰文:白日梦 编辑:面线 & 大饼 & 脖子右拧 封面:焕妍
都2024年了 到底谁还在买8GB旗舰
2023年,以一加为首的一系列手机厂商纷纷开启“12GB普及风暴”,旗下一些机型都是12GB内存起步,此举也获得了用户们的一致好评。 中低端市场尚可接受8GB内存配置,但部分厂商的旗舰机型仍推出8GB版本,这也经常引起消费者对其“卡价位”的吐槽。 随着时间推移和技术发展,笔者相信8GB内存旗舰将会被逐渐淘汰,原因有以下几点: 应用内存需求越来越大 现在的应用程序、大型手游不断丰富和复杂化,它们对运行内存的需求也在持续增加,尤其是一些生产力工具和社交媒体平台需要长时间保持在后台运行,长时间占据运算空间,需要更大容量的内存来保证流畅运行。 安卓系统的开放性允许用户同时打开多个应用并保持后台运行,为了确保这些应用在切换时能够快速恢复到之前的状态,大容量运存显得更为重要。 AI计算需要更大内存 23年末,vivo、OPPO、荣耀等手机厂商纷纷推出了自己的旗舰机型,AI能力成为最新赛道,大模型需要更大内存的支持。 vivo解决方案中心总监谢伟钦曾经透露,蓝心大模型这样的70亿参数端侧大模型至少需要4GB内存,更大规模的AI模型需要的内存甚至还会翻倍。 蓝心大模型能帮你快速生成思维导图、解题、回答问题等等,甚至还能针对不同用户定制不重样的新年祝福语。 这就意味着,手机内存除了要日常保活,还需要为系统维护、AI大模型留出空间,12GB起步才能保证运行流畅。 如果未来手机端侧大模型的规模拓展至130亿参数甚至更高,手机至少需要提供接近20GB的内存,值得一提的是现在有些手机已经有24GB内存版本了。 大内存提升用户使用体验 用户越来越追求极致的使用体验,包括更快的应用启动速度、更少的卡顿以及更好的长期使用性能。更大运存能有效减少因为内存不足而导致的性能瓶颈。 根据我们的测试,16GB内存的手机能在30秒内陆续打开10款APP,而内存较低的手机打开耗时则要延长至4、50秒。 用户无需为了运行游戏而清空手机的后台程序,从而带来之后二次加载所增加的功耗与流量消耗。 同时对于后台应用留存率的提升也可以使得用户在使用某些即时通讯APP时能够更为及时地收到消息推送,并且对于需要使用手机办公的用户而言其多任务操作体验也可以得到改善。 总结一下,8GB内存的安卓旗舰虽然仍能满足一部分用户的基本需求,但对于追求最新技术和优质体验的消费者来说,已经开始转向更高配置的选择。 然而,这并不意味着8GB内存完全被淘汰,它依然会在中端乃至部分高端市场继续存在,满足不同预算和需求层次的消费者。
机构:2023年Q4平板电脑出货下滑12%,安卓厂商份额创纪录
集微网消息,研究机构TechInsights统计,2023年第四季度,全球平板电脑出货量继续保持同比下滑,出货量3920万台,同比下降12%。苹果依旧以36%的市场份额领先,但出货量同比下降21%,而联想、小米等安卓厂商进一步蚕食苹果的份额,并创下52%的新纪录。 2023年第四季度,前五大平板电脑厂商依次为:苹果、三星、亚马逊、联想、小米,其中小米出货量同比大增113%。由于苹果缺乏新产品,损害了其市场存量,并将新客户推向了三星、联想和小米等改进了高端产品组合的安卓厂商。安卓平板电脑的全球出货量下降到2020万,但市场份额提高到52%——这是自2021年Q4以来安卓的最高纪录。 机构统计,2023年全年,全球平板电脑出货量下降16%至1.37亿台,苹果出货超过5160万台,市场份额38%,华为全年出货590万台位居第五,超过小米。机构预计华为、小米都将在2024年实现增长。华为在国内找到了新的先进半导体供应,并针对中国市场改进了其HarmonyOS生态系统,重新焕发了活力。另一方面,小米正在利用其在中国以外的品牌认知度,将其业务扩展到欧洲。 据悉,苹果在2023年没有更新其iPad产品线,预计将在2024年推出多款新品。小米近日宣布,小米平板6S Pro将于2月22日正式发布,搭载第二代骁龙8处理器,配备12.4英寸大屏幕,最高3K分辨率,144Hz七挡可变刷新率,最高可选16GB+1TB大容量。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。