行业分类:
加载中...
头条分类:
加载中...
昆仑万维方汉:将技术红利转为市场红利,拿到垂直领域SOTA是前提丨GenAICon 2024
编辑 | GenAICon 2024 2024中国生成式AI大会于4月18-19日在北京举行,在大会首日的主会场开幕式上,昆仑万维董事长兼CEO方汉以《从天工SkyMusic音乐大模型谈SOTA红利》为题发表演讲。 方汉强调了“技术领先”在AI领域的重要性,不同于互联网时代产品的商业模式导向,大模型时代技术导向才能带来市场上的领先优势,吸引大量用户并获取红利。 OpenAI在AI创企中的地位,本质上是其文本大模型的SOTA(当前技术指标第一)能力带来的。对于当前的AI创业者,在图像、视频、音乐等任何赛道,只要能取得SOTA,就能通过技术优势获得大量用户,后续再通过产品创新、商业模式创新把用户固化在平台上,形成自己的护城河。 在AGI和AIGC领域,昆仑万维研发出了天工3.0模型,包含音乐大模型SkyMusic和全球最大规模的开源MoE大模型。其中音乐大模型SkyMusic就处于音乐领域的SOTA地位。 SkyMusic音乐大模型支持多种方言输出,具有辨识度的自然人声、降低音乐创作门槛和成本等,便于内容行业发展。基于音质、自然度和理解度方面的优势,即使是没有音乐背景的普通人也能够利用该技术进行音乐创作,而这也将极大地扩展音乐创作的可能性和范围。 此外,天工3.0大模型数学、推理、代码等方面能力大幅提升,同时具有多轮搜索与综合工具的调用能力,将带来内容行业的爆发,同时也将促进文化平权和打破垄断,让每个人更好地塑造和表达自我。 以下为方汉的演讲实录: SOTA其实是一个学术上用得非常多的专有名词,全称是“State of the Art”,这个比较拗口,其实是当前技术指标第一的意思。这本来是在机器学习领域用来评估模型的一个技术指标,原本是个学术词,为什么会备受关注? 一、在垂类领域拿到SOTA,才能将技术红利转化市场红利 纵观这一波大模型的投资以及创业浪潮,可以发现一个明显的现象。在上一波移动互联网,所有创业公司的CEO或者Leader基本上都是产品或者是商务背景,也就是说移动互联网是商业模式和产品模式的创新,而这一波AI创业的大潮,所有AI公司的CEO基本上都是技术背景。 为什么呢?因为在AI领域技术远远超过产品商业模式,技术的领先才能带来业务上的红利。 举几个例子,首先不可避免要谈到这个行业的第一名,OpenAI。OpenAI为什么现在估值这么高,为什么全世界对它这么期许?因为本质上在ChatGPT之后,它在文本大模型上的SOTA地位一直非常稳固。直到Claude 3出来之后,才第一次有大模型可以接近GPT-4的位置,所以它赶忙抛出Sora,这是在视频生成领域的SOTA。也就是说在最泛化的通用人工智能、文本大模型领域,OpenAI的SOTA红利非常明显。 但是我们看图像生成赛道,DALL·E 3出来得非常早,但是很快像Midjourney、Stable Diffusion出来之后,这些中小型的创业公司获取大量的用户,远远超过OpenAI的DALL·E 3。为什么?就是因为DALL·E 3没有达到SOTA。SOTA被Midjourney以及后面的一些中小创业公司拿到,用户肯定会选择中小公司的产品,而不会选择其他公司的产品。 也就是说在任何一个领域,对于我们所有的创业者和后来者,只要你能在这个领域拿到技术指标上的第一,你就能够获取大量的用户。在获取大量用户之后,才可以用你的产品模式、商业模式把这些用户固化在你的平台上。 从长期来看,只要新的大模型和新的竞争者没有明显的代际压制的话,你仍然能够继续靠这些用户获取红利。就像Midjourney V6出来之后,它的SOTA地位已经不是很稳固了,但是用户基础仍然很坚实。 前面是我的一些背景介绍,当然中国企业因为进入大模型赛道,其实大家都蛮晚的,但是我们在全球的竞争中心仍然是坚持技术第一,我们一定要在某个垂类领域拿到SOTA之后,才能够由技术上的红利,转化为用户和市场上的红利。 二、以天工大模型为底座,形成六大业务矩阵 首先给大家汇报一下昆仑万维是从什么时候开始做AGI和AIGC这件事情。 我们是2020年GPT-3出来的时候就成立了一支团队做文本大模型的预训练工作,2021年开始做音乐大模型的生成预研工作,当然我们也走过很多弯路,比如音乐大模型一开始走的符号生成,再转到端到端。现在所有垂直赛道到终局一定是端到端。 2022年12月,我们发布了中国首个开源文本大模型,当时海外的各种开源大模型也没出来,这是来自中国企业的第一个基于中文的13B开源文本大模型。 2023年4月17日,我们发布了天工1.0;8月23号发布了国内首个AI搜索“天工AI搜索”。今年4月17日,我们发布天工3.0,包含首个中国的音乐AIGC赛道的SOTA,也就是SkyMusic音乐生成模型,以及4000亿参数的全球最大规模的开源MoE大模型。 目前我们有六大业务矩阵,包括AI大模型、AI搜索、AI音乐、AI视频、AI社交和AI游戏。 虽然矩阵这么多,但我们目标非常清晰。首先我们一定要做底座模型——天工大模型,从原来的文本大模型到现在的MoE大模型,再到下一代多模态大模型,我们一定要在底座大模型上持续去演进。 为什么?因为现在有一个明显的现象,所有垂直赛道的各种垂类模型,不管音频、音乐、视频、图像还是3D模型其实都严重依赖于底座文本大模型的能力,如果底座文本大模型能力不行,各种垂类模型能力上限比较低。 社交、音乐、游戏和视频都属于AIGC垂类赛道,我们认为在这些垂类赛道上只要进行持续和长期的投入,就一定可以达到SOTA,从而获取市场上的领先优势。 三、中国首个音乐AIGC上的SOTA,近2000万首全量音乐数据集 首先给大家介绍一下天工音乐大模型SkyMusic,这个现在已经对全量用户开放了,大家在App Store和应用商店搜索“天工”,“天工”里面有一个音乐的type,大家可以立刻去使用,这是中国第一个音乐AIGC上的SOTA。 这是我们把剁椒鱼头的菜谱做成一首歌的案例演示,是用粤语演唱出来的。 这是天工AI音乐和庞博联合的案例,我们把庞博写的词做成了一首歌。 下面说一下技术指标,目前SkyMusic和Suno V3版本相比,在人声、BGM音质、人声自然度、发音可懂度方面都已经击败了Suno。我们相信在下一个版本里面可以把这个差距继续拉大。 AI音乐大模型,自2021年开始研发到现在走过三年历程,我们技术路线也在不断地演进。去年8月份Sora没有出来,我们就已经转向Diffusion Transformer架构,因为这个架构是最为Scale up的一种架构。 我们的数据集包含将近两千万首全量的音乐数据集,并且经过三年多的清洗和处理,其数据质量是有保障的。我们采用类DiT架构做了SkyMusic音乐大模型的研发,目前这个大模型还只是我们的第一个版本,后续在实验室版本会实现更多的功能。 下面介绍一下我们有哪些非常独特的优势。 用过Suno的都知道,你选择的是文本标签和风格。我们现在的制作方法是,上传一首你喜欢听的歌,甚至你自己录的一个旋律,我们都能根据这个生成音乐。这其实更像传统的音乐工作者创作音乐的一个逻辑,很多音乐工作者先在脑海或者嘴巴哼出一段曲子,然后写下来,根据这个再做主歌、副歌、编曲的工作,SkyMusic示例音源生成音乐的能力非常强。 第二,我们支持单一语种方言的输出能力。目前中文版本已经支持四川话、粤语、北京话、天津话、上海话等多种方言版本,这个对于用户来说是非常有意义的。 最后是更具辨识度的自然人声。人声的音源质量,以及对于各种人群,女声、男声、幼儿声和成人声,SkyMusic都有非常好的一个泛化。 当做到技术上的SOTA时,怎么把技术上的SOTA转为产品上的红利? 我们认为所有的AIGC,包括音乐创作的大模型出来后,首先极大降低了音乐创作门槛。 就像我发的朋友圈,“人人皆可以歌明志”。以前我们做一首歌的逻辑是什么?首先要从四五岁就开始学钢琴、学乐理、学乐谱。我自己的孩子在钢琴方面可能花了七八年才考到一个专业级别,这个训练时间很长。如果他能成为一个作曲家,可能还要在大学里面再学四年,学完四年之后这还只是作曲,作完曲还要编曲,编曲完还要找歌手演唱、找录音棚来录。我们在市场上录一首歌从头到尾,哪怕用最简化的配置、最普通的设备也要两万人民币左右。 这就导致了整个音乐创作,实际上仅仅依靠一个人是没有能力创作歌曲的,但是有了SkyMusic大模型之后,所有人只要花1分钟时间,只要你有歌词,就能生成一首完整的歌曲,极大降低了音乐创作的门槛和造福全体内容行业。 以前大家知道所谓的配乐全是拿现有的曲子往视频内容上配,今天可以把这个话题极大泛化,比如今天的主题演讲,可以给每一位主题演讲者配一首歌,比如微博上每一个大V给他们写一首关于他们的歌曲,这个对于全体的内容行业都非常便利。 最后,SkyMusic证明中国研发也可以在垂直领域取得全球的SOTA,从而让中国企业在全球的AIGC市场上去和国外的同行正面竞争,获取我们应有的市场份额。 四、4000亿参数开源MoE大模型天工3.0,拉低全领域创作门槛 下面介绍一下天工3.0,我们4月17日开启公测的4000亿参数的全球最大规模的开源MoE大模型,目前性能已经全部超越xAI发布的3140亿参数的MoE大模型Grok-1。这是天工3.0 400B参数的MoE大模型的技术底座,目前在MMBench推理能力测试中标蓝色的是处于领先的技术指标,我们在这个技术指标上还是遥遥领先的。 天工3.0,功能全面升级,它更聪明,模型的技术知识能力提升超过20%;数学、推理、代码、文创能力提升30%;内容创作能力,包括能搜索、能写作、能阅读、能聊天,能够语音对话,能够文生图,能够给你作词作曲。 给大家演示一下多轮搜索与综合工具的调用能力。图中问题是成都迪士尼怎么去,成都迪士尼实际上是一个梗,它是成都的一个小区,并不是真正的迪斯尼乐园。这时候通过搜索和大模型结合就判断出来成都迪士尼实际上是一个网络梗,但它还是把怎么去成都迪士尼这个小区规划做出来。当你问到上海迪士尼天气时候,大模型又生成一张天气卡片,告诉你今天上海迪士尼下雨,最后再调用文生图给你生成一张图片。 第二个研究模式,做研究需要写大纲、写知识图谱和思维导图,而天工3.0在自动搜索之后不仅仅能生成表格,而且可以迅速生成大纲和自动生成脑图,最后自动生成脑图,可以即贴即用。 智能体广场可以构建超强的AI智能体,去帮助你完成相应的工作。例如造一个智能体,帮助研究小米汽车和特斯拉汽车的一个差别,进行大量搜索获取大量资料后,模型开始生成文图俱备的对比表格,对于做文案工作的同学非常关键。 五、昆仑万维新使命:实现AGI,让每个人更好地塑造和表达自我 昆仑万维作为一家中国的互联网企业,现在的战略是All in AGI与AIGC。我们在2023年宣布了公司的新使命:实现通用人工智能,让每个人更好地塑造和表达自我。 为什么要做这样一个使命的修正?因为实现通用人工智能,本质上是基于文本大模型把人类所有的知识压缩到我们的通用大模型里面,这样是通向通用人工智能的必经之路。 但是大家知道通用人工智能在现实中的落地是有先后之分的,什么样的场景会更容易落地? 其实也比较简单,有人开玩笑说,大模型刚出来的时候大家都觉得所有做生产工作的同学会最早失业,所有做创意艺术的同学应该是位置是最稳固的。但实际上经过这段时间的发展,大家可以看到,所有做文艺创作的同学失业概率会更大一些,也就是说在内容生成领域,其实AI的落地更容易。 很简单,因为内容生成领域容错率极高,用户对于内容错误忍耐度非常高。我们可以容忍我们画上、视频的人多一根手指头、少一根手指头。但是我们工作中,你哪怕小数点后面少一位,这都是巨大的生产事故。也就是说在容错率高的内容赛道,这一波大模型和人工智能的发挥空间是非常大的。 我们在人工智能、AIGC领域,研究目的就是降低创作的门槛。不管是文生图、文生视频、文生音乐、文生音效还是文生3D资产,本质上就是移除所有前序我们所需要的长期的专业训练,而让任何一个人觉得只要你会讲故事,就可以创造出相应的内容来表达你自己。 这会带来什么样的影响?首先大家知道创作内容的成本极大降低了,创作内容的门槛降低了。我们知道创作内容方面只要门槛降低,创作内容的人数会急剧膨胀。 举个例子,我小时候拍视频都是电视台记者扛几十公斤的摄像机拍,这时候创作者非常少。但是智能手机出现之后把拍摄者变成全中国十几亿人,人人可以拍视频,结果就是短视频行业的巨大发展。这一波AI把全领域的创作门槛都拉低了,结果是什么?整个内容行业会迎来一个巨大的爆发。同时,它还带来另外一个文化平权和打破垄断的作用。 为什么?我在非洲待了蛮长时间,在尼日利亚的时候,了解到尼日利亚拍一部在院线上线电影的平均成本是两万美金到二十万美金之间,这样拍出来的片子和中国四五亿人民币拍出来的《流浪地球》、美国四五亿美金拍出来的“漫威”系列电影相比,是毫无竞争力的。但是在我们下一代AIGC技术出来之后,我们认为全世界所有的弱势文化的人都可以用非常低廉的成本,创造出媲美欧美强势文化的内容。 这样的结果是什么?每个弱势文化的族群都可以通过AIGC技术来产生适合自己民族的文化、产生适合自己小语种的文化,这个对于全世界的文化平权是非常有意义的。这也就是第二条,让每个人更好塑造和表达自我,这也是研发人员在文生音乐、文生视频、文生小说、文生漫画等内容创作领域持续不断迭代改进的一个终极目的。
结束访华,马斯克财富大涨2700亿
马斯克 凤凰网科技讯 北京时间4月30日,在结束了“旋风式”访华行程后,特斯拉公司CEO埃隆·马斯克(Elon Musk)的财富也迎来了大涨。此前,他的净资产大跌至近一年来的最低水平。 彭博亿万富翁指数显示,过去5个交易日,身为世界第三富豪的马斯克的净资产增加了373亿美元(约合2700亿元人民币),创下了他个人自2022年3月以来的最大单周财富增量。2022年4月,马斯克同意以440亿美元收购推特,创造了史上最大杠杆收购交易之一。从那以后,他的财富开始变得不稳定。在经历了2020年和2021年的惊人增长后,他的财富时涨时跌。 周一,特斯拉股价大涨15%,创下了三年多来的最大涨幅。据第一财经报道,特斯拉将在百度提供的车道级导航和地图的基础上部署其中国市场的FSD (全自动驾驶)自动驾驶服务。上周还有消息称,特斯拉计划最早在今年推出一款更便宜汽车,这缓解了人们对令人失望的财报的担忧。 马斯克财富五天增长2700亿元 仅仅在周一,马斯克财富就增长了185亿美元(约合1339亿元人民币),在彭博亿万富翁指数由市场驱动的单日财富增量中排名第13,在马斯克个人财富单日增量中排名第7。上周,马斯克超越马克·扎克伯格(Mark Zuckerberg)成为世界第三富豪。现在,他的财富达到了2015亿美元,即将超越排在第二的杰夫·贝佐斯(Jeff Bezos)。 马斯克今年52岁,他的财富主要来自他所持有的特斯拉、SpaceX以及X(前身为推特)股份。在最近股价反弹之前,受到降价和汽车交付量意外下降的影响,特斯拉在今年的大部分时间里都是标准普尔500指数中表现最差的股票。与此同时,根据与马斯克一起投资X的富达蓝筹股增长基金在3月份的估值,自马斯克两年前收购X以来,X的价值已经下跌了大约73%。马斯克财富的一个亮点是SpaceX,后者的估值在2022年年中至2023年底期间增长了40%以上。 他在美国国内也承受着压力。特斯拉要求股东再次就马斯克的560亿美元薪酬方案进行投票,该方案已经在今年早些时候被特拉华州的一家法院宣布无效。根据彭博亿万富翁指数,如果该薪酬方案被股东拒绝,马斯克可能会失去占其净资产近四分之一的股票期权。 周一,美国最高法院还驳回了马斯克对“推特保姆”一案的上诉,保留了他与美国证券交易委员会达成的协议,即由一名内部律师预先批准他在X上发布的有关特斯拉的帖子。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
揭秘TikTok输掉美国会之战内幕:周受资错失机会
TikTok CEO周受资 核心提示: 1.周受资上任之初把精力放在了TikTok营收、IPO上,没有争取国会支持。 2.2022年初,周受资曾在电话会议中告诉员工,公司接近与美国政府达成协议。 3.众议院秘密起草法案,推迟了TikTok的游说狂潮。 4.剥离法案在参议院搁置后,TikTok的评估过于乐观。 过去四年,TikTok一直在不遗余力地抵抗美国的封禁令,但是它从未弄明白华盛顿到底在想什么。 美国总统拜登周三签署了强制字节跳动出售TikTok的法案,这在一定程度上是国会内部的TikTok批评人士协调一致、暗中努力的结果。这些因素加上一系列误判,最终导致TikTok寻求在用户中争取支持,但是结果却无效甚至适得其反。 眼下,TikTok在美国法院正面临一场生存之战。它还可以选择达成一笔交易,从其美国业务中榨取一些价值,但是尚不清楚美国买家的兴趣如何。这些选择的失败可能意味着构成TikTok全球业务核心的美国业务宣告终结,重创这个中国最成功的国际互联网应用。 《华尔街日报》根据对在职和已离职TikTok员工、国会议员以及其他卷入这场封禁之战的人士的采访,披露了TikTok是如何输掉这场国会之战的。 周受资错过机会 他们说,TikTok CEO周受资(Shou Zi Chew)在上任之初错过了争取国会支持的机会。相反,他把希望放在了与美国安全官员就一项复杂重组进行的谈判上,但是这一谈判从未开花结果。 TikTok 近几个月来,TikTok遭到了反对者的突袭,接连被华盛顿高涨的反TikTok势头打了个措手不及,被迫最后一搏争取用户的支持,这反而加剧了许多议员的担忧,让他们认为TikTok有能力影响公众舆论。 “这么多美国数据被置于危险境地会对国家安全产生影响,我认为,他们从来没有弄清楚我们对此有多担心。”众议院多数党领袖、路易斯安那州共和党人史蒂夫·斯卡利斯(Steve Scalise)在谈到TikTok时说。 TikTok负责政府关系的副总裁迈克尔·贝克曼(Michael Beckerman)表示:“美国政府没有诚心诚意地进行谈判,他们故意在事实上误导国会,世界上没有哪位CEO能比周受资做得更好。” 2020年,TikTok在对抗美国时任总统特朗普的封禁令时一直由一名美国高管和一名澳大利亚人领导。2021年年中,字节跳动任命周受资为TikTok CEO,部分原因是看中了他那丰富的双重文化经历。现年41岁的周受资在新加坡出生和长大,能说一口流利的普通话,毕业于哈佛商学院,并曾在高盛工作过。 然而,他在处理美国政治方面经验不足。他的亲信曾敦促他去了解华盛顿的权势人物。虽然周受资曾谈到过TikTok建立信任的必要性,但他并没有优先考虑这类会面,而是专注于TikTok的营收、产品功能以及可能启动的首次公开招股(IPO)。 相反,周受资让他的总法律顾问埃里希·安德森(Erich Andersen)打理政府关系。安德森曾长期在微软任职,担任过微软知识产权部门的负责人。 在2022年的大部分时间里,安德森都在与美国外国投资委员会(Cfius)就TikTok隔离美国用户数据的提议进行谈判。这项名为“得州计划”(Project Texas)的提议旨在缓解美国对于TikTok数据安全的担忧。 TikTok总法律顾问安德森 周受资还得到了相互矛盾的建议。一些TikTok高管认为,他不应该与国会议员会面,因为公司与Cfius的谈判是保密的。其他人则表示,TikTok的问题从根本上来说是政治性的,他可以在不详细透露谈判的情况下参与其中。 2022年初,周受资在多次电话会议中告诉员工,公司接近与美国政府达成协议。但是几个月后,情况显然有些不对劲。到那年8月时,Cfius不再回复TikTok的电话。 误判 那年12月,TikTok得知众议员们希望周受资到国会作证。上任20个月后,他才展开了自己的第一次高调华盛顿之旅。众议院能源和商务委员会有大约50名议员。2023年1月到3月,周受资把大部分时间花在了拜访其中逾三分之二议员的办公室上。 TikTok发言人表示,周受资曾在2022年与一些议员会面,并参加了一场国会体育赛事。 在3月份的听证会上,周受资在五个多小时的时间里接受了一连串严厉的质询。周受资的团队认为,大部分质询都是不公平的,议员们错误地暗示他是中国公民。 周受资在国会作证 但是,TikTok高管们认为,他们赢得了用户的支持,衡量标准就是:周受资的TikTok账户粉丝从听证会前的不到1.5万名,飙升至听证会后不久的300多万名。 TikTok还得到了强大保守派组织“成长俱乐部”(Club for Growth)的帮助,后者获得了金融家杰夫·亚斯(Jeff Yass)的支持。亚斯的海纳国际集团是TikTok母公司字节跳动的大股东。而且,美国总统拜登在今年超级碗期间加入了TikTok,以吸引年轻选民。 这些进展让TikTok内部的一些人误以为公司是安全的,但形势已经开始对它不利。 秘密起草法案 在周受资作证结束后,众议院多数党领袖斯卡利斯开始与议员们讨论,并把起草一项两党TikTok法案的任务交给了众议院中国问题特别委员会。 该委员会在2023年秋天开始起草法案,在国会反TikTok势力的支持下,这个法案的基本框架在2023年底就已确立。这支小团队悄悄地与美国司法部合作,以确保该法案在起草时能够最大限度地避免法律挑战。 秘密起草法案的做法帮助推迟了TikTok的游说狂潮。此前,这些游说在阻止国会立法方面取得了一些成功。 接着,美国国会的反华情绪继续高涨。由于TikTok上有关以色列-哈马斯冲突的视频引发了愤怒,国会对TikTok的批评获得了新的动力。许多批评者称,这些视频过度反以色列。TikTok对此表示,它不会宣传问题的任何一方。 社交媒体担忧 与此同时,TikTok也因为美国对社交媒体的广泛担忧而成为靶子。 “TikTok面临所有科技巨头批评人士的抵制,承受着所有对社交媒体的批评,以及对中国应用和中国科技公司的批评。” 信息技术与创新基金会副总裁丹尼尔·卡斯特罗(Daniel Castro)表示。该基金会是一家总部位于华盛顿的研究机构,由美国科技巨头和其他公司资助。 今年3月初,当众议院对剥离法案进行投票的计划公布于众时,TikTok的高管们感到措手不及。作为回应,TikTok向用户发送通知,敦促他们打电话给议员,抗议可能遭遇的封禁。国会议员及其助手们表示,这一举措适得其反,显示出TikTok具备了为其目标动员用户的强大能力。 据知情人士透露,白宫前高级官员凯莉安·康威(Kellyanne Conway)代表亚斯支持的成长俱乐部打电话给众议员,敦促议员们拒绝这项立法,因为它侵犯了言论自由,不公平地壮大了脸书。 共和党议员还接到了道格·斯塔福德(Doug Stafford)的电话。斯塔福德是肯塔基州共和党参议员兰德·保罗(Rand Paul)的顾问。联邦记录显示,自2015年以来,保罗从亚斯夫妇那里收到了超过2400万美元的政治捐款。 了解这些通话的知情人士表示,康威和斯塔福德传递的意思是,如果哪个议员投票支持该法案,他们将来就不会从亚斯支持的组织那里获得资金。 亚斯是自由主义事业的长期支持者。他的发言人表示,反对禁止TikTok是“自由主义的基本理念”。成长俱乐部主席大卫·麦金托什(David McIntosh)在一份声明中表示,亚斯从未指示该组织在任何问题上采取立场,议员们对TikTok法案的投票方式不会影响成长俱乐部是否支持他们。 这种压力在议员中引发了一些焦虑,但也引发了一些怨恨。作为回应,一名议员帮忙向其他国会议员提交了一份长达278页的文件,说明支持该法案的理由。它提出了与TikTok有关的国家安全问题。 结果,众议院能源和商务委员会一致通过了这项法案。该法案随后在众议院全院以352票赞成、65票反对通过。斯卡利斯表示,投票结束后,他立即在众议院大厅外举行了庆祝活动。一些众议院工作人员播放了歌手凯莎(Kesha)2009年的热门歌曲《TiK ToK》。 过于乐观 TikTok坚持其策略,那就是试图利用美国用户和创作者的支持,尽管这会再次证明该应用具备批评者担心的影响舆论的能力。 该公司决定在其主账户上发布一段视频。视频中,周受资鼓励用户游说他们的参议员。据知情人士透露,这段视频几乎立即在网上疯传,表明该公司使用了一种名为“推波助澜”(heating)的策略,也就是在该平台上广泛推广这段视频。这段视频最终获得了逾3700万的观看量。 TikTok发言人表示,公司并没有大力推广这段视频。 接着,剥离法案在抵达参议院后似乎陷入了停滞。这让TikTok高管们再次得到了安慰,他们估计这个法案可能会拖到总统大选之后。 然而,事实再次证明,TikTok的评估过于乐观。 在幕后,该法案在众议院的支持者们正在寻找一个必须通过的法案,以便将两者捆绑在一起。结果,他们找上了参议院支持的向乌克兰和以色列提供950亿美元对外援助的一揽子法案。这些法案于上周末在众议院获得通过,并在周二晚些时候在参议院获得通过。 最终,该法案在国会通过,因为TikTok无法说服议员们,让他们相信它的所有权不对美国构成威胁。此前,国会一直未能就其他科技立法达成一致。 “剥离法案是一项国家安全法案,”商务委员会成员、夏威夷州民主党参议员布莱恩·沙茨(Brian Schatz)表示,“不管我们对社交媒体公司有何看法,那都是另一回事。” 周受资在TikTok上发出了挑衅性信息,再次寻求用户的支持。“这显然是一个令人失望的时刻,但未必是一个决定性时刻,”他说,“请放心,我们哪儿也不去。”(作者/ 箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
仁芯科技携手索尼发布“17MP摄像头及5V视觉方案”
原标题:仁芯科技携手索尼半导体发布“17MP摄像头传输方案及智驾5V超级视觉解决方案” 摘要 仁芯科技携手索尼半导体发布「17MP 摄像头传输方案及智驾 5V 超级视觉解决方案」 随着汽车智能化的持续发展和普及,视觉传感器技术能力已成为进阶高级智能驾驶的关键。一方面,高阶智驾需要更强的算力芯片和更为先进的软件架构和算法;另一方面需要有更强的采集能力,深度感知更多的环境信息。传统堆叠传感器数量的方法必然会带来系统成本的飙升,进而成为先进智驾技术普及和推广的阻力。因此,视觉传感器的集成已成为高阶智能驾驶技术和市场发展的行业共识和必然趋势。 4 月 26 日,车载通信芯片实力先锋仁芯科技携手 CIS(CMOS 图像传感器)领先企业索尼半导体解决方案公司旗下的索尼半导体科技(上海)有限公司于北京车展重磅发布「智驾 5V 超级视觉解决方案」。该方案采用超高分辨率传感器、超大广角镜头以及出众的超高速传输技术,成功突破传统车载视觉方案的技术瓶颈和成本壁垒,为行业带来了革命性创新价值,成为本届车展的关注焦点。 5个超级传感器 为智驾开启「智慧之眼」 「智驾 5V 超级视觉解决方案」是由 1 颗基于索尼 17M 图像传感器(IMX735)的前视超高清摄像头和 4 颗基于索尼 8M 像素的超级鱼眼摄像头,以及 5 颗仁芯 16Gbps 高速率加串芯片(RLC91603)、1 颗高集成度 6 合 1 解串芯片(RLC99602)组成。 有机构统计,在目前智能车型视觉传感器配置中,平均摄像头配置数量已超 8 颗,而高阶智驾需要 11 颗摄像头才能完成对于整车周围环境的覆盖。此次仁芯科技携手索尼半导体科技(上海)有限公司开发的「智驾 5V 超级视觉解决方案」用 5 颗摄像头完成了整车智驾环境的全视野覆盖。 方案中,前视 17MP 像素超清摄像头能同时输出广角到窄角三幅图像,可替代现有主流 2 颗前视 8MP 像素摄像头;另外 4 颗 8MP-12MP 像素超大广角(HFOV190°,VFOV140°)鱼眼摄像头,可以兼顾周视摄像头功能,完成对整车的全景覆盖。 「智驾 5V 超级视觉解决方案」通过硬件升级,在为高阶智驾深度感知提供数据和信息保障的同时,大幅减少了视觉传感器模块数量,简化图像拼接处理,优化 EE 拓扑结构,节省了高昂的桥接芯片、高频线束和接插件。随着方案持续成熟推进,可预见提效降本优势将愈发明显。 R-LinC超级芯 为智能汽车架起「数据高速路」 只有高速、专业的赛道才能充分发挥和体现出赛车的优异性能!超级视觉也必须要超级速率来支持!仁芯 R-LinC 加解串芯片为 17MP 摄像头模组提供了高达 16Gbps/lan 的高速通道,契合业内强大传感器的数据通信需求,为行业打开了更为广阔的应用边界。此外,R-LinC 在 15 米距离和 16Gbps 速率下,高达 35dB 的插损补偿能力刷新了行业记录,微秒级响应速度的自适应均衡算法、FEC 技术及 ASILB 产品级功能安全全方位加持高阶智驾视觉感知方案。 传感器端,在 16Gbps 高速传输加持下,1 颗仁芯 R-LinC 加串芯片可同时接入两颗 8MP 像素高清摄像头,单根线束传输两路视频流,节省 1 颗芯片和 1 套线束及接插件,助力当下主流视觉传感器方案高效降本。 控制器侧,仁芯 R-LinC 单颗解串器可实现 6 路输入,1-2 颗解串器即可覆盖当前市场智驾主流视觉方案,配合 6 合 1 的新型连接器,使得板级硬件设计面积更小,器件布局更优,大幅降低了系统方案成本。 仁芯 R-LinC 加解串传输芯片在行业首度实现了传感器及控制器传输接口的双向高度集成,让智能汽车「眼疾脑快」,可有效助力 OEM 厂商真正实现基于技术创新能力的降本增效。 强强合作为车载视觉通信提供创新价值 车载 Serdes 芯片是联系感知与计算和控制的桥梁,也是产品技术创新的关键。仁芯科技 R-LinC 系列产品具备行业领先的技术和性能,可充分适配索尼各主流图像传感器产品, 我们将紧密合作,为汽车智驾市场带来创新价值。 仁芯科技 CEO 党伟光表示,只有为合作伙伴创造价值,仁芯才具有价值!此次与索尼半导体的合作是仁芯产品实力展现和实践的重要里程碑,仁芯将持续推动高性能、高性价比产品方案的落地与量产,携手产业伙伴共同助力汽车智能化的高质量发展。 随着汽车智能化技术的不断演进和发展,车载 SerDes 芯片需要满足智驾场景中对传感器数据高速率、无延时、无损传输的严苛要求,并在车载电磁环境、工作温度环境及芯片安全性等方面符合车规级标准。长期以来,这一产业链细分领域核心技术和市场主导权一直被国际头部企业掌控。成立于 2022 年的仁芯科技面向中国智能汽车产业发展这一强需求,凭借扎实的技术和出色的研发能力,推出 16Gbps 高性能车载 SerDes 芯片 R-LinC,成功实现了我国高性能车载 SerDes 芯片从 0 到 1 的突破。 展望未来行业发展趋势,车内视频图像信息显示、人机交互、车载娱乐等技术推陈出新,座舱屏幕数量和分辨率、视频图像数据传输速率等指标不断提升,SerDes 在实现车机向座舱屏幕的大带宽数据传输,以及域控制器之间的实时高速数据传输中扮演关键角色。根据盖世汽车研究院预测,2023 年全球车载 SerDes 芯片市场规模达到数十亿美元。在取得第一代 16Gbps 高速产品突破之后,仁芯科技还将持续推出系列更先进的、高性能 SerDes 芯片产品,逐步形成速率从高到低,应用从 Camera 到 Display,应用从 ADAS 到座舱的多场景产品组合,为行业贡献更多高性价比解决方案。
美团2024年酒吧指南发布 全国40城630家特色酒吧入选
走进凉茶铺喝一杯“微醺龟苓膏”,去小酒馆打卡沉浸式戏剧,演唱会后到LiveHouse “续摊”欢唱……夜幕降临,年轻人的“City Drink”火热开场。美团数据显示,今年以来,酒吧订单量同比去年增长90%,LiveHouse订单量翻倍增长。 4月27日,美团发布2024年酒吧指南,全国40城共630家特色酒吧入选,其中99家为首次上榜,上海、北京、成都上榜酒吧数最多。从城市潮流新地标,到沉浸式消费新体验,酒吧指南不仅折射了城市夜间活力版图,还蕴含着当下年轻人新潮的生活方式。据悉,2024年酒吧指南还将联动上榜商家推出“招牌酒水套餐”,消费者将以更优惠的价格,体验更多元的城市消费新“夜”态。 ▲美团发布2024年酒吧指南,全国40城共630家特色酒吧入选 越夜越精彩 年轻人爱到酒吧听Live看演出 据商务部城市居民消费习惯调查报告,城市60%的消费发生在夜间,95后已成为夜间经济的主力人群,以酒吧为代表的消费空间,展现了城市夜间消费活力,也承载了年轻人独特的生活方式。 从清吧、LiveHouse、小酒馆、精酿酒吧到蹦迪夜店,“City Drink”的夜行者们,点亮起街头巷尾的酒吧地图——约上三五好友,在酒吧喝酒谈心,享受一晚上的松弛与微醺;到陌生城市,跟着酒吧指南按图索骥,探索城市的B面生活......纵览2024年酒吧指南,酒吧业态活力涌动,LiveHouse热度依旧高企,共86家门店上榜;特色小酒馆新意十足,上榜商家数达122家;精酿热潮持续风靡,31家优质精酿啤酒吧入选。 每个时代的年轻人,都在创造属于自己的潮流生活。回归线下,高品质的音乐现场,沉浸式的氛围体验,加之特色酒饮小食,Z世代年轻人的夜生活潮流,非LiveHouse莫属。響LiveHouse创始人赵锴弈介绍,目前95后、00后的消费者占比已超过7成,90%以上的年轻消费者愿意为潮流文化的氛围感买单,而“精神共鸣”正是大部分消费者选择的一大理由。年轻人的追捧,加速行业成长,美团数据显示,2023年平台上LiveHouse的在线门店数同比翻倍增长。 ▲LiveHouse现场氛围感十足,图源:受访者供图 越来越多酒吧成为城市一景,生发出不同的城市气质。美团酒吧指南调研数据显示,约3成的异地消费者,会跟随榜单探索城市特色酒吧。因此,在“酒吧+国潮”的基础上,融入本土化元素的“新中式”酒吧,让年轻人对一座城市的生活与文化有了更直观体悟。 在2024年酒吧指南中,一批具有城市特色、个性表达与创新活力的酒吧受到青睐。来自苏州的鎏·古风威士忌吧,将鸡尾酒与中国诗词混搭融合,在“虞美人”“兰亭序”等酒水中,点亮夜江南的诗情画意;位于长沙的Bar Fable寓·药到病除,需要按动药匣子的隐藏开关,才能开出中药与酒精相碰撞的“生活处方”;广州的LOENG CAA被称为“只卖酒的凉茶铺”,鸡尾酒凉茶、陈皮金酒、微醺龟苓膏等各类颇具广府特色的酒水,唤醒年轻人对古早凉茶的城市记忆。 “喝”出夜间经济新增长 年轻人点亮潮流夜生活 夜间经济已成为城市商业的重要组成部分,是彰显城市特色与活力的有效载体。酒吧,更是城市夜生活的典型代表。据美团数据,“晚9点”和“晚11点”分别是酒吧消费的两个小高峰。截至4月底,成都、上海、北京、深圳、广州是美团上酒吧收录数量最多的五个城市,这也正是夜间消费活跃、青年聚集、潮流文化策源的“不夜城”代表。 过去一年,酒吧业态快速回暖,美团数据显示,2023年酒吧指南商家的交易额较上榜前增长60%以上,赛道细分、消费下沉、跨界融合成为行业发展新趋势。在业态细分上,连锁化驱动LiveHouse门店加速扩张,兰州城关区、成都武侯区、北京朝阳区是LiveHouse门店数最多的三大城区;红酒酒吧等新兴业态成为增长黑马,美团的在线门店数同比增长超250%。市场下沉趋势显著,不少县城的小酒馆人气旺盛,过去一年,美团上县城酒吧数同比增长超70%。当越来越多酒吧业态在城市生根发芽,从单一模式演变成“酒吧+餐饮”“酒吧+演出”“酒吧+展览”等多业态复合,消费人群更广泛、消费场景更多元、消费体验也更潮流。 ▲乐队在酒吧演出现场,图源:大众点评 “LiveHouse过音乐节”“小酒馆24小时不打烊”“路边喝酒看电影”……年轻人对夜生活的多样化需求,正释放强大的消费潜力。主张“该省省该花花”的年轻人,“卷”动酒吧行业进入质价比时代。在美团平台上,不少酒吧推出了9.9元喝一杯金汤力的促销活动。据了解,为了给年轻人提供更具质价比的潮流夜生活体验,美团酒吧指南将联合上榜商家推出低至5折的招牌酒水套餐,进一步聚拢夜间人气,激活消费潜力。此外,酒吧指南还将在上海等城市开展线上线下联动的“Drink地图”,以“联名特调酒”串联城市喝酒新路线。 “酒吧是城市夜间经济的晴雨表,美团综合平台上的海量用户内容和酒吧线上经营特色,通过酒吧指南优中选优,甄选年轻人心目中的夜生活聚集地,为更多人体验潮流夜生活提供丰富选择,助推酒馆经济到城市夜经济的持续繁荣。”美团休闲玩乐业务负责人表示。
i9不稳定崩溃!Intel首次官方回应:都是主板的错
快科技4月28日消息,最近,Intel 13/14代酷睿i9 K/KF系列处理器各种不稳定崩溃的问题闹得沸沸扬扬,现在,Intel终于首次给出了官方回应。 在此之前,华硕、技嘉、微星等厂商已经通过升级BIOS版本、修改BIOS设定的方式,限制处理器功耗、电压、电流,保证运行的稳定性。 但是这不可避免地会损失性能,一般来说不到10%,但某些情况下的跑分损失竟有28%之多。 按照Intel的表态,这些都不是i9处理器本身的质量问题,而是主板设置过于开放,为了尽可能提高性能而忽视了安全保护。 Intel在官方回应中解释说,这种现象大部分出现在解锁、可超频的主板上,根本原因待定,可能是因为处理器的运行状况超出了规范,导致电压、功耗和频率持续偏高,尤其是分析发现,最低运行电压会出现偏移。 Intel指出,600/700系列主板的默认BIOS设定经常会关闭功耗和供电安全防护,而这些防护措施的本意是控制高电压、高频率的持续时间。 具体包括:关闭电流过载保护(CEP)、关闭TVB和/或增强型eTVB睿频加速、关闭电源C状态、开启无限制电流(IccMax Unlimited bit)、开启Windows终极性能模式、PL1/PL2功耗限制过高,以及其他增加系统稳定性风险的设置。 Intel已经要求各家系统和主板厂商,必须为用户提供一个符合Intel推荐设置的默认BIOS配置,并强烈建议用户使用它。 Intel还要求主板厂商,当用户进行解锁或超频时,必须给予明显的警告提醒。 Intel将继续深入调查问题根源,随时公布更多进展,并将在5月份给出明确的BIOS设置建议。
淘宝赔钱也要做大的88VIP会员,对商家意味着什么
这次又升级了一项重大会员权益。淘宝天猫宣布,4月22日起,88VIP会员可以享受无限次退货包运费,每单最高补贴25元,并且可与运费险叠加使用,此举将进一步优化了会员用户的购物体验。在此之前,88VIP会员每月可享受6张5元退货券,但超出部分需要自费。 这次升级对于会员用户而言,是想退几次就退几次。淘天自掏腰包承担运费成本,避免商家和和消费者在退货运费上的扯皮。一定程度上,这也是对“仅退款”服务流程的再优化。对关注运费的商家来说,是一次解放,无需过于担心运费成本的转嫁。 当然,新升级不仅化解了运费心结,其他升级权益也亮点不少。在平台用户规模之争、服务体验之争白热化的当下,88VIP的全面升级,为淘天今年的反攻之战打响了最重要的一枪。 淘宝力推88VIP,火力最猛的一年 目前,这项权益已经实现88VIP会员的全覆盖,自动生效,无需手动领取。所有会员都可以通过“淘宝首页—88VIP频道—退货包运费”来查看。 实际上,淘宝天猫升级该项权益早有迹象。今年3月,88VIP就曾短暂上线不限次数包邮权益,即3月8日至3月10日,88VIP会员可以在天猫超市享受无限包邮。据了解,88VIP近期还将升级积分兑换等相关权益。 公开资料显示,88VIP是淘宝天猫于2018年推出的一项付费会员服务。数年来,其会员权益进行过多次扩容,并且逐渐从阿里生态向外扩展。比如增加合作品牌数量、推出联名会员卡、阿里内部权益打通、无限额自动价保、上线电商“新三包”购物卡等。 2023年10月,淘宝天猫推出88VIP会员权益体系,将其分为生活卡、购物卡和全能卡三种版本。其中,生活卡即原88VIP权益版本,提供包含购物折上9.5折、联名会员(包含芒果/优酷年卡2选1、网易云黑胶VIP、饿了么吃货卡等)、每月30元退货运费券等权益;购物卡聚焦于购物场景,并进一步细分为了消费场景、退货场景和售后场景。包含购物折上9.5折、天天红包、退货运费红包、售后保障包等权益;全能卡包含了生活卡和购物卡的全部权益,并有所升级,主打一步到位。 据不完全统计,88VIP会员体系已经覆盖淘天用户吃、玩、听、看、买、游、健康、金融、到家、出行等生活娱乐场景,正构建出一个庞大的会员生态。 当年,88VIP曾是阿里巴巴的年度一号工程,承载着打通阿里经济体,独创推新阿里电商会员模式从“功能会员”到“生态会员”的重任。88VIP会员体系的多年实践证明,这一体系已经被很多消费者评为购物最超值的会员体系之一。 某种意义上,今年或是淘宝历年来推广88VIP火力最生猛的一年。除上述提及权益升级外,今年的TopTalk超级品牌私享会上,天猫表示将新增百亿级投入,加码88VIP会员权益,进一步丰富专属货品,加大会员补贴,权益合作品牌规模从4000个提升至10000个。 另据华创证券最近发布的研报数据,淘宝3月GMV增速同比增长14%。尽管淘宝在弱化GMV增长这一指标,但这个增速数据的扭转仍然是个重要信号:这一建立在高基数上的增速超过了一些低基数的竞争对手,说明价格力及服务力支撑下的淘宝巩固了自身护城河。哪怕是在流量去中心化时代,头部电商依然扮演着“流量之锚”的角色。由此,这也说明了淘宝天猫对用户体验的升级已经见了成效。 值得一提的是,仅在半个月前,马云时隔五年首次以“风清扬”的花名发布内部信,其中提到:“重要的不是今天要赶上谁,而是想一想明天的电商应该如何提高升消费体验。”他认为,阿里变革一年来,最核心的变化,不是去追赶KPI,而是认清自己,重回客户价值轨道。这也意味着,阿里将继续推动用户购物体验的提升。而针对88VIP会员业务的加码、更多权益的升级,也是马云所说“回归”的题中之义。 圈出高价值用户 在唐辰看来,淘天重推88VIP是一个“阳谋”。伴随着电商流量见顶、存量竞争加剧,各大平台都意识到要改变流量运营逻辑。其中一套行之有效的解法就是“精耕细作”,即在重视前端获客基础上,更加重视用户资产、沉淀和复购,降低运营成本。受此驱动,付费会员制已经成为电商行业的标配。常见如Costco有了大批中国会员,腾讯、京东、爱奇艺、唯品会等都在尝试打造自己的付费会员体系,并形成新的商业模式。 有分析指出,会员制会正成为最流行的消费者关系模式。艾瑞咨询发布的《中国零售业付费会员消费洞察报告》中也指出,零售业将迎来付费会员时代。面对市场的激烈竞争,企业需要稳定亿级数量的用户人群,留住高价值客户,开展付费会员制,增加用户粘性。因为会员制可以通过不断提升用户服务品质,筛选出那些对品牌认可度高并能带来高收益的用户,更好的帮助平台留存高价值的用户。这也是淘天力推88VIP,摆在明面上的真正目标。 具体来看,这些会员普遍具有“三高”的特点,也就是高消费、高复购率、高购买力。当用户成为付费会员后,在有门槛有身份标签的分层权益,以及平台不断的运营策略的刺激下,形成平台依赖和消费习惯,反而会大大增加用户的留存率。 根据研究公司预估,亚马逊会员一年后的续订率达到94%,两年的续订率高达98%。阿里有数据表明,这部分塔尖用户的用户黏性、平均客单价都远超普通用户,天猫双11一天,88VIP平均消费额近万元。 京东PLUS会员同样具备此类特征。京东和尼尔森调研数据显示,PLUS会员以一二线城市(占比59%)中高收入的年轻(占比65%)群体为主。根据一份2021年第四季度数据,京东PLUS会员的平均年消费额是非PLUS会员的10倍。普通用户成为PLUS会员后,一年内消费金额和消费频次分别同比提升150%和120%以上;唯品会的超级VIP用户,虽仅占活跃用户总数的不到10%,却贡献了高达45%的线上消费。 淘天曾表示,在纷繁复杂的业务中寻找最大公约数,寻找那群最能引领风尚的人,是88VIP设计的一个初衷。 唐辰认为,“最大公约数”的另外一层含义,即是88VIP串联起阿里生态和多个会员体系,相互引流。这也演化出88VIP会员权益的深度及广度,是其他家会员无法比拟的,其背后是阿里生态协同的优势。阿里巴巴有财报数据显示,每新增100个88VIP用户,可以新增38个优酷用户、32个饿了么用户和27个淘票票用户。饿了么平台上的88VIP,客单价比普通用户高出20%以上。 为实现“筛选”的目标,淘宝对会员设置了门槛:用户淘气值超过1000,才能以88元的价格购买88VIP年卡权益。若淘气值不够1000,则需要支付888元。淘天官方认为,淘气值用一个更综合、更全面、更多维度的算法分析系统,来分析消费者的消费行为。淘气值大于1000分的用户,会被系统认定为高质量用户。 “从一定程度说,88VIP不是花钱就能买得到的。”阿里88VIP业务负责人曾表示,这也是88VIP迥异于其他会员体系的显著标志。天猫总裁家洛也曾透露,1000分淘气值这一门槛不会降低。同时他还表示,“用户付出了远低于他得到权益的费用,得到了更高价值的东西,这是我们的期望,而对于这些用户,我们值得拿出更好的权益去影响他,让他购买,这也是我们的目的”。 商家的确定性生意机会 需要补充的是,与Costco等以会费维持业务运转的模式不同,阿里的会员体系主要以粉丝运营和品牌服务为导向。这也意味着,88VIP的最大价值就是“会员”这个群体。而从多个多维度数据来看,88VIP会员都是整个淘天系内最具价值的人群。这主要体现在两个方面: 一方面,除了高复购,88VIP会员群体乐于在社交平台分享。对于品牌商家而言,他们就是流动的随手可抓的KOC(Key Opinion Consumer,即关键意见消费者),通过信任关系影响产品的生产和销售。简单举一个实例,淘宝某商家评论区里出现几条88VIP的好评,拉动了该商家10%的销量增长。在一定程度上,也是对“全域种草、淘宝成交”的有效践行。 另外一方面,88VIP会员群体乐于尝鲜,在潮流趋势的把握上,甚至可以领先大盘用户至少半年以上。以露营产品为例,淘天后台数据显示,2022年露营产品全网走热,但88VIP人群购买相应露营产品的时间,领先了大盘半年到一年的时间。这对品牌而言,除了可以通过这类人群建立新品前期的口碑和销售转化,还可以通过他们进行趋势预测。 可以说,无论是复购能力还是品牌影响力层面,88VIP用户都不容小觑。也正是为了抓住这个全网用户规模最大的付费用户群,88VIP成为品牌商家最想加入的会员体系之一。但为了保证给消费者优质的服务体验,88VIP一直遵循着严格的筛选标准。 2022年,随着淘宝天猫的全面打通,88VIP也成为了整个淘系的会员体系。36氪曾报道,1000多个品牌在当年度参与了88会员节,包括迪士尼、环球影城、贵州茅台、人头马等品牌与88VIP进行了相关权益的联动。 由此也能看出,淘天的这个“阳谋”,对所有平台商家的最大意义就在于,淘天通过88VIP圈出高价值用户,在为他们做好服务,打造尊贵感的同时,也顺势成为商家的确定的“生意流量池”:用户在哪里,生意就在哪里,更何况是平台忠诚度高的高净值人群。 《引爆会员经济》有个观点,获取新用户前所未有地难,与其花大钱去获取新用户,不如深耕老用户。甚至还有观点认为,得会员者得天下,一个成熟的会员体系,下面隐藏着一座巨大的金矿。那么,阿里的这座生意金矿有多大? 今年2月,阿里披露了截至2023年12月31日止三个月的未经审核业绩。在公告中,阿里谈到,在2023年双11全球狂欢季成功举办后,该季度后半段订单量同比双位数增长。同时,集团在保留及拓展高端消费者方面取得成功,88VIP会员数量超过3200万,继续实现同比双位数增长。随着会员人数的增加和忠诚度的提升,平台的复购率和客单价也有望得到进一步提升。 更早之前,据阿里巴巴财报数据,2022财年,在淘宝和天猫人均消费超过1万元的用户有1.24亿人,占平台总年度活跃人数的13.7%。其中具备以88元购买88VIP会员资格的人数只会更少,他们通常有更强的消费能力。 家洛曾透露,在(2022年)618、双11期间,88VIP单个用户的交易额大约是普通用户的4~5倍。淘宝88VIP用了4年时间积累了2500万会员,他们在过去一年为阿里贡献了1.42万亿元GMV。 而这个数字在2023年更加庞大,粗略测算一下,按照3200万会员数,人均年消费超过5万,就将创造将近2万亿的GMV。做一个对比,抖音电商 2023 年的GMV超过 2.2 万亿元。也就是说,淘天几千万核心用户群体,创造的GMV就接近于抖音电商的体量,核心用户的消费实力可见一斑。 88VIP的两本账 当然,淘宝天猫不会只盯着这部分群体能给平台带来多少交易。事实上,88VIP是一个亏损的业务。正如家洛曾经表示,要看经济账和用户账两本账。他的意思很好理解。单算经济账,88VIP是一个做不到盈利的项目,“从推出之日起,就一直在亏很多钱”。这是国内平台付费会员共同的难题。京东集团副总裁韩瑞也坦言过,京东PLUS会员如果从收入和支出来看,是“远远入不敷出的”。 但从用户账上算,通过丰富的权益聚拢高价值用户,打造服务标杆,带来的效益就远高于经济账层面的会员补贴:一方面会员用户有更高的复购和留存,另外一方面可以给商家、品牌提供更低成本的流量,进而为商家卷出更多的利润空间。 唐辰此前分析,品牌商家在天猫开店,意义不止局限于卖货,更重要的是品牌价值的提升。正因为此,你能在天猫上看到新加坡、泰国等国家旗舰店,也能看到广州小蛮腰、成都宽窄巷子等景点地标品牌店,还能看到特斯拉、宜家、奈雪的茶、华米OV等不同行业头部品牌,甚至包括LV等奢侈品旗舰店的入驻,天猫的平台价值是在更高维度的提升。 苹果也是如此,它更看重的是“主场优势”,既能在渠道上覆盖目标用户,卖卖货,还能建立品牌势能落差,追求更长期的价值,其他诸如技术能力、服务质量都只是加分项。这也是苹果会把全球唯二、中国唯一的第三方平台官方旗舰店入驻天猫的根本原因。同样的,把全球首次电商平台直播落在天猫也在情理之中。 这也能够解释为何越来越多的品牌争相加入88VIP,享受这部分人群带来的“主场”确定性商机。比如三只松鼠天猫旗舰店运营总监柳浩表示,在88VIP上哪怕不赚钱也要做,“权当和淘内高端用户交个朋友。”这对商家来说,都是唾手可得的生意。 2023年9月,阿里新管理团队确立“用户为先、AI驱动”两大战略重心。近半年来,阿里的变革得到肯定。今年以来,淘宝继续掀起年度大反攻,在这个过程中,88VIP用户扩容可能就是其核弹级手段。对此,封面新闻评价,88VIP高净值人群将扮演更重要的角色,在为消费者带来更好品牌服务的同时,为商家带来更多发展机会,一举两得。
OpenAI Sora负责人专访:20个问题深入研发细节,Sora仍是GPT-1时期
编译 | 一支笔 编辑 | 云鹏 智东西4月26日报道,AI生成视频不仅是图像生成器的升级,更是向AGI(通用人工智能)迈进的关键一步。在"No Priors"节目中,Sora团队负责人Aditya Ramesh、Tim Brooks和Bill Peebles与主持人一起讨论了OpenAI最近宣布的生成式视频模型——Sora。该模型能够根据文本提示生成真实、视觉连贯且高清的视频片段,最长可达一分钟。 访谈中,三位负责人探讨Sora的开发过程,并就其潜在应用,如教育、娱乐、数字化身份等阐述各自的观点。但目前团队的重点仍在于技术的基础开发,而不是特定的下游应用。Brooks表示,虽然包括数字化身在内的想法很有意义,但团队目前尚未探索这个问题。Brooks认为,Sora仍旧处于AI视频模型的GPT-1时代。 此外,Ramesh谈到,Sora的视觉美感引人注目,但其美学并未深深嵌入模型之中。在安全方面,Sora也面临着错误信息和攻击性文字生成等挑战。对此,他们将在确保模型为用户提供实际价值的同时,采取一切可能的安全措施,防止生成深度伪造内容和误导信息。同时,逐步开放技术,尊重用户自由表达的权利。 Peebles则讨论了如何使这项技术更广泛地普及,包括降低成本和处理可能出现的错误信息和相关风险。Peebles提到,作为数据网络(DN)的一部分,团队必须考虑安全因素,并积极采取措施应对相关风险。而这些,已经成为团队研究道路上的重要任务之一。 以下是Sora团队负责人专访中的20个问答,为方便阅读,部分问题及回答在尽可能不违背原意的前提下进行了处理: 1、从文本到视频,从AI到AGI的转换,你们是如何开始研究这个领域的呢? Peebles:我们坚信像Sora这样的模型确实是实现AGI的关键步骤。我们认为一个很好的例子是一群人在东京的冬天穿行的场景,这是一个极其复杂的环境。在这种情况下,你可以想象一台摄像机飞过场景,许多人相互交流、说话、手牵手,以及附近的商贩。这个示例说明了Sora如何在神经网络权重范围内建模极其复杂的环境和世界。 要生成真正逼真的视频,必须学习人们的工作方式、互动方式以及最终的思考过程。这不仅包括人类,还包括动物和其他需要建模的物体。因此,随着我们继续扩大像Sora这样的模型,我相信我们将能构建类似世界模拟器的东西。 这意味着任何人都可以与其中的人物互动,我作为一个个体可以运行自己的模拟器,与模拟器中的人物进行交互。这种交互是通向AGI的路径之一。随着我们未来扩大Sora的规模,我们将会看见AGI的实现。 2、在更广泛地使用Sora之前,你需要进行哪些工作? Brooks:我们真的希望能与OpenAI以外的人交流,并思考Sora将如何影响世界,以及它如何为人们提供帮助。目前,我们没有制定产品的即时计划,甚至没有定制产品明确的时间表。但我们正在采取行动,向一群小艺术家和红队成员提供对Sora的访问权限,开始探索它可能产生的影响。 我们收到了来自艺术家的反馈,了解到如何使Sora成为对他们最有用的工具。我们也收到了来自红队成员的反馈,帮助我们确保安全,并考虑如何向公众展示它。这些反馈将为我们未来的研究制定路线图,并指导我们是否最终推出该产品,以及具体的时间表。 3、你能分享一下你得到的反馈吗? Ramesh:我们已经向一小部分艺术家和创作者开放了对Sora的访问权限,以获得早期反馈。我们认为最重要的是可控性。目前模型仅接受文本作为输入。尽管这一功能已经相当有用,但它仍然受限于需要精确描述你想要的内容。因此,我们正在考虑如何在未来扩展模型的功能,以便接受除文本之外的输入。 4、你们有没有看见艺术家或其他人用它制作的最喜欢的东西,或者最喜欢的视频,亦或你觉得鼓舞人心的事物? Brooks:看到艺术家们如何运用这个模型真是太神奇了。我们对一些事情有自己的想法,但那些以制作创意内容为职业的人非常有创造力。例如,Shy Kids制作了一个非常酷的视频,他们制作了短篇故事Airhead,这个角色有一个气球,他们很喜欢这个故事。看到Sora能够解锁并让这个故事更容易讲述,简直太酷了。我认为这与Sora制作某个特定剪辑或视频无关,更多的是这些艺术家想要讲述并能够分享这个故事,而Sora可以帮助实现这一点。 Peebles:我个人最喜欢的样本是我们创作的Bling Zoo。在我们推出Sora那天,我在Twitter上发布了它。它本质上就是纽约动物园的多镜头场景,也是一家珠宝商店。你可以看到剑齿虎在这个闪闪发光的环境中仿佛成了装饰品,这非常地超现实。 我喜欢这些样本,因为作为一个喜欢创造内容但实际上没有创作技能的人,通过操作这个模型,我很容易就能产生一大堆想法,并最终得到一些很棒的作品。而且,实际生成所需的时间相比于通过迭代提示生成内容而言要少得多。 因此,对我来说,操作这个模型非常有趣,并从中获得想要的东西。我很高兴看到艺术家们也喜欢使用这个模型,并从中获得创造性的灵感。 5、我们何时能够看到Sora或其他模型产生的实际内容,这些内容由专业人士制作,并成为更广泛媒体类型的一部分? Brooks:好问题。我对确切时间线没有预测,但我对此非常感兴趣,那就是除了传统电影之外,人们可能会将其用于什么。在未来几年里,我们或许会看到人们制作越来越多的电影,但我认为人们也会找到使用这些模型的全新方式,这些方式与我们习惯的当前媒体完全不同。当你告诉这些模型你希望看到什么,并且它们能够以一种非常不同的方式做出响应时,这就构成了一个非常不同的范式。 也许会出现一种全新的互动模式,类似真正富有创意的艺术家与内容互动的方式。所以,我对人们将要尝试的全新创意感到非常兴奋。这真的很有趣,因为与我们目前拥有的不同。 6、当你考虑这个世界模拟模型的功能时,你认为它会成为模拟的物理引擎吗?人们实际上正在模拟风洞?它是机器人技术的基础吗? Peebles:我认为你说到点子上了。对于像机器人这样的应用,你可以从视频中学到很多你不一定能从其他模式中学到的东西,就像OpenAI等公司过去投入了大量资金在这方面,如语言,手臂和关节在空间中移动的方式等类似的细节。 回到东京的那个场景,你可以观察到腿是如何移动以及它们如何以物理上准确的方式与地面接触。因此,在训练中可以学到很多关于物理世界的知识。我们认为原始视频对于诸如物理体现之类的事情的发展至关重要。 7、你能为广大技术受众解释一下什么是扩散Transformer吗? Brooks:Sora建立OpenAI的DALL-E模型和GPT模型的研究之上。扩散是一种数据生成过程,以我们的案例为例,即视频生成。这个过程从噪音开始,通过反复多次去除噪音,直到最终去除了足够多的噪音,只生成一个样本。这就是我们生成视频的过程。我们从一段有噪音的视频开始,逐步去除噪音。 从架构角度来看,我们的模型必须是可扩展的,它们需要能够从大量数据中学习,并理解视频中那些非常复杂且具有挑战性的关系,这一点至关重要。因此,我们采用了一种类似于GPT模型的架构,称为Transformer。我们甚至发布了一份关于Sora的技术报告,展示了在使用较少、中等和更多的计算量时,从同一提示中获得的结果。 我们认为,随着我们不断增加计算资源和数据,我们将不断改进这些模型,使它们能够胜任更多的任务,如更好的模拟和更长期的生成。 8、你可以给我们解释一下这种模型的缩放定律是什么吗? Peebles:这是一个很好的问题。正如Tim所提到的,使用Transformer的一个优点是,可以继承我们在其他领域,例如语言中看到的所有优秀特性。因此,你可以开始提出视频而不是语言的缩放法则。 这是我们团队正在积极研究的事情,我们不仅在构建模型,还使其变得更好。这意味着,我可以通过使用相同的训练计算量,在不从根本上增加所需计算量的情况下,获得更好的结果。这些是我们研究团队每天都在解决的问题之一,以推动Sora和未来模型的发展。 9、在这个领域应用Transformer的问题之一就是标记化。还有,这个名字是谁想出来的呢?但像时空补丁那样科幻的名字真的很棒,你能解释一下它是什么以及为什么它与此相关吗? Brooks:我不认为我们创造了这个名字,它更像是一个描述性的术语。LLM范式的关键成功之一就是token的概念。当你浏览互联网时,你会发现各种各样的文本数据,包括书籍、代码、数学等。语言模型的妙处在于它们有token这一单一概念,使得它们能够在如此广泛的数据上进行训练。然而,在过去,视觉生成模型缺乏类似的概念。因此,在Sora之前,你会在256×256分辨率的图像或256×256的视频上训练图像生成模型或视频生成模型,而这些视频正好四秒长。 因此,在Sora中,我们引入了“时空补丁”的概念。你可以把它想象成数据的表示方式,存在于图像和长视频中,就像一个高度堆叠的垂直视频,你可以从中提取立方体。因此,Sora不仅可以生成720P分辨率的视频,还可以生成垂直视频、宽屏视频,甚至可以生成图像。这使得Sora成为第一个具有广度的视觉内容生成模型,就像语言模型具有广度一样。这就是我们朝着这个方向迈进的真正原因。 8、如何将端到端深度学习应用于视频? Brooks:在Sora之前,许多处理视频的模型实际上都在考虑扩展图像生成模型,并在图像生成方面取得了很多进展。许多人一直在尝试使用图像生成器并对其进行一些扩展,以便制作一些持续时间较长的视频,而不仅仅是一张静态图像。 但对于Sora来说,真正重要的是架构的差异。我们并不是从图像生成器开始,然后尝试将其扩展为视频生成器。相反,我们从一个更宏观的问题出发:如何制作一分钟的高清视频剪辑。这就是我们的目标。当我们设定了这个目标时,我们意识到我们不能仅仅依赖于扩展图像生成器。 为了制作高清素材,我们需要可扩展的东西,将数据分解成非常简单的方式,以便我们可以使用可扩展的模型。所以我认为这确实是从图像生成器到Sora的架构演变。这是一个非常有趣的框架,因为我们相信它不仅可以应用于视频生成领域,还可以应用于其他许多领域。 当然,在最短的时间内,我们并不是第一个推出视频生成器的人。很多人在视频生成方面取得了令人印象深刻的进展。但是,我们更希望朝着更远的未来目标努力。我们宁愿选择未来的一个点,然后花一年时间研究它。而且,我们有快速做事的压力,因为AI发展太快了。 11、Sora引人注目的一个方面就是其视觉效果和美学。你能说说如何调整或打造Sora的美学吗? Ramesh:对于Sora,我们并没有过多花费精力在美学上,世界本身就很美,但或许是一个很好的答案。实际上,Sora的语言理解允许用户以一种更加直接的方式来引导它,这是其他模型很难做到的。用户可以提供各种提示和视觉线索,以指导模型生成他们想要的内容类型。这种交互性使得用户能够更加灵活地与模型进行沟通,从而获得更加符合其预期的生成结果。 我认为,未来的模型将会理解个人审美。我们接触的许多艺术家和创作者都希望将他们的全部资产上传到模型中,这样在写标题时就可以借鉴大量的作品,并让模型理解他们设计公司几十年来积累的术语等。因此,我认为个性化以及如何将它与美学结合在一起,将成为一件值得探索的很酷的事情。 12、我们能否得到一种与我们现在非常不同的娱乐范式? Brooks:我觉得视频模型的发展将引领着全新的娱乐、教育和沟通方式。娱乐是其中重要组成部分,但更深层次地,这些模型有望让我们更深入地了解世界和我们的生活,以及如何通过视觉体验它们。它们不仅可以为我们提供娱乐,还可以成为教育的有力工具。 有时候,定制的教育视频可以是学习新事物的最佳途径,而制作视频来解释观点可能是与他人沟通的最有效方式。因此,我认为视频模型存在更广泛的潜在应用。 13、你们有尝试过将这些技术应用于数字化身份等方面吗?这是否会不太适用?因为它更像是文本到视频的提示。 Brooks:到目前为止,我们的重点主要是在Sora的核心技术上,而不是在具体的应用方面。虽然包括数字化身在内的想法很有意义,但我们还没有探索这个问题。我认为尝试这些想法会很酷,但我认为我们现在在 Sora的轨迹中的位置,就像是这种新视觉模型范式的GPT-1。 14、你们是如何看待视频模型引发有关安全性的问题,以及如何防止伪造、恶搞或其他类似问题? Ramesh:这是一个非常复杂的问题。我认为我们可以从DALL-E3中学到很多相关措施,比如我们处理的色情或血腥图像的方式。但肯定会出现新的安全问题,比如错误信息,或者是否允许用户生成具有攻击性的内容。 一个关键问题是,部署这项技术的公司应该承担多少责任?例如,公司是否应该通知用户,他们看到的内容可能不是来自可信来源?还有多少责任应该由用户承担?这是一个棘手的问题,我们需要认真思考这些问题,以找到最好的解决方案。 15、过去,人们使用Photoshop处理图像并发布,提出索赔。人们并没有说,Photoshop的制造商要为滥用该技术的人负责,你如何看待这些先例? Ramesh:这很重要。我们希望人们能够自由地表达自己,做他们想做的事情,但同时也需要负责任。逐步释放技术,并逐步引导人们适应它,这是一个明智的方法。这样可以确保技术的使用是负责任的,同时也尊重了用户的自由表达权。 16、能介绍一下你们下一步或正在开发一些功能吗? Brooks:我对人们将如何利用我们的产品创造出新的东西感到非常兴奋。我认为有很多才华横溢、富有创造力的人都有自己想要创造的东西。但有时要做到这一点真的很困难,因为他们可能缺乏必要的资源、工具或其他东西。这项技术有可能让许多才华横溢、富有创造力的人创造出他们想要的东西。我真的很期待他们将要制作出什么了不起的东西,以及这项技术将如何帮助他们。 17、除了长度等显而易见的问题之外,你能描述一下你们想要解决的局限性是什么吗? Peebles:为了使这项技术更加普及,我们需要考虑多个因素。其中一个重要的因素是降低成本,以便更多人能够承担。我们都知道,在视频生成领域,确切的参数设置对结果影响很大。你知道你正在创建的视频的分辨率和持续时间,但是你也知道生成过程不是即时的,需要等待几分钟,尤其是对于较长的视频。 因此,我们积极努力降低线程成本,以实现更广泛的普及。作为数据网络(DN)的一部分,我们也必须考虑安全因素,特别是在选举年。我们非常谨慎地处理潜在的错误信息,并积极采取措施来应对周围的风险。今天,解决这些问题已成为我们研究道路上的重要任务之一。 18、对于Sora未来的研究方向,你有什么想说的? Brooks:我们希望,Sora能够通过分析所有视觉数据,实现对世界有更深入的理解,甚至能够理解3D。这是非常令人兴奋的,因为我们并没有直接将3D信息输入其中,而是让它通过观察视频数据自行学习。它能够理解在视频中存在的3D结构,比如,它知道了当你咬下一口汉堡时,会留下咬痕。 因此,它对我们的世界有了更深入的了解。当我们与世界互动时,大部分信息都是视觉的,我们所学习的也是视觉信息。因此,我们确实相信,引领AI模型变得更智能、更优秀,让它们像我们一样理解世界是非常重要的。我们的世界充满了复杂性,有很多关于人们如何互动、事情如何发生、过去的事件如何影响未来的事件的内容,这实际上会导致比生成视频更广泛的更智能的AI模型。 人类的许多智慧实际上与我们对世界的建模有关。每当我们考虑如何行动时,我们都会在脑海中构想场景,凭借着想象力演绎各种可能情景。在实际行动之前,我们会思考:“如果我这样做,会发生什么?如果我那样做,会有什么后果?”所以我们有一个世界模型,将Sora构建为世界模型,与人类拥有的大部分智能非常相似。 19、我们是如何让Sora拥有与人类非常相似的世界模型,而不是像物理引擎那样完全精确的东西呢? Peebles:我们知道,人类的认知并不总是十分准确,所以我们无法做到完全精确。当我们深入研究一组非常狭窄的物理规律,并进行长期预测时,我们可以通过一些系统来改进我们的理解。 因此,我们对Sora的前景持乐观态度,认为它能够在某一天取代这种能力。从长远来看,我们希望它能够比人类更好地扮演世界模型的角色。但是,我们也必须认识到,对于其他类型的智能来说,这种能力并不总是必需的。尽管如此,对于Sora和其他模型来说,未来仍然会有改进的空间。 20、你认为公众对视频模型有什么误解吗? Ramesh:对于公众来说,Sora的发布可能是最大的更新。正如Bill和Tim所说,在内部,我们一直在将Sora与GPT模型进行比较。当GPT-1和GPT-2问世时,人们开始越来越清楚地认识到,只需扩大这些模型的规模就能赋予它们惊人的能力。 目前还不清楚,扩大下一个标记预测的规模是否会产生一个有助于编写代码的语言模型。对我们来说,很明显,将同样的方法应用于视频模型也会带来非常惊人的能力。我认为Sora 1的发布证明了这一点,现在我们站在了缩放曲线上的一个关键点。我们对此感到非常兴奋。 Peebles:正如Tim和Aditya所暗示的那样,我们确实觉得视频模型正处于GPT-1的时刻,但这些模型很快就会变得更好。我们对此感到非常兴奋,因为我们相信,这将为创意世界带来难以置信的好处。 虽然实现AGI还需要时间,但我们正在努力确保安全问题得到充分考虑,并建立一个强大的技术基础,以确保社会真正从中受益,同时减轻潜在的负面影响。尽管我们面临挑战,但现在确实是一个令人振奋的时刻,我们迫切地想要知道未来模型能够实现什么。
使用大模型 天翼云即将上线Llama 3大模型学习机
近日,Meta公司发布了其最新研发成果——开源大模型Llama 3,相较于前代产品Llama 2,Llama 3在预训练数据上扩大了7倍(达到15T tokens),在数据质量与训练方式上也进行了深度优化。此次发布的开源大模型,包含Llama 3 8B和Llama 3 70B两种规格,参数量级分别为80亿与700亿,Meta表示Llama 3是目前同体量下性能最好的开源模型,这为开源大型语言模型(LLM)领域发展再次书写了辉煌篇章。 为了方便广大AI技术爱好者与从业者快速上手学习与使用大语言模型技术,天翼云基于开源的Meta-Llama-3-8B-Instruct模型以及text-generation-webui框架,制作了一键部署、开箱即用的云主机镜像。同时,天翼云CPU/GPU云主机近期即将上线Llama 3大模型学习机,期望能够成为帮助用户打开大模型领域之门的第一把钥匙,让更多用户从此了解大模型、学习使用大模型,并利用大模型创造更多可能。 依托天翼云弹性云主机的优势与资源性能,用户在具体部署操作时仅需登录天翼云主机控制台,创建云主机,使用指定的规格与Llama 3镜像,随后从浏览器登录到学习机页面,便能基于天翼云主机快速搭建Llama 3的推理或微调环境,无需复杂配置即可快速体验和应用大语言模型。 此外,天翼云Llama 3大模型学习机在一键部署的基础上还提供模型加载、模型推理、推理参数修改、模型微调等各类功能,包括支持加载主流基于transformers框架的模型,用户只需将模型下载并放置到指定目录下, 无需其他操作,且镜像内已预装Llama 3模型; 支持使用大语言模型进行多轮对话与文本生成,且支持多人同时使用;支持修改大语言模型在推理时控制结果走向的temperature, top_k, top_p等参数;支持基于基础大模型和私有数据,微调训练自己的LoRA小模型,并使用小模型进行推理。针对这些功能,天翼云还配有详细的文档与教学视频,助力用户打破知识壁垒,降低学习门槛。 据了解,天翼云弹性云主机是天翼云推出的“明星”产品,具备快捷易用、配置丰富、专有网络、安全稳定、多种镜像、高效管理和高性价比等产品优势,能够为用户提供优质服务体验。云主机支持动态调整计算资源,提供多种实例规格和存储类型,满足用户多元化业务需求;拥有灵活自定义的网络空间,以及多重安全防护,全面保障数据可靠性,助力业务批量快速部署。用户可以通过多种管理方式和多维度监控实现高效管理,并可根据需要灵活选择计费模式,享受专业运营团队的7*24小时服务。此外,天翼云还提供多样异构芯片和计算模型,为用户提供更优算力选择。 当前,人工智能技术与各领域深度融合,成为助推千行百业创新发展的重要引擎。天翼云作为全球领先的云服务商、国内领先的大模型算力服务商,通过科技创新持续为用户提供可快速搭建大型模型推理或微调环境的解决方案,以及高性能的AI算力集群,将有助于推动AIGC产业实现高质量发展,加速千行百业数字化、智能化升级。
“中国Sora”来袭,文生视频模型的未来究竟在哪里?
今年2月16日,美国OpenAI公司发布视频生成模型Sora,首次由 AI 生成了长达1分钟的多镜头长视频,输入寥寥数语便能生成效果炸裂视频,镜头感堪比电影,震惊全球。 随后,全球掀起了一场关于Sora的讨论风暴,犹如一年前的ChatGPT爆火,有大量 AI 公司以做“中国版 Sora”为目标。 4月27日举行的2024中关村论坛“未来人工智能先锋论坛”上,清华大学与生数科技联合推出中国首个长时长、高一致性、高动态性视频大模型Vidu,被称为“国内首个Sora级视频模型”,也是中国首个纯自研视频大模型。 Vidu利用Diffusion与Transformer融合架构U-ViT,支持生成长度16秒、分辨率1080P的视频,不仅能够模拟物理世界,还具备多镜头生成、时空一致性高等特点。清华大学教授、生数科技首席科学家朱军表示,Vidu之所以能够达到这样的效果,是因为其技术路线正好与Sora高度一致。 更早之前的2024商汤技术交流日上,商汤科技也公布三段完全由大模型生成的视频,并强调文生视频平台对于人物、动作和场景的可控性。这意味着,商汤科技在文生视频平台方面取得了重要技术突破。 如今,在美国OpenAI快速发展的技术环境下,中国正加紧学习并不断创新,以实现Sora级视频模型的技术突破,从而更早推动AGI技术的到来。 而就在4月10日,钛媒体AGI 举办了第一期闭门沙龙活动。通过线上会议方式,我们邀请了两位重磅嘉宾——生数科技产品负责人张旭东、商汤研究院研发总监卢乐炜,共同探讨AI视频生成模型背后的技术细节以及行业未来趋势。 张旭东表示,Sora比Pika、Runway更近一步,推动 AI 视频模型落地。同时,OpenAI不仅是视频模型,未来Sora可能还需要和GPT做一些融合。 “我对Sora的看法是,扩散模型(diffusion model)本质是做一个概率分布,随着模型规模越来越大,概率分布越逼近于真实,生成效果也就变得更加逼真。”张旭东表示,OpenAI确实走在一个宏大目标的道路上。 卢乐炜则坦言,Sora使得Scaling law(尺度定律)起到很大的作用,这能够推动整个产业往多模态大模型、文生视频模型方向发展,促进产业或将实现AGI。 展望未来,卢乐炜强调,现阶段离AGI还比较远,但随着模型容量增大,更好地吸收各个不同领域的数据,也许会有机会成为底层通用 AI 基础模型;同时,每个大的行业确实也有它产品逻辑和背景,因此市场依然需要大行业的定制模型,整个需求是长期存在的;另外,未来供电和能源问题获将成为国内发展大模型的另一重要力量。 以下是由钛媒体AGI 整理的本次沙龙部分对话内容: 钛媒体:Sora已经发布两个月了,那么从你们二位来看,Sora带来了哪些不一样的特点?它为什么能够理解世界在时间和空间上的连续性? 卢乐炜:从学术的角度来说,Sora利用了一个比较powerful的视频encoder去做一个时空的patchify的一个抽取。Sora有一个更强的时空建模,在整个stage中把实际收益大大往前挪。此外还有在另一块很大的收益上,Scaling law(尺度定律)确实起到很大的作用。如果国内的研究团队有这种充分的资源和基础设施去支持,肯定也可能更早去实现这个效果。当然OpenAI不愁资金,更方便把我们这个愿景给实现了。 张旭东:我对Sora的看法是这样的,扩散模型(diffusion model)本质是做一个概率分布,随着模型规模越来越大,概率分布越逼近于真实,生成效果也就变得更加逼真。 比如在图像生成任务中,在一开始模型规模还没有很大的时候,会容易出现人脸人手的崩坏、肢体位置不协调等问题。但随着模型变得越来越大,图像的语义理解、美观性、可控性方面的水平就能得到提升。视频任务的Sora 本质也是这个原因,基于diffusion transformer融合架构,不断提升模型容量,生成效果就可以得到优化。 OpenAI不仅是在视频,在其他领域还有一些没披露的远大目标。那种目标是我们一听就觉得是非常难实现的。可能现在我们看到的是Sora,但再过一年又会是另外的东西,OpenAI 确实走在一个宏大目标的道路上。 钛媒体:相比Runway、PIKA,或者是Stable Diffusion(SD 3.0)等来说,Sora的核心优势有哪些?你们二位能否简单说说这种视频模型,和多模态模型的区别? 张旭东:我认为Sora还不能称之为一个特别完善的多模态。 真正的多模态应该是什么样的,同样以图文场景举例,很多真实需求其实是“图文-图文”的交互,比如跟设计师沟通设计需求,就是一个典型的“图文-图文”的交互,指着一张图说要怎么怎么改,这里局部做些编辑,或者改下风格,输入既有图片,又有文字指令,设计反馈回来也是图和文,都是图文交错的形式。 那让AI来做的话,理想状态是,输入图片加一些限制的指令条件,模型在理解的基础上直接生成出来。但现实却是做编辑是一套算法,做风格生成又是另外一套算法,比如使用GPT-4 Turbo。有点像是“一个聋子搭着一个哑巴”,两个人一起协同去干活。本质上这个模型还不能真正的理解多模态的输入,然后再转化成一个多模态的输出。 视频任务是一样的,甚至会更复杂一点。但我认为Sora比Pika、Runway更近一步,Runway、Pika只是单纯的跨模态,Sora 在架构上做了更多的设计,用transformer替代了U-Net,将 Transformer 和扩散模型进行了融合。我认为Sora的架构是有潜力去支撑起图文视频或者更多模态的输出。但就Sora 的形态来说,离多模态还是有挺大距离的,我觉得到目前为止还没有一个真正意义上的多模态模型出现。 钛媒体:Sora现在还没有开放,背后原因是什么? 张旭东:Sora还是一个比较单独的架构,目前这个架构还是有很多任务是实现不了的,只能去做视觉内容相关的一些东西,还是在有限的任务内,可能未来Sora还需要 和GPT做一些融合才行。 卢乐炜:我觉得Sora在那个moment推出可能也是一种偶然。像GPT-4已经发布那么久了,然后再看手里的东西,Sora正好是一个蛮不错的有爆点的东西,所以OpenAI先推出来。他们自己也声称这也不算是产品发布,只是一个技术Preview。 再聊回刚刚说的多模态大模型,这本身不是一个新词,这个词到现在概念都换过好几次内容。你说Sora是多模态大模型也ok。那一般来说多模态大模型更多的像是GPT-4v,偏向于图文理解,但多模态最终的核心就是做多模态互信息的理解,无论是基于图文对、视频文本对、基于理解这个路线做互信息,还是说基于视频流,它可能是弱文本重视频的客户信息,无论是基于对什么是一个更高效的方式,这两个事情是殊途同归的。它本身不是互斥而是一体的。 我判断多模态大模型、文生视频模型本身就是一体的,而且我觉得Gemini 大概率也是走这个路线。现在它的衔接可能是偏文本,那后面可能是特征维度的衔接。因为本质多模态大模型现在encoder输入,然后再引入一个多模态核心Core。现在Core都升级到图文交错了,它已经是视频、音频、图文包括各种模态的交错,形成那个很强的Core,因为怎么高效地形成互信息的Core才是最重要的,那可能在接它的下游,所谓decoder,之后核心要做的就是核心互信息的Core特征。但是它是不是真的能学得到这个互信息,它可能有,但是不一定有那么强,所以最终有可能是encoder输入,然后各种模态也能decoder输出,任何一个路径它都能走。 钛媒体:近期业内有很多非Transformers的架构出现,比如谷歌、斯坦福的团队都发布了Transformer架构模型,为什么大家又开始追非Transformer?这是否意味着Transformer开始被抛弃了? 卢乐炜:我觉得首先追求Transformer Attention的线性化在没有现在AGI大模型的年代就有了,线性Attention复杂度的这个追求某种程度上还是在Transformer的基础上修改的。比如Yi Tay,他在Google期间做了一个很实际的工作就是线性化Transformer。那这算不算非Transformer架构?如果算那非Transformer架构以前就多的去了,因为这里核心的关注点其实就是他Attention随着Context变长的计算复杂度增长,那现在当然有像Mamba很火,包括把RNN 的经验带回来的像RWKV,这些我们内部实际的推导过根本的一些公式表达,其实它是能一个统一的表达去表示的,所以我们也在内部研发具有创新性的机制。 还有一个最大的痛点就是,如果我们未来面向多模态,毫无疑问是要面临视频的处理。这一点其实Gemini 1.5 Pro已经展示出来了,你的上下文支持需求 会变得极端的长。假如你把所有的帧抽帧处理,那两个小时的电影,甚至多部电影十个小时的视频内容给到模型,那上下文需要多长,目前100万tokens的上下文够吗?200万够吗?目前百万级上下文通过工程来做能支持得很好,但万一接下来的话多模态需要的上下文长度就是1000万1亿甚至更大了?那不可能再继续依赖工程优化来覆盖产生的这么大的cost,所以注意力机制线性化也成为现在大家很迫切需要的必然,也所谓的现在大家说不能用Transformer架构,其实我个人是不大喜欢强调说这就是非Transformer架构,因为它本身就是对他做注意力机制做改造。 过去曾经很多同僚对他魔改过100遍了,当然现在的改进会更彻底一些比如RNN能不能拿回来,包括加Batch支持的各方面的改进,包括RWKV第五版,第六版往这个方向思路改进, 当然现在还有一个大模型研发上路径依赖的问题,如何利用这些新型结构真正的训练出一个典型体量的大小大模型,确实需要很多的资源去验证和调优。 张旭东:从长期来看,架构肯定还是有许多需要去改进的点。但从比较近期或者做产业这个角度上来讲,我自己感觉这块工作很像实验科学。你加一些什么东西,它得到什么样的结果,设计什么样的训练策略,它能有什么结果。每次需要做很多实验,才能得出一些有效结论。 所以不管是从经验还是熟悉程度出发,团队其实很难去贸然地尝试一个全新的架构,我觉得产业内还是会投入更多精力在主流架构上面去做工作。 钛媒体:此前,机器学习采用的贝叶斯、无监督算法,无限逼近right值的形态是 AI 发展的必经之路。但ChatGPT、Sora一出来,AI技术格局发生了巨大变化,为什么会出现这种现象?接下来,模型层面是否还会有新的架构进行替代? 张旭东:我自己感觉变化还是非常大的。最早我也做过一些像广告投放的工作,它用简单的逻辑回归模型达到的效果也不错,包括在金融领域也有很多应用。但它本身模型架构特别简单,你很难给它喂上比较多的数据。 而OpenAI想做所谓的AGI,让其拥有类似人类的智慧,那怎么实现?他们当时提出,知识来源于数据的压缩。也就意味着,如果能够把全世界的知识压缩到一起,那就能够拥有足够多的智慧,然后就能把AGI做出来。从这个思路出发,首先就要求这个模型的架构要能够去吃足够多的数据,在大规模的数据上要能够训练得起来,Transformer 架构就非常适合。 当然过程中他们也尝试过像LSTM 架构,但训练效果不太理想。后来Transformer 出来了,他们很快切换到Transformer 上面去。从OpenAI发布的一系列技术论文来看,很早之前他们就通过GPT2验证了Scaling law,只是当时大家都没有意识到这个的重要性。直到GPT3参数量提升到1750亿,Scaling law的作用更明显的体现出来,这时候Scaling law的价值才真正的大范围的被认识到,所以我觉得核心还是需要一个架构去压缩更多的数据,然后剩下的比如做很多的卡的并行,做大规模的训练,其实都是为了Scaling law服务的。 卢乐炜:因为Scaling law是在当时GPT-3.5的推出,在大家口中变得特别火热,但我个人想说,其实Scaling law从来不是一个新的东西。深度学习发展的本质其实就是Scaling law起作用。甚至20年前到现在,Scaling law一直都在起作用,使得后面有深度学习的发展,包括现在AGI的发展,因为现在确实我们有了更好更多的计算资源了。过去最知名的神经网络突破就是Lecun年轻的时候用一个CPU对吧,386去训练一个CNN出来,也是首次Mnist 上取得突破性的成绩。那为何不是基于决策树或者贝叶斯的各种东西。其实在以前包括周老师也做过堆栈化的树网络模型,也都尝试过深度学习化的改造,那为啥不行?就是Scaling law的本质是如何能更快的吃数据,见过更多的数据,更快的训练,计算Gradient去快速下降,确实基于神经元是最最精简的形式,特别能迅速优化训练迭代,所以我们的框架设计其实都在不断的做减法。 为什么我们之前还会讨论大模型设计究竟应该是encoder加decoder还是decode only还是prefix那时候提出了一大堆方法,那为啥最终是decode only,因为这么做结合Scaling law确实太高效了。无论从数据的准备还是整个架构的高效训练,都非常好,能很高效地见更多的数据。包括最早的GPT,它基于的结构,为何会选一个相对更胖,层数更少的结构?Scaling law确实就是OpenAI笃定的信仰。 我们回顾过去,统计学习就是希望统计更多的数据,得出更客观的规律或在高维的数据里面找到一个更精准的决策边界。甚至我见过全世界所有数据,判别出一个特别准的边界,那可能就是一个完美的模型,有个任何一个地方都不会有偏的一个边界。 另外OpenAI决定做视频肯定不是因为要做Sora才开始搞这些东西,他这么强大的工程团队是一个非常强的支撑。其实我们还有一个观察就是,关于很多新的、随着这波浪潮起来的很多老师的初创公司,他们以前是做搜索起家的,也很快把这个语言大模型研发出来,并且整体的质量也是很不错。侧面验证了前期数据工程的积累,因为过去做搜索很明显也是跟数据打交道,然后做ranking各种东西,包括filter,对各种管线的需求都特别丰富。那OpenAI为啥在一个moment爆发,我个人觉得和微软有关。 微软的必应团队,cosmos那些集群建设特别完善,你想要什么数据,他很快就能用几十万计的计算节点、CPU节点立刻发力,想要的各种filter 的条件都写出来,数据支撑还是很强大的。 很多科研的资深老师也很了解,在高校包括李飞飞最近也经常呼吁要建一个国家级的超算集群给到高校去用,因为计算资源就是一道门槛,是起到很大的帮助作用的。 钛媒体:商汤是怎么做多模态大模型的感知能力以及视频模型,过去一年日日新有哪些变化? 卢乐炜:我是做视觉起家,大概2019年加入商汤,当时在做的一个事情就是视觉的大模型,我们一直到现在也在做,我们近期发布的InternVL也是现在业内性能最强的视觉基座大模型。关于纯语言模型,大家路线就比较清晰明确,那到多模态时代就需要在之前视觉等各个模态方面经验都有很好的积累,可能才能发挥这样的一个威力。 我们大概在2023年初开始做切入多模态大模型,到那年年中就有一个比较强版本,也给到我们很多B端客户做了产品支撑。我们一些很知名的客户给了反馈,就包括最近发布了车的客户,在他的评测里面展现了非常不错的性能。我们做的就是一个通用大模型,它能赋能各种比如像小爱同学这类智能助理。 可能我们没有太多宣传,其实我们有一些也是比较引用量比较高的一些文章。在文生视频领域我们也是有一个比较强的学术积累,甚至在更早时间点已经开始堆一个比较强的规模。但没有投入特别多的力量去做宣传。 在文生视频领域我们也有一个比较强的学术积累,甚至在更早时间点已经开始堆一个比较强的规模。 钛媒体:场景化模型的客户需求在哪里?为什么大家老讲“场景”问题? 张旭东:生数团队主要提供图像生成、3D模型生成、视频生成能力,主要面向创意内容生产场景。比如在设计领域,帮助创作者在初期生成大量的草图、概念图,更好的理解创作需求并寻找创作灵感,同时提高创作效率。包括游戏领域涉及大量的3D素材,传统流程需要手动建模,时间成本投入巨大,通过我们的图生3D的能力,自动生成游戏道具、玩家形象等各类3D模型,提升游戏开发效率。 但目前影响实际使用的关键还在于模型能力。如果模型能力没有那么强,很多需求其实解决不了,这种时候,要么是在限定条件下,让模型去完成一部分任务,或者是后期加入人工来完成,在过程中不断去优化。好的是,大家都很关注,都会想着怎么先把大模型用起来,不会被时代抛下去,这种意识能很好的推动技术向前一步。 卢乐炜:在很多大家意想不到的领域,像钢铁行业、煤矿行业,包括一些龙头企业,我们都在推动多模态落地的。他们有很多过去传统的需要一些更精细定义,比如最简单的生产安全,那你只能定义清楚各种模型去做,并且总是发现有遗漏的,毕竟之前依赖于人去提前去想。 我们人为何要继续学习,就是我们人真的要想明白,学习其实不是我们的强项,人可能总是有遗漏的,所以我们需要设计一套更文明的方法,让它自己去自主学习,这就是一个很好的场景和契机。包括像电力系统做巡检,很多电网系统就在深山里头,不可能派专家过去,危险性很高,那可能需要无人机巡检,那我们为电网企业定制的大模型就能完成检修和电网调度的任务,能发挥很大的作用 钛媒体:最近端侧模型比较火,AI PC、AI Phone概念也都被持续关注,无论是商汤还是生数也有布局相关的业务和技术,我想知道,二位怎么看端侧多模态模型的发展? 张旭东:端侧的场景是很必需的。比如在手机相册里输入文字搜图,或者快速抠图等等,都是非常实用的场景。目前我们也跟一些手机厂商有相关合作,主要聚焦在人像场景。PC端也是一样的,之前我们通过快捷键来一步步操作电脑,未来通过文字指令就能直接实现。我们现在与 AMD中国达成战略合作,探索多模态大模型应用在端侧的创新场景。 我个人感觉目前这个阶段还是很难去把一个特别大的模型通用的东西搬到手机上,做的特别好,因为时间很短,大家去年才开始做大模型。但这个行业热度很高,业内都希望尽快去落地。所以,可行的还是先以一些小的点或者场景切入,先把体验优化好。 现在大家对数据的理解更深了,可以挑更好的数据。有些时候单纯的数据量多不一定是个好事,优质数据更重要,再加上芯片也会迭代,我认为(AI PC)再过两年就会让大家觉得非常有用了。 卢乐炜:AI Phone是一个大的趋势,因为过去千亿、万亿参数模型,可预见的未来还是会跟随GPT持续扩大。但是今年,从国内来说,无论是学术上还是产业上一个大趋势,端侧模型能够基于Scaling Law(尺度定律)能力做出小模型,整个技术性能也比过去强很多。 当然,你指望一个2B模型现阶段能有多强 API 能力,也不现实,或者这种可能性需要我们不断探索,包括数据工程、算法积累等再做端侧小模型。因此,端侧模型确实能力比过去要大的多,在很小的模型参数重做出10倍大模型的同等体验,整个还是蛮有意思的。 回到 AI Phone上来说,终端厂商对于大模型回归“普罗大众”有很好的愿景,尤其通过 AI 技术把手机附加值增加更多。比如,小爱一天能几千万次调用,而千亿模型成本很贵,我们要精打细算,因此通过AI Phone,让更多人体会到这个大模型的落地成果,而且支撑智能手机持续增长。 未来,如果80%的模型都能在端侧上去完成,20%在云端,而且存在一个相当可观的速度,那么未来端侧模型肯定有发展的前景。而从我们团队来说,我们也在跟客户磨合做 AI Phone 的演进,未来会有一些创新性场景,但很多东西确实需要时间去磨合端侧模型链条。 钛媒体:未来,AGI最终到底是通用模型,还是定制模型? 张旭东:首先,它(这一轮生成式AI)绝对跟之前有很大的不同。过去做一些智慧城市治理,关注800个治理问题,就找800个人采集800组数据,然后去训很多个小模型,最终项目交付会很“痛苦”,甲方也很痛苦。但今天不一样了,如果我们想用GPT来做图像识别,能够得到很精确的定义,且比较通用化。整体来说,它的通用性比之前好很多,然后现在我们也可以看到一些新的框架,它能够做的更加通用。我觉得未来还是比较光明的。 卢乐炜:现阶段,大家应该都能很明确,离AGI还比较远。随着模型容量增大,更好的吸收各个不同领域的数据,也许会有机会成为通用模型,因为有些大的行业还是长期需要底层通用基础模型的,但每个大的行业确实也有它产品逻辑和背景,这个我们不能忽略。未来,我觉得所谓通用性 AI,我们需要有一些信念,但回到行业定制,我们客户还是希望能有厂商紧密响应需求,本质理念都还在,所以,我觉得一定程度上,市场依然需要大行业的定制模型,整个需求是长期存在的。 钛媒体:Sora、ChatGPT如此火爆,国内如何学习和创新追赶整个 AI 浪潮脚步? 张旭东:我觉得这个问题比较实际。首先,现在确实国内很多团队都在投入做生成式 AI 和大模型,但我觉得,最终肯定是只有几家能做出来。追赶Sora肯定是没问题的,国内确实需要这样的模型,毕竟Sora不是中国本土的,我们需要自己有这样的东西。 其次,中国大模型能否赶超,肯定还是很难的,因为它是一个长期的过程,不是说我今天赶上了、这个月赶上了,就代表我永远赶上了,竞争对手也在进化。OpenAI还在做更多的东西,包括“星际之门”这种花费1,000亿美金的计算基础设施,对国内是很大的挑战,所以,我觉得差距肯定是会有,而且有可能会长期存在。 但是大模型能不能做成也不完全就是“钞能力”来决定的,比如,Meta就有很多钱和几十万显卡,然后Google也有很多钱,但他们也没做出Sora。所以我觉得,中国大模型可能和最好的效果会有距离,但结合中国的场景依然能作出有价值的东西,用户永远是看性价比的,而不是谁的模型最 SOTA。 卢乐炜:我觉得最近也比较有趣,就比如刚提到像“星际之门”,包括黄仁勋也说,未来制约人工智能发展是电力。我们当时还比较有趣的说,那是不是意味着我们有机会“弯道超车”。 随着时间发展,我们的大装置需要更多的能源,这部分其实是和国外同行同步的,接下来我们可能要从液冷,转向“水冷”,整个机房整个机子的设计完全不一样了。这些都是对就行业的共识,供电直接就多一个0了。未来,我觉得大模型发展就还很有趣,供电问题会成为国内发展大模型的另一重要力量。
Altman斯坦福闭门演讲:“我们欠自己和未来的人们一个更美好的世界”
作者 | 连冉 编辑 | 郑玄 4 月 25 日,OpenAI 首席执行官 Sam Altman 在斯坦福进行了一次闭门演讲,谈论了人工智能的发展与对社会的影响。斯坦福大学 CS 系的 Wanrong He 在「x」上总结了 Altman 的演讲: 在 linkedin 上,Wanrong He 进一步陈列了关键要点: AI 发展的快速步伐 GPT—4 之后的下一个 AI 模型将更加强大,这表明该领域的发展速度非常快。 虽然复制 GPT-4 等现有模型相对简单,但真正的创新在于定义 AI 能力的下一个范式转变。 Sam 将 AI 的潜力与 iPhone 对移动计算的变革性影响相提并论。 探索通往 AGI 的道路 OpenAI 的使命是实现 AGI。开源 AI 可能不是实现这一目标的最佳方法。 提供免费、无广告的 ChatGPT 是 OpenAI 在追求目标的同时积极影响社会的方式。为了让所有人都能使用人工智能,重点应该是使人工智能计算非常实惠,并在全球范围内广泛使用,消除不平等。 作为一种旨在增强人类的工具,没有必要为 ChatGPT 注入情感。 没有必要害怕超级人工智能,因为与未来的模型相比,每个新模型其实都会被认为是有不足的,但这也这推动了持续的改进。 创新与创业机会 仅仅专注于解决当前的人工智能局限性可能是徒劳的,因为未来的模型的出现,如 GPT-5 和 GPT-6,可能会使这些努力过时。 像 OpenAI 的 Sora 这样的突破性技术可以重新定义娱乐,产生将电影和游戏融合在一起的个性化互动体验。 人工智能初创公司有很大的潜力,但他们的成功并不能仅仅通过 AI 来保证。他们仍然必须坚持商业基本原则。 一般来说,虽然人工智能可能在国际象棋等某些领域超过人类,但人们仍然更喜欢观看人类选手的比赛。不过,Altman 指出了一些相反的例子,比如青少年更喜欢与人工智能治疗师交谈,而不是与人类进行对话。 Wanrong He 总结称,Altman 的演讲为人工智能的未来勾勒出了一副变革性的蓝图。他强调了 AI 的快速进展,OpenAI 对于通用人工智能(AGI)的追求,必须创新地利用人工智能的潜力来应对社会挑战,以及人类与 AI 之间不断演变的关系。 Altman 2005 年从斯坦福大学退学,据 stanforddaily 报道,Altman 告诉听众,多年来,OpenAI 的使命没有改变,但结构已经并将继续进行调整。目前,OpenAI 的结构包括一个营利性子公司,但仍受非营利性使命的约束。 「我认为赚钱是件好事,我也认为资本主义是件好事」,Altman 说。「我在董事会中的联合创始人都有在创造经济利益,但我从未见过他们不重视我们的使命。我们现在的结构,其实有助于确保激励机制与我们的使命保持一致。」 由于 OpenAI 的研究需要高昂的计算投入和人力成本,伴生的资金需求催生出了营利性子公司的存在。但 Altman 表示,「无论我们每年烧掉 5 亿美元,还是 50 亿美元或 500 亿美元,我都真的不在乎--只要我们保持这样的发展轨迹,只要我们能找到支付账单的方法,最终为社会创造的价值远远超过这个数字就可以。」 ChatGPT 是 OpenAI 向 AGI 迈出的一步。Altman 说,「ChatGPT 充其量用着也就是有点尴尬。」他接着说:「但 GPT-4 是你们当中的任何人都将再次使用的最愚蠢的模型,它还差得很多。不过及早且频繁地推出产品是很重要的,我们相信迭代部署的力量。」 Altman 相信,要让社会为技术进步做好准备,依赖于负责任的迭代部署,即使是不完美的模型。Altman 称,「如果我们在地下室里建造了人工智能,然后全世界都蒙着眼睛懵懵懂懂地往前走,我不认为这会有什么好处。」他希望的是,让社会与技术共同发展,「让社会告诉我们,社会集体和人们个人希望从技术中获得什么。」 他也不担心人类的创新会被扼杀,Altman 表示,「所有的历史都表明,当你给人们更多的筹码时,他们会做出更多惊人的事情。」 去年 11 月,Altman 的 CEO 职务曾被 OpenAI 董事会解除,随后超 700 名 OpenAI 员工联合签署了一封公开信给董事会,表明如果 Altman 不能复职,他们将集体离职并转投微软。 当被问及 OpenAI 员工这种压倒性的支持态度时,Altman 表示,这源自于员工们深切的使命感和对这一使命的忠诚。他认为,这种对使命的忠诚和热情是推动成功最强大的动力,至少在他所见过的所有初创企业中是这样的。 Altman 最后说,「我们欠自己和未来的人们一个更美好的世界」,而 AGI 可以为社会带来高质量的教育、疾病治疗、娱乐和太空探索。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。