行业分类:
加载中...
头条分类:
加载中...
马斯克多次评价OpenAI新模型:人类被AI增强就能创造最佳作品
原标题:马斯克多次评价 OpenAI 新模型:人类 gg 了 / 人类被 AI 增强就能创造最佳作品 IT之家 2 月 16 日消息,今天早些时候,OpenAI 发布了最新的视频生成模型 Sora,其能够根据用户输入的文本描述,生成一段视频内容。同时,OpenAI 还放出了数段演示视频,譬如摩登女郎在东京街头散步、长毛象行走在雪地里等等,IT之家已进行详细报道。 随后,埃隆・马斯克多次对 OpenAI 的新模型发表了评价。推特网友“贝夫・杰索斯”转发了一段 Sora 的演示视频,配文声称“gg Pixar”,马斯克今天下午便在这条推文下方表示,“gg humans”。 IT之家注:上文中的 Pixar 即皮克斯动画工作室,是迪士尼旗下电脑动画制片厂。gg 则是网络用语“good games”的缩写,多用于败方表示自己“输得心服口服”这一情境。 没过多久,又有一名网友 Grimes 谈到了 OpenAI 的新模型(未直呼其名,但话题指向影视行业):“…… 电影行业肯定会对这种技术作出严厉反应,希望法规不会失控。”“…… 与大多数类型 AI 创作不同,我认为生成式艺术不会抑制人类的精神。” 马斯克也对这条推文发表了回应:由人工智能增强的人类,将会在未来几年之内创作出最杰出的作品。 对此,有不少网友表示赞同,但也有网友担忧“AI 是否会拿起武器”。
59亿美元!又一起EDA领域的大并购!
继不久前EDA大厂Synopsys(新思科技)宣布以350亿美元收购另一家EDA大厂Ansys之后,近日,又一家EDA厂商Altium被瑞萨电子以约59亿美元收购。 2023年7月,瑞萨电子与Altium宣布合作开发PCB工具和云平台 瑞萨电子59亿美元收购Altium 2024年2月14日,瑞萨电子和全球电子自动化设计(EDA)厂商Altium Limited Systems (以下简称“Altium”)联合宣布,他们已签订计划实施协议(“SIA”),瑞萨电子将根据澳大利亚法律通过安排计划收购 Altium。根据交易条款,在满足多项条件的前提下,瑞萨电子将以每股 68.50 澳元的现金价格收购 Altium 的所有已发行股票,较Altium周三收盘价溢价34%,比 Altium 一个月成交量加权平均价溢价约 39%,相当于股权总价值约 91 亿澳元(约合 8879 亿日元、59亿美元)。 瑞萨电子表示,此次收购使两家行业领导者能够联手建立一个集成的开放式电子系统设计和生命周期管理平台,从而实现跨组件、子系统和系统级设计的协作。该交易与瑞萨的数字化战略高度一致,代表着该公司在为电子系统设计师带来增强的用户体验和系统级创新方面迈出的重要一步。 随着技术的进步,电子系统的设计和集成变得越来越复杂。当前的电子系统设计流程是一个复杂的迭代过程,涉及多个利益相关方和设计步骤,包括仿真和PCB物理设计的元件选择和评估。工程师必须能够在缩短的开发周期下设计出不仅实用,而且高效、经济的系统。 Altium的产品主要是面向印刷电路板 (PCB)的EDA工具,但是其在电子电路设计中发挥着举足轻重的作用,包括电路板布局、布线、验证、生产等工作无不依赖这类软件程序,是工程师创建电路原理图不可或缺的。 在共同的愿景下,瑞萨和Altium旨在构建一个集成的开放式电子系统设计和生命周期管理平台,在系统层面上统一这些步骤。此次收购将Altium先进的云平台功能与瑞萨强大的嵌入式解决方案组合结合在一起,将高性能处理器、模拟、电源和连接性结合在一起。该组合还将实现与整个生态系统中第三方供应商的集成,以便在云上无缝执行所有电子设计步骤。电子系统设计和生命周期管理平台将提供各种电子设计数据和功能的集成和标准化以及增强的组件生命周期管理,同时实现设计流程的无缝数字迭代以提高整体生产率。这大大加快了创新速度,并通过减少开发资源和低效率降低了系统设计人员的准入门槛。 “开发过程继续发展和加速。瑞萨首席执行官柴田秀俊表示:“我们的目标是‘让我们的生活更轻松’,我们的愿景是让电子设计进入更广阔的市场,通过基于云的平台实现更多创新。”“Altium的加入将使我们能够提供一个集成的开放式开发平台,使各种规模和行业的企业更容易构建和扩展其系统。我们期待与Altium才华横溢的团队合作,继续投资并推动我们的组合平台为客户带来更高的价值。” “我坚信,电子行业是建设智能和可持续发展世界的最重要行业。瑞萨的远见卓识和让所有人都能使用电子产品的承诺引起了Altium的强烈共鸣。Altium的行业转型愿景在服务瑞萨的宏伟愿景中得到了最充分的体现。“作为瑞萨的合作伙伴,我们已经与瑞萨紧密合作了近两年,在我们继续成功执行和发展的过程中,我们很高兴成为瑞萨团队的一员。” 瑞萨电子计划通过银行贷款和库存现金为此次交易融资,且该交易不受任何融资条件的约束。目前,该交易已获得两家公司董事会的一致批准,预计将于 2024 年下半年完成。不过,交易的完成还需获得 Altium 股东的批准、澳大利亚法院的批准以及监管部门的批准和其他惯例成交状况。 板级EDA市场的领导厂商 资料显示,Altium创始于1985年,是一家在电子设计自动化(EDA)领域具有领先地位的澳大利亚跨国软件公司,专注于印刷电路板 (PCB) 设计、电子设计和嵌入式系统开发。经过多年的发展,该公司已成为全球市场领导者,拥有当今最流行的 PCB 软件工具。其软件工具使 PCB 设计人员、零件供应商和制造商能够将其联系起来,从而更快、更高效地开发和制造电子产品。Altium的PCB设计软件添加了世界上第一个用于设计和实现电子硬件的数字平台Altium 365,在整个 PCB 设计过程中实现了无缝协作。 根据 ESD 统计,2021 年全球 EDA 的市场规模约为 132 亿美元,同比增长约 15.11%,预计 2026 年全球 EDA 市场规模可以达到183.34 亿美元左右。而EDA 市场又可分为 CAE、Physical Design &Verification、PCB&MCM、SIP 及 Services 五大板块。其中, PCB&MCM 板块在全球EDA 市场的占比约为 9%。PCB&MCM 板块的市场规模由 2017 年的 7.90 亿美元增长至 2021 年的 12.06 亿美元,年复合增长率达 11.16%。 根据第三方的统计数据显示,在面向PCB的板级EDA工具市场,主要由Siemens EDA (Mentor Graphics)、 Cadence、Zuken和Altium主导,他们在2019年集体占据了该细分市场69%的份额。疫情前Siemens EDA以37%的份额领跑全球板级PCB设计工具市场,紧随其后的是Cadence(17%)、Altium(12%)。Altium在过去十年中迅速成为领主要的PCB供应商之一。截止到2023年第一季度,国外的三家板级EDA工具,占据了中国80%以上的份额。 图片来源:EDA365 2023 年 6 月,瑞萨电子曾宣布在 Altium 的 Altium 365 云平台上实现了所有 PCB 设计的标准化开发。瑞萨电子一直与 Altium 合作,将其所有产品的 ECAD 库发布到 Altium Public Vault。借助 Altium365 上的制造商零件搜索等功能,客户可以直接从 Altium 库中选择瑞萨电子零件,以加快上市速度。 为何要收购Altium? 关于收购Altium的原因,瑞萨电子在新闻中列出了六大因素: 平台整合:瑞萨和Altium希望通过整合各自的解决方案,建立一个电子系统和生命周期管理平台,实现跨组件、子系统、系统级别设计的协作,符合瑞萨的数字化转型战略。 优势互补:Altium拥有先进的云平台能力,而瑞萨在嵌入式解决方案方面有强大组合,双方通过优势互补可以加速创新。 财务实力加强:Altium为瑞萨带来了2.63亿美元的收入,36.5%的EBITDA利润率,以及77%的经常性收入,有利于增强瑞萨的财务实力。 系统级设计体验:此次收购标志着瑞萨首次在系统级别为电子系统设计人员带来增强的用户体验和创新,符合瑞萨的战略方向。 平台愿景:两家公司共同致力于构建一个集成的开放式电子系统设计和生命周期管理平台,统一系统级别的设计流程,提高生产力。 协同效应:整合双方优势有望实现营收和成本协同效应,增强整体盈利能力。 综上所述,瑞萨电子认为,收购Altium是为了实现平台整合,优势互补,加强财务实力,并符合其数字化转型战略和为系统设计人员提供更好体验的目标。 Altium 董事会一致建议 Altium 股东在没有更好的提案的情况下投票支持该计划,并取决于独立专家得出的结论(并将继续得出结论)该计划符合 Altium 股东的最佳利益。根据这些相同的资格,每位 Altium 董事打算对其持有或控制的所有 Altium 股份进行投票或促使投票支持该计划。Altium 作为瑞萨电子的全资子公司,将继续由首席执行官 Aram Mirkazemi 领导。 瑞萨电子表示,此次收购增强了瑞萨电子的财务状况,并通过加速瑞萨电子的数字化战略为股东提供了巨大的价值。瑞萨电子预计在交易完成后 3 年内将其净债务/非 GAAP EBITDA 倍数降低至 <1.0 倍。
效果炸裂!OpenAI首个视频生成模型发布,网友:整个行业RIP
原标题:效果炸裂!OpenAI首个视频生成模型发布,1分钟流畅高清,网友:整个行业RIP 刚刚,奥特曼发布OpenAI首个视频生成模型Sora。 完美继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟的高清视频。 AI想象中的龙年春节,红旗招展人山人海。 有紧跟舞龙队伍抬头好奇官网的儿童,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。 雨后东京街头,潮湿地面反射霓虹灯光影效果堪比RTX ON。 行驶中的列车窗外偶遇遮挡,车内人物倒影短暂出现非常惊艳。 也可以来一段好莱坞大片质感的电影预告片: 竖屏超近景视角下,这只蜥蜴细节拉满: 网友直呼game over,工作要丢了: 甚至有人已经开始“悼念”一整个行业: AI理解运动中的物理世界 OpenAI表示,正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题 根据文本提示生成视频,仅仅是整个计划其中的一步。 目前Sora已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。 比如一大群纸飞机在树林中飞过,Sora知道碰撞后会发生什么,并表现其中的光影变化。
奥尔特曼选取网友提示词,用OpenAI新款大模型Sora生成视频
2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。 目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。 一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。 一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。 竖屏超近景视角下,这只蜥蜴细节拉满: OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到视频模型——Sora。Sora可以生成长达一分钟的视频,同时保证视觉质量和符合用户提示的要求。 OpenAI创始人兼CEOSam Altman(奥尔特曼)太会玩了,让网友评论回复Prompt(大语言模型中的提示词),他选一些用Sora生成视频。截至发稿,奥尔特曼连发多条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。 技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer架构,但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与视频生成器同样基于扩散模型。 同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。 根据OpenAI关于Sora的技术报告《Video generation models as world simulators》(以下简称报告),跟大语言模型一样,Sora也有涌现的模拟能力。 OpenAI方面在技术报告中表示,并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频,OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。 报告指出,OpenAI研究了在视频数据上进行大规模训练的生成模型。具体而言,联合训练了文本条件扩散模型,该模型可处理不同持续时间、分辨率和长宽比的视频和图像。OpenAI利用了一种基于时空补丁的视频和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真视频。结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前途的途径。 报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法,这种方法能够对生成模型进行大规模训练,并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的视频或固定大小的视频。而Sora是一个通用的视觉数据模型,它能够生成跨越不同时长、纵横比和分辨率的视频和图像,甚至能够生成长达一分钟的高清视频。 OpenAI从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用,这些令牌巧妙地统一了文本的不同模式——代码、数学和各种自然语言。在这项工作中,OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌,但Sora有视觉补丁。之前已经证明,补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示,可用于在多种类型的视频和图像上训练生成模型。 Sora支持采样多种分辨率视频,包括1920x1080p的宽屏视频、1080x1920的竖屏视频以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时,它还允许在生成全分辨率内容之前,使用相同的模型快速制作较小尺寸的内容原型。
OpenAI“AI视频”工具出炉:别争了,“视频GPT”还是我的
2 月 16 日凌晨,OpenAI 在官网博客中介绍了最新的 AI 模型——文生视频模型 Sora,它可以根据人们的文本描述生成原始视频。 在放出的演示视频中,Sora 可以生成清晰准确的角色,远景、近景交错但主题一致的视频,并且,已经能一次性生成最长 60s 的视频。看着这些视频,AI 根据剧本自动生成好莱坞电影,似乎已经向我们走来。 一经发布,社交平台 X 上,和 AI 以及视频相关的创业者坐不住了。 YouTube 头部网红 MrBeast 回应 Sam Altman 发布 Sora 模型的推特时,打趣道:Sam,请不要让我无家可归。 Runway 联合创始人、CEO Cris Valenzuela 发推称:比赛开始了。 但 OpenAI 没有拘泥于在花哨的视频本身中,对于 Sora 文生视频,OpenAI 表示:这是通向 AGI 的里程碑事件。 01 60s、语言理解、物理世界交互 据 OpenAI 官网,Sora 模型的目标是「理解和模拟运动中的物理世界」。当前,它的最大亮点是可以生成长达 1 分钟的视频,并且,在这 1 分钟的视频中,可以保证视觉质量,遵守用户提示词。举例来说,Sora 可以生成一系列复杂场景的视频,包括多个角色、特定类型的运动、以及在特定主题和背景下的精确细节等。 输入如下提示词,Sora 生成的视频:美丽、白雪皑皑的东京城市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位上购物。绚丽的樱花花瓣随着雪花在风中飞舞。|来源:OpenAI Sora 模型根据提示词,可以生成如此程度的准确视频,意味着它对语言的理解能力出众。 它不仅理解用户在提示词中想要什么,还理解这些东西应该如何在物理世界中存在。相应地,Sora 可以基于对提示词的理解,精确阐述、演绎提示词,生成恰当的角色来表达极具张力的情绪。 如下提示词 Sora 生成的视频:一个美丽的自制视频,展示了 2056 年尼日利亚拉各斯(Lagos)的人们,用手机相机拍摄的。|来源:OpenAI 在一众的演示视频中,你会发现,Sora 还可以在一个生成的视频中创建多个镜头。不仅如此,即便在近景、远景、不同角度的镜头下,也能保持角色和视觉风格的一致性。 当然,OpenAI 也在官网承认,Sora 还远非完美。它可能难以准确地模拟复杂场景下的物理世界,也可能无法理解一些场景下的因果关系,比如,一个人可能咬了一口饼干,但之后,饼干上可能没有咬痕。 此外,Sora 还可能混淆提示词里诸如「左、右」一样的空间细节,并且可能难以精确描述随时间发生的事件。 OpenAI 没有透露 Sora 模型何时公开,但表示将与有限数量的外部人士分享。当地时间 2 月 15 日一整天,OpenAI CEO Sam Altman 都在他的 X 社交媒体账户上发布 Sora 生成的视频。他让粉丝给出提示词,他发布该提示词下 Sora 生成的视频。 OpenAI 称,尽早分享研究进展是为了与外界展开合作、获得反馈,也让公众了解 AI 的进展。「我们也让一些视觉艺术家、设计师和电影制作人访问,以获得推进该模型以对创意专业人士最有帮助的反馈」。 除此之外,用来评估 Sora 危害或风险的「红队」(red teamers)可以提前测试该模型。这里的红队是指,错误信息、仇恨内容和偏见等领域的专家,他们将对抗性地测试该模型,从而评估如何防止 Sora 被滥用来制造错误信息或其他有害内容。 OpenAI 表示,在把 Sora 应用于 OpenAI 的产品之前,将采取一些重要的安全措施。 02「物理世界 GPT」 官方博客中,OpenAI 称 Sora 的目标是「理解和模拟现实」,这也是是英伟达 Omniverse 多年来押注的未来。看到 Sora 的能力,英伟达高级科学家,AI Agent 负责人 Jim Fan 盛赞其强大模型背后的技术突破。 Jim Fan 在 X 社交媒体发表上述观点|来源:twitter.com 他称,「如果你认为 OpenAI Sora 是一个像 DALLE 一样的创意玩具……再想想。Sora 是一个数据驱动的物理引擎,是对现实或幻想世界的模拟。这一模拟器通过去噪和梯度数学,来学习复杂渲染、『直觉』物理(「intuitive」physics)、长视野推理(long-horizon reasoning)和语义基础。」 在其背后的技术实现上,Jim Fan 认为,Sora 一定使用了 Unreal Engine 5 生成的大量合成数据来训练。 在技术声明中,OpenAI 尚未介绍 Sora 模型的训练数据等细节,称将在 2 月 16 日晚些时候,发布技术论文。 在已公布的信息中,Sora 是一个扩散模型,从一个看起来像静态噪声的视频开始,通过许多步骤去除噪声来逐渐形成最终视频。并且,Sora 能够一次性生成整个视频,或者扩展已生成的视频使其更长。 OpenAI 称,通过赋予模型一次预测许多帧的能力,解决了一个具有挑战性的问题,即确保一个主题即使暂时消失在视野之外也保持不变。 与 GPT 模型类似,Sora 使用 Transformer 架构,具备卓越的缩放性能。 对于 Sora 模型的重要意义,OpenAI 在官方博客结尾指出,「Sora 作为能够理解和模拟现实世界的模型基础,我们相信这一能力将是实现 AGI 的重要里程碑。」 显然,OpenAI 的目标依旧是 AGI 的实现,在这个恢弘的目标下,其在集结资源和自身能力上的领先优势,又一次体现出超越一般创业公司的综合实力。 此前,Pika 联合创始人 Demi Guo 在接受极客公园的采访时表示,在文生视频赛道,相比基于现有模型能力做功能优化、打补丁,模型能力本身才是决定文生视频产品成败最关键的因素。 一经发布,OpenAI 的 Sora 模型再次刷新 AI 文生视频的超能力,显然对这个赛道那些已经发布产品的初创公司形成了巨大压力:Runway、Synthesia、Pika、Rephrase.ai…… 就像 Runway 联合创始人、CEO Cristóbal Valenzuela 在几个小时前说的那样:比赛开始了。 其实,这句看起来「不服输」的话,并不准确。Sora 的出现,让「视频生成赛道」基于上一代模型技术的产品比赛,已经结束了。现在开始的,将是一场全新的技术比赛,而不只是产品的比拼。
AMD显卡可以原生跑NVIDIA CUDA应用了!速度还挺快
快科技2月16日消息,NVIDIA CUDA通过多年耕耘,铸就了牢不可破的生态壁垒,外人各种尝试都无法进入,包括AMD ROCm开发平台,但其实也不是没有办法。 开发者Andrzej Janik就凭借一己之力,借助Intel oneAPI,开发了CUDA兼容方案“ZLUDA”,能够在Intel硬件上原生运行CUDA应用,后来就被停了,原因你懂的。 之后在AMD的支持下,ZLUDA重启了该项目,能够让AMD显卡原生运行CUDA应用,不需要任何转移,也不需要调整代码。 唯一要做的,就是用ZLUDA库替代CUDA。 虽然它不能保证每一款CUDA应用都跑起来,但已经是以一个巨大的突破。 非常可惜,AMD支持这一项目做了两年,也给停了——不知道是不是受到了NVIDIA的压力。 幸运的是,ZLUDA项目并未彻底消散,已经免费开源,感兴趣有能力的开发者都可以使用,而且确认可以在AMD ROCm平台上无缝运行CUDA应用。 比如说,可以将CUDA作为Blender 4.0或者V-Ray的渲染API,尤其是Blender本来就有Radeon HIP计算渲染器,如今跑在ZLUDA上速度还会更快。 Andrzej Janik也在继续研究ZLUDA,其中一个目标就是要让AMD显卡运行NVIDIA DLSS。 内部测试表明,对比OpenCL方案,其性能大部分时候都更好,最多可以领先超过75%,但因为还在开发之中,部分时候效率反而更低。
OpenAI空降视频生成模型:一口气生成60s,风格画质尺寸灵活定制
文 | 周鑫雨 编辑 | 苏建勋 2023年4月,成立于纽约的Runway AI发布了一段用AI生成的视频:模糊卡顿、物体扭曲,且仅4秒; 四个月后,Runway将文生视频的视频效果拉到了4K的超逼着高度,实现了镜头的连贯稳定。而视频的最大长度也从4秒,提升到了18秒——这也是2023年文生视频的“时长天花板”。 然而,就在北京时间2024年2月16日凌晨,“天花板”又被打破——OpenAI又出王炸,发布了可以生成60秒视频的AI模型Sora。 OpenAI官宣Sora 同样在2月16日发布的谷歌最新多模态模型Gemini Pro 1.5,则被Sora迅速夺走了关注度。 网友为Gemini和Sora制作的梗图 根据OpenAI官方发布的推文和技术报告,Sora能力的革命性可以被提炼为:最长生成60s视频、镜头的前后一致性、超逼真。 从官方发布的视频demo而言,Sora只需要输入包含“构成元素、环境、行为及发生顺序、视频风格”等关键因素的Prompt(提示词),就能生成不同风格的高清、连贯,且具有丰富运镜和转场的60s级视频。 比如生成包含人物和城市元素的视频: 提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。 Sora生成视频。图源:OpenAI Sora也能生成动物和自然风光: 提示词:几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深。 Sora生成视频(画质受gif大小限制有所压缩)。图源:OpenAI Sora生成的视频已经能够达到逼真的效果。不过,用3D和动漫风格生成虚拟场景对Sora而言也不在话下: 提示词:动画场景的特写是一个毛茸茸的小怪物跪在融化的红蜡烛旁边。艺术风格是 3D 和现实的,重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇,怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。 Sora生成视频(画质受gif大小限制有所压缩)。图源:OpenAI 突破时长和逼真的瓶颈, Sora摸着DALL-E过河 在半年前,在保证生成画质的前提下时长仅仅是突破10秒,对于多数视频模型而言都是难以企及的高度。 这是由于循环网络、生成对抗网络、Diffusion模型等主流视频建模范式,通常只能学习某一小类的视觉数据、较短的视频或者固定大小的视频。 这意味着,此前主流范式下的视频生成模型对训练数据有较高的要求,需要将训练数据处理为具有标准大小、裁剪尺寸的视频。 Sora的技术报告显示,为了构建Sora,OpenAI创新性地采用了文生图模型DALL-E 3的相关技术:将Diffusion模型(可以将随机像素大致转换为图像)与Transformer神经网络(支持处理长数据序列)相结合。 这意味着,Sora可以像处理文字和图像数据一样,对视觉数据进行分块式地理解分析,不用进行标准化的预先处理。 比如对应大语言模型中将文本分割为最小的处理单位Token,Sora也通过压缩视频到较低维度,将视觉数据分割为可分块处理的补丁(patch)。并且随着训练计算量的规模式(Scaling)提升,视频生成质量会显著提高。 基于基础计算量生成的样本效果。图源:OpenAI 基于4倍计算量生成的样本效果。图源:OpenAI 基于16倍计算量生成的样本效果。图源:OpenAI 基于原始数据而非标准化处理数据的训练,不仅可以让Sora初步拥有理解真实或虚拟世界的能力,还能灵活生成时长不同、分辨率和尺寸各异的视频(目前可生成的尺寸范围是:宽屏1920x1080p~竖屏1080x1920p),以适应不同场景和设备的使用需求。 Sora生成不同尺寸下的同主题视频。图源:OpenAI 不过,仍有不少专家以审慎的态度看待这次技术突破。伊利诺伊大学厄巴纳-尚佩恩分校信息科学教授Ted Underwood在华盛顿邮报的采访中表示,OpenAI可能会挑选可以展示模型最佳表现的一些视频。 再比如,普林斯顿大学计算机科学教授 Arvind Narayanan在X推文中指出,Sora生成的时尚女子在东京街头行走的视频中,女子的左右腿交换了位置,背景中的人物在被前进物体短暂遮挡后消失了。 Arvind Narayanan的推文 OpenAI官方也放出了一些“Sora翻车视频”,展示了Sora在理解复杂场景的物理原理、因果关系、空间细节、时间推移上的弱点。比如,它搞反了人在跑步机上跑步的方向。 Sora生成的视频截图 Sora杀死Runway们, 伦理安全引发大众担忧 2022年,TikTok观看量Top 10的视频平均时长为44.2秒,最长的一个视频长达2分16秒; 广告分析公司Integral Ad Science的统计数据显示,移动网络展示广告和移动应用的广告平均时长分别为15.6秒和20.2秒。 这意味着,一旦文生视频模型突破了60s的时长瓶颈、画质达到商用级别,对于用户的生产和娱乐方式,都会产生巨大的影响。《马戏之王》导演Michael Gracey告诉华盛顿邮报:“电影制作者不再需要一个由 100 或 200 名艺术家组成的团队,在三年内制作他们的动画长片。这让我很兴奋。” 然而,他依然对AI工具可能会造成的版权争议、失业问题而感到担忧:“它(AI)剥夺了其他人的创造力、工作、想法和执行力,却没有给予他们应有的荣誉和经济报酬时,那就不好了。” 由于Sora生成的视频质量远高于多数视频生成模型,尤其现实风格让人真假难辨,不少专家也表达了对视频深度伪造(Deepfake)的担忧。政治竞选虚假信息识别组织True Media创始人、华盛顿大学教授Oren Etzioni在纽约时报的采访中表示:“我非常害怕这种事情会影响一场势均力敌的选举。” 目前,OpenAI为Sora生成的视频自动添加了水印标记,以表明由AI生成。OpenAI创始人兼CEO Sam Altman在X上表示,目前Sora正在展开红队测试(Red-Teaming,一种安全评估方法),并只对少数人开放测试。 Sam Altman的推文 不过,即便尚未正式对公众开放,Sora的能力已经引起了不少视频模型创业者的恐慌。 “当一个质量更好、时长更长、应用场景更广泛的视频模型摆在面前,没有人还想用‘Runway们’。”一名AI创业者告诉36氪,“对模型层创业者来说,当务之急还是赶紧找场景、做应用。”
太炸了!OpenAI深夜发布,文字直接生成视频!网友:我要失业了
2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。 目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。 例如一个Prompt(大语言模型中的提示词)的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。 在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。 电影预告片讲述了30岁宇航员戴着红色羊毛针织摩托车头盔的冒险经历,蓝天、盐漠,电影风格,35毫米胶片拍摄,色彩鲜艳。 AI想象中的龙年春节,红旗招展人山人海。有紧跟舞龙队伍抬头好奇观望的儿童,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。 竖屏超近景视角下,这只蜥蜴细节拉满: 网友直呼game over,工作要丢了: 甚至有人已经开始“悼念”一整个行业: 还有网友表示,电影业要彻底颠覆了。 一位YouTube博主Paddy Galloway发表了对Sora的感想,他表示内容创作行业已经永远的改变了,并且毫不夸张。“我进入YouTube世界已经15年时间,但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了,素材网站将变得无关紧要,任何人都可以无壁垒获得难以置信的产品,内容背后的‘想法’和故事将变得更加重要。” 对于Sora当前存在的弱点,OpenAI也不避讳,指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。 例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。 该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。 如提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。 OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。 随后OpenAI解释了Sora的工作原理,Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。Sora使用了Transformer架构,有极强的扩展性。 视频和图像是被称为“补丁”的较小数据单位集合,每个“补丁”都类似于GPT中的一个标记(Token),通过统一的数据表达方式,可以在更广泛的视觉数据上训练和扩散变化,包括不同的时间、分辨率和纵横比。 Sora是基于过去对DALL·E和GPT的研究基础构建,利用DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,因此模型能更好的遵循文本指令。 如今,Sora正面向部分成员开放,以评估关键领域的潜在危害或风险。同时,OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入,期望获得宝贵反馈,以推动模型进步,更好地助力创意工作者。OpenAI提前分享研究进展,旨在与OpenAI以外的人士合作并获取反馈,让公众了解即将到来的AI技术新篇章。
哲库解散半年后,芯片人才流向了哪儿?
汽车造芯接棒手机造芯 文丨张家豪 编辑丨程曼祺 2023 年 5 月,成立于 2019 年的 OPPO 自研芯片子公司哲库科技宣布解散,3000 多名员工离开了这家以自研旗舰手机 SoC(Sytstem on Chips,完整集成了 CPU、GPU、通信等模块的手机主芯片)为目标的芯片设计公司。解散沟通会上,哲库高管如此描述哲库关停的原因:全球经济环境和手机行业不乐观,公司营收不达预期;芯片自研投资巨大,公司承担不起。 就在解散前两天,哲库的 4nm 手机 SoC 已送往晶圆代工厂流片,最早可能会在 2024 年初搭载到 OPPO 旗舰手机上。 据《财经》了解,哲库解散后,仅有少数人员加入了 OPPO 的内部芯片团队。 该团队现有约 100 人,包括哲库原芯片产品负责人姜波,他担任 OPPO 芯片团队负责人。姜波曾是高通中国首个智能手机 SoC 产品经理,是早期加入哲库的骨干之一。OPPO 芯片团队现在主要负责与高通、联发科等芯片供应商沟通芯片的定制需求和芯片架构调优等工作。 OPPO Find 和 Reno 系列自 2022 年后就在使用的、由哲库设计的 “马里亚纳” 系列芯片也已确定不再更新。 哲库解散是中国消费电子公司造芯潮集体遇挫的缩影。 2023 年至今,除哲库外,还有星际魅族、TCL 旗下造芯公司摩星半导体等陆续宣布造芯项目终止。这些公司研发的芯片主要应用于手机和电视。 一名猎头说,有工程师在哲库关停后去了摩星,半年内经历两次解散,拿了两次 “大礼包”。 《财经》获悉,联想 2022 年设立的造芯子公司鼎道智芯也将开启裁员,比例约 20%。2022 年底,市场曾传出鼎道智芯设计的 5nm 平板电脑芯片已成功流片。 如今,除华为海思外,国内唯一还在坚持自研手机 SoC 的团队只有小米玄戒。该公司成立于 2021 年底,法定代表人为小米高级副总裁曾学忠。《财经》了解到,玄戒团队也吸收了部分前哲库工程师,玄戒设计的手机 SoC 已有一定进展。 在消费电子公司后,接棒造芯潮的主要行业之一是智能电动汽车。 综合多名猎头的信息,比亚迪和 Momenta 是吸纳哲库 Z6 和 M2 及以上人才最多的两家公司。(Z 是哲库技术序列,最高为 Z7,Z6 为经理级别;M 是哲库管理序列,最高为 M4)另有哲库技术负责人加入自动驾驶芯片公司辉曦智能。 前哲库员工是汽车行业公司造芯时的较理想选择:从成立到解散的四年里,哲库研发了影像处理芯片马里亚纳 X 和蓝牙音频芯片马里亚纳 Y,两款芯片被应用在 OPPO 手机上。2022 年底之前,马里亚纳 X 已出货超千万片。 哲库的人才在 2 个月内被行业吸收。多位芯片业猎头告诉《财经》,有较充足经验的哲库工程师加入新公司后普遍涨薪超 30%。 据《财经》,2023 年 6 月左右,原哲库总监周延加入比亚迪第六事业部嵌入式产品中心。周延在哲库时主要参与 SoC 芯片的 IP 设计。 据 《启动 PowerOn》 报道,前哲库 COO 李宗霖、哲库 GPU 副总裁贾明军、哲库 SoC 2 部高级总监俞国军及其手下近十名中层加入了 Momenta,设立新部门研发自动驾驶芯片。据了解,该团队约有 30 人,以前端工程师为主。 《财经》还了解到,前哲库验证负责人之一的王宗静加入了自动驾驶芯片公司辉羲智能。辉羲由微软亚研院前硬件计算组负责人徐宁仪和蔚来汽车前自动驾驶副总裁章健勇联合创立,曾获蔚来资本、小米集团和顺为资本投资。 用于云端服务器的 AI 芯片和 CPU 公司也吸纳了若干哲库人才。这是为汽车造芯之外的另一个热门方向:为 AI 算力造芯。 据《财经》了解,前哲库媒体芯片负责人翟凡已加入阿里巴巴旗下芯片公司平头哥;前哲库后端负责人王金城则加入了高性能 Arm CPU 创业公司鸿钧微电子,后者创立于 2021 年。 哲库 SoC 负责人之一刘浩、NPU 芯片中心部长孙成坤加入了 Arm 在中国的合资公司安谋科技,刘浩任产品研发副总裁。孙成坤曾任壁仞科技前海外团队 AI 方向负责人,加入哲库不到一个月就经历了解散。 另有一部分哲库人员回流到了展锐、联发科等手机芯片供应商。 哲库高级别芯片人才的另一个选项是自己创业。《财经》了解到,2023 年 6 月前后,哲库本有一个团队想成立一家车载芯片新公司。 如果放在 2021 年,有多年技术管理经验的芯片人才并不难拉到第一轮融资,但在芯片设计投资遇冷的 2023 年,这一创业计划最终未谈到足够多的首轮投资。 据企查查数据,2023 年,中国已有超 1 万家芯片相关企业工商注销、吊销,比 2022 年的 5700 多家增长近 90%。 芯片这类中间环节的增长,需要 “下游火车头” 带动。哲库部分技术骨干加入比亚迪和 Momenta 等汽车行业公司,背后是智能电动车替代手机,成为中国芯片增长新引擎。 去年中国新能源汽车产销分别同比增长近 36% 和 38%。而据 IDC 数据,2023 年全球智能手机、个人电脑和平板电脑出货量继续下滑,智能手机销量跌至十年新低。 智能电动车供应链企业中,除地平线、黑芝麻等主营汽车芯片的公司外,Momenta 这样的自动驾驶等软件公司也在招兵买马组建芯片团队,未来可能会提供软硬一体的方案。 资金更多的车企在自研芯片上的投入力度更大,开出的薪资也较高,给行业带来了更多人才竞争。 《财经》此前曾提到,蔚来、理想、小鹏自 2020 年起就陆续组建了自研芯片团队,布局智驾芯片。理想还与三安光电合作,建设了功率半导体产能。 其中蔚来的芯片团队人数最多,在 2022 年时一度达到 300 人。2023 年,蔚来先后发布了自研的激光雷达芯片和智驾芯片。这一年蔚来前三季度的研发费用也达到 94.6 亿元,同比增长 38 %。 以垂直整合见长的比亚迪正大力投入智能驾驶,已组建约 4000 人的智驾团队。比亚迪在 2023 年也招募了更多芯片人才,服务于比亚迪的智能能力补课。 (邱豪对此文亦有贡献。)
加个感叹号就能读取、写入和删除文档,微软Outlook被曝严重漏洞
IT之家 2 月 16 日消息,微软近日发布安全公告,报告旗下的 Outlook 服务存在严重的远程代码执行漏洞,无需用户交互的情况下,只需要在 Outlook 超链接中添加“!”感叹号,就能读取相关机密文档。 该漏洞追踪编号为 CVE-2024-21413,在 CVSS 风险评估中基础得分(根据漏洞的固有特征反映漏洞的严重程度)为 9.8(满分 10 分),时间得分(评价漏洞被利用的时间窗的风险大小)为 8.5 分(满分 10 分)。 该漏洞由 Check Point Research 的安全专家 Haifei Li 发现并报告,根据微软官方描述,攻击者可以在文档扩展名及其嵌入链接后插入感叹号,就能绕过安全程序获得文档的高级权限,包括编辑潜在的恶意 "保护视图" 文档。 如果文档中嵌入了带有 http 或 https 的超链接,Outlook 就会启动默认浏览器来显示它。 安全研究人员发现一个感叹号就足以绕过保护机制。 微软目前已经发布了 Office 补丁,修复了 CVE-2024-21413 漏洞,并推荐用户尽快安装。 用于 Office 2016(32 位版本): 产品 文章 下载 内部版本号 Microsoft Office 2016(32 位版本) 5002537 安全更新 16.0.5435.1001 Microsoft Office 2016(32 位版本) 5002467 安全更新 16.0.5435.1001 Microsoft Office 2016(32 位版本) 5002522 安全更新 16.0.5435.1001 Microsoft Office 2016(32 位版本) 5002469 安全更新 16.0.5435.1001 Microsoft Office 2016(32 位版本) 5002519 安全更新 16.0.5435.1001 For Office 2016(64 位版本): 产品 文章 下载 内部版本号 Microsoft Office 2016(64 位版本) 5002537 安全更新 16.0.5435.1001 Microsoft Office 2016(64 位版本) 5002467 安全更新 16.0.5435.1001 Microsoft Office 2016(64 位版本) 5002522 安全更新 16.0.5435.1001 Microsoft Office 2016(64 位版本) 5002469 安全更新 16.0.5435.1001 Microsoft Office 2016(64 位版本) 5002519 安全更新 16.0.5435.1001
SpaceX四枚火箭同时矗立发射场!星舰合体 准备第三飞
快科技2月16日消息,SpaceX最近相当忙碌,史无前例地一度有四枚火箭同时矗立在发射场,但以后可能是常态,甚至会更多。 一是佛罗里达州肯尼迪航天发射中心的LC-39A工位,十六手猎鹰九号火箭(B1060.16),已于北京时间2月15日14点05分发射,并成功回收。 发射载荷是美国Intuitive Machines(直觉机器)公司的月球登陆探测器“Odysseus”(奥德修斯),计划发射约9天后着陆于月球南极附近的Malapert A陨石坑周围。 如果一切顺利,这将成为1972年阿波罗17号登月之后,美国航天器第一次登月,也是为阿尔忒弥斯计划的前奏。 就在不久前,美国航天机器人技术公司开发的“游隼”号月球着陆器任务失败,返回地球自毁。 二是佛罗里达州卡拉维拉尔角空军基地的SLC-40工位,七手猎鹰九号火箭(B1078.7),已于北京时间2月15日6点30分发射,并成功回收。 任务编号USSF-124,发射载荷是美国太空军旗下导弹防御局(MDA)、太空发展局(SDA)的一共6颗卫星,其中4颗是导弹预警卫星,2颗是高超音速弹/弹道导弹跟踪卫星。 这是SpaceX第11次使用猎鹰火箭执行美国国家安全发射任务。 三是加利福尼亚州范登堡空军基地的SLC-4E工位,又一枚猎鹰九号火箭。 计划执行星链发射任务7-14,一共22颗。 本来预计也在2月15日发射,实现一天三发,但因故推迟。 四是得克萨斯州的星舰组合体SN28+B10。 星舰火箭和飞船已经合体,计划大约3周后发射,可能3月初。 SpaceX今年已经完成14次发射,平均3.3天一次,但要想完成全年150次的目标,还得继续提速。
48个文生视频+技术报告,揭秘OpenAI最强视频GPT
编译 | ZeR0 编辑 | 漠影 智东西2月16日消息,今日凌晨,OpenAI推出其首款文生视频大模型Sora。该模型能根据提示词生成长达1分钟的视频,或者扩展生成的视频使其更长,同时视觉质量相当惊艳。 相比以往的视频模型,Sora的亮点非常明显,不仅对文本理解更深刻,可以准确地呈现提示词,而且能在一个生成的视频中创建多个镜头,准确地保留角色和视觉风格。 尤其值得一提的是,Sora在细节处理上做得非常出挑,能够理解复杂场景中不同元素之间的物理属性及其关系,正确呈现它们在物理世界中的存在方式。 除了支持文本指令输入外,该模型支持生成图像,也支持将现有静止图像变成视频,能对现有视频进行扩展、将两个视频衔接并填充缺失的帧。 其3D仿真能力非常突出,无论是制作短视频、动画、电影画面,还是渲染视频游戏,Sora都展示出了令人期待的落地前景。 为了全方位展示Sora的水平,OpenAI一口气放出了48个用Sora直接生成、未经修改、长度不等(9秒~60秒)的视频。下文附有48个视频的完整展示,火眼金睛的读者朋友们可以研究下这些视频的准确程度,或者从专业性上找找bug。 OpenAI将这个大模型称作是“能够理解和模拟现实世界的模型的基础”,相信其能力“将是实现AGI的重要里程碑”。其技术报告今日刚刚新鲜出炉: 技术报告指路:https://openai.com/research/video-generation-models-as-world-simulators 一、Sora技术拆解:60秒视频、理解力强大、一次预见多帧 OpenAI首个文生视频大模型Sora是一个在可变持续时间、分辨率、宽高比的视频和图像上联合训练的文本条件扩散模型。 与GPT模型类似,Sora使用Transformer架构,扩展性很强大,能一次生成时长1分钟的视频,或者扩展生成的视频使其更长。 随着训练计算量增加,样本质量显著提高。 具体来看,该模型能生成具有多个角色、特定类型的运动以及精确的主题和背景细节的复杂场景。 通过赋予模型一次多帧的预见能力,OpenAI团队解决了一个具有挑战性的问题,即确保一个主题即使暂时消失在视野之外也保持不变。 过去的图像和视频生成方法通常是调整大小,裁剪或修剪视频到标准尺寸——例如,4秒视频、256×256分辨率。而OpenAI发现在原始大小的数据上进行训练提供了一些好处: (1)采样的灵活性:Sora可以采样宽屏1920x1080p视频、垂直1080×1920视频以及介于两者之间的所有视频。这让Sora可直接以不同设备的原始宽高比为其创建内容。它还支持在生成全分辨率的内容之前,以较小的尺寸快速创建内容原型——所有内容都使用相同的模型。 (2)改进框架和构图:OpenAI通过经验发现,在视频的原始长宽比上进行训练可以改善构图和框架。研究团队将Sora与其模型的一个版本进行比较,该版本将所有训练视频裁剪为方形。在正方形裁剪(左图)上训练的模型有时会生成仅部分显示主题的视频。相比之下,来自Sora(右图)的视频有改进的帧。 此外,Sora文生视频大模型具备如下特点: 1、强大的语言理解能力:训练文本到视频生成系统需要大量带有相应文本说明的视频。OpenAI将DALL·E 3中介绍的字幕重配技术(Recaptioning)应用到视频中,首先训练一个高度描述性的字幕模型,然后使用它为其训练集中的所有视频生成文本字幕。OpenAI发现,对高度描述性的视频字幕进行训练可提高文本保真度以及视频的整体质量。与DALL·E 3类似,研究团队还利用GPT将简短的用户提示转换为更长的详细字幕,并将其发送到视频模型。这使得Sora能准确按照用户提示生成高质量的视频。 2、支持现有的图像或视频输入:这种功能使Sora能够执行广泛的图像和视频编辑任务——创建完美的循环视频、动画静态图像、向前或向后扩展视频等。比如,基于DALL·E 3图像生成视频,从一个生成的视频片段开始向前/向后扩展视频,编辑转换视频的风格/环境,将两个输入视频无缝衔接在一起。 3、图像生成功能:研究团队通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像,最高可达2048 × 2048分辨率。 4、新兴的仿真能力:OpenAI发现视频模型在大规模训练时表现出许多有趣的突发能力。这些功能使Sora能够从现实世界中模拟人、动物和环境的某些方面。Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。 Sora经常能够有效地为短期和长期依赖关系建模,可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观一致。该模型有时可以用简单的方式模拟影响世界状态的行为,例如,画家可以在画布上留下新的笔触,随着时间的推移,或者一个人吃汉堡时留下咬痕。 在模拟数字世界方面,Sora能够模拟人工过程,比如视频游戏,可在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。 这些功能表明,视频模型的持续扩展是发展物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。 OpenAI从大语言模型获得灵感,大语言模型的成功部分归功于tokens优雅地统一了文本代码、数学及各种自然语言的不同模式。Sora研究则考虑到让视觉数据的生成模型继承这些优点。 此前视觉patch已经被证明是视觉数据模型的有效表示。OpenAI发现patch是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。 OpenAI将视频转换成patch,训练了一个降低视觉数据维度的网络,该网络将原始视频作为输入并输出在时间和空间上压缩的潜在表示。Sora在这个压缩的潜在空间中接受训练并随后生成视频。 OpenAI还训练了相应的解码器模型。 给定一个压缩的输入视频,研究团队提取一系列时空patch,充当Transformer tokens,这种基于patch的表示使得Sora能对不同时长、宽高比、分辨率的视频和图像进行训练。在推理时,可通过在适当大小的网格中排列随机初始化的patches来控制生成视频的大小。 Sora是一个扩散模型;输入一个噪声patch,它被训练来预测原始的“干净”patch。在这项工作中,OpenAI发现扩散Transformer可以作为视频模型有效扩展。 二、48个视频Demo:动漫电影、逼真自然、魔幻大片 OpenAI一共放出了48个视频来展示Sora模型的强大之处。受站点上传限制,下文主要以动图形式来简要呈现这些生成视频的部分视觉效果。 提示词1:一个时髦的女人走在东京的街道上,到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色的口红。她走起路来自信而随意。街道是潮湿和反光的,创造了一个彩色灯光的镜子效果。许多行人走来走去。 提示词2:几只巨大的长毛猛犸象穿过一片白雪覆盖的草地,它们长长的毛茸茸的皮毛在风中轻拂,远处白雪覆盖的树木和戏剧性的雪山,午后的光线与缕缕的云和远处的太阳创造了温暖的光芒,低相机的视角是惊人的,捕捉到了美丽的摄影,景深的大型毛茸茸的哺乳动物。 提示词3:这是一部电影预告片,讲述了30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影风格,用35毫米胶片拍摄,色彩鲜艳。 提示词4:无人机拍摄的海浪冲击着大苏尔加雷角海滩上崎岖的悬崖。蓝色的海水拍打着白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边上长满了绿色的灌木丛。从公路到海滩的陡峭落差是一个戏剧性的壮举,悬崖的边缘突出在海面上。这是一幅捕捉到海岸原始美景和太平洋海岸公路崎岖景观的景色。 提示词5:动画场景特写了一个毛茸茸的矮个子怪物跪在融化的红烛旁。美术风格是3D和现实的,重点是照明和纹理。这幅画的气氛是一种惊奇和好奇,因为怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮的感觉,好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。 提示词6:一个华丽渲染的珊瑚礁纸工艺品世界,到处都是五颜六色的鱼和海洋生物。 提示词7:这个维多利亚冠鸽的特写展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的,而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜,给人一种帝王和威严的印象。背景是模糊的,吸引人们注意到这只鸟引人注目的外表。 提示词8:两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频。 提示词9:一个20多岁的年轻人坐在天空的一片云上读书。 提示词10:淘金热时期加州的历史镜头 提示词11:一个玻璃球的近景,里面有一个禅宗花园。球体中有一个小矮人正在耙花园,并在沙子上创造图案。 提示词12:一个24岁的女人眨着眼睛的极端特写,站在马拉喀什的神奇时刻,电影胶片拍摄,70mm,景深,生动的色彩,电影感。 提示词13:一只卡通袋鼠跳迪斯科。 提示词14:一个美丽的自制视频,展示了2056年尼日利亚拉各斯的人们。用手机摄像头拍摄的。 提示词15:一个培养皿,里面生长着竹林,小熊猫在里面跑来跑去。 提示词16:摄像机围绕着一大堆老式电视旋转,这些电视播放着不同的节目——20世纪50年代的科幻电影、恐怖电影、新闻、静态、70年代的情景喜剧等,背景设在纽约博物馆的一个大型画廊里。 提示词17:一个小的、圆的、毛茸茸的、有一双大而富有表现力的眼睛的生物探索了一个充满活力的魔法森林的3D动画。这种动物是兔子和松鼠的异想天开的混合体,有着柔软的蓝色皮毛和浓密的条纹尾巴。它沿着波光粼粼的小溪跳跃,惊奇地睁大了眼睛。森林里充满了神奇的元素:发光和变色的花朵,紫色和银色叶子的树木,以及像萤火虫一样的小浮动灯。这只生物停下来和一群在蘑菇圈周围跳舞的小仙女嬉戏。这只生物敬畏地仰望着一棵巨大的、发光的树,这棵树似乎是森林的中心。 提示词18:摄像机跟在一辆黑色车顶架的白色复古SUV后面,它在陡峭的山坡上沿着松树环绕的陡峭土路加速行驶,灰尘从轮胎上扬起,阳光照在越野车上,在土路上加速行驶,在现场投下温暖的光芒。这条土路弯弯曲曲地延伸到远处,看不到其他的汽车或车辆。道路两旁的树木都是红杉,点缀着一片片绿色植物。从后面看到的汽车跟随曲线轻松,使它看起来好像是在崎岖不平的地形上行驶。土路本身被陡峭的丘陵和山脉包围,上面是清澈的蓝天和缕缕的云。 提示词19:火车在东京郊区行驶时,车窗上的倒影。 提示词20:一架无人机摄像机环绕着一座美丽的历史悠久的教堂,这座教堂建在阿马尔菲海岸的岩石上,这张照片展示了历史和宏伟的建筑细节,分层的小路和露台,海浪撞击着下面的岩石,俯瞰着意大利阿马尔菲海岸的海岸水域和丘陵景观,远处的几个人在露台上散步,欣赏着壮观的海景。下午温暖的阳光为现场创造了一种神奇而浪漫的感觉,美丽的摄影捕捉到了令人惊叹的景色。 提示词21:一只巨大的橙色章鱼在海底休息,与沙质和岩石地形融为一体。它的触手在身体周围展开,眼睛是闭着的。章鱼没有意识到一只帝王蟹正从岩石后面向它爬来,它的爪子抬起,准备攻击。这种螃蟹是棕色的、多刺的,有长腿和触角。这个场景是从广角拍摄的,展示了海洋的广阔和深度。海水清澈湛蓝,阳光透过来。镜头锐利,动态范围大。章鱼和螃蟹是焦点,而背景稍微模糊,创造了景深效果。 提示词22:一群纸飞机在茂密的丛林中飞舞,像候鸟一样在树木之间穿梭。 提示词23:一只猫叫醒了正在睡觉的主人,要求吃早饭。主人试图忽略猫,但猫尝试了新的策略,最后主人从枕头下拿出了一个秘密的零食,让猫多待一会儿。 提示词24:基纳巴坦干河上的婆罗洲野生动物。 提示词25:有中国龙的中国农历新年庆祝视频。 提示词26:参观艺术画廊,欣赏许多风格各异的精美艺术品。 提示词27:美丽、白雪皑皑的东京城市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位上购物。绚丽的樱花花瓣随着雪花在风中飞舞。 提示词28:这是一幅定格动画,描绘了一朵花从郊区房子的窗台上长出来。 提示词29:赛博朋克设定的机器人生活故事。 提示词30:极致特写一个60岁、头发胡子花白的男人,在深度思考宇宙历史,他坐在一家巴黎的咖啡馆,穿着一件羊毛外套西装外套和一件衬衫,戴着一件棕色的贝雷帽、眼镜,有一个非常专业的外表,结束时他有了一个微妙的、封闭式的笑容,好像找到了答案,神秘生活,灯光非常电影化,金色灯光和巴黎的街道和城市作为背景,景深,电影感,35mm胶片。 提示词31:一个美丽的剪影动画展示了一只狼对着月亮嚎叫,感到孤独,直到它找到了它的族群。 提示词32:纽约市像被淹没的亚特兰蒂斯。鱼、鲸鱼、海龟和鲨鱼游过纽约的街道。 提示词33:一窝金毛猎犬小狗在雪地里玩耍。他们的头从雪中探出头来,身上覆盖着雪。 提示词34:一个人跑步的步印场景,电影胶片,35mm拍摄。 提示词35:五只小灰狼在一条偏僻的砾石路上嬉戏追逐,周围长满了草。幼崽们又跑又跳,互相追逐,互相撕咬、玩耍。 提示词36:篮球穿过篮筐然后爆炸。 提示词37:考古学家在沙漠中发现了一把普通的塑料椅子,他们小心翼翼地挖掘并掸去了上面的灰尘。 提示词38:一位头发梳得整整齐齐的白发老奶奶站在一张木制餐桌前,身后是一个色彩斑斓的生日蛋糕,上面插着无数的蜡烛,她的眼睛里闪烁着幸福的光芒,脸上流露出一种纯粹的快乐和幸福。她身体前倾,轻轻地吹灭了蜡烛,蛋糕上有粉红色的糖霜和糖屑,蜡烛也不再闪烁,老奶奶穿着一件浅蓝色的衬衫,上面装饰着花卉图案,可以看到几个快乐的朋友和家人坐在桌子旁庆祝,背景虚化。这个场景拍得很漂亮,像电影一样,展示了老奶奶和餐厅的3/4视图。暖色调和柔和的灯光改善了心情。 提示词39:镜头直接对着意大利布拉诺五颜六色的建筑。一只可爱的斑点狗从一楼的窗户往外看。许多人沿着建筑物前的运河街道散步或骑自行车。 提示词40:一只可爱快乐的水獭穿着黄色救生衣自信地站在冲浪板上,沿着绿松石般的热带水域骑行,附近是郁郁葱葱的热带岛屿,3D数字渲染艺术风格。 提示词41:这张变色龙的特写照片展示了它惊人的变色能力。背景是模糊的,吸引人们注意到动物引人注目的外表。 提示词42:一只柯基在热带毛伊岛拍摄视频。 提示词43:一只白橙相间的虎斑猫欢快地在茂密的花园里窜来窜去,好像在追逐什么东西。它的眼睛睁得大大的,欢快地向前跑着,一边走一边扫视着树枝、花朵和树叶。这条小路很窄,因为它在所有的植物之间穿行。这个场景是从地面的角度拍摄的,紧跟在猫后面,给人一个低而亲密的视角。图像是电影般的暖色调和颗粒纹理。树叶和植物之间分散的日光形成了温暖的对比,突出了猫的橙色皮毛。这张照片清晰锐利,景深浅。 提示词44:蓝色圣托里尼鸟瞰图,展示了白色基克拉迪建筑和蓝色圆顶的惊人建筑。火山口的景色令人叹为观止,灯光营造出一种美丽、宁静的氛围。 提示词45:工人、设备和重型机械密集的建筑工地的倾斜。 提示词46:一个巨大的、高耸的云在一个人的形状在地球上隐约出现。云人把闪电射向地面。 提示词47:一只萨摩耶犬和一只金毛猎犬在夜晚的霓虹灯城市里嬉戏。附近建筑物发出的霓虹灯在它们的皮毛上闪闪发光。 提示词48:Glenfinnan高架桥是英国苏格兰的一座历史悠久的铁路桥,横跨马莱格镇和威廉堡之间的西部高地线。一列蒸汽火车驶离大桥,在拱形高架桥上行驶,这是一幅令人惊叹的景象。风景点缀着郁郁葱葱的绿色植物和岩石山脉,为火车之旅创造了风景如画的背景。天空湛蓝,阳光明媚,这是个探索这个雄伟景点的美好日子。 三、不足:难以模拟复杂场景,混淆提示词的空间细节 OpenAI坦言,当前Sora目前存在许多局限性,可能难以准确地模拟复杂场景的物理属性,比如玻璃破碎;也可能无法理解因果关系的具体实例。例如,一个人咬了一口饼干,但之后饼干上可能没有咬痕。 该模型还可能混淆提示的空间细节,例如,混淆左和右,并且可能难以精确描述随时间发生的事件,例如跟随特定的摄像机轨迹。 OpenAI强调说,在将Sora应用于OpenAI的产品之前,他们将采取一些重要的安全措施,包括与红队专家合作进行对抗性测试、构建检测分类器等工具来帮助检测误导性内容、计划在未来包含C2PA元数据等。 除了开发新技术为部署做准备外,OpenAI还利用了其为使用DALL·E 3的产品构建的现有安全方法,这些方法也适用于Sora。 Sora文生视频大模型的研究由Bill Peebles、Tim Brooks领导,系统领导者是Connor Holmes。以下人员均参与了此研究的贡献。 OpenAI还对下述人员致以特别感谢: 结语:OpenAI终于下场,视频生成模型迎来重磅玩家! 随着OpenAI首款文生视频大模型Sora推出,去年已经如火如荼展开的文生视频大模型大战,今年俨然要通过卷向更强性能,开启落地之年。 其研究团队相信,Sora今天所拥有的能力表明,视频模型的持续扩展是一条很有前途的道路,可以开发出物理和数字世界的模拟器,以及生活在其中的物体、动物和人。 OpenAI承诺将与世界各地的政策制定者、教育工作者和艺术家接触,了解他们的担忧,并确定这项新技术的积极用例。 尽管进行了广泛的研究和测试,但OpenAI团队无法预测人们使用其技术的所有有益方式,也无法预测人们滥用它的所有方式。该团队相信随着时间的推移,从现实世界的使用中学习是创建和发布越来越安全的AI系统的关键组成部分。
事关苹果,被曝大批退货!
两周新鲜期过后,首批Vision Pro用户开始大批退货了! 2月16日是Vision Pro尝鲜期到期日。近期,不少用户在各类平台上“吐槽”Vision Pro的实际使用感受,更有用户在尝鲜期临近之时选择退货。 作为苹果在头显领域的对手之一,Meta CEO扎克伯格甚至发布了一段大约3分30秒长的视频,对Vision Pro作出“测评”,公开将Vision Pro与自家Quest 3作对比。 Vision Pro有哪些“槽点” 当地时间2月2日,苹果在美国正式推出了定价3500美元的混合现实头显Vision Pro,这是自2015年推出Apple Watch以来该公司发布的首个新产品类别。 图/苹果官网 根据苹果官方购买政策,2月2日收到货的买家共有14天的体验时间。也就是说,2月16日前可以无条件退货。 据中国证券报报道,经过近半个月的体验,此前抢购Vision Pro买家们尝鲜的兴奋劲已过。在各大社交平台上,涌现出越来越多“吐槽”的声音,甚至不少用户陆续选择退货。 这与Vision Pro发售之初的火爆形成鲜明对比。毕竟,在预购开始后不久,不少订单的发货日期就已经拖到了3月份,而苹果线下门店也近乎售罄。根据市场调查机构Statista最新信息显示,Vision Pro头显销量已逼近20万台大关。 那么,促使用户“退货”的槽点有哪些? 据新浪科技报道,Farzad Mesbahi是一位科技视频的制作者,他说,把Vision Pro戴在头上很不方便,尽管他仍可以舒服地坐着。 Mesbahi称,他不可能像使用智能手机、平板电脑和台式机那样,长时间地使用Vision Pro。他在社交平台X上表示:“对我来说,把它当做一款科技/生产力设备是不可能的。” 作为苹果的铁粉,Collin Michael在一段YouTube视频中称,Vision Pro的重量是一种“显而易见”的负担。使用Vision Pro来做一些经常会在iPhone或Mac上做的事情,比如打开Safari或搜索二手车,还需要额外的步骤,根本不值得使用。 在社交平台Reddit,也有一些用户抱怨佩戴Vision Pro实在是不舒服。 此外,Vision Pro的另一个槽点是视觉质量问题。Mesbahi称,当需要清楚地观察周围环境时,Vision Pro将虚拟应用覆盖在用户视线之上的能力“还不够好”。他说,当观察真实物体时,他的视线在大多数照明条件下都是模糊的。 例如,当Mesbahi看着自己的电脑或iPhone时,Vision Pro所显示的图像质量远不够清晰,无法分辨屏幕上的内容。阅读一份小字体的报纸也是如此。 当然,也有一些用户只是认为,Vision Pro还没有提供足够的独特体验来证明其高昂的价格,尽管苹果已经为它构建了600多款新应用程序。 YouTube用户Kane Sutter称:“Vision Pro目前还没有足够多的多样化体验和多样化内容来保证人们每周使用它两个小时。作为一款3500美元的设备,我认为这应该是最基本的。” 还有一些人承认,他们在购买Vision Pro之前就有了退货准备,只是为了体验一下它的功能。 对此,苹果尚未发表评论。 扎克伯格“评测” 有意思的是,作为苹果头显领域的对手之一,Meta CEO扎克伯格在Instagram账户上发布了一段大约3分30秒长的视频,对Vision Pro作出“测评”,并将这一设备与自家产品Quest 3作对比。 在视频中,扎克伯格解释了他对价值3500美元的苹果Vision Pro的上手体验。“苹果的屏幕确实有更高的分辨率,这确实非常好,但令我惊讶的是,他们必须在设备的质量、舒适度、人体工学以及显示屏和其他方面做出大量的权衡才能达到这一目标。”他提到。 对他来说,售价500美元的Quest 3毫无疑问是更好的“买卖”,毕竟Vision Pro的价格是Quest 3的7倍。显而易见,扎克伯格发布这一视频的目的在于推广自家产品。不过,这也显示了苹果和Meta之间日益激烈的竞争。 到目前为止,Meta采取了低成本的策略,而苹果则专注于更清晰的屏幕、更强大的处理器和更高端的材料。 当前,苹果既没有回应扎克伯格的评论,也没有公开对“退货”数据作出详细说明。不过,需要提及的是,Vision Pro在上市初期就遭遇了用户退货的问题,反映出市场对这款新设备的接受度仍存在不确定性。 果链分析师:需求可能会出现迅速下滑 实际上,市场此前就曾对Vision Pro的需求提出担忧。 在Vision Pro预购销售一空后,其发货时间却并未延长。知名果链分析师郭明錤随即表示,发货时间维持不变,这可能意味着在核心粉丝与重度用户下单后,需求可能出现迅速下滑。 他表示,目前Vision Pro仍然是一个非常小众的产品。而且,和许多新技术平台一样,Vision Pro的成功很大程度上取决于第三方应用和服务的支持,这是该设备面临的最大问题。 到目前为止,全球最受欢迎的三家流媒体服务公司Netflix、YouTube和Spotify已经表示,其不会推出Vision OS软件,也不会让其iPad应用程序在Vision Pro上运行。 在业内看来,Vision Pro在海外消费人群中的使用情况将会影响该产品在国内的预售。近期,有供应链人士声称,苹果Vision Pro最早将于4月在中国区发售,“最晚时间不晚于5月”。供应链方面还表示,Vision Pro“工信部注册流程已接近于完成。首批在华销售货源会比较紧张”。 Vision Pro头显全球首拆,产业链核心供应商揭秘 2月初,知名维修网站iFixit发布了Vision Pro拆解视频,让外界得以一窥这款苹果天价头显的内部构造。 从拆机视频看,首先拆开的是最前面的玻璃面板,它是一整块用3D成型、压层等方式制造出来的全曲面玻璃。在玻璃面板下面前置了三层屏幕,分别是加宽层、透镜层和OLED显示屏。 Vision Pro拆机截图,来源:iFixit,下同 拆完外屏之后,iFixit拆下来的是光学和显示模组部分,包括屏幕、镜片以及相关机械滑轨结构。其中,屏幕是最受外界关注的零部件。这块屏幕的大小被指像一枚“邮票”,但上面排布着1150万个像素,两枚就是2300万个像素。 资料显示,Vision Pro采用的是索尼的4K Micro OLED屏+玉晶光电的3P Pancake方案。 在iFixit用拆机片划开外屏粘胶后,Vision Pro最为核心的主板部分得以暴露。拆解视频显示,M2和R1两颗芯片分别位于左眼右眼两侧的主板上,两块主板都采用了柔性PCB设计,中间也通过柔性PCB相连。除了两块苹果芯片,还可以看到一些存储芯片、通信芯片以及无线连接相关芯片。 Vision Pro的续航能力也是外界关注点之一。拆解视频显示,外接电池内部有“三块电池”,其制造商是德赛电池,这是老牌的苹果电池供应商。 iFixit还“暴力”破拆了扬声器,扬声器固定在与机身主体两侧,只需使用SIM卡针即可取出,iFixit表示可穿戴设备非常容易损坏,因此拥有易于更换的扬声器模块很有意义。 iFixit表示这仅仅是初步拆解,后续还会有更多内容发布。 从上述拆机视频中能发现不少熟悉的A股供应商身影。 例如Vision Pro最前面的玻璃面板,此前就有产业链人士向21世纪经济报道记者表示,苹果首款XR头戴装置的显示玻璃面板是由蓝思科技(300433.SZ)研发生产,以及内置的多个摄像头防护屏和光学透镜膜。 德赛电池(000049.SZ)出现在Vision Pro供应链并不让人意外,它是苹果电池供应商,主营业务包括开发无汞碱锰电池、一次锂电池、锌空气电池、镍氢电池等各种电池;移动通讯产品及配件的开发及销售等。公司表示,消费电子锂电池业务主要为客户提供定制化产品,公司广泛地参与客户新产品的前期研发设计及优化。 扬声器等声学部件则由歌尔股份(002241.SZ)供应。歌尔也是苹果产业链核心供应商,包括为苹果提供扬声器和MEMS等精密零组件产品(电子产品零配件),智能音箱产品以及无线耳机代工。 此外,立讯精密(002475.SZ)也参与开发苹果的MR设备,立讯精密在去年9月对外透露,公司正在为即将上市的苹果头显Apple Vision Pro做生产准备。 早前有市场人士透露,Vision Pro首批备货40万台左右,2024年的销量目标是100万台。21世纪经济报道记者从苹果核心供应商处证实了该消息。甬兴证券预计,第一代Vision Pro将为苹果及其供应链提供产品反馈,之后两到三年内,随着迭代产品推出,预计在第四、第五年出货量达到1000万台以上。其认为Vision Pro有望带动VR行业出货量增长,2025年有望成为行业快速增长元年。
揭秘最强视频生成模型 Sora,OpenAI 是怎么实现 1 分钟一镜到底的?
今天凌晨,OpenAI 从「弹药库」里掏出了 AI 视频生成工具 Sora,瞬间占据了各大新闻头条。 就连一向和 OpenAI 不对付的马斯克也甘心承认 Sora 的强大,并借此盛赞「在未来的几年里,人类借助 AI 的力量,将创造出卓越的作品。」 Sora 的强大之处在于能够根据文本描述,生成长达 60 秒连贯流畅的的视频,其中包含细腻复杂的场景、生动的角色表情以及复杂的镜头运动。 对比其他只能生成短至个位数长度的视频,Sora 的一分钟时长无疑起到了掀桌的效果。 更为重要的是,无论是在视频的真实性、长度、稳定性、一致性、分辨率还是对文本的理解方面,Sora 均展现出了目前最佳的水平。让我们先来欣赏一下官方发布的演示视频片段。 Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. 在这段视频中,无人机视角下的一对情侣穿梭于繁华的城市街道,美丽的樱花花瓣伴随着雪花在空中翩翩起舞。 当其他工具还在努力保持单镜头稳定时,Sora 已经丝滑实现多镜头的无缝切换,且镜头切换的连贯性和对象的一致性效果都遥遥领先,真降维打击。 ▲源自 @gabor 在过去,要拍摄这样一段视频可能需要耗费大量时间和精力进行剧本创作、分镜头设计等一系列繁琐的工作。而现在,仅需一段简单的文本描述,Sora 就能彻底生成这样的大场面,相关从业者或许已经开始瑟瑟发抖了。 网友 @debarghya_das 用 OpenAI Sora 剪辑、David Attenborough 在 Eleven Labs 上的声音以及 iMovie 上 Youtube 上的一些自然音乐样本,在 15 分钟内制作了这个 20 多秒的预告片。 Sora 是怎么实现强大效果的? OpenAI 也发布了一份关于 Sora 详细的技术报告,介绍了其背后的技术原理和应用。 那么,Sora 是如何实现这一突破的呢?受到 LLM 成功实践经验的启发,OpenAI 引入了视觉块嵌入代码(patches),这是一种高度可扩展且有效的视觉数据表现形式,能够极大地提升生成模型处理多样化视频和图像数据的能力。 在高维度空间中,OpenAI 首先将视频数据压缩至一个低维潜在空间,然后再将其分解为时空嵌入,从而将视频转化为一系列编码块。 接下来,OpenAI 训练了一个专门用于降低视觉数据维度的网络。该网络以原始视频作为输入,输出的潜在表示在时间和空间上都经过了压缩。Sora 正是在这个压缩后的潜在空间中进行训练,并在该空间内生成视频。 此外,OpenAI 还训练了一个解码器模型,能够将这些潜在表征还原为像素级的视频图像。 通过对压缩后的视频输入进行处理,研究人员能够提取出一系列的时空 patchs,这些 patchs 在模型中扮演着类似于 Transformer Tokens 的角色。 采用基于 patchs 的表现形式,Sora 能够适应不同分辨率、持续时间及宽高比的视频和图像,在生成新视频内容时,可以通过将这些随机初始化的 patchs 按照需要的大小排列成网格,来控制最终视频的大小和形式。 尽管上述原理听起来颇为复杂,但实际上 OpenAI 所用到的这项新技术——视觉块嵌入代码(简称视觉块)——就好比是将一堆杂乱无章的积木整理好放入一个小盒子中。如此一来,即便面对众多积木,只要找到了这个小盒子就能轻松找到所需积木。 由于视频数据被转化为了一个个小方块的形式,当 OpenAI 向 Sora 提供一个新的视频任务时,他们首先会从该视频中提取出一些包含时间和空间信息的小方块。随后将这些小方块交给 Sora 让其根据这些信息生成新的视频。 这样就可以像拼拼图一样,把视频重新组合起来。这样做的好处是,计算机可以更快地学习和处理各种不同类型的图片和视频。 随着 Sora 的训练越来越深入,OpenAI 的研究人员还发现随着训练计算量的增加,样本质量得到了显著提高。OpenAI 发现直接在数据的原始尺寸上进行训练具有诸多优势: Sora 训练时没有对素材进行裁切,使得 Sora 能够直接按照不同设备的原生宽高比创建内容。 在视频的原生宽高比上进行训练,能够显著提升视频的构图与布局质量。 此外,Sora 还具有以下特性: 训练文本到视频生成系统需要大量带有文字标题的视频。OpenAI 将在 DALL·E 3 中引入的重新标注技术应用到视频上。 类似于 DALL·E 3,OpenAI 利用 GPT 将用户的简短提示转换成更长的详细说明,然后发送给视频模型,从而使得 Sora 能够生成高质量的视频。 除了可以从文字转化而来,Sora 还能接受图片或已有视频的输入。这项功能让 Sora 能够完成各种图片和视频编辑任务,比如制作无缝循环视频、给静态图片添加动画效果、延长视频的播放时间等。 形成「SORA」字样的逼真云朵图像。 在一个装饰华丽的历史大厅里,一道巨大的海浪正准备冲击而来。两位冲浪者抓住机会,巧妙地驾驭着海浪。 无需任何预先示例,Sora 就能改变视频中的风格和环境。甚至两个风格迥异的视频也能平滑连接起来。 Sora 还能文生图,研究团队通过在一个时间范围仅为一帧的空间网格里排列高斯噪声块来创造出各种尺寸的图像,最大分辨率达到了 2048×2048。 实在的 OpenAI 也坦率地承认了 Sora 当前存在的局限问题,比如它无法模拟复杂场景的物理效应,以及理解某些特定因果关系。举例来说,它无法精确模拟像玻璃破碎这样的基本物理互动。 ▲ 相反方向的跑步 不过 OpenAI 坚信,Sora 目前的能力表明,持续扩展视频模型是朝着开发能够模拟物理和数字世界及其内部的物体、动物和人类的有能力的模拟器的一条充满希望的途径。 世界模型,AI 的下一个方向? OpenAI 发现,在大规模训练下,Sora 展示出了一系列引人注目的涌现能力,能够在一定程度上模拟真实世界中的人、动物和环境。 这些能力并非基于对三维空间或物体的特定预设,而是由大规模数据驱动产生的。 三维空间的连贯性 Sora 能生成带有动态视角变化的视频。当摄像机位置和角度变动时,视频中的人物和场景元素能够在三维空间连贯移动。 远距离连续性与物体持久性 即使人物、动物或物体被遮挡或移出画面,Sora 也能保持长时间视频的连续性。同样,它能在同一视频样本中多次展示同一角色,并确保外观一致。 数字世界的模拟 Sora 还能模拟数字化过程,如视频游戏,只需提及「Minecraft」等字样,就能激发其相关能力。 OpenAI 将 Sora 视为「能够理解和模拟现实世界的模型的基础」,相信其能力「将是实现 AGI 的重要里程碑」。 对于 Sora 的到来,英伟达高级科学家 Jim Fan 表示: 如果你认为 OpenAI 的 Sora 就像 DALL·E 那样,是一个用于创意实验的工具,那你可能需要重新考虑了。 Sora 实际上是一款基于数据的物理模拟引擎,它能够模拟出真实或虚构的世界。这款模拟器通过去噪和梯度计算,学会了复杂的图像渲染、「直观」的物理行为、长远规划能力以及语义层面的理解。 而这种模型能力的基础正是世界通用模型,这是一种人工智能系统,它的目标是建立一个可以更新状态的神经网络模块,用以记忆和建模环境。 这种模型能够根据当前的观测(如图像、状态等)和即将采取的动作,预测下一个可能的观测。它通过学习世界的规律和常识,模拟环境中可能的未来事件。 实际上,世界模型并不是什么新鲜的概念,早在去年 12 月,AI 视频生成的领头羊 Runway 就官宣下场打造通用世界模型,目的是创建一种与现有的 LLM 不同,并且能够更真实模拟现实世界的人工智能系统。 具体来说,世界模型的核心思想是通过记忆历史经验来学习世界的运作方式,进而预测未来可能发生的事件。例如,从一段物体下落的录像中,模型可以根据当前的画面预测下一帧的画面,从而学习到物体运动的物理规律。 图灵奖得主 Yann LeCun 也曾提出过类似的概念,并批评了基于概率生成自回归的大模型,如 GPT,认为这类模型无法破解幻觉难题。LeCun 和他的团队甚至预言,GPT 这类模型在未来五年内可能会被淘汰。 世界模型可以被看作是人工智能领域中,试图创建更接近人类智能水平 AI 的一个研究方向。通过模拟和学习真实世界的环境和事件,世界模型有潜力推动 AI 向更高层次的模拟和预测能力发展。 2 月份的时候,知名风险投资公司 a16z 的合伙人 Justine Moore 深入分析了 AI 视频生成领域的现状。在生成式 AI 逐渐步入大众视野的两年间,AI 视频生成领域迎来了百花齐放,百家争鸣的繁荣景象。 随着 OpenAI Sora 的加入,AI 视频生成领域将掀起滔天巨浪,现有的主流平台如 Runway、Pika 和 Stable Video Diffusion 等都可能会受到波及。 同时,独立创作者的游戏规则将会彻底改变,任何人只要有创意和想法,就可以使用 Sora 来生成自己的视频内容。创作门槛的降低,也意味着独立创作者将会迎来黄金时代。 正如《三体》中所说,「主不在乎」,无论目前的竞争态势如何,AI 视频生成领域都可能会被新的技术和创新所颠覆。而 Sora 的入局仅仅只是个开始,远不是终点。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。