EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
哲库解散半年后,芯片人才流向了哪儿?
汽车造芯接棒手机造芯 文丨张家豪 编辑丨程曼祺 2023 年 5 月,成立于 2019 年的 OPPO 自研芯片子公司哲库科技宣布解散,3000 多名员工离开了这家以自研旗舰手机 SoC(Sytstem on Chips,完整集成了 CPU、GPU、通信等模块的手机主芯片)为目标的芯片设计公司。解散沟通会上,哲库高管如此描述哲库关停的原因:全球经济环境和手机行业不乐观,公司营收不达预期;芯片自研投资巨大,公司承担不起。 就在解散前两天,哲库的 4nm 手机 SoC 已送往晶圆代工厂流片,最早可能会在 2024 年初搭载到 OPPO 旗舰手机上。 据《财经》了解,哲库解散后,仅有少数人员加入了 OPPO 的内部芯片团队。 该团队现有约 100 人,包括哲库原芯片产品负责人姜波,他担任 OPPO 芯片团队负责人。姜波曾是高通中国首个智能手机 SoC 产品经理,是早期加入哲库的骨干之一。OPPO 芯片团队现在主要负责与高通、联发科等芯片供应商沟通芯片的定制需求和芯片架构调优等工作。 OPPO Find 和 Reno 系列自 2022 年后就在使用的、由哲库设计的 “马里亚纳” 系列芯片也已确定不再更新。 哲库解散是中国消费电子公司造芯潮集体遇挫的缩影。 2023 年至今,除哲库外,还有星际魅族、TCL 旗下造芯公司摩星半导体等陆续宣布造芯项目终止。这些公司研发的芯片主要应用于手机和电视。 一名猎头说,有工程师在哲库关停后去了摩星,半年内经历两次解散,拿了两次 “大礼包”。 《财经》获悉,联想 2022 年设立的造芯子公司鼎道智芯也将开启裁员,比例约 20%。2022 年底,市场曾传出鼎道智芯设计的 5nm 平板电脑芯片已成功流片。 如今,除华为海思外,国内唯一还在坚持自研手机 SoC 的团队只有小米玄戒。该公司成立于 2021 年底,法定代表人为小米高级副总裁曾学忠。《财经》了解到,玄戒团队也吸收了部分前哲库工程师,玄戒设计的手机 SoC 已有一定进展。 在消费电子公司后,接棒造芯潮的主要行业之一是智能电动汽车。 综合多名猎头的信息,比亚迪和 Momenta 是吸纳哲库 Z6 和 M2 及以上人才最多的两家公司。(Z 是哲库技术序列,最高为 Z7,Z6 为经理级别;M 是哲库管理序列,最高为 M4)另有哲库技术负责人加入自动驾驶芯片公司辉曦智能。 前哲库员工是汽车行业公司造芯时的较理想选择:从成立到解散的四年里,哲库研发了影像处理芯片马里亚纳 X 和蓝牙音频芯片马里亚纳 Y,两款芯片被应用在 OPPO 手机上。2022 年底之前,马里亚纳 X 已出货超千万片。 哲库的人才在 2 个月内被行业吸收。多位芯片业猎头告诉《财经》,有较充足经验的哲库工程师加入新公司后普遍涨薪超 30%。 据《财经》,2023 年 6 月左右,原哲库总监周延加入比亚迪第六事业部嵌入式产品中心。周延在哲库时主要参与 SoC 芯片的 IP 设计。 据 《启动 PowerOn》 报道,前哲库 COO 李宗霖、哲库 GPU 副总裁贾明军、哲库 SoC 2 部高级总监俞国军及其手下近十名中层加入了 Momenta,设立新部门研发自动驾驶芯片。据了解,该团队约有 30 人,以前端工程师为主。 《财经》还了解到,前哲库验证负责人之一的王宗静加入了自动驾驶芯片公司辉羲智能。辉羲由微软亚研院前硬件计算组负责人徐宁仪和蔚来汽车前自动驾驶副总裁章健勇联合创立,曾获蔚来资本、小米集团和顺为资本投资。 用于云端服务器的 AI 芯片和 CPU 公司也吸纳了若干哲库人才。这是为汽车造芯之外的另一个热门方向:为 AI 算力造芯。 据《财经》了解,前哲库媒体芯片负责人翟凡已加入阿里巴巴旗下芯片公司平头哥;前哲库后端负责人王金城则加入了高性能 Arm CPU 创业公司鸿钧微电子,后者创立于 2021 年。 哲库 SoC 负责人之一刘浩、NPU 芯片中心部长孙成坤加入了 Arm 在中国的合资公司安谋科技,刘浩任产品研发副总裁。孙成坤曾任壁仞科技前海外团队 AI 方向负责人,加入哲库不到一个月就经历了解散。 另有一部分哲库人员回流到了展锐、联发科等手机芯片供应商。 哲库高级别芯片人才的另一个选项是自己创业。《财经》了解到,2023 年 6 月前后,哲库本有一个团队想成立一家车载芯片新公司。 如果放在 2021 年,有多年技术管理经验的芯片人才并不难拉到第一轮融资,但在芯片设计投资遇冷的 2023 年,这一创业计划最终未谈到足够多的首轮投资。 据企查查数据,2023 年,中国已有超 1 万家芯片相关企业工商注销、吊销,比 2022 年的 5700 多家增长近 90%。 芯片这类中间环节的增长,需要 “下游火车头” 带动。哲库部分技术骨干加入比亚迪和 Momenta 等汽车行业公司,背后是智能电动车替代手机,成为中国芯片增长新引擎。 去年中国新能源汽车产销分别同比增长近 36% 和 38%。而据 IDC 数据,2023 年全球智能手机、个人电脑和平板电脑出货量继续下滑,智能手机销量跌至十年新低。 智能电动车供应链企业中,除地平线、黑芝麻等主营汽车芯片的公司外,Momenta 这样的自动驾驶等软件公司也在招兵买马组建芯片团队,未来可能会提供软硬一体的方案。 资金更多的车企在自研芯片上的投入力度更大,开出的薪资也较高,给行业带来了更多人才竞争。 《财经》此前曾提到,蔚来、理想、小鹏自 2020 年起就陆续组建了自研芯片团队,布局智驾芯片。理想还与三安光电合作,建设了功率半导体产能。 其中蔚来的芯片团队人数最多,在 2022 年时一度达到 300 人。2023 年,蔚来先后发布了自研的激光雷达芯片和智驾芯片。这一年蔚来前三季度的研发费用也达到 94.6 亿元,同比增长 38 %。 以垂直整合见长的比亚迪正大力投入智能驾驶,已组建约 4000 人的智驾团队。比亚迪在 2023 年也招募了更多芯片人才,服务于比亚迪的智能能力补课。 (邱豪对此文亦有贡献。)
加个感叹号就能读取、写入和删除文档,微软Outlook被曝严重漏洞
IT之家 2 月 16 日消息,微软近日发布安全公告,报告旗下的 Outlook 服务存在严重的远程代码执行漏洞,无需用户交互的情况下,只需要在 Outlook 超链接中添加“!”感叹号,就能读取相关机密文档。 该漏洞追踪编号为 CVE-2024-21413,在 CVSS 风险评估中基础得分(根据漏洞的固有特征反映漏洞的严重程度)为 9.8(满分 10 分),时间得分(评价漏洞被利用的时间窗的风险大小)为 8.5 分(满分 10 分)。 该漏洞由 Check Point Research 的安全专家 Haifei Li 发现并报告,根据微软官方描述,攻击者可以在文档扩展名及其嵌入链接后插入感叹号,就能绕过安全程序获得文档的高级权限,包括编辑潜在的恶意 "保护视图" 文档。 如果文档中嵌入了带有 http 或 https 的超链接,Outlook 就会启动默认浏览器来显示它。 安全研究人员发现一个感叹号就足以绕过保护机制。 微软目前已经发布了 Office 补丁,修复了 CVE-2024-21413 漏洞,并推荐用户尽快安装。 用于 Office 2016(32 位版本): 产品 文章 下载 内部版本号 Microsoft Office 2016(32 位版本) 5002537 安全更新 16.0.5435.1001 Microsoft Office 2016(32 位版本) 5002467 安全更新 16.0.5435.1001 Microsoft Office 2016(32 位版本) 5002522 安全更新 16.0.5435.1001 Microsoft Office 2016(32 位版本) 5002469 安全更新 16.0.5435.1001 Microsoft Office 2016(32 位版本) 5002519 安全更新 16.0.5435.1001 For Office 2016(64 位版本): 产品 文章 下载 内部版本号 Microsoft Office 2016(64 位版本) 5002537 安全更新 16.0.5435.1001 Microsoft Office 2016(64 位版本) 5002467 安全更新 16.0.5435.1001 Microsoft Office 2016(64 位版本) 5002522 安全更新 16.0.5435.1001 Microsoft Office 2016(64 位版本) 5002469 安全更新 16.0.5435.1001 Microsoft Office 2016(64 位版本) 5002519 安全更新 16.0.5435.1001
SpaceX四枚火箭同时矗立发射场!星舰合体 准备第三飞
快科技2月16日消息,SpaceX最近相当忙碌,史无前例地一度有四枚火箭同时矗立在发射场,但以后可能是常态,甚至会更多。 一是佛罗里达州肯尼迪航天发射中心的LC-39A工位,十六手猎鹰九号火箭(B1060.16),已于北京时间2月15日14点05分发射,并成功回收。 发射载荷是美国Intuitive Machines(直觉机器)公司的月球登陆探测器“Odysseus”(奥德修斯),计划发射约9天后着陆于月球南极附近的Malapert A陨石坑周围。 如果一切顺利,这将成为1972年阿波罗17号登月之后,美国航天器第一次登月,也是为阿尔忒弥斯计划的前奏。 就在不久前,美国航天机器人技术公司开发的“游隼”号月球着陆器任务失败,返回地球自毁。 二是佛罗里达州卡拉维拉尔角空军基地的SLC-40工位,七手猎鹰九号火箭(B1078.7),已于北京时间2月15日6点30分发射,并成功回收。 任务编号USSF-124,发射载荷是美国太空军旗下导弹防御局(MDA)、太空发展局(SDA)的一共6颗卫星,其中4颗是导弹预警卫星,2颗是高超音速弹/弹道导弹跟踪卫星。 这是SpaceX第11次使用猎鹰火箭执行美国国家安全发射任务。 三是加利福尼亚州范登堡空军基地的SLC-4E工位,又一枚猎鹰九号火箭。 计划执行星链发射任务7-14,一共22颗。 本来预计也在2月15日发射,实现一天三发,但因故推迟。 四是得克萨斯州的星舰组合体SN28+B10。 星舰火箭和飞船已经合体,计划大约3周后发射,可能3月初。 SpaceX今年已经完成14次发射,平均3.3天一次,但要想完成全年150次的目标,还得继续提速。
48个文生视频+技术报告,揭秘OpenAI最强视频GPT
编译 | ZeR0 编辑 | 漠影 智东西2月16日消息,今日凌晨,OpenAI推出其首款文生视频大模型Sora。该模型能根据提示词生成长达1分钟的视频,或者扩展生成的视频使其更长,同时视觉质量相当惊艳。 相比以往的视频模型,Sora的亮点非常明显,不仅对文本理解更深刻,可以准确地呈现提示词,而且能在一个生成的视频中创建多个镜头,准确地保留角色和视觉风格。 尤其值得一提的是,Sora在细节处理上做得非常出挑,能够理解复杂场景中不同元素之间的物理属性及其关系,正确呈现它们在物理世界中的存在方式。 除了支持文本指令输入外,该模型支持生成图像,也支持将现有静止图像变成视频,能对现有视频进行扩展、将两个视频衔接并填充缺失的帧。 其3D仿真能力非常突出,无论是制作短视频、动画、电影画面,还是渲染视频游戏,Sora都展示出了令人期待的落地前景。 为了全方位展示Sora的水平,OpenAI一口气放出了48个用Sora直接生成、未经修改、长度不等(9秒~60秒)的视频。下文附有48个视频的完整展示,火眼金睛的读者朋友们可以研究下这些视频的准确程度,或者从专业性上找找bug。 OpenAI将这个大模型称作是“能够理解和模拟现实世界的模型的基础”,相信其能力“将是实现AGI的重要里程碑”。其技术报告今日刚刚新鲜出炉: 技术报告指路:https://openai.com/research/video-generation-models-as-world-simulators 一、Sora技术拆解:60秒视频、理解力强大、一次预见多帧 OpenAI首个文生视频大模型Sora是一个在可变持续时间、分辨率、宽高比的视频和图像上联合训练的文本条件扩散模型。 与GPT模型类似,Sora使用Transformer架构,扩展性很强大,能一次生成时长1分钟的视频,或者扩展生成的视频使其更长。 随着训练计算量增加,样本质量显著提高。 具体来看,该模型能生成具有多个角色、特定类型的运动以及精确的主题和背景细节的复杂场景。 通过赋予模型一次多帧的预见能力,OpenAI团队解决了一个具有挑战性的问题,即确保一个主题即使暂时消失在视野之外也保持不变。 过去的图像和视频生成方法通常是调整大小,裁剪或修剪视频到标准尺寸——例如,4秒视频、256×256分辨率。而OpenAI发现在原始大小的数据上进行训练提供了一些好处: (1)采样的灵活性:Sora可以采样宽屏1920x1080p视频、垂直1080×1920视频以及介于两者之间的所有视频。这让Sora可直接以不同设备的原始宽高比为其创建内容。它还支持在生成全分辨率的内容之前,以较小的尺寸快速创建内容原型——所有内容都使用相同的模型。 (2)改进框架和构图:OpenAI通过经验发现,在视频的原始长宽比上进行训练可以改善构图和框架。研究团队将Sora与其模型的一个版本进行比较,该版本将所有训练视频裁剪为方形。在正方形裁剪(左图)上训练的模型有时会生成仅部分显示主题的视频。相比之下,来自Sora(右图)的视频有改进的帧。 此外,Sora文生视频大模型具备如下特点: 1、强大的语言理解能力:训练文本到视频生成系统需要大量带有相应文本说明的视频。OpenAI将DALL·E 3中介绍的字幕重配技术(Recaptioning)应用到视频中,首先训练一个高度描述性的字幕模型,然后使用它为其训练集中的所有视频生成文本字幕。OpenAI发现,对高度描述性的视频字幕进行训练可提高文本保真度以及视频的整体质量。与DALL·E 3类似,研究团队还利用GPT将简短的用户提示转换为更长的详细字幕,并将其发送到视频模型。这使得Sora能准确按照用户提示生成高质量的视频。 2、支持现有的图像或视频输入:这种功能使Sora能够执行广泛的图像和视频编辑任务——创建完美的循环视频、动画静态图像、向前或向后扩展视频等。比如,基于DALL·E 3图像生成视频,从一个生成的视频片段开始向前/向后扩展视频,编辑转换视频的风格/环境,将两个输入视频无缝衔接在一起。 3、图像生成功能:研究团队通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像,最高可达2048 × 2048分辨率。 4、新兴的仿真能力:OpenAI发现视频模型在大规模训练时表现出许多有趣的突发能力。这些功能使Sora能够从现实世界中模拟人、动物和环境的某些方面。Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。 Sora经常能够有效地为短期和长期依赖关系建模,可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观一致。该模型有时可以用简单的方式模拟影响世界状态的行为,例如,画家可以在画布上留下新的笔触,随着时间的推移,或者一个人吃汉堡时留下咬痕。 在模拟数字世界方面,Sora能够模拟人工过程,比如视频游戏,可在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。 这些功能表明,视频模型的持续扩展是发展物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。 OpenAI从大语言模型获得灵感,大语言模型的成功部分归功于tokens优雅地统一了文本代码、数学及各种自然语言的不同模式。Sora研究则考虑到让视觉数据的生成模型继承这些优点。 此前视觉patch已经被证明是视觉数据模型的有效表示。OpenAI发现patch是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。 OpenAI将视频转换成patch,训练了一个降低视觉数据维度的网络,该网络将原始视频作为输入并输出在时间和空间上压缩的潜在表示。Sora在这个压缩的潜在空间中接受训练并随后生成视频。 OpenAI还训练了相应的解码器模型。 给定一个压缩的输入视频,研究团队提取一系列时空patch,充当Transformer tokens,这种基于patch的表示使得Sora能对不同时长、宽高比、分辨率的视频和图像进行训练。在推理时,可通过在适当大小的网格中排列随机初始化的patches来控制生成视频的大小。 Sora是一个扩散模型;输入一个噪声patch,它被训练来预测原始的“干净”patch。在这项工作中,OpenAI发现扩散Transformer可以作为视频模型有效扩展。 二、48个视频Demo:动漫电影、逼真自然、魔幻大片 OpenAI一共放出了48个视频来展示Sora模型的强大之处。受站点上传限制,下文主要以动图形式来简要呈现这些生成视频的部分视觉效果。 提示词1:一个时髦的女人走在东京的街道上,到处都是温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙、黑色靴子,拿着一个黑色钱包。她戴着太阳镜,涂着红色的口红。她走起路来自信而随意。街道是潮湿和反光的,创造了一个彩色灯光的镜子效果。许多行人走来走去。 提示词2:几只巨大的长毛猛犸象穿过一片白雪覆盖的草地,它们长长的毛茸茸的皮毛在风中轻拂,远处白雪覆盖的树木和戏剧性的雪山,午后的光线与缕缕的云和远处的太阳创造了温暖的光芒,低相机的视角是惊人的,捕捉到了美丽的摄影,景深的大型毛茸茸的哺乳动物。 提示词3:这是一部电影预告片,讲述了30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影风格,用35毫米胶片拍摄,色彩鲜艳。 提示词4:无人机拍摄的海浪冲击着大苏尔加雷角海滩上崎岖的悬崖。蓝色的海水拍打着白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边上长满了绿色的灌木丛。从公路到海滩的陡峭落差是一个戏剧性的壮举,悬崖的边缘突出在海面上。这是一幅捕捉到海岸原始美景和太平洋海岸公路崎岖景观的景色。 提示词5:动画场景特写了一个毛茸茸的矮个子怪物跪在融化的红烛旁。美术风格是3D和现实的,重点是照明和纹理。这幅画的气氛是一种惊奇和好奇,因为怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮的感觉,好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。 提示词6:一个华丽渲染的珊瑚礁纸工艺品世界,到处都是五颜六色的鱼和海洋生物。 提示词7:这个维多利亚冠鸽的特写展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的,而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜,给人一种帝王和威严的印象。背景是模糊的,吸引人们注意到这只鸟引人注目的外表。 提示词8:两艘海盗船在一杯咖啡中航行时相互争斗的逼真特写视频。 提示词9:一个20多岁的年轻人坐在天空的一片云上读书。 提示词10:淘金热时期加州的历史镜头 提示词11:一个玻璃球的近景,里面有一个禅宗花园。球体中有一个小矮人正在耙花园,并在沙子上创造图案。 提示词12:一个24岁的女人眨着眼睛的极端特写,站在马拉喀什的神奇时刻,电影胶片拍摄,70mm,景深,生动的色彩,电影感。 提示词13:一只卡通袋鼠跳迪斯科。 提示词14:一个美丽的自制视频,展示了2056年尼日利亚拉各斯的人们。用手机摄像头拍摄的。 提示词15:一个培养皿,里面生长着竹林,小熊猫在里面跑来跑去。 提示词16:摄像机围绕着一大堆老式电视旋转,这些电视播放着不同的节目——20世纪50年代的科幻电影、恐怖电影、新闻、静态、70年代的情景喜剧等,背景设在纽约博物馆的一个大型画廊里。 提示词17:一个小的、圆的、毛茸茸的、有一双大而富有表现力的眼睛的生物探索了一个充满活力的魔法森林的3D动画。这种动物是兔子和松鼠的异想天开的混合体,有着柔软的蓝色皮毛和浓密的条纹尾巴。它沿着波光粼粼的小溪跳跃,惊奇地睁大了眼睛。森林里充满了神奇的元素:发光和变色的花朵,紫色和银色叶子的树木,以及像萤火虫一样的小浮动灯。这只生物停下来和一群在蘑菇圈周围跳舞的小仙女嬉戏。这只生物敬畏地仰望着一棵巨大的、发光的树,这棵树似乎是森林的中心。 提示词18:摄像机跟在一辆黑色车顶架的白色复古SUV后面,它在陡峭的山坡上沿着松树环绕的陡峭土路加速行驶,灰尘从轮胎上扬起,阳光照在越野车上,在土路上加速行驶,在现场投下温暖的光芒。这条土路弯弯曲曲地延伸到远处,看不到其他的汽车或车辆。道路两旁的树木都是红杉,点缀着一片片绿色植物。从后面看到的汽车跟随曲线轻松,使它看起来好像是在崎岖不平的地形上行驶。土路本身被陡峭的丘陵和山脉包围,上面是清澈的蓝天和缕缕的云。 提示词19:火车在东京郊区行驶时,车窗上的倒影。 提示词20:一架无人机摄像机环绕着一座美丽的历史悠久的教堂,这座教堂建在阿马尔菲海岸的岩石上,这张照片展示了历史和宏伟的建筑细节,分层的小路和露台,海浪撞击着下面的岩石,俯瞰着意大利阿马尔菲海岸的海岸水域和丘陵景观,远处的几个人在露台上散步,欣赏着壮观的海景。下午温暖的阳光为现场创造了一种神奇而浪漫的感觉,美丽的摄影捕捉到了令人惊叹的景色。 提示词21:一只巨大的橙色章鱼在海底休息,与沙质和岩石地形融为一体。它的触手在身体周围展开,眼睛是闭着的。章鱼没有意识到一只帝王蟹正从岩石后面向它爬来,它的爪子抬起,准备攻击。这种螃蟹是棕色的、多刺的,有长腿和触角。这个场景是从广角拍摄的,展示了海洋的广阔和深度。海水清澈湛蓝,阳光透过来。镜头锐利,动态范围大。章鱼和螃蟹是焦点,而背景稍微模糊,创造了景深效果。 提示词22:一群纸飞机在茂密的丛林中飞舞,像候鸟一样在树木之间穿梭。 提示词23:一只猫叫醒了正在睡觉的主人,要求吃早饭。主人试图忽略猫,但猫尝试了新的策略,最后主人从枕头下拿出了一个秘密的零食,让猫多待一会儿。 提示词24:基纳巴坦干河上的婆罗洲野生动物。 提示词25:有中国龙的中国农历新年庆祝视频。 提示词26:参观艺术画廊,欣赏许多风格各异的精美艺术品。 提示词27:美丽、白雪皑皑的东京城市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,在附近的摊位上购物。绚丽的樱花花瓣随着雪花在风中飞舞。 提示词28:这是一幅定格动画,描绘了一朵花从郊区房子的窗台上长出来。 提示词29:赛博朋克设定的机器人生活故事。 提示词30:极致特写一个60岁、头发胡子花白的男人,在深度思考宇宙历史,他坐在一家巴黎的咖啡馆,穿着一件羊毛外套西装外套和一件衬衫,戴着一件棕色的贝雷帽、眼镜,有一个非常专业的外表,结束时他有了一个微妙的、封闭式的笑容,好像找到了答案,神秘生活,灯光非常电影化,金色灯光和巴黎的街道和城市作为背景,景深,电影感,35mm胶片。 提示词31:一个美丽的剪影动画展示了一只狼对着月亮嚎叫,感到孤独,直到它找到了它的族群。 提示词32:纽约市像被淹没的亚特兰蒂斯。鱼、鲸鱼、海龟和鲨鱼游过纽约的街道。 提示词33:一窝金毛猎犬小狗在雪地里玩耍。他们的头从雪中探出头来,身上覆盖着雪。 提示词34:一个人跑步的步印场景,电影胶片,35mm拍摄。 提示词35:五只小灰狼在一条偏僻的砾石路上嬉戏追逐,周围长满了草。幼崽们又跑又跳,互相追逐,互相撕咬、玩耍。 提示词36:篮球穿过篮筐然后爆炸。 提示词37:考古学家在沙漠中发现了一把普通的塑料椅子,他们小心翼翼地挖掘并掸去了上面的灰尘。 提示词38:一位头发梳得整整齐齐的白发老奶奶站在一张木制餐桌前,身后是一个色彩斑斓的生日蛋糕,上面插着无数的蜡烛,她的眼睛里闪烁着幸福的光芒,脸上流露出一种纯粹的快乐和幸福。她身体前倾,轻轻地吹灭了蜡烛,蛋糕上有粉红色的糖霜和糖屑,蜡烛也不再闪烁,老奶奶穿着一件浅蓝色的衬衫,上面装饰着花卉图案,可以看到几个快乐的朋友和家人坐在桌子旁庆祝,背景虚化。这个场景拍得很漂亮,像电影一样,展示了老奶奶和餐厅的3/4视图。暖色调和柔和的灯光改善了心情。 提示词39:镜头直接对着意大利布拉诺五颜六色的建筑。一只可爱的斑点狗从一楼的窗户往外看。许多人沿着建筑物前的运河街道散步或骑自行车。 提示词40:一只可爱快乐的水獭穿着黄色救生衣自信地站在冲浪板上,沿着绿松石般的热带水域骑行,附近是郁郁葱葱的热带岛屿,3D数字渲染艺术风格。 提示词41:这张变色龙的特写照片展示了它惊人的变色能力。背景是模糊的,吸引人们注意到动物引人注目的外表。 提示词42:一只柯基在热带毛伊岛拍摄视频。 提示词43:一只白橙相间的虎斑猫欢快地在茂密的花园里窜来窜去,好像在追逐什么东西。它的眼睛睁得大大的,欢快地向前跑着,一边走一边扫视着树枝、花朵和树叶。这条小路很窄,因为它在所有的植物之间穿行。这个场景是从地面的角度拍摄的,紧跟在猫后面,给人一个低而亲密的视角。图像是电影般的暖色调和颗粒纹理。树叶和植物之间分散的日光形成了温暖的对比,突出了猫的橙色皮毛。这张照片清晰锐利,景深浅。 提示词44:蓝色圣托里尼鸟瞰图,展示了白色基克拉迪建筑和蓝色圆顶的惊人建筑。火山口的景色令人叹为观止,灯光营造出一种美丽、宁静的氛围。 提示词45:工人、设备和重型机械密集的建筑工地的倾斜。 提示词46:一个巨大的、高耸的云在一个人的形状在地球上隐约出现。云人把闪电射向地面。 提示词47:一只萨摩耶犬和一只金毛猎犬在夜晚的霓虹灯城市里嬉戏。附近建筑物发出的霓虹灯在它们的皮毛上闪闪发光。 提示词48:Glenfinnan高架桥是英国苏格兰的一座历史悠久的铁路桥,横跨马莱格镇和威廉堡之间的西部高地线。一列蒸汽火车驶离大桥,在拱形高架桥上行驶,这是一幅令人惊叹的景象。风景点缀着郁郁葱葱的绿色植物和岩石山脉,为火车之旅创造了风景如画的背景。天空湛蓝,阳光明媚,这是个探索这个雄伟景点的美好日子。 三、不足:难以模拟复杂场景,混淆提示词的空间细节 OpenAI坦言,当前Sora目前存在许多局限性,可能难以准确地模拟复杂场景的物理属性,比如玻璃破碎;也可能无法理解因果关系的具体实例。例如,一个人咬了一口饼干,但之后饼干上可能没有咬痕。 该模型还可能混淆提示的空间细节,例如,混淆左和右,并且可能难以精确描述随时间发生的事件,例如跟随特定的摄像机轨迹。 OpenAI强调说,在将Sora应用于OpenAI的产品之前,他们将采取一些重要的安全措施,包括与红队专家合作进行对抗性测试、构建检测分类器等工具来帮助检测误导性内容、计划在未来包含C2PA元数据等。 除了开发新技术为部署做准备外,OpenAI还利用了其为使用DALL·E 3的产品构建的现有安全方法,这些方法也适用于Sora。 Sora文生视频大模型的研究由Bill Peebles、Tim Brooks领导,系统领导者是Connor Holmes。以下人员均参与了此研究的贡献。 OpenAI还对下述人员致以特别感谢: 结语:OpenAI终于下场,视频生成模型迎来重磅玩家! 随着OpenAI首款文生视频大模型Sora推出,去年已经如火如荼展开的文生视频大模型大战,今年俨然要通过卷向更强性能,开启落地之年。 其研究团队相信,Sora今天所拥有的能力表明,视频模型的持续扩展是一条很有前途的道路,可以开发出物理和数字世界的模拟器,以及生活在其中的物体、动物和人。 OpenAI承诺将与世界各地的政策制定者、教育工作者和艺术家接触,了解他们的担忧,并确定这项新技术的积极用例。 尽管进行了广泛的研究和测试,但OpenAI团队无法预测人们使用其技术的所有有益方式,也无法预测人们滥用它的所有方式。该团队相信随着时间的推移,从现实世界的使用中学习是创建和发布越来越安全的AI系统的关键组成部分。
事关苹果,被曝大批退货!
两周新鲜期过后,首批Vision Pro用户开始大批退货了! 2月16日是Vision Pro尝鲜期到期日。近期,不少用户在各类平台上“吐槽”Vision Pro的实际使用感受,更有用户在尝鲜期临近之时选择退货。 作为苹果在头显领域的对手之一,Meta CEO扎克伯格甚至发布了一段大约3分30秒长的视频,对Vision Pro作出“测评”,公开将Vision Pro与自家Quest 3作对比。 Vision Pro有哪些“槽点” 当地时间2月2日,苹果在美国正式推出了定价3500美元的混合现实头显Vision Pro,这是自2015年推出Apple Watch以来该公司发布的首个新产品类别。 图/苹果官网 根据苹果官方购买政策,2月2日收到货的买家共有14天的体验时间。也就是说,2月16日前可以无条件退货。 据中国证券报报道,经过近半个月的体验,此前抢购Vision Pro买家们尝鲜的兴奋劲已过。在各大社交平台上,涌现出越来越多“吐槽”的声音,甚至不少用户陆续选择退货。 这与Vision Pro发售之初的火爆形成鲜明对比。毕竟,在预购开始后不久,不少订单的发货日期就已经拖到了3月份,而苹果线下门店也近乎售罄。根据市场调查机构Statista最新信息显示,Vision Pro头显销量已逼近20万台大关。 那么,促使用户“退货”的槽点有哪些? 据新浪科技报道,Farzad Mesbahi是一位科技视频的制作者,他说,把Vision Pro戴在头上很不方便,尽管他仍可以舒服地坐着。 Mesbahi称,他不可能像使用智能手机、平板电脑和台式机那样,长时间地使用Vision Pro。他在社交平台X上表示:“对我来说,把它当做一款科技/生产力设备是不可能的。” 作为苹果的铁粉,Collin Michael在一段YouTube视频中称,Vision Pro的重量是一种“显而易见”的负担。使用Vision Pro来做一些经常会在iPhone或Mac上做的事情,比如打开Safari或搜索二手车,还需要额外的步骤,根本不值得使用。 在社交平台Reddit,也有一些用户抱怨佩戴Vision Pro实在是不舒服。 此外,Vision Pro的另一个槽点是视觉质量问题。Mesbahi称,当需要清楚地观察周围环境时,Vision Pro将虚拟应用覆盖在用户视线之上的能力“还不够好”。他说,当观察真实物体时,他的视线在大多数照明条件下都是模糊的。 例如,当Mesbahi看着自己的电脑或iPhone时,Vision Pro所显示的图像质量远不够清晰,无法分辨屏幕上的内容。阅读一份小字体的报纸也是如此。 当然,也有一些用户只是认为,Vision Pro还没有提供足够的独特体验来证明其高昂的价格,尽管苹果已经为它构建了600多款新应用程序。 YouTube用户Kane Sutter称:“Vision Pro目前还没有足够多的多样化体验和多样化内容来保证人们每周使用它两个小时。作为一款3500美元的设备,我认为这应该是最基本的。” 还有一些人承认,他们在购买Vision Pro之前就有了退货准备,只是为了体验一下它的功能。 对此,苹果尚未发表评论。 扎克伯格“评测” 有意思的是,作为苹果头显领域的对手之一,Meta CEO扎克伯格在Instagram账户上发布了一段大约3分30秒长的视频,对Vision Pro作出“测评”,并将这一设备与自家产品Quest 3作对比。 在视频中,扎克伯格解释了他对价值3500美元的苹果Vision Pro的上手体验。“苹果的屏幕确实有更高的分辨率,这确实非常好,但令我惊讶的是,他们必须在设备的质量、舒适度、人体工学以及显示屏和其他方面做出大量的权衡才能达到这一目标。”他提到。 对他来说,售价500美元的Quest 3毫无疑问是更好的“买卖”,毕竟Vision Pro的价格是Quest 3的7倍。显而易见,扎克伯格发布这一视频的目的在于推广自家产品。不过,这也显示了苹果和Meta之间日益激烈的竞争。 到目前为止,Meta采取了低成本的策略,而苹果则专注于更清晰的屏幕、更强大的处理器和更高端的材料。 当前,苹果既没有回应扎克伯格的评论,也没有公开对“退货”数据作出详细说明。不过,需要提及的是,Vision Pro在上市初期就遭遇了用户退货的问题,反映出市场对这款新设备的接受度仍存在不确定性。 果链分析师:需求可能会出现迅速下滑 实际上,市场此前就曾对Vision Pro的需求提出担忧。 在Vision Pro预购销售一空后,其发货时间却并未延长。知名果链分析师郭明錤随即表示,发货时间维持不变,这可能意味着在核心粉丝与重度用户下单后,需求可能出现迅速下滑。 他表示,目前Vision Pro仍然是一个非常小众的产品。而且,和许多新技术平台一样,Vision Pro的成功很大程度上取决于第三方应用和服务的支持,这是该设备面临的最大问题。 到目前为止,全球最受欢迎的三家流媒体服务公司Netflix、YouTube和Spotify已经表示,其不会推出Vision OS软件,也不会让其iPad应用程序在Vision Pro上运行。 在业内看来,Vision Pro在海外消费人群中的使用情况将会影响该产品在国内的预售。近期,有供应链人士声称,苹果Vision Pro最早将于4月在中国区发售,“最晚时间不晚于5月”。供应链方面还表示,Vision Pro“工信部注册流程已接近于完成。首批在华销售货源会比较紧张”。 Vision Pro头显全球首拆,产业链核心供应商揭秘 2月初,知名维修网站iFixit发布了Vision Pro拆解视频,让外界得以一窥这款苹果天价头显的内部构造。 从拆机视频看,首先拆开的是最前面的玻璃面板,它是一整块用3D成型、压层等方式制造出来的全曲面玻璃。在玻璃面板下面前置了三层屏幕,分别是加宽层、透镜层和OLED显示屏。 Vision Pro拆机截图,来源:iFixit,下同 拆完外屏之后,iFixit拆下来的是光学和显示模组部分,包括屏幕、镜片以及相关机械滑轨结构。其中,屏幕是最受外界关注的零部件。这块屏幕的大小被指像一枚“邮票”,但上面排布着1150万个像素,两枚就是2300万个像素。 资料显示,Vision Pro采用的是索尼的4K Micro OLED屏+玉晶光电的3P Pancake方案。 在iFixit用拆机片划开外屏粘胶后,Vision Pro最为核心的主板部分得以暴露。拆解视频显示,M2和R1两颗芯片分别位于左眼右眼两侧的主板上,两块主板都采用了柔性PCB设计,中间也通过柔性PCB相连。除了两块苹果芯片,还可以看到一些存储芯片、通信芯片以及无线连接相关芯片。 Vision Pro的续航能力也是外界关注点之一。拆解视频显示,外接电池内部有“三块电池”,其制造商是德赛电池,这是老牌的苹果电池供应商。 iFixit还“暴力”破拆了扬声器,扬声器固定在与机身主体两侧,只需使用SIM卡针即可取出,iFixit表示可穿戴设备非常容易损坏,因此拥有易于更换的扬声器模块很有意义。 iFixit表示这仅仅是初步拆解,后续还会有更多内容发布。 从上述拆机视频中能发现不少熟悉的A股供应商身影。 例如Vision Pro最前面的玻璃面板,此前就有产业链人士向21世纪经济报道记者表示,苹果首款XR头戴装置的显示玻璃面板是由蓝思科技(300433.SZ)研发生产,以及内置的多个摄像头防护屏和光学透镜膜。 德赛电池(000049.SZ)出现在Vision Pro供应链并不让人意外,它是苹果电池供应商,主营业务包括开发无汞碱锰电池、一次锂电池、锌空气电池、镍氢电池等各种电池;移动通讯产品及配件的开发及销售等。公司表示,消费电子锂电池业务主要为客户提供定制化产品,公司广泛地参与客户新产品的前期研发设计及优化。 扬声器等声学部件则由歌尔股份(002241.SZ)供应。歌尔也是苹果产业链核心供应商,包括为苹果提供扬声器和MEMS等精密零组件产品(电子产品零配件),智能音箱产品以及无线耳机代工。 此外,立讯精密(002475.SZ)也参与开发苹果的MR设备,立讯精密在去年9月对外透露,公司正在为即将上市的苹果头显Apple Vision Pro做生产准备。 早前有市场人士透露,Vision Pro首批备货40万台左右,2024年的销量目标是100万台。21世纪经济报道记者从苹果核心供应商处证实了该消息。甬兴证券预计,第一代Vision Pro将为苹果及其供应链提供产品反馈,之后两到三年内,随着迭代产品推出,预计在第四、第五年出货量达到1000万台以上。其认为Vision Pro有望带动VR行业出货量增长,2025年有望成为行业快速增长元年。
揭秘最强视频生成模型 Sora,OpenAI 是怎么实现 1 分钟一镜到底的?
今天凌晨,OpenAI 从「弹药库」里掏出了 AI 视频生成工具 Sora,瞬间占据了各大新闻头条。 就连一向和 OpenAI 不对付的马斯克也甘心承认 Sora 的强大,并借此盛赞「在未来的几年里,人类借助 AI 的力量,将创造出卓越的作品。」 Sora 的强大之处在于能够根据文本描述,生成长达 60 秒连贯流畅的的视频,其中包含细腻复杂的场景、生动的角色表情以及复杂的镜头运动。 对比其他只能生成短至个位数长度的视频,Sora 的一分钟时长无疑起到了掀桌的效果。 更为重要的是,无论是在视频的真实性、长度、稳定性、一致性、分辨率还是对文本的理解方面,Sora 均展现出了目前最佳的水平。让我们先来欣赏一下官方发布的演示视频片段。 Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. 在这段视频中,无人机视角下的一对情侣穿梭于繁华的城市街道,美丽的樱花花瓣伴随着雪花在空中翩翩起舞。 当其他工具还在努力保持单镜头稳定时,Sora 已经丝滑实现多镜头的无缝切换,且镜头切换的连贯性和对象的一致性效果都遥遥领先,真降维打击。 ▲源自 @gabor 在过去,要拍摄这样一段视频可能需要耗费大量时间和精力进行剧本创作、分镜头设计等一系列繁琐的工作。而现在,仅需一段简单的文本描述,Sora 就能彻底生成这样的大场面,相关从业者或许已经开始瑟瑟发抖了。 网友 @debarghya_das 用 OpenAI Sora 剪辑、David Attenborough 在 Eleven Labs 上的声音以及 iMovie 上 Youtube 上的一些自然音乐样本,在 15 分钟内制作了这个 20 多秒的预告片。 Sora 是怎么实现强大效果的? OpenAI 也发布了一份关于 Sora 详细的技术报告,介绍了其背后的技术原理和应用。 那么,Sora 是如何实现这一突破的呢?受到 LLM 成功实践经验的启发,OpenAI 引入了视觉块嵌入代码(patches),这是一种高度可扩展且有效的视觉数据表现形式,能够极大地提升生成模型处理多样化视频和图像数据的能力。 在高维度空间中,OpenAI 首先将视频数据压缩至一个低维潜在空间,然后再将其分解为时空嵌入,从而将视频转化为一系列编码块。 接下来,OpenAI 训练了一个专门用于降低视觉数据维度的网络。该网络以原始视频作为输入,输出的潜在表示在时间和空间上都经过了压缩。Sora 正是在这个压缩后的潜在空间中进行训练,并在该空间内生成视频。 此外,OpenAI 还训练了一个解码器模型,能够将这些潜在表征还原为像素级的视频图像。 通过对压缩后的视频输入进行处理,研究人员能够提取出一系列的时空 patchs,这些 patchs 在模型中扮演着类似于 Transformer Tokens 的角色。 采用基于 patchs 的表现形式,Sora 能够适应不同分辨率、持续时间及宽高比的视频和图像,在生成新视频内容时,可以通过将这些随机初始化的 patchs 按照需要的大小排列成网格,来控制最终视频的大小和形式。 尽管上述原理听起来颇为复杂,但实际上 OpenAI 所用到的这项新技术——视觉块嵌入代码(简称视觉块)——就好比是将一堆杂乱无章的积木整理好放入一个小盒子中。如此一来,即便面对众多积木,只要找到了这个小盒子就能轻松找到所需积木。 由于视频数据被转化为了一个个小方块的形式,当 OpenAI 向 Sora 提供一个新的视频任务时,他们首先会从该视频中提取出一些包含时间和空间信息的小方块。随后将这些小方块交给 Sora 让其根据这些信息生成新的视频。 这样就可以像拼拼图一样,把视频重新组合起来。这样做的好处是,计算机可以更快地学习和处理各种不同类型的图片和视频。 随着 Sora 的训练越来越深入,OpenAI 的研究人员还发现随着训练计算量的增加,样本质量得到了显著提高。OpenAI 发现直接在数据的原始尺寸上进行训练具有诸多优势: Sora 训练时没有对素材进行裁切,使得 Sora 能够直接按照不同设备的原生宽高比创建内容。 在视频的原生宽高比上进行训练,能够显著提升视频的构图与布局质量。 此外,Sora 还具有以下特性: 训练文本到视频生成系统需要大量带有文字标题的视频。OpenAI 将在 DALL·E 3 中引入的重新标注技术应用到视频上。 类似于 DALL·E 3,OpenAI 利用 GPT 将用户的简短提示转换成更长的详细说明,然后发送给视频模型,从而使得 Sora 能够生成高质量的视频。 除了可以从文字转化而来,Sora 还能接受图片或已有视频的输入。这项功能让 Sora 能够完成各种图片和视频编辑任务,比如制作无缝循环视频、给静态图片添加动画效果、延长视频的播放时间等。 形成「SORA」字样的逼真云朵图像。 在一个装饰华丽的历史大厅里,一道巨大的海浪正准备冲击而来。两位冲浪者抓住机会,巧妙地驾驭着海浪。 无需任何预先示例,Sora 就能改变视频中的风格和环境。甚至两个风格迥异的视频也能平滑连接起来。 Sora 还能文生图,研究团队通过在一个时间范围仅为一帧的空间网格里排列高斯噪声块来创造出各种尺寸的图像,最大分辨率达到了 2048×2048。 实在的 OpenAI 也坦率地承认了 Sora 当前存在的局限问题,比如它无法模拟复杂场景的物理效应,以及理解某些特定因果关系。举例来说,它无法精确模拟像玻璃破碎这样的基本物理互动。 ▲ 相反方向的跑步 不过 OpenAI 坚信,Sora 目前的能力表明,持续扩展视频模型是朝着开发能够模拟物理和数字世界及其内部的物体、动物和人类的有能力的模拟器的一条充满希望的途径。 世界模型,AI 的下一个方向? OpenAI 发现,在大规模训练下,Sora 展示出了一系列引人注目的涌现能力,能够在一定程度上模拟真实世界中的人、动物和环境。 这些能力并非基于对三维空间或物体的特定预设,而是由大规模数据驱动产生的。 三维空间的连贯性 Sora 能生成带有动态视角变化的视频。当摄像机位置和角度变动时,视频中的人物和场景元素能够在三维空间连贯移动。 远距离连续性与物体持久性 即使人物、动物或物体被遮挡或移出画面,Sora 也能保持长时间视频的连续性。同样,它能在同一视频样本中多次展示同一角色,并确保外观一致。 数字世界的模拟 Sora 还能模拟数字化过程,如视频游戏,只需提及「Minecraft」等字样,就能激发其相关能力。 OpenAI 将 Sora 视为「能够理解和模拟现实世界的模型的基础」,相信其能力「将是实现 AGI 的重要里程碑」。 对于 Sora 的到来,英伟达高级科学家 Jim Fan 表示: 如果你认为 OpenAI 的 Sora 就像 DALL·E 那样,是一个用于创意实验的工具,那你可能需要重新考虑了。 Sora 实际上是一款基于数据的物理模拟引擎,它能够模拟出真实或虚构的世界。这款模拟器通过去噪和梯度计算,学会了复杂的图像渲染、「直观」的物理行为、长远规划能力以及语义层面的理解。 而这种模型能力的基础正是世界通用模型,这是一种人工智能系统,它的目标是建立一个可以更新状态的神经网络模块,用以记忆和建模环境。 这种模型能够根据当前的观测(如图像、状态等)和即将采取的动作,预测下一个可能的观测。它通过学习世界的规律和常识,模拟环境中可能的未来事件。 实际上,世界模型并不是什么新鲜的概念,早在去年 12 月,AI 视频生成的领头羊 Runway 就官宣下场打造通用世界模型,目的是创建一种与现有的 LLM 不同,并且能够更真实模拟现实世界的人工智能系统。 具体来说,世界模型的核心思想是通过记忆历史经验来学习世界的运作方式,进而预测未来可能发生的事件。例如,从一段物体下落的录像中,模型可以根据当前的画面预测下一帧的画面,从而学习到物体运动的物理规律。 图灵奖得主 Yann LeCun 也曾提出过类似的概念,并批评了基于概率生成自回归的大模型,如 GPT,认为这类模型无法破解幻觉难题。LeCun 和他的团队甚至预言,GPT 这类模型在未来五年内可能会被淘汰。 世界模型可以被看作是人工智能领域中,试图创建更接近人类智能水平 AI 的一个研究方向。通过模拟和学习真实世界的环境和事件,世界模型有潜力推动 AI 向更高层次的模拟和预测能力发展。 2 月份的时候,知名风险投资公司 a16z 的合伙人 Justine Moore 深入分析了 AI 视频生成领域的现状。在生成式 AI 逐渐步入大众视野的两年间,AI 视频生成领域迎来了百花齐放,百家争鸣的繁荣景象。 随着 OpenAI Sora 的加入,AI 视频生成领域将掀起滔天巨浪,现有的主流平台如 Runway、Pika 和 Stable Video Diffusion 等都可能会受到波及。 同时,独立创作者的游戏规则将会彻底改变,任何人只要有创意和想法,就可以使用 Sora 来生成自己的视频内容。创作门槛的降低,也意味着独立创作者将会迎来黄金时代。 正如《三体》中所说,「主不在乎」,无论目前的竞争态势如何,AI 视频生成领域都可能会被新的技术和创新所颠覆。而 Sora 的入局仅仅只是个开始,远不是终点。
谷歌Gemini 1.5模型来了!突破100万个tokens,能处理1小时视频【附58页技术报告】
编译 | ZeR0 编辑 | 漠影 智东西2月16日报道,谷歌昨夜发布其大模型矩阵的最新力作——Gemini 1.5,并将上下文窗口长度扩展到100万个tokens。 Gemini 1.5 Pro达到了与1.0 Ultra相当的质量,同时使用了更少的计算。该模型在长语境理解方面取得突破,能够显著增加模型可处理的信息量——持续运行多达100万个tokens,实现迄今任何大型基础模型中最长的上下文窗口。 这意味着Gemini 1.5 Pro可一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。 从今天开始,谷歌将通过AI Studio和Vertex AI向开发者和企业客户提供Gemini 1.5 Pro的有限预览版。 此外,谷歌透露其在研究中还成功测试了多达1000万个tokens。 58页技术报告地址:https://goo.gle/GeminiV1-5 一、基于Transformer和MoE架构,100万个tokens上下文窗口 谷歌DeepMind首席执行官戴米斯·哈萨比斯代表Gemini团队发言,称Gemini 1.5提供了显著增强的性能,它代表了其方法的一个步骤变化,建立在谷歌基础模型开发和基础设施的几乎每个部分的研究和工程创新之上,包括通过新的专家组合(MoE)架构使模型更有效地训练和服务。 谷歌发布的第一个用于早期测试的Gemini 1.5模型是Gemini 1.5 Pro。这是一个中型的多模态模型,针对广泛的任务进行了优化,其性能与谷歌迄今为止最大的模型1.0 Ultra相当。它还引入了一个突破性的实验特征在长上下文理解。 AI模型的“上下文窗口”由tokens组成,这些tokens是用于处理信息的构建块。上下文窗口越大,它在给定的提示中可接收和处理的信息就越多,从而使其输出更加一致、相关和有用。 通过一系列机器学习创新,谷歌将上下文窗口容量大大增加,从Gemini 1.0最初的32,000个tokens,增加到1.5 Pro的100万个tokens。 Gemini 1.5 Pro带有标准的128,000个tokens的上下文窗口。从今天开始,有限的开发人员和企业客户可通过AI Studio和Vertex AI在私有预览中试用多达100万个tokens的上下文窗口。当推出完整的100万个tokens上下文窗口,谷歌正在积极地进行优化,以改善延迟,减少计算需求并增强用户体验。 Gemini 1.5构建于谷歌对Transformer和MoE架构的研究基础之上。传统的Transformer是一个大型神经网络,而MoE模型被分成更小的“专家”神经网络。 根据给定的输入类型,MoE模型学会选择性地激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的效率。谷歌一直是深度学习的MoE技术的早期采用者和研发先驱。 谷歌在模型架构上的最新创新使Gemini 1.5能够更快地学习复杂的任务并保持质量,同时更有效地进行训练和服务。这正帮助其团队以更快的速度迭代、训练和交付更先进的Gemini版本。 二、能对大量信息进行复杂推理,稀有语言转译逼近人类水平 Gemini 1.5 Pro可以在给定的提示符内无缝地分析、分类和总结大量内容。例如,当给它一份402页的阿波罗11号登月任务的记录时,它可以对文件中的对话、事件和细节进行推理。 该模型可以理解、推理并识别出阿波罗11号登月任务402页记录中的奇怪细节。 Gemini 1.5 Pro能对不同的模式执行高度复杂的理解和推理任务,包括视频。例如,当给定巴斯特·基顿44分钟的无声电影时,该模型可以准确地分析各种情节点和事件,甚至可以推理出电影中容易被遗漏的小细节。 当给出简单的线条图作为现实生活中物体的参考材料时,Gemini 1.5 Pro可以识别出巴斯特·基顿(Buster Keaton)44分钟默片中的场景。 1.5 Pro可以跨更长的代码块执行更相关的问题解决任务。当给出一个包含超过100,000行代码的提示时,它可以更好地对示例进行推理,提出有用的修改建议,并解释代码的不同部分是如何工作的。 Gemini 1.5 Pro可以对100,000行代码进行推理,给出有用的解决方案、修改和解释。 在对文本、代码、图像、音频和视频的综合评估面板上进行测试时,在用于开发大语言模型的87%的基准测试中,Gemini 1.5 Pro优于1.0 Pro。在相同的基准测试中,与1.0 Ultra相比,它的性能水平大致相似。 即便上下文窗口增加,Gemini 1.5 Pro也能保持高水平的性能。在NIAH评估中,将一小段包含特定事实或陈述的文本故意放置在长文本块中,Gemini 1.5 Pro在长达100万个tokens的数据块中发现嵌入文本的概率为99%。 Gemini 1.5 Pro还展示了令人印象深刻的“情境学习”技能,可以从长时间提示的信息中学习新技能,而无需额外的微调。 谷歌在MTOB(Machine Translation from One Book)基准上测试了这项技能,它显示了模型从以前从未见过的信息中学习的效果。 特别是针对稀有语言,如英语与卡拉曼语的互译,Gemini 1.5 Pro实现了远超GPT-4 Turbo、Claude 2.1等大模型的测试成绩,水平与人从相同内容中学习英语的水平相似。 结语:正进一步测试,以解释超长上下文功能 根据谷歌AI原则和安全政策,谷歌确保其模型经过广泛的道德和安全测试,并将研究成果整合到其治理流程和模型开发和评估中。 谷歌正在开发进一步的测试,以解释Gemini 1.5 Pro新颖的长上下文功能。 当模型准备好进行更广泛的发布时,谷歌将引入带有标准128,000个tokens上下文窗口的Gemini 1.5 Pro,并很快计划引入定价层,从标准的12.8万个上下文窗口开始,扩展到100万个tokens。 早期的测试人员可以在测试期间免费尝试100万个tokens上下文窗口。有兴趣测试1.5 Pro的开发人员可在AI Studio注册,企业客户可以联系Vertex AI客户团队。
苹果停止签署iOS 17.3,已升级用户无法降级
IT之家 2 月 16 日消息,苹果今天停止签署 iOS 17.3,阻止已升级用户降级到该版本。在 2 月 8 日发布的 iOS 17.3.1 之后,iOS 17.3 不再签名,该更新添加了对文本相关错误的修复。 苹果通常会阻止用户安装旧版本的 iOS,以鼓励客户保持其操作系统的最新状态,并防止降级到较旧、安全性较低的 iPhone 操作系统版本。 iOS 17.3.1 现在是唯一公开发布的 iOS 版本,但苹果也在对 iOS 17.4 进行 Beta 测试。苹果公司 1 月 25 日发布的官方新闻稿显示 iOS 17.4 正式版本将在今年 3 月发布,带来应用侧载(仅限欧盟地区)、播客改进、新 Emoji 等特性。 IT之家整理 iOS 17.4 相关内容如下: 为欧盟地区开放侧载功能 为了遵守欧盟的《数字市场法》,苹果对 App Store、Apple Pay、Safari 浏览器进行三项更改,相关更改适用于欧盟 27 个国家或地区的 iPhone 用户: 允许用户在第三方应用商店下载应用程序 第三方浏览器可在 iPhone 上使用 Apple WebKit 以外的 Web 引擎 第三方钱包应用支持调用 iPhone 的 NFC 芯片 播客应用改进 苹果将为播客应用添加文字台词,整体形式类似于 Apple Music 中的“歌词”,允许用户在应用中搜索特定播客的台词,从而快速跳转到相关部分。 HomePod 音箱支持同播共享功能 从 iOS 17.4 开始,苹果将同播共享(SharePlay)功能扩展至 HomePod 音箱,用户可批准家人及朋友控制 HomePod 上播放的音乐,允许他们自由添加、删除待播清单中的歌曲。 新 Emoji 新增包括青柠、上下摇头的笑脸,一系列指明方向的人物 Emoji 符号,这些 Emoji 来自 Unicode 于 2023 年 9 月提出的 Emoji 15.1 更新。
郭明錤发布春节期间手机市场简报:iPhone降价促销难掩颓势
原标题:郭明錤发布春节期间手机市场简报:iPhone降价促销难掩颓势,上下折叠手机因利润低恐“后继无人” IT之家 2 月 16 日消息,天风证券分析师郭明錤今天发布市场研究简报,简要回顾了今年 1 月到春节(2 月中旬)期间手机产业的重要更新。 郭明錤指出该时间段内一方面 3000-4000 元价位安卓机型需求稳定恢复,另一方面是 2023 年第 1 季度出货量基数较低,因此国内安卓手机出货量同比稳定增长。 苹果 iPhone 苹果 iPhone 在国内市场出货量同比继续下降,年初的降价对于提振出货量的贡献比较有限。 左侧为iPhone 15 Pro Max,右侧为iPhone 15 Pro 三星 三星下调了 2023 年折叠屏手机的出货量目标(1500 万降至 1000 万)之后,设定的 2024 年出货量目标为 1200 万台,相对比较保守。 三星 Galaxy S24 系列手机受益于生成式 AI,出货量预估可以提高 5-10%。S24 已具备未来 AI 手机设计的基本概念,包括整合云端与本地端的 LLM、利用 GenAI 强化既有应用体验 (功能与界面) 与提供关键应用 (即时翻译)。 折叠手机 中国折叠屏手机市场增速均出现放缓情况,这其中一个原因是,除了华为以外的手机厂商认为上下折叠类型手机销售利润较低,降低了后续推出新机型的兴趣。OPPO 和 vivo 都已搁置在 2024 年发售新款上下折叠手机的计划。
消息称vivo X Fold3折叠屏手机全系轻薄大减重,大杯独占潜望长焦等
IT之家 2 月 16 日消息,博主 @数码闲聊站 今日带来 vivo X Fold3 / Pro 手机最新消息,预计新机将于近期发布。 该博主透露,vivo X Fold3 折叠屏手机标准版型号为 V2303A,X Fold3 Pro 型号为 V2337A,全系屏幕分辨率升级、全系超大蓝海电池、全系 50Mp 超大底主摄、全系轻薄大减重。大杯独占潜望长焦、超声波指纹、50W 无线充等。 据IT之家此前报道,日前有两款型号为 V2303A 和 V2337A 的手机在工信部入网。 据博主 @数码闲聊站 此前爆料,vivo 新款折叠屏搭载骁龙 8 Gen 3 处理器,配备 50Mp± OIS 双层晶体管大底三摄,其中包含一颗潜望镜。此外,该机还提供 2K+120Hz LTPO 大屏、单点超声波屏下指纹,支持 100W 有线快充 + 50W 无线快充,据称“基本是影像旗舰的厚度重量”。 作为参考,去年 4 月发布的 vivo X Fold2 手机起售价为 8999 元,搭载骁龙 8 Gen 2 处理器,配备 8.03 英寸主屏和 6.53 英寸副屏,两块屏幕均支持 2K+120Hz 刷新率以及超声波指纹解锁。 此外,vivo X Fold2 配备等效 4800mAh 电池(典型值)、120W 有线快充、50W 无线快充,后置 5000 万像素大底主摄(f / 1.75 光圈)+1200 万像素广角主摄(108° 超广角)+1200 万像素人像摄像头(47mm 等效焦段),前置 1600 万像素镜头。
没盈利空间,微软暂无计划为苹果iOS开发Xbox Cloud Gaming应用
IT之家 2 月 16 日消息,微软游戏业务掌舵者菲尔・斯宾塞(Phil Spencer)近日采访中表示,微软暂时没有计划在 iOS 平台上开发和推出 Xbox Cloud Gaming 应用的计划,其主要原因是没有盈利空间。 斯宾塞在接受 The Verge 媒体采访时表示,Xbox Cloud Gaming 如何在 iOS 平台实现营收是个问题,并表示苹果欧洲新规在开放竞争方面做得还不够。 IT之家翻译斯宾塞的部分采访内容如下: 我认为 iOS 平台上推出 Xbox Cloud Gaming,并没有太多的盈利空间。我赞同莎拉・邦德(Sarah Bond)的观点,认为苹果在开放方面走得不够远。 事实上你甚至可以说苹果在某种程度上还开倒车,在开放全球最大游戏平台的竞争方面走得绝对不够远。 我们将继续与监管机构、苹果和谷歌合作,为第三方应用商城创造空间。我非常喜欢 Windows 的运作方式,Windows 上有微软商店,有 Steam,有 Epic Games Store,有 GOG。 你可以有其他选择,我认为人们可以通过其他方式购买东西,这对消费者和创作者来说都是好事。我认为最大的游戏玩家平台,也就是移动平台,也应该有同样的选择。 Sarah Bond 是一位美国企业高管,现任微软 Xbox 总裁,负责监督整个品牌作为平台和生态系统的运营,包括硬件和设备、玩家和创作者体验、平台工程、战略、业务规划、数据和分析以及业务。发展和伙伴关系。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。