行业分类:
加载中...
头条分类:
加载中...
微软研究发现“超长工作日”正在损害生产力
还记得在大流行病封锁期间和封锁刚结束后,许多公司承诺开启工作与生活平衡、灵活办公的新时代吗?根据微软的最新研究,现在的情况恰恰相反,大多数人的工作时间超过12小时,甚至延伸到周末。这正在影响生产力,而人工智能虽然可以改善现状,但也可能使情况雪上加霜。 微软2025年6月工作趋势指数特别报告警告称,越来越多的人现在陷入了看似无限的工作日。工作日从早上6点开始,一直持续到晚上8点以后,周六和周日也还没结束。 该研究结果基于全球数万亿个汇总和匿名的 Microsoft 365 生产力信号,结果显示,早上 6 点上网的用户中有 40% 正在查看电子邮件以确定当天的优先事项。 上午 9 点至 11 点和下午 1 点至 3 点是一天中效率最高的时段,而有一半的会议都是在这两个时间段举行的,这浪费了人们中午自然的工作效率高峰。上午 11 点也是消息传递活动的高峰时间,因为实时消息、预定的会议和不断的应用程序切换都会在此汇聚。 对很多人来说,工作会持续到深夜。微软发现,晚上 8 点后举行的会议比去年增加了 16%。此外,现在员工平均在核心工作时间之外发送超过 50 条消息,到晚上 10 点,近三分之一(29%)的活跃员工会查看收件箱。 周末几乎没有什么喘息的机会。大约20%的员工会在周六和周日中午之前查看邮件,超过5%的员工会在周日晚上处理邮件。 数据显示,平均每位员工每天会收到 117 封电子邮件和 153 条 Teams 消息。这意味着使用 Microsoft 365 的员工每 2 分钟就会被会议、电子邮件或通知打断一次。 毫不奇怪,几乎一半的员工和超过一半的领导者都觉得他们的工作混乱而分散。 微软表示,人工智能不仅能为这种无休止的工作日提供出路,还能加速现有系统的运行。该公司建议部署人工智能和代理来简化低价值任务,并专注于“80/20”原则,即20%的工作带来80%的成果。此外,该公司还建议从僵化的组织结构转向敏捷的、以成果为导向的团队,并辅以人工智能。 报告中反复强调人工智能代理是解决这些无休止工作日的解决方案。当然,没有提到它们可能会让人类失业。 这并非首次有研究表明,长时间工作,尤其是不停歇地工作,会对生产力产生负面影响。另一份报告发现,最高效的员工的工作休息比例为75/33:工作75分钟,休息33分钟。该报告还指出,在办公室工作,人们会停下来做一些事情,比如与同事交谈,甚至四处走动,这比在家不停歇地工作效率更高。
苹果躲过一劫:21亿 LTE专利侵权赔偿案被推翻
苹果公司 凤凰网科技讯 北京时间6月18日,据科技博客9to5mac报道,当地时间周一,苹果公司在一场旷日持久的专利诉讼中赢得重大法律胜利。美国联邦巡回上诉法院推翻了下级法院的一项裁决,该裁决之前认定苹果需向Optis无线科技公司支付3亿美元(约合21亿元人民币)赔偿金。 美国联邦巡回上诉法院周一将Optis的案件发回得州重审,原因是上一次审判中法官给予陪审团的指示存在缺陷。这一裁决标志着本案第二次推翻了Optis获得的九位数美国专利赔偿判决。 Optis是一家总部位于得州的知识产权管理公司,最早在2019年起诉苹果,指控iPhone及其他苹果产品侵犯了其与LTE无线标准相关的专利。陪审团在2020年最初裁定苹果需赔偿5.06亿美元,但该判决随后被地区法官罗德尼·吉尔斯特拉普(Rodney Gilstrap)推翻,他下令重新审理以重新评估赔偿金额,理由是该赔偿金额未能适当考虑Optis有义务以公平、合理且非歧视性条款授权其标准必要专利。 在第二次审判中,陪审团将赔偿金额改判为3亿美元,但苹果提出上诉,并赢得胜利。据联邦巡回上诉法院表示,这一次的问题并不在于具体的赔偿金额,而在于陪审团最初被要求如何作出裁决的方式。在最新裁决中,三位法官组成的合议庭指出,吉尔斯特拉普法官给予陪审团的指示将多项专利错误地合并为一个侵权问题进行裁决,这种做法“剥夺了苹果就每一项针对它的法律指控获得一致裁决的权利”。 Optis发言人周二表示:“公司仍然坚信,法院会为那些对数以百万计苹果设备实现高速连接至关重要的Optis专利确定公平的赔偿金额。”苹果律师和发言人尚未就此置评。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
90天!特朗普第三次给予TikTok宽限期
TikTok 凤凰网科技讯 北京时间6月18日,据彭博社报道,美国总统特朗普将第三次延长字节跳动剥离TikTok美国业务的最后期限,使得TikTok在谈判期间可以继续在美国运营。 白宫新闻秘书卡罗琳·莱维特(Karoline Leavitt)周二在一份声明中表示:“正如特朗普总统多次强调的那样,他不希望TikTok被关停。此次延期将持续90天,政府将在此期间努力推动协议的达成,以确保美国人民可以继续使用TikTok,并确信他们的数据获得安全保障。” 特朗普的最新宽限期将通过行政命令的形式发布,给予字节跳动额外三个月的时间,在上次宽限期的6月19日截止日期之后继续推进出售TikTok美国业务的进程。 今年1月,特朗普在上任后不久首次延长了TikTok的出售期限,并在4月再次延期。他的最新举措可能会引发外界对其合法性的质疑。根据“不卖就禁”法律,如果TikTok在达成协议方面取得了“重大进展”,总统可以给予一次性多达90天的延期。 新的宽限期也再度为TikTok在美国的运营提供了一线生机,该应用在美国引发了国家安全担忧。对自诩为“谈判高手”的特朗普而言,这次宽限期为他争取了更多时间,去促成一项复杂的协议。该协议既需要美国买家的参与,也需得到中国的批准。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
第一观察丨习近平主席强调“中国—中亚精神”的引领意义
  “在长期实践中,我们探索形成了‘互尊、互信、互利、互助,以高质量发展推进共同现代化’的‘中国—中亚精神’。”   6月17日,习近平主席在哈萨克斯坦首都阿斯塔纳出席第二届中国—中亚峰会并作主旨发言,首次提出“中国—中亚精神”。   “中国—中亚精神”,所从何来?   两千多年前,中国汉代使者张骞自长安出发出使西域,开辟了横贯东西、连接欧亚的古丝绸之路,开启了中国同中亚友好交往的浩荡历史。   建交30多年来尤其是新时代以来,中国同中亚五国顺应潮流、讲信修睦,走出了一条睦邻友好、合作共赢的新路,中国同中亚国家关系实现了从睦邻友好到战略伙伴、再到命运共同体的历史性跨越。   从2020年中方倡导成立中国—中亚机制,到2023年首届中国—中亚峰会在西安举行,中国—中亚机制不断做大做强,产出丰硕成果,持续造福六国人民。   正如习近平主席指出的,“我们的合作根植于两千多年的友好往来,巩固于建交30多年的团结互信,发展于新时代以来的开放共赢”,“中国—中亚精神”的形成,历史积淀深厚、顺应时代潮流、符合人民期盼。   这一宝贵精神有着怎样的丰富内涵?   2022年,习近平主席曾以“相互尊重、睦邻友好、同舟共济、互利共赢”概括中国同中亚五国30年合作的成功密码。“中国—中亚精神”进一步提炼升华,用“互尊、互信、互利、互助,以高质量发展推进共同现代化”,概括中国同中亚之间长期以来的相处之道。   “互尊”,相互尊重、平等相待;“互信”,深化互信、同声相应;“互利”,互利共赢、共同发展;“互助”,守望相助、同舟共济——四个“互”字,展现了相邻国家和地区之间实现世代友好合作的共同期盼,而“以高质量发展推进共同现代化”则充分彰显其鲜明的时代意义。   现代化是全人类的共同事业,各国人民追求的共同目标。中国正在以中国式现代化全面推进强国建设、民族复兴伟业,中亚五国也将对现代化的期盼写入自己的发展战略。在推进现代化的道路上,中国同中亚携手同行,朝着构建中国—中亚命运共同体目标砥砺前行。   首届峰会以来,中国同中亚国家贸易额增长35%,中方提供的一揽子金融支持项目正在全面落实,跨境电商、在线教育等新模式新业态惠及中国和中亚国家广大人民……中国同中亚国家追求的是1360多万平方公里广袤热土的共同繁荣。   审视当下、展望未来,六国都处在各自发展振兴的关键时期,都面临着实现现代化的课题,必须要携手走好高质量发展的道路。   确定2025至2026年为“中国中亚合作高质量发展年”,中方决定在中国中亚合作框架内建立减贫、教育交流、荒漠化防治三大合作中心和贸易畅通合作平台,愿在未来两年向中亚国家提供3000个培训名额……习近平主席在本届峰会上宣布的一系列务实举措,展现中方同中亚各国一道推进共同现代化的诚意与决心。   环顾世界,百年变局加速演进,单边主义、保护主义、霸权主义逆流涌动。在动荡变革的国际形势下,“中国—中亚精神”能给世界带来什么样的启迪?   “我一贯主张,历史不能倒退,应当向前;世界不能分裂,应当团结;人类不能回到丛林法则,应当构建人类命运共同体。”峰会上,习近平主席的话掷地有声。   中国同中亚国家共同探索形成的“中国—中亚精神”,是对“世界怎么了、我们怎么办”这一时代之问的有力回答,启示世界要以同心合力、和衷共济冲出迷雾、走向光明。   “坚守彼此信赖、相互支持的团结初心”“优化务实高效、深度融合的合作布局”“打造和平安宁、休戚与共的安全格局”“拉紧同心同德、相知相亲的人文纽带”“维护公正合理、平等有序的国际秩序”,习近平主席提出五方面倡议,不仅为六国弘扬“中国—中亚精神”指引了方向,更为朝着命运共同体目标砥砺前行规划了清晰路径。   “在充满不确定的世界中,中国—中亚机制的战略意义更加突出”“高度珍视与中国的相互尊重、平等互利合作模式,期待同中国密切全方位合作”“将中国—中亚机制打造为区域合作的典范”……峰会上,中亚五国领导人用共同的心声表达对“中国—中亚精神”的认同与支持。   大道如砥,行者无疆。面对新形势、新挑战,“中国—中亚精神”是中国和中亚国家恪守睦邻友好初心的宣言,必将指引各国不断谱写相互交融、相互成就的新篇章,为地区乃至世界和平发展注入更多正能量。   策划:张晓松、韩墨   主编:杨依军、朱基钗   主笔:严赋憬、冯歆然、赵冰   视觉:朱思明、贾伊宁   新华社国内部、国际部联合制作   新华社第一工作室出品
总台记者观察丨以伊冲突持续升级 邻国黎巴嫩警惕应对外溢风险
  当地时间13日凌晨开始,以色列对伊朗发动大规模空袭,伊朗当晚对以色列军事中心、空军基地等目标进行反击,地区紧张局势陡然升级。目前以色列和伊朗的大规模军事冲突产生的外溢效应,对以色列邻国黎巴嫩的经济、航空、安全等领域都产生了很大影响,黎巴嫩政府对此进行了警惕应对。   贝鲁特夜空频现导弹轨迹   黎政府对真主党动向高度警惕    总台记者 杨渊:以色列与伊朗双方的空中打击让中东局势陡然升级,中东地区多国也受到这场冲突的波及。我现在正在黎巴嫩首都贝鲁特市中心的位置,伊朗在地理位置上是位于我右手的方向,我们距离以色列北部边境地区大约80公里。连续几日,贝鲁特夜间可以清晰地看到,从伊朗西北部发射的导弹飞过贝鲁特射向以色列北部的轨迹。   在我身后就是黎巴嫩首都贝鲁特南郊。就在刚刚,当地时间17日中午,三架以色列无人机飞越南郊。以伊冲突以来,黎巴嫩高度警惕,总统奥恩多次表示尽可能地让黎巴嫩远离正在蔓延的地区战火、防止黎巴嫩成为其他国家的对抗之地。从伊朗对以色列进行报复打击之后,由于担心真主党改变其策略,黎巴嫩军队一直与真主党保持沟通,呼吁包括真主党在内的所有黎巴嫩人将国家利益放在首位,避免将该国再次卷入战火。以色列依然没有放松在黎巴嫩境内对真主党的打击行动,在本月的5日在贝鲁特南郊多处地点发动密集空袭行动,此外以军无人机对黎巴嫩领空的飞行也一直没有停止。   以伊冲突持续升级   黎巴嫩警惕应对冲突外溢风险   黎巴嫩燃油价格上涨 航空业、旅游业均受影响    总台记者 杨渊:目前以色列和伊朗的大规模军事冲突产生的外溢效应,对以色列的邻国黎巴嫩的经济、航空、安全等都产生了很大的影响。黎巴嫩能源部17日发布的最新数据显示,黎巴嫩的燃油价格全部上涨,黎巴嫩媒体还担心伊朗可能关闭霍尔木兹海峡,给全球能源市场造成更大冲击。   作为持续援助滞留在海外黎巴嫩民众的举措之一,黎巴嫩和伊拉克官员之间于16日晚成成协议,将在黎巴嫩贝鲁特和伊拉克巴士拉机场之间开通直航。两架航班16日晚把目前滞留在黎巴嫩的伊拉克人送回伊拉克,滞留在伊拉克的黎巴嫩人将通过伊拉克航空公司送回国。   以色列和伊朗之间的冲突给黎巴嫩旅游业蒙上了一层阴影。黎巴嫩以其风景迷人的地中海自然风光著称,6月正是黎巴嫩的一年当中的旅游旺季,在经历了去年黎以冲突后,以及去年11月达成的黎以停火协议,黎巴嫩政府、黎巴嫩酒店协会都为今年夏季旅游季的到来做好准备,然后以伊冲突的爆发,导致包括黎巴嫩在内的中东区域多国领空关闭,国际航班取消,据黎巴嫩酒店协会指出,目前酒店预订和前往黎巴嫩的计划正以惊人的速度被取消。就在几周前,夏季的各项数据指标还非常乐观,但现在整个旅游业的前景都变得黯淡。冲突的连锁反应将不仅限于旅游业,还将冲击其他行业和黎巴嫩整体经济。黎巴嫩非常希望以色列和伊朗之间的冲突尽快结束,如果冲突持续下去,黎巴嫩也将一直在冲突的阴影之下。(总台记者 杨渊)
特朗普集团正式进军手机市场,推出Trump Mobile移动网络和土豪金智能手机
IT之家 6 月 16 日消息,特朗普集团今日宣布推出 Trump Mobile 移动网络,这是一项新的蜂窝服务,旨在“为美国最努力工作的人们提供顶级连接、无与伦比的价值和全美服务”。 特朗普集团执行副总裁埃里克・特朗普(Eric Trump)表示:“我很兴奋地踏入这个新的数字领域,努力工作的美国人值得一个价格合理、反映他们价值观并提供可靠质量的无线服务。我们尤其自豪地为我们的军人和他们的家人提供免费长途电话服务 —— 因为在海外服役的人员应该始终能够与家里的亲人保持联系。” Trump Mobile 将通过三大主要移动运营商提供 5G 服务,核心是其旗舰产品 The 47 Plan,每月 47.45 美元(IT之家注:现汇率约合 341 元人民币),订阅者将获得以下附加福利: 无限通话、短信和数据 完整的设备保护 通过 Drive America 提供全天候道路救援服务 远程医疗服务,包括虚拟医疗护理、心理健康支持,以及处方药物的便捷订购和配送 免费国际通话,覆盖超过 100 个国家,包括许多有美国军事基地的国家,以帮助向那些勇敢在国外服役的军人家庭致敬 没有合约,无需信用检查 Trump Mobile 还宣布将在 8 月推出“T1 Phone”手机。这是一款金色智能手机,专为性能而设计,并在美国设计和制造,为那些“期望从移动运营商获得最佳体验的客户”而打造,售价 499 美元(现汇率约合 3585 元人民币)。 该手机搭载 6.78 英寸 120Hz 打孔 AMOLED 屏幕,配有 50MP 主摄像头 + 2MP 深度 + 2MP 微距 + 16MP 前摄、5000mAh 电池 + 20W 充电、指纹传感器和 AI 人脸解锁、USB 2.0 接口、3.5 毫米耳机孔,运行安卓 15 系统。
计算机视觉界“奥斯卡”揭榜!华人霸榜CVPR 2025,突破3D视觉瓶颈
编译 | 王涵 编辑 | 漠影 智东西6月16日消息,上周五,IEEE计算机学会(CS)与计算机视觉基金会(CVF)联合公布了2025年计算机视觉与模式识别会议(CVPR)获奖论文及本年度AI艺术奖项。本次公布的7篇获奖论文全部都有华人科研人员参与其中,其中2篇文章由全华人团队完成。尤为亮眼的是,斩获 “CVPR 2025 最佳论文” 的成果同样出自华人研究员之手。 CVPR是IEEE国际计算机视觉与模式识别会议 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 。它是计算机视觉和模式识别领域最重要的年度国际会议之一,被公认为该领域的顶级盛会,许多人甚至称其为计算机视觉界的“奥斯卡”。 该会议的论文录用标准非常严格,今年共有13008份有效投稿并进入评审流程,其中2878篇被录用,最终录用率为22.1%。而其中能够进行口头报告的论文更是少之又少,这意味着能被CVPR录用的论文,通常代表了该领域最前沿、最具创新性的研究方向和最高水平。 一、CVPR 2025最佳论文:华人一作,多项3D任务达最先进水平 摘得CVPR 2025最佳论文的论文题目为《VGGT: Visual Geometry Grounded Transformer》(VGGT:视觉几何基础Transformer)。作者包括Jianyuan Wang、Minghao Chen、Nikita Karaev、Andrea Vedaldi、Christian Rupprecht、David Novotny,来自牛津大学与Meta AI的工程师团队,其中第一作者Jianyuan Wang、第二作者Minghao Chen均为华人。 该文章提出VGGT(视觉几何基础Transformer),能够直接从单视角、多视角乃至上百个视角中推断场景的所有关键3D属性,包括相机参数、点云图、深度图和3D点轨迹。该方法推动了3D计算机视觉领域的发展,传统模型通常局限于单一任务且需要专门优化。 VGGT不仅结构简洁高效(图像重建耗时不足1秒),其性能更超越了需要视觉几何优化技术进行后处理的替代方案。该网络在多项3D任务中达到最先进水平,包括相机参数估计、多视角深度估计、稠密点云重建和3D点追踪。实验表明,将预训练的VGGT作为特征骨干网络,可显著提升非刚性点追踪和前馈式新视角合成等下游任务的性能。 二、CVPR 2025最佳学生论文:根据物理规律逆向渲染,可屏蔽反射光干扰 获得CVPR 2025最佳学生论文的是《Neural Inverse Rendering from Propagating Light》(传播光线的神经逆向渲染),作者包括Anagh Malik、Benjamin Attal、 Andrew Xie、 Matthew O’Toole、David B. Lindell,来自多伦多大学、Vector研究所与卡内基梅隆大学,其中第三作者Andrew Xie为华人。 该团队首次实现基于物理的神经逆向渲染系统,能够处理多视角传播光线视频。该方法通过扩展神经辐射缓存技术(一种通过存储任意点从各方向接收的无限次弹射辐射来加速逆向渲染的技术),引入时间分辨率维度。所构建的模型能精确模拟直接与间接光传输效应,当应用于闪光激光雷达系统的捕获数据时,可在强间接光照环境下实现最先进的3D重建。此外,该团队还展示了传播光线的视角合成、捕获数据的直接/间接光自动分解,以及多视角时间分辨重照明等创新功能。 三、荣誉提名奖项:华为和北大浙大的全华团队夺得最佳学生论文提名 荣誉提名奖项授予那些在质量上仅次于最佳论文,但同样非常优秀且具有显著影响力的论文。它表明这些论文虽然不是最终的“第一名”,但其研究成果和贡献也得到了高度认可。 其中共有4篇论文获得最佳论文荣誉提名,1篇论文获得最佳学生论文提名,分别是: 1、最佳论文荣誉提名 《MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos》(MegaSaM:从动态视频中快速稳健地重建结构与运动),作者包括Zhengqi Li、Richard Tucker、Forrester Cole、Qianqian Wang、Linyi Jin、Vickie Ye、Angjoo Kanazawa、Aleksander Holynski、Noah Snavely,来自谷歌DeepMind与加州大学伯克利分校和密歇根大学,其中第一作者Zhengqi Li和共同作者Qianqian Wang、Linyi Jin、Vickie Ye为华人。 来自谷歌DeepMind与加州大学伯克利分校、密歇根大学的团队提出了一种能够从动态场景的单目视频中快速、准确且稳定地估计相机参数和深度图的系统。传统运动恢复结构(Structure from Motion)和单目SLAM技术大多假设输入视频以静态场景为主且具有显著视差,当这些条件不满足时往往会产生错误估计。近期基于神经网络的方法尝试解决这些问题,但这些方法要么计算成本高昂,要么在相机运动不受控或视场未知的动态视频中表现脆弱。 该团队证明了一个深度视觉SLAM框架经过训练和推理方案的精心改进后,能够惊人地适应真实世界中相机路径不受限的复杂动态场景视频(包括相机视差较小的视频)。在合成与真实视频上的大量实验表明,相较于现有研究,该系统在相机位姿和深度估计方面显著提升了精度与稳定性,同时保持相当或更快的运行速度。 《Navigation World Models》(导航世界模型),作者包括Amir Bar、Gaoyue Zhou、 Danny Tran、Trevor Darrell、Yann LeCun(杨立昆),来自Meta FAIR团队、纽约大学与伯克利大学AI研究所,其中第二作者Gaoyue Zhou为华人。 该团队提出导航世界模型(Navigation World Model,NWM),这是一种基于视觉运动能力的智能体基础导航系统。作为可控视频生成模型,NWM能根据历史观测和导航动作预测未来视觉场景。为捕捉复杂环境动态,NWM采用条件扩散Transformer架构(Conditional Diffusion Transformer, CDiT),通过大规模训练(10亿参数)于人类和机器人主体的第一视角视频数据集。 在熟悉环境中,NWM可通过轨迹模拟与目标达成度评估自主规划路径。与传统固定行为的监督式导航策略不同,NWM能在规划过程中动态整合约束条件。实验证明其具备两种核心能力:(1)从零开始规划轨迹;(2)对外部策略采样轨迹进行择优。更突出的是,NWM能基于单张输入图像,利用学习到的视觉先验对陌生环境进行轨迹推演,这使其成为新一代导航系统中兼具灵活性与强大性能的工具。 《Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models》(Molmo与PixMo:先进视觉语言模型的开源权重与数据),有Matt Deitke、Christopher Clark、Sangho Lee、Rohun Tripathi、Yue Yang、Jae Sung Park、Mohammadreza Salehi、Niklas Muennighoff、Kyle Lo、Luca Soldaini等39名作者,来自艾伦人工智能研究所与华盛顿大学,有Yue Yang等多名华人为共同作者。 该团队提出Molmo系列模型。核心突破在于PixMo数据集组合:包含用于预训练的精细化图像描述数据集、用于微调的自由格式图像问答数据集,以及创新的2D指向数据集,所有数据均未借助外部VLM生成。该方案的成功取决于三个要素:(1)精细的建模选择;(2)优化充分的训练流程;(3)最关键的新建数据集质量。他们提出的72B旗舰模型不仅超越同类开源模型,更在学术基准和大规模人工评估中胜过Claude 3.5 Sonnet、Gemini 1.5 Pro/Flash等商业大模型,性能仅次于GPT-4o。 《3D Student Splatting and Scooping》(3D学生飞溅与挖掘技术),作者包括Jialin Zhu、Jiangbei Yue、Feixiang He、He Wang,来自伦敦大学与伦敦大学AI中心、利兹大学,三名作者全部为华人。 该团队提出了一个由灵活的学生t分布(Student’s t distributions)组成的新混合模型,该模型同时包含正密度(溅射)和负密度(舀取)。此模型被命名为“学生溅射与舀取”(Student Splatting and Scooping),简称SSS。通过在多个数据集、设置和指标上进行的详尽评估与比较,该团队证明了SSS在质量和参数效率方面均优于现有方法。例如,在使用相似数量组件的情况下,SSS能达到同等或更优的质量;并且在将组件数量减少高达82%的情况下,仍能获得可比较的结果。 2、最佳学生论文荣誉提名 获得最佳学生论文荣誉提名的论文是《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》(基基于离散扩散时间步长tokens的生成式多模态预训练),作者包括Kaihang Pan, Wang Lin, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang,来自华为新加坡研究中心、北京大学、浙江大学与南洋理工大学,为全华人团队。 多模态大语言模型(MLLM)的最新研究致力于通过结合LLM与扩散模型(分别为各自任务中的前沿技术)来实现视觉理解与生成的统一。现有方法依赖于空间视觉tokens,即图像块按空间顺序(如光栅扫描)编码排列。但研究发现,空间tokens缺乏语言固有的递归结构,导致LLM难以掌握这种 “非语言化” 表征。 该研究提出通过扩散时间步长学习离散递归视觉tokens,可随时间步长递增递归补偿噪声图像的渐进属性损失,使扩散模型能在任意时间步重建原始图像。该方法有效融合了LLM自回归推理优势与扩散模型精确图像生成能力,在统一框架内实现了无缝多模态理解与生成。大量实验表明,相比其他MLLMs,该模型在多模态理解与生成任务上同步取得了更优性能。 四、让AI与艺术对话,全华人团队获奖 除技术研究外,CVPR AI艺术项目(AI Art Program)探索科学与艺术的交叉领域,征集运用计算机视觉技术(包括生成模型、物体与面部识别等)的创作作品。今日公布的获奖作品从100余件入选作品中脱颖而出: 1、Tom White的《Atlas of Perception(感知图册)》,通过探索神经网络的潜空间(latent space),揭示视觉模型的“视觉词汇”。该雕塑作品解析机器如何理解世界,展现外观本身的语法规则:视觉的模块化语义。 2、Masaru Mizuochi的《Green Diffusion(绿色扩散)》,将土壤微生物分解物质为养分的“破坏”过程,与AI扩散模型(diffusion model)的加噪去噪“创造”过程并置,凸显二者的同步性。 3、全华人团队Mingyong Cheng, Sophia Sun, Han Zhang的《Learning to Move, Learning to Play, Learning to Animate(学习运动、学习游戏、学习动画)》,是跨学科多媒体表演作品,包含自主研发的拾得材料机器人、实时AI生成、动作追踪、音频空间化及基于生物反馈(bio-feedback)的音频合成技术。 AI艺术项目策展人Luba Elliott评价称:“AI与艺术交汇处蕴藏丰富素材,本项目鼓励艺术家持续探索其潜力。祝贺所有获奖者及参与者对当下图景的深刻诠释。” 结语:华人正站在世界AI研究前沿 CVPR 2025程序委员会联合主席、美国麻省理工学院(MIT)副教授Phillip Isola对以上获奖论文赞赏称:“这些论文代表了本届会议最高质量的研究成果,包含突破性发现、广受关注的重要工具以及富有创造力的新思路。” 此次CVPR 2025大会上,科技巨头Meta和谷歌都没有缺席领奖台,华为的研究团队也获得了荣誉提名。除此之外,华人在获奖论文中的参与度让人十分惊喜。 华人在CVPR 2025上的超高“出镜率” 凸显了华人在全球计算机视觉与模式识别领域的卓越贡献,多篇获奖论文及成果也彰显了中国在全球AI发展进程中日益增长的影响力。
网传iPhone 17系列带来多项配置升级,是否会有真惊喜?
虽然刚刚过去的WWDC25亮点并不多,但是苹果秋季发布会还是备受期待的,不出意外的话9月份苹果会推出iphone 17系列,关于新品的爆料也越来越多,最新的爆料显示iPhone17系列预计将带来多达12项配置升级,且不论这次爆料是不是真实的,至少配置升级还是非常值得期待的。 根据爆料,iPhone 17 Pro系列外观设计将采用铝金属中框,更有业内人士大胆猜测称可能会采用全新的“部分铝金属 + 部分玻璃”设计,在质感与工艺上寻求新突破;背面可能搭载带更大的矩形三摄模组,迥异于前作,辨识度拉满。此外,天蓝色配色的加入,与最新款 MacBook Air 色调相似,为消费者提供了清新且独特的选择,想必这个颜色会在一众机型中脱颖而出。 在硬件性能方面,iPhone 17 Pro将搭载苹果A19 Pro 芯片,A19 Pro 采用台积电更新的第三代 3nm 工艺制造,有望实现性能的小幅年度提升以及能效的优化,为用户带来更为流畅、高效的使用体验。值得一提的是,4款iPhone 17系列机型均将标配苹果自研的 Wi-Fi 7 芯片,进一步强化网络连接性能。 此次,4款iPhone 17 机型均配备 2400 万像素前置摄像头,自拍画质得到提升。而 iPhone 17 Pro 系列后置长焦镜头升级至 4800 万像素,结合苹果的影像算法,在拍摄远景时能呈现更清晰的画面和丰富的细节。此外,iPhone 17 Pro 系列还将支持双路视频录制,用户可在相机应用中同时使用前置和后置镜头拍摄,同时首次支持 8K 视频录制,为专业视频创作者提供了新的创作可能。 续航与散热也有升级,iPhone 17 Pro Max更大的设计可以容纳更大容量的电池,全系传闻均采用内部设计改进以增强散热,Pro系列更是搭载均热板散热系统,确保手机在长时间高性能运行下也能冷静应对,避免因过热导致的卡顿与降频。
GPT-5训练背后隐藏大佬:靠一篇博客入职OpenAI
编译 | 李水青 编辑 | 心缘 智东西6月16日消息,今天,AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台X上曝料:研究员Keller Jordan仅凭一篇博客文章就加入了OpenAI,并可能正用博客提及的神经网络隐藏层的优化器Muon训练GPT-5。 “许多博士(包括以前的我)都陷入了这样一个误区:认为在顶级会议上发表论文才是最终目标。但发表论文≠影响力。Muon只作为一篇博客文章发布,它让Keller加入了OpenAI,他现在可能正在用它训练GPT-5。”Yuchen Jin说。 ▲Yuchen Jin的X推文及Yuchen Jin的自述 Yuchen Jin提及的这篇博客发布于2024年12月,题为《Muon:神经网络隐藏层的优化器(Muon: An optimizer for hidden layers in neural networks)》。 博客地址:https://kellerjordan.github.io/posts/muon/ 从职场社交平台领英可知,Keller Jordan正是在2024年12月加入OpenAI,由此我们也可以推测他正是凭去年12月发布的一篇博客,成功进入了如日中天的头部大模型企业。 这篇博客厉害在那儿?Muon凭什么成为OpenAI的敲门砖?让我们从这篇博客文章内容说起。 一、Muon定义:一个神经网络隐藏层的优化器 Muon是神经网络隐藏层的优化器。它被用于NanoGPT和CIFAR-10的快速运行,刷新了当时训练速度的记录。 Keller Jordan的博客文章主要关注Muon的设计。首先他定义了Muon并概述其在当时已取得的实证结果;然后他详细讨论了Muon的设计,包括与先前研究的联系以及对其工作原理的最佳理解;最后他讨论了优化研究中的证据标准。 具体来说,Muon是一个针对神经网络隐藏层二维参数的优化器,其定义如下: 其中“NewtonSchulz5”定义为以下Newton-Schulz矩阵迭代: 使用Muon训练神经网络时,应使用AdamW等标准方法优化网络的标量和矢量参数以及输入层和输出层。Muon可用于四维卷积参数,方法是将其最后三个维度展平。 Muon取得了以下实证成果: 1、将CIFAR-10上的训练速度记录提高到94%准确率,从3.3秒提高到2.6秒。 2、将FineWeb(一项称为NanoGPT快速运行的竞赛任务)上的训练速度记录提高至3.28 val loss,提高了1.35倍。 3、在扩展到774M和1.5B参数的同时,继续显示训练速度的提升。 4、在HellaSwag上用10个8xH100小时训练了一个1.5B参数转换器,使其达到GPT-2 XL级别的性能。使用AdamW达到相同结果则需要13.3小时。 以下是针对NanoGPT快速运行的不同强力优化器的比较: ▲按样本效率比较优化器(可复现日志:https://github.com/KellerJordan/modded-nanogpt/tree/master/records/102924_Optimizers) ▲按挂钟时间比较优化器 此外,以下是Muon和AdamW在训练15亿参数语言模型时的对比。两个优化器均已进行调整。 ▲Muon与AdamW在15亿参数短时间训练中的对比(可复现日志:https://github.com/KellerJordan/modded-nanogpt/tree/master/records/102024_ScaleUp1B) 二、Muon设计:牛顿-舒尔茨迭代法作为后处理步骤 Muon通过采用SGD-momentum生成的更新来优化二维神经网络参数,然后在将它们应用于参数之前,对每个更新应用 Newton-Schulz (牛顿-舒尔茨迭代法,简称NS)迭代作为后处理步骤。 NS迭代的作用是使更新矩阵近似正交化,即应用下列操作: 换句话说,NS迭代实际上用最接近的半正交矩阵替换了SGD-momentum的更新矩阵。 为什么正交化更新可行?出于实证研究的动机,作者基于人工检验观察到,SGD-momentum和Adam对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数。也就是说,它们几乎是低秩矩阵,所有神经元的更新仅由少数几个方向主导。 作者推测,正交化有效地增加了其他“稀有方向”的规模,这些方向在更新中幅度较小,但对学习仍然很重要。 除了NS迭代之外,还有其他几种方法可以对矩阵进行正交化。但作者没有使用其中两种方法,他是如何排除的? 一个是SVD方法,它太慢了,所以作者没有使用它。另一个是Coupled Newton iteration (耦合牛顿迭代法),它必须至少以float32精度运行才能避免数值不稳定,这导致它在现代GPU上运行速度较慢,所以作者也没有采用。 相比之下,作者发现NS可以在bfloat16中稳定运行,因此选择它们作为正交化更新的首选方法。 在Keller Jordan的实验中,当使用具有调整系数的Muon来训练Transformer语言模型和小型卷积网络时,只需运行5步NS迭代就足够了。 此外,Keller Jordan还分析了Muon的运行时间和内存要求。对于典型的语言训练场景,无论规模大小,Muon的FLOP开销都低于1%。 三、Muon实证考虑:批判糟糕的基线,提出新方法 根据设计,Muon仅适用于二维参数,以及通过展平的卷积滤波器,因此网络中其余的标量和矢量参数必须使用标准方法(例如 AdamW)进行优化。 根据经验,Keller Jordan发现使用AdamW优化输入和输出参数也很重要,即使这些参数通常是二维的。具体来说,在训练Transformer时,应该将AdamW用于嵌入层和最终分类器头层,以获得最佳性能。嵌入层的优化动态应该与其他层不同,这遵循模块化范数理论。输出层的这种动态也不同,这似乎并非来自理论,而是由经验驱动的。 另一个纯经验性的结果是,在他们测试的所有案例中,使用 Nesterov式动量对Muon的效果都比普通的SGD动量略好。因此,他们在公开的Muon实现中将其设为默认设置。 第三个结果是,如果将Muon分别应用于变压器的Q、K、V参数,而不是一起应用于变压器,则Muon可以更好地优化变压器,因为对于将QKV参数化为输出被分割的单个线性层的变压器实现,默认做法是将它们一起应用。 Keller Jordan认为,神经网络优化研究文献目前大多充斥着一堆已死的优化器,它们声称能够击败AdamW,而且往往以巨大的优势获胜,但却从未被社区采用。鉴于业界在神经网络训练上投入了数十亿美元,并渴望降低成本,他们可以推断,问题出在研究界,而非潜在的采用者。 Keller Jordan犀利地提出:这项研究出了问题。仔细研究每篇论文后,他们发现最常见的罪魁祸首是糟糕的基线:论文在将其与新提出的优化器进行比较之前,往往没有充分调整AdamW基线。 发表声称有巨大改进但无法复制/达到宣传效果的新方法,浪费了大量个人研究人员和小型实验室的时间、金钱和士气,他们每天都在为复制和构建此类方法的失败而感到失望。 为了纠正这种情况,Keller Jordan建议采用以下证据标准:研究界应该要求,只要有可能,神经网络训练的新方法就应该在竞争性训练任务中取得成功。 竞争性任务通过两种方式解决了基线欠调问题。首先,竞争性任务的基线是先前的记录,如果该任务很受欢迎,则很可能已经经过了良好的调整。其次,即使在先前记录未经过良好调整的不太可能发生的情况下,也可以通过新的记录进行自我修正,将训练恢复到标准方法。 结语:全新优化器或成为GPT-5中的重要技术 通过定义、拆解设计及实证研究,Keller Jordan发现了Muon神经网络隐藏层的优化器具备优于AdamW的效率。通过最新曝料可知,这一技术很有可能成为OpenAI正在研究的GPT-5的重要部分。 Keller Jordan也提出了一些尚未解决的问题。包括:Muon可以扩展到更大规模的训练吗?是否有可能在大型GPU集群中正确分布Muon使用的Newton-Schulz迭代?Muon是否仅适用于预训练,而不适用于微调或强化学习工作负载?或许在GPT-5的研究中,作者已经知道了这些问题的答案。
Labubu正火,AI“芭比”也快有了!OpenAI合作的首款AI娃娃今年推出
编译 | 王涵 编辑 | 漠影 智东西6月16日消息,上周玩具制造商美泰公司(Mattel)发布公告称与OpenAI达成合作,将基于美泰旗下品牌开发AI驱动的创新产品与体验。公告称美泰将在芭比等旗下玩具品牌中引入AI(人工智能)技术,首款AI驱动的玩具产品预计将于今年晚些推出。 美泰曾在2017年就曾推出一款名为 Aristotle(亚里士多德) 的AI产品。这款产品被宣传为“市场上第一个声控的数字保姆和老师”,旨在通过AI帮助孩子们掌握基本的认知技能,例如阅读睡前故事、玩游戏、教授语言课程,甚至协助完成家庭作业。 这下AI真从“娃娃”抓起了。 一、芭比或迎AI升级,美泰从业务到产品全面拥抱AI 美泰在上周四宣布与OpenAI达成合作,将为Barbie、Hot Wheels和Uno等标志性玩具品牌引入AI。这家玩具制造商在新闻稿中写道,将运用OpenAI技术“为适龄儿童打造注重创新、隐私与安全的AI体验”。虽然细节尚未公开,但首款AI驱动产品预计今年晚些时候推出。 美泰首席特许经营官乔什·西尔弗曼(Josh Silverman)向彭博社透露,该交易不涉及知识产权转让,公司对研发产品保持完全控制权,双方谈判始于去年末。除玩具外,美泰还将在业务运营中整合ChatGPT Enterprise等OpenAI工具,增强产品开发与创意构思。针对Business Insider的置评请求,双方均未回应。 二、玩具销售遇冷,OpenAI加速商业布局 此举正值玩具行业面临需求疲软时期。在特朗普贸易政策引发的不确定性下,消费者缩减开支导致美泰上月撤回年度预测,并宣布将通过提高部分美国产品价格抵消关税影响。 美泰首席财务官安东尼·迪西尔维斯特(Anthony DiSilvestro)上月财报电话会表示,公司将“调整”促销活动以节省成本,年度降本目标从6000万美元(约合人民币4.3亿元)上调至8000万美元(约合人民币5.7亿元)。过去一年,美泰通过影视作品和手机游戏等娱乐业务来缓解玩具销售颓势。 与此同时,OpenAI近期相继与星巴克等消费品牌达成合作。周二星巴克宣布推出基于微软Azure OpenAI的新工具“Green Dot Assist”,这款部署在店内iPad上的虚拟助手可帮助咖啡师记忆饮品配方并推荐餐食搭配。 结语:AI能否给童话世界带来更多魔法? 迪士尼在2024年11月就成立了一个专门的“科技赋能办公室(Technology Enabled Office)”,其主要任务就是协调AI和混合现实(XR,包括VR/AR/MR)技术在整个娱乐集团中的应用。 虽然迪士尼还没有把AI装进玲娜贝尔里,但此次美泰和OpenAI的合作,让市场看到了AI+玩具的可能,未来的玩具将更加个性化和智能化。在儿童隐私与安全的考量下,AI 和玩具的结合必须更加谨慎,但毫无疑问的是,AI与人们的日常生活的融合已愈加深化。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。