EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
全球隐私标杆恐动摇,欧盟为提升竞争力拟放宽数据保护
IT之家 11 月 11 日消息,techpolicy 昨日(11 月 10 日)发布博文,报道称欧盟委员会计划于 11 月 19 日公布名为“数字综合法案”的一揽子改革计划,可能修订削弱其标志性的《通用数据保护条例》(GDPR)、《人工智能法案》及《电子隐私条例》。 根据隐私倡导组织 noyb 获取的泄露草案,此次改革远不只是精简流程,而是可能动摇 GDPR 的核心原则。草案提议收紧“个人数据”的定义,可能将广告 ID、Cookie 等大量假名标识符排除在保护范围之外,从而为更大范围的用户追踪和画像分析打开方便之门。 同时,草案还引入“合法权益”例外,允许企业在采取“未明确”的保障措施后,即可使用包括部分敏感信息在内的个人数据训练 AI。批评者认为,这将使美国等地的科技巨头能更自由地利用欧盟数据。 欧盟里程碑式的《人工智能法案》也可能因本次改革而被推迟执行和削弱效力。据多家媒体报道,草案提议为高风险 AI 系统的供应商提供一年宽限期,并可能将内容透明度(如标记 AI 生成内容)相关罚则的生效时间推迟至 2027 年 8 月。 更令人担忧的是,一项修订或将允许公司在未经任何通知的情况下,单方面将高风险 AI 系统自我评估为低风险,从而规避监管。公民社会团体警告,取消这一公开披露要求,将瓦解此前艰难达成的妥协,对公共安全构成威胁。 另一项重大变动是将长期悬而未决的《电子隐私条例》并入 GDPR。该条例主要管控网站 Cookie 和设备数据访问,其核心是“选择加入”(Opt-in)原则,即网站必须先获得用户明确同意才能追踪。 改革后,该原则可能转向更接近“选择退出”(Opt-out)的模式,允许公司基于“合法权益”在用户主动拒绝前进行数据收集。隐私专家指出,这不仅关乎 Cookie 弹窗,更关乎平台、数据中间商乃至政府能否合法窥探你的设备和通信内容。 该提案目前仍在欧盟委员会内部讨论,但其快速推进的流程已引发争议。与耗时数年谈判的 GDPR 不同,“数字综合法案”的公众咨询期极短,且未进行全面的影响评估。 该媒体指出,如果这项被批评为“积极破坏欧洲商业和国家安全”的改革最终通过,其连锁反应将不止于欧洲,更可能重塑全球在数据保护与 AI 监管领域的现有格局。
扎克伯格“变心”,Meta首席AI科学家杨立昆计划离职创业
扎克伯格与杨立昆 凤凰网科技讯 北京时间11月11日,据《金融时报》报道,就在Meta CEO马克·扎克伯格(Mark Zuckerberg)寻求大幅调整公司AI业务之际,Meta首席AI科学家杨立昆(Yann LeCun)计划离开这家社交媒体巨头,去创办自己的创业公司。 杨立昆被誉为现代AI先驱之一,也是图灵奖得主。据知情人士透露,杨立昆已经告诉同事,他将在未来几个月内离开Meta。与此同时,这位法裔美籍科学家也正在与潜在投资人进行早期谈判,为新的创业项目筹集资金。 据两位知情人士称,杨立昆的下一个事业将专注于推进他在世界模型方面的研究。 杨立昆的即将离职正值扎克伯格大幅调整其AI战略之际。扎克伯格的目标是挑战OpenAI、谷歌等对手竞争,开发出更强大的AI技术。 扎克伯格“变心” 扎克伯格已经把公司重点从Meta基础AI研究实验室(FAIR)的长期研究,转向了更加快速地推出AI模型和产品上,原因是他认为Meta已在AI竞争中落后。然而,自2023年以来,FAIR一直由杨立昆领导。 今年夏季,扎克伯格斥资143亿美元聘请了数据标注创业公司Scale AI的28岁创始人汪滔(Alexandr Wang),并收购其公司49%的股份,由汪滔领导Meta新成立的“超智能”团队。 在这轮全面AI布局中,扎克伯格还亲自遴选成员组建了名为TBD Lab的精英团队,提供高达1亿美元的薪酬从OpenAI、谷歌等竞争对手招揽人才,以推进大语言模型的迭代。 此番架构调整后,原本向Meta首席产品官克里斯·考克斯(Chris Cox)汇报的杨立昆,现在改为向汪滔汇报。 然而,杨立昆长期以来一直认为,扎克伯格置于战略核心地位的大语言模型虽然“有用”,但永远无法实现人类般的推理与规划能力。这使得他与扎克伯格的AI愿景分歧日益明显。 截至发稿,杨立昆不予置评。Meta尚未就此置评。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
马斯克想要1万亿 何小鹏只想等一句牛P
世界在等创业者说一句「对不起」,而创业者只求世界的一句「牛 P」。 这种「虐恋」关系,在那些技术至上、理科出身的创业者身上,有更突出的表现。 最近,面对全球、乃至公司股东的质疑,特斯拉创始人马斯克终于「解锁」了 1 万亿美元股票的薪酬——这个全人类商业史未见的超级回报,马斯克认为是像呼吸一样自然的结果,但人们看到的是特斯拉不断下滑的销量,和马斯克在 AI 和航天探索上的膨胀野心。 小鹏汽车的工作人员现场验证机器人的真伪|图片来源:小鹏汽车 大洋彼岸的中国,小鹏汽车创始人何小鹏在自家科技日上,秀出了 IRON 机器人精妙的「猫步」,收获惊奇之余,却不得不亲自「开胸验肺」,撕开价格高昂的材质皮肤,证明其下隐藏的是一具钢筋铁骨的机器人,而非人类演员。 值得玩味的是,同样遭受到质疑的两位创业者,马斯克和何小鹏的人生,总有些奇怪的相似和连接。 当生在南非的马斯克,被公立学校的恶霸同学揍到脑震荡、不得不住院治疗时,何小鹏出生在湖北黄石。那一年,中国恢复了高考,大批中国人命运的齿轮开始转动。 20 年后,闯荡到美国硅谷的马斯克,在和之后的「硅谷教父」彼得·蒂尔大战 300 回合之后,终于将创业项目 X 和 Paypal 合并,提款走人。赚下第一桶金的马斯克,上岸后干得第一件事——买了一台法拉利。 同一时间,刚从华南理工计算机系毕业的何小鹏,从导师带队的校车上,放弃了国企的面试,去了当时的「亚信」,在硅谷「.COM」泡沫爆炸之前,开启了自己的互联网行业之旅 2004 年,马斯克拿着从 Paypal 项目中获得的 2 亿美元中的一半,创立了 SpaceX,开始了艰难的星空探索道路。同年,一家接近破产的小团队,获得了马斯克 680 万美元的救命钱。这家公司,叫特斯拉,想要做纯电汽车。 那一年,中国还处于互联网的「门户网站时代」,何小鹏联手与梁捷、俞永福创立 UC 优视,正式创业,开启了之后十年的「震惊」之旅。 2008 年,在特斯拉第一款车不断跳票,公司难以为继之时,任董事长的马斯克手起刀落,直接将特斯拉原本的两位创始人踢出团队,自己开始掌握特斯拉的命运,他大概没有想到,之后会将大部分精力投入到这家日后成为全球市值第一的车企。 2014 年,UC 被阿里收购,何小鹏「上岸」,仿佛拿到了相同的剧本,那一年何小鹏联合创立了小鹏汽车,但他依然在寻找下一个互联网创业的爆发点,丝毫没意识到,三年后自己将下决心,把小鹏汽车作为最重要的创业项目。 有趣的是,两个看似「平行」的创业者,命运也有交互的时刻。 2019 年,小鹏汽车发布新一代智能驾驶架构时,远在硅谷的马斯克发文,暗指小鹏汽车抄袭了特斯拉自动驾驶。何小鹏也在朋友圈不客气的回怼。双方还因此打起了诉讼官司,但这场诉讼最后无疾而终。 上周,小鹏汽车科技日上,IRON 机器人遭到质疑之时,刚刚解锁 1 万亿美元薪酬的马斯克,悄悄给老对手何小鹏点了个赞。因为他知道,有时候,只有惺惺相惜的创业者,会给彼此一句世界欠他们的「牛 P」。 幸运的是,我们现在有机会,当着何小鹏的面,给他一句「牛 P」! 12 月 6 日,极客公园创新大会 2026 的舞台上,你将听到何小鹏亲自讲述,关于智能汽车、自动驾驶和物理 AI 的深度思考。
AI视频背后的“豪赌”:消息称OpenAI Sora日均烧钱1500万美元
IT之家 11 月 11 日消息,9 月 30 日,OpenAI 面向苹果 iOS 平台正式推出视频生成应用 Sora。尽管采用“仅限邀请”的封闭式发布策略,该应用仍于短短一周内实现惊人突破 —— 下载量突破 100 万次,迅速引发媒体热捧,并催生出海量荒诞内容:从虚构的安防监控视频、已故名人的“无端放屁”片段,到令人不安的居家购物频道广告。据 AppFigures 数据显示,至万圣节(10 月 31 日),Sora 下载量已攀升至 400 万次,日均生成数百万条 10 秒 AI 视频。 那么,OpenAI 究竟在这一“海量低智视频喷涌”上烧掉了多少钱?据《福布斯》估算并结合多位业内专家访谈,其年化成本或超 50 亿美元(IT之家注:现汇率约合 356.01 亿元人民币),即日均约 1500 万美元(现汇率约合 1.07 亿元人民币)。10 月 30 日,OpenAI Sora 项目负责人比尔・皮布尔斯(Bill Peebles)坦言:“目前的经济状况完全不可持续”。 OpenAI 拒绝向《福布斯》披露 Sora 的具体使用数据,亦未对其成本估算置评。 向大众无差别开放免费 Sora 视频生成,无疑是一记豪赌 —— 虽在科技界屡见不鲜,却仍显激进。OpenAI 正以巨额亏损为代价,抢占市场份额与用户心智,寄望于未来:随着使用规模扩大,单位成本将显著下降;待正式收费时,收入曲线则有望陡峭攀升。 美银证券(Mizuho)分析师劳埃德・沃尔姆斯利(Lloyd Walmsley,专注 Meta 与谷歌研究)指出:“这正是经典的互联网打法 —— 初期不纠结于成本,而重在构建用户基数与参与度;历史一再证明,企业总能找到路径将用户黏性转化为商业价值。”沃尔姆斯利强调:单位视频生成所需的 GPU 计算分钟数,将随技术进步呈指数级下降。视频模型推理成本有望于明年下降至当前 1/5,2027 年再降为届时的 1/3。 目前来看,这是一场贪婪的市场份额争夺,其目的大概是为该产品未来的激进商业化铺路。尽管 CEO 萨姆・奥尔特曼(Sam Altman)曾坦言,仅靠广告模式远不足以覆盖 Sora 当前的算力开销,但若结合广告与高价值专业用户(如电影导演、电视广告制作人)的高额付费,或可形成可持续商业模式。此外,免费 Sora 生成亦为 OpenAI 提供宝贵训练数据 —— 对于未选择退出的用户,其输入的文本提示词(text prompts)及对应生成视频,可反哺所有模型的迭代优化(当前视频数据极度稀缺且亟需人工标注)。此举或在未来改善公司盈利前景,或使其在模型训练上领先竞品。最后,与所有运营开支一样,Sora 的算力支出亦可作为税盾 —— 通过降低这家新近转为营利性实体的应税利润,从而节税增效。 然而,成本飙升速度之快已令 OpenAI 不得不调整策略。公司已明确表示,将很快大幅缩减免费 AI 视频生成额度。正如奥尔特曼在 10 月接受 Stratechery 专访时所言:“当前海量使用中,大量用户仅是制作搞笑梗图发送给三五好友 —— 而任何广告模式,都无法支撑这样一个世界的算力成本。”
华为公布2024年“技术账单”:研发投入1797亿,专利许可收入6.3亿美元
凤凰网科技讯(作者/于雷)11月11日,今日,华为在北京举办2025创新和知识产权论坛,并公布其2024年在技术开放与专利成果方面的最新数据及第六届“十大发明”评选结果。 华为在北京召开第六届创新和知识产权论坛 华为知识产权部部长樊志勇发表主题演讲 华为副总裁、知识产权部部长樊志勇在会上表示,2024年华为在全球技术贡献方面保持高强度投入,全年公开专利超过3.7万件,向国内外标准组织提交技术提案逾1万篇,并发布学术论文超过1000篇。这一数字较往年再创新高,反映出华为在ICT领域的持续研发活跃度。 在专利商业化方面,华为2024年实现专利许可收入约6.3亿美元(约合44.86亿元,人民币)。历史上华为累计支付的专利许可费约是累计许可收入的三倍。 截至去年底,华为的专利授权技术已深度嵌入全球智能终端生态:全球5G设备授权超27亿部、Wi-Fi设备授权超12亿部、多媒体视频编解码专利授权设备超32亿部,其中包括多家《财富》世界500强企业。 根据华为披露数据,公司近十年研发投入累计已达12490亿元人民币。2024年研发费用为1797亿元,占全年收入的20.8%,研发强度继续位居全球主要科技企业前列。目前,华为在全球范围内累计持有超过15万件有效授权专利,并连续十年位居世界知识产权组织(WIPO)PCT国际专利申请榜首,2024年申请量为6600件。 华为首席法务官宋柳平发表欢迎致辞 华为首席法务官宋柳平在致辞中表示,开放创新与知识产权保护并非对立,而是科技进步的双轮驱动。“我们希望通过自身的实践,推动全球创新生态更加开放与平衡。” 论坛期间,华为还公布了第六届“十大发明”评选结果,涵盖计算、鸿蒙操作系统、存储等关键技术方向。同时,其公益项目“查思专利”平台宣布功能升级,新增“语义检索”和“AI摘要”功能,为科研机构与创新者提供更高效的知识服务。
力压ChatGPT,韩国本土AI聊天机器人Zeta成该国最受欢迎AI应用
IT之家 11 月 11 日消息,据 The Korea Herald 报道,周二发布的最新行业数据显示,由韩国本土研发的人工智能聊天机器人应用 Zeta 已超越 ChatGPT,成为韩国使用量最大的 AI 聊天应用。 市场分析机构 Wiseapp Retail 依据韩国全国 5120 万 Android 与 iOS 用户的使用数据监测应用及支付趋势。其报告显示,Zeta 在今年 10 月累计实现用户互动时长达 7362 万小时,显著领先位居第二的 OpenAI 旗下 ChatGPT(4828 万小时)。 紧随其后的其他 AI 聊天应用包括:Krak(898 万小时)、Grok(195 万小时)、Chatty(183 万小时)以及 Perplexity(157 万小时)。 Zeta 由首尔人工智能初创公司 Scatter Lab 开发,用户可自主设定 AI 角色的姓名、性格特质与兴趣偏好,从而将对话转化为沉浸式的、小说般的情景化交互叙事体验。 该应用在获得韩国最大移动通信运营商 SK 电讯 150 亿韩元(IT之家注:现汇率约合 7321.5 万元人民币)投资后,于 2023 年 4 月启动公开测试。上线一年内,Zeta 全球用户规模达 200 万,月均对话量突破 23 亿轮次。 Scatter Lab 宣布,Zeta 已于今年第二季度实现盈利:营收达 52 亿韩元(现汇率约合 2538.1 万元人民币),营业利润 9 亿韩元(现汇率约合 439.3 万元人民币),营业利润率高达 17%。 Zeta 的迅猛增长主要受益于年轻用户群体 ——10 至 29 岁用户占比近九成。截至 5 月下旬,平台注册用户已超 390 万,用户共创 AI 角色逾 19 万个。 该聊天机器人依托 Scatter Lab 自主研发的小型语言模型(Small Language Model)驱动,支持用户通过自然语言描述生成角色形象与详尽人设,大幅提升角色扮演的沉浸感与真实感。 近期该应用的功能升级进一步增强了交互体验:新增“快照”功能可一键生成符合语境的图像;语音合成功能则使 AI 角色能够“开口说话”,以自然语音呈现台词内容。 不过,该应用亦曾引发争议。有批评指出,在部分用户互动中可能生成不当乃至带有性暗示的内容。对此,Scatter Lab 已于今年 8 月上线实名年龄验证系统,并推出仅限成年人使用的“无限制模式”(Unlimited Mode)。 展望未来,公司正积极推进全球化布局。继近期正式进军日本市场后,Scatter Lab 计划进一步拓展英语地区业务,致力于将 Zeta 打造为全球性平台,力争在未来数年内实现用户总量突破 1 亿大关。
Windows系统元老批评Win11:过度商业化 沦为产品“广告牌”
快科技11月11日消息,据媒体报道,参与过MS-DOS到Windows Server 2003开发的微软退休工程师戴夫·普拉默(Dave Plummer)近日公开发声,直指Win11已背离操作系统本质,沦为微软产品的推广渠道。 普拉默追溯称,商业化侵蚀始于Win10时代。当时微软为应对市场压力,将系统转为"服务"模式,通过内置广告实现持续营收。而Win11更将推销推向极致:开始菜单强制"推荐"Microsoft 365应用,设置界面植入OneDrive注册横幅,本地搜索劫持至Bing结果,甚至当用户安装其他浏览器时,Edge会弹窗挽留。 "当系统在你明确选择后仍建议更换浏览器时,这已不是引导,而是赤裸裸的不尊重。"普拉默犀利指出。 为扭转此趋势,他呼吁微软推出真正的"Pro模式"——默认关闭非必要网络搜索与遥测功能,提供纯净本地账户选项,并透明化更新日志。"操作系统应是中立的工具平台,而非企业营销的殖民地。"这位见证Windows三十年演进的技术先驱强调,唯有将选择权彻底交还用户,才能重获开发者与消费者的信任。 据悉,普拉默是一位加拿大裔美国程序员和企业家,是Windows任务管理器(Task Manager)和ZIP文件夹(Zip Folders)功能的原创作者,于1994年至2003年在微软工作,参与了从MS-DOS到Windows Server 2003的多个主要操作系统的开发。
开发过任务管理器的微软前员工吐槽 Windows“糟糕透了”,并给出修复方案
IT之家 11 月 11 日消息,戴夫・普拉默(Dave Plummer)是微软前资深工程师,在业界颇具声望,曾主导开发多项 Windows 核心组件,包括任务管理器(Task Manager)、Windows NT 平台上的《太空弹珠台》(Space Cadet Pinball)移植版本、ZIP 文件原生支持功能等。如今,这位微软前高管却公开涉足颇具争议的议题 —— 直言不讳地剖析为何 Windows“糟糕透了(sucks)”。 IT之家注意到,在其 YouTube 频道最新发布的视频《Windows“糟糕透了”:一位退休微软 Windows 工程师的修复之道》中,普拉默指出,微软为简化操作系统、提升新手用户体验所采取的诸多措施,反而激怒了一批更活跃的高级用户 —— 他们反感系统中日益增多的限制性设计(guardrails)。为解决这一矛盾,他提出一项关键建议:在系统中引入一个“极简模式”切换开关(toggle),启用后可显著降低系统的“冗余交互”(chattiness),具体表现为: 停止主动推送应用推荐; 除非明确指令,否则本地搜索不再自动触发网络查询; 整合系统设置入口,避免用户在不同界面间“寻宝式”查找配置项; 将高级开发与管理工具(如 Windows 子系统 for Linux(WSL)、curl、Windows Terminal 及 WinGet 包管理器)深度集成至系统,并确保其开箱即用、触手可及。 此外,普拉默提到,“遥测”(telemetry)一词如今已近乎“敏感词”,但他强调,彻底废除遥测并非良策;更优解是赋予用户充分的透明度与控制权 —— 例如引入“隐私账本”(privacy ledger)机制:以清晰易懂的格式记录所有数据收集行为,并允许用户自由禁用特定类型的数据上传。 他还主张,在 Windows 初始设置阶段应明确向用户呈现本地账户与微软账户的对比选项,清晰说明二者各自的优劣势,将选择权交还给足够理性的终端用户。 关于系统更新,普拉默特别强调:更新安装应严格限定在用户非活跃时段进行,并配套提供“一键回滚”功能,以避免在工作高峰期因更新失败导致生产中断。 尤为值得注意的是,普拉默尖锐指出:当前 Windows 正日益“沦为”微软其他产品的推销渠道 —— 系统频繁弹出各类产品与服务的升级或订阅建议。他认为,前述“极简模式”开关同样可解决这一问题:全面禁用所有形式的推广提示。但他也坦言,这一方案恐难被现任微软高管层采纳 —— 毕竟,他们当前的核心 KPI 之一,正是提升用户对推荐内容的点击转化率。普拉默直言,这正是大量用户对 Windows 深感厌恶、斥其“糟透了”的根本原因:用户感觉自己花钱购买了产品,却被迫置身于一个持续推销的销售平台之中。 整段视频内容引人深思,尤其考虑到发声者本人深度参与过 Windows 底层开发,对系统设计逻辑与历史沿革了如指掌。除上述要点外,普拉默还探讨了其他痛点,例如“设置”应用(Settings)与传统“控制面板”(Control Panel)之间长期存在的功能割裂问题。
“AI热潮”导致美国多地电费上涨,参议员指责白宫“办事不力”
IT之家 11 月 11 日消息,据美国 CNBC 报道,当地时间周一,多名民主党参议员指责白宫推动 AI 数据中心快速审批以及反对可再生能源政策,导致美国部分地区电价上涨。 康涅狄格州参议员理查德・布卢门撒尔、佛蒙特州参议员伯尼・桑德斯等人致信白宫和商务部,要求说明政府采取了哪些措施来保护消费者免受大型数据中心的冲击。 民众对电价上涨的压力感知越来越明显。参议员批评白宫与 Meta、Alphabet、Oracle 和 OpenAI 等科技公司的紧密关系,以及政府对这些公司数据中心扩张计划的支持。 参议员在信中写道,政府未能阻止这些新数据中心因新增商业用电需求,从而推高电价,并指责白宫反对太阳能和风能发展,加剧了问题。IT之家从报道中获悉,白宫在声明中将电价上涨归咎于此前拜登政府及其可再生能源政策。 科技行业 AI 计划快速扩张。例如今年 9 月,OpenAI 与英伟达在 9 月签署协议,建设总容量达 10 吉瓦的数据中心,用于训练和运行 AI 应用,总量相当于 2024 年纽约市夏季用电峰值。 这些扩张计划引发对电力供应是否充足以及新发电成本由谁承担的质疑。目前,太阳能和储能是能够最快投入使用以满足需求的可再生能源。 能源信息署数据显示,截至 2025 年 8 月,美国零售电价同比 2024 年同期平均上涨约 6%,但各地区价格差异较大。
“AI吞电巨兽”推动核电热潮!美能源部长表态全力支持:将获最多贷款
美国能源部部长克里斯·赖特(Chris Wright)周一表示,随着特朗普政府推动尽快开工建设新的反应堆,核能项目将从能源部贷款办公室获得大部分资金。 当天,赖特在华盛顿由美国核学会主办的一次会议上说,“我们在贷款项目办公室有很大的贷款权限。到目前为止,这些资金的最大用途将是用于核电站——建造第一批核电站。” 核能的复兴很大程度上归功于电力需求的飙升,包括大型科技公司在全国各地建设的数百个人工智能(AI)数据中心以及制造业的回流。国际评级机构DBRS晨星预计,2025年至2030年电力基础设施投资将达到1.4万亿美元,是前10年投资额的两倍。 今年5月,美国总统特朗普签署了一系列有关核能的行政命令,涉及对美国核管理委员会进行全面改革、修改监管流程以加快核反应堆测试等,以期在未来25年内将目前的核能发电量提高三倍。 与此同时,包括Alphabet、亚马逊、Meta和微软在内的科技巨头正在投资数十亿美元,重启旧核电站,升级现有核电站,并部署新的反应堆技术,以满足人工智能数据中心的电力需求。 还值得注意的是,美国政府此前已与西屋电气(由加拿大的Cameco与Brookfield Asset Management持有)签署合作协议,旨在建设价值至少800亿美元的核反应堆项目,也曾一度引爆美股核电概念股行情。 据悉,西屋电气设计了一种名为AP1000的现代反应堆,可以为超过75万户家庭供电。该公司首席执行官Dan Sumner 在7月表示,西屋电气将响应特朗普的呼吁,建造采用AP1000设计的大型新电厂。 Cameco首席运营官Grant Isaac上周表示,美国政府有很多选择可以帮助西屋反应堆获得融资,包括能源部的贷款办公室。 赖特表示,他预计人工智能的电力需求将吸引数十亿美元的股权资本,用于给“信誉良好的供应商”建设新的核电能力。他说,能源部可以通过贷款办公室提供的低成本债务融资,以高达四比一的比例匹配私人投资。 “当我三年零三个月后卸任时,我希望看到数十座核电站正在建设中。”他说。 总而言之,各国政府、企业和公众越来越一致地认为,现在是核能复兴的合适时机。即使雄心勃勃的建设可能需要十年或更长时间,耗资数千亿美元,但最终也将惠及传统核能公司和初创核能公司、痴迷于人工智能的科技行业以及押注其成功的投资者。
全球首例AI卫星姿态控制在轨验证完成,确认深空自主控制可行性
IT之家 11 月 11 日消息,德国维尔茨堡大学(JMU)11 月 7 日宣布,该校研究团队在轨完成了全球首次由 AI 自主控制的卫星姿态调整实验,标志着航天系统自主化的重要里程碑。 此次测试由该校“学习型姿态控制在轨验证项目”(LeLaR)团队执行,实验平台为一颗名为 InnoCube 的 3U 级纳米卫星。 2025 年 10 月 30 日欧洲中部时间上午 11 时 40 分至 11 时 49 分之间,AI 控制器成功地利用反作用飞轮将卫星从初始姿态调整至预设目标姿态,整个过程完全由人工智能在轨自主完成。此后在多次测试中,AI 也均能稳定地控制卫星指向目标方向。 项目与技术背景 LeLaR 项目全称为“学习型姿态控制在轨演示”(In-Orbit Demonstrator for Learning Attitude Control),目标是研发新一代自主卫星姿态控制系统。姿态控制器用于稳定卫星姿态、防止其在轨翻滚,并确保其相机、传感器或天线对准指定目标。 不同于传统依赖固定算法的控制方式,JMU 团队采用了深度强化学习(Deep Reinforcement Learning,简称 DRL)方法,这是一种通过神经网络在模拟环境中自主学习最优控制策略的 AI 技术。 相比传统方法,DRL 在开发效率和适应性方面具有显著优势,可大幅减少 AI 调试时间,并能根据实际环境的变化自动调整控制策略,从而避免冗长的重新校准过程。 实验突破与意义 研究人员先在地面高保真模拟环境中对 AI 控制器进行训练,随后将其上传至卫星在轨验证。项目中的一大技术挑战是解决“仿真到现实差距”—— 确保在模拟中训练的控制算法能够在真实太空环境中有效运行。 项目负责人基里尔・杰布科博士(Dr. Kirill Djebko)表示:“我们实现了全球首次基于深度强化学习的卫星姿态控制器在轨成功运行的实证。” 团队成员汤姆・鲍曼(Tom Baumann)补充道:“这项成功标志着未来卫星控制系统迈出了关键一步,证明人工智能不仅能在模拟中表现良好,也能在实际太空环境中安全执行自主机动。” 推动太空任务自主化 该项目的成功展示了人工智能在航天安全关键任务中的可靠性。研究团队认为,这将有助于提升航空航天领域对 AI 方法的接受度,并为未来的自主太空任务奠定信任基础。 团队成员弗兰克・普佩教授(Professor Frank Puppe)指出:“这一成果将显著提高 AI 技术在航空航天研究中的认可度。” AI 控制方法在深空探测任务中具有潜在应用价值,尤其是在通信延迟或无法人工干预的环境中,自主学习型控制系统可能成为航天器生存和任务执行的关键。 未来展望 LeLaR 项目研究员埃里克・迪尔格(Erik Dilger)表示,团队计划将该技术拓展至更多在轨场景。此次实验所用的 InnoCube 卫星由维尔茨堡大学与柏林工业大学(TU Berlin)联合开发,旨在为创新航天技术提供在轨测试平台。IT之家注意到,该卫星还配备了名为 SKITH(Skip The Harness)的无线卫星总线系统,用无线数据传输取代传统布线,以减少质量并降低潜在故障风险。 研究团队认为,这一成果为未来智能化、自适应、自学习的卫星控制系统奠定了基础。项目负责人塞尔吉奥・蒙特内格罗教授(Professor Sergio Montenegro)总结道:“这是一大步,标志着我们正在进入卫星控制系统的新阶段 —— 智能、灵活且具备自学习能力。”
打破全球语言壁垒:Meta推出支持1600种语言的语音识别系统并开源
IT之家 11 月 11 日消息,Meta 基础人工智能研究(FAIR)团队推出了“全语种自动语音识别系统”(Omnilingual ASR),该系统可支持 1600 多种语言的语音转写,大幅拓展了当前语音识别技术的语言覆盖范围。 此前,大多数语音识别工具都专注于几百种资源丰富的语言,这些语言有大量的转录音频。而全球现存 7000 余种语言中,绝大多数因缺乏训练数据而几乎无法获得人工智能支持。Omnilingual ASR 的推出旨在弥合这一鸿沟。 据 Meta 介绍,在其支持的 1600 种语言中,有 500 种系首次被任何 AI 系统所覆盖。FAIR 团队将该系统视为迈向“通用语音转写系统”的重要一步,有望助力打破全球语言壁垒,促进跨语言沟通与信息可及性。 据IT之家了解,系统识别精度与训练数据量密切相关。根据 Meta 公布的数据,Omnilingual ASR 在测试的 1600 种语言中,对其中 78% 的语言实现了低于 10% 的字符错误率(CER);对于至少拥有 10 小时训练音频的语言,达此精度标准的比例提升至 95%;即便对于音频时长不足 10 小时的“低资源语言”,仍有 36% 实现了低于 10% CER 的表现。 为推动后续研究与实际应用落地,Meta 同步发布了“全语种 ASR 语料库”(Omnilingual ASR Corpus)—— 一个包含 350 种代表性不足语言的、大规模转录语音数据集。该语料库采用知识共享署名许可协议(CC-BY)开放获取,旨在支持开发者与研究人员针对特定本地语言需求,构建或适配定制化的语音识别模型。 Omnilingual ASR 的一项关键创新在于其“自带语言”(Bring Your Own Language)功能,该功能依托上下文学习(in-context learning)机制实现。受大型语言模型技术启发,用户仅需提供少量配对的语音与文本样本,系统即可直接从中学习,无需重新训练或依赖高算力资源,就能添加新的语言。 Meta 指出,理论上该方法可将 Omnilingual ASR 的语言支持能力扩展至 5400 余种,远超当前行业标准。尽管对极低资源语言的识别质量尚不及完全训练的水平,但该技术已首次为众多此前完全缺乏语音识别能力的语言社区提供了切实可行的解决方案。 Meta 以 Apache 2.0 开源许可协议发布 Omnilingual ASR 全部模型,允许研究人员与开发者自由使用、修改及商用;配套数据集则采用 CC-BY 协议开放。Omnilingual ASR 模型家族涵盖从适用于低功耗设备的轻量级 3 亿参数版本,到追求“顶尖精度”的 70 亿参数版本,满足不同应用场景需求。所有模型均基于 FAIR 自主研发的 PyTorch 框架 fairseq2 构建。
AI把闪存链烧断了
AI需求不断上涨,对于算力的需求仿佛永无止境,再加上稀土全球供应情况,引发了一个严重后果: AI上游产业链没跟上 ,“断”了。 美国闪存龙头企业之一闪迪于前天宣布,大幅调涨NAND(与非闪存)合约价格,涨幅高达50%。闪迪市场占有率约为13%,其涨价消息引发整个存储供应链震动。创见(Transcend)、宜鼎国际(Innodisk)与宇瞻科技(Apacer Technology)等模组厂决定暂停出货并重新评估报价。 其中,创见自11月7日起暂停报价交货,理由为“预期市场行情将继续向好”,言外之意即是“价格还可能进一步上涨”。 模组厂停摆后,最明显的直接后果就是AI服务器的制造生产会受到影响,服务器供应一旦跟不上,本来手里普遍压着订单的甲骨文、微软等AI巨头,无疑会受到当头一击。 但对中国NAND厂商来说,这未必不是一个机会。 闪迪涨价的原因很简单,市场需求量太大了。这家公司2026财年第一季度财报显示,闪迪营收同比增长22.6%,并预计下一季度收入将继续大幅超越市场预期。闪迪发言人更是在电话会议中透露,预计在2026年,数据中心将首次超越移动端成为NAND的最大需求来源。 这已经不是闪迪第一次涨价了,他们已在同年4月和9月分别执行了10%的全系产品普涨。而且涨价的也不只是闪迪一家,美光在闪迪9月涨价10%后,立马跟进涨了20%到30%左右。哪怕是三星这样产能很足的厂商,也涨了5%到10%。 这些模组厂是NAND原厂的下游厂商,他们从NAND厂那里采购裸芯片,然后将芯片制造成消费者和企业实际使用的存储产品——U盘、移动硬盘、存储卡、消费级/企业级SSD等。 一旦NAND厂商涨价,那么模组厂也得跟着一起涨。只不过闪迪一口猛涨了50%,这才迫使这些模组厂需要重新报价。这也侧面体现出行业目前有多么需要NAND。 据TrendForce预测,2026年AI服务器出货量将同比增长超过20%。单台AI服务器的存储容量远超传统服务器,其NAND用量可达传统服务器的3倍。 那么换句话说,NAND缺货的情况不仅不会好转,缺口反而还会继续扩大。 传统SATA SSD的顺序读取速度约550MB/s、机械硬盘顺序读取速度约150MB/s,但是对于AI服务器来说,显然是不够的。 NAND做的固态硬盘叫做NVMe SSD,单盘顺序读取速度可以达到数千MB/s,配合PCIe 4.0/5.0总线,才能基本满足像是H100那样训练用GPU的需求。这也是为什么市场需要大量的NAND。 全球NAND闪存市场规模超过600亿美元,长期以来由美国、日本、韩国的少数几家厂商主导。几家巨头厂商合计总市场占有率约为90%。中国仅有长江存储这一家企业能在全球范围内排得上号,可截止至2025年第二季度,Counterpoint的数据显示长江存储市占率为9%。 不过对于长江存储来说,这是一个实现反超的绝佳窗口。 在产能方面,长江存储武汉生产基地当前月产能为10万片晶圆,2025年底将提升至15万片/月。根据公司规划,2028年总产能目标为30万片/月,届时全球NAND产能占比有望从当前的9%提升至15%,成为全球第四大NAND供应商。 2025年9月,长江存储三期(武汉)集成电路有限责任公司正式注册成立,注册资本高达207.2亿元,规划月产能10万片,计划于2026年投产。 最重要的是,长江存储还计划在2025年第三季度进军企业级固态硬盘市场。简单直接地瞄准AI服务器应用场景。其官方说法是,企业级SSD的毛利率比消费级产品高出30%至50%。 但进军企业级市场其实也要面对很多地考验。 在技术认证方面,企业级存储产品需要通过Intel、AMD等平台厂商的兼容性认证,以及微软、VMware等软件厂商的系统认证,认证周期通常需要6至12个月。也就是说,每一代NAND产品在完成封装测试后,至少要等半年,才能在市场上推广。 而且长江存储还需要面对一个验证过程,才能让客户企业大规模部署自家的产品。一般来说,这个过程也需要两年时间。 值得庆幸的是,长江存储在技术层面已经达标。根据长江存储PCIe 5.0企业级SSD的公开信息来看,采用自研的Xtacking 4.0架构。拥有3.84TB、7.68TB版本,以及新增的16TB和32TB大容量版本。并且可以支持每天4次全盘写入,对于有AI训练需求的企业来说,存储的耐久性是十分重要的。 不仅如此,这种国产替代的机会很可能会辐射到整个产业链。最具代表性的产业就是封装测试,封装测试是连接芯片设计与最终产品的关键环节。 在该领域,国产替代方案有华天科技、通富微电、长电科技等企业。 2024年10月,华天科技宣布在南京投资100亿元建设第二期先进封装生产基地,该基地目前已投产的项目就能实现年封装40亿颗芯片的产能,2028年建设成第二期后,年封装量可以突破100亿颗。 长电科技本身也是长江存储封测服务的主力供应商,承接了其70%的晶圆级封装订单,其232层3D NAND芯片的BGA封装良率达到了99.2%,且旗下XDFOI高密度多维异构集成技术能适配长江存储企业级SSD的需求。 通富微电则在2024年启动了总投资35.2亿元的先进封装项目,聚焦高性能计算和存储芯片封装。长电科技的XDFOI Chiplet高密度多维异构集成系列工艺已实现稳定量产,可支持存储芯片与逻辑芯片的异构集成封装。 长电科技和华天科技2024年全年营收同比增长均突破20%,而通富微电2024年归母净利润同比增长达到了299%。 在设备和材料领域,国产化进程同样也在加速。北方华创已成长为全球第六大半导体设备厂商,其刻蚀设备、薄膜沉积设备、炉管和清洗设备已广泛应用于长江存储的生产线。中微公司的等离子体刻蚀机成功打破国际垄断,不仅进入长江存储供应链,还被台积电采用于5纳米制程产线。盛美上海的清洗设备、中科飞测的量测设备,也在长江存储的产线上实现规模化应用。 江丰电子的溅射靶材产品已在国内存储厂商批量应用,打破了日美企业在这一关键材料领域的垄断。安集科技的化学机械抛光液覆盖长江存储12英寸3D NAND产线,14纳米以下先进制程抛光液已实现突破。雅克科技成为国内少数具备NAND/DRAM全栈能力的材料商,前驱体产品直接供应长江存储。 需要指出的是,尽管国产设备和材料取得了显著进步,但整体国产化率仍然较低。根据行业数据,中国半导体设备的国产化率约为30%,光刻设备的国产化率仅为0至1%,量测设备为1至10%,涂胶显影设备为5至10%。 尽管2025年12英寸大硅片自给率预计能达到50%左右,但这仅针对主流制程产品,高端大硅片仍依赖进口;光刻胶领域仅部分企业实现28nm DUV光刻胶量产,高端光刻胶国产化率依旧极低;电子特气预计 2025 年国产化率仅25%,市场仍有86%的份额被海外巨头占据,三者整体国产化水平确实处于较低状态。 因此,当NAND市场得到突破后,材料和设备领域可能也会迎来一次较为明显的增长。
李飞飞:下一个十年的 AI,不需要大模型
当 ChatGPT 震惊世界时,我们以为 AI 已经足够聪明。但它依然做不到一件事:准确判断你伸手去够桌边咖啡杯时,手指距离杯沿还有多少厘米。 今天,顶级 AI 学者李飞飞用一篇博客回答了这个问题:真正的智能不只是文字游戏,而是藏在一个我们每天都在使用却从未意识到的能力里: 空间智能。 这是一种比语言更古老的智能,改变人类文明的时刻,从来依靠的都不是语言,而是对空间的感知、想象与推理。 比如古希腊学者通过观察影子计算出地球周长,科学家摆弄金属丝拼出DNA的双螺旋结构,消防员在烟雾中凭直觉判断建筑是否会坍塌。 而现在,AI 即将获得它一直缺失的这种能力。 省流版如下: 1. 当前 AI(特别是大型语言模型 LLM)虽然那改变了我们运用抽象知识的方式,语言能力很强,却缺乏对物理世界的真实经验和理解。它们在机器人、科学发现、沉浸式创造力等领域仍有根本局限。 空间智能是人类智能的基石,甚至先于语言存在。它不仅支撑着我们与物理世界的日常互动(如驾驶、接住钥匙),也是人类想象力、创造力和科学发现(如古希腊测量地球周长、DNA 双螺旋结构的发现)的核心。 它是人类认知赖以构建的「脚手架」。 2. 尽管多模态模型(MLLM)有所进步,但 AI 在空间能力上与人类相差甚远。它们无法准确估计距离、方向,无法在脑中「旋转」物体,也无法预测基本的物理规律。AI 缺乏这种能力,就无法真正与物理现实建立联系。 要实现空间智能,我们需要超越 LLM,构建更具雄心的「世界模型」。这是一种全新的生成式模型,其能力远远超越当今的 LLM。李飞飞与 World Labs 正致力于此。 3. 李飞飞定义了世界模型必须具备的三种能力: 1. 生成性 (Generative):能够生成在感知、几何和物理规律上保持一致性的世界。 2. 多模态性 (Multimodal):天生设计为多模态,能处理和输出多种形式的信息(如图像、视频、深度图、文字、动作)。 3. 交互性 (Interactive):能够根据输入的「动作」,预测或输出世界的「下一个状态」,并最终可能预测「下一步应采取的行动」。 4. 李飞飞认为,构建世界模型远比构建语言模型困难,因为世界的维度远超语言。这需要克服三大挑战: 新的训练任务:需要找到类似 LLM 中「下一个词预测」那样优雅的通用任务函数,但难度更高。 大规模数据:需要能从海量的互联网图像和视频中提取深层空间信息,并辅以合成数据和多模态数据。 新的模型架构:需要超越当前 1D/2D 序列范式,发展出具备 3D 或 4D 感知能力的新架构(比如 World Labs 的 RTFM 模型)。 5. AI 应当增强人类的能力,而非取而代之。AI 应始终尊重人的自主性与尊严。空间智能正是这一愿景的体现,它旨在赋能人类的创造力、关怀能力和科学发现。 6. 空间智能的应用将分阶段展开: 近期(创造力):赋能故事讲述、电影、游戏和建筑设计。World Labs 已推出 Marble 平台,帮助创作者构建 3D 世界。 中期(机器人学):实现「行动中的具身智能」。世界模型将通过模拟训练,使机器人成为人类的协作助手。 长期(科学、医疗与教育):在药物研发、材料科学、辅助诊断、环境感知监护以及沉浸式教育等领域产生变革性影响。 7. 探索空间智能是李飞飞科研生涯的「北极星」。没有空间智能,「真正智能机器」的梦想就无法实现。她呼吁整个 AI 生态系统共同努力,将这项技术用来造福全世界。 附上相关阅读🔗: 刚刚,李飞飞发布世界模型新成果!一张图生成 3D 世界,现在就能玩 李飞飞世界模型大更新! 实时生成 3D 世界,只要一块 GPU 从语言到世界:空间智能是人工智能的下一个前沿 1950 年,当计算机还只是自动化运算和简单逻辑的工具时,Alan Turing 提出了一个至今仍回荡的问题:机器能思考吗?他以非凡的想象力看到了一个大胆的可能——智能也许有一天不是天生的,而是被「创造」出来的。这个洞见后来开启了一场被称为「人工智能(AI)」的不懈科学探索。 在我从事人工智能研究的二十五年里,Turing 的远见依然激励着我。但我们离那个目标还有多远?这个问题并不容易回答。 如今,领先的人工智能技术——例如大型语言模型(LLM)——已经开始改变我们获取和运用抽象知识的方式。 然而,它们依然像在黑暗中打磨文字的匠人:语言优美,却缺乏经验;知识丰富,却未真正立足于现实。空间智能(Spatial Intelligence)将重新定义我们创造和体验现实与虚拟世界的方式——它将彻底变革故事讲述、创造力、机器人学、科学发现等多个领域。这正是人工智能的下一个前沿。 自我进入这一领域以来,对视觉与空间智能的追求一直是我的北极星。 这也是我花费多年时间创建 ImageNet 的原因——这是第一个大规模视觉学习与评测数据集,与神经网络算法以及现代计算(如 GPU 图形处理单元)一起,成为现代人工智能诞生的三大关键支柱之一。过去十年里,我在斯坦福大学的实验室致力于将计算机视觉与机器人学习相结合。 而正因为这一信念,我与联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 于一年多前共同创立了 World Labs——希望第一次真正实现这一愿景。 在这篇文章中,我将解释什么是空间智能、它为何重要,以及我们如何构建能够解锁这种智能的「世界模型」——这种能力将重新塑造创造力、具身智能,以及人类的进步。 空间智能:人类认知的支架 人工智能正处在前所未有的激动人心的时刻。生成式 AI 模型(如大型语言模型,LLM)已经从研究实验室走进日常生活,成为数十亿人用于创造、工作和交流的工具。它们展现出了曾被认为不可能的能力——能够轻松生成连贯的文本、大量的代码、逼真的图像,甚至短视频片段。 如今,我们已无需再问「AI 是否会改变世界」,因为无论从哪个角度来看,它已经在改变世界。 然而,仍有许多目标尚未实现。自主机器人的愿景依旧令人着迷,但仍停留在猜想阶段,距离未来学家所描绘的日常生活场景还有很远。 AI 在疾病治愈、新材料发现、粒子物理等领域中实现研究飞速推进的梦想,也仍然大体未能实现。而能真正理解并赋能人类创造者的 AI——无论是学习分子化学复杂概念的学生、构思空间的建筑师、构建世界的电影制作人,还是追求沉浸式虚拟体验的任何人——仍未到来。 要理解这些能力为何仍难以实现,我们需要回溯空间智能的演化历程,并探究它如何塑造了我们对世界的理解。 视觉长期以来一直是人类智能的基石,但它的力量源于更为根本的机制。在动物能够筑巢、养育后代、使用语言交流或建立文明之前,最初那种感知的能力——哪怕只是捕捉到一束光、一种触感——就悄然点燃了通往智能的进化之路。 这种看似孤立的、从外部世界提取信息的能力,在感知与生存之间搭起了一座桥梁,而这座桥梁随着世代更迭不断加固、扩展。层层叠叠的神经元在这座桥上生长,形成了解读世界、协调有机体与环境互动的神经系统。 因此,许多科学家推测:「感知—行动」这一循环正是智能进化的核心驱动力,也是自然界创造出我们——这种能感知、学习、思考并行动的物种——的根本基础。 空间智能在我们与物理世界的互动中起着至关重要的作用。 每天,我们都在依赖它完成各种看似平凡的动作:停车时通过想象车头与路沿间逐渐缩小的距离来判断位置;接住从房间另一头扔来的钥匙;在人群密集的人行道上穿行而不相撞;或是半睡半醒时不用看就能把咖啡倒进杯子里。 在更极端的情境下,消防员在坍塌的建筑物中穿行,在烟雾弥漫的环境中凭直觉判断结构是否稳定、如何生存,并通过手势、身体语言以及一种难以言传的职业本能进行交流。而孩子们则在学会说话之前的几个月甚至几年里,通过与环境的游戏式互动来认识世界。 所有这一切都发生得自然而然、毫不费力——这正是一种机器尚未掌握的「本能流畅」。 空间智能同样是我们想象力与创造力的基础。讲故事的人在脑海中构建出丰富的世界,并借助各种视觉媒介将其传达给他人——从远古的洞穴壁画,到现代电影,再到沉浸式电子游戏。 无论是孩子们在沙滩上堆砌城堡,还是在电脑上玩《我的世界》(Minecraft),以空间为基础的想象力都是他们在现实或虚拟世界中进行互动体验的核心。 在众多行业中,对物体、场景以及动态交互环境的模拟也成为关键支撑——从工业设计到数字孪生,从机器人训练到各种业务应用,空间智能驱动着无数重要的实践场景。 纵观历史,空间智能在许多奠定文明走向的关键时刻都发挥了核心作用。 在古希腊,Eratosthenes 通过观察「影子」悟出了几何原理——他在亚历山大测量到阳光与地面形成的 7 度角,并在同一时间注意到赛恩城没有影子,由此计算出了地球的周长。 Hargreave 发明的「珍妮纺纱机」(Spinning Jenny)则通过一个空间布局的巧思彻底革新了纺织业:他将多个纺锤并排安装在同一架子上,让一个工人能够同时纺出多股纱线,从而将生产效率提高了八倍。 Watson 和 Crick 则通过亲手搭建三维分子模型,摆弄金属板与金属丝,最终拼出了 DNA 的空间结构,让碱基对的排列方式恰如其分地契合在一起。 在这些案例中,空间智能都是推动人类文明前进的关键力量——科学家和发明家必须操控物体、想象结构,并在物理空间中进行推理,而这些过程是文字所无法完全表达的。 空间智能,是人类认知赖以构建的「脚手架」。无论是被动观察还是主动创造,它都在发挥作用。 它驱动着我们的推理与规划,即便面对最抽象的问题也是如此。它同样决定了我们与世界互动的方式——无论是语言交流还是身体行动,无论是与他人还是与环境本身的互动。 虽然我们大多数人并不会每天都像 Eratosthenes 那样揭示自然的奥秘,但我们依然以相同的方式思考——通过感官理解复杂的世界,并凭直觉掌握其中的物理与空间规律。 遗憾的是,如今的人工智能还无法像这样思考。 过去几年中,人工智能确实取得了巨大进步。多模态大型语言模型(Multimodal LLMs,简称 MLLM)在海量多媒体数据(除了文本外还包括图像、音频、视频等)的训练下,初步具备了某种「空间感知」能力。 如今的 AI 已能分析图片、回答与图片相关的问题,并生成极其逼真的图像与短视频。同时,得益于传感器与触觉技术的突破,最先进的机器人也开始能够在高度受限的环境中操控物体和工具。 但坦率地说,AI 的空间能力仍远未达到人类水平,这种差距一眼便能看出。 当前最先进的 MLLM 模型在估计距离、方向、大小等方面的表现往往不比随机猜测好多少——它们也无法像人类那样在脑海中「旋转」物体,从不同角度重新想象其形状。它们不能穿越迷宫、识别捷径,也无法预测最基本的物理规律。AI 生成的视频虽然令人惊叹,但往往在几秒后就失去连贯性。 目前的尖端 AI 虽然在阅读、写作、研究和数据模式识别等任务中表现出色,但在理解或与物理世界交互时,却存在根本性的局限。 我们对世界的感知是整体性的——不仅看到「事物本身」,还理解它们在空间上的关系、意义以及重要性。而通过想象、推理、创造和互动来理解世界——而不仅仅是用语言去描述——这正是空间智能的力量所在。 缺乏这种能力,AI 就无法真正与它想要理解的物理现实建立联系。它无法安全高效地驾驶汽车,无法在家庭或医院中灵活地引导机器人,也难以为学习与娱乐提供全新的沉浸式互动体验,更无法大幅加速材料科学或医学领域的发现。 哲学家维特根斯坦(Wittgenstein)曾写道:「我的语言的界限意味着我的世界的界限。」 我并非哲学家,但至少我知道——对于人工智能而言,世界不止于「语言」。空间智能代表着超越语言的前沿——它是一种将想象、感知与行动连接起来的能力,使机器真正能够拓展人类的生活潜能,从医疗到创造力,从科学发现到日常助理,都因此焕发新可能。 人工智能的下一个十年:构建真正具备空间智能的机器 那么,我们该如何构建具有空间智能的 AI?怎样才能让模型既能像 Eratosthenes 那样进行空间推理,又能像工业设计师那样精确创造,像讲故事的人那样富有想象力,并像救援人员那样在复杂环境中灵活行动? 要实现这一点,我们需要的不只是大型语言模型(LLM),而是一种更具雄心的体系——世界模型(World Models)。 这是一类全新的生成式模型,能够在语义、物理、几何与动态复杂的世界中——无论虚拟还是现实——进行理解、推理、生成与交互,其能力远远超越当今的 LLM。 这一研究领域尚处于萌芽阶段,目前的探索方法从抽象推理模型到视频生成系统皆有涉猎。World Labs 正是在这种信念下于 2024 年初创立的:我们认为,基础方法尚未确立,而这正是未来十年人工智能发展的决定性挑战。 在这个新兴领域中,最重要的是建立一套指导发展的核心原则。对于空间智能而言,我将「世界模型」定义为具备以下三种关键能力的系统: 1. 生成性(Generative):世界模型能够生成具备感知、几何与物理一致性的世界 要实现空间理解与推理,世界模型必须具备生成自身「模拟世界」的能力。它们应能根据语义或感知层面的指令,生成无穷多样的虚拟世界——这些世界无论在几何结构、物理规律还是动态变化上,都必须保持一致性,无论它们代表的是现实空间还是虚拟空间。 研究界正在积极探索这些世界应当以内在几何结构的隐式还是显式形式来表示。此外,除了具备强大的潜在表示能力,我认为一个通用的世界模型还必须能够输出清晰可观测的世界状态,以适应多种应用场景。尤其重要的是,模型对「当下世界」的理解必须与「过去世界」的状态相连贯——它要能理解世界从过去如何演变到现在。 2. 多模态性(Multimodal):世界模型从设计上就是多模态的 就像人类与动物一样,世界模型也应能处理多种形式的输入——在生成式 AI 领域,这些输入被称为「提示(prompt)」。面对不完整的信息(如图像、视频、深度图、文字指令、手势或动作),世界模型应能预测或生成尽可能完整的世界状态。 这要求它在处理视觉输入时具备接近真实视觉的精度,同时在理解语义指令时同样灵活。这样,智能体(agent)与人类都能通过多样化的输入与模型进行交流,并获得同样多样化的输出反馈。 3. 交互性(Interactive):世界模型能够根据输入的动作输出下一步的世界状态 最后,当「动作」或「目标」被作为输入提示的一部分时,世界模型的输出必须包含世界的下一状态,这种状态可以是隐式的,也可以是显式的。 当模型接收到一个动作(无论是否包含目标状态)作为输入时,它应能输出与世界先前状态、目标状态(若有)、语义含义、物理规律及动态行为一致的结果。 随着具备空间智能的世界模型在推理与生成能力上不断增强,可以想象——未来面对某个给定目标时,世界模型不仅能够预测世界的下一状态,还能基于这一新状态预测「下一步应采取的行动」。 这一挑战的规模,远超人工智能以往所面对的一切。 语言,是人类认知中一种纯粹的生成现象;而「世界」,却遵循着复杂得多的规律。以地球为例,引力决定了运动规律,原子结构影响了光线的色彩与亮度,无数的物理定律限制着每一次交互。 即便是最天马行空的虚构世界,也依然由服从这些物理法则与动态行为的空间物体和智能体所构成。要让语义、几何、动态与物理这几种层面在同一模型中保持一致,需要全新的方法与思路。 世界的表示维度远比语言这种「一维、序列信号」复杂得多。要让世界模型具备人类所拥有的那种通用能力,我们必须跨越多个艰巨的技术障碍。而在 World Labs,我们的研究团队正致力于为实现这一目标奠定基础性突破。 以下是我们当前正在研究的一些课题示例: · 一种新的通用训练任务函数 为世界模型定义一个像大型语言模型(LLM)中「下一个词预测」那样简单又优雅的通用任务函数,一直是该领域的核心目标。然而,由于世界模型的输入与输出空间更加复杂,这一函数的设计难度要高得多。 尽管仍有许多未知需要探索,但这种目标函数及其对应的表示方式,必须能够体现几何与物理规律,忠实地反映世界模型作为「连接想象与现实的有根表示」的本质。 · 大规模训练数据 训练世界模型所需的数据复杂程度远超文本数据。好消息是——庞大的数据源已经存在。互联网级的图像与视频资源,为训练提供了丰富、可获取的素材。真正的挑战在于:如何开发算法,从这些基于二维图像或视频帧(即 RGB 信号)的数据中提取更深层次的空间信息。 过去十年的研究表明,语言模型的性能提升遵循「数据量与模型规模的扩展规律」;而对于世界模型来说,关键突破在于构建能够在相似规模下充分利用视觉数据的模型架构。 此外,我们也不应低估高质量合成数据以及深度图、触觉等额外模态的价值。它们在训练过程的关键阶段能对互联网级数据起到补充作用。要让这一过程更高效,还依赖于更先进的传感系统、更稳健的信号提取算法,以及更强大的神经仿真技术。 · 新的模型架构与表征学习 世界模型的研究必然会推动模型架构与学习算法的革新,特别是超越当前多模态语言模型(MLLM)和视频扩散模型的范式。现有方法通常将数据「分词化」为一维或二维序列,这让一些简单的空间任务变得异常困难——例如在短视频中数清不同的椅子,或回忆一小时前房间的布局。 新的架构可能带来改进,比如在分词、上下文与记忆机制中引入三维或四维感知能力。举例来说,World Labs 最近开发的实时生成帧模型(RTFM)就是这种转变的体现。该模型利用「以空间为基础的帧」作为空间记忆单元,实现了高效的实时生成,同时在生成的世界中保持连续性与稳定性。 显然,我们距离通过「世界建模」彻底释放空间智能的潜能,还有许多艰巨的挑战要克服。 这项研究不仅仅是理论探索——它是推动新一代创造性与生产力工具的核心引擎。而在 World Labs,我们已经取得了一些令人振奋的进展。 最近,我们向少量用户展示了 Marble ——首个能够通过多模态输入进行提示(prompt),并生成、维持一致性三维环境的世界模型。它让用户与创作者能够在这些虚拟空间中探索、互动,并将其纳入创作流程中继续扩展。我们正在努力,让 Marble 尽快向公众开放。 Marble 只是我们迈向真正具备空间智能的世界模型的第一步。 随着研究的加速推进,科研人员、工程师、用户和商业领袖都开始认识到这项技术的非凡潜力。下一代世界模型将让机器实现一个全新的空间智能层次——这将解锁当今 AI 系统中仍大多缺失的关键能力。 用「世界模型」构建更美好的人类世界 推动 AI 发展的动机至关重要。 作为一名参与开启现代人工智能时代的科学家,我的初衷始终明确:AI 应当增强人类的能力,而非取而代之。 多年来,我一直致力于让 AI 的发展、应用与治理更好地契合人类需求。如今,关于科技乌托邦与末日论的极端叙事层出不穷,但我始终保持务实的信念:AI 由人创造,为人服务,并由人类治理。 它必须始终尊重人的自主性与尊严。AI 的真正魔力在于延展我们的能力——让我们变得更有创造力、更具连接性、更高效,也更充实。 空间智能正体现了这一愿景: 它是一种能赋能人类创作者、照护者、科学家与梦想家的人工智能,帮助我们实现曾经无法实现的目标。正是这种信念,支撑着我将「空间智能」视为人工智能下一个伟大前沿领域的决心。 空间智能的应用将分阶段展开。 如今,创意类工具 已经开始出现——World Labs 的 Marble 已将这些能力交到创作者与故事讲述者手中。 机器人学是中期目标,我们正在不断完善「感知—行动」循环,使机器能够在物理世界中灵活操作。 而最具变革性的科学应用可能需要更长时间,但它们的影响将深远,足以促进人类福祉的全面提升。 在这些不同的发展阶段中,有若干关键领域尤为突出——它们蕴含着重新定义人类能力的巨大潜力。 要实现这一目标,必然需要集体的努力——远非一个团队或一家公司所能独立完成。 这将需要整个 AI 生态系统的共同参与:研究者、创新者、企业家、公司乃至政策制定者,都应携手朝着共同的愿景前进。 而这个愿景,值得我们为之奋斗。 未来,将由此展开。 创造力:为讲故事与沉浸式体验赋予超级能力 「创造力就是智慧在玩耍。」这是我最喜欢的一句名言,出自我个人的英雄——爱因斯坦。 在人类拥有文字之前,就已经在讲故事了——在洞穴的墙壁上作画、通过口口相传流传下来,并在共同的叙事中建立起整个文化。故事帮助我们理解世界,跨越时间与空间建立联系,探索「人类」意味着什么。更重要的是,它帮助我们在生命与爱中找到意义。 如今,空间智能有潜力彻底改变我们创作和体验故事的方式,不仅保留其根本的重要性,还将其影响力延伸至娱乐、教育、设计、建筑等多个领域。 World Labs 的 Marble 平台为电影制作人、游戏设计师、建筑师以及各类讲故事的人,提供了前所未有的空间能力和编辑控制权,让他们能够快速创建并反复迭代可自由探索的 3D 世界,而无需传统 3D 设计软件所需的大量投入。 创造本身依旧是充满人性和活力的行为,AI 工具只是放大并加速了创作者的潜能。这包括: 多维度叙事体验:电影人和游戏设计师正在利用 Marble 构建完整的虚拟世界,不再受限于预算或地理位置。他们能探索各种场景和视角,这在传统的制作流程中几乎是无法实现的。随着不同媒介和娱乐形式的界限逐渐模糊,我们正迈向全新的交互式体验形式,它融合了艺术、模拟和游戏——一个个个性化世界,不再仅属于大型工作室,而是任何人都可以创造和参与其中。随着更快速的方法将创意和分镜转化为完整体验,叙事将不再局限于某一种媒介,创作者可以在各种平台和界面上建立拥有共同线索的故事世界。 通过设计实现空间叙事:几乎所有制造出来的物品或建造的空间,在实际成形之前都必须先进行虚拟 3D 设计。这个过程通常需要大量时间和金钱,且高度反复。而借助具备空间智能的模型,建筑师可以在投入数月设计前快速可视化结构,甚至可以「走进」还不存在的空间——讲述我们未来如何生活、工作和聚会的故事。工业设计师和时尚设计师也可以立即将想象转化为形体,探索物体如何与人体和空间互动。 全新的沉浸式与互动体验:体验本身,是我们人类赋予事物意义的最深刻方式之一。在人类历史的绝大多数时间里,我们只拥有一个三维世界:我们共同生活的现实世界。直到近几十年,通过电子游戏和早期的虚拟现实(VR),我们才开始窥见由人类自己创造的另一个世界。而如今,空间智能结合虚拟现实(VR)、扩展现实(XR)头显以及沉浸式显示设备,使这些体验达到了前所未有的高度。我们正走向一个未来——进入完整构建的多维世界将像翻开一本书一样自然。空间智能让世界构建能力不仅属于拥有专业制作团队的工作室,也属于有故事、有想法的每一个人,包括独立创作者、教育者以及任何想要表达愿景的人。 机器人技术:行动中的具身智能 从昆虫到人类,动物依靠空间智能来理解、导航并与周围世界互动。机器人也不例外。具备空间感知能力的机器一直是机器人领域的梦想,我在斯坦福的研究实验室与学生和合作者们的工作,也正是围绕这一目标展开。 这也是我对 World Labs 所构建的模型充满期待的原因之一——它们有望让这一梦想成真。 通过世界模型扩展机器人学习能力:机器人学习的进步依赖于可扩展的高质量训练数据。考虑到机器人必须学会理解、推理、规划和互动的庞大状态空间,许多研究者认为要真正实现通用型机器人,必须结合互联网数据、合成仿真和现实世界中的人类示范数据。然而,与语言模型不同,机器人研究目前缺乏足够的训练数据。而世界模型将在其中发挥决定性作用。随着其感知逼真度和计算效率的提升,世界模型的输出可以迅速缩小仿真与现实之间的差距。这将有助于在无数种状态、互动和环境的模拟中训练机器人。 成为伙伴与协作助手:机器人作为人类的协作伙伴,无论是在实验室中辅助科学家,还是在家中帮助独居老人,都能在劳动力紧缺和生产效率亟需提升的背景下,承担重要角色。但要实现这一点,机器人必须具备空间智能:能够感知、推理、规划和行动,而且——这一点最关键——要能与人类的目标和行为保持情感上的一致性。例如,实验室里的机器人可以操作仪器,让科学家专注于需要精细操作或逻辑推理的任务;而家用机器人可以协助老年人做饭,同时不剥夺他们的乐趣与自主性。真正具备空间智能的世界模型,能够预测环境的下一步状态,甚至预测符合人类预期的动作,对于实现这一目标至关重要。 拓展具身形式的多样性:类人机器人确实适用于我们为自己打造的世界,但技术创新的全部潜力,将体现在更丰富多样的设计形式中:比如能够输送药物的纳米机器人、可在狭小空间中活动的软体机器人,以及为深海或外太空环境设计的专用机器。不论它们的外形如何,未来的空间智能模型都必须整合机器人所处的环境,以及其自身的感知与运动能力。但开发这些机器人面临的核心挑战之一,是缺乏适用于各种具身形式的训练数据。世界模型将在模拟数据生成、训练环境构建,以及任务基准测试等方面,发挥关键作用。 更长远的视野:科学、医疗与教育 除了在创意和机器人领域的应用,空间智能还将在其他领域产生深远影响,特别是在那些 AI 可以增强人类能力、挽救生命、加速发现的地方。我在下面重点介绍三个具有变革潜力的领域,当然,空间智能的应用远不止于此,还将在更多行业中大展拳脚。 在科学研究中,具备空间智能的系统可以模拟实验、并行测试假设,并探索人类难以抵达的环境——从深海到遥远的行星。这项技术将彻底改变气候科学、材料研究等领域的计算建模方式。通过将多维仿真与真实世界的数据采集相结合,这些工具可以降低计算门槛,扩展每一个实验室所能观察和理解的范围。 在医疗健康领域,空间智能将重塑从实验室到病床的各个环节。在斯坦福,我的学生和合作伙伴们多年来一直与医院、养老机构以及家庭中的病患合作。这些经验让我深信,空间智能在医疗中的变革潜力巨大。 AI 可以通过建模分子之间的多维交互,加速药物研发;通过辅助放射科医生识别医学影像中的模式,提升诊断精度;还可以实现环境感知型的监护系统,为病患和护理人员提供支持,同时不替代医疗过程中至关重要的人际联系。更不用说机器人在协助医护人员和患者方面,在多种场景中也大有可为。 在教育方面,空间智能能够实现沉浸式学习,让抽象或复杂的概念变得具体可感,并创造出与人类大脑和身体学习方式高度契合的、可反复练习的学习体验。在 AI 时代,无论是对学龄儿童还是成年人成年人来说,更快、更有效的学习和技能再培训都尤为关键。学生可以「进入」细胞机制,或亲身「走过」历史事件;教师可以借助交互式环境实现个性化教学;而从外科医生到工程师等专业人士,也能在逼真的模拟中安全地练习复杂技能。 虽然这些领域的应用前景几乎没有边界,但我们的目标始终如一:用 AI 增强人类的专业能力、加速人类的发现、放大人类的关怀——而不是取代那些构成人类本质的判断力、创造力与同理心。 结语 过去十年,人工智能已成为全球现象,并在科技、经济乃至地缘政治领域引发重大转折。但作为一名研究者、教育者、如今也是一位创业者,最令我振奋的,仍然是图灵在 75 年前提出的那个问题背后的精神。我依然怀有与他相同的那份好奇与敬畏之心。正是这种探索空间智能的挑战,成为我每天的动力源泉。 在人类历史上,我们第一次有机会打造出与物理世界高度协调的机器,使它们成为我们应对重大挑战时真正的合作伙伴。 无论是在实验室中加速对疾病的理解、彻底改变我们讲述故事的方式,还是在我们因疾病、受伤或衰老而处于最脆弱状态时给予支持,我们正站在这样一项技术的门槛前,它将提升那些我们最在乎的生活体验。这是一种更深刻、更丰富、更有力量的生活愿景。 在大约五亿年前,大自然首次赋予远古动物空间智能的萌芽。而今天,我们有幸成为这一代技术人中的一员,可能很快就能让机器也拥有这种能力——并有机会将这项能力用来造福全世界人民。没有空间智能,我们对「真正智能机器」的梦想就无法真正实现。 这个探索旅程,就是我心中的北极星。欢迎你与我一同追寻。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。