EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
开发过任务管理器的微软前员工吐槽 Windows“糟糕透了”,并给出修复方案
IT之家 11 月 11 日消息,戴夫・普拉默(Dave Plummer)是微软前资深工程师,在业界颇具声望,曾主导开发多项 Windows 核心组件,包括任务管理器(Task Manager)、Windows NT 平台上的《太空弹珠台》(Space Cadet Pinball)移植版本、ZIP 文件原生支持功能等。如今,这位微软前高管却公开涉足颇具争议的议题 —— 直言不讳地剖析为何 Windows“糟糕透了(sucks)”。 IT之家注意到,在其 YouTube 频道最新发布的视频《Windows“糟糕透了”:一位退休微软 Windows 工程师的修复之道》中,普拉默指出,微软为简化操作系统、提升新手用户体验所采取的诸多措施,反而激怒了一批更活跃的高级用户 —— 他们反感系统中日益增多的限制性设计(guardrails)。为解决这一矛盾,他提出一项关键建议:在系统中引入一个“极简模式”切换开关(toggle),启用后可显著降低系统的“冗余交互”(chattiness),具体表现为: 停止主动推送应用推荐; 除非明确指令,否则本地搜索不再自动触发网络查询; 整合系统设置入口,避免用户在不同界面间“寻宝式”查找配置项; 将高级开发与管理工具(如 Windows 子系统 for Linux(WSL)、curl、Windows Terminal 及 WinGet 包管理器)深度集成至系统,并确保其开箱即用、触手可及。 此外,普拉默提到,“遥测”(telemetry)一词如今已近乎“敏感词”,但他强调,彻底废除遥测并非良策;更优解是赋予用户充分的透明度与控制权 —— 例如引入“隐私账本”(privacy ledger)机制:以清晰易懂的格式记录所有数据收集行为,并允许用户自由禁用特定类型的数据上传。 他还主张,在 Windows 初始设置阶段应明确向用户呈现本地账户与微软账户的对比选项,清晰说明二者各自的优劣势,将选择权交还给足够理性的终端用户。 关于系统更新,普拉默特别强调:更新安装应严格限定在用户非活跃时段进行,并配套提供“一键回滚”功能,以避免在工作高峰期因更新失败导致生产中断。 尤为值得注意的是,普拉默尖锐指出:当前 Windows 正日益“沦为”微软其他产品的推销渠道 —— 系统频繁弹出各类产品与服务的升级或订阅建议。他认为,前述“极简模式”开关同样可解决这一问题:全面禁用所有形式的推广提示。但他也坦言,这一方案恐难被现任微软高管层采纳 —— 毕竟,他们当前的核心 KPI 之一,正是提升用户对推荐内容的点击转化率。普拉默直言,这正是大量用户对 Windows 深感厌恶、斥其“糟透了”的根本原因:用户感觉自己花钱购买了产品,却被迫置身于一个持续推销的销售平台之中。 整段视频内容引人深思,尤其考虑到发声者本人深度参与过 Windows 底层开发,对系统设计逻辑与历史沿革了如指掌。除上述要点外,普拉默还探讨了其他痛点,例如“设置”应用(Settings)与传统“控制面板”(Control Panel)之间长期存在的功能割裂问题。
“AI热潮”导致美国多地电费上涨,参议员指责白宫“办事不力”
IT之家 11 月 11 日消息,据美国 CNBC 报道,当地时间周一,多名民主党参议员指责白宫推动 AI 数据中心快速审批以及反对可再生能源政策,导致美国部分地区电价上涨。 康涅狄格州参议员理查德・布卢门撒尔、佛蒙特州参议员伯尼・桑德斯等人致信白宫和商务部,要求说明政府采取了哪些措施来保护消费者免受大型数据中心的冲击。 民众对电价上涨的压力感知越来越明显。参议员批评白宫与 Meta、Alphabet、Oracle 和 OpenAI 等科技公司的紧密关系,以及政府对这些公司数据中心扩张计划的支持。 参议员在信中写道,政府未能阻止这些新数据中心因新增商业用电需求,从而推高电价,并指责白宫反对太阳能和风能发展,加剧了问题。IT之家从报道中获悉,白宫在声明中将电价上涨归咎于此前拜登政府及其可再生能源政策。 科技行业 AI 计划快速扩张。例如今年 9 月,OpenAI 与英伟达在 9 月签署协议,建设总容量达 10 吉瓦的数据中心,用于训练和运行 AI 应用,总量相当于 2024 年纽约市夏季用电峰值。 这些扩张计划引发对电力供应是否充足以及新发电成本由谁承担的质疑。目前,太阳能和储能是能够最快投入使用以满足需求的可再生能源。 能源信息署数据显示,截至 2025 年 8 月,美国零售电价同比 2024 年同期平均上涨约 6%,但各地区价格差异较大。
“AI吞电巨兽”推动核电热潮!美能源部长表态全力支持:将获最多贷款
美国能源部部长克里斯·赖特(Chris Wright)周一表示,随着特朗普政府推动尽快开工建设新的反应堆,核能项目将从能源部贷款办公室获得大部分资金。 当天,赖特在华盛顿由美国核学会主办的一次会议上说,“我们在贷款项目办公室有很大的贷款权限。到目前为止,这些资金的最大用途将是用于核电站——建造第一批核电站。” 核能的复兴很大程度上归功于电力需求的飙升,包括大型科技公司在全国各地建设的数百个人工智能(AI)数据中心以及制造业的回流。国际评级机构DBRS晨星预计,2025年至2030年电力基础设施投资将达到1.4万亿美元,是前10年投资额的两倍。 今年5月,美国总统特朗普签署了一系列有关核能的行政命令,涉及对美国核管理委员会进行全面改革、修改监管流程以加快核反应堆测试等,以期在未来25年内将目前的核能发电量提高三倍。 与此同时,包括Alphabet、亚马逊、Meta和微软在内的科技巨头正在投资数十亿美元,重启旧核电站,升级现有核电站,并部署新的反应堆技术,以满足人工智能数据中心的电力需求。 还值得注意的是,美国政府此前已与西屋电气(由加拿大的Cameco与Brookfield Asset Management持有)签署合作协议,旨在建设价值至少800亿美元的核反应堆项目,也曾一度引爆美股核电概念股行情。 据悉,西屋电气设计了一种名为AP1000的现代反应堆,可以为超过75万户家庭供电。该公司首席执行官Dan Sumner 在7月表示,西屋电气将响应特朗普的呼吁,建造采用AP1000设计的大型新电厂。 Cameco首席运营官Grant Isaac上周表示,美国政府有很多选择可以帮助西屋反应堆获得融资,包括能源部的贷款办公室。 赖特表示,他预计人工智能的电力需求将吸引数十亿美元的股权资本,用于给“信誉良好的供应商”建设新的核电能力。他说,能源部可以通过贷款办公室提供的低成本债务融资,以高达四比一的比例匹配私人投资。 “当我三年零三个月后卸任时,我希望看到数十座核电站正在建设中。”他说。 总而言之,各国政府、企业和公众越来越一致地认为,现在是核能复兴的合适时机。即使雄心勃勃的建设可能需要十年或更长时间,耗资数千亿美元,但最终也将惠及传统核能公司和初创核能公司、痴迷于人工智能的科技行业以及押注其成功的投资者。
全球首例AI卫星姿态控制在轨验证完成,确认深空自主控制可行性
IT之家 11 月 11 日消息,德国维尔茨堡大学(JMU)11 月 7 日宣布,该校研究团队在轨完成了全球首次由 AI 自主控制的卫星姿态调整实验,标志着航天系统自主化的重要里程碑。 此次测试由该校“学习型姿态控制在轨验证项目”(LeLaR)团队执行,实验平台为一颗名为 InnoCube 的 3U 级纳米卫星。 2025 年 10 月 30 日欧洲中部时间上午 11 时 40 分至 11 时 49 分之间,AI 控制器成功地利用反作用飞轮将卫星从初始姿态调整至预设目标姿态,整个过程完全由人工智能在轨自主完成。此后在多次测试中,AI 也均能稳定地控制卫星指向目标方向。 项目与技术背景 LeLaR 项目全称为“学习型姿态控制在轨演示”(In-Orbit Demonstrator for Learning Attitude Control),目标是研发新一代自主卫星姿态控制系统。姿态控制器用于稳定卫星姿态、防止其在轨翻滚,并确保其相机、传感器或天线对准指定目标。 不同于传统依赖固定算法的控制方式,JMU 团队采用了深度强化学习(Deep Reinforcement Learning,简称 DRL)方法,这是一种通过神经网络在模拟环境中自主学习最优控制策略的 AI 技术。 相比传统方法,DRL 在开发效率和适应性方面具有显著优势,可大幅减少 AI 调试时间,并能根据实际环境的变化自动调整控制策略,从而避免冗长的重新校准过程。 实验突破与意义 研究人员先在地面高保真模拟环境中对 AI 控制器进行训练,随后将其上传至卫星在轨验证。项目中的一大技术挑战是解决“仿真到现实差距”—— 确保在模拟中训练的控制算法能够在真实太空环境中有效运行。 项目负责人基里尔・杰布科博士(Dr. Kirill Djebko)表示:“我们实现了全球首次基于深度强化学习的卫星姿态控制器在轨成功运行的实证。” 团队成员汤姆・鲍曼(Tom Baumann)补充道:“这项成功标志着未来卫星控制系统迈出了关键一步,证明人工智能不仅能在模拟中表现良好,也能在实际太空环境中安全执行自主机动。” 推动太空任务自主化 该项目的成功展示了人工智能在航天安全关键任务中的可靠性。研究团队认为,这将有助于提升航空航天领域对 AI 方法的接受度,并为未来的自主太空任务奠定信任基础。 团队成员弗兰克・普佩教授(Professor Frank Puppe)指出:“这一成果将显著提高 AI 技术在航空航天研究中的认可度。” AI 控制方法在深空探测任务中具有潜在应用价值,尤其是在通信延迟或无法人工干预的环境中,自主学习型控制系统可能成为航天器生存和任务执行的关键。 未来展望 LeLaR 项目研究员埃里克・迪尔格(Erik Dilger)表示,团队计划将该技术拓展至更多在轨场景。此次实验所用的 InnoCube 卫星由维尔茨堡大学与柏林工业大学(TU Berlin)联合开发,旨在为创新航天技术提供在轨测试平台。IT之家注意到,该卫星还配备了名为 SKITH(Skip The Harness)的无线卫星总线系统,用无线数据传输取代传统布线,以减少质量并降低潜在故障风险。 研究团队认为,这一成果为未来智能化、自适应、自学习的卫星控制系统奠定了基础。项目负责人塞尔吉奥・蒙特内格罗教授(Professor Sergio Montenegro)总结道:“这是一大步,标志着我们正在进入卫星控制系统的新阶段 —— 智能、灵活且具备自学习能力。”
打破全球语言壁垒:Meta推出支持1600种语言的语音识别系统并开源
IT之家 11 月 11 日消息,Meta 基础人工智能研究(FAIR)团队推出了“全语种自动语音识别系统”(Omnilingual ASR),该系统可支持 1600 多种语言的语音转写,大幅拓展了当前语音识别技术的语言覆盖范围。 此前,大多数语音识别工具都专注于几百种资源丰富的语言,这些语言有大量的转录音频。而全球现存 7000 余种语言中,绝大多数因缺乏训练数据而几乎无法获得人工智能支持。Omnilingual ASR 的推出旨在弥合这一鸿沟。 据 Meta 介绍,在其支持的 1600 种语言中,有 500 种系首次被任何 AI 系统所覆盖。FAIR 团队将该系统视为迈向“通用语音转写系统”的重要一步,有望助力打破全球语言壁垒,促进跨语言沟通与信息可及性。 据IT之家了解,系统识别精度与训练数据量密切相关。根据 Meta 公布的数据,Omnilingual ASR 在测试的 1600 种语言中,对其中 78% 的语言实现了低于 10% 的字符错误率(CER);对于至少拥有 10 小时训练音频的语言,达此精度标准的比例提升至 95%;即便对于音频时长不足 10 小时的“低资源语言”,仍有 36% 实现了低于 10% CER 的表现。 为推动后续研究与实际应用落地,Meta 同步发布了“全语种 ASR 语料库”(Omnilingual ASR Corpus)—— 一个包含 350 种代表性不足语言的、大规模转录语音数据集。该语料库采用知识共享署名许可协议(CC-BY)开放获取,旨在支持开发者与研究人员针对特定本地语言需求,构建或适配定制化的语音识别模型。 Omnilingual ASR 的一项关键创新在于其“自带语言”(Bring Your Own Language)功能,该功能依托上下文学习(in-context learning)机制实现。受大型语言模型技术启发,用户仅需提供少量配对的语音与文本样本,系统即可直接从中学习,无需重新训练或依赖高算力资源,就能添加新的语言。 Meta 指出,理论上该方法可将 Omnilingual ASR 的语言支持能力扩展至 5400 余种,远超当前行业标准。尽管对极低资源语言的识别质量尚不及完全训练的水平,但该技术已首次为众多此前完全缺乏语音识别能力的语言社区提供了切实可行的解决方案。 Meta 以 Apache 2.0 开源许可协议发布 Omnilingual ASR 全部模型,允许研究人员与开发者自由使用、修改及商用;配套数据集则采用 CC-BY 协议开放。Omnilingual ASR 模型家族涵盖从适用于低功耗设备的轻量级 3 亿参数版本,到追求“顶尖精度”的 70 亿参数版本,满足不同应用场景需求。所有模型均基于 FAIR 自主研发的 PyTorch 框架 fairseq2 构建。
AI把闪存链烧断了
AI需求不断上涨,对于算力的需求仿佛永无止境,再加上稀土全球供应情况,引发了一个严重后果: AI上游产业链没跟上 ,“断”了。 美国闪存龙头企业之一闪迪于前天宣布,大幅调涨NAND(与非闪存)合约价格,涨幅高达50%。闪迪市场占有率约为13%,其涨价消息引发整个存储供应链震动。创见(Transcend)、宜鼎国际(Innodisk)与宇瞻科技(Apacer Technology)等模组厂决定暂停出货并重新评估报价。 其中,创见自11月7日起暂停报价交货,理由为“预期市场行情将继续向好”,言外之意即是“价格还可能进一步上涨”。 模组厂停摆后,最明显的直接后果就是AI服务器的制造生产会受到影响,服务器供应一旦跟不上,本来手里普遍压着订单的甲骨文、微软等AI巨头,无疑会受到当头一击。 但对中国NAND厂商来说,这未必不是一个机会。 闪迪涨价的原因很简单,市场需求量太大了。这家公司2026财年第一季度财报显示,闪迪营收同比增长22.6%,并预计下一季度收入将继续大幅超越市场预期。闪迪发言人更是在电话会议中透露,预计在2026年,数据中心将首次超越移动端成为NAND的最大需求来源。 这已经不是闪迪第一次涨价了,他们已在同年4月和9月分别执行了10%的全系产品普涨。而且涨价的也不只是闪迪一家,美光在闪迪9月涨价10%后,立马跟进涨了20%到30%左右。哪怕是三星这样产能很足的厂商,也涨了5%到10%。 这些模组厂是NAND原厂的下游厂商,他们从NAND厂那里采购裸芯片,然后将芯片制造成消费者和企业实际使用的存储产品——U盘、移动硬盘、存储卡、消费级/企业级SSD等。 一旦NAND厂商涨价,那么模组厂也得跟着一起涨。只不过闪迪一口猛涨了50%,这才迫使这些模组厂需要重新报价。这也侧面体现出行业目前有多么需要NAND。 据TrendForce预测,2026年AI服务器出货量将同比增长超过20%。单台AI服务器的存储容量远超传统服务器,其NAND用量可达传统服务器的3倍。 那么换句话说,NAND缺货的情况不仅不会好转,缺口反而还会继续扩大。 传统SATA SSD的顺序读取速度约550MB/s、机械硬盘顺序读取速度约150MB/s,但是对于AI服务器来说,显然是不够的。 NAND做的固态硬盘叫做NVMe SSD,单盘顺序读取速度可以达到数千MB/s,配合PCIe 4.0/5.0总线,才能基本满足像是H100那样训练用GPU的需求。这也是为什么市场需要大量的NAND。 全球NAND闪存市场规模超过600亿美元,长期以来由美国、日本、韩国的少数几家厂商主导。几家巨头厂商合计总市场占有率约为90%。中国仅有长江存储这一家企业能在全球范围内排得上号,可截止至2025年第二季度,Counterpoint的数据显示长江存储市占率为9%。 不过对于长江存储来说,这是一个实现反超的绝佳窗口。 在产能方面,长江存储武汉生产基地当前月产能为10万片晶圆,2025年底将提升至15万片/月。根据公司规划,2028年总产能目标为30万片/月,届时全球NAND产能占比有望从当前的9%提升至15%,成为全球第四大NAND供应商。 2025年9月,长江存储三期(武汉)集成电路有限责任公司正式注册成立,注册资本高达207.2亿元,规划月产能10万片,计划于2026年投产。 最重要的是,长江存储还计划在2025年第三季度进军企业级固态硬盘市场。简单直接地瞄准AI服务器应用场景。其官方说法是,企业级SSD的毛利率比消费级产品高出30%至50%。 但进军企业级市场其实也要面对很多地考验。 在技术认证方面,企业级存储产品需要通过Intel、AMD等平台厂商的兼容性认证,以及微软、VMware等软件厂商的系统认证,认证周期通常需要6至12个月。也就是说,每一代NAND产品在完成封装测试后,至少要等半年,才能在市场上推广。 而且长江存储还需要面对一个验证过程,才能让客户企业大规模部署自家的产品。一般来说,这个过程也需要两年时间。 值得庆幸的是,长江存储在技术层面已经达标。根据长江存储PCIe 5.0企业级SSD的公开信息来看,采用自研的Xtacking 4.0架构。拥有3.84TB、7.68TB版本,以及新增的16TB和32TB大容量版本。并且可以支持每天4次全盘写入,对于有AI训练需求的企业来说,存储的耐久性是十分重要的。 不仅如此,这种国产替代的机会很可能会辐射到整个产业链。最具代表性的产业就是封装测试,封装测试是连接芯片设计与最终产品的关键环节。 在该领域,国产替代方案有华天科技、通富微电、长电科技等企业。 2024年10月,华天科技宣布在南京投资100亿元建设第二期先进封装生产基地,该基地目前已投产的项目就能实现年封装40亿颗芯片的产能,2028年建设成第二期后,年封装量可以突破100亿颗。 长电科技本身也是长江存储封测服务的主力供应商,承接了其70%的晶圆级封装订单,其232层3D NAND芯片的BGA封装良率达到了99.2%,且旗下XDFOI高密度多维异构集成技术能适配长江存储企业级SSD的需求。 通富微电则在2024年启动了总投资35.2亿元的先进封装项目,聚焦高性能计算和存储芯片封装。长电科技的XDFOI Chiplet高密度多维异构集成系列工艺已实现稳定量产,可支持存储芯片与逻辑芯片的异构集成封装。 长电科技和华天科技2024年全年营收同比增长均突破20%,而通富微电2024年归母净利润同比增长达到了299%。 在设备和材料领域,国产化进程同样也在加速。北方华创已成长为全球第六大半导体设备厂商,其刻蚀设备、薄膜沉积设备、炉管和清洗设备已广泛应用于长江存储的生产线。中微公司的等离子体刻蚀机成功打破国际垄断,不仅进入长江存储供应链,还被台积电采用于5纳米制程产线。盛美上海的清洗设备、中科飞测的量测设备,也在长江存储的产线上实现规模化应用。 江丰电子的溅射靶材产品已在国内存储厂商批量应用,打破了日美企业在这一关键材料领域的垄断。安集科技的化学机械抛光液覆盖长江存储12英寸3D NAND产线,14纳米以下先进制程抛光液已实现突破。雅克科技成为国内少数具备NAND/DRAM全栈能力的材料商,前驱体产品直接供应长江存储。 需要指出的是,尽管国产设备和材料取得了显著进步,但整体国产化率仍然较低。根据行业数据,中国半导体设备的国产化率约为30%,光刻设备的国产化率仅为0至1%,量测设备为1至10%,涂胶显影设备为5至10%。 尽管2025年12英寸大硅片自给率预计能达到50%左右,但这仅针对主流制程产品,高端大硅片仍依赖进口;光刻胶领域仅部分企业实现28nm DUV光刻胶量产,高端光刻胶国产化率依旧极低;电子特气预计 2025 年国产化率仅25%,市场仍有86%的份额被海外巨头占据,三者整体国产化水平确实处于较低状态。 因此,当NAND市场得到突破后,材料和设备领域可能也会迎来一次较为明显的增长。
李飞飞:下一个十年的 AI,不需要大模型
当 ChatGPT 震惊世界时,我们以为 AI 已经足够聪明。但它依然做不到一件事:准确判断你伸手去够桌边咖啡杯时,手指距离杯沿还有多少厘米。 今天,顶级 AI 学者李飞飞用一篇博客回答了这个问题:真正的智能不只是文字游戏,而是藏在一个我们每天都在使用却从未意识到的能力里: 空间智能。 这是一种比语言更古老的智能,改变人类文明的时刻,从来依靠的都不是语言,而是对空间的感知、想象与推理。 比如古希腊学者通过观察影子计算出地球周长,科学家摆弄金属丝拼出DNA的双螺旋结构,消防员在烟雾中凭直觉判断建筑是否会坍塌。 而现在,AI 即将获得它一直缺失的这种能力。 省流版如下: 1. 当前 AI(特别是大型语言模型 LLM)虽然那改变了我们运用抽象知识的方式,语言能力很强,却缺乏对物理世界的真实经验和理解。它们在机器人、科学发现、沉浸式创造力等领域仍有根本局限。 空间智能是人类智能的基石,甚至先于语言存在。它不仅支撑着我们与物理世界的日常互动(如驾驶、接住钥匙),也是人类想象力、创造力和科学发现(如古希腊测量地球周长、DNA 双螺旋结构的发现)的核心。 它是人类认知赖以构建的「脚手架」。 2. 尽管多模态模型(MLLM)有所进步,但 AI 在空间能力上与人类相差甚远。它们无法准确估计距离、方向,无法在脑中「旋转」物体,也无法预测基本的物理规律。AI 缺乏这种能力,就无法真正与物理现实建立联系。 要实现空间智能,我们需要超越 LLM,构建更具雄心的「世界模型」。这是一种全新的生成式模型,其能力远远超越当今的 LLM。李飞飞与 World Labs 正致力于此。 3. 李飞飞定义了世界模型必须具备的三种能力: 1. 生成性 (Generative):能够生成在感知、几何和物理规律上保持一致性的世界。 2. 多模态性 (Multimodal):天生设计为多模态,能处理和输出多种形式的信息(如图像、视频、深度图、文字、动作)。 3. 交互性 (Interactive):能够根据输入的「动作」,预测或输出世界的「下一个状态」,并最终可能预测「下一步应采取的行动」。 4. 李飞飞认为,构建世界模型远比构建语言模型困难,因为世界的维度远超语言。这需要克服三大挑战: 新的训练任务:需要找到类似 LLM 中「下一个词预测」那样优雅的通用任务函数,但难度更高。 大规模数据:需要能从海量的互联网图像和视频中提取深层空间信息,并辅以合成数据和多模态数据。 新的模型架构:需要超越当前 1D/2D 序列范式,发展出具备 3D 或 4D 感知能力的新架构(比如 World Labs 的 RTFM 模型)。 5. AI 应当增强人类的能力,而非取而代之。AI 应始终尊重人的自主性与尊严。空间智能正是这一愿景的体现,它旨在赋能人类的创造力、关怀能力和科学发现。 6. 空间智能的应用将分阶段展开: 近期(创造力):赋能故事讲述、电影、游戏和建筑设计。World Labs 已推出 Marble 平台,帮助创作者构建 3D 世界。 中期(机器人学):实现「行动中的具身智能」。世界模型将通过模拟训练,使机器人成为人类的协作助手。 长期(科学、医疗与教育):在药物研发、材料科学、辅助诊断、环境感知监护以及沉浸式教育等领域产生变革性影响。 7. 探索空间智能是李飞飞科研生涯的「北极星」。没有空间智能,「真正智能机器」的梦想就无法实现。她呼吁整个 AI 生态系统共同努力,将这项技术用来造福全世界。 附上相关阅读🔗: 刚刚,李飞飞发布世界模型新成果!一张图生成 3D 世界,现在就能玩 李飞飞世界模型大更新! 实时生成 3D 世界,只要一块 GPU 从语言到世界:空间智能是人工智能的下一个前沿 1950 年,当计算机还只是自动化运算和简单逻辑的工具时,Alan Turing 提出了一个至今仍回荡的问题:机器能思考吗?他以非凡的想象力看到了一个大胆的可能——智能也许有一天不是天生的,而是被「创造」出来的。这个洞见后来开启了一场被称为「人工智能(AI)」的不懈科学探索。 在我从事人工智能研究的二十五年里,Turing 的远见依然激励着我。但我们离那个目标还有多远?这个问题并不容易回答。 如今,领先的人工智能技术——例如大型语言模型(LLM)——已经开始改变我们获取和运用抽象知识的方式。 然而,它们依然像在黑暗中打磨文字的匠人:语言优美,却缺乏经验;知识丰富,却未真正立足于现实。空间智能(Spatial Intelligence)将重新定义我们创造和体验现实与虚拟世界的方式——它将彻底变革故事讲述、创造力、机器人学、科学发现等多个领域。这正是人工智能的下一个前沿。 自我进入这一领域以来,对视觉与空间智能的追求一直是我的北极星。 这也是我花费多年时间创建 ImageNet 的原因——这是第一个大规模视觉学习与评测数据集,与神经网络算法以及现代计算(如 GPU 图形处理单元)一起,成为现代人工智能诞生的三大关键支柱之一。过去十年里,我在斯坦福大学的实验室致力于将计算机视觉与机器人学习相结合。 而正因为这一信念,我与联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 于一年多前共同创立了 World Labs——希望第一次真正实现这一愿景。 在这篇文章中,我将解释什么是空间智能、它为何重要,以及我们如何构建能够解锁这种智能的「世界模型」——这种能力将重新塑造创造力、具身智能,以及人类的进步。 空间智能:人类认知的支架 人工智能正处在前所未有的激动人心的时刻。生成式 AI 模型(如大型语言模型,LLM)已经从研究实验室走进日常生活,成为数十亿人用于创造、工作和交流的工具。它们展现出了曾被认为不可能的能力——能够轻松生成连贯的文本、大量的代码、逼真的图像,甚至短视频片段。 如今,我们已无需再问「AI 是否会改变世界」,因为无论从哪个角度来看,它已经在改变世界。 然而,仍有许多目标尚未实现。自主机器人的愿景依旧令人着迷,但仍停留在猜想阶段,距离未来学家所描绘的日常生活场景还有很远。 AI 在疾病治愈、新材料发现、粒子物理等领域中实现研究飞速推进的梦想,也仍然大体未能实现。而能真正理解并赋能人类创造者的 AI——无论是学习分子化学复杂概念的学生、构思空间的建筑师、构建世界的电影制作人,还是追求沉浸式虚拟体验的任何人——仍未到来。 要理解这些能力为何仍难以实现,我们需要回溯空间智能的演化历程,并探究它如何塑造了我们对世界的理解。 视觉长期以来一直是人类智能的基石,但它的力量源于更为根本的机制。在动物能够筑巢、养育后代、使用语言交流或建立文明之前,最初那种感知的能力——哪怕只是捕捉到一束光、一种触感——就悄然点燃了通往智能的进化之路。 这种看似孤立的、从外部世界提取信息的能力,在感知与生存之间搭起了一座桥梁,而这座桥梁随着世代更迭不断加固、扩展。层层叠叠的神经元在这座桥上生长,形成了解读世界、协调有机体与环境互动的神经系统。 因此,许多科学家推测:「感知—行动」这一循环正是智能进化的核心驱动力,也是自然界创造出我们——这种能感知、学习、思考并行动的物种——的根本基础。 空间智能在我们与物理世界的互动中起着至关重要的作用。 每天,我们都在依赖它完成各种看似平凡的动作:停车时通过想象车头与路沿间逐渐缩小的距离来判断位置;接住从房间另一头扔来的钥匙;在人群密集的人行道上穿行而不相撞;或是半睡半醒时不用看就能把咖啡倒进杯子里。 在更极端的情境下,消防员在坍塌的建筑物中穿行,在烟雾弥漫的环境中凭直觉判断结构是否稳定、如何生存,并通过手势、身体语言以及一种难以言传的职业本能进行交流。而孩子们则在学会说话之前的几个月甚至几年里,通过与环境的游戏式互动来认识世界。 所有这一切都发生得自然而然、毫不费力——这正是一种机器尚未掌握的「本能流畅」。 空间智能同样是我们想象力与创造力的基础。讲故事的人在脑海中构建出丰富的世界,并借助各种视觉媒介将其传达给他人——从远古的洞穴壁画,到现代电影,再到沉浸式电子游戏。 无论是孩子们在沙滩上堆砌城堡,还是在电脑上玩《我的世界》(Minecraft),以空间为基础的想象力都是他们在现实或虚拟世界中进行互动体验的核心。 在众多行业中,对物体、场景以及动态交互环境的模拟也成为关键支撑——从工业设计到数字孪生,从机器人训练到各种业务应用,空间智能驱动着无数重要的实践场景。 纵观历史,空间智能在许多奠定文明走向的关键时刻都发挥了核心作用。 在古希腊,Eratosthenes 通过观察「影子」悟出了几何原理——他在亚历山大测量到阳光与地面形成的 7 度角,并在同一时间注意到赛恩城没有影子,由此计算出了地球的周长。 Hargreave 发明的「珍妮纺纱机」(Spinning Jenny)则通过一个空间布局的巧思彻底革新了纺织业:他将多个纺锤并排安装在同一架子上,让一个工人能够同时纺出多股纱线,从而将生产效率提高了八倍。 Watson 和 Crick 则通过亲手搭建三维分子模型,摆弄金属板与金属丝,最终拼出了 DNA 的空间结构,让碱基对的排列方式恰如其分地契合在一起。 在这些案例中,空间智能都是推动人类文明前进的关键力量——科学家和发明家必须操控物体、想象结构,并在物理空间中进行推理,而这些过程是文字所无法完全表达的。 空间智能,是人类认知赖以构建的「脚手架」。无论是被动观察还是主动创造,它都在发挥作用。 它驱动着我们的推理与规划,即便面对最抽象的问题也是如此。它同样决定了我们与世界互动的方式——无论是语言交流还是身体行动,无论是与他人还是与环境本身的互动。 虽然我们大多数人并不会每天都像 Eratosthenes 那样揭示自然的奥秘,但我们依然以相同的方式思考——通过感官理解复杂的世界,并凭直觉掌握其中的物理与空间规律。 遗憾的是,如今的人工智能还无法像这样思考。 过去几年中,人工智能确实取得了巨大进步。多模态大型语言模型(Multimodal LLMs,简称 MLLM)在海量多媒体数据(除了文本外还包括图像、音频、视频等)的训练下,初步具备了某种「空间感知」能力。 如今的 AI 已能分析图片、回答与图片相关的问题,并生成极其逼真的图像与短视频。同时,得益于传感器与触觉技术的突破,最先进的机器人也开始能够在高度受限的环境中操控物体和工具。 但坦率地说,AI 的空间能力仍远未达到人类水平,这种差距一眼便能看出。 当前最先进的 MLLM 模型在估计距离、方向、大小等方面的表现往往不比随机猜测好多少——它们也无法像人类那样在脑海中「旋转」物体,从不同角度重新想象其形状。它们不能穿越迷宫、识别捷径,也无法预测最基本的物理规律。AI 生成的视频虽然令人惊叹,但往往在几秒后就失去连贯性。 目前的尖端 AI 虽然在阅读、写作、研究和数据模式识别等任务中表现出色,但在理解或与物理世界交互时,却存在根本性的局限。 我们对世界的感知是整体性的——不仅看到「事物本身」,还理解它们在空间上的关系、意义以及重要性。而通过想象、推理、创造和互动来理解世界——而不仅仅是用语言去描述——这正是空间智能的力量所在。 缺乏这种能力,AI 就无法真正与它想要理解的物理现实建立联系。它无法安全高效地驾驶汽车,无法在家庭或医院中灵活地引导机器人,也难以为学习与娱乐提供全新的沉浸式互动体验,更无法大幅加速材料科学或医学领域的发现。 哲学家维特根斯坦(Wittgenstein)曾写道:「我的语言的界限意味着我的世界的界限。」 我并非哲学家,但至少我知道——对于人工智能而言,世界不止于「语言」。空间智能代表着超越语言的前沿——它是一种将想象、感知与行动连接起来的能力,使机器真正能够拓展人类的生活潜能,从医疗到创造力,从科学发现到日常助理,都因此焕发新可能。 人工智能的下一个十年:构建真正具备空间智能的机器 那么,我们该如何构建具有空间智能的 AI?怎样才能让模型既能像 Eratosthenes 那样进行空间推理,又能像工业设计师那样精确创造,像讲故事的人那样富有想象力,并像救援人员那样在复杂环境中灵活行动? 要实现这一点,我们需要的不只是大型语言模型(LLM),而是一种更具雄心的体系——世界模型(World Models)。 这是一类全新的生成式模型,能够在语义、物理、几何与动态复杂的世界中——无论虚拟还是现实——进行理解、推理、生成与交互,其能力远远超越当今的 LLM。 这一研究领域尚处于萌芽阶段,目前的探索方法从抽象推理模型到视频生成系统皆有涉猎。World Labs 正是在这种信念下于 2024 年初创立的:我们认为,基础方法尚未确立,而这正是未来十年人工智能发展的决定性挑战。 在这个新兴领域中,最重要的是建立一套指导发展的核心原则。对于空间智能而言,我将「世界模型」定义为具备以下三种关键能力的系统: 1. 生成性(Generative):世界模型能够生成具备感知、几何与物理一致性的世界 要实现空间理解与推理,世界模型必须具备生成自身「模拟世界」的能力。它们应能根据语义或感知层面的指令,生成无穷多样的虚拟世界——这些世界无论在几何结构、物理规律还是动态变化上,都必须保持一致性,无论它们代表的是现实空间还是虚拟空间。 研究界正在积极探索这些世界应当以内在几何结构的隐式还是显式形式来表示。此外,除了具备强大的潜在表示能力,我认为一个通用的世界模型还必须能够输出清晰可观测的世界状态,以适应多种应用场景。尤其重要的是,模型对「当下世界」的理解必须与「过去世界」的状态相连贯——它要能理解世界从过去如何演变到现在。 2. 多模态性(Multimodal):世界模型从设计上就是多模态的 就像人类与动物一样,世界模型也应能处理多种形式的输入——在生成式 AI 领域,这些输入被称为「提示(prompt)」。面对不完整的信息(如图像、视频、深度图、文字指令、手势或动作),世界模型应能预测或生成尽可能完整的世界状态。 这要求它在处理视觉输入时具备接近真实视觉的精度,同时在理解语义指令时同样灵活。这样,智能体(agent)与人类都能通过多样化的输入与模型进行交流,并获得同样多样化的输出反馈。 3. 交互性(Interactive):世界模型能够根据输入的动作输出下一步的世界状态 最后,当「动作」或「目标」被作为输入提示的一部分时,世界模型的输出必须包含世界的下一状态,这种状态可以是隐式的,也可以是显式的。 当模型接收到一个动作(无论是否包含目标状态)作为输入时,它应能输出与世界先前状态、目标状态(若有)、语义含义、物理规律及动态行为一致的结果。 随着具备空间智能的世界模型在推理与生成能力上不断增强,可以想象——未来面对某个给定目标时,世界模型不仅能够预测世界的下一状态,还能基于这一新状态预测「下一步应采取的行动」。 这一挑战的规模,远超人工智能以往所面对的一切。 语言,是人类认知中一种纯粹的生成现象;而「世界」,却遵循着复杂得多的规律。以地球为例,引力决定了运动规律,原子结构影响了光线的色彩与亮度,无数的物理定律限制着每一次交互。 即便是最天马行空的虚构世界,也依然由服从这些物理法则与动态行为的空间物体和智能体所构成。要让语义、几何、动态与物理这几种层面在同一模型中保持一致,需要全新的方法与思路。 世界的表示维度远比语言这种「一维、序列信号」复杂得多。要让世界模型具备人类所拥有的那种通用能力,我们必须跨越多个艰巨的技术障碍。而在 World Labs,我们的研究团队正致力于为实现这一目标奠定基础性突破。 以下是我们当前正在研究的一些课题示例: · 一种新的通用训练任务函数 为世界模型定义一个像大型语言模型(LLM)中「下一个词预测」那样简单又优雅的通用任务函数,一直是该领域的核心目标。然而,由于世界模型的输入与输出空间更加复杂,这一函数的设计难度要高得多。 尽管仍有许多未知需要探索,但这种目标函数及其对应的表示方式,必须能够体现几何与物理规律,忠实地反映世界模型作为「连接想象与现实的有根表示」的本质。 · 大规模训练数据 训练世界模型所需的数据复杂程度远超文本数据。好消息是——庞大的数据源已经存在。互联网级的图像与视频资源,为训练提供了丰富、可获取的素材。真正的挑战在于:如何开发算法,从这些基于二维图像或视频帧(即 RGB 信号)的数据中提取更深层次的空间信息。 过去十年的研究表明,语言模型的性能提升遵循「数据量与模型规模的扩展规律」;而对于世界模型来说,关键突破在于构建能够在相似规模下充分利用视觉数据的模型架构。 此外,我们也不应低估高质量合成数据以及深度图、触觉等额外模态的价值。它们在训练过程的关键阶段能对互联网级数据起到补充作用。要让这一过程更高效,还依赖于更先进的传感系统、更稳健的信号提取算法,以及更强大的神经仿真技术。 · 新的模型架构与表征学习 世界模型的研究必然会推动模型架构与学习算法的革新,特别是超越当前多模态语言模型(MLLM)和视频扩散模型的范式。现有方法通常将数据「分词化」为一维或二维序列,这让一些简单的空间任务变得异常困难——例如在短视频中数清不同的椅子,或回忆一小时前房间的布局。 新的架构可能带来改进,比如在分词、上下文与记忆机制中引入三维或四维感知能力。举例来说,World Labs 最近开发的实时生成帧模型(RTFM)就是这种转变的体现。该模型利用「以空间为基础的帧」作为空间记忆单元,实现了高效的实时生成,同时在生成的世界中保持连续性与稳定性。 显然,我们距离通过「世界建模」彻底释放空间智能的潜能,还有许多艰巨的挑战要克服。 这项研究不仅仅是理论探索——它是推动新一代创造性与生产力工具的核心引擎。而在 World Labs,我们已经取得了一些令人振奋的进展。 最近,我们向少量用户展示了 Marble ——首个能够通过多模态输入进行提示(prompt),并生成、维持一致性三维环境的世界模型。它让用户与创作者能够在这些虚拟空间中探索、互动,并将其纳入创作流程中继续扩展。我们正在努力,让 Marble 尽快向公众开放。 Marble 只是我们迈向真正具备空间智能的世界模型的第一步。 随着研究的加速推进,科研人员、工程师、用户和商业领袖都开始认识到这项技术的非凡潜力。下一代世界模型将让机器实现一个全新的空间智能层次——这将解锁当今 AI 系统中仍大多缺失的关键能力。 用「世界模型」构建更美好的人类世界 推动 AI 发展的动机至关重要。 作为一名参与开启现代人工智能时代的科学家,我的初衷始终明确:AI 应当增强人类的能力,而非取而代之。 多年来,我一直致力于让 AI 的发展、应用与治理更好地契合人类需求。如今,关于科技乌托邦与末日论的极端叙事层出不穷,但我始终保持务实的信念:AI 由人创造,为人服务,并由人类治理。 它必须始终尊重人的自主性与尊严。AI 的真正魔力在于延展我们的能力——让我们变得更有创造力、更具连接性、更高效,也更充实。 空间智能正体现了这一愿景: 它是一种能赋能人类创作者、照护者、科学家与梦想家的人工智能,帮助我们实现曾经无法实现的目标。正是这种信念,支撑着我将「空间智能」视为人工智能下一个伟大前沿领域的决心。 空间智能的应用将分阶段展开。 如今,创意类工具 已经开始出现——World Labs 的 Marble 已将这些能力交到创作者与故事讲述者手中。 机器人学是中期目标,我们正在不断完善「感知—行动」循环,使机器能够在物理世界中灵活操作。 而最具变革性的科学应用可能需要更长时间,但它们的影响将深远,足以促进人类福祉的全面提升。 在这些不同的发展阶段中,有若干关键领域尤为突出——它们蕴含着重新定义人类能力的巨大潜力。 要实现这一目标,必然需要集体的努力——远非一个团队或一家公司所能独立完成。 这将需要整个 AI 生态系统的共同参与:研究者、创新者、企业家、公司乃至政策制定者,都应携手朝着共同的愿景前进。 而这个愿景,值得我们为之奋斗。 未来,将由此展开。 创造力:为讲故事与沉浸式体验赋予超级能力 「创造力就是智慧在玩耍。」这是我最喜欢的一句名言,出自我个人的英雄——爱因斯坦。 在人类拥有文字之前,就已经在讲故事了——在洞穴的墙壁上作画、通过口口相传流传下来,并在共同的叙事中建立起整个文化。故事帮助我们理解世界,跨越时间与空间建立联系,探索「人类」意味着什么。更重要的是,它帮助我们在生命与爱中找到意义。 如今,空间智能有潜力彻底改变我们创作和体验故事的方式,不仅保留其根本的重要性,还将其影响力延伸至娱乐、教育、设计、建筑等多个领域。 World Labs 的 Marble 平台为电影制作人、游戏设计师、建筑师以及各类讲故事的人,提供了前所未有的空间能力和编辑控制权,让他们能够快速创建并反复迭代可自由探索的 3D 世界,而无需传统 3D 设计软件所需的大量投入。 创造本身依旧是充满人性和活力的行为,AI 工具只是放大并加速了创作者的潜能。这包括: 多维度叙事体验:电影人和游戏设计师正在利用 Marble 构建完整的虚拟世界,不再受限于预算或地理位置。他们能探索各种场景和视角,这在传统的制作流程中几乎是无法实现的。随着不同媒介和娱乐形式的界限逐渐模糊,我们正迈向全新的交互式体验形式,它融合了艺术、模拟和游戏——一个个个性化世界,不再仅属于大型工作室,而是任何人都可以创造和参与其中。随着更快速的方法将创意和分镜转化为完整体验,叙事将不再局限于某一种媒介,创作者可以在各种平台和界面上建立拥有共同线索的故事世界。 通过设计实现空间叙事:几乎所有制造出来的物品或建造的空间,在实际成形之前都必须先进行虚拟 3D 设计。这个过程通常需要大量时间和金钱,且高度反复。而借助具备空间智能的模型,建筑师可以在投入数月设计前快速可视化结构,甚至可以「走进」还不存在的空间——讲述我们未来如何生活、工作和聚会的故事。工业设计师和时尚设计师也可以立即将想象转化为形体,探索物体如何与人体和空间互动。 全新的沉浸式与互动体验:体验本身,是我们人类赋予事物意义的最深刻方式之一。在人类历史的绝大多数时间里,我们只拥有一个三维世界:我们共同生活的现实世界。直到近几十年,通过电子游戏和早期的虚拟现实(VR),我们才开始窥见由人类自己创造的另一个世界。而如今,空间智能结合虚拟现实(VR)、扩展现实(XR)头显以及沉浸式显示设备,使这些体验达到了前所未有的高度。我们正走向一个未来——进入完整构建的多维世界将像翻开一本书一样自然。空间智能让世界构建能力不仅属于拥有专业制作团队的工作室,也属于有故事、有想法的每一个人,包括独立创作者、教育者以及任何想要表达愿景的人。 机器人技术:行动中的具身智能 从昆虫到人类,动物依靠空间智能来理解、导航并与周围世界互动。机器人也不例外。具备空间感知能力的机器一直是机器人领域的梦想,我在斯坦福的研究实验室与学生和合作者们的工作,也正是围绕这一目标展开。 这也是我对 World Labs 所构建的模型充满期待的原因之一——它们有望让这一梦想成真。 通过世界模型扩展机器人学习能力:机器人学习的进步依赖于可扩展的高质量训练数据。考虑到机器人必须学会理解、推理、规划和互动的庞大状态空间,许多研究者认为要真正实现通用型机器人,必须结合互联网数据、合成仿真和现实世界中的人类示范数据。然而,与语言模型不同,机器人研究目前缺乏足够的训练数据。而世界模型将在其中发挥决定性作用。随着其感知逼真度和计算效率的提升,世界模型的输出可以迅速缩小仿真与现实之间的差距。这将有助于在无数种状态、互动和环境的模拟中训练机器人。 成为伙伴与协作助手:机器人作为人类的协作伙伴,无论是在实验室中辅助科学家,还是在家中帮助独居老人,都能在劳动力紧缺和生产效率亟需提升的背景下,承担重要角色。但要实现这一点,机器人必须具备空间智能:能够感知、推理、规划和行动,而且——这一点最关键——要能与人类的目标和行为保持情感上的一致性。例如,实验室里的机器人可以操作仪器,让科学家专注于需要精细操作或逻辑推理的任务;而家用机器人可以协助老年人做饭,同时不剥夺他们的乐趣与自主性。真正具备空间智能的世界模型,能够预测环境的下一步状态,甚至预测符合人类预期的动作,对于实现这一目标至关重要。 拓展具身形式的多样性:类人机器人确实适用于我们为自己打造的世界,但技术创新的全部潜力,将体现在更丰富多样的设计形式中:比如能够输送药物的纳米机器人、可在狭小空间中活动的软体机器人,以及为深海或外太空环境设计的专用机器。不论它们的外形如何,未来的空间智能模型都必须整合机器人所处的环境,以及其自身的感知与运动能力。但开发这些机器人面临的核心挑战之一,是缺乏适用于各种具身形式的训练数据。世界模型将在模拟数据生成、训练环境构建,以及任务基准测试等方面,发挥关键作用。 更长远的视野:科学、医疗与教育 除了在创意和机器人领域的应用,空间智能还将在其他领域产生深远影响,特别是在那些 AI 可以增强人类能力、挽救生命、加速发现的地方。我在下面重点介绍三个具有变革潜力的领域,当然,空间智能的应用远不止于此,还将在更多行业中大展拳脚。 在科学研究中,具备空间智能的系统可以模拟实验、并行测试假设,并探索人类难以抵达的环境——从深海到遥远的行星。这项技术将彻底改变气候科学、材料研究等领域的计算建模方式。通过将多维仿真与真实世界的数据采集相结合,这些工具可以降低计算门槛,扩展每一个实验室所能观察和理解的范围。 在医疗健康领域,空间智能将重塑从实验室到病床的各个环节。在斯坦福,我的学生和合作伙伴们多年来一直与医院、养老机构以及家庭中的病患合作。这些经验让我深信,空间智能在医疗中的变革潜力巨大。 AI 可以通过建模分子之间的多维交互,加速药物研发;通过辅助放射科医生识别医学影像中的模式,提升诊断精度;还可以实现环境感知型的监护系统,为病患和护理人员提供支持,同时不替代医疗过程中至关重要的人际联系。更不用说机器人在协助医护人员和患者方面,在多种场景中也大有可为。 在教育方面,空间智能能够实现沉浸式学习,让抽象或复杂的概念变得具体可感,并创造出与人类大脑和身体学习方式高度契合的、可反复练习的学习体验。在 AI 时代,无论是对学龄儿童还是成年人成年人来说,更快、更有效的学习和技能再培训都尤为关键。学生可以「进入」细胞机制,或亲身「走过」历史事件;教师可以借助交互式环境实现个性化教学;而从外科医生到工程师等专业人士,也能在逼真的模拟中安全地练习复杂技能。 虽然这些领域的应用前景几乎没有边界,但我们的目标始终如一:用 AI 增强人类的专业能力、加速人类的发现、放大人类的关怀——而不是取代那些构成人类本质的判断力、创造力与同理心。 结语 过去十年,人工智能已成为全球现象,并在科技、经济乃至地缘政治领域引发重大转折。但作为一名研究者、教育者、如今也是一位创业者,最令我振奋的,仍然是图灵在 75 年前提出的那个问题背后的精神。我依然怀有与他相同的那份好奇与敬畏之心。正是这种探索空间智能的挑战,成为我每天的动力源泉。 在人类历史上,我们第一次有机会打造出与物理世界高度协调的机器,使它们成为我们应对重大挑战时真正的合作伙伴。 无论是在实验室中加速对疾病的理解、彻底改变我们讲述故事的方式,还是在我们因疾病、受伤或衰老而处于最脆弱状态时给予支持,我们正站在这样一项技术的门槛前,它将提升那些我们最在乎的生活体验。这是一种更深刻、更丰富、更有力量的生活愿景。 在大约五亿年前,大自然首次赋予远古动物空间智能的萌芽。而今天,我们有幸成为这一代技术人中的一员,可能很快就能让机器也拥有这种能力——并有机会将这项能力用来造福全世界人民。没有空间智能,我们对「真正智能机器」的梦想就无法真正实现。 这个探索旅程,就是我心中的北极星。欢迎你与我一同追寻。
三星Galaxy S26手机尺寸更新:原型机厚度增0.28mm 至7.24mm
IT之家 11 月 11 日消息,科技媒体 Android Headline 昨日(11 月 10 日)发布博文,曝料称三星因产品策略调整,正在重新优化 Galaxy S26 系列的设计方案。在分享 Galaxy S26+ 渲染图之后,该媒体透露了 Galaxy S26 标准版的最新原型机设计细节与 CAD 尺寸数据。 机型方面,三星原本计划推出 Galaxy S26 Pro 作为 Galaxy S25 的继任者,不过消息称该计划现已搁置,继续按照传统,推出 Galaxy S26 标准版。 IT之家援引博文介绍,根据最新曝光的 CAD 数据,新款 Galaxy S26 原型机的三围尺寸为 149.5 x 71.6 x 7.24 毫米,计入摄像头模组凸起后,机身最厚处达到 10.44 毫米。 与之相比,Galaxy S26 Pro 原型机的尺寸为 149.3 x 71.4 x 6.96 毫米(计入凸起后为 10.23 毫米)。这意味着新版机型的机身厚度增加了 0.28 毫米,摄像头凸起也略微增厚,暗示内部元件和电池容量上有所调整。 在整体设计语言上,Galaxy S26 将延续并优化近年来的主流风格。其正面将配备直屏,采用居中打孔方案放置前置摄像头,同时屏幕四周的边框将非常纤薄且宽度统一,以实现更高的屏占比。机身中框预计采用平直设计,所有物理按键(音量键与电源键)都将集成在机身右侧,保持了简洁的设计感。 背部设计是本次爆料的最大亮点之一。Galaxy S26 将搭载后置三摄系统,三个摄像头将采用垂直排列方式,置于机身左上角。与 Galaxy S25 上各镜头独立分离的设计不同,S26 的三颗摄像头预计将被整合在一个统一的“相机岛”模块上。
谷歌严打“偷电”安卓App:24小时内后台唤醒超2小时算违规
IT之家 11 月 11 日消息,科技媒体 Android Authority 今天(11 月 11 日)发布博文,报道称谷歌发布了新的应用质量指南,进一步遏制 App 过度消耗手机电池电量问题。 IT之家援引博文介绍,新政策的核心目标是“唤醒锁”(Wake Locks)机制。“唤醒锁”是一种允许应用在手机屏幕关闭后,依然能保持中央处理器(CPU)运行的功能。 虽然这项机制对于音乐播放、后台下载等任务至关重要,但许多应用会无故长时间持有唤醒锁,阻止手机进入深度休眠状态,这正是导致电池电量异常消耗的主要元凶之一。 新规将于 2026 年 3 月 1 日正式生效。谷歌在新规中量化了“唤醒锁”机制,在手机端,如果一个 App 在 24 小时内,无正当理由累计唤醒设备的时长超过 2 小时,就会被标记为过度耗电。在智能手表等穿戴设备上,标准则是在活动会话期间,应用每小时消耗电量超过设备总电量的 4.44%。 对于违反上述规定的应用,谷歌将采取两项主要处罚措施。首先,该应用的 Play 商店详情页将被添加一个公开的警告标签,直接告知用户“此应用可能会加速手机电量消耗”。其次,该应用在 Play 商店推荐页面、榜单等位置的可见性(即曝光度)将被降低,从而减少其被用户发现的机会。
苹果新配件 iPhone Pocket 亮相:将手机“随身穿戴”,1299 元起售
IT之家 11 月 11 日消息,北京时间今天下午,苹果通过新闻稿宣布:三宅一生携手苹果正式推出 iPhone Pocket。这款产品的设计灵感源自“一块布”,采用独特的 3D 针织一体结构,可适配所有 iPhone 以及其他随身小物。官方表示,这款配件“以美妙方式将 iPhone 随身穿戴”。 iPhone Pocket 将于 11 月 14 日起,在法国、大中华区、意大利、日本、新加坡、韩国、英国和美国的部分苹果零售店以及 apple.com 上开售。 iPhone Pocket 采用带有三宅一生经典褶皱质感的罗纹开放结构。设计初衷是增加额外口袋,既能完全包裹 iPhone,又能扩展收纳更多日常物品。拉伸时,织物微微透出内部物品,方便用户查看 iPhone 屏幕。iPhone Pocket 可手持、系在包上,或直接佩戴在身上。短带版提供八种颜色,长带版提供三种颜色,色彩丰富,充满趣味。 三宅设计工作室设计总监宫前义之表示:“iPhone Pocket 的设计体现了 iPhone 与用户之间的联系,同时兼顾苹果产品在外观上的通用性和使用上的多样性。iPhone Pocket 探索了‘以自己的方式佩戴 iPhone 的乐趣’。其简洁设计呼应三宅一生理念 —— 留出空间以创造更多可能和个性化诠释。” 苹果工业设计副总裁莫莉・安德森表示:“苹果与三宅一生都注重工艺、简洁与愉悦感。这个巧妙的额外口袋正体现了这些理念,并自然适配我们的产品。iPhone Pocket 的色彩经过精心设计,可与所有 iPhone 型号混搭,让用户打造个性化组合。其独特轮廓提供了一种全新的方式携带 iPhone、AirPods 以及日常小物。” iPhone Pocket 在日本制造,采用三宅一生研发的独特 3D 针织一体结构,灵感来自“一块布”,重新诠释品牌标志性褶皱服饰的日常实用性。整个产品的开发和设计过程中,苹果设计团队全程参与,提供专业意见。 iPhone Pocket 是特别版产品。短带款提供八种色彩外观:柠檬色、柑橘色、紫色、粉色、孔雀绿色、宝石蓝色、肉桂色和黑色;长带款提供三种色彩外观:宝石蓝色、肉桂色和黑色。IT之家从官方获悉,短带款 iPhone Pocket 售价为 1299 元,长带款售价为 1899 元。
时代杂志也做Agent了,语义问答、音频输出、多轮交互齐上阵,与Scale AI联手
作者|江宇 编辑|漠影 智东西11月11日报道,昨日,《时代》杂志正式上线自有AI智能体“TIME AI Agent”,支持全文语义检索、文本摘要生成、跨语种音频播报等多项能力,用户可通过自然语言调用其逾百年的历史内容。 该系统由《时代》与Scale AI联合开发,是其目前在AI方向上最大规模的一次落地。 该智能体基于《时代》自建内容索引构建而成,覆盖约75万篇档案内容,默认不接入开放网络。其不仅支持开放式提问与多轮对话,还内置13种语言的文本与音频输出能力,并将逐步引入个性化记忆、视频图像索引等功能,当前已在政治与娱乐板块试点部署。 一、基于大模型与RAG构建,提供全文语义交互与音频生成 TIME AI Agent的底层由大语言模型(LLM)驱动,负责理解复杂的自然语言请求并拆解为子任务。其搭载的RAG(检索增强生成)机制连接《时代》自建的实时内容索引系统,确保生成内容仅基于其自有资料(约75万篇档案),不调用开放网络信息。 除了生成短摘要与标准摘要外,该智能体还支持用户通过自然语言提出开放式问题,例如查询某国某年度的政治、经济与文化动态,并自动生成带有《时代》风格的音频简报,支持多轮交互与实时响应。 目前,TIME AI Agent支持13种语言的文本与音频输出,包括英语、中文、法语、德语、阿拉伯语等,面向全球约40%的非美国用户群体。 二、与Scale AI合作开发,强调语境一致与内容可控 TIME AI Agent由《时代》内部团队与Scale AI联合构建,双方此前曾合作推出“年度人物”AI聊天工具。 本次产品在功能之外,特别强调了内容生成的可控性: 1、内容溯源机制:所有生成内容均需具备作者署名与原始引用; 2、风格控制系统:输出内容需符合《时代》语言风格和表达规范; 3、输入过滤器:系统预设Prompt拦截器,阻止有害、操控性语言进入处理流程; 4、红队测试机制:已完成Prompt Injection、越狱类攻击的测试与修复,确保模型在内容、编辑、风格三方面均有内置防线。 该智能体的目标是“增强《时代》内容的使用与再分发”,而非生成不具来源的新内容。 结语:媒体开始拥抱Agent 《时代》并非唯一探索AI化的媒体。过去两年中,《福布斯》推出了生成式搜索工具Adelaide,《金额时报》上线“Ask FT”聊天机器人,《华盛顿邮报》也开发了“Ask The Post AI”功能,逐步扩展至全站内容交互。 这类产品虽功能不一,但共同指向一个趋势:从信息展示走向可调用、可提问的内容服务。 《时代》主编Sam Jacobs在接受采访时提到,“如果互联网的主流消费方式正在转向Agent体验,那么《时代》也必须适应这一节点”,“人们已经习惯与Agent长时间互动,希望这也意味着他们将花更多时间阅读我们的报道”。 宏观来看,Agent正逐步成为内容行业的新交互入口。
三星Galaxy S26+手机渲染图曝光:药丸状相机
IT之家 11 月 11 日消息,科技媒体 Android Headline 昨日(11 月 10 日)发布博文,分享了一组 CAD 渲染图,展示了三星 Galaxy S26+ 手机。 机型方面,消息称三星内部曾计划用 Galaxy S26 Edge 取代 Plus 型号,但由于 Galaxy S25 Edge 市场表现不佳,公司最终决定撤销该计划,重新启用推出 Galaxy S26+ 手机。 外观方面,Galaxy S26+ 最显著的变化在于其后置摄像头模组。新机摒弃了前代 S25+ 各镜头独立凸起的设计,转而采用一个垂直排列的“药丸形”相机岛,将三颗摄像头整合其中。机身正面则延续了前代的设计语言,配备一块 6.7 英寸的平直显示屏,采用居中挖孔方案,边框极窄且宽度均匀,机身侧面为平直中框,边角带有轻微弧度,以提升握持舒适感。 核心硬件配置方面,消息称 Galaxy S26+ 将延续三星旗舰机的双芯片策略。具体来说,该机型在部分市场将首发搭载高通第五代骁龙 8 至尊版芯片,而在另一些市场则会采用三星自家的 Exynos 2600 处理器。 内存方面,该机预计提供 12GB 或 16GB 的 LPDDR5X RAM,并搭配 256GB 和 512GB 的 UFS 4.0 存储选项。屏幕分辨率预计为 QHD+ 级别(3120 x 1440),支持 1-120Hz 自适应刷新率。 在影像和续航方面,Galaxy S26+ 的相机规格目前尚不明确,不同渠道的传闻存在矛盾。有消息称其主摄像头、超广角和长焦镜头相较前代不会有重大升级,可能继续沿用相似的传感器配置。 电池容量方面,新机或将维持与 Galaxy S25+ 相同的 4900mAh,并支持 45W 有线快充和 15W Qi2 无线充电。此外,该机预计将出厂预装基于安卓 16 的 One UI 8.5 系统,并支持 Wi-Fi 7 和蓝牙 6.0。 IT之家援引博文介绍,附上 Galaxy S26+ 和 Galaxy S25+ 两款手机的规格对比如下: 三星 Galaxy S25+ 三星 Galaxy S26+ 尺寸 158.4 x 75.8 x 7.3 毫米 158.4 x 75.7 x 7.35 毫米 重量 190 克 未知 显示 6.7 英寸 Dynamic LTPO AMOLED 2X 6.7 英寸 Dynamic LTPO AMOLED 2X 刷新率 1-120Hz(自适应) 1-120Hz(自适应) 分辨率 3120 x 1440 3120 x 1440 芯片组 高通骁龙 8 至尊版 for Galaxy 高通骁龙 8 Elite Gen 5 / 三星 Exynos 2600 内存 12GB(LPDDR5X) 12GB 和 / 或 16GB(LPDDR5X) 存储 256GB/512GB(UFS 4.0) 256GB/512GB(UFS 4.0) 主摄像头 50MP(宽,f/1.8 光圈,1/1.56 英寸传感器尺寸,1.0um 像素尺寸, 双像素 PDAF,OIS) 50MP 超广角相机 12MP(f/2.2 光圈、1/2.55 英寸传感器尺寸、120 度 FoV、1.4um 像素尺寸) 12MP 远摄摄像机 10MP(f/2.4 光圈、1/3.94 英寸传感器尺寸、1.0um 像素尺寸、PDAF、OIS、3 倍光学变焦) 10MP 或 12MP 自拍相机 12MP(f/2.2 光圈,1/3.2 英寸传感器尺寸,1.12um 像素尺寸) 12MP 电池尺寸 4900 毫安时 4900 毫安时 充电 45W 有线、15W 无线(Qi2 Ready)、4.5W 反向无线(不包括充电器) 45W 有线充电,15W Qi2 无线, 反向有线(不包括充电器) 颜色 冰蓝色、薄荷色、海军蓝、银影色、粉金色、珊瑚红色、蓝黑色 未知
摩根大通预测台积电3nm产能2026年前达到极限,部分客户加价50-100%开加急单
IT之家 11 月 11 日消息,据《工商时报》今天报道,摩根大通最新报告指出,台积电 N3(3nm 工艺)产能将在 2026 年前达到极限,即使通过改造老产线、跨厂协作提高产能仍会出现明显缺口。 报告指出,尽管英伟达要求台积电将 3nm 产能提升至每月 16 万片,但台积电到 2026 年底的实际产能只能达到 14-13.5 万片,供应缺口将持续两年以上,同时 AI 芯片的爆炸性需求正拉高台积电的产能利用率和议价能力,预计 2026 年上半年毛利率将升至 60% 区间。 值得注意的是,英伟达、苹果、高通、联发科、亚马逊和 Meta 等大客户都已经提前锁定 3nm 产能,其中英伟达 Rubin、博通 TPU v7、苹果 C2 基带、联发科 / 高通旗舰手机芯片等产品都将全面使用 3nm 制程,由于上述客户已将产能预订一空,摩根大通认为加密币“矿机”等次要需求在 2026 年几乎无法被满足。 在这种压力下,台积电选择将现有产线进行灵活调整而非新建 3nm 晶圆厂,其中位于台南市的晶圆第 18 厂将转换部分 4nm 产线,每月可新增约 2.5 万片 3nm 产能;至于新建的高雄市晶圆第 22 厂与新竹市晶圆第 20 厂,则会给更先进的 N2、A16 制程节点预留空间。 台积电还将尝试“跨厂协作”模式,在台南科学园区的晶圆第 14 厂利用闲置的 N6/N7 产线处理 N3 工艺后道工序(IT之家注:BEOL),预计在 2026 年下半年可额外增加 5000 片-1 万片月产能。 至于美国亚利桑那州的 Fab 21 工厂则预计在 2026 年第二季进场,但最快要到 2027 年初才能达到 1 万片的月产能,短期内无法缓解公司压力。 此外,台积电目前正在将产能稀缺性转化为获利优势,摩根大通根据供应链调查发现,部分客户为确保如期交货,开了高出一般订单 50%-100% 的加急单,虽然这种订单只占总产能的 10%,但对整体盈利贡献显著。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。