产品分类:
加载中...
头条分类:
加载中...
靳玉志:华为ADS 4与Harmony Space5下月起陆续推送
IT之家 8 月 23 日消息,华为智能汽车解决方案 BU CEO 靳玉志今天在微博发文称,9 月将陆续推送首批 ADS 4 与 Harmony Space5。 他还表示,“中国汽车电动化渗透率达到 50%,用了 10 年,而辅助驾驶只用了 5 年。我相信,辅助驾驶的快速普及,将推动自动驾驶时代加速到来。” 华为智能汽车解决方案 BU 官方微博昨日还宣布,乾崑智驾 HUAWEI ADS 4 和鸿蒙座舱 HarmonySpace 5 首版 OTA 正式推送。据介绍,本次 OTA 为无感升级,可在后台自动完成。 华为官方暂未公布具体升级内容,也没有透露是哪款车型,只提到了部分更新信息,IT之家整理如下(预计各车型之间的更新内容存在一定差异): 车位到车位 2.0:全局导航直达车位,随时保持最优路径 紫韵流光专属主题皮肤 领航辅助支持后轮转向 DLNA 投屏 智能识别和进入特殊车道,支持读懂“天空标牌” 泊车支持动态目标实时博弈 泊车影像新增轮毂视角 手势开门 车载悬浮窗:支持时间、音乐、导航信息展示 领航辅助支持路口 / 压线激活 领航辅助驾乘体验升级:跟车更平顺、变道更丝滑、路口通行更优雅 实时环境渲染界面可见可泊,无需切换 R 档 声纹复刻 小艺深度思考 iOS 投屏 方言自由说,支持 10 种方言混合说 侧方负向障碍物紧急纠偏(人驾) 后方负向障碍物紧急制动(人驾) 泊车代驾支持跨层 / 园区一键召车 驾驶员失能场景安全辅助 爆胎稳定控制辅助 支持急弯等主动防御性驾驶(人驾) 园区支持收藏自定义车位 目前,华为乾崑智驾已覆盖从 15 万到百万级不同价位的 22 款合作车型,包括东风猛士 M817 越野车和售价 70.8 万-101.8 万元的尊界 S800 等车型。 华为乾崑智驾系统分为多个版本,包括 ADS SE 基础版、ADS Pro 增强版、ADS Max 超阶版和 ADS Ultra 旗舰版,在旗舰版上,华为 ADS 4 将支持高速 L3。 目前乾崑智驾已形成完整的产品矩阵:ADS SE 基础版支持基础智驾功能;ADS Pro 增强版增加了高速领航等能力;ADS Max 超阶版具备城市领航功能;而 ADS Ultra 旗舰版更是实现了高速 L3 级自动驾驶,并搭载世界引擎和世界行为模型技术。
重磅!华为拿下红旗
作者 | 元启 编辑 | 周伟鹏 华为车BU终于集齐八大国有车企。 8月22日财联社消息,一汽红旗牵手华为,明年会推出采用华为全栈解决方案的车型,功能包括乾崑智驾、鸿蒙座舱、乾崑车控、乾崑车云服务等。 照这么看,红旗和华为的合作,应该属于HI模式。 双方合作的首款车型为”红旗9系“,旗舰定位。但不清楚会是轿车,还是SUV或MPV。 红旗+华为,王炸组合 其实早在2023年,便有声音呼吁“红旗+华为”组合,以两者的特殊地位,高端市场轻松拿下。 但到了2025年,问界和尊界,已经在高端市场站稳了脚跟。 这个合作,对于华为来说只是多了个伙伴。对红旗而言,却是摆脱当前局面的最好抓手。 红旗,虽然名义上是高端品牌,旗下拥有百万级别的国雅、国耀甚至是718万元的国礼车型。 然而出货主力,却是十几万元的H5、HS5、E-QM5。 新能源转型方面,其表现也很一般。2024年新能源车卖了11.5万辆,占总销量的28%,不到三成。 去年11月,红旗发布天工纯电平台。 可天工系列车型销量低迷,今年7月天工06、05、08的零售量,分别仅为351辆、175辆、159辆。 红旗E-QM5作为主力新能源车型,7月卖了6775辆,但主要是靠网约车市场。经常用T3出行的朋友,应该都坐过这台车。 这里就涉及到红旗品牌的第三个痛点,过度依赖网约车市场导致品牌溢价受限。 换句话说,它要是不叫红旗,那情况可能和埃安差不了多少。 但没办法,它就是叫红旗,拥有中国其他所有汽车品牌,都比不上的光辉历史和深厚底蕴。 在部分车型的设计方面,如H9,红旗也有相当不错的水平。 当华为的科技基因与红旗的历史底蕴结合,一切就不一样了。 试想一下,把享界S9的配置,塞进红旗H9里面,打造出的车型是不是很有吸引力? 把问界M9的配置,塞到红旗E-HS9里面,会不会又是一台爆款SUV? 当然,不少人最期待的,还是国雅、国耀和国礼,能用上华为全栈解决方案。 以后某些人在踩华为一脚的时候,就没法把红旗国雅抬出来了。 八大国有车企,全部”投华“ 在红旗和华为合作后,一汽、东风、长安、上汽、广汽、北汽、奇瑞、江淮这八大国有车企,都用上了华为智选车模式或HI模式。 最早牵手华为的国有车企,是北汽。 2021年,极狐阿尔法S HI版发布,搭载华为ADS 1.0系统和鸿蒙座舱。可惜售价太高,成绩不佳。 后来,北汽选择加大合作力度,采用智选车模式打造出享界品牌。 随后”投华“的国有车企,是长安。 2022年,阿维塔11上市,搭载华为ADS 1.0系统,成为HI模式标杆案例。 虽然传闻中的”塔界“没消息了,但阿维塔和华为的合作,已经升级成”HI Plus模式“。 华为更加深入地参与进阿维塔车型中,包括联合研发团队、共同定义产品、开放塔尖技术集群等。 接着,来自安徽的奇瑞和江淮,都加入了智选车的大家庭。 2023年11月,智界S7上市,搭载华为ADS 2.0,停车场自动泊车的相关视频,在网上爆火,收获大量订单。 可惜,后来因为交付迟迟跟不上,导致销量暴跌,开了几个发布会也没有救回来。 8月25日,新款智界S7将上市,不知道能否打破这一局面。 尊界S800立项很早,但可能是因为定位太高,直到今年5月底才发布。 上市67天,大定已经破万,作为百万豪车,这个成绩太了不起了。 2024年初,东风旗下的岚图汽车和猛士科技,也想通了,先后与华为签署HI模式协议。 岚图梦想家,一款中大型豪华MVP,本来月销量只有三千多。 24年8月换代用上华为ADS 3.0后,销量立马翻倍,12月更是涨到一万多,把腾势D9的MPV销冠位置给抢了。 再往后,就是上汽和广汽两个“浪子回头”的国有车企了。前者有著名的”灵魂论“,后者也有“11:0”的经典投票。 上汽实力强,硬是让华为四界变五界,首款车型尚界H5,是一台20万上下的中型SUV,过两天就会开启预订。 广汽拳头没那么硬,就只能采用HI模式了,新成立的华望汽车定位高端,不过首款车型还得2026年面世。 结语 随着华为车BU的朋友圈越来越大,“华为汽车”出现的希望变得越来越渺茫。 感觉还是有那么一点可惜的。 “华系车”内部的竞争,也变得愈加激烈——大家都是华为全栈解决方案,想要打出差异化优势,需要下更多的功夫。 对于还没“投华”的车企来说,情况就变得有些严峻了,曾经的“软柿子”一个个都硬气起来了,啃不动。 打不过怎么办?那就选择加入。 可以预见,还会有更多的车企选择“投华”,目前小道消息已经显示有好几家,让我们拭目以待吧。
华为靳玉志谈辅助驾驶收费:世界上没有免费东西,羊毛出在羊身上
IT之家 8 月 23 日消息,华为智能汽车解决方案 BU CEO 靳玉志今天在微博发文称,9 月将陆续推送首批乾崑智驾 ADS 4 与鸿蒙座舱 Harmony Space5。 @42号车库 表示,靳玉志昨天在接受采访时谈到了即将推送的 ADS 4,有关辅助驾驶到底要不要收费、收多少钱,靳玉志是这么回答的: 这个世界上根本就没有免费的东西,我们很多互联网上的东西是免费的,但其实那是它的商业模式,俗称羊毛出在羊身上。 辅助驾驶定价在车企有很多种模式,比如不向用户收费,或者免费几年时间,或者辅助驾驶已经包含在车价里。 最终定价多少钱?这个是基于用户的合理定价。虽然买卖是一次性行为,但也要在用车生命周期内不断给他更新、升级版本。这里涉及到企业的长期、持续投入。我们从一开始就对软硬件生命周期管理的概念,所以现在买了第一套硬件的用户,还能持续升级。而有的人买了车发现两年以后没法升级了,当时只是看起来便宜、看起来免费。 华为官方昨日宣布,乾崑智驾 HUAWEI ADS 4 和鸿蒙座舱 HarmonySpace 5 首版 OTA 正式推送。据介绍,本次 OTA 为无感升级,可在后台自动完成。 华为官方暂未公布具体升级内容,也没有透露是哪款车型,只提到了部分更新信息,IT之家整理如下(预计各车型之间的更新内容存在一定差异): 车位到车位 2.0:全局导航直达车位,随时保持最优路径 紫韵流光专属主题皮肤 领航辅助支持后轮转向 DLNA 投屏 智能识别和进入特殊车道,支持读懂“天空标牌” 泊车支持动态目标实时博弈 泊车影像新增轮毂视角 手势开门 车载悬浮窗:支持时间、音乐、导航信息展示 领航辅助支持路口 / 压线激活 领航辅助驾乘体验升级:跟车更平顺、变道更丝滑、路口通行更优雅 实时环境渲染界面可见可泊,无需切换 R 档 声纹复刻 小艺深度思考 iOS 投屏 方言自由说,支持 10 种方言混合说 侧方负向障碍物紧急纠偏(人驾) 后方负向障碍物紧急制动(人驾) 泊车代驾支持跨层 / 园区一键召车 驾驶员失能场景安全辅助 爆胎稳定控制辅助 支持急弯等主动防御性驾驶(人驾) 园区支持收藏自定义车位 目前,华为乾崑智驾已覆盖从 15 万到百万级不同价位的 22 款合作车型,包括东风猛士 M817 越野车和售价 70.8 万-101.8 万元的尊界 S800 等车型。 华为乾崑智驾系统分为多个版本,包括 ADS SE 基础版、ADS Pro 增强版、ADS Max 超阶版和 ADS Ultra 旗舰版,在旗舰版上,华为 ADS 4 将支持高速 L3。 目前乾崑智驾已形成完整的产品矩阵:ADS SE 基础版支持基础智驾功能;ADS Pro 增强版增加了高速领航等能力;ADS Max 超阶版具备城市领航功能;而 ADS Ultra 旗舰版更是实现了高速 L3 级自动驾驶,并搭载世界引擎和世界行为模型技术。
百度网盘更新惹争议:悄悄安装“智能看图”插件
IT之家 8 月 24 日消息,AirUP 品牌创始人、《Science》封面摄影师 @陈海滢 周五专门发微博吐槽百度网盘的“小聪明”,称其偷偷篡改了 Windows 电脑上的默认看图软件。 他表示,自己打开图片后发现看不到窗口,重启依然如此,最后发现这居然是百度网盘不知何时安装的一个插件,而且它还很贴心地帮他接管了电脑里所有图片的默认打开方式。“搜了一下,中招的人还挺多。” 如图所示,其名称中不包含“百度”两个字,而是叫“智能看图”;且应用图标十分接近系统工具的风格。 最重要的是,这款“智能看图”还在应用名字前特意加了个空格,这样就算用户手动选择“打开方式”时也会显示在列表最上方,“让你一不小心就点错了”。 IT之家查询发现,百度网盘最早是在 7 月 1 日(V7.58.0.108)新增了这一“智能看图”功能,但只有简短几个字;最后一次是在 8 月 21 日更新了 Windows 电脑客户端 V7.59.6.103 版本,宣布“智能看图全新升级”: 【看图范围全面拓展】不仅支持本地图片快速查看,还能直接浏览网盘图片,无需来回切换应用,让看图更方便。 【新增基础编辑功能】裁剪、旋转、调整亮度对比度、标记等基础操作一键完成,简单编辑无需再依赖专业软件。 【AI 编辑功能上线】借助 AI 能力实现智能修图,智能滤镜、一键美颜、智能擦除,让图片更具质感与创意。 用百度网盘的朋友,马上注意一下,系统的看图软件有没有被篡改。 早晨想找两张北极的图,明明双击点开图片,但就是看不到窗口,还以为是电脑卡了,可重启后仍然如此。 正在摸不着头脑的时候,突然瞥见这个看图程序的进程名字 ——BaiduNetdiskImageViewer??等等,这有百度的什么事儿?? 再仔细一看,这居然是百度网盘不知什么时候装的一个插件,而且很贴心地接管了电脑里所有图片的默认打开方式,连图标做成了接近系统工具的风格,名字也没带显眼的“百度”,而是叫“智能看图”,目的不问可知。 可气又可笑的是,它在名字前面还特意加了个空格,这样在打开程序列表里排在最前,让你一不小心就点错了,小聪明都用在这里了吧? 搜了一下,中招的人还挺多,不知道是哪个产品经理为了自己的 kpi 又给老板招骂呢? 当然,更多的人可能是根本没有意识到这个恶心的操作,大家赶紧查一查有没有中招。解决掉这个插件的方法,很多网页都给了详细说明,我这里就不再搬运了。 正说着,网盘更新窗口弹出来了,看来这还是未来要推广的重磅功能啊,大家更新时也要小心这个“显眼”的勾选确认。
特斯拉FSD V14更新将至,马斯克称其“感觉像是有生命”
IT之家 8 月 24 日消息,特斯拉首席执行官埃隆・马斯克近日透露了特斯拉 FSD 系统即将发布的 V14 更新的相关信息,据其介绍,FSD V14 可以说是继 2023 年 11 月开始向特斯拉员工初步推送的 V12 更新之后,特斯拉 AI / 自动驾驶领域迎来的第二大更新。 马斯克此前在社交媒体上表示,FSD V14 将拥有比当前版本高 10 倍的参数数量,这将极大地提升系统的性能和决策能力。此外,该版本的系统在提醒驾驶员方面也会更加“克制”,不会像当前版本那样频繁地打扰驾驶员。他指出,尽管 FSD V14 并非完全无监督的 FSD(目前在奥斯汀的 Robotaxi 试点中使用的是无监督 FSD),但预计其性能将会有显著的提升。 马斯克还提到,FSD V14 正在进行训练和测试,以确保其在现实世界中的安全性。一旦确认 FSD 14 的安全性,车辆对驾驶员的干扰将会大大减少。他强调,FSD V14 的发布将是特斯拉自动驾驶领域的一个巨大进步,将为用户带来更加流畅和自然的驾驶体验。 IT之家注意到,马斯克在 X 社交平台上进一步分享了 FSD V14 的细节。在回应一位威廉・布莱尔分析师发布的视频时,该分析师提到特斯拉的 Robotaxi 服务相比 Waymo 的机器人操作,更像有人在驾驶。对此,马斯克表示:“特斯拉自动驾驶的第 14 版感觉像是有感知能力的。” 他还澄清说,该分析师体验的是第 13 版系统,而第 14 版是特斯拉 AI / 自动驾驶系统自 V12 以来的第二大更新。马斯克在帖子中写道:“他体验的只是第 13 版。第 14 版是特斯拉 AI / 自动驾驶系统自 V12 以来的第二大更新,它感觉像是有生命的。” 马斯克对 FSD V14 的积极评价,让人们对其正式推出充满期待。目前,许多驾驶员和乘客都表示,FSD 系统驾驶车辆的方式非常谨慎,且具有类似人类的驾驶风格。如果 FSD V14 真的像马斯克所说的那样“有感知能力”,那么这无疑将是一个具有变革性的进步。
性能大幅阉割!英伟达中国特供B30亮相!黄仁勋坦言:获批前景不明
据悉英伟达向美国政府展示专供中国市场的B30芯片,性能为标准版Blackwell GPU的80%——CEO黄仁勋称获批前景仍不明朗。 有报道称,英伟达已向美国政府提交B30芯片的对华出口申请。据《华尔街日报》消息,相关磋商于今年初启动。该芯片的最高性能仅相当于标准版Blackwell GPU的80%。 据了解,Blackwell GPU系列包括B100、B200、B300等型号。文中所指的“标准版Blackwell GPU”应为基础型号B100。也就是说,此次英伟达提交申请的B30芯片,其性能仅为B100的80%。 美国总统特朗普表示,若性能比英伟达最顶级产品低至少30%,他会批准Blackwell芯片对华出口。他在接受记者采访时称:"我可能会达成关于'性能有所削弱'版Blackwell处理器的协议,换句话说就是将其性能降低30%至50%。"相比之下,英伟达HGX H20芯片的性能仅相当于完整版H100芯片的50%左右(尤其是在多GPU配置中)。 美国于四月中旬禁售H20芯片,导致英伟达计提55亿美元减值损失。但三个月后美国政府又签发出口许可证推翻该决定,允许英伟达恢复对华销售芯片,条件是将其在华销售额的15%上缴美国。 但此事发生后不久,中国官方媒体立即发出警告,称H20芯片存在安全风险且技术落后。据称有关部门已劝阻各类机构(尤其是政府单位)使用该芯片。这主要源于两国正在进行的贸易战。这一切据称源于美国商务部长霍华德・卢特尼克带有冒犯性的“依赖成瘾” 言论。 虽然英伟达未正面确认该消息,但这家AI巨头确实正在准备H20的换代产品。CEO黄仁勋向记者透露,公司正就此事与美国政府磋商,但谈判仍处于早期阶段。 白宫是否会批准当前版本的B30芯片对华销售尚属未知。英伟达迫切需要推动此事以维持其在中国市场的领先地位——特别是在中国政府成功推动企业减少对H20芯片依赖之际。
中国算力规模年增速达30%,专家预测2035年AI将贡献GDP超11万亿元
IT之家 8 月 24 日消息,以“算网筑基智引未来”为主题的 2025 中国算力大会昨日开幕。据央视报道,中国算力平台正加快建设,目前已有山西、辽宁、上海、江苏等 10 个省区市的算力分平台正式接入。 据介绍,中国算力平台汇聚了不同地域、不同行业的算力资源,构建算力调度“一张网”,同时可以对算力设施和数据进行全面采集和动态监测,精准掌握各地算力发展情况。 IT之家注意到,工业和信息化部印发的《算力互联互通行动计划》提出,到 2026 年,建立完备的算力互联互通标准、标识和规则体系;到 2028 年,基本实现全国公共算力标准化互联,形成具备智能感知、实时发现、随需获取能力的算力互联网。 数据显示,近年来,我国算力总规模年增速达到 30% 左右。在人工智能的快速发展带动下,智能算力需求呈现迅猛增长态势。中国电信研究院发布的《智算产业发展研究报告(2025)》显示,随着人工智能大模型加速赋能行业应用和智能终端,将进一步助力智能算力产业蓬勃发展。 中国电信研究院战略发展研究所所长饶少阳表示,到 2035 年,人工智能将为我国的 GDP 贡献超过 11 万亿,大概占到 GDP 的 4% 到 5%。这个可能带动算力的需求是十倍,甚至百倍增长。 工业和信息化部负责人表示,将引导各地合理布局智能算力设施,逐步提高智能算力供给质量,满足新兴产业和未来产业发展需要。目前,智能算力已经广泛应用于生成式大模型、自动驾驶、具身智能、智慧城市和工业制造等领域。通过算力应用大赛累计征集的创新算力项目已经超过 2.3 万个,在工业、金融、医疗、能源等领域实现了规模化复制推广。预计 2025 年,我国智能算力规模增长将超过 40%。
原因找到了!AMD官方回应AM5插槽烧坏:主板厂商未遵循官方BIOS指南
快科技8月24日消息,AMD对主要影响华擎主板的最新AM5烧坏故障问题做出了官方回应。 据TH报道,AMD终于对近期困扰部分第三方AM5 主板厂商(包括华擎)的插槽烧毁问题做出了回应。Quasarzone与AMD的David McAfee和Travis Kirsch进行了问答环节,他们解释了这些烧毁问题背后的原因。 AMD方面表示,烧毁问题的根本原因是某些ODM BIOS不符合AMD的推荐值。AMD进一步澄清称,该问题十分复杂,正在与合作伙伴密切合作解决。AMD还建议用户将主板BIOS更新至最新版本。 AMD称,一些主板供应商通过修改主板UEFI (BIOS) 中的电压、功率限制和其他调整变量,使AMD CPU的性能超出其默认规格。Intel的一些主板合作伙伴也采取了同样的措施。 今年早些时候,Reddit上出现了大量锐龙7 9800X3D故障报告,其中大多数来自使用华擎主板的用户。 华擎版主专门为此问题创建了一个Reddit超级讨论帖,试图找出问题的根本原因。其中一些故障非常严重,导致插槽“烧坏”,甚至造成物理损坏。 随后,华擎很快介入此事,并多次尝试修复烧毁/故障问题。最初,华擎将问题归咎于内存兼容性问题,并尝试通过BIOS更新来解决。然而,这并没有完全解决问题。华擎最近一次更新是在5月下旬,当时华擎确认其当时最新的 BIOS版本3.25修改了大量PBO设置,以纠正烧毁问题。 到目前为止,此更新似乎已经解决了大多数用户的问题,自华擎3.25 BIOS 更新上线以来,问题的严重性已显著降低。 然而,一些Reddit用户表示华擎AM5主板烧毁问题仍然存在。
华为鸿蒙HarmonyOS 4.X系统全新小艺获12.2.6.402众测升级
IT之家 8 月 24 日消息,华为鸿蒙 HarmonyOS 4.X 系统版本的全新小艺智能助手已开启 12.2.6.402 版本众测升级。据介绍,搭载了大模型能力的智慧助手小艺能够完成更复杂的任务,众测期间可体验文案辅助创作能力、资讯快速摘要和对话式问答能力等。优化点如下: 新增桌面小艺 App 图标,点击进入 App 首页 首页改版,支持展示对话列表查看智能体对话 新增发现页,支持展示和搜索智能体及小艺技能 支持更多音色选择,完善播报控制能力 据用户反馈,全新小艺的众测版本提供“对话”和“发现”两大功能,带来了和鸿蒙 HarmonyOS NEXT 5.0 / 5.1 系统版本相同的 UI 设计和功能模块,支持使用智能体和小艺技能等功能。 其中智能体提供 DeepSeek-R1、高情商回复、讯飞小医等;小艺技能支持电池健康、同声传译、拍图识物等;而对话页支持用户与小艺、小艺照相馆、文档搭子、健康顾问 Dr.杨等智能体直接进行对话。 IT之家注:小艺是华为自主研发的智慧助手应用,支持简化日常任务管理,可提供知识问答、设备操控、个性化推荐等功能。亮点功能包括:知识问答、识屏对话、智能体、图片拖喂、小艺圈选、小艺帮写、小艺记忆、小艺声音修复等。目前小艺智能助手已支持网页版、手机 /平板 App 端使用。
谷歌大脑之父首次坦白!茶水间闲聊引爆万亿帝国,AI自我突破触及门槛
新智元报道 编辑:KingHZ 桃子 【新智元导读】刚刚,AI界传奇Jeff Dean深度访谈重磅放出!作为谷歌大脑奠基人、TensorFlow与TPU背后的关键推手,他亲述了这场神经网络革命的非凡历程。 刚刚,「现代互联网架构之父」Jeff Dean的最新对谈流出。 这位AI领域的传奇,是Google Brain的奠基者,也是推动神经网络走向规模化的关键人物。 从让神经网络「看懂猫」的重大突破,到TensorFlow与TPU的诞生,他的故事几乎是一部AI发展史。 在最新一期「登月播客」(The Moonshot podcast)深度访谈中,Jeff Dean回顾了个人成长经历、Google Brain的早期故事,以及他对AI未来的思考。 节目中,他揭秘了他本人所知的一些细节和趣事: · 小时候,Jeff Dean打印了400页源码自学。 · 90年代,他提出「数据并行/模型并行」概念时,还没这些术语。 · Google Brain的最初灵感,竟然是在谷歌的微型茶水间与吴恩达的一次闲聊中诞生。 · 「平均猫」图像的诞生,被Jeff比作「在大脑里找到了触发祖母记忆的神经元」。 · 他把AI模型比作「苏格拉底式伙伴」,能陪伴推理、辩论,而不是单向工具。 · 对未来的隐喻:「一亿老师,一个学生」,人类不断教AI模型,所有人都能受益。 超级工程师,早已看好神经网络 Jeff是工程超级英雄口中的「工程超级英雄」,很少有人像Jeff Dean这样的单个工程师,赢得人们如此多的仰慕。 主持人的第一个问题是:Jeff Dean是如何成为工程师的? Jeff Dean认为他有一个不同寻常的童年。因为经常搬家,在12年里他换了11所学校。 在很小的时候,他喜欢用乐高积木搭建东西,每次搬家总要带上他的乐高套装。 当九岁的时候,他住在夏威夷。 Jeff的父亲是一名医生,但他总是对计算机如何用于改善公共卫生感兴趣。当时如果想用计算机,他只能去健康部门地下室的机房,把需求交给所谓的「主机大神」,然后等他们帮你实现,速度非常慢。 在杂志上,Jeff的爸爸看到一则广告,买下了DIY计算机套件。那是一台Intel 8080的早期机型(大概比Apple II还要早一两年)。 最初,这台电脑就是一个闪烁灯和开关的盒子,后来他们给它加了键盘,可以一次输入多个比特。再后来,他们安装了一个BASIC解释器。Jeff Dean买了一本《101个BASIC语言小游戏》的书,可以把程序一行一行敲进去,然后玩,还能自己修改。 这就是他第一次接触编程。 后来,Jeff一家搬到明尼苏达州。全州的中学和高中都能接入同一个计算机系统,上面有聊天室,还有交互式冒险游戏。 这就像「互联网的前身」,比互联网普及早了15~20年。 当时,Jeff大概13、14岁,他在玩儿的一款多人在线的游戏源码开源了。 Jeff偷偷用了一台激光打印机,把400页源代码全都打印了出来,想把这款多人主机游戏移植到UCSD Pascal系统上。 这个过程让他学到了很多关于并发编程的知识。 这是Jeff Dean第一次编写出并不简单的软件。 大概是91年,人工智能第一次抓住了Jeff Dean想象力。 具体而言,是使用lisp代码进行遗传编程。 而在明尼苏达大学本科的最后一年,Jeff Dean第一次真正接触了人工智能。 当时,他上了一门并行与分布式编程课,其中讲到神经网络,因为它们本质上非常适合并行计算。 那是1990年,当时神经网络刚好有一波热潮。它们能解决一些传统方法搞不定的小问题。 当时「三层神经网络」就算是「深度」了,而现在有上百层。 他尝试用并行的方法来训练更大的神经网络,把32个处理器连在一起。但后来发现,需要的算力是100万倍,32个远远不够。 论文链接:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view 虽然实验规模有限,但这就是他和神经网络的第一次深度接触,让他觉得这条路很对。 即便到了90年代末,神经网络在AI领域已经完全「过时」了。之后,很多人放弃了「神经网络」研究。 但Jeff Dean并没有完全放弃。当时整个AI领域都转移了关注点,他就去尝试别的事情了。 毕业后,他加入了Digital Equipment Corporation在Palo Alto的研究实验室。 数字设备公司Digital Equipment Corporation,简称DEC,商标迪吉多Digital,是成立于1957年的一家美国电脑公司,发明了PDP系列迷你计算机、Alpha微处理器,后于1998年被康柏电脑收购 后来,他加入谷歌,多次在不同领域「从头再来」: 搜索与信息检索系统、大规模存储系统(Bigtable、Spanner)、机器学习医疗应用,最后才进入Google Brain。 谷歌大脑秘辛:一次茶水间闲聊 在职业生涯里,Jeff Dean最特别的一点是:一次又一次地「从零开始」。 这种做法激励了很多工程师,证明了「影响力」不等于「手下的人数」,而是推动事情发生的能力。 就像把雪球推到山坡上,让它滚得足够快、足够大,然后再去找下一个雪球。Jeff Dean喜欢这种方式。 然后在Spanner项目逐渐稳定后,他开始寻找下一个挑战,遇到了吴恩达。 在谷歌的茶水间偶然碰面,吴恩达告诉Jeff Dean:「在语音和视觉上,斯坦福的学生用神经网络得到了很有前景的结果。」 Jeff一听就来了兴趣,说:「我喜欢神经网络,我们来训练超大规模的吧。」 这就是Google Brain的开端,他们想看看是否能够真正扩大神经网络,因为使用GPU训练神经网络,已经取得良好的结果。 Jeff Dean决定建立分布式神经网络训练系统,从而训练非常大的网络。最后,谷歌使用了2000台计算机,16000个核心,然后说看看到底能训练什么。 渐渐地,越来越多的人开始参与这个项目。 谷歌在视觉任务训练了大型无监督模型,为语音训练了大量的监督模型,与搜索和广告等谷歌部门合作做了很多事情。 最终,有了数百个团队使用基于早期框架的神经网络。 纽约时报报道了这一成就,刊登了那只猫的照片,有点像谷歌大脑的「啊哈时刻」。 因为他们使用的是无监督算法。 他们把特定神经元真正兴奋的东西平均起来,创造最有吸引力的输入模式。这就是创造这只猫形象的经过,称之为「平均猫」。 在Imagenet数据集,谷歌微调了这个无监督模型,在Imagenet 20000个类别上获得了60%的相对错误率降低(relative error rate reduction)。 同时,他们使用监督训练模型,在800台机器上训练五天,基本上降低了语音系统30%的错误率。这一改进相当于过去20年的语音研究的全部进展。 因此,谷歌决定用神经网络进行早期声学建模。这也是谷歌定制机器学习硬件TPU的起源。 注意力机制三部曲 之后不久,谷歌大脑团队取得了更大的突破,就是注意力机制(attention)。 Jeff Dean认为有三个突破。 第一个是在理解语言方面,词或短语的分布式表示(distributed representation)。 这样不像用字符「New York City」来表示纽约市,取而代之的是高维空间中的向量。 纽约市倾向于出现的固有含义和上下文,所以可能会有一个一千维的向量来表示它,另一个一千维的向量来表示番茄(Tomato)。 而实现的算法非常简单,叫做word2vec(词向量),基本上可以基于试图预测附近的词是什么来训练这些向量。 论文链接:https://arxiv.org/abs/1301.3781 接下来,Oriol Vinyals, Ilya Sutskever和Quoc Le开发了一个叫做序列到序列(sequence to sequence)的模型,它使用LSTM(长短期记忆网络)。 论文链接:https://arxiv.org/abs/1409.3215 LSTM有点像是一个以向量作为状态的东西,然后它处理一堆词或标记(tokens),每次它稍微更新它的状态。所以它可以沿着一个序列扫描,并在一个基于向量的表示中记住它看到的所有东西。 它是系统运行基础上的短期记忆。 结果证明这是建模机器翻译的一个非常好的方法。 最后,才是注意力机制,由Noam Shazeer等八人在Transformer中提出的注意力机制。 这个机制的想法是,与其试图在每个单词处更新单个向量,不如记住所有的向量。 所以,注意力机制是这篇非常开创性的论文的名字,他们在其中开发了这种基于transformer的注意力机制,这个机制在序列长度上是n平方的,但产生了惊人的结果。 LLM突破触及门槛,自动化闭环颠覆人类 一直以来,LLM神经网络运作机制很难被人理解,成为一个无法破译的「黑箱」。 而如今,随着参数规模越来越庞大,人们无法像理解代码一样去理解LLM。 研究人员更像是在做「神经科学」研究:观察数字大脑的运作方式,然后试着推理背后的机制。 人类理解模型的想法,未来会怎么发展? Jeff Dean对此表示,研究这一领域的人,把它称之为「可解释性」。所谓可解释性,就是能不能搞清楚LLM到底在做什么,以及它为什么会这么做? 这确实有点像「神经科学」,但相较于研究人类神经元,LLM毕竟是数字化产物,相对来说探测比较容易。 很多时候,人们会尝试做一些直观的可视化,比如展示一个70层模型里,第17层在某个输入下的情况。 这当然有用,但它还是一种比较静态的视角。 他认为,可解释性未来可能的发展一个方向——如果人类想知道LLM为何做了某种决定,直接问它,然后模型会给出回答。 主持人表示,自己也不喜欢AGI术语,若是不提及这一概念,在某个时候,计算机会比人类取得更快的突破。 未来,我们需要更多的技术突破,还是只需要几年的时间和几十倍的算力? Jeff Dean表示,自己避开AGI不谈的原因,是因为许多人对它的定义完全不同,并且问题的难度相差数万亿倍。 就比如,LLM在大多数任务上,要比普通人的表现更强。 要知道,当前在非物理任务上,它们已经达到了这个水平,因为大多数人并不擅长,自己以前从未做过的随机任务。在某些任务中,LLM还未达到人类专家的水平。 不过,他坚定地表示,「在某些特定领域,LLM自我突破已经触及门槛」。 前提是,它能够形成一个完全自动化闭环——自动生成想法、进行测试、获取反馈以验证想法的有效性,并且能庞大的解决方案空间中进行探索。 Jeff Dean还特别提到,强化学习算法和大规模计算搜索,已证明在这种环境中极其有效。 在众多科学、工程等领域,自动化搜索与计算能力必将加速发展进程。 这对于未来5年、10年,甚至15-20年内,人类能力的提升至关重要。 未来五年规划 当问及未来五年个人规划时,Jeff Dean称,自己会多花些时间去思考,打造出更加强大、更具成本效益的模型,最终部署后服务数十亿人。 众所周知,谷歌DeepMind目前最强大的模型——Gemini 2.5 Pro,在计算成本上非常高昂,他希望建造一个更优的系统。 Jeff Dean透露,自己正在酝酿一些新的想法,可能会成功,也可能不会成功,但朝着某个方向努力总会有奇妙之处。
DeepSeek V3到V3.1,如何走向算力自由
从魔改PTX到使用 UE8M0 FP8 Scale 的参数精度,DeepSeek先榨取英伟达GPU算力,再适配国产芯片,可能会在软硬件协同方面带来新的突破,进一步提高训练效率,最多可以减少 75% 的内存使用,从而在实际应用中减少对进口先进GPU芯片的依赖。 DeepSeek 正在与下一代国产GPU芯片厂商一起,走向算力自主又迈进一步。正是这样一种令人激动的前景,激活了科技色彩愈发浓厚的中国资本市场。 V3.1,迈向Agent时代 DeepSeek 发布了 V3.1,而不是广受期待的V4或者R2,连R1也消失了。DeepSeek变成了一个混合推理架构,即一个模型同时支持思考模式和非思考模式。这是一个趋势,在V3.1发布一周之前,GPT-5发布了,是一个”统一的系统”,包括一个对话模型,一个思考模型,和一个实时路由用来决定如何结合对话与思考。 这次升级提高了DeepSeek的思考效率,即答对同样的问题,消耗更少的token,花费更短的时间。这既是经济上的考虑,也产品和用户体验上的考虑,避免了过度思考,让回答也更简洁一些。 V3.1展示出更强的 Agent 能力,通过后训练的优化,新模型在工具使用与智能体任务中的表现有较大提升。 V3.1的基础模型在V3的基础上重新做了外扩训练,增加训练了840B token。它的上下文长度,思考模式和非思考模式均达到了128k。性能提升,价格下降,再次秀出它所擅长的的性价比创新。 这次升级让DeepSeek在最近中国AI企业的开源热潮中夺回领先优势,但不仅仅是想用来做科研和展示,而是要在企业服务能力上向国际前沿AI企业看齐。 DeepSeek的API Beta 接口支持了strict模式的Function Calling,以确保输出的Function 满足schema 定义。这其实是大模型API在工程化能力上的一个重要升级。OpenAI、Anthropic、Mistral 等都在逐步推出 strict function calling,向企业级生产环境对齐。Strict模式提升了V3.1的工程可靠性和企业易用性,更容易在企业服务中替代GPT/Claude。 同样的思路,DeepSeek增加了对Anthropic API格式的支持,“让大家可以轻松将 DeepSeek-V3.1 的能力接入 Claude Code 框架。”目的是为了让使用Claude Code的用户,更容易切换到DeepSeek。这样可以直接渗透Anthropic已经打开的企业市场。最近Anthropic的企业服务收入,已经超过了OpenAI。 这次升级,对于DeepSeek来说的里程碑意义,是迈向Agent时代的第一步。 对中国的AI芯片生态,也具有里程碑意义。 深度求索的深水炸弹 DeepSeek在中文官微刻意强调、而在其英文X账号上没有提及的是,V3.1使用了 UE8M0 FP8 Scale 的参数精度。它还在留言处置顶: 这年头,越是低调话少让人有点看不懂,信息量越大。 在Hugginface 的模型卡中,DeepSeek又放出了一点信息:DeepSeek-V3.1 使用 UE8M0 FP8 缩放数据格式进行训练,以确保与微缩放数据格式兼容。 简单解释下,FP8=8-bit floating point(8位浮点数),是一种超低精度表示方式。可以显著减少显存/带宽需求,大幅提升推理和训练效率,但需要精心设计缩放(scaling)来避免数值不稳定。 UE8M0是FP8的一种数字表示格式。U表示没有符号,E8表示8位指数,M0表示没有尾数。相比之下,英伟达在 H100、Blackwell GPU 上提供硬件级 FP8 支持,主推E4M3/E5M2格式,也是大多数模型采取的英伟达官方FP8格式。 所谓“微缩放数据格式”(Microscaling data format),即业界的Microscaling FP8 (MXFP8)标准。英伟达Blackwell GPU支持MXFP8。而V3.1训练所用的数值体系与MXFP8兼容,模型在推理/部署时,可以直接在任何支持MXFP8 + UE8M0 的硬件(包括英伟达Blackwell、未来的国产GPU)上跑,不需要额外转换,能降低内存流量、提升矩阵乘法吞吐。 对比一下E4M3/E5M2,UE8M0是一个变体,全指数,无尾数,能覆盖极宽的动态范围,是一种低算力环境下的工程优化。单就UE8M0而言,因为没有尾数,也没有精度,只用来存scale。高精度在内部计算中使用,过程是这样的:输入FP8,存储时用scale调整,计算时自动转换FP16/BF16/FP32,做乘加运算,输出时再量化回FP8存储,保证了训练、推理的稳定性。 V3.1在训练中使用UE8M0 FP8,并且兼容MXFP8,通过软件定义与更多芯片适配,能让超低精度训练/推理在在中国自研芯片上更容易实现。 目前和即将采用FP8精度的国产GPU芯片,有寒武纪、沐曦、燧原、昇腾等,还有更多主动适配DeepSeek的芯片厂商。 英伟达的低精度之路 值得一提的是,英伟达多年来一直用低精度数字表示法提升推理和训练效率。例如在所谓的“黄氏定律”中,过去十年GPU实现的千倍效能提升,新的数字格式起到了最重要的作用。 英伟达的首席科学家戴利(Bill Dally),曾经把数字表示概括为GPU算力”黄氏定律“的精髓。 在P100之前,英伟达的GPU使用单精度浮点数表示这些权重。根据IEEE 754标准,这些数字长度为32位,其中23是尾数位,8是指数位,还有一位是符号位。 但是,机器学习研究人员很快就发现,在许多计算中,其数字可以不必有那么高的精度,而神经网络仍然可以给出准确的答案。这样做的明显优势在于,执行机器学习的关键计算(乘法和累加)的逻辑可以更快、更小、更高效地完成。如果需要,就处理更少的位数(如戴利所解释的,乘法所需的能量与位数的平方成正比)。因此,使用FP16,英伟达将该数字减少了一半。Google甚至推出了自己的版本,称为Bfloat16。(两者的区别在于分数位的相对数量,这影响精度;以及指数位的相对数量,这影响范围。Bfloat16与FP32具有相同数量的范围位,因此更容易在这两种格式之间切换。) 到了H100这一代,可以使用8位数字执行大规模transformer神经网络的某些部分,例如ChatGPT和其他大型语言模型。然而,英伟达发现这并不是一种大小适合所有情况的解决方案。例如,英伟达的Hopper GPU架构实际上使用两种不同的FP8格式进行计算,一种具有更高的精度,另一种具有更大的范围。英伟达的窍门,在于知道何时使用哪种格式。 英伟达对超低精度的一项研究 加州理工教授、英伟达前研究员Anima Anandkumar指出,V3.1在训练中使用的UE8M0 FP8 scale数据格式,实际上是一种对数数值系统(LNS),来自她当年参与的一个研究项目。 英伟达和加州理工的研究人员,在2021年时曾经发表过一篇论文《LNS-Madam:在对数数值系统中采用乘法式权重更新的低精度训练》(LNS-Madam: Low-Precision Training in Logarithmic Number System using Multiplicative Weight Update),探讨如何以低精度表示深度神经网络(DNN),实现高效加速并减少内存占用。 如果直接用低精度权重进行训练,会因低精度数值系统与学习算法之间的复杂交互而导致精度下降。为了解决这一问题,研究人员设计了对数数值系统(Logarithmic Number System, LNS)和乘法式权重更新算法(Madam)。他们证明了 LNS-Madam 在权重更新过程中能保持较低的量化误差,即使在精度受限的情况下也能获得稳定性能。他们还进一步提出了一种 LNS-Madam 的硬件设计,解决了实现高效 LNS 计算数据通路中的实际挑战,有效降低了由 LNS-整数转换和部分和累加(partial sum acculmlation) 带来的能耗开销。 实验结果表明,在计算机视觉和自然语言等主流任务中,LNS-Madam 仅使用 8 位精度就能实现与全精度相当的准确率。与FP32和FP8相比,LNS-Madam能分别降低超过90% 和 55%的能耗。 DeepSeek的超低精度创新 UE8M0实际上等价于 LNS 的一个极简实现,因此可以说UE8M0是LNS的一种特化(只保留log值的整数部分,没有小数精度),所以Anandkumar教授才会把UE8M0缩放数据格式称作一种LNS。 如果说LNS-Madam 一种学术探索,是重新设计数学体系+算法,是硬件和算法一体化的设计思路,UE8M0+FP8是一种在现有浮点体系上结合缩放的工程技巧。二者低精度训练的目标一致,但路线完全不同。 UE8M0并不是用来直接存权重,而是用来存缩放因子(scale factor),帮助其它 FP8(E4M3/E5M2)稳定表示数据,让 FP8能够覆盖更广的数据分布,从而在硬件上更高效。 追求算力自由 回顾一下DeepSeek两个阶段的突破点。 首先是先榨干现有硬件的潜力。DeepSeek V3直接修改英伟达GPU的虚拟机指令集架构 PTX,绕过英伟达编译器的保守策略,手工调度寄存器、warp、访存和Tensor Core指令。把GPU算力利用率提升到极限,降低硬件受限下的训练/推理成本。在DeepSeek手中,A100/A800等英伟达 GPU上的现有算力都得到最大化利用。 第二阶段降低算力的物理需求。DeepSeek V3.1引入UE8M0 FP8格式,让中国国产 AI 芯片(带宽/算力较弱)也能高效运行大模型。采用更紧凑的低精度浮点格式,大幅压缩内存/带宽占用,减少计算负担,可以期待下一代国产GPU芯片能进行前沿大模型训练推理。 DeepSeek在工程实践中走出了一条算力自主之路:先榨取英伟达,再适配国产芯片,最终走向算力自主。长期来看,DeepSeek将沿着软硬件协同优化的路线,构建一个 “算力无关”的模型生态。 中国还需要H20/B30吗 由于技术与安全等原因,已经传出英伟达停止生产H20的消息。目前依然存在悬念的,是黄仁勋是否向中国提供B30。 回顾一下,英伟达定制H20 / B30给中国市场,因为美国出口管制禁止向中国出售H100/H200/B100/B200等高端GPU。黄仁勋的策略,是推出缩水版芯片,为中国定制了H20(基于 Hopper)和B30(基于 Blackwell),在算力、互联、带宽上降低配置,但仍保持 CUDA 生态兼容,以保住中国市场,避免中国厂商快速完全转向国产芯片。同时遵守美国出口管制。 即使DeepSeek魔改PTX,一时造成了英伟达股价暴跌,也并没有影响黄仁勋的策略,老黄反而一直想见梁文锋。因为它心里明白,也公开表达过,以中国的人才,尤其是软件人才,实现AI芯片与模型生态的自主闭环,只是时间问题。 没想到的是UE8M0+ 超低精度的冲击,以如此低调的方式释放。它意味着中国厂商对于H20/B30的需求,正在发生微妙的变化。如果国产下一代GPU芯片近期推出,而且支持UE8M0+FP8 跑通大模型,英伟达的缩水卡在中国市场上的竞争力下降。一旦国产芯片生态完善,CUDA 生态的锁定效应会逐渐削弱。 中国市场还需不需要B30?有一种业内观点认为,短期依然需要,因为国产GPU产能、软件生态还在追赶。大部分企业,尤其是互联网大厂和科研机构等,仍依赖CUDA工具链和现成框架。H20/B30在推理与训练上仍然比国产芯片更稳健。也许B30本身的相对先进性,即弱于最先进的GPU、但仍强于国产GPU,才能决定它能否得到中美两国有关部门的接受。 随着国产芯片+超低精度训练将逐渐跑通并规模化部署,中长期来看对于B30们的需求会明显下降。国产AI软件栈(昇腾CANN、寒武纪 Neuware、壁仞 BIRENSUPA)逐步成熟,逐渐减少对 CUDA 的依赖。成本敏感的中国企业会更倾向国产方案,同时避免美国找麻烦。 英伟达的优势何在 UE8M0+FP8,好像是DeepSeek接过了英伟达近十年来的低精度数字表示技术的大旗,结合中国的实际进行工程创新,它将加快中国下一代芯片的推出,加快以国产芯片解决中国大规模训练和推理的需求,从而形成中国AI芯片与模型的技术路线。 使用UE8M0 FP8 Scale的参数精度,适配国产下一代芯片,兼容MXFP8,并不意味着英伟达失去了优势主导地位,因为 G200 不只是 FP8,还带来更大带宽、更强互联(NVLink 5)、更大显存。软件生态(CUDA、PyTorch 插件)也牢牢绑定 FP8,迁移到 UE8M0 需要额外工程适配。大部分国际大厂(OpenAI、Anthropic、Meta)还是会首选 G200 来追求极致性能。“黄氏定律”已经推进至FP4精度,英伟达还曾亲自下场发布了优化版的DeepSeek-R1-FP4,内存需求大幅降低,基准测试成绩几乎不变。 如果 UE8M0+FP8 在社区和国产硬件上普及,低成本训练路径会弱化英伟达的必选性。这对中国厂商尤其重要,即使没有 G200,也能在国产 GPU 上稳定训练大模型,形成去英伟达化的路线。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。