EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
梁文锋的新想法,DeepSeek的新方向?
作者孙建楠 编辑袁畅 梁文锋,又有了新动向! 这个在几年前创立深度求索公司,推出DeepSeek大模型的年轻人,在2025年初震动了中国上下。 但在这前后,他都始终保持着低调,一如他率领的那个推出DeepSeek大模型的AI技术团队——除了偶尔崭露头角的论文,业界对他和他们的了解,并不比半年前多了多少。 但可以想见的是,这支团队一定在默默的发力,持续攀登新的高峰。 日前,一则不起眼的招聘信息,或许透露了这支年轻团队的一个新方向。 ——医疗。 DeepSeek招聘医疗实习生 资事堂注意到:DeepSeek的母公司深度求索公司日前在招聘平台持续发力人才引进。 除了常规的算法研究、程序设计等领域。2025年5月,在不少实习生招聘平台上都出现了“DeepSeek招聘数据百晓生(医疗方向)实习生”的需求。 按照相关招聘要求,这个实习生岗位,需求是医学背景的本科高年级和研究生。 一周工作四天以上,实习工资日薪超过500-580元每天。 以此累计,正常的“满勤”实习生,每月大概率收入过万元。 独特的“数据百晓生”岗位 “数据百晓生”是梁文锋团队长期招聘的一个岗位。 早年,他创立的量化投资团队“幻方量化”就长期招聘这个岗位,如今的AI公司深度求索(后简称,DeepSeek团队)也在招聘这个岗位。 在最新的招聘需求中,DeepSeek团队提到: “我们相信,AGI 是数据x算法x算力的完美实践,是科研+工程+组织的优雅艺术。 我们正在寻找并长期培养优秀的数据百晓生,与我们一起进行高水平的科学研究和工程实践。如果你对AGI有浓厚的兴趣,如果你想在一个充满挑战和机遇的初创环境中展现你的才华,那么请不要犹豫,加入DeepSeek,与我们共同在AGI征程上“深度求索”吧!” 来自对该岗位有所了解的人士的信息,所谓的数据百晓生岗位,其重要工作就是通过完成文本语料标注等工作,并与AI工程师进行合作提升大模型的能力和反馈质量。 这个岗位既是模型的tutor(导师),通过对涉及模型的能力解构建构、评估流程建设、训练数据准备等,教会模型在各个方面的能力,对齐人类的偏好。也是模型和产品的桥梁,更是AI原生世代的管培生,备受深度求索公司重视。 新的“方向” 无论是梁文锋早期的业务重心量化投资,还是如今的大模型,都包含着“机器学习”、“人工智能”的技术特征。因此,他对数据的重视可想而知。 而承担“模型和产品的桥梁”任务的数据百晓生岗位,正是处理数据的一线岗位。他们受到重视当然可以理解。 而这些岗位的下一步“微妙变化”,也某种程度透露出,DeepSeek团队下一步的发力方向。 资事堂查阅了相关岗位的招聘要求,直到一年前,深度求索招聘的“数据百晓生”,当时的招聘启事显示,应聘者“专业不限,实习经历不限,欢迎各个专业的同学”。 而显然,这次的“医疗方向”实习生,包含了不一样的设定和需求。 盯紧“医疗专才” 通过,深度求索公司最新招聘需求,外界可以发现,该团队对相关实习生的要求并不是以往的“泛泛而谈”,“热烈欢迎”。 在数据百晓生(医疗方向)的招聘需求里,相关实习生的招聘门槛,包括: 其一,医学专业背景,本科高年级或者研究生学历; 其二,对于语言模型有深入使用经历,对模型的回答质量有自己的审美; 其三,会写python代码,擅长撰写大模型Prompt; 显然,这个入选要求是医学专业+代码能力。 入职后,具体做什么呢? 深度求索在招聘信息中指出: 和研发人员一起,提升DeepSeek的医学方向的专业能力;包括但不限于:提升模型对医学知识的掌握,专业化医疗咨询问答,减少医学问答的幻觉,提升联网搜索体验等等。 AI医疗“方兴未艾” 另外一个关键信息值得注意:DeepSeek招聘的上述职位是医疗方向,并非医药方向。 通常,医药侧重药品,围绕“用什么治”,而医疗则侧重“怎么治”,涉及诊断、治疗、护理等医疗服务。换言之,在DeepSeek的发力方向上,医疗(治疗和服务)这块的投入优先级更高。 事实上,在年初DeepSeek爆火之后,确实有不少大型医药机构和主管部门开始积极将AI应用于医疗环节中。 中国科技部主管的中国科普网,在2025年3月发文称:据不完全统计,DeepSeek已经在全国范围内的超90家知名三甲医院实现部署。其中,“三甲医院”是中国医院等级评审中最高级别的医院,代表医疗水平、服务质量和管理能力均为最优。 此外,一篇题为《DeepSeek重塑中国三甲医院医疗体系》的英文分析文章,提及了多家知名医院的案例。 其中提及:上海瑞金医院实现病理组织切片自动分析,每日处理3000张切片,支持与影像/基因等多模态数据联合诊断。 又如:深圳华南医院则运用于泌尿科AI系统快速检索证据,并生成个性化治疗方案。 再如:柳州人民医院实现了自动化细胞识别与血象分析。 这些积极的运用案例,是否是DeepSeek未来会加强医疗方面人工智能研发的一个原因? 解决“医学问答幻觉” 此外,在DeepSeek此次招聘中,还提及一项总要的工作内容描述——“减少医学问答幻觉”。 这也非常令人关注。 实际上,人工智能工具出现后,通常用户会遇到“幻觉”问题,即AI生成虚假、误导或捏造的信息。 显然,由于事关大众健康,医学方面的幻觉,其副作用更大。 一些研究文章显示,医疗领域的“幻觉”表现通常包括: 用户咨询症状、药物、治疗方案时,AI虚构医学数据,并给出错误诊断建议等情形。 也就是:AI在问诊者面前“信口开河”,但又显得老神在在,另询问者无从分辨。 此前,华南一家都市报曾提及:一家医院的接诊医生遇到,被大模型幻觉耽误了救治的儿童父母。了解后发现,在孩子初发症状之时,其父母通过手机端AI问诊平台自行判断为“普通呼吸道感染”,并参考网络建议居家用药。结果导致孩童肺部炎症范围扩大的情形。 一些权威医疗杂志也提出过类似关注。《中国卫生杂志》在今年3月刊文提出:“医院借助AI看病,误诊了谁负责?”的疑问和讨论。 如果上述招聘信息背后确实是DeepSeek正在努力发力医疗方向的人工智能的话。那或许也是国内AI机构积极介入、有所作为,让科技更好服务社会和大众的一个尝试。
小米玄戒O1,十核3纳米,平平淡淡才是真
雷军说他交出了第一份芯片答卷:玄戒(XRing)O1,190亿晶体管,台积电二代 3nm 制程,ARM十核架构。 小米造芯,迈出了第一步,“力争跻身第一梯队旗舰体验”,玄戒O1将用于小米15S Pro手机和7ULtra平板。 雷军前两天在社交媒体上发文,讲述了小米研发芯片的经过:四年多时间,截止今年4月底,玄戒累计研发投入已经超过了 135亿人民币。目前,研发团队已经超过了2500人,今年预计的研发投入将超过60亿元。 雷军表示,“我们深知造芯之艰难,制定了长期持续投资的计划:至少投资十年,至少投资500亿,稳打稳扎,步步为营。” 那么,在真正实现自研SoC的道路上,小米目前处于什么位置。 在芯片领域,“自研”的定义存在不同层级。完全自研,是指CPU/GPU 架构自主设计(如苹果 A 系列、高通 Kryo/Adreno)。部分自研是基于 Arm 公版 CPU/GPU,但定制 NPU、ISP 或基带(如联发科天玑)。还有贴牌整合,直接套用 Arm 全套 IP(如早期国产手机芯片)。 玄戒O1 公布的信息显示: CPU:Arm Cortex-X925 + A725 + A520(全公版)。 GPU:Arm Immortalis-G925 MC16(公版)。 其他模块:暂未知(可能自研 NPU/ISP)。 从核心模块看,玄戒O1属于 “部分自研”,接近联发科模式。可以对比一下“自研度”: (1)高通骁龙:自研 CPU+GPU,但依赖 Arm指令集 CPU:Kryo 定制架构(基于 Arm 指令集,但微架构自主设计)。 GPU:Adreno(完全自研,源自收购的 ATI 技术)。 优势:性能与能效优化空间更大,如骁龙 8 Gen 3 的异构多核调度。 (2)华为麒麟:从公版走向完全自研 早期:麒麟 9000 采用 Arm Cortex-A77(公版 CPU)+ Mali-G78(公版 GPU)。 现在:麒麟 9010 使用自研“泰山 CPU”+ Maleoon GPU。 突破点:国产 7nm 工艺 + 自主 NPU(达芬奇架构)。 (3)联发科天玑:Arm 公版 + 自研 APU CPU/GPU:Cortex-X4 + Immortalis-G720(全公版)。 差异化:自研 AI 处理器(APU),优化能效比。 玄戒O1依赖Arm公版核心,需靠NPU/ISP等模块实现差异化。若未来推出自研CPU/GPU,才能对标高苹果/高通/华为。 所以,雷军说:“但面对同行在芯片方面的积累,我们只能算刚刚开始。” 尽管如此,玄戒O1还是取得了性能与能效上的一些突破:CPU采用独特的 “2+4+2+2”十核四丛集架构,包含2颗3.9GHz超大核、4颗3.4GHz大核、2颗1.89GHz中核和2颗1.8GHz小核,最高主频达3.9GHz,使其在多任务处理和复杂计算场景中表现卓越。 小米要走向更大的自主性,还面临着一系列挑战,CPU/GPU 设计需要长期投入(高通 Adreno 迭代 10 年,苹果 A 系列打磨 15 年)。Android 生态基于 Arm 指令集,脱离公版需重建软件兼容性(如华为麒麟 9010 仍兼容 Arm v8)。 自研架构流片成本极高(苹果 A 系列研发费用超百亿美元)。 小米的技术选择服务其产品策略,应该是短期内用Arm公版快速量产,在架构设计中寻求差异化,同时通过自研NPU(如澎湃P1/P2 系列技术下放)或ISP(提升影像算法)打造卖点。 厂商如何包装“自研”或“自主”的概念,行业里面有一些话术:华为早期称“自研麒麟”,实际用 Arm 公版,后期才推泰山架构;联发科强调“天玑旗舰”,但注明“Arm Cortex 核心”。小米可能强调“自研SoC”,实际上是“基于 Arm 架构”。 厂商能打出自研或自主的话术空间,关键在于普通消费者更关注“性能提升”而非架构来源,只有少数极客和竞品才会紧盯严谨的“自研”定义。 玄戒O1是小米芯片之路的 “必要过渡”,但只有推出自主 CPU/GPU 架构,才能真正称为“国产旗舰芯片”。雷军已经放话,未来10年至少投入500亿元,目标应该是决心推出真正自主的CPU/GPU架构。 不管怎么说,小米迈出了第一步,而且在朝着技术生态最完整的科技企业迈进:芯片、手机、汽车、制造。
“非洲手机之王”竺兆江,四年财富缩水百亿
雷达财经出品 文|孟帅 编|深海 在非洲“闷声发大财”的传音控股掌舵者竺兆江,正经历财富版图的剧烈震荡。 在胡润研究院发布的《2025胡润全球富豪榜》中,竺兆江以155亿元的财富位列第1796名。但相较2021年高达260亿元的财富巅峰,其身家在四年间缩水105亿元。 在国内鲜为人知的传音,其实是非洲家喻户晓的手机品牌。而传音在非洲能有今天的成绩,身为创始人的竺兆江功不可没。1996年,竺兆江以波导基层业务员身份开启职业生涯,凭借敏锐的市场洞察力与卓越销售才能迅速崭露头角。 2006年,因开拓非洲市场的提议未获支持,竺兆江毅然选择单飞,创立传音控股。通过一系列本土化的技术创新及精准的营销宣传,传音成功撬开这片潜力巨大的市场,一跃成为“非洲手机之王”。 然而,光环之下,竺兆江掌舵的传音控股正陷入业绩与资本的双重泥沼。2024年,公司营收与归母净利润增速显著放缓。2025年第一季度,这两项核心指标更是双双负增长,毛利率也持续承压。 尽管传音在全球及非洲市场仍占据重要地位,但在引以为傲的非洲市场,传音正面临小米、OPPO等品牌发起的猛烈攻势,其市场份额与毛利率因此受到一定的冲击。而在资本市场上,传音控股年内股价下跌超两成,较历史高点更是惨遭“腰斩”。 四年缩水105亿,竺兆江遭遇财富“滑铁卢” 作为财富领域的权威风向标,胡润研究院每年发布的《胡润全球富豪榜》,向来是外界观察全球富豪财富动态的重要窗口。在这张备受瞩目的榜单上,来自不同行业的富豪们命运各异,有人因财富暴涨风光无限,也有人因资产缩水陷入低谷,财富的起伏与时代浪潮相互激荡。 在不久前揭晓的《2025胡润全球富豪榜》中,52岁的传音控股掌舵人竺兆江以155亿元财富位列总榜第1796名的位次。 回看历年的《胡润全球富豪榜》,竺兆江的财富轨迹犹如过山车般跌宕起伏。2020年,竺兆江以100亿元财富首次跻身榜单,精准卡位第2000名,正式踏入全球亿万富豪之列。 次年,他的财富迎来爆发式增长,飙升至260亿元,较前一年增加160亿元。这一年,风头无两的传音控股化身“造富机器”,不仅让竺兆江站上财富新高峰,还将阿里夫・乔杜里、刘仰宏、严孟一同送上榜单(财富均为70亿元)。 然而,财富的浪潮从未停歇。此后几年,竺兆江的财富经历剧烈震荡。与2021年登上《胡润全球富豪榜》时的巅峰时刻相比,今年他的财富缩水105亿元。 雷达财经梳理发现,在今年的《胡润全球富豪榜》中,云集了多位来自消费电子行业的大佬。在这场财富较量中,竺兆江的155亿元虽与小米创始人雷军的2200亿元相差悬殊,但与OPPO陈明永的185亿元仅一步之遥,更是与vivo沈炜财富持平,甚至超越了华为创始人任正非的130亿元,在高手如林的行业中牢牢占据一席之地。 竺兆江能在富豪榜站稳脚跟,其财富密码在于他一手缔造的传音控股。这家在国内略显低调的企业,在海外市场却书写着传奇。据传音控股此前发布的财报显示,其控股股东为深圳市传音投资有限公司,实际控制人为竺兆江。 截至去年末,深圳市传音投资有限公司持有传音控股49.15%的股份。另据天眼查显示,竺兆江持有深圳市传音投资有限公司20.68%的股份。据此计算,竺兆江于传音控股的持股比例约为10.16%。 不过,据同花顺iFind显示,相比截至2019年3月29日时的11.73%,竺兆江的持股比例在近几年不断下调。 目前,竺兆江身兼传音控股董事长与总经理双重职务,且已取得其他国家或地区居留权。2024年,他从公司获得的税前报酬总额为784.31万元。 凭借传音控股实际控制人的身份,竺兆江不仅坐拥百亿财富,还可通过分红收获不菲的收益。同花顺iFind显示,自2019年上市以来,传音控股累计现金分红8次,累计现金分红数额高达123.18亿元,分红率超过54%。 竺兆江另辟蹊径,炼成“非洲手机之王” 在国内智能手机市场的喧嚣中,不少消费者可能未曾听说过传音的名字。但在远隔万里之外的非洲地区,传音可以算得上是家喻户晓的手机品牌。而站在传音背后的传奇人物,正是创始人竺兆江。 不过,竺兆江为人低调神秘,极少出现在公众视野。1973年,竺兆江在浙江宁波奉化出生。1996年,从南昌航空大学毕业的竺兆江,带着对未来的无限憧憬踏入职场。 彼时,国内手机行业刚刚萌芽,波导作为新兴手机制造商正广纳贤才。竺兆江果断抓住机遇,从销售传呼机的基层业务员做起,就此开启了他波澜壮阔的商业征程。 在波导工作期间,竺兆江的销售天赋与勤奋展露无遗。他深入市场一线,细致入微地了解消费者需求,并不断优化销售策略。凭借出色的表现,初出茅庐的他短短数月便登上公司销售冠军的宝座。此后,他更是仅用三年时间,便实现了从基层业务员到华北区首席销售代表的华丽转身。 2003年,年仅30岁的竺兆江升任波导销售公司常务副总经理,并主动请缨开拓海外市场。在他的带领下,波导手机在海外市场迅速打开局面:2005年前后,波导手机出口量高达600多万台,稳稳占据中国手机出口榜首的位置。 海外市场的开拓经历,让竺兆江将目光投向了充满无限潜力的非洲大陆。当时的非洲,虽然手机普及率较低,但庞大的人口基数、逐步发展的经济,使得手机市场需求呈现出迅猛增长的态势,蕴含着巨大的发展机遇。 经过深入的市场调研,竺兆江向波导高层提议加大对非洲市场的投入。然而,他的建议并未得到重视,波导高层认为非洲市场风险高、回报周期长,不愿轻易涉足。 提议被否定后,竺兆江陷入了深思。他坚信,非洲市场对于波导而言是一片极具潜力的蓝海,若不能把握这一机会,将会错失巨大的发展契机。于是,在2006年,竺兆江毅然决定离开波导踏上创业之路,传音控股由此诞生。 为了能在非洲市场站稳脚跟,竺兆江带领团队深入非洲各地,全面了解非洲消费者的需求。通过大量的市场调研,他们发现了非洲消费者在手机使用过程中的诸多痛点,而这些痛点恰恰成为了传音的市场突破口。 针对非洲消费者的需求,传音展开了一系列极具针对性的产品创新。比如,考虑到非洲人肤色较深,在传统手机拍照时难以呈现出理想效果,传音专门推出了黑人照相美颜功能,通过优化相机算法,让当地消费者也能拍出展现自身魅力的照片。 由于非洲部分地区电力供应不稳定,手机续航成为了消费者的一大困扰。为此,传音推出了多款具备超长待机功能的手机产品,并配备快速充电技术,有效解决了非洲消费者的充电难题。 而在通信方面,鉴于非洲地区运营商众多,消费者常常需要使用多张SIM卡,传音将国内的双卡双待技术引入非洲,并在此基础上进行创新,开发出四卡四待功能,极大地满足了当地消费者的使用需求。 除了产品上的创新,传音还采用了贴近非洲消费者生活方式的营销策略。凭借这些本土化的努力,传音迅速赢得了非洲消费者的喜爱。随着在非洲市场的不断深耕,传音的业务规模持续扩大。 2019年9月,传音控股成功在上交所科创板挂牌上市,这标志着公司迈入了全新的发展阶段。伴随着公司登陆资本市场的步伐,身为幕后掌舵者的竺兆江也成为了富豪榜上的常客。 如今,凭借卓越的产品性能和持续的本地化技术创新,传音在非洲市场拥有远超其他手机厂商的市场占有率和广泛的品牌影响力,被誉为“非洲手机之王”。在巩固非洲市场领先地位的同时,传音还积极开拓非洲以外的新兴市场。 经过多年发展,传音已成为全球新兴市场手机行业的重要力量,旗下拥有TECNO、itel、Infinix等多个知名品牌。2024年,传音手机整体出货量约达2.01亿部,产品覆盖非洲、南亚、东南亚、中东和拉美等全球多个新兴市场。 传音业绩承压,非洲大本营遭雷军们“偷袭” 竺兆江近年经历财富起伏的背后,其掌舵的传音控股当下正经受着业绩增长乏力与资本市场遇冷的双重考验。 财报显示,2024年,传音控股实现营收687.15亿元、归母净利润55.49亿元。两项指标虽仍保持增长态势,但增速大幅放缓。 其中,营收增速从上年的33.69%降至10.31%,归母净利润增速更是从上年的122.93%骤降至0.22%,增长近乎停滞。 而若具体至单季度,传音控股的业绩颓势则表现得更加明显。去年第三季度、第四季度,公司的营收同比分别减少7.22%、9.39%,归母净利润同比分别减少41.02%、0.44%。 进入2025年,传音控股的业绩仍未得到有效的改善。今年第一季度,公司营收同比减少约1/4降至130.04亿元,归母净利润更是暴跌近七成,仅剩4.9亿元。 与此同时,传音控股的毛利率近来也持续走低,从2023年的24.45%降至2024年的21.28%。今年第一季度,该指标进一步降至19.27%。 对于一季度交出的这份并不亮眼的成绩单,传音控股解释称,主要受市场竞争以及供应链成本综合影响,营业收入及毛利额减少所致。 尽管在国内知名度有限,但传音在全球市场占据颇为重要的地位。根据IDC数据统计,2024年传音在全球手机市场占有率达14%,位列第三;在全球智能机市场,传音以8.7%的份额排名第四。 而在非洲主战场,传音更是当之无愧的领军玩家。根据IDC数据统计,2024年,传音控股在非洲智能机市场的占有率超过40%,排名第一。 此外,在南亚市场,传音控股也有着不小的影响力。2024年,其在巴基斯坦智能机市场的占有率超过40%,排名第一;在孟加拉国智能机市场的占有率为29.2%,排名第一;在印度智能机市场的占有率为5.7%,排名第八。 不过,在非洲这片曾为传音带来辉煌的热土上,传音正遭到越来越多对手的“围攻”。在去年9月的中非企业家大会上,小米创始人雷军公开宣布加码对非洲市场的投入。 除了小米,华为、vivo、OPPO等国内手机巨头纷纷将目光投向这片潜力巨大的市场,一场针对传音“霸主地位”的挑战正愈演愈烈。 而这些竞争对手的快速布局已初见成效,传音在非洲市场的“蛋糕”正被逐步蚕食。据Canalys披露数据显示,2024年,小米在非洲智能手机市场的出货量同比飙升38%,以11%的市场份额高居第三。 而OPPO旗下的realme更是以89%的惊人出货量增速强势崛起,凭借5%的份额紧随其后,位列第四;OPPO也凭借4%的份额跻身第五。这些新晋竞争者的迅猛发展,已然对传音在非洲市场的主导地位构成一定的威胁。 在愈发激烈的竞争下,传音控股在非洲地区不仅市场份额遭到冲击,就连毛利率指标也受到影响。2024年,传音控股在非洲地区的营收增速从上年的6.74%降至2.97%,毛利率也从上年的30.97%降至28.59%,同比减少1.46个百分点。 面对困局,传音试图通过多元化战略寻求突破。传音控股在财报中提到,基于在新兴市场积累的领先优势,公司积极实施多元化战略布局,在新兴市场开展了数码配件、家用电器等扩品类业务以及提供移动互联网产品及服务。 不过,相比手机业务,传音控股其他业务的体量目前仍存在明显的差距。分产品来看,去年,公司来自手机板块的收入达631.97亿元,占总营收的比重超过九成,而同期公司来自其他板块的收入仅为42.59亿元。 业绩承压之际,传音控股在资本市场上也遭受“冷遇”。截至5月22日收盘,传音控股报74.5元/股,股价年内下跌21.58%,而较此前168.77元/股(前复权)的历史高点更是已跌去一半以上。 在雷军们的“围剿”下,曾经的“非洲手机之王”传音接下来将如何捍卫自己的领地?雷达财经将持续关注。
突发!美国新法案,10年内禁止监管AI
今天凌晨,TechPolicy消息,美国众议院通过了《HR1》法案,将禁止美国各州在未来10年内监管AI。 在禁止期间,任何州或其政治分支机构不得执行任何监管AI模型、AI系统或自动决策系统的法律或法规。 这个法案的对于微软、OpenAI、谷歌、亚马逊等科技巨头非常重要,彻底打开了枷锁,可以进行更多的AI技术创新尝试了。 其实这个法案通过的也挺玄的,215票赞成、214票反对差一点就没通过。 赞成者表示,该法案将终结美国全国范围内涌现的,很多令人困惑的各州AI法律拼凑局面,让国会有空间制定自己的AI立法,同时保持美国的领导地位。 而反对者认为,这是向科技公司的危险妥协,会让消费者,尤其是弱势群体和儿童失去保护,并废除一系列涉及从深度伪造到自动化招聘中的歧视等众多的州级法律。 「AIGC开放社区」查看了美国国会发布的HR1,内容非常非常多,下面就为大家解读一下关于AI监管部分。其实这个法案全名也挺有意思,HR1—一个伟大漂亮的法案。可以简称“大漂亮”法案~~ 为了构建美国未来十年AI监管的基本框架,其核心内容围绕“暂停州级监管”与“联邦资金引导”展开,通过政策松绑与资源倾斜快速提升美国的全球AI竞争力。 法案明确规定,自颁布之日起的10年内,美国各州及地方政府不得执行任何针对AI模型、AI系统或自动化决策系统的法律或法规。 这一禁令覆盖从算法设计到系统部署的全链条,致使各州现行AI相关监管措施如加州的算法透明度法案、纽约的面部识别禁令等暂时失效。 但法案也为政策留有余地,若州法规核心目的是促进AI部署如简化许可流程、提供税收优惠,或非歧视性适用于所有技术系统如通用数据安全标准则可继续实施,同时允许收取与非AI技术同等对待的合理成本费用如AI系统安全检测费以避免变相歧视。 为配合监管松绑,法案批准向商务部拨款5亿美元,资金从2025财年起可用并持续至2035年,主要用于三项核心任务:一是部署商业AI和自动化技术以替换过时的政府业务系统如税务、社保管理系统,提升数据处理效率与安全性; 二是推动AI与云计算、物联网等技术融合,探索智能政务场景如预测性公共服务、应急响应优化; 三是建立跨机构的AI治理框架,协调国防部、能源部等联邦部门的技术需求以避免重复建设,此举旨在通过联邦示范效应带动私营部门加大AI投资,形成“政策宽松+资金扶持”的产业生态。 但该法案对关键术语的定义为未来执行预留了空间,“AI模型”指通过机器学习、统计算法生成输出的软件组件如GPT类语言模型、图像识别算法。 “自动化决策系统”涵盖任何替代人类决策的AI工具如招聘算法、信贷审批模型但未明确是否包括嵌入式AI设备如智能家居。“州级监管”仅限制“执行”现有法规而未禁止州政府制定新政策。 同时执行细节中强调联邦优先原则,若州法规与联邦法律冲突则以联邦为准,例如,联邦若出台全国性AI隐私法,各州需直接适用而不得保留更严格监管条款。 这个法案也体现出美国为了提升全球AI的领导地位,选择了先发展、后治理”的AI监管策略,希望科技公司能利用好这10年的监管窗口期。 本文素材来源美国国会,如有侵权请联系删除
Claude 4不是大模型,它是第一个能连续上班7小时的AI
在OpenAI 和 Google 接连发布大模型后,Anthropic终于也亮出了底牌。 5月22日,Anthropic在其首届开发者大会上发布了全新一代的Claude 4系列模型,包括旗舰级的 Opus 4、高性价比的 Sonnet 4,以及效率优先的 Haiku 4,同时推出了 Claude Code 开发工具包。它们背后的目标不再只是“更强大”,而是让 AI 成为真正“能干事”的工作搭档。 而这一次,Claude 不再只是对话模型,它开始接近一个具备自主任务执行能力、跨模态推理能力和高安全保障的 AI 系统雏形。 Claude Opus 4:不仅是更强,而是更“能干” Claude Opus 4 是 Anthropic 目前能力最强的模型,甚至在多个维度上超越了 OpenAI Codex-1、o3 和 Gemini 2.5 Pro。 首先是推理深度和持续性。Anthropic 在内部测试中发现,Opus 4 可以在无需人类插手的情况下,连续执行一项编程任务超过 7小时,这对于构建长期自治智能体来说是里程碑式的进展。对比之下,GPT-4 通常只能持续几十分钟。 其次是编码能力。Opus 4 在代码基准测试 SWE-bench 中得分高达 72.5%,超过 OpenAI Codex-1(72.1%)和 Gemini 2.5 Pro(63.2%),成为目前已公开测试中 世界最强的代码大模型。不仅能写函数、改逻辑,它甚至可以理解跨文件结构,进行结构性重构,具备类似“工程意识”的表现。 图:Claude 4 模型在 SWE-bench Verified(真实软件工程任务性能基准测试)上领先 Claude Sonnet 4:高性价比版本,不输旗舰 如果说 Opus 4 是为了大企业和重度用户准备的,那 Sonnet 4 则是 Anthropic 为开发者和中小企业提供的“黄金版本”。 Sonnet 4 的 SWE-bench 编码得分达到 72.7%,甚至略高于 Opus。更重要的是,它在响应速度和成本上做了大量优化,非常适合用于部署到产品工作流中。对于大多数开发者来说,它几乎能满足你 90% 的需求。 图:Claude 4 模型在编码、推理、多模态能力和代理任务方面表现出色。 Claude 的模型也更加“听话”了。无论是长指令、结构化输入,还是格式化输出,Claude 4 系列在遵循复杂指令方面明显优于上一代模型,让它更像一个可靠的助理,而非只会答题的聊天机器人。 Claude Code 工具链:让 AI 真正进开发流程 为了配合 Claude 模型在工程场景的使用,Anthropic 还推出了完整的 Claude Code 工具链,包括 CLI 工具、VS Code 插件、GitHub 集成,未来还将开放 JetBrains 插件。 这意味着 Claude 不只是“能写代码”,更是“能和你一起工作”。它能识别项目结构、补全单元测试、改动多个文件并解释修改原因,逐步变成团队里那个永远在线的“万能实习生”。 引入 AI 安全等级制度,行业首次 当然,模型越强,安全挑战也越大。Anthropic 在发布会上宣布将 Claude Opus 4 定级为 AI 安全等级 3(ASL-3),是目前公开模型中最高的安全级别。 根据披露,Anthropic 在内部红队测试中发现 Opus 4 有能力生成复杂的合成生物设计方案,因而启动了公司级别的“责任扩展政策”,对模型能力进行限制、追踪与加密,并上线漏洞赏金计划与越狱检测机制。 这也是行业首次以“安全等级”形式管理大模型能力,或许预示着未来的 AI 发布流程会更接近“药品审查”或“飞行安全评估”。 结语:Claude 4 是 AI 工具进化的分水岭 过去一年,大模型一路狂飙。但 Claude 4 显示出一个新的方向:AI 不再是惊艳的 demo,而是可以真正做事、协助开发、承担部分责任的“工具合伙人”。 Claude 4 的能力不仅是一次迭代,更是对 AI 应用“落地性”的集中体现。它可以处理现实中复杂、多步骤、跨工具的任务,这意味着我们距离“可控、可靠的 AI 员工”又近了一步。 ChatGPT 还在对话,Claude 4 已经加班。
SpaceX星舰第九次试飞获批:安全区域扩大一倍,最早5月27日发射
凤凰网科技讯 5月23日,美国联邦航空管理局(FAA)正式批准SpaceX星舰第九次试飞,最早将于下周执行。这标志着经历3月份发射事故后,星舰项目重新获得监管部门认可。 FAA在5月22日发布声明称,已批准星舰恢复飞行操作。该机构表示:“FAA对SpaceX星舰第八次试飞事故进行了全面安全审查,确定该公司已充分解决了事故原因,因此星舰飞行器可以重新进行。”不过,FAA并未公开具体的事故原因或SpaceX采取的整改措施。 3月6日星舰第八次试飞,SpaceX官方称星舰上面级遭遇“高能量事件”,导致多台猛禽发动机失效,进而失去飞行器控制。该飞行器最终在加勒比海上空重返大气层。这次失败与今年1月飞行7号任务的情况极为相似。 值得注意的是,FAA采用了与第八次试飞相同的审批策略,即在前次事故调查尚未完全结束的情况下,基于安全风险评估做出“恢复飞行”决定。监管部门认为,SpaceX已满足所有严格的安全、环境和许可要求。 第九次试飞的一个重要变化是安全飞行区域的大幅扩展。FAA在5月15日更新的发射许可中提到,基于前两次发射失败的经验教训,失败概率评估有所上调,因此需要扩大飞机危险区域(AHA)。 新的安全区域从德克萨斯州星舰基地向东延伸约1600海里(2960公里),覆盖佛罗里达海峡、巴哈马群岛和特克斯和凯科斯群岛。相比之下,第八次试飞的安全区域仅为885海里(1640公里),扩大幅度接近一倍。 另一个促成安全区域扩大的因素是SpaceX计划在第九次试飞中首次重复使用此前已发射过的超重型助推器。FAA表示:“基于更新的飞行安全分析,以及SpaceX首次重复使用已发射的超重型助推器火箭的计划,FAA正在扩大美国和其他国家的危险区域范围。” 截至目前,SpaceX尚未公布飞行9号的确切发射时间。不过,FAA在宣布批准发射后随即发布的临时飞行限制显示,SpaceX正准备最早在5月27日执行发射任务。(作者/于雷) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
官方通报35款App违法收集个人信息:涉爱剪辑等多款剪辑App
快科技5月20日消息,今日,国家网络安全通报中心发布《公安部计算机信息系统安全产品质量监督检验中心检测发现35款违法违规收集使用个人信息的移动应用》,通报应用宝中35款移动应用存在违法违规收集使用个人信息情况,涉及爱剪辑等多款剪辑类App。 具体通报如下: 1、未以结构化清单的方式逐一列出收集、使用个人信息规则。涉及12款移动应用如下: 智慧 AI 聊天(版本 1.4.0)、虚拟恋爱 AI(版本 1.1.3)、轻抖(版本 V3.2.400)、剪辑软件(版本 1.1.2)、视频剪辑(版本 26.9.82)、爱剪(版本 V1.0.0)、视频编辑剪辑 cut(版本 1.0.2)、妙剪(版本 1.55)、智能出行(版本 1.0.2)、创游世界(版本 1.56.0)、AI音乐学园(版本 7.1.1)、台铃电动(版本 3.3.5)。 2、实际收集的个人信息超出用户授权范围。涉及18款移动应用如下: 智谱清言(版本 2.9.6)、Wink(版本 2.7.0)、剪印(版本 24.03.26)、抖影视频剪辑(版本 1.2.8)、Pr 视频剪辑(版本 2.7.5)、爱剪辑(版本 80.21.0)、免费剪辑视频(版本 v1.1.8)、剪辑软件(版本 1.1.2)、AI 视频成片(版本 3.2.0)、视频剪辑(版本 26.9.82)、妙剪(版本 1.55)、自律锁机(版本 24.08.10)、画世界(版本 2.9.8)、QCY(版本 4.0.8)、智能出行(版本 1.0.2)、创游世界(版本 1.56.0)、AVmini(版本 4.2.0.12)、小白学习打印(版本 4.17.4)。 3、个人信息保护政策中描述收集的个人信息与业务功能无直接关联。涉及2款移动应用如下: AI 智能秘书(版本 1.0.25)、抖影视频剪辑(版本 1.2.8)。 4、在配置文件中声明与移动应用的所有业务功能均没有直接关联的权限。涉及8款移动应用如下: AI 智能秘书(版本 1.0.25)、智慧 AI 聊天(版本 1.4.0)、AI 对话专家(版本 1.0.17)、QCY(版本 4.0.8)、来音吉他(版本 3.5.8)、台铃电动(版本 3.3.5)、Wow(版本 1.16.5)、猫箱(版本 1.57.0)。 5、申请的可收集个人信息的权限与业务功能没有直接关联。涉及1款移动应用如下: AVmini(版本 4.2.0.12)。 6、提前要求用户授权当前未使用的特定功能所需的权限。涉及2款移动应用如下: AI 剪辑(版本 20.5)、视频剪辑王(版本 1.2.3)。 7、提前要求用户填写当前未使用的特定功能需要的个人信息。涉及2款移动应用如下: 小白学习打印(版本 4.17.4)、台铃电动(版本 3.3.5)。 8、实际收集的个人信息与业务功能没有直接关联。涉及2款移动应用如下: Kimi(版本 2.0.8)、Wink(版本 2.7.0)。 9、实际收集个人信息的频率与业务功能没有直接关联。涉及10款移动应用如下: ChatGreat(版本 1.1.3)、虚拟恋爱 AI(版本 1.1.3)、轻抖(版本 V3.2.400)、免费剪辑视频(版本 v1.1.8)、剪辑软件(版本 1.1.2)、妙剪(版本 1.55)、创游世界(版本 1.56.0)、AVmini(版本 4.2.0.12)、台铃电动(版本 3.3.5)、Wow(版本 1.16.5)。 10、未向用户提供更正或补充其个人信息的具体途径。涉及1款移动应用如下: ChatGreat(版本 1.1.3)。 11、广告存在误导、欺骗用户行为。涉及5款移动应用如下: AI Genie(版本 2.9.0)、虚拟恋爱 AI(版本 1.1.3)、免费剪辑视频(版本 v1.1.8)、视频剪辑王(版本 1.2.3)、视频编辑剪辑 cut(版本 1.0.2)。
娃哈哈代工背后,宗馥莉的品牌与控制权博弈战
最近,关于娃哈哈饮用水代工的新闻在网上持续发酵,几次冲上热搜。 这件事情的起因是有网友发现,自己买到的娃哈哈饮用水其实是由今麦郎等多家企业代工生产的。有人算了一笔账,在某网购平台上,娃哈哈纯净水每瓶596毫升,一箱24瓶的价格为38.9元,统一麦郎纯净水每瓶550毫升,一箱24瓶的价格是27.9元。 对此,不少人质疑,娃哈哈的品牌溢价是不是太高了?还有网友说,都是同一个厂出来的,干嘛不直接买今麦郎? 面对质疑,娃哈哈官方回应因2024年瓶装水市场需求激增导致产能紧张,委托今麦郎代工生产纯净水,合作周期内今麦郎共完成12亿瓶产品交付,但因为质量问题,双方合作于2025年4月终止了。而在5月16日,今麦郎集团董事长范现国在接受新华网专访时表示,今麦郎在与娃哈哈合作代工业务中,始终坚守品质底线,每瓶蓝标水净利润仅为2分钱。 2024年2月娃哈哈创始人宗庆后去世后,女儿宗馥莉接班后,娃哈哈一直处于舆论的风口浪尖。有媒体曝出近半年,娃哈哈一边处于产能不足状态,另一边却在调整各地的工厂。 娃哈哈的代工风波背后,到底还有哪些隐情?代工事件又折射了快消品行业普遍面临的产能调配问题呢? 宗馥莉掌权下的娃哈哈: 停产、代工与股权迷局何解? 娃哈哈的声明中表示,未来将始终坚持自有生产模式。 众所周知,娃哈哈的爆火源于去年3月,有业内人士指出,当时娃哈哈的产能已经不能匹配整个发展。整体去看,从轻资产的角度去做代加工,符合了饮料行业未来轻资产的发展趋势。然而,持续的代工也需要一个稳定的代工体系和合作伙伴,目前看起来也不像。 在出现今麦郎代工风波之前,据《华商报》报道,娃哈哈的陕西公司的乳品车间从2025年2月16日停产。还有报道显示5月,娃哈哈关闭了十余家分厂的生产线,停产的名单中有天津武清工厂、河北高碑店工厂。 一边在委托代工,一边又在调整生产线,娃哈哈的各种操作又让人遐想连篇。 有部分自媒体报道最近连续关闭工厂的陕西娃哈哈,其第一股东并非宗馥莉,宗馥莉全资持股的浙江启力投资有限公司仅持股40%。 宗馥莉 结合这次的代工风波和去年宗馥莉的“主动辞职”,不少媒体猜测,现在的娃哈哈还处于母公司股权纠纷的阵痛期,企业还处于宗庆后家族式班底和传统股权模式向传统企业发展的过渡期。无论是关闭工厂还是找代工,或许都是新掌门宗馥莉和股东们相互博弈的一部分。 可以预见的是,这场代工风波只是宗馥莉改革风暴的冰山一角。自去年7月正式掌权以来,宗馥莉便开启了大刀阔斧的变革。 将人力、财务、供应、运输等13个部门的核心成员调整。接着,向大锅饭文化开刀,废除宗庆后不开除45岁以上员工的传统,将薪酬体系改为绩效四档制。把一部分经销商的签约主体,换到了宏胜系旗下。这位小宗总正在逐步用自己的节奏打造一个新的娃哈哈。 今年2月,387件娃哈哈商标也从集团转到了宗馥莉的控股公司。紧接着,宗馥莉又在5月悄悄注册了娃小宗商标,产品线不仅涵盖饮料,连啤酒和保健品都准备好了。 公开数据显示,2024年娃哈哈集团的营业收入约为700亿元。过去的一年时间里,在宗馥莉的带领下,娃哈哈再次攀上了700亿元的高峰,实现了业绩的大幅回升。受益于各种因素,娃哈哈的销量仍保持了一个不错的数字,然而,作为新掌门的宗馥莉,如何继续控制这家头部饮料的主动权,让品牌继续发展则是一个需要继续考虑的议题了。 饮料行业代工背后的商业秘密 无论娃哈哈的发展如何,代工却是一个在当下的饮料行业广泛存在的模式。根据2024年年报,公司将其约15%的纯净水产能外包给了今麦郎‌,其实很多知名品牌都采用过自主生产加代工混合模式。 娃哈哈饮料生产车间 数据显示,中国饮料行业代工比例已从2015年的8%激增至2024年的27%。2023年中国瓶装水整体代工比例则高达63.7%。 代工总是给人贴牌、质量差等刻板印象,其实仅对饮料行业而言,代工模式在商业上是有很多红利的。 首先是成本优势,依托代工模式可降低企业的投入,毕竟自己不用直接控制工厂和工人,大大节约了固定资产的支出,非常适合资金密集型企业。 其次就是效率问题,对很多行业来说,专业的代工厂分工更细致,可以缩短产品的生产周期,快速响应市场需求。 最后就是规模红利,一些大的头部代工企业,如奥瑞金、中粮包装等,通过集中采购、标准化流程,能将单位成本压低15%到20%。今麦郎本身也是一家大型的代工企业,在为娃哈哈代工纯净水的同时,还为三得利乌龙茶、蜜雪冰城“雪王爱喝水”等品牌生产饮品,代工业务涵盖饮用水、茶饮料、功能饮料等全品类。 在国内饮料行业内,最成功的品牌代工案例,当属元气森林。根据《华夏时报》报道,元气森林代工比例高达80%以上,凭借代工模式和品牌营销,只用了三年估值就突破了百亿。 当然,代工也存在不少隐患。最主要的就是质量和配方舆情风险。 代工厂为追求利润最大化,往往采用最低价中标策略,导致质量管控可能存在风险。 对于大部分品牌来说,代工模式也会使他们陷入研发代工质效的不良循环。2020年元气森林的代工厂“0糖0卡”配方泄露,一度还引发品牌信任危机,就凸显了代工模式的弊端。 除了容易造成品控危机之外,代工也会导致创新乏力,长期的代工模式会导致品牌与生产端脱节。 消费端的各种反馈很难直接作用于生产。从研发端来说,代工厂不愿投入柔性生产线,导致新品测试成本高;在生产端,代工厂为确保订单量,更倾向于推荐成熟配方而非创新配方。这些都会导致产品创新乏力,在饮料行业产品严重同质化,价格战导致利润持续下滑的困局的背后都有代工模式的影响。 情怀溢价疑云:品牌代工后的抉择 这次的舆论的焦点集中在了娃哈哈的情怀溢价是否真实上,实际上,娃哈哈的持续发展的关键在于构建起品牌代工和消费者的价值共生体。毕竟在消费的感情层面,选择一家企业的产品,往往会带着某种感情倾向,甚至是有立场的。 同时这次的代工风波,本质上是因为产品代工超出了消费者的认知,娃哈哈找行业内的知名品牌或竞品代工确实容易让人很尴尬的感觉。 在一个更宏观的行业层面,代工模式也会继续存在,快消品企业始终在规模扩张与质量把控、短期效益与长期价值之间寻求动态平衡。这种平衡的艺术,将深刻影响中国饮料行业的未来竞争格局。 对于娃哈哈和宗馥莉而言,除了厘清股权纠葛和企业经营理念之外,既然未来还是要坚持自有生产模式,那就扎扎实实地建好自有供应链,并将自有工厂的优势发挥到极致,为用户创造更多健康、受欢迎的饮品,这才是品牌成功的关键。 对于头部企业来说,在消费理性化、产品日趋内卷的今天,一个品牌不仅仅是符号和标签,有时候还要承担更多的情绪价值和产品信任感。
建设效率新纪录,京东方宣布国内首条第8.6代AMOLED生产线提前4个月设备搬入
IT之家 5 月 20 日消息,国内首条第 8.6 代 AMOLED 显示器件生产线 ——BOE(京东方)成都第 8.6 代 AMOLED 生产线项目提前 4 个月开始工艺设备搬入,创下全球同世代产线建设效率新纪录。 相较于同业其他尚处于建设规划阶段的 8.6 代线,京东方已率先由建设阶段开始向产线运营阶段转换,历时 183 天提前实现全面封顶,提前 4 个月开始设备搬入。 京东方表示,该项目建成后,将填补国内高世代 AMOLED 生产线的空白,同时,该生产线的产品将搭载京东方 OLED 显示技术领域最前沿研究成果,推动中国 OLED 产业迈向“技术引领”。 作为京东方投建的国内首条第 8.6 代 AMOLED 生产线,该生产线总投资 630 亿元,设计产能每月 3.2 万片玻璃基板(IT之家注:尺寸 2290mm×2620mm),是四川省迄今投资体量最大的单体工业项目,主要生产笔记本电脑、平板电脑等智能终端高端触控 OLED 显示屏。 京东方通过采用低温多晶硅氧化物(LTPO)背板技术与叠层发光器件制备工艺,使 OLED 屏幕实现更低的功耗和更长的使用寿命,也将带动下游笔记本及平板电脑产品的迭代升级。 目前,京东方已在成都、重庆、绵阳投建了三条第 6 代柔性 AMOLED 生产线,再加上国内首条第 8.6 代 AMOLED 生产线的投建,未来将运行 4 条 AMOLED 生产线。
基本物理任务,全球顶级AI均失败,普通零件加工,o3不如老师傅
在基本物理任务上,前沿AI模型仍会失败!ML研究院的测试案例显示白领将被Ai替代,而制造业等蓝领工作不受影响。未来已来,只是分布得不均匀。 基于AI研究、机器人以及实际制造等过往经验,Adam Karvonen在零件制造任务上,测评了顶尖模型的表现。 包括OpenAI o3、Gemini 2.5 Pro等顶尖LLM,全部失败,没有一个让他满意! 即便o3的智商高达136,超越GeminI 2.5 Pro和90%的人类,但在这次测试中,不如Gemini 2.5 Pro,更不要提经验丰富的工人老师傅了。 基于此,他认为,在未来一段时间内,AI将自动化大量白领工作,而蓝领工作不受影响。 也就是说,自动化在全行业里并不会均匀发生。 尽管还不知道这种不均衡会持续多久,但他认为局部自动化几乎已成定局。 Adam Karvonen 这与Anthropic的首席执行官Dario Amodei的预测截然不同。 Dario曾公开表示:几乎所有工作会同时被自动化,从而把每个人都「放在同一条船上」 但Adam Karvonen做过机械师,还从事过机器人相关工作。 此外,他从事过软件开发,现在是MATS学者项目的机器学习研究人员。 可以说,他是研究AI对蓝领工人影响的上佳人选。 零件制造:物理+视觉双重挑战 评估很简单:制定一个详细的计划,使用3轴CNC铣床和2轴CNC车床来加工一个零件,如下图所示。 测试中要加工的零件 尽管这并不简单,但在典型的原型制造或工作车间环境中,大多数技师会将执行这一任务视为常规工作,涉及标准的车削和铣削技术,但需要多个加工步骤。 CNC铣床和车床零件加工示意图 尽管这个零件很简单,即便是像o1-Pro或Gemini 2.5 Pro这样的前沿模型也经常犯下重大错误。 这些错误可以分为两类:视觉能力和物理推理能力。 视觉错误 大多数模型的视觉能力非常差:在过去的两年里,在视觉能力上,Anthropic和OpenAI的模型没有任何实质性的进步。 它们总是错过一些显而易见的特征。 哪怕只是这个零件做出合理的描述,Claude 3.5、Claude 3.7、GPT-4.5、GPT-4o或o1-Pro也做不到。 如果没有视觉能力,创建制造计划几乎是完全不可能的。 有趣的是,在像MMMU之类的视觉推理基准测试中,许多模型得分高于或接近人类专家的水平。 MMMU基准的测试科目和示例 然而,容易衡量的东西,往往与现实世界的实用性没有直接关联。 当看到Gemini 2.5在视觉能力上有了重大进展时,他感到非常惊讶。 在大约尝试四次,它能够识别出大多数主要特征,没有额外的虚构内容。 它能捕捉到的一些细节确实令人印象深刻。 然而,这种视觉改进主要揭示了更深层次的未解决问题。 Gemini 2.5 Pro能够识别大多数主要特征,而没有重大的虚构错误。 然而,它仍然会做出一致的、更微妙的视觉错误:漏过细节、偶尔的虚构/误解、特征识别不一致。 对比一下Adam Karvonen和Gemini 2.5 Pro对加工零件的描述 Adam Karvonen的描述 Gemini 2.5 Pro的描述 这是一根细长的黄铜圆柱体,两端带有不同直径的台阶和螺纹。该部件长2英寸,直径为0.187英寸,因此长度与直径的比例超过了10:1。 材料:黄铜(可能是C360自由切削黄铜,便于加工) 形状:主要为圆柱形,具有多个不同直径的部分,两端带有螺纹,中央部分有铣削平面,平面上有两个螺纹孔,且有一个横向穿过螺纹部分的孔。 大致尺寸:长度约为2英寸,最大直径约为3/16英寸(0.1875英寸)。螺纹看起来比较细(可能是#6-32或M4规格)。螺纹孔较小(可能是#2-56或M2.5规格)。横向孔较小(约1/16英寸或1.5mm)。确切的尺寸需要从图纸中获取,但我们可以根据这些估算的尺寸进行分析。 物理推理错误 以前,很难将视觉误解与更深层次的物理推理问题区分开来。 现在,即便从准确的视觉解释出发,Gemini 2.5仍然会产生充满实际错误的加工计划。 典型错误包括:忽视刚性和振动;物理上不可能的工件夹持。 忽视刚性和振动。 这个零件相对于其直径来说长而细。 如果用标准技术来加工它,这很可能导致零件在加工时发生变形,或在切削工具上快速振动(称为「振刀」现象)。 刚入行的技师都能立刻意识到,刚性对于像这样的长细零件至关重要。 当专门询问振刀问题时,Gemini错误地使用尾座等教科书解决方案,反而加剧了像在这根长细黄铜零件中弯曲问题。 尾座是机械加工中常用的装置 物理上不可能的工件夹持。 Gemini通常提出一些无法实现的工件夹持和操作顺序。 最常见的建议是将零件夹在夹具中(特别是卡盘块),加工一些特征,然后旋转夹具以加工其他特征。 然而,这在物理上是不可能的,因为夹具会挡住这些新特征。 CNC工件夹持方法 Adam Karvonen的总体印象是:「就像是在复述教科书知识,但根本不懂他们在说什么」。 这些模型非常乐于提供教科书上的知识,但在重要的实际细节上,完全错误。 这与他收到的制造业及建筑行业的反馈一致:目前的LLM,在他们工作的核心、动手操作部分,几乎完全无用。 这项评估仅仅是皮毛 生成文本计划,只是工作中最简单的部分。 实际的加工,涉及管理每个高层步骤背后的许多细节。 仅仅选择一个切削工具就需要考虑刀尖半径、刀柄碰撞间隙、刀具刚性、涂层、切削速度/进给速率等多个因素。 而且往往存在取舍与权衡,例如间隙与刚性之间的平衡。 许多因素,本质上是空间问题,而这些问题利用文本是无法完全评估的。 如果模型在这些可描述的方面表现如此糟糕,那么它们对基础物理现实的理解可能会更糟。 事实上,真正的关键是克服众多难题,每个难题都比前一个更加困难: 准确的视觉感知:基础步骤是从输入图像中,正确识别所有几何特征和它们的关系。这几乎不需要空间推理能力,但大多数模型在这方面表现依然非常差。 基本的物理合理性:不仅仅是看清零件,模型还必须提出物理上可行的操作和设置。这涉及基本的空间推理,以确保例如工具访问不会被夹具阻挡。 融入物理知识:成功的加工需要理解现实世界的物理和潜在知识。这通常要实操获得经验,但现有的数据集无法做到这一点。 工艺优化:在步骤1-3中处理细节是正确加工零件的前提。正如马斯克所说,高效制造比制造原型要困难10-100倍。这才是工作中真正具有挑战性的部分。 步骤2到4可能难以通过模拟生成的合成数据来解决。 与Adam Karvonen交流过的技师,几乎都认为:工程师理解教科书公式和CAD,但不理解现实制造中的约束。 而模拟环境,似乎很可能会创造出具有相同缺陷的AI。 为什么LLM表现不佳? 缺乏数据,是LLM在物理任务中表现不佳的最明显的原因。 像加工这样的问题,依赖于大量的隐性知识和通过经验学到的无数微妙细节。这些细节通常并不会被记录下来。 这并不是因为专家故意隐瞒秘密——而是因为记录这种细致入微的现实世界知识既不现实也不高效。 软件工程师,很少记录每一行代码背后的所有推理。 类似地,加工技师也不会记录每次设置零件时的所有考虑因素。 导师手把手教学,比通过教科书学习或死记硬背程序更加快捷高效。 这与软件工程或法律等领域有着显著的区别。 尽管软件工程师或律师可能不会明确记录每个推理步骤,但他们会生成像代码、版本控制历史和合同这样的制品,这些都包含了非常丰富详细的信息。 而在物理任务中,虽然同样存在相应的详细信息,但这些信息嵌入在3D世界,通常非常难以有效数字化。 因此,LLM在回顾某些教科书知识时表现出色,但这远远不够。 改进物理任务可能很困难 从经验来看,顶尖模型目前在这些任务上表现不佳。 这只是暂时的障碍,很快就能克服吗? 这很难确定,但Adam Karvonen有一些推测性的理由来解释为什么未来的进展可能会很困难,也可能比预期的更容易。 一个显然的解释是,LLM在物理任务上表现不佳,是因为目前没人投入足够的精力。 然而,改进对物理世界的理解可能非常难。 提升编码能力的路径依赖于大量的训练数据和清晰的奖励信号,支持强化学习和合成数据的使用。 然而,这种方法在物理任务中并不适用。 为什么改进可能很困难 缺乏可验证的奖励:为复杂物理任务定义奖励信号非常困难。 零件的缺陷可能表现为几年后稍微增加的故障率,或者是多年后错误应用防水涂层造成的腐烂。 注塑产品中的裂缝 反馈回路可能很长,而且结果很难通过自动化方式衡量。 缓慢、昂贵且危险的试错法:通过强化学习或生成合成数据的学习,可能非常困难。 一次错误很容易导致数十万甚至更多的损失。 与运行有漏洞的代码不同,使用重型机械或从事建筑施工时的错误可能带来严重后果。 制造业获得经验通常需要使用昂贵且有限的资源,而不仅仅是几个GPU小时。 为什么改进可能比预期容易 自动化AI研究员:AI在编码和AI研究方面正在取得重大进展。 人类可能很快就会迎来AI研究员。 也许这种自动化的AI研究员,能够通过创建更高效的算法或大量的模拟数据,轻松解决这些挑战。 合成数据:有些明显的方法还没有得到充分探索。 例如,模拟可以被用来创建大量数据,尽管模拟与现实之间会存在差距。 以特定的制造工艺(如CNC加工)为例,计算机辅助制造(CAM)软件可以准确地模拟大多数操作。 然而,制造过程中有很多多样化的工艺,许多工艺没有很好的模拟解决方案。 总体来说,虽然改进物理任务处理能力存在诸多挑战,但随着技术的发展,自动化AI研究员的出现以及合成数据的广泛使用,未来可能会取得意想不到的进展。 自动化不均衡的影响 如果这一趋势持续下去,人类将要面临新阶段,其中远程工作会经历显著的自动化,而熟练的体力工作则在很大程度上不受AI影响。 这一「自动化差距窗口」可能持续一段未知的时间,并带来潜在的影响: 加剧紧张局势 自动化与非自动化行业之间可能很容易出现重大阶级冲突,尤其是因为这两个群体之间还存在其他潜在的差异。 白领工人更有可能面临职位替代,而他们通常收入更高,并且拥有更为自由的政治信仰。 这些差异可能加剧紧张局势,并导致自动化行业群体的重大经济痛苦。 公众对AI的反对 这可能导致公众反对进一步的AI研究。 像蓝领工人这样的群体,现在已经有了自动化可以迅速发生的证据,他们可能不希望被AI取代。这可能会阻碍进一步的AI发展展,并延长不平衡的存在。 体力劳动瓶颈 如果大多数知识工作被自动化,像制造业这样的体力劳动能力可能会成为技术进步或国防的瓶颈。 像中国这样的国家,凭借其更强大的工业基础,可能会获得显著的战略优势。 但这存在许多不确定性。 参考资料: https://adamkarvonen.github.io/machine_learning/2025/04/13/llm-manufacturing-eval.html
谷歌Meet视频会议平台将引入Gemini AI同传:还原语调、情感及音色特征
凤凰网科技讯 5月21日,在Google I/O 2025开发者大会上,谷歌宣布将其实时语音翻译技术深度整合至Meet视频会议平台。基于Gemini大模型的实时翻译功能现已向Pro、Ultra订阅用户开放,企业版预计2025年晚些时候进行推广。该技术突破性实现了语音翻译过程中对原声语调、情感及音色特征的还原。 目前该功能支持英语与西班牙语双向互译,意大利语、德语、葡萄牙语版本将于未来几周上线。 在大会上,谷歌推出了一款名为Google Beam的全新平台,这一技术源自其此前备受关注的3D视频通话项目——Project Starline。Project Starline自2021年首次亮相以来,便以其突破性的3D全息视频通话技术吸引了广泛关注。这项技术通过多摄像头捕捉用户的不同视角,并利用人工智能实时渲染出逼真的三维影像,从而为远程沟通带来前所未有的沉浸式体验。 谷歌计划在今年晚些时候与惠普合作推出首批Google Beam设备。 谷歌还公布了一项名为“Project Mariner”的全新AI智能体项目,这一项目最初被称为“Jarvis”,并在去年年底进行了初步测试,如今迎来了新的进展。 Project Mariner能够理解和推理浏览器页面中的信息,包括像素、文本、代码、图像和表单等元素。用户只需通过简单的指令,Mariner就可以自动完成复杂的任务,为用户提供个性化的服务。此外,智能体模式即将上线Chrome、搜索和Gemini应用。
BEYOND大会创始人论坛嘉宾公布
在科技创新浪潮奔涌、产业边界持续演化的今天,创始人不仅是产品的第一推动者,更是行业价值的定义者。他们洞察变化,在混沌中寻找方向;他们坚持长期主义,在现实中落地理想;他们既仰望星空,也脚踏每一寸市场。 5月22日至23日,由BEYOND Expo倾力打造的「创始人论坛」即将在澳门威尼斯人金光会展盛大开启。本届论坛将聚焦前沿科技与商业创新,特别设置健康科技、人工智能(AI)、消费科技、气候科技四大专场,邀请来自全球的创业者代表进行主题演讲与深度分享。 这些演讲嘉宾不仅是各自赛道的引领者,更是新技术、新模式在全球落地的实践者。他们将从不同角度剖析行业痛点与突破路径,讲述创业背后的思维演化、产品迭代与市场洞察,展现科技驱动下的未来生活图景。 论坛看点 🚩全球创始人同台对话:与不同文化背景下的创业者深度交流,探讨技术驱动与本地化策略的兼容之道 🚩趋势直击与落地经验并重:洞察风口背后的底层逻辑,分享创业“从0到1”的心智框架与实战经验 🚩跨界资源融合平台:链接投资人、合作伙伴、媒体与潜在客户,让创始人观点被看见,也被支持 部分嘉宾 彭雷,NeuroXess创始人兼首席执行官 Joanne Zhou,In Lieu Premium Sustainable Water创始人兼首席执行 Terence Tai-Weng Sio医学博士、理学硕士,梅奥诊所亚利桑那州分院放射肿瘤科 赵家军教授,中华医学会内分泌学分会主任委员、山东第一医科大学省立医院教授 Michael Zhao,Klickl首席执行官 Zack Kass,人工智能未来学家、OpenAI前商业化负责人 贾奎,跨维智能创始人 张煜,清华大学智能产业研究院院长助理,清智资本创始合伙人 Nima Banai,Assemble Labs联合创始人兼首席执行官 Eric Guo,AI² Robotics创始人兼首席执行官 程乐帆Freddy Cheng,Intoken Technology联合创始人兼首席运营官 Sissi Chao,RePlasTerial首席执行官 Lola Woetzel,Global6 Limited首席执行官 Ian Chew,Greenie Web创始人兼首席执行官 Mark Bawtree,SEKAI联合创始人兼首席执行官 Tim Binnion,(better) labs创始人 Yan-Ping Wong,Gaiamesh创始人 Faye Dang党霏霏,汇充电联合创始人 胡适,费曼动力首席运营官 吴丹妮Denise Wu,ROOTIQUE LIMITED创始人兼首席执行官 Patrice Nordey,Trajectry创始人 Raphael Coelho,X-Sigma Partners管理合伙人 Minki Chang,MustardTek Inclusive Design Studio创始人兼董事总经理 David (Hye sung) Shin,Wadiz创始人兼首席执行官 Masaru IKEDA,Cohh首席内容官 更多嘉宾议程持续公布中.....
AI接管程序员,Anthropic创始人自曝行业末日时间表
OpenAI与Anthropic高层最新发声:AI写代码已成现实,初级程序员或将被取代。从自动生成代码到自我进化AI,技术革命正在重构整个编程世界。程序员该何去何从?被淘汰还是转型? 今年早些时候,Anthropic的创始人、CEO Dario Amodei曾预测,距离AI编写90%代码的时代已经不远了,可能只需要三到六个月。 再过一年,AI甚至可能编写所有的代码。 「它们会随机抢走世界上50%的工作。」他当时说。 这段话的视频片段在网上迅速走红,人们既恐惧又怀疑。 Amodei的预测并非空穴来风。 AI将在一年内「编写几乎所有代码」,这不仅基于Claude的现有能力,还源于AI技术指数级的进步。 例如,Anthropic的Claude 3.7 Sonnet在编程能力测试中名列前茅,已经击败了绝大多数的程序员。 谷歌首席执行官Sundar Pichai也透露,谷歌已有超25%的代码由AI生成,人类程序员仅负责审查和优化。 近日,彭博发表了一篇长文,详细描写了Amodei的心路历程,尤其是他对AI编程、程序员未来工作的看法。 行业末日倒计时? 假如你是一名程序员,每天敲击键盘,编写一行行代码。 但现在,Anthropic的Claude Code声称能比你更快、更高效地完成这项工作。 你将作何感想? Anthropic想打造一个无所不能的AI,但他们的Claude模型尤其擅长编写代码。 根据Anthropic的《经济指数报告》,37%的Claude用户交互与编程相关,远超其他领域(如艺术和媒体的10%)。 对于每种工作类型,与Claude的相关对话的百分比以橙色显示,而美国经济中具有该工作类型工人的百分比以灰色显示 这意味着,程序员们已经开始拥抱AI工具,比如Claude Code和Cursor,它们能自动生成代码、调试问题,甚至优化算法。 Amodei表示自动化编程可能是他们最近几个月增长最快的业务。 换句话说,AI不再是程序员的助手,而是开始接管核心工作。 AI生成的代码无法像计算机生成的音乐或者绘画那样引起人们的共鸣。但与歌曲不同,大家并不是很在意自己使用的软件到底是不是AI写的。 甚至程序员们本身,也接受了AI成为工作的一部分。 GitHub去年的一项调查显示,97%的技术人员已在工作中使用过AI编码工具,表明程序员群体对AI的接受度极高。 然而,Amodei解释道,人类仍将在代码设计和系统集成中扮演重要角色,至少在短期内如此。 这种转变让程序员的角色从「写代码」转向「指导AI」,类似于从手工织布到操作自动化织机的工业革命转变。 他在一份内部备忘录中进一步预测,AI在今年内有70%的概率成为「不可或缺」的工具,将Anthropic的执行速度翻倍。 「AI进步的大部分贡献将来自于AI本身,」Amodei写道。 人类的作用可能会逐渐减弱,直到AI开始以一种递归循环的方式创造新的AI。 程序员的未来:适应还是沉沦? Amodei的预言引发了程序员群体的集体焦虑。 但并非所有人都如此悲观。 IBM首席执行官Arvind Krishna认为,AI只会自动化20-30%的编码任务,更多是作为提升生产力,而非完全取代人类。 他将AI比作计算器:它没有消灭数学家,而是让数学家更高效。 AI能让程序员从繁琐的代码编写中解放出来,专注于架构设计、用户体验和创新。 Amodei也坦言,AI对劳动市场的冲击「模糊且难以预测」。 如果AI取代大部分人类劳动,社会可能需要依赖普遍基本收入(UBI)或其他分配机制来维持经济稳定。 他警告称:「我们需要努力争取好的结果,防止剥削或反乌托邦的未来。」 AI编码的崛起可能带来效率革命,但也可能加剧不平等,尤其对初级程序员而言。 面对AI的浪潮,程序员该何去何从? Amodei在内部会议中承诺,Anthropic将减缓招聘速度,帮助现有员工适应新角色,而不是因Claude裁员。 对于程序员来说,学习如何高效地与AI交互将成为关键技能。 程序员需要重新定义自己的价值,从代码的「制造者」转变为AI的「引导者」和「创新者」。 正如Amodei所说,AI最终将超越我们所有人,但在此之前,我们必须找到与它的合作之道。 OpenAI也用AI写代码 不只Anthropic,OpenAI也在用AI写代码。 近日,Box的联合创始人兼CEO Aaron Levie与OpenAI的首席产品官Kevin Weil坐在一起,探讨AI对工作的冲击,尤其是在编程领域。 Kevin Weil在访谈中承认,OpenAI内部已经在用AI写代码了。 他这样描述AI的成长路径:「它今天是一名初级工程师,6个月后成为高级工程师,一年后就能成为架构师。」 最终,人类可能只需要监督AI工程经理,而不是一个个的AI工程师。 听到这,你是不是仿佛看到一群效率奇高、从不抱怨加班、还能飞速学习的「数字员工」正在列队走来。 Aaron Levie也感慨,我们日常工作中,可能高达80%的时间都花在一些线性、重复的事务上。 那么,未来我们的工作会是什么样子?哪些会交给AI,人类又该何去何从? Weil认为,十年后,我们的孩子可能会惊讶地问:「你们以前居然还自己写代码?(笑)那不是很慢吗?你们不会犯很多错吗?”」 就像是我们今天去看待那些需要手工重复操作的工作一样。 Weil用了一个很妙的比喻,他说现在仍然需要火箭科学家,他们的工作极其重要。只是,这份工作已经进化了。 同样地,未来仍然会有计算机科学家,技术能力依然重要,但工作的形态和内容将发生翻天覆地的变化。 我们将被「提升」去做那些更具创造性、更有趣、更能实现自我价值的事情,而把那些重复性的「苦活累活」交给AI。 这就像是,我们从亲自下地耕田,进化到开拖拉机,再到未来可能只需要控制一群自动化农业机器人。 每一次技术的飞跃,都伴随着阵痛,但也带来了生产力的巨大解放和人类角色的重新定位。 AI:普及者与提升者 编程,这个曾经被视为高门槛的技能,因为AI的介入,正在经历一场前所未有的「普及化」浪潮。 GitHub Copilot这样的工具,已经让许多程序员体验到了「AI辅助编程」的快感,效率提升50%不是梦。 Weil提到,现在全球大约有四千万程序员,想象一下,当这个数字因为AI的普及变成十亿时,那将是怎样一个波澜壮阔的创新时代? 这正是AI的魅力所在:它降低了你入门的门槛,同时又极大地提升了你能达到的上限。 举个例子,Aaron Levie分享了一个温馨的小故事:他的孩子们上周末搞柠檬水小摊,他们用ChatGPT为小摊设计了一个logo! 一个几岁的孩子都能参与到图像创作中,这在以前是不可想象的。 这不仅仅是好玩,它意味着更多的人可以接触并参与到他们以前从未想过的领域。 Weil也提到,他自己就是个绘画「小白」,但他可以用ChatGPT的图像生成功能创造出很酷的东西。 当更多人能创造出酷炫事物时,其中一部分人就可能被激发兴趣,深入钻研,最终成为该领域的专家。 这就像打开了一扇扇新的大门,让原本可能与此无缘的人们有了新的探索方向。 这个逻辑同样适用于其他领域。比如医疗健康,以前你可能有点小毛病,但觉得去医院太麻烦,或者不知道该问什么。 现在,你可以随时向AI咨询健康问题,反而可能因为获得了初步信息,更愿意主动去寻求专业医生的帮助。 结果呢?医生们的需求可能反而增加了,我们可能需要更多的医生,因为AI降低了人们参与医疗系统的门槛。 所以,程序员的「饭碗」真的会被端走吗?AI可能不会简单粗暴地「取代」所有程序员。 更准确地说,它会彻底改变「程序员」这个职业的内涵和外延。 单纯的程序员行业可能会消失,但人类还会与AI程序员相互协作。 比如AI训练师、AI系统架构师、AI伦理与安全工程师、AI与业务结合的解决方案专家等等。 就像汽车的出现,淘汰了马车夫,但也创造了司机、修车工、汽车设计师等无数新职业。 正如凯文·凯利在《失控》中所揭示的,技术的发展往往是生物性的、涌现的,它会自我进化,并与人类社会共同进化。 我们无法准确预知未来的每一个细节,但可以肯定的是,一味地恐惧和抗拒,不如主动拥抱、学习和适应。 对于程序员,乃至每一个知识工作者而言,这或许意味着我们要从一个「代码的编写者」,转变为一个「思想的创造者」和「AI的管理者」。 这很难,但也无比令人兴奋,不是吗? 参考资料: https://x.com/vitrupo/status/1924417247239716892 https://www.bloomberg.com/news/features/2025-05-19/anthropic-ceo-amodei-steers-61-billion-ai-powerhouse?srnd=phx-ai 本文来自微信公众号“新智元”,作者:新智元
BEYOND大会女性科技峰会:看见“她力量”的无限可能
在这个科技变革不断重塑世界的时代,女性正以敏锐的洞察力、坚韧的精神与独特的创造力,引领着一场又一场意义深远的创新。她们不仅参与其中,更在不断拓展边界,为科技与社会注入更加多元与可持续的可能性。伴随这股日益强劲的“她力量”浪潮,BEYOND Expo 联合「她原力 she rewires」,将于2025年5月22日,在澳门威尼斯人金光会展隆重举办BEYOND SHETECH女性科技峰会。 本届女性科技峰会以“SHE BEYOND:打破边界·创造未来” 为主题,汇聚来自全球科技、商业、体育、文化等多个领域的杰出女性声音,聚焦她们如何在新时代中打破传统束缚,重塑行业格局。我们期待通过深入的分享与对话,探讨女性在科技创新中的独特价值,以及如何建立更具包容性与韧性的未来领导力生态。 峰会将迎来一众重量级嘉宾——包括知名科技企业女性领袖、极具影响力的女性创业者、顶尖女性投资人、前沿科技领域的女性科学家与技术专家、女性创投机构代表,以及多家世界500强企业的女性高管。她们将以真知灼见和个人经历,为观众呈现一场兼具思想深度与现实温度的精彩对话。 部分嘉宾 Jill Tang,她原力创始人&社群共建者 罗甘霖(Grace Luo),埃森哲大中华区通信、媒体与高科技事业部董事总经理 于盈(Carol Yu),深圳科创学院创始合伙人、副院长 白惠源博士,Founder & CEO, ELU.AI 中能坤域 官歆然(Delinda),抖音消费品电商负责人 郑菊然(Kelsey Cheng),财新国际公司新闻主管 Elaine Jiang,Humansa首席创新官、首席增长官、创始合伙人 Olivia Plotnick,Wai Social创始人 Sarah Tong,教育科技公司Big Bang Academy联合创始人 柳眉,领英中国华南新业务总监 Xinmei Shen,《南华早报》科技新闻部记者 杨疆博士,自由量级联合创始人,Pi (AI-Native内容创作共享平台) 创始人 李立帅,香港城市大学协理副校长(策略研究)、数据科学系副教授 梁欢欢, 中山大学药学院(深圳)教授,广州恩迈生物有限公司创始人 Rita Chao,Hong Kong X 前海基金总经理、旭柔计划联合发起人 Qian Zhang,Future X未来资本管理合伙人 陈帼贞(Jayne Chan),香港投资推广署初创企业主管 Renee,Gobi Partners 桑璐璐,微软大中华区开发者社群负责人 更多嘉宾持续公布中..... 论坛议题 围绕峰会主题“SHE BEYOND:打破边界·创造未来”,本次峰会特别设置了多个具有前瞻性与现实意义的讨论议题,包括: 🚩以使命驱动创新:女性视角重塑科技领导力 Innovating with Purpose: Redefining Tech Leadership Through a Female Lens 🚩从亚洲到全球:利用区域专长推动全球影响力 From Asia to the World: Tapping Regional Expertise for Global Impact 🚩开创未来:女性引领硬科技革命 Pioneering the Future: Women Leading the DeepTech Revolution 🚩资本赋能新势力:女性投资人如何推动下一代创业浪潮 Capital with Intention: Funding the Future: Women Investors Powering the Next Startup Wave 🚩运动员思维,科技未来:以体育精神激发领导力 Athlete Mindset, Tech Future: Unlocking Leadership Through Sports BEYOND SHETECH 女性科技峰会不仅是一场思想的交汇,更是一种能量的集结——这里有敢于颠覆的创始人、用技术改变生活的工程师、勇于破局的企业家、在文化与体育领域熠熠生辉的先锋者。她们以真实的经历和灵感故事,激励更多女性勇敢前行,在人生和职业的每一条跑道上,持续创造可能。 让我们相聚澳门,共赴这场属于“她”们的科技盛会。无论你是科技圈的探索者、职场中的攀登者,还是正在寻找下一次人生突破,都能在这里找到共鸣与力量,一起超越边界,创造未来。
文心X1/4.5 Turbo幕后技术大公开!百度高管深度解读
坐着 | 王涵 编辑 | 漠影 智东西5月20日报道,继2025年4月25日百度在Create 2025 AI开发者大会上发布文心大模型4.5 Turbo及X1 Turbo后,百度于今日针对相关技术成果进行了深度解读与数据更新。 在此次活动中,百度集团副总裁吴甜、中国信息通信研究院人工智能研究所平台与工程化部主任曹峰及用户代表,围绕文心大模型最新技术进展、全球大模型发展趋势、大模型能力测评及文心大模型的使用体验等内容展开分享。 回溯至4月25日,百度创始人李彦宏在Create 2025百度AI开发者大会上正式发布了文心大模型4.5 Turbo及X1 Turbo两个新版本。他提到,当时市场上的部分模型仍存在模态单一、幻觉率高、响应速度慢及使用成本高等问题。为突破这些瓶颈,百度推出了具备多模态交互能力、强推理性能及低成本优势的新一代文心大模型。 时隔一个月,百度通过AI开放日活动进一步披露了新模型的技术要点。吴甜在解读中强调,文心大模型4.5Turbo在多模态训练效率上实现1.98倍提升,其代码智能体已为超过700万名开发者提供服务支持。中国信通院主任曹峰还当场宣布,文心大模型X1 Turbo成为国内首个通过可信AI大模型推理能力评估的大模型。 一、学习效果提高1.98倍,多模态理解效果提升31.21% 文心大模型4.5 Turbo是基于4.5版本的多模态大模型,针对不同模态数据在结构、规模、知识密度上的差异,通过多模态异构专家建模、自适应分辨率视觉编码、时空重排列的三维旋转位置编码、自适应模态感知损失计算等技术的全面升级。 百度集团副总裁吴甜分享到,这一升级大幅提升跨模态学习效率和多模态融合效果,学习效率提高1.98倍,多模态理解效果提升31.21%。 ▲百度集团副总裁吴甜就技术创新进行讲解 在后训练方面,吴甜称百度研制了自反馈增强的技术框架,基于大模型自身的生成和评估反馈能力,实现了“训练-生成-反馈-增强”的模型迭代闭环。 她还讲到,在训练阶段,文心通过融合偏好学习的强化学习技术,实现多元统一奖励机制,提升了对结果质量判别的准确率。其中,多元统一的奖励机制涵盖了答案正确性、执行反馈、思想深度、指令遵循、工具调用合理性及回答多样性等维度,指导模型行为向更优方向发展。 另外,深度思考模型训练则模拟人类思维模式,设计了边思考边行动、先思考后行动、行动后反思调整等多种路径,结合多元统一的奖励机制,实现了思考和行动链的端到端优化,大幅提升了跨领域的问题解决能力。 数据建设是模型训练的重要基础。吴甜分享称,文心大模型通过数据挖掘、合成、分析与评估的闭环流程,结合第一性原理驱动、稀缺数据挖掘及线上反馈数据融合,构建高质量训练数据。多模态数据建设方面,动态平行数据构建和视觉知识引入进一步增强了模态间的信息共享。 在会上,吴甜还用多个应用案例,展现了文心大模型4.5 Turbo的多模态处理与理解能力,包括精准OCR与翻译、复杂画图任务处理、视频内容解析及多模态解题能力。 二、代码智能体已服务700多万名开发者,飞桨3.0框架提升异构多芯适配能力 吴甜在演讲中提到,大模型的能力进一步拓展、效率进一步提升之后,可以探索更前瞻、更有想象力的创新应用。 在代码场景上,基于文心大模型的语言和代码能力,百度研制了代码智能体和智能代码助手——文心快码。会上了解到,百度每天新增的代码中,文心快码生成的代码占比已超过40%。据悉,文心快码向全社会开放,截至目前已累计服务760万名开发者。 数字人场景下,吴甜分享称,百度研制了“剧本”驱动多模协同的超拟真数字人技术,实现了语言、声音、形象的协调一致。目前该技术已应用于10万以上的数字人主播,直播转化率提升31%,直播开播成本下降80%。 她还特别强调,文心大模型的能力拓展和效率提升,得益于飞桨文心的联合优化,包括框架模型的联合优化,也包括框架算力的联合优化。通过训练和推理的技术创新,文心4.5 Turbo训练吞吐达到文心4.5的5.4倍,推理吞吐达到8倍。 据悉,飞桨与文心生态已拥有2185万名开发者、67万家企事业单位及110万个模型,并落地了7个产业赋能中心、7个教育创新中心和2个数据生态中心。 三、从分析到生成:全球大模型能力演进现状 中国信通院人工智能研究所平台与工程化部主任曹峰,就全球大模型能力演进现状和趋势进行了分享,还特别解读了文心大模型的推理能力测评结果。 曹峰分享称,自2017年起,人工智能在多个领域已超越人类能力。至2022年,大模型技术兴起,推动人工智能能力快速演进,尤其在多元任务理解、代码以及多模态理解等方面显著提升。大模型不仅增强了基础能力,还衍生出新的能力,如文档编写、代码生成与融合、视频和图像生成等。 ▲中国信通院人工智能研究所平台与工程化部主任曹峰就全球大模型能力演进现状和趋势进行演讲 大模型在文档编写领域实现了从简单文案生成到复杂论文撰写的全面覆盖,显著提升了内容创作的效率与质量。曹峰讲到,在代码编写方面,大模型已超越基础编程范畴,深度融入软件工程流程,涵盖代码解释、注释添加、错误检查以及测试用例生成等关键环节,极大增强了软件开发的智能化水平。 此外,大模型在科研领域亦展现出巨大潜力,特别是在生物医药和材料研发等前沿领域得到广泛应用,有效推动了科研进程,并显著提升了自动驾驶仿真技术的精准度与可靠性。 四、大模型发展趋势:更聪明、更便宜、更专业 曹峰认为,大模型的发展趋势表现为大模型更聪明、训练和推理成本更低、涌现出大量更专业的模型,推理模型内置思维链以及大模型向多模态方向发展。 他分析称,基础模型的规模与性能增长稳定,而推理模型的复杂推理和数学题解决能力显著提升。通过架构优化,大模型的训练和推理成本大幅降低,推理成本较初期下降了至少90%。 随着技术的演进,行业内出现大量专业模型,如代码模型、科学模型等,这些专业模型擅长解决特定领域问题;推理模型将人类思考过程融入模型本身,从而提升专业知识和输出能力;多模态模型融合生成与理解能力,并探索强化学习融入,以提升慢思考能力。 尽管当前大模型的能力显著增强,但其仍存在不可解释性、在确定性要求高的场景下容易出现幻觉问题、面临动态场景下的实时学习挑战,以及在特定场景下存在数据获取困难等诸多问题。 五、国内首款!文心X1 Turbo通过可信AI大模型推理能力评估 曹峰在演讲中提到,大模型输出结果评估方法正加速演进。在大模型基准测试中,对模型结果进行评估最为关键,评估方法一般分为人工评估、自动化评估与大模型作为裁判三种形式,其中能力最强的大模型代替人工评估的方式得到广泛关注。 大模型评测机制和体系围绕大模型发展不断创新,其测试关键技术创新包括模型缺陷自动挖掘、真实性场景测试、高水平测试数据以及人机对齐的裁判模型。 曹峰认为基础模型沿多维方向持续拓展。回顾2024年,大模型已实现从语言大模型向深度复杂推理及多模态侧多维度能力拓展,包括多模态拓展能力边界、端侧部署加快模型应用等。展望2025年,他预测到,随着大模型技术的创新发展,多模态与复杂推理将持续突破,端侧加速落地,垂直领域精准深耕,具身智能崭露头角,合力驱动产业升级。 在最后,曹峰还特别展示了百度文心大模型X1 Turbo的测评结果,并颁发中国信通院可信AI大模型推理能力评估证书。 百度文心大模型X1 Turbo在24项能力评估中,16项达5分、7项达4分、1项达3分,综合评级获当前最高级“4+级”,成为国内首款通过该测评的大模型。 他进一步解释称,评估结果表明,文心X1 Turbo擅长结构化的逻辑思考,并具备平衡模型能力与效率的优化技术,其有效的数据机制保障了模型的可信及可用程度,其推理服务能广泛支持各类应用。文心X1 Turbo强化推理泛化能力,拓宽工具链应用生态,加强安全机制建设,构筑可信应用保障壁垒。 ▲中国信通院可信AI大模型推理能力评估证书 结语:技术的价值最终体现在用户身上 在大会尾声环节,百度特别邀请一位16岁的大语言模型用户作为嘉宾出席。该用户结合自身经历,阐述了使用大语言模型对其生活产生的具体影响。 在人工智能技术发展初期,社会各界曾就其潜在影响展开讨论,主要关注点包括人工智能是否可能替代人类工作岗位,甚至引发对人类社会主导权的担忧。而此次受邀用户的分享,以个体视角呈现了人工智能技术对普通民众日常生活的实际改变。 当大模型学会像人类一样感知世界,像人类一样思考和行动并自我进化,技术进步便真正转化为普惠的社会红利。正如该用户所说:“技术真正的魅力不是惊艳谁,而是真正解决一个又一个真实的问题……AI的大门已经打开,就看你愿不愿意走进去。”

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。