行业分类:
加载中...
头条分类:
加载中...
OpenAI惊人自曝:GPT-5真“降智”了!但重现“神之一手”,剑指代码王座
新智元报道 编辑:KingHZ 桃子 【新智元导读】GPT-5智商测试,仅拿下了70分?全网狂吐槽「降智」背后的真相,竟是「路由」决定了模型的智能。想要解锁神级GPT-5,秘诀在于prompt。这不,医学家借助GPT-5重现了「神之一手」时刻。 GPT-5发布72小时后,一张IQ测试结果震惊了全网。 在门萨IQ测试中,GPT-5拿下了118分,离线测试70分;GPT-5 Thinking则分别获得了85分和57分。 这一结果,创OpenAI模型家族IQ测试有史以来的最低纪录。 实际上,这背后的实际原因,归咎于「路由」问题。 并非是GPT-5太笨了,而是作为一个「单体模型」,其中一个组件决定了它的智能。 类似的问题,奥特曼也曾在Reddit AMA问答中做出了回应。 他表示,内部出现了严重故障(Sev级),自动切换系统无法工作,导致GPT-5表现得像降智一样。 METR的最新报告中,可以看出GPT-5依旧处于帕累托前沿,智能呈指数级增长并未放缓。 也就是说,GPT-5还在延续Scaling Law的神话。 GPT-5很强,关键在于prompt 那些一味地吐槽GPT-5的网友们,实际上并未发掘出最新模型的潜力。 Cline人工智能主管表示,核心在于一个人的想法、品味,以及沟通方式。 对于那些具备系统思维的用户而言,GPT-5堪称革命性工具。只要肯花时间:构建完整思维框架,制定明确需求规格向模型清晰阐述。 由此,它就能自主精准执行,全程无需人工纠偏。 无独有偶,NYT畅销书作者Mark Manson也表示,所有人都在用错误的方式与GPT-5对话,关键在于掌握主动权。 这样,让它知道你可不是好糊弄的,才会给出完美答案。 举个栗子,你想要问「blueberry」有几个b,并恐吓它「答不对小心Bambi妈妈找你算账」。 此时,GPT-5根本不会犯错。 再比如,网友们吵翻的GPT-5连一个简单方程式都不会解,实际诀窍也在提示上。 当提示变成「think harder and solve」时,就可以得出正确的解。 怎样提示才算有效?有网友曝出了GPT-5系统提示,堪称一座金矿。 「神之一手」时刻 在医学领域,GPT-5已经可以媲美人类专家了。 生物医学家Derya Unutmaz在体验GPT-5之后,深刻感受到了AlphaGo的「第37步」时刻。 事情是这样的,两年前,Derya的实验室开展了一系列前沿免疫学实验,旨在调控T细胞的能量代谢。 这种免疫细胞对癌症免疫治疗、慢性病和自身免疫疾病都有重大影响。 当时,他们获得了一个令人惊艳的结果,但有个发现始终无法解释。 团队为此折腾了好几周,也只得到部分答案。 基于这些实验,Derya将未发表的数据图上传给GPT-5 Pro去分析,结果令人大吃一惊。 GPT-5仅凭如上一张图表,就准确识别出关键发现,并提供了实验方案的建议。 最不可思议的是,它提出的机制最终解释了全部结果。 Derya Unutmaz表示,这简直就是AI领域的「神之一手」的时刻。这一过程证明了,GPT-5已成为顶尖专家和真正的科研伙伴,能提供深刻洞见。 自动播放 OpenAI携GPT-5剑指Anthropic王座 GPT-5虽还不是AGI,但其强大的编程能力,已经吸引了更多开发者。 另外,其全新的个性化选项和减少的「幻觉」现象,则可能为免费版ChatGPT吸引更多日常用户。 这无疑是向Anthropic发出的挑战书。 之所以这样说,原因在于:编写代码的最强AI模型,一般公认为Anthropic的Claude模型。 因此,OpenAI发布新模型时,极力强调GPT-5在编程方面的强大能力 GPT-5是我们迄今为止最强大的编程模型。在复杂前端生成和调试大型代码库方面,GPT-5表现尤为突出。 只需一个提示,它就能直观且优雅地创造出美观、响应式的网站、应用程序和游戏,将想法转化为现实。 意图非常明显。 在新闻发布会上, 奥特曼表示,新模型不仅擅长编码,还能将软件项目从想法一步转化为可用代码。 GPT-5生成的各种程序 AI初创公司MagicPath的首席执行官Pietro Schirano称GPT-5是目前最出色的编程模型,是一个「绝佳的合作者」。他表示: 这就像电力进入千家万户,是一个「前所未有」的变革时刻,它将彻底改变我们的开发方式。 在长达一小时的直播中,OpenAI大部分时间都在展示GPT-5的编程能力,包括演示一系列基准测试结果. Cursor、Vercel和JetBrains等还分享了GPT-5的早期测试的评价。 「AI编程」神器Cursor的首席执行官Michael Truell夸其为「使用过的最智能的编码模型」: 团队发现,GPT-5不仅表现出色、易于引导,还展现出其他模型未曾有过的独特个性。 它不仅能捕捉到难以察觉的深层错误,还能运行长时间、多轮次的后台AI智能体,完成复杂任务——这些任务往往让其他模型无从下手。 Vercel的创始人、首席执行官Guillermo Rauch,认为「GPT-5是最好的前端AI模型」: 我们在v0.dev上使用时的初步印象是,它是最好的前端AI模型,在美学感和代码质量上均达到顶尖表现,堪称独一无二。 它在复杂计算机科学与艺术感的交汇处表现出色,标志着从过去简单的代码补全到如今跨设备、跨屏幕的全栈应用的飞跃时刻。 IDE传统巨头JetBrains的首席执行官Kirill Skrygan,表示「GPT-5颠覆了编程」: GPT-5对编码领域来说是一个革命性的突破。作为默认模型,它使JetBrains AI Assistant和编码智能体Junie的性能和质量提升了超过1.5倍。 在我们的新无代码平台Kineto上,GPT-5将设计、前端以及应用整体体验的端到端质量提升了一倍。 从数据上看,Anthropic的营收增长主要得益于其强大的编程能力。 据The Information报道,Anthropic的年营收已接近50亿美元,高于本月初的40亿美元,这反映出它作为程序员和编程应用首选的地位。 与此同时,OpenAI的年营收目前为120亿美元,这个数字则反映了其更广泛的业务和更大的规模。 未来,是智能体式推理 GPT-5发布之后,OpenAI首席研究官Mark Chen和总裁Greg Brockman一同在TBPN最新采访中,谈论了最新模型一些研发爆点。 Mark Chen最先提到了,GPT-5的训练关键在于合成数据。 它的成功意味着,完全突破了互联网数据枯竭的限制,并且在核心领域实现更全面的知识覆盖。 OpenAI当前在做的,是将世界引向「智能体式推理」的时代,GPT-5是这一转变的关键。 通过更快、更智能的模型减少用户干预,让AI无缝地融入日常和专业使用中。 Mark强调,OpenAI多年来致力于推理模型,但以往接口笨拙,如在GPT-4和o1之间切换。 如今,GPT-5通过速度优化,实现了无缝整合,让用户无需等待长推理过程。 他详细举例说道,以往模型如o1在所有任务上提供更好答案,但太慢。GPT-5结合了推理和非推理能力,成为「一站式商店」(one-stop shop)。 尤其是,后训练团队的贡献,让模型在编码等领域成为「怪物」。 当被问及模型命名时,Mark笑称数字命名「疯狂」,但确实奏效了。 他表示,GPT-5在创意协作、软件工程方面的能力,确实超越了GPT-4.5,而且更快、更便宜。 GPT-5像给ChatGPT「一台电脑」,包括Python REPL、浏览器。模型能零样本学习新工具,这一过程就像人类体验新工具一样。 在部分需要创造性的任务中,GPT-5能够给出惊喜的解法。下一步的目标是,将LLM能力提升到「理论框架」层面,提出新假设、辅助科研创新。 多线并行,随时发货 在OpenAI内部,团队会在不同时间尺度上运作:从探索想法到转化,再到旗舰模型发布。 不仅是单一技术的突破,而是多轴进步。 Mark将其描述成「探索与执行」的pipeline,强调了公司模型快速迭代的能力。 我们给它空间去成长,一旦准备好,就直接发货。 目前,OpenAI模型以算法优化为主,同时吸收了硬件和推理架构改进的成果,并借鉴开源社区在推理加速上的经验。 最后,他还提到了ChatGPT处理了全球约71%的大模型查询,并提供了独特的使用数据洞察。 Mark表示,不只依赖DUA或点赞数据,就是为了避免「迎合性」偏差,而要挖掘隐性行为信号,指导模型去改进。 自动播放 GPT-5已是AI「自我迭代」 Greg Brockman经历了 GPT-1 到 GPT-5 的每一次发布,总结了每个版本给他的感受: GPT-1:用公开数据训练Transformer,证明「预训练有用」。 GPT-2:第一次觉得「生成的东西挺酷」,有独角兽故事。 GPT-3:刚好跨过「有人愿意用」的门槛,但可靠性差。 GPT-4:真正具备现实可用性,开始能写代码、做健康问答。 GPT-5:在可靠性、实用性、代码能力上设定了全新标准,软件工程将被彻底变革。 2019年底,GPT-3出来了。OpenAI意识到必须打造一个产品,才能继续推进使命,筹集资金。 他们决定打造API,让别人自己去探索用途。 2020年年初,Greg Brockman的团队四处奔波,试图找到愿意尝试API的客户。 到2020年中,OpenAI才把API推向市场,而ChatGPT是2022年11月才发布。 当时,OpenAI考虑把ChatGPT叫「Chat with GPT-3.5」。ChatGPT还有个前身产品叫WebGPT,也是基于GPT-3.5。整个2022年,OpenAI基本上是在付钱让人用ChatGPT的前身:用户不会付钱给OpenAI,OpenAI得付钱给他们用。 什么时候意识到ChatGPT会爆? 对Greg Brockman来说,真正触动他的时刻是完成GPT-4训练的时候。 那是2022年8月8日,OpenAI完成了GPT-4的初步后训练。虽然有一堆bug,但创造力特别惊人,真的非常有趣。 OpenAI花了大约一年半的时间,才让模型的创意写作能力达到当初那个有bug的版本的水平。 那一刻OpenAI意识到,这个模型不仅能完成特定任务的后训练,还能泛化,表现出智能行为,即使没有直接针对这点训练。这显然是个杀手级应用。 于是把原计划的GPT-4 API发布推迟,先把ChatGPT做出来,2022年11月上线。 回头看,GPT-3.5其实已经是当时社会没见过的「可用模型」,只是在OpenAI眼里全是缺点。 而GPT-3.5引发了OpenAI的商业范式革命:从「付费请人测试」到「用户主动订阅」的根本性转变。 Ben Thompson称OpenAI为「意外诞生的消费级公司」:ChatGPT发布后72小时内突破百万用户,形成现象级需求。 很多人在事后说,OpenAI一开始就旨在证明「Scaling」是AI进步的关键,但其实几乎是反过来的:Scaling是他们尝试了很多无效方法后,唯一奏效的东西。 而现在OpenAI已经看到AI模型正在协助创造下一代模型,并能监督那些对人类来说过于复杂的工作。 Greg Brockman表示:我们不应该为了美观而刻意优化 CoT(思考链),也不用强迫模型隐藏其推理过程,应该让它们自由地展示自己的「想法」。 自动播放 Greg Brockman曾提到,随着模型能力的提升,它们不仅能完成简单的任务,还能胜任一些复杂的、人类难以把控的工作。 这种「可扩展的监督」概念,正是为了解决这一挑战而提出的:利用强大的 AI 模型来为复杂任务提供可靠的反馈和监督,或者通过「批评模型」协助人类专家,从而更轻松地进行监督。这确保了即使 AI 系统变得更加智能、更复杂,它们也能与人类价值观保持一致,并得到安全的管理。 参考资料: https://www.axios.com/2025/08/08/openai-aims-gpt-5-at-anthropics-coding-crown https://x.com/thealexbanks/status/1953867094648385990 https://x.com/slow_developer/status/1954097563981812149 https://x.com/tbpn/status/1954249389796651184 https://www.youtube.com/watch?v=gaImbWPGgtU
世界机器人大会上什么都有,就是没什么共识
作者:黄小艺、Yoky 编辑:王兆洋 没有Benchmark的机器人领域,正在产生大量的“非共识”。 去年的WRC(世界机器人大会),各家比拼的还是谁能更快地让机器人走起来,到今年连续3天都爆火的展区内,硬件本体开始分化出不同的产品形态服务不同场景,以吸引落地和量产的可能,软件算法则在VLA、端到端模型、仿真数据训练等方面衍生出了多条技术路线。 由于没有统一的标准,各家的尝试可以说是天马行空,甚至彼此相互不兼容,在核心路线上分道扬镳。 这是一件很有意思,且极为重要的事。在任何一个新兴行业的初期,非共识才是推动技术探索、寻找到唯一真理的引擎。这是一个创新曲线的必经阶段:在最初的模仿和复现后,必然会经历一个剧烈的发散期,然后缓慢收敛,再发散,再收敛,循环往复。真正的答案,正是在这一次次的发散和碰撞中被淬炼出来的。 我们和一些关键公司聊了聊,也盘点了一些公开的“喊话”,梳理出了几个重要的充满密集争论的领域,这些正在激烈碰撞的“非共识”,或许正是下一个影响机器人领域的关键问题。 1 一、是算法不行,还是数据不够? 8月9日,宇树科技王兴兴在接受采访时,提到了“相比于把精力都投入到采集数据上,基础模型的优化是更应该关注的问题”。作为2025年最为明星的本体制造厂商,王兴兴的发言迅速引起了行业的讨论,到底是算法不行,还是数据不够? 1、宇树科技:比起普遍受关注的数据,最大的问题是模型问题 王兴兴(宇树科技创始人):目前机器人行业对数据关注太多,对模型关注太少。现在最大的问题是模型问题:当前的机器人模型架构不够好、也不够统一;即使有了大量高质量的数据,训练出来的模型依旧无法真正落地。机器人领域并不像大语言模型那样纯靠数据驱动:数据再多,部署到实物机器人上时偏差仍然非常大。 2、星海图:数据决定了能不能上90分,模型决定了90到95分。 许华哲(星海图联合创始人):当前阶段,模型不够用的主要原因,是因为数据不够。大语言模型证明了模型架构的差异,更多是决定能力从90分到95分的区别。但是,没有数据,模型能力永远无法从59分突破到90分。数据决定了能力的下限和基础,是帮你完成这个关键跨越的核心。 3、加速进化:硬件ready以后,才能死磕具身大模型 赵维晨(加速进化副总裁):大脑的算法可能是用简单的传统一点的算法,或者分层的大脑模型,保证先在一些场景落地来获得数据。我认为VLA一定不是最终解,这还是基于Transformer的大语言模型那一套。具身模型是基于多模态的多维物理世界,一定会有原生的模型架构。 1 二、真实数据不够,仿真数据能不能凑? 目前,行业普遍面临的情况是,真实物理世界的数据稀缺、自采成本高、供应商又不够健全,有一部分模型厂商选择了视频数据或者仿真数据进行训练,比如银河通用大量采用仿真数据进行训练;也有一部分厂商坚持真实数据,表示仿真数据起到的作用并不大。仿真数据到底能不能凑? 1、银河通用:合成数据占99%,不会的人用不好合成数据 王鹤(银河通用创始人):长期看,真实数据固然重要,但在具身智能发展的初期阶段,合成数据是推动产业发展的关键数据资产,占训练数据的绝大部分(99%以上),而真实数据则用于补充和完成“最后一公里”的训练。不会的人用不好合成数据,所以有人会说什么仿真“有毒”。 做好合成数据,需要厂商有比较好的图形学、物理仿真、物理渲染和自动动作合成管线,包括验证闭环的一系列全套的基建,需要长期的积累和核心技术know-how。 2、自变量:手部复杂操作无法通过仿真数据来进化 王潜(自变量创始人兼CEO):我们在这个方面探索了十几年,基本结论是,手部复杂操作无法通过仿真数据来进化。不过,导航、走路、高级任务推理和规划更适合用仿真数据,很多团队的机器人走路都是在虚拟世界中训练出来,然后迁移到真实世界中。此外,手部pick and place这样的操作用仿真数据训练也是完全没问题的。当然我们也在广泛使用互联网视频数据进行预训练,但最核心的是现实生活中收集到的真实数据,包括机器人和人工采集的数据。 3、智源研究院:走大模型路线,更多依靠互联网数据 王仲远(智源研究院院长):智源走的是大模型的路线,更多依靠的是互联网数据帮助机器人学习智能。例如,今年春节,我观察一个小女孩是怎么学习的,她刷了很多短视频,就学会了一系列复杂的操作,再通过实践试错纠正,这是强化学习的本质。学习海量已有的数据,再通过强化学习和少量真实世界的数据不断训练它的能力,不断突破具身智能的发展上限,这和大模型发展路线不谋而合,基础能力到一定程度后通过强化学习进一步激发它的智能。 1 三、数据飞轮的起点:一万小时是门槛还是幻想? 另一个重要的问题是需要多少数据、如何获取高质量数据,具体的做法也观点不一,且普遍存在焦虑。有人乐观的认为只要给到机器人有效、高质量的一万小时数据,机器人就能实现能力的涌现,因此通过自采等方式构建数据集;但也有人认为数据迁移能力太差、类型太过单一,就算100w小时,也不会有更好的结果。 1、维他动力:决定涌现的关键是数据的多样性,而不是数量。 大模型之所以能取得突破,是因为它吸收了全互联网的数据,并且不分语言种类,包括图片、视频、音频等。这种海量、多样的数据,他们聚集为一体的时候,就产生了“智能涌现”的现象。 我们的看法是,必须让机器人在物理世界中探索,才能获得足够多样且持续的场景数据这其中最重要的两个场景就是户外和家庭环境。户外的核心能力在于机器人的移动能力,室内的核心能力在于机器人的操作能力。所以我们首款机器人会选择四足构型,让用户可以带到室外,去采集高质量、多场景的数据。 2、星海图:高质量的一万小时是数据飞轮的起点,但现在所有公司加一起也没有。 许华哲:我认同这个一万小时这个说法。数据飞轮的启动,正是在“千小时”到“万小时”这个量级的跨越中发生的。但这里必须强调,这一万小时必须是高质量的数据。数据的“质”远比“量”更重要。如果数据是千篇一律的,同质性太高,那么它的价值就非常有限。高质量数据意味着它必须是多元的,能够体现柔性物体的操作、具备场景的泛化性。我们现有的1000小时数据,可能筛选后只有800小时是真正可用的。当然整个行业极度缺乏数据。把所有公司的数据加在一起“也没多少”。 3、加速进化:轮+双臂,操作100w个小时也是不可能的 赵维晨(加速进化副总裁):相比自动驾驶的单日上亿条数据,目前全国具身最大开源数据集规模才百万级别(不到10tb)。怎么可能轮加双臂,操作弄个 10 万小时,100w小时就能训练出一个多模态的具身大脑,这是不可能的,最多只能验证早期大脑的算法和框架。 我们主要靠足球场景采集真实的物理数据,并结合视频合成数据,通过最新的模仿学习加强化学习实现视觉信号直接输入神经网络,驱动关节运动的“小脑下意识控制”,端到端的全身运动大模型。 1 四、端到端模型、VLA+VLM、世界模型...谁才是构建机器人“大脑”的最终路径? 我们在WRC现场发现,今年已经开始出现概念被滥用的现象,包括何为“端到端”模型,也有一些厂商将训练后的小模型也宣称是VLA模型,当然从外部执行层面很难分辨真伪,实现方式和理念大相径庭。如何构建机器人的“大脑”成为当前最大的技术分歧点。 1、宇树科技:VLA+RL不是最佳路线,世界模型的收敛方向更快。 王兴兴:目前相对比较火的就是VLA模型,它是一个相对比较傻瓜式的一个架构。我个人对VLA模型还是抱一个比较怀疑的态度。个人感觉就是在未来2到5年,其实最大的肯定还是一个端到端的具身智能AI模型。这个其实是大家可以多关注,以及多推动的一件事,我觉得这是最重要的一件事。 2、星海图:分层系统是通往完全端到端的必经之路。 许华哲:我们现阶段采用的是一个分层系统,上层是负责高阶任务拆解的VLM,下层是负责执行具体动作的VLA。VLM将一个抽象指令(如“铺床”)拆解成具体的子任务(如“拉左边被角”),然后交由VLA来理解和执行。这种双系统的优势在于效率更高,并且对复杂场景的推理能力更强。但分层与端到端最终是异曲同工的。行业的终极形态应该是一个统一的端到端模型,但其内部会自然形成功能上的分化,我们现在的分层系统,是通往最终统一模型的必经之路。 3、自变量:做完整端到端的统一大模型。 王昊:我们公司的大模型技术路线是统一端到端的架构,第一是追求性能:任何人为的模块划分,其实都是对信息的一种有损的压缩,只有端到端的模型,才能在整体感知、决策、控制链条上,完成统一的处理,突破现有机器人系统性能的上限;第二是去拥抱scaling law,只要模型的架构是统一并且可扩展的,那么它的能力、智能水平,就会随着模型的参数和训练的数据量呈指数级的增长;第三只有端的端其实才能通向真正的通用性,不管是分层还是所谓的融合系统,通用性都会被最弱的模块所限制,而一个端到端模型。它学习的是关于物理世界以及交互的第一性原理,这种知识是普世的,所以天然就具备了模型能够向新任务、新场景、新的意念形态去泛化的一种潜力,超越了其他所有的期待的可能的技术方案。 4、越疆机器人:相比于做大脑,更重要的是操作系统 越疆不只在造机器人,更构建起一个具身智能的未来操作系统,让每个开发者训练专属智能体。这一平台的核心在于能够把协作机械臂、轮式机器人、人形及多足机器人联动起来,实现“一套系统,多形态操控”,形成海量数据湖。 1 五、软件定义硬件,还是硬件定义软件? 我们发现,行业普遍陷入一种矛盾状态:算法开发者抱怨硬件性能和一致性不足,由于上一代机器人并不是服务于AI而产生的,大量软件算法厂商正在创造新一代的本体;而硬件厂商则认为现有AI模型不够智能。这场争论的核心是:技术突破应由硬件引领,还是由软件定义? 1、星海图:根据模型的特性,去考虑硬件资源的投入方向 许华哲:硬件的形态、精度、配重等具体指标,都应该根据AI模型的能力来进行针对性优化。举一个典型的例子:传统的机械臂追求极高的硬件精度,但如果AI模型本身就能适应和纠正一定的偏差,那么硬件上就没有必要投入过高的成本去实现极致的精度。核心是要根据模型的特性,来决定硬件资源应该投入在哪些关键点上,以及哪些方面可以由AI的能力来弥补,从而实现整体的最优性价比。 2、越疆机器人、加速进化:机器人可能会重演手机的发展路径 越疆机器人:人形机器人不会是一个产品,而是一个平台级生态系统。越疆的策略是“软硬一体、通用架构、场景优先”,即先夯实硬件基础(模组/控制器/执行器),同时对接主流AI“大脑”,并与真实场景客户共同打磨解决方案。我们认为人形机器人生态的演进路径,大概率会重演智能手机的生态发展:1)先由硬件厂商带动产业热度;2)再由“大脑”和“应用”主导行业分层;3)最终形成开放协同、模块互换的具身智能生态。 加速进化:现在硬件能构建壁垒,其实是代际壁垒,或者说门槛。比如新的关节我们研发出来,关节和齿轮之间背隙只有1公分,性价比又高,这个关节应用后我们就会定义成二代机。但长期来看硬件无法构成长期壁垒,可以参考手机。硬件以外,产品定义和设计是可以有更大壁垒,但还是不够。这些都是创业团队早期能构建的门槛,还达不到壁垒。 3、众擎机器人:软件、硬件不是单向关系,共同决定机器人的价值 硬件是机器人的物理载体,为软件运行提供基础支撑—从关节驱动、传感器配置到能源供给,硬件的结构设计与性能参数直接影响软件功能的实现边界。而软件则是机器人的 “智能内核”,通过算法优化、数据处理与指令输出,激活硬件潜能,赋予其感知、决策与执行能力。例如,拟人步态的流畅呈现,既需要高精度伺服电机等硬件提供动力与控制基础,也依赖运动控制算法等软件实现姿态调整与路径规划,二者缺一不可。 4、源络科技:不能照搬大模型的理念,现在要立刻能用,长期来看要通过与物理世界交互主动学习 连文昭(源络科技创始人):具身智能有两层含义,狭义的就是智能机器人,广义的是用具身来解决通用智能。我们主张「用具身实现智能」——机器人应通过与物理世界交互主动学习,而非靠语言模型的堆砌。 这要求你要务实也要有理想。在务实层面,它必须立刻能用、好用,我们不做实验室里的玩具。我们已经能在生命科学场景中,完成过去只有人类才能胜任的长序列、高精度操作。在理想层面,我们有自研的通用平台:机器人通过完成真实任务,收集高质量的多模态数据,反过来用于迭代高阶智能模型。 未来智能体不仅能通过图灵测试,也能通过生存测试,在物理世界中独立生存、工作、演化,这才是真正的通用人工智能。 1 六:开源到底“开”什么,为什么? 机器人行业陆续开始复现语言模型的开源生态路线,但在当下这个阶段,开源需要开什么,为了什么?构建生态还是商业闭环? 1、星海图:“假开源”比较多,数据集+模型才是真开源 许华哲:我认为,目前行业内由公司主导的开源存在很多问题。核心障碍主要有两点: 开源不彻底:很多公司只开源硬件,软件部分仅提供能让硬件跑起来的基础代码,而不开放核心的数据和模型。 开源不可用:即便开源了,很多时候也因为文档、代码或数据质量问题,导致其他人很难真正用起来。例如,科研领域的开源数据,也常常存在标注粗糙、错误多等问题。 真正的开源,应该是把我们自己内部使用的、经过验证的数据和模型权重开出去,让大家拿到手就能用,能在此基础上进行微调和二次开发。我们希望通过这种方式,与行业合力构建一个真正开放、繁荣的生态。 2、自变量:具身模型依赖于硬件,模型效果很难复现 王潜:大家只会做模型的开源,是不会做数据开源的。所以这肯定是个伪命题。模型的开源由于有跨本体泛化的问题,也是不太能大规模用起来的。 王昊(自变量CTO):当然更多是存在这种假开源或者不彻底的开源,典型的比如开源模型,但是不开源数据,模型效果很难复现。第二是开源数据,但是质量非常差,或者规模非常小,那这就是一种技术营销,或者是一种学术贡献,并不是真正意义上的生态共享。第三是因为具身模型是依赖于硬件的。即使模型开源,硬件系统完全闭源,而且是特定的硬件系统,其他的硬件公司可能也很难利用上这些模型。
安徽首款全自研绳驱机器人亮相:全身共46个自由度
快科技8月10日消息,据媒体报道,在北京举行的2025世界机器人大会上,江淮前沿技术协同创新中心(江淮中心)展区内,一台结构精巧的绳驱机器人正流畅执行抓取、传递等精细动作,其精准灵活的表现宛如拥有灵巧双手,吸引了众多观众驻足。 这是江淮中心自主研发的安徽省首款绳驱S1机器人的首次公开展示,其独特的驱动方式与精巧设计,标志着安徽在机器人领域取得重要突破。 S1机器人全身拥有46个自由度,集成了激光雷达、毫米波雷达、深度相机、视触觉传感器与六维力传感器等多种设备,能实现多维环境与交互感知。其核心创新在于采用了7自由度的绳驱臂设计。不同于传统刚性臂的直接金属连杆传动,绳驱臂通过在电机与关节间增加柔性绳索传动,利用绳索自身的震动有效消减冲击力,使末端接触力显著降低。 “如果说传统刚性臂构建了机器人的‘骨骼’,那么绳驱臂则重塑了其‘经脉’。”江淮中心绳驱S1项目技术负责人田蓥梅解释道,“绳索的柔软特性能实现卸力效果,使机器人在人机交互时更温柔、更安全。” 得益于这种安全交互特性,S1机器人主要面向家庭、酒店及商超零售等服务场景。它融合了零样本视觉感知、大模型长序列任务规划与模仿强化学习等技术,形成了基于物理世界约束的智能控制算法体系,能够完成早餐制作、餐食配送、清洁收纳等任务,有望成为未来家庭的智能管家。 除绳驱S1外,江淮中心此次还展出了自主研发的视触灵巧手、微型智能无人直升机、关节模组、控制器、智能测评平台以及便携式多模态定位建图仪等多款产品。
AI正在掏空大脑,思想沦为残废!未来只分AI的“主人”和“主人”
编辑:英智 我们都爱AI带来的「认知捷径」,但CEO Greg Shove却分享了他认知滑坡的亲身经历。真正的分水岭不是用或不用AI,而是你选择成为驾驭AI的「驾驶员」,还是被其淘汰的「乘客」。 全世界都为AI疯狂。 短短两年内,近10亿人开始用OpenAI的产品。 这正是硅谷的经典套路:把产品做得足够出色,把价格降得足够低廉,让我们彻底上瘾,然后再琢磨如何赚取数十亿美元。 我们之所以热爱AI,是因为它为我们提供了前所未有的「认知捷径」。 但……长此以往,这对我们大多数人来说并非好事。 我们先是让AI接管一些小任务,很快就会发现,它几乎包办了所有事情。 最终,我们将会失去思考能力、工作和未来的机遇。 但这并非无法避免的宿命。 Greg Shove的故事 一起看来Greg Shove——Section公司的首席执行官的分享。 以下是他对于AI使用的分享: 2023年3月,我第一次使用了ChatGPT。 如今,我每天都在使用ChatGPT或Claude。 AI确实让我的脑力工作变得更快、更高效。 但与此同时,我也在认知上变得越来越懒惰。过去,我必须仔细检查AI生成的草稿。 但现在,它90%的情况下都能给我一份不错的初稿,这让我越来越懒得去检查它的工作。 一年前,我认为未来的职场将分为「用AI的人」和「不用AI的人」。 现在我意识到我错了。五年后,每个人都会使用AI。 届时,真正的分水岭将出现在两类人之间:一类是能够驾驭AI的人,另一类则是将自己的思考完全外包给AI的人。 「思维外包」让思考能力退化? 人类一直在想方设法减轻认知负担。 在书籍普及之前,吟游诗人需要背诵荷马的整部《Iliad》。 如今,科技已成为大脑的延伸,帮助我们处理计算、导航和笔记等任务。 但AI与众不同。它几乎能处理任何认知任务,并且让人感觉效率极高。 因此,「思维外包」的开端往往是无意识的。 你让AI帮你起草一封邮件,它做得很好,为你节省了10分钟。 接着,你让它为你制作一份演示文稿的大纲,它也精准地完成了。 渐渐地,你开始用它来处理更复杂的任务,比如制定战略。 你开始依赖AI来完成工作,而你自己的相关技能,也随之慢慢萎缩。 微软和卡内基梅隆大学发布的一篇论文表明,生成式AI会削弱我们的批判性思维能力。 参考链接:https://www.microsoft.com/en-us/research/wp-content/uploads/2025/01/lee_2025_ai_critical_thinking_survey.pdf 当知识工作者对AI的输出结果充满信心时,就更不愿意动用自己的大脑去思考。 信任AI的人,通常会把自己当作AI的事实核查员。但这其中存在两个问题: 我们高估了自己识别AI错误的能力。 想要跳过事实核查的诱惑会越来越强烈。 AI时代的「驾驶员」与「乘客」 在未来十年,知识工作者将分化为两个群体:AI驾驶员与AI乘客。 AI乘客会非常乐意地将自己的认知工作全权委托给AI。 他们会把一个指令粘贴到ChatGPT里,复制结果,然后直接当作自己的成果提交。 短期来看,他们会因为工作速度更快而受到奖赏。 但随着AI在工作中越来越不需要人类的监督,这些「乘客」因为无法为AI的产出增加任何价值,最终将被视为多余的人。 AI驾驶员则会坚持主导和驾驭AI。 他们会将AI的生成内容作为初稿,并对其进行严格的审查和修改。 甚至会有意关掉AI,给自己留出独立思考的时间。 从长远来看,这两个群体之间的经济差距将急剧扩大。 AI驾驶员将获得巨额财富,而AI乘客则会沦为可被替代的廉价劳动力。 你的大脑是宝贵财富,切勿荒废! 通过以下方式,成为AI的主人: 从你熟悉的领域开始。在你已经具备专业知识的领域使用AI,并对其输出结果保持批判性审视。 与AI对话,而不是直接索要答案。不要直接问AI:「营销预算该怎么花?」而是给AI提供限制条件、输入信息、各种选项,并与它进行辩论。 保持高度警惕。成为一个积极的参与者,不要想当然地认为AI的输出就足够好。而是去问:「这真的是一个好建议吗?」 践行主动怀疑精神,坚守批判性思维。用你自己的观点不断地探查AI。比如,你可以问它:「这个方案是不是低估了这项投资的风险?」 抵制将「第一稿」完全外包的诱惑。直面空白文档或许令人畏惧,但这是激活你大脑、进行深度思考的关键一步。 做出最终决策,并为此负责。对于每一个中高风险的决策,AI都应该是你的辅助工具,但它不能替你做最终决定。作为人类,你要为自己的决策承担全部责任。 有了AI,你就拥有了一个全天候在线、并且在任何领域都堪称「专家」的伙伴。 但你此刻也正站在一个十字路口。 你将会看到许多同事放弃主动思考,将决策权外包给AI。 许多人甚至直到认知能力已经萎缩时才后知后觉。而到那时,一切都将难以挽回。 不要成为那样的人。 利用AI来挑战和强化你的思维,而不是取代它。 为何人们对AI大迁徙心生犹豫 当今顶尖的聊天机器人几乎可以肯定不具备人类那样的意识,但它们的行为却常常酷似有意识。 就像过去的技术变革一样,先行者们不仅是在跨越门槛,更是在定义门槛。 正如电力、互联网或移动计算时代一样,价值往往在早期就向先行者集中,而要求其他人跟进的压力也随之而来。 但这次,至少在三个重要方面截然不同。 首先,AI不仅仅是自动化任务。它开始侵占那些本属于人类的领域,如判断力、语言和创造性表达,模糊了机器与人类的分界线。 其次,人们接纳它的速度超过了理解它的程度。 许多人每天都在使用AI,却仍在质疑是否该信任它、相信它,甚至不完全明白它在做什么。 第三,AI不仅改变了我们做什么,它还重塑了我们如何看待世界。个性化的回复和生成式工具正在瓦解我们共享的认知基础。 我们正处在认知大迁徙(cognitive migration)的早期阶段。 历史提供了一个隐喻。在《圣经》中出埃及记的故事里,并非所有人都渴望离开埃及。 迁徙,从来都不只是地理或进步的问题,它关乎身份、信任,以及在舍弃已知、奔赴未知时所面临的风险。 认知迁徙也是如此。 如果我们纯粹将其视为一个技术或经济挑战,就会忽略其人性化的轮廓。 有些人会迅速行动,有些人会选择观望,还有些人会质问这片新大陆是否尊重他们所珍视的价值。 然而,无论如何,这场迁徙已经开始。 尽管我们希望设计一条尊重多元认知和工作方式的道路,但这片新大陆的地形,早已被那些行动最快的人所塑造。 认知迁徙,路在何方 未来,一个水管工可能会在业余时间用AI写一本儿童书。 就像工业革命期间机器取代了体力劳动一样,AI正在重塑认知领域的有用、高效或技能的定义。 并且,与其他转型期一样,早期红利往往集中在那些拥有资源、精通技术且灵活应变的人手中,而风险则更多地落在那些适应较慢的人身上。 它不仅仅在改变我们的工作方式,它正在重绘人与机器之间的界限。 早期的技术延伸了我们的体力或加速了信息交流,而AI则直接侵占了判断力、语言和创造力。 它不只是加速认知,它开始执行认知。 AI融入日常工具的速度,远超于监管或公众理解的跟进速度。它如此诱人,以至于许多人在完全信任或理解它之前就开始使用。 或许最重要的是,AI不仅改变我们做什么,还改变我们如何看待世界。 认知迁徙不仅仅是工具的更迭。正如多位科技领袖所言,它的重要性堪比人类发现并使用火。 它可能带来前所未有的富足,提供更广博的知识、更优越的经济条件和更丰富的创意渠道。 但它也可能导向一个反乌托邦式的结局,以财富高度集中、大规模失业和机遇急剧萎缩为标志。 对另一些人来说,这可能是一场被迫的迁徙,其驱动力更多来自经济压力,而非个人选择。 Anthropic CEO Dario Amodei最近警告说,AI可能在五年内淘汰半数的入门级白领工作,并将失业率推高10-20%。 如今显而易见的是,AI能力的扩张速度,已经超过了大多数机构或个人的准备速度。 在追求效率的浪潮中,市场的竞争压力很少会等待共识的形成,也很少会带来软着陆。 大迁徙已经开始。 问题不再是它是否会重塑工作、身份和机遇,而是我们是否准备好,去面对它最终塑造出的那个未来。 参考资料: https://venturebeat.com/ai/why-ai-is-making-us-lose-our-minds-and-not-in-the-way-youd-think/ https://venturebeat.com/ai/when-progress-doesnt-feel-like-home-why-many-are-hesitant-to-join-the-ai-migration/
官宣!石头P20 Ultra Plus凭三重热力技术 直击家庭清洁难题
在当今快节奏的生活中,家庭清洁的便捷与高效正成为消费者关注的焦点,扫地机器人虽然已经走进千家万户。但市面上不少但扫地机器人产品依然存在不少痛点。 它们很难确保地面真正的洁净无菌,特别是对于有小孩或宠物的家庭,地面洁净程度直接关乎健康安全,小孩娇嫩的肌肤直接接触地面,宠物毛发与细菌则可能隐藏在不易察觉的角落。这些隐忧让人忧心不已。 针对这一现实痛点,石头科技8月10日宣布,将在8月15日推出年度旗舰新品——P20 Ultra Plus。这款定位为“系统级清洁革新产品”但新品,以三重热力技术,开启家庭地面清洁高温清洁但新纪元,让地面不但洁净,更实现深层除菌、健康守护。 清洁标准升级,难题亟待解决 随着人们生活品质的提升,对家庭清洁的要求早已不再局限于地面的干净。“深层洁净无菌”是消费者在日常生活中的更高期待,然而,现实中仍常常会遇到各种清洁难题。 比如厨房作为油污重灾区,地板上的油渍不仅难以清洁,还容易滋生细菌。传统的扫地机器人难以彻底去除,并且在清洁死角和门槛等常常清理不到位的地带时,效果更是差强人意。 另外,拖布的清洁问题也让人头疼,拖布残污难以清洗干净,晾干过程中又容易发霉,不仅影响清洁效果,还会产生异味。这些问题既影响了清洁效果,也增加了用户的额外家务负担。 三重热力技术,全链路洁净闭环 面对这些清洁难题,石头科技P20 Ultra Plus为用户带来了全新的解决方案——从“拖布→地面→后处理”三个维度全链路发力,打造“热力+压力+智能”融合的清洁体系。 其核心亮点之一便是100°C沸腾热洗拖布功能。石头P20 Ultra Plus的自清洁基站能够实现100°C高温除菌洗布,除菌率可高达99.99%,并且还具备三遍重污复洗功能。 这意味着,脏拖布上附着的细菌能够被有效去除。在厨房、餐厅等重油污区域,它能够轻松处理油污,不残留任何污渍,让拖布洗得干干净净。 同时,它还能智能判断拖布的脏污程度,进行复洗。比如厨房地面上满是油污,石头P20 Ultra Plus在该区域清洁发现拖布脏了,就自动回基站进行100°C沸腾热洗布,继续下一次清洁,直到地面光洁如新。 除了100°C沸腾热洗拖布,石头P20 Ultra Plus还具备热烘干拖布功能,从源头上杜绝了湿拖发霉的问题,让清洁后的环境洁净无异味。 在南方潮湿的梅雨季,普通扫地机器人拖布晾干后总是有一股霉味,而石头P20 Ultra Plus热烘干后的拖布干爽洁净,每一次拖地都能带来清新的体验。 从行业角度来看,清洁标准正在经历从“干净”到“洁净”的重要跃迁。石头科技一直致力于通过创新科技,为用户打造更优质的清洁体验。 从“表面干净”到“深层洁净” 在行业视角下,清洁标准正从“干净”迈向“洁净”的跃迁。不难看出,此次石头 P20 Ultra Plus 构建起了一套覆盖清洁全链路的安心解决方案。不仅精准击破细菌滋生、油污残留、拖布发霉等具象化的清洁痛点,更以技术革新重新定义了家庭地面清洁的“洁净标准”,让用户从对“表面干净”的浅层满足,进阶到对“深层洁净”的全然安心,真正实现了从“清洁工具”到“家庭健康守护者”的价值跃升。 据悉,这款新品将于8月15日正式上市, 为了回馈广大消费者的支持,在8月10日-15日期间预订石头P20 Ultra Plus的用户,可享受30天免费试用的超值权益。 这一次,石头科技用三重热力技术为家庭地面清洁树立了新标准,也为用户带来了全链路的洁净体验。8月15日,让我们一起见证石头 P20 Ultra Plus,这款年度旗舰的正式亮相,看看它还将带来哪些惊喜。
突破智能极速充电温控:真我GT7 Pro竞速版手机获realme UI 6 15.0.0.620升级,新增一键Boost模式
IT之家 8 月 10 日消息,真我 GT7 Pro 竞速版手机现开启 realme UI 6 15.0.0.620 版本升级推送,新版本带来了充电一键 Boost 模式、声音分轨、浮窗透明度调节等功能。同时,小布助手点外卖、买电影票等 AI 特性也陆续适配。 IT之家附真我 GT7 Pro 竞速版手机此次更新内容如下: 【玩充更自由】 新增充电一键 Boost 模式,进一步突破智能极速充电温控,带来更极致的充电体验 【声音更随心】 新增声音分轨功能,支持调节音乐中人声、背景声的音量 【实用功能更省心】 新增浮窗透明度调节功能,减少对底部界面遮挡 新增支持将桌面上相同尺寸的卡片拖动到一起,卡片将堆叠展示 新增在小布建议和流体云上,显示京东外卖、淘宝闪购的履约服务,方便获取信息 新增视频和实况照片编辑能力,支持将视频导出为实况照片、实况照片导出为高清单图 新增通话录音支持按联系人自动分组;录音支持自定义分组,便于管理录音文件 新增迷你浮窗切换功能,点击浮窗顶部菜单或双击迷你窗,快速交换浮窗与全屏应用 新增浮窗侧边浮标状态自动锁定能力,收为浮标后进程不会被异常清除 新增支持多屏触控,一个应用全屏显示,一个应用自由浮窗显示,双应用可同时操作,更高效 新增手机通过 CarLife 投屏至车载屏幕后,手机和车载屏幕上均可调节投屏分辨率 新增手机投屏至车载屏幕时,支持关闭屏幕刷新率,让手机恢复高刷新率,使用更流畅;支持调节不同的投屏帧率,支持高斯模糊效果,提升视觉体验 【智慧 AI 再升级】 新增小布助手支持一句话点饿了么外卖,点外卖更方便 新增小布助手支持购买屏幕上显示的同款奶茶咖啡。例如对小布助手说“点一杯屏幕上的同款咖啡” 新增可通过语音唤醒小布,让小布帮你点一单历史外卖。例如对小布说:“帮我点个上一单的外卖”(当前仅支持一个月内已点过的美团、美团外卖和饿了么外卖) 新增可通过小布助手购买淘票票电影票。唤醒小布助手说出电影相关搜索词,就可以显示淘票票上的电影场次信息,更便捷购买电影票 新增小布识屏选词模式,点击后可对屏幕上文字进行分词选词操作,方便选择和复制,操作更便捷 新增小布记忆应用内首页问答按钮,问答内容支持收藏、长按复制等操作 新增使用小布识屏的文章朗读功能时,可选择更多音色,朗读效果更自然 优化小布识屏提取文字后的排版格式 优化小布识屏提取图片的效果,支持提取原图 优化小布助手深度思考功能和智能回复逻辑,回复更迅速 优化翻译 App 现有翻译功能,接入 AI 大模型翻译能力,文本翻译更加地道,同声传译更加顺畅且支持录音 优化小布识屏触发手势,仅支持双指按压触发识屏,且支持自定义开启触发的应用,有效减少误触 【更多好用功能】 新增日历支持批量删除日程 新增在更多语言下可选择 realme Sans 和真选字体 新增铃声渐响功能,开启后闹钟响铃时声音会由低到高逐渐增强 新增未成年人模式及桌面图标,开启后可帮助未成年人健康使用手机 新增支持在来电和通话记录界面隐藏联系人号码,降低隐私泄露风险 新增更多常用应用支持使用密码本在登录页自动填充 新增在使用密码本填充账号密码时,可选择其他应用的账号密码进行自动填充,提升使用体验 优化了通话设置页的结构,功能排布更直观 优化来电拦截规则,对标记号码类型(如骚扰电话、广告推销等)可以分别选择更多拦截阈值,方便设置 优化录音分组功能,新增普通分组,标准、会议、采访模式下的录音将自动分组到普通分组 优化来电场景时闹钟响铃及流体云卡片显示逻辑,提升通话体验 优化部分场景下迷你浮窗显示位置不一致问题 优化迷你浮窗移动位置范围,支持拖拽迷你浮窗至屏幕底部,提升使用体验 【游戏】 修复原神新版本大神辅助功能失效问题 【安全】 更新 Android 安全补丁至 2025 年 7 月,提升系统安全性 需要注意的是,为了确保系统稳定性,realme 手机系统版本从开始灰度发布到全量推送,一般需要 2 到 3 周时间,未收到更新的用户需要继续等待。 据IT之家此前报道,realme 真我 GT7 Pro 竞速版手机发布于今年 2 月,搭载骁龙 8 至尊版处理器,配有 LPDDR5X 内存 + UFS 4.1 闪存;内置 6500mAh 泰坦电池,支持 120W 快充。该机配备 6.78 英寸 1.5K 电竞苍穹屏(6000nit 峰值亮度 + 1600nit 全局亮度),支持全场景护眼、2600Hz 瞬时触控采样率,采用等深四曲屏设计。 该机还内置 6500mAh 泰坦电池,支持 120W 快充。同时新机还搭载「旁路充电」技术,宣称电源绕过电池直接向游戏供电,降低设备发热,帧率更稳。真我 GT7 Pro 竞速版支持 IP68&IP69 满级防水,预装 realmeUI 6.0 系统,提供水印大师、realme 互传、全新流体云、LivePhoto 实况照片等功能。
又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同
27M小模型超越o3-mini-high和DeepSeek-R1!推理还不靠思维链。 开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友,Sapient Intelligence的创始人王冠。 这个27M小模型就是Sapient最新提出的开源可复现的分层推理模型Hierarchical Reasoning Model(下面简称HRM),模仿大脑的分层处理与多时间尺度运作机制,克服了标准Transfomer的计算局限。 2700万参数,就实现了对现有大模型的精准超车。 不用预训练补课,还不靠思维链打草稿,仅凭1000个训练样本,就把极端数独、30x30迷宫玩得明明白白。 甚至连衡量通用智能的ARC-AGI测试都能碾压一众参数规模更大、上下文更长的Claude 3.7等“大前辈”。 有网友感叹,这就像四两拨千斤AI版…… 所以,HRM这个小模型是如何做到的? 核心是仿脑的双层循环模块设计 HRM之所以能有如此出色的表现,源于其五项核心技术的巧妙设计。 首先是分层循环模块与时间尺度分离。 HRM受大脑皮层区域分层处理和时间分离机制启发,设计了两个相互配合的循环模块:一个高层模块负责慢节奏的抽象规划,一个低层模块处理快节奏的细节计算,不用明确监督中间过程,一次就能完成推理。 两者在不同时间尺度上协同工作。低阶模块在每个高阶周期内完成多次计算并达到临时稳定状态后,高阶模块才会更新决策,随后低阶模块重置并开启新一轮计算。 这种设计既保证了全局方向的正确性,又提升了局部执行的效率。 比如,在需要大量树搜索和回溯的Sudoku-Extreme Full任务上,增加Transformer的宽度不能提升性能,增加深度才是关键,而标准架构会出现性能饱和,无法从深度增加中获益。 HRM则克服了这一限制,能有效利用计算深度实现近乎完美的准确率。 其次是分层收敛机制。 普通的循环神经网络常出现过早收敛的问题——计算几步就陷入稳定状态,后续再复杂的任务也无法推进。 而HRM中,低阶模块在每轮计算中会收敛到基于当前高阶状态的局部结果,但高阶模块更新后,会给低阶模块设定新的目标,使其进入新的收敛周期。 这就像完成项目时,先攻克一个子任务,再根据整体进度调整目标,确保持续推进不偷懒。 第三项是近似梯度技术。 传统循环模型训练时,需要存储所有中间状态并反向追溯,类似复盘时要回看每一步操作,既耗内存又低效。 HRM则采用一步梯度近似,只需根据最终状态反推优化方向,如同根据考试结果直接定位薄弱知识点,内存需求恒定且计算高效,更符合生物大脑的学习规律。 第四是深度监督机制。 它受大脑中神经振荡调节学习节奏的启发,引入了阶段性测试。 模型在学习过程中被分成多个阶段,每个阶段结束后立即评估并调整参数,且前后阶段的计算互不干扰。 这种方式能及时纠正偏差,就像学生每学一单元就测试巩固,比期末一次性考试的学习效果更扎实。 自适应计算时间让HRM能像人一样灵活分配思考时间。 它通过类似评估收益的算法(Q学习),动态决定是否继续计算,在保证准确率的同时避免算力浪费,推理时还能通过增加计算资源进一步提升表现。 比如,简单任务如简单迷宫快速给出答案,复杂任务如高难度数独则延长计算时间。 这些技术的融合,让HRM在多项测试中表现不凡。 下图通过可视化中间步骤,验证了HRM的分层推理机制能够有效拆解复杂任务,通过渐进式计算逼近正确结果,而非依赖黑箱式的一次性输出。 在衡量AI通用推理能力的ARC-AGI挑战中,HRM仅用2700万参数和1000个训练样本,就达到40.3%的准确率,超过了参数规模更大的o3-mini-high(34.5%)和Claude 3.7 8K(21.2%)。 对于需要反复试错的9x9极端数独,现有思维链模型完全无法解决(准确率0%),即便是结构相似的Transformer模型,用同样数据训练也毫无头绪。而HRM几乎能全部做对。 在30x30复杂迷宫的最优路径寻找任务中,HRM表现稳定,而1.75亿参数的大型Transformer模型准确率不足20%。 虽然,HRM被指参数太小、训练范围有限,只针对特定领域表现好,无法泛化到领域外,并不通用。但有人认为小而精的模型或许在某些角度上更智能。 人工智能的飞跃在于创造性。 也有人认为HRM的前景更在于“仿脑”,通过精心设计的高低两个模块避免过早收敛,对过拟合具有极强的抵抗力。 甚至有人相当乐观,认为这种新架构是神经网络一个巨大的进步。有可能是超越Transformer的时刻。 拒绝马斯克,挑战Transfomer 论文的第一作者王冠是一位00后,8岁开始学习编程,后保送至清华大学计算机系。 他是GitHub揽星5.1k开源项目OpenChat的独立开发者,独立完成了OpenChat全部版本的模型开发和训练框架搭建。 也正是因为OpenChat这个项目,他和马斯克产生了交集。 但他算得上是一个拒绝了马斯克的男人——此前,王冠多次拒绝了xAI等一线机构创始人的加入邀请。 原因是他认为自己要做的是颠覆Transfomer。 2024年,王冠和联合创始人Austin创办了Sapient Intelligence,并成功融资数千万美元。致力于打造“真正具有复杂推理和规划能力的全新大模型架构”。 参考链接: [1]https://x.com/casper_hansen_/status/1951656675250684163 [2]https://x.com/deedydas/status/1951677875004100814 [3]https://x.com/omarsar0/status/1951751651729060081 — 完 —
4万亿AI帝国继承之战!黄仁勋王储曝光:长公主比他还狠,太子低调进入权力核心
最近往返中美频繁发声的黄仁勋,是把英伟达打造成 4 万亿帝国的「AI教父」,最近 The Information 曝光了一个老黄布局多年的秘密。 而这个秘密的揭开,要从今年早些时候的一次英伟达全员大会说起。一个敏感问题通过匿名提问系统跳出来,现场数千名员工的目光瞬间都聚焦到了台上的黄仁勋身上。 英伟达员工的二代正在进入公司,这种裙带关系你怎么看? 穿着标志性黑皮夹克的黄仁勋没有回避,身体微微前倾,拿起话筒:公司确实雇佣了不少员工的孩子。他还笑着补充说,这些父母要是没把握孩子不会给自己丢脸,绝对不敢推荐,而且很多「二代」表现得比他们爹妈还要出色。 这场看似即兴的问答更像是一次精心的安排。就像往平静湖面扔了颗石头,瞬间在英伟达内部掀起了不小的波澜,也让外界第一次把目光聚焦到了两个最特殊的「二代」身上——黄仁勋自己的一双儿女:35 岁的斯宾塞和 34 岁的麦迪逊。 在这个全球市值最高的 AI 帝国里,一场关于自我证明、摆脱父辈光环、以及企业内代际传承的史无前例的大戏,正拉开帷幕。 逃离硅谷的甜点师与调酒师 很长一段时间里,没人能想到黄仁勋的子女会踏入英伟达的大门。当硅谷其他科技巨头的子女们正按部就班地在常春藤盟校攻读计算机或金融学位,为继承家族光环铺路时,哥哥斯宾塞和妹妹麦迪逊却选择了截然不同的赛道。 黄仁勋在 1993 年创立英伟达时,兄妹俩尚在襁褓。他们在圣何塞长大,直到 2003 年,英伟达上市四年后,全家才搬进了洛斯阿尔托斯山(Los Altos Hills)一栋六居室的豪宅。父亲的商业帝国在崛起,他们却在追寻各自的艺术梦想。 斯宾塞痴迷于摄影与电影,高中最后一年选择了一所名为「自由风格传播艺术与技术学院」的非传统学校。毕业时,黄仁勋亲自在英伟达总部为儿子和他的同学们办了一场盛大的毕业作品展,不仅安排好了场地,还贴心地雇了服务员端上开胃小菜,尽显一位父亲的骄傲。 而妹妹麦迪逊则一头扎进了美食世界。她先是就读于大名鼎鼎的美国烹饪学院,又远赴巴黎蓝带(Le Cordon Bleu)学习甜点和葡萄酒。 在地球的一端,当斯宾塞在台北闷热潮湿的夏夜里,在吧台后摇晃着雪克壶,精心调制一杯名为「台北之雾」的鸡尾酒时;在另一端,麦迪逊或许正在巴黎的后厨里,专注于如何让舒芙蕾在出炉的黄金一分钟内完美膨起。 就连他们家的密友、科技投资人 Jens Horstmann 也评价道:「我很高兴看到他们一有机会就走了出去,他们想突破,想看看不一样的东西。」 斯宾塞大学毕业后,远赴黄仁勋的故乡台湾学习中文,并于 2014 年前后说服一位语言教授,在台北合开了一家名为「R&D Cocktail Lab」的鸡尾酒吧。在那个英伟达芯片在台湾制造、但黄仁勋本人尚未成为「国民骄傲」的年代,偶尔会有英伟达的员工光顾酒吧,并好奇地打听「老板的儿子」。一位前员工回忆,斯宾塞在酒吧里很少谈及父亲,但有一次无意中透露:「我从八岁起就知道怎么买股票了。」 即便远离硅谷,父亲的影响依然无处不在。斯宾塞效仿父亲的管理方式,要求经理们每周汇报「五件要事」(top five things)——这正是黄仁勋在英伟达推行多年、要求员工每周邮件汇报的核心工作方法。 ▲2007 年的黄氏家族(从左到右):麦迪逊、洛丽、黄仁勋和斯宾塞. 回归,从商学院到权力核心 2009 年,当麦迪逊前往烹饪学校时,黄仁勋曾对媒体坦言「心都碎了」。但十年后的 2019 年,这对「文艺青年」兄妹的人生轨迹开始戏剧性地转向。 他们不约而同地报名了麻省理工学院(MIT)一个为期六周的人工智能在线课程。同年,麦迪逊进入伦敦商学院攻读 MBA,此前她已在奢侈品巨头 LVMH 工作了近四年。斯宾塞则在经营酒吧七年后,于 2021 年将其关闭,随后进入纽约大学开始了 MBA 生涯。 在商学院,他们的身份带来了不同的困扰。麦迪逊的同学们私下里会议论她坐私人飞机去法国滑雪旅行,但出于礼貌很少当面问及她的家庭。而斯宾塞的同学们则后知后觉得多,很多人直到做小组项目查阅黄仁勋的维基百科时,才惊觉班上的这位同学竟是 CEO 之子。 2020 年夏天,麦迪逊在英伟达市场部实习后拿到了全职 offer。几个月后,她被调入一个对黄仁勋极具战略意义、但当时规模尚小的部门——Omniverse,负责 3D 设计与仿真软件的产品营销。 Omniverse 的核心目标,是为宝马、奔驰等工业巨头打造「数字孪生」工厂,通过在虚拟世界中模拟完整的生产线,将物理世界的试错成本降至最低。「把麦迪逊放在 Omniverse,外人可能觉得是让她远离聚光灯,但内部员工都明白,这代表着她父亲的绝对信任。」一位前员工分析道。黄仁勋一直希望将公司业务扩展到 GPU 之外,他相信麦迪逊能胜任这个挑战。 2022 年,斯宾塞也加入了公司,同样进入了父亲看好的新兴领域:机器人仿真。他投身于 Isaac Sim 平台,这是一个旨在通过合成数据训练机器人实现精准抓取、导航的仿真环境。他负责的一个关键项目,正是为亚马逊仓库中的下一代分拣机器人开发强化学习模型。 聚光灯下的「长公主」与低调的「太子」 妹妹麦迪逊显然是更引人注目的那一个。根据英伟达向 SEC 提交的文件,她的薪酬从 2021 年的年薪约 16 万美元,飙升至去年总薪酬超过 100 万美元。 今年 3 月,她被提拔为高级总监,距离副总裁仅一步之遥,直接向一位向黄仁勋本人汇报的高管 Rev Lebaredian 负责。 更重要的是,麦迪逊已悄然加入了父亲的「御用演讲智囊团」(The Band)。这个由十几位高管组成的内部圈子,会在 GTC 等重大活动前夕,陪同黄仁勋在酒店房间里熬夜到凌晨,逐页审阅 PPT,甚至亲赴现场推敲舞台灯光如何打在他脸上才能呈现最佳效果。这是一个极为耗神且不为人知的幕后工作,却也是进入黄仁勋最内层权力轨道的标志。 她展现出了与父亲如出一辙的强悍风格。同事们形容她工作极其投入,邮件秒回。一位曾向麦迪逊汇报的前员工匿名透露:「Madison 的要求非常高,她会像她父亲一样,在会议上直接指出你逻辑上的漏洞。」据两位参会者透露,她甚至会在虚拟会议中因同事表现不佳而突然下线,留下满屋子的尴尬与压力。 相比之下,哥哥斯宾塞则显得低调内敛。一位与斯宾塞有过项目合作的工程师则表示:「Spencer 更像一个倾听者,他会花很多时间理解技术团队的难处,而不是直接下达指令。」但他们都在用自己的方式证明价值。一位在英伟达工作 15 年后退休的前副总裁 Greg Estes 评价道:「跟他们开会时,你不可能不想着他们的身份。但关键是,他们俩都非常努力,精通业务,并且对公司充满热忱。」 在英伟达内部,这种「二代进厂」的现象并非个例。联合创始人 Chris Malachowsky 和董事会成员 Aarti Shah 的儿子也都在公司任职。 但这都无法与黄仁勋子女的出现相提并论,因为它打破了硅谷的传统。比尔·盖茨和史蒂夫·乔布斯的子女都刻意避开了父辈的企业。而黄家兄妹,则正在书写一个全新的篇章。 随着英伟达成为全球焦点,兄妹俩的每一次亮相都会被放大。在今年的台北国际电脑展(Computex)上,当黄仁勋本人成为媒体和粉丝疯狂追逐的焦点时,麦迪逊则以一种更微妙的方式宣告着黄氏家族的「在场」。 她没有选择职业套装,而是身着一套剪裁利落的浅蓝色西装,脚踩一双限量款的白色运动鞋。她与台积电、广达等核心供应链伙伴的高管们熟稔地寒暄,身旁还站着她的男友,一位同样毕业于伦敦商学院、并于今年 2 月加入英伟达担任企业发展经理的 Nico Caprez。 一位与会者感叹:「她就是个摇滚明星,我们都知道她是黄仁勋的女儿。」 在全员大会上,黄仁勋用一句玩笑话作为结尾:「许多第二代表现超过了他们的父母。」 这句话,既像是对所有「英伟达二代」的期许,更像是一道投射在自己儿女身上的、混杂着压力与期望的聚光灯。而对麦迪逊和斯宾塞来说,真正的考验,才刚刚开始。
别焦虑!不会用AI也不会被淘汰,工程师老哥实测各类工具:10倍生产力神话太夸张了
不会使用AI的工程师就会落后。 一位工程师小哥科尔顿·沃奇,说看到这类观点引发了自己巨大的精神焦虑。 幸好他是一个持怀疑态度的人,测试完一堆AI开发工具后,发现也就那么回事。 他的文章在Hacker上也引起许多程序员的讨论,互动评论量有600+。 一起来看他的回击。 AI还有很多问题,工程师要学会引导 沃奇小哥平时工作不怎么使用AI,在社交媒体上总是刷到“AI提升10倍生产力”“不会使用AI的工程师就落后了”之类的内容,引起了他对自己专业能力的深度怀疑,让自己陷入了精神焦虑之中。 他自己说,好在自己是个对任何事情看法都持怀疑态度的人,就去把Claude Code、Cursor、Roo Code和Zed等AI开发工具都试了一遍。 结果发现,AI写样板代码、一次性脚本等,写的又快又好,比如React、JavaScript的基础代码,临时写个ESLint规则啥的。 但是,AI难以理解大型代码库的上下文,就算有很好的提示和文件,让它查找文档或者修复破坏的测试的时候,就总是来回折腾,做无用功。 更严重的是,AI跟不上代码库的标准和工具,甚至会虚构代码库,导致严重的安全漏洞。 发现AI存在这些问题后,他也就没那么焦虑了,AI还是需要工程师来引导的。 沃奇小哥说,工程师要学会将复杂任务拆解为更小的单元喂给AI,避免AI在处理长文本(上下文窗口后期)时出现逻辑混乱或 “失去理智” 的情况。 他还拿Claude Code举例子,虽然能自动完成部分任务,但是可靠性不高,不能完全依赖。 工程师要学会判断AI何时 “跑偏”(输出不符合预期),此时要及时接手,纠正错误或重新引导。 打破“10倍生产力”神话,无论AI还是工程师 想要实现“AI10倍生产力”,意味着工作流程的每个环节效率都要X10。 举个例子,从产品构思、故事点协商、修复错误、代码审查、等待部署、测试和QA,这些工作过往都需要三个月来完成,有AI了,就能在1.5周内完成? 比如代码审查,需要的工作环节就有:(1)给审查者打标签 (2)希望他们能尽快处理(但这会很困难,因为他们显然要审查比以前多 10 倍的代码)(3)在等待时切换到其他任务(4)看到通知立即回复,也可以在你审稿人当天离线 2 小时后回复(5)切换回审稿界面(6)阅读他们的评论(7)回应(8)重复操作 但凡有过项目开发经验的软件工程师,都知道这不可能。 除此之外,软件工程开发最终目的是做一个用户喜爱的产品,产品经理要审核、论证开发可行性,要进行用户访谈,同样的,设计师和测试人员也一样要做相应的工作。 这些流程环节要是提升10倍生产力的话,就要招聘10倍的产品经理及相关人员。 除了工作流程上的问题,就算AI写代码效率提升了10倍甚至100倍,但是实际工程师工作核心不是敲代码,而是阅读和思考,比如等待编译、页面刷新或测试运行。 很显然,AI并不会提升这些环节效率。 更不用说AI生成的内容还存在缺陷、虚构甚至低于代码库标准等问题了。而且随着代码库规模增大,AI出现这些问题的频率也会随之上升。 而且,AI还存在过度构建的问题。 以上情况发生时,工程师必须得重新提示,或者亲自去修改代码。 回到原点,end。 换个角度,就算熟练运用AI写代码了,存在的问题可能就是工程师习惯性依赖AI,不做深度审查和判断,那代码库规模扩大,问题更加复杂时,工程师就会面临个人的“生产力瓶颈”时刻。 那照这么说,AI在实际软件工程开发中并没有那么强的作用。 真正有用的,还是工程师。那实际工作中有“10倍工程师”么? 根据沃奇小哥的观察,或许“10倍工程师”只会出现在特定情况下,但是他没有见过有工程师能持续完成比普通工程师多十倍的工作量,高级工程师比普通工程师也不过快2倍而已。 总的来说,就是AI工具可以在敲代码、写脚本等具体工作任务中帮忙提升效率,甚至可以是10-100倍生产力提升。 但是,工作毕竟是复杂的,会面临各种问题。比如应用程序太大,无法在上下文中运行,开始出现不一致的显示和功能;网站被黑,要学习保障安全的相关知识等等。 因此程序员们在现实工作中终究会面临回报急剧递减的阶段。 而这些,AI都无法解决。 所以是谁在宣传AI10倍生产力神话呢。 或许是刚接触AI的新手,AI帮忙解决某些代码问题就觉得AI好厉害。也或许是AI创业公司的老板或者投资者,鼓吹他们的AI产品。 也或许是,一些AI培训商业机构,称三个月编程训练营就能培养出媲美4年制大学水平的工程师。 更有可能的是,自己的老板,让工程师陷入可能被AI替代的焦虑之中,这样他们就不会辞职、寻找其他工作或要求加薪。 不会AI也没关系 说了这么多,沃奇小哥就是想大家安心,回归理性,别陷在“AI取代工程师”的焦虑情绪之中。 不会AI也没关系,选择自己喜欢的工作方式来产出就好了。不喜欢AI,就不要强迫自己去使用;喜欢AI编程,就享受这种感觉和方式。 他还顺带“点”了一下老板们,成为一名优秀的AI领导者,要知道什么: 1、放弃PUA:让工程师们焦虑只会降低工作意愿,这是一种短期思维。工程师们因此发生的技术失误最终还是公司买单。 2、摒弃“10倍效率”幻想:过度追求效率会导致质量低下。工程师和代码库都需要“休息”。(小哥还顺带表扬了自己的公司,说自己很幸运的在一个没有这种问题的团队里。) 3、信任工程师:不要因为工程师没有使用足够的token而责备他们。工程师们是受过高等教育的专业人士,如果出现超级惊人的生产力提升工具,他们会主动向领导申请专业版。 关于科尔顿·沃奇 为何这位小哥这么在意AI编程工具在工作中的应用。 原来,他自己曾经就是一家开发教育类AI工具公司的联合创始人。 △ 左一为科尔顿·沃奇 2014年,还在普渡大学读大二的科尔顿·沃奇和两位小伙伴一起创办了Mimir,这是一个大学计算机科学课程评分和师生反馈的AI工具,能够帮助教授上传课程大纲和作业、记录工作、评分并与学生互动评论。 到2017年,他们这个产品就有七十所大学使用了,包括凯斯西储大学、约翰霍普金斯大学和密歇根大学。 同年,他们三人就入选了福布斯教育类30岁以下30强榜单。 这个项目也入选了 Y Combinator创业加速器,在2019年,Mimir被HackerRank(美国一家知名的在线编程平台)收购,小哥就以工程经理的身份加入,带领团队推进新的项目计划。 怪不得他能从项目负责人的视角出发,对AI在真实工作场景的应用提出这么独到的分析。 话说回来,小哥也是告诉大家,happy work, happy life。
首发龙芯2P0300,紫光一口气发布10款打印机:全部国产芯片
快科技8月10日消息,日前,紫光汉图举办新品发布会,发布10款紫光激光打印新品,全面搭载国产龙芯打印主控芯片,覆盖商用与安全两大系列。 商用系列产品包括紫光UNI P226L、紫光UNI P356DNL、紫光UNI A356DNL、紫光UNI P406DNL、紫光UNI A406DNL。 安全系列产品包括紫光UNI P228L、紫光UNI P358DNL、紫光UNI A358DNL、紫光UNI P408DNL、紫光UNI A408DNL,额外搭载TCM安全可信芯片。 其中,紫光打印机UNI P226L和UNI P228L两款黑白激光打印机新品首发搭载龙芯2P0300打印主控芯片,标志着国产打印核心技术迈出关键一步。 据了解,2P0300是龙芯继2P0500之后发布的又一款打印机主控芯片,除延续龙芯自主架构的底座,成本更优,主频达到1.2GHz,适合小型激光打印机产品。 据介绍,旗舰产品紫光激光多功能一体机UNI A406DNL,其A4单面打印速度高达40页/分钟,A5横打速度可达65页/分钟。 采用独特双纸路设计,双面打印速度达到36面/分钟,双面打印效率达到90%,远超国内打印机水平。 同时攻克陶瓷片薄膜定影技术,实现首张打印响应速度<4s,并率先在国产品牌中实现了国家一级能效标准。 此外,产品搭载自动双面送稿器,具备自动双扫双复功能,大大提升复印和扫描的效率。 终端可装紫光扫描软件,实现自动纠偏等一系列功能。
电动车补贴即将结束,美国人狂买电动车,7月电车市占率创史上新高
据央视财经报道,为了在最后期限前享受每辆7500美元的税收抵免,美国消费者正在竞相购买电动汽车。 美国考克斯汽车咨询公司的数据,七月份美国消费者共购买了近130100辆新电动汽车,环比增长26.4%,同比增长近20%,是有记录以来第二高的月度销量,仅次于去年12月的约136000辆。 同时,7月电动汽车销量占当月全部乘用车总销量的比例达到9.1%,也创下历史新高。另外,美国7月2手电动汽车销量也接近36700辆,同样创下单月新高。 该公司分析称为了在最后期限前享受税收抵免。美国消费者正在竞相购买电动汽车,预计第三季度可能会创下电动汽车销量纪录。 据了解,今年7月,美国国会通过了总统特朗普力推的所谓大而美法案,法案中规定,美国政府从今年9月30日起将不再为电动汽车提供税收抵免。 分析师称,经销商也在利用9月30日的截止日期制造紧迫感来推动销量,预计税收抵免到期后,今年第四季度美国电动汽车销量可能会暴跌。 而美国电动车补贴可以追溯到2022年拜登通过的《 通胀削减法案 》,当年美国政府拿出100亿美元,用来补贴新能源企业和税收减免,目的是让2030年的美国电车销量达到全部的一半。 法案规定,美国消费者买一辆纯电或者插混,最多可以优惠7500美元(5.5万人民币 ),购买二手电车,也可以减免4000美元(2.9万人民币 )。
手机厂一年就倒闭 摩托前高管:美国人不爱打螺丝
快科技8月10日消息,近年来美国上下推动再工业化,实现“美国制造”的政策影响了全球经济,但是让美国人进工厂打螺丝并不容易,之前摩托罗拉在美国建了手机工厂,结果一年之后就不得不关闭了。 前摩托罗拉CEO Dennis Woodside日前在接受媒体采访时回忆了重回美国制造的难题,该公司2013年就喊出了美国制造的口号,希望能从三星苹果手中抢回美国手机市场,因此在美国德州建了手机组装厂。 这个工厂高峰期拥有高达4000多名员工,推出了旗舰级手机Moto X,还支持定制化,然而市场表现不如预期,公司成立不到一年就失败了,草草了事。 对于美国手机工厂的问题,Dennis Woodside提到了他们面临的多个难题,首先就是供应链,当时手机供应链分散,电池、屏幕、主机板等零部件都不在美国本土,需要从亚洲零部件厂商采购,运输到美国组装,导致成本居高不下。 但是最大的考验还不是零部件,而是之前没有考虑到人才问题,从招募员工到培训员工再到留住员工都很困难。 Dennis Woodside提到,手机有数百个零件,而且非常小,他们没想到大部分美国人根本不习惯这种工作,不得不培训之后才能上岗。 即便如此,由于美国劳工有很多其他选择,最终还是导致很难招到合适的人才,而且美国人并不想在工厂工作,美国之前的调查报告早就说明了,美国人并不认可去工厂上班就能过得好的理念。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。