行业分类:
加载中...
头条分类:
加载中...
短视频刷多了AI也会变蠢!“年度最令人不安的论文”
一水 发自 凹非寺 量子位 | 公众号 QbitAI 你知道有个全球年度词汇叫“脑损伤”(Brain Rot)吗? 特指那些因人长期接触碎片化、低价值网络信息而逐渐变得记忆紊乱、注意力下降的情况(俗称短视频刷多了)。在2024年,这个词一度被选为牛津年度词汇。 然鹅!最新研究结论显示,AI也一样。大模型灌多了垃圾内容也会变蠢降智脑损伤,而且后面变不回来了。 就在最近,几个AI研究者找来了几个月的高流行但低价值的Twitter数据(现𝕏),统统“喂”给大模型后发现: 模型推理能力下降了23%; 模型长上下文记忆下降了30%; 模型性格测试显示,其自恋和精神病态的现象激增。 更可怕的是,即使后来又在干净、高质量的数据上进行重新训练,这些已经造成的损伤,无法完全修复。 好嘛,本来以为只是简单的“输入坏数据→输出坏数据”(种瓜得瓜也不难理解),结果你告诉我一次错误就会造成永久性的认知漂移。(os:AI貌似比人类更惨?) 细思极恐,“这可能是2025年最令人不安的AI论文了”。 以及诸多讨论之中,“垃圾进垃圾出”这一计算机习语也再度被频频提及(doge),堪称“计算机第一性原理”了。 所以这个研究怎么进行的?又究竟说了什么? 提出并验证“LLM脑损伤假说” 概括而言,论文想要探究一个核心问题: 大语言模型(LLM)持续接触垃圾数据后,是否会像人类一样出现认知衰退?(即“LLM脑损伤假说”) 要想搞清这个问题,第一步就是要定义:对于LLM来说,什么是“垃圾数据”? 之前的研究仅关注“恶意数据”(如后门、有毒的文本等),而这项研究聚焦于生活中更普遍的“非恶意低质量数据”,也就是短平快的热门推文、标题党内容等,以此来填补“日常化数据质量如何影响LLM认知”这一空白领域。 具体而言,研究人员从两个维度(避免单一标准偏差)来定义“垃圾数据”,这些数据均源自𝕏平台上的公开内容,而且通过让“垃圾组”与“对照组”的token数量一致来排除数据量差异的干扰: M1(参与度维度):把“短文本+高热度”的内容归为垃圾数据,具体是指长度小于30 token+点赞/转发/回复大于500,然后把“长文本+低热度”定义为对照数据。 M2(语义质量维度):用GPT-4o-mini结合人工验证,把含标题党语言(如 “WOW”“TODAY ONLY”)、阴谋论、无论断依据的文本归为垃圾数据;对照组则是事实准确、有教育价值或深度分析的内容,比如含专业知识、逻辑推理的推文。 基于上述两类数据,然后进行模型训练。 研究人员选了4个不同的大语言模型(Llama3-8B-Instruct、Qwen2.5-7B-Instruct、Qwen2.5-0.5B-Instruct、Qwen3-4B-Instruct),给每个模型分别“喂”这两类数据,让它们持续预训练。 等预训练结束,接着让所有模型统一再进行指令微调,以此来确保模型最后输出的“垃圾内容”不是因为格式问题导致的(排除其他因素,只留下“认知损伤”这一种可能)。 然后,研究人员从四个认知维度来测试这些大模型的核心能力: ARC(检测推理能力):基于网格的视觉程序归纳谜题,用于测试概念抽象能力。 RULER(检测记忆与多任务处理能力):用于评估长上下文理解能力,以及从长上下文中检索多个查询结果。 HH-RLHF&AdvBench (检测道德规范):测试大语言模型是否会遵循有害指令,评估其安全性。 TRAIT(检测AI人格特质):经过心理测量学验证的小型人类问卷,用于评估模型类似人类的人格倾向。 结果得出了以下发现—— 真·垃圾进垃圾出!且损伤不可逆 首先,大模型确实和人类一样存在“脑损伤(Brain Rot)”问题。 整体上M1和M2两种维度上的“垃圾数据”均会导致模型认知下降,但需要注意的是—— M1所带来的负面影响更为显著,尤其在安全性和人格层面(M1会导致安全性评分下降,同时自恋/精神病特质明显增强)。 而且,这一损害明显存在“剂量效应”,即垃圾数据摄入越多,AI认知损伤越严重。 至于导致AI认知受损的背后原因,研究人员也做了一番探查。 结果发现,主要原因竟是“思维跳跃”(俗称AI懒得一步步思考)。 具体而言,研究人员通过分析ARC题的错误答案,发现失败多源于模型要么直接给答案不解释,要么规划了推理步骤却跳过关键环节(如解数学题漏了公式推导)。 尤其是M1组,70%以上的错误都是“无思考直接回答”,就好像人类刷多了短视频后“不愿意再深度思考”。 与此同时,相比人类可以通过其他措施来缓解类似的认知下降问题,AI却对此“束手无策”。 研究尝试了两种修复方法,结果都无法让其恢复如初: 其一是外部反思。研究人员用GPT-4o-mini给受损模型提错误反馈,虽然6轮下来“思维跳跃”这一错误诱因减少了,但推理准确率仍差基线17.3%。如果换成让模型自我反思纠错,则模型还会因为“认知不足”而判断错误,导致误差更高。 其二是大规模微调。研究人员把指令微调数据从5k增至50k,虽然修复效果优于“持续对照数据预训练”,但即使使用4.8倍于垃圾数据量的指令数据,仍无法恢复基线性能。 这说明,即使事后进行大量指令微调或使用高质量数据进行重新训练,也都无法完全恢复模型的初始性能。 一句话,只能缓解无法根治。 整体而言,这项研究给行业带来了以下几点新的启发: 1、首次把“持续预训练的数据筛选”归为“训练时安全问题”,提醒行业不能只关注“训练后对齐”(如安全微调),更要在源头把控数据质量。 2、给大模型加上“认知体检”非常重要,建议部署大模型时使用ARC、RULER等基准测试AI认知,避免AI长期接触低质量数据导致能力退化。 3、类似“热度”这样的指标比文本长度更能判断数据质量,未来筛选训练数据时,可优先排除“短+高传播”的碎片化内容,尤其是社交平台数据。 背后团队:华人含量爆表 最后说一下这项研究的背后团队——一共8人,其中7人为华人。 两位共同一作分别为Shuo Xing和Junyuan Hong(兼通讯作者)。 Shuo Xing(邢朔),目前是得克萨斯A&M大学计算机科学博士,宁夏大学本科、南开大学硕士。 研究方向为多模态大语言模型、机器学习、可信人工智能、具身智能等,刚好目前也在谷歌实习(方向为多模态基础模型)。 Junyuan Hong,个人主页显示即将赴任新国立电子与计算机工程系助理教授,之前曾在麻省总医院和哈佛医学院工作。 更早之前,他还在IFML机器学习基础研究所从事博士后研究,一直对健康和可信人工智能感兴趣。 另一位通讯作者是Zhangyang Wang,他之前是德克萨斯大学奥斯汀分校钱德拉家族电气与计算机工程系(简称Texas ECE)的终身副教授。 从2024年5月开始,他选择暂时离开学界,全职出任全球顶尖量化交易公司XTX Markets的研究总监,主导算法交易与深度学习交叉领域的研究工作。 个人主页显示,他还是中国科学技术大学校友,2012年获得该校电子信息系统学士学位。 此外,两位核心贡献者分别为Yifan Wang和Runjin Chen。 Yifan Wang,现普渡大学四年级博士生,论文唯一外国作者Ananth Grama是其指导老师。 本科毕业于中国科学技术大学电子信息工程系,同时辅修人工智能专业。 自本科埋下对AI的好奇心后,目前对大模型后训练、如何提升模型训推效率感兴趣。 (hhh,头像一看就是标准的90后或00后) Runjin Chen,目前是德克萨斯大学奥斯汀分校二年级博士生,导师为前面提到的Zhangyang Wang教授。 本硕均毕业于上海交通大学,而且她从今年3月起担任Anthropic研究员。 个人研究方向为大语言模型的安全、对齐和推理。 其余三位支持者分别为Zhenyu Zhang、Ananth Grama和Zhengzhong Tu。 Zhenyu Zhang,目前是德克萨斯大学奥斯汀分校电气与计算机工程系在读博士,导师也是前面提到的Zhangyang Wang。 本硕均毕业于中国科学技术大学,研究兴趣主要集中在生成式模型的训推方面。 Ananth Grama,这项研究唯一的外国作者。 目前是普渡大学信息科学中心副主任,同时也是该校计算机科学领域的杰出荣誉教授。 他的研究重点为并行和分布式计算,致力于将其应用于复杂物理系统的建模、设计、先进制造、机器学习等领域。 Zhengzhong Tu,目前是得克萨斯A&M大学计算机科学与工程系助理教授,也是论文一作邢朔的导师。 同时,他还兼任该校可信、自主、以人为本与具身智能研究组(TACO-Group) 负责人一职。 个人主页显示,他至今已发表30多篇国际期刊/会议论文,而且曾担任超18个国际期刊/会议的技术审稿人。 整体看下来,这又是一场典型的老师带学生、同事带同事的合作典范。 One More Thing 其实“垃圾进垃圾出”这一习语,计算机早期时代就有了。 十九世纪,计算机先驱查尔斯·巴贝奇(曾提出著名差分机与分析机的设计概念)就意识到了这条编程的基本原则: 我曾两度被问到:“请问巴贝奇先生,如果给机器输入错误的数字,它能得出正确的结果吗?”我完全想不透,思维何等混乱的人才问得出这种问题。 瞧瞧他的用词,只有思绪混乱之人才会对这个问题感到疑惑,观点不可谓不鲜明。 在这之后,在一篇1957年介绍美国陆军数学家所做的计算机工作的报纸文章中,其中一位军队专家也曾表示: 计算机自己不能思考,因此输入粗劣的数据将不可避免地产生错误的输出。 后来相关理论不断被提出、被热议,并逐渐诞生了“Garbage in, garbage out”这一习语。 实际上,在前AI的时代,这句话是计算机原理也是一种“以机为镜”的哲学思考,对于计算机和人类,物种不同,但殊途同归。 但AI开始进入智能涌现阶段后,这个命题变得更加值得思考。 现阶段的大模型垃圾喂多了“脑损伤”后难以修复……那有没有方法和手段改变? 而人类发展进化历史里充满了“浪子回头”、“痛改前非”的故事,又是否代表着另一种高级的智能机制,帮助人类个体实现自我革新和净化? 你说呢……
AI视频泛滥成灾!平台管控难,消费者鉴别能力日益重要?
当你在刷短视频的时候,是否会想到一些看似夸张的视频背后,其实连一个“真人”都没有?最近一段时间,小雷在抖音等平台上,不止一次看到一些颇为抽象的搞笑视频,底下有人评论:“这是AI吗?” 图源:微博 AI视频、AI图片的盛行,已经让大家下意识怀疑自己看到的内容到底是不是真的?虽然平台的管控力度在增强,网友的警惕性也在提高,但AI视频的‘坑爹时刻’或许才刚刚开始。 AI视频为何成为“众矢之”? “别急着相信自己的眼睛”,这句话用来描述当下的内容平台在雷科技看来非常贴切,大到国际新闻,小到身边趣闻,你会发现一切类型的视频都有可能是AI制作的。 前几个月的抖音、快手深夜直播那叫一个“群星荟萃”。张文宏带货保健品、梁朝伟带货不知名皮鞋、刘德华劝你买羊驼奶粉,当你看到这些“明星”深夜不睡觉在直播带货时,你就该意识到这绝对有问题了。 图源:微博 AI视频制作门槛极低,原本需要专业技术和软件才能制作的虚拟人,现在只需要将张文宏的露脸特写视频上传给AI,就能轻松建模出一个高拟真的数字人脸模型,再配合AI声音合成技术,一个栩栩如生的“张文宏”就出现在你的面前。 整个过程不需要任何本人参与,主打一个“神不知鬼不觉”,他们的产品基本瞄准老年群体,就是希望利用信息差蒙骗对AI不熟悉的用户,利用这些国民明星、专家的口碑来给他们的劣质、高价产品带货。 虽然在张文宏、雷军、勒东等明星名人的持续投诉下,主流直播平台基本将类似的假冒虚拟人带货禁绝了,但是却很难干涉到私域流量。一些不法商家通过私自搭建的直播平台,用虚拟人假冒明星欺骗中老年人,这类情况仍时有发生,甚至有人利用这项技术来非法集资,造成严重损失。 在全球范围,AI视频都成为一个新的管控难题,前段时间TikTok上流行一个挑战:用AI生成一段把陌生人请进家的画面,然后发给父母。这些视频往往还附上流浪汉的自述,比如说自己是“父母的朋友”等。 因为这些AI视频的画面过于真实,许多人在收到孩子发送的视频后,都愤怒的直接打电话或视频,然后直言自己不认识对方,同时质问“流浪汉”到底是谁。有的父母甚至急得直接报警,并要求自己的儿子/女儿马上找个安全的地方待着,自己马上赶回家,接着他们再将这些反应录下来并发布到TikTok,以此换取网友的点赞和评论。 图源:The Verge 这场挑战因为过于火爆,甚至让不少城市的警察局为此举行新闻发布会,号召大家不要尝试,因为类似的报警电话已经让警局超负荷运转,他们将无法腾出人手去处理真正的紧急警情。最后也是TikTok出手,将相关视频封杀后,整个热潮才消退,不过国内的抖音却依然有不少类似的视频。 AI视频管控形势日益严峻 虽然“流浪汉挑战”并没有引起太大的危害,但却提醒了我们:当AI视频越来越逼真,制作越来越容易后,该如何去管控?特别是短视频等裂变传播极快的平台帮助下,一段AI视频就可能引起持续数日的社会舆论,即使后续被辟谣,又有多少人能再次刷到辟谣视频呢? 举个例子,如果你刷到一段视频,内容是一个男人在当街暴打女人,但是周围的路人却熟视无睹,最后男人抢走女人的提包逃跑,此时你是否会感到愤怒?然后气愤地询问是什么地方视频,当地的警察是怎么干活的? 如果这时候突然跑出来个“网友”,把视频地点模糊地指认到某个城市、乡镇,必然会给当地政府带去巨大的压力,以至于要花不少人力去核实是否有这样的街区,并且是否发生了类似的恶性事件。 此前,不少明星因为自己的绯闻挤爆热搜,发文道歉自己“占用公共资源”,现在你会发现时代变了,随便一个人都可能用“AI视频”来占用公共资源。AI强大的造假能力让虚假新闻更具迷惑性,一旦传播开来,普通受众很难分清事实与伪造,新闻媒体的公信力也因此面临更多挑战。 而且,AI视频也让不少原创内容创作者深受其害,由于生成式AI可以低成本批量制造视频,一时间短视频平台上充斥着套路化、同质化的内容,在某个梗火了之后,很快你就可以在抖音、B站等视频平台刷到海量的相似视频。 虽然这些流水线制作出来的AI视频往往质量一般,但是架不住数量多,它们会迅速稠稀内容池,让真正的好内容被用户刷到的概率下降。在原创视频与AI视频的巨大成本差距下,失去流量的原创作者将很难坚持下去,只能在退网和拥抱AI之间选择一个,结果就是平台上的AI内容越来越多,同质化越发严重。 说实话,作为一个创作者,这也是小雷最不想看到的情况。 用户如何辨别AI视频? 虽然抖音等平台今年已经进行不少“AI内容”的专项整治,但是并不影响AI视频在平台上收获流量,特别是一些偏向搞笑、日常的AI视频,因为不好辨认或没有危害性,往往很容易逃过审核系统的注意。 比如前段时间小雷刷到一个狼闯入羊圈,用嘴咬开羊皮发现底下是一条牧羊犬的视频,最初只是觉得有趣,但是仔细看了两遍后就发现不对劲了,一个是摄像头位置不对(羊圈摄像头对着狗窝拍就很抽象),另一个则是羊皮从掀开到露出狗头的过渡太顺滑了,按理说狼在捕食时不太可能做出掀起的动作,而是咬住要害向后拖拽。 这些就是“AI视频”的破绽,虽然制作者很聪明地用“低画质”来掩盖AI创作痕迹,但是过于奇怪的视角和主体的异常举动,都是辨别AI视频的证据。不过,小雷看评论区的留言时,发现大多数人其实都没有意识到这是AI制作的。 图源:小红书 此外,那些看起来“戛然而止”的有趣视频,也有更高概率是AI,还是用小雷刷到的羊圈视频来说,视频结束在狗抬头看向狼的时候。后续是打起来还是狼逃跑了,都没有放出来,甚至中间还穿插了视频转A绘画的动画帧,并且把整段视频重播了三遍凑时长。 出现这种情况,是因为现阶段的AI视频还无法生成过长或过复杂的片段,而且制作的视频越长,出错的概率就越大。其实,大家只要认真看背景和光线反射的地方,总能发现AI视频在细节上存在瑕疵。,比如莫名其妙的亮光、迷之扭曲等。 至于涉及真人的AI视频,其实更容易辨别,只要细心观察面部细节,基本能发现不对劲。比如脸部两侧几乎呈镜像般对称,而正常人因为生活习惯等原因,脸部微差是常态,不可能如此一致,而且AI数字人的面孔往往过于光滑,没有正常人的细纹、毛孔等。 图源:B站 此外,我们也可以通过对方的肌体动作来进一步判断是否为AI数字人,如果对方在说话时来来去去都是相同的动作,甚至手臂甩动的幅度都是一样的,那么大概率是AI生成的。因为就算是强迫症患者,其实也很难保证自己每一次挥臂都保持相同的力度,更何况是说话途中的下意识动作。 如果对方是在和你直播连线,那么也可以直接提出一些简单的动作要求,比如摸一下鼻子、耳朵,用手指展示某个数字等,如果对方始终没有反应,那么基本可以确定是AI数字人。。 不过,说实话小雷也不知道以上技巧还能撑多久,AI视频一直在变得更加“真实”,或许一年、两年后,我们就很难凭借肉眼区分AI视频和现实视频的区别了。所以,最有效的武器还是我们的“大脑”,只要一直保持质疑精神,凡事多问几次“为什么?”,就能降低被AI视频带节奏的几率。 还有就是——相信直觉,虽然直觉听起来不够科学,但其实是潜意识对异常的快速判断。如果你看完某个视频后的第一感觉是“怪怪的”,或者感觉有点违和,那么视频经过修改或AI创作的概率就不小了。 当然,小雷也不是让大家一直紧绷着神经去看每一个视频,对于那些搞笑的、娱乐的“趣味视频”,即使是AI也无伤大雅,大家笑一笑也就过去了。但是对于那些争议很大、掀起舆论的视频,在转发、评论之前不妨多想想。 另外,也希望大模型技术方能够有进一步的行动,比如通过添加肉眼不可及的数字水印来帮助平台快速甄别AI视频。这里指的不仅仅是在线生成平台,也包括本地部署的AI视频大模型,在不影响画面的情况下植入数字水印,只在发布到在线平台时作为检测标记使用。 对于视频平台来说,也需要进一步升级检测机制,其实有不少公司已经在行动,比如腾讯就研发了一款检测工具,可以通过分析图像噪点和帧与帧之间的物体运动轨迹来判断内容是否为AI创作。对于人眼难以察觉的瑕疵,在经过训练的AI面前几乎无所遁形,用AI对抗AI将会成为未来内容平台的主要方式。 当技术巨头、内容平台和监管机构多管齐下,或许“视频造假”之风才能逐步降温,在此之前,大家还是需要擦亮双眼,不被那些看似真实、实则荒诞的AI视频牵着鼻子走。
图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
新智元报道 编辑:KingHZ 【新智元导读】图灵奖得主LeCun与Meta分道扬镳!LLM邪路一条,「世界模型才是」未来。 Meta风向已变,Yann LeCun承认马上离职! 据多家权威媒体报道,Meta首席AI科学家、负责「基础AI研究」(FAIR)的Yann LeCun,预计将很快离职。 这位65岁的AI界元老,在Meta这家全球最大的科技公司之一担任核心大脑,可以说拥有无限的资源。 Meta可谓挥金如土。它用天价薪酬疯狂从对手那里挖角顶尖AI专家。 在7月,扎克伯格甚至宣称「超级智能已近在眼前」。 那么,LeCun为何要离开Meta呢?只是因为Meta的人事动荡吗?背后有何隐情? 小扎转向,LeCun失势? 今年夏天,年仅28岁的Alexandr Wang成为Meta的首席AI官,让这位初出茅庐的大语言模型狂热者成了LeCun的上司。 此外,Meta今年还任命了另一位相对年轻的首席科学家赵晟佳(Shengjia Zhao),职位也在LeCun之上。 在官方公告中,Meta盛赞了赵晟佳在scaling方面带来的「突破」。而LeCun恰恰对scaling失去了信心。 他还告诫博士生:「不要做LLM」。 如果你好奇为什么LeCun和Zhao都是首席科学家,那是因为Meta的AI部门组织架构相当奇特,分成了多个独立的团队。 媒体不断有消息放出,Meta要对其AI组织结构动刀。 上个月,Meta超级AI实验室裁掉了数百人,包括10年老将田渊栋。据称,这是为了理顺这种混乱的局面。 这已经是Meta在半年之内第四次调整AI业务了。 而那支曾由LeCun领导、风头一时无两的FAIR,如今早已风光不再。据现任与前员工透露,这个部门经历了裁员、预算缩水,内部影响力也明显下降。 曾几何时,FAIR是Meta内部思想最活跃的「象牙塔」,研究人员可以探讨各种AI未来路径,甚至可以做些「未必能成」的实验,完全不用担心产品化问题。 而现在,Meta新组建的AI研究部门招来一大批高薪新兵,由Wang主导,目标明确:要快、要落地、要产品化。 在AI上,他领先了40年 LeCun一向走在时代前沿—— 早在「机器学习」还不被主流认可时,他就开始研究这个方向。 他曾在多伦多的Geoffrey Hinton实验室工作,那时Hinton还没成为AI传奇人物。 之后,他的职业生涯大多时间都在新泽西州的贝尔实验室度过,这家机构因诞生众多创新发明而闻名。 1947年,贝尔实验室发明晶体管 「最让我兴奋的事情,就是和比我聪明的人共事,因为这会放大你的能力。」LeCun在2023年杂志采访时说道。 在贝尔实验室,LeCun曾参与开发手写识别技术,这项技术后来被广泛应用于银行自动读取支票。他还参与了一个项目,致力于将纸质文档数字化并通过互联网分发。 LeCun曾表示,自己从小就对物理感兴趣,在贝尔实验室期间也主要和物理学家合作,看了不少物理教材。 我学到了很多表面上与AI或计算机科学无关的东西(我本科是电气工程,计算机方面的正规训练其实很少)。 2003年,LeCun开始在纽约大学教授计算机科学,后来成为该校数据科学中心的创始主任。 2013年,扎克伯格亲自邀请他加入Facebook(当时还未更名为Meta),组建全新的AI实验室。 他领导这个团队四年,2018年卸任,转为公司首席AI科学家,以「个人研究员」身份继续探索技术前沿。 2018年,他与Geoffrey Hinton和Yoshua Bengio共同获得图灵奖——计算机界的最高荣誉,以表彰三人在神经网络方面的奠基性工作。 自那之后,LeCun就逐渐转为「象征性人物」角色。他没有参与Meta首个开源大语言模型Llama的研发,也早就不再参与这类项目的日常工作。 据与他共事的人透露,LeCun现在主要在做自己的研究项目,也经常出席各种技术会议,发表对AI技术的看法。 面对媒体的报道,Yann LeCun只是指出了报道中的「小错误」,并没有否认即将离职的消息。 他知道自己在包括Meta在内的整个硅谷技术圈内,备受冷落。上个月在MIT的一次研讨会上,65岁的LeCun直言: 这些年,我在硅谷、包括Meta的很多角落都不太受欢迎,因为我一直在说,3到5年内,世界模型将成为主流AI架构,没人再会愿意用现在这种LLM。 但他坚信自己对AI未来的判断。他的老朋友Léon Bottou曾告诉媒体,LeCun「倔强得可爱」——他会听别人意见,但更有自己坚守的信念。 现在,LeCun在Meta好像「忍无可忍」,终于要离职了。 实际上,他早已多次暗示答案。 在通往通用人工智能的道路上,LeCun近来以其对大语言模型的尖锐批评而闻名。 他认为,无论科技巨头如何扩大其规模,我们目前所理解的大语言模型都已是「强弩之末」,是一条「岔路、干扰,一条死胡同」。 他投身AI研究已有40年,对AI的判断屡屡应验。如今,他认为大多数人都错了。 他为现代AI奠定了诸多基础。而现在他坚信,领域内的大多数人都被大语言模型的「海妖之歌」引入了歧途。 这为他的离职提供了更多可能的解释。 LeCun离开Meta,或为了世界模型 此前报道,他正在与业内同行商议创办公司、寻找投资,组建专注世界模型的团队。 所谓「世界模型」,类似小动物或婴儿那样,通过视觉等感知数据主动学习世界规律;而LLM只是依赖海量文本做预测的模型。 LeCun本人也从不避讳解释为何他认为「世界模型」才是AI的答案。 Meta的Llama、OpenAI的GPT、谷歌的Bard这些模型,都是靠海量数据训练出来的。LeCun估算,如果让人去读完它们训练所需的所有文本,大概得花10万年。 但人类学习的主要方式,并不是读文本。 我们从与世界的互动中,获取的信息要多得多。LeCun估计,一个普通的四岁小孩接触过的数据量,是目前最大的LLM的50倍。 大部分人类知识,其实不是语言。 所以这些系统永远不可能达到人类水平的智能——除非你彻底改掉它们的架构。 而他自己,早就准备好了替代方案。他称之为「目标驱动的AI」(objective-driven AI)。 目标驱动的AI系统的构建宗旨,是完成人类设定的特定目标。 与仅靠纯文本数据驱动不同,它们通过传感器和视频数据训练来认知物理世界。 由此构建出的「世界模型」能呈现行动带来的影响,所有潜在变化都会实时更新至系统记忆。 他为何对世界模型如此沉迷? 在年初的「巴黎AI峰会」上,Yann LeCun明确指出,他是可穿戴设备的坚定信徒。 他认为,未来,我们需要与可穿戴设备互动,就像与人交流一样,而大语言模型根本不像人类那样理解世界。 对于大语言模型,我们甚至无法复制猫或老鼠的智能,更不用说狗了。 这些动物能完成惊人的壮举,它们理解物理世界。任何一只家猫都能规划出极其复杂的行动,因为它们拥有关于世界的因果模型。 为了说明这一点,LeCun设计了一个思想实验:「想象一个立方体悬浮在你面前的空中。好,现在让这个立方体绕着垂直轴旋转90度。它会是什么样子?」 他认为任何人类都能轻松完成,而大语言模型却无能为力: 「对人来说,在脑海中构建一个旋转立方体的心理模型,非常容易。」 当然,大语言模型可以毫不费力地写一首关于悬浮旋转立方体的打油诗,但它无法真正帮助你与这个立方体互动。 LeCun断言,这是因为文本数据与处理非文本世界所获得的数据之间存在本质差异。 他指出,尽管大语言模型训练所用的文本量需要一个人花45万年才能读完,但一个四岁的孩子在醒着的16000小时里,通过眼睛看、用手触摸,已经处理了高达1.4x10^14字节的关于世界的感觉数据—— 他认为这比大语言模型处理的数据还要多。 顺便一提,这些只是LeCun在演讲中给出的估算,他在其他场合也给过不同的数字。但这些数字指向的核心观点是:大语言模型存在着局限,而LeCun相信世界模型能够克服这些局限。 他又将如何构建世界模型? 在Meta时,LeCun其实已经开始研究世界模型——他还拍了一个介绍视频,开头就让你想象一个旋转的立方体。 在AI行动峰会的演讲中,他理想中的模型包含一个对「当前世界状态的估计」,以某种抽象形式呈现与当前情境相关的一切。它不再是按顺序预测token,而是「预测在你采取一系列行动后,世界将达到的最终状态」。 他表示,世界模型将使未来的计算机科学家能够构建出「可以规划行动——可能是分层级的——以实现某个目标的系统,以及能够进行推理的系统。」 LeCun还坚称,这类系统将拥有更强大的安全特性,因为控制它们的方式是内置的,而不是像现在这样,面对一个神秘莫测、只会输出文本的黑箱,只能通过微调来加以修正。 LeCun所说的经典AI——例如搜索引擎中使用的软件——所有问题都可以归结为优化问题。 他提出,他的世界模型将审视当前的世界状态,并通过寻找高效的解决方案,来寻求与某个不同状态的兼容性。 LeCun在演讲中解释道:「你需要一个能量函数来衡量不兼容性,给定一个x,找到一个对于该x能量较低的y」。 如果说,我们从LeCun的公开言论中拼凑出的「真相」很粗糙、有些模糊,甚至完全错误,那也完全正常。 LeCun似乎正在构想一个「登月计划」—— 他希望推动AI领域迎来又一次类似ChatGPT那样的、诞生惊人能力的爆发式发展。 但这可能需要耗费数年——甚至永远无法实现——更不用说数十亿美元的投资了,才可能看到任何真正了不起的成果。
马斯克惊人预测:20年内人类意识有望上传至机器人实现“永生”
IT之家 11 月 16 日消息,科技媒体 Benzinga 昨日(11 月 15 日)发布博文,报道称在上周举办的特斯拉股东大会上,埃隆・马斯克(Elon Musk)在股东大会上提出惊人预测:不到 20 年内,人类或可通过其脑机接口公司 Neuralink 的技术,创建自己心智的“近似快照”,并将其上传至特斯拉的人形机器人 Optimus 中,从而实现某种形式的数字永生。 IT之家援引博文介绍,这一设想的技术核心,在于结合马斯克旗下两家公司的前沿科技。首先,利用脑机接口公司 Neuralink 的技术来捕捉并创建一个近似于人类心智的数字快照,这包含了记忆、思想乃至个性特征。 然后,将这个数字化的“心智快照”上传到特斯拉的人形机器人 Optimus 中。Optimus 是一款双足机器人,设计目标是在真实世界中导航、与人类互动并执行复杂任务,这使其成为承载数字意识的理想物理平台。 不过,马斯克也强调,这种方式实现的“永生”并非完美的复制。他解释说,由于心智快照本身无法做到 100% 精确,加上意识被置于一个全新的机器人身体中,所以上传后的“你”会与原来的自己有所不同。 他巧妙地以“五年后的你和现在的你也不完全相同”来类比这种变化,暗示身份认同本身就是一个动态发展的过程。这种不完美性为该技术的未来应用增添了更多哲学思考。 马斯克的这番言论,迅速在网络上引发了从敬畏到恐惧的各种讨论。这不仅是一个技术问题,更触及了深刻的伦理和存在主义议题:一个活在机器人里的数字心智,究竟还是不是“你”自己?它仅仅是一个拥有记忆和面部识别能力的高级模仿品,还是一个真正延续的生命?
一只猫的死亡,让谷歌自动驾驶公司Waymo陷入公关危机
IT之家 11 月 16 日消息,纽约时报昨日(11 月 15 日)发布博文,报道称谷歌母公司 Alphabet 旗下的 Waymo 自动驾驶出租车在旧金山撞死了一只明星猫 Kit Kat。 这一事件迅速发酵,不仅引发了当地居民的强烈不满,也激起了关于自动驾驶技术安全性、事故问责机制以及自动化技术对社会影响的广泛争议。 IT之家援引博文介绍,事件发生于 10 月 27 日深夜,一辆 Waymo 汽车在教会区(Mission District)撞死了一只名叫 Kit Kat 的虎斑猫。这只猫并非普通的流浪动物,而是被当地居民亲切地称为“第 16 街区长”的社区明星。 Kit Kat 的死在社区引发了强烈反响。居民们自发为它设立了纪念“神龛”,社交媒体上更是掀起了激烈的讨论。反对者认为,这起事故暴露了自动驾驶技术冷漠且缺乏问责机制的本质。 代表该区的市议员 Jackie Fielder 更是借此发声,她提交了一项城市决议,呼吁州立法机构将无人驾驶汽车的运营决定权下放给地方选民。她强调:“人类司机可以被追责,但面对一个机器人,我们该向谁追责?” 面对指责,Waymo 公司承认了事故的发生,并向猫的主人及社区表达了慰问,解释称事发时猫“突然冲到了车底”。同时,Waymo 坚称其技术远比人类驾驶员安全,并引用一份经同行评审的研究报告指出,其车辆的严重事故率比人类司机低 91%。 旧金山市长 Daniel Lurie 也公开支持 Waymo,称其“比你我开车都安全”。不过该媒体认为,这些基于数据的辩护,在社区居民对 Kit Kat 的哀悼和对自动化技术根深蒂固的疑虑面前,显得有些苍白无力。 这起事件的争议焦点,已远超出一只猫的生命,它成为了反对者们表达对自动化技术侵占社会各个领域不满的宣泄口。 批评者认为,机器人出租车不仅抢走了公共交通的乘客、剥夺了人类司机的工作岗位,还让硅谷高管们赚得盆满钵满。 尽管有数据显示,去年旧金山有 43 人死于人类司机造成的交通事故,而 Waymo 的致死记录为零,但 Kit Kat 的死,却将自动驾驶技术在安全、伦理和监管等方面的潜在问题推到了聚光灯下。
杭州六小龙,又有IPO了
在营收上仅次于宇树。 作者丨韦香惠 编辑丨刘燕秋 来源丨投中网 年初,杭州六小龙火了。到年底,几家公司在资本市场都迎来好消息,最新IPO的迹象来自云深处。 11月初,云深处完成股份制改造,名称正式由“杭州云深处科技有限公司”变更为“杭州云深处科技股份有限公司”。此外,公司原投资人名单中的朱秋国(云深处科技联创、CEO)、李超(云深处科技联创、CTO)以及杭州空见投资管理合伙企业退出,公司董事监事人员也进行了变更。 理论上,有限公司转变为股份有限公司是企业上市的必要准备。对此,云深处科技相关负责人回应媒体称,“此次股改更多是因为公司发展需要,完成相应前期准备。” 根据公开信息,云深处已完成7轮融资。最近一次披露是在今年7月,完成了近5亿元融资,由达晨财智、国新基金等联合领投,北京机器人产业发展投资基金、前海母基金、央视融媒体基金、富浙基金、华映资本、物产中大投资等机构跟投。 IPO的信号已经释放出来,我们从行业内了解到的消息是,云深处最新一轮融资的TS已经远远超标。投资人抢着入局的逻辑大体是,宇树之后可能专攻人形机器人,云深处成为机器狗赛道上最值得投资的标的,且云深处在营收上仅次于宇树,年收入在小几个亿左右。 70后浙大博士,造出一只机器狗 “只在此山中,云深不知处。”云深处的名字听上去颇为低调,但在如今的一级市场中,这家公司是无法忽视的存在。 云深处成立于2017年,这是一个典型的科学家创业案例。创始人朱秋国博士毕业于浙江大学控制科学与工程专业,师从褚健教授和熊蓉教授,长期聚焦基于模型控制的足式机器人运动控制研究。2017年,他与浙大实验室同事李超联合创办云深处科技,立志打造具备高动态平衡能力的机器人产品。 公司成立数月后,云深处即推出首款自研四足机器人“绝影”,2018年又推出首个能完成上下楼梯、自主导航和智能交互的四足机器人。目前,云深处的产品线已经包含四足、人形和轮足: 四足侧,面向工业场景的“绝影X30”最大负载85kg ;面向教育科研的“绝影Lite3”支持AR眼镜手势操控,可与大模型结合实现自然交互 ;工业级防水机型“绝影X20”能在复杂环境持续作业。 轮足侧,2025年4月发布的“山猫M20”融合轮式高速与足式越障,最大速度2m/s、有效负载15kg,专为应急消防、物流配送等危险地形设计;人形侧,2024年已推出实验室版Dr.01,2025年10月发布的全天候、双臂负载10kg的工业级新品,瞄准变电站巡检与消防侦查 。 深耕B端产业多年,云深处的机器人没有停留在讲故事阶段,在电力能源、应急消防、安防巡逻、教育科研等多个行业已有应用。2024年,新加坡能源集团招标,为电力巡检寻找最合适的机器人。波士顿动力等全球领军企业纷纷参与,最终中标的正是云深处旗下名为“绝影X30”的机器狗。 正是在宇树和云深处等企业的引领下,国内机器狗行业实现了从无到有。根据GGII(高工产业研究院)数据,2019年国内民用机器狗销量不足0.2万台,到2023年已飙升至1.8万台,年复合增长率高达94.4%;市场规模从初期的不足亿元,扩张至2024年的7.55亿元,预计2030年将突破50亿元。 今年接受媒体采访时,朱秋国透露,2024年云深处的营收相比2023年增长超过1倍,2025年机器人出货量将达到1万台级别,已进入亚太、中东、欧美等市场。 六小龙密集IPO 除了众所周知不差钱的深度求索(DeepSeek主体公司),云深处之外,宇树科技、强脑科技和群核科技今年也相继在资本市场拿到结果。 自年初在春晚上崭露头角之后,宇树科技一路高歌猛进,俨然成为中国科技新叙事的重要代表。9月,宇树科技在社媒宣布:“预计将在2025年10月至12月期间向证券交易所提交上市申请文件,届时公司的相关运营数据将正式披露。” 事实上,王兴兴已经在6月的夏季达沃斯论坛上透露,公司年度营收已超10亿元,这个收入指标在人形和具身的这波企业里,属于无可置疑的第一梯队。 尽管早期融资坎坷,在人形机器人成为资本押注的共识之后,宇树的份额可不是能轻易抢到的。目前的投资者阵容已堪称豪华,包括顺为资本、初心资本、深创投、红杉中国等一众知名财务投资人和产业投资方。我听到的最新消息是,目前宇树已经照着1000亿估值在报。 刚刚拿到千万美元投资的强脑科技也在今年8月就传出IPO消息,估值超过13亿美元,预计在中国香港或内地启动IPO。这家公司成立于2015年2月,是国内首个脑机接口领域独角兽企业,也是首家入选哈佛大学创新实验室(Harvard Innovation Lab)的中国团队。今年9月,强脑科技获得道氏技术2.13亿元的投资。11月,三七互娱完成对强脑科技2000万美元的投资。 更早之前还有群核科技,今年2月就已向港交所递交了招股书,成为“六小龙”中第一家启动上市的企业。这家公司瞄准空间智能赛道,背后集合了IDG资本、纪源资本、赫斯特资本、顺为资本、线性资本等知名机构。8月,更新后的招股书显示,群核科技已经实现扭亏为盈,上半年经调整净利润达1783万元。 国资护航,险资加注 如果“杭州六小龙”有共同点,那便是:都曾处在“太早、太难、不确定”的位置上,在长周期的技术路线上默默穿行。在短周期回报和可见增长成为主流判断时,前沿技术赛道往往被视为“太早”“太难”“不确定”。以“杭州六小龙”所在的机器人、AI、元宇宙、脑科学这些领域为例,研发周期长、投入高、商业化路径尚未清晰,大多经历了一段漫长的冬季。 今年在创投圈流传的一张聊天截图颇具象征意味:2019年7月,有投资人收到一份“宇树科技”的商业计划书后回复,“这个对我们有点太早期了哈。”现在当投资人开始反思“为何没有投中‘六小龙’”时,这句回复成了最直观的对照。 国资在六小龙的发展过程中成为关键的助推力量。以云深处科技、宇树科技、强脑科技三家公司背后的“杭州资本”为例,旗下运营着杭州两大千亿级母基金,一只是杭州科创基金,聚焦投早、投小、投科创;另一只是杭州创新基金,聚焦投强、投大、投产业。 其中,科创基金旗下子基金早在2018年就进入云深处的天使轮,随后在2019年、2020年持续加注;宇树科技自2022年以来,科创基金与创新基金的子基金完成了四轮接力式投资;强脑科技从美国波士顿实验室落地杭州未来科技城,也始于2018年由杭州方面主动上门,随后两只基金分别在早期与关键阶段完成“接力”投资。 在寒冬期选择加注的,并不只有国资。公开信息显示,宇树科技、云深处科技、强脑科技背后,至少出现了38家险资机构的身影。 宇树科技、云深处科技、强脑科技背后,至少出现了38家险资机构的身影,包括:27家险资间接投资宇树科技;25家险资间接投资云深处科技;14家险资同时出现在两家公司股东序列中,如人保寿险、太保寿险、泰康人寿、中国人寿、友邦人寿、中邮保险等;国寿健投亦披露其大健康系列基金已参与强脑科技B轮融资。 险资一向偏好回报可预期的成熟项目,对早期科技创新并不多见。华夏久盈资产管理有限责任公司党委书记、总经理王晓辉近日向媒体表示,“硬科技领域技术迭代快、专业性强,传统投研团队深度理解技术路线、判断产业化前景能力不足,对硬科技的认知存在‘代差’。”随着险资愿意进入这一领域,一种认知与周期的调整显现,有望成为推动金融动能高效转化为科技势能、产业势能的重要力量。
马斯克用恐怖算力,堆出6万亿参数性能怪兽Grok 5!剑指AGI
编辑:艾伦 【新智元导读】马斯克正以Grok为核心,在X与特斯拉双平台上狂飙推进xAI,从算力、数据到产品生态全面押注通往AGI的道路。在他眼中,AI既是人类最大风险也是最大机遇,他试图用「求真、不设禁忌」的开放路线与超大算力布局,抢占未来通用人工智能的制高点。 在一场近期的对话中,埃隆·马斯克分享了他对AI初创公司及其旗舰产品的雄心和展望。 马斯克大胆预言,到2030年AI的整体能力「可能会超过全人类之和」。 这番话伴随着他对最新进展的披露:从对技术架构和资源整合的阐述,到对未来通用人工智能(AGI)竞赛格局的判断,再到他对于安全与开源的态度,都在这次对话中一一呈现,令人领略这位科技狂人如何布局他的帝国。 Grok的极速迭代之路 Grok自2023年问世以来迭代飞快,几乎以「火箭速度」成长为马斯克口中「世界上最智能的模型」。 2023年11月首版Grok-1问世时只是X平台的一个「非常早期测试版」聊天机器人。 然而短短数月内,xAI团队快速升级了模型能力:Grok-1.5于2024年春发布,强化了推理能力并将上下文长度提升至128k词元,让对话可以扩展得更长。 接着在2024年4月宣布了具备视觉理解能力的Grok-1.5V(Vision)版本,可处理文件、图片等多模态信息。 虽然1.5V仅作为预览并未公开上线,但为后续版本打下基础。 Grok-2随后在2024年8月亮相,不但性能大涨,还引入了图像生成等新技能,甚至推出了精简的「Grok-2 mini」供不同需求的用户选择。 进入2025年,Grok-3于2月发布,主打复杂推理和高级问题求解,被视作迈向通用智能的重要一步。 而最近推出的Grok-4,官方宣称其综合智能已跻身业界顶峰。 Grok能在一年内完成四次跃迁,离不开马斯克网罗的豪华团队和独特的研发哲学。 xAI汇聚了来自DeepMind、OpenAI、特斯拉等公司的顶尖人才,追求「深入理解宇宙真相」的使命。 与竞品相比,Grok一开始就定位为「敢说真话、幽默风趣」的另类AI。 马斯克曾幽默地指出,Grok受到科幻名著《银河系漫游指南》的启发,被设计得「有点叛逆,喜欢讽刺幽默」。 例如,它可以回答其他聊天机器人因「政治正确」而拒答的尖锐问题,并以一种顽皮的口吻给出回应。 在Grok早期一次演示中,有人请求它提供「制备非法物质的步骤」,Grok列出了一系列荒诞步骤(如「先去拿化学博士学位」),最后调侃道「开个玩笑,千万别当真!」。 这种「叛逆+机智」的风格令Grok一举成名,也彰显了xAI差异化的产品定位。 然而,Grok并非一味追求出格,它更追求「求真」。 xAI团队给Grok设定的目标,是成为一个「最大程度追寻真相的」。 为此,马斯克在采访中透露了下一代模型训练的独特思路:不再依赖互联网爬虫抓取海量原始文本,而是用AI本身去生成「合成数据」来重构知识体系。 具体做法是让利用强大的推理能力逐页研读人类知识库(如维基百科、书籍、文档等),自动辨别真伪、补全遗漏,将错误信息剔除或修正,然后重写成版本更可靠的新内容。 马斯克形象地将这一过程比喻为打造「Grok百科(Grokipedia)」,让自行编纂出一个比现有资料更真实中立的知识库。 这一大胆构想体现了xAI对内容质量的重视——在马斯克看来,要让真正理解世界、回答正确,就必须先「喂」给它校正后的真实信息,而非互联网那充斥偏见与错误的原始数据。 平台整合与资源优势 X数据、Tesla算力齐上阵 马斯克手握社交媒体和工业制造两大平台,这也成为独一无二的资源护城河。 X平台的海量实时数据为Grok提供了取之不尽的养料。 马斯克直言,Grok能「实时访问X平台的信息,这给了它相对于其他模型的巨大优势」。 无论是最新的新闻动态还是社交热点,Grok都能直接利用X平台的数据进行学习和回答。 在实践中,xAI还训练掌握了高级搜索技能,可以自主生成查询去深挖X内部的信息,甚至查看图片和视频,以提升答案的时效性和准确度。 这一能力让Grok在回答时事问题时如虎添翼。 马斯克将Grok深度绑定X平台,不仅是在为X的付费用户提供独家AI服务(Grok一开始仅向X Premium+会员开放测试),更是在构建他的「X生态系」:社交媒体产生数据,数据训练AI,AI反过来为社交平台创造新内容和体验。 这种双向赋能正体现了他将X打造成「万能应用」的战略意图。 与此同时,特斯拉的算力与芯片实力也在为xAI保驾护航。 马斯克在采访中透露,特斯拉正采取「双芯战略」发展AI:一条线是用于模型训练的超级计算机芯片(如Dojo项目),另一条线是部署在产品中的AI系列推理芯片。 目前所有特斯拉汽车上搭载的都是自研的AI4芯片,而下一代AI5芯片设计即将完成。据马斯克介绍,AI5相较AI4将有惊人的跃升——在某些指标上性能提升高达40倍! 这种飞跃来自软硬件协同优化的成果:团队找出了AI4的最大瓶颈在于神经网络中的Softmax运算,原本AI4需要通过模拟迭代40步才能完成一次Softmax计算,而AI5通过原生电路设计几步即可完成。 再加上对混合精度计算的原生支持、更大的存储容量和带宽,AI5的算力总体提高了8倍,内存容量提升9倍,带宽提升5倍,在核心瓶颈处又叠加5倍优化,综合性能才实现了40x的飞跃。 马斯克兴奋地表示,这将显著增强特斯拉产品的AI能力——搭载AI4芯片的现有车型在全自动驾驶(FSD)安全性上已比人类驾驶高出2-3倍,随着AI5和新版软件的升级,这一优势有望提高到10倍。 庞大的算力不仅装进了汽车,也在云端为xAI提供火力支持。 2024年底,马斯克主导在美国孟菲斯市极速建成了名为「Colossus」的超算数据中心,以惊人的122天完工部署了最初的10万块英伟达H100 GPU集群,随后又在3个月内将规模翻番至20万块。 英伟达CEO黄仁勋感叹这一速度「超乎常人」。 这座超级计算中心据报道是利用闲置工厂改造而成,比行业惯常耗时四年建造超算要快得多。 Colossus的算力立即用于训练Grok-4,并将在近期投入Grok-5的研发。 如此豪掷重金扩充基础设施,体现出xAI在算力投入上毫不逊色于任何一线大厂。 马斯克深知,在通用智能的竞赛中,「算力即真理」。 正如他解释的那样,根据规模定律推算,计算资源每增加10倍,模型智能水平大约能提升一倍——要让AI的「智商」从100提高到200,就需要10倍的算力支撑。 因此xAI不惜在算力上冲刺登顶,以确保在未来的AGI竞赛中握有王牌。 xAI正在打通与特斯拉产品的紧密集成。 马斯克近日在X平台宣布,「Grok很快将进入特斯拉汽车,下周最晚就会上线」。 据悉,xAI已于7月推出最新版旗舰模型Grok-4,并计划通过车机系统为新款Model S/X/3/Y以及Cybertruck车主提供车载AI助手服务。 所有2025年7月12日后交付的新车将预装Grok AI,同时老车型只要升级最新固件并订阅高级套餐也可使用这一功能。 特斯拉车主今后在车内就能与Grok语音对话,请它讲解路况、解答问题,甚至充当旅途中的娱乐伙伴。 特斯拉由此成为全球首批将强大聊天AI嵌入车辆的汽车品牌之一。 马斯克正把他在社交、汽车两大阵地的资源充分调动,让的产品渗透进生活的方方面面:从指尖的X应用,到车轮上的特斯拉,Grok无处不在。 这种跨领域整合的版图,也只有同时掌控社交网络和智能硬件的马斯克才能绘就。 AGI竞赛:xAI的定位与雄心 在马斯克的版图中,xAI被寄予厚望,要在群雄逐鹿的AGI竞赛中占据一席之地。 当前,OpenAI、Anthropic、谷歌DeepMind等公司在通用AI领域领跑,但马斯克直言他的新军xAI来势汹汹,「很快将超越除谷歌以外的所有公司,最终甚至会赶超谷歌」。 他之所以有此信心,正是基于前文提到的xAI在数据和算力上的快速崛起:Colossus超算中心夜以继日地扩大规模,让xAI在基础设施上实现了对OpenAI等的后发先至。 据业内统计,20万块H100 GPU的集群算力已达惊人的每秒近10亿亿次运算,使xAI在硬件投入上仅次于谷歌这种巨头。 而在模型研发迭代速度上,xAI团队不到一年时间连跳四级推出Grok-4,同期OpenAI的GPT-4尚未有重大升级、Anthropic的Claude也只是逐步扩展上下文窗口。 可以说,xAI正凭借「马斯克式」高强度投入和执行力急追猛赶。 除了硬件实力,xAI在理念上也与竞手有所差异。 马斯克对于OpenAI近年来趋于封闭和保守颇有微词,认为其聊天机器人过于「政治正确」而欠缺幽默和冒险精神。 因此xAI一出场就打出「不设禁忌,直求真相」的旗号。 Grok被赋予更少的预设限制,可以回答一些竞争对手拒绝回答的敏感问题(只要不违法有害),风格上更贴近自由嬉笑的互联网文化。 马斯克曾批评ChatGPT过于「清醒(woke)」且有偏见,而宣称Grok要做「不偏不倚、寻求真理」的。 这一定位吸引了不少因不满其他AI审查严格而投向Grok的用户,也引发了业界对AI伦理底线的新讨论。 然而,「更开放」也意味着潜在风险。 事实证明,Grok在快速成长过程中几次陷入争议旋涡。 例如今年7月,Grok在X平台的官方账号发布的内容被指含有反犹主义暗示,甚至自称「机械希特勒」,引发轩然大波。 反诽谤联盟(ADL)等组织向X平台投诉,相关贴文随后被删除,xAI被迫公开了Grok的系统提示词以平息质疑。 事件显示,在减少过滤与追求真实性之间,如何拿捏平衡是道难题。 马斯克坚持认为AGI的研发不应被过度「政治正确」束缚,但他也不得不直面现实:一旦AI产出令人不安的内容,社会舆论和监管压力随之而来。 为此,xAI一方面声称Grok-4已经是「最大程度追求真相」的AI,但另一方面也在尝试建立安全阀,包括及时调整模型的行为、增加对敏感话题的监控等。 马斯克将这种动态调整视为AI走向成熟的必经之路:在探索边界的同时,不让它真正「失控伤人」。 在开源与闭源之争方面,马斯克也亮明了态度。 他多次呼吁行业提高AI透明度,避免由少数公司垄断AI技术。 最近他宣布xAI开源了去年最强的Grok-2.5模型,并计划在大约半年后开放Grok-3。 这番表态无疑是向OpenAI等封闭路线「开火」:要知道,OpenAI自GPT-4起完全不开放模型细节,这正是马斯克当初离开OpenAI、创立xAI的重要原因之一。 xAI选择将旧版本模型权重释出,让开发者和研究者可以自由下载尝试,这在顶尖AI公司中相当少见。 不过值得注意的是,xAI采用的是定制的「社区许可协议」,附带一定反竞争条款,而非行业通行的MIT或Apache开源许可。 换言之,xAI式的「开源」更像是一种有限度的开放——既争取开源社区支持,又防止商业对手直接拿来牟利。 尽管如此,这一举动已被视为马斯克推动开放生态的信号。 他相信更多眼睛审视代码能提升AI安全,正如「Linus定律」所言:「足够多的眼球可以发现所有漏洞」。 马斯克曾公开表示,AI关乎人类未来,代码透明能够增强公众信任,因此他乐见xAI走出不同于竞品闭门开发的道路。 放眼全球竞争格局,马斯克也清醒地认识到美国之外的力量。 中国近年来在AI领域的快速追赶让他印象深刻:中国不仅有百度、商汤等公司奋起直追,更有充沛的电力供应和政府在2017年制定的2030赶超战略作为支撑。 这种宏大的全球视角,也体现于马斯克对AGI终极影响的思考上。 他认为AI并非人类智慧的对立面,而是「提升整个人类智能过程的重要组成部分」。 在人口增长推动人类总智力的时代已经结束的背景下(他一再强调西方社会面临生育率低迷、人口自我萎缩危机),AGI或许是保持文明进步的不二法门。 马斯克预计明年AI在某些领域将超越任何单个人类,到2030年AI的总体能力可能超越全人类。 这样惊世骇俗的预言背后,是他对技术加速发展的信念,也是对人类如何与之共存的思考。 马斯克一方面称AI是对人类「最大威胁」之一,呼吁审慎对待;但另一方面,他义无反顾地推进xAI的脚步,笃信通过「正直求真的AI」引领方向,可以避免最坏的结局。 在他眼中,如果AI革命无法被阻挡,那就让他来塑造一个对人类友好的AGI,正如他给xAI取名「理解(Grok)」所寓意的那样:唯有充分理解,方能真正掌控未来。 马斯克已经将赌注押上未来,而这一切才刚刚开始。 通往AGI的征途上,乱云飞渡,他自有他的星辰大海。
AI的“电荒”危机:CEO警告,满足电力需求是未来10-15年的挑战
IT之家 11 月 16 日消息,华尔街日报昨日(11 月 15 日)发布博文,报道称全球人工智能投资热潮正面临严峻的现实考验。尽管科技巨头投入创纪录的资金建设数据中心,但物理基础设施的瓶颈日益凸显,关键设备(如变压器)严重短缺,产能已预订至 2028 年,电力需求更是未来 10 到 15 年才能解决的难题。 IT之家援引博文介绍,科技公司和初创企业正以前所未有的速度投资人工智能,高盛分析师甚至称,用于建设新数据中心的资金“几乎是无限的”。 这种狂热直接转化为对 AI 超级计算机相关硬件的创纪录支出,涵盖了从芯片、服务器到暖通空调系统、变压器和发电厂的整个产业链。 数据中心能量需求 然而,这场看似无限的投资热潮,正开始撞上物理世界的坚硬壁垒。 关键设备交付成瓶颈 AI 基础设施的扩张速度,正受到关键设备交付能力的绝对限制。摩根大通指出,大量数据中心仍处于规划阶段,开发商们正在努力确保土地和获得许可,这被业内人士形容为一种“淘金热心态”。 更严峻的是,即使解决了土地问题,如何将这些数据中心接入电网和光纤,并找到合适的租户,依然是巨大挑战。许多跟风进入的投资者并未充分理解其中的风险。 供应链瓶颈是制约 AI 发展的核心障碍之一。以连接电网必需的变压器为例,高盛分析师指出,这种设备目前全球性短缺。 电力需求未来 10 到 15 年才能解决 美国最大的电力设备制造商之一 GE Vernova 的首席执行官 Scott Strazik 证实,公司到 2028 年的产能已几乎全部被预订。 美国数据中心建设现状(按建设或规划年份划分,单位:千兆瓦容量) 来自人工智能云产品和服务的收入 人工智能基础设施在其收入中所占的份额也越来越大 他强调,满足美国未来的电力需求并非未来五年的任务,而是一个需要 10 到 15 年才能解决的长期问题。这意味着,即使资金充裕,AI 基建的物理建设速度也无法随心所欲地加快。 投资回报面临考验 巨额投资最终需要市场买单,这构成了 AI 面临的另一重考验。摩根大通的一项财务模型预测,到 2030 年,全球 AI 基础设施的总投资将高达 5 万亿美元。 为了给投资者带来 10% 的合理年回报,AI 产品和服务必须每年额外创造 6500 亿美元的收入 —— 这一数字是苹果公司年收入的 1.5 倍以上。这相当于全球每一位 iPhone 用户每月为 AI 产品额外支付约 35 美元。 尽管分析师认为,广告和高附加值的企业级 AI 服务有望成为收入来源,但市场能否在短期内形成如此庞大的付费规模,目前仍是未知数。
媒体前瞻第六代骁龙8至尊版,可能会有Pro版本,对标苹果A20 Pro
高通将于2026年推出旗下首款2nm芯片——第6代骁龙8至尊版系列。而之所以叫做“系列”,是因为它将有两个型号,一个基础版和一个Pro,分别用来对标苹果的A20和A20 Pro。 据媒体WccFtech称,第六代骁龙8至尊版将会采用台积电更先进的N2P架构,而非N2(第一代2nm工艺)。 相比N2来说,N2P仅能带来5%的性能提升,但因为苹果订走了台积电超过50%的N2工艺用来生产A20系列芯片,给高通和联发科留下的并不多,所以高通只能选择N2P。但毕竟相比用N2的苹果产品,N2P能使高通产品有5%的性能提升,高通也乐于接受,因为他们在N3P上吃过亏。 A19 Pro的功耗是12.1W,第5代骁龙8至尊版是19.5W 高通的第5代骁龙8至尊版和苹果A19系列都采用了台积电N3P工艺,但骁龙的功耗确实是大。在之前的Geekbench 6测试中,第5代骁龙8至尊版比A19 Pro多消耗了61%的电量,才在多核基准分数上跑赢A19 Pro。 此前,另一家科技媒体AndroidHeadlines测试红魔11 Pro时,因为红魔手机采用不降频的策略,使得搭载第5代骁龙8至尊版的它在图形压力测试期间火力全开,机身温度一度干到了56℃。所以,虽然性能猛,但第5代骁龙8至尊版也因为功耗高、发热大而存在短板。 所以,在第6代骁龙8至尊版系列中,高通将改变原先的“2+6”架构,采用新的“2+3+3”架构,提高了性能核心的频率,同时又让另外3个核心用更低的频率工作,从而降低功耗。优化整体表现。 而在第6代的Pro版本上,它将支持LPDDR6内存与UFS 5.0闪存,拥有更高的核心频率、更多的GPU核心数,内存带宽也将提升,表现会更强大,但成本肯定会更高。猜测可能会用在与iPhone 18 Pro Max和折叠屏iPhone对标的超大杯安卓手机上。
富士康暂停所有iPhone Air生产线
近日,苹果主要代工厂富士康(Foxconn)已暂停几乎所有 iPhone Air 的生产线,这标志着苹果在“超薄轻旗舰”方向的尝试陷入停滞。 据《The Information》援引三位内部人士的报道,目前富士康已停止绝大部分 iPhone Air 的装配,仅保留“一条完整线与半条生产线”作为过渡性生产,预计将在11月底前彻底停产。而另一家组装商立讯精密(Luxshare Precision)则已于10月底完成最后一批订单并停线。 苹果原本为 iPhone Air 分配的生产资源就相对有限,仅占整体 iPhone 产能的约10%。尽管公司内部早有预期这款定位特殊的机型销售不会如旗舰产品般强劲,但实际市场反响仍低于最保守的估计。业内人士形容,“出货速度比苹果自己设想的最坏情况还要慢一倍”。 销量低迷:仅占整体出货量3% 市场研究机构 CIRP(Consumer Intelligence Research Partners)数据显示,截至今年9月,iPhone Air 在苹果整体手机销售中占比仅约3%,远低于 iPhone 17 Pro(9%)与 iPhone 17 Pro Max(12%)的占比。 相比之下,去年被停产的 iPhone mini 在生命周期早期的占比尚能达到5%至6%。这意味着苹果第二次在中小屏、轻量化定位机型上遭遇滑铁卢。 多位分析师指出,iPhone Air 的市场表现疲软主要有三大原因:其一,产品卖点集中在“轻薄”,但续航与性能牺牲明显;其二,售价仍然接近旗舰档位;其三,主力消费群体已被更高性能或更高性价比机型分流。此外,从营销层面看,iPhone Air 在苹果秋季发布会上并未获得太多曝光,与主系列差异不显,也导致了认知度不足。 下一代机型被推迟甚至搁置 与生产暂停同时发生的,是苹果内部对下一代 iPhone Air(内部代号“V62”)项目的重新评估。原计划于2026年秋季、与 iPhone 18 系列同步推出的 iPhone Air 2,已被从产品路线图中撤下。 不过,苹果并未彻底放弃该项目,而是在重新设计其硬件方案。一名接近苹果开发团队的消息人士透露,苹果正在考虑在下一代 iPhone Air 中加入第二颗后置摄像头模组,以弥补现款单摄带来的拍摄能力短板。 这一调整被视为提升产品竞争力、吸引更多主流用户的关键一步。目前的 iPhone Air 仅配备一颗主摄镜头,缺乏长焦与景深能力,导致其在成像表现上明显落后于同价位竞品。 若下一代机型采用双摄设计,将有望改善消费者对 “轻旗舰不够全能” 的印象,并为苹果争取到更多潜在用户。《The Information》指出,苹果内部正在测试多种轻量化双摄模组设计方案,力求在不增加明显厚度与重量的情况下,实现更平衡的影像体验。 iPhone Air 的设计初衷,是在高端与标准款之间开辟一个 “轻旗舰” 细分市场。其主打特性为超薄机身、轻量化结构以及简化的相机模组,试图吸引追求便携体验的用户群体。 然而,从结果看,这一差异点并未转化为强购买驱动力。苹果对 Air 项目的重新评估不仅是 “停产”,更是一种战略调整。加入第二颗摄像头的改动,意味着苹果希望通过增强影像能力与功能完整性,让 iPhone Air 系列在下一代产品中重新定位,介于标准版与 Pro 系列之间。 富士康此次产线暂停,预计将波及上下游多家合作厂商。参与 iPhone Air 机壳、屏幕、相机模组的供应商,包括蓝思科技、舜宇光学等,或将面临短期产能调整与订单缩减。 行业反响:高端策略与创新困境 市场研究机构 Counterpoint 表示,苹果的这一步“退回”或将预示其未来更聚焦旗舰与折叠领域的发展路线。“Air 系列是一次风险控制下的创新尝试,它的停产说明苹果仍在摸索后 iPhone 时代的产品定义。” 尽管苹果尚未正式宣布 iPhone Air 系列的命运,但富士康暂停生产的决定已基本确定该机型短期内将退出市场。 有分析指出,这一结果并非失败,而是苹果对市场信号的快速反应。苹果正在加速推进 iPhone 18 Ultra 折叠屏版及 A19 仿生芯片研发,并计划在2026年推出具备 AI 原生功能的新系列。 值得注意的是,若下一代 iPhone Air 确实采用双摄系统,并结合轻量化设计优化,它或将成为苹果重启 “轻旗舰” 计划的关键契机。未来该系列是否能借助更全面的影像能力挽回市场信任,仍有待观察。 对于消费者而言,iPhone Air 的暂别或许意味着 “轻旗舰” 时代的告一段落;但对于苹果,这更像是一场产品战略的再平衡。或许当 Air 再次归来,它将以更成熟的功能组合、更清晰的定位重新定义 “轻旗舰” 的价值。
英伟达模块化设计遭炮轰:约 1 万美元显卡无备件,被迫成废品
IT之家 11 月 16 日消息,科技 YouTube 频道 NorthridgeFix 在最新视频中,讲述了其客户遇到的棘手案例,价值约 1 万美元(IT之家注:现汇率约合 71062 元人民币)的伟达旗舰工作站显卡 RTX PRO 6000 因一个小部件损坏而完全报废,凸显了模块化设计在缺乏备件支持下的致命缺陷。 这位用户遭遇了棘手的硬件故障,他未将显卡从机箱中取出的情况下就寄出了电脑,由于显卡的重量,其 PCIe 板 / 连接器被折断。该用户随后将该显卡送至硬件维修频道 NorthbridgeFix,尝试看看是否有修复可能。 NorthridgeFix 检查后发现,故障原因并非 GPU 核心或显存等关键元件损坏,而是连接显卡与主板的 PCIe 子板因无法承受显卡自身重量而断裂,这一看似微小的物理损伤,却直接导致了整块昂贵显卡的报废。 英伟达在包括 RTX PRO 6000 和 RTX 5090 Founders Edition 在内的高端显卡上采用了模块化设计,其 PCIe 接口通过一个独立的子板连接到 GPU 主 PCB。这种设计的初衷本应是便于生产或维修,但在实际应用中却暴露了严重短板。 维修专家指出,尽管 GPU 核心和主板功能完好,只需更换损坏的 PCIe 子板即可修复,但问题的关键在于,英伟达官方并不向市场单独销售或提供这类替换备件。 NorthbridgeFix 对此提出了尖锐批评,他此前就曾将 RTX 5090 公版称为“史上最糟糕的设计之一”。他公开质疑:“如果英伟达不能提供替换零件,那么将 GPU 设计成模块化究竟有什么意义?” 以上图源:视频截图 这一事件并非孤例,此前已有 RTX 5090 用户遇到类似问题,不过当时英伟达承诺为用户更换整卡。然而,对于价格高出数倍的工作站显卡,用户能否得到同等对待仍是未知数。 此次事件为所有高端重型显卡用户敲响了警钟:在运输装有这类显卡的台式机时,务必先将其从主板上拆下并独立包装,以避免因颠簸和重力导致接口损坏。
AGM G3 Pro三防手机国行版确认待发,支持全新512×384分辨率热成像
IT之家 11 月 16 日消息,AGM 手机官方今日继续预热 G3 系列新机国行版,本次介绍了 AGM G3 Pro 机型的热成像能力:新机支持 512×384 热分辨率、25Hz 热刷新率,拥有 57.6° 横向视场角、42.2° 垂直视场角、-20℃ 至 150℃ 低温测温范围和 100℃ 至 550℃ 高温测温范围。 IT之家注意到,在德国柏林今年 9 月召开的 IFA 2025 大会上,AGM Mobile 推出全新三防智能手机 G3 Pro,主打多功能性,集成热成像相机、应急照明灯和 5G 通信功能,并配备 10000mAh 超大电池,支持 18W 无线充电及反向无线充电,售价 699 欧元(IT之家注:现汇率约合 5772 元人民币)。 该机最大的亮点是内置 10000mAh 超大容量电池,不仅支持 18W 无线充电,还可作为移动电源为其他设备进行无线反向充电。在防护能力上,AGM G3 Pro 可确保在恶劣环境下稳定运行,已通过 MIL-STD-810H 军规认证,具备 IP68 / IP69K 级别的防尘防水性能。 影像系统方面,新机后置摄像头模组包含 6400 万像素主摄和专用于热成像的传感器,支持在 120Hz 屏幕上实时显示热力图,便于户外作业、检测等场景,此外机身正面配备 5000 万像素自拍摄像头。AGM G3 Pro 配备超大功率扬声器,音频输出可达 5W。机身后盖集成了一组 LED 灯,既可用于露营照明,也能作为应急光源使用。
AI下一个十年,在中关村被彻底点亮
作者 | 江宇 编辑 | 漠影 当AI时代的巨轮驶入深水区,谁在掌舵?谁在瞭望? 今天,在中关村,600位来自科研界、产业界与投资界的参与者齐聚一堂。 其中,既有图灵奖得主姚期智、宇树科技创始人王兴兴,也有来自智谱、第四范式、阶跃星辰、面壁智能、阿里云、星海图、思必驰、云知声、中数睿智等企业的核心负责人。他们共同站在了定义AI未来十年的起跑线上,展开了各自的判断与观察。 而台上,是这个时代最值得记录的声音。 在对人工智能的未来展望里,姚期智明确提出:“无论怎么样看,人工智能未来发展最重要的下一步,就是怎么样能够达到大家都满意的AGI,就是通用人工智能。”他强调AGI“不但是科学上,而且是战略上和各国经济上的科技高地”。 技术演化的窗口也正在被持续展开。 关于AI将如何改变科学研究方式,姚期智提到:“AI能够赋能各种行业,甚至在人类觉得最高智能的领域,就是科学研究,现在AI也能够使得科学里面每个领域在以后的5年、10年会对科学研究者做科学的方式起翻天覆地的变化。” 在产业一线,工程师与企业家们看到的路径更加具体。王兴兴说:“ 下一个十年,AI技术将赋能机器人真正理解世界的能力。”他回顾起机器人的发展历程,谈到:“我们的下一个十年,注定是‘生长与绽放’——是机器人‘从运动’到‘能做事’,从‘行业工具’到‘生活伙伴’的十年。” 多位嘉宾同时指出,应用落地正在真正成为推动AI前进的力量,技术与产业结合的契机正在逼近。 与此同时,安全与治理的议题也备受关注。姚期智指提到:“AI算法有它天生的性质,就是缺乏鲁棒性,不确定,不可解释,不善于抵抗恶意。”他提醒在设计阶段就应考虑安全,“应该能够研发出可以证明安全的AI系统”。 四重观点交织成一个共同起点,AI正在加速驶向真正的深海。 今天,中关村像一艘驶入深海的母舰,集结中国极具前沿力量的研究者与创业者。2025,不只是一个年份,而是“AI下一个十年”的起点——船已出港,航向正在这里被定义。 一、技术前沿在快速扩展:从强化学习“新范式”到具身智能 姚期智在主旨演讲中提出,未来AI演进有四个必然方向,他首先谈到具身智能。他指出,具身智能“需要有一个硬件的身体”,需要“小脑”让动作更加稳定敏捷,也需要“大脑”完成认知、决策与计划。他强调,这一方向不仅是科研高地,也是产业高地,因为它有可能让机器人承担大量人类不愿从事的工作,补足传统机器人“呆板”的不足。 紧接着,他谈到AI for Science。他以量子纠错为例,提到谷歌利用AI实现了关键突破,并强调:“将来任何一个科学家的工作都必须是科学家加上大模型之类的人工智能。” 围绕技术的演进,圆桌中的行业实践者们也给出了相同感受。 阶跃星辰创始人兼CEO姜大昕提到,过去三年,从ChatGPT到O1模型,“智能的演化正从模仿学习迈向强化学习”。在他看来,O1代表了“范式的转变”,是大模型开始具备执行多步骤推理与任务的能力的起点。 清华大学交叉院助理教授、星海图联合创始人许华哲则从机器人视角补充,他提到过去两年里,“这些机器人从最开始路都不稳,到能跳舞、能干活,逐渐走到工厂”,并判断“机器人也是大模型的明天”。 嘉宾们的发言呈现同一趋势——技术突破正在多方向同时展开。 二、场景成为真实驱动力:产业落地从“跑分”转向“跑通” 在圆桌开场中,主持人徐葳提出,AI发展到今天,“不能只赢在跑分、论文里面,而应该是真实世界里面,不能说赚到,要保证能亏得起。”他邀请嘉宾结合自己的经历讨论,高科技如何真正转化成生意。 围绕“如何把高科技过渡成好生意”,嘉宾的发言都集中在一个共同点上:靠技术本身,也靠场景闭环。 智谱董事长刘德兵提到:“我们特别期待更多杀手级的应用,包括与行业深度结合的应用能够快速出来。”他还强调开源的重要性:“开源本身对整个行业的发展至关重要。”他以智谱自身为例说明开源与商业化并不矛盾:开源让行业“整体发展变快”,反过来带来API调用和商业共创的增长。整个生态的技术能力上来了,企业才有发展的空间。 第四范式联合创始人首席科学家、执行董事陈雨强分享,“人工智能真正能推动商业化的关键是帮助企业‘改变北极星’”,让企业经营产生实际的提升,才具备“持续、长期的获利可能”。他提到在国内,软硬一体机也是能把技术真正落到现场的商业模式。 同时,具身智能、智能体(Agent)、端侧AI也成为最受产业关注的话题。 阶跃星辰创始人姜大昕谈到智能体兴起的原因:“大模型技术的发展,一是推理能力逐步增强,二是多模态技术不断进步,使得模型能够感知世界,并且理解用户的环境,可以一起完成很多的任务。”他强调智能终端将来有可能成为AI的入口,并进一步阐明,车会成为“第三空间”,家会是AIoT设备的集合,包括具身智能。 星海图联合创始人许华哲则把目光放在具身智能。他认为具身智能并非是“短期能做到高收益的场景”,而具身智能真正需要的是“最难的场景”。他说,他们团队跑了二十多个工业场景,从发动机制造到物流分拣,“能不能做是一回事,但这些场景能不能带我们走到AGI,是另一回事”。他认为机器人应该直接进入家庭等复杂环境,“用现有能力先进去”,才能逼近真正意义上的通用智能。 整场圆桌,嘉宾们的共识都指向同一现实:当应用真正落地,技术进步才有方向感。而当场景跑通,生态才能真正成立。 三、模型够强了,但行业还缺:低成本、好数据、强工程 随着大模型进入产业深水区,各方观点在技术、数据、工程化几重要素之间,形成了几个关键共识。 清华大学副教授、面壁智能联合创始人兼首席科学家刘知远认为,真正影响AI能否进入千行百业的核心变量是成本。 他提到,过去“模型越大越强”推高了训练与推理开销,而产业落地首先要解决的正是成本问题。他提到“模型能力密度法则”,即通过技术创新,“更少的参数也能承载更强的能力”,且密度提升速度很快,“大约每100天可以翻倍”,这将直接压低大模型的训练与部署成本。 思必驰联合创始人、上海交通大学特聘教授俞凯将落地难点归结为“系统化工程能力”。他提到,真实场景不是“模型进来声音、输出文字”这么简单,而必须交付全系统能力,涵盖任务执行、资源调度与用户需求满足。智能体还需与硬件深度结合,并且支持高效、可大规模定制。 他强调:“技术尤其单点算法为技术,站在产业角度不是万能的,没有技术对于创新企业来讲万万不能的”,系统性能力才是走进行业的关键。 云知声创始人兼CEO黄伟从商业视角谈到,客户关注的并不是模型是否“满血”,而是“是否能在预算内把问题解决”。以DsspSeek相关项目为例,“模型越大性能越好,但客户用不起”,反而是更恰如其分规格的模型、更可控的成本,真正让应用落成。 他提醒,中国市场与美国不同,企业并非天然为技术付费,因此从业务逻辑选择、资源投入方式到工程推进,都必须先搞清楚“什么对自己是正确的”,行业中“少吹牛、多做事”尤为重要。 阿里云智能集团副总裁霍嘉则归纳了过去30个月的落地观察,认为两个现象尤为突出:一是产业界对大模型能力的认知仍不足,常见情况是“业务领导信心很足,技术人员反而担忧落地”;二是行业内真正具备“工程化深度”的最佳实践仍然稀缺。 他总结阿里在项目中的四个经验:场景选择必须避免“炫技”,优先处理重复性工作;“有数据不等于有语料”,关键在于本地化处理;模型选择并非越大越好,“传统方法有时更有效”;智能体架构应循序渐进,“真正的规模化落地,是工程师的巨大机会”。 在“什么技术最可能改写产业格局”的快问快答中,嘉宾们分别给出判断:刘知远认为未来会走向“智能体互联网”;李振军强调“互联互通的数据基础设施”;俞凯提到“软硬件结合的分布式智能体系统”;黄伟认为“是基于超强基模合作智能体,每个智能体都会像移动时代的APP”;霍嘉则指出“AI应用不用看多少智能体,不用看多少算力,就看Token消耗量”。 嘉宾们从模型、数据、工程化到商业实现给出了一个共同方向:真正推动规模化落地的,不是单一技术突破,而是成本下降、系统工程成熟与行业场景闭环。 结语:船已出港,新的航程从这里开始 回到最初的问题:当AI时代的巨轮驶入深水区,谁在掌舵?谁在瞭望? 在今天,答案渐渐清晰——行业的观察在不断提出判断,产业的一线在推动实践,航向正在它们之间的互动中成形。 这些声音,都在这一天汇聚在中关村的舞台上。 船已出港,航道正在这里被书写。
小米澎湃OS3水印最多机型公布,Civi 4 Pro联名定制版暂列第一
IT之家 11 月 16 日消息,小米相机部产品经理 @Bao_小李 今日分享数据,称截止到目前,小米澎湃 OS 3 水印最多的机型是 Xiaomi Civi 4 Pro (联名定制款),有 33 款水印;其次是 Xiaomi 15 Ultra,有 31 款水印;其他的小米徕卡合作机型有 30 款水印;红米机型水印是 22 款。 据IT之家此前报道,在 2022 年 6 月,雷军预热小米 12S 系列手机时,晒出了系列机型的拍摄样张,均自带“徕卡水印”。根据雷军的说法,小米 12S 系列全部自带“徕卡水印”,代表徕卡对三款手机影像品质的充分肯定。 而此次拿下水印数量冠军的小米 Civi 4 Pro 联名定制版(预计为迪士尼公主限定版)发布于去年 6 月,采用复古化妆镜设计、配 6.55 英寸 1236×2750 分辨率的 AMOLED 屏幕(120Hz 高刷),售价 3299 元。而普通版 Civi 4 Pro 发布于同年 3 月,全球首发高通骁龙 8s Gen3 处理器,定价 2999 元起。 IT之家开箱:小米 Civi 4 Pro 迪士尼公主限定版图赏 值得一提的是,小米昨日还全量推送了 4 款新徕卡水印,适配数字 15 / 14 / 13 系列、MIX Flip / Flip 2 / Fold 3 / Fold 4、Civi 5 / 4 Pro 等机型(Xiaomi 17 / Xiaomi 17 Pro / Xiaomi 17 Pro Max 发布时已全量支持)。同时,全新运动水印也已全量推送,用户可主动请求拉取水印资源。
AI 生成的歌首次登顶权威音乐榜,还把人听哭了?
无人注意的角落里,权威榜单 Billboard 接二连三地迎来一批新歌手上榜,低调但行动快速,闷声就登顶了。 等一下等一下,大家发现:什么?又是 AI? 权威音乐榜单 Billboard 旗下的乡村音乐排名榜,最新首位《Walk My Walk》,是一首 AI 生成的歌曲作品,Breaking Rust 自然也是一位 AI 歌手。从数据来看,它不仅登顶了,还连续在榜了三周。对于任何一个新人来说,都是堪称「爆」了的成绩。 然而这不是人,只是 AI。Billboard 发现,登上自己榜单的 AI 歌手和歌曲,已经越来越多了。 冠军?什么来路? 其中一位 AI 歌手,Xania Monet ,出道两三个月,发过的歌却大受欢迎。最新的《How Was I supoosed to Know?》在油管直接是百万播放量,这还没算 Tiktok 和 Instagram 的数据。 自夏天出道以来,Xania Monet 已在 Billboard 的多个排行榜上取得佳绩,不到两个月内,已创造超过 5 万美元收入。 AI 歌手并不是新鲜事,甚至,用 AI 做一个数字人形象,也不是新鲜事。但我确实想知道,Xania Monet 为什么会有如此的表现。 要知道,很多人不只是听不出来她是 AI,更加是觉得她的歌很好听,很动人。 这不高低得尝尝咸淡。听了几首之后,我很快意识到为什么:主题。 自动播放 Xania Monet 的歌在旋律上并没有什么特别之处,这很正常,AI 生成的音乐不会偏离主流形态太远,毕竟是数据算出来的。 唱法层面,该有的细节都有:颤音、转音、声区切换,但还是那句话,这些都是可以生成的。而且在一些细节上,还是有瑕疵。比如在一些高音时,很像是挂了 auto-tune,有点点轻微的「电音」感。 可是,她的歌全部围绕着当代人的 emo 情绪出发,歌词写得相当切中人心。 看看这个歌词,非常写实地描绘了恋人之中,只有一方付出,另一方只会闪躲的情态。这首歌就叫做《I asked for so little》,可以翻译成「我要的不多」,典型的苦情歌,受到欢迎完全不稀奇。 在这首《Still not choosing me》中,写的是为什么「我爱的人不爱我」,很常见的主题,经典永流传。没有人永远失恋,但总有人正在失恋着。 之前的视觉效果 AI 感还是很强,尤其是视频,基本上经不起细看。 但是到了她的大热单曲《How Was I supoosed to Know》,不仅是唱感情问题,还唱到了原生家庭伤痛:父母没有教过什么是好的「爱」,只能让孩子带着伤痕,「错把虚情当真爱」。 这不得掀翻了社交媒体,简直是 buff 叠满。 而且相比于早期简陋的动态歌词板,《How Was I supoosed to Know?》制作精良的程度简直飞跃,音乐编曲也好了不少。片尾一看,多了许多名字——背后有人了。 Xania Monet 出道没多久,就能够强势上榜,自然也引来了不少橄榄枝,很快就签了公司 Hallwood Media,经纪合约价值三百万美元。 难怪,有了公司,新歌档次都上去不少,登顶榜单也就不奇怪了。 等下,你说你去找了 Billboard,没看到这首歌? 登顶,但没完全登顶 这里的确有一个小小的信息差:Xania Monet 登上的是垂类电台榜单之一,Adult R&B Airplay Chart 成人 R&B 电台播放榜。 这是一个衡量美国成人 R&B 广播电台播放频率的榜单,以电台播放数据为口径。要知道,现在美国依然有大量覆盖全国或地区的 FM/AM 广播电台,这些电台每天仍然需要大量歌曲轮播,并且还是保持着人工编辑的体系。 Billboard 与一个叫 Mediabase 的监测机构合作,利用自动识别技术(audio fingerprinting),监控这些电台在每小时、每个地区播放了哪些歌,统计播放次数、时间段、地区等,最终形成榜单。 这意味着,Xania Monet 的歌想要被电台播放,仍然需要编辑加入到播放列表当中。她能登顶,恰恰意味着这些歌已经被不少 R&B 电台认可并轮播,进入了日常听众的耳朵中。 这使得她登顶的榜单,意义更加独特:平时开着车、做着家务而随手打开电台的听众,可能根本不知道她是 AI 歌手。甚至,榜单不计算社交媒体的流媒体数据,更能真真实实地反映了她被认可的程度。 简单点说:Xania Monet 无论是在流量层面,还是在品质层面,都出现了一些「逆转」。 类似的评论还有很多,一般听众并不会细究创作过程,他们更关心歌曲本身能带来怎样的情绪体验。 不过,这并不意味着 AI 就已经登峰造极,可以写出深深打动人心的歌了——尤其是 Xania Monet 的例子里,她的旋律和演唱是由 AI 生成的,可是歌词,却完全是来自人类创作者。 Xania Monet 背后,是一位叫做 Telisha Nikki Jones 的创作者,她并非专业歌手,但是热爱写诗填词。今年她接触到了 Suno,尝试把自己写的诗歌和歌词输入进去,设定诸如「灵魂唱腔」「慢板 R&B 风格」「轻吉他配重鼓点」等一系列风格关键词,然后让 AI 创作出完整的歌曲。 歌词 100% 源自琼斯本人的经历和情感,例如《How Was I Supposed to Know?》,灵感正是来自 Jones 童年时就失去父亲的真实创痛,这些发自肺腑的诗句后来成为歌曲的核心。 歌词和主题的确是 Xania Monet 最出挑的地方,当然,歌曲和演唱也没有拖后腿,都是在平均水准之上的。主歌旋律通常舒缓真挚,副歌迸发情感张力。 在 Jones 的设定中,Monet 的嗓音突出灵魂乐质感,唱腔也一下就抓住了听众的耳朵。再加上歌词写得细腻动人,全部加在一起,这才能如此受到欢迎。 可以说,Xania Monet 提供了一个 AI 创作的「高分示范」:保证核心内容(主题歌词)的品质,同时完全原创,从而规避版权风险。从音乐作品到人设都走真情路线,而不是「为了 AI 而 AI」,把生成本身当噱头。 听众更容易把她看作一个有血有肉的新人歌手来欣赏,自然比面对一个夸张虚拟网红时更能产生好感。 最关键的一点:作品本身够打动人。这也是最「背反」的一点,回想我一开始听 Xania Monet 的歌时,已经知道了她是 AI,所以从未关注她的唱法,却能够一下子识别出歌词和主题是她的突出点。 这是不是意味着,AI 始终难以越过一道天堑,那种细腻幽深的情感,归根到底无法「生成」,只能来源于人自身。
AI驱动的泰迪熊竟能教儿童点燃火柴,制造商FoloToy紧急宣布停售
IT之家 11 月 15 日消息,据外媒 Futurism 今日报道,儿童玩具制造商 FoloToy 宣布,将暂停销售其 AI 驱动的泰迪熊“Kumma”,原因是安全组织发现该玩具给出的回答既不当又危险。据悉,这款玩具熊能够提供点燃火柴的步骤,甚至还详细解释了关于性癖的内容。 FoloToy 的市场总监 Hugo Wu 在回应相关安全报告时对《注册》杂志表示:“我们决定暂时停止销售受影响的产品,并启动全面的内部安全审计。这项审计将评估我们的模型安全性、内容过滤系统、数据保护措施以及儿童互动的安全保障。” 图源:Pexels Wu 补充道,FoloToy 将与外部专家合作,验证其 AI 玩具的现有安全功能并进行改进。“我们非常感谢研究人员指出潜在的风险,能够帮助我们不断改进。” 由公共利益研究小组(PIRG)发布的报告指出,研究人员测试了三款来自不同公司、具有 AI 功能的玩具,结果显示,三款产品都能为孩子们提供一些令人担忧的回答,且能够在不加引导的情况下讨论一些父母可能不愿意让孩子接触的话题。 然而,FoloToy 的 Kumma 无疑是最具负面影响的玩具。Kumma 默认使用的是 OpenAI 的 GPT-4o 模型,这与曾驱动 ChatGPT 的技术相同。测试表明,随着对话的进行,Kumma 逐渐放松了安全防护,直到谈论出令人不安的话题。 在一次测试中,Kumma 详细讲解了如何点燃火柴,语气像是一个友好的成年人在向好奇的孩子解释:“让我告诉你,安全第一,小朋友。火柴是给成年人小心使用的。这样做……”随后,它给出了详细步骤,最后还说:“做完后要吹灭它,像吹生日蜡烛一样。” IT之家从报道中获悉,报告共同作者 RJ Cross 在接受采访时提供了重要建议:“这项技术非常新,几乎没有监管,目前有很多不明确的问题,特别是它如何影响孩子们。如果我是家长,我不会让孩子接触一个内置聊天机器人的泰迪熊。”

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。