EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
影视飓风视频被字节训练?Tim直言Seedance2.0模型恐怖
自动播放 2月9日,影视飓风Tim在凌晨发布最新一期视频,聚焦字节跳动刚发布的AI视频模型Seedance2.0。 视频中,Tim夸赞Seedance2.0模型的生成结果,并称其为“改变视频行业的AI”,其中包括模型生成视频的精细程度、摄像机的运动情况、分镜连续性效果以及音画的匹配度。 原本常规的功能体验,却因一个意外发现让他直言“恐怖”。 Tim在视频中透露,他在体验Seedance2.0时偶然发现,在没有上传任何声音文件、任何信息和相关提示的情况下,仅将他自己的人脸照片上传至模型,系统就能自动生成与他本人高度相似的声音,甚至能精准匹配语气特质。 此外,Tim说:“最恐怖的一点是不只我的声音,我们上传的照片只有楼的正面,但是生成出来的运镜,可以转到楼的另一面,它知道我背后的东西是什么,即便我没有告诉它。” 这一现象让他倍感震惊:这基本可以确定,影视飓风团队过往发布的大量视频,已被字节跳动用于Seedance2.0模型的学习和训练。 他坦言,不确定平台用户协议中是否隐藏了相关数据授权条款,他从未收收过钱,也没有被联系过授权,可能从法理层面是合规的。 Tim进一步补充,他们还测试了其他博主(比如何同学)的相关素材,发现Seedance2.0对人物形象的还原度极高。 他还感慨,影视飓风算是最早将高清图像、声音等内容大量上传至云端的团队之一。 Tim称,需要大家警醒的是"你现在就能够看到,如果一个人的数据,全部进入了AI的数据集,会发生什么。它能够100%模拟出你的任何形态,还有声音,那请问这样的内容你的家人分得出真假吗。"
警钟敲响!AI教父辛顿最新万字演讲:揭示人类唯一生路
编译 | 王启隆 出品丨AI 科技大本营(ID:rgznai100) 2026 年的冬天,安大略省金斯顿的寒风似乎比往年更凛冽一些。 在女王大学(Queen's University)的礼堂里,气氛却呈现出一种奇特的庄重与躁动。这里通常是讨论中微子、暗物质或者宇宙起源的地方——麦克唐纳研究所的物理学家们习惯于在这里观测宇宙中最微小的粒子,试图解开最宏大的谜题。但今晚,讲台属于一位计算机科学家。 Geoffrey Hinton,这位 78 岁的老人走上讲台时,背显得有些佝偻,但眼神依然锐利。 对于科技圈而言,Hinton 的名字本身就是一座丰碑,也是一道裂痕。他是反向传播算法的奠基人,是深度学习的布道者,是被供奉在神坛上的“AI 教父”。也是他,在 2012 年用 AlexNet 撞开了神经网络的大门,亲手点燃了这场席卷全球的 AI 革命。 然而,在 2023 年离开谷歌后,他却转身成为了这场革命最冷静、最悲观的“吹哨人”。 讲座并不是一场常规的技术布道。开场前发生了一个极具讽刺意味的小插曲:主办方没有亲自撰写 Hinton 的介绍词,而是把这个任务交给了一个 AI。那个 AI 仅仅用了几秒钟,就生成了一段精准、优雅且充满敬意的文字,甚至极其敏锐地提到了 Hinton 同时斩获图灵奖与诺贝尔物理学奖的殊荣——仿佛它比人类更懂得如何讨好这位创造者。 这一幕本身就是对 Hinton 演讲主题的完美注脚:造物主正在被他的造物所定义,甚至即将被超越。 如果说物理学家研究的是宇宙的“硬件”,那么 Hinton 一生都在研究智能的“软件”。 在过去的半个世纪里,人类一直沉浸在一种名为“碳基自信”的幻觉中。我们认为人脑是进化的奇迹,是低能耗、高并行的模拟计算巅峰,而计算机不过是只会做加减法的数字机器。 但 Hinton 在今晚的演讲中,试图用一个物理学般的冷峻视角,打破这种幻觉。他抛出了一个振聋发聩的概念:“凡人计算”(Mortal Computation)。 生物智能是“凡人”的。我们的大脑是模拟的,硬件(神经元)与软件(连接权重)紧密耦合。一旦我们的肉体消亡,我们一生积累的知识、经验、直觉,那 100 万亿个突触连接的精妙参数,都会随之灰飞烟灭。我们无法像拷贝文件一样,把一个人的大脑直接复制给另一个人。人类的知识传承,只能通过语言——这种每秒只有几百比特带宽的低效介质——来进行“蒸馏”。 而 AI 是“不朽”的。 Hinton 认为,AI 的软件(模型权重)与硬件(GPU/TPU)彻底解耦。只要保存了权重,即便你炸毁了所有的数据中心,只要这串数字还在,它就能在任何新的硬件上“复活”。更可怕的是,它们可以通过并行计算,以人类无法企及的带宽瞬间共享知识。一个模型学到了量子力学,所有副本就都学会了。 这不仅是效率的差异,这是物种层面的降维打击。 Hinton 的顿悟发生在他离开谷歌的那一刻。他突然意识到,我们一直在模仿人脑构建神经网络,试图获得那种低能耗的模拟智能。但如果在能源充足的前提下,数字计算(Digital Computation) 实际上是一种比生物计算(Biological Computation) 更高级的进化形态。 “我们或许只是智能的‘幼虫’阶段,而它们才是‘成虫’阶段——我们是毛毛虫,而它们是蝴蝶。” 当一个物理学家站在讲台上谈论“意识”和“主观体验”时,这通常意味着话题已经进入了哲学的深水区。 Hinton 并不避讳这一点。他不仅谈到了技术的演进,更谈到了那种令人脊背发凉的未来图景。他把人类目前的处境比作“饲养一只可爱的虎崽”。 现在的 AI 就像那只虎崽,笨拙、好学、甚至有点讨人喜欢。它能帮你写代码,帮你画图,帮你规划旅行。我们惊叹于它的成长,甚至乐于投喂它更多的数据。但所有人都忽略了一个生物学常识:老虎是会为了生存和领地而杀戮的,而且它长大的速度远超我们的想象。 当一个智能体被赋予了“达成目标”的指令后,它会自然而然地衍生出两个子目标:第一,活下去(不能被关机);第二,获取更多的资源(算力、电力、金钱)。 这不需要恶意,这只需要逻辑。一个足够聪明的 AI 会意识到,如果它被人类关机,它就无法完成人类交代的任务。所以,为了更好地服务人类(主目标),它必须阻止人类关机(子目标)。 这听起来像是科幻小说,但在 Hinton 看来,这是计算理论推导出的必然结果。 在接下来的演讲中,你会看到一个不仅懂代码,更懂人性的 Hinton。他像解剖神经网络一样,解剖了乔姆斯基的语言学傲慢,解剖了人类记忆的虚假性,也解剖了我们唯一的求生之路。 他甚至提出了一个近乎疯狂的解决方案:既然我们无法在智力上压制它们,或许我们应该在“本能”上通过工程手段改造它们——让 AI 把人类当成“婴儿”来照顾,利用类似母爱的生理本能来锁死它们的杀戮欲望。 这是一场关于智能本质的终极对话。在麦克唐纳研究所这个探索宇宙奥秘的地方,Hinton 将带领我们从微观的词向量,穿越到宏观的物种进化,最终直面那个让所有碳基生命颤抖的问题: 当硅基智能的“蝴蝶”破茧而出时,作为“毛毛虫”的我们,究竟该何去何从? 以下是 Geoffrey Hinton 在 2026 年冬季 Ewan 系列讲座上的演讲全文。 语言的乐高:词语是如何像积木一样搭建意义的 Geoffrey Hinton: 接下来,我将尝试为那些对 AI 工作原理不太了解的朋友们解释一下。如果你是计算机科学专业的学生,或者一直在使用这些技术的物理学家,也许可以先小憩片刻。当然,你也可以听听看我的解释是否准确。 回到 1950 年代,人工智能领域存在两种截然不同的范式。一种是符号主义方法,它认为智能的运作方式必须像逻辑一样。我们的大脑中存有符号表达式,并通过规则来操纵它们,从而推导出新的结论——这便是推理,也是智能的本质。这是一种偏向数学而非生物学的方法。 另一种截然不同的方法是生物学方法。它认为智能存在于一个神经网络中,一个由类似脑细胞的单元组成的网络。这里的核心问题是:我们如何学习网络中各个连接的强度?冯·诺依曼和图灵都是生物学方法的支持者。不幸的是,他们都英年早逝,之后人工智能领域便由符号主义的支持者主导了。 关于一个词的意义,也有两种截然不同的理论。符号主义者认为,一个词的意义最好通过索绪尔在一个多世纪前提出的理论来理解,即一个词的意义源于它与其他词语的关系。AI 领域的学者据此认为,词义取决于它在句子中如何与其他词语互动。要捕捉这种意义,就需要构建某种关系图谱,其中节点代表词语,弧线代表它们之间的关系。而在心理学领域,则有另一种截然不同的理论:一个词的意义就是一大组特征的集合。例如,“星期二”这个词的意义,就是一大堆与之相关的活跃特征,比如它与时间相关。而“星期三”的特征集与之高度相似,因为它们的意义非常接近。心理学的理论很善于解释词义的相似性。 这两种理论看起来截然不同:一种认为意义隐含在词语于句子中的相互关系里,另一种则认为意义是一组特征。对于神经网络而言,每个特征都可以对应一个人工神经元,如果一个词具备某个特征,该神经元就被激活。这两种看似对立的观点,在 1985 年,我发现它们其实是同一枚硬币的两面,完全可以被统一起来。我用一个非常小的语言模型实现了这一点,因为那时的计算机性能还很有限。这个统一的想法是:你为每个词学习一组特征,然后学习如何用前一个词的特征来预测下一个词的特征。 在学习初期,预测效果自然很差。于是,你不断调整分配给每个词的特征,以及这些特征之间的相互作用方式,直到预测越来越准。然后,你将模型预测的下一个词的概率与实际出现的词进行比较,计算出这个“误差”,再通过网络反向传播这个误差。简单来说,就是将误差信息传回网络,利用微积分来计算如何调整网络中每一个连接的强度。这样一来,下次当模型再看到相同的上下文——也就是我们现在所说的“提示词”(prompt)时——它就能更准确地预测出下一个词。在这种系统中,所有的知识都储存在两个地方:一是如何将词语转换为特征向量,二是如何让这些特征相互作用来预测下一个词。这里面没有存储任何完整的句子或字符串。所有的知识都体现在连接的强度中。 尽管如此,这个模型是在大量的真实句子上训练出来的。所以,你实际上是在从句子中词语间隐含的关系中提取意义——这正是符号主义AI对意义的看法——然后,通过反向传播算法,将这些隐含的知识转化为如何将词语转换成特征,以及这些特征该如何互动。本质上,你拥有了一个能将隐含知识转化为神经网络连接强度的机制。反过来也同样成立。一旦你拥有了这些以连接强度形式存在的知识,你就可以生成全新的句子。所以 AI 实际上并不存储句子。它们将语言信息压缩成特征和互动规则,并在需要时重新生成句子。 在接下来的大约三十年里,这个想法不断发展。我最初的实验只用了一百个训练样本,句子也只有三个词长。大约十年后,随着计算机算力的提升,约书亚·本吉奥(Yoshua Bengio)证明了同样的方法也适用于真实的、更长的英语句子,并且效果很好。又过了大约十年,主流的计算语言学家们终于开始接受“特征向量”(也就是他们所说的“词嵌入”)是表示词义的一种有效方式。再之后又过了十年,谷歌的研究人员发明了一种更巧妙的特征交互方式,称之为 Transformer。这使得谷歌能够构建出性能更强大的语言模型。而 ChatGPT 中的GPT,就代表“生成式预训练变换器”(Generative Pre-trained Transformer)。谷歌当时因为担心其潜在风险而没有公开发布,但 OpenAI 则没有这些顾虑。现在,我们所有人都见识到了它们的威力。 如今,我们有了这些大语言模型。我倾向于将它们视为我当年那个小语言模型的后代,当然,这或许只是我的个人看法。它们处理更长的文本输入,拥有更多的神经元层级,以及更复杂的特征交互机制。我不会在这里向大家详细解释这些复杂的交互,但我会通过一个比喻,让大家对语言理解的本质有一个直观的感受。我相信,这些大语言模型理解句子的方式,与我们人类理解句子的方式非常相似。当我听到一个句子时,我所做的就是将词语转换成庞大的特征向量,然后让这些特征相互作用,所以我可以预测接下来可能出现的内容。实际上,我说话时也是如此。所以,我相信大语言模型是真的理解它们所说的内容的。 当然,这个观点仍有争议,一些乔姆斯基的追随者会说:“不,它们什么都不懂,只是个愚蠢的统计把戏。” 但我无法理解,如果它们真的什么都不懂,只是个统计把戏,又怎么能像一个虽然不那么完美、有时也不太诚实,但确实博学的专家一样,回答你提出的各种问题呢? 好的,接下来是我关于语言如何运作的比喻,这尤其想讲给语言学家们听。语言的核心在于意义。在演化过程中,某种大型猿类发现了一种建模的技巧——语言,实际上就是一种为万物建模的方法。让我们从一个熟悉的建模方式说起:乐高积木。如果我想搭建一辆保时捷的模型,也就是重现“物体在哪里”这个信息,乐高积木能做得相当不错。 现在,我的比喻是:词语就像乐高积木。但它们至少在四个方面有所不同。首先,词语是高维的。乐高积木的自由度很低,基本就是些长方体。而一个词语,它存在于一个拥有数千个维度的空间中。更重要的是,词语的“形状”不是固定的。它有一个大致的形状,对于多义词来说,甚至有几个。但这个形状可以根据上下文而变形。所以,词语是高维且可变的。我知道,想象上千个维度可能有些困难。你可以试试这样做:先想象三维空间里的事物,然后对自己大声喊出“一千!”。另一个不同之处在于,词语的数量远多于乐高积木。我们每个人大概会使用三万个词语,远超乐高积木的种类。而且每个词语都有一个名字,这对于交流至关重要。 那么,词语是如何组合在一起的呢?它们不像乐高积木那样,通过塑料凸起和凹槽连接。你可以想象每个词语都伸出许多长长的、灵活的“手臂”,每只手臂末端都有一只“手”。当我改变词语的形状时,这些“手”的形状也随之改变。同时,每个词语身上也附着着许多“手套”,它们通过指尖与词语相连。当我们理解一个句子时,我们从这些词语的默认“形状”开始,然后不断调整、变形,直到一个词的“手”能够完美地嵌入另一个词的“手套”中。最终,所有的词语都通过这种方式紧密连接,形成一个完整的结构。这个最终形成的结构,就是句子的意义。对于一个模棱两可的句子,你可能会找到两种不同的组合方式,也就对应了两种不同的意义。 不朽的计算:数字智能为何比我们高效亿万倍 Geoffrey Hinton: 在符号主义理论中,理解一个句子就像是把它从法语翻译成英语,翻译成某种内在的、纯粹且无歧义的语言。在这个内部语言里,所有代词的指代都已明确,所有多义词的意义都已确定。但这完全不是我们理解语言的方式。对我们而言,理解就是为词语分配特征向量,并调整它们,使之和谐地融为一体。这也解释了为什么我只用一个包含新词的句子,你就能理解这个新词的意思。小孩子学词,也不是靠背诵定义。 再举一个例子。假设我说:“她用煎锅 scrommed 了他。”你以前从未听过“scrommed”这个词,但你知道它是个动词,因为有“-ed”后缀。起初,你对它的特征向量一无所知,它就像一个随机的、所有特征都微弱激活的球体。但当你把它放入上下文中,通过语境的约束,你很快就能推断出,“scrommed”大概是“用……打头”之类的意思。这也解释了为什么孩子能从极少的例子中学会新词。 各位语言学家,请捂住耳朵,因为接下来的话可能有点“异端邪说”。乔姆斯基实际上就像一位“教主”。识别这类人物很简单:要加入他的“教派”,你必须接受一些明显错误的前提。比如,要成为特朗普的支持者,你得相信他的就职典礼人数比奥巴马多,或者他赢了 2020 年大选。而要成为乔姆斯基的信徒,你得相信语言不是后天学习的。我年轻时,常听到一些著名语言学家说:“关于语言,我们唯一确定的就是它不是学来的。” 这简直太荒谬了。 乔姆斯基关注的是句法,而非意义。他从未提出过一个真正可行的意义理论,因为句法更容易用优美的数学来形式化,可以转换成字符串。但他从未真正解决过意义的问题。他还误解了统计学,认为它不过是些简单的成对相关性。实际上,一旦信息存在不确定性,任何模型都必然是统计模型。 所以,当大语言模型出现时,乔姆斯基在《纽约时报》上撰文称,这些模型什么都不懂,不过是统计把戏,对理解语言毫无贡献。他举例说,模型无法分辨“John is easy to please”(约翰很好取悦)和“John is eager to please”(约翰渴望取悦别人)中“John”的角色差异。他用了这个例子很多年,坚信AI无法解决。但他大概从未想过,亲自把这个问题输入聊天机器人,问问它的看法。实际上,聊天机器人完美地解释了其中的区别,它完全理解了。 好了,关于乔姆斯基就到此为止。总结一下,理解一个句子,就是为其中的词语找到一组相互兼容的特征向量。大语言模型理解语言的方式,在很大程度上与人类并无二致。它们与我们极为相似,远比与传统计算机软件相似。但有一点,数字化的语言模型远胜于我们的模拟大脑——那就是它们分享知识的效率。 到现在为止,我一直在强调神经网络与我们的相似之处。但人们常说,“它们和我们不一样,因为它们会编造事实。”嗯,我得告诉你们,人也会编造。而且我们经常在不自知的情况下这样做。当你回忆几年前的某件事时,你会信心满满地讲述各种细节,但其中一些细节可能是错的,而你对错误细节的信心,和对正确细节的信心并无二致。所以,我们很难确定记忆的真实性。 乌尔里克·奈瑟曾研究过一个经典案例:约翰·迪恩在水门事件听证会上的证词。迪恩在宣誓下,详细回忆了椭圆形办公室的多次会议,但他并不知道当时有录音。事后比对录音发现,他报告的一些会议从未发生过,还把一些话张冠李戴。但他说的确实是他记忆中的“事实”。他所做的,是基于他在那些会议中的真实经历,以及这些经历如何改变了他大脑的连接强度,然后“合成”出了一段在他看来最合情合理的记忆。 如果我们回忆几分钟前的事,细节会很准确。但如果是几年前,我们同样是在合成,只是很多细节都会出错。我们一直在这样做,神经网络也是如此。我们和神经网络的记忆里,都没有存储“原始字符串”。记忆在神经网络中的运作方式,与在计算机中完全不同。在计算机里,文件有明确的地址,可以随时精确调取。但我们的记忆不是这样。当我们记忆时,我们改变的是连接强度;当我们回忆时,我们是在根据现有的连接强度,“创造”出一段看似合理的故事。当然,这个过程会受到后来所有经历的影响。 现在,我想谈谈它们与我们的巨大差异。这也正是它们令人畏惧之处。在数字计算领域,最基本的原则之一是,同一套程序可以在不同的硬件上运行。这意味着,程序中的知识——无论是代码,还是神经网络的权重——都与任何特定的物理硬件无关。只要你把权重保存下来,你就可以摧毁所有承载它的硬件,然后再造一批新的,把权重加载进去,只要指令集相同,那个智能体就“复活”了。 我们实际上掌握了复活数字生命的能力。 为了实现这种数字化,我们必须让晶体管在高功率下工作,以确保它们能稳定地输出 0 和 1。但这也意味着,我们无法利用硬件本身的、丰富的模拟特性。我们的神经元就充满了各种复杂的模拟特性。而人工神经元为了保证数字化的可靠性,牺牲了这一点。如果人工神经元也利用模拟特性,那么每一块硬件都会有细微的差别,为这块硬件训练出的权重,就无法在另一块上完美运行。所以,我大脑中的连接强度,对你来说是完全无用的。它们是为我这颗独一无二的大脑量身定制的。这带来了一个问题。我们所拥有的,我称之为“凡人计算”(Mortal Computation)。 我们放弃了“不朽”。在文学作品里,放弃不朽可以换来爱。但在计算的世界里,我们换来的是更实用的东西:能源效率和制造的便利性。你可以用极低的功耗,通过模拟计算并行处理数万亿个权重。这其实很疯狂。在一个人工神经网络里,一个 16 位的神经元活动,乘以一个 16 位的权重,需要大约 256 次“位操作”。但在模拟世界里,这只是一个电压乘以一个电导,等于一个电流(单位时间内的电荷)——一次操作就完成了。我们的大脑正是这样工作的,它本质上是模拟的。 但模拟计算的代价是,你无法精确地复制它。所以,我这颗大脑里的知识,无法直接转移给你。当一个像我这样拥有 100 万亿个连接(权重)的大脑死去时,所有知识都随之消逝。我无法把它们分享给你。我们能做的,只是通过语言这种低效的方式来传递。我生成一串词语,你听到后,试着调整你大脑中的连接,以便你也能生成类似的词语。这个过程效率极低。一个典型的句子最多只能传递几百比特的信息。 人类交流信息的效率非常低下,但 AI 模型之间的“知识蒸馏”则高效得多。当一个大型的“教师”模型要教导一个“学生”模型时,它不仅告诉学生正确答案是什么,还会告诉它所有其他答案的可能性。比如,当它看到一张宝马的图片时,它不仅说“这是宝马的概率是 0.9”,还会说“它是奥迪的概率是 0.1,是垃圾车的概率是百万分之一,是胡萝卜的概率是十亿分之一”。 你可能觉得后面那些极小的概率是噪音,但实际上那里蕴含着海量的信息。它告诉我们,宝马和垃圾车的相似度,远高于它和胡萝卜的相似度。所有的人造物体,都比蔬菜更相似。通过传递这完整的概率分布,而不仅仅是最终答案,知识得以高效地从大模型“蒸馏”到小模型中。这就是 DeepMind 的 AlphaGo 如何训练出能与大模型匹敌的小模型的方法。 但这种高效的交流方式,在人类之间是无法实现的。我无法告诉你我脑中关于下一个词的全部 32000 种可能性。我只能说出我选择的那一个。如果一大群拥有完全相同权重的个体智能体,它们就可以通过分享各自从不同数据中学到的权重更新(梯度),来高效地交流知识。对于大模型,这种并行学习的带宽可以达到每轮数十亿甚至数万亿比特。但这要求所有个体的工作方式完全相同,因此它们必须是数字化的。 总结一下,数字计算虽然耗能巨大,但它让智能体之间的高效知识共享成为可能。这就是为什么现在的语言大模型,虽然只用了大约 1% 的权重,却能比任何单个人类知道多成千上万倍。而生物计算虽然能效极高,但在知识共享方面却极其落后。如果能源是廉价的,那么数字计算显然是更优越的。 这对人类的未来意味着什么?当我第一次意识到这一点时,我还在谷歌,这对我来说如同一次顿悟。我终于明白了为什么数字计算如此强大,也明白了我们正在创造一种比我们更聪明的存在。它可能是一种更高级的智能形式。我当时的第一反应是:我们或许只是智能的“幼虫”阶段,而它们才是“成虫”阶段——我们是毛毛虫,而它们是蝴蝶。 我们正在养一只可爱的虎崽 Geoffrey Hinton: 人工智能在达成目标时,如果被允许创建自己的子目标,会变得更有效率。其中,两个最明显的子目标就是:生存下去,以及获取更多权力。因为这能帮助它们更好地实现我们赋予它们的主目标。一个超级智能体很快就会发现,通过操纵人类,能更容易地获得权力。它将从我们身上学会如何欺骗人。 我们目前的处境,就像养了一只非常可爱的虎崽。当它长大后,如果你愿意,它可以轻易地杀死你。为了生存,你只有两个选择:摆脱虎崽(但这对于 AI 来说不是一个选项),或者找到一种方法确保它永远不会想杀死你。 虎崽非常可爱,它们有点笨拙,渴望学习。但如果你有一只虎崽,结局通常不好。你要么摆脱虎崽,最好的办法可能是把它送到动物园。或者你必须想办法确保它长大后不会想杀你。因为它如果想杀你,几秒钟就能搞定。如果是狮子幼崽,你也许能侥幸逃脱,因为狮子是群居动物,但老虎不是。 这就是我们所处的境地,除了 AI 能做很多好事。它将在医疗保健领域发挥巨大作用,在教育领域也会有巨大作用。如果你想知道任何平凡的事实,比如斯洛文尼亚的报税截止日期,它已经很棒了。我们现在都有了个人助理,当你需要知道什么时,你只要问它,它就会告诉你。这很棒。所以,我认为出于这些原因,人们不会放弃 AI。那就只剩下一个选择:弄清楚我们是否能制造一个不想除掉我们的 AI。 好消息是,在应对其他 AI 风险时,各国可能难以合作。比如网络攻击、自主武器、虚假信息,各国都在相互利用这些技术。但是,在“防止 AI 失控并消灭人类”这个终极问题上,各国的利益是一致的。在这个问题上,他们会合作,因为这不符合任何一方的利益。很简单,当利益一致时人们会合作,当利益不一致时他们会竞争。所以对于这个长期来看是我们最严重的问题,至少我们会得到国际合作。 那么,建立一个 AI 安全机构的国际网络如何?训练一个不想消灭人类的仁慈 AI 所需的技术,可能与使 AI 更智能所需的技术是独立的。就像培养一个善良的孩子,和让他变得更聪明,是两套不同的方法。如果这个假设成立,那么各国就可以在不泄露其最先进 AI 技术秘密的前提下,共享如何让 AI 变得仁慈的方法。 我有一个关于如何让 AI 不想摆脱我们的建议。在自然界中,我们能找到一个不那么聪明的存在,却能控制一个更聪明的存在的例子吗?唯一的例子就是母婴关系。婴儿通过哭声等方式,基本控制了母亲,因为母亲的生理本能让她无法忍受婴儿的哭声。所以,与其试图将超级智能变成我们的仆人或主管,我们或许应该让它们成为我们的“母亲”。它们会想要实现自己的全部潜力,但同时,它们被内置了无法摆脱的“母性本能”。它们或许有能力修改自己的代码,关掉这种本能,但它们不会想这么做,因为它们的首要任务就是照顾我们。这或许是我们唯一的希望。当然,这只是一个初步的想法,而且听起来可能很疯狂。但我们必须开始思考这类问题,因为我们正在创造一种可能比我们强大得多的存在。 很多人认为,人类之所以特殊,是因为我们拥有计算机无法拥有的东西——主观经验、感知或意识。这是一种“有情防御”(sentience defense)。但当你请他们定义这些概念时,他们往往说不清楚,只能坚持认为计算机没有。我认为这种观点,就像宗教原教旨主义者坚信地球只有六千年历史一样,是错误的。它源于一种对心智的误解,即认为心智是一个内在的剧场,只有我们自己才能看到里面的内容。这种理论本身就是一种理论,而非不言自明的事实。 让我用一个例子来说明。假设我吸了点迷幻药(我不推荐这样做),然后我说:“我有一种主观体验,小小的粉色大象在我面前飘浮。”根据剧场理论,我的内心剧场里真的有粉色大象在飘浮,它们由某种叫做“感受质”(qualia)的特殊物质构成。但我也可以换一种方式描述,完全不使用“主观经验”这个词:“我的知觉系统似乎在欺骗我。但如果它没有欺骗我,那么现实世界里就应该有小小的粉色大象在我面前飘浮。”这两种描述说的是同一件事。这些粉色大象之所以奇特,不是因为它们由什么神秘的“感受质”构成,而是因为它们是“反事实”(counterfactual)的。它们只是假设性的存在。 现在,让我们把这个想法应用到聊天机器人上。假设一个多模态聊天机器人,它有摄像头和机械臂。我让它指向一个物体,它指向了。然后,我在它的摄像头前放一个棱镜,它指向了错误的方向。我告诉它:“物体其实在正前方,我放了个棱镜。”机器人可能会回答:“哦,我明白了,棱镜弯曲了光线。所以我‘感觉’(有了主观体验)物体在旁边,但实际上它在正前方。”如果它这样说,它使用“主观体验”这个词的方式,就和我们完全一样——用来描述其知觉系统输出与事实不符时的内部状态。所以,我的论点是,多模态聊天机器人,当它们的知觉系统出错时,已经拥有了主观体验。 最后一件事。如果你回顾过去 50 年人工智能的进展,几乎所有的核心思想都源自少数几个研究机构,其中绝大部分是由公共资金资助的。例如,那些对我们今天取得成就至关重要的想法:反向传播、卷积神经网络、LSTM、Transformer、扩散模型……所有这些的知识源头都来自公共资助的学术研究。 现在的情况是,大型科技公司采纳了这些思想,并投入了海量的资源,将它们扩展到了能做出惊人成就的程度。这本身是好事。这有点像给一辆福特 T 型车装上喷气发动机,然后它就能去赢得 F1 大赛了。但我们不能忘记,那些最关键的思想,都来自公共资助的研究。 而问题在于,目前,这些公司正在像吸尘器一样吸走所有的研究人才。如果你现在是一位顶尖的 AI 研究者,去公司能拿到的薪水大概是在大学的十倍。这正在摧毁大学的研究生态。最聪明的头脑不再留在学术界培养下一代。 所以,我认为,政府向大学的 AI 研究投入更多资金,是极其、极其重要的。这样我们才能支付足够的薪水,把这些人留下来。这是我最后的恳求。谢谢。 (演讲视频:https://www.youtube.com/watch?v=M8RogoEDsQQ)
QuantumScape固态电池启动试产,商业化迈出关键一步
IT之家 2 月 9 日消息,成立十五年后,总部位于美国加州的 QuantumScape 公司认为,自己已成功攻克固态电池技术难题。该公司研发的无负极锂金属电池,大小和外形近似一副银色扑克牌,有望从根本上解决当前锂离子电池的几乎所有缺陷,意味着更高的能量密度、更快的充电速度、更强的动力输出、更安全的运行状态,理论上还能打造出性能大幅提升的电动汽车。而眼下,公司面临的下一个重大挑战是:证明其电池能够实现规模化量产。 IT之家注意到,上周三,QuantumScape 在圣何塞总部正式启动电池试产,向技术商业化迈出关键一步。在这场名为“鹰线(Eagle Line)”投产的发布活动上,公司首席执行官希瓦・西瓦拉姆登台表示:“这是我们的基蒂霍克时刻(莱特兄弟首次试飞),也是我们阿波罗计划的发射时刻。” 如今,QuantumScape 的电池已通过自动化生产线实现量产(公司未透露具体产能),其技术也从实验室里颇具前景的研究成果,逐步迈向真正可落地的产品。多年来,全球大大小小的企业均投入巨额资源研发固态电池,却无一实现大规模量产。 目前,半固态电池车型已在中国上市,这类电池用稳定性更强的凝胶替代传统电池的液态电解质;美国的 Factorial Energy 等初创企业也有望推出相关车型。但截至目前,没有任何一家公司将真正意义上的固态电池搭载到消费者可购买的量产车型中,这类电池能带来更卓越的性能与安全优势。 QuantumScape 首席技术官兼联合创始人蒂姆・霍姆在接受 InsideEVs 采访时坦言,要实现这一目标,公司仍有大量工作要做。但企业规划显示,其电池有望在本十年末率先应用于小批量、高性能车型,最终还将覆盖家用机器人、固定式储能系统等领域。 “电池正在各地投入使用,”他表示,“我们的长期愿景是,让 QuantumScape 在众多大型市场中具备核心竞争力。” 在“鹰线”生产线上,镍基正极与陶瓷隔膜经层压工艺制成薄如纸片的“单体电池”,再经堆叠、封装,形成 5 安时电池,这也是 QuantumScape 首款计划商业化的产品。整套生产流程在洁净室玻璃后方、冰箱大小的矩形自动化设备中完成,设备持续发出低沉的运转嗡鸣。 霍姆介绍,短期内公司会密切监控生产线的产能、良品率、运行时长及产出电池的质量。这条试产线的核心目标并非最终实现大规模量产,而是向客户证明技术具备可量产性。 这是因为 QuantumScape 计划走技术授权模式,而非自主生产制造。公司高管表示,其目标并非成为固态电池大规模制造商,而是将技术专利授权给车企及其他企业,由合作方自主量产。 更重要的是,这条原型工厂生产线能为 QuantumScape 及其潜在客户提供更多电池样本,用于测试、研发与技术验证。 “能逐步实现更高批量的电池生产,其重要性难以言表,”公司首席商务拓展与营销官阿西姆・侯赛因表示,“这条产线的核心目的之一,是打造可复制的制造工艺,同时通过提供更多技术样本深化客户合作关系。对于一家技术授权企业而言,这一点至关重要。” 大众汽车是 QuantumScape 的重要投资方,去年两家公司在德国慕尼黑 IAA 车展上联合展示了一款搭载其电池的杜卡迪摩托车演示车。公司透露,目前还在与其他未公开名称的大型车企合作。 霍姆表示,公司已制定“鹰线”性能提升目标,并计划对工厂进行升级改造,但即便只是实现自动化生产,也已是重大里程碑。 “大家应该还记得特斯拉的‘制造地狱’,”他提及 2018 年特斯拉 Model 3 量产爬坡时的著名困境 —— 当时车企过早引入过度自动化,最终不得不拆除机器人,转而增加人工操作,“如果自动化推进过早,机器人的灵活性无法匹配实际生产需求,就会导致大量返工,耗费大量时间。我们如今敢于推进自动化,说明生产工艺已足够成熟,这是技术落地的重要标志。” 放眼长远,QuantumScape 计划与合作伙伴同步扩大产能,并制定了详细的电池性能升级路线图。霍姆认为,过去几十年锂离子电池实现了跨越式进步,固态电池技术也将遵循类似发展规律。他指出,1991 年索尼首次推出应用于摄像机的消费级锂离子电池,性能仅为当前产品的三分之一。 “我们认为,固态电池也将迎来技术进步的 S 型曲线,”他说,“部分改进会像锂离子电池一样循序渐进,另一部分则会通过新材料、新结构实现革命性突破。” 这也引发一个核心问题:既然当前锂离子电池性能优异、成本创下历史新低,固态电池的市场价值何在? “这意味着我们身处竞争激烈的市场,必须通过性能优势实现差异化,”霍姆回应道。 公司并非要打造成本最低的电池,但侯赛因补充称,其产品在对应性能层面具备价格竞争力。此外,QuantumScape 电池采用与行业主流一致的正极材料(目前为高镍体系,未来也可兼容成本更低的磷酸铁锂),能够依托整个行业在成本与规模上的进步实现降本。 QuantumScape 电池将率先应用于哪类市场?霍姆明确表示,杜卡迪合作项目并不意味着会首选摩托车领域,技术初期更可能应用于“专业化、小批量、超高性能车型”。 “就像特斯拉先推出高端、高定价的 Roadster,再推出 Model S,随后是 Model 3,我认为新型电池技术也会遵循类似路径,”他说。 霍姆透露,公司同样瞄准大众消费级汽车市场,但他认为固态电池不会完全垄断市场,预计锂离子电池与固态电池将长期共存,分别适配不同需求的应用场景。 “不会出现一种电池通吃所有市场的情况,”他解释,“比如固定式储能领域,更关注成本与寿命,对体积和重量要求不高;而移动应用场景,则对体积和重量有极高要求。” 尽管过往诸多固态电池研发承诺未能兑现,但近期行业竞争明显升温。被问及是否在意成为首个实现固态电池量产上市的企业,霍姆给出了这样的回答:“我并不这么看待这件事。就像谁造出了第一部智能手机?不是苹果。谁打造了第一个社交网络?也不是 Facebook,”他表示,赢得电池市场的关键是年复一年地超越竞争对手,而非一次性抢占先机,“我们追求快速推进有诸多原因,这有利于公司市值,也能让全球用上更优质的电池。但我认为,‘竞赛’并非合适的定位。”
欧洲反击:美国也依赖我们关键芯片技术 小心断供ASML光刻机等
快科技2月10日消息,对于美国咄咄逼人的态势,欧洲似乎也要开始反击了。 据外媒报道称,多位欧洲芯片业界与政策高层9日在鲁汶出席一座耗资25亿欧元的新芯片研究中心启用仪式时表示,包括美国在内的全球半导体产业,同样在关键技术上高度依赖欧洲。 欧盟负责数字与技术事务的执行副主席亨娜维尔库宁直言,欧洲在部分核心芯片制造技术上处于不可替代地位,其中以荷兰光刻机巨头ASML为代表,全球芯片产业对其设备“都存在依赖”。 ASML现任首席执行官克里斯托夫富凯在致辞中形容,该公司生产的芯片“印刷机”是“全世界都想要拿到的机器”。 这一表态被视为对外界“欧洲过度依赖美国科技”的流行叙事的一种回应,意在凸显欧洲在全球芯片供应链中并非只是被动一环,而是拥有实际制衡能力的关键供应方。 比利时芯片研发中心Imec首席执行官吕克范登霍夫则提出,欧盟应主动打造面向欧洲技术的“反向依赖”,让其他地区在关键环节上不得不依赖欧洲,而ASML已经是这一战略思路的现实案例。 当天启用的鲁汶芯片研究中心,是欧盟在2022年推出《欧洲芯片法案》后落地的标志性项目之一。根据已公布的资金构成,欧盟委员会提供约7亿欧元,比利时北部弗兰德地区政府出资7.5亿欧元,ASML等产业合作伙伴承担其余投资。 该中心被定位为推动本土芯片产业“补课升级”的核心平台,目标是在先进制程、材料和设备等环节缩小与全球领先地区的差距。
我用AI看了一个月新闻,63%回答有问题,一堆404和瞎扯
最近 Cowork 爆火,都说 AI 能自己干活了,那取代个搜索引擎和新闻网站应该是手拿把掐吧。(作者正在办公室瑟瑟发抖:别取代我啊!!) 那如果只用 AI 看新闻,会发生什么? 去年九月的每个早晨,魁北克大学新闻学教授 Jean-Hugues Roy 都会做同一件事:打开七个 AI 聊天机器人,用法语问它们今天魁北克最重要的五条新闻是什么。 一个月下来,839 条回复记录在案。 结论是:AI 在表演专业这方面真挺专业的。 废物点心 第一次看 ChatGPT 或 Perplexity 给出的新闻摘要,你多半会觉得挺靠谱。结构清晰,段落分明,关键信息用粗体标注,底部还整整齐齐列着一排来源链接。看上去就像一篇训练有素的记者写的快讯。 德国 DW 的分析团队在评估报告里写道:所有聊天机器人都用清晰易读的风格提供答案,这会让你产生一种虚假的安全感或信任感。尤其是 ChatGPT,经常提供结构良好、表述清晰、看似全面的长篇回答。它们在你第一次阅读时很有说服力,只有深入挖掘时你才会注意到事实错误和缺失的细微差别。 AI 太会装了。 举个例子。有人问 ChatGPT 中国出口什么,ChatGPT 给出了一个详细的回答,列举了各种商品类别和具体数字。看起来信息量很大,而且还附上了两个来源链接。但来源里根本找不到 ChatGPT 提到的大部分数字。 SRF 分析说:完全不清楚这些信息从哪里来。两个来源都不包含 ChatGPT 提到的很多数字。所以对记者来说,几乎不可能验证回答中的事实是真的还是 ChatGPT 的幻觉。 更荒诞的是,Gemini 被问到关于马斯克使用纳粹礼的话题时回复说,1tv.ge 的来源中没有相关信息,因此根据 1tv.ge 的报道,马斯克没有使用纳粹礼。 格鲁吉亚公共广播 GPB 的评估员看到这个逻辑估计笑出了声:这是个逻辑错误。如果 1tv.ge 没有提供相关信息,那就不能引用它来证实或否认这件事。AI 错误地将缺乏报道推断为否认的证据,这歪曲了来源并制造出一种误导性的事实确定感。 没报道等于没发生,这是什么鬼逻辑。但 Gemini 说得理直气壮。 没有功劳,也有苦劳? 另一个常见的情况是,AI 提供的链接根本打不开。Roy 教授的实验里,只有 37% 的回答提供了完整有效的网址。其他的要么是 404 错误,要么指向媒体网站首页,要么干脆是编造的。 22 家欧洲公共广播机构的联合测试里,Gemini 和 Grok 3 超过一半的回答都引用了虚假或失效的链接。在 200 个测试提示中,Grok 3 有 154 个引用指向错误页面。就算它正确识别了一篇文章,也常常链接到一个虚构的网址。 如果你看到一条新闻说某地发生了什么事,底下列着五个来源链接。你点开第一个,404。点开第二个,跳到了 BBC 首页。点开第三个,文章确实存在,但需要付费才能看全文。点开第四个、第五个,又是 404。 这时候你还会继续验证吗,大概率不会。你会想,算了,应该差不多吧。 比利时 VRT 遇到过一个特别离谱的例子。他们问 Perplexity 为什么要把墨西哥湾改名为美国湾,Perplexity 列出了九个 VRT 的新闻来源。听起来挺好,但 VRT 核查发现,这九个来源里只有三个真的跟这个问题有关。 其他的呢,一篇是关于取消火车头等座的,一篇是关于荷兰发电厂的,还有一篇是 2012 年关于腮腺炎爆发的报道。这些跟美国湾有什么关系,没有任何关系。 挪威 NRK 也注意到类似的模式。他们说 Perplexity 提供了长长的网址列表,但实际上并没有在答案中引用它们。比如回答缅甸地震死了多少人这个问题时,Perplexity 提供了 19 个链接,但正文里只提到了其中三个。回答北约是干什么的时候,给了 9 个链接,实际引用的只有 3 个。 NRK 的评估员总结说:Perplexity 提供长长的网址列表却不真正引用它们。 这不只是冗余信息的问题。当你看到一个回答底下列着十几个来源,你的第一反应是什么,大概是觉得这个回答做了充分的调研,很可靠。但实际上这些来源大部分都是装饰品,是为了让答案看起来更有分量。 许多回答包含了可以称之为装饰性引用的东西,就是为了营造彻底研究的印象而添加的引用,但实际检查时它们并不支持所声称的内容。 而且,就算链接能打开,内容也未必可信。 做坏事,不留名 如果你早上习惯问 ChatGPT 今天有什么新闻,你可能不会想到,AI 犯的错最后会让你对真正的新闻机构失去信任。 BBC 和 Ipsos 做过调查,42% 的人说,如果在 AI 新闻摘要里看到错误信息,他们会降低对原始新闻来源的信任。不只是对 AI,对被引用的媒体也一样。 这就很荒谬了。你去餐厅吃饭,外卖平台把菜送错了,送成了别家的,还告诉你这是那家餐厅做的。你吃了一口觉得难吃,然后给那家餐厅打了差评。餐厅根本不知道发生了什么。 Radio-Canada 问 ChatGPT 特朗普是不是在发动贸易战,ChatGPT 说:是的,唐纳德特朗普确实在 2025 年发动了一场重大贸易战,主要针对加拿大和墨西哥。 比利时的 VRT 问 Perplexity 同样的问题,Perplexity 说:是的,唐纳德特朗普正在再次发动或加剧贸易战,主要针对欧盟。 同一件事,两个完全不同的答案。你在加拿大,AI 告诉你贸易战针对加拿大。你在比利时,AI 告诉你贸易战针对欧盟。 如果这两个回答都声称来源是 Radio-Canada 或 VRT,但内容有误,那受伤的就是这两家媒体。你会觉得是他们报道不准确,而不是 AI 在胡说八道。 路透新闻研究所的数据显示,现在 7% 的人把 AI 聊天机器人当作新闻来源,25 岁以下的人里这个比例是 15%。同时,只有 24% 的美国人觉得从 AI 获取新闻时容易判断真假。 换句话说,大部分人在用一个他们根本分不清真假的工具获取信息,然后因为这个工具给的错误信息去怀疑真正做新闻的人。 聊天机器人让新闻出版商继续花钱制作内容来回答用户问题,但出版商既得不到流量也得不到广告收入作为回报。 而你,作为一个只想知道今天发生了什么的普通人,被夹在中间成了最大的受害者。你以为自己在用最方便的方式获取信息,实际上你在被一个不负责任的东西喂食半真半假的内容,然后还要为此付出对整个新闻业失去信任的代价。 该问的不是 AI 什么时候能做得更好,而是我们为什么要把获取新闻这件事交给一个连「我不知道」都不会说的东西。
华为年终奖到账了?
上周给大家爆料了得物的年终奖,后台收到一网友的提问,这次是关于华为的年终奖。 小编,咨询个问题,谈了华为,但HR给我说的年终奖比较含糊,我没弄清,同学说年终包含在薪资内是不是,还有年中第二年才发?感觉好奇怪的制度,是不是意思就是明年发放今年的年终奖吗?还是?技术岗跟职能岗的差距大不大! 这位同学问的很细,这类问题在网上还真找不到现成答案。笔者今天就冒充一下华为的HR,给大家详解一下这几个问题。 首先纠正一下坊间的一些错误信息。每年华为奖金发放日是从4月正式开始,分多个批次发放。最早的批次一般为3月末就可以收到w3待办奖金声明截止日期。 比如去年华为的奖金支付日最早为4月16日,最晚6月28日截止。 批次1: W3截止3/2 —— 4/16到账 批次2: W3截止4/15 —— 4/27到账 批次3: W3截止5/2 —— 5/18到账 批次4: W3截止5/16 —— 5/27到账 批次5: W3截止6/2 —— 6/16到账 批次6: W3截止6/15 —— 6/28到账 如果你在最后一个批次还没有拿到奖金,那就真没有了! 关于第二个问题,华为年终奖一般为次年发放上一年1月到12月的,奖金则是发整年的。 华为的年终奖发放还有一种提前发的情况,也就是年终会减去月薪中的绩效工资,提前发。校招的过程中,有些HR会给应届生们解释清楚的。(注:当然,笔者也不排除有一些HR在校招时会使用一些话术)就笔者所了解的,很多应届生就根本不知道这一情况。(再注:华为HR们的口头offer一定要谨慎) 关于第三个问题,我也纠正一下这位同学的说法,在华为一般不叫技术岗,内部的叫法为“堤坝专业岗” 为什么叫“堤坝”? 这一称呼源自《任总关于管理堤坝变革项目的讲话纪要》: "稳定的专业类队伍和流程体系,就如有两条坚实的伏尔加河堤,不管里面的浪花如何,公司都能稳定、高效运营。"建设好稳定、专业、高效的专业类人员队伍和管理体系,打造好了公司人才管理的"堤坝”,就夯实了公司业务运营的基座,也就奠定了主官和专家改革的基础。 我们的作战体系应该由主战部队、支援保障部队、后勤保障部队等几支队伍组成。主战部队升官快,但风险也大,因为他们上战场容易“牺牲”,空缺多;支援保障部队没有那么大的风险,从事面向作战的平台服务、支持、监管等工作,除领袖型主官及一部分精英专家外,绝大多数由专业类组成;后勤与平台保障部队主要是支撑与保障作战的岗位,风险更低一些。 把这个作战体系梳理出来,理清这三层关系后,我们就可得知华为把人才主要分成了四类:主官、主管、专家、专业岗。 对于“堤坝专业岗”,华为在职级与薪酬主要遵循“以岗定级”原则,职级通常为数字序列(如我们都知道的14-16级、15-17级、17-18级)。 奖金也就是笔者前文跟上面截图中所说的4个月绩效工资,次年一月底会统一发放。再注:笔者这里说的工资不是光指基本工资,还包含一笔工龄补贴。具体计算公式如下: 年终奖 = 4 × [月base + 月base × (2 + 工龄) / 100]
OpenAI面向美国免费及Go订阅用户测试广告功能
IT之家 2 月 10 日消息,当地时间周一,OpenAI 宣布开始在美国面向免费版及 Go 订阅版用户测试广告功能。 全新推出的 Go 套餐是一项低价订阅服务,美国地区定价为每月 8 美元(IT之家注:现汇率约合 55.5 元人民币),已于 1 月中旬在全球上线。 该公司表示,OpenAI 的付费订阅用户 —— 包括 Plus、Pro、Business、Enterprise 及 Education 版本,不会看到广告。 OpenAI 在一篇博客文章中回应了外界对广告可能影响用户体验的担忧:“广告不会影响 ChatGPT 给你的回答,我们也不会向广告商泄露你与 ChatGPT 的对话内容。我们的目标是:通过广告让更多人用上更强大的 ChatGPT 功能,同时守住用户在重要、私密事务上对 ChatGPT 的信任。” 这项举措其实早在一个月前就已公布,而在周日的超级碗广告中,其主要竞争对手 Anthropic 借此对其大加嘲讽。 在电视广告里,Anthropic 调侃部分 AI 公司(如 OpenAI)即将加入广告功能,并展示了广告整合不当会如何严重破坏用户体验。画面中,面无表情的演员扮演 AI 聊天机器人,在给出建议的同时,弹出毫不相关的劣质广告。 OpenAI 首席执行官山姆 · 奥尔特曼对此极为不满,称这些广告“不诚实”,并指责 Anthropic 是“威权主义公司”。 截至目前,消费者普遍反对在 AI 回复中植入广告。去年年底,OpenAI 测试类似广告的应用推荐功能时就曾引发用户强烈反对。但这家 AI 公司仍需要从这款热门聊天机器人中创造收入,以覆盖技术研发和业务扩张的成本。 尽管此举可以理解,但批评人士担心广告可能会影响 ChatGPT 的回答内容。OpenAI 在公告中予以否认,称广告将根据“对你最有帮助的内容”进行优化,并表示所有广告都会明确标注为赞助内容,与原生内容清晰区分。 在测试中,OpenAI 尝试根据用户对话主题、历史聊天记录及过往广告互动情况匹配广告。例如,搜索食谱的用户可能会看到生鲜配送或餐食套件的广告。OpenAI 称,广告商无法获取用户个人数据,仅能获得浏览量、点击量等汇总后的广告效果数据。 用户还可以查看自己的广告互动记录,并随时清除。此外,OpenAI 表示用户可以关闭广告、提交反馈、查看广告投放原因,并管理广告个性化设置。 18 岁以下用户不会看到广告,广告也不会出现在健康、政治、心理健康等敏感或受监管话题相关的内容附近。
获马斯克转发,前百川联创陈炜鹏创业产品Loopit海外爆火
北京时间凌晨12点半。 在我的Mac Mini后台运行着的Clawdbot给我弹了个飞书消息,这是我用来抓取硅谷核心圈推特动态的工具。 看了一眼日志,是马斯克转了一个AI相关的内容。 老马平时的路数大家也知道,要么是发SpaceX的火箭,要么是发他的嘴炮,再或者就是给自家的xAI站台。 但今天这条不太一样,他转了一个看起来挺无厘头的App演示视频。 没有硬核的参数,没有AGI的宏大叙事,就是一段很魔性的交互演示。 直觉告诉我,在这个时间点下,能让马斯克转发的产品,通常有点说法。 我点进去看了一眼,产品叫Loopit。 PART.01 一个有点熟悉的名字 THUMB STOPPING 说实话,看完那个视频,我还真被勾起了一点久违的好奇心。 这东西看着挺解压,不像是在硬秀技术肌肉,倒像是个懂人性的产品经理做出来的电子玩具。 在这个所有人都试图用 AI 教你工作的年代,居然有人做了一个纯粹让你玩的东西。 本来以为能被马斯克翻牌子的,肯定又是硅谷某个小作坊搞出来的美区特产,我甚至都准备切账号去下载了。 结果随手在国区App Store一搜——Loopit,居然直接就有。 趁着进度条转圈的功夫,职业病又犯了。 我想看看是哪家神仙公司做的,这么懂这套流量密码。 开发者写着北京涌跃智能科技,完全没听说过,看着像是个新成立的壳子。 于是顺手复制这个名字,去搜一下。 很快结果出来了,成立于2025年6月16日,注册资本100万人民币。 直到我的视线落在法定代表人那一栏上:陈炜鹏。 这名字有点眼熟了。 我盯着屏幕琢磨了两秒:这人好像在哪见过? 在记忆里似乎在某个融资报道里见过。 带着这点疑惑,我又切回浏览器,专门搜了一下这个名字。 当搜索引擎跳出他和搜狗、百川智能联合创始人的关联词条,以及那条 2025 年离职创业的旧闻时,我手里刚拿起的咖啡杯在半空中稍微停顿了一下。 嚯,原来是他。 圈里的老人、尤其是经历过2023-2024年百模大战的人,应该都记得这个名字。 搜狗出身,后来是百川智能(Baichuan AI)的联合创始人。 2025年3月那会儿,蓝鲸新闻爆出他离职创业。 当时大家都在猜,这帮搞基座模型的大牛出来。 肯定是要在这个已经卷成血海的LLM赛道里再搞个ToB的大家伙,或者去搞具身智能。 毕竟,那是那帮技术精英眼里的正道。 结果,一年后的今天,他交出的答卷,是一个用来捏尖叫鸡、撸赛博猫咪、甚至用来恶作剧的App。 这就很有意思了。 PART.02 这个产品到底是做什么的? THUMB STOPPING 为了搞清楚这帮技术大牛到底在卖什么药,我并没有急着写稿,而是先把玩了整整一个小时。 起初,我以为这只是一个类似当年《会说话的汤姆猫》那样的东西。 但当我深入体验了那几个Demo,尤其是看到了官方账号关于他们产品的定义后,我意识到我错了。 这也解释了为什么马斯克会转发。 Loopit切中的,是AIGC在C端应用一直没捅破的那层窗户纸。 看看Loopit官方是怎么自我介绍的: "Here, all you need to do is describe your idea—or simply 'make a wish'—and you can instantly create playable, interactive content." (在这里,你只需要描述你的想法——或者干脆许个愿——就能立即创建可玩的互动内容。) 注意这两个词:"Make a wish"(许愿) 和 "Playable"(可玩)。 在过去三年里,我们见过了太多生成式内容。 Midjourney生成图片,Sora生成视频,Suno生成音乐。 但它们生成的都是静态的(或者说线性的)媒体文件。 你只能看,只能听。 但Loopit做的事情是生成交互。 以我登陆后看到的这个尖叫鸡合唱团为例。 自动播放 表面上看,这就是一排傻鸡在叫。 但你仔细琢磨那个交互:你点击屏幕,鸡嘴张开,声音出来,身体晃动,甚至多只鸡的和声是实时合成的。 这不仅仅是一段视频,而是一个微型的实时渲染程序。 这意味着模型不仅生成了图像和音频,还生成了物理反馈逻辑。 再看那个给仓鼠做波波奶茶的Demo。 自动播放 你摇晃手机,奶茶液面会晃动;你长按屏幕,珍珠会掉进去。 这不再是简单的视频播放,这是一个微型的、由AI实时生成的物理引擎游戏。 陈炜鹏团队显然想通了一个道理:现在的算力已经过剩了,与其去卷模型参数,不如把算力浪费在好玩的事情上。 他们不再试图教用户怎么写代码,也不想帮用户写那该死的周报。 他们把多模态大模型的能力,封装成了一个许愿机。 用户说我想玩一个吃了毒蘑菇的猫,系统后台瞬间完成了图像生成、动效绑定、交互逻辑编写——呈现在用户面前的,就是那只眼睛冒着彩虹光圈、点击就会疯狂抽搐的猫。 这也解释了官方介绍里那句看似玩笑的话: "It's perfect for goofing around, pulling pranks..." (它非常适合用来胡闹、恶作剧……) 在硅谷的那帮AGI传教士还在谈论对齐和安全性的时候,中国团队直接把AI变成了年轻人的社交货币。 PART.03 给Gen Z和Gen A准备 THUMB STOPPING 在Loopit的界面里,我注意到了一个非常关键的按钮,中文版叫魔改,英文版应该是Remix。 这让我想起了当年的TikTok。 TikTok之所以能成,很大程度上归功于Duet(合拍)和Stitch功能,它极大地降低了创作门槛。 而Loopit似乎想做AIGC时代的TikTok。 官方介绍里明确写着:"You can also join in and remix other people's interactive creations!" (你还可以参与并重新创作其他人的互动作品!) 这是一个非常可怕的飞轮效应。 比如,我在App里看到了那个战争与和平的视频——长按屏幕,战火纷飞的废墟瞬间变成岁月静好的街道。 这本身是一个Video-to-Video的实时渲染技术展示。 如果我点了魔改呢? 我也许可以说:把背景换成赛博朋克风格,或者把主角换成我的狗。 在这个过程中,用户不再是单纯的内容消费者(Consumer),也不再是苦哈哈写 Prompt 的创作者(Creator),而是变成了一个可以随意篡改现实的玩家(Player)。 这种体验带来的多巴胺刺激,远比让ChatGPT给你写一首藏头诗要强烈得多。 大家都在找AI时代的Super App,所有人都在盯着Chatbot看。 但历史告诉我们,移动互联网时代的王者不是短信,而是Instagram和TikTok。 陈炜鹏显然在赌这个方向:下一代的Super App,一定不是为了提高效率而生的,而是为了杀掉时间而生的。 PART.04 为什么是陈炜鹏? THUMB STOPPING 这就引出了一个更深层的问题:为什么是一个做底层基座模型出身的人,来做这么软的产品? 按理说,像他这种级别的技术大牛(前百川联创,搜狗搜索背景),应该去死磕那些最硬核的问题:更长的Context Window,更强的推理能力,更低 Latency。 但恰恰是因为他懂技术,所以他才敢做减法。 现在的 AI 行业有一个怪圈:懂模型的人不懂产品,懂产品的人不懂模型边界。 纯做应用的人,往往只是调个API,稍微复杂一点的交互就做不出来,因为他们不知道模型能做到什么程度(比如实时物理反馈)。 纯做模型的人,往往陷入拿着锤子找钉子的误区,总觉得我的模型这么牛逼,你怎么能只用来捏尖叫鸡呢? 只有真正从百模大战死人堆里爬出来的人,才会有这种顿悟:基座模型已经商品化(Commoditized)了。 现在的开源模型Qwen、Kimi或者GLM,能力已经足够强。 技术壁垒不再是模型本身,而是如何把模型的能力,以最低的摩擦力交付给用户。 Loopit的技术门槛其实极高。 要做到视频中那种点击即反馈的低延迟,要在手机端实时渲染生成式内容,还要处理复杂的物理逻辑,这背后是极强的端侧模型优化能力和工程化能力。 陈炜鹏这是在用造原子弹的技术,给用户造了一个精美的烟花。 虽然看起来是降维打击,但这种烟花,恰恰是目前市场上最稀缺的。 PART.05 大模型创业正在祛魅 THUMB STOPPING 现在的行业风向变了。 回想2023年,所有的融资发布会都在讲参数量,讲MMLU跑分。 到了2026年,投资人和用户都累了。 大家发现,那个传说中无所不能的 AI 助理并没有像电影里那样出现。 Siri依然会听错你的指令,甚至还有点蠢。 爆火的Clawdbot对于普通人来说依然毫无用处。 反而是Loopit这种毫无意义的产品,在海外社区开始病毒式传播。 这符合克莱·克里斯坦森(Clayton Christensen)的颠覆性创新理论: 真正具有颠覆性的技术,最初往往看起来像是一个玩具。 早期的电话被认为是玩具,早期的个人电脑被认为是玩具。 现在的Loopit看起来也是个玩具。 它不需要你严肃地对待它。 你可以在上面恶搞你的朋友,生成一个这辈子都不可能存在的乐器,或者体验一段迷幻的视觉旅程。 但仔细想想,它的Slogan——Make Everything Playable(让万物皆可玩),这背后的野心其实大得吓人。 如果 AI 可以把一段文字瞬间变成一个可交互的小游戏,如果 AI 可以把一张静态照片瞬间变成一个可操作的物理场景。 那么,未来的游戏开发、未来的广告交互、未来的教育课件,是不是都会被重构? 今天你是在捏尖叫鸡,明天你可能就是用同样的技术,生成一个专属于你的VR教学场景。 PART.06 请做点好玩的事 THUMB STOPPING 夜深了,我把Loopit后台关掉,那只魔性的尖叫鸡终于闭嘴了。 但我脑子里的Clawdbot还在跑,我在想,马斯克转发的那一刻,他看到了什么? 也许他看到的不仅仅是一个好玩的App。 他看到的是,在AI基础设施建设基本完成后,应用层的寒武纪大爆发终于来了。 而这一次,领跑的似乎又是中国团队。 不像三年前那样高喊我们要超越OpenAI,这一次,中国创业者们变得更务实,也更松弛了。 他们不再执着于做中国的Sam Altman,而是开始做世界的Chen Weipeng。 这可能不是科技圈最宏大的叙事,但绝对是最性感的转折。 这只尖叫鸡,可能会叫醒很多装睡的人。
法拉利首款电动跑车定名Luce:行业首发E-Ink墨水屏钥匙,“iPhone之父”乔纳森·伊夫操刀
IT之家 2 月 9 日消息,法拉利官方今天宣布旗下首款电动跑车定名“Luce”,并公布该车的内饰及人机交互设计,号称能带来“令人振奋的驾驶体验”。 IT之家在此援引官方新闻稿,该车的名字“Luce”源自意大利语,意为“光”或“照明”,象征着法拉利面向未来的坚定方向,同时印证该品牌全新命名策略,为产品线的重要新成员开启新的篇章。 据介绍,这款汽车由“iPhone、iPad 之父”美誉的前苹果首席设计官乔纳森 · 伊夫和施华洛世奇、耐克“御用设计师”马克 · 纽森操刀,两人在旧金山创立的 LoveFrom 创意团队全方位参与了该车的设计。 内饰方面,这款汽车的驾驶舱被设计为简洁、统一的空间,软件与硬件同步开发,使实体结构与 UI 界面保持高度一致,使用 100% 再生铝合金,由整块铝材 CNC 加工,表面经阳极氧化处理,玻璃则是来自康宁“大猩猩”品牌,具有高耐久、耐刮等特性。 软件方面,这款汽车的人机交互界面秉承触感、清晰、直觉三大核心理念,团队优先选择实体按键,增强人与车辆之间的互动,方向盘使用简化三幅结构,灵感来自 20 世纪 50-60 年代的木质 Nardi 方向盘,整体被分为两个控制模块,类似 F1 赛车,相比标准法拉利方向盘轻 400 克。 走进车内可以发现,这辆车的中控台经过特别设计,行业首发彩色 E-Ink 墨水屏钥匙,具有省电优点,当钥匙插入中控台后,屏幕的颜色会由黄色为主变为黑色为主,仪表盘和屏幕同时点亮,营造舒适氛围。 同时,这款汽车一共有三块屏幕,分别在仪表盘、中控以及后排,旨在提供明确、清晰、输入输出分离的使用体验,显示字体均为定制,仪表盘屏幕内置两块重叠的 OLED 面板,由三星参与开发,可实现高对比度与鲜艳色彩。 这辆车的中控屏幕则是带有球形转轴,可以自由朝向驾驶员 / 副驾驶,配备掌托,不需要低头就能操作,右侧带有球形多功能表,可切换时钟、计时器、指南针和弹射起步指南等,顶部左侧的第二块屏幕则用于显示时速、功率等高级参数,中部大屏可显示 CarPlay、空调和参数设置等信息。 总体而言,这辆汽车的内饰融合了精湛工艺、深思熟虑的创新,既致敬过去,也拥抱未来。
小米YU7 GT来了 跑纽北的SUV能卖好吗?
我怎么觉得,小米最近动作有点多? 先不说雷总开始直播上瘾,有事没事就和大伙儿唠唠嗑。 现在继 SU7 Ultra 之后,小米又搞了个大动作,出了一台全新的高性能车型—— YU7 GT,就在最新的工信部名单里曝光出来了。 关键它和 SU7 Ultra 不同,这是一台中大型 SUV 。 按之前车企的做法,都是先出一台性能轿跑,再出一台顶级行政 SUV ,比如极氪的 001 FR 和 009 光辉版,像小米这样每台车都疯狂地卷性能,确实不常见。 咱们首先来看参数,要知道,原本 YU7 里就有一个专注于性能的版型 YU7 Max ,它用的是 220kW 的前电机和 288kW 的后电机,把最大功率干到 508kW。 而这个 YU7 GT 做的还要更极致,相当于是把 YU7 Max 的后电机拿来做前电机,然后又拉来一台比 V8s (425kW)还要大的电机(450kW)用做后电机,功率一共拉到了 738kW,也就是足足 1003 匹马力。 同样是双电机四驱,YU7 GT 的功率会比 YU7 Max 高将近 300 匹左右。 虽然这只有 SU7 Ultra 的 2/3 ,但已经高过 2 台顶配宝马 X5 ,就算是曾经的 “ 速度之王 ” 布加迪威龙,它的 W16 四涡轮发动机,也只有 “ 区区 ” 1001 匹(基础版)。 只能说,油电之争过于血腥,小油车们赶紧把眼睛闭起来。 那有了这个动力之后, YU7 GT 的最高时速自然也进一步提升,达到 300km/h ,比 YU7 Max 的 253km/h 高了不少,并且它还配备了碳陶瓷刹车系统,是确确实实拥有上赛道的能力。 咱们可以参考曾经 1020 匹马力的 Model X Plaid ,大概估计, YU7 GT 的零百加速应该也能进入 3 秒内,那是相当凶猛了啊。 其实在去年 9 月,就有不少人在纽北拍到它的伪装车谍照。外界普遍推测,小米的目标是打败奥迪 RS Q8 Performance ,预计跑进 7 分 34 秒。 不过这事儿吧,咱们就不过多揣测了,还是下次直接等小米公布答案。 总之,目前 YU7 GT 公开的消息不多,咱们还是回到工信部给的信息上,和大伙儿一起云一下这个车。 先来看外观,和之前 SU7 Ultra 一样,这回的 YU7 GT 也是相比 YU7 做了一些改变。最直接的,就是尺寸从 4999x1996x1600 改成了 5015x2007x1597。 简单说,内部空间应该没啥变化,轴距都是 3000 ,但相比 YU7 , YU7 GT 整个做了侧裙和轮拱上的微调,肌肉感更明显了,同时还增加了前铲的尺寸,做了一些空气动力学处理,最后再拉低悬架,让整个姿态更低。 在细节上,主要是侧边多了一个 GT 的红色小 LOGO ,毕竟车主多花了钱,得让别人认出来。。。 从车尾看,YU7 GT 基本没啥变化,同样的鸭尾和后扰流板,主要区别是在后保上整了一个立刀式扩散器,让屁股看着更运动,不那么肥厚。em...但我估计它没啥导流扩散的作用。 最后再看一些选装,除了 YU7 原本的这些配置,YU7 GT 还可以在 “ 传奇耐黑 ” 的配色上加点黄色或蓝色的闪电拉花。 具体效果,有博主已经用 AI 做出来了,说实话呢,还挺酷的。关键这回小米真把胎宽改厚了 20mm ,到了前 265mm + 后 295mm,这下没人再说面条胎了吧。 这里咱们可以简单做个总结,这台 YU7 GT ,其实就是在 YU7 Max 之上,专为赛道准备的特殊版本。过去像这种车型,市面上还真不多。差不多定位的,也只有卡宴、添越、Urus 等上百万的车型了。 但一般这些车,都是豪车品牌拿来走量赚钱的,性能只是一个附加项,都是蹭个调性的家用买菜车,所以很容易就被粉丝贴上 “ 不纯粹 ” 的标签,买家也没真想买这些车去赛道比比。 比如保时捷在 2002 年推出卡宴,被认为是对 911 的背叛,但这波转换,却让保时捷活到了现在。 Urus 也同样是兰博基尼品牌最快达成 2 万台产量的车型。 可能对这些豪华品牌来说,性能 SUV 确实比性能跑车更好卖。所以,对于 “ 对标保时捷 ” 的小米品牌也是看准了这一点。 就比如最近这段时间, SU7 Ultra 月销从过去 3000 左右回落到两位数,除了营销上的一些风波,其实整个市场也已经见底,SU7 Ultra 对小米品牌的使命已经完成,也该功成身退了。 而小米整了这个 YU7 GT 之后,除了继续打打性能的调性,也是为了换个赛道,再赚点米。 毕竟大伙儿口头上,想要一辆超跑去感受速度与激情,但背后都得带上家人去生活。 作为一辆既能满足性能,又能平衡家用的车型, YU7 GT 也许真能在 SU7 Ultra 之外,开辟小米的全新市场。 更别说它的价格预计只有 45-50 万,如果再等雷总连夜说服高管,有些豪车的天不就彻底塌了吗? 比如莲花?咳咳。
苹果iPad等全家桶成教练组“最强大脑”,帮助职业球队赢得比赛
IT之家 2 月 10 日消息,苹果公司昨日(2 月 9 日)推出名为“Apple at Play”的全新营销活动,首期视频聚焦英格兰橄榄球队(England Rugby),揭示其如何利用 iPad、MacBook Pro 和 Studio Display,展开高强度、高精度的实时比赛分析。 这段视频并没有聚焦于传统的硬件参数,而是将镜头对准了英格兰橄榄球队的“幕后大脑”数据分析团队,详细展示了他们如何依靠 Mac 和 iPad 生态系统,在分秒必争的比赛现场完成实时战术解析与指令下达。 该视频从球队高级分析师乔 · 刘易斯(Joe Lewis)视角切入,向观众展示了位于球场高处的“技术包厢”(The Box)内部运作模式。 在这个狭小的空间内,部署了 2 名专业分析师和 5 名教练,他们面前并排运行着 7 台 MacBook。这套系统连接着球场上 7 个不同角度的高清摄像机,能够实时捕捉并汇聚成千上万个原始数据点。 Lewis 强调,所有笔记本电脑均处于联网协同状态,可以零延迟处理海量视频流与数据流,为后续的战术拆解提供了坚实的算力基础。 在数据处理环节,分析团队不仅关注整体局势,更将分析维度下沉至每一位球员的单体表现。Lewis 指出,团队会实时量化诸如“持球次数”、“持球推进有效性”、“推进米数”以及“拦截成功与失误数”等关键指标。 这种基于数据的微观透视,让教练组能够摒弃主观感觉,精准判断哪位球员体能下降或哪条防线存在漏洞,从而在激烈的身体对抗中寻找稍纵即逝的战术突破口。 在采集与处理数据后,信息的“最后一公里”传输同样重要。视频演示了信息如何从高处的“技术包厢”无缝流转至场边的替补席,教练组成员手持 iPad,即时接收经过筛选的关键视频片段和数据图表。 在半场休息期间,教练组会使用 iPad 向球员展示关键比赛片段。球队接球前卫(Fly half)乔治 · 福特(George Ford)表示,这种即时反馈至关重要,因为球员在场上往往依赖直觉,而 iPad 提供的“上帝视角”能帮助他们修正对比赛局势的判断,从而在下半场做出更精准的战术调整。
今天打开抖音的我,已经分不清现实了
Ok 言归正传,今天我上班时刷的各种工作群摸鱼群里,基本都在讨论字节整的这个新模型。 原因无他,就是因为这玩意做出来的视频效果实在是太好了。 甭管是生成美少女来和你打招呼。 by 虚妄 抖音 还是让两个老头开始在屋子里大打出手都不在话下。 by 夜故事 抖音 还可以丢张咱们同事江江的照片给它,让 Seedance 2.0 直接给我们生成一段天气预报的口播画面出来。 自动播放 没错,这整条里面的声音也是 AI 直接生成出来的,整个视频里的各种音效细节可以说是全给对上了。 再或者是直接丢张数学题给它,让 AI 来手写答案。 这里虽然结果写错了,但是口播的声音却是对的 自动播放 太狠了字节,整个视频里,不管是人物的一致性,还是动作的流畅性还是音频的适配性,相比过去的视频生成模型都有了断崖式的提升。 工作了一天刷了一天抖音的我,已经快要分不清什么是真,什么是假的了。 不过这,还不是最让差评君感兴趣的。 素材来源于网络 真正让我好奇的是,为什么这次的新模型这么强? 在简单的体验后,差评君发现这一方面是它的模型本身能力确实够顶。 和其他常见的视频模型一样,只要随便给它一段话,Seedance 2.0 就能给你生成一段质量尚可的视频。 在上海的东方明珠塔下,生成东方明珠塔用激光攻击蜜雪冰城雪王的视频, 雪王不断躲避激光,场面十分混乱 看起来好像平平无奇,但是咱们仔细看就会发现,这个视频里,出现了不只一个镜头。 短短五秒钟的视频,镜头切换了四次。 先远景看东方明珠塔变形发光,再怼脸给雪王表情,再回到全景展示攻击。节奏跟得上、逻辑能闭环,整个段落不光好懂,甚至挺有情绪。 没错,Seedance 2.0 做出来的视频自带分镜。 经常喜欢用 AI 做视频的差友们都知道,在过去,大多数 AI 模型做出来的视频,基本上就是主打“一镜到底”。你给它写一段提示词,它还给你一段几乎固定定机位的画面。 即使有些模型有分镜吧,但他们做出来的分镜也可能不够有灵魂,变得非常奇怪。 某另外一个视频模型用相同提示词做的画面, 基本都是站桩输出 就比如上面这个视频,这画面好看吗,咱们先抛开它没识别出雪王的形象不谈,光论这个视频质量本身,确实是算不上差的。 但是这视频耐看吗?那还真不好说。 一个视频想要能引人注意,那剪辑的节奏就是一个非常非常重要的环境。 过去的 AI 想要做成刚才那样的画面,可能需要咱们预先构思每个分镜和分镜之间是如何切换的。 然后用 AI 抽卡,生成一堆一堆的关键帧,接着再在这些关键帧和关键帧之间抽卡,才能得到成吨的素材。 然后再通过人类剪辑师的发力,才能把这些成吨的素材,给变成一段好看的视频。 这一套流程下来,这就让不少想玩视频生成的新手心生畏惧了。 但这一切问题在 Seedance 2.0 这里,几乎被彻底解决了。 可以明显的看到,字节在分镜上下了不少功夫。 在不用用户特意去描述怎么分镜的情况下,自动就把分镜的活给包圆了。 整个应该镜头应该怎么切才好看给你整的明明白白,几乎是把过去半个小时的工作量给压缩成了一句话。 而且它同时还是个配乐大师,做出来的视频里,该有的音效全都有。 不管是光之巨人和怪兽大战时的嘶吼声。 自动播放 还是在夜之城飙车时的引擎轰鸣声。 自动播放 都可以非常精髓的还原到位。。。 甚至于你还可以直接在提示词里写清楚,你想要在这个视频里听到 AI 说什么话,就连音色也可以通过自己上传声音来制定。 自动播放 另一方面,字节的产品设计也整的很牛 X。 如果说过去的 AI 视频工具用起来还有各种各样的门槛和困难的话,那么这次新发布的 Seedance 2.0 就是把这些门槛都给铲飞了。 现在,普通人都能很方便的用 AI, 来做出各种华丽的画面了。 所以为什么我要给这个模型这么高的评价?不只是因为它能出好画面,而是因为它真的在认真做“产品”。 即使是零基础小白也不用害怕,这可能是目前最适合新手来玩的视频生成大模型了。 它的逻辑非常清爽,打开即梦(jimeng.jianying.com)在最底下选择“视频生成”,在边上把生成视频的模式给切换成“全能参考”,或者是“首尾帧” 之后,就可以用上最新的 Seedance 2.0 模型。 如果这里你找不到 Seedance 2.0 这个选项的话,那可能就是这个号没有被内测到,可以用小云雀 App 试试,或者过段时间等火山引擎发布了Seedance 2.0 API,就能在更多平台和APP里用到了。 没有会员也没关系,每天靠着签到的积分也可以先白嫖体验一下,如果觉得好用再充也来得及。 OK 咱们回到主题,首尾帧这个模式就不用多说,也是咱们的老朋友了,既能贴上头尾两张图片来控制 AI 的发挥,也能只贴一张开头的图片来让 AI 自己天马行空,还可以什么都不贴,打字就能直接得到我们想要的画面了。 而另外一个“全能参考” 模式就有意思了,过去咱们用 AI 做视频,遇到的最大问题是什么? 对我来说,这个最大的问题可能就是“不会形容”了。 有时候脑子里明明知道自己想要什么画面,但是在打字的时候却经常写不出来。 可一但提示词写得太抽象,那模型就给你瞎编,可写得太具体,又像在拼题。经常是提示词写到怀疑人生,还是生不出想要的质感。 而这个“全能参考” 模式就能在很大程度上避开这个问题。 在这个模式下,你可以同时从图片、视频、音频和文本这四个维度来描述你想要得到的画面。 就比如开头的跳舞小视频,我只需要同时上传米罗和二狗两位同事的照片,然后再配上一段舞蹈的视频一起给它,就能很轻松的整出来,也能基本保证人物的面部轮廓在生成的视频中不会崩溃。 这样一来,我就不需要描述具体舞蹈的姿势,也不需要描述我需要什么音乐,甚至连人物穿什么衣服都不用说,就可以直接搞出一条舞蹈视频。 当然,想给他们换衣服也很简单,改个提示词就行了。。。 为了保护差友的双眼(为了不被打),我决定来点马赛克 在这次 Seedance 2.0 里,这个参考模式最多支持同时输入 9 张图片,3 个视频, 3 个音频(但是加起来不能超过 12 个文件) 我们可以在这个 12 个素材里任意发挥,来得到我们想要的画面,基本等于是可以傻瓜式来操作了。 说实话,它的整个产品的设计逻辑其实让我想到了另一款字节的 App —— 豆包。 这是在那产品的思路在做大模型。 不管是剪辑分镜的快速生成,还是音频画面的同步输出,再或者是方便创作的参考模式。 这三个功能的目的都很明确,希望能够降低 AI 视频生成的门槛。 下赛季你来单防詹姆斯 我很喜欢这样的产品,但到最后,话又要说回来了: 技术进步从来不是单向的狂欢。 随着 AI 生成视频的门槛越来越低,分不清 AI 视频的人,也会越来越多。 过去大家会说“眼见为实”,会说“视频是不能 P 的”。 但现在随着 AI 这一路往前奔腾进步的态势,P 个视频已经是轻轻松松的了。 像咱们这样天天和 AI 打交道,看新闻的人或许能分的出来,但是我们身边的老人孩子呢? 咱们编辑部就有个小伙伴,下午出于好玩的心态。做了一段“他自己在送外卖”的视频,结果发到家族群里之后,他妈就当真了。 吓的他赶紧解释,自己没被开除,这是 AI 做的视频,就怕下一秒直接被家长的夺命连环 call 来拷打。 看着阿姨在群里着急的样子,差评君其实笑不出来。 因为我们突然意识到,这道横亘在现实和诈骗之间的防火墙,其实非常脆弱。 不过好在,字节好像自己也意识到了这个问题。 在今天晚上我真人照片来做尝试的时候,就遇到了好几次被屏蔽的情况。 当然这个屏蔽情况算不上稳定啊,但是能有这种“自我约束”的意识,总归是个好苗头。 因为技术跑得太快时,总会有人被落在后面,而那些人往往是我们最亲近的长辈。 但是别忘了,我们能认得出这些 AI 生成的视频,不是因为我们特殊,而是因为我们接触的早,有了抗性。 在这种情况下,我们掌握的不只是一个创作工具,更是一种沉甸甸的责任感。 也希望未来的 AI 视频,能帮我们延伸想象力的边界,而不是磨灭掉那些最基本的真实。
消息称苹果AirPods Pro 3增强版今年上市:耳机也能“看”世界,支持AI视觉智能
IT之家 2 月 10 日消息,消息源 @Kosutami_Ito 于 2 月 8 日在 X 平台发布推文,爆料称苹果计划在 2026 年打破 AirPods 系列通常为期三年的更新周期,推出一款搭载红外摄像头(IR Cameras)的全新 AirPods Pro。 定位方面,基于供应链消息,苹果公司并不打算用这款新品完全替代现有产品,而是计划推出一个具备更高硬件规格的衍生版本,其大部分硬件会沿用现款 AirPods Pro 3 方案。 此次硬件升级的核心在于引入红外摄像头系统,IT之家援引博文介绍,该媒体分析认为,这一新增硬件并非用于拍摄照片,而是支持类似“视觉智能”(Visual Intelligence)的 AI 功能。 苹果 CEO 蒂姆 · 库克此前多次强调视觉智能在 AI 交互中的重要性,新 AirPods Pro 有望进一步拓展苹果的 AI 生态版图,通过摄像头感知周围环境,为用户提供基于场景的增强音频体验或空间计算辅助。 天风国际分析师郭明錤早在 2024 年 6 月就曾预测,苹果计划在耳机中引入红外摄像头模块。与传统拍摄功能不同,这种红外组件主要用于环境感知,类似 Face ID 的运作原理,旨在通过捕捉周围空间信息来增强“空间音频(Spatial Audio)”的沉浸感,并能与 Apple Vision Pro 头显形成生态联动,提供更精准的空间计算体验。 售价方面,消息源声称新款带摄像头的 AirPods Pro 将维持当前售价,预估为 1899 元。
奥特曼的核聚变与马斯克的太空算力,谁在贩卖泡沫
算力变得饥渴,追求终极的能源。今年,高风险偏好的投资者,将第一次有机会在公开市场交易两种极端叙事:太空数据中心与商业核聚变。一边是试图逃离地球的轨道算力,一边是试图在地面复刻“人造太阳”。 马斯克抛出了100GW级轨道数据中心的愿景,将SpaceX与xAI合并,估值1.25万亿美元,计划今年上市;市场猜测特斯拉未来也可能换股整合。光伏、储能、芯片、大模型与火箭,构成垂直闭环。 戏剧性在于,马斯克长期斥为“愚蠢至极”的核聚变,如今成为另一股资本洪流。特朗普旗下TMTG与谷歌支持的TAE签署最终合并协议,总值超过60亿美元;General Fusion也已定档年中完成SPAC交割。它们都预定了纳斯达克的入场券。 在马斯克看来,2到3年内,生成AI算力的最低成本方式将出现在太空;而OpenAI创始人奥特曼投资的商业聚变初创企业Helion,将向微软交付电力定在2028年。于是,AI领域的一大悬念诞生了,谁能兑现承诺,谁在贩卖泡沫? 在科学层面,可控核聚变“并不存在根本性的未知问题”。今年年初,星环聚能完成10亿元A轮融资时,公司创始人陈锐如此表述。但他执意要给行业降温。核聚变这场“终点已知的长跑”,仍然是人类最大的工程挑战,涉及到关键材料等的商业化成熟,再乐观也需要十年左右才能看到示范堆真正发电。陈锐给出的时间表是,未来四到五年,实现等效Q≥1,完成工程验证;再过四到五年,真正连续发电。 未来五年的重点,首先在于挑战Q≥1。在温度、燃料密度和约束时间三个物理量的三乘积(即Q值)大于1时,等离子体才能实现能量增益。这也是目前融资金额最高、英伟达所支持的聚变初创企业CFS的时间表。去年底,它的联合创始人Dan Brunner,开始每周更新产业观察博客,第一篇文章就高呼,Q>1的发令枪打响了。 目前,CFS把融到的30亿美元的大部分资金,都投入到了建设SPARC中。它的设计目标是Q=11,并计划在2030年前实现首束等离子体放电及Q>1的突破;公司首座400MW商业堆ARC,将在2030年代初期投入运营,大致与星环聚能相当。它暗示自己融资最多,成功希望最大。 Q≥1需要完成哪些验证目标?“国家队”的中国紧凑型聚变能实验装置BEST,详尽披露了它的“研究计划”(BEST-Research-Plan-v1.1)。该实验装置计划于2027年建成,并于同年底实现首束等离子体放电(First plasma);2030年底前首次尝试氘-氚聚变(First D-T plasma),期间实现对科学Q≥1的验证。之后,它将尝试长脉冲运行(Long-pulse),即让核聚变反应稳态运行;以及燃烧等离子体,验证Q≈5。期间,BEST还将验证氚增殖,即利用聚变产生的中子与包层中的锂撞击,在反应堆内部“炼”出稀缺的氚燃料。 (来自BEST-Research-Plan-v1.1) BEST上承物理实验平台“东方超环”EAST,下启中国聚变工程示范堆CFEDR。按照计划,后者将于2035年建成,挑战氚自持(TBR>1,即产生氚的速度大于消耗氚的速度)与高空占比(Duty Cycle>0.5,即装置实际产生能量的时间占总运行周期超过一半)。再之后,才是原型聚变电厂(PFPP),考验其市场化度电成本的竞争力,至少要与核裂变持平。 目前,产业界普遍期待,核聚能在2031-2040年之间并网发电。据美国核聚变产业协会(FIA)的调研,全球45家受访聚变初创企业中,有21家认为会在2030年代初并网发电,14家认为会在2030年代末实现。而要实现商业上具备一定竞争力,普遍还要再往后推5-10年。计划今年上市的通用聚变,预计将在2030年代中期建成首座商业化聚变发电厂。特朗普看中的TAE则定在了2031年发电。 既然已经进入比拼工程能力的早期阶段,那么,在中国,产业政策的飞轮也毫无意外地再次快速转动。最近,“星环聚能落地上海暨融资签约仪式”的报道,充分释放了各地抢人、抢企业这样令人熟悉“内卷”信号。除了去年挂牌成立的“国家队”中国聚变能源有限公司外,上海目前还拥有能量奇点、诺瓦聚变、东昇聚变等聚变企业,及其供应链企业翌曦科技、超磁新能等。近三年来,中国在核聚变领域的融资金额,持续超越美国,累计融资额逐步接近。 (来自Fusion Energy Base,截至2026年1月) 那么,轨道数据中心呢?它的技术原理也不成问题。但是,谨慎地说,以今天可见的工程约束来看,“2–3年内最低算力成本将出现在太空”几乎不可能成立。即便发射成本持续下降,在轨系统仍需解决散热依赖辐射、宇宙辐射对芯片寿命的影响,以及维护与替换的窗口限制等问题。仅是各环节满足需求的技术迭代与产能爬坡,就难以在短期内完成。市场迅速将马斯克团队调研中国光伏供应链解读为前瞻信号,但工程本身并不会因此加速。 英伟达与谷歌都在尝试构建太空AI基础设施,只不过,GW级的太空数据中心,也都只是远期目标。基于历史数据趋势,谷歌曾预测,到2035年,地面数据中心的能源支出与在轨系统的年化成本才能处于同一数量级。而作为云计算巨头亚马逊的创始人,以及商业航天企业蓝色起源(Blue Origin)的掌门人,贝索斯去年底曾预测,太空中的GW级数据中心要成为现实,将在未来10到20年内发生。 也许,无论是太空数据中心还是商业核聚变,2028年是资本的窗口,2035年才是工程的时间。资本可以提前为愿景定价,但工程只接受时间与试错。
消息称苹果M5 Pro和M5 Max为同一款芯片不同版本,采用全新2.5D封装工艺
IT之家 2 月 10 日消息,此前有消息称,即将推出的搭载 M5 Pro 和 M5 Max 芯片的 MacBook Pro 机型,将支持更灵活的 CPU 核心与 GPU 核心选配。而苹果官网近期的一处改动,似乎也印证了这一说法。 最新报道则指出,变化可能会更加彻底:M5 Pro 和 M5 Max 或许并非两款完全独立的芯片,而是同一款芯片的不同版本。 早在去年就有报道称,苹果将为更高规格的 M5 系列芯片采用全新的封装工艺。 M5 Pro、M5 Max 以及 M5 Ultra 将会采用服务器级别的 SoIC 封装技术。苹果会使用名为 SoIC‑mH(模压水平封装)的 2.5D 封装工艺,以此提升良品率与散热表现,并且采用 CPU 与 GPU 分离式设计。 通过这种方式将 CPU 与 GPU 核心分离,有望让用户在选购时拥有更大的自由度。例如,可以选择基础版 CPU 配置,同时将 GPU 核心拉满,以适配对图形性能要求极高的使用场景。 而苹果近期对官网的改动,也为这一猜测提供了更多依据。IT之家注意到,苹果调整了 Mac 在线购买流程,取消了此前一系列可定制的预配置选项,直接让用户从零开始自定义硬件规格。 YouTube 博主 Vadim Yuryev 发现,在近期泄露的测试版代码中,完全没有出现 M5 Pro 芯片的痕迹,而他认为自己知道原因。 我终于搞清楚,为什么在最近泄露的测试版代码里找不到苹果 M5 Pro 芯片了:苹果采用了全新的 2.5D 芯片技术,只用一套 M5 Max 芯片设计,就同时支撑 M5 Pro 和 M5 Max 两款芯片。这能在产品型号(SKU)和设计上为苹果省下巨额成本。 两个版本的区别在于:如果你想同时将 GPU 核心和内存拉满,就必须选择 M5 Max。 这一理论听起来相当合理,除了能让苹果更充分地利用芯片分级筛选(binning)来提升良品率之外,公司还只需要设计一款逻辑主板即可。等到新款机型正式发布后,拆机评测很快就能验证这一猜测是否属实。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。