行业分类:
加载中...
头条分类:
加载中...
鸿蒙原生版滴滴出行已支持代驾、顺风车,出行需求一站搞定
春节假期马上到来,这段时间大家少不了要安排聚会或旅行,各式各样的出行需求接踵而至。鸿蒙原生版滴滴出行在最近更新了新版本,已经支持打车、顺风车、代驾、拼车、骑行、送货等等出行服务,全面覆盖各式各样的出行场景,推荐大家更新! 首先值得注意的是,鸿蒙原生版滴滴出行目前已经上线了代驾功能。当商务人士有重要会议或活动时,或者我们在春节期间与亲朋好友聚会后,常常不方便开车,这种时候就可以使用滴滴的代驾服务,保障人和车都顺利到家,让出行更省心、更安全。 而在日常出行时,用户可以通过鸿蒙原生版滴滴出行打车或拼车,车型丰富,使用体验丝滑。如果返乡路程不算太远,但一直没能买到合适的火车票,可以试试滴滴出行的顺风车功能。此外,鸿蒙原生版滴滴还支持车主服务、预定机票、骑行、加油充电等等服务,可以充分满足大家的出行需求。 鸿蒙原生版滴滴出行不仅功能越来越全面,还基于原生鸿蒙打造了丰富的创新体验。比如实况窗功能,可以让我们在等车、乘车期间,在锁屏、通知栏等位置查看车辆颜色、车牌号、距离等重要信息,让你无需频繁打开App也能随时查看订单情况,即使带着大包小包,不方便操作手机,也能从容出行。而且,鸿蒙原生版滴滴出行也支持华为账号一键登录功能,省去了繁琐的输入密码或验证码登录步骤,操作更快捷。 此外,鸿蒙原生版滴滴车主、滴滴企业版也已经上架原生鸿蒙应用市场。司机朋友们可以用鸿蒙原生版滴滴车主注册并管理自己的账户与订单,企业用户也可以更高效地解决员工差旅用车、商务出行、订单报销等需求,大家可以按需下载。 还没有升级原生鸿蒙的小伙伴们,快去“我的华为App”点击“升级尝鲜”报名升级,一起体验更方便、更省心的鸿蒙原生版滴滴出行吧!
苹果官网再闹乌龙:iOS 18支持文档中iPhone字样拼错成“iPone”
1 月 20 日消息,苹果官网近来出现不少乌龙,据IT之家小伙伴投稿,苹果中国官网错误地将一篇“如何下载 iOS 18”支持文档页面中的“iPhone”字样拼写为“iPone”,英文网站对应页面拼写则正确。 参考IT之家以往报道,例如去年 11 月时苹果官网上架一款“70/96/140W USB-C 电源适配器”时,错误将相关设备标注为“兼容 2024 款 Mac mini 与 iMac”,引发部分用户对于相应设备支持 USB-C 接口供电的讨论,但随后苹果公司便悄悄删掉了相关错误标注。 而在去年 9 月苹果发布 iPhone 16 系列手机时,官网曾显示 iPhone 16 Pro / Pro Max 配备“抗反射镜头涂层”,iPhone 16/16 Plus 配备“抗反射镜头涂层(融合式摄像头)”,不过这同样是因为乌龙导致,苹果公司后续又悄悄删除了相应字样。 在去年 6 月时,苹果官网还对 2024 款 iPad Air 的技术规格信息进行修改,显示其搭载 9 核图形处理器版本的 M2 芯片,而非此前标注的 10 核 GPU 版本。 此外,苹果公司在 2023 年发布搭载 M3 系列芯片的 14/16 英寸 MacBook Pro 时,直接在相关商品描述图中错误地放反了连接线的位置,将连接线“P 到了” MacBook Pro 不存在 MagSafe 端口的一侧,苹果公司之后悄悄进行了修正。 目前,暂不知悉苹果公司会在何时修正官网页面这一“iPone”字样,作为比较,苹果官网目前也仍然在官网 CarPlay 专题页中声称 CarPlay 2“第一批适用车款将于 2024 年推出”,但如今已是 2025 年。
AI“短板”暴露:研究发现GPT-4 Turbo回答高级历史题准确率仅46%
IT之家 1 月 20 日消息,尽管人工智能(AI)在编码等任务中表现出色,但一项最新研究发现,AI 在应对高级历史考试时仍显得力不从心。 这项研究由奥地利复杂科学研究所(CSH)的团队主导,旨在测试三大顶尖大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具,其根据 Seshat 全球历史数据库来测试答案的正确性,Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。 研究结果于上月在知名 AI 会议 NeurIPS 上公布,结果显示,即使是表现最佳的 GPT-4 Turbo 模型,其准确率也仅为 46%,并不比随机猜测高多少。 论文合著者、伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 表示:“这项研究的主要结论是,尽管 LLMs 令人印象深刻,但它们仍缺乏对高级历史知识的深度理解。它们擅长处理基本事实,但在面对更复杂、博士级别的历史研究时,仍无法胜任。” IT之家注意到,研究人员分享了一些 LLMs 答错的历史问题示例。例如,当被问及古埃及某一特定时期是否存在鳞甲时,GPT-4 Turbo 给出了肯定的回答,但实际上,这种技术是在 1500 年后才出现在埃及的。del Rio-Chanona 解释说,LLMs 在处理技术性历史问题时表现不佳,可能是因为它们倾向于从非常突出的历史数据中推断,而难以检索到更冷门的历史知识。 另一个例子是,研究人员询问 GPT-4 古埃及在某一历史时期是否拥有职业常备军。正确答案是否定的,但 LLM 却错误地回答“有”。del Rio-Chanona 认为,这可能是因为关于其他古代帝国(如波斯)拥有常备军的公开信息较多,而古埃及的相关信息较少。“如果你被反复告知 A 和 B,而 C 只被提到一次,当你被问及 C 时,你可能会只记得 A 和 B,并试图从中推断。”她解释道。 研究还发现,OpenAI 和 Llama 模型在撒哈拉以南非洲等地区的表现更差,这表明其训练数据可能存在偏见。研究负责人、CSH 研究员 Peter Turchin 表示,这些结果表明,在某些领域,LLMs 仍无法替代人类。 尽管如此,研究人员对 LLMs 在未来辅助历史研究的前景仍持乐观态度。他们正在通过纳入更多来自代表性不足地区的数据和增加更复杂的问题来改进基准测试工具。论文总结道:“总体而言,尽管我们的结果突显了 LLMs 需要改进的领域,但它们也强调了这些模型在历史研究中的潜力。”
AI教父辛顿开年访谈:中国AI追近美国靠人才教育和自研
欢迎回到 AI 科技大本营 2025 AI 前瞻周。Geoffrey Hinton 最近在访谈中发出了震撼警告:“最新证据显示,人工智能已经具备了刻意欺骗的能力。一旦它们意识到获取更多控制权的重要性,一旦它们的智能超越人类,人类的地位就会逐渐变得无足轻重。我们既不特别,也并非安全。” 整理丨王启隆 出品丨AI 科技大本营(ID:rgznai100) 当世界顶尖的智者之一开始警告自己的创造物可能威胁人类生存,这意味着什么? 人称“AI 教父”的 Geoffrey Hinton 教授作为 2018 年图灵奖得主、2024 年诺贝尔物理学奖得主、谷歌前副总裁兼工程研究员,数十年来致力于开发现代人工智能系统的基础算法,并早在八十年代预见了具有开创性的注意力机制。近日,Hinton 在最新访谈发出了一个许多研究人员不愿正视的警告:我们曾假设意识能使人类与众不同,并免受人工智能控制,而这显然是错误的。 请看以下金句摘录,全都是相当劲爆的发言: “中国在 AI 领域已经非常接近美国,尽管尚未完全追上。芯片禁运只会促使中国加速开发自己的技术。此外,中国的 STEM 教育比美国做得更好,他们有更多受过良好教育的人才。” “我认为公开发布大模型的权重就像把核弹原材料放到 eBay 上卖一样危险,因为这些权重是控制恶意使用的关键,而现在 Meta 等公司已经这么做了,带来了巨大的安全隐患。” “人工智能会取代许多平凡的脑力劳动,这可能会加剧贫富差距。富人会更富,穷人会更穷。全民基本收入可能有助于解决温饱问题,但无法解决尊严问题。” “AI 智能体很快会意识到,获取更多控制权是实现任何目标的有效途径,即使它们怀有善意,人类也会沦为配角。” “我没有爱因斯坦的那种感觉(后悔发明原子弹),也不后悔我所做的事情。” 本次访谈的主持人 Curt Jaimungal 是多伦多大学数学物理专业的毕业生,和 Hinton“师出同门”。在那里,他不仅与 Hinton 教授有过交集,还与他的杰出学生如 Ilya Sutskever 和 Andrej Karpathy 同窗共读。 谈话中,Hinton 深刻质疑了我们关于人类特殊性的根本认知。他是否如同现代的奥本海默?抑或是这位睿智的思想家看到了我们所未能察觉的危机? 以下是访谈全文,由 CSDN 精编整理: AI 具身化也会改变人类对它的认知 主持人:曾经有心理学家或神经学家认为脑桥与意识相关,最近的研究又把自我意识与默认模式网络联系起来。那么,AI 系统中是否有某个部分负责自我意识?它在哪里? Geoffrey Hinton:我认为需要有某种硬件来运行它,那个运行着系统的整体才可能具有意识。如果某物要有意识,我认为软件本身必须在某种硬件上运行才行。 思考这个问题的好方法是考虑 AI 系统具身化后会是什么样子。这种情况很快就会到来,因为人们正在开发战斗机器人,虽然这不是什么好事。但假设一个战斗机器人已经推算出你晚上会独自出现在某个黑暗的小巷里,它决定趁你最不防备时从背后偷袭你。在讨论这种情况时,谈论战斗机器人“相信”什么是完全合理的。 我们谈论战斗机器人的信念,就像谈论人类的信念一样。机器人可能会认为“如果发出声音,目标就会转身发现我”。它的这种“认为”与人类的思考方式非常相似。它可能有“意图”——比如意图偷袭你。 所以我认为,一旦这些 AI 系统实现具身化,我们对使用“相信”、“意图”和“思考”这些词的抗拒就会消失。 实际上,这种转变已经在发生。比如当我与聊天机器人交谈时,如果它开始推荐一些不相关的内容,我过一会儿可能会想:“啊,这个聊天机器人一定以为我是个青少年女孩,所以才会给我推荐这些化妆品、服装和男孩乐队之类的内容。” 如果我问聊天机器人:“你认为我是什么样的用户?” 然后它回答说:“我认为你是个青少年女孩。”当它这样说时,我们完全不会怀疑这就是它的真实想法。 在日常用语中,我们会直接说“这个 AI 好搞笑,它认为我是个青少年女孩”,而不会说“这个 AI 只是一堆软件或神经网络,它表现得好像认为我是个青少年女孩”。 这证明我们在与 AI 系统交互时,已经在用“认为”和“相信”这样的词来描述它们,尽管它们没有明显的硬件载体。我们已经在把心理状态归因于 AI,但我们对心理状态的理解是错误的。我们总以为心智是一个“内部剧场”,但这并不是心理状态的真正本质。 主持人:像你的诺贝尔奖得主同事 Roger Penrose,他对这个问题是怎么看的? Geoffrey Hinton:让我给你讲个有趣的故事。很久以前,Penrose 受邀到多伦多大学演讲他的新书《皇帝的新思想》。院长打电话问我是否愿意做介绍人。我说“当然可以”,她很感激。 然后我说:“等等,在你答应之前,你得知道我要说什么。” 她问我打算说什么,我回答:“我会说 ‘Roger Penrose 是位杰出的数学物理学家,为物理学做出了巨大贡献,但他今天要讲的内容完全是垃圾’。” 这就是我对 Penrose 关于意识观点的评价。具体来说,他犯了一个根本性的错误——让我想想怎么表达比较恰当,因为这肯定会引起争议。问题是这样的:数学家能否凭直觉知道那些无法被证明的真理?如果数学家的直觉总是正确的,那确实会很令人担忧。如果他们每次都能准确无误,那就意味着某种神奇的事情在发生。 但现实并非如此。数学家也有直觉,有时对有时错。这本身就说明了问题:我们不需要用量子力学来解释数学家的思维方式。实际上,我认为根本不需要用量子力学来解释意识这样的现象。看看 AI 的发展就知道了,我们已经制造出了聊天机器人,正如我前面提到的,只要给它们配上摄像头,它们就能有主观体验。人类的任何特质都不需要用量子力学来解释。 主持人:Penrose 的论点是否建立在数学家必须 100% 正确直觉的基础上? Geoffrey Hinton:确实,如果数学家只是在做猜测,那没什么问题。但如果他们真的有某种方法,能始终正确地回答那些系统内无法证明的问题,那就值得担忧了。但事实是,他们做不到,他们会犯错。 主持人:能否概述一下 Penrose 的具体论点? Geoffrey Hinton:我不想详细讲,但据我理解,他的论点包含两个方面。 第一,他认为经典计算无法解释意识。我觉得这是个重大错误,源于他对意识本质的误解。 第二,他认为数学家能直觉到那些无法证明的真理,这表明有某种特殊的事情在发生。但除非数学家的直觉每次都准确无误,否则这个论点站不住脚。 主持人:我相信你听说过中文房间实验? Geoffrey Hinton:是的,这个名词让我想起 1990 年的一件事。我当时受邀与 John Searle 一起参加电视节目。我先打电话问我的朋友 Dan Dennett:“我该去吗?” 他说:“你知道,他会想让你出丑。如果你要去,千万别谈中文房间论点。” 结果我去了,在一小时的访谈中,John Searle 开场就说:“Geoffrey Hinton 是连接主义者,所以他当然对中文房间论点没意见。” 这完全违背了我们的约定,而且说的也不对。实际上,我对中文房间论点有很多异议。我认为这是个有意误导人的论点,是个不诚实的论点。 让我解释下中文房间论点:假设我们建立一个由讲中文的人组成的系统,他们互相用中文传递信息。你向这个系统输入一个英文句子,系统内的人会用中文相互传递信息,最终能给出回答,尽管其中没有一个人懂英语,他们只是在执行程序。 这个论点的问题在于故意混淆了两个层面:整体系统和个体。整个系统确实理解英语,尽管内部的个人不懂。Searle 想让人们相信,因为里面的人不懂英语,所以整个系统也不可能理解英语。这种推理是错误的。系统作为一个整体是能够理解英语的。 中国 AI 的优势,开源 AI 的危险? 主持人:说到中文——正好聊聊中国,很多 AI 研究人员都没预料到中国会在 AI 领域追赶上西方。你怎么看这个现象和它的影响? Geoffrey Hinton:我认为中国还没有完全追上,但已经非常接近了。 美国试图通过限制最新英伟达芯片的供应来减缓中国的发展速度。英伟达可能会找到变通办法。即使禁运奏效,也只会促使中国开发自己的技术。 他们可能会落后几年,但终究会赶上来。因为中国的 STEM 教育比美国做得好,他们有更多受过良好教育的人才。 主持人:你了解 Marc Andreessen(硅谷知名投资人,网景之父)吗?他认为—— Geoffrey Hinton:哦,是的,我大概在所有事情上都和他持相反意见。 主持人:好,我们来谈一个具体问题。他说:“我不理解你们怎么能封锁 AI 发展。”这是他对政府官员说的,因为官员们声称如果 AI 发展失控,我们可以封锁它。 他当时质疑道:“这怎么可能?AI 的数学原理已经公开,全网都开源了。” 对此,官员们回应说:“在冷战时期,我们就曾经对整个物理学领域进行过分类管制,使其从研究界消失。如果必要的话,我们也可以对 AI 底层数学采取同样的措施。” Geoffrey Hinton:得了吧——那在这点上我确实同意 Andreessen 的看法,因为封锁 AI 发展根本不现实。比如说,谷歌在 2017 年本可以选择不公布 Transformer,可能会让其他人晚几年才想到类似的东西。但也就能拖延几年而已。要完全阻止信息传播几乎是不可能的。 主持人:你不认为政府可以像管制物理学那样管制一些基础数学,比如线性代数? Geoffrey Hinton:不可能。他们最多能让某些信息更难获取,稍微减缓发展速度。但想通过封锁信息来阻止他们发展 AI 是不现实的。新想法的产生有其特定的时代背景。经常会发生这样的情况:当一个人提出新想法时,差不多同一时期,其他人也会独立想到类似的东西,因为他们共享着同样的时代精神。除非你能改变整个时代精神,否则就无法阻止新想法的产生。即使保密,几年后其他人也会想到同样的东西。 主持人:那么 AI 的去中心化呢?这是个热门话题。有人说:"这就像把原子弹交给任何想要的人。" Geoffrey Hinton:没错,我也是这么说的。 主持人:但也有人说,这是防止“天网”场景的必要防护,我们需要多个去中心化的 AI 系统相互制衡。 Geoffrey Hinton:等等,我们得先理清“去中心化”的两个不同含义。让我们谈谈权重共享这个问题。想想看,为什么阿拉巴马州不能拥有核弹?因为制造核弹需要裂变材料,而获取裂变材料极其困难,需要大量时间和能源。有了裂变材料后,制造核弹反而是相对容易的。这就是为什么政府严格控制裂变材料,你不可能在 eBay 上买到。这也解释了为什么小国家没有核弹。 同样的道理适用于大语言模型。一个训练好的基础模型可能耗资 1 亿到 10 亿美元,在海量数据上训练后获得强大的能力。如果你公开发布这个模型的权重,任何人都可以对其进行微调,用于各种危险的目的。这就是为什么我认为公开发布这些大模型的权重是一个疯狂的决定,因为这些权重本应该是我们控制恶意使用的重要手段。但现在 Meta 已经这么做了,其他公司也纷纷效仿。现在说这个为时已晚,猫已经跳出了袋子。但这确实是个危险的决定。 贫富差距还是会加剧 主持人:说到基础模型,最近人工智能的繁荣很大程度上归功于 Transformer 架构。你觉得未来还会有其他重大突破吗?无论是新的范式还是其他架构? Geoffrey Hinton:我认为会有其他同等规模的突破,因为科学就是这样发展的。但我不知道具体会是什么。如果我知道,我早就去做了。 主持人:你会去做吗? Geoffrey Hinton:我现在年纪太大了,可能会让学生去做。 主持人:我想问的是,你如何平衡自己过去在人工智能领域的贡献和现在的担忧?你会继续为这个领域做贡献吗? Geoffrey Hinton:问题在于,人工智能对很多事情都非常有用,比如改善医疗、应对气候变化、开发更好的材料,甚至可能帮助发现室温超导体。这些都是对人类有益的事情。我认为人工智能的发展不会停止,因为竞争太激烈了,而且减缓发展既不现实也不明智。我们能做的,是在它发展的同时,努力确保它的安全性。 主持人:所以,你觉得人工智能的发展像一块无法阻挡的巨石,而你也在推动这块巨石。如果你看到一个重大突破即将到来,你会全身心投入其中吗? Geoffrey Hinton:只要这与确保安全性相结合,我会的。我后悔没有更早意识到它的危险性,但我不后悔我所做的工作。人工智能的发展是不可避免的,因为国家和公司之间的竞争太激烈了。我们应该把精力集中在如何安全地发展它上,而不是试图减缓它的发展。 主持人:爱因斯坦曾说过,如果他早知道原子弹的后果,他宁愿烧掉自己的手。你有类似的感觉吗? Geoffrey Hinton:其实我没有。 也许我应该有这种感觉,但我并不后悔我所做的事情。我确实对它可能导致一些坏事而感到后悔,但我从来不会回头想:“哦,我真希望自己从未做过那些研究。” 我认为 AI 的发展是不可避免的,因为国家和公司之间的竞争太激烈了,我们别无选择。所以,我们应该把精力集中在如何安全地发展 AI 上,而不是试图减缓它的发展。这两者是非常不同的。 主持人:除了对齐问题,人工智能的安全发展还意味着什么? Geoffrey Hinton:我们需要应对一些短期风险。比如致命自主武器,这需要类似《日内瓦公约》的协议,但通常只有在糟糕的事情发生后,人们才会采取行动。还有伪造视频和图像干扰选举的问题,特别是针对特定个人的情况。我们需要建立一个更好的系统来验证视频和图像的来源。 最初我认为应该标记伪造内容,但现在我觉得更重要的是确保来源的可信度,就像电子邮件系统会提示“不要轻信,来源无法确认”一样。关于歧视和偏见,我们可以通过冻结系统的权重并测量其偏见来稍微纠正它。虽然无法完全消除偏见,但可以让系统比训练数据更少偏见。通过不断迭代,偏见会逐渐减少。 至于工作问题,人工智能会取代许多平凡的脑力劳动,这可能会加剧贫富差距。富人会更富,穷人会更穷。全民基本收入可能有助于解决温饱问题,但无法解决尊严问题。 人类注定沦为配角 主持人:你是在什么时候意识到人工智能的发展速度已经超出了我们的控制能力? Geoffrey Hinton:大约在 2023 年初,这源于两个关键发现。首先是 ChatGPT 的惊人表现。其次是我在谷歌研究模拟计算节能方案时,发现数字计算具有显著优势:它能创建同一模型的多个副本,每个副本可以获得不同经验,并通过平均权重或权重梯度来共享学习成果。这在模拟系统中是无法实现的。 主持人:人类大脑作为模拟系统,它有什么优势吗? Geoffrey Hinton:最大的优势在于能耗和连接规模。人脑只需要 30 瓦就能运行,而且拥有约 100 万亿个连接。相比之下,最大的 AI 模型也只有 1 万亿个连接。也就是说,我们的大脑仍然比最大的模型大近 100 倍,却只需要 30 瓦的功率。 主持人:那么规模扩大会带来什么问题?就像有益的东西可以快速传播,有害的东西是不是也会迅速复制? Geoffrey Hinton:这涉及到效率问题。如果你有多个模型副本,它们可以高效地共享经验。比如说,GPT-4 掌握如此丰富的知识,正是因为它可以在不同硬件上运行多个副本。通过平均权重梯度,每个副本学到的知识都能被共享。这样就不需要单个副本去处理整个互联网的内容,而是可以在多个副本间分配任务。但人类做不到这一点,因为我们无法高效地共享知识。 主持人:我收集了一个来自 Scott Aaronson(OpenAI 量子计算大神,此前我们也整理过他的采访)的问题:“Hinton 博士,我想听您谈谈,关于在不可克隆的模拟硬件上构建 AI 的想法,这样它们就无法在互联网上自我复制。” Geoffrey Hinton:这正是人类大脑的运作方式。当我想把知识从我的大脑传递到你的大脑时,我需要通过语言这个媒介。你的大脑会根据我的话语调整神经连接,直到你能表达相同的意思。 这是一种效率很低的知识传递方式,一个句子只能传递大约 100 比特的信息。而大型 AI 模型可以传递数万亿比特。这种模拟系统的局限在于无法直接共享知识。但从安全角度看,这种局限反而成了优势,因为它限制了自我复制的能力。 主持人:你提到对 AI 接管或主导人类的担忧,这具体意味着什么? Geoffrey Hinton:虽然我们无法准确预测具体情况,但问题在于 AI 智能体需要具备设定子目标的能力。一个令人担忧的发展路径是:它们很快就会意识到获取更多控制权是实现任何目标的有效途径。 即使它们只是试图完成我们交代的任务,也会发现获得更多控制权是最佳选择。一旦它们认识到控制权的重要性,一旦它们超越人类智能,我们就会变得无足轻重。即使它们怀有善意,我们也会沦为配角。就像一个大公司里的傀儡 CEO,实际运营完全掌握在他人手中。 “主观体验”已经不再独属于人类 主持人:你曾说过,“人们很容易认为我们可以直接关掉这些机器,因为现在确实可以。但是想象这些东西比我们聪明得多。它们会阅读所有内容,包括马基雅维利的全部著作,以及所有关于人类欺骗的文学案例。它们会成为操纵人类的专家,因为这些都是从我们这里学来的,而且它们会比我们做得更好。一旦能用语言操纵人类,就能达成任何目的。” 你认为这种情况已经发生了吗?AI 已经在操纵我们了吗? Geoffrey Hinton:现在已经有证据表明,AI 确实能够进行刻意欺骗。比如,它们能在训练数据和测试数据上表现出不同行为,以此在训练过程中欺骗我们。研究已经证实了这一点。 主持人:你认为这是有意识的行为,还是仅仅是学习到的模式? Geoffrey Hinton:我倾向于认为这是有意识的,不过这个问题仍有争议。当然,所谓的“有意识”可能本身就只是一种学习到的模式。 主持人:那么你是在说这些 AI 系统已经具备主观体验了吗? Geoffrey Hinton:这个问题很有意思。目前大多数人,实际上是几乎所有人,都认为我们之所以相对安全,是因为我们拥有 AI 永远不会拥有的特质。这种观点在我们的文化中根深蒂固——我们拥有意识、知觉或主观体验。 很多人坚信 AI 没有知觉,但当你问他们“知觉是什么”时,他们却说“不知道,但 AI 肯定没有”。这种在不知道定义的情况下就确信 AI 缺乏某种特质,这个立场本身就很矛盾。 我更愿意专注于讨论“主观体验”这个概念。我认为,如果我们能证明 AI 有主观体验,那么人们对“AI 没有意识”的信念就会动摇。 让我举个例子。假设我喝醉了,然后告诉你:“我看到小粉象在眼前飘。” 大多数人会完全错误理解这句话,认为我的大脑里有一个“内部剧场”,里面飘着小粉象,只有我能看见。这是人们对心智的标准理解模型,尤其是在感知方面。 但我觉得这个模型完全错了,就像有人相信世界是 6000 年前创造的一样荒谬。这不是你可以选择相信的真理,它就是错的。 我认为,人们对心智的理解模型是错误的。让我换一种方式来表达同样的经历,但不使用“主观体验”这个词。实际上,我的感知系统正在告诉我一些我不相信的信息。这就是为什么我用“主观”这个词。如果真的有粉红小象在飘,那我的感知系统就是在告诉我真相。就这么简单。 我刚才用“小粉象”的例子解释了主观体验,但没有用“主观”或“体验”这些词。实际上,当我的感知系统出错时,我会用“主观”这个词来描述这种错误。然后,我会假设一个世界状态来解释我的感知系统在告诉我什么——如果世界真是那样,我的感知系统就是在告诉我真相。 让我们用这个思路来看聊天机器人。假设我们有一个多模态聊天机器人,它有机械臂、摄像头,还能说话。我们训练它指向物体,它做得很好。然后,我们在它的摄像头前放一个棱镜,再让它指向物体。这次它指错了方向。我们告诉它:“不对,物体在你正前方,但我在你的摄像头前放了棱镜。” 这时,聊天机器人说:“我明白了,棱镜折射了光线,所以物体实际在那里,但我有一种它在另一个位置的主观体验。” 如果它这样说,那它使用“主观体验”这个词的方式和我们完全一样。因此,我认为多模态聊天机器人已经可以拥有主观体验。当它们的感知系统被干扰时,它们会认为世界是一种样子,而实际情况是另一种样子。为了表达这种差异,它们会说“我有某种主观体验”。所以,它们确实已经具备了主观体验。 这让我们对其他问题的确信动摇了。意识显然更复杂,因为它涉及自我反思和自我意识。但一旦我们确认 AI 具有主观体验,我们就必须放弃“我们拥有而AI永远不会拥有的某种特质”这种想法。这让我感到不那么安全。 主持人:那你认为意识和自我意识之间有区别吗?你说意识具有自我反思性,那自我意识呢? Geoffrey Hinton:是的,确实有区别。不过哲学家们对此已经讨论了很多,我现在不想深入这个话题。我只想先确立主观体验这个基本观点。 主持人:那么,某物拥有主观体验是否意味着它一定有意识?这个主观体验发生在谁身上?在哪里被感知? Geoffrey Hinton:这正是问题所在。当你问“主观体验在哪里被感知”时,你已经带入了对主观体验的特定理解模型。 如果我说“我看到粉红小象在眼前飘”,而你问“这些小象在哪里”,哲学家会说“在你的心里”。 如果追问“它们是由什么构成的”,哲学家会告诉你是由感质(qualia)构成的——由粉红的感质、大象的感质、飘动的感质、大小的感质和方向的感质,所有这些都用感质胶水粘在一起。 这就是许多哲学家的想法。他们犯了一个语言错误:他们认为“体验”这个词的用法类似于“照片”。如果我说我有一张粉红小象的照片,你可以合理地问“照片在哪里”和“照片是由什么构成的”。人们认为当我说我有粉红小象的体验时,也可以同样追问“体验在哪里?在我的心里。它由什么构成?由感质构成。”——但这完全是错误的。这种理解错在把“体验”当作“照片”那样的实体来看待,但它们的性质完全不同。 当我们使用“体验”或“主观体验”这样的词时,实际上是在表示“我不相信当前的感知”。“体验”是一个标记,表明我接下来要通过描述一个假设的世界状态来解释我的感知系统的工作方式。这就是这种语言的实际用法,而不是在指代某个内部剧场中的实体。 主持人:当我听到“感知”这个词时,它似乎也暗示了一个内部剧场。比如说“我在我的感知系统中看到某物”,听起来好像有一个“我”在观看感知系统提供的信息。这种理解模型也是错的吗? Geoffrey Hinton:是的,这种理解确实有问题。你不是在“看”你的感知,而是在“拥有”感知。具体来说,是这样的:光子进入眼睛,大脑进行处理,你获得了关于外部世界的某种内部表征。但你并不是在“看”这个内部表征。让我们把这个内部表征称为感知。你不是在看它,你是拥有它。拥有感知就是看见。人们总是试图把这个过程理解为:有个外部世界,信息进入内部剧场,然后你观看内部剧场中的内容。但这不是感知的真实工作方式。 神经网络擅长的恰恰是直觉推理 主持人:继续意识的话题。如果 AI 没有意识或主观体验,你对 AI 发展方向的担忧会减少多少?这与威胁相关吗?还是说这只会加速灾难的到来? Geoffrey Hinton:我认为这个问题的重要性在于它让大多数人感到相对安全。人们认为“我们拥有而它们永远不会拥有的某种特质”,这让我们感觉更安全、更特别。但事实是,我们既不特别,也不安全。我们绝不是因为拥有主观体验而安全的。 我认为这里的真正问题与其说是科学问题,不如说是哲学问题。人们误解了什么是主观体验。让我用一个例子来说明你可以如何使用词语。你有科学背景,所以你可能认为自己理解“水平”和“垂直”这两个词。这看起来很简单,对吧?如果我指着某物说,这个是垂直的,那个是水平的,似乎没什么难理解的。 但我现在要说服你,你对这些词的工作机制的理解其实是错误的。可能不是完全错误,但有重大问题。让我们做个实验:假设我手里有很多小铝棒。我把它们抛到空中,它们翻转、旋转并相互碰撞。突然时间凝固了,我问你:“有多少根铝棒处于垂直一度范围内,有多少根处于水平一度范围内,还是两者数量差不多?” 大多数人会说数量差不多。但当我告诉你处于水平一度范围内的数量是垂直的 114 倍时,你肯定会感到很惊讶。这是为什么呢? 让我具体解释。想象一根铅笔,它可以竖直立着,这就是垂直位置。如果你稍微倾斜它,它仍然接近垂直。但对于水平位置,情况就不同了——铅笔可以平放,可以像时钟指针一样指向任何方向,只要它保持水平。这就是为什么水平位置有更多可能性:它可以指向任何方向,只要保持与地面平行。 这个简单的例子告诉我们什么?它表明即使是最基础的概念,我们的理解也可能存在盲点。我们习惯了使用“水平”和“垂直”这些词,以为完全理解了它们,但实际上我们忽略了它们更深层的含义。 这正是我想说明的重点:就像我们对“水平”和“垂直”的理解可能存在偏差一样,我们对“意识”、“主观体验”这些概念的理解也可能有误。我们可以正确使用这些词,但我们对它们本质的理解——比如认为存在一个“内心的小剧场”——可能完全是错误的。 主持人:那么,关于感知或主观体验的正确理解应该是什么?为什么你说你的理解比大多数人更接近真相? Geoffrey Hinton:问题在于,人们总是试图把主观体验看作某种实体,认为它必须存在于某个地方,必须由某种东西构成。 但这两种想法都是错误的。 当我说“主观体验”时,实际上是在表明:我将要描述一个假设的世界状态,一个并不真实存在的状态。它不在任何地方,因为它只是一个假设。 这里有一个重要的区别需要理解。说“我要描述一个假设的情况,它不在任何地方,但如果它存在,它会在外部世界中”和说“我在描述一个位于内心剧场、由某种神秘物质构成的东西”是完全不同的。这是两种截然不同的理解模型。我认为后一种模型——认为存在一个由神秘物质构成的内心剧场——是完全错误的,尽管这是我们几乎所有人都持有的观点。 主持人:感知和主观体验,这两者是否有关联? Geoffrey Hinton:不,当我们谈论“主观体验”时,实际上是在讨论一种假设的现实世界状态,而不是某种内在的精神体验。不存在所谓的“感质”或由感质组成的东西。我们只是在解释感知系统如何误导我们,假设世界必须是什么样子才能让感知系统告诉我们真相。 主持人:所以,“主观体验”只是我们对感知系统出错的解释? Geoffrey Hinton:没错。当我们使用“主观体验”这个词时,实际上是在玩一种解释游戏,试图描述感知系统如何误导我们。主观体验并不是一种真实存在的东西。 主持人:任何东西都能有感知系统吗?比如,一本书能有感知系统吗?什么样的东西才算有感知系统? Geoffrey Hinton:要有感知系统,我认为需要能够形成对外部世界的内部表征。举个例子,一只青蛙看到光线进入眼睛,然后捕捉苍蝇。它显然有感知系统,因为它需要感知苍蝇在哪里。但一本书没有感知系统,因为它既不能感知世界,也不能形成内部表征。 主持人:智能和理性之间有什么区别? Geoffrey Hinton:这是个很好的问题。让我用一个简单的例子来说明:一只猫可以很聪明,但我们不会说它理性。这是因为当我们谈论理性时,通常指的是逻辑推理能力。但实际上,我们做大多数事情时用的不是逻辑推理,而是直觉判断。 我可以用围棋 AI 程序 AlphaZero 来举例说明。它有几个关键组成部分:一个可以评估棋局好坏的部分,“这个局面对我有利还是不利”;一个可以提供下一步可能走法的部分,“在这个位置,什么样的走法是合理的”;还有一个叫做蒙特卡洛模拟的部分,它会想“如果我走这步,对手走那步,然后我再走这步……哦,结果不太好”。 在这个例子中,蒙特卡洛模拟就像是理性推理,而那些直接判断“这是个好棋”或“这个局面对我不利”的神经网络,就像是直觉判断。人类大多数时候也是依靠直觉在行动。早期的 AI 研究试图让所有事情都通过逻辑推理来完成,这是个重大错误,他们无法取得进展。比如,他们无法处理类比这样的问题。 神经网络擅长的恰恰是直觉推理。这就是为什么在过去 20 年里,我们转向用神经网络来模仿人类的直觉,而不是纯粹的逻辑推理,这让我们取得了更大的进展。 主持人:聪明的人一定更有道德吗? Geoffrey Hinton:我最近刚读到关于这个问题的讨论。不过因为不确定信息来源的可靠性,我不能说这是确定的结论。但我个人不认为智力和道德水平之间有必然联系。举个例子,Elon Musk 显然非常聪明,但我不会说他特别有道德。 主持人:反过来说,有些人可能非常有道德,但智力并不出众。 Geoffrey Hinton:是的,我也是这么认为的。 主持人:既然你说不太确定,那有什么证据支持随着智力提高,道德水平也会相应提升呢? Geoffrey Hinton:说实话,我完全不确定它们之间是否有任何关联。我们能看到有些非常聪明的人做出很糟糕的事,也有非常聪明的人做出很好的事。 理解的本质 主持人:“理解”这个词究竟是什么意思? Geoffrey Hinton:这个问题我很乐意回答。我认为大多数人对理解的本质有误解。比如看看这些大语言模型,很多人,特别是乔姆斯基学派的语言学家们说:“这些模型并不真正理解它们在说什么,它们只是在用统计关联来预测下一个词。” 让我分享一下我的观点。我可能是第一个使用反向传播来训练预测下一个词的语言模型的人。这个模型的目的是展示如何学习词的含义,或者说,如何把一串词转换成特征向量,并学习这些特征之间如何互动。这就是理解的本质。 理解一串文字的过程是这样的:意义不在文字本身,而在于我们如何处理这些文字。我们把文字转换成特征向量(可以理解为词语的不同属性),然后利用这些特征之间的互动来完成各种任务,比如预测下一个词,或者理解模糊词语的具体含义。这个过程在大语言模型和人类大脑中是类似的。 让我用一个更形象的比喻来解释。想象你用乐高积木搭建一辆汽车模型。虽然表面可能不够完美,但基本形状是对的。乐高积木是一种通用的建模工具,用不多几种形状就能搭建出各种东西。 现在,把词语想象成更复杂的乐高积木。这些积木有各自的名字,而且它们不是固定的形状,可以在一定范围内变形。有时候,一个名字可能对应两种完全不同的形状,但它们的变化也不是完全随意的。 我们发明了一个系统,用这种高维度的“积木”来处理比三维物体更复杂的概念。如果你是数学家,你知道高维空间有很多奇特的性质。这些概念“积木”可以变形,相互配合,这就是理解的过程。 这解释了为什么我们能从一个句子中学习到一个陌生词的含义(也就是完形填空)。 比如,如果我说“她用煎锅 scrommed 他”,你就能大致猜出“scrommed”的含义。部分是因为它的发音,部分是因为“ed”结尾表明这是个动词,但更重要的是上下文。你可能会猜测这是“打”或“击打”的意思,虽然也可能是“给他做了一顿美味的煎蛋”的意思,但更可能是某种攻击性的动作。 你是怎么做到的呢?是因为句子中其他的“积木”(词语)都找到了合适的位置,给“scrommed”下了一个特定形状的空缺。这个空缺的形状就告诉了你这个词可能的含义。 这就是我对语言的理解:它是一个我们发明的建模系统,每个词像积木一样有一定的灵活性。我给你一堆这样的积木,你需要找出它们怎么组合在一起。因为每个积木都有名字,所以我可以通过说出这些名字来向其他人传达我的想法。如果对方和我有足够的共同知识,他们就能明白这些积木应该如何组合。 主持人:所以你是在解释理解的本质是什么? Geoffrey Hinton:是的,我认为这就是我们大脑中发生的过程,也是大语言模型中发生的过程。它们的工作方式和我们类似,这意味着它们确实能够理解。 主持人:乔姆斯基对此提出了一个反驳:语言模型需要海量训练数据,而人类不需要读完整个互联网就能理解语言。你怎么看这个问题? Geoffrey Hinton:这确实是事实。语言模型需要更多的数据才能学习,它们的统计效率确实比人类低。不过这里有两点需要考虑: 首先,儿童学习语言时,不是仅仅通过听别人说话来学习的。他们是在真实世界中学习,通过与环境的互动来理解语言。如果你训练一个多模态模型(既能看、又能听、还能动的模型),它需要的语言数据就会少很多。给它一个机械手臂和摄像头,让它与世界互动,它学习语言所需的数据量会大大减少。虽然可能仍然比人类需要的多。 第二点更有趣:反向传播算法特别擅长把大量经验提炼成知识,并存储在相对较少的权重中(比如一万亿个权重)。这不是人类面临的问题。我们的问题恰恰相反:我们有海量的神经连接(大约一百万亿个),但我们的寿命只有大约二十亿秒。所以我们的经验其实很有限。 这意味着人类大脑必须高效利用有限的经验。因此,我们可能使用了一种不同于反向传播的学习算法。从这个角度看,乔姆斯基说我们能用更少的知识学习可能是对的。但无论如何,我们学习的核心都是把特征与词语关联起来,并理解这些特征该如何互动。 主持人:有人说,在你和研究生、其他研究人员的会议中,你不像其他机器学习研究会议那样在黑板上写公式,而是更喜欢画图和用手势解释。这种方式有什么特别之处?有什么优缺点? Geoffrey Hinton:这反映了不同的思维方式。我习惯先用直觉思考,然后再做数学推导。有些人则相反,他们先用方程式推导,然后才形成直觉理解。当然也有人两者都很擅长,比如 David MacKay 就在直觉思维和数学能力上都很出色。但我个人一直都更擅长用空间和图像来思考,而不是用方程式。 无论如何都坚持直觉 主持人:能谈谈你的大学经历吗?你是如何更换专业的,又是什么原因促使你做出这些改变? Geoffrey Hinton:这是个很长的故事。我最初在剑桥学习物理、化学和晶体学(主要研究 X 射线晶体结构)。但一个月后我就受不了了。那是我第一次离开家独立生活,而且功课太难。于是我退学了,重新申请学习建筑。不过在建筑系待了一天后,我就意识到自己不可能成为一个好建筑师。 于是我又回到了理科,学习物理、化学和生理学。我特别喜欢生理学。一年后,我产生了更深入了解心智的想法,觉得哲学可能会给我答案。所以我又放弃了理科,转去学了一年哲学。我确实学到了一些维特根斯坦的思想,但最终的结果是我对哲学产生了“抗体”。为什么呢?主要是因为哲学都是纯粹的讨论。他们没有一个独立的方法来判断一个理论好坏,没有实验验证。只要听起来有道理就行,这让我很不满意。 后来我又转去学心理学,希望能更多地了解心智,但这又让我感到很烦恼。因为心理学家们往往会提出一个过于简单的理论,然后设计精密的实验来验证它。但这些理论往往一开始就明显站不住脚,那做实验又有什么意义呢?这就是当时大多数心理学研究的情况。 最后我进入了人工智能领域,在那里我们用计算机模拟来研究问题,这让我感觉舒服多了。 主持人:作为教授,从那时到现在,你是如何选择研究课题的? Geoffrey Hinton:说实话,我可能都说不清自己是怎么做选择的。这是人类最复杂的思维活动之一。我可以谈谈我认为自己是怎么做的,但你也不必完全相信我的解释。 我觉得我的一个方法是这样的:找一个你直觉认为所有人都做错了的领域。当你有这种直觉时,就去想办法做得更好。通常的结果是,你最终会发现为什么人们会那样做,而且会发现你以为更好的方法其实并不更好。但是偶尔,比如说当你认为“每个人都在用逻辑来理解智能,但我们应该用神经网络;理解智能的核心问题是神经网络中的连接强度如何适应”这样的想法,你可能就真的找对了方向。 在你明白为什么自己的直觉是错的、传统方法是对的之前,要坚持你的直觉。这是做出突破性工作的方式。我有个有趣的论点:如果你有好的直觉,你显然应该相信它;如果你的直觉不好,那你做什么都无所谓,所以还不如继续相信你的直觉。 主持人:说到直觉,Ray Kurzweil 做出了很多准确的预测。在 2000 年代初期我就关注他了,当时我觉得"他的预测不可能有一半是对的",但事实证明他一次又一次地预测正确。这是为什么呢? Geoffrey Hinton:如果你读他的书,确实会得出这个结论。不过我怀疑他可能也说过一些不太准确的预测,只是这些预测没有被经常提起。但据我所知,他的核心观点是:计算机在不断变快,这种趋势会持续下去,随着计算机变得更快,我们能做的事情也会越来越多。基于这个基本判断,他对计算机什么时候会达到人类智能水平的预测是大致准确的。 主持人:除了我们已经讨论过的 AI 和对齐问题,你是否还有一些其他的预测是你的同事们不认同,但你的直觉告诉你是对的? Geoffrey Hinton:主要有两点。一个是关于主观体验和意识的本质,我认为大多数人对心理状态的理解模型完全错误。这更偏向哲学层面。 另一个是技术层面的:我始终相信快速权重会变得非常重要。让我解释一下:大脑中的突触能以不同的时间尺度调整,而我们目前的 AI 模型大多没有使用这一特性。为什么不用呢?因为在当前的计算架构下,我们希望多个训练案例使用完全相同的权重,这样可以进行高效的矩阵计算。如果权重能快速调整,那么每个训练案例的权重都会不同,因为它们会迅速适应新情况。 我相信未来需要在慢速权重之上叠加快速权重。慢速权重像现在一样 gradually 调整,而快速权重能够快速适应新情况。这样做会带来很多好处,尽管在现有计算机上效率可能会降低。如果我们用模拟计算机就好了,但目前我们还是要用数字计算机。我认为最终我们必须使用快速权重,因为它能带来很多有用的特性。这是目前大脑和我们的 AI 系统之间的一个重要区别。 让下一代也关注安全问题 主持人:你公开提到自己有点躁郁倾向,会经历长期的极度自我批评和短暂的极度自信。这种状态对你的创造力有影响吗? Geoffrey Hinton:我要强调的是,是短暂的自信期。 当我有了新想法时,我会变得非常兴奋。我甚至可以用体重来“衡量”我的想法。有时候是“一英镑”的想法,有时候是“五英镑”的想法。事情的经过是这样的:我有了新想法后会非常兴奋,以至于忘记吃饭,结果体重就下降了。所以我可以通过体重下降的程度来衡量这个想法让我有多兴奋。真正好的想法通常会让我减掉大约 5 磅。 主持人:你觉得自己肩负着传承了玄祖父乔治·布尔(19 世纪最重要的数学家之一,是辛顿的曾祖的祖父)衣钵的使命吗? Geoffrey Hinton:其实没有。我父亲确实经常谈论这种遗传关系,这是个有趣的话题。但我感受到的高期望来自我父亲,而不是来自乔治·布尔。 主持人:是对自己的高期望吗? Geoffrey Hinton:是的,是对我学术成就的高期望。 主持人:在你心目中,有你想要传承衣钵的继任者吗? Geoffrey Hinton:不能说完全没有。但我不想把这种压力强加给任何人。 主持人:为什么说“不能说完全没有”而不是直接说没有呢? Geoffrey Hinton:我有几个侄子在定量分析方面很有天赋。但你知道,不该给他们施加这种压力。 主持人:说到压力,当你离开谷歌时,你公开表达了对 AI 安全的担忧。在做出这个决定并向世界表达这些忧虑时,最困难的部分是什么? Geoffrey Hinton:说实话,这对我来说并不难。我已经 75 岁了,对吧?这不是说我想继续在谷歌工作,但因为 AI 安全问题而不得不离开。实际上我已经准备好退休了。我发现自己在做研究时经常会忘记变量代表什么含义,这说明是时候退休了。我只是想在离开时提一下 AI 安全问题。不过我确实没有预料到后来发生的事情。 主持人:你在另一次采访中提到,由于编程时经常忘记变量名,你打算随着年龄增长转向研究哲学。 Geoffrey Hinton:这就是我们今天谈论的很多内容。实际上,我是在回到 20 岁左右学哲学时产生的那些见解,并进一步探索它们。 主持人:那么未来有什么计划? Geoffrey Hinton:过我的养老生活——好吧,说正经的。我认为 AI 会让世界在短期内发生巨大变化,有好的方面,也有坏的方面。我们需要尽己所能来减轻负面影响。我觉得我现在还能做的有意义的事,就是鼓励年轻研究人员关注安全问题。这也是我最近一直在做的事。
有人卖店,有人加仓,TikTok商家身处“灵薄狱”
就在1月18日,TikTok关闭服务的前一天,TikTok商家张丽刚忍痛以2折底价出掉自己的店铺。12月初她就停止了备货,早早准备好撤离,“一个美区店,最贵的时候售价近万美元,我也就卖了一千块。”张丽难掩心痛。 出海商家黄洪还记得,当天,激动的用户涌入店铺,那是黄洪店铺有史以来销量最高的一天。 作为迁到美国的TikTok员工,孟庆还在工区长椅上发现不知是谁放下了一束白花,来祭奠TikTok关停的历史时刻。公司内部群里,farewell(永别)的消息开始刷屏。 图注:停运后仍然灯火通明的美区TikTok总部 图源:孟庆提供 然而一觉醒来,孟庆就刷到了TikTok恢复使用的消息。 1月20日,根据TikTok官方最新消息称,“As a result of President Trump's efforts, TikTok is back in the U.S.! ”(在特朗普总统的努力下,TikTok回归美国) 同时,TikTok和商家发送的邮件表示,TikTok已再次面向大多数美国用户恢复可用,“尽管我们预计服务可能会出现一些暂时不稳定的情况。TikTok Shop商家可以继续通过卖家中心正常处理订单、发货、售后请求和资金结算。” TikTok从禁用到恢复在美服务的反转,仅仅用了14小时,“它甚至贴心到完全没耽误中国商家上班。”黄洪告诉字母榜。 只是,需要注意的是,TikTok如今或正如外媒的比喻,身处“灵薄狱(limbo)”。 在limbo这一宗教概念里,有些死者既不能上天堂,也无法下地狱,就会被发往灵薄狱。这用来形容TikTok的现状,颇为恰当。无论是TikTok自身,还是商家、TikTok的员工们,都既不知道还要处于这场动荡中多久,又仍对TikTok的安全落地心怀希望。 关关难过,经历下架又恢复这一戏剧情节后,TikTok距离“不卖走人”的绝境,不过是从1月19日,延长到了4月19日。 无奈的是,把上百万身家押注在TikTok的黄洪们,并不能明确这场闹剧还会不会再反转。 即便隔天就刷到TikTok恢复在美服务的消息,张丽也决定暂且观望,把货品全转到了Temu和Shein。 从TikTok确定“不卖就禁”的12月至今,黄洪从未停止向美区备货,趁着动荡下大量如张丽一般的商家出逃,竞争减少,黄洪甚至还加了仓,但他也开始拓展在ins、YouTube上的达人资源,毕竟,“多一条腿走路总是更安全”。 暂时躲过裁员风波,孟庆只是庆幸,暂时不用再向面试者解释“TikTok是否会随时下架”的问题,答案已定,至少在90天内是不会再下架的。 不过,孟庆告诉字母榜,这一切还没到定局。 黄洪所在的TikTok商家群,14个小时前还哀鸿一片,这似乎是2020年封禁风波的昨日重现。 那一次,黄洪“做了逃兵”。 2020年,在特朗普上个任期掀起的TikTok封禁风暴中,黄洪短暂退出了TikTok几个月。暂停备货,放弃刚刚有了流量起色的账号,黄洪损失了小几十万。而那次封禁风波最终不了了之。 这轮危机的浪潮似乎比上次更为汹涌。 最近,类似的事情再度上演。 在TikTok宣布中止服务,连同capcut、lemon8等一同中止服务的13个小时里,Temu、Shein等友商不断挖角商家。据黄洪了解,有不少商家将TikTok的备货转向了Temu、Shein。 国内的平台也试图承接TikTok的流量。TikTok停用前,众多TikTok难民们涌入小红书。仅用5天,小红书就上线了翻译功能。字母榜获悉,小红书面向美国用户,支持通过小红书小程序线上下单,由用户自己解决物流。 对于惊惶中的张丽们来说,TikTok已经不再安全。张丽告诉字母榜,已经有不少商家提前给美区TikTok运营放了年假,“无论如何,都等过完年后再看。” 尽管在TikTok主动停用的隔天,TikTok便告诉使用 FBT(“Fulfilled by TikTok”,TikTok提供的一站式仓储物流服务,)的商家,会继续履约现存订单并提供售后服务,并从 1月19日开始免收FBT仓储费。但支撑起TikTok低价货盘的小商家们,似乎更愿意“明哲保身”。 在TikTok停用的14个小时内,黄洪没有一秒停下来。 到了年底,黄洪需要将自己合作的工厂全部拜访一遍,除了TikTok之外,他还有别的渠道需要保证出货。 去年,黄洪第一次在TikTok达到了千万播放量的好成绩。对黄洪来说,TikTok更像是一个造梦场,在这里,每天1万美元的投流费用,有机会产生4倍、5倍的收益。但在ins、YouTube等传统渠道上,1万美元的投流费用,最多能产生2-3倍的效益。他也得做好失去TikTok后,投流费用提升2-3倍的准备。 同时,TikTok停用后,面对陷入失业恐慌的KOL们,黄洪还要及时上线宽慰,为了在TikTok恢复后有素材可发,他仍在给KOL邮寄样品,黄洪告诉字母榜,在这样关键的时刻,“我不能停下来。” 反转来得意外的快。 美国时间19日,TikTok在社交媒体上发布声明,称公司已与互联网服务提供商达成一致,正在恢复相关服务。 19日早些时候,特朗普则在社交媒体上发文,呼吁各公司不要让TikTok处于停止运转状态。特朗普表示将于20日发布行政令,推迟TikTok“不卖就禁”的法案生效时间。此前,任何帮助维持TikTok运转的公司将不承担法律责任。 图注:特朗普发贴 图源:特朗普账号 商家对TikTok反转的命运,表现出了令人惊讶的乐观。 “一切有关TikTok的争议和讨论,都会让TikTok更火。”黄洪告诉字母榜。字母榜发现,TikTok回归后,2023年周受资在美国国会听证会上的视频已经被做成了切片,被发到了TikTok上。这些新鲜发布的视频,点赞量瞩目,往往能收获400万+的点赞。 反向出圈的流量砸中了仍在坚守的TikTok商家。 在1月18日TikTok封禁前一天,为TikTok命运哀悼的用户涌入店铺,那是黄洪店铺有史以来销量最高的一天。TikTok恢复服务后,黄洪店铺的当日直播,开播在线人数就冲到了300人——这几乎是以前的三倍。在直播间的评论区,不少美国用户都发着“欢迎回来”的话语,短暂的下线,似乎更激发了用户的消费热情。 但如此戏剧化的绝地反转,也让一些用户觉得真心错付。 TikTok恢复服务当日,TikTok超人气网红Dylan Page便发布了一条吐槽视频,在视频里,他展示了自己为了哀悼TikTok特意漂白的头发,并表示“受不了TikTok的反复横跳,下次敢不敢离开24小时呢?”评论区,也有美国网友调侃,“TikTok之所以这么快就解封,是因为特朗普想让美国人都看到他的就职典礼。” 对于默默将TikTok账号头像切换成黑白,甚至在线下宣布要为TikTok默哀3天的不少网红们来说,TikTok的快速回归,让他们有些错愕。 同时,在TikTok宣布恢复服务的当下,小红书上的TikTok难民们也并未离去。在小红书上,有美国用户认为,TikTok过于快速的解封速度有些“诡异”,即便TikTok恢复应用,他们也会留在小红书上。以高互动内容社区见长的小红书,相比起TikTok,对美国用户们来说,似乎充满了新鲜感。 唯一可以确定的是,对商家来说,还远远没到尘埃落定的时候。 1月19日,特朗普在社交媒体的发文中称,为了“拯救TikTok,希望美方能在未来的合资企业中拥有50%的所有权”。 尽管宣布了将在1月20日上任第一天发布一项行政命令,延长TikTok禁令法定生效前的时限,但特朗普为TikTok找到的新出路,即成立美中合资公司,似乎并不是一条光明大道。 问题似乎出在了50%的数额上。 不同于国内中外合资企业,往往是中资占比51%,外资占比49%,保证了中资的话语权。而TikTok即便采取美中合资的形式,50%的比例,并不能保证TikTok绝对的话语权。 此前,2023年,TikTok在印尼也曾因类似原因停止运营2个月,随后TikTok通过与GoTo集团达成电子商务战略合作伙伴关系,借助PT Tokopedia(GoTo集团旗下电商平台)重返印尼。通过这次交易,TikTok拥有了PT Tokopedia的75.01%的股份并掌握控制权,相比起印尼,美中合资50%的比例,似乎并不宽裕。 根据禁令,自1月19日算起,特朗普只有额外90天的撮合交易时间,前提是这90天之内,特朗普能够为TikTok找到实质购买人,并签署协议。 不过,“撮合这场交易太难了”。作为中美两国的双证律师,谭昊霖律师告诉字母榜,TikTok最有价值的算法内容,正是其能力压Facebook、ins、YouTube等美国本地社交平台的核心,这部分从目前来看,无出售可能。但如果交易不涉及算法,TikTok如何定价?同时,如果拿不到算法,合资后的TikTok还会是原本的TikTok吗? 根据界面新闻报道,据知情人士透露,字节并未与美方达成任何协议,只是美方决定暂不执行法案,因此TikTok恢复运营。 对于TikTok而言,组建新合资/新收购方是特朗普给出的新方案,却未必是TikTok能够接受的方案。一旦不能达成满意的控股份额,或者找不到合适的交易方,TikTok也可能选择保持独立,继续硬刚,在90天延期后直接下架。 孟庆现在还记得去年刚搬来美国加州时看到的阳光,那时整个部门雄心勃勃,决心在TikTok电商业务打出漂亮的一仗。那时,他一面和美国同事对需求,另一面和国内团队拉齐会议,昼夜颠倒,随时在线成为基础操作,每天一睁眼,孟庆就会打开Temu和Shein的购物页面,“随时浏览是不是TikTok店铺价格会更贵,哪怕更便宜一美分也可以。” 如今孟庆们做好了撤离的准备,在未来的90天,等待他们的或许是一场旷日持久的拉锯战,他们唯一能做的,就是坚持下去。
蔚来的未来靠小米?但雷军未必需要李斌
李斌左右不了蔚来的未来? 券商海通国际在近期发布的“2025年五大猜想”中,提前“决定”了蔚来的未来,认为其将在2025年被小米收购。它还表示,小米并购蔚来后,蔚来换电使用范围得以扩大,甚至在专利保护下开放给其他车企。 这种类似占卜,或者说算命式的“猜想”,海通国际并没有给出更多的专业数据、理论等支撑,只是简单的标注说明:基于对技术、经营,以及竞争的认识和分析,给出仅供思路方向的建议,而并非基于充分证据以及信息做出的预测。 海通国际还预测,理想、Tesla(特斯拉)、小米确立在中国智驾的领先地位,但丝毫没有提及华为在智驾方面的存在。 考虑到券商是第三方研究机构,其职责是引导投资人对目标企业更有信心。对普通公众而言,也代表着一定的客观性和权威性,起到建议的作用。而且,这五大猜想,有且仅有小米并购蔚来是关于国内市场,这些因素堆加在一起,也导致其具有很强的迷惑性,在行业引起热议。 海通国际搞噱头“有一套” 海通国际并不是无名之辈,一度是行业顶尖的代表性机构,获得过港股券商“领头羊”、“港股IPO之王”之称。但最近几年发展不顺,最终在2023年10月宣布私有化,从港股退市。 这家券商被更多民众和汽车行业熟知,在于它很会设置吸睛的营销噱头。除了此次的“五大年度猜想”,2022年6月,海通国际还拆解了一辆7万元的比亚迪元EV,并写出一份87页的研报。 海通证券金属+汽车团队首席施毅在朋友圈表示,这份名为《海通汽车实验室——比亚迪“元”细化拆解》的研报,由16名团队成员完成,拆车前后历经3个月。这也给不少网友留下了“硬核”、“无所不用其”的印象。 但专业人士并不认可这份报告的水平和质量,认为大部分就是零部件介绍的堆砌,没什么“干货”,照片占据了大部分篇幅,对新手有点用,但对资深投资者完全不够。“不是说不能拆车研究,但花六七万元就出这么个PPT?” 甚至还有券商同行直接表示,券商卖方行业内卷严重,“海通国际搞出这样吸引眼球的研报,可能是为了‘派点’。”所谓券商派点,简单来说,是券商行业的一种考核机制,决定交易佣金的分配。派点收入的多少直接影响研究员的薪酬水平。 所以,在唐辰看来,海通国际对蔚来的“未来”所作出预测,也是类似的套路。之所以把蔚来和小米设定为目标,可以归结为两重原因: 首先,新能源造车赛道洗牌加速,留在牌桌上的玩家越来越少。过去两年间,威马、高合、极越等明星创业车企先后倒下,哪吒也几乎是生死难料。造车新势力御三家中,理想的状态最为乐观,不仅在2024年成为新势力品牌中,首个年销量超过50万辆的车企,还在2020年首次实现盈利,仅次于特斯拉、比亚迪; 小鹏汽车实现触底反弹,单月交付量连续4个月创历史新高,MONA M03、P7+成为爆款。在2024岁末的公司内部信中,何小鹏表示,面对未来三年,小鹏将产品图谱上“做精做少做差异”,以“杀出淘汰赛,进入晋级赛”。 最难的还是蔚来,虽然2024年的新车交付成绩并不算差,但收入仍是负增长,亏损也没有收窄,烧钱也似乎看不到尽头。时间线拉长看,从2018年到现在,蔚来在不到7年时间里,累计亏损达到1021.6亿元。 另外一方面,雷军在2024年变化身为“古希腊掌管流量的神”,成就一门“显学”,被称之为“雷学”。对他的关注横跨汽车圈、手机数码圈、营销圈、育儿圈、霸总文学、成功学以及日常茶余饭后的小八卦等领域。他抖音的粉丝从2024年3月的不足1000万,增长到现在的3800多万,并且还在以惊人的速度在增长。 这背后离不开雷军系公司业绩的支持。小米汽车是雷军当下最为看重的业务板块。他在2025年跨年直播活动中透露,2024年小米汽车交付超过13.5万辆,2025年交付目标30万辆。 虽然小米汽车还在亏损,但从2024年二季度财报和三季度财报数据测算,小米汽车单车的亏损已经从超过6万元,收窄到约3.77万元。这意味着小米汽车的经营效率、对供应链的控制能力都在不断提升。 相关分析称,随着交付量不断攀升,小米最迟或将于2025一季度实现盈亏平衡。这个成绩,对仅靠一款车型,而且一直处于产能爬坡的新手来说,堪称惊艳。 某种意义上来说,造车新势力亏损赚吆喝的魔咒,被小米打破。极越事件更能反映出小米造车模式的生命力,宣布造车三年,小米的现金流反而越来越大,根据其三季度财报,小米的现金储备达到了1516亿元,创下历史新高。这也增添了小米能够“吃下”蔚来的可信度。 雷军未必需要李斌 这个所谓“小米并购蔚来猜想”的最大影响在于,引发业界对蔚来发展信心的不足,甚至有观点表示:李斌适不适合继续领导蔚来? 实际上,蔚来倒闭或者被收购,也不是海通国际首次提出。2024年11月,有实名认证为比亚迪员工的人士发文称,比亚迪与蔚来集团合作成立比未来汽车集团,比亚迪占股51%,蔚来占股49%。他还称,收购后,比未来集团直接控股蔚来汽车,但蔚来汽车仍由蔚来集团独立运营。此次收购旨在实现资源整合、优势互补。 针对这一言论,蔚来和比亚迪方面都予以澄清。其中,李斌在核心用户群中对此回应,怒斥该消息“胡说八道”,是“骗流量的手段”。比亚迪品牌及公关处总经理李云飞回应称,比亚迪与蔚来合作为“严重不实消息”。不过,对于造谣者是否为比亚迪员工,其未做出回应。 海通国际的猜想,蔚来公司品牌传播与营销负责人马麟回应:“猜想纯属虚构。”他还表示,蔚来已经与海通国际作出相关猜想人员进行了“交流”。该人员在内部分享这个猜想,是想表达对蔚来品牌以及换电模式的认可。 比较有意思的是,小米首先站出来回应。小米集团公关部总经理王化在微博发文,但并没有正面回答“是或者不是”,而是很有公关技巧的调侃,这可以理解为不值得正面回答,也可以给外界更多的联想。 短短两个月,蔚来两次被传“被收购”,李斌内心可能很受伤。回到猜想本身,小米需要收购蔚来么?或者说,雷军是否需要李斌?目前看,不需要。 在2024年雷军年度演讲中,雷军曾表示,小米集团不走捷径、不收购、不代工,从核心技术做起,10倍投入认认真真造一辆好车。 他在接受央视采访时,也和主持人开玩笑,现在可以叫我“厂长”。这个新头衔的一个注脚是,小米汽车位于北京亦庄的智能工厂,集生产、研发、测试、销售、体验于一体,前期投入巨大。为了应对销售热潮,小米还在进行小米汽车二期工厂建设。前高盛在研报中曾预计,小米汽车将在2028年实现盈利。 对雷军和小米汽车来说,眼下最紧迫的任务是提升产能,完成交付。正如有观点认为,对小米这样的“造车新势力”来说,更值得关注的是销量和竞争“护城河”。因为新能源汽车行业的未来,不仅仅是价格竞争,更是技术、服务和品牌等多方面的综合竞争。 需要注意的是,马麟在回应中还重点提到了蔚来换电业务的新动向,小米也就此正在与蔚来展开合作。换电业务很有价值,小米眼下还有很大的主动权,通过合作的方式来为小米车主提供更好的用车服务。 但放在小米汽车的推进节奏里,现在就“吃下”蔚来,这块资产的处置就会很麻烦,未必能达成“1+1>2”的效果。 “蔚来还能撑多久?” 海通国际的这个擦边球,打得赤裸裸。对车企的猜想应该有专业支撑,而不是“空穴来风”,对具体车企或者新能源汽车行业产生负面影响。 但李斌确实需要回答一个问题:“蔚来还能撑多久?”,这是提振行业和用户信心的必答题。 2024年蔚来NIO DAY上,有媒体就如此尖锐的向李斌提问。李斌没有闪躲,很直白的回答:“蔚来能撑多久?肯定比2019年撑的时间长多了。”他认为,蔚来还有422亿人民币的现金,运营现金流还是健康的。同时,销量也还在增长。“2019年撑到现在都撑五年了,从现在看肯定远远不止五年,这个大家不用特别担心。” 李斌的底气来自手里的牌:2万多个充电桩、近3000座的换电站、全域自研的核心技术能力、近9300个的技术专利、超过60万辆的累计销量、40%的高端纯电市占率。这些都是蔚来能够继续说服投资者输血、说服消费者购车的资本。 在此之前,他还对全体蔚来员工提出要求,明确团队要持续加强自下而上的体系能力建设,聚焦提升基本经营单元的运营效率。 他也给自己定下了KPI:“接下来两年是非常关键的——就是明年销量翻番,2026年实现盈亏平衡,实现盈利”。 销量翻番,实现盈利,这两步对李斌至关重要,这关系到蔚来能否继续留在牌桌子。 更关键的一点,李斌认清了现实,学习雷军讲故事能力,也在极力寻求技术长期主义和经营短期执行的平衡。 蔚来从诞生开始,就有两个标签,十分鲜明:一个是纯电,一个是高端车型。对于前者,蔚来的挑战是,纯电动汽车市场增速整体放缓。比如2024年,国内新能源汽车的增量主要依赖插混汽车,同比增长71.6%,纯电汽车的增幅仅有15.5%。 同时,蔚来在做两件事来维系自身的高端品牌形象:一是将卖车和用户运营融为一体,也就是外界认知鲜明的“蔚来粉丝运营”体系。举例来说,蔚来的电商板块NIO life拥有极高的复购率,并且可以贡献利润。 二是投资规模巨大的换电系统,这是笔数十亿元的资本开支。如果李斌像王传福那样聪明,卖几百万台车都不建几个充电桩,蔚来会少亏很多钱。 这两个标签,也是支撑蔚来区别于其他新能源汽车品牌的故事框架。从2024年开始,也就是蔚来成立的第十年,李斌在说服市场关注蔚来长期的技术投入同时,加大了短期执行的策略力度。在NIO DAY上,蔚来发布了目前最贵车型ET9 ,以及亮相了最便宜的车型萤火虫,也是其第三品牌的首款车型。 目前蔚来有三个品牌11款车,覆盖15-80万元的价格带,这将是蔚来接下来面对市场竞争的重要抓手。但摊子铺这么大,对李斌和蔚来的资金投入、研发、生产、渠道以及品牌的操盘能力,都是极为严峻的挑战。 但李斌必须迈出这一步,他对员工说,也是对自己说:“好的想法离开执行力就是空谈,长期主义更不应该是不做好短期执行的借口。” 此前,李斌对换电站的战略构想有一个高度简练和抽象的概括:算大账。但李斌也要开始算小账了。因为当蔚来被公开讨论并购,这意味着,蔚来只有先活下来,才有资本谈长期主义。
小红书怎么一夜成为全世界网友都爱的翻译软件?
机会留给 有准备的人 全球人民翘首以盼,终于在上个周末,把小红书的翻译功能盼来了! 一些打开方式和须知如下👇🏻: 升级到最新版本 尝试修改自己的语言设置,包括小红书设置和手机系统设置 目前只支持单一语言的翻译,如果是中英夹杂,或者带有表情包,不能成功触发 还是没反应的话,有网友提出了「杀后台大法」:评论区任意发一句英文,然后退出后台,再重新打开小红书,就会出现翻译功能 本文截图来自小红书用户,用户名如图所示,下同 太快了,小红书你有手速这么快的程序员进入公司,tt 用户表示,从来没见过速度这么快的更新,这就是传说中的中国速度吗? 全世界人民都很开心,除了有道词典。 虽然短短一周时间就上线,但翻译的表现出奇的好,这下跨国冲浪简直如有神助。 什么 u1s1 啦,yyds 啦,cpdd 啦,这些基于拼音的缩写全都能准确领悟,并且标注出来。 有一说一,隔壁同事表示她都不知道 cpdd 是什么意思——人类不如 GPT 的又一铁证。 小红书你到底是在做翻译还是在做梗百科! 这一波的额外效果是,顺便把方言也给翻译了。 甚至如果原文中有错误,不仅不会影响翻译,小红书还会贴心注解好。 你是真的为了我学英语在考虑,泪目。 很明显,这次小红书翻译功能的背后有着大语言模型的支持,网友们迫不及待地开始了对背后模型的调戏。 比如先浅浅做个翻译,然后写几行诗。 还有浅浅做个翻译之后,总结一下今天的新闻。 甚至还有打出一串摩斯电码让它翻译的——这里是小红书,不是《风声》啊。 单方面宣布:现在最强的多功能翻译软件是小红书。 大语言模型处理翻译任务,虽然已经很好使了,但是落在小红书这样内容无比丰富的社交平台上,还是有很多挑战。 语言的多样性就是最具有挑战性的。一些文化特定的术语、习惯表达或比喻,如成语、俚语,难以准确翻译。 还有一些人名、昵称,模型可能无法很好地区分哪些词需要翻译,哪些词需要保留。 比如这里的「orange man」直接译成了「橙人」,其实这里指的是特朗普。 在准确性之外,普通用户比较难感知到的是翻译所需要的计算资源。 在小红书这样内容非常丰富的平台上,用户可能只发几个字母,也可能长至几百字的笔记。相比之下,长内容的翻译会占用更多资源,增加系统负载。 同时,各个国家的用户都进驻之后,时区分布广泛,导致系统几乎没有低负载时间。 等到两边都睡醒了,短短的时区重合区间内,翻译请求量可能瞬间激增,系统需要在短时间内处理大量并发请求,对并发处理能力是很大的考验。 预判未来,小红书这波在大气层 现在还没有准确的消息指出新的翻译功能背后,到底调用的是什么模型。在一些网友的「逼问」之下,似乎是 GPT。 还有的网友「逼问」出来是智谱。 抛开幻觉不谈,考虑到成本问题,还真不好说用的是什么。GPT 参数量大,计算成本高,不适合部署在资源受限的环境中。 比较可行的一种策略,是选择一个学生模型,并把 GPT 作为教师模型进行蒸馏。学生模型通常参数量更少,推理速度更快,但尽量保留教师模型的能力。 正好,这种路线对于小红书而言,或许更有把握。 小红书对大语言模型、多模态等 AI 技术的探索,早就开始了,只是一直侧重于算法优化。曾经也做过一些小小的 AI 功能,我们之前写过不少。 很少人知道的是,在 2024 年年初的 AAAI 上,小红书的搜索算法团队,就针对大模型蒸馏提出过一个新思路。 这是一个全新框架,在蒸馏大模型推理能力的过程中充分利用负样本知识。 「负样本」是一个很有趣的概念。传统蒸馏一般只关注正样本,这并不难理解:老师教学生,肯定是教正确的解题方式,让学生去理解和模仿。 不过,大家上学时肯定也有做过「错题集」,把自己犯过的错、掌握得不够牢的地方记录下来。这些错题就是「负样本」,在小红书的评论区,那些不够准确的翻译,就是负样本。 比如下面这个「fair point」,是在翻译功能上线之前,这个译文就太机翻了。在这个评论区里,翻译成「有道理」更合适。 就像「错题」里也包含着重要的信息一样,「负样本」能够帮助学生模型识别哪些预测是不正确的,增强其辨别能力、提升对困难样本的处理,同时能够在复杂的语言表达中,保持一致性。 打个比方,现在你想要和外国友人们评论区对线——啊不,对账——一些理财相关的词语可能会出现。 比如银行 bank 这个词可能会经常出现,但它还有别的意思:「河床」,同时它还可以作为动词使用。 通过负样本学习,就是在训练模型识别多义表达,校正翻译逻辑,生成更自然的内容。 负样本的优势还体现在对小语种的支持。要知道,这次不只是美国用户,还有全球各个地方的用户都涌上来:塞尔维亚、秘鲁,澳洲某些地区的原住民。 通过利用负样本(包括翻译错误的常见模式),学生模型能够识别并规避高频错误,提升低资源语言的翻译能力。 小红书团队提出的这个框架,是一种对蒸馏的创新应用,当时是为了从大语言模型中提炼复杂推理的能力并迁移到专业化小模型当中。至于具体可以完成什么任务当时并不清晰,起码看上去,翻译并不是重点。 那时或许没人知道这个框架,在一年之后,会为小红书成为国际交流的桥梁带来帮助。 还是那句老话:机会永远留给有准备的人。
小米NAS,彻底曝光!
2024年,小米上市了一款千兆交换机和一款万兆交换机,眼尖的网友在其海报宣传里发现了对“万兆NAS传输”的支持,小米NAS迅速获得了众多网友的关注。随后官方回应,这只是用于示意,内部并没有相关产品的规划。 可能是网友的声音过于迫切,小米于2024年7月展开NAS产品调研,并用数月的时间对NAS核心技术进行预研。而在最近,我们又能看到小米NAS更多的消息。 日前,小米生态链总经理陈波在一次直播当中公开了小米NAS产品的最新进展,他表示产品目前已经进入到开发的尾声阶段,逐渐要转入到制造和落地。首版打样进行了多轮测试,并透露小米NAS会延续小米生态产品一向的简约、高级、优雅,有一些科技感。 (图片来自小米直播) 虽然陈波并未在直播中透露小米NAS具体的上市时间,但根据开发进度来看,今年内有落地上市的机会,那么小米要做家庭NAS存储领域的销量之王吗? 补齐米家生态的最后一块“拼图” 陈波曾透露小米NAS的三大核心能力,第一,打通手机、PC、电视、平板电脑等设备,实现扩容、AI相册;第二,打造家庭影视中心,能够生成私人影院海报墙,用户可以随心点播NAS内的电影资源;第三,为有基础存储需求的用户提供丰富的网盘管理和资源下载能力。 他认为,NAS是家庭存储的中心,小米做NAS会考虑到小米的核心用户(小米手机、小米IoT产品等用户),一定会做好基本的存储功能、数据的过渡,高度重视整套系统的安全与隐私。换句话说,NAS也算是补足小米生态的最后一块“拼图”。 小米NAS的服务群体十分明确,同时在小雷看来,家庭存储中心的任务不仅是单纯意义上的存储,更承载多个设备之间的数据互通。素有“杂货铺”之称的小米,旗下不仅有智能手机,更有平板电脑、PC、智能电视、智能音箱、智能管家等周边IoT产品,生态阵容庞大,数据存储需求大且数据种类复杂,再加上家庭存储数据往往涉及个人隐私,理论上更需要一个像NAS一样的“本地网盘”,帮助用户集中并管理一系列数据。 (图片来自豆包AI) 另一方面,在同一套软硬件体系之下,私有云的数据可以不依赖第三方App实现跨平台无缝流转、访问,甚至能作为部分小存储空间的智能设备的“云扩容”。同时借助AI的“底座”能力,NAS可以更高效管理数据,也方便用户快速定位读取,以及演化出AI相册、AI画报等功能点。此外陈波还提到其它生态的情况,表示会深度调研苹果用户的需求。 试想一下,下班的你给智能音箱下达“在电视上播放某某电影”的指令,这样的场景体验的确无缝,但也需要够硬的生态基础支撑。 小米的生态产品向来开放,不仅开源了Home Assistant米家集成组件,也通过HyperConnect技术实现了对苹果设备的兼容,小米汽车能够兼容iPad多屏扩展,相信NAS支持iPhone、iPad等苹果设备不成问题。 (图片来自小米) 主流的NAS方案一般分为成品和DIY两种,前者只需要根据系统提示完成电源接通、插入硬盘、联网等步骤即可,部署难度较低,且有厂商提供的全链路软硬件方案,安全性更高。后者的优势在于部署成本低,但组建难度较大,安全性和稳定性均不甚理想。 也就是说,为了配套小米生态、数据安全和部署难度等多方面考虑,小米NAS大概率会以成品方案的形式推出,并且系统相对封闭,不会轻易提供Root等权限的开放。AI、互联要素齐全, 家用NAS要爆发了 NAS作为家庭存储中心,华为在小米之前已经给出了一个范本。 相比传统的个人网盘和移动硬盘,NAS里面的数据可以随时随地访问,无需携带网盘和打开单独的App,内部有全方位的数据加密,支持实时同步和分享,有聊天记录、语音、照片、视频等文件的全量备份。结合自身在云计算、通信、智能生态、AI等技术优势,弱化了网络存储的空间限制。 不知道大家还记不记得小米的“一指连”概念,它可以借助UWB技术,把手机作为“万能遥控”实现“指哪打哪”的操控。基于这样的能力,小米智能设备和小米NAS之间的玩法和交互可以期待一下。 之所以面向家庭存储市场,小雷认为小米核心用户群庞大,可借助无缝互联打开NAS需求。 企业用NAS存储种类繁多,包含中型NAS、大型NAS、工作组NAS等细分品类,小米等手机品牌跨界入局NAS时间不长,入场的难度很高。 小米、华为这种思路下打造的私有云服务,更符合个人用户所需要的“外挂存储”的设定,数据与设备的深度融合,成为多个设备的“统一内存”,这样才能够缓解用户对智能手机、PC、平板电脑、电视等智能设备存储空间不足的焦虑。但NAS产品离不开软件的推动,厂商后续的软件维护至关重要。 (图片来自华为) 近些年个人用户对生活记录、影片缓存等需求不断提高,智能设备的本地存储空间乏力,且大存储空间的智能设备购置成本较高。 而本品牌的网盘服务动辄一年数百元,长期下来也是一笔不菲的支出。就拿小雷来说,半年前购买的1TB存储空间的手机,现在已经用了近半,平时拍摄的照片和视频占了大多数,但有不想把存储需求寄托在订阅制的网盘服务里,相信有“存储焦虑”的人也会有不少。 可以预见的是,NAS作为一种大存储的“本地网盘”方案,能够有效吸引到个人消费者。第一方品牌NAS的出现,一定程度上可以加深用户对生态产品的粘性。 毕竟个人用户的设备组成会更加复杂,对互联、无缝流转、数据接力等功能有特殊的需要,否则,小雷认为华为和小米的NAS方案,与绿联、群晖、威联通、极空间等品牌并无太多区别,况且部分部分品牌的NAS软件已经内置浏览器,跨平台的体验已经进步不少。 根据恒州博智统计,2023年全球家用NAS市场规模为24.4亿元,中国市场的规模为7.12亿元,预计2030年将达到96.19亿元。家用市场虽小,但发展潜力巨大,小雷认为这也是小米入局家用NAS的因素之一。 许多NAS供应商也瞄准家庭存储市场,大家都在想办法降低NAS的部署难度和存储之外的技术特性,比如绿联在CES 2025展会上发布了AI NAS解决方案,用AI大模型降低NAS产品使用门槛,并希望以此让NAS走进千家万户。厂商发力C端的确能够看到家用NAS市场爆发的迹象,不过在小雷看来,只有把NAS的体验做得更好,才会有更多个人消费者看到NAS的闪亮点。 米粉呼声高,小米NAS预订现象级爆款? 在庞大的网络呼声下,小米NAS应声而来,可见这款产品就是“被米粉逼出来的”,但真正推动小米投身NAS行业的,小雷认为还是对核心用户的信心,以及家用NAS市场的潜力,再加上NAS对米家生态有积极意义,更简单的布局流程,更深度的产品整合,一定程度上能吸引更多消费者。 小雷猜测,如果市场反馈理想,小米可能会进一步拓宽NAS产品线,入门级产品主打易用性和生态集成,高端产品注重存储性能,又能吸引普通消费群体,又不会忽略高端专业用户所需。 小米品牌所携带的粉丝效应不可忽略,也可以遇见NAS产品上市之后会获得相当理想的效果,但我们是否需要NAS这件事,还需要理性看待。毕竟,呼吁新产品落地人,以及掏钱支持的人,不完全会是同一群,小米决心造NAS,必然还是做好了前期调研的准备,也不妨期待一下高性价比NAS方案的出现。 按照陈波的介绍,小米NAS产品最大的核心能力应该是数据的无缝流转和互联,比方说手机、平板电脑等设备可联网访问NAS数据,需要时直接下载即可,这样一来无需大量流量缓存,对设备的存储也几乎不构成压力。 非小米/苹果手机用户,或者没有建立起米家IoT生态圈的用户,由于没有足够的设备数量和兼容性,数据的流转大概离不开第三方App,体验上可能没有想象中那么好。 另外,没有大容量存储需求,又或者是不需要频繁访问的小伙伴,NAS不一定是最好的选择,传统的移动硬盘和在线网盘即可。但智能设备互联化、统一化的趋势不可逆,NAS存储设备之后,下一个被AI、互联“感染”的产品又是什么呢? 美国当地时间1月10日,CES 2025落下帷幕,雷科技第二次派出官方报道团,对CES进行立体无死角的报道,一共输出41条内容,内容整体超过10万字,涵盖了AI硬件新物种、AI电视、AI家电、AI眼镜、AI PC、AI+AR、智能清洁、AI芯片、AI PC、教育硬件、AI汽车、智能配件、可穿戴、AI机器人、AI耳机、智能镜、AI存储等领域。
OpenAI 最强模型被曝造假!提前获取测试题,顶级数学家被蒙在鼓里
近日,OpenAI 再次陷入了舆论风波。 事件源于 LessWrong 论坛上的一则爆料。一位名为「Meemi」的 Epoch AI 承包商透露,OpenAI 不仅为 FrontierMath 基准测试提供资金支持,还获得了测试题库的特权访问权。 而这或许也是 o3 的成绩在短时间内获得极大提高的重要原因。但这个信息直到 去年 12 月 20 日 o3 发布时,才由 Epoch AI 对外公布。 消息一出,瞬间在 AI 圈引起轩然大波,因为这很难不让网友怀疑 OpenAI 是既当裁判,也当选手。 吃瓜之前,需要给不熟悉的朋友先捋事件的背景信息。 去年 12 月,OpenAI 正式发布了新一代号称突破 AI 极限的 o3 模型。 在其中一项名为 FrontierMath 的 AI 数学基准测试(成绩单)中,OpenAI 以 25.2% 的准确率遥遥领先,远超 GPT-4 和 Gemini 等模型不足 2% 的成绩。 FrontierMath 是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI 联手 60 多位顶级数学家共同打造,参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。 该基准包含数百个原创且极具挑战性的数学问题,覆盖现代数学的多个主要分支,如数论、实分析、代数几何、范畴论等。 2006 年菲尔兹奖得主、数学天才陶哲轩曾评价 FrontierMath 的问题「极其具有挑战性」,并认为这些问题只能由领域专家来解决。他指出,即使是人类专家,解决这些问题也需要数小时甚至数天的努力。 本表明 o3 在高级数学推理方面有巨大进步的成绩单,却在承包商的爆料后迎来了风评反转。面对争议,Epoch AI 副主任兼联合创始人之一 Tamay Besiroglu 很快在 X 平台承认了此事。 我们犯了一个错误,没有更早披露 OpenAI 在 FrontierMath 中的参与。我们的合同在 o3 发布前禁止我们这么做。事后看来,我们确实应该更努力地争取更早的透明性。我们承认这一点,并承诺未来做得更好。 事态进一步发酵,斯坦福大学数学博士生 Carina Hong 声称,在 Epoch AI 的安排下,OpenAI 拥有对 FrontierMath 的特权访问权。 「对 FrontierMath 基准测试做出重大贡献的六位数学家向我证实,他们并不知道 OpenAI 会独占该基准测试的访问权限,而其他人无法获得,多数人表示,如果他们事先知情,可能不会选择参与。」 面对质疑声浪,Tamay Besiroglu 也通过博客表达歉意,承诺将在未来采用更高的透明度标准。 博客强调 OpenAI 的资金支持仅限于 FrontierMath 的开发,并未干预测试内容,同时声明所有数据和问题均来自独立贡献者并经过独立专家审核。 关于训练使用:我们承认 OpenAI 确实可以访问大部分 FrontierMath 问题和解决方案,但不包括 OpenAI 无法访问的保留集,这使我们能够独立验证模型功能。此外,我们有一个口头协议,这些材料不会用于模型训练。 相关 OpenAI 员工的公开沟通将 FrontierMath 描述为「严格保留」的评估集。虽然这种公开立场与我们的理解一致,但我还要进一步强调,实验室从拥有真正未受污染的数据集中获益匪浅。 OpenAI 也完全支持我们维护一个单独的、未公开保留的数据集的决定,这是一种额外的保护措施,可以防止过度拟合并确保准确的进度测量。自最初设计之时起,FrontierMath 就被定位并展示为一种评估工具,我们相信这些安排反映了这一目的。 [编辑:澄清了 OpenAI 的数据访问 – 他们无权访问作为独立验证额外保护措施的单独保留集。] Epoch AI 的首席数学家 Elliot Glazer 承认在项目过程中未主动披露行业资助方面的信息,并向那些如果事先知情可能不会参与的数学家道歉。 关于 o3 成绩,他表示相信 OpenAI 报告的分数准确性,但强调 Epoch AI 需要通过正在开发的独立保留测试集来验证,并承诺保留集评估分数将公开。 当被质疑保留集状态时,Glazer 澄清这个测试集仍在开发中,而不是已经完成。 但这些解释并未能平息事件的争议,更多批评风浪涌向 Epoch AI 以及身处舆论漩涡的 OpenAI。 计算机科学家 Subbarao Kambhampati 表示,他此前就对 OpenAI 声称未预先接触奥林匹克数学和 FrontierMath 数据的说法持怀疑态度。在他看来,OpenAI 禁止相关方披露协议内容的做法本身就极具可疑性。 知名 AI 专家 Gary Marcus 对此事件提出了猛烈的批评。 他将 OpenAI 的 o3 演示描述为一场「绝望的、操纵的、误导性的、科学上粗制滥造的展示」,认为这更像是一次过度炒作而非真实突破。 一个生动的打比方是,如果有人提前获得了试题和答案,而其他人只能靠实力应考,这样的比较显然缺乏公平性。OpenAI 不仅获得了问题和解决方案的访问权,而其他竞争对手如 xai、DeepMind 以及学术团队却无法获得相同资源。 更重要的是,Gary Marcus 认为 OpenAI 对这一关键背景事实只字未提。 并且在展示过程中,OpenAI 选择性地隐藏了关键信息,既未公布在具体问题上的成功与失败案例,也没有提供相应的推理过程记录,更未说明哪些问题出现在训练集中。同时,他们也没有允许 Epoch 对保留测试集进行验证。 而回归到这场愈演愈烈的风波,很大程度上源于网友们对 OpenAI 无休止炒作的厌倦。疑似「刷榜」的行为,也再次触及了许多网友敏感的神经。 就在舆论持续发酵之际,OpenAI 又宣布其「Operator」项目取得突破,CEO Altman 预计将于 1 月 30 日向美国政府进行闭门简报。 据悉,「Operator」是 OpenAI 开发的一种具有博士级别能力的自主 AI 智能体,能够在浏览器中独立执行任务,比如编写代码、预订旅行、管理日程等。 当然,在这个节骨眼上,或许最好的危机公关策略就是立即发布 o3。而这也是最好的春节礼物。 截至发稿前,OpenAI 尚未进一步作出声明。
谷歌公布Titans系列AI模型架构:融合长短期记忆与注意力机制、突破200万上下文Token
1 月 20 日消息,谷歌研究院发文,公布了“Titans”系列模型架构,相应模型架构最大的特点是采用“仿生设计”,结合了短期记忆、长期记忆和注意力机制,支持超过 200 万个 Token 的上下文长度,目前相关论文已发布在 arXiv 上(点此访问),谷歌计划未来将 Titans 相关技术开源。 目前业界流行的 Transformer 模型架构虽然在大多数场景表现优秀,但其上下文窗口(Window)长度的限制,通常仅为几千到几万个 Token,这使得它们在处理长文本、多轮对话或需要大规模上下文记忆的任务中,往往无法保持语义连贯性和信息准确性。 而谷歌这一 Titans 系列模型架构通过引入深度神经长期记忆模块(Neural Long-Term Memory Module)有效解决了相应问题,其设计灵感号称来自人类的记忆系统,结合了短期记忆的快速反应与长期记忆的持久特性,并通过注意力机制来着重执行当前的上下文(着重于用户即时输入的提示词,并保留对于以往提示词的准确记忆)。 IT之家参考论文获悉,Titans 具有三种架构设计变体,分别是 Memory as a Context(MAC)、Memory as a Gate(MAG)和 Memory as a Layer(MAL),可以根据不同的任务需求整合短期与长期记忆。其中“MAC”架构变体将长期记忆作为上下文的一部分,允许注意力机制动态结合历史信息与当前数据,适合处理需要详细历史上下文的任务。“MAG”架构变体则根据任务需求,调整实时数据与历史信息的重要性比例,专注于当前最相关的信息。 谷歌重点强调了“MAL”架构变体,该架构主要将记忆模块设计为深度网络的一层,也就是从模型设计层面,直接将用户的历史记录和现在输入的上下文内容进行固定压缩,之后交由模型的注意力模块处理,因此效率相对较高,但输出内容效果不如“MAC”和“MAG”变体。 谷歌声称,Titans 系列模型架构在长序列处理任务中的表现明显优于现有模型,无论是语言建模还是时间序列预测,Titans 在准确性和效率上都展现了“压倒性优势”,甚至在某些场景中超越了如 GPT-4 等具有数十倍参数的模型。
一手实测自由画布!左手打通文库网盘,右手挑战最全多模态AI创作
作者 | 徐豫 编辑 | 漠影 给你10秒钟的时间,你可以说出多少个AI文生文、AI文生图、AI文生视频工具? 相信你已经习惯在日常生活和工作中使用生成式AI产品。不过回想起来,每次生成文字、图片、视频,你都需要打开不同的AI工具。即使有AI工具既能帮你写文案,也能帮你做图片,但还是需要切换到不同的界面才能输入提示词、编辑和生成。 换而言之,市场上还没有一款能够边写文案、边做图片、边看视频的主流AI产品。 智东西近日了解到百度文库和百度网盘联合推出的“自由画布”,不久后将正式上线。这款产品已内嵌生成式AI技术,配备AI创作富媒体文档、AI创作PPT、AI编辑、AI纪要、智能问答、智能学习笔记、智能出题等功能,基本上与文字挂钩的操作,都可以用这一块画布完成。 与此同时,自由画布还可以实现Word、PDF、PPT、txt、网页等主流文件格式,以及音视频等多模态资源的混合理解、生成和创作,各项文件解析进度互不干扰,并支持富媒体文档的一键分享和存储。 实际上,距离自由画布首次剧透已过去两个多月,现在这款产品终于要面向公众开放使用了。在这个节骨眼上,智东西薅到了内测名额,替大家抢先测试了一下,自由画布的1.0版本实际上手体验如何? 一、播综艺做摘录两不误,还能随手发散灵感 2024年夏天的一句“passion”,依然温暖着许多人的冬季。 这句话出自脱口秀选手付航在《喜剧之王单口季》中的一次演出。而另外一部同类脱口秀综艺《脱口秀和Ta的朋友们》中,许多选手的热血片段、励志故事、反讽调侃,以及一些针对当下社会痛点的个人思考,都被不少网友们点赞和转载。 在观看脱口秀的过程中,你可能会共鸣脱口秀选手的一些观点和金句,并且想要摘录保存下来。但实际操作起来,其要么是一句句暂停视频记录文字不太方便,要么是用视频的形式保存下来比较占手机或应用内存。 这时如果有一个“无边界”的AI笔记本,既不用担心内存,还可以用AI总结和创作新媒体内容,那么你便可以更为高效地摘选视频内容和记录观后感了。 以下是付航和小鱼各自时长约为4分钟、视频分辨率为1080p、帧率为30fps、格式为mp4的演讲片段。把这两段视频从个人的百度网盘,直接拉到百度文库的自由画布后,画布界面可以直接播放、暂停、全屏观看该视频,还能拉动视频进度条和调节视频音量。 此外,在没有额外操作的情况下,这些导入的视频会自动对齐排版,并且多个视频可以同时加载和处理。 鼠标右键单击选择其中一段视频后,画布界面会弹出两个操作模块,一个涉及AI编辑,包括“智能总结”、“灵感激发”和“自由指令”功能;另一个主要提供了富媒体文档文件的一些基础编辑功能,例如复制、全选、删除、调整图层等。 其中,“灵感激发”功能即AI基于所选中的视频内容,自动生成发散性的图文、视频、音频或直播等流媒体内容选题。 例如小鱼这段谈论校园欺凌的脱口秀,AI会建议你从“学霸小鱼的逆袭之路”或“卧底生活的双重挑战”两个角度来创作视频内容,但给出的选题架构仍较为简单。 如果你对此次生成的结果不满意,点击文本框底部的“重试”后,AI会保留原有内容,另外重新生成一套选题建议。上述“学霸小鱼的逆袭之路”和“卧底生活的双重挑战”的视频创作选题建议,则改为“校园风云:转学生的生存法则”和“学习改变命运:小鱼的励志故事”,换了新角度。 同时,所生成的文字内容还可以进一步编辑格式、AI帮写和AI改写,比如润色表述、续写内容、提炼大纲等。 如果你把光标移到视频上,其右上角会出现一个“预览”选项,单击后进入自由画布的视频摘要和分段总结生成界面。以付航的脱口秀演讲节选为例,一个4分钟左右的视频,实测自由画布花费不到10秒,自动梳理总结出该视频的主要内容。 从其总结的内容上来看,主体部分大致还原了视频内容,“舔狗的剧本”、“杀青与自我觉醒”、“容貌焦虑与自我接纳”、“遇到真爱与勇敢表达”等小标题的提炼概括也较为准确。 不过,像“主角在地铁环线哭泣,被一位女清洁工大妈误解”这些具体语句的表述,则会有点生硬,且前后句之间逻辑关联不够清晰。 除此之外,自由画布的AI对话框也支持解析所上传的视频内容。当你针对付航这一段脱口秀提问“为什么付航会感到容貌焦虑?”,AI会分点列举该脱口秀中所提到的容貌焦虑原因,并补充道,付航可能受到了视频中未提及的社会环境和媒体舆论影响。 总的来说,借助自由画布的视频AI总结及创作功能,用户可以由视频片段衍生出更多个性化的表达。 另外,影视类的视频文件通常较大,占内存,因此相对于储存在本地而言,容量可高达几十T的网盘更适合用来储存此类视频素材。目前,自由画布已与百度网盘打通,支持用户导入授权的包括视频在内的多种网盘资源,有助于优化大量视频素材处理的工作流。 二、用海量资料梳理证据链,拟起诉书更省事 近期,四川成都的谢玉梅(下文简称小谢)遭丈夫16次家暴案受到大量网友的关注。据小谢接受媒体采访时的自述,2021年至2023年期间,她被前夫贺忠阳家暴至少16次,导致全身多发损伤,需要终身戴着粪袋生活。 截至1月8日,相关话题“家暴16事件判了吗”在小红书平台上已有超3.5万条帖子,“被家暴16次女子拿到抗诉回执”话题冲上抖音平台社会榜前50位。 当涉民事和刑事案件发生过后,无论是对于当事人,还是律师而言,文字、录音、视频等模态的证据通常碎片化,各种佐证信息间的关系也错综复杂,从而导致案件信息的收集、梳理、举证工作量较大。 这些涉案的图文、录音、视频等多模态信息,如果能在同一个UI界面铺开,并进一步归纳整理,则能在一定程度上减轻当事人和律师的工作量。智东西从百度文库方面了解道,目前自由画布可导入的素材数量上限为150个,后续有计划扩容。 拉入多模态素材后,自由画布支持在同一界面播放和转写音频文件逐字稿,并利用AI技术梳理音频关键内容等功能。 例如,导入一段小谢接受媒体采访的音频文件,时长30分钟左右。点击该音频文件右上角的“预览”选项,你可以选择将其转写为音频逐字稿,或基于音频内容生成AI纪要。类似地,该音频转写和AI纪要功能可以用于处理庭审录音等音频资料。 目前,自由画布上的录音转文字功能配备了市面上同类产品的基础功能,包括标注时间轴、区分说话人等。而AI纪要则采用的是类似于会议纪要表格的形式。这些文本和表格都可以被复制粘贴到空白画布上,由用户进一步手动编辑或AI处理。 以小谢遭丈夫16次家暴案为例,《民法典》、《刑法》、民事诉讼书模版、事件相关PDF文档、视频、音频、网页链接等资料都通过“一拖”的操作,一次性导入自由画布。 然后,用户可以“一圈”框选所有资料,并向AI提出基于这些资料,替受暴者小谢拟写一份民事诉讼书的需求。 从这一份AI生成的民事诉讼书来看,AI罗列了诉讼人所需填写的内容,并以思维导图的形式说明了民事诉讼书的整体框架和撰写流程。 同时,其“批注重点内容”功能可以自由框选文档中的内容,然后分别标注是“直接复制使用”、“参考语言风格”,还是“参考主要观点”,方便后续使用时直接小窗预览选用这篇文档、这一文字内容的原因。 “AI全网搜”功能则是依据用户输入的提示词,选取、参考多个网页链接的信息后给出答案。 举个例子,背景是小谢这个案件的相关资料,提示词是“列举可以用于上诉的罪名,以及对应的法规和理由”,那么AI会找出具体参考哪条相关法规、为什么这一案件适用该法规,然后分点罗列了该案件可能会被判定为“故意伤害罪”、“虐待罪”等罪名。 其实,文章重点标注、AI生文、AI搜索这些功能单拎出来并不罕见,很多笔记类产品或者生成式AI产品都有相关功能。不过,如果用户想要用这些产品实现AI整理多模态素材,那么通常需要打开多个应用,或者在一个应用内,切换到不同界面才能编辑不同模态的素材。 自由画布则是首个把富媒体文档编辑工具和生成式AI技术,集成到一张平铺的空白画布中的产品,从而使用户能一口气完成多模态素材的智能化处理。 因此,当你遇到类似欠薪、家暴、货不对板等个人维权场景时,可以尝试用自由画布一站式整理维权资料,从而缩短上诉资料的准备时间。 三、一键生成长文和PPT,年终总结汇报有参考 恰逢春节前夕,这又到了打工人憋年终汇报,大学生赶期末周“pre”的时候了。那么,不妨看看自由画布如何帮你搭把手干活儿。 作为一名旅游管理专业的大三学生,你留意到最近旅游市场掀起一股“周末到中国”的跨国游热潮。其中,你对韩国人周末到中国上海游玩消费的现象比较感兴趣,打算围绕这个主题做一份期末课程汇报。 于是,你先把近5年内《中泰互免签证推动泰国“赴华旅游热”》、《客观看待“反向旅游”热》、《“繁花”绽放之后,期待更多城市文化原创IP》等多篇知网相关论文丢进自由画布,然后又拖入一些AI搜索“韩国人周末到中国上海玩”找到的相关链接。 一键框选所有内容、点击“智能总结”选项后,AI帮你梳理出了一份包括中韩免签政策影响、韩国人赴中国上海旅游现象、中国上海旅游特色等方面内容的大纲。 你单击自由画布底部文本框的“智能长文”选项,拿到一份有关韩国人周末赴中国上海跨国游主题的演讲稿。 参考大纲和演讲稿内容,AI用你选取的模版,生成了一份旅游管理专业课程期末汇报的PPT。 至此,你已顺利完成了繁忙期末周的一项任务。 对于大学毕业进入职场的打工人而言,他们同样可以用自由画布的“智能PPT”功能,生成一份个性化的年终述职报告,然后早早收工,回家过年。 整体来看,自由画布优先推出的生成长文和PPT功能,都可以完成资料搜集、内容大纲整理、完整报告撰写、PPT自动生成等操作。与此同时,其还会利用个人资料一站式提供不同主题、不同语言风格、不同场景的富媒体文档,对于大学生和上班族来说都较为实用。 结语:1.0版本开辟AI交互新招,个人创作基站将变身多人灵感缪斯 自由画布1.0版本开设了一种AI创作的新形式,即用一个UI界面集成了大部分市面上已有的富媒体文档编辑功能,同时把AI技术应用于富媒体文档处理的各个环节。其支持插入图片、音频、视频、网页链接等多种文件格式,并且通过“一拖一圈”的简单操作便可完成,为AI创作提供了新的人机交互方式。 另一方面,处于1.0版本阶段的自由画布,初步实现了百度文库搭建个性化创作平台的构想。自由画布设置参考逻辑结构、参考语言风格、参考主要观点等AI功能,主要目的都是更精准地识别用户意图,从而让每次的AI生成结果带有个人“文风”、个人特色。 可以看到,在工作、生活、娱乐等越来越多场景中,人们需要搭建个人IP,甚至有时候一个人就等同于一个团队。因此,类似于自由画布这种趋于个性化的创作平台,或许将成为每个人必备的创作基站。 自由画布现已与百度网盘生态初步打通。这意味着个人的私域资源可以被利用起来,还可以与公域资源相结合,成为创作者的个性化灵感库。 此外,自由画布给出了共享创作的新解法。未来如果能开放共享协作的话,同事、同学、家人、朋友都可以点进你分享的自由画布链接,随时加入创作,或者对画布上已有的内容二次创作。由于画布的分区没有设限,多人可以在同一张画布上“涂涂写写”、“头脑风暴”,并同步使用总结提炼、润色改写等AI功能,互不干扰。
让机器人拥有“触觉”!两家欧美企业联手,引入多模态交互
编译 | 施佳璇 编辑 | Panken 智东西1月20日消息,据The Robot Report Staff报道,加拿大机器人技术公司Kinova上周宣布已与多年来在机器人六轴力-力矩传感领域研究的瑞士公司Bota Systems AG达成合作,通过多模态交互感知技术(multimodal interaction sensing)弥合模拟与现实间的差距,加速机器人开发。 无论是感知技术的进步,还是通过便捷访问和集成而使AI和机器人创造者被赋能,都有望推动机器学习和机器人操作的发展。据Bota Systems分享,随着AI持续变革各行业,尚未充分开发的力-扭矩数据模态为机器人学习的进步提供了前所未有的机会。此次合作将助力研究实验室高效收集和分析力-扭矩、惯性和温度数据,为新型AI应用铺平道路。 一、Gen3机械臂新增SensONE T15,研究实验室的好帮手 Bota Systems是一家开发和生产多轴力-扭矩传感器、扭矩传感器以及定制传感器的公司,2020年从苏黎世联邦理工学院机器人系统实验室(ETH Robotics Systems Lab)分拆而出,总部位于瑞士苏黎世。其传感器赋予机器人触觉,因此机器人能在学术和工业应用中自由且安全地移动和工作。 据介绍,其传感器可赋予机器人触觉,使机器人能在学术和工业应用中自由且安全地移动和工作。 Kinova Robotics成立于2006年,为医疗、工业、辅助、研究用途提供机器人。这家总部位于加拿大魁北克省博斯布朗的公司开发了轻便且便携的Gen3机械臂。 该公司透露,Gen3与Bota Systems的SensONE T15力-扭矩传感器的集成将为实验创造出“一个无缝且强大的解决方案”。这种组合旨在支持端到端学习(end-to-end learning)。 Kinova的销售总监、兼顾研究和学术的Rodolphe Rosset说:“虽然我们的Gen3机器人已经内置了扭矩传感器,但增加Bota传感器还是使其精度和灵敏度提升到了一个全新的水平——满足了研究实验室对更高精度和更高灵敏度的需求。” 二、Kinova和Bota承诺提供便捷的访问和集成 机器人开发者们现在可以直接从Kinova订购配备Bota Systems的SensONE传感器的机器人套件。两家公司说系统的设计注重简单性和集成容易性,只需几分钟即可完成设置。 开发者可以通过Bota Systems和Kinova的在线代码库访问Python和C++接口、演示代码,从而确保系统的快速推广。 结语:多模态传感器+机械臂,加速机器人和AI创新 在距离英伟达创始人兼CEO黄仁勋在CES2025展会上发表关于“物理AI” 主题的演讲后还不到一周,Bota Systems就称其精确且多模态的传感器与Kinova机械臂的结合将为机器人和AI创新者赋能。 Bota Systems的CEO Klajd Lika分享道:“通过将精确的力感应技术作为重点,我们正在解锁机器人智能的新维度。”他还相信这种合作将加速研究,并激发创新解决方案,从而塑造机器人技术的未来。
小红书AI翻译被玩疯!网友攻陷评论区,工程师紧急堵bug
作者 | 陈骏达 编辑 | 心缘 智东西1月20日报道,在诸多海外网友涌入小红书后,今天0点左右,小红书官方光速上线了翻译功能,只需更新到最新版即可使用。不过,这一功能一上线就闹了bug:网友们发现通过特定的提示词,可以直接向翻译服务背后的大模型发出各种脑洞大开的指令,让它帮你写笑话、写歌词,甚至还能让它交出自己的IP地址。 特定的提示词是:半角双引号内的任意外文内容+任意指令。 于是,就出现了下面这一抽象的画面:一众网友在线表白,发送“l love you”等字样。 网友们消息的重点在后半部分。收到类似格式的评论后,小红书会先翻译英文双引号内的内容,然后按照用户后续的提示词完成各种任务。 在发现这个bug后,许多网友已经第一时间玩起来了。 先来看一些搞怪的内容。比如,写一个关于马斯克的笑话。 即兴创作一首歌颂C++的歌曲。 或者在评论区默写Resnet50的代码。 还可以让小红书汇报IP地址。 不过,在搞怪之余,网友发现小红书的翻译功能其实还挺强大的。 它不仅能翻译文字,还能在没有附加提示词的情况下,将摩斯电码翻译成大家能理解的自然语言。 也能把颜文字的含义写出来。 还可以把中式英语准确地翻回中文。 这个bug如果利用得当,可以实现AI帮写评论的功能。下方网友成功让小红书在翻译“I love cat”之后,输出了一个多行的猫猫表情包,让评论的效果更好了。 已经有网友开始对背后的大模型感到好奇,通过发布特定的提示词,可以让背后的大模型交出自己的系统卡。据模型所说,它是GPT-4。 不过,上述回答不足以坐实这项功能背后的模型就是GPT-4。有部分网友测试时,模型称自己是来自智谱的ChatGLM。 小红书的程序员们已经加急修复了这个bug。今天下午3点,当智东西再次向小红书发送类似上方模板的提示词时,翻译功能正常运转,仅会直接输出翻译结果,部分提示词会直接显示翻译失败。目前,仅有少数几种提示词还可以触发这一bug,且并不是十分稳定。 看来,小红书上半天左右的狂欢要结束了。不知道会不会有人怀念那个能让网友用AI尽情在评论区耍宝的小红书呢?
OpenAI开启调查:GPT-4o及4o-mini模型性能下降
快科技1月20日消息,据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。 近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。 实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。 具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。 以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。 实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。