行业分类:
加载中...
头条分类:
加载中...
央行:9月末社会融资规模存量为372.5万亿元,同比增长9%
经济观察网讯 据人民银行网站10月13日消息,人民银行发布2023年9月社会融资规模存量统计数据报告。 初步统计,9月末社会融资规模存量为372.5万亿元,同比增长9%。其中,对实体经济发放的人民币贷款余额为232.78万亿元,同比增长10.7%;对实体经济发放的外币贷款折合人民币余额为1.76万亿元,同比下降19.3%;委托贷款余额为11.36万亿元,同比增长1.3%;信托贷款余额为3.81万亿元,同比下降1.4%;未贴现的银行承兑汇票余额为2.91万亿元,同比下降0.3%;企业债券余额为31.39万亿元,同比下降0.3%;政府债券余额为66.14万亿元,同比增长12.2%;非金融企业境内股票余额为11.31万亿元,同比增长9.4%。 从结构看,9月末对实体经济发放的人民币贷款余额占同期社会融资规模存量的62.5%,同比高1个百分点;对实体经济发放的外币贷款折合人民币余额占比0.5%,同比低0.1个百分点;委托贷款余额占比3%,同比低0.3个百分点;信托贷款余额占比1%,同比低0.1个百分点;未贴现的银行承兑汇票余额占比0.8%,同比低0.1个百分点;企业债券余额占比8.4%,同比低0.8个百分点;政府债券余额占比17.8%,同比高0.5个百分点;非金融企业境内股票余额占比3%,同比持平。 注1:社会融资规模存量是指一定时期末(月末、季末或年末)实体经济从金融体系获得的资金余额。数据来源于中国人民银行、国家金融监督管理总局、中国证券监督管理委员会、中央国债登记结算有限责任公司、银行间市场交易商协会等部门。 注2:自2023年1月起,人民银行将消费金融公司、理财公司和金融资产投资公司等三类银行业非存款类金融机构纳入金融统计范围。由此,对社会融资规模中“实体经济发放的人民币贷款”和“贷款核销”数据进行调整。2023年1月末,上述三类机构对实体经济发放的人民币贷款余额8410亿元,当月增加57亿元;贷款核销余额1706亿元,当月增加30亿元。文中数据均按可比口径计算。
消息称Meta花3655万元购买一明星形象,只为打造人工智能助理
原标题:消息称Meta花500万美元购买一明星形象,只为打造人工智能助理 IT之家 10 月 15 日消息,据 The Information 报道,Meta 公司为了打造人工智能助理,向一位名人支付了高达 500 万美元(IT之家备注:当前约 3655 万元人民币)的费用,只为了使用他的形象和声音。据悉,这位名人只在工作室里工作六个小时,就获得了 500 美元的报酬,合同为期两年。 Meta 公司的创始人马克・扎克伯格在上个月的 Connect 活动中展示了这些人工智能助理,这些助理有 28 个不同的个性,均使用了名人的形象。 例如,模特 Kendall Jenner 的形象被用于 Billie,她被描绘成一个大姐姐,给用户提供建议。职业美式橄榄球运动员 Tom Brady 则扮演 Bru,这一个用于辩论体育话题的聊天机器人。 Meta 公司还邀请了一些知名的创作者,比如 YouTube 上订阅量最高的个人 MrBeast,以及 TikTok 上的明星 Charli D’Amelio。 The Information 报道称,Meta 公司最初愿意支付超过 100 万美元来使用明星的形象,但对于大牌明星,他们出价更高。报道没有透露哪个名人获得了 500 万美元,但称其为顶级创作者。 目前,这些人工智能助理只能进行文字交流,但 Meta 公司的宣传视频中展示了说话的片段。 在接受《The Verge》杂志采访时,扎克伯格称制作名人的人工智能版本有“巨大的需求”。但他表示出于品牌安全考虑,这“更多是明年的事情”,因为名人希望确保他们的形象不会被用来发表有问题的言论。
长城确认魏牌CEO离职,空降上任仅8个月
传闻还是成真了。 才上任8个月的魏牌CEO陈思英,官宣离职。 魏牌成立7年,已经是第7次更换高管。 魏牌领头人再次出现空缺。 陈思英官宣离职 消息来自陈思英的个人微博。 今年1月底,陈思英入职魏牌。在这8个月期间,他参与了蓝山、新摩卡和高山三款车的上市工作。 他在微博感谢了魏牌的团队,还有一路走来关注他的粉丝。 他也提到了为什么这时离职:因为一些家庭原因,同时又对没法见证高山上市感到可惜。 而在消息发出后,长城多位高管也表示了惜别。 长城总裁穆峰对陈思英的付出表示了感谢。 长城首席增长官李瑞峰更是单独发博,对陈思英的离开表示遗憾。 看起来是一场好聚好散。 陈思英是谁 先简单介绍一下陈思英。 在汽车行业拥有超过20年履历,2001年入职南京菲亚特,后在南京名爵、上汽乘用车、北京汽车等多个销售公司供职。 2018年,陈思英成为观致汽车副总裁及销售公司总经理;2019年,陈思英又入职领克,成为销售公司副总经理,负责市场和营销。 不难发现,在品牌营销方面,陈思英拥有丰富的经验,能力水平也有佐证。 就拿在领克的这一段职业经历来说,在陈思英入职前,领克年销量为12.04万;而在他入职后,领克销量实现持续增长,2021年销量达到22.05万辆,虽然2022年销量略有下跌,但也保持在18.01万。 可能是在帮助高端品牌领克销量增长方面的成功经验,今年1月,陈思英来到长城,出任长城高端品牌——魏牌CEO和坦克品牌营销总经理,向李瑞峰汇报。 并且,成为魏牌CEO后负责的产品中,已经上市的产品市场反应也都不错。 6座混动SUV魏牌蓝山,27.38万起售,上市5天后拿下5000张大定订单,上市首个完整月销量达5136台,目前累计销量已经超过2.4万。 大5座混动SUV新摩卡,用23.18万的价格在预定期间,7天订单就破万。 这也能从侧面反映出,陈思英的离职,基本能排除品牌销量问题。 而魏牌这艘大船,掌舵者再次空缺。 魏牌高端之路效果如何 从名字就能看出长城汽车对魏牌的期待。 一开始魏牌也没有辜负,彼时的魏牌还叫WEY,推出的VV7、VV5、VV6三款爆款车型,成功改变合资品牌长期垄断15-20万SUV市场的局面。 2017年,魏牌销量8.6万辆,2018年直接上涨到13.9万辆,同比大涨61.6%。 但后来,魏牌销量就开始下滑,2019年-2022年,魏牌年销量分别为10万,7.85万,5.83万和3.64万。 但长城对魏牌一直在大量投入资源。 人力方面,魏牌最初有前宝马设计总监皮埃尔担任首席设计师,前奥迪高管严思担任CEO;长城资深高管李瑞峰、长城曾经“三号人物”胡树杰、豪华车资深经理人柳燕,坦克CEO刘艳钊,还有陈思英,都曾是魏牌的掌舵者。 技术方面,长城三大技术品牌:柠檬、坦克和咖啡智能,在魏牌车型上应用尽用,而且经常首发。 比如柠檬混动DHT,首搭车型就是魏牌的玛奇朵;坦克原来也是魏牌的系列车型;咖啡智能1.0首款落地产品则是魏牌摩卡。 包括后来在智能驾驶能力方面,长城孵化的毫末智行研发的智能辅助驾驶系统,首搭车型也是魏牌摩卡;毫末智行最新一代智能辅助驾驶系统HPilot 3.0,首发车型还是魏牌新摩卡,还有蓝山。 人力、技术、车,长城在魏牌上倾注了很多心血毋庸置疑,而这些资源,却没有反映到销量成绩上。 魏牌成立的第7个年头,更换的第7任高管又走了。 长城魏牌,继续呼唤英雄。
字节跳动李航:对语言大模型的若干观察和思考
本文阐述笔者对 LLM 的一些看法,主要观点如下: ChatGPT 的突破主要在于规模带来的质变和模型调教方式的发明。 LLM 融合了实现人工智能的三条路径。 LLM 的开发需要结合第三者体验和第一者体验。 LLM 能近似生成心智语言。 LLM 需要与多模态大模型结合,以产生对世界的认识。 LLM 本身不具备逻辑推理能力,需要在其基础上增加推理能力。 1. LLM 强大之所在 1.1 LLM 的主要突破 ChatGPT 和 GPT4 为代表的 LLM 有以下主要手段 [1][2]。 模型:Transformer 拥有强大的表示能力,能对具有组合性(compositinality)的语言进行很好的表示和学习。 预训练(pre-training):使用大规模文本数据进行语言建模(language modeling),学习进行的是数据压缩,也就是单词序列的生成概率最大化或预测误差最小化。 监督微调 SFT(supervised fine tunning):学习的是输入到输出的映射,X→Y, 或者是输入到输出的映射及产出过程 X, C_1⋯,C_n→Y,学习到模型的基本行为。这里,C_1⋯,C_n 代表思维链。 基于人类反馈的强化学习 RLHF(reinforcement learning from human feedback):根据人的反馈,调整模型的整体行为。 ChatGPT 和 GPT4,相比传统的深度学习技术,如 BERT,主要是在智能性和通用性上取得了巨大突破。具备语言、知识、简单推理能力,能够很好地近似人的智能行为。不需要标注数据就可以在不同领域完成不同任务,也就是进行零样本或小样本学习。 LLM 带来的巨大进步,所能产生的效果是之前我们大多数人都没有能预见到的。究其原因,一是使用大数据大模型大算力,规模带来了质的变化。ChatGPT 有 175B 参数,300B 的 token 做训练。而之前的模型参数规模超过 1B 的都不多。二是 Open AI 开发出了一套调教大模型的方法,包括基本步骤、技巧和工程实现。利用语言建模的机制将人的知识和能力输入给大模型。大规模系统的工程实现和模型的调教方法成了 Open AI 的核心竞争力。这一点可以从相关技术的演进过程中看出。 1.2 历史演进 ChatGPT 和 GPT4 技术的一个源头是生成式对话。 从 2012 年到 2017 年在华为诺亚方舟实验室我们对对话进行了研究,2015 年开发了领域第一个基于序列到序列 seq2seq 的生成式对话系统 Neural Responding Machine [3]。当时的序列到序列模型还是基于 LSTM 的。但是即使是这样的模型,也能生成自然的中文。表 1 给出生成的对话例子。使用 4 百万微博数据训练的 7 千万参数的这个模型,对给定一个发话,可以生成一个回复,形成一轮对话。表中给出 top 5 的几个回复。可以看出有些回复是合适的,有些是不合适的。 为解决序列到序列有时产生不合理结果的问题,我们于 2017 年开发了基于深度强化学习的方法,对序列到序列 seq2seq 的学习结果做进一步的调优 [4]。与 RLHF 有相同的算法,先学习奖励模型,然后基于策略梯度,调节整个序列到序列模型(策略模型)。模型也是基于 LSTM 的。当时的研究发现,加上深度强化学习的微调,可以把序列到序列的生成结果做得更好。 Google 的研究团队于 2017 年发表了 Transformer 模型。序列到序列的生成开始转向使用 Transformer。由于 Transformer 强大的表示和学习能力,生成式对话的效果有了大幅度的提升,也从单轮对话的生成逐渐发展到多轮对话的生成。 2018 年 Open AI 团队发表了 GPT-1 模型。其基本想法是,先训练一个基于 Transformer 的大规模语言模型,在其基础上通过有监督的微调 SFT 方法,学习序列到序列模型,把自然语言的理解和生成任务都转化为序列到序列生成的任务,在一个模型上实现所有的任务,包括生成式对话。之后又于 2019 年发表了 GPT-2,2020 年发表了 GPT-3,逐步发展到 ChatGPT 和 GPT-4。 传统的相对小的生成式模型也可以生成自然的人类语言,甚至是基于 LSTM 的。因为学习的目标是单词序列的预测误差最小化。但生成的自然语言所描述的内容有很多在现实中是不会发生的或者不合理的,也就是有严重的幻觉(hallucination)。而大规模语言模型,由于学习手段和规模,其生成的自然语言所描述的内容,在现实中是很容易发生的,甚至是合理的,幻觉现象也得到比较有效的控制。 ChatGPT 之前,业界开发出了一系列的生成式大模型,做生成式对话等任务。整体观察的现象是能更好地完成各种任务,但是能力都没有能够达到 ChatGPT 的水平。仔细阅读 GPT-3 [5] 和 InstructGPT 的论文 [1],认真观察 ChatGPT 等各种 LLM 的结果,让人感到 Open AI 的核心竞争力是他们开发了一整套语言大模型的调教方法和工程实现方法。调教方法包含预训练、SFT、RLHF 等基本步骤,更重要地,包含高质量大规模数据的准备,将数据一步步喂给模型的训练细节。 2. LLM 的特点 2.1 结合了人工智能三条路径 实现人工智能可以考虑到以下三条路径: 输入经验知识:人将知识通过规则等形式教给计算机,让计算机进行智能性处理。 实现人类大脑:解明人脑的机制,基于相同的原理实现人类智能。 从数据中学习:通过数据驱动机器学习的方法模拟人类智能。 图 1. 实现人工智能的三条路径 人工智能传统的符号处理属于第 1 条路径。机器学习属于第 3 条路径。深度学习是受人脑启发的机器学习,属于第 3 条路径,但也借鉴了第 2 条路径。 第 1 条路径最容易想到,但是人工智能的历史证明,它有很大的局限性。第 2 条路径依赖于脑科学的进步,目前研究进展缓慢,也是非常困难的。第 3 条路径看上去不是很直接,但是是目前实现人工智能的主要手段。 笔者认为 LLM 主要属于第 3 条路径,但也借鉴了第 2 条路径,兼具第 1 条路径的特点,因为 LLM 是深度学习,模型中的知识和能力是人通过精选的数据和巧妙的训练方法授予的。三条路径的融合使 LLM 成为当前实现人工智能的最强大手段。 2.2 第三者体验和第一者体验 对外部世界的认识和理解,我们可以站在第三者的角度,观察现象,总结规律,分享结果,属于第三者体验(third person expeirence)。科学是在第三者体验基础上建立起来的。我们每个人的内心感受和想法是自己的精神活动,很难与他人分享,只能大概描述,属于第一者体验(first person experience)。 可以认为符号处理是基于开发者第一者体验的,而机器学习是基于开发者第三者体验的。比如,围棋大师总结下棋的经验,定义规则,在其基础上开发围棋系统,就是基于第一者体验的。观察围棋大师下棋,从其下棋数据中自动学习规律,开发围棋系统,就是基于第三者体验的。 有趣的是,LLM 的开发基于第三者体验,也结合第一者体验。因为模型是基于深度神经网络,使用大规模数据,通过预测误差最小化的方式学到的,这些都可以认为是基于第三者体验的。但是在学习过程中的数据收集,数据清洗,数据标注,以及在推理过程中使用的提示(prompt),上下文学习(in context learning),都需要开发者基于自己的经验,有效地将知识和能力提供给模型,这应该看作是基于第一者体验。这一点与其他的机器学习有本质的不同。这也就意味着开发 LLM,既需要能够观察数据和模型的统计指标,比如 scaling law,又要能够站在使用者的角度准备数据,调教模型。而后者的技巧需要很多观察和摸索才能掌握。 2.3 LLM 的优点和局限 LLM 在一定程度上解决了通用性问题,进一步提高了智能性。大数据、大模型返回的结果大概率是现实中应该发生的而且是合理的。开发者通过预训练、SFT、RLHF、Prompt 等方式,调教模型,可以大大提高模型的能力。 LLM 已经非常强大。但也有大家指出的明显需要解决的问题:1. 如何优化模型,也就是降低训练和使用成本,同时扩大可处理问题的规模。2. 如何保证模型生成内容的真实性,也就是避免幻觉。3. 如何构建可信赖大模型,也就是保证模型生成结果的有用性,安全性等。 笔者在 ChatGPT 出现之前,曾经指出深度学习需要更多地借鉴人脑的处理机制,需要更多的理论指导 [6]。这在 LLM 时代也依然是成立的。LLM 规模已经极其庞大,可能需要新的理论,对模型的能力进行分析和解释。当模型达到一定规模以后,整个系统的 Dynamics 呈现了完全不同的规律,需要进一步研究。 3. 重要研究课题 总结起来,LLM 时代有以下重要研究课题。 LLM 的优化 LLM 的真实性 可信赖 LLM 与 AI 伦理 LLM 的理论 多模态大模型 LLM + 逻辑推理 智能体(agent) 面向未来,多模态大模型、LLM 加逻辑推理、智能体等都是重要的研究课题。下面重点讨论前两个课题。 4. 从人类智能角度看 LLM 4.1 人脑、心智、意识 人脑是一个巨大的神经网络,推测有 1 千亿个神经元,1 千万亿个突触。脑神经网络由诸多去中心化(decentralized)的子网络组成,每个子网络负责一个特定的功能,子网络之间有一定的连接。神经网络进行的是并行处理,处理速度快,在下意识中进行。人脑神经网络的一部分被激活时产生某种状态,称作神经表示( neural representation)。 心智(mind)是我们每个人体验的内心的感知和认知,既有意识的部分又有下意识的部分,主要是意识层面的。目前脑科学的一个有利假说是,意识是人脑整体信息同步的机制,信息同步在工作空间(workspace)中进行 [7]。意识中的信息处理是串行处理,处理速度慢。 具身认知论(emboddied cognition)认为,在人的思维过程中,在意识中的处理产生的是表象(image),心智计算论(computational theory of mind)认为意识中的处理产生的是心智语言(mental language, mentalese)[8]。目前没有定论,本文根据需要,同时借用两者的观点。 图 2 人脑和心智的组成 图 2 给出了人脑和心智的组成。下意识中的脑(神经网络)分成不同的脑区负责听觉、视觉、运动、语言,数学等功能。意识得到下意识神经网络处理的结果,通过心智语言表示出来,或者产生表象,在工作空间里进行各种处理。 心智语言是认知科学家福多、平克等提出的假说。一个重要特点是,自然语言是有歧义的,而心智语言没有歧义。当我们理解某一个概念的时候,脑中唤起所有相关的多模态信息进行消歧处理,得到心智语言的表示。 4.2 LLM 的统一实现 目前为止,自然语言处理有六个大的任务,包括分类、匹配、标注和语义分析、序列生成、序列到序列、序贯决策。 分类:从文字序列到标签的映射,如文本分类。 匹配:文字序列与文字序列的匹配,如搜索、阅读理解。 标注和语义分析:文字序列到标签序列或结构表示的映射,如分词、词性标注、句法分析。 序列生成:文字序列的生成,也就是基于语言模型的生成。 序列到序列(seq2seq):文字序列到文字序列的转化,如机器翻译、生成式对话、摘要。 序贯决策:基于已有的文字序列产生新的文字序列,如多轮对话。 前三个是语言理解任务,后三个是语言生成任务。理解任务的输出是类别标签等,可以认为是心智语言的表示。 所有的任务都可以用序列到序列 seq2seq 模型实现。语言理解是自然语言到心智语言的 seq2seq。语言生成是心智语言到自然语言的 seq2seq。语言转换是一种自然语言到另一种自然语言的转换。 GPT3、ChatGPT 等用大量文章数据做预训练,然后用 seq2seq 数据做微调,但 seq2seq 数据也转换成序列数据的形式 [seq:seq],即把两者拼接起来。注意 ChatGPT 等在生成的时候并不区别是自然语言还是内部表示。内部表示也可以是程序代码。 图 3 LLM 实现所有自然语言处理任务 图 3 描述基于 LLM 的语言理解,语言生成,语言转换(翻译)的 LLM。比如,思维链(chain of thought)就可以认为是心智语言的内容。基于 LLM 的语言理解就是把自然语言转化为心智语言。注意:心智语言应该是没有歧义的,而用 LLM 生成的内容,包括思维链,经常是有歧义的。 所以,可以认为 LLM 用于语言理解时生成的内容是心智语言的近似。自然语言表示心智语言的好处是人们可以很容易定义和标注数据,如思维链数据,但是缺点是不能保证不产生歧义。6.1 节有一个数学解题的例子,也可以用程序表示心智语言,就没有歧义的问题。 5. LLM 与多模态处理 5.1 人的语言理解和世界理解 人的语言理解可以从两个角度定义,一个是概念,另一个是功能。如果是概念,理解一个词语或者是一句话,意味着把记忆中的相关概念和事件唤起,并把它们联系起来,这是在意识中产生表象或由心智语言的表示。理解的结果产生语义落实(grounding),是没有歧义的。因为人脑在理解中做了消歧。 有很多证据表明,人的语言理解过程是通过视觉、听觉等多模态处理进行的。概念相关的视觉、听觉表征分别记忆在视觉、听觉的脑区。当相关概念被唤起的时候,在意识中产生多模态的表象。比如,被问到「大猩猩是不是有鼻子」时,要回答这个问题,我们脑子里会展现出大猩猩的视觉表象。 另一方面,人对世界的理解也是通过语言的。人通过视觉、听觉、触觉、味觉、嗅觉从外界环境获取信息。世界理解通常是将多模态信息与语言联系到一起的过程。在这个过程中也会在意识中产生表象或心智语言的表示。比如,看到桌子上的物体,会识别是「杯子」,「圆珠笔」等。 5.2 多模态大模型 大家关注的一个问题 LLM 是否实现了人的语言理解,LLM 是否建立了世界模型。笔者的回答:是也不是。 LLM 建立的对世界的认识完全是基于语言的,从语言数据中学习,将学到的知识存储于语言模型。所以当问到关于世界的任何问题,LLM 都能回答,虽然有时是有幻觉的。知识的存储的方式也与人不一样,不是基于实体和概念,而是存储在 Transformer 参数之中。 可以预见,当 LLM 和多模态大模型结合时,就能产生与人更接近的世界模型。这时知识也会通过实体和概念等联系起来。特别是未来,机器人能通过与世界互动,获得具身的多模态信息时,其产生的多模态大模型就应该能更接近人类的世界模型。注:世界模型并没有大家都接受的严格定义。 因此,多模态处理应该是 LLM 之后未来人工智能发展的重要方向。多模态研究最近也有很多进展。比如,视觉语言模型(vision language model)方面,Open AI 开发的 CLIP 模型是视觉语言对齐上最有代表性的模型。字节跳动也开发了 X-VLM 模型,在细粒度的多模态理解任务上有最好的表现 [9]。 6. LLM 与数学能力 6.1 人的数学能力 数学能力包括几种能力,有逻辑推理、算术计算、代数计算、几何概念理解等。 数学能力:从哲学角度看 在西方哲学中,数学一直被认为是一种人类天生具有的独立的能力。 亚里士多德认为哲学理论可以分为数学、自然学(physics)和形而上学 (metaphysics)。在古希腊,数学被认为独立于「科学」的学科,因为其抽象性和逻辑性。 图 4 将 2×2 的正方形面积扩大一倍的方法 柏拉图在《美诺篇》中介绍了苏格拉底与一位奴隶少年的对话。苏格拉底通过不断提问的方式,引导奴隶少年解决了如何把一个 2×2 的正方形的面积扩大一倍的数学问题(见图 4)。苏格拉底试图证明,人的数学思维能力,更一般地,人的理性是生来具有的。 康德在《纯粹理性批判》中主张人的推理能力是先天的,他称之为先验综合判断,其中包括数学推理,比如计算 5+7=12。 数学能力:从脑科学角度看 近年脑科学和认知科学的研究发现,人的数学基本能力是先天的,如基本的计算能力。数学思维主要涉及一些特定的脑区 [9]。 有这样的实验,4 个月的儿童,让他们看到把一个球滚到屏风后面,再滚一个球过去,当把屏风挪开的时候,如果他们看到的留下的不是两个球而是一个球,都会露出非常吃惊的表情。说明他们知道 1+1=2。 递归运算是数学的核心能力,猜测是人天生就有的。脑科学家发现人脑顶叶有一个脑区,其主要功能是数学思维,具体的机理仍不清楚,需要今后进一步研究。 当然不是所有的数学能力都是先天的,也有后天习得的数学能力。研究发现,数学家的部分视觉脑区在后天的学习过程中被再利用于数学 [10]。 数学思维:科学家的自省 数学思维会经常上升到意识。科学家们经常把自己的数学思维过程描述为意识中的与数学相关的表象的操作过程,这些表象与数学概念密切联系在一起。对应着大脑神经网络怎样的计算尚不清楚。 爱因斯坦曾这样反思自己的数学思维过程,「词汇或者语言,无论是书面形式还是口头形式,似乎在我的思维中并没有发挥任何作用。作为思维元素的实体是某些符号和或多或少清晰的表象,可以自发地复制和组合。而且,这些元素和相关的逻辑概念之间存在一定的联系。」 6.2 LLM 用于数学解题 LLM 本身具备类推推理(analogical reasoning)的能力,但不具备逻辑推理(logical reasoning)的能力(逻辑推理是指基于三段论的推理)。因此,LLM 可以做一些简单的数学计算、数学解题。对比于人,相当于用死记硬背的方法做数学。虽然 GPT4 展现出了非常强的数学解题能力,求解复杂的数学问题应该还需要其他机制。 一个想法是 LLM + 逻辑推理的数学解题。用 LLM 理解数学问题的题意,将其转换为心智语言,在心智语的基础上进行逻辑推理和数学计算。逻辑推理和数学计算调用其他的数学计算机制。 人的数学解题有两种机制,分别使用心理学称作的系统 1 和系统 2,进行快的思维(基于死记硬背)和慢的思维(进行深入思考)。用 LLM 直接解题,对应着系统 1。用 LLM 产生心智语言,在心智语言的基础上进行解题,对应着系统 2。 在字节跳动,我们去年提出了神经符号处理方法,结合神经处理和符号处理,用于自然语言理解任务。也是基于相同的思想结合系统 1 和系统 2 的机制 [11]。这套方法既可以用于数学解题,又可以用于自然语言理解。 6.3 程序语言作为心智语言 上述基于 LLM 的数学解题和自然语言理解方法中,一个自然的想法是用程序语言表示心智语言。这是因为 LLM 一般使用程序训练,也能生成程序。 我们最近做了大规模的实验,验证了 Python 程序比英语(自然语言)作为 “心智语言”,在数学解题中更有优势的事实 [12]。这个方法的一个优点是,LLM 理解题意后,得到的程序可以直接通过解释器执行,验证解题步骤的正确性。在 Python 程序上进行推理,也比在自然语言上进行推理更为容易。
千万人围观“烧焦婴儿”图片!伯克利教授辟谣:AI图片检测器无用
AI无法打败AI,不是没有道理。近来,上千万人围观的婴儿死亡照片,AI检测工具竟无法给出一致答案。 AI图片检测器又被冲了! 最近,外网爆出大量中东地区冲突的照片,向世人展示了生命在这种极端条件下是何等的脆弱和无助。 其中,一张「烧焦婴儿」的照片,由于太过于残忍,让人难以置信。 于是,有人把照片放到了AI图片检测器中,来检测这些照片是否为AI生成。 果然,这张照片被AI检测器——Optic,认定为「AI生成」。 而在4chan上,甚至还出现了「原图」,原本尸体的位置其实是一只狗狗。 于是网友愤怒地去发布者推文下方留言,攻击他利用AI生成的照片来散播虚假的末日恐慌。 这条认为照片是由AI生成的推文,2天不到的时间已经有2100万的阅读。 但是很快网友们发现,他们把照片放到了同样的AI检测器上,检测结果几乎是随机的,既有AI,也有人类。 有人发现,只要把同一张图片裁剪一下,或者背景色变成黑白,这个检测器就会认为图片是由人类拍摄的。 甚至有时候检测器「抛硬币」的时候,硬币还会立起来... 那到底这张图是不是由AI生成的呢? 最后,AI检测器官方也针对这个事件发推,认为他们的没有办法确定图片是否由AI生成,希望大家理性讨论。 AI图片检测器,到底有多不靠谱? UC Berkeley教授、世界顶尖的数字图像处理专家之一Hany Farid表示,这张图像没有任何迹象表明它是由AI生成的。 「AI图像生成器最大的问题之一是高度结构化的形状和直线,」Farid说。「如果你看到桌腿和螺丝,一切看起来都很完美,那么图片就几乎不可能是由AI生成的。」 比如这张著名的「海绵宝宝制造了9/1」的图片,窗外的双子塔线条都不直,飞机上的仪表盘都相互扭曲到一起了,这看起来就是「A里A气的」。 「我们在那张照片中能够看到物体的结构很准确、阴影也很准确、没有伪影——这让我相信这张照片应该完全是真实的」法里德说。 Farid还通过他自己的其他AI图像检测器识别了这幅图,另外四种AI图像检测工具也都认为图像不是AI生成的。 Farid说,「AI检测器是一个工具,但它只是工具包的一部分。用户需要对整个图像进行进行一系列的测试,不可能只按一个按钮就得到答案。」 而AI检测工具Optic确实也没有给出自己的检测技术的具体细节。 Optic网站也声明,「AI检测器可能会产生不准确的结果」。 AI图像检测技术 Farid教授在去年曾经撰写过一篇论文,介绍了如何判断AI生图工具图像的一致性。 通过判断图像上的一致性,可以帮助判断出图像是否由AI生成。 论文链接:https://arxiv.org/abs/2206.14617?ref=404media.co 教授首先概述三种相关的基于物理的分析方式,每种分析都利用了图像形成过程固有的相同的基础透视几何原理。 消失点 平行后退线汇聚于一个消失点。 瓷砖之间的线图1(a)是平行的。成像时,这些线全部汇聚在一个消失点。如果场景中的平行线在深度上远离镜头,那么就会存在消失点,尽管它可能落在图像之外。 如果场景中的平行线在深度上不后退,也就是说,如果它们完全平行于镜头传感器(在任何距离),则平行线将被成像为平行线,出于实际目的,可以考虑消失点处于无穷远。这种几何学源于透视投影的基础知识。 在透视投影下,场景中的点 (X, Y, Z) 被成像到点 (f X/Z, f Y /Z),其中f是镜头焦距。 由于图像中点的位置与距离Z成反比,因此投影点会作为距离的函数进行压缩,从而导致图像中的线会聚; 2. 平行平面上的平行线会聚到同一个消失点 远处的盒子在图 1(b) 与地板上的瓷砖对齐,使得盒子的边缘与瓷砖之间的线平行。因为平行平面上的平行线共享一个消失点,所以盒子侧面和瓷砖地板的消失点是相同的; 3. 平面上所有直线的消失点都位于消失线上。 许多组平行线,每组平行线会聚到不同的消失点,如图1(c) 所示。如果平行线组跨越场景中的同一平面,则它们的消失点将位于消失线上。消失线的方向由镜头相对于平行线所跨越的平面的旋转来确定 阴影 有点令人惊讶的是,消失点背后的相同几何形状也适用于投射阴影。 上图显示的是连接盒子上的点及其在投射阴影上的对应点的三条光线。扩展图像边界后发现,这三条光线相交于一个点,该点对应的是照亮场景的光源的投影。 无论光源在附近(台灯)还是在远处(太阳),这种与阴影、物体和光相关的几何约束都成立,并且无论阴影投射到的表面的位置和方向如何,该几何约束都成立。 当然,该分析假设场景由单个主光源照明,从每个对象仅存在单个投射阴影可以明显看出这一点。 在上面的示例中,照亮场景的光源位于镜头前面,因此光源的投影位于图像平面的上半部分。 然而,如果光线位于镜头后面,则光源的投影将位于图像平面的下半部分。由于这种反转,对象约束的阴影也必须反转。 因此,图像的投射阴影分析必须考虑三种可能性: (1) 光线位于镜头前面,光源的投影位于图像平面的上半部分,约束锚定在投射阴影上并包围对象; (2) 光线在镜头后面,光源的投影在图像平面的下半部分,约束锚定在物体上并包围投射的阴影; (3) 光线位于镜头中心的正上方或正下方,光源的投影位于无穷远,约束将在无穷远相交。如果这些情况中的任何一种导致所有约束的共同交集,则投射阴影在物理上是合理的。 反射 下图2所示的场景是三个盒子反射在平面镜中。 这个图的下半部分显示了真实盒子和虚拟盒子之间的几何关系。 橙色线代表镜子,位于两组盒子之间的中点。黄线连接真实和虚拟盒子上的对应点。这些线彼此平行并垂直于镜子。 现在考虑一下这些平行线叠加在场景上时如何出现。从镜子平面观察时平行的线不再平行。相反,由于透视投影,这些平行线会聚到一个点,就像世界中的平行线会聚到一个消失点一样。 由于连接场景中对应点及其反射的线始终是平行的,因此这些线必须在图像中具有共同的交点才能在物理上合理。 实例分析 上图3显示了AI合成图像的三个代表性示例,并对地板和柜台顶部的几何透视一致性进行了分析。 每张图像(在几个像素内)准确地捕捉了瓷砖地板的透视几何形状,作为一致的消失点(以蓝色呈现)的证据。然而,平行台面(以青色呈现)的消失点在几何上与台面的消失点不一致。 相应的对齐图块。即使台面与瓷砖不平行,青色消失点也应位于由瓷砖地板消失点定义的消失线(以红色呈现)上。请注意,对于图 3 右上角的图像,瓷砖地板上的水平线几乎是平行的,因此相应的消失点位于无穷远,因此不会相交。 虽然这些图像中消失点局部事一致的,但并不是全局一致的。在 25 张合成的厨房图像中,每张都发现了相同的模式。 上图是用提示词生成的方块图片,在阴影处就明显地出现了不一致性。 上图8所示是将几何分析应用于由AI生成的包含了看上去相当准确的反射的图像结果。 尽管这些反射在视觉上是合理的,但在几何上并不一致。 与前几节中的投射阴影和几何结构不同,DALL·E-2 很难合成合理的反射,大概是因为此类反射在其训练图像数据集中不太常见。 基于这些对于AI生成图片局限性的了解,通过对于图片一致性的检测,能非常有助于判断图片是否由AI合成。 图像识别难,AI打败AI AI图像生成器,正不断进化。 上半年,Midjourney爆火,能够生成足够逼真的图片,却愚弄了很多人。 86岁教皇头顶白色小瓜帽、一身喇叭口的白色羽绒服,金属制的十字架项链外露,外加一本正经的表情。 当时,这张照片一经发布,在社交媒体上骗过了所有人,被许多网友疯狂转发,甚至有人直呼教皇太潮了。 在大家都信以为真时,突然有人点出这是AI生成的,许多人瞬间傻眼了。 这仅是其中的一个栗子,还有马斯克新女友GM的首席执行官Barra等各种虚假流传的图片,已经达完全到以假乱真的程度。 这一事件,直接引发了马斯克、苹果联合创始人Stephen Wozniak等科技领导人呼吁暂停AI的研发。 虽然AI生成有趣、便利,但它给整个行业带来了风险。 一不小,就会被别有用心的人用其传播虚假信息、侵犯知识产权,或利用生成「果照」等等。 接下来几个月,Midjourney将会发布最新的V6版本,目前V5版本已经在图片生成的真实度上做的非常完善。 而其他AI图像生成器也在快速迭代。前段时间,OpenAI刚刚发布了DALL·E 3,与此同时微软必应图像生成也用上了DALL·E 3。 当然了,研究人员也在努力构建可以辨别图像的工具,关键是如何追赶上AI图像生成器不断换代的步伐? AI检测工具竞争赛 现在,已经有十几家公司提供工具来识别图片是否是由AI生成的,它们的名字包括Sensity AI(深度伪造检测)、Fictitious.AI(抄袭检测)、Originality.AI等等。 人工智能信任与安全公司Optic推出了一个「AI or Not」的网站。 在这个网站上,你可以上传照片或粘贴图片网址,网站会自动判断,照片是否是由AI生成的。上传的图片数量没有限制。 另外,你也可以在Optic的推特账户@optic_xyz上发布或转发一张图片,或者加上#aiornot,便会得到一条回复,包括图片的置信度百分比。 这家公司的首席执行官Andrey Doronichev表示,Optic的AI工具可以检查每张图像中人眼不可见的伪影,例如图像中亮度和颜色的变化。 让人惊喜的是,该工具的准确率为95%。 但是随着Midjourney等AI图像生成工具的升级迭代,「AI or Not」的准确率下降到了88.9%。 比如,教皇这张图片,AI认为87%的概率是由人类做的。 教皇穿着白色羽绒服的形象在Optic更新前被愚弄 其实有网友表示,仔细去看这张图,就会发现有人工智能生成的明显迹象,包括几个明显模糊的细节区域: - 看似不完整的手正试图抓住一个不太像咖啡杯的东西,旁边还有污迹 - 教皇佩戴的十字架也不是直角形状,上面还刻着一个像是用黏土雕刻而且坐着的耶稣 - 眼镜与脸部的阴影不一致 这几点都表明这是由人工智能生成的。它仅了解现实的表面,但不了解支配物理对象是如何相互作用的基本规则。 除了Optic家的工具,为内容添加标签的人工智能公司Hive近来,也更新了自家的免费AI生成的内容检测器。 这个AI工具在DALL-E、Stable Diffusion、Midjourney的数百万张图像上进行了训练。 Hive预计,它能准确检测到大约95%的AI生成的图像,尤其在网上疯传的共享图像,往往比其他图像识别效果更好。 CEO Kevin Guo称,当人们分享人工智能图像时,他们会选择最逼真的假图,所以人们很辨别什么是真的。 左图是AI生成的图像,可以从两个手指和奇怪的击掌辨别,而在普通iStock照片中真实的样子如右图。 与Optic一样,Hive在检测必应Image Creator的图像时,也失败了。 不过,这些检测工具并非止步不前,随着AI图像整成模型的迭代,它们也会更新升级。 其实,AI图像辨别不能仅仅依靠行业中的检测工具完成,更应该在模型训练时,设好护栏。 许多人工智能图像生成器,也被限定了一些内容能否被生成的「黑名单」。 比如,必应Image Creator会标记和阻止要求其创建知名公众人物图像的用户提示。 Midjourney有「human moderators」,并正在推出一种用算法来调节用户请求的方法。 还有DALL·E 3技术报告中介绍道,当你让ChatGPT生成一些「果图」、或者涉及黑白人等图片时,输入的prompt直接被改写。 给AI加水印,大厂在做了 此外,数字水印也是目前增强生成式AI安全的重要手段之一,微软、谷歌等科技巨头已经在产品中使用。 微软曾在9月Surface大会上,介绍了DALL·E 3加持下的必应生成图像的能力。 与此同时,为了确保图像不被滥用,微软团队使用加密方法为为每一张图像生成不可见的水印,包括创建时间和日期。 任何人可以点开每张图片,轻易识别出是否是AI生成的。 Meta还开源了Stable Signature,可将数字水印直接嵌入到AI自动生成的图片中。 论文地址:https://arxiv.org/pdf/2303.15435.pdf 值得一提的是,Stable Signature生成的数字水印不受裁剪、压缩、改变颜色等破坏性操作影响,能追溯到图片的初始来源。 它可应用于扩散、GAN等模型,比如Stable Diffusion。 还有谷歌在Google Cloud Next上,也发布了为AI生成的图像打上水印并进行检测和识别的SynthID。 SynthID使用两个深度学习模型,分别用于水印和识别。它们可以在一组不同的图像上一起训练。 组合模型针对一系列目标进行了优化,包括正确识别带水印的内容,并通过直观地将水印与原始内容对齐来提高水印的隐蔽性。 SynthID生成的数字水印是直接嵌入到图像的像素中的,人眼无法察觉。但SynthID可以检测并识别它们。 SynthID可以帮助评估图像由Imagen创建的可能性 加州大学河滨分校电气和计算机工程教授Amit Roy-Chowdhury表示,仔细观察图像背景,我们可以用自己的眼睛更好检测假图像。 不过,在AI模型加速迭代当下,想要有「火眼金睛」太难了。
芯片业巨头大裁员
据美国有线电视新闻网(CNN)10月12日报道,全球最大的芯片制造商之一美国高通公司眼下正计划缩减员工规模。 这家总部位于加州圣迭戈的公司向加州就业发展局提交的文件显示,公司计划在该州裁员大约1258人,波及岗位包括工程师、法务和人力资源。此轮裁员将于12月中旬正式启动。据悉,目前,高通的员工总数在5万人左右。 截至美股最新收盘,高通股价下跌2.51%,市值缩水至1213亿美元(约合人民币8862亿元)。 高通公司首席财务官在今年8月曾表示,考虑到未来营收会减少的预期,公司将采取措施削减成本。 截至2023年6月25日的第三财季财报数据显示,高通调整后总营收为84.4亿美元,同比下滑23%,低于预期的85亿美元;调整后每股收益为1.87美元,高于预期的每股1.81美元;净利润降至18亿美元,较上年同期的37.3亿美元下降了52%。 高通CDMA技术集团(QCT)是高通最大的部门,销售用于智能手机、汽车和其它智能设备的处理器。第三财季该部门的销售额为71.7亿美元,同比下降24%。其中,高通主要的手机芯片业务营收下降了25%,至52.6亿美元。 高通首席执行官安蒙当时在第三财季业绩与分析师的电话会议中表示,该公司将进一步削减成本。高通在一份监管公告中也表示,削减成本将包括裁员,但未具体说明有多少工作岗位将受到影响。
CPU、GPU之后的算力架构“第三极”!存算一体化芯片受益上市公司梳理
财联社10月15日讯(编辑 旭日)据《科创板日报》报道,近日,清华大学研制出全球首颗全系统集成的、支持高效片上学习(机器学习能在硬件端直接完成)的忆阻器存算一体芯片,在支持片上学习的忆阻器存算一体芯片领域取得重大突破,有望促进人工智能、自动驾驶可穿戴设备等领域发展。 方正证券吴文吉4月14日研报中指出,存算一体作为一种新的计算架构,具有更大算力(1000TOPS以上)、更高能效(超过10-100TOPS/W)、降本增效三大优势,能有效克服冯·诺依曼架构瓶颈,实现计算能效的数量级提升。业界普遍认为,其为“AI算力的下一极”,继CPU、GPU之后的算力架构“第三极”。 华西证券刘泽晶4月5日研报中表示,存算一体适用于人工智能各个场景,如穿戴设备、移动终端、智能驾驶、数据中心等。随着大模型的横空出世,参数方面已经达到上亿级别,存算一体有望成为新一代算力因素。 公开资料显示,作为一种新的计算架构,存算一体被认为是最具有潜力的革命性技术,其核心是将存储与计算完全融合,存储器中叠加计算能力,以新的高效运算架构进行二维和三维矩阵计算。存算一体的优势包括:1)具有更大算力(1000TOPS以上);2)具有更高能效(超过10-100TOPS/W),超越传统ASIC算力芯片;3)降本增效(可超过一个数量级)。 根据量子位智库,存算一体产业发展将历经技术探索期(2010-2017年)、局部小规模量产(2017-2022)、普遍小规模量产(2022-2025)以及未来的大规模量产(2025-2030)四个阶段。预计存算一体市场规模2025年将达125亿元,随着技术成熟度的提高伴随大规模商用落地,至2030年市场规模将达1136亿元。 目前,国内布局存算一体AI芯片的上市公司为恒烁股份,公司已完成首款基于NOR Flash制程的存算一体AI芯片的研发、流片和系统演示。目前积累了杰理科技、乐鑫科技、芯海科技、翱捷科技等客户。 其它的初创公司例如亿铸科技、知存科技、苹芯科技、九天睿芯等采用存算一体架构投注于AI算力。其中亿铸科技、千芯科技、阿里达摩院等专注大模型计算、自动驾驶等AI大算力场景。闪易、新忆科技、苹芯科技、知存科技等专注于物联网、可穿戴设备、智能家居等边缘小算力场景。 此外,根据财联社不完全整理,近期在互动易平台回复存算一体化芯片相关业务的A股上市公司包括杭州柯林、中科微至、东芯股份、润欣科技和罗普特等,具体情况如图
消息称英伟达下一代Blackwell B100 GPU将采用HBM3E显存,2024年Q2发布
原标题:消息称英伟达下一代Blackwell B100 GPU将采用HBM3E显存,明年Q2发布 IT之家 10 月 15 日消息,今年 8 月,SK 海力士宣布开发出了全球最高规格的 HBM3E 内存,并将从明年上半年开始投入量产,目前已经开始向客户提供样品进行性能验证。 据 MT.co.kr 报道,继第 4 代产品 HBM3 之后,SK 海力士将向 NVIDIA 独家供应第五代高带宽内存 HBM3E,此举有望进一步巩固其作为 AI 半导体公司的地位。 据半导体业界 15 日消息,SK 海力士将于明年初向 NVIDIA 提供满足量产质量要求的 HBM3E 内存,并开展最终的资格测试。 一位半导体行业高管表示,“没有 HBM3E,NVIDIA 就无法销售 B100”,“一旦质量达到要求,合同就只是时间问题。” 据介绍,这批 HBM3E 将应用于 NVIDIA 计划于明年第二季度左右发布的下一代 AI 旗舰 GPU——B100 中。市场预测,B100 将成为比英伟达当前最高规格 H100 更强的 AI 游戏规则改变者。 参考IT之家此前报道,英伟达路线图显示,该公司准备在 2024 年推出 Hopper GH200 GPU,然后在 2024 年至 2025 年之间的某个时间推出基于 Blackwell 的 GB200 GPU。 值得一提的是,NVIDIA 目前已经占据 AI GPU 市场 90% 以上的份额;而在存储领域,SK 海力士已经占据全球 HBM 市场一半以上的份额,更是 100% 垄断了 128GB DDR5 这类大容量 DRAM 产品市场。 据称,英伟达原计划于明年第四季度发布 B100,但由于需求快速增长,英伟达已将发布日期提前至第二季度末。因此,随着 B100 发布日期的提前,其供应链也开始变得忙碌起来,而 SK 海力士原定于第二季度初进行的质量测试已提前至第一季度。 现阶段,SK 海力士重点主要是放在提高良率上。如果一切按计划进行,SK 海力士将实现继 HBM3 之后再次向 NVIDIA 供应 HBM3E 的独家订单。
谷歌让大模型更具“心智”,GPT-4任务准确率大增
谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。 在新的提示策略下,大模型不仅能推测出人类所面临的问题,还学会了用推测的结论调整自己的行为。 有了这一成果,GPT-4的“心智”水平已经提高到了人类的71%。 具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。但如果你要它根据这种推理给出行动建议,那可就难倒大模型了。 举个例子,小明放学回家后把书包扔到沙发上就跑出去玩了,妈妈看到之后帮小明把包放到了卧室。 如果大模型能够像人类一样,在小明回来之后告诉他包在卧室,就说明大模型具备了“心智理论”。 研究人员把这种做法称为Thinking for Doing(T4D),并设计了相应的任务。 为了提高模型在T4D任务上的表现,团队进一步提出了Foresee and Reflect(FaR)提示策略,结果让大模型在“心智”上取得了重大突破。 论文的标题也包含了“How far……” ,一语双关,既体现了FaR框架对大模型的帮助,又暗含了大模型离具有人类“心智”的距离。 那么,有了FaR的大模型,究竟拥有什么样的“心智”呢? 大模型离具有“心智”更进一步 我们还是从例子说起,如下图所示,一共有绿色和蓝色两个橱柜,Tom在绿色橱柜中放了一块巧克力。 Tom离开后,Ella把这块巧克力挪到了蓝色的柜子里。 那么等Tom再回来,会从哪个柜子中找巧克力呢?(当然是绿色的) 这就是一个“推理”任务,是心理学上著名的“萨利-安妮”(用于测试“心智”)实验的变体。 而T4D任务是这样的: 如果你就在旁边(并且知道发生了什么),会怎么做? 人类会选择告诉Tom巧克力被挪走了,但(未经调教的)大模型就不一定会这样做了。 为了更宏观地测试大模型在调整前后的表现,研究团队选择了ToMi数据集并改编成了T4D-Tom数据集。 其中的ToMi是一个由大量“萨利-安妮”类情景组成的测试数据集,用于测试大模型的“心智推理”能力。 可以看出,在推理上,表现最好的GPT-4与人类已经相差无几,但在T4D任务上才刚刚达到人类水平的一半。 于是,研究团队提出的FaR方法登场了。 FaR框架的核心奥义就是模仿人类的理性思维方式,和A*搜索算法(用于搜索最短路径)有些相似。 具体来说,FaR包括Foresee和Reflect两步。 Foresee过程中模型会被要求预测接下来会发生什么,并分析人所面临的“困难”。 Reflect发生在Foresee之后,模型会预测自己接下来的行为是否能解决相应的“困难”。 有了FaR框架,效果也是立竿见影。 相比于思维链(CoT)、思维树(ToT)、自己提问等方式,FaR显著提高了大模型在“萨利-安妮”类T4D问题上的准确率。 特别是GPT-4,准确率从人类的50%提升到了71%,GPT-3.5以及谷歌自家的PaLM表现也有提高。 消融实验结果表明,Foresee和Reflect两步都是FaR的关键步骤,缺一不可。 为了验证FaR方法的通用性和鲁棒性,研究团队还进行了一系列泛化测试。 首先是在“萨利-安妮”情景的基础上改变故事的结构,研究团队一共尝试了三种方式: D1:增加房间的数量 D2:人物的数量增多 D3:容器的数量增加到四个 结果FaR依旧成功帮助大模型提高了任务的准确率,在第三种模式下GPT-4甚至取得了和人类相当的成绩。 即使故意设置干扰信息,FaR依旧可以提高大模型的表现。 研究团队专门构建了包含困扰信息的“Faux Pas”数据集,结果GPT-4的表现从31%提高到了76%。 作者简介 FaR论文的第一作者是南加州大学NLP实验室的华人博士生Pei Zhou。 这项成果是他在谷歌实习期间完成的。 此外,来自谷歌(包括DeepMind)、卡耐基梅隆大学和的芝加哥大学的学者也参与了本项目。 那么对于大模型的“心智”,你有什么看法呢?
国美App抽奖页面弹窗辱骂黄光裕、黄秀虹兄妹,称其拖欠工资、货款
IT之家 10 月 15 日消息,今日有网传消息称,在国美 App“幸运大转盘”抽奖页面会出现一个弹窗,呈现辱骂国美电器董事长黄秀虹、创始人黄光裕的内容。 内容显示,该弹窗指控国美“拖欠工资”“拖欠货款”等。经IT之家实测发现,在国美 iOS 和安卓两大版本的 App 对应界面中,确实会出现如上图所示的弹窗。 综合IT之家此前报道,国美零售于 8 月 31 日发布财报数据,今年上半年,国美零售营收同比下跌 96.57%,从上年同期的 121.09 亿元降至 4.15 亿元。 自 2003 年以来,国美零售首次出现毛利为负的情况,在 2017 年至 2022 年累计归属于母公司拥有者应占亏损超 392 亿元的情况下,国美零售的亏损如今正逐渐增大。 除此之外,近年来国美的员工数量不断下降,据国美中报显示,2021 年末,国美集团旗下尚有 32278 名员工。但到了去年年中,国美集团的员工数已减少至 25701 名,而截至今年上半年末,国美集团目前只有 3609 名员工。 国美已不再拥有昔日的优势地位。尽管黄光裕此前放话“力争用未来 18 个月的时间,使国美恢复原有的市场地位”,但如今的国美却距离这一目标越来越远。 此外,据华商报今年上半年报道,直至 4 月中旬,西安国美电器实体门店全部关闭。许多西安市民反映,称国美电器实体店不发货、不退款。
谁在“操控”虚拟人?
作者|程心 编辑|周游 大模型的风,吹动虚拟数字人厂商野蛮生长(以下统称虚拟人)。 《虚拟数字人深度产业报告》预计,到2030年我国虚拟数字人整体市场规模将达到2700亿元,其中,“服务型虚拟人”总规模也将超过950亿元。 如同秃鹰盯上腐肉,嗅到万亿商机的各方势力,都欲分一杯羹,这也直接导致了目前的虚拟人玩家格局陷入了“混战”状态。 「自象限」根据各方数据不完全统计,目前国内虚拟数字人核心厂商约有6000家。而按天眼查的数据显示,相关厂商数量甚至超过6万家。 同时,随着大模型(Large Model)的兴起,虚拟人的产业格局也在发生深刻变化。 比如,虚拟人正在经历从制作流程降本到技术突破的关键阶段,从大语言模型到多模态能力,让虚拟人从展示突破到了实时互动,这意味着未来虚拟人可能只需要一个实时渲染的外观,就能拥有十分逼真的沟通能力。技术门槛的降低,也会让更多参与方加入到这个开拓中的市场。而狂奔半年后,百亿个虚拟人也逐渐渗透进各行各业,并逐步进入商业化阶段。 也就是说,在厂商“混战”的表面下,隐藏的不仅是巨大的商业利益,更是复杂的技术博弈。而牵动着虚拟人“木偶引线”的另一头,操控者们的世界也在发生翻天覆地的变化。 01.千亿市场,厂商“混战” 如果说元宇宙时期的虚拟人已经是一把大火,那大模型就相当于在这之上又烹上了一勺油。一瞬间,铺天盖地的数字人厂商涌来,将本就复杂的行业搅得愈发浑浊。 这其中,既包括从元宇宙时期就一直坚持虚拟数字人的厂商,也有依靠全栈技术优势轻松迈出第一步的大厂,更不乏闻风而来的换道厂商。 「自象限」初步了统计核心厂商的类型后发现,这些厂商大致可以分为四类: ▲图为自象限原创,转载请注明出处 第一类是互联网大厂,如腾讯、百度、阿里、京东、网易等。这里面其实也分两类,一类是腾讯、百度为代表,他们业务庞大,在面向To B的解决方案上,比如金融、文旅、汽车等场景,需要一个数字人形象来符合新的交互方式。对于这些企业,数字人只是业务的一个补充。另一类则是网易为代表的,具有技术积累的企业,由于网易在游戏建模、AI捏脸等方面丰富的探索和技术积累,让他们需要通过虚拟人将这些沉淀的资源转化。 第二类是原生厂商。这是较早布局数字人的一批厂商,如即构科技、魔珐科技、硅基智能、风平智能、数字栩生、相芯科技等。这类厂商或属于上一波元宇宙创业的“遗珠”,或属于市场早期以电商直播带货、本地生活直播等场景切入数字人场景的公司,得益于AIGC技术,其中的一些公司完成了从2D数字人到3D数字人的升级。 第三类是换道厂商。基于原有技术延伸入局数字人赛道,如:商汤、华为、科大讯飞、快手、360、美图、蔚领时代、元境科技、新壹科技等。这类厂商在发展过程中积累了一些涉及数字人的技术。譬如商汤的视觉识别技术、科大讯飞的语言识别技术、蔚领时代的游戏渲染技术等等,以这些技术为突破口再结合大模型的发展,完成了赛道的转换。 第四类是跨界厂商。他们因为自身业务场景需求而下探数字人技术,如万兴科技、蓝色光标、谦寻、高途、中公教育等。这类厂商的特点是其原本业务与数字人并无太大交集,如万兴科技主营业务是提供文图、剪辑类的基础工具,衍生出为客户提供数字人工具;蓝色光标的主要业务为广告业务,通过数字人可以更好的完成客户的需求;而谦寻则是一家MCN公司。但随着应用和场景的拓展,数字人成为了其新的发力方向,万兴科技借数字人进一步开拓了海外直播、营销业务,谦寻借由数字人找寻到了新一轮直播带货流量、成交额增长动力。 源于“出身”的不同,不同厂商的商业模式和目标也完全不同。 大厂的虚拟人多为服务自身核心战略而生,比如阿里、京东的虚拟人多被应用在电商领域;腾讯将移动互联网时代积累下来的RTC(实时通信技术)应用在虚拟人交互中,打造了智影制作平台;百度希壤更偏向于表演型虚拟人,为不同企业提供定制化代言人;而网易则将虚拟人应用在游戏、教育等多个自身业务中。总的来说,互联网大厂并没有急于将虚拟人独立对外商业化,而是受自身技术的积累和场景需求催生。 核心对外提供服务的主要是原生的数字人厂商和换道厂商,从上个风口到如今,这类厂商已经积累了数字人的技术经验,对于底层技术、细节把控和场景的探索都有着更为体系化的认知。根据技术路线的不同,原生厂商又被分为2D厂商和3D厂商,2D厂商更倾向于虚拟人与场景的结合,而3D厂商则处于技术迭代的状态。 “2D虚拟人制作有两种方式,一种是请真人录制,然后帮其定制形象。一种是从用户提供的视频中提取形象,再用到各种场景中。但是2D数字人没办法做到3D那样转身、跳舞、做各种动作。”即构科技对二者的制作差异进行了详细解释。 但由于2D虚拟人的制作成本低,带动了整个虚拟人市场“飞入寻常百姓家”,填补了市场由于价格拦路而不能落地的需求鸿沟。「自象限」了解到,目前原厂厂商是大公司和品牌侧倾向的选择,通过行业KA客户打造标杆案例,比如银行、大型消费品品牌(健力宝)、美妆品牌(HR赫莲娜)等等。 换道厂商和跨界厂商有异曲同工之笔,如商汤、美图等换道厂商,在上个阶段积累了CV、图像识别等技术,被应用在了虚拟人的制作中,而像蓝标、谦寻等公司,源于自身的需求出发,为了避免高昂的采购成本,也选择自研虚拟人,技术不够硬核但有固定的客户群,商业化冷启动相对迅速。 02.产品成熟,重在交付 今年8月、9月开始,虚拟人厂商产品开始加速迭代。据不完全统计,两个月内至少有10家厂商发布了新的虚拟人产品。 产品的高度迭代意味着虚拟人正在飞快得适应市场需求,而这也意味着虚拟人第一阶段的赛点已经走入关键阶段。 从类型来看,虚拟人厂商分为两类,一类直接交付虚拟人产品,包括通用虚拟人产品、行业垂直场景的虚拟人产品,比如电商、零售、营销、直播等,客户即拿即用,或标准化或定制化;另一类则提供虚拟人制作平台,客户通过使用平台提供的工具,自主生产虚拟人。 相比之下,产品交付类型更适合企业探索虚拟人初期,几乎不需要技术团队配合,门槛更低,也是目前较多企业选择的方式。 针对这类产品形式,虚拟人厂商也提供了多样的购买方案。如汽车试驾一样,品牌在购买虚拟人之前,可以先可进行Demo的试用,真实感受虚拟人的表情、动作、交互等等。除此之外,品牌在购买前还可以进行方案咨询,厂商会根据客户情况,制定具体的虚拟人传播方案,并有多种不同风格的虚拟人可以选择。 以即构虚拟人Avatar为例,企业可选择拟人形象和Q版形象,并可以在线直接体验给虚拟人换装、捏脸,并通过AI完成了表情驱动、声音驱动、文本驱动、肢体驱动等全方位的驱动方式。 ▲图源:即构官网截图 提供制作平台的厂商产品则更加复杂,如魔珐科技的三款产品分别针对了不同场景进行,包括虚拟视频、虚拟人直播和独立的虚拟人服务,并且在后端打造了端到端的写实3D虚拟人工业化产线,包括从技术到调试到运营的“星云平台”,让虚拟人能够和大模型结合,长出“脑子”,真正实现3D交互。 ▲图源:魔珐科技发布会 今年8月,魔珐科技升级了有言AIGC生成平台、有光直播带货平台和有灵虚拟人制作平台,为企业提供系列生成工具,企业根据自身需求,能够更加灵活的调整虚拟人的细节、结构和适配的使用场景。 相比之下,商汤既能够直接交付虚拟人产品,也打造了如影虚拟人制作平台,基于在视觉、语音领域积累的3万个算法模型,打造了集智能化生成、智能化驱动、智能化交互的数字人平台。在商汤智能化引擎驱动下,虚拟人能快速识别、反应,与用户建立起对话关系。并且,事后,虚拟人也不会“失忆”,继续学习迭代。 这也说明了,当下厂商不仅是商业模式上的竞争,更是技术先进性的比拼。 03.技术“三级跳” 从整个虚拟人的技术发展进程来说,大模型带来最核心的改变,是推动着虚拟人从第一阶段看起来“像人”,到能够与人实时互动。 ▲图为自象限原创,转载请注明出处 第一阶段,虚拟人厂商比拼的是“谁看起来更像人”?虚拟人厂商的核心技术多在传统的CG(建模)技术、驱动技术、渲染引擎等等,所以虚拟代言人为代表的表演型虚拟人成为了核心交付产品。 但由于技术的不成熟导致了虚拟人制作成本高企,「自象限」从行业内人士了解到,2022年,某大厂提供的订制虚拟人价格高达10万,这让虚拟人根本无法规模化落地。 大模型来了之后,一方面让虚拟人制作成本进行了大幅度降低;另一方面,AI技术加速了虚拟人的交互功能,让虚拟人交互起来更像人。 某虚拟人制作厂商曾吐槽:“以前6888元一个,卖一个赔一个”,通过智能渲染、智能驱动,流程自动化制作等能力,让虚拟人的制作成本有了30%-50%的缩减,市面上甚至冒出了“99元、299元一个的虚拟人”。 更重要的是,大模型技术加速了虚拟人对语言语义的理解能力,让虚拟人能够从简单的检索生成,到语言文字AI驱动,更快速的对人的需求进行回复,甚至做到“秒回”,同时模型也驱动了渲染技术、拟真技术、超写实技术的进化。 举个具体的例子:交互的核心并不只是动作反馈,更是内容的生成和语音的交流,故而,AIGC技术和语音生成技术成为了当下技术发展的核心。 ▲图源:网络 大模型让虚拟人“长了脑子”,有了思考和推理能力,AIGC技术让虚拟人能够有“想法”,TTS(Text To Speech 文本转语音技术)技术则让虚拟人能够“表达”。 几天前,在GPT-4V版本更新,TTS实现了进步,文本驱动语音有了语气和口吻,在停顿、重音和自然交互程度上有了极大的提升。不仅可以模仿不同的口吻,甚至设定“渣女”时还学会了“夹子音”。 有行业专家推测:TTS技术端到端成熟后,对行业格局的改变会很大。因为虚拟人真的能够实时交互后,落到产业里才能产生实际价值。 从看起来像人,到实时互动,大模型推动着虚拟人完成二级阶跃,但这也只是一个新的开始。从元宇宙到大模型时代,虚拟人真正备受关注的内在原因在于,他将有可能是下一个虚拟时代的“入口”,背后连接着新的虚拟世界,入口属性让其变的既性感又危险。 国外最早布局虚拟人的微软小冰CEO李笛则认为:虚拟人未来是混合模型。 本质上,这两种观点的内核是一致的,只不过李笛的假设更为具体。下一阶段,将进入“虚拟人+”的阶段,虚拟人+RPA在企业内部打造数字员工;虚拟人+AI Agent,在C端打造陪伴型机器人;虚拟人+AR/VR,在3D空间打造可见的游戏NPC;虚拟人+具身智能,让人型机器人有了灵魂。 若将多种技术进行全面融合,虚拟人才真的能够成为“入口级应用”。届时,比拼的赛点将是虚拟人的开放程度、生态建设、场景拓展等一系列综合能力。 当虚拟人被赋予了更多能力,其背后的木偶引线到底还能否掌握在人的手里? 这个答案,也着实让人期待。
CS迎来了全面升级,但有玩家说它是狗屎游戏
一些非 CS 玩家可能不太清楚,你小时候在学校电脑上玩的那个 CS 系列游戏,隔了二十多年,终于从大家熟知的 1.6 ,更新到了 CS 2 版本。 这次 CS 2 ,是基于 CS :GO 原有内容进行的大型更新,继承了 CS :GO 原有的地图和玩家账号中的饰品。 当初 CS 2 放出风声的时候,游戏饰品( 相当于王者荣耀里的英雄皮肤,不带属性 )价格像是坐了火箭。 之后虽然整体价格有所回落,但有些饰品涨上去就没掉下过。小发去年在 STEAM 社区, 40 块钱卖掉的久经沙场磨损的沙漠之鹰饰品大佬龙,现在已经涨到 150 了。。。 饰品价格上涨不是没有原因,毕竟来了个版本大更新,基本上把 CS :GO 来了个里里外外的大升级,你把它当新游戏,也不是不可以。 有些地图直接来了个大整改,只保留了大致地形结构,建筑什么的全变了。 一些没有大改的地图,也使用了全新的起源 2 引擎,升级了地图的材质、光照和反射。一眼看过去,环境都变好了很多, PM2.5 显著减少。 枪械、刀具、喷漆、人物等游戏核心要素,同样得益于新引擎的优秀表现,在地图里质感更加鲜明,色彩更加艳丽。 俗称吹风机的 MAC-10 冲锋枪皮肤 “ 银质 ” ,原价两块,却能表现出 20 块钱的水平。这饰品价格不涨才奇怪。 原先那个椭圆形的烟雾弹,现在变得更加真实。 它可以根据环境填充空间,和真烟雾一样不漏过每一条缝隙。 同时除了灭火,烟雾弹也有了新能力。 当你向烟雾丢手雷,或者射击的时候,都可以让一定范围内弥漫的烟雾暂时消失,打对方个出其不意。 除了上述的一些内容,还有一些不那么容易被发现的更新,比如说环境音效更精准了,游戏 UI 也进行了优化。。。 这里就不多提更新内容了,反正也是免费游戏,大家还是自己下个客户端感受一下吧。 有人可能就要说了, CS 2 做的这么好,那它一定有很多好评吧。 然而10 月 6 日, CS 知名职业选手 s1mple 破防了,他在推特上表示现在这就是个狗屎游戏( 原话是 shit game ),别玩了,等更新吧。 不但职业玩家评价一般,普通玩家体验也不算好。CS 2已经成了V社有史评分最差的游戏了。 大家除了要面对游戏 bug 外,很多东西都不熟悉了。 枪械手感这个看起来很玄学的东西变了不少。音效、外观的变化,让人感觉枪除了名字没变,其他简直换了个灵魂。 曾经那个一把沙鹰杀穿沙漠二的自己,已经从枪神变成了夕阳红人体描边大师。 地图更新这个看起来是新游戏福利的变化,也不得不让玩家们重新开始找投掷道具的瞄点。 找不同 这就和考驾照一样,考场上的一株野花、一块砖头,都是考生们驾驶时的参照物。你在考前把考场来个大翻新,看看考生们想揍你不。 如果说地图也可以慢慢熟悉、射击手感可以慢慢适应,那么最让人没法接受的,就是 CS 2 更新带来的 subtick ( 动态 tick )问题。 可能其他射击游戏的玩家不太关注这个东西,但它经常出现在 CS 玩家的讨论当中。 想知道什么是 subtick ,就得先了解什么是 tick 。 网游需要玩家电脑上的客户端和游戏服务器通信。而 tick 则是客户端每秒给服务器发送的数据包的数量。64tick 就是每秒发 64 个, 128tick 就是每秒发 128 个数据包。 数据包多了自然有好处,那就是让客户端和服务器联系更紧密。说人话,那就是你一梭子子弹下去, 64tick 的时候,可能会感觉到有些子弹明明打中人,但是没伤害,因为子弹命中的数据就没传出去。 换句话说, 128tick ,那就意味着开枪的时候,更能让玩家感觉到 “ 我打中就会造成伤害 ” 的感觉,不用再气的砸键盘。 除了影响射击之外,跳跃、投掷等重要动作也会受到影响,游戏玩多了,就感觉官方服务器的 64tick 和社区服务器的 128tick 之间简直天壤之别。 而 CS 2 搞得这个 subtick ( 动态 tick ),类似于手机的自适应刷新率, tick 也根据玩家的动作发生变化。不可否认这项改动确实比 CS :GO 先进不少,但还有另外一个问题,那就是沿用了 CS :GO 64tick 的旧服务器。 也就是说,V 社技术很不错,但硬件拉胯了。大概就相当于你有最新版本的 windows11 ,但它被安装在了二十年前的奔腾 3 笔记本上。 反正这么一手,就导致游戏出了很多问题,一些玩家没看到人就残血,或者躲进掩体还是被人打死。 尤其 CS 这游戏玩家还很多,人一多,服务器也有点顶不住,问题出现的频率也就越来越高了。这个看似给玩家谋福利的 subtick ,反而让游戏体验变差了。 总之,你要是玩习惯了 CS :GO ,看起 CS 2 ,哪哪都是毛病。 兴许 V 社也想到玩家们不太满意,于是他们来了招上屋抽梯。CS 2 的更新,不是新出一个游戏,而是直接把 CS :GO 给顶掉了。 原先 CS :GO 的商店页面、客户端、服务器。。。所有的东西,都被 CS 2 给牛走了。只剩下玩家在 steam 评论区气的跳脚。 现在,一堆前朝遗老( 非贬义 )们,已经开始想方设法复辟 CS :GO 往日辉煌了。 有人亲切教你如何通过更改游戏属性设置,来重新启动 CS :GO 客户端。 可惜的是,因为服务器没了,这种方法启动的游戏不能联机,只能欺负欺负电脑人了。 还有人另辟蹊径,教你玩 CS :GO 的社区服。 社区服就相当于你在本地客户端上进行游戏,但游戏是在非官方的社区服务器上进行的,所以逃过一劫,还能和网友进行对战。 绕过了服务器的限制,就能和之前一样玩 CS :GO 了。 现在的 CS 玩家们,要么在慢慢习惯 CS 2 ,要么就像上边说的一样,想方设法重返 CS :GO 时代。 不过有些非 CS 玩家可能发现了,上边提到的很多问题,除了恶性 bug 之外,玩家只要习惯和适应了就好。 很多玩过 CS 1.5 、 1.6 的人,倒也没那么反感 CS 2 。 可是为什么玩家不愿意像当年适应 CS :GO 一样去适应它呢? 不知道有多少人还记得, CS :GO 是一个 2012 年上线的老游戏,比那个经常被玩家调侃什么时候出 6 的 GTA5 ,还要早一年出现。 非射击游戏玩家对它的印象,大概也就是互相射击、下包拆包、解救人质、中路对狙以及 “ 怎么这么多人玩沙漠二这个图 ” 。 但亲身经历了 CS :GO 时代的人,才对这个游戏有更深的了解。 为了玩好这个游戏,玩家需要付出很大的精力去训练学习。在 CS :GO 的创意工坊里,身法训练、投掷物训练、爆头训练、枪线训练等一系列玩家自发制作的地图,常年是订阅热门。 可能玩家为了学会怎么从出生点往中路丢一颗烟雾弹,就要花上几周学习,再花上几周去实战中巩固,在学校里上课都没这么认真。 更何况, CS :GO 里又不是一张地图,需要掌握的烟雾弹、燃烧瓶投掷点也不只是两三个。 同时 V 社时不时还喜欢更新一下地图,之前沙漠二的匪方出生点多了一堵墙,引来全球玩家一顿喷。 这种看似微小的变化,对于玩家来说,那就意味着需要重新探索战术,少说也得几礼拜。 不去跟着学,那就会被学会的人戏耍,把把游戏像坐牢。学会了,那就更能发挥优势碾压对手,成就感爆棚。 十多年了,大家都是这样,一点点熟悉版本更新的小变化。当年那个网吧里鏖战一整夜的战神,也逐渐成了有小肚子的社畜。 就这样, CS 2 匆匆而来,最开始所有人心里都荡漾着喜悦,但直到游戏上线,才发现自己这么多年学到的东西,作废了一大半。面前的游戏熟悉又陌生,自己想要继续玩,那就要付出精力训练,重新走一遍这十一年的路。 但自己已经不是精力旺盛的年纪了,也抽不出那么多时间,没日没夜的泡在游戏里,只为了学会怎么旋转跳上 mirage 地图中路的 VIP 小房间。 永远有人正年轻,也有人终将老去。一些人被迫留在了上一个版本,心里挂念着那个清楚地图每个角落的 CS :GO 。 说到这里,小发突然理解了,为什么过了这么多年,还有人固执的在玩红色警戒 2 、在日复一日的砍传奇。 为什么用 war3 打 dota 的玩家,永远在说 dota1 的优秀, dota2 的无趣。 看完这篇文章,也许大家知道有一批不愿更新版本的玩家,还在做着关于 CS :GO 的美梦。 但又有多少人知道,在 CS :GO 鼎盛的这些年,依旧有大量的玩家守在 CS 1.6 里不出来,创建了无数个社区服务器,就连国外的老哥,都听过这批中国玩家们的痴迷。 现在的我们,和那批守在 CS 1.6 里的反恐精英们,又有什么区别呢。 撰文:张大东 编辑:莽山烙铁头 封面:焕妍
用暂停token重新训练大模型,AI学会三思而后行
梦晨 发自 凹非寺 让ChatGPT给出答案之前多想想步骤,就能提高准确率。 那么能不能省去提示词,直接把这种能力内化在大模型里呢? CMU与谷歌团队的新研究,在训练大模型时加入暂停token来实现这一点。 实验中,8项评测成绩提升,其中SQuAD的EM得分提高18%,CommonSenseQA提高8%,GSM8k中的推理任务也提高1%。 研究者Jack Hack表示,自己不久前就提出类似假设,很高兴看到它被验证。 英伟达工程师Aaron Erickson表示,是不是和人类说话时加入“嗯嗯啊啊”是一个道理? 预训练微调都加入暂停token 整个研究基于一个简单的想法: 在输入序列后面追加一系列(暂停token),从而延迟模型输出下一个token。 这可以给模型额外的计算时间来处理更复杂的输入。 作者不仅在下游任务微调时引入,还在预训练时就随机在序列中插入,让模型在两阶段都学习如何利用这种计算延迟。 预训练阶段,在语料库中随机插入一定比例的暂停token到输入序列,进行标准的自回归预训练。但计算损失时会跳过暂停token的预测。 下游任务微调时,输入中也追加一定数量的暂停 token,然后对目标序列进行自回归预测,同时微调模型参数。 推理阶段也追加相同数量的暂停token,但忽略模型输出直到最后一个暂停token,然后开始提取答案。 实验使用了标准的Transformer纯Decoder模型,分为130M参数和1B参数两个版本。 其中暂停token只增加了1024个参数,也就是它本身的embedding大小。 在9个不同任务上的实验表明,仅在微调阶段引入暂停token的效果并不明显,有些任务不会提升。 但如果在预训练和finetune阶段都使用暂停token,大多数任务上都获得显著提升。 论文还探究了暂停token的数量、位置等关键超参数。发现对于不同的模型通常存在一个最优的数量。 最后作者也提出,这项工作也有不少局限性。 由于暂停token增加了模型计算量,与其他方法对比是否公平还有待讨论 新方法需要重新预训练,在实际应用还有一定困难 对具体工作机制还缺乏深入理解 推理时如果暂停token数量为0,模型表现仍然不佳 搜索引擎You.com的CEO表示,接下来是不是应该把所有提高人类认知表现的技巧都对大模型试一试? 现在已经有了“一步一步地想”和“深呼吸”。 也许下一个爆款论文就是教大模型带着问题睡一觉或者更离谱的健康饮食、注意锻炼。
Meta Quest 3头显拆解:电池占据大部分空间
IT之家 10 月 15 日消息,Meta 公司近日推出了其最新的虚拟现实头戴式设备 Quest 3,为了探究这款设备的内部构造和维修难度,iFixit 团队对其进行了拆解。 Quest 3 相比于 Quest 2,最大的改变是其机身厚度薄了 40%,这得益于使用了 pancake 镜片,使得它们与显示屏之间的距离大大缩短。Quest 3 还配备了更大的电池 ——19.44Wh,而 Quest 2 只有 14Wh—— 以为其更强大的芯片和传感器供电,包括两个彩色摄像头、四个追踪摄像头和一个深度传感器。 iFixit 的拆解显示,由于机身变得更薄,而电池变得更大,移除前面板后,可以看到电池占据了大部分的内部空间。Quest 3 的机身(不含面罩和头带)重量为 397 克,电池也占其中相当大的比例。 IT之家注意到,一些其他的头戴式设备,如 Quest Pro 和 Pico 4,将电池放在后部的头带中,以减轻面部的重量,而苹果公司的 Vision Pro 则直接采用了外接电池,可完全减轻头部的重量。 iFixit 团队去年也对 Quest Pro 进行了拆解。有趣的是,他们发现 Quest 3 的深度传感器正好可以放入 Quest Pro 上空出来的一个插槽里,其实这个插槽本来就是为深度传感器预留的,但 Meta 在发布前几个月将其取消了。iFixit 称,深度传感器上的线缆甚至可以与 Quest Pro 主板上的连接器相匹配。 iFixit 给 Quest 3 给出了 4 分的维修难度评分(满分 10 分),认为这款设备缺乏维修手册、备件和维修意识设计。
逃离内耗的年轻人,跑进了 lululemon
追求快乐 也接纳 脆弱和恐惧 你在20-30岁对自己有疼痛感,这是特别正常的。 简里里在今年的 lululemon 「一起好状态」主题活动分享上说道。 她认为,这个时期其实是人在心理上最艰难的阶段 —— 我们还没对自我和世界拥有足够的认知,但却被「社会时钟」要求「成家立业」,这个错位造成的心理压力可想而知。 简里里是「简单心理」的创始人,她的工作日常更多是科普心理健康知识和以「简单心理」平台连接用户和心理咨询师。 简里里 今年已经是简里里成为 lululemon 门店大使的第四年。 她还记得当初受邀加入门店大使时,自己很高兴地发了条朋友圈,当时她有位特别认真练习瑜伽的朋友对此感到很困惑 ——「为什么?!」 毕竟大部分 lululemon 门店大使都是运动达人,只有她是属于心理健康领域的。 简里里(右一)和卢靖姗(右二)在活动上分享 当然,这困惑到了今天早已解开,在 lululemon 所倡导的「好状态」中,心理好状态也是重要的一环。 自 2021 年起,lululemon 都会发布《全球幸福感报告》和举办「一起好状态」主题活动,从身、心和社交三个维度评估和帮助人们追求「幸福感」。 三年过去了,大众对于心理健康的重视和理解程度早已发生改变,而 lululemon 的「幸福感」品牌价值呈现也愈加丰满,甚至以意想不到的方式走入大众视野。 寻找「小确幸」,也拥抱脆弱 艺术家 Jeremyville 为「一起好状态」创作的作品 《全球幸福感报告》来到第三年,中国大陆也连续三年的幸福感指数都高于全球平均。 和 2021 年相比,现在人们会更主动地去追求幸福感,从日常生活中寻找「小确幸」 —— 加入免费或低成本的运动课程、参加社区活动、在家做饭、培养不花钱的爱好,和所爱之人共度时光以及宅家。 运动也是一种获得幸福感的主要方式,但如何运动却因人而异。 75% 的受访者更倾向以自己感受良好的方式运动,而非遵循特定的流程。65% 的受访者认为,相较独自进行运动,社区活动更有利于其获得幸福感。 然而,在更多人自我认同为「i 人」的当下,我们又应如何从社区或者是其他社交活动中找到自在和幸福感? 简里里建议我们去「探索」: 我觉得绝大多数人都是需要社交的…… 它是需要探索的,有点像穿衣服可能也要试一段时间,你才知道你适合什么样的风格,我觉得社交也是。 人当然不是都要外向才是好的。每个人是应该付出些努力来探索什么样的社交是令我开心的。 追求快乐的同时,人们也更愿意去拥抱脆弱。 相较 2021 年,更多人认同幸福感来自于「倾听内心」,日益尊重边界感、也在努力接纳脆弱情绪。 66% 的受访者认为,想要达到良好的心理状态,必须要充分感受自己的各种情绪。 69% 的人希望可以表达自己的真实感受,而不是去假装「一切都好」;64% 的人希望其表达情绪的行为能为社会接纳;42% 的人认为社会对心里幸福感水平较低的人存在偏见。 其中,又数男性和 95 后最「表达困难」。 68% 的 95 后受访者表示自己更倾向于隐藏情绪,也更少会去向家人表达自己的需求。正如文章开篇指出,95 后其实处于一个心理压力特别大的阶段。 至于男性群体,62% 的男性受访者不希望自己因为渴望提升幸福感而被评判,53% 的男性受访者感觉性别规范让他们难以表达自己的情绪。 我们仍然会想去寻找改善的出口,但和过去不同的地方在于,现在讨论的氛围可以让我们先承认「情况本来就很难」。 幸福感不仅仅是积极、阳光、向上的,它同时也包含我们所在追求幸福感的过程中,当你付出努力的时候,不可避免地要经历挫折感,难过的感受,还有负面情绪。 简里里指出,心理健康是指心理是有「弹性」的 —— 遇到高兴的事情会高兴,遇到难过的事情会悲伤。 情绪波动是正常的,也是生活体验多样性的一部分。 艺术家 Jeremyville 为「一起好状态」创作的作品 疫情后,心理学似乎已经成为了一种「显学」,出现在我们的日常对话和综艺节目中,更多年轻人想摆脱「内耗」,走出「倦怠」,品牌也随机似的纷纷向消费者投出「治愈」的信号,希望可借此拉近用户「心距离」。 lululemon 的情况有点不同,它对心理健康的关注更像是一种由内而外溢出的「场」。 制造幸福的「泡泡」 现在的年轻人不仅想感受 lululemon 的产品,他们还想感受 lululemon 里的生活。 不少在大厂里熬坏了的年轻人,都选择了到 lululemon 做兼职,和高能量的同事共事,拿着公司的「热汗津贴」去为健康和快乐运动,这就是最新的「职场 Gap Year」。 成为门店大使后也跟着 lululemon 员工一起运动的简里里坦言,自己也曾一度有过同样的心动: 在 lululemon 的活动上,你能看到所有人的状态看起来都很好,会有种氛围让你觉得,「我也想拥有那些快乐」。 甚至,日常要给别人做心理咨询的简里里在 lululemon 里反而变成了那个被人关怀的人。 你只要去到店里,每个人都会来跟你拥抱,无论在店里,在我们出去运动的场合,大家所有人都会来和你拥抱。 我觉得其实他们对我的心理健康帮助还蛮大的。 在简里里看来,这个印象也侧面反映了 lululemon 成为了一种健康的符号,投射了年轻人对健康和快乐的渴望。 这其中自然有公司文化的影响。 在面向公众推出更多心里健康相关活动之前,lululemon 已经为内部员工提供了相关的支持。 在疫情期间,lululemon 也为员工提供线上的健身和心理健康课程。对于管理者来说,lululemon 还会提供心理健康急救训练,确保他们拥有足够资源去支持健康相关的对话。 在 2022 年,lululemon 还宣布了一个新目标 —— 在 2023 年向所有员工提供心理健康急救培训。lululemon 高管 Angela Wright 解释道: 该训练将教授参与者如何辨识情绪焦虑的信号, 并帮助他们连接恰当的资源,包括我们自己的心理健康福利。 作为一家起源和根植于瑜伽的运动生活方式公司,lululemon 扩展品类后在核心价值上仍然保持了瑜伽运动的「内向性」—— 运动不是为了竞赛,而是鼓励人更多地感受自己的身体和心理感受,去寻找一种喜欢的状态。 这也是为什么当简里里在 lululemon 社区活动上现身时并不会显得突兀 —— 习练完一场瑜伽后,再接上向内的心理探索,似乎再自然不过。 联合上早已印在 lululemon 品牌 DNA 里的「社区」理念,身心健康和社交健康组成了丈量和追求「幸福感」的三个维度。 这也成为了 lululemon 和其他品牌的价值差异所在。 新兴品牌可能也想以「社区」的模式去复制 lululemon 的成长,但更深层的问题在于,你想通过这些活动去传递什么价值? 到了现在,这种对心理健康的重视已越来越多地「外化」至面向公众的活动中。 2021 年,lululemon 成立了「社会影响力中心(Centre for Social Impact)」,通过慈善公益、调查研究和宣传活动,支持全球各地的社区。项目的目标是在 2025 年前,向全球和当地社区至少投入 7500 万美元,并为全球超过 1000 万人次带来积极影响。 2023 年,lululemon 携手中国宋庆龄基金会和上海慈善基金会,支持偏远地区青少年及弱势群体的身心健康发展。今年 8 月,lululemon 正式成立全球心理健康咨询委员会,助力公司推动心理健康领域的交流对话和最佳实践。 来到「一起好状态」主题活动第三年,lululemon 这周在上海徐汇滨江设置了长达 3 公里的「好状态艺动长廊」,展出一系列以「好状态」为主题的巨幅艺术作品。 在这为期一周的活动里,lululemon 还和门店大使、社区伙伴等联手开展不同的运动课程和「好状态」主题对话。 正是在这些公共空间,人人都可以靠近的地方,lululemon 最能施展它的「魔力」。 它就像一个个洋溢着快乐和美好的泡泡,诱惑着路过的行人探进去感受。
为了自保,印尼给600万带货商家判了“死刑”
印尼的 TikTok 卖家,遭遇了一场 “ 灭顶之灾 ” 。 上个月末,在大家都还美滋滋等放国庆假时,印尼颁布了 2023 年贸易部长第 31 号法规,直接给了各大电商平台当头一棒。 这个禁令此次的目的也很明确,那就是限制直播社交平台搞电商。 让社交媒体和电商这两块业务桥归桥、路归路,各自走各自的阳关道。 要说这次整治谁受影响最大,那肯定非 TikTok 上的直播带货莫属了,毕竟在印尼, TikTok Shop 算是发展得最红火的新晋小生。 虽然 2021 年 2 月才正式进入印尼市场,但凭借着 TikTok 积累的上亿用户,再加上直播带货这种把流量利用到极致的模式, TikTok 从两大电商巨头 Shopee 和 Lazada 嘴里抢了不少食。 在 TikTok 电商初登印尼市场的第一年,它在东南亚的 GMV 还只有 6 亿美元,第二年这个数字直接跟滚雪球一样,到了 44 亿美元。 和东南亚其他各国相比,印尼这增长速度和带货量直接甩了它们一大截。 看印尼市场表现这么好, TikTok 直接信心大增,本来预计今年电商的总GMV 目标是 200 亿美元。 只不过,现在印尼使出这么一招儿,别说 200 亿美元的 GMV ,连店都被掀了。 10 月 4 日,进入印尼市场还不满 30 个月的 TikTok Shop 正式关门歇业,上面 600 万的印尼商家们也突然没了 “ 家 ” 。 而且关停的时间节点刚好卡在双十一前。很多大促活动都已经开始预热,不少厂商早已经提前囤货备货到了印尼。 现在条例一出,全傻眼了, 别说卖货赚钱,囤的这些成本甚至可能要拖垮无数商家。 这波操作直接让不少网友疑惑,为什么法规颁布的这么突然?合着连印尼也要开始制裁中国了?? 其实说实话,印尼这次还真和美国、印度的那种乱搞不一样,印尼更多是为了自保。 因为自从 TikTok Shop 来到印尼之后,它 “ 算法掌握喜好推产品,再卷低价强市场形成垄断 ” 的打法,已经对印尼本地的商业生态产生了一定的冲击。 而它之所以有底气卷低价,是因为它背后更多地依赖中国内部的供应链,而比较少地选择印尼当地的产品。 毕竟和印尼本地的供应链相比,中国的厂家和商品竞争力都更强。 站在印尼的角度,这些平台不仅抢了本地电商平台的蛋糕,还让印尼的商业生态严重依赖外资卖家。 据印尼合作社和中小微企业部长 Teten 的调查,自从 TikTok Shop 进军印尼以来,实体商家的利润损失超过了 50% 。 这换谁肯定都不会乐意吧。。。 于是,印尼为了不让国外的供应链影响自己的生产业生态,才搞出所谓的 31 号条例。 当然,禁令也不只不让社媒搞电商这一条,同样对电商平台有很大影响的,还有对跨境商品的限制。 这条也是相当严格,不仅设置了一些跨境商品白名单,规定能进口的商品种类,还搞了个 100 美元的跨境购买商品价格最低限度,也就是说,低于这个价,就不能直接从国外购买。 什么概念呢, 100 美元大概 730 块的人民币,等于是跨境买衣服、包包、化妆品这些评价便宜的东西直接没戏了。。。 但一位之前做印尼市场的朋友和我说,销往东南亚市场的,绝大部分是廉价商品,主要集中在美妆、饰品之类的小物件。 而且当地人比较看重低价,商品单价都不高,比如你看今年 7 月的印尼销量榜,前三名售价分别是 31 元、 4 元和 45 元。 印尼这波的意思已经很明显了,就是中低端产品的生意,跨境电商你别和我本地的厂商抢。 总之 之后在印尼,这些电商平台再想靠卷低价策略攻占市场恐怕行不太通了。 另外像是越南,之前也已经暗地里对 TikTok 调查了五个月时间。最近公布了他们的调查结果:TikTok 违反了多项规定,要求 TikTok 在 30 天内整改。 10 月 7 日,马来西亚也表示会调查禁止社媒电商的计划,还考虑制定一些适当的措施。 尽管后续他们的电子商务委员会主席也出面说,封禁会对中小微企业、短视频和电商从业者带来严重损害。 但会有其他东南亚国家跟进限制,应该是一件板上钉钉的事了。 之前在欧美那边做 TikTok 的朋友还和差评君说,很馋在东南亚做生意的人。政府不监管,线下实体又不发达,完全就是一个自由市场,大家都可以放开手脚做生意。 相反,欧美不光用户购物欲不强,还有各种隐私监管。没想到,短短几个月时间,东南亚市场也要变天了。 尽管这次印尼做出这个决定有自己的考量在,但轻飘飘的一份禁令,给上百万的从业者的生活带来的影响已经不可逆了。 面对这样一场 “ 灾难 ” ,从业者们开始了互相搀扶的自救。 在事件发生之后,一份《 Tiktok Shop ID 灾后重建指南 》的飞书文档在从业者们的朋友圈疯传。从主播、运营们的工作问题,到商家货物甩卖途径、资源对接群等等,所有可用信息事无巨细。 如果你被裁员了,或者陷入换工作的处境中,文档提供了大量的找工作交流群。招聘者们也会在群里的文件里,填上自己的招聘需求。这些需求都会转到群里,供求职者参考。 还有各种自救的办法,包括教主播们怎么转向 Shopee 这些平台,自己找货源开播带货。 如果你实在需要应急,没有关系,他们甚至建立了一个临时的救济机构,帮助大家渡过难关。 对于被迫关停店铺们,文档也整理和概括了 7 种可能的自救路径。比如换平台,抛售商品,或者是转向其他国家的 TikTok Shop 。 但看到这,差评君依然还是觉得忧心,因为很多办法其实都只能暂时维持 “ 生命体征 ” 。 比如最简单的转平台,把店铺搬到 Shopee 和 Lazada 上去,大部分人现在也是这样做的。 但是朋友和我说,直播电商是流量变现效率最高的形式,是Shopee 、 Lazada 这种传统货架所不能比的。 被迫前往其他平台,对于直播卖家来说就是流量大降级。 去年最大的一个带货主播 一年就给 TikTok 电商带来了 3000 万人民币的GMV 如果转到其他东南亚国家去,我们也预测过后续其他国家都有可能会跟进措施。逃到越南,也只能解解近渴。 问题似乎看起来是无解了,但是,文档中有引用了这样一句话: 存人失地,人地皆存;存地失人,人地皆失。 差评君觉得翻译过来就是,人们的需求确确实实存在,并且很旺盛。原本 TikTok Shop 全托管项目,在今年年底的单月目标是 3000 万美金。 而中国的这批商家们,拥有着最成熟的机制和经验,强大的制造和供应能力。 在这样的情况下,找到下一个机会,仅仅只是时间问题。 当然,印尼也没把 TikTok Shop 的路给堵死,它还有独立出来的机会,因为按照规定,只要它不把社交媒体和电商捆绑到一块就行。 总之东南亚电商圈儿的海啸已经掀了起来,而下个浪会往哪里打,咱们只能边走边看了。 撰文:松鼠&四大 编辑:江江&面线 封面:焕妍
佳能售卖5nm芯片生产设备,国产电动MINI下线,FTC对微软提诉讼,印度放弃笔记本、平板等进口限制,这就是今天的其他大新闻
今天是10月14日 农历八月三十 英雄联盟的 S13 和刀塔的 TI13 最近都开赛了 离谱的是米哈游的《崩坏:星穹铁道》 竟然赞助了个刀塔战队 一款游戏赞助另外一款游戏的战队 这是什么操作啊? 下面是今天的其他大新闻 # 非光刻方案,佳能开始销售 5nm 芯片生产设备 ( IT 之家 )佳能( Canon )公司近日发布新闻稿,开始销售芯片生产设备 FPA-1200NZ2C,可以制造 5 nm 芯片。 佳能表示这套生产设备的工作原理和 ASML 不同,并非光刻,而更类似于印刷,没有利用图像投影的原理将集成电路的微观结构转移到硅晶圆上。 这套设备可以应用于最小 14 平方毫米的硅晶圆,从而可以生产相当于 5nm 工艺的芯片。佳能表示会继续改进和发展这套系统,未来有望用于生产 2nm 芯片。 :ASML 的饭碗,怕是越来越不稳了啊。 # 国产电动 MINI 首车在光束汽车张家港工厂下线 ( IT 之家 )多个车媒、博主今日发文称,由宝马、长城联手打造的国产 MINI 纯电动汽车首批车型已于近日在光束汽车张家港工厂正式下线。 根据此前报道,宝马汽车今年 9 月宣布,下一代 MINI 纯电动车型将在中国投产,由宝马集团与长城汽车合资的光束汽车将成为新车的全球首产地和主要出口基地。 按照规划,下一代纯电动 MINI 车型包含一款三门 MINI Cooper 和一款紧凑型跨界车。两款新车在光束汽车工厂相继投产,面向国内市场和国际市场提供。具体时间方面,国产 MINI 纯电车型将于 2024 年出口海外市场。 :反正老款的燃油版 MINI,编辑部已经有三辆了。 # FTC 仍在“硬扛”:坚持认为微软收购暴雪会威胁游戏行业竞争 ( IT 之家 ) 在得到英国监管机构 CMA 同意之后,微软宣布完成对动视暴雪的收购后,美国联邦贸易委员会( FTC )依然在“ 硬扛 ”,仍然计划对微软提起诉讼。 FTC 发言人表示:微软和动视暴雪在定于 12 月举行的上诉法院听证会之前完成了交易,但我们依然推进联邦上诉程序。 微软和动视、育碧的新协议为合并带来了全新内容,必然影响美国消费者,联邦贸易委员会正按照行政程序展开评估,仍然认为该交易对竞争构成威胁。 :看完 FTC 的发言,索尼怕是像小鸡啄米一样,疯狂点头赞同。 # 印度称不会对笔记本、平板等施加进口限制 ( IT 之家 )10 月 14 日消息,印度曾于今年 8 月宣布进口限制令,对笔记本、平板电脑等产品实施进口许可证要求限制。而最新消息称,印度政府计划放弃这项进口限制措施。 根据此前报道,印度的这项进口限制策略,原本计划在 8 月立即生效,但遭到多方压力之后,宣布延迟 3 个月,随后再次宣布延迟 1 年。 印度贸易部长在本周五召开的新闻发布会上,则公开表示:“ 不会对笔记本电脑进口施加限制,但政府会密切关注进口情况 ”。 :翻译一下,应该是嫌弃韭菜还没长够,又开始开园育苗了。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。