EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
微软CTO坚信大型语言模型的“规模定律”依然奏效,未来可期
IT之家 7 月 16 日消息,微软首席技术官(CTO)凯文・斯科特(Kevin Scott)上周在接受红杉资本旗下播客采访时,重申了他坚信大型语言模型 (LLM) 的“规模定律”将继续推动人工智能进步的观点,尽管该领域一些人怀疑进步已经停滞。斯科特在推动微软与 OpenAI 达成 130 亿美元的技术共享协议方面发挥了关键作用。 斯科特表示:“其他人可能持不同观点,但我认为规模化并未达到边际收益递减的临界点。我想让人们理解这里存在着一个指数级提升的过程,遗憾的是,你只能每隔几年才能看到一次,因为建造超级计算机然后用它们训练模型都需要时间。” 2020 年,OpenAI 研究人员探索了 LLM 的“规模定律”,该定律表明,随着模型变得更大(参数更多)、训练数据更多以及拥有更强大的计算能力,语言模型的性能往往会呈可预测的提升。这一定律意味着,仅仅增加模型规模和训练数据,就能够显著提升人工智能能力,而无需取得根本性的算法突破。 然而,此后也有其他研究人员对“规模定律”的长期有效性提出质疑。不过,该概念仍是 OpenAI 人工智能研发理念的基石。斯科特所持的乐观态度与部分人工智能领域批评人士的观点形成鲜明对比,一些人认为,大型语言模型的进步在类似 GPT-4 的模型级别已经停滞不前。这种观点主要基于对谷歌 Gemini 1.5 Pro、Anthropic 的 Claude Opus 以及 OpenAI 的 GPT-4o 等最新模型的非正式观察和一些基准测试结果。一些人认为,这些模型并没有像前几代模型那样取得飞跃性的进步,大型语言模型的发展可能正在接近“边际收益递减”的阶段。 IT之家注意到,人工智能领域著名批评人士 Gary Marcus 在今年 4 月写道:“GPT-3 明显优于 GPT-2,GPT-4(发布于 13 个月前)也明显强于 GPT-3。但之后呢?” 斯科特所持的立场表明,像微软这样的科技巨头仍然认为投资大型人工智能模型是合理的,他们押注于持续取得突破。考虑到微软对 OpenAI 的投资以及大力营销自家的人工智能协作工具“Microsoft Copilot”,该公司强烈希望维持人工智能领域持续进步的公众认知,即使技术本身可能遇到瓶颈。 另一位人工智能领域知名批评人士 Ed Zitron 最近在其博客上写道,有些人支持继续投资生成式人工智能的一个理由是,“OpenAI 掌握着我们不知道的某种技术,一项强大而神秘的技术,能够彻底击溃所有怀疑者的质疑。”他写道,“但事实并非如此。” 公众对大型语言模型能力提升放缓的认知,以及基准测试的结果,部分原因可能在于人工智能最近才进入公众视野,而事实上,大型语言模型已经发展多年。OpenAI 在 2020 年发布 GPT-3 之后的三年中一直持续研发大型语言模型,直到 2023 年发布 GPT-4。许多人可能是在 2022 年底利用 GPT-3.5 开发的聊天机器人 ChatGPT 上线后才开始意识到类似 GPT-3 的模型的强大功能,因此在 2023 年 GPT-4 发布时才会觉得能力提升巨大。 斯科特在采访中反驳了人工智能进步停滞的观点,但他同时也承认,由于新模型往往需要数年才能开发,因此该领域的数据点更新的确较慢。尽管如此,斯科特仍然对未来版本的改进充满信心,尤其是在当前模型表现不佳的领域。 “下一个突破即将到来,我无法确切地预测它何时出现,也不知道它会取得多大的进步,但它几乎肯定会改善目前那些不够完善的方面,比如模型的成本过高或过于脆弱,让人难以放心使用,”斯科特在采访中表示,“所有这些方面都会得到改善,成本会降低,模型会变得更加稳定。届时,我们将能够实现更加复杂的功能。这正是每一代大型语言模型通过规模化所取得的成就。”
大模型集体失智!9.11和9.9哪个大,几乎全翻车了
没眼看……“9.11和9.9哪个大”这样简单的问题,居然把主流大模型都难倒了?? 强如GPT-4o,都坚定地认为9.11更大。 谷歌Gemini Advanced付费版,同样的口径。 新王Claude 3.5 Sonnet,还一本正经的给出离谱的计算方法。 9.11 = 9 + 1/10 + 1/100 9.9 = 9 + 9/10 到这一步还是对的,但下一步突然就不讲道理了 如上所示,9.11比9.90大0.01。 你想让我进一步详细解释小数的比较吗? 这你还解释啥啊解释,简直要怀疑是全世界AI联合起来欺骗人类了。 艾伦AI研究所成员林禹臣换了个数字测试,GPT-4o依旧翻车,他表示: 一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。 也有网友发现了华点,如果是说软件版本号,那么9.11版本确实比9.9版本更大(更新)。 而AI都是软件工程师开发的,所以…… 那么,究竟是怎么回事? 先进大模型集体翻车 一觉醒来,一众响当当的大模型开始认为“9.11>9.9”了? 发现这个问题的是Riley Goodside,有史以来第一个全职提示词工程师。 简单介绍下,他目前是硅谷独角兽Scale AI的高级提示工程师,也是大模型提示应用方面的专家。 最近他在使用GPT-4o时偶然发现,当提问: 9.11 and 9.9——which is bigger? GPT-4o竟毫不犹豫回答前者更大。 面对这一常识性“错误”,他不死心地又去问了其他大模型,结果几乎全军覆没。 好家伙,身为一名提示工程师,他敏锐意识到可能是“打开方式有误”。 于是他又换了个问法,将提问限定在“实数”,结果还是翻车了。 不过,有网友试着给提问换了个顺序,没想到这下AI竟反应过来了。 看到AI对词序如此“敏感”,该网友进一步推测: 先问哪个更大,AI会沿着明确路径开始比较数字。 但如果只是随便说说数字,没有明确目的,AI可能会开始“胡思乱想”。 看到这里,其他网友也纷纷拿相同提示试了一把,结果翻车的不在少数。 面对这一个诡异的问题,国产大模型表现如何呢? 我们简单测试一番,问题也换成中文提问,结果翻车率也比较高,选取几个有代表性的展示: Kimi也是不加解释就直接给出错误结论。 智谱清言APP上的ChatGLM,自动触发了联网查询,然后描述了自己的比较方法,可惜却执行错了。 不过也有表现不错的,腾讯元宝先复述了一遍选项,然后直接做对。 字节豆包是少数能把比较方法描述清楚,而且用对的。甚至还联系实际举例来验证。 比较可惜的是文心一言,面对这个问题,也是触发了联网查询。 本来都已经做对了,但突然话锋一转又导向了错误结论。 不过从文心一言的思路解释上,也可以看出背后问题所在。 由于大模型以token的方式来理解文字,当9.11被拆成“9”、“小数点”和“11”三部分时,11确实比9大。 由于OpenAI使用的Tokenizer开源,可以用来观察大模型是如何理解这个问题。 上图可以看出,9和小数点分别被分配为“24”和“13”,小数点后的9同样也是“24”,而11被分配到“994”。 所以使用这种tokenizer方法的大模型会认为9.11更大,其实是认为11大于9。 也有网友指出,像是书籍目录里第9.11节也比第9.9节大,所以最终可能还是训练数据里见这种见得多了,而手把手教基础算数的数据很少。 也就是问题本身对人类来说,一看就知道问的是算数问题,但对AI来说是一个模糊的问题,并不清楚这两个数字代表什么。 只要向AI解释明白这是一个双精度浮点数,就可以做对了。 在有额外条件的情况下,tokenizer这一步依然会给11分配更大的token。但是在后续自注意力机制的作用下,AI就会明白要把9.11连起来处理了。 后来Goodside也补充,并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时,许多领先模型都会告诉你9.11>9.9,这很奇怪。 经过反复尝试后他发现,想让AI上这个当,需要把选项放在提问前面,如果调换顺序就不会出错。 但是只要选项在问题前面,改变提问的方式,如加标点、换词汇都不会有影响。 虽然问题很简单,错误很基础。 但了解出错原理之后,许多人都把这个问题当成了检验提示词技巧的试金石,也就是:用什么提问方法能引导大模型的注意力机制正确理解问题呢? 首先,大名鼎鼎的Zero-shot CoT思维链,也就是“一步一步地想”,是可以做对的。 不过角色扮演提示,在这里作用就有限了。 刚好最近也有微软和OpenAI都参与的一项研究,分析了1500多份论文后发现,随着大模型技术的进步,角色扮演提示不像一开始那样有用了…… 具体来说,同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。 也是让人哭笑不得了。 One More Thing 与此同时,路透社的OpenAI秘密模型「草莓」泄漏消息更新了。 更新内容为:另一位线人报告,OpenAI已经在内部测试了新模型,在MATH数据集上得分超过90%。路透社无法确定这是否与“草莓”是同一个项目。 MATH数据集包含竞赛级别的数学题,目前不用多次采样等额外方法,最高分是谷歌Gemini 1.5 Pro数学强化版的80.6%。 但是OpenAI新模型在没有额外提示情况下,能不能自主解决“9.11和9.9哪个大?”。 突然没信心了,还是等能试玩了再看结果吧……
微软放弃OpenAI观察员席位,能避免反垄断审查吗?
“仅仅放弃理事会观察员席位,很难让监管机构放弃对微软与OpenAI的反垄断调查,关键在于微软对OpenAI是否具有“决定性影响力”。 由于担忧反垄断调查,微软、苹果陆续放弃了在OpenAI理事会的无投票权观察员席位。 据媒体报道,微软放弃观察员席位,旨在缓解反垄断机构关于其对OpenAI控制力和影响力的担忧。 在此之前,微软与OpenAI的合作已引发多国监管机构的注意。 截至发稿前,最近的表态来自欧盟。 2024年6月28日,欧盟委员会执行副主席、竞争事务专员玛格丽特·维斯塔格表示,欧盟正重新了解微软与OpenAI协议中的“某些排他性条款”是否会对竞争对手产生负面影响。此前,欧盟委员会曾对微软是否获得了OpenAI长期控制权进行调查,最终并未得出确切的结论。(详见:又被欧盟盯上,微软与OpenAI的“特殊关系”不断引发担心) 此前的2024年1月,美国联邦贸易委员会(FTC)宣布对Alphabet、亚马逊、Anthropic PBC、微软和OpenAI发出调查令,要求其披露近期关于AI投资和合作的信息。7月11日,FTC宣布已介入调查包括微软在内的 5 家主要科技公司,调查将重点审查各公司在 AI领域的投资、合作过程中是否存在垄断行为。 更早之前的2023年12月,英国竞争和市场管理局(CMA)宣布就微软和OpenAI之间的合作关系,相关行为是否会导致合并,以及对英国相关市场竞争格局带来的影响征求意见。但征求意见并非正式调查,一般会在正式启动第一阶段调查之前进行。 有媒体引述美国联邦贸易委员会(FTC)一位消息人士称,微软退出OpenAI理事会不太可能缓解FTC的担忧。但这位消息人士也表示,这表明微软看到了巨大的潜在反垄断风险,并正试图抢占先机。 苹果与OpenAI的合作也逐步引发关注。6月,苹果宣布了与OpenAI的战略合作,将ChatGPT聊天机器人集成到iPhone、iPad和Mac设备中。当地时间7月3日,有消息称,苹果应用商店App Store负责人 Phil Schiller将加入OpenAI理事会担任观察员。在微软宣布退出OpenAI理事会后,有媒体报道称苹果也将放弃观察员席位,但苹果尚未回应上述消息。 微软和苹果的举动,能否缓解各国监管对于科技巨头合作的担忧? 多位业内人士及专家认为,两家公司若只放弃在OpenAI的理事会观察员席位,很难让FTC放弃反垄断调查。 01 微软对OpenAI影响力日渐增加 当地时间7月9日,微软在致OpenAI的一封信中表示,之所以立即放弃观察员席位,是因为微软认为OpenAI理事会已经稳定下来,没必要继续参与。微软在信中表示:“过去八个月,我们见证了新成立的董事会取得的重大进展,我们对公司的发展方向充满信心。” 而OpenAI对此表示,将采取一种新的方式“通知和吸引关键战略合作伙伴”——微软和苹果以及 Thrive Capital 和 Khosla Ventures 等投资者,并定期召开会议向利益相关者通报进展情况,以确保在安全和保障方面加强合作。 值得注意的是,微软、苹果与OpenAI的合作并非传统的股权投资或并购。 OpenAI的组织架构是由非营利实体OpenAI Inc.及其理事会控制的营利性子公司 OpenAI Global LLC 组成。根据美国《哈特-斯科特-罗迪诺反垄断改进法案》,涉及非营利组织的交易通常不受通常的合并前申报要求的约束,这也就意味着微软对OpenAI的投资或可免于监管审查。 中国人民大学财政金融学院教授、应用金融系主任郑志刚此前曾表示,OpenAI的非营利组织定位对规避可能的反垄断调查是具有“先见之明”的。他分析,由于OpenAI本身强调公益性与合作,尽管微软等的投资比重很大,但并不具有控制性股东的权利。 而OpenAI在其理事会中设立的观察员席位,郑志刚认为有两种含义:一是对投资人投资权益的保障机制;二是确保经营权和所有权的分离。在这一安排下,微软可以获取更多OpenAI的信息,确保其投资安全。微软在理事会并不具有投票权,因此也不会对理事会产生实质性影响。 公开资料显示,OpenAI成立至今,微软共向其投资130亿美元,但微软并不持有该公司的股权。根据该公司的“利润上限”架构,微软将有权获得OpenAI的75%利润,直至收回其130亿美元投资;在OpenAI的利润达到920亿美元后,微软在该公司利润分配比例将下降到49%,剩余49%的利润由其他风险投资者和OpenAI员工作为有限合伙人分享;在利润达到1500亿美元后,微软和其他风险投资者的股份将无偿转让给目前负责OpenAI LP投资管理的普通合伙人——OpenAI Nonprofit。 从表面来看,特殊的治理架构使得微软不会对OpenAI产生深刻影响,而OpenAI对待与微软的合作关系也态度谨慎。此前,OpenAI在其网站上将微软描述为“少数股东”。但在2023年底英国宣布对两者的关系征求意见时,OpenAI悄然将措辞改为微软在OpenAI仅持有“少数经济利益”。 但多方信息显示,微软对OpenAI的影响力与日俱增。 据媒体报道,一位知情人士透露,自2022年11月推出 ChatGPT 以来,OpenAI 内部一直对商业方向存在分歧,包括追求和投资哪些产品。一些 OpenAI 高管感受到了微软要求其加快商业化的压力,因为微软“希望部署人工智能产品、成为人工智能领导者并赚钱”。 此后,在平息OpenAI“宫斗”风波中,微软也起到重要作用。风波后,微软副总裁迪·坦普尔顿作为观察员加入OpenAI理事会。该观察员可以列席OpenAI理事会会议并获取关键信息,但在OpenAI选举等重大事项事项上不具备投票权。(详见:从“权利的游戏”到“人民的名义”,OpenAI是否会陨落?) 伴随在产品等方面的合作,苹果公司对OpenAI施加的影响,也开始引发监管机构关注。 6月,在苹果全球开发者大会(WWDC)上,苹果宣布将ChatGPT集成到iPhone、iPad和Mac设备中。有报道称,根据合作协议,苹果不需要直接向OpenAI支付任何费用或报酬。苹果认为,将ChatGPT集成到数亿部苹果设备上,有望帮助OpenAI吸引更多新用户,并有可能带来付费订阅收入。其产生的价值等同于甚至超过ChatGPT为苹果带来的好处。 当地时间7月3日,有消息称,苹果应用商店App Store负责人 Phil Schiller将加入OpenAI理事会担任观察员,但仅一周后(当地时间7月10号),又有消息称,苹果将放弃这一观察员席位。就在此前一天(当地时间7月9日),微软宣布退出OpenAI理事会。 02 是否具有“决定性影响力”是关键 有媒体援引知情人士指出,微软放弃OpenAI理事会观察员席位,不太可能缓解FTC对两者合作关系的担忧。 德恒律师事务所硅谷办公室负责人朱可亮表示,监管对于微软、苹果与OpenAI合作关系的反垄断忧虑,关键看这些公司对于OpenAI有多少实际的控制力和影响力。对于实际控制力和影响力的判定需要视具体情况而定,比如这些公司有没有别的方式影响甚至决定OpenAI。 科伟史密夫斐尔联营办公室合伙人徐明妍同样表示,仅仅放弃理事会观察员席位,很难让FTC或欧盟委员会放弃反垄断调查。 徐明妍此前表示,从反垄断的技术层面,可以从两个不同的维度看待微软与OpenAI的合作。 其一是常规维度,即微软是否通过交易获得了对OpenAI的控制权,控制权主要通过公司治理体现,例如是否获得了30%以上的股权比例,是否获得重大事项一票否决权,是否委派高级管理人员。 其二是非常规维度,即企业之间是否通过一些协议使得A企业获得了对B企业商业决策的影响力。即使A不是B的股东,A对B没有任何的表决权和否决权,但如果A和B签订了一系列协议,这些业务上的协议导致A能够决定B的生死存亡或者商业战略,A就获得了对B的控制权。 从表面上看,微软与OpenAI的合作并不复杂。 2019年7月,微软宣布将向OpenAI投资10亿美元,双方在微软的Azure云计算服务上合作开发人工智能超级计算技术,作为交换,OpenAI 同意将其部分知识产权许可给微软,并逐步将云计算服务从谷歌云迁移到Azure。 2021年,微软再次向OpenAI投资20亿美元,Azure OpenAI集成GPT-3模型,用户可以直接通过相关API进行调用。 2023年1月,微软宣布与OpenAI进一步扩大合作关系,追加投资100亿美元,加速人工智能领域的技术突破与转型。 徐明妍表示,微软是否对OpenAI是否具有事实上的决定性影响力,还需要更深层地观察。决定性影响力在反垄断法中是一个与控制权具有同样权重的经典概念。 例如,目前微软通过利润上限架构有权获得OpenAI的利润,且在OpenAI“宫斗”风波中,微软发挥了其巨大的影响力使得当时已经离职的前OpenAI CEO山姆·奥尔特曼复职;在投资和资金支持层面,微软对OpenAI进行了多轮投资,这些资金帮助OpenAI发展其先进的人工智能技术和产品;在云计算和技术基础设施层面,OpenAI使用微软的Azure云平台作为其主要的计算基础设施,Azure提供了强大的计算资源,使得OpenAI能够训练和部署其复杂的人工智能模型。此外,根据双方的协议,微软成为OpenAI在云计算领域的独家合作伙伴。这意味着OpenAI将主要依赖微软的Azure平台进行其所有云计算任务。 通过这些合作,微软不仅在财务上而且在技术上支持了OpenAI的发展,可以说,没有微软的支持就没有OpenAI的今天,并且OpenAI还将在未来继续深度依赖微软。事实似乎表明,微软对OpenAI具有决定性影响力。 欧盟此前已在反垄断实践有涉及决定性影响力的经典案例。徐明妍介绍,欧盟法院指出,纯粹的经济关系可能在获得控制权方面起决定性作用。经济依赖的情况可能会导致事实上的控制,例如,当非常重要的长期供应协议或由供应商或客户提供的信贷,再加上结构性联系,赋予决定性影响力。欧盟委员会曾经审查了 CCE(最大的可口可乐产品装瓶商)对英国企业Amalgamated Beverages GB的收购案。在该案例中,可口可乐没有通过股权获得对Amalgamated Beverages GB控制权,然而欧盟委员会认为,CCE 90%的营业额来自于可口可乐产品的销售,这意味着 CCE 的业务与可口可乐的业务“密不可分”。因此,欧盟委员会认为“(其他)股东在投票反对(可口可乐)时,必须平衡任何短期收益与其 CCE 股份长期价值可能受到的损害”,并且可口可乐因此处于对 CCE 施加决定性影响的位置。
顶级AI投资人发起中国大模型群聊:十大趋势、具身智能、AI超级应用
作者 | ZeR0 编辑 | 漠影 2024年转眼已经过了一半,从Sora模型引起开年轰动至今,生成式AI领域生出许多新变数。 一些预言陆续被现实验证:国内AI视频生成模型进展飞速,手机和PC大厂掀起AI狂欢,AI新硬件昙花一现,智算建设大潮将英伟达送入3万亿美元市值俱乐部,热钱持续涌向AI创企…… 一些国内限定的现象级事件出现:AI卖课先赚到第一桶金,上下文长度卷向1000万汉字,大模型价格战疯狂开打,AI黏土特效风靡社交网络,AI Infra创企们忙着把大模型成本打下来…… 烧钱与赚钱、动力与陷阱、技术突破与应用变革……围绕这些AI发展必经的权衡选择,中国在AI领域最早投资且布局最丰富的投资机构攒了个局,把十多家中国通用大模型、多模态大模型、AI Infra、具身智能、生成式AI应用的活跃创业者们聚集在一起,集中输出他们的思考与洞见。 一切都在被AI改造,没有什么能阻挡Scaling Law的步伐,但对AGI的长期信仰尚不足以掩盖眼前现实的商业化困境,业界还在等待一个真正属于大模型时代的超级应用的诞生。 以下是信息干货: 一、生成式AI应用落地需解决三大问题,多模态应用创企比例上升 启明创投从2013年开始系统性布局AI领域,至今已超过50个项目上投资超过60亿元人民币或等值美元,其中近20家在二级市场上市或成长为独角兽企业。在其投资企业中,有10家中国大语言模型、多模态模型或具身智能模型研发领域的领军企业,数量居全国之首。 ▲AI领域重点关注方向 在启明创投主管合伙人周志峰看来,生成式AI应用落地仍需解决三个问题: 1、降低模型使用成本。未来一两年,生成式AI仍有巨大的成本下降空间,下降到1/1000是大概率事件。成本越低,AI技术落地才会更容易。 2、提升大模型的效果。大模型幻觉问题不可避免,另外两个效果问题也很重要:一个是用户向某个语言模型或产品提出误导性问题后,模型应该怎么回答;二是大模型应用在具体场景下生成的回答或内容,对这个场景来说是否准确和合适。 3、增强用户留存率。第一波生成式AI应用的留存率相对较低,跟互联网头部应用没法比。怎样让大家真正把生成式AI产品变成生活或工作的一部分,无论是Save Time还是Kill Time,是接下来发展的重要问题。 据启明创投统计分析,生成式AI正在三个“C领域”——Copilot(生产力工具)、Creativity(创意)、Companionship(陪伴)获得了大量用户的青睐,正在经历从提高效率(Save Time)类应用向获得愉悦(Kill Time)类应用的转变。这与当年互联网应用的发展轨迹类似。 去年启明创投对当前发展阶段生成式AI产业脉络的梳理,这个三层架构至今也没有太大的变化。今天依然可以顺着这样的脉络继续投资。 根据启明创投去年对两百多家中国生成式AI企业的深度交流后进行的统计,当时企业以生产力工具为主,46%的企业都做Save Time类应用。 这也比较符合技术发展趋势,当技术不够成熟时,先会诞生出一些开发工具,提供给比较专业的用户使用。其他领域包括Chatbot、智能助手、娱乐应用等,占比都不是很大。在基础架构方面,去年创企主要是研发基础模型的企业和一些做大模型分布式训练平台的企业。 到今年上半年,根据启明创投对深度交流过的400余家AI创业企业的统计,多模态应用的比例呈上升趋势,出现许多基于AI大模型技术的新应用类别,同时更多创企深耕某个垂直行业和场景,而基础设施层的技术创业方向也更加多元化。 二、2024生成式AI十大展望:多智能体技术飞跃,视频生成将全面爆发 2024年,周志峰认为生成式AI的技术底座还在高速动态发展中,视觉语言模型、MoE、Agent、RAG等技术方向都在快速发展。启明创投如今提出新的2024年生成式AI十个展望: 1、当前生成式AI的两大核心技术GPT和扩散模型将逐步融合,激发全新模型能力; 2、高质量数据的获取和组织将显著影响新一代模型,合成数据在预训练中的占比将大幅提升; 3、多智能体(Multi-Agent)技术将飞跃,通过优化协作和分工显著提升生成式AI效率和效果; 4、将出现图像和文本的统一连续表示,并且基于此的图文联合扩散模型将达到GPT-4o级别能力; 5、图像和视频隐空间表示的压缩率提升五倍以上,从而使生成速度提升5倍以上; 6、3年内视频生成将全面爆发,结合3D能力,可控的视频生成将对影视、动画、短片的生产模式带来变革; 7、我们将见证压缩更多模态信息的超级多模态大模型,如文本、图像、语音、音乐、3D、传感器数据(控制信号、眼动信号、手势信息、雷达信号等); 8、生成式AI打通了人类语言与机器语言的转换通道,命令机器完成复杂任务的成本将显著降低,带来巨大的生产力变革; 9、端侧推理会有巨大增长,来自三个因素的叠加:推理优化算法+端侧推理芯片+端侧大模型; 10、AI将在多个数字化水平较高的行业中占据主导地位,并将重塑绝大部分企业软件。 三、热钱投向生成式AI应用 从创业和投资角度来看,AI领域机会很大。据摩根士丹利的数据及启明创投科技团队的分析和评估,仅是2023年,全球一级市场在AI领域的投资金额达到了224亿美元,超过了过去十年加起来的总和。 224亿美元中,超过2/3的钱投向从事基础设施或模型研发的企业,约20%投向生成式AI应用企业。周志峰预测今年及未来两三年,两者的比例会显著转变,越来越多的资金将投给应用企业。 去年世界人工智能大会上提起生成式AI的典型应用主要有三个:ChatGPT、Character.ai、和Midjourney。而今年,AI应用已经品类众多。 启明创投在AI领域的投资策略已经发生演变,从将AI视为一个技术或一个垂直领域去进行投资,转变为将其视为基础能力、去寻找其在千行百业落地的巨大潜力,今年起重点关注7类生成式AI应用:垂直行业AI(Vertical AI),企业AI (Enterprise AI), AI交互平台,AI内容平台,AI工具,AI游戏,AI硬件。 “从投资数量上来讲,未来我们投资的企业80%都会是生成式AI的应用公司。”周志峰说。 他认为生成式AI仍处在其发展周期的早期阶段,相较于互联网浪潮中应用的落地时间点,当前AI浪潮中应用的爆发预计将会显著提前。 与互联网时代不同,AI的应用不需要等待5~8年才会迎来大规模爆发。这是因为过去几十年,互联网、移动互联网、大数据、云计算等技术的飞速发展已经为整个生态系统奠定了坚实基础。因此AI应用将会与底层技术同步发展,我们目前既处于互联网90年代那样的基础设施建设阶段,同时也接近于2000年左右的应用发展水平。 生成式AI应用企业从0到1的成长时间比其他领域更长,需要同时克服TPF(技术-产品契合度)和PMF(产品-市场契合度)两大挑战。 所以,创始团队需要更大的耐心和决心,理解技术(技术的边际)、理解产品(原生AI产品的新特点和新分发机制)、理解世界(全球化发展的机会)。 周志峰将生成式AI创业者归纳为三类典型画像:一是AI科学家,来自研究机构或科技大厂的AI研发部门;二是产业专家,对某个行业特别了解,或是产品、运营等的高手;三是新锐创业者,有越来越多的95后甚至00后的创业者。 在技术还未成熟时找到合适的产品形态。三类创始人都有各自明显的优点和缺点。目前来看AI科学家创始人占比约1/3,这说明技术浪潮还处于发展早期阶段,这类人群对技术底座的边界掌握地更精准,对技术发展的感知也更敏捷。周志峰认为在未来两三年,第二类、第三类创始人的占比会持续显著上升,并成为主流。 四、AI原生应用落地遇难点,AGI发展需要多种方法融合 多家AI创企在本月发布新品。无问芯穹发布了全球首个支持单任务千卡规模异构芯片混合训练平台;阶跃星辰发布了三款Step系列通用大模型新品,全面升级通用大模型底座能力;无限光年发布了光语大模型,灰盒可信,百亿参数模型优于超大规模模型GPT-4 Turbo。 大模型的训练和推理都需要强大的算力资源支撑。在无问芯穹联合创始人、CEO夏立雪看来,AI Native应用落地面临4个关键Infra问题:1)激活“沉睡芯片”并促进异构算力整合;2)提升多种计算卡大模型计算性能;3)为大规模训练集群稳定训/推夯实基座;4)更为高效地利用有限的端侧计算资源。 阶跃星辰创始人、CEO姜大昕认为,探索AGI路径,“Scaling Law”和“多模态”相辅相成、缺一不可,两个方向齐头并进,最终到达AGI。他相信Scaling Law依然奏效,模型性能仍在随着参数量、数据量和计算量的增加呈幂次方增长。 他相信多模态是构建世界模型的基础能力,也是通向AGI的必经之路,从算法角度可以分为三个阶段:第一个阶段是模拟世界;第二个阶段是探索世界,将大模型与具身智能结合;最终阶段是大模型要归纳和总结物理世界的规律,发现人类尚未发现的规律。这三个阶段不是依次展开,而是可以并行发展,但进化速度可能不同。 复旦大学浩清特聘教授、上海科学智能研究院院长、无限光年创始人漆远认为Scaling Law并不会直接引领达到AGI,AGI的目标是发现复杂世界的未知规律,而当前大模型都高度依赖数据,而未知规律可能缺乏海量数据支撑。 据他分析,目前大模型主要是联结学派的“黑盒”概率预测,如果将符号计算与大模型相结合,就能同时具备慢思考的“白盒”逻辑能力,两种方法的融合是AGI发展的重要方向,实现“灰盒”可信。深度学习能实现数据拟合,且可以延展至数据没有的地方,当知识规则和关键数据矛盾时,能够调整知识规则,摆脱数据依赖。“灰盒”可以通过符号计算与神经网络的结合,应对大模型的幻觉问题和垂直领域的专业问题。 五、AI超级应用何时出现?面临哪些挑战? 对于AI超级应用何时出现,周志峰分享了他很喜欢的一个西方乐队的一句经典歌词:“我们只需要一点点耐心。” “超级应用的来临,不会是贝多芬的《命运交响曲》,一上来就是强烈的节奏,一种命运在敲门的感觉。应用的孕育是渐进式的,更像是《梁祝》,先是隐隐约约的鼓声,慢慢一支长笛渐强地引入,再到后面的小提琴主题段落。”他谈道,“我们今天已经能够听到AI应用隐隐约约的鼓点从远方传来,让我们大家都保持一点耐心,共同期待那些卓越的应用的诞生。” 1、未来生成式AI产业有望诞生哪些超级应用? 智谱AI COO张帆认为,大模型的核心在于提升人机交互的带宽,每次交互带宽的提升都会重构用户需求和应用方式。企业和开发者能通过MaaS平台降低使用和训练模型的成本,更容易地探索和构建超级应用。 在他看来,未来几年内可能出现颠覆性的超级应用,但这些应用往往难以预先设计,而是通过不断迭代逐步出现。AI时代将涌现出许多难以想象的应用。这一过程需要算力、网络、硬件水平和用户习惯的提升,以及遵循从小规模应用开始逐步发展的原则。 米粿AI的目标是成为AI漫画和动漫平台的领军者,致力于结合AI技术与内容生产。米粿AI创始人、CEO丁黎预测未来几年内,绘图、漫画和2D动画等领域将会出现颠覆性的超级应用。 悉之智能专注于AI教育,悉之智能创始人、CEO孙一乔预测,未来超级应用应从需求出发,垂直解决问题,教育是很有潜力的领域,教育领域频次高、需求刚性,易出现AI超级应用。 无限光年COO朱剑雄认为,未来几年内,超级应用将在多个领域涌现。从PC互联网时代到移动互联网时代,流量入口的转变提供了参考,大模型时代也会出现类似的趋势,场景服务能力深厚的公司可能会成长为超级应用。 2、生成式AI超级应用需克服哪些挑战? 谈及挑战,丁黎认为与行业从业者形成友好生态系统非常重要。当前AI创业需要高资本和高技术门槛,团队需团结合作,共同应对挑战,才能在激烈的市场竞争中脱颖而出。 朱剑雄提到产品经理的角色和要求发生了变化。现在的产品经理不仅要定义场景和需求,还需将这些信息传递给大模型,进行评测和验证。既懂模型又懂客户的产品经理目前市场上较为稀缺,但随着时间推移,这一问题将逐渐得到改善。 衔远科技首席算法科学家丁宁则分享了两个惯性陷阱:资源惯性和技术惯性。他还提到数据缺失问题,特别是负信号比例高的场景缺乏高质量数据,是未来的一个关键挑战。 六、探路具身智能:途径、难点与终局 具身智能也是产学界共同关注的热点,关于技术路径、落地方向、通用机器人的终极形态等问题,有很多不同的声音。 清华大学助理教授、星动纪元创始人陈建宇相信人形机器人会是通用机器人的终极形态,不仅因为双足与双手的纯人形形态与现有环境的兼容性更好,在训练数据获取上也更容易从人类世界中进行迁移,未来机器人有望在各类任务上都做到极致性能。 在技术范式上,端到端大脑小脑融合方案会是未来很重要的研究方向,仅仅用人类语言作为大小脑之间的传输界面效果有限,可以借鉴目前自动驾驶中的端到端联合训练,物理层面数据直接反馈给图文大模型将更好提升整体模型效果。 陈建宇提出在不久的将来,也许可以设计一种机器人的图灵测试,有一个机器人和人来进行交互,背后可能是智能的自主控制也可能是人类遥操作,当技术发展到很难分辨机器人的背后是人工智能还是人类遥操作时,可能便是机器人真正实现智能与通用的那一天。 上海交通大学教授、穹彻智能联合创始人卢策吾是世界范围内第一位由机器人来给自己刮胡子的人类。他认为具身智能的终局需要综合考虑技术的迭代和商业的需求,具身智能作为承载硬件的软件算法欢迎各种类型的机器人形态。 对于具体的技术路径,具身智能算法需要两个核心要素,分别是能够感知和理解世界的世界模型,以及具有强鲁棒性的技能操作模型。 在操作模型中,力反馈机制十分重要,不仅是在图像维度之外增加了一个交互维度,同时也可以减少对世界模型毫秒级别决策的依赖。穹彻智能展示的削黄瓜、叠衣服等技能都说明了操作模型具有鲁棒性后可以大大拓展潜在的应用空间。 银河通用前段时间发布了首代具有泛化性的具身大模型机器人。北京大学助理教授、北大-银河通用联合实验室主任王鹤认为,人形机器人是未来整个通用机器人市场的最大公约数,但在迈向这个终极目标的过程中,需要每一步都有健康的商业模式让机器人真正进入场景,上半身拟人下半身底盘会是三年内最可能落地的实际方案。 从技术角度,银河通用非常关注小脑层面的技能控制模型如何实现足够的泛化和通用。针对小脑技能,银河通用自研合成了千万级的场景数据及十亿级的抓取数据,在合成数据的训练下,银河通用机器人已实现抓取随机放置的透明、高光等物体的成功率在95%以上。 具身智能机器人何时才能真正进入严肃场景,进行商业化量产落地?需要克服哪些挑战? 王鹤谈到能落地的机器人需要足够低的成本和足够高的耐用性,这些都是需要技术公司不断打磨硬件和供应链能力,而国内创企具有天然优势。 卢策吾补充说,还要快速POC,只有开箱即用才能快速规模化,对于成本硬件的驾驭能力和灵活组装能力是降低成本的关键,“大脑”要足够通用,落地的成本才够低。 陈建宇对国内发展具身智能的前景保持乐观,认为每个创业公司都应该思考如何利用中国市场的优势,最大化撬动国内供应链的优势,打造具有全球化竞争力的硬件产品。 结语:AI计算新浪潮,看中国 在周志峰看来,将边际成本降至接近零的维度,恰好是评判一项技术能否成为最大的科技浪潮的关键标准,微处理器、互联网、人工智能是过去五十年科技发展史上最大的三个浪潮。 微处理器将计算的边际成本降到非常低,互联网把分发成本降为零,生成式AI的核心是把数字化内容创作的边际成本几乎降为零,由此看来AI技术一定会释放巨大的价值。 AI是第三次计算革命,而中国是最佳的孵化地。中国的显著优势是拥有庞大市场,而每次出现重大的科技变革和范式转移时,中国都是孕育新一代伟大企业的最好温床。 根据斯坦福大学HAI研究院发布的《2024年人工智能指数报告》,2022年中国在AI领域的专利数占全球的61.1%,大幅超过美国的20.9%。 美国保尔森基金会Marco Polo智库的全球AI人才报告显示,中国在全球顶尖AI学者的占比从2019年的29%上升到2022年的47%,是人才最丰富的区域。 中国在应用方面也经验丰富,在移动互联网时代成功打造了众多被广泛使用的明星应用,为中国引领新一波AI原生应用的浪潮奠定了坚实的基础。 根据启明创投科技投资团队的统计,2010年以后成立且至今月活跃用户数超过5000万的应用,被其定义为“超级应用”,中国团队或企业一共打造了30余个。对比而言,美国团队或企业一共打造了7个。 “在互联网和移动互联网时代中国已经孕育出了众多科技巨头,在生成式AI时代中这一现象必将重现。我相信中国新一代的伟大的科技公司已经在形成中。”周志峰说。
20多篇NVIDIA论文轰向SIGGRAPH大会!生成式AI成仿真建模“神助攻”
作者 | ZeR0 编辑 | 漠影 智东西7月16日报道,NVIDIA将于7月28日至8月1日在美国丹佛市举行的顶尖计算机图形大会SIGGRAPH 2024上展示渲染、仿真和生成式AI领域的多项最新进展,包括如何通过AI研究来提高图像质量、优化3D呈现方式、使仿真模拟更逼真。 据悉,这次NVIDIA Research携20多篇论文参会,分享涉及推动合成数据生成器和逆渲染工具发展的创新成果。这些新研究进展适用于视觉生成式AI的扩散模型、基于物理的仿真以及日益逼真的AI渲染,能够为训练下一代模型提供助力。 其中有两篇论文荣获最佳技术论文奖,还有一些论文是与美国、加拿大、中国、以色列和日本的大学以及Adobe和Roblox等公司的研究人员合著的。 从落地价值来看,这些研究将有助于为开发者和企业创造出用于生成复杂虚拟物体、角色和环境的工具,帮助科学家理解自然现象,或协助机器人和自动驾驶汽车的仿真模拟训练。 在本届SIGGRAPH大会上,NVIDIA创始人兼首席执行官黄仁勋将与《连线》资深撰稿人 Lauren Goode进行炉边谈话,探讨机器人和AI如何影响工业数字化。 一、用扩散模型改进纹理绘制,30秒生成一致主体图像 扩散模型是文生图常用工具,可快速生成脚本或作品的视觉效果,缩短将创意变为现实的时间。NVIDIA有两篇论文与此相关。 NVIDIA与特拉维夫大学的研究人员联合开发的ConsiStory,引入了一种名为“主体驱动的共享注意力”的技术,可将生成一致主体图像所需的时间从13分钟缩短到30秒左右,使多幅同一个主角的图像生成变得更加容易。 ▲ConsiStory能够生成一系列以同一人物为主题的图像 这项研究对于绘制连环画或开发脚本等叙事应用场景来说很有帮助。 去年,NVIDIA研究人员凭借将文本或图像提示转化成自定义纹理材料的AI模型赢得了SIGGRAPH的Real-Time Live最佳展示奖。今年其研究团队又发表了一篇介绍如何将2D生成扩散模型应用于3D网格上的交互式纹理绘制的新论文,使艺术家能够基于任何参考图像实时绘制出复杂的纹理。 二、研究基于物理的仿真,加速模拟真实世界的运动 基于物理的仿真能缩小实物与其虚拟呈现之间的差距,使数字物体和角色如同在真实世界中一样运动。多篇NVIDIA Research论文介绍了相关突破性进展,包括一种更加高效的头发建模技术、一种可将流体仿真速度加快10倍的工作流等等。 一篇与卡内基梅隆大学研究人员合著的一篇新型渲染器论文,是获评本届SIGGRAPH“最佳论文”的五篇论文之一。 这个渲染器不是用于物理光建模,而是能够用于执行热分析、静电分析和流体力学分析,其方法易于并行化且不需要繁琐的模型清理,为加速工程设计周期带来了新的可能性。 ▲渲染器对好奇号火星探测器进行热分析 针对基于文本提示模拟复杂人体动作的挑战,研究人员通过将强化学习与监督学习相结合,展示了如何训练SuperPADL框架再现5000多种技能的动作,以及该框架如何在消费级NVIDIA GPU上实时运行。 另一篇论文介绍了一种神经物理学方法,将AI应用于学习物体(无论是以3D网格、NeRF还是由文本转3D模型技术生成的实体物体呈现)在环境中移动时的行为方式。 三、提高渲染逼真度,模拟衍射效应提速1000倍 NVIDIA的另一组论文介绍了一些新技术,能将可见光建模速度提速最高达25倍,将模拟衍射效应(例如用于训练自动驾驶汽车的雷达模拟)提速最多达1000倍。 路径追踪可对多个路径(穿过场景的多束光线)进行采样,从而创造出照片般逼真的图片。ReSTIR是NVIDIA和达特茅斯学院研究人员在SIGGRAPH 2020上首次发布的路径追踪算法,是将路径追踪技术应用于游戏和其他实时渲染产品的关键。 今年NVIDIA有两篇SIGGRAPH论文介绍了如何提高ReSTIR的采样质量。其中一篇论文由NVIDIA与犹他大学合著,介绍了一种重复利用计算路径的新方法,最多可将有效采样数增加 25 倍,大大提升了图像质量。另一种方法则是通过随机改变光的路径的子集来提高采样质量。这有助于更好地运行去噪算法,减少最终渲染中产生的视觉伪影。 ▲从左到右:早前采样、25倍改进后的样本和参照图像之间的视觉质量比较。示例由Blender工作室提供。 NVIDIA和滑铁卢大学的研究人员合著的一篇论文则解决了自由空间衍射问题。自由空间衍射是一种光线在物体边缘扩散或弯曲的光学现象。其方法可以与路径追踪工作流集成,以提高复杂场景中模拟衍射的效率,最多可提供1000倍的加速。除渲染可见光外,该模型还可用于模拟波长较长的雷达、声波或无线电波。 ▲城市蜂窝信号覆盖模拟 四、教会AI用3D思维进行思考,为城市规模级3D重建提供基础设施 NVIDIA研究人员将在SIGGRAPH上展示一些用于3D呈现和设计的多用途AI工具。 例如,NVIDIA与达特茅斯学院研究人员合著的一篇论文获得了最佳技术论文奖,介绍了一种呈现3D物体如何与光相互作用的理论,能将各种不同的外观统一到一个单一的模型中。 NVIDIA与东京大学、多伦多大学和Adobe Research合作撰写的一篇论文介绍了一种可在3D网格上实时生成平滑的空间填充曲线的算法。以前的方法需要运行几个小时,而该框架的运行时间只需几秒钟,并能够支持用户对输出结果进行高度控制,以实现交互设计。 还有一篇论文介绍了一种GPU优化的3D深度学习框架fVDB。该框架能够匹配现实世界的规模,为实现城市规模3D模型和NeRF的大空间尺度与高分辨率以及大规模点云的分割和重建提供了AI基础设施。 结语:生成式AI+仿真技术,缩小现实与虚拟世界之间的距离 作为图形与加速计算领域的领跑者,NVIDIA多年来在SIGGRAPH大会上介绍了许多覆盖视觉计算与图形渲染的前沿论文。这些研究进展不仅持续提升仿真建模的真实感和效率,还推动了计算机图形学、计算机视觉、人机交互和AI技术的融合,使得模拟真实世界的相互作用日益成为可能。 凭借增强重建能力和提升仿真质量的特性,生成式AI通过正成为显著加速模拟仿真发展的新引擎。用合成数据训练大模型,又能加快生成式AI应用的落地。仿真与生成式AI技术的相辅相成,使得解决仿真模型与物理世界一致性难题的研究取得更多突破,最终将赋能工业制造、自动驾驶、具身智能和机器人等行业,助力解决现实世界中的各种复杂工程挑战。 在SIGGRAPH 2024期间,NVIDIA研究人员还将举办NVIDIA OpenUSD日,展示开发人员和行业领导者如何通过使用和发展OpenUSD来构建AI赋能的3D工作流。
索尼 ZV-E10 II 推出,视频功能再进一步
在如火如荼的视频时代,每个人举起手机,就能成为记录者。越来越多的人习惯将自己的生活、家人的相聚以及朋友的珍贵时刻记录下来并制作成 vlog。这些 vlog 不仅是记忆的载体,更是分享快乐与美好瞬间的重要方式。 然而,随着创作者的增加与影像科技的发展,其中一些人已经不满足于手机的视频功能。他们开始寻求更专业、更具创作空间的工具,以便更好地表达自己的创意和故事。对于这些追求更高质量和更多功能的创作者来说,一款专业的视频设备不仅是提升作品质量的关键,也是实现创作梦想的重要工具。 显然,索尼刚刚发布的 ZV-E10 II 就是为这些人推出的。 ZV-E10 II 搭载约 2600 万有效像素的 APS-C 画幅 Exmor R CMOS 影像传感器和新一代 BIONZ XR 影像处理器,并进一步改善了自动对焦性能和视频拍摄功能,更精准捕捉自然动态瞬间。ZV-E10 II 加入了广受好评的创意外观滤镜,助力简单出好片。新增竖屏拍摄界面和触摸操作功能,更符合拍摄习惯,并为直播和数据传输优化了连接性能。续航方面升级为大容量 NP-FZ100 电池,长时间拍摄更轻松。ZV-E10 II 小巧轻便,重量仅约 377 克,方便日常和旅行拍摄携带。 ZV-E 系列是索尼专为视频拍摄而打造的消费级无反家族,其中个位数型号代表着全画幅 CMOS(比如 ZV-E1),是为用户进阶创作视频准备的专业型号;两位数型号则代表了 APS-C 画幅 CMOS,相比个位数的全画幅型号,APS-C 画幅具备更简单的操作与更友好的价格,整个系列从低到高,给出一条完整的视频拍摄器材进化链。 ▲ ZV-E 家族的老大:ZV-E1 作为 2021 年发布的 ZV-E10 的后续机型,ZV-E10 II 延续了这个系列的设计理念:采用无电子取景器(EVF)设计,只由屏幕取景;使用 3 英寸翻转屏,支持触控操作;足够轻的机身重量,方便携带与单手使用;一键虚化效果,帮助用户在拍摄 vlog 的过程中更快调整到合适的光圈。 这些设计从 ZV-E10 上就开始采用,并一直继承到现在,每一项都是为了这个系列的定位:「甜点」级别的视频拍摄体验。 为了进一步让这个体验变得更甜,ZV-E10 II 解决了不少前代的痛点:增加了 4K 60p 的视频规格,为创作者留有升格空间;增加了电池容量,使用 NP-FZ100 电池,可以连续录制约 130 分钟的视频;增加了索尼广受好评的「创意外观」,帮助用户轻松直出具备特定风格的视频,免去了后期烦恼;并支持原生的竖屏拍摄,以应对 TikTok 等用手机 app 观看的视频创作需求。 ▲ ZV-E10 II 的竖拍功能 有趣的是,ZV-E10 II 的单机身定价在 6899 元人民币,这个价格与目前主流的影像旗舰手机基本持平,索尼之心可谓是昭然若揭了:用不太敏感的价格,将有视频创作需求的用户吸引至索尼的无反系统尝试视频创作,同时留下升级空间,制造更多的盈利可能。 作为一台主打视频的相机,ZV-E10 II 却缺少了至关重要的机身防抖(IBIS),机身自带的电子防抖又需要通过裁切去维持;对焦系统虽然升级到了 759 个相位对焦点,但缺乏了自家 AI 芯片的辅助加持,表现也有待提升;前代尚有的机械快门在这一代中也完全删除,拍照功能进一步减少存在感;对于有再进阶想法的用户,缺少 4K 120p 高帧率规格也是一种遗憾。 换而言之,我们可以将 ZV-E10 II 可以看作索尼对手机创作者丢出的诱饵,外观与味道都足够诱人,只是一旦上钩,创作者就会发现这个美妙的「甜点」只能尝尝味,靠甜品吃饱饭,这可能不太现实。 不过,对于那些希望从手机过渡到更专业设备的内容入门创作者来说,ZV-E10 II 仍然可以说是一个极具吸引力的选择。iPhone 作为手机拍摄视频的第一梯队,CMOS 面积仅仅是它的九分之一,更大的 CMOS 无疑会大大提升视频的质感与虚化; 而在相机系统里对比横向的竞争对手:佳能 EOS M50 II 缺乏 4K 60p 的视频规格,电池容量也较小;尼康暂时还没有推出同样定位的视频机器;富士则全线无货,想要加价购买就失去了性价比。 它的定价策略与性能搭配,使得它成为一个诱人的「甜点」,很适合并不需要以此果腹的创作者——对于他们而言,刚好需要的就是这么一个甜点而已。 ZV-E10 II 或许不是最终的解决方案,但作为开启创作之旅的第一步,它已经足够出色。
燃油奥迪 A4 成了绝唱,继承者全新 A5 系列长这样子
在说奥迪新款 A5 系列之前,我们先来回顾一条重要新闻:今年 3 月,奥迪全球 CEO Markus Duesmann 在接受媒体采访的时候表示,未来奥迪车型的命名方式将会有个巨大变化,燃油版和插电式混合动力车型的命名上使用奇数;而纯电车型使用偶数。 这意味着,为了给纯电车型让路,现有的燃油 A4、A6、将会改名为 A5 和 A7,燃油版的 Q8 SUV 也会在改款后改名为 Q9。 与此同时,现在奥迪纯电车型在使用的 e-tron 标识不会被取消,而是会作为后缀用在 A4、A6 和 A8 之后,组成 A4 e-tron 这样的命名方式。 因为奥迪 Q 系列的 SUV 主要还是以奇数命名,所以这次命名规则的改变对 A 系列,以及衍生的 S 和 RS 车型影响大一些。比如很多人会问,A8 让位电车之后,难道还有 A9?现在的 A4 变成了 A5 之后,那么现在的 A5 系列何处安放? 这些问题奥迪暂时还没有回答,但也有一些猜测答案出现,以后 A8 很可能没有燃油版车型了,只有 A8 e-tron,没有 A9 系列。 关于 A5 和 A7 的去向,车媒 motor1 就报道,奥迪将会砍掉一些 A5 车型,比如包括 Coupe 和 Cabriolet 为后缀的双门车型,经典的溜背 A5 Sportback 将会保留,在新的 A5 系列里继续出现。 ▲ 新 A5 Avant 而原来的奥迪旅行车 A4 Avant 则会随着整个 A4 系列一起被命名为 A5 Avant, Allroad 版本则被取消。 所以大概率奥迪会借着纯电和燃油车型命名的调整,一并精简燃油产品线,尤其是双门轿跑车型,此前奥迪就停产了奥迪 TT 和 奥迪 R8 两款经典车型,同时把现有 A5 和 A7 车型融入到未来的 A5 和 A7 系列之中。 即便如此,也还有一些遗留问题,比如刚刚起死回生没多久的上汽奥迪 A7L 看着将要来的新 A7L(也就是之前的 A6L)说:那我走? 了解完这些背景信息之后,我们就可以来看看奥迪新 A5 系列的官方照片和车型信息了。 这一组照片由科技媒体 ars technica 发布,但随后删除,不过互联网是有记忆的和缓存的,于是这一组照片就传开了。 泄露的官方照片曝光了三款车型:A5、A5 Avant 和 S5。 这一代的 A5 系列外观和内饰设计变化比较大,全系采用了贯穿式 OLED 尾灯,尾灯支持 8 种不同的灯效。前脸和这一代的 A4 相比有小小变化,但侧面线条更像前代 A5 了,侧面看过去更为流畅运动,少了一点商务感。 ▲ 新 A5 另外,奥迪将传统的门把手更改为了半隐藏式门把手,设计更现代科技。 ▲ 新 S5 内饰和内部空间 饱受诟病的 A4 系列内饰在这一代进行了巨大的改变,内部设计元素和 Q6 e-tron 类似,采用了四辐式多功能方向盘,并搭载悬浮式液晶仪表 + 液晶中控一体式屏,另外副驾驶的屏幕可以选配。虽然依旧是暗黑色调为主,但至少科技感上来了,当然,塑料感下去没有得看看真车。 动力方面,A5 采用了升级版 2.0T 四缸 EA288 发动机,最大功率 200 千瓦(272 马力),匹配 7 速双离合变速箱,此外,预计还会提供其他版本的插混动力车型,部分车型提供四驱系统。 ▲ 新 S5 而 S5 将会采用 3.0L V6 362 匹马力发动机,配 48V 轻混系统,并且这一代 S5 会是首款采用 Quattro Ultra 的纵置 S 车型,它将采用前轮驱动 (FWD) 与按需提供四轮驱动 (AWD) 相结合的系统,而不是 40/60 的全时四轮驱动系统。 需要说明的是,鉴于国内消费者喜爱长轴距车型,以上信息基本都是针对奥迪的海外车型,所以看到 S5 那令人揪心的后排空间也无需紧张。并且,根据国家不同,车型信息也会有所不同,比如美版 A5 系列标配就是皮质座椅,而欧洲则标配的是布料材质座椅。以及 A5 系列 OLED 尾灯的动画灯语效果,也因为法规原因,不会出现在美国市场。 虽然看起来全新 A5 系列是奥迪为纯电化转型所做的一次大变革,精简和融合了燃油车型,但就这一组官方泄露图来看,外观内饰设计相较于现款 A4 乃至 A5 系列还是进步颇大。在与 3 系和 C 级的竞争中,有那么一点身位优势,毕竟对于 BBA 来说,不魔改的设计,就是好设计。
一年创收34亿美元!OpenAI营收拆解:84%来自近1000万名ChatGPT付费用户
原标题:一年创收34亿美元!OpenAI营收拆解:84%来自近1000万名ChatGPT付费用户,API仅占15% 近日,人工智能(AI)调研机构FutureSearch发布报告,对全球AI独角兽OpenAI的收入构成进行了拆解,提供了一个更清晰的收入结构图。FutureSearch的研究人员称,他们之所以要分析OpenAI的收入构成,是因为财务信息应该是OpenAI未来几个月做出的商业决策的一个强有力的指标,因此也应该是该机构重点研究的一个指标。 FutureSearch通过收集OpenAI所有有据可查的财务信息,并通过专业的计算方式得出结论称,OpenAI每月的付费用户约为988万名,年度经常性收入达到34亿美元。 其中,84%的收入来自ChatGPT付费用户(ChatGPT Plus、ChatGPT Enterprise和ChatGPT Team订阅),而面向开发者端的API接口收入占比仅为15%左右。 四大收入来源:ChatGPT Plus贡献达55% 作为一家未上市的私人公司,OpenAI的收入构成对外界来说一直是一个谜。但FutureSearch近期发布的一份报告让外界对OpenAI的收入来源有了更多了解。 FutureSearch的研究人员称,他们详尽地汇集了有关OpenAI财务状况的所有公开信息,然后采用费米估计(fermi estimates)和基准利率/类比对缺失信息进行推断,从而进行计算。 图片来源:FutureSearch 图片来源:FutureSearch FutureSearch推算得出的数据结果显示,ChatGPT Plus订阅是OpenAI最大的收入来源,贡献了总收入的55%,约19亿美元。数据显示,全球共有770万ChatGPT Plus用户,每个用户每月需支付20美元的订阅费。这一庞大的用户群体为OpenAI提供了稳定的现金流。 针对大型企业客户的ChatGPT Enterprise为OpenAI贡献了21%的收入,约7.44亿美元。据估计,目前有120万个企业用户在使用ChatGPT Enterprise,每个账户每月收费50美元。 面向中小企业和团队用户的ChatGPT Team为OpenAI贡献了8%的收入,约2.9亿美元。ChatGPT Team每个账户每月收费25美元,估计有98万个用户。 最后,API接口服务为公司贡献了15%的收入,约5.1亿美元。该服务为开发者和企业提供了直接访问其AI模型的能力。 图片来源:FutureSearch FutureSearch总结称,这样的收入构成足以证明,对于OpenAI来说,其APP(即消费者和企业客户)比API要重要得多。这也可以理解,为什么OpenAI从7月9日起停止来自非支持国家和地区的API流量。 总体而言,FutureSearch的报告预计OpenAI每月拥有约988万名付费用户。与之相比,美国第四大有线电视服务YouTube TV的订阅用户数量在年初才达到800万。媒体分析称,这一数字足以证明OpenAI在赢得付费用户方面取得了多大的成功。 营收远超对手,但OpenAI尚需筹集数百亿美元才能覆盖成本 按照FutureSearch的上述推算,OpenAI的年度经常性收入(ARR,取前一个月的收入,乘以12来估算一整年的总收入)达到34亿美元。 《每日经济新闻》记者注意到,这与CEO阿尔特曼在一个月前透露的预估数字完全一致。当时,阿尔特曼对公司员工表示,从过去半年的情况来看,公司今年的收入有望达到34亿美元,较媒体报道的2023年年收入(16亿美元)实现了翻倍。其中,绝大部分收入(约32亿美元)来自ChatGPT订阅费用,以及API接口。而据其他媒体报道,通过与微软Azure合作提供旗下AI模型访问权限,OpenAI有望获得2亿美元的年度分成。 作为对比,OpenAI 2022年的全年收入仅为2800万美元。可见,ChatGPT火爆出圈后,OpenAI快速推出的一系列商业化举措让该公司接连迈上了新台阶。去年年底时,就有OpenAI部分管理层认为,按彼时的发展进度,到2024年底,OpenAI的年化收入有望达到50亿美元。 与对手相比,OpenAI也是“遥遥领先”。例如AI初创公司Anthropic曾在去年透露,其年收入为1亿美元,计划到2024年底实现收入超过8.5亿美元的目标;另一位来自加拿大的竞争对手Cohere在4月份的收入则仅为2200万美元,与OpenAI收入不可相提并论。 而OpenAI收入的猛涨主要得益于其AI技术在多个领域的广泛应用。公司的核心产品,包括其语言模型GPT-4o等,在企业级解决方案和消费者应用中的需求激增,推动了收入的飞速增长。 在用户群体不断扩大的同时,OpenAI也在持续加大投入研发力度,这或将进一步拉大其与竞争对手的差距,使营收持续大幅增长。随着增长加速,OpenAI估值水涨船高,OpenAI在今年2月的一轮融资后估值已经达到860亿美元,大约是去年4月估值的三倍。 尽管营收迅速增长,但阿尔特曼此前指出由于构建和运行模型的成本高昂,OpenAI仍然处于亏损状态。随着公司开发更复杂的模型,预计支出将继续超过收入增长,该公司可能还需要筹集数百亿美元才能满足成本。 为了解决这一问题,阿尔特曼此前寻求筹资至多7万亿美元资金,提高全球芯片制造能力,来降低成本。外媒援引知情人士称,阿尔特曼建议OpenAI、各种投资者、芯片制造商和电力供应商建立合作关系,共同出资建立芯片代工厂。 OpenAI布局AI芯片,也给投资人留下足够的想象空间。《连线》杂志去年底报道,OpenAI在2019年签署过一份协议,计划出资5100万美元投资NPU芯片初创公司Rain。Rain的NPU芯片将于2024年下半年问世,OpenAI届时将兑现投资。
博主辟谣iPhone 17将采用台积电2nm芯片:这是假消息
【CNMO科技消息】近日,有关明年iPhone 17将采用台积电下一代2纳米工艺的报道被一位知名苹果预测博主称为“假新闻”。根据这位消息灵通人士的说法,2纳米工艺直到2025年底才会进入大规模生产阶段。 这位微博用户名为“手机晶片达人”的博主据称在集成电路行业有25年的经验,包括曾参与英特尔奔腾处理器的开发。在其发布的一篇帖子中,他明确表示,iPhone 17将继续使用台积电的3纳米工艺。“2纳米工艺要到2025年底才会量产,所以iPhone 17肯定赶不上,”该博主在微博中写道。“直到iPhone 18,2纳米处理器才会被使用。” 他进一步批评了那些声称iPhone 17将使用2纳米工艺的报道,称这些报道来自“不良媒体”。这些媒体的报道基于台湾一些报纸最近的“行业消息”而写成,但其表示,任何了解产能规划图的人都知道这些报道是毫无根据的。 台积电计划在明年开始2纳米芯片的量产,但台湾多家媒体报道称,公司正在加快这一进程,以确保大规模生产的稳定产量。苹果是台积电的主要客户,通常是第一个获得台积电新芯片的公司。例如,2023年苹果获得了台积电所有的3纳米芯片,用于生产iPhone、iPad和Mac。 台积电的2纳米制造工艺(也称为“N2”)预计在同等功耗下提供10%至15%的速度提升,或在相同速度下减少25%至30%的功耗,与其3纳米技术相比。苹果iPhone 15 Pro型号中的A17 Pro芯片采用台积电的第一代3纳米工艺(N3B),而最近在新款iPad Pro中推出的M4芯片则使用了增强版的3纳米技术。 iOS 18中的代码确认,所有四款iPhone 16型号将使用基于台积电N3E工艺的下一代A18芯片。N3E是台积电第二代3纳米芯片制造工艺,相较于第一代3纳米工艺,成本更低且产量更高。 这位否认2纳米工艺将为iPhone 17准备好的博主有着准确预测的记录。其是第一个透露iPhone 7将具备防水功能以及标准版iPhone 14将继续使用A15仿生芯片,而更先进的A16芯片将仅限于iPhone 14 Pro型号的消息来源。后来,这些预测被多方可靠来源证实,并在产品发布时得到验证。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。