行业分类:
加载中...
头条分类:
加载中...
九号CEO怒斥同行挖人背后:曾闹至雷军处,经调停约定互不挖人
三言科技 7月4日消息,据报道,近日,九号电动CEO王野在“顺为CEO群”怒斥同行恶意挖人的聊天截图流传。 截图显示,王野在群里发言,“提醒顺为系的各位CEO创始人,提醒大家要保护好自己的关键骨干人才。本群有个众所周知的公司,一直在恶意挖人,号称‘断指计划’,只损人不利己,几年来一直在针对科沃斯、石头、九号几倍薪酬挖人,挖过去之后用3个月,把技术秘密和商业秘密掏走之后把挖来的人开掉”。 王野称,通过这样的手段可以以小博大,不去创造用户价值,而是致力于如何低代价下三滥做法搞垮同行。 谁在"恶意挖人"? 那么,九号CEO口中"恶意挖人"的同行是谁? 王野的文字中有以下主要信息: 1、本群众所周知的公司——也就是同属于顺为系; 2、针对科沃斯、石头、九号挖人——这几家公司大致共同点就是做扫地机器人。 接受过顺为投资的、做扫地机器人的公司还有谁?答案很接近了。 很多网友猜,是"zm"。 据介绍,zm成立于2017年,推出了扫地机器人、无线吸尘器、智能洗地机、高速吹风机四大品类。2017年底加入了小米生态链。 2020年,完成近亿元B轮融资 ,由IDG资本领投,小米、顺为资本、峰谷资本、青锐创投跟投。 2011年,完成C轮融资,老股东小米集团、顺为资本追加投资。 zm挖科沃斯、石头的人可以理解,都有扫地机器人,但是九号不是产电动车、平衡车的吗?没有扫地机器人啊。 其实,双方的业务早就不只那点起家的产品了。 九号还有送餐机器人、割草机器人等。 巧了,zm也有送餐机器人和割草机器人。 仅靠这些巧合就能确定是zm吗? 了解情况的消息人士向三言科技透露,九号CEO口中挖人的公司就是zm。 三年前就在群里怼过曾闹到雷军处 雷军调停 消息人士称,在三年前,顺为CEO群里就发生过类似事情,九号CEO怒怼同行挖人。 当时,几家公司闹得不可开交,只能由小米生态链、顺为资本的"大家长"雷军来主持公道。经过雷军调停,几家公司达成口头协议:互不挖人。 现在,九号CEO又开始怼了,说明当初在雷军面前的口头协议被撕破了。 但根本原因还是他们逐渐脱离了米系、顺为系这种大家庭成员角色,进行去小米化,一个个"翅膀都硬了",且相互进入对方领域。 九号公司成立于2012年,聚焦创新短交通和机器人领域。2014年8月,获得小米、红杉资本、顺为基金等资本共同注资8000余万美元,并成为小米生态链新成员。现在从电动平衡车、滑板车,业务扩展至电动两轮车、服务机器人等,2020年在科创板上市,如今市值275.7亿元。 财报显示,2023年九号公司实现营业总收入102.22亿元,同比增长0.97%; 2020-2023年,电动两轮车分别营收4.32亿元、13.34亿元、26.63亿元和42.32亿元,分别同比增长17540.91%、208.84%、88.43%和74.10%。电动两轮车成为第一大营收来源。 不过,其电动平衡车和电动滑板车业务连续两年业绩下滑。财报数据显示,2022年至2023年,分别营收55.37亿元、34.88亿元,分别对应同比下降13.56%和37.01%。 因此九号需要优化产品结构,比如其涉足的割草机器人市场被看好。 兴业证券的报告称,全球 OPE(户外动力设备)市场规模预计在 2025 年将达到 324 亿美元,2016 年-2025 年 CAGR 为 5.4%;在家居割草市场中,割草机器人渗透率预计逐步攀升,将从 2015 年的 7%提升至 2025 年的17%,取代汽油手推式割草机的份额。 从市场空间来看,预计全球割草机器人市场预计在 2026 年将达到 35 亿美元市场规模,2021—2026年复合增长率预计达 12%。 话说回来,如果九号觉得zm侵犯专利,完全可以起诉。 目前,zm相关主体有起诉石头、起诉科沃斯侵犯专利纠纷,也有被云鲸、科沃斯起诉侵犯专利的纠纷。 诉讼是个漫长的过程,是否真的"掏走商业机密"也不容易确定,只是九号和相关同行的员工们跳槽,会考虑考虑。
用户最想要滴滴功能:女乘客可选女司机、拉黑异味车、宠物快车排名前三
原标题:用户最想要滴滴功能来了!女乘客可选女司机、拉黑异味车、宠物快车排名前三 快科技7月2日消息,滴滴公众评议会“您希望滴滴提供哪些功能”为期一周的投票结束。 共有75847人参与投票,1908人评论留言。其中,女乘客可选女司机(24.2%)、拉黑异味车(17.8%)、宠物快车(10.8%)位列用户投票前3位。 用户投票第1位:女乘客可选女司机 据了解,长期以来,滴滴收到很多用户对这一功能的呼吁和建议,希望滴滴能提供“女乘客可选女司机”的功能。目前,有超过60万女性司机通过滴滴平台获得收入。 为保护司乘安全,滴滴表示会在女性司机和女性乘客实名认证、严格核验等前提下,邀请女性用户加入内测计划。 用户投票第2位: 拉黑异味车 车内异味是当下出行服务的行业性难题,滴滴正在通过正向激励、负向体验管理等多种措施,努力去治理和改善车内异味的问题。 滴滴表示,后续大家呼吁的“拉黑异味车”功能将尽快上线试行。因车内异味被多次拉黑的车辆,平台将进行更严格的管控和治理,相应的规则措施正在制定中,如减少派单、严格整改等,司机整改后才能在平台上继续接单服务。相关进展也将向社会及时公布。 用户投票第3位:宠物快车 “宠物快车”排在投票第3位,反映了近年来携宠出行的强烈需求。此前,滴滴在部分城市上线了宠物专车,由经过专业培训的司机提供出行服务,赢得了很多养宠用户的信任。 后续,滴滴将尽快将携带宠物友好出行的服务覆盖到更多城市、更经济适用的车型。 此外,好友出行分摊车费(10.4%)、设置车内温度/反馈温度(9.1%)、上车前司机不用打电话确认、路上不聊天(7.1%)、能打到6座快车(7%)、按小时包车(6.3%)、拉黑拼友(4.3%)、不用打电话提醒我系安全带(3%)纷纷上榜。 滴滴表示,针对以上用户投票选出的期望功能,滴滴将尽快制定产品方案,并陆续邀请用户内测试行。
腾讯混元DiT文生图大模型开源6G小显存版本,一同开源打标模型
IT之家 7 月 4 日消息,腾讯混元文生图大模型(混元 DiT)今日宣布开源小显存版本,仅需 6G 显存即可运行,对使用个人电脑本地部署的开发者比较友好。 此外,腾讯宣布混元文生图打标模型“混元 Captioner”正式对外开源。该模型支持中英文双语,针对文生图场景进行专门优化,可帮助开发者快速制作文生图数据集。 腾讯混元 DiT 模型升级 腾讯混元 DiT 模型宣布了三大更新:推出小显存版本与 Kohya 训练界面,并升级至 1.2 版本,进一步降低使用门槛的同时提升图片质量。 基于 DiT 架构的文生图模型生成图片质感更佳,但对显存的要求却非常高,混元 DiT 因此推出小显存版本,最低 6G 显存即可运行优化推理框架,对使用个人电脑本地部署的开发者比较友好。 经过与 Hugging Face 合作,小显存版本、LoRA 与 ControlNet 插件,都已经适配到 Diffusers 库中。开发者无需下载原始代码,仅用三行代码仅可调用,简化了使用成本。 同时,混元 DiT 宣布接入 Kohya,让开发者可以低门槛地训练专属 LoRA 模型。 Kohya 是一个开源的、轻量化模型微调训练服务,提供了图形化的用户界面,被广泛用于扩散模型类文生图模型的训练。 用户可以通过图形化界面,完成模型的全参精调及 LoRA 训练,无需涉及到代码层面的细节。训练好的模型符合 Kohya 生态架构,可以低成本与 WebUI 等推理界面结合,实现一整套“训练-生图”工作流。 混元 Captioner 在提升模型易用性的同时,腾讯混元团队最新开源了打标模型 —— 混元 Captioner。 借助打标模型,开发者可以快速生成数据集。具体来说,文生图开发者将原始图片集导入混元 Captioner,后者将生成标注;也可以导入图片与原始描述,利用混元 Captioner 过滤其中的无关信息,并完善和优化图片描述,以提高数据质量。 目前,业界对于图片描述文本的生成,主要使用通用多模态 Captioner 模型,存在描述过于简单或繁琐(与画面描述的无关信息过多)、缺少背景知识导致无法识别知名人物和地标等问题,并且许多模型并非中文原生,中文描述不够精准。 ▲ 混元 Captioner 对图片描述进行结构化与准确度提升混元 Captioner 模型号称针对文生图场景专门进行优化: 构建了结构化的图片描述体系; 在模型层面,通过注入人工标注、模型输出、公开数据等多种来源提升 Caption 描述的完整性; 注入知名文学作品形象、地标、食物、动物、中国元素与知识等背景知识。 ▲ Capiton 模型的背景知识更好,能够识别宫保鸡丁 ▲ Captioner 模型结构化图片描述体系
大模型想赚钱,先过这七道难关
文|周享玥 编|赵艳秋 中关村科金CTO李智伟博士最近发现,大模型商业闭环,正在被提到很重要的位置。 不同于过去20年间中国IT行业的发展,可以通过烧钱来快速积累用户,靠估值和广告实现商业变现;大模型时代,投资市场愈加理性,正在倒逼业界加快实现商业闭环。 前不久的华为HDC开发者大会上,华为主机上云军团CEO、混合云总裁尚海峰强调,“加速商业闭环,是使用大模型最关键的一点”,市场终归要回归理性,只有真正的为用户创造价值,实现商业闭环,才有更长远的未来。 而经过数个月的摸索,业界对于如何催动客户从试点探索,走向规模化买单,加速商业闭环这件事,也有了一些方法论。 01 价值共识,1千客户1千哈姆雷特如何解? “以前买个软件,有些什么功能,给个清单,客户一看就知道了;但大模型时代不一样,客户对这件事的认知并不统一,1000个人可能就有1000个哈姆雷特。”中关村科金李智伟告诉数智前线,这就需要和客户沟通时,有一套方法论,对客户进行正确的价值导向。 毕竟,在大模型落地这件事上,期待值过高或过低,都会极大影响企业应用闭环的形成。“大模型基于Transformer,我们本身也成为了一个Transformer,是把大模型变成一个看得见、摸得着的应用转化者。”快递100总经理陈登坤说。 “为了降低沟通成本,我们现在所有产品都在公有云上有试用版。”李智伟介绍,这样的一个个小的原型系统,有助于客户快速了解大模型能实现什么效果,边界在哪,进而加速从前期讨论到PoC,再到落地部署的推进。 另外,帮企业计算ROI(投资回报率),也是加速落地的普遍做法。中工互联董事长智振介绍,这不仅包括短期ROI,比如上了大模型后,能提高多少效率,节省多少人,多大程度降低对关键人员的依赖,减少人为犯错的可能性等,也包括长期ROI。 这也导致,他们去和客户沟通时,最核心的一项工作,就是引导客户找到整个价值链上最痛、最有价值的点。比如设备运维场景,往往和知识管理紧密相关,一个设计文档出问题,往往可能造成成百上千万元的损失,而原来靠人工去排查,假如需要两小时、千分之一的概率漏检,大模型配合人工可能十分钟就能完成,且漏检率降低90%。 “我们就先给他做那样的场景。”智振说,这对于企业建立对大模型的信心,包括向更多、更深的场景推行,都是非常有帮助的。 02 实施周期,要限定在3到6个月? 过去一年,客户与业界探索了大量场景,但真正从PoC走向商业闭环,却并非每个场景都可以。 面对大模型掀起的这波新变革,也很少有企业愿意一开始就花上几千万、几年的时间来做。 “一年能回本,客户很容易接受;三五年回本,客户就要考虑考虑;7年回本,肯定得政策强制要求了。”智振说,“大家现在普遍能接受的价格区间是50万到200万,实施周期一般要限定在3~6个月。”一些大项目虽然会跨年,但一般都会切分到几个月为一期,以作观察。 一些小型项目,上线时间还能更短。“比如我们也在给一些电商客户提供售前、售后的大模型技术服务,它的决策周期、试用周期很短,甚至收费都是按月的。”智振说。 “我们现在所有项目都是按‘短平快’的方式去做实施,会帮客户把一个大需求,切到一个个比较小的点,逐点试错,逐点突破,而不像以前做软件,一个项目做上一年半载的,客户才能看到效果。”新致软件副总经理曹玺告诉数智前线。 在场景方面,与大语言模型相关的知识类场景,成为企业选择的优先级闭环方向。 泰康科技有限公司人工智能部AI架构师朱兴杰介绍,今年上半年,他们最先在知识如何加工再造,通过知识助手、销售助手等赋能代理人方面下了功夫,形成了初步效果,后续将针对理赔等场景,做风险识别等能力的提升。 而中国工商银行软件开发中心大数据与人工智能实验室副主任夏知渊,在华为HDC大会有关大模型混合云的论坛上,公布的工行“1+X”的工程化解决方案中,除了1指代的是智能体,X种解决方案也大多与知识类场景相关,如多模态的知识检索、交互式的智能搜索等。而基于这些能力,工行在远程银行场景,形成了大模型的全流程赋能,将通话时间压降了10%,员工坐席效率提高18%。 03 大模型中台,避免“散装作战” 为了加速大模型在各行各业的落地应用,各家主流大模型厂商都在纷纷强调模型的“最优性价比”,轻量化模型、MoE、价格战轮番上阵。再加上开源江湖的持续繁荣,企业对于模型的选择,正在更加多元化。 “各种开闭源大模型,只要我们能去把推理部署起来,我们都会去尝试,看效果。”泰康科技朱兴杰告诉数智前线,泰康科技支撑着整个集团的上千个应用,集团各分部门都能根据各自不同的场景,选择不同的模型,“识别出一条最佳路径”。 不可否认的是,相比闭源,出于成本等考虑,开源是更受欢迎的存在。比如在行政执法领域,北京可为高科信息技术有限责任公司正在通过开源模型,为政府客户提供私有化部署。在金融领域,中关村科金CTO李智伟观察,在闭源、源代码开源,以及“源代码+训练数据”开源三种模式中,银行客户更想要第三种。 开闭源之外,业界的一大共识是,大小模型混用正在成为常态。比如中关村科金的混合模型质检平台,让小模型负责声音、画面等基础数据质检,承担高频易检场景,大模型负责低频难检的内容,以及为质检结果提供判定原因,辅助人工快速复审,已经帮助某头部金融机构实现了检测效率提升1千倍,大幅降低人工检测成本。 “这就好比一家公司有分工才能更高效运转。”李智伟说。 而更深一层,一些企业已经开始搭建统一的大模型中台,纳管N个大小模型,以及安全、知识注入、工具、服务分发等。“这样可以有效避免散装作战造成资源浪费,也有助于后续的迭代升级。”泰康科技朱兴杰说。 大模型也正在成为企业的底座。智振透露,他们目前就向客户提出了“三个平台”的思路,即基于大模型底座,做数据平台、业务平台和知识平台。以往工业互联网平台主要在解决数据不贯通和业务不流畅的痛点,但对于知识难沉淀很难解决。而大模型很可能带来巨大提升。 智振看到,目前包含了大模型底座+平台的项目,普遍在百万元量级。但企业并不会一期全建,或全部将旧系统推翻重来,而是循序渐进,“比如现在知识平台好,我就先上知识平台,跟其他业务系统打通,如果用得好,再逐步把别的系统替换掉。” 04 数据飞轮,是难点也是制胜点 作为大模型三要素中的关键一环,数据无疑是影响大模型商业闭环形成的一大重要因素。 “尤其过程数据的缺失,是我们落地过程中,遇到的最大障碍。”北京可为联合创始人曾明告诉数智前线,除了金融、电商等数字化进程原本就比较成熟的行业,大量行业企业都存在数据方面的问题。 比如法律领域,有海量的案件公开数据,但大多都只有简单的案件描述。“如果说一个案件中,正常的思考过程是a到b、b到c……x到y、y到z,那大模型只学a到z,是无法学会的。”曾明说,“现在最缺的就是b到y的过程数据。” “数据如果只是知识之间的关联性缺失,我们可以通过大模型自带的知识体系来补足。但如果是事实类数据的缺失,就只能通过传统方式去采集回来。“中关村科金李智伟告诉数智前线。 曾明透露,他们目前正通过数据清洗、数据标注等工作,帮助企业进行历史存量数据的补足,同时也正在大模型落地过程中,加速收集增量数据,双管齐下,填补数据空白。 大模型厂商也正在从工具链方面着手,助力企业加速数据治理,形成自己的数据飞轮。事实上,在不少人士看来,越往后走,越不能只盯着模型本身的训练。工具链的建设,将在加速大模型商业闭环中,占据愈发重要的位置。 李智伟告诉数智前线,不仅仅是数据方面,模型的部署、安装、运维和日常的优化调试等,都可以通过工具链来进行提升。为此,他们在今年推出了PowerAgent平台,大模型的部署效率能够提升2~3倍。 05 算力选择,混合云最经济? 算力是加速大模型落地和商业闭环过程中,另一个备受关注的问题。“基于对数据安全、开发成本和训推效率的综合要求,混合云目前正成为越来越多政企的优先选择。”在HDC期间大模型混合云的论坛上,华为尚海峰强调,这是当前最合规也最经济的一个方式。 此前,《深度用云展望2025》白皮书中也曾指出,2025年,75%的企业将会使用AI大模型,而基于混合云的AI大模型占比将达到38%。 比如在政务行业,广州市政务服务与数据管理局副局长梁文谦在华为HDC开发者大会上介绍,为了兼顾数据不出域和大模型的训练需求,他们构建了一个公有云和政务云混合的人工智能公共算力中心,其中100P部署在政务云,提供训练好或还需精调的模型,给人社部门、城市管理部门等应用,另外200P公有云,则作为训练应用。 在金融、汽车等领域,不少企业也采用了公有云和私有云协同的架构。泰康科技有限公司人工智能部AI架构师朱兴杰告诉数智前线,这一方面是出于成本的考虑,“私有算力我们评估都是几千万的投入,才能有不错的效果”。另一方面,业界普遍认为,国产算力仍需在规模、性能、底层生态上完善。 “对于核心的商业知识,肯定要求私有云,因此我们目前会有少量本地私有化的集群,同时也会调公有云服务,去做一个混合的部署。”朱兴杰表示,大家的普遍做法是,利用公有云的高弹性和高扩展性,满足做AI场景创新时的算力灵活租用和场景多方尝试,等到验证一个场景的价值后,再通过私有云的部署,快速实现本地的安全化的数据不出域。“下一步的话,一旦我们看到效果,我们可能就会建立一个很大的私有算力”。 混合云之外,企业也可以选择“公有云的私有化”模式,即在公有云上开一个私有化的环境,达到节省成本的目的。目前,在零售、酒店和文旅等数据管控没那么严格的行业中,有不少企业都选用了这种模式。 中关村科金CTO李智伟则建议,央国企牵头建立专有云,可以让大模型的算力效率和成本更经济。“比如某个区域形成一个能源行业的链主企业,提供公有云,服务区域内所有能源企业。” 06 定制化,“老大难”有新解法 在To b市场,定制化一直是无法规避的问题,同时也是影响商业闭环形成快慢的重要因素之一。 业界观察,过去三十年间,整个信息化和智能化的发展历程,也是定制化的一个简化过程。以人工智能为例,上一个AI时代,AI技术泛化能力差,甚至存在面向同一场景开发的产品,无法在同一银行的不同部门直接复用的情形,定制化成为必然。大模型时代,人们发现它的泛化性,在一定程度上解决了定制化问题。 但随着大模型真实的落地开始,业界发现定制化需求依然大量存在,“甚至在某种意义上增加了。”中关村科金CTO李智伟告诉数智前线,这尤其体现在多样性的客户需求和尚未稳定或收敛的技术阶段。在他看来,与其回避定制化,还不如拥抱这个诉求。 “我们在做很多工具化和配置化的工作,让大模型所依赖的这些偏定制化产品的基建,能够做得更高效、实施成本更低。”百度智能云知识管理产品部总经理宋勋超说。 中关村科金李智伟告诉数智前线,一方面,需要产品经理更了解客户场景,产品标准能力要能够尽可能多地cover业务需求,即产品的满足度要提升。另一方面,产品交付过程中也要提供服务/咨询能力,与客户一起,赋能客户成长。而这一点在行业应用领域非常重要。 中工互联董事长智振则举例称,给企业做定制化,就好比定制西服,量体裁衣的效果必然更好,但成本和耗费时间也会更多。要想降低定制化的成本、时间,就要提高标准化的比例,也即标准化的产品,加上更加标准化的服务流程。 “今年以来,我们已经将过去一年探索出的能做的方向,全都产品化了。”智振说。而这不仅有利于企业去落地大模型应用的过程中,更快得到能力的交付,也能加快服务商的大模型落地能力推广复制的速度。智振透露,他们目前除了自己面向客户提供产品+服务的整体方案,也将标准产品卖给了伙伴,再由伙伴向客户出方案。 07 运维,让投资不打水漂 “好多人往往忽略了大模型的运维运营,但我认为它和大模型的建设同样重要,值得我们长期的投入,否则你根本用不起来。”华为主机上云军团CEO、混合云总裁尚海峰表示,这其中,涵盖了体系建设、AI培训、技术运营、场景运营、生态运营、市场运营、运营门户等多个环节。 比如,鄂尔多斯市政府与华为联合打造的以行业AI大模型为核心的工业互联网平台,采用‘前店后厂’模式。据鄂尔多斯市创新投资集团有限公司副总经理廉咏梅介绍,在这种模式下,“后厂”不断聚集生态伙伴来拓展新场景,开发新的大模型应用产品的同时,“前店”也能通过线上应用商城,实现商业的变现,实现成果转换和商业闭环。 但与此同时,这也对企业和服务商都提出了新的要求。 于企业而言,需要尽快通过服务商们提供的AI赋能、AI培训等模式,打造落地大模型的内生能力。 于服务商而言,也更加要求长期服务和陪伴的能力。“to b企业软件领域有一个逻辑是,每年如果不更新,就会损失15%的能力。”智振告诉数智前线。 显然,在今天的大模型时代,技术的更迭和升级还要更快。而这也同样意味着,不管是企业,还是大模型服务商们,都需要更经常地进行经验总结,更新方法论。
WOA设备管理器登陆微软应用商店,可在Surface Duo上安装Win11系统
IT之家 7 月 4 日消息,上个月,让 Windows 11 在 Surface Duo 上运行成为可能性的开发者发布了一款名为 WOA 设备管理器的新应用,帮助用户更轻松地在微软命途多舛的双屏智能手机上安装 Windows 11 系统。现在,WOA 设备管理器已经免费登陆微软应用商店,为喜欢尝鲜的用户提供了更加便捷的获取该应用的方式。 WOA 设备管理器可协助用户在安卓智能手机上安装、更新和管理 Windows 系统,兼容微软的 Surface Duo 系列手机,并允许用户执行完整固件更新 (FFU)、管理驱动程序、启动到不同模式以及解锁 bootloader 等操作,该应用的界面也采用了与 Windows 11 设计风格一致的清爽易用风格。 IT之家需要指出的是,虽然使用 WOA 设备管理器让 Surface Duo 运行 Windows 11 变得更加简单,但整个过程仍然需要一定的动手能力,且存在一定风险,请务必在操作之前做好所有数据的备份工作。 值得一提的是,WOA 设备管理器最近更新了以下功能: 修复了许多错误并进行了性能提升 新增了应用过时更新提醒功能 新增了管理连接设备的驱动程序功能(更新、重新安装) 新增了设备进入大容量存储模式时,通过覆盖层显示活动驱动器盘符的功能 新增了按住 Shift 键点击“切换到 Windows”按钮以指定自定义 UEFI 镜像的功能(可选) 新增了按住 Shift 键点击“管理驱动程序”按钮以选择自定义驱动程序包的功能
《三星堆:未来启示录》AIGC赋能古文明科幻短剧集
由博纳影业AIGMS制作中心,联合抖音、即梦AI生成式人工智能创作平台,出品并制作的AI生成式连续性叙事科幻短剧《三星堆:未来启示录》第一季,揭开一段跨越时空的古文明探险旅程,开启了影视产业和人工智能技术深度融合的全新篇章,探索从AIGC生成式短剧集到“AI+实拍长剧集”,到“AI+工业化电影”的三步走模式,形成了影视IP开发的“N+2”模式。 《三星堆:未来启示录》是基于成都博纳在四川省电影局2022年立项的同名电影所打造的科幻短剧集,是2024年立项公示的全国重点微短剧。故事设定在科技飞速发展的近未来,地球古文明遗迹发生异变。三股势力的不同人物共同进入数字生成的古蜀国,展开了一场横贯古今的冒险之旅,揭开了4000年前古蜀国和南方丝绸之路的神秘面纱,寻找拯救文明危机的密码。 该项目由博纳影业AIGMS制作中心出品制作,抖音联合出品,即梦AI提供首席技术支持,汇集了电影工业体系和人工智能领域的顶尖人才,融合了超过十种尖端AI技术,打造了一套定制化的高效工作流程: •AI创意与文本创作:大语言模型(LLM) • 视觉概念及分镜设计: 变化模型(Transformer Model)、文本到图像生成(Text-to-Image Generation) •镜头画面生成:扩散模型(Diffusion Models)、生成对抗网络(GANs)、风格迁移(Style Transfer)、深度学习(Deep Learning) •图像质量增强:超分辨率技术 (Super-Resolution) •图像到视频转换:时序生成模型 (Sequential Generative Models) •视频编辑和媒体内容增强:自动视频编辑算法 (Automated Video Editing Algorithms) •文本到语音合成:语音合成技术 (Text-to-Speech Synthesis, TTS) •文本到音乐创作:音乐生成AI (Music Generation AI) 这些技术的应用释放了想象力和创造力,提升了画面效果和创作多样性。 即梦AI拥有成熟的AI内容生成经验,解放图像制作、视频生成等创作环节生产力,幕后创作人员无需逐帧制作、调整影像,即可实现创意灵感的高效落地。通过控制人物动作、场景变换和情感表达,打破AI生成影视作品的静态叙述限制,增强了商业性和叙事深度。即梦AI相关负责人表示,希望借助该片展示AIGC技术的潜力,吸引更多用户体验即梦AI,描绘心中所想,激发创作潜力。 作为博纳、抖音联合出品的首部AI科幻短剧集,《三星堆:未来启示录》第一季将在暑期播出,在博纳影业AIGMS、即梦、剪映的抖音官方账号上共创更新。随着更多专业影视公司的加入,抖音上涌现出了不同题材和类型的精品短剧,本次引入AIGC科幻短剧集,展现了人工智能技术介入短剧题材的可能性。相比于一般电影开发周期至少两三年,该项目将于近期上线第一季12集,有利于创作者及时获得观众反馈,围绕古文明科幻IP做更长线的运营和开发。 博纳影业AIGMS制作中心在制作《三星堆:未来启示录》中,不仅展示了AIGC技术在影视制作中的应用,还将现有AIGC的技术潜力深度发挥,也为未来的影视制作提供了新的方向。《三星堆:未来启示录》标志着AI生成式影剧作为新质生产力的可行性和商业价值,预示着影视行业迎来一场由人工智能带来的变革,引领行业不断向前发展。
小猿学练机“互动阅读”功能亮相2024世界人工智能大会
凤凰网科技讯 7月4日,2024世界人工智能大会在上海世博展览馆开幕。本届大会集中展示了全球“人工智能+”领域的创新应用与前沿成果。 在猿力科技展区,可以看到一块巨大的液晶显示屏,据介绍,它通过裸眼3D视频生动呈现AI个性化3D知识图谱,揭示了小猿学练机「以练促学」个性化学习的底层逻辑。 视频中,随着对某同学的个人试卷、作业进行扫描,AI即刻调用教育大模型,对该同学的知识点掌握程度等学情进行深入分析。这种分析贯通了多学科交汇、全学段覆盖的每一个知识点,而不再局限于单次作业或单学科。通过不同颜色、不同大小的知识小球,该同学的学习状态被清晰地勾勒出来,且随着学习进程动态变化。 小猿学练机展区 结合猿力科技300亿学习行为数据和学生的个人学习数据,并与3D知识图谱以及学生的能力图谱进行匹配,小猿学练机可以穿透学科与学段的边界,精准定位线下练习不易察觉的薄弱点,从而为每个孩子定制精准的个性化学习路径。其自主研发的全场景「以练促学」精准学系统,从智能推题、AI批改、错题整理、错题讲解、举一反三到薄弱点专练,形成完整的个性化学习生态闭环。 这一次大会现场,小猿学练机还展示了一款“AI伴读大模型”装置,该装置为 “互动阅读”功能的外化体现,它将AI大模型首次融入大语文学习,开创了一种新的语文学习方式。通过简单的呼唤“小猿小猿”,“AI小猿”能够与孩子就书籍内容展开即兴对话,解答孩子的各种问题。 观众参与“AI伴读大模型”装置互动体验 “大模型为整个教育行业的学习硬件都注入了一个更好的向前快速发展的推动力。”小猿学练机市场负责人表示。
世界人工智能大会开幕,我在阿里巴巴展区玩疯了| WAIC 2024
连续三天,整个 AI 圈的目光都聚焦在上海世界人工智能大会。 位于世博展览馆 H2 馆 B101 的阿里巴巴展区成为了现场参观者的热门打卡点。展区呈现了阿里巴巴依托其强大云计算能力,在 AI 技术领域取得的亮眼成绩和创新成果。 比如通义 APP 以「通义十二时辰——体验 AI 助手陪伴的一天」为主题,围绕对话、效率、智能体、视觉四大核心板块进行功能集中展示和互动体验,描绘了通义 APP 为每个人在工作、学习、生活等场景中提供全天候的 AI 助手能力。 ▲ APPSO 在现场 展区现场,参观者有机会亲身体验一系列特色互动项目,包括「定制个性化声音」、「高校百万创作人」工具互动、阅读「追星星的 AI」公益绘本、欣赏「动态版韩熙载夜宴图」、创作「涂鸦作画个性扇子」,以及体验「亚运 AIGC 明信片」等。 此前,APPSO 曾介绍过通义 APP 中的「全民舞王」功能,该功能甚至让兵马俑跳起全民皆舞的科目三。 而其背后运用到的「Animate Anyone」技术也是业界领先的动作捕捉解决方案,能够将任何静态图像转化为生动的舞蹈动画。 ▲ APPSO 在现场 在现场,通义实验室还运用一系列先进 AI 技术「复活」《韩熙载夜宴图》,让这幅古典名画以全新的形式呈现在观众面前。 同时,用户还可以体验到国内用户规模第一的智能编码助手——通义灵码。 这是一款基于通义大模型的智能编码辅助工具,能够提供行级/函数级实时续写、自然语言生成代码、单元测试生成等能力,并针对阿里云的云服务使用场景调优,助力开发者高效、流畅的编码。 如何打通 AI 落地应用最后一公里,展区的产品也给出一些答案。 比如现场观众能一睹小鹏全球领先的 AI 天玑系统。这一系统基于小鹏自研大模型与通义大模型的能力,将 AI 技术全面应用于座舱和智能驾驶,实现主动学习、快速成长,为每位用户提供个性化的智能化体验。 又或者,学而思学习机则依托千问大模型,推出了「AI 口语分级练」、「小思圈圈学」、「小思对话」等一系列创新功能,为孩子带来口语对话、屏上练习、成长陪伴的新体验。 WPS AI 作为金山办公旗下的人工智能应用,由大语言模型能力支撑,也与通义千问等国内主流大模型合作,提供内容创作、智慧助理、知识洞察等 AI 功能,致力于打造一站式 AI 办公体验。 微博也是通义大模型最早的外部客户之一,并已在多个场景广泛落地。 微博 COO、新浪移动 CEO 王巍表示,AIGC 发展速度远超想象,包括通义 2.5 在内,行业已涌现出不少大模型。 大语言模型就像百科全书,一个国家有几本就够了,我们不需要做 100 个大模型,这其实是很大的资源浪费。我更倾向于使用像阿里云『通义千问』这样的优秀基础大模型,同时利用我们的自有数据,以更加精巧的模式产出好的落地应用。 值得一提的是,在奥运会期间,阿里云也参与了《奥运 AI 议程》的发布,并且用 AI 复原 1924 巴黎奥运影像。通过云上智能转播,阿里云利用 AI 打造多视角回放,为观众带来了沉浸式观赛体验。 正如阿里云 CTO 周靖人曾描述的那样,面向智能时代,阿里云将通过从底层算力到 AI 平台再到模型服务的全栈技术创新,升级云计算体系。 这不仅仅是一朵 AI 时代最开放的云,也或许是 AI 时代最有竞争力的云。
因出现技术问题,微软将暂时下架部分版本Win11虚拟机
IT之家 7 月 4 日消息,微软更新了用于下载官方 Windows 11 评估虚拟机(也称为 Windows 开发环境)的页面。根据更新内容,由于“持续的技术问题”,部分当前可用的虚拟机将被暂时下架,受影响的虚拟机是为 Parallels (macOS) 和 VMware (跨平台) 制作的版本。 以下是微软发布的消息: “由于持续的技术问题,VMware 和 Parallels 的下载链接将从 2024 年 7 月 15 日起暂时不可用。” 据IT之家了解,Windows 开发环境虚拟机提供四个版本:VMware、Hyper-V Gen 2、Parallels Desktop 和 VirtualBox。微软通常会在发布周二补丁更新后每月更新一次官方虚拟机。然而,由于某种原因,微软跳过了 6 月份的更新,导致最新的 Windows 开发环境虚拟机版本停留在了 2404 版本。 尽管目前仍可下载适用于 VMware 和 Parallels 的 2404 版虚拟机,但该版本设置了到期日为 2024 年 7 月 15 日的“时间炸弹”。这意味着在该日期之后,Windows 11 将开始不断提醒用户激活系统。由于即使拥有正版密钥也无法激活 Windows 开发环境,因此用户将需要等待微软发布适用于 VMware 或 Parallels 的修复版本,或者暂时切换到其他虚拟化软件。 需要提醒的是,微软最近确认了 Windows 11 在 ARM 架构的 Mac 上运行时存在问题。受影响的用户在 Parallels 或其他软件中运行 Windows 11 时,会收到“Windows 11 版本 23H2 基于 ARM64 的系统 2024-05 累积更新 (KB5037853) 安装错误 - 0x800f0845”的消息。 用户可以在微软官网下载官方的 Windows 11 虚拟机,每个虚拟机都包含一个 Windows 11 企业版副本和用于制作 Windows 应用的完整开发工具集,例如 Visual Studio、Windows Subsystem for Linux、Terminal、开发者模式等等。
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
作者 | ZeR0 编辑 | 漠影 “AI主战场,万卡是最低标配!” 在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。 为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也得在1个月内训练完。假设训练一个5000亿参数模型,有15TB数据,如果只有1000P算力,3年都训不完;如果将时间锁到两周或1个月,10000P是最低保障。 在海外,拥有1.8万亿参数的GPT-4大模型需要用25000张A100 GPU训100天,折算成H100则需要1000张;Meta今年推出2个24576张H100集群,用于训练Llama 3等新模型;本周马斯克自曝新版Grok 3训练用了10万张H100 GPU。 在国内,万卡集群建设高歌猛进。去年7月,华为昇腾AI集群规模扩展至16000卡;10月,科大讯飞宣布启动万卡集群算力平台“飞星一号”;今年3月,天翼云上海临港国产万卡算力池启用;4月,中国移动宣布今年将商用3个自主可控万卡集群……一众云大厂更是囤卡攒算力专业户,将大模型训练集群规模卷向10万卡量级。 但基于国产GPU的万卡方案,还是刚新鲜出炉。 就在昨日,国产GPU公司摩尔线程宣布其人工智能(AI)旗舰产品夸娥(KUAE)智算集群解决方案实现重大升级——从千卡扩展至万卡规模。 这是其首个万卡万P万亿国产全功能GPU大模型预训练平台,树立了国产GPU技术的新标杆: 总算力超过10EFLOPS,目标是做到有效计算效率超过60%、稳定性达99%,能支撑万亿参数级大模型训练。 3个万卡集群项目(青海零碳产业园万卡集群、青海高原夸娥万卡集群、广西东盟万卡集群)在现场进行了战略签约。 两家清华系AI Infra合作伙伴(无问芯穹、清程极智)、两家大模型大厂合作伙伴(360、京东云)、一家具身智能合作伙伴(智平方科技)的代表先后登台,对夸娥智算集群助力其在大模型训练、推理及具身智能的创新赞誉有加。 加速一切大模型,只是第一步。 张建中说,夸娥万卡集群不仅是加速AI,而是想要为美好世界加速。 一、大模型训练呼唤万卡集群,国产GPU企业坐上牌桌 大模型竞赛轰轰烈烈,从研发到应用,从训练到推理,一切都在疯狂消耗着算力。 智算中心是大模型训练的“超级加工厂”,数据量够多、参数量够大,训练出的大模型才有市场竞争力。对此,张建中总结出三大算力核心需求: 一是Scaling Law持续奏效,假设按线性比例成长,参数规模从百亿到万亿有100倍增长,处理数据量从TB到10+TB有10倍提升,两者相乘,那么所需算力至少增长1000+倍,需要建立一个单节点超大规模算力集群来做训练。 二是算法持续迭代,Transformer架构不能实现大一统,从稠密到稀疏模型,再到多模态模型的融合,多元架构持续演进并共存,面向特定领域设计的专用芯片难以适应未来算法,通用型算力才具备更强的抗风险能力。 三是AI、3D、高性能计算(HPC)跨技术与跨领域融合加速,推动空间智能物理AI和AI for Science、世界模型等领域的边界拓展,使得大模型的训练和应用环境更加复杂多元。 这些趋势对智算集群提出了多重要求:既要规模够大,又要通用性强,前者负责支持顶尖大模型巅峰对决,后者顺应多元计算融合发展的趋势,进而催生出对万卡GPU集群的迫切渴求。 大模型训练,唯快不破。 海外头部AI大厂都步调激进,OpenAI单点集群有超5万张H100,谷歌打造了2.6万张H100组成的AI超算,Meta到今年年底将囤35万张H100。国内大厂固然也愿意豪掷巨资,但被美国一纸限令推入“有钱买不到新算力”的僵局。 而如果没有万卡集群做训练,好比国产大模型拼命蹬着朴素的三轮,想跟开跑车的海外龙头同场飙车,逆袭的几率不能说没有,只能说极低。 甲之砒霜,乙之蜜糖。英伟达入华受阻,给了国产AI芯片备胎转正的机会。摆在前方的是一座名为智算需求的金矿,算力供应商们在摩拳擦掌,期待英伟达腾出的大单能落到自己头上。 摩尔线程则以一家国产GPU企业的身份,率先坐上了建设万卡集群的牌桌。 “这是一件难而正确的事情。”张建中说,“我们不能只是一家GPU的公司,一定要成为一家系统平台公司。” 创办于2020年10月的摩尔线程,甫一成立就组建云计算团队,设定了建集群的大方向和策略,并构建了MUSA体系架构,花了大量时间去研究集群建设中的各种问题,攻坚克难。在大模型潮起后,这一路线更加明确与坚定。 从千卡到万卡,集群建设的复杂度指数级增加,是一项超级系统工程。大集群≠大算力,多卡互联也绝非简单的“1+1=2”算术题,非常考验算网存系统级优化的功力。 暴力堆卡虽然能带来理论算力总和的暴涨,但如果不能解决技术及工程挑战,即便手握10000张卡,实际能发挥的算力可能还不及2000卡。而且卡连的越多,出故障的概率也会越大,从硬件设计到集群研究都要解决稳定性难题。 这就好比带兵打仗,单人武力值高不等于团队战斗力强,胜败关键看排兵布阵的策略和高效无缝的配合。每位士兵要骁勇善战,调兵遣将时需确保通信无阻,后备粮仓和医药资源也都得跟上。 对应到万卡GPU集群,则是算网存管每一环节都不能有短板,单卡算力要强,组网拓扑结构要设计得效率足够高,即能有效提升单位功耗的算力,还要有敏捷的故障排查和及时恢复能力,才能确保训得多、算得快、用得方便,跑得够稳。 因此,这项系统工程必须翻越六座大山:超大规模组网互联、集群有效计算效率、训练高稳定性与可用性、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算。 万卡集群造价极高。据张建中分享,几万P的智算中心成本高达几十亿,更大算力规模则需投资上百亿。如此大的投资,要求集群不仅拥有强大算力,而且必须具备多年持续服务的能力。设计智算中心时至少要考虑到两三年后的扩容程度,否则一旦空间和能源受限,规模就很难扩展。 在接受采访期间,张建中分享到目前智算中心投资回报率是5年左右,而国内芯片研发费用大致相当于美国公司的1/10,在国内可以得到更好的回报,他相信在国内的发展潜力非常巨大。 那么要打造“国产万卡万P万亿大模型训练平台”的摩尔线程,具体是怎么做的? 二、千人团队耗时四年,构筑夸娥万卡集群的三道护城河 计算效率、高度稳定、生态兼容,构成了摩尔线程夸娥万卡智算集群的三道护城河。 摩尔线程之所以将智算中心全栈方案命名为“夸娥(KUAE)”,是希望它像传世典故《愚公移山》中的夸娥氏二子那般不畏艰难,持之以恒,将一块块GPU加速卡垒成一个强大的计算集群。 这是一套以全功能GPU为底座,软硬一体化、完整的系统级算力解决方案,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio),旨在以一体化交付的方式解决大规模GPU算力的建设和运营管理问题。 张建中将夸娥万卡集群称作“新超级工程”。摩尔线程有1000多人、耗时近4年完成了这项工作,希望能够搭建首个中国本土通用型的万卡集群。 首先有自研全功能GPU,基于GPU做出计算加速卡,再组建成服务器,放进超融合一体机,然后将这样的4台机器整合到一个机柜里,形成一个小集群,小集群连成大集群,大集群的线性加速比高于91%。有了这样一个灵活组合的集群,客户就能根据自身建设规划去扩容每个计算集群。 软件也是关键落子。把万卡集群管理、调试、使用好,做到高效的训练和推理,需要一个全栈AI软件。摩尔线程夸娥智算集群的软件栈提供了一系列的加速引擎和便捷的管理平台,并支持用户进行7×24小时的随时远程监控。 “我们建议客户不要太多DIY,而是采用整体解决方案,这样可以避免风险,集群买回去之后马上就可以用起来。”张建中在接受采访时谈道,自建集群很有挑战性,如果专业性不足,从建设到稳定运行都会受影响,而KUAE夸娥是一个“交钥匙”工程,用户拿到就能开箱即用。 KUAE夸娥万卡集群有五个核心优势: 1、超大算力,万卡万P:单集群超万卡,浮点运算能力达到10Exa-Flops,显存总容量、卡间互联总带宽、节点互联总带宽均达到PB级,实现算力、显存和带宽的系统性协同优化,从而支持万亿参数级大模型的训练。 2、超高稳定,月级长稳训练:平均无故障运行时间超过15天,最长稳定训练30天以上;目标周均训练有效率逾99%。 稳定无故障,意味着每一位用户在集群中的每一秒没有被浪费,有助于降低计算中心运营成本,并满足大模型训练长期迭代的需求。实现软硬件故障自动检测,无需人工干预,则有助于实现大型智算中心的无人职守,降本增效。 这得益于摩尔线程自研的一系列可预测、可诊断的多级可靠机制:软硬件故障的自动定位与诊断预测功能可实现分钟级故障定位,Checkpoint多级存储机制可实现内存秒级存储和训练任务分钟级恢复,高容错高效能的万卡集群管理平台能实现秒级纳管分配与作业调度。 3、极致优化,超高MFU:在系统软件、框架、算法等层面进行一系列优化,希望MFU(集群有效计算效率,评估大模型训练效率的通用指标)最高可以达到60%,让用户买到的算力能真正发挥效力,而不只是买了一堆硬件。 摩尔线程在系统软件层面采用计算和通讯效率优化等技术手段,大幅提升集群的执行效率和性能表现。其自研卡间互连技术MTLink已经到2.0版本,目前用行业里的交换机芯片来搭建集群,后期也会考虑与合作伙伴共同研发下一代大规模交换机,持续发展卡间通信。 在框架和算法层面,夸娥万卡集群支持多种自适应混合并行策略与高效显存优化,可根据应用负载选择并自动配置最优的并行策略,大幅提升训练效率和显存利用;针对超长序列大模型,通过CP并行、RingAttention等优化技术,能有效缩减计算时间和显存占用,大幅提升训练效率。 4、计算通用:为通用场景设计,可加速LLM、MoE、多模态、Mamba等不同架构、不同模态的大模型,能够紧跟技术演进。 5、生态兼容:过去大部分软件都是在CUDA平台上开发,换到新平台,如何实现来了就能用?这意味着不仅要与国际主流生态兼容,还要扩展中国本土生态,两条腿一起走路。 因此夸娥智算集群提供了摩尔线程自研MUSA编程语言,完整兼容CUDA,开源社区和官方网站均可下载Torch MUSA源代码,并提供自动化迁移工具Musify,以便用户能在短期内迅速将模型和迁移到MUSA平台。 “对于目前国内的大模型用户来看,我们最大的优势就是生态兼容性很好,基本上当天或者是第二天就可以完成生态迁移并应用起来,对客户就非常方便,从投入成本来讲大大节约了用户的资源,同时也节约了我们的资源。”张建中说。 据摩尔线程CTO张钰勃分享,开发者移植到夸娥集群上,几乎不需要修改代码,迁移成本接近0,几小时之内就能完成迁移工作,调优性能可能花费数天。 除了自研全功能GPU外,摩尔线程也在与国产CPU、操作系统合作,并联合打造了一个基于中国自主创新技术的PES完美体验系统联盟。在张建中看来,这是国外GPU公司无法做到的产品兼容性。 “目前几乎所有的CPU企业都和我们的GPU完成了适配,我们一个驱动可以支持几乎所有的CPU,”他谈道,“我们希望完美体验系统让国内的CPU、操作系统和我们的GPU工作在一起的时候,可以为客户提供一个完整且很好的体验。” 三、AI Infra、大模型、具身智能代表站台,认证夸娥智算集群性能高、稳定好用 从实战经验来看,摩尔线程也的确赚得了口碑。无问芯穹、清程极智、360、京东云、智平方等五家合作伙伴登台,分享摩尔线程夸娥智算集群如何助力其在大模型训练、大模型推理、具身智能等不同场景和领域的创新。 今年5月,无问芯穹和摩尔线程完成基于国产全功能GPU千卡集群,合作训练出的MT-infini-3B是行业内基于国产GPU从0到1预训练并开源的第一个大模型,训练总用时13.2天,在同等参数规模模型中性能跻身前列。这也是双方合作的起点。 在合作初始阶段,无问芯穹还主动设置了一些“为难”摩尔线程的门槛,故意做了很多在算子或模型结构上的特殊修改。结果,摩尔线程的底层生态兼容性能够非常快而好地支持这些修改,最终全程稳定训练不中断地完成了模型训练。 无问芯穹正在打造大规模异构混训系统,实现多元芯片异构混合训练。摩尔线程是第一家接入并已支持千卡混训的的国产GPU公司。 清程极智创始人、董事长兼CEO汤雄超提到万卡大模型训练集群面临三大系统级挑战:1)算子性能优化,充分发挥单卡计算性能;2)大规模集群训练,高效协调多机分布式计算;3)新兴模型架构,灵活应对模型动态需求。 针对这些挑战,清程极智智能编译器IntelliGen和高效并行训练系统FastMoE均已适配MUSA,取得大幅训练加速,并实现0代码改动。汤雄超称赞摩尔线程的GPU硬件架构、指令集、编译器、MUSA软件栈等设计都非常优秀,清程极智有信心与摩尔线程一起攻克中国AI超大规模训练集群的难题,共同建设世界水平的训练集群。 360集团早在2021年就与摩尔线程产品进行技术合作验证,并启动360与GPU相关产品的适配。继去年与摩尔线程实现一体机合作、适配及技术验证后,360企业大模型产品在今年与摩尔线程扩大合作,希望共同打造一个基于国产算力加国产大模型的联合解决方案。 在摩尔线程夸娥千卡集群上,360分别部署70亿、700亿参数大语言模型,全程软硬件即插即用,工作有效训练时间占比100%;全程稳定无软硬件故障,集群有效训练时间占比100%。 京东基于摩尔线程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理测试,性能超过一些国际主流计算卡。 在Chatglm2-6B推理测试中,S4000的单卡推理性能是RTX 4090D性能的1.26倍,其他两个模型中,基于S4000性能均能达到RTX 4090D性能的90%左右。 智平方科技是一家机器服务公司,致力于将多模态模型的能力赋能给不同类型的智能终端与智能机器人。这家通用智能代表企业与摩尔线程共同探索了基于国产算力的多模态大模型高效训练,并合作研发了一些特定的算子和优化卡间通信、弹性调度的方案。 国产万卡集群的落地有望对AI行业产生许多积极影响,从缩短模型训练周期、加快商业落地到降低创业门槛,最终催化整个生态的繁荣。 在张建中看来,要挑战英伟达,难点主要在市场的推广、用户的生态适配和生态发展,需要全行业生态合作伙伴的共同努力,包括算力供应商、建设方、软件服务以及做增值服务的合作伙伴。但他相信,给客户极致性价比、先进的技术、最优质的服务,一定会让客户满意。 结语:GPU成为加速新技术浪潮的创新引擎 在加快形成新质生产力、开展“人工智能+”行动等战略指引下,我国AI落地进程正在提速,推动更多行业迈向数字化、智能化转型升级,并带动以GPU为核心的智算中心的建设与发展。 张建中坦言,GPU在整个计算服务器中的占比依然很低,不到10%,但未来这一占比将会提升。今年很多统计报告都显示新增加的算力来自于GPU,足见GPU算力的需求量非常强劲。 “我们正处在生成式AI的黄金时代,技术交织催动智能涌现,GPU成为加速新技术浪潮来临的创新引擎。”在他看来,此刻正是历史性的创造进程,而摩尔线程矢志投身,为融合AI和数字孪生的数智世界打造先进的加速计算平台。 据他分享,摩尔线程是国内唯一一家用全功能GPU去实现各方面通用加速计算能力的公司,用4年时间将GPU的3D/2D图形图像、视频编解码、科学计算、物理仿真、数字孪生、AI训练及推理能力都做了提升,能为客户提供一个更好的、可选择的国产化工具,并使得智算中心能支持更广泛的应用场景,提高长期抗风险能力。 随着夸娥智算集群从千卡向万卡无缝扩展,摩尔线程的全栈AI战略正在填上一块重要拼图。 “一旦我们把Scaling的问题解决了,这个对行业来说就解决了最难做的事情。”张建中说,在建好万卡集群后,摩尔线程将建设更大规模的集群,希望通过全功能通用加速计算平台,给行业提供更多的选择,催生开发者更多的想象力和创意。
全球AI面临6000亿美元难题,人工智能泡沫正在接近临界点!
新智元报道 编辑:Aeneas 好困 【新智元导读】AI基础设施的巨额投资,和实际的AI生态系统实际收入之间,差距已经到了不可思议的地步。曾经全球AI面临的2000亿美元难题,如今已经翻成了6000亿美元。 现在,业内关于AI模型收入的质疑声,已经越来越大。 动辄投入几万亿美元打造基础设施,跟部分国家的GDP不相上下,然而从AI模型中得到的回报,究竟能有几何? 在2023年9月,来自红杉资本的David Cahn发表了一篇名为《AI的2000亿美元问题》的文章,目的是探讨:「AI的收入都去哪了?」 根据报告,当时AI基础设施建设的预期收入,和AI生态系统的实际收入增长之间存在巨大差距。同时,这也反映了终端用户的价值。 对此,他解释道:「每年需要填补1250亿美元的空缺,以应对当前的资本支出水平。」 随着英伟达一度成为全球市值最高的公司,如今的「2000亿美元问题」是解决了,还是更加严重了? 结果出乎意料:AI的2000亿美元问题,现在已经变成了6000亿美元问题。 2000亿美元问题,直接翻了3倍 最近,David Cahn再次发表博文,对全世界提出警告:人工智能泡沫,如今正在接近临界点! 他列出了下面这张表格,并且详细解释了6000亿美元是怎么算出来的。 计算这个指标其实很简单。你只需将英伟达的年化收入预测乘以2倍,以反映AI数据中心的总成本(GPU占总成本的一半,另一半包括能源、建筑、备用发电机等)。然后再乘以2倍,以反映GPU终端用户的50%毛利率(例如,从Azure、AWS或GCP购买AI计算资源的初创公司或企业,他们也需要盈利)。 那么,自2023年9月以来发生了什么变化呢?David Cahn进行了以下总结。 1. 供应短缺已经缓解 2023年末是GPU供应最紧张的时候。当时,初创公司纷纷联系风险投资公司,甚至任何愿意帮助他们的人,只为获得千金难求的GPU。 如今,这种焦虑几乎完全消失了。如今的现状是,获取GPU变得很容易,交货时间也非常合理。 2. GPU库存正在增加 英伟达在第四季度报告中指出,其数据中心收入中约有一半,都来自大型云供应商。仅微软一家公司,可能就占了英伟达第四季度收入的约22%。 如今,超大规模的资本支出正达到历史新高。 这些投资也成为了大科技公司2024年第一季度财报的主要亮点,CEO们明确表示:「无论你们喜不喜欢,我们都会投资GPU。」 在业内,囤积硬件已经不是什么新鲜事了,一旦库存增加到足以减少需求,就会引发市场调整。 3. OpenAI仍然占据AI收入的最大份额 《The Information》最近报道,OpenAI的收入已增至34亿美元,在2023年末,他们的收入还是16亿美元。 虽然也有一些初创公司达到了不到1亿美元的收入规模,但显然,跟OpenAI相比,它们还在努力追车尾。 除了ChatGPT,今天消费者真正使用的AI产品有多少呢? 如果需要付费,每月15.49美元的Netfix,或者每月11.99美元的Spotify,岂不更香? 从长远来看,AI公司提供的价值需要足够显著,才能让消费者有持续的掏钱意愿。 4. 1250亿美元的空缺现在变成了5000亿美元的空缺 在上次分析中,David曾经做过这样一种乐观的的假设:每年,谷歌、微软、苹果和Meta能从新产生的AI相关收入中获利100亿美元。 他还假设,甲骨文、字节跳动、阿里、腾讯、X和特斯拉每家能产生50亿美元的全新AI收入。 即使这些假设仍然成立,并且再增加几家公司到名单中,那么1250亿美元的空缺,现在将变成5000亿美元的空缺。 5. B100即将到来 今年早些时候,英伟达官宣了B100芯片,它的性能提高了2.5倍,而成本却仅仅增加了25%。 David预计,这将最终导致对英伟达芯片的需求激增。 因为B100在成本与性能上较H100有显著提升,可能会导致今年晚些时候的又一次供应短缺,到时候大家都会争相抢购B100。 在GPU资本支出中,我们忽略了什么 有人反驳上一篇文章时说道:「GPU资本支出就像修铁路,火车最终会来,目的地也会出现——比如新的农产品出口、游乐园、购物中心等等。」 对此,David表示赞同,但也提出了他们忽略的一些问题。 1. 缺乏定价权 在物理基础设施建设中,所建的设施本身是有一定的内在价值的。 如果你拥有从旧金山到洛杉矶的铁轨,你可能会有某种垄断定价权,因为在A地和B地之间,只能铺设有限的铁轨。 而在GPU数据中心的情况下,定价权则要少得多。 GPU计算,如今越来越像是一种按小时计费的商品。 不同于成为寡头垄断的CPU云,后来者正在持续不断地涌入市场,建设专用的AI云。 在没有垄断或寡头垄断的情况下,高固定成本+低边际成本的业务,价格竞争下降到边际成本几乎会成定局(比如航空公司)。 2. 投资焚烧率 即使在铁路建设中,投机性投资狂潮也往往会导致极高的资本焚烧率。 在新技术出现时,也是如此。 在关于技术投资的最佳教科书之一《推动市场的引擎》中,得出的主要结论是:在投机性的技术浪潮中,很多人损失了大量资金。(比如铁路) 想要找出赢家很难,但要找出输家,则容易得多。(在铁路的情况下是运河)。 3. 折旧 从技术历史中我们知道,半导体的发展会越来越好。 英伟达还将继续生产更强的下一代芯片,如B100。这将导致上一代芯片更快的折旧。 因为市场低估了B100和下一代芯片改进的速度,它高估了今天购买的H100在3-4年内保价的程度。 不过,这种情况在物理基础设施中是不存在的,因为物理基础设施不会遵循任何摩尔定律曲线,成本与性能也不会持续改进。 4. 赢家与输家 现在,我们需要仔细看看谁是赢家,谁输家——在过度的基础设施建设期间,总是会有赢家的。 David认为,AI可能是下一个变革性的技术浪潮,而GPU计算价格的下降,实际上对长期创新和初创公司是有利的。 如果他的预测成真,主要受损的就是投资者了。 而创始人和公司建设者将继续在AI领域创新,因为他们将受益于更低的成本,和在这一实验期间积累的经验教训。 因此,他们更有可能成功。 谁为终端用户提供价值,谁就会获得回报 显而易见,AI将带来巨大的经济价值。那些专注于为终端用户提供价值的公司,终将获得丰厚的回报。 如今,我们正处在一个有潜力重新定义一代人的技术浪潮中。 像英伟达这样的公司,在这一变革中功不可没,并且很可能在未来很长一段时间内,都会继续在生态系统中扮演关键角色。 投机狂潮是技术发展的一部分,因此不必害怕。 在这个时刻保持冷静的人,有机会建起极其重要的公司。 但是,我们需要警惕那种从硅谷蔓延到全美,甚至全球的幻想:我们都能快速致富,因为AGI明天就会到来,我们都需要囤积唯一有价值的资源——GPU。 实际上,前方的道路将会很长。 它会有起伏,但可以肯定的是,这条路是值得走的。 参考资料: https://www.sequoiacap.com/article/ais-600b-question/
这个首创来自中国 AI 公司,能分钟级精准控制人物的视频大模型来了 | WAIC 2024
商汤科技又整大活了,只需一张照片就能生成一分钟视频。 7 月 4 日,由商汤科技打造的首个面向 C 端用户的可控人物视频生成大模型——Vimi 入选世界人工智能大会(WAIC)展览展示最高荣誉「镇馆之宝」,成为本届大会最具创新展品。 基于商汤日日新大模型,Vimi 仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。 随着大模型和生成式 AI 技术的迅猛发展,让静止的照片「活」起来已不再是难事。 然而,市面上现有产品在实际应用中仍存在诸多问题,如动作和表情控制不精准、效果稳定性差、视频时长受限等,这些限制了视频创作者的创作空间。 为了突破这些瓶颈,商汤科技推出了可控人物视频生成大模型——Vimi。 与图片表情控制类技术只能控制头部表情动作不同,Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。 同时,Vimi 还能合理生成光影变化,使得人物动作和视觉效果流畅自然,画面和谐唯美。 更重要的是,Vimi 能够稳定生成长达 1 分钟的单镜头人物视频,画面效果不会随时间推移而劣化或失真,充分满足娱乐互动等场景对长时间稳定视频的需求。 日日新官方表示,Vimi 将完全面向 C 端用户开放使用,尤其能够满足广大女性用户的娱乐创作需求。 用户只需上传不同角度的高清人物图片,即可自动生成数字分身和不同风格的写真视频。 由 Vimi 生成的视频人物不再只是呆板的五官运动,而是搭配手势、肢体、头发等,形成更完整、统一的人物动作,让创作者可基于生成的视频素材进行剪辑和再创作。 对于喜爱自拍的用户,Vimi 支持聊天、唱歌、舞动等多种娱乐互动场景;对于热衷表情包的用户,Vimi 通过单张照片即可生成各种趣味的人物表情包,玩法多样,实现创作自由。 此外,Vimi 还提供唯美写真风、奇幻风等多种生成风格,让用户仿佛穿越不同次元,享受大片质感的沉浸式视觉效果。 目前,行业里 80% 的视频都是以人物为主要内容,同时伴随短视频、直播平台的爆发,以人物为主体的视频需求量成指数级增长。 然而,市面上缺少可控人物视频生成的 AIGC 产品,这导致内容创作者的效率亟待提升。 可以说,Vimi 的问世正好填补了这一空白,能够为广大 C 端的视频创作者提供了简单、好用的创作工具,方便广泛应用于人物类短视频的创作。 在 7 月 5 日商汤科技举办的「大爱无疆·向新力」人工智能论坛上,还将揭开 Vimi 的更多细节。APPSO 届时也将跟进报道。 目前,Vimi 已在商汤科技官网开放预约,欢迎体验。
阶跃星辰首发万亿和「多模」大模型,还与《大闹天宫》跨界联动 | WAIC 2024
仅仅过去 100 天左右,站在 AGI 风口上的阶跃星辰再次亮出王炸成果。 在今天揭幕的世界人工智能大会,阶跃星辰宣布对 Step 系列通用大模型家族进行全面升级。 阶跃星辰一口气连发三款 Step 系列通用大模型新品:Step-2 万亿参数语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。 ▲ APPSO 在现场 最新发布的 Step-2 万亿参数语言大模型正式版,采用了创新的 MoE 混合专家模型架构。 同时,基于阶跃星辰行业领先的系统能力,Step-2 大幅提升了训练效率,在数学、逻辑、编程、知识、创作、多轮对话等方面体感全面逼近 GPT-4,企业和开发者可以通过阶跃星辰开放平台申请体验。 此外,阶跃星辰还公布了其在多模态大模型研发领域的多项进展。 新升级的 Step-1.5V 千亿参数多模态大模型,在图像感知和理解能力上全面提升,并具备出色的视频理解能力。它能准确地识别视频中的物体、人物和环境,并理解视频的整体氛围与人物情绪。 在 Step-2 万亿参数大模型的加持下,Step-1.5V 推理能力大幅增强,能根据图像内容进行解答数学题、编写代码、创作诗歌等高级推理任务。 如果说 Step-1.5V 的发布,标志了阶跃星辰在极短的时间内,实现了从图像理解到视频理解的跨越升级,那么新发布的 Step-1X 图像生成大模型,则代表了阶跃星辰在推动多模态理解和生成统一的技术路线上取得重要进展。 它采用全链路自研的 DiT(Diffusion Models with transformer)模型架构,支持 600M、2B、8B 三种不同的参数量,能够满足不同场景的需求。 并且,Step-1X 具备更加强大的语义对齐和指令跟随能力,还针对中国元素和文化进行了深度优化,更具中国风格。这也是 Step-1X 区别于其他模型的重要特色。 值得一提的是,阶跃星辰也凭借 Step 系列通用大模型的创新,一举斩获 WAIC 2024 SAIL 之星的称号。 阶跃星辰创始人、CEO 姜大昕博士曾表示: 攀登 AGI 山峰,『万亿参数』和『多模融合』缺一不可。万亿参数规模,是实现 AGI 的基础门槛;多模态大模型,是通向 AGI 的必经之路。 面向未来,我们会继续将模型做大做强,打造超级模型,同时让模型服务于工作和生活,十倍每个人的可能。 阶跃星辰也在 WAIC 现场展示了面向 C 端用户的自研产品,以及应用落地的最新成果与计划。 智能助手——「跃问」和 AI 开放世界平台——「冒泡鸭」,是阶跃星辰面向 C 端用户推出的两款自研产品。 基于 Step 系列通用大模型的强大能力「跃问」能准确地描述和理解图像中的文字、数据、图表等信息,出色地完成内容创作、逻辑推理、数据分析等任务。 「冒泡鸭」则打造了一个全新的 AI 开放世界。在这里,用户可以探索故事、创作角色,沉浸属于自己的开放世界。 同时,阶跃星辰与众多合作伙伴达成了深度合作,共同探索面向 C 端用户的创新应用。 例如,阶跃星辰与上海报业旗下界面财联社达成深度合作,双方围绕 AIGC 财经资讯、智能投研、智能投顾等领域推进大模型的应用落地。 APPSO 在现场 面向内容创作领域,阶跃星辰联合上海电影在「AI+IP」领域进行创新探索。双方推出了一款《大闹天宫》AI 互动体验——「测测你是哪路神仙」,调用了 Step 系列大模型,融合了图像理解、风格迁移、图像生成、剧情创作等多种能力。 阶跃星辰还与上海电影结合《葫芦兄弟》的 IP 进行了视频生成能力的展示。此外,阶跃星辰已与中文在线、中国知网等展开合作,共同探索大模型在网络文学、知识服务等领域的创新应用。 此外,阶跃星辰宣布推出开放平台——「繁星计划」,投入优质资源扶持多模态领域优秀的初创企业与独立开发者团队,共同加速 AI 大模型技术在各类场景的应用落地。 鲜少有人知道的是,阶跃星辰的名字其实来自于「阶跃函数」。 这仿佛与上文提到的「Scaling Law」核心理念不谋而合,随着模型规模的不断扩大,其性能也会随之显著提升,也迎来阶跃式进步。 今日发布的 Step 系列通用大模型新品,对于阶跃星辰而言,只是其探索之路上的一小步,但也是迈向 AGI 之路,以阶跃之力,赴星辰大海的重要一步。 在今后的国产大模型战场上,或许没有人敢忽视阶跃星辰这个国产大模型黑马了。
如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC
作者 | 香草 编辑 | 漠影 随着大模型的智能水平迅速增长,科技圈对AGI(通用人工智能)将于几年内降临的预测声音越来越多。 那么在通往AGI的路上,有什么因素是必要条件?这一问题也成为产业内备受关注的话题。 智东西7月4日报道,今日,在世界人工智能大会(WAIC)2024上,大模型独角兽阶跃星辰正式发布Step系列模型“全家桶”,包括万亿参数语言大模型Step-2、千亿参数多模态大模型Step-1.5V以及图像生成大模型Step-1X。 三款模型分别对应Scaling Law、多模态理解和多模态生成,也对应了阶跃星辰对于实现AGI目标的判断——万亿参数、多模融合。 这两点同样是Step系列通用大模型的核心优势。从3月首次亮相,到此次正式发布,Step系列模型在参数规模和多模态能力上取得巨大进展。 具体来说,Step-2在数理逻辑、编程、世界知识、指令跟随等方面体感全面逼近GPT-4,Step-1.5V从图像理解升级到视频理解,Step-1X全面支持600M、2B、8B三种参数量,在多模态理解和生成统一技术路线上实现重要技术突破。 阶跃星辰成立于2023年4月,创始人姜大昕曾担任微软全球副总裁、微软亚洲互联网工程院首席科学家。从成立初期,阶跃星辰就从算力、数据、算法和系统四大要素上综合布局,坚定追逐AGI的目标。 一、通往AGI之路,万亿参数、多模融合缺一不可 在如何实现AGI的问题上,业内一直存在诸多不同的声音。 如OpenAI Sora团队的核心成员Tim Brooks和Bill Peebles认为,视频生成技术将通过模拟一切来实现AGI。DeepMind创始人Demis Hassabis则认为,最快可能实现AGI的方法,就是将世界上现有的所有知识都收集起来,用于模型训练。 大模型创企月之暗面CEO杨植麟称,Scaling Law是通往AGI的第一性原理。百川智能CEO王小川则认为仅靠Scaling Law还不够,AGI需要大模型范式的改变。 而在阶跃星辰创始人姜大昕看来,要攀登AGI这座高峰,“万亿参数”和“多模融合”缺一不可。 在发展阶段上,早期的AI语言、视觉、声音等不同模态独立发展,每个模型主要学习如何更好地表征各自模态的特点;现在,不同模态开始走向融合,但仍不彻底,面临理解能力与生成能力难以同时实现的痛点;最终,生成和理解需要统一在一个模型里,与具身智能相结合起来,模型作为机器人或其他硬件设备的“大脑”,带领它探索并与世界交互,实现AGI。 因此,多模态理解和生成的统一是通向AGI的必经之路。 另一方面,根据Scaling Law,模型的参数量决定模型能力上限,所以全面跨入万亿参数,甚至十万亿、百万亿,是通向AGI的另一核心。 行业内第一梯队的大模型公司是怎么做的?以OpenAI为例,其最新发布的GPT-4o模型全方面加强了语音、视频交互能力,而“大力出奇迹”的暴力美学也是其屡试不爽的模型训练方式。 这恰好印证了Scaling Law与多模态融合这两个关键点,与阶跃星辰所选择的路径不谋而合。 二、三大模型亮相WAIC,阶跃星辰大模型全家桶来了 今年3月,阶跃星辰首次推出Step系列通用大模型并发布预览版,向万亿参数规模发起冲击。 经过100天的打磨,今天在WAIC上,阶跃星辰正式发布Step系列模型“全家桶”,包括万亿参数语言大模型Step-2、千亿参数多模态大模型Step-1.5V以及图像生成大模型Step-1X。 ▲WAIC现场发布Step系列模型“全家桶” 其中,Step-2在数理逻辑、编程、世界知识、指令跟随等方面体感全面逼近GPT-4。 在算法架构方面,目前MoE模型的训练方式主要分为两种,基于已有模型向上复用训练,或是从头开始训练。 第一种方式对算力需求低,训练效率更高,但容易出现同质化严重等问题。相比之下从头训练虽然难度更高,但能获得更高的模型上限。 在设计MoE架构时,阶跃星辰选择迎难而上自主研发。具体来说,通过部分专家共享参数、异构化专家设计等架构设计,Step-2中的每个“专家模型”都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。 有万亿参数的模型当“老师”,Step-1.5V的推理能力大幅提升,可以根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。 同时基于创新的图文混排训练方法,Step-1.5V感知能力增强,能理解复杂图表、流程图、准确感知物理空间复杂的几何位置。 另一个重要的升级点是视频理解能力,Step-1.5V不仅能够准确识别视频中的物体、人物和环境,还能理解视频的整体氛围和人物情绪。 图像生成大模型Step-1X首次亮相,其采用全链路自研的DiT模型架构,支持600M、2B、8B三种不同的参数量,可满足不同场景的需求。其中,600M适合对于速度敏感的轻量级场景;2B是适用于日常的主力模型,效果和速度达到平衡;8B则追求更高、更极致的生成效果。 Step-1X具备优秀的语义对齐能力和指令跟随能力,并针对中国元素进行深度优化,支持中国元素、文化内容,同时更符合国人的审美风格。 基于这一系列模型的能力,在彩色动画长片《大闹天宫》发行60周年之际,阶跃星辰与上海美术电影制片厂合作,推出一款H5 AI互动体验。 ▲《大闹天宫》游戏现场体验 根据用户上传的个人照片,大模型会识别人物特征,并结合《大闹天宫》画风和角色进行风格迁移,生成新的肖像。 在交互中,用户可以与大模型生成的剧情进行交谈,系统将根据用户的选择和回答分析其MBTI人格,并在天庭为其安排一项适合其人格的差事。 ▲《大闹天宫》游戏界面截图 基于Step系列模型,该游戏将先进的生成式AI技术与《大闹天宫》情景深度融合,用当代的新视角,带领观众领略这部经典动画作品中的传统文化魅力,这是生成式AI技术在落地应用层面上的又一次创新尝试。感兴趣的读者朋友,可以点击本文下方的“阅读原文”进行体验。 值得一提的是,阶跃星辰Step系列通用大模型凭借技术创新和广泛的应用落地,被选入WAIC 2024 SAIL(Super AI Leader)之星,这意味着阶跃星辰在技术和应用方面获得业界的高度认可。 三、模型和产品双轮驱动,面向C端构建生态圈 成立于2023年3月的阶跃星辰,在喧哗吵闹的“百模大战”中并不高调。 在创业之前,姜大昕担任过微软全球副总裁、微软亚洲互联网工程研究院首席科学家,曾主导微软搜索引擎Bing、智能语音助手Cortana、微软云Azure、办公全家桶Microsoft 365等产品的自然语言理解系统的构建。 自成立起,阶跃星辰就在算力、数据、算法和系统这四大要素上综合布局,坚定投入Scaling Law。 ▲阶跃星辰创始人姜大昕讲解攀登Scaling Law所需的要素 姜大昕认为,模型和产品的关系就像是灵魂和皮囊,“好看的皮囊千篇一律,有趣的灵魂万里挑一。”阶跃星辰希望通过“有趣的灵魂”,来显示出产品的不同。 因此,从成立第一天开始,阶跃星辰就同时开发模型和应用产品。应用作为牵引和数据补充,模型与应用深度绑定,通过双轮驱动将两者都做到极致。 而在应用落地的过程中,只靠一家公司自身存在局限性,需要不同公司之间的生态合作才能够促进技术的创新和发展,加速技术的落地应用,推动整个行业持续进步。 通过自有产品与生态合作产品相结合的方式,阶跃星辰对大模型落地应用展开了积极探索。 在自有产品方面,阶跃星辰已发布效率工具“跃问”和AI开放世界平台“冒泡鸭”两款自研产品,均已全面开放使用。 其中,跃问作为一款个人效率助手,能够基于联网搜索、代码分析增强(POT)等能力,为用户提供信息查询、语言学习、创意写作、图文解读等多样化服务,帮助用户在工作、学习、生活等场景下解决问题。 基于Step-1.5V等模型能力,跃问的主要优势在于业界领先的多模态内容理解能力,不仅能够帮助用户识别真实世界的万事万物、理解和分析复杂的金融图表,还能理解网络热梗图片中的深意。 ▲跃问图像理解能力 在生态合作产品方面,阶跃星辰在内容创作、金融财经、消费娱乐等领域与合作伙伴达成深度合作,共同发掘面向C端用户的创新应用。 在WAIC亮相的《大闹天宫》,就是阶跃星辰联合上海电影共同推出了一款AI互动体验产品,将先进的AI大模型技术与《大闹天宫》情境深度融合,用当代全新视角领略中国传统文化的魅力、回顾经典动画作品艺术成就,同时也为创作者打开更多想象空间。 在金融财经领域,阶跃星辰联合国泰君安以及界面财联社,推出业内首家千亿级参数多模态证券垂直类大模型——君弘灵犀大模型,在业内首个实现将大模型能力全面融入客户智能化服务体系之中,在智能投顾问答、投研内容生产和交互模式上为客户带来新体验。 从模型到应用,对AGI的追求始终贯穿着阶跃星辰的战略布局。通过构建开放、合作的生态系统,其正在推动AI技术的广泛应用和行业的共同发展。 结语:微软前高管带队AGI,闯入大模型创企第一梯队 在大模型“百花齐放”下,越来越多的大厂牛人下场创业,成为生成式AI创业赛道的主力军。据智东西统计,2023年至今,至少有25位大厂高管已投身生成式AI创业。 这些创业公司所选择的细分赛道各不相同,覆盖通用大模型、垂直大模型、生成式AI应用、AI基础设施、AI数据服务、AI咨询等全产业链环节。 其中,阶跃星辰作为模型与产品双管齐下的创企,始终用行动践行着对AGI的终极追求。Step系列通用大模型和多样化的自有、合作产品是阶跃星辰在通往AGI之路上交出的最新答卷,“万亿+多模”也将成为大模型企业格局的分水岭。
AI让全球GDP翻10倍!但风险比核问题还严峻,三大图灵奖大佬对话,WAIC干货看尽
作者 | 李水青 香草 编辑 | 云鹏 智东西7月4日报道,今天上午,2024世界人工智能大会(WAIC)在上海开幕!作为国内最高规格的AI领域行业大会之一,WAIC 2024开幕主论坛不仅有高层参与,同时汇聚了众多产学研领域大佬。 开幕式请到了三大图灵奖得主姚期智、罗杰·瑞迪(Raj Reddy)和曼纽尔·布卢姆(Manuel Blum)共同进行圆桌论坛交锋,原微软执行副总裁、美国国家工程院外籍院士沈向洋担任圆桌主持人。 更有IEEE主席托马斯·考夫林(Thomas Coughlin),清华大学苏世民书院院长、清华大学人工智能国际治理硏究院院长薛澜,上海人工智能实验室主任兼首席科学家、清华大学惠妍讲席教授周伯文,新思科技总裁兼首席执行官盖思新(Sassine Ghazi)等重磅大咖演讲。 开幕式上,沈向洋向三位图灵奖抛出了关于“AI发展及风险”、“有意识的AI”、“AI教育和人才培养”等众多产学研关注的问题。 图灵奖得主罗杰·瑞迪谈道,AI风险确实应该得到高度关注,同时我们也不能因噎废食。同时他认为当下的教育体系没法培养了解AI的未来一代人。如果AI让每个人的工作效率提升10倍,全球GDP将从100万亿美元增长到1000万亿美元。 图灵奖得主曼纽尔·布卢姆解读了其团队意识图灵机(CTM)成果,1000万个处理器都是类似于意识模型,没有一个中央决策者,而是让每一个处理器参与决策。 图灵奖得主姚期智谈及了AI发展的网络、社会和生存三大方面的风险,认为AI的风险比核问题更严峻,我们创造了比我们强大很多倍的新物种,需要探讨如何用AI控制AI避免重大破坏。 ▲沈向洋对话三位图灵奖得主 同样谈及AI治理的重要议题,薛澜谈道,巨量的基础设施已经使得全球25亿人受益,但AI发展仍面临AI技术鸿沟、治理鸿沟,阻碍全球AI的发展,需要多方一起攻克。 此外,黑石集团董事长、首席执行宫兼联合创始人苏世民(Stephen A. Schwarzman),索奈顾问及投资公司董事长、首席执行官乔舒亚·雷默(Joshua Ramo)也做了精彩分享。 此次WAIC 2024展览面积超5.2万平方米,共有500余家企业参展,展品数量超1500项,覆盖核心技术、智能终端、应用赋能等三大板块。 大会还公布了“镇馆之宝”名单,商汤科技首个面向C端用户的可控人物视频生成大模型Vimi、阿里云A编程助手通义灵码、支付宝智能助理、智谱A基座大模型、特斯拉赛博越野旅行车等入选。 一、沈向洋对话三大图灵奖得主:AI风险比核更严峻,但不能因噎废食 在开幕式上,三位图灵奖得主罗杰·瑞迪、曼纽尔·布卢姆和姚期智进行了精彩的圆桌对话,原微软执行副总裁、美国国家工程院外籍院士沈向洋担任主持人。 沈向洋向三位图灵奖得主提出了多个问题,包括:如何看待AI发展及担忧?为什么我们紧迫关注AI治理问题?如何看待有意识的AI等等。 ▲原微软执行副总裁、美国国家工程院外籍院士沈向洋 1、灵奖得主罗杰·瑞迪:教育体系落后于AI时代,发展AI不能因噎废食 罗杰在当年获得图灵奖时就提到要建立大型AI系统,他在圆桌中谈道,很开心看到会场大家对AI治理和风险的探讨,没有只是去探讨怎么去用AI。大家没有花太多时间,探讨我们如何来用AI,需要做哪些研究和投资?我们现在还没做到这一点。 在能力建设方面,罗杰认为,目前我们的教育体系没办法培养未来了解AI的一代人,他们需要用AI做好自己的工作,我们怎么让每个人把自己的工作做好?这个问题很关键。 谈及接下来推进的研究,罗杰谈道,每个领域都会出现新机会,也会出现新问题,比如汽车刚出现时,为人们出行带来便利,但交通事故也带来很多伤亡。因此对于AI我们也不能因噎废食。 每个工程师都能做更好的事,如何让他们效率更高?这意味着要做很多投资和研究工作,我希望不要只想着负面,要想着未来的机会很多。他觉得最大的机会,以后每个人的工作效率会提升10倍,全球GDP将从100万亿到1000万亿美元。 ▲图灵奖得主罗杰·瑞迪 2、图灵奖得主曼纽尔·布卢姆:解读图灵机CTM意识模型,模拟人脑决策 曼纽尔在现场解读了有意识的AI。他谈道,年少时他的父亲曾告诉他:“如果你知道你的这个大脑里在发生什么,那么你就会变得更加聪明一些。”很幸运,他的工作是跟意识有关的。意识可以给我们想法,让我们去建立AGI。 曼纽尔的团队已经创立了一个意识模型——图灵机CTM,以此向大家解释大脑里在发生什么。如果我们将大脑里发生的事情想成一个剧场,有一些演讲者在剧场中央讲话,我们可以让很多处理器同时工作,相当于大脑里的神经元,这些处理器会听现场发生了什么,告诉我们怎么去做各种各样的事情。 CTM意识模型特别有意思,1000万个处理器都是类似于意识模型,没有一个中央决策者,而是让每一个处理器参与决策。 曼纽尔的学生众多学生也拿到了图灵奖,当沈向洋问及他有什么为师之道?曼纽尔谦虚地称:“我的学生都比我聪明,我从他们身上学到了很多。有时候我不懂什么,我就直接说我不懂。” ▲图灵奖得主曼纽尔·布卢姆 3、图灵奖得主姚期智:AI治理警惕三大风险,比核风险更严峻 姚期智谈及的自己对AI治理的关注,从风险方面讲解到自己作为计算机科学家对AI治理的见解。 他认为,AI风险主要来自三个方面:(1)它是网络风险的延伸和扩大,AI能力的出现使得传统的网络风险被放大。我们已经觉得管理数据很困难,现在难度会放大100倍。(2)社会风险,人们可以用很多方式使用强大的AI,可能对某些领域带来颠覆式风险,也可能带来新的失业问题。(3)生存和存在的风险,AI风向相比于核风险可能更严峻,这都需要很多的专家来一起解决,包括科学家、政府人士、律师及经济学家都需要参与进来。 从计算机科学教角度,姚期智更关注第一类和第三类风险。 面对第一类风险,AI有时无法解释一些问题,使得研究新的密码学比较困难,我们对网络风险的应对还处在很早的阶段。 而面向第三类风险,这个和计算性有关,更大的算力可以带来更多的知识和智慧,解决很多以前解决不了的问题,这也是让人很恐惧的。现在,我们就是突然发现了一个方式,能创造比我们强大很多倍的新物种,我们需要确定能不能与它共存。 所以作为计算机科学家,姚期智看到最有深度的问题,就是我们怎么把AI控制好,避免它带来重大破坏,这是很难预测的。 ▲图灵奖得主姚期智 二、清华大学苏世民书院院长薛澜:降低AI风险,缩小全球AI技术鸿沟 清华大学苏世民书院院长、清华大学人工智能国际治理硏究院院长薛澜探讨了AI治理的重要议题。 AI能为我们做什么?薛澜谈道,大家对AI给予了很高的期望,根据SDG(可持续发展目标)最新分析,AI总体来看会对可持续发展的134个(79%)具体目标产生促进作用,对59个(35%)目标产生阻碍作用。 ▲清华大学苏世民书院院长、清华大学人工智能国际治理硏究院院长薛澜 AI对这些目标的阻碍作用,代表AI可能带来风险。这些风险包括基于技术本身的风险、基于技术开发的风险和基于技术应用/滥用的风险等多个方面,都是不可忽视的。 如何推动AI收益最大化、风险降到最低? 薛澜谈道,首先在底层,我国在产业应用安全方面推出了一系列法律法规,推动AI的合理发展。我们针对算法、算力、数据推出了一系列的治理规则,针对风险推出了一系列准则。针对一些专项问题,包括具体场景的应用,我们也出台了相应的一些治理规则。此外,我国也在采取措施推动全民数字素养的提升。 从全球角度来讲,AI发展也还面临很多挑战。一方面,巨量的基础设施已经使得25亿人受益,但AI发展仍面临技术鸿沟、治理鸿沟,阻碍全球AI的发展。当今社会,一个国家带来的风险就是全球风险。国际对安全问题日益重视,同时对AI数智鸿沟关注仍不够,需要全球社会一起努力攻克。 三、上海AI实验室周伯文:AI性能与安全失衡,99%算力用在预训练 以大模型为代表的深层次AI快速发展,也带来数据泄露、虚假信息、伦理问题等一系列风险、社会挑战,如何建立一个全面的AI安全治理体系,成为全球范围内的优先议题。 为此,上海人工智能实验室主任、首席科学家、清华大学慧妍讲席教授周伯文提出了一个新的技术主张——AI的45度平衡律。 ▲上海人工智能实验室主任、首席科学家、清华大学慧妍讲席教授周伯文 这一定律指的是,从长期视角来看,AI安全与性能要大体沿着45度的路线平衡发展。 现在AI发展的路线整体是低于45度的,也就是性能发展快于安全治理,也就带来了各种风险;而如果长期高于45度,则会阻碍技术和产业应用的发展。如何找到两者之间的平衡,是亟待解决的难题。 为了实现这一定律,上海人工智能实验室提出了一条以因果为核心的路径,即可信AGI的“因果之梯”。这一路径将可信AGI的发展划分为三个递进阶段,从“泛对齐”,到“可干预”,再到“能反思”。 “泛对齐”包含当前最前沿的人类偏好技术,如机器反学习、监管式对齐、基于人类反馈对齐等。这些对齐技术目前仅依赖统一的相关性而非真正的因果关系,因此可能导致错误的推理和潜在危险。 “可干预”是第二层AI对齐技术,包含AI系统的对抗训练、机械可解释性等,其通过高可解释性和泛化性来提高安全性能,同时也提升AI能力。 “能反思”则要求AI系统不仅要追求高效的执行任务,还要审视自身行为的外在影响和潜在风险,从而保证在高性能的前提下安全和道德边界不被突破。这个阶段的技术包括基于价值的训练、因果可解释性、反事实推理等。 ▲可信AGI的“因果之梯” 周伯文谈道,目前全球AI安全和性能技术发展主要停留在第一阶段,一部分开发者在尝试第二阶段。但要真正实现AI的安全与性能平衡,必须完善第二阶段,并勇于攀登第三阶段。 最后,他呼吁全球开发者加强国际合作,这对于推动AI技术健康发展至关重要,我们的共同目标是构建一个开放安全的AI创新生态系统和人才培养环境。 四、新思科技CEO盖思新:能耗减少30%,缓解人才紧缺 新思科技总裁兼首席执行官盖思新认为,从商业和企业的角度来看,我们要了解AI产业链是从半导体开始的,同时也离不开上层软件。 回顾半导体行业历史,行业花了60年才实现5000亿美美元的销售额,2020年翻了1倍到1万亿美元,几乎所有的这些增量都是由AI的增长所驱动的。 ▲新思科技总裁兼首席执行官盖思新 AI是一个非常大的转折点。盖思新谈道,新思公司为此提供软件,帮工程师使用复杂的半导体芯片,尽可能用软件实现自动化。AI能帮我们改进芯片开发的过程,从而实现更快的速度,在各方面实现优化。 “我们在AI上面有很多共同的原则。”包括政府合规问题,芯片中每个部分的材料都要保证安全,确保芯片没有不合规成分且监管高效。同时,如何使得半导体能耗消耗更高效,也是我们在半导体设计中需要考虑的问题。 新思科技有2万多名工程师,如何用AI来助力业务? 新思科技创办了一个AI卓越中心,以此教育自己的工作人员,让他们知道AI的价值、伦理及风险等,并帮他们教育客户来使用AI来开发芯片。 同时,新思科技也对AI进行商业化,2017年开始就在投资AI,在提供客户的方案里涉及AI,目前也已经包含很多生成式AI内容,比如用用生成式AI作为知识基础,提升工程师的效率,缓解工程师人才紧缺问题,从而提高整个行业的工作效率。 在耗能方面,基于AI技术服务,能耗减少30%,涉及更复杂的问题时效率还能增长15倍。 五、全球治理高端对话:拥抱新技术,建立学术界新扶持方式 AI的快速发展,对企业运营模式、价值评估以及投资决策过程也产生了深远影响,深刻改变了投资格局。 黑石集团董事长、首席执行官兼联合创始人苏世民与索奈顾问及投资公司董事长、首席执行官乔舒亚·雷默就这一系列问题,展开了全球治理高端对话。 ▲苏世民与乔舒亚·雷默 从商业的角度来看,AI是怎么改变一家企业现有的价值认定的? 苏世民谈道,自己在刚入行的时候并不擅长做模型,而现在出现了新的AI应用,可以帮助自己起草会议备忘录等,带来了很多惊喜。 在他看来,虽然对新的技术仍需保持一定警惕性,但不能“像鸵鸟一样把头埋在沙子里”充耳不闻,也不能完全不关注技术风险。 在AI领域中,苏世民是在学术研究方面慈善捐赠规模最大的人之一。当雷默问及为什么突然选择AI这个领域时,苏世民有些感慨地回答:“我想并不是我选择了AI,而是AI选择了我。” 早些时候,他曾作为投资新人资助了牛津大学的一个AI伦理运营项目。之所以这么做,是因为当时每个人都涌向纯理科投资的时候,他觉得需要将理科研究和人类情感上的一些事情相结合,去进行思考和研究,因为“这将会影响和改变人类未来10-20年之后的一些行为”。 同时他也十分关注监管方面的项目,在他看来,从事硬核技术、理科技术的人,在有可能出错的地方应心存敬畏。 相比于商业界,高校等学术机构现在在AI竞争方面处于劣势,一些突破性的进展大多出现在商业领域。这是算力等开发成本所导致的结构性变化。苏世民谈道,随着AI的持续发展,必须对学术界建立一种更有价值的扶持方式,要做一些比仅仅资助一位教授的研究项目来说,更有意义的事情。 结语:生成式AI狂飙,风险管控成为重要议题 在去年的WAIC上,产学研大佬们畅谈大模型浪潮,对下一阶段发展方向、应用爆发领域展开深入探讨和积极展望。 而到了今年,AI风险与安全已成为最受关注的话题之一,无论是性能与安全的平衡,还是教育体系的落后,都是全球范围内共同探讨的重要议题。 总的来看,AGI仍是科技行业共同期待的目标。我们期待看到各行各业能在安全可信的指导下,为AGI的发展注入新的生命力。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。