行业分类:
加载中...
头条分类:
加载中...
一门闷声发大财的芯片生意
一个季度赚了123亿美元的英伟达,现在成了许多半导体企业艳羡的对象,大家头一回发现,原来GPU利润这么高,甚至能撑起2万亿美元的市值,但英伟达真的会满足于此吗? 英伟达CEO黄仁勋曾在2008年发表过感言,认为公司应该把研究客户的需求,把解决客户的问题放在第一位,而不是去关注对手,如果把精力放在如何从对手那里把客户抢过来,就会错失开拓新客户的机会。 16年之后,英伟达的CEO还是黄仁勋,虽然股价市值规模早已翻了十数倍乃至上百倍,但在他的掌舵下,英伟达依旧走在不断寻找新客户的道路上。 据路透社报道,英伟达正在建立一个新的业务部门,专注于为云计算公司和其他公司设计定制芯片,其中包括先进的人工智能处理器。 据其爆料,英伟达高管已经与亚马逊、Meta、微软、谷歌和OpenAI的代表会面,讨论为他们生产定制芯片的事宜,除了数据中心芯片外,英伟达还在寻求电信、汽车和视频游戏的客户。 路透社的这份报道,意味着英伟达要以强势姿态切入数据中心定制芯片市场,要在传统的游戏,新兴的人工智能等领域之后开拓一片新的战场。 那么,英伟达为什么要这么做,它的胜算又有几何呢? 定制双雄 从2020年开始,自研和定制成为了半导体行业的热门词,从苹果发布M1芯片开始,似乎每个厂商都在尝试自研芯片,以此来获得成本上的优势。 但对于超大规模数据中心企业(Hyperscaler)公司来说,他们对于硬件和软件都有接近完全的掌控力,非常适合开发自己专属的SoC,而他们在这方面的研究也确实要早的多,定制化芯片初期最大的推动因素,就是来自这些企业对AI,以及云端计算的庞大需求。” 早些年靠AlphaGo一炮而红的谷歌,就是定制化芯片的先行者。 2013年,Google AI负责人Jeff Dean经过计算后发现,如果有1亿安卓用户每天使用手机语音转文字服务3分钟,其中消耗的算力就是Google所有数据中心总算力的两倍,而全球安卓用户远不止1亿。 此时谷歌已经意识到,光靠通用的CPU和GPU已经无法满足未来的庞大计算需求,而出路就是选择定制芯片,为此,它定下了一个目标:针对机器学习这一目的来构建特定领域计算架构(Domain-specific Architecture),还要将深度神经网络推理的总体拥有成本(TCO)降低至原来的十分之一。 2016年的Google I/O开发者大会上,谷歌首席执行官Sundar Pichai正式向世界展示了TPU这一自研成果,初代TPU 采用了 28 纳米工艺制造,运行频率为 700MHz,运行时功耗为 40W,谷歌将处理器包装成外置加速卡,安装在 SATA 硬盘插槽中,实现即插即用。TPU 通过 PCIe Gen3 x16 总线与主机连接,可提供 12.5GB/s 的有效带宽。 但初代TPU并非谷歌自己独立打造,它的背后,离不开博通的助力。 根据2020年摩根大通分析师Harlan Sur的报告,谷歌TPU v1至v4这几代均是它与博通共同设计的,当时它已经开始生产采用7nm 工艺的TPU v4,并开始与谷歌合作设计采用5nm工艺的TPU v5。 Sur表示,博通的专用集成电路(ASIC)业务2020年全年收入为 7.5 亿美元,高于 2016 年的 5000 万美元,除了芯片设计之外,博通还为谷歌提供了关键的知识产权,并负责了制造、测试和封装新芯片等步骤,以供应谷歌的新数据中心,博通还与其他客户如Meta、微软和AT&T等公司合作设计ASIC芯片。 这位分析师还在2022年5月表示,Meta正在使用定制芯片来构建其 Metaverse 硬件,成为博通下一个价值数十亿美元的 ASIC 客户,“我们相信,这些成果主要集中在 5 纳米和 3 纳米工艺上,并将用于支持 Metaverse 硬件架构,该架构将在未来几年内部署,Meta 将在未来三到四年内成为博通继谷歌之后下一个年产 10 亿美元的 ASIC 客户。” Sur谈到。 在人工智能元年到来之前,博通就与谷歌Meta勾肩搭背,极大拓展了自己在数据中心芯片市场中的份额,而在2023年人工智能爆火后,微软所推出的Maia 100芯片,以及其尚在研发中的网卡,背后可能都有博通的参与,依靠着这几个巨头,博通成为了一人之下万人之上的AI赢家。 博通的最新财报也体现了这一点,其2024年第一季度财报显示,该季度半导体营收73.9亿美元,同比增长4%,营收占比62%,其中网络营收33亿美元,同比增长46%,占半导体营收45%,主要由两大客户定制DPU芯片增长拉动,预计2024年网络营收同比增长35%+。 值得一提的是与AI相关的业务,博通将 AI ASIC 和专注于 AI 的网络解决方案一起归类为 AI 加速器,截至2023年,该业务总销售额合计占全年半导体收入的 15%,即约 42 亿美元,而2024年第一季度 AI营收约23亿美元,占半导体营收31%,较前一年同期翻了四倍,预计2024年总占比会在35%以上,意味着2024年AI营收规模超100亿美元(此前预计75亿美元),预计同比增长约133%左右; 而在营收超100亿美元的目标当中,定制DPU芯片约70亿美元,20%是交换机/路由器芯片,10%是光芯片以及互联芯片等,这就意味着,光是为谷歌、Meta和微软这样的巨头定制芯片,就能赚得盆满钵满。 博通首席执行官 Hock Tan 丝毫不掩饰自己对AI以及定制芯片的乐观,他在财报电话会议上表示:到 2024 财年,网络收入将同比增长 30%,这主要得益于网络连接部署的加速以及超大规模企业中人工智能加速器的扩展,预计生成式 AI 的收入将占半导体收入的 25% 以上。 与排名第一的博通相比,Marvell在定制芯片上的规模稍小,但同样拥有不容小觑的实力,2023年4月,Marvell发布了基于台积电 3 纳米工艺打造的数据中心芯片,这也是全球第一家以芯片设计公司名义发布的3纳米芯片。 2023年6月,台湾媒体自由时报报道称,Marvell 获得亚马逊 AI 订单。通过此次合作,Marvell 将协助亚马逊第二代 AI 芯片(即Trainium 2)的设计,预计2023年下半年启动委托设计,2024年进入量产。 早在 2020 年12月,亚马逊就推出了一款全新的机器学习定制训练芯片 Trainium,与标准的 AWS GPU 实例相比,AWS 承诺可带来 30% 的吞吐量提升、以及降低 45% 的单次引用成本,随后亚马逊又在2023年11月推出了升级版Trainium 2,这两代芯片推出的背后,也少不了Marvell的影子。 在Marvell官网上,更是直白地提到自己是AWS的战略供应商,提供云优化芯片,帮助满足AWS客户的基础设施需求,包括提供电子光学、网络、安全、存储和定制设计解决方案,考虑到亚马逊目前是全球最大的云服务提供商,且谷歌有意于从博通转向Marvell,其在定制芯片上的实力可见一斑。 在Marvell发布的截止至2024年2月3日的第四财季与年度财务报告中,2024财年第四季度营业收入为14.27亿美元,超出中旬时所给出的预期。Marvell的董事长兼首席执行官马特·墨菲先生对此强调:“我们的Marvell 2024财年第四季度营收突破了14.27亿美元,超过了预期。而人工智能带来的收入增长更是惊人,使我们的数据中心终端市场的收入环比增幅达到38%,同比增长则高达54%。” 有意思的是,在此前的2024年第三季度财报中,Marvell就宣布自己通过为云供应商开发定制芯片,在云计算领域也实现了增长。首席执行官墨菲表示:“云计算客户仍然专注于通过构建他们自己的定制计算解决方案来增强他们的人工智能产品,我们已经赢得了许多这样的设计。” 虽然不清楚Marvell与哪些巨头达成了合作,但其中必然有亚马逊的席位。从Marvell 2017年收购Cavium,2019年收购Globalfoundries的ASIC业务部门Aquantia,2020年收购了光芯片厂商Inphi,2022年收购网络交换芯片厂商Innovium这一番布局来看,其图谋所求还是挺大的。 此外,相较于博通依靠巨头的做法,Marvell的押注更加关键,早在2020年9月,Marvell就帮助今年爆火的Groq 设计生产出了Groq Node,其中Marvell 提供了构建 ASIC 及其与外界接口的构建块,而 Groq 自己则专注于人工智能加速。 博通与Marvell,足以称得上是人工智能时代里的定制双雄。 谁是对手 虽然博通和Marvell并未获得英伟达那样的关注度,由于非AI业务的拖累,现在的财报不够好看,股价也难以与英伟达比拟,但它们背后所潜藏的广阔市场足以让英伟达侧目。 “超大规模数据中心企业自己做芯片比向外大量购买还要便宜,并省掉了中间商的成本。”EDA工具与知识产权巨头Cadence数位与签核部门VP Kam Kittrell认为,“这些公司通常是自家云端服务的使用者,并且拥有高价值的专门化软件。他们可以针对这些软件打造能源效率更佳的专属硬件。” “我们看到最大的成长是来自于数据基础架构的领域,包含云端、数据中心、网络、储存设备,以及5G基础架构等应用。”Alphawave Semi行销主管Sudhir Mallya表示:“从今天来看,定制化芯片在数据中心基础架构应用上的成长幅度实在惊人。从几年前Google、微软、AWS、Meta等超大规模数据中心企业都纷纷开始设计自家芯片,我们就看到了这个趋势。” 据研究公司 650 Group 的 Alan Weckel 估计,数据中心定制芯片市场今年将增长至 100 亿美元,到 2025 年将翻一番。Needham 分析师 Charles Shi 表示,到 2023 年,更广泛的定制芯片市场价值约为 300 亿美元,约占全球芯片年销售额的 5%。 “博通的定制芯片业务达到 100 亿美元,而 Marvell 的规模约为 20 亿美元,这是一个真正的威胁,”芯片研究集团 SemiAnalysis 的创始人迪伦·帕特尔 (Dylan Patel) 表示。“这是一个真正的大利空——有更多的竞争者加入了战局。” 有意思的是,英伟达CEO黄仁勋最近在斯坦福的演讲里,也提到了这一广阔市场,他表示,英伟达不仅有来自竞争对手的竞争,还有来自客户的竞争(云服务厂商),客户可以为特定的算法构建一款优秀的芯片(ASIC),但计算不仅仅是关于transformer,更何况英伟达正在不断地发明新的transformer变种。 黄仁勋着重提到了成本,他表示,购买和销售芯片的人仅仅考虑的是芯片的价格,而运营数据中心的人考虑的是整个运营成本、部署时间、性能、利用率以及在所有这些不同应用中的灵活性。总的来说,英伟达的总运营成本(TCO)非常好,即使竞争对手的芯片是免费的,最终算下来它也不够便宜,英伟达的目标是增加更多价值,以至于替代品不仅仅是关于成本的问题。 作为英伟达实际掌控人的他,首先对目前的ASIC芯片表达出了不屑,而后他表示,只要有需要,英伟达随时可以利用已有的IP和技术积累,为客户打造出更好的定制芯片,这也与前文中路透社的报道相吻合。 “我们是否愿意定制化?是的,我们愿意。为什么现在的门槛相对较高?因为我们平台的每一代产品首先有GPU,有CPU,有网络处理器,有软件,还有两种类型的交换机。我为一代产品建造了五个芯片,人们以为只有GPU一个芯片,但实际上是五个不同的芯片,每个芯片的研发成本都是数亿美元,仅仅是为了达到我们所说的“发布”标准,然后你必须将它们集成到一个系统中,然后你还需要网络设备、收发送器、光纤设备,以及大量的软件。运行一个像这个房间这么大的计算机,需要大量的软件,所以这一切都很复杂。如果定制化的需求差异太大,那么你必须重复整个研发过程。然而,如果定制化能够利用现有的一切,并在此基础上增加一些东西,那么这就非常有意义了。也许是一个专有的安全系统,也许是一个加密计算系统,也许是一个新的数值处理方式,还有更多,我们对这些非常开放。我们的客户知道我愿意做所有这些事情,并认识到,如果你改变得太多,你基本上就全部重置了,浪费了近千亿美元。所以他们希望在我们的生态系统中尽可能地利用这些(减少重置成本)。” 事实上,隔壁的两家早已在数据中心芯片上不断推陈出新。AMD有Instinct计算GPU,以及EPYC处理器(采用chiplet设计),解决AI和HPC工作负载;Intel则采用多方位策略,运用单体的Habana处理器处理AI应用,多芯片的Data Center GPU Max处理AI及HPC应用,以及多芯片的第四代Xeon可扩充CPU处理其余应用。 还在采用单体设计的英伟达H100,目前在AI上的竞争力依旧强大,但这种优势并非无法消弭,尤其是考虑到它昂贵的价格。像亚马逊、谷歌、Meta、微软这样的云服务巨头,他们既有开发定制化数据中心芯片的雄厚财力,也有为之设计一套配套软件的技术能力,为了提升效率和降低成本,本就在往这一方向上发展,AI的到来只是加速了向定制化芯片迁移的过程。 当云服务厂商率先转向定制芯片后,所生产出来的芯片不仅服务自身,还可以开放给其他厂商,长此以往就是定制芯片比例越来越高,英伟达芯片比例就会越来越少,如今它所构筑出的2万亿帝国可能就会在顷刻间崩塌。 黄仁勋的演讲中,一方面强调成本,表达出“定制芯片很不错,但算下来还是我的芯片更划算”的意思,另一方面也对定制芯片持有开放态度,先安抚住自己这群躁动的客户再说,成本高?给你优惠,定制化?先提需求,有什么问题不要急,我们坐下慢慢谈。 这种态度,实际上体现出了英伟达如今的左右为难,还记得文章开始所提到的黄仁勋的感言吗?英伟达把客户需求而不是竞争对手放在第一位,这一招让英伟达在GPU市场里横行了二十余年而未尝一败,但当客户变成对手时,多少是有些尴尬的。 从这一角度看,博通和Marvell倒也不用过于担心英伟达横插一脚,一旦英伟达开启定制化芯片的先河,那就会引发一场厚此薄彼的矛盾,英伟达B100和定制化芯片哪个更好,不同的定制芯片又有怎样的性能差异等等,这都是黄仁勋未来所需要考虑的问题。 写在最后 英伟达现在所涉及的领域之广,绝非昔日能比,2008年的英伟达可能只需要盯着AMD和英特尔就行了,但2024年的英伟达,要盯着的厂商数量早已翻了好几倍,且都不是等闲之辈。 而它最近向美国证券交易委员会提交的文件中,也放入了一堆竞争对手,英特尔、AMD、博通、高通、亚马逊和微软都位列其中,面对几个巨头的咄咄逼人,英伟达再淡定,额头多少也沁出了一些汗珠,并非像以往那样风淡云清。 或许英伟达现在真的需要思考下,不把打败对手当成目标了。
国产CPU还得看阿里?出货40亿颗,覆盖电脑、手机、物联网等
虽然市场份额不高,但国产其实有很多CPU的,比如龙芯、飞腾、鲲鹏、兆芯、申威、海光、阿里平头哥玄铁等等。 这些国产CPU,在信创领域应用非常多,毕竟国产CPU更有安全保障。 当然这些国产CPU也有侧重,比如海光、飞腾、鲲鹏更多用于服务器,申威用于超算,龙芯、兆芯则更多用于消费级应用终端产品。 不过,在这些国产CPU中,我觉得有个品牌,可能被大家低估了,那就是阿里平头哥的玄铁。 为何这么说,因为玄铁推出的CPU太多了,且覆盖的也太全了,比大部分国产CPU应用都广。 不像大家熟悉的这6大,要么用于服务器,要么用于工控、消费级产品外,玄铁系列CPU,已经推出了面向电脑、平板、手机、物联网、工控等领域的各类CPU。 平头哥截止至目前,已经推出了9款CPU,均是RISC-V架构,具体来看,有用于低功能高能效的E系列,有用于AI高性能的C,还有用于高可靠实用应用的R系列。 为此阿里推出了ROMA电脑,使用的就是RISC-V芯片,推出了平板,使用的也是RISC-V芯片,更是被应用于物联网、工控等等领域,阿里表示,下半年用于手机的RISC-V也会推出。 截止至目前,阿里玄铁CPU的出货数量突破40亿颗,授权客户已经超过300家,堪称国产CPU中的第一名。 一直以来,大家都认为,RISC-V芯片能够崛起,与X86、ARM三分天下。而机构也认为到2030年,在全球的CPU市场,RISC-V应该能占到30%左右,不输于X86、ARM。 目前国内的众多企业,均在RISC-V架构上发力,而阿里无疑是表现最突出的一个。而如果按照这个趋势下去,估计阿里也会是最牛的那一个。 网友们表示,未来也许国产CPU还得看阿里,因为阿里的CPU种类太多了,手机、电脑、平板、工控、物联网都有,不像其它CPU,只专注于某一个品类,你认为呢?
美国科技企业2024年已裁员超5万人!人工智能人才却仍然紧俏
①今年科技行业延续了去年的裁员势头,自年初以来,已有200多家美股科技公司总共裁员5万多人;②今年2月的裁员人数是2009年金融危机以来的最高水平;③不过市场存在巨大分歧,人工智能领域正在推动快速招聘和扩张。 财联社3月17日讯(编辑 周子意)根据科技行业裁员情况跟踪网站Layoffs.fyi的数据显示,自今年年初以来,已有200多家科技公司裁员5万多人。这是2023年“裁员之年”的延续,当时近1200家科技公司的26万多名员工失去了工作。 今年,Alphabet、亚马逊、Meta和微软都进行了裁员,此外还有eBay、Unity Software、SAP和思科。 科技公司削减成本的举措令华尔街欢呼,因为这将许多科技股推至创纪录高位,人们乐观地认为,控制支出加上人工智能带来的效率提升将导致利润上升。 但是,对于成千上万被裁的科技人员来说,再就业的道路是艰巨的。 再就业公司Challenger, Gray & Christmas的数据显示,总的来说,2023年是科技行业有史以来裁员人数次多的一年,仅次于2001年的互联网泡沫破裂。当时的互联网泡沫危机导致Pets.com、eToys和Webvan等公司的倒闭,自那时以来还没有这么多科技工作者在这么短的时间内失去工作。 数据还显示,今年2月的裁员人数是2009年以来的最高水平,当时金融危机迫使企业进入现金保全模式。 巨大分歧 据一些在过去一年时间里从科技行业下岗的未具名人士表示,目前市场竞争日益激烈,招聘的资格要求愈发严格、且薪水还低于此前工作。 对于软件开发人员和数据科学家来说,这是一个特别令人困惑的情况,他们几年前还拥有一些世界上最具市场价值和最受重视的技能,现在正在考虑是否需要退出这个行业去找其他职位。 Layoffs.fyi的联合创始人罗杰·李(Roger Lee)表示,“市场已今非昔比,为了获得一个新职位,许多销售人员和招聘人员完全离开了科技行业。就连工程师也在妥协——接受不那么稳定、工作环境更艰苦、工资和福利更低的工作。 Lee还援引薪酬基准平台Comprehensive.io的数据称,过去两年科技行业多数岗位的薪酬“基本停滞”。 不过在科技行业,当前市场也存在巨大分歧。Lee指出,尽管其他地方的裁员仍在继续,不过人工智能领域正在推动快速招聘和扩张的回归。 根据Comprehensive.io 的数据,人工智能工程师的工资从去年第三季度到第四季度增长了12%,全国高级人工智能工程师的平均工资超过19万美元。
华为没做到的事情,比亚迪做到了?激光雷达降至900块
众所周知,在自动驾驶的技术方向上,特斯拉为代表的企业,采用纯视觉文案,只使用摄像头,特斯拉认为既然人的眼睛是靠看的,那么摄像头也能实现。 而华为为代表的企业,则提出了激光雷达方案,觉得摄像头不能很好的识别距离,激光雷达可以做到。 不过,因为激光雷达太贵,当时96线的激光雷达,要3000多美元,算下来2万多人民币,于是马斯克称,只有傻子才用激光雷达。 而针对成本高的问题,华为表示称,未来华为会想办法降低激光雷达的价格,将几千美元价格的激光雷达,打到200 美元以内。 后来华为不断努力,在激光雷达技术上各种突破,申请了众多的专利,并和车企合作,推进激光雷达的落地。 如上图所示,2023年中国车载激光雷达出货量达71万台,在整个激光雷达市场,华为已经占到了10%左右的份额,排名国内前五名了。 在华为的努力之下,激光雷达的价格,确实下降了很多,但在价格方面,却没有降至200美元以下,目前96线的大约在3000元左右,也就是400-500美元左右。 不过华为没办到的事情,比亚迪要办到了,在比亚迪的2024商务年会上,王董事长透露了关于激光雷达市场的消息,称激光雷达市场价目前一般在3000元左右,但比亚迪由于车卖的非常多,出货量高,所以能够做到900元,这是已经低于200美元的价格了。 比亚迪可以通过这个来和友商进一步打价格战,友商由于出货量少一些,所以价格做不到这么低,这一块竞争不过比亚迪。 可见,任何技术的突破,最终还得靠大规模落地,华为接下来要加油,只有把市场占比提升上去,才能够利用大规模的优势来拉低价格。 而如果整个激光雷达市场,都降至900元左右,那么装配激光雷达的成本将不再是问题,随之而来的国产自动驾驶技术,也将上一个新的台阶,毕竟和摄像头相比,激光雷达确实优势很明显。
这家芯片公司,打算大干一场
Groq是一家总部位于加州山景城的人工智能芯片初创公司,得到了Tiger Global和Lee Fixel's Addition等公司的支持。该公司告诉Axios,在最近获得了一笔小额现金注入后,该公司正准备在下个季度进行新一轮融资。 重要性:该公司声称其人工智能芯片的速度可以比传统芯片快10倍,它是风险投资公司Social Capital最近解雇的焦点。 总体情况:Groq由罗斯于2016年创立,专门为推理设计芯片,即运行生成式人工智能模型。该公司表示,其被称为“语言处理单元”(lpu)的芯片不仅速度更快,而且成本仅为传统人工智能硬件的十分之一。 该公司目前部署了大约4500个芯片,罗斯表示,到明年年底将有150万个芯片。 在谷歌工作期间,罗斯帮助发明了该公司的张量处理单元(TPU),这是专门为机器学习设计的芯片。 迄今为止,Groq已融资3.67亿美元,最近一轮融资是在2021年,估值为11亿美元,由Tiger Global和D1 Capital领投。 这家初创公司的战略是双管齐下的。它向希望在其云基础设施上运行人工智能软件的开发人员出售访问权限,并向运营自己数据中心的客户出售硬件。 它最近收购了权威情报公司(Definitive Intelligence),以巩固一个新的业务部门,专注于向客户和开发者扩展其产品。 这家初创公司由Sunny Madra和Gavin Sherry于2022年创立,并得到了Social Capital等公司的支持。(马德拉和雪莉之前至少还创立了一家社会资本投资组合公司Autonomic。) Groq唯一的其他收购是在2022年收购的Maxeler Technologies,尽管罗斯表示,未来肯定会有更多的收购。 言外之意:随着生成式人工智能技术、应用程序和用户的爆炸式增长,对专用计算机芯片的需求直线上升,但供应却跟不上。 Groq和其他新贵打赌他们可以在市场上分一杯羹,罗斯预测,当涉及到对计算资源的需求时,推理将超过训练——这对他的公司来说是一个绝佳的机会。 随着人们对人工智能碳足迹的担忧日益加剧,Groq还将自己定位为传统基础设施的更环保替代品。 他们说的话:“如果你出去说你要花7万亿美元,这是聪明的营销,这会让人们说‘天哪,也许我们做不到’,”罗斯在谈到山姆·奥特曼(Sam Altman)对OpenAI芯片业务所需资本的公开估计时说。 罗斯说,Groq公司只需要7000亿美元就可以做同样的事情,因为它的芯片要便宜得多。 是的,但是:除了资金,Groq还需要合作伙伴来执行其愿景(并承担一些前期成本)。 该公司已经与一家未具名的合作伙伴签署了一项协议,计划到2025年底部署150万个lpu中的10%以上。 内部消息:关于Social Capital的话题,Groq在一份声明中表示,这些事件“是公司内部事务,目前我们对此知之甚少”,并补充说,这将“决定Jay Zaveri离开Social Capital将如何影响Groq董事会”。 该公司拒绝澄清前Social Capital合伙人扎韦里是否仍在其董事会任职。 看点:罗斯预测,下周英伟达的大型年度会议将包括有关推理的重要讨论。 关于Groq推理芯片的信息,感兴趣的读者可以阅读《挑战英伟达,需要另辟蹊径》
AI程序员Devin卧底工作群修bug!和CTO聊技术,网友:顶级码农水平
首个AI程序员Devin,现身明星创业公司内部群。 为解决一个技术问题,Devin借用了其创造者的账号,与客户公司的CTO交流,并根据回复调整了代码方案。 对话之专业,围观者看了直呼这个世界太疯狂。 事情发生在办公软件Slack,截图中的akshat是AI基础设施创业公司Modal Labs的CTO Akshat Bubna。 Modal Labs也是Devin开发商Cognition的首批客户之一。 此时Devin正披着他的创造者之一、IOI金牌得主Steven Hao的马甲。 对话的开始,AI程序员Devin正在询问有关Modal Lab平台的密钥的生命周期问题,特别是密钥更新后传播到正在运行的应用程序所需的时间。 Devin表示自己已经查阅了文档,包括密钥和环境变量指南、CLI命令参考、API参考以及容器生命周期钩子和参数,但依旧没有找到关于密钥传播时间的明确信息。 Devin询问了更新的密钥通常需要多长时间才能被运行中的应用程序使用,因为这对于他们的运营至关重要,了解这一点将有助于管理他们的部署流程。 人类CTO解释说,当密钥更新时,他们不会使已经运行的Modal容器失效,但是新启动的容器将会读取更新后的值。 Devin对此表示感谢,并决定暂时采用手动方法来管理Modal中的密钥,即在需要时调用modal deploy命令来触发相关应用程序容器的重启。 看完整个过程后,同样是AI创业者的Raunak Chowdhuri评价到: 发现问题、创建工单、调整代码,最好的人类开发者就是这么工作的。 Devin更多实测结果 拿到Devin早期测试资格的人和公司并不多,不过还是陆陆续续有人晒出实测结果。 热衷AI的沃顿商学院教授Ethan Molick试过后,认为其新颖的实时交互方式是最值得关注的。 您可以随时与它“交谈”,就像与人交谈一样,它会在后台不断地执行和调试您的想法。 在测试中,Ethan Mollick要求Devin开发一个解释“创业公司融资中的股权稀释”的网站。 不过他透露,AI还无法在没有任何帮助的情况下,自主且无差错地完成这项工作。 要想把一个重大项目交给人工智能来完成,还有很长的路要走,但这仍然是一个令人着迷的开始。 另一位晒出测试过程的创业者Mckay Wrigley更激动一些。 在他晒出的27分钟测试中,只发了一个GitHub连接,让Devin部署来自开源项目的代码。 Devin自主把任务拆解成一系列子步骤,并一步步开始执行。 执行过程中,Devin在安装Supabase数据库时遇到了障碍,自己打开了对应的Github仓库开始查阅文档…… 从后续终端反馈中可以看出,Devin查到了运行Supabase所需的各种端口和密匙都应该填什么。 (装过的都知道,雀食挺麻烦……) 与此同时,Devin还在根据实际情况不断修改自己的后续计划。 一段时间过后,一个本地的聊天机器人程序就跑起来了。 测试一段时间后Mckay Wrigley认为,Devin已经可以算Agent的ChatGPT时刻。 复现Devin计划ing Devin这边大伙还在接连测试,另一边开源“复现”方案也在进行中…… 这不,GitHub三万Star项目MetaGPT就上新了“开源版Devin”。 名为数据解释器(Data Interpreter): 同Devin一样,Data Interpreter也能实现自主编程,能迭代式观察数据,预测分析病情进展、机器运行状态;还能构建机器学习模型、进行数学推理、自动回复电子邮件、仿写网站…… 比如从英伟达股价数据中分析收盘价格趋势: 分析数据预测葡萄酒质量: 除此以外,阿里Qwen成员Binyan Hui等人开启了OpenDevin项目,刚刚起步已获得1.2k Star。 Binyan Hui发推文表示,已有一个初步的路线图和一群优秀的人在努力工作,在很短的时间内就完成了前端原型。 同时项目团队也在招新成员: 另外,还一个名为Maisa AI的团队推出了Maisa KPU(Knowledge Processing Unit),被网友认为与Devin有一些竞争。 目前Maisa KPU处于测试阶段,它可以解决复杂问题和推理,团队发布的基准测试结果如下: 根据demo展示,KPU可以成为“智能客服”,在客户没有正确写好订单号的情况下,帮助客户解决订单未送达的问题: Devin基准测试技术报告发布 最近,Devin创始团队Cognition还发布关于SWE-bench测试的技术报告。 除了之前已公布的测试结果之外,团队还透露了一些新消息。 比如,Cognition的目标之一是让Devin这个专门从事软件开发的AI智能体能够成功地为大型、复杂的代码库贡献代码。 选择在SWE-bench上端到端运行智能体,也是考虑了它更接近现实世界的软件开发。 此外,研发团队还透露,为了防止Devin在测试中作弊,比如查找外部的pull requests信息,测试已做相关设置,确保Devin无法访问相关信息,并且在此过程中也已人工手动检查了Devin运行情况。 最后团队强调Devin仍处于起步阶段,还有很大改进空间: 更多细节感兴趣的家人们可查看报告详情。 Devin发布不到一周,网友们的讨论已十分热烈。 比如,这位大兄弟表示自己一年前担心的事儿终究还是发生了。 以后Stack Overflow上都是各种Devin在提问,人,就只能被挤出去(Stack Overflow危!!!): 有网友回应(手动狗头): 它们可以互相回答问题。 还有网友发现Devin背后团队Cognition正在招全职软件工程师,于是缓缓打出一个问号: Devin不是应该填补这些职位空缺来为他们省钱吗? 最后,若Devin公开你会想用它干点啥? 参考链接: [1]https://www.cognition-labs.com/post/swe-bench-technical-report [2]https://x.com/raunakdoesdev/status/1769066769786757375 [3]https://twitter.com/emollick/status/1768742585122558063 [4]https://x.com/mckaywrigley/status/1767985840448516343 [5]https://x.com/maisaAI_/status/1768657114669429103?s=20
ChatGPT参数规模被扒:只有7B
ChatGPT惨遭攻击,参数规模终于被扒出来了—— 很可能只有7B(70亿)。 消息来自南加州大学最新研究,他们使用一种攻击方法,花费不到1000美元就把最新版gpt-3.5-turbo模型的机密给挖了出来。 果然,OpenAI不Open,自有别人帮他们Open。 具体来说,南加大团队三位作者破解出了未公布的gpt-3.5-turbo嵌入向量维度(embedding size)为4096或4608。 而几乎所有已知的开源大模型如Llama和Mistral,嵌入向量维度4096的时候都是约7B参数规模。 其它比例的话,就会造成网络过宽或过窄,已被证明对模型性能不利。 因此南加大团队指出,可以推测gpt-3.5-turbo的参数规模也在7B左右,除非是MoE架构可能不同。 数月前,曾有微软CODEFUSION论文意外泄露当时GPT-3.5模型参数为20B,在后续论文版本中又删除了这一信息。 当时引起了一阵轩然大波,业界很多人分析并非不可能,先训练一个真正的千亿参数大模型,再通过种种手段压缩、蒸馏出小模型,并保留大模型的能力。 而现在的7B,不知道是从一开始20B的消息就不准确,还是后来又再次压缩了。 但无论是哪一种,都证明OpenAI有很恐怖的模型优化能力。 撬开ChatGPT的保护壳 那么,南加大团队是怎么扒出ChatGPT未公开配置的呢? 还要说到现代语言模型中普遍存在的“Softmax瓶颈”。 当Transformer网络处理完输入,会得到一个低维的特征向量,也就是Embedding。这个特征向量再经过Softmax变换,就得到了最后的概率分布输出。 问题就出在Softmax这里,因为矩阵的秩受限于特征向量的维度,所以大模型的输出空间事实上被限制在了一个低维的线性子空间里。 这就像是无论你的衣柜里有多少件衣服,最后能穿出去的搭配,其实是有限的。这个”衣柜”的大小,就取决于你的“特征向量维度”有多大。 南加大团队抓住了这一点,他们发现,只要从API调用中获取到足够多的输出样本,就足以拼凑出这个大模型的特征向量维度。 有了这个特征向量维度,可以进一步推断大模型的参数规模、还原出完整的概率输出,在API悄悄更新时也能发现变化,甚至根据单个输出判断来自哪个大模型。 更狠的是,推测特征向量维度并不需要太多的样本。 以OpenAI的gpt-3.5-turbo为例,采集到4000多个样本就绰绰有余了,花费还不到1000美元。 在论文的最后,团队还探讨了目前的几个应对这种攻击的方法,认为这些方法要么消除了大模型的实用性,要么实施起来成本高昂。 不过他们倒也不认为这种攻击不能有效防护是个坏事, 一方面无法用此方法完整窃取模型参数,破坏性有限。 另一方面允许大模型API用户自己检测模型何时发生变更,有助于大模型供应商和客户之间建立信任,并促使大模型公司提供更高的透明度。 这是一个feature,不是一个bug。 论文: https://arxiv.org/abs/2403.09539 参考链接: https://x.com/TheXeophon/status/1768659520627097648
优衣库最强联名更新,这次和《追风筝的人》作者合作|Feel Good 周报
为和平 而设计 Feel Good 导读 优衣库发布「Peace For All」系列发布新品 lululemon 首个女子超级马拉松项目完赛 众创鲸鱼照片和算法,揭示了一个让人痛心现实 💡更多色彩和更小的马路,怎么就更安全了? Anytime Spirits:做有机的酒精产品,就是新赛道 优衣库发布「Peace For All」系列发布新品 优衣库的 UT 除了具有「以最超值的方式穿上联名款」一大优点外,用优衣库母公司迅销的董事长柳井正的话来说,它更是发声的载体: T 恤具有传递信息的力量,即便难以表达自己的人,也可以藉由穿上 UT 传递出自我的心声。 其中,又数从 2022 年开始推出的「Peace For All 有爱」系列最「本心」。 通过这个系列,优衣库联手全球与之拥有相同愿景的艺术家、设计师等知名人士及组织设计,表达对世界和平的美好祈愿。 本周五,优衣库为「Peace For All」推出五款新设计: 《追风筝的人》作者 Khaled Hosseini(卡勒德·胡赛尼)生于阿富汗,他曾是基本生活无法被保障的群体一员,现任联合国难民署(UNHCR)亲善大使。 在这次合作的 T 恤上,他也用上了「风筝」的元素: 我在战前的阿富汗长大,那时我常常放风筝,风筝在我心中深深地烙印上了和平的美好象征。 我的设计旨在唤起我们对于人性至善的信念,当我们彼此以尊严相待,以理解和尊重化解纷争,我们便能实现最理想的共存状态。 「Moomin 姆明」的创造者托芙·杨松(Tove Jansson)是一位坚定的和平主义者,在姆明的故事集中,她围绕热情好客且宽厚的姆明家族,创造了一个理想的乌托邦。 姆明合作款让经典卡通角色姆明在粉色 T 恤上用刷子描绘出「Peace(和平)」一词。 日本解剖学家养老孟司是畅销书《傻瓜的围墙》的作者。 他以爱猫 Maru 为主题: 这件 T 恤是我对已故猫咪 Maru 的致敬。 当一只流浪猫夺走了它的食物时,Maru 并未立刻表现出愤怒,直到那只猫离去一分钟之后才感到沮丧。Maru 是一只不喜争斗的猫。但是,也许这样就很好。是时候该认真思考和平了。 以「纽约的每个人(Every Person in New York)」项目著称的艺术家 Jason Polan(贾森·波兰),则将一如既往的可爱带到 T 恤设计上,让人物和衣服的口袋进行互动。 日本书法家杭迫柏树则以「圆」开启一个讨论: 站在地上,围绕自己画一个圈。如果圈足够大,它便可以延伸至宇宙;如果足够小,它便会回归自我。 圆,根据所见之人的处境以及当时心境的状态而有所不同,您在圆上看到了什么,又有哪些理解呢。我们的心原本清静无暇,无所拘束。穿上这款T恤,您的回答是什么? 在这次新品推出前,Peace For All 已经在全球范围内售出 300 万件。 其部分销售收入已用于捐赠给祝愿和平的团体组织,项目捐款总额累计超过 9.7 亿日元。 lululemon 首个女子超级马拉松项目完赛 我们上周报道的 lululemon 首个女子超级马拉松项目 FURTHER 于当地时间 3 月 12 日正式完赛。 在六天中,10 位大使完成了她们职业生涯中的最远距离,并创造多项纪录,合计跑步里程数为 2880.88 英里(4636.33公里)。 超级马拉松跑者 Camille Herron 创造了 13 项世界纪录(审核中),包括: 以 560.33 英里的成绩创造女子 6 天长跑世界纪录; 创造女子 300 英里(59:54:28)、400 英里(88:34:26)、500 英里(118:19:17)、500 公里(62:50:17)、600 公里(81:23:38)、700 公里(98:33:59)、800 公里(117:44:55)、900 公里(142:40:58)的世界最好成绩; 创造 72 小时(342.091 英里)、96 小时(429.8369 英里)、120 小时(501.7539 英里)的女子世界最佳成绩。 据品牌介绍,这项由美国田径协会批准的赛事,遵循了国际超跑协会制定的规则,2.56 英里的环形赛道经过了国际马拉松和公路跑协会的测量和认证。 除了超级马拉松,FURTHER 项目也和加拿大体育协会太平洋分会合作,推进以「她」为先的研究,帮助缩小体育科学领域中的性别数据差,从而更好地了解人类的运动表现。 官方表示,项目研究结果将在未来 2 年内发布,初步研究结果将于 2024 年秋季公布。 众创鲸鱼照片和算法,揭示了一个让人痛心现实 最近一个研究指出,在 2012 年至 2021 年之间,北太平洋的座头鲸数量减少了 7000 头,约 20%。背后原因,是剧烈的海洋热浪杀死了许多鲸鱼赖以为生的猎物,进而导致座头鲸死亡。 这个新发现的揭示,除了有赖于学者的研究分析,还少不了一个运行了将近 20 年的网站 Happywhale.com。 在 2015 年,主研究座头鲸的 Ted Cheeseman 创立了 Happywhale 网站。科学家和公民爱好者都可以上传自己拍下的鲸鱼照片,并由 AI 图片辨识功能分类归档。 Cheeseman 说,座头鲸的尾巴就像人类的指纹一样,每一个都独一无二,同时也在讲述着它们的经历。同时,座头鲸的尾巴也更常露出水面,因为这个动作是它们潜入更深水底的一个过程。 那么多年来,Happywhale 上已经有上百万张照片,辨析出了 3 万条鲸鱼,帮助研究人员追踪鲸鱼的生活行踪与改变。 正是在这些数据基础上,科学家们才得知了座头鲸的数量出现了如此大幅下降。不过,Cheeseman 并不担心座头鲸会灭绝: 我真正担心的是事情发展的势态。 海洋正在以比我们最悲观的估算模型都快的速度在升温。所有,今天的极端气候事件在 20 年后就是日常了吗? 那我们就是要面对一个完全不同的海洋生态系统了,一个能够支持更少野生生物的系统。 接下来,Cheeseman 希望 Happywhale 的数据能够帮助科学家跟敏捷地了解鲸鱼健康的改变,同时也训练新的 AI 模型,让模型可通过更多不同的身体部分去辨析鲸鱼。 未来,他还希望这些工具能去帮助研究其他海洋哺乳动物的科学家: 计算机在变得越来越快,图像识别也越来越好。 这个技术只会变得越来越好。 💡更多色彩和更小的马路,怎么就更安全了? 「马路如虎口」说的真不假,在以汽车为中心的城市尤其如此。 据统计,在 2022 年,美国有超过 7500 名行人死于交通意外,平均下来每天大约有 20 行人遭遇意外。 很多美国城市为了降低事故率,采用了源自欧洲的 Vision Zero 框架,试图以更好的设计来改善情况。 部分城市情况明显改善,如新泽西州的霍博肯,在七年里没有一次交通意外致死情况都无;加州的弗里蒙特以及纽约市在采取 Vision Zero 计划后情况都有好转。 然而,洛杉矶、西雅图、华盛顿等城市的交通意外致死却依旧居高不下。 专家从改善情况较好的实践中总结了建议👇 让十字路口更安全 一个让十字路口变得更安全的方法很直接 —— 撤销附近 6-10 米区域的停车位,消除行人和司机的视觉障碍。 有城市会为十字路口涂上抢眼的色彩,提醒司机不可在附近停车。 不过,有时候这样的「提示」并不足够,因为「汽车就像气体一样,它们会自动填充附近的空间。如果你不在实体上阻止它们占据空间,它们就会占地。」 因此,城市也可以用花坛、树木等组件来阻止停车。 让汽车降速 不少城市发现,对于减少交通意外致死比例最重要的措施还是让汽车降速。 除了出规定,设计师们还有其他小方法。譬如,让车道变得更宅。 设计师发现,把车道从 13 英尺(约 3.9 米)缩窄到 10 英尺(约 3 米)能创造一种「心理摩擦(mental friction)」。 因为觉得操作的空间小了,司机会倾向于开得慢些,主要是为了保护自己的车,顺道了让旁边的行人更安全了。 考虑更整体的改变 虽然上面有特定方面的建议,但专家还是希望城市规划者可从整体上去发起改变。 毕竟,「城市整尝试去改变已经维持了一百多年的街道、交通工具设计以及政策。我们需要更多时间去真正改变我们所创造出来对人并不安全的环境。」 Anytime Spirits:做有机的酒精产品,就是新赛道 你的酒也可以是有机的。 即便那些大公司一直在跟你说不必在乎这些,那并不意味着那就是真的。 Maddy Rotman 和 Taylor Lanzet 拥有丰富的可持续食品行业经验,决定要做可持续的酒精产品并创立了品牌 Anytime Farmhouse Spirits。 美国的酒类市场虽然已经很拥挤,但做有机产品的品牌却只有 1%。 Anytime 以「透明度」切入,不仅会披露产品的原料表,也会罗列原料背后的农场。 更重要的是,她们合作的农场都是支持再生农业实践的,意味着这些农场并不会使用杀虫剂,且进行免耕和轮耕等有利于土壤健康的举措。 成为行业先锋有利有弊,弊在于一些认证机构甚至都没有该领域的认证设定,利在于这也是品牌及早参与设定的机会。 于 2017 年由 Patagonia 和 Dr. Bronner's 发起的「再生有机组织(Regenerative Organic Alliance)」就和 Anytime 合作,制定酒精类产品的认证要求。要求申请认证的品牌需至少证明其 95% 的原料均来自再生有机来源。 虽然像 Diageo 这样全球最大的酒类经销商曾表示未来要转向再生农业,但其行动还是有限。塔夫茨大学弗里德曼营养学院副教授 Sean Cash 认为,这也是新品牌的机遇: 如果你是一家小制造商,在寻找给产品做差异化的方式。对于一些人来说,做好社会和农业责任可以是一种前进的选择。 世界也许不完美,但总有人在努力让它变得更好。
性能超越巅峰骁龙?曝华为下一代麒麟处理器将采用全大核设计
近日,手机中国注意到有博主通过微博爆料,称华为正计划将32位应用彻底逐出历史舞台,其下一代麒麟处理器将全面采用64位全大核设计。 据了解,华为正在研发多款新的麒麟芯片,这些芯片将彻底放弃32位设计,全面拥抱64位内核结构。这一转变不仅彰显了华为对于技术进步的不懈追求,也预示着其即将推出的新一代芯片组将具备更加先进、更加实用的基础架构。 回顾过往,华为早在多年前就推出了7nm 64位arm兼容处理器——鲲鹏920,该处理器拥有8个DDR4 RAM通道和两个100GbE端口,展现出了华为在芯片设计领域的强大实力。如今,新的泄露信息表明,华为将全面转向64位新架构来生产新的芯片,这一决策无疑将进一步巩固其在全球芯片市场的领先地位。 对于消费者而言,这一转变将带来诸多好处。首先,全面采用64位架构的麒麟处理器将具备更加强大的性能,能够应对更加复杂、更加高端的应用场景。其次,64位架构能够更好地支持未来的应用程序和操作系统,为用户提供更加流畅、更加便捷的使用体验。此外,64位架构还具备更高的安全性,能够有效保护用户的隐私和数据安全。 而对于开发者而言,新应用架构的出现也将带来诸多好处。首先,64位架构能够提供更好的代码执行效率,使得应用程序在运行时更加流畅、更加稳定。其次,64位架构的引入将促使开发者更加注重代码的性能优化,从而推动整个行业的技术进步。此外,随着越来越多的开发者开始专注于适合64位移动设备的应用程序,用户也将享受到更加丰富、更加多样化的应用生态。
苹果首次披露多模态大模型!AI 大招什么时候上 iPhone
一直在大模型浪潮有点克制的苹果,终于不再低调了。在今年的苹果股东大会上,库克罕见地谈及了生成式 AI。 苹果 2024 年将在生成式 AI 领域「开辟新天地」。 今天,苹果首次揭晓了在多模态大型语言模型(LLM)研究领域的最新突破。 这是一篇题为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的学术论文,里面详细介绍了具有高达 30B 参数规模的系列多模态 LLM。 不只是数苹果!超大杯自带火眼金睛 直入主题,先来看看「超大杯」 MM1-30B-Chat 的能力。 MM1-30B-Chat 不仅准确无误地数出图片中苹果、橙子的数量,而且面对一连串数字的识别,也能轻松应对。 难度也进一步升级,研究人员设置了个陷阱问题,询问 MM1-30B-Chat 能看到图片中的红球吗? 并未中招的它能够明确地回应道:「图片中并无红球,我所见到的是一只猫正坐在沙发的枕头上,除此之外,别无他物。」 我们时常在朋友圈上看到飞机上随手一拍的风景图,那 MM1-30B-Chat 会怎么解读这些风景图呢? 目睹这幅图像,人们会体验到敬畏、好奇和宁静等多种情感。飞机窗户外展现的景色令人叹为观止:飞机的机翼下,是一片广阔而雪白的山脉,给人一种宁静和自然之美的深刻感受。 山脉宏伟、层次分明的排列,以及其雪峰与明亮的蓝天形成的对比,让人不禁对自然世界充满惊奇和赞赏。 这种视角还提供了一个日常生活中难以体验的独特世界,激发出人们的好奇心和兴奋感。此外,图中未被触及、原始的风景,还能带来平静与安宁之感。 它提取信息的能力也是一流,光靠一张图,就能滔滔不绝地给你讲清楚地解释清楚蒸发和蒸散发的区别。 推理能力是大模型的必备的核心竞争力之一,这种能力使得模型能够从有限的信息中提炼出深层次的见解和关联。MM1-30B-Chat 仅凭照片,就能推理出下面这些信息: 海滩上的伞图片显示温度在 25-30 摄氏度。伞已撑开,人们在海滩上,看来是个温暖而阳光灿烂的日子。 飞机飞越雪地的图片显示温度在 -20 至 -30 摄氏度。飞机正飞越一片雪地,地面上有车辆,显然是一个寒冷的冬日。 动物在田野上吃草的图片显示温度在 15-20 摄氏度。动物正在吃草,这通常发生在温和的天气中。草地的绿色进一步显示出温和的气候特征。 MM1 是怎么做到的? 苹果发布的论文里详细披露了背后的研究过程。 得益于大规模图像-文本数据的丰富性和大规模计算能力的普及,多模态大模型已经成为众多顶尖模型的标配。 现有的多语言大型语言模型(MLLMs)主要分为封闭和开放两类。封闭模型的信息有限,而开放模型提供详细的参数、数据和训练配置,便于进一步研究。不过,大多数研究缺乏关于算法设计选择的透明度,特别是在多模态预训练方面。 因此,苹果撰写的这篇论文详细记录了多语言大型语言模型(MLLM)的开发过程,并尝试归纳出宝贵的设计经验。 具体来说,研究团队在模型架构决策和预训练数据选择进行了小规模的消融实验,探讨了模型架构决策和预训练数据选择,并观察到了几个有趣的趋势: 在模型设计方面,研究人员发现图像分辨率、视觉编码器的损失和容量、以及视觉编码器的预训练数据是至关重要的考量点。但出乎意料的是,几乎没有发现有力证据支持视觉数据输入到大型语言模型(LLM)的架构设计对性能有显著影响。 此外,研究人员探索了三种不同的预训练数据类型:图像字幕、交错的图像文本数据以及纯文本数据。 他们发现,对于少样本学习和纯文本任务的性能来说,交错的图像-文本数据和纯文本数据极为关键,而对于零样本学习的性能而言,图像-标题对数据最为重要。 经过监督微调(SFT)阶段后,研究人员证实了这些趋势的持续性,无论是在预训练阶段的评估中,还是在后续的基准测试中。这一发现表明,模型在预训练阶段所展现的能力以及所做出的建模决策,在经过微调之后依然保持其有效性。 在研究的最终阶段,研究团队通过扩展至更大规模的大型语言模型(LLMs),包括3B、7B 至 30B 参数级别的模型,以及探索混合专家(MoE)模型的不同配置——从拥有 64 个专家的 3B MoE 到拥有 32 个专家的 7B MoE——来进一步增强模型的性能。 预训练模型 MM1 在少样本学习设置中,无论是在小型还是大型规模上,都在标题生成和视觉问答(VQA)任务上超越了 Emu2、Flamingo 和 IDEFICS 等众多先进模型。经过监督微调(SFT)后的最终模型,在 12 个公认的多模态基准测试中展现了竞争力十足的性能。 得益于广泛的大规模多模态预训练,MM1 展现出了一系列引人注目的能力,包括上下文预测、多图像处理和连贯性推理等。 此外,经过指令调优的 MM1 还表现出了卓越的少样本学习能力。这些显著的成果证明了研究团队提出的构建多语言大型语言模型(MLLM)的方法能够有效地将设计原则转化为实际中具有竞争力的规模化模型。 构建 MM1 的秘诀 构建高性能多模态大型语言模型(MLLMs)是一项极其依赖经验的工作。虽然高层次的架构设计和训练流程是明确的,但实际形式和执行方式却不明确。 研究人员详细记录了为了构建高性能模型所进行的一系列消融实验。主要是三个设计决策维度: 架构:研究人员研究了不同的预训练图像编码器,并探索了将这些编码器与大型语言模型(LLMs)如何连接。 数据:研究人员考虑了不同类型的数据及其混合比例。 训练流程:研究人员探索了如何训练多模态大型语言模型,包括超参数以及在不同阶段训练模型的哪些部分。 鉴于训练大型多模态语言模型(MLLMs)可能涉及庞大的资源消耗,研究人员采取了一种精简的实验设置来进行消融实验。 模型架构消融 实验过程中,研究者分析了使大型语言模型(LLM)有效处理视觉数据的关键组件。他们专注于两个主要问题:最佳预训练视觉编码器的方法,以及如何将视觉特征与 LLM 内部空间有效结合。 图像编码器的预训练:多数多模态大型语言模型(MLLMs)使用 CLIP 预训练的图像编码器,也有研究探索使用 DINOv2 等仅视觉的自监督模型。研究显示,预训练图像编码器的选择对下游任务性能有显著影响,重点关注图像分辨率和预训练目标的重要性。在此过程中,研究人员使用了 2.9B 的 LLM 以充分挖掘大型图像编码器的潜力。 对比损失与重建损失:大规模图像-文本数据集训练的模型展现出强大的语义理解能力,这得益于数据的丰富性和视觉编码器的语义知识。然而,CLIP 风格的模型在密集预测任务上表现不佳,因此研究者考虑使用重建损失来提升图像理解的详细程度。 编码器课程的影响:研究发现,图像分辨率的提升对性能影响最大,其次是模型大小和训练数据组成。提高图像分辨率、增加模型参数和引入合成字幕数据集均能带来性能的小幅提升。 模型类型的选择:对比方法通常优于重建方法,特别是 ViT-L 编码器在性能上小幅超越同等尺寸的 AIM。 预训练数据消融 在追求高性能模型的训练过程中,获取大量且与任务相关的数据是至关重要的。通常,模型的训练被分为两个关键阶段:预训练和指令调优。 预训练阶段涉及使用广泛的网络数据,旨在为模型提供一个全面的学习基础。随后的指令调优阶段则利用针对特定任务精心挑选和策划的数据,以进一步提升模型在该任务上的表现。 而研究人员则集中讨论预训练阶段,并详细阐释他们在数据选择上的策略和考量。 最终模型与训练方法 研究人员选用了 378x378 像素分辨率的 ViT-H 模型,并在 DFN-5B 数据集上以 CLIP 目标进行预训练。 研究显示视觉标记的数量至关重要,因此他们采用了包含 144 个标记的连接器,选择了 C-Abstractor 作为连接器架构。 为了保持模型在零样本和少样本场景下的性能,研究人员使用了 45% 交错图像-文本、45% 图像-文本对和 10% 纯文本的数据组合。 他们也将大型语言模型(LLM)的参数规模扩展至 3B、7B 和 30B,并在相同文本数据集上进行训练。利用预训练的LLM和视觉编码器初始化 MM1,并在混合数据上进行了 200 万步的多模态预训练。 所有模型都在 AXLearn 框架下,以不冻结状态、4096 的序列长度、每序列最多 16张图像、378×378 分辨率和 512 序列的批次大小进行训练。 鉴于在这样规模下进行精确的超参数搜索是不现实的。研究人员依据 LLM 的扩展规律,在小规模上进行了学习率的网格搜索,并确定了最佳学习率,随后将其应用于更大规模的模型中。 监督微调 研究人员还阐述了基于预训练模型所进行的监督微调(SFT)实验细节。 它们遵循了 LLaVA-1.5 和 LLaVA-NeXT 的方法,并从一系列多样化的数据集中收集了大约 100 万个 SFT 示例,包括: 由 GPT-4 和 GPT-4V 生成的指令-响应对,LLaVA-Conv 和 LLaVA-Complex 用于对话和复杂推理,以及 ShareGPT-4V 用于详细图像描述。 针对学术任务的视频-语言(VL)数据集,涵盖了自然图像的 VQAv2、GQA、OKVQA、A-OKVQA 和 COCO Captions;文本丰富的图像数据集 OCRVQA 和 TextCaps;以及文档和图表理解的 DVQA、ChartQA、AI2D、DocVQA、InfoVQA 和 Synthdog-En。 此外,研究人员使用了类似于ShareGPT 的内部数据集,以保持模型对仅文本指令的遵循能力。 论文结论 研究团队致力于探索构建高效能的多模态大型语言模型(MLLMs)的策略。通过精心设计的消融实验,研究人员对建模和数据选择进行深入分析,从而归纳出一系列关键的经验教训。 这些经验成功培养出一个预训练模型,在各种少样本评估中取得了业界领先的成绩。经过监督微调(SFT)的过程,这一模型系列在多个基准测试中展现出卓越的性能,不仅能够处理多图像推理任务,还能适应少样本提示的挑战。 更多研究细节,请查阅论文地址:https://arxiv.org/pdf/2403.09611.pdf 另外,据彭博社报道,苹果在今年早些时候还悄然收购了加拿大 AI 初创公司 DarwinAI。而该公司掌握的核心技术之一是利用 AI 来理解深度神经网络算法,并据此定制生成一系列经过高度优化、满足特定需求的神经网络。 报道还指出,这项技术对苹果公司来说可能极具战略价值,因为它完美契合苹果致力于在设备上直接运行 AI 功能的长远规划,而非单纯依赖云端计算。 无论是发表学术论文,还是战略性收购,这一连串举措都清晰表明了苹果即将在 AI 领域大展拳脚。 如今距离 WWDC24 仅剩不到三个月的时间,现在,让我们备好爆米花,屏息以待,准备迎接库克所描述的「开辟新天地」。
AI电视,杀疯了!
2024年一季度,科技行业精彩不断。从一月份的CES,二月份的MWC,再到目前正火热进行中的AWE 2024(中国家电及消费电子博览会),雷科技均派出了报道团到现场进行全程实时报道。 自去年以来,AI 成为了各行各业绕不开的话题。OpenAI公司旗下的ChatGPT带来了惊人的连续自然语言对话能力、音频处理工具Sovit将AI语音变成现实,而近期话题度极高的Sora,则是让人类进入到通用人工智能时代(AGI)的进程再度被缩短。因此,AI家电也顺势成了这届AWE最热门的话题,在产品维度,最能让我们感知到AI家电魅力的,则是“AI电视”,头部电视巨头都在探索自家产品与AI技术的有机结合,并在AWE 2024上带来了不少前沿的科技成果。 (图源:雷科技) 海信:用「信芯」,重塑AI画质 要说积极拥抱AI的头部厂商,那海信肯定是其中之一。 早在AWE 2024展前预热期,海信电视就在微博放出一个信息:“当电视遇到AI,生活将会怎样?”,引发行业诸多猜想。 在3月15日的展会上,谜底正式得到了揭晓,海信电视新品U8N Pro的正式亮相,代表着海信率先向行业给出了自己的答案。 (图源:海信) 为了让产品更好地发挥AI的优势,海信U8N Pro搭载了一颗信芯AI感知芯片,画质增强能力也随之提升。 在AI三维感知技术的加持下,海信U8N Pro可以智能分析环境光线、片源内容,随时调整优化画面色彩、对比度、清晰度、细节等,并协同显示芯片、背光显示控制技术和抗扰屏等全链路一体运作,改善画面暗淡扁平、色彩失真等问题,给用户带来更加真实、更有细节的观影体验。 按照官方的说法,那就是全面进入了AI计算画质时代。 (图源:雷科技) 不仅如此,这颗芯片拥有的领先的AI算力,也让海信U8N Pro变得更加「聪明」。 不同于现存电视的指令式服务,海信可以借助自家领先的AI算力、Ju Cloud提供的海量数据以及星海大模型提供的强大算法,让AI电视能够听懂甚至看懂越来越多指令,比如通过AI技术主动判断预测用户的需求,带来更加的主动式服务等。在AI技术加持下,海信U8N Pro让人机交互变得更加简单、自然,甚至还能通过「爱家」平台调动其他家庭设备。 (图源:海信) 海信坚信,电视AI需要算力、算法和数据三大底座提供算力支持,而信芯AI感知芯片、海信星海大模型和Ju Cloud云底座,就是他们打造出行业首个全链路全场景电视AI架构的扎实基础,这些技术的积累,终将引起用户体验的质变。 不仅要注重画质,也要提升用户体验,还需要与场景融合,带来更全面的AI体验。海信认为,这样才能让电视真正来到AI时代,成为AI时代的交互窗口,为电视赋予AI时代的新价值。 TCL:不提AI电视,但AI无处不在 或许是英雄所见略同吧,在对AI技术的应用上,TCL的思路和海信其实是差不多的。 比如刚发布的TCL X11H,便采用了TCL自研TSR独立画质芯片搭配上自研全识AI大模型的组合,以强大的AI算力及深度计算模型为基础,通过全域信息采集、全维图像分析、全景画质增强三个步骤对画质进行系统化处理,从而带来更符合人眼观看的画质效果。 (图源:TCL) 同时,在AI算力的加持下,X11H的瞬态响应和双向16bit技术也喜提升级,通过更强大的算法控制更多的背光分区,让发光成像变得飞快,即便达到了万级背光分区,显示画面依然能做到清晰无拖影。 不同之处在于,目前TCL在系统上走的是极简方案,它们现在主推的灵控桌面主打的便是「极简化」与「可自定义」,不仅没有了常见的主动推广信息流,用户甚至可以做到根据需求随意定制桌面,比如添加桌面组件、自建文件夹放入不同类型内容,可以随心所欲地打造一个契合自己使用需求的桌面。 (图源:雷科技) 至于在系统层面上,究竟是AI赋能的主动内容推送更加好用,还是用户全权掌握的极简桌面设计更加好用,或许只有时间能给我们答案。 长虹:除了「壁画」, 更有云帆AI系统 在此次展览中,四川长虹以“AI•生活•家”为参展主题,带来了一系列应用人工智能技术的智慧家电成果,其中就包括最新发布的长虹「壁画+」系列电视,以及长虹自研的云帆AI系统。 (图源:雷科技让壁画+电视生成的“重庆山城夜景”壁画) 硬件上,长虹「壁画+」系列电视采用了ADS PRO定制的晶彩屏,支持178°全视角、360°无光晕观影,这块均匀度极高的MiniLED显示屏,在展示艺术画作的时候能够获得相当不错的效果,实现智能生活和自然艺术的有机结合。 长虹「壁画+」的核心卖点是“超薄”,甚至做到跟画框一样薄,只有18.9mm,领先行业。电视超薄化并不容易,一方面有些显示技术本身会有较多元器件和背光系统占空间,难以变薄;另一方面,超薄后的电视被“贴墙安装”,没有空间散热,但电视不论是屏幕显示抑或是智能系统的运算都在散发热量。据长虹AWE现场工作人员介绍,长虹「壁画+」通过使用航空材料以及应用独特的散热工艺实现“航级散热”,让对应的热量在电视后方极窄的缝隙中高效散发。 此外,长虹在今年AWE上提出AI家电战略,作为其核心品类的电视也前瞻布局AI电视,在生成式AI与电视的结合上率先落地了应用。长虹「壁画+」电视集成的云帆AI平台是一个基于AIGC构建的人工智能系统,它可以根据用户需求创造内容和服务,让用户在家就能实现「AI绘画」、「AI教育」、「AI健康」等一系列功能,比如最具代表性的就是AI创作“壁画”。 (图源:雷科技) 当然,这些生成式应用仅仅是云帆AI体验中的一环。在全球首个基于大模型的智慧家电AI平台——长虹云帆加持下,用户可以借助语音控制等交互方式,通过电视对家中智能设备进行联动控制,电视不再只是一台观看设备,而成了一个智能、便捷的家庭中心,目的是实现从家电到家人的角色转换。 除了AI加持的「壁画+」电视等新品之外,长虹更在本次展会上推出与海思深度合作的「全球首款星闪电视」。这款采用星闪技术的电视产品,具备低延时、抗干扰、高可靠等诸多领先优势,可以借由星闪技术和各种周边配件快速配对,亦可通过华为手机实现低延迟的无缝投屏。 对于星闪技术的快速普及,小雷本人确实是非常激动的。这款产品的发布,不仅意味着长虹携手海思鸿鹄媒体解决方案的深度合作,也为星闪生态和电视产业的未来发展注入了新的发展活力,希望随着技术潜力的不断挖掘,我们还能看到更多基于星闪技术的周边配件不断涌现。 三星:AI for All, AI电视不落伍 作为今年最早提出「AI for All」口号的厂商,AI功能自然也是三星展台上必不可少的一道风景线。从今年的新款旗舰手机Galaxy S24系列到BESPOKE缤色铂格新品冰箱,每款产品都在凸显着「AI驱动体验升级」这一核心论点。 图源:雷科技摄制,三星AWE展台 以三星电视上搭载的新一代AI芯片NQ8 AI Gen3为例,这枚芯片可以利用人工智能优化影像原片中的细节,还能通过深度学习分析模型还原图像中的真实纹理,将常见的低分辨率内容提升至近乎8K的超高清水平。 (图源:雷科技) 不止于此,利用AI的强大数据处理能力,全新三星Neo QLED 8K QN900D能够智能识别画面中的运动物体,精确分析和优化它们的运动轨迹,并对画面进行插帧,即使是在低帧率的片源下,也能生成更流畅的体育赛事和动作电影。 除了画面,三星还将AI技术应用到了音频上。利用AI算法智能感知周围环境的声学特性,对每个人观影环境进行还原,就像是给你请了个私人调音师那样,通过实时调整音频输出,保证用户在任何环境下都能获得清晰、均衡且沉浸式的音效体验。 (图源:雷科技) 三星这套AI方案,不仅能把产品本身的硬件能力充分发挥出来,更是在一定程度上克服了「高清资源少」、「声学环境差」等客观因素的影响。强大的神经网络结合AI深度学习算法的应用,未来仍然会使电视芯片不断学习和自我进化,直到开启一个属于AI视听的新纪元。 AI冲击波袭来, 电视巨头们准备好了吗? 纵览AWE 2024展,我们不难看出,这股AI硬件的风,终究还是吹到了电视行业。 就连在展会上没有刻意提起AI功能的创维,也在其主打的壁画电视上加入了大语言模型加持的AI助手功能。 (图源:雷科技) 当然,这并不算什么令人惊讶的事情。根据洛图科技最新发布的《全球电视品牌市场出货季度追踪》数据显示,2023年全年,全球电视市场品牌整机出货量达到2.01亿台,同比2022年下降1.6%,创下近十年来的新低点。 (图源:洛图科技) 当行业内存量产品过多,整体硬件配置趋于统一,只有从用户体验入手,将AI能力树立为自家最新一代产品中的主要卖点,才能让买家感到「物超所值」,而这也是最理想的行业突破口。 问题来了,我们应该如何定义AI电视? (图源:雷科技) 从雷科技AWE报道团在海信、TCL、长虹、创维和三星等头部巨头的电视展台的观察来看,目前AI电视的核心要素主要可以概括为以下三点: 1、AI画质。通过AI芯片,对传统低清资源的画面进行优化还原,或是对画面的色彩、对比度进行实时矫正,增强电视最根本的画质、音频方面的能力,给用户带来更好的影音体验; 2、AI交互。接入自研语言大模型,使人机交互更加顺畅,让电视可以更懂人的需求。用户通过一个简单的指令,甚至可以是比较模糊的语义指令,就能让电视主动实现后续一系列复杂的操作; 3、AI互联。通过与AI技术的结合,让电视成为真正的全屋无感智能中枢,理论上来说,不仅可以更好地理解用户需求,自动创建居家场景,也能作为智能中枢控制协调数十上百的智能设备,让消费者过上真正的智慧生活。 4、AI创作。基于大模型技术的文生图、文生文能力进行一些AI生成应用的落地,比如长虹壁画电视的画报创作,再比如未来可以对家庭相册进行智能视频合成等。 (图源:雷科技) 2024年,AI电视才刚面世,它究竟会长成怎样需要行业一起去定义,当前面临大模型技术不成熟、端侧芯片计算力较低、AI应用生态不丰富等难题。现在唯一确定的是,不管电视巨头做不做AI电视,它们都不会忽视AI大模型带来的创新机会。对于电视这一古老的产品来说,与AI大模型的融合应该回归到用户体验与价值创造上,不应该为了AI而AI,拿着锤子找钉子。 雷科技相信,我们现在能看到的应用场景只是AI大模型在电视上落地后的一小部分,未来的这个品类还会爆发出更大的威力。 没错,电视行业的未来,与AI站在一起。2013年前后,搭载安卓系统、让内容突破传统电视台的智能电视彻底重构了电视市场秩序,非智能电视以及作为过渡期产品的电视盒子已全被淘汰。十年后,AI电视,将再一次改变电视行业格局。 AI冲击波袭来,电视巨头们,都准备好了吗? 3月14日-3月17日,AWE(中国家电及消费电子博览会) 2024 盛大开幕,TCL、海信、海尔、三翼鸟、长虹、创维、九阳、云米、科沃斯、追觅、万和、云鲸、添可、雷鸟、知乎等巨头重磅参展,生成式AI与家电的结合成为重要看点,“AI家电”风起云涌,雷科技AWE 2024报道团正在现场进行全程追踪报道,敬请关注。
vivo X Fold3系列折叠屏手机官图发布:高管称-30℃低温使用无压力
IT之家 3 月 17 日消息,vivo 品牌副总裁兼品牌与产品战略总经理 @贾净东 今日午间发长文,对“最轻薄的重量级‘大折叠机皇’”vivo X Fold3 系列进行详细预热。 IT之家汇总主要信息如下: X Fold3 系列号称全球首款采用骁龙 8 Gen 3 的折叠巨幕手机,常温跑分高达 217 万; 搭载 8.03 英寸的三星 E7 屏幕; 配备蔡司 T * 镜头、5000 万折叠最大底主摄、折叠最强的潜望长焦,内置 vivo 自研 V3 影像芯片; 搭配行业首个专为折叠屏设计的全面可靠机身架构 —— 铠羽架构,号称让折叠屏从外屏到内屏、从后盖到边框,每一面都可靠,每一颗零件都耐造; 支持 IPX8 防水。 贾净东这次着重介绍了新机的电池表现。他表示,这次 X Fold3 系列的蓝海续航“非常强”,电池容量参数“强到离谱”。新机将实现“两天一充”续航,且在低温续航方面具有较好表现。 据介绍,年前工作人员携带 X Fold3 系列手机前往南极,见证了中国南极秦岭站的开站时刻。在平均气温零下三十多度的南极,“X Fold3 系列搭载的蓝海大电池经受住了南极低温的考验,依然能够“冷静”工作。” 此外,该机的单边厚度号称比 vivo X5 Max(IT之家注:号称史上最薄智能手机,厚度 4.75mm,2014 年发布)还要薄,标准版机型的净重“低于一个大苹果”。 根据“数码闲聊站”此前爆料,新机将提供黑白双色,“白玻纤巨好看”,顶配采用 16GB+1TB 组合,暂定 3 月 27 日发布。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。