行业分类:
加载中...
头条分类:
加载中...
嚯!OpenAI最新内幕八卦.pdf
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 奥特曼被OpenAI董事会解雇的往事,还有新瓜曝出。 原来是Ilya为董事会提供了关键证据。 这部分证据来自前CTO Murati与奥特曼的对话截图。 比如奥特曼说GPT-4 Turbo不需要联合安全委员会审查,但Murati后面核实发现,事实并非如此。 在奥特曼被解雇事变前一个月,Ilya整理好了两份PDF,一份关于奥特曼,一份关于Brockman,发给了董事会其他独立董事。 这些新内幕来自《华尔街日报》记者Keach Hagey的新书《The Optimist: Sam Altman, OpenAI, and the Race to Invent the Future》。 (5月20日出版,感兴趣的可以蹲) 新书中透露,奥特曼被踢出董事会前一周,老师已经警告他类似风险,他完全没当回事。 可能这就是为啥书名要叫“乐观主义者”吧。 Ilya推动整场政变 梳理新书爆料的新细节,OpenAI内讧原因无外乎三方面: 有权力纷争、有公司发展分歧,最主要的还是对奥特曼的意见。 首先是对公司技术的安全问题上,奥特曼为了快速发布产品与技术,存在一些撒谎行为。 早在2022年冬天,董事会权衡是否要发布GPT-4三项有争议的增强版本时,奥特曼就谎称它们都已通过联合安全委员会的批准。但后面董事会成员Toner发现,其实只有一个被批准。 与此同时,奥特曼还在未经联合安全委员会同意的情况下,在印度内测了GPT-4。 后面他又声称公司法律部门说,GPT-4 Turbo不需要通过联合安全委员会审查,但其实不是如此。 其次钱款方面,董事会有人发现他“独占”了OpenAI启动基金,下面的投资人拿不到钱。 这个基金在2021年推出,旨在投资AI初创企业,OpenAI负责管理。 OpenAI高层表示,奥特曼没有从该基金中抽取任何费用或者利润。他们表示奥特曼设立该基金,就是因为它“更快”,而且只是一个临时安排。 自从ChatGPT发布后,OpenAI便开启了一轮又一轮的快速融资。最新一轮的金额已经达到400亿美元,由软银出资,融资完成后软银将超越微软成为OpenAI最大投资方。 最后,奥特曼的管理风格也引发内部不满。 新书中提到,Ilya出于多种原因失去了对奥特曼的信任,包括他喜欢让内部搞对立。 2021年Ilya刚刚组建了一个团队开始探究OpenAI的下一个研究方向,几个月后Jakub Pachocki也做了类似的东西,后面两个团队合并。 前CTO Murati也提到,奥特曼的亲信Brockman在汇报上会绕过自己这个直属上司,直接去找奥特曼。 在2023年10月,Ilya整理了两个PDF,一个是奥特曼的,一个是Brockman的,发给了独立董事们。 这其中,奥特曼的PDF里包含了很多来自Murati的Slack对话截图。比如他说GPT-4 Turbo无需审查,但事实并非如此。 在2023年11月16日,Ilya和三名独立董事通过线上会议投票解雇了奥特曼,也免去了Brockman董事职务。 然后他们联系Murati,邀请她担任临时CEO,不过没有告诉她奥特曼为啥被解雇。 就在这时,Murati提到了一个关键问题: 你们有通知微软CEO纳德拉吗? 答案是否定,董事会打算在“Murati将在消息发布到OpenAI网站上之前才通知微软”。 要知道,直到现在微软仍旧是OpenAI的最大股东。这意味着,董事会在做了决定、且已成既定事实、即将公诸于世界的最后一刻,才通知微软。 这后面也成为奥特曼能够扭转局面的关键。 再过了一天,Murati越来越担心董事会并没有为解雇奥特曼之后的局面做好准备,这对于OpenAI而言非常不利。 她与其他高管一起向董事会施压,最后30分钟期限,如果再不解释为何解雇奥特曼,他们将全体辞职。 从这开始一切也偏离了董事会一开始的预期。 他们本来指望新任CEO能够帮他们安抚员工情绪,结果她带头反抗董事会。员工对于奥特曼的离开也并不开心。 所以,仅仅48小时,奥特曼完成极限逆转。得到纳德拉鼎力支持,OpenAI近800人签署联名信,要求奥特曼回归,否则将集体离职去微软(虽然本身并不想去)。 在这之中Ilya也签名了。 显然,没有人希望OpenAI就此瓦解。 但是以此事件为节点,OpenAI高层其实也分崩离析了。 如今奥特曼身边只剩下“好基友”Brockman,其余人都相继出走创业,有了自己的AI公司。 而OpenAI,或许也回不去从前的OpenAI了。 参考链接: [1]https://www.wsj.com/tech/ai/the-real-story-behind-sam-altman-firing-from-openai-efd51a5d?st=Qh5uBU&reflink=desktopwebshare_permalink [2]https://techcrunch.com/2025/03/29/sam-altman-firing-drama-detailed-in-new-book-excerpt/
华尔街日报:中美机器人竞赛,中国优势几何?
优必选的类人机器人 凤凰网科技讯 3月30日,华尔街日报发文,美国和中国是仅有的两个处于智能类人机器人前沿的国家。无论哪个国家能制造出真正有用的类人机器人,都将主导无数劳动密集型产业。 英伟达首席执行官黄仁勋在3月的一次会议上表示:“机器人的时代已经到来。大家都注意了,这很可能会成为最大的产业。” 新型类人机器人的制造商旨在通过将机器人工程与功能强大的计算机芯片以及人工智能算法相结合,实现一次革命性的飞跃。这有时被称为具身智能。 目前,类人机器人作为与人类并肩工作的伙伴,仍然显得笨拙且可能存在危险。然而,支持者认为,它们最终将彻底改变从制造业到采矿业、老年人护理以及战争等各个领域。它们拥有能正常运作的眼睛、耳朵、手和腿,将无缝融入为人类设计的环境中。 位于密歇根州安娜堡的行业组织美国机器人工业协会主席杰夫・伯恩斯坦表示:“你无需改造工厂、仓库或家庭来适应类人机器人,这就是未来的前景。” 中国政府表示,希望到2027年使中国在类人机器人领域成为世界领先者。具身人工智能被列为一项新的国家风险投资基金的重点投资方向,这鼓励了私营部门的投资者和公司纷纷涌入这一领域。 这看起来像是一个熟悉故事的开端。中国公司制造了世界上大部分的电动汽车、船舶和太阳能电池板,在这些领域,都是政府补贴和有利的监管政策推动了它们的发展。 伯恩斯坦说:“中国有更多的公司在研发类人机器人,并且政府支持力度也比其他任何国家都大。所以,目前他们可能具有优势。” 使机器行走和搬运物品的人工智能模型,比让聊天机器人撰写报告的模型要复杂得多。实体人工智能大多无法依赖从互联网上搜集的文本或视觉数据。类人机器人需要三维数据来理解物理学原理,而且其中大部分数据必须从头创建。 这正是中国具有明显优势的地方:中国拥有大量的工厂,类人机器人可以在这些工厂执行任务的同时,收集关于世界的数据。 中国机器人初创企业云深处的销售总监程宇航表示:“中国如今取得快速进展的原因是,我们将其与实际应用相结合,并在真实场景中快速迭代和改进。这是美国无法比拟的。” 优必选科技,这家正在训练类人机器人分拣和搬运汽车零部件的初创企业,与包括吉利在内的中国顶尖汽车制造商建立了合作关系。在浙江省的一家工厂里,这些机器人正在接受训练,以帮助吉利生产极氪品牌的豪华电动汽车。 该公司的人员表示,机器人通过实际操作能更快地学会工作。就像一个在法国待了一个学期后法语水平大幅提高的高中生一样,现实世界给机器人带来了在实验室里无法人为制造出来的问题,比如处理装有汽车零部件的集装箱重量不均的情况。 优必选科技的一位经理说:“一个问题在实验室里可能需要一个月才能解决,但在真实环境中可能只需几天。” 优必选科技的人员称,目前两个机器人一起将一个集装箱装载到卡车上大约需要12秒,而人类工人只需要3秒。预计这些机器人的速度会加快,而且它们可以昼夜不停地工作。豪华汽车制造商极氪表示,这些测试是在非生产区域进行的,类人机器人的开发目前还处于早期阶段。 几家美国类人机器人制造商也在工业环境中对机器人进行试验。其中,由亚马逊支持的初创企业Agility Robotics自2023年以来,一直在亚马逊的仓库中测试其类人机器人分拣和搬运包裹的能力。 2 月,总部位于加利福尼亚州桑尼维尔的初创企业Figure发布了视频,展示了两个机器人相互协作,识别物品并将它们放入冰箱的过程。 Figure公司的类人机器人在整理食品杂货。 美国银行分析师李明勋表示,凭借中国的制造业实力,在当地生产的机器人最终成本可能不到其他地方生产的机器人的一半。 李明勋表示,他的估计是基于中国的电动汽车行业,该行业迅速发展,目前约占全球电动汽车产量的70%。“我认为类人机器人将成为中国的另一个电动汽车产业。”他说。 据接近优必选科技的人士透露,该公司名为Walker S的机器人系统,包括软件在内,目前售价数十万美元。优必选科技计划今年向客户交付500至1000台Walker S机器人,其中包括富士康。该公司希望到2027年将交付量增加到10000台以上。中国以外很少有公司开始销售由人工智能驱动的类人机器人。 行业内部人士预计,随着机器人应对更复杂的环境,比如私人家庭环境,这种竞争将持续数十年。 吉利汽车创始人李书福表示:“在机器人真正能够取代人类之前,尤其是在实现手脑协调之前,我们仍需要经历一个非常漫长的过程。”(作者/陈俊熹) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
对话星纪魅族COO廖清红:全球化、AI与智能眼镜的突围战
凤凰网科技《凤凰V现场》出品 作者|刘毓坤 编辑|于雷 3月27日,星纪魅族在成都举办春季媒体沟通会,副总裁曾洋与首席运营官(COO)廖清红系统披露公司战略动向。在这场以“AI时代的科技变革”为核心的对话中,廖清红明确了星纪魅族的三大方向:全球化扩张、多终端生态构建、AI全场景落地,并透露了新品发布计划与市场野心。这家曾以手机业务闻名的企业,正试图通过智能眼镜、车机系统等新赛道,在巨头环伺的科技行业杀出重围。 全球化:三年内海外收入占比剑指70% 廖清红直言,全球化是星纪魅族“活得好”的核心路径。2024年,公司仅用3个月实现海外销售占比超20%,今年目标提升至50%,长期目标是海外收入占比达70%。为实现这一目标,星纪魅族采取“三步走”策略:产品先行探路,随后输出技术,最终实现生态出海。借助吉利集团的海外布局,公司计划优先开拓中东、东南亚市场,再进军欧洲。廖清红强调,全球化不仅是销售扩张,更需融入本地产业链,“避免成为单纯的贸易型公司”。 AIOS 2.0:多终端生态的“隐形引擎” 作为战略底座,Flyme AIOS 2.0将于4月发布会亮相。该系统通过统一调度豆包、文心一言、DeepSeek等大模型,结合场景化需求与用户习惯,实现“端-云协同”的智能决策。例如在车载场景中,AI不仅推荐餐厅,还能结合用户口味偏好优化结果。廖清红透露,AIOS作为首家接入阿里云全模态大模型Qwen2.5-Omni,未来将重点突破情感理解与多模态交互,打造“超自然的人机对话”。 智能眼镜:千亿赛道的头号玩家? “AR眼镜五小龙之一”的星纪魅族,将智能眼镜视为“仅次于手机的AI Device”。尽管巨头入局,廖清红认为行业仍处早期:当前产品重量(40克以上)与续航制约体验,但技术突破将加速市场爆发。他预测,未来三年该品类年增速达100%,但短期内难以撼动手机地位。星纪魅族凭借光波导技术积累,已在XR领域拿下41.5%市场份额,未来计划通过AIOS赋能,进一步巩固技术优势。 魅族手机:AI平权与“摔不坏”的硬核回归 在手机红海中,星纪魅族选择差异化突围。Note 16系列主打“AI平权”,将旗舰级AI能力下放至2000-3500元价位,瞄准“追求品质但预算有限”的年轻群体。廖清红直言,中国中端市场暂无霸主,“Note系列曾创下3000万台销量,这次要成为国民严选”。而魅族22旗舰系列则强调“形态创新”,打破屏幕尺寸局限,强化与车机互联的AI体验。廖清红用“摔不坏、跌不烂”定义新品,暗喻品牌历经挫折后的韧性。 车机生态:开放合作下的“隐形冠军” 星纪魅族在车机领域悄然登顶:Flyme Auto连续5个月装机量第一,适配22款车型,超过华为鸿蒙与小米澎湃。廖清红将成功归因于两大优势:基于Flyme OS十余年的系统功底,以及“低姿态”的开放合作模式。目前,Flyme Auto已与吉利深度绑定,但同时支持其他品牌手机互联。廖清红透露,公司正与美的等企业合作,加速“人车家”生态闭环。 以弱胜强的生存哲学 “中国企业的历史,就是以弱胜强的历史。”廖清红反复提及这一观点。面对华为、小米等巨头,星纪魅族选择在智能眼镜、车机等新赛道证明“战斗队伍”的成色。从AIOS的底层革新,到全球化与生态开放的组合拳,这家22岁的品牌试图用差异化的产品逻辑与战略定力,在AI时代找到自己的生存空间。正如廖清红所言:“我们做不到哪吒的霸气,但可以拥有同样的坚韧。”
消息称马斯克的大合并策划已久,8000亿估值自己说了算?
马斯克 凤凰网科技讯 北京时间3月30日,埃隆·马斯克(Elon Musk)合并旗下人工智能公司xAI和社交媒体公司X的交易引发关注。据《华尔街日报》报道,这笔交易策划了几个月时间,新估值是两家公司自己“谈判出来”的。 合并后的新公司是一家控股公司,名为xAI Holdings。一个新的xAI实体于周四在内华达州注册,马斯克被列为总裁。 知情人士称,两家公司的高管认为,让合并后的公司以xAI的名义融资要比他们分别融资更容易,他们为这一合并交易筹备了几个月时间。部分员工同时在这两家公司任职。 马斯克称,在这一合并交易中,xAI的估值为800亿美元,X的估值为330亿美元,合并后的总估值为1130亿美元(约合8208亿元人民币)。 然而,这些估值似乎是马斯克团队自己得出的。据知情人士透露,新估值是在马斯克旗下两家公司谈判过程中确定的,而且双方使用的是相同顾问。 知情人士表示,在合并交易宣布前的几个月里,xAI曾评估过投资者对新一轮融资的兴趣,该轮融资将使其估值达到750亿美元,高于上一轮融资时的大约500亿美元。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
东方雨虹2024年分红金额远超净利润 公司市值较最高点蒸发超千亿
3月24日,东方雨虹发布2024年年度权益分派实施公告,公司将以23.89亿股为基数,向股东派发现金红利22.1亿元,本次权益分派的股权登记日为:2025年3月31日,除权除息日为:2025年4月1日。 这并非公司最初的分配方案,此前公司曾计划大手笔派发现金红利44.19亿元(含税)。其中,实控人、董事长李卫国可获得约9.82亿元(税前)的分红。 由于公司去年净利润大降95.24%,在这种情况下,公司却大手笔分红,引发了一些投资者质疑。随后,公司修改了分红方案。 不过,在公司修改方案后,公司2024年合计分红金额依然达到该年净利润的33.94倍。 在二级市场方面,公司市值较最高点蒸发超千亿元,股价跌幅超七成。 分红金额远超去年净利润 根据公司在3月24日披露的2024年年度权益分派实施公告,公司年度股东大会审议通过的2024年年度利润分配方案为:拟以公司现有总股本24.36亿股扣除公司回购专户上已回购股份4761.57万股和公司尚未完成回购注销的股权激励限售股3.08万股后的总股本23.89亿股为基数,向全体股东每10股派发现金红利9.25元(含税),共计派发现金红利22.1亿元(含税)。此外,不送红股,不以资本公积金转增股本。 本次分派对象为:截止2025年3月31日下午深圳证券交易所收市后,在中国证券登记结算有限责任公司深圳分公司(以下简称“中国结算深圳分公司”)登记在册的公司全体股东。 本次权益分派的股权登记日为:2025年3月31日,除权除息日为:2025年4月1日。 值得关注的是,此前在2月27日披露的年报中,东方雨虹披露的利润分配方案为:以公司现有总股本24.36亿股扣除公司回购专户上已回购股份4761.57万股和公司尚未完成回购注销的股权激励限售股3.08万股后的总股本23.89亿股为基数,向全体股东每10股派发现金红利18.5元(含税),总计派发现金红利44.19亿元(含税)。 该方案发布后,引发了诸多投资者的质疑。 年报显示,2024年,东方雨虹营业收入280.56亿元,同比下降14.52%;归属于上市公司股东的净利润1.08亿元,同比下降95.24%;归属于上市公司股东的扣除非经常性损益的净利润1.24亿元,同比下降93.28%;基本每股收益0.0435元,同比减少95.22%。 据此计算,公司第一次分红金额是公司去年净利润的40.91倍。 3月10日,公司董事会接到控股股东李卫国提交的《关于提请增加2024年年度股东大会临时提案的函》,提议分红金额缩水至22.1亿元。调整原因是:结合公司发展阶段、经营情况和自身资金计划安排等实际情况。 最终该方案,获得股东大会通过。 雷达财经注意到,东方雨虹2024年半年度已派发的现金红利14.62亿元。据此计算,整个2024年,公司将分红36.71亿元,是该年净利润的33.94倍。 同花顺iFind资料显示,截至去年年末,公司实控人、董事长为李卫国持有上市公司21.79%的股份。据此计算,其2024年全年可获得分红8亿元(税前)。 净利润连续五个季度下滑,亏损集中在去年四季度 东方雨虹去年净利润下滑,并非没有征兆。 自2023年四季度以来,公司连续出现净利润下滑,但依然处于净利润为正状态。 整个2024年前三季度,公司归属于上市公司股东的净利润12.77亿元,同比下降45.73%。 然而到了第四季度,公司营业收入为63.6亿元,同比下降14.8%;归母净利润由去年同期亏损8017万元变为亏损11.69亿元,亏损进一步扩大;扣非归母净利润由去年同期亏损3.31亿元变为亏损9.75亿元,亏损额进一步扩大。 对于公司业绩不景气的原因,此前公司在业绩预告中表示,报告期,公司加大了应收风险管控力度,主动放弃了回款不佳的直销项目,导致直销业务收入同比下降,从而导致营业收入有所下降;其次,加大渠道转型力度导致短期内费用增加;同时,公司按照《企业会计准则》,基于谨慎性原则,对可能发生减值损失的应收账款等资产计提减值准备。综上,公司2024年度归属于上市公司股东的净利润同比下降。 董监高薪酬大多下降,副总裁王晓霞等却涨薪 业绩不佳的同时,公司董监高的薪酬去年也出现了下滑。 2024年年报显示,东方雨虹董事、监事和高级管理人员从公司获得的税前报酬总额1469万元,较2023年同期的1768.88万元,同比降约17%。 东方雨虹2024年董监高薪酬普遍下降,例如董事长李卫国,2024年薪酬46万元,相较于2023年少了39万;董事、总裁张志萍(离任)2024年薪酬168万元,同比减少92万元;董事向锦明2024年薪酬120万元,同比减少80万元;董事、副总裁张颖2024年薪酬120万元,同比减少80万元;董事、副总裁张洪涛2024年薪酬120万元,同比减少50万元;董事、总裁杨浩成2024年薪酬168万元,同比减少32万元。 值得关注的是,公司去年有三位高管逆势出现了涨薪。具体来看,公司监事会主席王静2024年薪酬为62万元,较2023年的50.88万元,增加11.12万元;副总裁王文萍2024年薪酬为168万元,较2023年的150万元,增加18万元。董事、副总裁王晓霞2024年薪酬为168万元,较2023年的120万元,增加48万元。 三位涨薪高管的履历为:王静,1986年出生,硕士学历,中国国籍,无永久境外居留权。2014年进入公司任证券部证券事务主管,2022年9月至今任公司监事会主席;王文萍,1973年出生,毕业于清华大学,硕士,中国国籍,无永久境外居留权。曾任职山东三角集团技术岗、党政管理岗、营销管理岗,公司分销部副经理、国际贸易部经理、市场部经理、总经理助理、市场总监、人力资源总监、信息化总监、砂粉科技集团董事长等,现任公司副总裁,兼任公司海外发展集团总裁;王晓霞,1976年出生,硕士学历,中国国籍,无永久境外居留权。2007年至2009年任北京市京开律师事务所律师。2009年3月进入公司工作,历任风险监管部部门经理、法务中心常务副主任、风险管控中心总监、工程建材集团总裁等,现任公司董事、副总裁。 市值较最高点蒸发1057.69亿元 天眼查显示,东方雨虹成立于1998年,东方雨虹成员,位于北京市,是一家以从事化学原料和化学制品制造业为主的企业。企业注册资本24.36亿元,超过了99%的北京市同行,并已于2021年完成了定向增发。 公司的主营业务是新型建筑防水材料的研发、生产、销售及防水工程施工业务。公司的主要产品是防水卷材、涂料、砂浆粉料、工程施工。 作为东方雨虹创始人、董事长的李卫国,于1965 年出生,毕业于湖南农学院,本科学历,中国国籍,无永久境外居留权。1989年进入长沙县职业中专任教;1992 年进入湖南省经济管理学院任教;1993 年至1995年在湖南省统计局工作;1995年创办长沙长虹建筑防水工程有限公司。1998 年至今任公司董事长,为公司主要创始人,现兼任北京高能时代环境技术股份有限公司董事长、 深圳凯尔汉湘实业有限公司执行董事、北京长阳京源科技有限公司执行董事、经理。 《2021年·胡润百富榜》显示,李卫国以340亿元财富位列第175位。 《2024年·胡润百富榜》显示,李卫国以130亿元财富位列第388位。 据此计算,三年时间,李卫国身家缩水210亿元。 李卫国的财富走势,与东方雨虹的股价走势息息相关。2021年6月1日,东方雨虹盘中达到股价最高点57.91元(前复权),截至3月28日收盘,公司最新股价为13.63元,总市值为325.6亿元。 据此计算,东方雨虹市值较最高点蒸发1057.69亿元,股价跌幅76.46%。
科技圈都在卷“AI Agents”,它究竟是什么?
AI现在是热门话题 凤凰网科技讯 北京时间3月30日,据《华尔街日报》报道,硅谷科技巨头目前都在热议“AI Agents”(AI代理或AI智能体),并将它视为下一个重大趋势。但问题是,科技公司目前对于AI Agents的定义并没有一个共识,这个热词容易引发困惑。 金融服务公司第一资本(Capital One)的首席科学家兼企业AI负责人普雷姆·纳塔拉詹(Prem Natarajan)表示:“当我听到一些关于‘代理’的讨论时,我有时会想,它是不是很像那个老掉牙的盲人摸象故事,每个人都在触摸象的不同部位,解释也不同。” AI代理通常被泛泛地理解为能够代表人类采取某些行动的系统,比如购买杂货或预订餐厅。但在某些情况下,“行动”的定义并不明确。例如,查询企业数据并基于这些数据给出答案,这算不算一项“行动”?在某些情况下可能算,在其他情况下可能不算。而且,并非所有软件行动都被视为具有“代理性”。 知名研究公司Gartner旗下技术服务提供商部门的高级总监分析师汤姆·科肖(Tom Coshow)表示,如果AI只是根据人类用户提供的具体细节采取行动,那么它不算代理。他指出,软件需要自行推理并基于情境知识做出决策,才算是真正的代理。 科肖表示,许多公司今天所称的AI代理实际上只是聊天机器人和AI助手。Gartner曾在今年早些时候举办过一场关于AI代理的网络研讨会,旨在解释这项技术并讨论应用场景。会后,Gartner对参会者进行了调查,询问他们是否曾部署过此类代理。结果显示,仅有6%的人回答“是”。 他认为,真正的AI代理系统背后要有一个大语言模型负责决定向客户提供什么样的内容,并且还能采取行动。例如,第一资本的礼宾聊天机器人能安排试驾。“简单定义就是,AI是否做出了决策,AI代理是否采取了行动?”科肖称。 AI21实验室联合创始人兼联席CEO奥里·戈申(Ori Goshen)表示,他不愿使用AI代理这个术语。“这个词到处都是,被滥用了。”他说。 “这个术语涵盖了许多不同的内容。”戈申称。对于如何帮助企业弄清楚AI代理,让他们知道钱花在了哪,并真正实现AI价值,他表示这“需要更精确地探讨”。 (作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
马斯克遭变性儿子狂喷:火星移民是噱头,特斯拉是“庞氏骗局”
薇薇安・威尔逊和马斯克 凤凰网科技讯 3月30日,印度斯坦时报报道,埃隆・马斯克的变性儿子薇薇安・威尔逊最近在与主播哈桑・皮克时长两小时的直播中,谈到了她童年时期父亲的行为、他的火星殖民计划,甚至还谈到了他的游戏水平。 当被问及马斯克的工作习惯时,威尔逊分享了她的经历。 她说:“我看到他工作的时候,大多数情况下他就是在车里对员工大喊大叫,而我们在一旁惊恐地看着,他简直是在声嘶力竭地叫嚷。”她称马斯克是一个“没有安全感的小丑”和自恋狂,还补充说有些人 “活该有冒名顶替者综合征(总觉得自己名不副实)”。 威尔逊声称特斯拉的运营模式就像庞氏骗局,她以该公司“过高的市盈率作为证据”。她说:“查一查市盈率,然后再把特斯拉的股票和其他汽车公司的股票对比一下。它根本不是一家汽车公司,而是一个庞氏骗局。” 她还认为马斯克雄心勃勃的火星殖民计划不过是一个营销噱头。她表示:“大家听着,这是不会实现的。这就是一个营销骗局,尽管随便在谷歌上一搜就能揭穿它,但不知怎么的,大家还是都上当了。” 威尔逊还谈到了马斯克的游戏水平。她说:“我可以爆料一件我觉得非常搞笑的事情。他总是试图让我和我弟弟跟他一起玩排位赛,而且我有百分之九十的把握,他这么做只是因为我们能带他赢。” 她毫不留情地批评了马斯克的游戏表现。威尔逊说:“他玩得太烂了,简直烂透了。” 她还称自己的父亲“很尴尬”。(作者/陈俊熹) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
AI Agent爆发前的黎明:Manus不够好,但天快亮了
今年3月初,一款名为“Manus”的通用AI agent产品发布之后爆火。到了3月底,Manus的母公司Butterfly Effec被爆正寻求新一轮融资,目标估值将超过5亿美元。 由于Manus处于内测阶段,仅以邀请码形式开放使用,一度让邀请码在二手平台上被炒到数万人民币,无数开发者、投资人和从业人员排着队等测评。 与此同时,业内对Manus的评价从最开始一边倒的追捧,开始有了越来越多质疑和批评的声音。 对Manus的争议一方面来自于这个团队并没有非常强的技术能力,大模型用的Antrhopic的Claude、之后与阿里通义千问合作,被质疑是“套壳”产品,没啥门槛。公司打出的营销话术“世界上第一个通用AI agent”明显不属实,国际开发者社区早就有这样的general AI agent产品,加上各种媒体和自媒体早期夸张的修饰用词,反而引发了不少人对Manus激进营销的反感。 但是在另一方面,一些投资人和从业者却看到了非常积极的一面,认为Manus在产品交互上确实做得可圈可点。他们指出这个年头做demo容易,做出一款好产品却很难,创业公司做推广的时候大胆一点没什么不好。 而更加让人振奋的是,Manus虽然不够好,但却让人看到了AI应用爆发前夕的黎明曙光。 这篇文章我们就来聊聊Manus引发的热捧与争议、AI agent的技术发展路线、目前面临的技术瓶颈、什么是一款好的AI agent产品,以及通用AI agent何时才能来临。 01 测评Manus Chapter 1.1 开发者测评Manus 硅谷101也拿到了几个邀请码,团队的小伙伴们都测试了一遍,但效果确实比期待中差了不少。 Jacob 硅谷101后期负责人: 我用Manus找一下稿件中的信息来源,我觉得对于GPT是更加聪明了一点,但是很简单多任务它花了半个小时才跑完。 陈茜 硅谷101联合创始人兼视频主理人: 我让它帮我整理分镜稿,感觉它的审美像实习生,而且做文章的分镜图时卡了21个小时,现在还卡着。 泓君 硅谷101联合创始人兼视频主理人: 让Manus整理微信文字稿时出现了幻觉问题。 王可倚 硅谷101特约研究员,《创客人生》主理人: 它最开始听懂了我的需求,但是执行中途就跑偏了。 我们也邀请了AI agent开发者Nathan Wang来系统性地评测下Manus。Nathan在过去两年有着丰富的AI agent及AI应用开发经验,他希望能量化地表示模型的能力,所以建立了一个测评的机制,并且这个系统也可以去测评其他应用或是模型。以下为Nathan评测的部分内容: 我主要有三个衡量指标:“准确度”、“可用度”、“完成度”,同时以“研究”、“教育”、“生活”、“数据分析”、“创意性工作”这五项任务归类。 我根据每个指标的表现从1到5打分,表现越好得分越高,表现越差得分越低,最后取三个维度的平均分。 先说它做得好的部分:研究方面为4分,教育方面为4.5分。这两块的能力是非常强的,正确性、完成度都很高。 但这两个领域的结果其实是符合我们预期的,因为ChatGPT、 Claude还有Gemini都是有深度研究的功能,它其实就是在互联网上帮你查找各种各样的信息,根据需求让大模型解释,或者做出一些行动。 Manus AI构架背后用的是其他模型,据传言说是Claude、DeepSeek-R1,Manus会利用这两个模型,根据用户需求生成一个任务列表,然后Manus可以通过编程、互联网搜索,像人一样查阅浏览器上的内容,来抓取信息。 总体来说,Manus更多是通过工具、函数、API来获得信息并总结,或者通过渲染的形式给用户表现出来,比如做成一个表格、执行一些程序等。 但除了研究和教育外,Manus在生活、数据分析、趣味性方面的得分却比较低,“生活”为3.5 分,“数据分析”为2.5分,“趣味性”2.5分。 在我们的测试中,Manus遇到的比较大的问题是,它将不同信源信息整合在一起的能力不是特别强;模型本身的逻辑能力、信息综合能力还不够,尚不足以在用户的实际体验中提供有效的帮助。 以上是Nathan评测的一部分节选,想看完整版的观众可以收看硅谷101视频或Nathan的微信视频号“硅谷AI领航”。 简单总结下Manus的能力:在简单一些的任务上,它给到了很丝滑的通用AI Agent的交互产品形态,虽然Nathan认为这个产品在硅谷开发者社区中很早就有公司有人在做了,但是对非开发者2C用户来说,当看到Manus页面上展示出它真的在加速看视频、读取文档、访问不同的网站搜索信息时,确实让用户第一次感受到了“AI agent”在虚拟世界充当机器人、帮用户完成一系列任务的潜力,还是非常惊艳的。 当然对于稍微有难度的任务它完成得不太好,甚至出现了卡壳几十个小时的现象,说明它还处于非常早期的产品阶段,之后还需要很多的迭代。 Chapter 1.2 2C产品的用户阈值与“叫醒铃” 也有嘉宾认为,我们应该对AI初代产品有所谓的“阈值”概念。在到达AGI之前,也许不会有准确度100%、完全准确不出错的通用AI agent。大家需要给AI agent一些时间和耐心,不同人群的需求,会从简单到复杂逐渐迭代地被实现。 周炜 创世伙伴资本(CCV)创始主管合伙人 前KPCB中国基金主管合伙人: 我认为Manus这个产品超过了用户的阈值。用户要把一个产品作为生产力工具,它必须要超过达到某个满意度以上才可以完整的使用。 ToB端其实有很多AI产品已经有很好的收入了,但是C端来说,大家以前没有感觉到有个产品改善了生活,我认为Manus做到了这点,它把用户体验做得很不错。虽然目前它的能力比较普通,最终也不可能面面俱到,但至少从目前来看,它的一些功能都做得很完善,未来还有继续提升空间。 我们看到一些争议,说它只是AI操纵大师,指挥另外两个AI底层模型来完成任务,这种讨论说明了一个问题,那就是目前AI从业者群体里面有一个很大的误区:在技术上自嗨。 我印象很深的是,乔布斯被踢出苹果又回去后,在一个公开大会上有1000多个工程师,其中一个工程师站起来挑战他说:你又不懂技术,凭什么指导我们、做这个公司的领导者?乔布斯的回答是:我知道如何满足用户需求、用户需要什么样的产品、并且我可以把它卖出去。 我觉得这就很好地回答了现在对Manus的质疑,在指责它仅仅是一个AI指挥大师的时候,为什么你不去做一个完美的用户界面来实现用户真正的需求?这才是现在AI从业者需要思考的问题,怎么让产品体验超越用户的阈值、能够变成生产力工具,如果做到了这一点,市场认可度就会很高。 Deepseek对全球来说一个Wake-up call(叫醒铃),它告诉大家:原来大模型还可以用这种路径来实现,而不是通过暴力堆叠的路径。而Manus我觉得也是一个叫醒铃,它告诉所有的AI从业者,不要痴迷于技术底层,你要做的是提供一个完整度高的产品,让大家都用起来,最终实现技术平权、技术普惠,如果连老爷爷、老奶奶都开始用它并且觉得好用,这才是目前ToC端产品的大成就。 Manus给了一个非常清晰的信号:大模型底座已经准备就绪了,足够做一个完成度高的产品。所以我觉得现在是非常好的发力时机。 TensorOpera AI联合创始人何朝阳认为,要做好AI agent产品,有四个纬度:“模型”、“工具”、“数据”、“基础设施”。产品或公司至少要在其中两项占绝对优势,才能保持领先。他认为,Manus占据了“工具”和“数据”这两个优势。 何朝阳 TensorOpera AI ChainOpera AI联合创始人: Manus占到了工具的优势,因为他把多个工具缝合到了一起,他可能也有一些独特方式,比如指挥多个agent相互合作。我觉得把各种工具缝合本身就是一个特点,它确实可能用的是其他的底层模型,但它可以收集用户发送的prompt(提示词),对比哪些提示词输出的结果更好,这样就可以帮助它迭代升级。 因为Manus有先发优势,可以早点拿到用户数据,可能会发现哪些agent更重要,然后更快速的迭代它,所以它其实已经在不断升级数据和工具的路上了,这刚好是应用创业者要去做的。 至于模型和基础设施,我觉得跟大厂合作就好了,就不要去四两拨千斤了。 “技术已经Ready了”,这是我们和很多AI从业者和投资人交流的时候,他们透露出的信号和见解。 02 AI Agent技术发展史 过去一段时间“agent”这个词稍微有点被“太泛化”了,门槛有点过低,所以我们先明确下AI Agent的定义。 技术人员通常将AI Agent定义为:具有“逻辑推理能力和决策能力”(Reasoning)、“记忆能力和上下文理解”(Memory)、“工具使用能力”(Tools)这三种能力,甚至更进一步说,还需要具备学习使用不同新工具的能力。 Keith Zhai Tiny Fish联合创始人: 我们自己定义的agent,它应该在某种意义上像人一样,可以使用各种网页工具,也同时还可以学习怎么使用不同的东西,但这点对Agent来说是非常难的挑战。 我们来看看过去几年,AI生态圈是怎么发展推理(Reasoning)、记忆(Memory)和工具(Tools)这三种主要能力的。 Chapter 2.1 推理能力 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: AI Agent需要有很强的逻辑能力,因为它最终帮用户执行任务的时候,需要理清楚这个任务该如何决策?用哪些工具?得到信息之后应该做哪些动作?所以推理(Reasoning)是最重要的能力之一。 2022年10月,就在ChatGPT上线的一个多月前,ReAct框架被普林斯顿和Google Brain合作的团队提出。 ReAct是一个将推理和行为与LLMs(大语言模型)相结合通用的范例,这让大模型不仅能回答问题,还能推理并采取行动。简单来说,就是让AI在回答问题的同时,能够执行一些动作,不只是“动动嘴皮子”。 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: ReAct所做的事情更加偏向于prompt engineering(提示词工程),他其实是通过设定一些不同的提示词,能让大语言模型按照一定的格式去输出。 比如说第一步是先理解用户想要的是什么,然后再思考下一步要去做什么,同时也告诉模型,有哪些工具可供选择。当模型有逻辑能力之后,它会选择一种工具,比如用户要订机票,那就要去搜索机票相关的信息,然后agent就会通过调用某个工具或API,也可以是模型自己写的功能,来完成这一系列的动作。得到这些信息后,agent还要思考,下一步是要帮用户定这个机票,还是告诉用户这个信息,再让用户来决定。所以所有AI Agent的构架其实都是从这篇论文开始的。 但当时的最先进模型GPT-3.5的能力相对有限,使得AI Agent的逻辑推理能力并不出彩,错误率很高。 而后来发布的GPT-4在理解能力、推理能力、回答质量都大幅提升。同时2023年3月23日,ChatGPT插件功能Plugin发布,允许大语言模型调用外部工具并开发APT,支持开发者将LLM与数据库、工具和互联网连接。这些都让AI agent的开发者们兴奋不已。 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 刚开始ChatGPT只能做一些对话、生成文本,但后来它就可以搜索互联网上的内容了,还可以让它接入不同的数据库去提取信息,或者使用一些工具。 那时开发者社区沸腾了,因为整个模型有了推理能力,也可以接入各式各样的工具来完成一系列复杂的操作。当时有个公司比较有意思,叫做Zapier,这个公司是2011年成立的,但它们主要做一些自动化工具。但大语言模型发布后,他们就第一时间去帮大语言模型去做这系列工具,很多早期的开发者应该都用过Zapier,比如它可以让大语言模型接入谷歌邮箱,或许其他的应用,让大语言模型可以完成更复杂的工作。 所以在2023年初,AI Agent技术三大要素的第一步已经搭建好了,逻辑推理能力提到了显著提升,也可以接各种外部API、调用外部工具来完成任务。 接下来,开发者生态进入到了技术发展的第二章:记忆能力与上下文理解。 Chapter 2.2 记忆能力 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 刚开始GPT大概只有4096个token,其实是非常少的,大概只能输入3000多个英文单词,那时大家非常苦恼没有办法输入更多信息让模型去执行地更好。 但到5月份的时候,OpenAI最大的竞争对手Anthropic,发布Claude模型。这个模型一开始得到开发者的关注,主要原因就在于,跟ChatGPT相比,Anthropic可接受的token大概提升了100多倍,意味着它可以获得更多的信息去思考和决策。所以Anthropic的发布也是技术史上非常关键的一笔。 2023年5月11日,Anthropic推出的Claude模型可以支持10万token的上下文窗口,使得LLM能够处理更大规模的信息,并增强基于大量信息的推理和决策能力。 不久之后的2023年6月13日,OpenAI也在这一方向做出了技术迭代,发布函数调用(Function Calling),引入JSON模式和1.6万token的上下文窗口。这让AI可以更可靠地调用外部API,比如说查天气、自动填表等等任务。 紧接着在2023年11月21日,Anthropic的Claude 2.1版本又进一步,把上下文窗口扩展到20万个token,相当于AI一次性可以记住一整本教科书的内容,思考能力大大提升。也意味着能进一步扩大大模型的记忆能力,优化推理和决策过程。 再之后在2024年2月,谷歌发布Gemini 1.5的时候,将上下文窗口的token数扩展到了百万级别,至此,“记忆”这个AI Agent发展必备中的第二个技术壁垒也完全被打破,对于开发者们来说不再是大问题。 Chapter 2.3 工具使用 2023年底,前两个技术壁垒的突破,让大语言模型能充当虚拟世界的机器人这件事情变得更加可行,这时一些初创公司开始在硅谷生态圈活跃了起来。 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 我知道的第一个让大语言模型去控制用户电脑的AI Agent应用公司是Simular,它应该是2023年12月底的时候发布了第一版Demo。大家看到AI agent的功能已经变得越来的强大了,从开始使用各种工具、接各种数据库、调用不同的应用,已经发展成可以操控电脑了。这一点让我觉得AI Agent的技术路线有了极大的飞跃。 2024年10月底,Claude发布了“computer use”功能,让AI Agent直接控制计算机的能力更进了一步,AI变得更像真正的、可以行动起来的智能助手。 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 你可以看到开发者社区或初创公司其实走的比大厂要早很多。 AI圈备受关注的Andrew Ng(吴恩达)教授在2024年底关于AI Agent的演讲,彻底燃起了技术圈和非技术圈人们对于AI Agent的期待和热情,“2025年将成为AI Agent应用元年”的预测开始出现在各大媒体头版上。 虽然各种各样的AI Agent应用demo在全球开发者社群中早就屡见不鲜了,但在Manus出现之前,大部分AI Agent创业公司主要聚焦于企业级(ToB)应用,而非直接面向消费者(ToC)。所以难点在哪里呢? Keith Zhai Tiny Fish联合创始人: 其实自从有互联网开始,网络上所有工具的设计方式,主要目标都是为了让人类使用,在这样的逻辑下,机器想完成准确、大面积的交互是很难的,这是在大语言模型出现前人类无法解决的问题。 在AI Agent之前行业没有形成范式共识,所以现在距离AI Agent实现通用化还差一步,那就是整个产业的支持。 Chapter 2.4 一步之遥 我们前面提到的逻辑推理、上下文记忆、工具调用这些能力,在何朝阳看来,都属于“single agent”(单独智能体)的技术发展。 但要让AI Agent真正发展起来,做到主流化、规模化,那还需要实现multi-agent(多个智能体)之间的通信和互联,不同的Agent需要在不同设备、不同机房之间去做计算和联动,才能推动上亿级别用户机会的应用。这其中的难点在于通用的、标准化的协议适配范式。 何朝阳 TensorOpera AI ChainOpera AI联合创始人: 用大模型来驱动逻辑推理、上下文记忆、工具调用这些能力,所产生的AI agent,被大家定义为单独智能体,这是第一个发展阶段。 第二阶段的标志,就在于agent之间能实现互相通信。 第三阶段是让agent在不同的设备、不同的机房之间计算、联动,我觉得它是未来支持亿级别用户必须要有的架构,这是一个单点是无法做到的。 目前,我们仍然处于第三阶段的竞争和尝试中,这个阶段要解决的问题是,很多网站或者工具不支持AI agent的调用。 比如说很多网站和服务都会有“反机器人/anti-bot”的设置,我们也看到Manus执行任务时也经常因为访问不了一些数据而导致任务失败,所以在这个阶段中,我们需要打造一个通用协议来解决这个问题,才能支持不同AI agent之间的联动。 包括Anthropic等在内的很多公司正在做协议适配上的尝试。2024年11月初,Anthropic推出“模型上下文协议”(Model Context Protocol,简称MCP),引进了“应用如何为LLM提供上下文”的规范。 Anthropic将MCP协议称为“AI应用的USB-C端口”,支持将大模型直接连接到数据源。此前,企业和开发者要把不同的数据接入AI系统,都得单独开发对接方案,而MCP做的,就是提供一个 “通用” 协议来解决这个问题。 然而,MCP解决了第三代技术的问题,还有最后一代问题,是目前AI Agent应用大规模爆发的壁垒,那就是:真正统一的Agent-Agent之间Protocol通信标准与分布式计算,就像如今的安卓与iOS一样,我们也需要一个全球承认且通用的AI OS。 何朝阳 TensorOpera AI ChainOpera AI联合创始人: 举个例子,现在有两个独立的agent,如果要让这两个agent之间互相协作,就需要造第三个agent,这个agent来负责和前两个agent之间互相通信。 但agent之间的交互没有标准,可能一个协议是A,另一个协议是B,所以第三个agent就要把各自的协议给改一下,让两者之间能互相通信。 就好比10年、20 年前,有两种电脑,一个是IBM造的,另一个是Intel造的,它们之间底层的链路没有打通,就会导致软两个软件之间没有办法沟通,那时还没有TCP/IP的时候就比较麻烦。但到移动互联网的时候,比如说基站的通讯标准TTL、 TEL等等,如果所有设备软件都符合这个标准,大家是可以互相交流的。 图片来源:pexels 所以今天单独智能体内部调用工具的问题,MCP已经一定程度地解决了,但两个agent之间如何通信,是更高维的通信协议。我对未来AI的想象就是,有一个非常复杂的分布式网络,有大量的服务,用户的诉求分发到整个网络里面,然后得到一个反馈。 我已经看到安卓的创始人(之一)出来亲自做AI OS 这件事情,我觉得安卓一定要被重构,可能这个系统你打开之后就是一个框,你可以问的一切问题,所有的信息或动作都会呈现在这个框的里。这个是我认为协议的核心。 2024年11月底,一个由安卓系统前高管们创业的公司,/dev/agents吸引了外界和媒体的注意,他们宣布获得了5600万美元的种子轮资金,联合创始人兼首席执行官David Singleton表示:“我们需要一个类似于安卓系统的人工智能时刻”。 他们想要打造的就和何朝阳的公司一样,希望开发一个通用操作系统,为AI Agent提供一个统一的平台。如果做到了,最后一个AI Agent的技术壁垒也就打通了,AI Agent就达到了第四阶段。 何朝阳 TensorOpera AI ChainOpera AI联合创始人: 我们想做一个真正的distributed multi-agent framework(分布式多代理框架),并且是hybrid as cloud(混合云)的架构,这样的话就需要agent之间的通信,并且不是一个单系统,它是公司之间的协作。 目前Router这种技术(如何确定分发意图、打通不同的agent的协议),我们现在是一个一个地去找合作伙伴适配,我们正慢慢地尝试去推广这种通用的协议。 但根据10年前的教训,这件事最终应该是几个大厂、或者然后国家队联合起来一起推广,有点像通信领域的 5G、6G标准。 总结一下何朝阳从整个AI Agent生态角度来看待的四代技术: 第一阶段是planner规划(也就是逻辑推理)、记忆memory、工具tools,让单个智能体在技术上的成熟。 第二阶段是通过planner的发展,在单机上实现多个智能体之间的通信。 第三极端是AI Agent在不同设备和机房之间能联动,这将推动上亿级别的用户承载量。 第四阶段是Agent-Agent之间的通信标准与分布式计算,也就是一个全新的AI OS。这也是我们现在正在突破的阶段。 何朝阳与很多AI从业者们都说,在黑夜中探索了这么久,现在天快亮了。 何朝阳 TensorOpera AI ChainOpera AI联合创始人: 如果是一个产品经理的视角,我觉得现在的阶段应该说是天亮了。 如今,随着AI Agent基建的进一步完善,包括底座大模型在内的各项技术进一步提升,以及科技巨头、初创企业、开发者生态中对协议和标准的进一步探索以及统一,我们似乎能感受到,AI Agent的爆发只有一步之遥。 Manus和类似的通用AI Agent公司只是给我们打了个样,之后的路还有很漫长。但这一步的距离其实还有挺多没有解决的问题。 Nathan Wang 硅谷101特邀研究员 AI Agent开发者: 推理、记忆、工具调用这三个能力,只能让开发者做一个成熟的demo出来,但是如果想变成一个真正可用的产品,其实还需要解决两个技术瓶颈。 一个是可靠性,比如说至少有90~95%以上的情况能给用户正确且相关的信息。 二个是这个鲁棒性,怎么样让大模型或AI agent 能够具有鲁棒性,在各种边缘情况下都能够满足用户需求,是非常有挑战性的。 Keith Zhai Tiny Fish联合创始人: 对企业来说有很多问题需要考虑,比如第一步出错的概率是1%,第二步是2%,第三步可能是1%,但最糟糕的情况是,它会有一个叠加的错误效果,等它完成到第十步的时候,错误率就非常高了,很多企业办公流程达到了十几二十步,最后可能错误率会非常高。 Keith表示他们公司Tiny Fish扒了一下网上的数据,全美国有1.5万家接受了融资的初创企业在做AI agent方向的创业,这显示出AI agent这个大赛道的生态火热。 03 硅谷AI Agent公司版图 接下来由硅谷101的特约评论员王可倚来归类下,AI Agent公司的版图和大家在尝试的方向。 目前的AI Agent产品主要分为以下三类: 1. 以Manus为代表、直面用户的通用型agent; 2. Agent基础设施与框架层,也就是帮助搭建agent应用的地基和工具; 3. 面向特定行业的垂直化agent,比如编程、客服、销售、科研、商业分析与调研、甚至供应链管理等领域。 通用型agent前面已经讨论很多了,接下来重点讲讲后面两类。 Chapter 3.1 Agent基础设施与框架层 说到架构,不少开发者小伙伴一定会首先想到LangChain。这个诞生几个月内就获得了超5.5万GitHub星标、和3千万美元融资的开源工具,迄今是agent开发者用来让大语言模型调用外部工具与数据库、拥有长程记忆、及完成多步骤工作流的首选工具包之一。 还有一些其他热门工具,比如Pinecone这类帮助agent高效检索外部知识的向量数据库,或让agent能更好处理私域数据的LlamaIndex等等,虽然并非仅针对agent,但也都是目前agent应用开发必不可少的“左膀右臂”。 同时各大云服务商也都争先恐后地推出了agent工具包,例如微软的Semantic Kernel、AWS的Bedrock Agents等,用来组合多种AI技能,主打对agent开发者体贴入微。 就像前面提到的,随着AI Agent基建和框架层的进一步探索和完善,这一块也是这两年VC风投资本们非常热门的投资方向,使得开发者们能用的工具和支持生态越来越成熟。 我们在过去几个月看到不同行业和场景中,不少创业公司们的Agent应用尝试。接下来我们聊聊具体的垂直赛道的明星公司们。 Chapter 3.2 AI编程Agent 如今,AI agent应用被认为最早落地的是编程类的agent:它们不仅能自动补全代码,还能协助程序员们编写、调试,甚至自主部署软件。 GitHub Copilot在2025年2月推出的agent模式,想必码农小伙伴们都很熟悉。由初创公司推出的编程agent不仅多到让人眼花,还可以称得上AI届“造星工厂”。 号称首位“AI软件工程师”的Devin,背后是“生下来就在罗马”的新贵初创公司Cognition AI,成立不到半年,估值就跃升到20亿美金。Devin宣称能替代初级码农独立阅读技术文档、编写。 Devin的野心很宏大,每月高达500美金的订阅费也很美丽,但我身边的程序员朋友却吐槽: Devin写代码一般般,做调研倒还不错。所以现实情况是,定位于企业级用户的Devin在庞大冗杂的代码库、欠缺的技术文档和模糊不清的背景信息(context)这三座大山前,有点力不从心。 Cursor是另一个风头正劲的AI编程助手,诞生于四位MIT本科生于2022年创立的公司Anysphere。Cursor由于好用、速度快,对用户代码库理解能力出色,且成本远低于Devin,迅速成为了很多码农的首选,包括OpenAI、Shopify、Instacart的团队都有使用。 据业内消息,不到三岁的Anysphere已实现1.5亿美金年化收入,且正在洽谈估值可能高达百亿美金的新一轮融资。 其他还有很多编程类agent,比如拥有2000万开发者用户的Replit,旗下的AI Agent可以根据自然语言指令生成完整的网页端应用。还有正在以近30亿美金估值融资的Codeium,旗下的Windsurf已拿下包括戴尔在内的超一千家企业级用户;以及字节跳动针对中文开发者推出的编程助手Trae等等。 看来AI编程领域的agent赛马越来越精彩,不知各位码农朋友是欣喜还是担忧呢? Chapter 3.3 客服与销售Agent 客服与销售是两个劳动密集型岗位,但如今AI agent在这两个领域中凸显了效率优势,受到大量企业采纳的领域。 客服助理中表现突出的是Decagon。这家炙手可热的AI初创公司已融资超1亿美元,客户包括大家熟悉的Duolingo、Notion和Eventbrite等。 Decagon的AI客服能自动处理高达70%的客服工单,为企业节省每年数百万美元的人力开支。企业客户之一Bilt曾说:使用Decagon就像一夜之间多招聘了65名全职客服人员。 与此同时,销售领域则有快速崛起的AI独角兽Clay,它利用AI agent自动抓取和扩充目标客户数据,批量与潜在客户进行量身定制地互动,并帮销售人员处理大量工作中的脏活,从而成倍放大销售团队的生产力,目前已积累了十万名用户。 Chapter 3.4 其他新兴应用场景 除了上面说到的几个领域之外,AI agent还在以下许多领域扩大影响。 1. 商业调研:作为商业数据分析领域的头部AI agent,Hebbia服务于全球资管规模前50名基金中的近1/3,以及多家大型律所、咨询公司、甚至美国空军。 2. 科研:学术界明星科研助手Elicit擅长自动生成论文部分内容并处理海量数据,目前全球已有超过200万科研人员使用;它极大提升了机器学习、制药与生物科技等领域的研究效率。 3. 供应链优化:被誉为美国最神秘的大数据公司Palantir近期在其人工智能平台(AIP)推出了agent功能,用于自动化管理物流与库存,已在60余家大型企业投入使用。 4. 医疗健康:美国最大的医疗信息公司Epic利用AI agent,将大量繁琐重复的行政工作自动化,比如患者预约与分流、基本沟通、手续查验与项目批准等,有效减轻了医护人员的负担。 Chapter 3.5 AI Agent应用小结 随着AI agent技术的发展,为什么一些应用场景会更快地落地应用呢?我们发现目前取得成功的agent大多具备以下几个特征: 1. 任务定义明确且高度重复,比如客服、销售等场景,AI能显著提效且风险相对较低。 2. 工作流模块化且相对独立,比如经过良好切割的软件开发任务,agent可以不需要大量背景知识,在封闭、可控环境中运行。 3. 注重信息检索、分析与推理,大量自然语言交互,且不需借助复杂外部工具的场景。比如各种形式的调研,利于AI扬长避短。 4. 聚焦于协助而非完全取代人类,让企业能够逐步、稳妥地将AI整合到现有工作流中。 总得来说,业界普遍认为大模型和agentic AI的底层技术,已发展到了足以支撑大量2B领域商业化的阶段,而2C领域MVP(最小可行产品)的雏形也已经显现。 当然,想让AI agent承担更复杂的角色,在长期记忆、多模态、API整合、以及多agent协作等方面,还有很长的路要走。此外,企业也要做好内部流程、数据和文档标准化的工作,才能让AI agent更有用武之地,这或许会像10年前的企业上云,并非朝夕之功。 04 AI Agent的未来 在Manus引发的热潮和争议不久,OpenAI发布了新的Agent功能,推出专用于简化agent开发的API和工具,包括Responses API、内置工具和Agent SDK,帮助开发人员和企业构建有用且可靠的AI Agent。 所以Manus可能只是一道前菜,而精彩的部分才刚刚开始,Agentic这个词也注定会成为2025年AI赛道的关键词。 周炜 创世伙伴资本(CCV)创始主管合伙人 前KPCB中国基金主管合伙人: ToB端其实去年就有一些产品收入很高了,ToC端的话,我认为今年会是AI应用的元年。 我觉得一个通用的 AI agent想覆盖所有的应用场景是不可能的,所有在AGI达到之前,日常生活中应该需要多种AI agent互相配合,比如有买机票的agent,买保险的agent,买房的agent等等。 其实不用把agent想得太神秘,它就是相当于日常生活中,某个垂直领域的顾问或者是从业人员在帮你做这个事儿。所有在AI agent它应该也有很多个,针对不同的方向帮你解决不同的问题。 当然,我相信未来所有的agent会是大一统的状态,但道路还很漫长,所以我觉得没必要观点太终极。我觉得现在创业公司得先专注在垂直领域把它做到非常精细。 Perplexity这个产品就给了大家一个非常明确的方向,你看它从一开始就是专心在“研究”这一块做得非常的专业,我觉得就走这条路,足够成就一家很好的公司。 当然,一个新技术和新范式的产生少不了失败,这个失败在于对创业路径的失败,也在于对时机判断的失败,还有对于烧钱速度的失败等等。 在AI Agent这条道路上,我们已经看到一个初创明星公司的倒下:这就是Adept。 Adept总融资额增至4.15亿美金、公司B轮估值超过10亿美金晋升独角兽之后,却因为技术研发受阻而自己又研发基础模型所以烧钱太狠,不得不最终在2024年年中“卖身”给亚马逊。当时,这给所有想要从事AI Agent赛道的初创公司都枪响了警钟。 如果Adept能撑过黑夜、撑到如今的黎明时刻,说不定能比Manus拿出更好的产品、公司的结局会不会不一样呢? 无论如何,如今天快亮了,但新的一天才刚刚开始。长路慢慢,还早着呢。
华为 Pura X 一周感受:这是最佳的折叠屏形态吗?
阔型屏 看得舒服吗 不知道你有没有发现,我们在看屏幕的时候,视野越开阔,观感就越舒服。这是因为,人眼的水平视野是垂直视野的 1.5 倍,宽阔的画面看起来才不会累。 所以当我第一次见到华为 Pura X,打开这块 16:10 比例的阔型屏时,我觉得一切都不一样了。 余承东在发布会上说,这部手机专为内容而生。那么问题来了,这么阔的屏幕,看起来会更舒服吗? 我们也整理了一些使用体验之后的细节: 显示面积比直板机更大、体积和小折叠相似、握持手感比大折叠更佳,这是「阔折叠」形态的独特优势。 在大部分场景中,宽比例比长比例的显示效果要更好,主要体现在文字、图片和常规比例的视频中。 阅读文字时,宽屏幕能让每一行显示更多文字,阅读起来更加连贯;显示图片或漫画时,宽屏幕使内容缩放比例更大;播放竖屏短视频时,由于应用适配,画面能够填满屏幕观感更震撼。 比常规手机更宽的屏幕对习惯使用全键盘输入的用户十分有利,不仅双手握持体验更好,还因为字符键位变大而更便于点触操作。 然而,Pura X 的缺点主要体现在外屏上。虽然大部分基础体验都可以正常使用,包括接打电话、自拍、扫码支付、控制音乐等,但由于不同软件的界面设计有别,小屏内容显得十分拥挤,想要更好的显示效果还是建议使用内屏。 外屏仅有部分应用适配,日常绝大部分时间还是需要展开使用。 总的来说,Pura X 作为首款正式版原生鸿蒙设备,它以这样的形态出现,我还是蛮惊喜的。它有非常小巧的体积,同时又有一块看得舒服的阔型屏,如果你是忠实的内容消费者,想要好的阅读体验又不想多一部设备,那么 Pura X 可能就很适合你。 好多品牌都停掉了小折叠的计划,但华为在这个不被看好的赛道里做出了新东西。在这个产品千篇一律的时代,我们永远会为多样性设计保留掌声。
马斯克xAI蛇吞𝕏:资本有了,数据有了,商业模式也有了
xAI以全股票交易的方式收购了X(推特),此次交易中xAI的估值为800亿美元,对X的估值为330亿美元(450亿美元资产减去120亿美元债务)。 马斯克自己在X上发帖宣布这一消息。 按他的说法,xAI自两年前成立以来,以前所未有的速度和规模构建模型和数据中心,迅速成为全球领先的AI实验室之一。 X则是一个数字城镇广场,超过6亿活跃用户在这里寻找实时事实来源, 两者合二为一后,数据、模型、算力和分销、人才都将整合。 实际上xAI的Grok大模型已经深入整合到X平台中。 就在这个帖子的评论区里,许多网友吃瓜的姿势都是让Grok来解释一下。 而Grok除了回复用户的提问,还可以给出进一步询问按钮和一张自己的广告海报。 也有人担心这是否意味着xAI将获得用户社交媒体数据用于训练。 AI并没有回答这个棘手的问题,人类在这个话题下讨论激烈。 有人翻出,用户协议里面确实有允许xAI使用𝕏公开数据做AI训练和微调的条款,并且默认是开启的。 社交媒体与AI结盟 马斯克在2022年以440亿美元收购Twitter,后来改名为𝕏。 xAI和两家公司此前已在旧金山湾区共享办公室,此外截止到1月份,X还持有xAI价值60亿美元的股份。 两家公司有许多共同投资者,包括Andreessen Horowitz和红杉资本等,交易后X投资者将获得对应的xAI股权。 彭博社消息称,合并后的新实体XAI Holdings估值将超过1000亿美元(不包括债务),但具体条款尚未公开。 这也意味着xAI现在是估值仅次于OpenAI的大模型公司,拥有了X成熟的社交媒体业务和商业模式,具备IPO的成熟条件,比OpenAI依靠私募融资,有了更强的资本撬动能力。 彭博社分析师Mandeep Singh认为,这项收购可能会为涉及其他社交媒体公司的交易奠定框架。 这笔交易可能表明,OpenAI、Anthropic、Perplexity和Mistral等AI公司将寻求交易来扩大其消费者覆盖范围和分销范围。 鉴于xAI的溢价估值为800亿美元,高于Snap、Pinterest和Reddit的总市值,较小的社交媒体公司将积极寻求与大模型提供商结盟。 这并不是马斯克第一次合并他旗下两个公司。 早在2016年,特斯拉以26亿美元收购了家用光伏发电公司SolarCity,这家公司由马斯克的表兄弟Lyndon Rive与Peter Rive创办,马斯克个人出资并担任董事会主席。 当时特斯拉股东提起诉讼,认为这笔交易相当于是用特斯拉股东的钱对SolarCity的救助,并且马斯克个人因此获利。法院判决允许这笔交易继续进行, 大模型公司估值暴涨,OpenAI转型盈利迫在眉睫 大模型公司正在经历最新一轮估值飞涨。 在去年的一轮融资中xAI估值约为500亿美元。到了今年2月,xAI已经以750亿美元的估值筹集新一轮资金。合并后估值千亿美元,几个月内完成翻倍。 与此同时,Anthropic在3月完成的一轮融资中估值为615亿美元。一年多前,该公司估值还是160亿美元,1年多上涨384%。 当然动作最大的还是OpenAI,即将完成一笔软银领导的400亿美元的融资,估值达到3000亿美元,是5个月前估值的两倍。 但有消息称,OpenAI必须在2025年底前成功重组为一家独立的盈利性公司才能获得全额资金。 完成重组需要获得最大股东微软的批准,以及面临马斯克可能的诉讼。 如果重组未完成,融资金额直接缩水一半变成200亿。 仅获得400亿美元中的一半将会使OpenAI本已紧张的财务状况更加紧张。 其2025年预估亏损约50亿美元,并预计2026年财年亏损可能扩大到140亿美元。此外OpenAI还承诺向星际之门计划投资180亿美元。 最近新版GPT-4o万物吉卜力化的风潮还在雪上加霜。 马斯克两家公司合并也被迅速做成表情包。 奥特曼宣布由于玩的人太多,已经添加了速率限制。ChatGPT免费用户目前还玩不到,以后每天也只能玩3次。 此外Sora负责人表示,大家又把ChatGPT画好的吉卜力图拿去生成视频,Sora这边的GPU也撑不住了。 你认为到年底,OpenAI能成功转型盈利模式么?
苹果AI 医生曝光:Apple Watch 问诊,iPhone 摄像头当私教
彭博社最新爆料,苹果正在大改旗下的健康 App,并且正在开发一个「AI 医生」。 这个计划代号 Project Mulberry,主要的想法如下:健康 App 将继续从用户的各种设备,包括 iPhone、Apple Watch、耳机中收集健康数据,然后 AI 医生将分析这些信息提供有关改善健康方法的定制建议。 目前苹果正在使用员工的医生数据来训练这个 AI 智能体,希望能够部分代替实际的医生。 苹果还在积极引入外部医生来制作一些视频,将包括睡眠、营养、物理治疗、心理健康和心脏病方面的专家。这些内容会用于向用户解释某些身体情况,以及给出改善生活方式的建议。 例如,当健康 App 收集到一些反映心率不良趋势的数据,那么就可能会向用户推送一些解释心脏病风险的视频。 除此之外,彭博社还爆料了健康+ 的一些其他功能和细节: - 全新的「食物跟踪」功能,也将是该服务的重要组成部分。目前为止,苹果都尽量避免涉足这个方面,当前的健康应用只能记录碳水、咖啡因摄入等比较初步的数据。 - 苹果还在探索利用设备摄像头来实现更多健康功能,比如 iPhone 的后置摄像头。这个想法是让 AI 医生研究用户的锻炼情况,然后提供相应的动作和技术指导。这个功能可能会应用于 Fitness+ 等其他苹果服务。 - 健康+ 和 AI 医生是苹果健康团队的首要任务,公司的首席运营官 Jeff Williams 也积极参与其中。 苹果 CEO 蒂姆·库克曾在多个场合表示,当下苹果对社会最大的贡献是医疗健康。而目前苹果在 Apple Watch 健康传感器探索上遭遇了瓶颈:无创血糖监测仪和高血压传感器的开发碰壁,血氧传感器陷入专利问题。Project Mulberry 则是苹果在健康领域快速寻求进一步突破的新项目。 你对苹果 AI 医生的想法有什么看法?欢迎在评论区留言告诉爱范儿!
专访苹果副总裁 Bob Borchers:AI 时代,苹果如何设计 Mac?
Keep Patching 爱范儿:3 年前,我们曾有过一次访谈,没想到这次能在爱范儿与您线下相见。今天能迎来 Mac 背后的人物,实在是令人欣喜。您今天感受如何? Bob Borchers:非常感谢!来到广州这座充满活力的城市让我倍感荣幸。这是一座非凡的城市,一个非凡的地方。说实话,我很荣幸能见到这些对我们的产品进行深度解析和精彩评测的创作者,我感到非常兴奋。 爱范儿:非常感谢。说来有趣,我第一次到访库比蒂诺苹果总部时也同样兴奋,当时我在 infinite loop 看到一架钢琴,据说是乔布斯送给 Mac 团队的礼物。能讲讲那台钢琴的故事吗? Bob Borchers:我很高兴那架钢琴至今仍在苹果公司。这是 1984 年乔布斯为感谢 Mac 团队的辛勤付出和卓越创造力而赠予的礼物。它之所以特别,是因为至今它仍然提醒我们,苹果所做的工作,正是人文学科、创造力与科学技术的交汇点。这架钢琴真正代表了我们的传统,也指引着我们未来的方向。 爱范儿:Mac 团队真的很特别,你们用自己创造的电脑,转而去设计更多新产品。所以,Mac 的团队日常是怎么工作的?你们最常用的软件是什么? Bob Borchers:Mac 团队和其他苹果团队一样,采用高度协作的跨学科工作模式。每天都有不同团队聚在一起,去探讨设计,去探讨技术,去思考如何突破创新边界。我们始终专注在核心价值,通过优雅设计和细节把控,为用户提供强大工具释放创造力。 爱范儿:Apple 几乎所有产品线都有蓝色,iPhone、iPad、iMac,苹果为什么如此偏爱蓝色?但蓝色又各不相同?设计团队选择颜色的核心考量是什么? Bob Borchers:我们为每款产品量身定制颜色。比如 MacBook Air 的天蓝色版本的妙处在于,它与工业设计产生了美妙的协同效果。当你观察它时,呈现出迷人的渐变效果。 所以,我们选择颜色的标准是:既要彰显产品故事,突出设计语言,又要给用户多元选择。在 MacBook Air 上,你可以选择四种绝佳颜色。这正是我们的目标:提供这些美好的选择,但都服务于整体设计美学。 爱范儿:相比 Intel 时代的 Mac,搭载 Apple Silicon 的 Mac 产品线在设计上,更加追求轻薄和低噪音,而不是一味去追求更高的频率,这是为什么? Bob Borchers:实际上,我们的目标不是制造最薄或最轻的产品,而是打造用户手中性能最强的工具,让他们能完成人生最重要的创作。 Apple Silicon 的突破在于以最优能效提供巅峰性能,这让我们实现了惊人的可能性。能将强大算力浓缩于精巧机身。正是这种功能与设计的结合,不断拓展着创新的边界。 例如得益于 Apple Silicon 的能效,MacBook Air 才能实现优雅的无风扇的超薄设计。再看 Mac Studio,这是我们迄今打造的性能最强悍的 Mac 设备,却拥有令人愉悦的紧凑机身。 我们的终极目标是创造性能与能效兼具的产品,让用户能专注完成毕生最好的作品。 爱范儿:前阵子,我们一台 M3 Ultra 的 Mac Studio 成功部署了 671B 的 DeepSeek 的本地大模型。统一内存架构展现了显著的优势。这种先见之明,让我想到上次采访时您引用过的名言:「我总滑向冰球将去之处,而不是它曾停留的地方。」所以,统一内存架构是否从设计之初就为 AI 推理做过优化? Bob Borchers:是的,我非常喜欢那句韦恩·格雷茨基的话,因为它阐释了我们如何看待新技术和可能性。 正如你所说,统一内存架构是 Apple Silicon 的标志。它让我们能够根据用户的需求提供内存,无论是 CPU 任务、GPU 任务,还是 A&E 任务,都可以利用同一个内存池,并以极其高效的方式完成。 因此,对于我们来说,在考虑苹果芯片时,它确实是我们知道能够让人们做他们以前从未想到过的事的技术之一。正如你所说,配备 M3 Ultra 的 Mac Studio,是我们迄今为止最强大的 Mac,从 AI 或创意工作流的角度来看,它能够做出惊人的事情。这种多功能性对我们来说至关重要。 你知道吗,这次在广州与大家探讨 AI 应用场景时,我着实被震撼到了。人们正在发掘整个 Mac 产品线的惊人潜力,你可以在 M3 Ultra 上本地运行最大的模型,或者也可以使用 MacBook Air 进行 AI 任务。所以,Mac 真的是 AI 的最佳平台。 爱范儿:你最近有用过 DeepSeek 吗? Bob Borchers:DeepSeek 和所有可用的 AI 工具,我认为是人们探索人工智能这个令人难以置信维度的绝佳机会。 正如你所知道的,我们多年来一直在我们的产品中使用 AI 和机器学习。而这批新生工具的推出,我认为我们将真正开拓并提升用户的创造力。 爱范儿:爱范儿一直特别关注新技术如何改变人机交互。笔记本的人机交互已经很多年没有变化了,有人说 AI 是一种新的 UI,您怎么看? Bob Borchers:我们多年来一直在使用 AI 和机器学习来服务于计算机交互。 比如,如果你看一下我们的一些无障碍功能,其核心正是机器学习和 AI 让这些群体能够充分利用他们眼前的产品。 或者看看 Apple Vision Pro,它在实现人机交互方面开辟了新天地,让你用眼睛来当作鼠标进行移动和简单点击。 对于我们来说,AI 是许多事情的核心推动力,不仅在 Mac 上,也在其他产品上。我们认为,这为我们的用户和开发者提供了继续创新的巨大机会。 爱范儿:乔布斯早在 40 年前把计算机比作一辆「思维的自行车」,您觉得 AI 时代的 Mac,它会进化成什么样子? Bob Borchers:是的,我很喜欢这句话,因为它真正讲述的是我们的目标:将技术服务于用户的创造力。 它是一个赋能工具,让你能够做很多事情,这个使命至今仍是苹果的核心任务,就是创造最好的技术,并把它交到最具创造力的人手中,让他们带着它去往任何地方,就像一辆自行车能让你游览城市、环游世界一样。 我们希望技术能够赋能这一切,真正增强用户和开发者的创造性过程。
ChatGPT 4o“吉卜力风”霸屏朋友圈 大批网友疑惑:会侵权吗
快科技3月29日消息,近期,OpenAI对其GPT-4o进行了更新,新增了文生图功能。 这一功能使得付费用户能够直接在ChatGPT中调用GPT-4来生成和修改图片,无需再依赖OpenAI的另一款文生图模型DALL-E。 GPT-4在生成图片时展现出了对各种风格的熟练掌握,其中吉卜力风格尤为流行,以至于许多人在社交媒体上分享的图片都呈现出了这种风格,甚至OpenAI的首席执行官山姆·奥特曼也将自己的社交媒体头像换成了吉卜力画风。 此次更新无疑让每个人都能够轻松尝试成为“宫崎骏”,通过GPT-4o创作出具有吉卜力风格的图片。 然而,吉卜力风格图片的火爆也给OpenAI的服务器带来了不小的压力。当地时间3月27日,山姆·奥特曼透露,由于用户热情高涨,公司的GPU资源正面临巨大挑战,因此将暂时引入一些速率限制,并努力提高系统效率。 然而,随着吉卜力风格图片的刷屏,关于AI版权的争议也随之而来。 吉卜力工作室(Studio Ghibli),这家以《千与千寻》、《龙猫》、《天空之城》和《哈尔的移动城堡》等作品闻名的日本动画工作室,并未授权OpenAI使用其风格。 在社交媒体上,ChatGPT在回答相关询问时也明确表示,截至目前,OpenAI并未获得吉卜力的版权或授权合作。 关于这一问题,法律界也存在争议。一位律师指出,著作权法只保护具体的表达,而不保护创意层面的内容。 因此,如果网站提供的是将照片转化成特定风格图片的技术服务,那么这种服务通常不被视为侵权。然而,艺术家们则认为,使用他们的风格进行创作应当需要获得授权。目前,在中国和美国,关于这一问题的司法诉讼仍在进行中,尚未有定论。 值得一提的是,去年有超过1.1万名创意人士签署了一封公开信,谴责未经许可使用人类艺术来训练人工智能的行为。他们认为,这些模型及其背后的公司在未经许可或付费的情况下使用艺术家的作品来构建商业人工智能产品,是对艺术家的剥削。 截至目前,吉卜力工作室及其母公司日本电视台尚未对OpenAI生成“吉卜力风”图片的现象做出回应。
宇树人形机器人雄安首秀,为足球赛开球
IT之家 3 月 30 日消息,据“雄安发布”官方今日消息,3 月 29 日下午,雄安体育中心外的露天足球场上,身着碎花棉衣的宇树人形机器人灵敏地抬起脚,将草地上的足球踢了出去,为球赛开球。与此同时,身穿一套舞狮服装的宇树机器狗在场外跑来跑去,不时停下脚步对着场上的小球员们挥挥手、比个心,为小球员们加油鼓劲。 这两款机器人是宇树机器人在雄安的首秀。“为球赛开球的人形机器人,就是在蛇年央视春节联欢晚会上跳舞的同款。”宇树机器人品牌经销商工作人员介绍。 雄安体育中心相关负责人表示,雄安体育中心 3 月 30 日正式开业,雄安智慧体育嘉年华则是开业期间的重要活动。他们特意请来宇树机器人和机器狗参加嘉年华活动,就是想增强活动的科技感和趣味性,让群众更充分地感受体育带来的乐趣,进一步激发群众参与体育运动的热情。 据IT之家此前报道,在 2025 央视春晚中,著名电影导演张艺谋携手杭州宇树科技、新疆艺术学院带来了一个名为《秧 BOT》的节目。春晚机器人基于 Unitree H1 人形机器人打造,靠 AI 训练来执行 16 台 H1 激光 SLAM 定位,全自动走位变队形。为凸显机械感的整机骨架设计,春晚舞台上的 Unitree H1 去掉了所有外皮壳体。 从“雄安发布”官方视频来看,为球赛开球的应该是尺寸更小的 G1。宇树官方也推出了 G1 人形机器人足球运动方案 —— Unitree G1-Comp,官方号称“为赛事打造足球巨星”,增加了 2 个头部自由度,搭配深度相机可实现 180 度视野覆盖。
GPT-4o图像生成的秘密,OpenAI没说,网友已经拼出真相?
自从 OpenAI 发布 GPT-4o 图像生成功能以来,短短几天时间,我们眼睛里看的,耳朵里听的,几乎都是关于它的消息。 不会 PS 也能化身绘图专家,随便打开一个社交媒体,一眼望去都是 GPT-4o 生成的案例。 比如,吉卜力画风的特朗普「积极坦诚对话」泽连斯基: 然而,OpenAI 一向并不 Open,这次也不例外。他们只是发布一份 GPT-4o 系统卡附录(增补文件),其中也主要是论述了评估、安全和治理方面的内容。 地址: https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf 对于技术,在这份长达 13 页的附录文件中,也仅在最开始时提到了一句:「不同于基于扩散模型的 DALL・E,4o 图像生成是一个嵌入在 ChatGPT 中的自回归模型。」 OpenAI 对技术保密,也抵挡不住大家对 GPT-4o 工作方式的热情,现在网络上已经出现了各种猜测、逆向工程。 比如谷歌 DeepMind 研究者 Jon Barron 根据 4o 出图的过程猜测其可能是组合使用了某种多尺度技术与自回归。 不过,值得一提的是,香港中文大学博士生刘杰(Jie Liu)在研究 GPT-4o 的前端时发现,用户在生成图像时看到的逐行生成图像的效果其实只是浏览器上的前端动画效果,并不能准确真实地反映其图像生成的具体过程。实际上,在每次生成过程中,OpenAI 的服务器只会向用户端发送 5 张中间图像。您甚至可以在控制台手动调整模糊函数的高度来改变生成图像的模糊范围! 因此,在推断 GPT-4o 的工作原理时,其生成时的前端展示效果可能并不是一个好依据。 尽管如此,还是让我们来看看各路研究者都做出了怎样的猜测。整体来说,对 GPT-4o 原生图像生成能力的推断主要集中在两个方向:自回归 + 扩散生成、非扩散的自回归生成。下面我们详细盘点一下相关猜想,并会简单介绍网友们猜想关联的一些相关论文。 猜想一:自回归 + 扩散 很多网友猜想 GPT-4o 的图像生成采用了「自回归 + 扩散」的范式。比如 CMU 博士生 Sangyun Lee 在该功能发布后不久就发推猜想 GPT-4o 会先生成视觉 token,再由扩散模型将其解码到像素空间。而且他认为,GPT-4o 使用的扩散方法是类似于 Rolling Diffusion 的分组扩散解码器,会以从上到下的顺序进行解码。 他进一步给出了自己得出如此猜想的依据。 理由 1:如果有一个强大的条件信号(如文本,也可能有视觉 token),用户通常会先看到将要生成的内容的模糊草图。因此,那些待生成区域会显示粗糙的结构。 理由 2:其 UI 表明,图像是从顶部到底部生成的。Sangyun Lee 曾在自己的研究中尝试过底部到顶部的顺序。 Sangyun Lee 猜想到,这样的分组模式下,高 NFE(函数评估数量)区域的 FID 会更好一些。但在他研究发现这一点时,他只是认为这是个 bug,而非特性。但现在情况不一样了,人们都在研究测试时计算。 最后,他得出结论说:「因此,这是一种介于扩散和自回归模型之间的模型。事实上,通过设置 num_groups=num_pixels,你甚至可以恢复自回归!」 另外也有其他一些研究者给出了类似的判断: 如果你对这一猜想感兴趣,可以参看以下论文: Rolling Diffusion Models,arXiv:2402.09470; Sequential Data Generation with Groupwise Diffusion Process, arXiv:2310.01400 Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model,arXiv:2408.11039 猜想二:非扩散的自回归生成 使用过 GPT-4o 的都知道,其在生成图像的过程中总是先出现上半部分,然后才生成完整的图像。 Moonpig 公司 AI 主管 Peter Gostev 认为,GPT-4o 是采用从图像的顶部流 token 开始生成图像的,就像文本生成方式一样。 来源:https://www.linkedin.com/feed/update/urn:li:activity:7311176227078172674/ Gostev 表示,与传统的图像生成模型相比,GPT-4o 图像生成的关键区别在于它是一个自回归模型。这意味着它会像生成文本一样,按顺序逐个流式传输图像 token。相比之下,基于扩散过程的模型(例如 Midjourney、DALL-E、Stable Diffusion)通常是从噪声到清晰图像一次性完成转换。 这种自回归模型的主要优势在于,模型不需要一次性生成整个全局图像。相反,它可以通过以下方式来生成图像: 利用其模型权重中嵌入的通用知识; 通过按顺序流式传输 token 来更连贯地生成图像。 更进一步的,Gostev 认为,如果你使用 ChatGPT 并点击检查(Inspect),然后在浏览器中导航到网络(Network)标签,就可以监控浏览器与服务器之间的流量。这让你能够查看 ChatGPT 在图像生成过程中发送的中间图像,从而获得一些有价值的线索。 Gostev 给出了一些初步的观察结果(可能并不完整): 图像是从上到下生成的; 这个过程确实涉及流 token,与扩散方法截然不同; 从一开始,就可以看到图像的大致轮廓; 先前生成的像素在生成过程中可能会发生显著变化; 这可能表明模型采用了某种连贯性优化,尤其是在接近完成阶段时更加明显。 最后,Gostev 表示还有一些无法直接从图像中看到的额外观察结果: 对于简单的图像生成,GPT-4o 速度要快得多,通常只有一个中间图像,而不是多个。这可能暗示使用了推测解码或其他类似方法; 图像生成还具备背景移除功能,从目前的情况来说,最初 GPT-4o 生成图片会呈现一个假的棋盘格背景,直到最后才移除实际背景,这会略微降低图像质量。这似乎是一个额外的处理过程,而不是 GPT-4o 本身的功能。 开发者 @KeyTryer 也给出了自己的猜想。他说 4o 是一种自回归模型,通过多次通过来逐像素地生成图像,而不是像扩散模型那样执行去噪步骤。 而这种能力本身就是 GPT-4o LLM 神经网络的一部分。理论上讲,它能够比扩散系统更好地掌握它们正在操作的概念,而扩散系统只是对随机噪声的一种猜测。 GPT-4o 还能够使用 LLM「知道」的信息来生成图像。也因此,它们具有更好的泛化能力,能够使用多条消息进行上下文学习,通过特定的编辑输出相同(或非常接近)的结果,并且具有广义的空间和场景感。 芬兰赫尔辛基的大学副教授 Luigi Acerbi 也指出,GPT-4o 基本就只是使用 Transformer 来预测下一个 token,并且其原生图像生成能力一开始就有,只是一直以来都没有公开发布。 不过,Acerbi 教授也提到,OpenAI 可能使用了扩散模型或或一些修饰模型来为 GPT-4o 生成的图像执行一些清理或添加小细节。 GPT-4o 原生图像生成功能究竟是如何实现的?这一点终究还得等待 OpenAI 自己来揭秘。对此,你有什么自己的猜想呢?

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。