行业分类:
加载中...
头条分类:
加载中...
狂热过后,我和几位硬件工程师聊了聊 Manus 的价值和意义
在昨天拿到 Manus AI 的测试码、连续进行了数个小时的测试之后,有不少在手机/PC 厂商的工程师/产品经理朋友,来找我「打听」Manus AI 的真正能力如何。 为什么硬件行业这么关注 Manus?这与当下硬件行业最受关注的概念——LAM 有关。LAM 是一个从 LLM 延伸而来的名词,全名为大型行动模型 (Large Action Models),也称为大型智能体模型。 与 LLM 致力于「超越人类」,因此在训练方法上也经常突破人类经验完全不同,现阶段 LAM 想要做到的,是成为人类的手,去作为人类用户在数字世界中的代理人。 这与 Manus 的核心理念有相通之处。目前而言,Manus AI 的体验,围绕在一个运行在云端的 Ubuntu 操作系统虚拟机上,同时在操作系统中打开 Chrome 浏览器界面,在网页中或是调用其他软件,来完成各种用户的请求。 为了完成这个要求,Manus 需求同时具备「自然语义理解和计算机视觉」,以及「用户行为习惯学习与场景感知」,同时拥有「意图识别自主决策」的能力,当然最重要的,同时也是让 Manus AI 与此前的 Computer Use 在体验上拉开明显差距的,还是「跨应用调用工具」的能力。 举例来讲,对于常见的「能不能用 Manus AI 生成一段视频」这个问题,严格来讲回答是「可以」,但 Manus AI 去生成一段视频的方式,也是通过在网络上搜索第三方 AI 视频生成工具,并在这个过程中使用到各种工具,来完成用户的请求。 01 LAM 真正的未来 进入 2025 年,Agent AI,或者说 LAM 在端侧的落地,已经是再明显不过的趋势。但怎么落地,以及最终呈现给用户的会是怎样的商业产品,仍然有很多问题。 早在 2024 年初,彼时发布的 Rabbit R1 硬件,以及对应的 LAM 工具——Rabbit LAM Playground 其实已经展现出了今天我们在 Manus AI 中看到的能力雏形。 在官方的演示中,Rabbit R1 所搭载的 LAM Playground,能主动帮助用户完成类似音乐播放、打车等服务,实际上背后的技术原理,就是通过使用 LAM 来访问对应服务的网站,通过模拟人类与网站的交互方式,完成用户指令中的工作内容。 Rabbit 发布的 LAM Playground,其实已经具备今天 Manus AI 的初步能力 | 图片来源:Rabbit 但彼时的 Rabbit Playground 受限于模型以及开发能力的限制,还并不能做到像人类一样,在互联网中畅通无阻。 在实际用户的测试中,面对类似人机验证这样的场景 Rabbit Playground 仍然难以通过,也无法使用第三方工具,来完成生成复杂表格、导出 PPT 这样的用户需求。 由于在实际使用中面临着诸多挑战,Rabbit R1 作为一款明星 AI 硬件,很快就退出主流用户的视野,AI 时代的热点变化的是如此之快,以至于到了 2025 年年初,在互联网上已经很难找到关于这款产品讨论的声音。 但 LAM 这个概念,作为一个可能改变人类用户与智能硬件设备交互的火种,留存了下来,仍然作为行业中一个重要的研究方向而存在。 Manus AI 的出现,尤其是它在自然语义理解,以及在互联网访问网站时,面对各种各样的人机识别,都能「畅行无阻」的能力,让不少仍然在致力于 LAM 产品开发、并希望在今年推出相关测试产品的人,再次看到了一个契机,并希望通过 Manus AI 目前的能力以及展现出的短板,来进一步完善自己的产品。 Manus AI 已经能在遇到各种人机验证时成功通过,大幅提升了对互联网的访问能力 | 图片来源:极客公园 目前,在致力于开发 LAM 产品、来提升用户对手机/电脑等产品使用体验的硬件厂商中,系统级厂商在做 LAM 中,有着最明显的优势。 「Manus AI 这种命令执行方式,对于算力要求非常高,但如果是浏览器或智能手机操作系统来做这件事,能通过获得更多高质量数据的方式,大幅降低算力成本与提升运行速度」。 「做通用 LAM 并不用针对某些单一网站去适配,虽然在某些场景下可能」 「 Manus AI 中的一些简单的场景,并不需要完全搬到(云端)上面去处理,反而是留在端侧效果会更好」据这位面向桌面端开发 LAM 应用的开发者介绍,当前的端侧模型经过针对性训练之后,目前也能实现简单的通用网页访问并内容识别能力,已经能初步完成例如「访问旅游相关网站并制定旅游计划」这样的需求。 此外由于端侧有着更便捷的文件管理系统,同时也有更强大的本地文件管理工具,遇到类似「整理并分析简历」这样的需求,端侧 LAM 同样能做到更好的效果。 在我的实际测试中,我想要让 Manus AI 帮我生成一个 PPT 文件,它就能自动在电脑上安装对应的依赖环境,然后利用工具来自动完成 PPT 生成,虽然最终仍然完成了用户指令中的需求,但仍然因此大幅拉低了对请求的响应时间。 02 如何理解 Manus 的意义 当前,Manus AI 展示出的逻辑中,已经向外界展示了 LAM 在「生产力」领域能带来怎样的改变,但仍然有很多问题亟待解答。 其中最重要的,也是被问到最多的,或许就是商业化这件事:不少用户对于 Manus AI 这样的服务,最终会定价多少有着诸多的猜测。 除了类似 Manus AI 这样,完全交给云端运行,用户端只需要「输入命令 - 返回成果」的模式,前面提到的不少硬件厂商,实际上是将端侧/云端混合运行的模式作为主流方案。 这其实也暗示了,未来 LAM 的发展,或许将分为两个不同的主流方向;不仅有基于现有硬件算力,在端侧实现性能稍差的 LAM,也有完全基于云端的「数字代理」服务。 但这样的服务,距离最终投向市场可能还有不小的距离。「Manus AI 如果订阅的话,这样的服务 20 美元(订阅费)显然是完全不够的。」一位目前就职于手机厂商,研发 LAM 端侧应用的工程师对此评价道。 仅仅是全程虚拟机运行以及以及实时显示内容串流的高昂成本,就足以成为此类服务现阶段面向普通消费级市场的最大阻力。 对于以 ChatGPT 为代表的 LLM 产品来讲,过去几年已经迅速建立起一套行之有效的订阅系统,用户也在「每个月 20 美元」的周期往复中,建立起了一个准确的心理预期。 如果 LAM 未来想要以这种「前端硬件 + 后端云服务」的方式继续存在,同样也要经历这样一个过程,同时在这个过程中将订阅成本快速拉低,最终将这一商业模式跑通。 随着完全在云端部署的 LAM 进一步完善,我们大概率会再次看到像 Rabbit R1 这样、有着更灵活形态的 AI 硬件设备出现:它可以是智能手表、也可以是 AI 眼镜,甚至都可能是完全不需要屏幕的智能耳机等设备。 到这个阶段,LAM 实际上已经进化成了 Agent UI:用户并不再需要传统手机桌面、浏览器那样的用户交互界面,只需要一个供用户输入指令的方式,以及接受 LAM 最终交付成果的终端。 当初 Rabbit R1 的展示场景中,就已经出现了一些 Manus AI 的案例 | 图片来源:Rabbit 它或许不如 LLM 那样科幻,但它却是在现有硬件的基础上,短期内我们能看到最明显、最有能力给用户与硬件的交互,带来改变的方向。 随着 Manus AI 进一步将 LAM 以及 Agent AI 能做到什么,展现给更多普通用户,这或许就是 Manus AI 在这场浪潮最终退去之后,给我们留下的最重要的收获。 「即便最终赢家不是它,它也足够意义重大。」一位 LAM 产品经理这样评价 Manus AI 的行业价值。
知情人士:微软开启AI反击战 测试DeepSeek等模型欲替代OpenAI
快科技3月8日消息,当地时间3月7日,媒体报道称,自微软内部AI部门负责人Mustafa Suleyman接手微软AI业务以来,其与OpenAI的合作并非一帆风顺。 知情人士透露,在去年秋天的一次视频会议上,Suleyman与OpenAI管理层因“思维链”推理过程产生争执,最终愤怒地提前结束了通话。 为了摆脱对OpenAI的依赖,Suleyman组建了一支AI研究团队,专注于开发微软自研的AI模型MAI。 目前,Suleyman的团队已经开始在Microsoft Copilot产品中测试MAI模型,试图用自研技术替代OpenAI的模型。 此外,微软还计划在今年晚些时候推出MAI的API,以便外部开发者能够将微软AI模型集成到自己的应用程序中。 这意味着,一旦该计划实施,微软将直接与OpenAI及其他AI实验室在API市场上展开竞争。 同时,Suleyman还在测试OpenAI竞争对手的AI模型,以进一步分散风险。 据上述知情人士透露,微软正在尝试使用Anthropic、马斯克旗下的xAI模型,以及DeepSeek和Meta提供的开源模型,希望在AI领域保持更多选择。 尽管微软AI团队在MAI研发上取得了一定突破,但Suleyman在接受采访时表示,微软的AI业务仍面临诸多挑战。 MAI模型的训练工作耗时近一年,期间经历了多次技术障碍和战略调整,甚至有高层因不认同Suleyman的管理和技术路线而离职。 与此同时,OpenAI已经成功训练并发布了多个新模型,其技术进步速度仍远超微软。 值得关注的是,此前,微软已向OpenAI投资超过130亿美元,换取部分收入分成,并获得OpenAI技术的使用权。 未来,微软能否摆脱对OpenAI的依赖,打造真正具有竞争力的AI生态,这一答案可能要到MAI模型正式落地后才能见分晓。
除了不能当女婿,DeepSeek比董宇辉差到哪了?
“DeepSeek推荐”正在成为年轻人新的消费决策仪式。 打开购物APP之前,在北京工作的白领刘雪先去寻求DeepSeek的帮助:“我27岁,敏感肌,请你帮我推荐几款适合我的防晒霜”。 几秒钟后,DeepSeek列出了一份详细报告,并结合皮肤状况、成分、匹配度等多个纬度分析,推荐了多个品牌的防晒霜。最终,刘雪根据她的情况,购入了其中一款防晒霜。 从事产品运营工作的陈鹏,今年26岁,他想要通过阅读提高自己的眼界,便向DeepSeek提问“最应该读的十本书是什么?”DeepSeek同样给他列出了书单,并且分类附上了理由。陈鹏选择了购入其中几本书。 这曾是李佳琦和董宇辉们在直播间的工作:导购。 过去几年,头部主播们通过建立和用户之间的信任,构建了以主播为核心的商品分发机制,将他们认为最好的、最适合的东西推荐给粉丝朋友们。 但现在这套推荐体系,正在被DeepSeek解构。DeepSeek深度思考模式的长思维链优势,能为用户提供更全面、精准的优质解答,进而形成一对一的个性化推荐,应用到购物领域,俨然已经成为D选——DeepSeek优选。 “D选”的本质是“AI导购”,辅助用户高效进行消费决策,“AI导购”这个场景并不陌生。 早在多年前,一些电商平台就试图借助大模型实现“种草+购物”的交易闭环。 譬如淘宝的AI助手“淘宝问问”早已接入通义千问,功能包含个性化推荐,并生成选购建议。京东的言犀大模型,也接入消费导购场景,“京东京言”也被明确定位于“专属AI购物助手”。抖音APP的AI搜索服务也接入了豆包大模型。 电商平台都想做“AI+电商”这门生意。但电商平台并未给予这一功能显眼的流量位,AI搜索并未出现在主流电商平台APP的一级入口。比如淘宝的“淘宝问问”和京东的“京东京言”,均需要在APP搜索框主动输入淘宝问问或京东京言,才能进入相应页面。 另一方面,受限于技术、用户习惯等种种原因。这一功能也并未成为消费者购物方式的主流选择。 技术实力更强、大众讨论度更高的DeepSeek的出现,正改变这种情况。 《每日经济新闻》援引数据分析平台QuestMobile报道,截至2月9日,DeepSeek的App累计下载量已超1.1亿次,周活跃用户规模最高近9700万。庞大的用户中,一部分人已经将DeepSeek当作自己的购物助手。“D选”正在成为年轻人新的消费仪式,进入到网购流程中。 一些品牌如安慕希、安克,也主动将“DeepSeek推荐”贴在主图上,将其当作营销点。 不过面对DeepSeek浪潮,电商平台却并不积极。截至目前,除了阿里旗下的1688商家版接入DeepSeek,淘宝、京东、拼多多、抖音等各大电商平台,尚未宣布接入DeepSeek。 因可以直接在推荐参考后附购物链接形成交易闭环,电商平台在AI推荐方面更具优势。用户向接入电商平台的AI提问,AI给出建议并附价格较为优惠的链接,就能省去主播这个中间环节。从搜索推荐、个性化推荐、内容推荐、主播推荐到眼下的AI推荐,电商平台的推荐方式正经历一场新的迁移。 “D选”正成为年轻人购物前的优先选择。刘雪不止一次在DeepSeek上搜索适合自己肤质的化妆品。 “你好,我27岁,请帮我推荐一款护肤品,功效包含混油肤质、面颊泛红、T区泛黄、改善肤色不均匀,单价在200-400元以内的产品。” 不到一分钟,DeepSeek输出了一份详细的报告,从洁面、精华水,到精华、乳液,DeepSeek给每样产品分别推荐了一个品牌,并且将价格、核心功效、适配需求等特点都一一列举出来。 更关键的是,DeepSeek还将如何分区护理等使用建议也梳理出来。看过详细的报告后,刘雪决定购入DeepSeek推荐的某个品牌的乳液。 刘雪曾在某主播的直播间,购买过用于敏感肌的乳液,但是使用后,发现这款产品让她脸颊刺痛。在刘雪看来,“敏感”只是她肤质问题之一,“主播在推荐的时候没办法考虑到我全部的肤质情况,但是DeepSeek却可以做到一对一,根据我特殊的肤质推荐产品,比主播讲解的还要清楚。” DeepSeek在化妆品垂直领域的解析能力,得到了专业人士的认可。在某化妆品公司从事产品开发的陈火表示,DeepSeek能够帮助他们分析成分,用于护肤品新品开发。 在小红书等社交平台上,不少网友分享了自己使用“DeepSeek推荐化妆品”的经历,这些案例均显示DeepSeek可以根据用户需求做到精准化推荐。比如有网友说出自己的使用场景和肤质,请DeepSeek推荐口红;还有人结合自身收入和肤质情况要求DeepSeek推荐彩妆品牌。 DeepSeek的个性化推荐不止被用户用在化妆品方面,零食、服饰、3c数码、生活用品等领域的推荐,都可以寻求DeepSeek帮助。 对于他们来说,DeepSeek推荐的优势之一是,一对一的精准推荐;其二就是客观真实。 一位用DeepSeek挑选冰箱的小红书网友分享说,“用DeepSeek配合购物,简直绝了,不怕得罪厂商,低成本的隐患说的一清二楚,还有如何鉴别冰箱,再也不怕被各种软广坑了。” DeepSeek正在对以种草和推荐为主的李佳琦、董宇辉们形成挑战。当DeepSeek开始解构李佳琦们的“推荐逻辑”,从KOL主导到AI赋能的导购权转移或许将改变电商生态。 不过,目前来看“D选”尚还不能替代主播导购。 最主要的问题是“AI幻觉”。这和大模型的训练数据有关,训练生成式AI的大量互联网数据是准确性和偏见的混合体,模型可能会无意中吸收和复制这些数据。 DeepSeek也避免不了AI幻觉的问题,这也导致D选并不能起到最重要的筛选作用,需要人为因素对AI输出内容进行筛查。 这也是主播推荐的优势之一,虽然主播无法做到一对一的精准推荐,但是主播的背后有专业机构做选品。“D选”并不能完全取代主播。 比如DeepSeek推荐给刘雪的防晒霜中,排名第一的是一款白牌商品,从起推理过程可看,DeepSeek推荐这款白牌商品的原因是,抓取了多篇营销广告。用户不希望自己被软广干扰,但是DeepSeek却会把营销号的文章当参考源。 不过见过许多软广的刘雪她有自己的判断能力,最终她基于自己的认知做出了购买决策。这并不影响DeepSeek推荐成为时代大趋势,逐步进入到年轻人消费决策的流程中。 另外,与直播间一站式购物下单不同,刘雪寻求DeepSeek帮助后,依旧要跳转到电商平台比价、交易,而低价恰是李佳琦们的核心优势。 从这个角度看,因可以直接在推荐参考后附购物链接形成交易闭环,电商平台在AI推荐方面更具优势。 过去几年,电商行业经历了一轮推荐方式的流量迁移。 “今年双11,个性化推荐带来的流量,已经超过了搜索带来的流量。”时任淘宝总裁的蒋凡在2018年表示。当时正在崛起的拼多多正是以算法推荐见长,与此同时,行业内也衍生出主播推荐、内容推荐等形式。 现在,电商平台们就试图抓住AI推荐这种新的推荐形式。实际上,电商平台早已进入AI大模型时代,AI+电商形成的导购场景并不陌生。不过,电商平台并未给予AI产品一级流量位。 早在2023年4月,前阿里CEO张勇就曾表示阿里所有产品将接入“通义千问”大模型,接入的产品自然包括淘宝。 不过,通义千问并未直接出现在淘宝APP的搜索入口,而是通过淘宝问问接入通义千问来实现AI服务。用户需要在淘宝搜索框搜索“淘宝问问”,方可进入AI助手页面输入问题,包括商品挑选攻略等”。 2023年,京东也在消费导购、商家经营等多个供应链场景中尝试接入京东的言犀大模型。同样,“言犀大模型”也并未出现在APP一级入口,而是需要在京东APP的搜索框搜索“京东京言”。 图源:京东 2024年底,抖音商城APP上线AI导购服务“智能购物”,由豆包大模型提供算法,其入口位于抖音商城APP的个人中心内。这是一款AI导购型产品,用户可以向AI询问商品的咨询和对比服务。从服务体验上看,其与淘宝问问、京东京言类似。 最新消息是,抖音App正在内测为豆包开放两个超级入口,入口位于抖音短视频界面和消息列表内。当然从入口位置看,接入豆包主要是为抖音内容场服务。2023年底,抖音还曾上线“AI搜索”服务,由豆包大模型支持。 图源:抖音内嵌AI搜索 另外,快手和拼多多,尚未直接在APP内接入大模型。 尽管上述电商平台早已布局AI电商,但是仅就AI导购能力来看,他们的导购能力较DeepSeek稍逊一筹。 淘宝问问的产品经理伽楠曾透露,他们对淘宝问问的最初设想是用户购物不需要去百度、小红书、知乎搜索,直接在淘宝完成体验。 但就实际体验来看,淘宝问问有问题字数限制,问题仅支持500字以内的文字;其次,淘宝问问的内容来源不如DeepSeek多,比如,同一个问题“我27岁,敏感肌,请帮我推荐一款防晒霜,价格在100~200元之间。”淘宝问问的搜索结果显示,它参考6篇文章;DeepSeek的搜索结果则显示,它参考49个网页。 淘宝问问不支持深度推理和深度思考。比如上述问题,淘宝问问只是简单给出品牌以及简单的成分解释;而DeepSeek却将成分特点、适用场景、注意事项以及选购建议等都列了出来。 图源:淘宝问问 京东言犀的功能也类似。尽管今年2月,京东言犀全系产品接入DeepSeek。不过,不过京东京言并未展现出DeepSeek的深度思考能力。在京东京言询问上述问题,得到的结果就更为简单,京东京言会直接附上几个产品链接,以及一段总结性话语。 基于豆包大模型的抖音AI搜索,同一个问题也并未像DeepSeek那般给出全面、深度的分析。 也有电商平台宣布接入DeepSeek,不过功能并非面向消费者,而是面向商家。今年1月,阿里旗下的1688宣布接入DeepSeek. 字母榜发现,“1688”APP并未接入DeepSeek,而是“1688商家版”APP接入了DeepSeek。在“1688商家版APP”底部导航栏的正中间,点击AI员工即可进入AI数字员工页面,底部即可选择“DeepSeek-R1”思考问题。 图源:1688APP商家版 早在2024年,1688就推出了免费的AI数字员工,集数据专员、运营专员等岗位能力于一身,平均可为每家商家减少4个人力成本。相关负责人卓含表示,借助AI技术,买家无需与商家沟通即可直接下单,目前静默下单比例已达70%,预计很快将提升至90%。 一位入驻1688两年的服装商家表示,目前,DeepSeek能够帮忙解决一些客户问的问题;但在节省成本方面,还没有什么实感。 字母榜体验发现,同一个问题,以卖家身份咨询1688深度思考,得到的结果和直接使用DeepSeek得到的结果大不相同。 在1688使用DeepSeek-R1深度思考提问,“我卖水杯,请帮我出一份详细的推广策划”后,产品给出的结果包含“目标客户群体”“优化产品信息”“参与平台活动”等6点,内容简洁。并且提示“由于知识库中没有相关资料,我将结合自己的经验,为您提供一份详细的推广策划建议”。 而将“我在1688平台卖水杯,请帮我出一份详细的推广策划”发给DeepSeek后,它给出的策划非常详细且具体,具体到预算分配和风险应对等。 电商平台的核心是促成交易。在商家端,已经有第一个接入DeepSeek的电商平台了;但是在消费者端,电商平台尚未直接接入DeepSeek,且目前电商平台在AI导购方面的布局并不尽如人意,如何抓住C端用户、精准挖掘消费者需求是摆在他们面前的难题。 多个互联网平台已宣布接入DeepSeek,并且早已扩散到汽车、能源、金融、云、通讯等众多业态。比如腾讯和百度已将DeepSeek带到了自家最核心的APP中。 不过在接入DeepSeek这一竞赛中,除了阿里旗下的B2B平台1688接入了DeepSeek,淘宝、京东、拼多多、抖音等各大电商平台却集体缺席。 “蓝鲸新闻”也曾报道这一现象称,相较于腾讯的积极,阿里和字节更为谨慎,目前侧重于办公场景。它们商业生态里更核心的淘天、支付宝和抖音等应用目前尚未宣布合作。 对于这个问题,参与大模型投资的恒业资本创始合伙人江一,先从“腾讯和百度接入DeepSeek的适配性”方面解释,百度的搜索引擎依赖大模型回答开放性问题,核心指标与大模型直接挂钩;微信的“AI助手”也与DeepSeek的多模态对话能力高度契合。 但电商平台们顾虑的因素就比较多。 首先是数据敏感性强,电商平台的核心数据直接用于推荐算法(如协同过滤)、广告投放(如实时竞价)等核心商业逻辑;而且模型适配成本高,若接入外部大模型,需解决数据脱敏、特征工程重新构建、模型微调(Fine-tuning)等问题。 其次,电商平台(如淘宝)已构建完整的AI技术栈(如NLP引擎“淘宝问问”基于通义千问、视觉识别基于商汤),切换外部模型需重构底层架构,ROI风险高;DeepSeek当前以API形式开放能力(如文本生成、代码理解),但电商平台需深度集成到业务流(如搜索排序、客服对话),涉及复杂的系统对接(如消息队列、日志埋点)。 尚且不论接入DeepSeek,电商平台甚至对于接入自己的大模型产品也不是很积极。 截至目前,淘宝、京东、拼多多等平台均未将自研大模型产品置于APP首页一级入口,相关AI功能需通过特定搜索路径触发。只有抖音正对其自研的豆包大模型进行灰度测试,计划将其整合至抖音APP内。 这可能受到多重因素制约。在技术可靠性层面,以“D选”为代表的AI推荐系统虽具备搜索引擎功能,但存在“AI幻觉”导致信息失准,可能影响用户体验与平台公信力。 在商业逻辑层面,大模型推荐抢的正是搜索流量和猜你喜欢这类推荐流量的蛋糕,而此前电商平台已经建立起一套成熟的付费流量体系,大模型推荐获得更高的权重,会在一定程度上削弱搜索流量和推荐流量的价值,打破原有的商业生态平衡。 当然,AI搜索结果也是可以商业化的,在技术成熟度与商业价值未充分验证前,平台可能更倾向于优先选择低风险场景进行功能嵌入。 不过,不接入DeepSeek,并不意味着电商平台放弃“深度思考”,而是通过自研大模型来实现。 阿里的通义千问官方账号Qwen最新发布了QwQ-Max-Preview深度思考模型。新京报贝壳财经也报道,近期,字节跳动旗下AI助手豆包正在小范围测试深度思考模型的不同实验版本。 今年2月,雷锋网报道称,拼多多内部已经组建了电商推荐大模型团队,负责人为原百度凤巢的核心成员。消息人士透露,目前,拼多多大模型产品分为几个应用:比价系统、推荐、广告、搜索、客服领域等。 显然,电商平台也需要深度思考大模型。 但是与这些还在路上的产品相比,已经过大范围验证的DeepSeek更有优势,在导购方面更能抓住这一代年轻人的消费心理。 李佳琦和董宇辉们曾用诗意和信任搭建起与用户之间的桥梁,而 DeepSeek 的答案则像一台精密引擎,将需求、场景等逐一渗透。在这场“推荐权”的迁徙之中,技术或将解构大部分问题。 江一也提到了DeepSeek切入电商的技术可行路径。比如通过隐私计算框架(如Google Federated Learning)实现跨平台数据联合建模,例如为电商平台提供“用户偏好预测”服务而不暴露原始数据;开发审核机器人,自动检测商品描述是否违反广告法(如“最有效”“国家级”等禁用词),降低平台监管成本。 但是,各大电商平台集体在这场赛事中沉默了。电商平台也需要一个“腾讯”,来做第一个接入DeepSeek的平台。 参考资料: 《抖音接入豆包,字节发起反击》Tech星球 《淘宝内测大模型AI应用“淘宝问问”,电商+AI准备怎么玩?》第一财经 《豆包:正小范围测试深度思考模型的不同实验版本》新京报 《真“Open”AI来了!DeepSeek即将开源5个代码库,这意味着什么》每日经济新闻 《大力搞AI,阿里、抖音、快手看准了》电商派 《拼多多AI大模型暗战》华尔街见闻 《淘宝多了一个“新入口”》天下网商
“3万张卡”、60亿投入后,DeepSeek发了5000亿红包
特约作者 中存算董事长 陈巍,苏扬 编辑 郑可君 DeepSeek在春节期间的惊艳表现,成为中、美科技竞争的新变量。在技术方面,DeepSeek成功地摸索出了一套在“算力受限”的条件下,提升算力效率、实现大模型性能大幅跃升的路径;对行业而言,DeepSeek自信地用开源的方式赋能各行各业;而对用户来说,其免费商业模式也意外地推动了“AI技术平权”和“AI普惠”。 DeepSeek在全球AI产业掀起的技术、资本风暴,伴随而来的是企业和用户们疯狂涌入带来的“泼天”流量。 朱嘉明教授在腾讯科技的《AGI之路系列直播》里曾提到,人工智能未来的发展将会出现分叉:一种是更前沿、尖端、高成本的路线,旨在研究人类未知的领域;一种是走向低成本、大规模的大众化路线,DeepSeek就是这种大众路线的最佳践行者——他们不仅选择了大众路线,也想把更多的人带上这条路。 相比出圈爆火,DeepSeek做了一件更值得被记录在大模型开源史上的事情——通过连续五天的发布,将其一路走来的方法论、“武功秘籍”公之于人,这其中包括: 开源针对Hopper架构GPU(例如H100或H800)加速MLA机制计算的FlashMLA内核 开源加速MoE模型高效通信和并行处理,实现H800带宽翻倍的DeepEP代码库 开源采用CUDA编写,适用于矩阵和MoE模型计算,支持FP8精度的高性能通用矩阵乘法库DeepGEMM 开源V3/R1训练中采用的计算与通信重叠的双向管道/流水线并行算法DualPipe,用以提升资源利用率 开源利用SSD和RDMA网络带宽设计的并行文件系统3FS文件系统,用以提升模型训推效率 现在,我们完全可以将DeepSeek称之为 “OpenSeek” 。 DeepSeek“开源五日”这套动作,给外界的观感是将CUDA、Hopper架构吃透了,甚至可以说DeepSeek的工程师,可能比英伟达的多数研究员更懂CUDA和Hopper,但相关研究的本质还是因为“算力受限”与成本高企。 那么问题来了,春节之后的这段时间,DeepSeek在用户和市场份额上的走势如何,其算力现状是什么,他们究竟需要什么量级的算力,资本支出在什么量级,会给产业上下游带来什么样的机会? DeepSeek接入潮的负效应:移动端日活减半 根据SensorTower数据,截至2025年2月24日,DeepSeek移动端近30天的平均日活为950万,2月24日日活接近700万,对比2月初1500万的峰值数据,数据接近砍半。 日活用户大幅度减少,与过去一段时间越来越多的终端厂商、云厂以及企业私有化部署所组成的“接入潮”有关。 此前,由于用户扎堆导致DeepSeek官方服务频繁异常,第三方接入后,大量用户被分流至外部场景当中。 但同时,低频用户的热情逐渐消退,也是DeepSeek月活下降的一个重要原因。所以,在多数对大模型感兴趣的人都已下载的情况下,到2月24日,DeepSeek的日下载量下滑至75万左右。相比之下,1月28日,DeepSeek在移动端创下了531万的峰值纪录。 面对如此的流量下滑之势,DeepSeek的未来是否值得担心?答案是否定的。 如果DeepSeek担心用户分流而反噬自己,就不会选择开源核心模型和硬件效率提升的相关方法论,也更不会在行业里率先发起降价潮,你看最近他们又开始降价了,至少现在看,流量变现不是其最核心的目标。 当然,还要考虑另一重因素,我们所看到的流量下滑只是移动端趋势的反应,一是网页端、API接入的数据没有披露,二是用户使用频次这类更细分的数据还未可知。 2000万日活的入场券:预估需要2.78万张GPU 相对其他同尺寸的稠密模型,DeepSeek R1模型的DeepSeekMoE+MLA(多头注意力)架构具备显著成本优势。 单Token激活参数仅37B(670B全参数的5.5%),KV Cache对显存的需求,降低至传统架构的1/3~1/15,理论上显存只需要14GB,而H800和A800这些特供版的显存都是80GB。 注:KV Cache:将需要重复计算的结果进行缓存,需要缓存的值为历史token对应的KV值,用以避免重复计算。 另外,DeepSeek R1/V3还采用了8位(而不是16位的格式)的FP8数据格式,使得所需的显存进一步减少。 具体到部署方面,除了常见的IDC集群部署外,业界也为DeepSeek提供了开源的经济型部署方案。例如清华KTransformers团队针对参数存储进行优化,使用单卡4090运行压缩版671B DeepSeek。所以,这段时间很多人在谈论大众层面的“AI技术平权”,实际上在行业层面,DeepSeek以及清华KTransformers这样的外部团队的探索,以及陆续的开源动作,也可以归结为一种由算力瓶颈驱动的算法平权。 前面提到,DeepSeek移动端大概950万,如果网页端+API也按照这个数据计算(实际上从办公的角度看,web端流量应该更高),保守一点,我们假设其日活2000万,那么这个量级的流量,需要多少模型,需要多少算力? 我们假设平均每个用户每天10次问答,单次平均消耗10秒钟,即1/8640天,这意味着2000万日活对应的单日推理请求总计2亿次,如果排队的话,总耗时为2亿×1/8640,即1个模型跑23148天,显然这种策略不合理,但可以换一种理解方式,部署23148个模型并行跑1天。 考虑到推理集群、时差等因素需要设置一定量的冗余,在23148个模型的基础上,取1.2作为系数估算(实际系数与服务和客户活动曲线有关),即实际部署的并行模型数约为2.78万。 回到模型本身,DeepSeek R1模型一共有256个专家,根据用户群的需求动态调整细粒度专家的分布,这意味需要同时运行2.78万个DeepSeek R1模型副本,以对应2000万日活,人均10次问答(平均每次10秒)的推理需求。按照DeepSeek论文给出的优化部署方案,每个模型的共享专家与8个细粒度专家常驻一个GPU(更精准的描述是Prefill 1+9,Decode 1+2,不影响推算结果),最终需要2.78万张GPU。 可能会有人问:单一GPU不能同时处理多个查询请求吗,实际场景中必须要这么多模型并行吗? 正常情况下,单张GPU同一时刻只能运行一个模型,类似人脑同一时间只能处理一个对话。对单个GPU来说,多个并行查询其实是时分复用排队或众核并行计算(不能处理太大计算)的方式,原则上一次对话,由集群分配给一个GPU或一组GPU尽快算完,然后处理下一个客户的一次对话,这样才会有大量GPU同时计算同时服务不同客户。 注:数据根据前述假设和常规占用率估算,仅供参考,与实际数量不一定符合 养一个大模型团队——60亿元 2021年,DeepSeek母公司幻方量化在美国对华芯片出口管制生效前,前瞻性地采购了10000张英伟达A100 GPU。 受管制之后,英伟达连续为市场推出了H800、H20等多个特供版本,幻方量化也通过正规渠道采购了部分特供版以及其他型号合规的GPU,但具体数量未公开。 一个消息可以佐证这个推测——2024年,幻方旗下AI公司DeepSeek在训练大模型时使用了2048块英伟达H800 GPU集群,运行55天完成模型训练。 考虑到高强度部署和高强度训练接近占满GPU(这里假设上述2048块H800 GPU为白天训练时专用,夜间会调度更多部署用途GPU给训练),则幻方实际的卡数即2.78万张(A100+H20)+2048张H800,总计29848张,大概在3万张卡左右的规模。 注意,这些只是比较保守的预估,与国外技术媒体SemiAnalysis对DeepSeek GPU数量的预估在同一数量级。 3万张卡的对于一家创企来说,规模已经相当大了。作为对比,硅谷的这些小巨头们,像xAI Grok 3、OpenAI GPT4.5这些单一模型的训练,就用到了10万张、20万张GPU。 就算基于性价比考虑,用于客户服务的GPU估计主要为A100、H20,我们假设两者按比例平均后批量采购价约为10万元,2.78万张大概为27.8亿人民币,另外2048张卡为H800,单卡按30万人民币计算,成本约为6亿人民币。 也就是说,幻方量化在GPU成本上的投入,总计应该不低于33.8亿人民币,再考虑到CPU、基础设施建设等相关费用,预计硬件成本至少约为38亿人民币。 在这种规模的硬件投入以及API价格比OpenAI、kimi国内外的同类型产品便宜的情况下,还能做到545%的利润率,确实非常出彩。不过这个利润率只是单纯的从API服务角度计算而来,未直接包含硬件折旧、人力、工程等诸多成本。 目前DeepSeek团队规模约150人(新希望集团董事长刘永好也在近期采访中确认和梁文锋谈话时被告知公司160人左右),主要从中国顶尖高校(如北大、浙大、清华)招聘,对核心研发人员提供年薪超934万人民币(约130万美元,网传消息),远超国内同行水平。若以人均年薪500万人民币保守估算,仅人力成本年支出已达7.5亿人民币。 另外,综合成本计算还要将数据成本、水电及管理费用计算在内,假设水电和管理费用为1.5亿,则DeepSeek的研发成本显著高于行业早期估算的557.6万美元。 综合计算,硬件、人力成本差不多47亿人民币左右,如果叠加配套软件环境开发、数据获取等隐性支出,其总研发投入应超过60亿。 给国产算力带来5000亿的机会 这两天,一些MaaS服务商在说接入DeepSeek亏钱的事情,忽略这种极端案例,总体来说,它给国产算力带来的是一个巨大的机会。 在DeepSeek发布后,华为昇腾、沐曦等国产芯片厂商迅速完成DeepSeek全模型适配,翻译过来就是,一些国产芯片也能较好地用于DeepSeek的推理服务,客户们在英伟达H20之外,多了一个可选项。 根据业内传出来的数据,DeepSeek爆发之后,H20 GPU8卡服务器的价格由从100万以内,冲到了100万以上,涨价幅度接近20%,消费级的4090 GPU则大量断货。 不过,这场接入潮对国产芯片的考验不是它们能不能适配DeepSeek,而是有没有足够的产能来匹配这波“泼天的富贵”,加入“算力游戏”当中。 除了芯片层面的适配之外,服务器提供商这波跟进的也比较快,华为、新华三推出不同配置的DeepSeek大模型一体机服务器,支持从满血版到蒸馏版不同尺寸模型的推理服务。 到目前为止,已经有几十家的服务器提供商推出了相关的一体机产品,根据配置的差异,价格落在10万-100万这个区间。对于那些掌握私有化数据金矿的企业来说,这类一体机提供了API、模型服务商和云厂之外,更符合其私有化部署和安全策略的选择。 关于其市场规模,浙商证券在研报中如此说道——2025年至2027年,DeepSeek一体机在央国企市场将达到1236、2937、5208亿元。注意下,这还只是央国企市场。 所以,DeepSeek的爆火出圈,除了振奋了国产大模型的信心外,也为大模型的普及、落地进行了一场全球性的科普,同时给更多的上下游厂商带来新的机会,这也是开头我们所说的开源——它的能量、力量的表现。 你看,黄仁勋在2025财年第四季度财报电话会议上就说,“感谢DeepSeek,它开源了一个绝对世界级的推理模型”,对于享受这波红利的国产厂商而言,更是如此。
Manus海外社交平台账号已恢复,称很快会分享很酷的用例和更新
3月8日,国产AI智能体Manus官方X平台账号@ManusAI_HQ显示已经恢复,且账号显示已获得认证,“我们回来了!提醒一下——这是唯一的官方 Manus 帐户。我们很快会分享很酷的用例和更新,敬请期待!” 3月5日晚间,成立于2023年的中国AI初创公司Butterfly Effect(蝴蝶效应)发布AI Agent(智能体)Manus的早期预览版,将其称为“全球首款通用智能体产品”。介绍视频中展示了Manus执行三个任务的过程,分别是筛选简历、挑选房产和分析股票。从介绍来看,使用者只需要给Manus一个简单的指令,它就能自动完成复杂的任务。 在这段演示视频发布后,加上多个自媒体的传播以及极为稀缺的邀请码,社交平台上Manus的讨论热度呈现指数级增长,不过随后也引来不少质疑声音。 3月7日午间,有网友发现@ManusAI_HQ账号已经被X平台冻结,该账号冻结前并未获得任何认证。晚些时候,Manus联合创始人兼首席科学家季逸超的X平台账号(@peakji)发布声明称:“我们的官方X帐户昨天意外被冻结。我们正积极与X团队合作解决此事。初步观察表明,此次冻结可能与第三方提及加密货币诈骗有关。澄清一下:Manus 从未参与过加密货币项目、代币发行或区块链计划,任何声称与我们有关联的类似名称的加密货币企业都是具有欺诈性的。” 截至3月8日午间,Manus官方X平台账号关注者为2.3万人。
Manus创始人眼中的“AI红利收割机”,估值刚刚暴涨达百亿美元
AI编程 凤凰网科技讯 3月8日,The Information报道,据知情人士透露,近年来大热的AI代码编辑器Cursor,背后的初创公司Anysphere,正在洽谈以接近100亿美元的估值从投资者那里筹集数亿美元。 这一新估值较三个月前敲定的交易估值翻了四倍,据透露,总部位于旧金山的Anysphere在过去四个月里,年度经常性收入增长了两倍,超过1.5亿美元。这一数字意味着其每月订阅收入约为1250万美元。 近日爆火的Manus创始人肖弘曾在接受媒体采访时表示,Cursor验证了“模型能力外溢,应用层吞噬技术红利”的规律。正如PC时代Windows吃掉Intel的算力进步,Cursor通过产品创新将模型能力转化为用户可感知的价值。 肖弘表示,Cursor的用户群体不仅限于工程师,还吸引了产品经理、公众号运营等非技术人群。这些用户将Cursor当作Chatbot使用,“它不仅能对话聊天、带上context,还能通过写代码的方式解决问题。” The Information认为,这笔交易将进一步巩固Anysphere在炙手可热的AI编程领域的领先地位,并为其对抗销售竞品的OpenAI和Anthropic提供弹药。 Anysphere并不自行开发生成式AI,而是依赖Anthropic和OpenAI的模型为Cursor提供支持。但风险投资机构始终愿意支持应用开发者,尽管它们依赖AI模型厂商,这主要归因于其收入增速远超上一代软件初创企业。 肖弘指出,Cursor的爆发与Claude 3.5 Sonnet模型的发布直接相关。“模型能力进化后,需要第三方厂商将用户可感知的价值呈现出来”,而Cursor正是捕捉了这一技术红利的代表。 Cursor的核心服务通过自动补全等编辑功能,帮助Ramp信用卡初创公司、Perplexity AI搜索引擎等企业的软件开发人员编写代码。开发者称赞Cursor比竞品更易用、更快速,且在参考和理解用户代码库方面表现更优。通过免费、20美元/月和40美元/月的分级定价,其价格也低于Devin等竞品——后者定价500美元/月,旨在处理更复杂的编码任务。 Anysphere成立刚满三年。去年12月,该公司以25亿美元估值完成1亿美元融资,投资者包括OpenAI大金主Thrive Capital、Andreessen Horowitz和Benchmark。其他投资者包括OpenAI旗下创投基金和创业加速器Neo。 虽然Cursor最初使用OpenAI模型驱动其代码编辑器,但在7月将其默认模型切换为Anthropic。几个月后,OpenAI通过Canvas功能在ChatGPT中发布了自有代码编辑工具。上周,Anthropic推出自家代码编辑器Claude Code,试图通过此类服务增加订阅收入。 The Information曾报道,OpenAI还在开发一款更雄心勃勃的编程助手产品,旨在复现高级软件工程师的工作能力。 不止是Cursor,风险投资机构已押注其他编程助手初创企业,寄望于这个爆发性增长的市场能容下所有玩家。 上月,Kleiner Perkins领投了编程助手Codeium的近30亿美元估值轮次融资。与Cursor类似,该交易距离Codeium以12.5亿美元估值融资1.5亿美元仅隔数月。  最近几周,尽管Poolside去年收入不足1000万美元,投资者仍在与这家开发编程助手应用和模型的初创企业高管洽谈追加投资。该公司可能在未来融资中瞄准50亿美元估值。(作者/陈俊熹) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
DeepSeek上了张一鸣的牌桌,但C位必须是豆包
字节跳动或不服DeepSeek,但必须正面它。 这种不服的一个表现是,同行都在积极接入DeepSeek,希望接住这波流量时,字节表现得十分克制,仅将旗下非核心的产品接入DeepSeek。比如To C应用悟空浏览器和即梦等,B端则是飞书、火山引擎等。而抖音、豆包这两款超级应用,也是字节在AI大模型时代的最强武器,始终没有向DeepSeek松口,表现得十分克制。 字节应对DeepSeek:既要又要 外界也能从中看到,字节应对DeepSeek压力的策略:体量较小的业务搭车DeepSeek,争夺一部分用户;核心业务则专注自研大模型,推进AI生态协同。 从实际效果看,前者收益不小,承接了DeepSeek部分流量。以飞书为例,其在2月初宣布相关产品功能全面支持DeepSeek-R1。根据七麦数据,它在苹果App Store免费榜的排名,已经由接入DeepSeek前的500名开外,飙升至Top100。 后者在DeepSeek火爆一个月后的动作也明显加快。最近短短两天内,字节就做了两个重磅更新:先是Tech星球报道,抖音在近期测试接入豆包的AI能力,开放了两个超级入口:一个是在短视频播放界面,与点赞、评论、转发等功能处于同一竖列;另外一个是抖音App的消息列表内,与目前华为小艺首页类似。 图源·Tech星球 3月6日,字节宣布豆包大模型推理模式上线,覆盖问答、搜索、写作和阅读场景,输入框打开“深度思考”开关即可体验。 DeepSeek的一个价值贡献在于,宣告开源大模型的阶段性胜利的同时,也证明推理是未来大模型的核心能力。豆包跟上了节奏。此前,kimi、腾讯元宝、文心大模型都已经上线了自家的推理大模型。 字节过去擅长利用ABtest工具批量制造App,现在推崇“务实浪漫”,表达的是“既要又要”。对于DeepSeek的横空出世,字节显然也不服气。根据虎嗅报道,字节内部认为,短期波动不能代表一款产品最真实的用户使用情况。 实际上,字节在大模型上的反应一直慢同行半拍。其CEO梁汝波连续两年在年度全员会上对此提出批评。2024年1月,他指出公司组织迟钝,对机会的敏感度不如创业公司,公司层面直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司都是在2018年至2021年创立的; 今年1月,梁汝波带领团队反思DeepSeek的爆火,称跟进速度不够,今年要追求智能上限。有字节内部人士也对外透露,其实公司早就注意到了推理模型,只是当时没有给予足够的重视。 字节之所以能在两年间跻身大模型企业顶流,关键还是张一鸣所信奉的“大力出奇迹”,确定目标后就凶猛砸钱,大手笔投流。有数据统计,仅2024年,豆包在投流上的花费就超过10亿元,其成果就是斩获当年国内用户规模最大的AI应用头衔。其他字节系主要AI应用,也基本上进入七麦年度榜单下载量前30,并在前三中占据两个名额。 这也导致在AI投入上,字节仅在2024年的资本开支就达800亿元,接近百度、阿里、腾讯三家的总和,约1000亿元。 “克制得像DeepSeek出现前的腾讯” 目前来看,DeepSeek上了张一鸣的牌桌,但C位必须是豆包。同样是面对DeepSeek,字节的态度更像DeepSeek出现前的腾讯。 要知道,过去很长一段时间,“克制”几乎是微信独有的产品“人设”。但在这轮“标配DeepSeek”的风潮中,微信乃至腾讯都在疯狂发力,快速推进旗下To C应用接入DeepSeek,其中典型代表就是微信和AI助手元宝。 2024年5月,腾讯刚发布元宝时声称,还没有做推流买量的准备,也没有对标竞品拉高整体的规模的打算。但它所面临的局面是强敌环伺,“外面都是强大的AI助手”,豆包和文小言DAU早已破百万。 腾讯也并没有因此表现得“很着急”,元宝上线后也确实没有太多的推广动作。这被外界评价为腾讯对AI的布局时间晚,力度还不够。如果需要一个解释,那就是腾讯云与智慧产业事业群(CSIG)CEO汤道生曾在一次采访中的回应:“我们在看到明确机遇的时候,会毫不犹豫加大投入,协同作战可以很敏捷的。” 也就是说,腾讯不是不舍投入,也不是没有意识到这波风口的意义,它只是在等一个时机。DeepSeek破圈后,腾讯很快意识到,“明确机遇”来了,开始毫不犹豫的加大投入:砸钱、给资源、买量,协同作战,拿到结果。 2月13日,腾讯元宝接入DeepSeek-R1满血版,同时支持腾讯混元 和 DeepSeek 两大模型,转向以自研混元+开源DeepSeek 的双引擎驱动; 2月15日,腾讯借用中国社交媒体的流量之王微信,灰度测试接入DeepSeek-R1; 3月1日,腾讯元宝电脑版正式上线。目前,元宝已经覆盖移动端、电脑端/Mac端、网页端等多个端口,应对不同场景的AI需求。 更值得关注的是,腾讯最大的流量入口,微信除了搜索接入DeepSeek,实际由元宝提供服务,还在生活服务九宫格内给元宝提供下载推广,又是红点、“new”提醒,还带着“满血DeepSeek”的标注。不禁让人惊呼,腾讯豁出去了,张小龙也不“克制”了。 也就是说,不到20天里,腾讯元宝通过生态资源投入、高强度高频次技术迭代、豪掷千金的买量投入,迅速超越DeepSeek,登顶下载排行榜,豆包退到第三。据财经天下周刊报道,截至2月27日,腾讯元宝在27天里投放共花了2.81亿元,其中多数投放发生在2月13日后。 腾讯这种反常的“着急”,也被解读为,对于AI业务,腾讯秉持的是投资逻辑,关注的核心问题是时机——什么时候观望,什么时候进场,什么时候退场。 在唐辰看来,这实质也是腾讯的投机惯性。被“催熟”的元宝,虽然暂时补齐了腾讯大模型在C端应用的短板,但后续如何保持留存,并在腾讯社交生态,特别是微信内容生态里发挥更大的作用,将是马化腾在2025年的头等大事。 豆包自研还能坚持多久? 这一点,恰好也是字节需要解决的问题。梁汝波在年度会上提到,相比追求某个具体产品,把智能本身作为最重要的目标可以激发更多尝试、不忽略关键技术节点。 这意味着,字节不会把注压在一个第三方爆款上,将更聚焦整个产品体系的智能水平,进行更激进的融合尝试。 公司战略指导贯彻到业务层面,便如火山引擎智能算法负责人吴迪的表述,他认为,客户需求不会被一家模型公司全部满足,豆包的技术路线和 DeepSeek 存在不小的差异;而且评价一个模型像评价一个人,很难十全十美,评价一个模型有几十个不同的维度,任何模型都不可能所有方面做到最好, OpenAI、Claude、Google 都是某些方面强,某些方面弱一些。 图源·3月7日App Store免费最新排行榜 这也可以视为字节在核心产品还坚持自研模型的出发点。从豆包切入抖音的方式也能看出,豆包在文案生成润色、信息抽取,特别是 vision (视觉理解方面)能力等方面的优秀表现,能给抖音创作者提供极佳的创作工具,也能满足用户搜索答案的即时需求。字节希望能在抖音生态内实现产品的跳转互通,不会给用户造成体验上的割裂感。 但字节还需要回答的问题是,豆包自研还能坚持多久?豆包自研还能在字节App工厂里发挥多大的生态能力?因为DeepSeek带来的另外一重压力是,DeepSeek的用户接受度越高,大厂接入的越深,外界对“自研+平台”的模式,以及自研能力的怀疑就越显著。 并且,大厂的模型在迭代,DeepSeek的进步也不会小。按照DeepSeek的模型更新速度,也许在2025年上半年,梁文锋就有望带领团队推出新一代模型。 业内已经有反面案例。马斯克发布Grok-3之前,曾公开评论DeepSeek-R1。他踩了一脚梁文锋,称“xAI将推出更优秀的AI模型”,Grok-3将是“地球上最聪明的AI”。但该模型在实际测试中,并未表现得足够“聪明”,也没有在全球掀起类DeepSeek的下载狂潮。 这次翻车也在提醒大厂,马斯克的尴尬可能复现。如果模型性能无法超越DeepSeek太多,很难吸引用户跳转到自家产品。 我也注意到,吴迪也表示,AI如同一场马拉松,眼下走得快一点或慢一点,放在一个很长的历史周期来看没有太大差别。 他的这句话也可以理解,字节眼下的克制也可能反转,像百度一样想“开”了,调转技术路线,跑得更快一些。没有差别,那就是实用主义优先,豆包也可能降权,被踢出C位了。会不会出现这样的局面,就看张一鸣对自研的决心和投入有多大了。 参考资料: 虎嗅,《字节不服DeepSeek,抖音另有打算》 字母榜,《马化腾把卧榻之侧留给梁文锋》 刺猬公社,《腾讯元宝靠DeepSeek登顶,但豆包不能跟风》 唐辰同学,《灰测接入DeepSeek,微信AI搜索呼之欲出?》
全球4.3万家麦当劳餐厅引入AI技术,缓解员工日常工作压力
IT之家 3 月 8 日消息,据外媒 TechSpot 今日报道,麦当劳正借助 AI 技术提升全球 4.3 万家餐厅的运营效率。该公司首席信息官布赖恩・赖斯表示,AI 将帮助员工缓解日常工作压力,包括与顾客和供应商的互动,以及设备故障等问题。 麦当劳去年已在部分美国门店试点设备端侧计算平台,并计划在 2025 年进一步推广。 IT之家从报道中获悉,AI 技术具备多种应用场景。例如,计算机视觉可通过厨房内的摄像头检查订单准确性,确保顾客收到正确餐点;去年与 IBM 共同测试的 AI 语音点餐系统则有助于优化得来速订单流程。此外,厨房设备上的传感器可实时收集数据,预测炸锅或冰淇淋机可能发生故障的时间,以便提前维护。 设备端计算还可用于简化餐厅管理工作。例如,一款“生成式 AI 虚拟经理”可帮助经理更高效地安排班次。 麦当劳未透露目前美国有多少门店已应用这一技术。市场研究公司 Gartner 分析师桑迪普・乌尼指出,麦当劳在向加盟店和直营店推广该技术时可能会遇到阻力,同时部署成本也是一大挑战。 至于 AI 是否真的必要,见仁见智。有人认为,这笔投资或许更应用于员工培训和日常维护。如果员工在得来速点单、确保订单准确性等方面表现更好,AI 介入的必要性可能就没那么高。
印度首个量产人形机器人Spaceo系列亮相
IT之家 3 月 8 日消息,科技媒体 mikekalil 昨日(3 月 7 日)发布博文,报道称 Muks Robotics 公司发布新一代人形机器人 Spaceo 系列,号称“印度首款人形机器人”,推动人工智能通用化(AGI)时代的发展。 该系列包括 Spaceo Pro、Spaceo M1 和 Spaceo Prime 三款机器人,分别针对工业操作、社交服务和太空任务设计。这些机器人搭载了名为 FusionMax AGI 的全模态 AI 系统,具备自主思考、沟通、视觉识别和任务规划能力。 Spaceo Pro:专为重型工业操作设计,负载能力达 200 公斤,每只手臂具有 7 个自由度,可举起 10 公斤重物。Muks Robotics 称其为“工业操作的终极伙伴”。 Spaceo M1:定位为“自主智能社交人形机器人”,能够用多种语言进行长时间对话,适用于服务场景。 Spaceo Prime:专为太空任务设计,体现了 Muks Robotics“保障人类未来生存”的使命。 Spaceo 系列机器人搭载了 FusionMax AGI 系统,该系统整合了动作、视觉、语音和语言能力,作为机器人的“大脑”。该 AI 系统完全离线运行,能够无缝适应新环境,机器人通过监督学习,从人类训练者提供的示例和反馈中自主学习任务。IT之家附上视频如下: Muks Robotics 由自学成才的 AI 与机器人工程师 Mukesh Bangar 博士于 2021 年创立,Bangar 博士曾是一名牙医,他的目标是创造能够思考、想象和规划的机器人,最终将人类的存在扩展到太空。Bangar 在 LinkedIn 上写道:“从概念到现实,Spaceo 体现了 AI 驱动自动化的未来。”
手机学会点屏幕了,为什么笨 AI 也有未来?
嘴巴一动 完成操作 去年 11 月。荣耀为了新机 Magic 7 Pro 的发布,策划了一次堪称行为艺术的事件营销。 时任荣耀 CEO 的赵明现场指挥 AI Agent YOYO 打开美团,下单了约 2000 杯瑞幸饮料。这一通操作过后,深圳发布会场地周边的瑞幸门店纷纷「爆单」,门店咖啡师忙到崩溃,接到订单的骑手更是在门店排起长队。 这次效果显著却略带荒诞意味的事件营销,一定程度上让公众忽略了荣耀试图展示的核心技术:「基于 GUI 的个人 AI 智能体」。 时至今日,AI Agent 功能确实已经不新鲜了。而这个技术的关键点,在「GUI」这三个字上。 GUI 全称 Graphical User Interface,图形用户界面。作为一个基于 GUI 的 AI Agent,YOYO 不再依赖传统的 API 接口,而是有了一只虚拟的「手」,直接在代替用户进行图形界面操作。整个代行操作不在「后台」,而是直接在「前台」,在用户的眼皮底下实时发生。 需要澄清的是:Magic 7 Pro 市售机型用户的体验可能会与发布会演示存在差异。据财联社报道,当时现场演示用的测试机权限更高,能够自动免密支付和循环点单,这才不停地点出了 2000 杯饮料。至少在目前,市售机型需要用户明确告知点单细节(例如品牌、品名、杯型、温度等),并且在支付环节需要用户接管确认。 这个细节确实重要,但也不至于抹杀这项技术的存在意义。正相反,我们认为,「基于 GUI」是个很另类,很有趣,颇具试验性的 AI Agent 实现路径。 AI Agent 交互的「前台」新路 荣耀 YOYO 的核心是多模态模型,GUI 交互的本质是语言+视觉的理解。 自然语言处理 (NLP):理解「点一杯冰美式」的指令; 屏幕状态感知:识别当前界面中的内容,找到正确的按钮、输入框等界面元素; 拟人化操作:像人类一样点击按钮、输入信息; 循环操作:在新的界面中持续解析内容、定位和点击界面元素。 关于 GUI 的操作部分,这最后一步具体是怎样实现的,荣耀方面没有明确透露。一种稳妥的猜测是:它能够获得手机的无障碍功能 (accessibility features) 或类似的底层权限,从而控制屏幕点击事件。 自动播放 这最后一步并不是什么难事,甚至比前面几步都简单得多。但除了此前智谱的 AutoGLM 等极少数之外,确实很少有其它第三方开发者和终端厂商在走 GUI 交互的路径。 在过去,虚拟助理控制软件和智能硬件的方式主要是通过 API 调用以及物联网协议。这可以理解为一种纯数字 (digital) 的通讯方式。 今年一月,谷歌在三星的指定机型上激活了基于 Gemini 2.0 的 AI Agent 功能。这次合作也是通过 API 或类似方式实现的(谷歌称之为 Gemini 扩展),初期仅支持 Gmail、谷歌地图、三星日历、三星时钟等第一方应用,以及 Spotify 等极少量第三方应用。 想要做到规模化,扩充支持的应用,需要开发者做一定量的 API 接入工作,同时也需要用户许可使用 Gemini 扩展。 Gemini 控制手机演示 图源:Google 谷歌依赖 API 调用后台接口,而荣耀通过 GUI 模拟前台操作,二者在实现逻辑上形成了明显区别。后者的好处,在于可以规避 API 调用这一常规方式,绕过了其背后的商业博弈和数据成本,也可以更快、更容易地扩充支持的应用,实现规模化并改善用户体验。 成本是个关键问题。一方面是云服务费用,因为无论是 API 提供方还是调用方都需要运行服务器来进行操作。另一方面,通过 API 交换的数据也具有价值,因此具有更高数据价值的 API,往往收费也更高。 以美团举例,其订单服务在内的基础 API 收费标准为每百次调用 0.15 元(前百万次免费)。这还只是基础类 API,如果涉及价值更高的管理类 API,调用收费提高到每百次 0.3 元,且无免费额度。 另外,API 的使用也暗含着一些隐性的商业竞争要素。调用方获得了数据,同时也在向提供方发送数据,而不排除在特定条件下,双方都不希望肥水流向外人田。 而在基于 GUI 的方案下,至少就目前的演示效果来看,荣耀既不需要向美团支付 API 费用,双方也无需担心数据的归属,包括与之关联的隐私安全等问题。 AI Agent 只是在「模仿人类」点击屏幕,多么原始却有效的交互方式。 回归模拟,返璞归真 这种「返祖」式技术路径,让人联想到谷歌在 2018 年推出的 AI 电话助手 Duplex。 Duplex 的思路在当时同样有点脑洞清奇:谷歌合成了一个 AI 语音,替用户给餐馆打电话订位。这个 AI 语音听起来并不生硬,甚至能够模仿真人的口音、语速、语调,以及加入「嗯」、「you know」 之类的填充词。 Duplex 技术演示 图源:Google 今时今日,AI 生成语音已经彻底「污染」了电销和客服行业,让人感到厌烦。但至少在当时,用顶尖的 NLP 和语音合成技术,通过「打电话」这种模拟人类的方式订餐,这种另类的,从数字到模拟 (analog) 的交互方式,确实令人耳目一新。 目前荣耀正在推进的基于 GUI 的 AI Agent,在我看来同样属于一种从数字到模拟的实现方式,用原始与先进相结合的思路,带来了全新的可能性。 基于 GUI 不一定是实现手机 AI Agent 的最佳路径,但不可否认它确实很有趣,甚至有点「硬来」的意思。 对于用户来说,使唤这样的 AI Agent 没有学习成本,不需要研究提示语法; 而对于第三方应用和服务平台来说,也几乎不需要额外的开发成本就可以接入。甚至反过来看,它们也无法拒绝被「接入」,因为压根就没有发生真正意义上的「接入」行为。至少以 Android 目前的沙箱机制来看,应用层不太能够「抵抗」系统底层的行为。 基于 GUI 的 AI Agent,既是一种对传统人机交互的致敬,也为 AI Agent 的落地和体验提升,提供了一种降低门槛、提高兼容性的路径。 有时候,最趁手的工具,真就只是一根干净简洁的大棒。 大模型与人机交互结合,「笨」AI 也有未来 在今天用户的主要需求场景上,有两种 AI Agent。一种是高智商型,能够解答复杂问题,完成困难的工作,比如 DeepSeek、Claude、以及前几天大热门的 Manus。这也是现在最流行最受关注的 AI Agent/Chatbot种类。 但我们同样需要另一种懂事能干的 AI Agent,它对用户的使用技巧没有很高的门槛,用户只要输入一两句简单直白的命令,它就能理解,并且把各种并不复杂的事给办好。 今天可以点外卖,将来它还能够帮你挂机放置类游戏,给指定好友的朋友圈点赞,甚至自动把刚拍下的一张照片修改一下发到社交网络。只要是用户能做的,基于 GUI 的 AI agent 一样能做。门槛低,上限高,适应性强,用起来更顺手,可能是这一类 AI Agent 的主要特色。 这类选手不需要成为理解世界的大学者,只当好执行任务的工具人就足矣。 2013 年的电影《云端情人》(Her),曾经赋予人们展开无限的遐想。当时也正值 NLP 技术大爆发,许多优秀的语音场景产品和技术涌现出来。一些研究者和从业者笃信,自然语言对话将会成为 AI 交流的最主流方式。 然而去年昙花一现的硬件产品 AI Pin,以及开发它的 Humane 公司越走越黑的路,不禁令人怀疑《云端情人》设想的乌托邦是否那般美好,语音究竟是不是 Chatbot/Agent的终极答案。 Humane AI Pin 图源:Humane 进入触屏时代,交互的门槛显著降低,以至于幼儿也能轻松地掌握。按照 AI 开发者们经常采用的比喻,大模型们的「智力」也恰如儿童。那么让 AI 通过触屏界面学习人类行为,听上去上还是很有希望的。 毕竟,你的伴侣不一定需要一首 AI 写的诗,却可能需要你按烂屏幕去抢一张周杰伦的演唱会门票。 前几天 Manus 刷屏,再次佐证了我们曾做出的一个预测:大模型将成为智能手机新的操作系统,自然用户界面 (Natural user interface, NUI) 将逐步替代现有的 GUI。 至少在目前看来,历经半个世纪发展的 GUI 仍会是人机交互的绝对主流。不过,大模型与 UI 结合,对人机交互进行一次前所未有的重新定义,甚至成为新的操作系统 —— 这样的未来,的确越来越清晰了。
任天堂Switch 2游戏掌机认证曝光,确认支持NFC和Wi-Fi 6
IT之家 3 月 8 日消息,科技媒体 The Verge 昨日(3 月 7 日)发布博文,报道称任天堂 Switch 2 现身美国联邦通信委员会(FCC)的数据库,确认该游戏掌机支持 NFC 和 Wi-Fi 6 技术。 FCC 数据库中的文件显示,Switch 2 的型号为 BEE-001。其中,“BEE”代表 Switch 2 及其配件,而“001”则指代主机本身。IT之家附上截图如下: 此外,左侧 Joy-Con 的型号为 BEE-012,右侧 Joy-Con 为 BEE-014,中继盒则为 BEE-053。这一命名规则与初代 Switch 保持一致。 文件还确认,Switch 2 将支持 NFC 技术,且 RFID 模块与初代 Switch 相同,位于右侧 Joy-Con 中。尽管尚未明确 Switch 2 是否会继续支持 Amiibo,但 NFC 功能的保留为这一可能性敞开了大门。 在连接性能方面,Switch 2 将迎来重大升级,支持 Wi-Fi 6(802.11ax)标准,带宽最高 80MHz。相比之下,初代 Switch 仅支持 Wi-Fi 5(802.11ac)。这一升级将显著提升网络传输速度和稳定性,为玩家带来更流畅的在线游戏体验。 充电方面,Switch 2 将配备两个 USB-C 接口,分别位于顶部和底部,文件证实,这两个接口均可用于充电。此外,Switch 2 的额定电压为 15V,AC 适配器最高支持 20V,但目前尚不清楚其充电速度是否优于前代。 尽管 FCC 文件透露了部分硬件细节,但 Switch 2 的售价、发布日期以及首发游戏阵容仍是个谜。不过,任天堂已宣布将于 4 月 2 日举办一场 Direct 发布会,届时可能会公布更多相关信息。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。