EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
50 颗传感器 + 700 线激光雷达,岚图首款 L3 级别 MPV 将在年内推出
继广汽、小鹏和鸿蒙智行之后,岚图也把 L3 级别的辅助驾驶功能上车的日期定在了今年四季度。 在最近的岚图 L3 级智能架构技术发布会上,他们宣布将在今年年内发布搭载 L3 级智能架构最新技术的一台全尺寸大六座 SUV ,代号为「泰山」。 岚图为了能够更好的实现 L3 级别的高阶智能安全驾驶,从而推动整车向更高阶的智能化转型,和为智能驾控提供安全保障,设计研发了一套新的智能架构,命名为「天元」。 「天元」系统主要有两大技术集群分别是青云L3级智能安全行驶平台和鲲鹏L3级智能安全驾驶系统。 青云L3级智能安全行驶平台 青云L3级智能安全行驶平台主要作用在车身域上。 作为核心技术平台,它在动力、底盘等关键执行系统上实现了全面智能化控制,支持软硬件解耦,完成了架构层级行驶系统的全域智能进化,并且全面融合了新一代轴向磁通分布式电驱、全主动悬架、线控制动、线控转向等先进技术。 这里面有几个很重要的技术突破。 首先是轴向磁通电机,其技术优势可以总结为由于磁通路径更短,磁阻较低,可以提高能量转换效率,因此在单位体积/重量下输出功率更高、扭矩更大,同时扁平结构便于散热,适合高功率应用。 岚图自研的轴向磁通电机突破了海外技术封锁,在仅 9.9L 的小体积下现实了单电机扭矩 680N·m, 28kg 极致轻量化。 这种重量更轻、结构更紧凑、扭矩密度更高的轴向磁通电机,天生更适合布置于轮边,是四电机分布式驱动的更优选项,可以灵活匹配纯电、增程、插混等多种驱动模式。如果整车采用四电机分布式驱动的话,系统扭矩最高可达 2720N·m,可以轻松实现原地调头、圆规调头等功能,并且增强车辆的通过性,提高行车安全性。 还有就是岚图新的主动悬架技术和线控制动技术。 全主动悬架技术采用双阀连续阻尼可调减振器+空气弹簧+800V高压电液泵+主动道路预瞄系统的技术路线,可实现全维感知、全域控制、智能协同。该技术配合L3级高阶智能安全驾驶,能让驾乘体验更加安全、舒适、平稳。 线控转向技术主要是取消了方向盘与转向轮之间的机械连接,采用电信号传递与控制。在满足L3级智驾需求的同时,使车辆操控更加精准、灵活。该技术可实现精准、快速的转向及制动控制,支持转向比调节、转向柱伸缩等功能,并采用冗余设计,确保安全。 鲲鹏 L3 级智能安全驾驶系统 鲲鹏 L3 级智能安全驾驶系统则主要着眼于智驾域,把感知规划和决策三大系统融合为了一体,可以实现云端生成高保真驾驶场景训练样本和实时多源数据融合,并结合用户驾驶数据,不断优化车端大模型策略,使得智驾系统能更高效地应对复杂场景。 先来看看这套系统的硬件配置。 4 颗激光雷达、12 颗超声波雷达、16 颗弹性波传感器、5 颗毫米波雷达、11 颗摄像头,组成近 50 颗传感器矩阵,再加上一颗超 700 线的激光雷达,可以更全面、更细腻的收集环境信息,更能在单一传感器出现故障时启用备份,保持安全行驶。 搭配上超过 1000TOPS 的强大算力芯片,L3高阶智能安全驾驶可以实现在 100m 外识别约 15cm 的小物体,AEB 的刹停速度也从 130km/h 提高到了 160km/h。 同时,得益于车云的智驾协同技术,其他岚图车辆可以通过云端自主学习修正,从而提升通过同类场景的安全性。比如遇到事故的情况下,后方车辆的智驾系统会主动降速,形成一串红色尾灯相连。 岚图显然对自己的这套 L3 级别的智驾系统很有信心,他们不仅获得了中汽中心和中汽智测的主动安全认证,同时也宣布和平安等多家保险公司开启合作,在2025年全面推出智驾险保障服务。 至于实际效果到底如何,各位可以先在上海车展期间关注下全新的岚图 FREE,虽然依旧是 L2 级别的辅助驾驶,但岚图也为它和华为联手投入了超 5 个亿的资源,做了超 1000 项产品改善提升,其中仅安全项就有136项。
人类幻觉比AI要严重多了
人们很容易对deepseek、元宝、ChatGPT这些AI产品吹毛求疵,批评最多的就是AI幻觉,通俗说就是你问AI一个问题,对方回答振振有词,看似严丝合缝,但其中有的内容是捏造的,弄得你对它半信半疑。 要了解AI幻觉为何产生,先得了解AI模型主要是通过从数据中寻找规律来学习进行预测。按照谷歌对AI产生幻觉的官方解释,其原因主要有两条: 最核心的是训练数据的质量和完整性。如果训练数据不完整、有偏差或存在其他缺陷,AI 模型可能会学习不正确的模式,导致预测不准确或出现幻觉。比如,基于医学图片数据集训练的 AI 模型可能会学习识别癌细胞。但是,如果数据集中不包含任何健康组织的图片,AI 模型可能会错误地预测健康组织会癌变。 另外一点是,AI 模型可能难以准确理解现实世界的知识、物理属性或事实信息。缺乏依据可能会导致模型生成看似合理的输出,但其实是不正确、不相关或无意义的内容。这甚至还包括编造指向从未存在过的网页的链接。例如,用于生成新闻报道摘要的 AI 模型可能会生成包含原始报道中未包含的详情的摘要,甚至完全虚构信息。 如果说AI模型回答问题的准确性,主要依赖于训练数据的质量和多样性,但他们又不能主动验证信息的真实性,那么从理论上来讲,人类可以通过批判性思维和多源信息验证来评估信息的准确性,但事实果真如此吗? 声誉良好的Vectara在2025年3月对目前市场上主流的AI大模型测试发现,大部分主流大模型产品的幻觉率大都处于一个较低的水平, Gemini-2.0-Flash-001,以0.7%的低幻觉率位居榜首,显示出其在处理文档时几乎没有引入虚假信息。此外,Gemini-2.0-Pro-Exp 和 OpenAI 的 o3-mini-high-reasoning 模型分别以0.8%的幻觉率紧随其后。 这样的幻觉率已经远低于我们人类中的专业精英了。当前顶尖大模型在知识密集型任务和结构化场景(如代码生成、合规审查)中已超越人类专家,只是在开放性创造(如文学创作)和现实经验依赖型任务(如复杂伦理判断)上仍有差距。 以医学为例,世界卫生组织曾公布,临床医学的平均误诊率为30%,其中80%医疗失误是思维和认识错误导致的。另据《中国罕见病综合社会调查》2020-2021数据,国内罕见病平均确诊需要4.26年,误诊率高达42%。 医学是人类幻觉的一个缩影。从宏观上看,人类的认知偏见和误解比大模型要严重多了。这其实是与我们人类的大脑处理信息的方式、认知偏见以及外部环境的影响有关,也是我们生物局限性的必然。人类产生幻觉的原因比AI幻觉的病根要多得多。 首先,人类倾向于寻找、解释和记住支持自己已有信念的信息,同时忽视或低估相反的信息。人类依赖于容易想到的信息来判断事件的可能性或频率,可能导致对事件概率的误判。我们在做决策时过于依赖最初获得的信息(锚定效应),即使后续信息可能更为重要。泰坦尼克号被认为是“永不沉没”的船只,船员和管理层对冰山警告未给予足够重视,不幸在它的首次航行中撞上冰山沉没,导致1500多人丧生。 其次,当面对大量信息时,人类可能难以有效处理和筛选,导致信息误解或错误判断。1986年,前苏联切尔诺贝利核电站的操作人员在进行安全测试时,忽视了多项安全协议和警告信号,导致了历史上最严重的核电站事故之一,造成大量辐射泄漏,事故发生后至今,普里皮亚季和切尔诺贝利一直被形容为一座“鬼城”,2000多平方公里范围接近无人区。 还有,人类时常波动的情绪状态及个人动机会影响信息处理和决策。例如,焦虑可能导致对风险的过度评估,而乐观可能导致风险低估。2003年,美国及其盟国基于错误的情报判断,认为伊拉克拥有大规模杀伤性武器,于是发动了对伊拉克的军事入侵,导致长期的地区不稳定和大量人员伤亡,最终未能找到大规模杀伤性武器。 即使是拥有巨大权力和影响力的人物,也可能因为认知偏见、错误判断或忽视警告而导致严重后果。欧洲猎巫、纳粹屠杀,以及美国总统特朗普最近发起的关税战,就是很典型的人类幻觉所引发的一系列危机。 特朗普在演讲中曾表示:“多年来,当其他国家变得富有和强大时,辛勤工作的美国公民被迫袖手旁观,其中大部分是以我们的利益为代价……现在轮到我们繁荣发展了。” 这样的言论,就连美国的铁杆盟友英国老牌的《经济学人》杂志都忍不住要批评几句:“他(指特朗普)方便地忽略了两个事实:全球化为美国带来了前所未有的繁荣,美国一直是支撑国际贸易的规则的主要制定者。现在,如果特朗普得偿所愿,那么二战后缓慢而稳步建立起来的经济秩序将被埋葬。相反,特朗普赞扬了 19 世纪末美国的繁荣,当时美国比今天贫穷得多。” 位高权重如美国总统也无法从自我认知偏见中爬出来,信息差更大的普通人的幻觉程度又当如何?就像神经科学家达马西奥所说:“人不是可以感受的思维机器,而是可以思维的感受机器。”这句话读起来绕口,但你多看两眼,就会察觉这句话的精妙之处。
在DeepSeek老家发新模型,豆包怎么想的?
摘要: 尽管研发模型是当前最紧要的任务,但凤凰网科技从豆包内部人士处了解到,内部对应用层的投入同样巨大,“拿的资源不比模型层少”。 凤凰网科技 出品 作者|徐珍 编辑|董雨晴 豆包的思考模型终于正式揭开面纱。 4月17日,火山引擎总裁谭待现身杭州,分享近四个月以来字节豆包大模型的研发进展。 其中最值得关注的,是思考模型Doubao-1.5-thinking-pro的正式上线。目前,其已通过火山引擎正式开放体验接口。 一季度,AI赛道天翻地覆。 DeepSeek最先凭借推理模型震惊海外,大厂的步伐相对滞后,这让去年AI战略被打满分的字节跳动略显尴尬。 不过,有行业人士对凤凰网科技表示,“豆包的步伐会慢,跟它用户量级大有关,如何平衡投入产出比是个问题”。 据谭待表述,豆包大模型在3月底日均tokens使用量已超12.7万亿,是2024年12月的3倍,一年前的106倍。 在基座大模型愈发呈现寡头之势的当下,豆包大模型的一举一动也备受外界关注。 根据官方测评,豆包深度思考模型的人类评估表现超出DeepSeek R1 8%,同时单位推理成本相比DeepSeek R1降低了50%。 在数学推理、编程竞赛、科学推理等专业任务领域,该模型性能相较OpenAI o3-mini-high、Gemini 2.5 Pro等模型同样并不逊色。用谭待的话来说,就是“均达到或接近全球第一梯队”。 另一亮点是多模态的能力,毕竟DeepSeek迟迟不支持除文字以外的内容。 本次豆包深度思考模型专门打造了一款视觉版,具有原生多模态深度思考能力,可以一键拍图识别地点、识别外文菜单。 豆包大模型总算是扳回了一局。 目前,在AppStore内豆包已重回免费榜第一,DeepSeek目前排名第三,元宝则位于第八。 用多模态打DeepSeek? 相比元宝赤裸裸的借DeepSeek的东风,豆包的姿态略显摇摆。 2月初,火山引擎官方即全面支持DeepSeek系列大模型,但另一边,豆包自身还在铆足劲进行模型研发投入。 当月下旬,字节跳动旗下AI助手豆包开始小范围测试深度思考模型的消息,彼时豆包相关负责人对媒体回应称,豆包App在测试的是其深度思考模型的不同实验版本;3月5日,豆包宣布上线深度思考推理模式,并以输入框的“深度思考”按钮为功能入口。 不过这些小试牛刀未能溅起多大水花。 直到本次推理模型全面上线,坦诚讲,虽然没有DeepSeek R1出现时的那种惊艳,但大厂全面作战的能力更强,在产品细节上的打磨更为细致。 比如基于豆包·深度思考模型,豆包App进行了定向训练,让模型具备了“边想边搜”的能力。思考过程中,豆包可基于推理,多次调用工具、搜索信息,提供更加全面、准确的结果。 除此之外,视觉理解模型解决了DeepSeek R1只能做文字输入的最大难点。 这一次在发布现场,谭待演示了一个很好的应用案例: 出国旅游时遇到的最大难题之一——点菜。“只翻译菜单是不够的,能直接点菜才是完美”。除此之外,模型还要思考如何换算汇率来控制预算,还要弄懂外文菜单的意思,如果有老人、孩子,要照顾他们的喜好,是否过敏等等。根据谭待现场所举的例子,豆包深度思考模型首先兑换货币控制预算,周全考虑老人孩子喜好,还细致避开过敏菜肴,非常出色地完成了任务。 豆包仍在憋大招 过去一个多月,是豆包团队紧锣密鼓的一个月。 人员架构上引入新的技术大拿,最著名的当属从谷歌加入字节的、曾参与Gemini开发的Google follow吴永辉博士。 此后其便领导豆包大模型团队加足马力,与此同时朱文佳继续负责模型应用相关工作。 尽管研发模型是当前的紧要任务,但凤凰网科技从豆包内部人士处了解到,内部对应用层的投入同样不低。“最近一个多月,各个产品部门都拉满了,个别部门还在憋大招。” 去年5月“豆包大模型家族”正式发布时惊艳四座,价格屠夫成为字节在大模型市场的一个新标签。 今年2月,百度智能云事业群总裁沈抖还曾在全员会上暗戳戳的表示,“国内大模型去年‘恶意’的价格战,导致行业整体的创收相较于国外差了多个数量级”。当时,谭待通过朋友圈回应称,大模型降价是通过技术创新实现的,大家应像DeepSeek一样聚焦基本功,少做无端猜测。 不过,本次发布的Doubao-1.5-thinking-pro模型没有特别突出它的API价格。 凤凰网科技在查询官方后发现,豆包推理模型的输入、输出价格分别为0.004元/千token和0.002元/千token,同等级模型,阿里qwen-plus输入价格可做到0.0008元/千token,输出价格与豆包模型一样。DeepSeek R1的API价格在忙时段,输入和输出分别可达0.001元/千token和0.016元/千token。 另据官方表示,豆包深度思考模型采用MoE(混合专家)架构,总参数为200B,每次推理时激活的参数为20B,可以更低延迟。相比之下,DeepSeek-R1总参数规模为671B,激活参数为37B。 在提及本次模型更新中的难点时,谭待表示,整体来说是实现效果好最难。“因为要先用各种方法达到最好的效果,在这个基础上再用各种方式去降低成本,这是一个优化的过程”。其认为,好效果能带来更大的突破,解锁更多的场景,吸引更多的用户和企业使用。所以得以预见,豆包推理模型的API价格未来还将处于动态调整的过程中。 包括朱啸虎在内的一众行业人士均认为,当前国内已经有很好的开源模型,这使得应用市场出现了显著的机会。业内越来越多人亦认为大模型的竞争最后只会剩下几家。 如李开复所言,“中国大模型未来大概率只剩下DeepSeek、阿里和字节跳动三家”。不过即便如此,相较于DeepSeek和阿里,字节仍旧需要走出自己的路。 若您有相关线索,欢迎联络,一经采用,将支付相应报酬。 线索投稿邮箱:tech@ifeng.com 线索投稿微博:凤凰网科技 或直接在公众号后台联络。
AI时代的小创业,在小红书发生
凤凰网科技 出品 作者|赵子坤 编辑|董雨晴 借助AI工具,爱好也能落地成产品 因为一条“一起开发一款调酒App“的零粉丝笔记,一款社区共创的调酒App诞生了。 00后鸡尾酒爱好者阿越没想到,自己发出的第一条笔记就“爆”了。起初只是发现调酒爱好者普遍面临配方分散、资料难寻的痛点,试探性发了这样一条“试水”笔记,没想到得到了小红书社区的热烈反响,零粉丝的账号首条笔记就破三千赞。 一个月内,他就汇集了同样爱喝酒的“云股东”们的建议,借助AI工具,把想法落实成了产品。“如果没有这么多的用户来支持这件事情的话,一个人是没有动力的。”阿越说,是小红书用户们给了他极大鼓舞。 再加上使用AI工具加速开发流程,开发一款自己的产品这个“梦想”好像没那么遥不可及了,也能用社区的力量,将小众兴趣变成大众惊喜。 当下,AI工具降低了写代码的门槛,重新激活了开发者圈层,更多有想法的“跨圈”创作者带着丰盈的创意,涌进了小红书。 据官方数据显示,过去一年,小红书站内已有近万名活跃创作的独立开发者,相关话题的阅读量超过5亿,近一年独立开发相关内容发布增长146%,小红书上科技相关内容发布量半年内增长近150%。 甚至,高中生、编剧、设计师、博主.....这一批独立开发者们不再局限于技术出身,他们身份多元,想法多维,也因此带来了更丰富的开发思路。 由于本身就是深度浸润在小红书社区的用户,许多垂直且细分的生活小观察也在这个生活分享社区被提炼出来。 播客“硬地骇客”的两位主理人,观察到用户会在小红书上发播客笔记,判断这是一门百万ARR规模的生意,于是开发了一款专门用于AI播客总结的应用「PodWise」;写作者出身的@赵纯想 把当代人“手机先吃”的习惯,变成一款用AI做饮食记录的「胃之书」;养宠人士Alex汇总了小红书上大家分享的宠物友好小地图,养宠人的生活指南「考骨地图」由此诞生…… 生活中的每个需求都能在小红书上被开发者重做一遍。曾经大而全的开发思路在转向更细分、垂直、极致的开发,这一代的独立开发者,抓住各种细分、多元的生活需求,将其落地成AI产品灵感。 AI工具的日益成熟,更突显了人类在“规则之外”的灵感可贵。AI带来的“技术平权”,也放大了“人”的独特审美和脾性。 就像在小红书社区,模仿类内容一定不是流量最好的,那些真实的随手分享,能激发大家讨论欲的内容,哪怕粉丝规模小,也能获得积极反馈。 这正是新一代独立开发者们能够在小红书快速“冷启动”的原因:只要产品够吸引人,小体量账号也能跑出爆款。 小创业时代,正在到来 资金、团队、市场调研、前期测试……在传统创业时代,从创意到实际落地,中间需要跑通的链条太长了。曾经,创业者们怀抱一个idea,还要花费大量时间走访调研,研究市场PMF,做详尽的可行性报告,评估投入产出比。 在今天,独立开发者不会再把开发产品当作很“重”的一门生意。可以先有一个模糊的想法,甚至是不太成型的念头,都可以抛进潜在用户池,听一听真实的回响,还能边做边迭代,号召“云股东”在线共创。 数据显示,在小红书上有超过 90%的开发者一年不只开发一款应用。 除了AI这对外置的钢铁臂,作为3亿人的生活方式社区,小红书上聚集了一批有审美和品味,又热爱分享交流的高质量用户——他们也是独立开发者们“零启动”最好的小创业搭子。 “小红书的用户质量还是很高的,他们一般不会随便乱写评论给你,还有很多自己对这个产品的思考,并且结合了自己的一些需求。”创意专注工具Focus Flight创始人Una说,他们在小红书上收集了大量意见,甚至还有用户专门发来超长邮件提反馈。 有人希望加入@好友 机制,有人想要发起餐食反馈,还有的想要机长和空姐的语音播报……Una把反馈整理进文档,时不时翻出来看看,有没有能改进产品的地方。 过去几年间,“活人感”十足的小红书社区,滋养了反馈感、互动感极强的社区文化,比如“听劝”——应用在产品开放上,同样是一种很讨喜的用户调研姿态。 #独家开发听劝日记 的标签下,能看到诸多独立开发者们在积极和“原始股东”们互动。 做打卡类App DayMark的 @Kenny 做产品,听进去了“momo”的建议,坚持极简风格;“小鸡专注”的版本更新,采纳了更多爱猫咪的用户的呼吁,拓宽了小动物版图;双人类成长类App @TheGame和小伙伴们 则发起了挑战用户100条建议,认为“好的产品不是设计出来,而是长出来的”…… 在衣食住行等大需求被巨头公司基本分割结束的今天,对独立开发者而言,切得足够垂直,也是一种不被“吞没”的生存策略。找到合适圈层,解决细分问题,就会有人买单。 “你无法满足所有用户,但你可以找到和你同频的用户,服务好他们就可以了。”@Kenny 做产品说。 从这个意义上看,一块能够检验创意“酸碱度”的合适土壤,尤为关键。从验证产品可行性,找到“云股东”冷启动,到根据用户使用体验迭代版本,甚至再到直接商业化变现,都能在小红书一站式闭环跑通。 “没有小红书,种子用户就得依靠我们私域导流,而且小红书用户给到的都是真实反馈,好就是好,不好就是不好。”宠物赛道连续创业者Alex说,小红书上的一条笔记,保守估计为其带来了五六千个转化。 “小红书是平权的流量机制,能够快速去验证你这个产品是不是受市场欢迎。”市场营销出身的Una说,自己现在评判一个产品做得好不好的标准变成了:有没有在小红书上刷到。 作为小红书的资深用户,Una把自己的首页信息流“调教”得非常精准,基本都是独立开发相关的笔记。从新产品的诞生,到行业大佬的新加入,她都会第一时间观察到。“对于认识同行业的人,门槛也变得更低了。” AI时代,开发者也是创作者 小创业时代到来,比拼的不只是创意,还有“养成系”产品的持久生命力和用户黏性。这和创作者、品牌的成长路径接近。 早年间,不少新消费品牌、素人博主在小红书上完成“0-1”的冷启动。小红书上足够细分垂直的需求让中腰部、甚至尾部博主都能因其真实分享而被“看到”。 当下,独立开发者们带着自己的产品涌入社区,成为社区中一个自带话题的群体。他们不仅在小红书上投出第一颗“试水石”,来以此验证产品的可行性,来观察创意的小火苗是否有机会燎原;也成为了“持续创作者”。 过去,创作者的内容形态多围绕着图文、视频两种形态。随着AI降低了开发门槛和成本,内容形态在图文、视频之外,又多了“应用”。 “内容”的边界被拓展,“创作者”也被重新定义——不再是只围绕着传统内容产出才叫“创作”,独立开发者们带来的“产品”和应用,也构成了平台内容的重要一极。 另一方面,生活社区的特殊氛围也无形中影响了开发的路径。这些新产品大多不是冰冷的降本增效生产力工具,而是在社区“共创”中长出自己的味道。 对小红书来说,留住AI时代的这一批“创作者”,尤为重要。他们表达欲强,审美独特,能带动社区讨论和丰富社区内容,还能通过“应用”与社区用户建立不同以往的连接。 从这个角度来说,“用AI把所有赛道重做一遍”的论调之下,蕴藏着更深的机遇:更细分的市场,更懂人的应用。 在4月15日举办的独立开发大赛颁奖礼上,负责小红书「开放平台」的产品负责人莱昂透露了小红书的下一步计划,通过开放平台帮助开发者持续简化创意到产品上线的流程,也更好地与用户发生对话、连接。 AI时代,“内容”正在被重新定义。小红书正连接起内容背后不可估量的广袤价值,但归根结底,这个平台的稀缺之处还是在于人的连接。
联想打造“AI照妖镜”:5秒内识破AI换脸诈骗,准确率达96%
凤凰网科技讯(作者/于雷)4月17日,联想集团展示了其最新研发的“Deepfake深度伪造技术检测器”,据悉,该技术能在5秒内准确识别AI换脸伪造视频,准确率高达96%,为当前日益严峻的AI换脸诈骗问题提供了有力解决方案。 该检测器基于DeepSeek开源大模型构建,可部署在AI PC本地运行,不仅增强了联想AI PC的数据隐私安全特性,也为用户提供了更加便捷的AI换脸识别服务。针对不同使用场景,这项技术已实现了多样化的应用适配,比如在视频会议中实时检测参会人员是否为AI伪造,或在社交媒体浏览过程中自动标记可疑内容。 据了解,随着AI技术的迅猛发展,AI换脸等深度伪造技术已经成为网络安全领域的一大挑战。两会期间,相关立法整治AI“换脸拟声”的议题也引发广泛关注。在此背景下,联想集团此举不仅展现了技术创新能力,也体现了其作为科技企业的社会责任感。 联想集团高级副总裁、智能设备业务集团全球创新中心总经理贾朝晖表示:“在AI换脸诈骗层出不穷的当下,联想全球安全实验室团队正基于DeepSeek开源大模型,打造‘AI照妖镜’,专门识别以假乱真的AI生成内容。”他同时呼吁更多技术伙伴加入这场“攻防拉锯战”,共同为数字世界筑起安全防线。 值得注意的是,四川省反诈中心、腾讯云、奇安信等政府机构和企业已加入联想的AI反诈倡议。此项检测技术支持在笔记本电脑、台式机、平板电脑和手机等多种设备上运行,具有较强的跨平台兼容性,能够为用户提供全方位的安全保障。 据悉,联想的“Deepfake深度伪造技术检测器”采用先进的深度学习算法,通过构建复杂的神经网络模型,学习真实人脸与AI伪造人脸之间的微妙差异,从而判断视频或图像的真伪。与传统基于规则的检测方法相比,这种数据驱动的检测方式具有更高的准确性和适应性。 这类技术的推广应用有望有效遏制AI欺诈行为的蔓延,不仅能保护个人用户免受财产损失和个人信息泄露的困扰,也有助于企业防范商业诈骗、保护商业机密,为构建更加安全可信的数字环境贡献力量。
特朗普拼了命也要在美国生产的“AI超级计算机”,到底是什么?
英伟达的AI芯片 凤凰网科技讯 4月17日,华尔街日报发文,特朗普本周在社交媒体上热情表示,英伟达将在美国建造“AI超级计算机”。特朗普为什么这么想让“AI超级计算机”在美国制造?它究竟是什么? “超级计算机”可以以远超日常计算机的速度和规模进行计算和模拟。它们专门用于那些需要同时处理大量数据的任务,比如天气预报或模拟原子内部发生的情况。传统上,超级计算机使用大量的CPU。在一台超级计算机中,可能有数万个CPU通过高速网络并行工作。 英伟达设想的AI超级计算机又有些不同。这是一台装有数百或数千个GPU的大型计算机,它专注于训练人工智能模型——比如像OpenAI的ChatGPT所使用的模型。GPU对于这些训练任务特别有用。 近年来,英伟达的高端GPU在推动人工智能发展方面发挥了关键作用,用它们构建的高性能计算机通常被称为AI服务器。这些服务器被集中安置在大型数据中心中。 英伟达并未对AI服务器何时转变为AI超级计算机做出精确定义,但它可能是想强调,使用其大量最新Blackwell芯片的新机器,能够用高性能的量变带来质变。 英伟达表示,它已委托在亚利桑那州建设超过100万平方英尺(约合9万平方米)的制造空间来制造和测试其Blackwell芯片,并在得克萨斯州制造AI服务器。该公司正在与全球最大的电子代工制造商富士康合作,在休斯顿建设一家工厂,并与另一家制造商纬创合作,在达拉斯建设一家工厂。 iPhone这样的高科技产品很难在美国生产,然而AI服务器是另一回事。智能手机的价格敏感度很高,价格稍有上涨,消费者就可能拒绝购买。但是购买服务器的美国大公司愿意为在本土附近生产的硬件支付更高的价格。他们能够承受在美国生产的更高成本。 此外,制造iPhone可能需要数十万的体力劳动者,所以小时工资水平很重要。而AI服务器的组装是高度自动化的,关键要素是工程、设计和软件。美国在这些领域具有比较优势。 特朗普吹捧的星际之门计划曾表示,将花费5000亿美元建设人工智能。数据中心的初始阶段计划在得克萨斯州的阿比林进行。苹果也表示计划在该州建立一家新工厂。州长办公室经济发展执行主任阿德里亚娜・克鲁兹说,得克萨斯州“将成为AI基础设施的中心”。 不过,行业观察人士表示,在这些公司给出具体成果之前,对于“引人注目”的公告应持谨慎态度。(作者/陈俊熹) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
腾讯开启史上最大规模就业计划,三年新增28000校招岗位
凤凰网科技讯(作者/于雷)4月17日,凤凰网科技获悉,腾讯正式宣布启动迄今规模最大的就业计划,未来三年将新增28000个实习岗位并加大转正录用力度,2025年单年计划招收10000名校招实习生,其中六成岗位面向技术人才。 据了解,腾讯此次开放的校招实习岗位覆盖面广泛,包括技术、产品、设计、市场及职能等五大类别,涵盖70余种具体岗位。在大模型技术加速落地的背景下,腾讯显著增加了人工智能、大数据、云计算等技术岗位的招聘比例,技术类岗位占比首次突破60%,反映出当前科技公司对技术人才的迫切需求。 数据显示,腾讯目前拥有超过55000名正式员工,其中科技类人才占比高达73%,达40000人以上。直接从事技术研发工作的员工超过27000人,约占公司总人数的一半,这一比例在主流互联网企业中处于领先水平。 腾讯公司高级副总裁、首席人才官奚丹表示,校招一直是腾讯最重要的人才来源渠道之一,公司始终重视对校招生的关注与投入。在科技创新推动发展的时代背景下,腾讯正加强对科技人才的前瞻性储备。 值得注意的是,此次腾讯校招的工作地点分布极为广泛。除深圳总部外,招聘覆盖北京、广州、上海、杭州、成都等国内六大城市,以及新加坡、美国、英国、日本、荷兰等20多个国家和地区,为青年人才提供了更多元的发展可能。 针对大模型等前沿技术领域,腾讯特别推出“青云计划”招聘专项,为入选人才提供专项培养、高管对话、学术资源等定制化培养方案,并让他们参与核心业务的前沿技术研究。 除直接创造就业机会外,腾讯生态也在间接拉动就业。中国劳动和社会保障科学研究院数据显示,微信生态已带动超过5000万个直接和间接就业机会,展现了科技平台在促进就业方面的积极作用。 腾讯公司董事会主席兼首席执行官马化腾此前曾表示,人才是腾讯最宝贵的财富。腾讯希望通过系统性扩招与全球化布局,为年轻人才持续提供广阔舞台。
失意的清华姚班“天才少年”,又开始AI创业了
AI 2.0时代到来后,那些在AI 1.0时代失意的姚班天才们,开启了二次创业的新征途。 旷视联合创始人、CEO印奇入局智驾,多了一个千里科技董事长的title;姚班天才范浩强及其在旷视的两位前同事共同创办了具身智能公司“原力灵机”。 作为中国人工智能领域的 “黄埔军校”,姚班由世界著名计算机科学家、图灵奖得主姚期智院士创办于2005年,为中国培养世界一流的计算机专业人才。 这些天才少年们能够师从图灵奖得主,无疑是开启了通往行业巅峰的大门,也让他们在技术浪潮初起时便抢占先机。 回溯中国AI产业化进程,姚班系的身影贯穿始终。 2011年,旷视科技的成立拉开了姚班系创业的序幕,凭借领先的人脸识别算法,成为AI 1.0时代的“AI四小龙”之一;2016年,楼天城带着小马智行闯入智能驾驶领域;邹昊的清影医疗、龙凡的区块链Conflux、太极编程语言的创立者胡渊鸣、药科技的创始人李成涛、宸境科技的漆子超…… 在AI 1.0时代,姚班天才们缔造了一个又一个商业神话,也亲历了技术理想主义与商业现实的剧烈碰撞。 如今,ChatGPT掀起的AI 2.0浪潮到来后,他们选择再出发,用连续创业的方式对抗技术周期的潮汐。 为何姚班创业者总能在人脸识别、大模型、具身智能等技术拐点抢占先机? “天才”是外界贴在姚班学子身上的标签,但学业上的顺风顺水不代表能在创业路上起飞。 “姚班有很多机会接触到一些没有人解决过的问题,这种培养机制让我们把解决没有人解决过的问题,变成一种日常的行为。”旷视科技联合创始人杨沐曾在接受媒体采访时这样谈到姚班。 或许姚班出来的创业者把挑战“无人区”看成一件稀松平常的事,更能解释为什么总是“姚班”。 01 “姚班” 基因,挑战“无人区”是日常 2004年,保送进清华读书的楼天城报名参加了“姚班”的入学考试,成为首届“姚班”30余名学生之一。 对于和楼天城一样想要在计算机领域,能够师从图灵奖得主,无疑一脚迈进了“巅峰之门”,毕竟在当时,计算机算法和复杂性领域几乎还看不到中国国内学者的身影。 这道门的门槛有多高?实际上,清华大学每年新生有3000多人,而“姚班”始终只有50余名同学,基本上都是数学、物理及信息学奥赛的金牌选手,各省高考前三甲,其生源主要来自保送、自主招生。 姚班课程强度大,信息量巨大,普通人可能难以想象。虽然姚班都是本科低年级学生,却不像一般计算机系学生从基础编码学起,而是被“假设”已经掌握了这些基础内容,课程更加偏重深层次的理论计算的分析和架构。 姚班2013级本科生范浩强对课上“不断升级”的难度记忆犹新。“原本预想听完一门课,自己的思维会从‘一层’升至‘五层’,这已经很刺激了,但没有想到,老师直接 从‘六层’讲起!” 这种高强度的授课方式,对普通学生而言可能是压力,但对于这些天才少年们而言,则享受着这种把不可能变成可能的挑战感。 “你们如果要做一些事,最好去做一些别人办不到的事,因为这些事只有你们可以做。”姚期智鼓励学生关注人工智能和量子计算等前沿科技战略高地,他认为年轻学者应该多做“从 0到1”的工作。 在“姚班”,本科生从不缺乏接触科研的机会,首次接触可以从一门课开始,或是一个已知的项目。学生们坐在课堂上的时间是少的,姚班给学生更多自主支配的时间去做科研、实习,还可以去访问。 图注:姚期智受邀做客清华大学“问道”活动 图源:清华大学官网 2008年,刚上大二的印奇就获得了微软亚洲研究院(MSRA)的实习机会,师从MSRA首席研究员孙剑教授,参与人脸识别引擎的研发。一年后,唐文斌也开始来到MSRA实习,就在印奇隔壁的图像搜索组,于是两人更加熟络,经常相约在MSRA附近的一个日料餐厅聊天。 因为共同的技术信仰,在姚班自主实习期间相遇的三人,成了日后旷视的核心班底和关键人物。 虽然通过一款游戏引起了投资人的关注,但最终他们还是带领旷视科技转身聚焦于人工智能领域的技术落地应用,并进行了诸多从0到1的探索,首创了人脸识别算法在业界的多项应用,包括美颜、刷脸和安防等。 2016年,AlphaGo用一场围棋大战,正式叩开AI 1.0创业时代的大门。越来越多有着强势的学科背景支撑的姚班天才们,走出实验室,跳入人工智能创业的大潮。 从Google和百度等成熟互联网公司汲取经验后,楼天城最终于2016年成立了自动驾驶创业公司Pony.ai。这家以技术见长的自动驾驶公司在成立后短短两年内,估值便超过10亿美元,成为领域内的独角兽。 成立于2011的旷视科技,也在多年摸索后,终于走到聚光灯下。从与阿里合作刷脸支付,到为美图提供人脸检测成为长期合作伙伴,再到主推安防、智慧城市等。 “不要拘泥于发论文的目标,而是上大舞台,干大事业”是姚期智经常挂在嘴边的一句话。学术研究的关键在于落地应用,也成为姚期智和学生们达成的共识。 区块链企业Conflux正是从一篇学术论文脱胎而来。 2017年,姚期智、龙凡等一众来自清华大学、卡内基梅隆大学以及多伦多大学的学者将提升区块链性能作为研究课题。在姚期智以及师兄弟们的支持下,2010届姚班生龙凡将项目产业化。 伴随着《将中本聪协议扩展至每秒数千次交易》论文发表,Conflux 成立不到半年,完成 3500 万美元的种子轮融资,投资者包括红杉资本中国等多家传统投资机构和互联网企业。 姚期智也身体力行地支持着学生们创业。他除了是Conflux的首席科学家兼联合创始人,同时也是小马智行和旷视的首席顾问。 在人工智能领域,有技术背景和创新能力、创业精神的姚班天才们,成了 VC 眼中的香饽饽。 姚班学子漆子超和吴翼共同创立的AR创业公司宸境科技,背后站着IDG资本、临港科创投、OPPO战略投资部、斯道资本等;姚班学生邹昊于2017年创办了清影医疗,成立两个月便获得了天使轮融资,真格基金、成为资本、弘晖资本等机构站队支持。 作为多位出身姚班的创业者的背后投资人,红杉中国的创始及执行合伙人沈南鹏见证了这一代计算机学子走上创业舞台的历程,“从学术上讲,他们是黄金一代;今天在商业上讲,他们同样称得上是黄金一代。” 02 硬币两面,理想主义的冰与火 姚班天才们的创业从一开始就带有浓厚的理想主义色彩,但再宏大的技术愿景也无法直接将未来拉至眼前,在一系列现实挑战的消磨下,曾经耀眼的姚班系光环逐渐变得黯淡无光。 如今提到“AI六小虎”,智谱、月之暗面、阶跃星辰、百川智能等名字自是耳熟能详,但包括旷视在内的“AI四小龙”却逐渐淡出聚光灯下。 作为一名典型的技术理想主义者,印奇从一开始就坚信AI的软硬件结合,但硬件研发需要巨额资金投入,在这条长闭环道路中稍有差池就会让企业陷入危险之中。 而随着AI技术进入大规模落地阶段,大量企业涌入相似赛道,竞争愈发白热化。尤其是在人脸识别等技术门槛相对较低的领域,产品同质化现象尤为突出。价格战使得人脸识别公司的毛利率跌破30%,旷视也陷入价格战的泥潭,利润空间被严重压缩。 “金主爸爸们”也纷纷独立研发人脸识别系统。据旷视港股招股书,2017 年和 2018 年,旷视和阿里的相关交易金额还有 2000 多万和 2600 多万,2019 年则大幅下降 56% 至 1100多万。 曾经,有技术信仰的姚班,就是投资人的“安全牌”。“投资旷视意味着和我们这些‘技术信仰者’同行,一起见证和推动这场伟大的人工智能科技革命。”2019年旷视在港交所提交招股书后,印奇在致投资者的公开信中这样写道。 但前景不明朗,资本也越发摇摆不定。西南证券研报显示,自2019年以来,AI赛道投融资事件数量下滑态势明显。 而旷视的运气又确实不太好。IPO之路遇到过两次大劫,一次是被美国制裁,一次是蚂蚁事件。去年12月,旷视科技正式撤回上市申请。 相比之下,楼天城比印奇他们的境遇要好一点,小马智行已经成功渡过了IPO这条河,但上市首日,小马智行便跌破发行价,另一条更湍急的盈亏河,至今仍横在小马智行面前。 勇闯无人区,楼天城也走了不少弯路。在他的记忆里,从2017年到2021年,小马智行经历了最艰难的5年。 在这5年里,外界几乎看不到L4级自动驾驶公司的进展,他自己也因2019年的技术瓶颈,对当时已经做了3年的技术感到绝望,开始找寻新的方向。 在2019年之前,小马智行做自动驾驶的思路也是基于模仿,即learning by watching。但经过3年技术验证,他发现通过模仿根本做不到L4,所以2020年开始,技术路线切换成learning by practicing。 更大的挑战还在于行业大环境所带来的不确定性。 2021年,因商业模式不明确和技术局限性等影响,L4的技术路线开始遭受铺天盖地的质疑。资本市场开始反思,自动驾驶的普及是不是需要的时间太久了。 到了2022年,很多原本押注L4级自动驾驶的初创公司开始转型做L2供应商。其中不乏地平线、黑芝麻、Momenta和卓驭等明星智驾企业。 在现实面前,楼天城也不得不考虑“沿途下蛋”。2022年年底,小马智行成立了乘用车智能驾驶(POV)事业部,产品线包括智驾软件品牌小马识途、域控制器方载、数据闭环工具链苍穹。 但与此同时,作为技术理想主义者的楼天城仍坚信L4的正确性。 但在楼天城看来,很多科技领域都会遇到类似的问题——商业化成熟之前,有很长的真空期,但不是技术的真空期,而是对外展示的真空期。 2022年最后一个工作日,小马智行拿到了北京和广州两地的无人驾驶牌照。用3年时间,小马智行终于部分证明了L4级自动驾驶技术的落地可行性。 03 AI 2.0到来,天才们重新出发 2022年底OpenAI推出ChatGPT,宣告AI 2.0时代的到来,姚班天才们也迎来了重新用技术变革行业的新机遇。 如今,印奇、旷视还有股东们都放下了上市执念,印奇和范浩强也开始另起炉灶。 对于这些姚班天才而言,竞赛早已成为他们的文化基底,无论是打比赛拿结果,还是不断拥抱变化,已然成为他们面对困难时的本能反应。 在自己创立的上一家公司尚未拿到明确退出结果时转身,无论是对于印奇还是范浩强而言,恐怕都不是一个容易的决定。 但AI浪潮方向不断更迭,不想错过时代风口的姚班天才们另起炉灶,显然是为了追寻更大发展机遇。 去年12月,清华姚班天才、旷视6号员工范浩强,与同为旷视员工的周而进和汪天才一起创办了原力灵机,投身具身智能机器人领域。注册当日就宣布近期完成2亿元天使轮融资,投资方包括君联资本、九坤创投、启明创投。 具身智能已经不是一片蓝海,2024年年尾才入局的原力灵机可以快速完成天使轮融资,与其姚班天才的身份和旷视10年的视觉经验不无关系。 与此同时,原力灵机背后的股东也有杨沐和唐文斌的身影。 印奇的选择则不是大热的 AI 大模型或具身智能,而是被大部分人认为窗口期已过的一个大市场:智能化汽车。 2023年春天,印奇在旷视企业业务合作伙伴大会上说,AI 未来会沿两大方向演进:一是 AI in Digital:以 ChatGPT 为代表的技术,给数字世界带来新技术范式的迁移。二是 AI in Physical:以特斯拉为代表的企业,将 AI 技术引擎与硬件载体结合,产生自动驾驶、机器人等不同类型的智能机器,改造物理世界。 坚持软硬一体化的印奇选择智能化汽车并不意外。只是现在,不管是具身智能还是汽车智能化,竞争都更甚于当年的计算机视觉。 不久前,同样由清华姚班天才、斯坦福助理教授马腾宇创立的 Voyage AI,被美国开源数据库上市龙头MongoDB以2.2亿美元价格收购。 作为一家AI大模型明星公司,Voyage AI的成立时间才17个月,且拥有“天花板级”的豪华团队。“AI教母”、美国国家工程院院士李飞飞,斯坦福大学AI实验室主任等全球顶尖专家是该公司的顾问。 在社交平台上,马腾宇用“强强联合”形容Voyage AI的出售,“卖掉公司可以迅速融合产业,加快大模型的商业化。” 从 AI 1.0 到AI 2.0 时代,技术实现了飞跃,但在商业领域,AI 2.0时代的商业化落地同样困难重重。 金沙江创投主管合伙人朱啸虎就曾明确表示不看好大模型,认为中国的大模型公司要场景没场景,要数据没数据,且估值昂贵。 面对更烧钱的大模型,朱啸虎认为其结果可能还不如“四小龙”,“四小龙是中国AI产业未来发展的上限,毕竟他们赶上了政府安防建设的大红利。” 这或许意味着,姚班天才们必须用更快的技术迭代速度来压缩商业周期,在资本耐心耗尽前跑出新的范式——毕竟在AI竞赛的终局到来前,每一代领跑者都只是暂时握住了接力棒。
TCL旗下格创东智与香港大学共建工业AI实验室,聚焦供应链与智能物流
凤凰网科技讯(作者/于雷)4月17日,工业AI解决方案提供商格创东智与香港大学于昨日(4月16日)签署战略合作协议,双方将共同成立“香港大学-格创东智工业AI联合实验室”。该实验室将致力于工业AI技术的创新与实际应用研究,覆盖供应链运筹优化、智能物料搬运调度、智能体与超级自动化应用等多个前沿技术领域。 签约仪式在港大校园内举行,出席嘉宾包括香港大学校长张翔教授、TCL创始人李东生董事长等重量级人物。此次合作中,格创东智承诺未来5年投资数千万港元用于实验室建设与运营,彰显了其在工业AI创新领域的长期战略布局。 值得关注的是,香港大学副校长(研究)申作军教授将出任格创东智荣誉首席科学家,并担任工业AI联合实验室管理委员会主任。申教授拥有香港工程科学院院士、INFORMS和POMS院士等多重学术身份,在运筹优化领域具有丰富经验和深厚造诣。 实验室首个落地项目聚焦AMHS智能物料搬运调度系统,由港大研究团队与格创东智AMHS业务部门协作开发,旨在实现千台OHT天车调度AI算法技术突破。该项目完成后,有望快速复制至东南亚半导体制造集群,为区域企业智能升级提供解决方案。 据悉,TCL工业研究院、格创东智与香港大学此前已基于香港政府"产学研1+计划"(RAISe+)开展合作。该计划可能提供高达上亿港元资助,为工业AI研发提供持续支持。这一产学研合作模式不仅为区域制造企业提供智能化升级路径,还将在港创造数百个科研岗位,助力香港储备工业AI技术人才。 从战略层面看,此次合作是格创东智继年初迭代章鱼Agentic AI平台后,在工业AI领域的又一战略布局。公司首次将工业AI研发、场景验证与商业化全链条整合于香港,既是看好香港国际化枢纽地位,也是对业务全球化的前瞻性规划。专家认为,随着这类高水平产学研合作不断深入,香港有望成为具有全球影响力的工业AI创新枢纽。
谷歌OpenAI之外的第三种选择,三星手机要预装的Perplexity AI什么来头?
编译 | 梁颖琳 编辑 | 云鹏 智东西4月17日消息,据彭博社报道,AI初创公司Perplexity正与三星电子就手机端AI助手集成展开谈判。若合作达成,该公司的AI服务将预装至三星Galaxy系列设备,或通过Galaxy应用商店重点推广,与谷歌和OpenAI形成竞争关系。 Perplexity于2022年成立于美国旧金山,该AI搜索引擎公司由由包含Aravind Srinivas等四位资深AI专家联合创立,核心团队来自DeepMind、谷歌等顶尖机构。 知情人士称,双方谈判仍处初期阶段,但三星投资机构NEXT去年已注资Perplexity,三星正在讨论未来对Perplexity进行另一项投资。 与此同时,联想旗下摩托罗拉已敲定合作计划,其新款折叠屏手机将搭载Perplexity作为谷歌Gemini的替代选项之一,摩托罗拉计划在4月24日纽约发布会上讨论合作关系。 一、三星合作细节披露,多元化布局对冲谷歌依赖 三星与Perplexity的谈判内容涉及两种可能:一是将后者设为默认AI助手选项,二是预装其安卓应用。 三星设备依赖谷歌的AI技术与搜索服务,但通过投资Perplexity,三星正寻求技术合作多元化。此外,三星可能会在Galaxy Store中大力推广Perplexity。 Perplexity同时也正在与投资者进行更广泛的融资谈判,目标是将估值翻倍至18亿美元。 二、与摩托罗拉首度联手:Razr折叠屏手机定制AI界面 摩托罗拉的合作则更为明确。其即将发布的Razr折叠屏手机将预装Perplexity,并提供定制化交互界面,Perplexity将作为谷歌Gemini的替代助手。 ▲图示为摩拉罗拉公司标志 消息人士透露,摩托罗拉将在营销中重点突出Perplexity的“实时检索”与“多模型调用”能力,Perplexity可以调用OpenAI等公司的模型。 值得注意的是,摩托罗拉当前市场份额很小,但该公司正在取得进展。通过与Perplexity绑定,摩托罗拉试图在AI体验上打造差异化卖点,吸引高端用户群体。 三、Perplexity:DeepMind团队操刀,成立3年估值激增 Perplexity是2022年成立于美国旧金山的AI搜索引擎公司,由Aravind Srinivas等四位资深AI专家联合创立,核心团队来自DeepMind、Google等顶尖机构。 截至2024年,其月活跃用户达1500万,累计处理超50亿次查询,估值达90亿美元。 其技术包含多模型融合引擎(动态整合GPT-4、Claude 3等顶尖模型)、RAG增强检索(实时抓取网络数据,信息时效性至分钟级)、透明化知识图谱(答案标注3-8个权威来源),并支持自然语言提问与个性化推荐。 商业模式上,Perplexity提供20美元/月的Pro订阅服务,含无限查询、文件分析等高级功能。初期主攻欧洲市场,展现从搜索引擎向“行动引擎”的转型野心。 结语:硬件厂商AI合作进入竞合关系深水区 手机厂商正加速引入第三方AI方案以摆脱单一依赖。 三星与谷歌的深度合作虽存利益冲突,但投资Perplexity显露出其对技术多元化的野心。 AI助手赛道或将迎来新一轮洗牌——当硬件厂商开始“脚踏多条船”,用户选择权扩大的同时,创业公司与巨头的竞合关系也将更趋复杂。
Nature公布21世纪高被引论文,何恺明的ResNet登顶
编译 | 陈家阳 编辑 | 漠影 智东西4月17日报道,近日,Nature杂志对21世纪以来引用次数最多的25篇论文进行了分析,揭示出一个有趣的现象:在科学界,讲述方法和软件的论文比著名的科学发现更常被引用,这些论文主要集中在人工智能(AI)、研究方法或综述、癌症统计和软件研究等领域。 特别值得关注的是,于2016年发表的《应用于图像识别中的深度残差学习(Deep Residual Learning for Image Recognition)》成为21世纪被引用次数最多的论文,何恺明是该文第一作者,当时正在北京的微软亚洲研究院工作。 此外,Nature在这篇分析中还讨论了其他高被引论文,包括改进的图像处理网络架构“U-net”,开源的“随机森林”(random forest)机器学习算法,谷歌研究人员发表的有关Transformer模型的论文等。 ▲Nature统计的21世纪10篇被引用量最高的论文 一、ResNet研究位居榜首,何恺明是第一作者 作为计算机视觉和AI领域的顶级科学家,何恺明在学术生涯早期便展现出了非凡的研究才能,在微软亚洲研究院工作期间,因提出深度残差网络(ResNet)而名声大噪。 ResNet解决了深度神经网络训练中的梯度消失问题(即随着网络层数的增加,网络的性能反而可能下降),使得研究人员能够训练约150层的神经网络,比以往使用的神经网络层数多5 倍以上。 该论文在2015年底作为预印本发布,2016年正式发表,随后于ImageNet竞赛中得到验证,并促进各种图像识别任务取得了突破性进展。 ResNet的影响力不仅限于计算机视觉领域,其思想也被广泛应用于现代深度学习模型中。能够下棋的AlphaGo、预测蛋白质结构的AlphaFold以及大语言模型GPT等AI工具的出现,都离不开ResNet,它使神经网络能够达到前所未有的深度,重新定义了深度学习的潜力边界。 “在ResNet之前,‘深度学习’并没有那么深入,”目前在麻省理工学院工作的何恺明说。 作为“深度学习三巨头”之一的杨立昆,曾在采访中对ResNet研究取得的成就表示赞赏,“这显示了全球范围内都存在着杰出的科学家,并且创新的灵感可以源自世界的任何一个角落。” 二、21世纪,AI领域论文的黄金时代 “AI教父”杰弗里·辛顿(Geoff Hinton)表示,AI领域的论文在引用方面具有天然优势,这些领域的论文与许多学科相关,特别是在21世纪AI行业实现快速发展。 不少人把深度学习革命归功于辛顿在2012年合著的一篇论文,其中提到的名为“AlexNet”的网络,在识别和标记图像时以压倒性优势击败了其他方法。这篇论文在此次排名中位列第八,而辛顿另一篇关于深度学习的综述论文排名第十六。 在提出AlexNet三年后,一篇有影响力的论文介绍了名为“U-net”的网络,可以用更少的训练数据来处理图像。该论文现在排名第十二位。其合著者之一奥拉夫·伦内伯格(Olaf Ronneberger)因该论文被DeepMind招募。 2017年,谷歌研究人员在发表的《“注意力就是你所需要的(Attension is All You Need)”》 一文中首次提出了Transformer神经网络架构,通过自注意力机制(self-attention)来提升大型语言模型的性能。这篇论文在本世纪高被引论文中排名第七。 在机器学习领域,许多早期的学术论文是开源的,这也提高了其引用次数。《随机森林(Random forest)》得益于提出开源、免费且易于使用的机器学习算法,而引用量激增,在此次排名中位列第六。 结语:科学方法与软件是影响论文引用量的重要因素 引用,是作者在文献中核实知识来源的方式,是衡量论文影响力的重要标准之一。 Nature通过研究分析表明,被引用次数最多的论文,通常不是介绍著名的科学发现,而是倾向于描述科学方法或软件,即科学家所依赖的基础工具。 “科学家们说他们重视方法、理论和经验发现,但实际上方法被引用得更多,”密歇根大学安娜堡分校的社会学家米沙·特普利茨基(Misha Teplitskiy)指出。这些高引用论文,不仅展示了它们在学术界的影响力,也反映了科学界对方法的广泛认可和应用。
深圳机器人公司宣布宣亿元融资,普华资本领投
作者 | 江宇 编辑 | 漠影 机器人前瞻4月17日消息,深圳工业机器人企业劢微机器人宣布完成亿元级B2轮融资。本轮融资由普华资本领投,梅花创投连续三轮加注,明论资本担任独家财务顾问。 劢微机器人成立于2019年,作为一家专注于智能制造及智能物流的企业,此次融资将重点投入核心技术研发、全球市场拓展及智能工厂建设三大领域,通过技术研发强化产品竞争力,拓展市场覆盖范围,并建设智能工厂提升量产能力,最终推动工业物流全面无人化进程。 一、5轮融资金额超过5亿元 根据官方公布的信息,2021年至今,励微机器人完成了5轮融资,总融资金额超5亿元,各轮次融资情况如下: 2022年12月,完成近2亿元B轮融资,本轮由华业天成领投,金丰博润跟投,东信天创投持续加注。 2022年2月,完成超亿元A2轮融资,本轮由创世伙伴资本CCV领投。 2021年8月,完成超亿元A1轮融资,本轮由信天创投、梅花创投、PNP中国基金联合投资。 2021年1月,完成数千万A轮融资,本轮由梅花创投、PNP中国基金联合投资。 劢微创始人兼CEO陈文成曾表示:“在全球经济波动和疫情冲击的背景下,我们在短短4年间达成了同行6年甚至更久时间才实现的三大里程碑:构建核心技术壁垒、落地复杂场景以及加速全球化市场开拓。” 二、专利布局超400项,核心部件自研率突破80% 2019年,在在联想集团工作了14年的陈文成开始创业,他带领3人初创团队正式成立劢微机器人,通过复用行业经验快速完成首款无人叉车原型研发,并获得了校友支持的327.5万元天使投资。 公司成立后,劢微选择高难度场景验证产品力,通过半年的现场开发与调试,交付16台设备。在此过程中,劢微团队逐步吸纳研发、供应链、营销等领域的专业人才,形成全链条能力。 截至2025年,其专利布局超400项,核心部件自研率突破80%,构建了涵盖高精度导航、极端温域运行、集群调度的技术体系。同时,劢微机器人与哈尔滨工业大学合作的AGV集群控制实验室、冷库传感器防雾技术等研究成果,直接支撑了全球化场景适配能力。 目前,劢微机器人通过覆盖无人叉车、AMR(自主移动机器人)、无人牵引车及四向穿梭车等全品类设备的30余款产品矩阵,构建了存储与搬运场景的完整智能物流解决方案,全面适配主流场内物流需求。 其合作客户已涵盖国内外700余家知名企业,包括中国航天、中国平煤、中国商飞等国内龙头企业,以及空中客车、日本住友、韩国三星、LG、韩华等国际集团。 目前,劢微机器人的业务版图已扩展至全球30余个国家和地区,海外市场收入占比从2022年初创期的不足10%快速攀升至40%,其在美国亚特兰大、德国北威州、日本东京、韩国首尔等地设有海外分支机构,通过设立本地化团队与展厅,实现了从产品输出到本土化服务的全面升级。 结语:资本持续加码,劢微机器人迈入新阶段 劢微机器人近期完成的B2轮融资延续了其稳定的融资节奏,这一系列融资活动既反映了资本市场对其技术实力和商业模式的认可,也为公司后续发展提供了必要的资金保障。 未来,随着新一轮资金的到位,劢微机器人在技术迭代和商业落地方面或将取得新的进展。不过,如何在保持技术领先性的同时实现商业化规模效应,仍是包括劢微机器人在内的行业参与者需要持续探索的课题。
未来你买到的 iPhone,将完全由可再生材料制成
绿色的 苹果 作为地球上最热衷环保,可能没有之一的企业,苹果会在每年地球日来临之际,分享公司在环保事业的最新进展,今年自然也不例外。 总体来说,和 2015 的基准水平对比,苹果的直接碳排放量已经减少了 60% 以上,距离 2030 年实现所有足迹的碳中和的承诺更近一步。 苹果公司本身已经在 2020 年实现了碳中和的目标,这不仅只停留在数据中心、公司运作这些较大的层面,也包括了员工通勤和差旅等细节。 但苹果要实现的是「全链路」环保,意思是不仅苹果公司本身,其产品生产、运输和使用的过程中,都要做到「零排放」。 因此,更大的挑战在于和苹果合作的供应链以及更多伙伴。目前,苹果大部分的碳排放都来自产品制造,而这个过程中绝大部分都来自电力使用。 为了解决这个问题,苹果从 10 年前开始和全球制造商合作,将生产能源过渡到 100% 可再生电力,预计 2030 年,所有苹果的供应商都会在生产过程中采用清洁能源。 目前为止,苹果的全球供应商中已经有 17.8GW 的清洁能源并网使用,减少了近 2180 万吨碳排放,比去年又上升了 17%。 作为苹果产品生产的重要一环,中国供应链也是减排的重点,苹果也在上个月面向国内发起了第二期清洁能源基金,首批基金已经在国内 14 个省新建超过 1 千兆瓦的风能和太阳能发电项目。 除了碳排放,供应链也消耗了苹果总体水资源消耗的绝大部分。和清洁电力过渡一样,苹果和供应商紧密合作,加强水资源的循环利用,提高生产用水效率,去年一年就节约了 140 亿加仑的水。 材料方面,苹果也有不小的目标,计划未来所有苹果产品使用回收或可再生材料,不再需要使用全新的材料。 毕竟,研究显示,到了 2080 年,地球上绝大部分的金属不再深藏地底,而将分布在我们手上的设备中,因此废弃的电子产品,其实就是一个个小「原矿」。 具体今年来说,苹果打算让三种主要元器件生产 100% 采用可回收材料,目前进度也达到了 99%: 电池中的钴 磁铁中的稀土 印刷电路板中的金镀层 目前的苹果产品当中,再生材料占比最高的是 MacBook Air,达到重量的 55%,整部笔记本的铝金属外壳,都使用的是 100% 的再生铝金属。 这种再生铝金属在冶炼过程中不仅不会释放出温室气体,甚至还会产生氧气,这个魔法般的技术背后是苹果对相关供应商的大力投资。 10 年前,铝金属的使用曾经是苹果总体碳足迹的 27%,而换用再生材料后,已经降低到 7%。 采用这种铝金属打造的 MacBook,机身的做工和质量不会降低。而这非常重要,因为对环境来说,最好的产品就是经久耐用的产品。 如果你这两年买全新的苹果产品,或许会发现盒子上已经没有了塑料包装膜,盒子内包裹产品和配件的材料也不是常见的塑料纸。事实上,当下苹果全线产品的包装之中,塑料只占到了 1%,在今年也将完全被替代。 通过促进供应链向清洁能源转型、增加产品再生材料比例等综合措施,苹果去年避免了约 4100 万吨温室气体排放,比北京所有汽车一年排放量还多。 不仅供应链的合作伙伴,就连消费者也能通过「Apple Trade In 换购计划」,将不再使用的设备回收给苹果,共同参与环保。 这些老旧的设备,一部分会在翻新后再次出售,获得第二次生命。其他的产品中还有价值的材料,还会重新进入供应链中。 几年前苹果已经介绍过的回收机器人「Daisy」,现在能力更强了,已经能够拆解、回收 36 款不同的苹果机型。目前 Daisy 在美国和欧洲都进行了部署,每年一共能够回收 240 万台设备。 除了 Daisy,苹果还有「Dave」和「Taz」两种机器人,专门用于回收稀土、钨等贵金属。 受到目前现有的技术水平制约,苹果其实无法真正在 2030 年实现完全的碳中和,大约有 25% 的碳排放暂时无法通过大面积部署新技术来抵消,其中大部分都来自产品运输环节。 除了继续与合作伙伴合作,苹果还投资生态项目,通过移除大气二氧化碳的方式生成「碳额度」,以抵消这部分暂时还无法减少的碳排放,投资恢复森林、湿地和草原的项目,不仅有环境效应和社会效益,也能带来财务回报,预计今年将从大气中清除 100 万吨二氧化碳。 苹果的电子产品以「封闭」的特性著称,但在环保事业上,却又无比开放,不仅严于律己,更推动合作伙伴和消费者共同参与其中,而且让每个人都能从中获益。 和苹果合作成功升级的上游供应链,当它们生产其他非苹果产品时,同样也能使用清洁能源,因此让更多人用上了绿色产品。 环保更是和我们个人息息相关,苹果将在 4 月 22 日地球日当天,为 Apple Watch 用户提供限定版「地球日奖章」,只要完成 30 分钟以上任意体能训练就能获取,鼓励更多用户去户外走走,亲近自然。 苹果的「绿色事业」确实也引发过一些非议,但如果你打开苹果专门设立的环保主页 www.apple.com.cn/environment/,你不仅能看到一个上百页的详细《年度环境报告》,还能找到每一种产品的环保细节,发现这个「青苹果」不仅仅只是将环保挂在嘴边,也有身体力行在干一些实事,影响着这个行业。 我们不会为了环保选择购买一台 iPhone,但我们当然希望一台手机,好用之余,也对我们赖以生存的星球更友好。
实测 Dia 浏览器:用 AI 改造一切,包括光标
用AI 改造一切 30 年过去了,浏览器最大的变化可能是图标。 「互联网之父」蒂姆·伯纳斯-李 1990 年设计的基本交互模式——通过超链接(Hyperlink)实现网页之间的跳转,以及后面输入网址、等待加载、回到上一页等逻辑,在今天岿然不动。 都 2025 年了,我们还在用同样的姿势,对着屏幕傻傻地等待页面加载。 过去十年,我们见证过许多号称「要颠覆浏览器市场」的浏览器,Arc 也是其中被誉为全村最有希望的种子选手,但却在拥有百万级用户,烧掉 1.5 亿美元后,母公司 The Browser Company 宣布停止更新,黯然退场。 去年,在完成 5000 万美元融资后,他们决定将重心转向开发一款名为 Dia 的原生 AI 浏览器。 创始人 Josh Miller 表示,Dia 要构建一种完全不同类型的浏览器——一个更加主动、更强大、更以 AI 为中心、更加符合最初愿景的浏览器,可以称它为网络浏览器的 iPhone,或者「互联网计算机」。 Arc 浏览器在其早期和公测阶段使用了邀请码制度,显然 The Browser Company 从中尝到了甜头。 最近,这款名为 Dia 的浏览器终于上线,采用邀请码制,开始小范围开放体验。体验设备有一定限制,目前适用于配备 Mac M1 芯片或更高版本的 macOS 14+。 在各家都在竞相将 AI 融入离用户最近的浏览器,Dia 的表现能否脱颖而出,AI 又该如何重塑浏览体验,这些都是我们想要探究的问题。 Google+Perplexity,Dia 想用 AI 改变浏览器? Dia 的主页非常简洁,只有一个最为寻常不过的搜索框,甚至可以说清爽得有些不像样,但这也许正是浏览器最理想的样子:提问、获取答案、结束。而不是塞满热搜榜单,分散你的注意力。 输入问题后,Dia 会弹出一个候选窗口,提供 Google 和 Chat 两个选项。 顾名思义,前者直接跳转到常规搜索引擎页面,后者则类似于 Perplexity 等 AI 搜索引擎,既能调用 Dia 自带的大模型直接给出答案,拥有独自的历史聊天记录,遇到复杂问题时,也会联网搜索。 「现在的宠物能坐高铁了吗」「马斯克现在管理着多少家企业」,Dia 的回答质量属于不太稳定的那种,同一问题的几次回答,都在正确和出错之间反复横跳。 用英文提问,回答质量也不会显著提升,甚至它就把星链误认为独立公司。实测下来,Dia 偶尔会在回答中附上图片;用中文提问时,有时也会意外触发英文回答。 输入框底部,你还能看到「Personalize Dia」,设置崇拜对象、喜欢的学习方式,以及 Dia 的回答风格,可以帮助 Dia 快速了解自己,起到调教 AI 人设的作用。 随手上传一个互联网梗图,Dia 也能够轻松识别表情包的言外之意。文档总结很到位,10 万字被梳理得清晰明了,但值得注意的是,文档大小限制在 100M 内,且实测不支持上传 Doc 格式文档。 左上角会显示出现了两个 ChatGPT, 应该是 Bug 总结公众号文章,甩个链接即可。 值得注意的是,Dia 浏览器使用的是 Chromium 引擎的特定版本。Chromium 是一个开源项目,许多现代浏览器(包括 Chrome)都基于它构建。 交互是最大亮点,但 Dia 还是个半成品 交互设计是 Dia 的一大亮点。传统 AI 插件主要以侧边栏、悬浮窗的形式呈现,涵盖 AI 聊天、翻译、网页总结等。右上角的 Chat 可以看作一个阉割版的 AI 插件,虽然功能稍显单薄,但在交互体验上却做得不错。 划词后,右侧就能直接提供查找或解释功能,整体操作流畅顺滑。 比如在知乎看到有人推荐线性代数书籍,我本来想评论一句「不明觉厉」,但写到一半卡住了,怎么办,这时候,放到光标处,光标就会变蓝变粗,点击会自动调出右侧 Chat 界面。 接着我简单描述了「看不懂,但我大受震撼」的想法,Dia 就会浏览完整个页面,并给出几个评论方案。 这些建议甚至模仿了知乎热评区的轻松语气,简洁直白又人性化。确认无误后,点击「Insert」就能自动插入扩写左侧评论。 自动播放 没时间看视频,总结视频内容也可以。这里有个小技巧,也能让它给出总结视频的字幕。不过,我让其生成 Word 或 PDF 文档后,却没有后续反馈。 另外,Dia 还能通过点击「View 菜单-Add Split View Pane」在浏览器内实现快速「分屏」,最多可同时分出 4 块屏幕。 不过,这个功能实用性有限:它仅显示搜索结果,点击具体网页仍会跳转到全屏模式,属实有点「中看不中用」。 Arc 曾常被吐槽无法迁移 Chrome 书签,现在吸取教训的 Dia 提供了一键导入书签功能,支持无痛迁移。 没有像 Arc 那样「剑走偏锋」,Dia 选择了更常规的横向标签页设计。你可以在输入框里添加各类网页标签,也能一口气将所有标签加入对话上下文,提升多标签页的信息联动能力。 类似 ChatGPT 调用 GPTs 的方式,Dia 也支持通过 @ 调用各个网页标签。 玩法很朴素,我挑选了过往几篇关于 Ai Pin 的文章,并让其总结 Ai Pin 值得吐槽的点,很快就得到了清晰的答案。 浏览器 2.0 时代已经开始,而 Web,远未走向死亡 2010 年,克里斯·安德森(Chris Anderson)与迈克尔·沃尔夫(Michael Wolff)在《连线》杂志共同撰写了《Web 已死,Internet 永生》一文。 文章犀利地指出,万维网(Web)在诞生二十年后正逐渐走向衰退,其原因在于传统的 Web 浏览模式逐渐被更简单、更流畅的服务所取代,尤其是应用程序(App)的崛起,更简洁、高效,能够直接满足他们的需求。 比如,打开一个新闻 App 就能立刻浏览头条,而无需在浏览器中输入网址、等待页面加载。这种「App 优先」的趋势在过去十年中几乎主导了互联网产品的开发逻辑。 然而,生成式 AI 的崛起重新将产品开发的焦点拉回到 Web 模式。这种转变看似出人意料,却又合情合理。 AI 交互本质上是以文本/对话为核心,Web 界面天然支持复杂的文本输入输出,且能便于分享结果和协作。 生成式 AI 模型计算需求大、迭代速度快。在不确定哪种 AI 应用场景最有价值的探索期,Web 平台能以最小成本覆盖所有设备用户,加速产品市场匹配验证。 并且,相比下载 App 的心理和实际成本,Web 版本让用户可以「即点即用」,减少了用户尝试的障碍,这对于像 ChatGPT 这样天然陌生的产品也尤为重要。 浏览器的基本形态和功能已经维持了近三十年。1989 年,蒂姆·伯纳斯-李(Sir Tim Berners-Lee)在 CERN 工作时,创建了万维网(WWW),以满足科学家、大学和其他研究机构之间共享信息的需求。 网页浏览器应运而生,但它的设计初衷是围绕文档展开的,这一底层逻辑至今没翻篇。 到后来的 Netscape Navigator,再到如今的 Chrome、Safari、Firefox 和 Opera,浏览器的核心元素(标签页、地址栏、收藏夹)表面形态不能说毫无变化,但也变化不大。 过去,我们通过搜索引擎获取信息的方式是这样的:输入关键词,得到十几个甚至几十个结果页面,然后一个个点击,浏览,判断,筛选,最终从海量信息中找到自己需要的那一小部分。 这个过程就像在图书馆里翻阅一摞摞的书籍,耗时且低效。在那个年代,找到信息的能力本身就是一种技能,甚至催生了「高级搜索技巧」这样的教程和课程。 后来,搜索引擎变得更加智能,界面设计和性能有所优化,比如标签页从单一窗口变为多任务管理工具,地址栏也整合了搜索功能,可这些变化,说到底还是修修补补,算不上脱胎换骨。 在沉浸式、空间计算和对话式 AI 方兴未艾的当下,我们仍然被迫使用基于 30 多年前文档范式设计的浏览器。与其说这是界面问题,倒不如说是整个信息交互模式的不匹配。 AI 的狂飙突进,给浏览器体验的重塑撕开了一道口子。去年,AI 插件热潮席卷而来,Kimi、Monica 等玩家纷纷入局,带来了一些新玩法:不用离开页面,就能获取答案、完成任务,效率直线上升。 从目前体验上看,仍处于半成品的 Dia 在侧边栏交互、划词解释等细节上有些亮点,但说到底还是没跳出 AI 插件的范畴,更多是对现有功能的整合和打磨。 Josh Miller 曾表示,传统浏览器的界面需求已经不再那么迫切,其底层结构将决定我们的未来。「大多数人以为我们在造浏览器,」Miller 在一次对话中说,「其实我们造的是一个基于浏览器的系统。」 他的野心,是把浏览器从单纯的内容展示工具,变成一个类似操作系统的存在,管理个人偏好和行为,在系统层面实现跨设备的 AI 体验,而不用在每个应用里重复设定。 在早期演示中,Dia 就展示了浏览器如何代表人类执行任务。 例如,Dia 通过自己浏览亚马逊,找到这些物品并将它们添加到购物车中。这正是浏览器能做到的事——利用它对你所有 Web 应用和浏览数据的访问权限,替你完成任务。 尽管,如今的 Dia 距离这一目标尚有差距,但这种从被动响应到执行理念的转变,却与当下大火的 Agent 不谋而合。 在 OpenAI 推出的 Operator,以及智谱最新发布的「沉思」Agent 中,我们也看到浏览器开始代替用户采取行动,比如预订机票、比较产品价格、填写表单,甚至完成在线购物。 为了更好地了解这一趋势,不妨再来看看 OpenAI 前 AI 大神 Andrej Karpathy 提出的「LLM 操作系统」设想: LLM 作为内核:LLM 是整个系统的中心,类似于传统操作系统中的 CPU,负责处理核心任务和协调其他组件。 存储体系:包括上下文窗口(类似 RAM),用于存储当前正在处理的信息。 文件系统:用于长期存储数据,类似于传统计算机的硬盘。 向量数据库(embeddings/vector databases):用于存储和检索嵌入向量,是 LLM 进行语义理解和检索的重要基础。 浏览器:作为 I/O 外设之一,用于访问互联网资源,获取实时信息。 多模态工具:支持处理文本、图像、音频等多种数据类型。 其他工具:如代码解释器、计算器等,用于辅助 LLM 完成复杂任务 从根源上讲,浏览器自诞生之初便紧密贴合人类需求,为人类而生的属性贯穿始终。传统浏览器依赖的 UI 自动化工具(如 Selenium)本质上是对人类操作的镜像模拟。 与图形化界面和手动操作有所不同,AI Agent 需要通过代码访问和解析数据与网页进行自动化交互,而动态加载的内容、复杂的页面结构,以及反爬机制(如验证码)的普遍应用,都是亟待解决的几道难关。 浏览器服务商 Browserbase 创始人 Paul Klein 也曾给出一些技术思路: 开发开源、高效的浏览器,减少浏览器启动时的等待时间和安装所需的资源量,提升运行速度和部署便利性。 利用 LLM 快速定位网页数据,VLM 基于截图识别元素,支持自然语言交互,无需复杂脚本,即使面对混淆或动态内容也能适应。 提供更可靠的 SDK 和 API 开发工具,简化开发流程,提高 AI Agent 使用体验。 更理想的状态是,AI Agent 与浏览器/网站则需要通过标准化协议直接通信,跳过视觉交互环节,基于数据接口(如 API、底层协议)实现自动化操作,完成从 「人→界面→数据」 到 「机器→协议→数据」的直连。 这段时间频繁出现在大众视野的 MCP,正是解决传统「人→界面→数据」模式瓶颈的一种方案。它通过客户端-服务器架构,将 AI Agent(主机/客户端)与外部资源(服务器)连接起来,用协议取代了界面操作。 简单来说,你可以把 MCP 想象成一个「万能接口」,就像电脑上的 USB-C 接口一样。这个接口让 AI 模型能够轻松地连接到各种外部资源,比如文件、数据库、在线服务等。 通过 MCP,AI 助手不仅能获取数据,还能直接对数据进行操作,比如读取文件内容、更新数据库记录等。 浏览器会继续服务人类,但会越来越适配 AI 的需求。人类下达命令,Agent 高效执行的协作模式将成为未来的常态。 从早期的命令行界面(CLI),到图形用户界面(GUI),再到如今迈向人机纯自然语言交互以及机器与机器的协议层交互,技术在复杂化,但交互方式却在不断简化。 现在,浏览器 2.0 时代已经开始,而 Web,远未走向死亡。 「AI 不会以应用程序的形式存在,也不会是一个按钮。我们相信它将是一个全新的环境——建立在 Web 浏览器之上,」Dia 的官网如是说。 文 | Arc(被遗忘版)
谷歌搜索“内忧外患”:外部聊天机器人蚕食市场份额、内部AI新功能“难产”
编译 | 王涵 编辑 | 漠影 智东西4月17日消息,据外媒The Information报道,下周,一位美国联邦法官将启动裁定如何整改谷歌搜索引擎的程序,去年夏季该法官已裁定其构成非法垄断。但无论法官作何判决,AI(人工智能)技术早已撼动了谷歌搜索的未来格局。 从外部看,AI聊天机器人抢夺了一部分谷歌搜索的用户,使得谷歌在搜索市场的份额下降;美国联邦法院对谷歌的非法垄断裁定也让谷歌荆棘载途。谷歌内部也充满隐忧,搜索部门面临技术壁垒迟迟无法突破;计划也在不断演变;产品侧功能还不完善;新功能迟迟不上线;上线了的功能又面临下架。 面对AI技术浪潮的汹涌澎湃,谷歌显然已经意识到了形势的紧迫性。过去两年来,随着OpenAI的ChatGPT日益风靡,起步迟缓的谷歌加速为其搜索引擎推出AI新功能,例如能提供AI生成答案的“AI Overviews(人工智能概览)”。 然而,现实情况却远比想象中复杂。据多位现任及前任谷歌搜索高管和员工透露,尽管谷歌行动加速,但其领导层难以向内部人员阐明关于搜索功能演进方向的具体规划。 ▲AI Overviews演示图 一、谷歌搜索研发无终极目标,用户导向探索搜索新功能 本月初,负责图片搜索等多媒体功能的搜索产品负责人拉詹·帕特尔(Rajan Patel)在接受采访时坦言,自己无法预见两年后搜索会变成什么模样。“这将是大量实验的结果。”帕特尔说,“我们没有一个具体的终极目标,而是更多思考‘当发现用户在搜索过程中遇到障碍时,我们该如何解决这些痛点?’ ” 他补充道,搜索团队会把重心放在现有产品上,比如多模态搜索、AI Overviews功能,以及目前正在测试的聊天机器人风格的人工智能模式(AI Mode)。 帕特尔和另一位负责AI Overviews的谷歌搜索产品负责人罗比·斯坦恩(Robby Stein)都希望搜索能变得“毫不费力”。 “无论你在想什么,都可以来谷歌——你可以打字、可以说话、可以拍照、可以直接提问。然后谷歌浏览器会通过模型和系统找出准确相关的信息,并以最佳形式快速呈现给你。”斯坦恩这样描述道。 同时,在某些情况下,用户的反馈意见也会给谷歌带来新的功能灵感。 谷歌最近开始测试“AI Mode”,这是一种新的聊天机器人风格标签页,能模拟用户在ChatGPT上的体验。 帕特尔和斯坦恩透露,AI Mode这一新创意源于谷歌从AI Overviews用户那里收到的反馈,这些用户希望每次都能触发AI回答。 ▲AI Mode演示图 斯坦恩透露,谷歌目前正在内测一项新功能:在AI Overviews的摘要底部设置一个对话入口,引导用户进入AI Mode进行追问。他表示,这一AI Mode未来或将直接整合到主搜索界面中,而非作为独立标签存在。 二、新功能遭遇“滑铁卢”,AI Overviews功能被阉割 在内部,谷歌搜索的领导者曾与一些员工分享了搜索的未来愿景,但据现任和前任员工称,这些计划还在不断演变。 在去年举行的I/O开发者大会上,谷歌高管公布了一系列搜索的新功能。 其中部分功能已经推出,包括将AI Overviews服务扩展至更多国家,以及新增的多步骤推理功能,而诸如AI生成聚会方案和健身计划等功能则尚未推出。 值得注意的是,至少有两项功能在推出后又悄然下架,即通过手机拍摄视频进行搜索和调整AI Overviews答案复杂度的功能。 ▲2024谷歌I/O开发者大会 然而大会落幕不久,AI Overviews功能就遭遇滑铁卢。 用户纷纷提交各种问题测试新功能,导致其AI Overviews频频给出如“一天应该吃多少块石头”和“宣称奥巴马是穆斯林”等荒诞的答案。 据知情人士透露,技术瓶颈也拖慢了发布速度。让搜索引擎具备“代客操作”能力尤为困难。以旅行规划功能为例,AI Agent(AI代理)功能原计划可代替用户预订机票,但因系统可靠性不足,最终发布版本仅能生成行程建议,代理功能被迫阉割。 三、重压之下,谷歌搜索初见成效,获得年轻用户青睐 谷歌的搜索团队正面临严峻挑战,谷歌高管也不得不在推出搜索新功能的同时关注其对业务的影响。 在2023年和2024年,谷歌搜索营收约占公司整体营收的57%。若过快推出AI Overviews,其在页面最上方提供准确搜索信息的效果,会让用户不必再继续看下方的页面,进而侵蚀搜索广告营收,且其运营成本也比传统搜索更高。 在谷歌母公司Alphabet最近的财报电话会议上,Alphabet及谷歌的CEO桑达尔·皮查伊(Sundar Pichai)表示,谷歌已将AI Overviews查询的成本降低了90%以上。 市场份额方面,分析公司Statcounter的数据显示,2024年第四季度,谷歌在全球搜索市场的份额自2015年以来首次跌破90%,这表明AI聊天机器人正在分流传统搜索用户。 根据分析公司Similarweb的数据,AI行业领头羊ChatGPT已有每周5亿活跃用户,上月网站访问量达39亿次,远超谷歌旗下Gemini聊天机器人。 三位曾在谷歌搜索部门前员工透露,谷歌搜索部门在内部已经表达了对市场份额被生成式搜索引擎公司Perplexity和AI巨头OpenAI等竞争对手蚕食的担忧。 监管压力同样威胁着谷歌搜索业务。为了纠正美国联邦法院裁定的谷歌在搜索领域的非法垄断,美国司法部希望联邦法院禁止谷歌与手机制造商达成独家搜索应用分销协议,并可能强制其分拆谷歌重要的搜索入口渠道Chrome浏览器,还要求谷歌在进行任何AI相关投资前必须提前报备。 ▲谷歌母公司Alphabet及谷歌的CEO桑达尔·皮查伊(Sundar Pichai) 尽管如此,谷歌在AI方面还是取得了一些成功。皮查伊在会议上表示,AI Overviews提升了搜索查询次数,尤其是年轻用户群体,但他没有透露具体细节。 去年秋季,谷歌搜索部门进行了重组, 丽兹·里德(Liz Reid)向尼克·福克斯(Nick Fox)汇报工作,后者是知识与信息总括组织的负责人,该组织还包括广告和地图部门。两人都是谷歌的老员工,于2003年同一天入职。 据搜索部门的员工称,最近几个月,搜索部门推出新功能的速度加快了。据两位前员工透露说,负责搜索不同垂直领域的员工已经把工作重点转移到确保他们的内容出现在AI Overviews中。 另一位在搜索部门工作的人员说,那些在搜索部门从事安全工作的人也不得不加快他们的工作进程,因为他们现在没有时间在推出创意前几个月与产品负责人进行讨论。 结语:AI之潮涌动,谷歌探索AI搜索新时代 生成式AI聊天机器人给谷歌这个传统搜索引擎巨人带来了不小的压力,不做AI搜索引擎市场流失,做了AI搜索引擎广告收益可能受损,谷歌进退两难。 市场替谷歌做出了抉择,从AI Overviews到AI Mode,谷歌搜索在AI时代的探索姗姗来迟。
特朗普新政或重创英伟达400亿营收,黄仁勋今日来京:希望与中国合作
编译 | 梁颖琳 编辑 | 云鹏 智东西4月17日消息,据《金融时报》、Business Insider报道,因特朗普政府对中国出口限制政策的升级,美国芯片巨头英伟达(NVIDIA)H20芯片在华销售受阻,预计造成55亿美元(约合人民币395亿元)年营收损失。 与此同时,今日英伟达CEO黄仁勋时隔3个月再次到访北京,与贸促会会长任鸿斌会谈,其表示中国为重要市场,希望深化合作。 据报道,关税战直接引发了美股科技板块集体跳水,纳斯达克综合指数当日收跌2%,费城半导体指数重挫3.7%,创下年内新低,所有30只成分股全线下跌。 美联储主席鲍威尔随后警告,特朗普政府重启关税政策可能冲击就业与物价稳定,进一步加剧市场恐慌。 一、英伟达芯片受限,科技股集体跳水 4月17日,英伟达股价暴跌6.4%,成为当日市场焦点,拖累科技巨头”FAAMG”——Facebook(FB),亚马逊(AMZN),Apple(AAPL),Netflix(NFLX)和Alphabet(GOOG)全线下挫。 亚马逊单日蒸发2.93%市值,自特朗普上任以来累计跌幅超22%;苹果、微软、Meta分别收跌3.89%、3.66%、3.68%。 特斯拉因马斯克政治争议叠加销售困境,股价重挫4.94%,自2021年1月已累计下跌40.08%。 ▲英伟达股价在周三盘后直线跳水,大跌逾6% 分析师指出,英伟达H20芯片专为中国市场设计,但新出口禁令使其库存无法变现。尽管AI仍是芯片行业最大增长点,但短期市场信心已严重受挫。 同时,特朗普重启关税政策引发全球经济衰退担忧,世贸组织警告关税可能拖累全球增长。 二、关税阴云笼罩,美国科技巨头纷纷承压 关税重压下,科技企业应对策略出现分化。 苹果计划未来四年追加5000亿美元在美投资,试图对冲关税风险;亚马逊中小卖家则因关税导致利润率进一步压缩,生存压力加剧。微软正在重新考虑其绩效评估,并可能在五月启动新一轮裁员,以应对经济不确定性。 而特斯拉因马斯克的政治参与和与白宫DOGE办公室的联系引发消费者抵制,销量与股价双杀。 美联储主席鲍威尔强调,若关税推高物价同时抑制增长,美联储稳定物价与就业的双重目标将面临严峻考验。 市场分析师认为,尽管AI技术长期前景向好,但短期政策风险或使科技板块承压。 三、美股科技股暴跌拖累欧股,市场避险情绪升温 受美股科技板块暴跌影响,欧洲股市周三普遍下挫,Stoxx Europe 600指数下跌0.7%,伦敦FTSE 100指数下跌0.2%。 ▲欧洲股市周三下跌,整个地区的Stoxx Europe 600指数下跌0.7% 美元指数大幅下跌,且今年累计下跌超过8%。美国10年期国债收益率持平,市场避险情绪升温。 美国零售销售数据显示,3月零售额环比增长1.4%,高于预期,但分析师认为这主要是消费者“恐慌性抢购”所致,未来消费信心可能进一步下滑。企业招聘意愿也可能因关税政策的不确定性而减弱。 美银策略师提醒,尽管AI仍是芯片行业最大增长点,投资者需警惕短期政策波动对长期技术投资的挤出效应。 结语:AI增长与政策博弈的拉锯战 英伟达事件暴露了全球科技产业链对政策的敏感性。尽管AI芯片需求持续攀升,地缘政治风险正重塑行业格局。 投资者需警惕短期政策波动挤出效应,也要同时关注政策与技术之间的动态博弈。 对于依赖中国市场的科技巨头而言,如何在政策高压下维持技术优势与市场平衡,将成为未来关键挑战。
豆包深度思考模型正式发布!和 o3 一样能看图思考,还有一个 Agent 大招
这两个月,AI 模型和产品的发布节奏用「日新月异」都不足以形容了。 GPT-4o 生图的爆火似乎还是昨天,OpenAI 放出了自家最强推理模型 o3 和 o4 mini,但可能这还不是这个月最重磅的 AI 发布,DeepSeek R2、Anthropic 的 Claude 4 以及马斯克剧透的「Grok-3.5」 ,极有可能将在本月陆续发布。 而且就在今天,字节还发布了一整套 AI 全家桶,深度思考模型、视觉推理、文生图、AI Agent……几乎涵盖了最近 AI 圈关注度最高的产品。 先看看这次字节发布的产品和亮点有哪些: 1. 豆包 1.5 · 深度思考模型 推理能力跻身全球第一梯队 更低延迟支撑高要求应用 多模态理解与应用场景:支持「边想边搜」和「视觉推理」 2. 文生图 3.0 3 秒出图 原生 2K 高清 文本排版与小字生成优化 美感效果和生图结构提升 3. 豆包 1.5 视觉理解模型新版 视觉定位更精准 对视频的理解更智能 4. AI Agent 垂类应用 Agent:豆包推出了国内首个 AI IDE——Trae OS Agent:能够操作浏览器、电脑、手机或其他 Agent 完成复杂任务 字节这一系列产品升级,不仅在推理能力和多模态理解上实现突破,也通过 Agent 加速 AI 在更多场景的应用落地。 就像火山引擎总裁谭待所说的,「如果说 2024 年是中国AI应用的元年,那 2025 年极有可能是 AI Agent 应用的元年。」 豆包 1.5·深度思考模型:「边想边搜」+「视觉推理」,像人一样思考和观察 豆包 1.5·深度思考模型作为本次升级的核心,有三个关键升级:更强的推理效果、极低的响应延迟和全面的多模态能力。 在专业领域推理能力测试中,豆包深度思考模型整体达到或接近全球第一梯队水平。 数学推理方面,在 AIME 2024 测试中的得分已追平 OpenAI o3-mini-high。 编程竞赛方面,在 Codeforces pass@8 测试中接近 OpenAI o1。 科学推理能力在 GPQA 测试中也接近 o3-mini。 豆包 1.5 深度思考模型采用总参数达 200B 的 MoE 架构,但激活参数仅为 20B。 这种设计可以在保证强大性能的同时,显著降低了训练和推理成本,实现了 20 毫秒的极低延迟,这意味着能更好应用在对延迟敏感的实时交互场景。 豆包深度思考模型技术报告 https://github.com/ByteDance-Seed/Seed-Thinking-v1.5 在实际体验中,豆包深度思考模型的「边想边搜」和「视觉推理」这两个功能,带来了一些惊喜,也是目前相较同类产品比较有特色的。 「边想边搜」功能模拟了人类解决问题时边思考边查阅资料的过程,,它把搜索和推理捆绑在一起,基于每一步的思考结果进行多次搜索,能让回答更有逻辑、更贴近需求。 APPSO 不久前对豆包深度思考的「边想边搜」也进行了详细体验。 以购物推荐场景为例,用户需要为一家三口选择露营装备,涉及预算、安全性、便携性、适应天气等多维度因素。 豆包深度思考模型不是简单给出答案,而是像顾问一样进行多轮搜索和思考: 1. 第一轮搜索价格与性能数据,确定基本选择范围 2. 第二轮针对儿童需求搜索,筛选安全适合的装备 3. 第三轮考虑天气因素,查询详细评测 整个过程透明化,用户可以看到模型如何一步步构建解决方案。这种「边想边搜」能力不仅适用于购物决策,还能应用于金融分析、旅游规划等复杂决策场景。 至于豆包 1.5 深度思考模型的视觉推理能力,刚好和 OpenAI o3 不谋而合,让 AI 能像人类一样基于图像进行深层思考。 比如在地理位置推测任务中,模型不仅识别出图片中的湖泊,还注意到湖泊边缘的盐结晶和周边旅游设施等微小细节,通过逻辑推理精确定位景点位置。 而在国外点餐场景更具代表性,模型需要同时处理多种复杂因素:计算不同货币的价格换算、考虑老人和儿童的饮食喜好、避开可能引起过敏的食材等。这种能力大大超越了传统的单一功能工具。 视觉推理能力在企业办公场景其实也能发挥重要作用,豆包可以解读复杂的项目管理流程图表,快速定位关键信息,严格按照流程图逻辑回答问题。 可以看到,无论是解析财报图表还是分析产品说明图,都能展现专业水准的理解能力。 豆包文生图 3.0:从生成到创造的飞跃 Gemini 2.0 和 GPT-4o 的「一句话生图」掀起了新一轮生图的热潮,这次豆包文生图模型 Seedream3.0 则在三个核心方面实现突破:文字排版、图像真实感和高清输出能力。 在文生图领域权威评测 Artificial Analysis 竞技场中,豆包文生图 3.0 已经不输 GPT-4o、Imagen 3、Midjourney v6.1、FLUX 1.1 Pro 等顶级模型,跻身全球第一梯队。 Seedream3.0 最显著的升级是实现了 2K 分辨率图像的直接生成。字节技术团队通过多分辨率混合训练策略,让模型能够适应从手机屏幕到巨幅海报的各种比例需求,无需后期放大处理即可输出清晰高质的图像。 这种原生高分辨率能力,意味着对专业设计和商业应用提供了极大便利。 同时 1K 分辨率出图缩小到 3 秒,这一高效推理能力得益于多项技术优化,让创作者能够实现「所想即所得」的实时交互体验。对于海报设计、视觉创意这类需要和甲方高效沟通的场景。这种速度就很实用。 中文小字和长文本排版一直是 AI 绘画痛点,豆包 3.0 不仅解决了这一难题,还将排版美感提升到专业水准。以「现形」海报系列为例,生成内容细节丰富、排版精美,达到了商用水平。 人像生成方面,通过缺陷感知数据优化和跨模态编码技术,新模型在皮肤质感、表情自然度、服装纹理等方面极为逼真,几乎消除了 AI 生成的「诡异感」。 目前 Seedream3.0 已在豆包、即梦等平台全量开放,大家不妨亲自试玩。 视觉理解模型:从识别到理解 豆包 1.5·视觉理解模型主要在视觉定位和视频理解两个方向实现了突破。 视觉定位方面,新模型支持多目标定位(同时识别多个物体)、小目标定位(识别极小物体)和通用目标定位(不受预训练类别限制)等高级功能,还能进行点定位计数和 3D 场景定位。这些能力为机器人视觉、自动驾驶等领域提供了坚实基础。 同时,模型实现了记忆能力增强、总结理解能力提升、速度感知能力和长视频理解能力的全面提升。这使得用户可以对家庭监控视频进行语义搜索,如询问「今天小猫在家都干什么了?」系统能定位并展示相关片段。 AI Agent 的未来:应用 + OS 这次豆包 1.5 的核心突破不仅体现在模型能力上,更重要的是为 AI Agent 提供了强大基础,开始思考「AI 该解决什么问题」,而非单纯追求技术指标。 谭待认为, AI Agent 的构成,可以分为垂类应用 Agent 和 OS Agent。 在应用 Agent 领域,豆包团队推出了针对不同垂类场景的专业 AI 助手,包括客服 Agent、数据 Agent 和代码 Agent 等。这些 Agent 专注于特定领域任务,具备深度专业能力。 其中最引人注目的是国内首个 AI IDE——Trae。与传统 AI 插件不同,Trae 将 AI 与集成开发环境深度融合,具备三大核心特质: 交付化:面向软件交付而非仅生成代码,从本质需求出发 智能化:能理解信息和意图,自主规划反思,调用工具执行任务 协作化:能与用户在多个维度协作,保障最终结果质量 这种设计理念使 Trae 能帮助开发者和企业更快速、更准确地完成软件开发工作,实现从代码片段生成到完整软件交付的跨越。 而 OS Agent 代表了 AI 能力的更高层次——拥有跨场景的通用性和灵活性,能够操作浏览器、电脑、手机或其他 Agent 完成复杂任务。 火山引擎的 OS Agent 解决方案核心由豆包大模型和 veFaaS 产品组成。通过两个案例可以直观了解其强大能力: 代码执行:Agent 能用 Python、NodeJS 等多种语言编写代码并运行,如生成斐波那契数列并输出结果。豆包模型负责代码生成,veFaaS 代码安全沙箱负责安全编译运行。 浏览器操作:Agent 能通过浏览器完成 iPhone 产品比价,自动搜索多个电商平台、提取价格信息并进行对比分析,最终给出最优购买建议。 在更复杂场景中,OS Agent 甚至能操作专业软件。如使用剪映专业版进行视频剪辑和配乐,或通过豆包 APP 生成内容并发布至今日头条;在手机端,则能操作指定 APP 完成高铁订票等任务。 这些能力的核心是全新发布的 GUI Agent 大模型——UI-Tars,它将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中,突破了传统自动化工具依赖预设规则的局限。UI-Tars 在 OS World 等测试集中已取得国内各类模型中的最优成绩。 最近 OpenAI 姚顺雨在一篇文章中指出,我们已经进入了AI 发展的「下半场」。与上半场不同,下半场不再仅关注模型改进和技术指标,而是转向如何定义真正有价值的问题以及如何衡量真正的进步。 很难说在 AI 迅猛而又非线性的发展,用过去互联网的上下半场来划分是否适用,但一些转变确实在发生:不再把模型作为目的,而是作为解决实际问题的工具。 这可能就是字节内部所谓「务实的浪漫」,字节 CEO 梁汝波在年初的字节 All Hands 全员会上强调了这个概念。 这是最初是张一鸣在 2019 年提出的,他认为务实的浪漫就是 「把想象变成现实,face reality and change it。」 面对 DeepSeek 和 Agent 产品带来的 AI 行业剧变,这也会是字节的应对方式。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。