行业分类:
加载中...
头条分类:
加载中...
多模态是AGI入场券?阶跃星辰姜大昕:死磕基座大模型
衡宇 发自 凹非寺 当大模型赛道中不少玩家明确表示放弃基础大模型研发,心思放在更聚焦的方向上时,阶跃星辰站出来——就像这家公司第一次亮相时那样,给外界一个明确的回答: 我们会坚持基础大模型研发。 创始人兼CEO姜大昕解释了背后逻辑。 一方面,大模型行业的趋势技术发展还是在非常陡峭的区间。他也很感慨AI行业发展瞬息万变,“去年大家觉得GPT-4很牛,今天他都快下架了”,等到明年看今年的技术,同样会觉得微不足道。 姜大昕说,阶跃不想在这个过程中放弃主流增长或前进的趋势,所以还是会坚持做基础模型的研发。 另一方面,从应用的角度来看,阶跃仍然相信应用和模型是相辅相成的。 “模型可以决定应用的上限,应用给模型提供具体的应用场景和数据。”姜大昕表示,虽然阶跃的产品形态随着模型的演变是动态发展的,但这样的逻辑关系还是一直保持下去的。 确实如他所说,在过去的一年里,阶跃星辰旗下产品从命名、布局和形态上都发生了转变。 主打的C端助手App,由“跃问”改名为“阶跃AI”,意味着它从类ChatGPT产品到Agent的转变;产品重点形态从用户普遍直接使用的手机App变成了端云一体Agent平台。 “虽然我们的智能终端Agent和头部企业合作,但总体而言,阶跃的产品最终是服务C端的。”姜大昕表示,“不管作为助手类也好、内容类也好,都有非常大的机会。” 大模型领域的两条显著趋势 姜大昕同时强调,模型的突破是早于商业化的。就拿OpenAI来说,是先有了GPT-3.5,才有了ChatGPT。 因此,在基座模型上面继续投入以追求智能的上限,仍然是当下最重要的一件事。 要怎么去不停触碰智能的边界or天花板?不如先来看看这个领域里最前沿的趋势有哪些。 姜大昕复盘道,趋势共有如下两条: 一条是“模仿学习到强化学习”,另一条是“从多模态融合走向了多模态理解生成一体化”。 从模仿学习到强化学习的技术演进大家已经非常熟悉, OpenAI的o1、o3,以及DeepSeek-R1背后采用的都是强化学习技术,也是现在大模型玩家争先恐后着重投入的方向。 第二条趋势则关乎多模态。 姜大昕再次提到了那句他在多个场合不停重复提及的话:多模态是实现AGI的必经之路。 无论是从人类智能的多元化角度(符号智能、视觉智能、空间智能等),还是从垂直领域AI应用需求来说,大模型的多模态能力都必不可少。 在这样的认知指导下,阶跃星辰在研发基座模型时采取了散弹式打法: 成立两年,公司累计发布22款基座模型,覆盖文字、语音、图像、视频、音乐、推理等系列。 其中有16款是多模态模型,占据总数七成;这些多模态模型又分属图像理解、视频理解、图像生成、视频生成、图像编辑、音乐生成、多模态推理等方向。 业界公认阶跃是多模态卷王,也不是没有道理。 多模态理解生成一体化才是未来 至于如何追求智能的上限,阶跃目前行进的路线与第一次公开亮相时所讲的那样一般无二,即“单模态——多模态——多模态理解和生成的统一——世界模型——AGI”。 姜大昕重点解释了关于“多模态理解生成一体化”的部分。 它意味着多模态模型的理解和生成用一个模型来完成,而不是“视频/图像/语言转文本——文本理解与生成——生成结果转视频/图像/语音”的三段式过程。 大语言模型的理解生成一体化,已经有类GPT实现统一;然而在视觉领域并不如此,人们往往在理解视觉内容时选择一个模型,在生成内容时调用另一个模型。 这并不是一个可以直接从语言模型的NTP(Next-Token-Prediction)直接迁移到视觉模型的NFP(Next-Frame-Prediction)的简单事。 语言文本模态是低维度离散分布的,而视觉模态是高维度连续分布,这也就是说后者在进行训练学习时,复杂性更高。 从技术角度来看,视觉领域的内容生成需要理解来控制——如果想保证生成内容有意义、有价值,实际上需要对视觉的“上下文”作出更好的理解。 反言之,理解需要生成来监督。姜大昕解释说,就是“只有生成了的时候才是真正的理解了”。 现在,视觉领域还没有出现自己的Transformer架构,阶跃就是想做出一个视觉领域的、生成一体化架构,并且是非常scalable的。 姜大昕分享道,GPT-4o可能已经实现了多模态理解生成一体化,而阶跃的图像编辑模型Step1X-Edit也初步实现了这一点。 之所以称其为“初步”,是阶跃觉得Step1X-Edit的效果依然有很大改进空间,还可以在架构上做进一步的优化,数据上也可以做进一步的打磨,让它的效果变得更好一些。 但具体走哪条路线能精益求精,不管是阶跃内部还是业界都没有公认的真理。姜大昕表示,在这一方面,阶跃内部多有条技术路线并行,因为确实哪一条路线都会有可能出现突破。 “一旦突破以后,今后的道路会更加顺畅。”姜大昕称。 One More Thing 既然认可多模态理解生成一体化才是未来,为什么阶跃不把所有的精力集中在Step-R1-V-Mini这样的多模态推理模型上,反而是要在各个模态上都发力呢? 量子位把这个问题抛给了姜大昕。 他很坦然,表示也想过做,但这行不通。 理解生成一体化是非常综合素质的考验。 首先要理解。如果语言模型不行就谈不上理解,何况现在语言模型又进化到了推理模型,这块不能省。 第二要做视觉推理。视觉推理是视觉理解的升级,所以要做视觉理解。 要做理解生成一体化还要有生成端,所以生成也必须做。 简单点说,做理解生成一体化,必须自身具备非常强的综合实力。 但姜大昕信心满满,“我们几条线的能力都非常强,所以才可以组合起来去探索这个路径”。
一个“always”站在大模型技术C位的传奇男子
“怎么老是你???”(How old are you) 这是最近网友不断对着Transformer八子之一的Noam Shazeer(为方便阅读,我们称他为沙哥)发出的灵魂疑问。 尤其是最近Meta FAIR研究员朱泽园分享了他们《Physics of Language Models》项目的系列新进展后,有网友发现,其中提到的3-token因果卷积相关内容,沙哥等又早在三年前就有相关研究。 是的,“又”。 因为你只要梳理一遍他的工作履历,就不难发现,AI界大大小小的突破背后,总是能发现他的名字。 “不是搞个人崇拜,但为什么总是Noam Shazeer?” 朱泽园也自己也站出来表示,沙哥成果超前: “我也觉得Shazeer可能是个时间旅行者。我原本不相信他们的gated MLP(在写第3.3部分的时候,因为门控多层感知机让训练不稳定),但现在我信服了(在添加了Canon层之后,我们在第4.1部分对比了多层感知机和门控多层感知机)。” 正式认识一下,沙哥是谁? 他是Transformer八位作者中被公认是“贡献最大”的那位,也是半路跑去创业Character.AI,又被谷歌“买回来”那位。 他并非OpenAI的明星科学家,也不似DeepMind创始人般频繁曝光,但若细察当今LLM的核心技术,其奠基性贡献隐然贯穿始终。 从引用量超17万次的《Attention is all you need》,到将MoE引入LLM的谷歌早期研究,再到Adafactor算法、多查询注意力、用于Transformer的门控线性层(GLU)…… 有人感慨,其实我们现在就是生活在“Noam Shazeer时代”。 因为如今主流模型架构的演变,就是在其奠定的基础上持续推进。 所以,他都做了什么? Attention Is All You Need是其一 在AI领域,昙花一现的创新者众多,但能持续定义技术范式者凤毛麟角。 沙哥恰恰属于后者,他的工作不仅奠定了当今大语言模型的基础,还频频在技术瓶颈出现时提供关键突破。 其影响力最大的一项工作当属2017年的《Attention Is All You Need》。 2017年的一天,已加入谷歌数年的沙哥在办公楼走廊里偶然听到Lukasz Kaiser、Niki Parmar、Ashish Vaswani等几人的对话。 他们正兴奋地谈论如何使用自注意力,沙哥当时就被吸引了,他觉得这是一群有趣的聪明人在做有前途的工作。 而后,沙哥被说服加入了这个已有七人的团队,成为第八位成员,也是最后一位。 但这个最后到场的人,却在短短几周内根据自己的想法,重新编写了整个项目代码,把系统提升到了新的水平,使得Transformer项目“拉开了冲刺的序幕”。 沙哥实力超群却不自知,当看到论文草稿中自己被列为第一作者时,他还有些惊讶。 在讨论一番后,八位作者最后决定打破学术界一作二作通讯作的规则,随机排序,并给每个人名字后都打上星号,脚注标明都是平等贡献者。 但大家都知道,沙哥加入发挥了举足轻重的作用。后来《Attention Is All You Need》这篇论文引起轰动。 而沙哥的恐怖之处,在于他似乎总能比行业提前数年看到技术趋势,不只是Transformer。 在《Attention Is All You Need》前后,沙哥还作为一作同三巨头之一、图灵奖得主Geoffrey Hinton以及谷歌元老级人物、第20号员工Jeff Dean等合作发表了另一篇具有代表性的工作—— 《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》。 早在那时就为现今大火的新范式Mixture of Experts(MoE)埋下了伏笔。 这项工作创造性地引入了Sparsely-Gated Mixture-of-Experts,将MoE应用于语言建模和机器翻译任务,提出了一种新架构,具有1370亿参数的MoE被以卷积方式应用于堆叠的LSTM层之间。 规模放在今天也是超大杯的存在。 虽然MoE的思路早在上世纪90年代初就已经被提出,以Michael I. Jordan、Geoffrey Hinton等的《Adaptive Mixtures of Local Experts》为代表,但沙哥参与的这项研究通过动态激活子网络,让模型突破更大规模参数成为可能,启发了后续诸多基于MoE的模型改进和创新。 且沙哥对MoE的探索远不止于此。 2020年,谷歌《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》中提出GShard。 它提供了一种优雅的方式,只需对现有模型代码做很小改动,就能表达各种并行计算模式。 GShard通过自动分片技术,将带有Sparsely-Gated Mixture-of-Experts的多语言神经机器翻译Transformer模型扩展到超6000亿参数规模。 次年,Switch Transformers这项工作,结合专家并行、模型并行和数据并行,简化MoE路由算法,提出大型Switch Transformer模型,参数达到1.6万亿。 不仅推进了语言模型的规模,还在当时实现了比T5-XXL模型快4倍的速度。 模型规模的扩大一方面为自然语言处理开辟了新的领域,另一方面也面临训练过程中的不稳定性以及微调阶段质量不确定性的阻碍。 2022年,针对该问题的研究《ST-MoE: Designing Stable and Transferable Sparse Expert Models》问世了。 该项目将一个ST-MoE-32B稀疏模型的参数规模扩展到了2690亿,其计算成本与一个拥有320亿参数的密集型encoder-decoder Transformer模型差不多。 这林林总总一系列关键性进展的作者名单中,总少不了沙哥。 时间证明沙哥的预判是对的。 如今,GPT-4 、DeepSeek系列、阿里Qwen3系列……主流将MoE与Transformer架构的结合,无一不是在此系列工作的思想上发展而来。 说沙哥踩在时代的命门上,不光靠这些。 为解决大规模模型的训练内存受限的问题,沙哥还曾联合提出了Adafactor优化器,早期谷歌大模型如PaLM都离不开它。 作用于大模型推理加速的Multi Query Attention(MQA)也是出自他的手笔。 MQA最早于2019年沙哥的独作论文《Fast Transformer Decoding: One Write-Head is All You Need》中被提出,旨在解决Transformer增量推理阶段效率低下的问题。 另外,他还提出了被广泛应用于各种Transformer模型中的Gated Linear Layer(GLU)。 GLU为Transformer架构带来了显著改进,通过门控机制,GLU可以根据输入动态地调整信息的传递,从而更好地捕捉数据中的复杂模式和依赖关系,提升模型的表达能力。 这种动态调整能力更有助于模型处理长序列数据,有效利用上下文信息。 用网友的话来说,沙哥参与的研究往往都是简单粗暴,详细介绍了技术细节,当时可能大家不能完全理解其中的奥妙,但之后就会发现很好用。 3岁自学算术,1994年IMO满分 沙哥的技术嗅觉,源自其近乎传奇的成长轨迹。 1974年,沙哥出生于美国,3岁就开始自学算术。 1994年,他参加了IMO(国际数学奥林匹克竞赛),在经历长达九小时的考试后,取得了满分,这是该项赛事35年历史上首次有学生拿到满分(同年还有另外5名学生拿到满分)。 同年,沙哥进入杜克大学学习数学和计算机科学。 在校期间,沙哥作为杜克大学代表队的一员,曾在多项数学竞赛中获奖。譬如1994年、1996年,分别在普特南数学竞赛中排名第6名、第10名。 本科毕业后,沙哥前往UC伯克利攻读研究生,但并未完成学业(他的领英上如今也只写着本科教育经历)。 而后千禧年到来,沙哥加入谷歌,成为第200号员工,一路从软件工程师做到首席软件工程师。 2001年,其参与改进的谷歌搜索拼写纠正功能上线,这是他早期的一项重要成就。 此后,他还开发了谷歌广告系统PHIL,该系统能够决定在特定页面上展示哪些广告联盟广告,同时避免出现不适当或不相关的内容,成为谷歌广告联盟系统的核心。 2005年,他成为谷歌广告文本排名团队的技术主管;2006年,他创建了谷歌第一个垃圾邮件检测的机器学习系统;2008年,他开发了一种用于对新闻文章进行排名的机器学习系统…… 不一一点出来了,但说他在谷歌期间硕果累累,绝不为过。 虽然2009年到2012年期间他短暂离开过谷歌,但截至2021年去创业Character.AI,他已经在谷歌待了18年。 2012年回到谷歌加入Google Brain后,沙哥更是火力全开—— 他把自己的研究方向转向深度学习与神经网络研究,2016年推动神经机器翻译(NMT)的落地,显著提升翻译质量;2017年就有了《Attention Is All You Need》。 而去年8月,沙哥挥别创业赛道,重返谷歌担任工程副总裁、Gemini联合技术主管,到现在又快在谷歌干满一年了。 真·谷歌人,谷歌魂。 这话真不假,因为沙哥连创业旅途,也是和谷歌同事一起撸起袖子干的。 有多么戏剧呢? 时间回到2021年。那时候,由于谷歌未公开发布他与同事Daniel De Freitas开发的聊天机器人Meena及其后续项目LaMDA,沙哥与De Freitas扭头就和老东家say bye bye了~ 他俩商量了一通,决定进一步研究更加个性化的超级智能,于是世界上多了一家叫Character.AI的公司。 经过两年多发展,Character.AI以“各式各样的AI角色”攒了2000多万用户。 2023年3月,Character.AI以10亿美元估值完成1.5亿美元融资,a16z领投,GitHub前CEO Nat Friedman、Elad Gil、A Capital和SV Angel参投。 不过在此之后,这家明星AI独角兽开始陷入困境,新一轮融资迟迟难以推进。去年7月4日,Character.AI被曝考虑卖给谷歌和Meta。 8月,一切尘埃落定,谷歌以27亿美元的价格将Character.AI技术纳入麾下,并邀请沙哥回归,负责联合领导谷歌的Gemini项目。 One More Thing 一个可能不为人所知的故事,在OpenAI的早期阶段,沙哥是顾问之一。 他曾极力推荐奥特曼来担任OpenAI的CEO。 以及另一件值得一提的事—— 2020年,谷歌Meena聊天机器人发布后,沙哥发了一封名为“Meena吞噬世界”的内部信。 其中的关键结论是:语言模型将以各种方式越来越多地融入我们的生活,并且将在全球算力中占主导地位。
苹果副总裁:iPhone可能在十年内会被淘汰 但AI会改变一切
在位者的日子不好过,我们不是石油公司,也不是牙膏——这些东西会永远存在......但 10 年后你可能不需要 iPhone 了。 这个将 iPhone 与石油和牙膏做对比的,是苹果服务业务的高级副总裁 Eddy Cue——讲出这话时,他正在 Google 反垄断诉讼的法庭上。 Eddy Cue 是苹果公司的资深元老,自 1989 年加入以来,他在公司发展历程中扮演了关键角色,曾参与创建了 Apple Online Store、iTunes Store 和 App Store 等奠基性平台,并长期负责 Apple Music、Apple News、Apple Podcasts、Apple TV 应用、地图、Apple Pay、iCloud 等一系列核心服务——换言之,苹果服务生态的半壁江山,都是他的业务范畴。 这番话也许是应对法庭所需的托辞,但或许也是苹果公司高层们的共识——总有一天 iPhone 会消失,但苹果会找到新的支柱。 Eddy Cue 十年后,代替 iPhone 的是 AI 硬件 在 Eddy 看来,苹果公司历史上最英明的决策之一,便是杀死了 iPod。 当时正是 iPod 如日中天的时候,苹果为什么要杀死一只还能下金蛋的鸡? 因为当时苹果公司的战略已经面向未来——如果 iPod 注定会被别的产品,比如智能手机取替,那不如自己来成为这个终结者。 Eddy 认为,人工智能可能会是决定 iPhone 未来的关键,更准确地说,是 AI 硬件。 这不是一个新兴的概念,事实上,从 AI 兴起以后,我们就看到了不少 AI 硬件,比如 Ai Pin。 2018 年,前苹果软件工程总监 Bethany Bongiorno 和前苹果设计师 Imran Chaudhri 共同创立了 Humane,主要目的是开发人工智能驱动的创新技术。 这家公司创立之初可谓是备受瞩目,陆续获得了 OpenAI CEO Sam Altman 和微软等明星人物或公司的青睐,拿下 2.4 亿美元的投资。 而 Humane 也不负众望,2023 年底,他们推出的第一个硬件,就拿两位创始人的老东家开刀,在「代替 iPhone」的口号下,Ai Pin 出现在我们面前。 Ai Pin 形似一个方形别针,外壳经阳极氧化或抛光处理,表面覆盖康宁大猩猩玻璃触控板,顶部倾斜的面板中集成激光投影模组和折叠式 ToF 摄像头,还设计了信号灯,用于提示摄像头与麦克风的工作状态。 代替 iPhone 可不是白说的,Ai Pin 的硬件还真不算少,在这个小小的机身内,Humane 塞入了一颗高通骁龙芯片、4GB RAM、8GB ROM 以及环境光、加速度计、陀螺仪、GPS 等各种传感器,与此同时还保持了 55 克的重量。与机身一样简洁的,还有它的交互。Ai Pin 几乎没有物理按键,用户可以通过语音、手势和触控来控制 Ai Pin 工作。 作为响应,Ai Pin 会通过激光投影将信息显示在用户的手掌上,显示分辨率为 720P,所有交互内容由 ChatGPT 来进行回应支持。 听起来很美好,市场也这么觉得,在还没上市的时候,就被《时代》杂志评选为「2023 年度发明」,有媒体称之为「颠覆智能手机的革命性产品」。 不过发售后的 Ai Pin,口碑迎来了一个大反转,交互体验极其糟糕、AI 对话延迟过高、续航发热表现不佳、火灾安全隐患等问题蜂拥而至,最终于今年的三月正式停止服务,Humane 这家公司的故事也以被惠普收购而告一段落。 喊出「替代 iPhone」口号的 Humane 倒下了,但这种体积小巧的 AI 硬件,还有不少同类。 例如,Rabbit R1 是一款橙色的小巧设备,它不依赖传统的应用模式,而是通过其自主的 AI 模型(LAM)和语音交互,旨在充当一个通用的人工网代理,直接为用户执行跨平台的复杂任务,比如预订或点餐,代表着一种通过 AI 简化数字世界交互的探索; 而 Limitless Pendant(原名 Rewind Pendant)则是一款夹式穿戴设备,其核心功能在于持续捕捉并利用 AI 总结用户的现实对话音频,以「增强记忆」为目标,帮助用户轻松回顾和查找信息。 相比 Ai Pin,Rabbit R1 与 Limitless Pendant 没有企图一步登天,而是更为聚焦,尝试将 AI 能力封装到特定形态、服务于特定目的的硬件中,作为区别于智能手机的另一种交互或功能延伸的尝试。 和仍然处于早期探索的小型 AI 硬件不同,一些更大的 AI 产品,目前已经取得一些阶段性的成果。 Meta 与雷朋眼镜合作的 Ray-Bans,这款内置 Meta AI 的智能眼镜,自 2023 年底亮相至今年 3 月销量已突破 200 万副。 Meta CEO Mark Zuckerberg 预计,到 2025 年底,这一数字将达到 500 万,作为印证,Ray-Bans 的制造商 EssilorLuxottica 也公开表示,预计到 2026 年底,每年将生产 1000 万副眼镜。 而苹果本身也推出了被视为「明日产品」的 Vision Pro,虽然根据 IDC 的数据报告显示 2024 年全年的销量不超过 50 万台,远低于最初预期的 70-80 万台,但苹果依旧在持续推进相关硬件的研发,包括 Vision Pro 的迭代型号、平价型号,铁了心要在这个形态上搞出点大动静。 与此同时,就在今天,也有知情人士爆料,苹果在智能眼镜的处理器方面已经取得了一定进展。 这款处理器基于 Apple Watch 的芯片设计,功耗较低,可以同时控制多个摄像头,苹果的目标是最早在明年年底开始批量生产这一处理器,这意味着如果顺利推进,智能眼镜或将在未来两年内上市,为苹果与 Meta 的 Ray-Bans竞争做好准备。 此外,苹果还计划为 AirPods 和 Apple Watch 增加摄像头,正在研发名为 Glennie 的组件与 Nevis 芯片,将这些较为传统的智能设备转化为人工智能产品。 根据知名苹果分析师郭明錤 2021 年的爆料,苹果计划在十年内,即到 2030 年,利用增强现实(AR)设备取代 iPhone,具体目标是在未来十年内销售至少 10 亿台 AR 设备,以满足当前超过 10 亿活跃 iPhone 用户的需求。 在回顾完 iPod 的消亡后,Eddy 感叹道: 当我来到硅谷时,曾经像惠普、太阳计算机系统(Sun Microsystems, Inc.)和英特尔这些最好的,或是最成功的公司,要么不复存在,要么规模大大缩小,影响力也大大减弱了。 的确,曾经不可一世,开创了 Jave 编程语言、曾经差点收购苹果的 Sun Microsystems 也能在朝夕间成为过去式,给苹果再次敲响警钟,这样的危机感时刻刺激着这个科技巨无霸,所以我们看到苹果一边布局未来设备的探索,一边还在重组 Siri 的升级团队,进一步加速这一将成为 Apple Intelligence 主要交互入口的项目。 毕竟,十年后,我们的确很可能不需要 iPhone 了,但现在,iPhone 却非常需要 AI。 苹果需要时间,AI 们也需要 Eddy 的呈堂证词提到了 iPhone 的未来,但这只能算个小预言,这场发言的重点,还是在苹果与 Google 的纠葛中。 此前,为了维持 Google 搜索引擎在苹果跨平台浏览器 Safari 中的默认地位,Google 每年需要向苹果支付超过 200 亿美元,Eddy 承认,这项协议仍然是苹果目前最为重要的财务条款之一。 但在这场持久又艰难的垄断案件中,这份协议可能会被解除。 不过,哪怕牵扯到每年 200 亿美金的协议解除让负责苹果服务营收的 Eddy 夜不能寐,他也承认,如今搜索引擎市场上已经出现了新的可能性——AI 搜索。 上个月,Safari 浏览器的搜索量首次出现下降,Eddy 认为这是因为越来越多的用户开始转向 AI 搜索,他相信像 OpenAI、Perplexity AI 和 Anthropic PBC 等人工智能搜索提供商,最终会取代 Google 等传统搜索引擎。 这并非仅仅是口头表态,Eddy 透露,苹果未来可能会将这些 AI 搜索选项引入 Safari 浏览器,供用户选择作为默认搜索引擎,而且,苹果已经就此事与 Perplexity AI 进行了一些讨论。 另外,Eddy Cue 还透露苹果研究了中国的 DeepSeek 与马斯克的 Grok,探索在操作系统中集成的可能性,此前 Siri 中已经集成了 ChatGPT,预计今年晚些时候还会迎来 Gemini 的加入。 之所以如此积极,还是因为自家的 Apple Intelligence 表现不尽如人意,但在 AI 浪潮中又不能落后,否则,取代 iPhone 的就可能是别人。 另外值得提一嘴的是,在这场审判会的同时,Alphabet 股价暴跌 7.3%,是 2 月份以来的最大跌幅,苹果股价也在 Cue 的评论中下跌,收盘时降幅 1.1%,这下 Eddy 的失眠要更严重了。 言归正传,Google 的反垄断案件发展到如今的地步,某种程度上可以说已经成为涵盖软件、移动终端、AI 等领域的科技圈《启示录》。 无论是手机厂商、电脑厂商,还是搜索服务商、软件服务商、AI 技术公司,都被卷入其中,虽然各方的加入让局势变得越来越混乱,但也指明了一些未来的方向。 对苹果等厂商而言,AI 搜索代表着未来,而对于掌握着未来的 AI 服务商而言,立足于当下也很重要。 前段时间,同样是在 Google 反垄断案件中,ChatGPT 的产品负责人 Nick Turley 就表示如果法院最终裁定 Google 必须剥离 Chrome 浏览器以恢复搜索市场的竞争,OpenAI 将有兴趣收购 Chrome,并直言其目的是因为搜索引擎: 如果没有搜索技术,OpenAI 构建「超级助手」应用并实现通用人工智能(AGI)的目标将无法成功。 在欧盟《数字服务法案》(DSA)要求下,OpenAI 最近也披露了 ChatGPT 搜索的数据,截至今年 3 月 31 日,ChatGPT 搜索月均活跃用户达到 4130 万,而半年前仅为 1120 万,增长惊人。 不过增速虽快,仍难以撼动搜索霸主 Google 的地位。根据市场调查机构 Statcounter 公布的报告,2025 年 3 月 Google Chrome 浏览器的全球市场份额为 66.16%,稳居第一。 如果 OpenAI 能拿下 Chrome,不仅绕开 Google 封闭的搜索入口控制,还将直接接入用户的实时搜索轨迹、行为偏好及交互行为,为 AI 模型提供源源不断的「鲜活燃料」。 现阶段的 AI 服务商,就像自然界中常见的「寄生」一样,在 AI 硬件完全成熟前,依旧还需要紧紧依靠手机或浏览器这样的既有入口。 就像历史周期总是螺旋式上升一样,从 Google 这场混乱的反垄断案来看,AI 这个未来的既定方向,一直以来也是在多个行业、多方巨头的纠葛中缓慢前行的—— 对于 ChatGPT 等 AI 公司而言,想在 AI 硬件大举取替智能手机之前,获得更多的主动权,仍需时间去博弈; 对于苹果等在 AI 浪潮中郁郁不得志的硬件巨头来说,这也是个养精蓄锐的窗口期,正如苹果官网上一直挂着的那句标语——为 Apple 智能准备好。 唯一不高兴的,也许就是 Google 了,毕竟钝刀子割肉,不好受。
西莫弥补奥特曼在OpenAI的管理空白 将为未来IPO铺平道路
划重点: ·应用首席执行官西莫将辞去OpenAI非营利董事会的职务; ·首席执行官奥特曼目前在履行部分管理职责方面存在困难。奥特曼的私下言论表明,西莫最终可能会成为OpenAI的首席执行官; ·对西莫来说,核心目标在于打破ChatGPT现行的商业框架,在订阅模式之外建立多元化的收入来源,并实现产品盈利模式的全方位优化。 5月10日消息,OpenAI本周突然宣布重大人事调整,首席执行官山姆・奥特曼意外地将公司大量业务移交给加入公司、担任应用首席执行官的Instacart首席执行官菲吉・西莫,此举引发了业界的极大关注。当前正值这家全球增长速度惊人的科技公司积极巩固其在人工智能领域领先地位的关键节点,此番人事布局或许将对行业格局产生深远影响。 对西莫而言,其首要任务在于突破ChatGPT现有的商业模式,在订阅收入之外成功开辟多元化的营收渠道,同时对产品的盈利结构进行优化升级。此外,她还面临着一项迫切的任务,即整顿过去一年因高管频繁更迭以及部门内耗而陷入动荡的管理团队。据内部数据显示,OpenAI的员工规模已从两年前的400人急剧膨胀至超过1700人,这种快速扩张无疑加剧了组织管理方面的诸多挑战。 奥特曼则将把精力集中于核心技术研发工作,与联合创始人、首席技术官格雷格・布罗克曼携手全力推进下一代人工智能系统的开发进程,同时负责统筹调配支撑ChatGPT运行的服务器集群以及新型人工智能芯片资源。 据知情人士透露,尽管奥特曼暂时还会管理基础设施部门,但未来很可能会引入专业的高管来负责这一板块。此次权力结构调整实际上已历经数月的精心酝酿:自2023年3月西莫加入OpenAI监督委员会以来,奥特曼便开始了业务掌舵者的物色工作,当时他直接管理的22个业务模块已显露出管理负荷过载的明显迹象。 值得注意的是,西莫在监督委员会所展现出来的决策效率给奥特曼留下了深刻的印象。OpenAI发言人已经确认,随着职务的变动,西莫将退出由奥特曼等人组成的非营利监督委员会。该委员会的核心使命是确保人工智能技术能够普惠人类。尽管OpenAI非营利监督委员会一直在尝试分离监管与商业职能,但它仍然保有对运营业务的监督权。 西莫与OpenAI之间存在着深厚的渊源,这为她顺利履职奠定了坚实的基础。在OpenAI的董事会和管理层中,她拥有多位盟友,其中包括董事长布雷特・泰勒以及首席营销官凯特・鲁奇。而这位新任应用首席执行官所面临的核心挑战之一,正是要去解决长期以来一直困扰着奥特曼的管理顽疾。据知情人士指出,OpenAI部门之间的壁垒所导致的资源争夺以及决策迟滞等问题,曾成为2023年末董事会试图罢免奥特曼的导火索,更直接引发了2024年秋季首席技术官米拉・穆拉蒂以及两名核心研究员的离职。 在科技行业,尤其是在企业处于超速增长期时进行管理层的迭代,已然成为一种行业常态。OpenAI近年来所经历的人事震荡,很容易让人联想到2017年Uber等硅谷明星企业曾经经历过的动荡时期。而彼时作为董事亲历了治理危机的西莫,如今需要将那段历史经验转化为破局的良方。 值得关注的是,在穆拉蒂离职之前,奥特曼就已经启动了组织架构的优化工作:引入前Nextdoor首席执行官莎拉・弗里亚尔担任首任首席财务官,负责处理复杂繁重的财务问题,同时招揽了社交媒体领域的资深产品专家凯文・维尔来统筹管理消费级与企业级产品线,这些举措或许都为西莫后续的治理转型铺平了道路。 候任CEO浮出水面? 配图:OpenAI首席产品官凯文・维尔 弗里亚尔与维尔将向西莫汇报,这意味着西莫需要理清其职权边界与奥特曼的管辖范围。奥特曼表示,引入西莫的核心目的在于让他本人腾出更多精力投入约200人规模的核心研究团队。据两位与他就人事任命有过沟通的知情人士透露,近几个月来奥特曼多次表露出对全面管理公司的厌倦,让人不禁怀疑他究竟还愿意担任首席执行官多长时间。不过据听取过内部讲话的人士透露,奥特曼本周向部分员工强调,新领导架构将确保他本人能够”长期留任"。 种种迹象表明,若进展顺利且OpenAI推进上市计划,西莫有望接掌首席执行官职位。她曾于2021年带领Instacart完成首次公开募股。截至目前,奥特曼和西莫均对此报道未予置评。 此刻,西莫正肩负起引领谷歌、Facebook之后20年最重大科技商业体崛起的使命。OpenAI向投资者展示了惊人的财务预期:若能兑现这些目标,该公司将有望通过上市募资,并筹得数千亿美元债务用于购置运行人工智能技术亟需的服务器。这些预测建立在ChatGPT免费版实现商业化突破的基础上—西莫与维尔等高管团队对此颇具经验,他们曾在Facebook母公司Meta担任要职,深谙流量变现之道。 “创始人模式”的践行者 在加入Instacart之前,西莫曾领导着拥有约6000名员工的Facebook核心应用业务。当时,该平台正深陷监管调查、隐私争议以及虚假信息泛滥等棘手问题。应对这段危机的经历,无疑为她如今应对人工智能冲击劳动力市场、OpenAI面临全球政府监管围剿的挑战提供了宝贵的经验。 “在Meta,马克·扎克伯格不仅教会我们如何成为优秀的管理者,更训练我们以高风险的决策去追求超额回报。这就是创始人模式,”西莫曾如此总结。在Facebook超过十年的职业生涯中,这位西班牙裔高管的晋升速度令人瞩目,堪称火箭式的上升:她主导了移动端商业化战略,实现了广告收入的显著增长;推动了Facebook Live直播和Watch视频平台等创新产品的落地。此前,她曾撰文强调,职业经理人应具备创始人的战略视野、极致执行力和细节把控能力,而这正是她反复提及的“创始人模式”的核心。 图注:OpenAI的产品矩阵 如今,奥特曼与西莫将携手推进人工智能产品矩阵的扩张。他们规划中的创新产品包括软件编程助手等智能体,未来可能进一步拓展到物理机器人及人工智能个人设备领域。据估算,到2029年,OpenAI计划实现的千亿美元营收目标中,约43%将来自ChatGPT免费用户的变现以及各类智能体服务的销售。 知情人士透露,OpenAI向投资者展示的定价策略显示,单款智能体服务的月费区间高达2000至2万美元。其中,软件工程智能体(内部代号为a-swe)已进行了数月的客户测试,被奥特曼视为实现通用人工智能的关键路径。这类能够处理“全球经济价值最高工作”的智能体,有望重新定义生产力的边界。 ChatGPT的盈利模式 图注:OpenAI过去十年的发展史 OpenAI向投资者还披露,为优化利润率与营收结构,该公司会对ChatGPT收费体系进行调整。当前该产品采用阶梯定价策略:免费版面向基础用户,高级用户需支付最高每月200美元订阅费。据统计,ChatGPT目前拥有超2000万付费用户及5亿周活跃用户。 此前OpenAI曾测算,每位20美元/月订阅用户的服务器成本仅为6美元。但随着今年初文生图功能引爆市场,算力成本显著攀升,迫使公司对用户生成图像数量设置上限。 今年1月,奥特曼在社交平台X坦言,由于用户高频使用,即便高价订阅套餐也处于亏损状态。今年3月,他再度发帖试探用户对按需计费模式的接受度。据现有投资者透露,管理层认为OpenAI这种"多用多付"机制可从高级用户端挖掘更多收入,从而改善利润空间。 在商业化合作方面,OpenAI计划拓展与企业和教育机构对合作。该公司与苹果达成的商业协议即为典型案例—新版iPhone用户将直接体验ChatGPT功能。新任应用首席执行官西莫在此领域经验丰富,其此前在Instacart任职期间曾主导与Uber Eats等平台的战略合作,有效提升应用活跃度。 西莫面临的挑战:多渠道拓展营收来源 与此同时,OpenAI也在积极开拓大型企业销售业务。其中,该公司主要投资人软银也是OpenAI的重要客户。除了购买OpenAI股份外,这家日本企业集团今年初还表示,将每年斥资30亿美元购买OpenAI技术,供自身及其子公司使用,芯片设计公司Arm便是其中之一。 知情人士透露,OpenAI与Arm就一项潜在协议进行洽谈,该协议旨在以每年10亿美元的价格向Arm出售人工智能技术,以改进和加速芯片开发进程。目前尚不清楚这笔交易是包含在30亿美元交易之中,还是作为独立交易存在。 鉴于OpenAI预计到2027年其现金消耗将从上年的近20亿美元飙升至每年200亿美元,随着新计算服务器支出的增加,OpenAI需要尽可能地展现营收增长态势。 奥特曼曾探讨过收取联盟营销佣金(affiliate fees)的可能性,即在有人通过ChatGPT搜索产品后,OpenAI会从交易中抽取一定比例的费用。今年4月,OpenAI在ChatGPT中推出了新的购物功能,该功能可向用户提供一个性化的产品推荐,并使他们能够通过聊天机器人购买产品。 与此同时,弗里亚尔也探讨过通过ChatGPT投放广告的可能性,西莫对此领域非常熟悉,这源于她在Facebook和Instacart的工作经历。据一位现任投资者透露,OpenAI管理层曾告知投资者,截至今年3月,已有超过2.5亿人使用ChatGPT搜索他们以往通过谷歌查找的信息。随着越来越多的人开始使用ChatGPT作为谷歌搜索的替代品,广告有望成为OpenAI日益重要的收入来源。
印度要求封禁8000多个社交媒体账户 封禁原因绝口不提
快科技5月10日消息,近日,据媒体披露,马斯克掌舵的社交媒体平台X遭遇印度政府“重拳出击”——被要求封禁超过8000个印度境内账户。 据X透露这一波“封号风暴”来势汹汹,且目标广泛,不仅涵盖国际新闻机构的账号,一些在X平台上颇具影响力的知名用户账号也未能幸免。 据了解,印度政府此次“封号令”的“紧箍咒”十分严苛,明确表示若X平台不遵从规定,当地员工将面临巨额罚款甚至牢狱之灾。 在如此高压之下,X平台无奈“就范”,透露印度政府并未具体指明某个账户的哪些帖子违反了当地法律。对于大量被封禁账户,平台更是未收到任何实质性的证据或合理的解释说明。 不过,外界推测,该公司或许并不会完全屏蔽印度用户对国际新闻机构账号以及关键意见领袖(KOL)内容的访问权限,似在高压下仍留有一丝“回旋余地”。 值得一提的是,印度政府此番大规模封禁账户的举动,引来全球网友纷纷吐槽。 有网友犀利评论,印度政府此次高调封号,恰似一场精心策划的“国家级行为艺术”表演。一方面,印度政府挥舞着行政铁拳,对社交媒体平台展开强力管控,试图以强硬手段塑造网络舆论环境; 另一方面,在国内舆论场上,却出现了一种整齐划一的“支持祖国”刷屏景象,场面颇为壮观。 更令人啼笑皆非的是,一些原本专注于其他领域的非军事博主,也纷纷化身“辟谣战士”,将网络上出现的质疑声音一股脑地归咎于“中国水军”的恶意抹黑,或是“巴铁”在背后策划的阴谋,试图以此转移公众视线,维护所谓的“国家形象”。
创业者想拜拜梁文锋 DS爆火100天
编者按:自1月20日DeepSeek R1爆火以来,过去100天的大模型世界中,DeepSeek成了当之无愧的顶流明星。DeepSeek不仅展现了中国AI的力量,也在一定程度上影响了世界AI发展的方向。值此之际,字母榜&直面AI特推出“DeepSeek爆火100天”专题报道。 2024年底还徘徊在倒闭边缘的张旸(化名),年初就接到了DeepSeek带来的泼天富贵。 “没能倒闭,全靠DeepSeek。”作为一家AI硬件企业的创始人,张旸去年把国内大小投资机构的码头拜了个遍,尽管出身大厂,却没拿着高管title,没能拿到理想的融资额度;尽管研发的陪伴类AI硬件产品已经量产,却因为“市场需求太少,烧着老本做研发”而濒临倒闭。 就在DeepSeek于2025年烧起一团火后,张旸突然拿到了某知名品牌的订单——甲方要求基于DeepSeek R1模型开发一款面向儿童的智能家居。年初,张旸也从险些卖身转向“业务狂奔”,公司命运因为DeepSeek画了一个大大的上扬曲线。 “真想拜拜梁文锋。”张旸调侃道。 这种转变并非孤例。2023年7月离开微软投入AI创业的李泼,过年时给在老家的父母在手机上下载了DeepSeek的APP,“从没有这样一款AI应用,让AI真正地的破圈了”。 随后,去年尚处在种子轮融资的李泼,面临着Pre A、A轮融资才需要的条件审查,而今年,他的团队已经与海外几家头部美元基金“聊得很顺利”。对早早出海的李泼来说,火出国的DeepSeek成了中国创业者的海外融资名片,“DeepSeek不仅证明了国内AI技术水平已经追上国外,还证明了中国AI团队往往在降低成本和商业化上更有潜力。” 回顾2025年1月DeepSeek R1发布至今,100天内,AI创投圈的转身动作不可谓不大。 2024年8月,金沙江创投主管合伙人朱啸虎还在断言“五年内不会有独立大模型公司存活”,认为AI六小虎的出路只有卖身大厂。但DeepSeek爆火出圈后的60天内,2025年3月,他在朋友圈发文:“若DeepSeek开放融资,愿以任何估值入场。” 不过值得注意的一个细节是,但根据字母榜(ID:wujicaijing)观察,AI投资人们看似信心重回,却选择了绕开DeepSeek所在的大模型创业领域。 在2025年至今,总计近30多起融资中,高额融资出现于AI应用、具身智能领域。例如华创资本投资硅基流动,其为DeepSeek提供的推理加速服务正是推动其出圈的关键因素。真格基金等纷纷押注具身智能,宇树科技B轮融资10亿元创下赛道纪录,此外它石智航也以1.2亿美元的天使轮融资创下纪录。私募机构开始挖掘“AI+医疗”,“AI+法律”等垂直领域,例如Harvey法律合同生成工具的估值就在半年内实现了翻倍。 同时,主打低成本开源的DeepSeek,不仅让AI应用开发门槛骤降,也让AI创业更卷了。 以AI六小虎为例,月之暗面被爆砍掉Kimi聊天机器人70%的营销预算,转而专注模型训练,试图复刻DeepSeek的技术路线;曾经由于商业化压力在2024年裁员20%的智谱AI,不仅在3月宣布开源GLM系列模型,加入开源大军,也拿到杭州、珠海国资超15亿元注资,试图以“国家队”身份争夺话语权。 李泼开发的AI Agent“WorkfxAI”,主打电商、银行、医疗等垂直场景,凭借垂直领域数据的微调模型,实现了近百万的营收。 “现在比拼的不再是技术参数,而是谁能更快更好地将模型与场景深度绑定。”李泼表示。 DeepSeek也未停下迭代的脚步。而3月25 日,DeepSeek官方宣布 V3 模型完成小版本升级。DeepSeek似乎并未停下迭代的脚步。随后4月30日发布DeepSeek-Prover-V2-671B大模型(专注数学证明领域)。无论是利好还是利空,这场由DeepSeek“无意”引发的地震,显然还将带来更深、更远的震动。 "国内融资看海外,DeepSeek的出现让海外投资人更关注中国的AI团队了。“ 李泼是最早一批微软Bing搜索团队的成员,从阿里到微软,再到2023年7月从微软离职开始AI创业,他在国内国外都组建了团队,而去年,他没能拿到一个满意的融资额。 截止2025年1月DeepSeek爆火出圈前,AI创业者如李泼们面临着信心低迷的投资市场。 在李泼所处的Agent领域,想要在国内融到天使轮,需要满足半年内从0做到100万美元年营收的要求。彼时国内无论是B端或C端,都尚未对AI形成明确认知,这让初创者如李泼稍觉苛刻,“融天使轮、种子轮,投资人基本是按PreA、或者A轮的标准,并不是用户量多就能拿到钱,对营收数额和付费率都按照A轮/Pre A来要求。” 在国外,谈起中国团队,“技术落后,copy”成了关键词,李泼的团队也没能得到关注。 春节DeepSeek爆火出圈后,风向变了。 李泼似乎不必再费力向亲戚朋友介绍什么是AI,DeepSeek的出圈让老家的父母都有了了解,同时,DeepSeek的技术突破也让海外投资人意识道到,“中国的AI技术已经追上来了,虽然在性能创新上未必及得上OpenAI,但DeepSeek证明了我们可以把价格打下来。”去年对李泼爱搭不理的海外基金,也在今年变为倾向于看中国团队。 如今,李泼的种子轮融资已经谈到了最后一轮,“目标是融到500万美元。” 海外投资机构Blackbird Ventures 办公室(曾投资Canva) 李泼提供 国内头部创投基金合伙人方城(化名)也告诉字母榜,DeepSeek把价格打下来后,AI应用市场会迎来爆发,向AI投资的上游如芯片,下游如应用、硬件积极出手成为了共识,“DeepSeek的出现确实让大家的认知都趋同了。” 方城发现,DeepSeek的出现不仅让大厂争先恐后推出深度思考大模型,就连AI创业者也在学DeepSeek。 李泼的“WorkfxAI”也开始在整个产品设计和各个关节加入思考展示的过程。DeepSeek的火爆让他意识到,无论是 ToB还是ToC,用户都希望更透明,更多加可解释性,用户想知道AI 它到底在做什么。 和李泼一样,DeepSeek出圈后,程森不仅把产品模型的一部分替换成了DeepSeek,还在启发下修改了产品的内部流程。 去年9月,从某头部互联网大厂出走创业后,程森赶在今年1月上线了自己的Agent工具,分析DeepSeek的出圈原因时,程森意识到DeepSeek的生成质量高,是因为内部思考向外展示,让C端用户可以直接在CoOT环节(思维链,即Chain of Thought,指AI通过逻辑推理和信息处理来理解和回应用户问题)发出指令,约束大模型。 因此,程森也在产品内部增加了节点,把机器思考过程加入到下一轮输出中,“加入了思考过程后输出质量确实更高了。”尽管因此每月的tokens消耗成本比之前多了2-3倍,但注册用户数也从2月的4000名增长到如今的3万多名。 不过,方城坦诚,尽管和去年11月相比,团队最近看的项目翻了一倍,但业内都很默契地得绕开了DeepSeek所在的大模型基座领域,更倾向于投资AI应用和具身智能赛道。 “DeepSeek证明了大模型不是非得堆算力才能提升性能,但也把大模型这一块的壁垒再次拉高了,现在追投六小虎,除了国资,别的基金很难接得住。”方城成表示,即使投资人们的口头上对于创业者有了松动,但实际上真正下手的并不多。 对创业者们来说,如今的投资市场似乎正像春天的太阳,看着光亮,热度却难以传递下来。 “相比去年,Agent方向看的投资人更多了,但更难融到资了。” 程森告诉字母榜,去年他也和李泼一样,被近乎苛刻的融资条件拦在了外头,头部互联网大厂的title并不能顺利“变现”,最终他选择拿了个人投资者的钱做启动基金。 随着DeepSeek爆火,投资人们看着比去年更积极,但DeepSeek让普通开发者的技术门槛进一步降低,随之而来的是竞争对手更多了,钱反而更难融到手了。 事实上,在DeepSeek爆火的100天以来,大模型赛道越来越拥挤了。 AppGrowing数据显示,2月以来,Kimi的投放急剧下滑,从2024年12月、1月单月投流金额过亿,到2月减少为4425万元,作为六小虎中颇为高调的技术派,月之暗面也爆出大幅收缩产品投放预算的消息。 同时,在DeepSeek宣布理论上利润率为545%,即便以极低的token价格,也能获得盈利时,估值超200亿,刚在各地拿到超15亿元融资的智谱,根据凤凰网报道,2024年销售额为3亿元,亏损仍达20亿元人民币。在开源、知名度更高的DeepSeek面前,AI创业者们,即便是头部的六小虎,B端业务的商业化都面临着一场激烈的淘汰赛。 MiniMax也在近期传出开放平台负责人魏伟离职的消息。对此,MiniMax方面回应称国内B端业务迎来新的发展阶段,将由其他负责人带领团队。DeepSeek热潮带来的大模型公司商业化压力,似乎MiniMax也不能幸免。 而即便是做垂直场景,卷度也只增不减。横在AI创业者面前的,是亟待回答的商业化难题。 由李开复创办的零一万物已停止大语言模型的“预训练”,转而集中在利用DeepSeek的模型销售定制化人工智能商业解决方案;百川智能则转向医疗保健市场。 程森选择为体量更小的B端企业开发定制向的服务,圈定了一老一少两个年龄层。 Deepseek热度之下,程森在小红书宣布自家Agent接入了Deepseek,点赞数能达到4000多个,这是他创业以来热度最高的帖子。但随着用户从2月份的4000名涨到3万多名,每月tokens消耗数增长了2-3倍,程森仍然需要给团队找出路。 不过,不管是以团队入驻支持的形式,还是探索商业SaaS的收费模式,程森坦诚,这些都只是可能的现金来源,“毕竟国内商业SaaS发展了许多年,大厂都尚未形成一个特别好的模式。” 不同于去年初创业时找遍投资人的迷茫,程森的团队决定将用户群体缩小到老少两个年龄层,尽管这两个群体的消费能力受到质疑,程森决定先去做“有价值的事情,今年融不融到钱不重要了。” 似乎,DeepSeek这颗石子激起的浪花仍然有限。 对创业者们来说,DeepSeek爆火出圈的60多天内100天内,尚未改变的还有永不停歇的技术竞赛带来的压力。 李泼的WorkfxAI保持着1-2个月就会迭代的更新频率,大厂如国外的谷歌、OpenAI,国内的字节、阿里、DeepSeek等等的模型功能更新,都会成为WorkfxAI的更新进度参考,“Gemini、OpenAI一更新,我们也会立刻更新。” 为了保持为B端用户提供Agent平台的技术壁垒,李泼的团队不得不行走在持续迭代的路上。 而就在最近,DeepSeek Vv3实现功能更新,注重推理能力的R2模型也预计将在5月前发布。3月OpenAI对GPT-4o和Sora进行了重大更新,推出了全新文生图模型,。不仅支持连续发问、风格转换、图像PPT,甚至在部分性能超越了该领域的头部平台Midjourney。 来自技术大厂的一次振翅,都有可能是创业者的一场风暴,“花了那么多时间、人力去调优的算法和模型,也许一次就会被大模型的更新取代。”程森补充道。 X平台创业者的分享  X平台 为了跟上技术迭代,创业者需要和大厂抢人、抢资源。尽管DeepSeek爆火后,大厂如字节、阿里、腾讯等大厂的战略调整,使得市场上突然出现了不少优秀的技术人才,但“人仍然不够用,好的算法人才,年薪包不是普通创业公司能接得住的。”方城成补充道。 需要注意的是,在这个充满未知的竞赛里,无论是大厂还是创业者,持续投入AI的决心也并不会改变,甚至在DeepSeek爆火的60多天内,进一步强化了。 除了跟紧DeepSeek,抢夺外溢红利之外,腾讯不仅积极推流元宝,还适时推出了自家的T1深度推理大模型。同时,阿里也在最近将夸克重要性再次提升,定位为阿里的AI旗舰应用。 根据AppGrowing数据,2月底开始,通义千问逐渐加大广告端投入,并在3月6日发布开源推理模型QwQ-32B后投放量进入TOP10。字节的豆包大模型部门(Seed)也在全员会上提出模型应用长期要贴着模型能力去做,豆包推理模型全量上新。 “大模型就像核武器,大公司无论如何都得有。因为如果模型能力出现重大突破而你没有跟上,那你的用户还会被抢走。”傅盛对当代AI应用竞争的判断也呼应了大厂的动作。 总的来说,“DeepSeek更像一个inspiring(启发),它的出现让市场有了共识,让创业者们更加兴奋,但真正实际带来的效果并不明显,DeepSeek可能需要在通用能力各个方面打平OpenAI,如果彼时还能有如此低的价格,那将彻底引领一场AI革命。”李泼补充道。 无论是大厂还是AI六小虎,乃至DeepSeek,这场围绕基座模型及AI应用的战役尚未走到终局,DeepSeek爆火的100天或许更像是一个技术注脚,中国创业者开始走上浪头,接下来,还有更多的未知等待着他们。 (文中程森、张旸、方城成为化名)
国行版苹果AI即将落地 考验百度的时候到了
文|罗拉 2005年,苹果创始人乔布斯找到英特尔,想请这家芯片巨头为初代iPhone开发手机CPU。 在苹果给的报价和潜在风险之间一掂量,时任英特尔CEO的欧德宁,傲娇地说了「不」。后来的故事大家都知道了,英特尔失去了一整个移动互联网时代。 生成式AI时代的大模型厂商们,没有人想成为第二个英特尔。在苹果AI技术服务商的竞争名单中,OpenAI、谷歌是这样,百度、阿里也是如此。 去年底就有外媒报道,苹果AI国行版主要与百度洽谈。到今年2月,阿里也宣布苹果选择阿里一起合作落地手机的AI功能。 了解苹果行事风格的人都知道,苹果向来不喜欢采用单一供应商。在阿里官宣后,业内认识开始讨论,为什么不是百度? 就在前两天,彭博社记者马克・古尔曼爆料,国行版苹果iOS 18.6 将启用部分 Apple Intelligence功能,由百度和阿里共同提供技术支持,其中,阿里负责开发审查引擎;百度的AI与Siri和Visual Intelligence将实现集成,这意味着百度将在中国取代OpenAI的ChatGPT和谷歌搜索的角色。 有业内人士称,从往常经验来看,安全模块在AI服务里一般只占比 10%左右,为苹果提供核心AI能力支持的可能还是百度。 现在可能轮到外界问,为什么是百度?以及被苹果「圈选」后,百度能否扳回一局? 01 互相押注 公众注意力和资本市场的反应证明,在AI行业,刷榜单、刷papper、投流刷日活,远不如成为苹果AI服务商来得更为轰动。 ▲Apple Intelligence的国行合作伙伴选择一直让外界期待 今年2月阿里宣布与苹果的AI合作后,阿里港股当日收涨8.48%。在彭博社记者透露苹果AI牵手百度后,百度股价也迎来上涨。 大模型技术一日千里,普通人很难看清其间的虚虚实实,但大家普遍相信,苹果筛选服务商向来挑剔,被选中者的综合实力很难注水。这是苹果背书效应的根源。 不过在我们看来,苹果牵手百度,即是互相需要,也是一次互相押注—— 苹果在中国市场的处境有目共睹。IDC数据显示,苹果今年第一季度在中国市场出货量降至980万部,市场占有率从前一季度的17.4%下滑到13.7%,在中国智能手机市场排名第五,小米、华为位列前二。 这是苹果在最大海外市场的一次中场溃败。 目前,无论是安卓阵营纷纷热衷的「支持苹果生态」、与「苹果设备无缝链接」,还是国产手机厂商在生成式AI方面的进展,动机都是抢市场。 此前有Omdia分析师指出,苹果公司在生成式AI领域处于落后地位,需要重大创新才能脱颖而出。苹果的竞争压力可想而知。 这种情形下,国行版iPhone的AI技术服务商筛选,容不得半点闪失。如果国行版的中文AI能力不比ChatGPT、谷歌逊色,甚至还有过人之处,那苹果就有可能借AI扳回一局,给动摇中的果粉们一个毫不犹豫的换机理由。反之,则可能在中国市场丢盔弃甲。 对AI服务商的选择,其实是苹果压上品牌声誉的一次押注。 至于百度,更是需要找到一方应用广泛的C端场景,展示其AI技术实力。 其实,在传出与苹果AI合作之前,百度已与三星、荣耀、小米等智能手机厂商展开AI合作。三星Galaxy S24、荣耀Magic6、小米等主流机型都已集成文心大模型。 其中Galaxy S24是三星Galaxy AI的首次落地,这款年度旗舰机型被视为三星超越iPhone的扛鼎之作。在Galaxy S24当中,谷歌AI负责通用版,国行版接入的则是百度AI,负责的「即圈即搜」、文本摘要和其他AI功能。 ▲Galaxy S24的宣传照中展示「即圈即搜」功能 顶级智能手机厂商,又是如此重要的机型,选中百度AI合作,其实已经是对百度AI能力的一种背书。但即便有网友称赞Galaxy S24的中文翻译更地道,搜索结果也更贴近中国用户,考虑到三星在中国的市场份额,关注度应该也没那么多。 成为苹果AI服务商则不同。苹果切实把控着AI应用落地的端侧入口,苹果也需要让Siri更懂中文,让搜索更接地气。而百度在语言处理、图像识别等领域的本土化优势,已被三星用户验证过。 百度AI技术能力的真实斤两,未来有可能通过2亿多苹果用户,直接接受实时测试。 如果与苹果AI合作顺利,对于百度搜索以及其他技术产品来说,无疑都是一个巨大的机会敞口。前述Omdia分析师在接受外媒采访时曾点评,苹果公司的优势在于为各种技术引入创新应用案例和杀手级应用。 当然风险也不小。如果百度AI不符合用户期待,那苹果用户有可能连带对其他百度系产品产生不信任心理。所以站在百度角度,与苹果的AI合作,也是一次压力峰值测试般的押注。 02 百度接得住吗? 问题来了,百度是否接得住苹果的橄榄枝,并借此在AI厂商的你争我赶中扳回一局? 在前几轮大模型厂商竞争中,百度由于闭源模型路线、市场策略偏保守等问题,导致文心大模型以及文小言等AI应用的声量弱于一些竞争对手。 客观来看,自从DeepSeek横空出世以来,AI大厂在震撼之余纷纷调整策略。OpenAI首席执行官萨姆·奥特曼坦言,他认为公司当初的闭源策略站在了历史的错误一方,目前OpenAI开始试水开源。 百度的转向和业务进展其实也很快。4月26日,百度最新发布的文心大模型4.5 Turbo和X1 Turbo,在多项基准测试中超越竞争对手DeepSeek,且调用成本仅为后者的25%。不仅如此,李彦宏还宣布,文心大模型4.5将于6月30日正式开源。 这项业务进展或许也能侧面解释,百度今年2月为什么会火速接入DeepSeek,以及苹果AI为什么选中百度。就像业内常说的,大模型单拼能力没有意义。因此百度、阿里走的都是生态路线。 具体到百度,其多年来构建的是一条「芯片 - 框架 - 模型 - 应用」 四层全栈技术路线,这是成为AI生态平台的基础。比如在百度千帆大模型平台,开发者既可以调用文心大模型,也可以调用其他厂商开源模型,多一个DeepSeek,正好能承接部分流量。 ▲千帆大模型平台集成多家大模型服务 与此同时,自家的文心大模型要拼命进化。近期新发布的文心大模型4.5是百度首个原生多模态大模型,以此可以支撑更多应用层的探索。比如升级后的文小言已具备图片问答、AI生图生视频等多项能力。这些能力升级均指向更智能、更高效的AI体验。 ▲用文小言生成的蒸汽朋克风的爱因斯坦动图 如果说大模型竞赛是一场体育盛会,百度的路线应该是「铁人三项」,是综合与全能模式,贵在一个即使没能创造惊喜,但基本发挥稳定,所以我们会看到,百度天天强调全栈能力,而且在金融、能源等to B应用落地领域进展比较快,也拿下了一些大单。比如2024年百度智能云在中标项目数、行业覆盖数、央国企中标项目数三个维度均居第一。 这些快速发生的、从下向上的迭代更新能力,或许也是苹果押注百度的一个原因。苹果需要的AI能力,未必要行业内最好用的,但一定是稳定、可靠且合规的。说白了,安全感。 从行业格局来看,AI技术演进越来越像是一场长跑,倒也不必以一次模型更新、一个惊艳应用定输赢、定强弱。关键是中外同行间接力推动技术进化。
苹果副总裁:iPhone 可能在十年内会被淘汰,但 AI 会改变一切
赶不上 就被淘汰 在位者的日子不好过,我们不是石油公司,也不是牙膏——这些东西会永远存在......但 10 年后你可能不需要 iPhone 了。 这个将 iPhone 与石油和牙膏做对比的,是苹果服务业务的高级副总裁 Eddy Cue——讲出这话时,他正在 Google 反垄断诉讼的法庭上。 Eddy Cue 是苹果公司的资深元老,自 1989 年加入以来,他在公司发展历程中扮演了关键角色,曾参与创建了 Apple Online Store、iTunes Store 和 App Store 等奠基性平台,并长期负责 Apple Music、Apple News、Apple Podcasts、Apple TV 应用、地图、Apple Pay、iCloud 等一系列核心服务——换言之,苹果服务生态的半壁江山,都是他的业务范畴。 这番话也许是应对法庭所需的托辞,但或许也是苹果公司高层们的共识——总有一天 iPhone 会消失,但苹果会找到新的支柱。 Eddy Cue 十年后,代替 iPhone 的是 AI 硬件 在 Eddy 看来,苹果公司历史上最英明的决策之一,便是杀死了 iPod。 当时正是 iPod 如日中天的时候,苹果为什么要杀死一只还能下金蛋的鸡? 因为当时苹果公司的战略已经面向未来——如果 iPod 注定会被别的产品,比如智能手机取替,那不如自己来成为这个终结者。 Eddy 认为,人工智能可能会是决定 iPhone 未来的关键,更准确地说,是 AI 硬件。 这不是一个新兴的概念,事实上,从 AI 兴起以后,我们就看到了不少 AI 硬件,比如 Ai Pin。 2018 年,前苹果软件工程总监 Bethany Bongiorno 和前苹果设计师 Imran Chaudhri 共同创立了 Humane,主要目的是开发人工智能驱动的创新技术。 这家公司创立之初可谓是备受瞩目,陆续获得了 OpenAI CEO Sam Altman 和微软等明星人物或公司的青睐,拿下 2.4 亿美元的投资。 而 Humane 也不负众望,2023 年底,他们推出的第一个硬件,就拿两位创始人的老东家开刀,在「代替 iPhone」的口号下,Ai Pin 出现在我们面前。 Ai Pin 形似一个方形别针,外壳经阳极氧化或抛光处理,表面覆盖康宁大猩猩玻璃触控板,顶部倾斜的面板中集成激光投影模组和折叠式 ToF 摄像头,还设计了信号灯,用于提示摄像头与麦克风的工作状态。 代替 iPhone 可不是白说的,Ai Pin 的硬件还真不算少,在这个小小的机身内,Humane 塞入了一颗高通骁龙芯片、4GB RAM、8GB ROM 以及环境光、加速度计、陀螺仪、GPS 等各种传感器,与此同时还保持了 55 克的重量。与机身一样简洁的,还有它的交互。Ai Pin 几乎没有物理按键,用户可以通过语音、手势和触控来控制 Ai Pin 工作。 作为响应,Ai Pin 会通过激光投影将信息显示在用户的手掌上,显示分辨率为 720P,所有交互内容由 ChatGPT 来进行回应支持。 听起来很美好,市场也这么觉得,在还没上市的时候,就被《时代》杂志评选为「2023 年度发明」,有媒体称之为「颠覆智能手机的革命性产品」。 不过发售后的 Ai Pin,口碑迎来了一个大反转,交互体验极其糟糕、AI 对话延迟过高、续航发热表现不佳、火灾安全隐患等问题蜂拥而至,最终于今年的三月正式停止服务,Humane 这家公司的故事也以被惠普收购而告一段落。 喊出「替代 iPhone」口号的 Humane 倒下了,但这种体积小巧的 AI 硬件,还有不少同类。 例如,Rabbit R1 是一款橙色的小巧设备,它不依赖传统的应用模式,而是通过其自主的 AI 模型(LAM)和语音交互,旨在充当一个通用的人工网代理,直接为用户执行跨平台的复杂任务,比如预订或点餐,代表着一种通过 AI 简化数字世界交互的探索; 而 Limitless Pendant(原名 Rewind Pendant)则是一款夹式穿戴设备,其核心功能在于持续捕捉并利用 AI 总结用户的现实对话音频,以「增强记忆」为目标,帮助用户轻松回顾和查找信息。 相比 Ai Pin,Rabbit R1 与 Limitless Pendant 没有企图一步登天,而是更为聚焦,尝试将 AI 能力封装到特定形态、服务于特定目的的硬件中,作为区别于智能手机的另一种交互或功能延伸的尝试。 和仍然处于早期探索的小型 AI 硬件不同,一些更大的 AI 产品,目前已经取得一些阶段性的成果。 Meta 与雷朋眼镜合作的 Ray-Bans,这款内置 Meta AI 的智能眼镜,自 2023 年底亮相至今年 3 月销量已突破 200 万副。 Meta CEO Mark Zuckerberg 预计,到 2025 年底,这一数字将达到 500 万,作为印证,Ray-Bans 的制造商 EssilorLuxottica 也公开表示,预计到 2026 年底,每年将生产 1000 万副眼镜。 而苹果本身也推出了被视为「明日产品」的 Vision Pro,虽然根据 IDC 的数据报告显示 2024 年全年的销量不超过 50 万台,远低于最初预期的 70-80 万台,但苹果依旧在持续推进相关硬件的研发,包括 Vision Pro 的迭代型号、平价型号,铁了心要在这个形态上搞出点大动静。 与此同时,就在今天,也有知情人士爆料,苹果在智能眼镜的处理器方面已经取得了一定进展。 这款处理器基于 Apple Watch 的芯片设计,功耗较低,可以同时控制多个摄像头,苹果的目标是最早在明年年底开始批量生产这一处理器,这意味着如果顺利推进,智能眼镜或将在未来两年内上市,为苹果与 Meta 的 Ray-Bans竞争做好准备。 此外,苹果还计划为 AirPods 和 Apple Watch 增加摄像头,正在研发名为 Glennie 的组件与 Nevis 芯片,将这些较为传统的智能设备转化为人工智能产品。 根据知名苹果分析师郭明錤 2021 年的爆料,苹果计划在十年内,即到 2030 年,利用增强现实(AR)设备取代 iPhone,具体目标是在未来十年内销售至少 10 亿台 AR 设备,以满足当前超过 10 亿活跃 iPhone 用户的需求。 在回顾完 iPod 的消亡后,Eddy 感叹道: 当我来到硅谷时,曾经像惠普、太阳计算机系统(Sun Microsystems, Inc.)和英特尔这些最好的,或是最成功的公司,要么不复存在,要么规模大大缩小,影响力也大大减弱了。 的确,曾经不可一世,开创了 Jave 编程语言、曾经差点收购苹果的 Sun Microsystems 也能在朝夕间成为过去式,给苹果再次敲响警钟,这样的危机感时刻刺激着这个科技巨无霸,所以我们看到苹果一边布局未来设备的探索,一边还在重组 Siri 的升级团队,进一步加速这一将成为 Apple Intelligence 主要交互入口的项目。 毕竟,十年后,我们的确很可能不需要 iPhone 了,但现在,iPhone 却非常需要 AI。 苹果需要时间,AI 们也需要 Eddy 的呈堂证词提到了 iPhone 的未来,但这只能算个小预言,这场发言的重点,还是在苹果与 Google 的纠葛中。 此前,为了维持 Google 搜索引擎在苹果跨平台浏览器 Safari 中的默认地位,Google 每年需要向苹果支付超过 200 亿美元,Eddy 承认,这项协议仍然是苹果目前最为重要的财务条款之一。 但在这场持久又艰难的垄断案件中,这份协议可能会被解除。 不过,哪怕牵扯到每年 200 亿美金的协议解除让负责苹果服务营收的 Eddy 夜不能寐,他也承认,如今搜索引擎市场上已经出现了新的可能性——AI 搜索。 上个月,Safari 浏览器的搜索量首次出现下降,Eddy 认为这是因为越来越多的用户开始转向 AI 搜索,他相信像 OpenAI、Perplexity AI 和 Anthropic PBC 等人工智能搜索提供商,最终会取代 Google 等传统搜索引擎。 这并非仅仅是口头表态,Eddy 透露,苹果未来可能会将这些 AI 搜索选项引入 Safari 浏览器,供用户选择作为默认搜索引擎,而且,苹果已经就此事与 Perplexity AI 进行了一些讨论。 另外,Eddy Cue 还透露苹果研究了中国的 DeepSeek 与马斯克的 Grok,探索在操作系统中集成的可能性,此前 Siri 中已经集成了 ChatGPT,预计今年晚些时候还会迎来 Gemini 的加入。 之所以如此积极,还是因为自家的 Apple Intelligence 表现不尽如人意,但在 AI 浪潮中又不能落后,否则,取代 iPhone 的就可能是别人。 另外值得提一嘴的是,在这场审判会的同时,Alphabet 股价暴跌 7.3%,是 2 月份以来的最大跌幅,苹果股价也在 Cue 的评论中下跌,收盘时降幅 1.1%,这下 Eddy 的失眠要更严重了。 言归正传,Google 的反垄断案件发展到如今的地步,某种程度上可以说已经成为涵盖软件、移动终端、AI 等领域的科技圈《启示录》。 无论是手机厂商、电脑厂商,还是搜索服务商、软件服务商、AI 技术公司,都被卷入其中,虽然各方的加入让局势变得越来越混乱,但也指明了一些未来的方向。 对苹果等厂商而言,AI 搜索代表着未来,而对于掌握着未来的 AI 服务商而言,立足于当下也很重要。 前段时间,同样是在 Google 反垄断案件中,ChatGPT 的产品负责人 Nick Turley 就表示如果法院最终裁定 Google 必须剥离 Chrome 浏览器以恢复搜索市场的竞争,OpenAI 将有兴趣收购 Chrome,并直言其目的是因为搜索引擎: 如果没有搜索技术,OpenAI 构建「超级助手」应用并实现通用人工智能(AGI)的目标将无法成功。 在欧盟《数字服务法案》(DSA)要求下,OpenAI 最近也披露了 ChatGPT 搜索的数据,截至今年 3 月 31 日,ChatGPT 搜索月均活跃用户达到 4130 万,而半年前仅为 1120 万,增长惊人。 不过增速虽快,仍难以撼动搜索霸主 Google 的地位。根据市场调查机构 Statcounter 公布的报告,2025 年 3 月 Google Chrome 浏览器的全球市场份额为 66.16%,稳居第一。 如果 OpenAI 能拿下 Chrome,不仅绕开 Google 封闭的搜索入口控制,还将直接接入用户的实时搜索轨迹、行为偏好及交互行为,为 AI 模型提供源源不断的「鲜活燃料」。 现阶段的 AI 服务商,就像自然界中常见的「寄生」一样,在 AI 硬件完全成熟前,依旧还需要紧紧依靠手机或浏览器这样的既有入口。 就像历史周期总是螺旋式上升一样,从 Google 这场混乱的反垄断案来看,AI 这个未来的既定方向,一直以来也是在多个行业、多方巨头的纠葛中缓慢前行的—— 对于 ChatGPT 等 AI 公司而言,想在 AI 硬件大举取替智能手机之前,获得更多的主动权,仍需时间去博弈; 对于苹果等在 AI 浪潮中郁郁不得志的硬件巨头来说,这也是个养精蓄锐的窗口期,正如苹果官网上一直挂着的那句标语——为 Apple 智能准备好。 唯一不高兴的,也许就是 Google 了,毕竟钝刀子割肉,不好受。 文 | 周奕旨
苹果专利设想Face Sensor系统:改善Vision Pro头显佩戴舒适度
IT之家 5 月 10 日消息,科技媒体 patentlyapple 今天(5 月 10 日)发布博文,报道称苹果公司获批一项专利,描述了全新的 Face Sensor 系统,不仅能改善佩戴舒适度,而且精准追踪眼球动作。 部分苹果 Vision Pro 用户反映,长时间佩戴设备会导致眼疲劳、头痛和颈部不适。究其原因,设备的重量和贴合度设计可能不够理想,显示屏的高强度视觉刺激也可能加剧不适。 问题曝光后,苹果工程师迅速行动,投入大量精力改进设计,力求在下一代产品(如 Vision Pro 2)中解决这些问题,苹果目前已申请多项相关专利,涵盖舒适性改进的多个方面。 IT之家援引博文介绍,在最新专利中,苹果提出了 Face Sensor 系统,通过检测用户面部特征和对齐情况,帮助设备更精准地贴合头部。 正确的佩戴位置不仅能优化显示屏与眼睛的对齐,提升视觉体验,还能平衡重量分布,减轻面部压力。专利中特别提到,传感器(如#310 和#370)可测量用户面部多个区域(如额头、鼻子和脸颊)的距离,确保设备的光密封(Light Seal)舒适贴合。 Face Sensor 系统包括图像传感器、深度传感器和热成像(红外)等多种传感器,深度传感器可通过立体三角测量、结构光或飞行时间(Time-of-Flight)技术,精确测量面部区域距离。
Google Play强制新规:应用必须适配16KB页面大小
IT之家 5 月 10 日消息,科技媒体 9to5Google 昨日(5 月 9 日)发布博文,报道称谷歌将于 2025 年 11 月 1 日开始,其 Google Play 应用商店将推行新规,针对安卓 15 及以上版本的新应用及应用更新,必须支持 16 KB 页面大小。 若应用未重新编译适配这一规格,未来在支持该功能的 Android 设备上可能无法正常运行。 谷歌表示,许多应用已具备兼容性,无需调整;无原生代码的应用可直接适配;使用原生代码库或 SDK 的应用可能需更新至兼容版本;包含原生代码的应用则需使用最新工具链重新编译,并检查是否存在不兼容的低级内存管理代码。 谷歌安卓 15 此前版本基于 4 KB 页面大小构建和优化运行。IT之家注:页面大小是指操作系统通过内存管理单元(MMU)将程序地址转换为物理内存位置的基本单位。每次程序需要更多内存时,系统必须介入并填写“页面表”(page table)条目,将内存分配给相应进程。 伴随着设备制造商(OEM)不断增加内存大小,以优化性能,16 KB 页面大小逐渐成为趋势。安卓 15 通过重构操作系统,实现了页面大小无关性,确保应用能在支持更大页面大小的新设备上运行。 测试显示,这项技术带来多项性能改进:应用启动速度提升 3% 至 30%,电池续航平均延长 4.5%,相机启动速度加快 4.5% 至 6.6%,系统开机速度提升约 8%,整体性能提升了 5-10%。 而 16 KB 页面大小是 4 KB 的四倍,意味着系统管理的工作量减少了四分之三。这让系统能将更多资源用于提升视频播放效果、游戏流畅度和应用运行效率。
安卓重大更新!引入“任务栏” 谷歌意在提振手机生产力?
将于2025年5月20日至21日召开的谷歌全球开发者大会(Google I/O 2025)已进入倒计时。 为了即将举行的全球开发者大会,谷歌这次也是准备了不少预热好料,不仅提前宣布推出Gemini 2.5 Pro Preview(I/O版),更表示将会提前一周举行一场特别直播节目,将重点介绍Android 16系统的新特性及生态系统最新进展。 没错,就是越来越少国人关注的原生安卓系统。 和每次更新后,小雷的同事们总会争先恐后地水一篇文章的iOS相比,现在原生安卓更新的影响力,就像全红婵跳水一样,入水见不到一滴水花,留下来的只有安静现场的一丝尴尬。 当然了,出现这种情况的主要原因,还是国产手机厂商们太“给力”了。 说句不好听的,和苹果那边每次实打实拿一堆新功能的真更新不同,安卓在功能上的更新往往是追认厂商魔改的合法性,从好几种魔改方案里选定一个作为标准,大多数时候,厂商们的更新都走在了谷歌前面。 要说新花样的话,倒也不是没有。 (图源:Android Authority) 根据科技媒体Android Authority昨日发布的博文,谷歌正为安卓手机,移植来自平板的任务栏体验,研发迷你任务栏(tiny taskbar),以此改善小屏幕上的多任务处理体验。 真的假的,安卓手机也要有自己的任务栏了? “小任务栏”上手机 首先,给不大熟悉原生安卓的用户科普一下。 早在Android 12L的时候,谷歌为了优化大屏设备体验,针对平板和折叠屏推出了一个底部任务栏功能,让用户可以把常用应用固定在上面,还能选择常驻或临时显示模式,到了需要的时候再叫出来。 (图源:Google) 当然了,这个版本的底部任务栏还挺粗糙的。 即便如此,它也能够实现“点击就切”的后台操作流程,通过类似PC的交互逻辑,让用户快速切换应用、实现分屏操作、简化应用管理流程,甚至能为移动设备带来更高效的生产力场景支持。 总而言之,对于经常需要工作,记笔记,画个画的用户,这功能还是很香的。 于是谷歌一拍脑门决定:这个功能,手机也得有! 所以从去年开始,谷歌就着手把“任务栏”塞进手机里头,除了针对较小的手机屏幕进行了缩小,还需要对原有导航条的位置进行适配,这才有了现在这款正在开发的 迷你任务栏。 (图源:Youtube) 从目前的演示视频来看,迷你任务栏在安卓手机上的适配做得还算不错。 用户可以通过在导航栏上滑呼出迷你任务栏,最左侧是应用托盘,中间则包含了手机底部的四个图标(电话、短信、浏览器和相机),还能通过左滑快速找到被固定显示的常用应用。 没错,就和折叠屏上现在非常常见的任务栏如出一辙。 不同的是,谷歌还为这个任务栏定制了一个独特的“最近应用轮播”界面,有点像PC上的Alt+Tab,或是苹果iPad的台前调度,点击后会弹出一个轮播式界面,展示最近打开的6个应用,算是一个专门为手机设计的轻量级多任务组件。 (图源:Youtube) 比起现在手机常见的卡片式后台,全新的轮播式界面看起来确实有点意思。 看到这里,大伙是不是也有点兴奋了,虽然咱们是不用原生安卓系统的,但要是谷歌这边都把功能上线了,还愁国内手机厂商不适配吗? BUT,重点来了! 目前的迷你任务栏,依然有着海量BUG,其中一个BUG就是“无法启动轮播应用”。 你没有看错,现在这个轮播式界面只是个展示图,用户点了对应的卡片以后并不会跳转过去。 不仅如此,当用户将主界面的应用数量设定为5x5的时候,由于主屏界面里根本没有足够的水平空间来同时容纳五个应用,因此迷你任务栏会因空间不足被截断,无法做到完整显示。 换言之,这项功能目前也不过是个半成品罢了。 能让后台更好用? 能否支持后台程序,一度是划分“智能手机”和“非智能手机”的界限。 在那个诺基亚主宰世界的年代,将S40手机和S60手机之间区分开的,除了SIS/SISX等专用应用安装包格式,就是所谓的后台机制了,哪怕RAM可能只有20MB上下,但是能在看电子书的同时保持QQ运行这一点,还是给当时年幼的我留下了很深的印象。 对了,当时的索尼爱立信手机,尽管只能使用Java应用,但却支持后台应用运行,也因此被我们戏称为半智能手机。 (图源:索尼爱立信) 进入iOS和安卓的时代后,后台的切换方式就变得比较统一了。 两者都是通过特定按键/手势,进入一个卡片化的后台界面,这些卡片的排列方式可能是简单的横向排列,部分定制系统(如MIUI、ColorOS)则可能改为堆叠式或竖向列表,但是整体操作逻辑是高度趋同的。 这样的体验,在只需要操作一个应用时自然没啥问题,但在涉及多任务的时候就会显现出明显的短板:需要切换到后台界面的次数过多了。 解决这个问题的方案,是一个能够常驻的后台界面,或者说任务栏。 (图源:苹果) 苹果iPad上的台前调度,就是这种思路的一种体现。 谷歌这边也没闲着,除了迷你任务栏外,他们还会在Android 16中升级分屏模式,全新的分屏模式将支持同时最多运行3款应用程序,其中,两个应用程序共享90%的屏幕,第三个应用程序占据剩余的10%,只需点击应用程序窗口的任何位置即可快速将其放大。 (图源:Youtube) 出现在Android 16 Beta 4中的泡泡栏,则提供了一种气泡化的后台机制,谷歌允许任意应用化身为可收起的小窗口,用户可以随时固定、切换、以浮动窗口的形式打开这些应用,减少反复调出最近任务列表的操作。 (图源:Android Authority) 很明显,谷歌正在投入大量精力来增强安卓手机上的多任务处理体验。 他们的目标也很明确,在性能已经有些过剩的情况下,手机不应该再只是一个“打开一个应用干一件事”的娱乐通讯工具,而是要能让你快速切换、多个应用同时挂起、像平板一样处理事务的“轻生产力工具”。 要说争议,当然是有的。 哪怕是现在这个时间点,依然有不少酷安网友在这项功能曝光的帖子下开战,很多网友表示他们目前根本不需要这么“重度”的移动操作系统,比起本就不多的多任务操作,他们更担心迷你任务栏的存在会“挤占屏幕空间”。 在我看来,“挤占屏幕空间”并不是最大的问题。现在的手机厂商们,为了追求握持手感和屏幕尺寸,把主流手机的比例做得又长又窄,底部的冗余空间正好可以用来放置任务栏,也不会影响到视觉中心关注的显示区域。 相反,谷歌自身和国内厂商们对导航条适配的摆烂,才是我对这项功能没有信心的根本原因。时至今日,依然有国内Top 5厂商的旗舰手机无法实现沉浸式导航条,每次打开深色模式,屏幕底部都跟一条光剑似的,实在很难想象迷你任务栏出来后会是怎样的观感。 我认为,如果谷歌能够设法解决这些悬而未决的问题,那么迷你任务栏绝对有望成为近年来安卓手机最大的一次多任务升级。 但想把安卓手机推向“轻生产力设备”方向?谁平时会在手机上做多任务操作?聊天+短信+复制密码算不算生产力? 只能说谷歌,任重而道远。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。