行业分类:
加载中...
头条分类:
加载中...
年度最强AI登场!马斯克奥特曼点赞Gemini 3,体验后我发现ChatGPT要慌了
就在刚刚,Gemini 3 Pro 预览版正式发布。 年底的 AI 圈向来不缺新闻,但今年格外喧嚣。如果不出意外,这将是 2025 年压轴登场、最令人期待的海外大模型,甚至可以说,Gemini 3 Pro 成了这个时间窗口唯一的主角。 过去两个月,Google 几乎复刻了 Sam Altman 的营销手法,从 Gemini 著名宣传委员 Logan Kilpatrick 到 CEO 皮查伊,内部人员频繁在社交平台打哑谜,推波助澜,将外界对 Gemini 3 的期待值不断拔高。 有趣的是,OpenAI CEO Sam Altman 刚刚也在 X 平台发文称:「恭喜谷歌成功推出 Gemini 3!!看起来是个很棒的模型。」 有着奥特曼的前车之鉴,谜语人的玩法风险极大,一旦产品力不足,口碑会瞬间崩塌。但显然,谷歌对自己的产品充满自信。那么,Gemini 3 Pro 这次到底交出了什么答卷? 省流版如下: Gemini 3 Pro 预览版原生多模态支持(文字、图像、视频、音频) 在 LMArena 排行榜登顶,在推理、多模态、编程等主流测试中全面领先 推理能力创纪录(GPQA Diamond 91.9%、MathArena Apex 23.4%) 提供 Deep Think 深度思考模式(未来几周开放) 100 万 token 上下文窗口 + 64K 输出 推出全新 AI IDE:Google Antigravity,新模型已集成 Cursor、GitHub、JetBrains 等工具 Gemini 3 生成案例,源自 DeepMind CEO Demis Hassabis 无愧 Pro 之名,谷歌最强 AI 模型深夜发布 按照 Google 的说法,Gemini 3 Pro 是目前「最智能、最具适应性的模型」,专为解决现实世界中的复杂问题而设计——尤其是那些需要更高层次推理、创造力、战略规划以及逐步改进的任务。 它的典型应用场景包括:具备自主行为能力的应用、高级编程、超长上下文理解、跨模态处理(如文字、图像、音频的结合),以及算法开发等。 Gemini 3 Pro 预览版在 LMArena 排行榜上以 1501 分的成绩位列榜首, 在几乎所有主要 AI 基准测试中都远超上一代。更关键的是,它不仅能识别图像内容,还能理解其中的隐含信息和上下文关系。 具体来看, 推理能力方面, 它在「人类最后的考试(Humanity’s Last Exam)」中拿到了 37.5% 的博士级推理成绩,GPQA Diamond 测试达到 91.9%,MathArena Apex 创下 23.4% 的业界新纪录。 多模态推理方面,MMMU-Pro 得分 81%,Video-MMMU 得分 87.6%, SimpleQA Verified 事实准确率达到 72.1%。 这也意味着 Gemini 3 Pro 能在科学、数学等各种复杂问题上可靠地提供优质解答, 而且它的回复直接提供真实见解, 告诉你需要知道的, 而不只是你想听到的。 除了常规模式,Gemini 3 还提供了一个名为 Deep Think 的深度思考选项。 这个深度思考模式在「人类最后的考试」中得分 41.0%,GPQA Diamond 提升至 93.8%, 在 ARC-AGI-2 测试中更是创造了 45.1% 前所未有的得分分数。 不过这个模式目前还在安全评估, 预计未来几周内向 Google AI Ultra 订阅用户开放。 测试数据之外,Gemini 3 在实际应用场景中的表现更值得关注。 比如你翻出家里那本手写的家族菜谱,上面是奶奶用多种语言写的做法,Gemini 3 Pro 可以识别这些手写文字, 整理成可分享的菜谱书。 或者你想学习一个新领域, 它可以处理学术论文和长视频讲座, 生成交互式学习卡片。甚至, 它还能分析你打球的比赛视频, 生成针对性训练计划。 这背后是因为 Gemini 从一开始就为多模态理解而设计,能够整合文字、图像、视频、音频和代码等多种信息类型, 加上高达 100 万 token 的上下文窗口和最大支持 64K 输出。 值得一提的是,真正的重头戏在搜索。这是 Gemini 首次在发布当日就直接集成进 Google 搜索,谷歌显然想借此重构搜索体验。 它不仅显著提升搜索对复杂问题的理解与信息挖掘能力,还能根据查询即时生成动态视觉界面、互动工具与模拟系统,如三体物理模拟器或贷款计算器。 另外,Gemini 3 Pro 在技术架构上也有看点。 它采用了基于 Transformer 的稀疏专家混合模型(MoE),原生支持文本、视觉和音频等多模态输入,这种架构的核心优势在于:模型会根据每个输入 token 的内容,动态选择激活部分参数,从而在计算资源消耗、服务成本与总容量之间实现平衡。 至于硬件层面,Gemini 3 Pro 使用 Google 自研的张量处理单元(TPU)进行训练。相比 CPU,TPU 在处理大语言模型所需的大规模计算时速度更快,且配备的大容量高带宽内存,让它能够处理超大模型和批量数据。 如果你是开发者,Gemini 3 带来的改变会更直接。 谷歌官方博客号称,Gemini 3 是目前最强的「vibe coding」模型——你只需用自然语言描述想要什么, 它就能生成功能完整的互动应用。 数据很能说明问题:WebDev Arena 排行榜 1487 Elo,Terminal-Bench 2.0 得分 54.2%,SWE-bench Verified 得分 76.2%。 Google 这次还推出了全新 AI IDE:Google Antigravity。 内置的智能 Agent 可以自主规划和执行复杂的端到端软件任务, 并自动验证代码正确性。你想做一个航班追踪应用, 代理能够独立规划、编写代码, 并通过浏览器验证运行效果, 甚至可以同时在编辑器、终端和浏览器之间协同工作, 一气呵成。 在长期规划能力上,Gemini 3 在 Vending-Bench 2 榜单上位居第一。 实际应用中, 最新发布的 Gemini Agent 实验性功能可以从头到尾执行多步骤复杂流程。你说「整理一下我的收件箱」, 它就会帮你优先安排待办事项, 并起草邮件回复供你确认。 或者「查资料帮我预订一辆中型 SUV, 预算每天不超过 80 美元, 用我邮件里的信息安排下周出行」,Gemini 会定位航班信息, 对比租车选项, 为你准备预订流程。 整个过程中你始终掌握主动权,Gemini 会在重要操作前请求确认。 此外,在 Google AI Studio 和 Vertex AI 中, 通过 Gemini API 使用 Gemini 3 Pro 预览版的价格为:输入每百万 token 需要 2 美元, 输出每百万 token 需要 12 美元。在 Google AI Studio 中也可以免费使用, 但有调用限制。 Gemini 3 已集成至 Cursor、GitHub、JetBrains、Replit 等开发工具生态系统中。 伴随产品发布,Google 同步开放了多个使用入口。 从今天起,Gemini 3 预览版正在陆续上线:所有用户可在 Gemini 应用中使用;Google AI Pro 和 Ultra 订阅用户可在搜索的 AI 模式中体验; 开发者可通过 Gemini API、Google Antigravity 和 Gemini CLI 访问;企业用户通过 Vertex AI 和 Gemini Enterprise 获取服务。 ChatGPT 的对手来了,Gemini 3 实测表现「能打」到什么程度? 当然,科技公司总是宣传大于实际,那么我们也上手测试了几个问题。 第一个挑战是让它在单个 HTML 文件中还原一台完整的 Game Boy 掌机, 内置《俄罗斯方块》《宝可梦红/蓝》等经典游戏, 所有操控必须同时支持键盘和触屏交互。 坦白说, 我对这个需求的期望值并不高。 这种需要同时处理 UI 设计、游戏逻辑、音效系统的任务, 即便是专业前端工程师也得花上几天时间。但 Gemini 交出的答卷出乎意料:交互界面达到了六七分的效果, 按键按下时还有标志性音效, 作为一次性生成的代码, 已经相当能打。 既然复古游戏机能跑起来, 我们继续加码。 Design and create a web os like macOS full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block 我要求它用单个 HTML 文件复刻一个完整的 macOS 系统, 包括文本编辑器、终端、代码编辑器、文件管理器、画板、视频编辑器等预装软件。生成的结果虽然审美一般, 但核心交互逻辑都实现了。 除了编程能力, 我们也测试了它的视觉生成和推理能力。 参考 X 用户 @lepadphone 的做法, 我让 Gemini 用前端代码实现一个电扇的可视化效果,建议使用 SVG 技术来绘制,包含以下元素:扇叶、保护网罩、底座、控制按钮等结构细节,并实现扇叶旋转、调速等动态效果。 生成的结果不仅结构完整, 扇叶的旋转动画也很自然。 紧接着我又让它画一只鹈鹕骑自行车——这种不常见的组合对 AI 的空间想象力是个考验, 结果它生成的图形比例协调, 鹈鹕的姿态和自行车的透视关系都处理得不错。 提示词:Create code for an SVG of a pelican riding a bicycle as nicely as you can 在推理能力上,我用到了那道经典的猴子分桃问题,Gemini 给的答案不光正确,还懂得进行二次验算。 有 5 只猴子在海边发现 一堆桃子, 决定第二天来平分. 第二天清晨, 第一只猴子最早来到, 它左分右分分不开, 就朝海里扔了一只, 恰好可以分成 5 份, 它拿上自己的一份走了. 第 2,3,4,5 只猴子也遇到同样的问题, 采用了同样的方法, 都是扔掉一只后, 恰好可以分成 5 份. 问这堆桃子至少有多少只? 上下滑动查看更多内容 更有意思的是, 我们还测试了它对「废话文学」的理解能力。 面对「懂者得懂其懂, 懵者终懵其懵, 天机不言即为懂, 道破天机岂是懂」这种故弄玄虚的文字游戏,Gemini 的处理方式很聪明:先定性为「废话文学」给你吃颗定心丸, 再挖掘背后的道家「有无」、佛家「色空」等文化梗, 最后给出人话翻译。这种回答比简单说「这是废话」要高明得多。 写作测试自然也没落下。 我们让 Gemini 用第一人称写「一滴雨水的一天」, 它交出了一篇散文:云端的拥挤与等待、下坠时的狂欢、融入河流的安宁。 文中堆了不少感官细节——瑟瑟发抖的触感、霓虹灯折射的视觉、呼啸风声的听觉。情感真挚, 意象丰富, 虽然还有些「优秀范文」的套路痕迹, 但已经超出了及格线。 有一说一,抛却纸面参数,Gemini 3 的实际水平是有目共睹的,而谷歌能在短时间内追平甚至超越 OpenAI 数年的积累,关键就在于它是为数不多具备全栈能力的 AI 厂商。 谷歌的优势显而易见:自研 TPU 系列处理器带来的算力自主权,加上全球最大的数据宝库——搜索索引、学术文献、YouTube 视频库,都为 Gemini 的训练提供了强大助力。 这或许也解释了为什么它在处理实时信息、多语言任务、视频理解等场景时表现更稳。 而就在刚刚,DeepMind 开发者体验主管 Omar Sanseviero 在 X 上发文称,今晚只是「热身」,接下来还将有更多功能陆续上线。 结合此前的种种传闻,外界期待已久的 Nano Banana 2 可能真的离我们不远了。
华为老兵造“光伏充电宝”,4个月狂赚12亿
9月,港交所的递表窗口前,思格新能源(Sige New Energy)再次按下提交键。这距离上一份招股书“失效”,仅过去19天。 资本市场,招股书失效并不罕见,但如此火速的“二进宫”,却透出一股决绝与紧迫。这家成立仅三年的独角兽,赚钱速度快得惊人。刚刚过去的2025年前四个月,它一口气拿下12.06亿元营收,净利润飙至1.87亿元。这种爆发力,让无数在新能源红海中苦熬的同行眼红。 但同时,它却深陷“身份焦虑”泥潭。证监会一纸问询函,直指其核心软肋:技术是否独立?是否存在竞业限制?为何实控人的股份曾由岳母代持?一切争议,都指向了华为。 站在思格新能源背后的,是一位在华为工作了23年的“老将”许映童,以及他带走的一众华为旧部。他们用三年时间,复刻了一场“华为式”的闪电战,却也因此站在了风口浪尖。 给储能装上“AI大脑” 思格新能源,并没有像大多数储能公司那样卖“电池”,而是卖了一套“能够自我思考的能源系统”。 在分布式储能赛道里,传统的产品往往是拼凑的:逆变器买A家的,电池买B家的,系统集成再找C家。安装复杂,不仅丑,而且不仅用。 许映童和他的团队,决定做储能界的“苹果”。 思格新能源将光伏逆变器、储能变流器、储能电池、直流充电模块和能源管理系统(EMS)高度集成在一个模块化设备中。它最大的卖点是“极致的简单”与“极致的智能”。 在安装端,它像搭积木一样,15分钟就能完成安装,极大降低海外昂贵的人工成本。在使用端,它内置了AI芯片和GPT-4能力的算法,能够根据天气、电价波动自动通过学习用户的用电习惯,决定什么时候充电、什么时候放电,甚至能充当电动车的超级快充桩。 产品一经推出,便在欧洲高端市场引发了抢购。翻开招股书,营收增长曲线几乎是垂直的:2023年,公司营收还只有5830万元,处于起步阶段。 2024年,营收瞬间暴涨至13.3亿元,翻了20多倍。2025年仅前4个月,营收就高达12.06亿元,几乎追平去年全年。 在细分领域,思格新能源已经拿下了“全球第一”的头衔。据弗若斯特沙利文数据,按2024年出货量计,思格新能源在全球可堆叠分布式光储一体机市场中,市场份额高达28.6%,位居榜首。 2025年前四个月,公司净利润达到1.87亿元,毛利率更是攀升至50.9%。在光伏储能行业普遍陷入价格战、毛利微薄的当下,思格新能源却赚得盆满钵满。 这看起来是一个典型的“技术改变行业”的爽文,一群技术大牛,做出了革命性产品,横扫全球。但硬币另一面,是监管层和市场挥之不去的疑虑。 “华为阴影”下的突围战 对思格新能源而言,危机并不来自市场,而来自其“出身”。 思格新能源崛起太快了。成立第二年产品量产,第三年营收破10亿元。这种不符合初创企业自然生长的速度,引来监管层“灵魂拷问”。证监会在问询函中直击要害:你的技术来源哪里? 考虑到许映童曾是华为智能光伏业务的总裁,且带走了一批核心骨干,监管层不仅质疑其技术独立性,更担心是否涉及侵犯前东家的商业秘密,以及是否存在竞业限制的法律风险。 虽然公司在招股书中强调了自主研发,但在外界看来,这种“像素级”的优秀,很难完全撇清与华为技术积累的关系。 比技术来源更让人看不懂的,是股权结构。招股书披露,在2023年10月之前,许映童作为实控人,其持有的公司股份竟然全部由其岳母及配偶代为持有。 一个公司的灵魂人物,为何要躲在幕后?是为了规避竞业协议?还是有其他不可言说的隐情?这一罕见的股权安排,成为阻碍其IPO进程的绊脚石。 思格新能源的APP“mySigen”收集了全球60多个国家用户的用电数据。在数据主权日益敏感的今天,这成为了另一个监管痛点。证监会明确要求其说明是否存在向第三方提供信息的情形。 面对这些质疑,思格新能源并没有停下脚步,而是选择用更激进的策略来“对冲”风险。为了稳住核心团队,许映童祭出了大手笔股权激励。在IPO前夕,许映童和“二把手”张先淼分别获得了价值数亿元的股份支付。2025年前四个月,仅这两人的股份支付费用就高达1.6亿元,直接计入当期管理费用。这种“金手铐”策略,旨在将这支脱胎于华为的狼性团队,牢牢绑在思格的战车上。 思格新能源的融资清单也星光熠熠:高瓴创投、钟鼎资本、云晖资本等顶级机构纷纷入局。公司估值在短短19个月内膨胀了40倍,达到40.7亿元。 但资本的钱不好拿。公司也签了对赌协议:如果递表后18个月内无法上市,投资者有权要求赎回。 这意味着,许映童必须在限定时间内,带领公司冲过港交所的终点线,否则将面临巨大的回购压力。 从“华为少帅”到“创业教父” 许映童,从南京理工大学毕业两年后的1999年加入了华为。那时的华为正处于腾飞前夜。在华为的23年里,许映童不仅是见证者,更是赫赫有名的战将。 他曾一手将华为的光伏逆变器业务带上全球出货量第一的王座。2020年,他又挂帅华为昇腾计算业务,在AI芯片领域杀出重围。 在华为内部,他是公认的“技术+商业”双料奇才。然而,2022年,47岁的许映童选择了离开。他不仅自己走了,还带走了张先淼、刘秦维等一批华为光储业务的老部下。这群懂技术、懂市场、懂供应链的“华为老兵”,带着在巨头内部打磨成熟的方法论和作战经验,降维打击到了创业市场。 他们太懂怎么做产品了。SigenStor的“五合一”理念,精准击中了欧洲安装商痛恨复杂安装的痛点。他们太懂怎么做市场了。短短两年,就在德国、意大利等高端市场撕开了缺口,海外收入占比高达60%。 但也正是这种深刻的“华为烙印”,成为了IPO路上最大的不确定性。许映童需要向资本市场证明:思格新能源的成功,是源于创新,而非仅仅是“复制”。他需要证明,这支团队离开华为,依然具备独立生长的根基。 思格新能源的二次递表,对许映童和他的“华为军团”来说,如何在监管的聚光灯下,洗清“挖墙脚”的嫌疑,并在全球储能的红海中守住战果,或许比敲钟更具挑战。
Gemini 3全面断崖式领先,单个模型横扫多模态、推理、Agent三大战场,Google王者归来
过去一年,Google 的进步肉眼可见。 ChatGPT 横扫全球时,Google 一度像被打了个措手不及的巨头。但短短不到一年,Veo 3、Nano Banana、Genie 3 接连发布,一个被外界质疑“落后”的公司,突然又展现出定义时代的力量。 今天,在全球技术圈几乎屏住呼吸的等待中,Google 终于推出了最新一代 AI 模型——Gemini 3。 自动播放 遥遥领先,Gemini 3化身无情的屠榜机器 如果只看数字,Gemini 3 这一代的成绩几乎去全面碾压。它不是在一个榜单上领先,而是把能刷的榜单都刷了一遍;不是以某一项特色出圈,而是把多模态、推理、Agent 三条最难突破的线路,一次性拉到行业天花板。 先看推理能力。 在开放评测平台 LMArena 上,Gemini 3 Pro 以 1501 分的成绩站到通用模型第一梯队的最前列。在 SimpleQA Verified 这种强调事实性与复杂问答准确度的测试里,它达到 72.1%,意味着幻觉率和知识错误率被显著压低。 在更加严苛的人类“终极试卷” Humanity’s Last Exam 中,它在不借用任何外部工具的情况下拿到 37.5%;在博士级科学问答 GPQA Diamond 上更是达到 91.9%;在数学难题集 MathArena Apex 上刷新最新记录,拿下 23.4%,为数学推理模型树立了新的基准线。 真正具有象征意义的,是它的 Deep Think 模式。当模型能够分配更多 token、延长推理链路后,它在 Humanity’s Last Exam 上跃升至 41%,在 GPQA Diamond 上攀升到 93.8%,在 ARC-AGI 上突破 45%。 这些都是传统 scaling law 被认为“撞墙”的任务,而上一代 Gemini 2.5 在 ARC-AGI 上还不到 5%。在 2025 年这样一个对推理悲观论甚嚣尘上的时期,这种接近 10 倍的跨越无疑刺破了行业的认知天花板。 再来看多模态表现。 Gemini 3 Pro 在 MMMU-Pro 上取得 81%,在 Video-MMMU 上达到 87.6%,几乎把这几年所有主流多模态模型的纪录重新洗牌。这两项被业内视为真正的“硬试卷”,考验的不是看图回答,而是在跨图像、跨学科、跨语境的混合任务中,保持一条不被打断的推理链条。 真正让行业震动的,并不是这些高分本身,而是它如何得到这些分数:Gemini 3 首次把“视觉理解”与“逻辑推理”合成同一种能力。 谷歌展示了一个场景——一个手写、符号混杂、排版混乱的本子,模型不仅能精准 OCR,还能自动消解符号不一致带来的歧义,最终给出的答案甚至比受过训练的学生更稳定。 更关键的是,这些表现全部来自一个通用模型,而不是图像或视频方向的专精模型。这意味着多模态不再是外挂能力,而是模型内部原生的一部分。 随着这些能力被整合在一起,Gemini 3 逐渐显露出一种超出语言层面的“操作心智”:它不仅能理解视觉结构,也能读懂界面变化、预测用户操作,甚至推断环境动态。推理不再只是答题,而开始向“理解世界如何运作”迈一步。 最后看 Agent 能力。 Gemini 3 Pro 的进步已经不是“更强一点”,而是直接跨到一个新的层级。 在 t2-bench 这项工具与系统操作测试中,它拿到 85.4% 的高分,意味着模型不仅能理解你的指令,还能像工程师一样在真实软件环境里调用 API、处理文件、执行系统命令。这是检验 Agent 真本事的关键,一旦失误就无法伪装,而 Gemini 3 Pro 展现出了顶尖的稳定性。 真正体现智能体“耐力”的,是 Vending-Bench 2。这项测试模拟一个自动售货机一整年的运营,考验模型能否长期记住目标、保持策略不跑偏。Gemini 3 Pro 最终获得 5478 分,明显领先所有同级模型,展现出罕见的长链任务稳态能力。 在 Terminal-Bench 2.0 中,它还需要在 Unix 环境里读日志、改配置、跑验证,模拟一次真实的自动化修复流程。它的 54.2% 得分说明,它不仅会“说”,也真的会“修”。 这些数字背后的共性其实只有一个: Gemini 3 不再是“某个维度特别强”的模型,而是第一次在推理、多模态、Agent 三个最难突破的方向上,同时达成了可观的领先优势,而且全部集中在同一个通用模型里。 从模型到产品:Gemini 3 把“答案”变成了“界面”和“行动” 如果说榜单告诉我们的是“能力”,那产品呈现的则是这些能力如何被组织起来、如何被普通人真正用到手里的。 在 Gemini 3 身上,谷歌做了两件过去很少有人认真做的事: 第一,把模型的输出从“文本”升级成“界面”; 第二,让模型从“对话参与者”变成“任务执行者”。 在日常使用中,最直观的变化发生在 Gemini App 自身。新版应用已经不再是一个单一对话框,而更像是一个“由模型驱动的工作空间”。在这里,你可以在 Canvas 中用自然语言构建完整的程序、应用或原型——Gemini 3 Pro 负责多步骤的规划、代码生成、界面生成和调试,你只需要不断描述你想要的效果。 另一条非常关键的产品线,是所谓的“生成式界面”(Generative Interfaces)。在 Google 的研究与产品博客中,这被称为一类全新的交互体验:用户发出一个自然语言请求,模型不是直接返回一段答案,而是即时生成一个结构化的、视觉化的界面。 自动播放 Google 把这种能力分成两类实验形态:视觉布局负责“把复杂信息排版成一篇好读的杂志页”,而 Dynamic View 则直接生成可以操作的计算器、图形、模拟器、图廊甚至完整的小工具,让回答本身就变成一个“能动”的界面。这些体验已经开始在 Search 的 AI Mode 中出现,用户可以在搜索里直接见到动态布局、交互组件和实时模拟。 自动播放 与此同时,Gemini Agent 作为一项仍在实验阶段的能力,负责把这些“理解”和“界面”延伸到行动层面。在 Gemini App 中,它可以连接 Gmail、Calendar 等 Workspace 应用,自动为你整理邮箱、归类任务、提炼行动项,甚至根据邮件中的航班信息和预算需求,主动比较租车、预订酒店,再把决策节点交给用户确认。 自动播放 对开发者而言,Google Antigravity 则是另一个意义重大的新物种。The Verge 和 TechCrunch 的报道都指出,这个 IDE 本质上是一个“agent-first”的开发环境:多个 Gemini 3 驱动的代理可以同时在编辑器、终端、浏览器三处操作,生成代码、执行命令、打开网页、做验证,并把整个过程记录为 Artifact 供人类复盘。 自动播放 整条产品线串起来,会发现 Gemini 3 正在做一件非常有野心的事。 它试图把“答案”升级为“可操作的界面”,再进一步升级为“真实执行的行动”,最终把模型变成一个“能替你做完一件事”的系统,而不仅仅是一个“告诉你怎么做”的顾问。 Gemini 3 到底改变了什么? 从表面看,Gemini 3 只是把一堆 benchmark 刷到了新高,把搜索、App、IDE 同步做了升级;但如果把这些碎片放在一起看,就会发现它其实踩中了几个关键的技术与产品转折点。 第一,统一模型路线第一次有了清晰的技术样本。 过去几年,业界在多模态这件事上有一个隐形共识:想要图像强,就做一个图像向的专精模型;想要推理强,就做一个思考向的推理模型;想要 Agent 能力,就往工具调用上拼命堆安全与流程。结果就是,每条赛道上都有一些强模型,但真正能在同一个模型里把三件事都做好的,几乎没有。 Gemini 3 给出的答案是:不拆分、不堆叠,而是真正做一个原生多模态、原生推理、原生 Agent 的统一架构。也就是说,这不是“多模型拼盘”,而是一个统一心智在面对不同任务。 第二,“scaling law 撞墙”这句话,恐怕要重新讨论了。 过去一年,大家对于 scaling law 的悲观,主要来自两个现实:其一是预训练数据逼近上限,其二是参数继续往上堆却难以换来线性可感知的推理提升。但 Gemini 3 在 ARC-AGI、Humanity’s Last Exam 等极难基准上的跳跃式表现说明,真正起决定性作用的,很可能并不是“堆多大”,而是“结构、训练范式和任务设计有没有跟着一起升级” 第三,交互范式正在从“对话式 AI”迈向“界面式 AI”。 ChatGPT 把整个行业带入了“对话优先”的交互世界,大家开始习惯在一个大输入框里问所有问题。但 Gemini 3 的 generative UI、Dynamic View 等能力表明,谷歌相信的下一步,是让模型直接生成界面、页面、控制面板、模拟器,而不再把“答案”局限在一条条文本里。 自动播放 当模型可以根据你的问题即时构造出一个适配任务的 UI 时,人与 AI 的关系就从“问—答”变成了“设定任务—共同操作界面”。AI 不再只是在语言层面辅佐你,而是开始和你共享一个可操作的工作环境。 第四,谷歌拿到了Nano Banana之后又一次“产品侧翻盘窗口”。 OpenAI 在 GPT-5 / GPT-5.1 这一代上并没有像 GPT-4 那样形成压倒性优势,反而给了竞争对手喘息空间。而谷歌这次的打法非常明确:模型端用统一架构“屠榜”,产品端在 Search、Gemini App、Workspace、Antigravity 全线铺开,交互上又用 generative UI 和 Agent 拉开与传统对话式 AI 的差异。 如果这些能力在接下来半年到一年里持续稳定,不只是开发者,普通用户也会真切地感受到“这代产品不太一样了”。那时,谁在消费级 AI 上更有优势,很可能就要重新算账。 全面反攻——Google AI 战略的真正底牌 Google的转变并不是爆发,而是一次漫长沉淀后的结构性反攻。 在 Google 内部,“AI-first”已经不再是口号,而是一次痛下决心的自我改造。皮查伊多次在公开采访中强调:Google 正在进入“AI-first 的第二阶段”。这句话意味着公司核心身份悄然改变——它不再把自己视为一家搜索公司,而是要成为下一代计算平台的创建者。搜索、Android、Chrome、Workspace、YouTube、Cloud 等所有核心业务都在围绕 Gemini 重构,甚至连公司 2025 年接近 900 亿美元的资本开支,几乎都指向同一件事:为模型供电,为未来铺路。 组织结构上的调整是这次反攻的起点。Google Brain 与 DeepMind 的合并,让全公司的模型路线首次“统一指挥”。DeepMind CEO Demis Hassabis 负责整条模型主线,Jeff Dean 转向长期研究;所有顶级芯片、TPU 和工程资源开始向 Gemini 集中。这种集中让 Google 结束了过去那种“研究多、产品慢”的状态,第一次把十多年积累的基础研究能力真正整合成可落地的产品。Gemini 3 的推理能力、Veo 3 的视频建模、Nano Banana 的图像编辑、Genie 3 的世界模拟——这些并不是奇迹,而是论文体系第一次系统化落地。 更关键的是,Google 不再满足于“模型更强一点”,而是想重新定义用户与信息的关系。外界习惯把这场竞争描述为“Google 对 OpenAI”;但从 Google 的战略动作来看,它要的不是一个更强的 ChatGPT,而是一个新的入口体系。 Gemini Agent 成为新的工作入口,AI Mode 重塑搜索入口,Gemini App 成为移动入口,NotebookLM 成为知识入口,Veo 3、Nano Banana 是视觉内容入口,Genie 3 则是未来智能体训练的虚拟入口。Google 不准备围绕某个产品竞争,而是试图重构“AI 时代的操作系统”。 为什么 Google 这次变得如此激进? 答案很简单:这是一场生死局。AI 生成答案让搜索的护城河开始变薄,广告模式面临潜在风险,用户的第一触点也可能迁移到 AI 通道。如果不能重新定义入口,Google 的核心商业模式就会动摇。对于一个过去二十年靠搜索主导互联网的巨头来说,这不是“赢不赢”的问题,而是“能不能留在桌上”的问题。 也正因为此,Google 过去的谨慎正在被新的节奏所取代。内部开始出现跨部门座位混编的合作方式,搜索工程师与 DeepMind 的研究者一起调试 AI Mode,Android 团队与 Labs 共同推进 Gemini App 的 UI 迭代。曾经开放、松散、鼓励长期研究的文化,正在被一种更集中、更执行导向的节奏替代。甚至连高层人事安排也指向同一个方向——让更懂产品、懂用户、懂节奏的人接手关键业务。NotebookLM 背后的 Josh Woodward 接掌 Gemini,就是典型例子。 今天的 Google 不仅恢复了工程速度,也重新找回了“用产品定义技术”的能力。Gemini 3 让人看到它仍然具备构建顶级模型的硬实力;Veo 3、Nano Banana 证明 Google 在多模态领域依旧有别人无法复制的深度;Genie 3 则是 Google 对世界模型的押注,这些都是指向未来十年的关键方向。 未来的格局尚未定型,但有一点几乎可以确定——当一家公司同时掌握搜索入口、移动系统、浏览器、办公套件、云和世界模型,它一旦重新踩住节奏,力量会呈指数级回流。
阿里巴巴,做了个免费版的ChatGPT
在亚马逊、微软选择“退后一步”,让ChatGPT、Claude接入自家产品库时,阿里选择了一条更艰难的路:从底座到应用,全栈自研,并且,要做一个免费版的ChatGPT。 2025年11月17日,阿里正式宣布公测“千问”app。这款由原“通义”app和“夸克AI对话助手”升级而来的应用,明确对标ChatGPT最新版本,并接入了阿里通义实验室最新的Qwen 3 - Max模型。这是继AI基建、淘宝闪购之后,阿里在2025年打响的第三场集团级战略战役。 9月起,上百名工程师从各地被抽调,聚集在阿里巴巴西溪园区C4楼——高德“扫街榜”项目曾经战斗过的地方——进行封闭开发。最终,阿里巴巴集团CEO吴泳铭亲自拍板,确定了千问的战略地位:阿里巴巴必须要有一个AI原生的C端超级入口。 在科技巨头纷纷抢占AI高地的叙事里,阿里的转型决心和投入力度非常明显。在亚马逊、微软选择“退后一步”,让ChatGPT、Claude接入自家产品库时,阿里选择了一条更艰难的路:从底座到应用,全栈自研,并且,要做一个免费版的ChatGPT。 阿里的“阳谋”:为什么是千问?为什么敢免费? 过去一年,阿里在AI领域的动作更多集中在“云端”和“模型层”。入股多家大模型创业公司、阿里云加速增长、Qwen系列开源模型在多项测试中登顶——这些动作更像是在“修路”和“卖武器”。 千问的推出,意味着阿里正式从“军火商”走向“前线战场”。 「数智研究社」发现,阿里的技术底座已经成熟。 千问的底气,来自其背后Qwen大模型的硬实力。Qwen系列开源模型目前在全球的下载量已突破6亿次。英伟达CEO黄仁勋公开表示,Qwen已占据全球开源模型的大部分市场。Airbnb CEO布莱安·切斯基也称正“大量依赖Qwen”,因其“比OpenAI模型更快更好”。 当模型能力达到全球领先水平后,将其转化为C端产品,从“秀肌肉”变为“创造价值”,是顺理成章的一步。最关键的是,阿里打通了“Agent生态”。 千问要做的,不是一个“玩具”。一个阿里人士透露,团队花了大量时间处理内部业务的数据互通和授权能力。千问的定位是“能聊天、会办事”。“聊天”由Qwen大模型负责,“办事”则依赖阿里庞大的业务生态。据了解,千问项目团队正在联合高德、淘宝、支付宝、闪购等团队进行联合开发。 这意味着,千问的想象力不止于“P图”和“写周报”。它未来可以做到:当你问它“晚上想做个红烧肉”,它能自动调用淘宝闪购买好食材;当你让它“规划一次团建”,它能无缝调用高德、飞猪、支付宝,完成从出行、支付到购物的“全链路”任务。 与OpenAI的商业模式截然不同。OpenAI在基础设施上投入巨大,急需C端订阅费来“回血”。据报道,ChatGPT的C端付费贡献了其年收入的70%。 阿里不差钱。截至2025年二季度末,阿里手握的现金及各类投资总计高达5856.63亿元。阿里做千问,瞄准的不是每月几十块的订阅费,而是打造一个串联起阿里所有业务的“AI中枢”。千问是“入口”,它负责将用户“导流”至电商、支付、出行、外卖等核心业务。 这是阿里C端AI战略的一次关键“转向”。 过去一年,阿里AI to C的重任一度落在“夸克”身上。在智能信息事业群总裁吴嘉的带领下,夸克凭借“AI超级框”、“高考志愿大模型”等功能,日活跃用户增长至5000万-6000万量级。 但夸克的底色是“搜索”和“浏览器”,功能繁杂。一位千问团队人士表示:“随着AI能力提升,我们觉得对话式AI助手是更好的形式,接下来阿里会重点发展千问。” 这一定位意味着,阿里内部赛马已经结束。千问被确立为阿里AI超级入口的“主App”,而夸克则定位为AI搜索和AI浏览器,千问未来也会被置入夸克中。这套打法,与阿里在外卖战场上,用“淘宝闪购”统合“饿了么”的“团战”逻辑如出一辙。 入口之战:千问的“敌人”是谁? 阿里对AI的投入是巨大的。2025年2月,阿里宣布未来三年将投入超3800亿元建设云和AI基础设施。有阿里人士甚至透露,阿里对AI的投入有望提升到“万亿规模”。重金押注背后,是阿里对“下一个时代入口”的焦虑和渴望。 在国内战场,千问的“敌人”是字节跳动的“豆包”。 目前,国内AI原生应用的格局远未稳定,但“先发优势”已经出现。QuestMobile数据显示,2025年10月,在国内AI原生应用中,字节跳动的“豆包”DAU(日活跃用户)高达5410万,DeepSeek以2860万位列其后,腾讯元宝则为560万。 相比之下,升级前的“通义”app月活仅300万左右,与豆包不在一个量级。 国内AI C端入口的竞争,有两条截然不同的路径。一条是依靠抖音、微信这样的“国民级”流量生态,为其强行“漫灌”用户,配合不俗的体验,迅速做大用户规模的流量路线,代表玩家是豆包和元宝。另一条是依靠单一功能的极致技术口碑(如AI搜索),吸引核心用户,再图谋破圈的技术路线,代表玩家是DeepSeek。 千问的路径,则是“双线并行”。它既有Qwen模型的技术口碑,又有阿里系庞大的“流量池”。 但它也面临DeepSeek同样的困境。有报道称,DeepSeek的用户量从3月的1.94亿下滑至9月的1.44亿,原因可能是其功能过于单一。而豆包则依靠覆盖15个大类的“全能”形态,实现了反超。 千问显然也瞄准了“全能型”助手。它目前覆盖14个大类,并且正加速与阿里生态(购物、支付、导航)的融合。这场竞争,千问的窗口期并不长,它必须利用阿里“打团战”的优势,在功能和体验上迅速追平,再通过阿里系的流量入口实现“饱和式攻击”。 在全球战场,千问的终极对手,是ChatGPT和Gemini。 11月17日,千问app公测的同一天,其国际版也已在筹备中。OpenAI CEO奥尔特曼在10月披露,ChatGPT的全球周活跃用户已高达8亿,按此推算,其DAU至少在1亿以上,甚至接近2亿。 面对如此庞大的“原住民”,千问的挑战是巨大的。 核心的差异在“生态”。ChatGPT和Gemini诞生于一个“开放”的互联网,它们可以自由抓取全球网页的数据来训练。而国内互联网相对比较“封闭”,巨头们都把数据资产视为核心壁垒。 这既是阿里的劣势,也是阿里的优势。劣势在于,千问无法像谷歌一样“知道一切”。 优势在于,在阿里的“围墙花园”内——从淘宝的亿万级商品库,到高德的LBS数据,再到支付宝的信用体系——千问拥有一个ChatGPT和Gemini永远无法触及的、高密度的、结构化的“闭环商业数据库”。 千问团队人士也坦言,最大的挑战在于如何将阿里体系下“这么多Agent”有机且丝滑地串联在一起。 吴泳铭的判断很清晰,阿里必须拥有自己的C端超级入口。这场战役的级别,等同于几年前的“淘宝闪购”。在西溪园区C4楼里,那上百名封闭开发的工程师,背负的不仅是一个新App的KPI,更是阿里在AI时代能否抢到“船票”的未来。
史诗级宕机!CDN霸主Cloudflare全球网络崩了:OpenAI、X、Uber等平台服务瘫痪,集体失联
全球互联网遭“断联”惊魂。 亿欧11月18日消息,全球顶尖网络安全服务商CDN霸主Cloudflare突发大规模全球性网络故障,导致OpenAI(ChatGPT)、X(原Twitter)、Spotify、Uber等数十家国际顶级平台陷入服务瘫痪,数千万用户遭遇 “访问失败” 惊魂时刻。甚至连美国公共交通也受到此次事件波及。 截至美东时间早上6:41,故障监测平台Downdetector已收到X平台超过上万份问题报告,而 ChatGPT 在北京时间晚间九点仍有大量用户无法正常登录使用。 Cloudflare自身的故障状态页面一度完全无法打开,其客户支持门户也同步陷入瘫痪,导致用户与企业均无法获取官方实时通报。 多位海外朋友向亿欧表示,今天的宕机事件,“感受很明显”! 全球互联网遭 “断联” 惊魂 Cloudflare官方发言人表示,公司在周二一大早就观察到一项服务“异常流量激增”。主要问题表现为 "widespread 500 errors" 和"internal server error",这两大问题均直指服务器端错误,前者是大范围出现的500错误,后者是500错误的标准定义(即 “内部服务器错误”)。 援引CNBC消息,在Cloudflare网络修复过程中,Cloudflare表示它在英国伦敦禁用了WARP访问。对于那些试图通过WRP访问互联网的人来说,他们将无法连接。 作为全球网络的 “隐形守护者”, Cloudflare却频繁“翻车” 总部位于美国旧金山的 Cloudflare,是全球领先的 CDN(内容分发网络)与网络安全服务提供商,业务覆盖全球数十万家企业,扮演着网站与终端用户之间的 “安全缓冲器” 角色,核心功能是抵御 DDoS 攻击、保障网络访问速度与稳定性。 Cloudflare客户群体包括 10% 的财富 1000 强企业,服务覆盖全球 10 亿级 IP 地址,承载着全球互联网近 10% 的骨干网流量,堪称互联网基础设施的 “命脉级” 企业。近年来该公司积极布局 AI 领域,推出 NLWeb 协议与 AutoRAG 检索引擎,深度绑定 OpenAI 等 AI 巨头的服务分发网络。 作为全球网络的 “隐形守护者”,Cloudflare近年来却频繁“翻车”。 2019年7月,Cloudflare软件的一个漏洞导致其部分网络耗尽全公司计算资源,致使全球数千家依赖其服务的网站最长宕机30分钟。 2022年6月,Cloudflare再次发生故障,波及19个数据中心故障,导致多家主流网站和服务陷入瘫痪,此次事故造成 1.5 小时服务中断。 2025年3月,Cloudflare因密码轮换错误其R2对象存储及相关服务发生了一次持续1小时7分钟的中断事件,事情导致全球范围内出现100%的写入失败和35%的读取失败。 此次故障再次暴露其在高风险操作流程上的管控漏洞,未严格执行双重验证与分阶段部署机制。 截至发文,Cloudflare因此次宕机事件致股价大跌4.27%,市值蒸发30.24亿美金。 美国网络安全问题频发 无独有偶,10月20日,亚马逊云DNS发生故障,导致全球服务瘫痪。 据悉,亚马逊 AWS 云服务发生的重大故障,引发了全球混乱,导致全球多家公司的网络连接出现问题,多个热门网站和应用服务中断。 AWS在其状态页面更新中确认,美国东部的多项AWS服务中出现错误率上升和延迟增加的情况。网络故障追踪平台“网络探测器”显示,亚马逊的购物网站、视频服务以及语音助手同期均出现问题。
Gemini 3来了:忘掉聊天,一句话生成一个世界 (附与Gemini团队沟通实录)
Gemini3太强了。 11月18日,在所有人的期待中,Google的最新AI模型Gemini3正式发布。这次,一切都回到了Google的节奏。 彻底屠榜 这是一个几乎“屠榜”了所有评测集的模型,而且,请注意,是一个通用模型在细分评测上碾压了诸多“推理模型”、“多模态模型”等细分领域模型。 根据Google的介绍,Gemini 3 是一个有原生多模态、强大推理和Agent能力的模型。在硅星人参加的发布前小范围沟通会上,Gemini的团队强调这个模型的这些能力“不是分开的,是都在一处,都在一个模型里,你可以同时用这些能力”。 今天用来评测模型各种能力的榜单,被Gemini3刷到了离谱的新高。 在多模态能力上,它的理解和推理都达到新高度: Gemini 3 Pro以81%的MMMU-Pro分数和87.6%的Video-MMMU分数直接刷新了这个多模态推理的记录。 案例介绍:Gemini 3.0的视觉能力融入了推理,能主动解决不一致符号带来的歧义问题,对手写旧表格的 OCR 识别能力甚至优于受过训练的学生。 可能Gemini 3才真正第一次称得上是一个有多模态推理能力的模型。 Google展示了一个很有趣的用法:做一个等离子体流在托卡马克里的可视化展现,同时用一首诗来捕捉核聚变的美。 自动播放 在推理能力上: 它以突破性的1501分登顶LMArena排行榜。 它还在SimpleQA Verified上取得了72.1%的最新最优成绩,在事实准确性方面显示出巨大进步。这意味着Gemini 3 Pro在科学和数学等广泛主题上解决复杂问题时具有高度的可靠性。 它在"人类最后考试"上也展示了博士级推理能力(在不使用任何工具的情况下得分37.5%),在GPQA Diamond上获得91.9%的高分。它还在数学领域为前沿模型设立了新标准,在MathArena Apex上达到了23.4%的最新最优成绩。 自动播放 一个Prompt生成复古任天堂模拟器,自带游戏且无需外部素材,一分钟就能完成输出。 这还不算完,在深度推理模式Deep Think下,也就是让模型增加推理的token消耗和用更多时间去处理一些问题时,它在"人类最后考试"里,在不使用工具的情况下得分41.0%,在GPQA Diamond 得分93.8%。而在ARC-AGI上,它还取得了前所未有的45.1%的成绩(使用代码执行)。而已经很强的Gemini 2.5,这一项的得分只有: 4.9%。 在人人喊scaling law撞墙的今天,又搞出了十倍的提升。 而在Agent能力上: Gemini 3以1487 ELO分的成绩登顶WebDev Arena排行榜。它在Terminal-Bench 2.0上得分54.2%,该测试衡量模型通过终端操作计算机的工具使用能力,并且在SWE-bench Verified(76.2%)上大幅超越2.5 Pro,该基准衡量编码智能体的能力。 另外,Gemini的长上下文和推理的结合也有提升,在一个让AI模拟运营一个自动售货机,来考察它在agent场景的记忆能力的榜单Vending-Bench 2上,它也同样登顶——Gemini 3 Pro在完整的模拟一年的运营中保持了持续的工具使用和决策能力,在不偏离任务的情况下获得更高回报。 Google官方也展示了一个案例,当你要求它: "根据我邮件中的详细信息,帮我搜索并预订一辆下周旅行用的中型SUV,租金需控制在每天80美元以内。" 它在获得你充分的Google全家桶授权后,真的就完美帮你找到了这样一个服务,并放到你面前,你只需确认即可。 此次Gemini还推出了Agent模式,就是为了这样的场景,当你给他充分授权后,你能让AI把你一切的Google系产品都可以调用起来,完成复杂任务。 自动播放 看了这些榜单的情况,只剩下SWE-Bench Verified上,Claude Sonnet 4.5领先它1分,其他全部被它占了第一。 有人评论道:OpenAI and Anthropic are so over。 强大到开始全量铺开生成式UI 在Google自己看来,这些全面提升的能力有多强? 它已经足够强大到,让Google认为Gemini这个app必须更改自己的交互形态了。 Google这次给Gemini做了界面大更新。除了改变了页面设计,增加了更方便调用个人数据库的"我的资料"文件夹功能、“彻底改进了购物体验”,可以直接从Google购物图谱带来商品列表、比较表格和价格,该图谱包含超过500亿条商品列表等。最主要的,就是对输入输出的交互做了彻底改变。 什么“ChatGPT”式的一问一答,那是上个时代的做法,现在Gemini要直接给你全模态的可交互结果: “Gemini 3将突破界面设计的边界。它的推理和多模态能力已经解锁了一项我们称为生成式UI的新功能。 我们介绍一种新颖的生成式UI,它动态创建沉浸式视觉体验和交互式界面——如网页、游戏、工具和应用程序——而且这些界面自动设计并完全定制以响应任何问题、指令或提示。 这些提示可以简单到一个单词,或根据需要长而详细的指令。这些新型界面与AI模型通常渲染内容的静态、预定义界面明显不同。” 说的更直接一点,哪怕一个词,也能给你一个app。 比如,当你询问关于物理学里的三体问题(three body problem),你能得到一个可以交互的模拟界面,让你直接改变变量来观察结果。 自动播放 而这整个答案更像是一个有文字有图片还有3D可交互网页的独立web app。你甚至可以继续用自然语言开发下去最终把它变成你的一个项目。 目前,Gemini先提供了两个“实验性”功能选项——视觉布局(Visual layout)和动态视图(Dynamic View)。不过Google也表示,为了帮助了解这些实验,用户最初可能只看到其中之一。 而且这个新的交互方式也会在Google的搜索里上线。在搜索的AI mode里提问,也会给出类似一个可交互app的搜索答案。 自动播放 新的Dynamic View展示,当你只是问了一下梵高,就能得到一个完整可交互的界面供你探索 Google还为此发布了一篇论文。这意思似乎是向所有人喊话: 你们也跟上啊。 此次发布里,还有一个非常值得重视的举动是,这一次Gemini 3在第一时间就部署到了Google搜索上,而且包括这个还被称为实验性的生成式UI,也直接进入搜索的AI mode。 这说明什么? 说明这是一个在Google看来已经训练到十分稳定,可以直接放入主营业务产品,而不用担心有反噬的模型,而且,它还是一个遥遥领先,没有人再能随便狙击的模型,一个完全按Google自己节奏训练和应用的模型。 当如此谨慎的Google都在Gemini的介绍里大量的使用“any”,强调这个模型可以让任何想法变成产品时,你品,你细细品,它对这模型到底有多自信。 One more thing: 彻底让Agent来开发软件的“IDE”平台 Antigravity 而对于Google来说,似乎这些还不够,Google当天还顺带发了一个自己的全新“类IDE”Vibe coding产品,一个让Agent来主导软件开发全流程的平台——Antigravity 。 Google也不免俗的介绍了一句话开发的案例。 自动播放 你输入一个Prompt,就能得到一个完整的飞行追踪应用。但实现的过程正是不同所在,Antigravity是一个让Agent主导一切的环境,它为多个Agent做好了多个它们可以使用的工具和环境,包括编辑器、浏览器、终端等。 “Google Antigravity将AI助手从开发者工具箱中的工具转变为主动合作伙伴。虽然Google Antigravity的核心是熟悉的AI IDE体验,但其Agent已提升到一个专用界面,并可直接访问编辑器、终端和浏览器。现在,Agent可以在验证自身代码的同时,自主地为您同时规划和执行复杂的端到端软件任务。” Antigravity也集合了Google各个强大模型:“除了Gemini 3 Pro,Google Antigravity还与我们最新的Gemini 2.5计算机使用模型紧密耦合,用于浏览器控制,以及我们顶级的图像编辑模型Nano Banana(Gemini 2.5图像)。” 而且,Google又给这个产品带来一个疯狂的新能力:它会在和你的配合中,学习你的coding风格, 和你搭建框架的喜好,最终越来越像你...或者说,像一个更全能全栈工程师版的你... 如此高预期的模型,不仅没有让人失望,还带着惊喜一起到来。Google真的是强。 而且,Google势头也正猛。在硅星人参加的小范围提前沟通会上,Google也顺带公布了最新的用户数据: 从上一季度的4.5亿用户,猛增到了这季度6.5亿用户。1300万开发者在用Gemini等Google的模型开发,而本季度的日常调用也同比翻了3倍。 据Gemini团队透露,过去一季度的增长很大程度归功于Nano Banana。 要知道,Nano Banana 2 也在传闻中,排队等待Google的发布......不得不感慨Google的工具箱里,武器实在太多了。 ———————————— 在此次发布前,我们也有机会与Google Gemini团队交流,以下为沟通实录: 硅星人:能否分享一下在训练这个新模型过程中的一些"Aha moments"? Gemini团队:这是个有趣的问题,因为我认为在使用这个模型时,有很多时刻你能真正感受到它的推理能力,也能感受到它在多模态能力上的强大。我想指出几个时刻。第一个是我第一次用它进行氛围编码(vibe coding)的时候。令人惊艳的是,它仅凭非常简单的提示就能创造出各种游戏。能够在那个环境中创建3D可视化并玩一个真正的游戏,我觉得太棒了。 实际上,我们的一位工程师一直在用它来创建游戏,这些游戏明天就会在YouTube上发布,因为你可以用这些游戏创造出如此丰富、高保真的体验,我觉得这太棒了。另一个我认为我们不常谈到的"顿悟时刻"是该模型在多语言性能上的强大。 对我来说,特别有趣的一点是,拿一首用古吉拉特语写的诗——我父母从小说的语言——不仅进行翻译,还在此基础上进行创作。你能看到模型的细微差别、创造力和写作风格。我认为那也是另一个让我感叹"这个模型非常聪明,能够将多个要素融合在一起"的时刻。我觉得真正酷的是,当你找到这些时刻,你可以将多模态输入、复杂的推理问题,以及你希望看到的输出格式结合起来。我认为这时你才能真正看到Gemini 3的魔力显现。 问:你会如何描述AntiGravity在当前生态系统中的定位? Gemini团队:这是个好问题。先提醒一下,我认为AntiGravity会非常令人兴奋。大语言模型和AI确实改变了我们的编码方式,使我们软件工程师能够保持在一个非常高的层次上,借助智能体的帮助处理真正复杂的任务,这样你就可以专注于最终目标,并更快地达成。 所以AntiGravity真正构建在此基础上,构建在模型的能力之上。这是一个新的IDE。市场上也有其他IDE,需要明确的是,我们的模型在多个IDE中以及通过API供开发者继续使用。但AntiGravity将给我们提供另一种与开发者接触的方式,了解他们的用例,了解那些真实世界任务和挑战,然后帮助我们改进模型,通过成为这种以智能体为中心的IDE,为他们提供最佳体验。我认为这将对软件开发带来一点全新的思路。 问:对于消费者来说,你期望Gemini智能体有哪些使用场景? Gemini团队:我们希望帮助人们应对生活中遇到的更复杂的任务。我个人在几件事上正在使用它:首先,如果我要找演唱会门票之类的,不用再自己去搜索所有不同选项,为带两个孩子的家庭找到合适的套票,我可以让智能体去完成,它会找到合适的配置,并带我到达可以购买的那一步,然后我只需点击一个按钮就能继续完成购买。 另一件我觉得很酷的事是使用智能体模式来帮你分类处理邮件收件箱。我开始每天早上这么做:我醒来有50封邮件,要花很长时间逐一查看并决定怎么处理。我可以使用智能体模式来帮我处理这些,它会告诉我:这里有你需要完成的任务、这里有你需要回复的邮件、这些是可以归档的。这真的为我节省了大量时间,我非常兴奋能让更多人使用到这个功能。 问:随着Pro版本发布,我们能期待Flash和Flashlight很快推出吗? Gemini团队:是的,我的意思是,我们确实希望构建Gemini 3模型家族。这是我们首要考虑的。 我们感到兴奋的是,看看对Gemini 3 Pro的反馈如何?人们用它做什么?我们在哪里看到机会?然后当我们思考完整的模型家族,思考Flash和Flashlight时,我们首要考虑的是如何构建这个主力模型?合适的成本和延迟应该是怎样的?我们如何思考正确的使用场景?所以我们会继续利用Pro版本的反馈来确保我们能够持续构建。你们很快就会看到我们推出更多产品。 问:Gemini应用最近用户增长显著,团队在此期间做了什么来如此快速地加速采用? Gemini团队:一个主要因素是我们在Nano Banana上看到的病毒式传播,特别是在泰国、印度尼西亚、印度等国家。显然,这是一个极其成功的产品,很多人都想玩一玩。如果你看到那些手办潮流和许多其他人们真正想参与并分享给朋友的东西。 我们也对我们与GEO的合作以及我们为学生提供的优惠感到非常兴奋。我们看到学生群体中有很多使用热情,他们真的很想用Gemini来帮助完成作业和课堂学习材料。 最后我想说的是,模型质量真的非常重要。我们在2.5 Pro上看到了这一点,我们也很期待看到人们将如何使用Gemini 3。 问:你们是否在用AntiGravity与Cursor等工具竞争?这是企业最大的使用场景之一吗? Gemini团队:非常感谢。这是个好问题。我不会这样看待它。这次发布中,我们实际上正在与Cursor进行非常紧密的合作。我们在许多不同行业都有许多合作伙伴,并与他们密切合作。对我们来说,在用户所在的地方触达并连接用户非常重要。 AI开发以及AI如何影响不同领域和行业也还处于非常早期的阶段。我认为这对我们来说能够进行实验也很重要。我相信会有其他人也在实验,每个产品本身也会不断发展,对吧?我们将通过我们的模型和许多其他想法继续与Cursor保持紧密合作。除此之外,我想我们对AntiGravity将创造的接触点也感到兴奋。 问:AI行业有声音称迭代速度已放缓,扩展定律已失效。但Google的大模型似乎取得了显著进展。到目前为止,你对大模型的迭代速度以及技术是否还能做到这一点有什么看法? Gemini团队:这是个好问题。当然,关于这方面的讨论有很多。我认为,当我观察AI领域时,我看到了很多进展,而且进展速度非常快。我认为最好的观察方式是AI领域总体上对许多不同行业产生的影响。你可以看到这一点在越来越多的不同职业中发生。人们正在使用AI模型来帮助他们的工作。学生正在使用AI模型来帮助他们的作业。 或者我们在日常生活中使用这些模型来了解事物,了解我们好奇的事物,想了解更多的东西。所有这些方面,模型在我们的日常生活中变得越来越有影响力。所以我认为进展非常快。当我观察我们自己模型能力的进展时,我认为我们看到非常令人兴奋的进展正在发生。 我认为有时候,并不总是全新的能力出现,而是模型所使能的能力。你能做什么新事物?从模型开发的角度来看,当我们观察预训练、后训练时,我们看到各方面都有相当令人振奋的发展。我认为随着我们了解更多,随着我们与用户进行更多互动,这将继续一段时间,这对我们来说非常重要,能够通过我们的产品进行这个开发周期,触达我们的用户。我们将更多了解他们的需求在哪里,他们对什么感兴趣,他们想学什么,这将引导我们引入新能力并构建技术。
谷歌深夜炸场:Gemini 3正式发布!自ChatGPT发布以来最激动人心的事件
刚刚,谷歌Gemini 3正式发布,我的初步体验和第一感觉是这玩意完全超越GPT-5 和 Claude sonnet 4.5,强到离谱,编程和写作都达到了T0级别,可以说这是自从OpenAI 发布ChatGPT以来,最令我心跳不已的事件,现在就可以在Gemini App和 Google AI Studio中使用了 随手测试:直接看效果(更详细的测试随后几天奉上) 1.制作速度可调的电风扇svg 2.模拟弹力球从空中一层一层掉落并弹起的物理过程(目前我测过的只有Claude sonnet 4.5可以抽卡成功) 3.模拟核聚变过程并添加背景乐(这个是复现谷歌官方的) 官方的发布核心信息要点: 谷歌官方把Gemini 3定义为“通往AGI之路的又一大步”。它不仅在多模态理解上全球领先,更是谷歌迄今为止最强大的Agent(智能体)和“Vibe Coding”模型。 此次发布包含两个核心版本:Gemini 3 Pro(即日预览上线)以及增强推理模式的Gemini 3 Deep Think 与此同时,谷歌宣布Gemini 3即刻全面接入谷歌生态——从Search(搜索)到AI Studio,再到全新的Agent开发平台Google Antigravity 一起来看Gemini 3到底有多强。 数据屠榜:LMArena突破1501分 Gemini 3 Pro主打深度推理和多模态能力,在每一项主流AI基准测试中都大幅超越了Gemini 2.5 Pro 推理与数学: LMArena Leaderboard:以1501 Elo的突破性得分登顶。 Humanity’s Last Exam(人类最后一次考试):在不使用工具的情况下得分为37.5%,展现出博士级推理能力 GPQA Diamond:得分91.9% MathArena Apex:达到23.4%,确立了前沿模型在数学领域的SOTA(State-of-the-art)新标准 多模态与事实性: MMMU-Pro:81%。 Video-MMMU:87.6%,重新定义多模态推理。 SimpleQA Verified:72.1%(SOTA),在事实准确性上取得重大进展。 官方强调,Gemini 3 Pro不再是简单的问答,而是能够理解语境和意图,“不仅能读懂文字和图像,更能读懂空气(reading the room)”。它可以摒弃陈词滥调,提供真知灼见,甚至能通过生成代码将晦涩的科学概念转化为高保真的可视化效果 Deep Think模式:推理能力的阶跃 除了Pro版本,谷歌还祭出了大杀器——Gemini 3 Deep Think 这是一种增强推理模式,旨在解决最复杂的难题。测试数据显示,其性能进一步超越了本就强悍的Pro版本: Humanity’s Last Exam:41.0%(无工具) GPQA Diamond:93.8% ARC-AGI-2:取得了前所未有的45.1%(含代码执行,ARC Prize Verified),证明了其解决新颖挑战的能力。 Deep Think模式将在未来几周内向Google AI Ultra订阅用户开放。 Google Antigravity:重塑开发者体验 随着Gemini 3的发布,谷歌推出了全新的Agent开发平台——Google Antigravity 这不只是一个AI IDE,它将Agent提升到了核心地位 自主权:Agent拥有对编辑器、终端和浏览器的直接访问权限 能力:利用Gemini 3的推理和工具使用能力,Agent可以自主规划并执行复杂的端到端软件任务,同时自我验证代码 模型组合:该平台不仅集成了Gemini 3 Pro,还紧密耦合了最新的Gemini 2.5 Computer Use模型(用于浏览器控制)和顶级图像编辑模型Nano Banana(Gemini 2.5 Image)。 在编码能力基准测试中,Gemini 3同样表现出色: WebDev Arena:1487 Elo,位居榜首。 SWE-bench Verified:76.2%,大幅超越2.5 Pro,这一项没有超越Claude sonnet 4.5 Terminal-Bench 2.0:54.2%,展示了通过终端操作计算机的能力。 全能助手:从学习到规划 Gemini 3不仅面向开发者,更旨在帮助普通用户“学习、构建和规划一切”。 学习(Learn): 利用100万token的上下文窗口,它可以综合处理文本、图像、视频、音频和代码 示例:它可以解读不同语言的手写食谱并整理成家庭烹饪书;通过分析匹克球(Pickleball)比赛视频,生成针对性的训练计划。 搜索进化:在Search的AI模式中,Gemini 3支持生成式UI体验,能根据查询即时生成交互式工具和沉浸式视觉布局 规划(Plan): Gemini 3在长时程规划上取得了长足进步 Vending-Bench 2测试: 该测试要求管理模拟自动售货机业务。Gemini 3 Pro在全年的模拟运营中保持了一致的决策力,未偏离任务,并带来了更高的回报,位居榜首 这由意味着它能更好地处理预订服务、整理收件箱等现实生活中的多步骤工作流 谷歌宣布,这是首次在发布首日就将新一代Gemini模型引入搜索(Search)。 具体推出计划如下: 普通用户:Gemini App及Search中的AI模式(针对Google AI Pro和Ultra订阅用户)即日起可用 开发者:通过Google AI Studio、Google Antigravity、Gemini CLI及Vertex AI访问 企业用户: 通过Vertex AI和Gemini Enterprise访问。 Deep Think模式:需等待安全评估,预计数周后向Ultra订阅用户开放。 劈柴哥表示,过去两年,AI Overviews月活已达20亿,Gemini App月活超6.5亿。Gemini 3的发布,标志着谷歌以“全栈式AI”策略,正式将Gemini部署到了谷歌的每一个角落。
一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase..
Gemini 3 封神了,纯粹的强大 奥特曼发来贺电(说个八卦:Logan 以前是跟 Sam 的) 写这篇文章前,我把这段 Prompt 扔给了刚发布的 Gemini 3 Pro Prompt: 「编写一个单文件 HTML 的拟真 GBA 模拟器,使用 CSS 绘制精致的紫色机身。游戏内容为《口袋妖怪》中文版回合制战斗(皮卡丘 VS 妙蛙种子),需引用 GitHub 原版像素素材并使用 Web Audio 合成音效」 没有多轮对话,它吐出了一个完整的项目 自动播放 当然...世界还可以更癫狂,这个小学生练字 依然是一键出的 自动播放 还有这样的、更离谱的例子,来自 twitter 自动播放 @YiTayML 自动播放 @skirano 当然了,你的提示词也不必是文字 自动播放 而下面这个,来自设计师藏师傅,:大厂前端,看着设计稿,figma 设计稿,他能写成这样,第一次走查的时候能写成这样,我就烧高香了 这就是今天凌晨,Google 发布的Gemini 3 。当然也不止这个哈基米3 • Gemini 3 Pro:地表最强模型,支持多模态推理、长上下文、Agentic Coding • Google Antigravity:一个原生支持 Agent 开发的平台,管理 Agent 干活 • Generative UI:在 Google 搜索中,直接生成交互界面 • 全线落地:Android Studio、Firebase、Gemini CLI 全部接入,价格极其激进 自动播放 实打实的数值怪 先看下跑分吧,Gemini 3 Pro 在 LMArena Leaderboard 拿到了 1501 Elo,断层领先 LMArena 大模型竞技场 在各种榜单中,也是全面超越之前的王者 Gemini 3 跑分对比图 同时的,对于更长时间跨度的规划能力,Gemini 更是遥遥领先,比如这个 Vending-Bench 2 这个测试(你可以叫他做生意榜单) Vending Bench 2 为了支撑这种执行力,Google 将思维链(Chain of Thought)做了产品化封装,引入了 Deep Think(深度思考) 模式: • Thought Signatures(思维签名):API 返回中包含加密的“思维过程”,模型在输出前会多步推理、反思、验证。这解决了长链路逻辑中模型容易“想偏”的问题 • Thinking Levels(思考等级):开发者在 API 中配置模型“想多久”。对于简单任务选择快速响应,对于复杂逻辑选择深度思考 思考的结果 效果立竿见影: • 在 Humanity’s Last Exam(人类终极考试)中,开启 Deep Think 模式后,Gemini 3 Pro 的得分从 37.5% 飙升至 41.0% • 在 GPQA Diamond 测试中更是达到了 93.8%。这是在没有任何外部工具辅助下,纯粹依靠模型推理达到的高度 Coding 工具 最近流行一个词:Vibe Coding,你只需要描述你想要的“感觉”(Vibe)和功能,模型就能把它实现出来 目前,Gemini 3 Pro 也是最强的 Vibe Coding 模型 遥遥领先 更牛逼的是,Google 还为此交付了两套重型生产力工具,Google Antigravity 和 Gemini CLI 全新的 Google Antigravity Antigravity 这东西的定位,是 Agent 时代的 IDE,如果 VS Code 是为“人”设计的,Antigravity 就是为“人 + Agent”设计的 自动播放 Antigravity 作为一个全新的开发平台(MacOS/Windows/Linux 预览版),它的底层逻辑完全不同于传统 IDE: • 任务导向(Task-Oriented):操作单元从“文件”变成了“任务”。开发者在 Inbox 中下发需求 • 多 Agent 协同:系统支持多 Agent 并行。左边开 Agent 写前端,右边开 Agent 写后端测试,中间 Agent 查文档 • 自主权(Autonomy):Agent 拥有编辑器、终端、浏览器控制权。它写完代码,自动跑终端,自动开浏览器测试,报错自己修 • Artifacts(产物):Agent 交付的不仅是对话,它生成标准化的“产物”——任务列表、实施计划、截图、代码变更 你成了 AI 的老板,去 Review 它的计划,批准它的操作,验收它的成果 更新的 Gemini CLI Gemini CLI npm install -g @google/gemini-cli@latest Gemini CLI,可以理解为 Google 家的类似 Claude Code/ OpenAI Codex,一个命令行 AI 工具: • 自然语言转 Shell:输入 gemini "找出上周我改坏的那个 git commit",它会自动解析并执行 git bisect 流程 • 系统级操作:它可以读写本地文件,重构代码,甚至通过视觉能力,解析图片并生成工程文件 Case: 官方演示中,开发者让他来做个3d的金门大桥,于是...就做好了 自动播放 Generative UI:搜索即应用 Google Search 迎来了交互层面的重大升级 自动播放 过去用户搜索“房贷计算器”,得到的是十个链接。现在 Gemini 3 在 AI Mode 下,现场为你写一个计算器 这被叫做 Generative UI(生成式用户界面): • 动态生成:模型根据具体问题,实时编写 HTML/JS/CSS,并在前端直接渲染交互组件 • 千人千面:用户问“比较 A 和 B 两款车”,生成的是静态对比表;用户问“买哪款更划算”,生成的是可筛选、排序、高亮的交互决策工具 • 复杂模拟:用户问“三体引力如何作用”,模型直接生成物理模拟器,用户可以拖动星球观察轨道变化 话说,你觉得 Google 是不是看了我去年的文章啊 AI 的输出,不应是千篇一律的答案,而应像变色龙般适应环境。在手机上它是简洁的决策助手,在电脑前它是全面的分析工具,在嘈杂环境它侧重视觉,在运动场景它善用声音——始终以最适合当下场景的方式传递信息。 金色传说大聪明,公众号:赛博禅心人类的认知协议 全栈生态:Android Studio 与 Firebase Google 最核心的优势,是其庞大的开发者基建,Gemini 3 这次完成了对 Google 开发生态的底层覆盖。 Android Studio "Otter" 在最新的 Android Studio Otter 版本中,Gemini 3 Pro 被集成进了 IDE 的核心工作流,被称为 Agent Mode(代理模式) Agent Mode 超越代码补全,你可以直接下达“重构登录模块以支持新的鉴权协议”这类模糊指令,Gemini 3 会分析整个项目结构,定位相关文件,并执行跨文件的代码修改。 生产级环境 为了支持 Agent Mode 的高频调用和长上下文需求(最高支持 100 万 Token),Google 允许开发者在 IDE 中直接绑定个人的 Gemini API Key 企业级管控 对于团队用户,IT 管理员现在可以通过 Google Cloud 控制台统一配置 Gemini 3 的访问权限,确保代码隐私符合企业合规要求 Firebase AI Logic 过去,移动端开发者要接入大模型,通常需要自己搭建后端服务来转发请求(以隐藏 API Key 并处理鉴权)。Firebase AI Logic SDK 的发布改变了这一架构 Serverless 直连 开发者现在可以通过 iOS、Android、Flutter 或 Web 的客户端 SDK 直接调用 Gemini 3 Pro Preview。Google 在 Firebase 层面托管了鉴权逻辑,开发者无需维护中间层服务器即可安全访问模型。 新增 Thought Signatures 字段 SDK 会自动处理加密的 thought_signature 字段,确保在多轮对话中,模型能够“记住”之前的推理路径。开发者无需手动解析或传递这些复杂的上下文数据,SDK 会在底层自动维护对话状态 Firebase App Check 防止 API 被未授权的客户端滥用;同时支持 Remote Config,允许开发者在不发版的情况下动态调整 Prompt 或模型参数。此外,Google 提供了专门的 AI 监控仪表盘,用于实时追踪 Token 消耗、延迟和错误率 硬参数:价格与规格 没有废话,直接看数字 模型版本 gemini-3-pro-preview 上下文窗口 上下文:100 万 Token 最大输出:64k Token 价格策略: • 输入:$2.00 / 100 万 Token • 输出:$12.00 / 100 万 Token 适用于 200k 以内的上下文 多模态 原生支持文本、图像、音频、视频、PDF 可用性: • 开发者:Google AI Studio / Vertex AI 现已开放 • 企业用户:Gemini Enterprise 集成 • 普通用户:美区 Google AI Pro/Ultra 订阅用户可在 Search 和 App 体验 总结:Google,牛逼!
苹果发布多款外设固件更新,妙控键盘、妙控板、电源适配器获升级
IT之家 11 月 19 日消息,Aaron 发现,苹果今日为妙控键盘、妙控板、140W USB-C 电源适配器等多款外设推送了固件更新。另外,苹果今天同时还发布新的 AirPods Pro 3 测试版固件(8B5025a),但都没有详细更新说明。 这类配件的软件更新并不常见。根据报告,此次更新将 140W USB-C 电源适配器固件升级至 1.4.84(此前为 1.4.73),妙控键盘(USB-C)及妙控板(USB-C)升级至 3.1.9,而妙控板 2 则更新至 3.1.8。 苹果尚未公布这些更新的具体变更内容,推测主要用于提升设备兼容性或修复特定情况下的使用问题。IT之家提醒:按照惯例,这类固件会在后台自动安装,用户在日常使用中通常不会察觉明显变化。 与此同时,苹果还为 AirPods Pro 3 推出了新的测试版固件。值得一提的是,苹果上周已经面向所有用户发布了 AirPods Pro 3、AirPods Pro 2 和 AirPods 4 公测固件。随着 iOS 26.2 即将推出,AirPods 将迎来更广范围的实时翻译(Live Translation)支持。 苹果未说明该测试固件包含哪些具体更新。通常情况下,AirPods 固件的发布时间与 iOS 版本并非完全同步,新功能若准备就绪可能会在正式版前短暂测试后推送给所有用户。目前公开版本固件的说明仅提及“错误修复和其他改进”。
Zigbee 4.0标准发布,无需网关就能将智能家居接上互联网
IT之家 11 月 18 日消息,据科技媒体 The Verge 今天报道,连接标准联盟现已发布 Zigbee 4.0 标准,在安全性、续航等方面均有提升,同时还支持了 Suzi 新标准(该标准的名称由 Sub-GHz 和 Zigbee 的缩写组成)。 IT之家在此援引 The Verge,虽然使用 Zigbee 的智能家居通常工作在 2.4GHz 频段,但这种频段容易受到厚墙壁等障碍物的影响进而出现信号衰减,而新支持的 Suzi 标准可让设备工作在欧洲的 800MHz 和北美的 900MHz 频段,从而让那些远离网关的设备也能连上网络。 值得注意的是,这次 Zigbee 4.0 还新增了“批量调试”功能,可允许用户设置多个智能家居设备,例如电工可以在新房子通电之前就安装好 Zigbee 标准的灯泡,之后安装上网关时,这些灯泡可以批量完成激活、配网,无需逐一设置。 Zigbee 4.0 还简化了设备间的认证流程,增强网关与家居间的信息交换数据量,提升安全性,并升级通信收发时间标准,可增强设备的电池续航时间。 此外,这次升级最大的变化就是将 Zigbee Direct 变成标配功能,可让智能手机使用低功耗蓝牙直接连接、控制周遭的 Zigbee 设备,甚至不需要借助网关就能将智能家居连上互联网。 根据官方的说法,Zigbee 4.0 完全能向下兼容 Zigbee 3.0 标准,拥有“足够运行资源”的设备将可以通过 OTA 的方式升级。
“我慌了,发生了什么?”,Cloudflare故障引发全球互联网混乱
美东时间周二早间,互联网基础设施服务商Cloudflare表示,其全球网络正在遭遇异常,导致包括社交媒体平台X在内的大量网站出现“internal server error”等访问故障,用户无法访问许多网站和服务,包括零售、电商、社交媒体、金融服务以及交通相关平台。该公司随后声称,在耗时不到四小时后已修复问题。 宕机期间,X的部分功能中断,多家网站也陷入访问受阻。根据故障跟踪平台Downdetector的数据,除X之外,也有大量站点受到影响,相关报告数量持续攀升。用户在访问X、ChatGPT、DoorDash、IKEA,以及纽约市大都会运输署(MTA)等网站时,都看到与Cloudflare相关的错误信息。 随后,Cloudflare的一位女发言人表示,在美东时间早上6点20分左右,他们的某项服务出现了异常的流量激增,导致经过公司网络的流量出现错误。 Cloudflare另一位发言人Jackie Dutton在公告中说,这个问题是由一个用于管理威胁流量、自动生成的配置文件引起的,修复耗时不到四小时。公司表示已经部署了核心修复措施,但谨慎指出系统“仍需时间完全稳定”。 Dutton表示: “这个文件的条目数量超过了预期大小,触发了负责处理Cloudflare部分服务流量的软件系统崩溃。” 声明称,没有证据显示此次事件与网络攻击或恶意活动有关。 故障的影响范围极为广泛。Downdetector在平台上表示,在Cloudflare宕机期间,“各类受影响服务的报告累计超过210万条”,显示此次事件已成为近年来较为严重的一次基础设施级别中断。 事故发生后,Cloudflare的股价周二开盘一度暴跌7%,随后跌幅收窄。 数字资产行业也出现反应。币安联合创始人、前CEO赵长鹏在X上发文称:“区块链依然正常运行(Blockchain kept working)”,暗示去中心化系统未受此次事件影响。 到美东时间12:15,Cloudflare表示系统正在逐步恢复,但全球部分区域仍可能出现访问错误、性能下降或登录问题。公司将在状态页面持续更新修复进度。 对少数公司过于依赖 近年来,多次因为数字基础设施供应商出现问题,导致全球互联网使用陷入瘫痪。亚马逊云服务(AWS)、CrowdStrike Holdings Inc.和微软公司先后出现过类似事故,也突显全球互联网在很大程度上依赖于少数公司提供服务。 Cloudflare和AWS的服务对普通用户来说几乎是“隐形”的,但它们的工具支撑着消费者每天使用的大量网站和服务。 上个月AWS的宕机让互联网部分区域陷入瘫痪,导致数百万用户的网站和应用无法使用,零售销售受阻,社交媒体和金融服务中断,很多企业也受到影响。去年,网络安全公司CrowdStrike所使用的一项工具中的漏洞更是让全球的电脑系统大面积崩溃,引发数千次航班延误和取消,也让政府机构和大型企业的运营陷入混乱。 加州网络安全公司Check Point Software的专家Graeme Stewart表示,这类事故凸显了互联网对少数几家基础设施提供商的过度依赖。 他说: “很多机构依然让所有关键服务都依赖同一条路径,而且没有真正有效的备份。一旦这条路径出问题,就没有任何后备方案。这就是我们一直看到的问题。” 萨里大学(University of Surrey)网络安全教授Alan Woodward表示,周二的故障再次说明互联网高度依赖“少数玩家”。他把Cloudflare形容为“你从未听说过的最大公司”。 “人们别无选择,只能依赖这些少数大公司。” 首席技术官道歉 Cloudflare首席技术官Dane Knecht为这次事故道歉。他在X上写道: “当Cloudflare网络出现问题,影响到依赖我们的海量流量时,我们辜负了客户,也辜负了整个互联网。这个问题本身、造成的影响、以及解决所花的时间,都是不可接受的。我们已经开始着手确保类似情况不会再次发生,但我知道今天确实给大家带来了麻烦。客户对我们的信任最为重要,我们会尽一切努力赢回这份信任。” Cloudflare在过去几年曾多次经历类似宕机。 2019年7月,Cloudflare软件中的一个漏洞导致网络部分模块过度占用计算资源,使全球数千家依赖Cloudflare的网站(包括Discord、Shopify、SoundCloud以及Coinbase)离线长达30分钟。2022年6月,Cloudflare发生故障,影响其19个数据中心的流量,导致多个主要网站和服务瘫痪,持续约一个半小时。 Cloudflare的软件被全球数十万家公司使用,作为企业网站与终端用户之间的缓冲层,用于保护网站免受流量攻击或流量突发导致的宕机。 去年,网络安全公司CrowdStrike发布的错误软件更新导致运行微软Windows系统的数百万台设备崩溃,给航空、银行、医疗等众多行业造成大范围混乱。 CrowdStrike的这次宕机源于其产品中一个在客户电脑最底层运行的错误。而Cloudflare的作用是保护互联网基础设施,如网站和平台,因此当Cloudflare宕机时,许多热门网站会直接无法访问或出现异常。Cloudflare主要负责“让网站始终在线且速度够快”,而CrowdStrike专注于保护电脑和服务器免受攻击。
烧掉700亿!他为谷歌赢得诺奖,却将ChatGPT拱手让人
新智元报道 编辑:元宇 【新智元导读】11年前,谷歌收购DeepMind,花巨资买来一个「诺贝尔奖 + 顶级科学家 + 世界级实验室」,没想到却被OpenAI抢先推出ChatGPT,几乎动摇谷歌核心搜索业务,这一切背后的核心人物正是谷歌的AI掌门人哈萨比斯。 他曾为谷歌赢得了诺贝尔奖,也一度让马斯克「寝食难安」,但却让谷歌错失了Transformer商业化的先机。 最终,OpenAI率先推出ChatGPT,几乎动摇到谷歌搜索业务的根本。 他就是Google DeepMind CEO德米斯·哈萨比斯(Demis Hassabis)。 在谷歌收购DeepMind后的11 年中,作为谷歌AI战略的核心人物,哈萨比斯获得了诺贝尔奖,并赚取了数百万美元的财富。 但对于谷歌的母公司Alphabet而言,这些投资的回报却有些姗姗来迟。 据一份监管文件显示,在哈萨比斯追求通用人工智能(AGI)的过程中,已经动用了超过96亿美元的谷歌资本作为运营支出。 虽然AlphaFold项目为谷歌赢得了诺奖的声誉,但仍未成为Alphabet的重要收入来源。 这难免引发一些投资人质疑: 凭借谷歌在AI领域的先发优势和雄厚积累,为何未能成为无可争议的AI领导者? 拒绝OpenAI合作的四年后 哈萨比斯拿下诺奖 2019年前后,在硅谷的一场晚宴上,一位OpenAI高管向哈萨比斯提议,如果OpenAI或DeepMind任何一方接近实现AGI应通知对方,然后双方展开合作。 OpenAI这项提议的动机,是为了确保两个实验室都不会在安全问题上「走捷径」。 哈萨比斯拒绝了这项合作提议,选择了让DeepMind单独前进。 谷歌发布Transformer论文后,并没有将其商业化,而是将其免费提供给了其他研究人员。 于是,2022年OpenAI率先在Transformer架构基础上推出了ChatGPT。 而此时的哈萨比斯,正带领DeepMind团队冲击他心目中的「诺奖级项目」。 哈萨比斯心中一直都有一个诺奖梦。 早在大学时代,他就把将来可能用AI解决的科学难题记在一个清单上,而蛋白质折叠自1990年代起就一直排在这张清单的最前面。 2016年3月,AlphaGo在首尔战胜李世乭后,哈萨比斯就和AlphaGo负责人David Silver商量DeepMind的下一件大事。 他认为游戏差不多已经做到头了,所以想用AI去攻克一个真正的科学难题,于是就想到了蛋白质折叠,这是他长期关注的目标。 从一开始,AlphaFold(蛋白质结构预测的AI系统)在哈萨比斯心目中就是一个「诺奖级的课题」,这是一项「五六年周期的大工程」,而不是一两年就要看到商业回报的产品线。 2024年,哈萨比斯与同事John Jumper,因领导开发AlphaFold2,与美国科学家David Baker共同获得诺贝尔化学奖。 哈萨比斯斩获诺奖后,Alphabet领导层对其赞誉有加。 首席执行官Sundar Pichai在社交平台X上称「这是人工智能领域意义非凡的一周,而且仅仅只是一个开始」。 哈萨比斯为谷歌赢得了诺奖,但却让OpenAI率先推出了ChatGPT。 ChatGPT的大获成功令谷歌大受震撼,为了追赶OpenAI,Sundar Pichai将谷歌大脑与DeepMind合并,由哈萨比斯统领所有AI部门。 市场充满了「铜臭味」 哈萨比斯常常避免谈论金钱,他的兴趣点更侧重于宇宙以及人类终极福祉这样的宏大叙事。 哈萨比斯曾表示,自己一直梦想着通过AI技术的发展,促进人类对宇宙的探索,追求一个「物质极大丰富、能治愈疾病并解决我们面临的许多重大挑战的世界」。 他曾将DeepMind描述为「一项阿波罗计划」,其使命首先是「破解」智能,然后是破解「其他一切」。 与上面这些「崇高愿景」相比,那些关于市场的讨论听起来则像是充满了「铜臭味」。 2015年12月,贝莱德团队曾在伦敦与哈萨比斯和其他DeepMind高管会面,讨论成立一家合资企业。 但最后这个项目不了了之,因为当时哈萨比斯的工作重心在一个名为AlphaGo的AI项目上。 2016年3月,AlphaGo在首尔的一场围棋比赛中击败韩国围棋巨星李世石,被视作人工智能发展史上的里程碑事件。 李世石(右)与谷歌的AlphaGo对弈围棋 但在一些投资人看来,AlphaGo好比一件「精美的玩具」,他们看不出成为围棋大师意味着什么,「也许意义重大,也许毫无意义」。 不能否认哈萨比斯主导的项目对于保持谷歌在AI领域领导地位的重要作用,但一些投资人在看不到明确前景时也会动摇。 Deepwater Asset Management就曾在今年出售了约1400万美元的Alphabet股票,它的管理合伙人Gene Munster曾毫不客气地指出: 谷歌就像一支拥有全部天才球员,却总是拿不到全国冠军的「全明星球队」。 当然,也有些同事对于外界将哈萨比斯定义为一个「过于关注理论的CEO」这种看法不以为然。 他们认为,Alphabet任命哈萨比斯为公司最高AI主管,更多是押注于他作为科学家和企业家的敏锐洞察力,而非任何传统的销售才能。 追求独立 为了更安全的AI 在熟悉哈萨比斯的一些同事眼中,现年49岁的他经常与他的母公司保持距离。 在2014年谷歌收购DeepMind之后的数年之间,哈萨比斯就一直与联合创始人们试图将其与母公司的干预隔离开来。 谷歌在2015 年重组为现在的Alphabet控股公司。 哈萨比斯希望将DeepMind设为一个独立的部门,但遭到了包括公司现任总裁兼首席投资官Ruth Porat在内的Alphabet高管的一致反对。 据几位了解哈萨比斯的人表示,哈萨比斯对自主权的追求,反映了他的这样一种信念: 只有脱离谷歌利润动机的DeepMind,才能确保AI的负责任发展。 在这点上,他与埃隆·马斯克、Anthropic的联合创始人达里奥·阿莫迪 (Dario Amodei)等人并没有太大分别。 他们都认为自己才是这项革命性技术最负责任的守护者。 马斯克曾是DeepMind的早期投资者,他透露DeepMind曾为自己造成了极大精神压力。 他在2016年写给OpenAI领导人的一封电子邮件中表达了这种忧虑,他担心DeepMind想要建立一个统治世界的「心智」:「如果他们赢了,那将是天大的坏消息。」 而马斯克早期投资DeepMind,正是为了监控AI进展。 哈萨比斯作为一位富有远见的科学家,他对于控制权的渴望,有时会让他与谷歌的商业利益背道而驰。 解决「根节点」式的问题 哈萨比斯一直没有放弃将DeepMind从谷歌中独立出去的计划。 他的做法是寻求更多方式来彰显DeepMind的价值。 他曾告诉员工要瞄准那些一旦解决就足以斩获诺贝尔奖的重大问题,比如像AlphaFold这样的项目。 这项研究也促使Alphabet成立了Isomorphic Labs,这是一家由哈萨比斯领导的DeepMind姐妹公司,致力于利用AI快速开发药物。 但由于制药研发的漫长周期,该企业尚处早期,未取得商业成功。 哈萨比斯的支持者表示,其潜力正体现了他从即使是缓慢发展的科学研究中挖掘商业机会的能力。 如今,哈萨比斯仍然专注于宏大的科学构想和长期目标。 他认为AI需要解决「根节点」问题。 所谓「根节点」,是一个计算机科学术语,指复杂系统中最基础的节点。 比如发现蛋白质结构可以增进对氨基酸和生物学的理解,这可能有助于对抗癌症和其他疾病。 哈萨比斯表示,Isomorphic Labs将于2025年底前将AI设计的药物推向临床试验,其中肿瘤学将是其研究重点之一。 此外,哈萨比斯目前的一个重点领域是其对「AlphaAssist」的构想,这是一个「通用助理」。 在哈萨比斯的设想中,这是一个不会在更复杂的任务上出错的助理,就好比《钢铁侠》中的贾维斯。 科学家第一 企业家第二 哈萨比斯出生于一个移民家庭,作为英国最优秀的青少年国际象棋选手之一,他在童年时期就已经表现出对知识的渴求和强烈的竞争意识。 哈萨比斯在11岁时输掉了一场长达八小时的比赛后,让他产生了探索AI的想法。 他醉心于物理学家提出的重大问题,在十几岁时就曾思考是否能找到一个「万有终极理论」来描述宇宙的运作。 哈萨比斯对游戏的热爱,使他在16岁时找到了一份在英国视频游戏公司牛蛙制作(Bullfrog Productions)的工作。 在他进入剑桥大学读书之前,他参与设计的一款游戏《主题公园》(Theme Park)在1994年大获成功,该游戏为牛蛙公司创造了8000万美元的销售额,使其后来被一家更大的公司收购。 在剑桥大学获得计算机科学学位后,哈萨比斯回到游戏业工作数年,随后重返学术界,在伦敦大学学院完成了认知神经科学博士学位。 后来他在伦敦遇到了同样专注于AI的博士后研究员谢恩·莱格(Shane Legg),共同创立了DeepMind。 在融资过程中,许多投资者缺乏耐心去拥抱遥远的概念。 「你们的产品是什么?」投资者总会这么问。 哈萨比斯则认为这些问题太缺乏想象力了。 所以,他的回答总是:「有史以来最重要的事情」。 幸运的是,他们在2011年初获得了硅谷风险投资家彼得·蒂尔(Peter Thiel)的一笔超过200万美元的投资。 在招聘研究人员时,哈萨比斯将DeepMind更多描述为一个科学项目,而非商业企业。 创办DeepMind之后,哈萨比斯继续参加大学讲座,并经常带着员工一同前往。 他曾公开表达自己的主张:「科学家第一,企业家第二」。 因此,在DeepMind发展的大部分时间里,都没有任何产品或收入。 据一份监管文件显示,在截至2024年的五年内,DeepMind的累计收入超过78亿美元。 然而,所有这些营业额都来自其他谷歌平台使用DeepMind技术的内部结算。 此外,在哈萨比斯追求其通用人工智能(AGI)的过程中,已经动用了超过96亿美元的谷歌资本作为运营支出。 虽然,AlphaFold项目为谷歌赢得了诺奖的声誉,但是AlphaFold还并未成为Alphabet 的重要收入来源。 由哈萨比斯,联想到即将离开Meta开启创业的LeCun,如何找到科学研究与商业成功的平衡,是摆在所有AI科学家和创业者面前的共同挑战。
小米手机收入与均价下滑,高管回应内存涨价影响
本文字数:1169,阅读时长大约2分钟 作者 | 第一财经 吕倩 11月18日,小米集团(1810.HK)披露2025年三季报。公告显示,小米该季度营收1131.2亿元,同比增长22.3%;经调整净利润113.1亿元,同比增长80.9%。 业务分部方面,该季度小米集团手机×AIoT分部收入841.1亿元,同比增长1.6%,占总营收74.4%;智能电动汽车及AI等创新业务分部收入290.1亿元,同比增长199.2%,占总营收25.6%。 聚焦手机业务,三季度小米智能手机业务收入460亿元,同比降低3.1%,核心因智能手机ASP(平均售价)由去年同期每部1102.2元下降3.6%至1062.8元,该降幅主要是由于境外市场ASP下降,部分被中国大陆高端智能手机出货量占比提高带动ASP上升抵消。手机出货量由去年同期的0.431亿部增加0.5%至0.433亿部,主要是由于境外市场出货量增加所致。 手机行业是受本轮内存周期影响较为明显的赛道。2025年以来,全球内存市场呈现全品类、持续性涨价特征,从上游存储芯片(DRAM、NAND)到下游内存条、SSD等终端产品,价格均出现显著上涨,且涨幅远超近年平均水平。 对此,小米集团总裁卢伟冰在财报电话会中表示,过去行业每隔几年就会进入一轮内存涨跌周期,但本轮周期主要是由AI带动HPC(高性能计算)需求暴增引发的变化,且时间长、需求量大、供给不足。今年一二季度内存价格突然上涨,三季度价格猛涨,预估四季度涨幅将更大。 这样的内存周期属性在卢伟冰看来,将对行业成本与毛利造成较大影响,尤其是手机、平板、笔记本电脑等存储成本占比较高的产品,这也是全行业都面临的课题。具体解决方案包括产品适当涨价,通过优化产品结构进行缓解等。在成本上涨周期增加库存、在成本下降周期减少库存,是行业多数厂商会遵循的基础策略。同时卢伟冰提醒,如果手机零售价格上涨,那么手机大盘一定会发生下行,只是具体比例目前很难量化。 卢伟冰指出,全球手机行业格局已呈偏稳态,但此次内存涨价幅度大、周期长,将引发行业阶段性波动。核心原因是不同厂商消化成本的能力存在差异,其中ASP越低的厂商受冲击将越明显。 至于国内市场,卢伟冰认为国内手机市场格局尚未定型,厂商差距未拉开,此轮内存涨价将加剧行业比拼,核心考验厂商资金实力与供应链话语权,供应商也会调整合作优先级。市场端来看,三季度消化前期库存,四季度将直面高价内存库存的市场反馈,预计本轮周期对国内手机市场格局的影响将会大于全球市场。 微信编辑 | 苏小
消息称苹果、高通等或用英特尔封装技术造移动芯片
IT之家 11 月 18 日消息,据科技媒体 TechPower Up 今天报道,英特尔、高通和博通等芯片巨头未来可能会成为英特尔晶圆代工客户,意味着英特尔可能借由芯片封装业务大幅提升收入。 据报道,苹果、高通和博通最近发布的招聘信息显示,这三家芯片巨头在招聘封装工程师职位时已将掌握英特尔 EMIB(嵌入式多芯片互联桥封装)技术纳入考量因素,暗示这些公司希望招聘熟悉 EMIB 的工程师,帮助设计下一代移动端产品。 IT之家注:EMIB 是一种嵌入芯片内部的硅桥,可在不需要大型硅中介层的情况下,让高密度的晶粒间互联,常见实现方案有 EMIB-M、EMIB-T 等,能提供成本更低、密度更高的连接,适合芯片与 HBM 内存互联。 高通 CEO 安蒙曾在近期表示,英特尔暂时不是公司选项,但希望未来英特尔能成为可行选择,他指出英特尔 18A 工艺并不适合旗下移动芯片,因为这种工艺的设计重点偏向中高功耗能效,而非低功耗移动端 SoC。 安蒙以一个形象的例子解释了他的观点:“我们设计芯片时设想的是另一端接着电池,而非连着墙壁上的电源”。 博通也在去年尝试过英特尔 18A 工艺,但最终结果不太理想。然而如今出现的转机表明,英特尔先进封装正成为台积电 CoWoS 等方案的替代选择。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。