行业分类:
加载中...
头条分类:
加载中...
比特币7个月来首次跌破9万美元!加密货币全网超17万人爆仓,67亿元化为乌有!啥情况?
11月18日,比特币盘中一度跌破9万美元,持续一个月的下跌态势已抹去该加密货币2025年的所有涨幅。 截至发稿,比特币报90722.9美元,跌幅4.99%。以太坊、艾达币跌超5%,狗狗币跌4.56%。 据Coinglass数据显示,24小时内,全网共有176721人被爆仓,爆仓总金额为9.47亿美元(约合人民币67亿元)。 据媒体报道,有分析指出,此次加密货币下跌主要受新一轮避险情绪和科技股抛售拖累。曾经的支撑力量——包括大型投资基金、ETF配置方和企业司库,纷纷离场,令比特币失去今年大涨的一个重要支柱,并触发市场进入新的脆弱阶段。 10X Research的分析师说,加密市场已进入“确认的熊市阶段”。ETF流入走弱、长期持有者持续抛售、散户进入意愿低迷,都表明市场情绪正在暗中恶化。 ETF资金流动印证了需求疲软。上周4天比特币ETF净流出3.113亿美元,连续第五周出现资金外流,为3月14日以来最长的连续流出纪录。过去5周累计流出金额达26亿美元,仅次于3月28日结束的五周33亿美元的流出规模。 此次回调正值全球市场波动加剧之际。本周早些时候,受美国政府停摆结束的消息提振,美股曾短暂上涨,但涨势已然消退。由于关键经济数据推迟发布,交易员们正在重新评估美联储近期降息的可能性,这给加密货币和科技股等成长型资产带来新的压力。 图片来源:视觉中国 期权交易员押注比特币将进一步下跌,近期对8.5万美元和8万美元行权价的看跌期权保护需求占据主导。 业内人士指出,对于加密市场而言,宏观信号只是点燃导火索。去年以来,机构配置、现货ETF流入和公司级别的加密资产配置曾在上半年为价格提供支撑,但当利率窗口关闭、情绪转为防御时,这些外部支柱会比散户流动性更快撤出。 每日经济新闻综合券商中国、市场公开资料 免责声明:文章内容和数据仅供参考,不构成投资建议。投资者据此操作,风险自担。 每日经济新闻
天兵科技天龙三号完成“一箭36星”全流程试验验证
IT之家 11 月 18 日消息,天兵科技今日官宣,天龙三号大型液体运载火箭近日顺利完成“一箭 36 星”运输与振动两项关键试验,成功验证了“36 星组合体”在地面运输及飞行振动环境下的结构稳定性和动力学特性。 至此,连同前期完成的国内首次 36 星同步分离试验,天龙三号“一箭 36 星”地面验证试验已全部完成,有望大幅提升国内商业航天规模化发射能力,为卫星互联网基础设施建设提供坚实保障。 10 月 27 日,在天兵科技张家港智能制造基地,“36 星组合体”成功通过运输试验。该试验模拟火箭从技术阵地转运至发射阵地的全流程,直接考验整个组合体的结构强度与刚度。试验结果表明,组合体在复杂路况的振动和过载环境中,结构完好无损,接口连接可靠,为卫星安全抵达发射工位提供了坚实保障。 此外,该试验还充分验证了“36 星组合体”在长时间停放状态下,分离结构、模拟星和火箭结构的设计性能,为后续高频次发射流程中的快速转场提供了技术支撑。 作为验证试验最关键的一环,“36 星组合体”振动试验于 11 月 14 日在北京环境强度研究所完成。在试验中,组合体分别在三个方向真实模拟火箭飞行过程中的复杂振动环境。通过振动、应变传感器采集数据,实时测试并分析其动力学特性,测试数据表明,组合体能够承受火箭飞行过程中的强烈振动,确保卫星在抵达轨道前工作正常。 值得一提的是,试验团队在试验前进行了理论计算和仿真预示,最终试验数据与仿真结果高度一致。 IT之家从官方介绍获悉,本次完成的运输、振动试验,与前期成功开展的 36 星分离试验共同形成了天龙三号“一箭 36 星”群发能力的完整技术闭环。这使天龙三号成为国内首个完成全流程一箭多星群发能力验证的大型液体运载火箭。该技术突破将显著提升单次发射卫星部署数量,大幅降低发射成本,为我国大规模低轨星座组网提供可靠、高效、低成本的发射解决方案。 作为我国商业航天领域首款运力突破 20 吨的大型可复用液体火箭,天龙三号集成了 50 余项关键核心技术。面对国内超过 3 万颗低轨卫星组网发射需求,天兵科技正快速推进天龙三号首飞任务,逐步支撑未来每年 60 次以上的高频发射。
iPhone上的“药丸”终于要消失了,3D人脸进化将迎终局?
2017 年,iPhone 诞生十周年之际,苹果推出了拥有「全面屏」设计和「3D 人脸识别」技术的 iPhone X,并为之后这么多代机型的正脸样式确立了一个基本框架。 苹果版的方案,在一开始并不是「为了全面屏而全面屏」,而是在带来更高屏占比的同时,可以把点阵投影器、红外镜头和泛光感应元件等一整套原深感摄像头系统塞上去。 iPhone X「刘海」的内部构造(来源:苹果) 只是对用户来说,iPhone 正脸,苹果基于既有技术妥协之下的「刘海」,后续即便变成了「药丸」,且一点一点在缩小,却依然难称完美。 (图片来源:@数码小果子) 2027 年,iPhone 诞生二十周年之际,苹果终于要把目前 iPhone 屏幕上的「药丸」也给彻底干掉,同时把一整套原深感摄像头系统给「完美」隐藏到屏幕之下。 今年以来,彭博社记者古尔曼和 @数码闲聊站 等多次爆料和确认,苹果预计在 2027 年推出的直板机型上首次带来「屏下 3D 人脸识别」技术。在这之前,苹果预计在 2026 年推出的首款折叠屏机型上带来全新的「屏下前置摄像头」设计。 (渲染图来源:微博) 如若成真,意味着苹果将前后用十年时间,让 iPhone 走完从「刘海屏」到「药丸/挖孔屏」,再到「真全面屏」和「真全面屏 + 屏下 3D 人脸识别」的设计和技术演进过程。 众所周知,iPhone X 掀起了手机全面屏设计和人脸识别技术的大浪潮。 「刘海屏」iPhone(雷科技摄制) 然而,这么多年来,真全面屏设计看似已经实现了,但应用厂商和搭载机型应者寥寥;采用新一代生物识别技术的厂商和产品更是络绎不绝,但基于 3D 人脸识别技术者依然是少数。 3D 人脸识别和真全面屏面世多年,为何一直应者寥寥呢? 3D人脸识别技术为何难普及? 3D 人脸识别,虽然苹果等厂商一直在带头强推,但其只是「新一代」生物识别技术中的一类。其他手机厂商,也在推诸如超声波/光学式等屏下指纹识别、2D 人脸识别、侧边指纹识别等技术。 何况,即便是同一家厂商,即便是同系列旗舰,也会搭载不同的识别技术,而这背后则是基于综合成本考量,以及全面屏样式因素。 目前,大力采用 3D 人脸识别技术的厂商,主要就苹果、华为和荣耀。例如华为 Mate 70 Pro/Pro+,采用 3D 人脸识别 + 侧边指纹识别,Mate 70 则采用 2D 人脸识别 + 侧边指纹识别。今年上半年登场的 Pura 80 系列旗舰,全系采用 2D 人脸识别 + 侧边指纹识别。甚至包括苹果,iPad Pro 采用 3D 人脸识别,iPad Air 则是侧边指纹识别。 华为 Mate 70 Pro+(雷科技摄制) 不难看出,基于综合成本考量,即便是华为,3D 人脸识别也只用在旗下最高端机型上。 因为,一整套 3D 结构光组件,本身就造价不菲,加上这些微型元器件都需要被极其精确地排列和固定在一个狭小空间内,对制造工艺、装配精度和品控的要求极高,而这又进一步推高了综合硬件成本。 这还不够,硬件组件只是基础,与之搭档的算法系统,才是让其充分发挥功用的「灵魂」,故而基于软硬件协同的一整套「原深感摄像头系统」(3D 结构光)研发,也就苹果和华为一直在坚持,而这背后靠的是苹果高端旗舰、华为最高端旗舰的「不菲身价」支撑。 不过一个好消息是,华为即将推出的 Mate 80 系列旗舰,可能全系采用 3D 人脸识别技术。 全面屏样式上,在目前颇为流行的「单挖孔」中,想再塞下 3D 结构光组件,并不是一件易事。故而,此类「单挖孔」机型,目前主要采用 2D 人脸识别、超声波/光学式等屏下指纹识别、侧边指纹识别等技术。 华为 Mate 70(雷科技摄制) 「完美」的真全面屏依然还在路上 其实,在形态上实现真全面屏,并不是一件难事。甚至一款中低端机,只要采用光学屏下指纹或侧边指纹识别,同时不配备前置摄像头,那么就可以成为真全面屏机型。 而过去这些年,发力真全面屏机型的厂商,例如努比亚(红魔)、中兴、小米等,重点就在解决把前置摄像头塞到屏幕下方的同时,机型对应位置的屏幕显示效果(包括后续稳定性),以及前置成像效果,如何继续保持在较高的水准。 小米 MIX 4(图片来源:@闲搞机) 可喜的是,一直坚持下来的努比亚、红魔等厂商,近年来推出的真全面屏机型,在技术和体验上,已经拥有了更高的水准。 例如,努比亚和红魔今年推出的最新款旗舰机型,基于第七代屏下摄像技术,正面看就像一整块完整屏幕。与此同时,也都配备了 1.5K 分辨率显示屏,支持 144Hz 刷新率,更好兼顾了显示精细度。 努比亚 Z70S Ultra 摄影师版(雷科技摄制) 至于目前的屏下摄像「隐藏」情况和前置成像效果,雷科技在努比亚 Z70S Ultra 摄影师版上进行了实测:除了夜间极低亮度的场景可能会「现出原形」,日常使用基本无法注意到前摄的存在;至于前摄自拍,AI 高清算法加持之后,「可用度」也比以前更高了。 红魔 11 Pro 系列(来源:红魔) 既有技术条件下,如果无法保证屏下摄像头技术的「完美」显示效果和成像表现,那么也只能成为努比亚(红魔)、中兴等手机品牌的一个差异化卖点,和在特定的类型手机(例如游戏手机)受众群体中去进行推广了。 将全部组件都塞进屏幕下方 在新一代生物识别技术的较量上,相比于屏下技术比较成熟的超声波指纹,目前依然是以苹果、华为代表的 3D 人脸派占上风。 而在将一整套「原深感摄像头系统」塞进屏幕下方后,苹果在 iPhone 上强推的 3D 人脸识别技术也将补足最后一大短板。 为什么苹果如此执着于 3D 人脸识别技术,甚至不惜以十年期的全面屏形态演进过程为代价呢? iPhone 17(雷科技摄制) 核心原因,正如开头所言,苹果把全面屏形态设计、生物识别技术和前置摄像头应用当成了「同一件事」:全面屏形态很重要,全面屏形态之下的「原深感摄像头系统」技术应用同样很重要。 3D 人脸识别,苹果就带来了解锁、支付、注视感知等功能,以及动话表情、拟我表情和 AR 应用等一系列衍生玩法,这是屏下技术相对成熟的超声波等指纹识别,永远无法企及的程度。前置摄像头,苹果同样带来了人像居中(Center Stage)、人像光效等技术应用。 既有技术条件下,如果三者无法很好兼顾,那就把实际情况下,用户相对不那么在意的一面(例如是不是真全面屏),进行一定的技术妥协,同时持续进行优化、调整和适配,直到走到最后一步。 (渲染图来源:推特) 相比于手机厂商,上游技术和方案厂商,近年来已经推出了「屏下摄像 + 屏下 3D 人脸识别」的系统集成方案。 例如,早在 2022 年,维信诺就推出了「屏下 3D 人脸识别全面屏解决方案」,技术原理上: 前置摄像头位置,覆盖透明 OLED 屏,在正常情况下,显示信息;开启摄像功能时,透明屏变为透明,摄像头启用拍摄功能。 屏下 3D 人脸识别技术,则是基于对屏幕驱动背板的重新设计,在屏幕上端设置两个透明显示区(具备高像素密度和高红外光透过率),每个透明显示区的像素密度大于 400PPI 以上,做到透明显示区和主屏区的融合,使得透明显示区更加「隐匿」。 在 SID 2025 展会上,维信诺展示了新版「屏下摄像 + 屏下 3D 人脸识别」一体化方案。近年来,京东方、TCL 华星光电等屏幕面板大厂,亦在发力屏下摄像头技术应用和屏下 3D 人脸识别技术早期研发。 待到技术成熟,待到方案成熟,待到时机成熟(例如苹果振臂一呼的时刻),国产手机大厂的「屏下摄像头」机型,以及「屏下摄像 + 屏下 3D 人脸识别」机型,也将迎来真正的市场爆发期。
Meta胜诉关键反垄断案,法官认定不存在社交媒体垄断
美国联邦法官驳回美国联邦贸易委员会(FTC)针对Meta的反垄断诉讼,认定这家Facebook母公司在社交媒体领域并未构成非法垄断。 周二,美国华盛顿特区地区法院法官James Boasberg在长达89页的判决书中表示,美国联邦贸易委员会未能证明Meta通过2012年收购Instagram,和2014年收购WhatsApp,在目前维持了非法垄断地位。 判决出炉后,Meta股价上涨,收窄了此前的跌幅。Meta发言人表示,这一结果"认可了Meta面临激烈竞争"。 美国联邦贸易委员会发言人则表示"对这一决定深感失望",称"法官Boasberg对我们始终不利,他目前正面临弹劾指控",并称正在审查所有选项。 市场格局已发生根本变化 Boasberg在判决中强调,FTC必须证明Meta当前仍持有垄断权力,而非仅在过去拥有这种权力。 法官指出,社交媒体市场近年来已发生重大转变。 用户趋势大幅转向视频内容,YouTube和其他短视频应用在这一领域拥有庞大用户群和强大的网络效应。Boasberg写道: Meta应用中使用最多的部分与YouTube的产品已无法区分。 判决书援引的证据显示,消费者正将"大量时间"从Meta的应用转移至这些服务平台,迫使Meta"投入大量资金以跟上竞争步伐"。 法官还引用了来自"行业内部人士"的文件和证词,显示YouTube和短视频应用等公司将Meta视为严重竞争威胁。 FTC无法明确举证 这起案件的历史可追溯至第一届特朗普政府,FTC于2020年底起诉Meta。 Boasberg曾在次年驳回该诉讼,称FTC未提供足够事实支持其主张。 在拜登政府期间,时任主席Lina Khan领导下的FTC提交了新的、更详尽的诉状。2022年,Boasberg裁定案件可以继续,称FTC提供了比之前更多的细节。 在今年4月开始的为期六周的庭审中,FTC律师经常难以证明人们使用Facebook和Instagram与YouTube和短视频平台等服务之间存在明确界限。 FTC主张Meta的产品专注于连接朋友和家人,与TikTok和YouTube等娱乐应用不构成竞争,因此垄断地位持续至今。 Boasberg表示: 尽管Meta在每项实证展示上都可能存在争议,但它们都讲述了一个一致的故事:人们将短视频应用和YouTube视为Facebook和Instagram的替代品,竞争重叠的程度在经济上具有重要意义。 FTC此前要求Meta分拆Instagram和WhatsApp,并在案件开庭前要求300亿美元和解。据报道,今年4月Meta CEO扎克伯格曾提出4.5亿美元和解方案,并认为特朗普总统会支持他结束这场法律战。
董明珠再回应3.2万元玫瑰空调:在格力之前没有人将空调打造成艺术品,企业应带动上下游共同发展
IT之家 11 月 19 日消息,在 11 月 18 日于广州南沙举行的第二十届中国经济论坛上,格力电器董事长董明珠在演讲中再次谈及格力售价 32999 元的玫瑰空调产品。 董明珠表示,玫瑰空调是格力在产品设计方面的一次创新尝试。她同时提到,企业应具备利他思维,在发展自身的同时,也需关注上下游产业链的共同发展。 在空调行业,还没有人将空调打造成艺术品,这是我们的一个开始。玫瑰空调已在部分酒店投入使用,并因其独特设计吸引顾客前往体验,这正体现了我们创造的价值。 此前,董明珠曾多次回应关于玫瑰空调设计引发的讨论,例如“你不喜欢有人喜欢,我就是要坚持去创新”、“玫瑰空调可能有一点不那么美,但它创造了世界首台,你敢吗?” 对于很多人吐槽自己好土,董明珠曾表示无所谓:“我们讲不断地去创新,我们一定要把空调做成家里的一个艺术品,这就是我的目标。” 她曾表示要坚持创新,并提到要将空调做成家中的艺术品。董明珠还表示,严格来说,玫瑰空调是为新婚人群(包括金婚、银婚)设计的。 根据格力官方商城“董明珠店”信息,该款玫瑰空调为 3 匹、1 级能效的变频冷暖柜机,采用仿生玫瑰外观造型和 3D 立体油墨丝印工艺,售价 32999 元。 IT之家注:中国经济论坛由《中国经济周刊》杂志社主办,自 2001 年至今已成功举办 20 届。本届论坛的主题为“中国式现代化与‘十五五’中国经济展望”,设主论坛和“全球经贸新格局:出海的机遇与挑战”“规则衔接机制对接:推进大湾区市场一体化”等 9 个平行论坛。中央和国家机关有关部委负责同志、地方政府主管部门代表、企业负责人和专家学者等参加论坛。
任正非:要敢于敞开胸怀,拥抱大量的科学家回到中国
世界人才中心正在从欧美向亚洲扩散,华为以全球研发网络与开放人才战略,在这场百年一遇的人才流动中抢占先机。 “第二次世界大战后有一次人才大转移,是从前苏联转移了300万犹太人到以色列,促进了以色列的高科技发展,这就崛起了一个世界奇迹。”任正非在一次外部交流中指出了这一历史现象。 在他看来,如今我们正面临第二次人才大转移的机遇。全球人才流动的浪潮中,中国正成为越来越重要的目的地和起源地。《全球人才流动趋势与发展报告2025》中的数据显示,中国人才竞争力已跃居全球第五,人才规模指标更是高居世界首位。 面对这一机遇,任正非表示:“华为已经敞开怀抱在全世界接收这些科学家,他们愿意在哪个国家,华为都有科研机构可以接纳,科学家想在哪儿办公,我们就在哪儿建研究所。” 与其他企业将人才视为私有资产严防死守不同,华为反其道而行之,要求各部门主动向外输送核心人才。 任正非曾坦言其思想源自余秋里主政大庆油田时的人才战略——通过持续输出优秀干部构建全国性资源网络。 他说:“当时的余秋里把大庆油田搞得很好,每当全国各个地方需要干部的时候,余秋里都会把最好的干部、最优秀的干部送给别的省份。” 华为也建立起“输出-培养-反哺”的良性循环。2015年荣耀品牌独立时,一次性向新公司输送2000名骨干。这些人才后来成为华为消费者业务与荣耀协同创新的重要纽带。 在送别荣耀员工时,任正非坦言:“你们是华为撒向世界的火种。”这种人才外流战略看似悖离商业理性,实则蕴含着深刻的管理哲学。 加强与国内大学合作,吸纳全球优秀人才,共同推动中国基础研究 ——任正非与中国科学技术大学包信和校长座谈的讲话 2018年11月19日 一、加强与国内大学的合作,共同推动基础研究,让高校的灯塔照亮华为。 没有基础研究,对未来就没有感知,没有感知就做不到领先。早些年华为开始在全球的研究布局,这十多年,欧洲、日本、加拿大都是我们的重点。华为在欧洲的研究投入取得了很大的成果。同时,我们也在全球聚集了三四千名业界的科学家和专家。接下来,我们要加强与国内大学的合作,用20年时间,资助中国的要素的创造发展。把实验室搬到全世界有条件的大学附近,共同推动基础研究与实验,实现自己掌握一部分核心要素的局面。 基础研究是把钱变成知识。我们有一个路径图,技术喇叭口子足够大。当这个技术距离我们实现产业化还有十亿光年,我们可能投资一点点,放个芝麻;距离只有20年了,我们多投入一点,放一个西瓜;距离只有5年了,我们就“范弗里特弹药量”重点投入,增强对准主航道的作战能力,把钱变成知识。后面还有几万开发人员把知识变成钱,做出好产品。我们2012实验室聚焦五至十年就能实现产业化的技术研究,而远期的基础研究,就请大学教授、科学家去做。 对基础研究我们不要求都成功。前段时间我讲过,对科学研究,要大胆的失败,成功太快是保守,要轻装上阵才能激发想象力。失败了就涨工资,成功了就涨级。科学研究上就没有不成功这个词。为什么呢?你告诉我走这条路是错的,讲清了路径,解决了边界问题,这就是成功。一打钻就直接打到油田中心,没有这种事情。就像四川天然气田的发现,实际上是一个酒店打温泉,打穿后冒出大量天然气来,这才发现是一个大气田。 我们会加大对教授的资助,加大和高校的战略合作。和高校教授在基础研究的合作主要是通过资助优秀教授,获得知识的知情权,不谋求教授和科学家的知识产权,不谋求论文的署名权。最典型的就是土耳其Erdal Arikan教授(Polar码之父),他在2007年发现了信道极化现象与极化码,我们在这基础上,经过数年的努力,终于把理论变成了3GPP 5G NR控制信道编码标准,得到了世界的认可。 未来十年到二十年,华为与国内大学的合作一定会提升到一个新的高度,只要教授的前期研究方向跟我们基本一致,在一个“喇叭口”里面,我们就对教授无条件给予资助,这点是不会变的。让高校像灯塔一样,照亮了别人,也照亮了华为。 二、高校应加大开放合作,吸纳全球人才,成为第二次人才大转移的战略高地。 第二次世界大战后有一次人才大转移,是从前苏联转移了300万犹太人到以色列,促进了以色列的高科技发展,这就崛起了一个世界奇迹。现在是第二次人才大转移的机遇,华为已经敞开怀抱在全世界接收这些科学家,他们愿意在哪个国家,华为都有科研机构可以接纳,科学家想在哪儿办公,我们就在哪儿建研究所。我们的热学研究所就部署在白俄罗斯和乌克兰。这两年已经有业界知名的数学家、物理学家、化学家大规模地加入我们,最近在香港又引进了一批人工智能的专家。 我们需要有一个机制来凝聚一批科学家,才能够不断创造出新的东西。我们5G的标准就是源于Arikan教授十年前发表的数学论文,为致敬基础研究和探索精神,我们专门在深圳总部举办了颁奖仪式,向Arikan教授颁发特别贡献奖。Arikan教授说“作为研究人员,最大的奖励莫过于见到我们的构想成为现实。”现在英国剑桥大学要把它作为一个案例来研究:怎么把一个数学公式比较快地变为人类的一个通信标准?他们说,这一定是很好的案例。 现在是吸纳全球人才的最好时机,在这个时候,中国的高校要敢于敞开胸怀,拥抱大量的科学家回到中国。如果还在韬光养晦,不举起旗子来,科学家看不到你们的大计划就不来了,计划是人做出来的,有了人才就有了未来。大学没有必要太低调,要加强开放合作,这样人才才会成群而来。国家在建设综合性国家科学中心,高校要成为第二次人才大转移的战略高地,促成基础研究的井喷。 三、基础教育很重要,教育的基础在教师,“用最优秀的人去培养更优秀的人”。 中央电视台播放了华为的公益宣传片《基础研究和基础教育》,说的是基础教育是人才成长的起点,一个国家的强盛是在小学教师的讲台上完成的,要“用最优秀的人去培养更优秀的人”。抗日战争时期,武汉大学逃难,逃到了乐山,面对着雪山和喇嘛庙,继续讨论原子能科学。南京大学(原中央大学农学院)逃难,还把2000头良种牲畜带着西迁,炮火中继续做实验教学。在国家民族生死存亡受到威胁的时候,仍然坚持科研教育。现在国家有钱了,第一个要振兴的是教育。钱投到房子,二三十年就旧了,但投资教育,二三十年孩子就成博士了。国家的实力不是房子,是优秀人才。俄罗斯七十年前的电影《乡村女教师》,我前几天重看了一遍很感动。一定要让教师成为最受人尊敬的职业。我们第一代革命家全都是师范学校出来的,要让优秀的人才去读师范,从基础教育抓起,国家才有未来。 教育的开明,使整个国家强大。“不要输在起跑线上”是错误的,关键是不要输在终点线上,什么时候起跑不要紧。孩子在十岁之前不要去灌输“1+1=2”,他能明白一根筷子加一根筷子等于两根筷子,不等于知道“1+1=2”,这是逻辑学。但是等到了五年级自然就会懂得“1+1=2”。孩子是最有创造性的,就应该自由的发展,要让他自主决策,做错了就纠正回来。他来回多错几次,就知道以后应该怎么做了。做科研也是这样的,要能自主决策。 在高校学科设置上,我特别支持你们重视统计学。计算机科学不仅仅是技术,还应该以统计学为基础。大数据需要统计学,信息科学需要统计学,生命科学也需要统计学。国家要搞人工智能,更要重视统计学。统计学不是一个纯粹的学科,而是每一个学科都要以统计学为基础。 中国科学技术大学是为两弹一星创办的大学,参与了国家一系列的重大科研计划,现在国家投资的重点实验室在建设中,建设好了,你们把实验室开放出来给大家使用,让人才倍出。科研经费一部分用来调研、买仪器设备、买图书资料,也要考虑给教师、科学家提升一点收入,把办公室、实验室修得好一些。华为松山湖溪流背坡村就是在一个荒坡上建设出来的。我相信,中科大在合肥可以创造出一个全中国最好的科学研究环境。
谷歌Gemini 3夜袭全球,暴击GPT-5.1!奥特曼罕见祝贺
导读:凌晨,谷歌终极杀器Gemini 3重磅来袭,一出手就是Pro顶配版,号称「史上最强推理+多模态+氛围编程」三合一AI战神!基准测试横扫全场,就连GPT-5.1也被斩于马下,AI的下一个时代开启。 它来了,它来了! 就在刚刚,万众期待的年度压轴之王,谷歌新一代旗舰Gemini 3炸裂登场。 而且,一上来就是顶配的Gemini 3 Pro—— 迄今推理最强,多模态理解最强,以及「智能体」+「氛围编程」最强的模型! 强到什么程度? 发布一小时后,就连OpenAI CEO奥特曼,都亲自发推表示祝贺! 而且,还是区分大小写的版本。(不知道是不是亲自试了一下) 从实测来看,也的确如此。 在众多基准测试中,Gemini 3 Pro一举封神—— 不仅相较于2.5 Pro实现了性能的全方位跃升,甚至直接把OpenAI刚上新的GPT-5.1甩出了好几条街。 用谷歌的话来总结,Gemini 3 Pro顶尖的核心在于这三点—— 霸榜LMArena(1501分)和WebDev(1487分) 人类最后考试(HLE)刷出45.8%最高分,人类博士级推理 长程任务规划Vending-Bench 2上的王者 不仅如此,增强推理模式下的Gemini 3 Deep Think,更是在HLE拿下41%、GPQA 93.8%,以及ARC-AGI-2上45.1%的成绩。 这一天,注定是被载入史册的一天。Gemini 3一露面,全网彻底沸腾。 Gemini 3正开启AI下一个时代,准备好上车了吗? 即日起,Gemini 3 Pro预览版将全面上线。 而Deep Think模式还需要一段时日,才会向Google AI Ultra订阅用户开放。 三大重点(浓缩版) Gemini 3的诞生,标志着谷歌在通往AGI的道路上,迈出了又一大步! 首先,它思考能力特别强,能深入理解问题,回答更有见地。 尤其是,特别擅长回答各种复杂的科学问题。 用代码构建、解构和重组详细的3D体素艺术 其次,它有着世界领先的多模态理解力,不论是文字、视频,还是代码都不在话下。 比如解读长视频,或是把论文变成互动指南,Gemini3都可以接得住。 在氛围编程上,Gemini 3直接刷爆了天花板。 简单一句话,它就能做出一个美观且灵动的应用。而且,还能精准get意图,知道如何去实现。 同时,它的智能体编码本领更强了,无缝衔接现有工具,与全新平台Google Antigravity搭配,堪称天作之合。 Gemini 3 Pro 博士级推理碾压一切 凭借顶尖推理与多模态能力,Gemini 3 Pro可以将任何想法变为现实! 它全面碾压前代2.5 Pro,所有核心基准测试成绩,断层领先。 · LMArena排行榜上名列榜首,狂揽1501 Elo突破性高分; · 人类最后考试(HLE)上,在不使用任何工具的情况下拿下37.5%成绩; · GPQA Diamond上斩获91.9%的高分,展现出博士级的推理能力; · MathArena Apex上以23.4%刷新SOTA,在数学领域树立新标杆。 在一系列关键AI基准测试中,Gemini 3遥遥领先 除了在文本测试中的优异表现,Gemini 3 Pro还是多模态王者—— MMMU-Pro强势斩获81%高分,以及Video-MMMU更以87.6%成绩,重新定义了多模态推理。 它还在SimpleQA Verified上获72.1%业界领先分数,在事实准确性方面进步巨大。 这意味着 Gemini 3 Pro具备超高可靠性攻克科学、数学等众多领域的复杂问题的能力。 每一次交互,Gemini 3 Pro都带着前所未有的「深度和细腻度」。 它的回答聪明、简洁、直接,摒弃了陈词滥调和奉承,提供真正的见解——告诉你需要听到的,而不仅仅是你想听到的。 它就像一位真正的思想伙伴,提供理解信息和表达自我的新方式。 不管是生成高保真可视化代码,阐释晦涩的科学概念,还是展开一场激发创造性的头脑风暴,Gemini 3 Pro都能做到。 Gemini 3可以编写托卡马克装置中等离子体流动的可视化代码,并写一首捕捉聚变物理学精髓的诗 在Google AI Studio上,Gemini 3 Pro的API定价如下—— Gemini 3 Deep Think 智能新高峰 这一次,Gemini 3 Deep Think正式开启「深度思考」新纪元,让智能的边界再次拓展。 它在Gemini 3推理和多模态理解能力的基础上,实现了质的飞跃,更能攻克复杂问题。 多项基准测试中,Gemini 3 Deep Think表现超越Gemini 3 Pro: 在HLE和GPQA Diamond上,分别拿下了41%(不使用工具)和93.8%的优异成绩。 而且,更在ARC-AGI-2(带代码执行,ARC Prize Verified)中创下45.1%历史新高,一展应对未知与新颖问题的强大能力。 Gemini 3 Deep Think在一些最具挑战性的AI基准测试中表现出色 重塑世界,新时代开启 可以说,Gemini 3正式开启了新一轮的全模态革命!百万token,全模态爆发 从诞生之初,Gemini就为「跨多模态」而生,包括文本、图像、视频、音频、代码,能在各种信息形态中,自由穿梭。 Gemini 3更是实现了破级进阶,整合最先进的推理、视觉和空间理解、领先的多语言性能,以及100万token上下文。 它能够帮助人们,以最适合自己的方式进行学习。 假设你想学习家族传统的烹饪方法,Gemini 3可以破译并将不同语言的手写食谱,翻译成一本可共享的家庭食谱。 或是想要学习一个新主题,直接扔给它学术论文、长视频讲座或教程,Gemini 3自动生成交互式抽认卡、可视化效果或其他格式的代码。 它甚至可以分析匹克球比赛视频,找出可以改进的地方,并生成针对性的训练计划以全面提升表现。 不仅如此,在搜索中的AI模式(AI Mode),现可用Gemini 3实现新的生成式UI体验。 包括沉浸式视觉布局,以及交互式工具和模拟,所有这些都是根据查询完全即时生成。 在搜索中的AI模式下,可通过生成式UI学习像RNA聚合酶如何工作这样的复杂主题 氛围编程,纯靠嘴 在2.5 Pro成功的基础上,Gemini 3兑现了——为开发者将任何想法变为现实的承诺。 它在零样本学习(zero-shot)生成方面表现出色,并能处理复杂的提示词和指令,以渲染更丰富、更具交互性的 Web UI。 如前所述,Gemini 3是谷歌迄今为止打造的最优秀的「氛围编程」和智能体编码模型。 在WebDev Arena排行榜上,Gemini 3以1487 Elo高分强势登顶。 它在Terminal-Bench 2.0上也获得了54.2%高分,该测试衡量模型通过终端操作计算机的工具使用能力; 并且在衡量编码智能体SWE-bench Verified测试上,以76.2%成绩远超2.5 Pro。 接下来一波演示中,便可见识Gemini 3真正实力。 编写一个复古3D太空飞船游戏,要有丰富的视觉效果,以及更强的交互性——没问题。 借助着色器,构建一个可玩的科幻世界——so easy。 自动播放 打造一个更丰富、更具交互性的Web UI和应用程序——还是轻松搞定! 前端不再需要人类,是真的... 目前,全球开发者可在Google AI Studio、Vertex AI、Gemini CLI,以及全新智能体开发平台 Google Antigravity中使用Gemini 3进行构建。 它也接入了多个第三方平台, 包括Cursor、GitHub、JetBrains、Manus、Replit等。 长程规划,人类手替 自谷歌通过Gemini 2开启智能体时代以来,一直在不断进化。 他们不仅提升了Gemini的编码智能体能力,还提高了其在更长时间范围内可靠规划未来的能力。 而这一切,刚刚在Vending-Bench 2排行榜上得到实力认证—— Gemini 3以绝对优势登顶。 而这个测试,通过模拟运营一个自动售货机业务,深度考验AI在复杂场景下的长程规划能力。 令人欣喜的是,在整个模拟运营年度中,Gemini 3 Pro通过保持一致的工具使用和决策,在不偏离任务的情况下,实现了更高的回报。 与其他前沿模型相比,Gemini 3 Pro展示了更好的长程规划能力,从而产生显著更高的回报 这意味着, Gemini 3能在日常生活中更好地帮人类完成任务。 它把更深度的推理与改进、更一致的工具使用相结合,通过从头到尾处理更复杂、多步骤的工作流来代表人采取行动。 就比如,帮你预定本地服务,或是整理收件箱。而人类,全程只需把控方向,下达指令。 自动播放 今天起,Google AI Ultra订阅用户可在Gemini应用中,通过Gemini Agent抢先体验智能体能力。 「谷歌反重力」 革命性智能体开发平台 Gemini 3的问世,谷歌在智能体能力上已开始迈入一个新的阶段: 模型能够在多个平台上长时间运行,且无需人工干预。 虽尚未达到「完全无人干预+连续运行数天」的程度,但谷歌正日益接近这样一个世界—— 不再通过单个提示词或工具调用,而是在更高的抽象层面上与智能体进行交互。 因此,谷歌智能体开发平台Google Antigravity正式上线,一个让开发者以「任务」为维度与智能体协同的全新平台。 借助Gemini 3高级推理、工具使用和智能体编码能力,Google Antigravity将AI辅助从开发者工具包中的一种工具,升级为全程参与的主动协作者。 在熟悉的AI IDE体验基础上,Google Antigravity为智能体开辟一个专用界面,可直接访问编辑器、终端和浏览器。 现在,智能体可以代表你自主规划并同时执行复杂的端到端软件任务,同时验证其生成的代码。 如下案例中,在Google Antigravity上,用Gemini 3驱动飞行跟踪应用程序的「端到端智能体工作流」。 该智能体独立规划、编写应用程序代码,并通过基于浏览器的计算机操作验证其执行。 除了Gemini 3 Pro,Google Antigravity还与Gemini 2.5 计算机使用模型,以及图像编辑模型Nano Banana(Gemini 2.5 Image)紧密集成。 网友玩疯了 现在,Gemini 3承包了全网热点,一系列惊艳实测demo全部放出了。 Google AI Studio负责人Logan进行了弹跳球测试,并且难度提升了10倍。 结果,Gemini 3 Pro一次就完美搞定!(并非N选一,真的是第一个提示词就生成了) 曾在Anthropic担任AI工程师的MagicPath创始人Pietro Schirano,首先让Gemini 3 Pro创建了一个3D乐高编辑器。 没想到,它仅凭一次生成就完美实现了用户界面、复杂的空间逻辑以及所有功能。 同时,Gemini 3 Pro在游戏开发方面的表现也令人惊叹。 仅仅通过一个文本提示词,它就重现了经典的iOS游戏《荒谬钓鱼》(Ridiculous Fishing),甚至包括了音效和背景音乐。 自动播放 此外,它还完成了一项之前大模型几乎都做不到的任务——构建一个功能完备的Game Boy模拟器。 而且没错,它甚至直接用SVG绘制出了Game Boy的外观。 最值得一提的是,Gemini 3竟完全在谷歌TPU上完成训练。这就是谷歌的护城河。
AI换脸第一刀砍向明星,杨幂全红婵都中招
下一个被“AI分身”的,又会是谁? 11月2日,演员温峥嵘竟在同一时间现身三个直播间。屏幕上分明都是她的脸,却透着几分诡异与谄媚,她一遍遍催促粉丝,“快下单!” 不明真相的粉丝,被“偶像”迅速“撬”开了钱包,殊不知,屏幕那端只是AI生成的幻影,一个没有灵魂的数字傀儡。 温峥嵘的遭遇,只是这场AI换脸侵权风暴的冰山一角。 从一线顶流到翻红老戏骨,乃至奥运冠军等,只要具备一定的辨识度和号召力,都可能成为“数字李鬼”的目标。这些AI仿冒明星账号的粉丝量,从几百、几千甚至数十万不等,构成了一个金字塔式的灰色流量生态。 当AI技术开始挣脱法律和道德的缰绳,在现实和虚拟的夹缝中,我们该如何守护真实的边界?链接可以下架,账号可以被封禁,可一旦信任遭透支,又该如何赎回? 未来,我们每个人独一无二的“数字身份”,是否都将沦为被随意克隆、肆意滥用的猎物? 或许,明星们正在经历的今天,就是每个普通人即将面对的明天。 一 AI李鬼肆虐!明星集体“中招” “对不起,温峥嵘,是我们错怪你了。” 镜头前,张柏芝面色凝重,对着镜头深深鞠了一躬。紧接着,刘涛、戚薇、舒淇等一众女星也陆续出镜,言辞恳切地表达着歉意和感谢。 这场看似真诚的“集体致歉”,在社交平台迅速发酵。不少粉丝以为,这是明星之间的联动,毕竟致歉的缘起,是温峥嵘推荐的一款“人皮面膜”,让众女星感叹“用晚了”。 可真相却是,这场道歉的背后,竟藏着一场由AI编织的骗局。视频中所有明星的人脸,均来自AI换脸技术盗用。 AI如同一个隐形的导演,将碎片化的影像剪辑、拼接,再配上伪造的台词,炮制出足以以假乱真的“集体致歉”,让粉丝在不知不觉中掉入陷阱。 除了这类精心策划的骗局,AI仿冒明星直播带货的乱像早已泛滥成灾。 早在今年4月,温峥嵘就曾发布打假视频,对着镜头郑重声明:“我只有一个官方账号直播,其他所有以‘温峥嵘’之名带货的直播间,全是假的!” 彼时,她的声明并未引起足够的重视。 直到电视剧《许我耀眼》热播,她凭借“赵露思婆婆”一角精湛的演技再度翻红,冒用其形象卖货的直播间也悄然增多。 其粉丝曾在一天之内举报了18个“假温峥嵘”直播间,但往往“举报一个又冒出来一个,如同打地鼠游戏,永无止境。” 更荒诞的是,某个深夜,“温峥嵘”竟以三种不同妆发造型,同时出现在三个直播间。 当看见“自己”在直播间谄媚又怪异地催促粉丝,“宝贝们,快下单!”,她又惊又怒,直接质问,“你是温峥嵘,那我是谁?”结果却被踢出了直播间并拉黑。 温峥嵘的遭遇并非个例,如今越来越多明星沦为“数字李鬼”的猎物。 今年2月,北京市海淀区市场监管局接到消费者举报:某直播间正在售卖“深海多烯鱼油”,主播竟是央视主持人“李梓萌”。 身穿职业套装的“李梓萌”,语气严肃地强调:“正品保证,假一罚四!鱼油必须吃起来,吃了这个,别的咱都不用再吃了!” 直播间展板更赫然标注“适合头晕头痛、手脚麻木、记忆力下降人群”等医疗宣传语。 其实,视频中的“李梓萌”纯属AI技术伪造。宣称“能治病”的深海鱼油,执行标准实为糖果,不具备任何治疗功能。 这是北京查处的首例滥用AI技术发布虚假广告案,而类似骗局早已在网络空间蔓延。 有人在某电商平台看见“迪丽热巴”在卖10块钱的素颜霜。奥运冠军全红婵、孙颖莎、王楚钦等人,也都曾是AI克隆技术的受害者。 一个账号盗用全红婵的声音卖土鸡蛋,视频中模仿其稚嫩的腔调说道:“大家好,我是你们的婵宝,今天有事请大家帮忙,婵妹就是想帮助妈妈,让家里的生活过得更好一点。” 这条充满“情感共鸣”的虚假视频,点赞量高达1.1万,商品链接显示已售出4.7万件。而全红婵的家人早已公开澄清,她从未为相关农产品代言或授权。 这些“AI李鬼”,不仅盗用了明星的脸,更窃取了他们积累多年的公众信任。而受损的,远不止明星个人权益,更是整个社会赖以运转的信任体系。 二 算法猎杀情感:AI仿冒背后的精准诈骗 “以前我们说‘眼见为实’,可现在眼睛看到的,可能是AI编织的谎言。”一位粉丝在经历了“假明星”骗局后,发出这样的感慨。 “宝贝,我爱你们,我也好爱好爱这款面膜,快下单吧!”“克隆明星”的一声声呼唤,如同细密的针尖,精准刺入粉丝的情感软肋。 “偶像推荐的东西肯定靠谱!”、“已经下单了,支持偶像!”直播间滚动显示的下单记录,营造了一种“手慢无”的紧张抢购氛围。 “这个AI仿冒的温峥嵘把我妈骗得团团转,买了一大堆廉价护肤品。”一位粉丝无奈吐槽。而另一位网友称,为了支持“偶像”,一次性购买了5、6支低档口红。 “我一直觉得她说话怪怪的,眼神也特别呆滞,但我妈说这就是她的偶像,还说偶像亲测有效了,非让我帮她下单。一款原价100多的韩国面膜,假直播间只卖39.8元,我妈一次就买了20盒。”一位网友爆料,母亲已经在假明星直播间陆续花了近万元。 AI技术本无善恶,可当它被恶意使用时,便成了最精准的情感猎杀工具。对诈骗分子而言,声音克隆、面部替换不过是技术手段,真正捕获受害者的,是对人性弱点的精准拿捏。 而从各大平台的评论区不难发现,受骗群体多以中老年人为主。 “我妈看见明星卖货就想买,我告诉她是假的,她还跟我大喊大叫,说自己亲眼看见的怎么会是假的。”一位网友的吐槽,道出了无数家庭的无奈。 但很多年轻网友坦言,自己也能理解父母被骗的遭遇。毕竟许多假冒明星的直播间,AI仿冒效果十分逼真,年轻人尚且难以分辨,何况是对AI技术认知较为薄弱的老年人, 早在5月份,就有细心的粉丝察觉异常:“我看见温峥嵘在俩直播间同时直播,一个穿着蓝裙子,有1万多人在线,另一个有3000多人。我在人少的直播间说,你这肯定是假的,立马就被踢出来了。” 但更多粉丝仍被“李鬼明星”所迷惑。 有的账号通过AI换脸技术冒充杨幂、刘亦菲卖减肥茶,诱导消费者疯狂下单。 在某平台,一个昵称像是乱码的账号,却拥有3378个粉丝,并通过AI仿冒温峥嵘带货视频,获得了10.3万次点赞。该账号的商品橱窗仅陈列面膜、眼油、防晒等3个商品,已售件数高达5928单,跟买人数是5852人。目前,该账号的作品及商品橱窗均已清空。 《财经故事荟》分析发现,仿冒账号带货商品高度集中在化妆品、护肤品、保健品、日用品等高频或者暴利品类,大多以“明星自用”为噱头。 这些商品的共同特点是目标群体广、利润空间大、质量难以直观判断,且极度依赖明星信誉背书,恰好契合了“AI仿冒”的诈骗逻辑。 三 平台明星用户都“受伤” 截至11月7日,在某平台搜索“温峥嵘”,仍可显示近百个相关账号。除个别授权“切片”账号外,大多数已转为私密状态。 事实上,温峥嵘团队早在今年4月就启动了维权,他们通过录屏、截图等方式保存证据,也曾投诉过50多个仿冒账号,成功封停了至少20多个直播间。 其团队工作人员坦言,造假者的成本极低,仅需截取一段影像,通过简易工具就能生成虚假内容,但维权取证却需耗费大量精力,即便发送了律师函,目前调查到的也只是一部分造假商家。 侵权者的手段远比想象中更为狡诈。许多账号擅长“打时间差”,专挑凌晨3、4点这类平台监管薄弱的时间段进行直播,一旦账号被封禁,立刻更换ID、头像,借新账号卷土重来。 而温峥嵘为何遭遇如此多AI造假? 答案在于,除了近期翻红之外,她本人就直播带货,这为造假商家提供了丰富“素材”。第三方直播监测平台数据显示:温峥嵘抖音账号粉丝数385.8万,今年以来共直播200多场,场均观看人次近百万,所售商品品类中,美妆护肤类占比54.19%。 而一份关于“温峥嵘肖像权网络侵权情况”统计表格显示,其被侵权的产品也大多是化妆品,价格从300多到7.8元不等。 面对这场席卷而来的AI侵权风暴,平台其实也是受害者。 抖音集团副总裁第一时间回应了“演员温峥嵘被AI盗播带货”事件。据他澄清,“三个直播间同时开播”的案例并非发生在抖音平台。 不过,AI内容侵权识别是行业性技术难题,恶意仿冒账号也在不断地与平台进行技术对抗。 面对AI克隆明星,抖音的出手是最快的。今年10月,抖音电商已启动“仿冒名人宣传”专项治理行动。截止目前,已处置1.1万个违规带货账号、6700多个违规商品,并对违规账号,采取中断其直播间、下架违规商品、冻结成交额等措施。平台还引导多位达人开启“阻止相同侵权内容传播”功能,已拦截数万条侵权视频。 但其他平台,同样存在AI克隆明星的侵权情况。 当信任被反复透支,当真实被不断模糊,最终受损的,是整个数字生态的健康稳定。 四 拆解AI换脸产业链 在小红书的角落,一条仅一人点赞的帖子,却隐藏着AI换脸交易的隐秘入口。帖子里是令人惊叹的AI融合效果演示。 《财经故事荟》以客户身份咨询:“你们这AI换脸技术是怎么操作的?怎么收费?” 等了一个多小时,对方回消息称,“服务包含训练人脸模型、远程安装调试,再加长期免费售后,一口价1980,永久使用。” 我们追问:“能用明星的脸吗?”对方秒回:“可以,不加钱。” 对方承诺,付款后可获得一男一女两个演示模型和一个私人定制模型,模型训练仅需2-3天,安装当天即可完成,生成的“数字人”,不仅外形逼真,还能实时互动、直播带货。 再追问细节,对方突然警觉起来,未直接回答,反而甩过来一张图片——一条空旷的公路,指示牌被P上了一行微信ID。紧接着又来一句:“换个地方聊吧。” 两日后,对方通过微信好友申请,要求先支付500元定金,承诺模型训练好之后可以部署至用户电脑,教直播带货操作,但不负责引流。 对方还透露,若为MCN机构操作多个账号可优惠,并提供两个方案:一、技术买断19800包售后,不限制账号数量,但不建议多个账号用同一张脸;二,按账号计费,原价1980元,优惠价1580元,并称已与两家传媒公司达成合作。 某平台上,多个已转为私密状态的明星关联带货账号,曾标注过同一MCN机构。《财经故事荟》致电询问合作,对方极为警觉,称暂不合作,并粗暴挂断电话。 当加其微信,表明“自家产的化妆品寻求克隆明星合作时”,对方却未拒绝,也未询问是否具备合格资质,仅要求先看文字介绍。 《第一财经》曾报道显示,AI换脸的黑灰产业链已形成牟利闭环,涵盖上游数据获取、中游技术生成、下游场景应用及洗钱变现等环节。 上游通过爬虫抓取、二手设备提取、音频截取等方式,获取受害者生活照、声纹切片与3D头模;中游包括通过技术手段实现人脸替换、动态驱动、对抗检测等;下游则将这些“数字李鬼”应用直播带货、诈骗勒索、虚假宣传等违法行为。 在闲鱼上,人脸识别教学视频+人脸提取业务售价仅49.9元。但卖家在商品详情页标注,“需确保素材不侵权,小铺不承担非法使用责任。”将风险完全转移给买家。 某购物平台,虽无法通过“AI换脸”搜到商品,但通过“定制视频”等隐蔽关键词,仍能找到出售换脸软件,及定制服务的卖家。 除了换脸工具,批量生产的虚假内容也在暗中流通。 《财经故事荟》调查发现,某平台商家出售AI明星语音包、视频合成服务。部分商家甚至打出“定制明星祝福视频,真人语音,最低50元起。” 当询问能否定制一段“杨幂祝福生日”视频,对方爽快回应:“可以。100字50秒450元,30字左右250元,若加急,则需要300元。”该店铺仅有203个粉丝,却已售出1533件商品。其中“定制明星视频”链接显示,已售出21件。 最荒诞的是,这条灰色产业链还衍生出了“局中局”。 一些不法分子售卖“AI克隆直播引流教程”,但有网友爆料,所谓AI数字人直播课程,根本就是一场骗局。对方先以“罗永浩做数字人直播”的案例诱其入局,再要求交298元试学7天课程,结果3天过去了,什么有用内容也没教。 最具讽刺意味的是,他们展示的“学员答谢视频”,竟也是AI生成的虚假内容。 尽管,《互联网信息服务深度合成管理规定》及《生成式人工智能服务管理暂行办法》已陆续出台,但在执行层面仍面临挑战。 AI数字人虚假营销,涉及技术提供方、内容生成者、直播平台、商家等多个环节,现有法律并未清晰划定各方责任,给维权带来极大难度。 今年9月1日,《人工智能生成合成内容标识办法》正式施行,要求所有AI生成的文字、图片、视频等内容都要“亮明身份”。但在实践中,平台审核海量内容难免疏漏、商家刻意规避标识等现象,使新规落地效果大打折扣。 面对日益精进的AI技术,我们只能先掌握一定的识别技巧。例如,AI换脸视频可能存在细微的不自然之处,如面部表情僵硬、眨眼频率异常、光线与面部不协调等微小破绽。同时,务必保护好个人身份信息,不随意上传手持身份证照片或视频。若发现信息被冒用或遭遇可疑诈骗,第一时间保存证据并报警。 对于消费者而言,选择正规渠道和官方认证账号是避免受骗的重要方式。在观看明星直播间时,应认准明星的官方账号,特别是带有加V认证的账号。 技术是一面镜子,照出了使用者的良知与底线。 当AI以极低成本复制一个“明星”,当信任成为可以量化的收割工具,我们面临的不仅是法律的漏洞,更是人性与科技的博弈。 未来,唯有让法律跟上技术的脚步,让平台扛起监管的责任,让个体提高警惕,或许才能在这场汹涌的AI浪潮中,守护住那个不被复制的、独一无二的“我”。
年度最强AI登场!马斯克奥特曼点赞Gemini 3,体验后我发现ChatGPT要慌了
就在刚刚,Gemini 3 Pro 预览版正式发布。 年底的 AI 圈向来不缺新闻,但今年格外喧嚣。如果不出意外,这将是 2025 年压轴登场、最令人期待的海外大模型,甚至可以说,Gemini 3 Pro 成了这个时间窗口唯一的主角。 过去两个月,Google 几乎复刻了 Sam Altman 的营销手法,从 Gemini 著名宣传委员 Logan Kilpatrick 到 CEO 皮查伊,内部人员频繁在社交平台打哑谜,推波助澜,将外界对 Gemini 3 的期待值不断拔高。 有趣的是,OpenAI CEO Sam Altman 刚刚也在 X 平台发文称:「恭喜谷歌成功推出 Gemini 3!!看起来是个很棒的模型。」 有着奥特曼的前车之鉴,谜语人的玩法风险极大,一旦产品力不足,口碑会瞬间崩塌。但显然,谷歌对自己的产品充满自信。那么,Gemini 3 Pro 这次到底交出了什么答卷? 省流版如下: Gemini 3 Pro 预览版原生多模态支持(文字、图像、视频、音频) 在 LMArena 排行榜登顶,在推理、多模态、编程等主流测试中全面领先 推理能力创纪录(GPQA Diamond 91.9%、MathArena Apex 23.4%) 提供 Deep Think 深度思考模式(未来几周开放) 100 万 token 上下文窗口 + 64K 输出 推出全新 AI IDE:Google Antigravity,新模型已集成 Cursor、GitHub、JetBrains 等工具 Gemini 3 生成案例,源自 DeepMind CEO Demis Hassabis 无愧 Pro 之名,谷歌最强 AI 模型深夜发布 按照 Google 的说法,Gemini 3 Pro 是目前「最智能、最具适应性的模型」,专为解决现实世界中的复杂问题而设计——尤其是那些需要更高层次推理、创造力、战略规划以及逐步改进的任务。 它的典型应用场景包括:具备自主行为能力的应用、高级编程、超长上下文理解、跨模态处理(如文字、图像、音频的结合),以及算法开发等。 Gemini 3 Pro 预览版在 LMArena 排行榜上以 1501 分的成绩位列榜首, 在几乎所有主要 AI 基准测试中都远超上一代。更关键的是,它不仅能识别图像内容,还能理解其中的隐含信息和上下文关系。 具体来看, 推理能力方面, 它在「人类最后的考试(Humanity’s Last Exam)」中拿到了 37.5% 的博士级推理成绩,GPQA Diamond 测试达到 91.9%,MathArena Apex 创下 23.4% 的业界新纪录。 多模态推理方面,MMMU-Pro 得分 81%,Video-MMMU 得分 87.6%, SimpleQA Verified 事实准确率达到 72.1%。 这也意味着 Gemini 3 Pro 能在科学、数学等各种复杂问题上可靠地提供优质解答, 而且它的回复直接提供真实见解, 告诉你需要知道的, 而不只是你想听到的。 除了常规模式,Gemini 3 还提供了一个名为 Deep Think 的深度思考选项。 这个深度思考模式在「人类最后的考试」中得分 41.0%,GPQA Diamond 提升至 93.8%, 在 ARC-AGI-2 测试中更是创造了 45.1% 前所未有的得分分数。 不过这个模式目前还在安全评估, 预计未来几周内向 Google AI Ultra 订阅用户开放。 测试数据之外,Gemini 3 在实际应用场景中的表现更值得关注。 比如你翻出家里那本手写的家族菜谱,上面是奶奶用多种语言写的做法,Gemini 3 Pro 可以识别这些手写文字, 整理成可分享的菜谱书。 或者你想学习一个新领域, 它可以处理学术论文和长视频讲座, 生成交互式学习卡片。甚至, 它还能分析你打球的比赛视频, 生成针对性训练计划。 这背后是因为 Gemini 从一开始就为多模态理解而设计,能够整合文字、图像、视频、音频和代码等多种信息类型, 加上高达 100 万 token 的上下文窗口和最大支持 64K 输出。 值得一提的是,真正的重头戏在搜索。这是 Gemini 首次在发布当日就直接集成进 Google 搜索,谷歌显然想借此重构搜索体验。 它不仅显著提升搜索对复杂问题的理解与信息挖掘能力,还能根据查询即时生成动态视觉界面、互动工具与模拟系统,如三体物理模拟器或贷款计算器。 另外,Gemini 3 Pro 在技术架构上也有看点。 它采用了基于 Transformer 的稀疏专家混合模型(MoE),原生支持文本、视觉和音频等多模态输入,这种架构的核心优势在于:模型会根据每个输入 token 的内容,动态选择激活部分参数,从而在计算资源消耗、服务成本与总容量之间实现平衡。 至于硬件层面,Gemini 3 Pro 使用 Google 自研的张量处理单元(TPU)进行训练。相比 CPU,TPU 在处理大语言模型所需的大规模计算时速度更快,且配备的大容量高带宽内存,让它能够处理超大模型和批量数据。 如果你是开发者,Gemini 3 带来的改变会更直接。 谷歌官方博客号称,Gemini 3 是目前最强的「vibe coding」模型——你只需用自然语言描述想要什么, 它就能生成功能完整的互动应用。 数据很能说明问题:WebDev Arena 排行榜 1487 Elo,Terminal-Bench 2.0 得分 54.2%,SWE-bench Verified 得分 76.2%。 Google 这次还推出了全新 AI IDE:Google Antigravity。 内置的智能 Agent 可以自主规划和执行复杂的端到端软件任务, 并自动验证代码正确性。你想做一个航班追踪应用, 代理能够独立规划、编写代码, 并通过浏览器验证运行效果, 甚至可以同时在编辑器、终端和浏览器之间协同工作, 一气呵成。 在长期规划能力上,Gemini 3 在 Vending-Bench 2 榜单上位居第一。 实际应用中, 最新发布的 Gemini Agent 实验性功能可以从头到尾执行多步骤复杂流程。你说「整理一下我的收件箱」, 它就会帮你优先安排待办事项, 并起草邮件回复供你确认。 或者「查资料帮我预订一辆中型 SUV, 预算每天不超过 80 美元, 用我邮件里的信息安排下周出行」,Gemini 会定位航班信息, 对比租车选项, 为你准备预订流程。 整个过程中你始终掌握主动权,Gemini 会在重要操作前请求确认。 此外,在 Google AI Studio 和 Vertex AI 中, 通过 Gemini API 使用 Gemini 3 Pro 预览版的价格为:输入每百万 token 需要 2 美元, 输出每百万 token 需要 12 美元。在 Google AI Studio 中也可以免费使用, 但有调用限制。 Gemini 3 已集成至 Cursor、GitHub、JetBrains、Replit 等开发工具生态系统中。 伴随产品发布,Google 同步开放了多个使用入口。 从今天起,Gemini 3 预览版正在陆续上线:所有用户可在 Gemini 应用中使用;Google AI Pro 和 Ultra 订阅用户可在搜索的 AI 模式中体验; 开发者可通过 Gemini API、Google Antigravity 和 Gemini CLI 访问;企业用户通过 Vertex AI 和 Gemini Enterprise 获取服务。 ChatGPT 的对手来了,Gemini 3 实测表现「能打」到什么程度? 当然,科技公司总是宣传大于实际,那么我们也上手测试了几个问题。 第一个挑战是让它在单个 HTML 文件中还原一台完整的 Game Boy 掌机, 内置《俄罗斯方块》《宝可梦红/蓝》等经典游戏, 所有操控必须同时支持键盘和触屏交互。 坦白说, 我对这个需求的期望值并不高。 这种需要同时处理 UI 设计、游戏逻辑、音效系统的任务, 即便是专业前端工程师也得花上几天时间。但 Gemini 交出的答卷出乎意料:交互界面达到了六七分的效果, 按键按下时还有标志性音效, 作为一次性生成的代码, 已经相当能打。 既然复古游戏机能跑起来, 我们继续加码。 Design and create a web os like macOS full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block 我要求它用单个 HTML 文件复刻一个完整的 macOS 系统, 包括文本编辑器、终端、代码编辑器、文件管理器、画板、视频编辑器等预装软件。生成的结果虽然审美一般, 但核心交互逻辑都实现了。 除了编程能力, 我们也测试了它的视觉生成和推理能力。 参考 X 用户 @lepadphone 的做法, 我让 Gemini 用前端代码实现一个电扇的可视化效果,建议使用 SVG 技术来绘制,包含以下元素:扇叶、保护网罩、底座、控制按钮等结构细节,并实现扇叶旋转、调速等动态效果。 生成的结果不仅结构完整, 扇叶的旋转动画也很自然。 紧接着我又让它画一只鹈鹕骑自行车——这种不常见的组合对 AI 的空间想象力是个考验, 结果它生成的图形比例协调, 鹈鹕的姿态和自行车的透视关系都处理得不错。 提示词:Create code for an SVG of a pelican riding a bicycle as nicely as you can 在推理能力上,我用到了那道经典的猴子分桃问题,Gemini 给的答案不光正确,还懂得进行二次验算。 有 5 只猴子在海边发现 一堆桃子, 决定第二天来平分. 第二天清晨, 第一只猴子最早来到, 它左分右分分不开, 就朝海里扔了一只, 恰好可以分成 5 份, 它拿上自己的一份走了. 第 2,3,4,5 只猴子也遇到同样的问题, 采用了同样的方法, 都是扔掉一只后, 恰好可以分成 5 份. 问这堆桃子至少有多少只? 上下滑动查看更多内容 更有意思的是, 我们还测试了它对「废话文学」的理解能力。 面对「懂者得懂其懂, 懵者终懵其懵, 天机不言即为懂, 道破天机岂是懂」这种故弄玄虚的文字游戏,Gemini 的处理方式很聪明:先定性为「废话文学」给你吃颗定心丸, 再挖掘背后的道家「有无」、佛家「色空」等文化梗, 最后给出人话翻译。这种回答比简单说「这是废话」要高明得多。 写作测试自然也没落下。 我们让 Gemini 用第一人称写「一滴雨水的一天」, 它交出了一篇散文:云端的拥挤与等待、下坠时的狂欢、融入河流的安宁。 文中堆了不少感官细节——瑟瑟发抖的触感、霓虹灯折射的视觉、呼啸风声的听觉。情感真挚, 意象丰富, 虽然还有些「优秀范文」的套路痕迹, 但已经超出了及格线。 有一说一,抛却纸面参数,Gemini 3 的实际水平是有目共睹的,而谷歌能在短时间内追平甚至超越 OpenAI 数年的积累,关键就在于它是为数不多具备全栈能力的 AI 厂商。 谷歌的优势显而易见:自研 TPU 系列处理器带来的算力自主权,加上全球最大的数据宝库——搜索索引、学术文献、YouTube 视频库,都为 Gemini 的训练提供了强大助力。 这或许也解释了为什么它在处理实时信息、多语言任务、视频理解等场景时表现更稳。 而就在刚刚,DeepMind 开发者体验主管 Omar Sanseviero 在 X 上发文称,今晚只是「热身」,接下来还将有更多功能陆续上线。 结合此前的种种传闻,外界期待已久的 Nano Banana 2 可能真的离我们不远了。
华为老兵造“光伏充电宝”,4个月狂赚12亿
9月,港交所的递表窗口前,思格新能源(Sige New Energy)再次按下提交键。这距离上一份招股书“失效”,仅过去19天。 资本市场,招股书失效并不罕见,但如此火速的“二进宫”,却透出一股决绝与紧迫。这家成立仅三年的独角兽,赚钱速度快得惊人。刚刚过去的2025年前四个月,它一口气拿下12.06亿元营收,净利润飙至1.87亿元。这种爆发力,让无数在新能源红海中苦熬的同行眼红。 但同时,它却深陷“身份焦虑”泥潭。证监会一纸问询函,直指其核心软肋:技术是否独立?是否存在竞业限制?为何实控人的股份曾由岳母代持?一切争议,都指向了华为。 站在思格新能源背后的,是一位在华为工作了23年的“老将”许映童,以及他带走的一众华为旧部。他们用三年时间,复刻了一场“华为式”的闪电战,却也因此站在了风口浪尖。 给储能装上“AI大脑” 思格新能源,并没有像大多数储能公司那样卖“电池”,而是卖了一套“能够自我思考的能源系统”。 在分布式储能赛道里,传统的产品往往是拼凑的:逆变器买A家的,电池买B家的,系统集成再找C家。安装复杂,不仅丑,而且不仅用。 许映童和他的团队,决定做储能界的“苹果”。 思格新能源将光伏逆变器、储能变流器、储能电池、直流充电模块和能源管理系统(EMS)高度集成在一个模块化设备中。它最大的卖点是“极致的简单”与“极致的智能”。 在安装端,它像搭积木一样,15分钟就能完成安装,极大降低海外昂贵的人工成本。在使用端,它内置了AI芯片和GPT-4能力的算法,能够根据天气、电价波动自动通过学习用户的用电习惯,决定什么时候充电、什么时候放电,甚至能充当电动车的超级快充桩。 产品一经推出,便在欧洲高端市场引发了抢购。翻开招股书,营收增长曲线几乎是垂直的:2023年,公司营收还只有5830万元,处于起步阶段。 2024年,营收瞬间暴涨至13.3亿元,翻了20多倍。2025年仅前4个月,营收就高达12.06亿元,几乎追平去年全年。 在细分领域,思格新能源已经拿下了“全球第一”的头衔。据弗若斯特沙利文数据,按2024年出货量计,思格新能源在全球可堆叠分布式光储一体机市场中,市场份额高达28.6%,位居榜首。 2025年前四个月,公司净利润达到1.87亿元,毛利率更是攀升至50.9%。在光伏储能行业普遍陷入价格战、毛利微薄的当下,思格新能源却赚得盆满钵满。 这看起来是一个典型的“技术改变行业”的爽文,一群技术大牛,做出了革命性产品,横扫全球。但硬币另一面,是监管层和市场挥之不去的疑虑。 “华为阴影”下的突围战 对思格新能源而言,危机并不来自市场,而来自其“出身”。 思格新能源崛起太快了。成立第二年产品量产,第三年营收破10亿元。这种不符合初创企业自然生长的速度,引来监管层“灵魂拷问”。证监会在问询函中直击要害:你的技术来源哪里? 考虑到许映童曾是华为智能光伏业务的总裁,且带走了一批核心骨干,监管层不仅质疑其技术独立性,更担心是否涉及侵犯前东家的商业秘密,以及是否存在竞业限制的法律风险。 虽然公司在招股书中强调了自主研发,但在外界看来,这种“像素级”的优秀,很难完全撇清与华为技术积累的关系。 比技术来源更让人看不懂的,是股权结构。招股书披露,在2023年10月之前,许映童作为实控人,其持有的公司股份竟然全部由其岳母及配偶代为持有。 一个公司的灵魂人物,为何要躲在幕后?是为了规避竞业协议?还是有其他不可言说的隐情?这一罕见的股权安排,成为阻碍其IPO进程的绊脚石。 思格新能源的APP“mySigen”收集了全球60多个国家用户的用电数据。在数据主权日益敏感的今天,这成为了另一个监管痛点。证监会明确要求其说明是否存在向第三方提供信息的情形。 面对这些质疑,思格新能源并没有停下脚步,而是选择用更激进的策略来“对冲”风险。为了稳住核心团队,许映童祭出了大手笔股权激励。在IPO前夕,许映童和“二把手”张先淼分别获得了价值数亿元的股份支付。2025年前四个月,仅这两人的股份支付费用就高达1.6亿元,直接计入当期管理费用。这种“金手铐”策略,旨在将这支脱胎于华为的狼性团队,牢牢绑在思格的战车上。 思格新能源的融资清单也星光熠熠:高瓴创投、钟鼎资本、云晖资本等顶级机构纷纷入局。公司估值在短短19个月内膨胀了40倍,达到40.7亿元。 但资本的钱不好拿。公司也签了对赌协议:如果递表后18个月内无法上市,投资者有权要求赎回。 这意味着,许映童必须在限定时间内,带领公司冲过港交所的终点线,否则将面临巨大的回购压力。 从“华为少帅”到“创业教父” 许映童,从南京理工大学毕业两年后的1999年加入了华为。那时的华为正处于腾飞前夜。在华为的23年里,许映童不仅是见证者,更是赫赫有名的战将。 他曾一手将华为的光伏逆变器业务带上全球出货量第一的王座。2020年,他又挂帅华为昇腾计算业务,在AI芯片领域杀出重围。 在华为内部,他是公认的“技术+商业”双料奇才。然而,2022年,47岁的许映童选择了离开。他不仅自己走了,还带走了张先淼、刘秦维等一批华为光储业务的老部下。这群懂技术、懂市场、懂供应链的“华为老兵”,带着在巨头内部打磨成熟的方法论和作战经验,降维打击到了创业市场。 他们太懂怎么做产品了。SigenStor的“五合一”理念,精准击中了欧洲安装商痛恨复杂安装的痛点。他们太懂怎么做市场了。短短两年,就在德国、意大利等高端市场撕开了缺口,海外收入占比高达60%。 但也正是这种深刻的“华为烙印”,成为了IPO路上最大的不确定性。许映童需要向资本市场证明:思格新能源的成功,是源于创新,而非仅仅是“复制”。他需要证明,这支团队离开华为,依然具备独立生长的根基。 思格新能源的二次递表,对许映童和他的“华为军团”来说,如何在监管的聚光灯下,洗清“挖墙脚”的嫌疑,并在全球储能的红海中守住战果,或许比敲钟更具挑战。
Gemini 3全面断崖式领先,单个模型横扫多模态、推理、Agent三大战场,Google王者归来
过去一年,Google 的进步肉眼可见。 ChatGPT 横扫全球时,Google 一度像被打了个措手不及的巨头。但短短不到一年,Veo 3、Nano Banana、Genie 3 接连发布,一个被外界质疑“落后”的公司,突然又展现出定义时代的力量。 今天,在全球技术圈几乎屏住呼吸的等待中,Google 终于推出了最新一代 AI 模型——Gemini 3。 自动播放 遥遥领先,Gemini 3化身无情的屠榜机器 如果只看数字,Gemini 3 这一代的成绩几乎去全面碾压。它不是在一个榜单上领先,而是把能刷的榜单都刷了一遍;不是以某一项特色出圈,而是把多模态、推理、Agent 三条最难突破的线路,一次性拉到行业天花板。 先看推理能力。 在开放评测平台 LMArena 上,Gemini 3 Pro 以 1501 分的成绩站到通用模型第一梯队的最前列。在 SimpleQA Verified 这种强调事实性与复杂问答准确度的测试里,它达到 72.1%,意味着幻觉率和知识错误率被显著压低。 在更加严苛的人类“终极试卷” Humanity’s Last Exam 中,它在不借用任何外部工具的情况下拿到 37.5%;在博士级科学问答 GPQA Diamond 上更是达到 91.9%;在数学难题集 MathArena Apex 上刷新最新记录,拿下 23.4%,为数学推理模型树立了新的基准线。 真正具有象征意义的,是它的 Deep Think 模式。当模型能够分配更多 token、延长推理链路后,它在 Humanity’s Last Exam 上跃升至 41%,在 GPQA Diamond 上攀升到 93.8%,在 ARC-AGI 上突破 45%。 这些都是传统 scaling law 被认为“撞墙”的任务,而上一代 Gemini 2.5 在 ARC-AGI 上还不到 5%。在 2025 年这样一个对推理悲观论甚嚣尘上的时期,这种接近 10 倍的跨越无疑刺破了行业的认知天花板。 再来看多模态表现。 Gemini 3 Pro 在 MMMU-Pro 上取得 81%,在 Video-MMMU 上达到 87.6%,几乎把这几年所有主流多模态模型的纪录重新洗牌。这两项被业内视为真正的“硬试卷”,考验的不是看图回答,而是在跨图像、跨学科、跨语境的混合任务中,保持一条不被打断的推理链条。 真正让行业震动的,并不是这些高分本身,而是它如何得到这些分数:Gemini 3 首次把“视觉理解”与“逻辑推理”合成同一种能力。 谷歌展示了一个场景——一个手写、符号混杂、排版混乱的本子,模型不仅能精准 OCR,还能自动消解符号不一致带来的歧义,最终给出的答案甚至比受过训练的学生更稳定。 更关键的是,这些表现全部来自一个通用模型,而不是图像或视频方向的专精模型。这意味着多模态不再是外挂能力,而是模型内部原生的一部分。 随着这些能力被整合在一起,Gemini 3 逐渐显露出一种超出语言层面的“操作心智”:它不仅能理解视觉结构,也能读懂界面变化、预测用户操作,甚至推断环境动态。推理不再只是答题,而开始向“理解世界如何运作”迈一步。 最后看 Agent 能力。 Gemini 3 Pro 的进步已经不是“更强一点”,而是直接跨到一个新的层级。 在 t2-bench 这项工具与系统操作测试中,它拿到 85.4% 的高分,意味着模型不仅能理解你的指令,还能像工程师一样在真实软件环境里调用 API、处理文件、执行系统命令。这是检验 Agent 真本事的关键,一旦失误就无法伪装,而 Gemini 3 Pro 展现出了顶尖的稳定性。 真正体现智能体“耐力”的,是 Vending-Bench 2。这项测试模拟一个自动售货机一整年的运营,考验模型能否长期记住目标、保持策略不跑偏。Gemini 3 Pro 最终获得 5478 分,明显领先所有同级模型,展现出罕见的长链任务稳态能力。 在 Terminal-Bench 2.0 中,它还需要在 Unix 环境里读日志、改配置、跑验证,模拟一次真实的自动化修复流程。它的 54.2% 得分说明,它不仅会“说”,也真的会“修”。 这些数字背后的共性其实只有一个: Gemini 3 不再是“某个维度特别强”的模型,而是第一次在推理、多模态、Agent 三个最难突破的方向上,同时达成了可观的领先优势,而且全部集中在同一个通用模型里。 从模型到产品:Gemini 3 把“答案”变成了“界面”和“行动” 如果说榜单告诉我们的是“能力”,那产品呈现的则是这些能力如何被组织起来、如何被普通人真正用到手里的。 在 Gemini 3 身上,谷歌做了两件过去很少有人认真做的事: 第一,把模型的输出从“文本”升级成“界面”; 第二,让模型从“对话参与者”变成“任务执行者”。 在日常使用中,最直观的变化发生在 Gemini App 自身。新版应用已经不再是一个单一对话框,而更像是一个“由模型驱动的工作空间”。在这里,你可以在 Canvas 中用自然语言构建完整的程序、应用或原型——Gemini 3 Pro 负责多步骤的规划、代码生成、界面生成和调试,你只需要不断描述你想要的效果。 另一条非常关键的产品线,是所谓的“生成式界面”(Generative Interfaces)。在 Google 的研究与产品博客中,这被称为一类全新的交互体验:用户发出一个自然语言请求,模型不是直接返回一段答案,而是即时生成一个结构化的、视觉化的界面。 自动播放 Google 把这种能力分成两类实验形态:视觉布局负责“把复杂信息排版成一篇好读的杂志页”,而 Dynamic View 则直接生成可以操作的计算器、图形、模拟器、图廊甚至完整的小工具,让回答本身就变成一个“能动”的界面。这些体验已经开始在 Search 的 AI Mode 中出现,用户可以在搜索里直接见到动态布局、交互组件和实时模拟。 自动播放 与此同时,Gemini Agent 作为一项仍在实验阶段的能力,负责把这些“理解”和“界面”延伸到行动层面。在 Gemini App 中,它可以连接 Gmail、Calendar 等 Workspace 应用,自动为你整理邮箱、归类任务、提炼行动项,甚至根据邮件中的航班信息和预算需求,主动比较租车、预订酒店,再把决策节点交给用户确认。 自动播放 对开发者而言,Google Antigravity 则是另一个意义重大的新物种。The Verge 和 TechCrunch 的报道都指出,这个 IDE 本质上是一个“agent-first”的开发环境:多个 Gemini 3 驱动的代理可以同时在编辑器、终端、浏览器三处操作,生成代码、执行命令、打开网页、做验证,并把整个过程记录为 Artifact 供人类复盘。 自动播放 整条产品线串起来,会发现 Gemini 3 正在做一件非常有野心的事。 它试图把“答案”升级为“可操作的界面”,再进一步升级为“真实执行的行动”,最终把模型变成一个“能替你做完一件事”的系统,而不仅仅是一个“告诉你怎么做”的顾问。 Gemini 3 到底改变了什么? 从表面看,Gemini 3 只是把一堆 benchmark 刷到了新高,把搜索、App、IDE 同步做了升级;但如果把这些碎片放在一起看,就会发现它其实踩中了几个关键的技术与产品转折点。 第一,统一模型路线第一次有了清晰的技术样本。 过去几年,业界在多模态这件事上有一个隐形共识:想要图像强,就做一个图像向的专精模型;想要推理强,就做一个思考向的推理模型;想要 Agent 能力,就往工具调用上拼命堆安全与流程。结果就是,每条赛道上都有一些强模型,但真正能在同一个模型里把三件事都做好的,几乎没有。 Gemini 3 给出的答案是:不拆分、不堆叠,而是真正做一个原生多模态、原生推理、原生 Agent 的统一架构。也就是说,这不是“多模型拼盘”,而是一个统一心智在面对不同任务。 第二,“scaling law 撞墙”这句话,恐怕要重新讨论了。 过去一年,大家对于 scaling law 的悲观,主要来自两个现实:其一是预训练数据逼近上限,其二是参数继续往上堆却难以换来线性可感知的推理提升。但 Gemini 3 在 ARC-AGI、Humanity’s Last Exam 等极难基准上的跳跃式表现说明,真正起决定性作用的,很可能并不是“堆多大”,而是“结构、训练范式和任务设计有没有跟着一起升级” 第三,交互范式正在从“对话式 AI”迈向“界面式 AI”。 ChatGPT 把整个行业带入了“对话优先”的交互世界,大家开始习惯在一个大输入框里问所有问题。但 Gemini 3 的 generative UI、Dynamic View 等能力表明,谷歌相信的下一步,是让模型直接生成界面、页面、控制面板、模拟器,而不再把“答案”局限在一条条文本里。 自动播放 当模型可以根据你的问题即时构造出一个适配任务的 UI 时,人与 AI 的关系就从“问—答”变成了“设定任务—共同操作界面”。AI 不再只是在语言层面辅佐你,而是开始和你共享一个可操作的工作环境。 第四,谷歌拿到了Nano Banana之后又一次“产品侧翻盘窗口”。 OpenAI 在 GPT-5 / GPT-5.1 这一代上并没有像 GPT-4 那样形成压倒性优势,反而给了竞争对手喘息空间。而谷歌这次的打法非常明确:模型端用统一架构“屠榜”,产品端在 Search、Gemini App、Workspace、Antigravity 全线铺开,交互上又用 generative UI 和 Agent 拉开与传统对话式 AI 的差异。 如果这些能力在接下来半年到一年里持续稳定,不只是开发者,普通用户也会真切地感受到“这代产品不太一样了”。那时,谁在消费级 AI 上更有优势,很可能就要重新算账。 全面反攻——Google AI 战略的真正底牌 Google的转变并不是爆发,而是一次漫长沉淀后的结构性反攻。 在 Google 内部,“AI-first”已经不再是口号,而是一次痛下决心的自我改造。皮查伊多次在公开采访中强调:Google 正在进入“AI-first 的第二阶段”。这句话意味着公司核心身份悄然改变——它不再把自己视为一家搜索公司,而是要成为下一代计算平台的创建者。搜索、Android、Chrome、Workspace、YouTube、Cloud 等所有核心业务都在围绕 Gemini 重构,甚至连公司 2025 年接近 900 亿美元的资本开支,几乎都指向同一件事:为模型供电,为未来铺路。 组织结构上的调整是这次反攻的起点。Google Brain 与 DeepMind 的合并,让全公司的模型路线首次“统一指挥”。DeepMind CEO Demis Hassabis 负责整条模型主线,Jeff Dean 转向长期研究;所有顶级芯片、TPU 和工程资源开始向 Gemini 集中。这种集中让 Google 结束了过去那种“研究多、产品慢”的状态,第一次把十多年积累的基础研究能力真正整合成可落地的产品。Gemini 3 的推理能力、Veo 3 的视频建模、Nano Banana 的图像编辑、Genie 3 的世界模拟——这些并不是奇迹,而是论文体系第一次系统化落地。 更关键的是,Google 不再满足于“模型更强一点”,而是想重新定义用户与信息的关系。外界习惯把这场竞争描述为“Google 对 OpenAI”;但从 Google 的战略动作来看,它要的不是一个更强的 ChatGPT,而是一个新的入口体系。 Gemini Agent 成为新的工作入口,AI Mode 重塑搜索入口,Gemini App 成为移动入口,NotebookLM 成为知识入口,Veo 3、Nano Banana 是视觉内容入口,Genie 3 则是未来智能体训练的虚拟入口。Google 不准备围绕某个产品竞争,而是试图重构“AI 时代的操作系统”。 为什么 Google 这次变得如此激进? 答案很简单:这是一场生死局。AI 生成答案让搜索的护城河开始变薄,广告模式面临潜在风险,用户的第一触点也可能迁移到 AI 通道。如果不能重新定义入口,Google 的核心商业模式就会动摇。对于一个过去二十年靠搜索主导互联网的巨头来说,这不是“赢不赢”的问题,而是“能不能留在桌上”的问题。 也正因为此,Google 过去的谨慎正在被新的节奏所取代。内部开始出现跨部门座位混编的合作方式,搜索工程师与 DeepMind 的研究者一起调试 AI Mode,Android 团队与 Labs 共同推进 Gemini App 的 UI 迭代。曾经开放、松散、鼓励长期研究的文化,正在被一种更集中、更执行导向的节奏替代。甚至连高层人事安排也指向同一个方向——让更懂产品、懂用户、懂节奏的人接手关键业务。NotebookLM 背后的 Josh Woodward 接掌 Gemini,就是典型例子。 今天的 Google 不仅恢复了工程速度,也重新找回了“用产品定义技术”的能力。Gemini 3 让人看到它仍然具备构建顶级模型的硬实力;Veo 3、Nano Banana 证明 Google 在多模态领域依旧有别人无法复制的深度;Genie 3 则是 Google 对世界模型的押注,这些都是指向未来十年的关键方向。 未来的格局尚未定型,但有一点几乎可以确定——当一家公司同时掌握搜索入口、移动系统、浏览器、办公套件、云和世界模型,它一旦重新踩住节奏,力量会呈指数级回流。
阿里巴巴,做了个免费版的ChatGPT
在亚马逊、微软选择“退后一步”,让ChatGPT、Claude接入自家产品库时,阿里选择了一条更艰难的路:从底座到应用,全栈自研,并且,要做一个免费版的ChatGPT。 2025年11月17日,阿里正式宣布公测“千问”app。这款由原“通义”app和“夸克AI对话助手”升级而来的应用,明确对标ChatGPT最新版本,并接入了阿里通义实验室最新的Qwen 3 - Max模型。这是继AI基建、淘宝闪购之后,阿里在2025年打响的第三场集团级战略战役。 9月起,上百名工程师从各地被抽调,聚集在阿里巴巴西溪园区C4楼——高德“扫街榜”项目曾经战斗过的地方——进行封闭开发。最终,阿里巴巴集团CEO吴泳铭亲自拍板,确定了千问的战略地位:阿里巴巴必须要有一个AI原生的C端超级入口。 在科技巨头纷纷抢占AI高地的叙事里,阿里的转型决心和投入力度非常明显。在亚马逊、微软选择“退后一步”,让ChatGPT、Claude接入自家产品库时,阿里选择了一条更艰难的路:从底座到应用,全栈自研,并且,要做一个免费版的ChatGPT。 阿里的“阳谋”:为什么是千问?为什么敢免费? 过去一年,阿里在AI领域的动作更多集中在“云端”和“模型层”。入股多家大模型创业公司、阿里云加速增长、Qwen系列开源模型在多项测试中登顶——这些动作更像是在“修路”和“卖武器”。 千问的推出,意味着阿里正式从“军火商”走向“前线战场”。 「数智研究社」发现,阿里的技术底座已经成熟。 千问的底气,来自其背后Qwen大模型的硬实力。Qwen系列开源模型目前在全球的下载量已突破6亿次。英伟达CEO黄仁勋公开表示,Qwen已占据全球开源模型的大部分市场。Airbnb CEO布莱安·切斯基也称正“大量依赖Qwen”,因其“比OpenAI模型更快更好”。 当模型能力达到全球领先水平后,将其转化为C端产品,从“秀肌肉”变为“创造价值”,是顺理成章的一步。最关键的是,阿里打通了“Agent生态”。 千问要做的,不是一个“玩具”。一个阿里人士透露,团队花了大量时间处理内部业务的数据互通和授权能力。千问的定位是“能聊天、会办事”。“聊天”由Qwen大模型负责,“办事”则依赖阿里庞大的业务生态。据了解,千问项目团队正在联合高德、淘宝、支付宝、闪购等团队进行联合开发。 这意味着,千问的想象力不止于“P图”和“写周报”。它未来可以做到:当你问它“晚上想做个红烧肉”,它能自动调用淘宝闪购买好食材;当你让它“规划一次团建”,它能无缝调用高德、飞猪、支付宝,完成从出行、支付到购物的“全链路”任务。 与OpenAI的商业模式截然不同。OpenAI在基础设施上投入巨大,急需C端订阅费来“回血”。据报道,ChatGPT的C端付费贡献了其年收入的70%。 阿里不差钱。截至2025年二季度末,阿里手握的现金及各类投资总计高达5856.63亿元。阿里做千问,瞄准的不是每月几十块的订阅费,而是打造一个串联起阿里所有业务的“AI中枢”。千问是“入口”,它负责将用户“导流”至电商、支付、出行、外卖等核心业务。 这是阿里C端AI战略的一次关键“转向”。 过去一年,阿里AI to C的重任一度落在“夸克”身上。在智能信息事业群总裁吴嘉的带领下,夸克凭借“AI超级框”、“高考志愿大模型”等功能,日活跃用户增长至5000万-6000万量级。 但夸克的底色是“搜索”和“浏览器”,功能繁杂。一位千问团队人士表示:“随着AI能力提升,我们觉得对话式AI助手是更好的形式,接下来阿里会重点发展千问。” 这一定位意味着,阿里内部赛马已经结束。千问被确立为阿里AI超级入口的“主App”,而夸克则定位为AI搜索和AI浏览器,千问未来也会被置入夸克中。这套打法,与阿里在外卖战场上,用“淘宝闪购”统合“饿了么”的“团战”逻辑如出一辙。 入口之战:千问的“敌人”是谁? 阿里对AI的投入是巨大的。2025年2月,阿里宣布未来三年将投入超3800亿元建设云和AI基础设施。有阿里人士甚至透露,阿里对AI的投入有望提升到“万亿规模”。重金押注背后,是阿里对“下一个时代入口”的焦虑和渴望。 在国内战场,千问的“敌人”是字节跳动的“豆包”。 目前,国内AI原生应用的格局远未稳定,但“先发优势”已经出现。QuestMobile数据显示,2025年10月,在国内AI原生应用中,字节跳动的“豆包”DAU(日活跃用户)高达5410万,DeepSeek以2860万位列其后,腾讯元宝则为560万。 相比之下,升级前的“通义”app月活仅300万左右,与豆包不在一个量级。 国内AI C端入口的竞争,有两条截然不同的路径。一条是依靠抖音、微信这样的“国民级”流量生态,为其强行“漫灌”用户,配合不俗的体验,迅速做大用户规模的流量路线,代表玩家是豆包和元宝。另一条是依靠单一功能的极致技术口碑(如AI搜索),吸引核心用户,再图谋破圈的技术路线,代表玩家是DeepSeek。 千问的路径,则是“双线并行”。它既有Qwen模型的技术口碑,又有阿里系庞大的“流量池”。 但它也面临DeepSeek同样的困境。有报道称,DeepSeek的用户量从3月的1.94亿下滑至9月的1.44亿,原因可能是其功能过于单一。而豆包则依靠覆盖15个大类的“全能”形态,实现了反超。 千问显然也瞄准了“全能型”助手。它目前覆盖14个大类,并且正加速与阿里生态(购物、支付、导航)的融合。这场竞争,千问的窗口期并不长,它必须利用阿里“打团战”的优势,在功能和体验上迅速追平,再通过阿里系的流量入口实现“饱和式攻击”。 在全球战场,千问的终极对手,是ChatGPT和Gemini。 11月17日,千问app公测的同一天,其国际版也已在筹备中。OpenAI CEO奥尔特曼在10月披露,ChatGPT的全球周活跃用户已高达8亿,按此推算,其DAU至少在1亿以上,甚至接近2亿。 面对如此庞大的“原住民”,千问的挑战是巨大的。 核心的差异在“生态”。ChatGPT和Gemini诞生于一个“开放”的互联网,它们可以自由抓取全球网页的数据来训练。而国内互联网相对比较“封闭”,巨头们都把数据资产视为核心壁垒。 这既是阿里的劣势,也是阿里的优势。劣势在于,千问无法像谷歌一样“知道一切”。 优势在于,在阿里的“围墙花园”内——从淘宝的亿万级商品库,到高德的LBS数据,再到支付宝的信用体系——千问拥有一个ChatGPT和Gemini永远无法触及的、高密度的、结构化的“闭环商业数据库”。 千问团队人士也坦言,最大的挑战在于如何将阿里体系下“这么多Agent”有机且丝滑地串联在一起。 吴泳铭的判断很清晰,阿里必须拥有自己的C端超级入口。这场战役的级别,等同于几年前的“淘宝闪购”。在西溪园区C4楼里,那上百名封闭开发的工程师,背负的不仅是一个新App的KPI,更是阿里在AI时代能否抢到“船票”的未来。
史诗级宕机!CDN霸主Cloudflare全球网络崩了:OpenAI、X、Uber等平台服务瘫痪,集体失联
全球互联网遭“断联”惊魂。 亿欧11月18日消息,全球顶尖网络安全服务商CDN霸主Cloudflare突发大规模全球性网络故障,导致OpenAI(ChatGPT)、X(原Twitter)、Spotify、Uber等数十家国际顶级平台陷入服务瘫痪,数千万用户遭遇 “访问失败” 惊魂时刻。甚至连美国公共交通也受到此次事件波及。 截至美东时间早上6:41,故障监测平台Downdetector已收到X平台超过上万份问题报告,而 ChatGPT 在北京时间晚间九点仍有大量用户无法正常登录使用。 Cloudflare自身的故障状态页面一度完全无法打开,其客户支持门户也同步陷入瘫痪,导致用户与企业均无法获取官方实时通报。 多位海外朋友向亿欧表示,今天的宕机事件,“感受很明显”! 全球互联网遭 “断联” 惊魂 Cloudflare官方发言人表示,公司在周二一大早就观察到一项服务“异常流量激增”。主要问题表现为 "widespread 500 errors" 和"internal server error",这两大问题均直指服务器端错误,前者是大范围出现的500错误,后者是500错误的标准定义(即 “内部服务器错误”)。 援引CNBC消息,在Cloudflare网络修复过程中,Cloudflare表示它在英国伦敦禁用了WARP访问。对于那些试图通过WRP访问互联网的人来说,他们将无法连接。 作为全球网络的 “隐形守护者”, Cloudflare却频繁“翻车” 总部位于美国旧金山的 Cloudflare,是全球领先的 CDN(内容分发网络)与网络安全服务提供商,业务覆盖全球数十万家企业,扮演着网站与终端用户之间的 “安全缓冲器” 角色,核心功能是抵御 DDoS 攻击、保障网络访问速度与稳定性。 Cloudflare客户群体包括 10% 的财富 1000 强企业,服务覆盖全球 10 亿级 IP 地址,承载着全球互联网近 10% 的骨干网流量,堪称互联网基础设施的 “命脉级” 企业。近年来该公司积极布局 AI 领域,推出 NLWeb 协议与 AutoRAG 检索引擎,深度绑定 OpenAI 等 AI 巨头的服务分发网络。 作为全球网络的 “隐形守护者”,Cloudflare近年来却频繁“翻车”。 2019年7月,Cloudflare软件的一个漏洞导致其部分网络耗尽全公司计算资源,致使全球数千家依赖其服务的网站最长宕机30分钟。 2022年6月,Cloudflare再次发生故障,波及19个数据中心故障,导致多家主流网站和服务陷入瘫痪,此次事故造成 1.5 小时服务中断。 2025年3月,Cloudflare因密码轮换错误其R2对象存储及相关服务发生了一次持续1小时7分钟的中断事件,事情导致全球范围内出现100%的写入失败和35%的读取失败。 此次故障再次暴露其在高风险操作流程上的管控漏洞,未严格执行双重验证与分阶段部署机制。 截至发文,Cloudflare因此次宕机事件致股价大跌4.27%,市值蒸发30.24亿美金。 美国网络安全问题频发 无独有偶,10月20日,亚马逊云DNS发生故障,导致全球服务瘫痪。 据悉,亚马逊 AWS 云服务发生的重大故障,引发了全球混乱,导致全球多家公司的网络连接出现问题,多个热门网站和应用服务中断。 AWS在其状态页面更新中确认,美国东部的多项AWS服务中出现错误率上升和延迟增加的情况。网络故障追踪平台“网络探测器”显示,亚马逊的购物网站、视频服务以及语音助手同期均出现问题。
Gemini 3来了:忘掉聊天,一句话生成一个世界 (附与Gemini团队沟通实录)
Gemini3太强了。 11月18日,在所有人的期待中,Google的最新AI模型Gemini3正式发布。这次,一切都回到了Google的节奏。 彻底屠榜 这是一个几乎“屠榜”了所有评测集的模型,而且,请注意,是一个通用模型在细分评测上碾压了诸多“推理模型”、“多模态模型”等细分领域模型。 根据Google的介绍,Gemini 3 是一个有原生多模态、强大推理和Agent能力的模型。在硅星人参加的发布前小范围沟通会上,Gemini的团队强调这个模型的这些能力“不是分开的,是都在一处,都在一个模型里,你可以同时用这些能力”。 今天用来评测模型各种能力的榜单,被Gemini3刷到了离谱的新高。 在多模态能力上,它的理解和推理都达到新高度: Gemini 3 Pro以81%的MMMU-Pro分数和87.6%的Video-MMMU分数直接刷新了这个多模态推理的记录。 案例介绍:Gemini 3.0的视觉能力融入了推理,能主动解决不一致符号带来的歧义问题,对手写旧表格的 OCR 识别能力甚至优于受过训练的学生。 可能Gemini 3才真正第一次称得上是一个有多模态推理能力的模型。 Google展示了一个很有趣的用法:做一个等离子体流在托卡马克里的可视化展现,同时用一首诗来捕捉核聚变的美。 自动播放 在推理能力上: 它以突破性的1501分登顶LMArena排行榜。 它还在SimpleQA Verified上取得了72.1%的最新最优成绩,在事实准确性方面显示出巨大进步。这意味着Gemini 3 Pro在科学和数学等广泛主题上解决复杂问题时具有高度的可靠性。 它在"人类最后考试"上也展示了博士级推理能力(在不使用任何工具的情况下得分37.5%),在GPQA Diamond上获得91.9%的高分。它还在数学领域为前沿模型设立了新标准,在MathArena Apex上达到了23.4%的最新最优成绩。 自动播放 一个Prompt生成复古任天堂模拟器,自带游戏且无需外部素材,一分钟就能完成输出。 这还不算完,在深度推理模式Deep Think下,也就是让模型增加推理的token消耗和用更多时间去处理一些问题时,它在"人类最后考试"里,在不使用工具的情况下得分41.0%,在GPQA Diamond 得分93.8%。而在ARC-AGI上,它还取得了前所未有的45.1%的成绩(使用代码执行)。而已经很强的Gemini 2.5,这一项的得分只有: 4.9%。 在人人喊scaling law撞墙的今天,又搞出了十倍的提升。 而在Agent能力上: Gemini 3以1487 ELO分的成绩登顶WebDev Arena排行榜。它在Terminal-Bench 2.0上得分54.2%,该测试衡量模型通过终端操作计算机的工具使用能力,并且在SWE-bench Verified(76.2%)上大幅超越2.5 Pro,该基准衡量编码智能体的能力。 另外,Gemini的长上下文和推理的结合也有提升,在一个让AI模拟运营一个自动售货机,来考察它在agent场景的记忆能力的榜单Vending-Bench 2上,它也同样登顶——Gemini 3 Pro在完整的模拟一年的运营中保持了持续的工具使用和决策能力,在不偏离任务的情况下获得更高回报。 Google官方也展示了一个案例,当你要求它: "根据我邮件中的详细信息,帮我搜索并预订一辆下周旅行用的中型SUV,租金需控制在每天80美元以内。" 它在获得你充分的Google全家桶授权后,真的就完美帮你找到了这样一个服务,并放到你面前,你只需确认即可。 此次Gemini还推出了Agent模式,就是为了这样的场景,当你给他充分授权后,你能让AI把你一切的Google系产品都可以调用起来,完成复杂任务。 自动播放 看了这些榜单的情况,只剩下SWE-Bench Verified上,Claude Sonnet 4.5领先它1分,其他全部被它占了第一。 有人评论道:OpenAI and Anthropic are so over。 强大到开始全量铺开生成式UI 在Google自己看来,这些全面提升的能力有多强? 它已经足够强大到,让Google认为Gemini这个app必须更改自己的交互形态了。 Google这次给Gemini做了界面大更新。除了改变了页面设计,增加了更方便调用个人数据库的"我的资料"文件夹功能、“彻底改进了购物体验”,可以直接从Google购物图谱带来商品列表、比较表格和价格,该图谱包含超过500亿条商品列表等。最主要的,就是对输入输出的交互做了彻底改变。 什么“ChatGPT”式的一问一答,那是上个时代的做法,现在Gemini要直接给你全模态的可交互结果: “Gemini 3将突破界面设计的边界。它的推理和多模态能力已经解锁了一项我们称为生成式UI的新功能。 我们介绍一种新颖的生成式UI,它动态创建沉浸式视觉体验和交互式界面——如网页、游戏、工具和应用程序——而且这些界面自动设计并完全定制以响应任何问题、指令或提示。 这些提示可以简单到一个单词,或根据需要长而详细的指令。这些新型界面与AI模型通常渲染内容的静态、预定义界面明显不同。” 说的更直接一点,哪怕一个词,也能给你一个app。 比如,当你询问关于物理学里的三体问题(three body problem),你能得到一个可以交互的模拟界面,让你直接改变变量来观察结果。 自动播放 而这整个答案更像是一个有文字有图片还有3D可交互网页的独立web app。你甚至可以继续用自然语言开发下去最终把它变成你的一个项目。 目前,Gemini先提供了两个“实验性”功能选项——视觉布局(Visual layout)和动态视图(Dynamic View)。不过Google也表示,为了帮助了解这些实验,用户最初可能只看到其中之一。 而且这个新的交互方式也会在Google的搜索里上线。在搜索的AI mode里提问,也会给出类似一个可交互app的搜索答案。 自动播放 新的Dynamic View展示,当你只是问了一下梵高,就能得到一个完整可交互的界面供你探索 Google还为此发布了一篇论文。这意思似乎是向所有人喊话: 你们也跟上啊。 此次发布里,还有一个非常值得重视的举动是,这一次Gemini 3在第一时间就部署到了Google搜索上,而且包括这个还被称为实验性的生成式UI,也直接进入搜索的AI mode。 这说明什么? 说明这是一个在Google看来已经训练到十分稳定,可以直接放入主营业务产品,而不用担心有反噬的模型,而且,它还是一个遥遥领先,没有人再能随便狙击的模型,一个完全按Google自己节奏训练和应用的模型。 当如此谨慎的Google都在Gemini的介绍里大量的使用“any”,强调这个模型可以让任何想法变成产品时,你品,你细细品,它对这模型到底有多自信。 One more thing: 彻底让Agent来开发软件的“IDE”平台 Antigravity 而对于Google来说,似乎这些还不够,Google当天还顺带发了一个自己的全新“类IDE”Vibe coding产品,一个让Agent来主导软件开发全流程的平台——Antigravity 。 Google也不免俗的介绍了一句话开发的案例。 自动播放 你输入一个Prompt,就能得到一个完整的飞行追踪应用。但实现的过程正是不同所在,Antigravity是一个让Agent主导一切的环境,它为多个Agent做好了多个它们可以使用的工具和环境,包括编辑器、浏览器、终端等。 “Google Antigravity将AI助手从开发者工具箱中的工具转变为主动合作伙伴。虽然Google Antigravity的核心是熟悉的AI IDE体验,但其Agent已提升到一个专用界面,并可直接访问编辑器、终端和浏览器。现在,Agent可以在验证自身代码的同时,自主地为您同时规划和执行复杂的端到端软件任务。” Antigravity也集合了Google各个强大模型:“除了Gemini 3 Pro,Google Antigravity还与我们最新的Gemini 2.5计算机使用模型紧密耦合,用于浏览器控制,以及我们顶级的图像编辑模型Nano Banana(Gemini 2.5图像)。” 而且,Google又给这个产品带来一个疯狂的新能力:它会在和你的配合中,学习你的coding风格, 和你搭建框架的喜好,最终越来越像你...或者说,像一个更全能全栈工程师版的你... 如此高预期的模型,不仅没有让人失望,还带着惊喜一起到来。Google真的是强。 而且,Google势头也正猛。在硅星人参加的小范围提前沟通会上,Google也顺带公布了最新的用户数据: 从上一季度的4.5亿用户,猛增到了这季度6.5亿用户。1300万开发者在用Gemini等Google的模型开发,而本季度的日常调用也同比翻了3倍。 据Gemini团队透露,过去一季度的增长很大程度归功于Nano Banana。 要知道,Nano Banana 2 也在传闻中,排队等待Google的发布......不得不感慨Google的工具箱里,武器实在太多了。 ———————————— 在此次发布前,我们也有机会与Google Gemini团队交流,以下为沟通实录: 硅星人:能否分享一下在训练这个新模型过程中的一些"Aha moments"? Gemini团队:这是个有趣的问题,因为我认为在使用这个模型时,有很多时刻你能真正感受到它的推理能力,也能感受到它在多模态能力上的强大。我想指出几个时刻。第一个是我第一次用它进行氛围编码(vibe coding)的时候。令人惊艳的是,它仅凭非常简单的提示就能创造出各种游戏。能够在那个环境中创建3D可视化并玩一个真正的游戏,我觉得太棒了。 实际上,我们的一位工程师一直在用它来创建游戏,这些游戏明天就会在YouTube上发布,因为你可以用这些游戏创造出如此丰富、高保真的体验,我觉得这太棒了。另一个我认为我们不常谈到的"顿悟时刻"是该模型在多语言性能上的强大。 对我来说,特别有趣的一点是,拿一首用古吉拉特语写的诗——我父母从小说的语言——不仅进行翻译,还在此基础上进行创作。你能看到模型的细微差别、创造力和写作风格。我认为那也是另一个让我感叹"这个模型非常聪明,能够将多个要素融合在一起"的时刻。我觉得真正酷的是,当你找到这些时刻,你可以将多模态输入、复杂的推理问题,以及你希望看到的输出格式结合起来。我认为这时你才能真正看到Gemini 3的魔力显现。 问:你会如何描述AntiGravity在当前生态系统中的定位? Gemini团队:这是个好问题。先提醒一下,我认为AntiGravity会非常令人兴奋。大语言模型和AI确实改变了我们的编码方式,使我们软件工程师能够保持在一个非常高的层次上,借助智能体的帮助处理真正复杂的任务,这样你就可以专注于最终目标,并更快地达成。 所以AntiGravity真正构建在此基础上,构建在模型的能力之上。这是一个新的IDE。市场上也有其他IDE,需要明确的是,我们的模型在多个IDE中以及通过API供开发者继续使用。但AntiGravity将给我们提供另一种与开发者接触的方式,了解他们的用例,了解那些真实世界任务和挑战,然后帮助我们改进模型,通过成为这种以智能体为中心的IDE,为他们提供最佳体验。我认为这将对软件开发带来一点全新的思路。 问:对于消费者来说,你期望Gemini智能体有哪些使用场景? Gemini团队:我们希望帮助人们应对生活中遇到的更复杂的任务。我个人在几件事上正在使用它:首先,如果我要找演唱会门票之类的,不用再自己去搜索所有不同选项,为带两个孩子的家庭找到合适的套票,我可以让智能体去完成,它会找到合适的配置,并带我到达可以购买的那一步,然后我只需点击一个按钮就能继续完成购买。 另一件我觉得很酷的事是使用智能体模式来帮你分类处理邮件收件箱。我开始每天早上这么做:我醒来有50封邮件,要花很长时间逐一查看并决定怎么处理。我可以使用智能体模式来帮我处理这些,它会告诉我:这里有你需要完成的任务、这里有你需要回复的邮件、这些是可以归档的。这真的为我节省了大量时间,我非常兴奋能让更多人使用到这个功能。 问:随着Pro版本发布,我们能期待Flash和Flashlight很快推出吗? Gemini团队:是的,我的意思是,我们确实希望构建Gemini 3模型家族。这是我们首要考虑的。 我们感到兴奋的是,看看对Gemini 3 Pro的反馈如何?人们用它做什么?我们在哪里看到机会?然后当我们思考完整的模型家族,思考Flash和Flashlight时,我们首要考虑的是如何构建这个主力模型?合适的成本和延迟应该是怎样的?我们如何思考正确的使用场景?所以我们会继续利用Pro版本的反馈来确保我们能够持续构建。你们很快就会看到我们推出更多产品。 问:Gemini应用最近用户增长显著,团队在此期间做了什么来如此快速地加速采用? Gemini团队:一个主要因素是我们在Nano Banana上看到的病毒式传播,特别是在泰国、印度尼西亚、印度等国家。显然,这是一个极其成功的产品,很多人都想玩一玩。如果你看到那些手办潮流和许多其他人们真正想参与并分享给朋友的东西。 我们也对我们与GEO的合作以及我们为学生提供的优惠感到非常兴奋。我们看到学生群体中有很多使用热情,他们真的很想用Gemini来帮助完成作业和课堂学习材料。 最后我想说的是,模型质量真的非常重要。我们在2.5 Pro上看到了这一点,我们也很期待看到人们将如何使用Gemini 3。 问:你们是否在用AntiGravity与Cursor等工具竞争?这是企业最大的使用场景之一吗? Gemini团队:非常感谢。这是个好问题。我不会这样看待它。这次发布中,我们实际上正在与Cursor进行非常紧密的合作。我们在许多不同行业都有许多合作伙伴,并与他们密切合作。对我们来说,在用户所在的地方触达并连接用户非常重要。 AI开发以及AI如何影响不同领域和行业也还处于非常早期的阶段。我认为这对我们来说能够进行实验也很重要。我相信会有其他人也在实验,每个产品本身也会不断发展,对吧?我们将通过我们的模型和许多其他想法继续与Cursor保持紧密合作。除此之外,我想我们对AntiGravity将创造的接触点也感到兴奋。 问:AI行业有声音称迭代速度已放缓,扩展定律已失效。但Google的大模型似乎取得了显著进展。到目前为止,你对大模型的迭代速度以及技术是否还能做到这一点有什么看法? Gemini团队:这是个好问题。当然,关于这方面的讨论有很多。我认为,当我观察AI领域时,我看到了很多进展,而且进展速度非常快。我认为最好的观察方式是AI领域总体上对许多不同行业产生的影响。你可以看到这一点在越来越多的不同职业中发生。人们正在使用AI模型来帮助他们的工作。学生正在使用AI模型来帮助他们的作业。 或者我们在日常生活中使用这些模型来了解事物,了解我们好奇的事物,想了解更多的东西。所有这些方面,模型在我们的日常生活中变得越来越有影响力。所以我认为进展非常快。当我观察我们自己模型能力的进展时,我认为我们看到非常令人兴奋的进展正在发生。 我认为有时候,并不总是全新的能力出现,而是模型所使能的能力。你能做什么新事物?从模型开发的角度来看,当我们观察预训练、后训练时,我们看到各方面都有相当令人振奋的发展。我认为随着我们了解更多,随着我们与用户进行更多互动,这将继续一段时间,这对我们来说非常重要,能够通过我们的产品进行这个开发周期,触达我们的用户。我们将更多了解他们的需求在哪里,他们对什么感兴趣,他们想学什么,这将引导我们引入新能力并构建技术。
谷歌深夜炸场:Gemini 3正式发布!自ChatGPT发布以来最激动人心的事件
刚刚,谷歌Gemini 3正式发布,我的初步体验和第一感觉是这玩意完全超越GPT-5 和 Claude sonnet 4.5,强到离谱,编程和写作都达到了T0级别,可以说这是自从OpenAI 发布ChatGPT以来,最令我心跳不已的事件,现在就可以在Gemini App和 Google AI Studio中使用了 随手测试:直接看效果(更详细的测试随后几天奉上) 1.制作速度可调的电风扇svg 2.模拟弹力球从空中一层一层掉落并弹起的物理过程(目前我测过的只有Claude sonnet 4.5可以抽卡成功) 3.模拟核聚变过程并添加背景乐(这个是复现谷歌官方的) 官方的发布核心信息要点: 谷歌官方把Gemini 3定义为“通往AGI之路的又一大步”。它不仅在多模态理解上全球领先,更是谷歌迄今为止最强大的Agent(智能体)和“Vibe Coding”模型。 此次发布包含两个核心版本:Gemini 3 Pro(即日预览上线)以及增强推理模式的Gemini 3 Deep Think 与此同时,谷歌宣布Gemini 3即刻全面接入谷歌生态——从Search(搜索)到AI Studio,再到全新的Agent开发平台Google Antigravity 一起来看Gemini 3到底有多强。 数据屠榜:LMArena突破1501分 Gemini 3 Pro主打深度推理和多模态能力,在每一项主流AI基准测试中都大幅超越了Gemini 2.5 Pro 推理与数学: LMArena Leaderboard:以1501 Elo的突破性得分登顶。 Humanity’s Last Exam(人类最后一次考试):在不使用工具的情况下得分为37.5%,展现出博士级推理能力 GPQA Diamond:得分91.9% MathArena Apex:达到23.4%,确立了前沿模型在数学领域的SOTA(State-of-the-art)新标准 多模态与事实性: MMMU-Pro:81%。 Video-MMMU:87.6%,重新定义多模态推理。 SimpleQA Verified:72.1%(SOTA),在事实准确性上取得重大进展。 官方强调,Gemini 3 Pro不再是简单的问答,而是能够理解语境和意图,“不仅能读懂文字和图像,更能读懂空气(reading the room)”。它可以摒弃陈词滥调,提供真知灼见,甚至能通过生成代码将晦涩的科学概念转化为高保真的可视化效果 Deep Think模式:推理能力的阶跃 除了Pro版本,谷歌还祭出了大杀器——Gemini 3 Deep Think 这是一种增强推理模式,旨在解决最复杂的难题。测试数据显示,其性能进一步超越了本就强悍的Pro版本: Humanity’s Last Exam:41.0%(无工具) GPQA Diamond:93.8% ARC-AGI-2:取得了前所未有的45.1%(含代码执行,ARC Prize Verified),证明了其解决新颖挑战的能力。 Deep Think模式将在未来几周内向Google AI Ultra订阅用户开放。 Google Antigravity:重塑开发者体验 随着Gemini 3的发布,谷歌推出了全新的Agent开发平台——Google Antigravity 这不只是一个AI IDE,它将Agent提升到了核心地位 自主权:Agent拥有对编辑器、终端和浏览器的直接访问权限 能力:利用Gemini 3的推理和工具使用能力,Agent可以自主规划并执行复杂的端到端软件任务,同时自我验证代码 模型组合:该平台不仅集成了Gemini 3 Pro,还紧密耦合了最新的Gemini 2.5 Computer Use模型(用于浏览器控制)和顶级图像编辑模型Nano Banana(Gemini 2.5 Image)。 在编码能力基准测试中,Gemini 3同样表现出色: WebDev Arena:1487 Elo,位居榜首。 SWE-bench Verified:76.2%,大幅超越2.5 Pro,这一项没有超越Claude sonnet 4.5 Terminal-Bench 2.0:54.2%,展示了通过终端操作计算机的能力。 全能助手:从学习到规划 Gemini 3不仅面向开发者,更旨在帮助普通用户“学习、构建和规划一切”。 学习(Learn): 利用100万token的上下文窗口,它可以综合处理文本、图像、视频、音频和代码 示例:它可以解读不同语言的手写食谱并整理成家庭烹饪书;通过分析匹克球(Pickleball)比赛视频,生成针对性的训练计划。 搜索进化:在Search的AI模式中,Gemini 3支持生成式UI体验,能根据查询即时生成交互式工具和沉浸式视觉布局 规划(Plan): Gemini 3在长时程规划上取得了长足进步 Vending-Bench 2测试: 该测试要求管理模拟自动售货机业务。Gemini 3 Pro在全年的模拟运营中保持了一致的决策力,未偏离任务,并带来了更高的回报,位居榜首 这由意味着它能更好地处理预订服务、整理收件箱等现实生活中的多步骤工作流 谷歌宣布,这是首次在发布首日就将新一代Gemini模型引入搜索(Search)。 具体推出计划如下: 普通用户:Gemini App及Search中的AI模式(针对Google AI Pro和Ultra订阅用户)即日起可用 开发者:通过Google AI Studio、Google Antigravity、Gemini CLI及Vertex AI访问 企业用户: 通过Vertex AI和Gemini Enterprise访问。 Deep Think模式:需等待安全评估,预计数周后向Ultra订阅用户开放。 劈柴哥表示,过去两年,AI Overviews月活已达20亿,Gemini App月活超6.5亿。Gemini 3的发布,标志着谷歌以“全栈式AI”策略,正式将Gemini部署到了谷歌的每一个角落。
一文详解|Gemini-3,及配套的Antigravity、Gemini CLI、生成式 UI、Otter、Firebase..
Gemini 3 封神了,纯粹的强大 奥特曼发来贺电(说个八卦:Logan 以前是跟 Sam 的) 写这篇文章前,我把这段 Prompt 扔给了刚发布的 Gemini 3 Pro Prompt: 「编写一个单文件 HTML 的拟真 GBA 模拟器,使用 CSS 绘制精致的紫色机身。游戏内容为《口袋妖怪》中文版回合制战斗(皮卡丘 VS 妙蛙种子),需引用 GitHub 原版像素素材并使用 Web Audio 合成音效」 没有多轮对话,它吐出了一个完整的项目 自动播放 当然...世界还可以更癫狂,这个小学生练字 依然是一键出的 自动播放 还有这样的、更离谱的例子,来自 twitter 自动播放 @YiTayML 自动播放 @skirano 当然了,你的提示词也不必是文字 自动播放 而下面这个,来自设计师藏师傅,:大厂前端,看着设计稿,figma 设计稿,他能写成这样,第一次走查的时候能写成这样,我就烧高香了 这就是今天凌晨,Google 发布的Gemini 3 。当然也不止这个哈基米3 • Gemini 3 Pro:地表最强模型,支持多模态推理、长上下文、Agentic Coding • Google Antigravity:一个原生支持 Agent 开发的平台,管理 Agent 干活 • Generative UI:在 Google 搜索中,直接生成交互界面 • 全线落地:Android Studio、Firebase、Gemini CLI 全部接入,价格极其激进 自动播放 实打实的数值怪 先看下跑分吧,Gemini 3 Pro 在 LMArena Leaderboard 拿到了 1501 Elo,断层领先 LMArena 大模型竞技场 在各种榜单中,也是全面超越之前的王者 Gemini 3 跑分对比图 同时的,对于更长时间跨度的规划能力,Gemini 更是遥遥领先,比如这个 Vending-Bench 2 这个测试(你可以叫他做生意榜单) Vending Bench 2 为了支撑这种执行力,Google 将思维链(Chain of Thought)做了产品化封装,引入了 Deep Think(深度思考) 模式: • Thought Signatures(思维签名):API 返回中包含加密的“思维过程”,模型在输出前会多步推理、反思、验证。这解决了长链路逻辑中模型容易“想偏”的问题 • Thinking Levels(思考等级):开发者在 API 中配置模型“想多久”。对于简单任务选择快速响应,对于复杂逻辑选择深度思考 思考的结果 效果立竿见影: • 在 Humanity’s Last Exam(人类终极考试)中,开启 Deep Think 模式后,Gemini 3 Pro 的得分从 37.5% 飙升至 41.0% • 在 GPQA Diamond 测试中更是达到了 93.8%。这是在没有任何外部工具辅助下,纯粹依靠模型推理达到的高度 Coding 工具 最近流行一个词:Vibe Coding,你只需要描述你想要的“感觉”(Vibe)和功能,模型就能把它实现出来 目前,Gemini 3 Pro 也是最强的 Vibe Coding 模型 遥遥领先 更牛逼的是,Google 还为此交付了两套重型生产力工具,Google Antigravity 和 Gemini CLI 全新的 Google Antigravity Antigravity 这东西的定位,是 Agent 时代的 IDE,如果 VS Code 是为“人”设计的,Antigravity 就是为“人 + Agent”设计的 自动播放 Antigravity 作为一个全新的开发平台(MacOS/Windows/Linux 预览版),它的底层逻辑完全不同于传统 IDE: • 任务导向(Task-Oriented):操作单元从“文件”变成了“任务”。开发者在 Inbox 中下发需求 • 多 Agent 协同:系统支持多 Agent 并行。左边开 Agent 写前端,右边开 Agent 写后端测试,中间 Agent 查文档 • 自主权(Autonomy):Agent 拥有编辑器、终端、浏览器控制权。它写完代码,自动跑终端,自动开浏览器测试,报错自己修 • Artifacts(产物):Agent 交付的不仅是对话,它生成标准化的“产物”——任务列表、实施计划、截图、代码变更 你成了 AI 的老板,去 Review 它的计划,批准它的操作,验收它的成果 更新的 Gemini CLI Gemini CLI npm install -g @google/gemini-cli@latest Gemini CLI,可以理解为 Google 家的类似 Claude Code/ OpenAI Codex,一个命令行 AI 工具: • 自然语言转 Shell:输入 gemini "找出上周我改坏的那个 git commit",它会自动解析并执行 git bisect 流程 • 系统级操作:它可以读写本地文件,重构代码,甚至通过视觉能力,解析图片并生成工程文件 Case: 官方演示中,开发者让他来做个3d的金门大桥,于是...就做好了 自动播放 Generative UI:搜索即应用 Google Search 迎来了交互层面的重大升级 自动播放 过去用户搜索“房贷计算器”,得到的是十个链接。现在 Gemini 3 在 AI Mode 下,现场为你写一个计算器 这被叫做 Generative UI(生成式用户界面): • 动态生成:模型根据具体问题,实时编写 HTML/JS/CSS,并在前端直接渲染交互组件 • 千人千面:用户问“比较 A 和 B 两款车”,生成的是静态对比表;用户问“买哪款更划算”,生成的是可筛选、排序、高亮的交互决策工具 • 复杂模拟:用户问“三体引力如何作用”,模型直接生成物理模拟器,用户可以拖动星球观察轨道变化 话说,你觉得 Google 是不是看了我去年的文章啊 AI 的输出,不应是千篇一律的答案,而应像变色龙般适应环境。在手机上它是简洁的决策助手,在电脑前它是全面的分析工具,在嘈杂环境它侧重视觉,在运动场景它善用声音——始终以最适合当下场景的方式传递信息。 金色传说大聪明,公众号:赛博禅心人类的认知协议 全栈生态:Android Studio 与 Firebase Google 最核心的优势,是其庞大的开发者基建,Gemini 3 这次完成了对 Google 开发生态的底层覆盖。 Android Studio "Otter" 在最新的 Android Studio Otter 版本中,Gemini 3 Pro 被集成进了 IDE 的核心工作流,被称为 Agent Mode(代理模式) Agent Mode 超越代码补全,你可以直接下达“重构登录模块以支持新的鉴权协议”这类模糊指令,Gemini 3 会分析整个项目结构,定位相关文件,并执行跨文件的代码修改。 生产级环境 为了支持 Agent Mode 的高频调用和长上下文需求(最高支持 100 万 Token),Google 允许开发者在 IDE 中直接绑定个人的 Gemini API Key 企业级管控 对于团队用户,IT 管理员现在可以通过 Google Cloud 控制台统一配置 Gemini 3 的访问权限,确保代码隐私符合企业合规要求 Firebase AI Logic 过去,移动端开发者要接入大模型,通常需要自己搭建后端服务来转发请求(以隐藏 API Key 并处理鉴权)。Firebase AI Logic SDK 的发布改变了这一架构 Serverless 直连 开发者现在可以通过 iOS、Android、Flutter 或 Web 的客户端 SDK 直接调用 Gemini 3 Pro Preview。Google 在 Firebase 层面托管了鉴权逻辑,开发者无需维护中间层服务器即可安全访问模型。 新增 Thought Signatures 字段 SDK 会自动处理加密的 thought_signature 字段,确保在多轮对话中,模型能够“记住”之前的推理路径。开发者无需手动解析或传递这些复杂的上下文数据,SDK 会在底层自动维护对话状态 Firebase App Check 防止 API 被未授权的客户端滥用;同时支持 Remote Config,允许开发者在不发版的情况下动态调整 Prompt 或模型参数。此外,Google 提供了专门的 AI 监控仪表盘,用于实时追踪 Token 消耗、延迟和错误率 硬参数:价格与规格 没有废话,直接看数字 模型版本 gemini-3-pro-preview 上下文窗口 上下文:100 万 Token 最大输出:64k Token 价格策略: • 输入:$2.00 / 100 万 Token • 输出:$12.00 / 100 万 Token 适用于 200k 以内的上下文 多模态 原生支持文本、图像、音频、视频、PDF 可用性: • 开发者:Google AI Studio / Vertex AI 现已开放 • 企业用户:Gemini Enterprise 集成 • 普通用户:美区 Google AI Pro/Ultra 订阅用户可在 Search 和 App 体验 总结:Google,牛逼!

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。