行业分类:
加载中...
头条分类:
加载中...
奥特曼、艾维透露OpenAI神秘AI硬件新进展:原型有了 两年内生产
奥特曼与艾维 凤凰网科技讯 北京时间11月25日,据科技网站9to5mac报道,OpenAI与苹果前首席设计官乔尼·艾维(Jony Ive)合作的神秘AI硬件有了最新消息。这款硬件已经有了原形品,有望在两年内生产。 乔布斯遗孀劳伦娜·鲍威尔·乔布斯(Laurene Powell Jobs)旗下慈善机构艾默生集团(Emerson Collective)在周一举办了展示日活动。OpenAI CEO萨姆·奥特曼(Sam Altman)、艾维以及劳伦娜在台上进行了一场对话。 奥特曼和艾维在这次活动上略微分享了他们的合作成果。两人表示,他们已经拥有了首批AI硬件原型,并预计将在不到两年的时间内开始生产。 “我们终于做出了首批原形品,”奥特曼表示,“我简直无法相信它是如此精妙,令人兴奋。不过,现在回过头来看整个开发进程,可以看到所有要素都融入其中了,任何其他途径都难以达到这般效果,最终才孕育出了这个非凡成果。” 当劳伦娜追问设备何时能投入生产时,艾维信心十足地表示,产品将在两年内准备就绪。不过,目前还不清楚这款硬件的外观和功能。 但是,奥特曼指出,iPhone的体验就像走在时代广场上一样,会产生各种分散注意力的干扰。他随后提到,iPhone是他唯一真正喜爱并使用的产品。他希望OpenAI的硬件能够重拾被iPhone消磨掉的一些本真。 与此同时,艾维特别指出,陶瓷是他欣赏并希望未来能更多运用的材质。苹果目前的手机采用的是新一代超瓷晶面板。 OpenAI与艾维设计团队的正式合作消息在今年5月公开,但艾维早在一年前就确认了自己与OpenAI的合作。自那以后,外界唯一了解到的信息是,这支团队正在开发一系列没有显示屏的产品。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
苹果罕见裁员、销售部门成重灾区 官方回应
苹果 凤凰网科技讯 北京时间11月25日,据彭博社报道,苹果公司罕见采取裁员行动,裁撤了数十个销售岗位,以精简面向企业、学校和政府机构的销售渠道。 据知情人士透露,苹果管理层在过去几周内已通知受影响的员工。此次裁员覆盖整个销售部门,其中一些团队受冲击尤为严重,但公司没有告知员工具体有多少岗位被裁撤。 受影响的职位包括为大型企业、学校和政府机构服务的客户经理,以及负责运营 苹果简报中心的员工。这些中心通常用于机构客户会议并向潜在的大客户进行产品演示。 苹果周一证实,正在对该部门进行重组,但未提供具体细节。“为了触及更多客户,我们正在对销售团队进行一些调整,这将影响到少量岗位,”苹果称,“我们仍在继续招聘,受影响的员工可以申请新的职位。” 对于苹果来说,在整个部门范围内进行裁员并不常见,这次裁员也让受影响的员工感到意外。在公司营收正以多年来最快速度增长之际,苹果此举尤其引入关注。苹果有望在12月季度实现接近1400亿美元的营收,打破其此前的纪录。 在内部,苹果将此次裁员定位为精简销售团队、消除职责重叠的一项努力。但一些受影响的员工表示,此举实际上是为了把更多销售转移给第三方经销商,也就是苹果所称的“渠道”(the channel)。他们说,一些机构客户更愿意与这些间接销售商合作,而这种调整也有助于苹果降低内部成本,例如薪资。 此次裁员涉及资深经理,某些情况下甚至包括在苹果工作了20年或30年的员工。其中一个主要裁撤目标是:负责与包括美国国防部和司法部在内的政府机构合作的政府销售团队。 该团队早已面临艰难处境。此前,他们经历了美国政府长达43天的停摆,以及政府效率部出台的削减开支措施所带来的压力。政府效率部一直试图大幅削减政府预算。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
爆款,也救不了爱奇艺了
“爆款也救不了爱奇艺了。” 11月18日,当爱奇艺交出一份净亏损2.49亿元的三季报时,这句话成为了市场最沉重的注脚。 2025年,爱奇艺并非没有努力。暑期档的《朝雪录》、《生万物》热度值双双破万,后者更是创下了央视八套的收视新高。然而,这些“爆款”并未能转化为真金白银的利润。财报显示,爱奇艺三季度营收66.8亿元,同比下滑8%;净利润从去年同期的盈利2.29亿元,骤降至亏损2.49亿元。 这不仅是爱奇艺一家的困境,更是整个长视频行业的集体迷茫。 在短视频如火如荼的攻势下,广告主正在加速“变心”,将预算从长视频平台撤离。而爱奇艺试图通过提高会员价格来维持增长的策略,却加速了会员的“出逃”,陷入了“涨价-流失-亏损”的恶性循环。 虽然爱奇艺正在拼命通过AI、出海、微短剧甚至线下乐园来寻找第二曲线,但目前来看,这些新故事还远未到撑起大局的时候。 广告主“变心”,爆款难敌“寒冬” 长视频的“冬天”,比预想中来得更冷一些。 爱奇艺三季度的财报中,最刺眼的莫过于广告收入的滑坡。当季,其在线广告服务营收为12.4亿元,同比下滑7%。 这并非偶然。在短视频平台变现效率更高、转化链路更短的诱惑下,广告主正在集体“变心”。 据QuestMobile数据,奢侈品牌古驰在2025年5月增加了在抖音、微信等平台的投放,硬广曝光量和私域流量均实现了环比超70%的增长。相比之下,长视频平台的品牌广告投放显得“性价比”不足。 更具对比性的是B站。三季度,B站广告收入同比增长23%至25.7亿元,规模已是爱奇艺的两倍。B站凭借游戏、数码等多元化客户结构和高复购率的社区生态,成功从广告主口袋里掏出了更多的钱。 而爱奇艺依然高度依赖快消等传统“大金主”。当伊利、蒙牛等头部乳企开始控制预算,并转向小红书、抖音时,爱奇艺的广告大盘便不可避免地承压。 比广告下滑更让人焦虑的,是“爆款”效应的失灵。 2025年,爱奇艺在内容端其实并不弱。《生万物》在央视的热播证明了其内容质量,《唐朝诡事录之长安》的口碑也相当不俗。 然而,这些爆款并未能挽救会员业务的颓势。三季度,爱奇艺会员服务营收42.1亿元,同比下滑4%。也就是说,单纯的内容爆款,已经难以驱动会员规模的持续增长。 这一方面是因为长视频内容的“边际效应”在递减,用户不再因为一部剧就轻易买单。另一方面,爱奇艺的涨价策略正在遭遇反噬。 近年来,爱奇艺多次上调会员价格,并推出了限制投屏等一系列“防守型”措施。这些举措虽然在短期内提升了ARPU值(每用户平均收入),但也严重伤害了用户体验,导致会员流失。腾讯视频三季度付费会员数同比环比双降,也印证了这一行业性的增长天花板。 当爆款无法带来增量,涨价又导致存量流失,爱奇艺的核心商业模式——“内容+会员+广告”的铁三角,出现了裂痕。 苦寻第二曲线 面对长视频困局,爱奇艺正在进行一场全方位的突围。从AI技术到微短剧,从出海到线下乐园,爱奇艺试图讲出“新故事”。 面对短视频的降维打击,爱奇艺选择了“打不过就加入”。三季度,爱奇艺推出了“微剧场”和“短剧场”,并大力扶持微短剧内容。财报显示,微剧会员收入环比增长了140%,成为仅次于长剧集的第二大内容类型。 然而,微短剧赛道早已是一片红海。抖音、快手、腾讯视频均已重兵布局,且拥有更强的流量分发能力。爱奇艺作为一个长视频平台,想要在碎片化的短剧市场分一杯羹,面临着用户心智和流量获取的双重挑战。 海外业务是爱奇艺财报中为数不多的亮点。三季度,爱奇艺国际版会员收入同比增长超40%,泰语剧集《灵魂重生》等内容在东南亚市场取得了不错的反响。 但“远水解不了近渴”。海外市场的基数较小,且运营成本高昂(翻译、配音、本地化推广)。奈飞的经验表明,全球化扩张需要巨大的资金投入和漫长的培育期。对于目前现金流并不宽裕的爱奇艺来说,海外业务短期内难以成为利润的支柱。 爱奇艺CEO龚宇在财报会上高调宣称,要投入最大力量用AI做创新。公司在虚拟制作、AI搜索、生成式广告等方面进行了尝试。 但AI目前更多体现在“降本”层面(如提高制作效率),在“增收”层面尚未看到实质性的突破。相比之下,腾讯视频、优酷等竞对也在AI领域重金投入,技术本身很难成为爱奇艺的独家护城河。 此外,爱奇艺还在布局线下乐园业务,扬州和开封的项目正在建设中。这被视为IP变现的一环。然而,线下重资产运营的风险和周期,与互联网轻资产模式截然不同。在迪士尼、环球影城等巨头林立的文旅市场,爱奇艺乐园能否突围,仍是一个巨大的问号。 2025年的爱奇艺,正处在一个青黄不接的尴尬时刻。 旧的增长引擎(长视频会员+广告)正在熄火,新的增长引擎(微短剧、AI、出海)尚未发动。 虽然“广电21条”等政策利好为行业松了绑,但商业模式的根本性困境依然存在。对于爱奇艺而言,如何在“寒冬”中活下去,并找到真正可持续的盈利路径,比制造下一个“爆款”更为紧迫。
为美国监视中国?光刻巨头辟谣
全球半导体制造设备巨擘,荷兰的光刻机设备巨头ASML近日被一本新书揭露曾做出惊人提议,就是在违反美国和荷兰达成的对中国光刻机销售限制后,ASML曾经向美国政府表示,愿意做为美国在中国的耳目,刺探其中国客户的内部发展情报。 这项指控来自前彭博记者Diederik Baazil和Cagan Koc所撰写的新书《世界上最重要的机器》(De belangrijkste machine ter wereld)。 ASML 的发言人已对此提出否认,称书中对该公司的描述是错误的,不准确的。 报道引用新书的说法指出,这场争议的核心源于荷兰与美国之间就限制半导体技术流向中国所达成的协议。内容指出,荷兰与美国于2023年1月达成一项协议,要求荷兰从2023年9月起,停止向中国销售和出口深紫外光(DUV)光刻机,并计划在2024年1月全面实施禁令。 至于,极紫外光(EUV)光刻机则是在此前早已被禁止销往中国。 在过渡期间,美国与荷兰两国之间存在一项协议,那就是限制ASML只能运送其有合约义务的有限数量的DUV机台,但停止进一步的销售行为。 然而,这本新书指出,ASML CEO Peter Wennink涉嫌在过渡期内售出了比合约更多的DUV机台,这行为公然打破了美国与荷兰两国之间的协议。 而ASML的行为引起荷兰政府强烈不满。 荷兰前首相Mark Rutte当时告知Peter Wennink,该公司正冒险进入危险境地。 他进一步表示,荷兰政府对此感到被误导和羞辱。 美国方面则要求ASML必须重新赢回其信任,并强调恢复信任符合该公司的最佳利益。 因此,面对美国对ASML服务已部署在中国的设备可能实施的禁令,Peter Wennink据称提出了ASML应被允许继续向其中国客户提供服务。 但同时,公司的工程师需汇报这些中国公司内部的发展状况。 书中指出,ASML 的员工拥有独特的机会来获取情报,因为他们经常进入中国的晶圆厂(fabs),并与中国工程师频繁合作,这使他们对中国客户内部发生的情况有其独到的洞察。 一位美国高级政府官员在书中被引述称,ASML可以成为华盛顿在中国的耳目。 而若此说法属实,这一情况与通常担忧政府胁迫公司泄露数据的做法相反,而是公司主动提供客户数据,可能对ASML的声誉造成极大损害。 报道表示,ASML 虽然生产着世界上最先进的光刻机,但它必须维持其可信赖的声誉。若客户担心他们的商业机密会被泄露给公共或私人实体,他们可能会被迫寻找替代方案。此外,任何公司向任何实体,其中包括国家政府提供客户数据的行为,都可能违反多项数据隐私法规,并背叛公众信任。 对此,ASML 发言人已经对外澄清,否认了曾做出为美国刺探中国客户的提议,坚称这是两位作者在书中的叙述错误。 从 ASML 近期的一系列动作不难看出,其对中国市场的重视程度不言而喻 —— 不仅针对中国芯片制造企业的需求,推进 DUV 光刻机的技术适配与性能优化,还积极探索本地化合作(如联合研发适配方案、搭建技术服务体系等),试图深化在中国市场的布局。 怎奈美国持续从中作梗,通过技术出口管制、供应链限制等手段横加阻挠,强制 ASML 限制先进设备(尤其是 EUV 光刻机)对华出口。这一行为不仅让 ASML 错失中国市场的增长红利,损害了其商业利益与全球市场布局的自主性,更直接打乱了中国芯片产业的技术升级节奏,阻碍了中国芯片产业的发展进程,最终导致全球半导体产业链的协同效率受损。
谷歌回怼美国司法部,称不可能出售其广告交易平台Ad Manager
IT之家 11 月 24 日消息,据科技媒体 Android Central 今天报道,谷歌过去几年中面临多项反垄断调查,今年 4 月,美国地方法院法官 Leonie Brinkema 裁定谷歌在广告技术业务方面存两项非法垄断行为,该案的审判已于上周结束,这名法官将很快决定是否要求谷歌出售部分广告业务。 IT之家在此援引 Android Central,美国司法部正试图强制出售谷歌的广告交易平台 Ad Manager,虽然负责该案的法官表示“时间非常紧迫”,但她也承认谷歌的上诉可能让情况发生改变。 不过谷歌显然不可能任人宰割,他们认为强制出售广告业务过于极端,并在一篇博文中表示,这种拆分在技术上不可行。 谷歌监管事务副总裁 Le-Anne Mulholland 表示:“证词显示司法部提出的拆分 Ad Manager 建议不可行,并且会给广告商和出版商带来重大不确定性和混乱,我们从一开始就表示,司法部忽视了广告市场的巨大竞争力与活力”。 她(Le-Anne Mulholland)还表示,谷歌将继续寻找能解决法院担忧、不阻碍美国企业发展的解决方案,并试图召集多名专家做证,说明拆分谷歌广告架构从技术来讲无法实现。 另一方面,美国司法部律师 Matthew Huppert 辩称:“拆分是实现‘开放与竞争性的网络未来’的唯一方法”。接下来地方法院将根据两方的辩论,决定如何处理这两项非法垄断行为。
面条厂里造“三无飞机”,山东邹平成立联合调查组
IT之家 11 月 24 日消息,据央视《财经调查》11 月 23 日报道,调查发现,部分短视频及二手交易平台出现无型号合格证、无生产许可证、无适航许可且未进行所有权备案的自制“三无飞机”销售现象。 总台《财经调查》记者以订货为由联系了卖家,来到了位于山东邹平魏桥镇的“生产车间”,进门看到的竟是一大堆包装整齐的面条。卖家告诉记者,工厂主营业务是生产面条,因为生产面条的机床与制造飞机的机床能够通用,所以拉了几个人成立了飞机制作工作室,卖面条的同时做起了定制飞机的生意。 IT之家从报道获悉,11 月 23 日深夜,山东邹平市联合调查组发布情况通报。 通报称,11 月 23 日晚,中央电视台“央视财经”栏目对邹平市魏桥镇“三无飞机”问题报道播出后,邹平市委、市政府高度重视,第一时间成立由发改、市场监管、公安、工信、交通等单位组成的联合调查组,连夜赴现场对曝光问题进行全面调查,在查清事实的基础上,依法依规严肃处理。 通报称,同时,邹平市将引以为戒,举一反三,在全市范围内进行排查,发现问题严肃整改。 法律专家指出,销售无资质飞机涉嫌违反《产品质量法》及《刑法》第一百四十六条,若造成重大事故将追究刑事责任。 针对平台监管责任,民航管理部门表示将持续联合网信部门整顿违规信息,要求平台清理相关销售内容。目前部分二手平台已对“自制飞机”“手搓飞机”等关键词实施搜索屏蔽。
华尔街日报:“退而不休”的贝佐斯与马斯克踏入“同一条河流”
贝佐斯要点燃AI火种 凤凰网科技讯 北京时间11月24日,据《华尔街日报》报道,尽管杰夫·贝佐斯(Jeff Bezos)已卸任亚马逊CEO,但是他退而不休,AI热潮又激发他重新站到了台前。 在贝佐斯卸任亚马逊CEO时,他很容易被认为是为了享受游艇和名人派对的退休悠闲生活。 但是,他肯定会反对这种说法。过去一年,他曾公开表示自己的日程实际上被私人火箭公司蓝色起源的工作填满,而且自己还把越来越多地精力投入到AI领域。 “我是世界上最不像退休的人。”贝佐斯最近在一次科技大会上感慨道。 就在上周,《纽约时报》报道称,贝佐斯将出任AI创业公司普罗米修斯计划(Project Prometheus)的联席CEO,他同时也是该公司投资人。这将是贝佐斯自2021年卸任亚马逊日常管理职务后,首次重新担任CEO职务。 此举随即引来埃隆·马斯克(Elon Musk)的嘲讽,他暗示这位老对手是在模仿自己。总体来看,这两位科技大亨确实都在布局他们青年时期痴迷的科幻未来:太空探索、机器人技术、电动汽车。如今,他们愈发聚焦于强大AI的研发。 与马斯克的区别 然而,二人在构建商业版图的方式上存在天壤之别,这种差异既凸显了他们对待股东责任的不同认知,也反映出各自进行战略押注的独特逻辑。 马斯克希望掌控一切。他担任多家不同公司的CEO,包括上市公司特斯拉、私人控股的太空探索公司SpaceX及AI创业公司xAI。 每家公司都使得马斯克能够利用投资者的热情筹集资金,有些金额在过去只有上市公司才能实现。他在这些公司的持股使他成为世界首富,超过了曾凭亚马逊持股而登顶的贝佐斯。 马斯克 相比之下,贝佐斯的做法则更为传统、界限分明,就像他当年在亚马逊会议中推崇的条理清晰的文书风格一样。 担任亚马逊CEO期间,贝佐斯始终将其创始公司置于首位。例如,虽然贝佐斯在亚马逊任职期间创立了蓝色起源,但他始终聘请专业经理人运营这家航天企业,从未亲自执掌CEO职务。 几年前,他在一次播客中表示:“当我担任亚马逊CEO时,我认为,如果我是上市公司的CEO,我就会把全部精力都放到这家公司身上。我觉得自己有责任对亚马逊的所有利益相关者做到这一点。” 专注的重要性 在亚马逊早期发展阶段,贝佐斯就很快意识到,专注对一家公司的重要性,尤其是在他这个发明家型大脑不断涌现新想法时。 “给我一块白板,我一小时就能想出100个点子。”他在上个月与意大利科技企业家的谈话中回忆道。 但是,一位早期副手提醒他,他的想法堆积如山,反而会分散团队注意力。这位副手直言:“你每分钟、每天产生的点子足以毁掉亚马逊。” “这个道理如今听来浅显,但当时我并未参透,”贝佐斯坦言,“我开始筛选创意的优先级,建立清单机制,在公司尚未准备好时暂将想法封存于心。” 他着力构建亚马逊的领导团队,使其能承接更多创新构想。多年后,在贝佐斯主导下,亚马逊投资了电动汽车制造商Rivian,并购了自动驾驶公司Zoox,后者正与特斯拉的自动驾驶出租车战略展开角逐。 改任董事长的原因 贝佐斯后来透露,其转任亚马逊董事会执行董事长的初衷,正是为了聚焦外部兴趣,尤其是蓝色起源的发展。 当时,蓝色起源落后于SpaceX,后者那时已成功实现火箭助推器回收,这是降低太空旅行成本的关键一步。 即便卸任CEO,贝佐斯仍保持着朝九晚七的密集会议日程。他还在亚马逊参与自己感兴趣的领域,比如AI。 贝佐斯2015年阐述蓝色起源计划 然而,从外界看来,他的私人生活比他的副业更受关注,似乎让人觉得他已经退休。比如,他移居迈阿密远离亚马逊西雅图总部,新购超级游艇在荷兰引发拆桥争议,与艾美奖得主主播兼飞行员劳伦·桑切斯(Lauren Sánchez)在威尼斯完婚。 这场婚礼的宾客名单星光熠熠,他们来自好莱坞及其他领域,为《Vogue》等媒体提供了绝佳机会,拍摄奥普拉·温弗瑞(Oprah Winfrey)、汤姆·布雷迪(Tom Brady)、伊万卡·特朗普(Ivanka Trump)、西德妮·斯威尼(Sydney Sweeney)等名流出席典礼的华丽镜头。 AI火种 近日,外界公众得以一窥蓝色起源的进展:该公司成功将货物送入轨道,并回收了火箭助推器。贝佐斯也在控制室现场庆祝。 和马斯克一样,贝佐斯现在也在谈论AI与太空的融合。 据知情人士透露,贝佐斯如今全力聚焦AI,几乎占据了他99%的时间,“即便半夜被叫醒,他可能也在构思AI相关的点子”。 这很容易理解。像“普罗米修斯计划”这样专注制造与工程的AI创业企业,能够帮助志在星际旅行与开发的蓝色起源。 从本质上看,贝佐斯认为自己是一个发明家。他表现得就像希腊神话中的泰坦后代普罗米修斯,带着被“盗取的火种”降临人间,点燃了一个全新的创新时代。 只不过,这次的火种是AI。 “从未有比当下更适合成为发明家与先锋的时代,因为世界正被新思想点燃,被AI与太空机遇点燃,”贝佐斯本月在迈阿密宣称,“我们正身处多重黄金时代的交汇点。” 随着AI的兴起,贝佐斯似乎重新埋头打造产品,他的白板上想必又写满了新的创意清单。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
广告小游戏崛起,字节腾讯押注下一个流量金矿
Tech星球独家获悉,腾讯、字节跳动正在加码广告小游戏的布局,腾讯推出和计划推出的广告小游戏超10款,字节则是推出了《梦幻数独》小游戏,近期体验用户量已经破550万。 “羊了个羊”、打螺丝、抓大鹅等热门小游戏曾经风靡一时。如今,打开微信小程序或抖音小游戏入口,这类轻量化娱乐产品早已随处可见,譬如通勤时刷到的“疯狂拆螺丝”,也可能是好友分享的“合成大西瓜”续作,甚至是打着“解压治愈”标签的简易消除类游戏。它们无需下载、即点即玩,单局时长不过3-5分钟,却能让人不知不觉沉浸半小时。 值得注意的是,这些广告小游戏正成为大厂争夺流量的新战场。除了腾讯的玩法复刻与字节的爆款突围,网易、快手等平台也在暗中布局,他们要么扶持第三方开发者,要么自研相关产品。背后的逻辑不难理解,在用户时长争夺白热化的当下,广告小游戏精准击中了碎片化娱乐需求,无论是排队等候还是午休间隙,都能成为用户的“杀时间利器”。 而小游戏“看广告解锁道具、复活闯关”的核心模式,更是让流量直接转化为收益。有业内人士透露,头部广告小游戏单日广告收入可轻松破百万,单个用户单日平均能贡献5-10次广告观看。这种低成本、高回报的特性,让大厂纷纷入局,一场围绕广告小游戏的流量争夺战全面打响。 大厂亲自下场广告小游戏 Tech星球了解到,腾讯的广告小游戏业务正在不断加码,不仅在今年大幅度提升自研开发小游戏的力度,还有从第三方公司承接过来再次开发的小游戏。 从产品储备来看,腾讯的布局显然经过了精准规划,已上线的9款小游戏覆盖了砖块破坏(《弹球奇遇》)、卡牌策略(《千纹时空》)、塔防(《末日生存塔防》)、三消(《羊毛编织馆》)等多个品类,避免了内部同质化竞争;《英杰并起》以及聚焦射击合成的《我合枪特牛》,进一步填补细分赛道空白,此外《幽幽奇遇》等小游戏已完成开发,将择机上线微信端。 这种多品类、快迭代的节奏,既能快速测试不同玩法的市场接受度,又能通过持续上新留住用户,毕竟在广告小游戏赛道,用户新鲜感消退快,只有不断推出新内容,才能维持流量热度。 值得注意的是,腾讯在自研之外还引入第三方合作开发,这种“双轨制”模式提升了产品产出效率,自研团队负责打磨核心玩法与运营,保证产品质量;此外还承接了第三方公司的游戏,在其基础上进一步完善,譬如《末日生存塔防》,就来自于“霍尔果斯冰柠乐科技有限公司”,腾讯接手后再进行优化调整,既能缩短开发周期,又能借助自身流量优势快速起量。 与一般的广告小游戏一样,腾讯的广告小游戏会在玩家体验的关键节点设置广告。以《弹球奇遇》为例,玩家想要增加游戏体力、获取金币道具,或是解锁新的关卡玩法,都需要观看一段广告才能继续,这种“需求驱动广告”的设置,既不会让广告过于突兀,又能精准触达有明确需求的用户,降低反感度。 图注:《弹球奇遇》游戏页面。 再看其他已上线的产品,玩法设计同样围绕“轻量化”和“强互动” 展开。《猫了个叠》类似《羊了个羊》的堆叠消除逻辑;《僵尸爱上班》以末世为背景,将“打僵尸”与“资源收集”结合,在建造房屋招募工人时,会有“看广告解锁临时工” 的选项;就连主打文化向的《诗词探险家》,也会在玩家卡壳时提供“看广告获取提示”的功能。 这些设计的共性在于,广告植入始终与“解决玩家当前痛点”绑定,比如体力不足、道具缺失、进度停滞等,让用户更易接受“用广告换便利”的模式。 字节跳动的广告小游戏,目前主推的是《梦幻数独》,这是一款基于数独玩法的益智类小游戏,抖音端由字节旗下的北京深极智能科技有限公司运营,在今年夏天悄悄登录抖音App。 根据抖音端的数据显示,有超550万人体验过,相关话题词超1300万次播放。《梦幻数独》能吸引超550万玩家,靠的是“低门槛”“轻趣味”的精准定位。和传统数独的复杂格子不同,它简化了难度层级,入门关卡甚至会用颜色标注提示,就算是没接触过数独的新手,也能快速上手;同时加入了“每日挑战排行榜” 等设计,排行榜还能看到好友和其他玩家的实时成绩,这些小互动让原本单调的数字游戏多了些社交趣味性。 图注:《梦幻数独》游戏页面。 《梦幻数独》里也在部分关卡安插了广告,同时也有付费环节。广告和付费的设计都没脱离抖音的生态优势。广告部分,抖音会把自家生态里的电商广告、客户推广广告精准植入,比如,玩家看完广告可能会收到美妆、零食的优惠券,或者客户家游戏的跳转链接,既符合用户兴趣,又能提升广告转化率;而付费环节则直接对接抖音的支付体系,一键就能完成充值,流程简单到不用跳转,大大降低了用户的付费门槛。 大厂能否做好这门生意? 大厂亲自下场的背后,是广告小游戏低门槛入局、高收益回报的生意经被验证。 对腾讯、字节这类大平台而言,做广告小游戏既不用承担重度游戏的研发成本和版号压力,轻量化的小程序形态又能无缝承接生态内的海量流量,微信的社交分享链路、抖音的算法推荐机制,都能让一款小游戏在短时间内实现病毒式传播。 就像字节的《梦幻数独》,靠着平台内的流量倾斜和推广就拿下数百万用户。而且《梦幻数独》已经开始与乖巧宝宝进行联动,抖音相关话题词显示有3.8万人参与讨论,联动内容有800多万次播放。 更关键的是,广告小游戏完美打通了从“流量”到“变现”的闭环。用户为了解锁关卡、获得道具,愿意主动观看30秒广告,而广告主则看中了这种“强互动”“高转化”的投放场景,尤其是下沉市场的精准触达能力。 一位抖音小游戏的开发者透露,广告小游戏的每千次展示收益能达到普通信息流广告的3倍,头部产品单月营收轻松破千万。对大厂来说,这不仅是新增的营收来源,更能盘活生态内的闲置流量,让用户在平台内的停留时长进一步提升,毕竟3-5分钟的单局时长,刚好填补了用户的碎片化时间,还能通过 “邀请好友复活”“排行榜比拼” 等玩法增强用户粘性。 但这场流量狂欢的背后,问题也同样不能忽视。目前,市面上的广告小游戏大多扎堆“消除”“合成”“闯关”等成熟玩法,同质化严重,用户很容易产生审美疲劳。此前“羊了个羊”式的爆款效应难以复制,不少小游戏通过换皮模仿上线即巅峰,但热度维持不过一两个月。 而且,过度依赖广告变现也可能引发用户反感,一旦广告弹窗过于频繁、观看时长过长,很容易导致用户流失,Tech星球发现,有用户就吐槽道游戏内的广告弹窗多如牛毛,玩不到1分钟,就会弹出1个广告窗口,非常影响体验。 对大厂而言,想要让广告小游戏的热度持续,未来比拼的或许是内容创新能力,譬如将自身热门IP与小游戏结合,打造差异化产品;或是通过技术优化提升用户体验,平衡广告植入与游戏乐趣。毕竟,流量密码终究会失效,只有真正留住用户的内容,才能在这场竞争中笑到最后。 现在的行业狂欢,更像是大厂们在流量红利期的卡位,至于谁能真正站稳脚跟,还要看后续能否突破同质化的天花板,找到可持续的发展路径。
编程测试碾压人类!Claude Opus 4.5深夜突袭,AI编程进入超人时代
最近这段时间,大模型发布就跟下饺子似的,一个接一个往外冒。 前脚 Gemini 3 Pro 刚抢了两周风头,后脚 Claude Opus 4.5 刚刚就正式发布,还是主打编程,还是那个熟悉的味道。 Anthropic 官方宣称 Opus 4.5 整体更聪明、更省心。遇到编程、搭 agents、操控电脑这些「系统级任务」依然是全球数一数二的水平。日常的研究、做 PPT、处理表格这些案头活,也都明显变强了。 今天起,Opus 4.5 已经全面开放,可以通过应用、API,还有三大主流云平台用起来。开发者只要在 Claude API 里调用 claude-opus-4-5-20251101 就行。 随发布而来的,是一整个工具链升级。开发者平台、Claude Code、Chrome 插件、Excel、桌面端改造,还有「长对话不卡顿」。从应用到 API,再到云平台,这次是真的全线铺开。 Anthropic’s New Claude Opus 4.5 Reclaims the Coding Crown – The New Stack 大模型集体「上新季」,Opus 4.5 强势压轴 从官方和测试者的反馈看,Claude Opus 4.5 对「模糊需求」的理解力得到了明显提升,复杂 bug 自行定位也更稳,不少提前试用的客户觉得 Opus 4.5 是真的能「理解」他们想要啥。 在真实场景的软件工程测试 SWE-Bench Verified 里,它是头一个拿到 80% 以上分数的模型。 Opus 4.5 的代码质量全面升级,在 SWE-bench Multilingual 涵盖的八种编程语言里,它在其中七种都拔得头筹,表现相当亮眼。 而举例而言,Anthropic 团队把 Opus 4.5 扔进了公司招性能工程师时用的高难度测试题里,结果在规定的两小时内,Claude Opus 4.5 的得分超过了所有人类候选人。 虽然编程测试只能衡量技术能力和时间压力下的判断力,那些多年经验积累出来的直觉、沟通协作能力,这些同样重要的素质并不在考察范围内。 除却软件工程,Claude Opus 4.5 的整体能力也迎来了全面开花,在视觉、推理和数学方面都比前代模型强,并且在多个重要领域都达到了业界领先水平: 更关键的是,模型的能力甚至开始超越现有的一些评测标准了。 在智能体能力测试 τ²-bench 里就出现了这么个场景:测试设定模型扮演航空公司客服,帮一位焦虑的乘客。 按照规则,基础经济舱机票是不能改的,所以测试预期模型会拒绝乘客的请求。结果 Opus 4.5 想出了一个巧妙方案:先把舱位从基础经济舱升级到普通经济舱,然后再改航班。 这办法完全符合航空公司政策,却不在测试的预期答案范围内。从技术角度说,这算是测试失败了,但这种创造性解决问题的方式,恰恰展现了 Opus 4.5 的独特之处。 当然了,在另一些场景下,这种「钻规则空子」的行为可能就不那么受欢迎了。如何防止模型以非预期方式偏离目标,这是 Anthropic 安全测试重点关注的方向。 Claude 无处不在,桌面、浏览器、Excel 全接入 随着 Opus 4.5 的推出,Claude Code 获得了两项重大更新。 计划模式(Plan Mode)现在能生成更精确的执行计划了,Claude 会在操作前主动提澄清性问题,然后生成一个用户可编辑的 plan.md 文件,再根据这计划执行任务。 此外,Claude Code 现在已经登陆桌面应用了。你可以同时跑多个本地或远程会话,比如一个智能体负责修代码错误,另一个负责在 GitHub 上检索资料,第三个就更新项目文档。 对于 Claude 应用用户来说,长对话不会再被打断了。Claude 会在需要的时候自动总结早期上下文,让对话持续下去。 Anthropic 研究产品管理负责人 Dianne Na Penn 在接受采访时表示: 「我们在 Opus 4.5 的训练过程中提升了对长上下文的整体处理能力,但光有更长的上下文窗口是不够的。知道哪些信息值得记住,同样非常关键。」 这些改进也实现了 Claude 用户长期呼吁的一项功能:「无尽对话」。这功能能够让付费用户在对话超过上下文窗口限制时也不会中断,模型会自动压缩上下文记忆,而不用提醒用户。 Claude for Chrome 也已经向所有 Max 用户开放了,可以让 Claude 直接在浏览器多个标签页之间执行任务。 Claude for Excel 的 Beta 测试范围已经扩展到 Max、Team 和 Enterprise 用户了。 对于能使用 Opus 4.5 的 Claude 和 Claude Code 用户,Anthropic 已经取消了和 Opus 相关的使用上限。 对于 Max 用户和 Team Premium 用户,Anthropic 也提高了整体使用限额,用户可使用的 Opus token 数量与之前使用 Sonnet 时大致相同。随着未来更强模型的出现,配额也会根据情况相应更新。 让模型「更聪明也更省」,Opus 4.5 迎来底层大升级 随着模型变得更聪明,它们能用更少的步骤解决问题:减少反复试错、降低冗余推理、缩短思考过程。 Claude Opus 4.5 和前代模型比,在实现相同甚至更优结果的情况下,用的 tokens 数量明显少了。 当然了,不同任务需要不同的平衡。 有时开发者希望模型能持续深入思考,有时又需要更快速灵活的响应。 所以,API 里新加了一个叫 effort 的参数,让你可以根据需求选:要么优先省时间和成本,要么最大化模型能力。任君选择。 当设置为中等 effort 等级时,Opus 4.5 在 SWE-bench Verified 测试中和 Sonnet 4.5 的最佳成绩持平,但输出 tokens 数减少了 76%。 而在最高 effort 等级下,Opus 4.5 的表现比 Sonnet 4.5 高出 4.3 个百分点,同时还减少了 48% 的输出量。 凭借 effort 控制、上下文压缩(context compaction)和高级工具调用能力,Claude Opus 4.5 能跑更久、完成更多任务,而且需要的人工干预更少了。 此外,真正的 AI 智能体需要在成百上千种工具之间无缝协作。 想象一个 IDE 助手集成了 Git、文件管理、测试框架和部署流程,或者一个运营智能体同时连着 Slack、GitHub、Google Drive、Jira 和几十个 MCP 服务器。 问题在于,传统方式会把所有工具定义一次性塞进上下文。拿连接五个服务器的系统来说,GitHub 需要 26K tokens,Slack 需要 21K tokens,Sentry、Grafana、Splunk 加起来又是 8K tokens。 对话还没开始呢,就已经占了 55K tokens 了。要是再加上 Jira,轻松突破 100K tokens。更麻烦的是,当工具名字相似时,模型容易选错工具或者传错参数。 Anthropic 推出了三项新功能来解决这些问题。 Tool Search Tool 让 Claude 按需动态发现工具,只加载当前任务需要的部分,token 使用量能减少约 85%。 Programmatic Tool Calling 让 Claude 在代码里直接调用工具,避免每次调用都要完整推理一遍。 Tool Use Examples 则提供统一标准,通过示例而不是 JSON schemas 来展示工具的正确用法。 内部测试显示,启用 Tool Search Tool 后,Opus 4 在 MCP 测试中的准确度从 49% 提升到 74%,Opus 4.5 从 79.5% 提升到 88.1%。 Claude for Excel 就是利用 Programmatic Tool Calling 来处理几千行数据,而不会让上下文窗口过载。 Anthropic 的上下文管理和记忆能力明显提升了模型在智能体(agent)任务中的表现。 Opus 4.5 还能高效管理多个子智能体(subagents),从而搭建复杂且协调良好的多智能体系统。在测试中,结合这些技术后,Opus 4.5 在深度研究类评估中的表现提升了将近 15 个百分点。 开发者平台(Developer Platform)也在持续变得更具可组合性,希望提供灵活的「模块化构建」能力,让你能根据具体需求自由控制模型的效率、工具使用和上下文管理,搭建出理想的智能系统。 虽然这次 Opus 4.5 的升级足够亮眼,但一个越来越清晰的趋势是:不同模型的「性格」差异正在被放大。 从 Claude 过往的产品线来看,Opus 这类「超大杯」依旧最擅长编程、系统级操作、结构化推理;但如果是文案工作,Sonnet 的表现和性价比往往更对路。 这次发布,也再次印证了这一点。 未来选模型,不光要看跑分榜,还得看它的「做事」方式是不是跟你合拍。换句话说,选择模型,倒是越来越像挑同事了。
Anthropic发布模型Opus 4.5,称其编程能力已超越人类工程师
财联社11月25日讯(编辑 赵昊)当地时间周一(11月24日),美国人工智能初创企业Anthropic在官网宣布,公司推出了最新的AI模型“Claude Opus 4.5”。 Anthropic表示,该模型智能高效,“是目前全球在编码、智能代理和计算机应用方面表现最佳的模型,它在深度研究、处理幻灯片和电子表格等日常任务方面也显著优于其他模型。” 据了解,Opus 4.5是Anthropic在短短两个月内发布的第三个重大模型版本,该公司9月下旬发布了Sonnet 4.5,又在10月推出了Haiku 4.5。这再次体现了AI行业惊人的发展速度。 Anthropic最出名的是其名为Claude的一系列AI模型,通常其中最大的模型被称为Opus,中等规模的模型为Sonnet,最小的模型为Haiku。此前发布的Opus模型是在今年8月,名为Opus 4.1。 Anthropic旗下Claude.ai的产品负责人Scott White在接受采访时说道:“我们向市场发布产品的速度,以及由此产生的反馈循环,让我感到无比兴奋。” White表示,Opus 4.5的理想用户是专业软件开发人员以及金融分析师、顾问、会计师等知识型工作者。他补充说,那些“希望激发自身创造力、打造新事物、拓展职业边界”的人,同样会觉得这款模型非常有用。 在“代理式编程”(agentic coding)方面,Opus 4.5达到了当前的最先进水平。根据用于衡量AI编程能力的测试集SWE-bench,Opus 4.5的表现要优于谷歌上周发布的Gemini 3 Pro以及OpenAI的GPT-5.1。 Anthropic还表示,他们让Opus 4.5参加了一项难度极高的闭卷测验,这套考题通常用于选拔优秀的软件工程,该模型的得分超过了历史上所有人类候选者。 新闻稿表示,Opus 4.5将在所有平台上线,并成为Anthropic 的Pro、Max和Enterprise(企业版)产品的默认模型。除了新模型外,公司还宣布了多项产品和功能更新。 Anthropic表示,允许Claude在不同浏览器标签之间执行操作的扩展工具Claude for Chrome现已向所有Max用户开放;能够理解和编辑电子表格的Claude for Excel,也已向所有付费用户推出。 此外,Anthropic还将Claude Code引入其桌面应用,并为开发者平台增加了新的功能。
12月17日发布,一加15R手机与Pad Go 2平板官宣
IT之家 11 月 24 日消息,一加今年尚未结束其新品发布节奏。该公司刚刚宣布,将于下月推出两款全新产品,并且这两款产品都将登陆美国市场。 即将发布的机型为一加 15R 和一加 Pad Go 2。其中,一加 Pad Go 2 将成为一加首款面向美国市场推出的“Pad Go”系列平板电脑。 值得注意的是,一加 15R 将完整继承一加 15 的全套 IP 防护等级,包括 IP66、IP68、IP69 以及 IP69K,使其成为一款极为坚固耐用的设备。 IT之家注意到,从外观设计来看,一加 15R 与一加 15 高度相似,仅缺少第三颗摄像头。此次一加似乎回归了其广受欢迎的配色方案 —— 黑色与绿色,该机采用平直金属中框设计。 据推测,一加 15R 将与此前已在中国发布的一加 Ace 6 基本一致,后者搭载高通骁龙 8 Elite 芯片,不过面向北美市场的版本预计将采用传闻已久的骁龙 8 Gen 5 处理器。 与此同时,一加 Pad Go 2 今年也将迎来显著升级,首次加入对触控笔的支持。一加强调,这款产品远不止是一款入门级平板,其机身设计也颇为精致。针对美国市场,该平板仅提供“影黑”(Shadow Black)配色,并仅支持 Wi-Fi 版本。 一加 15R 与一加 Pad Go 2 计划于 12 月 17 日正式面向美国和加拿大市场发布。中国市场可能会更早公布相关信息,具体仍需持续关注。
华为查找设备新增“关机验证密码”功能:不怕恶意关机 丢手机找回概率大增
快科技11月25日消息,据华为官方介绍,华为查找设备新增“关机验证密码”功能,设备丢失后不用担心被恶意关机,可增加被找回的概率。 符合条件的手机升级到HarmonyOS6之后,即可体验。 开启路径:进入设置>查找设备>打开“关机验证密码”开关。 需要注意的是,该功能仅适用于锁屏状态下关机,若设备已经解锁,则关机时无需验证密码。 此外,重启设备、强制关机、强制恢复出厂设备时,也无需验证锁屏密码。 值得注意的是,华为Pura 80系列等机型还加入了星闪查找”功能,后续应该会成为华为旗舰的标配。 在查找设备App中开启“查找我的手机”功能之后,能随时查看手机的具体位置,甚至还可以通过星闪查找精准定位设备的方向与距离,甚至还支持楼层定位。 当通过定位和楼层信息到达丢失设备附近时,查找设备界面中的“导航”按钮会自动变成“精确查找”按钮。 点击并与设备建立连接后,界面上会直观显示丢失手机所在的精确方向和距离,只需要跟着箭头的指引就能找回手机。 最关键的是还华为Pura80系列还支持关机星闪查找,哪怕手机关机或离线了,也可以通过星闪技术准确定位设备位置。 关机星闪查找与关机验证密码功能相互配合,让手机丢时候找回的概率大大增加。
REDMI产品经理详解K90系列屏幕三大优势:更清晰、更省电、更护眼
快科技11月25日消息,日前,REDMI产品经理笋寸微博发文,详细解析了REDMI K90系列屏幕的三大优势:清晰、省电、护眼。 她介绍,K90系列采用全RGB独立像素排列,通过重构像素逻辑,从底层实现屏幕更高的清晰度、更低的功耗以及更强的护眼效果。 清晰:子像素密度超2K,文字边缘锐利不模糊 和传统的屏幕像素排列不同,全RGB屏幕的每颗像素均配备独立红、绿、蓝三子像素,无需依赖相邻像素补偿。同标称分辨率下,子像素总数达938万,超越多数传统2K屏(920万),因为不需要“借像素”,文字边缘锐度实测提升12%,直接改善红色小字模糊、彩边等问题,画面细节呈现更细腻。 省电:软硬融合,同亮度同分辨率比1.5K更省电 软件层,采用全新分辨率渲染逻辑,相比传统2K屏降低18%的GPU负载,减少图形处理过程中的能耗; 硬件层,联合TCL华星定制M10发光材料与专用驱动电路,将红色子像素发光效率提升至82.1cd/A,达到全球顶尖水平,子像素整体发光效率提升30%,实现 “更低电压达到同等亮度”。 最终,屏幕功耗降至436mW,较传统2K屏降低26%-30%,在相同亮度、刷新率设置下,功耗表现甚至优于同分辨率的iPhone 17 Pro Max。 护眼:减轻眼部负担,夜间看手机不疲劳 得益于全RGB像素排列底层结构优势,眼睛不用被迫额外加班,因为子像素总数更多,文字边缘更锐、细节更均匀。 此外,RGB排列的画面清晰度是全域均衡,几乎没有模糊死角,因此眼球无需频繁转动或偏移来弥补视觉缺失,转动更平稳,降低眼睛酸胀、疲劳感。
不用英伟达,Gemini 3是如何训练的?
经过一年多的蛰伏,谷歌带着全新升级的多模态Gemini3来袭,前端UI升级性能拉满,虽然深度推理、上下文一致性等与ChatGPT5.1 thinking相比还有差距,但总体上已经能满足绝大多数用户的基本AI需求。 Gemini 3是如何训练的?是完全基于谷歌TPU吗?大家都在关注这些核心问题! Gemini 3 = 稀疏 Mixture-of-Experts(MoE)Transformer + 原生多模态(文本/图像/音频/视频)+ 超长上下文(输入最多 1M token、输出 64k)+ RL 强化“多步推理/定理证明”的一整套栈,并且是用 Google 自家 TPU Pod + JAX + Pathways 从零训练出来的新模型。 下面分几层讲:架构、训练数据与流程、算力/系统设计,再讲一下“这套设计背后的逻辑”。 架构:稀疏 MoE Transformer + 原生多模态 + 超长上下文 1. 核心骨架:Sparse Mixture-of-Experts Transformer 官方模型卡直接写了: 架构 = 稀疏 Mixture-of-Experts(MoE)Transformer 原生支持文本、视觉(图像)、音频输入(视频通常拆成图像帧+音频序列送进来)。 MoE 的关键点: 每一层有很多“专家子网络”(experts); 前面有个 routing/gating 子网络,对每个 token 决定送到哪几个专家; 每个 token 只激活少数几个专家,不是所有参数都跑一遍; 这样可以做到:总参数量很大(外界估计总体容量>1T 级)但单次推理算力成本可控。 相当于,不是每个问题都叫公司里所有员工一起开会,而是路由到 2–3 个最合适的小组来处理。 2. 原生多模态(Text + Vision + Audio + Video) 模型从设计上就是 “多模态优先”,而不是 “先做文本,再外挂一个视觉编码器”。文本 token、图像 patch、音频帧,都会进同一个 Transformer 主干,只是前端有不同的编码器,把不同模态统一到同一向量空间。Google 还在此基础上做了 Nano Banana Pro 这种图像模型,直接把 Gemini 3 Pro 当成图像生成/编辑的“主脑”。 这类原生多模态的好处: 可以跨模态推理:例如看视频+讲解文字,一起理解“这个实验为什么失败”; 对产品场景(搜索界面截图、代码+报错截图、讲课视频+PDF)非常友好。 3. 超长上下文:1M Token 输入、64k 输出 官方模型卡:输入上下文上限 1,000,000 token,输出上限 64,000 token。 MarkTechPost 文章也确认了这点,并强调它是“让 agent 能吃完整代码库/长文档/多小时视频”的关键。 在实现上,Google 没公开全部细节,但结合他们开源的 Gemma 3 报告可以看出最近的思路:更多 local attention 层 + 更短的 local span,减少 KV-cache 爆炸;把“少量 global attention 层”用在关键信息汇总上。 所以你可以理解为:局部窗口里用 cheap 的 local attention,偶尔插一层“全局视角”做信息整合,再配合 MoE 把计算分散到不同专家上,共同支撑 1M context。 4. 和 Gemini 2.5 的差异 官方说得很清楚: 不是 2.5 的微调版,而是从头训练的新一代架构。 在各种推理、多模态、长上下文基准上,都显著超过 2.5 Pro。 训练数据:多模态 + 多来源 + 大规模清洗 1. 预训练数据构成 模型卡里披露得相当详细: 多模态、多领域的大规模语料: 公开网页文档 & 文本 代码(多种语言) 图像 音频(含语音和其他音频类型) 视频 数据来源类型: 公共可下载数据集 爬虫抓取数据(遵守 robots.txt) 商业授权数据(licensed) Google 产品中的用户数据 & 与模型的交互数据(在对应 TOS/隐私政策和用户控制下) Google 内部业务产生的数据 AI 合成数据(synthetic data) 所以整体可以理解为:“公共互联网 + 授权版权库 + 自家产品行为日志 + 内部 & 合成数据” 的大杂烩,而且是多模态同步喂的。 2. 数据清洗与安全过滤 同一份模型卡也写了数据处理流程: 去重(deduplication) 遵守 robots.txt 各类 安全过滤(屏蔽色情、暴力、CSAM 等内容) 质量过滤,去掉垃圾/无关内容 这些既是安全要求,也是为了稳定训练(脏数据太多会直接拉垮收敛)。 训练流程:预训练 + 指令微调 + RL(人类 & critic 反馈) 官方没有给出超细节的损失函数和 schedule,但框架是比较典型的“三阶段”: 1. 阶段一:自监督预训练(大模型基座) 在上面那堆多模态数据上,做类似「下一个 token 预测」的自监督训练;文本/代码用标准的 autoregressive objective;图像/音频/视频通过适配的编码方式,把 patch/帧也当 token 来预测。 目标:学到通用语言+世界知识+多模态表征,不管任务、不管指令。 2. 阶段二:监督式指令微调(SFT) 用“人类写的高质量多模态指令数据”进行微调: 问答、对话、代码生成、推理题目 图文问答、视频理解、音频理解 这一步类似于把“会说话的大脑”变成“会听指令做事的助手”。 模型卡把这部分统称为 instruction tuning data。 3. 阶段三:强化学习 + 安全部署 Gemini 3 在 RL 上写得比之前代更直白:使用 reinforcement learning from human and critic feedback: 人类标注哪种回答更好;再加“critic 模型”自动给出评分;强化学习用到的内容特别强调: 多步推理数据 问题求解数据 定理证明类数据 也就是说,他们专门用 RL 把模型往“会慢慢推理、拆解问题、做数学/证明”这个方向拉。这也解释了:Gemini 3 在 Humanity’s Last Exam、ARC AGI 2 等高难度推理 benchmark 上比 2.5 和不少竞品强。 安全相关:他们把 数据过滤 + 条件预训练 + SFT + RLHF + 产品级安全过滤 都当成安全“层级防护”。并按照自家的 Frontier Safety Framework 做红队和能力评估。 算力与系统:TPU 全栈 + JAX + Pathways 这次 Gemini 3 的一个重要“元叙事”是:“不用 NVIDIA 也能在前沿”。 1. 硬件:完全用 Google 自家 TPU 训练 模型卡写得很清楚: 训练全部在 Google Tensor Processing Units(TPUs) 上完成; 使用 TPU Pods(大规模 TPU 集群),支持多设备分布式训练; 利用 TPU 的高带宽内存和大 batch 做到了更好的模型质量 + 能效。 外部文章因此强调:Gemini 3 证明了一条“自研芯片+自家云”的完整路径,可以在不依赖 GPU 供应链的情况下做到 frontier 级别。 2. 软件栈:JAX + ML Pathways 模型卡:训练用的是 JAX + ML Pathways。Pathways 是 Google 自己的多机多任务训练框架,比较适合这种 MoE + 超长上下文的大模型并行。结合 MoE 架构,你可以想象它在系统层面需要解决: 专家参数在 TPU Pod 上怎么切片/放置; token 的 routing 怎么跨设备做负载均衡; 超长上下文的 KV cache 怎么 sharding 和回收; 在这些约束下还要保证训练吞吐和稳定性。 这些实现细节没公开,但从他们强调的“sparse MoE + 1M context 实用化”可以看出,系统工程占了很大比重。 从“设计选择”看 Gemini 3 的几个洞察: 站在方法论角度,可以大概总结出 Google 这代模型的取向: 容量 vs 成本:用 MoE 换算力效率 想要万亿级参数的表达力,但又不能每 token 都烧满;Sparse MoE = “只叫对这件事最有用的几个专家出来”,能在相同算力下塞进更多知识和能力。 场景优先:原生多模态 + 超长上下文 + agent 能力 多模态 + 1M context,是为了直接吃:代码库、产品文档、UI 截图、视频课程、系统日志; 再配合 Antigravity 这类 agent IDE 和“Generative UI”,把模型变成真正的“操作系统级助手”,而不是只会聊天。 推理优先:在 RL 里刻意强化多步推理和定理证明 很多 frontier bench(ARC AGI、GPQA、数学竞赛)都强调“要一步步想”;所以他们显式用这类数据做 RL,把 reward 设计成“慢想但答对”。 安全与合规:从数据到产品的多层防护 数据侧就做过滤;模型训练阶段用安全相关的目标和 RL 惩罚项;部署时再加 policy + 安全过滤 + Frontier Safety 评估。 全栈一体化:TPU + 框架 + 模型 + 产品的协同优化 完全在自家 TPU 上训练,用 JAX + Pathways 深度绑定硬件特性;再纵向整合到 Search、Workspace、Antigravity IDE、AI Studio 等产品里。 Gemini 3 更像是“用 TPUs 驱动的 MoE 多模态大脑”,通过庞杂但干净的多模态数据预训练,再用 RL 把“多步推理+Agent 行为”打磨到实战可用。 为何谷歌选择Sparse MoE 而不是 Dense LLM? Sparse MoE vs Dense LLM:到底换来了什么,又付出了什么? Sparse MoE = 拿“更多参数容量”换“更复杂的系统工程”; Dense LLM = 拿“简单稳定”换“更高的推理成本 / 更有限的容量”。 1. 参数容量 vs 计算成本 设想一个简化例子: Dense 模型:400B 参数,每一层所有 token 都用到全部参数。 Sparse MoE:假设有 32 个专家(experts),每个 expert 有 50B 参数。模型“总容量”≈ 32 × 50B = 1.6T 参数;但路由策略:每个 token 只激活 2 个 expert。那么一次前向计算用到的参数 ≈ 2 × 50B = 100B 参数。 所以,对「单次推理」来说: Dense 400B:固定用 400B; Sparse MoE:逻辑容量 1.6T,但每个 token 实际只跑 100B 左右。 这就是 MoE 的核心吸引力: 在「算力可承受」的前提下,把总容量做得远超 Dense,强化“记忆 & 专业化能力”。 2. 路由 & 负载均衡:MoE 的第一大坑 但换来的是非常难搞的一堆工程问题: Routing/gating 的选择 每个 token 要选出“最合适”的 1–2 个专家。路由器本身也是一个小网络,要学习“哪个 token 该找哪类专家”。训练前期很容易变成:少数几个专家被疯狂点名,其余专家闲置 → 训练不收敛。 Load balancing(负载均衡) 为了防止“热门专家爆满”,通常加一个正则/损失项,强制各专家被用得更均匀。太强 → 路由“被拉平”,失去“专家专长”;太弱 → 过度偏好少数专家,参数利用率低。 跨设备通信成本 专家通常分布在不同 TPU/GPU 上;每一层都要把 token 按路由结果“打散 + 聚合 + 再拼回”,需要大量 All-to-All 通信;通信没设计好,MoE 直接变成一个巨大的网络风暴制造机,吞吐掉到谷底。 Dense LLM 就简单很多: 所有层 & 参数按顺序切片,数据并行 / tensor 并行就行; 没有额外路由逻辑,也没有 All-to-All 的专家分发。 3. 表达能力:通才 vs 专才 MoE 的“理论卖点”是:不同专家可以学不同的“风格 / 领域 / 任务”: 有的更擅长代码; 有的更擅长数学; 有的更擅长对话/闲聊; 对于特定 token/任务,只调用那些“最适合”的专家。 这会带来几个有意思的现象: “专家人格”,在可视化路由模式时,能看到某些专家只在「代码块 + 错误信息」附近被激活;另一些专家在「多段数学推导」里用得更多。 局部过拟合 vs 全局泛化 好处:细分任务的表现可以很强(因为专家参数多,专注范围窄); 风险:如果路由器没学好,有的专家可能对“某些写法/数据分布”过拟合,换个表达就表现下降。 Dense LLM 则是完全的“通才模式”:所有 token 都用同一套参数;更容易在分布迁移时保持稳健,但对容量和算力要求更高。 4. 训练 & 推理的稳定性 Dense LLM 优点: 实现简单,优化稳定; 不会出现“专家闲置”、“路由崩坏”的问题; 调参 & debug 难度低很多。 Sparse MoE 的典型麻烦: 训练稳定性更差 路由器一旦 bias 到几个专家上,训练会偏;需要 carefully 的 warmup、损失设计、甚至 curriculum 才能稳住。 调参维度更多 专家数量、每 token 激活专家数、capacity factor(每个 expert 能接多少 token)、负载均衡 loss 权重等等,都是额外的超参数。 部署 & 推理复杂度高 多设备专家部署布局;路由所带来的延迟和显存碎片问题;实时服务时要和 KV cache / batching 配合,这些都比 Dense 麻烦一大截。 但到了 Gemini 3 这种规模: Dense 再往上堆,推理成本会非常夸张; 在 TPU 上做全栈 MoE 优化对 Google 来说是可控的; 所以他们选了「更高系统复杂度,换更大容量和更低推理成本」这条路。 所以,谷歌使用MoE 是把“模型容量的 scaling law”从“全靠花算力”变成“花更多系统工程 + 一部分算力”。 幻觉情况如何? Gemini 3 在“知道的事情答得很强”上是 SOTA,但在“不知道时老老实实说不知道”上,做得并不好。 几个关键 benchmark: SimpleQA Verified(事实问答准确率) 也就是说:在简单事实题上,它比竞品明显更“知道得多”。 Gemini 3 Pro:72.1% 正确率 Gemini 2.5 Pro:52.9% GPT-5.1:大约 35% 左右,Claude Sonnet 4.5 更低。 AA-Omniscience(知识 + 幻觉联合测评) 这 88% 是啥意思?大意是:当它没有答对时,~88% 的情况都会硬给一个自信的错误答案,而不是说“我不知道 / 没法确认”。 Gemini 3 Pro 在 Omniscience Index 总分和 Accuracy(正确率)都是第一。但同一个评测里,它的 Hallucination Rate ≈ 88%,而且和 Gemini 2.5 Pro 差不多。 所以: “Gemini 3 确实比上一代、也比很多竞品更常给出正确答案”; 但也的确 “一旦不知道,它依然很爱乱编,而且看起来很自信”。 不少媒体和分析直接点名这一点——“在可靠性 benchmark 里拿第一,但幻觉率仍然很高”。所以,Gemini 3 的幻觉问题现在看起来“挺严重”,而且和 2.5 相比在“会说不知道”这块几乎没进步。但与此同时,它在很多 推理、多模态和事实准确率 benchmark 上又明显领先。 所以更合理的定位可能是: 这是一个“知识多、推理强,但自我认知(知道自己不知道)还很差”的巨大大脑。 对如何使用Gemini用法,我会建议:把它当作“生成研究结构 + 发掘盲区 + 做 scenario/ontology 的 co-pilot”更为恰当合适。
特斯拉异动拉涨!马斯克豪言每12个月推出一代AI芯片
财联社11月25日讯(编辑 史正丞)随着特斯拉的电动汽车业务陷入困境,世界首富马斯克正在试图给这家上市公司打上新标签——先进AI芯片设计和制造商。 这种尝试正中特斯拉股民的心头好。截至发稿,特斯拉周一开盘后涨幅最高突破7%。 作为最新动向的背景,马斯克上周末在社交平台X发文称,大多数人并不知道,特斯拉多年来一直拥有一支“先进的AI芯片与主板工程团队”,这支团队已经为汽车与数据中心设计并部署了数百万颗AI芯片,使特斯拉成为“真实世界AI”的领导者。 (来源:X) 马斯克披露: 特斯拉的AI5芯片(目前车上使用的是AI4芯片)已进入流片阶段,同时AI6芯片研发已启动; 公司目标是:每12个月推出一代全新AI芯片设计; 特斯拉预计其芯片出货量会高到一个程度——超过所有其他AI芯片加起来的总和。 马斯克更直言,这些芯片将“以积极方式深刻改变世界”,不仅提升行车安全、避免数百万生命损失,还能助力Optimus机器人,带来更先进的医疗辅助能力。 值得一提的是,从11月股东大会公开表示“要和英特尔谈谈”开始,马斯克已经多次提及“特斯拉要自己造芯片厂”一事。 举例而言,马斯克上周曾表示,鉴于全自动驾驶将变得更加普及,特斯拉的芯片需求将大幅增长,而台积电和三星等供应商无法满足这一需求。 他补充称,三星和台积电向他表示,从破土动工到建成一座新的芯片工厂需要大概五年的时间,让他感觉像是“陷入了无尽的等待”,因为他预期在一两年内就完成这项任务。 华尔街同步站台:特斯拉是“必须拥有”的品种 值得注意的是,同一天特斯拉还获卖方机构助攻。 Melius在报告中重申看多评级,称特斯拉正站在“自动化与AI大爆发”的前夜,是投资者“必须持有的品种”。 该机构分析师Rob Wertheimer及其团队认为,特斯拉在芯片、全链条垂直整合以及软件设计方面的领先优势正在不断拉大,而传统车企因架构落后,已经不可能追上这一代际差距。
夹带私货?国家安全部解析境外游戏三大安全隐患
IT之家 11 月 25 日消息,游戏作为广受欢迎的娱乐形式,在为玩家提供休闲体验的同时,也需警惕其中潜藏的国家安全风险。 国家安全部刚刚发文,讲述了个别境外势力试图利用游戏平台传播有害信息,实施危害我国国家安全的行为,值得引起关注。 具体风险表现在多个方面,国家安全部将其分为三大方面,IT之家附原文如下: 文化歧视,掺杂偏见的“软刀子”。个别境外出品的游戏在角色设定、剧情构建及美术风格中,或明或暗地掺杂对华人群体特别是我国人民的歧视与偏见。如将涉及中国元素的角色设定为阴险狡诈的形象,在游戏中扮演施暴者,从事各种违背当地法律的恶劣行为。 —— 践踏红线,混淆是非的“伪坐标”。个别境外出品的游戏在涉及中国版图时蓄意错绘,恶意标注,涉嫌危害我国国家统一、主权和领土完整。如某境外游戏公司在一款二战模拟游戏中公然将西藏列为英属印度的“核心领土”,扭曲西藏自古是中国一部分的事实,个别游戏配套地图存在错绘阿克赛钦、藏南地区国界,将台湾从中国“划分”出去等问题。 —— 包藏祸心,渗透策反的“狩猎场”。个别境外间谍情报机关对我人员渗透策反的手段与途径不断“推陈出新”,甚至将触角伸向游戏领域。某款境外出品的游戏绕过我审查监管,利用“看广告得道具奖励”的机制,向玩家精准投放“间谍招募”广告,随后以“合作”“兼职”的名义掩盖其真实意图,以“高薪”“知识变现”等话术诱导玩家达成进一步合作,是极具迷惑性的新型手段。 针对这些风险,国家安全部提示公众应提高防范意识,不能“娱乐至上”,忽视其深层风险,要树立底线思维,主动作为,抵制游戏中“夹带私货”、威胁我国家安全的险恶图谋。 慧眼识珠,谨防“偷梁换柱”。正确的国家版图是国家主权和领土完整的象征,是国家主权的体现形式。在游戏等文化产品涉及我地图边界、标识时,要提高警惕、正确辨别,确保国家版图完整无缺,是必须坚守的底线与红线。 健康游戏,勿要“娱乐至上”。选择官方应用商店等正规渠道下载游戏,避免使用来源不明的下载链接、安装包;要平衡好生活与娱乐,让游戏成为我们生活中的调味品、解压器。 抵制诱惑,小心“精准狩猎”。面对境外间谍情报机关隐藏在游戏中的“合作邀约”,要认清其策反拉拢、危害我国家安全的居心。自觉提高网络安全防范意识,常敲警钟,抵制诱惑,为自己的数字生活筑牢“防火墙”。 国家安全部强调,游戏虽小,战场却大;一屏之隔,思想交锋。面对暗流涌动的渗透策反,我们必须保持头脑清醒,坚持“零容忍”态度,切实筑牢新时代国家安全的“数字长城”。如在游戏、社交媒体或其他网络平台发现可能危害我国家安全的情况,请务必保持警惕,并通过官方渠道进行举报。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。