EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
被裁的亚马逊普通员工,怒怼AI
作者:赵芮,编辑:张霞,题图来自:AI生成 上月底,亚马逊启动了近年规模最大的一轮裁员,约14000个岗位被直接削减。 这并非一场常规的降本增效,而是一轮面向AI时代的组织重构。对许多一线员工而言,真正的危险不是绩效下滑,而是岗位本身正被系统性稀释。 亚马逊CEO今年强调“Use AI or Bye-bye”。公司计划将更多资源加速投入到AI基础设施、大模型、云计算及自动化系统中。 随之而来的,是大量原本支撑跨境电商、国际零售和中后台运营的岗位,被压缩、合并,甚至直接消失。 在这一背景下,裁员逻辑变得简单而冷硬:不是你不够努力,而是你的岗位已不再被需要。 面对AI,那些过去依靠经验、沟通、流程和耐心维系的普通岗位,正逐渐失去支点,被悄然移出职场版图。 我们对话了三位被“一键清退”的亚马逊基层员工。相比财报与公告中的冷数据,他们的讲述更贴近地面。 从裁员邮件降临的一刻,到系统账号被瞬间注销;从AI工具的真实使用体验,到安稳感被击碎的瞬间——在这些细节里,一场工业级的AI转型,变得具体、冰冷,也更加接近普通人的真实命运。 上一秒还在对接客户,下一秒被裁了 得知自己被裁员那一刻,李明岚正在加班。 10月28日傍晚,她正对着电脑核对客户数据。“叮”一声,右下角弹出一封新邮件。标题很短,没有多余修饰。她愣了几秒,才意识到,那是一封裁员通知。 李明岚从事电商行业近10年,入职亚马逊担任客户经理一年多来,绩效排名始终靠前。裁员名单中突然出现自己的名字,让她一时难以回神。 她立刻告诉两位上级领导,但对方同样一脸错愕。除了表示惊讶与惋惜,他们也无法提供更多信息。据称,他们也是从前一天的媒体报道中才得知裁员消息,对具体安排并不知情。 想到仍有客户在等待回复,李明岚回到电脑前打算处理交接,并逐一向客户道别。系统却弹出提示:“您已无法登录。” 没有交接,没有过渡。她手中未完的项目和问题,就此戛然而止。 图 | 接到裁员邮件后,系统账号很快就被注销 “快到甚至不需要交接。”在李明岚看来,这次裁员更像一场迅速而彻底的清算。 国内商务岗基层员工刘令一,也在这场裁员中一夜出局。 在他的经验中,公司以往裁员遵循“PIP机制”——绩效尾部淘汰。流程包括书面通知、领导及HR约谈,再到数月评估缓冲,被裁员工通常有两个月左右的周旋期。 但这一次,从收到裁员邮件到与HR确认赔偿方案,刘令一只用了不到48小时。 曾经让人避之不及的HR约谈,这几天成了需要抢位的稀缺资源。由于涉及人数众多,HR行程排满,刘令一在收到邮件后立即预约,才挤进了第二天下午的空档。 会议室里,一名素未谋面的主管与一名HR直接宣读裁员结果,并提供三种赔偿方案,全程几乎没有寒暄。 明明没有外籍人员在场,对话却全程使用英文。刘令一觉得,这种难以说明缘由的“硬裁”,似乎更适合用一种非母语完成。 他对这份工作本就没有强烈留恋,但面对冷静而程式化的话术,仍感到不适。会议桌上的文件,字字句句似乎都与公司反复强调的“领导力准则”形成微妙反差。 “成为全球最好的雇主,关注员工成长与发展。”他在心里默念,签下了名字。 受冲击更大的,是林梦颖这类员工。 在国内互联网大厂经历三年高压工作后,林梦颖于去年底入职亚马逊中国,担任电商运营。不到一年,她第一次感受到所谓的“work-life balance”:每周三天到岗,六点下班,双休,团队节奏稳定,没有强烈内卷。 她将这里视作一处“修复空间”,开始恢复运动、阅读和社交节奏,并与男友计划未来,相信这份相对稳定的岗位可以支撑更长远的生活。 10月27日,是林梦颖的生日。晚上,她正举起手机准备给蛋糕拍照,屏幕突然弹出一封公司邮件。 她以为是节日祝福,点开后才发现是领导预告即将裁员的通知。“裁员赔偿大礼包”,成了今年最突兀的生日礼物。 更意外的是,她所在的小组整体被裁,相关业务线在全球范围内同时撤除。对于一些跨境工作的员工而言,裁员还意味着签证、居留和生活安排的连锁变化。 社交平台上,关于此次裁员的讨论持续发酵。一位网名为“小户里的小布”的新员工形容,这轮裁员像“灭霸的响指”。 “不看绩效,只为消灭人口”,他写道。 与AI斗智斗勇大半年,最终被干掉 实际上,在裁员消息公布之前,亚马逊内部早已出现过“预警”。 6月底,李明岚收到一封系统邮件,附上了CEO安迪·贾西在公司官网发布的一篇长文。密密麻麻的英文中,“AI”几乎每隔几行就出现一次。 从基础设施、大模型,到云服务、电商和物流应用,亚马逊今年展开了有史以来最大规模的技术投入。1000个人工智能相关的项目正在开发,公司物流仓储、云服务、电商业务等都正在被AI重塑。满屏都是与AI相关的雄心壮志。 在文章结尾处,贾西写道:随着AI效率的提升,未来几年公司员工规模将随之缩减。 当时看到这句话,李明岚并未放在心上。AI取代人,是一种被讲了太多年的“未来命题”。 直到裁员邮件弹出,她才反应过来:原来,未来这么快就来了。 这轮裁员,安迪·贾西的公开说法是,为适应AI技术变革,将资源进一步集中至人工智能相关领域。“Use AI or Bye-bye”是他挂在嘴边的企业新口号。 这场“All in AI”的转向,其实从年初起,刘令一就已感知到。 公司内网陆续上线AI搜索插件和办公工具,鼓励“全员开发”,员工可以使用内部平台搭建自己的AI应用。部门还要求在每周例会上分享AI使用场景,轮流讲述“如何用AI为业务提效”。 但在刘令一看来,这更像一项行政任务。 听说有同事开发了一款生成销售话术的智能体,他只觉得是“纸上谈兵”。 商务工作本质上是一种高频互动。对接中小卖家,谈判、维系关系,靠的是情商、语境判断和即时反应。而AI生成的话术往往生硬、模板化,很难真正嵌入真实的商务场景。 同事们心照不宣,默认在核心业务上与AI保持距离。 一次聚餐中,有同事向刘令一抱怨:“鼓励用AI提效,说白了,不就是让我们加速被替代。” 焦虑之下,周会里的“AI分享”更多沦为PPT美化、资料整理,真正能直接进入业务链条的场景,少之又少。 但在季度汇报节点,部门又被要求配合领导,设计一套“AI赋能业务”的方案,对上汇报。 让底层员工设法用AI提效,更像一种自上而下的焦虑传导。 7月底,亚马逊召开第二季度财报电话会议。CEO安迪·贾西遭受了电话另一头的轮番拷问。 亚马逊云服务营收增速远低于微软和谷歌、人工智能领域的发展也落后于竞争对手。 在投资人轮番追问中,贾西试图用宏大的AI蓝图稳住情绪。但会后,AWS股价在盘后交易中下跌7%。显然,资本并未完全买账。亚马逊还需要讲出更能让市场信服的AI故事。 然而这场AI浪潮,在基层员工这里,并未形成真正的共振。 林梦颖忙不过来时,也会用公司AI工具辅助分析广告数据。但从输入指令、生成结果再到人工复核,流程复杂,效率提升有限。而且AI不了解具体商家背景,结论常常流于表层。 她给这个系统打的分数是“60分”。这让她产生一种错觉,AI短期内无法替代自己。 李明岚也有类似判断。她认为,客户是否出席活动,往往取决于长期信任和人际关系的积累。即使公司AI系统能答业务问题,但人与人之间的连接,机器无法取代。 只是从公司整体视角看,这些价值微乎其微。 根据2024年亚马逊财报,国际零售业务营收约占22%,利润只贡献约5.5%;而云服务业务虽仅占总营收约17%,却贡献了近60%的营业利润。 今年,亚马逊计划投入超1000亿美元加码AI领域,传统业务的战略权重进一步下滑。 在AI浪潮下,个体在业务链中的价值被稀释成可随时替换的变量,在系统化裁剪面前显得可有可无。 李明岚们曾努力维系的岗位、积累的经验与信任,在一夜之间被结构化淘汰。 系统生锈,螺丝钉背锅 账户被公司系统一键注销后,李明岚努力保持平静。 她感觉这种不快就像一个原本自己也并不痴迷的人,突然甩了自己。 作为客户经理,李明岚的日常被电商平台上各种琐碎问题围绕,其中最常遇到的是客户资质审核。 8月初,一位服装零售客户发来求助。李明岚打开审核系统,却提示依旧模糊:“请核实提交资料的完整性”,她顿感头疼。 在亚马逊,为了过滤风险账户,跨境电商需要不定期接受资格审查,内容包括卖家身份、经营资质、财务状况等。审核系统高度自动化,算法能敏锐判定合规与否,却难以解释具体原因。 通常,这类问题交由公司统一负责的部门处理。客户经理能做的,往往只是将客户情况整理成邮件上报。 面对“算法黑箱”,对面的回应,也多是:“请客户重新上传文件。” 接下来的几周,李明岚陪客户反复试错:压缩图片、修改注册信息、重新扫描账单,甚至调整扫描清晰度,如此循环再提交。 直到月底的一次系统刷新,提示忽然变为“审核通过”。客户连声道谢,而李明岚却笑不出来——问题的解决并非源自自己,也许是算法更新了参数,也许是模型重新训练。 她能起的作用,仅是“提供情绪价值”,耐心回复客户的疑问,并安抚焦虑情绪。 最初加入亚马逊时,她期待在新领域积累业务能力,但这种耗费精力却难有收获的日常,不断削磨她的底气。 系统架构带来的结果,是基层员工不得不承担的“副作用”。李明岚及部门的绩效与客户营业额直接挂钩。 客户因审核问题暂停交易,损失的销售额同样会被模型算出,而后精准扣在业绩上。那个月,她还有两位客户的店铺因同样问题关停,绩效免不了下滑。 在这个全球规模庞大的跨境电商平台里,信息高效流通本就不易,这也是刘令一日常困扰所在。 在亚马逊工作的这段时间,他使用过三套内部通讯工具,有时为开会要在三个平台轮番通知。公司没有统一的OA系统,需要检索内网或依靠零散文档获取信息。邮件仍是日常沟通的主渠道。 一次上门拜访客户时,刘令一被客户指向新上线的功能,询问具体操作。面对陌生的功能名称,他低声应了两句,装作淡定:“我得跟团队确认一下,再告诉您。”事实上,他完全不知何时上线,也不清楚细节。 平时,他清楚的仅是自己明确的KPI,对项目全景和产品体系理解有限。几次向直属领导提出疑问,得到的回答也模糊不清,信息量并不多。 与他们相比,林梦颖更像一只在实验项目里的“小白鼠”。 去年底,她从国内头部大厂跳槽,进入亚马逊中国的一个新型电商客户项目组。此前投递过亚马逊职位未果,这次意外被HR在人才库中发现。 面试时,她在两天经历了六轮考核。与以往不同,面试官更关注她与“领导力准则”下企业价值观的契合度,而非过去经历的细节。这让林梦颖感受到,公司对员工能力的包容度更高,而非“即来即用”。 加上对外企“不卷”“自由度高”的印象,她接下了offer。即便降薪、无年终奖、缺少食堂或健身房等“大厂待遇”,她依然觉得值得尝试。 入组后,松弛氛围超过预期。前两个月,她几乎没有正式任务,主要在系统上学习岗位知识。遇到困难,向同事请教,总能得到耐心而细致的解答。 在此前的工作经历中,林梦颖一直感受同级间暗自较劲。而在这里,她几乎没有压力感。并非亚马逊所有项目组都如此松弛,在裁员前,她曾一度觉得这份工作理想得有些不真实。 直到得知该项目将在全球撤裁,林梦颖意识到,这或许本身就是一场业务实验,而那些曾让她觉得不真实的松弛感,也终于有了答案。 图 | 大裁员的同时,亚马逊依旧在招聘AI人才 裁员同步进行的,是招聘。 社交平台上,一条亚马逊运营岗招聘帖写着:“会用AI就行。” 亚马逊这艘大船仍在航行,只是改了航向。 而那些基层员工,则成了随时可能被卸下的舱内货物。 *应受访者要求,人物信息有适度模糊 本文来自微信公众号:AI故事计划,作者:赵芮,编辑:张霞
库克时代将落幕 英媒:苹果新CEO需跳出舒适区敢于冒险
库克 凤凰网科技讯 北京时间11月21日,苹果公司CEO蒂姆·库克(Tim Cook)或在明年卸任。《金融时报》编辑理查德·沃特斯(Richard Waters)发表观点文章称,苹果新任CEO不能安于现状,应该更具冒险精神,大胆押注AI等新的技术潮流。 以下是文章全文: 如果2026年是库克担任苹果CEO的最后一年,他将华丽退场。《金融时报》此前报道称,苹果正在加紧推进接班人计划。这似乎愈发表明,这家卓越的消费科技巨头很快将迎来新的掌舵人。 过去一个月,iPhone 17的强劲需求一度将苹果的市值推高至4万亿美元以上。加上库克上任之初推动的大规模股票回购这一强劲助力,苹果股价自2011年他接任以来已上涨20倍。 然而,在AI正引发数十年来科技界最深刻变革的当下,库克的离任也会留下重大问题。他的继任者需要展现出更强的冒险精神,并勇于押注能够让科技重塑人类生活的全新愿景。 守江山难 库克的CEO任期始于iPhone问世四年后,始终笼罩在智能手机时代的光环之下。尽管全球智能手机销量在近十年前就已见顶,但至今仍未出现能撼动其核心地位的新品类。库克运筹帷幄,通过AirPods和Apple Watch等新硬件与服务生态,围绕着iPhone构筑了一个坚固的帝国。 然而,打江山易,守江山难。库克的继任者需要证明,他既能利用AI巩固库克打造的基业,又能挖掘其颠覆性潜力,引领下一波消费科技浪潮。 库克领导下苹果市值增加逾3.5万亿美元 今年初,苹果AI套件Apple Intelligence关键功能的延迟推出令人担忧,但长远影响尚难断定。作为超10亿iPhone用户的守门人,苹果拥有筛选大语言模型的主动权。在当前各模型差异化有限、基础智能趋于同质化的阶段,这种延迟或许影响不大。 Apple Intelligence仍可能重新定义智能手机的使用体验,例如通过Siri语音助手,用一句简单指令就能完成手机操作,而无需在无尽的应用之间点来点去。这可能推动未来iPhone升级周期,并为这款经典设备注入新的生命力。 AI落后风险 但是,在AI革命中采取被动跟随姿态显然存在风险。若大语言模型成为创新核心,而苹果仅充当“收租人”,将定义下一代数字体验的主导权拱手相让,必将使其陷入尴尬境地。 更关键的是,倘若大语言模型演变为实质性的新操作系统,它们将具有战略性重要性。OpenAI近期展示的ChatGPT内直接调用应用功能,正是对iPhone应用商店模式的直接挑战。 库克时代的鲜明特征,是苹果对技术“栈”各关键环节的全面掌控,从芯片到软件。为延续这种严密控制,收购领先的AI模型开发商或将成为必然选择。 更大的问题是,AI是否会终结智能手机时代,为新的设备开路,从而吸走用户注意力,威胁苹果在用户生活中的核心地位。究竟这种原生AI硬件会呈现何种形态尚不清楚,但库克对此几乎未作布局。 Vision Pro头显代表了库克在新设备和新型数字交互方式上的最大赌注,这被苹果称之为“空间计算”。作为纯技术展示,它令人印象深刻,展示了苹果对多种先进组件的掌控能力。但是,苹果并未拿出有说服力的理由,证明这款头显将激动人心地改变人们的未来生活(这是乔布斯所擅长的)。相反,Meta通过一系列更轻便、注重时尚的“智能”眼镜抢占了先机。 大胆押注 库克领导下的苹果还对可能成为最大AI硬件市场的机器人领域望而却步。苹果放弃自动驾驶汽车研发项目的决定,使得特斯拉在公众认知中俨然成为消费级机器人领域的先锋,无论是汽车形态还是人形机器人。虽然埃隆·马斯克(Elon Musk)公司的自动驾驶技术远落后于计划进度,人形机器人规划也可能超出当前技术能力范畴,但马斯克无与伦比的冒险精神至少让公司有机会在市场上抢得先机。 苹果的下一任掌门人必须加大公司的战略赌注,其首要任务之一,就是说服已习惯依赖iPhone稳定利润的股东们:是时候告别库克时代的安逸时光了。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
放贷的度小满,也能拿科学技术奖了?
11月7日,2024年度北京市科学技术奖公布。 度小满,这家源自百度的金融科技独角兽,与中科院自动化所联合申报的“多模多维大模型驱动的金融风险感知与评估系统”,荣获北京市科学技术奖科学技术进步奖。消息一出,舆论哗然。 “我原以为度小满是一个非常厉害的科学家。”“科技的尽头是网贷?”“算法能精准知道你什么时候缺钱,也是一种科技进步。”——社交媒体上的调侃,精准地戳中了公众的情绪。 这场“啼笑皆非”的获奖风波背后,度小满其宣称“技术底座”与“AI风控”。另一面,度小满的估值腰斩150亿、营收增长乏力、深陷“校园贷”风波与3.4万条“暴力催收”投诉的经营现实。 当一个主营“放贷”业务的金融平台站上“科技进步”的领奖台,它究竟是名副其实,还是“驴戴人帽”的滑稽剧? 科技进步还是“最强风控”? “科技进步奖”,是一个极具分量的官方奖项。 在公众的朴素认知里,这个奖项应该属于那些“上天入地”的硬核突破,比如芯片、新药、火箭,或是改变生活的杂交水稻。 度小满的获奖理由,是其与中科院自动化所联合研发的风控系统。根据官方介绍,该项目历时四年,构建了金融知识图谱,能衍生出近40万维高价值特征,覆盖95%的业务需求,并将风险区分度提升了26%。目前,项目已申请发明专利71项、软著30项,发表高水平学术论文38篇。 从技术参数上看,这无疑是一项复杂的AI工程。度小满试图证明,它不是一个“粗放”的放贷机构,而是一个用AI算法武装到牙齿的“金融科技”公司。 然而,公众的质疑点并不在“技术”,而在“价值”。“一个利率高达24%的网贷公司,最大的贡献是为广告公司提供了业务。”“中国不缺网贷公司,缺真正的高科技公司。” 这种质疑并非空穴来风。度小满的获奖,触动了社会对“科技向善”还是“科技向利”的敏感神经。当最前沿的大模型技术,被用于构建一个更高效的“风控”和“放贷”系统时,它带来的“社会进步”是什么?这种“违和感”,在对比中显得尤为突出。 以北京市科学技术奖为例,往年的获奖者中不乏改变国计民生的“国家队”和“硬科技”企业。例如,中国中车研发的“时速350公里‘复兴号’动车组”;百度研发的“‘文心’大模型关键技术与应用”;京东方研发的“柔性OLED显示关键技术”。 当“复兴号”和“文心”的旁边,站着一个主营“有钱花”、“满易贷”的金融平台时,其“科技进步”的成色难免受到审视。 社交媒体上的“群嘲”,本质上是一场“价值错位”。公众认为,科技的终点应该是星辰大海,而度小满却展示了另一个版本:科技的尽头是“网贷”。 在“怀旧游戏仓库”等自媒体的推文中,这种讽刺被推向了极致:“过去的科学家研究‘上天入地’,现在的科技公司研究‘让你欠到底’。” 估值腰斩与“无场景”困局 这场获奖风波背后,度小满亟需向外界“正名”。 自2018年从百度拆分、获得19亿美元融资并估值260亿元以来,这家“百度嫡系”的独角兽,其光环正迅速褪去。 胡润全球独角兽榜的数据显示,2019年,度小满的估值尚有200亿元。而到了《2024年全球独角兽榜》,其估值已缩水至110亿元,五年间估值蒸发近百亿(相较拆分时则腰斩150亿)。 度小满的盈利能力也极不稳定。2021年,其营收为30.18亿元,净利润8.87亿元。 2022年,营收下滑至28.98亿元,净利润维持在8.87亿元。 2023年,业绩突然“跳水”,营收降至18.1亿元,净利润骤降至2.12亿元。 2024年,业绩又戏剧性“暴增”,营收22.57亿元(同比增长24.7%),净利润8.59亿元(同比激增306.1%)。 这种“过山车式”的业绩,暴露了其业务模式的脆弱性。 度小满最大的困境,在于“无场景”。对比其竞争对手,蚂蚁集团背靠淘宝电商,微众银行依托微信社交,京东科技绑定京东商城。这些“巨头”的金融业务,都根植于高频的“交易”或“社交”场景中,获客成本极低,且能获得海量的风控数据。 度小满,背靠的是百度的“搜索”。“搜索”是一个“弱关系”场景。“连用户实名数据都难提供”,一位业内人士曾如此评价。这种“先天不足”,导致度小满在百度金融时期尝试的教育分期、医美分期等场景,均因“坏账上亿”而折戟。独立运营后,场景缺失的问题依然无解。 为了弥补“无场景”的短板,度小满只剩一招:烧钱买流量。从机场、高铁站、地铁的巨幅广告,到热门综艺和影视剧的植入,再到抖音、小红书的信息流推送——度小满的广告几乎无孔不入。但这种“烧钱式”营销的转化效率并不高。有报道称,助贷机构的获客成本在5年间飙升6倍,新客户转化成本最高近3000元。 同时,合规的“达摩克利斯之剑”始终高悬。截至发稿,黑猫投诉平台上,关于度小满的投诉量接近3.6万条。“暴力催收”、“威胁恐吓”、“高利贷”是高频词汇。2024年底,女演员刘乐妍公开吐槽,因被陌生借款人填为紧急联系人,遭度小满“从早到晚电话骚扰”,事件一度冲上热搜。 2025年11月,度小满再度卷入“校园贷”风波。据山西日报报道,一名在读研究生在度小满借款超6万元,而国家早已明令禁止网贷机构向在校生发放消费贷款。更讽刺的是,在黑猫平台上数十条关于“校园贷”的投诉中,度小满的客服在拒绝退还息费时,理由竟是用户“隐瞒学生身份”,却无法提供放款前核实非学生身份的证据。 内忧外患下,度小满选择“出海求生”。度小满已组建团队进军墨西哥和印尼市场,试图在“利率模糊”的新兴市场,复制早年“现金贷”玩法。从国内的“无场景”困局,到海外的“背水一战”,再到此次“科技进步奖”引发的群嘲——度小满的每一步,都走在技术、合规与舆论的钢丝上。
贾跃亭再获一家美股上市公司 AIXC挂牌拟买入500万美元FF股票
凤凰网科技讯 11月21日,法拉第未来(Faraday Future,简称FF)今日发布公告,宣布其控股子公司AIxCrypto Holdings Inc.(简称AIxC)已完成纳斯达克上市公司的更名手续,正式以全新股票代码“AIXC”进行交易。这意味着继四年前FF上市后,贾跃亭在纳斯达克迎来了其控制的第二家上市公司。 在更名挂牌仪式上,FF创始人兼Co-CEO贾跃亭披露了AIxC的战略定位,该公司将聚焦于区块链底层技术与AI驱动力的结合,试图构建一个连接Web2与Web3的业务生态。根据公布的业务规划,AIxC将布局“三驾马车”:Web3 AI交易终端、RWA(现实世界资产)及EAI生态开发、以及加密资产AI管理。其中,备受市场关注的RWA业务将率先启动FFAI股票的代币化项目,计划通过独立第三方首批购入价值500万美元的FFAI股票。 对于此次资本运作,FF方面将其定义为“双飞轮、双上市”体系的搭建。贾跃亭表示,AIxC作为独立增长引擎,预计将从融资、资产、技术等五个维度对母公司FF进行“反向赋能”。特别是在融资层面,FF希望借助股票代币化探索比传统Web2市场成本更低、效率更高的融资路径,从而缓解造车业务的资金压力。 此外,FF在公告中同步更新了业务进展。在技术储备上,公司近期提交了一项基于区块链技术的车辆共享分时租赁系统专利,旨在通过自动化信用校验和结算实现闲置车辆的收益分配。在量产交付方面,FF正冲刺年底前实现FX Super One的首车下线,并定于11月27日开启中东地区的首车交付。
Gemini 3背后,一个带领谷歌AI翻盘的男人
北京时间11月19日凌晨,万众期待的谷歌最强推理模型Gemini 3正式揭开面纱,包括Gemini 3 Pro和增强型推理模式Gemini 3 Deep Think两个版本,还带来了全新AI Agent开发平台Google Antigravity。 Gemini 3 囊括了原生多模态、推理、Agent多种能力,从性能上看,Gemini 3以1501分登顶LMArena全球排行榜,是首个突破1500分的模型,创下综合能力评估新纪录;在博士级推理benchmark中也实现了跃升。 一句话总结——Gemini 3是目前为止最接近人类顶级智商的通才型的角色。它超强的性能也让竞对“Respect”。 OpenAI CEO奥尔特曼在社交媒体上发表评论称Gemini 3 “看起来是个很棒的模型”;马斯克也一如既往地送上“Nice work”的评价。 全网创作者也都迫不及待体验一下Gemini 3,开发出了多种应用,比如有人重现经典游戏创建了3D吃豆人游戏。这种3D开发原本需要耗费大量时间精力,但现在几句话就能搞定。 资本用实际行动对Gemini 3给予了肯定。19日,谷歌母公司Alphabet股价最高涨6.9%,达303.68美元,刷新历史新高,最终收于292.99美元,当日市值达3.54万亿美元。 自ChatGPT诞生,人们把更多目光投向了OpenAI,或者是和它大抢人才的Meta,甚至是来自东方的DeepSeek,Gemini 3诞生后,谷歌AI的含金量在上升。 Gemini 3来自谷歌旗下AI研究团队DeepMind。该团队表示,Gemini 3是全球最先进的多模态理解模型、谷歌最强大的Agent编程和氛围编程模型,能呈现更丰富的可视化效果和更深度的交互体验,且完全构建于最先进的推理技术基础之上。 一个组织,最终的决定因素就是领头人。谷歌这次能凭借Gemini 3来一次奇袭,DeepMind功不可没,而DeepMind创始人、首席执行官戴密斯·哈萨比斯无疑是最大功臣。 拯救谷歌AI的男人 哈萨比斯在AI圈赫赫有名,出圈则是在2024年,他和其他两人共同获得了当年的诺贝尔化学奖。 当时,诺贝尔化学奖一半授予大卫·贝克,“以表彰在计算蛋白质设计方面的贡献”;另一半则共同授予了哈萨比斯和约翰·M·詹珀,“以表彰他们在蛋白质结构预测方面的成就”。 一个搞AI的科学家获得诺贝尔化学奖,震惊了全球科技界。不过,那一年,AI“横扫”2024年诺贝尔奖,除了化学奖,物理学奖也授予给了两位AI领域的科学家。由此可见,AI已无处不改变人类的生活,包括学术。 哈萨比斯确实是一个天才。他从小学习国际象棋并屡获大奖。11岁,靠比赛中赢得的奖金,他买了人生第一台计算机 ZX Spectrum,开始研究编程。1992年,年仅16岁的哈萨比斯被剑桥大学计算机科学专业录取。 学霸哈萨比斯到底有多聪明?1999年起,他连续四年参加一个专门为天才较量智力的国际比赛,结果是——他都赢了。 学业优秀的同时还不耽误挣钱,大学期间,哈萨比斯在一家游戏公司工作,主导开发了主题模拟游戏《主题公园》。所以,1998年大学毕业后,他创立“仙丹工作室”。 不过,学术才是哈萨比斯最想追求的。2005年,他回归学术领域,在伦敦大学学院攻读认知神经科学博士学位。2011年,他中断了博士后研究,创办DeepMind。三年后,DeepMind被谷歌4亿英镑收入囊中,哈萨比斯继续领导DeepMind。 2016年,DeepMind推出了火爆全球的AI围棋机器人AlphaGo,并击败了世界围棋冠军李世石,轰动一时。2018年,DeepMind又研发出可预测蛋白质结构的AI系统Alpha Fold,解决了人类生物学难题。在AI领域,谷歌一直被奉为先行者。 时间到了2022年11月,一家看似名不见经传的创业公司OpenAI,推出ChatGPT,生成式AI一时风头无两,彻底改变了AI竞争的维度,OpenAI成为炙手可热的AI巨星。 反观谷歌,那两年毫无水花。但谷歌肯定也不甘心。2023年4月,谷歌两大AI实验室谷歌大脑、DeepMind合并,哈萨比斯开始领导全新的谷歌DeepMind部门,成为谷歌AI领路人。 正是在哈萨比斯当上谷歌AI“老大”后不久,谷歌于2023年12月推出多模态AI模型Gemini,可处理文本、图像、音频、视频和代码五种模态信息,支持生成主流编程语言代码并提供安全性评估。 如今,Gemini到了3.0阶段,直接吊打其他竞争对手,哈萨比斯只花了两年时间。谷歌基于Gemini模型的搜索功能AIOverviews月活用户已达20亿,Gemini应用月活用户超过6.5亿,超过70%的云端客户使用谷歌AI功能,1300万开发者用其生成模型构建了作品。 哈萨比斯对AI的理解,包括对大语言模型所做的一系列决策,使得谷歌真正实现“王者归来”。 四个男人之间的较量 哈萨比斯在一次对话中透露,目前谷歌AI团队约有5000人,主要由工程师和博士研究员组成,占比80%以上,算下来拥有大约三四千名顶尖技术人才。 “我们就像是整个谷歌和Alphabet的‘发动机舱’。我们不仅正在构建核心的Gemini模型,还开发包括视频模型、交互式世界模型在内的多种AI模型。现在这些模型已全面接入谷歌生态,几乎每款产品、每个交互界面都运行着我们研发的AI模型。”哈萨比斯说道。 如今,已有数十亿用户通过AI概览、AI模式或Gemini应用与谷歌模型交互。哈萨比斯认为这仅仅是个开始。谷歌正在将AI深度集成到Workspace、Gmail等全线产品中。这是谷歌的一个绝佳机会:既能开展前沿研究,又可立刻让全球用户体验到成果。 由此可见,因为Gemini,谷歌牢牢抓住了再一次辉煌的机会,也甩开了竞争对手一步。此前,靠着在编程领域的领先性能,Anthropic的营收和估值也一路走高,但如今它优势似乎已被谷歌追平。 猎豹移动董事长兼CEO、猎户星空董事长傅盛分析,哈萨比斯能领导谷歌做出Gemini 3,主要有如下几点: 第一,坚定大语言模型路线。哈萨比斯太了解AI的技术底层,所以当ChatGPT出现时,他在谷歌内部全力要求除了AlphaFold外所有技术路线完全转向大语言模型,否则就离职。此前DeepMind是强化学习等路线。做企业是实战,绝非理论研究,这种决策需要很大的勇气,也说明哈萨比斯的务实。 第二,异常重视底层模型能力。哈萨比斯认为底层模型决定一切。所以在压力最大的时候谷歌并非匆忙推应用,而是持续研究底层模型,和OpenAI形成非常鲜明的对比,后者过去几年不断推出新应用,看似很创新,但其实最顶尖的竞争一定是底层模型的竞争。从Nano Banana到这次的Geminig 3,底层模型经历跃迁式进步。 第三,对人才极度重视。虽然哈萨比斯为了统一大语言模型技术路线,在谷歌内部非常强硬,不管你是什么专家,不认同就离职,但认同的人才则千方百计去挖。值得一提的是,哈萨比斯不仅自己去各处寻找人才,还让谷歌创始人布林不惜重金去挖,重构谷歌内部AI团队。 这里要重点提一下谷歌大脑和DeepMind的合并。众所周知,团队合并涉及理念、文化、管理等各种3阻力,每次合并都几乎是一场血雨腥风,很多合并案最后都以失败收场。但哈萨比斯成功了。 Geminig 3的成功,可以看出哈萨比斯这个谷歌AI领头人的重要性。而未来的AI的决战,数一数,能站在一起竞争的也就几家公司,这背后,其实就是一群男人的游戏。 有意思的是,傅盛把微软和苹果都排除在这场争夺战中,在他看来,这两家公司压根儿就没有所谓的AI掌门人。他强调,除了哈萨比斯,马斯克、阿尔特曼,以及被Meta扎克伯格寄予厚望的亚历山大·王将正面交战。 在这几个人当中,哈萨比斯懂技术有实战拼一线;马斯克虽然是一名钢铁战士,但离一线远了点;奥尔特曼对技术理解不如哈萨比斯和马斯克;亚历山大·王则贵在年轻,但在技术上也欠经验和实干。 哪位AI掌门人最终能胜出?这个问题只能留给时间。 本文来自微信公众号“大咖科技Tech Chic”,作者:董文,编辑:宋辰
小米HAD增强版辅助驾驶发布:引入强化学习与世界模型,AES紧急转向功能上车
凤凰网科技讯 11月21日,小米汽车在今日广州车展活动中正式对外发布了小米HAD增强版,并披露了其在智能驾驶领域的最新研发进展与人才布局。小米汽车方面表示,公司在AI领域的战略投入持续加码,2025年仅AI研发投入预算就将超过70亿元,目前的辅助驾驶专家团队规模已达1800人,其中包含108名博士。 在技术架构层面,此次发布的小米HAD增强版不仅基于原有的1000万clips训练基础,更核心的变化在于引入了强化学习算法与世界模型,试图通过“端到端”技术路径提升驾驶表现。据介绍,通过世界模型,系统能够在数字空间中生成包括极端天气(如大雾、大雪)、复杂路况及突发碰撞等在内的多种场景,利用奖励函数机制训练算法,使其从“规则驱动”转向“学习驱动”。官方数据显示,该世界模型技术已获得ICCV和NeurIPS等国际学术会议的认可。 针对用户实际驾驶痛点,新版本重点优化了纵向与横向的控制体验。在应对旁车加塞场景时,系统通过大模型预测并线意图,减少了过度减速和急刹车的情况;在复杂路口(如右侧左转车道)的路径规划上,系统展现了更强的导航理解与绕行能力。此外,备受关注的主动安全功能也迎来了大幅升级。小米此次正式推出了AES紧急转向辅助功能,该功能可在AEB(自动紧急制动)无法避免碰撞且周边环境安全时,自动触发变道以规避风险,支持的运行速度区间为80km/h至135km/h。 与此同时,基础的AEB功能也进行了全方位扩容。前向AEB的生效范围扩展至1km/h至135km/h,并新增了对防撞桶、水马、柱子及墙壁等异形障碍物的识别能力;后向AEB则覆盖了1km/h至30km/h的倒车场景。小米方面强调,安全辅助功能的灵敏度经过了反复平衡,旨在兼顾刹停准确性与减少误触发。 本次发布的智驾更新将包含在小米HyperOS 1.11.0版本中,由于审核的进度差异,不同车型的推送时间可能会略有不同,官方将全力推进,尽早的将版本推送给大家。
马云意外鼓励,蚂蚁又一个奇兵出现了
摘要: 截止到发稿,灵光App已经冲上App Store总榜第七,App Store免费工具榜第一。同为阿里系兄弟,千问App目前排名总榜第四。 凤凰网科技 出品 作者|赵子坤 编辑|董雨晴 11月18日,阿里正式推出“千问”仅一天后,蚂蚁集团就推出全模态通用AI助手“灵光”。 巧合的是,阿里巴巴创始人马云于当日现身蚂蚁集团园区,头戴白色鸭舌帽,佩戴工牌,由蚂蚁集团董事长井贤栋、CEO韩歆毅陪同。 据凤凰网科技了解,当天马云是来参加蚂蚁二期办公楼奠基仪式,并不是专门“为了灵光”。 不过,11月20日,蚂蚁集团CTO 何征宇在接受凤凰网科技在内媒体采访时透露,马云在私下沟通时表示鼓励,“希望我们往前冲”。 “本来定的目标是20万(下载量),马老师说这个目标太低。其实我们昨天就已经完成了,现在是破了50万。”何征宇说。 截止到发稿,灵光App已经冲上App Store总榜第七,App Store免费工具榜第一。同为阿里系兄弟,千问App目前排名总榜第四。 不同于“对标ChatGPT”的高调,蚂蚁对这款产品的定位是“普惠”,能够让用户获取信息和效率。 在被问及是否有类似千问的“对标”野心时,何征宇对凤凰网科技回答道:“我们更希望被别人对标。20万(下载量)只是一个指标,我们的目标是创造开放性的、有主张的、大家都很喜欢的产品,让用户能在灵光创作出足够好的应用。” “灵光”负责人蔡伟则说,从产品主张的角度,成为第一并不是目标。“模型能力仍在持续演进,那短暂的第一名就没那么重要,甚至可能是错的。这件事在互联网时代也反复验证过。” 面对“起步是否稍晚”的疑问,蔡伟认为,“早和晚是相对的。”他类比道,抖音诞生时,快手也已发展多年。团队判断,大模型应用的“iPhone 4时刻”(即爆发拐点)或许尚未真正到来,现在依然是全力探索和创造用户价值的黄金时期。 谈市场竞争:“前面的机会太大了,我们今天讲的竞争都不是竞争” 当下,国内掀起了日趋激烈的AI应用竞争,玩家各有优势和长板。 何征宇直言:“如果你相信AGI是一个互联网级别的机会,今天所谓的竞争都不是竞争,只是有人暂时在一个方向上找了一桶油,那里找了一个苹果。” 他将阿里系的其他AI产品视为“共赴AGI的战友和兄弟”,强调在AGI这个充满不确定性的战场上,开放协作比零和博弈更重要。“我们在沙漠中找水,一定不会把所有人都派到一个方向上。” 这也支撑着蚂蚁做AI应用的定位——灵光明确放弃“陪聊”功能,专注于效率赛道。在产品负责人蔡伟看来,“用户要的是功能,不是模型。但用模型去做功能,是这个时代最大的变量。” 与市面上多数主打对话陪伴的AI产品不同,灵光选择专注于提升信息获取与处理的效率。 “当你在搜索引擎或小红书搜索一个概念时,得到的是大量需要手动筛选的链接和帖子。”蔡伟举例说,“而灵光要做的,就是利用大模型的能力,帮助用户完成信息的总结、归纳和推理,让复杂变简单。” 这种效率至上的理念贯穿灵光的三大核心功能:主对话能生成包含3D模型、动态图表的多模态内容;“闪应用”让用户用自然语言30秒生成可交互应用;“开眼”则提供视觉交互入口,让用户通过摄像头与世界互动。 蔡伟提出,行业主流的内容生成范式已从“Email时代的Markdown文本”进化到“Web时代的全代码生成”,后者能实现图文、图表、3D模型乃至可交互应用(闪应用)的动态构建。 这一技术路线,对模型代码能力与工程优化也提出了极高要求——代码量是纯文本的5-6倍,同时必须保证流畅的移动端体验。 但这一功能也让“灵光”区别于市场上产品,就在沟通会当天晚上,闪应用功能被“挤爆”,灵光通过官方账号承认崩了,称“马上会回来”。 谈产品与组织:三天讨论立项,押注“代码生成” 年初DeepSeek的横空出世,给整个中国AI行业带来了信心,也给蚂蚁团队带来了“兴奋、紧迫感和羞愧”的复杂情绪。 何征宇坦言,这促使蚂蚁在年后进行了连续三天的深入讨论,做出了“蛮彻底和果敢”的团队调整,成立了一个集研究、工程和产品“三位一体”的独立AGI组织。 “我认为只有这么一个高效的组织,才有可能在AI这个充满竞争和机会的时代,最大程度地提高我们的效率。”何征宇说。 “效率”也是他反复提及的关键词。不仅体现在模型训练上——用相对少的资源实现模型规模的跨越式增长,更体现在蚂蚁一贯的产品哲学上:用最前沿的技术做最普惠的产品。 从当年的二维码到今天的灵光,蚂蚁坚持的是同一套逻辑。“我们就是把技术里面最好玩的东西拿出来了,没想到这么受欢迎。”何征宇表示,灵光并非为了打击某个特定行业痛点,而是致力于降低AI的使用门槛,让它真正惠及普通人。 “蚂蚁一直擅长的是用最前沿的技术做最普惠的产品。”何征宇指出,从二维码支付到今天的灵光,蚂蚁希望能够始终坚持技术普惠的路径。蔡伟补充道,闪应用功能正是这一理念的体现,希望让每个人都能用自然语言生成以前需要整个团队才能完成的应用。” 谈发展与愿景:不是战略规划,是抓AGI时代的机会 谈及“灵光”在蚂蚁生态中的定位时,何征宇强调,并非简单的战略规划结果,而是对AGI时代机会的探索。“是在技术前沿的不确定性中寻找确定性”。 在技术积累策略上,蔡伟提出了“造船而非打桩”的理念:“如果基础模型是水位,打桩会在水位上涨时被淹没,而造船能随水位共同上升。”这意味着,灵光积累的后训练能力可以叠加在持续进步的基础模型上,实现“水涨船高”。 这种技术能力正在向蚂蚁生态的其他业务扩散。何征宇透露:“你们会在未来几个月里感受到其他产品有一股‘灵光味’。”他预计,灵光的技术能力将逐步渗透至AQ、蚂小财等业务,形成“技术底座支持业务,产品探索反哺技术”的循环。 对于商业化,团队表示还为时过早,“灵光上线才两天,你不可能让个2岁的孩子出来打工。”何征宇比喻道。“但我们坚信,AGI时代会产生区别于传统的新商业模式。”
最新!亚马逊裁员名单已敲定,规模超预期
前段时间,笔者给大家爆料过关于亚马逊裁员赔偿方面的细则。 昨日,亚马逊一位主管Stores业务的HR在X上发布文章,详细说明了此次裁员的相关情况,笔者也给大家跟进一下。我们都来学习一下老外是怎么裁员的。(注:文末笔者给大家也普及一下北美的相关法律知识,想学习的欢迎点击阅读原文下载。) 负责Stores的HR: 1.时间线:裁员将于1月27日进行,名单最晚于11月20日敲定。在1月22日之前,人员仍有可能从名单中被移除。 2.标准: 因具体组织而异,并将侧重于实现运营开支削减目标,但主要影响依据层级结构、工作地点、远程工作例外情况和绩效表现。可以使用以下任何具体标准: 2.1-向同级经理汇报的基层管理人员(仅适用于L7及以下级别) 2.2-直接下属在同一地点办公的比例低于50%的经理; 2.3-不在你总监指定的3个中心枢纽地点、或不在你副总裁指定的中心枢纽地点工作的人员; 2.4-直接下属少于8人的经理; 2.5-所辖团队规模小于20人的L7级经理; 2.6-年度绩效评级为HV1(可能指最低等级); 2.7-在过去1.5年内获得过1次LE(可能指低绩效)评级2.8-被认为不相关的团队-即完全不符合公司5年战略规划的整个组织; 2.9-远程工作例外人员; 2.10-标准不设限 -为实现运营开支目标,他们可以混合使用以上所有标准并增加额外筛选条件。例如:仅限于纽约地点、且仅针对SDE(软件开发工程师)职族的年度HV1绩效人员。即使你符合从2.1到2.9的所有标准,如果你的某些总监/副总裁也符合相同标准,你仍有可能被保住。 3.运营开支削减目标在4%到20%之间。 副总裁获得其目标后会将其分解给下属的总监。如果总监的削减目标非常低,他们自己也可能上榜,因为目标的计算是假设将该总监的总薪酬成本移除。 4.将人员从名单中移除可能发生在以下特定情况: 4.1-法务部门认为解雇该员工会引发问题; 4.2-名单上的员工主动辞职/转组; 4.3-如果未在名单上的员工辞职/转组,那么可以从名单中恢复总薪酬成本相当的人员。 4.4-一个可能性极低的情况:如果制定名单的人突然良心发现。 5.现在你几乎无能为力,只能做好本职工作并寻找新的机会。根据我了解到的目标,这次裁员将会非常残酷。
美团宣布在全国建设“骑手公寓”:为骑手提供租房补贴
快科技11月21日消息,美团官方正式宣布,即日起,将在全国各地建设“骑手公寓”,有住房需求的骑手可申请入住相关公寓。 美团表示,将为骑手提供租房补贴,确保实际月租金始终低于市场水平。 以北京天坛附近的骑手公寓为例,美团骑手可以700元的月租价入住单间公寓,而同区域房型月租金约为1500元以上。 近期,在北京、深圳和重庆等地,首批将陆续有600名骑手顺利入住。 详情如下: -“骑手公寓”不限骑手跑单类型,所有类型骑手均可申请,将重点覆盖有过渡住房需求的骑手。 -美团将承担首批水电暖及网络费用,帮骑手伙伴多省一点。 -“骑手公寓”设置单人间、多人间、家庭房等不同房型,提供独立淋浴房、洗衣机、饮水机、24小时热水供应等保障。专人负责日常维护,骑手不必为家电维修、卫生清洁等琐事操心。 -“骑手公寓”将主要选址在市中心等房租价格较高的热门区域,让骑手通勤更便利。 -公寓将定期组织“欢迎会”“骑手加油站”“生日会”等公益文娱活动,丰富骑手业余生活。 另外,美团“同舟计划”也正式迎来了五周年,自2020年启动,“同舟计划”已成为行业内时间最早、投入最大的灵活就业福利保障专项。 美团表示已投入20亿元,改善骑手的工作体验、职业发展、生活关怀。 未来,美团“同舟计划”将进一步深耕骑手福利,围绕“工作体验”“职业发展”“生活关怀”继续投入,预计五年总投入100亿元,在美团骑手社保覆盖全国的基础上,构建更全面的“基础保障+进阶保障+生活福利”骑手福利保障模式。
谷歌Nano Banana Pro炸了!硅谷AI半壁江山同框,网友:PS已死
新智元报道 编辑:编辑部 【新智元导读】Gemini 3 Pro刚炸完,谷歌又在深夜扔出了「AI图像新神」Nano Banana Pro!它用像素级的恐怖细节和完美的汉字渲染告诉世界,谁才是AI生图真正的王者。 Gemini 3 Pro甫一亮相,新一代模型又接踵而至。 就在刚刚,谷歌正式祭出最强图像生成模型——Nano Banana Pro,基于最新Gemini 3 Pro打造。 官名称作,Gemini 3 Pro Image。 正如传闻中所言,Nano Banana Pro就是AI图像界的「新神」,不论在图像编辑还是在生成上,都实现了史诗级进化。 它的知识储备更广,文字渲染超强,而且细节把控精准到了「像素级」。 不仅如此,Nano Banana Pro在做复杂信息图简直开挂,接近工程师眼中的世界。 基准测试中,新版Nano Banana相较于上一代性能显著提升,GPT-Image、Flux Pro Kontext Max根本无法相提并论。 左右滑动查看 这一次,Nano Banana Pro还支持4K原生,速度更快,成本也有所提升。 生成的细节,只能用「恐怖」形容。尤其是以前生成的中文就像「鬼画符」,如今汉字水平一流。 左右滑动查看 谷歌刚官宣没几分钟,全网再度陷入狂欢,一大波实测汹涌来袭。 一句鸡汤、一句古诗,甚至是一大段文言文,Nano Banana Pro一键直出颇有意境的图片,而且手写汉字完美到几乎没有一点瑕疵。 左右滑动查看 左右滑动查看 以上中文作品来自X网友:@CaomuQ625、@0xbisc、@Peanut_zhc、@frxiaobei、@0xPlato、@dylandddeng 真PS时代终结者,降临了! 三个月,终极进化 三个月前,为创意而生的Nano Banana(Gemini 2.5 Flash)出世后,一夜爆红全网。 从修复老照片到生成3D迷你手办,Nano Banana在图像编辑上树立了新里程碑。 任何人天马行空的想法,皆可变为现实。 如今,进阶版Nano Banana Pro出世,谷歌仅用三个月的时间,完成了另一次蜕变。 不管是产品原型,还是将数据、手写笔记转变为信息/专业图表,它都能一键可视化设计,让创意轻松成真! Hassabis称自己长期以来梦想之一,是创造出室温超导体。 这不,他让Nano Banana Pro帮忙脑补了一下。 知识推理更强,直连搜索 背靠Gemini 3高级推理能力,Nano Banana Pro不仅能生成精美图像,还能创作更有用的内容。 它可以连接到Google搜索的庞大的知识库,从快速生成食谱,到可视化天气、体育赛事等实时信息,皆可轻松实现。 如下图所示,Nano Banana Pro通过搜索获取实时天气信息,构建了一张波普艺术风格的信息图表。 相比之前的图像生成模型,Nano Banana Pro在内容准确性上显著提升,能生成更贴近事实的素材。 当启用基于Google搜索的功能时,模型将直接连接实时网络内容,确保输出内容与最新数据一致。 这对于需要精确呈现的应用场景特别有价值,比如生物结构图、历史地图。 就比如,让Nano Banana Pro创建一个室内植物「海龟串」(String of Turtles)的信息图表,包含原产地、养护要点和生长习性等信息。 提示词:制作一张关于这种植物的信息图表,重点关注有趣的信息 它还可以生成精准的教育演示图,无论是理解全新知识,还是呈现复杂信息。 下图中,Nano Banana Pro生成了自行车护理的步骤图。 再比如,它可以直出白光通过三棱镜被分解成彩色光,又通过第二个三棱镜重新组合成白光的过程。 文字秒生,还支持多语种 在文字渲染上,Nano Banana Pro再次刷新天花板。 不论是简短的标语,还是长段落,它都能在图像中直接生成渲染精准、清晰易读的文本,堪称目前最佳模型。 这正是因为在理解图像深度与细节方面的卓越表现,Gemini 3为图像编辑与创作开启了全新可能。 如今,人们可以在样品、海报中融入更丰富的文字细节,体验更多元的纹理、字体与书法效果。 相较于Nano Banana,Pro版更擅长处理逻辑和语言,生成清晰、准确且完美融合的文本。 下图中,生成了一张创意美食摄影,其中每个单词都用与食物相关的实际食材,以艺术形式拼写出来。 提示词:制作8个精致的极简主义Logo,每个都是一个有趣的食物单词,并用逼真的食物制作字母来表达这个单词的含义。构图:在单一纯白色背景上渲染所有Logo 而且,用Nano Banana Pro做营销物料、教育内容、应用程序等,特别合适。 在Google AI Studio漫画生成器中,可以生成独一无二的多页漫画,连对白字体、画风都可以玩出高级花样。 自动播放 根据照片和选定的题材,创建所选语言的漫画书 借助Gemini增强的多语言推理能力,Nano Banana Pro还可以生成多种语言的文本,或对内容进行本地化和翻译。 它能理解图像的语义语境,利用图生图技术,轻松实现菜单、标志或文档等元素上的语言转换,同时保持原始的艺术风格或版式布局。 比如输入一张英文饮料广告的原图,Nano Banana Pro直出法语版本。 提示词:翻译成法语 下面demo,皆是Nano Banana Pro在文本渲染上强大能力的体现。 提示词:在一个阳光明媚的日子里,柏林一条舒适街道的景色,阴影鲜明。老房子形状奇特,像拼写出「BERLIN」的字母,颜色为蓝色、红色、白色和黑色。房子看起来仍然像房子,与字母的相似之处处理得很微妙 提示词:制作8个极简主义Logo,每个都是一个富有表现力的单词,并使字母在视觉上传达信息或声音,以戏剧性的方式表达该单词的含义。构图:所有Logo在一个白色背景上的黑色平面矢量渲染 提示词:在有纹理的米白色背景上,设计一个充满活力、引人注目的「TYPOGRAPHY」字样。字母粗大、块状、超压缩,通过重叠的亮蓝色和热粉色层营造出3D效果,每层都有半色调圆点图案,唤起复古印刷美学。比例是16:9 4K直出,创意无限 一起看看Nano Banana Pro的新特性,以及大家都有哪些脑洞吧。 设计的一致性 Nano Banana Pro可以融合比以往更多的元素,使用多达14张图像,并保持多达5个人物的连贯性和相似度。 这一能力,可谓业界No.1。 如下所示,一次性上传14张毛绒怪图片,Nano Banana Pro可以把它们全部塞进一张图中,还能保持角色的高度一致性。 提示词:14个毛茸茸的角色并排挤在一张破旧的米色布艺沙发和地板上的中景镜头。他们都面向前方,看着沙发前一张低矮木桌上的一台老式木盒电视机。房间光线昏暗,左侧窗户透进温暖的光线,电视的光芒照亮了生物的脸和毛茸茸的纹理。背景是一个舒适、略显杂乱的客厅,有编织地毯、装满旧书的书架,背景中有乡村厨房元素。整体氛围温暖、舒适且有趣 不管是草图变实物,还是把设计图做成逼真3D模型,它都可以轻松搞定,让想法和成品之间不再有鸿沟。 想要什么风格、什么质感,一键都能套用到样品,确保你的品牌在每个接触点都保持无缝和一致。 各种超现实景观,给到多种元素组图,Nano Banana Pro将其无缝融合。 提示词:将这些图像组合成一张16:9格式的适当排列的电影感图像 再比如,以沙漠景观为背景的高级时尚大片,六张图合一,人物连贯一致性超丝滑。 提示词:将这五个人和这只狗放入一张图片中,他们应该适合一张令人惊叹的获奖照片,风格是 [sic] 时尚社论。所有五个人的身份和他们的服装以及狗必须始终保持一致,但他们可以而且应该从不同的角度和距离被看到,就像 [sic] 对场景来说最自然和合适的那样。使颜色和灯光在他们身上看起来自然,让他们看起来像是自然地融入了这个时装秀 工作室级的创意控制 想要玩转各种创意,你说了算。 也就是说,想要P任何细节,通过Nano Banana Pro升级的局部编辑功能,可选择、细化和变换图像的任何部分。 甚至,还可以调整摄像机角度,更改焦点并应用复杂的色彩分级,就连场景照明都能变。 比如,将白天更改为夜晚或创建散景效果,如下所示,展示了迷失在金色散景与晨雾海洋中的剪影。 提示词:用散景替换体积光 再比如,使用照明控制遮蔽或照亮图像的一部分,实现特定的戏剧效果。 提示词:生成具有强烈明暗对照(chiaroscuro)效果的图像。该男子应保留其原始特征和表情。引入刺眼的定向光,似乎来自上方并略微偏左,在脸上投下深邃、清晰的阴影。只有几缕光照亮他的眼睛和颧骨,脸部的其余部分处于深深的阴影中 而且,Nano Banana Pro有更多比例可选,2K和4K都支持。 结合参考图像让产品设计栩栩如生 网友脑洞大开,设计门槛踢碎了 要说Nano Banana Pro的玩法,还是这届网友脑洞大,生成的一大波实测比谷歌demo样本更有创意。 左右滑动查看 生成一张黑板图,勾股定理解题一键完成。 物理定律,轻松解析。 左右滑动查看 就连对玻璃和光线的理解,都十分到位: 英伟达刚刚公布的Q3财报,一图搞定,打工人以后做PPT交给Nano Banana Pro就可以了。 上传一张建筑平面设计图,Nano Banana Pro瞬间转化为3D模型,活灵活现。 各种文本渲染,完全不在话下。 左右滑动查看 就连手写字的镜像细节,也与物理世界理解一致。 顺便,还能复刻一下推特主页的设计草图。 AI界大佬们一张合影,比真人还真。 最常见的OOTD,Nano Banana Pro更精进了。 上传一张手指原图,甚至还能解析出「指纹」,就差变身破案侦探了。 7个技巧,玩转「纳米香蕉Pro」 确立愿景:故事、主体与风格 为了获得最佳效果并拥有更细腻的创意控制权,请在你的提示词中包含以下要素: 主体:图像中是谁或什么?请具体描述。(例如:一位眼神冷峻、拥有发光蓝色光学元件的机器人咖啡师;一只戴着迷你巫师帽的毛茸茸三花猫) 构图:镜头的取景方式是怎样的?(例如:大特写、广角镜头、低角度镜头、人像) 动作:正在发生什么?(例如:正在冲泡一杯咖啡,正在施展魔法,在田野中奔跑的瞬间) 地点:场景发生在哪里?(例如:火星上的未来派咖啡馆,一间杂乱的炼金术士图书馆,黄金时刻阳光普照的草地) 风格:整体审美风格是什么?(例如:3D动画、黑色电影风格、水彩画、超写实、90年代产品摄影风格) 编辑指令:若要修改现有图像,请直接且具体。(例如:将男子的领带改为绿色,移除背景中的汽车) 自动播放 细化细节:相机、灯光与格式 虽然简单的提示词依然有效,但要获得专业级的结果,需要更具体的指令。在编写提示词时,请超越基础描述,考虑以下高级要素: 构图与纵横比:定义画布。(例如:一张9:16的垂直海报;富有电影感的21:9广角镜头) 相机与灯光细节:像电影摄影师那样执导镜头。(例如:低角度镜头,浅景深(f/1.8);黄金时刻的逆光创造出长长的阴影;带有柔和青色调的电影色彩分级) 特定文本集成:清楚说明应该出现的文本内容及其外观。(例如:标题「URBAN EXPLORER」以粗体、白色无衬线字体呈现在顶部) 事实约束(用于图表):说明对准确性的要求,并确保你的输入本身是符合事实的。(例如:科学准确的横截面图;确保维多利亚时代的历史准确性) 参考输入:使用上传的图像时,明确定义每张图像的作用。(例如:使用图像A作为角色的姿势,图像B作为艺术风格,图像C作为背景环境) 提示词示例:创意技巧展示 不同的提示词策略可以帮助你创作从超写实编辑到奇幻新世界的各种内容。 1. 生成具有惊人文本渲染效果的视觉作品 清晰、易读的文本有助于创作出极具冲击力的海报、复杂的图表,甚至是精细的产品样品。 提示词:为这个场景创建一个黑白故事板草图,展示电影的定场镜头、中景镜头、特写镜头和POV镜头 提示词:创建一张图片,显示短语「How much wood would a woodchuck chuck if a woodchuck could chuck wood」(如果一只土拨鼠能扔木头,它能扔多少木头)由土拨鼠扔出的木头拼成 2. 利用现实世界知识进行创作 Nano Banana Pro可利用Gemini 3的现实世界知识和深度推理能力,提供精确、详尽且丰富的图像结果。 比如,制作一个豆蔻茶(Elaichi Chai)的分步信息图表: 3. 翻译并将你的创意本地化 生成本地化文本,或翻译图像内的文本。 在多种语言下,预览产品的外观,为进军国际市场做好准备,并创建适用于不同地区的海报和信息图表。 提示词:将三个黄色和蓝色易拉罐上的所有英文文本翻译成韩文,同时保持其他所有内容不变 4. 使用工作室级控制进行编辑 利用丰富的控制选项,可以直接调整灯光和相机设置,如角度、焦点、色彩分级等,进而实现专业级的效果。 比如,应用照明和焦点控制将场景从白天转换为夜晚: 提示词:将此场景变为夜间 自然,也可以反过来:将此场景从夜晚变为白天: 或者,通过调整景深或焦点(例如,聚焦于花朵)来突出构图的细节: 提示词:聚焦于花朵 5. 精确调整尺寸 尝试不同的纵横比,并在各种产品中生成1K、2K或4K分辨率的清晰视觉效果。 提示词:通过减少背景将纵横比更改为1:1。角色保持在当前位置 6. 混合图像并保持多角色一致性 即便多个角色出现在同一画面中,也能保持其特征的一致性和相似度。 提取多达6到14张(输入数量因平台而异)完全不相关的图像,并将它们融合以创造全新的作品。 提示词:将这些图像组合成一张16:9格式的适当排列的电影感图像,并将人体模型上的裙子更改为图像中的裙子 7. 创建并保持你的品牌外观与调性 渲染并应用具有一致品牌风格的设计,轻松将概念可视化。 将图案、Logo和艺术作品无缝贴合在3D物体和表面上——从服装到包装——同时保留自然的光照和纹理效果。 提示词1: 创建一个图形风格的流畅Logo,这是一种充满活力且趣味盎然的文字插图形式,深深植根于20世纪60年代和70年代的复古美学,大致基于草图进行创作。其标志性特征是一种时髦的、受迷幻艺术启发的字体,具有柔和、圆润且流畅的字母形态。不要完全照搬草图,而是从中汲取灵感。字母被巧妙地扭曲、拉伸和压缩,摒弃僵硬的结构,相互融合形成一个连贯、可识别的形状。 这种被称为图形文字(Calligram)的技法巧妙地融合了文本与图像,单词的形态在视觉上体现了其含义。单词「WAVE」被艺术地排列成波浪的流线型轮廓。该设计是一个巧妙的视觉双关语,使信息瞬间可被理解且令人难忘。 配色方案强化了复古感,采用简单的双色调方案,以温暖、通常柔和或大地色调的浅蓝色为背景,搭配深蓝色的Logo。这种选择增强了作品的怀旧魅力。整体效果呈现出一种异想天开的怀旧感和巧妙的平面设计风格。这是一种大胆而平易近人的风格,通过形状和单词的无缝结合传达简单、积极的信息,产生直接而令人愉悦的视觉冲击。 提示词2: 现在逐个创建视觉识别系统,使用10个高质量样品,包含各种相关产品、广告、广告牌、公交车站牌等。一次生成一个,每个均为16:9比例。 使用和局限性 想要体验Nano Banana Pro,只需在Gemini应用程序中选择「使用Thinking模型创建图像」即可。 免费用户的赠送额度用完之后,将恢复到原始的Nano Banana模型;而氪金的Google AI Plus、Pro和Ultra会员,则会有更高的Pro额度。 对于专业人士,谷歌将会陆续上线到所有的平台,包括Google Ads,Google Slides,Google Vids,Gemini API,Google AI Studio,Google Antigravity,Vertex AI,Gemini Enterprise,Flow等。 不过,虽然Nano Banana Pro已经很强了,但它在一些领域仍有待改进: 视觉与文本保真度:在渲染小字号文本、精细细节以及生成准确拼写方面,效果可能尚不完美。 数据与事实准确性:请务必核实图表、信息图等基于数据的视觉内容的事实准确性。 翻译与本地化:多语言文本生成可能会出现语法错误,或未能精准捕捉特定的文化差异。 复杂编辑与图像融合:图像融合或光照调整等高级编辑任务,有时可能会产生不自然的伪影。 角色特征:虽然通常表现可靠,但在多次编辑过程中,角色特征的一致性可能会出现波动。 值得一提的是,在SynthID数字水印技术的加持下,我们可以将图像上传到Gemini应用中,直接询问它是否由Google AI生成。 最后的最后,还是想要吐槽一下,一周内AI大事件四连更,真是有点心力交瘁了... 参考资料: https://blog.google/technology/developers/gemini-3-pro-image-developers/ https://blog.google/products/gemini/prompting-tips-nano-banana-pro/ https://blog.google/technology/ai/nano-banana-pro/ https://x.com/Gorden_Sun/status/1991441658941173902?s=20 https://x.com/0xbisc/status/1991471506099171363?s=20 https://x.com/CaomuQ625/status/1990831026239943060?s=20 https://x.com/Peanut_zhc/status/1991524507098791986?s=20 https://x.com/frxiaobei/status/1991474928596709747?s=20 https://x.com/0xPlato/status/1991511443641094418?s=20 https://x.com/dylandddeng/status/1991507274813096153?s=20
OpenAI:GPT-5模型正开始减轻科学家日常工作量
IT之家 11 月 21 日消息,OpenAI 官方昨天发布《GPT-5 科学加速报告》论文,展示科学家们如何在日常工作中使用 AI。 论文中写道,数学家使用 GPT-5 证明公式,物理学家们用来搞对称性分析,而免疫学家则用 GPT-5 来细化假设并设计实验。 OpenAI 研究员 Noam Brown 表示,他否认“生成式 AI 只会简单复述互联网内容”的观点,他认为 GPT-5 等模型捕获了人类写作过程的完整谱系,而强化学习(Reinforcement learning)可以推动 AI 模型超越“复读”水平。 他将 GPT 与谷歌的“阿尔法狗”(AlphaGo)下棋机器人做对比:阿尔法狗先学习人类棋谱,随后通过强化学习创造当时被视为错误但最终是正确的棋法。 Noam 认为,真正的科学比下围棋复杂得多,虽然 AI 尚未超越顶尖科学家,但大语言模型已经在实际研究中作出有意义的贡献,他提出,未来科学领域可能会迎来类似围棋界的“黑 37 手”时刻。 IT之家注:“黑 37 手”指的是阿尔法狗与韩国九段棋手李世乭在 2016 年 3 月第一局比赛中的第 37 手落子,当时阿尔法狗执黑,在上方第 5 线靠近星位的位置下了第 37 手,这一举动被当时的职业选手认为极不合理、违背常规棋理。 然而,随着棋局进行到后场,这一招却成为全局制胜的关键,它证明了 AI 拥有创造性思考能力,它不只是模仿人类下棋,而是计算和探索了人类未曾想到的路径,代表 AI 能创造新知识,而不是照搬旧知识。 回到正文,GPT-5 的明显强项之一是,帮助研究人员找到被大量出版物和术语变化掩盖的相关论文,最终实验证明 GPT-5 能在数秒内生成完整证明,而对比之下,英国数学家蒂莫西・高尔斯需要一个小时以上才能完成同样的推理任务。 在生物学中,研究人员通常会问 GPT-5:某化合物为何会导致某种表现型,最终 GPT-5 可以提供合理的因果链和实验关系。 同时 GPT-5 还可以扮演一名“技术批评者”,分析实验可能失败的原因,但并非在所有场景中都有效,有时 GPT-5 需要质疑后才会自我纠正,但这一过程可为科学家提供有价值的洞察。 不过 GPT-5 并非完美,它并未解决版权归属和原创性问题,有时候还会夸大不完整性结果,并且存在“偏科”现象,在数学、理论物理、算法等形式化学科上表现得比其他学科更好。 总体来说,科学家已经使用 GPT-5 处理实际科研任务,存在实用性但并未突破常规,同时人类仍然主导绝大部分研究方向与审查。
谷歌新AI炸场,设计师/前端又失业?AI淘汰的是不会提问的人
这两天,大伙儿的朋友圈、视频号、X 上,应该都被谷歌刷屏了。 Gemini 3,史上最强多模态模型;Nano Banana Pro,4K 级 AI 画图神器; 再加上一堆“吊打”“逆袭”“炸裂”的标题,仿佛只要点点按钮,我们马上就能一键变身: 设计师圈的,海报、PPT、LOGO 信手拈来; 程序员圈的,代码一行不敲,项目自动上线。 我们也上手测试一番,必须承认 AI 这次把各种技能的门槛再度拉低。 然而,门槛并没有消失,只是悄悄挪了个位置。 过去的门槛,是“你会不会做”; 现在的门槛,变成了“你会不会问、会不会审、会不会改”。 这就是今天我们想跟你聊的:在 Gemini 3 + Nano Banana Pro 时代,AI 放大的,不只是生产力,还有人与人之间的差距。 媒体口中的“全民专家时代” 先把时间拨回过去两天。 Gemini 3 发布,Nano Banana Pro 跟着亮相,媒体们的兴奋程度,几乎可以用“嗓子都喊哑了”来形容。 官方给出的宣传点,大概是这样的: Gemini 3 Pro: 多模态推理更强,能看视频、读长文、写代码,还能一步步展示“Deep Think”推理过程; 基准测试: 在复杂推理、定理证明、新一代 ARC-AGI 测试上,分数很漂亮; Nano Banana Pro: 基于 Gemini 3 Pro 打底,不只是“画得好看”,还能生成信息图、数据可视化,号称 4K 级图像生成与编辑。 以下是Tina使用Gemini 3制作的【汉字笔画生成器】 自动播放 完整应用已上线:https://hanzi.tina-ai.xyz/ 面对这样惊艳的效果,国内外社交媒体基本分两拨。 一拨是兴奋派:“这下真是人人都是设计师了!” “Gemini 3 这推理能力,感觉已经是‘会思考的同事’了。” 另一拨是焦虑派:“那我这种刚学完 PS、刚入门数据分析的,是不是直接毕业了?” “前端用 AI 就能搞定了,前端程序员要失业了?” 不管你属于哪一拨,这些想象,非常符合人性: 我们希望工具能帮我们跳过枯燥的训练,直接抵达“出结果”的那一刻; 我们也本能地害怕:如果人人都拿到了同一把“神器”,那我还有什么优势? 看似矛盾的看法,背后都有同样的假设:只要把 AI 工具升级到足够强大,门槛就会被彻底抹平。 真的如此吗? 谷歌AI这次很强,但大家的期待可能有点离谱 不妨先看几个比较“扎心”的现场案例。 The Verge 的编辑拿到 Nano Banana Pro,做了几组很接地气的测试: 把一张节日家庭合照,背景从室内换成海滩;给人物换套衣服;调整光源方向。 听上去都不难,是吧?这可是号称 4K 图像、专业级编辑能力的模型。 结果呢? 有的图片里,人物衣服被莫名其妙“减料”,多出了一些尴尬的裸露细节; 有的画面,手脚比例怪异、脚趾数量不对、阴影方向和光源完全对不上; 有些场景,你让它加一句文字,它给你加了,但字体、位置、对比度,怎么看怎么别扭。 你要说它不行吗?也不至于。 光影的大致方向,它能理解;大场景切换,它也能完成。 问题在于:它给出的结果,从“60 分能用”到“95 分惊艳”,取决于谁在用、怎么用。 同一套工具: 在专业设计师手里,它是“加速器”; 在完全不懂构图、色彩、信息密度的人手里,它是“放大器”——放大的是混乱和审美灾难。 再看 Gemini 3 本体。 虽然官方成绩单耀眼,但在真实开发者手里,同样不是简单的遥遥领先。 前端生成效果非常强大,但在不同场景仍然没有那么完美。 有人在 GitHub 吐槽,如果不先把需求拆解清楚,直接一句话丢给它,输出质量依然不稳定。Deep Think 模式虽然厉害,但并不适合所有任务。 Reddit用户吐槽 总结一下就是——AI 没辜负你,但你对“神器”的期待,可能有点离谱。 这就像你给一个刚学会骑电动车的人,塞了一辆 F1 赛车钥匙: 车确实更快、操控确实更强;但如果不懂路线、不懂规则、不会控制油门,再好的车也只会把你送进护栏。 真正的问题,根本不在“工具有没有变强”,而在另外一件事: 工具变强之后,门槛到底迁移到了哪里? 门槛迁移与普通人的机会 咱们换个角度看。 在 Gemini 3 + Nano Banana Pro 之前,做一份像样的内容,大概是这样: 1.想清楚要表达什么; 2.查资料、做分析、写大纲; 3.打开 PPT/PS,从空白页开始排版; 4.一版版改,靠自己审或同事提意见。 过去的门槛,是“你会不会做”,现在工具变强了,流程变成了: 1.依然要想清楚要表达什么(甚至要更清楚,因为 AI 需要结构化输入); 2.依然要做资料与逻辑梳理; 3.把需求翻译成机器能懂的提示词:目标、对象、限制、示例; 4.审 AI 给出的版本:逻辑对不对?重点有没有淹没?哪里怪怪的? 你会发现,AI 并没有让你省掉“脑力劳动”,而是把重心从“你会不会做”迁移到了“你会不会问、会不会审、会不会改”。 会问: 能不能把模糊想法拆成明确要求? 会审: 能不能看出图表或文本的逻辑问题? 会改: 能否精准告诉 AI 哪里需要优化? 过去这些能力是“隐性的”,大家默认做事要从软件技能开始。现在有了 AI,这些反而成了体现差距的关键。 同样用 Gemini 3: 有结构化思维的人能从 70 分提升到 95; 不具备这套能力的人也许从 40 分提升到 60,但差距反而被拉大。 对了写到这,你有没有发现这篇文章的配图全部都是Nano Banana生成的? 普通人怎么破局? AI时代,最危险的不是“你不会用哪个模型”,而是你依然把自己当成“工具的操作者”。 这不仅仅是我们这一代职场人的突围战,更是下一代教育的分水岭。
Gemini 3强的可怕,但真让他干活儿他像实习生一样不靠谱
最近谷歌正式发布 Gemini 3 后,其基准测试成绩断档级领先,大家也是各种前端 vibe coding 玩得不亦乐乎。 但知危比较在意的两个点是,一方面谷歌宣布 Gemini 3 是世界上最好的多模态模型,也强调 Gemini 3 对用户意图的理解,“ 无需过多提示就能获得所需信息 ”,这就让 Gemini 3 的 ToC 属性变得很强。 另一方面,Gemini 3 在编程能力的基准测试上并没有实现对其它模型的断档级领先( 甚至这两天内 OpenAI 就拿出了 GPT-5.1 Codex Max 来狙击 Gemini 3 ),谷歌也没有强调 Gemini 3 在幻觉、指令遵循等方面的优势,但这些维度其实才是企业级场景最关心的,否则你在用 AI 编程的时候,不管模型多么博学多才,总会没那么放心,就怕改 Bug、修漏洞比手写代码还辛苦,所以 Gemini 3 的 ToB 属性是否够强还有待进一步考察。 为了深度感受 Gemini 3 的 ToC 和 ToB 属性,在本次测评中,知危着重体验Gemini 3 的多模态理解和编程能力,至于科研能力,本次评测没有涉及。 具体而言,在多模态理解能力方面,知危主要是让 Gemini 3 理解视频,包括电视剧、体育比赛、软件操作等场景的视频,看 Gemini 3 能理解到什么程度,幻觉多不多,是否够专业。此外,看到 Gemini 3 在 ARC-AGI-2 上面翻倍的亮眼成绩,知危也忍不住在相同场景中给 Gemini 3 再上上难度。 编程能力方面,知危基于过去的测评经验,会直接拿一些需求多且杂的场景让 Gemini 3 一次做出来,如果不成功或者错误太大,不会给太多挽尊的机会。这些场景包括一次写完 Excel、看 UI 截图写 3D 引擎、看视频写 3D 引擎等。知危也会在不同的平台上都测试类似场景,包括网页版 Gemini、Cursor 以及谷歌自己新推出的编程 IDE Antigravity。 好了,我们话不多说,测评开始! 多模态理解能力测评 其实,目前很少有 AI 模型能直接分析视频的,国内只有通义千问提供这个功能。 我们拿《 甄嬛传 》中最具张力的一场戏,也就是 “ 滴血验亲 ” 来测试一下Gemini 3( 在网页版 Gemini 中调用 Gemini 3 Pro,也就是思考模式 )看不看得懂。因为网页版上传视频有 100M 的限制,所以将视频分成了好几段输入。 在第一段视频中,皇后先向皇帝提出了 “ 滴血验亲 ” 的狠招,随后呈现甄嬛等人的反应。 Gemini 3 的表现令人惊讶,几乎无任何错误,对各个人物的动作、心思、表情,以及更宏观的派系解析和剧情背景,都做出了非常准确的解释。 当进一步提示 Gemini 3 做更细致的逐帧逐秒分析时,它也是不负众望。 整整一分半钟的视频,真的按照几秒一个单位来分析。 台词和潜台词都很精准,但最能展示多模态能力的,是对微表情的捕捉。比如皇后引导皇帝实施滴血验亲时,Gemini 3 描述皇后的表情动作为 “ 身体微微前倾,语重心长,眉头微蹙,眼神看似诚恳,实则紧盯着皇帝的反应 ”,大家可以看看对不对。 再看看以下几个精彩瞬间,动作和表情也是描述的很到位,虽然 “ 嘴唇微张 ” 等一些细节是 Gemini 3 自己加戏和夸大,“ 眼神游移 ” 应该要更后面才出现,这里更多是 “ 纯粹的恐惧 ”。 只是看到分析的最后一句话,知危才意识到,Gemini 3 分明知道后面的剧情进展,毕竟 Gemini 3 的训练数据已经包含了《 甄嬛传 》的各种视频、文本资料,能分析到这个程度或许并不令人意外。 而且,台词语音其实是很好的对齐模态,台词能提供精准的语义提示,并和视频时间线做对齐,假设已经有大量文本语料给《 甄嬛传 》做了逐帧分析,那 Gemini 3 可能很大程度上不是基于视频来理解的。 所以,若是分析无声音的同样一段视频,效果又如何呢?结果,Gemini 3 还是能认出这是《 甄嬛传 》,以及大部分的人物,就是出现了非常大的错误,把甄嬛认成了华妃。 也因为这个错误导致对剧情的推测也产生了幻觉。 从这个结果来看,或许目前 AI 的多模态理解对文字的依赖还是比较大。 最后,因为今天 Nano Banana Pro 刚好上线,知危也在对话的末尾让Gemini画一幅漫画来呈现剧情,结果还是很惊艳的( 可能 Nano Banana Pro 太火,谷歌自己服务器撑不住了,没实际生成图像,最后是用 Lovart 的 Nano Banana Pro 画出来的 )。 这里还有一个非常离谱的地方,Nano Banana Pro 生成的这张漫画图,右下角甚至还有 “ 腾讯动漫 ” 的水印。。。 也不知道谷歌拿腾讯动漫练 AI 有没有合法买数据授权,如果没有的话欢迎腾讯联系本编辑部搜集证据,索赔之后记得分我们点 为进一步避免模型对训练数据的依赖,基于 Gemini 3 的知识截止日期是 2025 年 1 月,知危决定用 Gemini 3 来分析 2024-2025 赛季 NBA 总决赛雷霆 vs 步行者第一场的最后两分钟( 比赛时间 )的视频片段( 这场比赛实际是在 2025 年 6 月份举行的,晚于 Gemini 3 的知识截止日期 )。 相比电视剧,理解体育赛事有着不同的复杂度,虽然不需要关注微表情,但运动员动作大,且和篮球、其他运动员有物理交互,更有快速的空间移动和频繁的视觉遮挡,相关训练语料也更少,难度会更大。 在第一次的简单分析中,Gemini 3 的回答表明了它认为这场比赛不存在,它甚至认为这是 NBA 2K 游戏的模拟画面。当然,它准确地认出了这是 NBA 雷霆 vs 步行者的总决赛,以及一开始的赛况。 在接下来的关键镜头分析中,Gemini 3 能准确描述步行者球员的 “ 横撤步 ” 运球动作,要知道当时的实况解说员并没有说出这个 “ 横撤步 ” 术语,只是 Gemini 3 把球员身份认错了,应该是 2 号的内姆哈德而不是 23 号的內史密斯。 之后对第二回合、第三回合攻防的分析,Gemini 3 的描述都是准确无误的,除了内史密斯的 “ 犹豫 ” 其实指的是在 “ 上篮 ” 和 “ 投篮 ” 之间的犹豫,而不是上篮之前要不要减速的犹豫。 接下来,再进行一次更细节的逐帧分析。 第一回合中内姆哈德的单打动作很精彩,所以值得再分析一次。 Gemini 3 虽然还是没改正对身份的错误认识,但对动作的分析非常专业,它把刚才的 “ 横撤步 ” 改为更精准的 “ 向右后方撤步 ”,并且球员在做撤步前,先做了向左侧突破然后变向的连续假动作,这些描述并不是 Gemini 3 对实况解说的鹦鹉学舌,而是自主做出来的分析( 这里对左右方位的定义可能和我们直观理解上相反,但还是可以解释通的 )。 在第四回合雷霆的 2 号球员亚历山大单打强攻拿回两分,并把比分重新拉大到 105:110 后,到第五回合,对雷霆的 9 号球员卡鲁索的防守策略分析中,Gemini 3 出现了严重幻觉。 卡鲁索是在内姆哈德运球时被雷霆球员拍掉球后立马上前抢球,并没有出现 Gemini 3 所言的 “ 双脚站定,双手护胸 ” 的动作,这时裁判哨响,但在该片段内,并没有给出裁判结果,Gemini 3 则立马判定是内姆哈德进攻犯规。 为了再次检验 Gemini 3 对实况解说语音的依赖程度,知危也上传了无声音版本的同一片段给 Gemini 3 分析。 这一次,Gemini 3 的分析出现了很明显的错误或模糊不清的情况,比如( 00:16-00:55 )这一段,Gemini 3 描述 “ 视频出现剪辑跳跃 ”,但实际上在这段期间,雷霆和步行者先后进行了一次进攻未得分,最后雷霆的亚历山大凭借单打强攻得到两分。 并且( 00:56-01:08 )时间段内,被撞倒在地的球员应该是 2 号球员内姆哈德,而不是 0 号球员哈利伯顿。 但总体来看,Gemini 3 达到的准确率还是令人感到意外的,大部分情况下都能分析出是哪位球员执行了什么动作,以及对比分或比赛的贡献。 知危接下来还将后续比赛片段( 一直到步行者的 0 号球员哈利伯顿在最后时刻三分绝杀雷霆 )在同一个对话中传递给了 Gemini 3 继续分析,Gemini 3 结合实况解说语音还是能保持基本准确的水平,对步行者的 43 号球员西亚卡姆的高光时刻的分析很到位,并盛赞西亚卡姆给出了 MVP 级别的表现。 总体而言,Gemini 3 对体育视频的分析掌握程度还是不如对电视剧的分析。虽然能够基于实况解说的提示和视觉线索,给出更精细的描述和适当的宏观分析,但幻觉率过于高,超出了实用限制。并且,在该场景也是非常依赖解说语音的,而不是原生地对视觉线索有足够精细的理解。 最后也是用 Nano Banana Pro 画一页漫画来呈现内姆哈德后撤步三分的高光时刻。这一次画面精细度和剧情还原度也是很高,但内姆哈德相对其他球员以及在球场的空间站位呈现的不是很准确,后撤步则像是在冲浪,可能在空间智能或透视作图方面还不是很擅长。 最后一个测试场景,是软件操作视频分析。 推特上有一个帖子比较火,Pietro Schirano 展示了如何用一句话让 Gemini 3 写一个功能完善的 3D 乐高引擎原型。 知危将这个视频传递给 Gemini 3,令其分析这个引擎的 UI 组成和功能。 Gemini 3 的分析结果很精细,甚至能精准到视频第 19 秒展现了重新上色功能,整体基本完全准确。 这个编码案例其实很多网友并不买账,他们自己用相同提示词写的 3D 乐高引擎完全不是那么回事。 所以,知危也顺便将分析结果提炼成提示词,进入下一个测评,也就是编程能力测评。 编程能力测评 提示词( 基于视频分析原文 ): 基于Three.js、html技术,构建一款名为 "BRICK BUILDER" 的3D乐高积木构建软件。 采用经典且直观的 "三段式" (左-中-右) 布局,配合深色模式 (Dark Mode) 界面,旨在减少视觉疲劳并突出彩色的积木模型。 以下是对该软件UI构成和核心功能的详细分析: 1,顶部全局导航栏 (Top Toolbar) 这是软件的控制中心,主要负责工具切换和项目管理。 基础工具 (左侧): Select (选择箭头): 用于选中场景中的积木。 Add (加号): 默认模式,用于放置新积木。 Paint (油漆桶): 用于给已放置的积木重新上色(视频 00:19 处展示了此功能)。 Delete(橡皮擦):用于删除已有积木块。 历史操作: 包含 撤销 (Undo) 和 重做 (Redo) 箭头。 项目管理 (右侧): Clear: 清空画布。 New Project: 新建项目。 Export PNG: 将当前模型截图导出为图片。 Save Project: 保存当前进度。 2,左侧资源库面板 (Left Sidebar - Library) 这里是用户的“零件箱”,用于寻找和选择积木部件。 搜索栏 (Search): 允许用户通过名称快速查找特定积木。 分类标签页 (Tabs): 将积木部件分为 Basic (基础砖), Plates (板件), Slopes (斜坡砖), Projects 等类别,方便筛选。 缩略图列表: 视觉化展示积木的形状(如 1x1, 1x2, 2x4 砖块),点击即可选中作为当前笔刷。 3,中央3D工作区 (Center Viewport) 这是核心交互区域,用户在此进行搭建。 3D 网格底板 (Grid Baseplate): 提供空间参考,帮助用户对齐积木。 智能吸附与预览 (Smart Snapping & Ghost Preview): 当鼠标悬停在网格或已有积木上时,会显示半透明的“幽灵砖”预览(红色半透明),告知用户积木即将落下的位置。积木会自动吸附到网格点或其他积木的表面。 交互反馈: 放置积木时有轻微的动画效果。 4,右侧属性与设置面板 (Right Sidebar) 该区域用于控制外观、视角和选中物体的属性。 视角控制 (View Cube/Buttons): 位于面板左上角的小图标,允许用户一键切换视图: 3D: 自由透视视角。 TOP / FRONT / SIDE: 快速切换到顶视图、正视图或侧视图(视频 00:14-00:17 展示了此功能)。 颜色调色板 (Colors): 提供预设的乐高标准色(红、橙、黄、绿、蓝、黑、白等)。用户可以在放置前选择颜色,或配合油漆桶工具使用。 属性 (Properties): Position (X, Y, Z): 显示当前选中积木的坐标。 Rotation: 包含一个按钮(通常是旋转90度),用于调整积木方向。 场景设置 (Scene): Grid: 开关网格显示。 Shadows: 开关阴影渲染,用于提升真实感或节省性能。 5,底部状态栏 (Footer) 提供统计信息和操作提示。 统计数据: 左下角显示 Bricks (积木数量) 和 File Size (文件大小)。 上下文提示: 屏幕底部中间会根据当前工具显示提示文本,例如 "Place Brick (Click to rotate)" 或 "Paint Brick (Click to select)",这是非常好的UX设计,降低了学习成本。 6,总结与UX亮点 极简主义: 界面没有复杂的菜单层级,所有常用功能都平铺在界面上,所见即所得。 清晰的逻辑: “左侧选材 -> 中间搭建 -> 右侧调整”的操作流非常符合直觉。 视觉辅助: 预览(Ghosting)和网格吸附功能极大地降低了在2D屏幕上操作3D物体的难度,确保积木不会放歪。 ⬆️ 向上滑动文字 将以上提示词用于 Gemini 3 生成 3D 乐高引擎,如果做得好,那便是多模态理解和编程双剑合璧。 最终实现的 3D 乐高引擎能够成功运行,虽然没有完全按照分析细节来实现,或者说没有完全复刻原版,而是简化了很多。 但至少基础的砖块、添加、删除、上色、视图、旋转、导出等是都有的,足够完成一个最粗糙的作品。 上面案例所采用的 Three.js 毕竟是 Javascript 的库,如果能用纯 Javascript 写出足够复杂的前端场景,那才更厉害,为此自然还是得测试写一个的 Excel 原型才能让人信服。 知危套用之前 GPT-5 在 Cursor 一次运行成功的提示词,再次输入到网页版 Gemini 3 中,试图复刻。 提示词如下: 请帮我开发一个功能完整的网页版Excel应用,技术栈使用HTML、CSS、JavaScript,需要实现以下核心功能模块: -第一阶段:基础功能(核心优先级) 网格渲染系统: 实现1000×1000单元格的虚拟渲染; 优化滚动性能,确保流畅体验; 横坐标(A、B、C等)和纵坐标(1、2、3等)需要与单元格精确对齐; 滚动时坐标轴与内容区域保持同步,无偏移; 单元格编辑功能: 双击单元格进入编辑状态,编辑框与原单元格完全重合; Enter键保存内容并向下移动到下一个单元格; Tab键保存内容并向右移动到下一个单元格; 支持空值和默认值的正确处理; 编辑栏应可编辑,实时显示和修改当前选中单元格的值; 富文本格式工具栏: 实现独立的格式按钮,每个按钮状态基于当前选中单元格的格式属性独立判断; 字体大小调整; 加粗、斜体、下划线、删除线(按钮状态互相独立); 文本对齐:左对齐、居中、右对齐; 背景颜色设置; 一键清除格式功能; UI界面要求: 顶部工具栏包含所有格式设置按钮; 名称框显示当前选中单元格坐标(如A1、B2); 编辑栏显示并可编辑当前单元格内容; 整体界面美观,具有现代化设计风格; -第二阶段:高级功能(扩展功能) 行列操作: 点击行号后,按"="键在下方插入新行,按"-"键删除当前行; 点击列号后,按"="键在右侧插入新列,按"-"键删除当前列; 删除后自动重排坐标编号,保持连续性; 添加最小保护机制,避免删除最后一行或列; 复制粘贴操作: 实现Command/Ctrl+C(复制)、Command/Ctrl+X(剪切)、Command/Ctrl+V(粘贴)快捷键; 支持单元格内容和格式的复制粘贴; 支持行列的整体复制粘贴操作; 撤销恢复系统: 实现Command/Ctrl+Z(撤销)和Command/Ctrl+Y(恢复)功能; 维护操作历史栈,限制最大100层以控制内存; 页面刷新时清空操作栈; 选择功能: 支持单元格多选(拖拽选择矩形区域); 支持整行、整列选择; 选中状态的可视化反馈; -第三阶段:完善功能(产品化) 数据导入导出: 支持导出为CSV格式文件; 支持导出为JSON格式文件; 确保导出的文件能在Microsoft Excel中正确打开; UI美化优化: 添加滚动动画效果; 优化阴影和渐变效果; 提升整体视觉体验和交互流畅度; 响应式设计,适配不同屏幕尺寸; ⬆️ 向上滑动文字 但最终写出来的 Excel 有一堆 Bug,比如字体格式有时能用有时不能用,文本对齐、复制剪切功能也有各种意想不到的问题,简直是灾难现场,不如上次对 GPT-5 的测试 ( 传送门 )。 知危怀疑是网页版 Gemini 的 Agent 能力不足,就切换到谷歌新推出的编程 IDE Antigravity,用相同的提示词来测试。 结果,写出来的网页版 Excel 完全无法交互,鼠标点击没有反应,也不能输入,甚至不能显示单元格,应该说比网页版表现还差吧。 为了再给它一次机会,我提示它自行检查并修复。 第一阶段:基本功能 发现一个错误,即单元格编辑器和选中高亮显示会在滚动时与网格分离,因为它们位于视口容器而非内容容器中。已将它们移至正确的容器。 但它发现的错误和单元格相关,这并不是最关键的,甚至实际界面中都看不到有任何单元格。 接下来,知危极大降低了要求,只让 Antigravity 写了一个《 2048 》游戏,看看产品本身是否有问题。 测试发现游戏能运行,视觉效果也很好。 但 Agent 运行有一些问题,会无限期的停留在测试阶段。 到此,只能认为 Antigravity 作为编程 IDE 产品还不够成熟完善。为了最大程度发挥 Gemini 3 的编程水平,知危决定在 Cursor 上测试。 果然,在 Cursor 上调用 Gemini 3 Pro,就能用相同提示词顺利完成 Excel 原型的开发,而且也是一次成功。 目前为止,知危拿这个案例测试过很多大模型,只有 GPT-5 和Gemini 3 Pro 是能一次成功的。在 UI 审美上,Gemini 3 Pro 比 GPT-5 更好。 但接下来的测试再次让知危大跌眼镜。 还是紧接前面提到的 3D 乐高引擎案例,我们在 Cursor 上再试一遍,因为 Cursor 无法输入视频,所以只用了 UI 截图。 第一次尝试,让 Gemini 3 Pro 参考 3D 乐高引擎的UI界面截图来开发。 结果还是依样画葫芦写了个不能交互的网页。 知危给了它最后一次机会,将前面在网页版 Gemini 3 分析推特视频后得到的提示词,再一次提供给 Cursor 中的 Gemini 3 Pro,结果这个网页仍然是不能交互的。 到此,基于这些实测结果判断,Gemini 3 的编程能力还是能达到顶尖水平,也有足够的代码审美,但发挥是不够稳定的,不管是幻觉率还是对指令遵循的细致全面程度,还没有达到业内最高水平。 前面因为分析 3D 乐高引擎视频被带进了编程能力测评的坑,但多模态理解测评的难度还没真的上来,我们继续这个维度的测评。 为了提高多模态分析的难度,自然还是要上 ARC-AGI-2 这个测试集,毕竟 Gemini 3 在这个基准测试集中的提升幅度是最大的。 但知危不是拿公开的评估集来再测一次,测试设置需要针对多模态这个属性做一些调整。 ARC-AGI-2 的官方发布使用 json 表示二维网格,例如下图是该项目的 GitHub 中包含的一个评测集中的数据部分展示: 样本:e376de54.json,来源:https://github.com/arcprize/ARC-AGI-2/blob/main/data/evaluation 通过顺手 vibe 一个小型程序可以将这个矩阵转换成图像( 每个数字代表在图像中的坐标和颜色 ),如下图所示: 知危不想按照官方设置使用 json 为输入,而是要以图像作为输入传递给 Gemini 3,并且为防止大模型吸收基准测试数据作为训练数据取巧,会对这个评估集样本再做一些微调( 修改 json 数据再转换为图像即可 )。比如下图中,左图是原评估集样本,右图是微调后的样本,黑边与数据无关可忽略。 按这个思路,知危制作出了两个新的谜题。这是第一题: 下图是准确答案,应该按照排第二的长度值重组所有斜线。 Gemini 3 的分析框架是对的,但得出的结论却是:取最大长度统一( 无法理解,真的就差一点点啊 )。 在下一道题中,知危对原评估集样本做了如下改动( 样本:247ef758.json ): 这是第二道题的完整呈现: 下图是准确答案,方框的四条边上如果有某个颜色构成十字相对方位,该颜色对应的方框外几何素材就可以放入方框内十字交叉点的位置。这里因为微调了颜色,第四组的蓝色几何素材也要放入方框内。 Gemini 3 有理解到规则是对左侧素材的筛选,但错误地把筛选规则理解为基于素材的形状,映射位置规则有理解到要基于方框边框像素点,但没有精确到十字交叉点。 所以,它最终得出来的答案也是错误的。 这才测了两道,Gemini 3 就都错了。要知道这还是 ARC-AGI-2 中比较简单的题。 样本:4c7dc4dd.json 这个结果并不代表 Gemini 3 在类似 ARC-AGI-2 场景中的实际表现,毕竟实验设置不同,只是也表明 Gemini 3 在静态图像的空间认知和逻辑分析上还是比较初级的,过程有理有据,但低级错误令人头疼。 好了,到了这里,本期内容的全部测评就结束了。 通过这个测评,可以认为,Gemini 3 在各种多模态理解和编程场景中,都给出了局部亮眼、整体不稳定的表现,比如: 能多维度分析电视剧剧情和人物,却把主角给认错; 能自主分析运动员连续动作,却编造不存在的球员动作; 能逐帧分析视频,却高度依赖语音; 能写全UI解析,却不能完整复刻; 能写好Excel,却写不好3D乐高引擎; 图片理解框架很有逻辑,却败在尺寸比较的一小步; 所以 Gemini 3 给人的感觉就是巨好玩,但不够令人放心,毕竟跨越不同模态确实有趣,但聚焦单个模态才是专业,换句话说就是 ToC 属性爆棚,ToB 属性还不够。 他有点像一个优秀大学毕业的高学历实习生,知识素养足够,但真让他干活他也是错漏百出。 总之,我们暂时认为 Gemini 3 玩一玩是很不错的,但是还是尽量不要把它用到生产环境,万一出什么问题也不好解决。( 昨天吃到个不知真假的瓜,有人用 Gemini 3 来 Coding 的时候被删了 800G 重要文件 ) 或许,谷歌这次能这么强得益于其生态中拥有的丰富模态的海量数据,随之带来的缺点是谷歌还来不及将模型调教的足够可靠。 当然,毕竟潜力太大,我们还是期待谷歌和 Gemini 家族的后续发力。 撰文:流大古 编辑:大饼
索尼手机败走中国:凉于偏执?
摘要: 市场从不怀旧,它只向前。 凤凰网科技 出品 作者|姜凡、王佩薇 编辑|董雨晴 2025年11月,索尼Xperia官方微信公众号自主注销,域名失效,产品页面链接中断。这一系列静默的操作与索尼中国官方曾经的“业务稳健运营”表态形成了剧烈反差。事实上,自2023年9月发布的Xperia 5V后,索尼再无新款手机在中国上市。 在中国这个全球竞争最激烈的智能手机市场,索尼手机的退场几乎无人注意,也无人在意。 在全球市场,一代日本神机也在走向陨落。 一代神机,已走进ICU 没有正式公告,也没有一句再见。 11月6日,索尼Xperia官方微信公众号主页上“该账号已自主注销,停止使用”的灰色提示成为其在华业务落幕的注脚。 更早之前,索尼Xperia的专属域名sony-xperia.com.cn因业务调整被停止使用并于8月失效,中国官网移除“手机”产品分类,余留的几款机型页面在点击后已无法链接至商品详情页。与此同时,Xperia官方微博的最后一条动态也停留在了2025年3月8日的节日祝福上。 事实上,索尼与中国的这场告别早已埋下伏笔。于2023年9月发布的Xperia 5V成为了其在中国的最后一款上市机型,后续的两款旗舰机型Xperia 1 VI和Xperia 1 VII均未推出国行版本,也未在中国大陆地区发售,官方渠道产品断供超两年。 2024年3月,索尼还曾极力否认其手机业务“退出中国市场”。 但数据不会撒谎,IDC2023年的报告就已显示,索尼在中国智能手机市场的份额已不足0.1%,早被归为“其他”类别。 在不少消费者心中,索尼手机曾被称为一代神机。索尼手机在中国市场的黄金岁月,还需追溯到“索尼爱立信”时代。 彼时,凭借Walkman系列在移动音乐领域的深入人心,以及Cyber-shot系列在手机摄影上的前瞻布局,索尼爱立信迎来了它的高光时刻,年销量一举突破1.03亿台。 然而,历史的吊诡之处在于,其最辉煌的顶点也恰恰是时代转折的起点。从2012年索尼收购爱立信股份后,索尼手机业务便开始步入一条漫长而曲折的下坡路。 彼时,已经面世四年的iPhone渐入佳境,悄然改写了移动产业的游戏规则。2012年6月12日凌晨,已是苹果CEO 的蒂姆·库克在其全球开发者大会上宣布,App Store下载量已经突破300亿次。仅一年内,就新增了200亿。 后来,时任索爱CEO的伯特·诺德伯格也承认,他们当时低估了那场变革的深远意义。 此后,便是节节败退。2018年7-9月,索尼手机全球销量仅160万部,比前一年同期减少180万部。2018财年二季度,移动通讯业务销售额为1178亿日元,亏损高达298亿日元,成为索尼集团所有业务部门中唯一亏损的部门。 现如今,除了在中国业务的事实性死亡,索尼手机在日本本土市场还保持着一定的活跃度,但也岌岌可危,已从2022年的10.81%下滑至3.96%。 跟不上时代的“古董” 危机的种子,往往埋藏在其成功的基因里。索尼信奉的是一种“硬件驱动”的产品哲学,其对技术本身有着近乎偏执的追求。 2012年,索尼完成对爱立信所持50%股份的收购后,彻底收回了其在手机业务上的“主权”,索尼爱立信由此成为集团全资子公司,并更名为索尼移动通讯。更重要的是,Xperia产品线被正式纳入时任CEO平井一夫力推的“One Sony”战略框架之下。该战略起初雄心勃勃,想要打破内部壁垒,将散落在游戏、音乐、影视、半导体等各部门的技术优势熔于一炉。作为最贴近消费者的终端,手机业务被寄予厚望。 2013年问世的Xperia Z1,以其硬核的工业设计(如无刘海直屏、保留3.5mm耳机孔)和卓越的影像性能,一度成为中国科技爱好者追捧的对象。在“One Sony”战略的资源加持下,该系列于2014财年达到了约4000万台全球销量的历史峰值。 然而,智能手机市场的竞争,尤其是中国市场,早已转向以用户场景为中心的体验竞争。当对手们在快充、AI美颜等本土化需求上持续创新时,索尼对屏幕形态和影像风格的坚持,被视为一种不合时宜的“固执”。 其接近原生的系统在便捷功能上的缺失,以及高高在上的定价(如Xperia 5 V的6499元起),最终让那句“索尼手机很好,但它不懂中国用户想要什么”的评价走红,随后索尼逐渐慢慢淡出中国市场。 溃败的进程是残酷的。就在中国本土手机军团高歌猛进之时,索尼手机的全球销量从2015年的约2500万台,暴跌至2019年的约300万台,四年间蒸发近九成。 即便索尼在2022年试图通过与魅族合作来补课本地化,但流于表面的“应用预装”并未能带来系统级的体验革新,终究回天乏术。 因此,从2023年Xperia 5 V成为绝唱,到2025年一系列官方渠道的悄然关闭,这一切都不是突发事件,而是一场早已写好结局的慢性“自杀”。 索尼消费电子迷失的20年 据《死于技术:索尼衰亡启示》一书描述,自斯金格担任CEO以来,索尼便开始默认放弃电子业务,计划转型为一家涵盖内容及网络业务的娱乐公司。斯金格及其追随的高管们认为,“数码时代到来后,技术差距就小了,从而得出硬件不能确保利润的观点”。他们甚至认为“家电、手机等硬件只不过是连接网络的终端,更有价值的是网络业务与构筑网络业务的商业模式”。 如今,在全球市场上,索尼的影音和游戏部门业务还在主流视野里,但电视和手机却接连步入ICU。 其中,在等离子与液晶显示技术的世纪之争中押错宝,被视为索尼由盛转衰的一个决定性转折点。彼时,索尼凭借其特丽珑技术在家用显示领域建立的霸权,使其对等离子的画质优势抱有近乎偏执的自信,并为此投入了巨大的技术与资本。 战略上的误判,不仅让索尼承受了巨额亏损,更致命的是,它让这位“消费电子之王”在长达数年的电视产业核心竞争中失去了主导权。 如今,在中国市场,索尼电视的整体份额已萎缩至个位数,与海信、TCL等国产头部品牌差距巨大。今年以来,市场陆续传出索尼电视在中国市场可能要开始一轮产品经营策略调整,随后更具性价比的3系新品被推出。索尼电视还在努力避免重蹈三星、LG的覆辙,但如今看起来,也可能是徒劳。国产品牌阵营已占据绝对主导地位,其头部品牌的销量规模,让这些昔日巨头难以企及。 手机业务的慢性死亡亦如是。一方面,在于其“工程师思维”与市场需求的脱节,对硬件偏执,却不注重软件服务,让消费者无法理解。另一方面,也在于中国诞生了一批强劲的对手。 索尼手机在中国市场的退场,标志着消费电子行业一个时代的终结。那些年排队购买Walkman手机的热情,为Xperia Z系列工业设计惊艳的瞬间,已经成为了消费者的历史记忆。 但神奇的是,嘴硬的索尼似乎始终不愿意面对现实。 针对早前的“手机业务退出中国”传闻,索尼中国曾在去年3月回应称,包括手机业务在内的在华业务“正在稳健运营当中”,并称中国是“最重要的海外市场之一”。如今主要宣发渠道的主动注销,引发了外界对其中国市场策略的新一轮猜测。 然而,就在国内渠道收缩的同时,索尼的全球手机研发并未停滞。据科技媒体 The Walkman Blog近日披露,索尼正规划两款安卓新机——旗舰级的 Xperia 1 VIII 和中端的Xperia 10VIII,预计将在2026年正式发布。 市场从不怀旧,它只向前。索尼在音频和影像领域的高光表现与手机业务的黯然退场形成鲜明对比。 游戏、音乐、影视已成为索尼的三大支柱,占集团收入六成以上。 即便索尼未来重返中国手机市场,它也必然是一个截然不同的索尼——不再依靠硬件单打独斗,而是整合其影音、游戏、传感器的综合生态。对于曾经的“索粉”而言,那些年排队购买Walkman手机的狂热,为Xperia Z系列工业设计惊艳的瞬间,已随时代洪流而去。索尼手机,早已无人在意。
吉利推进智驾整合,极氪团队正被划转至新合资公司
耗时近一年的重整接近落地。 文丨魏冰 司雯雯 编辑丨龚方毅 整合近一年的吉利系智驾团队有了新进展。我们独家获悉,极氪智驾团队员工正陆续换签劳动合同至先前为本次整合设立的合资公司,包括 “千里智驾” 及其子公司 “千里浩翰”。相关工作接近尾声。其中,千里智驾公司可视为智驾方案供应商,千里浩瀚公司则专门为吉利提供辅助驾驶服务。 我们了解到,极氪辅助驾驶团队的核心技术和预研能力,以及千里科技的大模型能力,均会用于千里浩瀚团队中,目前负责 H5、H7 和 H9,承担主要量产任务。迈驰辅助驾驶团队负责技术预研。一位接近千里智驾的人士说,随着进一步融合,目前分工也可能会再调整。 我们就上述信息向极氪汽车官方求证,极氪方面回应称,千里科技和吉利将整合各自的优势资源成立合资公司,目的是为了提升千里浩瀚智能辅助驾驶方案的先进性、主动性和经济性,并将在未来面向全行业提供行业领先的辅助驾驶方案。作为整合的关键步骤之一,极氪正在与部分相关员工协商划转入合资公司的事宜。目前整合仍处于进行过程中。极氪将秉承公开、透明的原则,确保员工权益得到保障。 此前,极氪、领克、吉利、路特斯等品牌各自规划,既有自研团队,也用供应商。基于 “一个吉利” 的目标,去年以来吉利陆续完成品牌和各品牌的座舱、电子架构、电池等多个业务的整合。吉利整合智驾体系的目标和决心明确,但因为业务重合度较高、且涉及多家外部公司,管理层需要平衡好整合、现有量产业务、技术迭代等任务,稳定比速度更重要。 今年 3 月,吉利旗下车型的辅助驾驶方案统一规划、命名为 “千里浩瀚” 辅助驾驶系统,包括 H1、H3、H5、H7 和 H9 五个级别,数字越大,能力越强,H1、H3 和 H5 主要应用于吉利品牌,极氪、领克主要搭载 H5、H7、H9。三个月后,作为智驾整合的重要节点,吉利联合旷视、千里科技等公司成立千里智驾。千里科技联席总裁王军任千里智驾 CEO,前极氪智驾副总裁陈奇任联席 CEO。
摩尔线程:部分卡脖子领域已突破 S80显卡接近RTX 3060
快科技11月21日消息,今年开始会有多家国产GPU企业正式上市,11月24日就要申购的这家就是摩尔线程,发行价为114.28元每股,募资总额近80亿。 摩尔线程创始人、董事长、总经理张建中今天在科创板上市网上投资者交流会上谈到了多个话题,其中就有该公司的GPU芯片与国际企业的对比。 针对有提问者对摩尔线程MTT S80显卡的质疑,张建中表示,与国际龙头公司英伟达、AMD 等企业相比,公司在技术积累、产品性能等方面仍需持续提升。 英伟达在 GPU 领域拥有深厚的技术底蕴和丰富的行业经验,其产品在性能、兼容性以及超大规模 GPU集群建设等方面具有较为明显的技术优势和成本优势。 张建中表示,公司产品在部分性能指标上已经接近或达到国际先进水平,实现了对部分“卡脖子”领域核心产品的突破。例如公司MTT S80显卡的单精度浮点算力性能接近英伟达 RTX 3060。 针对图形API和驱动生态问题,张建中表示这确实是决定用户体验和产品竞争力的核心,也是我们投入巨大力量持续攻坚的方向。 我们深知强大的硬件规格需要同样强大的软件生态来释放其全部潜力。 对于新一代消费级显卡,我们会在持续投入研发的基础上,结合市场和用户反馈,在合适的时机推向市场。
看到鸿蒙智行的MPV 我觉得友商们要紧张起来了
想不到在做了这么多爆款以后,鸿蒙智行竟然还留了一手没露的大招。 昨天一整天,围绕华为这个品牌,有新品牌官宣、新规划曝光和新技术亮相,真就是不折不扣的车圈春晚。而要说里头最大的看点,无疑就是那台篇幅占比很小,但十分重磅的新车: 鸿蒙智行旗下的首款 9 系旗舰 MPV 。 在很多差友看来,这台新车只不过就是一个 MPV 的身板再堆上华为的技术栈而已,相比较市面上已经扎堆出现的豪华 MPV 们,乍一看好像也并没有什么不同。 可从友商们的视角看,当余总在发布会的最后说出这是一台超越人们期待的 MPV 后,他们各自心里的压力指数,应该都已经暗暗拉满了。 一个曾经在传统车企做过 MPV 的车型总监就在发布会后跟我说道:“ 在鸿蒙智行下场以后,国内的豪华 MPV 市场大概率就要变天了。 ” 友商们会这么想其实也非常好理解,毕竟如果换做是别家车企说自己要当行业标杆,大伙可能就是听个乐。 可如果把主角换成鸿蒙智行,用 9 系旗舰把细分市场的桌子掀飞,却早就已经是他们的家常便饭了。 就比如同为 9 系旗舰车型的问界 M9 ,在车型推出的初期其实压根没有多少人看好。 可在上市仅仅不到两年后,它就已经累计交付了超过 26 万台,成了国内 50 万单价以上豪华市场的现象级车型,也间接导致了宝马 X5 等车型的大幅降价。 真的,非常大幅。 再比如对 BBA 来说都十分棘手、很长时间都是国内市场空白的新能源豪华轿车,鸿蒙智行也愣是靠着旗舰车型 尊界 S800 ,打出了一片天地。 不少从业者和媒体,都曾经讨论过鸿蒙智行取得巨大成功的秘诀是什么,他们的答案五花八门,有说 9 系旗舰的车型定位好的,有说华为全栈的豪华配置高的,也有说多品牌的发展战略很成功的。 但我觉得,他们都没有说到点上。 对 BBA 的成功没有路径依赖,有勇气去定义新能源的豪华,我觉得才是鸿蒙智行做得最对的事情。 我们还是回到问界 M9 ,在它出现之前,人们对于豪华 SUV 的认知大多是由 BBA 和路虎揽胜树立的。也是因此,在很长一段时间里,甚至直到现在,很多国产豪华车型打出来的口号,都是 XX 揽胜、X5 平替、XX 卫士等。 这种思路当然说不上错,但也很容易让人们问出那个经典的问题:“ 那为啥不干脆加点钱,直接买你对标的揽胜和 X5 呢? ” 对比之下,问界 M9 不仅是个全新的面孔,还在性能够强、配置够高、足够宽敞舒适的基础上,增加了新能源时代对于豪华更新的定义。 比如需要拥有一套强悍的辅助驾驶系统来分摊驾驶的疲劳,需要一个足够智能的座舱系统来帮助执行复杂的车控指令等。 人们选择它的原因并不是因为它豪华,而是因为它是全新豪华形式的代表。 问界 M9 是这样,尊界 S800 当然也是这样。 这时候回过头来看今天的 MPV 市场,我们就能发现,剧情其实和当年其实几乎一模一样。 环顾市面上的 MPV 车型,我们其实不难发现,它们虽然各有特点,但本质上其实都在沿着丰田埃尔法铺下的路前进。 气场厚重的外观,足够堆料的配置,还有最重要的商务接待的取向是它们的共同点。这一方面让 MPV 车型除了在酒店、机场等商务场合高频出现以外,几乎没有家庭用户愿意为它们买单。 另一方面,因为对前辈车型成功路径的认同,它们也大都在标榜自己 “ 埃尔法平替 ” 的定位。这种设计同质化、定位差异小的趋势久而久之,也毫不意外地让 MPV 们变得 “ 无聊 ” ,甚至直接和商务车画上了等号。 而当一个车型开始变得没意思的时候,往往也就到了鸿蒙智行的 9 系旗舰上场的时机。 咳咳,这里虽然很想跟大伙展开说说这台 9 系 MPV 的产品细节,但无奈现在所有已知的信息就只有开头的那张侧颜,所以这里只能跟大伙一起畅想一下它可能具备的特点了。 可以确定的是,这台车不仅会拥有华为乾崑智驾 ADS4 现有的全部软件能力,跟问界 M9 这样的其他 9 系旗舰看齐,还很有可能会搭载华为自研的超 500 线激光雷达等全新的感知硬件。 这代表着在发布之时,这台新车就能实现车位到车位之间的全程辅助驾驶覆盖,带来十分科幻的驾驶体验。 当然相比轿车和 SUV ,MPV 其实也更需要 ADS4 强大的能力。 毕竟后者靠着在 WEWA 世界模型和罕见硬件配置( 全向4D毫米波雷达和激光雷达覆盖 ),不仅可以像老司机一样平顺安全地开车,还能更好感知周边的潜在风险,防患于未然。 这对于身材庞大、不好操控的豪华 MPV 来说简直就是最完美的搭档。不管是家用还是商务接待,相比传统 MPV 全靠司机水平决定乘坐体验的模式,显然都有着更高的舒适度和安全性上限。 特别是在全家出行的时候,一个靠谱的智驾系统真的可以让驾驶者有更多的精力和家人沟通和欣赏沿路的景色,几乎可以说是一个无法衡量价值的豪华配置了。 当然除了智驾,这台定位在 9 系的旗舰 MPV 定价大概率也会落在 50 万这个主流区间。 这个并不便宜的价格,意味着我们能在其他鸿蒙系车型上见到的豪华配置,大概率就都会在它的身上出现。 就比如第二排的两个独立的零重力座椅,在 MPV 巨大的空间里可以更自由地展开和移动。 在它们的前方是鸿蒙座舱标志性的激光投影巨幕,和它配合的,则是拥有超过 20 个扬声器和 2kw 功率的复杂音响系统。这套系统由 HUAWEI SOUND 出品,是产品系列中顶尖的 Superior 系列。 能利用 MPV 宽阔空间带来的反射能力营造出宽阔的声场和厚重的低音,带来沉浸感十足的音质享受。 而在这些豪华配置之下,这台新车大概率也会拥有华为标志性的途灵平台,可以用空气弹簧和可调阻尼减振器过滤掉路面震动,也可以用 DATS(动态自适应扭矩控制系统)和 xMOTION(智能车身协同控制系统)让转向变得更灵活、更安全。 再加上它的电驱、电控、制造工艺和造型都将由华为深度参与研发和定型,这台 9 系旗舰 MPV 的 “ 含华量 ” 不仅非常之高,可能也会刷新整个 MPV 领域的豪华配置纪录。 如果这种智能化+豪华性的组合还只是定价在 50 万,那豪华 MPV 市场,可能真的就要变天了。 咳咳,好像畅想的稍微有些多了,我们还是收回来看点实在的,看看开头的那张谍照里还有没有啥可以挖掘的点。 虽然发布会上老余只是发了张隐隐约约的侧视图,但根据已有的信息看,这台新车的模样其实已经算不上神秘。 毕竟结合官方发布的预热图和各种路试的谍照,咱们基本能确定这台车挂的会是智界的车标。 这也就意味着它的头尾灯组会用上智界家族化的设计语言,在一众稍显油腻的友商产品里头成为那个相对犀利、相对个性、也相对有激情的存在。 同时根据各路关于这台车的爆料信息我们也可以知道,这台车的底层架构在拓展性和安全性以外,也把驾控、轻量化和高性能放在了很重要的位置。 很有可能会让它成为如今市面上非常少有的,不仅坐着舒服,开着也非常带劲的豪华 MPV 。 这就又是此前的 MPV 做不到的点了。 说了这么多,不知道大伙对这台车的未来怎么看。 借用魔术师刘谦最近很火的一句话:“ 任何能预见结果的决策都是不靠谱的,义无反顾做觉得对的事情才是成功的秘诀。” 我想说在这个人人都会说自己是爆款的时代,讨论一台新车能不能被市场接受已经不太重要了。 与之相对,能够跳脱出市场大流,用自己的理解做出让人眼前一亮的新品,我觉得才是车企保证今后竞争力的关键。 一路走来的鸿蒙智行,靠的就是这种能力。而且,今年8月份华为和奇瑞就签订了智界品牌战略2.0的合作协议,拉开了智界品牌2.0时代的序幕,用一句话来总结就是,更多的投入、更高端的车型引入、更丰富的产品矩阵、更极致的用户体验。 而这回亮相的 MPV 就是智界将在 2.0 时代推出的第一台旗舰车型,我不知道它的销量会是怎样的,但我知道对于 MPV 这样一个几乎已经定型成刻板印象的品类来说, 鸿蒙智行的 “ 掀桌效应 ” ,一定会来得异常猛烈。 责任编辑:随心

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。