EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
1000天,AI从“聊天工具”变成“数字同事”
编辑:倾倾 【新智元导读】不到1000天,AI已从会聊天,进化到能读文件、跑任务、写论文。它开始介入实际工作流程,人类与AI的分工,也在悄悄重写。 AI走进大众视野,其实也不到1000天。 可就在这短短1000天里,很多事已经彻底换了样。 三年前,人们用GPT-3写诗、讲段子,它能把一句话写顺就是奇迹。 现在的Gemini 3,会读文件、查资料、跑代码、建网站,甚至能把十年前的旧数据整理成一篇14页的学术论文。 在没有具体研究题目的情况下,它也能自己确定研究切口。 AI不再等人开口提问,它开始主动把事情做完;而人与AI之间的关系,也悄悄进入了新位置。 三年前的「惊艳」,现在回看只是序章 如果把时间倒回2022年底,那个节点几乎是AI发展的起跑线。 就在ChatGPT刚上线前夕,Ethan Mollick写下了他在Substack上的第一篇GPT-3测试文章。 彼时的他还在感叹: AI能写出一段顺畅的文字,已经足够改变世界。 在那篇文章里,他举的例子成了那个时代的代表性画面——让GPT-3写一首关于「糖果驱动的超光速引擎逃离水獭追捕」的诗。 这种轻巧、荒诞又略带才气的创意输出,曾让无数人第一次意识到:机器不只是补全文字,它真的能像在写作。 那一年,全网都在传播类似的故事。 媒体强调「AI会写作」「AI会讲段子」「AI模仿莎士比亚写诗」,技术论坛里也充斥着GPT-3的各种玩法,从写故事、写求职信,到写简单的Python函数。 GPT-3生成的一篇关于众筹如何助力创业的学术综述论文 但那时的能力短板:它能写,也只能写。 你给提示,它完成一句;你给框架,它模仿结构写一段。 再聪明,它也像是一个被困在文字框里的大型自动补全系统。 Mollick之后在文中也承认,当年他第一次感到震撼,是因为「AI 居然能写得这么顺」。 可他没想到的是,仅仅过了三年,Gemini 3只需给它一张截图,AI就能直接「做给你看」。 回头看,GPT-3的所有惊讶都像是时代的开场白。 真正的能力跃迁,还在后面。 AI不止是回应,它还会把事情做完 真正让人意识到时代变了的,是Gemini 3。 Mollick做了一个简单的实验:他把自己三年前写GPT-3的截图扔给Gemini 3,只给了一句提示: 用实际行动来展示人工智能自这篇文章发布以来取得了多大进步。 然后事情失控了。 在Mollick的测试里,Gemini 3直接构建了一个可交互的小游戏: 一个用糖果驱动的星舰,要逃离水獭追击,还配了动态文本、小诗和实时状态更新。 三年前只能在文本里描述游戏,如今它直接把游戏做出来。 但小游戏只是预告片。真正的核心在Google同期发布的Antigravity。 这是一个能读取本地文件、运行代码、规划任务、执行项目的通用型行动代理。 用户不需要写代码,只用中文或英文告诉它要做的事,AI自己把步骤拆开,然后一点点推进。 Mollick做了一个非常典型的测试:他给Antigravity访问权限,让它读取自己电脑里存着的所有newsletter旧稿。接着只下达一句话: 帮我做一个漂亮的网站,汇总我过去所有关于AI的预测,并去网上查查哪些预测准了、哪些错了。 Gemini 3接过任务后,开始自动读取文件、扫描内容、比对上下文,然后弹出一个行动计划让你确认—— 包含网页结构、数据整理方式、需要额外搜索的点、交互形式,甚至包括可能遇到的技术问题。 人工智能第一次询问有关项目的问题,它对需求的理解得非常透彻,给人留下了深刻的印象 只有在需要判断方向时,AI才会ping他:「这里有两个可能路径,你想让我选哪一个?」 Mollick测试时,AI自动生成并部署的demo页面 Mollick的评价很直白: 这不像在prompt一个模型,更像在管理一个队友。 这句话说明了一个事实:Gemini 3已不再停留在语言模型阶段,它正在成为一个能执行任务、推进流程、判断路径的数字行动体。 对普通用户来说,这意味着过去三年最本质的变化不是模型更强,而是AI终于从「只说不做」进入了「又说又做」的时代。 当AI会做科研,人类的任务只剩下审核 在Mollick的测试里,Gemini 3在测试中呈现出接近研究生水平的科研工作流程。 他没有给AI任何干净、整齐的数据,而是一份自己十年前做众筹研究时留下的旧文件夹。 各种格式混在一起,命名混乱,甚至包括—— 「project_final_seriously_this_time_done.xls」这种文件名。 他把这一整包东西直接丢给Gemini 3,并给了它一句话: 先搞清楚这些数据的结构,把能修的修一修,清理干净,准备做新的分析。 然后AI开始自己工作。没有催促,没有提示,也不需要你告诉它STATA是什么。 它会自动识别文件格式、修复损坏数据、统一字段、重建可读结构,并按照研究常规流程整理出可分析的数据集。 这一步过去通常需要研究生级别的耐心和经验。 Mollick看到结果后,提出了第二个要求: 写一篇新的论文。用这些数据,找一个创业或战略领域有意义的理论问题,自己设计分析方法,写成一篇可投稿的学术文章。 他没有告诉AI要研究什么、没有给任何方向、也没有限定主题。Gemini 3自己就能决定研究切口, 它提出了一个能与现有文献对话的假设,设计合适的统计模型,跑完数据,生成结果,再把整套内容写成了一篇14页的完整论文,包含摘要、理论、方法、数据描述、回归表格、讨论与局限。 最让人意外的,是论文里出现了一个AI自创的指标。 它利用NLP方法计算「项目创意的独特性」,通过文本相似度量化「一个众筹项目到底有多特别」。 在这个案例里,它不只是模仿已有做法,而是尝试做方法层面的扩展。 当然,它并不是完美的。Mollick也指出AI有一些典型问题:模型有的地方过拟合,解释略显自信,理论段落写得有点「太努力」。 但这些问题并非幻觉或混乱,而是更接近研究生写作时的判断偏差和方法细节不足。 当Mollick给出方向性建议,例如「理论部分补充文献」「方法段落写得更稳妥一些」时,Gemini 3能根据这些反馈进行有效修订。 从整个过程可以看出,Gemini 3可以承担科研工作里大量「执行性任务」,而人类在其中的角色更像是审稿人、研究负责人、方向决策者。 回看这三年,GPT-3 时代,人类负责「提出问题、设计方向」AI 负责生成一段文字。 到了Gemini 3,人类提出粗略目标,AI会把数据整理、建模、写作、执行流程全部推进到位,再让你做最终判断。 AI不再停留在对话窗口里,它开始执行项目、处理文件、构建研究环境,甚至能独立做出研究选择。 而人类也不再是修正AI错误的人,而是在逐渐转向「给AI下达任务并审核结果的人」。 这就是1000天带来的变化。 不是某个模型更强,而是整个协作方式已经重写。 AI的位置往前走了一步,人类的角色也随之调整。 这种位移正在成为新的常态。
英伟达的疯狂账本:一边收割巨头,一边“包养”OpenAI
新智元报道 编辑:倾倾 【新智元导读】ChatGPT涨价、免费额度缩水,骂归骂,很多人还是没搞懂:到底谁在拿走我们的钱?其实,涨价的真正推手不是OpenAI,而是用GPU锁住AI底价的英伟达。 ChatGPT涨价的讨论又冲上了首页。 Plus到手价从20美元涨到22美元、美区Team从25美元涨到30美元,Claude在20美元的Pro之外,又新增了30美元的Team档和Max档, 有人骂贵,有人觉得情有可原,更多人开始意识到:AI正在进入一个「越用越贵」的时代。 可顺着成本链条往下看,会发现涨价的真正推手既不是OpenAI,也不是Anthropic,而是Nvidia。 所有AI公司都在为它的GPU付账,用户最终为这条链买单。 涨价的起点:算力被Nvidia推上去了 外界把涨价的矛头指向OpenAI,可真正把整个行业往贵的方向推的,是算力成本。 把「算力」 这两个字拆开看,其实就是三个字:英伟达。 据The Information报道,这一轮涨价背后,是Nvidia的现金流在过去两年里出现了几乎前所未有的爆炸性增长。 截至2023年1月,它的自由现金流只有38亿美元;到了明年,预计会飙到965亿美元,三年复合增长率高达194%。 短短四年,它的自由现金流放大了二十多倍。 这种增速,在1990年以来的大型科技公司里都极为罕见,能勉强靠近的只有iPod刚问世那几年的苹果,但幅度仍不及Nvidia。 Nvidia的自由现金流在四年内接近百倍暴涨,远超Meta与Apple在各自巅峰时期的增速 这种增长不是凭空出现。 2023年ChatGPT爆火后,全球科技公司一齐冲向Nvidia订购AI芯片。 Google、Meta、微软、亚马逊在AI上的投入全面上升,它们疯狂扩建数据中心、抢购GPU,Nvidia直接变成算力时代的核心供货商。 ChatGPT点燃AI浪潮后,Nvidia的营收与自由现金流在四年内直线上冲,远超资本开支的增幅,形成史无前例的「现金喷泉」 The Information在报道里提到一个关键趋势:谷歌、Meta、亚马逊和微软因为大规模购入Nvidia的GPU,自身的自由现金流被明显压低,可用来维持「免费服务」的现金池变小了。 我们看到的那些「免费额度减少」「会员涨价」「高级模型限流」,都和这一点息息相关。 巨头为了继续做AI,只能把算力成本摊给用户。 与此同时,Nvidia的的现金储备也在持续膨胀。从2023年初大约130亿美元,上升到今年10月底的600亿美元。 分析师预计,从现在到2030年,Nvidia累计会创造接近8500亿美元自由现金流。 分析师预计Nvidia在2027—2030年的自由现金流将持续走高,到2030年逼近3000亿美元 这一总量,被认为已经明显高于分析师对Google、亚马逊、Meta、微软同一时期自由现金流的预期,也高于苹果被预计产生的自由现金流。 现金被掏空:巨头把成本转嫁给用户 当Nvidia的现金曲线开始向上「跳档」时,产业链的另一边已经有些吃不消了。 Google、Meta、微软、亚马逊这几家最能赚钱的公司,过去两年都在加速扩建AI计算集群。 它们的资本开支成倍增长,而自由现金流却被显著压缩。 也就是说,它们花的钱比以前多,手里能自由支配的现金却比以前少。 这个变化直接影响了整个AI服务的收费方式。 在此之前,巨头还能靠广告、云服务、硬件补贴用户,让产品保持免费。 但当数据中心不断扩建、GPU价格居高不下,它们第一次发现:AI服务不能再无限免费了。 于是我们就看到:强模型被放进更贵的付费层,免费额度开始收紧,订阅费一点点往上挪。 这些公司的商业模式没什么本质变化,它们只是被迫承认一个现实——算力成本持续上升,如果价格不调整,就只能长期亏钱。 更关键的是,Nvidia不只卖芯片,它还在投资、扶持整条下游链条。 Anthropic、CoreWeave、Lambda这些云和模型公司,都在它的生态之内;最近它和微软一起宣布,未来几年最高会向Anthropic投入150亿美元,其中Nvidia自己的部分最高可达100亿美元。 有这么多的需求,GPU的价格就很难往下走。 巨头买GPU的成本压不下来,AI产品自然也不可能回到过去那种「想用多少用多少」的时代。 供应商变金主:Nvidia把AI底价锁死了 所以问题已经不再是「为什么涨价」,而是:为什么未来几年AI的价格都很难降下来。 原因不是市场竞争不够,而是Nvidia已经在用另一套逻辑,把整个AI行业的基础结构提前固定住了。 The Information提到Nvidia的几个关键操作: 向Anthropic投入100亿美元 与OpenAI商谈规模高达千亿美元级别的长期合作; 支持CoreWeave、Lambda等云厂商扩建算力 替一家云公司担保数据中心租约,换取未来的GPU订单 这些看起来像是财务投资,实质是一种「提前绑定」:谁来买卡、买多久、买多少,Nvidia都提前把关系锁好了。 被绑定的公司规模越大,算力需求越高,Nvidia的收益也越高。 再叠加CUDA的生态壁垒、台积电的产能限制、替代方案的落地周期这些现实因素,很容易得出的结论:行业短期内根本离不开Nvidia。 一旦离不开,成本就不会降。 就算巨头有心拉低价格,也会被供不应求的 GPU 和已经锁定的产能限制。 对用户来说,这意味着AI会越来越强,但「免费时代」几乎不可能回来了;更好的模型,会停在更高的价格层;按量计费会变成常态。 整个行业已经切到一条不会轻易反转的轨道上。 成本不会突然降低,价格自然也不会。 过去一年,我们习惯把AI看作一种「能力爆发」,但Nvidia的曲线提醒我们,背后还有一场静悄悄的基础设施重构。 当算力被锁定,当供应链被提前写入未来,当整个行业都围着同一个底层旋转——价格就不再只是市场行为,而是一种结构性趋势。 你的时间、你的技能、你的效率,也会在这条曲线里被重新定价。 成本会上升,但它推动的,未必只有负担,也可能是价值的整体抬升。 参考资料: https://www.theinformation.com/articles/nvidias-mushrooming-cash-pile-spotlights-spending-choices?rc=epv9gi
英特尔前CEO:量子计算是AI泡沫的终结者 将取代GPU
快科技11月30日消息,据报道,英特尔前首席执行官帕特·基辛格(Pat Gelsinger)近日接受采访时,对当前人工智能热潮提出不同看法。他认为,AI产业的快速膨胀可能因“量子技术的重大突破”而面临泡沫破裂,并预言量子计算机将比市场预期更早成为主流。 基辛格将传统运算、AI运算与量子运算并称为“运算领域的神圣三位一体”。尽管英伟达首席执行官黄仁勋曾表示量子计算普及至少还需二十年,基辛格却认为这一进程可能仅需两年左右。 他进一步指出,AI泡沫虽不会立即破裂,但量子技术的突破将成为关键转折点,并预计当前AI产业依赖的GPU芯片将在本世纪末前逐步被量子技术取代。 在谈及微软与OpenAI的合作时,基辛格将其与比尔?盖兹早年同IBM的合作模式相类比。他认为OpenAI更像是微软的“分销伙伴”,模型的核心算力与主导权仍掌握在微软手中,OpenAI主要负责将产品推向用户。 基辛格自离开英特尔后加入创投公司Playground Global,从而深入接触量子计算领域。他强调,随着“量子位元(qubits)”逐步进入市场,传统运算与AI运算都将面临根本性挑战,甚至可能被视为过时技术。 此外,基辛格也回顾了他在英特尔任职期间所面临的困境。他表示,接手公司时意识到英特尔已出现“比想象中更深、更严重的衰败”。在他回任前的五年中,英特尔“没有任何产品准时交付”,基本工程纪律严重流失,甚至给人以“英特尔好像已经不会做工程了”的印象。 这一局面也导致英特尔在突破关键18A制程技术上的进程比预期更长——该技术对其追赶台积电具有重要战略意义。 基辛格透露,他曾向高层承诺在五年内完成18A制程,但在实现产品交付之前就被解雇。最终,新任首席执行官陈立武在五年期限前终止了该项目。
韩国一男子涉嫌借助AI无照行医被移送检察机关
IT之家 11 月 30 日消息,据韩国《中央日报》今日报道,一名 30 多岁男子因运营利用人工智能开具医疗处方的网站,涉嫌违反《健康犯罪管制特别法》,已被移交检方处理。 据悉,该男子在去年 8 月至 11 月期间运营涉案网站,用户通过与平台人工智能聊天描述症状后,即可获得处方。为满足处方形式要件,他还涉嫌盗用其他医院医护人员的姓名伪造相关文件。 尽管毫无医学背景,该男子仍通过反复输入处方相关内容对人工智能进行训练,并对这一流程进行宣传以吸引用户。其处方开具完全基于用户与人工智能的聊天记录,未经过专业医护人员的问诊或诊断。根据健康犯罪相关法律规定,未取得医师执照者禁止以营利为目的从事医疗行为。 用户每开具一张处方需支付 300 韩元至 600 韩元(IT之家注:现汇率约合 1.5 元至 2.9 元人民币)不等,平台累计处理约 140 笔支付。但由于处方的格式及内容与标准样式存在差异,仅有少数处方成功在药店使用。涉案处方均不涉及精神类药物,且目前暂无因服用所开药物引发健康问题的报告。 警方于去年 10 月接到韩国医师协会的投诉后启动调查。此类因未经授权在远程医疗服务中使用人工智能而将嫌疑人移交检方的案件较为罕见。 警方表示:“该网站违反了现行法律,与任何医疗机构均无关联,且不符合卫生部门制定的远程医疗相关指引。”
怀疑自己被偷拍可以查看对方手机吗?央视科普合理合法维权方式
IT之家 11 月 30 日消息,偷拍、被误会偷拍近日已成为讨论热点,央视新闻今日发文科普了怀疑自己被偷拍后合理合法地维护自身正当权益的方式,并详细解答了能否直接要求或强行查看对方手机、能否强行留住对方等系列问题。 IT之家附热点问题解答如下: 被偷拍了,是否属于侵犯人格权? 属于。法律保护公民的肖像权和隐私权。该项权利属于民法典中基本人格权范畴。 民法典规定,任何组织或者个人不得以丑化、污损,或者利用信息技术手段伪造等方式侵害他人的肖像权。未经肖像权人同意,不得制作、使用、公开肖像权人的肖像,但是法律另有规定的除外。未经肖像权人同意,肖像作品权利人不得以发表、复制、发行、出租、展览等方式使用或者公开肖像权人的肖像。 自然人享有隐私权,任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。除法律另有规定或者权利人明确同意外,任何组织或者个人不得拍摄、窥视、窃听、公开他人的私密活动。 可否直接要求或强行查看对方手机? 不行。依据民法典规定,自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。私人的合法财产受法律保护,禁止任何组织或者个人侵占、哄抢、破坏。 手机是高度私密的个人物品,存储着大量的个人信息、通讯记录、照片视频等隐私数据。任何公民都无权强制查看他人手机内容。强行查看、抢夺、翻查他人手机的行为可能侵犯他人隐私权。 此外,手机是个人财产,强行夺取或控制的行为侵犯他人财产所有权;若因争执行为发生肢体冲突可能违反治安管理处罚法,严重者甚至触犯刑法中有关侮辱、诽谤、寻衅滋事、故意毁坏财物等法律规定。 按照我国刑法规定,以暴力或者其他方法公然侮辱他人或者捏造事实诽谤他人,情节严重的,处三年以下有期徒刑、拘役、管制或者剥夺政治权利;故意毁坏公私财物,数额较大或者有其他严重情节的,处三年以下有期徒刑、拘役或者罚金;数额巨大或者有其他特别严重情节的,处三年以上七年以下有期徒刑。 如果确认对方正在偷拍,且很可能涉及不雅内容,为防止对方逃走销毁证据,能否强行留住对方再报警? 公民个人无权以限制人身自由的方式“强行留住”对方。“强行留住”行为,如拉扯、禁锢、限制活动等,可能构成非法限制人身自由,情节严重时可触犯治安管理处罚法甚至刑法。 正确的做法是在确保自身安全的前提下,采取合法方式处置: 1、高声说明与警告。可以明确、高声地向对方指出其行为涉嫌违法(例如:“您刚才的行为涉嫌偷拍,我已报警,请等待警方处理”)。此举一方面能震慑对方,另一方面可以引起周围公众的注意,使其迫于舆论压力不敢轻易离开,同时也可为后续警方调查固定现场状态及相关证据。 2、立即求助现场力量。迅速向场所的管理人员、安保人员求助,请求他们依据管理职责先行劝阻、稳住涉事人员,并协助维持现场秩序直至警方到来。 3、立即报警并清晰说明情况。第一时间拨打 110,并向接警员说明:“这里有人正在偷拍,涉事人尚未离开,位置在…… 其特征是…… 急需民警立即到场处置以防其逃离销毁证据。”提供精准信息有助于警方快速出警并有效处置。 4、记清特征,固定证据。尽可能记下对方的显著体貌特征、衣着及逃跑方向。如果对方执意要离开,切勿强行阻拦,但应记录下这些信息并及时提供给警方,协助后续侦查。 确认对方正在偷拍,抢手机制止是否可行? 不行。公民个人不具有执法权。民法典规定,私人的合法财产受法律保护,禁止任何组织或者个人侵占、哄抢、破坏;无权占有不动产或者动产的,权利人可以请求返还原物。 因此,发现对方存在偷拍的违法行为,不可以采取同样的违法行为突破法律界限,去侵犯对方的隐私权、财产权等合法权利。制止违法行为应通过合法手段,由公权力机关依法处理。以违法对抗违法,自身也要承担法律责任。 依据我国治安管理处罚法规定,盗窃、诈骗、哄抢、抢夺、敲诈勒索或者故意损毁公私财物的,处五日以上十日以下拘留,可以并处五百元以下罚款;情节较重的,处十日以上十五日以下拘留,可以并处一千元以下罚款。 对方实际没有偷拍,因错误怀疑起争执要承担什么责任? 没有确凿证据公开指责他人偷拍,如在公共场合大声斥责、强行查看抢夺手机,录制视频发到网上,可能侵犯他人名誉权,需承担赔礼道歉、赔偿损失等民事责任。如果行为扰乱公共秩序或造成其他后果,还可能面临治安管理处罚。 法官提示:公民个人无权自行查验他人手机。强行查看,可能让您从“受害者”变成“侵权者”。遭遇疑似偷拍,应牢记处理“三步法”: 第一步:保持冷静,确保安全。首先稳定情绪,迅速观察周围环境,必要时移动到安全位置或向工作人员、安保人员靠近,避免与对方发生直接肢体冲突。 第二步:固定线索,寻求协助。尽量清晰地记住对方的体貌特征、衣着、位置。留意是否有其他目击者,可礼貌请求其留下联系方式作证。 第三步:立即报警,依法处理。第一时间拨打 110 或向现场执勤民警报告。向警方清晰、客观地陈述您观察到的情况、疑虑、时间、地点及对方的特征。将收集到的线索及时提供给警方,由公安机关依法进行调查取证和后续处理。
OpenAI大溃败!GPT-5“换皮”GPT-4o,两年半预训练0突破
新智元报道 编辑:KingHZ 桃子 【新智元导读】OpenAI,亟需一场翻身仗!今天,全网最大的爆料:GPT-5基石实为GPT-4o。自4o发布之后,内部预训练屡屡受挫,几乎沦为「弃子」。 OpenAI核心预训练,接连翻车? 传言称,GPT-5的基石仍是GPT-4o,且GPT-4.5之后的预训练版本,都被OpenAI放弃了! 这么说并非空穴来风,核心爆料恰恰来自权威SemiAnalysis的最新一文—— OpenAI顶尖团队自GPT-4o发布之后,迄今尚未完成一次完整的,为下一代前沿模型设计的大规模预训练。 文章中,高级分析师强调:谷歌正手持TPUv7这把利剑,向英伟达王座发起冲锋,或将终结CUDA护城河。 众所周知,OpenAI全栈模型是在纯英伟达GPU上炼出的。 然而,圈内人的焦点,大都放在了大模型「推理」和「后训练」的硬件之上。 殊不知,没有前沿模型的预训练,一切皆是「无米之炊」。恰恰这一环节,成为了AI硬件里最难、最耗资源的一关。 如今,一个不为人知的内幕爆出了: 事实证明,谷歌TPU彻底经受住了这一考验; 相较之下,自2024年5月GPT-4o诞生之后,OpenAI的预训练却毫无进展..... 过去,两年半的时间,OpenAI没有真正Scaling预训练的规模。 GPT的预训练,或许在GPT-4o之后触及了天花板,由此也解释了GPT-5性能未达业界预期的关键原因。 有网友表示,那不正是Ilya离开的时候吗..... 恰在昨天,Ilya最新发文称,Scaling不会停,但某个重要的东西仍然会缺失。 OpenAI预训练,大溃败 还记得去年底,那场铺天盖地的「Orion」传闻吗? 这一秘密项目,原定以GPT-5面世,但因训练未达预期,最终被降级为GPT-4.5发布。 在前沿模型预训练上,OpenAI的研发似乎陷入了僵局—— 如今第五代旗舰模型GPT-5,包括最新GPT-5.1,其「技术根基」本质或仍未突破GPT-4o的范畴。 SemiAnalysis去年底一篇文章,曾对外公开了Orion训练的困境。 当前,算法的进步使得模型每年所需的物理计算量减少约三分之一,因此,训练运行时间很少超过3个月。 甚至,行业中大多数预训练通常仅需要1-2个月。 然而,OpenAI的Orion大规模预训练,却打破了这一常规,其训练时间超过了3个月。 另据Information同一时间爆出,Orion不会像前代实现巨大的飞跃,相较于从GPT-3到GPT-4的迭代,改进幅度要小得多。 不仅如此,Orion性能提升也基本局限在——语言能力上,其代码能力甚至不如旧模型,且成本更高。 如今再回看2月,GPT-4.5的诞生,基于代号Orion的模型,OpenAI追求的是: 更强的语言能力+更稳的对话体验+更大知识库 情商,成为了GPT-4.5的关键词。代码虽有提升,但并非主菜。 这一切的一切,从侧面印证了,此前外媒关于「Orion遇挫」爆料的准确性—— LLM有提升,但不大。 GPT-4o,成Scaling主线? 今年8月,GPT-5的那场发布,奥特曼将其定调为「博士级AI,是通往AGI又一里程碑」。 实则,业界对于GPT-5的反响,唏嘘一片。 大家原本以为,GPT-5会是全面超越前代的一次飞跃,但实际发布后,更像是GPT-4.5的进一步优化版,不是「颠覆版」。 但至于GPT-5真正基于哪一款GPT打造,还有待证实。 正如之前传闻的猜测,有可能是GPT-4o,还有Reddit网友称是GPT-4.1.... 但不论是哪一款,都证明了GPT-5,没有在全新前沿模型的大规模预训练上淬炼。 搞笑的,那个曾将OpenAI三颗🍓🍓🍓「焊在」名字中的大佬,如今改成了三个🍌🍌🍌。 他表示,这已经不是什么秘密了—— GPT-4.5将预训练推向极致之后,OpenAI加倍投入了推理范式,主打o系列+RL。 不同的是,谷歌和Anthropic仍在Scaling预训练,并增强了强化学习。 OpenAI主动放弃了这一范式,为劲敌让出了一条速通道。 奥特曼:这事儿瞒不住了! Gemini 3发布后,谷歌和OpenAI攻守之势易形—— Gemini 3来势汹汹,而OpenAI这次终于坐不住了! 据泄露的内部备忘录,奥特曼坦言:「近期, 从各方面来看,谷歌在大语言模型表现出色」,特别是预训练。 这番表态标志OpenAI的重大转变——它终于承认,一个重新崛起的竞争对手与逐渐降温的企业需求,已彻底打破了其「天下无敌」的光环。 所谓预训练,是训练生成式AI模型(无论是文本还是图像)过程中的第一阶段。在这一阶段,研究人员会用网页等大量数据「投喂」模型,让它掌握数据之间的各种关联。 大语言模型(LLM)开发与训练流程概述:预训练和后训练是关键 在预训练领域,谷歌取得了新突破,给Gemini 3带来了空前的推理深度。 这让不少AI研究者颇感意外—— 毕竟,OpenAI去年曾屡屡碰壁,而谷歌自己过去也曾陷入瓶颈。 正因如此,在一段时间内,OpenAI选择将更多精力转向另一种新型AI架构——「推理模型」,这种模型虽然计算量更大,但有望输出更优质的回答。 在推出GPT-5之前,OpenAI团队曾尝试对预训练阶段做出一系列调整,这些方法在小模型上有效,一旦模型变大就失效了。 GPT-5发布第二天,西班牙与波兰Talan公司AI应用负责人Javier Alba de Alba表示: (GPT-5)整体观感颇为失望: 这是个优秀的模型——响应迅捷、价格亲民、能力全面,但远非人们基于OpenAI过往发布会所预期的代际飞跃。 GPT-5带来了不少提升—— 编程能力显著提升、推理能力进阶、幻觉现象减少、医疗领域表现优化,甚至免费用户也享有更长的默认使用时长。此外命名体系全面简化:GPT-4o/4.1/turbo/mini等繁杂名称悉数消失,统一更名为GPT-5。 不过,Javier Alba de Alba提醒:「千万不要被名称迷惑:GPT-5并非新一代产品。」他解释道: 技术层面而言,它更像是GPT-4o的功能增强版,即便命名为GPT-4.2也毫不违和。 OpenAI此举虽完成了必要的名称统一,但整场发布会未能达到预期,让技术社区颇感失落。 GPT-5发布后,Epoch AI也发现了其中的异常: 相比前代GPT-4.5,GPT-5很可能消耗了更少的训练算力。 虽然具体数值尚未公开,但GPT-4.5使用的训练算力极有可能超过GPT-5。 预训练并未消亡,它依然是胜负关键。 在内部会议中,奥特曼鼓舞士气,称在未来几个月,OpenAI将重新夺回优势。其中关键举措之一,就是打造一款代号为「Shallotpeat」的新一代大语言模型。 据知情人士透露,该模型的设计目标之一,就是专门修复OpenAI在预训练过程中遇到的种种「疑难杂症」。 OpenAI:内部的风向变了 GPT-5发布的实质是什么? 对现有ChatGPT用户而言,GPT-5是个好消息,但这并未开启新时代。 它只是进化历程中的一小步,而非革命性飞跃。 既然更多算力通常意味着更强性能,为何OpenAI会反其道而行?这对未来模型发展意味着什么? 在与a16z合伙人Martin Casado对话中,OpenAI平台工程负责人Sherwin Wu,深度拆解了OpenAI当前平台架构、定价逻辑与未来方向。 在这次访谈中,他们深入探讨了为何开发者往往会长期依赖某个「值得信赖」的模型系列,信任感是如何建立的,以及为什么行业已经逐步放弃了「一个模型通吃所有任务」的幻想。 Sherwin还讲解了从提示词工程到上下文设计的演变过程,以及企业如何借助OpenAI的微调(fine-tuning)和RFT API,利用自有数据定制模型行为。 共识已变 几年前,OpenAI内部认为:未来会有一个「统治一切」的超级模型。但现在行业共识已经转变为「模型的专业化和多样化」。 虽然会有强大的通用模型,但也需要针对特定任务(如编程Codex、视频Sora)的专用模型。 文本、图像、视频背后的技术堆栈各不同。目前,在后台。这些模型往往是分开优化的独立系统,很难简单地「一锅炖」。 顺便提一句,正是DALL-E 2的出现让Sherwin决定加入OpenAI,因为那是他第一次感受到AI的魔力。 而微调(Fine-tuning)也悄然进化—— 早期的微调,主要用于调整「语气」或「指令遵循」。 现在的重头戏,是强化学习微调(Reinforcement Fine-Tuning) 。 这允许企业利用其庞大的专有数据(Data Treasure Troves),将较小的模型在特定领域训练至SOTA水平。这是解锁企业数据的关键。 也就是说,企业拥有大量内部数据,但与ChatGPT「毫无关系」,对企业专属AI而言却是黄金。 他们多次提到AI代码编辑器Cursor作为建立在 OpenAI API 之上的成功产品案例,证明了: 即使OpenAI自己有竞品,开发者依然可以建立伟大的垂直应用。 Agent开发模式 从第一天起,奥特曼和Greg Brockman就确立了「App+ API」的双轨战略。 这样做是为了尽可能广泛地分发AGI的利益—— 如果只做 API,你就无法触达普通消费者;如果只做应用,你就无法赋能各行各业的开发者。 在这次对话中,他们重点谈论了智能体开发工具「Agent Builder」。 Sherwin认为,智能体(Agent)并非一种全新的模态,而是AI的一种新使用方式。 本质上,智能体是一个能够代表用户、在较长的时间跨度(Long Time Horizons)内执行一系列操作并完成任务的AI系统。 OpenAI曾推出了可视化的「Agent Builder」(节点式构建),但发现对于开发者而言,这种方式可能过于受限。 访谈中,Sherwin和Martin将智能体清晰地划分为两类,这解释了为什么目前市面上的Agent产品形态各异—— 探索型/非定向工作 (Undirected/Exploratory Work) 流程型/SOP导向工作 (Procedural/SOP-oriented Work) 在对话中,第二类Agent开发可能更像传统的软件工程或游戏开发中的NPC(非玩家角色)逻辑。 与其让模型完全自由发挥,不如通过代码给予它明确的逻辑框架和标准操作程序(SOP),特别是在受监管的行业(如客户支持、金融)。 也就是说,逻辑必须写死在代码里,而不是提示词里。 这就是Agent Builder想要解决的问题:为那些必须控制智能体行为的行业和场景,提供一个简单、清晰、可验证的解决方案。 One More Thing 2025年度压轴大戏,谷歌Gemini 3 Pro无疑打了一场胜仗,但OpenAI不会袖手旁观。 内部已确认,圣诞节前夕,一连串发布连番轰炸。 据传,一系列新模型,在路上了—— Image Gen v2 IMO和IOI金牌多模态模型 GPT-5.2 Codex 12月,AI圈一定非常热闹。
全球首个具身智能本科专业!上海交大公告,联合华为培养,李飞飞高徒带队
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 具身智能的风也是卷到高校了。 近期,上海交通大学发布公告,宣布即日起拟增设具身智能本科专业。 环顾全球,目前还没有将具身智能作为独立本科专业开设的先例存在,大多都是通过相近专业方向、课程设置来开展具身智能相关的教学研究。 也就是说,一旦增设,上海交大将是全国乃至全球头一份。 不愧是当年首批开设人工智能专业的高校之一,敢第一个吃螃蟹的,还得看上交。 上海交大增设具身智能专业 根据公告内容,上海交通大学将在2025年度增设具身智能本科专业。 该专业将隶属于人工智能学院计算机类,授予工学学位,修读年限为四年。预计年度招生人数30人,其中升学人数25人,占比约83%。 预计就业人数5人,华为联合培养2人,国家地方共建人形机器人创新中心3人。 该专业将融合人工智能、机械动力、计算机科学与技术等多学科前沿知识,旨在培养跨“感知-决策-控制-本体设计”的复合型创新人才,填补现有教育体系相关人才缺口。 根据《2025人形机器人与具身智能产业研究报告》,今年中国具身智能市场规模将达到52.95亿元,占据全球约27%。而全球具身智能市场也将从2024年的170.9亿美元,在十年后预计增长到1242.6亿美元。 上海交大此时布局具身智能,正是因为注意到具身智能将带领全球AI产业进入前所未有的新变革中。 当前学术界和产业界都在紧锣密鼓投入相关资源,例如包括斯坦福、MIT等欧美高校和研究机构都在增设具身智能实验室,谷歌、特斯拉等科技巨头也纷纷下场具身智能应用。 而反观国内高校专业建设,缺乏对具身智能领域的系统化建设,现有专业(AI、机械、计算机等)知识零散,实践环节不足,师资力量普遍缺乏跨学科背景,学生进入企业后还需要高额成本进行二次培养。 所以上海交大此举,也是在为产业界供给高质量人才指明了新的道路。 图片源自上海交通大学官网 据悉,该专业的带头人将会由卢策吾教授担任,他本人目前还是上海交通大学人工智能学院副院长。 博士后就读于斯坦福大学人工智能实验室,其导师是李飞飞和Leo Guibas,主要研究领域包括具身智能、行为理解和计算机视觉。 曾在《Nature》等相关领域期刊上发表过上百篇论文,并担任过CVPR 2020、ICCV 2021、IROS 2021等顶会主席。 此外,他也兼具科研和创业双重身份,是具身智能初创企业穹彻智能的联合创始人,该公司目前致力于具身智能基础模型与系统研发,已完成数亿元的Pre-A++轮融资以及新一轮来自阿里巴巴的领投。 在今年的2025外滩年会上,他曾公开表示: 中国AI的“破局时刻”并非偶然,而是基础科研、人才培养、产业协同、资本与政策支持共同作用的“全链条厚积薄发”。 增设具身智能专业,则是其中极为关键的人才培养一环。 而上海交大有底气第一个走出这一步,则是源自其深厚的具身智能底蕴。 除了拥有卢策吾、赵波(PS:他们二人也将在新设专业中分别教授计算机视觉和多模态大模型课程)等具身领域顶尖人才,还搭建有机器智能与交互实验室、具身智能科创空间等创新平台。 在其下属的人工智能学院方针政策中,也明确将具身智能列为三大前沿技术之一。 2019年上海交大联合发起的上海人工智能研究院在具身智能也是硕果累累。 今年7月刚刚开源了“书生”具身全栈引擎Intern-Robotics,可实现“一脑多形”(一套模型适配多种机器人形态)、“虚实贯通”(真实→仿真→真实的闭环训练路径)、“训测一体”工具链。目标将具身智能从碎片化开发推进到全栈化量产时代。 工业上,除了穹彻智能,还有一家知名具身智能企业背后站着的是上海交大——稚晖君的智元机器人。 智元机器人由上海人工智能研究院与红杉资本联合孵化,其联合创始人包括上海人工智能研究院的院长宋海涛、上海交通大学机械与动力工程学院教授闫维新。 此外,上海人工智能研究院还派出首席科学家及工程师研发团队,与公司创始团队一起投入人形机器人的整体设计和技术攻关,共同研发出机器人领域首个4D世界模型EnerVerse。 技术转化上,则由上海交通大学副教授马道林创立的千觉机器人公司为其提供触觉感知解决方案。 所以说,既有学术底蕴又有产业成果的上海交大首办具身智能专业,完全是意料之内、情理之中。 具身智能点燃产学研 除了上海交大以外,国内其它高校也纷纷加码。 比如同一时期,东北大学机器人科学与工程学院也发布公告,拟申报增设具身智能本科专业。 与之情况相似的,还有南京航空航天大学,其今年拟申报新增三个专业,分别是电动载运工程、数字经济和具身智能。 中国科学技术大学也在今年新增机器人工程专业,依托工程科学学院、人形机器人研究院的学科优势,设立智能制造与具身智能双轨培养体系。 北京航空航天大学、北京理工大学、北京邮电大学、浙江大学、西安交通大学等也都申请增设具身智能专业,授予门类为工科。 …… 除了高校增设具身智能专业的热情高涨外,今年以来,国内也出现了多个产学联动的具身智能实验室。 比如智平方与北大联合建设实验室,该实验室将借助智平方在机器人产业化落地的技术积淀,以及北大的科研能力,携手突破4D世界模型、端到端智能体等具身智能相关的前沿技术难题。 南京大学也与地瓜机器人、火山引擎共同成立联合创新实验室,构建起云边端一体化技术底座。 另外清华大学自动化系也与北京通用人工智能研究院联合设立具身智能系统北京市重点实验室。 拥有高校、名企背景的具身智能企业也层出不穷,例如今年年初成立的它石智航,其创始人兼CEO陈亦伦,之前还是清华大学智能产业研究院(AIR)智能机器人方向首席专家。 公司目前已经收获了两轮大规模融资,累计融资金额已突破2.4亿美元,创下国内具身智能领域天使阶段融资纪录。 华为诺亚方舟实验室首席科学家李银川也在今年正式离职创业,创办了深圳市诺因知行科技,专注于家用等身机器人的研发。公司成立仅一个月就完成了首轮融资,并正在推进第二轮融资。 据不完全统计,仅今年上半年,行业公开融资事件就高达144起,总金额约195亿元,超过了去年全年水平。 单笔融资金额过亿已经成为常态,国资方也开始频繁加注,例如松延动力最新完成的近3亿元Pre-B轮融资,其中就有中车转型升级基金、央视融媒体基金等国资力量参与投资。 企业融资速度也在持续加快,如半年时间内仅星海图就完成了5轮融资,智平方也完成了7轮亿元级融资。 可以说,整个具身智能行业目前呈现出产学研结合、资本高度关注的发展态势,甚至有点像2018年AI刚集中爆发的时候。 而那时,AI也开始成为本科专业……
那些年,AI创始人创业有多奇葩
太离谱了!你以为自己在和最先进的 AI 交互,屏幕对面坐着的却可能是两个满头大汗的人类。 两周前,市值超过 10 亿美金的著名 AI 独角兽 Fireflies.ai 的联合创始人兼 CTO Sam Udotong 在领英上抛出了一枚震撼弹:他们起初引以为傲的产品,其实是人假扮的。 在这个故事的最初版本里,没有什么机器神经网络在云端飞速运转。两位创始人 Krish Ramineni 和 Sam Udotong 认为,验证一个商业点子最好的方式,就是先让自己「成为」那个产品。于是,他们向客户推销道:「我们有一个叫 Fred 的 AI 机器人,它可以自动参加会议、帮你记录笔记。」 然后戏剧性的一幕发生了:当客户预约会议时,他们俩就真的拨打电话进去,假装自己是那个叫「Fred」的 AI。全程保持静默,甚至不敢大声呼吸,手指却在键盘上飞速敲击,进行「人工听写」。会议结束十分钟后,他们再把这份带着体温的笔记发送给客户,假装这是算法的杰作。 难以置信的是,这样一种荒诞的「人肉智能」模式居然真的跑通了。 靠着这种近乎诈骗的勤奋,他们硬生生记录了 100 多场会议,终于赚到了足够的钱来支付旧金山某个月租 750 美元的小客厅 —— 那是他们仅有的栖身之所,也是公司的总部。直到那一刻,他们才决定停下疯狂的手动模式,开始编写真正的自动化代码。更多详情请参阅报道《离谱:打造超 10 亿美元的独角兽,从真人假扮成 AI 开始》。 这听起来像是一个关于欺骗的笑话,但这甚至不是个例。 在硅谷的聚光灯之外,类似的剧本每天都在上演:有的创始人为了让产品看起来像 AI,雇佣数百名菲律宾员工在后台手动操作购物流程;有的创始人为了省下房租维持算力成本,住进了 700 美元一个月的「睡眠舱」,每晚感觉像睡在棺材里;更有甚者,为了展示决心,在办公室里放了一张床垫作为给新员工的入职礼物。 当这层光鲜的科技滤镜被打破,我们看到的不仅是趣闻,更是一场在 AI 时代被极度扭曲和放大的生存博弈。 你将看到,支撑起这个智能时代的,恰恰是创始人一系列最不自动化、最极端的行为。这不仅是关于技术的故事,更是三种在 AI 淘金热中演化出的极致生存策略:伪装、苦行和蛮力。 用真人假装 AI 如果说 Fireflies 的故事还是一个励志的创业童话,那么在 AI 淘金热的更深处,「假装 AI」这把双刃剑正在割裂出两个截然不同的世界:一端是精明的商业验证,另一端则是赤裸裸的资本谎言。 当演示视频成为「特效大片」:Devin 与 Pear AI 的翻车现场 在 AI 赛道,没有什么比一个病毒式传播的 Demo 视频更值钱了。但当承诺过于美好时,现实往往是一地鸡毛。 曾被捧上神坛的「全球首位 AI 软件工程师」 Devin,就是这场狂热中最具争议的主角之一。在那个令人惊叹的演示视频中,Devin 似乎能像真人一样自主接单、写代码、解决复杂的 Upwork 任务。 然而,技术社区的「打假」来得比融资还要快。一位名叫「Internet of Bugs」的博主逐帧分析了演示视频,揭露了尴尬的真相:Devin 在视频中修复的代码错误,实际上是它自己生成的「无意义」错误;它处理的任务需求与客户的原始描述并不匹配;那些看似行云流水的操作,在实际时间线上可能花费了数小时甚至数天。 自动播放 Hacker News 上的一位开发者一针见血地总结了这种「先吹牛,后实现」的危险策略:现在的剧本是:先撒谎…… 发推特吹嘘…… 拿到 VC 的钱…… 然后雇一群聪明人被迫把它做出来! Devin 的案例展示了「假装有 AI」策略的阴暗面:它不再是为了验证需求,而是为了收割投资人的 FOMO(错失恐惧症)。 更令人啼笑皆非的是 Pear AI 的闹剧。这家同样获得 Y Combinator (YC) 青睐的初创公司,被扒出其核心产品并非原创,而是直接「Fork」(复制)了另一个开源项目 Continue(讽刺的是,Continue 也是 YC 投资的)。 当被社区抓包试图修改开源许可证时,Pear AI 的创始人试图用「我们只是独立黑客(Indie Hackers)」、「想在这个领域做点事」来博取同情。但在 30 万美元的年薪放弃宣言和 YC 的光环映衬下,这种辩解被社区斥责为「自恋者的非道歉式道歉」。这不再是技术创新,更像是一场资本加持下的各种「套壳」游戏。 「幕后巫师」的秘密:我假装 AI,是为了训练你取代我 既然「假装 AI」风险这么大,为什么它仍是硅谷公开的秘密?因为在光谱的另一端,存在着一种被称为 「绿野仙踪技术」 (Wizard of Oz technique) 的合法策略。 早在生成式 AI 爆发前,日程安排助理 x.ai 和 Clara 就已经把这套玩法练得炉火纯青。在那个年代,当你发邮件给智能助理「Amy」或「Andrew」安排会议时,屏幕背后可能真的是一位名叫 Amy 或 Andrew 的人类员工。 彭博社 2016 年的报道 但与诈骗不同,这里的「假装」带有一种残酷的使命感。 媒体曾揭露,这些人类员工每天工作 12 小时,日复一日地盯着屏幕,手动回复成千上万封枯燥的邮件。他们不是在欺骗用户,而是在扮演未来的算法。他们每一次手动敲下的回复,都在为尚未成熟的 AI 模型积累宝贵的训练数据。 最荒诞也最真实的一幕是:这些人类员工比任何人都期待 AI 的到来。据报道,由于工作内容过于机械和令人麻木,人类「训练师」们甚至公开表示「期待自己被机器人取代」。 这不仅是商业策略,更是一场人性的实验。在这种模式下,人类不是在使用工具,而是甘愿成为工具的临时替代品,直到工具真正学会如何像人一样思考。 从 Fireflies 的创始人假扮客服,到 x.ai 的员工扮演算法,再到 Devin 的视频「魔术」,AI 创业者们在真假之间反复横跳。但如果你以为只要能骗过投资人就算成功,那就太天真了。下面我们将看到,为了在这场残酷的游戏中活下来,这群创始人不仅要学会伪装,还要学会如何像苦行僧一样虐待自己的肉体。 创业 = 苦行? 如果说「假装 AI」是创业者的面具,那么「苦行」就是他们的信仰。在硅谷的 AI 圈子,一种名为「不喝酒、不睡觉、没娱乐」(No Booze, No Sleep, No Fun)的新教条正在蔓延。对于这群平均年龄 20 出头的年轻人来说,享受生活被视为一种罪过,而「睡在办公室」则是通往十亿美元估值的唯一门票。 华尔街日报的报道截图 从「卖身养企」到「住在棺材」 经典的创业故事往往带有一丝温情。比如视频编辑工具 VEED.IO 的故事:当公司耗尽资金、被赶出免费办公室后,联合创始人 Tim 并没有选择放弃,而是去找了一份合同工。他每天早上 6 点开始写代码,9 点去上班,然后每个月把一半的工资寄给全职坚持的合伙人,强行「输血」维持公司运转。 截图自创始人的分享,来自 Reddit 但这种老派的兄弟情谊,在如今的 AI 赛道演变成了一种更令人窒息的生存景观。 在旧金山,一位名为 Haseab Ullah 的 AI 创始人住在一个由旧办公楼改造的「共享生活空间」里。这不是什么高档公寓,他每个月支付 700 美元,换来的是一个类似火车卧铺的全封闭「睡眠舱」。拉上帘子,里面一片漆黑,只能容纳一人躺下。他坦言,这种体验「就像每晚睡在棺材里」,但他不在乎,因为这能让他从彻夜工作的疲惫中快速回血,醒来继续战斗。 为了节省时间,传统的吃饭也成了累赘。28 岁的 Pylon 联合创始人 Marty Kausas 表示,他主要吃一种来自「长寿狂人」 Bryan Johnson 公司的预制罐头食品(Blueprint)。对他来说,不需要思考吃什么,工作效率才更高。 Pylon 联合创始人 Marty Kausas 正在服用膳食补充剂,图源:WSJ 「床垫文化」与 92 小时工作周 这种苦行并非个体的疯狂,而是正在被制度化。 AI 保险初创公司 Corgi 的联合创始人 Nico Laqua 甚至将这种文化变成了招聘筛选器。他直言不讳地表示,只雇佣那些「愿意每周工作 7 天」的人。为了贯彻这一理念,他给新员工准备的入职欢迎礼物不是鲜花或电脑,而是一个办公室床垫。他自己更是身体力行,常年住在办公室里,声称这是为了「赢」。 这种疯狂在 Cognition AI(也就是 Devin 的母公司)达到了顶峰。CEO Scott Wu 毫不掩饰地推崇「极端绩效文化」,员工不仅每周工作超过 80 小时,甚至许多人直接把家搬进了办公室,彻底抹去了工作与生活的界限。 Marty Kausas 甚至在领英上公开炫耀他的工时表:连续三周,每周工作 92 小时。这包括周一到周四从早上 8 点干到凌晨 1 点,周五干 13 个小时,连周日也要「轻松」地干上 11 个小时。 苦行的本质:一场给 VC 看的表演? 为什么这些已经拿到巨额融资的创始人,还要过着如此清教徒般的生活? 一位 23 岁的创始人反问:「既然可以建立一家公司,为什么要去酒吧喝酒?」。这听起来像是热血漫的台词,但背后有着更冷酷的商业逻辑。 在 AI 这个赢家通吃的赛道,「苦行」本身就是一种战略信号。正如一些观察家指出的,这种极端的苦行形象,很大程度上是为了向风险投资人(VC)和潜在员工传递一种「硬核」信号:我们没有生活,我们不留退路,所以我们必须赢。 这种表演性的受苦(Performative Suffering)成为了 AI 创业圈的通行证。当你睡在像棺材一样的睡眠舱里,当你吃着乏味的罐头食品时,你实际上是在向资本市场证明:你就是那个能在这个万亿级市场中活到最后的「天选之子」。 然而,光有伪装的面具和苦行的肉体还不够。要真正把产品推向市场,有时候还需要最原始、最笨拙的手段。下面我们将看看在这个高度自动化的时代,创始人是如何用「蛮力」敲开增长的大门。 智能时代还得靠蛮力 最大的讽刺在于:试图用 AI 自动化一切的创始人,在创业初期往往是「人工操作」最坚定的信徒。他们深知,在算法接管世界之前,必须先用双手沾满泥土。 这种策略被称为「蛮力」(Brute Force)—— 不讲究效率,不依赖自动化,纯粹靠创始人的肉身去推开市场的大门。 硅谷传说:从卖麦片到「强行安装」 在硅谷名人堂里,几乎每个巨头都有一段不堪回首的「蛮力」往事。 最经典的莫过于 Airbnb。在 2008 年那个绝望的低谷期,为了活下去,创始人们并没有去优化推荐算法,而是干了一件与科技毫不沾边的事:卖麦片。他们设计了以选举为主题的 Obama O's 和 Cap'n McCain's 麦片盒,靠着在街头兜售这些纸盒子,他们筹集到了救命的资金。这不仅是生存,更是一种为了留在牌桌上不惜一切代价的蛮力。 而在 B2B 领域,Stripe 的「Collison 安装法」则是另一种极致的蛮力。 当很多创业者还在通过邮件发送测试链接,礼貌地等待回复时,Stripe 的创始人 Collison 兄弟选择了一种近乎侵略性的策略。一旦遇到潜在用户,他们不会说「我发链接给你」,而是直接说:「把你的笔记本电脑给我。」然后,他们会当场拿过电脑,手动为用户安装并配置好 Stripe。 这种做法极其「笨拙」,无法规模化,但却极其有效。它消除了用户所有的拒绝理由,用创始人的执行力硬生生地完成了从 0 到 1 的积累。 Fireflies 的回归:一个人就是一支销售团队 回到我们故事的起点 Fireflies.ai。除了假扮 AI 记笔记,他们在增长策略上也展示了惊人的蛮力。 在这个 AI 独角兽的早期,他们并没有光鲜的销售团队或庞大的营销预算。创始人 Krish Ramineni 坦言,公司在「没有销售或营销团队的情况下实现了全球扩张」。 秘诀是什么?是创始人亲自下场肉搏。Krish 亲自搞定了前 50 到 100 个客户。他痴迷于阅读每一条反馈信息,亲自回复每一封邮件,用最原始的「人海战术」(虽然只有他一个人)来弥补资源的不足。 这种「笨拙」的战术不仅省下了昂贵的销售提成,更重要的是,它建立了一种算法无法复制的信任感。正是这种靠蛮力堆砌起来的早期口碑,最终引爆了后来的有机增长。 蛮力的哲学 在这个充斥着自动化营销工具和增长黑客理论的时代,这些故事提醒我们一个被遗忘的真理:最有效的早期增长策略,往往是最不性感的。 无论是手动加入 Reddit 的讨论组去推销拉面,还是在陌生人的电脑上强行敲代码,这些行为都指向同一个逻辑:在飞轮自动旋转之前,你必须用尽全身力气去推动它转完第一圈。 伪装是为了入局,苦行是为了生存,而蛮力是为了启动。这三者构成了 AI 创始人并不光鲜、但却极其真实的生存图景。 现在,当我们拼凑完这些碎片,会发现一个更有趣的现象:那些站在行业顶端、看似最理性的 AI 巨头们,其内部往往充满了最不理性的戏剧性冲突。 彩蛋:「异类」的胜利与高层「宫斗」 纵观行业顶端,最具颠覆性的 AI 公司,往往不是由那些标准的软件工程师建立的。它们属于一群有着奇特履历的怪才,而它们的分裂与诞生,则源于一场场关乎意识形态的激烈内战。 只有「怪人」才能生存:DeepMind 与 Midjourney 有些人的简历本身就是一种对传统的挑衅。 看看 Google DeepMind 的创始人 Demis Hassabis。他不是那种典型的硅谷码农,而是一个活在多重宇宙里的人。13 岁时,他是世界级的国际象棋神童;17 岁时,他不仅没去刷题,反而共同设计并编程了销量数百万的经典模拟游戏《主题公园》(Theme Park);玩够了游戏后,他又转身杀回学术界,攻读了认知神经科学的博士学位。 自动播放 Demis Hassabis 的诺贝尔奖获奖演讲 正是这种「国际象棋策略 + 游戏模拟 + 脑科学」的奇葩背景,构成了 DeepMind 独特的技术基因:用玩游戏的方式来破解人类智慧的奥秘。 另一位「怪人」是 Midjourney 的创始人 David Holz。在创办这家目前最赚钱的 AI 绘画公司之前,他曾在 NASA 工作,也曾经历过 Leap Motion(一家曾被吹上天但商业化惨败的手势控制公司)的创业过山车。 David Holz 也许是 Leap Motion 的失败让他对资本产生了 PTSD(创伤后应激障碍),Holz 做出了一个在今天看来极其「不寻常」的决定:拒绝风险投资。他选择白手起家(Bootstrapped),把公司直接开在了 Discord 聊天软件里。结果,这个没有任何 VC 指手画脚的「怪胎」项目,在一年内就实现了盈利。 硅谷最昂贵的「宫斗」:OpenAI 的裂变与 Anthropic 的诞生 如果说「异类」不仅能生存,还能创造奇迹,那么「内讧」则是 AI 进化史上最剧烈的催化剂。现代 AI 格局的「大爆炸」,其实源于一场几十亿美元的「分手」。 故事回到 2018 年,那时的 OpenAI 还是一个纯粹的非营利组织。联合创始人埃隆・马斯克(Elon Musk)当时断言 OpenAI 「已致命地落后于谷歌」,于是他向董事会提议:由他全权接管并亲自运营 OpenAI。 Sam Altman 和其他创始人拒绝了这一政变企图。马斯克的反应很直接:他退出了董事会,并取消了一项原本计划的大规模捐赠。 资金链的突然断裂把 OpenAI 推向了悬崖边。意识到通往 AGI 的研究极其昂贵,OpenAI 被迫做出了那个改变历史的决定:从非营利组织转型为「有上限利润」(capped-profit)的混合体,开始接受微软的注资。 这一转型在公司内部引发了剧烈的意识形态地震,分裂成了「商业化」与「安全至上」两个阵营。 最终,火山在 2021 年爆发。由研究副总裁 Dario Amodei 和安全副总裁 Daniela Amodei(一对兄妹)领衔,11 名核心员工因对公司日益商业化的方向感到不安,集体出走。他们带着对 AI 安全的执念,创立了 OpenAI 今天一个最大的竞争对手:Anthropic。 Amodei 兄妹 这不仅仅是商业竞争,更像是一场宗教分裂。今天的 ChatGPT 与 Claude 之争,本质上是多年前那场关于「AI 灵魂」争夺战的延续。 结语:唯一的真实是「人」 当我们回顾这些荒诞不经的故事时,很容易将它们仅仅看作是硅谷茶余饭后的谈资。但事实上,这些「奇葩」事迹并不是 AI 行业的例外,它们就是常态。 它们揭示了一个在算法神话掩盖下的残酷真相:在这场万亿美金的淘金热中,真正的护城河从来都不是算法本身。 在这个模型日益同质化、开源代码唾手可得的时代,技术壁垒正在迅速崩塌。真正决定一家 AI 公司生死的,往往是那些无法被代码量化的东西: 是创始人愿意住在像棺材一样的睡眠舱里的牺牲意愿(苦行); 是敢于在产品还没做出来之前就敢卖给客户的市场嗅觉(伪装); 是愿意手动敲下几千封回复邮件的执行毅力(蛮力)。 这是一个巨大的讽刺:我们正致力于构建一个去人性化的、高度自动化的未来,但启动这个未来的引擎,却比以往任何时候都更依赖于最原始、最极端的人性。 在自动化模糊了真假界限的今天,唯一真实的只剩下人的因素。 哪怕是现在,下一个可能改变世界的 AI 巨头,或许正诞生于今晚旧金山某间办公室地板的床垫上,或者正藏在某个创始人假扮 AI 发出的下一封邮件里。 毕竟,在 AI 学会伪装成人类之前,人类必须先学会如何伪装成神。
AI自主发现长寿药物:从海量数据中挖出抗衰老干预措施
在追求长寿的道路上,科学家们一直在寻找能够延缓衰老的干预措施。然而,传统的衰老研究往往依赖于假设驱动的实验,效率低下且容易错过隐藏的宝藏。 过去几十年来,公开的分子研究已产生数百万测试各类干预措施的样本数据集,但这些数据很少被用于分析其对衰老的影响。如今,“衰老时钟”能够通过分子数据评估生物学年龄并预测生命结局,这为系统挖掘这一未开发资源创造了契机。 近日,应可钧博士作为第一作者兼共同通讯作者,在预印本平台 bioRxiv 发布了题为:Autonomous AI Agents Discover Aging Interventions from Millions of Molecular Profiles 的研究论文。 该研究开发了一个名为 ClockBase Agent 的 AI 智能体平台,集成了 40 多个衰老时钟模型,利用多个 AI 智能体,自主分析数百万人类和小鼠的分子组学数据,从中挖掘被原始研究者遗漏的年龄调控效应,发现了 500 多个能显著降低生物学年龄的干预措施,进一步实验验证显示,其中发现的抗衰老化合物 Ouabain 能够有效延缓老年小鼠的衰弱进程、减轻神经炎症并改善心脏功能。 ClockBase Agent 创立了衰老研究新范式:专业 AI 智能体系统性重分析已有研究,自主识别年龄调控干预方案,这将彻底改变我们从已有数据中提取生物学洞见的方式,助力人类健康寿命和长寿研究。 David Baker 教授(左),应可钧(右) 应可钧,本科毕业于中山大学,博士毕业于哈佛大学,导师为著名抗衰老研究专家 Vadim Gladyshev 院士,目前在斯坦福大学 Tony Wyss-Coray 教授实验室和华盛顿大学 David Baker(2024 年诺贝尔化学奖得主)实验室进行博士后研究。 衰老研究的困境与转机 衰老是慢性疾病和死亡的主要风险因素,但系统性地识别能够改变衰老轨迹的干预措施仍然有限。过去几十年,公共数据库,例如基因表达综合库(GEO)积累了数百万分子样本,但这些数据最初是为研究疾病机制或药物反应而设计的,很少被用于分析对衰老影响。这就好比我们早已拥有一座金矿,却只挖了表面一层——大部分潜在价值被埋没了。 与此同时,机器学习的发展催生了“衰老时钟”(Aging Clock),这些算法能够从分子数据(例如 DNA 甲基化或基因表达水平)中预测生物学年龄,甚至关联健康结局。例如,有些衰老时钟可以估算死亡率风险,有些则能够捕捉衰老的动态速率。但以往,这些工具大多被用于小型研究,缺乏大规模系统应用。 ClockBase Agent 的诞生改变了这一局面。 研究团队整合了超过200万个人类和老鼠的 DNA 甲基化及 RNA-seq 样本,应用了 40 多种衰老时钟模型,进而构建了迄今为止最全面的生物学年龄图谱。这不仅包括常见的甲基化时钟,还涵盖了转录组时钟,能够从基因表达数据中推断年龄相关变化。 AI 智能体如何自主挖掘衰老秘密 ClockBase Agent 的核心是一个多 AI 智能体系统,它能够像专业生物信息学家一样工作:自动解析实验数据、生成假设、选择统计方法、进行文献回顾,并生成科学报告。就像有着一群不知疲倦的助手,每天扫描数千个数据集,寻找与衰老相关的模式——这就是 AI 智能体的威力。 具体来说,该系统包含三个核心智能体: Coding Agent:负责写代码、处理数据并运行代码,根据样本大小和实验设计选择合适的统计模型。 Reviewer Agent:从多个维度(例如生物学合理性、实验质量、新颖性等)评估干预措施,生成综合分数以优先考虑有前景的抗衰老候选物。 Report Agent:将发现与衰老生物学文献结合,提供机制解释,将 Coding Agent 和 Reviewer Agent 的结果进行整合,生成具有高可读性的科学报告。 研究团队分析了 43602个干预-对照组比较,涵盖了遗传扰动、药物处理、环境暴露和疾病模型。结果令人震惊:5756 个(13.2%)干预显示出显著的年龄调节效应,其中有 500 多个能显著降低生物学年龄,例如,Ouabain、KMO 抑制剂,非诺贝特以及 NF1 基因敲除,都表现出抗衰老潜力。 关键发现:从数据中提炼出的衰老规律 大规模系统分析揭示了一些有趣模式: 疾病状态加速衰老:疾病模型(例如缺血再灌注损伤或病毒感染)中有 24.3% 显示出显著效应,且大多加速衰老,这与常识一致。 遗传干预的策略差异:功能缺失(例如基因敲除)比功能增益(例如基因过表达)更可能延缓衰老。例如,基因敲除干预的抗衰老比例是基因过表达的 1.85 倍,提示了降低基因活性可能比增加活性更安全有效。 干预措施更以促衰老而非抗衰老:在 FDA 已批准的药物中,发现了 78 种具有抗衰老效应,例如雷帕霉素和二甲双胍,但更多药物(136种)意外地显示出促衰老效应,提醒我们现有药物可能有未知副作用。 这些发现不仅验证了衰老时钟的生物学相关性(通过富集分析显示干预措施集中在衰老相关通路如细胞衰老和长寿调控),还与独立数据库(例如 GenAge 和 DrugAge)高度一致,证明了方法的可靠性。 实验验证:Ouabain 的抗衰老效果 理论预测需要实验验证。研究团队选择了 AI 筛选的最优化合物——Ouabain,进行进一步验证。 Ouabain(哇巴因)是一种从植物中提取的强心苷类化合物,主要存在于夹竹桃科植物(例如非洲箭毒木)中,其通过抑制细胞膜上的钠钾泵(Na⁺/K⁺-ATP酶),增加细胞内钙离子浓度,从而增强心肌收缩力,此前其从未被深入研究过抗衰老作用。 在老年小鼠(26 月龄)中,间歇性注射 Ouabain 三个月后,结果显示: 衰弱指数降低:治疗组小鼠的衰弱指数没有增加,而对照组显著上升,意味着 Ouabain延缓了健康恶化; 心脏功能改善:心脏输出量提高,符合 Ouabain 作为强心苷的预期作用; 神经炎症减轻:大脑海马区小胶质细胞形态更健康,提示了其具有神经保护效应。 这些结果在分子层面也得到了支持:转录组年龄(tAge)预测显示,Ouabain 降低了老年小鼠生物学年龄。此外,Ouabain 还显著提高了 Nrep 基因表达水平,而该基因编码的神经元再生相关蛋白是异体共生对老年小鼠产生返老还童效果的关键因素之一。模块特异性多组织时钟进一步揭示了 Ouabain 抗衰老作用的多种途径,包括与炎症、mRNA 剪接、Nrf2 和干扰素信号转导、翻译、脂质代谢以及氧化磷酸化相关的途径。 意义与未来展望 ClockBase Agent 代表了衰老研究范式的转变:从假设驱动到数据驱动。它展示了 AI 如何从现有数据中“再挖掘”新知识,自主识别年龄调控干预措施,加速药物发现。该平台目前已公开可用,允许任何研究者查询干预措施的影响,促进长寿医学的民主化。 总的来说,这项研究证明了 AI 与人类合作的力量——不仅能验证已知长寿药物,还能发现新的候选药物。随着数据不断增长,AI 智能体可能成为衰老研究的标配工具,帮助我们更接近健康长寿的梦想。
GPT-5.1内幕:OpenAI内部命名规则生变
我们正在经历一次静悄悄、但本质性的AI范式转换。 它的意义不亚于Transformer本身。 过去一年里,关于AI发展,出现了两种观点的分化: 一边是“AI增长放缓、模型到顶、预训练无用论” 另一边则是隔三差五就来一次“AI大周”:GPT-5.1、Gemini 3、Grok 4.1。 而Transformer作者之一、现任OpenAI研究科学家的Łukasz Kaiser最近接受采访,给出了第一视角的解答。 信息量极大,包括AI的底层范式转变、GPT-5.1的命名规则、未来AI的发展趋势……以及Transformer诞生背后的二三事。 AI不是变慢了,而是换代了。 GPT-5.1不是简单的小版本迭代,OpenAI内部版本命名规则有所变化。 多模态推理将会成为下一个突破点。 AI不会让人类完全失去工作。 家用机器人是继ChatGPT后最可见的AI革命。 下面一起来康康详细内容: AI发展没有放缓,而是平稳增长 过去一年里,有关“模型进展变缓”的声音层出不穷,但Łukasz认为这种看法是错误的。 他给出的解释也很直白: 从内部视角看,AI的能力增长是一条非常平滑的指数曲线。 这类似于摩尔定律,几十年来摩尔定律始终有效,甚至在GPU的推动下还在加速,归根结底也是因为它历经了数代技术的迭代。 因此,AI从外部看,趋势是平稳的;而从内部看,其进步也离不开新技术、计算机能力的提升和工程优化的共同作用。 至于为什么会有人觉得“变慢了”,原因无它:AI的底层范式,已经悄悄从预训练转向推理模型。 这也是继Transformer诞生后的又一次关键转折。 如果把技术发展的过程描述为一条S型曲线(起步→快速增长→平稳期),那么预训练就处于S曲线的上升后期,而推理模型仍处于初期。 不过这并不意味着预训练的Scaling Laws就失效了,它仍在发挥作用,只是和新的推理范式相比,需要投入更多的资金。 所以出于经济上的考量,业内人士开始普遍将工作重心转向更小也更便宜,但质量相同的模型,所以这也是导致外界认为预训练已经停止的原因之一。 那么回到推理模型上,由于该范式还处于新兴阶段,进步速度会相当之快。 以ChatGPT为例,GPT-3.5会直接基于训练数据记忆给出答案,而不会借助任何外部工具和推理,反观现在最新的ChatGPT会主动浏览网站、进行推理分析,再给出准确答案。 对于普通用户来说,如果不仔细对比,可能会觉得二者差异不大,但实际上这背后是性能质的飞跃。 又比如说Codex,程序员的工作方式已经在近几个月里转变为“Codex先处理,然后人工微调”的模式,这种变化其实相当之彻底,但如果不是专业从事编程工作,自然不会留意到这种根本性变革。 所以总的来说,这一切的变化都发生得太快,以至于让人们还未曾察觉到其中的变化。 而推理模型的本质其实也与基础大模型类似,只是在给出最终答案前,会优先进行思考,也就是所谓的思维链。 在思考过程中,模型被允许使用工具,例如浏览网页,以给出更准确的答案。其推理过程也会被视为模型的一部分并接受训练。 相比于传统的深度神经网络梯度下降训练,推理模型则更多使用的是强化学习。 具体来说,强化学习会通过奖励机制推动模型获取更好的答案,也需要研究人员提供更细致的数据准备,以完成强化学习的参数调整。 然后通过强化学习,模型就能学会对自身错误的纠正。 后续行业也会继续转向更复杂的强化学习,例如借助一个大模型来判断答案的正确性或偏好度,或者融入更多的人类偏好。 总之,未来强化学习的应用范围会更加广泛,不仅仅适用于特定领域,还能处理更多通用数据,比如说多模态推理,虽然最近Gemini已经能够在推理过程中生成图像,但整体来说还处于刚刚起步的阶段,相信在强化学习的帮助下会有进一步的提升。 GPT-5.1绝非表面上的小版本更新 关于最近发布的GPT-5.1,Łukasz也释出了更多细节。 GPT-5.1看起来只是小版本更迭,实际从内部来讲,是一个巨大的稳定性迭代。 首先回到最初的GPT-4到GPT-5,简单来说,得益于强化学习和合成数据的应用,GPT-5的推理能力明显提升了。 而到GPT-5.1的改进,则更多集中在后训练阶段,比如增加安全性、减少幻觉,以及添加了如书呆子、专业等多种风格选择。 版本的命名方式也不再与技术细节挂钩,转而以用户体验为导向,比如GPT-5是基础能力较强的模型,GPT-5.1是能力更优的版本,Mini是更小、更快、更廉价但性能稍弱的模型,推理模型则专注于复杂任务。 这种命名方式的转变也为OpenAI内部带来了更多灵活性,现在强化学习、预训练、幻灯片优化等多个项目并行工作,然后通过蒸馏技术就能将多项目成果整合到一个模型中。 这大大缩短了模型迭代时间,可以更好地满足用户体验需求,所以GPT-5.1看似是小版本更新,实则背后是OpenAI基于用户对其能力和目标预期做出的策略调整。 不过坦白地讲,GPT-5.1在部分能力上仍然存在短板。 比如Łukasz用自己5岁的女儿举了个例子—— GPT-5.1能够游刃有余地解决奥林匹克竞赛题,但在面对小学一年级的数奇偶数题目上却错误百出。 该题目内容是,图中有两组点,中间有一个共享点,问总点数是奇数还是偶数。 5岁的孩子能够在10秒内就算出答案(因为共享点的存在导致总点数为奇数),但无论GPT-5.1还是Gemini 3都会自动忽略这个共享点,误判为偶数。 这主要还是因为模型缺乏足够的多模态能力,也未能将一个问题的推理经验迁移到相似场景中,所以后续他们将会在训练中进一步强化多模态推理和上下文推理迁移能力。 从谷歌Transformer走向OpenAI 而作为Transformer的作者之一,Łukasz也在访谈中补充了很多诞生细节。 Łukasz自己原先是一名专注于理论计算机科学的学者,高中时就对数学和计算机充满兴趣,并在德国获得了理论计算机科学与数学博士学位。 他一直对“思维是如何运作的”、“智能的本质是什么”诸如此类的问题充满好奇,也曾在法国获得终身教职,从事逻辑和编程研究。 直到深度学习兴起,他加入了谷歌。 先是成为了Ray Kurzweil团队的一员,后转至Google Brain,开始与Ilya Sutskever等人合作。 在开发Transformer的过程中,Łukasz主要负责编码和系统工作,参与TensorFlow框架的开发。 不过有趣的是,据他回忆,Transformer论文的八位共同作者从未在同一个物理房间中共同出现过。 而虽然他们彼此之间素未谋面,但他们通过不同角度共同构建了这个模型: 有人专注于注意力机制本身,有人研究如何通过前馈网络存储知识,还有人复杂解决工程实现问题,比如他自己。 从现在的角度看,Transformer毫无疑问是当今AI架构的里程碑,但在当时,很多人对用同一个模型处理多个任务的想法并不理解,他们普遍认为不同任务就应该分别训练不同的专有模型。 而他们八个人坚信自己的选择,后来的事实也证实了他们的想法是正确的。 关于之所以离开谷歌,转投OpenAI,其中一个原因还是因为llya。 llya在谷歌时期就是Łukasz的直系领导,在创办OpenAI后也屡次邀请他加入。刚好这时,Łukasz也无法适应Google Brain的团队规模扩大以及远程工作氛围,于是一拍即合,来到了OpenAI。 OpenAI也没有让他失望,这里没有严格的组织架构,都是根据项目自发组队,也会根据项目进展灵活调整,直到项目成熟才会逐步扩大团队。 当然不同项目之间也会存在资源竞争,毕竟OpenAI内部GPU资源有限。 从技术层面看,预训练目前消耗的GPU资源最多,其次是强化学习和视频模型,资源分配在很大程度上还是由技术需求决定。 所以竞争不可避免,Łukasz本人也不例外。 下一次突破来自多模态推理+具身智能 最后,Łukasz聊了聊他眼中的AI未来。 AI会改变工作,但不会让工作消失。 因为从产品层面上看,即使AI自动化了绝大部分任务,但人类专家的需求仍然存在。 以翻译行业为例,其实Transformer论文最初的应用场景就是翻译,现在的模型也能准确翻译西班牙语、法语等语言,但对于报纸广告乃至ChatGPT UI界面,仍然需要人类译者进行二次审核。 这本质上是信任问题,即使模型能力再强,对于一些高风险、高关注度的场景,还是会倾向于依赖人类专家经验。 只是说,对于另外一些基础工作,可替代性会变高,后续也会出现相应的工作内容变化,但归根结底不会让人类无事可做。 Łukasz还预计,家用机器人可能会成为“下一次更为直观的AI革命”。 机器人技术的进展,取决于多模态能力和通用强化学习、通用推理的进步。一旦这些领域取得突破,机器人技术必将迎来爆发式增长。 目前已经有很多硅谷公司在相继推出智能手遥操作等硬件产品,硬件基础也将迅速成熟,届时将协同多模态和物理世界推理能力,实现家用机器人的能力跃迁。 这将会比ChatGPT更直观、更易感知。
三百多万人围观的 AI 油画视频,是技术的神作,还是没有灵魂的电子垃圾
「比蒙娜丽莎更美的,就是正在燃烧的蒙娜丽莎」,这是多年前一档辩论节目里,大家对于艺术价值的不同理解方式,那时听到可能觉得挺激进,笑一笑便过了。 最近一段把几幅经典油画「复活」的 AI 视频,在 X 上引起了巨大的争议,视频刷到 300 多万播放,被不少人称之为栩栩如生的艺术;比经典油画作品更好看的,是会流动的油画?AI 做的东西是不是没有任何艺术价值? 网友分享的油画视频里,经典的油画元素不再静止,颜料开始流动,天空的云朵、火山的喷发、还有海浪的汹涌都变得生动自然,仿佛那些存在几百年前的画布,突然拥有了生命一样。 乍看之下,这就是一场视觉盛宴的享受;如果不是其中几个视频,忘了去掉右下角 Google Veo 视频生成的水印,甚至会觉得完全是用 CG 特效制作实现,毕竟对油画风格来说,没有很明显的「AI 味」。 但是点开评论区之后,发现网友们撕成了两派,有人说,这就是新时代的艺术,是全新的审美体验;有人就不买单,用 AI 时代最刻薄的词汇——Slop(垃圾/泔水)一言蔽之,说等到 AI 有意识了,再来谈配不配成为艺术。 同样的一条 AI 视频,让人看到了艺术、技术、恐惧、愤怒、敬畏、厌烦,还有时代变化。 如果不说这是 AI,你的第一反应是 X 网友发布的这则视频,其实并不是他本人的原创,在评论区有人指出来,说他没有标注视频来源,也没说明使用了 AI,只是单纯地为了赚取流量。现在这波流量,也确实是被他赚到了。 视频最早是出现 YouTube 上,一位有着 2000 多粉丝的博主@bandyquantguy,他是宾夕法尼亚州立大学艺术与建筑学院的一名助理教学教授。频道内发布的内容,基本上都是不同油画的动态视频作品,长度在一分半到 3 分钟不等。 而那条被转发到 X 上的视频,并收获了三百多万的观看,是他将近一个月之前的作品。 当我看着满屏的动态油画时,说实话,根本没想到这是否通过 AI 生成。一方面是对油画艺术的不了解,是否有相关的技术,或者爱好者在专门做类似的工作。另一方面,大多数时候,我们所说的 AI 味,主要是在制作一些写实的画面,像现实世界、真人版等。而这种风格化本身就足够突出的内容,AI 的处理反而不会太突兀。 有网友评价,这是他见过最原汁原味的 AI 艺术作品之一,因为视频没有生硬地模仿现实,而是创造了一种介于梦境,与现实之间的流体美感。 第一眼都是觉得「震撼」,而这种迎面而来的视觉冲击,在知道它是 AI 生成的之后,也变成了争议的起点。大多数的人会觉得,这样的作品很棒;但对剩下一部分人来说,如果光靠 AI 就能得到原本属于「艺术」的内容,那该有多可怕。 Slop,AI 是原罪 所以,打压和看衰,成了评论区的另一种态度,Slop 就是代表性的关键词。 在 AI 语境下,Slop 指的是通过 AI 大量生成的、看似有内容实则空洞的劣质品。像是之前奥特曼推出 Sora,就有人犀利的丢下断言,Sora 生成的视频,全部都是 AI Slop。 这次,也有网友说,这样的油画视频,不应该放在社交媒体上,Sora 才是他最好的归宿,那里都是同样的 AI 垃圾。为什么画面如此精美的视频,会被称为 Slop?反而一些 AI 味明显的视频,激不起大家这么热烈的反馈。 因为它是机器盲目的困境。 反对者认为,AI 生成的内容,是缺乏意义,就像是一台机器盲目的梦境,它甚至不知道自己正在做梦。 他们的观点是,艺术不仅仅是停留在好看,那只是媚俗。艺术需要人类的意图、深度和复杂性。在这个视频里,原本油画的笔触,变成了毫无逻辑的像素流动,就像是单纯地为了展示「我能动」而动,没有任何节奏、理由或概念支撑这个视频的内容。 对他们来说,AI 最大的问题从来不是不够好看,而是「不够人」。 AI 的每一次选择,只不过是概率。而人类创作一个作品,画一幅油画,背后包含的是对人生、对世界的思考和回应;有情感、时间、技巧、犹豫和失败等经历。 支持者觉得,现在的 AI,就像相机刚被发明时一样,不是在替代传统,而是在扩张想象力。甚至有网友说,「我想艺术家们在作画前,脑海中可能就有这样的画面,现在我们也能走进他们的灵感了。」 是结果,还是过程重要 如果这个视频是一个人类艺术家,花费 1000 个小时,一帧一帧手绘出来的,评论区又会发生什么。除了震撼,大概还是一样,会有人说,这视频顶多用来作为我的手机屏保,除了好看也就仅此而已了。 艺术是主观觉得还是客观认定呢,其实都没有明确的界定。网友的期待,大概是希望,艺术应该是需要「努力」才能抵达的地方,而 AI 正在稀释「努力」在艺术中的价值。 前段时间,一幅名为《太空歌剧院》的画作,拿到了艺术比赛的头奖,还有 AI 画作甚至在拍卖市场,以十万、百万的价格被拍走。 我们在一个输入提示词就能生成图像的世界里,任何一个人不需要复杂的技巧,也不需要付出多少汗水,都有机会创作自己的作品,作品的意义也不再靠时间来定义。 ▲提示词:将油画纹理动画化为粘稠流体模拟,厚重的颜料笔触融化并流动。旋转的天空、粘稠的黄色光芒、翻腾的蓝色云朵。 当 AI 把时间成本压缩到几秒钟,这种神圣感瞬间崩塌,剩下的就只有廉价。「这不难做吧」、「我用 Veo 3 也能生成」,这样的东西,自然就成不了艺术了。 更有趣的是,有网友提到,这是一种很明显的社会心理学现象,巴浦洛夫的狗。现在我们只要看到 AI 的标签,就有了条件反射,瞬间进入狂怒模式,无论作品本身好坏,一律打成 Slop。 具体来说,就是眼睛告诉我,这个视频还不错,但大脑告诉我,这是 AI,AI 做的都是不好的,为了调和这种矛盾,我就必须强行说服自己,它看起来很糟糕。 心理效应是存在,更多的我想其实还是,AI 内容的泛滥,正在把我们的审美阈值无限拔高。 没有 AI 的时候,让一幅油画像这样动起来,可以说是「魔法」一样的存在。现在如果这些作品没有极强的故事性,或情感内核,仅仅是视觉特效,已经很难打动被各种 AI 效果喂饱的我们。 ▲ YouTube 上该博主的其他油画视频 无论评论区吵得多么不可开交,一个事实是无法改变:AI 不会消失,艺术也不会因为 AI 的出现而消失。 就像一些网友说的,「电力曾让蜡烛工厂破产,但人类具有适应性」。现在的混乱,也许只是新旧审美体系,交替时发生的阵痛。 如果在 100 年前我们按一下播放键,就能听到录好的歌,大概也会有人觉得,只有黑胶唱片出来的声音才是真音乐;现在我们只是习惯了,现场、黑胶、手机、音响都有好音乐。 艺术,从来看的是最终的愿景,是我想让你看到什么,而不是用了什么工具,我花了多久才做出来。一个活过来的 AI 艺术,就算是简单的几行提示词,一样倾注了真正属于创作者的叙事、情感与意图。
男子定制2米高摩托罗拉手机:精准还原V70 可正常通话
快科技11月30日消息,近日,“男子定制2米摩托罗拉可通话手机”的话题,引起网友关注。 网友发布视频显示,在深圳华强北手机博物馆门口,一部近2米高的摩托罗拉V70在此竖立,成为博物馆的网红打卡点。 博物馆经营者颜先生介绍,这台手机不是模型,而是全球唯一一台高度定制、能打电话的摩托罗拉V70。 摩托罗拉V70于2002年发布,旋转翻盖的设计独一无二,当时售价8000元,相当于普通人半年的工资,我们用了大半年时间才造出来,所有按键都是可动的,并定制了专业系统,能够正常通话。 颜先生称:“当年买不起V70的朋友,现在可以带着孩子来打卡这台‘梦想放大版’,可能这就是科技怀旧,最浪漫的样子。” 颜先生表示,他特别喜欢收藏手机,从BB机、大哥大,到诺基亚、三星、摩托罗拉等经典机型,最多时收藏了1000多部手机。 2016年左右,他萌生了创办手机博物馆的想法,一方面是圆自己多年的收藏梦,另一方面也源于对华强北的深厚感情。 华强北手机博物馆是他的个人创业项目,场地为租赁性质,月租金10万元左右,今年四五月正式对外开放。 但目前,手机博物馆已因资金周转问题闭馆破产,馆内陈列的800多部手机均已妥善收纳,仅门口的巨型手机仍保留原地。 不过,他透露,视频走红给他带来了新思路和机会,后续可能会转型打造手机主题咖啡馆,以全新形式实现商业变现。
奢侈品牌Caviar推出定制版iPhone 17 Pro系列,售价超1万美元
IT之家 11 月 30 日消息,据科技媒体 NoteBook Check 昨天报道,奢侈品牌 Caviar 现已推出“Secret Love”(秘密之爱)定制版苹果 iPhone 17 Pro / Pro Max 手机,主打“高端工艺和艺术设计”。 据介绍,该系列定制版机型的主打款式是“翡翠之树”(Emerald Tree),其外观整体以深绿色皮革为主,配备镀金边框等细节,还拥有深红色和银色的钻石装饰,呼应冬季节庆主题。 而“焦糖”(Caramel)系列的机型则顾名思义,背面覆盖焦糖色皮革,加入镀金花卉等元素,配有红白色装饰点缀,镶嵌碎钻,旨在营造“情感温暖与静谧优雅”。 “光之花”(Fleur de Lumiere)系列机型则以银色山茶花为主题,镶嵌珍珠母贝,使后盖的花瓣呈现柔和质感,配备深色皮革、珠宝珐琅与 24K 黄金,象征“女性优雅”。 最后的“舞动之心”(Dancing Hearts)机型旨在致敬“光明与喜悦”,背部拥有深蓝色皮革,嵌入心形装饰,配备镀金线条,所有机型均可进一步定制客户专属 Logo、姓名首字母、皮革材质、后盖设计元素、机身包装盒等。 IT之家附该系列手机售价如下: 翡翠之树:11630 美元(IT之家注:现汇率约合 82412 元人民币) 焦糖:11630 美元(现汇率约合 82412 元人民币) 光之花:13060 美元(现汇率约合 92545 元人民币) 舞动之心:10200 美元(现汇率约合 72278 元人民币)
有多少人半夜玩手机 结果被HDR照片闪瞎了
如果你最近经常网上冲浪,比如刷小红书和微博啥的,那么你很有可能会像托尼一样,大半夜在被窝里点进一个帖子的图片,结果突然被高亮的屏幕闪瞎双眼。。。 而且经常是这种只有图片超级亮,但是屏幕其它地方却无事发生的情况。。。 怎么说呢,虽然突然被闪确实有点不习惯,但这图片看着也确实是清晰通透,质量比以前高了好几个档次。 而你之所以会莫名其妙吃一个闪光弹,是因为各大手机厂商和社交媒体最近都在努力适配一个叫做 HDR 图片的东西。 HDR 这个东西你可能接触很多了,但大伙可能不知道的是,社交平台真正让不同手机都支持查看和分享 HDR 图片这件事,直到 2025 年才称得上是 “元年” 。 给大家展示一个最直观的例子,在两三年前,当你把一张 HDR 照片发给一个不支持 HDR 格式的设备时,那么你的照片就可能会像下面这样直接裂开。。。 左,原图;右,对方设备 不是,不支持就算了,看都不让看是几个意思。。。 而要说明白 HDR 为啥会出这样的毛病,咱还得从一开始讲起。 大伙的照片显示标准一般分为两种,SDR 和 HDR ,而 SDR(标准动态范围)就是以前的格式了。 早期的数字图像一般就是 SDR 格式,最早甚至可以追溯到胶片时代,一般来讲,只要能达到 8bit 色深和 100 尼特亮度就差不多了。 其实这个参数现在看来是很烂的,那为啥以前大伙没感觉呢?因为大家的显示设备也很烂,只要是个屏幕就行了,又不是不能看。。。 而且以前也更流行把照片打印出来,而不是在电脑上面看。 但这不代表 HDR 还没诞生,你要是真想刨根问底的话,最最最早的案例能干到 1850 年,一位法国摄影师古斯塔夫通过两次单独的曝光过程,克服了胶片动态范围的限制。 单独曝光简单来讲有两种方式,一种是把亮度差距很大的区域拆开,分别用两次拍摄来搞定;另一种是分别拍摄同一场景的亮部和暗部,然后把它们叠加印制在同一张相纸上,最终形成亮暗部细节都完整的图像。 也就是说,早在一百多年前,就有摄影师发现可以通过多次曝光同一个位置的照片并合成的方式,来突破胶片本身动态范围的限制。 而在数字时代有关 HDR 的研究,最早可以追溯到 1997 年,南加州大学的一位教授提出了 HDR 图片的相关技术。 在几年之后,也确实有一些专业相机支持了一个叫做 “包围曝光” 的功能,简单来讲就是拍摄好几张不同曝光程度的同一场景照片,为 HDR 技术的发展打下了基础。 不过这个功能一般都是给用相机的专业用户准备的,而且需要配合 Adobe Photoshop 里面的 HDR 合成功能来搭配使用。 总之,在经过了漫长的摸索之后,HDR 终于走过了野蛮发展的年代,开始在专业领域立足了。 其实到这里,HDR 都还是给专业用户准备的,而真正让 HDR 从专业小众变成普通大众的功臣,是智能手机的进步。 然而,智能手机既是 HDR 照片的推动者,也是造成混乱局面的始作俑者。。。 最早熟练掌握 HDR 照片技能的是 iPhone 12 系列,果果那时候就做到了对 HDR 照片的完整支持,包括拍摄与查看等等。 但这个时候点进相机设置,会发现果果需要用 HEIF 格式才能拍摄 HDR 照片,而不是我们常见的 JPG 格式。 一个是因为果果用了一种叫做 Gain Map (增益图) 的技术,它可以记录 HDR 和 SDR 之间的亮度差异数据。 当 HDR 内容在 SDR 设备上显示时,系统就只读取基础图像,而到了 HDR 设备上,增益图就会让硬件改变亮度,从而显示 HDR 内容。 而 HEIF 这种格式更加灵活,可以直接嵌入苹果专门的 Gain Map ,以及存储深度信息、实况照片等各种奇妙数据。 HDR 在苹果这边看上去顺风顺水,但是在安卓这边嘛。。。我只能用八仙过海,各凭本事来形容了。。。 主要原因还是安卓这边无论是软硬件,对 HDR 的支持都做得比较晚。 比如果果这边从 iPhone 7 开始就支持 HEIF 格式了,A10 芯片也支持 HEIF 硬解,而安卓这边,高通直到骁龙 855 才支持硬解 HEIF ,光是硬件这一块儿就比苹果晚了两年。 不仅硬件不行,由于安卓新老设备的系统版本和配置差距巨大,导致 HDR 在软件层面的推行也非常困难。 当然,还有很重要的一点,那就是谷歌自己迟迟没能拿出一个统一的标准,来规范安卓的 HDR 照片。 就在这时,国产品牌们站出来了,既然谷歌不搞,那哥几个就闷头自己研究吧。。。 比如开头的绿厂就是一个例子,托尼尤其记得当年 Find X3 因为支持了 HEIF ,结果拍出来的 HDR 照片看着特别震撼。 蓝厂也是这么走过来的,一开始 X80 Pro 上面用上了自家的 XDR Photo 技术。 可是各家的 HDR 效果虽然不错,却都只能在各自的系统相册里自嗨,第三方应用看到的也依然是普通照片,有时候发出去的照片甚至会裂开。。。 不止蓝绿两家,再加上华为、小米和荣耀都在影像这一块狠狠发力,导致这两年国内的 HDR 处于一个 “各凭本事” 的状态。 而且别忘了,除了安卓厂商,还有个果果一直在自己跟自己玩呢。。。 所以这时候大伙应该知道,为啥开头我就说 HDR 这么乱了吧。。。 终于,在 2023 年的谷歌 I/O 开发者大会公布 Android 14 的同时,谷歌大手一挥,扔出了一个叫做 Ultra HDR 的新特性。 更重要的是,Ultra HDR 是 Android 14 系统的官方标准,至此,HDR 安卓阵营这边终于有了一个小小的统一。 随后 OPPO 和 vivo 也选择跟进或者兼容谷歌 Ultra HDR 这套标准,进行一个向上兼容,属于是跟原生安卓看齐了。 并且 HDR 大一统的进程还在继续,比如果果那边从 iPhone 16 开始就支持拍摄 JPG 格式的 HDR 照片了,这样起码分享起来格式是通用的。 不仅兼容性大幅提升,小红书等社交媒体也在和厂商积极做适配,HDR 现在既不挑设备也不挑平台,大伙也更容易分享和欣赏 HDR 内容了。 所以包括托尼在内的很多人之所以会觉得 HDR 怎么突然间就普及了,其实是随着标准的制定和技术的发展,HDR 开始飞速从专业领域下沉到消费级。 再加上最近手机的性能和屏幕素质越来越好,以及社交平台的积极适配,而普通消费者一般要隔好几年才换一次手机,正值显示效果突飞猛进,才让人有一种突然出现的错觉。 社交媒体需要更多用户来增加流量,而厂商也希望用户可以多分享照片来提升曝光,于是厂商和平台一拍即合,共同推进了国内 HDR 的适配程度和知名度。 其实这么一路回顾过来,托尼倒是还挺感慨的,从一百多年前的胶片多重曝光,到专业领域的 HDR 合成,再到现在随便用手机按下快门就能拍出 HDR 照片,影像技术就是这么在不知不觉中一点点进步的。 但话又说回来,其实 HDR 大一统明明可以来得更早一点,苹果安卓不统一就算了,结果安卓内部自己也乱成晋西北。。。 推动一个标准落地确实非常困难,这个大伙都理解,但你谷歌作为安卓的亲爹,迟迟没有任何反应,直到前两年才开始出标准,HDR 乱成一团这事儿还真得赖你,怪不到国产品牌头上。。。 总之,无论是标准的制定,还是厂商们的努力,这其实都是人们对更好的显示效果的探索。 在这件事上,我们既是体验者,也是见证者。 而人们对 HDR 的探索与统一,也绝不会止步于此。
苹果A20系列芯片前瞻:CPU/GPU/NPU可独立运行,有望提高L2缓存带宽
IT之家 11 月 30 日消息,科技媒体 Wccftech 今天发布博文,前瞻苹果将在明年推出的 A20、A20 Pro 芯片,新款芯片将首次采用 2nm 工艺,相比 3nm 制程的 A19 和 A19 Pro 可实现更高性能飞跃。 IT之家附前瞻要点如下: 封装方式的转变: 据报道,A20 系列芯片最大的升级就是从 InFO(集成扇出)封装转向 WMCM(晶圆级多芯片模块)封装,其中 WMCM 可以将 CPU、GPU 和 NPU(神经网络引擎)等多种独立芯片等装置在同一独立载板上,而 InFO 则是将所有元件整合在一颗芯片上。 WMCM 封装可以带来以下优势: 更灵活的芯片设计能力: 多芯片组合可以让苹果轻松调配出不同核心 / 频率的 CPU、GPU 配置,此前曾有传闻称未来的 M5 Pro 和 M5 Max 就会采用独立的 CPU 和 GPU 模块 扩展性更强: WMCM 可以作为一个“地基”,让苹果只需要用 A20 系列小修小改就能打造出 M6、M6 Pro、M6 Max 等桌面级芯片 更高能效: 各个 CPU / GPU / NPU 模块可以独立运行,并按照任务需求动态请求功耗,相比所有原件集成在同一晶圆上更加省电 简化制造流程: WMCM 将使用 MUF(模塑底部填充胶)技术,可减少芯片制造中的材料用量,有望带来更高的良率,抵消 2nm 工艺自身的高成本 缓存大幅升级: 苹果今年推出的 A19/A19 Pro 已经带来了巨大的缓存提升,按照苹果历代的升级幅度,A20 系列将进一步提升缓存,具体如下: A20:性能核配备 8MB L2 缓存,效率核配备 4MB L2 缓存,还拥有 12MB SLC 缓存 A20 Pro:性能核拥有 16MB L2 缓存,效率核配备 8MB L2 缓存,还拥有 36-48MB 的 SLC 缓存 GPU 配备第三代动态缓存: 苹果最早在 A17 Pro 芯片上引入动态缓存(Dynamic Cache),使 GPU 可以按照任务需求及时分配内存,相比固定分区式架构,动态缓存拥有以下优势: 减少内存浪费 每瓦性能更高 GPU 整体利用率更高 而第三代动态缓存将有望带来更精细的内存分配、更快的分配速度,稳定性更强,还有望减少资源浪费率,对模拟器游戏来说意义重大,可大幅提升非原生游戏的流畅度
看完《疯狂动物城2》这样发合照火爆朋友圈,Nano Banana Pro 新玩法来了 | 附教程
疯狂动物城2 前几天刚正式上映,超过哪吒,成为中国影史动画电影预售票房冠军,双休日买好票准备去看了吗。 社交媒体上,早在预售的时候,就已经都是警官兔朱迪与狐尼克,出现在不同网友的电影院合影里。 照片里的网友,左拥右抱着兔朱迪和狐尼克,作出自拍的姿势,而背后的影院屏幕上还显示着疯狂动物城2 的海报。同时人脸的一致性保持,让人觉得这就是电影放映后的粉丝福利,动画片主角跑出来免费合影。 评论区都在求攻略,有网友贴心地给出了制作指南。输入下面的提示词,然后图 1 上传自己的照片,图 2 和 图 3 分别上传朱迪和尼克的照片,图 4 是一张电影海报,通过豆包或者剪映 App 的生图功能,就能得到一张同款合照。 不要换脸,人物脸部不能有任何改变!将图1和图2 和图 3 的三人融合成一张三人俯拍自拍照,画面构图紧凑,三位主体靠得很近,图 1 人物居中,头部略微上仰,眼神直视镜头,营造出强烈的视觉冲击力。左侧和右侧人物站得略靠后,整体都需要保持人脸相似度,略微内扣身体,拍摄角度为高角度俯拍,使头部比例被夸张放大,典型的日韩视觉自拍风格。简洁干净,进一步凸显人物主体。整体画面清晰度高,用iphone前置自拍,最终呈现出精致、时尚、略带的合影效果。要求人物实现无缝融进画面,视觉过渡自然,整体画面光线明亮且均匀,背景为超大电影院坐满了观众,这三人背对银幕,银幕显示参考图 4《疯狂动物城2》电影精美海报填满屏幕。 ▲图片和提示词来源:小红书@424180556 我们也使用 Nano Banana Pro 生成了同样的合照,不过得益于它的强大,我们完全不需要输入太多的提示词,只是上传四张图片,然后简单的告诉它要做什么就可以。 ▲提示词:把这个男生和另外两个疯狂动物城角色放到一张合照里,他们就像是拿着手机在自拍,背景是电影院,电影院的屏幕上显示着我发给你疯狂动物城海报;16:9 的大小,4K 画质。 甚至还可以脑洞大开,直接丢给它这四张图片,然后输入提示词「合照」,完全不用担心人脸会改变,我们得到了这些 Nano Banana Pro 发挥自己的脑洞,生成的图片;横屏和竖屏的电影海报都有了。 ▲提示词:合照 我们还可以试试最近玩 Nano Banana Pro 特别热门的提示词玩法,输入「xx,但不是xx」,上面在海报前拍照的那张图片,我们输入的提示词就是「合照,但不是合照」。 除了合照的玩法,配合新升级的 Nano Banana Pro,我们还有很多疯狂动物城2 联动玩法。 玩法一:全世界都是疯狂动物城 还记得 GPT-4o 刚出来那会儿,铺天盖地都是吉卜力风,现在疯狂动物城风也来了,而且还带来了更丰富的控制。 就像这张现实世界的街景图,只是把路上的行人,换成了可爱的动物角色,而马路和建筑还保留着原来的风格。 提示词:疯狂动物城风格的真实场景融合。迪士尼级别角色设计,富有表现力的形状,柔软毛发质感,流畅环境光照。保持原始照片结构,保留现实世界的光线、透视和材质。将拟人化元素自然融入环境中。高分辨率,电影级色彩调节。 拿着这套提示词,几乎可以把所有的照片,都转成这种现实+疯狂动物城的风格。还记得我们之前 AI DONE 活动预告里面,4 位 AI 大佬走在斑马线上吗,现在你还能不能,分辨出从左到右都是谁。 还有这张在网上疯狂传播的 AI 合照,把硅谷最有权有势的 CEO 都集结在一起。 ▲ 由于提示词里面提到了「迪士尼」,所以这个狮市长看起来更像其他迪士尼系列电影的角色 除了保留一定的现实世界风格,把整个图片都换成疯狂动物城风,也是一样的好玩,Nano Banana Pro 表示,这都是小 case。 把开头那张只是转换了路上行人的照片,全部换成疯狂动物城的元素,色彩更加鲜艳,元素也更协调。 提示词:将这个现实世界的照片转换为《疯狂动物城》风格的动物城市,保留原始图片原始的全部元素和布局结构,但转换为风格化的拟人化基础设施,4K 画质。 同样的提示词,我们还把爱范儿在大兴安岭拍摄的样片,也进行一次风格转换。Nano Banana Pro 把大兴安岭的冷,描绘地更加极致,雪花飘在了衣服上。 还有随手拍摄的合照,也能一键换装,全员变身可爱的小动物。 ▲ 原图来源:Unsplash@绵绵 如果希望留住能识别的面部特征,而不是直接把整个头部都换成动物头,实现起来也很简单,只用加一句提示词。 完全保留人物的人类面部特征和身份。 玩法二:合照,三个人可不够 开头只有朱迪和尼克的合影,只是疯狂动物城里面的两个主要角色,在电影里还有狸宝、宝伯特、马飞扬,闪电、夏奇羊、牛局长等数十个动物角色。 在 Nano Banana Pro 里,这些角色可以全部一次性发给它处理,所有角色都在舞台上。 提示词:图一是我,图2到图8,每张图片里面有4个疯狂动物城里面的角色,现在你需要把我和他们放在一张合照里面,就像是在线下的电影院,这些电影角色主创都在台上,我和他们一起合照,我在中间,拿着手机自拍,然后他们都在我旁边或者身后。 有了这么多的角色图片,我们还可以做一张疯狂动物城警局的照片墙,Judy、Nick、Bogo、Clawhauser 都在那块墙上,然后我们上传的照片也被贴到同一块墙上。 提示词: 创建一个16:9、4K分辨率的最终场景,设置在《疯狂动物城》警察局(Zootopia Police Department ,ZPD)内部。 一个真实感的警察局办公室走廊,主体背后是一个大型“ZPD员工照片墙”。 场景前方: 用户(来自图像1)站在中心位置,举着手机自拍。 保留用户真实的人类面孔和身份信息。 不要将脸转换为动物,仅应用非常轻微的《疯狂动物城》风格灯光和色彩调节。 背景: 用一整面墙填满用户身后的区域,并排列成网格状的拍立得风格员工ID照片。 使用图像2-8中的所有角色(每张包含四个角色),并将它们安排为单独的拍立得ID肖像展示在墙上。 每个角色肖像应满足以下要求: – 保持上传图片中原始角色身份不变。 – 遵循一致的《疯狂动物城》宣传艺术外观:柔和迪士尼灯光、干净背景、清晰人物轮廓线条。 – 匹配官方ZPD ID照片框架比例(头像或胸部以上)。 同时,将用户自己的“ZPD风格ID照片”添加到墙上,放置于网格中央附近的位置,用与其他相同样式的拍立得边框呈现。 视觉规则: – 保持真实办公环境中的墙壁材质、灯光效果的一致性。 – 所有ID照片必须对齐边框,统一色调,相同尺寸。 – 不要扭曲用户自拍姿势。 – 角色保持卡通化,但融入现实环境中。 – 可适度添加ZPD标志、警徽图标以及蓝色点缀灯光以增强真实性。 最终目标: 结果应展现出仿佛该用户已加入了ZPD,在官方员工照片墙前,与28位《疯狂动物城》的角色及其个人ID肖像一起合影留念之效果;画面需高清晰度,4K质量,有电影感但具备现实主义氛围感。 玩法三:这是我的疯狂动物城 ID 和风格转换有点类似,但又不完全相同。我们可以让 AI 来猜测,上传的人像图片,会是疯狂动物城里面的谁。 提示词:根据你对这张人像图片的分析,将这幅肖像转化为迪士尼《疯狂动物城》风格,最适合这张肖像图片的拟人化动物角色。保留原始面部结构和性格特征。柔软的毛发质感、富有表现力的眼睛、流畅的迪士尼光影效果、友好的配色方案以及电影海报级别的质量。 虽然 Nano Banana 大多数时候都只记得朱迪,但还是会根据我们上传的图片,调节图片的色彩、眼神的信息,同时保持我们的服装和姿势不变。 不喜欢这种身份证,还可以生成疯狂动物城的同款角色海报。 把图一的角色替换到图二的角色海报里,成为新的官宣角色。 由于 Nano Banana Pro 现在的指令理解和遵循能力,都得到了提升,所以我们的提示词甚至不需要太复杂的描述,一般口语化的表达,它也能听懂。 然后直接让他把狐尼克和兔朱迪换成马斯克和奥特曼。 ▲提示词:把这个海报里面的两个角色替换成 Elon Musk 和 Sam Altman,然后名字也改成对应的马斯克和奥特曼 如果觉得这种 ID 照片还不够正式的话,直接让 Nano Banana Pro 生成一张带着边框,风格明显的证件照。 提示词: 将这张肖像转化为《疯狂动物城》风格的官方身份证照片,同时完全保留人物的人类面部特征和身份。 保持人物原本的眼睛、鼻子、嘴巴以及整体脸型,不进行动物替换。 仅应用迪士尼《疯狂动物城》的视觉风格:柔和边缘光照效果、平滑阴影处理、温和色彩搭配、灯光边缘处微妙的毛发质感、人类眼睛稍微放大但仍然保留人类特点,以及电影级卡通写实效果。 使用干净的工作室风格ZPD身份证背景(蓝色渐变或中性背景)。 保持人物可识别性及自然肤色,仅添加与《疯狂动物城》宣传画一致的轻度艺术化处理。 不改变面部结构;增强表情清晰度,并在眼睛上增加些许迪士尼式光泽效果。 高质量,符合官方文件要求的框架设计。 还可以在提示词里面指定好名字、身份编号、工作部门等信息;Nano Banana Pro 也完全能准确渲染所有的文字。 尽管 Nano Banana Pro 比起之前的版本更能理解我们的意图,但有时候多尝试几次,还是会给我们一些额外的惊喜。 最近社交媒体上很多人在尝试,用尽可能少的提示词,看 Nano Banana Pro 会生成什么。还有一种更高级的玩法是,Gemini 3.0 Pro 多模态推理和理解能力的提升,用来做逆向工程表现也很不错。 例如,我们拿疯狂动物城这张海报来测试,在 Gemini 3.0 Pro 模型里面,输入提示词「提取这张图片的提示词,越详细越好。」然后再把提示词给 Nano Banana Pro,得到的 AI 图片,还原度其实算非常高。 ▲ 提取到的提示词: A high-quality 3D animated movie poster for Disney’s “Zootopia 2,” characterized by incredible detail, highly textured fur, vibrant saturated colors, and bright daylight. Composition & Angle: A dynamic, chaotic street scene captured with a low-angle shot looking upwards through a wide-angle fisheye lens, creating strong perspective distortion and a sense of overwhelming crowds. Central Characters: In the center, Nick Wilde (fox) wearing a pink floral Hawaiian shirt, grey pants, and a tie, is running forward with a panicked, wide-mouthed expression. Next to him, Judy Hopps (rabbit) in her blue police uniform is running with a shocked but determined look. Behind them, a massive blue python with yellow underbelly scales (new character Gary) is hilariously coiled through the crowd with a surprised expression and tongue sticking out. Environment & Key Props: A large grey metal street light pole cuts diagonally from the top left to bottom right. Mounted on it is a green street sign that clearly reads “Disney” logo above “疯狂动物城” with a large background number “2”. Below the sign, a yellow traffic light housing displays a glowing cyan LED number “2” instead of standard lights. Background & Crowd: To the left, a pink double-decker bus filled with slow-moving sloths hanging out of windows (including Flash). A dense, diverse crowd fills the street, including a giraffe stretching its neck, an elephant, a lynx holding up a smartphone taking a photo, a beaver, and a rhino in casual clothes. Overhead, a horse is swinging on a rope across the street. In the foreground, a green lizard is tripped up, and a seal wears headphones. Setting: In the far distance under a bright blue sky with clouds, the towering, futuristic skyscrapers of the Zootopia skyline are visible. The overall atmosphere is energetic, humorous, and crowded. Text Elements (Visual Placement): Floating 3D text in the middle left reads “老搭档 新案件” and middle right reads “嗨翻全城”. At the very bottom center, text reads “11月26日 全国影院献映”. Technical Specs: 8k resolution, cinematic lighting, highly detailed render. –ar 2:3 在我们的测试中发现 AI Studio 生成的图片,有时候并不是按照指令的 4K 要求给出原图,大小一般在 1MB 以下,而在 Gemini App 或者网页里,生成的图片则是完整的 4K 分辨率,图片大小一般在 7MB 左右。 Gemini 使用 Nano Banana Pro 的次数是有限制,在部分时候会像 ChatGPT 一样,弹出使用旧模型的提示。 但大多数时候,每天的使用次数是足够普通用户的使用。 我们喜欢疯狂动物城,大概是因为它打造的乌托邦,是一个勇敢善良的美丽新世界。现在 AI 迷人的地方,正是让我们也有了进入这个新世界的能力,同样地体验和传播,这份纯真的美好。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。