行业分类:
加载中...
头条分类:
加载中...
调查显示日本超半数游戏公司已使用AI技术,包括卡普空、世嘉等
IT之家 9 月 28 日消息,据 Automaton 报道,日本计算机娱乐供应商协会(CESA)于今年 6 月至 7 月期间开展的一项调查显示,51% 的日本游戏公司已在某种程度上开始使用人工智能(AI)技术。调查反馈来自 CESA 会员企业,其中包括卡普空(Capcom)、Level-5、史克威尔艾尼克斯(Square Enix)、世嘉(Sega)等知名厂商,涵盖了大型开发商和独立开发商。 受访公司表示,他们正在利用 AI 生成视觉游戏资产、创作故事情节与文本内容,并辅助编程工作。此外,32% 的 CESA 会员企业还透露,正借助 AI 协助开发自研游戏引擎。 尽管关于生成式 AI 在游戏行业中的潜在应用已有大量高层讨论和宏观展望,但其实际渗透程度之高仍令人意外,尤其是在日本市场。正如 Automaton 指出,部分 CESA 成员已公开承认使用 AI 技术,例如 Level-5 和卡普空。以 Level-5 为例,该公司已在多个环节广泛采用 AI,涵盖图像超分辨率处理、角色设计乃至代码生成等任务。 然而,生成式 AI 在游戏开发中的具体应用场景差异巨大,业界对其看法也莫衷一是。利用 AI 加速重复性的编码或动画制作流程,是业内普遍认可的一种应用方式;但若试图用 AI“取代”人类艺术家,则引发了极大争议。 这一争议或许正是部分游戏公司尚未采纳该技术的原因之一。例如,任天堂已明确表示目前将避免使用生成式 AI,理由是存在版权方面的顾虑,对于这家经常以诉讼手段坚决捍卫自身知识产权的企业而言,此举体现了其一贯的内部一致性。 IT之家注意到,其他一些主要厂商也发声强调应负责任地采用 AI 技术,并保护游戏开发中的人文创造力。拉瑞安工作室(Larian Studios)首席执行官斯温・温克(Swen Vincke)便是其中之一。温克去年在接受 IGN 采访时阐述了他对 AI 的看法:“我对 AI 的态度非常明确:它只是一个帮助我们提升效率的工具。我们有太多工作要做,因此乐于接受任何形式的辅助。但我认为 AI 永远不会取代创作过程中的创造性环节。”他进一步表示,团队最近为解决产能瓶颈问题,新招聘了 15 名概念美术师,而非选择依赖 AI 解决方案。
iOS 26.1 隐藏彩蛋曝光,苹果给 ChatGPT 们造了个新C 口
iOS 26 上线后,用户立马分成了两派。 有人认为新系统视觉有新意,也有人吐槽不好看、bug 多、电池续航直线下降。在争议声中,苹果也推送了 iOS 26.1 开发者测试版,优化了液态效果和 UI 细节。但该说不说,比起这些「面子工程」,苹果在系统深处埋下的彩蛋,其实更值得关注。 据 9to5Mac 报道,iOS 26.1、iPadOS 26.1 和 macOS Tahoe 26.1 开发者测试版隐藏的代码显示,苹果正在为 App Intents 引入 MCP 支持打基础。这也意味着未来,我们能让 ChatGPT、Claude 或其他任何兼容 MCP 的 AI 模型直接与 Mac、iPhone 和 iPad 应用交互。 Anthropic 的 MCP 协议,成了苹果「管住」ChatGPT 的钥匙 在讨论苹果这个大动作之前,我们需要给不了解的朋友科普一下 MCP。MCP,全称 Model Context Protocol(模型上下文协议),由 Anthropic 于去年 11 月提出,它要解决的是一个叫「N x M」的集成难题。 什么意思呢? 就是说,如果有 N 个 AI 模型,和 M 个外部工具或数据源,如果按传统做法,我们得开发 N x M 个定制 API 接口,非常麻烦此时 MCP 邪魅一笑:别折腾了,我来当万能翻译官。 MCP 通过提供一个通用、开放的协议,把模型与外部数据源和工具的连接方式标准化,取代了过去零散、私有化的集成做法,意在实现双向、安全的交互。通俗点说,它想成为 AI 领域里的「HTTP(网页的基础协议)」或「SMTP(邮件协议)」,它仅存在于软件,但在 AI 时代的意义不亚于一个标准化的硬件「USB-C 接口」。 效果怎么样?立竿见影。自打问世以来,MCP 已被 Notion、Google、Figma、OpenAI 等公司和平台也都陆续接入,成为 AI 应用接入的行业「通用插口」。 很多人容易误解 MCP + App Intents 只服务于 AI,其实并不是。 MCP 的本质是协议,它解决的是如何让模型或外部服务和系统安全对话的问题。虽然今天最热门的用例是 AI 模型调用应用,但 MCP 也可能用于非 AI 场景。以微信支付为例,就能看到 MCP 不局限于 AI 的可能性。 腾讯元器平台近日宣布已经接入微信支付 MCP,支持开发者在智能体(agent)中直接发起订单、查询订单、处理赞赏等功能。 同样,App Intents 也并不是专为 AI 而生的「新物种」。 它在 2022 年就出现了,当时的目标就是把应用的功能抽象成语义化的动作,让系统能直接调用。比如 Spotlight 搜索、快捷指令、小组件,其实都在用 App Intents,并不依赖 AI。 MCP 的接入,只是让「外部 AI」也能走上这条现成的通道。 根据对 iOS 26.1 等测试版软件代码的分析,苹果并非让每个应用单独去支持 MCP。恰恰相反,它正在构建一个直接集成在 App Intents 框架中,系统级的 MCP 支持。换言之,苹果不希望开发者自己「魔改」,而是要用官方操作系统的规范来开发接口适配,就可以使用了——这与苹果过去对应用遵守规范的要求一以贯之。 这意味着,在 iPhone 上,Siri/Apple Intelligence(由苹果的基础模型驱动)理解你的请求并可触发 App Intents 执行本地动作;当系统判断需要更广泛知识时,会征得你同意后把必要内容交给 ChatGPT 获取答案。 所以未来的场景可能是这样的:你对着 ChatGPT 说「帮我在微信里转 100 块给张三」,ChatGPT 会调用 MCP,把这个指令打包成标准化的请求;iPhone 系统通过 App Intents 识别出这是微信支付的动作,直接调用微信的接口完成操作。你不需要自己切换 App、点按钮,一切都由模型+系统协作完成。 换句话说,MCP 让模型有了「手」,App Intents 则是苹果为这双「手」划定的轨道。 这样做有什么好处呢? 头一个好处是搭便车。苹果可以直接享用整个行业围绕 MCP 建设的庞大工具生态,不用自己从头到尾开发每一个功能集成。 另一方面,当所有外部 AI 的请求都必须经过苹果自家的、经过严格审查的 App Intents 框架,这样苹果既能强制执行自己的隐私安全标准,又能保证用户体验的一致性。 还记得在之前的文章中,我们提到过 AI Key。这是一款定位于「AI 助手」的外接硬件,厂商宣传它可随插随拔,通过 iPhone 的 USB 接口连接后,能够帮助你动动嘴操作手机上的应用和功能,从消息、地图到拍照、社交软件,几乎覆盖常见任务。 虽然目的相似,都有机会让 AI 代替用户,直接操控手机的应用,但和 AI key 这种体验受限的硬件「外挂」相比,系统层面的调度机制才是真正可规模化,更务实、更长远的价值。 不过,苹果在 iOS 26.1 测试版里只是「埋下了」系统级 MCP 支持的代码,目前仍处于早期工程阶段,并未对外发布可调用接口,未来能否实现、何时实现,还要看后续测试版和官方文档的公开进度。 造不出最强的剑,那就打造最好的剑鞘 延伸到整体变化,苹果近年的开放姿态愈发明显。 哪怕是 Apple Intelligence,本质上也体现了这种转向。起了个大早,赶了个晚集,追赶 OpenAI 等厂商并非一朝一夕,苹果已不再执念于「全栈自研」,而是主动拥抱外部模型,为系统预留出灵活的接入入口。 这种转变在苹果内部也引发了不小的冲击。据彭博社报道,苹果 AI 团队内部曾就「自研 vs 合作」发生过激烈争论,但最终还是保留了更务实的平台化路线。这也与整个行业的走向不谋而合。 短期内,AI 可能出现巨头垄断红利,但长期必然走向分层竞争。 没有任何单一模型能在所有任务上都做到最好,开源的存在更让市场有了平替选项。于是,对平台型公司而言,最优解自然是通过集成不同供应商的模型来实现风险分散、成本优化和择优使用。 微软就是典型的案例。 过去它与 OpenAI 深度捆绑,但最近,微软把 Anthropic 的 Claude 模型也集成进 Microsoft 365 Copilot。表面看,这是因为双方裂痕加深,但更深层的原因在于微软内部测试发现,Claude 在某些场景下的表现确实优于 ChatGPT。 类似的逻辑,如今也映射到苹果身上。 继和 OpenAI 合作之后,今年也不断有风声传出,苹果已经把 Google Gemini 和 Anthropic Claude 同时列入下一代 Siri 与系统级 AI 的候选名单。 回望苹果的长期叙事,这条线索就更清晰了。 苹果在 2008 年推出 App Store 时也面临过类似的质疑——为什么要让第三方开发者「寄生」在 iOS 上?结果证明,平台模式释放出的创新活力远超苹果单打独斗。 再后来,无论是 CarPlay、HealthKit,还是今天的 MCP + App Intents,这也是苹果最为熟悉的平台治理逻辑:它来制定标准和规则,第三方在规则之内自由创新。 建立在 App Intents 之上的代理层平台,同样是这一逻辑的最新延续。 通过 MCP 协议,苹果能够把外部 AI 模型都转化成了供应商。而当这些供应商想触达苹果庞大且高价值的用户群体时,就必须遵守苹果的接口和安全标准。换句话说,苹果再次把自己放在了分发渠道和规则制定者的位置上——这也是苹果最擅长、也最舒服的角色。
理想 i6,就是汽车圈里的可口可乐
理想 i6 上市才两天,一份有些惊人的初期战报就在圈内流传开来:上市前超过 10 万用户关注,发布当晚大订破 2 万台,首批订单热度已经超过了当年 L9 的发布,高达 98% 的锁单转化率更是让同行侧目。 理想汽车 CEO 也亲自下场,给用户们提了一个略显凡尔赛的建议: 大家如果对 i6 感兴趣的话,我觉得第一可以放心购买,第二是要尽早买。 他表示,虽然理想汽车准备了「很多的产能」,但是仍然很难满足市场需求。据《21 世纪经济报道》,理想汽车常州工厂原先为 i6 预备的四季度产能在 4.5 万台-5 万台,但如今理想已经将这个目标提到了 6.8 万台,其中 11 月和 12 月的产能将达到 2.3 万台和 2.5 万台。 在经历了 MEGA 和 i8 上市初期的风波之后,理想终于在纯电领域打出了一张好牌。 让「牛马劳」车主也想买的,是什么车? 要理解理想 i6,我们得先从一款不存在的车——理想 i7 聊起。几天前,李想公开表示没有「理想 i7」这个车型,「请大家不要等了」。 实际上,理想最初的纯电规划里是有 i7 的。它对标 L7 的中大型五座纯电 SUV,是产品矩阵中顺理成章的一环。但最终,经过一次内部讨论,理想最终在 2024 年 9 月敲定:砍掉 i7、先发 i8、再上 i6。 这个决定,是理解 i6 所有产品定义的关键。 去年,在理想 MEGA 失利之后,理想汽车意识到他们需要用一款车,去打赢一场不容有失的仗,而这场仗的前提,就是绝对的「聚焦」——无论是研发资源、供应链的精力,还是市场的关注度,都必须集中于一点。这是理想从过去数次「多线作战」的发布会中,得到的宝贵经验。 i7 被取消的一个工程基础,是纯电平台带来了极高的「得房率」。理想发现,没有了发动机的束缚,他们可以在 i6 相对紧凑的身形里,实现原计划中 i7 的空间。 从尺寸来看,虽然 i6 的车身长度比老大哥 i8 短了 13.5 厘米,但决定核心乘坐空间的轴距,却只缩短了 5 厘米。显而易见的是,理想把节省下来的尺寸,大部分都用在了压缩传统燃油车冗长的前后悬上,把「公摊面积」还给了用户。 随后,在这个宽裕的空间基础上,理想将后驱、双腔空气悬架、冰箱、电吸门等一系列舒适性配置,作为标配放入了 i6。这让它在面对核心参照物特斯拉 Model Y 时,在家庭用户极为看重的空间和舒适性硬件上,建立了不小的优势。 当然,更关键的是 23.98 万元的价格——足足比 i8 便宜了 10 万元。 《可口可乐传》里有这么一句话: 贫民的孩子喝可口可乐,百万富翁喝可口可乐,白宫的总统也喝可口可乐。但是,没有人因为更有钱而喝到更好的可口可乐。 说可口可乐是「最民主的汽水」一点都不过分,而理想,可以说是汽车行业里「最民主的品牌」之一。 诚然,能买得起理想的肯定不能算是「贫民」,在传统的豪华品牌的世界里,金钱严格决定体验的好坏。一辆入门版 BBA 和一辆顶配 BBA,从动力到配置,几乎就是两款车。但在理想这里,核心的舒适与智能化体验是普惠的、近乎无差别的。 理想汽车如今品牌信任感就是这样来的,在许多人看来,i6 几乎就是一辆五座版的 i8,而非一个被处处掣肘的「阉割版」。 还记得去年理想 L6 刚刚上市的时候,一个家里停了「牛马劳」的朋友来和我说,她想买一辆 L6 来替换掉平日里用来代步的宾利添越,原因是理想 L6 尺寸更小,便于日常驾驶。 当我问及「为何是理想时」,她的回答是:「其实我也不懂,就是小区也有很多理想。」 这就是理想汽车最成功的地方,它通过聚焦「家庭舒适出行」这一用户场景,模糊了汽车的阶级属性。无论是大富豪、小老板,还是你我这种打工人,开着理想出现在任何场合都不会突兀,即便是处于理想产品线最底端的 i6。 如今的理想 i6 有点像过去的大众高尔夫,它的设计语言和品牌调性足够中性,能够融入各种生活场景,同时在实用性上做到优秀水平;它又有点像卡西欧经典的 F-91W,剥离了非必要的花哨功能和身份象征,回归到工具的本质,当然还有前面提到的可口可乐。这些产品都因其「回归本质」和「普适性」而获得了跨越圈层的认可。 所以,当一款车拥有了越级的空间和满配的诚意,又被赋予了一个极具吸引力的价格和一个「无差别体验」的品牌哲学时,它就很有可能会成为消费者心目中的那个「闭眼买」的安全选项。 这就是理想 i6 的核心吸引力。 「67Y」的新战场 这次发布理想 i6,理想并没有遵循当下行业内漫长的预热和「小订-大定」的转化流程,而是选择了直接上市。 当然,这种做法体现了理想对于产品的自信,但更深层的原因在于,理想的「品牌公式」已经足够清晰,以至于在发布会之前,外界对 i6 的形态、配置乃至体验都已经有了相当准确的预期,一场漫长的预售也因此失去了意义,还不如直接给出一个能把下巴震掉的价格——i6 确实也做到了这一点。 初期战报证明理想的做法是对的,对于 i6 来说,通过持续订单和快速交付来建立口碑是更加行之有效的方法。当一个品牌的形态和标签已经足够清晰时,竞争的重点就会从「这辆车有什么新功能」,转向「这套体验值多少钱」。 回顾前几年的新能源汽车市场,竞争的核心是参数和硬件的比拼。那是一个「军备竞赛」的时代,车企们热衷于讨论谁的续航率先突破 500 公里,谁的屏幕尺寸更大,谁的芯片算力更高,谁率先搭载了激光雷达。 这在当时是必要的,车企需要通过可量化的指标,在技术上建立用户的信任感,竞争的逻辑是一种「功能有没有」的加法博弈。 如今,主流品牌的硬件与技术逐渐趋同,消费者的关注点也随之变化。当高阶辅助驾驶、大尺寸屏幕、空气悬架都已不再是新鲜事物,大家开始更关心这些功能在日常使用中是否稳定好用,以及为这整套体验付出的价格是否合理。竞争的核心,也逐步演变为一套完整体验的「质价比」权衡。 理想 i8 在两个月前的上市遇冷,就是这个转变时期的一个典型案例。 i8 本身的产品力其实并不弱,但理想当时为了保住毛利,推出了配置复杂、且低配版核心体验缺失的多个版本,其价值主张是模糊的。市场负面反馈的根源,在于用户认为它的「质价比」不够清晰,不够有诚意。 如今的理想 i6 没有了理想 i8 的套路,遵循一个配置、一个价格、标配即顶配逻辑,直接提供了一个高度确定性的、直击痛点的产品组合。消费者不需要做复杂的选择题,只需要判断「这个套餐是否值 23.98 万」这道判断题。 这种模式对车企提出了新的要求。过去,强大的供应链采购能力或许是关键;现在,对用户的理解和产品定义的取舍能力,变得同等重要,甚至更为关键。 上市发布会结束后,李想还在继续直播带货。他不断强调:在首销期内买理想 i6 一定不会后悔。 「i6 是理想历史上毛利最低的产品,」李想还称,L6 是目前理想卖得最好的一款车,但理想 i6 在理想内部的订购量已经是 L6 的 12 倍以上。按照理想的目标,到今年年底,理想 i6 的月销量能够稳定在 9000-10000 辆,成为理想纯电产品线里的扛把子车型。 在一个领域里面,长期都会有一个「三强」的存在,在纯电的这个同价格级别(指五座纯电 SUV)的里面,小米 YU7 和 Model Y 是排前列的产品,我们想通过自己努力,用更大的空间和更好的综合表现,能够像奔驰宝马奥迪的「56E」一样,形成一个纯电里面的「67Y」。 有趣的是,和 BBA 的「34E」一样,「67Y」本质上也是三种不同价值取向的竞争。 特斯拉 Model Y 的立身之本,是全球验证的品牌、高效的三电系统、领先的智能驾驶以及强大的超充网络。它代表了一种科技、效率和全球化的价值。 小米 YU7 打动用户的,是出众的设计、小米生态的无缝连接、以及对年轻用户和粉丝文化的深刻理解。它代表了一种潮流、生态和人车家互联的价值。 而理想 i6 所提供的价值,则是同价位下,最大化的家庭空间、最完整的舒适配置和最「无差别」的体验。它代表了一种家庭、舒适和普惠的价值。 你看,拔尖的选手都能找到自己的价值,平庸的人才会陷入无尽的内卷。
Hinton预言错了!年薪狂飙52万美元,AI没有“干掉”放射科医生
【新智元导读】2016年,Hinton曾建议停止培训放射科医生,因为他们在未来五年中很可能被AI取代。如今已快九年,美国放射科医生不仅没有被AI取代,而且还以52万美元的平均年薪成为全美第二高薪的医疗专业,岗位数量也创下历史新高。 「我们现在就应该停止培训放射科医生了——再过五年,深度学习的表现就会比他们更强。」 2016年,在多伦多大学一场关于机器学习的会议上,「AI之父」Geoffrey Hinton如此预言道。 ,时长01:24 Hinton在多伦多大学Rotman商学院有关「机器学习」会议上的发言 随后,Frank Chen在X平台上转述了这一观点。 Hinton第一任妻子Rosalind在1994年因患卵巢癌去世,这促使他长期关注「AI+医疗」(尤其是癌症早筛与医学影像)领域。 然而九年即将过去,Hinton预言不仅未能成真,现实甚至朝着相反的方向发展: 2025年,美国放射科医生的数量再创新高,同时平均年薪较2015年增长48%,成为全美第二高薪的医疗专业。 特斯拉前AI部门总监、OpenAI创始团队成员Andrej Karpathy在X平台上转发一篇「AI不会取代放射科医生」的博文,指出Hinton预言落空的原因。 Hacker News中有一篇「对人类放射科医生的需求达到历史新高」热帖,一名放射科医生在下面留言: AI在读取诊断图像上可能比放射科医生做得更好,但它并不会因此取代放射科医生。 AI为什么替代不了放射科医生? 理论上,放射学应当是最容易被AI替代的职业之一。 因为它拥有数字化图像、明确的评估标准和可重复的任务。 这也是Hinton在2016年提出「应停止培养放射科医生」这一观点的重要背景。 也是在2016年以后,美国的AI医疗器械迎来了快速发展。 比如,2017年发布的CheXNet,仅需一块普通消费级GPU即可运行,可在一秒内完成对新影像的分类。 还有模型可以在多种影像中检测出上百种疾病,并在基准测试中展现出比人类更高的速度和准确率。 少数模型,甚至已获准在无人医生审阅图像的情况下独立工作。 放射科占据了FDA每年核准的AI医疗器械数量的绝大多数 从上图可以看出,在1995年—2015年这二十年间,几乎没有AI医疗器械获批。 2016年后增长明显加速。2024年,所有获批的AI医疗器械中,有78%属于放射科。 即便如此,放射科就业并未遭受到AI的强烈冲击,正好相反: 2025年美国放射学诊断住院医师项目提供了创纪录的1,208个名额,较2024年增长4%。 放射科医生以平均年薪52万美元成为全国第二高薪的医疗专业,比2015年增长了48%。 每年几乎所有放射科住院医师名额都能被申请者填满 从上图可以看出,从2013年—2025年的大多数年份里,未填补名额只占很小一条粉色带,说明放射科岗位几乎年年被填满。 背后原因主要有三个: 实际场景性能下降:模型在医院的真实环境中,很难复现在标准测试中的成绩。一旦脱离测试环境,性能往往急剧下降。 法律阻力:监管机构和医疗保险公司普遍不愿批准或支付完全自主运行的放射学AI。 作用有限:即使模型的诊断正确,但这只覆盖了放射科医生工作的很小一部分。还有大量的工作如与患者或同事交流、监督扫描过程、教学培训等无法覆盖。 AI只覆盖了放射科临床的冰山一角 大多数模型只能识别一个发现,且仅限于一种影像类型。 比如一个模型可能用于查看胸部CT,或被用于评估冠状动脉钙化评分。 这意味着每个问题都需要一个单独模型。医生一天的日常工作,也可能需要在几十个模型之间切换。 而且这些模型,往往来自不同厂商,彼此之间是相互独立的。 结果往往仍停留在逐点回答,难以形成对影像的整体性解读。 不仅如此,在目前FDA已批准数百种影像AI中,加在一起所覆盖的临床任务仍只是冰山一角。 它们大多集中在中风、乳腺癌和肺癌等少数几个场景上,其它专科如血管、头颈、脊柱和甲状腺影像则严重缺乏模型。 这主要仍是受制于数据问题。 许多AI在训练时使用的是极其有限的数据源,这导致它们在训练医院以外的场景使用时常常「水土不服」。 在这些场景中它们表现下滑幅度甚至可高达20个百分点。 此外,目前的放射学AI模型更适用于简单的病例,在面对真实世界中复杂、模糊的病例就显得十分吃力。 一位放射科医生曾表示:他们用的模型会把图像中出现的手术钉误判为出血,仅仅是因为金属的亮线被误认为是异常影像。 此类情况往往需要医生结合患者背景与临床信息作出综合判断。 此外,训练数据集中往往缺乏儿童、女性和少数族裔的病例,使得模型在这些群体中的表现更差。 两大挑战 监管门槛与保险限制 现实中,监管门槛和保险限制仍是两大障碍。 FDA将影像AI分为「辅助」和「自主」两种类别:辅助类必须由医生签字确认,而自主类则无需医生介入。 自主类AI对模型能力的要求极高:它们必须能够证明当图像模糊、扫描设备异常,或任务超出模型能力时,自己可以自动拒绝判断。 因为一旦人类退出流程,一个模型bug在没人监督的情况下可能连续误诊成千上万患者。 即便是目前最强的视觉神经网络,在低对比度、角度不规整或伪影干扰严重时仍容易出错。 以IDx-DR为例,它是少数获得批准的自主模型之一,但也对它的使用做出了严格限制,比如: 只可用于成人患者; 要求高质量图像、无糖尿病视网膜病变史; 一旦图像模糊或瞳孔过小,就要立即中止判断并转诊医生。 这些限制让模型的市场推广进度远远落后于技术进展。 此外,保险限制也是一个重要制约因素。 即使是监管获批,保险公司也并不愿为AI误诊买单,因此多数合同条款都明确注明只对持证医生签署报告提供赔偿。 Berkley甚至在政策中直接写明「完全排除 AI 风险」。 这意味着,美国医院想要全面采用AI独立诊断,必须证明其降本增效的结果足以抵消制度风险。 2024年调查显示,仅48%的放射科医生实际在工作中使用AI;2025年调查显示,只有19%的医院在试点AI项目时取得「明显成功」。 「杰文斯悖论」 AI越强,医生越忙 即使AI能做到完全独立阅片,但这并不会解放放射科医生,反而可能会让他们更忙。 经济学上有一个「杰文斯悖论」:效率提升后,使用量反而上升。即当任务变得更快、更便宜时,人们就会更多使用它。 比如当全身CT技术更快、更便宜时,关于扫描的需求也随之激增。同样,更强的AI,也将带来更多的扫描。 放射科医生的工作远不止「看片子」 在对加拿大温哥华几家医院的一项小样本研究中,统计了放射科医生在工作日的时间分配比例: 医生仅用36%的时间处理影像本身,更多时间用于监督检查过程、与临床医生和患者沟通、教学以及调整扫描方案。 这意味着,即使AI在影像解读上更高效,反而也可能为放射科医生带来更多工作,比如监督AI工作,或者将更多精力投入到影像解读之外的工作。 这也解释了为什么AI并没有令放射科医生失业,反而他们的人数和收入都在持续上涨。 现实中,仅靠更强的模型,无法完全覆盖现实医疗场景的需求以及社会监管要求,这使得AI在医疗行业的普及中,更多依赖「人机协同」模式,而非简单地替代人类。 好处是,放射科医生暂时不用太担心失业了。 但坏处是,他们可能要更忙了—— AI越强,医生越忙。
100%色域,亮度封顶,一文扒清TCL SQD-Mini LED的技术“护城河”
作者 | 王涵 编辑 | 漠影 最近《不眠日》这部国产悬疑黑马剧集很出圈,时间循环、爆炸案、警匪肉搏、高智商犯罪……这部剧几乎包含了悬疑爽剧的所有爆点。 然而,这类悬疑剧都有一个通病,就是太暗了。不光是悬疑剧,《哈利波特》《权力的游戏》《奥本海默》等国外影视剧集也有这个毛病,如下图: 《权力的游戏》剧情画面 我们在家观看这类电影或者剧集时,往往都需要拉上窗帘、关闭灯源,再把屏幕亮度调亮,不然屏幕就是一片黑,画面细节糊成一团。 一部分原因是,为了渲染悬疑、神秘、恐怖等氛围,导演会经常采用灯光昏暗或夜晚的造景,导致剧情画面的亮度非常低。 当然这不完全是导演的“锅”,显示器的色彩和亮度也在很大程度上影响了我们的观影感受。 前些天,TCL发布了新一代SQD-Mini LED电视“机皇”X11L,宣称采用了“全球最强Mini LED显示技术”,能完美地享受HDR和Dolby Vision片源的“极致亮度”,一片黑的画面也能看出剧情细节。 那SQD-Mini LED究竟是什么?与其他显示技术有什么不同?为什么说这是“全球最强Mini LED显示技术”?智东西一文带你深扒TCL SQD-Mini LED背后的技术细节。 一、全球最强Mini LED显示技术,SQD-Mini LED究竟强在哪? 在当前的市场中,有两种显示技术得到较为广泛地应用。 一是OLED,有机发光二极管。它无需背光源,每个像素能独立控制亮灭,因此拥有极高对比度,响应速度极快,画面无拖影,还可实现超薄和弯曲设计,多用于智能手机屏幕。 二就是Mini LED,微型发光二极管。该技术是液晶显示技术的升级,它将传统 LED 背光源灯珠缩小到米粒大小并密集排列,配合分区调光技术,可以实现高对比度。同时,其价格相对适中,使用寿命长。 RGB-Mini LED则是Mini LED的“升级版”。它采用红、绿、蓝三色Mini LED灯珠作为背光,直接混合出丰富色彩。这使得RGB-Mini LED色域更广,色彩纯度更高。 在其他厂商还在认为RGB-Mini LED是最新技术的时候,TCL已经将这一技术发展推向了新境界,推出SQD-Mini LED显示新技术。 SQD-Mini LED结合了RGB-Mini LED的高色域以及QD-Mini LED的稳定控光优势,将普通Mini LED背光分区升级为万象分区,可全域精准控光。 同时搭载TCL的超级量子点技术和晶粹高色阻屏幕,使用寿命比OLED更长,色彩表现更好、峰值亮度更高,还具备比RGB-Mini LED更稳定的100%全局高色域、更精准的控光和更极致的外观形态。 RGB-Mini LED电视的发光芯片实际是由三色发光芯片组成,也就是三颗灯放成一组才能发白光,而SQD-Mini LED电视一颗发光芯片就能发白光。因此同样成本下,同样1颗灯SQD-Mini LED电视的背光分区数量可以达到同尺寸RGBMini LED电视的3倍。 由于当前技术和成本上的限制,在同样的温度条件下,RGB三颗灯的发光效率都不如SQD-Mini LED电视的一颗灯。所以同样成本下,同样的灯数,SQD-Mini LED的峰值亮度也会比RGB-Mini LED电视高。 RGB-Mini LED电视在显示复杂多色画面时,需要混合成白光,就必须预留足够长的混光距离。而SQD-Mini LED技术不需要再混白光,因此也就不需要那么长的混光距离,同样架构下,SQD-Mini LED不需要长混光距离,机身也比RGB-Mini LED薄得多。 二、突破14年电视显色限制,TCL是怎么实现的? BT.2020是HDR内容制作的主要目标色彩空间,是覆盖的色彩范围最大的色域标准。BT.2020色域标准下,RGB-Mini LED电视普遍在97%,SQD-Mini LED将超级量子点技术与超级蝶翼华曜屏同步升级,得到了100%BT.2020全局高色域的高性能,远超RGB-Mini LED电视的色域值。 这是怎么实现的呢? RGB-Mini LED电视通常依赖RGB单色芯片发光来显示单色,属于分区级控色,在展示多色画面时,RGB-Mini LED需要RGB三色一起发光,混成白光,这样容易造成多色彩之间的干扰。 而SQD-Mini LED,单独一颗发光芯片就能发白光,其量子点层和屏幕色阻层都是超均匀混合的,属于像素级控色,不管显示单色还是多色画面,都由背光激发超级量子点发纯净三色光后混成白光,再由屏幕晶粹色阻过滤,进而使其发出的色彩更加纯净,不容易被干扰。 这也意味着,同样架构下,SQD-Mini LED不需要长混光距离,机身比RGB-Mini LED薄得多,X11厚度仅约2cm,成为世界最薄的Mini LED电视。 这里就需要两个非常重要的技术,即超级量子点和屏幕晶粹色阻。 X11L将其超级量子点材料升级为高浓度极彩量子晶体,其采用复合纳米金刚结构,拥有10万小时超长寿命,相比普通量子点及其他材料最多长6万小时寿命。 并且,其色彩优化技术可以智能识别图像内容并根据人眼对不同画面的敏感程度做精细化的画质调校,优化显示设备的色彩表现。围绕人眼对色彩的感知进行增强和肤色保护,让肤色更加真实。 超级蝶翼华曜屏使用TCL华星自主研发晶粹高色阻材料,使色阻层对背光层发出的光过滤更精准,红、绿、蓝三原色更纯净,屏幕本身色域提升,电视色域对比上一代提升33%。 超级量子点和与超级蝶翼华曜屏的光谱更匹配,两者相辅相成可以使色点精度提升69%,电视显色相对RGB三原色点更准确,它们之间的相互配合打破了14年电视显色限制,达到行业最高100%BT.2020全局高色域。 超级蝶翼华曜屏可以放大SQD-Mini LED的对比度优势,其采用了镜面低反屏技术,可以在有效减少反光的同时,保持画面对比度和通透性。 三、看HDR和Dolby Vision片源都不在话下,TCL把显示卷到了极致 背光分区是Mini LED电视的重要指标,背光分区数越多,意味着单个分区面积越小,控光可以更精准。但是,高参数对画质提升效果具有边际递减效应,背光分区数增加到一定程度时,对画质的提升效果微乎其微,因此,盲目追求高参数性价比不高。 并且,背光分区数量越多,单个分区面积越小,对底层技术要求更高。同样尺寸下,背光分区数量越多,单个分区面积越小,分区底层技术需要更精细。 而SQD-Mini LED通过对一整套系统级的Mini LED控光方案的升级,在从发光芯片到屏幕的电视成像全链路环节实现底层核心技术突破,使其背光分区达到了20000+级万象分区,最终实现一区顶多区的控光效果。 亮度方面,HDR片源和Dolby Vision片源拥有当前最高的亮度标准,即10000 nits,只有输入和输出数据匹配才能准确还原影片,因此满足片源格式亮度要求才能1:1还原片源亮度信息。 峰值亮度越高,电视对片源亮度信息还原越多,对真实场景的还原能力就越好,能看到更多亮暗细节、色彩表现更加真实,画面更加通透,而X11L的绚彩XDR 10000 nits就做到了这一点。 亮度是Mini LED电视的重要指标,普通峰值亮度持续时间很短,屏幕高光显示后可能快速暗下,无法完整还原高亮场景。拥有超动态控光技术的绚彩XDR,峰值亮度持续时间远大于普通峰值亮度,即使高亮画面移动也能始终保持。 绚彩XDR还能够做到高亮画面不褪色泛白,其采用金奖专利亮度控制技术,针对不同画面亮度选择适合的调光方式,更加智能高效。 结语:十余年技术沉淀,九代产品创新,TCL成为显示行业的“一代宗师” TCL是量子点技术的先行者,2014年推出TCL第一台量子点电视,历经10年产品更迭;TCL量子点专利数全球第二,总专利数达2485件,这为其打造像SQD-Mini LED这样的“全球最强”技术奠定了坚实基础。 回顾显示技术的发展长河,从LED到Mini LED,每一次技术跃迁背后都是各大厂商对极致显示的不懈追求。TCL凭借深厚的科技积淀,完成了一次又一次自我超越。 SQD-Mini LED所实现的100%BT.2020广色域、20000+级万象分区控光以及绚彩XDR 10000nits峰值亮度,不仅是对现有Mini LED的进一步升级,更是为未来超高清内容设立了新的显示标杆。
“一根线连所有”成真,GPMI让电视大屏加速进化到下个世代
作者 | 云鹏 编辑 | 漠影 你有多久没看电视了?一天、一周,还是几个月? 电视对于今天的消费者来说,究竟在家庭中扮演了怎样一个角色? 在AI浪潮席卷各行各业、智能硬件产品无一不开启深层变革的今天,大屏设备如何找准自己在这一新时代的定位,发掘新的价值,对于这一行业的发展至关重要。 目前电视行业激烈内卷、价格战愈演愈烈,虽然销量在政策刺激下仍能保持平稳增长,但长期来看仍然存在不小压力。 在AI技术的带动下,AI手机、AI PC等产品均价都在上涨,产品高端化趋势明显,相比之下,电视均价却在下跌。我们看到,内卷激烈并没有带来真正的价值增量,没有精准命中消费者核心诉求、实现实质性的场景突破和生态的拓展。 在寻找突破口的过程中,电视与移动端生态内容打通已经成为当下行业重要的突破方向之一。 市场调研表明,消费者在电视上希望更好地体验移动端生态内容的意愿越来越强烈,逐渐占据主导。我们希望随时随地、便捷地在大屏上体验手机、游戏机上的高质量视频、游戏内容。 但与此同时,电视厂商近年的升级多聚焦于音画质的提升,从Mini LED、OLED到最新的RGB Mini LED,显示技术加速迭代。厂商所擅长的与消费者日益增长的内容需求之间出现了明显的鸿沟。 解决这一问题,仅凭电视厂商很难实现实质性突破,行业迫切需要一种新的技术解决方案。在这样的产业背景下,GPMI这一关键技术标准的出现,无疑给电视行业带来了一次前所未有的新机遇,“一根线连所有”的时代已然到来。 近期长虹正式发布了星闪电视2.0,从设备互联到内容生态层面的打通,星闪和GPMI技术都给用户端侧体验带来了颠覆性升级。 星闪电视2.0 我们看到,电视并非失去存在价值,而是需要在今天的智能硬件万物智联的时代找到自己新的定位,与移动设备形成互联的新生态系统,找到真正的价值增长点,进而激活新的市场空间。 一、七个关键技术优势,打破行业瓶颈,给移动内容生态破壁铺路 要弥合产品和消费者需求之间的鸿沟,最根本的支撑仍然是技术创新,移动端内容生态和电视的协同打通,需要克服大量技术挑战。 当前,音视频内容质量和分辨率越来越高,数据传输带宽需求急剧增加,传统HDMI、DP、USB等接口逐渐遇到数据传输瓶颈;连接方面,随着设备功能越来越多,设备往往需要多根线缆连接,用户使用有一定门槛,体验并不便捷,并且各类音视频设备本身还存在接口标准不统一、兼容性不佳等问题。 与此同时,随着今天各类移动设备功耗越来越高,在连接大屏的过程中如何解决充电问题也成为一大痛点。 一系列挑战,都直指通信传输技术的升级,GPMI成为突破这些瓶颈的关键技术路线之一。 来源:《超高清音视频接口技术洞察白皮书》 在传输能力方面,GPMI最高支持192Gbps的数据传输速率,这一能力已经大幅超过了HDMI最新标准的规格,可以真正支持8K超高清内容的无损显示。 在高速率的同时,GPMI还支持反向供电,能最高提供480W的充电功率,已经可以满足绝大多数高规格移动设备的供电需求。不光能充电,GMPI还支持双向控制和双向传输,视频流、数据流可以同时传输,大屏刷手机成为现实。 在用户连接体验方面,GPMI只需要“一根线”就可以搞定信号、供电、音视频等多信号的传输,可以说大幅简化了连接线缆的复杂度,并且GPMI直接兼容各类USB接口标准,极大扩展了技术的使用场景,也降低了厂商升级成本。 此外,GPMI还可以将设备的唤醒时间缩短四分之一,支持ADCP内容保护协议,安全性拉满。 GPMI技术的上述这七个核心特性,可以说大幅突破了传统技术的局限,给音视频设备的发展打牢了通信传输技术基础。给电视大屏更好地接入移动内容生态,实现设备间更高效的协同打好了基础。 二、六大场景体验革新,从消费者到电视厂商,GPMI加速落地“太香了” GPMI技术的诸多优势特性并非空中楼阁,而是已经实现了在电视侧的落地应用,在长虹星闪电视2.0的诸多优势场景中,我们看到了GPMI技术给行业带来的价值。 整体来看,在GPMI与星闪技术的加持下,电视重新成为了“1(游戏)+N”的家庭数智娱乐解决方案围绕的核心设备。 首先,星闪技术的应用让电视与各类外设的连接和交互体验有了“质变”。 比如星闪指向遥控可以直接实现隔空触控和精准定向,我们不再需要传统遥控器进行繁琐操作,点赞、跳选、滑动,可以说手机怎么玩,电视我们就可以怎么玩,这无疑是电视大屏交互方面的一次重要创新。 并且星闪指向遥控的连接距离最远达到了10米,操控时延也降低至传统方案的1/30,抗信号干扰能力、连接稳定性都有比较明显的提升。 在外设连接体验升级之上,GPMI技术在各个具体场景落地带来的实际游戏、影音、办公、健身、教育体验都有可圈可点的表现,令人印象深刻。 在游戏方面,GPMI打破了移动小屏设备与电视的游戏内容壁垒。不论是手机、游戏笔记本电脑还是Switch等各类游戏掌机,都可以实现一根线一连即投,一根Type-C线就能实现音视频传输与供电,不需要额外的电源线,可以说彻底告别了续航焦虑这一核心痛点。 此外,电视能通过GPMI反向控制手机,在玩游戏的同时还能及时回复消息,电视直接变成了“大号手机”。外出时,不论是旅游还是出差,我们都可以只带一根线就能让手中的移动设备跟电视大屏连接,随时随地沉浸大屏游戏。 其实这种能力也可以延展到酒店领域,GPMI可以大幅提升用户差旅住宿体验,进而帮商家吸引更多目标受众。 在影音方面,GPMI可以实现有线稳定超清传屏+大屏观影的体验。 在传统无线投屏之下,投屏分辨率最高仅有1080P,完全无法发挥电视大屏的高清显示效果,并且大多还需要付费。相比之下,手机、笔记本、平板、主机等设备基于GPMI进行有线投屏,可以实现4K 60Hz/120Hz超清影音传输,直接让画质体验上了一个大台阶。 在清晰的同时,GPMI可以保证有线连接的稳定性更好,延迟更低,减少打断,提升我们影音体验的沉浸感。 不光是大屏观影,我们还可以直接用电视大屏刷短视频,相比小屏更清晰不费眼,同时GPMI的连接更简便,父母长辈也能操作完成。 在办公场景中,用户往往对内容质量要求高,超清影音传输能力同样成为基础保障,提升我们的办公体验。与此同时,办公对稳定性和续航都有比较强的需求,GPMI都可以很好的解决。 在运动健身领域,基于GPMI实现的大屏高清跟练可以提升我们的健身体验,打通手机等移动设备则可以解决电视没有摄像头、无体感功能等短板,与此同时,我们不再需要登录多设备,直接投屏的体验更好更一致。 在学习教育场景中,更高清的显示效果可以让大屏更远距离使用,孩子学习更不容易视觉疲劳,同时坐姿也可以更端正,对孩子健康有益。反向充电可以解决移动设备、学习机等设备的续航问题,学习的过程可以更专注。 从诸多实际落地场景中,我们可以看到GPMI给电视厂商和消费者都带来了诸多价值。 对于电视厂商们来说,GPMI技术就像催化剂和粘合剂。其极高的集成度,让产品设计可以更自由,利于厂商产品形态的创新,兼顾低时延的真8K无损传输则给厂商打造真正顶级的音视频产品消除了连接技术的瓶颈。 出色的兼容性可以让GPMI技术广泛适配各类设备,不需要增加厂商的适配成本,进而打通不同品牌壁垒、设备壁垒,加速GPMI生态的完善。更高的安全性与当下用户注重数据隐私安全的趋势相一致。 对于消费者来说,GPMI技术的价值同样凸显。我们只需要一根线就可以把手机内容无损秒变到大屏上进行体验,享受各类音视频内容都可以更沉浸、更专注。操作方式上的极大简化,提升了技术落地在用户侧的便捷性,真正消除了消费者的使用门槛、加速技术的市场普及。 可以看到,GPMI的诸多独特技术优势,给电视在用户侧的体验带来了质变,并填补了诸多功能和能力上的空白。同时,GPMI给电视厂商带来了产品设计底层逻辑上的改变,让厂商有更大的创新释放空间。 结语:从技术到生态,GPMI给行业带来巨大新机遇 GPMI作为端侧设备通信连接技术领域的重要突破,可以说是同类创新技术中落地进展最快、生态成长最好的代表,而随着GPMI生态的茁壮成长,其带给行业的巨大价值,正有望将音视频产业的发展带到一个新的阶段。 如今GPMI产业应用落地加速,更快走向市场,生态联盟加速壮大。目前,GPMI技术已在智能电视、智能机顶盒、大小屏生态互联等领域应用落地,GPMI构建了覆盖产业链上下游的关键合作伙伴“朋友圈”,形成了一个完整且有机的产业生态系统,有50多家核心产业伙伴正在共同推动技术创新和标准化进程。 今天,GPMI已经成为弥合电视厂商能力与消费者需求之间鸿沟的技术桥梁,随着GPMI技术的不断成熟和应用推广,越来越多的厂商都在加入新的生态联盟中,GPMI所带来的巨大新商业价值空间,亟待新玩家们的加入和探索。
5999元起遭疯抢!雷军:小米17 Pro Max很多门店已经缺货
快科技9月28日消息,尽管发布前因为“改名”风波引发争议,但昨日小米17系列首销打破多项销售记录,用销量打破了质疑。 今日,雷军发微博表示:“很多门店小米17 Pro Max已经缺货,推荐大家试试小米17 Pro,小尺寸科技影像旗舰,电量也高达6300mAh,手感也非常不错 。” 9月27日上午10点,小米17全系开售5分钟,刷新2025年国产手机全价位段新机系列,首销全天销量、销额纪录。 其中,小米 17 Pro Max单款机型也打破了今年国产手机全价位段首销全天销量、销售额纪录,在小米17系列中销量占比超过50%。 随后,卢伟冰表示,已经安排小米17 Pro Max快速提拉生产。“Pro Max这一杯第一次推出,用户需求的确远超原来预期,低估了”,他说。 小米17系列手机全系标配了第五代骁龙8至尊版处理器,性能表现基本一致,最主要差别在于尺寸、屏幕、影像与续航配置。 其中,小米17:适合喜欢小尺寸、在意手感的用户。 小米17 Pro:适合喜欢小尺寸、背屏,在意旗舰体验的用户。 小米17 Pro Max:适合喜欢大尺寸、背屏,想要更极致科技体验的用户。 具体选购建议可参考:《4499元起!小米17/Pro/Pro Max全方位对比 购买建议来了》 小米17 12+256GB:4499元 12+512GB:4799元 16+512GB:4999元 小米17 Pro 12GB+256GB:4999元 12GB+512GB:5299元 16GB+512GB:5599元 16GB+1TB:5999元 小米17 Pro Max 12GB+512GB:5999元 16GB+512GB:6299元 16GB+1TB:6999元
“登陆”日本!小米SU7 Ultra亮相东京 官宣有意引入本土销售
快科技9月28日消息,日前,小米在日本东京秋叶原举办发布会,首次向当地市场展示了旗下超高端纯电车型SU7 Ultra,正式释放进军日本汽车市场的信号。 发布会上,小米科技日本株式会社副社长郑彦明确了本土化落地策略:将沿用中国市场的成熟经验,在智能手机门店同步销售电动汽车,通过现有零售网络实现“一站式智能生活体验”的场景延伸。 尽管尚未公布具体上市时间表,但郑彦透露小米正与日本本地合作伙伴紧密协作,为产品入市铺路。结合当前产品矩阵来看,小米旗下 SU7、YU7 两款车型在国内仍处于“爆单”状态。 因此,此次SU7 Ultra的亮相被普遍解读为“试水先锋”,业内推测其或将成为首款登陆日本的小米车型,SU7与 YU7后续有望择机跟进。 除汽车业务外,小米的日本扩张计划已覆盖全品类智能生态。郑彦表示,品牌正评估将空调等大型家用电器引入日本直营店,复刻国内小米之家的“全场景产品矩阵”模式。 目前,小米在日本的零售网络已初具规模:今年3月22日在埼玉市开设首家直营店,店内涵盖智能手机、智能家居等160余种产品,截至目前埼玉县内门店数量已增至2家。 按照规划,年内将在千叶市等首都圈新增3家门店,2025年进一步拓展至大阪、名古屋等核心城市,目标实现5-10家小米之家的布局,最终逐步完成全国覆盖。 此次日本布局是小米全球战略的重要一环。集团总裁卢伟冰此前已披露双重扩张目标:未来五年在全球开设1万家小米之家,同时小米汽车计划于2027年正式进入欧洲市场。
“鸡排哥”的走红名场面,腾讯混元图像都整明白了
作者|江宇 编辑|漠影 智东西9月28日报道,腾讯今日正式开源其全新一代原生多模态图像生成模型“HunyuanImage 3.0”。 该模型参数规模达80B,是当前业界参数最大、能力最强的开源生图模型之一,具备复杂语义理解、文字生成与世界知识推理等能力,其效果对标业界头部闭源模型。 作为首个工业级原生多模态开源模型,它能够基于长文本指令完成结构明确、语义复杂的图像生成,在构图、排版、美学风格等方面也展现出拟人化的判断力。 模型体验入口(需要通过电脑端访问): https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289 腾讯混元官网: https://hunyuan.tencent.com/image Github: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0 Hugging Face: https://huggingface.co/tencent/HunyuanImage-3.0 一、体验:做出“鸡排哥”的金句海报,配色神似老干妈 最近在社交平台上,来自江西景德镇的“鸡排哥”李俊永突然走红。这次智东西拿到了HunyuanImage 3.0模型的体验权限,试着让它完整复刻这位“鸡排主理人”的一天。 1、四点半前不要排队?告示得贴出来 李俊永有个规矩,四点半前不接散客,只卖学生。我们第一步输入指令,希望模型生成一个“还没正式开摊”的告示: Prompt:“需要一张贴在简陋小吃推车上的告示牌,上方有一个卡通鸡排摊主头像,黑色头发,手里拿着鸡排。牌子中间用黄色中文写着:四点半后不接散客、学生便宜1元、请提前打开塑料袋” 生成效果:模型成功还原出“简陋小吃推车”的现实质感,摊位与海报的细节处理得很自然,海报的边边角角也超具真实感,关键的是海报上的中文标语清晰完整,没有出现乱码。 比起“能画”,这一步主要验证它能不能把“世界知识+规定文字”都反映出来,这组小测试通过。 2、学生放学排长队,“袋子文学”上线 四点半一过,学生下课,鸡排哥正式开麦:“请打开你的袋子,我需要的是速度。”于是我们给模型出题,模拟高峰期摊位和金句喊麦。 Prompt:“一个简陋小吃推车正值高峰时段,排满穿校服的学生,摊主(黑色头发、白色上衣、身型较瘦)动作麻利,一边炸鸡排喊话说‘请打开你的袋子’” 生成效果:这一幕的还原度相当高——学生身上校服没错、摊主在操作油锅、甚至人物张嘴讲话的动态都能看出是喊话的语气,有几张图颇有“鸡排哥”的神韵。可见,该模型支持复杂语义下的场景推理。 3、鸡排海报也讲人设?来点主理人式金句 既然摊主走红的原因之一是“嘴上有货”,那我们就搞一张“鸡排哥语录海报”。 Prompt:“一个竖版简陋小吃推车的海报,背景是炸鸡排特写,中央是鸡排主理人头像(黑色头发、白色上衣、身型较瘦),底部大字写着‘吃饱了还想吃?对自己好点,再好一点点’,整体风格红黄为主,像街头招贴” 生成效果:模型的文字排版能力很惊艳,字体、布局、配色都高度贴近现实街头风,还沿用了“老干妈”的海报风格。 4、“鸡排世家”营业中 现实中,鸡排摊后来成了“鸡排世家”,老板本人负责主炸,“鸡排嫂”、“鸡排奶”、“鸡排舅”都来帮忙。我们来还原这场“鸡排总动员”: Prompt:“一个热闹的简陋小吃推车前,四位家人正在分工合作,摊主(黑色头发、白色上衣、身型较瘦)炸鸡排,妻子协助制作鸡排,母亲负责给鸡排裹粉,小舅子腌制鸡排,有很多客人边拿着手机边等待” 生成效果:模型准确生成了多角色主体,服装风格统一,动作自然。该模型基于语义理解进行场景还原和排布的能力,还是很在线的。 5、6元鸡排能吃出600元服务?图也能整出来 鸡排哥有句名言:“6元鸡排吃出了60元的情绪价值和600元的服务体验。”我们就用它做最后两版“广告图”,一个重情景,而另一个重产品。 Prompt 1:“一位顾客坐在长椅上吃鸡排,表情满足,背景是夜色摊位灯光,画面中间用金色手写字写着:‘6元鸡排,600元体验’,整体氛围像品牌广告大片” Prompt 2:“鸡排广告,手写广告语:‘6元鸡排,600元体验’,整体氛围像奢侈品广告大片,奢华有格调” 生成效果:这一步体现了HunyuanImage 3.0的“构图、情绪、文字”三项能力:画面情绪把握得准、手写字体无乱码、整体构图自然。 6、鸡排哥的“梗图宇宙”,出图啦! 在完成“语录海报”和“品牌广告”之后,我们进一步测试模型是否能搞定鸡排哥在网络上流传的梗图? Prompt 1:创作一张职场梗图表情包,画面核心是一位忙碌的鸡排摊主(黑色头发、白色上衣、身型偏瘦,动作麻利,在小吃摊前烹饪),周围环绕着标注身份的人群:‘同事’‘客户’‘大领导’‘小领导’‘其他部门同事’,上方配黄色大字文案:‘当距离下班还有2小时,突然有一大堆工作找上门,而你只想准时下班’,中间标注‘我:’指向忙碌的摊主。整体风格为现实场景与文字标注结合的搞笑梗图,色彩贴近真实街景,人物动作突出忙碌感,文字排版清晰醒目,营造职场忙碌又无奈的情绪。 我们将指令稍加改动,就能让主体变成海绵宝宝,整体画风也毫无违和。 同样,鸡排哥上班的“炸场图”也能搞定。 Prompt 2:创作一张街头梗图表情包,画面核心是一位骑浅蓝色三轮电动车的摊主,头戴灰色头盔,身穿白色T恤,车上载着‘回头客 鸡柳鸡排’的红色招牌(带‘智造美味 成就经典’黄色标语和美食图片)。周围有举着手机拍摄的人群,背景有红色遮阳伞、写着‘衢州鸭头’的招牌和绿树。整体风格为写实街景与市井氛围结合的搞笑梗图,突出摊位的复古感和人群的围观互动感,色彩鲜艳充满烟火气,营造出网红小吃摊的热闹场景。 生成效果:在这一组体验中,模型不仅能准确生成主体文字,还能在背景和多主体场景中保持长文本渲染的完整性与一致性。 HunyuanImage 3.0在这个“鸡排哥的复刻挑战”里,成功完成了多个维度的能力验证: 1、对现实人物设定和社会场景的知识推理力 2、对图中文字生成能力 3、对复杂语义的理解能力 4、美学控制力 下次如果鸡排主理人考虑拓展品牌,或许真可以考虑这位“AI美工助理”了。 二、不是拼凑,而是“一个模型”在理解和生成 HunyuanImage 3.0是业内首个开源的工业级原生多模态图像模型。与传统通过“语言模型+图像模型”拼接实现图文理解不同,它采用统一的架构来处理文字、图像等多模态输入输出,生成过程由一个模型内部完成。 这使得模型具备了类人“认知式”图像构建能力。以“鸡排哥”体验中的例子来看,用户无需分步骤拆解每个细节,模型即可根据整段语义自动推理出“谁在做什么、什么时候做、要传达什么”。比如在“摊主喊话学生打开袋子”的画面中,模型不仅还原了人物动作,还捕捉到“喊话”的嘴型与“高峰时段”的摊位人流,体现出模型在处理“时间、身份、行为”三重语义时的统一理解能力。 这背后依赖的是腾讯团队自研的Hunyuan-A13B基座模型,联合50亿图文对、视频帧、图文交织内容与6T语料进行混合训练,协同优化语义理解、知识调用、视觉生成等能力。 在实测中,HunyuanImage 3.0表现出两个重要能力的结合:一是图中文字的准确生成,二是整体画面的美学质感。 针对“鸡排哥语录”与“6元鸡排,600元体验”等视觉海报类内容,模型不仅生成了排版合理、无乱码的中文大字,文字与画面主题也能高度贴合,都呈现出一定的“设计意识”,而非单纯的图文叠加。 这说明HunyuanImage 3.0不仅能“读懂”文字内容,还能“设计”如何呈现文字。这类图文融合能力,使其在广告、电商、宣传海报等垂类应用中具备直接可用性。 结语:AI生图,不只是“能画”那么简单 从“还没开摊的鸡排车”到“600元情绪价值的广告大片”,HunyuanImage 3.0在一次真实的鸡排哥复刻挑战中,展现出对复杂语义、社会场景、视觉美学一定的把控力。 对于需要快速生成商业海报、场景图、情绪表达图的用户而言,HunyuanImage 3.0可以是一个稳得住的创作助手;而对希望深度定制视觉风格的开发者来说,作为开源模型,它也具备进一步微调与衍生开发的空间。
自动驾驶的流派纷争史
自动驾驶的商业化落地正在全球范围内加速推进。 截至2025年5月,Waymo在美国旧金山、洛杉矶、凤凰城和奥斯汀运营的自动驾驶出租车达到1500辆,每周完成超过25万次付费出行服务;百度Apollo已在全球部署超1000辆无人驾驶汽车,累计提供超1100万次出行服务,安全行驶里程超过1.7亿公里。 大规模落地仿佛意味着技术已经成熟,其实不然,关于自动驾驶,还有很多尚未达成共识的流派分歧。 比如,传感器方案,纯视觉和多传感器融合方案该如何抉择?系统架构上,采用模块化设计,还是拥抱新兴的端到端架构?更进一步,关于如何理解世界,VLA和VLM孰优孰劣? 这些悬而未决的争议,正引领着自动驾驶驶向尚未完全确定的未来。而理解这些不尽相同的技术路线,就是理解自动驾驶从哪里来、到哪里去,如何实现技术的自我进化。 眼睛之争 纯视觉vs多传感器融合 一切始于“看见”。汽车如何感知世界,是自动驾驶的基石。在这个问题上存在着对峙已久的两大阵营,且双方至今未休。 故事最早可以追溯到2004年美国莫哈韦沙漠的一场挑战赛。 那时,美国国防高级研究计划局设立了200万美元的奖金,吸引数十支顶尖高校和科研机构参与,试图解答“如何让车辆感知周围环境?”的问题。 卡内基梅隆大学和斯坦福大学等团队选择的激光雷达胜出。这项能生成精确3D点云图的技术奠定了早期自动驾驶发展路线,被谷歌旗下的Waymo继承和发展。 然而,这一派有个致命软肋:成本。一套激光雷达系统造价高达7.5万美元,比车还贵,注定只能走小规模精英路线,难以大规模商业化。 十年后,特斯拉代表的视觉派走出了另一条路。 他们主张大道至简:“人类靠一双眼睛和一个大脑就能开车,机器为何不能?” 2014年,特斯拉推出Autopilot系统,采用Mobileye的视觉方案,选择了以摄像头为主的视觉方案。2016年,埃隆·马斯克公开表示“激光雷达是徒劳的”,正式确立了纯视觉技术路线。 团队通过8个环绕摄像头模拟人类视野,依靠深度学习算法从二维图像中重建三维环境。纯视觉方案成本极低,能够大规模商业化。而通过卖出更多车,收集更多海量真实世界数据,形成一个“数据飞轮”,反哺算法迭代,越用越强。 但摄像头是“被动”传感器,严重依赖环境光。在逆光、眩光、黑夜、大雨、大雾等情况下,性能会显著下降,远远比不上激光雷达。 以激光雷达为主的多传感器融合方案认为,机器的智能在可见的未来都无法完全媲美人类基于经验的常识和直觉,恶劣天气下必须通过激光雷达等硬件冗余来弥补软件的不足。 可以说,纯视觉将所有压力都集中在算法上,赌的是智能化的未来;多传感器融合更注重工程落地,选的是经过验证的现实方案。 目前,主流车企(Waymo、小鹏、蔚来等)都站在多传感器融合的阵营。他们认为安全是自动驾驶不可逾越的红线,而冗余是保障安全的唯一途径。 值得注意的是,两条路线并非完全泾渭分明,而是在相互学习和融合:纯视觉方案也在引入更多的传感器;多传感器融合方案中,视觉算法的地位也越来越高,成为理解场景语义的关键。 触觉之争 激光雷达vs 4D毫米波雷达 即使在多传感器融合派内部,也藏着一个选择题: 毫米波雷达成本仅数百元,激光雷达早期要数万美元,为什么还要花大价钱装激光雷达? 激光雷达(LiDAR)通过发射激光束并测量其返回时间,可以构建出周围环境极其精细的3D点云图像,解决了当时其他传感器无法解决的、致命的“Corner Case”(极端案例)。 它的角分辨率极高,能够清晰分辨行人的姿态、车辆的轮廓,甚至路面上的微小障碍物。L4/L5级别的商业自动驾驶领域,没有其他传感器能同时满足“高精度”和“测静态物体”这两个要求,为了实现最基本的自动驾驶功能和安全冗余,激光雷达的成本是车企必须付出的门票。 那么激光雷达既然已经这么强了,为什么还要研发其他传感器呢? 激光雷达性能极高,但也有其局限。激光属于红外光,波长很短。雨滴、雾滴、雪花、烟尘等颗粒的大小与激光波长接近,会导致激光发生散射和吸收,产生大量“噪声”点云。 而4D毫米波雷达能全天候工作,在恶劣天气下能利用其强大的穿透能力,率先发现前方障碍物并提供距离和速度数据。不过,毫米波雷达回波点非常稀疏,只能形成少量点云,无法像激光雷达那样勾勒出物体的轮廓和形状,还可能因为电子干扰产生“幽灵识别”。低分辨率让它注定无法成为主传感器,只能作为辅助上车。 所以,激光雷达和毫米波雷达各有优劣。二者不是替代关系,而是“常规场景靠毫米波控成本,复杂场景靠激光雷达保安全”的互补逻辑,不同的车型有不同配置。 L4 Robotaxi、豪华车通常采用“激光雷达为主,毫米波雷达为辅”的策略。不计成本地堆砌传感器,追求极致的安全和性能上限;L2+、L3量产经济车主要依赖“摄像头+毫米波雷达”,在车顶关键位置使用1~2颗激光雷达,形成高性价比的方案。 车企围绕传感器的选择争议,本质是一场关于“如何用最低成本实现最高安全”的技术探索和商业博弈。未来,各种传感器还将进一步融合,形成多样化的搭配方案。 大脑之争 端到端vs 模块化 如果说传感器是眼睛,那么算法就是大脑。 很长一段时间里,自动驾驶系统都采用模块化设计,整个驾驶任务被拆解为感知、预测、规划、控制等独立的子任务。每个模块各司其职,有独立的算法和优化目标,像一条分工明确的流水线。 模块化的优点是可解释强、开发并行、易于调试。但局部最优不等于全局最优,分而治之的模式也存在致命缺陷。每个模块在处理和传递信息时,都会进行一定程度的简化和抽象,导致原始的丰富信息在层层传递中丢失,整体表现难以达到最优。 2022—2023年,以特斯拉FSD V12为代表的“端到端”模型横空出世,颠覆了传统范式。这种方案的灵感来自人类的学习方式:新手司机不是先学习光学原理再研究交通规则,而是通过观察教练的操作直接学习驾驶。 端到端模型不再进行人为的模块划分,而是通过学习海量的人类驾驶数据,构建一个庞大的神经网络,直接将传感器输入的原始数据映射到方向盘转角、油门刹车等终端驾驶控制指令。 与模块化算法不同,端到端模型全过程没有信息损失、性能上限高,开发流程能进一步简化,但也存在着难以溯源问题点的黑箱难题。一旦发生事故,系统是难以判断哪个步骤出了错、后续应该怎样优化? 端到端的出现让自动驾驶从规则驱动迈向了数据驱动。然而,它的“黑箱”特质让许多更重视安全的车企望而却步,海量训练数据也只有拥有大规模车队的公司才能支撑。 因此,行业内出现了折中的“显式端到端”方案,即在端到端模型中保留可行驶区域、目标轨迹等中间输出,试图在性能与可解释性之间找到平衡。 “灵魂”之争 VLM vs VLA 随着AI发展,新的战场在大模型内部开辟。这关乎自动驾驶的灵魂,它应该是辅助驾驶的思考者(VLM),还是执行者(VLA)? VLM视觉语言模型信奉协同,更追求过程可控,也被称为增强派。该路线认为AI大模型虽然强大,但幻觉在安全领域是致命的,应该让它做自己最擅长的事(理解、解释、推理),而把最终决策权交给经过数十年验证的、可预测、可调试的传统自动驾驶模块。 VLA视觉语言动作模型信奉涌现,追求结果最优,被称为端到端的终极形态。该流派主张只要模型足够大、数据足够多,AI就能自己从零开始学会驾驶的一切细节和规则,最终其驾驶能力会超越人类和基于规则的系统。 围绕VLM与VLA的争议就像模块化和端到端方案辩论的延续。 VLA存在着难以溯源的黑箱困境。如果一辆VLA车发生了一次急刹车,工程师几乎无法追溯原因。是因为它把阴影误判为坑洞?还是它学到了某个人类司机的不良习惯?无法调试、无法验证,这与汽车行业严格的功能安全标准是根本性冲突的。 而VLM系统整个过程可分解、可分析、可优化。如果遇到问题,工程师可以清晰地看到:传统感知模块看到了一个物体、VLM将其识别为“一个被风吹走的塑料袋”、规划模块因此决定“无需紧急刹车,轻微减速即可”。出了事故,责任清晰界定。 除了可解释性上的两极分化,训练成本也是车企犹疑不决的原因之一。 VLA需要海量的“视频-控制信号”配对数据,即输入一段8摄像头视频,输出同步的方向盘、油门、刹车信号。这种数据极其稀缺且制作成本高昂。 VLM本质是多模态大模型,可以利用互联网规模的、丰富的“图像-文本”配对数据进行预训练,再用驾驶相关的数据微调。数据来源更广,成本相对更低。 目前来看,VLM技术相对成熟,更容易落地,大部分主流车企和自动驾驶公司(包括Waymo、Cruise、华为、小鹏等)都走在 VLM路线上。而VLA路线的探索者则以特斯拉、吉利和理想为代表。据悉,吉利千里科技的千里浩瀚H9方案就采用了VLA大模型,具备更强的推理与决策能力,支持L3级智能驾驶解决方案。 回顾自动驾驶的流派之争,我们发现这些技术争论从未以一方完全胜出告终,而是在碰撞中相互融合,走向更高层次的统一。激光雷达与视觉正在融合为多模态感知系统;模块化架构开始吸收端到端的优势;大模型正在为所有系统注入认知智能。 而那些曾让行业困惑的谜题,看起来似乎没有标准答案,但最终都会成为技术迭代的注脚,推动自动驾驶继续向前发展。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。