行业分类:
加载中...
头条分类:
加载中...
终于发布的Gemini 3,什么是它真正的王牌?
Gemini 3 Pro 预览版上线那一刻,很多人心里的第一反应可能是:终于来了。 遛了将近一个月,这里暗示那里路透:参数更强一点、推理更聪明一点、出图更花一点,大家已经看得心痒痒了。再加上 OpenAI、Gork 轮番出来狙击,更加是证实了 Gemini 3 将是超级大放送。 这次 Gemini 3 的主打卖点也很熟悉:更强的推理、更自然的对话、更原生的多模态理解。官方号称,在一堆学术基准上全面超越了 Gemini 2.5。 但如果只盯着这些数字,很容易忽略一个更关键的变化: Gemini 3 不太像一次模型升级,更像一次围绕它的 Google 全家桶「系统更新」。 模型升级这一块的,Google 已经把话说得很满了 先快速把「硬指标」过一遍,免得大家心里没数: -推理能力:官方强调 Gemini 3 Pro 在 Humanity’s Last Exam、GPQA Diamond、MathArena 等一堆高难度推理和数学基准上,全部刷出了新高分,定位就是「博士级推理模型」。 -多模态理解:不仅看图、看 PDF,甚至还能在长视频、多模态考试(MMMU-Pro、Video-MMMU)上拿到行业领先成绩,说看图说话、看视频讲重点的能力,提升了一档。 -Deep Think 模式: ARC-AGI 这类测试证明:打开 Deep Think 后,它在解决新类型问题上的表现会有可见提升。 从这些层面看,很容易把 Gemini 3 归类为:「比 2.5 更聪明的一代通用模型」。但如果只是这样,它也就只是排行榜上的新名字。连 Josh Woodward 出来接受采访都说,这些硬指标只能是作为参考。 换句话说,「跑了多少分」只是一种相对直观的表现手法,真正有意思的地方在于 Google 把它塞进了哪些地方,以及打算用它把什么东西连起来。在这一个版本的更新中,「原生多模态」显然是重中之重。在这一次的大更新中,「原生多模态」显然是重中之重。 如果要为当下的大模型找一个分水岭,那就是:它究竟只是「支持多模态」,还是从一开始就被设计成「原生多模态」。 这是 Google 在 2023 年,即 Gemini 1 时期就提出来的概念,也是一直以来他们的策略核心:在预训练数据里一开始就混合了文本、代码、图片、音频、视频等多种模态,而不是先训一个文本大模型,再外挂视觉、语音子模型。 后者的做法,是过去很多模型在面对多模态时的策略,本质还是「管线式」的:语音要先丢进 ASR,再把转好的文本丢给语言模型;看图要先走一个独立的视觉编码器,再把特征接到语言模型上。 Gemini 3 则试图把这条流水线折叠起来:同一套大型 Transformer,在预训练阶段就同时看到文本、图像、音频乃至视频切片,让它在同一个表征空间里学习这些信号的共性和差异。 少一条流水线,就少一层信息损耗。对模型来说,原生多模态不仅仅是「多学几种输入格式」,这背后的意义是,少走几道工序。少掉那几道工序,意味着更完整的语气、更密集的画面细节、更准确的时间顺序可以被保留下来。 更重要的是,这对应用层有了革命性的影响:当一个模型从一开始就假定「世界就是多模态的」,它做出来的产品,与单纯的问答机器人相比,更像是一种新的交互形式。 从 Search 到 Antigravity,新总线诞生 这次 Gemini 3 上线,Google 同步在搜索栏的 AI Mode 更新了,在这个模式下,你看到的不再是一排蓝色链接,而是一整块由 Gemini 3 生成的动态内容区——上面可以有摘要、结构化卡片、时间轴,虽然是有条件触发,但是模型发布的同时就直接让搜索跟上,属实少见。 更特别的是,AI 模式支持使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟——这些都是根据查询内容即时生成的。 这个思路将一系列 Google 系产品中发扬光大,官方的说法是更像「思考伙伴」,给出的回答更直接,更少套话,更有「自己看法」,更能「自己行动」。 配合多模态能力,你可以让它看一段打球视频,帮你挑出动作问题、生成训练计划;听一段讲座音频,顺手出一份带小测题的学习卡片;把几份手写笔记、PDF、网页混在一起,集中整理成一个图文并茂的摘要。 这部分更多是「超级个人助理」的叙事:Gemini 3 塞进 App 之后,试图覆盖学习、生活、轻办公的日常用例,风格是「你少操点心,我多干点活」。 而在 API 侧,Gemini 3 Pro 被官方明确挂在「最适合 agentic coding 和 vibe coding」这一档上:也就是既能写前端、搭交互,又能在复杂任务里调工具、按步骤实现开发任务。 这一次最令人惊艳的也是 Gemini 在「整装式」生成应用工具的能力上。 这也就来到了这次发布的新 IDE 产品:Antigravity。在官方的设想中,这是一个「以 AI 为主角」的开发环境。具体实现起来的方式包括: -多个 AI agent 可以直接访问编辑器、终端、浏览器; -它们会分工:有人写代码,有人查文档,有人跑测试; -所有操作会被记录成 Artifacts:任务列表、执行计划、网页截图、浏览器录屏……方便人类事后检查「你到底干了啥」。 在一个油管博主连线 Gemini 产品负责人的测试中,任务是设计一个招聘网站,而命令简单到只是复制、复制、全部复制,什么都不修改,直接粘贴。 最终 Gemini 独立完成对混乱文本的分析,真的做了一个完整的网站出来,前前后后所有的素材配置、部署,都是它自己解决的。 从这个角度看,Gemini 3 不只是一个「更聪明的模型」,而是 Google 想用来粘住 Search、App、Workspace、开发者工具的那条新总线。 回到最直觉的感受上:Gemini 3 和上一代相比,最明显的差别其实是——它更愿意、也更擅长「帮你一起协作」。这也是 Google 对它赋予的期待。 压力给到各方 跳出 Google 自身,Gemini 3 的 Preview 版本实际上给整个大模型行业,打开了一局新游戏:多模态能力应用的爆发势在必行。 在此之前,多模态(能看能听)是加分项;在此之后,“原生多模态”将基本配置——还不能是瞎糊弄的那种。Gemini 3 这种端到端的视听理解能力,将迫使 OpenAI、Anthropic(Claude)以及开源社区加速淘汰旧范式。对于那些还在依赖「截图+OCR」来理解画面的模型厂商来说,技术倒计时已经开始。 「套壳」与中间层也会感到压力山大,Gemini 3 展现出的强大 Agent 规划能力,是对当前市场上大量 Agentic Workflow(智能体工作流) 创业公司的直接挤压。当基础模型本身就能完美处理「意图拆解-工具调用-结果反馈」的闭环时,「模型即应用」的现实就又靠近了一点。 另外,手机厂商可能也能感到一丝风向的变化,Gemini 3 的轻量化和响应速度反映的是 Google 正在为端侧模型蓄力,结合之前苹果和几家不同的模型大厂建立合作,可以猜测行业竞争将从单纯比拼云端参数的「算力战」,转向比拼手机、眼镜、汽车等终端落地能力的“体验战”。 谁最强已经没那么重要了,谁「始终在手边」才重要 在大模型竞争的上半场,大家还在问:「谁的模型更强?」,参数、分数、排行榜,争的是「天赋」。到了 Gemini 3 这一代,问题慢慢变成:「谁的能力真正长在产品上、长在用户身上?」 Google 这次给出的答案,是一条相对清晰的路径:从底层的 Gemini 3 模型,往上接工具调用和 agentic 架构,再往上接 Search、Gemini App、Workspace 和 Antigravity 这些具体产品界面。 你可以把它理解成 Google 用 Gemini 3 将以原生多模态为全新的王牌,并且给自己旗下生态中的所有产品,焊上一条新的「智能总线」,让同一套能力,在各个层面都得以发挥。 至于它最终能不能改变你每天用搜索、写东西、写代码的方式,答案不会写在发布会里,而是写在接下来几个月——看有多少人,会在不经意间,把它留在自己的日常工作流中。 如果真到了那一步,排行榜上谁第一,可能就没那么重要了。
Sora 2两月留存率接近0%,奥特曼得学抖音快手?
作为OpenAI在视频生成领域的王牌,Sora 2曾被寄予厚望。奥特曼还为其加入社区等社交功能,在OpenAI内部,Sora 2甚至被视为能颠覆现有短视频格局的“核武器”。 然而,短短两个月的时间,市场就给出了最冰冷的反馈。 近日,硅谷风投机构a16z合伙人Olivia Moore在社交媒体上爆料称,Sora 的下载量仍在增长,但早期用户留存率数据(如下所示,与 TikTok 对比)看起来相当疲软。 Olivia Moore晒出一张APP数据监测服务SensorTower的截图:Sora的30天用户留存率1%,60天用户留存率0%。 “这说明这种模式确实很火,而且有一批重度用户在制作和导出 Sora 的视频。但是,大多数用户并没有坚持使用这款应用。”她说。 这不仅是一次产品的滑铁卢,更是给“AI技术强行嫁接社交属性”模式泼了一盆冷水。 Sora 2凭借OpenAI的金字招牌,在发布初期通过取消邀请制和全平台铺量,轻松实现了iOS首周百万安装、Android首日47万下载的爆发式增长,一度霸榜App Store。 可Sora 2给用户带来的是什么呢?极低的成片率、每天却仅有30个短视频的免费额度,以及达到免费上限后,高昂的额外生成费用。 因此,当新鲜感褪去,Sora留下的只有算力黑洞和有待商榷的商业逻辑。 01 Sora 2的发布可以说是2025年AI圈最受关注的事件之一。 Android版本的表现尤其抢眼。根据winsomemarketing的数据,Sora 2上线首日,其在美国、欧洲等这七个市场获得了47万次下载。其中美国市场一家就贡献了29.6万次下载,占据了总量的63%。这个数字比iOS版本首日的下载量高出327%。 iOS版本的数据同样亮眼。首周安装量达到100万,Sora 2一度登顶App Store免费应用榜单,成为当时最热门的应用。 这样的开局让OpenAI内部感到振奋。取消邀请制的决定看起来是正确的,全平台同步发布的策略也收到了预期效果。从下载数据来看,Sora 2完全具备成为现象级应用的潜力。 但好景不长。火爆的下载数据背后,隐藏着用户快速流失的危机。 iOS版本的App Store排名开始持续下滑。从免费榜第一名,到第二名,再到第三名,最终跌至第四名。这个下滑过程持续了不到两周时间。祸不单行,不只是新用户的增长速度在放缓,已经下载的用户中,大部分人甚至不再使用Sora 2。 最开始在今年九月发布时,Sora 2采用的是封闭测试,仅限于内部红队测试和少数受邀艺术家使用,想要用Sora 2生成视频,必须获取邀请码。虽然存在几个无限使用次数的“公开邀请码”,但都只是短期存在,超过一定时间后就会失效。 为了能获客,在十月底的时候,OpenAI决定在美国、加拿大、日本和韩国这几个特定市场率先拿掉邀请码机制,所有用户均可免费注册,并免费使用。 更致命的数据来自用户留存率。根据2025年11月的统计数据,Sora 2的30天用户留存率不足1%。这意味着100个下载了应用的用户中,一个月后只有不到1个人还在继续使用。到了60天,这个数字更是接近0%。 作为对比,根据艾瑞咨询的数据,抖音30天留存为48.7%,快手为46.2%。即使是一些表现平平的社交应用,30天留存率也能保持在15%到20%之间。 虽然,大部分手机APP在安装后,三天就会流失77%的日活跃用户,30天内流失90%的用户已经算是正常水平。但Sora 2连这个“正常水平”都没有达到,它的流失速度远超行业平均。 下载量与留存率之间的巨大落差,揭示了一个残酷的现实:用户的好奇心可以带来安装,但无法转换为持续使用的黏性。 从霸榜到跌落,Sora 2只用了两个月的时间。这个速度快得让人措手不及,也让整个AI视频生成行业开始重新审视一个问题:技术的先进性,真的能够直接转化为产品的成功吗? 02 Sora 2留存率低的根本原因,在于它还没有从“玩具”进化成“工具”。 生成质量的不稳定是最直接的问题。winsomemarketing的团队在实际测试中发现,Sora 2生成的视频中,真正可以用于实际发布的内容命中率只有5%到10%。 这意味着用户需要生成10个视频,才有可能得到1个满意的结果。剩下90%的生成内容,都不能使用。 这个命中率对于一个生产工具来说是致命的。因为内容创作者需要的是稳定、可预测的输出。他们输入一段文字描述,希望得到的视频至少能够基本符合预期,然后再进行细节调整。而不是靠运气生成内容。 渲染时间是另一个问题。生成一个视频往往需要等待几分钟。 虽然说这不是什么大事,但是如果叠加上90%的失败率,用户可能需要花费大半个小时甚至更长时间,才能得到一个勉强可用的视频。这对于使用者来说,简直和坐牢一样。 技术层面的不达标有其根本原因。视频生成的本质是连续的图片生成,这就需要强大的图像生成模型作为基础。但OpenAI自己的图片生成能力还停留在GPT-4o时代,这个基础能力的限制直接影响了视频生成的质量上限。当用户对单帧画面质量都不满意时,连续播放的视频自然更难让人满意。 更关键的是,Sora 2缺乏精细的编辑功能,用户无法直接在应用内进行修改视频,只能修改提示词,然后重新生成,期待下一次的结果能够更好。 其最直接的表现就是画面质量的不稳定。 有时候人物的面部表情会出现奇怪的扭曲,有时候物体的运动轨迹不符合物理规律,有时候背景和前景的融合显得生硬。这些问题不是偶然出现,而是随机分布在大部分生成结果中。用户无法预测哪个生成会出现问题,也无法通过调整提示词来完全避免这些问题。 Sora 2有一个功能叫做Cameos,这是为了解决视频中角色不连贯,让上一个分镜中的人物长得和下一个分镜中一样。 你只需要对着手机录一段十几秒的视频(包含声音和面部表情),Sora 2就会把你的样貌、声音,甚至微表情提取出来,生成一个专属的“演员模型”。 这个功能看起来很有趣,不过却给Sora 2带来了大量的法律纠纷。 Cameo这个词的意思是客串,而刚好就有这么一家提供名人定制视频服务的公司叫作Cameo。你只要付钱,就可以让上面的明星专门为你(或你的朋友)录一段祝福视频。 但是这家公司认为,OpenAI使用“Cameos”这个名称侵犯了自己的商标权,并且对OpenAI提起诉讼。虽然OpenAI表示不认为有人可以独占“Cameo”这个词,但这场法律纠纷还是影响了功能的推广。 更致命的问题是,Sora 2的社区功能简直是一场灾难。 用户在抖音、快手、B站上创作内容,好的视频会得到更多的展示,而用户的点赞、评论、收藏、转发会提高这些视频的展示位。 但是在Sora 2里,一些优秀高赞的作品不会得到展示,相反,一些没有意义、低质量、低创意,甚至没有获得任何点赞的作品会得到展示。 而且Sora 2的社区机制还有明显缺陷。视频虽然可以重新剪辑,但是播放过程中不能暂停,也不能像图片页面那样提供视频的提示词。更加令人费解的是,Sora 2社区只能点赞,没有评论和收藏这样的基本功能。 还有一点,Sora 2的社区没有任何筛选功能,仅有一个功能叫作“搜索相似词条”,不过这个功能做的体验也是糟糕至极。 实际使用过程中,在一个魔法女巫的AI视频中点击搜索相似词条功能后,出来的是坦克、月球以及一些历史人物。 技术不成熟、社交属性缺失、社区机制低效,这些因素合在一起,让Sora 2始终停留在“玩具”阶段。 而当一个产品只是玩具时,留存率接近0%就成了必然结果。 03 Sora 2面临的不仅是产品问题,更是商业化困境。 OpenAI的Sora负责人比尔·皮布尔斯(Bill Peebles)公开承认,Sora 2当前的模式“完全不可持续”。 最初,OpenAI给每个用户每天30个免费视频生成额度。皮布尔斯以为这个数量已经足够了,毕竟生成一个视频需要时间,用户应该不会频繁使用。但现实很快打脸。 OpenAI的回应是推出付费增值服务。用户可以花4美元购买10个额外的视频生成额度,Pro用户的每日上限则提高到100个。看起来这是一个合理的商业化尝试,让愿意付费的用户获得更多使用机会。 但这只是权宜之计。皮布尔斯说,根本问题在于GPU算力短缺。 生成一个AI视频需要消耗大量算力。Sora 2使用的模型参数量巨大,每次生成都要调用昂贵的GPU资源。OpenAI每天要为Sora 2的运营支付1500万美元,这个数字令人震惊。每天1500万美元,一个月就是4.5亿美元,一年接近55亿美元。 这样的成本结构下,OpenAI必须找到相应的收入来源。但现实是,不足1%的用户留存率意味着绝大部分下载用户很快就放弃了使用。 他们不会成为付费用户,不会持续消耗算力,也不会为OpenAI带来任何收入。那些持续使用的重度用户虽然消耗了大量算力,但他们的付费金额远远无法覆盖成本。 皮布尔斯明确表示,未来必须削减免费额度,以降低产品成本。 问题是,降低免费额度会进一步降低用户留存。那些本来就不怎么用Sora 2的用户,如果发现免费额度从30个降到10个甚至更少,可能会直接卸载应用。而那些需要大量生成的用户,面对更高的使用成本,也会开始寻找替代方案。 OpenAI现在处于一个两难境地。维持现有的免费额度,成本不可持续。降低免费额度,用户会加速流失。提高付费价格,市场接受度会降低。这个死结很难解开。 知识产权侵权问题更加复杂。用户可能会用Sora 2生成包含版权内容的视频,比如著名角色、知名场景、受保护的艺术作品。 OpenAI必须对生成内容进行审核,限制用户可以创作的内容类型。但这种限制又会影响用户体验,降低Sora 2的实用性。 OpenAI已经多次调整内容生成政策,反复限制用户可以生成什么样的视频。每一次调整都会引发用户不满,因为他们发现很多原本可以生成的内容现在被禁止了。 历史似乎在重演。 Sora 1时期,OpenAI虽然技术领先,开创了视频生成的先河,但最终被国内的即梦、可灵这样的产品在体验上反超。 这些竞争对手可能技术能力不如OpenAI,但他们更注重用户体验,更愿意根据市场反馈快速调整产品。结果是,技术先进的Sora 1没能在市场上占据主导地位。 现在Sora 2面临同样的局面。OpenAI拥有最先进的视频生成技术,但如果无法将技术优势转化为良好的用户体验,无法建立可持续的商业模式,那么其领先的地位将不复存在。 奥特曼此前曾表示,“让用户持续使用”和“避免过度成瘾”之间找到平衡。但是现在回过头来再看,显得有些讽刺,因为Sora 2现在连让用户持续使用都做不到,谈何成瘾? 但从另一个角度看,奥特曼的担忧反映了OpenAI的价值观困境。他们希望Sora 2能够吸引用户、留住用户,但又不想像抖音、快手那样通过算法和机制让用户“上瘾”。 这些短视频产品之所以成功,正是因为它毫不掩饰地追求用户停留时长。每一个功能设计都在引导用户继续刷视频,推荐算法精准到让人难以离开。 这种策略虽然饱受批评,但确实有效。OpenAI想要避免这条路,却还没有找到替代方案。 算力成本、内容审核、法律合规、产品体验、商业变现,OpenAI需要同时解决多个难题。而这些难题之间往往相互矛盾。提升体验需要更多算力,但算力成本已经难以承受。开放更多功能会面临法律风险,但限制功能又会损害用户体验。追求用户留存可能导致过度成瘾,但不追求留存产品就会失败。 目前来看,整个AI视频生成赛道都还处于商业化探索的早期阶段。各家公司都在烧钱推广,都在寻找可行的商业模式,但没有人真正找到答案。 Sora 2的困境不是个例,而是行业普遍面临的问题。 只是对于OpenAI来说,这个困境来得太快了。从产品发布到留存率归零,只用了两个月时间。 同时OpenAI也给整个行业敲响了警钟:技术领先不等于产品成功,下载量不等于用户留存,融资能力不等于商业模式。 距离健康的盈利模式,AI视频生成行业还有很长的路要走。
W12 谢幕之后,宾利想用 460 亿种方式让你掏钱
过去很长一段时间,W12 发动机不仅是宾利动力总成的巅峰,更是克鲁工厂的精神图腾。但在 2025 年的当下,这个阶级秩序正在发生微妙的变化。 首先是宾利 Mulliner 部门限量定制的 Batur 敞篷版,作为内燃机时代的绝唱之一,它搭载那颗传奇的 6.0 升 W12 心脏,最大功率定格在 740 马力。而另一边刚刚更新的第四代欧陆 GT 和飞驰量产版,虽然只是走量车型,但在换装 V8 高性能混动系统后,综合功率却直接干到了 782 马力。 量产车的参数超越了限量旗舰,混动的效率击败了燃油的情怀——这就是超豪华品牌在电动化转型期必须面对的残酷现实。马力,正在变得前所未有的廉价。 当机械工程百年来建立的性能壁垒被电机轻易抹平,即便那些曾经用来标榜身价的 W12 或者 V12 依然精密、迷人,依旧代表着旧世界的荣光和复杂的机械美感,但那已不再是衡量强弱的唯一标尺。 如果不卖 12 缸独占的轰鸣,也不再垄断速度,几百万的宾利到底在卖什么? 宾利给出了一个数字:460 亿。 这是宾利对抗平庸的武器。按照他们的算法,你在订车的时候可以通过不同配置的排列组合,定制出 460 亿种不一样的车子。在这个新的逻辑里,宾利的个性化定制部门 Mulliner 不再是配角,而是成为了定义品牌价值的主角。 宾利似乎已经想清楚了,在那个充斥着高算力和同质化大屏的世界里,技术参数会被迅速迭代,唯有极度的「不可复制」,才是奢侈品最后的避难所。 当「慢」成为一种新的壁垒 在当下的汽车工业语境里,我们太习惯用「快」来定义技术含量了。无论是芯片算力的翻倍速度,还是超级工厂里按秒计算的下线节拍,效率似乎成了制造业唯一的信仰。但在宾利克鲁工厂里,似乎一切都是慢的。 看看那台名为「The Black Rose」的定制版 Batur,驾驶模式旋钮闪烁着黄金的光泽,但这并不是由金匠手工敲打出来的,而是「打印」出来的。宾利在这个贵金属上应用了增材制造技术,通过 3D 打印,将总计 210 克 18K 黄金,以一种传统铸造无法实现的方式,融入了驾驶模式旋钮和风琴音栓中。 ▲定制版 Batur 同样的逻辑也延伸到了石头上。在与珠宝品牌 Boodles 的合作中,Mulliner 用激光将形成于 2 亿年前的天然石材切削至仅有 0.1 毫米厚。听起来没什么,但要把一块石头加工成纸张的厚度,并让它完美贴合在曲面上,同时还要保证它在车辆震动中不碎裂,并不是一件容易的事。 除了琢磨材质,Mulliner 还在思考「触感」。为了让车主能直接摸到木材原本的纹理,工匠们将漆料的用量减少了 90%;碳纤维也不再只有单调的黑色,深李紫、翠鸟蓝等色彩被编织进了碳纤维纹理中——这些都是 460 亿种配置组合的一部分。 ▲ Mulliner 和 Boodles 联手定制的车型 而在渐变色漆面工艺上,为了让「托帕石蓝」和「温莎蓝」两种车漆在车身上实现肉眼无法分辨的自然过渡,Mulliner 拒绝了自动化机器人。两名资深技师必须同时操作,完全凭借经验和手眼配合,耗时 56 个小时才能完成。 这样的定制能力在面对中国市场时,宾利的姿态也发生了一些转变。它并不执着于单向输出英伦审美,而是开始尝试还原中式的意境。 我们在定制列表中看到了取材自《千里江山图》的「江山」特别版。Mulliner 并不是简单印上这幅名画就完事儿了,而是提取了画作中标志性的青绿与金色,通过复杂的刺绣在头枕上复刻山水形态。还有「流云」版中舒展的云纹,以及「鲤」特别版中六条形态各异的游动锦鲤,连那些听起来很虚幻的意象,比如「午夜月影」和「轻声耳语」,都被具象化为特定的皮革配色和饰面纹理。 ▲ 飞驰「江山」特别版 还有一个案例,一台「糖果粉」色的添越长轴距版。这辆车的用户在订车时只有一个要求:要一个「特别的粉色」。为了满足他,Mulliner 专门调配了名为「Candy Pink」的车漆,车内的缝线、刺绣也都做到了同色系匹配。 Mulliner 定制的最高自由度,体现在那台 Speed Six 延续版上——一位客户带着儿时的玩具车模型来到 Mulliner,要求完全按照那个模型的配色和细节,打造一台真正的 Speed Six。 ▲ Speed Six 延续版 一家车企能把一个人的记忆、童年幻想,甚至是一个玩具模型,通过严谨的工业流程变成一台可以合法上路的机械艺术品。这种固化时间与情感的能力,才是宾利在面对电动化浪潮时难以被取代的价值。 在纯电时代,保留一块「机械表」 在把材质和工艺卷到极致的另一面,我们看到的是宾利在电动化转型上的犹疑与妥协。 就在 11 月,宾利更新了原本激进的战略,将「Beyond100」升级为「Beyond100+」。其中最耐人寻味的调整在于,原本计划快速退场的插电混动车型,生命周期被直接延长到了 2035 年。在目前的电池密度下,纯电很难在不牺牲重量和空间的前提下,提供超豪华用户所需要的从容。与其被续航焦虑拉下神坛,不如把内燃机这张安全牌再打十年。 ▲宾利的新 Logo 这种务实,或者说紧迫感,也体现在产品形态的变化上。宾利确认第一款纯电车型将是一台车长小于 5 米的「城市 SUV」。对于习惯了制造 5.3 米以上庞然大物的克鲁工厂来说,这是一个从未涉足的尺寸。这说明宾利即使作为金字塔尖的品牌,也不得不低下头,去争夺那些更年轻、更看重实用性的市场份额。 而在那台 EXP 15 概念车里,所谓的「奇妙融合(Magical Fusion)」理念,剥离掉营销话术后,其实是在解决一个棘手的问题:科技的保鲜期太短,而奢侈品的生命周期太长。 ▲EXP 15 概念车 现在的智能汽车恨不得把屏幕铺满整个座舱,但这种做法对宾利来说是危险的。一块最先进的 OLED 屏幕,三年后就会显得过时,这会极大拖累整车的价值感。所以宾利选择把屏幕藏在木纹和织物后面,甚至保留那个名叫「机械奇迹」的物理仪表。 宾利或许意识到了,它们必须把那些注定会快速贬值的电子元件隐藏起来,让位于那些越老越有味道的木头、皮革和机械指针。只有这样,一台几百万的车才不会因为车机芯片的落后而显得廉价。 W12 终将消失,因为那是旧时代的遗物;但 460 亿种 Mulliner 的组合必须存在,56 小时手工喷涂的低效率必须存在。在那个充满不确定性的未来,这些无法被代码复制的人工成本,是宾利维持高溢价唯一的理由。
阿里字节先后入局,这个赛道要变天了?
摘要: 阿里发布AI眼镜,字节携手中兴推出AI手机,科技巨头纷纷押注硬件,背后是对下一代人机交互入口的抢占。 凤凰网科技 出品 作者|Dale 编辑|董雨晴 “AI眼镜是下一代个人移动入口,是人机交互变革的中心。”在11月27日夸克AI眼镜的发布现场,阿里智能终端业务负责人宋刚在定义AI硬件的战略意义时对包括凤凰网科技在内的媒体表示。 三天后,字节跳动与中兴通讯官宣合作打造的AI手机正式亮相——首款搭载豆包手机助手技术预览版的工程样机——nubia M153开启限量发售,搭载骁龙8至尊版处理器、6.78英寸屏幕,16GRAM+512G ROM,售价3499元。 凤凰网科技了解到,该合作产品主要是为了尝试豆包大模型能力与厂商系统授权下的新型交互逻辑。 这两起几乎同时发生的事件,代表了阿里和字节在AI时代的共同选择,从云端模型比拼走向了硬件落地。 AI大厂抢滩硬件 2025年,科技行业的竞争格局正在发生深刻变化。随着大模型更新迭代变缓,AI的竞争焦点正从模型的优劣,转向用户的触达。 对大厂们而言,当模型能力逐渐趋同,谁能更贴近用户,谁就能掌握生态主动权。 而硬件终端,无疑是最接近用户的产品。 五月,OpenAI以近65亿美元收购由苹果前首席设计官艾维创立的硬件公司IO。奥特曼在近期预告新品信息时表示,“通过搭载智能且可长期信赖的AI,它能够深度理解用户生活场景,长时间接管任务,过滤无关信息并在恰当时机呈现信息。这种基于全场景的感知能力,是现有AI技术或现有设备无法实现的”。 此次,阿里与字节的共同发力,同样反映了中国科技巨头对把握AI入口权的更进一步。 宋刚在此次夸克AI眼镜沟通会上告诉我们:“它是未来最有机会挑战手机的设备,在阿里的战略里面它就是一个非常重要的角色。” 更为关键的是,“所有大模型训练的数据都要依赖于端发生的业务数据去训练,很多模型都是被手机、平板、电脑这些使用场景采集了数据,去服务于这些场景”,阿里智能终端产品负责人晋显也表示。 字节跳动选择的是另一个路径,凤凰网科技了解到,搭载豆包手机助手技术预览版的工程样机是一款需要和手机厂商一起完成的产品。“豆包目前正与多家手机厂商洽谈助手合作,并没有自己开发手机的计划,后续将公布更多进展。” 目前,除阿里和字节外,同样在大语言模型方面投入颇多的小米和理想,也先后下场入局AI眼镜。 另据36氪报道,谷歌已于去年年底立项两个AI眼镜项目,目前两项目已经进入POC(小批量试产)阶段,正在密集推进选型、ID设计,发布时间最早或为2026年Q4。 大厂的集体加码,已以AI眼镜和AI手机为代表的硬件赛道重新热了起来。 就在今日豆包官宣消息发出后,中兴通讯开盘后持续走高最终触及涨停,最新股价报46.3元/股。 两条不同的路径 在下场对AI硬件形态的探索上,互联网大厂也正沿着不同的路径并行。 AI眼镜被阿里视为“下一代个人移动入口”。 “我不知道大家看完今天的发布会是什么感觉?它肯定不是小投入,过去没有一家一下发6款的,我认为这件事情阿里想得是很明白的。”阿里在AI眼镜上的重投入,也意味着其已将生态之争落地的重任交给了AI眼镜。 一位产业链从业者在看完产品信息后对凤凰网科技表示,该款产品是显著的实用主义设计,功能至上。也就是说,全方位为交互服务。“举个例子,如果和 Rayban Meta比,雷朋不会在设计上妥协,倒逼 meta在工程上想办法,这是两种思路。” 宋刚认为,“眼镜肯定是主角”,特别是,随着Agent趋势的到来,过去的App在交互时,需要完成下载、打开、查找和使用的过程,但在眼镜上,只需要一句话就可以完成。“实际上是有利于眼镜的场景,我认为这是技术发展的主方向”,宋刚认为,眼镜在未来可能搭载更多的传感器,对于人的理解和对于环境的理解会更加深入。 另外,晋显方面也承认,当前眼镜还无法马上取代手机,而是慢慢渗透手机的场景,“从过去手机每天大家人均使用6小时变成了突然有一天发现手机只用5小时,那1个小时去哪里了呢?就到了你的眼镜里了,”在意义层面,目前阿里在AI能力上云端表现更发达,当前正通过端侧的工程能力补齐AI在端侧的表现。 字节对硬件的布局表现的更为多元,且已出手过多个标的——2018年,字节收购了锤子科技坚果手机团队和部分专利使用权。2021年,字节以数十亿元并购VR厂商PICO,并在2023年调整,最新消息称,PICO将于2026年推出新一代产品,并首次搭载全链路自研的头显专用芯片。 迈入AI时代,字节的硬件热情进一步推高。2024年初,字节收购耳机厂商 Oladance,并在当年度推出AI耳机。 现如今,以上这些相关AI硬件团队,在字节内部统一划分至Ocean部门,负责人则是36氪创始人刘成城,向Flow负责人朱骏汇报,意味着拥有较高的优先级。 可以看到的是,今年豆包也在加速与终端产品的轻量化合作。首先是密集上车,豆包近期先后和赛力斯、奔驰达成合作。 从12月1日发布的AI手机样机来说,可以看出豆包有意将大模型、超级App和终端三位一体的重任,落在AI手机这一载体上。也意味着更重的投入、与自家大模型更深度地合作。 目前,在AI应用层面,豆包和夸克均处于第一梯队,AI产品榜显示,今年10月,豆包与夸克的MAU均超过了1.5亿。而DeepSeek和元宝分别以7300万和7200万MAU处在第二梯队。
世界模型的下一个阶段是什么?智源研究院给出了答案
作者 | 王涵 编辑 | 漠影 你一定在科幻电影中看到过这样的情节:主角不小心进入了游戏世界,在3D虚拟的场景中探索、漫步。 如今,这不再是只能幻想的场景。世界模型的出现,给这一情节带来了更多在现实中实现的可能性。 经过一年时间的打磨,10月底,智源研究院发布了新一代原生多模态世界模型“悟界·Emu3.5”。 性能上,相较上一版本,Emu3.5在超过13万亿token的大规模多模态数据基础上展开训练,其视频数据训练量时长从15年提升到790年,参数量从8B上升至34B。 在不牺牲性能的前提下,Emu3.5每张图片的推理速度提升了近20倍,首次使自回归模型的生成效率达到顶尖的闭源扩散模型的水平。 智东西获得了Emu3.5的内测资格,第一时间对其文生图和图片编辑功能进行了实测。 首先是文生图功能,我们输入提示词如下: 在一个充满活力的厨房场景中,大窗户外可见郁郁葱葱的绿植。两个动画角色并排站着。左边是一个拟人化的狐狸模样的生物,有着橙色的皮毛、白色的腹部和一双富有表现力的大眼睛,脖子上系着一条绿色的围裙。右边是一个年轻女孩,棕色的头发扎成了辫子,穿着黄色的衬衫,外面套着一件蓝绿色的围裙。两个角色似乎都在忙着做饭,背景中挂着各种厨房用具、锅以及橙子、大蒜等食材。整个环境明亮又欢快,阳光透过外面的树叶洒进来。图像中没有可见的文字。 不到一分钟,Emu3.5就生成了一副很“迪士尼风”的图画。画面颜色明亮轻快,小女孩和狐狸都和提示词形容的十分相似,画面光影、比例和构图都很协调。 图片编辑方面,我们上传了一张小松鼠的照片,要求Emu3.5将画面中的小松鼠提取出来,背景换成雪地场景。 原图片中,小松鼠和背景色调一致,肉眼都容易看不清楚,Emu3.5却十分精准地识别出了小松鼠的形象。其生成的图片光影、结构准确,连阳光照射在雪地上的反光都十分逼真,在画面的前方和后方背景,还实现了相机般的虚化效果。 此外,Emu3.5还能修改图片视角。我们上传了一张仰视的鼓楼夜景照片,要求Emu3.5将这张照片转化为一只鸟的视角: Emu3.5不仅能精准实现视角切换,其“下一阶段预测”范式更使其具备自动补全周边环境画面的能力,表现就像一台置于真实场景中的相机。 此外,Emu3.5还可以更改画面中主体的位置关系和动作形态,比如让小狗拥抱小猫: 识别数字和计数一直是多模态模型的弱点,Emu3.5却可以精准识别将图片中的标号,将指定序号的挂画换成另外一张海报: 在画面中加入一个物体也不在话下,Emu3.5可以直接将魔方放置在图片场景中,并且会根据场景的光线和风格自动调整物体的色调,不会出现“不在一个图层”的效果。 再比如,Emu3.5还可以修复老照片,还原老照片本来的颜色和质感: 当然,作为世界模型,Emu3.5也可以创造出一个“世界”。 例如,我们让Emu3.5生成了一个卧室照片。接着,点击继续探索,要求Emu3.5更走近一些。通过一步一步地变换视角,Emu3.5就可以生成一个完整的“世界”: 除了变换视角,Emu3.5还可以“预测”图片场景100年后的样子: 该模型延续了将图像、文本和视频等多模态数据统一建模的核心思想,并在“Next-Token Prediction”范式的基础上,模拟人类自然学习方式,以自回归方式实现了对多模态序列的“Next-State Prediction(NSP)”,从而获得了可泛化的世界建模能力。 那么,NSP是怎么实现的?Emu3.5和其他世界模型有什么不一样的地方?除了生成图片和“世界”Emu3.5还能用在哪里?我深扒了“悟界·Emu3.5”的技术报告,给你一一解答。 一、直接预测下一个状态,厉害在哪? 李飞飞在她的自传《我看见的世界》中写到,5.43亿年前,地球上的生物生活在原始海洋中,没有感官和知觉,因此也没有大脑。后来,“寒武纪生命大爆发”时期到来,生物进化历程从此开始狂飙。 动物学家安德鲁·帕克认为,“寒武纪生命大爆发”之所以会发生,其实是因为生物开始具备“光敏感性”,这也是现代眼睛形成的基础。 简单来说,生命爆发进化是从“看见”开始的。那如果将这个进化路径放在AI上呢? 在Emu的技术沟通会上,王仲远博士也提出了类似的看法,他说:“人类的学习,不是从文本学习开始的。我们每一个人从出生开始,跟其他人的交流,认识物理世界的运行规律,都是从视觉开始的。” Emu3.5的训练数据中包含超13万亿多模态token,其中视频数据时长累计有790年,覆盖教育、科技、How-to、娱乐等多领域。与传统方法不同,Emu3.5的训练语料库旨在捕捉长时程、交错的多模态语境。 具体而言,该子集来源于大规模互联网视频的连续视频帧和时间对齐的音频转录文本,这些内容本身就保留了时空连续性、跨模态对齐性和语境连贯性。 在训练框架上,Emu3.5基于单一自回归Transformer架构,采用端到端原生多模态建模,无需依赖扩散模型或组合式方法,就实现了图像、文本、视频等多模态数据的“大一统”处理。 进而,在大规模多模态数据和Next-Token Prediction(NTP,下一个token预测)的基础上,Emu3.5扩展出“Next-State Prediction(NSP,下一状态预测)”即直接预测多模态序列的完整动态状态,而非孤立token。 NSP厉害就厉害在,它可以让模型从多模态数据中自主学习世界的动态规律,例如物理动态、时空连续性、因果关系,进而实现“理解——预测——规划”的完整能力。 NSP还能将高层意图转化为可执行的多步行动路径,接受指令后,Emu3.5能基于视频中学到的 “物体移动规律”,规划符合物理逻辑的连贯步骤,这正是AI从“感知”进化为“认知”的核心标志。 为了提高推理效率,研究团队提出了离散扩散自适应(DiDA)方法,它将逐token解码转换为双向并行预测,在不牺牲性能的情况下,将单图像推理速度提升了约20倍。 研究团队还构建了多维度奖励系统,对NSP的 “多步骤规划准确性”“因果逻辑连贯性” 进行定向优化,提升了Emu3.5的步骤分解与物理规律匹配度。 从性能表现来看,当前Emu3.5参数量为340亿,训练所用视频数据累计时长达790年,仅占全互联网公开视频数据的1%以下,但模型性能已达到“产品级”水准。 “自回归架构”+“大规模强化学习训练”+“下一状态预测”(NSP)范式,至此,Emu3.5找到了多模态世界模型的Scaling Law方向,多模态模型性能可以像大语言模型(LLM)一样,随计算和参数规模的增长而可预测地提升。 “Emu3.5很可能开启了第三个Scaling范式。”王仲远博士这样形容Emu3.5,毫不夸张。 二、教机器人抓拿握,不用再不同场景分开学了 正是因为在“下一状态预测”上的技术突破,EMU3.5 模型具备了学习现实世界物理动态与因果的能力,展现出对复杂动态世界进行预测和规划的能力。这就让EMU3.5可以在具身智能方面大展身手。 在场景应用层面,模型可实现跨场景的具身操作,具备泛化的动作规划与复杂交互能力,并能在世界探索中保持长距离一致性与可控交互,兼顾真实与虚拟的动态环境,实现自由探索与精准控制。 据介绍,Emu3.5已经开始了在具身智能方面的实践探索。 过去,数据采集多局限于固定场景,机器人真机只能采集到具体有限的数据,通过Emu3.5它可以产生泛化的数据,使得模型产生了泛化的能力。 而得益于Emu系列采用的自回归架构,其可扩展性极强,并且能够支持视觉与文字Token的输出。这能够极大的提高模型,包括具身机械人、机械手臂,实际场景中处理泛化性的能力,自然而然就会推动整个具身更快进入一些真实的场景中 在真实场景测试中,应用Emu3.5后,未知场景中,机器人行动的表现成功率可直接达到 70%,而其他模型的表现成功率往往接近零。 “泛化”这一方向就是是智源研究院的重点发力的领域,目前正进一步扩大技术验证规模,在真机上对各类场景展开尝试。 三、只有原生多模态大模型,才能让AI感知世界、理解世界 从上文中对Emu3.5的技术解读不难发现,智源研究院一直坚持的技术路线核心就是“原生多模态”。 从Emu3到Emu3.5,模型均采用单一自回归Transformer架构,实现图像、文本、视频数据的 “端到端统一处理”,无需依赖扩散模型(DiT)或混合架构,从底层解决 “多模态数据对齐” 与 “跨模态推理” 的核心痛点。 智源研究院的研究团队认为,世界模型不等同于视频预测模型。真正的世界模型应该理解“杯子掉落→破碎”“点燃木头→燃烧”等深层因果关系,并且可以“举一反三”,将一个场景中的能力泛化到其他场景,真正做到像人一样思考。 原生多模态大模型的研发,能够把多模态的理解和多模态的生成统一起来。智源研究院认为,只有这样,才能够真正让AI看到、感知、理解这个世界,才能够让AI真正进入物理世界,真正解决现实生活中更多现实的问题。 结语:世界模型进入“下一个状态预测”范式 从“下一Token预测”迈向“下一个状态预测”,Emu3.5的发布标志着世界模型的发展进入了一个新阶段。 其意义不仅在于视频生成功效的提升,更在于通过“原生多模态”与“下一状态预测”的路径,让模型获得了对物理世界动态与因果关系的深层理解能力。这为AI在真实场景中实现可靠的规划与决策奠定了基础。 在行业落地上,这一能力更是直接瞄准了具身智能、自动驾驶和工业仿真等行业的痛点。在这些领域,AI不仅需要“看得见”,更需要“看得懂”,并能预测“接下来会发生什么”。 随着“状态预测”范式的确立,世界模型的技术竞争正从“生成质量”的比拼,升级为“世界理解深度”的较量。
最新调查揭秘:买手机大家最在意的是续航
原标题:相机才排第五!最新调查揭秘:买手机大家最在意的是续航 快科技12月1日消息,PhoneArena近期整合了自家多年的投票调查结果,并交叉比对了Statista、Global Web Index等机构的数据,总结出了一份“消费者最在意的10大手机功能”排行榜。 近年来,各大手机厂商不断在设计和硬件上推陈出新,例如苹果最新的iPhone Air和三星的S25 Edge都主打超薄设计。 但从实际的市场反馈来看,这些创新似乎并没有完全打动消费者,那么在选择智能手机时,消费者真正关注的焦点究竟是什么呢? 最“不”重要五大功能: 在消费者眼中,一些厂商长期宣传的卖点,反成为了最不重要的功能,比如更大更亮屏幕反而成为最不重要功能第一名。 紧接着的,依次为机身设计(如材质、防尘防水、耐用度)、充电速度、存储空间,以及外观设计。 其中值得一提的是,超高速度快充看似非常诱人,但实际使用中并未达到理论值的倍数增长,100W的充电速度并不等于25W的四倍。 由于手机在充电过程中不可能全程维持最高瓦数,在消费者看来,这仅仅是“数字差异”,重要性被大幅降低。 最重要五大功能: 至于消费者最重视的前5大功能,排在第一位的便是电池续航,可见是否具备大容量电池和持久的续航时间,才是影响用户选购手机的最关键因素。 接下来则分别是价格、更长的系统更新支持、更强的处理器和更好的相机。 至于相机功能只排在第五名,PhoneArena解释称,这是因为如今手机拍照功能的整体水平已大幅提升,即使是中端机型也拥有不错的影像规格,对大多数用户而言已完全够用,不再是拉开差距的关键点。
realme新机首曝,预计为真我15 Pro《权力的游戏》限定版
IT之家 12 月 1 日消息,真我 realme 副总裁、全球营销总裁、中国区总裁徐起今日曝光了一款新机,并配文:“凛冬将至!一段新的传奇即将诞生。” 目前真我官方暂未公布这款新机的具体情况,但从新机的相关设计元素来看,预计是《权力的游戏》联名手机。 据IT之家此前报道,realme 真我 15 Pro 手机《权力的游戏》限定版现已在海外市场发布,拥有龙蛋盒设计的联名礼盒(胡桃木纹理,嵌入维斯特洛大陆中的多个家族元素及定制金属铭牌),打开礼盒就能看到铁王座造型,还有维斯特洛地图、史塔克家族和坦格利安家族介绍。 这款手机的后摄模组被“龙爪”、家族座右铭及定制花纹包围,布置有维斯特洛家族印章,后盖为皮革质感,下方带有金色的坦格利安家族徽章,后盖整体还可在 44°C 以上自动变为红色,手机本体具备 IP68 / IP69 防水防尘。 联名机型的系统还内置两款定制 UI 主题,分别对应坦格利安家族与史塔克家族。配件包括维斯特洛大陆的微缩模型、铁王座造型的手机支架,以及印有维斯特洛各大家族徽章的收藏卡片。 作为参考,普通版的真我 15 Pro 搭载骁龙 7 Gen4 处理器,搭配大面积散热腔与 7000mAh 电池,并配备 144Hz OLED 屏幕,这款联名版机型的机身厚度增加到 7.84mm(标准版为 7.7mm)。
字节AI手机,来了
智东西 作者 | 江宇 编辑 | 云鹏 智东西12月1日报道,豆包手机助手以技术预览版正式亮相,搭载该功能的努比亚(nubia)M153工程样机同步开售。 nubia M153豆包手机助手技术预览版 这是首个豆包和手机厂商在操作系统层面合作的手机AI助手,其核心在于让AI直接控制系统、跨App执行任务、与硬件按键深度联动,以接近“AI原生手机”的实际形态落地。 实际演示视频显示,豆包手机助手已能在语音和侧边AI键唤醒下直接读取屏幕内容、对照片进行多模态理解、自动完成跨平台比价下单、远程控制汽车、在企业系统发起请假或报销流程,并在激活记忆功能后以更少询问完成复杂链式任务。 AI键唤醒、视频通话、语言交互 同时,豆包手机助手团队强调并没有开发手机的计划,而是在和多家手机厂商推进手机助手的合作落地。 豆包手机助手技术预览版发布后,中兴通讯A股早盘震荡拉升,截至发稿触及涨停,最新股价报46.30元/股,涨幅约10%。港股同样大幅上涨,最新股价报35.08港元/股,涨幅约11.65%。 一、豆包首次把大模型嵌入手机系统底层,从语音助手变成“操作助手” 豆包手机助手将豆包大模型融入原生交互体系,在手机使用的任意环节实现直接调用。 用户不仅可以通过豆包App,也可以通过系统级语音、侧边AI键、耳机实现唤醒,并且在浏览照片或页面时无需复制粘贴,助手便能理解屏幕内容,“这个景点在哪”或“从什么视角拍摄”这样的问句会直接返回地点和拍摄视角。 豆包手机助手将语音通话、视频通话、屏幕共享等原豆包生态能力嵌入手机系统层,双击AI键即可进入实时对话,可以对儿童绘本进行双语讲读。 在图像处理上,助手与相册原生整合,用户一句“把照片里的人和杂物剃掉”即可生成清晰的风景图,无需使用图像后处理软件。 相较于现有“手机+AI助手App”的模式,这意味着大模型一次性获得系统权限,成为手机执行层的一部分,而非仅提供自然语言回答。 二、跨应用执行真实任务成为重点能力,豆包在购物、出行、办公等场景中实现系统级自动化 豆包手机助手的核心指向“执行任务”,即AI直接替用户完成复杂多步骤操作。 豆包手机助手可通过一句“帮我把这瓶洗发水在我所有购物软件上比价并选最便宜的下单”完成淘宝、京东、拼多多、抖音商城比价,返回最低价格,并要求用户在涉及支付时手动确认,避免越权行为。 在另一个场景中,豆包手机助手在用户仅以自然语言描述需求的情况下,自动查询播客更新并加入播放列表,同时远程打开汽车前备箱、预订餐厅、在飞书上提交请假申请和差旅报备、预订周一早班高铁车票。 日常使用中,豆包手机助手还可批量安装App、同步物流、自动领券、整理文件,甚至回答“我的取件码是多少”“车停在哪里”这种已在现实中发生的信息检索。 豆包手机助手把任务执行与上下文记忆结合,在授权后将对话转换成本地文本,自动识别纪要和关键时间点并生成提醒,使其行为从“按指令执行一次操作”进化为“依据用户长期偏好持续完成任务”,这是现阶段手机AI应用尚未普遍实现的能力。 三、Pro模式引入工具链与记忆数据,只需一句话即可完成多目标执行 面向更复杂场景,豆包展示了正在研发的操作手机Pro模式,它在大模型推理之外调用Agent与工具链,执行效率更高,触发过程中的询问频率也进一步降低。 在实际演示中,用户仅输入一句“下个月去巴黎,把社媒收藏的餐厅标记到地图,再看第二天哪个博物馆有我喜欢的展览,在旅行平台订一张上午10点的票并整理到备忘录”,助手便自动完成餐厅在地图标注、基于记忆信息判断用户偏好梵高并锁定奥赛美术馆、无需再次确认时间即可完成订票,并将全过程记录整理到备忘录。 同时,豆包手机助手团队提醒,目前大模型能力仍存在不确定性。在隐私上,豆包手机助手将严格脱敏处理,相关数据使用与保存方式已在豆包手机助手官网隐私白皮书中披露。 四、努比亚M153承担早期体验载体,并不对标商业旗舰手机 豆包手机助手明确提到,豆包并不研发手机,本次硬件由合作伙伴中兴努比亚(nubia)提供,作为体验豆包手机助手的工程样机,售价为3499元。 该机采用6.78英寸LTPO屏幕,搭载高通骁龙8至尊版移动平台,具备16GB内存、512GB存储,后置三枚5000万像素摄像头和6000mAh电池,支持90W有线充与15W无线充,机身重量约212克。 官方强调,相比主流旗舰机,M153在软件功能与图像能力等方面存在差距,但仍可作为日常主力机使用。 软件方面,自发售起至2026年第一季度末将保持约每两周一次更新,节假日除外,后续节奏另行通知。 对于下一步落地路径,豆包方面称,正与多家手机厂商推进合作,第三方开发者如需将自身服务接入豆包手机助手,可通过官网联系,更多合作信息将在合适时机披露。 结语:AI手机时代的入口被撕开 过去两年,AI手机的探索更多将模型能力被限制在问答、润色、总结等轻交互任务中,难以对手机的使用方式产生实质改变。 而豆包手机助手选择了一条不同路径:直接进入操作系统,与厂商共同改造系统权限与操纵流程,把“生成回答”延伸为“执行任务”,让AI能够在真实使用环境中调度系统资源、跨应用完成行为。 当手机核心能力由AI定义,而手机品牌只负责硬件与入口设计时,手机厂商在下一轮竞争中能否保持主动,或将成为整体产业格局变革的关键命题。
特斯拉销售罕见亮点:挪威销量提前一个月打破大众全年纪录
挪威奥斯陆的Model S 凤凰网科技讯 北京时间12月1日,据路透社报道,周一公布的注册数据显示,特斯拉今年目前为止在挪威的销量已超越其他任何一家汽车制造商在该国的全年销量纪录,提前一个月创下历史新高,成为这家埃隆·马斯克(Elon Musk)旗下公司的罕见销售亮点。 尽管马斯克因支持极右翼政党及力挺美国总统特朗普,导致特斯拉品牌在欧洲多国遭遇消费者抵制, 但是在跨界车型Model Y的带动下,特斯拉今年在挪威的累计销量同比增长34.6%。 挪威公路联合会(OFV)的数据显示,特斯拉今年11月在挪威注册了6215辆新车,使其1月至11月的累计销量达到28,606辆,超越了大众汽车在2016年创下的26,575辆全年销量纪录。Model Y今年初在挪威的销量曾出现下滑,但在特斯拉自第二季度推出备受期待的改款后销量迅速回升。 特斯拉在挪威前11个月销量 由于买家赶在明年1月电动汽车税上调之前蜂拥至经销商购车,挪威11月整体汽车销量同比上涨70%。其中,特斯拉的销量几乎是2024年11月的三倍。 “当前,挪威正经历一场购车热潮。”挪威公路联合会CEO吉尔·英厄·斯托克(Geir Inge Stokke)对路透社表示。注册数据显示,在这个北欧国家上月售出的新车中,纯电动汽车占比达97.6%,这与挪威希望在2025年终结汽油和柴油内燃机汽车销售的目标基本一致。 相比之下,研究咨询公司Visible Alpha的数据显示,特斯拉今年全球交付量预计将下降7%。欧洲最新注册数据显示,截至今年10月,特斯拉在欧洲销量下降约30%,11月再次下滑。 特斯拉如今在挪威市场的地位是在该国电动汽车高额补贴背景下建立的,也使得挪威成为该公司崛起为领先汽车制造商过程中规模虽小但至关重要的一部分。十多年前,挪威就已成为特斯拉在北美以外的首个市场。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。