EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
特斯拉修改FSD定义,放弃无人监督承诺
特斯拉自动驾驶功能 凤凰网科技讯 北京时间9月6日,据美国汽车网站Electrek报道,特斯拉已改变了“全自动驾驶”(FSD)的定义,放弃了最初承诺的提供无人监督自动驾驶的目标。 自2016年以来,特斯拉一直声称,其生产的所有车辆都将具备实现无人监督自动驾驶的能力。特斯拉CEO埃隆·马斯克(Elon Musk)自2018年以来每年都声称,这一目标将在当年年底前实现。 特斯拉甚至向客户销售FSD软件套件,售价最高可达1.5万美元,承诺通过远程更新将其高级辅助驾驶系统升级为完全自动驾驶。 然而,近十年时间过去了,这一承诺仍未兑现。特斯拉已确认,2016年至2023年间生产的所有车辆都没有配备实现承诺的无人监督自动驾驶所需的硬件。马斯克一直在讨论对这些车辆的计算机进行升级,以安抚车主,但目前尚无具体实施计划。 修改FSD定义 尽管特斯拉在2016至2023年间确实向FSD购买者作出过提供无人监督自动驾驶的承诺,但该制造商现已调整官方表述,目前仅向客户提供“全自动驾驶(需人类监督)”版本。 FSD现在变成有人监督版 而且,特斯拉在细则条款指出,该功能并不能使车辆成为“自动驾驶车辆”,也并未承诺将其作为车辆特性提供。换言之,现在购买FSD功能的消费者,实际购买的已非早期用户所期待的那种无需人类监督的自动驾驶能力。 模糊处理 此外,特斯拉董事会刚刚向股东提交了一份前所未有的CEO薪酬方案。若实现特定业绩目标,马斯克最高可获得价值1万亿美元的股票期权,其中一项业绩目标就是特斯拉实现1000万活跃FSD订阅。 乍一看,这对FSD买家似乎是个好消息,因为马斯克的部分薪酬将取决于兑现FSD承诺。然而,特斯拉在薪酬方案中修改了FSD的定义,给出的版本极其模糊。 “FSD指的是一种先进的驾驶系统(无论其营销名称如何),能够在特定驾驶条件下执行提供自动驾驶或类似功能的运输任务。”特斯拉称。 特斯拉现在仅将FSD视为一种“先进驾驶系统”,应当“能够执行提供自动驾驶或类似功能的运输任务”。当前版本的FSD仍需驾驶员持续监督,非常容易符合这一描述。 因此,FSD现在不再包含特斯拉最初承诺的车主能够在车内睡觉、醒来时到达目的地的功能。多年来,这一承诺一直被马斯克用来推销特斯拉车辆。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
骁龙8 Gen3手机CPU该上车吗又引争议,半年一改款 汽车变成快消品了吗
快科技9月6日消息,现在的汽车行业更新速度堪比智能手机,企业半年一改款、一年一换代,俨然让其变成了快消品,这也让不少车主刚提车就被背刺。 什么是快消品?一般来说,快消品是指使用寿命较短,消费速度较快的消费品,主要包括包装的食品、个人卫生用品、烟草及酒类和饮料等日常用品。与之相对的概念则是“耐用消费品”,通常使用周期较长,一次性投资较大。 一直以来,汽车作为仅次于房产的大宗消费品,都归属于耐用消费品的范畴。对于上述问题的界定,北方工业大学汽车产业创新研究中心研究员张翔表示,汽车虽然呈现出一定的“快消品化”趋势,但汽车从本质属性、生产模式以及配套售后等多方面来看,与传统意义上的快消品仍存在巨大差异。 张翔表示,一辆汽车的售价少则数万元,多则数十万元甚至更高,消费者在购买时往往会经过长时间考虑、比较,包括对品牌、性能、安全性、售后服务等多方面的考量,而且汽车的使用寿命一般较长,即便技术在进步,车辆在正常保养维护下,行驶多年也依然能够满足出行需求,不像快消品那样短时间内就会被消耗完毕,需要再次购买。 “从价格上看,汽车还是比快消品要贵得多,它的使用寿命相对于快消品来说比较长。只能说汽车越来越趋向于电子产品,它变成一个智能化的交通工具,但是汽车目前不属于快消品。” 多家车企的负责人近期也明确表示,汽车的本质仍是耐用品。某汽车品牌负责人认为,即使用户换车频率加快,安全、耐用、可靠依然是首要标准,这意味着不能用快消品的逻辑开发汽车。造车永远要符合“车规级”标准,而非“消费级”标准。 某汽车品牌销售公司负责人近期也曾表示,消费级和车规级芯片差别很大,汽车不是快消品。这也又一次引起网友的争议,比如骁龙8 Gen3手机CPU该上车吗? 据了解,车规级芯片是指通过了国际标准AEC-Q、ISO 26262和IATF 16949等一系列认证的芯片。日常用的手机、电脑、智能家居等消费电子产品上用的是消费级芯片,消费电子一般都用在室内温暖舒适的环境,而汽车要面临高温、低温、雨雪、沙尘、颠簸、震动等更复杂恶劣的环境,对可靠性的要求更高。 所以在行业和专家看来,所谓的“半年一改款、一年一换代”,更多的还是原有产品的延伸微调或软件升级,很难在硬件层面上实现快速升级与迭代。 张翔举例说,未来汽车的商业模式将更丰富、灵活。消费者买车,甚至可以只买它的服务,像手机一样,比如说签一个两三年的合约,每个月最低消费多少钱,即可使用车辆。服务里面包括汽车充电费,停车费,高速公路的过路费等,以及维修、保养、洗车等。消费者只要买一个服务包,车就可以归自己用。 同时,随着汽车电动化与智能化水平提升,不同品牌、车型还可共用底盘——当前市场已出现的“滑板底盘”便是此类产品,能个性化设计,让每辆车的外观、内饰布局都不同,这也成为汽车行业的一个发展趋势。
中国汽研推出智能驾驶测评体系,首次对智能驾驶能力进行科学分级
IT之家 9 月 6 日消息,据央视新闻报道,近日,中国汽车工程研究院推出“智能驾驶金字塔分级测评体系”,首次对智能驾驶能力进行科学分级,为行业提供了从基础合规到技术前沿的全维度评估参考。 IT之家从报道获悉,该体系基于技术成熟度将智能驾驶划分为“安全基线”“综合优选”“极智拔尖”三个层级。其中,安全基线层以法规符合性为核心,覆盖国内外标准测试,确保基础功能合规;综合优选层以“好用”为标准,通过封闭场地与开放道路双重测试,复现消费者日常典型场景,多维度筛选“优等生”;极智拔尖层则进一步拔高难度,针对一些用车的复杂临界场景开展极限工况测试,量化系统拟人化决策能力。 中国汽车工程研究院智能网联汽车测评研究中心主任李朝斌介绍,这套体系有我们积累的百余款车型的智能驾驶测评数据库作为支撑,填补了国内智能驾驶行业分级分层测评体系的空白,能够帮助企业更好地开发智能驾驶产品,同时又能解决消费者“选车难”的痛点问题。 专家告诉记者,本次推出的智能驾驶测评体系由中国汽车工程研究院携手行业内 14 家单位联合研究共建,目前已在国内多家车企的产品开发中得到应用,共有 100 多款主流车型通过体系内相关测评,平均得分较三年前提升 20% 以上。
极狐T1还没上市就被传降价,官方呼吁抵制“以黑代竞”不良风气
IT之家 9 月 6 日消息,继 9 月 1 日发布声明后,极狐法务部昨晚再度发布声明,称短期内今日头条、小红书、抖音等平台再次出现批量有组织的恶意黑帖。 官方表示,黑帖内容聚焦极狐 T1,编造所谓“官降方案(捏造并散布极狐 T1 在意向客户支付订金后即大幅降价的谣言)”、“故障解析报告”、“拖延上市”等虚假信息,雷同内容每日近百条,已严重误导市场判断,对我司商誉和极狐汽车声誉造成伤害。 声明称,“极狐 T1”车型于 2025 年 8 月 22 日开始预售,并开放预订渠道,但尚未正式上市。公司尚未公开“极狐 T1”定价,不可能存在所谓的降价等事件,“极狐 T1”尚未正式上市、交付,也不可能存在所谓质量故障问题。 官方指出,此类编造、传播虚假信息、不计后果的恶意抹黑行为,严重侵犯了我司的商业信誉和商品声誉。同时,该行为严重违背商业伦理,不排除系其他经营者为抢夺市场份额、打击竞争对手所采取的不正当竞争行为。 对此,极狐已采取证据深挖和固定、平台协查等措施维护自身合法权益。极狐还重申,对恶意抹黑行为坚持“零容忍”,无论涉及多少批次、多少主体,必将追究到底;同时呼吁行业同仁共同抵制“以黑代竞”的不良风气,通过技术创新与服务升级赢得市场。 IT之家附官方原文截图:
华人做出利润率堪比iPhone的智能硬件
AI智能设备又有希望了? 或许你还记得humane pin和rabbit R1,它们都曾作为“颠覆性”的AI硬件设备进入市场,吸引无数目光。但它们也都迅速陨落,成为了科技史中一小段插曲。 但是科技界并未放弃AI智能设备,初创公司也仍然有希望突出重围,硅谷最近从一位华人创办的公司Plaud身上看到了这一点。 其模式结合中国的供应链优势和美国旧金山的软件优势,其产品聚焦AI录音这个细分领域,全球出货量已达100万台。公司成立不到四年,已经达到2.5亿美元的年化收入,早就实现盈利。 更有意思的是,Plaud一直很低调,几乎没有公开融资的消息。就算走红之后,也对外部投资表现得不是很热情。 8月27日,Plaud发布了最新产品Note Pro,延续了可磁吸卡片式的外观设计,集成OpenAI、Anthropic、谷歌等多家模型,和手机App配合支持多模态输入。 这并不是一个“天才创业者”的故事,创始人许高是90后,本科就读于武汉大学,在Plaud前已经有三段不算成功的创业经验,第一次创业时甚至“最后把家里准备的学费烧完”了。 01 那个创业失败的大学生 Plaud并不是许高的第一次创业。 2012年,在武汉大学读大四的许高去荷兰当交换生。作为金融专业的学生,许高原本的计划是像大多数同学一样进入银行业,但交换期间参与的一些创新课程激发了创业灵感。 他和一个刚保送到北大国发院的同学一起,创办了一家帮助学生群体选择和申请海外大学的网站。 但是用他自己的话说,当时一“没想好怎么变现”,二也“缺乏执行力”。在烧光了父母给准备的研究生学费后,许高的首次创业宣告失败。 之后许高还尝试过两次创业,一次是做一级市场初创公司推荐引擎,另一次做的是类似“拼好饭”的业务。 这三次创业都不算成功,但也为许高积累了一些经验。那之后,他曾在北京基金华创资本担任投资人,投资了印尼数字银行Akulaku等初创公司,该公司目前估值20亿美元。 但许高创业的心还是没有熄灭。到了2021年,许高第四次有了创业的想法。 这次他吸取了之前的教训——创业不仅要有点子,也要能看到后续变现的路径。在一番寻找中,许高锁定了“录音设备”这个赛道,而且是海外市场。 国内的小硬件市场一直比较活跃,讯飞、搜狗等公司也有推出录音设备,深圳的工厂接连不断地生产出各种有智能录音功能的录音笔、手环、吊坠等小设备。但是海外市场完全是另一番景象——录音硬件产品只不过是索尼、飞利浦、Olympus这些大公司的一条颇为沉寂的产品线。 另一方面,谷歌的转录App“Live Transcribe”却已经有10亿下载。也就是说,海外用户并非没有这方面的痛点。 在Plaud和“录音卡片”产品被推出之前,许高的团队面向海外市场推出了一款名为Izyrec的迷你录音设备,定价50美元,大获成功。有意思的是,当时Lzyrec因为特别适合“抓出轨”而出圈。 2021年11月,NiceBuild公司成立,后改名为Plaud,总部就设立在美国旧金山。到2023年初,公司就已经开始盈利。 而在那个节点,ChatGPT已经诞生了,AI浪潮席卷全球,许高嗅到了新的机会。 02 机会来了 到了2023年的6月,Plaud在Kickstarter上开启全新产品的众筹,众筹的宣传视频是在越南工厂“听清”中国工程师的塑料英语,直击痛点,清晰有效。短短30天,这款产品就筹集了100万美元。 这款产品就是后来的Plaud Note:一个仅3毫米厚的“卡片”式AI录音设备,可以直接磁吸在手机背面使用。ChatGPT和Gemini双模驱动,60种语言实时转文字,自动生成思维导图。录音操作方便(有实体按键),同时配合手机App使用,达成更多复杂功能。 据《福布斯》,Plaud充分利用了中美优势,硬件在供应链完整且细致的中国生产,美国旧金山办公室则负责软件开发。 再也不是简简单单的小录音笔,Plaud Note定价比前身产品高,基础售价159美元,还玩起了付费订阅,免费转录每月300分钟,每年79美元解锁Pro Plan,包含1200分钟转录和其他高级功能。 瞄准的也不再是看似覆盖广泛的所有人,而是白领、律师、医生等繁忙的职场人士。 正如许高当初调研的判断,海外市场非常欢迎这款AI录音产品。Plaud Note销量爆炸式增长,在2024年的CES中斩获了创新奖。 同一年,Plaud还推出了一款胸针式的迷你AI录音设备Note Pin,售价169美元,定位“记忆胶囊”。Note Pin重量仅约30克,支持112种语言转录,录音后通过AI生成结构化总结、思维导图等,有40天待机时间,可20小时连续录音。 到了2024年11月,据Z Potentials报道,Plaud年化收入达到1亿美元,连续两年实现十倍增长。创始人兼CEO许高在接受《时代》杂志采访时透露,其产品已向全球出货近70万台。 相关数字还在增长。今年7月底,Plaud官方宣布全球销量突破100万台。《福布斯》报道,Plaud年化收入已达2.5亿美元。许高透露,其产品利润率与苹果每售出一部iPhone所获得的25%利润相当。 就在上个月,Plaud第三款正式产品Plaud Note Pro高调上市,麦克风从前代的三个增加到五个,可以捕捉最远5米外的声音,充电2小时即可连续录制50小时。 在软件层面最核心的AI功能上,Note Pro支持了更多模型,包括OpenAI、谷歌和Anthropic等的大模型。并且是多模态的——这意味着你可以添加图片和文本,然后 Plaud Intelligence 会对其进行整体分析。 除此之外,相比起前代,Note Pro还新增了一小块AMOLED屏幕,可以显示续航或录制状态,还可以突出显示对话重点。 这次新品发布,已经一扫众筹上线的往昔,包括《福布斯》、The Verge、CNET等海外媒体纷纷报道,Plaud新品,已经是科技圈颇为期待的存在。 产品定位精准,不断打磨;公司低调,连公开的融资消息都没有(根据36氪此前的报道,Plaud大火之后,一些感兴趣的投资人甚至连创始人的面都见不到),却实现了盈利。 媒体津津乐道,在市场被Humane Pin、Rabbit R1等小型独立AI设备的迅速熄火而倍感失望时,Plaud让人重拾希望。 可是希望背后,隐忧仍在。 03 硬件创企的困境 在后来的很多采访中,许高反复提及“PMF”,即Product-Market Fit,产品与市场需求的高度匹配。 产品能够满足目标市场的核心需求,获得用户认可并实现可持续的增长。它是创业公司或新产品成功的关键指标:首先,用户对产品的强烈需求(“非买不可”);其次,产品达到高用户满意度、留存率和复购率;最后,市场规模足够大,能支持产品的商业化。 在Plaud推出Note的同一年,2023年,Humane也曾经大受关注。彼时Humane宣称“会改变一切”,定位为智能手机替代品,并在CES上赚足眼球。其产品Humane Pin无屏幕,采用投影交互,售价699美元。 但是第二年,其产品就被评为“最差产品”,因为反应慢、过热、续航低、投影界面不直观等种种问题被市场抛弃。到2024年8月,Humane Pin仅售7000台(被退货8000台)。 今年2月,Humane卖身HP,项目终止。 有相似命运的还有Rabbit R1,一个售价199美元的手持方形橙色设备,以“大型动作模型”(LAM)操作应用,号称要“取代手机的复杂功能”。 Rabbit R1有绚烂的开端,首日预定1万台,10天内超10万台。但很快,用户发现Rabbit R1支持的应用功能少得可怜,依赖云端导致设备反应迟缓,也没有解决手机无法解决的痛点。 不到半年,Rabbit R1的日活就掉到了5000,就这款产品来说,已经几乎没有翻身的可能。 从PMF这一点来说,二者似乎都已经满足了“用户对产品有强烈需求”这一点,但是产品都没有让用户满意,没有足够的留存和复购率,也就无法走到规模化和商业化那一步。 从这个角度来说,Plaud已经走得比Humane、Rabbit远太多。 但是始终有把剑悬在所有初创AI硬件公司头上,Plaud也不例外——录音设备(在海外市场)曾是一个小厂做不起、大厂不稀罕做的东西,Plaud做成了,但接下来,明星公司或巨头如果入场,Plaud的生存空间还可以保持吗? Omi和Limitless等一批新兴初创公司纷纷推出可穿戴设备,而亚马逊刚刚收购了小型笔记设备初创公司Bee ,收购金额未公开。今年5月,OpenAI斥资64 亿美元,将 iPhone 设计师乔尼·艾维的未来人工智能设备收入囊中。 即便是在AI录音工具这个细分赛道,苹果已经悄悄地将语音备忘录的免费转录功能捆绑到其Apple Intelligence更新中,Zoom、微软以及Granola等初创公司也提供了类似的笔记工具。 许高曾在接受Z Potentials采访时,这样回答相关问题: “对Apple来说,推出一个类似的APP就像玩一样的简单,但为什么他们不去做呢?因为对于这些巨头来说,他们的目标是服务全球数十亿用户,他们提供的体验是非常通用的。而我们专注于为专业用户提供专业级的体验,从每一个功能到整体产品的每个细节,都能让用户感受到差异化,我们的用户能够感知到这些不同,这正是我们与通用解决方案的核心区别。” 但唱衰的人没有被说服。《福布斯》称至少有一位前苹果内部人士认为,Plaud最终可能会成为又一个数字进化的死胡同,就像Tivo电视录像机等其他被遗忘的设备一样。 “你必须审视这些设备,然后问自己:‘它们仅仅是功能,还是产品’”“iPod之父”、被谷歌收购的Nest的创始人托尼·法德尔 (Tony Fadell) 说。 摆在Plaud面前的至少有三种可能的未来:昙花一现之后陨落;被吸纳成为巨头的一部分;或者,继续作为独立企业长青,正如许高所期望的那样。
谷歌为什么又行了?
苹果重启与谷歌的合作,考虑使用的Gemini来为改版后的Siri提供支持。 彭博新闻社报道称,预计的 Siri 升级版(目前计划于 2026 年发布 )可能会以定制版 LLM 的形式推出,该版本由谷歌的 Gemini 聊天机器人提供支持。 这是苹果数月来探索外部合作伙伴关系的最新举措。这笔潜在的“世纪联姻”一旦达成,将不仅是Gemini技术实力获得业界最高认可的标志,更是其影响力横向扩张至数亿iPhone用户的里程碑事件。 这将为谷歌AI技术开辟前所未有的广阔应用场景和数据反馈环路,为未来的商业化,包括可能的API授权和订阅服务,打开了一道全新的大门。试想如果谷歌能将Gemini的能力接通安卓和iOS两大生态,将会迅速让自己在用户规模上大大缩小和OpenAI的ChatGPT的差距。 而对于苹果来说,和谷歌的合作能够延续在搜索业务上的良好关系,让iOS生态在底层上首次接入大模型,为广达的iOS用户提供最领先的技术带来的体验和生态革命。 而一年多以前,当苹果传出和多家大模型供应商商谈合作的时候,OpenAI是当时被外界认为最有可能成为苹果客户的一方。谷歌因为模型能力一般,发布会翻车等负面因素,在苹果眼里一直不是第一顺位的选择。 时隔一年多,为什么谷歌又能被苹果看上了呢? 01 最重要的原因肯定是Gemini在最近一年多取得了长足的进步,不论是性能上还是用户数目上大幅增长。 在LLM Arena上,在多项排名中Gemini都处于绝对的第一梯队。 特别是多模态方面,作为原生的多模态大模型,Gemini也一直是性能最好的模型。 而如果说苹果的合作意向还停留在「传言」阶段,那么Gemini在用户增长上的表现则是实打实的「硬数据反击」。 根据a16z最新发布的报告,Gemini正在以惊人的速度追赶ChatGPT。 Google的Gemini在网站流量方面排名第二,其网站吸引了约ChatGPT 12%的流量。在移动端,差距缩小了:Gemini达到了ChatGPT大约一半的活跃用户数。 更令人瞩目的是增长数据。Gemini的增长轨迹非常陡峭,网站访问量从2月份的2.84亿次增长到7月份的7亿次,而ChatGPT为57.2亿次。 Google在前50名网站中还有其他三个工具:AI Studio(第10名)、NotebookLM(第13名)和Google Labs(第39名) 截至2025年7月,Gemini已经达到4.5亿月活用户,相比5月份的4亿用户更是实现了显著增长。 Gemini在权威编程能力测试和AI IQ榜单中也均名列前茅。Gemini 2.5 pro的IQ排名在AI中最高,智商高达 137,这一成绩表明,Gemini 2.5 Pro 处理逻辑推理、抽象思维、模式识别等复杂任务的能力,已经可以与人类社会最顶端的少数人相媲美,不再仅仅是一个模仿和重复的程序,而是展现出一定程度接近人类高阶智慧的解决问题能力。 其代码编写和多模态理解能力也广受赞誉。 从技术评测到实际用户采纳,Gemini了证明其作为新一代AI基础设施的领导地位,和OpenAI的ChatGPT差距已经越来越小。 而除了在大模型领域,Gemini正在加速追赶ChatGPT,谷歌正在以“全火里覆盖”的方式正在让自己的产品和技术彻底革新AI应用的各个赛道。 02 2025年8月,AI生图圈突然被一个神秘的模型搅得天翻地覆——“Nano Banana”。 起初,没人知道这个奇怪代号背后是谁家的产品,但它在各大AI竞技场上的表现让所有人都瞪大了眼睛。 直到Google揭晓答案:Nano Banana正是Gemini 2.5 Flash Image的代号。 其全新推出的图像生成模型Nano Banana目前已迅速晋升为生图圈的“当红炸子鸡”。 Nano Banana以其卓越的图像生成质量、细节把控能力和用户友好的操作界面,在与主要竞争对手的直接对比中脱颖而出。 与传统图像生成工具不同,Nano Banana展现出了对视觉逻辑的深度理解。它不再满足于单纯的「画图」,而是能够理解图像中的空间关系、物体属性,并在保持逻辑一致性的前提下完成复杂的编辑任务。 其生成图像的逼真度、风格多样性以及对复杂提示词的理解能力令人惊叹,许多用户将其描述为“疯狂”,这也正是它能够得以病毒式传播的原因。 Nano Banana最大的突破在于其自然语言理解能力的提升。用户可以用日常语言描述修改需求,模型能够精准理解并执行复杂的图像编辑任务。 这种交互方式的革新,让图像编辑从专业技能变成了人人都能掌握的日常工具。 Nano Banana不仅有效解决了用户在使用AI图像生成工具时遇到的痛点,同时深度融入了Gemini的图像编辑功能,这使其能够直接在现有图片上进行复杂的操作和修改,极大地提升了用户的工作流效率。 Nano Banana的成功不仅是模型规模的胜利,更是谷歌在用户体验和产品整合上的精准洞察。 在视频生成领域,谷歌同样展现出统治级的实力。其最新的视频AI模型Veo3正以其惊人的视频生成质量,成为视频AI领域的“王者”。 它最大的创新在于实现了高保真的视频与音频同步生成,包括对话、音效与环境声音的完美结合。业界对Veo 3的评价普遍很高,认为它已经从实验性工具演变为可以纳入专业制作流程的实用工具。 现实中,越来越多的内容创作者开始将Veo 3纳入自己的制作workflow,用于快速原型制作和创意验证。 Veo3生成的视频内容极其逼真、流畅且富有创意,其质量已经达到了足以颠覆传统视频制作流程的水平。 Veo3的出现,无疑为影视制作、广告创意和数字内容产业带来了革命性的冲击和无限的创作可能。在视频长度、分辨率、一致性维护等关键指标上Veo3都有显著提升,在音画同步方面的表现尤其突出,目前在行业内难有匹敌。 与此同时,Nano Banana和Veo3项配合的工作流更是为彼此几何级数地助力。 Veo 3 现已登陆 Google Photos,更进一步打出了谷歌的平台实力,大大改进了原有的照片转视频功能。谷歌表示,现在该功能可以用来“将静态图像转换为更高质量的短片”。 更具里程碑意义的是,DeepMind推出的Genie3已成为世界模型的全新标杆。 Genie3作为一款分辨率720p的通用型世界模型,能够通过文本提示词生成并模拟长达数分钟的互动式3D虚拟环境,其多样性和沉浸感前所未有,环境还会对用户的操作做出反应,甚至还可以输入新的提示来改变 3D 环境。 它能从图像、文本、视频等多种输入中学习,并生成可交互、具有物理规律的“世界”。 Genie 3的意义远不止生成虚拟世界。它为训练更通用的AI Agent打开了新的可能性——能够「凭空」创造出无穷无尽、风格各异的训练环境。 这不仅是AI在理解、预测和创造复杂世界方面的一次巨大飞跃,更预示着未来虚拟现实、游戏开发乃至通用人工智能(AGI)的无限可能,为构建更智能、更互动的数字宇宙奠定了基础。 03 看到全力出击的谷歌,连马斯克也再次不得不感叹,谷歌将再次领跑AI时代。 他今年8月发推认为,基于谷歌现在有全世界最大的算力基础能力和数据优势,它是AI行业中最有可能成为领袖的公司。 而马斯克的观点似乎也为寻求谷歌如何完成AI逆袭提供了一个基本的思考框架——算力,数据是决定一家AI公司是否能够高速长期发展的基本前提。 谷歌早在10年前就启动了专门针对AI任务设计的计算芯片TPU的研发,经历了10年的不断迭代发展,谷歌的TPU已经成为目前世界上最先进的AI芯片。因为它专门针对AI计算进行开发,它的能耗效率甚至超过了英伟达的GPU。 而且谷歌的TPU集群是除了英伟达的GPU之外能规模最大的能够大规模部署并进行AI训练和推理的AI芯片。 而且在之后的迭代中,谷歌多年积累的AI芯片设计能力能够针对自己的业务和AI行业发展的最新趋势进行更新迭代,充分保证了谷歌未来不会处于算力焦虑之中。 当英伟达的最高性能GPU依然供不应求,被所有的科技大厂疯抢时,当OpenAI为了缓解自己的算力渴求而到处新建数据中心,寻求更多的算力供应时,谷歌的TPU集群提供的算力不但已经能够满足自己业务的AI算力需求,甚至还出现了富余。9月3日,据海外媒体报道,谷歌正在和一些小型的云供应商进行合作,将原本只供自用的TPU算力开始向第三方进行销售。 而作为对比,马斯克也试图自己研发AI超算芯片,但是在经过多年尝试未果之后,只能放弃研发,采用英伟达的GPU作为AI算力的基础设施。这样未来在算力的成本和效率以及自主性方面和有自给自足能力的谷歌相比将会处于劣势。 谷歌始于10年前的AI硬件布局,开始到了收获的时间。 要满足Gemini日益增长的用户量背后带来的大规模推理需求,还要能同时训练新的模型,不断更新大模型能力,还要能支撑视频模型,生图模型的推理和研发,如果谷歌没有夯实的算力基础,是完全不可能做到。 就像一家面馆,如果你的面粉供应严重依赖市场上非常枪手的第三方供应商的供货,你很难想象它能不断推出新的品类甚至开新的分店。而谷歌能够自给自足的算力,就是它能同时多面出击,持续迭代模型能力,研发新模型的底层保障。 除了算力优势之外,谷歌AI业务另一条深不见底的护城河是他的数据优势。 多年的搜索领域霸主地位让谷歌积累了海量且珍贵的用户数据。而且作为全世界最大的视频平台Youtube的母公司,它能触及到世界上规模最大的多模态数据。可以说谷歌发展多年的传统业务,为它能够在AI时代全力冲刺提供了一个取之不竭,用之不尽的数据金矿。 这可能在某种程度上也解释了为什么在多模态AI领域的竞争中,谷歌是发力最晚,但取得的成绩最为显著的公司。 而除了用于训练AI模型的数据,谷歌Chrome和安卓生态能够帮助谷歌及时将AI能力运用到最广泛的c端市场。海量用户在深度使用时产生的数据为谷歌进一步优化自己的AI服务体验,找到用户使用中的痛点,提供了依据,从而在未来模型的开发中,能够做出更有针对性的,优化和功能选择。 Nano banana的成功某种程度上就是谷歌能够敏锐捕捉到用户需求,从而在模型层面进行产品化设计的一个最新的例子。 如果谷歌未来能够继续深度的将用户使用AI过程当中呈现出来的需求,通过自己的AI服务进行满足,相信谷歌一定能找到一条不同于其他企业的,更好的将AI能力服务于广大用户的研发和迭代路径。 这也许也是苹果选择谷歌作为自己AI服务供应商一个很重要的考量。毕竟只有谷歌现在拥有在设备端将AI服务提供给接近于苹果用户量级的客户群体的经验。 而除了算法和算力这两哥谷歌所拥有的巨大优势之外,谷歌反击背后还离不开多年来积累的人才优势。 随着硅谷AI人才的争夺进入到白热化阶段,手握大量资金算力以及丰富的用户数据的谷歌,对于人才的吸引力来说是毋庸置疑的。人才能给AI业务发展带来的最重要的因素就是算法上的创新。硅谷多年来积累下来的AI人才的储备和管理经验,以及对新入行的AI人才的吸引力,使得他们一直以来都是行业的人才智力高地。 比如在OpenAI带队开发出Sora的Tim Brooks,在2024年10月就加入谷歌,负责开发新的世界模型。而最近放出的Genie 3就是他们团队的最新作品。 而在硅谷的AI人才抢人大战中,谷歌为了避免核心人才的流失,开出了2000万美元的年薪。而除了令人咋舌的薪资,谷歌对这样的顶尖人才的吸引力,还是在于他们能够给项目提供行业里最好的算力和数据保障,能够帮助顶尖人才做出行业里最有影响力的成果。 而在组织管理层面,谷歌也在不断优化,将人才的战斗力系统性的放大。 而在去年谷歌将DeepMind和Google Brain两个研究型机构合并统一为AI战略的中枢之后,原本更偏向于科研机构的DeepMind现在已经成为了一个生产AI应用的创新工厂。 去年10月,Gemini品牌化之后,谷歌把 Gemini App 团队并入 Google DeepMind;同时把 Assistant 的设备侧 并到 Platforms & Devices。前者确保“应用团队成为模型一方的直接客户”,反馈与数据更快回流;后者则让端侧能力(Android/芯片/硬件)围绕“AI 本地推理与协同”一体化推进。2025 年移动端用户从 Assistant 迁移到 Gemini,更是把体验、数据和增长目标统一到了一个坐标系内。 谷歌作为近些年来论文产出最高的组织,为了应对AI行业的竞争已经将AI论文的发表标准进行了更改,如果论文成果被评估为能为谷歌带来竞争优势,论文可能将被谷歌雪藏,避免公开Transformer这样具有划时代意义的科研成果,为竞争对手做嫁衣的情况再次出现。 也许未来,谷歌公开发表的AI论文会越来越少,但是像nano banana这样的具有优秀创新基因的AI产品会大量出现。 而作为过去20年AI领域投入最大,为人类AI发展贡献最多,现金流最为充沛的科技公司,谷歌在AI-First之后,将逐渐成为科技大厂中AI改革的标杆,值得更多的关注和期待。
一键照片手办化:谷歌Gemini上线“Nano Banana”文生图模型
IT之家 9 月 6 日消息,继 ChatGPT 掀起“吉卜力、像素风”AI 生图热潮后,近期海外出现利用 Gemini 2.5 Flash Image(代号 Nano Banana)AI 模型“照片模型手办化”玩法。 IT之家注意到,目前谷歌 Gemini 已正式上线相应模型,用户在首页即可看到带有香蕉 Emoji 的“🍌 用 Imagen 生成图像”按钮,点击按钮后即可通过提示词生成图像,无需专门访问 Google AI Studio 生图。 以“照片手办化”为例,用户可以输入如下提示词,并上传照片进行 AI 生图: Please turn this photo into a figure. Behind it, there should be a paper box which has partially transparent plastic window, with the character from this photo printed on the box. In front of the box, on a round plastic base, place the figure version of the photo I gave you. I’d like the PVC material to be clearly represented. It would be even better if the background is indoors. IT之家获悉,Gemini 2.5 Flash Image 于今年 8 月 26 日发布,是目前谷歌最先进的图像生成与编辑模型,企业用户可通过 Vertex AI 获取。Gemini 2.5 Flash Image 的定价为每 100 万输出 token 30.00 美元。单张图像为 1290 个输出 token(即每张图像约 0.039 美元,IT之家注:现汇率约合 0.28 元人民币)。所有其他输入和输出模态的计价均遵循 Gemini 2.5 Flash 的定价标准。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。