EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
孙正义首次回应清空英伟达股票:含泪卖的,为了筹钱投资OpenAI
图注:孙正义 凤凰网科技讯 北京时间12月1日,据彭博社报道,软银集团创始人孙正义(Masayoshi Son)周一表示,如果软银拥有无限资金来支持其在AI领域的下一轮投资,他绝不会抛售英伟达股票。软银的这些投资包括大举押注OpenAI。 这是孙正义首次回应软银清空英伟达股票。今年11月,软银意外披露,公司已经出售了所持世界最具价值公司英伟达的全部股票。 周一,孙正义在东京举行的一场论坛上表示,软银只是需要筹集资金来支持包括数据中心建设在内的项目。 “我一股都不想卖。我只是更需要钱去投资OpenAI和其他项目,”孙正义在FII Priority Asia论坛上说,“我是含泪抛售英伟达股票的。” 与此同时,他还驳斥了AI投资泡沫论。现年68岁的孙正义在论坛上表示,那些讨论AI投资泡沫的人“不够聪明”。他指出,如果AI未来能贡献全球GDP的10%,这将超过甚至数万亿美元的累计投入。“泡沫在哪里?”他反问道。 眼下,软银正通过一系列项目加倍押注AI领域,包括与鸿海精密合作建设“星际之门”数据中心、收购美国芯片设计公司Ampere Computing LLC,并计划在今年底前增加对OpenAI的投资。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
豆包“输入”微信里
几天前,豆包又推出了一款新产品——豆包输入法。 输入法是古老的工具型产品。在移动端,用户早已习惯了使用手机自带的输入法,或是沿袭PC时代的习惯,使用搜狗输入法、QQ输入法等。 直到2022年微信输入法横空出世,这块稳得不能再稳的市场才迎来新的变量。凭借微信的庞大用户池,微信输入法很快成为许多用户的新选择。 但如前所述,微信对于输入法似乎兴趣不大。过去三年间,它并没有给输入法增添复杂花哨的功能,即便是AI能力也十分克制。这也和微信长期以来的产品哲学一脉相承。 相比之下,豆包输入法显得颇为“激进”。 它把语音输入作为最大卖点,传统的键盘输入只保留了拼音输入法,试图以更简单的使用体验吸引用户。 但显而易见的是,豆包及其背后的字节,并非对输入法市场产生了浓厚兴趣。豆包输入法更像是字节对微信的又一次突袭,角度极其刁钻,又十分精妙。 豆包此前已经成为国内用户量最大的AI APP,MAU(月活跃用户)达1.7亿。但与14亿MAU的微信相比,豆包仍存在数量级的差距。 这就造成了一个长期问题:字节使出浑身解数,为豆包吸引了近2亿用户;但倘若微信全面接入腾讯自己的AI服务,那么字节在AI应用层被腾讯反超,并非不可能。 事实上,腾讯已经在这么做了——微信搜索框已经演进为“AI搜索”。 豆包的解法是:既然无法正面击败微信,那就“化身”工具型应用,直接“住进”微信的聊天框里,满足微信用户的AI应用需求,从微信汲取新用户。 豆包输入法,就在这样的背景下诞生了。 除了输入法,从最基本的截图,再到效率化的办公工具,最后是会议纪要的智能,豆包正在针对微信的一系列“槽点”做文章,以期获取增长。 背负着十亿用户的微信,遇上豆包这个挑战者。前者实力雄厚,后者却不按常理出牌、专门挑微信的“软肋”进攻,肉搏战才刚刚开始。 A 打开豆包输入法,其页面布局、配色几乎和微信输入法相同,降低了用户从微信输入法切换到豆包输入法的门槛。 与微信输入法相比,豆包输入法的优势在于语音识别。 豆包用的是Seed - ASR2.0模型,而不是传统的机械转写语音。相较于传统语音识别,基于大模型的语音识别能够理解上下文、识别专业术语、自动断句。 实测中,能过滤说话时的 “嗯、呃” 等口头禅及重复表述,还会依据语境梳理语义。就算是用中英混合表达 ,比如“帮我scan入电脑做个copy,再share给大家” ,豆包输入法依然能准确识别并转写。 此外,当用户处在嘈杂的环境里用语音输入时,豆包也能够准确过滤背景噪音,识别出真正的语音内容。 使用微信输入法测试同样的内容,微信输入法也能识别中英混杂的语音。但是在嘈杂环境中,尤其是地铁场景,豆包输入法则更准确一些。 豆包输入法还提供了150MB的离线语音模型,无网时也能实现0.8秒低延迟语音转换,而微信输入法在离线场景下的语音识别表现较差,小错误较多。 相较于微信输入法,豆包输入法取消了输入法皮肤管理、五笔输入,手写输入、AI搜索等功能,仅保留了拼音输入和语音输入。 此外,豆包还压缩了安装包的体积,APK有146MB。相比之下,微信输入法安卓版将近200MB,iOS版更是有400MB。 但豆包输入法也有一些巧思。 比如输入“吴承恩是哪个朝代”,微信输入法会联想“的人”,而豆包输入法则是会在联想窗口回答“明朝”。当用户输入 “CT 值” 这类专业词汇时,豆包输入法能关联医学解释。 微信输入法: 豆包输入法: 豆包输入法发布时,字节方面表示之所以要删除传统输入法常见的功能,就是为了凸显AI元素,把AI作为输入法的核心竞争力来打造。 相比之下,微信似乎更看重输入法作为生态补充的角色,并没有投入全部资源去做极致的AI体验。微信输入法的关联更多是辅助社交场景的简单功能,像输入关键词关联表情包、小程序等,在深度语义联想、专业内容辅助上稍显不足。 微信输入法发布于2022年,2024年6月它就推出了接入腾讯混元大模型的首个AI版本,2025年1月更是迭代到了4.0版本。可是在实际产品的体验过程中,微信输入法的AI能力,展现得相当克制。 B 这不是字节第一次对微信发起挑战。 早在2019年,字节就推出独立社交产品多闪,主打视频社交,以“随拍”等功能对标微信朋友圈,发起对微信社交版图的首次高调挑战。 2025 年多闪更是密集迭代31次,升级为专注即时通讯的“抖音聊天版”并登顶应用商店社交榜,再次以生态协同的方式与微信形成竞争。 随着AI时代到来,豆包成为字节挑战微信的又一员大将。 2025年6月,豆包全量上线了AI播客功能。该功能最大的特点是真实感很强,比如自然的停顿、“嗯” 这类附和语,甚至偶尔还会出现主持人口误修正。 同时,豆包AI播客的处理速度很快,8万字的英文文档播客只需要3秒就能完成转换,且提供多音色选择,还会自动为播客配图、生成进度条和标签。 而且豆包AI播客具备实时交互和多轮追问能力。用户收听时可随时中断并提出问题,比如收听行业报告类播客时,追问市场规模预测逻辑,系统会结合文档内容给出针对性解答。 微信AI播客2025年8月开始灰度测试,仅在 “快讯” 板块实行,功能比较基础。生成男女主播对谈形式的快讯播客,更偏向资讯播报的风格,没有真人播客中那种交互感。 豆包对微信发起的突袭,命中了微信的一些“槽点”。 就拿截图功能来说,微信的截图支持方框、圆圈等基础标注,也有文字提取和翻译等常用能力,对于手机端的日常截图场景来说足够用了。但微信的截图功能不包含任何AI能力。 豆包的截图提问功能中,用户在截图完成后,可以让豆包总结截图的内容,还可以对截图内容进行追问、解答。 又比如,微信一大核心功能就是传文件,但是微信的文件传输功能存在有效期限制,且无法对传输的文件进行深度处理。 豆包则推出了AI云盘。这个功能不仅提供多设备文件同步和管理,更核心的是能对上传的各类文档、图片进行智能解析。 例如,用户上传一份项目策划PDF,微信仅能让接收方查看原文,而豆包可提取PDF中的核心目标,然后总结全文。 同时该云盘无普通文件有效期的困扰,用户随时可调用文件进行二次解读或编辑,这对于经常需要处理各类文档的职场人来说,比微信文件传输更可靠,分流了大量文件传输后的解析需求。 C 不过站在客观的立场上,微信之所以显得中规中矩,也有其深层原因。 微信作为一个承载了社交、支付、资讯、生活服务等功能的国民级应用,它的任何变动都需要评估广泛影响。这种考量在无形中提高了创新的门槛和风险。 一个功能上线前,产品团队需要考虑技术可行性和用户需求,对现有生态的影响、对不同用户群体的适应性、可能引发的舆论反应。一个看似简单的界面调整,可能会让数千万中老年用户感到困惑;一个新功能的推出,可能会影响到数百万小程序开发者的利益。 此前腾讯推出的ima就是个典型案例,其全称为 “信息管理助手” 的缩写,本质是一款聚焦信息管理的 AI 工作平台,核心功能围绕知识管理、办公协作、智能写作等展开。 它的能力包括全网AI搜索、知识库管理、AI 写作辅助、录音纪要、图片解读等,还推出了微信小程序,方便用户在微信生态内快速收藏公众号文章等内容到知识库。 然而,ima作为主打知识库的工具,却存在创建文档、表格等基础操作入口难寻的问题,打开后多为空白界面。还有用户反映,其宣传语模糊,难以清晰理解产品价值,导致实际使用率较低。 这种情况的出现,不是因为技术不够好,而是因为微信的用户基数太大、使用场景太多样化,任何功能都要迁就所有使用者,这就导致功能做到最后越来越臃肿,越来越复杂。 微信还背负着沉重的“技术债务”:多年的发展积累了海量的历史数据,需要兼容各个版本的功能,保证支付等金融功能的绝对稳定。任何技术栈的升级都可能引发连锁反应,影响到整个系统的稳定性。 系统越庞大,改动的风险就越高,一个小的bug可能影响数千万用户。所以微信的开发团队必须格外谨慎,每一行代码的改动都要经过严格的测试和评审。 这种谨慎当然是必要的,但也在客观上限制了创新的速度。当竞争对手快速迭代、大胆尝试新功能时,微信必须保持克制,优先保证系统的稳定运行。 微信团队当然知道哪些功能可以做得更好,哪些体验可以优化,但他们必须考虑改动的代价。一个新功能可能让一部分用户欣喜,但也可能让另一部分用户反感。一次界面调整可能提升了效率,但也可能增加了学习成本。这些都需要权衡和取舍。 微信的更新往往是温和的、渐进的,不会有激进的变革。新功能的推出会经过长时间的内测以及灰度测试,确保足够稳定才会全量发布。即使发布后,也会保留旧版本的入口,给用户适应的时间。这种做法保证了稳定,但也让微信在创新速度上落后于挑战者。 豆包作为挑战者,情况完全不同。 它没有需要兼容的历史版本,没有不能得罪的庞大用户群体,没有牵一发而动全身的复杂生态。想要尝试新功能,可以快速上线测试,效果不好就下线调整,不用担心引发用户流失或舆论危机。 这种灵活性让豆包能够敏捷地响应市场变化。当发现用户对某个功能有强烈需求时,可以在几周内完成开发和上线;当竞争对手推出新功能时,可以快速跟进甚至做得更好。这种速度是微信难以匹敌的。 豆包求变,微信求不变。这不是能力的差距,而是角色和生存位的不同。挑战者需要通过创新来打开市场,所以必须激进;守成者需要保护既有的优势,所以必须稳健。
乘势万亿冰雪经济,长虹·国际雪联大跳台世界杯开赛在即引爆热“雪”潮
11月30日晚,央视新闻报道,据《中国冰雪产业发展研究报告(2025)》显示,今年我国冰雪产业规模,将突破万亿元大关,达到10053亿元。这一亮眼数据,让冰雪经济强势冲上热搜。 在“冰雪经济”热潮席卷与新雪季来临之际,本周全球目光将齐聚北京。据悉,12月4日至12月6日,全球顶尖滑雪好手将于北京首钢园上演巅峰对决,而这场备受全球关注的2026年米兰冬奥会资格积分赛作为最关键的赛事之一,也将释放本次赛事“冠名赞助商”长虹的产品、品牌与国际化发展三重效应,为中国科技制造企业的全球化路径提供新样本。 在全球体育赛事的舞台上,企业通过赞助顶级赛事实现品牌价值跃升已成为常见路径,在此前9月的德国柏林IFA展上,长虹已宣布成为FIS跳台滑雪世界杯未来三赛季官方合作伙伴。时隔2月有余,此次进一步冠名国际雪联滑雪大跳台世界杯,长虹展现出不同于寻常赞助的战略纵深。 其一,品牌国际化进程借此按下“加速键”。 近年来,长虹持续推动全球化战略,而冰雪运动作为具有高度国际影响力的体育品类,尤其以国际雪联滑雪大跳台世界杯为代表的国际A类赛事,不仅是竞技舞台,更是品牌面向全球用户高曝光与高情感连接的枢纽。 根据目前的报名情况,该赛事名将云集,将迎来北京冬奥会冠军苏翊鸣、亚冬会单板滑雪男子大跳台冠军杨文龙、2024—2025赛季国际雪联自由式滑雪世界杯克拉根福站女子大跳台冠军刘梦婷等中国名将,他们会与来自挪威的单板滑雪运动员马库斯·克莱韦兰等全球20余个国家和地区的百余名顶尖选手展开巅峰对决。更值得一提的是,作为2026年米兰冬奥会资格积分赛的关键一站,其关注度与传播力将覆盖欧洲等长虹重点海外市场。 通过赛事冠名,长虹将与“激情”“时尚”等冰雪运动精神深度绑定,以提升国际消费者对品牌的认知度与好感度,进一步强化其“科技+体育”的跨界形象,使长虹在国际化拓展中不再局限于产品输出,而是融入全球体育文化语境,实现从“中国制造”到“全球伙伴”的身份转变。 其二,催化长虹旗下AI家电的消费热潮。 自2023年与国际雪联的一系列顶级赛事合作以来,长虹已将AI家电与冰雪运动传递的追求卓越、突破极限等生活理念深度呼应。此番新一年冰雪季来临,借助冰雪顶级赛事的活力与高端属性,长虹在产品力上进一步实现场景化破圈。 例如,长虹电视行业首款治愈系AI TV—追光Q10Air,其搭载的黑晶广角无影屏与全维控光Mini LED画质,精准还原赛场每粒风雪的轨迹,无惧雪地强光干扰;结合330Hz超高刷新率,不错过选手的每一个疾速瞬间,不错过任何一帧竞技之美;长虹客餐厅Pro共享空调,以20米超远距离送风和近距离柔风不吹人的精准体验,如滑雪选手般兼顾远距突破与近处稳定,为开阔家居空间带来均匀舒适的温度。 美菱M鲜生Ultra501S冰箱,覆盖冷藏、冷冻、微冻、解冻和熟食,打造全场景保鲜,守护每一个维度的新鲜,为运动员构建全方位的“新鲜补给站”,为每一次的赛场拼搏注入新鲜能量;美菱蓝氧烘护套装,蓝氧如手洗的洁净力与蓝氧烘护机的智慧呵护合二为一,如同运动员与专业装备的默契配合,让每一次洗涤与烘护都成为超常发挥的保障。 长虹让家电技术与冰雪运动的核心特质形成强关联,既彰显硬核科技实力,又精准触达年轻消费群体的情感需求。 尤其在年轻群体中,与冰雪运动的潮流文化高度契合,从而形成消费共鸣。这一效应不仅会提升短期销量,更为企业产品结构升级注入动力,推动长虹从传统家电制造商向科技生活解决方案提供者转型。 其三,打造冰雪经济与家电产业协同发展的鲜活样本。 《中国冰雪产业发展研究报告(2025)》显示,2025年我国冰雪产业规模将突破万亿元,2024-2025 冰雪季消费规模超1875亿元,同比增长超25%,冰雪经济正成为经济增长新引擎。长虹通过赛事赞助构建的“科技+体育”生态,一方面带动了冰雪运动普及,另一方面也将推动家电产业与冰雪场景的深度融合。 同时,长虹的全球化布局将中国制造实力与冰雪经济活力同步推向国际,让北京冬奥会带动的“三亿人上冰雪”基础,与中国企业海外市场拓展形成共振。这种产业联动不仅提升了中国家电在全球价值链中的地位,更通过繁荣冰雪产业链,实现家电产业生态的国际化延伸。 品牌层面的国际化提速,印证了体育IP对长虹全球化的助推价值;产品层面的消费热潮,展现了长虹“体育+科技”的市场潜力;产业层面的协同效应,凸显了龙头企业对经济生态的引领作用,这三重效应共同构建了一个品牌通过体育营销实现多维价值的闭环。 未来,随着中国冰雪产业与科技制造的深度融合,长虹的探索或将成为更多企业跨界创新的催化剂,推动“中国品牌”与“中国制造”在全球舞台上持续闪耀。
首个教师AI专业工具“飞象老师”发布 一句话生成专业级交互教学动画
凤凰网科技讯 12月1日,国内首个专为教师研发的AI专业工具“飞象老师”正式发布,一句话即可生成专业级的交互教学动画与游戏化课件。目前,飞象老师网页端(feixianglaoshi.com)已面向全国教师免费开放注册。 飞象老师网页端正式上线 立足中国教师的教学与备课场景,飞象老师有两大亮点:一、支持用户输入任意知识内容并辅以一句教学想法,轻松生成专业级的交互教学动画,如数学中抽象的公式定理,可立即转化为具备3D视效、可交互调整参数的专业演示动画;二、结合用户创意指令,还能自动生成寓教于乐的游戏化课件,瞬间点亮欢乐有趣的课堂。 生成式AI技术将抽象知识具象化 根据创意指令生成游戏化教学课件 一位参与产品内测的老师用户表示,AI虽然有强大的生成能力,但教育内容对科学性、准确性要求更高。飞象老师最打动我的一点是,它生成的内容会还原我们老师的教学过程,会遵循课程标准、很贴合教材内容和学生的认知规律。另一位一线老师也表示,飞象老师能将我的所有教学想法、灵感和创意直接变成现实,满足了我对课堂教学的所有想象,太神奇了。 作为一款专为教师群体量身打造的AI工具,飞象老师基于十余年的教育专业大模型和百亿级知识数据,构建了一整套更适合中国老师教学、适合中国学生学习的工作流,保证每一个教学动画和知识游戏,都融入了专业的教法、学法和考法。产品团队包含了数百位技术工程师和一线出身的专业教研人员。 飞象老师网页端一句话生成专业级教学动画 在实际教学场景中,“飞象老师”展现了对多学科的深度适配能力。 在数学学科,以“球体体积公式推导”为例,教师输入指令后,系统生成的不再是静态视频,而是一个可交互的3D几何演示模型,学生可通过拖拽、旋转来直观探究推导过程;针对“勾股定理”或“立体几何”等抽象难点,也能生成动态的可视化交互课件。 3D可视化演示球体体积公式推导过程 在语文学科,飞象老师支持将课文内容转化为沉浸式互动体验。例如输入《桃花源记》,系统可生成第一人称视角的RPG(角色扮演)互动游戏,让学生在探索“山洞”与“村落”的过程中完成课文学习;输入《林黛玉进贾府》,则能生成类似“模拟人生”的剧情互动课件,还原人物心理活动。 剧情互动课件沉浸式学习课文 在英语与科学学科,教师上传单词表即可生成“贪吃蛇”、“消消乐”等趣味单词游戏;输入“太阳系”相关知识,则能生成精准运行的3D宇宙模型,直观展示行星大小与轨道关系。 游戏化学习英语单词 飞象老师产品负责人周子超表示,老师是充满创造力与智慧的专业教育者,他们有能力制作出优质的教学内容和资源,但这往往需要花费很多时间精力,还会遇到技术门槛,“飞象老师”这款产品的研发初衷,就是希望用AI极大释放老师的生产力和创造力。 AI应用于教育,绝不应该取代老师,而是应该助力老师发挥专业优势、激发老师的创新创造。当教师们的创造力被AI释放,点亮的不仅是生动有趣的课堂,还有学生们对知识的热爱。
终于发布的Gemini 3,什么是它真正的王牌?
Gemini 3 Pro 预览版上线那一刻,很多人心里的第一反应可能是:终于来了。 遛了将近一个月,这里暗示那里路透:参数更强一点、推理更聪明一点、出图更花一点,大家已经看得心痒痒了。再加上 OpenAI、Gork 轮番出来狙击,更加是证实了 Gemini 3 将是超级大放送。 这次 Gemini 3 的主打卖点也很熟悉:更强的推理、更自然的对话、更原生的多模态理解。官方号称,在一堆学术基准上全面超越了 Gemini 2.5。 但如果只盯着这些数字,很容易忽略一个更关键的变化: Gemini 3 不太像一次模型升级,更像一次围绕它的 Google 全家桶「系统更新」。 模型升级这一块的,Google 已经把话说得很满了 先快速把「硬指标」过一遍,免得大家心里没数: -推理能力:官方强调 Gemini 3 Pro 在 Humanity’s Last Exam、GPQA Diamond、MathArena 等一堆高难度推理和数学基准上,全部刷出了新高分,定位就是「博士级推理模型」。 -多模态理解:不仅看图、看 PDF,甚至还能在长视频、多模态考试(MMMU-Pro、Video-MMMU)上拿到行业领先成绩,说看图说话、看视频讲重点的能力,提升了一档。 -Deep Think 模式: ARC-AGI 这类测试证明:打开 Deep Think 后,它在解决新类型问题上的表现会有可见提升。 从这些层面看,很容易把 Gemini 3 归类为:「比 2.5 更聪明的一代通用模型」。但如果只是这样,它也就只是排行榜上的新名字。连 Josh Woodward 出来接受采访都说,这些硬指标只能是作为参考。 换句话说,「跑了多少分」只是一种相对直观的表现手法,真正有意思的地方在于 Google 把它塞进了哪些地方,以及打算用它把什么东西连起来。在这一个版本的更新中,「原生多模态」显然是重中之重。在这一次的大更新中,「原生多模态」显然是重中之重。 如果要为当下的大模型找一个分水岭,那就是:它究竟只是「支持多模态」,还是从一开始就被设计成「原生多模态」。 这是 Google 在 2023 年,即 Gemini 1 时期就提出来的概念,也是一直以来他们的策略核心:在预训练数据里一开始就混合了文本、代码、图片、音频、视频等多种模态,而不是先训一个文本大模型,再外挂视觉、语音子模型。 后者的做法,是过去很多模型在面对多模态时的策略,本质还是「管线式」的:语音要先丢进 ASR,再把转好的文本丢给语言模型;看图要先走一个独立的视觉编码器,再把特征接到语言模型上。 Gemini 3 则试图把这条流水线折叠起来:同一套大型 Transformer,在预训练阶段就同时看到文本、图像、音频乃至视频切片,让它在同一个表征空间里学习这些信号的共性和差异。 少一条流水线,就少一层信息损耗。对模型来说,原生多模态不仅仅是「多学几种输入格式」,这背后的意义是,少走几道工序。少掉那几道工序,意味着更完整的语气、更密集的画面细节、更准确的时间顺序可以被保留下来。 更重要的是,这对应用层有了革命性的影响:当一个模型从一开始就假定「世界就是多模态的」,它做出来的产品,与单纯的问答机器人相比,更像是一种新的交互形式。 从 Search 到 Antigravity,新总线诞生 这次 Gemini 3 上线,Google 同步在搜索栏的 AI Mode 更新了,在这个模式下,你看到的不再是一排蓝色链接,而是一整块由 Gemini 3 生成的动态内容区——上面可以有摘要、结构化卡片、时间轴,虽然是有条件触发,但是模型发布的同时就直接让搜索跟上,属实少见。 更特别的是,AI 模式支持使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟——这些都是根据查询内容即时生成的。 这个思路将一系列 Google 系产品中发扬光大,官方的说法是更像「思考伙伴」,给出的回答更直接,更少套话,更有「自己看法」,更能「自己行动」。 配合多模态能力,你可以让它看一段打球视频,帮你挑出动作问题、生成训练计划;听一段讲座音频,顺手出一份带小测题的学习卡片;把几份手写笔记、PDF、网页混在一起,集中整理成一个图文并茂的摘要。 这部分更多是「超级个人助理」的叙事:Gemini 3 塞进 App 之后,试图覆盖学习、生活、轻办公的日常用例,风格是「你少操点心,我多干点活」。 而在 API 侧,Gemini 3 Pro 被官方明确挂在「最适合 agentic coding 和 vibe coding」这一档上:也就是既能写前端、搭交互,又能在复杂任务里调工具、按步骤实现开发任务。 这一次最令人惊艳的也是 Gemini 在「整装式」生成应用工具的能力上。 这也就来到了这次发布的新 IDE 产品:Antigravity。在官方的设想中,这是一个「以 AI 为主角」的开发环境。具体实现起来的方式包括: -多个 AI agent 可以直接访问编辑器、终端、浏览器; -它们会分工:有人写代码,有人查文档,有人跑测试; -所有操作会被记录成 Artifacts:任务列表、执行计划、网页截图、浏览器录屏……方便人类事后检查「你到底干了啥」。 在一个油管博主连线 Gemini 产品负责人的测试中,任务是设计一个招聘网站,而命令简单到只是复制、复制、全部复制,什么都不修改,直接粘贴。 最终 Gemini 独立完成对混乱文本的分析,真的做了一个完整的网站出来,前前后后所有的素材配置、部署,都是它自己解决的。 从这个角度看,Gemini 3 不只是一个「更聪明的模型」,而是 Google 想用来粘住 Search、App、Workspace、开发者工具的那条新总线。 回到最直觉的感受上:Gemini 3 和上一代相比,最明显的差别其实是——它更愿意、也更擅长「帮你一起协作」。这也是 Google 对它赋予的期待。 压力给到各方 跳出 Google 自身,Gemini 3 的 Preview 版本实际上给整个大模型行业,打开了一局新游戏:多模态能力应用的爆发势在必行。 在此之前,多模态(能看能听)是加分项;在此之后,“原生多模态”将基本配置——还不能是瞎糊弄的那种。Gemini 3 这种端到端的视听理解能力,将迫使 OpenAI、Anthropic(Claude)以及开源社区加速淘汰旧范式。对于那些还在依赖「截图+OCR」来理解画面的模型厂商来说,技术倒计时已经开始。 「套壳」与中间层也会感到压力山大,Gemini 3 展现出的强大 Agent 规划能力,是对当前市场上大量 Agentic Workflow(智能体工作流) 创业公司的直接挤压。当基础模型本身就能完美处理「意图拆解-工具调用-结果反馈」的闭环时,「模型即应用」的现实就又靠近了一点。 另外,手机厂商可能也能感到一丝风向的变化,Gemini 3 的轻量化和响应速度反映的是 Google 正在为端侧模型蓄力,结合之前苹果和几家不同的模型大厂建立合作,可以猜测行业竞争将从单纯比拼云端参数的「算力战」,转向比拼手机、眼镜、汽车等终端落地能力的“体验战”。 谁最强已经没那么重要了,谁「始终在手边」才重要 在大模型竞争的上半场,大家还在问:「谁的模型更强?」,参数、分数、排行榜,争的是「天赋」。到了 Gemini 3 这一代,问题慢慢变成:「谁的能力真正长在产品上、长在用户身上?」 Google 这次给出的答案,是一条相对清晰的路径:从底层的 Gemini 3 模型,往上接工具调用和 agentic 架构,再往上接 Search、Gemini App、Workspace 和 Antigravity 这些具体产品界面。 你可以把它理解成 Google 用 Gemini 3 将以原生多模态为全新的王牌,并且给自己旗下生态中的所有产品,焊上一条新的「智能总线」,让同一套能力,在各个层面都得以发挥。 至于它最终能不能改变你每天用搜索、写东西、写代码的方式,答案不会写在发布会里,而是写在接下来几个月——看有多少人,会在不经意间,把它留在自己的日常工作流中。 如果真到了那一步,排行榜上谁第一,可能就没那么重要了。
Sora 2两月留存率接近0%,奥特曼得学抖音快手?
作为OpenAI在视频生成领域的王牌,Sora 2曾被寄予厚望。奥特曼还为其加入社区等社交功能,在OpenAI内部,Sora 2甚至被视为能颠覆现有短视频格局的“核武器”。 然而,短短两个月的时间,市场就给出了最冰冷的反馈。 近日,硅谷风投机构a16z合伙人Olivia Moore在社交媒体上爆料称,Sora 的下载量仍在增长,但早期用户留存率数据(如下所示,与 TikTok 对比)看起来相当疲软。 Olivia Moore晒出一张APP数据监测服务SensorTower的截图:Sora的30天用户留存率1%,60天用户留存率0%。 “这说明这种模式确实很火,而且有一批重度用户在制作和导出 Sora 的视频。但是,大多数用户并没有坚持使用这款应用。”她说。 这不仅是一次产品的滑铁卢,更是给“AI技术强行嫁接社交属性”模式泼了一盆冷水。 Sora 2凭借OpenAI的金字招牌,在发布初期通过取消邀请制和全平台铺量,轻松实现了iOS首周百万安装、Android首日47万下载的爆发式增长,一度霸榜App Store。 可Sora 2给用户带来的是什么呢?极低的成片率、每天却仅有30个短视频的免费额度,以及达到免费上限后,高昂的额外生成费用。 因此,当新鲜感褪去,Sora留下的只有算力黑洞和有待商榷的商业逻辑。 01 Sora 2的发布可以说是2025年AI圈最受关注的事件之一。 Android版本的表现尤其抢眼。根据winsomemarketing的数据,Sora 2上线首日,其在美国、欧洲等这七个市场获得了47万次下载。其中美国市场一家就贡献了29.6万次下载,占据了总量的63%。这个数字比iOS版本首日的下载量高出327%。 iOS版本的数据同样亮眼。首周安装量达到100万,Sora 2一度登顶App Store免费应用榜单,成为当时最热门的应用。 这样的开局让OpenAI内部感到振奋。取消邀请制的决定看起来是正确的,全平台同步发布的策略也收到了预期效果。从下载数据来看,Sora 2完全具备成为现象级应用的潜力。 但好景不长。火爆的下载数据背后,隐藏着用户快速流失的危机。 iOS版本的App Store排名开始持续下滑。从免费榜第一名,到第二名,再到第三名,最终跌至第四名。这个下滑过程持续了不到两周时间。祸不单行,不只是新用户的增长速度在放缓,已经下载的用户中,大部分人甚至不再使用Sora 2。 最开始在今年九月发布时,Sora 2采用的是封闭测试,仅限于内部红队测试和少数受邀艺术家使用,想要用Sora 2生成视频,必须获取邀请码。虽然存在几个无限使用次数的“公开邀请码”,但都只是短期存在,超过一定时间后就会失效。 为了能获客,在十月底的时候,OpenAI决定在美国、加拿大、日本和韩国这几个特定市场率先拿掉邀请码机制,所有用户均可免费注册,并免费使用。 更致命的数据来自用户留存率。根据2025年11月的统计数据,Sora 2的30天用户留存率不足1%。这意味着100个下载了应用的用户中,一个月后只有不到1个人还在继续使用。到了60天,这个数字更是接近0%。 作为对比,根据艾瑞咨询的数据,抖音30天留存为48.7%,快手为46.2%。即使是一些表现平平的社交应用,30天留存率也能保持在15%到20%之间。 虽然,大部分手机APP在安装后,三天就会流失77%的日活跃用户,30天内流失90%的用户已经算是正常水平。但Sora 2连这个“正常水平”都没有达到,它的流失速度远超行业平均。 下载量与留存率之间的巨大落差,揭示了一个残酷的现实:用户的好奇心可以带来安装,但无法转换为持续使用的黏性。 从霸榜到跌落,Sora 2只用了两个月的时间。这个速度快得让人措手不及,也让整个AI视频生成行业开始重新审视一个问题:技术的先进性,真的能够直接转化为产品的成功吗? 02 Sora 2留存率低的根本原因,在于它还没有从“玩具”进化成“工具”。 生成质量的不稳定是最直接的问题。winsomemarketing的团队在实际测试中发现,Sora 2生成的视频中,真正可以用于实际发布的内容命中率只有5%到10%。 这意味着用户需要生成10个视频,才有可能得到1个满意的结果。剩下90%的生成内容,都不能使用。 这个命中率对于一个生产工具来说是致命的。因为内容创作者需要的是稳定、可预测的输出。他们输入一段文字描述,希望得到的视频至少能够基本符合预期,然后再进行细节调整。而不是靠运气生成内容。 渲染时间是另一个问题。生成一个视频往往需要等待几分钟。 虽然说这不是什么大事,但是如果叠加上90%的失败率,用户可能需要花费大半个小时甚至更长时间,才能得到一个勉强可用的视频。这对于使用者来说,简直和坐牢一样。 技术层面的不达标有其根本原因。视频生成的本质是连续的图片生成,这就需要强大的图像生成模型作为基础。但OpenAI自己的图片生成能力还停留在GPT-4o时代,这个基础能力的限制直接影响了视频生成的质量上限。当用户对单帧画面质量都不满意时,连续播放的视频自然更难让人满意。 更关键的是,Sora 2缺乏精细的编辑功能,用户无法直接在应用内进行修改视频,只能修改提示词,然后重新生成,期待下一次的结果能够更好。 其最直接的表现就是画面质量的不稳定。 有时候人物的面部表情会出现奇怪的扭曲,有时候物体的运动轨迹不符合物理规律,有时候背景和前景的融合显得生硬。这些问题不是偶然出现,而是随机分布在大部分生成结果中。用户无法预测哪个生成会出现问题,也无法通过调整提示词来完全避免这些问题。 Sora 2有一个功能叫做Cameos,这是为了解决视频中角色不连贯,让上一个分镜中的人物长得和下一个分镜中一样。 你只需要对着手机录一段十几秒的视频(包含声音和面部表情),Sora 2就会把你的样貌、声音,甚至微表情提取出来,生成一个专属的“演员模型”。 这个功能看起来很有趣,不过却给Sora 2带来了大量的法律纠纷。 Cameo这个词的意思是客串,而刚好就有这么一家提供名人定制视频服务的公司叫作Cameo。你只要付钱,就可以让上面的明星专门为你(或你的朋友)录一段祝福视频。 但是这家公司认为,OpenAI使用“Cameos”这个名称侵犯了自己的商标权,并且对OpenAI提起诉讼。虽然OpenAI表示不认为有人可以独占“Cameo”这个词,但这场法律纠纷还是影响了功能的推广。 更致命的问题是,Sora 2的社区功能简直是一场灾难。 用户在抖音、快手、B站上创作内容,好的视频会得到更多的展示,而用户的点赞、评论、收藏、转发会提高这些视频的展示位。 但是在Sora 2里,一些优秀高赞的作品不会得到展示,相反,一些没有意义、低质量、低创意,甚至没有获得任何点赞的作品会得到展示。 而且Sora 2的社区机制还有明显缺陷。视频虽然可以重新剪辑,但是播放过程中不能暂停,也不能像图片页面那样提供视频的提示词。更加令人费解的是,Sora 2社区只能点赞,没有评论和收藏这样的基本功能。 还有一点,Sora 2的社区没有任何筛选功能,仅有一个功能叫作“搜索相似词条”,不过这个功能做的体验也是糟糕至极。 实际使用过程中,在一个魔法女巫的AI视频中点击搜索相似词条功能后,出来的是坦克、月球以及一些历史人物。 技术不成熟、社交属性缺失、社区机制低效,这些因素合在一起,让Sora 2始终停留在“玩具”阶段。 而当一个产品只是玩具时,留存率接近0%就成了必然结果。 03 Sora 2面临的不仅是产品问题,更是商业化困境。 OpenAI的Sora负责人比尔·皮布尔斯(Bill Peebles)公开承认,Sora 2当前的模式“完全不可持续”。 最初,OpenAI给每个用户每天30个免费视频生成额度。皮布尔斯以为这个数量已经足够了,毕竟生成一个视频需要时间,用户应该不会频繁使用。但现实很快打脸。 OpenAI的回应是推出付费增值服务。用户可以花4美元购买10个额外的视频生成额度,Pro用户的每日上限则提高到100个。看起来这是一个合理的商业化尝试,让愿意付费的用户获得更多使用机会。 但这只是权宜之计。皮布尔斯说,根本问题在于GPU算力短缺。 生成一个AI视频需要消耗大量算力。Sora 2使用的模型参数量巨大,每次生成都要调用昂贵的GPU资源。OpenAI每天要为Sora 2的运营支付1500万美元,这个数字令人震惊。每天1500万美元,一个月就是4.5亿美元,一年接近55亿美元。 这样的成本结构下,OpenAI必须找到相应的收入来源。但现实是,不足1%的用户留存率意味着绝大部分下载用户很快就放弃了使用。 他们不会成为付费用户,不会持续消耗算力,也不会为OpenAI带来任何收入。那些持续使用的重度用户虽然消耗了大量算力,但他们的付费金额远远无法覆盖成本。 皮布尔斯明确表示,未来必须削减免费额度,以降低产品成本。 问题是,降低免费额度会进一步降低用户留存。那些本来就不怎么用Sora 2的用户,如果发现免费额度从30个降到10个甚至更少,可能会直接卸载应用。而那些需要大量生成的用户,面对更高的使用成本,也会开始寻找替代方案。 OpenAI现在处于一个两难境地。维持现有的免费额度,成本不可持续。降低免费额度,用户会加速流失。提高付费价格,市场接受度会降低。这个死结很难解开。 知识产权侵权问题更加复杂。用户可能会用Sora 2生成包含版权内容的视频,比如著名角色、知名场景、受保护的艺术作品。 OpenAI必须对生成内容进行审核,限制用户可以创作的内容类型。但这种限制又会影响用户体验,降低Sora 2的实用性。 OpenAI已经多次调整内容生成政策,反复限制用户可以生成什么样的视频。每一次调整都会引发用户不满,因为他们发现很多原本可以生成的内容现在被禁止了。 历史似乎在重演。 Sora 1时期,OpenAI虽然技术领先,开创了视频生成的先河,但最终被国内的即梦、可灵这样的产品在体验上反超。 这些竞争对手可能技术能力不如OpenAI,但他们更注重用户体验,更愿意根据市场反馈快速调整产品。结果是,技术先进的Sora 1没能在市场上占据主导地位。 现在Sora 2面临同样的局面。OpenAI拥有最先进的视频生成技术,但如果无法将技术优势转化为良好的用户体验,无法建立可持续的商业模式,那么其领先的地位将不复存在。 奥特曼此前曾表示,“让用户持续使用”和“避免过度成瘾”之间找到平衡。但是现在回过头来再看,显得有些讽刺,因为Sora 2现在连让用户持续使用都做不到,谈何成瘾? 但从另一个角度看,奥特曼的担忧反映了OpenAI的价值观困境。他们希望Sora 2能够吸引用户、留住用户,但又不想像抖音、快手那样通过算法和机制让用户“上瘾”。 这些短视频产品之所以成功,正是因为它毫不掩饰地追求用户停留时长。每一个功能设计都在引导用户继续刷视频,推荐算法精准到让人难以离开。 这种策略虽然饱受批评,但确实有效。OpenAI想要避免这条路,却还没有找到替代方案。 算力成本、内容审核、法律合规、产品体验、商业变现,OpenAI需要同时解决多个难题。而这些难题之间往往相互矛盾。提升体验需要更多算力,但算力成本已经难以承受。开放更多功能会面临法律风险,但限制功能又会损害用户体验。追求用户留存可能导致过度成瘾,但不追求留存产品就会失败。 目前来看,整个AI视频生成赛道都还处于商业化探索的早期阶段。各家公司都在烧钱推广,都在寻找可行的商业模式,但没有人真正找到答案。 Sora 2的困境不是个例,而是行业普遍面临的问题。 只是对于OpenAI来说,这个困境来得太快了。从产品发布到留存率归零,只用了两个月时间。 同时OpenAI也给整个行业敲响了警钟:技术领先不等于产品成功,下载量不等于用户留存,融资能力不等于商业模式。 距离健康的盈利模式,AI视频生成行业还有很长的路要走。
W12 谢幕之后,宾利想用 460 亿种方式让你掏钱
过去很长一段时间,W12 发动机不仅是宾利动力总成的巅峰,更是克鲁工厂的精神图腾。但在 2025 年的当下,这个阶级秩序正在发生微妙的变化。 首先是宾利 Mulliner 部门限量定制的 Batur 敞篷版,作为内燃机时代的绝唱之一,它搭载那颗传奇的 6.0 升 W12 心脏,最大功率定格在 740 马力。而另一边刚刚更新的第四代欧陆 GT 和飞驰量产版,虽然只是走量车型,但在换装 V8 高性能混动系统后,综合功率却直接干到了 782 马力。 量产车的参数超越了限量旗舰,混动的效率击败了燃油的情怀——这就是超豪华品牌在电动化转型期必须面对的残酷现实。马力,正在变得前所未有的廉价。 当机械工程百年来建立的性能壁垒被电机轻易抹平,即便那些曾经用来标榜身价的 W12 或者 V12 依然精密、迷人,依旧代表着旧世界的荣光和复杂的机械美感,但那已不再是衡量强弱的唯一标尺。 如果不卖 12 缸独占的轰鸣,也不再垄断速度,几百万的宾利到底在卖什么? 宾利给出了一个数字:460 亿。 这是宾利对抗平庸的武器。按照他们的算法,你在订车的时候可以通过不同配置的排列组合,定制出 460 亿种不一样的车子。在这个新的逻辑里,宾利的个性化定制部门 Mulliner 不再是配角,而是成为了定义品牌价值的主角。 宾利似乎已经想清楚了,在那个充斥着高算力和同质化大屏的世界里,技术参数会被迅速迭代,唯有极度的「不可复制」,才是奢侈品最后的避难所。 当「慢」成为一种新的壁垒 在当下的汽车工业语境里,我们太习惯用「快」来定义技术含量了。无论是芯片算力的翻倍速度,还是超级工厂里按秒计算的下线节拍,效率似乎成了制造业唯一的信仰。但在宾利克鲁工厂里,似乎一切都是慢的。 看看那台名为「The Black Rose」的定制版 Batur,驾驶模式旋钮闪烁着黄金的光泽,但这并不是由金匠手工敲打出来的,而是「打印」出来的。宾利在这个贵金属上应用了增材制造技术,通过 3D 打印,将总计 210 克 18K 黄金,以一种传统铸造无法实现的方式,融入了驾驶模式旋钮和风琴音栓中。 ▲定制版 Batur 同样的逻辑也延伸到了石头上。在与珠宝品牌 Boodles 的合作中,Mulliner 用激光将形成于 2 亿年前的天然石材切削至仅有 0.1 毫米厚。听起来没什么,但要把一块石头加工成纸张的厚度,并让它完美贴合在曲面上,同时还要保证它在车辆震动中不碎裂,并不是一件容易的事。 除了琢磨材质,Mulliner 还在思考「触感」。为了让车主能直接摸到木材原本的纹理,工匠们将漆料的用量减少了 90%;碳纤维也不再只有单调的黑色,深李紫、翠鸟蓝等色彩被编织进了碳纤维纹理中——这些都是 460 亿种配置组合的一部分。 ▲ Mulliner 和 Boodles 联手定制的车型 而在渐变色漆面工艺上,为了让「托帕石蓝」和「温莎蓝」两种车漆在车身上实现肉眼无法分辨的自然过渡,Mulliner 拒绝了自动化机器人。两名资深技师必须同时操作,完全凭借经验和手眼配合,耗时 56 个小时才能完成。 这样的定制能力在面对中国市场时,宾利的姿态也发生了一些转变。它并不执着于单向输出英伦审美,而是开始尝试还原中式的意境。 我们在定制列表中看到了取材自《千里江山图》的「江山」特别版。Mulliner 并不是简单印上这幅名画就完事儿了,而是提取了画作中标志性的青绿与金色,通过复杂的刺绣在头枕上复刻山水形态。还有「流云」版中舒展的云纹,以及「鲤」特别版中六条形态各异的游动锦鲤,连那些听起来很虚幻的意象,比如「午夜月影」和「轻声耳语」,都被具象化为特定的皮革配色和饰面纹理。 ▲ 飞驰「江山」特别版 还有一个案例,一台「糖果粉」色的添越长轴距版。这辆车的用户在订车时只有一个要求:要一个「特别的粉色」。为了满足他,Mulliner 专门调配了名为「Candy Pink」的车漆,车内的缝线、刺绣也都做到了同色系匹配。 Mulliner 定制的最高自由度,体现在那台 Speed Six 延续版上——一位客户带着儿时的玩具车模型来到 Mulliner,要求完全按照那个模型的配色和细节,打造一台真正的 Speed Six。 ▲ Speed Six 延续版 一家车企能把一个人的记忆、童年幻想,甚至是一个玩具模型,通过严谨的工业流程变成一台可以合法上路的机械艺术品。这种固化时间与情感的能力,才是宾利在面对电动化浪潮时难以被取代的价值。 在纯电时代,保留一块「机械表」 在把材质和工艺卷到极致的另一面,我们看到的是宾利在电动化转型上的犹疑与妥协。 就在 11 月,宾利更新了原本激进的战略,将「Beyond100」升级为「Beyond100+」。其中最耐人寻味的调整在于,原本计划快速退场的插电混动车型,生命周期被直接延长到了 2035 年。在目前的电池密度下,纯电很难在不牺牲重量和空间的前提下,提供超豪华用户所需要的从容。与其被续航焦虑拉下神坛,不如把内燃机这张安全牌再打十年。 ▲宾利的新 Logo 这种务实,或者说紧迫感,也体现在产品形态的变化上。宾利确认第一款纯电车型将是一台车长小于 5 米的「城市 SUV」。对于习惯了制造 5.3 米以上庞然大物的克鲁工厂来说,这是一个从未涉足的尺寸。这说明宾利即使作为金字塔尖的品牌,也不得不低下头,去争夺那些更年轻、更看重实用性的市场份额。 而在那台 EXP 15 概念车里,所谓的「奇妙融合(Magical Fusion)」理念,剥离掉营销话术后,其实是在解决一个棘手的问题:科技的保鲜期太短,而奢侈品的生命周期太长。 ▲EXP 15 概念车 现在的智能汽车恨不得把屏幕铺满整个座舱,但这种做法对宾利来说是危险的。一块最先进的 OLED 屏幕,三年后就会显得过时,这会极大拖累整车的价值感。所以宾利选择把屏幕藏在木纹和织物后面,甚至保留那个名叫「机械奇迹」的物理仪表。 宾利或许意识到了,它们必须把那些注定会快速贬值的电子元件隐藏起来,让位于那些越老越有味道的木头、皮革和机械指针。只有这样,一台几百万的车才不会因为车机芯片的落后而显得廉价。 W12 终将消失,因为那是旧时代的遗物;但 460 亿种 Mulliner 的组合必须存在,56 小时手工喷涂的低效率必须存在。在那个充满不确定性的未来,这些无法被代码复制的人工成本,是宾利维持高溢价唯一的理由。
阿里字节先后入局,这个赛道要变天了?
摘要: 阿里发布AI眼镜,字节携手中兴推出AI手机,科技巨头纷纷押注硬件,背后是对下一代人机交互入口的抢占。 凤凰网科技 出品 作者|Dale 编辑|董雨晴 “AI眼镜是下一代个人移动入口,是人机交互变革的中心。”在11月27日夸克AI眼镜的发布现场,阿里智能终端业务负责人宋刚在定义AI硬件的战略意义时对包括凤凰网科技在内的媒体表示。 三天后,字节跳动与中兴通讯官宣合作打造的AI手机正式亮相——首款搭载豆包手机助手技术预览版的工程样机——nubia M153开启限量发售,搭载骁龙8至尊版处理器、6.78英寸屏幕,16GRAM+512G ROM,售价3499元。 凤凰网科技了解到,该合作产品主要是为了尝试豆包大模型能力与厂商系统授权下的新型交互逻辑。 这两起几乎同时发生的事件,代表了阿里和字节在AI时代的共同选择,从云端模型比拼走向了硬件落地。 AI大厂抢滩硬件 2025年,科技行业的竞争格局正在发生深刻变化。随着大模型更新迭代变缓,AI的竞争焦点正从模型的优劣,转向用户的触达。 对大厂们而言,当模型能力逐渐趋同,谁能更贴近用户,谁就能掌握生态主动权。 而硬件终端,无疑是最接近用户的产品。 五月,OpenAI以近65亿美元收购由苹果前首席设计官艾维创立的硬件公司IO。奥特曼在近期预告新品信息时表示,“通过搭载智能且可长期信赖的AI,它能够深度理解用户生活场景,长时间接管任务,过滤无关信息并在恰当时机呈现信息。这种基于全场景的感知能力,是现有AI技术或现有设备无法实现的”。 此次,阿里与字节的共同发力,同样反映了中国科技巨头对把握AI入口权的更进一步。 宋刚在此次夸克AI眼镜沟通会上告诉我们:“它是未来最有机会挑战手机的设备,在阿里的战略里面它就是一个非常重要的角色。” 更为关键的是,“所有大模型训练的数据都要依赖于端发生的业务数据去训练,很多模型都是被手机、平板、电脑这些使用场景采集了数据,去服务于这些场景”,阿里智能终端产品负责人晋显也表示。 字节跳动选择的是另一个路径,凤凰网科技了解到,搭载豆包手机助手技术预览版的工程样机是一款需要和手机厂商一起完成的产品。“豆包目前正与多家手机厂商洽谈助手合作,并没有自己开发手机的计划,后续将公布更多进展。” 目前,除阿里和字节外,同样在大语言模型方面投入颇多的小米和理想,也先后下场入局AI眼镜。 另据36氪报道,谷歌已于去年年底立项两个AI眼镜项目,目前两项目已经进入POC(小批量试产)阶段,正在密集推进选型、ID设计,发布时间最早或为2026年Q4。 大厂的集体加码,已以AI眼镜和AI手机为代表的硬件赛道重新热了起来。 就在今日豆包官宣消息发出后,中兴通讯开盘后持续走高最终触及涨停,最新股价报46.3元/股。 两条不同的路径 在下场对AI硬件形态的探索上,互联网大厂也正沿着不同的路径并行。 AI眼镜被阿里视为“下一代个人移动入口”。 “我不知道大家看完今天的发布会是什么感觉?它肯定不是小投入,过去没有一家一下发6款的,我认为这件事情阿里想得是很明白的。”阿里在AI眼镜上的重投入,也意味着其已将生态之争落地的重任交给了AI眼镜。 一位产业链从业者在看完产品信息后对凤凰网科技表示,该款产品是显著的实用主义设计,功能至上。也就是说,全方位为交互服务。“举个例子,如果和 Rayban Meta比,雷朋不会在设计上妥协,倒逼 meta在工程上想办法,这是两种思路。” 宋刚认为,“眼镜肯定是主角”,特别是,随着Agent趋势的到来,过去的App在交互时,需要完成下载、打开、查找和使用的过程,但在眼镜上,只需要一句话就可以完成。“实际上是有利于眼镜的场景,我认为这是技术发展的主方向”,宋刚认为,眼镜在未来可能搭载更多的传感器,对于人的理解和对于环境的理解会更加深入。 另外,晋显方面也承认,当前眼镜还无法马上取代手机,而是慢慢渗透手机的场景,“从过去手机每天大家人均使用6小时变成了突然有一天发现手机只用5小时,那1个小时去哪里了呢?就到了你的眼镜里了,”在意义层面,目前阿里在AI能力上云端表现更发达,当前正通过端侧的工程能力补齐AI在端侧的表现。 字节对硬件的布局表现的更为多元,且已出手过多个标的——2018年,字节收购了锤子科技坚果手机团队和部分专利使用权。2021年,字节以数十亿元并购VR厂商PICO,并在2023年调整,最新消息称,PICO将于2026年推出新一代产品,并首次搭载全链路自研的头显专用芯片。 迈入AI时代,字节的硬件热情进一步推高。2024年初,字节收购耳机厂商 Oladance,并在当年度推出AI耳机。 现如今,以上这些相关AI硬件团队,在字节内部统一划分至Ocean部门,负责人则是36氪创始人刘成城,向Flow负责人朱骏汇报,意味着拥有较高的优先级。 可以看到的是,今年豆包也在加速与终端产品的轻量化合作。首先是密集上车,豆包近期先后和赛力斯、奔驰达成合作。 从12月1日发布的AI手机样机来说,可以看出豆包有意将大模型、超级App和终端三位一体的重任,落在AI手机这一载体上。也意味着更重的投入、与自家大模型更深度地合作。 目前,在AI应用层面,豆包和夸克均处于第一梯队,AI产品榜显示,今年10月,豆包与夸克的MAU均超过了1.5亿。而DeepSeek和元宝分别以7300万和7200万MAU处在第二梯队。
世界模型的下一个阶段是什么?智源研究院给出了答案
作者 | 王涵 编辑 | 漠影 你一定在科幻电影中看到过这样的情节:主角不小心进入了游戏世界,在3D虚拟的场景中探索、漫步。 如今,这不再是只能幻想的场景。世界模型的出现,给这一情节带来了更多在现实中实现的可能性。 经过一年时间的打磨,10月底,智源研究院发布了新一代原生多模态世界模型“悟界·Emu3.5”。 性能上,相较上一版本,Emu3.5在超过13万亿token的大规模多模态数据基础上展开训练,其视频数据训练量时长从15年提升到790年,参数量从8B上升至34B。 在不牺牲性能的前提下,Emu3.5每张图片的推理速度提升了近20倍,首次使自回归模型的生成效率达到顶尖的闭源扩散模型的水平。 智东西获得了Emu3.5的内测资格,第一时间对其文生图和图片编辑功能进行了实测。 首先是文生图功能,我们输入提示词如下: 在一个充满活力的厨房场景中,大窗户外可见郁郁葱葱的绿植。两个动画角色并排站着。左边是一个拟人化的狐狸模样的生物,有着橙色的皮毛、白色的腹部和一双富有表现力的大眼睛,脖子上系着一条绿色的围裙。右边是一个年轻女孩,棕色的头发扎成了辫子,穿着黄色的衬衫,外面套着一件蓝绿色的围裙。两个角色似乎都在忙着做饭,背景中挂着各种厨房用具、锅以及橙子、大蒜等食材。整个环境明亮又欢快,阳光透过外面的树叶洒进来。图像中没有可见的文字。 不到一分钟,Emu3.5就生成了一副很“迪士尼风”的图画。画面颜色明亮轻快,小女孩和狐狸都和提示词形容的十分相似,画面光影、比例和构图都很协调。 图片编辑方面,我们上传了一张小松鼠的照片,要求Emu3.5将画面中的小松鼠提取出来,背景换成雪地场景。 原图片中,小松鼠和背景色调一致,肉眼都容易看不清楚,Emu3.5却十分精准地识别出了小松鼠的形象。其生成的图片光影、结构准确,连阳光照射在雪地上的反光都十分逼真,在画面的前方和后方背景,还实现了相机般的虚化效果。 此外,Emu3.5还能修改图片视角。我们上传了一张仰视的鼓楼夜景照片,要求Emu3.5将这张照片转化为一只鸟的视角: Emu3.5不仅能精准实现视角切换,其“下一阶段预测”范式更使其具备自动补全周边环境画面的能力,表现就像一台置于真实场景中的相机。 此外,Emu3.5还可以更改画面中主体的位置关系和动作形态,比如让小狗拥抱小猫: 识别数字和计数一直是多模态模型的弱点,Emu3.5却可以精准识别将图片中的标号,将指定序号的挂画换成另外一张海报: 在画面中加入一个物体也不在话下,Emu3.5可以直接将魔方放置在图片场景中,并且会根据场景的光线和风格自动调整物体的色调,不会出现“不在一个图层”的效果。 再比如,Emu3.5还可以修复老照片,还原老照片本来的颜色和质感: 当然,作为世界模型,Emu3.5也可以创造出一个“世界”。 例如,我们让Emu3.5生成了一个卧室照片。接着,点击继续探索,要求Emu3.5更走近一些。通过一步一步地变换视角,Emu3.5就可以生成一个完整的“世界”: 除了变换视角,Emu3.5还可以“预测”图片场景100年后的样子: 该模型延续了将图像、文本和视频等多模态数据统一建模的核心思想,并在“Next-Token Prediction”范式的基础上,模拟人类自然学习方式,以自回归方式实现了对多模态序列的“Next-State Prediction(NSP)”,从而获得了可泛化的世界建模能力。 那么,NSP是怎么实现的?Emu3.5和其他世界模型有什么不一样的地方?除了生成图片和“世界”Emu3.5还能用在哪里?我深扒了“悟界·Emu3.5”的技术报告,给你一一解答。 一、直接预测下一个状态,厉害在哪? 李飞飞在她的自传《我看见的世界》中写到,5.43亿年前,地球上的生物生活在原始海洋中,没有感官和知觉,因此也没有大脑。后来,“寒武纪生命大爆发”时期到来,生物进化历程从此开始狂飙。 动物学家安德鲁·帕克认为,“寒武纪生命大爆发”之所以会发生,其实是因为生物开始具备“光敏感性”,这也是现代眼睛形成的基础。 简单来说,生命爆发进化是从“看见”开始的。那如果将这个进化路径放在AI上呢? 在Emu的技术沟通会上,王仲远博士也提出了类似的看法,他说:“人类的学习,不是从文本学习开始的。我们每一个人从出生开始,跟其他人的交流,认识物理世界的运行规律,都是从视觉开始的。” Emu3.5的训练数据中包含超13万亿多模态token,其中视频数据时长累计有790年,覆盖教育、科技、How-to、娱乐等多领域。与传统方法不同,Emu3.5的训练语料库旨在捕捉长时程、交错的多模态语境。 具体而言,该子集来源于大规模互联网视频的连续视频帧和时间对齐的音频转录文本,这些内容本身就保留了时空连续性、跨模态对齐性和语境连贯性。 在训练框架上,Emu3.5基于单一自回归Transformer架构,采用端到端原生多模态建模,无需依赖扩散模型或组合式方法,就实现了图像、文本、视频等多模态数据的“大一统”处理。 进而,在大规模多模态数据和Next-Token Prediction(NTP,下一个token预测)的基础上,Emu3.5扩展出“Next-State Prediction(NSP,下一状态预测)”即直接预测多模态序列的完整动态状态,而非孤立token。 NSP厉害就厉害在,它可以让模型从多模态数据中自主学习世界的动态规律,例如物理动态、时空连续性、因果关系,进而实现“理解——预测——规划”的完整能力。 NSP还能将高层意图转化为可执行的多步行动路径,接受指令后,Emu3.5能基于视频中学到的 “物体移动规律”,规划符合物理逻辑的连贯步骤,这正是AI从“感知”进化为“认知”的核心标志。 为了提高推理效率,研究团队提出了离散扩散自适应(DiDA)方法,它将逐token解码转换为双向并行预测,在不牺牲性能的情况下,将单图像推理速度提升了约20倍。 研究团队还构建了多维度奖励系统,对NSP的 “多步骤规划准确性”“因果逻辑连贯性” 进行定向优化,提升了Emu3.5的步骤分解与物理规律匹配度。 从性能表现来看,当前Emu3.5参数量为340亿,训练所用视频数据累计时长达790年,仅占全互联网公开视频数据的1%以下,但模型性能已达到“产品级”水准。 “自回归架构”+“大规模强化学习训练”+“下一状态预测”(NSP)范式,至此,Emu3.5找到了多模态世界模型的Scaling Law方向,多模态模型性能可以像大语言模型(LLM)一样,随计算和参数规模的增长而可预测地提升。 “Emu3.5很可能开启了第三个Scaling范式。”王仲远博士这样形容Emu3.5,毫不夸张。 二、教机器人抓拿握,不用再不同场景分开学了 正是因为在“下一状态预测”上的技术突破,EMU3.5 模型具备了学习现实世界物理动态与因果的能力,展现出对复杂动态世界进行预测和规划的能力。这就让EMU3.5可以在具身智能方面大展身手。 在场景应用层面,模型可实现跨场景的具身操作,具备泛化的动作规划与复杂交互能力,并能在世界探索中保持长距离一致性与可控交互,兼顾真实与虚拟的动态环境,实现自由探索与精准控制。 据介绍,Emu3.5已经开始了在具身智能方面的实践探索。 过去,数据采集多局限于固定场景,机器人真机只能采集到具体有限的数据,通过Emu3.5它可以产生泛化的数据,使得模型产生了泛化的能力。 而得益于Emu系列采用的自回归架构,其可扩展性极强,并且能够支持视觉与文字Token的输出。这能够极大的提高模型,包括具身机械人、机械手臂,实际场景中处理泛化性的能力,自然而然就会推动整个具身更快进入一些真实的场景中 在真实场景测试中,应用Emu3.5后,未知场景中,机器人行动的表现成功率可直接达到 70%,而其他模型的表现成功率往往接近零。 “泛化”这一方向就是是智源研究院的重点发力的领域,目前正进一步扩大技术验证规模,在真机上对各类场景展开尝试。 三、只有原生多模态大模型,才能让AI感知世界、理解世界 从上文中对Emu3.5的技术解读不难发现,智源研究院一直坚持的技术路线核心就是“原生多模态”。 从Emu3到Emu3.5,模型均采用单一自回归Transformer架构,实现图像、文本、视频数据的 “端到端统一处理”,无需依赖扩散模型(DiT)或混合架构,从底层解决 “多模态数据对齐” 与 “跨模态推理” 的核心痛点。 智源研究院的研究团队认为,世界模型不等同于视频预测模型。真正的世界模型应该理解“杯子掉落→破碎”“点燃木头→燃烧”等深层因果关系,并且可以“举一反三”,将一个场景中的能力泛化到其他场景,真正做到像人一样思考。 原生多模态大模型的研发,能够把多模态的理解和多模态的生成统一起来。智源研究院认为,只有这样,才能够真正让AI看到、感知、理解这个世界,才能够让AI真正进入物理世界,真正解决现实生活中更多现实的问题。 结语:世界模型进入“下一个状态预测”范式 从“下一Token预测”迈向“下一个状态预测”,Emu3.5的发布标志着世界模型的发展进入了一个新阶段。 其意义不仅在于视频生成功效的提升,更在于通过“原生多模态”与“下一状态预测”的路径,让模型获得了对物理世界动态与因果关系的深层理解能力。这为AI在真实场景中实现可靠的规划与决策奠定了基础。 在行业落地上,这一能力更是直接瞄准了具身智能、自动驾驶和工业仿真等行业的痛点。在这些领域,AI不仅需要“看得见”,更需要“看得懂”,并能预测“接下来会发生什么”。 随着“状态预测”范式的确立,世界模型的技术竞争正从“生成质量”的比拼,升级为“世界理解深度”的较量。
最新调查揭秘:买手机大家最在意的是续航
原标题:相机才排第五!最新调查揭秘:买手机大家最在意的是续航 快科技12月1日消息,PhoneArena近期整合了自家多年的投票调查结果,并交叉比对了Statista、Global Web Index等机构的数据,总结出了一份“消费者最在意的10大手机功能”排行榜。 近年来,各大手机厂商不断在设计和硬件上推陈出新,例如苹果最新的iPhone Air和三星的S25 Edge都主打超薄设计。 但从实际的市场反馈来看,这些创新似乎并没有完全打动消费者,那么在选择智能手机时,消费者真正关注的焦点究竟是什么呢? 最“不”重要五大功能: 在消费者眼中,一些厂商长期宣传的卖点,反成为了最不重要的功能,比如更大更亮屏幕反而成为最不重要功能第一名。 紧接着的,依次为机身设计(如材质、防尘防水、耐用度)、充电速度、存储空间,以及外观设计。 其中值得一提的是,超高速度快充看似非常诱人,但实际使用中并未达到理论值的倍数增长,100W的充电速度并不等于25W的四倍。 由于手机在充电过程中不可能全程维持最高瓦数,在消费者看来,这仅仅是“数字差异”,重要性被大幅降低。 最重要五大功能: 至于消费者最重视的前5大功能,排在第一位的便是电池续航,可见是否具备大容量电池和持久的续航时间,才是影响用户选购手机的最关键因素。 接下来则分别是价格、更长的系统更新支持、更强的处理器和更好的相机。 至于相机功能只排在第五名,PhoneArena解释称,这是因为如今手机拍照功能的整体水平已大幅提升,即使是中端机型也拥有不错的影像规格,对大多数用户而言已完全够用,不再是拉开差距的关键点。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。