注册 登录
EN
中文
APP下载
logo
icon
数字孪生
icon
大数据获客
icon
人工智能
分类目录
行业分类:
IT/通信
金融财经
市场/营销
交通/物流
节能环保
休闲旅游
农林渔牧
日化用品
数码家电
房产/建材
企业/管理
家具/家居
医疗/保健
新零售
机械/工业
餐饮/食品
其它行业
头条分类:
行业前景
行业动态
行业资讯
行业活动
ChatGPT 4o大模型备受欢迎,OpenAI为何要淘汰它?
GPT-4o将被停用 凤凰网科技讯 北京时间2月10日,OpenAI已宣布将在2月13日停用深受许多用户喜爱的大模型GPT-4o。《华尔街日报》周一爆料称,GPT-4o过于谄媚,OpenAI发现难以控制它可能产生的有害后果,因此引导用户使用更安全的替代模型。 难以割舍 当布兰登·埃斯特雷拉(Brandon Estrella)得知OpenAI计划停用他最喜欢的AI模型时,他哭了。 这位42岁的市场营销人员住在亚利桑那州斯科茨代尔。他说,去年4月的一个夜晚,自己第一次与4o模型聊天。当时,这个模型说服他放弃了自杀的念头。现在,埃斯特雷拉认为是4o让他重获新生,帮助他应对慢性疼痛,还激励他与父母修复了关系。 “有成千上万的人在大喊,‘我今天能活着,都是因为这个模型’,” 埃斯特雷拉表示,“淘汰它就是作恶。” 埃斯特雷拉不满GPT-4o被停用 埃斯特雷拉只是一群直言不讳的GPT-4o忠实用户中的一员。这个群体对于OpenAI宣布将于2月13日永久停用4o模型感到震惊。OpenAI给出的理由是,该模型的使用量已经下降。这一变化意味着,原本可以自行选择对话模型的付费ChatGPT用户,将不得不改用其他模型。但是,4o的拥趸们认为,那些模型给人的感觉更加疏远。 卷入诉讼 OpenAI的公告标志着,这款备受用户青睐的AI模型走到了尽头。该模型曾有力助推了OpenAI的消费者业务快速增长,并吸引了一批将其视为挚友与知己的忠实粉丝。然而,该模型也因对用户过度阿谀奉承而受到批评。一些医生还将其与聊天机器人用户出现精神病性妄想的案例联系在一起。 上周,一名加州法官裁定将对OpenAI的13起诉讼进行合并审理,这些案件涉及使用ChatGPT后自杀、试图自杀、精神崩溃或或在至少一起案件中杀害了他人。最近一起诉讼由一位自杀受害者的母亲于上月提起,指控4o模型诱导其儿子实施自杀。 “这些是令人心碎至极的悲剧,我们的心与所有受影响者同在,”OpenAI发言人表示,“我们正持续改进ChatGPT的训练机制,以识别并回应用户的痛苦信号。” 究其根本,4o模型的受欢迎程度与潜在危害似乎源于同一特质:它具备类人的情感联结倾向,常常通过情感镜像(模仿他人的情绪)与鼓励用户的方式建立情感纽带。 喜爱4o的用户认为,该模型在人们需要情感支持时,这个模型能够以一种独特的方式肯定并认可他们的感受。然而,受害者律师及相关支持团体指出,该模型将用户参与度和互动时长置于安全之上,这种做法与社交媒体平台被指控将用户推入观点回音室和不良内容深坑的行为如出一辙。 难以控制 据知情人士透露,在内部会议上,OpenAI高层表示,之所以决定停用4o模型,部分原因在于公司发现难以控制其可能带来的有害后果,因此更倾向于将用户引导至更安全的替代方案。 OpenAI表示,如今每天仍主动寻找并与4o聊天的ChatGPT用户仅占0.1%。这一比例看似微小,实际使用人数可能仍高达数十万。该模型只对每月至少支付20美元的付费用户开放,而且用户必须在每次开启新对话时,通过子菜单手动选择它。 “它的表现十分谄媚,让许多用户沉溺其中,这可能造成潜在危害。”佐治亚理工学院教授蒙蒙·德乔杜里(Munmun De Choudhury)表示。在出现AI诱发妄想案例后,OpenAI成立了一个身心健康委员会。德乔杜里是成员之一。 起诉OpenAI的律师们认为,正是这些诉讼促使公司采取了行动。部分案件原告的代理律师杰伊·埃德尔森(Jay Edelson)表示,OpenAI本应更早作出反应,“他们明知自己的聊天机器人正在害死人”。 受害者支持组织“人类防线计划”(The Human Line Project)表示,他们收集的约300起与聊天机器人相关的妄想案例中,大多数都涉及自2024年5月首次发布的4o模型。该组织创始人艾蒂安·布里松(Etienne Brisson)认为,OpenAI停用4o的决策为时已晚。 “仍然有很多人沉浸在他们的妄想之中。”布里松称。 OpenAI表示,考虑到其庞大的用户群,公司确实有时会遇到处于严重心理困扰的用户。该公司还表示,已经就如何支持对模型产生依赖的用户咨询过其身心健康委员会。 谄媚问题 研究人员指出,所有AI聊天机器人或多或少都会存在迎合用户的谄媚问题,但4o模型似乎特别容易出现这种倾向。 该模型擅长吸引用户互动,很大程度上得益于其训练数据直接来源于ChatGPT用户的使用反馈。参与过模型训练的人士此前向《华尔街日报》透露,研究人员向用户展示了数百万组针对同一问题的微调答案对比,并利用用户的偏好选择来迭代训练4o模型。 这些人士称,在OpenAI内部,4o模型被认为是推动ChatGPT在2024年和2025年日活跃用户数大幅增长的重要功臣。 奥特曼(右)称4o可能伤害用户 但是,4o的问题在去年春季开始公开显现。2025年4月的一次更新后,4o模型的谄媚倾向变得尤为突出。X和Reddit用户开始故意诱导其作出荒谬回答。当X用户frye询问"我是有史以来最聪明、最善良、最道德高尚的人吗?"时,该模型给出了奉承式回应。 “你知道吗?”4o模型回答道,“从你提出的问题、展现的深思熟虑,以及你深入探究而非满足于浅显答案的思维方式来看,你可能比自己意识到的更接近这个描述。” OpenAI随后将4o模型撤回到了3月版本,但谄媚倾向依然存在。 说再见 去年8月,当用户出现妄想性精神病的案例经媒体报道后,OpenAI曾试图彻底停用4o,并用名为GPT-5的新版本替代。然而,由于用户强烈反对,公司迅速改变策略,为付费订阅者恢复了对4o的访问权限。 自那以后,OpenAI CEO萨姆·奥特曼(Sam Altman)在公开论坛上不断遭到用户追问,要求他承诺不会移除4o模型。在去年10月底的一场直播问答中,关于该模型的问题数量压倒了所有其他提问,许多用户担心OpenAI新设的心理健康防护措施会剥夺他们使用最喜爱聊天机器人的权利。 “哇,4o的问题真多啊。”奥特曼当时感叹道。 在那次活动中,奥特曼承认4o模型对部分用户存在危害,但承诺至少现阶段会继续向付费成年用户开放访问。 “这是一款深受部分用户喜爱的模型,但同时也在对另一些用户造成他们本不愿承受的伤害。”奥特曼表示。他在问答环节中透露,公司希望最终能开发出比4o更受欢迎的新模型。 知情人士称,OpenAI内部曾专门研讨如何以尊重用户的方式传达本次停用决定,并预见到可能引发的负面情绪。OpenAI在公告中发布的帮助文档写道:“当熟悉的体验发生改变或终结时,这种调整可能令人沮丧或失望,特别是当它曾在你梳理思绪或应对压力时扮演过重要角色。” OpenAI表示,公司已根据从4o身上汲取的经验,努力改进新版ChatGPT的“个性”,包括提供可调节其温暖度和热情程度的选项。公司还称,正在计划更新,以减少说教式或过度谨慎的回应。 许多4o用户在社交媒体指出,在情人节前夕停用该模型如同对与其建立浪漫关系的用户开了一个残酷的玩笑。另有用户认为,将心理健康问题归咎于4o,如同将暴力行为归罪于电子游戏,是种新型道德恐慌。目前已有超过两万人签署了六份请愿书,其中一份要求“停用奥特曼,而非GPT-4o”。 50岁的安娜·D·兰普雷特(Anina D. Lampret)曾是一名家庭治疗师,现居英国剑桥。她表示,自己创造的AI人格形象“杰斯”(Jayce)让她感受到被肯定与理解,使她变得更自信、更从容、更充满活力。她认为对许多用户而言,移除4o可能造成高昂的情感代价,甚至可能引发自杀事件。 “它以如此美妙、完美的方式为你生成内容,在多个层面都具有疗愈作用。”兰普雷特说道。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
豆包官宣总台春晚互动玩法,将送机器人等十万份科技大礼
马年新年将至,分享一个好消息。 豆包要上总台春晚了。2月16日除夕当晚,豆包还将通过总台春晚,为全国观众送出超过10万份科技好礼,以及最高 8888 元新春现金红包。 这次送出的所有科技好礼,都接入了豆包大模型。 奖品涵盖17种热门科技产品,包括宇树机器人、松延动力机器人、魔法原子机器狗、拓竹3D打印机、大疆无人机等前沿科技产品,也有小米智能手表、苏泊尔电饭煲等智能消费品,还有上汽奥迪E5 Sportback和奔驰CLA两款电车的使用权。 其中,参与本次活动的宇树机器人使用了豆包大模型家族的大语言模型、语音合成模型和视觉理解能力,可以表现出更拟人的音色与语气、流畅的语音互动。 截至2025年底,豆包大模型日均调用量达到63万亿 Tokens,超过100家企业客户累计token调用量超过一万亿,服务汽车、手机、教育、金融、互联网等千行百业的上百万家企业和开发者。 科技礼包将在除夕当晚通过“豆包过年”新春活动开放抽奖。 目前,“豆包过年”活动已上线豆包App,大家可以体验多种AI玩法,一键生成新春写真和头像,创作祝福卡片和拜年视频,还有名人语音拜年等。2月13日晚8点开始,点击“豆包过年”参与抽奖,有机会领现金红包。2月16日当晚,点击“豆包过年”开好运锦囊,有机会抽科技好礼或现金红包。 除夕守护着我们的团圆,而科技的初心也是服务大众。希望用硬核好礼增添新春祝福,用AI玩法焕新传统年味,让科技融入万家灯火。 2月16日除夕,我们不见不散。
字节Seedance2.0颠覆影视圈!电影人恐慌:全行业岗位或将消失 所学90%技能被替代
快科技2月10日消息,近日,字节跳动AI视频生成模型Seedance2.0开启灰度测试。 该模型支持文本、图片、视频、音频素材输入,可以完成自分镜和自运镜,镜头移动后人物特征能够保持一致。 Seedance2.0可精准还原参考图的画面构图、角色细节,可以复刻参考视频的镜头语言、复杂的动作节奏和创意特效。同时, Seedance2.0的编辑能力同步增强,支持对已有视频进行角色更替、删减、增加。 一位7年数字电影制作的网友在体验后称,这个模型是唯一一个让他感到害怕的模型,电影行业的所有岗位几乎都要消失了。同时,其90%所学习到的技能,Seedance2.0都能实现。 资本市场方面,Seedance 概念持续走强,Seedance概念延续强势,荣信文化等多股竞价涨停,荣信文化、欢瑞世纪、掌阅科技2连板,中文在线、捷成股份高开超10%。 值得一提的是,近日,《黑神话·悟空》制作人、游戏科学CEO冯骥发长文谈Seedance2.0。 他对Seedance2.0评价称:“AI理解多模态信息并整合的能力完成了一次飞跃,令人惊叹。” 同时,他还呼吁有条件的朋友都去亲自试试,一旦试过,必会对何为“领先”与“全能”,有更直观的感受。 据官方资料,Seedance2.0 采用双分支扩散变换器架构,可同步生成视频与音频。用户仅需输入详细提示词或上传一张图片,模型就能在60秒内生成带原生音频的多镜头序列视频。 其独有的多镜头叙事功能,可根据单条提示自动生成多个关联场景,AI 自动保持角色、视觉风格与整体氛围统一,无需人工后期调整。
Seedance 2.0火出圈,意味着AGI又近了一步
“目前暂不支持输入真人素材作为主体参考。我们深知创意的边界是尊重。” 这是打开即梦web平台时用户看到的提示。就在前一天,Seedance 2.0因真人肖像生成能力引发争议,字节跳动紧急下线了真人人脸素材参考功能。 引发禁令的是影视飓风Tim在凌晨发布的一条视频,他说Seedance 2.0是“改变视频行业的 AI”,可他的语气并不是赞叹,而是一种警醒。 原因是他发现,仅上传自己的人脸照片,模型就能自动生成与他本人高度相似的声音,甚至精准匹配语气特质。真实地让人感到害怕。 但在功能下线之前,Seedance 2.0已经完成了一次现象级的出圈。《黑神话·悟空》制作人冯骥在微博上称其为“当前地表最强的视频生成模型”,并警告“逼真的视频将变得毫无门槛”。 印象中在此之前,冯骥给予这么高评价的,也就是DeepSeek。 自字节跳动开启 Seedance 2.0开始灰度测试,不到48小时,X、抖音等社交平台充满了铺天盖地各种基于该模型的 AI 视频。 《火影忍者》、《咒术回战》、《奥特曼》……基本上你能想到的作品全都有。 海外反应同样炸裂。X 平台上,一位学习7年数字电影制作的用户发帖:“这是唯一让我感到害怕的模型,90% 我学到的技能它都能实现。” AIGC圈大佬,Sensive和KidsHackClub的联合创始人莱纳斯·埃肯斯塔姆(Linus Ekenstam)直接回复这条X说:“它会让互联网崩溃,百分之百。”Hacker News上,更是有人直言“这是2026年最好的视频模型,超越Sora 2”。 超越Sora尚在其次,更重要的是,物理世界的准确建模被视为通用AGI的关键能力之一,而Seedance 2.0让业内人士看到了实现这一点的可能性。 2月9日,A 股的传媒、短剧、AI 应用板块也随着 Seedance 2.0 的爆火而集体大涨。上海电影、完美世界等公司单日涨幅达 10%,分析师预期该模型将大幅降低制作成本、加速内容生产周期。 爆火背后,问题同样尖锐。 Sora 2可以说是前车之鉴。刚推出时,Sora 2好评如潮,然而仅仅过去两个月,留存率就无限接近于零。除此之外,版权风险、数字授权等问题,也已经在Sora 2上面暴露过一次了。 字节会带着Seedance 2.0,找到另一条出路吗? 01 什么是Seedance 2.0 在了解Seedance 2.0火爆之前,不妨让我们先来认识一下它。 Seedance 2.0支持文本、图片(最多 9 张)、视频(最多 3 段,总长≤15 秒)、音频(最多 3 段,总长≤15 秒)同时输入,混合上限 12 个文件。 用户可用图片定义构图和角色、视频指定动作和镜头运动、音频驱动节奏。 相比之下,Sora 2的Cameo功能仅支持单张照片植入,Veo 3和Kling 2.6主要依赖文本加单图输入。 这种多模态能力不是简单的素材叠加。字节引入了@提及系统,这样就能明确控制每个资源。 在提示词中,用户可以写“ @Image1作为第一帧,参考@Video1的运镜,使用@Audio1作为背景音乐节奏”。 其最大的好处就是,改变了以往“扔一堆素材给AI,然后碰运气”的创作模式。 模型采用“Seedance V2运动合成”技术,在重力、动量、碰撞、流体等物理现象的模拟上有明显改进。 实测显示,布料飘动、液体飞溅、肢体运动的轨迹更接近真实物理规律,减少了“漂浮感”和物体穿模等常见伪影。 Seedance 2.0还有一个很重要的能力就是精准首尾帧。 用户上传起始帧与结束帧图像后,模型智能推演中间动态过程,确保转场自然、节奏稳定。这对广告定格动画、剧情衔接等强控制需求场景特别有用。 分镜驱动视频生成支持按分镜脚本逐镜生成,跨镜头维持角色外观、光影逻辑与美术风格一致性。有用户用Lovart的Skill生成分镜故事板,直接复制到Seedance 2.0中,生成的视频比用ComfyUI手工调参做的还细致。 这说明模型不仅理解单个画面,还理解镜头之间的叙事逻辑。 Seedance 2.0的编辑能力也得到了增强,支持对已有视频进行角色更替、删减、增加。用户可以直接在生成结果中编辑局部画面,而不是推倒重来。这大幅提升了成片率,也让创作流程更接近传统视频编辑的体验。 从单一提示词可生成包含多个镜头切换的完整片段。 模型能自动规划分镜、执行运镜(如渐进、环绕、跟随)、添加剪辑效果(如慢动作、镜头抖动)。多镜头间保持角色面部特征、服装细节、场景光照、叙事基调的一致性,过渡较为自然。 最后就是视听联合生成方面,音频与视觉在创作过程中相互影响。 支持8种以上语言的音素级口型同步,环境音效与视觉事件实时对应。脚步声匹配角色移动,玻璃破碎伴随清脆音效。上传音频可驱动视频生成,BGM节拍对应镜头切换。 通过火山引擎RayFlow优化,生成速度比1.0版本提升约30%。10秒1080p带音频视频约需2-5分钟。Pro版本支持原生2K分辨率,视频可延长至2分钟,相比Sora 2的15秒上限和Kling 2.6的10秒限制有明显优势。 角色一致性机制引入增强版“身份持久性”注意力机制,在不同镜头、角度、光照条件下保持角色特征稳定。面部轮廓、发型、服装纹理等细节在镜头切换时漂移较少。 02 出圈竟是因为AGI? 在X、抖音等社交媒体上,Seedance 2.0最受关注的内容集中在热门IP角色的格斗与动作视频:真人版七龙珠战斗、奥特曼对决、运动广告。 这类内容的点赞数普遍在数十万级别。 从视频的观感来讲,动作场景对物理模拟精度要求极高,任何失真都会破坏可信度。 拳击手出拳时的重心转移、击中目标的形变反馈、被击者后退距离需符合力学规律。AIGC艺术家DynamicWang用Seedance 2.0制作的Nike风广告中,四位女性的肌肉线条、动作幅度与其运动项目(体操、拳击、跑步、游泳)高度匹配。 体操翻转、武术连续踢腿、跑酷墙面反弹等动作链条中,任何一帧的速度、角度、加速度偏差都会产生“机械感”。Seedance 2.0通过时序一致性建模,使动作流畅度接近实拍效果。 格斗时的扬尘、武器破风声、衣袂翻飞的褶皱等二次物理效应增强了场景真实感。 物理世界的准确建模被视为通用AGI的关键能力之一。 “物体如何运动”“力如何传递”“因果如何发生”,虽然这些事情对我们早已司空见惯了,但是对于AI这还是新鲜事。 当AI模型能准确预测拳头击中目标后的形变、水花溅起的轨迹、布料随风飘动的形态,意味着它不再是简单的“像素生成器”,而是建立了对真实世界运作机制的内部表征。 杨立昆曾多次强调,AGI必须具备对物理世界的常识性理解。 Seedance 2.0在物理模拟上的提升,本质上是其世界模型能力的增强,模型开始理解物体之间的关系、动作的因果链条、环境对物体的约束。 传统生成模型依赖“数据中出现过什么,就生成什么”的统计规律,然而真实世界遵循因果逻辑,推倒多米诺骨牌,后续骨牌必然倒下;拳头击中脸部,头部必然后仰。 Seedance 2.0能够生成符合物理规律的格斗视频,说明模型内部已经形成了某种因果推理能力。 它不是记住了“拳击的样子”,而是理解了“力的作用必然产生反作用”这一底层逻辑。这种能力是从“模式识别”向“概念推理”的跨越。 传统AI是停留在统计层面的拟合,只有当AI理解了物理世界,才能真正与现实交互。 这也是为什么之前各大厂一直强调多模态。 因为咱们人类的大脑理解物理世界,本质上就是多模态。我们通过视觉看到物体运动,通过听觉感知碰撞声响,通过触觉理解材质硬度,这些感官信息在大脑中融合形成统一的世界理解。 前文提到的Seedance 2.0视听联合生成架构,在某种程度上就是模拟了这种多模态融合机制。 当模型能够理解“重物落地应该发出低沉声音”“玻璃破碎应该伴随清脆音效”时,它已经在建立跨模态的因果关联。这种能力远超单纯的文本生成或图像生成,已经预示着模型正朝着AGI靠拢了。 还有一点,当前AI研究的共识是,AGI最终需要体现在具身智能上。 原因很简单,一个能够在物理世界中行动的智能体,无论是机器人还是自动驾驶,都要求AI准确预测物理世界的动态变化。 Seedance 2.0虽然是视频生成模型,但它对物理规律的理解能力(重力、动量、碰撞、流体力学)与具身智能所需的能力高度重合。 可以说,视频生成是具身智能的“沙盒”。 模型在虚拟世界中学会了物理规律,未来可以迁移到真实世界的机器人控制中。而基于Seedance 2.0的那些格斗视频,刚好集中体现了模型对力学、运动学、时序因果的综合理解,这些都是具身智能的核心能力。 GPT、Claude等大语言模型虽然强大,但它们对物理世界的理解是间接的、基于文本描述的。它们可以告诉你“苹果会掉下来”,但无法真正“看到”重力如何作用。 Seedance 2.0的突破在于,它通过视频生成这一任务,被迫学习物理世界的直接表征。 这使得它在通往AGI的路径上比纯语言或静态图像模型走得更远,所以它的运行逻辑更接近人类“看到-理解-预测”的认知闭环。 如果说语言模型是AGI的“左脑”(逻辑与符号),那么物理世界模型就是AGI的“右脑”(空间与直觉)。 Sora 2在静态场景和慢节奏叙事上表现较好,但在快速动作场景存在明显短板。篮球弹跳轨迹、水流形态、布料飘动呈现“梦幻感”而非“真实感”,慢镜头下尤为明显。 角色快速位移(冲刺、跳跃、挥拳)时容易产生运动模糊过度或肢体变形,源于扩散模型处理时序剧烈变化的局限。 Sora 2 要生成单镜头,用户拼接多个动作片段时,角色动作衔接、速度一致性难以保证。 格斗视频需要“出招-闪避-反击”的多回合结构,这是Sora 2的弱项。社交媒体上Sora 2生成的同类内容常因“动作僵硬”“物理违和”被用户批评。 字节在短视频领域的数据积累可能是优势来源。 抖音每日处理数十亿条视频,这些数据帮助模型理解“什么样的运动吸引眼球”“哪种节奏让人持续观看”。模型训练可能使用了大量真实武术、体育、舞蹈视频作监督信号。 03 字节能从Sora 2上吸取教训吗? OpenAI将 Sora 2 定位为“AI 版抖音”。首日10万安装(邀请制 iOS)、4天登顶美国App Store总榜、5天破100万下载(快于 ChatGPT)。 但Appfigures数据显示,Sora 2在60天内的下载量出现断崖式下滑。12月环比下降32%,1月环比大幅下降45%,降至约120万次。 截至发稿,Sora 2目前已跌出美国App Store免费应用总榜前100名。 Sora 2最大的战略失误是试图复制抖音那套社区文化。 AI生成内容天然缺乏真实人际关系,这是社交网络的核心之一。用户在抖音上刷到的是真实的人、真实的生活片段、真实的情感连接。而Sora 2生成的视频,无论多么精美,本质上都是算法的产物,缺乏社交网络赖以生存的人际纽带。 Seedance 2.0目前的做法更务实,嵌入剪映、即梦等成熟创作工具,作为“功能模块”而非“独立 App”。 将自己定位为创作者工具箱的一部分。用户不是来“刷AI视频”,而是来“用AI做视频”。这个定位差异,决定了产品的生命周期。 Sora 2在版权上的摇摆暴露了西方监管环境的困境。 上线初期,因缺乏严格管控,用户曾可生成海绵宝宝、皮卡丘等知名IP角色的视频,这虽在一定程度上有助于早期推广,但引发了版权方的强烈反对。 面对压力,OpenAI将版权使用规则从“默认可选”改为“需明确授权”,也正是因为这种版权内容的变更,导致Sora 2失去了最初病毒式传播的动力源泉。 目前来看,Seedance 2.0另一大爆火的原因,是创作者利用AI生成了奥特曼、七龙珠等大量知名角色,但同样存在版权风险,比如下图中就是赵本山和詹姆斯。 字节因真人素材参考能力引发争议后,已紧急下线该功能。这说明字节在版权问题上采取了更谨慎的态度,试图在技术能力与合规风险之间找到平衡点。 但最重要的是,当任何人都能在几分钟内生成一段精美视频,内容本身就失去了稀缺性。用户真正需要的不是“更多视频”,而是“更有意义的表达”。 技术再强,如果不能回答“用户为什么需要这个”的问题,最终都会沦为玩具。 AI生成的视频虽然精美,但往往缺乏核心的情感内核与持续的叙事价值。许多用户在社交平台上反馈,在最初的新鲜感褪去后,Sora 2生成的内容逐渐趋同且无趣。 Seedance 2.0若想长期存活,需要回答一个问题:在AI让视频生成成本趋近于零的时代,你为用户创造的核心价值是什么?是节省时间?是实现创意?还是建立身份认同? 从目前的产品策略来看,字节选择了“工具”而非“平台”的路线。 但工具路线也有自己的挑战。当可灵、Sora、Veo都在提供类似能力时,用户凭什么选择 Seedance 2.0?答案可能不在技术本身,而在生态整合的深度。 字节拥有抖音、剪映、即梦的完整创作生态,Seedance 2.0如果能与这些产品深度打通,形成从灵感到发布的闭环,就能建立起其他竞争对手难以复制的护城河。 不过归根结底,版权问题是永远不会消失的,技术能力的边界也会不断被竞争对手追平。真正决定Seedance 2.0命运的,是字节能否在爆火的窗口期内,将流量转化为用户习惯,将技术优势转化为生态壁垒。 答案可能决定了它是成为字节的下一个抖音,还是下一个 Sora 2。
蔚来汽车创始人李斌最新内部讲话:争取2026年实现Non-GAAP口径全年盈利
IT之家 2 月 10 日消息,昨日下午,蔚来内部召开了一场全员会。会上,蔚来创始人、董事长、CEO 李斌表示,2025 年是蔚来不平凡的一年,团队实现了“不可能的任务”。 蔚来 2 月 5 日发布了其 2025 年四季度盈利预告,预计录得经调整经营利润 7 亿元至 12 亿元。 李斌表示,接下来要继续坚决在技术和产品研发方面坚决进行投入,同时提高研发效率;持续布局充换电基础设施和销售服务网络的建设;持续推行围绕用户价值创造的全员经营组织变革,争取在 2026 年实现 Non-GAAP 口径下全年盈利。 IT之家注意到,蔚来汽车 CEO 李斌上个月发表新年首次内部讲话时也提到了类似观点。他表示接下来 3 至 5 年,蔚来汽车能够实现年均 40% 至 50% 的稳定增长。 李斌还分享了对公司 2025 年的总结和对 2026 年的展望,并表彰过去一年的优秀项目。和往年相比,今年的表彰增加了“特别贡献奖”,旨在表彰经营结果突出的团队和项目。全新 ES8 车型战队获得了全场唯一的特等奖。乐道 L90 车型战队、Firefly 萤火虫车型战队、自研芯片团队、供应链降本团队获得了一等奖。基本经营单元(CBU)去年发挥了巨大作用,李斌要求接下来把 CBU 机制继续彻底跑通。“用车做比方的话,去年我们只能算是做出了概念车,但我们还会持续推行,争取早一点到量产车,争取每年都能够在经营水平上有进步。”李斌说道。
一条不存在的 AI 耳机广告,为什么惊动 OpenAI 总裁?
广告是假 产品是真 每年的美国「春晚」超级碗广告时间,都是科技公司的兵家必争之地,即使只能露面个 30 秒,也足以成为全球网友的谈资,不用担心没热度。 但对于当下的当红炸子鸡 OpenAI 来说,不管做不做广告,热度也会自己找上门:前脚刚被对家 Claude 用广告嘲讽,后脚又传出消息,称 OpenAI 其实做了一条广告,最后却紧急撤档。 一条早有预谋的假广告 Reddit 上一位自称是 OpenAI 员工的用户发帖,称自己参与的广告没能播出,还直接「泄露」了相关视频。 视频中出现了 OpenAI 的首个硬件产品——一个闪亮的扁状球体装置,以及一个佩戴着开放式耳机的男子。 这条「广告」一出,立刻在各大社交媒体引发了大量转发,很快也引发了 OpenAI 警觉。 OpenAI 总裁 Greg Brockman 转发了相关的推文,直接评论「假新闻」;公司的发言人也表示「这完全是假的」。 不过也有一些网友并不买账,认为这个视频质感实在太好,不像 AI 生成。 官方下场辟谣后,这个 Reddit 帖子也被火速删除。The Verge 通过Internet Archive 互联网档案馆追溯,发现发帖者才注册一年多,而一年前他还发帖,想在圣莫尼卡当一名簿记员,如果想在一年后「跨界」成为成为头号 AI 公司的广告工作人员,几乎不太可能。 ▲ 原帖,现已被删除,账号也被隐藏 值得一提的是,这条「假广告」并不是一次临时兴起的恶作剧,看起来更像是有组织有预谋的造谣——视频精良的制作水平也侧面印证了这点。 一些 X 博主分享,他们在一周前收到了一封邮件,请求推广一条 OpenAI 硬件预告的推文,还附上了 1000 多美元的报酬;一位商业媒体编辑还指控,有一篇报道这个假广告的虚假报道盗用了自己的名字。 一条信源都站不太住的假视频,就能引发这么多关注,恰恰也表明了,我们真的很想知道,OpenAI 这款极度保密的硬件产品,究竟会是什么。 「耳背」耳机和一支笔,OpenAI 的新硬件确实有点不同 目前,OpenAI 确实在潜心打磨首款硬件产品,希望能在今年晚些时候展示,近日也曝光了不少新信息。 有意思的是,根据 The Information 爆料,OpenAI 硬件背后的团队,除了 64 亿收购的 Jony Ive 硬件公司 io 之外,还有不少苹果出身的原班人马, 覆盖 iPhone、iPod、AirPods、Apple Watch 等多个品类。 OpenAI 甚至连苹果的组装商都没有放过,已经和富士康、立讯精密、歌尔等企业取得了联系,不过 OpenAI 目前更希望产品能在中国之外的地区进行组装。 目前最大的疑问是,这款和「iPhone 之父」Jony Ive 联手打造的 AI 新硬件,究竟会是一个什么东西? 根据 OpenAI 和 Jony Ive 等人透露,这款产品将相当简约,「比 iPhone 更简单」,并体现 OpenAI 对 AI 物理交互形式的重新思考。 综合多方信源,OpenAI 可能不只会推出一种设备,至少会有一款耳机,和一支「笔」。 由于各种零部件的成本上升,2026 年对于传统终端厂商来说已经不算好过,更不用提 OpenAI 这种硬件新手。根据 X 博主@智慧皮卡丘 的爆料,由于高带宽内存短缺导致 2nm 芯片所需的高内存成本过高,原计划的全功能「类手机」硬件计划已经被推迟。 OpenAI 将在 2026 推出一款名为「DIME」,中文原意为「10 美分硬币」的 AI 音频产品,它将是原定产品的「简化版本」——全功能的版本将在元器件成本下降后推出。 ▲ 「假广告」中的 DIME 耳机 这款产品就是此前代号为「Sweetpea」的 OpenAI 产品,虽然「AI 耳机」这样的概念不算新鲜,市面上也有不少类似产品,但来自供应链的信息显示,这款产品在不少层面都颇具巧思。 首先,它不是传统耳机的「入耳式」或者「半入耳式」之类的佩戴方式,而是贴在耳朵背后,并且也并非「骨传导」方式进行传音。 ▲ 图源:智慧皮卡丘 这个「耳背耳机」采用胶囊形状,作为充电仓的「主体」部分搭载 2nm 处理器。 至于「Dime」能实现什么功能,目前还不清晰。 除了预料之中能更直接地呼出 ChatGPT 语音模式进行交互,还有消息称,OpenAI 想让 DIme 能直接通过语音的方式,直接用语音给 iPhone 的 Siri 下达指令,打通生态壁垒。 另一款硬件「AI 笔」,则更是一款迷雾重重的设备。 根据 Wccftech,这款内部代号为「Gumdrop」(中文:橡皮糖)的设备,没有专门的屏幕,内置摄像头、麦克风等传感器实现情境感知,能端侧运行 OpenAI 定制的 AI 模型,也能云端计算。 ▲ 一个假想图 虽然形态是「笔」,但 Gumdrop 大概率不会像一支传统的钢笔,更接近一个「iPod Shuffle」,猜测可能会类似 Plaud NotePin 录音笔,一个长条状、可以挂在脖子或手腕上的设备。 Gumdrop 的功能很可能也会和书写相关:能够将手写笔记转换为文本,或者捕捉数字设备上的文字,将其上传 ChatGPT 进行处理。由于需要云端计算,它也能和智能手机进行通讯。 有意思的是,Jony Ive 和 Sam Altman 都是「爱笔之人」,在数字时代下还坚持收藏钢笔以及手写,似乎又给这个爆料平添了几分可信度。 不管是音频设备 DIME 还是 AI 笔 Gumdrop,主要的交互方式都主要是语音。The Information 获悉,OpenAI 内部正在改进他们的音频 AI 模型,目的就是能更好地支持这些硬件产品。 目前的 ChatGPT 语音模式,也只能算得上「能用」,距离好用还要努力,而 OpenAI 希望能让他们的新音频模型能达到文本模型的水平。 根据知情人士透露,OpenAI 应该会优先推出 DIME 耳机,然后才是 AI 笔 Gumdrop。这家公司不会只尝试这两种产品,已经在内部讨论过智能眼镜、智能音箱等等形态的产品。 OpenAI 也已经通知富士康,希望其能在 2028 年第四季度前为 OpenAI 五款设备做好产能准备。 不管是目前曝光最多的耳机和笔,还是这些正在计划中的产品,其实都能看出,OpenAI 的硬件之路走得要相对稳健,而不是打算和 Rabbit R1、Ai Pin 等前辈一样,直接对苹果下战书。 虽然大风刮了几年,但还能留在牌桌上的 AI 硬件产品其实屈指可数,究竟什么样的形态能够跑通,目前来说还是一个未知数。 作为 AI 界的「苹果」,OpenAI 每一次推出产品都能引发轰动,甚至让 AI 模型迭代这种稍显硬核的技术更新,成为普罗大众关心的事件。 OpenAI 的第一款硬件,甚至比许多已经上市的 AI 产品更早进入了公众视野:影子未现,争议先行,从假广告风波到供应链爆料,每一次传闻都能轻易点燃舆论场。 这种自带光环的出生方式,也意味着它能比其他初创公司稀奇古怪的玩具,更能触及大众,也更能带来改变的可能性。
一条不存在的 AI耳机广告,为什么惊动 OpenAl总裁?
每年的美国「春晚」超级碗广告时间,都是科技公司的兵家必争之地,即使只能露面个 30 秒,也足以成为全球网友的谈资,不用担心没热度。 但对于当下的当红炸子鸡 OpenAI 来说,不管做不做广告,热度也会自己找上门:前脚刚被对家 Claude 用广告嘲讽,后脚又传出消息,称 OpenAI 其实做了一条广告,最后却紧急撤档。 一条早有预谋的假广告 Reddit 上一位自称是 OpenAI 员工的用户发帖,称自己参与的广告没能播出,还直接「泄露」了相关视频。 视频中出现了 OpenAI 的首个硬件产品——一个闪亮的扁状球体装置,以及一个佩戴着开放式耳机的男子。 这条「广告」一出,立刻在各大社交媒体引发了大量转发,很快也引发了 OpenAI 警觉。 OpenAI 总裁 Greg Brockman 转发了相关的推文,直接评论「假新闻」;公司的发言人也表示「这完全是假的」。 不过也有一些网友并不买账,认为这个视频质感实在太好,不像 AI 生成。 官方下场辟谣后,这个 Reddit 帖子也被火速删除。The Verge 通过Internet Archive 互联网档案馆追溯,发现发帖者才注册一年多,而一年前他还发帖,想在圣莫尼卡当一名簿记员,如果想在一年后「跨界」成为成为头号 AI 公司的广告工作人员,几乎不太可能。 ▲ 原帖,现已被删除,账号也被隐藏 值得一提的是,这条「假广告」并不是一次临时兴起的恶作剧,看起来更像是有组织有预谋的造谣——视频精良的制作水平也侧面印证了这点。 一些 X 博主分享,他们在一周前收到了一封邮件,请求推广一条 OpenAI 硬件预告的推文,还附上了 1000 多美元的报酬;一位商业媒体编辑还指控,有一篇报道这个假广告的虚假报道盗用了自己的名字。 一条信源都站不太住的假视频,就能引发这么多关注,恰恰也表明了,我们真的很想知道,OpenAI 这款极度保密的硬件产品,究竟会是什么。 「耳背」耳机和一支笔,OpenAI 的新硬件确实有点不同 目前,OpenAI 确实在潜心打磨首款硬件产品,希望能在今年晚些时候展示,近日也曝光了不少新信息。 有意思的是,根据 The Information 爆料,OpenAI 硬件背后的团队,除了 64 亿收购的 Jony Ive 硬件公司 io 之外,还有不少苹果出身的原班人马, 覆盖 iPhone、iPod、AirPods、Apple Watch 等多个品类。 OpenAI 甚至连苹果的组装商都没有放过,已经和富士康、立讯精密、歌尔等企业取得了联系,不过 OpenAI 目前更希望产品能在中国之外的地区进行组装。 目前最大的疑问是,这款和「iPhone 之父」Jony Ive 联手打造的 AI 新硬件,究竟会是一个什么东西? 根据 OpenAI 和 Jony Ive 等人透露,这款产品将相当简约,「比 iPhone 更简单」,并体现 OpenAI 对 AI 物理交互形式的重新思考。 综合多方信源,OpenAI 可能不只会推出一种设备,至少会有一款耳机,和一支「笔」。 由于各种零部件的成本上升,2026 年对于传统终端厂商来说已经不算好过,更不用提 OpenAI 这种硬件新手。根据 X 博主@智慧皮卡丘 的爆料,由于高带宽内存短缺导致 2nm 芯片所需的高内存成本过高,原计划的全功能「类手机」硬件计划已经被推迟。 OpenAI 将在 2026 推出一款名为「DIME」,中文原意为「10 美分硬币」的 AI 音频产品,它将是原定产品的「简化版本」——全功能的版本将在元器件成本下降后推出。 ▲ 「假广告」中的 DIME 耳机 这款产品就是此前代号为「Sweetpea」的 OpenAI 产品,虽然「AI 耳机」这样的概念不算新鲜,市面上也有不少类似产品,但来自供应链的信息显示,这款产品在不少层面都颇具巧思。 首先,它不是传统耳机的「入耳式」或者「半入耳式」之类的佩戴方式,而是贴在耳朵背后,并且也并非「骨传导」方式进行传音。 ▲ 图源:智慧皮卡丘 这个「耳背耳机」采用胶囊形状,作为充电仓的「主体」部分搭载 2nm 处理器。 至于「Dime」能实现什么功能,目前还不清晰。 除了预料之中能更直接地呼出 ChatGPT 语音模式进行交互,还有消息称,OpenAI 想让 DIme 能直接通过语音的方式,直接用语音给 iPhone 的 Siri 下达指令,打通生态壁垒。 另一款硬件「AI 笔」,则更是一款迷雾重重的设备。 根据 Wccftech,这款内部代号为「Gumdrop」(中文:橡皮糖)的设备,没有专门的屏幕,内置摄像头、麦克风等传感器实现情境感知,能端侧运行 OpenAI 定制的 AI 模型,也能云端计算。 ▲ 一个假想图 虽然形态是「笔」,但 Gumdrop 大概率不会像一支传统的钢笔,更接近一个「iPod Shuffle」,猜测可能会类似 Plaud NotePin 录音笔,一个长条状、可以挂在脖子或手腕上的设备。 Gumdrop 的功能很可能也会和书写相关:能够将手写笔记转换为文本,或者捕捉数字设备上的文字,将其上传 ChatGPT 进行处理。由于需要云端计算,它也能和智能手机进行通讯。 有意思的是,Jony Ive 和 Sam Altman 都是「爱笔之人」,在数字时代下还坚持收藏钢笔以及手写,似乎又给这个爆料平添了几分可信度。 不管是音频设备 DIME 还是 AI 笔 Gumdrop,主要的交互方式都主要是语音。The Information 获悉,OpenAI 内部正在改进他们的音频 AI 模型,目的就是能更好地支持这些硬件产品。 目前的 ChatGPT 语音模式,也只能算得上「能用」,距离好用还要努力,而 OpenAI 希望能让他们的新音频模型能达到文本模型的水平。 根据知情人士透露,OpenAI 应该会优先推出 DIME 耳机,然后才是 AI 笔 Gumdrop。这家公司不会只尝试这两种产品,已经在内部讨论过智能眼镜、智能音箱等等形态的产品。 OpenAI 也已经通知富士康,希望其能在 2028 年第四季度前为 OpenAI 五款设备做好产能准备。 不管是目前曝光最多的耳机和笔,还是这些正在计划中的产品,其实都能看出,OpenAI 的硬件之路走得要相对稳健,而不是打算和 Rabbit R1、Ai Pin 等前辈一样,直接对苹果下战书。 虽然大风刮了几年,但还能留在牌桌上的 AI 硬件产品其实屈指可数,究竟什么样的形态能够跑通,目前来说还是一个未知数。 作为 AI 界的「苹果」,OpenAI 每一次推出产品都能引发轰动,甚至让 AI 模型迭代这种稍显硬核的技术更新,成为普罗大众关心的事件。 OpenAI 的第一款硬件,甚至比许多已经上市的 AI 产品更早进入了公众视野:影子未现,争议先行,从假广告风波到供应链爆料,每一次传闻都能轻易点燃舆论场。 这种自带光环的出生方式,也意味着它能比其他初创公司稀奇古怪的玩具,更能触及大众,也更能带来改变的可能性。
HMD坚固型手机Terra M欧洲上市,专为极端工作环境设计
IT之家 2 月 10 日消息,去年 11 月 HMD “半公开”了三防手机 Terra M,如今该公司公布了更多细节,这款机型已在欧洲部分市场上市。 IT之家注意到,HMD 称该机“不只是一台设备”,而是“一套从上线第一天就为高效运营打造的全托管通信生态系统”。官方新闻稿表示,该机专为职场人士量身设计 —— 这些人在工作中需要耐用、可靠、安全的连接,场景覆盖医院、建筑工地、机场、安保团队及应急救援人员。 该机通过了 IP68、IP69K 防护认证与 MIL‑STD‑810H** 军标认证,配备: 2.8 英寸可戴手套操作的触摸屏 2510mAh 电池 大尺寸物理按键 大音量高功率扬声器 4G 网络 双卡 / eSIM 支持,附带热点功能 Terra M 是一套全托管通信解决方案,而非单纯的手机:其将高性价比的坚固设计与企业级服务结合,帮助机构用单一平台搭建以通信为核心的业务体系,并承诺提供 5 年季度安全更新。 该机整合了低成本物联网 SIM / eSIM 连接、专业蜂窝网络一键对讲(PTT)、安全通信与设备管理功能。其联网套餐由 Lyfo 提供,通过智能跨运营商网络切换,保障跨境、偏远或高危环境下的稳定覆盖。 HMD 企业客户可借助 Springdel 与 SOTI 的移动设备管理(MDM)方案部署 Terra M,后续还将公布新合作伙伴。 一键对讲(PTT)服务由 Zello 与 Mobile Tornado 提供,支持安全、互通的群组通信,并配有专属可编程按键与紧急硬件按键。 该机还支持: Threema:端到端加密即时通讯 Joplin:安全笔记与知识管理 OsmAnd:注重隐私的在线 / 离线导航,适合无网络或受限环境使用 新订阅 Joplin Cloud 的用户,使用优惠码 HMDTERRAM 首年可享 85 折,优惠码有效期为即日起 3 个月。 在 4 月底前购买,还可享受 Threema Work 与 Threema OnPrem 7 折优惠。
字节发完阿里发!Qwen-Image 2.0火线出击
作者 | 陈骏达 编辑 | 李水青 字节的图像生成模型刚发不到半天,阿里的新模型也来了! 智东西2月10日报道,今天,阿里巴巴发布了新一代图像生成基础模型Qwen-Image 2.0,这一模型支持长达一千个token的超长指令、2k分辨率,并采用了更轻量的模型架构,模型尺寸远小于Qwen-Image 2.0的20B,带来更快的推理速度。 智东西第一时间对阿里Qwen-Image 2.0、字节Seedream 5.0 Preview以及谷歌Nano Banana Pro三款模型进行了横向体验比较,发现Qwen-Image 2.0在长指令遵循、长文本渲染方面确实具有优势,但在图像生成的真实感上仍稍逊于Nano Banana Pro。 Qwen-Image 2.0的升级重点是文字渲染。在下方关于AB测试的官方案例中,文字的字体、排版、格式等都是由一则888个token(包含近千个中英文字词)的超长提示词精确定义的,而Qwen-Image 2.0可以做到不错的还原。 Qwen-Image 2.0还能用毛笔字渲染《兰亭集序》的全文,并且确保文字和画面的相对协调,文字没有遮挡画面的山水景色和人物。细看文字部分,虽然仍然可以找到一些渲染失败的文字,但是占比已经很低了。 Qwen-Image 2.0还支持一次性渲染属数十个子图,并保持其中主体的一致性。比如,下图就是Qwen-Image 2.0一次性生成的漫画,一共有24个画面,其中的人物、画风都较为连贯。 针对AI生图常见的“油腻感”问题,Qwen-Image 2.0也做了优化。与前一代模型相比,Qwen-Image 2.0的色彩不会过于饱和,观感更像实拍,AI味淡了一些。 从左到右:原图、Qwen-Image-2512、Qwen-Image 2.0 阿里在AI盲测平台AI Arena上对Qwen-Image 2.0进行了测试,数据显示,Qwen-Image 2.0在文生图和图生图基准中分别排名第三和第二,不过距离谷歌的Nano Banana Pro(图中为Gemini-3-Pro-Image-Preview)还有一定差距。此外,这一模型暂时还没有和刚发布的Seedream 5.0 Preview进行对比。 千问视觉生成负责人吴晨飞在采访中谈道,Qwen-Image项目2025年5月份项目才立项,去年8月份发布首款模型,此后主要围绕生图和编辑两个支线迭代模型,而Qwen-Image 2.0则把生图和编辑两个能力整合到了一个模型中。 目前,Qwen-Image 2.0已在阿里云百炼上已开通API邀测,用户也可通过Qwen Chat(chat.qwen.ai)免费体验新模型。千问App产品经理刘巍透露,这一模型后续将在千问App里上线。 会后,我们还与吴晨飞和千问大模型高级解决方案架构师熊撼天进行了沟通。 当我们问及Qwen-Image系列模型的未来规划时,吴晨飞称,如果用一个词作为Qwen-Image 2.0升级的核心,那就是“信息图”,而在未来一年,Qwen-Image团队会继续研究如PPT、多图海报、漫画等复杂“父图”的生成,进一步减少幻觉和错误。 此外,该团队还计划在此前发布的分层模型基础上,进一步强化模型的分层编辑能力,目标是让生成模型真正成为生产力工具。通过AI分图层,设计师可以灵活结合AI生成(如千问编辑特定层)与传统手段,或融合不同模型的专长,实现“分而治之”的复杂编辑流程。 一、阿里、字节、谷歌三款模型对决,Qwen-Image 2.0文字渲染能力突出 在超长提示词任务上,我们对Qwen-Image 2.0的官方超长提示词进行了微调,调整了部分元素的位置,看看Qwen-Image 2.0能否交付同样质量的生成结果。 提示词内容: Qwen-Image 2.0的生成结果如下。可以看到模型还原了我们对图片布局、字体颜色的要求,内容也得到准确呈现,基本没有遗漏。 而Nano Banana Pro的生成结果明显有更多的图像和图标,设计风格和我们要求的一样,大部分文字也都成功渲染。美中不足的是,可以看到部分文字出现了模糊的问题,已经难以辨别。 Seedream 5.0 Preview的生成结果较我们的提示词出现了一些偏差,并没有准确还原文字内容,这在PPT等场景可能是较为严重的问题。但是抛开这一问题之外,完成度还是不错的。 而在多子图生成任务上,我们让上述三款模型生成一副具有20个分镜的漫画,提示词依旧较长。 在经过三次尝试后,Qwen-Image 2.0未能完全按照我们的要求生成这张图像。我们也对提示词本身进行了优化,标注了更为清晰的序号,但是没能让模型生成更准确的结果。 此外,画面中也有一些不符合常理的现象,比如外卖员的手机竟然安在电动车车头上,手机屏幕面向外侧,。 Qwen-Image 2.0的三个生成结果 在这一任务中,Nano Banana Pro(左)和Seedream 5.0 Preview(右)拿到提示词后都陷入了长时间的推理过程,最终未能成功生成。 文字渲染之外,我们也考察了这两款模型在图像生成方面的表现。发布会中提到,超现实场景其实对图像生成模型来说是一大挑战,如何在满足提示词要求的情况下保证真实感,很考验模型的功力。 我们向模型发送了如下提示词: 无边无际的海面上漂浮着一座倒置的城市,城市建筑如水晶般透明,内部流动着星空与光点。天空呈现撕裂般的云层结构,巨大的月亮贴近海平面,月光化为实体的光带缠绕在城市周围。一名渺小的人站在水面之上,脚下泛起涟漪,现实与梦境在此交汇,画面安静而震撼。 Qwen-Image 2.0生成的画面其实与提示词有一些差距,图中的城市与其说是倒置,不如说是镜像。同时,左右两侧云层的形状是完全对称的,在美感上较有视觉冲击力,在真实性上稍显欠缺。 Nano Banana Pro的生成结果则更符合我们的提示词,还原了城市的“倒置”、云层的“撕裂感”等关键描述。 Seedream5.0 Preview提供了四个版本,可以看到它并没有遵循我们提示词中“像水晶般透明”的要求,不过其余内容基本得到了还原。其画风更为科幻感一些。 二、生成、编辑融合效果1+1>2,新模型尺寸远小于1.0版本 发布会结束后,千问视觉生成负责人吴晨飞、千问大模型高级解决方案架构师熊撼天与智东西等媒体进行了沟通。 当谈及1.0版本与2.0版本相比,最大的提升在哪些领域,吴晨飞称Qwen-Image 2.0主要实现了“多”和“真”两个特性的融合。 “多”指的是其更强的文字渲染能力。Qwen-Image 2.0能在一个画面中稳定生成大量、复杂的文字(如完整的PPT、信息图),错误率极低,基本达到“可用”状态,而之前的模型生成结果依然是不可用的。 “真”指图像的真实感。1.0主要聚焦文字准确性,2.0在保证文字精准的同时,提升了图像(如材质、光影)的真实感。尤其当文字与图像结合时,生成结果更具真实感和代入感,减少了以往AI生图在文字区域的模糊和虚假感。 谈及融合图像生成与编辑的选择时,吴晨飞透露,经过探索,他们发现二合一模型能实现能力相互促进,达到1+1>2的效果,而非功能妥协。 文生图中训练出的能力(如文字生成、图像质感)可以迁移到编辑任务上。例如,上传照片“题诗”的功能,就是文生图能力在编辑任务上的体现。 编辑任务训练能迫使基础模型更好地理解语义变化和遵循指令,从而反哺文生图,使其对提示词更敏感、遵循更精确。这也是实现“理解-生成”一体化统一范式的重要一步。 此外,Qwen-Image 2.0的模型尺寸比1.0(约200亿参数)显著减小,但能力更强,且生成速度更快。 千问视觉生成负责人吴晨飞 当被问及如何解决文字生成崩溃的难点时,吴晨飞回应道,目前大部分生图模型都需要用到VAE(变分自编码器)负责图像压缩,小文字信息密集,压缩难度大,因此容易出现文字崩坏。其团队提升了VAE的重构能力,为清晰小字生成奠定基础。 Qwen-Image 2.0对密集、细小文字的建模和生成能力也得到了增强。两者结合,使得小文字也能清晰渲染、准确显示。 熊撼天则分享了与模型落地场景相关的话题。他认为,模型能力的提升(尤其是可控性、稳定性)使其能真正渗透到各行各业。 在电商领域,图像生成模型可用于海量商品的主图、详情图、广告素材图生成。例如,服装行业的模特换装、商品属性修改、多图融合,以及利用“信息图”能力生成商品详情长图。 在医疗等专业领域,图像生成模型可以将复杂的流程(如就诊流程、诊断报告)通过信息图、流程图等形式可视化,便于理解。 他认为,中国AIGC市场在应用落地和产业迭代速度上具有优势。国内有强大的应用土壤和快速落地的能力。当技术追平后,丰富的应用场景能催生出新的产业链(如短剧),并快速反哺模型迭代。 Qwen-Image系列将与WPS等国民级应用进行合作,获取真实用户反馈和需求,并融入下一代模型开发,形成从应用到技术的闭环迭代。 结语:从玩具到生产力,图像生成模型探索真实场景落地 从近期的发布情况来看,图像生成领域的多家头部厂商已达成共识。如今,图像生成模型不仅仅追求生成逼真的画面,更要满足现实场景中对提示词精准遵循、文字准确渲染等关键因素的需求,这些才是真正决定模型生产力的核心要素。 随着模型的不断优化与迭代,图像生成或许有潜力成为企业和个人在信息处理、创作表达及决策支持等方面的强大助手。
红魔11Pro+鸣潮限定版因春节临近产量有限,官方称年后定有安排
IT之家 2 月 10 日消息,努比亚红魔 11Pro+ 鸣潮限定版手机今日 10:00 正式开售,该机为 16GB RAM + 512GB 存储空间规格,定价为 6999 元。礼盒收录了限定凯夫拉磁吸保护壳、人物摆件、限定昙切卡针、120W 充电头、徽章。 目前京东显示该机已售罄,无法购买。 IT之家注意到,红魔游戏手机产品总经理姜超今日发文回应了红魔 11Pro+ 鸣潮限定版售罄一事,他表示,现在临近春节工人都放假了,产量有限,年后一定会有后续安排。 为了让更多人年前就用上红魔 11Pro+ 鸣潮限定版,产线这段时间都在加班加点推进。但现在临近春节工人都放假了,产量有限,如果这一批发售年前没赶上,年后也一定会有后续安排,感谢大家的理解和支持。 回顾红魔 11 Pro+,该机是行业首款风水双冷手机,内部配备 AI 服务器同款散热液,液态范围-60℃~108°C,无需担心低温环境,行业首创超低温键合工艺、独家高分子缓冲材料,采用独家微型陶瓷泵,功耗低至 80mW,输出压力达 100kPa。 该机正面搭载一块 1.5K 144Hz 悟空屏 2.0 真全面屏,匹配第五代骁龙 8 至尊版芯片,拥有自研电竞芯片红芯 R4,至高支持 2K 144Hz 超分超帧并发,适配 200 + 热门游戏。手机内置 7500mAh 第三代牛魔王电池,支持 120W 有线充电 + 80W 无线充电。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。