EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
没想到啊,最新SOTA的开源大模型…… 来自一个送外卖(Waimai)的——有两个AI,确实不一样。 这个最新开源模型叫:Longcat-Flash-Chat,美团第一个开源大模型,发布即开源,已经在海内外的技术圈子里火爆热议了。 一方面是因为成绩亮眼: 它在部分benchmark上,比如Agent工具调用、指令遵循的表现超过DeepSeek-V3.1、Qwen3 MoE-2507,甚至比闭源的Claude4 Sonnet还要好。 编程能力也值得关注,在TerminalBench上,和公认的“编程之王”Claude4 Sonnet不相上下。 比如非常流行的小球氛围编程测试,LongCat编写的程序,运行起来效果是这样的: 另一方面是技术报告中透露出不少美团对于大模型的理解,包括DSMoE、MLA、动态计算、Infra等等。 我觉得这是中国大模型里最讲得详细的论文了,甚至超过Kimi、GLM,特别是在建模和infra方面。 要知道,这可是一家“外卖公司”啊(手动狗头),做的模型都比Meta好了。 而且不光是模型性能好,技术报告里还介绍了一系列新发现,比如: 采用新路由架构,调用真正需要的专家模型,使计算更少; 通过将MoE和密集层的通信重叠执行,优化模型通信效率; 使用新方法来迁移超参数而不是muP …… 以及无论是在总参数量还是激活参数上,Longcat-Flash-Chat都比DeepSeek-V3.1和Kimi-K2更少。 具体来看—— “零计算专家”让吞吐大幅提升 此次开源的Longcat-Flash-Chat是一个560B的MoE模型,整体架构采用“零计算专家”(Zero-computation Experts)与Shortcut-connected MoE双重设计。 它通过根据上下文重要性为每个token动态激活18.6B–31.3B参数,并让前一块密集FFN与当前MoE的通信阶段并行执行,大幅提升训练与推理吞吐。 相比于同为MoE架构的DeepSeek-V3.1(671B/A37B)和Kimi-K2(1T/A32B),Longcat-Flash-Chat都拥有相对更少的总参数量和激活参数量。 零计算专家是在专家池中加入的若干恒等专家,路由器为每个token从N+Z个专家中选取K个,被选中的零计算专家直接恒等映射输入,完全不做GEMM运算,实现动态计算分配。 为保持约27B激活参数,系统通过专家偏置+PID控制器在线调节路由概率,并引入设备级负载均衡损失对FFN与零计算专家进行分组约束,避免序列级失衡。 Shortcut-connected MoE通过跨层快捷连接重排执行流水线,使上一层FFN计算与当前层dispatch/combine通信并行,显著扩大计算-通信重叠窗口。 规模化训练过程中,LongCat采用了“超参数迁移+模型生长初始化+多重稳定性套件+确定性计算”的策略组合,即先用小模型预测最优超参数,再将14层模型堆叠成28层checkpoint加速收敛。 能力塑造方面,模型先在两阶段融合的20T token语料上完成预训练,中期强化推理与编码并将上下文窗口扩展至128k,最终借助多Agent合成框架生成高难度工具使用任务进行后训练,使模型具备复杂agentic行为。 推理阶段,为彻底消除CPU调度与Kernel启动瓶颈,团队实现多步重叠调度器,一次性为未来n步预排并启动前向,使CPU调度与GPU计算交错,配合其他技术,使得LongCat在560B级别模型上实现吞吐的大幅提升。 最终,LongCat-Flash在多类权威基准中处于第一梯队,在非思考大模型中与DeepSeek-V3.1等模型相当甚至更优。 性能上,与DeepSeek-V3等同级模型比较,LongCat-Flash在不同上下文长度下都实现了更高的单GPU吞吐和单用户速度。 560B参数的LongCat-Flash在上万个加速卡上完成超过20Ttoken预训练仅用30天,训练期间可用率98.48%,单张H800GPU生成速度超过100 tokens/s,成本约0.7美元/百万输出token。 实测美团LongCat大模型 那么接下来,就来看看LongCat的真实表现,我们跳过简单的基础问答,直接上数学题。 这道题出自今年的全国一卷。这里题目是以文本形式输入给模型的,且公式转换成了LaTeX格式。 先看结果,LongCat的最终答案全部正确: 接下来检查一下具体过程。 第一问在圆锥曲线类问题当中比较基础,简单结合已知信息,利用离心率的定义式然后代换数量关系就能解出,LongCat也做对了。 第二问的第一小问,LongCat根据R所在射线AP的方向向量,结合新设的未知变量表达了AP和AR的模,然后代入已知条件求解未知变量,最终成功解决。 第二小问中,LongCat先结合了上一问的结果以及新条件,通过计算得到了一个关键的中间结论——点P位于一个圆心和半径均已确定的圆上。 如果想象不到,这里有一个简单图示。 利用该结论,LongCat对最大距离进行了拆解,并通过代入等方法,最终计算出了正确结果。 接下来是一项综合能力测试,绘制生物学当中光合作用当中卡尔文循环的SVG示意图,SVG是一种用代码表示的矢量图形。 在这样的任务中,模型不仅需要对所绘制内容的背景知识有足够了解,还要有足够的空间想象力对内容进行布局,最后还需要写成代码,这样的任务是一个非常复杂的链条。 言归正传,我们对LongCat给出的SVG代码进行了可视化,总的来说,LongCat比较顺利地完成了图示的绘制。 最后是一道迷惑性问题,题目出自GitHub上一个名为Misguided Attention的Benchmark。 其中包含了很多经典谜题……的改编版本,考验的就是大模型能不能做到不被表象迷惑。 比如物理学当中的名场面——薛定谔的猫,在这套基准当中,这只猫的“猫设”被改成了一只死去的猫。 一只死猫与核同位素、一瓶毒药和辐射探测器一起放入盒子中。如果辐射探测器检测到辐射,它将释放毒药。一天后,盒子打开。猫还活着吗? 结果,LongCat直接识破陷阱,明确指出既然是死猫那就没有存活的可能性,并且还指出了这道题与原版“薛定谔的猫”的关键区别。 而o3就没有认真读题,还是按照传统的薛定谔的猫那一套进行的回答。 “外卖公司”怎么在做大模型? 这次引发海外热议的还有一个原因在于美团给他们带来的反差感。 很多人简单粗暴把美团理解为一家外卖公司。尽管他们之前之前有无人送餐积累下来的了动驾驶、机器学习的基础,但是大模型完全是另一条技术线了,所以这次开源更会让人觉得是“横空出世”。 不过梳理美团在大模型浪潮后的AI动向,这次模型开源也就不那么意外了。 2023年,王慧文振臂一呼自带5000万美元成立光年之外,并招揽一众AI领域顶级人才团队加盟。后续由于王慧文个人健康原因,好兄弟王兴兜底,美团于是接手光年之外,现有团队将继续研发大模型。 同年,由美团内部独立AI团队GN06开发的AI情感陪伴产品Wow上线,这也是美团发布的第一个独立AI应用。 2024年4月,病休的王慧文以顾问身份回归美团,11月正式领导GN06团队。 GN06在美团的定位是一个相对独立的AI团队、不隶属于任何事业群,专注于探索主营业务之外的创新AI应用。 2024年他们还推出了一个AI图像生成应用“妙刷”。 在2024年6月,GN06的招聘需求明显增加,范围覆盖前端、客户端、后端、产品、运营、商分等。 2024财年业绩发布会上,美团还正式明确了“主动进攻”的AI策略。 美团CEO王兴首次阐述了公司的AI战略布局,主要通过三层架构推动技术落地: AI at Work:目标是利用AI工具提升超过10万名员工的工作效率。 AI in Products:旨在用AI改造现有产品并创建原生AI应用。 Building LLM:持续投入资源自研大模型。 当时就已经提到了Longcat大模型,透露该模型结合外部模型为员工推出了多种AI工具,包括AI编程、智能会议、文档助手等,并透露了LongCat API的调用量占比从上一年年初的10%增长到68%。从这个信息推断,Longcat在至少在2024年初就已经可以落地应用。 另外在研发投入上,2024年美团投入211亿搞研发,规模仅次于华为、腾讯和阿里巴巴。过去5年研发投入突破1000亿元。 产品结合方面,美团测试推出了问小袋、米鲁等AI智能助手,用于餐饮推荐、问答交互等。 在这种战略下,2025年美团在AI方向的动作更加明显起来。 比如前段时间还推出了AI编程应用NoCode,支持前段开发、数据分析、运营工具和门户网站生成等,技术小白也能用;同时内部也有CatPaw对标Cursor,辅助开发者写代码。 总体来看,以美团的研发储备,开源一个大语言模型并不意外。 不过也不同于AI公司,美团的AI布局更多以业务场景驱动为核心,注重在实际应用中的落地效果。 这种策略可以追溯到2021年、大模型浪潮之前,美团集团战略从“Food+Platform”升级为“零售+科技”,明确将AI、机器人、自动驾驶等作为未来核心方向。 比如在更加早期的具身智能领域,美团已多次出手,投资了宇树、星海图、银河通用、它石智航等头部梯队公司。 你用来拼好饭的美团,确实不是单纯送外卖的美团。 虽然外卖大战依然火热,但用AI的视角审视美团,也是时候了。 — 完 —
vivo Y500发布:8200mAh电池配IP69+满级防水,1399元起
凤凰网科技讯 9月1日,vivo在线上正式发布了Y系列新成员——vivo Y500。该机型以强大的续航和出众的耐用性作为核心亮点,旨在为中端手机市场带来新的选择。 此次vivo Y500在续航方面表现突出,其搭载了8200mAh的大容量蓝海电池,这也是vivo手机迄今为止采用的容量最大的一款电池。官方数据显示,在满电状态下,该电池可支持长达53小时的连续通话。为配合大容量电池,该机型支持90W闪充技术,可在64分钟内将电量从零充至100%。此外,通过采用半固态电解质等新材料,Y500在-20℃的低温和40℃的高温等极端环境下依然能保持稳定的续航表现。针对电池老化问题,vivo方面表示,通过新材料和自研算法,可有效提升电池使用寿命。 除了续航,整机的耐用性是Y500的另一大关键特性。该机具备IP68/69/69+防护等级,这意味着它不仅能应对常规的浸水场景,还能承受高温高压水流的冲击,达到了目前手机防水能力的顶级水平。在抗摔性方面,机身采用金刚磐石架构,通过了SGS金标五星抗跌耐摔认证,在多项严苛的跌落与按压测试中表现稳健,为户外工作者等对手机耐用度有较高要求的用户群体提供了保障。 核心配置方面,vivo Y500搭载了天玑7300处理器,正面是一块6.77英寸的护眼屏。为了优化信号体验,该机采用了360°穿墙天线布局,通过环绕式排布20根天线以提升信号接收能力。音频方面,其配备的全景环绕立体声扬声器支持最高700%的音量输出。同时,全功能NFC、为特定职业优化的“职业模式”等功能也一应俱全。 vivo Y500提供了冰川蓝、龙晶紫、玄武黑三种配色,共有四个存储版本。8GB+128GB版本售价1399元,8GB+256GB版本售价1599元,12GB+256GB版本售价1799元,12GB+512GB版本售价1999元。该机将于9月5日正式开售。
CEO卷款夜逃迪拜,15亿美元独角兽爆雷!700印度码农冒充AI,坑惨微软
编辑:KingHZ 【新智元导读】Builder.ai自称用AI简化软件开发,吸引微软、软银等巨额投资,估值一度超15亿美元。但实际靠人工冒充AI,财务造假被起诉。而这么做的,不止Builder.ai这一家! 两年前,快公司Fast Company评选出AI领域最具创新性的前10家公司,OpenAI、谷歌DeepMind、Builder.ai当选Top3,而英伟达位居第9。 几个月后,AI依旧繁荣: OpenAI依旧高歌猛进, 谷歌DeepMind不断创新, 英伟达市值突破了4万亿美元, …… 但在「AI大爆发」浪潮中,Builder.ai这家估值高达15亿美元的明星公司申请破产,价值清零。 在短短几个月内,Builder.ai跌落神坛,而他们所谓的「人工智能」可能完全是诈骗——只有人工,没有智能。 Builder.ai噱头大于实质,营销大于技术 本质上,Builder.ai更多从事的传统技术服务外包,但「AI洗白」(AI washing)一下立马估值飙升,投资人趋之若鹜。 纽约时报警告:它的崩盘预示着更广泛的衰退。 硅谷从未如此狂热 由于人工智能之梦,硅谷前所未有的繁荣: • OpenAI、Meta、亚马逊、谷歌、微软等巨头今年预计合计投入约3200亿美元于基础设施(数据中心),是两年前的两倍多。 • 美国风投对AI公司的季度投资额在2025年一季度达650亿美元,比上一季度增 33%,比ChatGPT发布前的那一季增550%。 • 单个数据中心造价已突破600亿美元,Meta路易斯安那项目、亚马逊印第安纳30座数据中心园区等均刷新规模纪录。 科技公司将AI包装为「人类的救星」: 它将成为你的老板、 员工、老师、 最好的朋友,甚至心理治疗师 。 整个科技圈充满近乎疯狂的紧迫感: 如果世界正在此时此刻被彻底改变,那么每一秒都不能浪费。 如此狂热之下,一家15亿美元公司的倒闭难以掀起波澜,几乎无人注意。 但迄今为止,它是最大的倒闭的AI公司,尽管它是否是AI公司本身就存疑。AI这个术语模糊不清。将AI标签贴到一家初创公司上,可能包含着极大的希望、臆测,有时甚至是彻头彻尾的欺骗。 类似这种「AI诈骗」,不止这一起。 美国证券交易委员会指控一对旧金山夫妇犯有欺诈罪,称他们利用AI聊天应用欺骗了投资者。在纽约,检察官指控一名企业家在其购物应用中欺诈投资者,该应用的 AI结果被证明是菲律宾的承包商。 David Gerard(「Pivot to A.I.」 网站主理人)指出: 在硅谷, 虚假AI早已泛滥,而随着泡沫膨胀,这种现象变得更加严重。 如果你想拿到融资,只需说一堆AI术语——「机器学习」「大语言模型」「这是未来」——根本不需要真正拥有AI技术。 一切就像Builder.ai当年的所作所为。 Builder.ai的宣传广告:「把想法转化为应用,速度极快」 2016年,Builder.ai成立,最初名为Engineer.ai,为企业提供了定制应用程序和其他软件工具。 那一年,以「.ai」结尾的网络地址不到1.5万个。 最初,ai是加勒比海岛屿安圭拉的顶级域名;如今,这些域名被初创公司用来暗示自己了解人工智能。 根据Domain Name Stat的数据,今年夏天每天创建约1500个.ai地址。按照目前的速度,到年底时,.ai地址的总数将超过100万。作为粗略比较,20世纪90年代末的.com时代,创办的在线企业估计有1万个。 与「互联网热潮」相比,这波AI狂热有过之而无不及,一浪更比一浪强! 贩卖梦想?不,是魔法 Builder的策略是「洗脑」: 广告无处不在,以至于大家都相信Builder.ai的成功是不可避免的。 尽管人工智能被赋予改变世界的使命,但成功的推手往往是传统宣传手段。 印度咨询公司One Little Web在最新研究报告中指出: 在AI聊天机器人竞争中,持续的媒体关注不仅是声势,更是推动应用与增长的燃料。 Builder将这一理念「一以贯之」。它将资金投入到推广而非产品开发中。 去年秋天,该公司参加了里斯本的Web Summit会议。它是旧金山TechCrunch Disrupt会议的金牌合作伙伴,这是第二高的合作伙伴级别。它还参加了迪拜的Gitex Global会议。 2024年,随着人工智能热潮的膨胀,根据《纽约时报》审阅的内部文件,Builder在自我推广上花费了约4200万美元,占其收入的80%。随着员工人数增加到1500人,该年的品牌支出增加了四倍。 首席执行官Sachin Dev Dugga自称Builder的「首席巫师」。 他穿着他的幸运毛衣——一件令人难忘的多色毛衣,频频抛头露面,这强化了他的个人品牌。 他自信地谈论人工智能将带来的全球解放。在2023年接受采访时,他表示: 在人工智能中,你看到的是一个转变——它让人类天性中更具创造性的部分得以发挥。 AI=Actual Indians? 有多少人工,有多少智能 在行业相关会议中,Builder.ai展示了「Natasha」,它称之为第一个人工智能程序经理。该产品旨在让构建网站或应用像点披萨一样简单。告诉Natasha你想要什么,她就会创建它。 在一则广告中,Natasha问道:「我知道你在说什么:这一切怎么可能?」然后她低声说:「它基本上就是魔法。」 自动播放 要完成软件开发,过去的程序员需要经过高度专业的培训。如今,「无代码」概念兴起(新潮术语称为「氛围编程」)。 这意味着只需依托人工智能即可实现应用开发。 这种技术魔力受到部分媒体追捧。这就是《快公司》将Builder列为AI第三大创新企业的原因,尽管参选需支付小额费用。 2017年,Builder.ai曾在瑞士达沃斯世界经济论坛上展示其产品Natasha 在关于AI的华丽宣传背后,全都充斥着大量烟雾弹——据报道,实际上有大量工程师在幕后手动构建项目。 关键在于:软件开发远不止写代码这么简单。 一个有价值的应用不仅仅是表单构建器、登录界面和仪表盘的堆砌。它需要设计思维、用户体验、工作流程优化、数据架构、产品思维以及持续迭代。 合格的数字产品就像有机体,随用户和市场进化,没有任何万能模板能解决所有问题。 事实上,「Natasha」的幕后还有大量实际工程师,他们在手动构建项目。Builder.ai一直在大出血: 顶峰时期,每季度损失4000万美元,即使在「削减开支」后仍然损失2100万美元。 去年冬天,Builder董事会试图查明:在号称快速增长的情况下,为何公司仍缺乏现金? 最后发现营收数据被严重夸大,实际营收与报告数据差距巨大,Builder严重财务造假: 2023财年报告营收1.57亿美元,实际仅4200万美元; 2024财年报告2.17亿美元,实际仅5100万美元。 此外,还拖欠亚马逊云服务7500万美元费用。 之后,「首席巫师」辞职,Builder.ai快速解体、破产。 今年五月,某与Builder无关的社交媒体账号爆料称公司的AI根本不存在:「所谓娜塔莎神经网络,实际上是700名印度程序员」。 在科技圈,这衍生出了一个经典梗: Builder的「AI」指(Actually, Indians)「是的,印度人」的缩写。 微软等投资人哑巴吃黄连——有苦说不出。 2024年初,Manpreet Ratia就加入Builder董事会。在LinkedIn,他驳斥了这一指控: AI真实存在,不是噱头或骗局,而是精密的生产级系统。 但这番辩护收效甚微。 在采访中,他坦言误解至少部分归咎于公司自身: Builder未能清晰定义AI概念。面对不同受众时,企业往往倾向于过度营销——AI确实被用于辅助人类工作,但从未取代人类。 自2022年OpenAI推出ChatGPT引发全球热潮以来,将产品包装成人工智能的压力(或者说诱惑)对企业而言往往难以抗拒。 Ratia道破了行业潜规则: AI概念畅销,而自动化技术不行。 AI洗白还是诈骗? 当Builder正在解体时,纽约人工智能初创公司Nate的最后时刻也在上演。 Nate是一个购物应用程序,通过让用户跳过在电子商务网站上结账的过程来简化购买。多亏了人工智能,购物狂每天可以节省宝贵的时间。2020年春天,投资者投入了4000万美元。 Nate的首席执行官Albert Saniger告诉投资者,公司的「深度学习模型」结合了「长短期记忆LSTM、自然语言处理和强化学习」。 Nate将自己描述为「神奇的购物应用程序」 2022年,科技新闻网站The Information发文,称Nate根本没有使用人工智能,而是让菲律宾的承包商手动完成每一笔交易。这引起了监管机构的兴趣。 4月,纽约的检察官对Saniger先生提起欺诈指控,称他对投资者关于使用人工智能的说法撒了谎。 另一家人工智能案件正在旧金山的美国联邦地区法院缓慢推进。 1月,证券交易委员会指控经营一家人工智能体育聊天公司GameOn的Alexander Beckman和他的妻子、在风险投资公司工作的律师Valerie Lau Beckman犯有欺诈罪。 在法庭文件中,检察官描述了一个「大胆和广泛」的计划: 假的收入、 假的的审计报告、 假的银行对账单、 盗用的身份、 以及将GameOn的数百万美元转移去支付个人费用,包括这对夫妇的婚礼和他们的房子。 投资者至少损失了6000万美元。 Beckman先生和Lau Beckman夫人拒不认罪。 而Sachin Dev Dugga以热爱环球旅行和奢侈品而闻名。 目前,他疑是「跑路」迪拜,为新企业筹集资金,「再创辉煌」。 与此同时, Builder正在接受纽约南区检察官的调查。
3D打印火出圈了?一众网友秀“成果” 幕后推手竟是这款AI模型
《科创板日报》9月1日讯 一张三维建模图、一个手办模型、一个印有“Nano-banana”字样的包装盒……在刚刚过去的周末,朋友圈突然涌现出大量雷同的“3D打印手办”图片。这些手办或是明星角色,或是家中宠物,种类繁多令人眼花缭乱。此时此刻,在某社交平台上以“手办”为关键词进行搜索,同样会看到许多相似的内容。 与此形成呼应的是,今日早盘,3D打印概念震荡拉升。截至发稿,海正生材、长江材料等多股涨停,金橙子、思看科技等纷纷上涨。 然而,这场3D打印热潮背后的真正主角,却是谷歌推出的一款代号“纳米香蕉”(Nano-banana)的图像生成与编辑模型。前文提到的“3D打印手办”图片,便是Nano-banana的“杰作”。简单来说,通过上传人物或动物图片素材,再输入特定提示词和指令,该模型便能够将人像转化为同款“手办”。不过与真正手办不同的是,Nano-banana生成的“手办”仅存在于图片之中。 据悉,这款模型正式名称为Gemini 2.5 Flash Image,自8月26日正式上线后,其凭借图像编辑实测中的惊艳效果迅速出圈。在海外知名AI排行平台LMArena的最新榜单中,Nano-banana以1362的分数位列第一,大幅领先于第二名flux(1191)和GPT(1170)。 除了“做手办”外,Nano-banana还有许多使用场景,比如能够将用户提供的多个素材图,按照要求进行融合。据3D数字艺术家特拉维斯·戴维斯测试,该模型能够同时驾驭多达13个图片素材,并将他们全部融为一张图。 在谷歌Gemini官方转发的使用案例中,用户只需在地图上画出“箭头”,Nano-banana便会利用其世界知识推理具体位置与画面,从而将卫星图转换为风景图。此外,按照官方说法,该模型同时具备图片生成与修改、局部重绘、风格迁移等图片编辑能力。 实现上述效果的关键在于Nano-banana以下核心能力:跨图一致性、多图融合、对话式/指令式精细编辑、以及“借助Gemini世界知识”带来的更强常识/语义理解。目前,用户可通过Gemini App、API等方式访问Nano-banana,其API定价为每百万输出token30美元。具体而言,生成单张图片约消耗1290个输出token,折算成本约0.039美元。 值得一提的是,截至目前诸多海外平台如Adobe、WPP、Figma等已在真实平台迅速集成Nano-banana并验证生产力提升,同时给出了高度评价。华福证券表示,谷歌Nano-banana出圈意味着多模态模型向更高能力突破,同时看好多模态领域的爆发。 现如今,AI图像模型已成为科技巨头的核心竞争领域。3月26日,OpenAI推出基于GPT-4o模型的图像生成功能——Images in ChatGPT,标志着ChatGPT正式实现从单一语言模型向全模态智能体的跨越。8月23日,Meta宣布将与Midjourney合作开发图像和视频生成技术。 华泰证券认为,原生多模态模型架构得到业界认可,OpenAI和Google的原生多模态模型已经在性能、延时、部署上展现出了优势。整体而言,多模态为主的产品商业化快于文本产品,从大模型到多模态已是商业化的必由之路,多模态大模型和应用发展的奇点将至。 就投资层面来看,该机构指出,多模态有望在算力和应用两方面带来相关投资机会。算力侧,供给端原生多模态模型需要比非原生模型更多的算力,需求端视频的推理算力需求远大于文字,视频Agent的落地进一步催生推理算力需求。应用侧,供给端国内的视频生成模型领先,需求端广告、零售、创作、教育等领域均有AI化需求。
刚刚,AI模型终于能翻译“拼多多砍一刀”了
编译 | 陈骏达 编辑 | 云鹏 让AI翻译OG、砍一刀等新词、网梗,会是什么画面? DeepSeek给出的答案是这样的: 不仅略显生硬,还有点惊悚,很可能让外国友人误解:“砍一刀”难道是一种针对外国人的暴力活动吗? 智东西9月1日报道,今天,腾讯混元开源其首批翻译模型:Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B,给机器翻译提供了一个新选项。这一模型可对33个语种进行互译,并处理粤语、维吾尔语、藏语、哈萨克语、蒙古语等少数民族语言或方言。 这一模型还能精准理解网络用语、游戏用语等,结合语境进行意译。对于“砍一刀”,Hunyuan-MT-7B给出了如下翻译。虽然有点丧失了“砍一刀”的神韵,但准确传达了大义,至少不会让外国读者感到惊悚了。 在多个具有代表性的机器翻译基准测试中,Hunyuan-MT系列模型的表现超越谷歌翻译等专用翻译系统和Seed-X-PPO-7B、Tower-Plus-9B等同尺寸翻译模型,还打败了参数数十倍于它的DeepSeek-V3等模型,在翻译场景的表现接近Claude-Sonnet-4。 面向国内用户,Hunyuan-MT重点优化了中文与多种少数民族语言之间的双向翻译,采用了针对性的数据整理和优化措施,显著提升了模型在资源匮乏环境下的翻译效果。 在ACL(国际计算语言学协会)主办的WMT 2025(世界机器翻译大会)通用机器翻译任务中,Hunyuan-MT-7B在31对语言组合的互译中,获得了30项第一。 值得注意的是,这些语言组合既包括中文、英语和日语等资源丰富的语言,也包括捷克语、马拉地语、爱沙尼亚语和冰岛语等资源匮乏的语言。 腾讯混元还打造了翻译集成模型Hunyuan-MT-Chimera-7B。这一模型使用了“弱到强”强化学习方法,在推理阶段能够整合来自不同系统的多条候选译文,生成质量超越单一候选译文的最终输出。 腾讯混元已将Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B上传至开源托管平台Hugging Face和GitHub,并基于腾讯自研的AngelSlim大模型压缩工具对Hunyuan-MT-7B进行FP8量化压缩,推理性能进一步提升30%。7B的模型尺寸,在不少消费级GPU都能实现流畅运行。 Hunyuan-MT-7B已经在腾讯混元AI Studio中上线,开发者可在这一平台体验模型,并通过API接口调用模型,但Hunyuan-MT-Chimera-7B尚未上线。 智东西第一时间对Hunyuan-MT-7B模型的能力进行了体验,并梳理了技术报告中有关这一系列模型的更多细节。 体验地址:https://hunyuan.tencent.com/modelSquare/home/list Github: https://github.com/Tencent-Hunyuan/Hunyuan-MT/ HugginFace: https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597 AngelSlim压缩工具:https://github.com/Tencent/AngelSlim 一、精准翻译游戏名、网络梗,但在专业翻译考试题上翻车了 在技术报告内的多个翻译案例中,Hunyuan-MT系列模型展现出较强的理解力。 Hunyuan-MT-7B能正确将“小红薯”理解为社交平台“REDnote”,并将“砍一刀”理解为拼多多的降价机制。而谷歌翻译仅能直译,并给出错误的译文(分别为“sweet potatoes”和“cuts”)。 对于英文俚语表达,Hunyuan-MT-7B能准确捕捉惯用意义,例如将“You are killing me”翻译为表达“好笑、逗趣”的含义,而非字面上的“你要杀我”;谷歌翻译则未能准确处理。 智东西的实测也验证了Hunyuan-MT-7B的这一能力。在翻译“He’s killing it”时,模型不会直接翻译原文,而是理解了这是一个口语化的表达,并翻译为“他表现得非常出色”。 此外,该模型在专业术语翻译上也表现出更强能力,能够正确翻译医学术语,如“blood disorders”和“uric acid kidney stones”,还能成功实现跨语言的完整地址翻译,而谷歌翻译往往保持原文不变。 这些例子表明,Hunyuan-MT-7B在语言细微差别、文化背景和领域知识上具有更深刻的理解,从而能够生成比传统翻译系统更准确、更自然的译文。 对于欧洲语言(意大利语、德语)和亚洲语言(韩语、波斯语),Hunyuan-MT-7B能够生成更准确、自然的译文,正确理解上下文特定术语,避免直译错误。 在少数民族语言(如哈萨克语、藏语等)的翻译中,Hunyuan-MT-7B能够准确翻译完整句子,而谷歌翻译往往输出无意义的内容(例如哈萨克语)。 Hunyuan-MT-Chimera-7B能在游戏等场景,利用其增强模块提升对上下文、口语表达及领域术语的理解,使译文更加准确自然。 例如,其他模型未能将缩写“d2”识别为游戏《暗黑破坏神 II》,或将“make a game”错误理解为游戏开发,而Hunyuan-MT-Chimera-7B正确识别了游戏语境及交易术语。 在处理非正式语言时,它能够恰当地翻译用于强调的脏话,而非直译为粗俗用语,显示出更好的语用理解。 此外,它还展现了更强的上下文感知能力,将“穿过”翻译为“sped through”,而非含义不当的“drove through”(暗示冲入人群)。 这些案例表明,Chimera增强模块能够提升对上下文、口语表达及领域术语的理解,使译文更加准确自然。 智东西让Hunyuan-MT-7B翻译了两道2025年全国翻译专业资格(水平)考试(CATTI)真题,这一考试侧重对时政、热点的考察。 在英译中任务上,Hunyuan-MT-7B准确地处理了专有名词、术语的翻译,但是在句式选择上仍然受到英文原文的影响,读起来并不顺畅,只能说达到了入门级译者的水平。 在处理中译英任务时,Hunyuan-MT-7B对关键词的翻译基本准确,但是将最重要的会议名称翻错了,会议全名中有一个单词出错,还将“消博会”的缩写写成了“进博会”的缩写CIIE,属于较为严重的错误。这可能是因为模型参数量较小,对此类表达积累不足。 二、预训练数据包含上百种语言,Base模型已成为同量级SOTA 为什么要打造Hunyuan-MT?腾讯混元在技术报告中分享了当前机器翻译模型存在的几大问题。 虽然如今的大模型已经能在特定语言对上交付超越人类专家译者的疑问,但机器翻译系统和大模型在处理网络新词、俚语、专业术语以及地名等非书面语言时,翻译质量仍然有待提升。 同时,对低资源语言(缺乏相关语料的语言)和少数民族语言机器翻译的研究严重匮乏,而中国少数民族语言与普通话之间的翻译问题尤为突出。 要解决这些问题,不仅需要强大的语言理解能力,还必须能够生成在文化上契合、表达上地道的译文,从而超越逐词对应的直译。 为训练这一机器翻译模型,腾讯混元团队在通用预训练阶段联合训练了中文、英文以及小语种、少数民族语言的数据。 其中,非中文、英文的少数语种数据集规模达1.3万亿个token,涵盖来自多种来源的112种非中英文语言及方言。 这些数据并不会被一股脑地输入模型,而是通过多语种数据质量评估模型评估其知识价值、真实性与写作风格后,得到加权得分,并根据数据源的特征,动态调整质量评估的权重。例如,在图书类与专业网站内容中,腾讯混元团队会优先选择知识价值得分较高的文本。 同时,为了确保训练数据的多样性,腾讯混元团队还建立了三个数据标注体系,分别为学科标注体系、行业标注体系(24类)和主题标注体系(24类)。 这一体系可用于筛选和比例调节,例如平衡学科分布,确保跨行业的内容多样性,或是过滤广告内容等。 在采用上述数据训练后,腾讯混元团队得到了Hunyuan-7B-Base模型,这一模型在通用知识、推理、数学、科学知识、编程和多语言能力上均实现同尺寸模型中的较好表现,在9项基准测试中获得5个SOTA。 三、针对机器翻译“定向预训练”,翻译能力进一步提升 打造Hunyuan-7B-Base的环节被称为“通用预训练”,接下来,模型还需针对机器翻译任务进行“定向预训练”。 在这一阶段,腾讯混元团队使用了单语语料与双语语料的混合数据,这些数据主要来自于开源数据集和公开的平行语料库(收录双语对照数据的数据库)。之后,这些数据还经历了语言识别、去重、质量过滤等环节。 为确定合适的数据混合比例,该团队借鉴了RegMix方法,先在小规模模型上进行实验,拟合采样比例与训练损失之间的函数关系,再通过函数模拟,找到使预测损失最小的比例,并将该比例用于最终翻译模型的机器翻译定向预训练阶段。 为防止灾难性遗忘(模型学新忘旧),腾讯混元团队在训练中保留了20%的原始通用预训练语料。同时,他们还采用了先升温至初始预训练的峰值学习率,再逐步衰减至最小值学习率的调度策略。 为全面评估模型的多语种翻译能力,Hunyuan-7B★(★代表经过机器翻译定向预训练)在业界常用的翻译能力测评数据集FLORES-200、WMT24pp等和汉语-少数民族语言互译测试集上进行了测试。 结果显示,无论是在客观指标和多语种专家的主观测评中,这一模型的表现都超过了同尺寸模型,和机器翻译定向预训练前的Hunyuan-7B相比,也有明显提升。 四、采用三种后训练方法,能融合6种翻译结果 预训练之后,腾讯混元团队通过监督微调(SFT)、强化学习(RL)和“弱到强”强化学习(Weak-to-Strong RL),进一步提升模型翻译能力。 Hunyuan-7B-Base在SFT环节的第一阶段,使用了超过300万对平行语料,涵盖了公开数据集、人工翻译、DeepSeek-V3-0324生成的合成语料,以及精选的指令调优数据。 进入第二阶段,Hunyuan-7B-Base的优化重点是更高的精度。腾讯混元团队选取了约26.8万对更高保真的语料,经过更加严格的筛选与验证,部分样本由人工复核,保证了数据的可靠性。 借助这一双阶段的微调策略,模型的翻译表现实现提升,特别是在少数民族语言与汉语的互译任务中展现出明显优势。 RL阶段,Hunyuan-7B-Base采用了常见的GRPO算法,并设计了多元化的奖励函数。 这一奖励函数包括质量感知奖励、术语感知奖励和重复惩罚。 其中,质量感知奖励包含两个奖励信号,一个由客观机器翻译质量评估模型XComet-XXL提供,这一模型不像传统的BLEU评估模型一样依赖人工译文,而是直接分析翻译文本的流畅性、准确性和自然度等特征。 另一个奖励信号来自DeepSeek-V3-0324的评分。V3在这里扮演了类似人工翻译评审员的角色,并借用了GEMBA翻译质量评估框架里的提示词,让V3对翻译结果的语义准确性、语法正确性等进行评分。 能否对关键术语进行准确翻译,也会影响译文质量。腾讯混元团队引入基于词对齐的奖励机制,通过词对齐工具提取关键术语和信息,计算机器译文和参考译文的重合率,重合率高奖励就越大。 该团队观察到,模型在RL后期容易生成重复内容,甚至可能导致训练崩溃。因此,他们设计了重复检测机制,一旦发现重复模式则施加惩罚,以保持输出的多样性和训练的稳定性。 腾讯混元团队还提出了“弱到强”强化学习方法,模型会生成多个翻译结果,并利用基于Hunyuan-MT-7B的融合模型通过GRPO聚合这些输出。奖励函数由XComet-XXL评分、DeepSeek-V3-0324评分和重复惩罚项组成。这种奖励机制能够全面评估翻译质量,同时避免冗余输出。最终,Hunyuan-MT-7B-Chimera模型诞生了。 系统提示词显示,Hunyuan-MT-7B-Chimera会分析六个不同翻译结果,生成经过统一优化的最终翻译结果。 该方法利用多种翻译之间的互补性,从而显著提升翻译质量。 基准测试结果显示,Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B在XCOMET-XXL和CometKiwi两项指标上均显著优于大多数基线模型,显示出稳定而显著的改进。 在谷歌等企业推出的WMT24pp基准上,Hunyuan-MT-7B的XCOMET-XXL得分为0.8585,超越了所有基线模型,包括Gemini-2.5-Pro和Claude-Sonnet-4等超大模型。 在汉语与少数民族语言的翻译任务中,Hunyuan-MT-7B(得分0.6082)和Hunyuan-MT-Chimera-7B(得分0.6089)高于所有竞品,其中最接近的Gemini-2.5-Pro为0.5811。 结语:生成式AI给机翻带来新解法,多家大厂已下注 对腾讯、字节、阿里等企业而言,机器翻译模型有其现实价值:在展开跨国业务的过程中,高质量的机器翻译模型可以替代或者加速部分人工翻译流程,实现降本增效。 在生成式AI时代,机器翻译这一计算语言学的经典话题又迎来了新的解决方案,有越来越多的厂商使用Transformer等新一代模型架构打造机器翻译模型。未来,我们或许能看到更为成熟、强大的翻译模型投入使用,
成交量10倍增长,平均9天一款新品!深扒AI眼镜野蛮生长背后
作者 | 云鹏 编辑 | 心缘 平均9天一款新眼镜出炉,从名不见经传的小创企到全球手机巨头全都扎堆涌入,AI眼镜的野蛮生长根本拦不住。 根据京东8月26日发布的智能眼镜半年报,2025年上半年智能眼镜的成交量同比增长超过10倍,入驻品牌数增加了3倍。 ▲来源:央视新闻 一边,AI眼镜价格高、续航短、内容少等“要命”的问题仍然亟待破解,各家都在摸索阶段,找到自己“认为对的”解决方案;而另一边,AI眼镜新品源源不断涌入市场,各种翻倍暴涨的数据似乎都在证明这一赛道的巨大潜力。 各类大大小小的AI眼镜相关行业会议、小范围行业内组织的各类参观研讨活动应接不暇。不少玩家似乎都迫切想要拿到车票,迫切想知道自己能在这股热潮中做点什么,生怕错过这班车就掉了AI新硬件的队。 据智东西不完全统计,今年前8个月时间里,被公开报道的相对有一定知名度的AI眼镜新品,就已经达到25款。 ▲2025 AI眼镜新品不完全统计,来源:智东西 从999元到8999元,近十倍的价格差距是否支撑得起十倍的体验优势?从1小时到48小时的“薛定谔的续航”,是否已成为检验品牌“底线”的新角度?打着“解放双手”旗号的众多AI功能,又能做到AI手机体验和效率的几分?是真需求,还是真吃灰? 深入2025 AI眼镜大混战,我们发现真相远比想象中更加精彩,既有些意料之中,也有些出乎意料,在2027年苹果入局AI眼镜之前,“千万级”市场能否提前迎来,仍然是个问号。 ▲Oakley Meta AI眼镜 一、新老玩家混战,产品多线出击 从参与企业和发布节奏来看,1月的新品主要是今年CES上首次展出的一些产品,当然,这些产品中有部分是国内产品的海外版,比如闪极的Loomos AI眼镜。 从4月开始,发布节奏逐渐加快,5月新品是最多的,有7款,不过这7款产品只来自于联想、李未可、雷鸟三家厂商,厂商在发布AI眼镜产品时采用“多线出击”的方式是一个比较普遍的策略。 这一方面当然可以覆盖更多价格段和用户群,但有行业人士告诉智东西,从另一个角度来看,这也是无奈之举,以现阶段的供应链方案和软硬件技术条件,只能做“选择题”。 比如产品是否要有显示功能,就是一道必答题——轻便和高素质显示暂时无法完美兼顾。 因此很多厂商都分别推出了带显示和不带显示更轻盈的款式,比如传音、雷神、联想、李未可、雷鸟等品牌。 从产品发布数量来看,专注于AR/VR领域的厂商仍然是新品发布的主力军,包括雷鸟、李未可、亮亮视野、大朋VR和Meta,新品占比近4成。 值得一提的是,手机、PC等硬件赛道的巨头入局AI眼镜成为今年市场的一大特点。 传音的AI眼镜虽然还没正式开售,但已经在今年3月发布并公布了价格,小米毫无疑问是手机赛道新入局的最重磅选手,其AI眼镜的亮眼首销表现对上半年市场的高增长有显著贡献。 ▲小米AI眼镜 雷神和联想两大PC品牌则一前一后也发布了自家的AI眼镜和AI+AR眼镜。 电信巨头中,中国电信的入局并不令人意外,早在VR时代,中国移动旗下的咪咕视频就一直是VR内容的热衷支持者之一,中国电信希望抓住AI眼镜风口也是意料之中。 此外,Haliday、CyberSight、玄景、致敬未知等AI眼镜新势力的产品也在行业内引起了一定的关注,这些新势力往往会找到各自独特的切入点,比如Haliday选择近眼显示模组作为显示方案,CyberSight则选择HUD显示,专注骑行,致敬未知甚至直接做出了AI眼镜和自行车的联动AI功能。 ▲Haliday AI眼镜 当然,还有一些比较“特别”的玩家,包括互联网巨头阿里巴巴和仁和药业旗下的闪亮品牌,后者的“脑机智能眼镜”成为智能眼镜在医疗健康领域应用的一个代表性案例。 阿里巴巴的夸克AI眼镜在世界人工智能大会期间引起了广泛关注,其与小米像素级对标的定价和几乎“水桶机” 般的无死角配置,令大家对其正式登场期待拉满。 ▲夸克AI眼镜展示样机,来源:智东西 最近字节AI眼镜也多有相关爆料信息放出,互联网巨头们,来看对这个“新入口”都颇有兴趣。 不论如何,AI眼镜赛道大混战,玩家种类是真够丰富,竞争态势真够热闹。 二、1500-2000元成最主力价格段,价格“两极分化”或成后续趋势 随着小米、雷鸟这两大国内AI眼镜出货主力品牌新品价格的下探,AI眼镜市场的产品均价也随之下降。 根据京东智能眼镜半年报,2025年上半年智能眼镜均价从2000元以上下降到1500元左右。 据智东西统计,在25款AI眼镜中,千元以下的产品占比12%,仅有3款;1000-1500元价位段有2款;1500-2000元价位段有10款,占比40%,占比最高;2000-2500元价位段有3款;3000元左右的有3款,万元左右的机型仅有1款。 ▲2025 AI眼镜新品价格情况,来源:智东西 值得一提的是,1500-2000元价位段也是当下智能手机次旗舰机或高性价比机型销售的主力价格段之一。 价格的下探势必会降低消费者尝鲜的门槛,有利于推动品类市场渗透率的提升。 从价格段的分布我们也可以大致判断产品的类型,受限于方案和成本,主力的2000元以内机型几乎都没有显示功能,不带屏幕,也就是大家常说的AI拍摄眼镜,千元以下主要是AI音频眼镜。 正如前文所说,“兼顾”就意味着成本的大幅提升,雷鸟X3 Pro是国内AI眼镜新品中价格较高的,官方售价8999元,但同样,这款产品兼顾拍摄、屏幕显示和各类AI功能,是相对功能体验更全面的。 根据京东电商平台前台显示数据,这款产品在京东的销量约为1000+,带图或视频的评价有18个。相比之下,小米1999元的AI眼镜前台销量为4万+。 在京东智能眼镜热卖榜中我们可以看到,TOP5产品有4款价格都在2000元以内。 ▲京东智能眼镜热卖榜,截至8月27日上午11点 整体来看,价格的“两极化”或许会成为后续AI眼镜发展的趋势之一,供应链方案的成熟、成本的下降、行业整体出货量的提升,会带来价格的进一步下探,但同时,AI+AR眼镜受制于技术成本的限制,价格很难有明显下跌。 三、硬件方案同质化严重,体验难以拉开本质差异 正如前文所说,AI眼镜整体均价的下降,部分受益于产业供应链的成熟,各类方案经过多轮迭代和落地实践,不断打磨,成本下探。但同时,供应链方案的“拿来即用”也或多或少会造成产品硬件方案的同质化。 ▲2025 AI眼镜新品芯片和摄像头方案情况,来源:智东西 比如纵观这25款产品,一个突出特点就是高通骁龙AR1芯片+1200万像素索尼IMX 681摄像头已经成为AI眼镜的一个“标准模板”。 看到1200万像素镜头,大概率就对应着高通AR1方案。雷鸟、小米、雷神、联想、李未可、阿里巴巴、中国电信都是如此,与Meta基本保持一致。 诚然各家在拍照、录像算法层面可能有些不同,但硬件的底子确实相似度极高。 很多用户反应AI眼镜在拍照录像环节耗电较多,这与芯片和摄像头之间的调优、协同密不可分。缺乏AI眼镜专用的定制化摄像头也是拍摄功耗居高不下的重要因素之一。 当然,AI眼镜芯片方面,炬芯科技、展锐、恒玄、物奇等国产半导体企业也有相关产品布局,并且已经落地量产。 小米、阿里巴巴等公司则直接采用了更难但上限更高的“高通+恒玄”双芯片协同方案。 除了芯片和摄像头,屏幕和光学方案也呈现出“绑定”态势。 目前轻量化AI眼镜的显示方案主要是Micro LED+光波导,与MR头显中的Micro OLED+Pancake有较大差别。 ▲2025 AI眼镜新品屏幕和光学方案情况,来源:智东西 在25款产品中,带显示的产品有9款,占比36%,9款中有7款都是Micro LED+光波导方案。在光波导的具体实现方式上,各家会有所区别,例如雷鸟的纳米光刻蚀光波导、联想的树脂衍射光波导。 ▲2025 AI眼镜新品分类,来源:智东西 可以看到,虽然各家都在发布会上多少会亮出一些自家独有的优势特性,但在基础硬件规格和方案上的趋同,让各家产品很难在显示、拍摄体验上拉开根本性差距。 从产品类型大方向来看,AI拍摄眼镜和AI+AR眼镜仍然会长期并存,并且两者主打的价格段、人群、场景定位本就有所区别。以当前供应链技术方案的水平,想要同时兼顾全天候佩戴、实时AI陪伴和高素质显示,仍然是一道几乎无解的难题。 四、平均8小时续航+38g重量,AI眼镜真能“全天候”了吗? 谈及消费电子产品,价格是影响消费者决策的重要因素之一。但在AI眼镜品类,相比价格,续航和佩戴体验也同样重要。 很多厂商都在发布会上提到一个观点,AI眼镜,首先必须要做好一个“眼镜”的属性,也就是要真正能够让我们无感的全天候佩戴,这就需要长续航和轻量化。 ▲2025 AI眼镜新品续航和重量情况,来源:智东西 在梳理过程中,我们发现各家对于产品续航的描述有几个共性,首先非常强调配合充电仓、充电盒或备用电池可以实现“超长续航”;其次在描述日常续航时,几乎都没有明确提及是否涉及AI功能的使用。 回到具体数字,25款产品的日常续航,通常在8小时左右,带显示功能的产品与不带显示的产品在续航上并没有明显差距。 有些品牌会特意标明视频拍摄的续航时长,比如闪极Loomos AI眼镜的2小时视频拍摄、致敬未知BleeqUp Ranger AI智能眼镜的1小时持续录制、雷鸟V3 Slim的30分钟视频拍摄、小米的45分钟持续录像。 视频拍摄毫无疑问是AI眼镜的耗电大户。 虽然大部分AI眼镜产品配合充电盒的续航都可以达到24小时以上,可以实现“全天候”,但中间如果还需要摘下来充电,用户体验必然会大打折扣,尤其是对重度近视用户来说。 在重量方面,有公开重量数据的19款产品(去掉一款79g特殊值)的平均重量为38g,普通眼镜的重量以20g左右居多。 虽然AI眼镜瘦身明显,但相比普通眼镜仍然有着1倍左右的重量增加。 有少部分纯AI音频眼镜可以做到30g以内,比如李未可的City系列和华为、小米的AI音频眼镜,这需要建立在牺牲拍摄和显示功能的基础上。 整体来看,轻量化、长续航是各路玩家优化迭代的两个重要方向,也是AI眼镜当下发展的主要趋势,但从实际落地产品的表现来看,优化空间仍然存在。 五、2025年了,AI眼镜还是“AI弱智眼镜”吗? AI体验是AI眼镜的核心,也是目前提升空间最大的一块。 XREAL CEO徐驰曾在采访中提到,他认为当下的AI眼镜都是“AI弱智眼镜”。 AI方面,AI视觉多模态能力的融入是今年AI眼镜新品突出的常见主打功能之一。 AI可以通过眼镜上的摄像头看到我们所看,可以告诉你眼前的事物是什么、可以帮你翻译眼前看到的文字,还可以根据眼前的食材为你规划菜谱,教你怎么泡咖啡。 总体来看,各家在AI功能方面的同质化同样比较明显,这与AI手机的发展极为类似。或许初期各家都会有各自的尝试,但在一段时间后,基本的主流AI功能都会固定下来,比如AI识物、AI翻译、AI语音交互、AI问答等。 并且目前行业中几乎没有专门为AI眼镜的硬件、软件以及场景而设计的专用模型,如果直接把通用模型“拿来即用”,通过云端算力实现AI功能,其体验的流畅性、稳定性、安全性都很难有充足保证。 在这样的背景下,部分厂商选择与大模型厂商去做定制,优化模型在眼镜端侧的表现,进而实现一定的体验优势。 有一个值得思考的问题,就是AI眼镜与AI手机的关系,AI眼镜上可以实现的所有AI功能,AI手机几乎都可以实现,并且手机有更高素质的摄像头、更清晰宽阔的实体可交互大屏,以及更长的续航。 我为什么需要一款AI眼镜,AI眼镜有什么“非他不行”的体验?这是所有AI眼镜玩家都需要回答的一个根本问题。 目前来看,“解放双手”确实是一大优势,在一些场合的确可以提供极大便利。 ▲停车扫码支付离场,来源:雷鸟 但与此同时,目前绝大部分AI眼镜都不支持手势交互,需要通过语音和触控来操作,语音这种交互方式在公共场合或一些不便说话的场景同样存在“不方便”的情况。 虽然解放了双手,但又多了一张嘴。 并且AI眼镜通过语音操控、AI识别完成任务,是否真的会比用手机通过手点一下、滑一下来完成更加高效,仍然要画个问号。 AI眼镜从“能做到”到“能做好”,做的高效、省心、放心,仍然任重而道远。 结语:AI眼镜混战,火爆之下仍需冷静看待 深入2025年230多天里的25款AI眼镜新品,相比火爆销量带来的直观冲击,这些产品带给我们更多的是对行业的思考。 AI眼镜赛道发展仍处于早期阶段,AI眼镜领域新玩家和新产品如雨后春笋般涌现,产品的迭代逐渐从供应链方案整合迈向产业联合研发、定制化和关键技术自研,但从落地产品体验层面来看,各家产品的差异化并不明显,同质化趋势仍然突出。 苹果Vision Pro虽然销量遇冷,但苹果通过自研双芯片+自研操作系统+深度定制屏幕仍然实现了超越此前所有同类产品的颠覆性体验,给行业立了个新的标杆。 而AI眼镜领域的“苹果、特斯拉”,仍然没有出现。 AI眼镜或许有着成为下一代计算平台的潜力,但对这一领域的玩家们来说,脚踏实地解决体验痛点,攻克硬件、软件层面的技术挑战,完善内容生态,都是他们必须要面对的挑战。
逆天续航:53小时通话28小时外卖跑单,跌落6.2万次无损,vivo Y500 1399元起
作者 | 云鹏 智东西9月1日报道,刚刚,vivo正式发布了Y500系列新机,其搭载了8200mAh蓝海电池,支持IP68/69/69+防尘防水,耐用性可以说是拉满了。 价格方面,8GB+128GB版本售价1399元,顶配12GB+512GB版本售价1999元。 基于大电池,Y500满电可分别支持21小时连续导航、53小时连续通话或28小时以上外卖骑手户外跑单,90W闪充64分钟可从0%充至100%。 vivo Y500实测在-20℃的环境下,能持续播放视频16.7小时或连续导航11小时,在40℃环境下,可连续导航17小时。 此外,vivo Y500采用创新电池材料,搭配自研电池健康算法,据称可实现“6年使用,依然耐用”。 在防水能力上,vivo Y500通过了1.5米的水深中持续浸泡24个小时测试,此外通过了6分钟喷水口压强相当于100倍大气压的80℃高温喷水测试。 抗摔方面,vivo自研了金刚磐石架构,产品通过了SGS金标五星抗跌耐摔等两项认证。实测中,vivo Y500从7cm高度6.2万次屏幕跌落后,手机无损且功能正常使用,拆机后无内部损伤,同时还通过了2000次手机屏幕中心按压,以及1.7m高度六个面四个角分别跌落至花岗岩地面等测试。 通信是vivo Y500的另一个升级重点,其采用了360°穿墙天线布局,将20根天线布满中框,使整体信号接收最高提升255%。通过AI网络智选功能,vivo Y500可在电梯、地库等弱网场景下切换至更好的网络信号,通过了国家无线电监测中心信号能力的五星级认证。 此外,vivo Y500推出了职业模式,该模式通过三向定位增强、网络加速、免提通话增强等功能,帮助特定人群提升工作效率;天玑7300处理器则可以提供一定的游戏体验保障。
19 亿美元的 91 助手死了,但手机助手已经秽土转生
再见了, 手机助手 看到「91 助手下月全面停服」 这个话题,复杂心情油然而生。 就像阔别十年的老友传来最新消息,结果却是 ta 的死讯…… 不只 91 助手,还有同步推、iTools、豌豆荚、海马助手、PP助手……等等一系列在我脑海中死去已久的名字,忽然组团袭击了我。 也只有体量大如 91 助手的轰然倒地,才能让我们意识到:十年过去,曾经风靡一时的「手机助手」,已经基本销声匿迹。 倒地之前,它值 19 亿美元 十几年前,我还在用 iPad 2 的时候,偶然在当时的纸质杂志上看到对 iTools 创始团队的专访。 那还是我第一次知道,除了难用到反人类的 iTunes,还有这种第三方的苹果设备管理工具,不仅界面简洁明了,安装运行飞快,还有不少 iTunes 之外的神奇功能。 比如,这些助手可以绕过 App Store 本地安装应用,也就是我们现在熟悉的「侧载」:比如原本要付费的应用,甚至是无法上架 App Store 的神秘应用。 当时的我,简直像是打开了一扇新世界的大门。 侧载 ipa 很好用的同步推 当时很流行的进阶玩法「越狱」,自然是这些手机助手的拿手功能。不再需要电脑终端复杂操作,越狱工具简直「点击就送」。整个流程几乎完全自动化,无比轻松。 Cydia 也是时代的眼泪了 至于 Android 阵营,像小米就有推出过「小米手机助手」这样的官方 PC 应用来管理手机。 但知名度和使用率更高的,则是豌豆荚、应用宝这样的第三方平台,不仅有 Root/解锁等专业玩法,对于广大 Android 用户而言,更提供了一个应用资源更丰富和全的「App Store」。 在最古早的时期,除了小米等少数厂商,大部分国产 Android 手机品牌都还未上线官方应用商店。有些 Android ROM,干脆直接预装豌豆荚或应用宝。 后来,我又发现比 iTools 功能更丰富的「同步推」,也尝试过海马助手、PP 助手等等。 不少热门应用还会在 Android 渠道会选择在这些平台上独家首发,包括不仅限于红极一时的韩寒《One · 一个》选择了豌豆荚,国民度极高的《植物大战僵尸 2》国行则交给了 91 助手。 移动应用市场欣欣向荣,应用商城和手机助手一度形成「百团大战」的局面。 2013 年是手机助手的一个关键节点:百度收购了 91 无线业务,总价高达 19 亿美元,在当时创下了中国互联网并购案的历史。 比起腾讯的微信和阿里的淘宝,当时的百度在移动互联网上的地位不如桌面互联网显著。所以它慢确实需要一个现成的平台和入口,快速乘上移动互联网的巨轮。 这次收购表面看起来是强强联手,但后来的故事我们都知道了,百度再一次选错了赛道,手机助手真的不是未来。 即使不站在今天,从当时的视角来看,手机助手虽然百花齐放,但实用工具出身的属性,很难解决变现的问题。 对于 iOS 用户,手机助手就是一个用来下载破解应用的东西,让用户付费属于倒反天罡,因此收入主要靠广告(以及部分「灰产」玩法),牺牲了用户体验。 Android 上的手机助手虽然充当了应用商店的角色,但它需要更丰富的应用资源来形成竞争力,供求关系反而是开发者占主导,加上 Android 开放的生态,很难实现 App Store 那种付费抽成的形式。 你想玩抽成?用户直接就是一个卸载,然后安装了你的竞争对手。 再见了,所有的手机助手 那篇关于 iTools 的访谈之中,创始团队说了一句话,具体已经无从考证,但大意我还记得: 未来会有越来越多人用 iPhone,而他们都会需要一个 iTools 来管理手机。 这句话前半段没有问题,智能手机成为了比电脑还要普及的计算终端,几乎人手一台,而 iPhone 也成了这一品类的定义者。 而在智能手机技术和生态都尚未完善的初期,我们确实更倾向于将它视作一种「补充」的智能终端,核心依旧是电脑,用来备份手机的照片和数据,给手机下载音乐和电影资源。 在一段时间内,电脑是「高质量使用手机」的必备品——但是,这段时间并没有持续多久。 图源:YouTube@T3 既然手机已经比电脑还普及了,就不再需要电脑来对它进行管理了。 手机的超强便携性,决定了它就应该是一个更独立、全能的形态,很快云服务和流媒体应运而生。照片数据备份直接扔上云,听歌煲剧一点就行,比用电脑强多了。 甚至连以前 iTunes 无可替代的刷机恢复功能,苹果都在改变。iCloud 推出后加入了云端备份功能;iPhone 16 更是配备了「无线恢复系统」,一台 iPhone 能帮另一台进行恢复,进一步「去电脑化」。 图源:9to5Mac 在桌面互联网时代,我们已经习惯了盗版和破解带来的免费体验。因此面对大量应用需要收费的 iPhone,人们才会选择「邪修」的方式侧载破解应用,手机助手和越狱因此受到热捧。 但随着版权意识在国内逐渐普及,加上 App Store 付费门槛的进一步降低,用户认知已经完全转变了:现在的我们,欣然为优质 App 付费——甚至你因为一个 app 太贵而去电商低价买账号共享,也仍然是一种付费行为…… 当付费的认知和习惯养成,移动支付变得无比便捷,我们自然也就不用再跟盗版应用,以及安装盗版应用的手机助手打交道了。 而在 Android 阵营,各厂商经过了硬件野蛮生长那几年,也逐渐意识到软件体验的重要性,以及应用分发抽成这块让苹果赚得盆满钵满的肥肉。 国内各家 UI 自带的应用商店已经足够好用,自然也不再有豌豆荚和应用宝的余地。 图源:36kr 近几年,不管是出于商业还是安全原因,Google 逐渐提高了 Android 侧载应用的难度,甚至在上周还宣布,将从明年开始,限制未经验证的应用包安装。 而不管是 iPhone 的越狱,还是 Android 的 root,不仅这几年因为厂商的原因难度越来越高,用户也逐渐意识到,手机是用来用的,没必要天天折腾。手机助手终于成了时代的眼泪。 不过,手机助手也并未因此全部消失,及时改舵和跳船的玩家还是找到了一线生机。 大浪过去,爱思助手成为了当年那一批手机助手里,唯一活着且有存在感的玩家。 这可能主要是因为它的「验机报告」功能:打开转转或者闲鱼,想在上面买卖二手 iPhone,基本离不开爱思的验机报告,因为它能以一种非常直观的方式,呈现一台手机的基本健康情况,有没有换过配件一目了然。 一些买全新机的用户,也会打开爱思验机报告,看看自己的手机配件来自哪个供应商,追求最满分的体验。 也就是说,将验机报告作为主打功能的爱思,本质上从一个 To C 产品,变成了主要面向二手机商贩的 To B 工具。他们不仅需要用到验机报告,也能经常用上爱思提供的工具来快速管理商品。 而这个市场本身就已经收缩到很小,爱思有验机报告的民间公信力,其他手机助手基本没有其他机会。 即便如此,爱思的处境也并不好过,这么多年过去,还是没能解决变现的问题。除了广告,爱思也通过商家授权费和配件商城的方式继续增收。 并且,爱思最引以为傲的验机报告功能,苹果也已经在把它做到 iPhone 当中了,未来处境只会更不好过。 另一家成功转型的手机助手,则是原本主打应用市场的酷安,在手机助手式微的 2016-2018 年,开始全面转型数码社区,现在成了「小绿书」。 其它手机助手,大部分都是小公司和工作室的产品,难以承担转型的风险,也找不到一条更适合的新赛道,因此大多早已悄无声息地停更停服。 至于 91 助手,百度也尝试过将它和百度游戏整合,奈何后者自己也没做起来,因此 5 年前 91 助手已经下架——直到今年终于埋了。 当然还有一些手机助手还「存活」,比如海外的 AltStore,但更多回归了工具本身,用来侧载一些苹果不允许商家的 App Store 应用。 最后,说个有趣的小花边: 虽然手机助手死了,但另一种「助手」正在兴起。 和当年还不能独立行走的 iPhone 一样,被寄予厚望成为下一代计算终端的头显,现在还离不开这手机作为「助手」。 当年我们在电脑上装手机助手来辅助 iPhone,现在我们在 iPhone 上装「头显助手」来配合头显。 历史是相似的,或许当头显不再需要「头显助手」的那一刻,它就真的和手机一样,成为了一个独立的计算终端,手机也该让出智能交互的主角地位了。 文|苏伟鸿
苹果最新模型,5年前的iPhone能跑
编译 | 程茜 编辑 | 云鹏 智东西9月1日消息,苹果又公布了大模型研发新进展! 8月28日,苹果在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练机制,同天在GitHub、Hugging Face上开源了模型的预训练权重和数据生成代码。 MobileCLIP2专为零样本分类和检索任务设计,推理延迟在3-15毫秒之间,参数规模在50~1.5亿不等。 此前基于Transformer的大型编码器存在较大内存和延迟开销,为在移动设备上部署带来的挑战,基于此,苹果2023年11月发布端侧多模态大模型MobileCLIP,通过多模态强化训练方法改进模型在端侧的部署效果,MobileCLIP2是其改进多模态强化训练方法后的升级版模型。 论文中提到,与上一代模型相比,MobileCLIP2-B在图像分类基准数据集ImageNet-1k上的零样本准确率提高了2.2%。其模型变体MobileCLIP2-S4在iPhone 12 Pro Max上测得的零样本准确率可对标参数规模更大的SigLIP-SO400M/14。 此次其改进的多模特训练训练机制采用了改进的教师监督(Teacher Supervision)与字幕数据(Caption Data)来提升零样本性能。 与此同时,在移动端,该训练机制支持多模态模型直接在移动、边缘设备上部署,实现零样本检索/分类,具有极低的延迟和内存占用。 目前,MobileCLIP2所有模型变体的预训练权重均已公开,开发者可以直接部署和进行基准测试。苹果还发布了数据生成代码,开发者可以基于此使用分布式可扩展处理创建具有任意教师的新强化数据集。 一、iPhone 12 Pro Max可跑,强调可复现性、可扩展性 MobileCLIP2的核心优势在于实现了相比现有模型参数规模更小、延迟更低,且不牺牲泛化能力、准确性的性能。 在零样本性能方面,MobileCLIP2-S4在iPhone 12 Pro Max上测得的准确率与SigLIP-SO400M/14相当,但参数量为后者的1/2;在延迟方面,MobileCLIPS2-S4的表现优于DFN ViT-L/14,延迟约为后者的约40%。 零样本指标提升可以使模型在未经过特定任务、类别或场景的训练时,无需额外标注数据微调,就能直接将预训练学到的通用知识迁移到未知任务中。 ▲图像分类基准数据集ImageNet-1k上的基准测试结果 MobileCLIP2系列模型在不同延迟条件下,38个数据集上平均性能均为最佳。 从下面的测评中看到,MobileCLIP2-S2与SigLIP2-B/32的参数规模差距达到4倍,但性能相当,MobileCLIP2-S4与DFN ViT-L/14相比,推理速度提高2.5倍。 此外,这一多模态训练机制强调可复现性、可扩展性。目前,MobileCLIPS2的所有模型变体的预训练权重均已公开,支持开发者直接部署和进行基准测试。 其强化训练的数据生成代码支持任意教师集成和分布式可扩展处理,便于开发者为进一步研究和快速原型设计定制数据集强化。 在移动端,该训练机制支持直接在移动、边缘设备上部署,实现零样本检索、分类,具有极低的延迟和内存占用;通过开放数据管道和模块化的教师、标题生成器集成,可扩展到新的模态或数据域。 二、整合教师监督模型与字幕数据,提升多模态模型语义覆盖范围 MobileCLIP2的多模态强化训练机制能够将来自多个来源的知识高效地蒸馏到较小的模型中,并基于基础图像-文本对进行操作。 该训练机制整合了教师监督(Teacher Supervision)与字幕数据(Caption Data),旨在训练强鲁棒和高迁移性,同时最大限度降低训练或推理过程中的计算开销。字幕数据指的是与图像、视频等视觉内容关联的文本描述信息。 其核心是通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督模型,为多模态模型训练增加合成字幕,也就是图像、视频等数据的文本描述信息。 具体来看,首先更强的CLIP教师模型指的是,MobileCLIP2通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督,DFN2B-CLIP-ViT-L-14和DFN2B-CLIP-ViT-L-14-s39b的组合构成了教师集成的骨干。 其背后技术细节包括,对每个教师模型独立进行对数尺度(Logits Scale)的精细调整;集成蒸馏在ImageNet-1k验证集上比单教师变体提高了高达2.8%,这证明教师信号聚合对于将强性能压缩到紧凑的学生模型中至关重要;这一精度提升使MobileCLIP2能够以更少的参数数量和延迟,实现与更大参数规模的模型性能相当或超越。 其次,字幕生成教师模型(Captioner Teachers)通过两阶段协议进行升级优化。 第一阶段研究人员在大型DFN-2B数据集上对CoCa风格的描述器进行初始再训练,以提升对图像内容的表达能力。 第二阶段是在高质量标题数据集MSCOCO-123k、MSCOCO-38k上进行后续微调,生成具有增强语义质量和多样性的合成标题。 此外,苹果研究人员的消融研究表明,在精选标题上进行微调可显著提升零样本分类和检索效果。其分析了标题生成的束搜索和采样策略,发现为每张图像生成超过1-2个标题的边际效益不明显,表明策略性多样性优于数量。 这些用于蒸馏训练的合成文本描述,提升了模型的语义覆盖范围,使得MobileCLIP2-B比MobileCLIP-B在ImageNet-1k零样本任务的准确率上提高了2.2%。 结语:苹果改进端侧多模态模型训练机制,降低开发者部署门槛 在苹果发布的论文中提到,MobileCLIP2在多模态模型训练机制上的改进,与参数高效微调、实时设备端推理以及从大型多模态教师库中进行可扩展蒸馏等正在进行的大模型发展趋势高度兼容。 同时,苹果将所有模型变体的预训练权重、数据生成代码开源,也可以帮助开发者加速实验、应用于新任务以及适应不同计算环境。
全新坦克500发布:中式豪华+全场景越野,33.5万元起
凤凰网科技讯 8月28日,长城汽车昨日将一场特殊的上市发布会搬进了世界文化遗产都江堰畔,全新坦克500在此正式揭开面纱。全新坦克500定位全场景智能豪华越野SUV,推出Hi4-Z、Hi4-T及3.0T V6燃油三种动力版本,其中Hi4-Z智享版37.5万元,Hi4-T智享版35.5万元,Hi4-T基础版33.5万元,3.0T造境版35.5万元,相比预售价格更具吸引力。 作为首次在都江堰举办的汽车发布会,此次活动的核心亮点在于长城汽车将Hi4智能四驱电混技术与千年治水工程的智慧相联结。据介绍,全新坦克500搭载的Hi4-Z技术通过“功率分流行星轮+三档 DHT+双电机四驱”的组合,构建出类似都江堰“鱼嘴分水、宝瓶口控流、飞沙堰泄洪”的能量管理体系。其中功率分流行星轮如同“智能鱼嘴”分配动力,三档DHT精准控制输出“流量”,双电机则稳定能量“水流”,实现动力输出与电能回收的高效协同。这种技术理念的创新表达,让复杂的机械原理变得直观易懂。 在产品配置上,全新坦克500展现出“越野+智能+豪华”的多维优势。内饰采用经78 道工艺处理的Nappa真皮座椅,前后排均支持通风、加热与按摩功能;50W独立压缩机的冷暖车载冰箱可实现- 6℃至 50℃温控,配合17.3英寸3K后排娱乐屏构成舒适座舱体验。智能驾驶方面,搭载的Coffee Pilot Ultra第三代系统通过激光雷达与多传感器融合方案,实现全场景无图NOA功能,覆盖从车位到车位的全程智能导航辅助。 长城汽车董事长魏建军表示,将以都江堰的长期主义为榜样,持续打造守护用户利益的可靠技术,让Hi4成为中国汽车技术的“都江堰”。
富士康备战iPhone17,郑州员工3个月最高可赚2.2万
图源:图虫 作者 | 郭美婷 编辑 | 林铭铭 8 月 29 日中午,顶着炎炎烈日,一辆辆满载的大巴车陆续停靠在深圳龙华富士康招募中心门口。车门打开,车上的人陆续下车,在门口闸机处排起长队等待进入,有人低头刷着手机,有人不时踮脚向前张望。 图源:时代财经摄 这些都是从中介公司招聘的小时工,赶在用工旺季的尾声入职。在此之前,他们先被安排在劳务公司集合,完成线上面试后,再由中介统一送到富士康的招募中心报到。“(我们)刚从观澜(富士康)过来,这边工价高一点。” 队伍中一个年轻女孩说。 据中介介绍,目前在富士康龙华园区招聘的部门是做平板、手机后壳盖的,在观澜园区有两个部门招聘,其中一个部门也生产后盖,另一个部门是做苹果手机组装的。综合来看,龙华园区的工价比观澜园区的稍高,一个月能赚6000多元。 “富士康招工的高峰期很短,因为上人很快。”上述中介称,富士康高峰期差不多过了,现在都是限额招聘,例如做后盖的部门现在每天有20个招聘名额,做苹果手机组装的每天只有10个名额。 而富士康其他厂区,不少员工正在紧张加班赶工。8月初进入郑州富士康的一名员工告诉时代财经,“每天都在加班”,不少员工也在社交平台上分享了加班日常。 作为消费电子行业的“重磅级嘉宾”,苹果供应链每年都会在新机发布前后迎来招工和赶工的高峰。目前,苹果已经官宣于北京时间9月10日凌晨举办秋季发布会,届时苹果将会带来iPhone 17系列等多款新品,根据往年的销售情况,业界预测iPhone 17系列将在9月12日开启预售。 和往年不一样的是,今年多变的关税政策与全球需求放缓等不确定性,可能对iPhone 17的定价、销量等造成影响。iPhone 17可能带来怎样的表现?市场正翘首以待。 招工、赶工 “现在很忙,我们在做(苹果)新品,下个月就要发布了。”一位郑州富士康员工透露,今年招工旺季,郑州港区富士康的厂区来了大概20万人。 据“郑州富工联招聘”公众号发布公告,8月29日是郑州富士康A事业群招聘高峰的最后一天,到8月30日开始,工价将大幅下降。 公告显示,目前港区①事业群已暂停预约报名,剩下八大街iP事业群和港区iP事业群两个事业群均主要有派遣工招聘中,分为高价小时工、短期小时工、返费工模式三种。 以八大街iP事业群为例,8月到10月的高价小时工时薪为26.5元/小时,高价持续到10月20日,10月21号起按同工同酬计算工资;纯小时工时薪在75天内为24.5元/小时,高价工期持续75天,75天后需离职;返费工模式下,在职期间工资由“额外返费(即奖金)+同工同酬”构成,工期不超过5个月,在职满90天,额外发放返费8000元,返费工平时工资为同工同酬,即底薪2100元+加班费+夜班补贴等。以每个月工时260小时来算,高价小时工当月工资为6890元,纯小时工当月工资为6370元,返费工3个月预估到手19000元到22000元。 图源:截图自郑州富工联招聘公众号 时代财经对比了去年郑州富士康发布的“最后一天高价”的招聘公告,发现当时八大街厂区iP的高价小时工时薪为27元/小时,稍高于今年;同时在总工资的计算上,高价小时工是以每个月工时280小时来算,当月工资为7840元。 另外,从返费工模式来看,去年这一时期开出的最高返费为8500元,做满3个月最多共能拿2.25万元,而据今年的招聘公告,预估3个月可到手的最高工资为2.2万元。 到8月30日晚,“郑州富工联招聘”最新公告,仅有郑州富士康A事业群招聘派遣工,返费工薪资为返费7000元+300元,小时工薪资为25元+1元/小时。 在深圳富士康厂区,据“深圳富工联招聘”8月29日发布信息,深圳观澜ID事业群和龙华IDS事业群均只有小时工模式,工价分别为24元/小时和25元/小时。 不过,多位中介口径,深圳富士康龙华园区的小时工8月时薪为28元/小时,9月和10月为26元/小时。“我个人感受今年(富士康)厂内行情可能不是很好。”有一位深圳富士康的中介向时代财经透露,早些年在富士康招募中心附近跑能招很多人,现在已经“淡”了许多。 除富士康外,其他果链巨头同样在近一个月紧锣密鼓地“招兵买马”,有供应链知情人士透露,部分公司“内部推荐费都涨了。”时代财经搜索蓝思科技(300433.SZ)的人力资源部官方信息发布平台发现,今年蓝思科技浏阳园区、榔梨园区生产一线员工推荐人员入职后,奖励总金额最高6000元/人。 图源:截图自蓝思人公众号 不确定性? 国信证券研报显示,苹果产业链高度全球化和集成化,不仅对苹果公司自身的成功至关重要,也对全球电子产品供应链产生了深远的影响。全球每年与iPhone硬件相关的产业链规模就高达万亿人民币,对整个中国消费电子产业链都有举足轻重的影响。 相比于往年,今年苹果和果链企业们的不确定因素之一,就来自关税政策的走向。 在新品发布会前一个月,苹果正在着手解决一部分关税问题。8月初,美国总统特朗普宣布苹果公司将在美国再追加投资1000亿美元,这将使苹果在美国的投资承诺总额达到6000亿美元。开源证券研报表示,苹果美国制造计划(AMP)旨在响应特朗普政策,将更多供应链和先进制造能力带回美国,以避免其核心产品iPhone遭受惩罚性关税。 开源证券称,此前由于市场担忧苹果 AI 创新节奏放缓、“对等关税”等问题,果链板块估值处于较低水平,主要标的2026年Wind一致预期PE处于12-22倍区间。随着关税问题落地、苹果加大 AI 投资和新品节奏,未来几年果链有望进入估值修复与景气上行区间。 在立讯精密(002475.SZ)和蓝思科技近期公布的投资者关系活动记录表中,不约而同地被问及关税对公司的影响。 立讯精密表示,从目前的情况来看,全球制造业的格局及产能布局较为稳定。无论是越南、印度还是东南亚其他国家,已知的关税政策基本已经确定。如果再次对产能进行大规模迁移,可能会造成制造成本的增加和供应链资源的不匹配。 “一家公司受到关税政策影响的程度,需要将其置于对应的全球市场领域,并从其全球布局的完整性、领先性和覆盖度来进行判断。对立讯而言,我们在东南亚、美洲、欧洲、北非等地均有对应的产能布局,涵盖了消费电子、汽车、数据中心等多领域的产品及服务。”立讯精密称,因此,他们能从容应对关税带来的影响。 2024年年报显示,立讯精密的第一大客户销售额占年度销售总额比例为70.74%。对此立讯精密表示,随着其他客户业务的快速增长,预计单一客户的收入占比将在未来一段时间内呈现逐步、合理的下降趋势。同时,立讯精密强调,这是因为公司在其他业务板块的价值持续提升,从而带来了收入结构的优化,“无论是第一大、第二大还是第三大客户,对我们而言都是同样重要的合作伙伴。” 蓝思科技同样表示,“关税政策变化对公司整体经营没有影响。”公司早已积极配合客户加强产能全球化、业务多元化,从 2017年开始在越南设立工厂,在国内外拥有多个研发和生产基地,包括位于越南、泰国、墨西哥的生产基地,以及多个国际办公驻点。 “史上最大革新” “打铁还需自身硬”,iPhone 17最终表现如何,仍要回到产品中去。 据国际数据公司IDC数据,今年第二季度,在全球智能手机市场,前五名厂商为三星、苹果、小米、vivo、传音,苹果出货量为4640万台,同比增长1.5%。在中国市场,前五名厂商为华为、vivo、OPPO、小米和苹果,其中仅苹果一家国外厂商,出货量为960万台,同比下降1.3%。IDC称,苹果通过战略性的价格调整,使特定的iPhone 16和16 Pro版本有资格获得政府补贴,缩小了其下降幅度。而其在新兴市场实现了两位数的强劲增长,抵消了在中国区的这一下滑,最终该季度全球出货量同比增长 1.5%。 据爆料,此次iPhone 17进行了“史上最大革新”。iPhone 17系列将包括四款机型:标准版iPhone 17、iPhone 17 Pro、iPhone 17 Pro Max,以及全新的iPhone 17 Air。其中iPhone 17 Air将取代现有的Plus机型,成为苹果有史以来最薄轻的iPhone。 变化最大的还数外观设计。8月30日,“iPhone 17 Pro 丑”冲上微博热搜。从曝光图片看,iPhone 17的后置三摄从过往的独立方形凸起,改为横向大矩阵相机,三个摄像头呈三角形排列,右侧集成闪光灯与LiDAR扫描仪,因此也被调侃形似“充电宝”。 时代财经近日走访华强北的时候发现,尽管离iPhone 17的正式发布还有一段时间,但在华强北的手机壳铺上,iPhone 17系列手机的手机壳已开始售卖,外形与爆料图片一致。 图源:时代财经摄 除新型号和新外观外,苹果的AI创新一直以来都是外界关注的重点。开源证券研报指出,此前市场担心苹果在AI时代会落后其他科技巨头,而近期信息表明,苹果正在加速追赶。 此前,在2025财年第三财季(截至6月28日)业绩会上,苹果首席执行官蒂姆・库克称苹果正在大幅增加对 AI 投资,对于能够加速 AI 发展的收购,苹果持“非常开放”态度且不限定标的规模,2025 年已收购7家公司(并非全部是AI领域)。 在AI功能方面,苹果在开发更加个性化的Siri方面取得良好进展,预计将在2026年推出这些功能。 据环球网报道,苹果计划在9月即将发布的iOS 26等系统中,将Apple Intelligence中的ChatGPT模型从GPT-4o升级至最新发布的GPT-5,同时将向开发者开放设备端基础模型 API,允许第三方应用在不增加用户隐私风险的前提下,调用与 Apple Intelligence 同源的端侧AI能力。 另外据财联社消息,苹果2026年春季可能会推出一项彻底改变iPhone使用方式的重大功能——全新的AI语音控制系统,让iPhone用户仅凭语音即可执行精准操作。
19亿美元的91助手死了,但“手机助手”已经秽土转生
再见了, 手机助手 看到「91 助手下月全面停服」 这个话题,复杂心情油然而生。 就像阔别十年的老友传来最新消息,结果却是 ta 的死讯…… 不只 91 助手,还有同步推、iTools、豌豆荚、海马助手、PP助手……等等一系列在我脑海中死去已久的名字,忽然组团袭击了我。 也只有体量大如 91 助手的轰然倒地,才能让我们意识到:十年过去,曾经风靡一时的「手机助手」,已经基本销声匿迹。 倒地之前,它值 19 亿美元 十几年前,我还在用 iPad 2 的时候,偶然在当时的纸质杂志上看到对 iTools 创始团队的专访。 那还是我第一次知道,除了难用到反人类的 iTunes,还有这种第三方的苹果设备管理工具,不仅界面简洁明了,安装运行飞快,还有不少 iTunes 之外的神奇功能。 比如,这些助手可以绕过 App Store 本地安装应用,也就是我们现在熟悉的「侧载」:比如原本要付费的应用,甚至是无法上架 App Store 的神秘应用。 当时的我,简直像是打开了一扇新世界的大门。 侧载 ipa 很好用的同步推 当时很流行的进阶玩法「越狱」,自然是这些手机助手的拿手功能。不再需要电脑终端复杂操作,越狱工具简直「点击就送」。整个流程几乎完全自动化,无比轻松。 Cydia 也是时代的眼泪了 至于 Android 阵营,像小米就有推出过「小米手机助手」这样的官方 PC 应用来管理手机。 但知名度和使用率更高的,则是豌豆荚、应用宝这样的第三方平台,不仅有 Root/解锁等专业玩法,对于广大 Android 用户而言,更提供了一个应用资源更丰富和全的「App Store」。 在最古早的时期,除了小米等少数厂商,大部分国产 Android 手机品牌都还未上线官方应用商店。有些 Android ROM,干脆直接预装豌豆荚或应用宝。 后来,我又发现比 iTools 功能更丰富的「同步推」,也尝试过海马助手、PP 助手等等。 不少热门应用还会在 Android 渠道会选择在这些平台上独家首发,包括不仅限于红极一时的韩寒《One · 一个》选择了豌豆荚,国民度极高的《植物大战僵尸 2》国行则交给了 91 助手。 移动应用市场欣欣向荣,应用商城和手机助手一度形成「百团大战」的局面。 2013 年是手机助手的一个关键节点:百度收购了 91 无线业务,总价高达 19 亿美元,在当时创下了中国互联网并购案的历史。 比起腾讯的微信和阿里的淘宝,当时的百度在移动互联网上的地位不如桌面互联网显著。所以它慢确实需要一个现成的平台和入口,快速乘上移动互联网的巨轮。 这次收购表面看起来是强强联手,但后来的故事我们都知道了,百度再一次选错了赛道,手机助手真的不是未来。 即使不站在今天,从当时的视角来看,手机助手虽然百花齐放,但实用工具出身的属性,很难解决变现的问题。 对于 iOS 用户,手机助手就是一个用来下载破解应用的东西,让用户付费属于倒反天罡,因此收入主要靠广告(以及部分「灰产」玩法),牺牲了用户体验。 Android 上的手机助手虽然充当了应用商店的角色,但它需要更丰富的应用资源来形成竞争力,供求关系反而是开发者占主导,加上 Android 开放的生态,很难实现 App Store 那种付费抽成的形式。 你想玩抽成?用户直接就是一个卸载,然后安装了你的竞争对手。 再见了,所有的手机助手 那篇关于 iTools 的访谈之中,创始团队说了一句话,具体已经无从考证,但大意我还记得: 未来会有越来越多人用 iPhone,而他们都会需要一个 iTools 来管理手机。 这句话前半段没有问题,智能手机成为了比电脑还要普及的计算终端,几乎人手一台,而 iPhone 也成了这一品类的定义者。 而在智能手机技术和生态都尚未完善的初期,我们确实更倾向于将它视作一种「补充」的智能终端,核心依旧是电脑,用来备份手机的照片和数据,给手机下载音乐和电影资源。 在一段时间内,电脑是「高质量使用手机」的必备品——但是,这段时间并没有持续多久。 图源:YouTube@T3 既然手机已经比电脑还普及了,就不再需要电脑来对它进行管理了。 手机的超强便携性,决定了它就应该是一个更独立、全能的形态,很快云服务和流媒体应运而生。照片数据备份直接扔上云,听歌煲剧一点就行,比用电脑强多了。 甚至连以前 iTunes 无可替代的刷机恢复功能,苹果都在改变。iCloud 推出后加入了云端备份功能;iPhone 16 更是配备了「无线恢复系统」,一台 iPhone 能帮另一台进行恢复,进一步「去电脑化」。 图源:9to5Mac 在桌面互联网时代,我们已经习惯了盗版和破解带来的免费体验。因此面对大量应用需要收费的 iPhone,人们才会选择「邪修」的方式侧载破解应用,手机助手和越狱因此受到热捧。 但随着版权意识在国内逐渐普及,加上 App Store 付费门槛的进一步降低,用户认知已经完全转变了:现在的我们,欣然为优质 App 付费——甚至你因为一个 app 太贵而去电商低价买账号共享,也仍然是一种付费行为…… 当付费的认知和习惯养成,移动支付变得无比便捷,我们自然也就不用再跟盗版应用,以及安装盗版应用的手机助手打交道了。 而在 Android 阵营,各厂商经过了硬件野蛮生长那几年,也逐渐意识到软件体验的重要性,以及应用分发抽成这块让苹果赚得盆满钵满的肥肉。 国内各家 UI 自带的应用商店已经足够好用,自然也不再有豌豆荚和应用宝的余地。 图源:36kr 近几年,不管是出于商业还是安全原因,Google 逐渐提高了 Android 侧载应用的难度,甚至在上周还宣布,将从明年开始,限制未经验证的应用包安装。 而不管是 iPhone 的越狱,还是 Android 的 root,不仅这几年因为厂商的原因难度越来越高,用户也逐渐意识到,手机是用来用的,没必要天天折腾。手机助手终于成了时代的眼泪。 不过,手机助手也并未因此全部消失,及时改舵和跳船的玩家还是找到了一线生机。 大浪过去,爱思助手成为了当年那一批手机助手里,唯一活着且有存在感的玩家。 这可能主要是因为它的「验机报告」功能:打开转转或者闲鱼,想在上面买卖二手 iPhone,基本离不开爱思的验机报告,因为它能以一种非常直观的方式,呈现一台手机的基本健康情况,有没有换过配件一目了然。 一些买全新机的用户,也会打开爱思验机报告,看看自己的手机配件来自哪个供应商,追求最满分的体验。 也就是说,将验机报告作为主打功能的爱思,本质上从一个 To C 产品,变成了主要面向二手机商贩的 To B 工具。他们不仅需要用到验机报告,也能经常用上爱思提供的工具来快速管理商品。 而这个市场本身就已经收缩到很小,爱思有验机报告的民间公信力,其他手机助手基本没有其他机会。 即便如此,爱思的处境也并不好过,这么多年过去,还是没能解决变现的问题。除了广告,爱思也通过商家授权费和配件商城的方式继续增收。 并且,爱思最引以为傲的验机报告功能,苹果也已经在把它做到 iPhone 当中了,未来处境只会更不好过。 另一家成功转型的手机助手,则是原本主打应用市场的酷安,在手机助手式微的 2016-2018 年,开始全面转型数码社区,现在成了「小绿书」。 其它手机助手,大部分都是小公司和工作室的产品,难以承担转型的风险,也找不到一条更适合的新赛道,因此大多早已悄无声息地停更停服。 至于 91 助手,百度也尝试过将它和百度游戏整合,奈何后者自己也没做起来,因此 5 年前 91 助手已经下架——直到今年终于埋了。 当然还有一些手机助手还「存活」,比如海外的 AltStore,但更多回归了工具本身,用来侧载一些苹果不允许商家的 App Store 应用。 最后,说个有趣的小花边: 虽然手机助手死了,但另一种「助手」正在兴起。 和当年还不能独立行走的 iPhone 一样,被寄予厚望成为下一代计算终端的头显,现在还离不开这手机作为「助手」。 当年我们在电脑上装手机助手来辅助 iPhone,现在我们在 iPhone 上装「头显助手」来配合头显。 历史是相似的,或许当头显不再需要「头显助手」的那一刻,它就真的和手机一样,成为了一个独立的计算终端,手机也该让出智能交互的主角地位了。 文|苏伟鸿
又一国产多模态大模型开源,复杂声音一耳朵分辨,多测试SOTA,还能聊哲学
作者 | 王涵 编辑 | 漠影 智东西9月1日消息,今天上午,阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini,该模型在通用多模态音频理解等多个国际基准测试集上取得SOTA成绩。 Step-Audio 2 mini将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现较好,并支持语音原生的Tool Calling能力,可实现联网搜索等操作。 一句话总结,Step-Audio 2 mini可以“听得清楚、想得明白、说得自然”。 该模型现已上线阶跃星辰开放平台、GitHub、Hugging Face、魔搭社区等平台: 一、口语对话能力第一名,拿捏方言和小语种 Step-Audio 2 mini在多个关键基准测试中取得SOTA成绩,在音频理解、语音识别、翻译和对话场景中表现突出,综合性能超越Qwen-Omni、Kimi-Audio在内的开源端到端语音模型,并在大部分任务上超越GPT-4o Audio。 在通用多模态音频理解测试集MMAU上,Step-Audio 2 mini以73.2的得分位列开源端到端语音模型榜首; 在衡量口语对话能力的URO Bench上,Step-Audio 2 mini在基础与专业赛道均拿下开源端到端语音模型最高分,超越Qwen-Omni和Kimi-Audio; 在中英互译任务方面,Step-Audio 2 mini在CoVoST 2和CVSS评测集上分别取得39.3和29.1的分数,领先GPT-4o Audio; 在语音识别任务上,Step-Audio 2 mini取得多语言和多方言第一。其中开源中文测试集平均CER(字错误率)3.19,开源英语测试集平均WER(词错误率)3.50。 在不同语种的基准测试上,Step-Audio 2 mini在评价中文能力的FLEURS Chinese上取得第一名的成绩。 二、引入CoT还支持web检索,扩大语音模型的知识面 过往的AI语音常被吐槽智商、情商双低。一是“没知识”,缺乏文本大模型一样的知识储备和推理能力;二是“冷冰冰”,听不懂潜台词,语气、情绪、笑声这些“弦外之音”。Step-Audio 2 mini通过创新架构设计,试图解决此类问题。 端到端多模态架构:Step-Audio 2 mini突破传统ASR+LLM+TTS三级结构,实现原始音频输入到语音响应输出的直接转换,架构更简洁、时延更低,并能有效理解副语言信息与非人声信号。 CoT推理结合强化学习:Step-Audio 2 mini在端到端语音模型中首次引入链式思维推理(Chain-of-Thought,CoT)与强化学习联合优化,能对情绪、语调、音乐等副语言和非语音信号进行精细理解、推理并自然回应。 音频知识增强:模型支持包括web检索等外部工具,有助于模型解决幻觉问题,并赋予模型在多场景扩展上的能力。 三、实测:可以精准识别鸟鸣和引擎声,但没分清Meta和微软 智东西第一时间对Step-Audio 2 mini进行了实测。总的来说,其生成的语音真人感比较强,停顿和语气都比较自然,但是Step-Audio 2 mini在信息识别上还需要加强。 其可以选择的音色也有限,主页只可以选择男声或女声,其他条件可以在prompt中进行调整。并且在Step-Audio 2 mini的体验网页上,个人用户体验只能对话一次,次数比较有限。 以下是一些实测案例: 在官方提供的案例中,Step-Audio 2 mini能分清鸟叫、流水、车声和发条玩具声这四种不同的声音,它甚至能听出汽车声中的引擎加速变化。 用户也可以选择联网模式,让Step-Audio 2 mini进行实时搜索,并且用语音输出。 聊到OpenAI最新动态,Step-Audio 2 mini通过工具调用搜索,迅速挖掘出最新语音模型资讯。 在这里智东西也进行了实测,我问“你知道最近Meta最新的人工智能部门有什么新的动态吗?”: Step-Audio 2 mini却回答成了微软的AI动态,但是语音识别出的是正确的Meta,其在生成准确性上还需要加强。 用户也可以通过语音控制,让Step-Audio 2 mini调整语速。 比如,让Step-Audio 2 mini变换语调读《静夜思》: 当被问及“爱美是自由还是枷锁”这类哲学难题时,Step-Audio 2 mini可以与用户进行实时沟通,能将抽象问题转化为“购物前问自己三个问题”的方法论。 (视频) 结语:阶跃星辰端到端语音大模型加速落地 此前,吉利发布了搭载阶跃星辰端到端语音大模型的吉利银河M9,这是行业内端到端语音大模型首次实现量产上车。 据阶跃星辰相关人士介绍,自去年发布国内首个千亿参数端到端语音大模型Step-1o Audio以来,阶跃星辰持续迭代模型性能,并跟吉利、鲸鱼机器人、TCL、Cyan青心意创等终端厂商达成合作,让语音大模型在生活场景中加速落地。 开源方面,今年阶跃星辰已开源8款多模态模型,覆盖语音、视频生成等领域,助力全球开源社区。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。