行业分类:
加载中...
头条分类:
加载中...
涨势暂歇?美国小麦期货连跌五日 创逾半年来最长连跌纪录
财联社6月5日讯(编辑 夏军雄)由于美国小麦收割进度快于市场预期,芝加哥小麦期货周一跌超2%,连续五个交易日下跌,这是自去年11月以来最长的连跌纪录。 今年5月,受东欧地区遭遇恶劣天气影响,芝加哥小麦期货当月累计大涨超12%,创下俄乌冲突爆发以来最大的月度涨幅。 俄罗斯和乌克兰均是全球主要的粮食出口国,两国合计占据了全球小麦出口的近三分之一,但在对小麦收成至关重要的5月,俄乌却同时受到极端天气的打击,当地小麦面临减产的风险。 随着时间步入6月,小麦开始在美国南部平原堆积,交易商在等待全球买家转向来自美国的小麦供应。 美国农业部周一表示,该国冬小麦收割已完成了6%,这高于分析师预计的4%和五年平均水平3%。 Frontier Futures的经纪人Joe Nussmeier周二表示,美国小麦收割进度快于预期终于令市场有所降温,但问题是收割后的小麦无处可去,需求情况并不乐观。 作为世界上最大的小麦进口国,埃及在最新招标中从罗马尼亚和其他欧洲供应商处购买了47万吨小麦。 美国曾是全球最大的小麦出口国,但如今已经跌至第四位。美国种植最广泛的小麦品种是硬红冬小麦,大约能占到三分之二。冬小麦通常在9月至11月(在北半球)种植,并在第二年的夏季或初秋收获。 按照美国小麦协会的说法,硬红冬小麦具备出色的品质,适合用于面包卷、羊角面包和披萨饼等烘培食物。然而,这种小麦的缺点是价格偏高,在国际市场上输给了更便宜的俄罗斯小麦。 美国堪萨斯州小麦农民、作物侦察员Lee Scheufler说:“我们只知道,我们种植的小麦不一定适合对价格敏感的消费者。”
凛冬已至!保险中介牌照价格跌至24万元,仍无人问津
“保险中介,尤其是中小型中介的日子现在真的很难。”不止一位保险中介公司人士向界面新闻表达他们的担忧。 这种担忧传也传导到了保险中介牌照交易市场。5月22日,汇才保险代理(深圳)有限公司的96%股权于阿里拍卖平台拍卖,评估价格为30万元,这笔股权当前价格仅为24万元。 此前,汇才保险代理96%股权已经经过两次拍卖,第一次拍卖起拍价30万元,第二次拍卖起拍价为24万元,两次拍卖均以流拍告终。 资料显示,汇才保险代理注册资本为5000万元。根据评估报告书,截止评估基准日2022年09月30日,汇才保险代理96%股东全部权益价值为1265.9万元。 不过,因汇才保险代理主张原工作人员提供的审计相关资料不真实,导致评估报告不能准确反应该公司实际价值,法院根据实际情况决定对汇才保险代理96%的股权以30万元价格作为第一次拍卖起拍价。 为什么曾经动辄千万的保险中介牌照沦落到现在的价格?北京工商大学保险研究中心副秘书长宋占军向界面新闻指出,近年来保险监管日益规范,对保险中介行业也重点关注,采取了清理整顿等监管措施,并且对保险中介行业信息系统建设提高了要求。叠加保险市场增速放缓,增员难度加大,保险中介市场进入调整期。 除了监管的压力,从新三板挂牌的保险中介机构经营状况,也能窥得行业的现状。 除了昌宏股份外,新三板挂牌的保险中介机构已披露完毕2023年业绩。8家机构合计实现营业收入19.88亿元,比上年增长7.93%。然而增收不增利,净利润由盈转亏,共亏损2180万元。 新三板上的保险中介亦刮起“离场”潮,在高峰时期,新三板挂牌保险中介机构有30多家,现在数量已降至个位数。 今年,保险中介又将迎来新的挑战。继对银保渠道执行“报行合一”后,压降费用的旋风也吹到中介渠道。有保险经纪公司负责人向界面新闻指出,“报行合一”后,能给销售端的利益少了很多。一种情况是仅砍掉保险公司支付的销售费用,客户保单收益不受影响,另一种情况是客户保单收益和销售费用双降。 据界面新闻了解到的信息,在经历一轮经代渠道产品调整后,佣金下降程度明显,首年佣金率下调幅度在30%左右,部分产品下调幅度达到50%,机构和从业者面临收入腰斩的压力。 不过这对经代渠道是危也是机,前述负责人表示,一方面佣金的下降会导致中小型机构加速出清,部分保险中介人也会因收入下滑回流个险渠道或者彻底离开。不过从长期看,参考海外保险中介在市场的地位,中介渠道一直是市场重要一环。目前低质量中介扎堆的情况可以改善,对客户返佣等乱象被遏制,可以推动行业向高质量发展。 来源:界面新闻
美股收盘:三大指数集体收涨 英伟达再创历史新高
财联社6月5日讯(编辑 夏军雄)美东时间周二,三大指数均小幅上涨,美国就业市场展现出降温迹象。 (三大指数分钟线图,来源:TradingView) 截至收盘,道琼斯指数涨0.36%,报38,711.29点;标普500指数涨0.15%,报5,291.34点;纳斯达克指数涨0.17%,报16857.05点。 周二公布的数据显示,美国4月份的职位空缺数量降至810万个,这是三年多来的低点。 华尔街目前正关注定于周五公布的5月非农就业报告,投资者希望就业市场足够疲软,让美联储能够安心开启降息进程,同时又不至于弱到引发对美国经济陷入衰退的担忧。 Verdence Capital Advisors首席投资官Megan Horneman表示,市场目前在寻找催化剂,但总有一天,坏消息会变成真正的坏消息。 10年期美债收益率连续第四天下跌,收于4.335%。 英伟达涨超1%,续创历史新高,总市值达到2.86万亿美元。 热门股表现 大型科技股涨跌互现,苹果涨0.16%,微软涨0.62%,特斯拉跌0.86%,谷歌涨0.36%,亚马逊涨0.56%,Meta跌0.10%,英伟达涨1.25%,奈飞跌0.34%。 热门中概股涨跌不一,纳斯达克中国金龙指数跌0.99%,阿里巴巴涨0.71%,京东涨0.57%,拼多多跌0.71%,蔚来汽车涨2.43%,小鹏汽车跌0.25%,理想汽车涨1.96%,哔哩哔哩涨1.43%,百度跌0.86%,网易涨0.42%,爱奇艺涨2.44%。 公司消息 【英特尔同意以110亿美元将爱尔兰工厂49%的股份转让给投资公司阿波罗】 英特尔同意以110亿美元的对价将其在爱尔兰一家工厂的部分持股出售给阿波罗全球管理公司,引入外部资金来助力自身生产网络的大规模扩张。这家芯片制造商在一份声明中表示,根据交易条款,阿波罗将获得该拥有英特尔Fab 34工厂的合资企业中49%的股份。这也是英特尔为捉襟见肘的财务状况减负而宣布的第二个同类投资计划。 【思科启动10亿美元全球人工智能投资基金】 思科公司的全球企业风险投资部门6月4日启动了一项10亿美元的人工智能投资基金,以支持初创企业生态系统并扩大人工智能解决方案的开发。作为新人工智能基金的一部分,思科将对Cohere、Mistral AI和Scale AI等公司进行战略投资。迄今为止,思科已从10亿美元的投资基金中拿出近2亿美元。 【美国证券监管机构调查“咆哮小猫”的GameStop交易】 美国马萨诸塞州证券监管机构正在调查GameStop的交易活动,该机构发言人称,正在调查GameStop投资者基斯·吉尔(Keith Gill)的活动。此前在6月3日,GameStop美股盘前一度大涨110%。此前Reddit上的一个帖子号称显示基斯·吉尔——又名“咆哮小猫”(Roaring Kitty)的投资者在GameStop构建1.81亿美元的仓位。 游戏驿站周二收跌5.36%。 【波音CEO卡尔霍恩称董事会将决定其继任者】 波音公司即将离任的总裁兼首席执行官大卫·卡尔霍恩(David Calhoun)6月4日表示,波音董事会将决定他的继任者,他将支持董事会的选择。卡尔霍恩将于今年年底卸任,这是该公司因安全危机而进行的管理层大调整的一部分。关于继任者的猜测越来越多,卡尔霍恩支持商用飞机部门主管斯蒂芬妮·波普(Stephanie Pope),而投资者、分析师和其他人则呼吁新任高管既要有首席执行官经验,又要有工程经验。 【英国准备向肥胖患者提供礼来减肥药】 英国指导意见草案中,礼来的减肥药Mounjaro被推荐用于英国部分肥胖患者的减肥,英国国家医疗服务体系 (NHS) 将为患者提供这种药物。这些建议仍处于草案阶段,可能会根据公开咨询的意见进行修改。如果该指导意见得到确认,Mounjaro将挑战诺和诺德的Wegovy,后者是针对接受专科体重管理服务的肥胖患者推荐的药物。 【德意志银行与加密货币交易平台Bitpanda达成合作 提供实时支付解决方案】 德意志银行将与Bitpanda合作,为这家奥地利加密货币经纪公司处理客户存款和提款。据了解,加密货币行业过去一直难以找到银行合作伙伴,尤其是加密货币相关客户高度集中的Silvergate Capital Corp、Signature Bank和硅谷银行在2023年倒闭后。
债市调整,机构率先撤退?多只债券基金出现大额赎回
今日,宏利闽利一年定开债券基金发布公告,称在5月22日发生了大额赎回。为了保证持有人的利益,所以将基金净值的精度提高到小数点的后八位。 界面新闻记者统计发现,今年以来,已经有187只债券基金公告因为出现大额赎回,从而提高了基金的净值精度。 据了解,债市持续回调会导致债基资金流出,当基金发生大额赎回时,基金经理可能被迫以较低的价格迅速变现部分资产以满足赎回需求,从而导致基金资产规模大幅缩减。而提高基金份额净值精度,能够使基金份额的赎回价格更为准确,从而保护剩余份额持有人和赎回投资者的利益。 在今年的新发市场中,债券基金无疑是最吸金的。Wind数据显示,截至5月23日,今年以来共成立了467只新基金,合计募集资金的规模为4400亿元。其中,仅中长期债券基金就有75只,合计募集规模为1558.72亿元。鹏华永兴、兴业添盈、富国瑞夏、国投瑞银启源利率债、国寿安保利率债三个月定开等多只基金的首发规模均达到了80亿元的规模上限。 界面新闻整理统计发现,今年以来,有债券基金的回报率超过了5%。截至5月22日,鹏华永达中短债6个月定开的年内回报率达到了5.2%,仅一季度的回报率就为4.66%。一季报显示,该基金主要是配置了短期限的中高评级信用债,并且一季度债券资产占基金资产净值的比例达到了136.47%,这意味着该基金使用的杠杆较高。 表:今年以来收益率排名钱前20的纯债基金明细   来源:Wind 界面新闻整理 债券基金火爆,基金公司也加大了对固收产品的持营力度。日前,记者在广州多个写字楼、居民区的电梯内,均看到了“天弘信利债券基金”的大幅海报。公开资料显示,该基金成立于2016年12月16日,是一只中长期纯债基金,现任基金经理为尹粒宇,自2021年11月16日接任至今回报率为10.68%。2023年基金年报显示,天弘信利的持有人数为3.88万,相较于2022年翻了49倍。 “现在能卖的动的确实只有固收产品,我们给客户配置的方案就是偏固收+的稳健方案。因为现在客户的风险偏好变低了,相比高收益伴随的高风险,他们更看重低回撤的稳健型产品。”某公募理财子公司理财经理告诉记者。 作为今年最火的品种,债券基金为何在近期频现大额赎回?这和近期的债市回调有关。 “自4月下旬以来,债市步入震荡调整阶段。在政策导向层面,央行再次提示长端利率债的交易风险。而且随着近期长期特别国债的落地,叠加债牛失速下跌,也会导致非理性情绪出现,放大债市调整,加剧震荡的幅度。”某公募固收研究员告诉界面新闻记者。 展望后市,金鹰基金基金经理邹卫指出,从目前公布的超长国债的发行节奏来看,它分了20多期,每期就几百亿,每次的量也较小,预计对市场冲击并不大。中短端利率则主要受益于流动性充裕。在资产荒的大背景下,打击手工补息,资金脱媒、存款搬家,中短端债券被追捧。从更长的视角来看,经济高质量发展的指导方针下,新旧动能转换之际,债牛或仍将延续。当然,未来市场可能也会有回调,涨得多时大家会畏高,这时候利空的因素往往会被放大,毕竟没有只涨不跌的资产,债券市场会在波折中不断走强。 来源:界面新闻
视频号直播电商架构调整,并入微信开放平台
文|陈桥辉 Tech星球独家获悉,5月28日下午,微信发布内部公告,微信视频号直播电商团队进行了调整。据悉,微信视频号直播电商团队将并入到微信开放平台(小程序、公众号等)团队,原微信视频号直播电商团队的负责人不再担任该团队的管理工作,转由微信开放平台负责人负责。 据知情人士向Tech星球透露,此次调整,将有助于微信视频号直播电商业务更好地融入到微信生态内,让视频号直播电商获得更有利的发展。 微信视频号直播电商的发展,较为迅速。 2021年7月,视频号成立专门的直播电商团队。Tech星球曾披露,视频号组织架构下,有短视频与直播两个并列部门,其中直播电商又细分为三个部门:运营部门,主要负责策略、规则制定,辅助优质商家达人在平台冷启动,给予一定扶持;安全部门,主要负责流量算法、安全机制、审核等;产品部门,负责视频号小店以及优选联盟。 到了2022年,视频号直播电商GMV约为400亿-500亿元,2023年,《晚点 LatePost》报道,微信视频号电商 2023 年的GMV在一千亿元左右。同时,微信还在逐步扩大视频号电商业务的队伍,以满足业务快速发展的需求,除了负责前端产品的视频号直播团队外,视频号电商团队还从微信其他部门抽调人手加入视频号电商的建设。 2024年1月份的年会上,腾讯CEO马化腾表示,微信这棵老树如何发新芽,是一个很大的问题,BAT公司(百度、阿里、腾讯)里,目前好像腾讯还有机会发点新芽。视频号是“全鹅厂的希望”,结合自身特点做熟人社交的短视频,今年要全力发展的就是视频号直播电商。
OpenAI联合创始人Greg最新采访:为什么OpenAI最先做出GPT-4?
为什么是 OpenAI 首先开发出像 GPT-4 这样强大的模型?联合创始人 Greg 在接受采访时透露,团队中不仅仅有学术背景的研究型人才,同时还有优秀的工程人才,这使得他们能够从不同的角度解决问题,更有效地推动项目进步。凯文・凯利在《5000 天后的世界》一书中预测,称雄 AR 世界的不会是 GAFA—— 如今的科技四大巨头。 纵观颠覆性技术的发展史,一个领域的主导者从来无法在下一个时代的平台上继续称雄,因为它们的成功会成为它们最大的桎梏。 事实仿佛真的如此。即便谷歌疯狂自证在 AGI 领域的实力,但却只能在 OpenAI 身后追赶。 为什么大企业无法创新?为什么是 OpenAI 首先开发出像 GPT-4 这样强大的模型?即使像 Google、Meta 有那么雄厚的资本,那么多人才储备也没有做到? 5 月 15 日,可汗学院(Khan Academy)的 CEO 兼创始人萨尔曼・可汗(Sal Khan)对 OpenAI 联合创始人兼总裁格雷格・布罗克曼(Greg Brockman)进行了一段采访,这段采访或许能够帮助我们找到答案。 研究与工程并重 OpenAI 日前向公众揭秘了 Omni 团队,团队成员年龄和司龄的年轻化,以及团队管理的扁平化引发了网友热议。其实在成员组合方面,也「暗藏玄机」。 OpenAI 的团队不仅有学术背景的研究型人才,同时还有优秀的工程人才,这种组合使他们能够从不同的角度解决问题,更有效地推动项目进步。 Khan 询问 Brockman「你们认为自己做了什么才能达到如今的地位?在这个领域,有许多人在努力工作,也有许多资源雄厚的大型组织。你们认为自己做了什么与众不同?是因为你们的方法不同,还是有其他原因?」 Greg Brockman 坦言「这是个很好的问题。我认为我们是更大趋势或历史的一部分。回顾过去 70 年的计算机发展史,我们经历了指数级的增长。」 「2000 年,Ray Kurzweil 曾经说过,看看计算能力,它会告诉你什么是可能的。这就是推动进步的动力。起初大家都认为他疯了,但现在我相信大家基本上都认同他的观点。」 Ray Kurzweil 「想想我们为了实现像 GPT-4 这样的项目,付出了多少工程上的努力,从计算基础设施到使用的所有数据集和工具,这其实是全人类在很多方面的巨大努力。」 「具体来说,我们能取得这些成就,是因为我们聚集了来自研究和工程背景的优秀人才。」 「当我们开始这个项目时,让我感到非常有趣的是观察其他实验室的工作方式。你会发现,大多数实验室以研究为主,研究型工程师被告知要做什么,而研究科学家则可以随心所欲。」 「这种方式似乎并不是实际构建一个工作系统的方法,更像是为了追求论文引用数量。如果你真的想产生影响并开发出有用的东西,你需要以不同的方式来组织团队。」 「虽然说起来很简单,但实际上,这涉及到很多相互冲突的思维方式,特别是当你来自不同背景时。」 我们必须尽力去解决这些问题,虽然你永远不能完全解决它们,但可以不断进步并挑战更复杂的版本。这就是我们需要勇于面对困难、勇于挑战的地方。」 不会因为风险的存在而止步不前 建立造福人类的 AGI Greg Brockman 第一次对人工智能的概念感到兴奋,是在他读到阿兰・图灵(Alan Turing)1950 年发表的关于图灵测试的论文的时候。 他想看看,我们是否能够真正制造出图灵所说的那种机器,一种人类水平的智能,也就是我们所说的 AGI,并让它造福于全人类。 这是 OpenAI 诞生的缘起,也是它的使命和愿景。 为了这个目标,OpenAI 已经工作了 8 年。在这期间,OpenAI 一直在做同样的事情 —— 建立更大的神经网络,让它更有能力,更协调、更安全,与此同时,部署这项技术,并使其发挥作用。 Greg Brockman 称「这就是我认为这项技术最吸引我的地方,每走一步,你都能真正产生影响,真正开始造福人类。你会看到你所建立的东西带来的好处,并真正学会如何减少所有的不利因素。」 迎战新的风险 当 Khan 问及 AI 的安全性问题,Brockman 这样回答「AI 的安全问题有着悠久的历史,早在 50-60 年代,阿瑟・克拉克这样的人就在谈论这个问题。」 《2001:太空漫游》作者阿瑟・克拉克 「我认为,对 AI 拥有这种复杂的情感是非常正确的,我们既要对任何新事物感到惊奇,又要问这是要去哪里,哪里会有陷阱?我认为只有这样,我们才能正确地在这个空间里航行。」 Brockman 提到,一件非常有趣的事情是,AI 是如何变得看起来「令人惊讶」的? 在 90 年代,每个人都认为,如果 AI 可以下棋,就说明进入了 AGI 时代,但实际上,这只是我们要解决的第一件事情,AI 学会下棋并没有让我们真正走得更远。 安全性问题也是一样。并不是说对 AI 安全的前瞻性的担忧一定不会发生,但 Brockman 认为,我们在错误的事情上过于自信了。 他举了一个例子:对于 GPT-3,OpenAI 只是在基础数据集上进行训练后就将其发布,而对于 GPT-4,团队则对模型进行了调整,尽力消除偏见。 事实上 OpenAI 在 2017 年就开始开发这项技术,当时这些模型还没有出现。 现在,GPT-4 带来了一类新的风险,未来还会出现更多新的风险。风险和益处将会并存,关键是如何学会如何面对这种风险。 在实践中学习 当我们在思考 GPT 对教育领域的影响的时候,一些人可能会首先注意到抄袭的问题,Brockman 也承认让学生独立思考非常重要。 但是「对于那些无法获得出色的教育工具的人来说,ChatGPT 是一个工具。教师可以根据自己的喜好,帮助学生进行某种工作并填补教育人员无法做到的空白。」 至于如何制定规则,如何将这项技术融入教育,则需要「获得大量的意见,与大量的教育工作者接触。OpenAI 不是这项事业唯一的决定者,从每个人那里获得广泛的意见很重要。」 「我们为了实现真正的益处,和一线的教育工作者交谈,真正弄清楚他们想要什么。」 我们还需要「真正展示积极面」。 一旦你有了一个有效的正面例子,就很容易围绕它建立标准,如果没有这个,那么就相当于「在黑暗中开枪」。 就像采访者 Khan 谈到的,ChatGPT 对教育的影响取决于怎样使用,比方说我们可以用它来采访历史人物、练习辩论技巧等。 更多正面使用的案例和经验需要在实践中获得。 去年 OpenAI 发布了一篇关于部署语言模型安全标准的博客文章,这篇文章的形成用了 2 年的时间。Brockman 告诉 Khan「这种从实践中学习的迭代部署,是我们现在可以做的最重要的事情」。 每个人都可以获得 AI 的「超能力」 人工智能究竟会削弱人类能力,还是增强人类能力? Brockman 和 Khan 都站在人工智能会增强人类能力的这一边。 Brockman 乐观地说「现在,拥有一部智能手机就可以开始以一种方式进行创作,而你之前必须购买一堆专业软件,你必须去学校接受大量的培训。」 「我认为我们都可以获得人工智能的超能力,我们可以实现我们想要的目标」。 当然,关于这个问题,每个人都可以有自己的答案,但 Greg Brockman 无疑是一个乐观主义者,这或许也是 OpenAI 不断向前的原因所在。 乐观是油门,悲观是刹车,两者都不可或缺,但是想要前进,我们必须多踩油门而不是刹车。
字节偷偷盯上AI硬件?
一则收购消息,让外界更加相信字节正在悄悄打AI硬件的主意。 近期,彭博社报道字节以5000万美元(约合人民币3.62元),收购中国耳机制造商Oladance。彭博社援引知情人士称,此举是因为字节管理层看到了可穿戴设备成为AIGC服务平台的潜力。 字节在这场AI浪潮中颇为活跃。据Sensor Tower,截至今年4月,字节推出的豆包应用在苹果iOS平台一年内的下载量接近900万次,超过了百度文心一言的800万次。 前不久,OpenAI发布GPT-4o,字节旗下火山引擎紧随其后发布豆包大模型家族,并将价格打至最低0.0008元/千tokens。此举登时引发连锁反应,阿里云宣布通义千问主力模型Qwen-Long的API输入价格降至0.0005元/千tokens,降幅97%,百度拿出两款主力大模型免费对外,腾讯也公布大模型升级方案,其中主力模型之一的混元-Lite也调整为免费。 此外,在OpenAI 2月公布文生视频大模型Sora之前一周,原抖音集团CEO张楠辞职,转而挂帅剪映。三个月后,剪映全量上线AI作图和AI视频生成工具即梦。 但在大模型软件商业化迟迟无法打开局面之下,硬件,正成为一众大模型玩家输出AI能力的新载体。 手机厂商和PC厂商争相将传统智能终端改造成AI硬件,推出AI手机、AI电脑。苹果被传和OpenAI、谷歌等沟通,想要将大模型放入下半年即将公布的新品中。微软也已经宣布其Windows 11 AI PC计划,Copilot全面引入操作系统,成为随时陪伴用户的全能助手。OpenAI也宣布要开发并制造自己的AI硬件,形态无人知晓。 包括智能眼镜在内的小众硬件也成为一些企业投注的品类。Meta和雷蒙合作的智能眼镜已经塞进了多模态版本的Llama3,华为智能眼镜则接入了盘古大模型。智能眼镜轻便,且可以兼顾视(镜片)和听(镜架扬声器)。而Oladance在开放式耳机方面的技术,恰吻合后者的需求。 不过,部分AI硬件的创新先驱者已经开始遭遇危机:别在胸前的AI Pin、完全没有APP的Rabbit 1被推出后都曾惊艳一时,但前后脚翻车——Rabbit R1被质疑套壳安卓,AI Pin使用感受不佳,背后公司Humane被曝已经在寻求出售。 被字节收入囊中的Oladance,在开放式耳机设备和出海两方面都有丰富的经验。 Oladance主攻开放式耳机,也就是挂在耳朵上、不入耳的耳机。甚至现在常用的OWS(Open Wearable Stereo开放式穿戴立体声)概念本就是Oladance提出的。 这种耳机和传统入耳式耳机的最大区别在于,使用者在私享音频的同时,可以保持与外界的联通,与人交谈、收听环境音等场景不受影响。 Oladance这家公司非常年轻,2019年成立于深圳,名字很豪放:深圳市大十未来科技有限公司。创始人李浩乾本身就是BOSE的前高管,创业时带了数位BOSE工程师。 不同于先本土再出海,融资、推产品、再融资的路径,2021年7月,Oladance的第一款全开放式耳机以众筹的形式,登陆北美Kickstarter网站,1小时拿下15万美元(约合人民币105万元),收官于39.7万美元(约合人民币278万元)。其后才开始在中国销售。次年6月,Oladance进入日本市场,第一站也是众筹网站Makuake,上线2小时完成众筹目标,收官于1.05亿日元(约合人民币484万元)。 自登陆北美市场后的两年时间,Oladance的产品就已经销往全球超过30个国家和地区。 顺带一提,Oladance的产品定价不低,属于中高档价位的耳机。目前Oladance京东自营旗舰店在售耳机中,最便宜的也要999元,最贵的要1499元(目前正是618期间,页面显示“直降400”),单独的充电仓价格在300元以上。用创始人李浩乾在36氪WISE2023未来消费大会上的话说就是“我们的产品比苹果卖得还贵”。 在海外市场,Oladance已经小有名气,YouTube网站上的相关评测视频有数万甚至上百万的观看量,还曾获评亚马逊2022年年度创新品牌。 到了2023年8月,Oladance传出天使轮融资的消息,规模千万美元,由蓝驰创投、黑蚁资本领投。据36氪,李浩乾曾透露Oladance预计2024年营收超10亿美元。 字节收购一家耳机公司,醉翁之意很有可能不在音频市场。 耳机市场已经是一片红海,传统TWS真无线耳机的市场在经历高增长后已经开始萎缩,全球出货量增速从2021年的70%,降至2022年的25%,2023年就只有8%。 OWS耳机增长迅速,但规模总体较小。据市场调研机构Canalys,2023年第四季度开放式耳机占个人音频市场的份额增长了68%,但总体占比只有2.9%。据Global Information的报告,2023年全球OWS市场规模约19亿美元。 相比之下,Oladance在字节更有可能的用武之地在AI硬件。 字节是这一波AI浪潮中深受影响的科技大厂之一。去年8月,字节发布类ChatGPT应用豆包。本月(2024年5月)OpenAI公布GPT-4o,字节旗下火山引擎紧随其后发布豆包大模型家族,并将价格打到0.0008元/千tokens,一时间掀起国内大模型的价格战。 此外,抖音前CEO张楠挂帅剪映,并在不久前推出AI作图和AI视频生成工具“即梦”,追随OpenAI视频模型Sora的脚步。 在核心技术大语言模型、落地应用之外,承载AI的硬件也成了科技企业的圣杯——谁都不能准确说出未来的AI硬件到底是什么形态,但是谁都不敢不去尝试。 传统智能终端纷纷AI化,AI手机和AI电脑已经成为厂商的必备新品。微软前不久才在新品发布会上宣布推出“更快、更智能”的Windows PC品类:Windows 11 AI PC。其内置OpenAI的GPT-4o,并且将AI助手Copilot全面引入系统。微软CEO萨蒂亚·纳德拉(Satya Nadella)更是直接叫板苹果,称期待Windows与Mac能够“重新展开真正意义上的对决”。 XR设备也是AI的热战场,其中以智能眼镜最为突出。 Meta早在2021年就和雷朋眼镜合作,推出过智能眼镜。去年9月,双方再次合作推出Ran-Ban Meta智能眼镜,最大的亮点是内置Meta AI,今年还升级支持多模态版本Llama 3大模型。 这意味着用户不仅可以用“Hey Meta”唤起一个助理,而且这个助理除了语音交互之外,还可以通过眼镜摄像头识别环境,和用户沟通。Meta的CEO马克·扎克伯格(Mark Zuckerberg)自己在Instagram上发视频宣传,戴着智能眼镜的他拿起一件衬衫,询问Meta AI该怎么搭配裤子。 就连谷歌联合创始人谢尔盖·布林都感叹,智能眼镜是最新公布的Project Astra的“完美硬件”。可惜谷歌发布智能眼镜是在10年前:“不幸的是,我们搞错了时间。我真希望实际能把握得更好一些。” 如今,已经有众多企业入局智能眼镜,并将大模型带入其中。如华为把盘古大模型塞进了华为智能眼镜2里,不支持XR功能,可以视为智能音频眼镜。前天猫精灵产品总经理茹忆创业,创办的李未可科技有限公司也已经推出了首款AI智能眼镜,搭载了自研大模型WAKE-AI。 智能眼镜一般会在镜架设置扬声器,要尽量降低漏音、提高通话降噪能力,这与开放式耳机的技术不谋而合。 但AI硬件并不好做,或者说各家都尚在摸索阶段,试错也许在所难免。 这几天还有另一个关于AI硬件的消息,不过是个坏消息:Humane正在寻求出售。 Humane这个公司名本身不出圈,但要说其产品AI Pin,相信很多人都不陌生。这款可穿戴AI设备没有屏幕,配有传感器、生成式AI和小型投影仪,用户把它挂在胸前进行语音交互,还可以直接将信息投影在手心。 新颖的交互方式让AI Pin一经推出就备受瞩目,毕竟大家都在聊AI硬件,但真正做出一个不同于手机、PC的产品的还真没有几家。然而,AI Pin的实际使用体验却不尽如人意,户外日光下看不清投影内容、语音交互延迟等硬伤一大堆。 5月,彭博社报道称Humane已经在寻找下家,期望以7.5亿美元到10亿美元出售,目前正处于早期阶段。初创企业寻求出售倒也不新鲜,但“下一代iPhone”横空出世不过一个月,公司就要卷铺盖离场,也算是给AI硬件创新泼了一盆冷水。 字节做硬件并非没有经验,但缺少大获全胜的经验。 去年11月,字节旗下VR部门PICO宣布裁员,涉及员工300余人,占比23%。字节于2021年以数十亿元收购PICO并大力发展VR头显业务,巅峰时期PICO员工总数曾突破2000人。裁员后,PICO将以千人规模维持运营。 在内部发言中,PICO CEO周宏伟称“此前我们对行业和市场的发展估计得比较乐观,但实际上没有预期得那么快”。 字节PICO刚开始尝到了增长的甜。据Wellsenn XR的数据,2022年第二季度PICO出货量26万台,同比增长近8倍。但很快甜就变成了苦,据IDC估计,PICO头显出货量在2023年上半年只有14万台,远低于上一年。随着元宇宙的热度消散,整个VR赛道还没真正迎来爆发式增长就转为平静。 除此之外,字节还曾涉足教育硬件,从2020年开始推出大力智能学习灯、智能写字板等产品。其中学习灯在一年多的时间累计销量突破100万台。但2022年6月教育业务大幅裁员后,学习灯也不再发布新品。此后字节教育硬件业务负责人杨康转岗,业务首任负责人阳陆育离职,字节在教育硬件方面鲜有新消息传出。 如今AI热战持续,抢占下一代智能终端的愿景足够诱人。走得慢怕赶不上,走得快又有可能拉伤自己,字节也只能摸着石头过河。
银河通用王鹤:让具身智能机器人“言出法随”,需攻克两大局限性丨GenAICon 2024
作者 | GenAICon 2024 2024中国生成式AI大会于4月18-19日在北京举行,在大会第一天的主会场开幕式上,北京大学助理教授、银河通用机器人创始人&CTO、智源具身智能中心主任王鹤以《通向开放指令操作的具身多模态大模型系统》为题发表演讲。 成立于2023年5月的银河通用机器人,是国内具身智能代表初创公司之一,迄今已完成4轮融资,美团是公司外第一大外部股东,北大燕缘创投、清华无限基金SEE Fund均是投资方,其累计融资额已超过1亿美元。 作为国内具身智能领域资深专家,王鹤详细解读了具身智能大模型的定义、范围和关键技术。他谈到目前面向通用机器人的具身多模态大模型的局限在于数据来源有限、很难高频输出动作。应对这两大挑战的方向,一是通过仿真世界提供训练数据,二是采用三维模态模型提升泛化性和速度。 对此,银河通用机器人构建了三层级大模型系统,包括硬件、仿真合成数据训练的泛化技能、大模型等。基于该系统,机器人可实现跨场景、跨物体材质、跨形态、跨物体摆放、依据人类语音指令进行的开放语义泛化抓取,成功率达95%。 以下为王鹤的演讲实录: 今天我带来的内容与机器人相关,这个话题也是今年“AI+”中最火热的话题之一。 大模型公司OpenAI和机器人公司Figure AI联手演出,让我们看到机器人在厨房里拿苹果、端盘子、放杯子的惊艳视频。还有巨头英伟达在GTC大会官宣要做Project GROOT,GROOT就是通用机器人。 那么,对于通用机器人我们的期待是什么?就是它能像人一样干各种各样的体力劳动,可以实现我们告诉机器人指令,它通过视觉去看、各种传感器去感知,然后连续高频输出动作,也就是能够听懂我们跟它说的任务指令。这就是“言出法随”。 此外,机器人还应该做到环境泛化,在家庭、工厂、商超等不同的环境中工作。 这样的通用机器人显然不是只造出机器人本体就可以,那么背后的技术是什么?什么赋予了它这样的能力?就是具身多模态大模型。 一、拆解大模型分类,自动驾驶是典型的具身大模型 具身多模态大模型就是能高频输出动作的大模型,我将其分为非具身和具身大模型两类。 今天前面看到的一些大模型实际是非具身大模型,如GPT-4、GPT-4V、Sora等,它们的特点是,输出都是给人看或者给人读的。无论语言、图片还是视频大模型,最终服务的对象是人,显示的设备是各种手机、电脑、AR设备等。 而具身大模型的特点是:拥有一个身体,最终输出的对象是身体的运动。 这样来看,自动驾驶大模型就是一种典型的具身大模型,比如特斯拉的FSD全自动驾驶系统,今年8月号称要开始无人出租车业务Robotaix。 自动驾驶大模型的输入是视觉信号和终点的位置,输出是方向盘的动作和油门、刹车的大小。机器人相比于车来说,动作空间自由度更高,输出是底盘或者腿、手臂、手指等全身的运动。这样的机器人大模型也是这几年学术界、工业界研究的热点。 谷歌RT-2大模型是端到端的具身大模型代表,能够把香蕉放到写有“3”的纸上,把草莓放到正确的碗里。“找到正确的碗”,这背后需要大模型的通用感知和理解能力,以及连贯的动作生成能力。还有把足球移到篮球旁边,把可乐罐移到Taylor Swift的照片旁边,将红牛移动到“H”字母上。 这样的具身大模型,如果能完全达到Open-Instruction(开放指令)、Cross-Environment(跨环境泛化),就能替代大量的体力劳动。 今天,全球语言大模型、视频大模型、图片大模型、自动驾驶大模型的市场规模都达到至少千亿美元,试问如果能有一个完成任何指令的机器人代替人,它的市场规模会有多大?可能相比于目前车的市场提升两到三个数量级。 二、通用机器人面临两大局限性:数据来源有限,机器人反射弧长 谷歌的RT-2大模型背后就是通过多模态大模型输出动作,那么这样的大模型是否已经成熟了?是否今年我们可以期待有机器人保姆在家里干活?目前,无论OpenAI、英伟达,还是谷歌,做通用机器人都还有巨大的局限性。 谷歌的技术局限性第一点在于,具身机器人数据来源非常有限,谷歌在Mountain Village(美国加州)办公室的厨房里采集了17个月,得到13万条数据,使得其机器人在谷歌的厨房里表现可以非常好。 但一旦出了这个厨房,需要考察其环境泛化性,它的成功率就从97%骤降到30%左右。并且这种泛化是有选择的泛化,不是将其直接放到施工工地、非常嘈杂的后厨等场景中,它最大的问题就是数据采集没有办法做到Scalable(可扩展)。 今天,有百万台车主在开特斯拉,为特斯拉的端到端自动驾驶模型提供数据,互联网上有无穷无尽的用户上传的照片等作为多模态大模型的数据,那么机器人大模型的数据在哪儿?这是谷歌、OpenAI、英伟达没有完全解决的问题。 第二点局限为,RT-2大模型中包含了谷歌上一代大模型PaLM-E,它的速度只能达到1~3Hz,机器人的反射弧长达0.3秒甚至1秒,这样的机器人恐怕你也不敢用。 OpenAI和Figure AI合作用的是小模型,它能够达到200Hz的动作输出频率,大模型如何做到以200Hz的频率输出动作也成为通用机器人领域的重要问题。 三、打造三层级大模型系统,解决泛化、响应速度难题 今天给大家带来一些银河通用在这个问题上的探索。 如何能够做到又快又泛化?泛化说的是数据问题,今天真正可以满足机器人大模型需求的数据且含有动作标签的数据,只能来自于仿真世界、物理传感器。 在2017年,我读博士期间就开始研究如何通过仿真生成大量的合成数据,来训练机器人的视觉和动作。今天我们可以把各种家用电器等物体搬到仿真设备里面,并且可以真正做到物理仿真,机器人要沿着一定方向用力拉抽屉,而不是像游戏里面手一过去抽屉就弹开了。如果是那样的话,机器人学到的东西在真实世界里面没有用。 我们在仿真世界里面放满了各种各样的物体,赋予它跟真实世界相同的交互方式,我们再把传感器放到仿真环境里面去训练,就拥有了一个足够好的数据生成来源。 那么如何做到快?就是小模型,如同OpenAI和Figure AI的小模型一样,高频输出动作。三维视觉的小模型给我们带来了一个比Figure AI更好的选择方案。 Figure AI的方案采用了二维视觉模型,二维视觉模型最大的特点是很难泛化。如果你之前在黑色房间做训练,那么换成白色的房间此前的训练就白费了。三维视觉看到的是点云、物体的几何,不会受光照、纹理、颜色影响。 那么,这样可以做到泛化、快,还是从仿真数据里面学习的模型,能不能解决我们真实世界开放与易操作的问题?今天我把我们做的标志性成果跟大家分享一下。 我们用的是三层级大模型系统,底层是硬件层,中间层是通过仿真合成数据不用任何真实世界数据训练的泛化的技能,包括自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂衣服叠衣服柔性物体操作的泛化技能。 这里谈泛化的原因为,我们可以在仿真环境里生成千万级场景,十亿规模的动作来训练机器人,让其可以应对各种真实世界的情形和挑战。这种采集方式,相对于在真实世界里用遥控器遥控机器人采集具有极高的效率和丰富的数据来源。 最上层是大模型,可以调度中间技能API,来实现完整的从任务的感知、规划到执行的全流程。 四、大型仿真平台Open6DOR,破解六自由度操作难题 先展示第一个例子,我们如何做开放语义关节类物体的操作。 我们与斯坦福大学合作,机器人执行开关微波炉、开锅、使用搅拌机等任务时,背后不是靠我们去挨个训练不同类别,而是直接在这些物体上测试我们的模型。 这一技能来源于CVPR 2023的满分论文,我们提供了世界上第一个以零件为中心的数据集,该数据集覆盖了各种家用电器上可能存在的主要操作零部件,包括旋转盖、推盖、转钮、按钮、直线把手、圆形把手、门等。 然后我们把这些零部件放在仿真世界里面,并标注了它的位姿、所有轴的使用方法,从而帮助推理相应开门等操作的方法。 这样的合成数据集就能教机器人如何去开生活中没见过的柜子,机器人只要有三维点云、找到把手的位置,正确抓取把手在沿着柜子的方向一拉就可以打开任何抽屉。 我们的实验也证实了机器人可以完全依赖仿真世界的数据,实现真实世界里关节类物体的泛化操作,包括没见过的物体类别,如遥控器、计算器、圆形把手的锅盖等。图上面是三维视觉的输出,下面是机器人技能的展示。 这样的技能如何与大模型相结合?GPT-4V与我们十分互补,GPT-4V是典型的二维语言双模态大模型,它具有很强的推理和感知能力。但其缺点在于,会偶尔看不出来,对物体零部件的数量判断错误,且不知道零部件在三维空间中的具体位置,定位能力为零。 三维视觉的模型就可以提供GPT-4V检测到零部件的数量、位置和形态,把它作为Prompt交给GPT-4V,让它去思考这个东西怎么去用。 我举一个例子,当我们直接把检测到的微波炉零部件交给GPT-4V作为Prompt时,让它生成关于这个场景的综合描述,它会说这个微波炉有直线门、直线把手、按钮和旋钮,然后问它:“如果我想打开微波炉,我应该动哪个零部件?使用哪个API?” 大模型的回应是“动把手,调用的API是绕门轴转90度”。那么,把手在哪里、门轴在哪里是三维视觉给它的,GPT-4V不能输出三维的坐标和位置。 然后机器人尝试时,我们发现这个操作看似合理,但实际操作却打不开,这是为什么?因为微波炉不可以靠蛮力开,这时候我们将“门没有打开,只旋转了零点几度”的三维视觉反馈给GPT-4V,问它接下来怎么办。 大模型给出操作时,可以调用检测出的按钮再开门。这体现了大模型通过丰富的语料训练,已经产生了足够多的知识。我们可以直接信任它进行操作。 这样的例子很多,我们最开始讲的家用电器的零部件,GPT-4V知道零部件的位置等就可以进行操作。这是真正的Open-Instruction(开放指令),它关于环境是泛化的,不受环境的颜色、光照影响,只关心几何。 第二个例子是如何做到六自由度物体的自由摆放。六自由度指的是三自由度的平动、三自由度的转动。 谷歌的工作是三自由度的开放语义操作,它只能做到放在哪儿,不能做到朝哪儿放,其没有方向改概念只有位置概念。我们在全球率先提出桌面级操作要解决的里程碑难题就是六自由度操作,能够在桌面同时执行位置和朝向的指令,我们将其命名为Open6DOR。 Open6DOR是大型仿真平台,里面包含2500个各种各样的任务。这些任务不用于训练,而是拿来检测具身多模态大模型能不能完成,这其中有200多个家用常用物体。 其主要关注三类任务追踪,第一是只关心位置,比如把苹果放到勺子的右边、把瓶子放到锤子和改锥的中间,这就是Position-track;第二是Rotation-track,把锤子冲向左、易拉罐的标签朝左、把碗上下颠倒。而实际我们需要的是Position+Rotation的任务执行,也就是六自由度Track,比如把盒子放到锅和锅盖之间并让标签冲上,或者把卷尺放到中间且让它立起来,像这样的操作是桌面级操作里的关键性里程碑。 谁能够率先完成2500个任务,就说明你的大模型已经初步具备了Open Instuction能力。 五、三维视觉小模型快速生成动作,大模型规划 目前,针对2000多个任务,我们自己提了一套方法。 首先是抓取能力,这是银河通用的独有技术,我们研发出全球首个可以实现基于仿真合成数据训练任意材质的技术。通过海量的合成数据,我们在全球第一次达到了跨场景、跨物体材质、跨形态、跨物体摆放实现泛化抓取,并且首次达到95%的抓取成功率。 此外,对于纯透明、纯反光等物体的泛化抓取对于二维视觉、三维视觉都有极大的挑战性。可以看到,我们的方法能实时将透明高光物体的深度进行重建,并据此进行物体抓取。 下图中演示的抓取不是简单的从上往下抓,它其实是六自由度的抓取,既有三自由度的转动,又有三自由度的平动。此外,当其耦合大模型后,可以实现开放语义的物体抓取,从抓取能力上今年我们已经实现了泛化的一指令抓取。 那么如何做到位置抓取有效?下面四张图演示的指令分别是,抽一张纸盖在改锥上、把瓶子竖直放到红碗里、把足球放到抽屉里、把水豚放到金属杯子里面。 它背后是怎么做的?首先我们要用GPT-4V提取指令中的关键信息,这里的指令是“把水豚放到写着‘Open6DOR’的纸上,并且把水豚冲前”,我们用GPT-4V+Grounded-SAM把所有的物体进行分割,并且把其三维Bounding Box(边界框)输出给GPT-4V。GPT-4V理解这些物体现在的位置后,就会输出应该把物体放在哪个位置的指令。 那么旋转怎么办?GPT-4V是否可以直接输出旋转矩阵?输出机械臂左转上转横转分别多少度?答案是不能,GPT-4V没有这个能力,它并不知道转轴在哪里。 我们在全球提出了Real-same-real的Pipeline,先将真实物体在仿真环境里面重建,再把重建的物体Mesh自由落体撒满整个仿真环境,让物体处于各种可能待的位置。然后将这些位置交给GPT-4V评判,谁满足语言指令的需求,随后GPT-4V通过两轮筛选,选择出符合指令物体的摆放位置。 这样的仿真是全并行,可以很快完成,其中比较慢的就是GPT-4V需要在很多张图里选最好的一张图。我们会将十张图拼成一张图,上面打出标签0~9,GPT-4V直接输出选择哪个,可以同时解决位置在哪儿、朝向在哪儿的问题,后面就用我们的抓取算法结合路径规划,将任务完成。 我今天谈的例子是,当我们用GPT-4V端到端去做动作生成时,它并不快,就像视频生成现在是离线的一样。而机器人需要在线实时生成,因此我们提出了用中间的三维视觉小模型进行动作快速生成,大模型进行规划的三层级思路。 但未来还是端到端,谁能做好端到端的视觉、语言、动作大模型?这里隐含了一个条件——没有做好小模型的公司、没有能让动作小模型泛化的公司,不可能让大模型泛化。因为大模型在单一任务上的数据需求远高于小模型。 银河通用携带着一系列从抓取、放置、柔性物体操作到关节类物体操作等各种小模型,我们将百川归海,最终融汇到大模型里实现通用机器人。在这一点上,我们已经率先打造了全球首个跨场景泛化的导航大模型,你可以用一句话让机器人在没见过的环境里面跟着指令走,这样的机器人没有任何三维定位、建图、激光雷达,只有图片作为输入,这与人走路找路的方式一模一样。 我们相信这样通用、泛化的端到端的Vision Language Action Model(视觉语言动作大模型)将迅速革命现有的机器人产业格局,在非具身大模型和自动驾驶大模型之后创造出一条万亿的赛道。 银河通用成立于去年6月,用10个月的时间完成四轮融资,累计融资额达到1亿美元,我们有一众明星投资人。 以上是王鹤演讲内容的完整整理。
云天励飞余晓填:剖解大模型技术演进与挑战,算法芯片化突破大模型落地“三角约束”丨GenAICon 2024
作者 | GenAICon 2024 2024中国生成式AI大会于4月18-19日在北京举行,在大会第一天的主会场大模型专场上,云天励飞“云天天书”大模型技术负责人余晓填以《多模态大模型技术演进与落地应用探索》为题发表演讲。 2022年底,ChatGPT横空出世,搅起了AI行业的发展热潮。2024年初,文生视频大模型Sora推出,AGI(通用人工智能)发展驶入快车道。余晓填以Sora的发布以及美国利用脑机接口帮助瘫痪病人实现自主行动等案例,展示了AI技术惊人的迭代速度及其潜力。余晓填认为,大模型技术从前几年的崭露头角,发展到现在的如日中天,人类已然迈入了AI的新时代,并朝着AGI的大道全速前进。 在AI蓬勃发展的新时代,大模型技术成为AI领域的焦点之一。以Transformer结构为核心的大型模型被认为是一种高效、可扩展的学习器,能够在短时间内对海量数据进行学习和信息压缩。然而,大模型技术的发展仍旧面临挑战。其中突出问题之一便是数据支持的不足。 如何克服这一难题?余晓填认为,解决的关键在于顶尖AI人才的培育,顶级的人才、专家才是支撑着大模型技术快速发展的基石。 多模态大模型作为大模型技术的重要发展方向,也引起了各界的广泛关注。余晓填提到,多模态大模型信息压缩策略主要分为两种类型:分阶对齐结构和端到端对齐结构。前者利用文本数据的广泛覆盖优势,加速学习收敛速度;后者则通过一次性对各种信息进行交叉并发,实现高效的信息压缩。然而,多模态大模型的落地应用面临诸多挑战。 在此背景下,云天励飞又将如何打破大模型应用的“三角约束”,为大模型技术在各行各业的应用提供新的可能? 以下为余晓填的演讲实录: 在梳理大模型技术近期的重要事件中,如大模型的发布、算力的提升,我看到了两点重要信息:第一,AI技术的迭代速度惊人,世界各地的科技巨头均在竞相争夺领先地位;第二,以大模型技术为核心的AI领域正在经历前所未有的快速发展,并且这种加速度正持续提升。 我们梳理了三个可视化的例子。 首先,去年特斯拉在其投资者日公开展示了一个视频,展示了一个人形机器人正在尝试组装机器。这预示着我们可能即将迈入机器人制造机器人的时代。 其次,最近OpenAI发布了名为Sora的项目,并与Figure合作,开发了具备人形外观的智能机器人。这种机器人具备了高度交互性,能够与人类进行流畅的沟通,并执行人类的指令。 另外,上个月,美国首例利用脑机接口帮助瘫痪的病人已经开始使用自己的意念来发推文,甚至在半夜使用意念玩游戏。这些令人震惊的应用展示了AI技术带来的巨大潜力,表明人类已经迈入了AI的新时代。 一、从ChatGPT到Transformer,大模型在信息压缩与学习中的演进 ChatGPT的根基是围绕着Transformer结构的演化,但是,什么是Transformer?我们认为,它是一个很高效的、可扩展的海量数据的学习器。简单来说,它是一种信息压缩机制,能够在短时间内将人类历史上的所有知识进行压缩,并从中发现语言的规律。 GPT的结构并不偏好任何特定的领域或模态,它能够对各种知识和多种模态进行压缩。这种信息压缩的关键条件包括巨大的参数规模、强大的计算能力以及海量的数据支持。参数规模已经发展到了千亿或万亿级别。在计算能力方面,英伟达一直在为其提供强大支持。 然而,从数据层面,一些学者表示,以后数据将不足以支撑大模型的训练,那这时候怎么办?可能是采用数据合成,用大模型去制造更多的数据进行博弈的学习。 我们认为大模型的一个核心根基是人才,顶尖的AI人才。这种人才可以把大参数、大算力、大数据有机地结合在一起,形成真正算法结构下的高效信息压缩,而这种顶级的专家人才则是支撑着美国大模型技术快速发展的基石。 可以看到,大模型技术的发展以及大模型的能力,归纳起来就是海量信息的压缩,并学习到其中的统计规律。目前在文本方面,我们可以把海量的数据进行压缩,得到了文本的规律,形成了语言的理解和生成。视频、图像、声音等也可以通过海量的数据进行压缩,训练数百万小时的视频,最终用眼睛去看和理解这个世界,甚至在未来进行多种模态的数据交互,这时候,自然而然就会引出来下一个真正要讨论的主题——多模态大模型。 二、多模态大模型如何做信息压缩?探索分阶对齐结构、端到端对齐结构 多模态大模型是怎么去做信息压缩的?我们认为有两大类型。 第一大类型,分阶的对齐结构。第一个阶段先去压缩文本的信息,第二阶段再压缩其它的信息,其它的信息包括视觉、声音等。 为什么要这么做?因为文本的数据覆盖面更广,全量,而且是高知识量的。以此为基础,就可以获得更快的学习收敛速度。这里可以类比人,人学习的过程最重要的三大来源:说话、眼睛看世界、耳朵听东西,这三个信息可能最开始要引导的教育过程,是引导他讲东西,这也就是分阶段对齐的核心要义。从图来看,LLM Backbone以语言对齐为核心,分阶段去做多模态大模型的信息压缩,找到其中的信息系规律。 第二大类型,端到端对齐结构。就是对不同模态的数据同时学习,同时输入图像、文本各种各样的信息,直接把所有信息交叉并发,把所有的信息进行压缩,抽取里面的规律,最终达到理解这个世界,去驱动跟这个世界进行交互。 三、解读大模型技术发展三阶段,场景反哺技术阶段仍面临挑战 大模型能够帮我们做什么?我们很清楚大模型技术只是一个工具,从技术的角度去看,它帮我们把很多信息压缩,更高效地找出其中的规律。大模型要体现出价值,就要落实到各行各业、各种业务的闭环应用里面去。 借鉴AI技术发展的路径,我们认为大模型技术发展定义也有三个阶段。这三个阶段实际上也是技术跟数据或者算法的关系。 一开始,我们设计算法时通常会使用少量数据进行验证,这被称为技术找场景。在第二阶段,场景反哺技术,我们则采用更多数据来提升算法和技术的能力。第三阶段,场景找技术,即所有应用和需求都能通过同一个算法、模型来解决,这标志着我们迈入AGI时代的大道。 那么,技术找场景现在的进展如何?我们已经走完了技术找场景在大模型技术发展应用的这段路。许多应用,例如智能问答、文生成图以及像ChatGPT这样的生成式大模型单点应用,已经验证了大模型技术的应用和算法成熟度。 目前,我们正处于第二阶段,即场景反哺技术的阶段。我们可以看到,多模态大模型的落地还有很长一段路要走,其困难之处在于行业场景的复杂性。尽管我们希望在各行各业中广泛应用大模型,但行业场景的知识深度对大模型的能力提出了严峻的考验,仍存在着参差不齐、远未满足需求的情况。 因此,我们需要积极推动多模态大模型技术的落地,并应对挑战寻找解决方案。 四、如何打破大模型应用的“三角约束”?云天励飞提出“算法芯片化” 我们要考虑主要的变量是什么?从智慧城市中的城市治理、智慧交通,我们归纳出,要在多模态大模型进行落地变现,应注意三个变量的“三角约束”。 如今,对话系统备受关注,其精度已经接近人类,跟人没有差异,但在对垂域的深度支持和行业的价值,大模型没法去做。在真实生产环境中,很多任务是很复杂的,由于对垂域专业知识的不足,以及数据优化结构的增加,大模型面临着成本和效率方面的挑战。 因此,我们需要在精度、成本和效率之间寻找平衡点,以推动多模态大模型技术在对话系统中的落地应用。我们相信,我们正在积极解决这一问题,并与AI领域的同仁一道不断推进技术进步。 云天励飞是如何突破“三角约束”的?我来分享一下我们的解决方案。 自2014年云天励飞建立之初,我们就定义了“算法芯片化”的技术发展路径。算法芯片化不仅仅是简单地将算法应用于芯片,还需要高度专业的人才,需要专家人才对算法有深刻理解,对不同场景和行业数据有专业认知,并能够通过协同设计算法与场景,最终体现在芯片侧、算子侧,包括推进可伸缩的指令集、优化计算架构以及工具链的优化。 这样的技术支持使得我们能够应用包括Transformer、各种深度学习算法框架等多种算法。最重要的一点,它的成本、效率是制约多模态大模型落地的关键。 过去打造的云天天书多模态大模型包含了几个维度,包括语言、CV、文本问答、目标检测分割等。这些大模型的落地采取了分层解耦的策略,通过设计算法芯片化平台,我们构建了一个通用大模型。这个通用大模型具备基础能力,它在行业知识和场景经验方面可能只达到60到70分,但在通用性方面可以达到80分、90分甚至满分。 再往上走就是行业大模型、场景大模型,要在具体的场景业务里面拿到90分,需要低成本的算子层面优化,并通过与边缘侧数据的高效迭代训练来满足客户需求。 过去十年,云天天书算法研究经历了长时间的迭代发展。从2017年之前研究以ResNet卷积神经网络的深度学习,到Transformer结构起来之后,我们第一批启动了Transformer结构适配整个算法芯片化的平台。去年公司上市后,我们加大了对大模型技术的研发投入,并持续跟进海内外的先进技术。我们成功地研发了从百亿级到千亿级的语言多模态大模型。 上个月,我们发布了云天天书3.5V的大模型。在图文理解、生成以及问答等方面,这些模型表现非常可观。在语言大模型方面,我们去年已经多次获得了权威榜单的第一名。 五、云天励飞是怎么取得可观成绩的?背后有4项关键技术 我们如何实现这些可观的成绩?尽管我们面临了诸多挑战,但我们总结归纳后认为有四个关键点值得分享: 第一,解决成本的问题。精度可以通过数据堆积解决,在真正落地的时候,推理的成本是绕不过去的,我们的核心要义是解决高效的推理引擎问题。 为此,我们自主研发了Space推理引擎,它与算子层高效融合,实现了无损的推理,并将推理速度提升了50%以上。具体来说,像生成式大模型,通常是进行单字符的向前预测,但我们想办法一次性预测多个字符,同时保持无损、精度不变。在这种情况下,我们通过对算法结构进行改进,实现了一次性预测多个词条,从而提升了推理效率。 第二,降低核心成本。我们致力于提高效率和减少GPU存储需求,通过研究分布式切块,包括自适应的稀疏缓存解码等技术,我们成功将GPU需求降低了50%。 第三,优化训练技术。优化训练是大模型落地的根基,所有的应用都在这个根基上长起来。我们研发了一套可伸缩的大模型训练技术,简单来说,训练一个大模型,这个大模型要考虑如果扩展它的参数或者说扩展它的规模、优化它的结构,能不能复用原有的大模型? 答案是肯定的,这种方法也节省了训练成本。从深度和广度的角度来看,通过复用已训练的参数,达到深度扩展和宽度扩展,使训练效率翻倍,同时降低了达50%的训练成本。 第四,神经网络处理器和推理芯片是我们近十年来的重点。如今已经历了四代迭代,从第一代NNP100到目前的NNP400T,我们已经完全灵活适配多种深度学习架构,特别是在Transformer架构下,我们进行了指令集优化、算子的协同设计以及高效的联合设计,支撑了Transformer结构的高效推理。此外,我们还是最早一批使用Chiplet结构适配大模型的公司之一。 利用这四项核心技术,我们构建了支持边缘大模型的算法芯片化系统。我们的底层技术支持了神经网络处理器和自主研发的推理芯片,促进了国产化进程,避免了对供应链的依赖,并在此基础上实现了多模态大模型的运行。从行业应用的角度来看,我们有基于行业到边缘的场景大模型。更重要的是,我们支持用户进行无感知的在线微调,同时保护用户的数据隐私,而且成本极低。 六、实现每秒30字高效推理,多模态大模型已落地G端 云天天书的多模态大模型在文本理解和生成方面表现卓越,每秒可实现30字的高效推理速度,并能处理超过45万字的上下文。通过指定要求,快速生成符合特定格式的通知、决议等文件,从而有效推动办公自动化。大家可以看到整个生成过程内容极其简洁,速度极其快。 此外,我们也支持带参考内容的文章修改和润色,可以复制一部分已有的参考内容,高效地进行润色、修改,变成大家所需要的东西。目前这一块的内容已成功地在多个地级市、省厅局委办落地。采用我们的多模态大模型进行办公赋能,对于项目报告的内容生成也是非常灵活。 最后,在文本内容的理解和生成方面,很重要的一点是生成的质量。我们自带校阅功能,生成完之后可以多次优化里面的内容,达到自迭代、自进化的效果。云天天书多模态大模型支撑视频数据的理解和生成,很多数据训练过程结束之后,有一些数据是需要优化、编辑的,尤其在消费端的场景,比如对图片编辑,对3D数据合成。 我们可以通过多模态大模型进行数据的合成,达到我们想要的3D数据。对于图片的数据理解,比如通过指令去渲染,通过指令去编辑整个图片,让大模型去理解,根据指令操作图片,甚至画出不同的风格。多模态大模型的Agent能力,以开源目标检测为例,这种技术为城市发展提供了支持,正如我们之前提到的,我们发布了一个AI模盒,旨在促进AI技术在城市领域的应用,其中就包括基于多模态大模型的支持。 我们非常荣幸,能够身处在这个AI蓬勃发展,引领各行各业不断变革的时代。如今,AI大模型技术在各行各业遍地开花,我们希望携手各行各业的专家及朋友,共同引领多模态技术的落地,并迈向AGI大方向。
AGI渐行渐近,该加速还是要踩刹车?
马斯克在今年早些时候预测,AGI可能会在2026年投入使用。DeepMind联合创始人、首席AGI科学家Shane Legg在一次访谈中认为,2028年,人类有50%的概率开发出第一个AGI。然而百度CEO李彦宏的观点则更加审慎,他认为AGI还需要10年以上的时间才能出现。 自1956年达特茅斯会议提出“人工智能”这一概念以来,实现人类水平的智能一直是AI领域的圣杯。去年上半年,有主流研究者提出,大语言模型已经表现出“通用人工智能的火花”(sparks of AGI)。 这似乎表明,AGI已经从哲学猜想变成了将来的未来。然而,关于AGI的观点众说纷纭,大语言模型也常有愚蠢行为出现,这些都引发了对AGI的质疑。 在此背景下,我们离实现真正的AGI还有多远?如何预防AGI带来的潜在风险? AGI,未到的黎明 从性能强度和通用性两个维度,可以将人类和AI的关系划分为6个阶段:无AI、智能涌现、胜任、专家、大师、超人类。而现在大语言模型的出现,正属于第一个AGI的阶段:AGI雏形。 AGI(Artificial General Intelligence),即通用人工智能,其目标是实现人类般的通用智能,这意味着AI可以像人类一样理解任意通用任务,并以人类的智力水平执行完成。基本上,除了“自我意识”的生成,AGI就是人类对人工智能的终极梦想了。 AGI是要让智能体像人一样,不仅能够独立感知环境、进行思考、作出决策、学习新技能、执行任务,还能够与人类或其他智能体进行有效的协作。同时,智能体能够理解人类的情感,并且遵循社会伦理和道德规范。 一个完整的AGI需要具备三个基本特征:第一,必须能完成无限的任务,而不是只能完成人定义的有限几个任务。第二,要在场景中自主发现任务,这是通常所说的要做到“眼里有活儿”。第三,要有自主的价值来驱动,而不是被动的被数据所驱动。 同时,AGI还需要解决一些关键的技术问题,比如构建智能体的认知架构,让智能体由价值驱动,在现实世界中进行有效的行动,能够与社会环境进行互动,使智能体决策过程透明可解释,以及建立和人类之间的信任关系等。 以OpenAI的ChatGPT、谷歌Bard、Meta的Llama为代表的大模型,已经在通用性上展示出了AGI的潜力。因为大语言模型已经能完成范围相当广的各类任务,而且表现出了像学习新技能这样的“元认知”能力。 相比大模型的“鹦鹉范式”,AGI是以“小数据,大任务”为架构的“乌鸦范式”,智能体表现为具有自主的智能,能够自主感知、认知、推理、学习和执行,不依赖于大数据,基于无标注数据进行无监督学习,并且智能系统低功耗。就像乌鸦喝水这一行为,看似简单,却属于自主推理行为,是由价值与因果驱动的高级智能,也是AI的未来发展趋势。 如果单从AI的性能维度上看,“窄AI(Narrow AI)”类型的AI已经达到了完全超越人类认知的水平。以AlphaFold、AlphaZero为代表的专业领域AI,在特定领域已经能发现人类智力无法发现的新事物了,此类被成为“超人类窄AI”。而在某些领域,AI能达到90%的人类水平,比如文书纠正AI Grammarly,DALL·E 2,Imagen等生图AI,这被称为“专家级窄AI”。在特定领域,能达到普通人的平均水平,比如Siri,谷助手这类普通智能助理,其被称为“普通窄AI”。 所谓“窄AI”,是指那些特别擅长处理单一任务或者特定范围内工作的系统。在大多数情况下,它们在特定领域中的表现远优于人类。不过一旦它们遇到的问题超过了适用空间,效果则急转直下。换言之,它们无法将自己掌握的知识从一个领域转移到另一个领域。 尽管窄AI无法全面执行需要人类智能的任务,但在特定场景中仍然非常实用,而且已经在诸多应用之内发挥着自己的作用。谷歌搜索查询现在可以利用窄AI算法回答问题,窄AI系统会在YouTube及Netflix中推荐用户可能感兴趣的视频,并在Spotify中按喜好整理出周推音乐列表。 而在窄AI已经覆盖的能力维度上,AGI都还没有出现对应的实例,因为目前还没有出现真正意义上的AGI,对于AGI的定义,人类也还没有达到统一的认知。 谁会是AGI的起点? 从信息时代走向智能时代,“语言”成为那把开启全新时代的钥匙。著名的作家兼哲学家路德维希·维特根斯坦在其《逻辑哲学论》一书中提到:“我的语言的界限,意味着我的世界的界限。” 对人类而言,承载世界的知识、思考、沟通和文化靠的是语言。语言本身的发明代表着每多一个词汇就让世界多了一个认知维度,词汇之间建立的逻辑关系和表达代表了人类对世界完整的建模。这个模型不是在图像里面,而是通过语言进行承载,所以语言边界就是世界边界。AI核心就是把现实世界的现象翻译成为数学模型,通过语言让机器充分理解现实世界和数据的关系。 如今,人们已经走出了原来物理学靠一个公式解释世界的方法,更多是靠海量数据在不同层次单独建模,上层建模就是由大量的数据驱动。语言模型如此,生命建模也是如此,2021年最伟大的成就就是DeepMind的AlphaFord系统,针对基因到蛋白质的三维结构建模,通过这个模型预测基因被转录或者表达为蛋白质以后拥有的形态,也是全世界轰动的生命领域的突破,靠的也是数据和AI的驱动。 虽然大模型已经取得了一些惊人的进展,但如果比较AGI的三个特征,就会发现大模型还不符合AGI的要求。 首先,大模型在处理任务方面的能力有限,它们只能处理文本领域的任务,无法与物理和社会环境进行互动。这意味着像ChatGPT这样的模型不能真正“理解”语言的含义,因为它们没有身体来体验物理空间。 其次,大模型也不是自主的,它们需要人类来具体定义好每一个任务,就像一只“鹦鹉”,只能模仿被训练过的话语。真正自主的智能应该类似于“乌鸦智能”,能够自主完成比现如今AI更加智能的任务,当下的AI系统还不具备这种潜能。 第三,虽然ChatGPT已经在不同的文本数据语料库上进行了大规模训练,包括隐含人类价值观的文本,但它并不具备理解人类价值或与人类价值保持一致的能力,即缺乏所谓的道德指南针。 但这并不妨碍科技巨头对于大模型的推崇。OpenAI、谷歌在内的科技巨头,都将大模型视为迈向AGI的关键一步。OpenAI CEO Sam Altman就曾多次表示,GPT模型是朝着AGI方向发展的重要突破。 不过,Meta人工智能首席科学家杨立昆(Yann LeCun)认为,目前的大模型路线无法通往AGI,且非常危险。 他指出,现有的大模型尽管在自然语言处理、对话交互、文本创作等领域表现出色,但其仍只是一种“统计建模”技术,通过学习数据中的统计规律来完成相关任务,本质上并非具备真正的“理解”和“推理”能力。 他认为,“世界模型”更接近真正的智能,而非只学习数据的统计特征。以人类的学习过程为例,孩童在成长过程中,更多是通过观察、交互和实践来认知这个世界,而非被单纯“注入”知识。而LeCun的“世界模型”路线,则是试图通过对视频、音频等媒体的模拟与补全,让AI也经历这样一个自主学习的过程。 他也承认,实现“世界模型”并非易事,这一雄心勃勃的目标可能需要耗时10年才能实现。 将风险控制在可控范围内 对于AGI所带来的风险,图灵是最早提出警告的人之一。他在1951年说道:“一旦机器开始思考,很快就能超越我们。因此,在某个时候,我们应该期望机器能够被掌控。”因为当一个比人类更强大的智能体出现时,人类很难维持权力,特别是当这些智能体具有不正确或不完整的目标时。 如果还有人认为现在考虑这些风险是危言耸听,那么如何回答这样一个问题:你如何在比人类更强大的智能体面前永远保持权力?此外,在AI领域,还有一些人试图回避这个问题,否认AGI的可实现性,却没有提供任何证据。 OpenAI CEO Sam Altman在其文章《Planning for AGI and Beyond》里,探讨了AGI对社会、技术和伦理的潜在影响,并强调了慎重规划和负责任的发展的必要性。 文章指出,通过增加资源丰富度、推动全球经济增长,以及助力新科学知识的发现,AGI有潜力极大地提升人类生活质量。这不仅是智力的巨大增幅,更是对人类创造力和想象力的极大扩展。 然而,AGI的出现也可能带来严重的滥用风险、意外极端事件的可能以及对社会结构的剧烈动荡。因此,OpenAI提倡在发展AGI时,AGI开发者以及全社会都必须找到正确的方法来实现和利用这一技术,确保其与人类核心价值观保持一致,并公平地分享其带来的好处。 此外,OpenAI认为,从长远来看,AGI的出现仅仅是智力发展的一个节点,而AI的进步可能会在未来相当长一段时间内继续保持。OpenAI提出了一个安全的AGI发展愿景,即在较短时间内以较慢的速度过渡到AGI,以便社会有时间适应和调整。 尽管未来不可预知,但OpenAI表达了他们最关心的几个原则:希望AGI能最大限度地促进人类在宇宙中的繁荣;希望AGI带来的好处、访问权和治理能够被广泛且公平地分享,并成功应对巨大风险。 为此,OpenAI倡导在短期内进行渐进式过渡、继续创造越来越符合目标的模型,并在长期进行全球范围的对话,讨论如何治理这些系统、如何公平分配它们产生的好处,以及如何公平分享访问权。在极高的风险和回报下,人类需要团结起来,让AGI在未来世界以一种对人类最有益的方式绽放。 对于如何预防AGI给人类带来威胁,可以逐步放开AGI的能力空间和价值空间,一开始把它关在“笼子”里,慢慢打开权限。 对于AGI,可以先其适用场合和行动空间限制在特定区域内,随着人们对机器的信任的增加,确认AGI安全可控后,再逐步给予更大的空间。另外,应该进一步促进算法决策过程的透明度。如果能够清晰了解AGI的认知架构,从而知道其是如何工作的,就能更好地控制它。 人类对于AGI的探索和思考才刚刚开始,我们还有很长的路要走。AGI的进步不仅代表了技术创新,更是对未来人机交互方式的重新想象。随着我们逐步走向AGI未知领域,稳健和有序的发展显得更加重要,我们必须高度警醒AGI所带来的问题,并充分重视AGI所创造的机会。两千多年前,苏格拉底说“认识你自己”,今天在AGI技术发展的倒逼下,人类需要“重新认识你自己”。
最难方言温州话被攻克!中国电信语音大模型支持30种方言,这题GPT-4o可不会做啊
更适配中文的语音大模型来了—— 来自中国电信人工智能研究院,AI领域Fellow大满贯科学家李学龙带队,发布首个能听懂30多种多方言混说的大模型。 号称最难方言、“魔鬼的语言”的温州话,也不在话下。 自动播放 还有超自然的语音生成能力。 在2024智算云生态大会上,星辰语音大模型被官宣发布并开源。 要知道,当前语音模型开源开放本来就少,而针对方言更是特定方言特定模型。 开源且支持30种方言,有且只有星辰这么一个。 作为首个完成大语言模型的研发且开源的央企,中国电信现在又在语音模态领域秀起了肌肉。 首个支持30种方言混说语音大模型 那就来说道此次发布的能支持最多方言的语音大模型,核心功能主要体现在识别上—— 它打破了单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等30多种方言。 实际上,它早已获得国际权威赛事的能力认证,以及多个实际场景中落地。 它在国际语音顶会INTERSPEECH2024离散语音单元建模挑战赛上,星辰语音识别大模型斩获了语音识别赛道冠军。 同时在NIST(美国国家标准与技术研究院)举办的低资源粤语电话Babel语音识别任务上,取得业内最优结果。 自动播放 并且已经在智能客服、12345热线等场景中落地。 据介绍,星辰语音大模型已在北京、福建、江西、广西等地万号智能客服系统试点应用。它能秒懂方言然后服务用户,日均处理约200万通电话。 智能客服翼声平台也接入了星辰大模型的语音理解和分析能力,实现31省全覆盖,每天处理125万通客服电话。 传统语音识别模型的处理方式,是针对一种方言单独训练一个模型。 这样一方面对运营维护提出了不小的挑战。这就意味着通用语音客服场景下, 需要维护多个方言模型。 另一方面,很难触达更小众的方言,他们数据量本身比较少,标注成本非常高,增强合成挑战大,很难单独训练出比较好的识别效果。 但中国电信不仅发布并开源,性能水平位于业内前列,而且还十分落地,那么星辰语音大模型又是如何炼成的。 我们知道,这背后不仅是大模型训练,还有前期数据准备,后期推理加速等等一整套系统工程,对于企业是技术工程以及资源等综合能力体现。 在官方披露中,我们看到这些信息。 首先在大模型训练上,采用了这两个关键技术:超大规模语音预训练和多方言联合建模。 超大规模语音预训练。 Scaling Law成为共识,那么在大规模参数以及多样性数据集情下,很可能就会出现模型预训练坍缩问题,即输出生成质量下降,变得重复、无意义以及缺乏多样性。 为了解决这一问题,他们提出了“蒸馏+膨胀”联合训练算法,最终实现80层模型稳定训练。据介绍,这一算法是业内首创。 多方言联合建模。 基于离散语音表征,语音识别大模型通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率降低数十倍。 另外,联合建模使得模型学习到了各个方言之间的共性,显著降低了对新方言标注数据的需求。实验显示,有标注数据需求量降低为1%。 这是星辰语音大模型能率先实现单一模型识别30种方言混说的关键。 这直接解决了部分方言语音难获得、标注成本高昂的难题。传统那种只针对单一方言的识别方言,可能需要十万小时的标注数据量才能实现比较好的效果。但这显然并不适合那些小众方言的识别场景。 而在数据准备上,中国电信AI研究院透露,他们已构建超30种、超30万小时的高质量方言数据库。 在算力基础设施上面,在官宣首个大模型开源时就曾披露过,中国电信作为国内最早进入云计算领域的运营商,积累了大量算力建设和算力调度的核心技术。 有数据算力资源、有技术能力和场景积累,再加上大佬把持,中国电信语音大模型由此得以炼成。 但是大模型多模态,视觉模型正热门的当下,中国电信为何选择方言这个看似“冷门”的赛道发力语音大模型呢? 为什么专为方言推出语音大模型? 在公开采访中,中国电信对这一问题做出了回应。 首先,技术价值驱动。 宏观上看,我国是当前世界上语言资源更丰富的国家之一,拥有五大语系130多种语言。但是当下很多方言正面临着濒危或消亡,有数据统计,有25种使用人口不足千人,有的语言只剩下十几个人甚至几个人会说,这对方言的保护、文化的传承提出更大挑战。 在具体到我们日常的沟通。有这样一组数据值得关注。当前全国仍有约20%的人口尚未普及普通话,沟通效率比较低。这当中甚至还更多聚集在老年人群体,他们还面临着无法触及信息化服务困境。 大模型的技术范式,面对这两大刚需场景,提供了天然的解决出口。 大模型本身就是数据驱动,它能够更高效、系统地对方言进行整理归纳,是方言保护和传承的天然容器,以及极强的泛化能力。一个通用语音模型能同时实现多个任务,比如多语言/多方言语音识别、跨语言语音翻译、语种/情绪识别等,能够轻松覆盖多语种沟通交流。 为了进一步让技术普惠的加速,电信选择了开源的方式。 中国电信人工智能研究院语音大模型负责人李杰进一步解释了这方面的原因。 我们已将语音大模型全面开源,希望联合开发者共建覆盖更多方言的大模型,打破沟通壁垒,让老少边穷地区人们、老人等每个人都能享受到AI时代便利,也呼吁更多专家、方言爱好者及大众用户一起加入守护方言计划,共同传承语言文化,推动AI普惠。 其次,业务需求导向。 作为头部运营商,中国电信最核心的业务场景就是智能客服。“每天都能接到几百万通电话,其中很大比例是方言或者有方言口音的普通话。”真正实践中他们发现,人们都还是更喜欢用方言来进行沟通。 因此语音大模型一面世,就率先落地到这一场景中去创造价值,逐步覆盖更多更广的地区之中。 除此之外,它还在对外输出能力以及更多场景赋能。 比如,大家所熟知的12345市场热线这个公共服务平台。据介绍,语音大模型已经赋能多地市的12345平台让每个客服人员听懂30种方言,更快地理解更多市民需求。 前段时间,语音大模型还应用到了防范校园霸凌中,在某小学防霸凌项目中,它采用亿级参数进行推理,可在嘈杂环境下精准识别关键词进行预报警。 还有它赋能的数字人,已经在多个展会亮相工作,曾在中国国际大数据产业博览会亮相,与康辉同台主持。 最后,战略部署。此举正是中国电信「通用智能」战略部署一环。 而他们一早也提出了自己大模型领域布局:1+1+1+M+N: 1个智算云底座、1个通用大模型底座、1个数据底座、M个内部大模型、N个行业大模型。 最早在2022年12月就已启动了语义大模型的研发,去年数字科技生态大会上,他们发布了千亿参数星辰语义大模型,并相继开源7B、12B、52B大模型。 如今,随着包括语音大模型在内的发布,中国电信其实已经形成语义、语音、视觉以及多模态一整个全模态完备的大模型布局。 而他们最终的目标也很明确: 成为领先的通用人工智能服务提供商。 中国电信在大模型的布局 随着端到端多模态大模型GPT-4o的亮相,通用多模态更成为一种共识趋势。而GPT-5也被爆料说将精通更多小语种和方言…… 这实际与中国电信本身技术战略不谋而合。 如果讨论国产大模型玩家,中国电信一定是最为特殊的那个—— 不是创业公司,也并非互联网大厂,却最早入局,而且进展频频剑指通用,在业内影响不小。 跟创业公司不同的是,电信有着天然的需求驱动和应用场景。有锤子也有钉子。 只是在纯自研星辰大模型亮相之前,大众对于电信的技术感知并非那么强烈。 实际上,他们背后搭建了一支700人的AI研发团队,70%以上来自头部互联网和AI明星企业。再加上,AI领域Fellow大满贯科学家李学龙加盟,出任电信CTO,并组建中国电信人工智能研究院(TeleAI)。 基于这样的人才储备,他们很快同大模型头部选手们站在同一阵营,并且落地速度贼快。 而同互联网企业相比,作为国产运营商的电信,其实优势则更为明显了。 一方面,运营商有丰富的网络和算力资源,相对来说训练、推理成本更低。尤其在大模型的建设方面,更容易发挥规模的优势。 目前,他们已打造基础模型+行业模型+应用模型的布局,除了自研本身,还采取生态合作的方式,联合头部生态构建了涵盖教育、政务、应急等20多个行业大模型,覆盖全行业500多个应用场景。 另一方面,有庞大的客户群体作为落地基底,以及丰富的2C、2H、2B的信息服务经验,能够更快地推动大模型在各个领域的落地,形成新的经济增长点。 这当中数据累积也构成了他们的核心壁垒。目前,他们已经完成了超500TB文本数据、12亿张图文数据、PB级视频数据的积累。 这些优势使运营商有动力在人工智能领域加大投入,驱动技术进步。 也正因这样的技术和经验底气,他们才能早早确立目标并且有着清晰的时间线规划。 就像最新语音大模型,他们就计划实现首个支持国内333个地市方言和主要少数民族语言(维藏等)的语音大模型。 关于语音大模型的进展,值得期待。 而对于AI的落地,中国电信值得关注。
上海交大团队研制“导盲六足机器人”:1秒之内可响应,已在实测
“你好小狗,我要走到学院大厅。”戴着眼罩的测试者手中握着导盲杖,杖的另一头连着一只六足机器小狗。测试者说完,小狗在原地抬起六足,蹬几下地,然后缓缓牵引身后人向前走。测试者若是“心急”推推导盲杆,那小狗便会接收到指令,默默加快步伐。 这是一款来自上海交通大学机械与动力工程学院高峰教授团队研发的“六条腿”导盲机器人。在刚刚过去的由中国残联主办的“科技助残 共享美好生活”展会上,这款机器人吸引了众多人的目光。5月28日,高峰在上海交大对这款机器人进行了一次集中介绍。 据高峰介绍,“导盲六足机器人”具有视觉环境感知功能,可自主导航至目的地、动态躲避障碍、识别红绿灯等。该款机器人如通过批量化生产、人工智能辅助可有效降低成本、提升智能,可解决导盲犬数量短缺的问题。不仅如此,通过后台建立完整的互联网服务体系,导盲机器人还可以实现居家陪护、应急处理,带领盲人抵达更多地方等功能。 高峰在上海交大对“导盲六足机器人”进行介绍。 本文图片为 澎湃新闻记者 邹佳雯 图 突破人机交互技术,让导盲机器人成为视障人士的“第二双眼睛” 为什么会研究导盲机器人? 高峰谈到,据世界卫生组织统计,我国视障人士已经突破1700万人,这意味着每100人中就有至少一位视障者。但是,和庞大的视障人士数量对比,全国现役导盲犬数量仅几百只。不仅如此,导盲犬的培育还需要极高的培训成本,以及极长的训练周期,并且许多场合能否允许工作中的导盲犬进入尚处于讨论当中,仅仅依靠导盲犬远远不能满足我国千万余名视障人士的需求。基于此,团队开始了导盲六足机器人的研发工作。 高峰介绍,和盲人建立有效沟通,让导盲机器人在理解使用者意图的同时维持机器人自身动作协调,是导盲机器人的首要任务。 团队在导盲机器人上集成了听觉、触觉和力觉三种交互方式,实现盲人与导盲六足机器人之间的人机智能感知与顺应性行为。机器人可根据盲人的语音指令,基于深度学习端到端语音识别模型理解语义信息,快速响应、准确识别,目前语音识别准确率为90%以上,响应速度在1秒之内。 高峰团队研制的“导盲六足机器人” 此外,机器人可通过语音下发指令,如启动、停止、设定目的地、加速、减速等,同时实时反馈行走和环境状况等信息,实现双向智能交互。盲杖可以实现盲人与导盲机器人之间的力觉交互,向盲人提供牵引力和转向力矩,引导盲人前进和转向。盲人也可以推拉盲杖来动态调整机器人的行走速度。目前机器人最大速度达3m/s,能够满足盲人慢走、快走、跑步等出行需求,且六足的独特构型优势确保机器人可以低噪声稳定行走。 人机交互与机器人自律协同控制是机器人融合感知信息、任务需求、人机交互的指令,利用逻辑推理、自律决策,可实现智能导盲作业行为。基于导盲机器人的动力学模型,高峰团队构建了层级递进式外力估计、触地检测、坡度估计、运动状态估计模型算法,融合机器人关节、惯性导航、行为节律、历史状态等多源信息,进行多目标集成的状态观测和反馈优化的平衡控制,由此,能够实现导盲机器人在各类地形场景中自律协同控制效果。 已进入实地测试阶段,将加快落地实用 导盲机器人在复杂地形行走需要更高的自主规划能力,这类自主规划功能通常包含地面信息的获取和建模、定位导航、落脚点的选择、身体位姿规划以及连续运动的规划等。 定位精准是导盲任务的核心要求之一,团队通过多传感器数据紧耦合方式,建立了雷达-惯性里程计系统,通过滑动窗口法耦合历史帧数据,大幅减少点云运动畸变,并设计了多维度的状态残差,显著提高了系统状态估计的精度和鲁棒性,实现了三维环境地图的精准建立与机器人自身的精准定位。 而基于全局环境地图和实时感知的局部动态地图,科研团队采用模型预测和实时滚动优化方法实现机器人的路径规划和自主避障,敏捷自主躲避静态和动态障碍物,保障导盲任务的安全性。 根据室内导航任务需求,团队制定了室内场景的多层导航策略,构建了层次拓扑地图实现室内全局路径规划;针对室外场景,基于环境地图结合GPS信息进行多传感器融合,大幅提高定位与导航精度。团队还利用深度相机,通过深度学习和数字图像处理技术实现对交通信号的辨别,保障使用者出行安全。 针对台阶、楼梯等典型地形环境,团队采用多约束优化算法规划机器人稳定行走步态;通过采集机器人腿部足端力觉信息,使用机器学习方法来实时辨识足-地接触模型,可实现机器人对不同地形的自适应动态敏捷柔顺行走。 高峰介绍,目前,团队研发制成的导盲机器人已进入实地测试阶段。在整个研究推进过程中,由视障人士参与线下展示与功能测试,未来团队也将根据视障人士的实时反馈,对机器人持续研发、调试。 此外,导盲机器人的实际应用,不单单是机器人本身的应用,还需要后台大数据的支持,需要强大的运维团队的支持以及一系列推广普及的测试。据了解,高峰团队还与索辰科技密切合作,面向导盲机器人需求,开展了商业化推广。上海交通大学负责基础理论研究和关键技术攻关,索辰科技负责产品工程化以及产业化运维和推广,双方共同努力,并借助社会力量,加快导盲六足机器人的落地使用,为改善我国视障人士生活贡献一份力量。
最猛AI独角兽:一年估值1700亿,再造一个OpenAI!马斯克LeCun却吵起来了
马斯克搞大模型又融到60亿美元(约435亿元)! 这是xAI最大的一轮融资,目前估值已来到240亿美元(约1738亿元),一举超过Anthropic,成为OpenAI之下第二位。 借着这个势头,老马也亲自下场发起招聘广告: 如果你相信我们理解宇宙的使命,需要最大限度地严格追求真理,而不考虑受欢迎程度或政治正确性,欢迎加入xAI。 没想到,出了一点小插曲,图灵奖三巨头之LeCun突然跑到评论区开怼: 在近20小时里,两人持续交手了很多轮,让人不禁感叹,“原来大佬吵架也像小学生一样朴实”。 总之,这边大佬们吵架的热闹,也将xAI这个在大模型公司中相对低调的存在推到了舞台中央。 才发现xAI这些日子悄然招揽了不少人才,取得了一些新成果,大有与OpenAI一较高下之势。 马斯克再造一个OpenAI 先看xAI这次融资具体情况: B轮,60亿美元,主要参与者包括a16z、红杉资本、Valor Equity Partners、Vy Capital、Fidelity Management & Research Company、Prince Alwaleed Bin Talal 和 Kingdom Holding。 目前xAI估值来到240亿美元,超过了Anthropic(150亿美元),Mistral AI(60亿美元),只排在OpenAI之下(860亿美元)。 另外值得注意的是,a16z和红杉也是OpenAI的投资方。 可以说不光马斯克试图再造一个OpenAI,投资者也在考虑扶持OpenAI的备胎选项。 xAI研发进度也是以月为单位快速追赶,去年7月成立至今不到一年,密集发布了Grok-0,Grok-1,长文本能力的Grok-1.5,多模态能力的Grok-1.5v,以及开源了Grok-1。 产品方面除了最基础的聊天机器人,还在试点把Grok模型部署在𝕏平台,由AI总结推文趋势。 最近消息称xAI正在与Character.ai讨论潜在的合作,据报道不是在谈收购,而是重点在合作研究。 所以用AI的视角来看马斯克的商业帝国版图: 要数据有数据,𝕏平台提供大量独特的对话数据,特斯拉自动驾驶和机器人拥有大量真实场景视频数据。 要算力有算力,4月马斯克曾透露xAI拥有的H100数量在2万6-3万之间,这次融资也是要建立10万卡的计算集群。 甚至要电力,也有特斯拉能源部门可以提供保障。 同时𝕏平台也是能迅速得到大量反馈的应用部署场景。 …… 拥有这一切的马斯克,最近还留下了“AGI明年到来”这样没头没尾的一句话。 所以马斯克这次借融资之势招聘,也是急于补齐xAI目前与OpenAI差距最大的一项——人才。 AI人才涌向马斯克 xAI创始成员13人阵容固然算得上豪华,但要与OpenAI竞争,数量这块还远远不够。 去年11月OpenAI董事会内讧之时,总计有778名全职员工(最终745人签署了联名信)。 最近一段时间虽然Ilya等研究人才离职出走的消息更引人注目,但背后也在引进新鲜血液的速度只能更快。 保守估计,现在OpenAI至少有800+人。 xAI的人数就非常透明了,只需要看官号的关注数量,算上马斯克目前一共38人。 有人统计了其中32人加入xAI之前的工作经历,可以看出来自谷歌DeepMind占主力,微软、Meta、OpenAI第二梯队。 xAI的招聘节奏非常有目的性。 比如推出多模态Grok-1.5v之前,就招揽了开源多模态大模型LLaVA系列一作、浙大校友Haotian Liu等一系列搞图像、多模态的人才。
发布 14 年后,iPad 要彻底横过来了
先问一个问题,你平时主要是怎么用 iPad 的呢?是横着用,还是竖着用? 不过,不管横着还是竖着用,iPad 背后的那个苹果 Logo 依然保持着纵向的设计,14 年都如此。 但苹果设计工作室的两位高管接受采访时表示,正在考虑将这个 Logo 换个方向,变成横向摆放。 其实这也不是苹果第一次动 iPad 上的 Logo,iPadOS 14.5 的开机画面,那个黑暗中发光的苹果 Logo,就已经从以前的永远保持竖直,变得会和平板摆放方向保持一致。 虽然 Logo 换个方向不是啥特别大的新闻(不过也上了热搜),但是如果真的发生了改动,也可以看作苹果正式将 iPad 定义为一种「主要横向使用」的产品。 如果我们回到 14 年前史蒂夫·乔布斯向世人展示 iPad 那个发布会,可以发现,对于 iPad 的演示,乔布斯基本上都是在机身垂直的情况下进行的。 比起现在,当时的 iPad 也更像一款「大号 iPhone」,一款介于 iPhone 和 Mac 之间的「第三设备」,形态上也向 iPhone 看齐:摄像头和接口上下纵向分布。 甚至当年和 iPad 配套推出的「键盘底座」配件,也因为需要用到 30 针接口,导致需要竖直和键盘配套使用,看上去简直不像乔布斯会点头的方案。 当使用 iPad 来浏览网页、看邮件时,竖直使用确实能够为用户带来更多行数和信息。但又因为搭载了一个比 iPhone 大不少的屏幕,更多用户更把它横置作为视频播放器或者游戏机使用。 苹果也一直以来都有提供一种官方保护套,能让 iPad 更容易横向立于桌面。 来到蒂姆·库克的时代,iPad 的定位也发生了变化,尝试进一步向生产力工具迈进。在 Magic Keyboard 键盘盖配件的加持下,iPad 的形态更加接近一台「笔记本电脑」,屏幕自然是更偏向横放。 特别是在 iPadOS 分屏、小窗、台前调度等功能推出后,由于这些功能的逻辑都是横向展开的,用户自然也会将 iPad 横向。 不过,虽然横向使用 iPad 的场景越来越普遍,但是在形态上还是和初代 iPad 保持着一致,依旧默认的是竖向使用,直到 iPad 10 打响了改变的第一枪。在 iPad 10 上,苹果将 iPad 前置摄像头从短边放到了长边,紧接着今年的全新 iPad Air 和 iPad Pro 都同步跟进,在正面上更加贴合横向使用,但 Logo 还是突兀地保持了竖置。 ▲ iPad 10 的前置摄像头在顶上长边,图源:Business Insider 可以说,iPad 由默认竖放到默认横放的改变,是苹果和用户两边同时投票决定的。 当今市场上的平板设备,大部分都已经是横向的形态。像是 iPad 的老对手微软 Surface 系列,从问世之初就坚持着横向为主的形态。而三星的 Galaxy Tab S 系列也已经从第七代开始专门为横向放置进行设计。华为的 MatePad 平板系列,现在的设计上也是以横向为基本逻辑。 纵向或者横向使用本身也无分孰优孰劣,即使苹果一直以来都在推出纵向设计的 iPad,但是用户平日将其横向使用也基本没有问题,所以日后就算苹果将 iPad 改为横向设备,也不会影响竖屏党。 这个 logo 的变化,更多是产品理念的变化,而不是操作的变革。 不过,不管是 iPad 还是 Android 阵营,横向使用都面对着 app 适配的问题,还有很多未适配平板,甚至还有仅支持竖屏模式的 app,都为横向使用平板带去困扰。 ▲ 著名社交应用 Instagram 未适配 iPad,体验一般,图源:MacRumors 给 logo 换个方向不是什么问题,但是如何持续优化 iPad 横屏体验,才是苹果更应该去重点研究的课题。
iOS 18 最新 AI 功能曝光!苹果或已和 OpenAI 达成合作,但 6 月可能没有惊喜
即将在下个月推出的 iOS 18 和 macOS 15 绝对是这几年讨论度最高的一代苹果操作系统——大家都在期待,这家科技巨头将如何扭转在 AI 上落后的局面。 而从科技记者 Mark Gurman 获取到的最新 iOS 18 和 macOS 新功能爆料来看,高情商地说,苹果的 AI 功能少一丝花哨,多了一分实用;低情商地说,苹果还是一个「追赶者」的姿态。 当然,除了 AI,苹果还打算为 iOS 的主屏幕带点新个性。 iOS 18 新功能:AI 赋能应用,主屏可自定义 比起只单独提供一个聊天机器人,苹果更有可能将 AI 作为一个「核心」,赋能现有的各种功能,Gurman 透露,一个代号为「Project Greymatter」的 AI 工具套件将集成到 Safari、照片、笔记等苹果核心应用之中。 这个 AI 工具套件还将有一个「判断系统」:如果一个 AI 功能所需要的算力不高,那么这个 AI 功能将会完全在设备本地运行;如果所需要的性能更强,那么相关操作和处理会被推向云端进行处理。 来看看具体功能。AI 加持下的语音备忘录,可以实现实时的「语音转文字」,并生成摘要。 ▲ Apple Insider 制作的语音备忘录实时转文字界面预测 而照片应用将能实现「AI 修图」,目前尚不清楚具体的实现效果如何,不过国内外友商在这上面已经玩出了花:一键「闭眼变睁眼」,自动优化表情,还能去除路人。 ▲ Pixel 8 上的 AI 修图功能,可以选择更好的表情替换 最近行业内都在推进的「AI + 搜索」组合拳,苹果也可能不会落下。Spotlight 搜索速度将会更快,结果更准确;而 Safari 浏览器的网页搜索也将得到改进。 除了这些对苹果自带应用的升级赋能,Gurman 指出苹果还会在系统层面带来新的「智能回顾」功能。 这个智能回顾将能够将用户错过的通知,以及用户关注的网页、新闻文章,需要用到的文档、笔记和其他形式媒体,创建一个摘要总结提供给用户。比起 iOS 15 那个其实只是将隐藏通知汇总,再定时进行推送的「通知摘要」功能,这个「智能摘要」明显更像真正的「摘要」。 ▲ iOS 15 的通知摘要功能 苹果也可能会推出一点「生成式」功能,不过范围和内容都会相对局限:集中在表情和短信邮件。 Gurman 透露,苹果将会推出一个「emoji 生成功能」,根据用户发送的短信,自动创建相关的 emoji 表情,而不是仅仅从苹果的库存中提供建议。 不过这个功能可能适用性范围有可能比较局限,没有更新到 iOS 18 的 iPhone 用户或者 Android 用户,说不定只会收到一个「□」或者图片。 除了自动生成 emoji,苹果或许还会为短信和电子邮件推出回复建议功能,根据上下文生成一些快捷回复。 但即使已经在内容生成上非常保守,这个自定义 emoji 的功能,还是很有可能会被滥用,生成不恰当的表情而陷入争议。 至于被用户戏称为「人工智障」的语音助手 Siri,将是一系列 AI 更新的重点。新的 Siri 有望搭载苹果自己的大语言模型,交互更加自然,或许能做到的事情也会比现在更多。 同时,Apple Watch 也将配备一个更先进的 Siri,能够随时处理一些移动的任务。 不过,目前各大手机厂商其实已经推出了各种号称「大语言模型加持」的手机语音助手,实际体验下来,惊艳的感觉没有多少,可能只比现在的 Siri 聪明一点。 因此,这个大模型加持的 Siri 究竟会不会迎来质变,恐怕还得谨慎看待。 还有一个用户感知不强的更新:Xcode 等开发工具也会得到 AI 的加持。 AI 之外,iOS 18 还有望在主屏幕上迎来大变。iOS 无法自定义应用图标位置这个限制一直以来都饱受粉丝诟病,而在 17 年后,iOS 终于能和 Android 一样可以随意放置应用图标了。 除此之外,iOS 18 或许还将支持统一设置图标颜色,比如将社交 app 都设置成绿色,将新闻 app 都设置成红色。 不过这也不是什么比较特别的功能,在 Android 12,甚至说更早的 Windows Phone 上,都已经推出应用图标统一换色的功能。 ▲ Android 12 实际上,以上的「新 AI 功能」,也都不是什么跨越式的功能,很多已经在友商产品上推出过,并且很可能玩得会比苹果更花。 比如说「智能摘要」功能,和微软上周宣布的「Recall」回忆功能就有几分相似,并且从描述来看,后者更为强大。 ▲ 微软预告的 Recall 功能,可以搜索用户进行过的操作 而且,像是 Spotlight 改进这种更新,苹果其实年年都在做,只是不会提到背后是 AI 在推动。就像 iOS 16 的快速抠图功能,和 iPhone 14 上的车祸检测,其实就是一些标准的 AI 驱动功能,但苹果不会去特别强调。 而上个月的「放飞吧」发布会,苹果带来了新版的 Logic Pro X 和 Final Cut Pro iPad 应用,并正式介绍了其中的 AI 内容。 这也说明,为了回应市场期待,苹果要把新功能背后的 AI 推到台面前讲讲了。 聊天机器人将寻求第三方合作 虽然像 ChatGPT、Gemini、Copilot 这样的生成式 AI 如日中天,但是苹果或许并不打算在 6 月推出自研的聊天机器人。 据悉苹果高层对 AI 的态度非常保守,这也是为什么此前苹果几乎不会介绍新功能背后的 AI,也对聊天机器人十分抵触,在这方面的布局也远落后于其他公司。 当然,现在 AI 的发展也已经超出了苹果的预计。据报道去年年底,几位苹果高管在试用了 ChatGPT 之后感触良多,并认为自家的 Siri 已经远远落后了(现在才觉得吗)。 为了回应市场和用户的期待,苹果也终于发力大语言模型等生成式 AI 技术,但自研技术水平上还与头部产品有着不小差距。 而 Mark Gurman 的最新消息指出,苹果最终和 OpenAI 达成了合作,相关消息将在 WWDC 上宣布,OpenAI 很可能会为苹果的聊天机器人提供底层技术支持。 这个合作好坏一体两面。好的方面在于,OpenAI 依然是无可置疑的行业领军者,并且通过和 OpenAI 联手,苹果能够提供比 Google 自己和联手 Google 的三星更有差异化的 AI 功能。进行第三方合作,苹果还可以将聊天机器人所带来的争议直接「甩锅」给 OpenAI,面对的舆论压力更小。 而这个合作也有着其他隐忧,首先是与第三方合作几乎等于承认自己在 AI 竞争中落后于人。 但更大的问题是,OpenAI 在最近几个月「声名狼藉」,虽然推出了让人印象深刻的 GPT-4o,但是首席科学家宣布离职,与演员斯嘉丽·约翰逊配音问题上的「罗生门」,以及在离职「封口令」上一众高管的不诚实,都让人质疑这家 AI 巨头是否有点「不靠谱」。 苹果可能也有着类似担忧,Gurman 获悉,苹果不打算把鸡蛋都放在一个篮子里,即使已经与 OpenAI 达成协议,他们仍在寻求与 Google 的合作,但大概率不会在 WWDC 之前有结果。 不过,不必因为苹果与第三方合作就开始唱衰,实际上,有不少科技巨头都选择了与 AI 公司联手,例如微软和 OpenAI,或者三星和 Google 之间都有合作。 术业有专攻,一些做产品为主的公司选择与 AI 大公司合作,本身不是坏事,而合作之后是完全依赖第三方技术,还是合作共研推出更有自家特色的产品,其实更值得我们去关注。 目前还没有国行 iPhone 是否会同步推出 AI 聊天机器人或者搭载哪一家底层技术的最新消息,此前有过百度和苹果达成了合作的传言,但百度方已经辟谣。 苹果谨慎的 AI 策略 对比起 Vision Pro 布局 10 年,最终交出来一个形态上更完整的产品,AI 布局落后,有点被「赶鸭子上架」的苹果,可能这次没法这么从容不迫和游刃有余了。 因此,Mark Gurman 也获悉,苹果很可能会以「测试版」的名号来推出新的 AI 功能,至少在 9 月发布正式版之前都会如此。 苹果很少为功能打上「测试版」的标签,这可能说明,这些 AI 功能离成熟还有一定的距离。 2011 年在 iPhone 4s 上推出的 Siri 也正是作为 Beta 版本直接推出,而过了 13 年,Siri 给人的感觉也还像是一个测试版。 但你很难不说,现在大部分非常「炫技」的 AI 功能,比如上文提到的搭载了「AI 大模型」的 Android 手机语音助手,都是听着很酷,用起来没有太多亮点,也不稳定。 即使是那几个 AI 领头羊的生成式 AI 功能,现在也饱受幻觉的困扰。Google 全新上线的 AI 搜索概述功能,日前因为建议用户吃石头补充维生素和给披萨涂胶水受到大量吐槽。 ▲ Reddit 论坛上一个 11 年前的玩笑回答,被 Google AI 搜索当真了 选择在新功能上打一个「Beta」的标签,至少你不能因为输出结果有点离谱而对苹果大加指责。对比起明明产品是 Beta 的水平,但却当作正式功能推出的友商,苹果反倒挺实诚。 不过,根据 iOS 以及新功能这几年让人汗颜的稳定性,或许这个 Beta 标签不会那么快摘下,或者发布会上宣布的新功能又是熟悉的「今年稍晚时间推出」。 苹果同样谨慎的还有用户隐私保护问题。作为天天把隐私保护作为宣传,并且在系统上也持续跟进各种功能的厂商,苹果对 AI 也采取了小心谨慎的隐私保护策略。 比起完全基于云端的 AI 服务,一直有消息指出,苹果更青睐本地设备运行的 AI 功能,这不仅体验更好,更能体现和宣传苹果一贯的隐私保护策略。 当然,走本地运行的路线就意味着对性能有更高的需求,Gurman 认为,可能这些 AI 功能都会主要在去年和今年发布的 iPhone、iPad 和 Mac 设备上可用。 即使是部份在云端运行的功能,Gurman 认为苹果也会宣称强调会维护用户隐私,并很可能强调其服务器中心芯片 M2 Ultra 的安全性能。 不过 Gurman 的观点也有一定代表性:真正重视隐私的人会觉得苹果做得不够,而大部分用户不会在意。 作为地球上最重要的科技公司之一,苹果的一举一动都会成为焦点。虽然从目前的爆料来看,苹果预热已久的 AI 功能或许有点惊喜不足,甚至缺乏创新。 但在对 AI 炒作反感和质疑声越来越大的今天,也有不少人希望,苹果如果能真的把这些 AI 功能做完善做稳定,那作为「追赶者」,也未尝不可。 最后必须要提醒一句,以上的功能剧透都是来自非官方的消息源,iOS 17 传得沸沸扬扬的「控制中心」大改的消息最终只是一个谣言,真实情况只有等到半个月后才会全面揭晓。 苹果 2024 年 WWDC 大会将在北京时间 6 月 11 日举行,届时爱范儿和 APPSO 将会进行持续关注。
小鹏从滴滴搬来了新救兵,名叫想往 03
小鹏消失在了销量榜单上。 进入到 2024 年,小鹏的销量始终差一口气突破 1 万大关,今年前四个月,小鹏汽车的销量(零售量)分别为:8250 辆,4545 辆,9026 辆,9393 量。而想要进入新能源月销量排行榜前十,门槛大概是月销 1.2 万辆。 在去年下半年小鹏 G6 成为爆款热销的时候,小鹏并不操心会不会掉出榜单,只期待下一个爆款出现,严格来说,小鹏 G6 和小鹏 X9 两款产品表现符合预期,是各自品类里的小爆款,但问题在于,小鹏爆款数量少,而且巅峰期短。 小鹏需要更多的爆款。 预热已久的 MONA ,就是小鹏重回榜单的底气。 MONA 发布在即,新车逐渐清晰 去年年中的时候,何小鹏在小鹏第二季度财报电话会议上表示,要造 15 万价位段的自动驾驶新车,也就是后面小鹏正式在上个月北京车展上预热的 MONA 子品牌新车。 这个子品牌代号 MONA,意思是 Made Of New AI。 15 万元档位,自动驾驶(智能驾驶),AI,关键词集合在一起,仿佛立了一个巨大的 flag,与未来趋势紧紧拥抱,与冰箱沙发彩电告别,突出一个技术优先,看大家为不为技术买单。 但其实 MONA 子品牌不是小鹏的嫡子,而像庶出。 去年 8 月,小鹏和滴滴达成战略合作,滴滴将智能电动汽车项目的相关资产和研发能力转让给小鹏,滴滴获得小鹏汽车 3.25% 的股份。 后来小鹏高管解释,小鹏和滴滴合作的主要连接点,是因为滴滴有完成度很高的 A 级电动轿车车型,到达了准量产的地步,小鹏无需投入太多,就可以投产上市。 这是一笔双赢的买卖,滴滴处理了不适合自己当前经营现状的重资产,小鹏获得了走量新车型。 在人人都有一个造车梦的 2018 年前后,滴滴也想涉足一下造车,联合了比亚迪和理想等车企准备大干一场,于是我们看到了专供滴滴的比亚迪 D1,以及一款由理想生产,专供滴滴商务出行,但最终并未投产的 MPV 车型,还有就是滴滴内部投入巨大的自动驾驶和电动汽车项目。 但时过境迁,滴滴最终发现自己搞不定造车这事儿,于是就选择了和小鹏合作,也就有了这个代号为 MONA 的子品牌。 随着一张无伪装路试照片曝光,关于这款 MONA 新车的信息逐渐清晰起来。 在北京车展和小鹏 AI Day 上,我们看到官方释出的几张渲染图。 这几张图让我们对这款 MONA 新车的轮廓有大致了解。 最引人瞩目的是前后的灯组造型设计非常类似,都仿佛横置的一个「T」字,此外我们还能看到车身侧方的摄像头,以及隐藏式门把手,还有米其林的电车专用轮胎。车身侧面线条比较精炼,尾部较短,符合 A 级车的定位。 此前盛传的是,MONA 新车将采用纯视觉的智能驾驶方案,目前业界采用这条技术路线的品牌有特斯拉,以及吉利和百度合作的极越,他们的车型均未搭载激光雷达,因而智驾落地成本也会更低一些。 这张新鲜放出的低清晰度路试图则证实了上面渲染图的设计,以及新增了 2 个重要信息。 首先就是车标不是小鹏的那个 X 型标志,虽然新车的车标非常模糊,但是我们可以从此前小鹏申请的商标找到对应的车标,也就是「想往」这个品牌的 logo。 恰好下方车牌上看不清的「XX 03」也对得上「想往 03」,基本上坐实了,代号为 MONA 的子品牌会被命名为「想往」。 另外一些伪装车照片也能提供一些信息,比如主驾仪表屏被浓缩到了方向盘后方转向柱上面一长条的空间里,中控屏采用小鹏系常见的横屏设计,尺寸不算小。扶手台区域疑似有至少一个手机无线充电位,后排空间看着不算大,有后排空调出风口。 以及,确实没有看到激光雷达,电池供应商据说有宁德时代,基础 CLTC 续航超过 500 公里。 因为是小鹏从滴滴手里接盘的这款车型,所以不可避免地,这辆「想往 03」有两家厂商的影子,首先设计是滴滴这边做的,这块小鹏应该是没有怎么修改。总的来说,这款车在 15 万元档位上颜值中规中矩,这个价位上没法要求太多。 小鹏接手「想往 03」之后,用包含 XNGP(全场景智能辅助驾驶)和扶摇架构进行了研发改造,所以准确来说,这款车是滴滴的形,小鹏的魂。 关于销售渠道,这款车很可能会在 B 端和 C 端并举,B 端自然是供滴滴等平台的网约车,C 端就是大众消费者。 目前不少新能源品牌的车型主要流向了网约车平台,比如有着网约车之王之称的「埃安」,其中 AION S 和 AION Y 基本都在跑网约车,而东风风行,东风风神,北汽新能源等品牌的销售基本上都是面向网约车的。 作为和滴滴合作结晶,「想往 03」有望在网约车市场开辟一块天地,另外就是进入小鹏门店进行面向消费者的销售,未来小鹏也有可能为这个子品牌单独开辟渠道。 MONA 是救兵,也可能是个甜蜜负担 车越便宜越好卖,大概是这个逻辑,但目前小鹏在 15 万价位上,已经有一款 P5 在售,并且今年月销量徘徊在几百上千辆,远远不及更贵的 P7、G6 和 X9,所以说,不是占据了价位段就能高枕无忧,毕竟在国产新能源市场,任何一个价位段,都有极为激烈的竞争,价格需要和产品力相匹配才行。 不出意外的话,「想往 03」的产品力应该是大于小鹏 P5 的,配上合适的价格,在 A 级车市场应该会有一番作为。 但前不久也有消息称,「想往 03」将不会以子品牌形式出现,而是归在小鹏品牌下,原因是小鹏认为内部资源不足以支撑两个品牌同时运营。 小鹏此前一直自嘲自己是「臭搞技术的」,在技术端,大家对小鹏没什么怀疑,其智驾、AI 和电子电气架构能力在行业内处于靠前位置。 外界反馈比较多的负面印象,主要集中在品牌和设计上,一是「小鹏」这个品牌名听起来不够高端,当然这个问题也不大,毕竟上至劳斯莱斯、兰博基尼,下到福特、本田和丰田,其实都是人名做品牌名。二是小鹏设计水平飘忽不定,比如 P7 刚出来的时候颜值可谓遥遥领先,G9 和 P5 就平平无奇,X9 属于很有个性,喜欢的很喜欢,不喜欢的就不会再看一眼,而 G6 完全属于当时产品力无敌,颜值拖了后腿。 如果 G6 设计好看些,说不定它就不是小爆款,而是大爆款了。 许多企业创始人,对品牌成长是有一口气在的。比如之前小米做车,很多人就劝雷军换个名字,毕竟小米品牌身上有个性价比标签,瞅着不太高端。但雷军偏偏要继续用小米这个品牌,同时还要在车身上把 XIAOMI 和 MI 的字样做得明显,并且小米 SU7 的价格还不便宜,这就是对于品牌的信念感。 同理,蔚来去年销量低迷的时候,大家也奉劝李斌,乐道新车就别用新品牌了,直接归类到蔚来下面,把品牌销量做起来,但李斌仍然让蔚来品牌坚守 30 万以上市场,乐道主打 30 万以下市场,互不接壤。 小鹏的境地也之前蔚来的处境也差不多,都是主品牌销量遇到了困境,这个时候出现了一个可能成为爆款的新车型,那么这个车型是开辟出一个新品牌,还是帮助主品牌稳住销量? 当然小鹏和蔚来的情况还是有点区别,首先是小鹏的品牌定位没有那么高,十万出头的 G3 虽然停产,在现在零星有库存车在卖,还有食之无味去之可惜的 P5,三四十万的 X9 目前是小鹏的售价天花板,而 G6 和 P7 则都已经进入 1 字头区间了。 以此而言,如果「想往 03」归到小鹏品牌旗下,其实不算折损小鹏品牌,毕竟 15 万左右的 P5 还在卖是不是? 所以这里就回到了前面所说的「品牌信念感」问题,是决心把「小鹏」这个品牌打造成类似于奔驰、保时捷这样以人名为品牌名的经典,步入高端,青史留名;还是着眼当下,充实小鹏品牌销量,减少资源分摊,成为丰田、福特这样的平民品牌,也是中策。 无论向左向右,「想往 03」也好,MONA 也好,都有所依据,毕竟,铸就一个世界级的汽车品牌,谁不是花了几十年呢?
苹果 iOS 18这个功能,可能将改变 iPad 的使用方式
iPad 眼动追踪 未来交互 毫无疑问,新款 iPad Pro 仍然是阅读、游戏、观看视频及绘画等领域的最佳平板。但随着 M4 芯片、妙控键盘及 Apple Pencil Pro 的加入,iPad 比任何适合都更接近一台笔记本电脑。 那么,是否 iPad 会在未来渐渐成为一款带有触控功能的 MacBook? 答案可能是否定的。 在最新的 iOS 18 中,苹果用这项「辅助功能」,为我们预言了一种关于 iPad 交互的新未来。 眼动追踪:从 Vision Pro 到 iPad 近期,苹果公司公布了其 iPadOS 18 操作系统中新加入的「眼球追踪」功能,这项看似不起眼的功能却被放在了介绍页面之首。 说起眼动追踪,可能很多人第一个想到的还是此前苹果发布的 Vision Pro,这款设备最突出的特征之一就是采用了眼动追踪的方式代替传统手柄。 用户可以通过眼球的移动,来控制应用程序,进行菜单导航,甚至是玩游戏,无需依赖触控或外部设备,大大提升了使用的便捷性,展示出了这种交互方式的魅力。 这主要得益于 Vision Pro 分布在内的数个红外摄像头及 M2、R1 双芯片的设计,使其能够利用图像处理技术提取与眼动相关的特征,并通过建立模型的方式实现眼动追踪。 Vision Pro 摄像头分布,图片来自苹果 而不久前发布的新款 iPad Pro 在形态上的一个重要改变,就是把摄像头从窄边挪到了长边上。 摄像头模组中的点阵投影仪、泛光感应元件、前置摄像头、红外摄像头搭配全新 M4 芯片,如今看来或许就是在为后续计划铺路。 此次的更新描述中也显示,苹果的眼球追踪功能完全由设备上的机器学习实现,这意味着它不需要任何额外的硬件,并且可以立即在所有运行 iPadOS 18 的设备上使用,印证了这一判断。 图片来自哔哩哔哩博主:微机分 WekiHome 目前业界公认的眼动追踪方法,有基于外观的眼动追踪方法与基于二维映射的眼动追踪方法两种。 前者主要以人脸图像或眼部图像为输入进行特征提取,然后通过机器学习将这些特征和视线方向关联起来。这种方法设备简单,只需要摄像头就能完成,但它需要大量的训练数据来建立准确的模型,从而正确地解读你的视线方向。 而另一种基于二位映射的眼动追踪方法,则主要通过分析眼球和角膜反射的相对位置变化来确定眼球运动。 由于眼球运动时角膜反射光斑位置不会变化,因此就可以作为瞳孔运动的参照点,根据两者相对位置的变化,计算实现方向。 校准时你需要注视屏幕上的特定点,系统会记录这些点和你的眼睛数据,建立一个映射模型。之后,当你看向其他地方时,系统就能通过这个模型准确地知道你在看哪里。 瞳孔-角膜反射向量法示意图,图片来自网络 如今看来,眼动追踪的原理并不十分复杂,以现有的硬件条件足以满足需求。但实际上,想要实现这一功能,苹果其实经历了很长的历程。 布局多年的最后一步 早在多年以前,苹果就开始蒲剧眼动追踪领域,网络相关人才及技术。 2013 年,苹果收购了来自以色列的 PrimeSense,该公司曾为微软提供 Xbox 的 Kinect 的动作控制技术提供支持。 PrimeSense 创始人合影 这家公司曾推出过一款非常小巧,可嵌入手机、平板等设备的 3D 摄像头——Capri。这是 PimeSense 在 2013 年 Google I/O 大会上展示的内容: Capri 被安装在谷歌 Nexus 平板电脑上 Capri 对真实场景进行 3D 建模,并获得场景内物体的长、宽、高等具体数据 通过 AR 技术模拟出椅子在真实空间中的碰撞信息 将 3D 图像传输到 3D 打印机完成 3D 打印 一同推出的还有在当时号称「全球最小」的 3D 感知芯片,由于不错的性能和小巧的体积,使其能够部署到手机、电视等诸多电子设备上。 2017 年,苹果又收购了一家来自德国的老牌眼球追踪技术公司 SensoMotoric Instruments,它曾一度是全球最大的眼动设备的生产商。 凭借「钞能力」带来的一系列关于眼动追踪的硬件及软件,苹果在同年首次将眼动追踪功能用于其 Face ID 中,来提升解锁的安全性。 此后数年间苹果不断有眼动追踪相关的专利申请流出,苹果也在不断探索,这不仅促成了 Vision Pro 基于眼动追踪的交互方式,也催生出了其他苹果设备上关于的眼动追踪的无限可能。 早期关于眼动追踪及「注意力检测」专利内容 眼动追踪的未来畅想 相比传统交互方式(鼠标、键盘、触控等),眼动追踪存在这样几个优势: 自然直观:眼动追踪利用人眼的自然运动进行交互,不需要额外的操作设备。用户只需注视目标即可完成相应的操作,降低了学习成本,交互更符合直觉。 提升效率:眼部肌肉是人体反应速度最快的肌肉之一,通过眼动追踪,用户可以更快地选择和控制界面元素,还可以减少手部动作,提高操作速度和效率。 与其他输入方式组合:眼动追踪可以与其他输入方式结合使用,如语音控制和手势操作,提供更丰富和灵活的交互方式。 多任务处理:用户可以在执行其他任务(例如驾驶或行走时)或同时处理多项任务时,仅仅使用眼动追踪控制而不需要多余的动作,提高操作效率。 数据分析与个性化:眼动追踪可以提供关于用户注意力和兴趣的宝贵数据。这些数据可以用于优化界面设计、广告投放和用户体验个性化,使系统更加智能和用户友好。 增强现实(AR):在 AR 环境中,眼动追踪可以提供更加沉浸式和自然的交互体验。用户可以通过注视来选择和操作虚拟对象,提升使用体验。 也正是得益于这些优势,使其在很多具体场景中展现出了巨大潜力。 例如在很多游戏中,除了带来更加便捷的操作以外,眼动追踪也会给玩家带来更好的沉浸感,让玩家只需通过实现就能控制游戏内角色进行互动。 使用眼动追踪控制游戏,图片来自网络 此外,实现眼动追踪功能后,开发者还能根据眼动数据调整场景光照、视角变化等诸多参数,适配用户个人视觉习惯,使游戏画面更加逼真。 游戏中的社交,也可以通过虚拟人物实现随玩家面部实时变化的各种动作状态,例如实现方向、眨眼、眯眼等,丰富人物的情绪表达,从各个方面提升游戏的沉浸性。 除了游戏以外,这项技术给日常生活带来的变化或许才是更值得期待的。 Vision Pro 在发布后,一个重要应用场景就是教育、医疗等场景,毫无疑问这在实现眼动追踪的 iPad 上同样适用。 诸如飞行员模拟训练、手术模拟等职业训练领域,通过跟踪学员的眼球运动来评估决策速度和准确性。 眼动追踪可为教师提供关于学生学习过程中的注意力集中点和理解程度的实时反馈,有助于个性化教学策略的指定和改进课程内容。 安装在飞行驾驶模拟教学设备上的眼动追踪设备 还有一些场景非常适合眼动追踪这种交互方式,例如家居环境就是其中之一。通过眼动追踪,使 iPad 成为智能家居中控台,实现对家居的控制;或者在手上有其他事情、手上有油污等情况下提供另一种操控途径等。 虽然眼动追踪应用潜力非常巨大,但也有部分业内人士对该技术的安全性提出了质疑。 数据表明,一个人的眼部数据会暗含用户的年龄、性别、种族、情绪状态、性格特征等等多种信息。 加州大学洛杉矶分校技术、法律和政策研究所的创始人和教职联席主任 John Villasenor 表示: 一旦眼动追踪技术成熟,它将收集更多的信息:我们在网上阅读的内容,甚至我们的阅读过程。比如,我们是否看到了网页广告,想了一会,最后没去点击?我们在阅读整个网页的时候,眼球是怎么移动的?我们更喜欢或者避开哪些字,词语,或者主题?在未来,展示到我们眼前的广告,是否将不仅仅只是取决于我们买过什么东西,还将取决于我们眼球的运动状态? 加州大学洛杉矶分校电气工程教授 John Villasenor 显然,如果能够了解用户目光注意力的持续时间、焦点偏好,再结合瞳孔大小、眼跳等多种维度的数据,想要更准确地「猜你喜欢」无疑会更加准确,隐私保护的难度也将直线升级。 对此,苹果的解答是将所有的捕捉和解读都放在设备上进行,不需要借助其他外部硬件,例如专门用于捕捉眼动数据的眼镜等设备,苹果也看不到摄像头捕捉到的任何内容。 不过这在当下用户隐私安全愈发看重、泄露信息总会不时发生的大背景下,或许仍然很难解决用户的忧虑,也很可能会成为眼动追踪功能难以推行的一个重要因素。 专门用于捕捉眼动数据的 Tobii Pro Glasses 2,图片来自Tobii 此外,还有一个更大的问题在于如何确保眼动追踪在不同环境下稳定、准确地运行,并能适应诸如佩戴眼镜、具有特殊眼部特征的人群等。 而且由于人的视线往往移动速度很快,运动也常常是不规则的、或具有跳跃性的,这也是一个必须解决的难题。 针对这一问题,苹果或许将会用上 AI 来解决。 一位曾负责开发 Vision Pro 苹果前员工 Sterling Crispin 透露,苹果使用了大量神经科学来开发其一些关键功能,例如通过 AI 来预测用户的操作行为: AI 模型会试图预测您是否感到好奇、走神、害怕、集中注意力、回忆过去的经历或其他认知状态。这些可以通过眼动追踪……测量来推断。 他还表示,这主要由于: 你的瞳孔在你点击之前会做出反应,部分原因是你预计点击后会发生某事。因此,可以通过检测用户的眼部行为,并实时互动的 UI 来创建与用户大脑的生物反馈,以创建更多这种预期的瞳孔反应。 他还兴奋地表示,这种加入 AI 算法及实时反馈的眼动追踪反馈,正在使其成为了一种「粗糙的脑机接口」,非常酷。 对 iPad 功能的扩展和地位的重塑 当然,对于眼动追踪成为「脑机接口」的描述或许略有夸张,但无法掩盖的是其对交互方式的扩展潜力。 iPad 在诞生之初曾被寄予厚望,但至今仍然被不少人视为「买后爱奇艺」的存在,其根本原因就在于交互的贫乏。 在这方面,苹果其实已经进行了很多努力,例如 Apple Pencil、妙控键盘的加入,某种程度上都可以看做是苹果在丰富平板交互方式方面进行的尝试。 不过这些努力似乎并没有从根本上改变 iPad 的尴尬处境,毕竟如果想要使用键盘,何不直接选择 MacBook?而 Apple Pencil 虽然挖掘出 iPad 形态在专业领域的潜力,但又受限于专业领域狭窄而无法成为拯救 iPad 的关键。 此外,从「辅助功能」中找到新的交互,也一直是苹果挖掘产品潜力、提供新的突破的一个重要方法。 例如 Apple Watch Series 9 双击功能可以感应手指动作,做到无需触摸即可控制手表,在推出后受到不少用户好评,但它也曾长期隐匿在「辅助触控」的角落。 与眼动追踪很相似的交互,其实也藏在苹果的「辅助功能」的列表,例如目前很多 Mac 电脑的「辅助功能」中,就已经出现了「头控指针」,用户能够通过头部的移动来控制指针的移动。 随着 iOS 18 的更新,眼动追踪也同样很有可能也将从「辅助触控」的角落走向舞台的中央,在一段时间后成为你每天都在使用的一项重要功能,打开 iPad 新的交互时代。 或许,不仅仅使用手指控制,才是 iPad 的未来。
联想正在开发Legion Go“Lite”掌机:屏幕缩小、取消拆卸手柄设计
快科技5月28日消息,据爆料,联想正在开发Legion Go“Lite”掌机,属于原有产品的简化版。 去年,联想推出了备受瞩目的Legion Go掌机,它不仅将游戏体验提升到了新的高度,还标志着联想在游戏设备、显示器、配件、软件和服务生态系统方面的全面布局与扩展。而如今,随着Legion Go“Lite”的推出,联想再次展示了其在满足多样化市场需求方面的敏锐洞察力。 据了解,新款Legion Go“Lite”掌机在硬件配置上可能会有所调整。相较于前代产品搭载的AMD Ryzen Z1 Extreme高性能APU,新款掌机可能会选择性能稍弱的APU,以平衡成本与性能。 同时,其屏幕尺寸也将有所缩小,并且不再采用可拆卸的手柄设计,这样的设计改动不仅简化了掌机的结构,还进一步降低了设备的成本。 尽管在硬件配置上有所简化,但Legion Go“Lite”掌机仍然具备相当的竞争力。它继承了Legion Go掌机的优秀设计基因,比如高刷新率的IPS屏幕。 参考前代产品,Legion Go掌机采用了8.8英寸的IPS屏幕,刷新率高达144Hz,分辨率为QHD+(2560 x 1600),为玩家带来了极致的视觉效果。尽管新款掌机的屏幕尺寸和具体规格尚未公布,但相信它同样能够为玩家带来流畅、清晰的游戏体验。 联想对于PC游戏掌机市场的投资与布局并未止步。此前已有报道指出,联想将继续加大在该领域的投入,并确认正在开发下一代Legion Go掌机,旨在为消费者提供更多创新的功能和体验。
OPPO Find X8 系列曝光,小直屏+潜望长焦,首发天玑 9400
今年年初,作为 OPPO 的开年旗舰,Find X7 Ultra 凭借 1 英寸主摄 + 双潜望镜哈苏镜头,一度问鼎「手机影像天花板」。 随着时间的推进,关于其继任者 Find X8 系列的消息也慢慢多了起来,这一代 Find 又会带来什么提升呢? 前不久,博主 @数码闲聊站 在微博透露,有厂商将推出搭载天玑 9400 的 1.5K 小尺寸直屏旗舰,并且会配备潜望镜长焦镜头。网友普遍认为,这台机型对应着 OPPO Find X8 系列。 最近 @数码闲聊站 又再度爆料,称 OPPO Find X8 Ultra 将在明年登场,并说「OPPO 今年最强影像旗舰就是 X7 Ultra」。同时还在评论区透露 Find X8 / Pro 手机将拥有玻璃机身。 据此前 @数码闲聊站 的爆料,OPPO Find X8 系列共规划三款机型,分别是标准版、Pro 版和 Ultra 版。 其中,OPPO Find X8 标准版和 Pro 版最快会在 10 月份发布,而主打顶级影像的超大杯 Ultra 版会稍晚一些,可能要到明年一季度登场。 @数码闲聊站 还表示,OPPO Find X8 系列将采用「新形态设计、新影像方案、新电池快充」,会补齐前代机型的短板。 数码博主 @智慧皮卡丘 透露,OPPO Find X8 系列及新款折叠屏手机、真我 GT6 Pro 和一加 13 都将配备 6000mAh 以上的大容量电池。 如果爆料属实,那么 OPPO Find X8 系列新机将比 Find X7 的 5000mAh 续航更为持久,但这也意味着新机的重量可能会有所增加。 至于性能方面,有消息称 OPPO Find X8 可能会首发天玑 9400 平台。天玑 9400 暂定于 10 月份发布,相关时间点也能够与 OPPO Find X8 对应。 据爆料,天玑 9400 平台将搭配 Cortex-X5、Cortex-X4 和 Cortex-A7xx 的架构,依旧采用全大核设计。 而且天玑 9400 还会采用 v9 新一代 IP 打造的 Blackhawk 黑鹰架构,让 Cortex-X5 超大核的性能大增,可以带来非常不错的能效表现。 据此前消息,在联发科内部的验证下,天玑 9400 的 IPC 已获得积极认可,其中黑鹰超大核 Cortex-X5 在 IPC 性能上已超越 A17 Pro,刷新了行业纪录。 芯片架构的 IPC 值越高,意味着就能在同等频率下拥有更出色的性能表现。这大致能类比为手机相机中的大底传感器,一般来说底越大图片质量越好,而 IPC 就可以说是「芯片的底」,当然也是如此。 报道指出,预计天玑 9400 整合了更大的缓存和其他元件,还将拥有智能手机中最大的芯片尺寸,达到了 150mm²。其中共封装了 300 亿个晶体管,相比天玑 9300 的 227 亿个晶体管提高了约 32%。在 OPPO 的调校配合下,这次天玑 9400 平台的性能应该会有较大突破。 OPPO Find 产品系列负责人周意保对 Find X8 系列也很自信,在前两天的一次活动上,他这样说到:「我们的 Find X8 和大折叠,不仅轻薄,电池又长。又可靠又耐用,而且性能又强,拍照又强,简直就是哪哪都强。」 周意保还称:「创新科技的同时,还要做到无负担的体验。 不能给用户带来过多的麻烦。」 虽然 OPPO Find X8 Ultra 大概率无缘今年亮相,但金秋到来的 Find X8 标准版和 Pro 版,也依然值得关注。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。