EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
中国一汽集团将加入蔚来换电联盟
近日,汽车界迎来了一则激动人心的消息,中国一汽集团正式加入蔚来换电联盟,成为继广汽集团、长安汽车、吉利控股、奇瑞汽车、江汽集团、路特斯等六家主机厂后的又一重量级合作伙伴。这一举动无疑为蔚来汽车的换电模式注入了强大的信心和动力,同时也预示着换电模式将在未来汽车市场中扮演更加重要的角色。 对于蔚来汽车而言,一汽集团的加入不仅是一次品牌的强强联合,更是一次对换电模式的坚定背书。蔚来创始人李斌曾表示,公司换电联盟已经囊括了7家车企,而未来这一数字还将继续增长。小鹏汽车董事长何小鹏更是直言,当蔚来换电站达到一定规模时,小鹏也将认真考虑加入换电行列,这充分说明了换电模式在业界的认可度和吸引力。 乐观预计,加入换电联盟的车企们将携手共进,共同推动建立统一的电池标准体系。这一举措将极大地提高电动汽车的兼容性和便利性,使得不同品牌的电动汽车可以在同一个换电站完成换电操作。而最现实的益处是,车企建设换电站的成本也将进一步下降。 蔚来创始人李斌将换电网络比作“亚马逊云服务”,这是一个非常贴切的比喻。换电网络作为能源互联网的云服务基础设施,其建设和发展需要巨大的投资和时间。这可以看作是量变到质变的过程,等到换电站的数量达到一定程度、加入的合作伙伴越来越多,就会形成正向的商业闭环,开始实现盈利。 李斌也表示,换电站最主要的成本是早些年给蔚来车主赠送的免费换电权益,而抛开这些沉没成本,现在换电站已经有了单站盈利的苗头。 同时,换电联盟的成立还将推动换电运营网络、运营商之间的互联互通。通过建立统一的换电运营管理体系,实现换电资源的共享和优化配置,将进一步降低换电服务的运营成本,提高运营效率。这将有助于推动换电服务的普及和应用,为消费者提供更加便捷、高效的补能体验。 对于消费者而言,换电模式的普及将带来更加便捷、高效的补能体验。无论是在城市还是乡村,只要找到附近的换电站,就可以轻松完成换电操作,无需担心充电时间过长或充电设施不足的问题。这将极大地提高电动汽车的使用便利性,推动新能源汽车的普及和应用。
乐道品牌首车“仍有不错毛利” 李斌:蔚来不干卖一辆赔一辆的事
“多品牌战略从蔚来创立伊始就已规划好,不是一时兴起,现在落地是水到渠成。”5月16日,蔚来创始人、董事长李斌在接受《每日经济新闻》记者采访时表示,“乐道品牌发布没多久就会给‘家里’贡献收入,要开始挣钱养家。” 图片来源:每经记者 李星 摄 5月15日晚间,蔚来旗下第二品牌——“ONVO乐道”正式发布。同时,乐道汽车旗下首款车型乐道L60同步亮相并开启预售。 据悉,乐道L60全面对标特斯拉Model Y,主打25万级家用智能纯电SUV市场。新车预售价为21.99万元,较Model Y便宜3万元。“乐道L60将于今年9月正式上市和开启交付。”蔚来公司高级副总裁、乐道汽车总裁艾铁成称。 “乐道L60公布的21.99万元预售价,仍有不错的毛利,蔚来不会干卖一辆赔一辆的事情。乐道在专注中国市场的同时,还将积极进入全球市场。”李斌透露,乐道汽车旗下车型在研发之初就是按照全球车去设计的。 乐道不会独立上市 “从成立的第一天起,蔚来就有清晰的规划,从高端市场开始,积累技术、供应链、制造、质量、充换电网络、销售、售后服务等各方面的能力,在合适的时候推出面向大众市场的品牌。”李斌表示,乐道汽车现在进入大众化市场正当时。 按照规划,蔚来将持续保持每个季度30亿元左右的研发投入。官方数据显示,截至目前,蔚来研发投入已超过430亿元,其中2023年投入134.3亿元,较2022年增长23.9%,连续两年突破百亿元。 李斌表示,过去几年的研发费用中,蔚来已经将乐道汽车的研发费用包含在内。不仅如此,公司未来规划的研发、市场、营销、销售、管理等费用也都将包括乐道汽车。“乐道汽车的推出,不仅有利于分摊研发、制造等固定费用,还能降低供应链方面的成本,能够帮助公司增加盈利性。”李斌透露称,乐道汽车不会独立上市,蔚来也没有想过“分家”,内部协同发展效应会高很多。 区别于现有的蔚来品牌,乐道汽车在战略定位上会有所不同。“公司对品牌的区隔足够清晰、足够深刻,乐道汽车聚焦于主流家庭用车市场,追求更多销量,而蔚来品牌以追求毛利率为先。”李斌称,与蔚来品牌一样,乐道坚持纯电路线,不会做增程和插混模式。 图片来源:每经记者 李星 摄 值得一提的是,乐道L60开启预订后,并未如其他企业般对外同步公布新车预订量。“数字肯定超我们的预期,但蔚来从不发预售战报,也不会发布乐道汽车的年度销量目标。”李斌表示。 为区别于蔚来品牌,蔚来也为乐道汽车打造了独立营销渠道。据艾铁成介绍,乐道汽车销售门店主要包括商圈店和汽车城店。“乐道的汽车城门店会与很多合作伙伴合作,但管理模式仍会坚持直营模式。”艾铁成称。 去年年底,李斌曾对外透露称,2024年,乐道汽车将建设不低于200家的线下网络。“乐道L60上市第一个月,乐道汽车将在全国范围内铺设超过100家的线下门店。”李斌称。 据悉,乐道汽车线下门店主要是销售门店和服务门店。“由于品牌定位低于蔚来品牌,乐道汽车不会建设NIO House,更多以效率为导向,希望保持原地起跳的能力。”李斌解释称。 第三品牌将在一年内发布 除乐道汽车外,蔚来旗下第三品牌(内部代号“萤火虫”)也将在一年内发布。“第三品牌原计划是在今年第二、三季度发布,产品已经准备好了,但考虑到整个品牌序列问题,就把发布时间推迟到了明年第二季度。”蔚来联合创始人秦力洪在接受记者采访时表示,第三品牌将在欧洲和中国同步上市。 图片来源:每经记者 李星 摄 据悉,蔚来三个品牌分别聚焦高端市场、大众主流市场,以及入门级市场,价格定位分别为三十万元以上、二十万元以上、十几万元。“第三品牌虽是入门级,但并不代表它是廉价车,我们不会做只有几个点毛利率的车。”李斌强调称,第三品牌对于蔚来的意义,可以理解为MINI之于宝马,smart之于奔驰。 在外界看来,从发展策略来看,蔚来与特斯拉一样选择了从高端到大众化市场的发展路线。不过,两者不同的是,特斯拉选择将高端车型与大众化车型放在同一品牌下,而蔚来却选择了多品牌发展。 对于特斯拉的单品牌发展做法,李斌并不认同。“特斯拉在很多方面做得非常好,但一个品牌涵盖的市场价格区间还是有限的。”李斌认为,“我们买了一个多少钱品牌的产品,大家都有一个基本心理认知。” 事实上,随着新能源汽车的快速崛起,以长安汽车、吉利汽车、比亚迪、小鹏汽车等为代表的自主品牌车企已开启多品牌战略。如,长安汽车推出了阿维塔、深蓝汽车;吉利汽车推出了几何、领克、极氪等多个品牌;比亚迪推出了仰望汽车、方程豹汽车。 李斌表示,多品牌协同,有助于满足市场不同用户群体的需求,实现规模化效应,摊薄研发成本,发挥积累的技术红利,拓展企业盈利能力,提升企业整体发展势能,增强用户对品牌的信任度,助力企业进入高质量发展快车道。
因批量爆漆遭车主集体投诉 奇瑞星途致歉:制定方案、终身质保
快科技5月17日消息,近日,不少2023款星途瑶光车主在车质网发起了集体投诉,原因为“批量存在车门边缘爆漆的情况。” 今日下午,星途汽车官方就近期车主提到的瑶光油漆问题发布致歉信,星途汽车表示收到用户反馈后,立即成立专项工作组,对问题现象进行调查、分析并制定解决方案,确保从即日起生产的产品不会再出现类似的现象。 星途汽车郑重承诺,将对此现象提供终身质保服务,并给所有2024年5月15日之前生产的瑶光用户另外赠送价值350元人民币的免费基础保养一次。 以下为致歉信原文: 近期,我们注意到有部分用户反映瑶光车型存在车门内板漆面褶皱的情况,我们理解这不仅影响了您的车辆美观,也给您带来了心理上的不适,对此,请允许我们表达深深的歉意,并承诺将全力以赴解决这一问题。 收到用户反馈后,我们立即成立专项工作组,对问题现象进行调查、分析并制定解决方案。 现已查明,产生此现象的重要原因是:为了提升车身的防腐性能,瑶光车门内板采用了锌镁铝材料,对比普通的镀锌材料,车身的防腐性能有着明显的提升。 但由于此种新材料对油漆喷涂工艺要求较高,在执行工艺过程中,可能存在不到位的现象,导致部分车门内板包边位置油漆出现局部褶皱,经公司专家分析此现象不影响车辆的任何功能。 我们的专家团队已在5月15日前改进了相关零部件的涂装工艺,确保从即日起生产的产品不会再出现类似的现象。 如果用户发现自己的车辆有此现象,且对此内部的外观不能接受,可以去星途授权的经销商免费检查处理。 星途汽车郑重承诺,将对此现象提供终身质保服务,并给所有2024年5月15日之前生产的瑶光用户另外赠送价值350元人民币的免费基础保养一次。
总重超3万吨,中国首个海上智能钻采平台完成海上安装
IT之家 5 月 17 日消息,IT之家从 @海油螺号 官微获悉,今日(5 月 17 日)8 时,随着重达 1.7 万吨的惠州 26-6 钻采平台上部组块精准与导管架完成对接,我国首个海上智能钻采平台完成海上安装。平台将通过智能生产、智能钻井、设备健康管理、智能安防、台风生产模式等一系列强大功能,将深藏海底的油气源源不断输送到陆地千家万户。 惠州 26-6 钻采平台总重量超 3 万吨。此次完成浮托的上部组块,重约 1.7 万吨,长 93 米、宽 42 米、高 42 米,甲板投影面积相当于 8 个标准篮球场大小。 另据南方 + 报道,作为中国海油自主设计建设的首个智能钻采平台,惠州 26-6 平台通过集约化设计集成了“超脑”、边缘智算站、数据安全管控装置等五大智能模块,配有工艺仿真优化系统、能耗监测管理系统、智能巡检系统等 10 套子系统。智能化设备数量为传统平台的 3 倍,占用空间却减少 1/3,具备智能生产、智能钻井、设备健康管理、智能安防等一系列强大功能,能提高生产效率达 20%,每年可降低运维成本 10%。 未来,惠州 26-6 油田开发项目在建成后将增强华南地区清洁能源供应能力,助力粤港澳大湾区经济社会建设。同时,新建平台可为周边新发现油气田开发提供依托,实现区域连片开发,以及资源价值和经济效益的最大化。
浙江大学邹俊&唐威:仿生自适应柔性抓手赋能无人机操作
Science Advances 当期封面 抓取操作极大地扩展了无人机(Unmanned Aerial Vehicle, UAV)的能力,但是现有的用于无人机抓取操作的抓手存在着适应性差、控制复杂、重量大等问题,严重限制了无人机的操作能力。近期,浙江大学机械工程学院邹俊课题组在该方向取得重要进展,课题组在前期研究的基础上——流体动力柔性驱动(Tang,...,Zou*. Nature Communications, 2021;Tang,...,Zou*. Science Advances, 2021;Tang,...,Zou*. Nature Communications, 2023),液气相变驱动(Zhong#, Tang#,...,Zou*. Nano Energy, 2022;Zhong, Tang*,...,Zou*. National Science Review, 2023),无人机飞行控制(Qin#, Tang#,...,Zou*. Advanced Intelligent Systems, 2023)——开展学科交叉研究,研制出一类仿藤蔓形式的、自适应的、一体化自包含的柔性抓手,用于无人机操作,为无人机在低定位精度、无复杂抓取规划环境下的操作提供了新的思路。 国际知名学术期刊Science Advances采用封面论文的形式,报道了来自流体动力基础件与机电系统全国重点实验室这一最新研究成果“Powerful UAV manipulation via bioinspired self-adaptive soft self-contained gripper”。论文全部作者均来自杨华勇院士团队,博士生郭欣雨为论文第一作者,唐威博士和邹俊教授为论文通讯作者。 研究背景 空中抓取极大扩展了无人机的操作能力,但是目前用于无人机刚性抓手极度依赖于精确的模型、传感器反馈以及无人机的高精度控制,这无疑增大了无人机的操作难度。随着软体机器人的兴起,软体抓手被用于无人机的抓取,由于软材料的顺应性,抓手的控制难度有所降低。但是大部分软体抓手的外形仍然像刚性抓手一样,无法实现形状自适应的抓取,如难以实现盆栽这种难度极大的抓取。通过阵列灯丝状的软执行器,一种基于纠缠抓取的软抓手被提出以提高抓取的适应性,但是抓取具有随机性,并且需要体积庞大且笨重的气泵组来单独驱动每一根执行器,这进一步阻碍了他们在无人机领域使用的可能性,由于无人机有限的空间和负载。 受藤蔓植物启发的自适应柔性抓手 在自然界中,藤蔓植物能够依靠外部支撑来垂直生长和增强采光。藤蔓植物在开始生长时,能够依靠自身的缠绕紧紧地将周围的茎干和树枝抓住。在达尔文关于攀援植物习性的论文中,这类藤蔓植物被形容是一种极好的抓手,藤蔓紧紧抓住树枝就像鸟儿栖息在树枝上一样,这种藤蔓称之为藤攀爬者。还有另外一类藤蔓植物,他们的表面上具有钩子一样的结构,能够与支持物体形成互锁,以此来支撑自身的重量实现攀爬,这种藤蔓称之为钩攀爬者。 受藤蔓植物的启发,我们提出了一类自适应的柔性自包含抓手,可以实现无人机在多种环境下各种尺度、各种形状的抓取(视频1)。我们首先设计出两种长管状的柔性偏心圆管执行器,一种表面光滑类似于藤攀爬者,另一种具有表面结构类似于钩攀爬者。然后,我们分别将两种长管状的柔性偏心圆管执行器两端固定成为U形,制造出两种U形柔性偏心圆管执行器(U-shaped soft eccentric circular tube actuators, UCTA),多根UCTA交叉布置组成了两类柔性抓手。两类抓手都能够通电卷曲自适应物体的外形,对物体形成缠绕而实现抓取。 表面光滑的抓手在变形后具有较大的曲率,能够更好地适应物体的外形,适合用于精巧的抓取,例如抓取花朵。而具有表面结构的抓手变形后的曲率相对较小,抓取适应性减弱。但是抓手的负载能力有所提升,由于变形后凸出的表面结构能够和物体形成互锁,这种抓手适合用于抓取重物,例如抓取沉重的石头(图1)。此外,U形设计解决了前述灯丝状执行器抓取随机性的问题,并且赋予了无人机直接通过勾、挂等简单方式抓取物体的能力。与现有的部署在无人机上的抓手相比,我们的柔性自包含抓手在重量、负载、尺寸、响应时间、适应性和位置误差方面均具有优越性。 图1. 柔性抓手的仿生设计策略以及液气相变驱动的变形原理
比预期活跃,木卫二高清图像公布
IT之家 5 月 17 日消息,美国宇航局(NASA)近日在《JGR Planets》期刊上发表相关研究,基于“朱诺号” 2022 年 9 月 29 日拍摄的木卫二照片,支持了木卫二南北两极的冰壳已不复存在的理论。 “朱诺号”主要通过“朱诺相机”(JunoCam)拍摄图片,2022 年 9 月 29 日“朱诺号”飞掠木卫二,在距离 355 公里(220 英里)的高度拍摄了 4 张这颗冰冷卫星的照片。 在飞掠期间,“朱诺号”上的恒星参照装置(SRU)也辅助拍摄了一张木卫二夜景的图像,SRU 主要用于对微弱恒星成像。 SRU 发现了一个不寻常的地貌,因其形状而被昵称为“鸭嘴兽”(The Platypus)。从形式上讲,它被称为 "混沌地形"--由冰块、山脊、驼峰和红褐色斑点组成的杂乱地形。行星科学家怀疑,这些区域可能是含盐液体渗入地表,部分融化冰壳的区域。 “鸭嘴兽”非常巨大,面积为 37 公里乘 67 公里(23 英里乘 42 英里)。由于木卫二冰冷的表面往往会在很短的地质时间跨度内变得平滑,抹去陨石坑等表面特征,因此“鸭嘴兽”是木卫二卫星上最年轻的特征之一。 在鸭嘴兽以北 50 公里(31 英里)处可能有更令人兴奋的地貌:一组双脊,两侧是表面的暗斑。这种地貌以前在欧罗巴的其他地方也曾出现过,据说是水蒸气羽流的发源地,这些水蒸气羽流喷向太空,高度可达 200 公里(120 英里)。
美国阿波罗载人登月是骗局吗 网友吵翻!中国科协辟谣:并非造假
5月17日消息,阿波罗载人登月是骗局吗,中国科协对此辟谣。 近日,“阿波罗登月造假”这一话题再度引发广大网友关注,起因源于:一位航天专家在直播上提到“阿波罗盆地”时不太连贯的表达,被一些媒体剪辑成短视频进行了传播。 不少网友因此解读:“阿波罗登月的地方,嫦娥六号登月没有找到任何痕迹,美国被狠狠打脸啦”“阿波罗任务压根没有登陆月球,他们的宇航员也没有登上月球,阿波罗登月就是一场惊天骗局”…… 真的是这样吗?先说结论:阿波罗登月不是骗局!有众多证据表明:阿波罗系列任务确实登上了月球,宇航员也登上了月球,比如月球岩石样本、照片和视频等。 中国科技新闻学会太空文化传播青少年工作委员会委员王君毅表示,作为一名航天科普工作者,看到这里感到心情十分复杂,具体来说如下: 1、视频中提到的“艾特肯盆地”位于月球南极,是被誉为“太阳系内最大的撞击坑之一”的大型盆地,面积跨越月球正反两面,在这个大型盆地内还遍布着很多大小不一的盆地。 视频中备受争议的“阿波罗盆地”就是其中较大的一个,它位于月球背面。“阿波罗盆地”这个名字里虽然也有“阿波罗”,但和阿波罗登月任务落点完全是两回事。 这是为了纪念阿波罗登月任务而命名的,却非任何一次阿波罗登月任务的落点。 2、由于潮汐锁定的原因,月球永远只有一面朝向地球,人类在地球上永远无法看到月背的样子。全部的阿波罗登月任务落点均在月球正面南北纬 ±30° 和东西经 ±45° 范围内。 直到2019年1月3日,我国嫦娥四号探测器软着陆成功,才成为代表人类首次到达月球背面的人造探测器,创造了人类月球探测的新的里程碑。 3、关于阿波罗登月任务,有大量的音视频资料,最重要的是有大量的月壤和月岩样本被带回了地球,全球多个国家均有基于阿波罗登月任务所带回的月壤、月岩样本取得的研究成果。 在2012年时,嫦娥二号有效载荷分系统主任设计师赵葆常也提到,嫦娥二号传回的图像可以看到阿波罗11号登月的遗迹。 此外,我国嫦娥五号探测器取回月壤1731克,阿波罗系列登月任务累计采样取回样品约 382 千克,要达到如此规模的月岩月壤采样,在当时的技术条件下通过无人设备是无法实现的,只能通过人工采样的方式来获取。 大多数人质疑阿波罗号登月是出于对国家的朴素感情,王君毅也是要呼吁大家保持理性和独立思考能力,实事求是。
体验完Apple Pencil Pro,我发现它才是新iPad的灵魂
能捏会振可以转,还有隐藏功能?最近发布的 Apple Pencil Pro 大伙用了没? 我们为大家体验了一下这款产品,发现这个功能竟然出乎意料的好用。 在用了几天后,我发现发布会上只提了两句的「Find My」功能却成了我的最「救命」的功能,但其实作为苹果生态中的新贵,Apple Pencil Pro所隐藏的远不止于此。 这款看似普通的电子笔,其实暗藏着苹果对未来的深远规划与无限可能性。 从「配件」走向「核心」,Apple Pencil Pro 准备好了没 不难看出,相比以往 Apple Pencil,苹果为新 Apple Pencil Pro 塞进了新的触觉反馈引擎、新的压力传感器、陀螺仪及 U2 芯片,带来了多个维度的升级。 振动马达的加入,让用户在使用时能够更直观地感受到笔触的力度和速度反馈,交互方式更加自然。 而陀螺仪的加入则使用户可以通过更加自然的手势进行操作,无需频繁切换工具,使得操作更加得心应手。 而这些特性的加入,也为 Apple Pencil Pro 带来了更多的未来可能性和应用场景,也让用户能够更加深入地沉浸在创作中。 早在 2019 年,苹果就申请了一项名为「带触觉反馈的输入设备」专利技术,描述了一种通过笔尖模拟真实纹理绘图,很有可能就是如今 Apple Pencil Pro 触觉反馈的技术原理。 该专利显示,当一个力作用于设备尖端时,苹果的力传感系统可以检测尖端相对于外壳的运动,通过在连接到笔尖和外壳的磁性元件中感应磁场,来渲染纹理感觉,模拟在真实环境上移动的触感。 一句话说,就是用感应磁场模拟真实纸笔触感。 在后来的更新中,苹果丰富了相关内容,增加了新的描述,「触控笔可以有效地区分用户的触觉输入,而忽略用户自然握持位置时提供的持续触觉输入」,减少了误触的风险,也使其更加实用。 此外,悬停图像则为用户提供了一个新的互动,用户能从屏幕上看到各种不同形态的笔尖「阴影」,使其能够更好地提高精准度,帮助用户更加精准地完成绘图作画等对精度要求更高的工作。 虽然发布会上苹果并没有就这一能力进行细致的技术解读,但我们从苹果的相关专利技术中找到了一些端倪。 不久前国家知识产权局公告显示,苹果在去年 9 月申请了一项名为「用于触笔检测的支持光电感测的显示器」的专利,其中公开了一种包括光学触笔和光学感测系统在内的光学触笔系统。 它主要利用屏幕确定目标或接触位置、中心点、悬停距离、倾斜角度,以及某些情况下触笔的方向和旋转,再通过光线反射回使用它的设备,通过光学方式完成所有感应。 目前主流的可视化电磁压感技术大概有这三种,除了苹果以外,还有来自日本的 wacom 及来自以色列的 n-trig 技术,不过尽管传统的数位板技术尽管已经相当成熟,但在某些方面仍然存在着局限性,比如精度和响应速度的问题。 与之相比,苹果的这项光学触笔系统无疑拥有更高的精确度及对 Apple Pencil 用笔角度的探知能力,也为更迅速地触发不同操作或功能提供了有力的保障。 这意味着 Apple Pencil Pro 不仅可以通过改变笔尖的倾斜角度、产生不同粗细、阴影和颜色变化的线条,再加上方便的旋转选择工具、灵敏的实时反馈及悬停「阴影」,模拟出了一整套更接近现实的使用场景。 对于专业的设计师而言,在使用 Procreate、Adobe Photoshop Sketch 等第三方绘画软件的过程中,一笔一划、一点一描,更接近真实场景的反馈不仅能让创作更加自然,也为创作提供了更大的自由度和表现力。 值得一提的是,示例中不仅有 iPad 相关的内容,使用该专利技术的触控笔还能够用在包括 iPhone、MacBook、AppleWatch 在内的其他苹果生态设备。 不过至于库克是否会再次「背叛」乔布斯,掏出一个用于 iPhone 的「Apple Pencil」,就只有交给时间回答了。 除此之外,Apple Pencil Pro 还自带了“查找”功能,帮助用户轻松追踪和定位丢失的 Apple Pencil。 而这主要在于增加了 U2 超宽频(UWB)芯片。UWB(Ultra Wideband)技术作为一种短距离无线通信技术,能够利用大带宽信号传输进行通信或定位,在一些小范围区域下,能够提供比 Wi-Fi、蓝牙更精确的定位结果。 目前这一技术已经广泛运用于一些诸如 Apple Watch S9 和 Apple Watch Ultra 2 中,并且备受好评。 尤其值得一提的是,这些设备通过 U2 芯片实现了所谓的「空间感知」能力,即能够精准检测设备位置,并通过动效引导的方式,让用户更好地寻找遗失或忘记放置的设备。 显然,尽管 U2 芯片主要关注于定位技术,但它也可能涉及到其他功能,例如与苹果设备的高精度位置交互,也就是 Vision Pro 等设备的空间交互内容。 事实上,拥有「空间感知」能力及陀螺仪的 Apple Pencil Pro,在一定程度上已经非常接近传统的 VR 手柄。 想要真正与 Vision Pro 结合在一起只需要通过 Vision Pro 的摄像头追踪 Apple Pencil Pro 的位置,就可以实现将从 3DoF 的「原地旋转」到 6DoF 的全空间操作。 而这并不是一件难事。在去年 visionOS测试过程中,就有开发者发现,当用户手持 Apple Pencil 的时候, Vision Pro 无法正常识别手指的捏和操作,但官方的反馈说「这是经过设计的特性,并非BUG」,可见识别 Apple Pencil 很可能在 Vision Pro 中已经存在。 当然,具体的功能和技术细节官方还未完全公开,但也确实值得期待。不过目前来看,Apple Pencil Pro 更大的意义仍然还是在 iPad 上。 更全面的 Apple Pencil Pro 正在让 iPad 更加专精 事实上,自 Apple Pencil 诞生以来,它就一直承担着 iPad 专业化的重任。 于 2015 年发布的第一代 Apple Pencil,由苹果灵魂设计师 Jony Ive 操刀,将电容笔从简单的点击工具提升为能够模拟真实笔触的绘图工具,开启了 iPad 在绘画、设计等专业领域的新篇章。 而随后发布的 Apple Pencil (第二代) 在精准度、延迟等方面进行了优化,还增加了触碰感应平面,轻点两下就能切换工具,省去了停笔操作的繁琐,进一步提升了 iPad 的生产力。 去年 10 月发布的 USB-C 版 Apple Pencil 则在改变充电口的同时,还能以磁吸方式吸附在 iPad 边框上方便收纳,并支持悬停功能,增加了新的互动方式,提升了使用的精准度。 到 Apple Pencil Pro 这一代,则进一步丰富了 iPad 在专业领域的应用场景,进一步提升了 iPad 在专业领域的应用价值,也为我们呈现出苹果致力于将 iPad 专业化的发展路径。 说到专业化的发展途径,就不得不提到此次苹果发布会上,与 Apple Pencil Pro 一同发布的 Magic Keyboard。其最大特点在于加入了「功能键列」,能够更好地让用户调校屏幕亮度和音量等功能。 而铝金属手枕、更大的触控版,都使其使用起来拥有更接近 MacBook 的体验。 事实上,Apple Pencil 与Magic Keyboard 代表的是 iPad 走向生产力工具的两个方向:一个是模拟真实笔触的输入方式,另一个是更接近传统电脑的交互体验。 如今苹果将这两个方向进一步融合,结合 M4 芯片的算力及 OLED 的更强显示能力,试图最大程度地结合两者优势,打造出一个更加全面、更加专业的iPad生产力工具体系。 而 Apple Pencil Pro,显然是其中关键,这也是苹果在此次发布会上如此重视 Apple Pencil 的根本原因。 当然,尽管新款的 Apple Pencil Pro 在很多方面拥有优势,但事实上也在很多方面存在不确定性,例如新的 Apple Pencil Pro 在发布后,被诟病最多的兼容性问题。 目前 Apple Pencil Pro 并非适用于所有 iPad 型号,而是仅适用于 11 英寸和 13 英寸的 iPad Pro(M4)以及 11 英寸和 13 英寸的 iPad Air(M2)。 但 iPad 一直以「耐用」著称,很多用户手中的其他型号 iPad 仍然在承担着主力工作,却无法与更多功能的新 Apple Pencil Pro 匹配,不得不说确实是一大遗憾。 不仅如此,在新的 iPad Pro 厚度缩减到 5.1mm 之后, Apple Pencil Pro 的厚度却没有缩减,有网友吐槽「以前是笔吸在 iPad 上,现在是 iPad 吸在 Apple Pencil 上」。 在加入各类传感器之后,Apple Pencil Pro 的重量甚至可能会增加,对于手感、续航的影响也是一个不容忽视的问题。 如何更好地与 iPad 进行协同工作、如何确保长时间使用的舒适度和稳定性等问题都是苹果需要在未来的产品迭代中进行优化和改进的空间。 延续苹果 DNA 的「拟物化」设计,才是最大意义 当然,除了对构建生产力工具体系方面的贡献以外,新 Apple Pencil Pro 无论是更加接近真实世界的触感反馈,还是类似于笔尖影子的悬停响应,都更符合普通人的直觉,形成了一种「拟物化」的效果,这是随用户习惯的适应,也是让 Apple Pencil Pro 走向更多人的契机。 「拟物化」设计不仅可以帮助用户理解全新的数字界面交互,降低用户的学习成本,还能够使其能够迅速吸引用户注意力,熟悉的体验也会增加产品的亲切度和可信度,甚至产生一定的文化共鸣。 这其实也和很多人喜欢纸质书籍、机械手表、手动挡车、物理按键有一定的共通之处。 苹果深谙此道,iOS 早期普遍会采用更类似于真实物品的图标,让人一眼就能看出图标背后的功能。我们至今还能看到类似于软盘、文件夹等图标出现在我们的电子设备上,即使这些物品在现实中已经渐渐变得不那么常用甚至是消亡,但其图标与用途的绑定关系却一直沿用至今。 关于文件夹的「拟物化」设计 Apple Pencil Pro 也是如此,一个常常需要在作画/设计的过程中把手伸向旁边选择工具的动作,被简化为侧旋展开,在建立一种更加便利的交互方式的同时,无疑也在试图建立一种新的符号指向系统。 电子设备,亦或者说科技产品,正是通过一个又一个这样的细节及其建立的新的连接系统,缓慢而全面地改变着我们的生活,这或许才是科技产品让我们惊喜的根源所在。
ChatGPT之父最新专访:发现GPT-4o惊喜用途,下一代模型可能不是GPT-5
GPT-4o 的发布又一次惊艳了全世界,而 Ilya 的辞职也引起了热议,甚至是被视为一个时代的结束。 就在 Ilya 辞职之前,有着「ChatGPT 之父」称号的 OpenAI 的联合创始人兼首席执行官 Sam Altman 接受了专访。 访谈中,Sam 从 GPT-4o 的使用体验,到 GPT-5 出现的时机与新形式,以及 AI 为企业和个人带来的机会,为我们揭示了不少发布会的幕后细节,对人工智能助理的前景表达了自己的兴奋和忧虑。 以下是采访全文: GPT-4o 让我爱不释手 Logan:欢迎来到《Logan Show》,这是一档与科技领域领导者和投资者对谈的节目。本期你将听到我与 OpenAI 的联合创始人兼首席执行官 Sam Altman 的对话。 我们将会深入探讨与近期非常热门的人工智能相关的多个话题,以及 OpenAI 的发展方向,还有 Sam 对于 AI 这一前沿领域的看法。 Logan:好的,让我们从轻松的问题开始。在执掌 OpenAI 的过去四五年间,你生活中发生的最大改变是什么?有没有什么不同寻常的改变呢? Sam:发生了很多,其中最奇怪的就是我无法再在公共场合当个「小透明」。如果之前听到这种话,我可能只会觉得「好吧,是有点奇怪」,实际上它比想象中更奇怪,这是一种很奇特的孤立的生活状态。 Logan:你曾经非常坚信人工智能和商业的力量,那么你难道没有想过执掌这样一个公司可能带来的连锁反应吗? Sam:我没想到很多事情,比如公司会成为一个非常有影响力的公司,更没想到仅仅是在自己的城市出去吃个晚饭都会变得如此困难,这真的很奇怪。 Logan:不久前,你刚发布了多模态模型 GPT-4o。它可以跨越文本、语音和视觉工作,你能解释一下多模态的突破为什么很重要吗? Sam:因为我认为多模态的方式是使用计算机的一种革命性的飞跃。实际上,我们很久以前就有了语音控制计算机的想法。你知道的,我们有 Siri,之前还有其他类似的技术,但它们从来没有让我感觉到使用起来很自然。 但 GPT-4o 这个技术,由于多方面因素的结合——它的功能、速度、增加的多模态支持、语调的自然性等——让使用体验大大提升。你可以轻松地调整说话速度或改变声音,它的流畅性和灵活性让我非常喜欢。 Logan:Spike jonze(电影《Her》的导演)会对它感兴趣哈哈。有没有什么特定的使用场景吸引了你? Sam:嗯,虽然我才用了一周左右,但有个特别惊喜的用途是:在我全神贯注工作时,将手机放在桌子上。然后在不需要切换窗口或停下我的工作,就能够将 GPT-4o 作为一个新的信息渠道。这样我就不需要打断我的工作流,就可以询问它并得到答案,这很不错。 Logan:那么,这一切的背后是架构上的变革还是更多的算力? Sam:其实这就是我们在过去几年间在研究中的积累,我们一直在研究音频模型,我们一直在研究视觉模型,我们也一直在尝试把它们结合起来,我们还一直在寻找更高效地训练模型的方法。这并不是说我们发现了某个革命性的新技术,而是所有这些的结合。一次性把所有技术拼凑在一起确实不简单。 Logan:考虑到延迟的问题,你觉得是否需要开发一种在设备上运行的模型,以减少延迟,达到实用性所需的水平? Sam:对于视频来说,处理网络延迟可能会成为一个难题。我一直对 AR 眼镜这种能实时与世界交流、感知事物变化的东西情有独钟,但网络延迟可能会让这变得很困难。不过,两到三百毫秒的延迟,人会感觉非常快,在很多情况下这个延迟比人类的响应速度更快。 Logan:好的,你最近提到了下一次的大型发布活动可能不会是 ChatGPT 5。似乎有一种迭代式的模型开发方法正在被你们采用。我们可以这样理解吗? Sam:未来发布的大模型可能不会是一个标志性的大版本,如 GPT-5,我确信我了解到的一点是,AI 和惊喜不是很搭。虽然,你知道科技公司通常遵循发布产品的传统方式,但我们可能应该采取不同的策略。 现在,我们仍然可以称它为 ChatGPT 5,并以不同的方式发布,或者我们可以考虑其他名称,但我认为我们还在摸索如何为这些东西命名和定位。我觉得以 GPT-1 到 GPT-4 这样的命名是合理的,但现在很明显 GPT-4 已经有了很大进步。 我们也有这样的设想,可能会有一种潜在的像是「虚拟大脑」一样的基础模型,在某些情况下,它可能比其他情况进行更深入的思考,或者可能是探索不同的模式,但用户也许并不在意它们是否存在差异,我认为我们还不知道如何让这些产品在市场受到青睐。 Logan:这是否意味着,计算在模型上取得增量进展的需求可能比以往要少? Sam:我更倾向于认为,我们会尽可能地利用我们能获得的所有计算资源。我们现在正在取得难以置信的效率提升,这非常重要。 你知道,今天我们发布的一个很酷的功能显然是语音模式,但或许最重要的是我们做到了如此高效,以至于我们能够向免费用户提供服务,达到世界顶尖的水准。 任何想免费下载 ChatGPT 的人都可以得到它,而且它相对于 GP4 和 GP4 Turbo 在某些场景有了显著的效率提升。我们在这方面还有很多进步的空间。 当我们从几十年后回望,会说:「某些事情改变了」 Logan:我听说你提到过 ChatGPT 实际上并没有真正改变世界,但可能只是改变了人们对世界的期待。 Sam:是的,我不认为你可以从任何经济指标中找到太多证据表明 ChatGPT 真的影响了生产力或其他领域,或许客户支持或某些特定领域是例外。但如果你查看全球 GDP,你能发现 ChatGPT 发布的影响吗?恐怕不行。 Logan:会不会存在一个我们可以明确地看到 GDP 增长的时间节点? Sam:我不确定是否能够说这是因为某一个模型的影响,但我认为如果我们从几十年后回望,会说:「嗯,某件事情改变了。」 Logan:在接下来的 12 个月里,我认为哪些应用或领域最有前景? Sam:我可能会因为所在领域的限制,存有一些偏颇,但我认为编程是一个非常重要的领域。 Logan:关于「惨痛教训」,你最近也花了一些时间进行讨论。你曾详细讨论了深度专业化模型与通用模型的主要区别在于,专业化模型是为了特定的数据和目的训练的,而通用模型则具备真正的推理能力。 Sam:我相信,未来真正有影响力的将是通用模型。如果一个能进行通用推理的模型发现新事物,那么当需要处理新类型的数据时,我们只需提供新的数据,它就能够适应并处理。但专业化模型在这方面是不可能的。 我认为许多专业化模型组合在一起,也无法进行通用推理。所以,编写特定模型的重点可能在于,我认为我们最应该弄清楚的是真正的推理能力,然后我们可以将其应用于各种场景。 自然语言是人和 AI 之间很好的交流方式 Logan:你认为未来两年内人类与 AI 之间的主要交流方式将是什么? Sam:自然语言似乎是一个很好的选择。我对这个想法很感兴趣,那就是我们应该设计一个人类和 AI 可以共同使用的未来机制。我对类人机器人比其他类型的机器人更感兴趣,因为我觉得现在的世界是为人类设计的,我不想让它为了某种更高效的模式而被重新设计。 我喜欢这样一个想法,即我们用非常适合人类的语言与 AI 交流,它们甚至也可以用这种方式相互交流,这个想法可能还有待探索。尽管无法预知未来,但我认为这是一个值得推动的有趣方向。 Logan:你最近提到,随着时间的推移,模型可能会变得越来越走向大众,但最重要的可能会是关于模型的个性化,我理解你的意思了吗? Sam:我不是很确定,但我觉得这听起来很有道理。 Logan:那么,除了个性化,你认为最终对用户而言,普通的商业用户界面和易用性最终会成为胜出的关键吗? Sam:这些因素当然很重要,它们总是如此。我可以想象还有其他因素,但我认为,常规的商业规则仍然适用。 每当出现新技术时,我们总是很容易认为旧规则不再适用,但这种想法通常是错误的,传统的创造和流失价值的方式如今仍然很重要。 Logan:当你看到开源模型开始追上基准标准的时候,你怎么想? Sam:我觉得这非常好。我认为,就像其他技术一样,开源将有其一席之地,托管模型也是如此,这很好。我不会询问任何具体的细节,但已经有媒体报道关于筹集大量资金的消息。华尔街日报是其中一个可信的报道来源,这些资金是为了在半导体行业激励投资。像台积电和 Nvidia 这样的公司一直在积极扩张,以满足对 AI 基础设施的期望。 Logan:你最近说过你认为世界需要远超目前水平的更多 AI 基础设施。那么,你是不是观察到需求端有些什么需要比我们目前从台积电和 Nvidia 获得的更多的 AI 基础设施? Sam:所以首先,我有信心我们会找到方法降低现有系统的成本。其次,随着成本的降低,人工智能系统的需求必然激增。我相信,通过打造更大更强的系统,需求将会进一步飙升。 我们都应该期待一个智能资源廉价到不需计价的世界,在那里,智慧资源丰富到人们可以随意使用,甚至不用考虑太多。比如说,我是希望它帮我阅读回复所有邮件,还是用来治疗癌症?当然,治愈癌症更重要,但理想情况是两者都能实现。我关注的是确保我们拥有足够的资源,让每个人都能享受到智能技术带来的益处。 Logan:我想请教你对于Humane、Limitless等公司推出的不同物理设备助手有何看法?你认为它们有哪些不足之处,或者为何它们的普及程度尚未达到预期的用户需求? Sam:我认为它们都太早期了。我一直是多种计算设备的早期用户,有着丰富的使用体验。我曾经拥有并非常喜欢 Compaq TC1000,觉得它超酷,那是我大学新生时期的事了,它与 iPad 相比还有很长的路要走,但方向是对的。 后来我又用上了 Treo,我用的是老款的 Palm Treo,那时候孩子们并不会拥有它,而它与 iPhone 相比也有很长的距离。但最终我们还是实现了。这些设备似乎朝着一个非常有前景的方向发展,只是还需要一些时间的打磨和技术的迭代。 适应 AI 进步:建立有长期竞争力的企业 Logan:你最近提到,很多在 GPT-4 上构建的业务在未来将会被更先进的 GPT 技术「碾压(steamrolled)」。你能详细解释一下这个观点吗?谈到 AI 领域的企业特点,哪些企业能在 GPT 的不断进步中生存下来? Sam:我发现的有效方法是,在构建业务时,你其实是在做两种选择:要么赌下一代模型不会太出色,要么就是赌模型会更进一步,并从中受益。 举个例子,如果你投入大量努力,仅仅是为了让某个应用案例勉强可以运作,这个应用案例恰好是 GPT-4 所不能处理的。然后当你终于成功时,但后来 GPT-5 出现了,并且它能够更出色地完成这个任务以及其他任务,那么你之前为那个单一案例所做的努力可能就会感到有些尴尬了。 但如果你有一个产品,在各个方面都表现得还不错,人们自然会去使用它,而你并没有投入大量精力去实现某个特定功能,然后 GPT-5 或者其他名称的模型出现了,表现得更好,你就会享受到「水涨船高(the rising tide lift at all your boats effect.)」的影响。 我想说的是,大多数情况下你不是在创建一个 AI 企业,而是在创建一个业务,AI 只是你采用的一种技术。在应用商店的早期阶段,有很多产品填补了某些明显的空缺,但随后苹果解决了这个问题,我们现在已经不再关注应用商店里的手电筒应用,因为它们的功能已被集成到操作系统中。这将是未来人工智能业务可能的发展方向。 然后有些应用,比如 Uber,它们虽然是由智能手机的普及带动的,但实际上它建立了一个非常稳固且长期可行的业务模式,我认为这正是我们应该追求的方向。 Logan:我明白你的意思,而且我能想象出很多应用你们技术理念的企业,它们在某种程度上都符合这一框架。那么,你能否给出一个具体的例子或新型概念,它符合我们之前讨论的模式?例如,Uber这样的公司,它不必是一个真实存在的企业,即使是一个假设性的公司、一个玩具概念,或者只是你认为以这种方式实现的某个想法也可以。 Sam:我更倾向于押注那些新兴的初创企业,一个典型例子是,当人们尝试创建类似于人工智能医生的人工智能诊断工具,人们常说,「我不想在这个领域创业,因为像梅奥诊所(Mayo Clinic)等知名机构肯定会做这件事」,但我更倾向于认为会有新公司涌现出来做这样的事情。 Logan:对于那些想要主动准备迎接这些巨大变革的 CEO,你有何建议? Sam:我敢打赌,智能作为一种服务,每年都在变得越来越好、越来越便宜,这是取得胜利的必要条件,但并不足以让你取胜。大公司虽然需要时间来做到这一点,你可以借此优势超越它们,但同样意识到这一点的其他创业公司也会这么做。 所以你需要搞清楚让你的业务长期保持竞争力的策略。现在的竞争环境比往常都要开放,有许多令人兴奋的新事物等着去做,但这并不意味着你可以忽视打造核心价值这一艰苦的过程,尽管现在有更多种方式可以实现。 Logan:鉴于人工智能的飞速发展,你能否预测在未来五年内可能涌现或成为主流的新职位类型?这些职位可能是当前鲜为人知或尚未存在的。 Sam:这是一个很棒的问题,我以前从未被问及过。人们总是问,什么工作会消失,但提问新工作更加有趣。让我想可能有1亿或5千万人可能会涉足的新领域。这可能涉及全新的艺术形式、娱乐方式,以及更加注重人与人之间的联系。 虽然我不知道这些职位的具体名称,也无法确定我们是否能在五年内达到这样的规模,但我认为面对面的体验将会变得非常珍贵,可能会形成一个新兴的巨大市场。 我们可能会见证断崖式的技术飞跃 Logan:OpenAI 最新的公开融资估值大约是 900 亿美元。除了 AGI,你认为还有哪些里程碑能让 OpenAI 成为一个万亿美元的公司? Sam:我相信如果我们能持续以目前的速度改进技术,并且继续开发出好产品,收入也会继续增长。我不确定具体的数字,但我认为我们的前景是光明的。 至于目前的商业盈利模式是否能创造 1 万亿美元的股权价值,订阅模式对我们来说很有效。虽然我原本对此并不抱有太大期望,但结果却相当不错。 Logan:至于 OpenAI 目前的结构,虽然不想老调重弹,但你提到了途中的一些改变,你认为未来更适当的结构是什么? Sam:我认为我们已经准备好了讨论这个问题,我们一直在积极探讨和头脑风暴。我希望在今年内,我们能够就此进行更深入的交流。 Logan:嗯,一个有趣的点是,关于人工智能的既定印象,有一个特别有趣的话题是你的货币化模型观点。我们曾听你提及,首先是取代体力劳动,然后是白领工作,最后是创意工作。 但显然,事情与预期完全相反。是否有其他出乎意料之外的事情呢?比如,我本以为会是这样,但实际上却是完全相反的情况。 Sam:这对我来说确实是一个巨大的意外。除了你提到的那一点,还有其他一些事情,比如我没想到人工智能会如此擅长法律工作,并且会这么早就展现出这样的能力。因为我一直认为法律工作是非常精确和复杂的。 Logan:对于那些还没有听你讲过 AGI,以及你为什么不喜欢这个术语,你能详细解释一下你的观点吗? Sam:因为我知道AGI不再是一个明确的时间点。显然,当你创办一家公司时,你会有很多天真的想法,特别是在这样一个快速发展的领域。OpenAI成立之初,我也曾天真地认为,我们将从没有AGI的时代开始,然后实现AGI,这将是一个真正的飞跃。 我仍然认为可能会有一些突然出现的飞跃式发展,但总的来说,我认为它还是会像一个持续增长的曲线一样呈现波动上升的趋势,关键是进步的速度。你和我可能不会在具体的月份或年份上达成一致,到那时我们会说好吧,现在这就是通用人工智能了。我们可以设计其他测试,我们或许会对此达成共识,但是即使这样,事情比表面上看起来要困难得多。 你知道,当前的 GPT-4 显然还没达到普遍意义上的 AGI水平,我也不觉得我们下一个大型模型会达到。但我可以想象,我们可能只差一两个创新的想法,再加上一些规模扩展,就能创造出一些让我们觉得真的不一样的东西。我认为,对此保持警觉是很重要的。 Logan:是否有更现代的类似图灵测试,我们可以称之为巴特利特测试呢? Sam:当它达到某个阈值时,我认为,如果它能够进行比所有 OpenAI 研究人员甚至是一个 OpenAI 研究人员更优秀的研究,那将是一个非常重要的标志。但这样的进展是否即将到来,目前还不太确定,但我不会完全排除这种可能性。 Logan:你认为达成 AGI 的最大的挑战是什么?听起来你认为目前的规模化原则可能还行得通,至少在接下来几年内是这样。 Sam:是的,我认为最大的障碍是需要新的研究。你知道,我从互联网软件转向 AI 的过程中不得不学到,研究并不像工程那样有固定的进度表。这通常意味着它需要更长的时间,并且不总是有效,但有时候它的进展速度却又远超任何人的预期。 Logan:能不能详细解释一下,为什么它的进展不是线性的呢? Sam:我想,通过历史例子来解释可能是最好的方式。 嗯,我记得中子最初是在 20 世纪初被理论化,大概在 20 年代首次被探测到,关于原子弹的研究始于 30 年代,并在 40 年代取得了成果。 从几乎没有任何关于种子的理论概念,到能够制造出原子弹,甚至彻底动摇我们对物理学的直觉,这样的速度简直令人震惊。 还有一些不那么纯粹属于科学的例子,例如关于莱特兄弟曾在在 1906 年他们认为人类飞行还要 50 年,然后在 1908 年他们就实现了飞行,类似的例子在科学和工程领域比比皆是。 当然,也有很多我们预测的事情从未发生,或者比我们预期的要花费数十甚至数百年的时间更久。但有时候,进步确实是突飞猛进。 Logan:关于可解释性,我们目前在这一领域处于怎样的位置?它对人工智能的长期发展有多关键? Sam:可解释性有不同的层次,包括我是否理解网络在机械层面上的每一层运作方式,或者我是否能够通过查看输出来指出其中存在的逻辑错误。我对OpenAI以及其他机构在可解释性方面的研究充满期待。我认为,作为一个更广泛的领域,可解释性具有巨大的潜力和令人兴奋的前景。 Logan:我不会催你,但我想你们在准备好要宣布什么的时候,会有一个精彩的公告。这里还有几个问题,随着人们对AGI的期待日益高涨,关于OpenAI等组织单方面利用其并做出决策的担忧也在增加。这促使一些政府机构介入,希望由选举产生的领导者来做出这些决策,而非完全依赖OpenAI等公司。 Sam:是的,我认为对于像我这样的人来说,严格规范现有模型能力将是个错误。但当模型对世界构成重大的灾难性风险时,我认为实行某种监督措施可能是件好事。 目前,如何设定这些风险的阈值以及如何有效测试它们,我们确实还仔细权衡。如果因为过度担忧潜在风险而限制了这项技术的巨大优势,让那些希望在自家地下室训练模型的人望而却步,那将是一个巨大的损失。 但话说回来,如果我们用国际核武器规则作为参照,我认为对人工智能进行某种形式的监管是合理的。 Logan:嗯,你认为他们没有看到人工智能中潜在的风险吗? Sam:我认为他们就是没有整体上认真考虑过 AGI。但我确实同情他们的立场,像看看欧洲的技术产业发生了什么,我理解,我真的理解。然而,我认为有一条我们正在接近的界限,超过这个界限,我们可能都会有不同的感受。 Logan:你认为开源模型本身就存在固有的危险吗? Sam:目前没有哪个模型是这样,但我可以想象将来可能会有。 Logan:我听你说过,安全在某种程度上被当作了一种错误的框架,因为它更多地关注我们明确接受什么。 Sam:确实如此,这并不是一个非黑即白的事,就好比你愿意坐飞机,因为你觉得它们相对安全,尽管你知道它们偶尔会出事。那么关于什么样的航空公司才算安全,这个问题有许多讨论,每个人的看法都不尽相同,这是个当前的热门话题。 航空业已经变得极其安全,但安全并不意味着绝对没有人在飞机上丧生。同样,医学领域我们也非常重视副作用,因为有些人会对药物产生不良反应。此外,安全还有其隐性的一面,比如社交媒体可能带来的负面影响。 Logan:你能想象在什么情况下,你会在安全范畴上做出与推进相反的决策呢? Sam:我们有一个叫做「准备框架」的东西,就是为了针对这些,也就是在特定的类别和层面上,我们的行动策略会有所不同,以应对潜在的风险和挑战。 Logan:考虑到众多快速涌现的应用场景,我认为我们当前面临的一个主要瓶颈是人工智能基础设施的不足。假设有研究人员对现有的神经架构Transformer进行了某种突破性的改进,使得所需的数据量和硬件大幅减少,甚至接近人脑的水平,那么你认为这是否会加速「技术飞跃」? Sam:当然,这是有可能的,并且可能不需要任何修改。虽然我认为这并不是最有可能发生的情况,但我并不完全排除这种可能性,重要的是,我们要在可能发生的各种情况中考虑到这一点。 我认为,即使技术发展在加速,这个过程也会是渐进的。我不认为我们可能某天睡觉时还处在初步的人工智能阶段,然后第二天醒来就面对真正的超级智能。但即使技术突飞猛进仅发生在一年或几年之内,那也算是相当快速了。 另一个要考虑的是,即使我们拥有了真正强大的AGI,它在短期内对社会的影响也是有限的。我猜测,大多数情况下,它不会在一年或两年内产生足够大的影响,但在十年内,世界绝对会发生巨大的变化。在这方面,社会的惯性实际上可能是一个积极的因素。 多年后,人类仍然会关心其他人类 Logan:嗯,你追求AGI的动机是什么?抛开股权不谈,即使我相信大多数人都会觉得,即使他们追求的是更高的使命,得到相应的报酬也会是一种安慰。那么,你每天来工作的动力是什么?你又从哪里获得最大的满足感? Sam:我一直对人们说,我现在愿意做很多其他生活上的调整和牺牲,因为我认为这是我将会接触到的最激动人心、最重要、最好的事情,这是一个充满变革的时代,我很高兴这不会永远持续下去。 你知道,将来某天我可以退休去农场,我会怀念这段时光,但会想,哦,那些是压力很大、非常漫长的日子。但这也是非常酷的,我简直不敢相信这些事情真的发生在我身上,这就像是不可思议的奇迹。 Logan:我们回到那个你因名气而不能在自己城市出门的例子,是否有过一个最超现实的瞬间,那种让你惊叹:「哦,天哪」的瞬间?让你感到仿佛置身于一个超现实的场景之中? Sam:每天都会有一些事情让我惊叹。比如那个星期(去年11月份被董事会罢免),我收到了来自世界上一些重要人物,如总统、国家总理等的10到20条短信,但这并不是让我感到奇怪的部分。让我感到真正奇怪的是,当这一切发生时,我像是在正常地回应他们,发送“谢谢”之类的信息,感觉一切都非常自然。 我们度过了那四天半疯狂而紧张的时光,我几乎没有睡觉,也没有怎么吃东西,但我的精神却出奇地好,头脑清晰,极度专注。 几乎每天都有那么一些事情,让你惊叹,如果我能稍微腾出一些心思去回想,这就会觉得太疯狂了。有点像鱼儿在水里的感觉,但是,是的,就是那种效果。 Logan:所以,当你想到模型变得越来越智能,你之前稍微提到的那样,关于创造性方面,在你看来,随着人类和大模型开始承担更多过去仅由人类完成的任务,哪些特质或能力仍将是人类所独有的呢? Sam:我相信,即使很多年之后,人类仍然会关心其他人类。 我在网上稍微搜了一下,大家都在说,「哦,现在大家都会爱上 ChatGPT 了」,大家都会谈论 ChatGPT 女友什么的。我敢打赌不会,我认为我们内心深处非常关心其他人,无论是大事小情,以各种不同的方式,这种对人的关心将会持续存在,我们对他人的关心几乎可以说是一种固有的执着。 虽然你可能听说过许多关于人工智能,但我想不必在意,毕竟我们不会把观看机器人踢足球当作主要的娱乐爱好。 人和 AI 助手的分离是有价值的 Logan:当你管理 OpenAI 公司时,你在制定了很多运营企业的规则或框架,然后你同样打破了许多规则。OpenAI 是否引入了不同类型的高管?或者你是根据不同的特质来招聘的? Sam:我通常并不倾向于从外部聘请高管,但我认为,如果公司总是仅从内部提拔高管,可能会导致公司文化的单一化。我认为公司需要引入一些新的高级人才来注入活力。但在这里,我们主要还是依赖本土人才,考虑到我们所做的与其他地方的工作很不同,我认为这是一件好事。 Logan:在 OpenAI 的发展过程中,有没有一个决策在你做出的时候感觉特别重要? Sam:很难只指出一个,或许有一个就是:我们决定采用所谓的迭代部署策略,也就是我们不会秘密地构建 AGI 然后一次性发布到世界上,这是过去的普遍看法,这是当时许多公司和人们的普遍观点和计划。但我认为这个决定非常关键,而且在当时看来确实非常重要。 Logan:关于押注语言模型的背后故事我一直很好奇,这一决策是如何产生的? Sam:嗯,当时我们团队正专注于多个项目,包括机器人开发和视频游戏。然而,在这个多元化的背景下,一个相对较小但充满热情的团队开始投身于语言建模的研究。伊利亚(Ilya Sutskever,OpenAI前首席科学家)对此方向深信不疑,他坚信语言模型的发展潜力,最终成了我们专注的语言模型。 于是,我们着手进行 GPT-1 的开发,接着是 GPT-2,我们深入研究了缩放定律,进而升级到了 GPT-3,然后我们做出了重大决策,决定将作为我们的主攻方向。尽管事后看这些决策似乎显而易见,但在当时,确实是一个经过深思熟虑的决策。 Logan:你最近提到了关于 AI 的两种不同方法:复制自己和打造最聪明的雇员。 Sam:这并不是关于 AI 本身,而是关于你想如何使用 AI,当你想象使用你的个人 AI 时。 Logan:能否请你进一步详细解释呢?因为我认为这对你关于未来人工智能用例的思考具有深远的影响,你能再次解释一下那个观点吗? Sam:当然。当我在未来五年内收到你的短信时,我希望能够清楚地知道,这是你直接发给我的,还是由你的人工智能助手代为转发的。 我认为保持人和 AI 助手的分离是有价值的,AI 助手也不能简单地认为完全是人的延伸。对我来说,我不想感觉这个东西只是我身上的一个奇异附属物,而是一个可以跨越障碍与我沟通的独立实体。 你在音乐或创意领域就能看到这一点,复制德雷克或泰勒·斯威夫特的音频变得很容易,因为我们可能需要某种验证机制或系统来确认,这确实是某个人的创意作品,个人层面大概也是如此。 当我们思考教育体系,想象一下 2030 年或 2035 年的大学新生,或者未来的某个群体,大学教育体制中应该做出哪些具体改变来为未来做好准备,我认为最重要的一点是,学生不仅应该被允许使用,而且应该被要求使用。 在使用这些工具时,有时候我们更倾向于让人们采取传统方式行事,因为这样有助于加深理解。 我还记得在数学课上,有些时候你不能在考试中使用计算器。但实际上,在现实生活中,你是可以使用计算器的,因此你需要理解它的原理,并且要能熟练操作计算器。如果你在数学课上从没用过计算器,那你在以后的工作中会遇到困难。 如果 OpenAI 的研究人员都不使用计算器,那么 OpenAI 可能至少在计算机方面不会取得如今的成就。我们不会教导人们不使用计算器或电脑,同样,我认为我们也不应该训练人们不使用 AI。AI 将成为未来从事有价值工作的重要组成部分。 Logan:最后,在规划通用人工智能(AGI)及其未来时,你曾写道第一个 AGI 只是智能连续体上的一个节点,我们之前讨论过这个话题。 Sam:我们认为,从那一点开始,进步可能会持续,未来很长一段时间内可能会保持过去十年的发展速度。 Logan:那你是否曾经私下停下来思考未来会是什么样子?或者是否它太过抽象,以至于已经无法具体描绘了? Sam:我一直在思考。但我不是说我能想象出有飞行汽车的《星球大战》式未来城市场景,但我确实在思考,当一个人能够完成数百上千个协作无间的人的工作时,这意味着什么?当我们能够探索到所有科学领域时,那会是什么感觉?肯定非常酷。 Logan:是的。Sam,感谢你接受这次访谈。
硅谷生态拆解:微软、META等巨头主导市场,初创企业濒临倒闭
当地时间5月13日,OpenAI推出新一代旗舰模型GPT-4o,凭借类似科幻电影《Her》的现实演绎,再次搅动了人工智能(AI)行业。顶着巨大的压力,谷歌次日也一口气发布了包括多模态AI模型Gemini 1.5 Pro和文生图模型Imagen 3在内的10余款产品。 这些新品的发布也让大模型技术的未来充满了无限可能。 自去年3月GPT-4震撼发布以来,距今已逾一年。彼时,作为AI领域的里程碑事件,GPT-4点燃了硅谷科技圈的想象力,就连低迷的风投圈也随着这股浪潮进入了前所未有的投资热潮。 在全力比拼速度的局势下,大模型也从单模态快速转向多模态,开源基础大模型也如雨后春笋。《每日经济新闻》记者梳理硅谷大模型格局发现,在基础模型上能够占据头部的大多带着科技巨擘的烙印。 在这场竞速赛中,算力和数据成为决定性的因素。凭借雄厚的资本,谷歌等科技巨头迅速掌握主导权,而对于AI初创企业而言,如果没有巨头的支持,则很难在激烈竞争中持续生存下去。开源文本图像模型Stable Diffusion的开发商Stability AI就是一个典型的例子。 但初创公司也并非毫无机会可言。美国知名风投公司Day One Ventures创始人兼CEO Masha Bucher在接受《每日经济新闻》记者采访时表示,在大模型上的竞争对于新来者来说不会有成果,除非有一种新颖架构能够产生突破性的性能,但垂直化AI是现在最有趣的商业机会。 Bucher称,“新生力量可能会通过利用被忽视的利基市场或在效率和应用特异性方面超越巨头来实现这一目标。”而作为AI应用的最佳载体,人形机器人已成为各大科技公司、资本圈竞相追逐的宠儿。 硅谷大模型生态:完成多模态转向,开源盛行,市场高度集中 GPT-4发布一年后,硅谷大模型生态现状如何? 从技术角度看,大模型已完成向多模态的进化。硅谷知名创新智库NostaLab创始人John Nosta向记者总结过去一年的大模型发展趋势时称,过去一年是这一历程中的关键一年,AI大模型从单模态系统过渡到多模态系统。据华福证券,当前硅谷科技公司的比拼重点已转向多模态信息整合和数据挖掘,精细化捕捉不同模态信息的关联。 一篇由腾讯AI实验室、京都大学等机构研究人员共同发布的多模态大模型研究论文指出,自GPT-4发布后,多模态大模型在2023年呈高速增长趋势,Meta、谷歌、微软、亚马逊等公司都发布了多个同类模型,探索多模态系统。 图片来源:《MM-LLM:多模态大型语言模型的最新进展》论文 与此同时,开源基础大模型也更为盛行。根据斯坦福大学的HAI研究所最新发布的AI报告,2023年全球共发布了149款基础款模型,其中108款来自科技公司,美国科技公司以61款遥遥领先。在所有新发布的模型中,65.7%是开源模型,比例高于2022年的44.4%。 图片来源:HAI研究所最新发布的AI报告 从整个基础大模型的市场格局看,占据头部的大多数都有大厂烙印——要么是OpenAI、谷歌、Meta等巨头,要么是有传统科技巨头大手笔投资的Anthropic、Mistral AI等明星初创公司。 布鲁金斯研究院在一篇名为《基础模型市场的集中度:ChatGPT的无形之手》的报告中曾总结道,前沿基础模型市场呈现出强烈的市场集中化趋势。 科技巨头在基础大模型上占据牢固的优势。HAI研究所的AI报告显示,从基础模型的数量来看,谷歌遥遥领先,2023年发布了18个基础大模型,Meta位居第二,发布数量为11个,紧随其后的是微软和OpenAI。 图片来源:HAI研究所最新发布的AI报告 若从基准测试的表现来看,科技媒体Zapier总结称,OpenAI的GPT系列模型当之无愧位于首位,然后是谷歌、Meta、Anthropic和Mistral AI等公司发布的竞品模型。 图片来源:Zapier 除了性能表现,从另一个角度亦可以一窥硅谷前沿模型的情况。 各公司在公布大模型时,通常会同时发布技术文档来对比时下前沿模型的基准表现。记者在查阅Grok-1.5、Llama 3等多个模型的技术文档后发现,科技公司们对当前领先模型的总结几乎达到一致。 以Grok-1.5为例,在xAI今年3月公布的技术文档中,时下前沿模型也主要来自OpenAI、谷歌、Meta、Mistral AI和Anthropic等公司。 竞速赛现状:门槛升至数十亿美元,有初创公司濒临破产 在市场资源如此集中的情况下,据外媒最新报道,AI热潮已开始逐渐褪去,初创公司想要同微软、谷歌等科技巨头在AI领域一决高下,门槛已提高至数十亿美元,而这也可能只是杯水车薪。 首先,算力和数据是开发大模型无法绕过的两大难点。 根据HAI研究所的AI报告,训练巨型模型的成本呈指数级增长,谷歌Gemini Ultra的训练成本估计为1.91亿美元,GPT-4的训练成本估计为7800万美元。 图片来源:HAI研究所最新发布的AI报告 科技巨头凭借雄厚的财力、广泛的数据存储库和大量的算力基础设施,在底层模型上可以建立牢固的立足点。而初创公司,除非依靠大公司的财力,否则几乎没有能力承担模型的高成本训练。 并且,高昂的成本带来的收益却并不对等。例如,背靠亚马逊和谷歌的Anthropic当前的年营收已达到1.5亿~2亿美元,但年支出却是营收的10倍以上,高达20亿美元;初创公司Inflection AI在推出AI个人助理一年后,仍几乎没有收入,今年3月底,公司关闭了原有业务,基本上完全并入了微软。 就连Meta这样的巨头也无法指望立刻从AI中获利。Meta今年增加了高达100亿美元的基础设施支出,但预计多年内不会从其AI产品中赚钱。 对意欲独自抗衡大厂的初创公司来说,财力耗尽可能是最终面临的困局。开源文本图像模型Stable Diffusion的开发商Stability AI就是一个较为典型的例子。 据The Verge 4月18日报道,Stability AI已裁员10%,公司CEO Emad Mostaque 已于3月底辞职。据此前外媒报道,截至2023年10月,Stability AI只剩下400万美元的储备金。 2023年,Stability AI的年收入仅约1100万美元,远低于其当年租借的算力基础设施费用。据悉,该公司从亚马逊 AWS、谷歌云和以GPU为中心的云运营商 CoreWeave处租用了计算基础设施,费用约9900万美元。此外,工资和运营费用差不多约5400万美元。 拿不出钱,是这家初创公司当前面临的困境。 记者查询该公司的融资发现,截至目前其经历了3轮融资,总计1.7亿美元,但其投资方却鲜少有大厂身影。最近一轮融资来自英特尔,但金额仅为5000万美元,目前仅支付2000万美元。 Stability AI的投资方 图片来源:Crunchbase 2022年8月,Stability AI凭借文生图工具Stable Diffusion声名鹊起,一年多后却面临如此窘境。分析认为,主要原因是其未能平衡好开源和商业化。 一开始,Stability AI便希望通过开源版本为企业打响名声,继而为企业级用户提供定制版赚钱。直到2023年12月,Stability AI才上线会员订阅模式,但彼时已有Meta、谷歌、OpenAI等诸多巨头涌入这一赛道,强敌环伺之下,Stability AI虽不能说黯然失色,但也并不突出。 没有大型资本撑腰,又要与诸多大厂对抗,Stability AI可以说是“debuff”(注:减益效果)叠满,走到当前境地也并非意料之外了。 Masha Bucher告诉记者,“越来越明显的是,并非所有参与者都能生存下来——市场已经变得相当饱和,随着资本变得更加挑剔和大模型变得商品化,许多公司将面临严酷的现实。” 突围之道:小模型和AI应用 对初创公司来说,“卷”底层模型入局门槛太高,但在AI生态中却并非没有立足之地。 “基础模型/LLM几乎完全商品化,在这个维度上的竞争对于新来者来说不会有成果,除非有一种新颖架构能够产生突破性的性能。”Masha Bucher对记者表示,“初创公司应该专注于将模型深度集成到产品中,而不是创建自己的基础模型。” 与国内的“百模大战”相比,硅谷创业公司更偏向于小模型、水平层和垂类应用层的开发。(注:水平层指AI技术和解决方案可以跨多个行业和领域通用的情况,例如开发工具、数据库。) 外媒称,小语言模型(SLM)是一个充满希望的前沿领域,SLM通常比LLM小5~10倍,需要的训练数据和算力要少得多,可以托管在单个GPU上。这些模型可以针对特定行业或任务进行定制,例如法律文件分析或利基语言翻译服务。 在水平层和垂类应用层面上,AI初创公司们更是百花齐放。布鲁金斯研究院认为,“训练基础模型的固定成本很高,而部署基础模型的边际成本却很低。” 图片来源:CB Insights 这类初创公司背后的仍然不乏科技圈的大佬们,硅谷的投资也正在往这个方向倾斜。“垂直化AI是现在最有趣的商业机会,我们看到AI以难以置信的程度融入触及深层社会和环境需求的领域——从推进基因组研究到开创应对气候变化的新方法。” Masha Bucher说道。 根据HAI研究所的AI报告,2023年,生成式AI领域的投资增长了近八倍,达到252亿美元。新投资的AI公司数量飙升至1812家,比上一年增长40.6%。 图片来源:HAI研究所最新发布的AI报告 但是,AI领域私人投资总额却有所下降。风投公司Greylock合伙人Seth Rosenberg认为,总体投资下降的原因在于投资正在转向AI应用。“AI应用程序和代理所需的资本低于其他部分,这可能就是资金下降的原因。” “过去一年,美国生成式AI投资格局发生了显著变化,大众的热情正聚焦于更加精细的点。就像我们最初在2020~2021年加密货币时代看到的狂热一样,过去一年,硅谷生成式AI的投资者们变得更加深思熟虑、更有选择性。市场已经变得相当饱和,许多公司将面临严酷的现实。” Masha Bucher对记者说道。 下一个风口:人形机器人? 作为AI应用的最佳载体,人形机器人从去年开始便成为各大科技公司、资本圈竞相追逐的宠儿。经历了一年多狂热发展的大模型正在为这一细分领域注入新的可能性。 今年2月,成立还不到两年的Figure AI获得了来自由微软、英伟达、OpenAI的风投分支和亚马逊创始人贝索斯组成的豪华团队的6.75亿美元融资;同月,英伟达成立GEAR实验室,加码人形机器人赛道;而此前,谷歌Deepmind也发布了具备“自我完善”能力的“RoboCat”和融合大语言模型能力的VLA模型“RT-2”,推动机器人智能化进一步加速。 活跃在人形机器人领域的公司还有特斯拉、由亚马逊支持的初创企业Agility Robotics、OpenAI投资的挪威1X公司和位于得州的Apptronik等。 据高盛,人形机器人的全球市场总规模将在2025年、2030年、2035年分别达到15亿美元、120亿美元、380亿美元。 Masha Bucher告诉记者,“整个(风投)行业中的许多人都对深入应用于生物技术、机器人、气候、建筑的AI感到非常兴奋。” 曾经的互联网、软件和云业务造就了美股的新生力量——科技“七姐妹”。生成式AI会催生出下一代新生力量吗?“至少在目前的市场状况下,似乎无法摆脱大型科技公司的主导地位。”外媒Medium这样写道。 不过,Masha Bucher对记者表示,“尽管微软、谷歌等巨头在之前的计算时代占据主导地位,但历史经验表明,创新可能来自意想不到的地方,颠覆者的席位始终存在。新生力量可能会通过利用被忽视的利基市场或在效率和应用特异性方面超越巨头来实现这一目标。”
“天猫精灵之父”创业打造“鼻尖上的GPT”,扫射豆包、Kimi盲区
作者 | 三北 编辑 | 漠影 拥有一款“鼻尖上的GPT”是一种什么体验? 近期,杭州李未可科技公司推出了首款AI眼镜Chat,支持用户通过语音与眼镜中的智能助手进行交互,比如答疑解惑、日程安排、语音导航、英语翻译等,都不在话下。 同时,这款AI眼镜背后的多模态AI大模型平台WAKE-AI也随之开放。据悉,这是国内首个面向AI眼镜等可穿戴设备的大模型平台,既支持李未可科技内部团队做开发,同时也为广大AI开发者伙伴提供技术共享。 当下,市面上已经有豆包、Kimi等多款支持大模型语音交互的平台,但它们大多以匹配PC、手机为主;WAKE-AI则率先切入AI眼镜这一新形态,试图为用户带来更自然的交互、更人性化的陪伴、更场景化的精准服务。 李未可科技创立于2021年10月,创立之初便聚焦“AI+AR”眼镜赛道,公司成立仅三个月便拿下字节跳动的融资,其创始人茹忆曾是阿里AI实验室智能终端负责人、天猫精灵硬件&产品总经理,也是这波大模型浪潮中最具代表性的创业者之一。 ▲李未可科技创始人兼CEO茹忆 当下,随着Ai Pin、Rabbit R1等AI新硬件产品在国外崭露头角,掀起大模型智能终端的新风口,国内“天猫精灵之父”带队的新锐团队也交出了答卷,成为智能硬件产业关注的一个焦点。 AI智能眼镜是否会成为一种主流的AI新硬件?面向“AI+终端”的多模态AI大模型平台WAKE-AI有什么过人之处?通过对话李未可科技创始人兼CEO茹忆、AI首席架构师庄博宇,本文对此进行了深入探讨。 一、在豆包、Kimi的射程盲区,打造“鼻尖上的GPT”陪伴助手 尽管豆包、Kimi等各种大模型App风靡手机端,但它们却迟迟未攻入智能眼镜等可穿戴设备。 背后的一大“拦路虎”是时延问题。庄博宇告诉智东西,用户在眼镜上对机器时延的容忍度比在手机上更低,1.8秒是一个容忍时间,如果超过这个时间点,用户就会感到交互不流畅自然。然而,包括豆包等市面上的多个大模型落地眼镜都需要5秒左右。 为此,李未可科技自研了WAKE-AI大模型平台,试图为用户打造一个随叫随到的“鼻尖上的GPT”陪伴助手。 据悉,该平台专门面向可穿戴设备等终端优化研发,能在500毫秒内快速精准地识别用户指令,且将大模型实时回答反馈控制在2秒左右,具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。 从体验来说,这意味着用户将可以在AI智能眼镜上享受到自然流畅的AI交互,比如让眼镜搜索新闻、导航目的地或增加日程,都不会太费功夫。AI智能眼镜可能取代手机的部分功能,让用户真正体验到AI融入生活。 “技术的一小步,用户体验的一大步。”茹忆说。从2016年3月阿尔法狗打败李世石到2022年的12月份ChatGPT 发布,中间经历了六年六个月时间,AI算法架构从CNN、BERT改进到Transformer,模型参数扩展带来智能涌现,茹忆对此感到很兴奋,认为这将为语音交互体验带来巨大提升。 与在上一波AI浪潮中押准智能音箱风口不同,这一次,茹忆认为,眼镜将成为AI落地的最佳载体之一。这与Meta首席科学家、图灵奖得主杨立昆的观点不谋而合,杨立昆在前不久也曾提到:“通过智能眼镜访问的AI助手是未来的趋势。” 面向这一趋势,李未可科技近期推出的AI智能眼镜Chat是其小试牛刀之作。 以低至699元的价格让用户低门槛地迈入AI体验大门,Chat可以说非常亲民。这款AI眼镜的外形与日常佩戴的眼镜几乎没有差异,但简约却不简单,一个贴身陪伴助手的雏形已经出现。 二、自研WAKE-AI大模型平台,三大技术护城河打造交互新体验 可以预测,大模型未来将重新定义智能眼镜等可穿戴设备。可穿戴设备将不再只是工具,而是好像有一个真人助理在用户旁边,或者一个虚拟人在用户鼻尖上的眼镜里,帮用户解决各种复杂的问题。 WAKE-AI大模型平台推出的意义,则是将大模型运用到AI硬件设备上的诸多畅想落地实际,不仅实现更自然的交互,还带来更人性化的陪伴,更精准的服务。 那么从技术角度来看,WAKE-AI大模型平台究竟有什么过人之处? 据悉,李未可科技通过三种方式提升WAKE-AI大模型平台的效果: 第一,使用定向优化的分发大模型,帮助AI助手能快速地分发用户的指令,打造更自然的交互。 第二,基于情感大模型,使用户和设备产生深度信任,让AI助手形成更有温度的陪伴。 第三,针对室外场景需要大量的数据,使用多模态的VQA(视觉问答)模型,让用户可以指哪问哪,获得更精准的服务。 1、分发大模型+Agent,让交互更自然 作为一款C端产品,AI智能眼镜的交互体验被李未可科技放在首位。WAKE-AI大模型平台能提供更丰富的交互功能,同时耗时比同行更低。 庄博宇谈道,比如当用户与豆包语音聊天,往往需要2秒才能完成语音交互,时间主要花在语音与文本相互转化及大模型推理上。但这一交互体验仅限于聊天,而不能执行网络搜索、导航等更复杂的任务。 但是,基于WAKE-AI大模型平台,用户在AI智能眼镜上调用大模型的时延大大降低,一般对话时延控制在1.8秒左右、2秒以内;同时,用户还可以体验主动搜索、语音导航、眼镜操控等多样化的功能,复杂的交互反应也能缩短至3-5秒。 背后,李未可科技团队使用分发大模型,通过语音输入来快速分发用户意图,为用户提供反馈;同时,大模型支持不同的AI Agent的能力,能快速执行用户的导航、买票、备忘录等可能存在的刚需意图。 此外,团队也在降噪技术、收音、ASR(自动语音识别)技术等方面也做了大量优化,从而使得用户能与智能助手更丝滑地进行交互。 2、情感大模型+超拟人TTS,让陪伴更人性化 茹忆和庄博宇都提到了《她》(Her)这部科幻电影,片中的机器人由于与主人公建立了情感连接,从而能进行更有深度的聊天和陪伴,这是李未可科技希望打造的智能助手的一个理想形态。 基于这样的愿景,李未可科技与市面上同行的一大差异化是做情感搭配。 为了让AI眼镜产品具备更拟人化的特征,李未可科技团队一是基于情感大模型研发了长记忆系统、情感类的Agent,二是打磨了拟人化的TTS(文本转语音)技术,以此打造用户能够天天使用AI智能眼镜的核心基础。 在情感大模型方面,对标国内外的Claude等相关模型,庄博宇及其团队发现了一个行业核心的问题:大模型的记忆力是有上限的,不利于长时间陪伴用户。 为此,李未可科技团队通过核心记忆和长期记忆,不断更新用户的画像,从而使得智能助手在对话中能够更充分地理解用户想要什么,更懂用户。 而在打造拟人化的语气方面,目前市面上能上线情感表述的文本转语音TTS能力的厂家并不多,因为它有一个延时的考量,AI抽取、理解和表述会耗费大量的时间,所以速度上面需要优化;第二是成本上的优化,比如豆包虽然在App上能够提供情感表达,但它并没有把这个API能力开放出来,智能终端厂商无法获取。 但是,李未可科技率先将超拟人TTS上线,把它轻量化到时延和成本都可承受的范围,然后开放出来,供自己的团队和合作伙伴使用。 3、多模态+LBS能力,让服务更精准 多模态大模型+LBS(基于位置的服务)会产生什么样的化学反应? 李未可科技已经找到了验证场景。Citywalk(城市漫步)是当下备受年轻人青睐的室外项目,多模态大模型可以让Citywalk的人做到“指哪儿问哪儿”,比如指着岳王庙里的碑问“碑上写的到底是什么”,一套精准的智能导览服务就诞生了。 据悉,李未可科技已经打造了“旅游助手+城市漫游系统”,核心是数据内容,以景区作为核心供给,现在大概有2000多个景区数据。 结合这些景区数据,团队已经打造了景点游玩导览、自动巡航系统、地点弹幕等多个服务,而多模态大模型的加持则让“指哪儿问哪儿”、自动生成路线、自动生成游记等更多丰富功能涌现,从而为用户提供更精准的服务。 庄博宇告诉智东西,大模型使得原本碎片化的场景走向大一统,从而使精准服务的成本大大降低。一方面,WAKE-AI大模型可以更好地理解和消化海量的景区数据,另一方面,Agent可以对数据进行更加自动化地处理,这使得团队能够在精准度和信息数量基础上提供更好的服务。 可以看到,通过从模型了解意图、搜索资料、转化风格、分析情绪、转化声音的各个环节去做优化,李未可科技试图打造交互更自然、陪伴更人性化和服务更精准的AI眼镜设备,从而交出其大模型应用创业的“答卷”。 三、Meta苹果看中的新赛道,“天猫精灵之父”带领国产抢跑 当下,已经有不少大厂盯上了“AI+AR”眼镜赛道。比如Meta与雷朋合作的AI智能眼镜已经在测试多模态大模型,并在近期宣布将推出首副“AI+AR”眼镜;苹果近期也传出正研究端侧大模型,可能将落地Vision Pro…… 与此同时,也有一些知名企业似乎在抽火。比如近期OPPO被传出了暂停XR探索,相关人员将转向AI设备方向的开发,或许意味着其“AI+XR”眼镜业务踩下了刹车。 对此,茹忆认为这是由于产业发展仍处于初级阶段,大家还未形成共识。这就考验创业者对事情的认知,以及如何与自身优势做结合。 站在李未可科技的角度来看,“AI+AR”眼镜的发展已经处于一个临界点,即将突破用户体验差,为此团队进行了积极布局。 李未可科技打法的一大特点是不强行创造出一种产品形态,而是在已存在的产品上进行AI升级,从而在存量市场基础上拓展出新的增量市场。根据知名数据分析机构Statista数据,2023年全球眼镜市场总规模超1400亿美元,2015-2025年全球眼镜市场规模从1183 亿美元提升至1552亿美元。 “未来我们的眼镜都会智能化,就像手表智能化一样。”茹忆说,“它的标志是体验成本大大降低,用户买一副AI智能眼镜和买一副传统眼镜价格也差不多,那为什么不买一个AI智能眼镜?现在手表就是这样。” AI智能眼镜市场的发展壮大需要生态共融。目前,李未可科技已经将WAKE-AI大模型平台面向伙伴开放,与伙伴一起来建设AR眼镜+AI能力、在室外等多个场景的生态。 结语:大模型卷入设备端,AI智能眼镜或成室外最佳载体 当下,大模型加速落地端侧,我们可以看到AI PC、AI手机、AI智能眼镜以及各色的AI新硬件如雨后春笋般冒了出来。凭借便携、可扩展等多重优势,眼镜或许成为大模型在室外落地的一大最佳载体。 现阶段大模型在端侧落地应用仍处于初级阶段。可以预测,未来云边端异构架构将发展得更加庞杂,同时多模态交互变得更加丰富,这对速度、性能和成本的平衡会提出新的要求,也将成为AI硬件赛道玩家需要直面的新挑战。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。