EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
Meta股价大涨,扎克伯格为何全力发展开源人工智能“Meta将与OpenAI大战”
美国社交媒体巨头Meta Platforms公司(Facebook母公司)2月1日公布了2023财年第四季度和全年财报。财报显示,在经历了2022年的业绩下滑后,2023财年Meta实现了强劲复苏,全年总收入同比增长16%,达到1630亿美元,净利润更是同比大幅增长52%,达到1036亿美元。 Meta股价应声大涨 在电话会议上,扎克伯格表示Meta的两大长期重点领域仍是人工智能和元宇宙。公司将大力投入建设AI基础设施,以支持公司内部新产品的研发。此外,Meta还将推出一系列消费者AI产品,包括Meta AI智能助手、面向创作者的AI Studio等。扎克伯格预计,这些AI产品将在2024年内在公司各大应用中得到广泛应用。 一个基础 扎克伯格正在建设世界一流的计算基础设施。到 2024 年底,Meta将拥有约 35 万台英伟达 H100,总计相当于 60 万台 H100 的计算能力。这一规模将为支持未来模型的训练和推理奠定坚实的基础 值得注意的是,扎克伯格阐述为什么Meta要全力发展开源人工智能: 我知道有些人对于我们将研究结果和大量计算的成果开源的好处有些疑问,所以我认为在这里明确战略利益可能会很有帮助。简而言之,开源改进了我们的模型。由于将模型转化为产品仍需大量工作,而且其他开源模型也将可用,我们发现成为开源领导者基本上是有很多优势的,并且它并不会显著削弱我们产品的差异性。 更具体来说,有几个战略上的好处 首先,开源软件通常更安全、更稳健,因为社区的持续反馈、审查和开发。这很重要,因为在AI中,安全性是其中一个最为重要的问题。提高效率和降低计算成本也使所有人受益,包括我们自己。 其次,开源软件通常会成为行业标准,当公司采用我们的技术栈进行构建时,将更容易将新的创新整合到我们的产品中。这可能有些微妙,但迅速学习和快速改进的能力是一个巨大的优势,而成为行业标准则使这一点成为可能。 第三,开源在开发人员和研究人员中非常受欢迎。我们知道人们想要参与在广泛采用的开放系统上的工作,因此这有助于我们在Meta招募到最优秀的人才,这对于在任何新技术领域取得领先地位都是非常重要的。而且,由于我们通常拥有独特的数据和构建独特的产品集成,因此像Llama这样的基础设施开源并不会减弱我们的主要优势。这也是为什么我们长期以来一直采用开源通用基础设施的策略。
晶科电子“变身记”:李书福儿子突击入股,汽车类业务居首
作者 | 王亚静 编辑 | 胡芳洁 在冲刺上交所科创板折戟之后,晶科电子选择转战港交所。 2月1日,广东晶科电子股份有限公司(以下简称“晶科电子”)递表港交所,中信证券为独家保荐人。 这是一家融合LED+技术的智能视觉产品及系统解决方案提供商,专业领域涵盖汽车智能视觉、高端照明及新型显示产品。 自2019年2月在新三板摘牌之后,晶科电子再次进入资本市场的道路走得并不顺遂。 公开资料显示,2019年公司曾递表科创板,但在收到上交所问询函后,晶科电子和保荐机构并未回复问询函,并于2020年5月申请撤回上市申请文件,A股之路就此终止。 没有顺利进入上交所的晶科电子,在业务上还是成功搭上了吉利这趟快车。招股书显示,2020年,公司与吉利系企业开始业务合作,到2022年时,吉利系企业已经成为公司第一大客户。 蓄力4年之后,晶科电子又一次向资本市场发起冲击,只不过目标从上交所换成了港交所。而这一次,晶科电子能够顺利敲开港交所的大门吗? 1 转战港交所, 传统照明业务接连下挫 晶科电子的业务历史最早可追溯至2003年。 当年2月,陈正豪、肖国伟与香港科技大学的研究人员在香港通过微晶先进光电开始从事LED芯片和产品研发业务。2006年8月,微晶先进光电于广州成立了晶科电子,并逐步整合合并微晶先进光电的业务运营。 经过多年运营,晶科电子在行业中占据了一定地位。根据灼识咨询资料,以收入计,公司2022年及2023年前9个月在中国高端照明行业器件和模块内资厂商中排名第三,在中国中高端汽车智能视觉行业内资厂商中排名第五。 从业绩来看,晶科电子的收入节节攀升,但利润却起伏不定。 招股书显示,2021年-2023年前9个月(以下简称“报告期”),公司实现收入13.88亿元、14.11亿元和13.39亿元;期内利润7800万元、3907.1万元和4956.8万元。由此可见,2022年公司利润几乎“腰斩”。 图 / 晶科电子招股书 而2022年,正好是晶科电子的一个转折点。 这一年,吉利系企业于报告期内首次升为公司的第一大客户。借力于此,晶科电子起步不久的汽车智能视觉业务获得了突飞猛进的发展。 2021年-2023年前9个月,汽车智能视觉业务分别贡献了5.3%、28.3%和39.3%的收入。不到3年时间,这一占比最少的业务一跃成为公司第一大收入来源。 图 / 晶科电子招股书 不过,晶科电子却没有守住传统高端照明业务的“城池”。2021年,高端照明业务实现10.34亿元的收入,占比总收入的74.5%。到了2023年前9个月,这项业务仅贡献了38.3%的收入,金额只有5.13亿元。 带着这样一份喜忧参半的成绩单,晶科电子向港交所发起冲刺。其实,这已经不是公司第一次尝试登陆资本市场。 早在2016年,晶科电子就已登陆新三板,直到2019年2月,公司才从新三板摘牌。对此,公司表示此举是调整发展战略及筹备申请在上交所科创板上市。 2019年12月,公司便向科创板提交了招股书。随后,上交所在2020年1月向晶科电子发出首轮问询,但公司并未就此进行回复。4个月后即2020年5月,晶科电子和保荐机构申请撤回上市申请文件。 2 过度依赖吉利, 李书福儿子突击入股 不可否认,自科创板折戟之后,晶科电子在尝试改变,但遗憾的是,企业仍然没有改变对大客户的依赖。 此前其在递交上交所的招股书中披露,2016年至2018年,来自前五大客户的收入占同期营业收入的比例分别为82.77%、81.71%和87.49%。 图 / 晶科电子招股书(科创板版本) 此时,飞利浦照明、三星电子作为前两大客户为公司贡献的营收遥遥领先。2016年至2018年,来自这两位客户的收入占公司营业收入的51.19%、66.67%及68.15%。此时,公司仍然专注于LED封装及应用模组产品。 不过,晶科电子这时已经在试水切入汽车领域,并成功与吉利建立了联系。 招股书显示,2018年10月,公司与吉利系企业共同成立了一家汽车智能视觉产品企业——领为视觉。其中,吉利控股的浙江吉创持股51%、晶科电子持股49%。 图 / 晶科电子招股书 但在2020年12月,浙江吉创转让了自身持有的领为视觉全部股份退出,接盘者是耀宁科技。值得注意的是,截至最后实际可行日期,耀宁科技由吉利控股集团董事长李书福的儿子李星星间接控制。 图 / 晶科电子招股书 晶科电子与吉利的关系并没有斩断,而是不断加深。还是在2020年这一年,晶科电子开始与吉利系企业开展业务合作。 自此之后,吉利系企业在晶科电子业务中的份量越来越重。招股书显示,2021年-2023年前9个月,公司来自吉利系企业的收入分别为0.51亿元、3.50亿元及4.83亿元,分别占同期总收入的3.6%、24.8%及36.1%。 其中,2022年、2023年前9个月,吉利系企业均为晶科电子的第一大客户。 图 / 晶科电子招股书 而晶科电子与吉利的亲密关系不止于此。 招股书显示,担任公司非执行董事的郑鑫正是李书福的女婿。另外,自2020年12月起,郑鑫就担任耀宁科技的总经理。 图 / 晶科电子招股书 在晶科电子IPO的前夕,耀宁科技更是突击入股。2023年12月,晶科电子自耀宁科技收购了其在领为视觉的全部权益,代价不是现金,而是向耀宁科技发行股份。 图 / 晶科电子招股书 对于这一行为,晶科电子给出的解释是为精简集团的公司架构。 而从李星星一方来看,在获得这些配发股份后,耀宁科技一跃成为晶科电子的重要股东。IPO前,耀宁科技持有公司13.76%股权,是除微晶先进光电以外,唯一持股比例超10%的单一股东,而李星星因于耀宁科技拥有权益而成为晶科电子主要股东。 图 / 晶科电子招股书 深度绑定李书福的儿子、女婿后,晶科电子与吉利的关系或许会更加牢固。 而晶科电子也预计未来来自吉利系的收入将持续增长。招股书显示,公司已与吉利集团各成员订立产品及服务供应框架协议,根据协议,2024年-2026年,来自吉利系的交易金额上限分别为10.81亿元、12.18亿元及12.55亿元。 图 / 晶科电子招股书 3 股东累计套现上亿 在晶科电子的股东列表中,其实不乏资本机构。 例如,在新三板上市之前,公司曾经历过一系列股权变动及增资,先后引入了浩瀚光电、粤科投资、国民创投、晶宇光电等企业。 在新三板上市期间,晶科电子于2016年、2018年进行了两轮配股融资。 2016年,公司配股募集资金8990.80万元,引入了中保产业、广东科技风投、西交科创等多家机构。 2018年,公司再次进行配股融资2.11亿元。值得注意的是,在这次配股过程中,公司总裁侯宇配偶高涛、公司副总裁曾照明配偶王红英得以进入公司股东的行列。 图 / 晶科电子公告、招股书 而公司在新三板退市后不久,晶科电子的股东们便开启了套现之路。 2019年6月,微晶先进光电向中科白云、丰衍投资转让股份,分别套现约2982万元、300万元。 图 / 晶科电子招股书 2021年,东屹基金、微晶先进光电进行了数次股权转让,合计套现约1.08亿元。 图 / 晶科电子招股书 2022年5月,恒洲信将200万股股份转让,套现600万元;2023年6月及8月,嘉木融合、丰衍投资分别通过股权转让套现2723万元、300万元。 图 / 晶科电子招股书 晶科电子直言,由于这些投资是通过股东之间转让股份的方式进行,因此公司并无收到任何所得款项。 相比于这些股东,晶科电子或许更需要这些资金。截至2023年12月20日,公司现金及现金等价物仅有1.63亿元,和股东们的套现金额不相上下。 图 / 晶科电子招股书 同样截至2023年12月20日,公司尚未动用的银行融资为9.01亿元,如若以此来补充现金流无疑将加重企业的负债,而企业的资产负债率本已经存在上升趋势。 2021年-2023年9月末,晶科电子的资产负债率分别为54%、54%及58%。 图 / 晶科电子招股书 而上市融资既能不加重企业负债,还能补充现金流,可谓一举两得。 本次IPO,晶科电子计划将部分所得款项净额用作营运资金及一般公司用途。公司认为,考虑到经营现金流量、融资所得款项净额以及可用的财务资源,公司有足够的营运资金满足目前(即自本文件日期起)至少12个月的需求。 为何时隔4年,晶科电子又绕路冲击港交所,由此也可窥一二。只是不知,这一次,和吉利系企业、汽车类业务紧紧关联在一起之后,晶科电子能否如愿进入港交所?
Apple Vision Pro深度品评:黎明到来前的光线
Hello各位好,这里是前方记者Hugo,在美国旧金山为您带来报道,今天让我们来深入聊一下 Apple Vision Pro ——近期在媒体上最火爆,但其实只卖了20万台的一款数码产品。 说来搞笑,当初苹果宣布要在1月19号开启预售的时候,按照苹果新产品线一贯以来的饥饿营销套路,很多人(包括我)都以为这个产品是要抢的。又因为它第一批只在美国卖,又是美国东部时间早上八点开售,我就指派了一个湾区孝子当天早上五点起来帮我抢。 没想到非常容易地就抢到了。这两天我来这边提货,发现苹果店甚至是有现货的。。。 这就好比路上有个卖拐的叫价一千,我狠狠心给他打个对折,他直接就答应了?莫非这是个坑? 很显然,Vision Pro的实际上市反馈,比苹果本已很低的预期还要差。 3500美元的定价,再加上一些选配,到手差不多要3万块人民币,又不知道它有什么用。我想了一圈,除了一些思聪型的人,或者搞VR/MR投资、研发的人,还有我们这些做科技媒体的有必要跟踪一下行业前沿之外,确实没有理由去买它。 即便是它现在的销量,其实也有很大水分,因为苹果在美国有个两周无理由退货的条款,我问了一圈朋友,打算退的可不在少数哦。 虽然销售惨淡,但这个产品在媒体上的热度有目共睹。因为很多朋友都试玩过或者看到过这一类VR/MR头显产品,或多或少都有在关注,觉得它是科技数码领域为数不多的有可能爆发的赛道。 那么,现在世界上最大牌的硬件厂商终于下场了,果子哥是否会带来质的突破呢?这玩意儿会不会像当年个人电脑出现,智能手机出现那样改变世界呢? 今天我就结合上手试玩的体验展开讲讲。 头戴式显示器,永远只是未来可期? 虽然苹果一如既往地在营销定位上规避与同类产品内卷,库克把Apple Vision Pro称为一个所谓的空间计算机(Spatial Computer),但我们都知道,它其实就是一个头戴式显示一体机,简称头显。 为什么会有人锲而不舍地开发头显呢?因为它的优势是非常拔群的。 基本上所有的数码产品上都有个屏幕,屏幕越大看着越舒服,我想是大部分人的切身体会。但现实中,有时是因为要单手操作,有时是因为太贵或者家里客厅不够大,所有的屏幕尺寸都会受到限制。 头显是唯一的例外。 头显会占据我们的整个视野,所以它的屏幕无限大。 在头显里面,所有交互方式将不再受到屏幕大小的限制。看电影的时候屏幕可以比Imax影院还大,跟我爸打视频电话的时候,我爸本人1米75他在头显里也可以是1米75。 甚至头显还能跟踪我们头部的运动,让我们在打游戏、开会的时候,有一种身临其境的现场感,仿佛进入了一个平行世界。 所以头显,至少在能直接往脑子里灌信息的脑机接口出现之前,就是屏幕的终极版本。 但是,自头显这类产品2012年出现至今,已经过去了十多年,它始终没有流行起来,除了少数发烧友之外,它没有改变任何人的生活方式。 问题出在什么地方呢? 我是从早期HTC Vive玩到Quest2再到Pico4再到Quest3的老玩家了,在我看来,头显有三个致命的缺陷一直没有得到有效的解决,分别是: 1、不舒适:一个一斤重的东西,主要重要都在前面,戴在头上实在是卡得脸疼,脖子也受不了。很多时候游戏很好玩但是脸太疼了不得不终止,那种感觉属实酸爽。 2、隔离感:你是得到了一个小的平行世界,但你失去了整个地球(现实世界)。连跟人打个招呼、喝口咖啡,甚至看个微信拿个快递都得把头显摘下来,非常麻烦,我玩VR的时候还老怕踩了我的猫。久而久之,你每次拿起头显之前潜意识里就会担心,接下来是否有一整块时间可以隔绝周围的一切,这个心理负担其实还挺大的。 3、缺乏杀手级应用:似乎除了玩一些沉浸式VR游戏之外,别的事不用头显也能干,差别不大,而到现在为止真正的VR 3A游戏大作,只有20年3月发布的《半条命:Alyx》这一根独苗。于是久而久之我们的头显设备就放在角落里吃灰了或者挂闲鱼了。 那么,当苹果的头显千呼万唤始出来,是如何应对这三个问题的呢? 舒适性:显著进步 首先,就舒适性来说,Apple Vision Pro确实是同类型产品中,最舒服的一款。 Vision Pro很重,因为它配置高、芯片多、屏幕多、传感器多、自带散热风扇,还为了颜值用了很多玻璃、铝合金之类的重材料而不是像别的头显那样主要用塑料,它是现今全世界最复杂的数码产品,没有之一。 本体加绑带重达638克,甚至这还没算电池,电池是外接放口袋里的。 但非常令人意外的是,我戴上它之后发现,它的那种卡脸感,远不及重量更轻的同类型产品比如META Quest3严重,如果说你戴Quest3能戴半小时不觉得受不了,那戴Vision Pro可能能戴一个半小时。 原因我觉得有两点: 第一是它的人体工学设计更好,眼罩部分明显更小,正好卡在了我颧骨最突出的地方,而Quest3更容易往下划,于是就不得不卡得更紧。都是卡脸,显然Vision Pro卡在了更合适的位置。 第二是苹果把佩戴舒适性看得更重,在购买的时候和去店里提货的时候,都是要用iPhone扫脸反复确认你的脸型,力求给你配一个大小最合适的面罩和绑带。并且如果你近视的话,它不支持你戴着眼镜用,必须配一副磁吸式镜片。 由于我的磁吸式镜片还没到(从广州寄到美国),为了测试我不得不人生中第二次戴了隐形眼镜,戴了一个小时才戴上。。。所以说苹果为了舒适性,很大程度上牺牲了上手的便利性。 但即便如此,我不得不说,它在目前的重量下,戴着还是难受的,戴久了脸上还是会留下红色的印子,只是难受程度降低了,离无感佩戴还差了十万八千里。 交互体验:超过预期 苹果这把做得最牛逼的地方,是它用重新设计的交互方式,几乎完全抹除了那种与外界隔离的感觉。 当我们戴上Vision Pro的时候,它默认永远是透视状态,也就是我们可以通过摄像头看到外面,而操作界面会悬浮在半空中,当然这种设计并非苹果开创,是META在Quest Pro当中最先采用的。 魔鬼在于效果上。 META最新版透视效果只能说勉强能用,而Vision Pro的透视效果,已经非常接近于肉眼看到的真实世界。并且它没有任何可感知的延时,戴着看手机信息,甚至踢球,滑雪,打乒乓球,都不在话下。 当我们把一块屏幕放在空中的时候,它真的会一动不动地定在那里,不管我们怎么去转头去走动,这块屏幕连一点点颤动都不会有。 甚至我们可以放一块大屏幕在客厅看电影,放三块屏幕在书房办公,放一块小屏幕在厨房放炒菜视频,放一个购物清单在冰箱上,再放一个日程表在门口走之前看一眼当天的任务,第二天起床它们都在那里纹丝未动,空间定位极其精确。 苹果这次在头显这种小设备中用上了双4K OLED屏幕,总像素高达2300万,超过很多专业级大屏显示器。用搭载在笔记本电脑(而不是手机)上的M2芯片做图形渲染,用专门定制的R1芯片做传感器数据处理。 配置拉满,效果也确实是拉满。 当然你也可以通过顺时针转动头显上的旋钮,来调整沉浸度,直至进入到完全沉浸状态,苹果做了不少亮眼的环境可供选择,比如白沙滩: 比如云顶之上: 但有意思的是,即便在完全沉浸状态,当边上有人跟你招手的时候,你的画面上也会出现一个人的虚影,当你看向他的时候,他会显形。 Vision Pro是不带手柄的,它的操作是靠眼动跟踪+手势识别实现的,当我们需要点一个图标的时候,只需要看向它,它就会有一个浮起来的动画,这时候那手指这么夹一下,就当是点击了。 之前说实话我对这种操作方式能实现得怎么样是有所怀疑的。不过实际测下来,它的眼动追踪非常准确。 而放大缩小拖动屏幕,都是夹住之后移动,很符合人之常情。并且你可以把手放在几乎任何舒服的位置,Vision Pro的前方侧方下方都有传感器,它能看到。 显然在苹果的设计理念里,现实和虚拟是互相融合的,永远不要让用户脱离现实世界。眼睛是我们获取外界信息的最重要窗口,手是我们操作外界事物的最重要工具,不要用无关的东西占据它们。不管是时刻关注外界正在发生的事,还是用手去拿咖啡拿笔拿猫,都不应该有任何阻碍。 这个虚拟与现实深度融合的设计,整体感受是如此自然,以至于一些长期影响头显使用体验的问题,到这儿就消散于无形了,比如关于站立游戏的问题。 不知道大家是否有注意到,绝大多数的VR游戏,不管是节奏光剑还是阿斯加德之怒还是半条命Alyx,都是默认用户站着玩的,看起来倒是很动感。 但说实话,像我们这种游戏佬,有几个不是懒狗,有谁喜欢老是站着吗?不累吗? 不是说在VR里不能坐着,但想象一下这会很怪。你穿越到一个异次元空间,结果一直搁那坐着,这不成了霍金模拟器了吗?而在一个清晰的透视状态,相当于就在我们得日常环境里,坐着就显得再正常不过了。 不仅是与现实的交互,与其它设备的互联,这次Vision Pro也做得非常自然,比如说当我们戴着头显并且面前有一台登陆相同账号的Macbook的时候,我们只需要看向它,就会在它上面弹出一个“连接”按钮,点一下,Macbook的屏幕就出现在你面前的虚拟空间了,非常神奇。 这时候就可以用Macbook实体键盘打字,也可以用触屏或者鼠标控制光标,没有任何卡顿。当然这种体验仅限于苹果全家桶。 杀手级应用:依旧难产 说了那么多交互体验的问题,那么Apple Vision Pro是否搞定了杀手级应用呢? 不得不说,这是它的硬伤。 它的整个生态里目前只有150个原生App,剩下的都是别的苹果App兼容过来的。 Vision Pro最核心的功能其实是看视频,无限大的足够清晰锐利的屏幕,再加上不错的空间音频,这个观影效果着实华丽。 理论上它可以提供一些不同的视角,比如看NBA的时候坐在场边的3D视角,库里甚至有可能扑到你脸上救球,但遗憾的是,目前还没有哪个单位提供这样的服务。 它有一个空间视频功能,说白了你可以用Vision Pro或者iPhone15 Pro以上版本的手机,去拍摄3D视频。比如说拍一段给你小孩儿庆祝生日的视频,当你有朝一日用Vision Pro或者别的什么头显看这段视频的时候,它就会像昨日重现一样身临其境。 我知道很多有孩子的家庭就是为了记录下一些孩子的珍贵瞬间而买的Vision Pro,因为这种视频是3D的,跟当天你用肉眼看到的场景可以说一模一样。 但是它有两个问题,一个是它只对特定构图的视频有明显提升,比如你把生日蛋糕放在镜头前,大家一起在蛋糕后面唱生日歌,人物身后也留下足够深的空间,这样一个特殊设计的有景深的场景用3D视频看才会有独特的感动,而那些构图一般的视频其实看不出明显区别。 第二个是,我发现用Vision Pro拍的空间视频效果远好于用iPhone15 Pro拍的,因为Vision Pro真的是两个摄像头拍3D,而IPhone的3D是靠AI脑补的。这也就意味着,拍这种视频没法找个路人代劳(Vision Pro有操作门槛),那个操作Vision Pro的人,我们假设是家里的爸爸,他是无法入画的,这个取舍是否值得呢? Vision Pro可以帮你生成一个你自己的数字人形象(Persona),去打Facetime视频电话,这但这个形象吧,确实跟我很像但又没有那么像,还是有一些僵硬。 还有就是,它可以在虚拟空间放很多个屏幕,大小随意位置稳定。这对于一些需要多屏工作的人,比如程序员一个屏幕写代码,一个屏幕抄Github(不是),再比如盯盘的证券交易员,他们出差的时候就可以享受到类似办公室的工作环境了,这还是有点意思的。 此外Vision Pro提供了一些互动Demo,比如冥想的时候莲花会飘到你脸上: 恐龙会从屏幕中走出来: F1赛车会停在你家里: 展现了一些现实和虚拟深度交融的可能性。 但我想,我们都清楚,真正的问题不是有没有能用的功能,而是到底有什么东西那么有意思那么有用,值得我们顶一个一斤多的东西在脸上?为啥咱要遭这个罪? 目前看来,除了非常有限的一些场景之外,整体的应用完全达不到这个高度。 未来已来? 除此之外,Apple Vision Pro还有一些别的难以回避的问题。但我觉得并非硬伤。 首先,它那种眼动追踪+手势识别的操作方式,并非完全符合直觉。 当我们看向一个图标的时候,那图标浮起来了,同时我们用手指一夹,以为这就搞定了。但很多时候我们发现,App并没有打开。这是怎么回事呢?因为我们的眼睛动得比手快,夹手指的动作还没有完成,脑子已经开始想别的事了,这时候眼神就飘离了,结果就是毛也没夹到。为了规避这个错误,我需要非常聚精会神地去看我要选的图标,这还是非常消耗精力的。 这个bug看似很硬,但我认为它可以通过后续的算法迭代去解决。因为我们的意图是明确的,动作也是明确的,只是有个时间差而已,只要AI能更好地领会我们的意图,这个问题后续更新可以解决。 第二点是,Vision Pro目前只能绑定一个苹果账号,当然好处是多设备联动非常方便,你在冰箱上贴的记事本,可以通过手机操作去改它的内容,你在门口放的日程表,也可以跟电脑上的同步。 不过它也有一个难受的地方,因为Vision Pro的眼动追踪是需要因人而异校准的,而这个校准设定是跟你的账号唯一绑定的。这意味着,换个人用的话,ta的眼动追踪可能会非常不准,那就基本用不了了。这个目前只能靠启动一个访客模式来解决,问题是这个访客模式每次都需要主账户操作开启,而且每次用都要重新校准,麻烦得几乎用不了。 这个问题解决起来看似不难,只要加个多账户切换就行。但是种种迹象表明,似乎在苹果的设定里面,Vision Pro是一台个人设备,而不是全家共享的设备,它不一定会着手解决。 还有一些小问题,比如目前的手势动作不够丰富,有一些很常用的操作,比如回退操作,它是没有的,导致我把F1赛车的零件拆了不知道怎么放回去。比如他们前期宣传得挺多的那个,用前置屏幕显示使用者眼神的功能,目前处于一坨的状态。 但这些小问题都是可以通过软件更新解决的,并不影响我们借这次体验,思考下头显这类设备的未来。 所以总结来说,好消息是,苹果确实依靠自己掌握囊括芯片、操作系统、硬件和App在内的全栈研发能力,做到了近乎完美的透视效果和不需要手柄的交互操作,达成了现实和虚拟的优雅融合,彻底解决了戴了头显之后自绝于世界的问题,后续只剩一些小修小补了。 别的厂商之所以之前解决不了这个问题,是因为全球唯一一家类似苹果的全栈厂商,因为政治原因暂时用不上最高端的芯片工艺,其它的厂商都是靠高通的方案,而众所周知,高通费拉不堪。 不过高通还不至于费拉到连抄的本事都没有。所以不用担心,后续达到类似标准的头显设备只会越来越多,越来越便宜。 而坏消息是,一体式头显戴着难受的问题,一时半会儿是真解决不了。 库克在接受采访的时候说,目前这个重量已经是他们能做到的极限。而据一个在苹果做硬件的哥们说,Vision Pro近期内不会像iPhone那样一年一更新,它的下一代产品估计两三年之内都不一定能出来,因为这一把他们真的是豁出老命整合了人类现在能量产的、最顶尖的数码科技,短期内没有大幅度进步的空间了。要想再进一步压缩重量,只能等人类整体工业水平的提升了。 不过我们也不用过分悲观,因为这个头显其实不需要做到像戴个眼镜一样完全无感,因为你玩久了腰也会累,眼睛也会累,人的精力也有限,总要休息的。就像我开电动车就从来没有感受到过所谓里程焦虑,因为我的腰不好,电还没跑完腰先疼得不行。所以一定会有这么一个节点,比如重量压缩到两三百克的时候,佩戴舒适度问题对很多人来说就不是最大的短板了。 至于说目前看起来最硬伤的应用生态问题。 实际上在半路出家的META的VR/MR生态当中,已经有不下一百款挺好玩的游戏,年营收差不多有20亿美元。 那么我相信对于苹果这样本来就是做硬件和应用生态起家的玩家来说,达到META的水平应该问题不大,顶多像扎克伯格那样前期多补贴个几百亿呗。 但重要的事情再说一遍。真正的问题始终都不是有没有足够多好玩的小游戏,而是有没有东西值得我经常性地顶一个一斤多的东西在脸上。 我认为就目前来说,任何我用别的设备差不多也能完成的操作,我都很难把它转移到Vision Pro上,它必须要能完成一些我用别的设备干不了的事儿,或者在体验上有巨大的突破,同时这件事又非常高频,经常会发生。 其实这样的事儿是有的。 目前的障碍在于,现在开发一个好用的头显,门槛还是太高,只有实力强劲的大厂才有这个能力,而大厂需要针对广泛多元的人群管理品牌形象,没法过于野蛮生长。 苹果的入场确实让我们看到了一些新时代的曙光,不管Apple Vision Pro卖得怎么样,在这个数码产品年年挤牙膏要靠原神·启动才能勉强看出区别的时代,还有人在尝试挑战新的产品形态,这是创新精神的体现,我只能respect。 但Apple Vision Pro不可能是那款划时代的头显产品,VR/MR的IPhone时刻还没有到来,接下来只有等硬件技术的整体提升,以及技术门槛的降低,参与玩家的多元化。 会有一些玩家,类似苹果和META,采取先不计代价达到效果,再慢慢提升舒适度的策略。 会有另外一批玩家,类似Xreal这样的轻便式AR厂商,会采取先确保舒适度,从有限场景切入,再慢慢提升功能性的策略。 这两批人会随着技术的发展和扩散相向而行,直到有那么一天,足够多的使用场景和足够好的舒适性出现在同一款设备上。金风玉露一相逢,便胜却人间无数。 或许是在2025年,或许是在2030年,我希望那一天尽快到来。
诺奖经济学家称AI将取代STEM专业工作!奥特曼:人类无需工作,我给发钱
【新智元导读】最近,诺贝尔经济学奖得主Christopher Pissarides公开表态,传统意义上的「数理化」学科知识和技能,都将会被AI取代。而如果人类大部分的工作都消失了,将以什么样的方式生存? 最近,2010年诺贝尔经济学奖得主,伦敦政治经济学院(LSE)教授Christopher Pissarides公开表态,在不远的未来,传统意义上的「数理化」学科知识和技能,都将会被AI取代。 这位劳动力市场经济学家警告年轻一代,不要一窝蜂地学习科学、技术、工程和数学(STEM)科目,他说「同理心」和创造性技能可能会在人工智能主导的世界中蓬勃发展。 这位伦敦政治经济学院(LSE)的教授警告说,从事某些 IT 工作的工人可能会通过推进人工智能技术而播下「自我毁灭的种子」,而这些人工智能最终将在未来取代它的开发者的工作。 「现在需要的技能——收集数据、整理数据、开发数据,并用它来开发下一阶段的人工智能,或者让人工智能做更多的工作——将使现在所需的STEM技能变得过时,因为AI在未来将完成这些工作,」他在接受采访时说道。 「尽管这些工作岗位在增长,但他们的增长的数量仍然没有达到接收所有STEM毕业生所需的数量,因为AI就是为了替代这些工作而生的。」 虽然Pissarides教授对人工智能对就业市场的整体影响持乐观态度,但他对那些希望利用技术进步而决定学习STEM科目的学生表示担忧。 他表示,尽管目前对STEM技能的需求快速增长,但需要更传统的面对面技能的工作,例如酒店和医疗保健领域,仍将主导就业市场。 早在去年4月份,Pissarides就预测,生成式AI将使员工能够提高工作效率,从而减少花在工作任务上的时间。 在ChatGPT等生成式AI工具的帮助下,每周工作四天可能会成为一种普遍的常态。 而在一个月以前,他在接受《财富》杂志采访时,进一步说明自己4月份的预测是合理的。 越来越多的证据表明,在ChatGPT等工具的影响下,每周工作时间缩短是一定会发生的。 AI将毁灭劳动力市场? 而如果真的按照经济学家预料的那样,工人的工作时间不断缩短,最终会发生什么呢? 去年,OpenAI CEO Sam Altman曾经在接受大西洋月刊时表示,在他看来,「人工智能一定会让很多工作消失,不附加任何条件」。 而在这篇访谈长文中,Altman以近乎残酷的态度,向记者描绘了在他看来,AI对于劳动力市场以及社会带来的影响和冲击。 「我想知道如果我们突然被通用人工智能包围,今天的工人——尤其是白领工人——会过得如何。通用人工智能会成为我们的助手还是我们的替代品?」 Altman提出了这样的灵魂拷问,作为打工人真的不希望在未来的某一天用自己的亲身经历来回答。 也许到了那个时候,打工人自己也没有资格来回答这样的问题,而只能接受别人(比如老板)对这个问题的答案。 在去年3月的时候,美国普林斯顿大学,宾大,纽约大学的研究人员进行了一项研究,希望搞清楚大语言模型对未来社会的劳动力市场将会造成什么样的影响。 他们预测人工智能将首先面向受过高等教育的白领工人开刀,可能会替代大多数的白领职业。 该论文的附录列出了一份令人毛骨悚然的职业清单: 管理分析师、律师、教授、教师、法官、财务顾问、房地产经纪人、信贷员、心理学家以及人力资源和公共关系专业人士,而且在他们看来,收到影响的职业还远远不止是这些工作。 而且,对于整个社会来说,如果这些领域的工作岗位一夜之间突然消失,很多国家的专业阶层将经历一次巨大的洗牌。 就像汽车的出现使载货马车永久失业一样,本田汽车之于马就像GPT-10之于我们一样。 当然,就像汽车的出现创造出了物流行业,司机,旅游行业中的各种其他工作一样,AI一定也会创造现在没有的工作。 但Altman却说,他完全不知道未来AI会创造出什么新的工作。 他倾向于认为,未来的人类将不需要工作,因为也许没有人天生就喜欢工作。 Altman甚至还描绘了另一种让人更加难以接受的情况: 以前的技术革命是可控的,因为它们在几代人的时间内慢慢发生,但Altman却在公开场合表示,AI带来的技术革命将会非常快的到来。 「智能的边际成本将在 10 年内降至接近于零的水平。在这种情况下,许多工人的赚钱能力将急剧下降。这将导致财富从劳动力转移到资本所有者。这种转移是如此巨大,以至于只能通过大规模的反补贴性再分配来弥补。」 全面基本收入会是答案吗? 而面对未来可能出现的工作市场的萎缩,越来越多的人开始呼吁,如果AI真的取代了人类工作,人类需要全民基本收入(UBI)来保证社会的稳定和繁荣。 在去年11月的一个论坛上,美国前总统奥巴马指出了人们对人工智能日益兴起及其对社会和工作场所的潜在影响的担忧,但表示变革和颠覆性技术「不会消失」。 「在人类历史上很难找到一个发明了某些东西却没有被使用的例子。无论是印刷机、火药还是计算机。事实上,随着人工智能模型变得更加复杂,技术颠覆只会加速。」 如果人工智能让工作完全消失,「我们可能需要考虑更大的改变,我们应该开始讨论诸如缩短工作周或普遍基本收入」。 而Sam Altman则更进一步,已经开始着手给全人类发钱了。 他在去年7月份上线了世界币(WorldCoin)项目,希望建立一个「以AI为基础」的「全球基本收入」体系。 只要在全世界各地的扫描仪器前扫描你的脸和虹膜,以证明你是人类,就能收到来自系统发放的加密货币——World Coin。 普通用户只需要凝视「虹膜扫描仪」的摄像头并等候10秒钟完成确认的工作。 下一步系统会为每个虹膜扫描分配一个独一无二的编号,将之与大数据库进行核对,以确保每个用户只进行了以此扫描。如果确认完成,球体会再次发出嘟嘟声响,此时用户就被添加到了数据库中。 目前为止,全球已经有接近300万人注册了世界币,完成了虹膜扫描。 在2023年12月,世界币将每个人的认证方式升级为World ID 2.0,可以将ID和自己的网络账号绑定起来。 而所有用户还将继续收到系统发放的「世界币代币」,作为人类基本收入的具体形式。 参考资料: https://the-decoder.com/nobel-laureate-warns-younger-generations-against-studying-stem-because-ai-could-take-over
AI芯片技术的演进
人工智能 (AI) 正在改变我们的世界,而这场革命的一个重要组成部分是对大量计算能力的需求。 什么是人工智能技术? 机器学习算法每天都变得越来越复杂,需要越来越多的计算能力来进行训练和推理。 最初,人工智能工作负载在传统中央处理单元 (CPU) 上运行,利用多核 CPU 和并行计算的强大功能。几年前,人工智能行业发现图形处理单元 (GPU) 在运行某些类型的人工智能工作负载时非常高效。但对于那些处于人工智能开发前沿的人来说,标准 GPU 已不再足够,因此需要开发出更专业的硬件。 虽然 GPU 可以被视为人工智能芯片,但现在有一些硬件设备是从头开始设计的,可以比传统 CPU 或 GPU 更高效地执行人工智能任务。我们将回顾 GPU 和更新的专用处理器如何并行处理大量数据和复杂计算,从而使它们能够高效地处理机器学习工作负载。 AI芯片技术演进 图形处理单元 (GPU) GPU 最初是为渲染高分辨率图形和视频游戏而设计的,但很快就成为人工智能领域的一种商品。与只能同时执行几个复杂任务的 CPU 不同,GPU 的设计目的是并行执行数千个简单任务。这使得它们在处理机器学习工作负载时非常高效,这些工作负载通常需要大量非常简单的计算,例如矩阵乘法。 然而,虽然 GPU 在人工智能的崛起中发挥了至关重要的作用,但它们也并非没有局限性。GPU 并不是专门为 AI 任务设计的,因此它们并不总是这些工作负载的最有效选择。这导致了更专业的人工智能芯片的开发,例如专用集成电路(ASIC)和现场可编程门阵列(FPGA)。 ASIC 和 FPGA ASIC 和 FPGA 代表了人工智能芯片技术发展的下一步。ASIC(即专用集成电路)是为特定任务或应用定制的芯片。就人工智能而言,ASIC 旨在处理特定的人工智能工作负载,例如神经网络处理。这使得它们在执行这些任务时非常高效,但灵活性不如其他类型的芯片。 FPGA(现场可编程门阵列)是可以通过编程来执行各种任务的芯片。它们比 ASIC 更灵活,使其成为各种人工智能工作负载的绝佳选择。然而,它们通常也比其他类型的芯片更复杂和更昂贵。 神经处理单元 (NPU) AI芯片技术的最新发展是神经处理单元(NPU)。这些芯片专为处理神经网络而设计,神经网络是现代人工智能系统的关键组成部分。NPU 针对神经网络所需的大容量并行计算进行了优化,其中包括矩阵乘法和激活函数计算等任务。 NPU 通常具有大量能够执行同时操作的小型高效处理核心。这些内核针对神经网络中常用的特定数学运算进行了优化,例如浮点运算和张量处理。NPU 还具有高带宽内存接口,可以有效处理神经网络所需的大量数据。 NPU 设计的另一个关键方面是功效。神经网络计算可能非常耗电,因此 NPU 通常会结合优化功耗的功能,例如根据计算需求动态调整功耗,以及减少每次操作能耗的专门电路设计。 AI芯片的优势 人工智能芯片为人工智能和数据科学行业带来了几个引人注目的好处: 效率 传统 CPU 无法满足人工智能和机器学习工作负载的并行处理要求。另一方面,人工智能芯片是专门为这些任务而设计的,使其效率显著提高。 这种效率的提高会对人工智能系统的性能产生巨大影响。例如,它可以实现更快的处理时间、更准确的结果,以及以更低的成本处理更大、更复杂的工作负载的能力。 节能 人工智能芯片的另一个主要优势是其节能潜力。人工智能和机器学习工作负载可能非常耗电,在传统 CPU 上运行这些工作负载可能会导致大量能耗。 然而,人工智能芯片的设计比传统 CPU 更节能。这意味着它们可以用一小部分功率执行相同的任务,从而显着节省能源。这不仅有利于环境,还可以为依赖人工智能技术的企业和组织节省成本。 提高性能 最后,人工智能芯片可以提高人工智能系统的性能。由于它们是专为人工智能任务而设计的,因此能够比传统 CPU 更有效地处理复杂的计算和大量数据。 这可以带来更快的处理时间、更准确的结果,并支持需要低延迟响应用户请求的应用程序。 采用人工智能芯片的组织面临的挑战 虽然人工智能芯片非常有益,但它们的开发和实施提出了一系列独特的挑战: 复杂的实施 在组织现有的技术基础设施中实施人工智能芯片是一项重大挑战。人工智能芯片的专业性质通常需要重新设计或对现有系统进行大幅调整。这种复杂性不仅延伸到硬件集成,还延伸到软件和算法开发,因为人工智能芯片通常需要专门的编程模型和工具。 此外,有效实施和优化基于人工智能芯片的系统所需的技能仍然相对较少。组织必须投资培训现有员工或招募具有必要专业知识的新人才。这种对专业知识的需求可能会给小型组织或人工智能领域的新手造成进入壁垒。 成本 与设计高度专业化的芯片相关的研发成本是巨大的。此外,人工智能芯片(尤其是 ASIC 和 NPU 等先进芯片)的制造过程可能比标准 CPU 或 GPU 更复杂、成本更高。这些额外成本会转嫁给最终用户,从而导致更高的硬件成本。 对于希望将人工智能芯片集成到其系统中的组织来说,需要对基础设施进行大量投资。这使得小型组织或预算有限的组织很难利用人工智能芯片的优势。 过时风险 AI技术的快速发展,带动了AI芯片市场不断创新和新产品开发的循环。随着更新、更高效的芯片不断发布,这种快速的发展速度也带来了过时的风险。投资人工智能芯片技术的组织面临着硬件相对较快过时的挑战,可能需要频繁升级。 这种过时的风险可能会导致投资犹豫不决,特别是对于预算有限的组织而言。保持技术前沿与管理成本之间的平衡是一个微妙的平衡,需要仔细的战略规划并考虑长期技术趋势。 AI芯片领先厂商有哪些? 英伟达 英伟达是目前领先的AI芯片供应商。英伟达此前以 GPU 闻名,近年来开发了专用 AI 芯片,例如 Tensor Core GPU 和 A100,被认为是世界上最强大的 AI 芯片。 A100 采用针对深度学习矩阵运算优化的 Tensor Core,并拥有大容量高带宽内存。其多实例 GPU (MIG) 技术允许多个网络或作业在单个 GPU 上同时运行,从而提高效率和利用率。此外,英伟达的 AI 芯片兼容广泛的 AI 框架,并支持 CUDA、并行计算平台和 API 模型,这使得它们能够适用于各种 AI 和机器学习应用。 AMD AMD 传统上以 CPU 和 GPU 闻名,现已凭借 Radeon Instinct GPU 等产品进入人工智能领域。 Radeon Instinct GPU 专为机器学习和人工智能工作负载量身定制,提供高性能计算和深度学习功能。这些 GPU 具有先进的内存技术和高吞吐量,使其适用于训练和推理阶段。AMD还提供ROCm(Radeon开放计算平台),可以更轻松地与各种AI框架集成。 英特尔 按收入计算,英特尔是全球第二大芯片制造商。该公司在人工智能芯片领域的投资包括一系列产品,从具有人工智能功能的CPU到专门为训练深度学习模型而设计的Habana Gaudi处理器等专用人工智能硬件。 Habana Gaudi 处理器因其在 AI 训练任务中的高效率和性能而脱颖而出。它们旨在优化数据中心工作负载,为训练大型复杂的人工智能模型提供可扩展且高效的解决方案。Gaudi 处理器的关键特性之一是其处理器间通信功能,可实现跨多个芯片的高效扩展。与英伟达和 AMD 的同类产品一样,它们针对常见的 AI 框架进行了优化。 *声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
为自证没用ChatGPT,副教授被迫用GitHub写论文
辛辛苦苦手写的论文,却被审稿人鉴定为“一眼ChatGPT”而被拒收。 一位副教授的遭遇引发学术界关注,登上Nature专栏。 她决定从此以后每篇论文都在GitHub上写,用变更记录来证明自己的清白。 在文章中她根据自己的经历提出“AI在不刻意的情况下也能破坏科学” ChatGPT仅仅通过自身的存在就破坏了同行评议过程。 这件事一传开,网友们立刻想到了这么一句话: 当人类没有通过图灵测试。 也有网友表示,自己也遇到过类似情况: 我把我的手稿给同事看,他说了一样的话。我当时就想“我写作水平提高了!”哈哈。 事件详情 论文作者名为Lizzie Wolkovich,是加拿大不列颠哥伦比亚大学森林与保护科学的副教授。 这次被拒收的研究工作有关“全球变化对生态群落的影响”。 Lizzie坦言自己并不擅长写论文,“和许多人一样,我发现写论文是一个有点痛苦的过程”。 为此,她表示自己研读了一堆写作指南,最后形成了自己的写作流程,大概是:先搞几个大纲,再动笔写初稿,写完之后紧接着是反复的修改。 她还把这套方法推荐给她的学生们,强调作为科学家能把复杂的想法表达得清楚明了是很重要的。 然而,当Lizzie提交了她精心打磨的论文后,却意外遭到审稿人的指控——被怀疑使用ChatGPT进行科研造假。 而且这种指控并非关于数据伪造。Lizzie表示自己的研究数据透明且可复现,无人质疑她在数据或结果上的真实性,但她投入不少努力的写作却被视为造假行为。 更令她没想到的是,期刊编辑也模糊地表示同意审稿人的说法,并认为“写作风格不寻常”。 面对这样的指控,Lizzie坚决否认,并决心证明自己的清白。 她指出,自己采用LaTeX纯文本写作,并使用Git版本控制系统,其修改历史可在GitHub上查证,包含了“终于开始写了!”、“又写了25分钟!”这样的细致的提交记录。 她还计划通过对比ChatGPT出现前后她的的论文风格来进一步证明自己,甚至考虑过询问ChatGPT以确认论文非其所写。 尽管已经有了多种自证清白的方法,Lizzie仍直言不讳地表示“真正想做的其实是愤然离场”。 被迫用GitHub写论文 文章最后,Lizzie用大篇幅文字表达了自己对于此事的看法。 其中指出AI虽然带来了便利,但也引发了一系列问题,通过自己这次的经历可以体现出AI单单是存在就有可能引发问题。 而科学研究需要基于信任和道德标准,建议科学团体应制定明确的AI使用规范,而不是在拿不出什么证据的情况下,打击作者。 并且她还提到,为了证明自己的清白,决定今后每篇论文都使用GitHub记录写作过程,以展示她的工作是独立完成的。 这也引发了不少网友的讨论。有人表示大模型带来的这个问题属“意料之外、情理之中”: 如果大模型能够满足人们的预期,其自然结果就是破坏了我们对任何书面内容的信任。这也就意味着,社会运作的又一基石将不复存在。 对于这件事,你怎么看?
OpenAI被曝在研两款Agent;苹果收购32家AI公司;马斯克将资助AI破译罗马古卷丨AIGC大事日报
1、苹果已收购32家AI公司 2、OpenAI被曝在研两款Agent 3、马斯克将资助AI破译罗马古卷 4、微软Copilot新增AI图像创作功能 5、谷歌推出TF-GNN图神经网络库 6、托福提供AI驱动的考试准备服务 7、智源推出开源CLIP视觉大模型EVA-CLIP-18B 8、北大团队提出Aligner对齐范式 9、深度求索开源7B数学大模型DeepSeekMath 10、科大讯飞计划年内大模型赋能1000万硬件终端 11、商汤“秒画”助力农夫山泉AI绘画破圈营销 12、天工AI绘画大赛开赛 奖金最高10万元 13、Pixeling千象AIGC小程序上线 14、《大唐狄公案》中的长安城为AI生成 15、欧盟立法:AI制作儿童色情及伪造内容入刑 1、苹果已收购32家AI公司 据市场调研机构Stocklytics最新报告,到2023年,苹果总共收购了32家AI公司,是科技公司中收购数量最多的,谷歌母公司Alphabet收购了21家,Meta收购了18家,微软收购了17家。统计数据显示,自2017年以来,苹果在AI技术的股权和附加投资方面远远领先于竞争对手,约为21%,而微软则占12%,Alphabet占8%。 2、OpenAI被曝在研两款Agent 据The Information今日报道,OpenAI正在开发两款Agent软件,一款Agent通过有效接管客户的设备来自动执行复杂任务,客户可要求Agent将数据从文档传输到电子表格进行分析,或者自动填写费用报告并输入到会计软件;另一款Agent将处理基于网络的任务,例如收集有关公司的一组公共数据、在一定预算下创建行程或预订机票。目前还不清楚OpenAI计划何时发布其Agent产品。 3、马斯克将资助AI破译罗马古卷 据彭博社今日报道,埃隆·马斯克在社交平台X上宣布马斯克基金会将为一个使用AI破译罗马古卷的项目提供资金支持。该AI项目由GitHub前首席执行官纳特·弗里德曼(Nat Friedman)运营,一组参与者成功扫描了被火山喷发烧焦的罗马城镇赫库兰尼姆卷轴,并使用AI读取了其中的整段文字。弗里德曼称,下一阶段的努力将使团队能够阅读整个卷轴,将花费约200万美元,破译迄今从赫库兰尼姆发现的每一卷卷轴可能要花费1000万美元。 4、微软Copilot新增AI图像创作功能 微软昨晚宣布微软Copilot体验重大更新,包括更精简的外观、一个有趣的新增旋转提示、使平衡模式更丰富的微调AI模型Deucalion、新的AI图像生成和编辑功能,并在iOS和Android应用商店上线其Copilot App。 正值微软通过Bing Chat提供AI体验一周年,微软称迄今创造了超过50亿次聊天和50亿张图片,致使Edge浏览器和Bing搜索引擎的份额持续增长。 5、谷歌推出TF-GNN图神经网络库 据谷歌官方博客,谷歌今日推出TensorFlow GNN 1.0(简称TF-GNN),这是一个经过生产环境严格测试的库,专为大规模构建图神经网络(GNN)而设计。它支持在TensorFlow框架中进行建模和训练,并能够从庞大的数据存储中高效地提取输入图。TF-GNN以从头开始构建的方式处理异构图,其中不同的节点和边集表示类型和关系。现实世界中的对象及其关系多种多样,而TF-GNN的异构特性使得表征这些对象变得自然而直观。 6、托福提供AI驱动的考试准备服务 美国教育考试服务中心(ETS)昨夜宣布面向托福考生推出一个创新的、同类首创的考试准备平台TOEFL TestReady,利用AI为出国留学或工作的高风险英语考试提供个性化的见解和有针对性的建议。用户可免费获得定制旅程,根据学习者的独特需求提供建议的准备时间表,其他新的付费服务包括练习测试的分数、有关如何改进特定测试问题的反馈等。 7、智源推出开源CLIP视觉大模型EVA-CLIP-18B 根据智源研究院公众号,2月6日,智源视觉团队成功训练并发布对比式语言-图像预训练(CLIP模型)EVA-CLIP-18B,拥有180亿参数。EVA-CLIP-18B大幅突破了图像、视频和3D上的零样本识别能力,在27个图像分类基准测试上取得了80.7%的零样本准确率,这一成绩显著优于其前代模型EVA-CLIP-5B和谷歌、苹果等公司取得SOTA的其他开源CLIP模型。团队将公开EVA-CLIP 18B模型的权重和训练代码,为未来的计算机视觉和视觉-语言多模态研究提供强大的视觉基础模型。 论文链接: https://arxiv.org/abs/2402.04252 模型和代码链接: https://github.com/baaivision/EVA/tree/master/EVA-CLIP-18B 8、北大团队提出Aligner对齐范式 根据arxiv网站,北京大学团队推出了一种新的高效对齐范式Aligner,支持学习答案对齐与未对齐之间的修正残差,从而绕过繁琐的RLHF流程。实验表明,使用Aligner-7B能显著提高GPT-4的帮助性和安全性,分别增加了17.5%和26.9%。 论文地址: https://arxiv.org/abs/2402.02416 GitHub地址: https://aligner2024.github.io 9、深度求索开源7B数学大模型DeepSeekMath 根据DeepSeek公众号, 国内AI创企深度求索(DeepSeek)近期开源了7B数学大模型DeepSeekMath。据悉,DeepSeekMath数据来自Common Crawl提取的120B高质量数学网页数据,总数据量是开源数据集OpenWebMath的9倍;训练使用了代码领域模型DeepSeek-Coder-v1.5初始化,可以获得比从通用用模型初始化更好的数学能力。DeepSeekMath在中英数学基准榜单上超过Mistral 7B、Llemma-34B,逼近GPT-4能力,跟Minerva 540B效果相当。 论文地址: https://arxiv.org/abs/2402.03300 模型下载: https://huggingface.co/deepseek-ai GitHub主页: https://github.com/deepseek-ai/DeepSeek-Math 10、科大讯飞计划年内大模型赋能1000万硬件终端 据同花顺报道,科大讯飞近日举行2024年公司年会,公司董事长刘庆峰提出,今年讯飞大模型有四个发展目标,其中星火通用大模型对标GPT-4,目标赋能1000万智慧硬体终端、独立软件用户数突破1亿人,并力争成为教育、医疗、金融、汽车等产业市场第一,汇聚100万大模型开发者,以打造产业第一生态。 11、商汤“秒画”助力农夫山泉AI绘画破圈营销 日前,结合龙年新春主题,农夫山泉在微信小程序上线AI绘画功能,吸引更多消费者体验AI绘画龙宝宝的乐趣。商汤团队与农夫山泉合作,训练了一个基于商汤“日日新·秒画”文生图大模型(SenseMirage)的“龙宝宝”专用小模型。农夫山泉生肖龙AI绘画小程序上线后,短短20天就吸引广大网友创作了一百多万张龙宝宝画作,总共调用商汤“秒画”已一百多万次。 12、天工AI绘画大赛开赛 奖金最高10万元 由昆仑万维天工AI智能助手主办的“巧绘龙年”AI绘画大赛已正式开赛。这是国内首个面向全体C端用户免费开放、奖金规模达到数十万元量级的AI绘画大赛。即日起,用户在手机应用市场免费下载天工AI智能助手APP,使用其中“AI绘画”功能绘制作品并投稿至大赛专区,即有机会获得最高10万元大奖。 13、Pixeling千象AIGC小程序上线 根据HiDream智象未来公众号,昨日,Pixeling千象正式推出免费小程序千象万相,支持AI生成图片、视频,同时推出动漫头像制作功能,比如可以一键将用户的照片转成“皮克斯动画风格”。 14、《大唐狄公案》中的长安城为AI生成 根据优酷及中新文娱官微,近期播出的《大唐狄公案》剧中的长安城场景均由AI辅助生成,包括人流、街景、楼宇建筑等。据了解,这是优酷首部AI辅助生成特效画面的电视剧。工作人员表示,阿里大文娱的AI技术,可以用更短时间完成各类虚拟场景的搭建,就像搭乐高一样可以拼插、复用,满足导演的创意和想象。“之前一个月的工作,现在十天就完成了,制作效率提升近70%。” 15、欧盟立法:AI制作儿童色情及伪造内容入刑 据IT之家报道,欧盟委员会于2月7日宣布,计划将AI生成的儿童性虐待(CSA)深度伪造行为定为刑事犯罪,并提议将直播儿童性虐待行为定为新的刑事犯罪。 虽然最终形式有待议会和理事会决定,但与CSAM扫描计划相比,该CSA打击提案可能产生较小分歧,更有可能获得通过。一旦修订现行打击CSA指令达成一致,该指令将在欧盟官方公报上公布20天后生效。
消息称索尼PS3处理器开发成本高达17亿美元,导致首发价过高
IT之家 2 月 8 日消息,索尼 PS3 于 17 年前推出,虽然销量没能达到前辈的高度,但在硬件方面却做出了不少开创性的尝试。 PS3 是第一款支持蓝光光盘的主机,提供了丰富的在线功能,以及当时独树一帜的 Cell 处理器。据彭博社报道,这颗处理器耗资索尼 17 亿美元(IT之家备注:当前约 122.4 亿元人民币)研发,在主机初期为公司带来了巨大负担。 Cell 架构由索尼、IBM 和东芝联合研发,意在将其应用于电视、相机等多种硬件设备,可谓野心勃勃。然而,尽管投入巨资,Cell 架构并未实现这一目标。 该处理器也是 PS3 首发售价高达 600 美元的主因。此外,Cell 架构在当时开发难度过高,导致第三方团队更青睐 Xbox 360,索尼后来在 PS4 上转向了由 AMD 制造的更主流的 x86 架构处理器。 PS5 目前使用的 APU 属于 Ryzen 系列处理器,与 PC 端处理器有很多相似之处,这避免了像 Cell 处理器那样研发全新技术的巨额投入。 PS3 初期每售出一台主机,索尼就亏损约 300 美元,公司希望通过软件销售弥补损失。随着制造成本降低以及部分功能如 PS2 向下兼容性被砍掉,亏损最终有所减少。许多人认为 PS3 在该主机世代末期实现了重大逆袭,但它仍然是索尼迄今为止表现最差的主机。
索尼PS5轻薄版替换外壳图赏
众所周知,雷科技编辑部人均“臭打游戏”的,高性能台式机和PS5那是人手一台,在大家畅玩了三年的PS5后,体积变小性能不变的PS5轻薄版正式发布了。小雷之前也在《PS5轻薄版体验:变“小”了,然后呢?》一文中详细介绍过它的使用体验,这里就不再重复。 图例 如今临近春节假期,小雷也收到了索尼互动娱乐的春节礼物——三份PS5轻薄版替换外壳,话不多说,我们直接进行开箱体验。 (图片来源:雷科技摄制) 此次索尼互动娱乐共推出了红、银、蓝三种配色的替换外壳,三款颜色都采用的是磨砂设计,能尽可能减少沾染指纹和污渍的情况,这对于我这种磨砂控来说无疑是个福音。 (图片来源:雷科技摄制) PS5轻薄版的外壳拆卸十分简单,只需手指抵住正面凸出的部分轻轻一掰即可,安装也是同理。 红色是当下最符合节日氛围的颜色,也是我第一个安装到PS5轻薄版的替换外壳,纯正的红色搭配磨砂的质感呈现出一种别样的质感,仿佛替换外壳使用的是金属材质而并非PVC板。 (图片来源:雷科技摄制) 蓝色和银色也是如此,不过银色看起来极为接近传统意义上的金属色,同样韵味十足。 (图片来源:雷科技摄制) 当然,只要你喜欢,你甚至可以把你的PS5轻薄版拼接成双色、三色甚至是四色,一切由你来决定。 (图片来源:雷科技摄制) 正如iPhone每年都会推出新配色来刺激消费一般,游戏机同样可以采用更换外壳的方式来吸引用户,这种策略在游戏机市场中非常有效,因为游戏玩家群体通常非常活跃且追求个性化,对于能够表达自己独特风格的产品有着强烈的喜好。 (图片来源:雷科技摄制) 总之,这种推出新配色是个挺有效的市场策略。不仅能让品牌形象更加鲜明,通过这样多样化的选择,厂商能更好地迎合不同人的口味,这对销量肯定有好处。小雷也希望索尼互动娱乐后续能够推出更多既有创意,又适合大众的新配色。
春晚开始前,OPPO放了一波大招
2月8日上午,OPPO官方放出一张海报,预告明天有大事发生…… 三天前,OPPO发布在央视春晚彩排后台前瞻花絮,春晚主持人尼格买提、任鲁豫、马凡舒专门体验了OPPO手机的AI功能,包括AI消除、AI通话摘要和小布拜年。 OPPO通过春晚舞台将AI的能力展示在全国人民面前,也在宣告着手机行业将进入AI的新时代。 一、一个时代的大幕正在开启 ChatGPT在AI领域掀起的深远影响还在持续发酵。如果说,前期更多是云厂商的狂欢,各自都推出了通用的大语言模型,并且开始在千行百业寻找落地应用。 那么最近半年,随着底层芯片平台的成熟和模型量化压缩的推进,手机和PC等硬件终端厂商加快步伐,推动大模型在端侧的应用落地。 去年底,高通和联发科的最新旗舰平台都支持端侧大模型的部署。比如骁龙8Gen3作为首个专为生成式AI打造的移动平台,支持终端侧运行100亿参数的模型,面向70亿参数大语言模型每秒生成高达20个token。联发科的天玑9300也搭载了第七代APU 790的AI性能引擎,可以支持终端运行10亿、70亿、130亿、至高330亿参数的AI大语言模型。 底层芯片平台的加持下,OPPO、小米、vivo、荣耀和三星都已经推出或者即将推出70亿参数的端侧大模型。手机作为智能体,端侧大模型的落地应用扮演着越来越关键的角色。大模型也被认为是将来能够带来革命性的用户体验,进而带动换机的关键。而基于这一认知,全力投入研发AI已经成为手机厂商的阳谋。 据悉,一向谨慎的苹果也预计会在今年6月的全球开发者大会上为Siri等产品引入一系列基于大模型的AI体验。 PC行业也在全速向AI PC演进。英特尔CEO基辛格直言,“AI代表着新时代的到来。AI将通过云与PC的紧密协作,进而从根本上改变、重塑和重构PC体验,释放人们的生产力和创造力,我们正迈向AI PC的新时代。” 英特尔专门发布了酷睿Ultra处理器,首次将CPU、GPU和NPU三合一,满足AI PC的需求。AMD、高通也相继推出了集成AI模块的CPU。联想则基于英特尔的AI处理器,推出了首款具备AI能力的笔记本,宣布全面向AI PC转型。 IDC中国总裁霍锦洁更是指出,AI PC不仅是一个新产品,它代表的是整个行业即将进入一个全新时代——一个行业大变革的时代,一个见证历史突破的时代。而Counterpoint的观点是,预计到2025年,AI笔记本电脑的销量份额将达到50%,至少配备一个NPU或AI加速器,以补充其主要CPU和GPU的功能。 无论是PC还是手机,都是在日常生活和工作中扮演重要角色、也同样面临增长困境的行业,如今都不约而同地将AI摆到了极为重要的战略地位。 而新时代到来的背后,当前PC和手机行业面临着不小的增长困境。根据IDC最新统计的数据,2023年,中国智能手机市场出货量约2.71亿台,同比下降5.0%,创近10年以来最低。背后的因素众多,包括智能手机本身创新乏力,以及用户换机周期从之前的两年增加到了现在的三四年。 如今,手机行业的潮水正在转向,AI将成为刺激行业创新和销量增长的最好催化剂。 2024年被认为是AI手机的元年。一位业内人士判断,上一个让所有手机厂商,开启了长达数年军备竞赛的赛道是影像,比如更多的镜头、更大的传感器等,几年过去,手机影像能力有了实质性提升。而下一个这样的机会是AI,只不过相比于影像,AI是一个更加漫长的征途,而且对技术积累和研发投入的要求会更高。 二、抢占大模型手机的先机 “再不布局大模型的手机厂商,就没戏了!”OPPO高级副总裁刘作虎说得非常直白有力,这种观点也代表了手机行业目前的普遍情绪。 根据Counterpoint预测,2024年将是GenAI(生成式AI)智能手机的关键一年,出货量将超过1亿部;到2027年,GenAI智能手机市场份额、出货量将分别达40%、5.22亿部。 尽管业内对AI手机的定义没有统一的标准,但也从侧面说明,AI将是未来手机的标配,而且这种标配不仅仅是一个独立的应用和场景,而是从系统底层重构手机的体验,让AI的能力在系统侧无处不在,“未来的手机就是一个AI Agent”。 今年1月初,OPPO的年度旗舰机Find X7系列在深圳发布。这场发布会和以往有一个很大的不同,以前发布会开头都是先介绍影像或者手机的外观设计。但这次,OPPO花了近半个小时演示端侧大模型带来的应用落地。其他厂商的发布会上都做了类似的调整,各家都把端侧大模型的优先级提到了最重要的位置。 OPPO Find X7是业内首个落地7B端侧大模型的机型。刘作虎专门在发布会上演示了几个在端侧大模型实现的场景,比如通话摘要,大模型会根据通话记录生成一份简洁但不失重点的摘要,然后生成待办事项,甚至还可以在用户没有时间接听电话时,帮助用户记录要点,在工作和生活场景中不会遗漏任何重要的信息。而且相比于1B的模型,7B模型在摘要上的表现明显更加出色。 除了语言模型,OPPO的AndesGPT也具备功能全面、强大的生成式视觉模型,能够对图像进行精准语义理解,并在此基础上实现了对超过120类主体的识别与分割支持,用户可以任意选择抹掉图片中的路人、杂物甚至是发丝级的分割,并针对消除后的图片进行细节和纹理真实填补,将相册里的“废片”重新变成令人满意的“好图”。 OPPO之外,三星也开始了端侧大模型的应用探索。相比于OPPO的通话摘要能力,Galaxy S24展示的是通话翻译的场景,双方可以跨语言实时沟通,相当于身边有个同声传译,让人眼前一亮。 总体看来,三星和OPPO在端侧大模型的应用方向上比较相似,都展示了在抠图和通话场景下的AI应用。不过两家的实现路径和侧重有所不同,比如三星在端侧大模型的能力主要来自于谷歌的Gemini Nano模型,而OPPO是其自主训练的大模型。 一位手机圈内人士告诉数智前线,现在市面上号称实现了7B端侧大模型的厂商,其实大部分功能还是在云端实现,因为云的速度才够快,而端侧受限于功耗、内存等因素。据他透露,国内的手机厂商目前只有OPPO是真的在端侧实现了大模型的效果,一个是通话摘要,一个是智能消除,其他厂商基本还是在云端处理。 而当前大模型在端侧部署最大的难题在于模型的压缩量化以及端侧的存储性能的提升。 另一位手机厂商的知情人士透露,端侧大模型当前最大的瓶颈,不在GPU,也不在NPU,而是在内存带宽。目前性能最强的内存LPDDR5X的实际带宽是50多GB每秒,7B模型在量化稀疏后,大概占4G内存,它的性能要达到10个Token 以上,需要达到40多GB每秒,正好是LPDDR5X的带宽极限。 为了实现大模型在端侧的落地,OPPO已经把7B大模型的内存占用降到了4GB以内,性能达到了10Token/S以上,功耗现在做到了800毫安级别,“它在这种场景上是能接受的,不会让手机发烫。”据了解,OPPO Reno系列产品也将落地端侧大模型。 不过,端侧大模型更多处理的是一些简单任务,大多数场景还是在云端推理。端云协同是目前大模型在手机应用的主流。 所以,除了70亿参数的端侧大模型,OPPO也训练了700亿参数的AndesGPT-Turbo以及1800亿参数的AndesGPT-Titan,可以满足高度复杂任务的深度推理,而这两个模型都是在云端部署。 据OPPO方面透露,未来OPPO对大模型手机的技术演进方向有两个:一是继续攻关大模型端侧化部署,实现更优性能和更强处理能力;二是用更通用、先进的架构解决端云协同问题。 三、抵御寒冬的致善式创新 任何现在看起来前瞻性的布局,都不会是凭空发生。事实上,OPPO投入大模型研发的时间并不短。 早在2020年,OPPO就已启动了预训练语言模型的探索与实践,自研了一亿、三亿和十亿参数量的大模型OBERT,当时走的还不是GPT路线,参数量也不如当下动辄数百亿上千亿的模型。 但无论是BERT还是GPT都是基于Transformer架构,这也给OPPO为后续AndesGPT的训练打下了坚实的基础,也积累了丰富的经验。如今,AndesGPT在通用问答与对话的能力表现出色,并且登顶了C-Enal全球中文榜单榜首。 OPPO正在通过加大对技术的投入,以确保在这个红海市场的竞争中不落于下风,这也成为OPPO抵御行业寒冬的最有效法宝。 如果说,以前的OPPO是在营销上大手笔,但这些年的一个直观的变化是,OPPO越来越舍得在技术和产品研发上投入。外界也看到了越来越多OPPO的创新上的引领,包括业内首个端侧大模型,业内首个双潜望旗舰,在通信和芯片底层技术上的突围等。在致善式创新的理念下,OPPO正从单一的手机公司到生态型科技公司的转变。 不久前,OPPO与诺基亚官宣签署5G专利交叉许可协议,双方在协议签署后将结束在所有司法管辖区的所有未决诉讼。这场长达近三年的专利纠纷最终戏剧性地以和解方式落幕。 这件事情的意义并不限于OPPO本身,也给国内企业在面对不合理的专利许可时,做了一个很好的示范。 当然,实力才是对抗不合理的底气。OPPO这些年在研发上的巨额投入以及积累的大量专利,为其全球业务和安全运营保驾护航。目前,OPPO约60%的员工为研发人员。截至2023年12月31日,OPPO全球专利申请量超过98000件。其中,发明专利申请数量超过89000件,占比超过了90%,全球排名第6位,在国内仅次于华为。在这些外界不容易关注的地方,OPPO正在积蓄能量。 正是这些年在研发上的投入和专利上的积累,使得OPPO有底气选择与国际大厂正面硬刚。有消息称,随着OPPO与诺基亚的和解,也在为后续OPPO重返欧洲部分市场扫平道路。 而这些技术和专利最终也用到了产品体验上。以最新发布的Find X7系列为例,除了上面提及的端侧大模型的落地,还有在通信技术、芯片底层架构和安全上的优化。 这次首发的“潮汐架构”,解决了SoC的存储和读写速度远低于计算速度的问题。潮汐架构对芯片性能的优化深入到了L3缓存层级,并通过识别应用场景的需求,动态调控系统资源。比如计算型任务占多,则主动分配更多缓存给CPU;渲染型任务多则将资源倾斜给GPU。这套架构让SoC平均节约了8%的能效。 另外,OPPO整套自研的通信技术方案——超级信号工程,包括了天线技术、智慧通信、近场通信三大技术整体突破,同样可以提供“用户所在场景的最佳通信与网络连接体验”。 如今,AI和影像已经成为OPPO并列的两大技术支柱。刘作虎透露,OPPO在不久前把公司所有AI相关的伙伴,集中到一起成立了“AI中心”,集团技术负责人独立管理统筹。以前这些岗位分散在各个部门,不成系统,“我们决定集中所有资源,成立AI中心,让AI成为OPPO的核心竞争力。”刘作虎说。 从目前来看,大模型在端侧的应用才刚刚开始。未来,有没有大模型,以及如何深度运用大模型,将决定了产品是否有竞争力的关键。 当然,正如比尔盖茨那句屡次被引用的名言——我们总是高估未来两年将发生的变化,而低估未来十年将发生的变化。这句话放在AI身上同样适用,无论是AI手机,还是AI PC,实际上都还处于初级或者准备阶段,在真正实现革命性体验之前都需要经历比较长时间的迭代和演进。但毋庸置疑的是,2024年对于AI手机而言,已经成为公认的重要时刻。 《繁花》里有句话说得非常贴切:目标从来就不遥远,一步步,一天天。只管全力以赴,剩下的交给时间。
苹果Vision Pro的5个关键问题,我们问了专业开发者
作者 | Li Yuan 编辑 | 靖宇 2 月 2 日,苹果 Vision Pro 在美发售,吸引了全球的目光。 Vision Pro 实际试戴体验如何?与过去的那么多款 VR、AR 设备有什么不同? 空间计算是一个噱头吗?库克宣布 All-in Vision Pro,那么开发者现在是不是也该 All-in? 关于这些大家关心的话题,极客公园邀请了两位在 XR 领域有多年经验的从业者,也是早早用上了 Vision Pro 的尝鲜者,聊聊他们使用 Vision Pro 的真实体验,以及基于这样的体验,他们会不会选择现在投入 Vision Pro 的应用开发中。 两位嘉宾之一是刘天一,从 2015 年开始接触 AR 行业,有多年 XR 行业解决方案和 C 端产品设计的经验。曾任职于国内 AR 公司亮亮视野多年,目前是独立开发者。 另一位是 Allen Xiang,虚实之间网络科技的创始人。Allen 2016 年就接触了 XR 行业,曾在多家互联网大厂任职,包括腾讯的 XR 部门。目前,Allen 接受了美元基金的投资,正在进行 XR 应用开发的创业。 极客公园与两位在 XR 领域有着多年从业经验的创业者进行了两个小时的对话。在对话中,两位创业者指出了 Vision Pro 的体验突破性的关键,苹果在推进 Vision Pro 的发展中将出现哪些优势和劣势,中国厂商有没有可能追上 Vision Pro,以及他们认为,未来哪些应用或将成为爆款。 以下是极客公园与刘天一、Allen Xiang 的对话节选,由极客公园整理。 体验:连玩 7 小时不累,透视功能强大 极客公园:两位都已经上手了这款产品,先简单讲讲拿到 Vision Pro 使用的第一印象吧? 刘天一:我是在北京商场里的「空间计算网吧」,Vision Pro 的租赁体验店里体验到的,玩了大概两个小时左右。 接触到 Vision Pro 的第一印象是,整体感觉非常苹果。无论是包装,还是各种设计风格,融合了 iPhone、Airpods Max 以及 Apple Watch 上面的各种设计元素,拿到手的第一感觉是很熟悉。 使用后印象最深的,是它上手非常简单。很多人都体验过不同种类的 XR 设备,上手的难度其实是 XR 设备中的一大痛点。通常情况下,旁边要有一个人告诉你说,「你看见那个点了吗?你按这个键,去点一下那个点。」非常麻烦。 而 Vision Pro,我从戴上,开机,到被引导着使用数字表冠,再到被引导注册我的手和眼,全套流程大概也就是 2 分钟就完成了,而且过程中没有什么我要去学习的东西,上手难度非常低,这一点让我印象很深。 图源:视觉中国 Vision Pro 手眼交互的易用性也很强。过去的 XR 设备,我们如果用手来交互,都需要把手抬起来,放在面前去点击和捏合。苹果这一次把向下的摄像头做的非常好。 这是我用了这么多设备,第一个能让我非常慵懒地躺在沙发上,然后手都不用从腿上抬起来,简单地捏合一下我的食指和拇指,看哪里点哪里,就能完成交互的设备。 Allen:我的 Vision Pro 是刚好有朋友从美国飞回来带回给我的。我刚刚拿到,从中午拿到到刚刚我们连线的晚上七点左右一直没有摘过。 我体验了多个场景,包括带着它下楼,去便利店买东西吃,晚上去到商场里,和同事一起吃快餐。我也带着它使用透视的功能,使用我的 Windows 电脑进行办公了一段时间。 我在仔细调整完角度后,觉得佩戴上没有任何体验上的问题。7 个小时下来眼睛不会酸也不会累。 我体验过的朋友中,大家普遍评价都非常高。我认为 Vision Pro 带来了一个转折点,是它的透视(Video See-Through, VST)达到了一种基本可用的程度。 因为视觉透视功能中,需要算力对现实世界的物体在 XR 头显中实时进行 3D 重建,你看到的景象都是实时生成的,如果算的不够快的话,就会出现水波纹。 水波纹的效果指的是,如果你拿一个近场的物体,比如拿手在面前挥一挥,然后远景的物体就会产生一种波纹的感觉,像你在扰动水面一样。那种感觉像是你是魔法师,你的手一动就会扰动这个世界。而在 Vision Pro 上,这种感觉被完全干掉了,让人真的觉得带着它干什么都可以,可以戴着它正常生活了。 槽点的话是,整个 OS 交互完全限制了用户移动中使用,系统级窗口不是自认为中心跟随的,移动超过 1.5 米,独占的 MR 应用也会消失,想要把用户局限在一个固定的场景来使用 Vision Pro,还是缺失了很多想象空间的。 另外还有一些比较细的技术难点,可能苹果都很难跨越:比如说如果你在走路的话,每次落足时的撞动会带来运动模糊,我在便利店买饮料时,感觉每次踏一下步,画面会糊一下。 再比如你要定睛看某些字的时候,比如看手机,手机还是得保持完全不动。手机保持稳定的情况下回微信,刷淘宝都可以,但是要是一边走路一边看手机就不行。 极客公园:Vision Pro 有六百多克,也看到许多外媒报道,Vision Pro 设计的前坠感比较明显,长时间佩戴可能不舒服。连续戴 7 个小时没有不舒服,是幸存者偏差吗? Allen:真的不是。因为我是 XR 行业的从业者,我的朋友圈里面有非常多去美国购买 Vision Pro 的人,一些朋友从坐美国飞回中国,很长的旅程中也能一直戴着,两个电池换着充电。 图源:YouTube 频道 The Wall Street Journal 目前我们看到的网上所有关于重量的差评,基本上都是说它会挤压眼睛下方颧骨的位置。这个位置一旦感觉到挤压,超过 10 分钟可能就觉得很不舒服。这可能是因为 Solo 的绑带没有绑紧,或者是没有换上双环的绑带。一定要进行细微调整,让头显的上方更多地去贴合面部。 我自己体感,唯一有点感觉脖子酸的场景是你完全坐直,脖子有一点点前倾的时候,眼眶那个位置会感觉到重量,有点往下沉的感觉。 但是能有这样的感觉,前提是要脖子保持长时间不动。比如在你全神贯注地用一个姿势看电影,或者是你去投屏 Mac 的电脑办公在 Vision Pro 里办公的时候。只要不要坐的非常直,身体有一个低一点或者抬一点的角度,其实都可以很舒服地看完两个小时的电影。 这样的不舒服其实不是重量带来的,而是由于力矩分布不均匀带来的。因为本身 Vision Pro 的设计也有一些前坠的感觉,如果在后面挂一个一两百克的小电池,均衡一下前后配重,重量就完全不是问题。 刘天一:如果说看电影两个小时的话,我觉得半躺或者全躺在沙发上,应该是没有任何问题的。 这个设备确实有一些明显的前坠感,但戴在头上绝对没有那种不舒适的感觉,我戴了一个小时,用下来感觉没有什么疲劳感。 空间计算,XR 的另一种叫法 极客公园:两位也都是体验过很多款 XR 设备的人,Vision Pro 的区别在哪? 刘天一:我感觉 Vision Pro 应该是我第一款能够带着到各个场景里面去走动的一个产品。 在此之前,只有芬兰公司的 Varjo 产品的视觉透视效果让我感受到有点接近于肉眼看世界的效果,但 Varjo 产品并不是一款无线的产品。而且它是纯针对 B 端的产品,为飞行员、汽车建模等等专业用户设计的,在国内一套买下来要 5-8 万左右,比苹果的产品还贵。 Vision Pro 的视觉透视效果上,它的色彩,面对大光比光源不会出现某些区域的严重的过曝或者死黑,以及弱光下没有明显的噪点,没有很强的水波纹和拼接,都做到了非常好。 苹果在方便用户走起来以及考虑用户安全性方面,也做了很多的细节的处理。我记得苹果最早这款设备设计的充电线是磁吸的,而我体验的时候,它是变成旋转卡紧的卡扣式的了。我想这也是考虑了行走中,万一线被突然碰掉,眼前一片黑有危险的。移动的时候,人眼前的弹窗也会淡出消失,停下来才会重新回到视野中心。 此外,苹果相对于 Meta(Quest)这样的设备的一个最大的差别,在于算力。它具有桌面级的算力,市场上没有第二个产品有这样的性能。 举个例子,如果我们使用 Vision Pro 直播,它的算力足够我们每个人做出一个数字分身,实时生成我们的动态,而之前 Meta 公司的设备做这些就很难,它只能用一些抽象的卡通形象去完成。Vision Pro 的算力跑分到达了 Quest 设备的四五倍、五六倍,这是非常高的一个水平。 Allen:我可以把 Vision Pro 与 Quest 头显做一个对比。Quest 头显是欧美非常主流的一款产品。 Quest 设备也有视频透视功能。Pico 等产品使用单目画面做扭曲重建,而 Quest3 的视频透视功能采用了双目立体建模和点云重建,扭曲感和深度的感觉已经很不错。但是它的视频透视功能,出来的效果仍然有水波纹。而 Vision Pro 做出来的效果已经达到了 80 分,是一个普通消费者不需要再去关注的属性了。 清晰度方面是硬参数,苹果也没有办法突破物理学。Quest 实际上的入眼像素只有 400 多万,然后再加上 FOV 的话,折算可能就 260 万左右。Vision Pro 入眼像素大概 600 多万,从噪点上,能感受到 Vision Pro 的清晰度提升了大概 60% 左右。 图源:影视飓风 延迟方面,人眼的反应的灵敏度大概就在 20 毫秒上下。普通消费者在 60 毫秒以下,已经感知不到很明显的区别。Vision Pro 大概 12 毫秒延迟,Quest 实测 50 毫秒左右。这个东西可能有点因人而异,敏感一点的人或许能感觉到流畅性的差别。 佩戴体验上,Vision Pro 跟 Quest3 的体验是相近的,但面罩更硬一点,所以我觉得改第三方面罩和头戴配件,来提升体验对这两种设备来说都是必要的。 而且由于 Vision Pro 的纵向 FOV 要比 Quest3 小很多,透视的潜望镜效应会更明显,或许未来会有很多用户会改成类似 Quest Pro 那样的开放式面罩来获得更沉浸的透视体验。 我觉得 Vision Pro 属于已经达到了一个大家已经挑不出刺的水平。而 Quest 头显则是普通戴着,玩游戏和一些 MR 应用没什么问题,但是视频透视,则能感受到很明显的水波纹等等问题。体验上可能是 60 分到 80 分的区别。 Vision Pro 和 Quest 3 从价格上来说,一个两万多,一个三千多。Vision Pro 的定位偏观影和办公,它没有很好的游戏生态,开发者没办法那么好地从 Unity 的生态迁移过来。Quest 头显就是游戏机。我也尝试着戴着它办公过,确实没办法骗自己,我觉得那个是大多数人都无法接受的一个状态。 极客公园:这次苹果很努力地宣传「空间计算」这个概念,而不是 XR。从你们的感觉,空间计算和 XR,有很大的不同吗? 刘天一:我觉得本质上是同一个东西,但是苹果作为一个厂商,想要使用一个不同的品牌,在一个自己创造的品牌里,有一个领导者的地位。 其实大家可以回忆一下,在 Vision Pro 前,苹果一直讲的是 AR,但是现在主提空间计算,其实无外乎是因为在 VR 也好、AR 也好、元宇宙也好,这几个专属名词的赛道上,苹果都不能算是先行者,或者是之前最耀眼的那个公司。 那么如果提出一个朗朗上口,易于传播并且契合自己理念的名字,未来它可能想用空间计算来去取代掉过去的这些名词。 目前我们看到苹果的很多应用,仍然是 2D 的。对于 iOS,Mac 的开发者来说,其实是能够很轻易的在 Vision Pro 上去完成新应用的构建,甚至把 iPad 之类的应用移植过来都很方便,所以在可预见的将来,它会是 XR 行业里面应用生态成长最快的一个平台。但我其实 2D 应用不算代表了空间计算。 图源:苹果 Vision Pro 宣传片 前面提到苹果的芯片算力非常强,3-6 个月后,应该会有一些真正的 3D 应用做出来,能够突破我们所熟悉的物理的限制和束缚。这时候苹果应该会进一步去给大家洗脑,强化大家认知,说这个才叫空间计算,你们以前玩的都是垃圾,我觉得可能会这样发展。 Allen:对,我也觉得现在 Vision Pro 首发的这些应用,还完全没有办法代表苹果想打出的这个空间计算的愿景。 基于 SwiftUI 或者是原生的 ARKit 的开发者并不多。因为之前使用这些工具去开发的,都是为手机开发 AR 场景,拿手机扫一扫出来一些特效,是一个很小众的场景。 而使用 VisionOS 原生的 RealityKit 去做 3D 的包装,你又会发现它的整个组装能力没有那么的丰富,跟 Unity、Unreal 这样成熟的 3D 引擎比起来还差得远。 而 Unity 改过来兼容移植过来的应用,Unity 又卡了一手——你要开 Pro 版,你要交会员费,你才能去用这个功能,否则只有一个月的免费的试用期,一个月的试用期可能是移植不完的。 所以很多大的 VR 厂商,如果没有去跟苹果谈一些二方合作的话,不会那么急着去做制作兼容、移植。 这造成现在原生的 3D 应用不多。但并不是说 Vision Pro 未来只有这些 2D 的应用,或者苹果只想要做这样的东西。 「Android 版」空间计算会跟上吗? 极客公园:聊到生态,未来一两年会不会出现 Vision Pro 这边有一个苹果的空间计算的生态,而另一边会有像一个Android这样的生态出现? 刘天一:我个人觉得短时间内还是有难度的,长时间是有机会的。这一次苹果在 Vision Pro 上甩其他厂商甩的比当年 iOS 甩 Android 要远很多,我比较悲观,我觉得可能在 5 年左右才会出现这样的机会。 比如,首先苹果在潜心去研发 M 系列芯片的时候。英特尔、高通的芯片并没有在低功耗无风扇化的这条路上走的那么激进。所以其实到苹果真正把这个算力堆出一个满足及格线的产品的时候,我们在市场上找不到任何一款可以和它媲美的芯片,更不用说里面的 R1(Vision Pro 里处理视觉追踪数据的芯片)。 硬件的层面甩了其他家很多,就意味着在相当长的一段时间内,苹果这个平台上能够看到的内容的质量,在其他的平台上我们是很难看到的。 图源:视觉中国 整套系统的延迟优化,眼动手势交互,文字和图形渲染的优化,都需要追赶。 举个例子,我们在 PC 电脑上和手机上看到文字是经过渲染优化的,让我们看起来没有明显的锯齿。但是这个基于静态屏幕做的这种文字栅格填充和次像素渲染的算法,如果拿到 XR 上就不适用了,因为在 XR 中,人们可能倾斜着对着屏幕,有可能远,有可能近,因此使用原先的那一套字体渲染的方法就不适用了。 Meta 追赶的是不错,但是就 Android 系统本身来说,系统层面这方面应该没有看到有什么动作。我们如果想解决它的延迟问题,解决渲染的清晰度问题,一些预设的手势、眼动的交互的问题,还是要交给厂商自己来做,这个代价就会非常大。 如果想要做一个复杂度接近 Vision Pro 可能 60%、 70% 的产品,一个小几百号人的团队其实是非常捉襟见肘的,因为 Android 在底层没有提供这方面能力,大家不太好做。 但是如果时间再久一点,尤其是我觉得可能在两年以后,苹果的应用生态和内容生态得到一个大发展的时候,市场也会希望有苹果的替代品,更便宜的、更轻的,或者其他功能更适合我自己,它市场的需求摆在这了,相应的 Android 的生态也会跟到位,但是下一代平台,是不是还属于 Android? 我其实认为很多厂商的机会是比较平等的,除了Android,国内的系统,包括其他的第三方系统我觉得也不是不可期待的。 Allen:我的感受是追 VST 这个形态没有那么的难,难的可能是在于生态上面。 我们把它拆成三层,一层是硬件本身,另外一层 OS 的基建,然后再上面一层才是生态和开发者的这些东西。 如果我们单纯说硬件的话,硬件比手机复杂,主要在透视和光学上面。这是手机行业没有接触过的领域。手机拍照镜头跟我们去做这种放大的这种镜头,它其实不属于同一种光学领域,所以这些对应的人才都是要重新培养的。 但因为 XR 头显本身比较大,大其实代表着冗余。这里面有非常多硬件可以取舍的地方。苹果确实有优势,苹果的结构件做的特别特别复杂,但是它的复杂来自于为了做到极致。如果不做到那么极致,可能成本会掉的非常快。用一些现成的解决方案,你还是能攒出来一个感觉上有苹果 80% 硬件实力的东西的。 华米 OV 里面一个做手表的团队可能都有一两千人,所以团队方面,完全是看厂商认不认可这是一个未来市场,BG 的老大感没感受到压力。纯硬件角度的差距可能就是一年半、两年左右的一个时间,而且就在当下的每一个切片,可能都能拿出来一个苹果 80% 的一个体验的一个硬件出来。 图源:苹果官网 然后至于中间层,其实今天 OS 层开发的研发人才海内外都很多,已经不是当年全球都找不出来多少做 OS 开发的情况,我觉得 OS 今天可能难在一些,像天一说的这种文字的次像素渲染这种很细的问题,它不是说特别难,但很刁钻,要做很多很多小细节的优化,可能是要花人力去堆的一个状态。但这里的窗口期拉的时间长一点,OS 层的这个底层优化我觉得是没有任何问题的,感觉也是两年左右的差距。 难可能难在生态上面。因为过去 Meta 有在游戏行业的生态号召力,然后 iOS 有帮助到很多的开发者赚钱。然后两家各拥抱了一个生态,Meta 选择拥抱 Unity,然后苹果也拥抱,但是还没有那么彻底,要推自己那套原生的开发的架构。 对应的 Android 阵营,我感觉 OpenXR(XR 领域的开源标准)还没有那么成熟,至少两三年内我看不到作为 MR 应用的开发者,大家很想要去拥抱 OpenXR 那套生态体系。比如说国内的厂商,想要基于 OpenXR 去推这个东西可能就很难了,里面优化的坑特别特别多。基于不同的底层架构,优化移植的成本很高。 听起来 OpenXR 和 Meta 的设备感觉还挺兼容的,但我们自己去尝试做架构的兼容移植,会发现这里的坑可能好像比当年Android去适应不同的机型的难度要大 10 倍以上。开发者就会考量,花这个时间值不值得,如果出货量很小,那为什么要做兼容移植呢?我感觉这里面有非常长的路要追。 应用:空间图片和轻娱乐 极客公园:Vision Pro 目前也有一些原生应用,比如空间视频和空间照片。它的体验感如何? 刘天一:Vision Pro 给我体验留下印象最深的应该就是它的照片和视频的部分。我的感受是已经非常接近你在实际场景中去看眼前这个人的感觉。 2D 照片和视频中,严格意义上来说人的鼻尖和脸颊其实是在一个深度上,只能是通过图片上的光影,用大脑的脑补出它的深度。 但是在空间视频和空间照片中,我们是可以这样轻轻地移动自己的头部和身体去环绕这个场景进行观察的,非常有真实场景的感觉。 我也和很多行业内的其他朋友交流过,他们说如果有这样一个设备,可以帮你显示那些不在你身边的亲朋好友,或者甚至说的再激进一点,已经不在人世的这些亲朋好友,能够去给你还原这个瞬间,那么你愿意花多少钱,多少的时间去使用这样的一个设备?这件事会让很多人的意向瞬间变得更强烈。 图源:苹果 我当时使用的时候,看到了一张巴黎的照片。我之前去巴黎的时候,也在那个位置拍过照,当时感觉一下子就回到那个现场了,临场感特别强。 它的照片不是简单的这样平铺在我的眼前,而是透过一个大概一米六几,一米七左右的这样的一个窗口向外去观察。当我这样站起来或者低下去的时候,我能看到这画面的边缘以外,其实是还有画面的,好像是透过一个窗口向外看巴黎的这个城市。 这种临场感,我在其他的 XR 设备上确实还没有体验到这么好的感觉。 不过我个人感觉,空间视频和空间照片的清晰度可能还有点低,所以看起来也没有想象中的那么好。我觉得苹果在将来应该还会在这个拍照上继续去迭代,把这方面的体验去完善。 Allen:过去 180 3D 的内容其实很少,因为之前能够生产 180 3D 的设备就不是很多。播放端和生产端之间,因为参数的各种不一致,还会导致不匹配,纵深感会很弱,3D 感会很弱。 所以之前,其实我们是没有办法接触到很多日常场景的 180 度 3D 的优质内容的。即使是从业者也接触不到很多。 苹果其实没有创造一种真正很新颖的格式,但是它的景深,还有光圈比例等等,都调的很接近人眼,可能只是清晰度差一点。 我们也录了一些相关的视频,发现大家熟悉了之后,已经不会在使用中一直歪头去看它的 3D 效果了。所以,在一个固定的位置下,你的双目的纵深感和它给你呈现的畸变角度的还原,有没有很像真实世界,这个感觉才是最重要的。 不是说苹果有什么特殊的黑科技,而是苹果定义了这个行业规范。 空间计算,真正的创业机会 极客公园:作为开发者,你们会考虑为 Vision Pro 开发内容吗? 刘天一:我不太可能会把它当做一个主要的工作方向,但可能会闲暇时间去尝试做一些应用。 因为它目前还没有很大的出货量,很多的开发者把它买回去,或者是评测人士、行业内的人买它回去进行一个测试。我觉得可能还要再看两三批的出货,来看看它的表现如何,再进一步的决定。现在可能不适合把它作为一个公司的创业方向来去做。 但是个人闲暇时间如果有一些好玩的、小的应用或者想法是可以写一写,上去试一试的。前两天看群里有人就是相当于抢这个先机,因为这个平台它刚刚发布的时候,上边没多少应用,自己马上发一个,可能随便一卖几十万美元也到手了。 图源:X 平台 RAP MAIS 不过我觉得 Vision Pro 的互动空间网吧,类似于院线的这种模式,可能会有一定的商机。 消费者花一定的钱去租赁它的设备,包括后面有更多数字内容跟上的话,为了新鲜体验,消费者会愿意去购买。甚至是再往后有可能赚的钱都不定来自消费者,也有可能来自推广。 另一个我觉得比较好的模式,是 VR 的大空间互动,比如前段时间的《消失的法老》,我觉得做得很成功。我觉得这个模式在 Vision Pro 上是可能复制的。 在 Vision Pro 之前,其他的这些 XR 设备没有一个能够把视觉、听觉等等各方面的感官体验每一条都拉到一个及格线。 它在这方面体验上及格了之后,再配合上比如说嗅觉、触觉、味觉,包括现场的装置,去做一些互动的话,一次体验卖个几百的门票,我觉得不难。 Vision Pro 再往后发展个几代之后,我认为这很适合一些电影行业的人参与进来去做,可以观察一下。 Allen:我们目前在 Quest 平台上开发 MR 社交应用和 MR+AI 的一些互动游戏的体验的娱乐的应用。 如果要为 Vision Pro 开发的话,我现在自己的观察到的是,现在的用户很需要的,其实就是一些轻娱乐和更游戏化的场景。 尤其是我自己一直觉得桌游这个品类,会是非常非常适合 MR 的一个品类。或者墙上会跳出来那种有节奏的音符、歌词,一些垂直的一些小玩法,节奏音游类游戏的 MR 版本,都有很大可以挖掘的空间。 极客公园:为没有 Vision Pro 适配应用做第三方应用,是一个好生意吗? 刘天一:这就是我刚才所说的,短暂满足某一类群体需求,然后赚一些很小的快钱,它大概是这样的一个定位。 其实我觉得,那些没推出原生应用的大厂和大的品牌,反而是值得关注的。现阶段急着抢一个第一,其实做出来的往往就是很粗暴的把 iPad 上的应用给移植过去了。 真的能把这个三维空间的这种深度,包括这种直观的手眼交互给融入到下一代更高效的人机交互里面,应该怎么样去做?我觉得现在大家应该都还在探索。 极客公园:看到一个概念图,在 Vision Pro 里做 DeepFake,实时换脸,甚至走向黑镜里犯罪后别人在眼镜里看到的他是一个完全的马赛克,这个是可以实现的吗? Allen:这个看苹果给不给权限了,给不给开发者实时的摄像头的视频的数据。 技术上是没有难度的,之前我看日本的一个大学已经做到了,对车辆实时抠图,让路过你身边的车辆都显示为外星飞船,应该是 2021 年,2022 年的事情了。 对应的包括现在的实时的视频处理技术已经非常非常成熟。今天在手机上,其实已经有一些没有上架的应用可以做到这样的功能了,包括一些违反伦理的 AI 一键脱衣等应用都已经出来了。 XR 平台上这样的事情只会更可怕。 图源:YouTube 频道 Marques Brownlee 这就会回到应用生态,它想不想让你这种类型的产品上架,会不会开放这些权限。苹果不给做的话,那对应的 Android 厂商有没有某家厂商敢冒大不韪去做这样的事情。也有可能 20 年、 30 年,我们永远都不会走到这一天。 因为苹果它也做了很多的特殊的处理,它会给开发者点云深度的各种的信息,但它会做加密和处理,比如它会抹掉你的材质,他不会告诉你的开发者,这个用户的家里的桌子是木质的还是大理石制的,我只能知道有个桌子在这。 开发者生态,用户隐私以及平台的诉求,这三者之间会互相博弈,最后达到一个和谐共存的点,然后开发者只能在这个状态下,去探索出来各种有意思的应用。
研究呼吁谨慎使用苹果Vision Pro等头显,需更多研究评估其长期影响
IT之家 2 月 8 日消息,随着 Meta Quest 3 和 Vision Pro 等虚拟现实(VR)头显的问世,人们开始担心长期使用它们观看经过摄像头和屏幕处理的“数字世界”会带来哪些影响。对此,斯坦福大学虚拟人类交互实验室 (VHIL) 的研究人员进行了研究,呼吁业界和学术界谨慎对待这一新兴技术。 据IT之家了解,与 Hololens 和 Magic Leap 等直接将虚拟元素投影到眼镜上的光学头显不同,Quest 3 和 Vision Pro 采用了一种名为“透视”(passthrough)的技术,通过摄像头捕捉现实环境并将其转化为数字视频画面投射到不透明的显示屏上,再叠加虚拟元素实现混合现实(MR)体验。 虽然透视技术解决了光学头显视野狭窄等缺陷,但也存在不可忽视的缺点:世界变成了视频流,失去了许多色彩、细节和景深。 VHIL 的研究人员担心,随着技术进步和内容丰富,人们可能会长时间佩戴此类头显,沉浸在“数字世界”中,这可能带来视觉后遗症、距离判断失误、模拟器眩晕症以及“社交缺席”等负面影响。 研究报告指出,目前还没有针对透视视频长期使用影响的直接研究,尤其是针对儿童的影响更是未知。虽然研究人员建议制定限制使用时间的指南,但他们也坦言,考虑到智能手机普及后人们沉迷其中的状况,此类限制可能收效甚微。 此外,透视技术还可能对社会行为产生负面影响。研究人员认为,通过透视视频与人互动,无法替代面对面的交流,可能会让人产生社交疏离感。 尽管目前苹果 Vision Pro 提供了目前为止最好的透视画质,但距离完美仍有差距。科技媒体 The Verge 的主编 Nilay Patel 甚至认为,透视视频永远无法取代自然视觉,该技术可能存在发展瓶颈。他也批评了 EyeSight 功能,该功能将用户眼睛显示在外部显示屏上,阻碍了与现实世界的真实眼神交流。 不过,VHIL 研究人员也指出,随着技术的进步,这些缺点可能会被逐步克服或减少。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。