EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
北大发起复现Sora,框架已搭!袁粒、田永鸿领衔,AnimateDiff大神响应
北大团队发起了一项Sora复现计划——Open Sora。 框架、实现细节已出: 初始团队一共13人: 带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。 为什么发起这项计划? 因为资源有限,团队希望集结开源社区的力量,尽可能完成复现。 消息一出,就有人北大校友兼AnimateDiff贡献者等人即刻响应: 还有人表示可以提供高质量数据集: 所以,“国产版Sora”的新挑战者,就这么来了? 计划细节,已完成3个初步功能 首先,来看目前公布的技术细节——即团队打算如何复现Sora。 整体框架上,它将由三部分组成: Video VQ-VAE Denoising Diffusion Transformer(去噪扩散型Transformer) Condition Encoder(条件编码器) 这和Sora技术报告的内容基本差不多。 对于Sora视频的可变长宽比,团队通过参考上海AI Lab刚刚提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升级版DiT”)实施一种动态掩码策略,从而在并行批量训练的同时保持灵活的长宽比。 具体来说, 我们将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。这样便于videovae以批量编码视频, 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。 对于可变分辨率,团队则表示在推理过程中,尽管在固定的256x256分辨率上进行训练,,但使用位置插值来实现可变分辨率采样。 具体而言: 我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。对于可变时长,则使用VideoGPT中的Video VQ-VAE,,将视频压缩至潜在空间,支持这一功能。 同时,还要在扩展空间位置插值至时空维度,实现对可变时长视频的处理。 在此,主页也先给了两个demo,分别是10s视频重建和18s重建,分辨率分别为256x256和196x196: 这三个功能都已经初步实现。 相关的训练代码也已经在对应的仓库上上线: 成员介绍,目前的训练是在8个A100-80G上进行的(明显还远远不够),输入大小为8帧 128 128,大概需要1周时间才能生成类似ucf(一个视频数据集)的效果。 而从目前已经列出的9项to do事项来看,除了可变长宽比、可变分辨率和可变时长,动态掩码输入、在embeddings上添加类条件这两个任务也已完成。 未来要做的包括: 采样脚本 添加位置插值 在更高分辨率上微调Video-VQVAE 合并SiT 纳入更多条件 以及最重要的:使用更多数据和更多GPU进行训练 袁粒、田永鸿领衔 严格来说,Open Sora计划是北大-兔展AIGC联合实验室联合发起的。 领衔者之一袁粒,为北大信息工程学院助理教授、博导,去年获得福布斯30岁以下亚洲杰出人物榜单。 他分别在中国科学技术大学和新加坡国立大学获得本科和博士学位。 研究方向为深度视觉神经网络设计和多模态机器学习,代表性一作论文之一T2T-ViT被引次数1000+。 领衔者之二田永鸿,北京大学博雅特聘教授,博士生导师,IEEE、ACM等fellow,兼任鹏城实验室(深圳)人工智能研究中心副主任,曾任中科院计算所助理研究员、美国明尼苏达大学访问教授。 从目前公布的团队名单来看,其余成员大部分为硕士生。 包括袁粒课题组的林彬,他曾多次以一作或共同一作身份参与了“北大版多模态MoE模型”MoE-LLaVA、Video-LLaVA和多模态对齐框架LanguageBind(入选ICLR 2024)等工作。 兔展这边,参与者包括兔展智能创始人、董事长兼CEO董少灵(他也是北大校友)。 完整名单: 谁能率先发布中文版Sora? 相比ChatGPT,引爆文生视频赛道的Sora研发难度显然更大。 谁能夺得Sora中文版的首发权,目前留给公众的是一个大大的问号。 在这之中,传闻最大的是字节。 今年2月初,张楠辞去抖音集团CEO一职,转而负责剪映,就引发了外界猜测。 很快,一款叫做“Boximator”的视频生成模型浮出水面。 它基于PixelDance和ModelScope两个之前的成果上完成训练。 不过,很快字节就辟谣这不是“字节版sora”: 它的效果离Sora还有很大差距,暂时不具备落地条件,并且至少还需2-3个月才能上线demo给大家测试。 但,风声并未就此平息。 去年11月,字节剪映悄悄上线了一个AI绘画工具“Dreamina”,大家的评价还不错。 现在,又有消息称: Dreamina即将上线类似sora的视频生成功能(目前在内测)。 不知道,这一次是不是字节亮出的大招呢? Open Sora项目主页: https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html https://github.com/PKU-YuanGroup/Open-Sora-Plan
芯片巨头,涌向UWB
近年来,很多企业都在拱火UWB市场: 2019 年,苹果iPhone11搭载UWB芯片,火极一时的AirDrop隔空投送带来的“空间感知”功能,率先带动UWB在消费电子领域的商用。 2022年3月,一则海思招聘UWB技术工程师的信息也引起业内关注,被认为是华为海思入局UWB技术领域的信号。 宝马、蔚来宣布在车上搭载UWB芯片,随后大众、福特、小鹏、比亚迪等一干车型相继跟上。 此外,小米的“一指连”,华为的“灵犀指向遥控”相继入局智能家居领域,市场是否愿意为这个成本高但非刚需的功能买单,不确定性仍然很强。 业界一系列动态,似乎宣告着UWB应用可以无处不在。UWB技术在汽车、智能穿戴,以及工业市场都有很大的机会。 但从市场后续的一系列反映来看,不温不火,或许才是对UWB行业最贴切的描述。 UWB市场体量和WiFi、蓝牙、RFID根本不是一个数量级;和Lora、Zigbee这些小众的无线通讯技术的市场规模也有不小的差距。原因在于UWB缺少成功的、具备一定量的落地应用场景支撑。 沉寂已久的UWB仍需要等待一个机会,来实现新的救赎。 UWB芯片,迎来新转折 近日,短暂平静的UWB市场传来了重磅消息——在2024年的MWC上,高通一口气发布了众多新产品。其中,UWB芯片也迎来了新的进展。 据了解,高通发布了一款型号为FastConnect 7900的芯片,采用6nm制程工艺,是一颗融合了“Wi-Fi7+蓝牙+UWB”多种局域网通信技术的套片。 值得注意的是,这款芯片可以与高通最新发布的5G芯片“骁龙X80”组成新一代的高端移动芯片组,一起使用于手机、PC、车载、IoT等客户。 这或将成为助推UWB产业发展的关键一环。 因为“骁龙X80”+“FastConnect 7900”芯片组合的推出,就意味着高通的UWB进入到手机的时间就很近了。据介绍,搭载该平台的商用终端预计将于2024年下半年发布,到时国产安卓手机厂商就会同步搭载UWB功能,一旦有安卓手机厂商大规模用UWB芯片,其他的手机厂商也会很快跟进。 届时,UWB也许将迎来市场需求的新局面。 借此机会,我们一起来看一下UWB的技术特点与优势,以及当前的应用进展和企业布局情况,更深入的了解UWB技术的发展现状、挑战与未来趋势。 UWB,从军用走向商用 UWB,全称为Ultra Wide Band,是一种超宽带无线载波通信技术。 UWB不同于传统的通信技术,它通过发送和接收具有纳秒或微秒级以下的极窄脉冲来实现无线传输的。由于脉冲时间宽度极短,因此可以实现频谱上的超宽带,从3.1GHz - 10.6GHz,总共7.5GHz的可用频谱带宽,使用的射频带宽在500MHz以上。 超宽带UWB与其他无线数据传输技术工作频率分布图 (图源:eliko.tech) 这种脉冲信号的宽带特性使得UWB芯片能够在相对较低的功率下传输更多的数据,相比全球导航卫星系统(GNSS)、WiFi和蓝牙等常见的定位技术,UWB技术具有定位精度高、抗干扰能力强、安全性好、传输速度快、功耗低等优点,尤其适用于室内等密集多径场所的高速无线接入。 实际上,UWB并不是一项新技术,它大概在1960年时就被提出,主要用于军事上的雷达系统,属于辅助系统,用量不算太大。 直到2002年2月,UWB获得美国联邦通信委员会(FCC)的批准,开始在民用和商用通信领域得到应用。2007年3月,国际标准化组织(ISO)正式通过了WiMedia联盟提交的MB-OFDM标准,这标志着UWB技术的第一个国际标准诞生,开始向大规模商用过渡。 2013年开始,UWB逐渐应用于公安系统、仓储、物流、医院、工厂、煤矿、工地、展馆、商场、隧道、机房、机场、体育等诸多不同的垂直领域。 UWB进一步被大众所了解,则是在2019年苹果在iPhone 11系列上配备了这一技术,也使得UWB开始逐步被越来越多的设备应用。 在此期间,一些公司开始推出UWB芯片,用于实现高速短距离无线通信以及高精度定位定向。 UWB开始时被定位为一种与Wi-Fi类似的数据传输技术,但由于各种原因,包括功率限制,在商业用途上一直没有取得成功。 当该技术重新定位,主要朝着基于脉冲无线电、基于IEEE 802.15.4a标准的安全测距和定位技术发展之后,为UWB赋予了安全、可靠、厘米级精确距离和位置测量的能力。 简单理解,UWB本质不是为数据通讯服务的,优势在于测距及定位。 UWB的主要吸引力在于其极高的位置和方向精度,可以精确定位物体的位置,误差仅有几厘米,大大高于蓝牙、GPS和其他跟踪方法。 得益于显著的优势,UWB在上述B端市场快速落地,并且逐渐商用。 随着技术的成熟,UWB技术开始开拓B端之外的应用场景,发挥在消费市场的巨大应用潜力。各种终端设备开始集成UWB通信功能,如笔记本电脑、移动电话和智能汽车等消费电子产品。 UWB,寻找落脚点 那么,UWB究竟能为用户带来什么好处? 上面对UWB技术优势的介绍可能不太直观,我们以应用场景为例,可以更清楚的了解到UWB在实际应用中的功能和价值,例如: 苹果利用UWB技术的超高精度定位能力,提高了手机的定位精度,能够感知周围手机的准确位置,苹果将其命名为空间感知能力。通过Airdrop(隔空投送)功能,快速建立无线连接,来为用户传输数据做好准备。 此外,UWB还被苹果应用在了AirTag上,由于其支持厘米级的定位精度,还能够实现立体三维位置跟踪,并且不仅速度快、而且功耗也更低,因此AirTag能够让所有设备都具备防丢功能,而且用户寻找的过程也更为便捷。除了AirTag外,在Apple Watch、HomePod等产品获得UWB的加持后,同样也能够通过精准定位来实现精准定位。 苹果是为数不多大规模在旗下设备中应用UWB的厂商。 三星也在旗下产品中积极引入UWB的应用,自Galaxy Note 20 Ultra、Galaxy Z Fold2开始就加入了这一技术,例如在“对准来分享”功能中,UWB同样也能通过快速定位来建立无线连接,以实现数据传输。同时,三星也推出了SmartTag+智能追踪器。除了终端产品外,三星还通过了支持UWB的Exynos Connect U100芯片,直接面向智能家居、智能工厂和智能汽车领域。 在智能家居领域,小米推出了具备UWB技术的“一指连”功能,以及由此衍生的“一指操控”和“一指投送”功能。借助UWB的精准定位和快速连接特性,“一指连”功能的空间定位已实现厘米级和±3°的角度测量精度,指向即可实现定向操控,还能轻松完成投屏等操作。而在米家生态链这一体系下,UWB的应用也为用户带来了更多的便利性。 去年,华为发布了首款隔空触控电视,创新地搭载了全球首发的华为灵犀指向遥控交互方式,在大屏电视上实现了滑动、拖拽、圈选等手机才有的操控体验。这种绝对指向遥控技术通过UWB技术,达到了“所指即所得”的隔空触控效果。华为表示,这种全新电视交互方式的推出,将让电视行业步入“巨幕手机”的新时代。 从消费电子到智能汽车,UWB的“第二落点”? 消费市场正在成为UWB技术的敲门砖,让消费者见识到了UWB的奇妙之处。而仍在消费市场寻找出路的UWB,如今在汽车市场反而有了率先爆发的迹象。 2019年,车联网联盟将UWB列为下一代车辆安全访问技术,促进了移动设备的大规模可用性。随后,多家汽车品牌都开始引入 UWB汽车数字钥匙。 虽然目前已经存在各种形式的无钥匙进入技术,但UWB的采用将使车辆能够在几厘米内实时测量遥控钥匙的确切位置,与其他无线标准相比,UWB极大地提高了车辆的安全性。未来,你可以用支持UWB的设备(比如智能手机)或使用其数字钥匙平台的可穿戴设备解锁车辆,不必随身携带单独的遥控钥匙。同时,也可以支持高精度寻车。 图源:物联网智库 有业内人士表示,“UWB目前应用最广泛、前景最好的场景便是汽车数字钥匙。” 随着蔚来、长城、路虎、宝马等主机厂量产车型的推动,2022年更是被称为“UWB数字钥匙量产元年”。 2023年,业界更是出现了多个标志性事件。无论是苹果的“一掷乾坤”、蜂窝模组龙头移远的入局,亦或驰芯半导体和纽瑞芯的新品发布,都透露出UWB或许将在汽车数字钥匙这一应用大展拳脚。 然而,UWB 在汽车上不仅仅只有智能车钥匙这一个应用场景。 UWB雷达还可以帮助感知周围环境,因为UWB的精度非常高,舱内监测无疑是首先受益于政策法规强制要求的细分市场之一,应用它对人体生物的呼吸来感知车内有没有生物,比如,欧洲新车评价规程Euro NCAP是全球首个将儿童保护纳入评价体系的地区法规,防止大人不小心把门关了,车内的小孩还没出来,可能造成安全隐患。用UWB技术就可以检测到关门之后车内有没有活体存在,给车主报警提示或者直接不让车主关上车门等。此外,UWB的雷达功能还能够实现脚踢打开后备箱。 上述应用会促使UWB在汽车市场的应用推广,而相应的,汽车用户需要用手机中的UWB芯片和汽车的UWB芯片进行交互,进而手机UWB芯片的大规模应用会反向推动其他消费类电子使用UWB技术。 最近几年,在苹果、小米、三星等大厂以及汽车厂商的共同努力下,UWB已经从主要面向行业应用的小众技术,逐渐走到台前,转变为消费市场积极拥抱的大众科技了,同时也成为了资本市场重点关注的领域之一。 目前,UWB技术主要应用在智能手机、汽车、智能家居、可穿戴设备、消费电子标签等领域。其中,中高端手机庞大的出货量,可以持续引领C端智能手表、智能可穿戴、智能家居等各类UWB设备的出货增长。 值得注意的是,智能手机里面加UWB芯片有两种思路:一种就如现在苹果所做的,专门加一颗“U1”芯片,这颗芯片的功能也不只是定位与测距,还有其他的功能,这会更加丰富智能手机的功能;第二种就是在手机主控芯片里面加入UWB功能,就好比现在4G、5G、WiFi、蓝牙都直接集成进一颗芯片一样。 对于第一种方案,新兴的芯片厂商还有机会,而第二种方案则大概率会直接被高通、MTK、华为等移动芯片企业直接吃掉。 根据Techno Systems Research的最新报告,2027年全球UWB的出货量将超过12亿个,年复合增长率超过30%。在“手机生态+汽车生态”的双核驱动下,未来UWB将具有广阔的蓝海市场。从应用领域来看,到2027年,智能手机依旧是最大的应用市场,其次是智能汽车、智能家居、可穿戴设备、电子标签。 图源:Techno Systems Research UWB芯片行业现状与挑战 在全球市场上,UWB芯片的主要玩家包括苹果、恩智浦、Qorvo等。其中,Qorvo 在2020年以4亿美元收购Decawave进入UWB 芯片领域,目前主导包括工厂、煤矿、半导体企业等需要定位的B端UWB市场,主要产品为DW系列;而手机领域的UWB的供应以恩智浦和Qorvo两家供应商为主,苹果则是自研自用;而在车规级UWB芯片领域恩智浦一家独大,主要产品为Trimension系列。 此外,意法半导体、英飞凌、瑞萨等传统汽车大厂也加大了UWB的布局,近年来也已经取得了一定的进展。 而在中国市场上,虽然UWB芯片设计领域起步较晚,但由于较好的市场及产业链优势,目前也正在加速崛起中。 UWB芯片国内主要市场参与者包括浩云科技、环旭电子、联睿电子、唐恩科技、精位科技、纽瑞芯、柯锐思德、易百德、瀚巍微电子、优智联、驰芯半导体、捷扬微、清研讯科等,多家国产厂商在UWB芯片领域取得新的进展。 总体来说,无论是国内还是国际,UWB技术都在不断发展和完善,但在国内核心技术和产业链上游方面仍存在一些差距。随着技术的进一步成熟和市场需求的增长,预计未来UWB技术将得到更广泛的应用和推广。 成本难题 UWB技术在市场上也能看到一些采用,但为何UWB并没有如想象中那般火爆呢? 归根结底,目前大部分应用都是无关痛痒的,属于体验改善性质的应用,甚至一些改善比较鸡肋,并不能解决前所未有的问题。 另一方面,UWB的实用成本目前依然较高,在中高端产品的向下兼容方面还需要进一步发力。 对此,有业内人士指出,UWB现在价格比较高最主要的原因还是产业链还没有起来。随着半导体工艺技术的不断演进,以及国产UWB厂商的不断崛起,UWB的出货量将不断增大,而出货量的快速增长将在很大程度上带动成本的降低,进而带动UWB在中低端设备中的普及。 UWB标准化进程慢 再一个原因是,每项新技术生态建立都需要一个过程。 UWB的行业标准目前总体上还处在相对“散装”的阶段。该技术的应用毕竟横跨了消费级、工业级、车规级等不同场景等级,而每个场景的等级标准也亟待进一步理清。 因此,建立相对统一的标准是绕不过去的拦路虎。 UWB有两个国际标准化组织:一个是UWB联盟,另一个是Fira联盟。 UWB联盟面对的目标市场是B端的RTLS市场,也就是区域/室内定位市场:通过对室内人、车、物位置实时感知,实现管理自动化目的。RTLS市场是以TDOA/TOF三角定位作为的定位算法技术路线,每家公司产品在UWB链路层通讯协议以及RTLS定位算法都不相同,也就没有厂家间产品相互兼容的可能性。 FiRa联盟的成员包括苹果、索尼、三星、高通、小米、OPPO等知名厂商,并致力于跨垂直业务领域开发基于IEEE 802.15.4标准的UWB应用场景,目标是制定UWB室内定位行业的互操作性标准,旨在打破不同标准和制式的限制,推动全球统一标准的形成。 但整体来看,UWB雷声大雨点小,加上这几年终端厂家日子不如以前。对于融合UWB技术,相比WiFi、BLE、5G而言热情度不高。大厂多采取观望态度,多数在培育和寻求市场,不做重大的战略投入策略。 UWB,趋势解读 基于UWB行业发展现状、应用进展和技术挑战,物联传媒观察到UWB发展的几大趋势,笔者对此做了精简总结: 1. 国产UWB芯片玩家正在崛起:国产UWB芯片玩家大约在2019年后陆续开始布局,目前,几家进度快的国产芯片玩家已经实现了芯片量产,预计一两年之内会有更多的产品实现量产。国产芯片玩家的崛起势必会给市场注入更多的活力,很多应用场景或者产品需要在某些层面有定制化的功能,并且对成本要求极低,这都将会是国产UWB芯片玩家的机会。 2. 安卓手机将快速普及UWB芯片:iPhone早就普及了UWB芯片,此前,关于安卓手机使用UWB芯片的新闻时有耳闻,但进展缓慢。但此次随着高通推出集成UWB功能的5G套片,直接一颗多合一的芯片卖给手机厂商,这对手机厂商而言是最佳的方案,也将会直接带动UWB在安卓手机厂商的普及。 3. 低成本是行业刚需:无论是B端还是C端企业,都一致反馈目前的UWB产品太贵,需要降价,这其实是一种需求传导,需求方的一个普遍认知是:UWB这个技术很好,但是产品太贵。而基于这样的需求现状,上游产业无论是芯片厂商,还是产品与方案商,最有效的应对策略就是“把价格打下去”,至少现阶段来说,这不是一种恶意的价格战,而是满足行业需求的举动。 4. 行业分工开始明确:几年前,UWB行业现状是,芯片企业数量很少,然后有众多方案商,各家方案商的产品与业务领域都高度重合。而当前,逐渐看到了产业分工的趋势,有部分企业逐渐聚焦于做模组或者标准硬件产品,有部分企业逐渐只做定位软件,部分企业逐渐聚焦于垂直行业的整体方案等。这是产业在发展壮大的一个良好信号。 5. UWB厂商有的放矢,深耕垂直行业:几年前,几乎所有的方案商啥行业项目都会去做,但如今,国内大多数UWB方案商在有意识做减法,聚焦精力深耕几个垂直行业,理解这个行业或用户的业务逻辑与需求,打造一体化的信息化方案。 6. UWB多模融合产品逐渐增多:无论是B端产品,还是C端产品,如果要定位都会涉及到室内外融合,或者与其他技术的融合。比如B端产品,UWB往往需要跟蓝牙、GNSS甚至LoRa、WiFi等传输技术融合起来的产品,基于这样的需求,未来在芯片上游端,也会逐渐出现多模或者合封的产品。 总之,UWB超宽带是一项潜力巨大的技术。 有业内人士表示,未来UWB会成为一种跟蓝牙、WiFi相似普及程度和规模的无线技术,也正是如此,行业厂商不断深耕UWB领域,并且在多个应用场景上去做从芯片底层技术上的支撑。 但UWB目前仍处于起步阶段,正面临来自蓝牙、GPS和Wi-Fi等技术的激烈竞争。虽然UWB在安全性、高带宽、双向通信等许多方面存在优势,使其在许多应用中都能获得好评,然而,UWB因行业使用量不高导致它的产品价格较高,市场推广仍然艰难。 同时,UWB技术的门槛也很高,从研发到落地,不仅要符合监管要求、一致性要求,而且还要顺利通过FiRa PHY认证测试以及ToF和AoA测量,可以说,UWB技术的特点和部署确实会给测试带来巨大的挑战。 虽然目前UWB的发展面临诸多挑战,但随着消费电子市场的推动,尤其是高通UWB集成芯片的推出,及其加速进入汽车市场,无疑为UWB市场发展提供了新的动能。 我们有理由相信,UWB技术在未来几年将实现更大的突破。但它并非旨在取代 Wi-Fi、蓝牙或NFC,而是智能地补充它们。 写在最后 UWB还不是香饽饽,更不是救命稻草,需要产业链上下游企业的积极摸索和共同参与,围绕功耗、成本以及标准化等方面解决问题,开启UWB芯片产品的“芯”篇章。
AMD未来APU前瞻:基于Zen 6+RDNA 5的Sound Wave现踪迹
IT之家 3 月 3 日消息,消息源 gamma0burst 近日发布博文,分享了 AMD 未来 APU 相关信息,包括 Strix、Sarlak、Kraken 和 Sound Wave。 IT之家基于爆料信息汇总如下: Strix 或者 Strix Point 这是 AMD 面向移动平台的新 APU,CPU 部分采用 Zen 5 核心架构,而 GPU 部分采用 RDNA 3.5 架构。 AMD Strix APU 上市后应该叫作 Ryzen 8050 系列,配备基于 XDNA 2“Ryzen AI”的全新 NPU,预估算力达到 48 TOPS(每秒 1 万亿次 10^12 计算操作)。AMD 可能会在 2024 年下半年推出 Strix,替代当前的 Hawk Point APU“Ryzen 8040”系列。 Kracken Point AMD 可能会在 2025 年推出 Kracken Point,采用同样的 Zen 5 内核和 RDNA 3.5 GPU。这些芯片之前的设计是采用 RDNA 4 核心,但后来放弃了这一计划。 当前信息表明,Kracken APU 最多搭载 8 个 Zen 5 和 8 个 Zen 5C 核心,提供最多 8 个计算单元。 Sarlak 爆料信息显示 Sarlak 和 Strix 使用不同的 I / O Die 配置,这表明采用了 APU 采用芯粒(Chiplets)设计。 AMD 的 Strix APU 将有两种配置,一种是最多 12 个 CPU 核心和 16 个 CU 的标准单体架构(monolithic),而另一种最多 16 个 CPU 核心和 40 个 CU 的高端芯粒设计。 有传言称,Sarlak 是高级 Strix 产品的内部代号,不过这里分开列出 Strix 和 Sarlak I / O Die,表明情况并非如此。 Sound Wave 爆料中还提及了 Sound Wave,这是基于先进工艺,采用 Zen 6 和 RDNA 5 等最新技术的未来 APU。目前关于该 APU 的信息并不多,媒体预估 AMD 会在 2026 年发布。
女子故意不接快递电话,索赔获利3.7万元被抓:钻了一个空子
原标题:女子故意不接快递电话 索赔获利3.7万元被抓:举报快递员先签收后派送 快科技3月3日消息,一女子故意不接快递电话,以此举报快递员先签收后派送,索赔获利3.7万元被抓。 据青浦检察官微消息,2021年至2023年期间,女子彭某以投诉索赔为目的,网购大量生鲜类商品后故意不接快递电话或接通后假装听不见,促使快递员先签收后派送,随后其借此举报,向快递公司索赔,非法获利37,000余元。 2024年1月8日,上海市青浦区人民检察院以涉嫌敲诈勒索罪对其提起公诉。 据了解,2023年6月15日,上海市青浦区公安机关接辖区内一家快递公司报警,称公司被一客户敲诈勒索。 经了解发现,该彭姓女子于2021年12月至2023年5月期间竟使用上百个收件地址和三个手机号码,多次举报该快递物流公司索赔100余次,造成其损失数万元。经查证,警方于2023年9月于外省彭某家中将其抓获。 到案后,彭某在检察官对其讯问时如实交代了自己的犯罪经过。原来,自2021年起,彭某无意间发现快递员有时会先将快递签收再派送,这是为了避免派送滞后的情况。 彭某当即想到“虽签收和派送之间时间间隔较短,但也可以利用这一时差进行投诉索赔”,她认为可以钻这个“空子”。 彭某立即通过网购下单了大量生鲜商品,几天后快递员在送货时均提前拨打她的电话试图与其沟通派送时间,但彭某却伪装成听不清对方说话的样子或干脆拒接电话,快递员们无奈之下不得不操作“已签收”,随后派送至彭某填写的地址。 但彭某却以此向相关平台举报快递员行为不符合规范,称自己“没有签收,这一操作为虚假签收”,并威胁将给予差评。其中甚至有多次,她为获得更高的赔偿款,使用修图手段修改快递价值。快递公司不得不给予其赔偿,彭某在短短一年多的时间内便如法炮制,非法获利3万余元。 经审查,彭某以非法占有为目的,多次敲诈勒索公私财物,数额巨大,其行为已触犯《刑法》,检察机关遂依法对其提起公诉。
为了AGI,全员主动996!OpenAI员工自曝3年工作感受
996作息表爆火后,许多人一定好奇在OpenAI工作究竟是怎样的感受。最近,多位匿名员工在求职网站Glassdoor纷纷对雇主打分评价,高薪却996。最经典的评价是:潜力巨大,但成长烦恼也是真实的。 在OpenAI工作,是怎样的体验? 前段时间,华人员工Jason Wei自曝996作息表,走红全网,让网友纷纷看到了现实中的自己。 OpenAI视频生成的研究员Will Depue称,「这简直就是我的一天」。 近来,一位OpenAI技术员工在美国求职网站Glassdoor上,自曝3年来的工作感受: 潜力巨大,但成长烦恼也是真实的。 他分别从优点和缺点展开,对OpenAI这家公司进行了全面评价。 优点: - 福利待遇好 - 薪酬处于市场领先水平 - 员工聪明、热情,大多数都很友好 - 餐饮选择丰富 缺点: - 工作与生活的平衡荡然无存 - 面试压力巨大,无法专注于日常工作 - 现在是一家产品公司,因此压力巨大,需要推出面向消费者的产品,而不是专注于研究 - 经常感到人手不足,绩效评估不够详细 - 领导层缺乏经验,似乎无法像更有经验的领导者那样解决成长烦恼 - 为了增加收入,我们似乎正在偏离OpenAI的使命 - 股权期权令人困惑 - 缺乏自上而下的问责制 - 缺乏多样性,不仅仅是种族,还有教育和背景,感觉最近的大多数新员工都来自Stripe、Meta或谷歌 此外,这位匿名员工还对公司管理层提出了建议: 采取行动。似乎没有人愿意解决「房间里的大象」。作为一个小型研究公司的文化已经消失了,所以不要再假装内部的事情没有改变。承认并承担责任。 Glassdoor是美国著名的求职网站,除了发布求职信息,还是了解工资薪酬和企业情况的重要平台。 甚至,内部员工可以对雇主每年进行一次匿名评价。 进入Glassdoor的OpenAI主页,可以看到,员工们对其整体评价为4.2分,有79%的人愿意推荐给朋友。 最重要的是,100%的人全意支持Altman。 更有看头的是,点开评分页面,能够看到员工对更细分的领域评分。 包括文化与价值、多样性和包容性、工作与生活平衡、高层管理、薪酬与福利、职业发展机会。 其中,评分最低的就是「工作与生活平衡」,仅为2.7分。 可以看到「工作与生活平衡」这一项也就是从ChatGPT诞生之后,几乎直线下降。 这也印证了Jason Wei所说的工作996,果然不假。 但也从侧面说明,这家明星独角兽能够做出ChatGPT、Sora这样的时代爆款,离不开每位团队成员的全身心贡献,团结一致的凝聚力。 说来,其他员工对OpenAI是怎么看的? OpenAI员工,怎么看OpenAI? 整体来看,大家对OpenAI的评价highlight: 高薪酬和福利待遇。 当然,高薪酬也就意味着「高付出」。 在OpenAI Reviews的首页,第一个评论虽是前员工写的。 优点: OpenAI的一个显著特点是致力于合乎道德的人工智能开发。该组织一直致力于解决人工智能模型中潜在的偏见,并努力实现公平性和包容性。OpenAI已采取措施,让研究人员和开发人员更容易获得人工智能技术,使他们能够在现有模型的基础上加以改进。 缺点: 与OpenAI的方法相关的一个潜在缺点是对人工智能权力集中的担忧。由于OpenAI在开发先进的人工智能模型方面一直走在前列,一些批评者认为,将如此强大的技术集中控制在少数几个组织手中,即使是出于好意,也会引发潜在的垄断倾向和影响人工智能发展方向的问题。 上面评论中,利弊分析的非常「标准化」,许多网友认为这一定是ChatGPT写的。 一位OpenAI工作一年的「前CEO创始人」评价道:(不知具体哪位?) 优点是,颠覆性态度,创新步伐快。而缺点是Altman夸张的剧情令人伤心,建议是雇佣马斯克担任OpenAI的首席执行官。 每天自我膨胀 另外一名匿名员工将OpenAI称为——「科技界大神『重灾区』,一定要当心」! 在他看来,OpenAI优点是拥有非常充裕的资金和尖端技术。还有非常优秀的同事,大多数人都很好。办公室环境也很棒,还有美食、足够好的员工福利。 缺点是: 每天每天都自我膨胀!太自负了!所有的大牛人物聚集于此。 完美的期望文化,管理层严重缺乏领导力、凝聚力和沟通力。行政人员忙于自我陶醉,无法有效地经营业务。 员工非常不满管理层的不成熟,无法与其相处。 他给管理层的建议是:聘请经验丰富的领导者,他们知道如何在健康的公司内创建和建设,并将员工视为人类,而不是机器人。 管理者应该以真实、同理心领导员工,并努力帮助员工取得成功,为员工树立高绩效的榜样。 一位技术成员表示,OpenAI是一家专注于研究有趣的、重要的问题的公司。此外,它也是一个标准的创业公司,自研工具,个别团队有一点个人政治。 团结一致,有干劲 OpenAI有着出色的、聪明的、有干劲的员工。他们真正关心这项使命。 扁平的结构,人们很容易共事。 高人才密度令人信服的任务,非常好的薪酬。人们非常努力地工作,所以可能会很紧张。 工作3年+的高级软件工程师认为,OpenAI是一个很好的工作场所,有极好、鼓舞人心的环境。同时,也有很多挑战和压力,但我学到了很多。 deadline太紧迫,任务压的喘不过气 高级机器学习工程师评价道,非常优秀的团队,有趣的项目,还有高薪。劣势就是紧迫的deadline,做不完的任务。 提供IT支持的员工表示,OpenAI团体有强烈的使命一致性、透明、朴实无华。感觉就像昔日的初创企业,领导者真正发挥着领导作用。 不过,平时的工作量大,而且期限紧。 5天全职在岗,工作时间长。建议就是创造一个工作与生活平衡的环境。 千万不要在这家公司工作。工作生活平衡完全没有,残酷的工作文化。 离职后的Karpathy,放出了工作日程表,一张图说明了一切。 「把人当傻子」,实则只关心利润 只给打1分的研究科学家表示,OpenAI不是一个优秀的工作场所。 主要是因为,它最初是开源的,因此得名,现在被微软收购,该公司只关心利润。 他们大谈信任、道德、安全和风险。但在任何事情上都是虚伪的。 该公司几乎不关心数据隐私。用户分享的大部分数据都用于训练模型。目前的监管努力只是为了公司的利益。 公司无视任何有关隐私和数据保护的漏洞修复。公司的发展轨迹非常不道德。作为一名科研人员,在这样一家公司工作,你将不断面临道德质疑。 给管理层的人建议是:「所有人都是不是傻子」。 前开发者关系总监离职,浅谈OpenAI工作体验 最近,就连负责OpenAI开发者关系的员工Lenny Rachitsky,也刚刚宣布了离职。 他在一次播客采访中,谈到了他在OpenAI工作的经历。 在他看来,OpenAI之所以有如此快的交付能力,最主要是要找到那种有极强主动性,快速行动解决问题的员工。 而且使用Slack这样的办公软件能让所有信息在公司高效,流畅地运转。 主持人问到,OpenAI能够如此快速地构建和发布产品,并且保持如此高的标准,比如有没有一个独特的流程和工作方式。 主动解决问题的员工是OpenAI成功的关键 他说,以他待过的苹果和NASA为例,公司随着时间的推移,做事情是会变慢的,会增加额外的条条框框来拖慢发布速度。 OpenAI是一家新公司,没有很多那种遗留下来的组织障碍。 而他认为认为OpenAI能如此高效的原因,找到那些具有高度主动性和紧迫感的人,是最重要的。 如果OpenAI要雇五个人,这就是他会在申请者身上寻找的最重要的两个特质。 因为拥有这样特质的团队能够应对世界上的各种挑战,他们不需要等待50个人的共识就能迅速响应客户的需求,找到解决问题的方法,我非常欣赏这种做事风格,参与这样的团队令人兴奋。 传统公司的做法可能是:「让我们与这七个不同的部门来讨论一下」,尝试获得对问题的反馈。 在OpenAI,大家只是去做事情解决问题,他非常喜欢这一点。 开发者大会发布的助手API就是一个很好的例子,OpenAI持续从开发者那里获得这样的反馈,人们希望在现有的API之上有更高层次的功能。 这个过程就像团队中的一群人聚在一起,说,「嘿,让我们一起来看看构建这样一个东西的计划会是什么样子的」。 然后大家就构建了现在为如此多人的AI应用程序提供支持的助手API。 这不是自上而下的过程。人们真正看到这些问题出现,知道他们可以作为一个团队聚在一起,很快解决这些问题。 即时的内部通讯也非常重要 通过Slack在工作中即时的沟通也是非常重要的。 Slack上的即时实时通信是如此关键,他能让不同团队的不同人,凝聚起来,每个人都在Slack上,即使你是远程的,或者你在一个不同的团队,或者在一个不同的办公室。 OpenAI公司文化的很大部分都植根于Slack。它允许所有人能很快地协调。 发送一个Slack消息永远比走到别人办公桌要快。 最近Sam和Bill Gates的采访,Sam就谈到了Slack是他手机上使用最多的应用程序之一。 Altman解雇风波 那是一个非常紧张的感恩节周。总的来说,自从ChatGPT推出以来,OpenAI一直在加班加点的工作,那本该是公司第一次真正的休息和放松的时刻。 每个人都非常期待与家人共度时光,然而周五下午的消息改变了一切。 这对我们所有人来说都是极大的震惊。员工对Sam、Greg及我们的领导团队有着深厚的信任,所以这种突如其来的变化让人措手不及。 OpenAI有着非常透明和开放的公司文化,通常我们会提前知晓任何问题或动态,但这次,很多人第一次听说董事会和领导团队之间的这些事情。 Logan由于不在旧金山,原本对于能在感恩节假期期间远离这一切感到庆幸。然而,消息的突然到来让人震惊。最让他惊讶的是,大家如何迅速恢复常态,重新投入工作。 他在感恩节之后立即飞回旧金山,原本不安地预料着会遇到某种异常情况,但发现大家都已经全神贯注地回归到工作中,这反映了我们团队的专业素养和对使命的执着。 这次事件或许也使团队更加团结,就像共同经历了一次创伤后的凝聚。回顾这次经历,他反而庆幸这一切发生在了一个相对风险和影响较小的时刻。 目前虽然我们对很多企业和客户产生了影响,但在更广泛的层面上,即使OpenAI真的没了,也会有其他组织接棒继续推动通用人工智能的进展。 若是在五到十年后发生类似事件,而我们还没有经历所期待的转型,后果可能会更加严重。这次事件不仅加强了团队的凝聚力,也为我们提供了宝贵的经验,让我们在未来能够更加坚韧地面对挑战。
报告称“AI威胁工作论”被夸大:部署维护成本高,影响不会很快
原标题:报告称“AI威胁工作论”被夸大:因部署维护成本高,影响不会那么快、那么广 IT之家 3 月 3 日消息,MIT 计算机科学与人工智能实验室(MIT CSAIL)近日发布研究报告,表示现阶段人类并不需要担心 AI 会抢走其饭碗,两者之间并不存在严重冲突和影响。 报告指出在媒体的广泛报道、用户的深入交流下,夸大了“AI 威胁论”,实际上由于企业实施成本过高,在短期内并不会威胁到大部分工作。 这项研究的共同作者、MIT CSAIL 研究员尼尔・汤普森(Neil Thompson)表示: 与近期很多相关研究一样,我们也发现人工智能在自动化任务方面具有巨大的潜力。 但充足的证据表明,没有足够的动力和吸引力推动企业部署自动化,以替代现有人类工作岗位。 也就是说“AI 要抢人类饭碗”是一种夸大的说法,即便真的开始替代,整个过程也必然不会很快,而且影响的范围也不会迅速扩大。 根据美国劳工统计局的数据,面包师大约要花 6% 的时间来检查食品质量,而人工智能可以(而且正在)自动完成这项任务。 假设该面包店共有 5 名员工,每名员工年薪 4.8 万美元,如果能实现食品质量检测自动化,就能节省 1.4 万美元。 但是安装自动化控制系统需要 16.5 万美元(IT之家备注:当前约 118.8 万元人民币),平均每年维护费用为 122840 美元(当前约 88.4 万元人民币),而且后续维护费用会逐年升高。 团队表示大部分类型的工作,人类仍然是最佳的经济选择。只有 23% 的有偿工作可以经济地实现自动化。此外,即使人工智能系统的成本仅为 1000 美元,但在许多工种中,使用该系统并不赚钱。 这项研究与其他预测背道而驰。例如,高盛集团(Goldman Sachs)估计,在未来几年内,人工智能可能会使整个劳动力市场 25% 的工作实现自动化;麦肯锡(McKinsey)分析师认为,到 2055 年,几乎一半的工作都将依赖人工智能。
十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI
智能本质、对齐、Gemini、超人类AI和多模态、AGI……在这场干货满满的访谈中,Demis Hassabis可谓「知无不言、言无不尽」。 「如果我们在未来十年内拥有类似 AGI 的系统,我不会感到惊讶。」Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。 在长达一个小时的节目中,Hassabis 分享了自己对智能本质、强化学习、规模扩展和对齐、AGI、多模态等主题的看法。机器之心选择性地整理了其中的主要内容并进行了适当编辑以便阅读。 智能的本质 Dwarkesh Patel:第一个问题:您有神经科学背景,那么您是怎么看待智能的? Demis Hassabis:这个问题很有趣。智能非常宽泛,可普遍用于各种用途。我认为这说明对于大脑处理我们周围世界的方式,必然存在某种高层级的共同之处,算法层面的共同之处。当然,大脑中有做特定事情的特定部分,但我认为所有这些事情下面可能有一些基本原则作为支撑。 Dwarkesh Patel:您怎么看待这一事实:对于现在的 LLM,当你向其提供大量特定领域的数据时,它们往往会在那个领域变得格外地好?难道不能在所有不同领域上实现普遍提升吗? Demis Hassabis:首先,我认为当在某个领域内获得提升时,有时候也会在其它领域获得出人意料的提升。举个例子,当这些大模型的编程能力提升时,它们的一般推理能力实际上也能得到提升。所以现在是有一定的迁移学习的证据。而且这也是人脑学习的方式。如果我们大量经历或练习象棋或写作等事项,我们就会越来越擅长对应的事情,即便我们是使用某种通用学习技术和通用学习系统来学习某个特定的领域。 Dwarkesh Patel:以语言和编程为例,在神经网络中,是否存在某种地方存在某种机制让模型的语言和编程能力一起提升? Demis Hassabis:我们目前的分析技术还不足以确定这一点。实际上,对于这些系统构建的表征的机制分析,还有待大量研究。我有时候把这称为虚拟脑分析(virtual brain analytics)。从某个方面看,这有点像是 fMRI,或者记录真实大脑中单个细胞的活动。对于这类分析技术,可以怎样将其类比到人造心智呢?这方面有很多出色的研究成果。比如 Chris Olah 就在研究这个,我很喜欢他的研究。有很多计算神经科学的技术可以引入过来分析我们目前正在构建的这些系统。事实上,我也在努力鼓励我在计算神经科学领域的朋友思考这个方向,应用他们的所学来理解大型模型。 Dwarkesh Patel:由于您有神经科学背景,您多半了解一些其他 AI 研究者不太了解的有关人类智能的知识。这方面的知识有哪些? Demis Hassabis:神经科学的助益很大。看看过去一二十年的研究就能知道。事实上我已经思考这些三十多年了。在这新的一轮 AI 浪潮早期,神经科学提供了大量有趣的引导性线索。于是出现了强化学习以及深度学习等技术。我们在这方面也有一些开创性的研究成果,比如经历重放(experience replay)以及已经变得非常重要的注意力(attention)概念。很多这些成果的初始灵感都是来自对大脑工作方式的理解,当然它们并不完全一样。一种是工程开发出的系统,另一种是自然的系统。它们并不是某种算法的一对一映射,而更像是某种指示方向的灵感——或许是某种架构思想,或者算法思想或表征思想。毕竟大脑本身就是通用智能存在的证据。人类就是这样的,一旦知道某件事是可能的,就更容易朝那个方向努力,因为你知道这就是一个努力进取直到某时取得成功的问题,而不是能否成功的问题。这能让人更快地取得进展。 我认为在如今成功的背后,神经科学启迪了很多人的思考,至少是间接的。至于未来,我认为在规划方面还有很多有趣的问题有待解决。还有大脑是以何种方式构建出了正确的世界模型?举个例子,我研究过大脑是如何进行想象的,你也可以将这看作是心智模拟。我们就会问:为了执行更好的规划,我们是以怎样的方式创建了对于世界的非常丰富的视觉空间模拟? LLM 之上的强化学习 Dwarkesh Patel:LLM 能否具备这种类似树搜索的能力?您对此怎么看? Demis Hassabis:我认为这是一个非常有潜力的研究方向。我们在持续不断地提升大型模型,让它们成为越来越准确的世界预测器。在效果上,就是让它们成为越来越可靠的世界模型。这明显是必要的,但我认为这可能并不是 AGI 系统的充分条件。在这之外,我们还在研究 AlphaZero 这样的规划机制——其可使用模型执行明确的规划,从而在世界中实现特定的目标。另外可能还会搭配某种链式思维或推理路径,也可能使用搜索来探索巨大的可能性空间。我认为这是我们当前的大模型所缺少的能力。 Dwarkesh Patel:对于这些方法所需的巨量算力,您会怎么获得?您认为这方面的效率会怎么得到提升? Demis Hassabis:首先,摩尔定律会帮助我们。每一年,计算能力都在提升;但我们更关注样本高效型的方法以及复用已有的数据,比如经历重放。世界模型越好,搜索效率就越高。举个例子,AlphaGo 的搜索效率就远高于使用暴力搜索的深蓝(Deep Blue)。深蓝的每一次决策可能需要查看数百万种可能下法。AlphaGo 则只需要大约数万次就能决定下一步。但人类的大师级棋手可能只需检查几百种下法就能得到一个非常好的下一步决策结果。这明显说明,暴力搜索系统对这些棋并没有真正的模型。AlphaGo 有相当不错的模型,而顶级人类棋手拥有更丰富、更准确的围棋或国际象棋模型。这让他们只需少量搜索就能做出世界级的决策。 Dwarkesh Patel:但是 AlphaGo 胜过了人类冠军。 Demis Hassabis:当然,所以我们做出了开创性的成果,DeepMind 也因此出名。我们使用游戏作为验证平台,因为很显然在游戏中的搜索效率更高。另外,在游戏中也更容易设定奖励函数——不管是获胜还是赢取分数。这些是大多数游戏内置的奖励机制。但对于真实世界系统,这却非常困难——该如何定义正确的目标函数、正确的奖励函数和正确的目标? Dwarkesh Patel:人类智能有很高的样本效率,它与 AlphaGo 这些系统得到解答的方式有何不同?比如爱因斯坦如何想出了相对论? Demis Hassabis:它们大不相同,因为我们的大脑并不会执行蒙特卡洛树搜索。这不是我们的有机大脑的工作方式。为了弥补这一点,人类的大脑会用到直觉。人类会使用自己的知识和经历来构建非常准确的模型,比如爱因斯坦构建了非常准确的物理模型。如果你阅读一下爱因斯坦的经历,看看他是如何想出那些理论的,你会发现他习惯视觉化地思考那些物理系统,而不只是通过数学公式。这让他有了对这些物理系统的非常直觉化的感知。这让他产生了在当时显得非常离奇的想法。 我认为这就是我们构建的世界模型的复杂精妙之处。想象一下,如果你的世界模型能让你抵达你正在搜索的某个树的某个节点,然后你就只需要在这个节点附近搜索即可。这样一来,你的搜索量就少多了。 Dwarkesh Patel:现在还有一个问题有待解决:强化学习能否让模型使用自我博弈合成数据来克服数据瓶颈问题?您似乎对此很乐观。 Demis Hassabis:是的,我对此非常乐观。首先,仍然还有大量数据可以使用,尤其是多模态和视频等数据。而且显然,社会也在一直不断增加更多数据。但我认为创造合成数据方面也有很大的发展空间。这方面有一些不同的方法,比如模拟和自我博弈,模拟方法包括使用非常仿真的游戏环境来生成接近真实的数据。而自我博弈则是让模型互相交互或交谈。这种方法在我们开发 AlphaGo 和 AlphaZero 时效果非常好。 Dwarkesh Patel:那么该如何确保合成的数据不是来自模型的数据集,而是新数据? Demis Hassabis:我认为这需要一门完整的学科来进行研究。在这方面,我们仍处于数据管理和数据分析的初级阶段。比如通过分析数据分布,能找到分布中的漏洞,这对于公平与偏见等议题来说非常重要。要将其移出系统,就需要确保数据集能够代表你想要学习的分布。对此人们有一些可以使用的技巧,比如增大数据中特定部分的权重或重放这部分数据。也可以想象,如果你发现你的数据集中有如此漏洞,你可以使用生成的数据来进行填补。 Dwarkesh Patel:现在人们很关注强化学习,但其实 DeepMind 很多年前就研究过了。是否还有类似这样的研究方向——早已经出现了,但还没有引起人们重视? Demis Hassabis:事实上,过去几十年来这种事情一直在发生。新旧思想结合起来就有巨大潜力,比如过去的一些想法与更大规模模型和大型多模态模型结合起来也许就能得到激动人心的结果。 Dwarkesh Patel:强化学习、LLM、树搜索,哪种方法有潜力催生出 AGI? Demis Hassabis:从理论上看,我认为纯 AlphaZero 式的方法没理由不成功。Google DeepMind 和社区一些人正在研究在假设完全没有先验知识、没有数据的前提下,从头开始构建所有知识。我认为这是有价值的,因为这些想法和算法在有一定知识时也能使用。 话虽如此,但目前来说我认为最可能最快实现 AGI 的方法是使用目前世界上已有的知识,比如网络上的和我们收集的知识。而且我们还有 Transformer 等有能力消化这些信息的可大规模扩展的算法。你可以将一个模型用作某种形式的先验,基于其上进行构建并执行预测,以此启动 AGI 学习。没理由不这样做。我猜想,在最终的 AGI 系统中,大型多模态模型会成为整体解决方案的一部分,但它们本身并不足以成为 AGI。它们还需要额外的规划搜索能力。 扩展与对齐 Dwarkesh Patel:现在有个规模扩展假设(scaling hypothesis)。有人猜想,只要扩大模型和数据分布的规模,智能终会出现,您认同吗? Demis Hassabis:我认为这是一个需要实验检验的问题。几乎所有人(包括那些最早开始研究规模扩展假设的人)都很惊讶规模扩展所带来的成就。看看现如今的大模型,它们的效果好得简直不合理!大模型涌现出的一些性质相当出人意料;在我看来,大模型是有某种形式的概念和抽象能力。要是回到五年以前,我会说要做到这一点,我们可能还需要另一种算法方面的突破。也许更类似大脑的工作方式。我认为,如果我们想要明确的、简洁的抽象概念,我们依然需要更加理解大脑,但这些系统似乎可以隐式地学习它们。 另一个出人意料的有趣结果是这些系统获得了某种形式的现实基础知识(grounding/定基),即便它们并未体验过世界的多模态——至少在近期的多模态模型出现之前没有。只是靠语言就能构建起如此大量的信息和模型,着实让人惊讶。对此的原因,我有一些假设。我认为大型语言模型能通过 RLHF 反馈系统获得一些现实基础知识,因为人类反馈者本身就是生活在现实中的人。我们就立足于现实世界中。所以我们的反馈也是立足于现实的。因此这能让模型获得一些现实基础。另外,也许语言中就包含了更多的现实基础,如果你能完全洞悉语言,也许能发现我们之前可能没考虑到的东西,甚至可能已经有语言学家研究过这些方面。这实际上是一个非常有趣的哲学问题。人们甚至可能都尚未触及其表面。看看过去的进展,畅想未来是非常有趣的。 对于你说的规模扩展问题,我认为我们应当尽可能地扩大规模,我们也正在这么做。至于最后会趋近一条渐近线还是撞上铁墙,这是个实验问题,不同的人会有不同的意见。但我认为我们应该直接去测试。没人能想出答案。但与此同时,我们也应该加倍投资创新和发明。这是谷歌研究院、DeepMind 和谷歌大脑的做法,我们在过去十年中开创性地取得了许多成果。这就是我们的生存之道, 可以说,我们一半的努力是在扩展规模,另一半则是在研发未来的架构和算法——它们或许是在模型变得越来越大之后所需的。我大概猜想,未来这两方面都需要。所以我们要两方面都尽可能地发力。我们很幸运,因为我们确实能做到这一点。 Dwarkesh Patel:再多聊聊定基(grounding)。可以想象,有两件事会让定基变得更加困难。一是随着模型变得更加聪明,它们就能在我们无法生成足够人类标签的领域工作——因为我们不够聪明。而是关于计算。目前我们做的都是下一 token 预测。这就像是一个护轨,限制模型让其像人类一样谈话,像人类一样思考。现在,如果额外的计算是以强化学习形式出现的呢——我们只知道达成了目标但无法追踪是如何达成的?如果这两者组合起来,定基会出现什么问题? Demis Hassabis:我认为如果系统没有适当地定基,系统就无法适当地实现这些目标。我认为在某种程度上系统应该有定基,至少要有一些,这样才能在真实世界中真正实现目标。随着 Gemini 这样的系统变得更加多模态,可以在文本数据之外处理视频、音频和视觉数据,这些系统就会开始将这些东西融合到一起。我认为这其实就是一种形式的定基。这样系统就会开始更好地理解真实世界的物理机制。 Dwarkesh Patel:为了对齐比人类更聪明的系统,应该怎么做? Demis Hassabis:我和 Shane(注:Shane Legg,DeepMind 联合创始人,现担任该公司首席 AGI 科学家)还有其他许多人在我们创立 DeepMind 之前就已经在考虑这个问题了,因为我们计划着取得成功。2010 年时,还没什么人研究 AI,更别说 AGI 了。但我们那时就知道,如果我们能通过这些系统和思想取得成功,创造出的技术将会具有让人难以置信的变革力量。所以我们 20 年前就在思考了,这样会有什么正面和负面的后果。正面的后果就是惊人的科学成果,比如 AlphaFold、科学和数学领域的科学发现。同时我们也需要确保这些系统是可理解的和可控的。 为了得到经过更为严格评估的系统,人们提出了很多想法。但我们目前还没有足够好的评估方法和基准可以确定系统是否欺骗了你、系统是否会泄漏自己的代码等不良行为。还有些人提出可以使用 AI 来辅助分析,就是使用应用范围窄的 AI(narrow AI)。它们不具备通用学习能力,而是专门为某个特定领域专门设计的;它们可以帮助人类科学家分析更通用的系统的行为。我认为一个有很大潜力的方向是创造强化型沙盒或模拟环境——它们的网络安全经过增强,可以把 AI 困在其中,也能保证外部攻击者无法进入。这样一来,我们就可以在这个沙盒中自由地做实验了。另外也有些人在研究让人类能够理解这些系统构建的概念和表征。 时间线和智能爆炸 Dwarkesh Patel:您认为 AGI 会在什么时候出现? Demis Hassabis:我没有具体的时间预测,因为我感觉还有很多未知和不确定,而且人类的聪明才智和努力总是会带来惊喜。这些都可能导致时间线变化。但我要说,在我们 2010 年创立 DeepMind 时,我们认为这个项目需要 20 年时间。实际上,我觉得我们正按预期向目标靠近。这很了不起,因为通常的 20 年计划总是还要另外 20 年。如果我们在未来十年内拥有类似 AGI 的系统,我不会感到惊讶。 Dwarkesh Patel:如果有了 AGI,您会使用吗?您可以将其用来进一步加速 AI 研究。 Demis Hassabis:我认为这是有可能的。这要看我们做出什么决定。我们需要作为一个社会来决定如何使用第一个新生的 AGI 系统或甚至 AGI 原型系统。即便是我们现有的系统,我们也需要考虑其安全方面的影响。 Gemini 的训练 Dwarkesh Patel:目前 Gemini 的开发遇到了什么瓶颈?既然规模扩展法效果很好,为什么不直接把它增大一个数量级? Demis Hassabis:首先,有实践方面的限制。一个数据中心究竟能有多少算力呢?实际上,这会遇到非常有趣的分布式计算难题。幸运的是,我们有最好的研究者在研究这些难题以及如何实现跨数据中心训练等等。还有硬件方面的难题,我们有自己构建和设计的 TPU 等硬件,也会使用 GPU。至于规模扩展的效果,也不是总如魔法般有效。扩大规模时也还需要扩展超参数,每一种规模都需要各种不同的创新。不是每一种规模都能重复一样的配方。我们必须调整配方,而且这在某种程度上就像是搞艺术。另外还需要获得新的数据点。 Dwarkesh Patel:在 Gemini 的开发过程中,您觉得最出人意料的是什么? Demis Hassabis:我得说没什么非常出人意料,但是能在那种规模上进行训练并从一种组织化的角度去研究它,是非常有趣的。 Dwarkesh Patel:很多人认为其它实验室的模型的计算效率可能比 DeepMind 的 Gemini 高。您怎么看? Demis Hassabis:我认为情况并非如此。实际上,Gemini 使用的算力差不多,也许就比传闻中 GPT-4 使用的算力稍多一点。 Dwarkesh Patel:对于 2010 年刚创立 DeepMind 的您来说,现在的 AI 进展中哪一点最让您感到意外? Demis Hassabis:你也采访过我的同事 Shane。他总是从计算曲线方面进行思考,也常常将 AI 与大脑进行比较——有多少神经元或突触。但现在我们已经差不多到大脑中神经突触数量的数量级和那样的计算量了。 但我认为,更根本的问题在于,我们关注的重心始终是通用性和学习。这始终是我们使用任何技术的核心。因此我们把强化学习、搜索和深度学习看作是三种可以扩展并且可以非常通用的算法,无需大量人工设计的人类先验知识。这不同于 MIT 等在当时构建的 AI——它们是基于逻辑的专家系统,需要大量人工编码。事实证明这种做法是错误的。我们在早期看出了发展趋势。我们使用游戏作为验证平台,发现结果还不错。最后也取得了巨大的成功。AlphaGo 等成功给其他许多人带去了启发。当然,还有我们谷歌研究院和谷歌大脑的同事发明的 Transformer,这种深度学习方法让模型可以处理海量数据。这些技术就是如今成果的基础。这些都是一以贯之的传承。我们当然不可能预测出每一次技术转变,但我认为我们前进的总体方向是正确的。 治理超人类 AI Dwarkesh Patel:您怎么看待超人类智能的前景?它仍然受私有企业控制吗?具体应该如何治理它? Demis Hassabis:我认为这种技术将会带来重大影响。大于任何一家公司,甚至大于任何一个行业。我认为这必需来自民间社会、学术界、政府的许多利益相关者的大规模合作。好消息是,随着近期聊天机器人等技术的广泛使用,社会中其它一些部分被唤醒了,他们开始认识到这种系统正在到来并且他们也将与这些系统互动。这很不错。这为良好的对话打开了很多大门。 其中一个例子是几个月前在英国举办的 AI Safety Summit。我认为这是一次巨大成功。我们需要进行国际间的对话,要让整个社会一起来决定我们要使用这些模型做什么、我们希望怎样使用它们、我们希望它们不被用于什么目的。 Dwarkesh Patel:现在的 AI 系统已经非常强大,为什么它们的影响没有更大呢? Demis Hassabis:这说明我们依然还处在这个新时代的起点。目前的这些系统已经有一些有趣的用例,比如使用聊天机器人系统来为你做总结、完成一些简单的写作任务、进行样板式写作;但这些只是我们日常生活的一小部分。 我认为,对于更一般化的用例,我们仍然需要新的能力,比如规划和搜索,另外还需要个性化、记忆、情境记忆等。因此长上下文窗口是不够的,还要记住 100 轮对话之前我们说了什么。一旦这些技术成熟了,我们就会看到新的用例,比如能帮助我们找到更好更丰富材料(书、电影、音乐等)的新推荐系统。那样我就会每天使用这类系统。我认为我们目前只是触及了这些 AI 助理的表面,其实未来它们能为我们的一般日常生活和工作做更多事情。另外用它们做科研也不足够可靠。但我相信未来当我们决定了事实性和定基等问题之后,这些 AI 系统就能变成世界上最好的研究助理。 Dwarkesh Patel:说到记忆,您在 2007 年有一篇论文谈到记忆和想象(imagination)有某种程度的相似之处。现在也有人说目前的 AI 就只是记住了些东西。您对此怎么看?只靠记忆就足够了吗? Demis Hassabis:在有限的情况下,也许记住一切就够了,但这样无法泛化到原有的分布之外。但很明显 Gemini 和 GPT-4 等模型确实能够泛化到新的情况。至于我的那篇论文,我实际上表达的是:记忆(至少是人类记忆)是一种重建的过程。记忆不是磁带式的精确记录。我们的大脑是把看起来熟悉的东西组合到一起。这让我思考想象可能也是这么回事。只不过这时候我们组合的是语义组件(semantic component)——你的大脑将它们组合起来并且认为结果是全新的。我认为我们目前的系统依然缺少这种能力——即把世界模型的不同部分拿出来组合到一起来模拟新东西,从而帮助用来执行规划。这就是我所说的想象。 安全、开源和权重安全 Dwarkesh Patel:你们有计划和其它两家主要的 AI 实验室一样从某种程度上放出 Gemini 的框架吗? Demis Hassabis:是的,我们内部已经做了大量的检查和平衡,我们也会开始发布一些东西。未来几个月,我们有很多博客文章和技术论文发出来。 Dwarkesh Patel:如何保护模型的权重,使其不被恶意盗用? Demis Hassabis:这涉及到两个方面。一是安全,二是开源。安全非常关键,尤其是网络安全。我们 Google DeepMind 非常幸运。因为我们在谷歌的防火墙和云的保护之下,这可以说是世界上最好的安全防护。除此之外,我们 DeepMind 还有特定的措施来保护我们的代码库。所以我们有双重保护。而且我们还在不断提升和改进,比如使用强化沙盒。我们也在考虑特定的安全数据中心或硬件解决方案。所有的前沿实验室都应该这么做。 开源也很重要。我们是开源和开放科学的大力支持者。我们已经发布了数千篇论文,包括 AlphaFold、Transformer 和 AlphaGo。但对于核心的基础技术,我们会考虑如何阻止恶意组织、个人或流氓国家,防止他们使用这些开源系统去实现他们的有害目的。这是我们必须回答的问题。我不知道这个问题的答案,但我也没能从支持开源一切的人那里听到让人信服的答案。我认为这其中必须要有些平衡。但很显然这是个很复杂的问题。 Dwarkesh Patel:在安全方面,其它一些实验室有自己的专攻领域,比如 Anthropic 在研究可解释性。现在你们有了最前沿的模型,你们也会在安全方面做前沿研究吗? Demis Hassabis:我们已经开创了 RLHF 等技术,这不仅能用于提升性能,也能用于安全。我认为很多自我博弈想法也有潜力用于自动测试新系统的边界条件。部分问题在于,对于这些非常通用的系统,它们的适用范围非常广。我认为我们将需要一些自动测试技术以及之前提到的模拟和游戏、非常拟真的虚拟环境。在这方面我们有很长的研究历史。另外,很幸运谷歌有大量网络安全专家和硬件设计师。这也是我们可以获得的安全保障。 多模态和进一步的进展 Dwarkesh Patel:对于 Gemini 这样的系统,目前与它们默认的交互方式是通过聊天。随着多模态和新能力的加入,这种情况会如何改变? Demis Hassabis:在理解完整的多模态系统方面,我们还处于起步阶段。与其的交互方式将与我们现在的聊天机器人大不相同。我想明年的下一代版本可能会具有一定的环境理解能力,比如通过相机或手机。然后我可以想象下一步。模型在理解方面会变得越来越顺畅。我们可以使用视频、声音甚至触碰。如果再考虑到使用传感器的机器人,世界将会开始变得激动人心。我想未来几年,我们就能看到多模态对机器人学科意味着什么。 Dwarkesh Patel:Ilya 曾在播客上跟我说过 OpenAI 放弃研究机器人的原因:在该领域的数据不够,至少在那时候是如此。您认为这对机器人的发展而言依然还是一个瓶颈吗? Demis Hassabis:我们的 Gato 和 RT-2 Transformer 取得了激动人心的进展。我们一直以来都很喜欢机器人。我们在这一领域也有出色的研究成果。我们仍然在进行机器人研究,因为我们其实喜欢这一事实:这是一个数据稀少的领域。我们认为这会是一个非常有用的研究方向,其中涉及到的课题包括采样效率和数据效率、从模拟环境迁移到现实的迁移学习。我们一直在努力研究。 实际上 Ilya 说得对,机器人很有挑战性就是因为数据问题。但我想我们会开始看到大模型可以迁移到机器人领域、在非常普适的领域学习,并且可以将 Gato 这样的 token 当作是任意类型的 token 进行处理。这些 token 可以是动作,也可以是词、图块、像素等等。我心中的多模态就是这样。但一开始,训练这样的系统比简单直接的文本语言系统更困难。我们之前聊迁移学习时也谈到了,对于一个真正的多模态系统,一个模态是可以从其它模态获益的。比如如果模型更加理解视频,其语言能力也会有所提升。我们最后会有一个这样的更加通用、更有能力的系统。 Dwarkesh Patel:DeepMind 发表了许多有趣的研究成果来加速不同领域的科学研究。为什么要构建这样的特定领域的方案呢?为什么不等到一二十年后让 AGI 来做? Demis Hassabis:我想我们并不知道 AGI 将在何时到来。而且我们过去也常常说,我们不必等到 AGI,也能做出些出色的成果来造福这个世界。我个人也对 AI 在科学和医疗领域的应用充满热情。而且你可以看到我们的多篇 Nature 论文关注了多个不同的领域。有很多激动人心的研究方向能影响这个世界。作为拥有数十亿用户的谷歌的一分子,我们很荣幸有这样的巨大机会,可以将我们取得的进步快速提供给数十亿人,帮助改善、丰富和助力他们的日常生活。 从 AGI 的角度看,我们也需要检验我们的想法。我们不能指望闭门造 AI 就能推动发展,因为这样只会让内部指标偏离人们真正会关心的真实事物。真实世界应用能提供大量直接的反馈,可以让我们知道系统是否在进步或者我们是不是需要提高数据或样本效率。因为大多数真实世界难题都需要这样。这能不断推动和引导你的研究方向,以确保它们走在正确的道路上。当然,另一方面是,即便是在 AGI 诞生之前很多年,世界也能从中获益。 Google DeepMind 内部 Dwarkesh Patel:Gemini 的开发工作涉及到谷歌大脑和 DeepMind 等不同机构的合作。这其中遇到了哪些挑战?产生了哪些协同效应? Demis Hassabis:过去的一年是很棒的一年。当然,挑战是有的,和任何大型整合工作一样。但我们是两个世界级的组织,各自都发明了许多重要技术,从深度强化学习到 Transformer。因此,我们的很多工作就是将这些汇集起来,实现更加紧密的合作。其实我们过去常常合作,只不过之前是针对具体项目的合作,现在则是更加深度和广泛的合作。 Gemini 是这一合作的首个成果,其实 Gemini 这个名字就暗含了孪生兄弟姐妹的意思。当然,也有很多事情的效率更高了,像是把计算资源、想法和工程开发工作汇集到一起。我们目前就处于这个阶段,基于世界级的工程开发来构建前沿系统。我认为进一步的合作是有意义的。 Dwarkesh Patel:您和 Shane 创立 DeepMind 的部分原因是你们担忧 AI 的安全问题。您认为 AGI 的到来有现实的可能性。您感觉来自谷歌大脑的研究者也有类似看法吗?这个问题方面是否存在文化差异? Demis Hassabis:没有。总体而言,这就是我们在 2014 年与谷歌携手的原因之一。我认为,谷歌和 Alphabet 整体(不只是谷歌大脑和 DeepMind)都以负责任的态度认真对待这些问题。差不多我们的座右铭就是大胆尝试这些系统,同时要负起责任。我显然是一个技术乐观主义者,但我希望我们对技术保持谨慎,毕竟我们共同为这个世界带来的东西具有变革性的力量。我认为这很重要。我认为这将成为人类发明的最重要的技术。 Dwarkesh Patel:最后一个问题。2010 年时,当其他人还觉得 AGI 很荒谬时,您就在思考这个终极目标了。现在随着这类技术的慢慢起飞,您是怎么想的呢?您是否已经在您的世界模型中预想到过? Demis Hassabis:是的,我确实已经在我的世界模型中预想到过这些,至少是从技术角度。但很显然,我们不一定预料到了公众会在如此早期阶段参与进来。像是 ChatGPT 等一些应用在某些方面还有所欠缺,但人们已经有浓烈的兴趣去使用它们了。这一点挺让人意外的。 另外还有更加专业化的系统,比如 AlphaFold 和 AlphaGo 以及一些科学方面的成果,但它们在公众关注的主线发展之外,也许几年后公众会关注到它们,那时候我们可能就有了更加普遍适用的助理类型的系统。这会创造出一个和现在不一样的环境。而且情况可能看起来会更混乱,因为会有很多事情发生,也会有很多风险投资,好像所有人都失去理智一样。 我唯一担忧的是我们能否负责任地、深思熟虑地、科学地对待这种情况,使用科学方法来应对。也就是我说的乐观但谨慎的方式。我一直都相信这是我们应对 AI 这类事物的方式。我希望我们不会迷失在这场快速袭来的巨大热潮中。 参考链接: https://www.dwarkeshpatel.com/p/demis-hassabis https://twitter.com/dwarkesh_sp/status/1762872471479529522
马斯克用微软论文当论据起诉OpenAI:你们自己早承认AGI了
大概也只有马斯克敢了。 用微软论文当证据,起诉OpenAI。 一年前微软研究院发表的论文《Sparks of AGI:Early experiments with GPT-4》,现在成为了马斯克起诉书中的关键角色。 这篇论文通过分析早期GPT-4的能力,认为GPT-4可以被视为早期AGI。 去年论文发表时就引发不小关注,1年时间里被引次数已经高达1500次。 马斯克的起诉书里写道,微软自己的科学家自己都承认了。 这么看,OpenAI最新的一通回应不是啪啪自己打脸? 还真不一定。 这篇《Sparks of AGI》当初爆火确实不假,但其中很大一部分热度来自争议。 不少人觉得它不够严谨、在炒热度,而且这篇论文没有经过同行评议,只是上传到了arxiv,结果也无法复现。 所以这篇论文到底说了啥?马斯克凭啥敢拿它大做文章? 论文说了啥? 这篇论文主要测试了GPT-4在2022年秋季的一个早期版本。 研究提出,GPT-4不仅掌握语言能力,而且能解决复杂新奇的问题,任务可以跨数学、编码、医学、法律、视觉等。 在这些任务中,GPT-4的表现接近于人类水平,大大超越以往LLM性能,比如ChatGPT。 由此,研究给出了关键性结论: 我们认为它可以被合理地视作一个早期版本(仍不完整)的AGI。 在此基础上,研究团队还进一步探讨了真正意义上的AGI应该具备哪些要素。 论文全篇超过150页,分别测试了GPT-4的多模态、代码、数学、常识等能力,通过大量实例得出结论。 以测试代码能力为例,GPT-4和ChatGPT会得到同样的提示词,研究人员将会对回答结果进行分析。 GPT-4的一些数据结果非常值得关注。 比如在零样本下,GPT-4代码能力在HumanEval上的精度达到82%。 再比如在现实问题问答中,GPT-4的表现也远好于ChatGPT。 研究还讨论了GPT-4基于自回归架构表现出的局限性。 比如模型本身具备相应的知识能力,但是却会回答错问题,因为预测下一个token的机制使得模型不能进行“内心对话”。 最后,论文作者还提出了对AGI的一系列构想。 这篇论文发表于GPT-4面世的一周后,当时引发业界巨大关注。 “AGI的闪现”让不少人感叹,一切都结束了。 但质疑也不少,很多人觉得这个结论是不是有点夸大其词了? 而且研究团队承认使用的一些测试方法不够科学严谨,他们主要是想展示GPT-4卓越的能力。 不过可以肯定的是,这篇论文成功把GPT-4和AGI强关联,给GPT-4创造了更多讨论热度,也成为AGI讨论热潮的重要推力。 可是谁又能想得到,它现在倒成为马斯克起诉OpenAI的关键了。 马斯克到底想干啥? 马斯克搞事,总是醉翁之意不在酒。 去年他和千名大佬共同呼吁暂停开发AI半年,结果转头自己囤卡、开搞大模型,火速成立AI初创公司xAI。 今年起诉OpenAI,核心的目的就是督促其开源。 号称GPT-4是AGI也是给OpenAI上道德压力。一方面要求他们开源,另一方面提出“AGI算法不应该授权给微软”。 所以有人合理怀疑,这场官司“会让一切减速”。 与此同时,马斯克的Grok也还在稳步推进中,目前已发布Grok-2。 值得一提的是,去年OpenAI宫斗前后,马斯克曾在一场访谈中表示,从现在(23年12月)算起,AGI还有不到3年。 但往小了说,写小说和JK罗琳一样好、能发现新物理规律或发明新技术的AI,从现在算起还有不到3年。 当时他还表示觉得山姆·奥特曼很复杂。 目前,OpenAI方面除了否认GPT-4是AGI外,还没有更多回应。 有法律专家认为,马斯克列出的一系列观点,很难当成明确的条款来执行。“诉讼可能比较牵强”,但是提出了“强有力的政策论点”。 有圈内大V还觉得马斯克这么干,有点吃不到葡萄说葡萄酸。 马库斯则调侃说,马斯克这么做逼得OpenAI不得不承认自己没达到AGI,但是可以找第三方来承认。 比如雇我这样的人来拯救他们。
星巴克最春天的设计,出自四位农民手笔|Feel Good 周报
杯子上 的春光 和艺术 Feel Good 导读 星巴克的新杯子好春天!背后艺术家居然是他们 腾讯想用两年时间,帮两万名老兵重新「听见」 耐克江苏物流中心获评低碳优秀案例 💡为产品设计「死亡」的人:面对终点时,我们不应感到羞耻 Minnetonka:一个品牌决定去「赎罪」 星巴克的新杯子好春天!背后艺术家居然是他们 初春,除了公园里和街道上的鲜花都盛开起来了,星巴克的纸杯也换上充满春天气息的新设计。 这四款色彩明亮、充满活力的插画图案,其实是来自四位云南的农民画家: 卓丽萍凭借充沛想象力,构建出一家四口在梨园耕作的春日画面; 罗丽珍的画作表达滇池渔民的生活,传达出她期望像鱼儿一样自由自在的生活态度; 郗发显描绘了春天里傣族妇女结伴上山采摘蕨菜,展现了农民们在面对困境时的乐观积极; 熊亮蔡,则用别样的视角与色彩,记录下村民们拔秧苗时的春日劳作场景。 据官方介绍,这次的合作,是星巴克首次将「普通人」艺术作品应用在纸杯设计上。同时,这也是星巴克在中国除节日红杯外,罕见地更换纸杯上的图案。 消费者只要购买任意大杯饮料,就有机会用上这些新纸杯,用完即止。 除了纸杯以外,这系列插画还会有配套的手腕包、星杯、星礼卡等周边产品。 如果还想看更多,上海的用户还能到四家星巴克门店观看这几位画家的个展👇 在此之前,星巴克还曾通过「乡村妈妈加速计划」公益项目,帮助乡村女性结合非遗技艺进行就业创业。 在三年时间里,项目共培育扶持全国 10 家女性非遗合作社,开展 150 场非遗技能培训,带动 1500 位「乡村妈妈」结合民间非遗技艺实现居家就业。 腾讯要用两年时间,帮两万名老兵重新「听见」 今天,腾讯宣布和中国老龄事业发展基金会合作发起「情暖老兵,守望相助—老兵听力关怀计划」。 据统计,我国 65 岁以上老年人中有听力障碍的人群约为 1.2 亿,其中需要助听器干预的约有 6300 万。 但由于自查率低和干预成本过高等原因,我国老年人听力障碍的干预率不足 6%,影响了老人的生活质量。 这个合作项目此前于 2023 年 6 月进行了第一阶段试点工作,已经为 4000 名退役老兵捐赠了「数字化听力健康筛查」「专业听力验配师线下和线上测听验配」「腾讯天籁 inside 助听器」等数字化听力健康关爱服务。 其中,「银发听力健康」小程序是国内首款完成校准、听力计对比测试且通过的数字测听产品,也是国内首个集成听力筛查、听力科普及听损模拟的一体化的小程序。 而「天籁 inside 助听器」则是基于腾讯会议「天籁实验室」完全自研的助听器核心算法解决方案,可将复杂场景下语音的清晰度和可懂度提升 85%。 同样结合了腾讯会议的「腾讯天籁远程听力服务平台」,则支持验配师通过视频会议帮助用户远程服务,更快捷地完成助听器验配。 双方接下来将提供价值 6800 万元的资金、物资,在未来两年为全国范围的两万名退役老兵开展听力健康服务。 耐克江苏物流中心获评低碳优秀案例 耐克的江苏物流中心「等到了风来」。 最近,耐克位于江苏太仓市的物流中心入选了国家能源局「能源绿色低碳转型典型案例」名单,成功获选为「用能企业(园区)低碳转型类典型案例」。 这个物流中心是耐克在亚洲最大的仓储场所,每年能处理 1.5 亿件货品,货供至中国以及其他亚洲地区市场。 在园区里,两台风力发电机为整座物流中心提供了 100% 覆盖的可再生能源电力,不仅给耐克省了三百多万的电费,还保证太仓仓库的每一度电都是「绿电」。 风力发电除了能满足园区自用电外,还能基于数字化能碳管理平台提供给耐克在中国的门店及办公空间使用,进一步打造绿色零碳运营场景。 在商业模式层面,耐克实践了「由第三方投资」的可借鉴方案,为综合能源管理模式市场化起到示范性作用,也为其他想要开发新能源的企业验证了经济可行性和可推广性。 💡为产品设计「死亡」的人:面对终点时,我们不应感到羞耻 随着循环设计理念进入更多公司,产品生命周期的终点也成为了更多人关注的领域。 创意公司 AndEnd 的创始人 Joe Macleod 就是这方面的专家,他自称「endineer」—— 为产品的终结和死亡而设计的工程师。 在他看来,如今像产品回收这类末期举措太多放在「羞耻」上 —— 譬如,如果你不参加这个品牌的回收项目就是不负责任的消费者。 他认为,好的末期项目更应该是「赋权」 —— 产品坏了,也许你可以选择去维修(品牌会帮你),也许你可以送去做材料回收,也许你可以去碳抵消 —— 为消费者提供选择,「你有权力可以做以上这一切」。 说起维修,Macleod 又说起公司们另一个常见内心戏: 「我们想创造一个好的结尾,那样我们就能成就另一次销售。」一切都是为了下一次销售。这真的很难改变。 对于这种销售「反增长」的恐惧,Macleod 认为公司可以走种路线:1. 提高单品销售价格,并在结束时 提供更多价值和体验;2. 从依赖销售转为增加服务型产品;3. 和消费者建立更有价值的关系。 在他看来,产品末期回收不但只是回收材料,更是一个可以深度了解自己产品的契机 —— 你能知道消费者是怎样使用你的产品的,它们是怎么被用坏的,哪里做得不够好。 伊莱克斯在回收自己的吸尘器时就发现,大部分其实都还能用,损坏的程度其实都很好修。基于这个信息,公司设计了更耐用的产品,并推出订阅模式,回收旧产品来维修和回收。 当我们在讨论一个产品的「死亡」时,也可以更加细致地去思考: 一个产品是如何走向死亡的? 它终结的时候,物理结构情况是怎样的?它为何损坏,我们可以如何回收? 它在走向死亡时,用户体验层面上又是怎样的? 这些问题,也许都能带来创新的启发。 Minnetonka:一个品牌决定去「赎罪」 花了不短时间,我们才真正走出第一步。 原因嘛,老实说,就是恐惧。 因为每天做同样的事情其实很简单,想真的往回退一步并逼自己面对难题,然后去解决它就很难。 Minnetonka 的总裁 Jori Miller Sherer 说道。 在 20 世纪 50 年代,Minnetonka 还是个家庭式小生意,向游客贩卖者设计参考了美国原住民文化的纪念品和服饰,其中一款特别畅销的产品是「莫卡辛软皮鞋」。 问题是,这个品牌的创始人不是原住民,产品设计也没有原住民参与。在人们对「文化挪用」认知更多的今天,这类品牌需要面对它自身的问题。 2020 年,Minnetonka 正式公开道歉,同时也在积极地寻找和原住民合作的方法。 原住民艺术家 Adrienne Benjamin 被长辈推荐去担任 Minnetonka 的「和解顾问」。虽然刚开始不情不愿,但 Benjamin 和品牌在沟通过程中感受到对方的真诚,于是开始帮助品牌进行转型。 在给品牌介绍原住民艺术家去合作前,Benjamin 坚持 Minnetonka 必须为过去做「补偿」,方法?聆听。 我们持续和社群里人见面,聆听他们的故事,真的做了很多聆听。 在 Benjamin 看来,品牌「赎罪」有五步: 1. 犯错的公司或个人要承认错误; 2. 对错误进行公开道歉; 3. 开始调整自己的行为,重建信任; 4. 最后,被冒犯的人或群体可以考虑原谅对方。 她认为,现在 Minnetonka 正处于第三步。 在觉得合适的时候,Benjamin 为品牌推荐了来自「红湖部落(Red Lake Nation)」的设计师 Lucie Skjefte,为品牌的莫卡辛软皮鞋以及拖鞋做串珠图案设计。 Lucie Skjefte 和儿子 Skjefte 以自己儿子的名字「Animikii」为这款鞋子命名,这个词语在 Ojibwe 语言中指的是「雷鸟」。Skjefte 回顾了很多传统文化中关于雷鸟的故事,最终将其视觉化并用于鞋履设计上。 在共享收益上,Skjefte 会从 Minnetonka 收到设计版权费,后者还会将鞋子部分营收捐赠给支持原住民创业的项目。 写到这里,我也突然好奇,文章最开头写的星巴克春季杯子设计,到底星巴克有没有给几位农民画家支付插画授权费用? 当然,Minnetonka 要做的还有很多。除了继续和原住民设计师合作以外,让更多原住民加入公司团队也是一个重要部分。 毕竟,在越来越追求多元的社会中,人们对「文化挪用」的敏感度只会继续提高。 世界也许不完美,但总有人在努力让它变得更好。
深扒Sora:一场投资过亿的视频暴力美学
当瓦特蒸汽机的齿轮转动了第一圈;当乔布斯从牛皮纸袋掏出Macbook;当ChatGPT用流畅优美的语言回答第一个问题。科技,曾经、正在、也将改变未来。 作者|武静静 编辑|苏建勋 两周前,Sora现世,在AI领域又投下一颗重磅炸弹。演示视频中可以看到,Sora已经能生成含有多个角色进行特定运动的复杂场景。 Sora生成的视频,图源:OpenAI OpenAI在技术报告中称:“Sora这类视频生成模型是世界的模拟器。Sora是能够理解和模拟现实世界模型的基础,我们相信这种能力将成为实现AGI的重要里程碑。” 也有人并不认同这种描述,Meta首席科学家Yann LeCun(杨立昆)认为:“仅根据文字提示生成逼真的视频,并不代表模型理解了物理世界。” Sora为何会形成如此惊艳的效果?我们通过研究技术报告、访谈多位行业人士后发现,Sora背后虽然并非采用了多石破天惊的技术路线,但在视频模型技术路线尚未收敛的当前情况下,Sora达成的出色效果明显降低了其他市场参与者在技术路线上的试错成本,也在视频生成的设计逻辑等产品思路上提供了可借鉴的理念。 Sora会给行业带来怎样的剧变?接下来视频模型行业又将如何把握这次的挑战和机会? “Sora给这个方向上的同行们指明了一条路,即Transformer也可以在视频模态下表现出很好的涌现能力。”线性资本投资副总裁白则人向36氪表示。 他认为,这会推动其他视频大模型公司加速研发节奏,迎来新的机会,开源技术在接下来也会取得进一步发展。 对于更多人而言,Sora解锁了对多模态视频大模型的新想象。OpenAI再次凭一己之力把多模态视频大模型推向了新的高度。在此之前,视频领域,受制于技术难度和数据集等难题,一直未出现类似ChatGPT、Midjourney这样的现象级产品。 1. Sora惊艳效果带来的启示:图片+视频混合训练 从产品细节来看,与其他同类模型相比,Sora生成的视频在时长、内容一致性、连贯性和分辨率方面表现出明显的优势。 Sora生成的视频,图源:OpenAI 从目前OpenAI发布的demo效果中可以看到,在生成的一分钟视频内,可以明显感觉到视频中的场景伴随镜头运动进行变化,并且保持内容一致性。 这是此前我们在使用Pika和Runway等视频模型产品时很难体验到的。比如,在《实测Pika1.0,砸了3.9亿元,真实效果不及宣传|产品观察》中,我们发现Pika把静态的图片转化成一段动态视频之后,视频中的人脸出现变形,且比照片显示更虚一点。 以这张模特图片为例,上传照片给Pika,图片来自IC photo Pika基于上述图片生成的动态视频 视频生成能力相比文生图,技术难度更复杂。AI生成视频工具不仅需要掌握基础的自然语言理解能力,还需要在画面流畅度、风格准确性、稳定性、一致性、动作连贯性等方面有较好的表现。 Sora做到了其他产品都没实现的一分钟时长。而从技术实现来看,要想让一个模型生成的视频从4秒延长到10秒,背后涉及的技术问题就极为复杂。 其中,有一个重要的考量维度是视频生成逻辑问题:是image-to-video(图像到视频)路线,即先生成图像,再由图像生成视频;还是video-native(视频原声)的设计概念,即把图像和视频进行统一编码,混合训练。 “如果选择image-to-video(图像到视频)路线,用一帧一帧的图像去组成视频,比如先生成一个由32帧图像构成的一个4s视频,把这个视频最后一帧画面拿出来,作为下一个4s视频的起点。这种方式理论上可以,但是过程中误差会累计,且视频生成涉及到内容连续性问题,让问题变得更复杂。所以,最终第10s的画面会和初始视频相差甚远。”智象未来CTO姚霆表示。 Pika曾在一次采访中提到这种路线面临的挑战,“当视频很长时,确保每一帧都协调一致是个相当复杂的问题。在训练时,处理视频数据时要处理多张图片,如何将100帧图片传输到GPU上就是其中一个挑战。而在推理时,由于涉及到生成大量帧,推理速度相对于单张图片会更慢,计算成本也会增加。” Sora采用了混合训练的方式。在技术报告中,OpenAI提到,采用将图片和视频混合训练的方式,用patch(视觉补丁)作为视频数据,来训练视频模型。 姚霆认为,OpenAI采用的这种video-native的设计理念,把图像作为单帧视频很自然地加入模型的训练,所以,Sora模型可以无缝切换为图像生成模型,这会促使技术人员去重新思考视频生成的设计逻辑。 他提到:“这也给了我们启发,从Sora效果中,我们看到,图像和视频的混合训练很重要,如果缺失了这一点,很难达到这样的高度。当然,这也证明OpenAI把技术架构之间耦合得很好。” Sora生成的视频,图源:OpenAI 此外,对于Sora生成的视频中展示出的流畅运镜画面,也有人猜测,结合团队有专职数字内容的工作者来看,Sora在训练数据里包含了3D渲染数据,让它相比其他产品更擅长生成运镜画面,模拟出3D视觉效果。 这些都是Sora惊艳的效果背后的一些产品设计细节。 惊艳之余,另一个值得思考的问题是,虽然OpenAI把Sora称为世界的模拟器,但从目前的效果也可以看到其中的局限性。 “Sora未必真正的理解这个世界。”UCL计算机系教授汪军告诉36氪。 他举了一个例子,在现实的物理环境中,当一个玻璃瓶打碎时,会和其他物体的碰撞,这要符合物理规律现象。“如果Sora通过预测下一个token来生成视频,如何建立一个真正符合逻辑和物理规律的世界模型就会成为一个挑战,就像语言模型一样,有些模型可能只关注于生成人类可以理解的语言,但这并不意味着它们真正理解了物理逻辑。” 2.Sora的成功,是OpenAI暴力美学的再次胜利 OpenAI官网信息可以看到,Sora团队成立时间还未超过1年,核心团队共有15人,成员中甚至还有00后。 Sora为何能在这么短的时间内做到如此好的效果到现在都还是一团迷雾。这次Sora技术博客中,OpenAI也提到,不会分享技术细节,只提供了模型设计理念和demo视频,依照OpenAI越来越不Open的路子来看,未来我们也无法得知更多技术有效信息。 很多人都在探讨Sora的技术路线。目前,主流的视频模型框架有两种:Diffusion model(扩散模型)和Auto-regressive model(自回归模型),后者就是此前被很多人熟知的GPT模型。一直以来,视频生成模型的主流模型框架一直都未像语言模型一样收敛成一个确定性路线。 图片由智象未来CTO姚霆制作 智象未来CTO姚霆告诉36氪,两大路线的区别在于:“Diffusion model(扩散模型)基于扩散模型加噪去噪的机制可以更好地结构化,并生成较高质量画质的视频内容,而 Auto-regressive model(自回归模型)更适合长上下文语境理解,天然适配多模态对话的生成方式。” 在具体的技术实现中,两大路线之下也会继续衍生出不同的细分架构。比如,Diffusion模型路线之下,Gen-2、Pika就采用了U-net(卷积神经网络)架构,也有公司把U-net架构换成Transformer架构,采用DiT(Diffusion Transformer)架构。 Sora被认为就是采用了DiT的架构。这是目前市场的广泛猜测,主要依据是2023年Sora研发负责人之一 Bill Peebles与纽约大学助理教授谢赛宁曾发表的DiT(扩散 Transformer)论文《Scalable Diffusion Models with Transformers》。 据36氪了解,国内的多模态视频模型创业公司爱诗科技在创立之初就选择了这条路线,而另一家创业公司HiDream智象未来也采用了DiT架构。 姚霆称:“其实我们在图像生成模型上已经自研验证了一套成熟的DiT架构,相较于U-Net,DiT架构灵活度更高,且能增强图像、视频的生成质量。” 所以单从技术路线来看,Sora选择的技术架构并不是多稀缺的选择,只是早前各家视频模型公司考量不同,选择不同。 “技术路线Sora展示的信息中并没有很特别的东西。OpenAI肯定有自己独特的训练方法。”汪军告诉36氪。 他提到,“通过大规模的训练,使得能够利用海量的数据和计算资源,将工程方面做得非常出色,在我看来,算力和数据尚未到上限,还有进一步发展的空间,可以进一步挖掘数据潜力,在文本、图像甚至视频上进行更深入地处理,将模型能力提升至新的高度。” 所以,虽然没有进行底层技术路线创新,但OpenAI的强大之处在于,在这个路线上不断践行大算力、大数据的暴力美学——通过大力出奇迹的方式,依靠细致的工程化创新,推进模型涌现能力的持续优化。 OpenAI在报告中提到:我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径——“在相同的样本下,随着训练计算规模的增加,视频质量显著提高,也会表现出许多有趣的新兴功能,使Sora能够模拟现实世界中人、动物和环境的某些方面。” 此外,OpenAI也在论文中提到Sora也结合了GPT等产品能力。 姚霆认为,Sora强大建立在过去对DALL-E和GPT模型的研究之上。“Sora是OpenAI 集成自己语言(GPT)、视觉理解(GPT4-V)和图像生成(DALL-E)多种能力的一个出口,它使用DALL·E 3的重述提示词技术,为视觉训练数据生成高度描述性的标注,因此能够更忠实地遵循用户的文本指令。” 目前,关于Sora参数量、训练数据的各种猜测甚嚣尘上,出入也很大,有人猜Sora的模型参数规模是百亿级别,训练成本是千万美元级别,也有人觉得参数规模可能只有3B,但数据标注成本不低,更有人认为Sora的推理算力需求是GPT-4的1000倍以上。 出门问问创始人李志飞称,Sora用的训练数据可能是数百万小时:“一般视频的分辨率超过128*128,最终的Tokens量应该至少是十万亿级别。如果Sora用了500万小时视频数据训练,那它使用的数据量大约相当于Youtube上9天的数据产出量。” 参数和数据量只是模型的其中一个方面,相比文本模型而言,视频模型的数据复杂度更高,维度更多,优质数据来源更少,数据标注难题更大,这些都是视频模型公司在具体模型训练中面临的工程化难题。 此刻,对于其他视频大模型公司而言,Sora惊艳的能力一方面验证了DiT架构,减少了在技术架构选择上的试错成本,能更快往前发展,另一方面,他们也需要面对更有挑战的现实难题——在没有OpenAI那样强大的人才和算力储备下,如何加强算法、数据等各个环节的工程化能力来追赶Sora。 3. 国内视频模型公司如何把握机会? Sora发布之后,有人悲观,认为:“Sora出现,其他视频公司都歇菜了”“国内外差距被进一步拉大”;也有人在剖析了更多细节之后认为视频模型的机会在被Sora激发之后,会迎来全新的发展空间。 一方面,Sora的技术路线有借鉴意义,能够让其他公司避免路线摇摆,加速进行产品,另一方面Sora带动市场更受关注之后,会吸引更多的人才、算力、数据、资金,迎来新的创业机会。 从Sora目前的进展可以看出,尚未实现实时更新,且等待视频生成的时间也比较漫长。这意味着,Sora尚未经受ChatGPT这样大规模用户的运行考验,其模型的计算资源和优化程度尚未达到理想状态,还需要时间进行继续迭代。这给其他公司留下了时间和空间。 据Reddit社区上的网友爆料,OpenAI在展示Sora功能时,主要使用了预先选择的示例,并未允许公众通过自定义提示词来生成视频,且生成一个1分钟的视频,Sora需要超过1个小时的渲染时间。 爱诗科技的创始人王长虎称,在他看来,目前Sora的技术发展相当于在GPT2和GPT3之间,还没到GPT4的水平,留给市场的空间很大。 线性资本投资副总裁白则人告诉36氪:“模型的发展会加速催生更繁荣的上层应用,带来更多的应用创新机会,这其中包括视频模型方向,也包括结合多模态的应用场景。但如何做出差异和建立长期护城河,是产品层创业公司一直面临的挑战,创业团队更需要关注模型之外的壁垒建立,更回归产品体验、应用场景和商业本质。” 市场进展方面,国内很多企业也早有布局。首先,大厂在视频领域的动作不断,基本上在推进语言模型业务的同时也布局了视频模型业务: 字节旗下剪映最近动作频频,目前,剪映已经在邀请一些博主内测旗下AI创作平台Dreamina的视频生成功能。 阿里通义实验室目前开发了开源视频生成模型和代码系列VGen。去年年底,阿里发布了最新AI应用:Animate Anyone,可以根据一张人物照片,生成人体动画视频。 百度在年初推出了一款视频生成模型UniVG,能够处理各种文本和图像的组合输入。 腾讯在2023年12月与北大和香港科技大学联合发布了视频生成模型AnimateZero,并在今年发布了一个可以提升视频质量的视频处理工具VideoCrafter2。 相比算力和人才储备的大厂,创业公司面临的挑战更大,但也并非没有机会。据36氪了解,目前智象未来HiDream.AI 、爱诗科技、HeyGen、生数科技、右脑科技等创业公司,都已经预先布局视频大模型的业务。不同于上一波语言模型的国内国外各自地盘发展的情况,在视频模型领域,像爱诗科技等公司在早期就瞄准了海外市场,相当于与Sora在一个市场展开竞争。 有不少行业大佬已经入局。爱诗科技的创始人王长虎曾任字节跳动视觉技术负责人,主导了抖音和TikTok等产品,以及字节跳动视觉大模型从0到1的建设;智象未来HiDream.AI创始人梅涛曾是京东集团副总裁和微软研究院资深研究员;生数科技则由清华人工智能研究院副院长朱军教授带领,核心成员来自清华大学人工智能研究院。 所以综合目前国内视频模型公司进展来看,接下来,大厂和创业公司都会陆续加大投入,行业的竞争会进一步加剧。而大厂的优势在于,在人才、资金、算力上有原始积累,并且有数据和场景,而创业公司则可以利用自身快速敏捷的作战模式,加速模型和产品迭代,把握产品层的创新机会。 此外,在商业化路径上,由于Sora并未像ChatGPT一样开放公测,所以现在也无从看到清晰的商业模式,但从OpenAI释放的信号来看,可能依旧是以通用模型为核心。 但对于中国创业公司而言,在算力成本、数据训练等多重压力下,在商业化过程中也会较早面临路线选择。 未来,视频模型创业公司在不断发展之后也将出现不同的分野:一条是不断增强基础模型能力,打造C端产品路线,比如爱诗科技就选择了这条路,根据海外流量检测网站similarweb.com,目前爱诗海外产品PixVerse月访问量增长迅猛,已经超过百万;另一条是瞄准特定的场景进行训练,打造专门的视频模型,早日跑通某个B端场景的商业化闭环。 姚霆认为,视频生成赛道,对于创业公司而言,需要在早期就思考产品如何构建,从中寻找差异化的机会。“目前,视频生产还处于单镜头阶段,未来,如果要生产一个短视频或者短剧,视频生产流程需要考虑多镜头、分镜、故事逻辑等各类问题,这些产品问题都要前置考虑。” 技术、产品、商业化,每一处都内含成千上万个待解决的细节问题,2024年接下来的时间,对每一家视频大模型而言,都是一场硬仗。
华为Mate X5手机“流体盔甲”揭秘:日常使用与受到冲击时的区别
原标题:华为Mate X5手机“流体盔甲”揭秘:日常使用柔软无感知、受到冲击变硬抵御伤害 IT之家 3 月 3 日消息,根据南华早报报道,华为潜心研究 3 年多时间,为 Mate X3 和 Mate X5 手机柔性内屏构筑了一层“流体盔甲”,不仅增强了折叠屏手机的实用性和耐用性,也是非牛顿流体在消费电子产品中的首次应用。 非牛顿流体是一种流体力学的概念,与牛顿流体相对,指不满足牛顿黏性实验定律的流体,即其剪应力与剪切应变率之间不是线性关系的流体。包括血液、淀粉溶液等都是常见的非牛顿流体,会因压力或冲击而改变粘度。 华为利用该原理,测试了超过 100 多种硅氧树脂(polysiloxane),终于找到了适合折叠屏屏幕的材料。这种材料在缓慢弯曲时依然保持柔软,而在受到快速冲击时又会立即变硬。因此,这款屏幕兼具灵活性和强大的防损机制。 这种材料有长分子链,会形成笼状结构。这种结构是这种材料具有双重特性的关键:它在正常情况下保持柔软和柔韧,但会通过断裂和重新结合来吸收冲击力,就像为手机屏幕穿上了一件透明的保护衣。 IT之家查询华为 Mate X5 手机页面,该机外屏采用玄武钢化昆仑玻璃,获得瑞士 SGS 金标五星抗刮耐磨认证和瑞士 SGS 金标五星抗跌耐摔认证。 此外,柔性内屏的开发过程还包括改进过滤技术,使透明度达到 92%,确保屏幕的保护功能不会影响其视觉清晰度。此外,还采用了等离子喷涂处理技术,在材料表面添加了亲水层,增强了与其他手机部件的粘合性,方便了组装过程。 华为在 Mate X5 可折叠智能手机中创新性地使用了非牛顿流体技术,不仅为设备的耐用性设定了新标准,还为智能材料在消费电子产品中的应用开辟了新的可能性。 这一突破可能会激发材料科学的进一步研究和创新,从而有可能为各种电子设备开发出更先进的保护解决方案。 随着消费者不断提高智能手机耐用性要求,如何在不影响设计或功能的前提下经受住日常使用的严酷考验,是摆在每家手机厂商面前的难题和挑战,而华为的“流体装甲”技术在这方面迈出了重要一步。
消息称任天堂Switch 2在底座模式下性能接近PS4 Pro
IT之家 3 月 3 日消息,知名科技 YouTuber“Moore's Law is Dead”在其最新视频中透露,传闻已久的 Switch 继任者将采用三星 8nm 制程工艺,并配备 12GB 内存,性能可能与 PlayStation 4 Pro 相当。他表示,许多人误以为任天堂并不关心主机性能,但实际上并非如此。任天堂只是为每个主机周期设定了特定的性能目标,只要达到目标,他们就会感到满意。 IT之家注意到,此前有报道称 Switch 2 的芯片性能可能难以匹敌 Xbox Series S。最新视频中,“Moore's Law is Dead”似乎也支持了这一说法,但他也指出 Switch 2 在性能上可能接近微软的入门级主机,只是帧率会更低一些。综合传闻规格进行对比,Switch 2 在连接底座模式下的性能可能接近 PS4 Pro。CPU 方面,则与上世代的 Xbox One X 处于同一级别。 “Moore's Law is Dead”称,“PS4 Pro 是一个很好的类比,可以用来描述 Switch 2 底座模式下的性能。”他还补充说,“PS4 Pro 或许更接近,因为除了 CPU 外,Xbox Series S 受限于缩减的内存系统,实际性能差别不大。” 至于 Switch 2 的掌机模式性能,该 YouTuber 认为其图像质量和续航时间将优于 Steam Deck,尽管整体性能略低于后者。他解释道,“即使他们 [任天堂] 在时钟频率和散热方面降低成本,我也认为 Switch 2 的 GPU 性能仍然比 Steam Deck 高出 20-30%,但 CPU 在游戏方面稍弱一些。因此,如果 Steam Deck 能以 720p 低画质 40 帧运行游戏,那么 Switch 2 则可能以 720p 高画质、开启光线追踪的情况下 30 帧运行。” 任天堂尚未正式公布 Switch 继任者的消息,但近期传闻称该平台将于明年年初上市。根据“Moore's Law is Dead”的爆料,Switch 2 的售价可能在 399 美元至 499 美元之间。
热搜!最高29999元,格力玫瑰空调被吐槽“又丑又土”,董明珠回应!
近日,格力电器旗下的一款玫瑰空调,引发网友争议,被吐槽90年代的审美,“又丑又土”。 在3月2日晚央视财经《对话》节目中,董明珠回应“玫瑰空调被吐槽”,她说:“玫瑰空调”的设计,实际上更多是想跟家庭生活融合在一起。很多人吐槽说‘董明珠好土’,那我土就土,我觉得没所谓。我们要不断地创新,把空调做成家里的艺术品,这就是我的目标。 随后,相关话题冲上热搜。 最高售价近3万元,被吐槽“又丑又土” 工作人员:东西是好的,就是卖得不好 此前针对网友吐槽玫瑰空调“又丑又土”,格力电子商务有限公司@“格力明珠精选”曾发布视频表示,收到了大家的吐槽,“董总说要用玫瑰向用户表达爱意,让这台空调成为值得收藏的艺术品,为了这个追求,我们不断努力”。视频介绍,这款玫瑰空调历经三次换代、四次升级,精心设计的外观,才让它不断接近玫瑰的生动造型。 值得注意的是,格力电器董事长、总裁董明珠也曾推荐过这款空调。董明珠表示,严格地说玫瑰空调是为新婚人群准备的,金婚银婚都可以用。 另外,玫瑰空调的价格也引发关注。据格力电器官方商城,格力玫瑰变频空调最便宜的是一款挂机空调售价8899元,最贵的一款柜机空调售价29999元。 而据东方网旗下东方财经报道,上海一格力门店工作人员表示,这款玫瑰空调线下没有在卖,只有珠海有库存,销量并不好。“两三万元的(销量)能好吗你说,东西是好的,就是卖得不好。”珠海某格力门店工作人员则表示,线下门店基本上没有在销售,有的话也是库存。“这款基本上是丈母娘送给女儿结婚用的。” 据格力电器发布的2023年年度业绩预告,其2023年预计实现营业总收入2050亿元—2100亿元,同比增长7.8%至10.4%;预计实现归属于母公司股东的净利润270亿元—293亿元,同比增长10.2%至19.6%;预计扣非后净利润同比增长8.8%—15.9%。 格力电器称,2023年,公司经营业绩稳中向上,收入、利润较上年同期均有增长。公司始终聚焦空调主业,坚持以消费者需求为导向,丰富产品品类,积极拓展销售渠道;同时,公司持续进行工业化转型,在高端装备、工业制品、绿色能源等多元化领域持续发力,创造更多的领先技术,为业绩提供增长动力。 董明珠表示,2023年是格力电器成立33年来取得的最佳成绩之一,公司创造了历史新高的税收。她表示,希望2024年格力电器的国家税收能够超过200亿元。 不过以空调著称的格力电器也并非没有对手,在“白电三巨头”中,美的同样押宝空调,至于谁是空调之王,双方也各执一词。从2023年年中报看,除空调外,消费电器、机器人业务在美的集团的营收占比中分别达到34.6%、8.8%,而格力电器超70%的营收来自于空调,生活电器的占比仅为2.2%。不少投资者热切盼望着格力电器能够实现明显的多元化转型。 据北京商报报道,在业内专家看来,格力电器在渠道方面的改革也渐渐显露成效,成为其2023年业绩增长中不可忽视的因素。资深产业经济观察家梁振鹏对记者谈道,2023年,格力电器的业绩增长主要是恢复性增长以及多元化战略推进的成效,营业额超过了历史顶点,格力原来主要靠线下实体专卖店,这两年不断在推动销售渠道的扁平化变革、向电子商务转型等一系列措施,都是格力电器业绩增长不容忽视的原因。 董明珠再次建议: 提高个税起征点到1万元 此外,作为全国人大代表,董明珠今年的提案也备受关注。据悉,董明珠将再次对于优化个人所得税税制提出建议。 据上海证券报,董明珠建议,提高基本减除费用标准,优化调整税率结构,综合考虑城镇居民消费支出、物价上涨情况,提高个人所得税基本减除费用标准至10000元/月。同时,进一步优化调整税率结构,给中低收入者更多减税红利,让广大纳税人更便捷享受减税红利。这样既有助于纳税人增加税后收入,在一定程度上激发个人的消费热情;又有助于提高专业技术人才积极性,为社会发展做出更大贡献。同时,建议进一步优化专项附加扣除项目,加强不同系统之间的信息共享与实时比对。纳税人填报专项附加扣除时,税务系统可自动带出相关数据,或者对纳税人填报的信息进行监控、提醒,便于纳税人及时、正确享受税收红利,减少企业及税务机关事后管理成本,进一步为我国从分类征收向综合税制改革打下良好基础。 据南方都市报,就在全国两会前夕,董明珠日前在接受媒体采访时表示:“关于提高工人个税起征点,我今年还是要提,我们5000元起征点已经好多年了,现在确实要提高了。”“我们国家现在好多了,什么教育补贴、养老补贴等,实际上这些补贴完,起征点差不多也达到了1万块钱,那为什么不能一次性到位呢?”“只要你的起征点是1万元以上,减轻了审核成本,也减轻了这些人申报的过程、时间等等,还杜绝造假。” 据悉,董明珠已是两会常客,多次当选全国人大代表。据统计,在她历年提交的两会建议中,关于个税起征点的建议被多次提及。 2010年,董明珠提出,建议调整个税起征点及征收方式促进社会公平,扩大内需;2015年,她再次提出调整个税起征点;2017年至2023年,连续七年对个税起征点进行建言。2018年两会,董明珠提出将个税起征点提高到1万元的建议:个税起征点提高到1万元可以促进消费,拉动内需,同时减少申报时人力财力物力的浪费,降低成本运行。2020年、2021年两会,董明珠继续建议将个税起征点提升至1万元,董明珠认为,提高个税起征点可切实提高居民实际收入水平,让群众有钱消费更是促进消费、驱动经济“内循环”的动力。2022年两会,董明珠表示,如果把工薪阶层的工资提高到1万元起征点的话,那么每年大概就会多出约7000—8000元的收入。2023年两会时,董明珠建议称,将个税起征点提高到1万元,让工薪阶层得到实惠,敢于消费。 编辑|段炼 盖源源 校对|王月龙
极氪卷完,零跑接着卷,16 万 的 C10 就有激光雷达+Orin-X+骁龙 8295
改款如换代,加量还减价,打死新对手,背刺老车主,开年以来的新能源汽车竞争局势惨烈到难以想象的地步,再挑剔的消费者甚至都开始琢磨:他们这么卷,能赚到钱吗? 厂商赚不赚钱我们不太清楚,但现在买车确实是个极佳时期,无论是改款的极氪 001 在 25 万以上价位段的产品力,还是比亚迪秦 PLUS 荣耀版在 10 万元以下,唐 DM-i 荣耀版,汉 EV 和汉 DM-i 荣耀版在 20 万区间的无解价格,都意味着更低的购车成本和更佳的驾乘体验。 在新能源竞争当中,也有一位相对特殊的品牌,没比亚迪这么销量夸张,没有极氪深蓝问界这样出身显赫,也没有蔚小理的舆论声量,但稳扎稳打,始终能够在交付和口碑上跟上竞争进度。零跑,我愿称之为,造车新势力中专注 20 万以下市场的六边形战士。 3 月 2 日,零跑发布了新车型 C10,也对旗下的 C11、C01 和 T03 车型进行了更新换代,其中新车型 C10 堪称 2024 年上半年 15 万元档位上的卷王。 C10,又称小理想 L7,让智驾门槛前所未有地低 本次零跑发布会最重磅车型当属全新车型 C10,零跑称之为其首款全球化产品和 LEAP 3.0 代表产品。 作为一款中型 SUV,其车长 4739mm,轴距 2825mm,重点是舱内有效空间 1888mm,「得房率」66.8%,空间实用性在同级车型当中表现优异,零跑甚至还表示座椅舒适性媲美奔驰 S 级。 座舱空间表现只是开胃小菜,真正让零跑 C10 有极高性价比的是智能和智驾配置。 相比于一些豪车品牌,比如奔驰 E 级宣传高通骁龙 8295 智能座舱芯片主要是让车机更流畅,零跑对于这颗旗舰芯片的运用显然更加充分,做到舱驾融合,集成音响 DSP 功能、泊车、360 环视等多个功能,实现整车各功能协同,所以说,现在造车,光机械能力还不够,软硬件开发能力也至关重要。 另外,在 C10 高配智驾版上,还配有一颗禾赛 AT128 超高清远距激光雷达,和一颗 Orin-X 智驾芯片(254TOPS 算力),结合整体 30 个高精感知硬件,在硬件能力上具备 L3 级智能驾驶辅助水平,可实现包括 NAP 高速智能领航辅助、NAC 导航辅助巡航等 25 项智驾辅助功能。其中 NAC 导航辅助巡航功能可结合导航地图,根据红绿灯信号、斑马线识别、道路指向识别、限速识别等信息,实现自适应起停、转弯调头、智能限速功能,提升了车辆在路口/弯道的驾驶辅助自适应能力,降低驾驶负担。 同时,这颗禾赛 AT128 自 2022 年量产上市以来,是市场上极少数已在 10 万台量级上成功历经一年半以上用户实际应用质量验证的车载激光雷达产品之一。 其他 C10 的重要配置包括: 四叶草中央集成式电子电气架构,OTA 更方便 2000Mpa 高强度钢,42500N.m/°车身扭转刚度 纯电车型最大搭载 69.9kWh 电池,CLTC 续航 530km,覆盖 -40℃~45℃ 全温域工况 增程版本 CLTC 纯电续航里程 210km,CLTC 综合续航里程 1190km 婴儿可啃咬级环保有机硅座椅面料 隐藏式氛围灯,音乐联动 7.1 声道音乐座舱 有趣的是,零跑 C10 的产品宣言是「年轻人更理想的家」,很明显是在主打家庭使用定位的时候,又针对理想,而且,C10 的设计也非常巧妙,在神似理想 L789 的同时,又不至于被说抄袭,所以完全可以给零跑 C10 送上外号:小理想 L7。 当然,由于价位段的不同,零跑 C10 和理想 L7 不是一个竞争维度,但我们可以看到零跑在造车这件事上的两面性,一面务实,一面机灵,产品层面非常用户导向,营销和产品定义上,又颇为巧妙,还有些前瞻,毕竟在 16 万多一点档位上,配 L3 级别智驾配置的车型少之又少。 零跑 C10 各配置价格如下: 纯电版 410 舒享版,12.88 万元 530 舒享版,13.88 万元 530 智享版,14.88 万元 530 智驾版,16.88 万元 增程版 210 舒享版,13.58 万元 210 智享版,14.58 万元 210 智驾版,16.58 万元 C11 和 C01,年度更新,四点变化 零跑 C11 SUV 和 C01 轿车是零跑之前的主打车型,定位都是「15-20 万」的价格,「30-40 万」的用车体验。 这两款车型也随着 C10 的发布获得了年度更新,更新点比较一致,主要是架构更新、智能更新、舒适度更新,还有颜值更新。 C11 同样是基于「四叶草」中央集成式电子电气架构打造,可实现秒级 OTA;舒适度上有前双叉臂后五连杆独立悬架+FSD 可变阻尼减震器的组合;智能和智驾层面和 C10 表现一致,搭载高通 8295 座舱芯片,通过激光雷达+Orin-X 芯片,5G 通讯+高精地图,带来 NAP 等 25 项驾驶辅助功能;外观选配上新增松岚灰外观色、新增玄黑+驼绒棕内饰、新增 20 英寸 15 辐陨石灰轮毂。 另外,C11 的整体定位略高于 C10,在尺寸(车长 4780mm,轴距 2930mm)和续航层面上表现更好,价格整体也更贵一些。 纯电版 515 智享版, 15.18 万元 580 尊享版,15.88 万元 580 智驾版,17.88 万元 580 四驱智驾版,20.58 万元 增程版 200 智享版,14.88 万元 300 智享版,15.58 万元 300 尊享版,16.58 万元 300 智驾版, 18.58 万元 C01 依旧是 LEAP 3.0 时代车型,采用「四叶草」中央集成式电子电气架构;搭载前双叉臂后五连杆独立悬架+CTC 一体化底盘;0.91 平方米全景天幕,搭载高通 8295 座舱芯片,新增全新外观色松岚灰和内饰配色驼绒棕,不过高阶智驾方案还是零跑 SUV 车型专属,C01 轿车目前还没有智驾版可选。C01 各版本的售价为: 纯电版 525 舒享版,13.98 万元 525 尊享版, 14.88 万元 625 尊享版,15.88 万元 增程版 216 舒享版,13.68 万元 216 尊享版,14.58 万元 316 尊享版,15.58 万元 零跑 C01 的定位也是国产品牌很经典的 B 级车的价格,C 级车的空间,或者说是 A+ 级的价格,B+ 级的体验和空间,在外观内饰空间和科技感层面,零跑 01 的表现,确实要比燃油车里的凯美瑞雅阁这一档次的车型更好。 除了 C10,C11 和 C01 之外,零跑也对入门车型 T03 进行了更新,作为一款入门代步车,零跑 T03 这次的更新包括新车身颜色和内饰,标配皮质座椅,升级开放式中央通道、升级定速巡航等 12 项配置升级。 如前面所言,在很多新能源车厂卷上 20 万以上市场,希冀于新能源转型来实现品牌高端化梦想的时候,零跑还是专注在 20 万以下市场,C10、C11 和 C01 都是这个市场里非常有竞争力的车型,在宣传上,零跑也还算克制,没有动辄就几百万以下最好的车型,顶多就是 15 万价格,30 万体验之类的,但它卷起来也确实相当卷,毕竟 16 万多就有智能智驾的三件核心配置(激光雷达+Orin-X+骁龙 8295)也是少见。 再给这段时间的汽车内卷加个总结陈词的话,那我希望是,新款极氪 001 的智驾,能不能降级(升级)到零跑 C10 这一套啊?
三星Galaxy A55手机上手,Exynos 1480性能实测:CPU高22%、GPU高31%
IT之家 3 月 3 日消息,YouTube 频道近日率先评测了三星 Galaxy A55 5G 手机,重点测试了三星自家 Exynos 1480 处理器的性能,并表示综合性能相当于高通三年前发布的骁龙 778G 处理器。 Exynos 1480 采用三星 4 纳米(4LPP)工艺节点制造,八核配置,包括 4 个主频为 2.75GHz 的 Cortex-A78 内核和 4 个主频为 2.05GHz 的 Cortex-A55 内核。 在 Geekbench 6 上,这款手机的单核得分达到了 1161 分,比前代高了 18.5%;多核得分达到了 3398 分,比前代高了 22.7%,整体表现非常不错。 在安兔兔跑分中,Exynos 1480 得分 713993 分,相比较前代提高了 20.4%。Exynos 1480 经过 15 分钟的 CPU 限速测试后,发现温度相对稳定,并没有出现骤降的情况。 在图形处理器方面,A55 采用了基于 RDNA 2 架构的三星 Xclipse 530 图形处理器。该 GPU 单元的性能明显优于 A54 的 Mali-G68。在 Geekbench 6 GPU 计算得分中,Xclipse 530 比 Mali-G68 明显提高了 31.4%。 IT之家附上 Exynos 1480 处理器和 Exynos 1380 处理器的得分对比如下: Exynos 1480 Exynos 1380 配置 4x 2.75 GHz – Cortex-A784x 2.05 GHz – Cortex-A55 4x 2.4 GHz – Cortex-A784x 2 GHz – Cortex-A55 生产工艺 4nm — Samsung 4LPP 5nm 安兔兔 713,993 592,717 GeekBench 6 (单核) 1,161 998 GeekBench 6 (多核) 3,398 2,753 GeekBench 6 (GPU) 3,994 3,039 3DMark Wild Life Extreme 1068 808 三星 Galaxy A55 5G 手机上手:

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。