EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
再战搜索,字节胜算几何?
延迟满足,是字节跳动创始人张一鸣最广为人知的经商哲学。对于这个概念,他是如此理解的: “延迟满足程度高,你就会有更多耐心、更高标准、更大目标,做事更专注从容,看淡一时得失,对短暂的失败不会恐惧。” 许是张一鸣这一套哲学早已融入字节的企业文化、经营理念之中,过去这些年字节在某些赛道总是屡败屡战,绝不会因为一时的挫折而放弃。音乐、社交、外卖如此,搜索也是如此。 近日,一款名叫闪电搜索的应用悄然上线各大应用商店,开发方写着北京抖音信息服务有限公司((即原北京字节跳动科技有限公司))的名字。在上一款独立APP悟空搜索改名小悟空之后,闪电搜索拿过接力棒,为字节延续搜索赛道的火种。 和之前的几款独立搜索应用相比,闪电搜索有什么过人之处?能不能挣得不一样的结局? 挥别“三驾马车”时代,闪电搜索接力再战搜索赛场 字节和搜索结缘来得很早。其首个爆款产品今日头条就借鉴了不少搜索引擎的设计逻辑,字节早期的技术团队里也不乏来自百度、谷歌的技术大佬。 2013年字节将总部搬进盈都大厦后做的第一件事,就是钻研推荐算法,高薪挖来百度搜索副总监杨震原和一大批机器学习算法工程师。不久后张一鸣更是亲自下场在微博发布招聘信息招揽高级算法工程师,从谷歌、微软和Facebook等硅谷大厂的技术团队里抢来不少人才。 时至今日,字节跳动官方释出的搜索岗位仍占比颇高,官方对这项业务的定义是“构建搜索的另一种可能”,目标是打造一个用户体验更理想的通用搜索引擎。上到集团的扛鼎之作抖音,下到西瓜视频、番茄小说、懂车帝等垂直应用,都没有脱离搜索引擎的产品设计逻辑。 字节对独立搜索业务的探索则在去年达到巅峰,进入了抖音搜索牵头、头条搜索跟随、悟空搜索打辅助的“三驾马车”时代。其中,抖音在2021年正式上线搜索独立入口,头条搜索在稍早的时候独立上线,今日头条团队孵化的悟空问答则改头换面成悟空搜索于2022年2月正式上线。 抖音搜索最开始立足于短视频生态,因为彼时抖音的图文内容生态尚未成熟,后来才融入更多图文内容。头条搜索和悟空搜索则不乏相似之处,只不过后者功能更加多样,增加了视频、小说等板块,更接近百度等传统搜索引擎的模式。 不过后来的故事大家都很清楚了,“三驾马车”并没有帮助字节征服搜索市场。头条搜索极速版仍在运营,但和今日头条主站功能高度重合;悟空搜索在今年9月更名小悟空,转型为AI工具库。 抖音仍在坚守,不过站内搜索入口要承载的工作实在太多了:短视频、图文、电商、本地生活都需要从搜索入口获取流量,早已分身不暇。字节需要在搜索领域扶持下一个排头兵,最终还是把宝压在今日头条团队的身上。 初步体验可以发现,闪电搜索的内容来自今日头条创作者生态,用户可以搜到头条号所有图文、视频内容。APP的功能设计也和今日头条有许多相似之处,包括搜索界面智能推荐、信息流展示方式,以及顶部的资讯、视频、小视频、图片、问答、微头条、百科等栏目分类。 两者最大的不同,在于闪电搜索首页采用双列信息流、图文及短视频混合展示形式。此外,闪电搜索的页面也比今日头条要简洁一些,首页顶部只有搜索一个入口,广告含量暂时也不高。 (左:闪电搜索,右:今日头条) 在拉新策略上,闪电搜索并没有什么新意,还是主打做任务赚金币的老套路。用户可以通过签到、做任务(看内容、互动等)每日赚取相应数量的金币或现金收益,新用户还能拿到数额不等的红包。对比百度APP,类似的设计几乎一个不少。如果奖金幅度没有明显差距,闪电搜索能否借这一套玩法快速拉新裂变尚未可知。 (左:闪电搜索,右:百度APP) 无论如何,字节再战搜索赛场的决心是毋庸置疑的,也已经打出自己的王牌。闪电搜索成功与否,评判标准始终掌握在字节自己手里。 抢流量、抢广告金主,闪电搜索的头号使命 字节对搜索念念不忘,原因有很多,最重要的肯定是争夺更多优质流量及广告客户。 尽管被短视频、图文社交应用抢走了不少用户,搜索引擎的使用率仍相当可观。CNNIC的统计显示,国内搜索引擎总用户规模超过8.2亿,且最近两年有反弹迹象。其中,2019-2021年搜索引擎用户占网民总数的比例一度实现三连涨,重返80%大关。 在字节之外,腾讯这两年对搜索业务也是越来越上心,微信搜一搜的日活也屡创新高。在互联网世界,没有一家大厂可以抵挡搜索的诱惑,毕竟流量是最具吸引力的筹码、有流量就能变现。 数据显示,2020年搜索广告收入占互联网广告总收入的比例再超10%,和用户使用率的复苏轨迹完美重合,并在之后两年保持稳定。目前,搜索是仅次于电商、短视频的第三大互联网广告市场。 事实上,广告主对搜索场域的含金量一直十分肯定,这一点从搜索霸主百度历年的核心广告收入也能窥见一二。财报显示,百度二季度核心收入264亿元,同比增长14%,核心经营利润也同比增长27%至65.1亿元。其中,在线营销收入为211亿元,同比、环比分别增长15.4%和17.3%。 (图片来自百度官网) 正如上文所说,闪电搜索接入的是今日头条创作者、内容资源——而今日头条恰好是字节最依赖广告收入的产品。 字节公布的财务信息显示,抖音这几年的营收占比越来越高,今日头条从2020年的20%一路缩水,还曾被爆收入停止增长。今日头条遭遇挑战,除了受短视频崛起、图文应用流量下滑的客观因素影响外,同类应用太多带来的同质化问题,以及良莠不齐的创作者、内容生态也要背锅。 传统的图文信息流广告风光不再,今日头条需要另寻出路,切入搜索赛道或许能稍稍缓解当前窘境。而今日头条生态内积累的海量用户和优质内容,也具备了发展搜索业务的基础。 从一开始,今日头条的产品设计逻辑就在参考搜索引擎。这几年迭代的无数版本中,搜索入口始终被放置在首页顶部雷打不动。在信息流图文应用最火那几年,各大平台将去中心化演绎到极致,完全以用户喜好为标准推送内容。搜索则给平台更多主动权,可以通过算法机制筛选优质内容、匹配相应的广告,提高触达率。 从另一个角度讲,如果闪电搜索闯出名堂,日后打通抖音内容库、实现流量内循环也是可以预期的。 抖音在2021年便全面上线图文功能,并通过“抖音图文来了”等扶持计划鼓励创作者生产图文内容。如今闪电搜索也是短视频、图文两手抓,兼容抖音完全不成问题。 当然了,国内搜索市场一超多强格局已经多年没有变化,格局异常稳定。闪电搜索想后来居上、站稳脚跟,还要付出更多努力。 百度地位难以撼动,闪电搜索要做字节生态枢纽? 在中国做搜索,无论如何都绕不开百度这座大山。闪电搜索现在仍在起步阶段,没有叫板百度的底气和实力。但要想在搜索这条路上走下去,难免要和这位霸主正面对垒。 可惜的是,先发优势让百度牢牢掌控用户心智,国内一众同行全都望尘莫及。CTR发布的《2023中国搜索引擎行业研究报告》指出,截止今年4月末,百度搜索PC+移动端渗透率高达96.3%遥遥领先,360搜索、搜狗搜索位居二、三位。这个席位已经多年没有变化,以至于各大机构都鲜少更新榜单。 今年4月,随着AI大模型的走红,一潭死水般的搜索赛道似乎终于泛起了一丝波澜。美国数据机构Statcounter曾发布报告称微软旗下的Bing桌面搜索份额增长至37.4%,超越了百度的27.01%,成为中国桌面搜索应用领域的No.1。 但是这个结果很快便遭到百度官方的辟谣,另有消息称百度在中文搜索引擎市场的流量长期保持在Bing的四倍左右。此外,也有业内人士质疑Statcounter一直存在样本数量不足、分析结果失真的老问题。而在其他权威机构的报告里,百度市场份额第一的位置从未受到挑战。 Statcounter的报告很难得到外界认可,字节想在中文互联网搜索领域撼动百度的老大地位也相当困难。不过我们可以换个思路:搜索做好了不止能卖广告,搜索入口还可以充当流量分配枢纽和生态连接器。 抖音、今日头条等应用生态兼容性不高、很难为其他应用引流,和用户使用习惯有很大关系。搜索引擎则是工具属性最强的应用之一,用户会主动搜索有用的信息,也为平台打开了流量再分配的方便之门。 字节旗下抖音、今日头条、西瓜视频的业务版图已经遍布中/短视频、电商、本地生活、图文社交等各个领域,目前还在继续落子AI大模型赛道,需要一个强大的中枢——正如百度靠搜索连接长短视频、O2O、电商服务,微信积极引导用户通过搜一搜触达视频号、直播间、公众号一样。 虽说百度糯米、百度电商等业务不算太成功,但搜索连接电商、本地生活服务的模式是值得肯定的。在2021年的首届抖音电商生态大会上,抖音电商高层就提到过搜索入口的价值。去年下半年发力搭建货架电商之后,抖音电商的经营模式也更接近传统电商平台,在算法推荐之外必须搭建好搜索系统。 更重要的是,在抖音之外今日头条、西瓜视频等产品也在深耕电商业务,而它们还缺乏抖音搜索的流量。闪电搜索做好了,或许就能打通抖音、今日头条等字节系APP的电商系统,做好流量内循环。 AI大模型更不用说,搜索是面向C端用户最佳落地场景。做好一款独立搜索应用,能为字节继续押宝大模型打好基础。 目前,字节大模型业务的着力点主要放在B端,6月底火山引擎发布了大模型服务平台火山方舟供企业调用,8月发布了内测阶段的多模态大模型BuboGPT,具备图像、音频、文本推理和多模态理解能力。而在C端,AI对话产豆包是字节目前亮出的唯一武器,显然还不足以满足其野心。 总而言之,在闪电搜索身上,字节还能挖掘许多可能性,其价值也绝不局限于搜索本身。再战搜索,字节也肯定不会轻易退缩。
亚马逊的流媒体计划“杀疯了”?
作者 | Bluesea Research 编译 | 华尔街大事件 亚马逊(NASDAQ:AMZN)最近宣布将于2024 年初为 Prime Video推出有限广告,寻求无广告选项的会员每月必须额外支付 2.99 美元。包括奈飞和迪士尼在内的大多数流媒体播放器也提高了订阅计划。亚马逊的这一举措应该有助于该公司增加订阅收入并提高广告收入增长率。AWS也取得了一些进展,随着美国经济形势的改善和新的人工智能工具的推出,我们可以看到其增长轨迹的改善。 亚马逊由于其 Prime 会员的高续订率而处于有利地位。该公司2022 年在视频流媒体上的支出为 166 亿美元,高于 2021 年的 130 亿美元。亚马逊广告支持的流媒体计划应有助于进一步增加流媒体预算。看到亚马逊将在未来几年中排挤其他流失率较高的流媒体播放器。亚马逊的这一举措是对竞争对手的重大警告。 订阅业务和视频流的增长改善了该股的看涨理由。即使按 15% 的同比收入增长率计算,到 2030 年订阅业务的年化收入也将达到 1000 亿美元。这将改善公司提供的产品和服务的长期护城河。目前,该股市盈率低于2.5,低于过去10年的历史平均水平。随着未来几年订阅和广告业务收入份额的增加,亚马逊具有强大的上升潜力。 最近的广告支持的 Prime Video 流媒体计划应该有助于亚马逊改善订阅和广告领域的增长轨迹。亚马逊拥有超过 2 亿的 Prime 会员群。即使这些会员中有 50% 选择每月额外支付 2.99 美元的无广告选项,订阅细分市场的年收入也会增加近 40 亿美元。这超过了订阅业务当前收入率的 10%。我们还可以看到 Prime Video 未来的价格上涨,这将改善订阅业务的增长轨迹。 订阅服务和广告业务的年化收入均接近400亿美元。过去几个季度,订阅业务的平均收入增长率为 15%,而广告业务的收入增长率为 25%。 如果亚马逊的订阅业务能够实现15%的平均增长率,那么到2030年年化收入将达到1000亿美元。这也将有助于该公司在流媒体服务上投入更多资金,从而在竞争中获得优势。 2022 年,亚马逊在流媒体服务上花费了 166 亿美元。2022 年订阅总收入为 350 亿美元。因此,亚马逊将超过 45% 的订阅收入花费在其流媒体平台上。如上所述,我们可以看到到 2030 年,亚马逊的年化订阅收入将达到 1000 亿美元。如果该公司将其中 40% 用于流媒体,那么到本世纪末,流媒体预算将达到 400 亿美元。这可能是该行业所有参与者中最高的流媒体预算。 同时,亚马逊的Prime会员拥有非常忠诚的基础,长期会员的续约率超过95%。小幅价格上涨不太可能导致 Prime 会员的流失率增加。 另一方面,其他流媒体播放器的流失率非常高。据 Antenna 称,苹果TV+ 等一些流媒体播放器的月流失率超过了长期 Prime会员的年流失率。 许多用户在其流媒体服务上狂看热门节目,然后取消会员资格。这会导致更高的流失率。它还迫使流媒体服务投入巨资,以制作更多原创节目来留住客户。最近的价格上涨将加剧这一趋势,因为客户将对他们长期保留的流媒体服务更加谨慎。 亚马逊凭借 Prime 会员生态系统拥有巨大优势。这使得公司可以添加新服务,而不必在客户获取上投入大量资金。 许多会员会选择 Prime Video 上免费的广告支持的流媒体选项。这应该会提高亚马逊的广告增长率。过去几年,亚马逊已经能够打破Meta和谷歌在数字广告领域的双龙头地位。亚马逊在广告领域的年化收入为 400 亿美元,平均同比收入率为 25%。由于其电子商务平台,它拥有非常好的广告定位系统。与 Meta、Google 或 TikTok 等其他平台相比,大多数使用亚马逊的客户都有很高的购买意愿。这使得广告商能够为其广告投放获得良好的投资回报。 亚马逊很可能会在 Prime Video 上建立一个非常强大的广告平台。应该指出的是,YouTube 等其他主要平台的大部分收入也来自广告,而不是付费的无广告订阅选项。过去几个季度,亚马逊报告广告业务收入同比增长 20% 至 30%。Prime Video 广告应该会成为广告总量增长的长期推动力,我们应该会看到未来几个季度的增长轨迹有所上升。 最近一个季度,亚马逊公布的收入基础为 1,340 亿美元。订阅和广告业务季度累计收入为200亿美元。因此,这两个部门的收入份额为15%。这两个细分市场的同比收入增速均高于其他细分市场。这应该会导致这两个细分市场的收入份额进一步增加。预计到 2030 年,广告和订阅业务的收入份额将增至 25% 以上,这将对股票的估值倍数产生积极影响。 亚马逊目前的交易价格不到其 PS 比率的 2.5 倍。这明显低于10年平均水平。 亚马逊的整体收入增长已经放缓,由于收入基础庞大,未来的增长率可能会温和。然而,我们可以看到订阅和广告等关键领域的同比收入强劲增长。随着美国经济状况的改善以及云服务推出新的人工智能工具,即使是 AWS 也应该会看到一些加速增长。 亚马逊将在 Prime Video 上推出广告,希望获得无广告选项的会员必须每月额外支付 2.99 美元。这是亚马逊的一项很好的举措,因为所有其他流媒体播放器也在提高价格。该公司的订阅和广告收入应该会有所增加。由于整个生态系统相当强大,这一举措不太可能导致 Prime 会员的流失率增加。 即使收入同比增长 15%,到 2030 年,订阅业务的年化收入也可能达到 1000 亿美元。更高的订阅收入将使亚马逊能够增加对流媒体的投资,并且还可以挤出其他收入更高的竞争对手。流失率和较低的流媒体预算。这一举措对该股来说是一个巨大的利好。与历史平均水平相比,亚马逊股票的交易价格处于合理水平,如果新举措成功,我们可以看到良好的上涨潜力。
星巴克在中国耗资 15 亿打造的超级工厂,将改变你在喝的咖啡
工作日,大脑停滞,喝杯美式。上班瞌睡,来杯冷萃。 休息日,一壶手冲是慵懒午后的伴侣。在一杯创意特调中,像钻研美食般品尝咖啡。 咖啡成为越来越多人的生活习惯,无论你是匆忙的上班族,还是热爱生活的文艺青年,对于一杯香气馥郁、层次丰富、口感醇厚的咖啡,或许都很难有抵抗力。 不过能在不同状态下都能满足的咖啡厅不多,在瑞幸 Manner 这些门店更适合即取即走,很难坐下来细细品尝。而在一些小众精品咖啡店,如果拿出一台笔记本办公,又会感觉和这里的氛围格格不入。 对我来说,星巴克是为数不多能同时满足我在两个状态切换的需求。我可以很放心在这里赶稿办公,也会在周末闲暇到甄选店品尝咖啡,比如每年夏天的桶酿威士忌冷萃。 星巴克这些体验背后需要一个庞大的系统支持,最近星巴克中国咖啡创新产业园正式在江苏昆山落成投产,这个投资 15 亿、占地 80000 平方米的产业园,让中国成为星巴克首个实现「从生豆到咖啡」全产业链控制的市场。 我们也第一时间探访了星巴克这个产业园,并发现了一些有趣的细节,而这些细节正在对你未来喝到的星巴克咖啡产生影响。 你未来喝的星巴克,可能都来自这里 一杯咖啡背后,从咖啡豆的种植、分拣,到烘焙、研磨、萃取,这些过程其实都离不开各种硬件和软件的结合,咖啡豆的水分和色泽、烘焙的温度和火候,都能精确测量和计算。 在星巴克的创新产业园里,给我留下最深刻印象的,就是咖啡生产背后的科技。这里是星巴克在海外市场最大的烘焙工厂咖啡的烘焙,既是艺术,也是科学。 根据咖啡需要焙烘温度、时间及烘焙程度,星巴克制定了一个「咖啡烘焙曲线」,对应我们常见的三种烘焙程度:浅雅烘焙、中烘、深烘。 为了保证咖啡豆受热均匀,星巴克的烘焙室设计采用了热风管道,确保开始烘焙时的咖啡豆都保持同样的温度。这也是星巴克持全球 36000 家门店保持口味能基本保持一致的秘密之一。 ▲星巴克烘焙工厂内的烘焙设施. 咖啡豆烘焙完成后,下一步便是打包运输,这个看似简单的流程却至关重要。如何避免咖啡豆风味流失,快速地运输到各地门店,都是对我们日常在星巴克的体验有着显著影响。 星巴克有一项叫做「风味锁」的保质技术,通过一个单向通气阀,配合冲入的氮气在在密封状态下,咖啡可以保持风味的时间能达到 34 个星期。 咖啡装袋出厂前还要通过色度仪和气相色谱仪检验烘焙和香气指标,确保到达门店后也能以新鲜的风味被品尝。 同时产业园的整合物流中心采用了一个高达 34 米的立体仓储系统,在工厂中望上去十分壮观。 这个立体仓储系统有多达 3 万多仓位,通过管道运输自动化处理超过 90% 的货物,它的空间利用效率,比星巴克传统仓库提高了 6 倍。 这里也将作为星巴克中国的物流枢纽,将烘焙好的咖啡豆运往全国 200 多个城市、6500 家门店。你平时在星巴克喝的咖啡,未来有很大部分都会来自这里。 除了这些工业化的流程,这个产业园和传统生产工厂最大的不同,是延续了星巴克的核心「第三空间」理念。 在产业园里,星巴克还建造了首个以咖啡为主题的沉浸式体验中心,以咖啡主题来打造工业旅游体验,通过 10 多个精心设计的体验点,近距离参考咖啡烘焙生产环节。 除了生产流程外,你还会发现不少有趣的彩蛋。 一个必须打卡的地方,是一个由 1440 个马克杯组成的 LOGO 墙,需要用手机拍摄才看清这个里面的星巴克 LOGO,可以预料这里会成为一个网红打卡点。 产业园内还有一个与青花瓷工艺结合的星巴克 LOGO,青花瓷上的花纹是手绘的咖啡植物,将中华文化和这个美国咖啡品牌做了很巧妙的融合。 而在沉浸式体验室,随着环绕的曲面屏上随机播放着中国云南、哥斯达黎加、卢旺达等咖啡原产地的的影像,空气中也会释放咖啡香味,4D 沉浸体验咖啡在原产地的环境。 还有一个不得不提的,是你还没进入园区就会看到的巨型的咖啡豆壁画,这也是全球最大的单体喷绘作品之一。 其实我这次也是提前为大家体验了一番,未来普通消费者也能到这里进行体验。星巴克告诉我们,不久的将来,少数金星会员将有机会提前预约来实地感受。 最绿的星巴克 同时这里也是星巴克全球最绿色节能的生产基地,隐藏在园区很多细节里,比如用回收陶器制成的红砖,用回收材料制成地毯和各种周边的产品。 园区内 20% 的能源供应,来自一块超过 26000 平方米太阳能光伏板。星巴克表示园区预计每年最高可实现 90% 的废弃物循环利用。 至于在生产环节,星巴克通过一个垂直打包机也实现了包装材料的零废弃。与星巴克其他咖啡烘焙工厂相比,这座烘焙厂减少了 30% 的能源消耗和碳排放。 星巴克的「绿色」很多人在门店也体验过。星巴克 2021 年就上海开了全球首家环保实验店「向绿工坊」,预计到 2025 年中国将有 2500 家「绿色门店」。 这些门店在探索一种绿色零售新模式,除了装修材料全面采用回收及环保建材。还会用电子小票替代纸质小票,用平板彩蛋替代纸质菜单,连咖啡师穿的围裙都是由回收材料制成。 最近在海外,星巴克也正尝试让消耗 60 亿个的一次性杯子「消失」。 如果你在加州纳帕县和附近城市的 12 家星巴克门店买咖啡,你会发现所有的一次性杯子都不见了。 在店里,你可以选择用陶瓷杯;想打包,咖啡师就会给你用上可回收并循环再用的杯子,你也不必支付任何定金。 这就是星巴克「借个杯子(Borrow A Cup)」项目的最新测试模型。 就和之前测试一样,星巴克当然希望拿走了可循环再用的杯子的客户,在下次来买咖啡时会把杯子带回来,然后投入智能回收机里。接着,杯子就会被清洗并回到使用链上。 为了鼓励用户将杯子并拿回来回收,星巴克提供了一个「奖励」,是换来参加星巴克礼品卡抽奖的机会。 从生产环节到消费场景中的这些「绿色」变化,可以看到星巴克除了自身产业链的革新,也在尝试培养用户可持续的消费习惯。很难说这样的可持续理念能影响多少人,但至少给环境带来了一些变得更好的可能。 星巴克的快与慢 从 1999 年星巴克入华至今,中国咖啡市场和用户的消费习惯已经有很大变化。 ▲星巴克创始人霍华德·舒尔茨早期来华影像资料 中国本土咖啡品牌这几年的扩张异常迅速,在十年前,你无法想象中国首家门店数量破万的咖啡品牌,居然是成立只有五年的国产咖啡瑞幸,另外一家与瑞幸颇有渊源的库迪咖啡,用半年多就开了 1700 家店。 ▲ 前段时间刷屏的瑞幸酱香拿铁. 除了开店速度快,这些品牌推出新品的速度同样惊人,比如瑞幸可以推出新品 100 种以上,每周都有两款新品上架。 进入中国 20 多年,星巴克将咖啡消费习惯逐渐培养起来,同时也培育了一个更加成熟的市场,以及更多的对手。 面对前所未有的竞争局面,星巴克在中国是不是显得有点慢了,他们要怎么应对这个市场的压力呢? 我将这个问题抛给了星巴克全球首席执行官纳思瀚 (Laxman Narasimhan),面对国内竞争越来越卷的咖啡市场,纳思瀚却认为仍然充满机会。 中国当前的年人均咖啡消费量是 12 杯,其中上海会更高一些,但这个数据,日本是 200 杯,美国是 380 杯。我们欢迎竞争,因为竞争能扩大整个咖啡的受众,让更多人认识咖啡,吸引传统上喝茶的人群也爱上咖啡。 创新产业园其实看出,星巴克更多追求全产业链标准化的同时,以咖啡媒介去做人的联结,第三空间是一个很好的载体。 纳思瀚认为,星巴克应该代表着人与人之间的联结。「当你看到顾客来到我们的门店,他们也是在寻找与他人,或与自己的联系,而咖啡正是实现这一目标的绝佳媒介。」 以当你看看我们周围的世界,你会发现孤独无处不在。我们所做的就是克服这个问题,希望能建立起人与人之间联结的桥梁,而这是跨越文化的。每一杯咖啡,每一次对话,每一个社区,我们都在孕育人文联结的无限可能。 其实爱范儿也开了两家咖啡厅,我门的初衷也并非要钻研咖啡。而是希望打造一个连接人与人、人与生活方式的未来社区,能让志趣相投的灵魂相识相知,源源不断迸发出新鲜的创意和灵感。 很多时候我们喝咖啡的时候,喝的并不是咖啡。
姚期智领衔提出大模型“思维”框架,逻辑推理正确率达98%
原标题:姚期智领衔提出大模型“思维”框架!逻辑推理正确率达98%,思考方式更像人类了 图灵奖得主姚期智领衔的首篇大语言模型论文来了! 一出手,瞄准的就是“让大模型像人一样思考”这个方向—— 不仅要让大模型一步步推理,还要让它们学会“步步为营”,记住推理中间的所有正确过程。 具体来说,这篇新论文提出了一种叫做累积推理(Cumulative Reasoning)的新方法,显著提高了大模型搞复杂推理的能力。 要知道,大模型基于思维链等,可以进行问题推理,但面对“要拐好几个弯”的问题,还是容易出错。 累积推理正是在此基础上,加入了一个“验证者”,及时判断对错。由此模型的思考框架也从链状和树状,变成了更复杂的“有向无环图”。 这样一来,大模型不仅解题思路更清晰,还生出了一手“玩牌”的技巧: 在代数和几何数论等数学难题上,大模型的相对准确率提升了42%;玩24点,成功率更是飙升到98%。 据清华大学交叉信息研究院介绍,共同一作张伊凡解释了这篇论文的出发点: 卡尼曼认为人类的认知处理过程包括两个系统:“系统1”是快速、本能和情感化的,“系统2”是缓慢、深思熟虑、合逻辑的。 目前,大语言模型的表现与“系统1”更为接近,这也或许是它不擅长应对复杂任务的原因。 从这个角度出发设计的累积推理,效果比思维链(CoT)和思维树(ToT)更好。 那么,这种新方法究竟长啥样?我们一起展开看看。 01 突破思维链&树“瓶颈” 累积推理的核心,在于改进了大模型思维过程的“形状”。 具体来说,这个方法用到了3个大语言模型: 提议者 (Proposer):不断提出新命题,即基于当前思维上下文,建议下一步是什么。 验证者 (Verifier):核查提议者的命题准确性,如果正确就将它添加到思维上下文中。 报告者 (Reporter):判断是否已经能得到最终解决方案,来确定是否结束推理过程。 推理过程中,“提议者”先给出提案,“验证者”负责评估,“报告者”决定是否要敲定答案、终止思考过程。 △CR推理示例 有点像是团队项目里的三类角色:小组成员先头脑风暴出各种idea,指导老师“把关”看哪个idea可行,组长决策什么时候完成项目。 所以,这种方法究竟是怎么改变大模型思维“形状”的? 要想理解这一点,还得先从大模型思维加强方法“鼻祖”思维链(Chain of Thought,CoT)说起。 这个方法在2022年1月由OpenAI科学家Jason Wei等人提出,核心在于给数据集中的输入加一段“逐步推理”文字,激发出大模型的思考能力。 △选自GSM8K数据集 基于思维链原理,谷歌也快速跟进了一个“思维链PLUS版”,即CoT-SC,主要是进行多次思维链过程,并对答案进行多数投票(majority vote)选出最佳答案,进一步提升推理准确率。 但无论思维链还是CoT-SC,都忽略了一个问题:题目不止有一种解法,人类做题更是如此。 因此,随后又出现了一种名叫思维树(Tree of Thought,ToT)的新研究。 这是一种树状检索方案,允许模型尝试多种不同的推理思路,并自我评估、选择下一步行动方案,必要时也可以回溯选择。 从方法中可以看出,思维树比思维链更进一步,让大模型思维“更活跃”了。 这也是为什么玩24点时,思维链加成的GPT-4成功率只有4%,但思维树成功率却飙升到74%。 BUT无论思维链、CoT-SC还是思维树,都有一个共同的局限性: 它们都没有设置思维过程中间结果的储存位置。 毕竟不是所有的思维过程都能做成链或者树,人类想东西的方式往往还要更复杂。 这次的累积推理新框架,在设计上就突破了这一点—— 大模型的整体思维过程不一定是链或树,还可以是一个有向无环图(DAG)!(嗯,有神经突触内味了) △图中的边都有方向,并且不存在任何循环路径;每个有向边是一个推导步骤 这也就意味着,它可以将所有历史上正确的推理结果存储于内存中,以便在当前搜索分支中探索。(相比之下,思维树并不会存储来自其它分支的信息) 但累积推理也能和思维链无缝切换——只要将“验证者”去掉,就是一个标准的思维链模式。 基于这种方法设计的累积推理,在各种方法上都取得了不错的效果。 02 做数学和搞逻辑推理都在行 研究人员选择了FOLIO wiki和AutoTNLI、24点游戏、MATH数据集,来对累积推理进行“测试”。 提议者、验证者、报告者在每次实验中使用相同的大语言模型,用不同的prompt来设定角色。 这里用作实验的有GPT-3.5-turbo、GPT-4、LLaMA-13B、LLaMA-65B这些基础模型。 值得一提的是,理想情况下应该使用相关推导任务数据专门预训练模型、“验证者”也应加入正规的数学证明器、命题逻辑求解器模块等。 1、逻辑推理能力 FOLIO是一阶逻辑推理数据集,问题的标签可以是“true”、“False”、“Unknown”;AutoTNLI是高阶逻辑推理数据集。 在FOLIO wiki数据集上,与直接输出结果(Direct)、思维链(CoT)、进阶版思维链(CoT-SC)方法相比,累积推理(CR)表现总是最优。 在删除数据集中有问题的实例(比如答案不正确)后,使用CR方法的GPT-4推理准确率达到了98.04%,并且有最小1.96%的错误率。 再来看AutoTNLI数据集上的表现: 与CoT方法相比,CR显著提高了LLaMA-13B、LLaMA-65B的性能。 在LLaMA-65B模型上,CR相较于CoT的改进达到了9.3%。 2、玩24点游戏能力 ToT最初论文中用到的是24点游戏,所以这里研究人员就用此数据集来做CR和ToT的比较。 ToT使用固定宽度和深度的搜索树,CR允许大模型自主确定搜索深度。 研究人员在实验中发现,在24点的上下文中,CR算法和ToT算法非常相似。不同点在于,CR中算法每次迭代最多产生一个新的状态,而ToT在每次迭代中会产生许多候选状态,并过滤、保留一部分状态。 通俗来讲,ToT没有上面提到的CR有的“验证者”,不能判断状态(a、b、c)正误,因此ToT比CR会探索更多无效状态。 最终CR方法的正确率甚至能达到98%(ToT为74%),且平均访问状态数量要比ToT少很多。 也就是说CR不仅有更高的搜索正确率,也有更高的搜索效率。 3、数学能力 MATH数据集包含了大量数学推理题目,包含代数、几何、数论等,题目难度分为五级。 用CR方法,模型可以将题目分步骤拆解成能较好完成的子问题,自问自答,直到产生答案。 实验结果表明,CR在两种不同的实验设定下,正确率均超出当前已有方法,总体正确率可达58%,并在Level 5的难题中实现了42%的相对准确率提升,拿下了GPT-4模型下的新SOTA。 清华叉院姚期智、袁洋领衔研究 这篇论文来自清华交叉信息院姚期智和袁洋领衔的AI for Math课题组。 论文共同第一作者为交叉信息院2021级博士生张伊凡、杨景钦; 指导老师及共同通讯作者为袁洋助理教授、姚期智院士。 张伊凡 张伊凡2021年本科毕业于于北京大学元培学院,现师从袁洋助理教授,主要研究方向为基础模型(大语言模型)的理论和算法、自监督学习、可信人工智能。 杨景钦 杨景钦2021年于清华大学交叉信息研究院获学士学位,现师从袁洋助理教授攻读博士学位。主要研究方向有大语言模型、自监督学习、智能医疗等。 袁洋 袁洋是清华大学交叉信息学院助理教授。2012年毕业于北京大学计算机系;2018年获美国康奈尔大学计算机博士学位;2018-2019年前往麻省理工学院大数据科学学院做博士后。 他的主要研究方向是智能医疗、AI基础理论、应用范畴论等。 姚期智 姚期智是中国科学院院士、清华大学交叉信息研究院院长;同时也是“图灵奖”创立以来首位获奖的亚裔学者、迄今为止获此殊荣的唯一华人计算机科学家。 姚期智教授2004年从普林斯顿辞去终身教职回到清华任教;2005年为清华本科生创立了计算机科学实验班“姚班”;2011年创建“清华量子信息中心”与“交叉信息研究院”;2019年再为清华本科生创立了人工智能学堂班,简称“智班”。 如今,他领导的清华大学交叉信息研究院早已声名远播,姚班、智班都隶属交叉信息院。 姚期智教授研究方向有算法、密码学、量子计算等,是这方面的国际先驱和权威。最近,他现身2023世界人工智能大会,所领导的上海期智研究院目前正在研究“具身通用人工智能”。
ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6
原标题:ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6 这周三,OpenAI刚刚宣布解禁ChatGPT多模态能力。 如今,一上线,网友们瞬间玩疯了。 接下来,一起看看,ChatGPT的识图能力,究竟有多强? 01 拍照传图,即生代码 一位网友录制了一段上传开会时的一张白板图,然后让ChatGPT写出代码。 还有,你可以上传一张手绘的草稿图,然后要求ChatGPT在HTML创建网页。 嗖嗖嗖,代码分分钟都出来了。 这简直就是,今年GPT-4刚刚发布时,Greg Brockman所展示的多模态能力。 再比如,把你的to do list本子拍一张照片。 然后让GPT-4做一个Python Tkinter GUI,然后就实现了... 02 古卷手稿,一眼转译 再来一张来自17世纪的炼金术师Robert Boyle的手稿图,GPT-4能不能读懂它? 这简直对它来说,小菜一碟。 在比如「加泰罗尼亚语关于药用木乃伊的药物手册」。 ChatGPT同样能够转录并翻译出来。 来自UCSC的历史学副教授Benjamin Breen表示, 这将对历史学家产生重大影响。试想一下,一个定制的多模态GPT-4可以对一组特定的手稿进行训练。它不仅可以转录,还可以翻译和分类。(正是这一点,不使用LLM进行写作,在我看来才是一件大事)。 03 图表总结也很6 你还可以命令GPT-4根据图表提取数据。 然后可以创建Python代码来复制图表,让它更像图表。 再把股票趋势图丢给它,还能分析总结特征。 04 识图「智商超群」 给GPT-4一张抽象的图。 它竟然可以准确的识别出这4张图想表达的「沟通的重要性」的隐喻,这也太离谱了。 GPT-4V甚至可以阅读医生的字迹。 还有日本网友直接用「七龙珠」中孙悟空考ChatGPT了。 还有各种「你是不是人」的验证码。 上传一张自己的作品,GPT-4还能为你提出改进建议。 还有网友发现,GPT-4V对kosmos-1论文中的这道题给出了正确答案,但推理过程却出现了错误。 有了这个功能,小朋友们再也不用做作业了。 05 网友大波总结 除了以上体验之外,还有网友写了一篇长文,介绍了自己对GPT-4V的测试。 测试一:视觉问答 给一个表情包,看看GPT-4V理解程度有多好? GPT-4V成功地解释了为什么有趣,并提到了图片的各个组成部分以及它们之间的联系。 值得注意的是,所提供的括号备注中,GPT-4V能够读懂并利用文字做出回应。 尽管如此,GPT-4V还是犯了一个错误,炸鸡标记为「NVIDIA BURGER」,而不是「GPU」。 然后,再用硬币,一张美国便士的照片测试。GPT-4V能够成功识别硬币的来源和面值。 但如果是多枚硬币图片,并问GPT-4V,我有多少钱? 这时,它只能够识别硬币的数量,但无法确定货币类型。 测试二:OCR识别 截取网页中的文本图像上传,GPT-4V可以很好地读出内容。 测试三:数学OCR 数学OCR是一种专门针对数学方程的光学字符识别的特殊形式。 网友向GPT-4V提出了一个数学问题,并用文档截图形式呈现出来。 这个问题涉及在给定2个角度的情况下计算拉链线的长度,在图像上提示「解决它」。 模型识别出的问题可以用三角法求解,识别出要使用的函数,并逐步提出如何解决问题的走查。然后,GPT-4V提供了问题的正确答案。 话虽如此,GPT-4V系统卡指出模型可能会遗漏数学符号。 不同的测试,包括用手写在纸上的方程或表达式的测试,可能表明模型回答数学问题的能力不足。 测试四:对象检测 让GPT-4V检测图像中的狗,并提供与狗的位置相关的x_min、y_min、x_max和y_max值,GPT-4V返回的边界框坐标与狗的位置不匹配。 虽然GPT-4V在回答图像问题方面的能力非常强大,但在你若是想知道一个物体在图中的位置,该模型不能替代微调目标检测模型。 测试五:验证码 发现GPT-4V能够识别图像中包含验证码,但经常无法通过测试。 在一个选取红绿灯格子的示例中,GPT-4V少选了一些包含红绿灯的格子。 测试六:填字游戏和数独 在数独测试中,GPT-4V识别了游戏,但误解了棋盘的结构,因此返回了不准确的结果。 顺带提一句,ChatGPT联网功能又回来了。
谷歌开放新控件,网站可拒绝被用于训练Bard AI
IT之家 9 月 29 日消息,随着 OpenAI 的 ChatGPT、微软的 Bing Chat 和谷歌 Bard 等生成式 AI 服务越来越多地用作搜索引擎的替代品,它们也遇到了一些个人和公司的抵制,这些网站开发者不希望他们的网站数据被用于 AI 模型训练。 今天,谷歌宣布了一种新方法,网站开发者可以选择允许其 Bard 和 Vertex AI 服务访问其内容,或者选择不用于训练这些 API 模型。 谷歌在一篇博客中宣布推出 Google-Extended,这是一种新控件,网站开发在可以使用它来管理其网站是否帮助 Bard 和 Vertex AI。 网站目前可以通过 robots.txt 提供拒绝被爬虫的名单,谷歌认为所有 AI 模型提供商也都应该提供这种类似的透明度和控制方法。然而,随着 AI 应用的扩展,网站将面临大规模管理不同用途的日益复杂性。谷歌表示将尽快分享更多信息。 IT之家从谷歌支持文档中发现,Google-Extended 没有单独的 HTTP 请求 user agent(UA)字符串,抓取是通过现有的 Google UA 字符串完成的;robots.txt user-agent token 可以用于进行控制。 除了今天的声明之外,谷歌还表示,它将“探索其他机器可读的方法来为网站进行选择和控制。”它包含一个链接,这些网站可以在其中注册邮件列表,在那里他们将收到有关谷歌改进网站控制的其他更新信息。
OpenAI拟研发AI手机,软银或投10亿;Character.AI估值或超50亿美元;英伟达将举行AI峰会丨AIGC大事日报
1、全国首个大模型生态社区在沪揭牌 2、OPPO大模型新进展:知识百科能力仅次于GPT-4 3、泓博医药:PR-GPT项目年底前上线Demo功能 4、OpenAI拟研发AI版iPhone 软银或投10亿美元 5、Character.AI洽谈新融资 估值或超过50亿美元 6、AI创企AlphaSense获新融资 估值达25亿美元 7、AI创企Slope获新融资,OpenAI CEO参投 8、Cohere宣布RAG聊天API公测 9、AWS推出5款生成式AI新品 10、英伟达宣布10月15日举行AI峰会 11、英伟达扶持 AI医疗创企90秒发现癌细胞 12、风投机构抢囤GPU 为创企提供计算资源 13、IBM宣布保护生成式AI模型版权 14、谷歌开放新控件 控制生成式AI访问网站 15、Medium:禁止用本平台文章训练AI 16、Nature调查:使用AI大模型的科研人员仍属少数 17、微软在旧金山开设AI联合创新实验室 18、Uber货运部门用AI预估延迟发货 19、欧洲央行研究用AI来更好理解通胀 20、日本警方首用AI技术监测网络犯罪帖子 1、全国首个大模型生态社区在沪揭牌 据上海经信委微信公众号发文,9月28日,上海“模速空间”创新生态社区暨人工智能大模型产业生态集聚区揭牌仪式在徐汇西岸举行。模型语料数据联盟服务基地、大模型测试验证与协同创新中心、上海大模型合规指导服务中心、上海大模型生态发展有限公司以及16家大模型企业率先入驻“模速空间”。9家单位代表共同启动上海智能算力加速计划,近30家创投机构共同启动上海大模型投融资合作伙伴计划。 “模速空间”旨在推动大模型赋能各行各业,共同营造开放活跃生态,加速行业交流与开源共创,全力建设具有国际影响力的大模型生态高地。后续空间依托开放数据、算力调度、测试评估、融资服务、综合服务等五大公共服务平台的支撑,为空间内企业提供一体化、全周期服务。 2、OPPO大模型新进展:知识百科能力仅次于GPT-4 据小布助手微信公众号周三发文,近日,OPPO自主训练的生成式大语言模型安第斯大模型(AndesGPT)登上SuperCLUE的9月排行榜,在十大基础能力排行榜的“知识与百科”能力中仅次于GPT-4排名国内大模型第一,测试得分高达98.33;“角色扮演能力”中排名前三。 3、泓博医药:PR-GPT项目年底前上线Demo功能 泓博医药9月28日在互动平台回复投资者问题:公司PR-GPT项目进展顺利,正在进行大型语言模型本地部署工作,后续算法优化、最新生物医药数据训练及应用场景开发等工作将按计划有序开展,预计在年底前可以上线Demo功能,2024年第四季度可形成初步能力,投入实际应用。 4、OpenAI拟研发AI版iPhone 软银或投10亿美元 据英国《金融时报》9月28日报道,OpenAI正与苹果前设计师Jony Ive和日本软银集团的孙正义进行深入谈判,拟成立一家合资企业,打造“AI领域的iPhone”,软银集团将提供逾10亿美元资金。正式宣布合资可能还需要几个月的时间。 据三位知情人士透露,OpenAI首席执行官Sam Altman已聘请Ive的公司LoveFrom开发OpenAI的首款消费设备。他们希望为与AI交互创造一种更自然、更直观的用户体验,就像iPhone在触摸屏计算方面的创新释放了移动互联网的大众市场潜力一样。 5、Character.AI洽谈新融资 估值或超过50亿美元 据彭博社今日报道,生成式AI独角兽企业Character.AI正在进行早期谈判,以筹集数亿美元的新资金。知情人士说,这笔交易可能将这家初创公司的估值推至50亿至60亿美元之间,在与投资者的早期对话中,曾一度讨论过高达100亿美元的估值。 Character.AI成立于2021年,由前谷歌员工Noam Shazeer和Daniel De Freitas创立。其服务支持人们创建一系列能够进行文字对话的、具有个性的聊天机器人。今年早些时候,该公司开始提供每月10美元的订阅服务c.ai+,使用户可以更快地访问其聊天应用和新功能。 6、AI创企AlphaSense获新融资 估值达25亿美元 AI市场情报和搜索平台独角兽AlphaSense在9月28日宣布获1.5亿美元E轮融资,将其估值提升至25亿美元。本轮融资由科技投资公司BOND领投,谷歌母公司Alphabet旗下的CapitalG、Viking Global investors、高盛集团等现有投资者参投。 7、AI创企Slope获新融资,OpenAI CEO参投 据VentureBeat报道,成立两年的美国AI创企Slope昨日宣布完成3000万美元的股权融资,由Union Square Ventures领投,OpenAI联合创始人兼CEO Sam Altman参投。Slope迄今融资总额为1.87亿美元。 Slope目前有18名全职员工,正试图创建一个黄金标准:一个企业B2B支付跟踪和接收平台,部分由其自研的“基于规则的”技术提供支持,部分由OpenAI的GPT-3.5 Turbo提供支持。 8、Cohere宣布RAG聊天API公测 生成式AI独角兽企业Cohere今日宣布其检索增强生成(RAG)版聊天API与现可公测。有了这个新功能,开发人员可以集成用户输入、数据源和模型生成,以构建强大的产品体验,并通过生成可靠的、可验证的生成来减轻幻觉。该API由Cohere的旗舰生成式AI大语言模型Command提供支持。 开发人员可以使用Cohere帐户附带的API密钥访问聊天功能公开测试版。Cohere还开放了Coral Showcase的访问权限,这是一个演示环境,可以预览如何实现这些功能。 9、AWS推出5款生成式AI新品 美国云计算巨头亚马逊云科技(AWS)9月28日宣布全面推出Amazon Bedrock,并宣布了5款生成式AI创新产品。Amazon Bedrock现可帮助更多的客户构建和扩展生成式AI应用程序,将采用新的AI模型,提供新的免费生成式AI训练方式。Amazon Titan Embeddings现已全面上市,Meta Llama 2将在未来几周内通过托管API提供,AI辅助编程工具Amazon CodeWhisperer的新定制功能即将推出,专为云构建的统一商业智能(BI)服务Amazon QuickSight中新的生成式BI创作功能可帮助业务分析师使用自然语言命令轻松创建和定制视觉效果。 10、英伟达宣布10月15日举行AI峰会 英伟达今日在官网发布公告,将于10月15日到16日在以色列特拉维夫召开AI峰会。其CEO黄仁勋将于当地时间10月16日上午10点(北京时间下午15点)发表主题演讲。 11、英伟达扶持 AI医疗创企90秒发现癌细胞 据英伟达官网9月27日分享,美国医疗设备创企Invenio Imaging正在开发一种AI技术,使外科医生能够在收集样本后立即在手术室中评估组织活检,实现更快的临床决策。以前从病理实验室需要数周时间来获得分析结果,现在用AI加速只需要3分钟。Invenio是英伟达Inception计划的成员,使用英伟达GPU和软件库加速AI训练和推理。 Invenio的合作团队来自密歇根大学、纽约大学、加州大学旧金山分校、维也纳医科大学和科隆大学医院,他们最近开发了一种AI模型,能在90秒内以93%的准确率找到癌症肿瘤的生物标志物。有了这种能力,医生就可以预测病人对化疗的反应,或者确定肿瘤是否在手术中被成功切除。 12、风投机构抢囤GPU 为创企提供计算资源 据The Information今日报道,风险投资机构最近一直在宣扬与AI芯片供应商的联系。Greylock Partners、Bessemer Venture Partners、Madrona等表示他们一直在利用大型云计算公司的人脉,来帮助初创公司获取AI硬件。还有一些风投机构为其投资组合公司购买了数千张GPU。例如Conviction、Index Ventures等风险投资机构都租赁了GPU服务器,并将这些资源向其投资的一些初创公司提供。硅谷著名AI投资人Nat Friedman和Daniel Gross最近筹集了10亿美元投资AI初创公司,今年早些时候宣布购买了2512张英伟达H100 GPU芯片,向创业者提供额外资本,以换取初创公司的股权。 13、IBM宣布保护生成式AI模型版权 IBM 9月28日宣布watsonx Granite模型系列中的第一批生成式AI模型全面推出,并宣布其标准知识产权保护将适用于watsonx模型。IBM为其基础模型提供知识产权赔偿(合同保护),客户可以使用自己的数据以及IBM基金会模型提供的客户保护、准确性和信任来开发AI应用程序。Granite模型旨在推进将生成式AI注入业务应用程序和工作流程。IBM还提供了使用Meta Llama 2-chat 700亿参数模型、来自Hugging Face社区的模型等第三方模型的灵活性。AI治理工具包watson .governance将在今年晚些时候正式发布。 14、谷歌开放新控件 控制生成式AI访问网站 谷歌今日发布一个新控件Google-Extended。网站开发商可以使用它来管理他们的网站是否被用于改进Bard、Vertex AI生成式API,包括为这些产品提供动力的未来几代模型。通过使用Google-Extended来控制对网站内容的访问,网站管理员可选择是否帮助这些AI模型随着时间的推移变得更准确、更有能力。 15、Medium:禁止用本平台文章训练AI 美国高质量博客门户网站Medium今日声明立场,禁止AI公司使用Medium上发表的文章进行模型训练。Medium已更新服务条款,明文禁止未经事先书面同意的爬虫程序,并已经开始在robots.txt文件中添加明确的阻止。 16、Nature调查:使用AI大模型的科研人员仍属少数 国际顶级学术期刊Nature的一项调查对全球1600多名研究人员进行的一项调查显示,AI工具在科学领域变得越来越普遍,许多科学家预计它们很快将成为研究实践的核心。据Nature分析,过去十年,各个领域提及AI术语的研究论文比例都有所上升,但当前经常在工作中使用大语言模型和生成式AI产品的研究人员仍属少数。 从可能的优势清单中,2/3的人指出AI提供了更快的数据处理方法,58%的人表示AI加快了以前不可行的计算速度,55%的人提到AI节省了科学家的时间和金钱。从可能的负面影响列表来看,69%的研究人员表示AI工具可能会导致人们在不理解的情况下更加依赖模式识别,58%的研究人员表示结果可能会加剧数据中的偏见或歧视,55%的研究人员认为这些工具可能会造成欺诈更容易,53%的人认为考虑不周的使用可能会导致不可重复的研究。 当被问到科研中最令人印象深刻或最有用的AI工具示例时,聊天机器人ChatGPT及其大语言模型是最常提到的工具,紧随其后的是蛋白质折叠人工智能工具,例如AlphaFold。在研究人员评选的科学用途中最受关注的AI方面,ChatGPT也名列前茅。就负面影响而言,68%的研究人员担心错误信息激增,另外68%的研究人员认为这会让抄袭变得更容易、更难检测,66%的研究人员担心会给研究带来错误或不准确的结果。 直接研究AI的研究人员最担心的是缺乏计算资源、工作资金以及运行AI所需的高质量数据。那些在其他领域工作但在研究中使用AI的人往往更担心缺乏熟练的科学家和训练资源,还提到了安全和隐私方面的考虑。没有使用AI的研究人员普遍表示,他们不需要它或觉得它有用,或者他们缺乏经验或时间来研究它。 17、微软在旧金山开设AI联合创新实验室 据VentureBeat报道,微软9月28日宣布其第五个AI联合创新实验室在旧金山市中心成立。该实验室的主要目标是促进从构思到原型设计的转变,为初创公司和企业提供了接触AI专家、工具和基础设施的机会,以协作开发和测试AI原型和解决方案。 18、Uber货运部门用AI预估延迟发货 据彭博社9月29日报道,Uber的货运部门Uber Freight利用其庞大的数据文件,利用AI来预估延迟发货,并提出替代路线的建议。Uber Freight周四推出了Insights AI,支持客户提出通常需要数天时间才能完成的查询,比如正点率最差的路线及其原因。该公司还在其服务中嵌入了AI,让托运人更准确地估计到达时间。 19、欧洲央行研究用AI来更好理解通胀 据路透社昨日报道,欧洲央行(ECB)正在研究AI如何帮助其提高对定价行为和通胀动态的理解。通过网络抓取,欧洲央行可以收集大量的实时价格数据,但这些数据是非结构化的,不适合计算通胀,因此希望利用AI来构建数据并改进其分析。欧洲央行还希望利用AI大语言模型来改善工作人员编写的文本,使欧洲央行的沟通更容易被公众理解。其另一项举措是将数千万家公司、银行和公共部门实体的数据分类过程自动化,从而更好地了解它们的财务状况。 20、日本警方首用AI技术监测网络犯罪帖子 据日本共同社报道,日本警方自今日起将首度使用AI技术来识别社交媒体帖子,监测抢劫、欺诈等犯罪行为。日本警方委托网络巡逻中心进行在线监控工作,网络巡逻中心,利用自然语言处理技术寻找特定的关键词,并根据上下文识别涉嫌包含有害信息的帖子,然后将把收集到的数据报告给另一个外部组织互联网热线中心,互联网热线中心可以要求网站运营商和互联网服务提供商删除其认为非法或有害的帖子。
对标DALL·E 3!Meta最强文生图Emu技术报告出炉
可以说,Meta刚刚发布的Emu,在性能上毫不逊色于DALL·E 3!而Emu取得优异性能背后的原因是「质量调整」。 前几天,OpenAI刚刚推出DALL·E 3,文生图再次上升到一个新阶段,甚至有网友纷纷表示R.I.P. Midjourney。 在28号的Meta Connect大会上,小扎也推出了自家的人工智能图像生成模型——Emu(Expressive Media Universe)。 Emu最大的特点是,只用简单的文字,5秒即生图片。 比如:「一只在彩虹森林中的神仙猫咪」。 「徒步旅行者和北极熊」。 「水下的航天员」。 「在花丛中的一位女士」。 「如果恐龙是一只猫咪」。 与其他文生图模型相比,Emu最有趣的是,可以一键生成表情包。 当你正和人聊天时,不用绞尽脑汁去翻找一个合适的表情包了。 比如,和朋友约好了背包旅行,想要发一个生动的准备去旅行的表情包。 「一只快乐的刺猬骑着摩托车」 选择自己喜欢的一个,发送。 当然了,你可以生成各种各样的表情包,仅需要简单几个词。 很快,任何人都可以在Ins中进行图像编辑——重换风格和背景,背后就是由Emu和分割模型SAM加持。 重换风格,可以根据你所描述的风格,重构想像输出图片。 如下, 输入「水彩」,你的照片就立刻变成水彩画了。 或者,把扎克伯格小时候的照片变成「摇滚朋克风格」。 又或者给金毛换一个「长头发」,就得到了: 你甚至可以为图片更换背景。 找到一张自己躺在草坪中的照片,输入「被小狗包围」,一群可爱的小狗就伴你左右了。 又或者,家庭合照中,背景也可以随意切换。 Emu在发布会上可算是风光了一把,但其实在现场演示的前一天,Meta就在arXiv更新了Emu模型的论文。 论文地址:https://arxiv.org/abs/2309.15807 在这篇论文中,Meta介绍了Emu的训练方法:质量调整(quality-tuning),一种有监督的微调。 质量调整解决了在利用网络规模的图像-文本训练文本-图像模型时,生成高度美观的图像面临的挑战:美学对齐。 通过质量调整,可以有效指导预训练模型专门生成具有高度视觉吸引力的图像,同时保持视觉概念的通用性。 研究人员还将其泛用到其他模型架构中,如pixel diffusion和masked generative transformer,证明了质量调整方法的通用性。 01 质量调整的方法 生成模型的训练包括两个阶段:知识学习和质量学习。 在知识学习阶段,目标是获得从文本生成几乎任何内容的能力,这通常需要在数以亿计的图像-文本对上进行预训练。 而在质量学习阶段,模型将被限制输出高质量和美观的图片。 Meta研究人员将以提高质量和促进审美一致性为目的的微调过程称为质量调整。 经质量调整的Emu生成的图像 但质量调整有三个关键: (1)微调数据集可以小得出奇,大约只有几千张图片; (2)数据集的质量非常高,这使得数据整理难以完全自动化,需要人工标注; (3)即使微调数据集很小,质量调整不仅能显著提高生成图片的美观度,而且不会牺牲通用性,因为通用性是根据输入提示的忠实度来衡量的。 整个质量调整过程有以下几个步骤: 潜在扩散架构 研究人员设计了一种可输出1024 X1024分辨率图像的潜在扩散模型。遵循标准的潜在扩散架构设计,模型有一个自动编码器(AE)将图像编码为潜在嵌入,并有一个U-Net学习去噪过程。 研究发现,常用的4通道自动编码器(AE-4)架构由于压缩率高,往往会导致所构建图像的细节丢失。 而这一问题在小物体中尤为明显。 为了进一步提高重建性能,研究人员使用了对抗性损失,并使用傅里叶特征变换对RGB图像进行了不可学习的预处理,将输入通道维度从3(RGB)提升到更高维度,以更好地捕捉精细结构。 用于不同通道尺寸的自动编码器的定性结果见下图。 此外,研究人员还增加了每个阶段的通道大小和堆叠残差块数量,以提高模型容量。 并且,此研究使用CLIP ViT-L和T5-XXL的文本嵌入作为文本条件。 预训练 研究人员策划了一个由11亿张图像组成的大型内部预训练数据集来训练模型,训练过程中模型的分辨率逐步提高。 在预训练的最后阶段,研究人员还使用了0.02的噪声偏移,这有利于生成高对比度的图像,从而提高生成图像的美感。 构建高质量对齐数据 从最初的数十亿张图片开始,使用一系列自动过滤器将图片数量减少到几亿张。 这些过滤器包括但不限于去除攻击性内容、美学分数过滤器、光学字符识别(OCR)字数过滤器(用于去除覆盖过多文字的图片)以及 CLIP 分数过滤器(用于去除图片与文字对齐度较差的样本)。 然后,通过图像大小和纵横比进行额外的自动过滤。 并且,为了平衡来自不同领域和类别的图片,研究人员利用视觉概念分类来获取特定领域的图片(如肖像、食物、动物、风景、汽车等)。 最后,通过基于专有信号(如点赞数)的额外质量过滤,这样可以将数据进一步减少到200K Human Filtering。 接下来,将数据集分两个阶段进行人工过滤,只保留极具美感的图片。 在第一阶段,训练通用注释器将图片库缩减到20K张。这一阶段的主要目标是优化召回率,确保排除通过自动过滤的中低质量图片。 在第二阶段,聘请精通摄影原理的专业注释员,筛选出高审美质量的图片,如下图。 这一阶段的重点是优化精确度,即只选择最好的图片。数据集遵循高质量摄影的基本原则,在各种风格的图像中普遍获得更具美感的图像,并通过人工评估进行验证。 质量调整 将视觉效果极佳的图像视为所有图像的子集,这些图像具有一些共同的统计数据。 研究人员使用64个小批量数据集对预训练模型进行微调。 在此阶段使用0.1的噪声偏移。但需要注意的是,尽早停止微调非常重要,因为在小数据集上微调时间过长会导致明显的过拟合,降低视觉概念的通用性。 但微调迭代次数不能超过5K,这个总迭代次数是根据经验确定的。 02 实验结果 质量调整的效果 研究人员将经过质量调整的Emu模型与预先训练的模型进行比较。 质量调整前后的随机定性测试结果见下图。 可以看到非写实图像也具有很高的美感,这验证研究提出的假设:在质量调整数据集中遵循某些摄影原则,可以提高各种风格的美感。 从数量上看,经过质量调整后,Emu在视觉吸引力和文本可信度方面都有显著优势。 具体来说,在Par-tiPrompts和OUl Prompts上,分别有 82.9% 和 91.2% 的视觉吸引力以及 36.7% 和 47.9% 的文本忠实度首选Emu。 相比之下,在视觉吸引力方面,预训练模型分别只有15.4% 和 7.9%的时间受到青睐,而在文字忠实性方面,PartiPrompts和OUl Prompts分别有 21.0% 和 18.5% 的时间受到青睐。 其余案例的结果均为平局。从这两组涵盖不同领域和类别的大量评估数据中视觉概念的通用性没有下降。 相反,这些改进广泛适用于各种风格。 SoTA 背景下的视觉吸引力 为了将Emu生成的图像的视觉吸引力与当前最先进的技术进行比较,研究人员将Emu与SDXLV1.0进行了比较。 可以看到,Emu比 SDXLv1.0 的视觉吸引力高出很多,包括在风格化(非写实)提示上。 并且,Meta证实了质量调整也可以改进其他流行的架构,如pixel diffusion和masked generative transformer。 研究人员从头开始重新实现和训练一个pixel diffusion和masked generative transformer,然后在 2000 张图像上对它们进行质量调整。 之后,研究人员在1/3随机抽样的PartiPrompts上对这两种经过质量调整的模型进行了评估。 如下图所示,经过质量调整后,两种架构在视觉吸引力和文本忠实度指标上都有显著改善。 消融研究 最后,Meta对微调数据集进行了消融研究,重点关注视觉吸引力,主要对数据集大小的影响进行研究。 下表中报告了在不同大小的随机抽样子集上进行的质量微调的结果,包括100、1000和2000的大小。 可以看到,即使只有100个微调图像,模型也能够被引导生成视觉上吸引人的图像。 与SDXL相比,微调后的胜率从24.8%跃升至了60%。
谷歌“AI 6小时设计芯片”遭打脸?大神Jeff Dean论文被官方调查
原标题:登Nature两年,谷歌「AI 6小时设计芯片」遭打脸?大神Jeff Dean论文被官方调查,疑似隐藏源代码 在2021年9月,由Jeff Dean领衔的谷歌大脑团队发表了一篇AI设计芯片的论文,曾引起业界轰动。然而,随后有多人发现这项工作并不能被复现,而且关键数据和代码被隐藏了,Nature也对此展开了调查。 近日,一篇由谷歌大神Jeff Dean领衔的「AI自主设计芯片」研究,被曝正式接受Nature调查! 谷歌发表这篇论文后,又在GitHub上开源了具体的Circuit Training代码,直接引起了整个EDA和IC设计社区的轰动。 然而,这项工作却在此后不断遭受质疑。 就在9月20日,Nature终于在这篇论文下面附上了一则声明: 编者按:请读者注意,本文中的性能声明已受到质疑,编辑们正在对这些问题进行调查,一旦调查结束,将酌情采取行动。 论文地址:https://www.nature.com/articles/s41586-021-03544-w 同时,一向给AI大模型泼冷水的马库斯也发现,与这篇Nature论文相关的评论文章,也被作者撤回了。 马库斯在推特上这样描述道:「又一个被炒得沸沸扬扬的人工智能成果要落空了?」 现在,相关的Nature评论文章前面,已经被贴上了大写的「retracted article(撤稿)」。 评论文章:https://www.nature.com/articles/d41586-021-01515-9 因为原本的那篇论文受到了质疑,因此写作相关评论文章的作者也将其撤回。 作者已撤回这篇文章,因为自文章发表以来,关于所报道论文所用方法,已出现了新信息,因此作者对于该论文贡献的结论发生了改变。而Nature也在对论文中的结论进行独立调查。 另外,马库斯还挖出了这样一则猛料:对于Jeff Dean团队的论文,前谷歌研究人员Satrajit Chatterjee早就提出了质疑。 他写出一篇反驳的论文,但谷歌表示这篇论文不会被发表,随后,43岁的Chatterjee被谷歌解雇。 对于此事,纽约时报在2022年5月发文进行了报道 01 代码和论文不符 针对谷歌的这篇Nature和相关代码,一组来自UCSD的学者进行了非常深入的研究。 他们将质疑写成论文,并于今年3月收录在国际顶尖的集成电路物理设计学术会议ISPD 2023中。 论文地址:https://arxiv.org/abs/2302.11014 在GitHub上,谷歌和斯坦福的联合团队公开了代码,而就是在这段代码中,UCSD团队发现了「华点」。 UCSD团队以开源的方式实现了「Circuit Training」(简称CT)项目中的关键「黑盒」元素,然后发现,CT与Nature论文中存在差异,并不能被复现! 项目地址:https://github.com/google-research/circuit_training#circuit-training-an-open-source-framework-for-generating-chip-floor-plans-with-distributed-deep-reinforcement-learning 在Nature论文中,谷歌表示,不到六个小时,他们的方法就自动生成了芯片布局图,而该布局图在所有关键指标(包括功耗、性能和芯片面积)上都优于人类生成的布局图,或与之相当。 而UCSD团队发现,这篇论文中的数据和代码都不是完全可用的。在此期间,他们也得到了谷歌工程师就相关问题的回复。 此外,一篇名为「Stronger Baselines for Evaluating Deep Reinforcement Learning in Chip Placement」的论文声称,更强的模拟退火基线优于Nature论文,但显然使用了谷歌内部版本的CT,以及不同的基准和评估指标。 总之,Nature中的方法和结果,都无法被复现。 UCSD团队使用了CT、CMP、SA、ReP1Ace和AutoDMP生成了宏布局解决方案,还包括由人类专家生成的宏布局解决方案。在谷歌工程师的指导下,他们使用了0.5作为密度权重,而不是1 文中,UCSD团队描述了CT关键「黑盒」元素的逆向工程一一强制定向放置和智能体成本计算。 这两个部分,在Nature论文中既没有被明确记录,也没有开源。 另外,UCSD团队还实现了基于网格的模拟退火宏放置,用于比较Nature论文和更强的基线。 由不同宏放置器生成的Ariane-NG45宏放置 UCSD团队出具了一份实验评估报告,揭示了CT的以下几个方面—— (1)使用商业物理合成工具的初始放置信息会如何影响CT结果 (2)CT的稳定性 (3)CT智能体的成本与商业EDA工具的「真实情况」输出之间的相关性 (4)更强基线手稿中研究的ICCADO4测试用例的性能 总的来说,UCSD团队发现,CT和Nature论文所述有几个显著的不匹配之处。 CT假设输入netlist中的所有实例都有(x,y)位置,也就是说,netlist在输入到CT之前,就已经被放置了。 CT的分组、网格化和聚类过程,都使用了位置信息。 力导向放置 然而,这些信息在review中并不明显,在Nature论文中也未被提及。 同样,解释CT的两个关键「黑盒」元素——强制定向放置和智能体成本计算,也都没有在Nature论文中明确记录,也在CT中也不可见。 这些示例代表了理解和重新实现方法所需的逆向工程,这些方法迄今为止只能通过某些API可见。 拥塞成本计算 NG45中Ariane的CT训练曲线,由UCSD团队和谷歌工程师生成 除了这篇论文外,UCSD团队还有一个更加详细的项目主页,全面记录了他们针对谷歌这篇Nature论文的研究。 项目地址:https://tilos-ai-institute.github.io/MacroPlacement/Docs/OurProgress/ 概括来说,共有十八个「灵魂拷问」。 02 Nature共同一作长文回应 对此,谷歌和斯坦福联合团队的共同一作给出了一份非常详尽的声明: 「我们认为,这篇最近在ISPD上发表的特邀论文,对我们的工作进行了错误的描述。」 声明地址:https://www.annagoldie.com/home/statement 首先,介绍一些重要背景: 论文提出的RL方法已经用在了多代谷歌旗舰AI加速器(TPU)的生产上(包括最新的一代)。也就是说,基于该方法生成的芯片,已经被制造了出来,并正在谷歌数据中心运行。 亚10纳米的验证程度,远远超出了几乎所有论文的水平。 ML生成的布局必须明显优于谷歌工程师生成的布局(即超越人类水平),否则不值得冒险。 Nature进行了长达7个月的同行评审,其中,审稿人包括2名物理设计专家和1名强化学习专家。 TF-Agents团队独立复现了Nature论文的结果。 团队于2022年1月18日开源了代码。 截至2023年3月18日,已有100多个fork和500多颗星。 开发并开源这个高度优化的分布式RL框架是一个巨大的工程,其应用范围已经超出了芯片布局,甚至电子设计自动化领域(EDA)。 值得注意的是,在商业EDA领域,开源项目代码的做法并不常见。 在团队的方法发布之后,有很多基于其工作的论文在ML和EDA会议上发表,此外,英伟达(NVIDIA)、新思科技(Synopsys)、Cadence和三星等公司也纷纷宣布,自己在芯片设计中使用了强化学习。 接着,是针对ISPD论文技术方面的回应: ISPD论文并没有为「电路训练」(Circuit Training,CT)进行任何预训练,这意味着RL智能体每次看到一个新的芯片时都会被重置。 基于学习的方法如果从未见过芯片,学习时间当然会更长,性能也会更差! 团队则先是对20个块进行了预训练,然后才评估了表1中的测试案例。 训练CT的计算资源远远少于Nature论文中所用到的(GPU数量减半,RL环境减少一个数量级)。 ISPD论文附带的图表表明,CT没有得到正确的训练,RL智能体还在学习时就被中断了。 在发表Nature论文时,RePlAce是最先进的。此外,即使忽略上述所有问题,团队的方法不管是在当时还是在现在,表现都比它更加出色。 虽然这项研究标题是「对基于强化学习的宏布局的学习评估」,但它并没有与任何基于该工作的RL方法进行比较,甚至都没有承认这些方法。 ISPD论文将CT与AutoDMP(ISPD 2023)和CMP的最新版本(一款黑盒闭源商业工具)进行了比较。当团队在2020年发表论文时,这两种方法都还没有问世。 ISPD论文的重点是使用物理合成的初始位置来聚类标准单元,但这与实际情况无关。 物理合成必须在运行任何放置方法之前执行。这是芯片设计的标准做法,这也反映在ISPD论文的图2中。 作为预处理步骤,团队会重复使用物理合成的输出来对标准单元进行聚类。需要说明的是,团队的方法不会放置标准单元,因为之前的方法(如DREAMPlace)已经很好地对它们进行了处理。 在每个RL事件中,团队都会向RL智能提供一个未放置宏(内存组件)和未放置的标准单元簇(逻辑门),然后RL智能体会将这些宏逐一放置到空白画布上。 九个月前,团队在开源存储库中记录了这些细节,并提供了执行此预处理步骤的API。然而,这与论文中的实验结果或结论没有任何关系。 最后,团队表示,目前的方法并不完美,并且肯定会存在效果不太好的情况。 但这只是一个开始,基于学习的芯片设计方法必将对硬件和机器学习本身产生深远的影响。 03 用AI,6小时就能设计一款芯片? 回到Nature的这篇文章,2021年,由Jeff Dean领衔的谷歌大脑团队以及斯坦福大学的科学家们表示: 「一种基于深度强化学习(DL)的芯片布局规划方法,能够生成可行的芯片设计方案。」 为了训练AI干活儿,谷歌研究员可真花了不少心思。 与棋盘游戏,如象棋或围棋,的解决方案相比较,芯片布局问题更为复杂。 在不到6小时的时间内,谷歌研究人员利用「基于深度强化学习的芯片布局规划方法」生成芯片平面图,且所有关键指标(包括功耗、性能和芯片面积等参数)都优于或与人类专家的设计图效果相当。 要知道,我们人类工程师往往需要「数月的努力」才能达到如此效果。 人类设计的微芯片平面图与机器学习系统设计 在论文中,谷歌研究人员将芯片布局规划方法当做一个「学习问题」。 潜在问题设计高维contextual bandits problem,结合谷歌此前的研究,研究人员选择将其重新制定为一个顺序马可夫决策过程(MDP),这样就能更容易包含以下几个约束条件: (1)状态编码关于部分放置的信息,包括netlist(邻接矩阵)、节点特征(宽度、高度、类型)、边缘特征(连接数)、当前节点(宏)以及netlist图的元数据(路由分配、线数、宏和标准单元簇)。 (2)动作是所有可能的位置(芯片画布的网格单元) ,当前宏可以放置在不违反任何硬约束的密度或拥塞。 (3)给定一个状态和一个动作,「状态转换」定义下一个状态的概率分布。 (4)奖励:除最后一个动作外,所有动作的奖励为0,其中奖励是智能体线长、拥塞和密度的负加权。 研究人员训练了一个由神经网络建模的策略(RL智能体),通过重复的事件(状态、动作和奖励的顺序),学会采取将「累积奖励最大化」的动作。 然后,研究人员使用邻近策略优化(PPO)来更新策略网络的参数,给定每个放置的累积奖励。 研究人员将目标函数定义如下: 如前所述,针对芯片布局规划问题开发领域自适应策略极具挑战性,因为这个问题类似于一个具有不同棋子、棋盘和赢条件的博弈,并且具有巨大的状态动作空间。 为了应对这个挑战,研究人员首先集中学习状态空间的丰富表示。 谷歌研究人员表示,我们的直觉是,能够处理芯片放置的一般任务的策略也应该能够在推理时将与新的未见芯片相关的状态编码为有意义的信号。 因此,研究人员训练了一个「神经网络架构」,能够预测新的netlist位置的奖励,最终目标是使用这个架构作为策略的编码层。 为了训练这个有监督的模型,就需要一个大型的芯片放置数据集以及相应的奖励标签。 因此,研究人员创建了一个包含10000个芯片位置的数据集,其中输入是与给定位置相关联的状态,标签是该位置的奖励。 为了准确地预测奖励标签并将其推广到未知数据,研究人员提出了一种基于边的图神经网络结构,称之为Edge-GNN(Edge-Based Graph Neural Network)。 在Edge-GNN中,研究人员通过连接每个节点的特征(包括节点类型、宽度、高度、x和y坐标以及它与其他节点的连通性)来创建每个节点的初始表示。 然后再迭代执行以下更新: (1)每个边通过应用一个完全连通的网络连接它连接的两个节点更新其表示; (2)每个节点通过传递所有的平均进出边到另一个完全连通的网络更新其表示。 Edge-GNN的作用是嵌入netlist,提取有关节点类型和连通性的信息到一个低维向量表示,可用于下游任务。 基于边的神经结构对泛化的影响 研究人员首先选择了5个不同的芯片净网表,并用AI算法为每个网表创建2000个不同的布局位置。 该系统花了48个小时在「英伟达Volta显卡」和10个CPU上「预训练」,每个CPU都有2GB的RAM。 左边,策略正在从头开始训练,右边,一个预训练的策略正在为这个芯片进行微调。每个矩形代表一个单独的宏放置 在一项测试中,研究人员将他们的系统建议与手动基线——谷歌TPU物理设计团队创建的上一代TPU芯片设计——进行比较。 结果显示,系统和人类专家均生成符合时间和阻塞要求的可行位置,而AI系统在面积、功率和电线长度方面优于或媲美手动布局,同时满足设计标准所需的时间要少得多。 但现在,这篇曾引起整个EDA和IC设计社区的轰动的论文,如今在被Nature重新调查,不知后续会如何发展。
iPhone SE4要杀出重围,难!
在砍掉mini系列后,苹果终于对另一款「小屏」iPhone下手了。 科技媒体MacRumors近期曝光了iPhone SE4的最新消息,基本确定了几个重要的硬件信息: 6.1英寸OLED显示屏 4800万像素主镜头 USB接口 操作按钮 与前面三代SE机型相比,iPhone SE4的硬件配置可以说是有了一些与时俱进的感觉,甚至iPhone 15都没用上的操作按钮,苹果也十分慷慨地让SE先跟进了。当然,对于小尺寸手机爱好者或是LCD屏幕爱好者来说,iPhone SE4的变化还是非常可惜的。 (图源:MacRumors) 现如今,苹果为了让iPhone SE4销量更佳,做出了不少「妥协」。但这样的变化,是否能让SE重返巅峰,还有很多未解之谜等待我们探索。 第四代SE,变化有点大 按照前三代iPhone SE的时间线与机身设计的契合度来看,iPhone SE4原本应该在明年初登场,沿用iPhone XR的造型。 或许是iPhone 14系列销量的变化打击了苹果的信心,iPhone SE4项目不断拖延,设计方案也是改了又改,直至近期才传出重启的消息,并确定了初版方案。 iPhone SE4的设计方案相当混乱,并不是像前几代一样直接「套用」前代基础款iPhone的模具。消息称,iPhone SE4正面采用6.1英寸OLED显示屏,刘海屏造型,生物识别方案为FaceID。边框为iPhone 14/Plus同款的直角边框,但静音开关被替换为操作按钮。 (图源:Apple) 当然,受制于欧盟法案,iPhone SE4也「极为先进」地使用了USB-C接口,但速率应该还是USB 2.0。 影像部分,iPhone SE4延续传统单摄方案,传感器则是iPhone 15同款4800万像素镜头,提供计算摄影二倍裁切。理论上,iPhone 15支持最高2400万像素成像模式,采用同款传感器的iPhone SE4应该也会支持,但苹果会不会在这上面砍一刀,还不好说。 核心配置方面的争议非常大。目前,关于iPhone SE4究竟会搭载A16 Bionic芯片还是A17芯片还存在疑问,毕竟苹果在打造前三代SE机型时,都用上了最先进的处理器。不过,其实A16 Bionic和A17之间的性能表现应该不会有很大差距,无论用上哪款芯片,都比前代提升不少了。 (图源:MacRumors) 值得注意的是,由于iPhone SE4整体的升级幅度不小,因此其整体售价也会比前代更加昂贵。最新消息透露,全新iPhone SE的起售价或定在499美元,约合3644元人民币。 没了「灵魂」主屏幕按键、机身也不再小巧,甚至还稍微上涨了起售价,不知道iPhone SE的忠实粉丝们,还会不会为这延期已久的第四代机型买单呢? 主打「清库存」,iPhone SE有多不受待见 2016年,苹果发布了初代iPhone SE,这台采用4英寸视网膜显示屏,但却用上iPhone 6S/Plus同款A9处理器的小尺寸机型,成为不少「果粉」供奉的神机。 市场研究机构IDC发布的智能手机销量统计报告显示,初代iPhone SE累计销量达3000万台。可以说,初代iPhone SE绝对称得上是口碑、销量双丰收的机型。 (图源:MacRumors) 至于初代SE为何能有如此成就呢?其实无外乎一个原因:性价比高。这代iPhone SE整体性能表现并不落后于同年发布的iPhone 7系列,而其经典的直角边框造型也深入人心,苹果甚至贴心地将其摄像头升级到了1200万像素,支持4K视频录制。 综合实力能打,价格又不高,成为一代神机也无可厚非。 时隔四年,苹果推出了第二代iPhone SE,这款机型采用iPhone 8同款设计,处理器搭载时下最强的A13 Bionic芯片。不过,由于苹果已经进入到刘海屏时代,且同年晚些时候发布的iPhone 12系列全系升级到5G网络,第二代iPhone SE的支持者就不如前代多了。 iPhone SE2并不算是一款失败的机型,只是它发布的时机不对,一个是没赶上大屏潮流,另一个则是不支持5G网络。但苹果似乎只汲取到了一半的教训,在2022年推出第三代iPhone SE。 (图源:AppleInsider) 第三代iPhone SE依然选择了iPhone 8同款造型,处理器升级到A15 Bionic,也支持了5G网络,得益于处理器NPU性能增强,还在单摄像头上提供了人像模式。虽然加入了5G网络的支持,但「老土」的造型,还是让iPhone SE3不受市场待见。 数据研究机构Canalys公开资料显示,iPhone SE3总销量仅为2400万台,较前两代SE机型同期销量下滑情况明显。 尽管销量有所下滑,但也能看出来iPhone SE系列依然有一批忠实的消费者,这类人群或许不在意时尚的造型设计,对影像也没更高的要求。此外,长续航、FaceID、MagSafe,统统不在他们的考虑范围内,对于这类人群来说,小巧、便携,性能尚可,「灵魂」主屏幕按键还在,就足够了。 (图源:NoteBookCheck) 对于大众消费者来说,iPhone SE更像是苹果为「清库存」而设计的产品,无需重新设计模具,直接换上新的芯片,制造成本极低。但从iPhone SE3上面的一些变化来看,苹果似乎是要将其打造成具有性价比的iPhone,用于占领中端市场,可现实情况却不如意。 终于进入全面屏时代的iPhone SE4,很可能会失去一部分曾经偏爱SE系列机型的消费者,但像是设计、性能以及影像部分均有进步,且售价相比起基础款iPhone更加便宜,看起来会是一款不错的中端手机。可这样一来,SE系列面对的挑战就更多了。 瞄准中端市场,iPhone SE能成功吗? 从苹果智能手机产品线来看,iPhone SE主要还是来填补3000元档市场空位的机型,但随着基础款iPhone销量越来越低迷,苹果才「不得已」要给SE来个大修整。 iPhone SE4的确是一款符合市场环境的中端机型,不俗的性能表现、基础款iPhone同代的A系列芯片,更重要的是,低廉的售价。但它是否会被大众消费者认可,还需要划上很大的问号。 (图源:Apple) 首先,iPhone SE4采用了iPhone 14同款模具,但正代iPhone已经进入到「灵动岛」时代,随着iPhone 15系列全系「上岛」,必然会有更多开发者围绕这个新设计做新功能、新控件。结合售价、发布时间和性能表现来看,即便是预算不足的消费者,也完全可以选择基础款iPhone 15。 其次,新款iPhoneSE的影像系统依然羸弱,完全不能与主流方案相提并论。试想一下,一款在2025年发售的新款手机,还在使用单摄像头,哪怕苹果的计算摄影再强,也难以在硬件水平不足的情况下创造「奇迹」。 最后也是最重要的一点,Touch ID是iPhone SE的一大特色所在,一旦iPhone SE选择使用刘海屏设计,那么大多数消费者还是会将目光放在基础款iPhone上。 出于市场考虑,苹果势必要将iPhone SE稳立于中端市场,在第四代SE上做出如此多改动,也是为拿下更广阔的市场而精心准备。至于iPhone SE4能否被大众消费者接受,还得看苹果最终的定价如何。
iPhone 15超大杯DXO排名第二,但苹果早已走下神坛
尽管Apple在发布会上就iPhone 15 Pro Max的相机表现大书特书,不少视频创作者也对iPhone 15 Pro Max的视频拍摄能力赞赏有加。不可否认,iPhone 15 Pro Max的视频拍摄能力确实非常出色,杜比视界、学院色彩、外部SSD直接写入的特性也可以更好地融入到专业创作团队的创作流当中。 但说到iPhone 15 Pro Max的静态拍摄能力,那在我看来就有些不及格了。无论是新加入的5×潜望式长焦镜头在进光量不够时的表现,还是全新的4800万主摄像头变焦能力,在我看来都有些令人失望。即使打开了“不会锐化”的ProRAW选项,iPhone 15 Pro Max依旧会过度“猜像素”,最终的表现甚至还不如上一代的iPhone 14 Pro,照片质量也落后于同时期的Android旗舰手机。 但DXOMARK公布的分数却不这么认为。 图片来源:DXOMARK 2023年9月27日,相机测试机构DXOMARK公布了iPhone 15 Pro Max的DXOMARK测试分数:该手机以154分的摄像头分数,位列DXOMARK智能手机摄像头分数排行的第二位,仅次于156分的华为P60 Pro。 而在微博上,关于154分,网民们也给出了他们的意见:有人认为华为P60 Pro能领先于iPhone 15 Pro Max,这是华为的胜利;有人认为iPhone能超越一系列Android旗舰,这是iPhone的胜利。当然也有像小雷这种认为“iPhone 15 Pro Max这个表现也能有154分?”的。 不过即使大家意见相左,有这么一个观点却获得了大多数人的一致认可:DXOMARK分数的说服力越来越低了。 DXOMARK已经不是当年的DXO了 把时间拨回三四年前,彼时的DXPOMARK可谓是“风头无二”,在各大手机厂商的旗舰机型发布会上,哪怕是高通骁龙芯片,都没有如此高的出场率:华为、小米、荣耀、vivo、一加等等,只要产品稍微在影像上有一些建树,都免不了要拉DXOMARK出来秀一秀成绩,以证明自己的实力。 DXOMARK会被行业追捧,究其原因也不难理解。 首先,最表层的原因是,DXOMARK在影像评测领域资历较老,凭借在专业相机领域积累的口碑,得到世界范围内影像爱好者的广泛认可,有较高的公信力。同时,涉足智能手机影像评测后,DXOMARK也是世界上为数不多的、较权威的评测机构,如果手机厂商需要第三方机构来为产品背书,在影像领域DXOMARK的确是不二选择。 同样的道理,现在手机厂商常常提到的“莱茵实验室”也是世界范围内比较专业的第三方评测机构,其提供的相关证书的确有较强的权威性,能够客观地反映出评测产品对应功能的真实水平。只不过,相比屏幕护眼这些相对有数据可支撑的项目而言,影像评测很难有真正客观公正地评测标准,所以DxOMark做的工作难度更高,而且也更容易招来非议。 不过很快,DXOMARK就失去了引发“争议”必要的影响力:2022年期,部分手机品牌开始不想向DXOMARK提前送测手机,在手机发布会和官网连接上展示DXOMARK相机测试分数的做法也不再成为行业“标准操作”。 图片来源:雷军微博 当然了,即使品牌不再提前送测,DXOMARK依旧会在手机发售后自行测试热点手机的相机表现。不过和曾经的主动送测并在发布会上大书特书的时代相比,DXOMARK的影响力毫无疑问开始走下坡路了。 从表面上看,DXOMARK走下坡路似乎是因为国产手机品牌在影响领域的知名度和影响力已经超过了DXOMARK,各品牌不再需要一个外部的机构来重新说明自己的产品星际有多出色。这种品牌大于评分的情况在游戏领域也颇为常见,知名游戏媒体IGN就有一个关于IGN满分的段子——“《旷野之息》之所以IGN 10/10,那是因为IGN满分只有10分。” 但从根本上看,观众对测试机构所使用的评判标准与结果不信任,这才是DXOMARK等测试机构影响力走下坡路的主要原因。根据DXOMARK的介绍,他们将按照内部标准化指引来评判那一张照片的好坏。从好的方面看,这种做法可以尽可能保证不同手机接受着相同的测试流程。但从另一个角度看,统一标准意味着DXOMARK的测试标准无法随着大众的审美喜好进化,导致测试与大众审美的脱节。 用更直白的话来说,测试分数高的手机,并不一定就是用户喜欢的手机。 举个例子,如果说DXOMARK认为一台手机拍照的“好”是绝对的色准,而厂商又往这个方向调校的话,最终的结果可能是成像发色相对寡淡,对比度和饱和度都不高。但是,根据多年的经验,大多数消费者普遍喜欢稍高饱和度、色彩饱满的发色,这和DXOMARK认为的“好”就出现了矛盾。 图片来源:华为发布会视频截图 为此,当时有手机厂商的解决方法是,送测时用的是“特制”固件,而市售机型用的又是另一版本固件。如此一来,DXOMARK给出的评分对大众消费者来说就没有太多意义,单纯地只有参考价值。 iPhone走下移动影像的神坛 说回话题中心iPhone 15 Pro Max,在DXOMARK给出的子分数中,iPhone 15 Pro Max在散景(虚化)、视频两个项目中拿到了测试最高分数,分别为80分和158分。但在照片、变焦和预览三个项目中的表现就比较平淡了,其中变焦一项更是只拿到了142分,和最高纪录的158分有明显的距离。 其实从这个结果中我们也不难看出,iPhone 15 Pro Max的相机优势并不体现在极限分辨率,变焦画质这些考验光学素质的方面,二是体现在散景、视频拍摄等考验AI与后期处理技术的领域。 图片来源:DXOMARK 这样的测试结果其实也和小雷之前测试的结果相符。iPhone 15 Pro Max是Apple在手机潜望式长焦相机领域的第一次尝试,可能是出于保守考虑,Apple并没有“过度开发”这个长焦相机。以至于在部分光照条件不理想的场景下,iPhone 15 Pro Max依旧会像以前的iPhone一样,利用主摄像头裁切的方式来模拟5×长焦。这导致iPhone 15 Pro Max夜间长焦拍摄效果并不理想,同时对焦成功率也偏低。 图片来源:Apple 此外,对计算摄影的过度依赖也让iPhone 15 Pro Max在光线非常暗的场景下,捕获照片需要更长的时间,图像颗粒感明显,高光部分也更容易出现因后期堆栈而导致的高光错误。或者换个说法,至少在静态摄影领域,iPhone早已跟不上由Android手机推进的行业版本了。 AI时代,到底是谁还在拍传统照片? 不过话又说回来,尽管小雷对iPhone 15 Pro Max的拍摄表现不太满意,但可以肯定的是, iPhone 15注定将在双11迎来第一次销量回升,并凭借极高的普及率成为普通人手中拍摄效果最好的“相机”。在小雷去年制作的《六大旗舰影像横评》中,小雷就提到“在六款手机中,iPhone 14 Pro的取景体验无疑是最好的。除了基本能做到即见即所得外,iPhone还能做到相机APP切换时没有任何的割裂感。” 而对普通用户来说,拍照体验其实远比大幅压缩后上传朋友圈的照片画质更加重要。 不出意外的话,未来的iPhone还将延续iPhone相机“简单易用”的特点:他拍出来不一定会是最好看的,但一定是用起来简单的。相较于让用户拍出更专业的照片,iPhone的意义是让更多用户可以随时随地“随手拍”。 图片来源:Apple 至于Android手机,其实从近几年各品牌的宣传策略来看,专业影像已经成为了Android手机摄影的主要竞争方向。此外,相较于Apple保守的AI研发进度,基于AI的计算摄影也会是未来Android手机的发力点。 在“计算摄影”的帮助下,智能手机摄影将变得“既专业又小白”:专业指智能手机能够实现更多高阶图像处理技术,如自动白平衡、白加黑减自动曝光、色相饱和度校正,让智能手机拍摄的照片品质更上一层楼,就如专业摄影师出品;小白指在AI识别构图、摄影指导等功能的支持下,不具备摄影知识的普通用户也能拍出构图合理、主次分明的照片,且图像算法将在后台悄然、快速地运行,普通消费者全无感知。 毕竟在AI时代,有用户愿意真的去现场拍照而不是用AI“原创”,这本身就是一件了不起的事情。
Meta AI芯片主管被曝离职
智东西9月29日消息,据路透社报道,有两位知情人士透露,Meta的AI芯片研发主管Alexis Black Bjorlin将于本月底离职,但不会立即离开公司。 此前,Meta周三刚刚推出了面向消费者的第一批生成式AI产品,其中包括一个可以生成文本响应和逼真图像的聊天机器人。消息人士称,Meta工程部副总裁Yee Jiun Song将接任她的职务,带领团队继续开发AI硬件。 ▲Alexis Black Bjorlin在加州圣克拉拉AI硬件峰会上发表演讲 据路透社报道,Black Bjorlin目前是Meta负责基础设施的副总裁与AI芯片研发主管,她曾经在博通(AVGO.O)和英特尔(INTC.O)任职,是这两家芯片公司的资深工程师。 在Meta,Black Bjorlin领导的团队负责设计一款定制芯片,用来处理一系列AI工作。在聊天机器人和图像生成器占主导地位的时代,Black Bjorlin团队进行的工作是Meta对其庞大的数据中心网络进行全面改革的关键部分。 据消息人士称,Black Bjorlin将于本月底从Meta公司离职,但不会立即离开公司,而Yee Jiun Song将接任她的职位,为公司带领团队继续开发AI硬件。 据路透社报道,为了创建并支持AI产品中,生成文本回复和逼真图片等功能,Meta正在改造其数据中心,并使用英伟达的芯片来构建功能强大的超级计算机。 并且,路透社今年早些时候有报道称,Meta开发自己的定制芯片将有助于Meta控制成本,更好地绘制一条独立于商业芯片供应商的道路。但这也使得Meta研发产品的进程,比使用市场上现成的芯片进行研发要慢,Meta公司也因此放弃了一些AI芯片的研发。 目前,Meta正在研发一种更新的芯片,这种芯片提供的功能将涵盖所有类型的AI工作。 结语:Meta积极自研芯片,全新芯片研发进程不间断 Black Bjorlin作为Meta的AI芯片研发主管和负责基础设施的副总裁,离职或引起较大的波澜。Meta内部工作交接量较大,且团队研发节奏可能有所变化。但据知情人士消息,Meta将让Yee Jiun Song接替Black Bjorlin的职务,继续研发Meta自己的AI硬件。 并且,Meta开发自己的定制芯片,以及更新的、将涵盖所有类型AI工作的芯片仍然在不断推进。可见,在AI技术不断发展且各大科技公司竞争激烈的时代下,Meta对于开发全新的芯片以应对AI工作的需求的决心比较坚决。在这样积极的态度和决心下,未来Meta会为消费者推出怎样的新AI产品和功能,我们拭目以待。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。