行业分类:
加载中...
头条分类:
加载中...
大厂AIGC三大追问:拉升活跃度?制造垃圾?颠覆格局?
作者|不空 互联网平台的AIGC攻城战,焦点已经转向了评论区。 “@AI课代表呀 总结一下” “@AI视频小助理 高能空降” “@机器工具人 听歌识曲” 这些“召唤术语”成为了B站用户与AI勾连的密钥。用户只要在评论区@AI视频小助理、有趣的程序员这类AI工具账号,并下达“总结”、“高能空降”等指令,AI账号就可以根据时间轴,逐条梳理出视频核心要点。 在B站UP主@考研数学武忠祥老师25号发布的一条为24届考研人划重难点的视频下,网友对AI工具账号的召唤率先占领了热评区。AI账号也不负期盼,短短几分钟内就迅速整理出了一份详细的视频笔记,成为了网友的“省流助手”。 B站、抖音、快手为代表的“务实派”平台,战略侧重点在于如何将AI“玩具”转变为AI“工具”。然而,使用边界尚不清晰的AI技术在其工具化的道路上其实也遇到了不小的阻力,平台因此“翻车”的案例也并不少见。 网易Lofter推出的AI绘画功能被质疑“缝合素材”,更遭受到了插画师的大规模抵制、停更和出走,不少普通用户也纷纷与平台“割席”。 以虎扑为代表的“务虚派”在用户的精神需求层面大做文章,彻底打开了AIGC技术的潘多拉魔盒。 虎扑官方宣称,这款AI不仅可以还原球星的个性与风格,甚至还可以自定义理想的AI伴侣,用户可以自由设置AI机器人的长相、性格、声音。在技术放任的自由下,用户利用虎扑的这款女娲AI创造了一个个“AI电子女优”的形象,成为了网友发泄私欲的工具。 图源:虎扑 不同平台的AI玩法,其实也藏着一条统一的走向,即互联网平台正在将迭代与留存的主干任务押注在AIGC工具上。不过,如何实现AIGC与平台发展的平衡,这成为不少平台面临的核心命题。 01 内容平台一手抓创作,一手抓交互 后端的用户交互体验成为了内容平台进行AI布局的新阵地,其中,金句频出,用户互动热情高的评论区更是内容平台的发力重点。 中长视频为主的B站本就有“课代表划重点”的内容消费偏好,“AI视频小助理”“AI课代表呀”等AI账号从站内用户的内容消费习惯出发,打造了独具B站特色的AI省流助手。不过,这些AI账号与聊天机器人不同,不能做到及时、快速地回应,很多用户的AI召唤术也会失灵。 图源:B站截图 同样,豆瓣的AI账号也藏匿在各小组的评论区中,其数据源更是由各小组的特色金句构成,借此提供小组的活跃度,每一个小组的AI账号都别具特色。“哈哈哈哈哈哈哈哈哈哈哈”小组的AI账号评论风格跳脱,评论内容也是“我笑到抽筋乱蹦家人左顾右盼确认家里不是迪厅”。 图源:豆瓣截图 快手在9月15日开启内测的AI文生图功能“AI玩评”,焦点也瞄准了内容评论区,直接将AI绘画功能链入到评论区中,用户输入指令就可以在评论区快速生成meme梗图。 图源:快手 评论区玩梗、斗图确实已经成为了当代网民的基本素养,但快手AI玩评略显板正的作画风格与网友斗图的目的割裂开来。不过,不可否认的是,还在内测阶段的AI玩评也在一定程度上打开了内容平台玩转AI的新思路。 事实上,内容平台最先拥抱的其实是AIGC的创作能力。在理想主义叙事中,创作门槛更低、效率翻倍的生成式AI工具无异于一枚深水炸弹,拓宽了内容平台的想象边界。 技术浪潮的激励下,一众内容平台开始在AI创作工具方面下苦功,其目的是激发站内内容生产活力,填充内容池。 抖音推出的“AI绘画”滤镜特效,以裂变传播的短视频拓宽了用户对AI绘画的认知。快手的AIGC创作工具“快影”,则是基于AI算法将用户照片一键转化为油画风、水彩风、动漫风等多种风格化效果图片...... 考虑到C端用户的普适性,内容平台的AI创作工具使用门槛非常低。以在各大内容平台盛行的“AI绘画”功能为例,与专业AI绘画工具上复杂的关键词、参数调整不同,内容平台的AI绘画功能支持一键生成,用户只要上传一张照片就能实现动漫风格的转化。 简单便捷的操作设置降低了生成式AI的成本,其导致的另一个结果却是,大量低质、无意义、同质化的内容泛滥成灾。 小红书上批量生成的“AI帅哥”“AI美女”共用一张脸,甚至摆着同一套拍照姿势,网友直呼患上了AI审美疲劳。AI生成的“虚假新闻”、无脑回答也在内容平台大行其道。正是技术猎奇视角与低门槛的迅速普及,令AI内容垃圾充斥互联网。 内容平台普适性AI创作工具的下放也不可避免地激发了专业创作者与AI技术之间的矛盾。 网易Lofter今年推出的“老福鸽画画机”AI绘画功能,允许用户输入指令生成个性化头像,其初衷自然是活跃站内用户生态,并且补充站内内容池。 但这一功能上线后立马遭到了站内用户的抵制与抗议。作为集聚了大量插画师、原画师的内容平台,Lofter的这一AI功能被质疑是对原创作品的侵权。黑底白字的“禁止AI”运动由专业画师发酵到普通用户中。 一片讨伐声之下,Lofter三次发表声明,强调没有使用站内用户数据训练AI模型,并下架了该AI绘画功能,但用户抗拒AI的情绪仍未得到平息,甚至扩散至各个内容平台上。小红书上,“禁止AI”的运动也在暗流涌动着,插画师也学着抱团取暖,总结了“作品逃避AI吞噬的方法”,以此表示抗议。 全网泛滥开来的AI内容更是走向了灰色的产业链,批量打造的AI水军开始涌现。 “刘德华为什么很少演反派”成为了内容平台上爆火的一道AI测试,只要在内容平台上发布这一提问,就会迅速引来AI水军的围剿,并回复称“辣鸡华为,过时芯片还拿来碰瓷苹果。”其实,这是因为问题中的“刘德华”和“为什么”搭配出了“华为”这一关键词,借此来触发了AI水军的关键词。 AIGC内容监管也在逐渐提上日程。抖音、小红书、B站等内容平台纷纷为站内的AIGC内容打上了“水印”标识,真假难辨的AI内容终于踩下了急刹车。 对于内容平台而言,想要建立AI应用生态,只有将其与站内生态完美融合,最终才能实现正向的“化学反应”。 02 电商平台卷向前端搜索,抢夺种草用户 在闭环交易链路的逻辑之下,内容缺口在一定程度上撼动了电商平台的垄断地位。不断崛起的小红书、抖音等内容平台以种草为切口,成功分割了电商平台的蛋糕。生成式AI在内容端的爆发就成为了电商平台修补短板的一剂“良方”。 AI对话是电商平台当前的主流玩法。 重抓内容生态的淘宝将资源与希望倾注到“淘宝问问”这一AI对话应用上。淘宝问问一方面链入了阿里云“通义千问”大模型,另一方面又根植在淘宝平台的沃土之上,这份资源与技术的双重保险,足以证明淘宝对AIGC寄予的厚望。以信息流重塑电商业务的百度也将AI作为业务发展的加速器,推出了电商新品牌“百度优选”。 对比电商平台的AI工具布局,可以发现,无论是淘宝,还是百度,都试图将前端“搜索”都视为平台串联AI工具与电商业务的重要抓手。 淘宝问问集成在淘宝首页的搜索框上,但并不能直接使用AI功能,而是将其分成了两步,用户在搜索框输入了“淘宝问问”后,才能跳转到AI对话页面。值得注意的是,其中消耗的转化成本不可避免地直接影响着用户的使用率。 图源:淘宝 同样,百度电商的AI导流入口也隐藏在百度的搜索框中,不过,百度电商则是以一种隐晦、软性的方式植入到百度搜索之上。用户只要在百度搜索商品,AI算法便将站内创作者的相关测评、种草内容以及商品链接全部汇总至百度页面上。 比如用户在百度搜索手机品牌,百度搜索可以为其链接到手机测评博主的内容,详细剖析不同型号手机产品的性能、卖点,并绑定百度电商的商品链接,帮助用户完成筛选。 图源:百度APP 对于电商平台而言,搜索框的重要性不言而喻。这既包含了平台沉淀多年的用户心智与用户认知,更是平台了解、触达用户的最短路径。从这一层面来看,在搜索框中植入AI工具其实是电商平台的最佳选择。 以搜索框为起点,电商平台更大的野心则在于内容种草环节。内容的引流与转化效应已经在小红书、抖音等平台上得到了验证,电商平台自然也不甘心割舍这一业务,希望能以内容生态完善消费链路,借此提升转化效率。 淘宝问问的内测页面中,一共划分了“资深导购员”“生活小能手”“美食达人”“旅行策划人”“灵魂写手”五个功能,这五个功能对应的就是用户消费生活的多个场景。更为重要的是,在淘宝站内,这些功能也直接和消费链路直接绑定在一起。 图源:淘宝问问 以“资深导购员”功能为例,这一功能是为了满足用户的种草需求,用户提出消费需求时,淘宝问问就可以提供相应的建议。例如,输入“中秋节适合送父母什么礼物?”这一问题后,淘宝问问会汇总站内相关短视频内容,还会列出具体的选购方向,比如养生、纪念、旅游等。在这些建议之后,淘宝问问还提供了相应的商品链接,一键直达商品页面。 图源:淘宝问问 从转化链路的角度来看,淘宝问问的方向并没有偏离。不过,内容种草效应的要义不仅仅在于全面、专业的内容质量,更在于用户与内容博主、用户与内容平台之间建立的信任关系。 剁主体验淘宝问问后发现,AI列出的购买建议看似条理清晰,但篇幅往往都十分短小,只提供了消费方向,却少了消费必要性的关系阐述。换言之,AI的种草内容说服力不足。 要知道,在内容种草越来越精细化的趋势下,消费者对内容质量的要求也随之攀升,护肤赛道卷成分,穿搭赛道卷用料。对比来看,淘宝问问当前的水平仍然要粗糙许多。 03 垂类平台力求从应用场景破局 AIGC已经成为互联网平台不得不迎头跟上的队伍,垂类平台也不能脱离这一定论。 在战略层面,身处科技浪潮前,垂类平台已经不能坐以待毙,而是选择“以守为攻”,从垂类应用场景破局,结合AI技术,守住自身平台的优势。而在技术层面,垂类平台的技术积累自然不能与大平台相提并论,但是却在数据源上有不小的优势。垂类平台的数据样本多、质量高,也能够提升AI算法的精准度。 在9月5号宣布向全社会开放的WPS AI是中国协同办公赛道中首个落地的生成式AI应用,瞄准的正是数亿打工人的办公需求。 简单直观的AI对话形式同样是出于降低使用门槛的目的。用户只需要下达指令,WPS AI就可以按需进行操作。从应用场景来看,WPS AI走了一条“广而全”的策略,覆盖了文档分析、大纲写作、PPT制作、翻译等各类办公需求。 图源:WPS AI 从技术与用户体验层面来看,与成熟不少的Claude、Jasper这类AI模型相比,WPS AI在本文生成、文档编辑等方面的能力确实稍显逊色,甚至还会出现明显的校对错误,需要用户手动调整。 不过,在办公场景沉淀多年,WPS积累了庞大的用户基数和认知,能够保证WPS在技术浪潮下不掉队,同时也成为了算法迭代升级的基础。 一站式旅行平台携程也将AI技术与旅行这一场景进行融合,并打造了深耕旅行场景的AI应用——携程问道。 携程问道基于携程在出行场景的数据沉淀,官方宣称是以AI对话的形式为用户提供定制化出行路线,帮助用户减少出游决策。 出行攻略的主阵地一直在内容平台,携程自然想通过数据优势和技术,借助AI大模型来抢夺用户心智。不过,从其用户体验来看,还在内测阶段的携程问道还不够完善。 图源:携程问道 以携程问道的行程规划功能为例,与小红书、抖音等内容平台上的详细全面的旅游攻略相比,携程问道给出的规划过于简单,参考价值有限。如果进一步追问出行细节,携程问道的短板就会暴露地更加彻底,只能无奈表示AI还在学习中。 图源:小红书 这些互联网平台对AIGC的应用趋势揭开了一个确定的未来蓝图:AIGC工具全面渗透到人类各个生活场景中,人类最终将与AI同行。不过,站在这场征途的起点,如何将AI技术收束进规则内?如何创造更多的实用价值?这都是互联网平台需要冷静思考的命题。
阿里云CTO周靖人:AI时代,为什么阿里云一定要做开源
作者 | 宛辰 编辑 | 靖宇 随着 Meta 的 Llama2 开源,开源模型,以及聚集大模型开发者的开源社区,正在发挥不可或缺的作用。 一个例子是,上个月 Hugging Face 得到了谷歌、亚马逊、英伟达、Salesforce、AMD、英特尔、IBM 和高通的共同投资。 这些大公司共同出手的原因是:他们的员工正在积极使用 Hugging Face 平台。Hugging Face CEO 德兰格表示,「也许五年后,将拥有大约 1 亿 AI 构建者。如果所有人都整天使用 Hugging Face,我们显然会处于有利位置。」 几个月以来,国内多家大模型厂商开始走开源路径,其中,阿里云是最积极的云厂商。 本周,阿里云开源通义千问 140 亿参数模型 Qwen-14B,以及其对话模型 Qwen-14B-Chat。阿里云同时公布了其 AI 开发者社区——魔搭的最新数据。目前,魔搭社区已有 230 多万开发者,8500 万的模型下载量。据阿里云上季度财报,魔搭社区模型的下载量是 4500 万。也就是说,不到两个月,模型的下载量翻番。 一个半月内,这已经是阿里云第三次推出免费可商用的开源模型。并且,与更大尺寸模型一同开源的,还有技术报告。与预训练、对齐等一系列模型训练过程有关的数据、方法都在报告中得以详细呈现。 对此,阿里云 CTO 周靖人表示,这也是今天中国模型社区的第一次,「不单单开源我们的模型,把报告也分享给大家,能够让大家体验到模型各式各样的表现,更有效地帮助大家进行模型的应用。」 同时,他认为,客观地从全方位的维度来衡量一个模型,把各种各样的指标公开,这些可以帮助开发者有效衡量:今天从哪个模型开始,让开发者参与起来。 开源模型在多大程度上开源,这也是开发者最关心的问题,尤其是关于商业使用权和数据集的开放。 此前,电气与电子工程师协会 IEEE 网站上,有学者质疑 Llama2 的开源属性。尽管 Meta 已经提供了经过训练的模型,但并未共享模型的训练数据或用于训练模型的代码。虽然第三方能够创建在模型上扩展的应用程序,但想要进一步研究 Llama2 的开发人员和研究人员无法复刻模型。 在这一点上,开源社区和开源模型的开放性需要进一步被讨论。 除了开源,周靖人在日前的 Qwen-14B 发布会上,接受了包括极客公园在内的多家媒体采访,透露了客户侧大模型的演进方向,阿里云闭源、开源两条腿走路背后的思考等问题。 以下为阿里云 CTO 周靖人对话内容,经极客公园整理: 01 目前大模型落地的演化方向——怎么解决领域问题 问:从阿里云与客户的接触来看,目前在通用大模型的落地方面,哪些应用方向需求量较大? 周靖人:把模型真正运用在实际场景里,还是需要有很多二次开发,甚至今天就要结合领域知识。 如何能够解决领域的问题,是今天基础模型比较欠缺的地方。今天在一些特殊领域里,其实有很多专业知识,有很多的专业 know how,需要不断深挖这些领域,把这些核心能力跟比如开源的通义千问 7B 或者 14B 的模型有效地结合在一起,不断加深领域知识,变成这个领域的一个核心模型。 具体还会遇到一些客户场景,客户有一些特殊的数据或者信息,还不便于公开。这时候,可以考虑通过知识增强的方式,prompt engineering(提示词工程),或者做一些记忆的模块,这一系列对整个模型的落地起到至关重要的作用。 不久的将来,也会跟大家分享阿里云在这方面如何把模型的落地做成一个产品,从而有效帮助我们的开发者、ISV,甚至企业能够快速把模型的能力应用在实际的业务场景里面。 问:应用层的反馈,对阿里云有什么启发? 周靖人:今天在模型应用里,可能更多是要做相关的模型拓展。包括今天根据各行各业的知识,或者今天如何能更有效地做相关的 fine-tune(模型精调)。 在工具这一层,我们也收到大家的反馈,不断地去打磨,能够把我们模型的应用做到低门槛,同时更高效。 问:通义千问实现全面开源,面临的最大挑战或困难是什么? 周靖人:讲到模型的应用,不能说今天只做一个 foundation model(基础模型),(基础模型)跟我们实际的应用场景还会有很大距离。怎么能够帮助开发者、企业用好模型,这是今天很重要的一个环节。 来源:视觉中国 我们做开源也是基于这样一个场景,真正实现目标,让 AI 更加普惠。这句话要实现是非常难的,很有挑战,需要我们跟行业伙伴共同合作。 02 客户侧,多大规模的模型,最有优势? 问:Qwen-14B 开源模型与之前的 Qwen-7B 相比,有哪些突破? 周靖人:这两个模型处于不同的量级。今天随着模型参数的增加,模型的整体容量,包括它的能力都有不断地提升。如果直接把 7B 和 14B 这两个模型的级别做比较,14B 模型往往会比 7B 在某些领域,特别是在长尾的领域表现出更强的认知能力,甚至推理能力,包括算术等方面。 这两款开源模型,基本上在各自领域,都领先于市场上大家耳熟能详的模型。甚至可以跨级别地做一些比较,千问 14B 的模型比很多更大规模模型的指标都有提升,但它的好处是比这些大的模型更加 compact。也就是说,它在模型微调方面,在模型的应用方面会更有性价比。 魔搭作为一个开源的模型社区,希望给不同的开发者、不同的企业更多的选择。这是在 7B 的规模之上,要开进一步开源 14B 模型的初衷。至于怎么选择,很多时候要结合业务场景。不同的场景可以根据需求选择不一样规模的模型来应用在自己的开发环境里。 Qwen-14B 在十二个权威测评中全方位超越同规模 SOTA 大模型|图片来源:阿里云 问:从模型应用层看,多大规模的模型最有市场,为什么? 周靖人:不能一概而论,这也是我们会提供不同尺寸开源模型的原因。不同企业或者不同场景,涉及到的数据量或者对模型的要求不一样。甚至也跟我们模型服务的成本相关,今天越大规模的模型,固然在推理,在认知能力上更好,但是它的服务成本也会相应提升,在上面去做二次开发,做 fine-tune(模型精调),结合自己的知识增强等等,成本也会不断提升。 每一个企业、开发者实际上要做一个选择,一方面是极致的性能,另一方面是一个极致的成本。他们会根据实际场景问题的复杂度,包括今天调用的频次、相关资源配比的情况,做出符合业务场景的选择。 阿里云认为只有把选择权交给开发者,交给企业,才能更加有效地让我们的 AI 能力落地在各个业务场景里。 03 开源还是闭源? 问:通义千问开源版本和 API 调用两种模式如何平衡,是否是小参数的就开源?什么样的客户选开源,什么样的客户选 API 调用?未来开源、闭源模型会形成什么样的格局? 什么样的模型更适合开源?什么样的模型适合闭源? 周靖人:我们的开源版本,无论是 7B 还是 14B,都会在魔搭社区和 Hugging Face 等同步的开源。另外一方面,也会同步以 API 的形式,在阿里云灵积平台上,提供各种 API 服务。 我觉得还是要回到初衷,如何让 AI 更普惠。应该问,以什么样的方式去支持开发者、企业,能够更加有效地让他们把模型的能力跟自己的业务场景有效结合在一起,去解决实际问题,所以其实不在乎今天到底是开源、闭源。 今天从基础模型到应用场景,还有很长的路。我们希望在做开源的时候,能激发大家在业务创新的各方面突破,(让大家)有更多的自由空间,结合自己的应用场景做更加突破性的创新。只有有更多的创新后,才能让 AI 更好地落地。 问:开源大模型,对闭源大模型相比,有什么样的补充?阿里云平台上,两种不同模型的落地,未来将是一个什么样的比例?哪些客户会更倾向于开源大模型? 周靖人:今天闭源、开源都是一种手段,更多的是今天怎么能够让这些模型,快速应用在各种各样的场景里面。即使在闭源里面做产品化,也是为了让今天 AI 的使用门槛更低,让 AI 的能力更加普惠,这是我们的初衷。 但是不同的场景有不一样的需求,一定不是 one size fits all,不是只有一个模型就可以服务所有,也不是只有一种方式。今天阿里云在支持整个魔搭社区的时候,不是只有通义的模型,还有很多开源社区的模型,还有很多合作伙伴的模型。他们的模型在很多方面有很多优势,我们希望大家共同来建设社区,能够真正意义上把模型的能力带到实际场景中。 阿里云在这个过程中间,希望为大家提供基础的支持,不管是算力的支持还是模型服务的支持,这也是为什么阿里云积极参与到模型开源的路径上来。 2023世界人工智能大会,阿里巴巴魔搭社区展台|图片来源:视觉中国 问:阿里云更有兴趣培育开源大模型,还是对大模型之上做应用兴趣更大? 周靖人:我们更有兴趣让 AI 蓬勃发展。今天要让整个 AI 的生态蓬勃发展,只做开源也不行,但不做开源更不行。 04 商业化的创新 问:商业化最后是不是还是通过应用挣钱?MaaS 的商业模式如何跑通? 周靖人:今天涉及到模型有价值的服务,不管是通用的服务,还是定制化的服务,甚至一个通用的模型到一个具体的业务场景里,还有一定的技术过程,包括:怎么去收集本地数据、怎么拿一些反馈、怎么能够做一些知识增强,这些中间有很多商业想象的空间。 但我们认为,今天在模型这部分,应该先注重生态,再注重商业化,而不是一开始就过度围绕商业化。把 AI 的社区、开发者的生态,茁壮培养起来,是我们当前所需要共同努力的首要问题。 05 开源技术报告,最大程度开放 问:对于开发者,有什么激励吗? 周靖人:像这次模型的开源,不单单是做模型的开源,同时,还是国内第一个来提供 technical report。这个论文一方面阐述了模型整个研发的过程;另一方面,也最客观地从全方位的维度来衡量一个模型,各种各样的指标都是公开透明的。这些都是帮助开发者有效衡量:今天从哪个模型开始。 另一方面,有不少开发者也跟我们提要求,在跟他们积极互动的过程中,我们发现有这样一个生态后,很多开发者可以帮助其他开发者。 另外,今天像通义千问模型,跟阿里云的相关 AI 产品、技术体系是有效联合在一起的。不管是要使用一个模型的服务,还是做 fine tune,做一些知识增强,阿里云都会有一系列产品和技术,帮助开发者进行模型应用。 06 云计算未来的产品形式 问:你觉得未来的云计算会有什么样的新形式?开源模型会不会成为云计算的标配? 周靖人:云计算在这样一个 AI 时代里,肯定在不断变化,不断创新,包括模型的开发、模型的服务,一系列的技术体系在升级。我觉得开源模型会成为我们生态的一部分,但不一定会成为全部。 就像今天在大数据里面有很多开源的产品,在数据库里面也有很多开源的产品。但是今天在整个云计算里,有的人会用开源的产品,可能用户自己的技术实力强,会做一些定制的开发;但更多的人会使用的是今天像 PaaS 这样一个产品,也就是说,会基于云计算上面的一系列产品,来进行服务。 模型方面,我认为也会有类似的情况。 07 下一步:被集成,但是要往前多走一步 问:微软的大模型已集成在系统甚至 Bing 里下放给用户,在接近于完成培养用户习惯的阶段,并且行成了用户付费的闭环。阿里云如何看待这一问题? 周靖人:并不是说今天我们做大模型,我们就要把端到端的所有的链路都要由阿里云来提供。站在云的视角,我们希望更多地被集成。也就是说,把模型能力提供给各行各业的服务商、软件商,让他们能够把整体产品技术的体系升级,服务好他的客户。但我们这个过程中间是需要作为云平台,要提前多走一步,希望把技术能力提供给我们的合作伙伴。 图片来源:视觉中国 问:如何建设大模型的开源生态? 周靖人:今天模型的生态一定是要开放公开,有更多人来参与,但也要保持一个求真务实的状态。今天比较客观地评价一个模型的能力,也能让开发者参与起来。 魔搭社区自始至终秉承着公开开放的理念,不管是模型开发者、创业者,还是头部企业,都能通过魔搭社区去触达更多的开发者,把他们的能力分享给社区,社区反过来给一些反馈。
新“Siri”之战开打,微软、亚马逊、OpenAI已入场
新一代个人AI助理之战,终于打响了。 9月,三家公司发布了重要预告,标志着这个节点的到来。这三家公司分别是亚马逊、微软和OpenAI。 亚马逊在21日的秋季硬件发布会上宣布,“老牌”语音助理Alexa终于要升级,融入大语言模型。新Alexa延迟更低,能理解上下文、记忆此前的对话、无需来回唤醒,而且还会越用越个性化。 同样是在9月21日,微软在美国纽约召开秋季发布会,宣布自26日起将逐步给Windows11用户推送系列更新,其中一个重要更新是人工智能助手Copilot。Copilot,正如其名“副驾驶”,要成为用户的数字管家,将出现在Windows11的侧边栏,可以语音对话,允许用户通过其控制PC上的设置、启动应用程序,或是回答问题等。驱动Copilot的是OpenAI目前最先进的大语言模型GPT-4。 没过几天,25日,OpenAI突然放招,发布公告《ChatGPT现在能看、能听、能说》,宣布将在未来两周向付费用户推送多模态新功能。多模态ChatGPT将能基于图片对话,并进行实时语音对话。举个例子就是,你打开冰箱拍张照,就可以和ChatGPT语音畅聊晚上吃点什么。结合ChatGPT已经以App形式登陆安卓和iOS,相比于无所不知的“大明白”AI,此举让ChatGPT更具备个人助理的能力。 除了这三家正式宣布相关产品升级之外,谷歌在上个月被科技媒体Axios爆料,内部邮件显示,谷歌将利用最新的大语言模型技术对谷歌助手(Google Assistant)进行全新改造。苹果也被爆料已经搭建好大语言模型的框架,在对地图、Siri在内的功能进行改造。 科技巨头在个人助理的战场上厮杀,上一次出现这样的场景还是在8年前:Alexa首次发布于2014年,搭载在亚马逊智能音箱Echo产品中。也是在那一年,微软也随Windows系统推出语音助理Cortana,在中国大陆被称为“小娜”;谷歌随安卓4.1推出语音助理Google Now,也就是后来的谷歌助手Google Assistant。那是继2011年苹果随iPhone 4S推出Siri之后,紧跟的三款来自科技巨头的语音助理竞品,拉开了上一代语音助理混战的序幕。 然而,最初引起大众极大兴趣的语音助理,近几年已经变成了智能终端必备、但人见人嫌的“人工智障”。随着去年11月底OpenAI发布ChatGPT,流畅的对话让上一代个人助理更加相形见绌。在ChatGPT发布前不久,Alexa被传出亏损、裁员的消息,而在ChatGPT发布之后,微软“杀死”了Cortana,在今年8月将其下线。 上一代个人助理之战告一段落,新一代个人助理的战争已经奏响号角。有了大语言模型技术的加持,这一次的故事会有不同吗? 先让我们官方给出的例子,看看亚马逊Alexa、微软Cortana和OpenAI的多模态ChatGPT是怎样的存在。 接入大语言模型的Alexa,“机器人”味少了。用户可以说得不直白,如“Alexa,我很冷”来让Alexa开空调,也可以很抽象,比如“让这个房间看起来像XX球队的颜色”。用户还可以一次说多个指令,如“Alexa,打开喷头,打开车库门,关闭外部灯光”,Alexa就会识别并执行这些任务。 此外,现在,用户可以对Alexa说“Alexa,让我们聊天吧”,接下来的对话中都不需要再叫Alexa的名字。并且Alexa会记住用户的一些信息和偏好,不必每次都对TA做自我介绍。 在一条演示广告中,用户和Alexa进入聊天模式。用户想要举办一场派对,让Alexa推荐派对主题,然后再依据主题推荐合适的场地。当用户和Alexa商量好一切之后,用户要求“给我的朋友发送下周五晚上8点的邀请邮件吗,神秘一些”,Alexa便欣然答应,并阅读以“你准备好度过一个难忘的夜晚了吗”开头的邮件给用户确认。 比起过去每句话都要叫一声“Alexa”、前后不能有连续、指令必须清晰明确的语音助手体验,新Alexa的确“更像人”了。相信每一个使用智能家居的用户,都受够了变着法地试探怎么说才能让“小X”和“精灵”们听懂指令。 已经被杀死的微软Cortana,也就是我们熟悉的“小娜”,基本上和iPhone的Siri差不多。为你打开某个应用、播放一首歌曲,或者回答你的问题(除了今天的日期和天气之类的基础问题外,基本上是给你显示网页搜索结果)。 而Copilot则更像一个实干型的助手。比如你可以要求Copilot帮你“整理桌面”,它就会把窗口平铺排列;当你浏览网页的时候,可以呼出Copilot让它帮你总结、解释、重写网页的内容;编写文案、总结图表更是不在话下。更有意思的是,Copilot还具备对图片的处理能力,你可以在截图后直接让Copilot进行去除背景、抠出人像等操作。 和升级后的Alexa一样,Copilot的对话体验也更偏“人类”,你可以直接让Copilot“播放让我集中精力的歌”,它就会找到Spotify上的对应歌单。 至于OpenAI的ChatGPT,也在转向多模态之后变得更贴近生活。前文已经提到,你可以打开冰箱拍张照,和ChatGPT讨论晚上吃什么。 在官方给出的另一个例子中,用户给ChatGPT发送了一张自行车的照片,问它如何调低座椅。ChatGPT提醒用户查看车的型号,确认是有快拆杆还是用螺栓固定,并给出详细步骤。用户还是不明白,拍摄了座椅连接处的照片并圈出某部位,问这是不是快拆杆。ChatGPT识别出这是螺栓,并建议用内六角扳手。用户接着发难,拍摄了一张工具箱的照片,询问ChatGPT哪一个是内六角扳手,它也成功识别了出来。 除了日常生活中的问题解决外,由于具备语音功能,可以“说”的ChatGPT还可以给孩子讲睡前故事。更有意思的是,当你与人吵架,也可以把能听会说的ChatGPT摆上来,帮你们梳理思路,解决争论。 不过,不管是新Alexa,还是Copilot和多模态ChatGPT,都有一定的使用门槛。 Windows11操作系统内置的Copilot目前没有收费的消息,应该是免费向用户开放的,但是要等更新逐步推送。而在办公套件Microsoft 365上,Copilot属于高级订阅功能,每月收费30美元。 OpenAI的多模态ChatGPT仅向高级订阅用户开放,也就是ChatGPT Plus,每月20美元。 而新Alexa未来可能会收费。在亚马逊秋季发布会之后,彭博社采访了即将离任的亚马逊设备和服务部门副总裁大卫·林普(David Limp),他表示亚马逊“绝对”在考虑Alexa的订阅模式。 林普拒绝讨论Alexa若收费的话定价会是多少,并表示“你今天所熟悉和喜爱的Alexa将保持免费”,但为AI聊天机器人提供动力并不便宜,他承认“在云端进行模型推理的成本是巨大的。” 刚开始打仗就想着怎么收费,这看似急功近利,实际上都是上一代个人助理之战的血泪教训。 个人助理产品早就有,其中的代表是微软在1995年就推出的微软鲍勃(Microsoft Bob),彼时比尔·盖茨(Bill Gates)还是微软的CEO,在那一年首次登上《福布斯》全球富翁榜榜首。但现在回头看,鲍勃显得很臃肿:软件显示一座虚拟的房间,就像一间个人办公室,角落里蹲着卡通狗助手,亲切地问你需要什么帮助。 这条路没有走通,仅一年,微软就用Clippy代替了鲍勃,就是那个浓眉大眼的曲别针,热心肠地想帮你做这做那(但什么都做不好),也不成功,是大家批评嘲笑的对象。 到了2011年,一切都改变了,苹果推出iPhone 4S,“附赠”的还有Siri——一个没有实体形象,可以长按Home键呼出的语音助理,可以帮你打开应用,还能回答问题,甚至可以俏皮地给你讲笑话,在当时颇具“未来感”。 科技巨头们闻风而动。在2014年,语音助理大爆发,占据安卓的谷歌推出了Google Now(两年后升级为谷歌助手Google Assistant),占据PC操作系统的微软推出了Cortana,而亚马逊干脆研发智能音箱设备,将Alexa塞了进去。 电影《她》上映了,电影中男主人公和电脑操作系统的语音助手谈恋爱,后者的配音是好莱坞著名演员“寡姐”斯嘉丽·约翰逊(Scarlett Johansson),而语音助手的界面像极了Cortana。电影上映后,《连线》杂志甚至报道有一些iPhone用户认为Siri似乎开始拥有“自我意识”。 到了2019年之前,各家陆续在更多端口搭载语音助手,谷歌、苹果、微软都推出了智能音箱设备,Alexa和Cortana还搞起了合作,可以在自家语音助手那里呼出对方,以实现更多功能。在国内,手机智能语音助手和智能音箱也开始涌现,小度、小爱、天猫精灵等悉数登场。 然而,也是在这个阶段,语音助手越来越普及,大众对其的评价却慢慢从充满幻想,变为了感到失望。在国内,这些语音助手喜提“人工智障”称号。人们在网上发帖询问“Cortana老自己弹出来,怎么关掉啊”,或是分享智能音箱怎么都听不懂“关掉客厅的灯”的简单指令的短视频。 以Siri为例,2018年Vetro Analytics的数据显示,Siri的使用率为19.6%,依赖度仅为11%,每位用户每月平均使用时长只有短短14分钟。 体验差,直接影响着语音助手产品的商业前景。 就在ChatGPT推出之前,2022年11月,媒体Business Insider报道,根据其获得的内部数据,一季度亚马逊Worldwide Digital部门运营亏损超过30亿美元。这个部门包括从Echo智能音箱、Alexa语音技术到流媒体服务的所有内容。而熟悉该部门的人士表示,这一亏损是亚马逊所有业务部门中最大的,而且其中大部分损失都要归咎于Alexa。报道估计,2022年该部门的亏损甚至会达到100亿美元。 Alexa的开局并不差,第一代Echo设备的销量超过500万台。但是其商业模式一直是个问题,所有的语音助手其实都有这个问题:提供了服务,然后呢?2018年,亚马逊预计2021你那每台设备都将亏损5美元。 上一代语音助手并没有很好的货币化举措,再加上交互的体验并不好,Alexa期望可以将亚马逊的电商服务融合进去,但糟糕的体验无法支撑这个愿景,而频繁地询问用户要不要买东西本身又在损害体验。用户到头来和语音助手间的大部分对话琐碎而日常,如今天的天气、日期、打开某个应用等,而这并不能让亚马逊赚钱。 在裁员、亏损的消息传出后,亚马逊表示还是会大力发展Alexa,但是外界看不到什么新的可能。 ChatGPT的出现,让一切都不同了。 一方面是危机,ChatGPT基于大语言模型的出色对话能力,让大众几乎在第一时间就将之与上一代语音助手进行对比,结论就是“太差了”。问题改变,上一代语音助手不思进取、不上大模型,就有可能落后挨打,即便是苹果和谷歌也得忌惮这种可能性。 除了谷歌在今年8月被传出要用大语言模型升级谷歌助手以外,苹果也有类似的传闻。今年7月,名记马克·古尔曼(Mark Gurman)爆料,苹果已经完成了其大语言模型的基础框架,被称为“Ajax”,定位为支持对话式AI系统,并已经将其应用在地图、Siri等功能上,做人工智能改进。 而在科技巨头动作之前,早就有各种整合了大模型的个人助理第三方应用出现。如今年6月,就有人“复活”了微软鲍勃,使用的是GPT-3.5模型,在微软商店上架。 另一方面是机遇。以亚马逊Alexa为代表的智能生态想象,如今在5G加持、大模型支撑之下,实现的可能性前所未有得大。 本次秋季发布会,亚马逊在宣布Alexa将全面升级之时,也已经勾勒出了广阔的前景:亚马逊将大语言模型注入200多个智能家居API,为Alexa提供更主动无缝管理智能家居所需的背景信息。同时,亚马逊要推出工具,允许Alexa控制第三方产品的某些功能,后者无需在智能家居生态系统的工具包中。亚马逊表示,已经和通用电气、飞利浦、小米、iRobot等合作开发这些功能。 但现在要面临的新挑战也是10年前所没有的,AI对于个人隐私和数据安全的威胁正在被重视。不管是新Alexa、Copilot还是多模态ChatGPT,在向个性化助理的方向进发时,将不可避免地触及这一问题。目前,新Alexa发布,亚马逊将利用用户与Alexa的语音交互来训练模型的消息已经在被讨论。 “谁赢得了个人代理,那就是一件大事。因为你将再也不会去搜索网站或去生产力网站,你再也不会去亚马逊(购物)。”在今年5月的一场活动上,比尔·盖茨如是预测。 问题是,究竟会是谁赢下这场战争呢?亦或是像上一代语音助手之战一样,轰轰烈烈之后没有赢家。
中秋“长鹅”启示:大厂如何用新意表达心意
作者|吴鸿键 腾讯还是会玩。 中秋节前,小红书、视频号里又出现了那只“长鹅”。本来对这种“节日整活”已经脱敏,但看到视频描述说“你们腾讯这么卷的吗”、“这个破视频我笑了5分钟”,还是没忍住点了进去。 视频里,几只“长鹅”在深圳腾讯滨海大厦楼下的运动场吊单杠、仰卧起坐,腹部显露着“腹肌”,走过的路人还会和“长鹅”来一场卷腹比拼。 评论区很欢乐,网友会转发视频,自嘲企鹅都有腹肌了,自己还没有。“卷”字也被解读出了更有活力的内涵,从人人喊打的“内卷”,变成了卷腹的“卷”,场面充满了健康和快乐的意味。 “长鹅”在社交媒体引发热议 截图来源:小红书、视频号 腾讯是25岁的“大厂”,日常出现在财经科技新闻里。但大众不会把它当作一个严肃拘谨的存在。相反,它还是那只憨态可掬的企鹅,而脱胎于魔改和谐音梗的“长鹅”,更让公司有了“少年气”。 而在愈发强调商业价值和社会价值并行的环境中,“长鹅”也总会和社会价值产生联动。 除了深圳,今年“长鹅”还“现身”千里之外的喀什。在夏马勒巴格镇中心小学,“长鹅”比整个足球场还要长。这个“未来运动场”是腾讯「智体双百」计划的一部分,“长鹅”希望助力孩子们进行足球运动,它传递着大公司的温度,以有活力的方式影响着大众。 腾讯未来运动场 图源:腾讯官方公众号 以小见大,“长鹅”的成功是许多因素共同作用的成果,「深响」试图探究一下三个问题: “长鹅”怎么做到年轻化? “长鹅”为公司的社会价值实践带来了哪些助益? “长鹅”融通了用户价值和社会价值,腾讯是怎么想的? 01 长鹅年轻化的“术”与“道” 社会学有个名为“后喻文化”的现象,讲的是年轻人引领消费方式,他们的喜好会影响非年轻群体的决策。同时,年轻群体的“终身价值”也要高于存量的非年轻客户。对于商业主体来说,失去年轻人,几乎等于失去未来。 凯迪拉克和宝马的往事,充分说明了品牌年轻化和业绩的关系。凯迪拉克在20世纪占有高份额,但随着顾客老去,凯迪拉克也陷入了“品牌老化”困境,拥有更年轻顾客的宝马后来居上。 业绩之外,作为积极践行社会责任的主体,一家能和年轻群体产生共鸣的企业,它的社会价值实践有更强的影响力。 创立于1973年的Patagonia以环保主义著称。在户外年轻化的浪潮中,Patagonia那些“反叛”的商业行为和“用商业拯救地球家园”的愿景,让它在众多品牌中脱颖而出。年轻受众喜欢Patagonia的产品,愿意参与到它的行动中。 各个行业的公司都有年轻化实践,他们要么换了Logo和代言人、参与时下的重要议题,要么用上年轻人喜欢的语言。这些都是常见的年轻化手段。 “长鹅”的诞生,其实就来自2016年时的内部谐音梗和草图。到2020年,团队决定让“长鹅”以更鬼畜的形象走出腾讯,理由是:“既然长鹅能传递快乐,为什么不继续呢?” “术”并不一定能保证成功。企业如果在年轻化上用力过猛,或者浮于表面,最后都可能适得其反。 “用力过猛”可以表现为舍弃旧的品牌心智。这么做新的心智未必能“立住”,而原来的基本盘可能会丢失。“浮于表面”指的是公司的新形象和实际行动没有统一起来。许多品牌均在年轻化上有过经验和教训。 从“长鹅”的成功中,我们可以捕捉到一些年轻化之“道”的痕迹。 第一,大公司的形象深入人心,更合适的做法是在已有基础上“再创造”。苹果公司的logo历经多次调整,但作为核心要素的“被咬了一口的苹果”从未改变。“长鹅”也是如此,腾讯巧妙地对一个深入人心的形象进行再创造,确保了认知的延续。 第二,让新形象从年轻群体中“自然生长”出来,而不是一味模仿。“长鹅”成长于内部的年轻氛围,重用“长鹅”,体现出腾讯愿意相信年轻人、向年轻人学习的姿态。用互联网行业的话来说,“长鹅”形象反映了腾讯的“用户思维”。 第三,年轻化的新形象应该有持续的诠释空间。腾讯的做法是将“长鹅”和时下的热门话题相结合,今年的快乐和运动主题,此前和“嫦娥之父”的联动,都是站在用户视角做的策划。 02 践行社会责任时的有效助力 今年,“长鹅”的“新意来自和腾讯的“智体双百”计划的结合。 将企业IP和公益项目相结合,是互联网行业普遍在探索的新路径。你大概率在支付宝的“蚂蚁森林”收集过能量,或在微信运动上“捐步数”。今年,微博在人人公益节推出活动IP“好柿仔”,联合一众公司一起完成好“柿”目标。 如此结合的好处在于,公益活动变得更有互动性,传播范围也更广了。在多元创意形式、技术进化和不同企业的跨界合作中,公益不再是一种偶发的“激情”,而是成为广大民众的“习惯”。 腾讯公司主要创始人、腾讯公益慈善基金会发起人兼荣誉理事长陈一丹曾提及,过去十几年,互联网公益的成功在于激发了广大民众的公益激情,而下一个十年的核心与关键,就在于要将这种突发的激情升华为持久的“理性公益”。 “理性公益”需要企业的积极投入,需要大众更了解那些遥远的需求。而“长鹅”是一个很好的连接者。 “智体双百”计划推出于2021年,联动了腾讯成长守护、腾讯游戏、腾讯SSV等多方力量,致力于在全国的县城和乡村修建“未来运动场”和“未来教室”,让孩子们接触编程、培养科技兴趣。 据「深响」了解,“未来运动场”和“未来教室”是腾讯在城乡深入调研后的结果。项目从各地的校长、老师、学生处了解痛点,既要考虑当地的师资和硬软件配置,也要让落地“产品”符合孩子的习惯。 就拿运动场来说,在体育不受学校重视、家长支持的环境里,项目组需要参与到体育教师的培训和“赛事曝光”,证明体育教育的重要性。为了鼓励孩子们上场踢球,项目组将游戏化思维融入“未来运动场”,把场地升级为联动了微信小程序,集赛事、游戏化运动为一体的“成长辅助平台”。 因为有了“未来运动场”,足球变得比游戏更有吸引力。孩子们不再总想着回家玩手机,而是活跃在足球场上,他们还有了共同奋斗的目标——“在即将举办的‘市长杯’上,和队友们一起踢到前三。” 作为连接者的“长鹅”,让“智体双百”计划的价值得到了放大。 一方面,“长鹅”推动着“智体双百”计划触达更多人,让城乡教育的状况被更多人看到。今年腾讯的月饼礼盒,同样以“长鹅·未来运动场”的设计主题,把“智体双百”计划的内涵用轻盈的方式传播出去。 另一方面,正是因为有“智体双百”计划,“腹肌长鹅”的形象和“快乐运动”的活动主题才能稳稳立住,而不仅仅停留在公司“整活”层次。 腾讯月饼礼盒中的长鹅·未来运动场 图源:腾讯官方公众号 03 融通社会价值和用户价值的新路径 融通了用户价值和社会价值的“长鹅”,对应着一种打通社会价值兑现的年轻化新路径。 BCG在《收获社会和商业价值双赢》的报告中指出:目前企业处于“临界点”,除了追求出色业绩,优秀企业还可以帮助社会应对挑战,由此实现企业的可持续发展。 这其中的逻辑是:数字技术、全球化和资本流动重塑了商业和社会。当下,如果仅仅追求财务增长,企业可能会失去韧性,而一个有社会责任感的企业,将产生积极社会影响,开启通往成功的新路途。 不过,许多企业在投入社会价值的过程中常会遇到困惑,比如公众不了解公司的付出,公益实践没有激起更多“回响”,也有一部分声音仍把ESG视为一种“额外的投入”。 腾讯“长鹅”带来的启示是,公司可以借一个年轻化的形象兼顾用户喜好和社会价值实践。逻辑上,“长鹅”形成了“用户关注-用户参与-社会价值放大-激发更多用户关注和参与”的正循环。在行业的其他优秀案例中(如支付宝的蚂蚁森林、快手和农产地的联动),我们同样能看到这类路径的可行性和意义。 这个逻辑的出发点是:在腾讯的设想中,用户价值和社会价值是共生发展的。· 今年,腾讯把未来运动场和月饼盒做了融合,用户吃完月饼还能用月饼盒玩类似于“桌面冰球”的小游戏。用户收获了有趣的中秋过节体验,“智体双百”的项目内涵也得到了有效传递。 类似的逻辑在此前的腾讯“甘蔗渣”月饼盒上也有显著的体现。2021年,腾讯的月饼礼盒包装“简约而不简单”,虽然看上去朴素,但月饼盒的实际上是用工厂剩下的甘蔗做成的。整个过程用的是纯天然材料,不含油墨、塑料,也不产生废水。 不仅如此,月饼盒生产过程中被裁掉的“毛边”,还会变成超市的鸡蛋托。腾讯还贴心地为用户推广月饼盒的“延伸用法”——月饼吃完后,“甘蔗渣”月饼盒可以拿来种绿植、放孩子的玩具。一个传统节日的必需品,就这样变成了一件从生产到使用全过程都具备趣味性和环保属性的创新产品。 放着绿植的“甘蔗渣”月饼盒 图源:腾讯官方公众号 无论是“未来运动场”月饼盒、“甘蔗渣”月饼盒,还是此前的火腿月饼、“长城砖”月饼盒,它们都用一种足够轻盈却又富有成效的方式兼顾了用户价值和社会价值。腾讯很好地利用了“中秋”这个媒介,把年轻化的巧思,和扎实的社会责任实践相融合,让它们相辅相成,释放可观的影响力。 从90年代的“触网”,到如今互联网行业的蓬勃,一众互联网公司经历了浩浩荡荡的发展热潮。如今,以腾讯为代表的互联网企业必须回答:接下来,公司要用什么方式焕发年轻活力,拥抱新的发展? “长鹅”是这一思路的缩影,它符合大公司的发展需求、行业承担更多社会责任的趋势,以及大众对于一家好的科技企业的期待和参与社会价值实践的热情。
再战搜索,字节胜算几何?
延迟满足,是字节跳动创始人张一鸣最广为人知的经商哲学。对于这个概念,他是如此理解的: “延迟满足程度高,你就会有更多耐心、更高标准、更大目标,做事更专注从容,看淡一时得失,对短暂的失败不会恐惧。” 许是张一鸣这一套哲学早已融入字节的企业文化、经营理念之中,过去这些年字节在某些赛道总是屡败屡战,绝不会因为一时的挫折而放弃。音乐、社交、外卖如此,搜索也是如此。 近日,一款名叫闪电搜索的应用悄然上线各大应用商店,开发方写着北京抖音信息服务有限公司((即原北京字节跳动科技有限公司))的名字。在上一款独立APP悟空搜索改名小悟空之后,闪电搜索拿过接力棒,为字节延续搜索赛道的火种。 和之前的几款独立搜索应用相比,闪电搜索有什么过人之处?能不能挣得不一样的结局? 挥别“三驾马车”时代,闪电搜索接力再战搜索赛场 字节和搜索结缘来得很早。其首个爆款产品今日头条就借鉴了不少搜索引擎的设计逻辑,字节早期的技术团队里也不乏来自百度、谷歌的技术大佬。 2013年字节将总部搬进盈都大厦后做的第一件事,就是钻研推荐算法,高薪挖来百度搜索副总监杨震原和一大批机器学习算法工程师。不久后张一鸣更是亲自下场在微博发布招聘信息招揽高级算法工程师,从谷歌、微软和Facebook等硅谷大厂的技术团队里抢来不少人才。 时至今日,字节跳动官方释出的搜索岗位仍占比颇高,官方对这项业务的定义是“构建搜索的另一种可能”,目标是打造一个用户体验更理想的通用搜索引擎。上到集团的扛鼎之作抖音,下到西瓜视频、番茄小说、懂车帝等垂直应用,都没有脱离搜索引擎的产品设计逻辑。 字节对独立搜索业务的探索则在去年达到巅峰,进入了抖音搜索牵头、头条搜索跟随、悟空搜索打辅助的“三驾马车”时代。其中,抖音在2021年正式上线搜索独立入口,头条搜索在稍早的时候独立上线,今日头条团队孵化的悟空问答则改头换面成悟空搜索于2022年2月正式上线。 抖音搜索最开始立足于短视频生态,因为彼时抖音的图文内容生态尚未成熟,后来才融入更多图文内容。头条搜索和悟空搜索则不乏相似之处,只不过后者功能更加多样,增加了视频、小说等板块,更接近百度等传统搜索引擎的模式。 不过后来的故事大家都很清楚了,“三驾马车”并没有帮助字节征服搜索市场。头条搜索极速版仍在运营,但和今日头条主站功能高度重合;悟空搜索在今年9月更名小悟空,转型为AI工具库。 抖音仍在坚守,不过站内搜索入口要承载的工作实在太多了:短视频、图文、电商、本地生活都需要从搜索入口获取流量,早已分身不暇。字节需要在搜索领域扶持下一个排头兵,最终还是把宝压在今日头条团队的身上。 初步体验可以发现,闪电搜索的内容来自今日头条创作者生态,用户可以搜到头条号所有图文、视频内容。APP的功能设计也和今日头条有许多相似之处,包括搜索界面智能推荐、信息流展示方式,以及顶部的资讯、视频、小视频、图片、问答、微头条、百科等栏目分类。 两者最大的不同,在于闪电搜索首页采用双列信息流、图文及短视频混合展示形式。此外,闪电搜索的页面也比今日头条要简洁一些,首页顶部只有搜索一个入口,广告含量暂时也不高。 (左:闪电搜索,右:今日头条) 在拉新策略上,闪电搜索并没有什么新意,还是主打做任务赚金币的老套路。用户可以通过签到、做任务(看内容、互动等)每日赚取相应数量的金币或现金收益,新用户还能拿到数额不等的红包。对比百度APP,类似的设计几乎一个不少。如果奖金幅度没有明显差距,闪电搜索能否借这一套玩法快速拉新裂变尚未可知。 (左:闪电搜索,右:百度APP) 无论如何,字节再战搜索赛场的决心是毋庸置疑的,也已经打出自己的王牌。闪电搜索成功与否,评判标准始终掌握在字节自己手里。 抢流量、抢广告金主,闪电搜索的头号使命 字节对搜索念念不忘,原因有很多,最重要的肯定是争夺更多优质流量及广告客户。 尽管被短视频、图文社交应用抢走了不少用户,搜索引擎的使用率仍相当可观。CNNIC的统计显示,国内搜索引擎总用户规模超过8.2亿,且最近两年有反弹迹象。其中,2019-2021年搜索引擎用户占网民总数的比例一度实现三连涨,重返80%大关。 在字节之外,腾讯这两年对搜索业务也是越来越上心,微信搜一搜的日活也屡创新高。在互联网世界,没有一家大厂可以抵挡搜索的诱惑,毕竟流量是最具吸引力的筹码、有流量就能变现。 数据显示,2020年搜索广告收入占互联网广告总收入的比例再超10%,和用户使用率的复苏轨迹完美重合,并在之后两年保持稳定。目前,搜索是仅次于电商、短视频的第三大互联网广告市场。 事实上,广告主对搜索场域的含金量一直十分肯定,这一点从搜索霸主百度历年的核心广告收入也能窥见一二。财报显示,百度二季度核心收入264亿元,同比增长14%,核心经营利润也同比增长27%至65.1亿元。其中,在线营销收入为211亿元,同比、环比分别增长15.4%和17.3%。 (图片来自百度官网) 正如上文所说,闪电搜索接入的是今日头条创作者、内容资源——而今日头条恰好是字节最依赖广告收入的产品。 字节公布的财务信息显示,抖音这几年的营收占比越来越高,今日头条从2020年的20%一路缩水,还曾被爆收入停止增长。今日头条遭遇挑战,除了受短视频崛起、图文应用流量下滑的客观因素影响外,同类应用太多带来的同质化问题,以及良莠不齐的创作者、内容生态也要背锅。 传统的图文信息流广告风光不再,今日头条需要另寻出路,切入搜索赛道或许能稍稍缓解当前窘境。而今日头条生态内积累的海量用户和优质内容,也具备了发展搜索业务的基础。 从一开始,今日头条的产品设计逻辑就在参考搜索引擎。这几年迭代的无数版本中,搜索入口始终被放置在首页顶部雷打不动。在信息流图文应用最火那几年,各大平台将去中心化演绎到极致,完全以用户喜好为标准推送内容。搜索则给平台更多主动权,可以通过算法机制筛选优质内容、匹配相应的广告,提高触达率。 从另一个角度讲,如果闪电搜索闯出名堂,日后打通抖音内容库、实现流量内循环也是可以预期的。 抖音在2021年便全面上线图文功能,并通过“抖音图文来了”等扶持计划鼓励创作者生产图文内容。如今闪电搜索也是短视频、图文两手抓,兼容抖音完全不成问题。 当然了,国内搜索市场一超多强格局已经多年没有变化,格局异常稳定。闪电搜索想后来居上、站稳脚跟,还要付出更多努力。 百度地位难以撼动,闪电搜索要做字节生态枢纽? 在中国做搜索,无论如何都绕不开百度这座大山。闪电搜索现在仍在起步阶段,没有叫板百度的底气和实力。但要想在搜索这条路上走下去,难免要和这位霸主正面对垒。 可惜的是,先发优势让百度牢牢掌控用户心智,国内一众同行全都望尘莫及。CTR发布的《2023中国搜索引擎行业研究报告》指出,截止今年4月末,百度搜索PC+移动端渗透率高达96.3%遥遥领先,360搜索、搜狗搜索位居二、三位。这个席位已经多年没有变化,以至于各大机构都鲜少更新榜单。 今年4月,随着AI大模型的走红,一潭死水般的搜索赛道似乎终于泛起了一丝波澜。美国数据机构Statcounter曾发布报告称微软旗下的Bing桌面搜索份额增长至37.4%,超越了百度的27.01%,成为中国桌面搜索应用领域的No.1。 但是这个结果很快便遭到百度官方的辟谣,另有消息称百度在中文搜索引擎市场的流量长期保持在Bing的四倍左右。此外,也有业内人士质疑Statcounter一直存在样本数量不足、分析结果失真的老问题。而在其他权威机构的报告里,百度市场份额第一的位置从未受到挑战。 Statcounter的报告很难得到外界认可,字节想在中文互联网搜索领域撼动百度的老大地位也相当困难。不过我们可以换个思路:搜索做好了不止能卖广告,搜索入口还可以充当流量分配枢纽和生态连接器。 抖音、今日头条等应用生态兼容性不高、很难为其他应用引流,和用户使用习惯有很大关系。搜索引擎则是工具属性最强的应用之一,用户会主动搜索有用的信息,也为平台打开了流量再分配的方便之门。 字节旗下抖音、今日头条、西瓜视频的业务版图已经遍布中/短视频、电商、本地生活、图文社交等各个领域,目前还在继续落子AI大模型赛道,需要一个强大的中枢——正如百度靠搜索连接长短视频、O2O、电商服务,微信积极引导用户通过搜一搜触达视频号、直播间、公众号一样。 虽说百度糯米、百度电商等业务不算太成功,但搜索连接电商、本地生活服务的模式是值得肯定的。在2021年的首届抖音电商生态大会上,抖音电商高层就提到过搜索入口的价值。去年下半年发力搭建货架电商之后,抖音电商的经营模式也更接近传统电商平台,在算法推荐之外必须搭建好搜索系统。 更重要的是,在抖音之外今日头条、西瓜视频等产品也在深耕电商业务,而它们还缺乏抖音搜索的流量。闪电搜索做好了,或许就能打通抖音、今日头条等字节系APP的电商系统,做好流量内循环。 AI大模型更不用说,搜索是面向C端用户最佳落地场景。做好一款独立搜索应用,能为字节继续押宝大模型打好基础。 目前,字节大模型业务的着力点主要放在B端,6月底火山引擎发布了大模型服务平台火山方舟供企业调用,8月发布了内测阶段的多模态大模型BuboGPT,具备图像、音频、文本推理和多模态理解能力。而在C端,AI对话产豆包是字节目前亮出的唯一武器,显然还不足以满足其野心。 总而言之,在闪电搜索身上,字节还能挖掘许多可能性,其价值也绝不局限于搜索本身。再战搜索,字节也肯定不会轻易退缩。
亚马逊的流媒体计划“杀疯了”?
作者 | Bluesea Research 编译 | 华尔街大事件 亚马逊(NASDAQ:AMZN)最近宣布将于2024 年初为 Prime Video推出有限广告,寻求无广告选项的会员每月必须额外支付 2.99 美元。包括奈飞和迪士尼在内的大多数流媒体播放器也提高了订阅计划。亚马逊的这一举措应该有助于该公司增加订阅收入并提高广告收入增长率。AWS也取得了一些进展,随着美国经济形势的改善和新的人工智能工具的推出,我们可以看到其增长轨迹的改善。 亚马逊由于其 Prime 会员的高续订率而处于有利地位。该公司2022 年在视频流媒体上的支出为 166 亿美元,高于 2021 年的 130 亿美元。亚马逊广告支持的流媒体计划应有助于进一步增加流媒体预算。看到亚马逊将在未来几年中排挤其他流失率较高的流媒体播放器。亚马逊的这一举措是对竞争对手的重大警告。 订阅业务和视频流的增长改善了该股的看涨理由。即使按 15% 的同比收入增长率计算,到 2030 年订阅业务的年化收入也将达到 1000 亿美元。这将改善公司提供的产品和服务的长期护城河。目前,该股市盈率低于2.5,低于过去10年的历史平均水平。随着未来几年订阅和广告业务收入份额的增加,亚马逊具有强大的上升潜力。 最近的广告支持的 Prime Video 流媒体计划应该有助于亚马逊改善订阅和广告领域的增长轨迹。亚马逊拥有超过 2 亿的 Prime 会员群。即使这些会员中有 50% 选择每月额外支付 2.99 美元的无广告选项,订阅细分市场的年收入也会增加近 40 亿美元。这超过了订阅业务当前收入率的 10%。我们还可以看到 Prime Video 未来的价格上涨,这将改善订阅业务的增长轨迹。 订阅服务和广告业务的年化收入均接近400亿美元。过去几个季度,订阅业务的平均收入增长率为 15%,而广告业务的收入增长率为 25%。 如果亚马逊的订阅业务能够实现15%的平均增长率,那么到2030年年化收入将达到1000亿美元。这也将有助于该公司在流媒体服务上投入更多资金,从而在竞争中获得优势。 2022 年,亚马逊在流媒体服务上花费了 166 亿美元。2022 年订阅总收入为 350 亿美元。因此,亚马逊将超过 45% 的订阅收入花费在其流媒体平台上。如上所述,我们可以看到到 2030 年,亚马逊的年化订阅收入将达到 1000 亿美元。如果该公司将其中 40% 用于流媒体,那么到本世纪末,流媒体预算将达到 400 亿美元。这可能是该行业所有参与者中最高的流媒体预算。 同时,亚马逊的Prime会员拥有非常忠诚的基础,长期会员的续约率超过95%。小幅价格上涨不太可能导致 Prime 会员的流失率增加。 另一方面,其他流媒体播放器的流失率非常高。据 Antenna 称,苹果TV+ 等一些流媒体播放器的月流失率超过了长期 Prime会员的年流失率。 许多用户在其流媒体服务上狂看热门节目,然后取消会员资格。这会导致更高的流失率。它还迫使流媒体服务投入巨资,以制作更多原创节目来留住客户。最近的价格上涨将加剧这一趋势,因为客户将对他们长期保留的流媒体服务更加谨慎。 亚马逊凭借 Prime 会员生态系统拥有巨大优势。这使得公司可以添加新服务,而不必在客户获取上投入大量资金。 许多会员会选择 Prime Video 上免费的广告支持的流媒体选项。这应该会提高亚马逊的广告增长率。过去几年,亚马逊已经能够打破Meta和谷歌在数字广告领域的双龙头地位。亚马逊在广告领域的年化收入为 400 亿美元,平均同比收入率为 25%。由于其电子商务平台,它拥有非常好的广告定位系统。与 Meta、Google 或 TikTok 等其他平台相比,大多数使用亚马逊的客户都有很高的购买意愿。这使得广告商能够为其广告投放获得良好的投资回报。 亚马逊很可能会在 Prime Video 上建立一个非常强大的广告平台。应该指出的是,YouTube 等其他主要平台的大部分收入也来自广告,而不是付费的无广告订阅选项。过去几个季度,亚马逊报告广告业务收入同比增长 20% 至 30%。Prime Video 广告应该会成为广告总量增长的长期推动力,我们应该会看到未来几个季度的增长轨迹有所上升。 最近一个季度,亚马逊公布的收入基础为 1,340 亿美元。订阅和广告业务季度累计收入为200亿美元。因此,这两个部门的收入份额为15%。这两个细分市场的同比收入增速均高于其他细分市场。这应该会导致这两个细分市场的收入份额进一步增加。预计到 2030 年,广告和订阅业务的收入份额将增至 25% 以上,这将对股票的估值倍数产生积极影响。 亚马逊目前的交易价格不到其 PS 比率的 2.5 倍。这明显低于10年平均水平。 亚马逊的整体收入增长已经放缓,由于收入基础庞大,未来的增长率可能会温和。然而,我们可以看到订阅和广告等关键领域的同比收入强劲增长。随着美国经济状况的改善以及云服务推出新的人工智能工具,即使是 AWS 也应该会看到一些加速增长。 亚马逊将在 Prime Video 上推出广告,希望获得无广告选项的会员必须每月额外支付 2.99 美元。这是亚马逊的一项很好的举措,因为所有其他流媒体播放器也在提高价格。该公司的订阅和广告收入应该会有所增加。由于整个生态系统相当强大,这一举措不太可能导致 Prime 会员的流失率增加。 即使收入同比增长 15%,到 2030 年,订阅业务的年化收入也可能达到 1000 亿美元。更高的订阅收入将使亚马逊能够增加对流媒体的投资,并且还可以挤出其他收入更高的竞争对手。流失率和较低的流媒体预算。这一举措对该股来说是一个巨大的利好。与历史平均水平相比,亚马逊股票的交易价格处于合理水平,如果新举措成功,我们可以看到良好的上涨潜力。
星巴克在中国耗资 15 亿打造的超级工厂,将改变你在喝的咖啡
工作日,大脑停滞,喝杯美式。上班瞌睡,来杯冷萃。 休息日,一壶手冲是慵懒午后的伴侣。在一杯创意特调中,像钻研美食般品尝咖啡。 咖啡成为越来越多人的生活习惯,无论你是匆忙的上班族,还是热爱生活的文艺青年,对于一杯香气馥郁、层次丰富、口感醇厚的咖啡,或许都很难有抵抗力。 不过能在不同状态下都能满足的咖啡厅不多,在瑞幸 Manner 这些门店更适合即取即走,很难坐下来细细品尝。而在一些小众精品咖啡店,如果拿出一台笔记本办公,又会感觉和这里的氛围格格不入。 对我来说,星巴克是为数不多能同时满足我在两个状态切换的需求。我可以很放心在这里赶稿办公,也会在周末闲暇到甄选店品尝咖啡,比如每年夏天的桶酿威士忌冷萃。 星巴克这些体验背后需要一个庞大的系统支持,最近星巴克中国咖啡创新产业园正式在江苏昆山落成投产,这个投资 15 亿、占地 80000 平方米的产业园,让中国成为星巴克首个实现「从生豆到咖啡」全产业链控制的市场。 我们也第一时间探访了星巴克这个产业园,并发现了一些有趣的细节,而这些细节正在对你未来喝到的星巴克咖啡产生影响。 你未来喝的星巴克,可能都来自这里 一杯咖啡背后,从咖啡豆的种植、分拣,到烘焙、研磨、萃取,这些过程其实都离不开各种硬件和软件的结合,咖啡豆的水分和色泽、烘焙的温度和火候,都能精确测量和计算。 在星巴克的创新产业园里,给我留下最深刻印象的,就是咖啡生产背后的科技。这里是星巴克在海外市场最大的烘焙工厂咖啡的烘焙,既是艺术,也是科学。 根据咖啡需要焙烘温度、时间及烘焙程度,星巴克制定了一个「咖啡烘焙曲线」,对应我们常见的三种烘焙程度:浅雅烘焙、中烘、深烘。 为了保证咖啡豆受热均匀,星巴克的烘焙室设计采用了热风管道,确保开始烘焙时的咖啡豆都保持同样的温度。这也是星巴克持全球 36000 家门店保持口味能基本保持一致的秘密之一。 ▲星巴克烘焙工厂内的烘焙设施. 咖啡豆烘焙完成后,下一步便是打包运输,这个看似简单的流程却至关重要。如何避免咖啡豆风味流失,快速地运输到各地门店,都是对我们日常在星巴克的体验有着显著影响。 星巴克有一项叫做「风味锁」的保质技术,通过一个单向通气阀,配合冲入的氮气在在密封状态下,咖啡可以保持风味的时间能达到 34 个星期。 咖啡装袋出厂前还要通过色度仪和气相色谱仪检验烘焙和香气指标,确保到达门店后也能以新鲜的风味被品尝。 同时产业园的整合物流中心采用了一个高达 34 米的立体仓储系统,在工厂中望上去十分壮观。 这个立体仓储系统有多达 3 万多仓位,通过管道运输自动化处理超过 90% 的货物,它的空间利用效率,比星巴克传统仓库提高了 6 倍。 这里也将作为星巴克中国的物流枢纽,将烘焙好的咖啡豆运往全国 200 多个城市、6500 家门店。你平时在星巴克喝的咖啡,未来有很大部分都会来自这里。 除了这些工业化的流程,这个产业园和传统生产工厂最大的不同,是延续了星巴克的核心「第三空间」理念。 在产业园里,星巴克还建造了首个以咖啡为主题的沉浸式体验中心,以咖啡主题来打造工业旅游体验,通过 10 多个精心设计的体验点,近距离参考咖啡烘焙生产环节。 除了生产流程外,你还会发现不少有趣的彩蛋。 一个必须打卡的地方,是一个由 1440 个马克杯组成的 LOGO 墙,需要用手机拍摄才看清这个里面的星巴克 LOGO,可以预料这里会成为一个网红打卡点。 产业园内还有一个与青花瓷工艺结合的星巴克 LOGO,青花瓷上的花纹是手绘的咖啡植物,将中华文化和这个美国咖啡品牌做了很巧妙的融合。 而在沉浸式体验室,随着环绕的曲面屏上随机播放着中国云南、哥斯达黎加、卢旺达等咖啡原产地的的影像,空气中也会释放咖啡香味,4D 沉浸体验咖啡在原产地的环境。 还有一个不得不提的,是你还没进入园区就会看到的巨型的咖啡豆壁画,这也是全球最大的单体喷绘作品之一。 其实我这次也是提前为大家体验了一番,未来普通消费者也能到这里进行体验。星巴克告诉我们,不久的将来,少数金星会员将有机会提前预约来实地感受。 最绿的星巴克 同时这里也是星巴克全球最绿色节能的生产基地,隐藏在园区很多细节里,比如用回收陶器制成的红砖,用回收材料制成地毯和各种周边的产品。 园区内 20% 的能源供应,来自一块超过 26000 平方米太阳能光伏板。星巴克表示园区预计每年最高可实现 90% 的废弃物循环利用。 至于在生产环节,星巴克通过一个垂直打包机也实现了包装材料的零废弃。与星巴克其他咖啡烘焙工厂相比,这座烘焙厂减少了 30% 的能源消耗和碳排放。 星巴克的「绿色」很多人在门店也体验过。星巴克 2021 年就上海开了全球首家环保实验店「向绿工坊」,预计到 2025 年中国将有 2500 家「绿色门店」。 这些门店在探索一种绿色零售新模式,除了装修材料全面采用回收及环保建材。还会用电子小票替代纸质小票,用平板彩蛋替代纸质菜单,连咖啡师穿的围裙都是由回收材料制成。 最近在海外,星巴克也正尝试让消耗 60 亿个的一次性杯子「消失」。 如果你在加州纳帕县和附近城市的 12 家星巴克门店买咖啡,你会发现所有的一次性杯子都不见了。 在店里,你可以选择用陶瓷杯;想打包,咖啡师就会给你用上可回收并循环再用的杯子,你也不必支付任何定金。 这就是星巴克「借个杯子(Borrow A Cup)」项目的最新测试模型。 就和之前测试一样,星巴克当然希望拿走了可循环再用的杯子的客户,在下次来买咖啡时会把杯子带回来,然后投入智能回收机里。接着,杯子就会被清洗并回到使用链上。 为了鼓励用户将杯子并拿回来回收,星巴克提供了一个「奖励」,是换来参加星巴克礼品卡抽奖的机会。 从生产环节到消费场景中的这些「绿色」变化,可以看到星巴克除了自身产业链的革新,也在尝试培养用户可持续的消费习惯。很难说这样的可持续理念能影响多少人,但至少给环境带来了一些变得更好的可能。 星巴克的快与慢 从 1999 年星巴克入华至今,中国咖啡市场和用户的消费习惯已经有很大变化。 ▲星巴克创始人霍华德·舒尔茨早期来华影像资料 中国本土咖啡品牌这几年的扩张异常迅速,在十年前,你无法想象中国首家门店数量破万的咖啡品牌,居然是成立只有五年的国产咖啡瑞幸,另外一家与瑞幸颇有渊源的库迪咖啡,用半年多就开了 1700 家店。 ▲ 前段时间刷屏的瑞幸酱香拿铁. 除了开店速度快,这些品牌推出新品的速度同样惊人,比如瑞幸可以推出新品 100 种以上,每周都有两款新品上架。 进入中国 20 多年,星巴克将咖啡消费习惯逐渐培养起来,同时也培育了一个更加成熟的市场,以及更多的对手。 面对前所未有的竞争局面,星巴克在中国是不是显得有点慢了,他们要怎么应对这个市场的压力呢? 我将这个问题抛给了星巴克全球首席执行官纳思瀚 (Laxman Narasimhan),面对国内竞争越来越卷的咖啡市场,纳思瀚却认为仍然充满机会。 中国当前的年人均咖啡消费量是 12 杯,其中上海会更高一些,但这个数据,日本是 200 杯,美国是 380 杯。我们欢迎竞争,因为竞争能扩大整个咖啡的受众,让更多人认识咖啡,吸引传统上喝茶的人群也爱上咖啡。 创新产业园其实看出,星巴克更多追求全产业链标准化的同时,以咖啡媒介去做人的联结,第三空间是一个很好的载体。 纳思瀚认为,星巴克应该代表着人与人之间的联结。「当你看到顾客来到我们的门店,他们也是在寻找与他人,或与自己的联系,而咖啡正是实现这一目标的绝佳媒介。」 以当你看看我们周围的世界,你会发现孤独无处不在。我们所做的就是克服这个问题,希望能建立起人与人之间联结的桥梁,而这是跨越文化的。每一杯咖啡,每一次对话,每一个社区,我们都在孕育人文联结的无限可能。 其实爱范儿也开了两家咖啡厅,我门的初衷也并非要钻研咖啡。而是希望打造一个连接人与人、人与生活方式的未来社区,能让志趣相投的灵魂相识相知,源源不断迸发出新鲜的创意和灵感。 很多时候我们喝咖啡的时候,喝的并不是咖啡。
姚期智领衔提出大模型“思维”框架,逻辑推理正确率达98%
原标题:姚期智领衔提出大模型“思维”框架!逻辑推理正确率达98%,思考方式更像人类了 图灵奖得主姚期智领衔的首篇大语言模型论文来了! 一出手,瞄准的就是“让大模型像人一样思考”这个方向—— 不仅要让大模型一步步推理,还要让它们学会“步步为营”,记住推理中间的所有正确过程。 具体来说,这篇新论文提出了一种叫做累积推理(Cumulative Reasoning)的新方法,显著提高了大模型搞复杂推理的能力。 要知道,大模型基于思维链等,可以进行问题推理,但面对“要拐好几个弯”的问题,还是容易出错。 累积推理正是在此基础上,加入了一个“验证者”,及时判断对错。由此模型的思考框架也从链状和树状,变成了更复杂的“有向无环图”。 这样一来,大模型不仅解题思路更清晰,还生出了一手“玩牌”的技巧: 在代数和几何数论等数学难题上,大模型的相对准确率提升了42%;玩24点,成功率更是飙升到98%。 据清华大学交叉信息研究院介绍,共同一作张伊凡解释了这篇论文的出发点: 卡尼曼认为人类的认知处理过程包括两个系统:“系统1”是快速、本能和情感化的,“系统2”是缓慢、深思熟虑、合逻辑的。 目前,大语言模型的表现与“系统1”更为接近,这也或许是它不擅长应对复杂任务的原因。 从这个角度出发设计的累积推理,效果比思维链(CoT)和思维树(ToT)更好。 那么,这种新方法究竟长啥样?我们一起展开看看。 01 突破思维链&树“瓶颈” 累积推理的核心,在于改进了大模型思维过程的“形状”。 具体来说,这个方法用到了3个大语言模型: 提议者 (Proposer):不断提出新命题,即基于当前思维上下文,建议下一步是什么。 验证者 (Verifier):核查提议者的命题准确性,如果正确就将它添加到思维上下文中。 报告者 (Reporter):判断是否已经能得到最终解决方案,来确定是否结束推理过程。 推理过程中,“提议者”先给出提案,“验证者”负责评估,“报告者”决定是否要敲定答案、终止思考过程。 △CR推理示例 有点像是团队项目里的三类角色:小组成员先头脑风暴出各种idea,指导老师“把关”看哪个idea可行,组长决策什么时候完成项目。 所以,这种方法究竟是怎么改变大模型思维“形状”的? 要想理解这一点,还得先从大模型思维加强方法“鼻祖”思维链(Chain of Thought,CoT)说起。 这个方法在2022年1月由OpenAI科学家Jason Wei等人提出,核心在于给数据集中的输入加一段“逐步推理”文字,激发出大模型的思考能力。 △选自GSM8K数据集 基于思维链原理,谷歌也快速跟进了一个“思维链PLUS版”,即CoT-SC,主要是进行多次思维链过程,并对答案进行多数投票(majority vote)选出最佳答案,进一步提升推理准确率。 但无论思维链还是CoT-SC,都忽略了一个问题:题目不止有一种解法,人类做题更是如此。 因此,随后又出现了一种名叫思维树(Tree of Thought,ToT)的新研究。 这是一种树状检索方案,允许模型尝试多种不同的推理思路,并自我评估、选择下一步行动方案,必要时也可以回溯选择。 从方法中可以看出,思维树比思维链更进一步,让大模型思维“更活跃”了。 这也是为什么玩24点时,思维链加成的GPT-4成功率只有4%,但思维树成功率却飙升到74%。 BUT无论思维链、CoT-SC还是思维树,都有一个共同的局限性: 它们都没有设置思维过程中间结果的储存位置。 毕竟不是所有的思维过程都能做成链或者树,人类想东西的方式往往还要更复杂。 这次的累积推理新框架,在设计上就突破了这一点—— 大模型的整体思维过程不一定是链或树,还可以是一个有向无环图(DAG)!(嗯,有神经突触内味了) △图中的边都有方向,并且不存在任何循环路径;每个有向边是一个推导步骤 这也就意味着,它可以将所有历史上正确的推理结果存储于内存中,以便在当前搜索分支中探索。(相比之下,思维树并不会存储来自其它分支的信息) 但累积推理也能和思维链无缝切换——只要将“验证者”去掉,就是一个标准的思维链模式。 基于这种方法设计的累积推理,在各种方法上都取得了不错的效果。 02 做数学和搞逻辑推理都在行 研究人员选择了FOLIO wiki和AutoTNLI、24点游戏、MATH数据集,来对累积推理进行“测试”。 提议者、验证者、报告者在每次实验中使用相同的大语言模型,用不同的prompt来设定角色。 这里用作实验的有GPT-3.5-turbo、GPT-4、LLaMA-13B、LLaMA-65B这些基础模型。 值得一提的是,理想情况下应该使用相关推导任务数据专门预训练模型、“验证者”也应加入正规的数学证明器、命题逻辑求解器模块等。 1、逻辑推理能力 FOLIO是一阶逻辑推理数据集,问题的标签可以是“true”、“False”、“Unknown”;AutoTNLI是高阶逻辑推理数据集。 在FOLIO wiki数据集上,与直接输出结果(Direct)、思维链(CoT)、进阶版思维链(CoT-SC)方法相比,累积推理(CR)表现总是最优。 在删除数据集中有问题的实例(比如答案不正确)后,使用CR方法的GPT-4推理准确率达到了98.04%,并且有最小1.96%的错误率。 再来看AutoTNLI数据集上的表现: 与CoT方法相比,CR显著提高了LLaMA-13B、LLaMA-65B的性能。 在LLaMA-65B模型上,CR相较于CoT的改进达到了9.3%。 2、玩24点游戏能力 ToT最初论文中用到的是24点游戏,所以这里研究人员就用此数据集来做CR和ToT的比较。 ToT使用固定宽度和深度的搜索树,CR允许大模型自主确定搜索深度。 研究人员在实验中发现,在24点的上下文中,CR算法和ToT算法非常相似。不同点在于,CR中算法每次迭代最多产生一个新的状态,而ToT在每次迭代中会产生许多候选状态,并过滤、保留一部分状态。 通俗来讲,ToT没有上面提到的CR有的“验证者”,不能判断状态(a、b、c)正误,因此ToT比CR会探索更多无效状态。 最终CR方法的正确率甚至能达到98%(ToT为74%),且平均访问状态数量要比ToT少很多。 也就是说CR不仅有更高的搜索正确率,也有更高的搜索效率。 3、数学能力 MATH数据集包含了大量数学推理题目,包含代数、几何、数论等,题目难度分为五级。 用CR方法,模型可以将题目分步骤拆解成能较好完成的子问题,自问自答,直到产生答案。 实验结果表明,CR在两种不同的实验设定下,正确率均超出当前已有方法,总体正确率可达58%,并在Level 5的难题中实现了42%的相对准确率提升,拿下了GPT-4模型下的新SOTA。 清华叉院姚期智、袁洋领衔研究 这篇论文来自清华交叉信息院姚期智和袁洋领衔的AI for Math课题组。 论文共同第一作者为交叉信息院2021级博士生张伊凡、杨景钦; 指导老师及共同通讯作者为袁洋助理教授、姚期智院士。 张伊凡 张伊凡2021年本科毕业于于北京大学元培学院,现师从袁洋助理教授,主要研究方向为基础模型(大语言模型)的理论和算法、自监督学习、可信人工智能。 杨景钦 杨景钦2021年于清华大学交叉信息研究院获学士学位,现师从袁洋助理教授攻读博士学位。主要研究方向有大语言模型、自监督学习、智能医疗等。 袁洋 袁洋是清华大学交叉信息学院助理教授。2012年毕业于北京大学计算机系;2018年获美国康奈尔大学计算机博士学位;2018-2019年前往麻省理工学院大数据科学学院做博士后。 他的主要研究方向是智能医疗、AI基础理论、应用范畴论等。 姚期智 姚期智是中国科学院院士、清华大学交叉信息研究院院长;同时也是“图灵奖”创立以来首位获奖的亚裔学者、迄今为止获此殊荣的唯一华人计算机科学家。 姚期智教授2004年从普林斯顿辞去终身教职回到清华任教;2005年为清华本科生创立了计算机科学实验班“姚班”;2011年创建“清华量子信息中心”与“交叉信息研究院”;2019年再为清华本科生创立了人工智能学堂班,简称“智班”。 如今,他领导的清华大学交叉信息研究院早已声名远播,姚班、智班都隶属交叉信息院。 姚期智教授研究方向有算法、密码学、量子计算等,是这方面的国际先驱和权威。最近,他现身2023世界人工智能大会,所领导的上海期智研究院目前正在研究“具身通用人工智能”。
ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6
原标题:ChatGPT多模态解禁,网友玩疯!拍图即生代码,古卷手稿一眼识别,图表总结超6 这周三,OpenAI刚刚宣布解禁ChatGPT多模态能力。 如今,一上线,网友们瞬间玩疯了。 接下来,一起看看,ChatGPT的识图能力,究竟有多强? 01 拍照传图,即生代码 一位网友录制了一段上传开会时的一张白板图,然后让ChatGPT写出代码。 还有,你可以上传一张手绘的草稿图,然后要求ChatGPT在HTML创建网页。 嗖嗖嗖,代码分分钟都出来了。 这简直就是,今年GPT-4刚刚发布时,Greg Brockman所展示的多模态能力。 再比如,把你的to do list本子拍一张照片。 然后让GPT-4做一个Python Tkinter GUI,然后就实现了... 02 古卷手稿,一眼转译 再来一张来自17世纪的炼金术师Robert Boyle的手稿图,GPT-4能不能读懂它? 这简直对它来说,小菜一碟。 在比如「加泰罗尼亚语关于药用木乃伊的药物手册」。 ChatGPT同样能够转录并翻译出来。 来自UCSC的历史学副教授Benjamin Breen表示, 这将对历史学家产生重大影响。试想一下,一个定制的多模态GPT-4可以对一组特定的手稿进行训练。它不仅可以转录,还可以翻译和分类。(正是这一点,不使用LLM进行写作,在我看来才是一件大事)。 03 图表总结也很6 你还可以命令GPT-4根据图表提取数据。 然后可以创建Python代码来复制图表,让它更像图表。 再把股票趋势图丢给它,还能分析总结特征。 04 识图「智商超群」 给GPT-4一张抽象的图。 它竟然可以准确的识别出这4张图想表达的「沟通的重要性」的隐喻,这也太离谱了。 GPT-4V甚至可以阅读医生的字迹。 还有日本网友直接用「七龙珠」中孙悟空考ChatGPT了。 还有各种「你是不是人」的验证码。 上传一张自己的作品,GPT-4还能为你提出改进建议。 还有网友发现,GPT-4V对kosmos-1论文中的这道题给出了正确答案,但推理过程却出现了错误。 有了这个功能,小朋友们再也不用做作业了。 05 网友大波总结 除了以上体验之外,还有网友写了一篇长文,介绍了自己对GPT-4V的测试。 测试一:视觉问答 给一个表情包,看看GPT-4V理解程度有多好? GPT-4V成功地解释了为什么有趣,并提到了图片的各个组成部分以及它们之间的联系。 值得注意的是,所提供的括号备注中,GPT-4V能够读懂并利用文字做出回应。 尽管如此,GPT-4V还是犯了一个错误,炸鸡标记为「NVIDIA BURGER」,而不是「GPU」。 然后,再用硬币,一张美国便士的照片测试。GPT-4V能够成功识别硬币的来源和面值。 但如果是多枚硬币图片,并问GPT-4V,我有多少钱? 这时,它只能够识别硬币的数量,但无法确定货币类型。 测试二:OCR识别 截取网页中的文本图像上传,GPT-4V可以很好地读出内容。 测试三:数学OCR 数学OCR是一种专门针对数学方程的光学字符识别的特殊形式。 网友向GPT-4V提出了一个数学问题,并用文档截图形式呈现出来。 这个问题涉及在给定2个角度的情况下计算拉链线的长度,在图像上提示「解决它」。 模型识别出的问题可以用三角法求解,识别出要使用的函数,并逐步提出如何解决问题的走查。然后,GPT-4V提供了问题的正确答案。 话虽如此,GPT-4V系统卡指出模型可能会遗漏数学符号。 不同的测试,包括用手写在纸上的方程或表达式的测试,可能表明模型回答数学问题的能力不足。 测试四:对象检测 让GPT-4V检测图像中的狗,并提供与狗的位置相关的x_min、y_min、x_max和y_max值,GPT-4V返回的边界框坐标与狗的位置不匹配。 虽然GPT-4V在回答图像问题方面的能力非常强大,但在你若是想知道一个物体在图中的位置,该模型不能替代微调目标检测模型。 测试五:验证码 发现GPT-4V能够识别图像中包含验证码,但经常无法通过测试。 在一个选取红绿灯格子的示例中,GPT-4V少选了一些包含红绿灯的格子。 测试六:填字游戏和数独 在数独测试中,GPT-4V识别了游戏,但误解了棋盘的结构,因此返回了不准确的结果。 顺带提一句,ChatGPT联网功能又回来了。
谷歌开放新控件,网站可拒绝被用于训练Bard AI
IT之家 9 月 29 日消息,随着 OpenAI 的 ChatGPT、微软的 Bing Chat 和谷歌 Bard 等生成式 AI 服务越来越多地用作搜索引擎的替代品,它们也遇到了一些个人和公司的抵制,这些网站开发者不希望他们的网站数据被用于 AI 模型训练。 今天,谷歌宣布了一种新方法,网站开发者可以选择允许其 Bard 和 Vertex AI 服务访问其内容,或者选择不用于训练这些 API 模型。 谷歌在一篇博客中宣布推出 Google-Extended,这是一种新控件,网站开发在可以使用它来管理其网站是否帮助 Bard 和 Vertex AI。 网站目前可以通过 robots.txt 提供拒绝被爬虫的名单,谷歌认为所有 AI 模型提供商也都应该提供这种类似的透明度和控制方法。然而,随着 AI 应用的扩展,网站将面临大规模管理不同用途的日益复杂性。谷歌表示将尽快分享更多信息。 IT之家从谷歌支持文档中发现,Google-Extended 没有单独的 HTTP 请求 user agent(UA)字符串,抓取是通过现有的 Google UA 字符串完成的;robots.txt user-agent token 可以用于进行控制。 除了今天的声明之外,谷歌还表示,它将“探索其他机器可读的方法来为网站进行选择和控制。”它包含一个链接,这些网站可以在其中注册邮件列表,在那里他们将收到有关谷歌改进网站控制的其他更新信息。
OpenAI拟研发AI手机,软银或投10亿;Character.AI估值或超50亿美元;英伟达将举行AI峰会丨AIGC大事日报
1、全国首个大模型生态社区在沪揭牌 2、OPPO大模型新进展:知识百科能力仅次于GPT-4 3、泓博医药:PR-GPT项目年底前上线Demo功能 4、OpenAI拟研发AI版iPhone 软银或投10亿美元 5、Character.AI洽谈新融资 估值或超过50亿美元 6、AI创企AlphaSense获新融资 估值达25亿美元 7、AI创企Slope获新融资,OpenAI CEO参投 8、Cohere宣布RAG聊天API公测 9、AWS推出5款生成式AI新品 10、英伟达宣布10月15日举行AI峰会 11、英伟达扶持 AI医疗创企90秒发现癌细胞 12、风投机构抢囤GPU 为创企提供计算资源 13、IBM宣布保护生成式AI模型版权 14、谷歌开放新控件 控制生成式AI访问网站 15、Medium:禁止用本平台文章训练AI 16、Nature调查:使用AI大模型的科研人员仍属少数 17、微软在旧金山开设AI联合创新实验室 18、Uber货运部门用AI预估延迟发货 19、欧洲央行研究用AI来更好理解通胀 20、日本警方首用AI技术监测网络犯罪帖子 1、全国首个大模型生态社区在沪揭牌 据上海经信委微信公众号发文,9月28日,上海“模速空间”创新生态社区暨人工智能大模型产业生态集聚区揭牌仪式在徐汇西岸举行。模型语料数据联盟服务基地、大模型测试验证与协同创新中心、上海大模型合规指导服务中心、上海大模型生态发展有限公司以及16家大模型企业率先入驻“模速空间”。9家单位代表共同启动上海智能算力加速计划,近30家创投机构共同启动上海大模型投融资合作伙伴计划。 “模速空间”旨在推动大模型赋能各行各业,共同营造开放活跃生态,加速行业交流与开源共创,全力建设具有国际影响力的大模型生态高地。后续空间依托开放数据、算力调度、测试评估、融资服务、综合服务等五大公共服务平台的支撑,为空间内企业提供一体化、全周期服务。 2、OPPO大模型新进展:知识百科能力仅次于GPT-4 据小布助手微信公众号周三发文,近日,OPPO自主训练的生成式大语言模型安第斯大模型(AndesGPT)登上SuperCLUE的9月排行榜,在十大基础能力排行榜的“知识与百科”能力中仅次于GPT-4排名国内大模型第一,测试得分高达98.33;“角色扮演能力”中排名前三。 3、泓博医药:PR-GPT项目年底前上线Demo功能 泓博医药9月28日在互动平台回复投资者问题:公司PR-GPT项目进展顺利,正在进行大型语言模型本地部署工作,后续算法优化、最新生物医药数据训练及应用场景开发等工作将按计划有序开展,预计在年底前可以上线Demo功能,2024年第四季度可形成初步能力,投入实际应用。 4、OpenAI拟研发AI版iPhone 软银或投10亿美元 据英国《金融时报》9月28日报道,OpenAI正与苹果前设计师Jony Ive和日本软银集团的孙正义进行深入谈判,拟成立一家合资企业,打造“AI领域的iPhone”,软银集团将提供逾10亿美元资金。正式宣布合资可能还需要几个月的时间。 据三位知情人士透露,OpenAI首席执行官Sam Altman已聘请Ive的公司LoveFrom开发OpenAI的首款消费设备。他们希望为与AI交互创造一种更自然、更直观的用户体验,就像iPhone在触摸屏计算方面的创新释放了移动互联网的大众市场潜力一样。 5、Character.AI洽谈新融资 估值或超过50亿美元 据彭博社今日报道,生成式AI独角兽企业Character.AI正在进行早期谈判,以筹集数亿美元的新资金。知情人士说,这笔交易可能将这家初创公司的估值推至50亿至60亿美元之间,在与投资者的早期对话中,曾一度讨论过高达100亿美元的估值。 Character.AI成立于2021年,由前谷歌员工Noam Shazeer和Daniel De Freitas创立。其服务支持人们创建一系列能够进行文字对话的、具有个性的聊天机器人。今年早些时候,该公司开始提供每月10美元的订阅服务c.ai+,使用户可以更快地访问其聊天应用和新功能。 6、AI创企AlphaSense获新融资 估值达25亿美元 AI市场情报和搜索平台独角兽AlphaSense在9月28日宣布获1.5亿美元E轮融资,将其估值提升至25亿美元。本轮融资由科技投资公司BOND领投,谷歌母公司Alphabet旗下的CapitalG、Viking Global investors、高盛集团等现有投资者参投。 7、AI创企Slope获新融资,OpenAI CEO参投 据VentureBeat报道,成立两年的美国AI创企Slope昨日宣布完成3000万美元的股权融资,由Union Square Ventures领投,OpenAI联合创始人兼CEO Sam Altman参投。Slope迄今融资总额为1.87亿美元。 Slope目前有18名全职员工,正试图创建一个黄金标准:一个企业B2B支付跟踪和接收平台,部分由其自研的“基于规则的”技术提供支持,部分由OpenAI的GPT-3.5 Turbo提供支持。 8、Cohere宣布RAG聊天API公测 生成式AI独角兽企业Cohere今日宣布其检索增强生成(RAG)版聊天API与现可公测。有了这个新功能,开发人员可以集成用户输入、数据源和模型生成,以构建强大的产品体验,并通过生成可靠的、可验证的生成来减轻幻觉。该API由Cohere的旗舰生成式AI大语言模型Command提供支持。 开发人员可以使用Cohere帐户附带的API密钥访问聊天功能公开测试版。Cohere还开放了Coral Showcase的访问权限,这是一个演示环境,可以预览如何实现这些功能。 9、AWS推出5款生成式AI新品 美国云计算巨头亚马逊云科技(AWS)9月28日宣布全面推出Amazon Bedrock,并宣布了5款生成式AI创新产品。Amazon Bedrock现可帮助更多的客户构建和扩展生成式AI应用程序,将采用新的AI模型,提供新的免费生成式AI训练方式。Amazon Titan Embeddings现已全面上市,Meta Llama 2将在未来几周内通过托管API提供,AI辅助编程工具Amazon CodeWhisperer的新定制功能即将推出,专为云构建的统一商业智能(BI)服务Amazon QuickSight中新的生成式BI创作功能可帮助业务分析师使用自然语言命令轻松创建和定制视觉效果。 10、英伟达宣布10月15日举行AI峰会 英伟达今日在官网发布公告,将于10月15日到16日在以色列特拉维夫召开AI峰会。其CEO黄仁勋将于当地时间10月16日上午10点(北京时间下午15点)发表主题演讲。 11、英伟达扶持 AI医疗创企90秒发现癌细胞 据英伟达官网9月27日分享,美国医疗设备创企Invenio Imaging正在开发一种AI技术,使外科医生能够在收集样本后立即在手术室中评估组织活检,实现更快的临床决策。以前从病理实验室需要数周时间来获得分析结果,现在用AI加速只需要3分钟。Invenio是英伟达Inception计划的成员,使用英伟达GPU和软件库加速AI训练和推理。 Invenio的合作团队来自密歇根大学、纽约大学、加州大学旧金山分校、维也纳医科大学和科隆大学医院,他们最近开发了一种AI模型,能在90秒内以93%的准确率找到癌症肿瘤的生物标志物。有了这种能力,医生就可以预测病人对化疗的反应,或者确定肿瘤是否在手术中被成功切除。 12、风投机构抢囤GPU 为创企提供计算资源 据The Information今日报道,风险投资机构最近一直在宣扬与AI芯片供应商的联系。Greylock Partners、Bessemer Venture Partners、Madrona等表示他们一直在利用大型云计算公司的人脉,来帮助初创公司获取AI硬件。还有一些风投机构为其投资组合公司购买了数千张GPU。例如Conviction、Index Ventures等风险投资机构都租赁了GPU服务器,并将这些资源向其投资的一些初创公司提供。硅谷著名AI投资人Nat Friedman和Daniel Gross最近筹集了10亿美元投资AI初创公司,今年早些时候宣布购买了2512张英伟达H100 GPU芯片,向创业者提供额外资本,以换取初创公司的股权。 13、IBM宣布保护生成式AI模型版权 IBM 9月28日宣布watsonx Granite模型系列中的第一批生成式AI模型全面推出,并宣布其标准知识产权保护将适用于watsonx模型。IBM为其基础模型提供知识产权赔偿(合同保护),客户可以使用自己的数据以及IBM基金会模型提供的客户保护、准确性和信任来开发AI应用程序。Granite模型旨在推进将生成式AI注入业务应用程序和工作流程。IBM还提供了使用Meta Llama 2-chat 700亿参数模型、来自Hugging Face社区的模型等第三方模型的灵活性。AI治理工具包watson .governance将在今年晚些时候正式发布。 14、谷歌开放新控件 控制生成式AI访问网站 谷歌今日发布一个新控件Google-Extended。网站开发商可以使用它来管理他们的网站是否被用于改进Bard、Vertex AI生成式API,包括为这些产品提供动力的未来几代模型。通过使用Google-Extended来控制对网站内容的访问,网站管理员可选择是否帮助这些AI模型随着时间的推移变得更准确、更有能力。 15、Medium:禁止用本平台文章训练AI 美国高质量博客门户网站Medium今日声明立场,禁止AI公司使用Medium上发表的文章进行模型训练。Medium已更新服务条款,明文禁止未经事先书面同意的爬虫程序,并已经开始在robots.txt文件中添加明确的阻止。 16、Nature调查:使用AI大模型的科研人员仍属少数 国际顶级学术期刊Nature的一项调查对全球1600多名研究人员进行的一项调查显示,AI工具在科学领域变得越来越普遍,许多科学家预计它们很快将成为研究实践的核心。据Nature分析,过去十年,各个领域提及AI术语的研究论文比例都有所上升,但当前经常在工作中使用大语言模型和生成式AI产品的研究人员仍属少数。 从可能的优势清单中,2/3的人指出AI提供了更快的数据处理方法,58%的人表示AI加快了以前不可行的计算速度,55%的人提到AI节省了科学家的时间和金钱。从可能的负面影响列表来看,69%的研究人员表示AI工具可能会导致人们在不理解的情况下更加依赖模式识别,58%的研究人员表示结果可能会加剧数据中的偏见或歧视,55%的研究人员认为这些工具可能会造成欺诈更容易,53%的人认为考虑不周的使用可能会导致不可重复的研究。 当被问到科研中最令人印象深刻或最有用的AI工具示例时,聊天机器人ChatGPT及其大语言模型是最常提到的工具,紧随其后的是蛋白质折叠人工智能工具,例如AlphaFold。在研究人员评选的科学用途中最受关注的AI方面,ChatGPT也名列前茅。就负面影响而言,68%的研究人员担心错误信息激增,另外68%的研究人员认为这会让抄袭变得更容易、更难检测,66%的研究人员担心会给研究带来错误或不准确的结果。 直接研究AI的研究人员最担心的是缺乏计算资源、工作资金以及运行AI所需的高质量数据。那些在其他领域工作但在研究中使用AI的人往往更担心缺乏熟练的科学家和训练资源,还提到了安全和隐私方面的考虑。没有使用AI的研究人员普遍表示,他们不需要它或觉得它有用,或者他们缺乏经验或时间来研究它。 17、微软在旧金山开设AI联合创新实验室 据VentureBeat报道,微软9月28日宣布其第五个AI联合创新实验室在旧金山市中心成立。该实验室的主要目标是促进从构思到原型设计的转变,为初创公司和企业提供了接触AI专家、工具和基础设施的机会,以协作开发和测试AI原型和解决方案。 18、Uber货运部门用AI预估延迟发货 据彭博社9月29日报道,Uber的货运部门Uber Freight利用其庞大的数据文件,利用AI来预估延迟发货,并提出替代路线的建议。Uber Freight周四推出了Insights AI,支持客户提出通常需要数天时间才能完成的查询,比如正点率最差的路线及其原因。该公司还在其服务中嵌入了AI,让托运人更准确地估计到达时间。 19、欧洲央行研究用AI来更好理解通胀 据路透社昨日报道,欧洲央行(ECB)正在研究AI如何帮助其提高对定价行为和通胀动态的理解。通过网络抓取,欧洲央行可以收集大量的实时价格数据,但这些数据是非结构化的,不适合计算通胀,因此希望利用AI来构建数据并改进其分析。欧洲央行还希望利用AI大语言模型来改善工作人员编写的文本,使欧洲央行的沟通更容易被公众理解。其另一项举措是将数千万家公司、银行和公共部门实体的数据分类过程自动化,从而更好地了解它们的财务状况。 20、日本警方首用AI技术监测网络犯罪帖子 据日本共同社报道,日本警方自今日起将首度使用AI技术来识别社交媒体帖子,监测抢劫、欺诈等犯罪行为。日本警方委托网络巡逻中心进行在线监控工作,网络巡逻中心,利用自然语言处理技术寻找特定的关键词,并根据上下文识别涉嫌包含有害信息的帖子,然后将把收集到的数据报告给另一个外部组织互联网热线中心,互联网热线中心可以要求网站运营商和互联网服务提供商删除其认为非法或有害的帖子。
对标DALL·E 3!Meta最强文生图Emu技术报告出炉
可以说,Meta刚刚发布的Emu,在性能上毫不逊色于DALL·E 3!而Emu取得优异性能背后的原因是「质量调整」。 前几天,OpenAI刚刚推出DALL·E 3,文生图再次上升到一个新阶段,甚至有网友纷纷表示R.I.P. Midjourney。 在28号的Meta Connect大会上,小扎也推出了自家的人工智能图像生成模型——Emu(Expressive Media Universe)。 Emu最大的特点是,只用简单的文字,5秒即生图片。 比如:「一只在彩虹森林中的神仙猫咪」。 「徒步旅行者和北极熊」。 「水下的航天员」。 「在花丛中的一位女士」。 「如果恐龙是一只猫咪」。 与其他文生图模型相比,Emu最有趣的是,可以一键生成表情包。 当你正和人聊天时,不用绞尽脑汁去翻找一个合适的表情包了。 比如,和朋友约好了背包旅行,想要发一个生动的准备去旅行的表情包。 「一只快乐的刺猬骑着摩托车」 选择自己喜欢的一个,发送。 当然了,你可以生成各种各样的表情包,仅需要简单几个词。 很快,任何人都可以在Ins中进行图像编辑——重换风格和背景,背后就是由Emu和分割模型SAM加持。 重换风格,可以根据你所描述的风格,重构想像输出图片。 如下, 输入「水彩」,你的照片就立刻变成水彩画了。 或者,把扎克伯格小时候的照片变成「摇滚朋克风格」。 又或者给金毛换一个「长头发」,就得到了: 你甚至可以为图片更换背景。 找到一张自己躺在草坪中的照片,输入「被小狗包围」,一群可爱的小狗就伴你左右了。 又或者,家庭合照中,背景也可以随意切换。 Emu在发布会上可算是风光了一把,但其实在现场演示的前一天,Meta就在arXiv更新了Emu模型的论文。 论文地址:https://arxiv.org/abs/2309.15807 在这篇论文中,Meta介绍了Emu的训练方法:质量调整(quality-tuning),一种有监督的微调。 质量调整解决了在利用网络规模的图像-文本训练文本-图像模型时,生成高度美观的图像面临的挑战:美学对齐。 通过质量调整,可以有效指导预训练模型专门生成具有高度视觉吸引力的图像,同时保持视觉概念的通用性。 研究人员还将其泛用到其他模型架构中,如pixel diffusion和masked generative transformer,证明了质量调整方法的通用性。 01 质量调整的方法 生成模型的训练包括两个阶段:知识学习和质量学习。 在知识学习阶段,目标是获得从文本生成几乎任何内容的能力,这通常需要在数以亿计的图像-文本对上进行预训练。 而在质量学习阶段,模型将被限制输出高质量和美观的图片。 Meta研究人员将以提高质量和促进审美一致性为目的的微调过程称为质量调整。 经质量调整的Emu生成的图像 但质量调整有三个关键: (1)微调数据集可以小得出奇,大约只有几千张图片; (2)数据集的质量非常高,这使得数据整理难以完全自动化,需要人工标注; (3)即使微调数据集很小,质量调整不仅能显著提高生成图片的美观度,而且不会牺牲通用性,因为通用性是根据输入提示的忠实度来衡量的。 整个质量调整过程有以下几个步骤: 潜在扩散架构 研究人员设计了一种可输出1024 X1024分辨率图像的潜在扩散模型。遵循标准的潜在扩散架构设计,模型有一个自动编码器(AE)将图像编码为潜在嵌入,并有一个U-Net学习去噪过程。 研究发现,常用的4通道自动编码器(AE-4)架构由于压缩率高,往往会导致所构建图像的细节丢失。 而这一问题在小物体中尤为明显。 为了进一步提高重建性能,研究人员使用了对抗性损失,并使用傅里叶特征变换对RGB图像进行了不可学习的预处理,将输入通道维度从3(RGB)提升到更高维度,以更好地捕捉精细结构。 用于不同通道尺寸的自动编码器的定性结果见下图。 此外,研究人员还增加了每个阶段的通道大小和堆叠残差块数量,以提高模型容量。 并且,此研究使用CLIP ViT-L和T5-XXL的文本嵌入作为文本条件。 预训练 研究人员策划了一个由11亿张图像组成的大型内部预训练数据集来训练模型,训练过程中模型的分辨率逐步提高。 在预训练的最后阶段,研究人员还使用了0.02的噪声偏移,这有利于生成高对比度的图像,从而提高生成图像的美感。 构建高质量对齐数据 从最初的数十亿张图片开始,使用一系列自动过滤器将图片数量减少到几亿张。 这些过滤器包括但不限于去除攻击性内容、美学分数过滤器、光学字符识别(OCR)字数过滤器(用于去除覆盖过多文字的图片)以及 CLIP 分数过滤器(用于去除图片与文字对齐度较差的样本)。 然后,通过图像大小和纵横比进行额外的自动过滤。 并且,为了平衡来自不同领域和类别的图片,研究人员利用视觉概念分类来获取特定领域的图片(如肖像、食物、动物、风景、汽车等)。 最后,通过基于专有信号(如点赞数)的额外质量过滤,这样可以将数据进一步减少到200K Human Filtering。 接下来,将数据集分两个阶段进行人工过滤,只保留极具美感的图片。 在第一阶段,训练通用注释器将图片库缩减到20K张。这一阶段的主要目标是优化召回率,确保排除通过自动过滤的中低质量图片。 在第二阶段,聘请精通摄影原理的专业注释员,筛选出高审美质量的图片,如下图。 这一阶段的重点是优化精确度,即只选择最好的图片。数据集遵循高质量摄影的基本原则,在各种风格的图像中普遍获得更具美感的图像,并通过人工评估进行验证。 质量调整 将视觉效果极佳的图像视为所有图像的子集,这些图像具有一些共同的统计数据。 研究人员使用64个小批量数据集对预训练模型进行微调。 在此阶段使用0.1的噪声偏移。但需要注意的是,尽早停止微调非常重要,因为在小数据集上微调时间过长会导致明显的过拟合,降低视觉概念的通用性。 但微调迭代次数不能超过5K,这个总迭代次数是根据经验确定的。 02 实验结果 质量调整的效果 研究人员将经过质量调整的Emu模型与预先训练的模型进行比较。 质量调整前后的随机定性测试结果见下图。 可以看到非写实图像也具有很高的美感,这验证研究提出的假设:在质量调整数据集中遵循某些摄影原则,可以提高各种风格的美感。 从数量上看,经过质量调整后,Emu在视觉吸引力和文本可信度方面都有显著优势。 具体来说,在Par-tiPrompts和OUl Prompts上,分别有 82.9% 和 91.2% 的视觉吸引力以及 36.7% 和 47.9% 的文本忠实度首选Emu。 相比之下,在视觉吸引力方面,预训练模型分别只有15.4% 和 7.9%的时间受到青睐,而在文字忠实性方面,PartiPrompts和OUl Prompts分别有 21.0% 和 18.5% 的时间受到青睐。 其余案例的结果均为平局。从这两组涵盖不同领域和类别的大量评估数据中视觉概念的通用性没有下降。 相反,这些改进广泛适用于各种风格。 SoTA 背景下的视觉吸引力 为了将Emu生成的图像的视觉吸引力与当前最先进的技术进行比较,研究人员将Emu与SDXLV1.0进行了比较。 可以看到,Emu比 SDXLv1.0 的视觉吸引力高出很多,包括在风格化(非写实)提示上。 并且,Meta证实了质量调整也可以改进其他流行的架构,如pixel diffusion和masked generative transformer。 研究人员从头开始重新实现和训练一个pixel diffusion和masked generative transformer,然后在 2000 张图像上对它们进行质量调整。 之后,研究人员在1/3随机抽样的PartiPrompts上对这两种经过质量调整的模型进行了评估。 如下图所示,经过质量调整后,两种架构在视觉吸引力和文本忠实度指标上都有显著改善。 消融研究 最后,Meta对微调数据集进行了消融研究,重点关注视觉吸引力,主要对数据集大小的影响进行研究。 下表中报告了在不同大小的随机抽样子集上进行的质量微调的结果,包括100、1000和2000的大小。 可以看到,即使只有100个微调图像,模型也能够被引导生成视觉上吸引人的图像。 与SDXL相比,微调后的胜率从24.8%跃升至了60%。
谷歌“AI 6小时设计芯片”遭打脸?大神Jeff Dean论文被官方调查
原标题:登Nature两年,谷歌「AI 6小时设计芯片」遭打脸?大神Jeff Dean论文被官方调查,疑似隐藏源代码 在2021年9月,由Jeff Dean领衔的谷歌大脑团队发表了一篇AI设计芯片的论文,曾引起业界轰动。然而,随后有多人发现这项工作并不能被复现,而且关键数据和代码被隐藏了,Nature也对此展开了调查。 近日,一篇由谷歌大神Jeff Dean领衔的「AI自主设计芯片」研究,被曝正式接受Nature调查! 谷歌发表这篇论文后,又在GitHub上开源了具体的Circuit Training代码,直接引起了整个EDA和IC设计社区的轰动。 然而,这项工作却在此后不断遭受质疑。 就在9月20日,Nature终于在这篇论文下面附上了一则声明: 编者按:请读者注意,本文中的性能声明已受到质疑,编辑们正在对这些问题进行调查,一旦调查结束,将酌情采取行动。 论文地址:https://www.nature.com/articles/s41586-021-03544-w 同时,一向给AI大模型泼冷水的马库斯也发现,与这篇Nature论文相关的评论文章,也被作者撤回了。 马库斯在推特上这样描述道:「又一个被炒得沸沸扬扬的人工智能成果要落空了?」 现在,相关的Nature评论文章前面,已经被贴上了大写的「retracted article(撤稿)」。 评论文章:https://www.nature.com/articles/d41586-021-01515-9 因为原本的那篇论文受到了质疑,因此写作相关评论文章的作者也将其撤回。 作者已撤回这篇文章,因为自文章发表以来,关于所报道论文所用方法,已出现了新信息,因此作者对于该论文贡献的结论发生了改变。而Nature也在对论文中的结论进行独立调查。 另外,马库斯还挖出了这样一则猛料:对于Jeff Dean团队的论文,前谷歌研究人员Satrajit Chatterjee早就提出了质疑。 他写出一篇反驳的论文,但谷歌表示这篇论文不会被发表,随后,43岁的Chatterjee被谷歌解雇。 对于此事,纽约时报在2022年5月发文进行了报道 01 代码和论文不符 针对谷歌的这篇Nature和相关代码,一组来自UCSD的学者进行了非常深入的研究。 他们将质疑写成论文,并于今年3月收录在国际顶尖的集成电路物理设计学术会议ISPD 2023中。 论文地址:https://arxiv.org/abs/2302.11014 在GitHub上,谷歌和斯坦福的联合团队公开了代码,而就是在这段代码中,UCSD团队发现了「华点」。 UCSD团队以开源的方式实现了「Circuit Training」(简称CT)项目中的关键「黑盒」元素,然后发现,CT与Nature论文中存在差异,并不能被复现! 项目地址:https://github.com/google-research/circuit_training#circuit-training-an-open-source-framework-for-generating-chip-floor-plans-with-distributed-deep-reinforcement-learning 在Nature论文中,谷歌表示,不到六个小时,他们的方法就自动生成了芯片布局图,而该布局图在所有关键指标(包括功耗、性能和芯片面积)上都优于人类生成的布局图,或与之相当。 而UCSD团队发现,这篇论文中的数据和代码都不是完全可用的。在此期间,他们也得到了谷歌工程师就相关问题的回复。 此外,一篇名为「Stronger Baselines for Evaluating Deep Reinforcement Learning in Chip Placement」的论文声称,更强的模拟退火基线优于Nature论文,但显然使用了谷歌内部版本的CT,以及不同的基准和评估指标。 总之,Nature中的方法和结果,都无法被复现。 UCSD团队使用了CT、CMP、SA、ReP1Ace和AutoDMP生成了宏布局解决方案,还包括由人类专家生成的宏布局解决方案。在谷歌工程师的指导下,他们使用了0.5作为密度权重,而不是1 文中,UCSD团队描述了CT关键「黑盒」元素的逆向工程一一强制定向放置和智能体成本计算。 这两个部分,在Nature论文中既没有被明确记录,也没有开源。 另外,UCSD团队还实现了基于网格的模拟退火宏放置,用于比较Nature论文和更强的基线。 由不同宏放置器生成的Ariane-NG45宏放置 UCSD团队出具了一份实验评估报告,揭示了CT的以下几个方面—— (1)使用商业物理合成工具的初始放置信息会如何影响CT结果 (2)CT的稳定性 (3)CT智能体的成本与商业EDA工具的「真实情况」输出之间的相关性 (4)更强基线手稿中研究的ICCADO4测试用例的性能 总的来说,UCSD团队发现,CT和Nature论文所述有几个显著的不匹配之处。 CT假设输入netlist中的所有实例都有(x,y)位置,也就是说,netlist在输入到CT之前,就已经被放置了。 CT的分组、网格化和聚类过程,都使用了位置信息。 力导向放置 然而,这些信息在review中并不明显,在Nature论文中也未被提及。 同样,解释CT的两个关键「黑盒」元素——强制定向放置和智能体成本计算,也都没有在Nature论文中明确记录,也在CT中也不可见。 这些示例代表了理解和重新实现方法所需的逆向工程,这些方法迄今为止只能通过某些API可见。 拥塞成本计算 NG45中Ariane的CT训练曲线,由UCSD团队和谷歌工程师生成 除了这篇论文外,UCSD团队还有一个更加详细的项目主页,全面记录了他们针对谷歌这篇Nature论文的研究。 项目地址:https://tilos-ai-institute.github.io/MacroPlacement/Docs/OurProgress/ 概括来说,共有十八个「灵魂拷问」。 02 Nature共同一作长文回应 对此,谷歌和斯坦福联合团队的共同一作给出了一份非常详尽的声明: 「我们认为,这篇最近在ISPD上发表的特邀论文,对我们的工作进行了错误的描述。」 声明地址:https://www.annagoldie.com/home/statement 首先,介绍一些重要背景: 论文提出的RL方法已经用在了多代谷歌旗舰AI加速器(TPU)的生产上(包括最新的一代)。也就是说,基于该方法生成的芯片,已经被制造了出来,并正在谷歌数据中心运行。 亚10纳米的验证程度,远远超出了几乎所有论文的水平。 ML生成的布局必须明显优于谷歌工程师生成的布局(即超越人类水平),否则不值得冒险。 Nature进行了长达7个月的同行评审,其中,审稿人包括2名物理设计专家和1名强化学习专家。 TF-Agents团队独立复现了Nature论文的结果。 团队于2022年1月18日开源了代码。 截至2023年3月18日,已有100多个fork和500多颗星。 开发并开源这个高度优化的分布式RL框架是一个巨大的工程,其应用范围已经超出了芯片布局,甚至电子设计自动化领域(EDA)。 值得注意的是,在商业EDA领域,开源项目代码的做法并不常见。 在团队的方法发布之后,有很多基于其工作的论文在ML和EDA会议上发表,此外,英伟达(NVIDIA)、新思科技(Synopsys)、Cadence和三星等公司也纷纷宣布,自己在芯片设计中使用了强化学习。 接着,是针对ISPD论文技术方面的回应: ISPD论文并没有为「电路训练」(Circuit Training,CT)进行任何预训练,这意味着RL智能体每次看到一个新的芯片时都会被重置。 基于学习的方法如果从未见过芯片,学习时间当然会更长,性能也会更差! 团队则先是对20个块进行了预训练,然后才评估了表1中的测试案例。 训练CT的计算资源远远少于Nature论文中所用到的(GPU数量减半,RL环境减少一个数量级)。 ISPD论文附带的图表表明,CT没有得到正确的训练,RL智能体还在学习时就被中断了。 在发表Nature论文时,RePlAce是最先进的。此外,即使忽略上述所有问题,团队的方法不管是在当时还是在现在,表现都比它更加出色。 虽然这项研究标题是「对基于强化学习的宏布局的学习评估」,但它并没有与任何基于该工作的RL方法进行比较,甚至都没有承认这些方法。 ISPD论文将CT与AutoDMP(ISPD 2023)和CMP的最新版本(一款黑盒闭源商业工具)进行了比较。当团队在2020年发表论文时,这两种方法都还没有问世。 ISPD论文的重点是使用物理合成的初始位置来聚类标准单元,但这与实际情况无关。 物理合成必须在运行任何放置方法之前执行。这是芯片设计的标准做法,这也反映在ISPD论文的图2中。 作为预处理步骤,团队会重复使用物理合成的输出来对标准单元进行聚类。需要说明的是,团队的方法不会放置标准单元,因为之前的方法(如DREAMPlace)已经很好地对它们进行了处理。 在每个RL事件中,团队都会向RL智能提供一个未放置宏(内存组件)和未放置的标准单元簇(逻辑门),然后RL智能体会将这些宏逐一放置到空白画布上。 九个月前,团队在开源存储库中记录了这些细节,并提供了执行此预处理步骤的API。然而,这与论文中的实验结果或结论没有任何关系。 最后,团队表示,目前的方法并不完美,并且肯定会存在效果不太好的情况。 但这只是一个开始,基于学习的芯片设计方法必将对硬件和机器学习本身产生深远的影响。 03 用AI,6小时就能设计一款芯片? 回到Nature的这篇文章,2021年,由Jeff Dean领衔的谷歌大脑团队以及斯坦福大学的科学家们表示: 「一种基于深度强化学习(DL)的芯片布局规划方法,能够生成可行的芯片设计方案。」 为了训练AI干活儿,谷歌研究员可真花了不少心思。 与棋盘游戏,如象棋或围棋,的解决方案相比较,芯片布局问题更为复杂。 在不到6小时的时间内,谷歌研究人员利用「基于深度强化学习的芯片布局规划方法」生成芯片平面图,且所有关键指标(包括功耗、性能和芯片面积等参数)都优于或与人类专家的设计图效果相当。 要知道,我们人类工程师往往需要「数月的努力」才能达到如此效果。 人类设计的微芯片平面图与机器学习系统设计 在论文中,谷歌研究人员将芯片布局规划方法当做一个「学习问题」。 潜在问题设计高维contextual bandits problem,结合谷歌此前的研究,研究人员选择将其重新制定为一个顺序马可夫决策过程(MDP),这样就能更容易包含以下几个约束条件: (1)状态编码关于部分放置的信息,包括netlist(邻接矩阵)、节点特征(宽度、高度、类型)、边缘特征(连接数)、当前节点(宏)以及netlist图的元数据(路由分配、线数、宏和标准单元簇)。 (2)动作是所有可能的位置(芯片画布的网格单元) ,当前宏可以放置在不违反任何硬约束的密度或拥塞。 (3)给定一个状态和一个动作,「状态转换」定义下一个状态的概率分布。 (4)奖励:除最后一个动作外,所有动作的奖励为0,其中奖励是智能体线长、拥塞和密度的负加权。 研究人员训练了一个由神经网络建模的策略(RL智能体),通过重复的事件(状态、动作和奖励的顺序),学会采取将「累积奖励最大化」的动作。 然后,研究人员使用邻近策略优化(PPO)来更新策略网络的参数,给定每个放置的累积奖励。 研究人员将目标函数定义如下: 如前所述,针对芯片布局规划问题开发领域自适应策略极具挑战性,因为这个问题类似于一个具有不同棋子、棋盘和赢条件的博弈,并且具有巨大的状态动作空间。 为了应对这个挑战,研究人员首先集中学习状态空间的丰富表示。 谷歌研究人员表示,我们的直觉是,能够处理芯片放置的一般任务的策略也应该能够在推理时将与新的未见芯片相关的状态编码为有意义的信号。 因此,研究人员训练了一个「神经网络架构」,能够预测新的netlist位置的奖励,最终目标是使用这个架构作为策略的编码层。 为了训练这个有监督的模型,就需要一个大型的芯片放置数据集以及相应的奖励标签。 因此,研究人员创建了一个包含10000个芯片位置的数据集,其中输入是与给定位置相关联的状态,标签是该位置的奖励。 为了准确地预测奖励标签并将其推广到未知数据,研究人员提出了一种基于边的图神经网络结构,称之为Edge-GNN(Edge-Based Graph Neural Network)。 在Edge-GNN中,研究人员通过连接每个节点的特征(包括节点类型、宽度、高度、x和y坐标以及它与其他节点的连通性)来创建每个节点的初始表示。 然后再迭代执行以下更新: (1)每个边通过应用一个完全连通的网络连接它连接的两个节点更新其表示; (2)每个节点通过传递所有的平均进出边到另一个完全连通的网络更新其表示。 Edge-GNN的作用是嵌入netlist,提取有关节点类型和连通性的信息到一个低维向量表示,可用于下游任务。 基于边的神经结构对泛化的影响 研究人员首先选择了5个不同的芯片净网表,并用AI算法为每个网表创建2000个不同的布局位置。 该系统花了48个小时在「英伟达Volta显卡」和10个CPU上「预训练」,每个CPU都有2GB的RAM。 左边,策略正在从头开始训练,右边,一个预训练的策略正在为这个芯片进行微调。每个矩形代表一个单独的宏放置 在一项测试中,研究人员将他们的系统建议与手动基线——谷歌TPU物理设计团队创建的上一代TPU芯片设计——进行比较。 结果显示,系统和人类专家均生成符合时间和阻塞要求的可行位置,而AI系统在面积、功率和电线长度方面优于或媲美手动布局,同时满足设计标准所需的时间要少得多。 但现在,这篇曾引起整个EDA和IC设计社区的轰动的论文,如今在被Nature重新调查,不知后续会如何发展。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。