行业分类:
加载中...
头条分类:
加载中...
谷歌弃Bard发布超大杯Gemini,全面对标GPT-4
梦晨 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 就在刚刚,谷歌深夜搞了个大动作—— Bard现在统称Gemini。 发布Gemini Advanced,由谷歌最强多模态大模型Gemini Ultra 1.0支持! 为了防止概念混淆,我们拿OpenAI家的大模型来对比理解: Gemini是品牌总称,相当于OpenAI的ChatGPT; Gemini Advanced付费服务,对应ChatGPT Plus; Gemini Ultra模型,对标的是GPT-4; 切换到Gemini Advanced界面的操作也和ChatGPT类似,只需点击左上角的选项即可: 在价格方面,Gemini Advanced的定价也是颇有意思——19.99美元/月,比ChatGPT Plus(20美元/月)便宜了亿点点。 不过谷歌也给出了一个小福利,订阅后的前两个月,免!费!! 并且不会像GPT-4那样有每小时使用次数限制,可以放开了用。 不仅如此,谷歌这次还顺带在安卓手机里推出了Gemini的APP,特定的安卓机长按电源键等按钮可以“直达”的那种: iOS用户也不用着急,Gemini将在未来几周会出现在Google App中,届时的打开方式会是这样的: 毕竟谷歌此前发布Gemini Ultra这款大模型之际,便是一上来就在32个基准测试中拿下30个SOTA,并且第一个在MMLU基准上达到人类专家水平。 现如今产品化的它终于上线,也是让众多网友纷涌而至,一时间也是出现了短暂的宕机。 那么加持了谷歌自家最强大模型的Gemini Advanced,效果到底如何? 我们在第一时间成功开通了试用。 实测Gemini Advanced 虽然谷歌声明目前只开放英语支持,但实测用中文提问,它不但能懂也能用中文回答。 既然是谷歌出品,肯定少不了考验它的联网搜索能力。 本来想试试能不能当吃瓜神器,结果因为谷歌严格的伦理道德限制,Gemini Advanced当场拒绝作答。 那么退而求其次,问问纯事实不带价值判断的,它的表现就非常亮眼了。 回答中,标绿色的语句展开就可以看到引用来源。 标黄色的语句则表示没有找到明确引用来源,可以尝试进一步核实。 AI在回答中生成的表格数据,也可以点击“Export to Sheets”一键导入到Google Docs进一步编辑处理,在工作场景可以说是非常实用了。 接下来,还可以在“扩展程序”中打开对其他谷歌服务的支持,如地图、Gmail邮箱、YouTube视频。 关联邮箱账号后,Gemini Adavanced就成变你的个人AI管家,可以帮你管理不少事情了,如找出可退订垃圾邮件。 不过很可惜,扩展程序目前还不支持中文指令。 用英语“find me youtube videos……”就可以触发搜索视频功能,辅助学习知识也是一把好手。 除了联网搜索、集成应用,谷歌还特别强调了Gemini Advanced的推理能力。 先来一道微软对GPT-4测试时的经典推理题,结果Gemini Advanced不仅成功作答,还考虑了额外的小概率情况。 注意界面中的“Show drafts”按钮,代表Gemini Adavanced每次会生成三个“草稿”,并挑选其中最好的展示出来。 三个草稿或使用不同的推理方式,或试用不同的写作风格,但答案无一例外都是正确的。 如果实在不巧,遇到三个草稿都不满意的情况,也可以选择最右边的全部重来按钮。 再注意答案最后面一排按钮,除了常规的点赞、点踩、分享之外,还有两个不常见的新功能。 中间的滑块按钮代表“修改回答”,可以选择更短、更长、解释更简单、语气更轻松、语气更正式。 尝试选择语气更轻松,整个回答就会变得更口语化。 选择更正式,整个回答就像是在考场上答卷了。 最后的谷歌G图标,代表使用搜索引擎核查AI生成的答案是否准确,结果同样也会用“绿色-有引用来源”,“黄色-无引用来源”的形式标出来。 在更实用的场景中,要求生成一副科技主题春联,Gemini Adavanced也能满足“仄起平收”这个要求。 生成代码也是小菜一碟,还“大义灭亲”,把自家广告也给隐藏了。 一番体验之后,最后总结一下。 Gemini Advanced在超大杯Gemini Ultra模型加持下,能力基本达到GPT-4同级别水平。 设计上也更像一个成熟产品,而不是大模型的技术演示Demo了。 与谷歌强大的互联网服务集成后,实用性上也有独到之处。 另外在这次发布前,量子位也与谷歌Gemini团队有过一次短暂的交流。 团队表示这次发布更专注于把Gemini Ultra的语言能力释放到产品中,未来还会持续更新多模态能力、交互性更强的代码功能,以及上传文件分析数据等功能。 与谷歌产品更深入集成,比如直接在Gmail里使用Gemini来回复邮件,目前还在“Coming soon”状态。 不过我们要到一张示意图,敬请期待。 另外在交流中,谷歌开发团队特别提醒了一点: 由于产品刚刚从Bard改名为Gemini,AI偶尔会出现混乱,需要时间慢慢过渡。 原来AI也像人类一样改名会不适应,也是让人哭笑不得了。 都是20美元,你pick哪一个? 就在这次Gemini Ultra刚刚有消息传出的时候,知名爆料账号Flowers from the future组织了一次投票。 同样20美元,GPT-4和Gemini Ultra你会订阅哪个? 最终2360人参与,有四成坚定的继续留在GPT-4,只有12.3%选择迁移到Gemini Ultra。 不过这次投票是在真正发布之前几天了。 在体验过之后,不知道又会有多少人因为产品的功能体验和服务集成“弃O投G”。 而就在刚刚,沃顿商学院一位教授表示在他已经提前体验了Gemini Advanced长达6周的时间。 他给出的一句评价是: Gemini Advanced显然处于GPT-4的水平,但并没有明显超过它。 二者在使用过程中各有各的优势。 例如在搜索能力方面,让它俩都去查看一下运动鞋的最新趋势,Gemini Advanced能够搜索YouTube,而ChatGPT使用的是Bing。 这表明Gemini Advanced在搜索集成方面有所不同。 这位教授还认为Gemini Advanced的界面比GPT-4更流畅,技术错误出现的也较少。 它在“个性”上与GPT-4有所不同,更友好和愿意进行文字游戏。尽管两者在个性上有差异,但它们在处理复杂提示时表现出了兼容性。 当然,这并非是教授在拿Gemini Advanced和ChatGPT直接做比较,而是借着二者探讨AI在未来可能发展的方向: Gemini Advanced与GPT-4相比的独特优势和劣势表明,模型仍有很大的改进空间,未来我们将继续看到快速的进步。AI的发展浪潮尚未达到顶峰,OpenAI的下一步可能是发布传闻中的GPT-4.5或GPT-5。 如今距离ChatGPT发布已经过去14个月还要多,谷歌终于在模型-应用-生态上都准备好了与之竞争的对位产品。 然鹅,老对手OpenAI却已悄然奔向下一个战场。 根据The Information爆料,OpenAI正在开发新一代Agent应用,根据用户请求移动光标、点击、输入文本以及像人类一样使用各种APP。 如将文档中的数据填写到电子表格中进行分析,或在会计软件中自动填写费用报告。 换句话说,下一代ChatGPT将接管你的手机和电脑。 参考链接: [1]https://blog.google/technology/ai/google-gemini-update-sundar-pichai-2024/ [2]https://blog.google/products/gemini/bard-gemini-advanced-app/ [3]https://www.oneusefulthing.org/p/google-gemini-advanced-tasting-notes [4]https://www.theinformation.com/articles/openai-shifts-ai-battleground-to-software-that-operates-devices-automates-tasks
真全国 99% 能用?实测华为城区NCA,确实连乡道都能跑
(本次试驾全程遵守交通法规安全驾驶) 在问界销量超越理想之后,更大的又来了。 被称为 “ 全国都能开 ” 的华为城区 NCA ,现在终于是首批量陆续推送中了。 上次余承东说年前就能推送,还以为是画饼。。。结果确实是年前推送了,只不过是这个年是 “ 中国年 ” 。 据说,这套系统已经能覆盖全国 99% 的路段,除了城市主干道,大多数乡县小路也都能开启 NCA 智驾,也就是说,如果你有幸升级到了这套系统,回家过年也可以全程开着智驾了。 相比之下,国内其他拥有城市高阶智驾能力的品牌,都还比较保守,纠结于能开多少城( 开了也不一定都能用 )。 如果这次不是华为在吹牛,那么在目前的智驾天梯里,华为完全是 T0 级别的存在。 所以,为了检验华为智驾的真实水平,脖子哥也搞来一台问界新 M7 的六座版本,试试它的极限。 那么话不多说,一车面包人出动! 这次的试驾路线如下所示,黑色和蓝色是两段高架路段,绿色是乡村小路,红色为拥堵城区路段,这些要是开下来没问题,那我是真信它全国都能开。 那试下来感觉如何呢?脖子哥对它的评价是,操作丝滑,走位自信。 先说乡间小路,试下来确实是 “ 全国都能开 ” ,不过,我还是不建议在复杂路况使用,因为变数太多。 倒不是不相信华为智驾的安全性,而是对于驾驶员来说,面对这些突如其来的潜在危险,人可能直接就刹了,但机器操作会更极限。 特别对于老人、儿童、孕妇、以及高血压、心脏病、癫痫病、精神病等易突发病患者,建议在监护人陪同下乘坐。。。 咱们到底遇到了啥,看看下面这个场景。( FBI WARNING :现在仍是人机共驾时代,危险动作请勿模仿, GIF 中驾驶员双手都有握在方向盘下方) 在这里,咱们以 50 码的速度行驶( 限速 60 , GIF 有加速 ),而这辆埃安突然从小道里蹿出来的,越过中央黄线,都快怼到咱们脸上了。。。 但为了测试这套智驾系统的极限,脖子哥没有立即接管,而是做好了视( dui )死( mian )如( quan )归( ze )的准备。 结果,在双方都没有减速的情况下,问界微调了方向,埃安仅存一丝丝距离从侧边开过,一点擦伤都没有,论安全和自信,真的还得是华为。 此时,咱们车内的心情是这样的↓,一种绝处逢生、化险为夷的感受。经历过这些,可能此生再无悲喜。。。 但你以为这样就完了吗?再看看乡间小路的各种会车场景,真的太刺激了。 要知道,乡村小道的会车可都是弯道,来车会压黄线不说,而且还是一辆接着一辆,人眼都未必看得清。 但靠着这套智驾系统,全程能保持在 45 码左右的时速,既没有故事也没有事故。 除了主驾有点心力憔悴。。。 再比如说,像这里的极限会车,真的,有地平线那味儿了。 不得不说,这路选的好啊。 面对这么复杂的路况,咱们这车人还能安全回来写稿,这大过年的,不得给华为 NCA 磕一个? 在体验华为这套全新的NCA时,另一个很让我佩服的点是,它的道路识别也挺准的。 像是这里,黄线断了,另一端则是一些雪糕筒,而城区 NCA 仍然能根据前车位置 “ 脑补 ” 正常道路,没有提示接管,虽然先是多打了一点看看情况,但最后还是找到了路,真的是挺牛的。 而且这也说明了一点,它真的没用高精地图!( 就算想用,乡间小路也没有啊 ) 要知道,目前的高精地图都是有一定范围的,在 “ 有图 ” 地区以外, “ 无图智驾 ” 也可以根据多传感器融合收集信息,随时调整智驾策略。 当然,这里的 “ 无图 ” 指的是 “ 不依赖高精地图 ” ,导航地图还是有的,而且在 “ 有图 ” 的地区,也能利用高精地图增加一层安全冗余,这和咱们想象中的 “ 无图 ” 还是不一样的。 总之,智驾还得看实际效果,不用太在意 “ 有图 ” 还是 “ 无图 ” 。 而且从刚才的表现来看, NCA 的刹车起步也都比较稳妥,不是骤然的加速或减速( 除非遇到特殊情况 )。 这虽然看起来很简单,但其实也很牛 X ,说明它是有提前量把控的,能对很远的路况做出综合判断,这样乘用的舒适性会提高不少。 不过,仍有一个问题无解,那就是 “ 跟 ” 还是 “ 超 ” 。 比如,我们谁都知道 “ 羊杂汤牛杂汤 ” 这个招牌是村里人在马路边做生意的,但智驾它不认识字啊。 在智驾眼里,这就是一辆路边等待的小三轮,所以不管等多久,还是会跟在它后面。 而且这种情况在乡村道路遇到挺多的,脖子哥就只能手动操作了。这玩意儿,要说还真的很无解,你说让它自己超吧,万一真是个车在这儿等行人呢? 所以,现在的智驾系统还是要驾驶员留心具体路况,别把一切都交给 AI 。 乡村路况到这儿就差不多了,之后我们又测了城区道路,这里主要看的是对路口和车道的处理,以及面对其他车辆的反应,总体也都没啥问题。 毕竟在经历过乡道以后,城区那些道路真是豁然开朗。。。 比如说这个掉头难题,华为 NCA 直接一把搞定。 别看这没什么,还记得上次咱们测试小鹏 XNGP 的时候,掉头直接跳出智驾了。。。 所以,华为城区 NCA 的功能完整性,确实要强过目前大多数品牌。 再说一个比较好的细节,就是屏幕界面夜间模式的切换非常丝滑,进出隧道都不会刺眼或看不清。 而要说有什么问题的话,一些奇奇怪怪的变道还是偶尔存在,这主要是因为导航和智驾的主次矛盾。 这就相当于你在那开车的时候,后面有个教练天天搁着指点江山,就算你会开也开不好了,希望这在后续版本里继续增强。 最后,上了高架,那就太舒服了。这走位,这超车,没啥可挑剔的。 总之,华为这套城区 NCA 确实比想象中更好用,在高架和城市干路已经表现得相当丝滑,但对于乡村等复杂路况,还需要悠着点走,毕竟有太多不可控因素。 所以咱们也不要轻易尝试智驾的极限,在面对特殊情况时,智驾并没有人类这么懂得变通。 据说华为这边五天就会给NCA迭代一个新版本,每次都会有进步。在经历这次智驾测试后,我还是挺期待这个 “ 越开越好开 ” 的城区 NCA 究竟会迭代到哪种地步。 撰文:TC 编辑:脖子右拧 & 面线 封面:焕妍
“假拜登来电”风波未平 美国政府将AIGC语音电话纳入法律规管
财联社2月9日讯(编辑 史正丞)当地时间周四,美国联邦通信委员会(FCC)宣布一致通过了一项裁定,将机器自动拨号电话中使用AI克隆声音技术的行为纳入现行法律框架,此举将为地方司法机构惩治此类行为提供法律依据和执法手段。 (来源:FCC) 非常凑巧的是,在新罕布什尔州上个月初选期间,有不少选民收到“拜登打来的电话”,要求他们不要出门投票。很显然,电话里的声音是用AI合成的。新罕布什尔州检方和FCC已经认定了这些电话的来源,并正在展开调查。据悉,这个AI语音与拜登声音非常接近,同时还使用了美国总统爱用的口头禅“胡说八道”(What a bunch of malarkey)。 虽然FCC对AIGC语音骚扰电话的关注远早于这一事件,但毫无疑问,现任总统和大选候选人成为AI诈骗的受害者,显著提高了舆论对“AI作恶”的关注度。 AI骚扰电话被纳入规管 具体来说,这项裁定将使用AI克隆声音工具的机器人电话,纳入1991年《消费者电话保护法》的执法范畴内。这项立法旨在限制人造或预录语音信息制造的垃圾电话,其中AI被归纳进了“人造”的范畴下。 通过这项裁定,FCC将拥有对拨打AI骚扰电话的公司罚款和“拔电话线”的权力,同时地方检察官也能据此执法,接到骚扰电话的普通人也能提出损害赔偿。 根据这部30年前的法律,大多数情况下电话营销人员不能使用自动拨号器或预录语音消息拨打手机,且在未经来电接收者事先书面同意的情况下,也不能向固定电话拨打此类电话。换句话说,最新裁定出台后,只有在接听者提前同意的情况下,他们才会接到AI语音电话。 违反这一项法律的公司,将面临每通电话至多2.3万美元的罚款,而接到此类骚扰电话的消费者也有权发起法律行动,对每通电话最多要求1500美元的赔偿。 FCC主席杰西卡·罗森沃塞尔表示,虽然听起来像是遥远未来的事情,但这种威胁已经到来。所有人都可能成为这些伪造电话的接收者,所以FCC觉得现在就是该采取行动的时候了。 AI安全成为政治焦点 随着人工智能逐渐从PPT变成触手可及的日常应用,由此带来的安全威胁和规管程序滞后,也是美国政府近期关注的焦点。 美国商务部长雷蒙多本周宣布,任命白宫经济顾问伊丽莎白·凯莉担任新设立的美国AI安全研究所(USAISI)主任。美国总统拜登于去年10月签署行政令设立该组织,归于商务部国家标准及技术研究所管辖。 (来源:美国商务部) 据悉,该研究所设立后的首个重要任务,就是在7月前为从事测试人工智能安全性的“红队”(red team)制定行业标准,确保市面上的AI系统对企业、消费者足够安全。 为了辅助这项政治目标,美国政府还牵头设立了人工智能安全研究院联盟(AISIC)。根据官网数据,已经有超过200余家知名企业和组织加入了这一联盟,其中包括苹果、微软、英伟达、谷歌、亚马逊、Meta、OpenAI等科技巨头,以及美国银行、摩根大通、KPMG、汤森路透等行业龙头。
已频频示好市场,阿里拐点怎么还不到?
2023年阿里一直不缺大新闻,集团拆分,换帅,业务负责人调整,发放企业历史首次股息25亿美金,大笔回购等等,中间穿插原定业务IPO的受阻,推迟等,加之最新风传的有关业务要出售的消息,每一个都能惊掉看客们下巴。 客观地说,阿里这一系列变动还是以积极因素为主,如拆分可以提高各个业务的经营效率,尤其在没有母公司的扶持之后,各个业务将完全被推向残酷的市场中,是骡子是马要被拉出来遛遛了,又比如回购和股息政策(还有近期马云和蔡崇信的增持),这显然也是为了示好资本市场,只是目前结果不尽如人意,阿里股价仍未走出低谷,也因此市场中对于阿里励精图治改革也颇有质疑之声。 如今阿里估值已然偏低(TTM市盈率不足15倍),市场究竟在等待什么信号呢? 本文核心观点: 其一,近一年来,阿里管理层在对此前的“上头”式扩张进行纠偏,卖资产,回购都源自新战略,做法和理念上是积极的; 其二,战略重新确定,效果仍然有时滞,淘天在2024年的表现非常重要; 其三,评判阿里利好或利空,经营端主要参考效率指标。 拐点必要条件:处理非核心业务和淘天反弹 我们首先来判断近一年期内市场是否捕捉到了阿里一系列举措,见下图 金龙指数包含了赴美上市的主要中概企业,我们将其视为”大盘“。在大多数时间内,阿里与大盘保持了比较一致的趋势,此时阿里涨跌更多体现的是系统性的风险或者利好。 其中也多有例外,如2023年3月阿里首次宣布“拆分计划”,此时股价有明显拉动,市场将其视为大利好,如果拆分上市可以成行,各业务在二级市场均可以获得溢价能力,集团股东当然乐见其成。2023年11月,阿里宣布阿里云暂停IPO,上述预期落空,加之当时风传“马云减持计划“,利空因素累积。 近期,蔡崇信和马云分别增持阿里股份,市场情绪进一步得到修正,阿里重新和大盘同频互动。 阿里的种种举措信息多已被市场捕捉和反馈,换句话说,虽然阿里股价绝对值仍在低估,但如果没有开篇所言的种种“示好”,阿里如今股价可能会更低,只是从长线的反弹角度去看,市场还未等到明确的信号。 那么究竟市场在等什么呢? 价值投资者认为企业有“内在价值”,二级市场估值会围绕“内在价值”波动,一般来说对成熟公司往往采取DCF估值模型(自由现金流折现模型),我们不妨以此来判断阿里的估值拐点,模型原理为将企业产生自由现金流进行折现,并以此作为估值基础(产生自由现金流是企业经营重要目标)。 其中分子为“自由现金流”(经营性现金流-资本性开支),分母为贴现率,前者对于企业非常重要。 在阿里最黄金时期,基本可以是“多金且多利”,经营性现金流呈指数型增长,企业利润也是一路走高。面对彼时内外部的乐观局面,为延长增长期,打开“第二曲线”,阿里采取了积极的扩张策略,以海量现金流为筹码打造了一个商业生态帝国。 上图中两条折线的差值也就是资本性支出规模,自2027年之后明显放大。如今市场中相当多观点对阿里的扩张策略持完全否定的态度,认为企业当初就应该以电商为中心,我们倒也不这么认为: 其一,在市场景气度偏高之时,投资性业务很有可能产生更佳的回报,投资扩张战略本身并没有错; 其二,阿里扩张最大的问题乃是超出了能力边界,电商向传统零售,向娱乐等领域前进之快,使得企业在人才培养,理念迭代方面都显得滞后,加之收购之后,一些领域并没有拿出切实可行的新方案,使得效率滞后,亏损就成了拖累; 其三,2020年(2021财年)堪称是阿里的高光时刻,该年两条折线都创了新高,其后随着宏观经济的调整,加之基石业务的国内电商业务遭遇消费降级这一大趋势,其后现金流辉煌便不复往昔,投资业务的弊端也在此时开始集中爆发,如线下零售商超业务开始出现亏损。 站在自由现金流角度,阿里现在最需要的做的乃是开源和节流,稳住仍是现金牛的淘天业务,对现金高强度消耗的业务进行关停并转,甚至是出售,此乃是拐点产生的必要条件。 在2023年Q4分析师会议上,阿里管理层表示: 1)我们资产负债表上依然有一些传统的实体零售业务,这些也不是我们核心聚焦的。如果能够完成退出的话,也是非常合理的。 2)将会专注于核心业务投资,这些核心业务投资一个是电商业务,包括境内和境外电商,第二个是云计算。 这些基本是对近期疯传阿里要出售资产的回应:卖资产确实在进行,早晚的问题。 多年活跃在投资领域的管理层自然明白阿里当前市值不振的主要原因,非理性扩张的业务已经成为企业包袱,估值的黑洞。2023年努力调整节奏,希望将企业重新拉回聚焦核心的轨迹上。 如今卖资产已经在路上,接下来重点看待的便是核心业务的“造钱能力”的回升。2023年阿里云调整经营节奏,不再牺牲效率追求成长(混合云和定制为主的私有云业务削减,公有云重新确定为重中之重)这也与集团策略保持一致。 处于观望阶段的当属淘天,2023年要“重回淘宝”,当年双十一重新祭起了最低价的大旗,这一方面确实上引起了市场对阿里基石业务的兴趣(2024全年客户管理收入增长大概率为正,上年同期则为负),提高了业务预期,但另一方面从财报角度短期内则需要面临一些压力。 由于淘宝的货币化率要低于天猫,当业务优先级重回淘宝后,就要牺牲部分货币化率。在2023年Q4,淘天GMV为正增长,但客户管理收入同比保持不变,显然这是侧重点切换后的“代价”。 如果说卖资产的预期已经十分明确,也称得上是利好,那么对于阿里真正大利好乃是淘天业务在2024年能够迎来全新拐点:总GMV和客户管理收入双双保持增长,也就是说GMV增长幅度要大于聚焦淘宝后的“让利幅度”,这就对前者提出了更高要求。 回购和股息政策源自“瘦身运动” 在媒体一般的表述中,总喜欢将企业账面上的现金规模视为一大利好,企业阐释自身优势时也总爱将现金储备挂在嘴边。 诚然现金规模越大,企业抵御风险的能力越强,越不至于陷入短期流动性问题,但现金越多是不是越好呢?答案又是否定的。 2023年Q4分析师会议上,阿里管理层表示: 作为上市公司就是要向投资人、股东显示出有好的资本回报。因此,阿里巴巴上季度公布,会逐步地把资本回报率从单位数提高至两位数。 这已经是连续两个季度强调提升资本回报率了(ROIC),该指标为投出或使用资金与相关回报之比例,其公式为:资本回报率 = (净收入 - 税收) / (股东权益+有息负债)= (净收入 - 税收) / (总资本总财产 - 过剩现金 - 无息流动负债)。 上述公式之所以要剔除”过剩现金“,是因为此部分现金于企业正常运营毫无关系(超出正常经营的部分现金),这也再次强调资本回报率衡量的乃是“企业经营切实投入资本产生产生回报的能力”,在此分析框架内过剩现金是不产生任何价值的。 在企业处于扩张周期,利润创造仍然仰仗于电商业务,但资本投入量陡增,过剩现金减少,ROIC随之下行,上图已经如实反映了以往历史。在企业发展的新阶段,站在如今效率优化角度,企业就需要: 1)减少资金投资规模; 2)如果账面“过剩现金”过多,资金本身又无法产生价值,不如将其直接回馈股东,如回购可以减少“股东权益”,不仅优化了ROIC还改善了股东的得到感。 此外,由于“过剩现金”本身并不产生价值,账面过多反而会影响ROE(净资产回报率),当企业不再盲目扩张时,不妨将现金通过股息发放回馈给投资者。这也是巴菲特价值投资的重要思想。 2023年Q4财报,阿里宣布增加250亿美元的回购额度,截至季度末仍有353亿美元的回购额度,这一方面再次确认了企业的“瘦身战略”,企业发展的资金量锐减,企业要侧重于产生自由现金流,但自身业务又已经不需要那么多现金了,不妨回馈市场,另一方面也说明长期内企业要将效率置于首位。 在付出巨大代价之后,阿里终于意识到了能力边界的重要性,当前管理层也在努力将企业重新拉回正轨,只是冰冻三尺非一日之寒,业绩要滞后于战略。在本文所提及指标有明显改善之前,市场对阿里仍然会有不同观感,或悲观或乐观,或抄底或做空,此时讨论市值低估问题也无太大意义,在战略重新确定后,企业唯有励精图治,用业绩在资本市场证明自己。
华为非凡大师品牌大使刘德华录制新年祝福视频
2月9日除夕,华为终端在社交媒体上发布了一条特别的新年祝福视频,引发了广大网友的关注和热议。这条视频中的主角,正是华为非凡大师品牌的首位代言人——刘德华。视频中,刘德华以他独特的魅力,向所有观众送上了新年的祝福:“您有一份‘非凡’的新年祝福,来自刘德华先生,请查收。” 回顾去年9月25日,华为秋季全场景新品发布会的盛况,华为正式推出了全新超高端品牌ULTIMATE DESIGN非凡大师,并宣布刘德华成为该品牌的首位代言人。这一消息在当时引起了广泛的关注和讨论,不仅因为刘德华本身的巨大影响力,更因为华为非凡大师品牌的高端定位。 在发布会现场,刘德华分享了自己心中的非凡大师。他提到,第一位非凡大师是带他入行的知名导演许鞍华,她用自己的才华和智慧,引导他走上了演艺之路。第二位非凡大师则是带他进入歌手领域的知名歌手林子祥,他的歌声和舞台魅力,让刘德华深受启发。 刘德华在现场表示,其实每一个人都有可能成为非凡大师,不管你的路有多长,时间有多久,只要你敢于追求自己的梦想,敢于挑战自己的极限,都能成为自己的非凡大师。他鼓励大家,无论是自己还是华为,亦或是其他任何品牌,都不是天生非凡的,而是要通过不断的努力和拼搏,敢于去创造非凡。
5年内AI完全自主设计芯片!英伟达谷歌NYU齐上阵,用LLM完成芯片设计
【新智元导读】生成式AI的诞生,为芯片设计开启了另一条路。现在不论是英伟达等科技公司,还是学术界,都在试图研发出能够完全自主设计芯片的AI系统。 用生产式AI加速芯片设计,将会成为半导体行业基操。 在过去的⼀年⾥,算力巨头英伟达、芯⽚设计公司Synopsys、Cadence Design Systems,以及学术界开发人员都进行了诸多的尝试。 它们分别开发出一款AI工具—— 旨在通过⾃动编写硬件代码和验证代码,加快⼯程师的⼯作速度,并通过总结笔记和状态更新来帮助⼤型设计团队协同⼯作。 让AI参与芯片设计,全都是因2023年⼈⼯智能热潮掀起,专用AI芯片的供应一直处于紧张状态。 与此同时,摩尔定律(即芯⽚中的晶体管数量⼤约每两年翻⼀番)的预言终结,也促使许多公司开始探索全新的芯⽚架构,以⽣产更多专⽤芯⽚。 专家表⽰,美国没有⾜够的⼯程师能够为AI以及⾃动驾驶汽车和⽆⼈机等特定应⽤设计这些先进的芯⽚,而当前这些应⽤的需求都在不断增长。 英伟达ChipNeMo,专供AI芯设计 英伟达应⽤深度学习研究的副总裁Bryan Catanzaro表示, 由于GPU能够同时处理成千上万的任务,因此需要近千⼈来制造,⽽且每个⼈都必须了解设计的各个部分是如何协同⼯作的,同时还要不断改进。 对此,英伟达团队开发了一种全新定制化大模型ChipNeMo,能够执行诸如回答有关GPU架构的问题,或⽣成芯⽚设计语⾔代码等任务。 研究人员在开源Llama 2模型的基础上,对这款AI系统进行了训练。 与此同时,该AI系统也是为了与Synopsys等现有设计⾃动化⼯具配合使⽤。 英伟达的内部⼯程师开始使⽤ChipNeMo一年以来,Catanzaro称,他们发现该系统在培训初级⼯程师、总结100个不同团队的笔记,状态更新⽅⾯⾮常有⽤。 谷歌、芯片设计AI公司上阵 对于⾕歌DeepMind,他们也开发了⼀套AI系统来改进逻辑合成。 这是芯⽚设计的⼀个阶段,包括将电路⾏为描述转化为实际电路。⾕歌表⽰,这些技术可能会被⽤于改进⾃⼰的定制⼈⼯智能芯⽚,即「张量处理单元」(TPU)。 另外,芯片设计公司Synopsys去年发布了一款AI工具——名为Synopsys.ai Copilot。 这是与微软合作通过OpenAI的⼤模型开发的工具,旨在帮助工程师们开展合作。 该公司表示,微软的内部硅团队正在使用该工具来支持其工程需求。 这款AI⼯具可以回答有关如何使⽤公司设计⼯具的问题,并能创建⼯作流程脚本。 它还可以生成RTL(一种芯片设计语言,用于规范芯片架构),只需用简单的英语进行对话即可。 学术界研究爆发 在学术界,也有诸多研究朝着这个方向开展。 包括纽约大学在内多所大学进行的研究,致力于发现确定生成式AI加速芯片设计的其他方法。 其中一些研究得到了Synopsys,以及芯片巨头⾼通等公司的资助。 QTcore-C1,⼀种由纽约⼤学研究⼈员通过与ChatGPT对话命名和设计的芯⽚ 纽约⼤学坦登⼯程学院的⼀个团队通过与ChatGPT对话,在⼤约⼀个⽉的时间⾥设计出了⼀款芯⽚。 这项技术被称为「Chip Chat」,研究⼈员只需与ChatGPT对话, 就能⾃动编写描述芯⽚功能的芯⽚设计语⾔ Verilog。 纽约⼤学坦登⼯程学院电⽓与计算机⼯程研究所副教授Siddharth Garg表示,「通过使用与ChatGPT相关的AI系统,研究人员希望将硬件设计时间加速到⼀个⽉或更短的时间」。 通常来说,设计一款最复杂的微芯⽚,可能需要耗费长达半年,甚至更长的时间。 但这些AI工具并非,无所不能。 德克萨斯大学奥斯汀分校电气与计算机工程学教授David Pan说,目前,这些工具主要用于培训年轻的芯片设计师、编写硬件语言和报告错误等方面。 ⽬前的⼯具还有其他局限性。 ⼯程师必须仔细验证AI⽣成的输出结果, ⽽且⽬前还没有⼀种解决⽅案可以⾃动完成从设计到验证、实现设计的晶体管以及检查设计的电⽓特性等整个芯⽚设计流程。 Synopsys公司的Krishnamoorthy估计,利⽤⽣成式AI⾃主创建功能芯⽚的能⼒⼤约还需要5年时间。 参考资料: https://www.businessinsider.com/nvidia-uses-ai-to-produce-its-ai-chips-faster-2024-2 https://www.wsj.com/articles/designing-chips-is-getting-harder-these-engineers-say-chatbots-and-ai-can-help-092b4c4
OpenAI阿尔特曼雄心勃勃:筹集7万亿美元挣脱芯片桎梏,推动通用人工智能落地
IT之家 2 月 9 日消息,根据华尔街日报报道,OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)制定了雄心勃勃的 AI 芯片计划,目标筹集数万亿美元,改造全球半导体产业,推动通用人工智能(AGI)发展。 IT之家援引华尔街日报,阿尔特曼正与阿联酋政府等投资者商讨,为其 AI 芯片项目争取更多资金。 阿尔特曼的目标是提高全球芯片产量,增强人工智能能力,而推动项目落地预估需要高达 7 万亿美元的资金。 阿尔特曼表示筹集资金推动该项目的初衷,是帮助 OpenAI 摆脱当前发展的硬件桎梏,缓解训练 ChatGPT 等人工智能系统的 AI 芯片短缺情况。 IT之家注:AGI 亦称为强人工智能(Strong AI)、人类级 AI(human-level AI),可以通俗地理解为能在任何环境下学习并作出合理行动的智能 Agent,简单的来说就是内在和表现都像人类那样的智能系统(而不是像弱人工智能或机器学习算法那样限定在某一特定领域)。 OpenAI 成立于 2015 年,是一家非营利性研究机构,目前已从微软、红杉资本、Andreessen Horowitz 和 Founders Fund 等多家投资者处筹集了超过 140 亿美元的资金。 OpenAI 的主要产品是 ChatGPT,这是一个会话式人工智能模型,可以对各种查询和任务生成自然语言回复。
谷歌发动对OpenAI的最强反击
作者 | 王一鹏 文章摘要 谷歌Gemini迎来重大更新,包括Gemini Ultra和Gemini Advanced服务的发布,以及Bard品牌消失,Gemini成为唯一品牌。Gemini Ultra全面进入谷歌生态产品,并在多学科复杂知识的理解和处理上取得了优秀成绩。 • 谷歌Gemini发布Gemini Ultra和Gemini Advanced服务,对OpenAI构成强大反击。 • Gemini Ultra在多学科复杂知识的理解和处理上表现出色,取得高分。 • Gemini Ultra全面进入谷歌生态产品,包括Google Assistant、Google App、谷歌云等。 就在 2 月 8 日,谷歌 Gemini 又迎来一次重大更新。 首先,2023 年年底承诺的 Gemini 最强版本 Ultra,和 Gemini Advanced 服务正式对外发布;另外,谷歌的生成式 AI 品牌迎来收束:Bard 消失了,只保留 Gemini ,此前传闻的 Bard Advanced ,最终证实是 Gemini Advanced。 最后,谷歌生态发力。Gemini Ultra 全方位进入谷歌生态产品,包括安卓端的 Google Assistant、iOS 端的 Google App 、谷歌云、谷歌文档、Gmail 等等。 这是迄今为止,谷歌给予 OpenAI 的最强反击。 Gemini Ultra,无缝接入生态 目前无论是 Google CEO 皮查伊还是 Google Assistant 和 Bard 副总裁兼总经理萧茜茜,都没在 2 月 8 日的官网发布中透露更多技术细节,目前能得知的仅限于皮查伊的部分带有主观色彩的描述: 1. 最大的模型Ultra 1.0是第一个在MMLU(大规模多任务语言理解)上优于人类专家的模型,MMLU使用57个科目的组合——包括数学,物理,历史,法律,医学和伦理——来测试知识和解决问题的能力。 2. 它可以是个人导师,根据您的学习风格量身定制。或者它可以是一个创意合作伙伴,帮助你规划内容策略或制定商业计划。 从去年 12 月的发布来看,Gemini Ultra 的特长是多学科复杂知识的理解和处理上、在MMLU(大规模多任务语言理解)测试框架中,Gemini Ultra 的得分是 90.0%,在新的MMMU(专家 AGI 的大规模多学科多模式理解和推理)基准测试中取得了59.4%的分数。有消息称,Gemini Ultra 1.0 动用了五倍于 GPT-4 的算力进行训练。 GPT-4与Gemini Ultra的性能对比,来自Google技术博客 但在 2023 年 12 月 6 日发布时,谷歌表示还在对 Ultra 版本进行微调、强化学习和有对抗的安全检查,至于这一部分工作进展如何,发布中并未提及。不过 Alphabet 的首席科学家 Jeff Dean 表示 Gemini 1.0 技术报告已经更新,重点在第六节和第七节,主要提及 Gemini 1.0 的 Post-trainning(训练后微调)以及模型评估、产品评估等内容。(Gemini 1.0 技术报告下载链接:gemini_1_report.pdf (storage.googleapis.com)) 关于付费计划,谷歌称之为 Gemini Advanced,集成在 Google One AI Premium Plan 权益里,标价每月 19.99 美元,比 ChatGPT Plus 便宜一美分,赠送两个月免费试用期和 2T 存储空间。购买之后,就可以在 Gmail、Google Doc 里使用 Gemini——当然,现在还不行,Coming Soon。 此外,谷歌也公布了由 Gemeni Ultra 支持的 Advanced 付费服务,在谷歌生态内的渗透情况,最吸引人的大概是其和 Google Assistant 适配。如果你用的是谷歌的 Pixel 系列手机,那么通过语音“hey google”即可呼出 Gemeni Ultra,既可以为刚刚拍摄的照片起个标题,也可以围绕你正在阅读的文章,提供解读服务。未来还可以对智能家居进行控制。 iOS 系统上,在谷歌应用里,也可以实现到 Gemini 的一键切换,只是在整体体验上,遵循 APP 逻辑,不如Pixel、安卓原生支持 Gemini 的体验丝滑。 在办公工具的协同上,Gemini 1.0 的优势在于提供基于搜索引擎结果的可靠内容,且会有意在回答中添加一些结构化数据,比如表格,表格同样可以便捷导入 Google sheets。 巨头反击的最好方式:攥紧拳头 如果说昨天的发布,绝大部分都回应了 2023 年 12 月的预告,在大家的意料之中,那么 Bard 品牌的消逝,对 Gemini 品牌的全线扶正,则给了人们惊喜,也体现了谷歌的决断力。 巨型企业,为了长期保持竞争力,通常会采用“赛马机制”,在内部多线、并行的对某一领域、某一赛道开展进攻,通过内部竞争来保持活力。但这也让人员变得臃肿、注意力变的分散,当真正的挑战者到来时,巨头往往不能及时调集全部资源,做出反应。投资界将其称之为“创业者的机会窗口”。 2014 年,在收购完成后,Google 几乎拥有世界最强的两个 AI 团队:Google Brain、Google Deepmind,他们创造了 AlphaGo,发明了 Transformer,却在生成式 AI 时代的早期被击溃。 Google 的力量太分散了,且缺乏危机感。 在很长一段时间里,人们很难说清楚 Google 到底有多少个 AI 技术框架和产品:Transformer 、AlphaGo、Bard、Bert、Duplex、Pathways、Imagen、PaLM 1.0/2.0,包括Meena,后来更名为 LaMDA。 Google 实际上很早就注意到了 GPT-3 的表现,但受限于复杂的组织架构和分散的资源,并未引起足够重视。2020 年,Google 基于自己的 Transformer 论文孵化出了 ChatBot :Meena,但据说一直被内部力量阻挠发布、商业化,直到一年后改名 LaMDA 面世。 负责 Meena 项目的两名研究员 Daniel De Freitas 和 Noam Shazeer,因此拒绝了谷歌的多次挽留,愤而离职,创立了今天爆红的 character.ai。 痛定思痛的谷歌,第一刀就砍向了组织:2023 年 4 月,Google DeepMind 和 Google Brain 合并,一致对外。 第二刀发生在昨天:全线收束品牌,全部归拢在 Gemini 之下。Gemini 其实不是 Google 在生成式 AI 领域的推倒重建,它是过去谷歌技术积累的总和——从前人们会讨论,使用了 Pathways 方法的 PaLM 2.0 表现如何,Imagen 在多模态领域表现如何,但今天,只看 Gemini 就可以了,它是一个在 Transformer 基础上创建,融合了 Pathways 方法和 PaLM 成果的全新模型。AlphaGo 的 深度学习能力、Imagen 的多模态能力,都在其中得以彰显。 此外,OpenAI 的成功,持续给谷歌带来强大的压力,也迫使谷歌放弃过于保守的心态。 2月9日有消息称,OpenAI的年化收入已超过20亿美元,据两名了解该公司财务状况的人士称,该公司年运转率(将前一个月的收入乘以12)在2023年12月达到了20亿美元的里程碑。消息人士补充说,OpenAI相信,由于企业客户对使用OpenAI的技术推进生成式人工智能工具在工作场所的运用有浓厚兴趣,该公司可以在2025年将这一数字增加一倍以上。 在 OpenAI 的刺激下,从 PaLM 2.0 到 Gemini 1.0,谷歌用仅仅几个月的时间,实现在各种测试机准上的成绩大幅提升。谷歌的动作也更加敏捷了,2023 全年与生成式 AI 相关的公司级重大发布、调整动作多达 4 起,为历年之最。 此外,谷歌终于发现,相比 OpenAI,自己在生态层面有着巨大优势——在与 OpenAI 争夺用户、客户时,战场不应局限在 Web 端的 Chatbot,而应该扩展至手机、APP、应用平台、办公套件、云服务等多个维度。 到头来,或许谷歌会发现,原来击败 OpenAI 的诀窍并没有多神秘,自己要做的仅仅是攥紧拳头,合力一处。
消息称SK海力士、台积电将建AI半导体同盟,对抗三星“交钥匙”方案威胁
IT之家 2 月 9 日消息,据韩媒매일경제近日报道,SK 海力士已制定了 One Team 战略,将与台积电建立 AI 半导体同盟,对抗三星电子在 AI 半导体领域交钥匙方案的威胁。 据了解,SK 海力士这一战略的内容主要包括与台积电一同开发下一代 HBM 内存 —— HBM4。根据IT之家早前报道,SK 海力士计划于 2026 年前实现 HBM4 量产。 在 HBM4 世代,HBM 内存的逻辑芯片部分将交由逻辑代工厂生产,而非由内存芯片厂商自行生产。三星电子目前是唯一一家同时生产先进逻辑芯片和内存芯片的晶圆厂,在这一方面占据优势。 HBM内存结构示意图,图源AMD官网 同时,目前 SK 海力士在 HBM3(E)市场占据先发优势,拿下了 AI 硬件领军企业英伟达的主要订单。与这些内存配对的 GPU 核心由台积电生产,接下来内存与 GPU 的 3D 封装集成也由台积电负责。 而目前弱势的三星可提供从核心芯片代工到 HBM 内存供应再到高级封装的 AI 半导体全流程“交钥匙”方案。SK 海力士和台积电结盟可对抗三星对市场份额的进攻。 此外,未来 AI 半导体将从 HBM 时代的 2.5D 封装走向 3D 堆叠逻辑芯片和存储芯片的新型高级封装。存储企业同芯片代工 + 高级封装企业的合作有利于相关研发推进。 对于相关传言,매일경제引述 SK 海力士发言人的谈话表示,无法证实与其伙伴有关的任何细节。
这位香港人,被“AI换脸”骗了2亿
从去年开始,有一个词儿开始频繁出现在我们的日常生活,它就是「AI」。 小伙伴们别不信,仔细想想日常的衣食住行,是不是多少都有点AI的身影了? 就拿小雷来说,看外语视频会用手机AI字幕,去哪玩有AI推荐地点和规划路线。 在外吃饭写评语直接用AI生成,网购买衣服可以用AI进行试穿瞅瞅效果怎么样。 可以这么说,AI的出现能帮助我们做到更多的事儿,从而实现省时省力的效果。 图源:小雷手机截图 但是,小雷又要说但是了嚯。 AI在带给我们工作生活便利的同时,也诞生了一系列围绕AI的投机或者犯罪行为。 这不昨天才曝光出来的热乎新闻,香港发生了一起当地史上最大的「AI诈骗案」。 此案涉及金额高达2亿元港币(约合当前1.84亿元人民币),这可不是一笔小数目! 那么问题来了,骗子是怎么通过AI实施骗术的?这类骗术有没有什么破解办法呢? 香港史上最大AI诈骗案 据港媒报道,这起AI诈骗案发生在一所跨国公司,报案人为该公司的香港分公司的员工。 喏,这名员工在上个月收到了来自英国总部首席财务官的邮件,对方称要进行「机密交易」。 虽说该员工最初依然抱有警惕性,但经不住对方多次邮件的轰炸和软磨硬泡麻醉,最终他还是答应和对方进行视频电话。 这时候骗局进入下一环节,该员工在视频电话里看到所谓的首席财务官,甚至还看到了其他几个相识的财务职员。 首席财务官要求该员工尽快转账,随后便中断视频电话,该员工已经完全相信了这场「机密交易」。 So,他前后15次分别向5个香港本地账户转账合计2亿港元。 直到骗局发生几天后,该员工觉得不太对劲,在向英国总部求证后,他才发现自己上当受骗了。 据香港警方介绍,骗子通过公司在YouTube和其他公开渠道的媒体素材,合成伪造英国总部首席财务官的外貌和声音。 接着利用Deepfake(深度伪造)技术,为其他出席视频通话的其他人换上高管和同事的外貌及声音,也就是我们常说的「AI换脸」。 而且会议主要是上级向下级下达转账命令的形式,事实上整个视频通话他就只做了一次自我介绍就闭麦了,没有机会和其他脸熟的员工交流。 目前香港警方表示,这个案件还在进一步调查ing,现在还没有逮捕任何嫌疑人。 警方之所以要在案件告破前率先把案情公布,是想提醒更多公司和个人,避免这类AI骗局再次得逞。 图源:yahoo!新闻@鉅亨網新聞中心 神乎其神的的Deepfake So,Deepfake技术真有那么神奇?人一换上别人的「脸」真的很难分辨吗? 喏,所谓的Deepfake,其实是Deep learning深度学习和Fake(伪造)的合成词。 中文译为「深度伪造」,指使用深度学习技术生成合成图片、视频或音频的技术。 图源:网络 Deepfake技术最常见、也是我们最熟知的应用,就是用来进行「AI换脸」。 一开始是采用基于图形学的 3D模型重建追踪技术 ,后面又加入了 深度学习技术 。 如今为了减少深度学习的训练难度和提升生成质量,又加入了 生成对抗网络技术。 这些名词要意义解释起来,小雷写一篇文章肯定是不够的,咱们就往简单了说嗷。 小伙伴可以这么理解: Deepfake模型通过大量面部图像数据的训练,就可以学习到人脸特征之间的隐藏关系,从而生成和真实人脸特征十分相似的虚假人脸。 而且嚯,换脸技术通常伴随着声音伪造技术一起使用,俩Buff叠加能达到更加逼真的效果。 结合今天说的这个AI诈骗案,将视频分成数量足够多的图片,再将图片中的人脸替换,就可以得到另一张人脸的视频。 So,这个案件中其实除了被骗员工外,视频通话中出席的其他人都是利用Deepfake套上「假脸」的诈骗团伙成员。 目前,Deepfake技术主要应用在影视制作、虚拟游戏等领域,这些还是比较正面的应用。 都说「科技是把双刃剑」,Deepfake技术也逃不过这个定律。 emmm, 目前Deepfake还被用于伪造名人、明星以及素人的不雅视频。 比如上个月,由AI生成的美国流行歌星泰勒·斯威夫特不雅照,就在网上广为流传。 这事儿甚至还让X平台采取紧急措施。 平台已阻止用户搜索和泰勒·斯威夫特英文名「Taylor Swift」的相关内容,以打击Deepfake行为。 图源:微博@环球网 识别AI换脸这么操作 问题又来了,Deepfake效果这么以假乱真,普通人难道只有上当受骗的份吗? 非也非也,从上面说到的Deepfake原理出发,小雷给大伙总结了几招实用小技巧。 首先「AI换脸」想要效果逼真的,Deepfake必须经过大量的人脸图像数据来训练。 而大多数人像训练模型需要寻找人脸上足够多的对齐点支持,才能正确对齐换脸。 So,我们普通人一来并没有那么多的公开照片,二来照片绝大多数又是正面拍的。 这时只要让AI换脸的人侧面,脸上对齐点变少+侧脸数据训练不足就非常容易露馅。 还有一招,在视频通话时要求对方用手在脸上来回晃动。 如果是AI换脸的人脸,因为手和人脸图像重叠,可能会导致Deepfake实现出现混乱。 而且手在面前摆动,也会让伪造的人脸出现覆盖延迟,这样的纰漏我们一眼就能看出来。 总之,AI技术的出现确实是件好事。 但随之带来的诸如Deepfake技术被滥用等问题,也是一件令人十分头疼的事了。
Google也推出了“AI付费套餐”,和ChatGPT比哪个值?
过去一年,我为 AI 花不少钱了,这时代的弄潮儿可不好当。 为了学做插图,我一个月交给 Midjourney 10 美金;后来,ChatGPT Plus 我也订阅了,一个月 20 美金,随便聊,高峰期不用等;再之后是 Perplexity,更贵。 嗯,老板的期望嘛……丨Giphy 老板夸我,“用 AI 武装得不错,但是,工作效率能不能再提一提?你就不能一边写稿子,一边做数据图,再一边写周报邮件吗?” 不愧是老板,这话问得我有点迷糊。 不过好在,刚刚,Google 推出计划,用户可以每月花 19.99 美金订阅 Google One AI Premium,使用支持 Gemini 的 Gmail、Docs,Sheets,Slides 和 Meet——也就是说,你可以在谷歌办公全家桶中畅享 Gemini 的 AI 功能了。 专为打工人准备的20美金套餐……丨Google 自费上班的花销又多了一笔,我看老板这回还能说啥。 都 20 美元,哪一个更值? 同是 20 美金,服务各有千秋。 如果你买了 ChatGPT Plus,能用上 GPT-4,DALL-E 3,当然最让人兴奋的是,OpenAI 创建的类似 App Store 的生态,用别人做的“教学机器人”教小孩数学,再给自己做一个“读书指南”(这世界都清净了不少)。当然也可以借助 Zapier,在 ChatGPT 内将应用连接起来,比如日历—短信(把日程安排通知给同事)。 但是,如果你更习惯传统办公软件的工作流程,想必也疲于了在 ChatGPT 网页和文档间来回切换。 AI 再“务实”一点呢?以学习成本最低的方式,进入普通人如你我的工作和生活。 Google 的思路如此:刚刚发布 Gemini Advanced,能在 Docs 中生成文本和总结文档;在 Sheets 里分析数据并生成图表;在 Gmail 上帮你撰写拿捏不准的词句表达等等。 “全家桶”是一种得天独厚的场景优势丨Google 使用 Gemini Advanced 的前提是订阅 Google One AI Premium,Google One 是谷歌提供的在线云存储服务,供其“全家桶”(Google Workspace)使用。所以,AI Premium 的 20 美元中还包含了 2TB 的存储空间。 一个20美元不算贵,但是积少成多啊……丨Google 为 Gemini Advanced 供能的是 Gemini Ultra 1.0 大模型,Google 迄今规模最大且功能最强大的模型,适用于高度复杂的任务。模型另外两种尺寸分别是:Gemini Pro ,适用于各种任务的最佳模型;Gemini Nano,端侧设备上最高效的模型。 除了 Google 和 OpenAI 这两家,另一个“20 美元套餐”的选择是微软。也是不久前,微软也推出个人版 Copilot Pro,同样每月 20 美金订阅费,就可以使用受到 Copilot AI 能力加持的 Word、Excel、PowerPoint 等。 如果武装不了自己,至少先武装手机 两个月前,谷歌发布了 Gemini,多模态 AI 模型。所谓“多模态”,意指对文字、语音、画面等各种信息形式,同时做到接受,理解,表达。接近人类天然对于外界的理解和交互方式。 Google 之前类 ChatGPT 的 AI 产品叫 Bard,现在统称为 Gemini(就是产品名和模型名用一个了,域名也从 bard.google.com 更改为 gemini.google.com),除了网页端,还将推出安卓版的 Gemini App,iOS 用户能在 Google app 中体验到。目前网页端 Bard(很快就都叫 Gemini 了)采用的是 Gemini Pro 模型,支持 40 多种语言对话,包括中文;支持文生图(只支持英文)。 以后,都叫Gemini了丨Giphy Google 展示中,用手机拍下一张照片,问 Gemini 照片里有什么,它会给你讲,“带刺的仙人掌增添了一丝沙漠的气息;简单形状和自然纹理搭配出一种平静的和谐等等”。(早有这东西,我小学看图写作文,也不至于总不及格。) 手机端的AI应用是更多人期待的丨Google 虽然未展示更多,但可以期待,这样的应用能极大方便我们观察和理解周围环境,比如问它街边的一朵花是十字花科,还是仙人掌科;又或,它把刚听到的一篇“长篇大论”,总结给你听;再或,根据距离传感器和摄像头,综合能告诉盲人,比“前方有障碍物”更多的信息,“它距离你还有五步。” 网页端和手机端,未来都将扩展不同的模态,并逐步支持新的语言和地区。 光有模型才不够,要人人能用 之前 Google 公布对 Gemini 的测试结果时,Gemini Ultra 吊足了胃口: Gemini Ultra 在大型语言模型研发被广泛使用的 32 个学术基准测试集中,在其中 30 个测试集的性能超过当前 SOTA (最好/最先进)结果。 Gemini Ultra 在 MMLU(大规模多任务语言理解数据集)中的得分率高达 90.0%,首次超过了人类专家,MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目,用于测试世界知识和解决问题的能力。 在图像基准测试中,Gemini Ultra 无需对象字符识别 (OCR)的辅助,表现优于以前最好的模型。 基于这些成绩,“Gemini Advanced 将提供一种在推理,遵循指令,编程,和创造性协作方面表现更好的全新体验。”从模型层面来说,增强推理能力和多模态能力是行业基本的共识。 Gemini Ultra终于来了,留给GPT5的时间不多了丨Google 就像刚才提到,多模态 AI 将不同的感知方式互为补充,共同构成对现实世界尽可能全面的描述。它可能不仅是一个能改错别字的挑错工具,而是一个根据你自身风格定制的“编辑”;或者,还能根据你提供的复杂、非结构化的数据,提纲挈领地制定策略。 大家的畅想挺多了。Google说,也已经开始训练 Gemini 的下一个版本。不需要“创造用户界面”,从消费级产品,到开发者API,它说:Gemini 是向着生态发展的。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。