EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
创始人自曝:30名工程师撑起9亿用户社交帝国!却引安全专家怒斥:太不拿安全当回事了
原标题:创始人自曝:30名工程师撑起9亿用户社交帝国!却引安全专家怒斥:太不拿安全当回事了 整理 | 屠敏 近段时间,全球知名的跨平台即时通信软件 Telegram(非正式简称 TG、电报、纸飞机)被推向风口浪尖,起因是其创始人 Pavel Durov 在采访时透露,「整个公司只有 30 名工程师,没有人力资源(HR) 部门,就连公司唯一的产品经理,也是 Pavel Durov 本人担任。」 本是简单一句介绍公司内部分工的话语,却让他始料而未及的是,此话一出,外界的安全专家们着急了,纷纷指责 Telegram,认为他们仅部署这么一些人无疑是在刺激网络攻击者们,甚至直言:这是一个危险的信号、简直是“安全噩梦”。 全球第三大受欢迎的聊天软件、用户量超 9 亿的 Telegram 之所以如此担心,主要是因为 Telegram 名气太大,用户太多。 据 SimilarWeb 发布的《2023 年全球最受欢迎的聊天应用程序报告》显示,Telegram 是继 WhatsApp、Facebook Messenger 之后,排在全球第三的聊天应用程序。 图源:https://www.similarweb.com/blog/zh/research/market-research/worldwide-messaging-apps/ 同时据《金融时报》报道,Telegram 于今年三月已实现数亿美元营收,并拥有超 9 亿用户。 对比之下,国内于 2011 年推出的微信,如今在成为国民级应用程序之际,据腾讯 2024 年第一季度的财务报告显示,微信及 WeChat 的合并月活跃账户数量已接近 14 亿。而 Telegram 自 2013 年推出以来发展到 9 亿用户量,可见其发展速度也并不慢。数据显示,这款即时通讯应用安装量最多的国家分别是印度、印度尼西亚和俄罗斯。 正因此,支撑这么大体量的软件,Pavel Durov 自曝内部工程师数量,也让人为内部的防御能力以及安全性捏把汗。 不过,在 Pavel Durov 本人看来,他似乎并不担心公司只雇佣了 30 名工程师,因为他觉得这是团队内部“超级高效”的体现。从 Telegram 发展的过程中,也不难看出他一直有足够的「技术」底气。 “俄罗斯版的马克·扎克伯格” 在外媒的报道中,大多数都会以「俄罗斯版的马克·扎克伯格(Facebook 创始人)」来形容 Pavel Durov,因为他以独特的着装风格而闻名,他只穿“黑色”。 Pavel Durov(图源:维基百科) 同样,Pavel Durov 也是在读大学期间,设计了一款受欢迎的论坛 spbgu.ru。后来,当然也是看到了 Facebook 的日渐流行,萌生了创建一个俄罗斯社交网络的想法,并将其付诸行动,基于 spbgu.ru 扩展,将新创建的项目命名为 VKontakte,简称 VK,在俄语中有“保持联系”的意思。 在创建过程中,VK 吸引了获得国际数学和编程竞赛冠军、也是 Pavel Durov 的哥哥 Nikolai Durov 的加入,担任这家初创公司的 CTO。两兄弟共同努力实现一个目标,即为俄罗斯网络打造一个更快、更好的 Facebook 版本。 很快,VK 拥有 Facebook 用户所熟悉的所有功能,包括用户资料、直接消息、发布内容的空间,以及最重要的用户个人信息展示。由于最初的大学论坛 spbgu.ru 只有收到其他用户的邀请才能使用,但随着 VK 迅速流行起来,该应用取消了邀请要求,其用户数量开始飙升。 不到一年的时间,VK 就击败了竞争对手 Odnoklassniki,成为俄罗斯最受欢迎的社交网络,用户群达到 100 万。 然而,Pavel Durov 实现技术乌托邦梦想的道路并不总是一帆风顺。到 2010 年,VK 的用户已超过一亿,其广泛的影响力引起了俄罗斯政府的注意。 2011 年 12 月,一波抗议浪潮席卷全国,反对议会选举结果。为了挽救局势,联邦安全局要求 VK 关闭使用该网站协调和集会抗议活动的群组和页面。Pavel Durov 在回应了他们的要求时,发布了一张穿着连帽夹克的狗吐舌头的照片。 最终,Pavel Durov 因为坚持保证社交网络信息的保密性原则,被迫将手头剩余的 12% 股份卖给了俄罗斯网络资讯供应商 Mail.ru,辞去了 CEO 一职,离开了俄罗斯。 这次的离开,也造就了 Telegram 的崛起。 Telegram 的崛起 离开俄罗斯短短几个月后,2013 年 8 月,Pavel Durov 灵机一动,推出了加密聊天服务 Telegram。 据报道,Pavel Durov 在 VK 被收购后带着 3 亿美元离开了俄罗斯,他用了这笔钱为 Telegram 项目提供了资金和基础设施。他的兄弟 Nikolai Durov 依然专注于编码,并创建了 MTProto 协议,这是该通讯服务的基础。 MTProto 移动协议 来源:Telegram 有了之前的创业经历,Telegram 发展得很快,该服务于 2013 年 8 月 14 日在 iOS 上推出,并于 2013 年 10 月 20 日在 Android 上推出。 随后相继带来 Bot API(机器人)、频道、超级群组、端到端加密的秘密聊天功能、 Passport、视频通话等多种功能。 2021 年,由于 WhatsApp 宣布更新其隐私政策,同时要求用户允许与母公司 Facebook 共享数据时,Telegram 作为强有力的备选,吸引了更多用户的使用。当时有数据统计,2021 年 1 月,Telegram 用户突破 5 亿;到了 2021 年 8 月底,全球下载量已经达 10 亿次,2022 年 6 月,Telegram 的用户量突破 7 亿。 号称全球没人能监控的聊天软件 Telegram 的成功,不仅靠竞争对手的成全,也有自身的实力。以 Nikolai Durov 为 Telegram 创建的 MTProto 协议来看,它可以实现一对一的聊天提供端对端加密,加密模式是基于 256 位对称 AES 加密,RSA 2048 的加密和 Diffie-Hellman 的安全密钥交换协议。 当时为了验证自己的安全性过硬,Telegram 每年都会组织了一场安全性的竞赛,倘若有人发现秘密聊天实现中的潜在漏洞,就奖励 10 万美金。 根据 Telegram 官方更新的发展历程来看,这么多年来,似乎只有在 2013 年 12 月,也就是 Telegram 成立的当年,有过一个人拿到过这笔奖金。 当时 Telegram 表示: habrahabr 用户x7mz发现,如果 Telegram 服务器被恶意第三方控制,它可以向参与秘密聊天的每个客户端发送不同的随机数。 引入这些随机数是为了为秘密聊天密钥增加更多随机性,主要是因为移动设备上的随机生成器可能存在未被发现的漏洞。 正如有人指出的那样,这种解决方案还可以在中间人攻击的情况下,使共享密钥的可视化表示完全相同--前提是这种攻击是由被夺取的服务器实施的。显然,该服务器一直处于 Telegram 的控制之下,因此这种理论上的威胁从未有机会实现。 来源:https://telegram.org/blog/crowdsourcing-a-more-secure-future 网络专家质疑 话虽如此,安全专家还是持质疑态度,他们认为 Telegram 默认不启用端到端加密,导致用户必须启动“秘密聊天”才能启用端到端加密,这样 Telegram 或除预期收件人以外的任何人都无法读取消息。此外,多年来,许多人对 Telegram 加密的安全性表示怀疑,因为该公司使用自己的专有加密算法。 虽然 Pavel Durov 也曾在 2017 年发文对于《为什么 Telegram 不默认启用端到端加密》做出一些回应(https://telegra.ph/Why-Isnt-Telegram-End-to-End-Encrypted-by-Default-08-14),其表示: 像 WhatsApp、Viber 和 Line 这些受欢迎的应用,它们依赖 Apple iCloud 和 Google Drive 去存储用户的历史消息。这些备份消息不是端对端加密并在恢复时解密的。虽然看起来,作为一个用户可以自由选择放弃备份消息,但在现实中这几乎是不可能的,即使你选择注销,和你聊天的人可能不会。 这将产生一种情况,当你发送和接收的消息在云端存储时没有端对端加密,你也没有意识到它。你对真正的端到端的加密和备份零透明度。你依赖端到端的加密并且相信“没有第三方可以访问我的信息”,但你的私人数据实际上是容易受到黑客的入侵,比如从云端存储中找到它。 相比之下,Telegram 不希望用户将聊天数据放到第三方备份,也不想剥夺我们用户在其他同类软件中享受的功能。所以经过一些研究,我们决定推出两种聊天方式——加密聊天和云聊天。 加密聊天是端对端的加密聊天,不能备份聊天记录。云聊天也是采用端对端的加密,但有内置的备份,云聊天是为大多数用户设计的,与小众程序不同的是,云聊天用户,和 Telegram 上的加密聊天用户之间的流量是混合的,两种情况的加密方式相同,只是在云聊天中我们的服务器可以访问加密秘钥,这样用户使用加密聊天的事实不会被暴露。 1)与 WhatsApp 不同,我们不会将用户的数据发送给第三方。相反,我们依赖于我们自己的分布跨区域加密云存储,认为这比放在 Google 和 Apple 更安全。Telegram 迄今为止,没有透露任何云端信息给第三方。 2)与 WhatsApp 不同,由于我们内置了云同步功能,用户可以立即从多设备上同步访问历史消息,因此用户可以在 Mac、PC、iPad 甚至 Linux 服务器上感受到简单并且一致的用户体验。 3)与 WhatsApp 不同的是,你不必在本地存储所有历史消息,在你需要时随时可以从网络上下载历史消息和媒体信息,这节省了大量磁盘空间和内存占用,这对于我们发展市场用户非常重要,在 Telegram 上,本地存储空间的不足,永远都不会导致信息的丢失。 4)与 WhatsApp 不同的是,Telegram 能够为用户提供高级功能,例如永久的群组聊天最多可以有 10000 个用户成员,和不限制大小的频道(channel),这些技术无法在“端对端加密+第三方备份”的模式下实现,我们的路线图是和 WhatsApp 这种过时的架构不同的。 这是我们为什么最终采用更安全的“两种聊天方式”(Telegram 云存储比 Apple/Google 存储有更好的保护),更透明(可以看到你的哪些端对端加密的消息存在云端,哪些没有)和更多的丰富功能(我们可以实现上面提到的功能,以及更多的功能)。我们相信,从长远来看,我们的“两种聊天”方式更有意义,这就是 Kakao(2014)、Line(2015)以及 2016 年 Google Allo和 Facebook Messenger 复制的原因。这些公司做了自己的研究,证明 Telegram 的方式更具可扩展性,安全性和透明度。 不过,据 Techcrunch 报道,约翰霍普金斯大学密码学专家 Matthew Green 表示:“如果没有端到端加密、大量易受攻击的目标...这似乎将是一场安全噩梦。” 电子前沿基金会 (EFF) 网络安全总监 Eva Galperin 在接受采访时也指出,“与 Signal 不同,Telegram 不仅仅是一款消息应用程序,它还是一个社交媒体平台。作为一个社交媒体平台,它拥有大量用户数据。” Galperin 补充说道,「“三十名工程师”意味着没有人可以对抗法律要求,也没有处理滥用和内容审核问题的基础设施。如果我是一名黑客,我肯定会认为这是令人鼓舞的消息。每个攻击者都喜欢人手严重不足、工作过度的对手。」 那么,对于一家运营主流应用程序的公司,究竟该配备多少工程师? 上周,知名网络安全专家 SwiftOnSecurity在 X 上撰文称,“运营一家拥有所有正确网络安全工具和员工的公司,其成本绝对是高得离谱的......”。 对于这一看法,有网友表示,“不同意。这不是成本问题,而是能力问题。在我上一个地方,我们总共有 50 人,其中 2 人是 IT 人员,并且完全符合 SOC2、GDPR、HIPAA 标准。CIS 前 20 名。每年进行渗透测试等。预算很少,大量使用开源软件。没有发生任何事故。” 也有人称,「我一直在等待首席财务官们说 "够了"。但这还没有发生。在某一点上,太多的利润变成了运营支出,落入了安全公司的腰包。」 最后,你如何看待 Telegram 只有 30 名工程师?一家公司到底多少工程师来支撑才足够?
首富被指性骚扰,硅谷到处是野兽
作者 | 南风窗记者 贺一 编辑 | 阿树 “精力旺盛”是成功人士的标配。他们前脚还在制造具有革命意义的电动汽车,后脚就能开始琢磨如何带领人类实现火星移民,顺带着再买下全球最大的社交媒体之一推特(现改名为“X”)。 没错,说的就是在全球富豪榜上名列前茅的埃隆·马斯克。 然而,对马斯克来说,这样的精力不会只放在商业领域。最近,他便因涉嫌职场性骚扰和歧视女性的问题,被推上了热搜。 当地时间6月12日,8名被解雇的太空探索技术公司SpaceX工程师(包括四名男性和四名女性)向法院提起诉讼,指控SpaceX创始人埃隆·马斯克涉嫌性骚扰和助长性别歧视文化,并在他们提出抗议后进行报复性解雇。 SpaceX 虽然SpaceX否认了所有指控,并表示这些工程师的解雇是基于绩效评估,而非报复行为,但关于马斯克的麻烦事,远不止于此。 SpaceX工程师提起诉讼的当天,美国媒体就爆出重磅调查报道。记者采访了四十多名与马斯克相关的人士,称马斯克曾与一名员工和一名前实习生发生性关系,并要求公司一名女性为他生孩子。 截至目前,埃隆·马斯克本人尚未对这些新的指控作出详细回应。 对此保持谨慎是正确的策略,在更早的年代,这也许会被视为男性企业家的“风流韵事”,但在今天,这是实打实触及法律边界的问题。 “循循善诱” 2017年,一位刚毕业没几年的女工程师收到了马斯克亲自发来的工作邀约——成为SpaceX管理团队中的一员。 对于资历尚浅的年轻人来说,这几乎是一个完美的职业跳板。这位女工程师当然也没有理由对此说不,紧接着她就从纽约搬到了洛杉矶。 这不是这位女工程师第一次为SpaceX工作。当她还在上大学的时候,她曾在这里进行过暑期实习。这也不是她第一次与马斯克直接产生交集,当时的她曾向马斯克提出改进SpaceX的想法。 她告诉朋友,是自己的主动促成了两人的第一次约会,继而与马斯克发生了性关系——不过报道刊出后,她的律师致信媒体,否认两人发生过性关系。确定的是,一年后,两人结束了这段关系。 马斯克 如今,以正式员工入职,按照正常的发展,迎接她的,本该是忙碌的工作适应期,但马斯克似乎并不希望她“分心”在工作上。马斯克想要的,是重启这段关系。 这位女工程师也发现,等着她的,不是一个“好机会”那么简单。因为邀请她喝酒,看上去想尽地主之谊的马斯克,将手伸向了她的胸部。 接下来,马斯克开始频繁发消息给她,多次邀请她晚上来自己在洛杉矶的豪宅“做客”。有时她会接受马斯克的邀请,但据她的朋友们回忆,她曾抱怨过,马斯克的行为,使她的工作变得更加困难,并加重了她的焦虑症。 在她入职半年后,马斯克又开始了他的骚扰行为——密集性地发短信。 “过来!”他写道。当她没有回应时,他给她发了更多的信息:“要么是我,要么是早上6点锻炼”“你来吗?如果不来,我可能会昏倒。压力太大,无法自然入睡。” 最后,他写道:“我们最好别见面。” 最终,这名女工程师在2019年离开了SpaceX。但在她离开前,她签署了一份保密协议(简称NDA)。在其中一份宣誓书中,她表示,在她与马斯克断绝关系后,他们仍然是朋友。 NDA通常用来保护公司机密信息和商业机密,但在很多时候,它也是保护肇事者的身份并阻止受害者发声的工具,在性骚扰案件时常出现。 同样的手段,至少还在三名SpaceX女员工的身上使用过。 早在2022年,《商业内幕》就爆料过马斯克曾在2016年的一次飞行过程中向一位空姐裸露了自己的私处,并提出要给她买一匹马,以换取性行为。 马斯克被指控为这名空姐购买一匹马以换取性服务 这位空姐声称,在她拒绝了马斯克的“邀约”后,SpaceX减少了她的轮班。在她离职时签署的离职协议中,SpaceX向她支付了25万美元的补偿金。作为交换,她承诺不会起诉马斯克。 第三位牵涉其中的女性,曾在马斯克手下工作。马斯克要求她为自己生孩子后,两人关系恶化。她最终也选择离开了这家公司。据一位知情人士透露,这名女子收到了价值超过100万美元的现金和股票。 第四位前员工因为工作原因,一直与马斯克走得比较近。除了SpaceX的工作外,她还要处理特斯拉的事务并负责马斯克的私人生活事宜。 在2014年秋季的某一天,马斯克突然邀请她去家里喝酒,两人随后发生性关系。在第二天早上,马斯克在床上向这位女士承诺会给她特斯拉的股票,作为她额外工作的补偿。 当这段关系继续发展下去时,她希望两人的相处不仅局限在“喝酒和做爱”,但马斯克拒绝了她的提议。据知情人士透露,随着两人的关系开始变得紧张,马斯克指派其幕僚长特勒处理这名女子的离职事宜。 但马斯克并没有按照承诺给予这位女士特斯拉股票,而是一次性付清了8.5万美元的现金。只是为了拿到这笔钱,她也签署了一份协议,承诺她不会让马斯克陷入任何潜在的法律风险之中。 当马斯克明知自身权力带来的影响夹杂着诱惑与利益交换,在一种模糊的地带上,他仍选择对人性中固有的弱点肆意地玩弄。 这并非个人私事,而是系统性的侵犯。 硅谷“陋习” 马斯克名下的企业,不只有SpaceX发生过这样的事情。 早在2021年,媒体就曾报道过发生在特斯拉内部的丑闻。当时,6名女性受害人在加利福尼亚州一家地方法院对特斯拉提起诉讼,理由是在工作期间不停受到来自男性同僚和上司的性骚扰。 虽然有人曾向上投诉过,但特斯拉却将其调到其他岗位,并“友好提醒”对方通过穿着宽松的衣服来避免性骚扰。 一位在特斯拉制造工厂工作的原告,在诉讼材料中这样写道,与特斯拉传递的企业形象不同,这里的工作环境更像是“粗俗的、过时的兄弟会”。 一名就职于洛杉矶特斯拉客服中心的原告则表示,“每当马斯克发布推文,公司里的男同事都要争相拜读,再像跟风一样大讲荤段子。” 洛杉矶特斯拉门店 马斯克一直在自家社交平台X上经营“坏男孩”人设。在他看来,这是表现男性魅力的关键,但很多内容都含有令人不适的性暗示内容。 在2022年,马斯克在回应有关性行为不端指控时开玩笑称:“终于可以用'Elongate'(埃隆门)作为丑闻名称了,真是完美。” 马斯克曾在推特上发文称:如果是关于他的丑闻,请称之为埃隆门 他还曾表示正在考虑创办一所大学,校名就叫“得克萨斯科技学院”。他说,这个名称的英文首字母缩写为“TITS”,即“女人的胸部”。 这种糟糕的企业文化,并不是马斯克名下企业特有的产物。在美国,很多科技公司都存在着一种像“男子俱乐部”一样的文化氛围。随意谈论性以及开低劣的玩笑,就像是某种特殊的黏合剂,在男性员工之间营造了一种特有的心照不宣。 这些男性领导者,成了下位者眼中男性食物链顶端的楷模,竞相模仿。 优步(Uber)的创始人卡兰尼克曾被爆出相似的“陋习”。他跟人聊天时,喜欢把负责调度用车的员工称作“皮条客”(pimp),并且将Uber公司戏称为“Boob-er”(女性胸部的低俗俚语),这是因为他认为,自从创业成功以来,Uber给他带来了很多与女性交往的机会。 优步(Uber)的创始人卡兰尼克 他表示,自己找女人,就像用Uber叫车一样简单。 这影响着优步内部的职场文化,助长了内部的性别歧视和性骚扰。优步一位高级女工程师就曾在博客写道,自己入职第一天,就收到了经理给她发来的一系列性骚扰短信。 当她把聊天截图举报给HR时,HR的第一反应却是替对方求情,希望“念在他是初犯的份上”,原谅他,并表示此人业绩一直很突出,举报对他来说可能是“无辜”的错误,并不明智。 反抗无效后,她被调往另一团队,也是在这之后,她发现她曾经的上级性骚扰过很多女同事,HR每一次与她们约谈,都跟受害女性说“他是初犯”。 因为这位高级女工程师的爆料,优步被迫进行内部调查,卡兰尼克迫于巨大的压力,于2017年辞去了优步CEO的职务。 优步可能也没想到,自己就这样打响了硅谷反性骚扰的第一枪。 野蛮作风的回归 2017年,对于美国科技圈来说是一个重要年份。这一年,不光人工智能技术快速发展,揭露性丑闻的运动,也席卷了整个科技圈。 同年,大名鼎鼎的“安卓之父”安迪·鲁宾离开谷歌的真实原因被曝光——因为“性丑闻”。谷歌为了维护公司形象和感谢鲁宾的贡献,给了他一大笔遣散金钱,并将性丑闻完全压了下来。 被拉下马的行业大佬还有很多人,包括全球顶尖风投公司500 Startups的联合创始人戴夫·麦克卢尔,以及Binary Capital合伙人贾斯汀·卡拉诺。 这甚至引发了行业内的感慨:“2017年,是美国白人男性主导地位终结的开始。” 确实,接下来,硅谷迎来了谢丽尔·桑德伯格(Meta的前首席运营官),她撰写的关于女性赋权的《向前一步》,长居《纽约时报》非虚构类畅销书排行榜首位,影响了无数科技行业的女性从业者。 谢丽尔·桑德伯格 但近几年,硅谷女性领导人和那些温和而自律的理想主义者纷纷离开。先是2021年,原推特CEO杰克·多尔西离开,这位热衷冥想、热爱《道德经》、支持女性编程事业的首席执行官,带走细腻的职场文化和禁欲主义后,马斯克带着野蛮作风强势入局。2022年,桑德伯格也离开了Meta。一个短暂的时代就此结束了,硅谷不加掩饰地展露了它的本性。 硅谷专门研究多样性的咨询公司Paradigm Strategy的首席执行官乔埃尔·爱默生表示:“(十年前)当我开始在这个领域工作时,这个领域是男性主导的,但每个人都会假装为女性留有一席之地……现在,它仍然是男性主导的,但没有人觉得有必要再去假装了。” 根据麦肯锡2023年发布的《职场女性》报告,女性在科技领导职位中的比例从最高点33%降至28%,与此同时,女性离开科技公司的速度也比以往任何时候都快。 在经济萎靡不振的大背景下,与其他企业一样,看上去更为进步的硅谷也变得更为依赖男性领导人。而这些男性,如今比以往任何时候都更崇尚力量与肌肉。美国专栏作家佐伊·伯纳德敏锐地捕捉到了如今硅谷的新动向——一个由“传统男子气概”引领的时代。 硅谷 这些男性领导者练习巴西柔术,相约在八角笼中决斗。他们穿着20磅重的背心可以做200个俯卧撑,热衷每天定时定量摄取睾酮和蛋白质。就连之前一直保持经典书呆子形象的扎克伯克也开始沉迷在ins上发一些汗流浃背的赤膊自拍。 当然,马斯克更是典型中的典型,他近乎粗暴的管理方式,在他男性特质的加持下,变得更加雷厉风行和专制。 当有SpaceX员工控告马斯克在公司内助长了性别歧视文化,SpaceX内的很多人却对此不屑一顾,“马斯克就是SpaceX,SpaceX就是马斯克”,一位SpaceX前工程师在会议上听到自己的主管这样说道。当时,对马斯克持批评态度的员工刚被解雇。 SpaceX 当肌肉与领导力划上等号时,权力也越发膨胀。其中,对女性的排斥与骚扰,只是最显而易见的那部分。 更为重要的是,它证实了一件事,硅谷这个一直以创新性和多样性闻名的前沿阵地,与世界上其他企业相比也没什么不同。当市场开始波动时,他们后退的步伐甚至更大。 就像人们多次说过的那样,很多事看上去好像已经变了,但其实从未改变过。 值班主编 | 赵靖含 排版 | 诺言
主播直播中突然晕倒!猝死、压榨?带货主播大降薪,“不如街头发小广告”
今日(6月27日)14时52分左右,“钟薛高老林”直播间的主播在直播介绍时晕倒。 直播录屏显示,账号“钟薛高老林”在直播推荐水果产品时,一名白衣女主播正快速介绍产品,突然身体开始不受控制左右摇晃,手臂下意识支撑桌面,但身体很快失去平衡向下倒去,将身后的椅子带倒。女主播倒下的瞬间,依旧在快速念台词,但声音显得疲惫、飘忽。直播间瞬间传出其他人员的尖叫声。当时该直播间人数已达10.8万。 该片段迅速传播,并占据多条热搜,甚至出现该女主播“猝死”传闻。 5月底,钟薛高创始人林盛直播带货卖红薯,因42.9元5斤的价格,被网友称为“红薯刺客”而登上热搜。6月初,有媒体报道称,林盛的抖音直播账号被大量网友举报后封禁,但随后林盛发布微博辟谣。 天眼查信息显示,林盛和他创办的钟薛高食品(上海)食品科技有限公司、钟茂(上海)食品科技有限公司在近半年内,陆续5次成为被执行人,被列为失信被执行人,其中钟薛高公司被累计执行983万余元,钟茂公司被累计执行2463万元。 数日前,钟薛高还被合作方起诉。 回应:并非猝死,公司未压榨员工 不少网友在留言中询问晕倒的女主播是否安全,接班主播回复称“她没事,已经去休息了”。接替主播还多次解释,同事在生理期,此前因为下雨天气曾摔过,并未出现传闻中的猝死。 随后钟薛高CEO林盛回应红星资本局,该主播晕倒后,在后台休息后恢复正常,稍后安排同事带她去医院检查。 本人回应 当日下午,晕倒的白衣主播回到直播间辟谣称,自己在公司已经很多年了,此次事件不是剧本,不要以讹传讹,谣言止于智者,后续也会去医院检查,有结果后续也会在直播间分享。下午5点,该女主播在朋友圈发文称晕倒可能是缺氧所致,并表示公司并未压榨员工。 带货主播大降薪 曾经一晚猛赚几万元的直播带货主播,如今日子不太好过。 据《信息日报》报道,飞瓜数据显示,某电商平台今年“618”首场直播,几大头部主播如广东夫妇、琦儿、潘雨润的成交额分别为6114万元、1292.3万元、674.8万元,较2023年同期分别下跌86.4%、88.46%、77%。 “整体降了50%”“不如街头发小广告” 据《每日经济新闻》报道,多家招聘网站显示,现在兼职带货主播的时薪不乏20元—25元,比部分人兼职发传单的时薪20元—60元还要低。 天津一家直播基地的创始人刘宝励透露,据其了解,“行业有些主播的时薪已低至20元,不如去街头发小广告。” 图 / 招聘网站截图 另有业内人士表示:“以前一个成熟的带货主播月入两三万元,现在竞争力大了,最多也就拿一万多。” “主播降薪大概从去年年初就开始了。”韩一电子商务负责人陈彬豪表示,如今不管是头部主播还是中尾部的主播薪资都出现下滑,行业整体下降了50%左右。 事实上,从去年开始主播工资已出现明显下滑。据艾媒咨询数据,2023年一季度,全国带货主播的月薪从3000元至30000元不等,多数主播的月薪在6000元至8000元,从整体来看,主播薪资水平较上年同期下滑约30%。除了主播,运营、直播中控等直播间“配角”的工资也出现了约20%的下滑。 主播话语权从70%骤降至20% 陈彬豪表示,近年来,商家对主播的依赖性逐渐降低,此前“主播”在产业链条上的话语权高达70%,现在只有20%。 多位业内人士称,在激烈的平台竞争下,主播效应不再明显。有商家明确表示,不愿意把钱花在主播身上,而是更愿意投流”,此前靠主播口碑带来的忠实粉丝也逐渐减少。 刘宝励解释,平台之间的价格战直接影响了商家的策略。“如果同款产品,你贵1块钱就没有流量,平台算法一定是推荐最便宜的,这便直接削弱了主播的重要性。” 多平台出手管控!数字人直播带货或受限 真人直播带货不好做,数字人直播也或受限。 6月7日,腾讯修订《视频号橱窗达人发布低质量内容实施细则》征集意见,拟禁止提供、售卖、教学或展示平台不提倡传播的内容,如讲解和售卖虚拟人代播软件;以连麦形式,代替主播本人进行直播带货的行为。 不仅仅是腾讯,快手电商也在近期宣布对于使用AIGC(人工智能生成内容)辅助创作的直播内容,不会给予额外流量扶持,而是鼓励商家/达人真人直播。 在视频号和快手之前,电商平台对于数字人直播也并非毫无限制。 2023年5月9日,抖音首次对AIGC提出平台规范和行业倡议,承认虚拟人直播的“合法性”,但对虚拟人直播做了严格规范:必须显著标识,方便用户区分虚拟和现实,并且虚拟人背后的真人使用者需要实名注册和认证,禁止完全无人的AI直播。 在刘强东以“采销东哥”数字人的身份“亲自”下场直播带货后,数字人直播赛道就挤满了各大品牌的总裁。今年“618”期间,格力电器、海信、LG电子、洁丽雅、vivo、宝洁等品牌在京东上线了AI数字人总裁。 目前来看,从各类电商平台、MCN机构、AI巨头到各种元宇宙、虚拟人、AIGC概念相关的创业公司均在布局数字人,这一赛道不可谓不拥挤。但是,正如同大模型爆火后,赚到“第一桶金”的是卖课的商家,AI数字人爆火后,第一批赚到钱的是数字人代理商们,购买和使用数字人的商家能不能赚到钱,还是一个未知数。 来 源 | 红星资本局、信息时报、每日经济新闻、艾媒咨询、公开资料
互联战争:被群殴的英伟达
今年早些时候,外媒曝光了微软与OpenAI的一项“疯狂计划”:斥资千亿美金,定制一个史无前例的数据中心。然而,面对这一重大利好,英伟达却心情复杂: 爆料显示,OpenAI拒绝使用英伟达的InfiniBand网络设备,转而投奔以太网的阵营[1]。 众所周知,一个数据中心往往有数千甚至上万台服务器;而连通这些服务器的,正是以InfiniBand和以太网为代表的网络互联技术。 英伟达是InfiniBand路线的主要玩家,独家提供了相关的交换机、电缆等硬件设备;其余的科技公司,则扎堆在以太网赛道。 英伟达Quantum-X800 InfiniBand 交换机 OpenAI的“反水”,对英伟达而言是个巨大噩耗。 要知道,InfiniBand与以太网,彼此已互相竞争多年。InfiniBand曾一度遥遥领先:2015年时,超级计算机Top500榜单中,超半数的上榜者都在使用InfiniBand。但在当下,随着大客户陆续倒戈,InfiniBand正在输掉比赛。 去年7月,AMD、微软等9家硅谷大厂联手成立了超以太网联盟(UEC),准备彻底击溃InfiniBand。今年一季度,英伟达的InfiniBand网络设备收入,出现了环比下降[2]。与数据中心等一路狂飙的业务相比,显得格外突出。 那么问题来了: 1.英伟达的“亲儿子”InfiniBand,为何会处于劣势? 2.对于英伟达而言,互联为何是场不能失败的竞赛? 派别之争 InfiniBand的初衷,是为了解决当前算力最大的瓶颈——传输速度。 两台服务器连接在一起,“1+1”所实现的算力必定会“小于2”,因为数据传输速度远远小于服务器的算力。可以把每台服务器,想象成一座拥有一万辆卡车的小城镇;受制于客观环境,每天只能往隔壁城镇运输200卡车的货物。 数据中心则是由上千个小镇构成的王国。小镇与小镇之间的运输问题,会严重拖累整个王国的发展。 而限制传输速度的罪魁祸首,是落后的网络协议。 所谓网络协议,可以简单理解为一种“交通规则”。计算机之间的信息传输,都沿着这一“交通规则”有序进行。最初的交通规则 ,是一种名为TCP/IP的网络协议。 这项交通规则,有个明显缺陷:数据在传输时,需要经过CPU,极度占用CPU资源,导致延迟特别高。 相当于卡车运货的公路上,设有大批人工收费站。车子每开一段路,都要停下来掏出钱包缴费,造成了严重拥堵,运行效率可想而知。 在这一大背景下,全新的RDMA网络协议(远程直接内存访问)应运而生。顾名思义,它可以绕过CPU,直接访问另一台服务器的内存。换句话说,新的交通规则,将高速公路上的人工收费站全撤走了,改设成ETC。 但基于RDMA网络协议,业界却衍生出了两个不同的实现方向: 一是“外部革新派”。 基于RDMA全部推翻重来,重新构建一套网络协议,以实现极致的性能。其成果,正是英伟达的InfiniBand。全新的交通规则,使得数据传输可以同时绕过CPU与内存,相当于把ETC也撤了,直接通过GPU进行数据交互。 InfiniBand(无限带宽)这个名字,正是其极致理念的一种体现。 二是“内部改良派”。 一个热知识,以太网是最普及的局域网技术,几乎所有计算机系统都支持以太网设备。改良派的做法,正是利用RDMA网络协议,去改造以太网。 由此可见,InfiniBand与以太网的竞争,本质是同一技术路线的派别之争。 在算力供应严重不足的当下,大刀阔斧革新的InfiniBand,本应更加受到市场青睐。然而,各大硅谷巨头却“十动然拒”。不光是微软,Meta也选择全面拥抱以太网。 InfiniBand之所以如此不受待见,问题恰恰出在革新过于激进了。 激进的代价 2019年,围绕以色列公司Mellanox,微软、英特尔、英伟达三家巨头展开了激烈的竞购。 Mellanox是InfiniBand方案的唯一提供商,市值为22亿美金。为此,英特尔专门预留了60亿美金的现金流,本以为胜券在握;没想到英伟达更狠,以69亿美金的高价将Mellanox收入囊中[7]。 这是英伟达有史以来最贵的一笔收购。然而,老黄的梭哈,给英伟达带来了不菲的经济回报。 前文曾提到,InfiniBand只是一种“交通规则”;想要使用这项技术,还得搭配硬件。 然而,由于InfiniBand的革新过于激进,重新设计了物理链路层、网络层、传输层,并不适配传统的硬件,需要更换整套基础设施,包括专门的交换机、网卡、电缆。 这些配套网络设备,全部由英伟达独家提供。 相当于InfiniBand重新定义了一套更高效的交通规则,但并不适用于小镇原本的燃油卡车;为了提升送货效率,小镇还得向英伟达采购一批新能源卡车。 由此可见,InfiniBand其实是一套“专用”方案。通过推广这一方案,英伟达可以大搞捆绑销售,向客户兜售专用的配套网络设施。 因此,InfiniBand的使用成本一直很高。科技公司在建设数据中心时,需要掏出20%的开支用于InfiniBand;如果改成通用的以太网方案,只需要一半甚至更少的费用[8]。 为了让科技公司用InfiniBand,老黄可谓用尽套路: 例如英伟达同时售卖InfiniBand与以太网的网卡,两者的电路板设计完全相同,但以太网的交货时间明显更长[9]。 用于InfiniBand的ConnectX-8 超级网卡 英伟达的小算盘在于,虽然咱贵,但性能强啊。InfiniBand方案可以大大改善AI训练,早点把模型做出来投入市场,这钱不就赚回来了吗? 然而,令英伟达尴尬的是,随着“内部改良派”阵营不断壮大,InfiniBand与以太网的性能差距被缩小了。 2014年时,改良派的最新成果RoCE v2网络协议问世,改变了InfiniBand一枝独秀的局面。去年,英伟达面向InfiniBand与以太网,分别推出了一款交换机。尽管两者定位有所不同,但均能实现800Gb/s的端到端吞吐量。 当通用方案也能做到85分时,专用方案便开始失去魅力。5-10分的领先,很难让科技公司多付一倍的价钱。 而去年7月成立的超以太网联盟,则打算在RoCE v2网络协议的基础上,面向大模型这一场景,开发一套新的以太网协议,全面超越InfiniBand。 新的“反英伟达联盟”一呼百应。截至今年3月,包括字节跳动、阿里云、百度等国内科技公司,也加入了其中。 图:部分UEC技术指导委员会成员 面对超以太网联盟的“正义群殴”,英伟达没有再负隅顽抗。 过去一年,黄仁勋越来越少在公开场合提及InfiniBand。将来,InfiniBand与以太网之争或将渐渐划上句号。然而,英伟达并没有放弃互联这块蛋糕,转而将筹码押注到自家的Spectrum X以太网平台上。 因为,互联正日渐成为大模型时代的兵家必争之地。 下一个战场 今年1月,美国咨询公司Dell'Oro Group发布了一份报告,当中提到:随着人工智能爆发,科技公司对通信互联的需求激增,从而带动交换机市场扩大50%[10]。 科技公司之所以对互联这么热情,是因为在过去一年的野蛮扩张中,渐渐触碰到了天花板。而以InfiniBand和以太网为代表的互联技术,正是打破瓶颈的关键。 科技公司遇到的第一个问题,是算力开支过于昂贵。 英伟达的AI芯片,一向以昂贵著称:最新的B200芯片,单块起售价达到了3-4万美金。众所周知,大模型是一只喂不饱的“算力吞金兽”。为了满足日常使用,科技公司通常需要采购至少上千块AI芯片,这钱烧得比直接碎钞都快。 如果自研芯片,同样也会遇到类似的问题。由于芯片制程迭代放缓,提升芯片算力上限,需要付出更多的成本。 然而,由于传输速度的限制,数据中心并没有发挥出芯片全部的算力。相比于硬着头皮堆芯片,提升数据传输速度,提高算力利用率,相对更具性价比一些。 第二个问题是功耗。 随着数据中心越做越大,功耗也在直线上升。扎克伯格曾在采访中提到,近几年新建的数据中心,功耗已经达到了50-100兆瓦,稍大一点的已经达到了150兆瓦。按照这个趋势下去,300、500乃至1000兆瓦,都只是时间问题[11]。 然而,根据美国能源信息署的数据,在2022年夏天,硅谷所在的加州,总发电量为85981兆瓦[12]。面对越来越多的“电力怪兽”,电网实在有些满头大汗。 为了训练GPT-6,微软与OpenAI曾搭建了一个由10万张H100组成的服务器集群,测试了一下发现当地电网直接罢工。 目前,微软与OpenAI的解决方案,是“跨地区的分布式超大规模集群训练”。 翻译成人话就是,将几十甚至上百万块AI芯片,分散在多个城市或者地区,再借助InfiniBand或者以太网,连成一个整体——互联又一次发挥了至关重要的作用[13]。 如果说,大模型世界的准则,是大力出奇迹;那么互联的价值,就在于拔高大力出奇迹的物理上限,让scaling law的飞轮再转得久一些。 在人工智能时代,互联注定将会是最重要的议题之一;而对英伟达,以及其他科技公司而言,这都是一场输不起的比赛。 尾声 在硅谷,英伟达越来越像只“恶龙”。在互联的领域,大半科技公司都站在了英伟达的对立面。至于GPU就更不必说,大厂自研芯片摆脱英伟达,早已是个公开的秘密。 老黄这么不受待见,很大一个原因,是因为钱基本都被他赚去了。 不论是InfiniBand,还是AI芯片,英伟达都几乎做到了垄断,拥有很强的议价权。相比之下,科技公司们扎堆大炼AI,却苦于没有成熟的商业模式。大家回头一看,发现只有一个皮衣男子赚得盆满钵满,难免心有不快。 所以,也不怪硅谷大厂们都开始“自力更生”了。毕竟,“穷”才是推动进步的原动力。
小马智行往返大兴机场自动驾驶收费服务开启:一口价、不收高速费
快科技6月27日消息,出租车和网约车司机最担心的要来了,小马智行今日宣布,开启大兴机场自动驾驶接驳的收费服务,并成为北京市首批取得自动驾驶高快速路“主驾有人”商业化试点的企业。 据官方介绍,小马智行大兴机场自动驾驶服务收费计划采用“一口价”机制,参考城区服务时使用的计价规则,用户无需额外支付高速通行费。 用户可以通过“小马智行”同名手机软件,提前一天预约接送机,即可从亦庄区域内1000多个站点往返大兴机场出行。 小马智行表示:“无论是处理高速收费站、上下匝道、临时占道施工,还是应对抛洒物等常见和极端场景,这些车辆都能自如应对,其通行速度和效率甚至超越了人类司机。” 同时,小马智行还从车辆管理、座舱体验、打车流程等细节出发,持续提升服务能力,赢得了用户的高度评价。 自动驾驶“机场线”此前设置了北京亦庄核心区内600多个站点至大兴机场上下车点,大兴机场的自动驾驶接机上车点为航站楼地面1层快速接机通道17A处,送机下车点为航站楼4层5号出发门处中缘道。 运营路线覆盖城市道路和高速道路场景,包括京台高速公路、大兴机场北线高速公路、大兴机场高速公路在内的约40公里高速路。
微软承认Win11最新KB5039302更新会导致虚拟机无限重启
IT之家 6 月 27 日消息,微软昨日发布了 Windows 11 可选更新 KB5039302,22H2 用户安装后版本号升至 Build 22621.3810;23H2 用户安装后版本号升至 Build 22631.3810。 此次更新带来了大量新功能,但同时也引入了一些新的 Bug。微软刚刚更新了已知问题列表,确认 KB5039302 可能会导致某些设备可能无法启动,主要表现为反复重启。 不过好消息是,Windows 家庭版用户几乎不太可能遇到这一问题,因为这一 Bug 主要出在虚拟化环境中。 微软表示,此问题更有可能影响使用虚拟机工具和嵌套虚拟化功能(如 CloudPC、DevBox、Azure 虚拟桌面)的设备,相关团队正在调查以确定此问题可能触发的确切条件,并将在即将发布的版本中提供更新。 IT之家附上 Windows 11 可选更新 KB5039302 主要改进内容如下: 逐步推出:并非所有用户都能使用 新增功能:在设置主页上新增 Game Pass 推荐卡。用户使用微软账号登录 Windows 11 系统之后,如果用户经常玩游戏,家庭版和专业版设置主页将会出现 Game Pass 推荐卡。 新增功能:默认情况下,"显示桌面" 按钮再次位于任务栏上。要更改,请右键单击任务栏并选择任务栏设置。在页面下部,你可以找到任务栏行为。 新增功能:本次更新会影响文件资源管理器。用户现在可以使用右键菜单创建 7-Zip 和磁带存档(TAR)文件。右键单击文件时,“压缩为”项目会提供使用 gzip、bzip2 等工具压缩文件的方法。附加选项中还有一个新的压缩向导。它可以帮助你选择更多格式并添加细节。你可以使用不同类型的压缩,将许多文件添加到其他 TAR 格式的压缩包中。你还可以更改压缩级别,并选择要存储在每个压缩包中的数据类型。 新增功能:支持 Emoji 15.1,Windows 支持用于家庭分组的 Unicode 类符号形状,还可以为某些人物表情符号选择向右或向左的方向。 新增功能:用户可以使用 Windows Share 窗口来复制文件。 新增功能:此更新开始在 "开始" 菜单上推出新的帐户管理器。用户使用 Microsoft 帐户登录 Windows 之后,可以一目了然地了解帐户的好处。该功能还可让您轻松管理帐户设置。
一句话可触达200+车控动作!讯飞星火大模型已赋能红旗、奇瑞、广汽等车企
快科技6月27日消息,在讯飞星火大模型V4.0发布会上,据科大讯飞董事长刘庆峰介绍: 讯飞语音交互已广泛应用于国内外汽车市场,产品前装累计搭载超5700万套,市占率位于行业首位。 并且,科大讯飞星火大模型已赋能红旗、奇瑞、广汽等多家车企,搭载该大模型的相关车型,其星火汽车智能座舱也同步迎来升级。 据悉,升级后的星火汽车智能座舱,支持全双工语音交互、多语种多方言免切自由交换、多情感多模态超拟人交互、多模状态感知、内外部信源贯穿等能力。 其座舱内的语音控制识别更精准,大模型业务贯穿支持十轮以上的上下文语义继承,一句话可生成复杂场景,触达200+车控动作。 并且,星火汽车智能座舱的实时检索能力,打破大模型认知边界,即时信息可即时查询。 相较于传统汽车的语音交互功能,接入了大模型的星火汽车智能座舱,具备更智能、更个性化、更贴心的能力。 科大讯飞董事长刘庆峰曾分享过一个例子: 当你开车的时候,领导突然打电话进来,接还是不接?这时如果你开了一辆星纪元ES(智能座舱搭载有星火大模型),它就会帮你自动录音,转换文字,甚至可以帮你执行相关的需求,你下车的时候,领导交代的任务就完成了。 而这也是讯飞星火汽车智能座舱中,依靠星火大模型能力延展出的一个实例场景,汽车座舱大模型的发展和迭代,也将会使汽车逐步变成和车主双向陪伴的伴侣。
寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM
就像动物有了眼睛,谢赛宁 Yann LeCun 团队的 Cambrian-1 能让 AI 获得强大的视觉表征学习能力。 古往今来,许多哲学家都探究过这个问题:理解语言的含义是否需要以感官为基础?尽管哲学家们看法不一,但有一点却不言而喻:坚实有效的感官定基(grounding)至少能带来助益。 比如科学家们普遍相信,寒武纪大爆发期间视觉的出现是早期动物演化的关键一步;这不仅能帮助动物更好地找寻食物和躲避捕食者,而且还有助于动物自身的进化。事实上,人类(以及几乎所有动物)的大多数知识都是通过与物理交互的感官体验获取的,比如视觉、听觉、触觉、味觉和嗅觉。这些感官体验是我们理解周围世界的基础,也是帮助我们采取行动和决策的关键。 这些思想不仅仅能用来探究哲学概念,而且也具有实用价值,尤其是近期多模态大型语言模型(MLLM)的发展,更是让视觉表征学习与语言理解来到了实践应用的关注核心。语言模型表现出了非常强大的规模扩展行为,而多模态学习领域的近期进展也很大程度上得益于更大更好的 LLM。 另一方面,人们仍旧没有充分探索视觉组件的设计选择,并且这方面的探索与视觉表征学习的研究有所脱节。这主要是因为这方面的研究非常困难:MLLM 涉及复杂的训练和评估流程,需要考虑的设计选择非常多。 近日,纽约大学谢赛宁和 Yann LeCun 团队以视觉为中心对 MLLM 进行了探索,填补了这一空白;他们还基于这些探索成果构建了 Cambrian-1(寒武纪 1 号)系列模型。(本文有三位共同一作:Shengbang Tong(童晟邦)、Ellis Brown 和 Penghao Wu。) 论文标题:Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs 论文地址:https://arxiv.org/pdf/2406.16860 网站:https://cambrian-mllm.github.io 代码:https://github.com/cambrian-mllm/cambrian 模型:https://huggingface.co/nyu-visionx/ 数据:https://huggingface.co/datasets/nyu-visionx/Cambrian-10M CV-Bench:https://huggingface.co/datasets/nyu-visionx/CV-Bench 评估:https://github.com/cambrian-mllm/cambrian 具体来说,他们将 MLLM 指令微调用作了多种视觉表征的评估协议,如图 1 所示。 该团队表示:「我们这项研究的动机源自当前多模态学习研究的两个潜在问题:1)过度且过早地依赖语言,这是一个捷径,能弥补学习有效视觉表征的不足之处;2)现有基准可能无法为真实世界场景提供足够的指导 —— 视觉定基对于稳健的多模态理解至关重要。」 这些问题并非毫无根据,因为研究者已经开始注意到:在将 MLLM 应用于一些高难度真实世界应用方面,视觉定基正在成为一大瓶颈。 从另一个角度看,传统的视觉表征学习评估协议已经变得饱和,不能反映真实世界分布中发现的各种感知难题。另一方面,使用视觉问答(VQA)形式的语言却能提供一种灵活且稳健的评估协议。 谢赛宁和 Yann LeCun 团队这项研究的目标就是探索这种新的协议设计,并从中获取新见解以引导未来的视觉表征发展。此外,为了在这种综合设置中更好地评估视觉表征,他们还开发了一个以视觉为中心的 MLLM 基准 CV-Bench,做法是将传统的视觉基准转换成 VQA 格式。 Cambrian-1 的构建基于五大关键支柱,每一支柱都能为 MLLM 的设计提供重要的见解: 视觉表征:该团队探索了多种不同的视觉编码器及其组合; 连接器设计:他们设计了一种动态且可感知空间的新型连接器,可将视觉特征与 LLM 整合到一起,同时还能降低 token 的数量。 指令微调数据:他们基于公共数据源整编了高质量视觉指令微调数据,其中格外强调了分布平衡的重要性。 指令微调配方:他们讨论了指令微调的策略和实践措施。 基准评测:他们分析了现有的 MLLM 基准,并直观地将它们分成了 4 组,然后提出了一种新的以视觉为中心的基准 CV-Bench。 基于这些支柱,该团队构建了 Cambrian-1 系列模型,其在多个基准上都表现领先,并且尤其擅长以视觉为中心的任务。该团队也发布了这项研究的模型权重、开源代码、数据集以及模型训练和评估的详细方案。 多模态 LLM 基础知识 MLLM 研究的关键组件包括大型语言模型、视觉编码器、多模态连接器、数据整编流程、指令微调策略、评估与基准评测。具体说明及相关研究请参阅原论文。 通过 MLLM 评估视觉表征 当前 MLLM 使用的视觉编码器主要是 CLIP,因为其已经与语言预对齐了,并且易于适应到 LLM token 空间。但是,强大的语言先验可能是一把双刃剑:既能弥补学习有效视觉表征时的不足,也会削减从广泛的视觉表征学习研究中获得的见解。 该团队系统性地评估了各种视觉编码器选择(见图 2)对 MLLM 的多模态能力的影响。 他们还主张将 MLLM 评估用作一种评估视觉表征方法的稳健框架,以更忠实地反映真实世界场景中多样化的感知难题,从而更好地引导人们开发更好的视觉表征。下面我们将简要介绍其研究过程和所得发现,更多详情请参看原论文。 分析基准 基于 23 个不同视觉骨干网络,该团队使用一种两阶段指令微调过程训练了 MLLM:首先基于 ShareGPT-4V 的 1.2M 适应器数据训练连接器,之后在 737K 指令微调数据上同时微调该连接器和 LLM。 通过比较有或无视觉输入时模型的表现(见图 3),该团队得到了以下发现: 发现 1:大多数基准未能准确地度量以视觉为中心的能力,少数能度量这些能力的基准也只有非常少的样本。 Cambrian 以视觉为中心的基准(CV-Bench) 为了解决现有以视觉为中心的基准的局限,该团队提出了 CV-Bench。其中包含 2638 个经过人工检查的样本,远多于其它以视觉为中心的 MLLM 基准 —— 比 RealWorldQA 多 3.5 倍,比 MMVP 多 8.8 倍。 如图 4 和表 1 所示,CV-Bench 能通过空间关系和目标计数来评估 2D 理解能力,能通过深度顺序(depth order)和相对距离评估 3D 理解能力。 发现 2:可以将现有视觉基准有效地调整用于 VQA 任务,实现对以视觉为中心的 MLLM 能力的评估。 指令微调方案 MLLM 始于预训练 LLM 和视觉骨干网络,再通过投射器(MLP)等连接器将这些模块连接起来。该团队通过大量实验探究了不同的指令微调方案,并得到了以下发现。 对于选择单阶段训练还是双阶段训练,该团队发现: 发现 3:双阶段训练是有益的;使用更多适应器数据能进一步提升结果。 在是否冻结视觉编码器方面,该团队发现: 发现 4:不冻结视觉编码器有很多好处。语言监督式模型总是有益的;SSL 模型在以视觉为中心的基准上尤其有益。 将 MLLM 用作视觉表征评估器 该团队研究了将 MLLM 用于评估视觉表征,结果见图 6,得到的发现如下: 发现 5:高分辨率编码器可极大提升在以图表或视觉为中心的基准上的表现,并且基于卷积网络的架构非常适合此类任务。 他们也研究了基于自监督模型的 MLLM 的持续微调能否达到与语言监督模型相近的性能,结果见图 7。 发现 6:语言监督有很强的优势,但只要有足够的数据和适当的微调,可通过 SSL 方法缩减性能差距。 组合多个视觉编码器 该团队也探索了组合多个视觉编码器来构建更强大 MLLM 的可能性,结果见表 3。 发现 7:组合多个视觉编码器(包括视觉 SSL 模型)可提升在多种不同基准上的 MLLM 性能,尤其是对于以视觉为中心的任务。 空间视觉聚合器(SVA):一种连接器新设计 为了有效地聚合多个视觉编码器的特征并防止插值引入的信息损失,他们使用了一个可学习的隐含查询集合,其能通过交叉注意力层与多个视觉特征交互。 具体来说,新方法整合了两种新的以视觉为中心的设计原理: 通过为查询中的每个 token 显式地定义聚合空间,引入了空间归纳偏置。 跨 LLM 层多次聚合视觉特征,让模型能够重复访问和集成必要的视觉信息。 这种新的构建方法可以灵活地适配特征分辨率不同的多个视觉编码器,同时在聚合过程中以及与 LLM 的整合过程中保留视觉数据的空间结构。 使用前一节的最佳视觉模型组合和一个 Vicuna-1.5-7B base LLM,该团队展现了 SVA 模块的效用。 表 4 表明:SVA 在所有基准类别上均优于两个对比技术,其中在 OCR 和表格类别(需要高分辨率特征理解)上有巨大提升。 更进一步,他们以 OpenAI CLIP ViT-L/14@336 + OpenCLIP ConvNeXt-L@1024 组合为基础进行了消融实验,结果见表 5。 发现 8:空间归纳偏置以及 LLM 和视觉特征之间的深度交互有助于更好地聚合和凝练视觉特征。 用于训练 MLLM 的指令微调数据 数据收集 从已有数据源收集指令微调数据: 该团队既使用了涉及视觉交互数据的多模态基准和数据集(比如视觉问答(VQA)和 OCR 数据),还收集了少量高质量的纯语言指令遵从数据。他们还将这些数据分成了不同类别:一般对话、OCR、计数、代码、数学、科学和纯语言数据。图 9 给出了数据源。 针对性的互联网数据收集引擎:如图 9 所示,数据的分布不平衡。 为了创建大规模、可靠、高质量的基于知识的指令微调数据,该团队提出了一种数据引擎。该引擎可选取一个目标域和子域(比如物理学),然后使用 GPT-4 这样的 LLM 来识别主题(比如牛顿定律)。然后,其会针对每个主题搜索维基百科等可靠信息源。该团队发现,从维基百科提取的图像 - 文本对的质量很高。 之后,该团队使用一个解析器提取出其中的图像 - 描述元组,然后将描述文本输送给一个 LLM,比如 GPT-3.5,通过精心设计的 prompt 让其生成有关图像的指令类型的问答对。这些问答对和图像就构成了他们的 VQA 数据集。 Cambrian-10M:他们创建了一个大型指令微调数据池并将其命名为 Cambrian-10M,其中包含大约 9784k 个数据点。图 9 展示了其组成情况。 数据整编 为了提升数据平衡和调整数据比例(见图 10 和 11),该团队对 Cambrian-10M 进行了整编。 最终得到了一个更小但质量更高的数据集 Cambrian-7M。表 6 和 7 说明了对指令数据进行整编所带来的好处:尽管 Cambrian-7M 中样本更少,但所带来的性能却更好。 通过系统 prompt 缓解「答题机现象」 他们还研究了所谓的答题机现象(Answer Machine Phenomenon)。他们观察到,一个训练良好的 MLLM 也许擅长应对 VQA 基准,但缺乏基本的对话能力,默认情况下会输出简短生硬的响应。这种情况的原因是基准问题所需的响应通常限于单个选项或词,这不同于更一般更现实的用例。其它 LLM 研究也观察到了类似的现象。 他们猜测,这个问题的原因是指令微调数据包含过多的短响应 VQA 任务,这会导致 LLM 出现灾难性遗忘。 为了解决这个问题,该团队在训练期间整合了额外的系统 prompt。比如对于响应中生成单个词或短语的问题,在 prompt 中附加「使用单个词或短语来回答本问题」这样的内容。结果发现,这样的系统 prompt 可在保证模型基准性能不变的同时大幅提升其对话能力。图 12 给出了一个示例。 此外,系统 prompt 还能通过鼓励模型使用思维链来提升推理能力。 当前最佳性能 最后,利用探索研究过程中获得的见解,该团队训练了一个新的 MLLM 模型系列:Cambrian-1。他们使用不同规模大小的 LLM 骨干网络训练了模型:LLaMA-3-Instruct-8B、Vicuna-1.5-13B、Hermes-2-Yi-34B。 他们的视觉组件通过空间视觉聚合器(SVA)组合了 4 个模型:OpenAI CLIP ViT-L/14@336、SigLIP ViT-SO400M/14@384、OpenCLIP ConvNeXt-XXL@1024、DINOv2 ViT-L/14@518。他们使用 2.5M 适应器数据对连接器进行了预训练,然后使用 Cambrian-7M 数据混合对其进行了微调。 表 8 和图 13 给出了模型的评估结果。 可以看到,Cambrian-1 超过了 LLaVA-NeXT 和 Mini-Gemini 等开源模型。得益于 SVA,Cambrian-1 也能非常好地处理需要高分辨率图像处理的任务,即便仅使用 576 个图像 token 也能做到,大约只有 LLaVA-NeXT 和 Mini-Gemini 所用 token 数的 1/5。 Cambrian-1 在多个基准上还取得了与 GPT-4V、Gemini-Pro 和 MM-1 等最佳专有模型相当的性能。 图 14 给出了一些示例,可以看到尽管 Cambrian-1 只使用了 576 个 token,却能有效关注图像中的细节。 另外,从 Cambrian-1 的命名也看得出来,这是一个雄心勃勃的团队。让我们好好期待该系列模型的下一代升级吧。
TechInsights:未来五年AI芯片将消耗全球超1.5%电力,产生超10亿吨碳排放
IT之家 6 月 27 日消息,市场调研机构 TechInsights 今日发布最新预测称,数据中心 AI 芯片和加速器将继续主导全球半导体市场,从 2023 年到 2029 年,出货量将以 33% 的年复合增长率增长,达到每年 3300 万。 该机构指出,生成式 AI 用例是芯片的最大驱动力,GPU 则是需求量最大的加速器。但在功率方面,“一些简单的计算”表明 AI 所需电力将在全球电力消耗中占据相当大的份额。 以英伟达 H100 为例,其峰值功耗为 700W,与一台正在工作中的微波炉功耗大致相同。而随着超级芯片更新换代,峰值功耗仍有可能增加。一个英伟达 Blackwell 超级芯片包含两个 1200 瓦的 GPU 和一个 300 瓦的 CPU。NVL72 中有 36 个超级芯片,机架总功率为 120 千瓦。 若 2025 年至 2029 年期间销售的所有数据中心加速器在 5 年的使用寿命中持续使用,在此之间的功耗保守为 700W,则全球数据中心加速器的总功耗为 2318 太瓦时(IT之家注:1 太瓦时 =10 亿千瓦时)。该机构同时指出,考虑到对 GPU 容量的巨大需求,以及需要使用这些昂贵的资产来提供回报,这种高利用率是可行的。 而根据美国能源信息署的数据,2025 年至 2029 年间,全球耗电量将达到 153000 太瓦时。这意味着 AI 芯片将占未来五年用电量的 1.5%,是全球能源消耗的重要组成部分,这种能源使用也将转化为碳排放。 若根据能源研究所的数据来看,2023 年,电网的平均碳强度为每千瓦时 481 克二氧化碳。这意味着从 2025 年到 2029 年,AI 芯片将产生 11 亿吨二氧化碳,这些碳排放量每年需要约 500 亿棵成熟树木来吸收。 ▲ 图源 TechInsights
AI墓地,和738个死去的AI项目
作者|王艺 编辑|王博 这份死亡名单上有738个名字。 其中不乏一些曾经的明星AI项目,例如OpenAI推出的AI语音识别产品Whisper.ai,Stable Diffusion的知名套壳网站FreewayML、StockAI,以及曾被视为是“谷歌竞争者”的AI搜索引擎Neeva。 “在整个过程中,我们发现构建搜索引擎是一回事,而说服普通用户转向更好的选择则是另一回事。”Neeva 联合创始人斯里德哈尔·拉马斯瓦米(Sridhar Ramaswamy)和维韦克·拉古纳坦(Vivek Raghunathan) 在宣布Neeva关闭的博客文章中写道。 这份AI项目死亡名单来自AI工具聚合网站“DANG!”的一个子页面——AI Graveyard(AI墓地)。AI墓地页面中的大多数项目都写明了项目背景、功能、技术应用以及死亡时间,就像刻在赛博空间的墓志铭。 AI Graveyard(AI墓地),图片来源:DANG! 根据「甲子光年」统计,截至2024年6月,这份名单共收录了738个已经死去或者停止运行的AI项目,具体来看: Chatbot、AI写作等文生文产品共271个,约占37%; AI绘画、AI设计等文生图产品共有216个,约占29% AI语音、AI视频等文生音视频产品共有73个,约占10%; AI代码工具、SEO优化工具等其他类产品,约占33%。 它们因何而死? 1.不是死于“套壳”,而是死于“没能套好壳” 在AI墓地,不少都是“套壳”的产品。 比如AI Pickup Lines(AI搭讪语),用户可以用它每天免费生成10条搭讪文案,也可以选择9.99美元/月或99.99美元/月的付费订阅,从而生成无限数量的搭讪台词,并灵活地选择任何关键词;此外,用户还可以选择以499.99美元的价格购买综合数据库,获取涵盖各种主题和风格的10万多条内容搭讪内容。 然而,AI Pickup Lines存活时间并不长,2022年底上线,2023年初就关闭了。 AI Pickup Lines,图片来源:AI Graveyard AI Pickup Lines关闭的最主要原因是娱乐性大于实用性,以及随着越来越多竞品大模型能力的增强,这类接入单一API的产品也很难应对生活中复杂多变的社交场景,壁垒会越来越薄;另外,虽然这类产品可能通过广告或一次性购买获得收入,但长期的用户留存和盈利能力不足,最终入不敷出关停。AI周报生成器、AI哄女友文案生成器等“套壳”产品的死亡也都是这个逻辑。 不过,“套壳”并不是一个贬义词。 「甲子光年」曾在 《大模型套壳祛魅:质疑套壳,理解套壳》 一文中提到:非AI从业者,视“套壳”如洪水猛兽;真正的AI从业者,对“套壳”讳莫如深。但由于“套壳”本身并没有清晰、准确的定义,导致行业对“套壳”的理解也是一千个读者有一千个哈姆雷特。 前语雀设计师,现AI助手Monica联合创始人Suki在即刻上分享了“套壳”的四重进阶: 一阶:直接引用 OpenAI 接口,ChatGPT 回答什么,套壳产品回答什么。卷UI、形态、成本。 二阶:构建 Prompt。大模型可以类比为研发,Prompt 可以类比为需求文档,需求文档越清晰,研发实现得越精准。套壳产品可以积累自己的优质 Prompt,卷 Prompt 质量高,卷 Prompt 分发。 三阶:Embedding 特定数据集。把特定数据集进行向量化,在部分场景构建自己的向量数据库,以达到可以回答 ChatGPT 回答不出来的问题。比如垂直领域、私人数据等。Embedding 可以将段落文本编码成固定维度的向量,从而便于进行语义相似度的比较,相较于 Prompt 可以进行更精准的检索从而获得更专业的回答。 四阶:微调 Fine-Tuning。使用优质的问答数据进行二次训练,让模型更匹配对特定任务的理解。相较于 Embedding 和 Prompt 两者需要消耗大量的 Token,微调是训练大模型本身,消耗的 token 更少,响应速度也更快。 如果把模仿 Llama2 架构做预训练也算进去,可以看做第五阶。这五重进阶,基 本囊括了大模型“套壳”的每一个场景。 尽管都是“套壳”,但“套壳”的程度不同,现在也有很多“套壳”的产品因为精巧的设计和良好的定价策略生存了下来,甚至活得不错。 就比如说前文提到的AI助手Monica,就是通过收购ChatGPT for Google升级而来的产品。它内置了GPT-4o、GPT-4、Gemini、Claude Llama 3等大模型,因其良好的对话、搜索、总结、翻译、表格处理、图片编辑等功能,在几个月的时间里收获了几百万用户。 再比如有着“套壳之王”之称的AI搜索产品Perplexity,由于其极快的响应速度、精准的问题回复、可存档的多轮交互等特性,使其常年位居a16z的Top 50 Gen Al Web Products前十名。截至2024年5月中旬,其产品的日度访问用户量达到了300万次,相比一年前增长了5倍以上。 Perplexity联合创始人、CEO阿拉文德·斯里尼瓦斯(Aravind Srinivas)今年初就表示:“人们可以将Perplexity看做是一个AI‘套壳’产品,但成为一个拥有十万用户的‘套壳’产品显然比拥有自有模型却没有用户更有意义。” Perplexity页面,图片来源:Perplexity 还有不少独立开发者的制作的AI“套壳”产品也表现优异。 比如,有着多年市场研究经验的David Bressler就通过无代码平台Bubble搭建了一个名为的formula bot的Excel公式生成器,赚到26000美元的ARR(年度经常性收入);也有独立开发者通过在细分领域深耕,做出了AI聊天机器人平台Chatbase,其MRR(月度经常性收入)约为64000美元;此外,还有Magnific(图像超分、增强工具,5个月积累了72万用户,后被Freepik收购)、PDF.ai(通过问答来了解pdf文档的内容,其上线6天就收回成本,并在2023年9月成功突破了30万美元的AAR)等优秀的AI产品。 因此,很多AI产品不是死于“套壳”,而是死于“没能套好壳”。 2.卖会员、卖体验次数,然后呢? 除了“没套好壳”,AI墓地里产品的第二大死因,是盈利模式单一,相关产品的定价形式主要有两种:充会员和买积分换体验次数。 以文生图产品Purephotos.app和AnimeAI.lol为例,前者为企业用户提供积分购买服务,后者则将产品和服务打包成不同的套餐出售。或许是意识到了企业用户不赚钱,自2024年5月起,Purephotos开始尝试最近流行的“随用随付”的收费模式,用户生成的图片张数越多,分摊到单张图片上的费用越便宜。 Purephotos.app定价策略 图源:AI Graveyard AnimeAI.lol定价策略 图源:AI Graveyard Photofix同样如此。这是一个AI照片编辑工具,具有图像增强、去除多余人物、文生图等功能。该产品分为了“基本版”和“高级版”,基本版每张图片在0.39-5.99美元之间,高级版每张图片在0.49-9.99美元之间。 Photofix定价策略 图源:AI Graveyard 而Purephotos.app即使后来加上了“随用随付”的收费模式,但因为转变太晚,也没能挽回颓势。 「甲子光年」梳理了部分AI墓地中部分文生图产品的定价策略后发现:这些产品大多走的购买积分(credits)模式,用户购买积分的量越大,均摊到每次生成任务的价格就越便宜。然而,这些产品的底层多是接入的几个主流文生图模型的API,但是定价却并没有比其底层模型的价格低多少——以Patience AI为例,其底层接入了Stable Diffusion、Waifu Diffusion、DALL-E等模型,产品定价为15美元1000个积分,约为0.015美元/积分,如果按照生成一张图片消耗2积分计算的话,每张图片的价格约为0.03美元,这高于DALLE-2 生成单张图片(1024 x 1024 的最高规格)的0.02美元。 DALL-E 2不同规格图片的定价,图片来源:OpenAI 如此不划算的价格,如果产品或者底层技术上再没有较大突破,那么这些产品最终走向死亡也是意料之中。 即使是产品和设计上做到了足够精巧、定价机制也设置得合理,一旦巨头下场,初创公司都也会受到影响。 这就不得不说曾被视为是“谷歌竞争者”的AI搜索引擎Neeva,现在它就躺在AI墓地里。 Neeva由谷歌前广告业务副总裁德哈尔·拉马斯瓦米和Youtube前货币化副总裁维韦克·拉古纳坦于2019年联合创立,因为其主打无广告、无追踪器、优先考虑用户隐私,一经推出就广受关注。 和很多搜索引擎产品选择接入谷歌或者必应的API不同,Neeva选择从头开始构建搜索堆栈,并组建了一个50人的小团队。Neeva推出了带有更大图片和有用比较信息的购物页面,同时优先考虑Reddit和Quora等网站上的UGC内容展示在外,体育搜索的结果也变成了漂亮的全屏记分牌,搜索特定关键词的时候还可以直接带用户进入网页。 和谷歌相比,Neeva的界面更加简洁干净,比如将传统搜索结果页的蓝色链接替换为了更直观的页面,并更加强调UGC的内容。 Google(左)和Neeva(右)搜索结果比较,图片来源:Medium Neeva于2021年6月在美国正式推出,每月向用户收取4.95美元,短期内迅速吸引了大量用户,在推出后四个月内月活跃用户就增长到50万。到2022年初,Neeva已经将大语言模型集成到其搜索堆栈中,成为了第一个为大多数查询提供引用的实时AI答案的搜索引擎。为了在2022年扩大用户群,Neeva的基础版本开始免费向用户提供。 Neeva产品页面,图片来源:TechCrunch 为了顺应生成式AI潮流,同时也为了寻求更好的增长,2023年1月,Neeva推出搭载了生成式AI搜索产品NeevaAI。这是首批集成AI功能的搜索引擎,可以通过摘要和引文来回答查询内容,NeevaAI在推出的当月流量就超过了微软的New Bing和谷歌的AI搜索内测版。 Neeva也曾经是资本的宠儿,曾获得红杉资本、Greylock Partners等知名VC的投资,融资金额累计达到7750万美元。 然而,运营了4年后,Neeva撑不下去了:2023年4月,Neeva宣布永久关闭其搜索引擎。拉马斯瓦米发文表示,由于在吸引新用户方面面临着巨大的挑战,加之目前艰难的经济环境,Neeva将关闭网页端和消费者搜索产品,并开始To B业务的探索。2023年5月,云数据库公司Snowflake以约1.5亿美元的价格收购了Neeva。 不可否认,“AI搜索”是一个好的产品形态,从美国的Perplexity到中国的秘塔AI,流量的稳定性和不断增长的用户数验证了这类产品真实的市场需求。然而,在谷歌、微软等巨头已经占据了强势生态位的情况下,AI搜索创业公司之间的竞争是异常重资本游戏,要使用户抛弃原有习惯、转向新的搜索产品,不仅需要在产品力上做到独一无二,更是需要砸重金做营销推广,这就给AI搜索创业公司的融资能力提出了很高的要求。 同时,能否找到合适的盈利模式也是决定AI搜索产品成败的因素之一:单纯靠广告可能变现速度比较慢,而其他盈利模式(如订阅制)则因为一定的付费门槛难以吸引大量的用户,这也是Neeva在推出付费版本之后用户增长放缓的原因。 3.如何不走进AI墓地 著名的创业孵化器Y Combinator曾在2006年总结过创业公司的18种死法,包括太烧钱、不赚钱、没算力、产品没有差异化等。从AI墓地的这些项目里,「甲子光年」发现,18年前的18种死法,现在依然致命。即使是过去曾经一飞冲天的明星AI产品,也会突然在某个时刻碰壁,成为历史的尘埃。 AI墓地收录的还只是一些中小型的公司,但一些体量较大的明 星AI公司也在走向死亡或渐渐沉寂。这些公司在辉煌时期动辄估值几亿、几十亿美元,然而却在最近两年内陆续折戟——Inflection AI就是典型的例子。 2023年5月,该公司发布了首款聊天机器人Pi,它可以通过应用程序或网页、WhatsApp、Instagram、Facebook与用户进行个性化的对话。 Pi的页面,图片来源:TechCrunch Inflection AI联合创始人穆斯塔法·苏莱曼 (Mustafa Suleyman)在接受彭博新闻社采访时曾表示,尽管Inflection AI吸引了包括微软在内大量投资者的兴趣,并且拥有100万活跃日活,但它尚未找到有效的商业模式。 Pi表示自己一直由风投支持,没有商业模式,图片来源:Pi Inflection例子可以让创业者警醒——当一家AI应用公司的核心产品迟迟无法拿出足够有说服力的表现,模型层面又面临着军备竞赛的压力,那么最初“模型驱动AI应用”的逻辑或许便不再成立。 猎豹移动董事长兼CEO、猎户星空董事长傅盛曾告诉「甲子光年」:“我现在坚定地认为是产品寻找市场,用市场来反推你需要什么样的技术。过去大家对技术的好坏有一种迷信,过去很多做AI的人出身于高校、研究所或大厂,出来的人可能会认为论文关键、架构最关键,其实市场的第一性需求最关键。” 猎豹移动董事长兼CEO、猎户星空董事长傅盛,图片来源:「甲子引力」 零一万物创始人、CEO李开复今年5月提出了一个“TC-PMF”的概念,他认为,PMF(产品市场契合)这一概念已经不能完整定义以大模型为基础的AI-First(AI优先)创业,应当引入Technology(技术)与 Cost(成本)组成四维概念,即“TC-PMF”(Product-Market-Technology-Cost Fit,技术成本 X 产品市场契合度)。 在李开复看来,大模型从训练到服务都很昂贵,算力紧缺是赛道的集体挑战,行业应当共同避免陷入不理性的ofo式流血烧钱打法,让大模型能够用健康良性的ROI(投资回报率)蓄能长跑,奔赴属于中国的AI 2.0变革。“做技术成本 x 产品市场契合度,尤其推理成本下降是个’移动目标‘,这比传统PMF难上一百倍。”李开复解释。 零一万物创始人、CEO李开复,图片来源:零一万物 总而言之,Inflection的失败不能简单归因于产品的失败,而是没有找到“TC-PMF”,一味融资驱动,忽略了自由现金流、技术的可行性和成本的可控性,即使产品的市场数据表现良好,也因为商业化的短板而难逃被“收购”的结局。 当然,除了从失败者身上汲取教训,大多数人可能更关心的问题是:什么样的AI初创企业在今天能够成功? 综合来看,有两类企业存活下来的可能性更大: 第一类是真正理解了B端或C端用户需求和痛点的企业; 第二类是做出ChatGPT、Midjourney等生成式AI产品替代不了的功能,把某一细分场景打透、打穿的企业。 第一类企业中,一个很典型的案例是AnswerAI。 AnswerAI是一个面向北美市场的AI Tutor(AI家教)产品,主要的功能是拍照解题+论述。创始人周立,2007年硕士毕业于北京大学,先后在老虎地图、豌豆荚、Kika输入法和LiveIn以创始人的身份工作。 和上一波主打“拍照搜题”的AI Tutor1.0的产品不同,Answer AI是一款AI Tutor2.0的产品,不仅能搜题,还能解题,在给出答案的基础上还可以给出论证过程。题目也不局限于题库中的题,而是可以在能力范围内解答从没见过的新题目,这极大解决了学生用户“有答案但看不懂思路”“遇到新题目不会”的痛点。该产品出来之后,Answer AI在互联网上好评如潮,不少用户表示“这是我用过的最好的AI产品”。 Answer AI用户反馈,图片来源:Google Play Data.ai在5月21日发布的数据显示,在美国应用商店排名前20的教育应用中,有5款是帮助学生完成作业的AI Agent,Answer AI就是其中之一。 目前Tutor AI在全球拥有超过200万的用户,80%来自美国的高中和大学,在北美AI Tutor类产品里暂时排名第一,今年的ARR预计将达到500万美元。 而第二类企业的的典型代表,是一个名叫Bitly的URL缩短工具企业,和与其有着类似思路的vidyo.ai。 Bitly公司总部位于纽约,由彼得·斯特恩 (Peter Stern) 于2008年创立,致力于提供长链缩短链、动态二维码和定制链接缩短功能。 Bitly,图片来源:Bitly官网 这看起来不是像是一个生成式AI时代企业做的产品,但是Bitly以简洁的交互操作、稳定的服务能力、自带统计功能等特性被很多人评为“最好用的短链工具”,以X(Twitter)为例,它已经悄悄地使用Bitly取代了原先的URL缩短服务TinyURL。之前,X为了让用户节省140个字符空间,使用TinyURL服务快速且自动的缩短长URL,并获得了大量的曝光率和额外流量。 Bitly起初也并没有选择To C的PLG(产品驱动增长)路线,而是将目光投向了企业客户,通过SLG(销售驱动增长)的方式把“小螺丝刀”卖给大企业。 得益于强大的免费增值服务,Bitly很快占领了全球大部分市场,在2018年实现了接近2000万美元的ARR;2020年调整战略转向PLG之后,Bitly更是实现了“一飞冲天”式的增长。 Bitly ARR发展历程,图片来源:Medium 如今,这家古早又低调的公司,完全打破了“SaaS在美国做不了To C”的魔咒,突破了1亿美元的ARR;即使是2022年ChatGPT横空出世、很多人开始用ChatGPT等AI工具进行长链缩短链,也并没有动摇Bitly的增长基本盘。 原因很简单:ChatGPT等AI工具在面临用户“长链转短链”要求的时候,偶尔随机生成,偶尔使用Bitly的域名生成。通常来说,使用Bitly域名生成的短链不是在真实的Bitly账户中缩短的,因此生成的短链往往打开之后也是错误页面。Bitly工作人员也在其用户服务页面表示,“如果你正在使用AI工具来帮助你写文案,一定要在发布或打印你的文本之前检查你的链接。” Bitly工作人员对于部分AI工具生成短链错误的原因解释,图片来源:Bitly 和Bitly类似思路的产品,是AI视频编辑工具平台vidyo.ai。 vidyo.ai能自动一键将长视频转化为短视频,用户只需将视频上传、或是将链接粘贴到vidyo.ai,它就会自动在云端剪辑出长视频精彩片段、还能智能跟踪人脸并添加字幕,并支持适配各个短视频平台的格式。vidyo.ai可以将视频编辑和处理时间缩短高达90%,以前需要3个人近一周才能完成的工作,现在使用vidyo.ai只需15分钟即可完成。 而在目前的AI生成视频产品如Runway、Pika、PixVerse、Sora,它们均更强调视频的“生成”能力,更靠近生产端,却忽略了消费端的需求——视频生产出来之后终究是要服务用户的,而真正有市场、真正受用户欢迎的是短视频。vidyo.ai正是抓住了被巨头忽略的领域,不卷视频生成,而是另辟蹊径、更“市场需求导向”地去做AI视频剪辑产品,进而在AI视频的生态位中占领了一席之地。 2021年加入国际投资孵化器Entrepreneur First后,vidyo.ai在2022年获得了110万美元的种子轮融资,2023年就已经积累了50万+用户,ARR就达到了150万美元。 再把目光放回国内。 「甲子光年」曾关注过一家“另辟蹊径、单点突破”的企业——海纳AI。这是一家做AI招聘的企业,和很多HR SaaS公司既做AI面试、又做BPO(业务流程优化)不同,海纳AI聚焦于“AI面试测评”这一单一的场景上,为客户提供人才量化测评方法论和AI自动评估算法。 海纳AI将人才结构化拆解为200多个维度,4000多个行为特征,并基于最新开源大模型,利用数亿条高质量行业数据,自炼行业AI大模型,对人才的仪容仪表、沟通表达、综合素质、专业技能、心理状况、行业经验等均可自动面试测评。 海纳AI产品服务流程图,图片来源:海纳AI 创办五年至今,中国用工量最大的8个行业的Top3头部集团绝大部分均已使用海纳AI,如顺丰、沃尔玛、瑞幸等,每个集团每年面试10万-100万人,均通过海纳AI完成,客户复购率达到100%。 海纳AI创始人兼CEO梁公军曾对「甲子光年」介绍 ,AI招聘在过去五年发展非常慢,和过往十年大部分to B企业一样,很难做到营收过亿,因为没办法规模化,爆发点无法来临。但现在AI面试的爆点已经到了。在这个领域,专注于单点场景、已经完成PMF的公司会在未来半年内率先脱颖而出,它们已经走过了从0到1、从1到5的成长过程。接下来会迎来5到10、到100、到1000的快速爆发。 Bitly、vidyo.ai和海纳AI的共性在于,他们都找到了生成式AI巨头无法触及、或者无法做好的场景,抓住这一场景中的细分需求,打透、打穿;换句话说,他们在大厂的射程范围之外,找到了自己独特的立足点。 百川智能创始人、CEO王小川在今年5月的一场媒体沟通会上提到,百川智能希望做的是“大厂射程范围之外”的产品。“首先,中国商业环境里to B的市场规模比to C小10倍;to B收的是人民币,花的是美金。大厂都会卷这件事情,只是没想到大家这么狠,都卷到0了,这肯定是大厂射程范围内的。而我们肯定要做差异化。”王小川说。 心资本合伙人吴炳见曾经公开发表过一个观点:Mobile(移动互联网)的关键词是“竞争”,大规模烧钱竞争,赢了竞争的才有机会跑出来;而AI的关键词是“吞没”,预判好模型的发展,不被吞没的有机会跑出来。 在如今不再火热的市场环境下,融资或许是每一个AI项目面临的难题;但既然融不到资,AI创业公司所能做的,或许就是“不被吞没”,先努力靠自己“跑起来、活下来”。只要先跑赢一部分人,或许未来就能跑赢所有人。 “我一直和创业者说,千万不要追求技术的领先,不要纠结于产品中有多少是AI,有多少是人工,因为技术迭代太快了,一定要追求能不能达到商业化质量,把客户、场景、数据抢在自己手上。”金沙江创业投资基金主管合伙人朱啸虎今年5月在「甲子光年」举办的「AI创生时代——2024甲子引力X科技产业新风向」大会上说。 朱啸虎在本周的一场分享中也表达了一种“特别明显的感觉”——今年将是AIGC创业回归商业本质的开始。 这个感觉没错,但「甲子光年」认为,回归商业本质并不等于只做应用,单独的大模型公司也有价值。 看看刚刚发生的OpenAI计划封锁中国API事件,以及各家大模型公司迅速推出的“搬家计划”就知道了。尽管某些大模型公司的API收入非常少,但是这次也纷纷加入了争抢客户的大战中。 市场环境和机遇瞬息万变,对于一家AI企业来说,“护城河”并不是先决条件,当企业真正拥有了值得“护”的东西时,“护城河”才有意义。
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
编辑:编辑部 【新智元导读】近日,LeCun和谢赛宁等大佬,共同提出了这一种全新的SOTA MLLM——Cambrian-1。开创了以视觉为中心的方法来设计多模态模型,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。 在寒武纪大爆发中,视觉的出现对于早期动物至关重要。 捕食、避险、引导进化, 穿越时间,组成了多彩的世界。 大多数人类知识,也都是通过视觉、听觉、触觉、味觉和嗅觉等感官体验,以及与物理世界的交互所获得。 对应到大模型的学习,虽然更大的规模可以增强多模态的能力,但视觉方面的研究和设计似乎没有跟上。 另一方面,过度依赖语言,则可能会成为多模态学习研究的瓶颈。 近日,LeCun和谢赛宁团队推出了Cambrian-1,一项采用以视觉为中心的方法设计多模态大语言模型(MLLM)的研究,同时全面开源了模型权重、代码、数据集,以及详细的指令微调和评估方法。 论文地址:https://arxiv.org/abs/2406.16860 开源代码:https://github.com/cambrian-mllm/cambrian Cambrian-1使用MLLM指令微调作为各种视觉表示的评估协议。 整个框架围绕五个关键方面进行构建,同时也代表了作者对MLLM设计空间的重要见解: 传统协议与使用MLLM来评估视觉表征的比较:MLM采用视觉问答来解决各种现实世界感知任务。底部突出了Cambrian-1研究的五个关键支柱 Visual Representations:探索了各种视觉编码器及其组合。Connector Design:本文设计了一种全新的动态的空间感知连接器,将多个模型的视觉特征与LLM集成在一起,同时减少了token的数量。Instruction Tuning Data:研究人员从公共来源收集高质量的视觉指令微调数据,同时强调数据的平衡性。Instruction Tuning Recipes:指令微调策略和实践。Benchmarking:分析现有的MLLM基准测试,并引入了一个全新的以视觉为中心的基准测试CV-Bench。 作为这项研究的「副产物」,团队顺便训练出了一个目前性能最强的多模态模型。(红线是GPT-4V的成绩) 论文的一作Shengbang Tong是马毅教授以前在伯克利带的学生,目前在NYU读博士一年级。 马毅教授表示,这个模型是在过去几个月借谷歌的TPU训练的(等价于1000张A100的算力)。 「所以按照现在技术路线,从头到尾做一个SOTA多模态模型,基本上没有什么学术门槛。适合学AI的研究生热身。」 世界不需要另一个MLLM对打GPT-4V 谢赛宁刚刚发文表示,「世界不需要另一个MLLM与GPT-4V竞争。Cambrian在以视觉为核心的探索是独一无二的,这也是为什么,我认为是时候将重心从扩展大模型转移到增强视觉表征了」。 他继续称,从以往的研究项目(MMVP、V*、VIRL)中,团队已经看到当前MLLM系统在视觉方面存在一些意料之外的缺陷。 虽然可以通过增加数据等方法暂时解决一些问题,但一个根本问题是——我们的视觉表征能力不足以支持模型的语言理解。 短期内,像Astra和GPT-4o这样的项目,确实令人印象深刻。 然而,要开发出一个能像人类一样感知真实世界、可靠地管理复杂任务,并做出相应行动的多模态助手,薄弱的视觉感知基础,可能会成为瓶颈。 语言先验很强大,但我们不应该用它们作为「拐杖」(引用Yann LeCun的原话)来弥补视觉表征的不足。 目前,研究视觉表征学习确实极具挑战性。 虽然基于CLIP模型(由语言强监督)已被证明很有效,但同时也存在一些问题,比如属性绑定。 然而,这些模型已经存在一段时间了,令人惊讶的是我们还没有看到任何重大突破。 另一方面,视觉自监督学习(SSL)模型虽令人印象深刻,但传统的评估方法(如线性探测或迁移到目标检测)不再有效。 尽管如此,我坚信我们应该继续向前推进。 CLIP/SigLIP模型很棒,但我们需要让方法多样化,继续探索新的可能性,而不是安于现状并宣称胜利。 这一情况让人想起2015-2016年,当时大家都认为ImageNet监督预训练天下无敌,其他视觉表征至少落后10-15%。 但是,研究人员们可没被吓倒,还是继续琢磨各种新方法和任务。 直到几年后,MoCo就展示了超越监督预训练模型的潜力。 这也是开发Cambrian项目的重要原因——为更多以视觉为中心的探索铺平道路。 之所以将模型称为Cambrian(寒武纪),因为就像寒武纪大爆发时生物发展出更好的视觉能力一样,研究团队相信改进的视觉能力不仅仅是看得更远,而是更深入地理解。 最后的最后,谢赛宁还分享了本人的一些感悟: 当我从业界转到学术界时,我并不确定,我们是否能完成这种需要全栈技能的大型项目。如果没有谷歌TPU研究云计划的支持,这个项目是不可能完成的(非常感谢Jeff Dean和Demis Hassabis对学术界的持续支持)。我认为Cambrian项目证明了学界和业界是可以互补的。 爱丁堡大学机器学习博士Yao Fu表示,作为一个想要了解视觉语言的LLM学者,我发现这篇论文有极高信息量,直接回答了我的困惑。 斯坦福大学博士后研究员Karl Pertsch畅想了这项研究的前景,他认为,视觉语言模型(VLMs)在视觉方面还有很大的改进空间,机器人学也可能是一个很好的测试平台! 「对于视觉语言动作(VLA)训练(即视觉语言模型+动作),我们发现现有的视觉编码器需要大量的微调,才能在机器人控制中表现良好,不过在这一领域的评估并不容易」。 一起看看这项研究的技术细节。 开始热身 在当前的MLLM研究中,视觉组件的设计选择通常没有得到充分探索,并且与视觉表征学习研究脱节。 这种差距,阻碍了现实场景中准确的感官基础。 这项研究的动机,正是源于当前多模态学习研究存在的两个潜在问题。 1. 过早地依赖语言可能会成为一种捷径,弥补学习有效视觉表征的缺陷 2. 现有的基准可能无法为现实场景提供足够的指导,毕竟,视觉基础对于稳健的多模态理解至关重要 如上文所言,这些担忧并非空穴来风,因为研究人员已经开始注意到,视觉基础早已成为在具有挑战性的现实世界中应用MLLM的瓶颈。 与此同时,用于视觉表征学习的传统评估基准(例如,在ImageNet-1K、COCO和ADE20K等数据集上进行线性探测和端到端微调)正在变得饱和,并不能反映现实世界分布中的多样化感知挑战。 相比之下,使用视觉问答(VQA)形式的语言提供了灵活且强大的评估基准。 而这项研究,就探索了全新的协议基准,从而更好地指导未来的视觉表征开发。 各种视觉模型、目标和架构的示例 多模态领域的基准测试 为了有效评估视觉表征和MLLM,首先就需要选择能够准确评估它们多模态功能的基准。 谁来回答这个问题:LLM还是MLLM?确定基准是否真正需要视觉输入来解决,一直是视觉语言研究中的挑战。 为此而,研究人员比较了使用23个不同视觉主干训练的MLLM,分别禁用和启用它们的视觉能力并且通过随机猜测,计算了预期分数。 MLLM在启用和禁用视觉输入情况下,在不同基准测试中的表现 实验结果如上图所示,一些基准(比如MMMU和AI2D)不太依赖视觉输入,而在其他基准(如MMVP和MME)上则出现了显著的性能下降,表明后者能够对MLLM进行有效评估。 基于性能指标的主成分分析,显示基准测试的聚类情况 通过对各种基准上的MLLM性能的相关性分析和主成分分析,可以得到不同的聚类:蓝色的「通用」、黄色的「知识」、红色的「图表与OCR」和蓝色的「以视觉为中心」。 上图中的圆圈大小表示基准的不同规模,可以看到,以视觉为中心的基准非常稀缺。 于是,为了更好地评估真实环境中的视觉表征,研究人员通过将传统视觉基准转换为VQA格式,开发了一个以视觉为中心的MLLM基准——CV-Bench。 如下图和下表所示,CV-Bench通过空间关系和物体计数评估2D理解,通过深度顺序和相对距离评估3D理解。 CV-Bench重新利用标准视觉任务进行多模态评估,包含约2600个VQA问题。 指令微调 一阶段与两阶段训练 MLLM一般使用MLP作为连接器连接预先训练的LLM和视觉骨干网。 不过最近的研究建议跳过连接器预训练以降低计算成本(同时不影响性能)。 于是作者用不同大小的适配器数据进行了实验,遵循LLaVA的方法,最初仅微调连接器,然后解冻LLM和连接器。 下图表明,预训练连接器可以提高性能,而使用更多适配器数据可以进一步增强性能,所以这里采用1.2M适配器数据标准化2阶段训练方法。 冻结与解冻视觉编码器 在微调期间可以选择冻结或解冻视觉主干网络。一些人认为,解冻视觉主干会显著降低性能。 本文的实验表明,在合理的视觉模型学习率下,除了知识基准的边际变化之外,解冻有利于提高所有基准测试的性能。 MLLM作为视觉模型评估器 使用2阶段指令微调、1.2M适配器数据、737K微调数据来比较各种视觉模型对下游MLLM性能的影响。 评估结果表明,语言监督模型在所有基准类别中都表现出强大的优势,尤其是在OCR和图表任务中。 另外,尽管DINOv2等SSL模型的数据集较小,但它们在以视觉为中心的基准测试中表现很不错。 基于语言监督和自监督视觉编码器的MLLM在各类基准测试中的性能排名,包括所有基准测试(All)、一般类(G)、知识类(K)、OCR和图表类(O)、以及以视觉为中心的基准测试(V)。 组合多个视觉编码器 如上图所示,不同的视觉模型在MLLM性能的不同方面表现各有千秋。研究人员于是探索了组合多个视觉编码器以利用其独特的潜力。 鉴于不同的视觉编码器使用不同的架构和图像分辨率,这里将输出视觉标记插值到固定数字576。结果如下表所示,随着更多模型的添加,性能得到了一致的改进。 然而,这种策略有两个局限性:1)采用插值可能会导致信息丢失,特别是在具有高分辨率特征图的视觉编码器上,2)不应简单的串联每个模型,而是需要寻求一种更有效的策略,充分利用模型组合,使信息损失更少,灵活性更大。 缩小CLIP和SSL模型之间的差距 在上面的结果中,DINOv2在一般VQA和知识VQA任务上,表现处于SSL模型和CLIP模型之间,而在以视觉为中心的基准测试中优于某些CLIP模型。 研究人员尝试解冻视觉主干并增加视觉微调数据量,以缩小这一差距。 如下图所示,通过解冻视觉主干,并使用5M数据进行微调,基于DINOv2的MLLM超过了使用CLIP模型的MLLM(0.7M训练数据)。 此外,在5M数据的实验设置下,DINOv2与CLIP模型之间的差距缩小了。 新的连接器设计 为了有效地聚合来自多个视觉编码器的特征并减少插值期间的信息丢失,这里使用一组可学习的潜在查询,它们通过交叉注意力层与多个视觉特征交互。 方法结合了两个新的以视觉为中心的设计原则: 1.通过显式本地化查询中每个标记的聚合空间来编码空间归纳偏差。2.在LLM层中多次执行视觉特征聚合,允许模型重复引用必要的视觉信息。 指令微调数据 研究人员收集了所有可用的指令微调数据,并通过增强多样性、平衡来源和改进混合来检查数据管理。 数据采集 作者首先使用涉及视觉交互数据的现有多模态基准和数据集,例如视觉问答(VQA)和OCR数据。此外还收集了少量高质量的语言指令跟踪数据,以维持其语言能力。 作者还推出了一个数据引擎,帮助创建大规模、可靠、高质量的基于知识的多模态指令微调数据。 最终,这些数据构成了一个大型指令微调数据池——Cambrian-10M,包含大约9784k个数据点。 另外,研究人员还通过改进数据平衡和微调数据比率来进行数据管理。 为来自单个数据源的数据点数量设置阈值t,选择t=150k、250k、350k和450k,发现250k和350k之间的阈值对于Cambrian-10M效果最佳。 考虑到不同类型的视觉指令微调数据的不同能力,平衡这些数据类型的比例至关重要。 使用1350k的固定数据集大小进行试点实验,检查不同数据比例对下游性能的影响。从下图的结果可以发现: (1)平衡一般数据、OCR和语言数据至关重要。(2)知识密集型任务的表现受到多种因素的影响,通常需要结合OCR、图表、推理和一般感知。 答录机现象 在这里,研究人员观察到了一种「答录机现象」。 他们发现,训练有素的MLLM在VQA基准测试中表现出色,却往往缺乏基本的对话能力,倾向于输出简短的响应。 这种差异的原因在于,基准测试问题通常只需要一个选项、选择或单词的回答,这与MLLM在更广泛和现实的应用场景中有所不同。 研究人员认为,这个问题是由于指令微调数据中包含了过多的简答VQA任务,导致大语言模型出现了灾难性遗忘。 作者发现,在训练期间加入额外的系统提示可以减轻这种现象。 通过附加诸如「用一个单词或短语回答问题」之类的提示,模型的基准性能保持不变,而其会话能力显著提高。 比如下图中,带有系统提示的模型会在正确回答问题的同时,产生更长、更有吸引力的回答。 而且,系统提示还会通过鼓励一连串的思考,来增强模型在推理任务(如数学问题)上的表现。 SOTA MLLM 最后,研究人员基于之前的设计框架,训练一个高性能的Cambrian模型。 他们使用了三种参数大小的LLM进行了训练:LLaMA-3-Instruct-8B、Vicuna-1.5-13B、Hermes-2-Yi-34B。 视觉部分结合了四种模型——SigLIP、CLIP、DINOv2和OpenCLIP ConvNeXt,并使用了空间视觉聚合器。 与此同时,训练过程中采用了250万条适配器数据,以及700万条指令微调数据。 经过实验评估,性能结果如下表5所示,Cambrian-1超越了其他开源模型,如LLaVA-NeXT和Mini-Gemini,并在多个基准测试上达到了与最佳专有模型(如GPT-4V、Gemini-Pro和MM-1)相当的性能。 Cambrian-1仅仅使用了576个token,却仍能有效关注图像中的细节。 如下面两张图所示,Cambrian-1-34B在视觉交集方面,展示了令人印象深刻的能力。 从最下面的示例可以看出,它展示出了指令跟随能力,例如json格式的输出。 另外,从下图中模型处理不同的逗号的示例可以看出,Cambrian-1还表现出了卓越的OCR能力。 作者介绍 Shengbang Tong Peter Tong(Shengbang Tong,童晟邦)是NYU Courant CS的一名博士生,导师是Yann LeCun教授和谢赛宁教授。 此前,他在加州大学伯克利分校主修计算机科学、应用数学(荣誉)和统计学(荣誉)。 并曾是伯克利人工智能实验室(BAIR)的研究员,导师是马毅教授和Jacob Steinhardt教授。他的研究兴趣是世界模型、无监督/自监督学习、生成模型和多模态模型。 Penghao Wu Penghao Wu是加州大学圣地亚哥分校计算机科学专业的硕士研究生,此前于2018年在上海交通大学获得电子与计算机工程学士学位。 目前,他在纽约大学做研究实习生,导师是谢赛宁教授。 Ellis Brown Ellis Brown是纽约大学Courant计算机科学博士生,导师是谢赛宁和Rob Fergus,并获得了NDSEG奖学金。 最近,他于卡内基梅隆大学获得硕士学位,导师是Deepak Pathak和Alyosha Efros。在此之前,于范德比尔特大学获得了计算机科学和数学的学士学位,并与Maithilee Kunda一起研究CoCoSci和视觉。 此外,他曾在艾伦人工智能研究所的PRIOR团队进行过实习,导师是Ross Girshick。并且还是BlackRock AI Labs的创始研究工程师,与Mykel Kochenderfer、Stephen Boyd和Trevor Hastie合作进行应用研究与金融研究。 参考资料: https://arxiv.org/abs/2406.16860 https://cambrian-mllm.github.io/?continueFlag=c3ff0151e0b0bce48c0e12eb01147acc
用上6100mAh超大电池的一加,杀死了今年的续航比赛
一加最近两年形成了一个比较完整的产品线,那就是 Ace 系列的三款产品,再加上一款数字旗舰。 就比如去年,一加 Ace 2V 、Ace 2 、Ace 2 Pro 和一加 11 分别占据了 2000 、2500 、3000 和 4000 元价位的位置。 一加 Ace 2 这四台机器,均匀地覆盖了中端、中高端和旗舰机市场,还算是一个不错的策略。 而随着今年一加 Ace 3V 、 Ace 3 和一加 12 的相继发布,它们也都先后成为了 2000 元、 2500 元和 4000 元往上价位的新选择。 一加 Ace 3 这时托尼掐指一算,很快就发现了事情并不简单——我说杰哥( 一加 CEO ),您这 3000 块价位的 Ace 3 Pro 去哪了? 结果到了今年 6 月底,这台起售价 3199 元的机器终于和大家见面了。 作为 Ace 系列最顶级的产品,也是仅次于数字系列的次旗舰, Ace 3 Pro 的外观和配置还是有不少可以聊的。 省流:外观不再采用最近两年常用的镜头模组设计,更加简约并且符合大众审美,搭载骁龙 8 Gen3 旗舰级芯片,同时有一块超级大的 6100mAh 电池! 我去,骁龙 8 Gen3 + 6100mAh 电池,这续航得强成什么样啊。。。 而且,和同样吃上了大电池的友商一样, Ace 3 Pro 并没有变厚变重。 不过在给大家展示续航之前,咱们还是先从外观聊起,毕竟这次外观也有一些变动。 比如,在超跑瓷典藏版上面,一加这个最近两年祖传的镜头模组终于改了! 但它不像 Ace 3V 那样大刀阔斧做改变,而是仅仅去掉了模组与边框之间的衔接。 现在的镜头模组只是一个单独的不居中圆形设计,看上去更加简洁了。 不过至于大家更喜欢居中圆形镜头模组还是偏置镜头模组,就看个人喜好了,至少同事们对于这个外观的评价仍然是褒贬不一。 另一个很重要的变化,那就是 Ace 3 Pro 的白色采用了数码产品中比较少见的陶瓷背板。 一加做陶瓷机身,托尼是基本不担心什么的,因为一加一向对质感的要求很高,再加上金属边框,做工跟旗舰机比较也完全不怂。 但一加还是做了两个小设计,一是机身背部增加了非常细微的线条纹路,增加设计感的同时也让手感没那么单调。 第二点就是在镜头模组旁边增加了 Ace Performance 的 LOGO ,这个在玻璃材质的银色和素皮材质的青色机身上都是没有的。 该说不说,一加对机身材质和做工的把握确实不错,这次 Ace 3 Pro 的三种颜色采用了三种不同的材质和工艺,每种颜色的感受都不一样。 当然,陶瓷肯定是最重的那个,225 克的重量也在看齐旗舰机。。。 机身做工我们夸完了,但这个正面的观感就很普通,只是普通的曲面屏,没什么特别的设计。。。 好在这块京东方 1.5K 分辨率的屏幕素质还是很强的,之前一加手机上出现过的全局激发亮度 4500nits 和 PWM 调光、 3Pulse + 1Pulse 类 DC 调光这些应有尽有。 8K LTPO 电路设计、明眸护眼、湿手触控 2.0 以及超薄屏下指纹也一个不少,一加在堆料这方面还是挺猛的。 说完外观,接下来自然就到了大家喜闻乐见的性能测试环节。 这次 Ace 3 Pro 直接安排旗舰机同款骁龙 8 Gen3 芯片,它的性能确实很强,但由于托尼已经测过很多同款芯片的手机,所以一开始其实没有太重视。 不过这回一加整了个好活,表示 Ace 3 Pro 能运行 120 帧《 原神 》,但不是以前那种独显芯片插帧来实现的,而是真正通过 GPU 渲染出来的原生 120 帧。 这就很有意思了,难道一加这回真的掌握核心科技,让他装到了? 不仅如此,在一加官方给我们的相关答复中,他们还告诉托尼可以选择多种不同的 “ 超帧超画 ” 方案。 比如你可以流畅优先, 120 帧拉满;也可以画质优先, 720P 超到 1080P ,帧率卡到 45 帧;或者自定义模式排列组合,最高可以干到 900P 分辨率搭配 120 帧的方案。 在这样的前提下,托尼打开了 “ 超帧超画 ” 里的高帧率、超高分辨率和超级 HDR 画质之后, 30 分钟全高画质须弥城跑图下来, Ace 3 Pro 真的能做到 120 帧运行。。。 虽然到了第 15 分钟,帧数就下去了。。。 托尼看了一眼数据,可能是测试的时候 CPU 温度超过 75 度触发了温控墙,所以帧率降到了 90 。 就算帧率在 90 和 120 之间反复横跳,但平均帧率仍然有 107.6 ,这个帧率在手机阵营里面还是相当夸张的。 为了验证测试结果,我们还把测试数据发给 Perfdog 的小伙伴分析了一下,他们觉得,一加这次应该是对《 原神 》的渲染管线做了一些改动。 一加这波操作,让游戏里原本的渲染任务基础上,又额外增加了新的帧渲染任务,最终实现了真实的 120 帧渲染,而不是硬生生插帧搞出来的。 而且在测试之后,机身温度也就 46.5 度左右, 100 多帧测出来的温度跟之前测的好几款平均 60 帧手机温度差不多,能做到这一点还是很不错的。 所以这么看来,90 帧可能是一个更平衡的选择,画面很流畅,玩起来发热也不严重。 不过有一说一, 120 帧虽然有点烫手,但玩起来是真 TM 爽啊。。。 但这次我们要测的不止性能,这次 Ace 3 Pro 还有一个相当大的卖点,那就是 6100mAh 超大电池! 好家伙隔壁友商刚推出 6000mAh 电池没多久,一加又出了个更大容量的手机,这电池技术真是一天比一天先进。。。 光看这个外观和质感,它真的完全不像是一台塞进了这么老大一块电池的手机。 接下来托尼花了一整天的时间测试续航,其中 3 小时轻度测试下来,一加 Ace 3 Pro 居然还剩下 68% 的电。。。 但这只是开胃菜,我们还继续做了重度续航测试,包括高强度玩手游刷抖音,甚至 4K 视频录制,结果还有 28% 的电。。。 在 6 小时之后,手机又录了 30 分 4K 60 帧视频,然后又一直玩 “ 崩铁 ” 到关机,这次 “ 测到死 ” 续航才算结束。 一加 Ace 3 Pro 的这次 “ 测到死 ” 续航,时间为 7 小时 12 分钟。 而且咱们测续航可不是单纯刷视频,里面有将近一半的时间都在打游戏,还有相当耗电的 4K 60 帧视频录制。 所以对于 Ace 3 Pro 的这个成绩,托尼已经相当满意了。 当一块最先进的芯片碰上 6100mAh 超大电池之后,它的续航就是这么逆天。。。 而且它还有 100W 充电,不会让充满这块超大电池的过程那么漫长。 如果你只是日常轻度使用,不怎么玩游戏,那这已经不是妥妥用一天的事情了,我估计妥妥用两天都没问题。。。 以后大家要是喜欢看这种高强度续航测试的话,托尼就继续安排上。 然后是他的相机,嗯。。。超广角加一个不错的 IMX890 传感器主摄,以及一颗战术微距镜头,没了。 所以它的相机依然处于一个日常用用还不错,但遇到复杂的场景,还是没法跟顶级旗舰去比较。 ⬅️向左滑动查看样张 你说你喜欢这么好的质感和配置,还想要个好相机?简单,加钱买一加 12 。 最后总结一下,看齐旗舰的做工和质感、顶级的性能释放、以及掌握核心科技的芯片调教能力,让一加 Ace 3 Pro 成为了一款相当优雅的性能猛兽。 这也是一加最擅长的西装暴徒手机,看着做工很好,结果掏出来原神帧率还比你高。。。 这也让托尼更加期待下半年的一加 13 了,无论是做工还是整体配置,不出意外的话肯定还要更好。 只要骁龙 8 Gen4 不翻车,那么年底的水桶旗舰机推荐,可能还会有更大的惊喜。 撰文:百威 编辑:米罗 美编:阳光 & 焕妍
销量30多万的“国产之光”《边境》,在六月底悄悄死去
《 边境 》死了。 有些差友可能懵了,忘记了这是啥玩意,给你点提示。 2023 年上线,柳叶刀工作室,太空题材 FPS 游戏,开服前饱受期待的国产之光,上线后开始直播修 bug ,游戏在线玩家比现实世界空间站里的人类数量还少。。。 怎么说,现在是不是想起来,自己 steam 库里还有这么一款放到发霉的游戏。 可能有些差友已经发现了,就在前几天,《 边境 》在微博上发布了一条停服公告。 小作文不算长,但也有几百字,小发简单概括一下:游戏开发商柳叶刀工作室称自己临时收到发行商 SkyStone 发来的单方通知,说《 边境 》要在 7 月份正式停运。 双方交涉失败后,柳叶刀工作室打算要回运营相关权利和账户数据,打算有朝一日重启《 边境 》。 另外公告里还说,发行商还欠着钱没给。 愤怒的玩家还没来得及冲塔,塔自来也。 就在柳叶刀工作室发布声明的第二天,游戏发行商 SkyStone 在 steam 发布了一则英语书写的公告。 公告大意是,游戏要在 6 月底停服,停服原因是柳叶刀工作室游戏内容更新又少又慢。从 6 月底开始,柳叶刀工作室将恢复《 Boundary 》的出版权,并停止为游戏提供所有服务。 两条公告看下来,《 边境 》玩家直挠头:俺寻思自己也不是黑泽明,你们俩咋搁这上演罗生门了。 怎么说呢,就连小发这个吃瓜网友,都感觉挺莫名其妙的,总感觉自己的台词被抢了。 最冤枉的,不应该是买了游戏的苦逼玩家们吗? 开发商和发行商骂的兴高采烈,但就是不来点实质性补偿,玩家们也没啥办法,只能口嗨几句 rnm 退钱。 当时豪气的敞开钱包,支持国产游戏的时候,大家是真的没想到,这游戏在短短一年多的时间里,会以这样一地鸡毛的形式收场。 在《 边境 》上线前,它是真正意义上的国产之光, buff 层数拉满的那种。 首先,游戏工作室的三位创始人就很对玩家胃口。在柳叶刀工作室的官网,三位创始人自称是射击狂热爱好者。 其中 Frank 李鸣渤是英国海归,有资深 3A 游戏开发经验。CT 崔永亮和 Colt 邹聪则是从腾讯出来的人,这两个可就有点说法了。 CT 在创办柳叶刀之前,曾在腾讯琳琅天上经手过《 逆战 》项目,当时他策划了个在零重力宇宙环境中对战的新玩法模式,但最终没有被采用。 他的好朋友 Colt 对这个想法很感兴趣,两个人甚至搞出了世界观和概念设定雏形,却也止步于此。直到 2015 年,柳叶刀工作室正式成立。 对玩家们来说,这种离开大厂巨头逐梦的行为,十分拉好感。 如果说柳叶刀工作室的创立,给人一种 “ 反资本 ” 的爽感,那么索尼的认可,就是给《 边境 》国产之光的名头盖了个戳。 2016 年 PlayStation 发布会上,索尼公布了第一批中国之星计划,其中就有柳叶刀工作室的《 边境计划 》,这是《 边境 》的前身。 主机游戏巨头索尼和中国之星计划,相当于一块投石问路的敲门砖。 此后几年,不少游戏媒体持续关注这款游戏,为《 边境 》带来了持续的热度,也让柳叶刀初窥游戏市场的一角。 说完离开大厂单干的创始人以及被索尼青睐的好运气,接下来聊聊它被誉为国产之光的第三个原因——游戏本身。 《 边境计划 》时期,游戏还只有一个比较模糊的雏形,它由虚幻 4 开发,预定不仅要在 PS4 上发售,还要支持 PS VR 。 不过大概玩法从始至终都没有改变,游戏被设定在偏向写实风格的近未来空间战术环境里,扮演一名武装宇航员,身穿自行搭配的宇航服,手持自行组装的武器自由行动。 这个概念十分精彩,预告片也不错,但问题是,游戏光是一个预告片可不行。 在玩家们 “ 画饼 ” 的质疑声中,直到 2023 年,《 边境 》才被端上来,以抢先体验的形式发售。 《 边境 》本身立足于 FPS ,同时太空战斗这种形式,也让游戏拥有一个有趣的特点。 传统的第一人称视角射击游戏,人物行动维度基本上是前后左右再加一个上方,而《 边境 》则把探索空间拓展到了你的脚下,变成了上下前后左右的行动模式。 用更直白的方式来说,在《 边境 》里没有地面的限制,玩家也需要向下探索。 这放到 CS 这种传统 FPS 里,有人把枪口笔直朝下,你估计只会怀疑这家伙是不是开了挂要开转了。 对于大多数玩家来说,这毫无疑问是一种全新的游玩体验。也因此,《 边境 》才饱受人们期待。 在游戏刚发售那会,好评数量远胜于差评数。 柳叶刀也深知外挂对于 PVP 环境的破坏,发了条反外挂声明,开服不到一礼拜,封了上百个账号。 同时,他们还搞起了直播修 bug 、赶进度。 在 B 站直播间里,一块写着未来规划的白板占了大半个屏幕,左边则拉来了老二次元都熟知的凉宫春日当看板娘监督营业,显得十分亲和。 从《 边境 》这个概念诞生,截止到游戏刚发售这段时间,柳叶刀工作室和《 边境 》就像是装逼打脸流网文里的歪嘴龙王。 七年之期已到,多年的隐忍和爆发,必须要让否定这个玩法的《 逆战 》和腾讯知道知道,什么叫三十年河东,三十年河西,莫欺少年穷。 但有句古话说的好,莫装逼,装逼遭雷劈。 在度过发售日的狂热之后,越来越多的玩家冷静下来,他们发现,这个抢先体验的游戏,好像,似乎,大概,没那么好玩? 这游戏有哪些缺点,过去的一年里,人们该讲的都讲差不多了。 简单来说就一句话,玩家得到的,和他们七年的期待,实在是不匹配。 具体哪方面不匹配,这就海了去了。在 steam 评论区两千多条差评里,玩家们换着花样表示不满。 优化烂、有 bug 、冗余玩法太多、干员设计失败、平衡性一般、玩法太单薄、匹配系统失衡、网络延迟。。。 似乎这些 3A 游戏大厂看了都腿软的致命问题,在《 边境 》里开始搞团建了。 从这一刻起,《 边境 》失败的苗头就开始出现了,如果你打开《 边境 》的 steam 评测图标,就能看出来。 发售日带来的热度,维持了大概一周左右,到了 4 月 20 日,评测数量直接大跳水。 一款游戏,最恐怖的不是做得差,而是做得差的同时,人们连骂都懒得骂。 不信你瞧隔壁三国杀,人们有事没事去刷差评,现在好评率只有 9% ,但小日子过得十分滋润,钱没少赚。 《 边境 》的崩溃,一发不可收拾。 此后,柳叶刀还做过一些努力,可游戏的多次更新,基本是 bug 修复和维护,并没有推出可以拯救游戏口碑的革命性更新。 6 月 19 日,好久不见的柳叶刀在 B 站、微博发力,亲自下场和发行商撕逼——此前他们发的最后一条游戏更新动态,还是在去年 12 月 27 日。 《 边境 》为啥会变成今天这样呢?更关注柳叶刀工作室业内动态的人,可能听过一些故事。 从游戏立项到抢先体验版本发售,《 边境 》经历了数次大改,每次改动都消磨人们的耐心。 工作室的人们发现,自己的工作似乎永无止境,每当窥探到游戏发售的节点,就会有一个新的需求下来,让游戏延期上线。 有网友专门梳理过《 边境 》的跳票史,从 2019 年开始,不断有游戏发售的消息传出,但结果你也知道,我们被放了很多次鸽子。 面对跳票,柳叶刀的员工,比玩家还坐不住。似乎他们在做的,是一款永远在画饼的游戏。 很快,从三个人扩展开来的工作室,出现了离职潮。最开始的时候,柳叶刀还会给离职员工开欢送会,后来离职人多了,欢送会就取消了。 至于为什么离职,前员工们众说纷纭。 有人说是薪资问题,因为游戏迟迟不上线,分红遥遥无期。由于工作室体量不大,工资在业内普遍较低。 2020 年底,柳叶刀针对这个问题进行了一次普涨,但距离员工们想要得到的回报并不匹配。 还有人认为是管理层的问题,认为和一线对接的是 “ 美术主导 ” 制作人,往往站在美术的角度去思考问题,经常会下达模糊的指令。 柳叶刀的想法是,《 边境 》不是把传统 FPS 搬到太空,所以前期就要用美术包装好,要从技术上实现在自己的系统里自洽。 这种决策者和执行者的矛盾,最后的解决方式是, CT 会做一个自己的版本,即便有很多东西最后成了无用功。 此外,还有一些犀利的问题,例如柳叶刀的财力,也在漫长的拖延中逐渐吃紧,有些时候,员工的工资还是管理层借钱才发下去的。 同时柳叶刀乐于参加展会,并为展会提供定制版本,离职员工则认为展会版本消耗了大量精力,其中有相当一部分内容不会被正式版使用。 当然,站在现在这个情况去讨论,有种先射箭再画靶的嫌疑,假如《 边境 》卖爆了,可能一切说法就反过来了。 只是现在,是非对错已经无关紧要,除非《 边境 》能死而复生,不然它唯一的价值就只有能让别人复盘避坑了。 有一说一,当年从 CT 脑袋里迸发出来的太空 FPS 这个想法,即便现在去看,依旧热烈且浪漫。 但是世界上不缺好点子,缺的是把好点子变成游戏的人。 对于一款游戏来说,即便拥有一个牛逼轰轰到能拿年度游戏的想法,可要是没法兼顾整体的游戏性以及前后期的设计和运维,那最终得到的也只是一个高高在上的空中楼阁。 好点子再厉害,不能平稳落地说服玩家,它也只能变成一个笑话,就像是陶德和他的《 星空 》。 而现在,不知道是不是自媒体高度发达,很多好点子在提出的时候,就会被炒起来,变成一股流量风暴。 投资人挥舞着钞票,推动着兴奋的厂商把点子做成游戏,在这种情况下,即便游戏做到一半就感觉不太对劲,也无法抽身了。 无论是内部的压力,还是外界的期望,都推动着厂商硬着头皮把游戏做完,于是到最后,成品只能做成一个四不像。 《 边境 》的结果很坏,可初衷是好的, CT 、 Colt 、 Frank 起码比大多数人更具有勇气,敢于为了一个想法,去组建柳叶刀,并为之努力。 遗憾的是,光靠一根筋的努力没什么用,不然世界上最成功的,应该是村里那头拉磨的驴。 撰文:张大东 编辑:莽山烙铁头 美编:焕妍
想加入这 3 个风口行业?我们找了51位行内人,告诉你志愿该咋填
最近,各省的高考成绩基本都出了,选专业这难题直接落到了每个高考生的头上。 有不少差友问差评君: 现在该怎么选专业? 怎么在大学里提前为进入心仪行业做准备? 进入自己的心仪行业又会面临些啥? 正好差评君这边有几个热乎的行业社群,包括了汽车、游戏、数码等好几个行业大类,里面都是历经层层审核入群的各行业一线工作者,论专业性这方面真是没差过谁。 所以,我这次就在咱们的汽车/游戏/数码行业群里采访了不少“翻滚”在各行业的热心大佬,来给各位萌新差友指指路,那么咱就来看看他们究竟有什么掏心窝子的分享和建议。 汽车行业正在发生剧变。 几年间,国内新能源汽车渗透率突破 50%,国产新势力对合资车全面替代,汽车出口超越日本拿下全球第一,电池、智驾等领域国内也是遥遥领先。。。 但行业也极度内卷,负利润、价格战、加班、裁员、破产,这类新闻不绝于耳。所以,这个行业究竟处在一个什么状态?现在准备进汽车行业是不是一个好的选择? 脖子哥也是在行业群里咨询了几位大佬,他们告诉我: 卷是必然的,汽车行业趋于饱和,进入门槛在提升,加班也很常见,但机会依然有。 私企成长更快,工作更卷,国企相对待遇好,而且稳定,不过你别把它当作铁饭碗。 汽车行业重视技术,建议选理工类专业,比如计算机、自动驾驶、机械等会比较有前景,工资也更可观。 ⬆️ 向上滑动查看详细采访 运营: 前电商设计师 / 现车企生态运营小文 虽然汽车行业卷,但如此大环境之下又有哪个行业不卷,总体来说我觉得汽车行业还是算整体经济下行之下的一个上升行业,房地产倒下,那么乘用车就成为最大的经济消费支柱产业之一,所以首先选择这条路我觉得没选错。 其实我也算体制内的,汽车国企,相对来说稳一些,不会出现大规模裁员,因为国企要担负社会稳定性,但也不是铁饭碗怎么样都不能裁,这两年体制内也不是很好,部分地方已经不再是宇宙的尽头了。 采购: 某汽车国企采购岗 GU 行业的卷,我是感受挺深的。一方面,整个集团都在降低社招比例,校招人数 22 年小高峰,23 年少了一半,看样子今年会更少。另一方面,一些福利也在砍。福利这块包括加班费申报时长,出差补贴金额都做了更严的限制。之前每个月的加班时长可以报 36 小时,之后降到 10 小时,现在只有 8 小时了,剩下只能报补休。而且领导动不动开会传达大家周末有空就回来加班。 不过比起大部分新势力,国企待遇其实还是好很多的。我同学在个卖的好的新势力,他平时加班没法报,周末加班只能报补休,8点半左右上班,平时基本忙到 10 点之后才能下班。 传播: 新势力车企传播吗喽 专业岗位的话,我首先推荐现在热门的自动驾驶和算法。现在汽车行业最高的可能就是做自动驾驶的同学了,应届生基本都在 30+ 了 。 其次推荐海外业务( 英语是前提,小语种就看你自己了 )。中国汽车走出国门是必然的,以前科技公司也有不少外派去发达国家的、还有一些地产公司开拓市场板块外派亚非拉的。海外市场是下一片蓝海,看中国汽车哪一家快速抢占市场机会。 渠道: 某新能源大厂渠道 Spike 对于新能源汽车行业来说,选专业的话,第一梯队毋庸置疑是计算机。从专业技术研发到日常系统运营,全都包揽。薪资待遇也是第一梯队。宇宙机实至名归。 第二是电气工程和材料科学,电气系统和电池是新能源绕不开的一份子,特别是新三样发展速度迅猛的今天,也是国家未来的发展方向。 对于入行的准备,我觉得没什么好准备的,真正的学习都在接触实际业务之后。除非你要做销售,还得背背参数。 研发: 某车厂 IE 工程师小王 我在的是国企,加班多,但是包容度很高,新来就干些杂活了解相关的专业知识,从统计工时,现场改善做起,当时感觉衔接的还挺顺利的。如果追求快速发展的话私企可能更好点。 某锂电池公司 BMS 系统工程师 L ( BMS:电动车电池管理系统 ) 关于我现在的岗位,我说一下我比较浅薄的看法。BMS 目前来说我个人感觉还是比较不错的。从以下两点分开来说: 1.就业:应届生选择 BMS 是一个不错的选择,毕竟目前互联网行业过于内卷,找工作不容易找而且工资很低。电池这个行业虽然已经过了疯狂扩张的阶段,目前只要应届生和有经验的人,所以想直接进入这个行业目前来看只有应届生可以。 BMS 可以做开发、测试、系统工程师,工资方面目前还是很可观的。各个公司也缺能上手的人,面试情况排名前 6 动力电池 offer 都拿到了,在深圳上海一线城市都在 17k+,其他地方也都 10k+。 2.行业发展:近些年来看电池 BMS 行业前景还是不错的,虽然有些内卷。国家为了推动新能源汽车发展,出也台了一系列支持政策。然后电池成本降低,BMS 市场空间也在扩大。 如果高考生想干 BMS 的话,我建议是学电子信息,通信工程,计算机这一类的专业。还有一个比较有建议性的推荐就是如果英语口语比较好的话,做 BMS 很吃香。因为国外市场有很大的空间,很多公司都缺对接国外项目的人。像乘用车商用车和储能都是需要的。 国内某供应商研发霁明 建议就是,选机械基础,汽车设计与制造,软件学好点,然后凡事多问个为什么。 机械基础是万金油专业,汽车只是机械类里面一小部分,有 15-25% 的人会进入汽车行业,比如机械里面的发动机设计是比较对口的细分专业,年薪能有 50-80 左右,但还是推荐整车,主要好混日子,年薪 25 左右吧。 关键是机械这个大类很吃知识,就这样讲,学校里讲的是基础,出学校全靠自学。 总之在汽车行业,机械是基础,赚多赚少看你干什么,进可干自动化一体,退可干机器机加工。这个除了要专业/学历以外,也比较看运气,我刚入行的时候,JL刚开子品牌,什么人都招。 国际供应商研发萝卜君 机械工程师专业推荐:车辆工程,机械大类 嵌入式工程师专业推荐: 自动化,电子信息,通信工程,计算机( Linux 方向 ),电气( 偏硬件 ) 测试工程师:门槛偏低,工科皆可。 智能驾驶工程师( 视觉 ):智科,计算机 了解完这些,如果你希望在日后工作中能得心应手,那么从大学开始,你就得精进你的业务能力。 对于研发岗位,最重视的还是技术实践,在大学期间,尽量多参加课外实践活动,比如汽车/机器人竞赛、科技企业的实习等。 管理岗位对专业的要求不会太高,需要的是报告能力、组织能力、协调能力等,也可以通过实习积累起来。 当然,重要的不是行业,而是岗位,不要被“汽车”两个字限制住了,许多大佬进入这个行业也是因为误打误撞。 ⬆️ 向上滑动查看详细采访 技术岗位: 研发: 国际供应商研发萝卜君 想要进入汽车行业,有什么捷径? 1.多参加车类、机器人类竞赛。 比如大学的方程式,机甲大师( 我就是打 RM 的,非常推荐 ),RC 等等。这些竞赛的特点就是耗时耗力学的多做得多,含金量高。( 我当时面试的时候用这方面的经历回答了大部分问题 ) 2.丰富的实习经验。 其实任何工作都是一样,企业更喜欢招有丰富实习经验的应届生。 分享我的大学经历:大一大二在实验室打RM比赛。大三先在大疆实习一段时间,然后去第二家新能源企业实习半年,之后到现在的第三家车企实习几个月拿三方转正。 某车厂 IE 工程师小王 我的岗位主要职责就是生产效率提升 + 现场改善,现在有专门对口的工业工程专业,不过我是学自动化的,属于跨了点行。 作为 IE 工程师,未来一个是走管理路线,因为了解企业各种流程,所以成为管理者的话有足够的基层经验;另外一个走专业技术路线,去做供应链管理、生产系统设计、质量管理,更自由一点的话可以去做咨询师,为客户提供流程优化和业务改进的方案。 “ 极”字开头 车企研发大鱼 : 我目前的岗位是智能座舱 Framework 源码开发,可以简单理解为车机系统的架构开发人员。 我一开始就做的阿里外包,然后接触到斑马智行,一开始也是给斑马做简单的 app ,后来接触到 Framework ,自学了,然后被车企挖走了。因为 app 应用开发门槛太低,太卷,夕阳产业了。Famework 目前前景还可以, app 开发越老越没人要,架构师方向越老别人越喜欢,觉得有经验。 学 android 开发的,建议先去外包大厂熟悉熟悉工作流程( 22岁--24岁乙方的自我修养 ),再去硬件公司搞搞系统开发( 24岁--27岁带带新员工 ),再去汽车的外包大厂进修一下( 27-28岁 ),然后就可以跳槽了( 28-30岁在 Framework 开发工程师上面混混,进修一下自己 )去做独立( 30-35岁,Framework 架构师 )。 总之干就完了!快别做 app 开发了! 其他岗位: 运营: 从事生产运营的洛洛 我的日常工作是推进公司的持续改善活动进度,集团运营横展推进基地落地执行,客户接待满意度提升吗,经验学习教训基地内部学习情况监督。 做好这些工作能力需要会一点电脑函数,作报告能力( 每周四篇 PPT 报告 ),还有执行能力,活动策划组织能力,各部门之间友好相处协调能力。 在这个岗位,专业我觉得只占比 50%,因为更多去企业用到的知识并不在书本上面。看看你和导师相处怎么样,能不能带你去企业去做学习参观( 真实 )的企业工作氛围( 大一大二 )。 我说一些建议吧: 第一,人的脑子得灵活,不要死轴着脑子。 第二,要会 AI 报表,现在的 ND AI 的工具很多,例如 Finb ,宜搭,驾驶舱。 第三,我觉得前几天的文章说的很好,现在的人都不再尊重电脑了,这些基础的技能常识还是要好好自学掌握。 采购: 某汽车国企采购岗 GU 其实采购岗没有特别对应的专业,采购这边很多都是机械、车辆出来的。我大学学的就是机械设计制造及其自动化。 其实大学期间只想到了来汽车行业工作,但没想到过干采购。现在回想,如果大学多学一些 office 的技能、多提升下英语能力会更好。做采购对一些零部件的价格,还有跟供应商沟通得知的零部件未来技术发展都是比较了解的,未来可以转去做车型管理。因为现在讲技术采购,很多降本方案要我们之间去供应商现场考察,然后和技术部门联合提出,采购的尽头是技术。 如果想进汽车行业,其实也可以学理工科,再自学学一些建模软件,比如 CATIA,ug,那岗位选择就会广阔很多,搞零部件技术或者工艺技术都不错。 传播: 新势力车企传播吗喽 现在主要从事一些品牌设计与体验,用户拓展等工作,可以理解为早些年比较流行的品牌或市场部的工作。 其实我进入汽车行业算是误打误撞,所以对于我来说专业其实不是那么重要。广告公司出身的我可能在刚毕业 1-2 年还没做好自己的职业规划。老板接什么客户就做什么客户,做过各种品牌医疗、房产、汽车、快销、3C 等各种类型的客户。 进入汽车行业其实主要还是工资更高,对比别的同行,汽车行业的美术指导的工资可是比其他行业都更高的。毕竟上班那赚的都是辛苦钱,首先会摆在大家面前的选择就是工资的多寡。 销售: 某新能源销售岗任性 销售岗位对专业没啥要求,但是有年龄门槛,更偏爱年轻人,超过30岁就很难进入新能源销售的岗位了。做汽车销售底薪不高,主要看提成。这个领域从去年就开始不好干了。所以之前特斯拉销售自己刷单、给客户反佣的新闻,其实是有迹可循的。 众所周知,玩游戏是不少人的爱好。同时也有挺多人把打游戏等同于做游戏,把把游戏打得好,当成了从业者的基本素养。 但这个行业到底什么样的?想进入行业需要做什么准备? 我们向游戏行业里的差友征集了一圈从业建议,其中有游戏美术、游戏策划、程序员、游戏发行,有一线员工,也有已经在负责团队招聘的管理者。 对于这个行业,大家的意见主要 3 点: 不要只有向往,也要看见行业内的加班与内卷。 做游戏不是打游戏,不要仅仅是因为爱打游戏入行。 游戏行业不只有大厂,还有中腰部游戏厂商,他们也是游戏行业的主力,是你未来的可能雇主。 ⬆️ 向上滑动查看详细采访 程序: 前大厂游戏客户端程序成风 觉得进了游戏公司就是可以每天玩游戏的人,最好止步。像我很多同事已经不喜欢玩游戏了。大多数人其实没有自己想象中的那么喜欢做游戏。 美术: 不愿透露姓名的UE游戏视频设计师 劝退算建议么?选择游戏行业的话会让他们好好想想,毕竟游戏行业的加班程度在互联网行业都是靠前的。 视频设计师惯性 我觉得进入行业第一是心态。 1、对待游戏的心态,做游戏和玩游戏真的是两件完全不同的事情来的 2、加班的心态,DDDD 关卡美术竹鱼 其实不是很推荐进游戏行业,现在很卷,这几年ai入侵,原画,特别是场景原画,大量跑路,裁员很多,别光看见贼吃肉没见过贼挨打。 运营: 某游戏化运营公司总经理 Viper 不要在简历上写你王者荣耀、和平精英、英雄联盟的成绩,除非你就是想去这几个类型产品的企业,或者成绩几乎可以和准职业青训选手比肩到达 “ 成就 ” 的层次,否则没有任何价值。 品宣 & 发行: 在游戏发行公司 负责传播和品牌宣传的飞叔 现在我们面试时经常会遇到一类人 , 问他们喜不喜欢玩游戏? 说喜欢。问他们平时都玩啥游戏? 就王者吃鸡, 没了。再一问王者最近的营销活动参与了没?什么看法?没有, 但是我王者XX星。这种远远谈不上做好了准备。 我认为得先认清楚一个行业里的岗位意味着什么,单纯觉得自己喜欢玩游戏,玩过很多游戏, 就能进入这个行业,有点儿天真了。 此外,在现实世界里,不止有大家仰望的头部游戏,还存在大量中腰部以及长尾的发行方,比如平时 App store 里搜某个头部产品名字, 向后翻十来二十页看到的某游的山寨; 又或是微信小程序游戏里, 榜单 100 开外那些。 当你面对一款可能平时正眼都不瞧一眼的产品时, 能否保持某种对游戏的热情?能否耐下心来钻研,在已经是红海的市场里面, 为产品找到那一丝差异化的卖点, 是否有能力在一片 " 你游就是抄 XXX, 还抄不明白 " 的评论里, 依旧真诚对待玩家? 从事游戏发行的 dc 多玩不包括王者某耀、英雄联盟这类游戏,除非是以后就纯想做竞技类游戏的数值,不然简历上面的王者巅峰XX强,只能图一笑。 如果已经做好心理准备,那接下来该做点啥呢? 专业选择:不少从业者本身是跨专业入行。除了想搞代码,得选计算机大类,其他并没有明确推荐。 大学准备:游戏行业比起学历,更看重项目经验,想入行一定要重视实习。 ⬆️ 向上滑动查看详细采访 技术岗位: 程序: 前大厂游戏客户端程序成风 首先,提早准备很重要。一般大厂秋招是大三下到大四上的那个假期,从六七月开始第一批,九月第二批,很多人不知道这件事导致他们可能大四才想起来准备,可是那时候很多公司的秋招基本结束了。当然第二年会有春招,也就是大四的那个寒假一月份左右,但是实际上春招的岗位更少,参加的人更多,几率更渺茫,所以备战大三下的秋招才是王道。 也就是说,如果想要进入这个行业,大三下就已经是你的 “ 毕业 ” 期限了,研究生同理,也是毕业前一年。 想进大厂的话,最好接触过主流的一些引擎,比如 unity,虚幻,cocos 之类的,一般来说挑一个深入学习,学习引擎可能还要花一年左右的时间,也就是说,最迟大二下大三上的时候,就要准备起来。此外,客户端的话,很多公司会希望你对渲染也有了解,最好能啃点渲染专业书。游戏行业内部还有一个大家经常看的东西,叫 GDC,每年的 GDC 会汇聚行业最前沿的知识,基本上等到大四以后你就可以开始追前沿。 上海游戏大厂程序狗纸 游戏行业抓住校招的机会是最好的,我内推过很多不是游戏行业的人,最后都死在行业背景相差过大直接简历都过不了。技术这类的岗位想在步入社会之后,再去跨行业转进游戏行业,难度非常大。但校招不一样,毕竟校招真没法要求你在游戏行业有什么经验。 然后专业能力,客户端、服务器这种需要写代码的岗位归根结底就是要有扎实的代码基本功,其次软件工程这种大学里可能不是很重视的课,有些部分等上班了还是有点用的( 至少我当初没有好好学感觉有点可惜 )。 前上海游戏大厂前端妞爷 游戏行业现在比较卷不太好做吧,程序员的话感觉还行。想做游戏前端建议各个引擎稍微了解一下方向,再参考一下游戏类型,如果能有作品就更好了,现在大厂好多都用自研引擎了,ue4 跟 u3d 比的话稍微占点优势,但是 u3d 好招人些也是很多公司的选择。 安卓开发者 Spark 想要进入游戏行业,也可以通过其他支持岗位进入,程序都是相通的,学的快就有机会转岗。 像我本身其实是移动开发,主要负责安卓,ios 的开发。但手游厂商也有创建安卓,ios 原生框架,写一些游戏业务的原生框架( 比如登录,用户,支付 ),修一些原生的 bug 等等的需求,由此接触到这个行业。 其他岗位: 美术: 深圳某大厂环境美术 印象中,美术这块招聘需求从来,没有对专业学历有限制,还是看作品说话吧。 我是23年毕业的,某211高校,环境设计专业,大学的时候真是因为黑神话悟空进入的游戏行业,初学游戏美术时,也接触过不少教育培训机构,感觉良莠不齐,需要鉴别,有些学了还是有用的。 可能经常在网上发作品吧,在学生阶段,就有不少大厂的猎头或者HR通过专业作品网站联系我。 视频设计师惯性 专业选择,实际上,行业里不少人都是跨行,校招策划有的学电路的都有。 如果要推荐的话,程序员向的,选计算机大类;数值类的选数学统计学;海外发行向的选外语或者留学都挺有优势的;但最重要的还是自己喜欢的! 大学准备的话,实习实习实习实习实习!!!! 真的很重要,不要等到了大四秋招春招的时候再开始看实习,那时候一切的一切都晚了,好的岗位和好的公司早就锁定了HC,你没有实习的经历递交过去的竞争力真的不够。 如果有进互联网或者是游戏行业的想法,大二大三开始就一定要抓紧暑期和寒假的黄金实习机会。 关卡美术竹鱼 建议搞自己喜欢的专业,这玩意劝不得。就游戏美术这块,学历/专业在某些时候用不上,归根结底还是看作品,还有你有哪些项目的经验。 策划: 从事游戏策划的凉嘉 确定好自己喜欢的游戏大类型并加以拆解和研究,不要说自己什么品类游戏都玩,什么都可以。品类之间差异较大,定向工种不通用。 可以系统了解下做这个工种需要的能力模型,能实际做一个目标项目demo,或者完成目标游戏( 已上线 )其中一个小板块精细化拆解+对应竞品拆解( 拆解对象一定要小!!!)会加分。 运营: 某游戏化运营公司总经理 Viper 对于策划来说,首先想好自己想要做的游戏类型吧,平时多玩,想做卡牌游戏,就把市面上知名的几个卡牌游戏都玩一下。 边玩边思考,从 “ 这个游戏为什么好玩 ” 开始到 “ 这个游戏为什么能成为爆款 ”,做好拆解,用人单位其实不追求高明的应届生,但希望应届生有自己的思考,知道游戏策划和游戏玩家是两回事,能提前站在游戏制作者的角度思考问题就很大加分。 品宣 & 发行: 在游戏发行公司 负责传播和品牌宣传的飞叔 就我这类岗位而言,可以先去了解营销和传播的基础理论,再利用理论,复盘拆解某款游戏的营销动作。比如,这款游戏某个营销点的宣传核心、主题、受众,以及为什么用这个角色 ( 这个图 ) 作为主视觉。 从事游戏发行的 dc 如果从大学开始就有这个想法的话,我的建议还是多玩一些不同类型的游戏咯,但并不只是 “ 玩 ” 游戏,在自己玩游戏的途中去剖析游戏,一定要有自己的理解和分析。 很明显,如今的数码行业已是一片红海。 但即便如此,每年还是有很多小伙伴为了热爱投身于这个行业,毕竟参与开发新的产品和技术,对于每一位数码爱好者来说,都是一件非常美好的事情。 如果你下定了决心,以后要往这条路走,那么这些前辈们会告诉你,干这行光有热爱还不够,还需要面临很多行业现状。 托尼跟几位行业大佬聊了之后,他们是这么说的: 越来越卷。 半导体行业存在3到4年的产能周期,数码行业的周期是如影随形的。想进入行业需要在这方面做好预期管理。 特别大的进步很难有,各个行业基本都在小步前进。 ⬆️ 向上滑动查看详细采访 硬件: 电脑主板硬件研发工程师 GX 我们就是跟着芯片上游厂商混饭吃( 开玩笑 )。 现在的数码行业,我觉得更多还是要依靠半导体行业的发展,之前还在全球化的时代,所有人都能赚到钱,各个国家之间不论经济还是技术往来都比较频繁。 但是随着现在地缘政治的一些因素,感觉会进入到比较艰难的阶段。 所以我觉得这个行业,市场量肯定是有的,只不过真的会越来越卷,越来越难,我身边也有很多裁员的例子,想在这种环境中存活下来,我觉得可能打铁还需自身硬了。 销售: 某半导体显示大厂的 销售管理镭™ 制造业都这样,拿着卖白菜的钱,操着 “ 卖白粉 ” 的心( 开玩笑 )。 对于我目前所在的半导体行业来说,这个是有周期性的,一般一个周期会有3年左右,就是说有可能刚入职恰好是属于周期低谷,产品卖不动,公司经营状况比较糟糕,这对于刚入职的职场新人来说其实挺不爽的。 当然了,也要懂得在行业周期峰值时期为自己争取一些更多的机会。 运营: 某 3C 大厂的用户运营阿源 传统消费类电子行业的竞争非常激烈。 如果想进入数码3C行业,我觉得现在面临最大的问题是就业岗位少,尤其是想入职行业内知名度高的企业, 就更加困难一些。 在了解完行业现状后,想要在未来的就业中有一个更好的起点,该怎么去选专业,做哪些准备呢? 技术岗位的要求比较垂直,比较需要选择对应的专业;非技术岗位相对来说会宽松一些。 大学校园里面的各种竞赛/比赛,要积极参与,这对于培养技能和提升简历很有帮助。 ⬆️ 向上滑动查看详细采访 技术岗位: 硬件: 电脑主板硬件研发工程师 GX 对于选专业,就看年轻人自己会对什么样的东西感兴趣。如果对电子产品硬件本身感兴趣,可以选择电子信息工程这种偏硬件的专业。如果对纯软件编程比较感兴趣,可以试着看看计算机技术相关专业。如果对芯片行业比较感兴趣,可以看看微电子这类的相关专业。 当然,随着现在人工智能的热潮,如果以后想从事人工智能相关的工作,那必不可少的就是编程的能力。 一定要对未来的职业有一个规划,想满足兴趣+高薪,那一定要做好规划,要有目的性。要提前了解一个行业的大背景,这样你才可以为了你想去做的工作而学习相应的知识。 当然,现如今这么卷的环境,保研/考研,我也比较推荐。 其实我也只是个刚毕业3年的菜鸟,在现在这种大环境下,可能会越来越卷。建议年轻人能找到大公司,尽量早点进去镀金,同时真的要好好学习!这不是空话!现在需要的人才是全能型的,硬件软件都要强,才能让自己更有竞争力。不要浪费时间!!!!加油!!! 硬件开发工程师 YS 如果大家想从事我这个职业,可以优先考虑这些专业:电子信息类( 集成电路设计 ),电气类( 自动化 ),电子与计算机工程,通信工程。 以后要想做硬件,专业肯定要选工科,其次这几个专业课都差不多,差别在于一些实验课和就业范围上。 到了大学里面,建议参加 “ 飞思卡尔 ” 恩智浦智能车这种竞赛,因为平时大学的实验课,你甚至都不一定经常用到电烙铁、万用表,如果对设备不熟,实践少,简历薄,竞争力就差很多。 我毕业后就职的一家智能硬件公司总监就常和我们说,公司培养一个能独立带项目的硬件工程师,开销是 50w。PUA 的话我都当耳旁风,但他说的代价高昂我是很认可的。 因此找到一家有实力的硬件公司,在项目上专注地学三个月。等毕业后,你的项目和经验,就是和 HR 谈薪酬的最夯实的底气。 在某半导体厂商做芯片验证的张三 我当时专业是微电子,但是本科课程设置主要偏向电路和物理,我觉得可以适当选一些编程的课,现在 sw/hw co design 是一个小趋势。 再就是打算业界工作的话,早点找实习。 软件: 后端开发 XD 大学时期的软件工程课程相对来说比较基础,当然各个学校学的也不一样,这个看情况,但不管学啥,C 语言、计算机网络、数据结构与算法、操作系统原理、数据库原理,这几门课总都是有的。 这些课会对你未来面试八股文、或者工作之后想往深了学有一定的帮助。 再就要选择你的英雄了,挑选一门主修语言,c、c++、java、go、swift等等等等,结合市场行情和个人癖好,挑一个感兴趣扎进去学就完事了。循序渐进的学( 基础->进阶->框架 ),过程中理论结合实践边动手边学,涉及到的其他语言也学个基础,积累你的技术栈,多门语言多条出路嘛,日后换赛道也有机会。 多积累项目经验,根据之前学过的内容、进行简单的项目开发,比如说做一个属于自己的博客门户之类的,边开发边debug,好经验坏经验都多积累,早出错早排雷。 养成习惯没事多逛逛开源网站IT论坛,比如 github、StackOverflow 之类的,看看其他人是怎么写的融会贯通一下子,leetcode算法题有空也多刷刷。 积累可能相对细分,实践的话就没啥好说的了,打造黄金入行敲门砖嘛,大二大三参加参加大学实验室,要么去实习打比赛,把履历搞起来,为找工作做准备就好了。 其他岗位: 产品经理: 某手机大厂的产品经理 ted 对于选专业,我觉得不用纠结,选自己喜欢的就好,产品相关的工作没有对口专业,大家也来自各个不同的专业。 在接下来的大学生活里,建议学好课程,有些知识总是会在意想不到的地方给你馈赠;热爱生活,勇于尝试各种事物,并从中摸索自己真正感兴趣的方向。 如今整个行业在不断的涌现出新技术、新玩法,需要有一个持续学习的心态。 随着新内容的出现,原有的方法论可能会不断受到冲击,同一个结论可能前两年是对的,这两年错了,过两年又对了,需要勇于挑战自己。 你的方案要面向成千上万的用户检验,这些用户可能和你有着完全不同的生活环境和行为习惯,需要能够跳出自己的视角去思考问题。 销售: 某半导体显示大厂的 销售管理镭™ 专业的话其实看想要从事什么岗位了,假如想对技术方面有所深耕的话,上游设备厂家可以考虑机械工程相关专业,中段产品行业( 半导体芯片,半导体显示等 )可以考虑光电信息科学与工程,或者集成电路设计这方面,终端产品部分的话建议偏向软件开发相关专业。 假如想要在数码行业内做一些和业务相关的岗位的话,就是对应的专业都有,比如财务岗位,销售岗位,供应链岗位。当然,这一类岗位会更吃经验一些,所以可以考虑后续公司内部调岗。 其实数码行业对于专业选择,没有什么特别针对性的专业,工学的需求量比例更大一些。 运营: 某 3C 大厂的用户运营阿源 专业的话,我目前在公司内发现,除非是设计类或者非常需要专业知识储备的岗位,大部分都跟计算机没什么关系,我的同事有很多都是语言类或者其他专业的。 可以提前考虑好未来想做什么工作,然后去考虑学什么专业,专业对口也会是加分项。 因为我其实也刚刚毕业一年多,在入职之前其实就已经深度参与到了大厂的校园项目,从我的角度出发,我觉得我在大学内跟同学最大的区别就是,我非常热衷于参加各类企业的校园项目,提前学到了些老板们喜欢的“职场文化”,进入大学之后,我觉得最需要做的是如何从 “ i人 ” 变成 “ e人 ”,不管是考研还是工作都要提前想好想清楚。 而除了学历这些硬性指标外,个人的工作能力、表达能力、创新思维、抗压能力等才是在面试阶段会更加关注的,这些都是后面可以自我提升的。 一路看下来这么多业内人士掏心窝子的建议,相信各位差友心里也有数了。 虽然说填志愿选专业,是个历久弥新的话题,要考虑的东西也有不少。但希望业内人士的视角可以给大家带来一些新的感想,对大家未来的大学生涯,提供一点小小的帮助。 选专业只是大学的开始,也只是人生茫茫选择中的一个,很多时候专业并不是全部,你在大学课外做的那些准备,也一样重要。 最后,在大学开学前,好好享受这个无忧无虑的暑假吧 ~ 编辑:面线 美编:焕妍

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。