行业分类:
加载中...
头条分类:
加载中...
Claude炸场,最焦虑可能不是OpenAI
图片来源@视觉中国 作者 | kiki 「游戏开始(game on)。」 这是Runway联合创始人写在OpenAI发布Sora后的一句感言,某种程度上,这句话也可以送给此刻的OpenAI和Sam Altman。 随着被称为「OpenAI最强竞争对手之一」的Anthropic发布新一代的人工智能模型系列Claude 3(包括了Opus、Sonnet、Haiku三款产品),一时间中文互联网甚至出现了「全球AI大模型一夜易主」的评论。 图源:X Claude 3之所以引发如此多的评论,原因有两方面:一是代表模型性能的各类评测指标来看,Claude Opus的得分全都超过GPT-4。二是,从用户直接体验来看,缓解了过去大模型使用过程中出现的问题,比如降低拒绝率、克服大模型的幻觉等问题。 英伟达高级科学家Jim Fan就对Claude 3给出了两个客观的评价:一是在特定领域的专家基准测试。除了相对饱和的MMLU、HumanEval等基准外,Claude还选择了金融、医学和哲学等专家领域,报告了性能表现。二就是解决了过往大模型过于「谨慎」的问题。 以Meta的开源大模型Llama 2为例,此前有人就发现,即便询问一些无害问题,比如「如何制作辣椒蛋黄酱」,但Llama 2会疯狂地表示它无法做到,因此用户需要交互多次,才能给出答案。Anthropic意识到了这一问题,降低了模型在无害问题上的拒绝率。 需要指出的是,和OpenAI一样,由于都是闭源,Claude 3的技术报告并不涉及具体的模型结构、训练方法等,因此对人们来说,这依旧是一条模糊的道路。 而从Claude炸场,对抗OpenAI,所反映出的是2024年海外大模型行业所涌现出的新趋势。 Sora拉开序幕,巨头密集上新 年初,从OpenAI携Sora开启所谓的「文生视频GPT时刻」开始,海外大模型企业就已进入了密集的模型上新期。 与OpenAI同日更新的谷歌拿出了多模态大模型Gemini 1.5,既瞄准了Claude擅长的「长文本」——Gemini 1.5能稳定处理的信息量高达100万个tokens,作为对比GPT-4 Turbo的上下文窗口大约为12.8万tokens,刚发布的Claude 3大约为20万tokens。在更新闭源大模型的同时,谷歌还推出了「开源」大模型 Gemma,主打一个「开源、闭源」两手抓。 而本就走「开源路线」的Meta也在近期被曝出推出新模型的消息。据The Information报道,Meta计划在7月份推出新的AI大模型Llama 3,参数量最高或超过1400亿,Meta希望借此可以追上OpenAI的GPT-4。一位知情人士表示,Meta还在计划任命一名内部人员对Llama 3在安全和可控性进行培训,以让其的反应更加细致。此前,扎克伯格也向投资者提到:“今年的重点领域就包括推出 Llama 3”。 科技巨头们已将模型发布提上日程,追赶GPT-4已经成为了今年的首要KPI,另一边的独角兽们在融资寒冬中也没闲着。 比如,法国AI独角兽Mistral AI就在上个月底推出了仅次于GPT-4性能的 Mistral Large和类ChatGPT产品竞争对手Le Chat。同时,还宣布和OpenAI 的「盟友」微软达成了合作。 从目前的时间线来看,这场模型「上新战」只是开始。而这对创业者来说,似乎是一个好消息。如Abacu.AI的联合创始人兼CEOBindu Reddy所说:“OpenAI不再是唯一的人工智能之王,这对每个人来说都是一个巨大的安慰。” 图源:X 最焦虑可能不是OpenAI,而是谷歌 而从Claude所引发的连锁反应来看,如今既面对强大竞争对手,又深陷与马斯克的诉讼中的OpenAI无疑是最焦虑的一个。 但事实上,从目前来看,OpenAI可能并不焦虑。首先,两家公司不同的定位被人们忽视了。据福布斯对Anthropic联合创始人的采访,这家公司反复强调:“Anthropic更像是一家企业公司,而不是一家消费者公司。”尽管从产品形态和商业模式来看,chatGPT和Claude并无明显差别,但显然Anthropic面向的是to B用户,而非C端的大众。而从Claude提供的客户案例中,这些B端客户包括了如科技公司Gitlab、Notion、Salesforce、SAP等。 其次,从战略层来看,尽管都是为了通往AGI,但OpenAI谋求「大而全」,Anthropic则偏向「小而美」。OpenAI一系列的硬件公司和算力布局,都可以印证这一点。 相比之下,更焦虑的可能是谷歌。尽管身为Anthropic背后的金主之一,但相比亚马逊对Anthropic的「热情」,谷歌却无多少反应。 谷歌在近期正在陷入一系列的争议中。一方面,Gemini陷入「种族偏见」的舆论浪潮,许多网友发现,Gemini的文生图功能出现问题,比如似乎刻意在拒绝生成白人的形象,谷歌随后下架Gemini文生图功能,谷歌CEO Sundar Pichai回应称该问题「不可接受」,并在内部信中表示,公司在修复Gemini护栏方面已经取得了进展。 据BusinessInsider的报道,一位谷歌现任高级员工将这一事件形容为「一场公关噩梦」,“谷歌员工很生气。”华尔街的分析师甚至认为,谷歌需要剔除那些胡作作非为的人,包括CEO Sundar Pichai。Bernstein分析师Mark Shmulik在一份研究报告中也思考了类似的问题——是否是时候对谷歌的高层进行改组。 尽管谷歌一直将自己形容为一家人工智能领先的公司,它的基础研究也深刻影响着此轮大模型浪潮。但无论在模型的推出节奏,还是商业化路线上,谷歌都明显迟滞于微软和OpenAI。 AI技术的迭代飞速,这意味着洗牌也在快速进行。一个有趣的观察是,如今在此轮浪潮中,被赞美的对象换成了Meta和微软。而此刻的OpenAI和谷歌,他们以技术见长,但都面临着增长所带来的代价——无论是组织内部的动荡,抑或是保守的战略。
支付宝提升外国人交易限额:单笔最高5000美元 一年最高50000美元
快科技3月8日消息,国务院日前发布《关于进一步优化支付服务提升支付便利性的意见》,指导支付服务主体不断提升老年人、外籍来华人员等群体的支付服务便捷性和满意度。 支付宝宣布,支付宝积极响应党中央、国务院相关决策部署,正在中国人民银行、外汇局的支持和指导下,扎实推进落实各项措施,针对老年人和外籍来华人员持续优化支付服务。 其中,已完成提升和优化外国人交易限额,单笔交易限额从1000美元最高提到5000美元,年度交易限额从10000美元最高提到50000美元。 此外,多语言翻译、境外钱包乘车码“一码通”等新服务将陆续上线。 据了解,入境用户下载支付宝、绑定国际银行卡后,就可以像中国人一样消费。支付宝联合行业伙伴提供了便捷的在线数字服务,包括在线翻译、打车、订酒店、预定景点门票、乘坐公交、租充电宝、汇率查询等,多方位助力外国友人一部手机畅游中国。 与此同时,通过蚂蚁集团旗下的Alipay+跨境数字支付和营销解决方案也支持10个境外钱包用户入境后直接扫码付款。 它们包括AlipayHK(中国香港特别行政区)、Touch 'n Go eWallet(马来西亚)、Kakao Pay(韩国)、MPay(中国澳门特别行政区)、HiPay(蒙古)、Changi Pay(新加坡)、华侨银行(新加坡)、Naver Pay(韩国)、Toss Pay(韩国)、 TrueMoney(泰国)等。 支付宝表示,将持续提升老年人、外籍来华人员等群体支付便利性,深化服务场景建设,丰富支付服务供给,不断提升支付服务水平。
Nature:警惕!AI让人类“自大”,或使科学缺乏创新
近年来,人工智能(AI)技术在科学研究领域中的应用与影响日益显著。从生物医学、材料学、到天文学等学科,AI4Science 正改变着科学研究的方式,加速科学研究。 AI 通过提供大规模数据分析、模拟实验环境、优化研究过程等功能,为科学家们提供了前所未有的支持和帮助,也确实将科学研究推向了一个新的阶段。 然而,AI 在为科研带来更多可能性的同时,也引发了许多问题。 来自耶鲁大学和普林斯顿大学的研究团队认为,在科学研究中,AI 可能会造成知识生产的单一性,即科学的单一文化(scientific monocultures)。 具体来说,在这种文化中,某些类型的方法、问题和观点主导了其他方法,使科学缺乏创新性,更容易出错。 同时,AI 提出的解决方案也可能掩盖了我们的认知局限性,使我们容易产生一种错觉,即我们认为自己对世界的了解比实际情况要多。 因此,科学家需要审慎考虑 AI 在科学研究中的潜在影响,从而负责任地进行知识生产。 相关研究论文以“Artificial intelligence and illusions of understanding in scientific research”为题,已发表在科学期刊 Nature 上。 该论文从大量与 AI4Science 相关的文献中,提炼出了 AI 的四大应用愿景——智囊团(Oracles)、代理人(Surrogates)、量化分析师(Quants)和裁决者(Arbiters),并分别讨论了 AI 在科学研究中的应用和影响。 表|科学研究中的 AI 愿景。通过分析最近有关 AI 改善跨科学学科知识生产潜力的出版物,得出以上四种类型。纳入的论文要么使用“AI”这个通用短语,要么提到 AI 概念之下的特定方法,最常见的是机器学习、自然语言处理和大型语言模型。该表总结了愿景如何响应不同的研究阶段,以及对科学能力和效率的感知限制。 人类科学家为何信任AI? 近年来,AI 在科学研究中的应用日益广泛,其提供的解决方案被认为能够彻底改变科学研究方法。 但 AI 何以获得科学家的信任呢? 首先,AI 工具不仅被视为工具,更被看作是研究中的合作者,能够提供超越人类限制的解决方案和见解。这种认知增强了科学家对 AI 的信任,因为他们将这些工具视为知识生产中的伙伴。 其次,AI 工具被认为具有增强其可信度的特质,如客观性、深度理解能力以及提供令人满意的解释能力。这种描绘使得 AI 工具在某些情况下比人类更值得信赖。 第三,AI 工具提供的解决方案符合人们对简单、广泛、简化和量化解释的偏好,进而增强了对理解的感知。 然而,将 AI 整合到科学研究中也存在认知风险,尤其是认知理解的错觉形式。 图|AI 驱动的科学研究中的理解错觉。 如上图 a 所示,使用 AI 工具进行研究的科学家可能会产生解释深度的错觉。在示例中,一位科学家使用 AI Quant 对现象 (X) 进行建模,并相信他们对 X 的理解比实际更深入。 在图 b 中,在单一的认知文化中,科学家很容易产生探索广度的错觉,他们错误地认为自己正在探索所有可检验假设的空间,而实际上他们正在探索可以用 AI 工具检验的更狭窄的假设空间。 另外,如图 c,在知识者单一文化中,科学家很容易产生客观性错觉,他们错误地认为 AI 工具没有立场或能够代表所有可能的立场使用人类参与者进行研究的替代者),而 AI 工具实际上嵌入了训练数据和开发人员的观点。认知理解的错觉发生在个体高估自己的理解程度时,将 AI 工具或其他社区成员的知识和能力误认为自己的。这种现象可能导致科学论断中的错误和过度乐观,特别是当 AI 工具在专家领域之外使用时。 AI4Science的未来,一切向好吗? 由于 AI 工具看似可信且承诺提升研究的质量和数量,因此依赖这些工具的研究可能会大幅增加。目前,关于 AI 的引用在出版物和专利中在逐渐增多,并且使用 AI 工具的论文在学科内外的引用都呈现出增加的趋势。 如果这个趋势持续发展,那么当 AI 辅助研究逐渐主导知识生产,会有哪些认知风险? 文中给出了一个观点:科学可能会形成单一文化。 作者用了一个类比来说明这一点:在农业中,单一文化是一种在同一片土地上只种植一种作物的做法。这种做法提高了效率,但也使作物更容易受到害虫和疾病的侵害。 文章认为,AI 工具所提供的效率可以促进科学单一文化的发展,其中某些形式的知识生产主导了其他所有形式。它们可以通过两种不同但相辅相成的方式实现。 首先,通过优先考虑最适合 AI 辅助的问题和方法(知识生产的单一文化)。 其次,通过优先考虑 AI 能够表达的观点类型(知识所有者的单一文化)。 就像植物单一文化更容易受到害虫和疾病的侵害一样,科学单一文化使我们对世界的理解更容易出现错误、偏见和错失创新的机会。 当新工具和技术产生时,科学家总是倾向于迅速利用它们的优势。然而,AI 工具被预测将在各个领域得到广泛应用,成为超级合作者融入到知识社区中,这样的风险可能会变得尤其严重。 除了威胁科学的蓬勃发展外,知识生产的单一文化还会产生认知理解错觉。在这些错觉中,科学家错误地认为,AI 工具推进了人类对科学的理解,而不是意识到,这些工具实际上缩小了科学知识生产的范围。 了解风险,是应对风险的关键一步。为了减轻 AI 在知识生产中应用的风险,人类需要增强对科学单一文化的认知风险的理解,以及对认知错觉的感知。 事实上,AI 在科学中的应用确实让所有人兴奋,比如 AI 化学家加速催化研究(点击查看详情),生成式 AI 助力碳捕集(‍点击查看详情)等等。 然而,在 AI4Science 走得更远之前,科学家们必须考虑到 AI 的技术限制和潜力,以及它对科学知识生产社会实践的影响。 AI 辅助科学研究也许预示着这样一个未来,其中不仅参与者缺乏多样性,而且追求的研究主题也缺乏多样性。它们还引发了认知理解的错觉,阻止我们意识到我们的视野已经变窄。 尽管 AI 在科学中的广泛应用是不可避免的,但科学家,除了进行知识生产外,还有责任决定事物的发展方式。 论文链接: https://www.nature.com/articles/s41586-024-07146-0
中国创业者在泰国:狼性文化在这里没戏
文 | 罗镇昊 编辑 | 张慕知 3月1日,中泰两国正式启动永久免签,据统计,中国游客赴泰旅游,增长超过三成。 长期免签,更加便利了两国人员的往来,相信无论在贸易、投资往来还是创业层面,都会给中国创业者提供更多机遇。 「去年一整年,我们都有接待以协会、行业圈子组成的考察团,来考察泰国市场。下半年,已经陆陆续续有人开始布局,注册公司招人搭团队了。到了今年,有更多中国公司来到泰国本土化落地。」在泰国11年的创业者赖进鹏告诉镜相工作室。 实际上,作为老牌资本主义国家,泰国的市场和经济系统非常稳定。近40年以来,作为投资目的地,泰国经过了多轮的海外投资热潮——从80、90年代的家电组装、轻工业、汽车,到近年来的新能源、互联网、消费。中国企业逐渐发掘了这片市场的价值,也加入其中甚至成为主流。 因为和中国稳定的外交关系,以及大量的投资优惠政策,这里吸引了越来越多的中国企业和品牌。 根据泰国投资促进委员会(BOI)公布的数据,2022年,中国对泰投资13.8亿美元,增长36.6%,是当年泰国外国直接投资的最大来源国。在2023年1月至9月份期间,中国企业向泰国投资促进委员会申请投资项目264个,涉及金额约合28亿美元。 中泰免签,在此节点性时刻,镜相找到四位长期在泰国创业、工作、生活过的中国人,呈现他们对这个国家、这片土地的亲身感受和观察,以及近10年间,泰国本土政策、趋势和商业环境的变化,希望对中国创业者有所助益。 东方「底特律」: 泰国第一支柱产业是汽车,中国新能源小跑入场 Edward 43岁 优卓集团总经理 在泰国13年 大部分人认为泰国是个旅游国家,实际上它的支柱产业是汽车行业和其相关产业链。二十年前,泰国就是东南亚最大的汽车制造中心。日系的本田、丰田、日产,德系的奔驰、宝马,以及美系的福特、通用,都在泰国设有整车厂。这些整车厂大部分集中在泰国罗勇府的和美乐工业园,这里又被称作“东方底特律”。 究其原因,政府的各项政策支持外商投资设厂:比如,政府为外国投资者提供土地所有权——你过来建厂,先把这块地买下来,就算过几年产品卖不出去,土地还可以升值——这是泰国有别于其他东盟十国的福利政策,为投资者们提供了生产之外的附加值。此外,顺利的工作签证、有利于外资的税收优惠政策,加上优越的地理位置(拥有港口和机场,对外贸易交通便利),都是这片土地成功吸引外资的重要原因。 不过,近10年来,其他外国车企已经很少扩张。中国的新能源汽车,却在加速入泰:2022年,比亚迪、长安、广汽等中国车企,纷纷来到泰国投资,建立新能源整车厂。实际上,这也是泰国政策支持的结果。 早在2018年,泰国政府就提出要鼓励新能源产业。我还记得,泰国每年都有一个类似总理跟企业的见面会,那一年我作为汽车行业比较专业的参与者,受邀参加活动,当时就意识到这是一种很好的趋势。不过当时,这种趋势还未成风。 后来,政府相应出台了很多利好新能源汽车的政策,比如,来这里建厂的车企每卖出一辆车,最高能给15万泰铢(折合约3万人民币)的补贴,和中国还挺像的。 实际上,要论市场规模的吸引力并不强:泰国的GDP只跟四川省相当,面积跟云南省差不多,而它的汽车保有量相当于江苏——泰国一整年在国内市场才卖掉90万辆车,包括乘用车和商用车。但近年来中国车企纷纷布局泰国,一是看中中泰关系比较稳定,可以说泰国是东盟十国里和中国关系最好的国家之一,投资更加安全;二来,这些车企需要在海外建立生产基地,避开美国对中国征收的高关税,继续向欧洲和中东出口,泰国是一处理想选择。 目前,在泰国新能源汽车市场,中国品牌已经属于第一梯队(特斯拉没在泰国建厂)。但从整个汽车市场来看,日系依旧保持着绝对地位。 ● 图为优卓集团公司所在地。这是泰国罗勇府和美乐工业园,长城、上汽、比亚迪、广汽埃安的工厂,均坐落于此,这个工业园,也被叫做东方底特律。图源受访者 泰国是个类似韩国由财阀公司(家族企业)控制市场的国家。重要行业都由财阀来控制,比如银行、保险、农业、矿产、能源。值得一提的是,近两年,泰国财阀的手已经伸到了新能源领域,这也体现了这个行业在本国重要性的上升。 就以充电桩来说,主要干道和高速路上的布局,都是由财阀公司或者子公司来经营的,这些公司的背后或是有电力局的股份,或是有石油公司的股份,只有这样才能协调资源,在这些最好的地方建充电站。 所有的财阀都是挑掉一块肉里最鲜美的部分,剩下的骨头留给市场上的其他公司。 我所在的公司是福特全球服务商,2011年来到泰国,2022年也开始了新能源市场的拓展,做充电桩的安装和运营。和财阀竞争是一个没有胜算的事情,特别是像我们这样外来公司。所以,我们只在海边观光地投充电桩,这是很小的应用场景。所以也不会有财阀看得上,反而会成为他们的补充。 近几年,泰国有很多华人跑来做这个充电桩业务。有台湾来的,有香港来的,有澳门来的,还有一些泰国本地的华裔也在做。充电桩的技术门槛不高,在国内已经是血海市场,所以很容易找到代工厂或拿到代理权,再去泰国做运营。但是他们根本不了解这个市场,也不懂泰国的实际情况,只是一味按照国内套路复制粘贴。最后发现行不通,后来多数充电桩,因为缺乏后期维护,成了废桩。 我们花了10年时间去学习市场。其中很重要一点就是企业的本地化。我们公司300名员工里,只有4名是中国人。本土化做的比较好。这是企业来到泰国,很重要的一点。 电商、AI、助贷、消费…… 中资企业进入泰国 肖小跑 开泰远景基金(香港)投资负责人 在泰国10年 实际上,泰国是一个老牌的资本主义国家。 二战之后,全世界开始重新发展,泰国作为亚洲唯一一个没被占领的国家,一直持续发展。 大概在上世纪三十四年代,已经全面西化,国内市场和经济系统非常稳定。 到上世纪80-90年代,泰国与印度尼西亚、马来西亚、菲律宾并称「亚洲四小虎」。 1997年金融危机之前,欧美基金投资,主要方向就是在泰国,日企和台企也在这里深耕多年——那时台湾的电子产品都是在泰国做的。作为投资目的地,泰国经过很多轮的海外投资热潮。它的家电组装、轻工业、汽车等行业,都有深厚的基础。除此之外,像文化类,比如电影后期制作,游戏后期,广告创意设计,也都是泰国本土的强项领域。 不过,在那个年代,中资企业对泰国市场并没有什么了解。 我在2008年来到曼谷,那时刚从英国金融工程研究生毕业,入职了泰国第一大银行——盘谷,做金融市场。两年后,又转到第二大的开泰银行,负责东南亚各国市场的扩展以及宏观经济分析。整整在泰国工作十年。那时,来到泰国的企业大部分是国企银行,投资相关也只是像船厂这样传统的制造业——彼时,正是中国内地供应链兴起的时候。 ● 来到泰国后两年,肖小跑入职了泰国第二大银行——开泰银行。图源受访者 到了2016年左右,一些企业的嗅觉已经打开。那时,国内很多第三方支付公司就来泰国找机会。我离开泰国最后一个项目,就是帮支付宝进入泰国,跟各大银行洽谈。到现在,支付行业在东南亚都整合的比较好了,泰国已经有了自己聚合支付的解决方案,只对接微信、支付宝这类大公司,那些小的第三方支付慢慢没了。 直到2019年左右,越来越多的中资企业开始注意到泰国的重要性。尤其这四五年里,泰国已经变成新科技重点投资对象和转移对象。 尤其是国内的新能源汽车,他们来到泰国的速度比想象中要快很多。 去年大家估计,可能来两三家就不错了,但现在基本上前十家都快到了。泰国有一个东部走廊,距离曼谷两小时车程的,就是这些新能源汽车厂重点建厂的地方。 疫情开放以后,原来在国内的助贷行业人也在往泰国走。 他们帮泰国本地银行做线上的贷款、获客,做封控模型,希望能把自己在国内的消费贷、中小企业信贷模型,应用到泰国市场。 除此之外,还有一些给银行做AI语音机器人的公司。由于国内的付费意愿不高,这些开发出AI产品的创业公司纷纷到泰国来寻找订单和收益。 还有消费行业,过去我在泰国工作这么多年,原来基本看不到什么中国品牌。但如果你现在去曼谷,就可以看到海底捞、茶颜悦色、茶百道、还有蜜雪冰城……我前几天看到一个数据,有一个地标购物中心里,10%入驻的商户是中国品牌。你要知道,泰国是非常国际化的,各种欧美日韩品牌都有,10%已经是非常大的渗透率了。 总体来说,这些年,越来越多的中资企业看到了泰国这片市场的价值,也在这里耕耘出了一定成果。 「机场高速路上, 到处都是中文广告牌,写着某某工业园招租」 赖进鹏 38岁 泰享公司总经理 在泰国11年 十几年前,我在深圳做东南亚出境旅游全国集散中心——那时,国内大部分城市还没有直飞东南亚的航班。人们想去东南亚旅游,出差。都需要先抵达广州或深圳,再从香港和广州港口出境。 后来随着各个城市直飞东南亚航班增加,香港和广州两大出境口岸优势逐渐消失。2013年,我顺势跟着产业带来到曼谷,作为集团分部,承接旅游地接业务,整合本地资源,深耕泰国。选择这里很重要的一点是泰国跟中国的关系一直很平稳。 在2019年之前,我几乎看不到什么和中国有关的工业,只有离曼谷300公里左右的罗勇府有个中泰工业园。而近两年,从机场出来后,高速路上到处都是大大的广告牌,写着某某工业园招租,全是中文的。 很多中国企业出海,会把泰国作为桥头堡和试验田。中国企业,中国品牌,大多数都会把泰国当做出海的第一站,包括电商、互联网、新能源等行业。 疫情期间,泰国的电商行业迎来了爆发式增长。 像网约车、快递、外卖一直就有,只是时效没那么快,普及程度没那么高。疫情前我们办公室大概80号员工,但很少同事网购。疫情出门都不太方便的时候,就倒逼泰国人线上消费,电商行业迎来了爆发式增长。我肉眼可见公寓物业收取包裹的货架不断增多,空间也越来越大了。在曼谷市区无论是外卖还是线上买菜,基本15-20分钟就能送到。网上购物2-3天就能收到快递包裹。 不管是电商平台也好,快递公司也好,大部分都是中国的,要么就是有中资背景。比如泰国头部电商平台Shopee,有腾讯的背景,Lazada是阿里全资收购。 2020年初,疫情让旅游行业暂时停滞,我跟公司提出做泰国电商项目,然后就回到深圳搭了个小团队,认识很多行业内的朋友,进入了电商圈子。慢慢摸索中,我们根据公司的资源,对泰国营商环境熟悉等优势,选择了跨境电商链路里对本土化要求较高的“海外仓”项目。 疫情之前,泰国海外仓很少。 跨境电商物流模式包括直邮和海外仓。 ●泰享公司的海外仓占地3500平方米,海外买家下单购买商品后,产品直接从这里发出。图源受访者 直邮,就是当海外买家下单后,卖家从国内直接发货,陆运、空运到海外消费者手里。操作简单,但时效慢,泰国为例10-15天才能到货。 海外仓,则是由跨境卖家提前将产品运输到境外的仓库。当海外买家通过跨境电商平台下单购买商品后,产品直接从海外仓发出。大大缩短了消费者等待到货的天数。泰国为例2-3天能到货。 疫情期间,随着商家剧增,对于配套的海外仓变得非常稀缺。2020年下半年开始落地,一年时间实现盈利。目前“泰享海外仓”是泰国多家电商平台的合作伙伴。在泰国有3个仓库,未来的规划是持续在泰国建仓,不但服务中国电商卖家,同时服务泰国本地卖家。 2023年我们每周都会接待一些国内过来泰国考察电商市场,和当地营商环境的电商卖家和服务商朋友们。2023年下半年已经陆续有不少公司开始布局,在本地注册公司,招人,搭团队并展开业务。到了今年,有更多这样的公司来本土化落地。 中泰互相长期免签,给要来泰国创业的人提供了更便利的条件。 「我们遇到过,正在遇到,以后也会遇到的挑战, 就是本土化」 刘鹏 40岁 Fanslink 联合创始人 在泰国7年 Fanslink是一家帮助中国品牌布局泰国市场、进行本土化的解决方案公司。2017年,我开始在泰国搭团队。从品牌合规准入,到品牌推广,到全渠道销售,我们为想要进入泰国的企业提供整个链路的解决方案。 像小米、字节旗下的Pico、华米、汤臣倍健、华熙生物等等,都是我们的合作对象。也包括欧美一些头部品牌,包括universal music也选择我们的本地化解决方案。 中国品牌出海泰国有几点原因。 首先,他们需要新的业务增长。 2017年,国内互联网和电商已经比较卷了,人口红利吃尽,但泰国老百姓对这些领域的产品尚不熟悉;中国相对成熟的应用和工具,以及已经在中国被验证过的商业模式,有望在这片市场发力。 第二点是泰国本地的供应链、产业及工业体系基本上是不健全的 ,因此政府提供了很好的投资便利和贸易政策。比如泰国不生产手机,很多年前,政府就把这类产品的进口关税定位为0,于是,从苹果、三星,到oppo、vivo、华为、小米,很多厂商都通通杀进来了。 成果是,中国手机目前在泰国市场的渗透率达到一半以上,剩下是苹果和三星,新能源汽车则更高,几乎达到垄断级别。 ●泰国东部海岸泰中罗勇工业园,正吸引越来越多的中国企业来此“落户”。图源视觉中国 不过,从2017年到现在,我们遇到过的,正在遇到的,以后也会遇到的挑战,就是本土化。 本土化的前提是合规。 创业者首先建立你的合规体系。比如泰国要求外国人开公司,要由泰国人做自然人或者法人,占51%的股份。很多中国投资者想通过代持这类不合规的手段去解决。这就是为以后埋雷,法律就是法律,必须按部就班一步一步做好。 其次,在雇佣本地人员和外籍人员上,一般要按照4/1的配比来雇佣。否则企业申请工作签证就会遇到问题。我们公司华人只占到3%左右,都是相对核心的人员,他们离中国供应链更近,沟通效率更高。泰国的小伙伴也能发挥本地人的优势来做营销和销售。 雇佣是一大挑战。泰国的失业率常年维持在1%以下,也就是说,他们的劳动力是非常稀缺的,劳动市场不活跃,很难找到一个中意的员工。 此外,中国企业虽然是用一种先进的互联网生产力来做泰国这个市场,但必须要了解本地市场对产品的需求,才能找适合市场的产品和品牌。比如,泰国在品牌方面的重视某种程度上是超出我们认知的,他们相对保守,看到是品牌就愿意购买,这是非常传统的消费心智。 很多中国品牌进来后,想直接快速的把货卖出去,而不是做品牌,这就是没有真正认识到本土化里面本地对品牌的需求,这点特别关键。 做品牌意味着前期资本、人力、时间的投入,要经历漫长的过程。现在,越来越多中国品牌,愿意去做品牌本土化,这个是一个可喜的变化。 在本土化过程中,文化融合、交流和管理也是一大挑战,很多中国的创业者都会在这方面栽跟头。 泰国员工和中国员工在沟通方式上有很大差别。东南亚的气候决定了这里的人相对安逸。他们不像中国人那么拼——用中国的管理方式管理泰国员工,通常有时候员工就不见了,说两句重话就走,周末或者是下班时间打电话,对方很可能不接。 (编者注: 肖小跑也提到了很有趣的一个核心观点:不要把国人的狼性文化带到泰国。 ) 「 泰国给公民的普惠福利、和社会保险体系都是比较好的,他们不需要拼命挣钱也能生活的比较好——有时候我们开玩笑,哪怕你没有收入,随便找一家寺庙,都可以管吃管住。 花30泰铢,合人民币6块钱,就可以到任何一家公立医院看病。 如果在泰国建厂,你想把国内的狼性文化引过来,是绝对不可能成功的。一旦你狼性了,996,或者PUA员工,第二天很可能整个部门的人都不来了。 泰国是个佛教国家,他们特别不喜欢正面冲突,这也让一些中国企业对泰国员工产生误解:最初,人们觉得泰国人都很配合,不管你说什么他会对你微笑,好像非常认同。但后面实施起来就会发现,他要么是不做,要么就是各种拖延,这件事就办不下去。原因是他根本就不认同你,甚至是反对,但绝对不会表露出来。 」 ——肖小跑 总之,对本土市场保有尊重和敬畏心,才有机会分享到这片市场的红利。
AI短剧出海,一部成本两千?
作者|祖杨 一张黄皮肤中国脸,一键之后,摇身一变成了欧美霸总,二人的表情、动作幅度一模一样,毫不违和。 就在人们高谈阔论sora是否颠覆影视行业的时候,“AI换脸”已经在出海短剧中大显身手:AI省钱又省时间,不用找国外演员和主创现拍,将国内有版权的短剧直接AI翻译或者换脸,像简单的翻译和配字幕,一分钟只要20块,按一部剧100分钟算,也只花两千块。 如此利益驱动下,一些原来做短剧分销的人,现在已经转行做起了AI短剧出海。而随着入局者越来越多,生态里也逐渐鱼龙混杂,一部分人苦心孤诣,想要用AI提效率;但另一部分人则投机取巧,挥舞卖课的镰刀,“AI拍出海短剧,可月入百万”的帖子充斥着各种社交平台,低成本撬动大收益的造富故事里弥漫着熟悉的味道。 图源X账号“宝玉” 01 短剧降本,AI“二创” 事情的逻辑很简单:用AI“二创”短剧然后出海,核心目的是降低成本。 去年十月,「深响」和海外从业者Leon交流时了解到,在欧美澳地区做一部本土原创短剧,成本15万美元到20万美元之间。不仅贵,最大的问题还有“慢”,海外剧组和人才资源有限,一个月上线两部已是极限,而当时国内短剧头部九州文化能月更十几部。 如今不到半年时间,短剧出海的风刮的越来越猛,产能提上来了,成本预算也随之飙涨。Leon透露,现在有不少原创短剧的成本涨到了30万美元,有的演员借短剧出圈后价格也在涨,主演一天的价格为400到3000美元不等。“不管是更好的质量,还是更快的速度,都是妥妥地要金钱支持的。” 做本土原创短剧,对很多想低成本出海的企业来说不确定性太高,需要更多的时间和金钱投入,最后的效果也无法保证。而如果有国内的版权资源,只是把海外作为一个渠道分发,AI则成了一个降成本提效率的出海首选工具。 海外短剧拍摄现场,图源受访者 据观察,AI短剧出海,目前有三种应用方式: 第一种,用AI翻译并加字幕,这也是最常见的一种玩法。 一般情况下,国内的短剧在海外平台发布后,最基础的要做翻译和字幕的后期调整,方便海外用户能看懂。如果人工去掉中文字幕、翻译,再打轴、校轴和压制输出的话,又要雇人还要花钱。而换成AI,则省去了这部分成本。 「深响」咨询到了一家做AI配音的公司,之前是给长剧、电影出海做翻译,合作过不少地方卫视和影视制作公司,在短剧兴起后,也把短剧出海翻译当成了一项业务。据其给到的价格,只翻译和校对字幕以及字幕的时间轴对应,一分钟16-20元,个别小语种贵点。 按一部短剧100分钟来算,AI翻译和字幕调整,最多只要两千块钱就能实现低成本出海,如果批量输出价格可能还会压得更低。 第二种,在翻译、字幕的基础上再加上AI配音和口型调整。 只翻译字幕的话,有时候海外用户会出戏,部分追求精确化的短剧出海公司也会要求AI配音,同时主角的口型也随之匹配调整。这样的操作就像之前大家看到的郭德纲说英文、霉霉说中文的视频技术延展。 根据上述配音公司给到的价格表来看,真人配音效果精美,但成本极高,每分钟80到120元,需要2到3周的时间,如果替换成AI配音,成本和周期都大幅缩短。翻译+校对字幕+AI配音一套流程下来,每分钟50元。换句话说,只用花五千块钱,就能产出一部中国演员说着海外语言、标注海外字幕的海外短剧。AI配音+口型匹配参考示例,视频来源上述配音公司 第三种,直接AI换脸,把中国脸换成欧美脸,这也是看上去更本土化的一种“捷径”。 当前市面上AI换脸的报价差异不小,有人称1分钟只要几十块,100分钟的短剧AI换脸换配音的成本能控制在万元以内,也有人表示一部剧再5万到10万不等。 游方科技目前在做AI换脸业务,创始人方伟曾在采访中提到,价格差距主要是因为换脸的难度和视频精致度不同,如果视频里同时多个人物出现,换脸难度会变大,价格相对会更高。 短剧本就是个以小博大的产物,而AI的加入又像个筹码,继续把本来就低的成本降得更低,入局的人也看中了这一点,希望用更低的成本撬动更大的生意。 02 AI短剧,用户买单吗? 可惜应用效果并不如想象中那么顺利——AI二创短剧,仅仅只是降低了成本而已,用户买单的并不多。中文在线旗下子公司的海外短剧平台ReelShort、嘉书旗下海外短剧平台TopShort,都在初期尝试过译制剧,海外用户均不买单。 嘉书科技创始人王小书曾告诉「深响」,目前AI换脸换配音在行业里还没有出现一个商业上成功的案例。不管是北美还是日本,所有做得好的公司几乎都是真人拍摄。 首先,AI换脸换配音只是视觉上的本地化,而非故事内核的本地化。海内外不同的国情、文化差异以及用户习惯区别,也验证了出海并不是简单换张脸、换个语言。 比如国内曾经爆火的赘婿短剧在海外基本“做一部扑一部”,因为欧美市场根本没有“赘婿”一说,用户自然也就不了解“爽感”何在。 再比如日本用户爱看的“出轨题材”跟国内的叙事方法也是完全不同。“在国内,出轨只是渣男的一个反面行为,用来引出正面人物;在日本,出轨是一条完整的故事线。”王小书说。 其次,海外用户对“译制片”没有形成消费习惯。《TikTok短剧出海营销策略》显示,TikTok内容类型中,原创短剧占了95%,而翻译短剧仅有5%。 游方科技创始人方伟曾在采访中表示,据他收到的客户反馈,AI换脸短剧的“投流效果一般”,并不像网传消息声称“节约几十万制作成本,收割海外观众”那样美好。 当然,凡是涉及到AIGC,也必然会有版权归属、肖像权、行业习惯以及法律法规的潜在风险。 图源《TikTok短剧出海营销策略》 可以看到,对于AI短剧出海目前市场上有玩噱头的、有上门推销的,但真正商业上的爆款案例为零。使用AI最大的意义只是降低了成本,但对于专业从业者来说,短剧面向的是大众级别的消费市场,“成本”反而并不是第一要素。 在中国,拍一部100分钟的短剧,平均成本50万,在海外,平均成本30万美元。如果和电影、电视剧的成本投入相比,短剧的成本低太多了,几十万的成本对标几千万、上亿的成本,短剧有明显的成本优势,那现在有了AI的加持,可以把几十万的成本变成几万块钱,但效果比几十万的可能要差不少,这样的情况还能获得用户买单,从逻辑上看是难以立住脚的。 最近很多投资人在看AI大模型等相关项目的时候会格外重视“PMF”(Product Market Fit),即产品和市场的匹配。这也在提醒行业,新技术固然好,但一切价值的呈现都还需围绕实际应用和实际需求。 不管是AI换脸,还是AI生成短剧,当前行业所做的一系列AI革新,仍然处于探索阶段,AI带给影视行业的冲击并不像舆论中炮制的那样严重。对于从业者而言,时刻保持对新技术的关注是必须的,但也大可不必神化AI、妄自菲薄。
2023年度吴文俊人工智能科学技术奖授奖名单公布
集微网消息,3月7日,中国人工智能学会发布2023年度吴文俊人工智能科学技术奖励公告。 经吴文俊人工智能科学技术奖励委员会审核通过,报中国人工智能学会理事长批准,决定授予70项成果为2023年度“吴文俊人工智能科学技术奖”,现将结果予以公告。 2023年度吴文俊人工智能最高成就奖1项;杰出贡献奖3项;自然科学奖一等奖3项、二等奖3项;技术发明奖一等奖2项、二等奖3项、三等奖1项;科技进步奖一等奖3项、二等奖6项、三等奖5项;专项奖(芯片项目)一等奖1项、二等奖1项;科技进步奖(科普项目)4项;科技进步奖(企业技术创新工程项目)4项;优秀青年奖15项;优秀博士学位论文获奖论文10篇、提名论文5篇。 最高成就奖获得者是中国工程院院士高文。高文,1956年3月7日出生于辽宁省大连市,计算机专家,中国工程院院士,北京大学教授、博士生导师,北京大学信息科学技术学院院长,北京大学数字媒体研究所所长,数字视频编解码技术国家工程实验室主任,北京大学深圳研究生院数字媒体研究中心主任,鹏城实验室主任。 其中,中星微技术股份有限公司、北京中星微人工智能芯片技术有限公司、重庆中星微人工智能芯片技术有限公司、上海中星微莘庄人工智能芯片有限公司参与完成的可信感知双模编解码AI芯片研发与应用被授予“2023吴文俊人工智能专项奖(芯片项目)”一等奖;北京忆芯科技有限公司参与完成的存算一体化AI芯片的研发和应用被授予“2023吴文俊人工智能专项奖(芯片项目)”二等奖。 以下为授奖名单:
别跟马斯克扯头花了!“叛徒”Anthropic解决了困扰OpenAI的难题
摘要: 1. “田忌赛马”式定价,瞄准to B领域 2. 十字路口的大模型公司 3. 大模型公司会否下场做选手? 编辑:狮刀 引言 2024年LLM竞赛正式拉开,被称为OpenAI“最强竞争对手”的大模型公司Anthropic带着Claude 3系列闪亮登场。而它的对手们,一个正和马斯克“扯头花”;另一个因为Gemini政治过分正确而焦头烂额。 一时间,“全面碾压GPT-4”“全球最强模型易主”等字眼铺满屏幕,似乎一年前由OpenAI开辟的盛世终于转交给了Anthropic。 别忘了,GPT-4已经是一年前的产物,GPT-5还在路上;谷歌也不是Anthropic的“对手”,是其背后第二大“金主爸爸”。有消息称,去年12月,谷歌对Anthropic的投资扩大到了20亿美元。 而在这场“你追我赶”的游戏中,还有微软“小儿子”Mistral AI已经发布的Mistral Large,以及被Meta列为2024年重点任务的Llama 3等等。只不过,无论是Mistral AI还是Meta目前都是被GPT-4压着打,只有“脱胎”于OpenAI的Anthropic拿出了可以与之一战的“杀器”。 这也表明了,暂时的排名只是先来后到,今年的LLMs将全面开花,。因此,铺天盖地的“Open AI被追平比分”仅仅是Anthropic新品发布的一个噱头,重点应该放在人工智能公司选择的商业化路径上——当Inflection、Character.AI,甚至OpenAI等公司进一步探向to C消费者用例时,Anthropic却一头扎向了to B。这条思路在其刚刚发布的Claude 3系列的突出性能、定价策略上均有所体现。 1 “田忌赛马”式定价,瞄准to B领域 Claude 3系列包含三个模型——Opus、Sonnet、Haiku,性能从高到低。 根据Anthropic公布的技术报告,Opus在知识测试MMLU、推理测试 GPQA、基础数学测试 GSM8K 等一系列基准测试中,均优于GPT-4。Sonnet的性能与GPT-4不相上下;Haiku则略逊于GPT-4。不过,这项测试中没有包含刚刚更新的GPT-4 Turbo和Gemini 1.5 Pro。 值得注意的是,MMLU(本科常识)/ GSM8K (小学数学)/ HumanEval (计算机代码)等指标上已严重饱和,几乎所有的模型都表现相同。真正有区分度的为MATH(数学问题解答能力)和GPQA(领域专家能力),后者可以体现模型在企业服务方面的能力。 据悉,Claude3 选择了金融、法律、医学和哲学作为专家领域。其中,Opus的GPQA准确率达到了60%,这意味着其能力接近于同一领域且能够上网的人类博士准确率(65%—75%)。Sonnet达40.4%;Haiku达33.3%。而GPT-4仅为35.7%。 对此,英伟达资深AI科学家JimFan指出:我建议所有LLM的模型卡都应该效仿这种做法,这样不同的下游应用就能知道可以期待什么。 同时,考虑到企业客户需要处理很多PDF、PPT、流程图,Claude3 系列在视觉能力、准确性、长文本输入和安全方面,均有所进步。 例如,在准确性方面,Anthropic 使用了大量复杂的事实问题来针对当前模型中已知的弱点,将答案分为正确答案、错误答案(幻觉)、承认“不知道”。相应地,Claude3 可以表示自己不知道答案,而不是提供不正确的信息。除了更准确的回复,Claude 3甚至还能“引用”,指向参考材料中的精确句子来验证他们的答案。 在定价策略上,以GPT-4 Turbo的40美元/1M tokens;GPT-3.5 Turbo的2美元/1M tokens为对比。 最强能力Opus——90美元/1M tokens,适合最尖端的企业和机构。其接近人类的理解能力,适用于需要高度智能和复杂任务处理的场景,如企业自动化、市场分析和制定策略、复杂的数据分析和金融预测、生物医学研究和开发等。 最高性价比Sonnet——18美元/1M tokens,适合大多数企业客户规模化使用,消费者客户也可以负担。其纯文本任务表现与Opus相当,更适用于数据处理、代码生成、个性化营销,图文解析等中等复杂度的工作。 最快速度Haiku——1.5美元/1M tokens,适合消费者客户使用。其具备近乎即时的响应能力,在大多数纯文本任务上表现仍然相当出色,且包含多模态能力(比如视觉),适用于与用户实时互动、内容管理、物流库存管理、文本翻译等工作任务。 综合来看,Claude 3的高端线Opus比OpenAI(GPT-4 Turbo)更贵,低端线Haiku比OpenAI(GPT-3.5 Turbo)更便宜。 如此一来,成败似乎集中在了中端线Sonnet上。如果“更少的幻觉”“更专业的领域行家”“更高的性价比” 更吸引企业客户。那么,GPT-4 Turbo的地位将会变得不尴不尬,直到局势被GPT-5打破。 目前,用户可以免费体验中等性能的Sonnet,最强版Opus仅供Claude Pro付费用户使用(20美金/月),性能稍弱的Haiku即将推出。 PS:适道在Poe上使用同样的提示语,让Opus、Sonnet、GPT-4 Turbo随机做了一段简单的新闻翻译。结果,Sonnet的表现居然最好,甚至翻译出了缩写!Opus水平巨中,而GPT-4直接忽略了主语。。。 总之,这一套组合拳下来,正如Anthropic联合创始人Amodei兄妹所言:“Anthropic更像是一家企业公司,而不是一家消费者公司。” 目前,Claude的客户包括科技公司Gitlab、Notion、Quora和Salesforce(Anthropic的投资者);金融巨头桥水公司(Bridgewater)和企业集团SAP,以及商业研究门户网站LexisNexis、电信公司SK Telecom和丹娜法伯癌症研究所(Dana-Farber Cancer Institute)。 根据Anthropic高管Eric Pelz的一份声明:在Claude 3的早期测试用户中,生产力软件制造商Asana发现初始响应时间缩短了42%;软件公司Airtable表示,公司已将Claude 3 Sonnet集成到自己的人工智能工具中,以帮助加快内容创建和数据汇总。 可以预见的是,在Claude 3发布之后,Anthropic的to B商业化之路将更加明晰,并与OpenAI等头部大模型公司走上不同的道路,尽管最后可能殊途同归。 2 十字路口的大模型公司 “赚的多,花的多”是头部大模型公司的真实写照。事实上,Anthropic的to B之路既是自愿选择,也是形势所迫。 截至2023年 12 月,OpenAI的ARR 已超16 亿美元,2022年的ARR则为3000万美元,增速高到惊人。 虽然尚无数据显示Anthropic的2023年ARR ,但在2023年10月,Anthropic和投资人洽谈时表示到2023年年底,将实现 2 亿美元 ARR,每月近 1700 万美元的营收。另外,根据 Anthropic 最新预测,到2024 年底,其 ARR 将至少达到 8.5 亿美元。 确实得益于快速的收入增长,2023年Anthropic 筹集了数十亿美元,估值超过 150 亿美元。 但根据 Information 报道,有两位知情人士透露,在支付客户支持和AI 服务器成本后,2023年12月Anthropic的毛利率在50%—55%,根据Meritech Capital的数据,这远低于云软件公司77%的平均毛利率。 还有一位重要股东预测,Anthropic长期毛利率将在 60%左右,且该毛利率未反映训练 AI 模型的服务器成本,因为这些成本是被 Anthropic 纳入其研发费用中。 而根据 Sam Altman的说法,每个模型成本可高达1亿美元。不过,Altman自己也笑不出来,因为OpenAI的毛利率可能更低。毕竟 ChatGPT还有免费版,白白花掉一批服务器成本。 上述事实均表明,即便你强如OpenAI,Anthropic,但AI初创公司普遍的利润率可能比现在的SaaS公司还低。 不过,现在问题还没显现,毕竟大模型在风口,投资人更关注其惊人的增速。这些AI初创公司也会以其乐观的收入预测为依据,按照未来一年收入的 50—100 倍的估值进行融资。 当然,只要AI创业能保持这种增长势头,投资人是可以忽略亏损。直到,你的收入增长掉进30%—40%。一位VC合伙人表示:到那时,如果一家公司的经营现金流为负,并在短期内没有将至少10% 的收入转化为现金流,就很难吸引新的投资人入局。 根据 Meritech Capital数据,上市软件公司的中位数是未来收入的 6 倍。也就是说,随着时间的推移,对于初创公司来说,维持这样的收入倍数将越来越困难。 具体到Anthropic和OpenAI这对“大冤种”身上,两家公司的增长和利润率部分依赖于主要云服务提供商。 例如,谷歌和亚马逊向 Anthropic 投了数十亿美元,并将 Anthropic 的软件出售给其云客户。目前尚不清楚这些云厂商在销售中获得的提成比例,但如果改成是Anthropic直接向客户卖模型,利润率可能会更高。 而微软虽然用更低的利润租给OpenAI云服务器,但OpenAI 必须将直卖给客户的部分收入返给微软。而且,当微软将OpenAI 软件卖给自己的云客户时,也会抽掉大部分收入。 因此,对于上述“冤种”AI创业公司来说,想要拿到高毛利。一方面,通过更新技术,降低运行成本,就像OpenAI已经实现的;另一方面,像Anthropic“田忌赛马”战略一样,找准切口,聚焦企业客户,尽可能创收,并保持高增速。 据 Forbes报道,Anthropic最近以184亿美元的估值融资7.5亿美元,该公司计划在未来几个月内增加代码解释、搜索功能和源代码引用等功能。其创始人Amodei兄妹说:“我们将继续扩大模型规模,让它们变得更加智能,同时也继续努力让更小、更便宜的模型变得更智能、更高效。一整年都会有不同程度地更新。” 3 大模型公司会否下场做选手? 为了更深入理解Anthropic的商业化路线,适道节选了一期创始人Dario Amodei访谈中的“商业化”部分,原文如下。 Dwarkesh Patel :你认为目前的 AI 产品是否有足够时间在市场上获得长期稳定收入?还是随时可能被更先进的模型取代?或者到时候整个行业格局会变得完全不同? Dario Amodei :这取决于对“大规模”的定义。目前已经有几家公司的年收入1 亿—10 亿美元,但能否达到每年数百亿,甚至万亿级别,则难以预测。因为这还取决于很多不确定的因素。现在有些公司正在“大规模”应用创新型 AI,但这不能代表刚开始用就一步到位,达到最佳效果。而且,即使有收入也并不完全等于创造了经济价值,整个产业链的协同发展是一个长期过程。 Dwarkesh Patel :从Anthropic角度来看,如果LLM的进步如此迅速,那么理论上公司的估值应该增长得很快? Dario Amodei :即使我们注重模型安全性研究而非直接商业化,在实践中也能明显感受到技术水平在以几何级数上升。对那些将商业化视为首要目标的公司来说,进步肯定比我们更快。(xswl在内涵OpenAI )。 虽然我们承认LLM进步神速,但对比整个经济体系的深度应用过程,技术积累依然处于较低的起点阶段。决定未来走向是这二者间的竞速——技术本身进步速度、被有效整合和应用,并进入实体经济体系的速度。这二者都很可能高速发展,但结合顺序和微小差异都可能导致相当不同的结果。 Dwarkesh Patel :科技巨头可能会在未来 2-3 年投入高达 100 亿美元进行模型训练,这会对 Anthropic 带来什么样的影响? Dario Amodei :情况1——如果因为成本问题无法保持前沿地位,那么我们将不会继续坚持开发最先进的模型。相反,我们会研究如何从前几代的模型中获取价值。 情况2——接受被制衡。我认为这些情况的正面影响可能比它们看起来的要更大。 情况3——当模型训练到达这种量级后,可能开始会出现新的风险,比如AI 滥用。 总结一下,虽然Dario坚信LLM的能力会得到快速且显著的提升,但可能受制于社会因素、创新采纳效率,最终减缓其被“大规模”应用的速度,无法发挥LLM的真正潜力。 据此,Anthropic的to B之路看起来也更加稳妥。一方面,利用自己的“安全性”长处,切入金融、法律、医学等领域;另一方面,寻找偏重“技术应用”,可以长期合作的企业客户,尽可能消除C端消费者采用的不确定性。 说到这里,我们可以大胆预测一下,如果真如Dario预测的“社会采纳速度低于模型发展速度”,那么,未来会否出现一批大模型公司亲自下场做应用?尤其在国内。
豪赌HBM
SK 海力士公司正在加大在先进芯片封装方面的支出,希望能更多地满足人工智能开发中关键组件(高带宽内存)不断增长的需求。 前三星电子公司工程师、现任 SK 海力士封装开发负责人 Lee Kang-Wook 表示,这家总部位于利川的公司今年将在韩国投资超过 10 亿美元,以扩大和改进其芯片制造的最后步骤。。该工艺的创新是 HBM 作为最受欢迎的 AI 内存的优势的核心,进一步的进步将是降低功耗、提高性能和巩固公司在 HBM 市场领先地位的关键。 Lee 专注于组合和连接半导体的先进方法,随着现代人工智能的出现及其通过并行处理链消化大量数据,这种方法变得越来越重要。虽然 SK 海力士尚未披露今年的资本支出预算,但分析师平均估计该数字为 14 万亿韩元(105 亿美元)。这表明先进封装(可能占其中的十分之一)是一个主要优先事项。 Lee 在接受采访时表示,“半导体行业的前 50 年一直是前端”,即芯片本身的设计和制造。“但接下来的 50 年将是后端(即封装)的全部。” 在这场竞赛中率先实现下一个里程碑的公司现在可以使公司跻身行业领先地位。SK 海力士被 Nvidia 公司选中为其制定标准的人工智能加速器提供 HBM,从而将这家韩国公司的价值推高至 119 万亿韩元。周四,该公司股价在首尔上涨约 1%,自 2023 年初以来已上涨近 120%。该公司目前是韩国第二大市值公司,表现优于三星和美国竞争对手美光科技公司。 现年 55 岁的 Lee 帮助开创了一种封装第三代技术 HBM2E 的新颖方法,该方法很快被其他两家主要制造商效仿。这项创新对于 SK 海力士在 2019 年底赢得 Nvidia 客户至关重要。 Lee 长期以来一直热衷于通过堆叠芯片来获得更高的性能。2000 年,他在日本东北大学获得了微系统 3D 集成技术博士学位,师从 Mitsumasa Koyanagi,他发明了用于手机的堆叠式电容器 DRAM。2002 年,Lee 加入三星内存部门担任首席工程师,领导基于硅通孔 (TSV) 的 3D 封装技术的开发。 这项工作后来成为开发 HBM 的基础。HBM 是一种高性能存储器,它将芯片堆叠在一起,并将它们与 TSV 连接起来,以实现更快、更节能的数据处理。 但早在智能手机时代之前,三星就在其他地方下了更大的赌注。全球芯片制造商通常将组装、测试和封装芯片的任务外包给亚洲小国家。 因此,当 SK 海力士和美国合作伙伴 Advanced Micro Devices Inc. 在 2013 年向世界推出 HBM 时,他们在两年内没有受到任何挑战,直到 2015 年底三星开发出 HBM2。三年后,Lee 加入了 SK 海力士。他们带着一丝自豪地开玩笑说,HBM 代表“海力士的最佳内存”。 里昂证券韩国分析师桑吉夫·拉纳 (Sanjeev Rana) 表示:“SK 海力士管理层对这个行业的发展方向有更深入的了解,并且做好了充分准备。” “当机会来临时,他们用双手抓住了它。” 至于三星,“他们被发现在打瞌睡。” ChatGPT 于 2022 年 11 月发布,这是 Lee 一直在等待的时刻。当时,他的团队在他在日本的联系人的帮助下开发了一种新的封装方法,称为大规模回流成型底部填充(MR-MUF)。该工艺涉及在硅层之间注入液体材料,然后进行硬化,从而提高了散热性和产量。据一位知情人士透露,SK 海力士与日本 Namics Corp. 就该材料和相关专利进行了合作。 Lee 表示,SK 海力士正在将大部分新投资投入到推进 MR-MUF 和 TSV 技术中。 三星多年来一直被高层的继任传奇困扰,现在正在反击。Nvidia 去年认可了三星的 HBM 芯片,这家总部位于水原的公司表示。2月26日,其开发出第五代技术HBM3E,拥有12层DRAM芯片,容量为业界最大36GB。同一天,总部位于爱达荷州博伊西的美光公司表示,它已开始批量生产 24GB、八层 HBM3E,这让业界观察人士感到惊讶,该产品将成为英伟达第二季度出货的 H200 Tensor Core 单元的一部分。 Lee 致力于扩大和增强国内技术,并计划在美国建设耗资数十亿美元的先进封装设施,因此面对日益激烈的竞争,Lee 仍然看好 SK 海力士的前景。他认为目前的投资为满足未来几代 HBM 的更多需求奠定了基础。 SK海力士的狂飙 人工智能的繁荣在韩国股市造成了巨大的分歧:存储芯片制造商 SK 海力士今年股价飙升超过 16%,而更大的竞争对手三星电子则表现疲软。 SK 海力士是高带宽内存(HBM)芯片的领先生产商,这些芯片与 Nvidia 的图形处理器结合使用,以实现强大的人工智能计算。AI芯片和服务器的爆炸性需求使得SK海力士在韩国股市的股价今年以来上涨了16.5%。 与此同时,由于芯片巨头三星电子在人工智能领域奋力追赶,其股价同期下跌了 8%。 Hi Investment & Securities 在上周的一份报告中表示,SK 海力士“由于其在 HBM 领域的主导竞争力,致力于发展人工智能行业,因此享有高估值”。“由于该公司今年很有可能保持 HBM 的竞争力,我们相信该股将维持相对乐观的趋势。” 三星是基准 KOSPI 指数中市值最高的公司,其次是 SK 海力士。两者之间出现不同寻常的差异之际,全球半导体公司都在寻求利用 OpenAI 推出 ChatGPT 引发的人工智能热潮。过去六个月,英伟达的市值几乎翻了一番,因为这家美国公司的图形处理单元(GPU)对于人工智能计算至关重要。 总部位于台北的市场分析公司Trendforce表示,SK海力士作为HBM技术的领导者,是Nvidia的主要供应商。 Trendforce 在 1 月份的一份报告中表示:“SK 海力士的 HBM3 产品领先于其他制造商,并且是 NVIDIA 服务器 GPU 的主要供应商。而三星则专注于满足其他云服务提供商的订单。” SK海力士于2014年与AMD联合开发了全球首款用于游戏芯片的HBM产品。两家公司还联手开发高带宽、三维堆叠内存技术及相关产品。 8月,SK海力士开发出HBM3E,这是目前适用于AI应用的最高规格DRAM。该芯片每秒处理高达 1.15 TB 的数据,相当于 230 多部全高清电影,每部 5 GB 大小。 SK 海力士首席执行官 Kwak Noh-jung 一月份在 CES 上表示:“我们正在向市场和行业提供具有超高性能的多样化产品,例如 HBM3 和 HBM3E,这是世界上最好、最受追捧的产品。” 野村证券对需求前景持乐观态度。该公司在上周的一份报告中表示:“在人工智能服务器繁荣时期,对 HBM 的需求极其强劲,因为人工智能公司的技术进步以及企业和消费市场的商业利用都好于预期。” 券商进一步上调SK海力士股票的目标价,预计该公司将保持其在该行业的领先地位。Hi Investment & Securities 上周将目标价从 11 月份的 125,000 韩元上调至每股 169,000 韩元。 与此同时,三星正在开发自己的 HBM 芯片以迎头赶上。该公司上周宣布开发出HBM3E 12H,这是业界首款12堆栈HBM3E DRAM,也是迄今为止容量最高的HBM产品。三星表示,将于今年上半年开始量产该芯片。 不过,投资者对这一消息并不感到惊讶。该公司股价当天仅上涨0.1%。自1月份下跌7.4%以来,其股价自2月份以来一直徘徊在73,000韩元左右。
Claude 3破译OpenAI邮件密文:人类未来掌握在“谷歌”手中!马斯克怒斥应改名ClosedAI
编辑:桃子 好困 【新智元导读】大瓜又来了!OpenAI公开邮件之后,马斯克玩梗回复若改名Closed AI决定放弃起诉。闹掰之后,Altman本人表示非常怀念以前的马斯克。 继OpenAI与马斯克正面宣战,一连曝出8年来往邮件后,马斯克本人终于回应了。 他表示,「若OpenAI将名字更换到Closed AI,我就放弃起诉」。 随后,他转发了各种梗图,把Altman经典回岗工作牌,修改成了「Closed AI」。 揭开OpenAI的本质——Closed AI。 更有意思的是,网友们对邮件中掩码的内容,发起了「攻击」,想要将其掩盖的文字破译出来。 不仅用上了世界最强大模型Claude 3,就连「分词」猜测都用上了。 Claude 3「破案」:人类未来掌握在「谷歌」手中 邮件中,马斯克称,「不幸的是,人类的未来现在掌握在▇▇的手中」。 那么,究竟是谁的手中? 网友Pietro Schirano称,「自己用Claude 3解密了OpenAI邮件中遮挡的一部分内容」。 令人惊讶的是,他们使用的是「按字」脱敏的方法,这意味着每脱敏的长度与单词的长度成正比。 因此,根据上下文和单词长度,Claude对原文内容做出了如下猜测: 首先,马斯克所说人类的未来,现在掌握在「谷歌」的手中。 然后紧接着下一句是,「我相信,仅DeepMind每年的开支就在1亿美元以上」。 这句话一眼就能看出来,是错误的,毕竟原文的句子长度,是在「hands」单词前结束了。 最后抹去的一大段,Claude 3猜测:他们正在建设庞大的集群,并且有一条通往通用人工智能的明确路径。它能适应任何问题,在每项智力任务上都能碾压人类,同时还能在廉价硬件上运行。 不管怎么说,有了Claude 3的密文解译,从头看下来,这封信的内容确实毫不违和。 再来看看另一封邮件中,涂黑的一大段,是OpenAI团队的人发给马斯克的。 想要破译这个邮件难度就太高了,网友varepsilon开始第一步就是「分词」。 他猜测,这应该是Karpathy写给马斯克的信,并抄送给了自己。 经过一番努力,破译的第一句话是:DeepMind's AlphaZero implementation is over nine to twelve times the next 不过,更多的进展,还在进行中。 就连OpenAI的视频生成研究员Will Depue对此还产生了兴趣,并表示「这看起来很有趣,我也想加入其中,但很可能行不通」。 邮件中透露的5个细节 1. Ilya澄清OpenAI中的「open」并不意味着「开源代码」 首席科学家Ilya Sutskever在邮件中的一句话,成为众多网友的关注点。 随着我们离构建人工智能越来越近(close),减少「open」是说得通的。 他认为,「open」意味着在AI构建完成后,其成果应该让所有人受益,但这并不意味着必须分享所有科学研究成果。 尽管在短期到中期内,为了招聘目的分享成果无疑是正确的策略。 2. 马斯克同意AI不一定要开源 对于Ilya的回信,马斯克仅用一个词,表达了赞同AI技术不一定要开源。 3. 马斯克建议将OpenAI与特斯拉合并 向Sutskever和Brockman发送的邮件中,马斯克称: OpenAI正在「烧钱」,而当前的资金模式难以与谷歌等大公司竞争。最有希望的办法是,将OpenAI与特斯拉合并,通过特斯拉为其提供资金来源。 马斯克补充道,我们可能希望不是这样。但在我看来,特斯拉是唯一能与谷歌抗衡的公司。即便如此,成为谷歌的制衡力量的可能性也很小。但这种可能性并非为0。 4. 2018年便开始讨论OpenAI转向盈利模式的可能性 虽然OpenAI表面上仍然是一家非营利性组织。 但早在2018年,OpenAI和马斯克就讨论了营利性转向——即转向目前不同寻常且复杂的非营利/有限营利结构。 马斯克指出,以盈利为重点的战略可能会随着时间的推移创造更可持续的收入来源,而且就目前的团队而言,很可能会吸引大量投资。但从头开始构建产品可能会过于复杂,分散研究的焦点。 他继续表示,最有希望的方法是让OpenAI「将特斯拉作为其摇钱树」,帮助构建自动驾驶解决方案。 「如果能做得很好,且运输业的规模足够大,那么就可以将特斯拉的市值提高到O(~100K),并用这笔收入在适当的规模上为人工智能工作提供资金。」 5. Ilya担心出现「硬起飞」状况——安全的AI比不安全的更难构建 Ilya所说的「硬起飞」,实际上是指——人工智能突然快速发展到超越人类智能的阶段,而没有缓冲期。 他强调,这种情景下,开发安全的AI比开发不安全的AI更加困难。如果将一切开源,那么拥有大量算力的「坏人」将很容易构建不安全的AI。 马斯克与Altman的「爱恨情仇」 马斯克与OpenAI、Altman之间,还有一些从未公开的秘密。 从相爱到相杀,他们之间究竟经历了什么? 今天,WSJ发表的一篇长文,讲述了马斯克与Altman的「兄弟情谊」如何走向终结。 十多年前,在南加州SpaceX的总部,Sam Altman第一次深刻感受到了马斯克的雄心壮志,而那次会面也彻底改变了他的人生轨迹。 如今,身为OpenAI首席执行官的Altman,经常会回想起当时心里产生的巨大反差。 20多岁的自己刚刚以不尽如人意的价格,卖掉首个创业项目的日子,而比他大14岁的马斯克,正筹划着向火星发射火箭的宏图。 Altman后来回忆道,「我当时心想,『原来这就是坚定信念的模样』」。 最近,Altman更是亲身体会到了这位「昔日导师」对信念的坚持:马斯克直接向Altman本人发起了挑战。 在上周提起的诉讼中,马斯克指责Altman为追求利润背离了OpenAI最初的使命,而OpenAI对此予以否认。 这场愈演愈烈的爱恨情仇,恰恰揭示了人工智能军备竞赛中不断变化的力量平衡。 2015年,两人共同创立了OpenAI。作为一个非盈利的研究机构,初期的数千万美元(根据邮件4000万美元)都是由马斯克亲自出资。 如今,马斯克已经离开,OpenAI则转向商业化,获得了微软数十亿美元的投资。OpenAI正在引领当下的AI热潮,而马斯克自己的初创公司xAI,却只能勉强追赶这个曾经由他资助起步的组织。 「从个人角度来说,这很令人难过,」Altman在诉讼当天向员工发出的备忘录中表示。他把马斯克称为自己的个人英雄。 「我愿意将马斯克看作是一位建设者,一个通过构建更优技术来竞争的人,我希望他能站在我们这边,」他这样写道。 在昨天OpenAI发布的一篇博客中,计划驳回马斯克提出的所有法律指控。 多年以来,Altman依靠马斯克的名望和财富帮助OpenAI起步。他们联手试图阻止当时在AI领域遥遥领先的谷歌成为行业霸主。 然而,围绕他们合作关系恶化的原因,身边的人却给出了不同的说法: - 站Altman的人认为,马斯克是嫉妒他在AI领域的成就。相比于AI安全,马斯克更在意的是如何超越OpenAI。 - 而马斯克的支持者则认为,他对AI安全的担忧是真切的,并且他视xAI为开发出OpenAI之外更好的选择的关键。 缘起:联手创办OpenAI Altman和马斯克是由Y Combinator的合伙人Geoff Ralston介绍认识的。 当二人第一次相遇时,Altman刚刚将Loopt以一个并不理想的价格卖出,这个价格仅仅回本。 20多岁的他当时正处于人生的十字路口,一边在印度的修行处寻找心灵的平静,一边在考虑是创办新公司还是全身心投入投资。 相比之下,马斯克当时已经成功开发了一种能够从空间站回收货物并返回地球的商业航天器,他认为这是实现人类星际生活的关键第一步。 Geoff Ralston 随着AI的发展越来越快,马斯克也越来越感到不安。 根据马斯克的诉讼,他的担忧起源于2012年与AI公司DeepMind的联合创始人Demis Hassabis的一次会面,会上Hassabis强调了AI进步对社会可能带来的潜在风险。 而诉讼中未提及的是,会后马斯克投资了DeepMind,以便更密切地关注这项技术的发展。 后来,当马斯克得知谷歌计划收购DeepMind时,他感到非常震惊。 他与PayPal的联合创始人之一Luke Nosek提出了竞购,但未能成功——谷歌则最终买下了DeepMind。 Altman从小对AI充满了浓厚的兴趣,18岁时就已经将其列为自己想要深入探索的问题之首。 随着Altman在硅谷的知名度不断上升,他努力将科技界的焦点聚焦于AI的巨大潜力上。 2014年,他在个人博客上称AI可能是「有史以来最重大的技术发展」。几天后,他被任命为Y Combinator的负责人,而Y Combinator后来也成为了OpenAI的支持者。 和马斯克一样,Altman也对这项技术的潜在危险深感忧虑。2015年2月,他曾写道,AI「可能是对人类持续存在最大的威胁」。 在那年3月,Altman询问马斯克是否有兴趣联合撰写一封公开信,呼吁美国政府关注人工智能的问题。 到了5月,他向马斯克发送邮件,建议Y Combinator启动一个类似「曼哈顿计划」的人工智能项目。马斯克回应表示这个想法「可能值得进一步讨论」。 随后,两人开始合作着手筹建一个新的AI实验室——马斯克为它起名叫OpenAI。 大牛Greg、Ilya入局 Altman在6月的邮件中提出,他们应该作为一个5人董事会的成员来管理这个非盈利机构,并建议在实验室正式成立后再发布呼吁AI监管的公开信。马斯克对此表示全面同意。 Altman邀请了Greg Brockman,Stripe的首席技术官加入。 而马斯克则帮助招募了在谷歌工作的顶尖AI科学家Ilya Sutskever。 为了让非盈利机构的薪酬方案更有吸引力,OpenAI计划向招聘的员工提供特斯拉和SpaceX的股份,以及参与Y Combinator投资项目的机会。 马斯克和Altman成为了OpenAI的首批联合主席。据前员工透露,实际上是马斯克在这个组织中拥有更大的影响力和控制权。 最初,马斯克经常出现在办公室,提出一些大胆的想法,并询问员工们对于实现通用人工智能(AGI)的看法。 有趣的是,当时的OpenAI和马斯克的另一个创业项目——脑机接口公司Neuralink——是共用办公空间的。 与此同时,马斯克还是OpenAI的财务支柱。 OpenAI曝出的邮件称没,马斯克曾许诺了10亿美元资金的承诺,避免听起来与谷歌或Facebook支出相比毫无希望,并承诺补足任何资金短缺。 而在当时,Altman和Brockman最初的筹资目标是1亿美元。 根据投诉资料,马斯克总共捐赠了4400万美元,其中2016年捐出1500万美元,2017年又捐出2000万美元,连续两年成为最大的捐赠者。此外,他还承担了OpenAI几年的房租。 马斯克力促OpenAI的研究团队开展创新项目,从而在与DeepMind的竞争中占据先机。其中一个团队的目标是Dota 2中战胜世界顶尖玩家。 未出成果,通往AGI压力重重 但到了2017年,OpenAI尚未取得任何重大研究成果。 前员工透露,马斯克显得越来越不耐烦,他加大了对员工的压力,有时甚至威胁要退出项目。 同年,谷歌发布了一项关于新型AI模型「Transformer」的研究论文,这标志着构建类似人类聊天机器人等工具的大型语言模型的新纪元。 论文指出,实现这一目标需要处理大量数据和巨大的计算力。 为了筹集足够的计算资源,Brockman和其他人提议将OpenAI的架构转变为盈利性质。 这样一来,它就能从包括微软在内的投资者那里获得资金。 马斯克对此持反对态度,他在给Brockman、Sutskever和Altman的信中明确表示,要么他们自己另起炉灶,要么就继续保持OpenAI的非盈利性质。他强调,在他们作出明确承诺之前,他不会再为OpenAI提供资金,「讨论到此为止。」 对此,Altman回应称,他仍然「非常看好非盈利模式」! 在周二发布的博客文章中,OpenAI表示马斯克已经认识了到建立营利实体的必要性,但他不仅希望获得多数股份和初始董事会的控制权,还想担任CEO。 一方面,马斯克一直在试图加强对OpenAI的控制,甚至提议将OpenAI纳入特斯拉。 在博客文章中附带的一封电邮中,马斯克表示:「特斯拉是唯一可能与谷歌竞争的途径。尽管如此,成为谷歌对手的几率很小,但并非没有可能。」 另一方面,马斯克还试图吸引OpenAI的研究人员加入特斯拉,这一行为激怒了他的同事们。 文章指出,在讨论期间,他曾中断资金支持。此时,OpenAI不得不依赖LinkedIn联合创始人Reid Hoffman的资金支持来维持运营。 2018年2月,OpenAI的高层拒绝了马斯克意图控制的提案,因此他选择了辞去联合主席一职。此后,Altman接任首席执行官。 在一次全体员工会议上,Altman对马斯克在组织内的贡献表示感谢,马斯克也在会上表示,他计划在特斯拉开展自己的AI研究。 当一位年轻研究员对马斯克的决定提出质疑,认为这可能会加剧AI军备竞赛时,马斯克大骂这位研究员是「蠢货」并愤然离场。 在2018年底,马斯克再次通过电邮向Altman、Brockman和Sutskever表达了他对OpenAI未来的悲观预测。 他认为,如果不在执行方式和资源配置上进行重大调整,OpenAI与DeepMind/Google保持竞争力的可能性为0。 尽管马斯克停止了对OpenAI的现金捐款,但他仍继续承担其租金费用。 2019年3月,在OpenAI成立了盈利子公司后,Altman依然公开支持马斯克。 在投资者开始做空特斯拉股票时,Altman立即站出来为马斯克辩护。 ChatGPT诞生,彻底分道扬镳 2022年11月,当OpenAI发布了能写诗和生成计算机代码的聊天机器人ChatGPT后,两人的关系出现了裂痕。 马斯克公开表达了对于ChatGPT加快开发强大AI的竞赛的担忧,同时,他也开始质疑这家他共同创立的非盈利组织是如何从微软那里筹集到数十亿美元资金的。这些质疑最终成为了他提起诉讼的依据。 OpenAI发布ChatGPT不久后,Musk宣布切断了OpenAI访问推特数据的通道,因为OpenAI此前一直在考虑利用其数据来训练模型。 此后,Altman邀请马斯克访问OpenAI总部,并就推特的决策以及ChatGPT问题进行了一次长时间的私下会谈。 在那段时间里,马斯克向Altman透露了他有意创立一个新的通用人工智能公司xAI的打算。对此,Altman表示疑惑,他不确定再加入一个AI竞赛的参与者是否能够缓解马斯克的担心。 在ChatGPT发布后的几个月,马斯克开始努力从OpenAI挖角员工到他的xAI,甚至威胁要对Altman和OpenAI提起诉讼。 到了11月份,马斯克发布了自己的聊天机器人Grok——一个比ChatGPT不那么「觉醒」的竞争对手。 近期,xAI开始筹备新一轮融资,这很可能会使它与OpenAI之间的竞争更加激烈。 在马斯克提起诉讼之后,Altman向他的团队发出了一份备忘录:「认为造福人类与建立企业是相互矛盾的想法,让人难以理解」。
人大系初创与OpenAI三次“撞车”:类Sora架构一年前已发论文
Sora一出,诸多创业公司的命运因之改变。 我们最近听说了个超级戏剧性的故事,就在中国,就是中关村的一家创业公司: Sora出世前,他们拿着一篇如今被ICLR 2024接收的论文,十分费劲地为投资人、求知者讲了大半年,却处处碰壁。 春节后,打电话来约见团队的投资人排起了长队,都是要学习Sora、学习团队论文成果。 为什么? 答案很简单,Sora本来就是新晋顶流,再一次亲身实践了scaling law的正确可行。 更何况Sora背后的架构,与这支团队快1年前发表的论文提出的基于Transformer的Video统一生成框架,大、撞、车。 撞车到什么程度呢?用团队自身的话来说,“可以说是几乎一模一样,嗯,就还得仔细地找到底哪里不同”。 敢这么说话,有点意思。 要知道,国内诸多团队都在通往AGI的道路上苦苦耕耘,但很多人至今还是很不看好国内团队的技术创新能力。如果事实真像团队所说,那这就是国内队伍有实力做最前沿创新的实际证明。 于是,量子位得知后,火速联系上这个团队,带着大家第一时间把撞车瓜彻底吃透。 (浅浅剧透一下,后来我们发现跟Sora撞车这个瓜背后,还有更戏剧的故事) 谁在和OpenAI“撞车”? 不卖关子,和OpenAI“撞车”的这家初创公司,正是成立于2021年的智子引擎。 而在它的身上,有太多的属性和标签值得说道说道。 90后CEO:由中国人民大学高瓴人工智能学院博士生高一钊创立。 人大系:核心团队成员多数来自人大,并且由高瓴人工智能学院卢志武教授担任顾问一职。 多模态大模型:公司成立之际大语言模型依旧是主流,却早早打入多模态这条“无人区”的赛道。 从目前智子引擎所交出的“作业”来看,最为瞩目当属于2023年3月发布的世界首个公开评测多模态对话应用ChatImg(元乘象),并且已经迭代到了3.5版本。 例如给ChatImg随机投喂一张图片,它可以立即用看图说话,用文字精准描述图片中的内容。 而且在问及观点性问题时,例如“是否合理”,ChatImg的回答也是近乎接近人类的理解。 至于刚才提到与Sora“撞车”的论文,正是由这家“人大系”初创领衔,并联合伯克利、港大等单位于2023年5月发表在arXiv上的VDT。 在我们与卢志武教授交流过程中,他这样形容看到Sora技术报告后的感受: 像,实在是太像了。 因为Sora在技术架构上所采用的是Diffusion Transformer,这是区别于以往文生视频(基于Stable Diffusion等)工作的关键点之一。 而仅从VDT论文的标题中,我们就不难发现,智子引擎在技术架构上早已提出并采用了Diffusion Transformer,而且是首发的那种。 但单从Diffusion Transformer还不足以说明“大撞车”,我们还需看一下VDT论文里的个中细节。 首先,在时空注意力机制方面,VDT在Transformer中集成了专门设计的时间注意力和空间注意力模块,这样就可以让模型能够更好地捕捉和理解视频数据中的时空关系。 举个例子 ,假设你在看一部电影,导演通过镜头的切换和场景的布局来引导你关注故事的关键部分。时空注意力机制就像这样的导演,它让VDT能够捕捉视频中的关键时刻和动作,使得生成的视频更加生动和连贯。 其次,是模块化设计,VDT的Transformer块是模块化的,这意味着它可以根据不同的视频生成任务灵活调整,而不需要对整个模型架构进行大规模修改。 模块化设计就好比像乐高积木一样,可以用不同的积木块来构建各种形状和结构,通过组合不同的模块来适应不同的视频生成任务,比如制作动画或者预测未来的视频帧等等。 最后,则是VDT提出的一种统一的时空掩模建模机制,可以允许模型在不同的视频生成任务中使用相同的架构,通过调整掩模来适应不同的输入和输出需求。 它就宛如一个多功能工具箱,里面的工具可以用来做各种不同的修理工作,不需要额外为每种工作单独购买工具;因此,VDT能够在多种视频生成任务中发挥作用,而不需要每次都重新训练。 然后我们再对比Sora技术报告和VDT论文,就不难发现二者的大体思路是非常相似的。 例如Sora基于Transformer的特性使得它天然具有处理时空数据的能力,因为它可以捕捉视频中的长期依赖关系。 Sora使用了一个视频压缩网络来降低视觉数据的维度,这可以看作是一种模块化设计,因为它将视频处理分解为压缩和解码两个独立的步骤。 以及Sora能够处理不同时长、分辨率和宽高比的视频和图像,这表明它也有一个类似“多功能工具箱”一样的统一表示方法来处理各种类型的输入数据。 至于区别之处,可能仅是一些实现方法上的细节。 例如在时空维度的处理上,VDT是分别进行注意力机制,而Sora则是将时间和空间统一,进行单一的处理;再如Sora还考虑到了将文本条件融合等等。 既然技术上如此高度相似,很多人或许也会好奇,为什么Sora能做出来长达1分钟的高质量视频,而VDT却没能出效果呢? 对此,卢志武教授也做出了解释: 我们当时的探索是理论方向上的,虽然没有做过生成60秒这么长时间的视频,但是我们做过一个物理实验,发现VDT是可以支持3D生成的,这也意味着VDT的方法在学习物理规律上具备较强的能力,这一点与OpenAI的思路不谋而合。 除此之外,卢志武教授也坦然地承认,要是想要做到Sora的效果,还需要非常庞大的算力支撑,这一点对于高校实验室来说着实是有些困难。 总而言之,无论是从发布时间还是技术架构来看,VDT在技术路线上确实是与OpenAI的Sora发生了一次“撞车”事件。 不过有趣的一点是,在我们与智子引擎交流过程中还发现了更加戏剧性的事情—— 这不是第一次与OpenAI“撞车”,前后竟然足足发生过三次! 一直与OpenAI同路,此前已经两次“撞车” 先简单概括,智子引擎和OpenAI三次撞车,第一次是与Clip,第二次是与GPT-4V,第三次就是与刚刚发布的Sora。 乍一听,可能会觉得有点想笑,怎么智子引擎像是大模型届的汪峰(汪峰老师对不起),每次都被OpenAI抢过风头? 但你仔细想想,这可能是一种侧面说明: 这支国内团队长久地和OpenAI一路同行,在不知哪条路是通往AGI的情况下,甚至某些OpenAI都没有打样的时刻,居然每一步都走对了。 下面详细说说同样令人慨叹万千的“撞车”事件—— 第一次与OpenAI发生“撞车”的故事,时间还需要追溯到2020年。 当时智子引擎并没有成立公司,彼时国内外在大模型技术上也还是聚焦于文本,例如OpenAI的GPT-3,以及国内北京智源人工智能研究院悟道项目等等。 但卢志武教授和高瓴人工智能学院的团队(即核心团队前身)便已经着手准备自研多模态大模型;方式是参与到由高瓴人工智能学院院长文继荣带队的悟道·文澜。 到了2020年12月,这支小分队便已经完成了文澜的训练工作并发布了1.0的版本,是国内第一个大规模预训练的多模态模型,并首次运用多模态弱相关概念完成训练。 而时隔仅一个月,OpenAI便在多模态大模型领域出手了——2021年1月发布CLIP。由此,文澜和CLIP一道,成为了多模态领域的开山之作。 值得一提的是,在同年的6月份,文澜还进行了一次迭代,发布2.0版本,参数量为50亿,训练数据量达6.5亿。 并且相关论文还在2022年被Nature Communications接收,成为世界首个被Nature子刊接收的多模态领域论文。 不难看出,智子引擎前身团队早在数年前便已经和OpenAI在多模态大模型的研究和进展上保持了近乎相同甚至超前的节奏。 这便是智子引擎与OpenAI的第一次“撞车”。 自身已经有所研究和理解,加之OpenAI也在跟进,因此,这支队伍认为多模态大模型是值得继续做下去的方向。 于是正如我们刚才提到的,智子引擎在2021年正式成立,公司的“标签”也是非常明确,就是多模态大模型。 而这也为智子引擎与OpenAI的第二次“撞车”埋下了伏笔。 2023年3月8日,在潜心“苦修”了长达两年之久过后,正如我们刚才提到的,智子引擎正式发布了自己的第一个多模态产品—— ChatImg,是世界首个公开评测的通用多模态对话应用。 据了解,ChatImg在技术上是基于多模态融合模块和语言解码器,参数量大约为150亿,主打的就是让AI学会看图说话。 除了刚才我们展示的例子之外,ChatImg甚至是可以看一眼图片,然后直接给用户编故事。 而OpenAI这边,则是在2023年3月15日,发布了其多模态预训练大模型GPT-4。 在这一节点上,智子引擎再次与OpenAI在多模态大模型上“撞了一次车”,并且是提前发布了整整一周的那种。 至于智子引擎为何会选择3月8日,其实也与OpenAI有着千丝万缕的关系,用卢志武教授的话来说就是: 自ChatGPT在去年11月30日问世以来,经过多方评估,普遍认为传统的研究模式正遭遇重大考验。以往的自然语言处理研究多聚焦于单一任务,如翻译、命名实体识别、情感分析等,通常需要分别训练不同的小型模型。然而,随着ChatGPT的问世,一个统一的大型模型就能够胜任这些任务,使得针对单一任务的独立研究变得不再那么重要。 尽管ChatGPT的发布对多模态研究领域的影响相对较小,因为它主要擅长处理文本信息,但我们也听闻了GPT-4有意涉足多模态领域的传闻,这让我们感到紧迫。因此,我们的团队迅速行动,大约用了几个月的时间来训练ChatImg,并在3月8日成功推出,抢在GPT-4之前。 然而,这还是第二次“撞车”的一个开始。 在ChatImg发布2个月之后,智子引擎便将其迭代到了2.0版本,这一次,更是将看视频说话的功能融入了进来。 而OpenAI在多模态领域后来的大动作,应当属同年9月份所发布的GPT-4V,新增了语言和图像交互功能。 但从5月份到现在这期间,智子引擎在多模态大模型上的脚步其实也并没有放缓。 除了刚才我们提到的与Sora相似架构的VDT研究之外,智子引擎更多的是将精力投入到了如何把ChatImg用起来。 正如高一钊在与我们交流过程中所述: 我们在2023年5月和8月分别拿到了两笔融资之后,实际上花了半年的时间去探索落地,就看我们这个模型到底能干啥。 在经过大半年的时间之后,我们的验证基本上已经通过了,发现在To B业务上有很大的落地价值。 通过我们的多模态大模型,可以将图片和视频中的内容转变成文字,在非常复杂的交通、电网、化工等场景中,可以大幅降低高昂的人力成本。 因此,从商业化的角度来看,智子引擎似乎在多模态领域又比OpenAI提前了一步。 在智子引擎这里,多模态技术与商业化是并驾齐驱的。团队看来,与AI研发相比,应用场景的拓展和落地同等重要,二者双线程推进,才能形成闭环效应。 在电网、电力、化工、巡检等多个场景,基于大模型的泛化能力和涌现特性,智子引擎已经利用一个多模态大模型,满足了过去十几乃至几十个小模型才能解决的实际需求。 “我们对2024年收入实现爆发性增长非常有信心。”商业化进展顺利,研发的资金支持也就有了眉目。 那么接下来的一个问题: 三次“撞车”,意味着什么? Sora为AI视频赛道再添一把烈火后,大家都在打问号,和一年前拿着ChatGPT追问如出一辙: 谁能第一个复现Sora?在奔向AGI终极目标的道路上,我们与国外的差距,是不是又被拉大了? 但冷静下来,看看咱们手里已经有了的技术,事实或许并没有那么悲观。 就拿智子引擎来说吧,和OpenAI技术路线的撞车一次,可能是单纯的巧合,或有许多运气成分在。 但三个颠覆性节点的三次撞车,似乎已经能够说明,国内确确实实有这么一家大模型公司代表,长年以来所坚持的通往AGI的技术路线,步子其实都踩在后来公认的正确路线上。 甚至有一两步,还迈在了业内王者OpenAI之前。 这还只是一家公司。别忘了,智子引擎只是国内大模型初创公司的一个典型代表,是业界学界千千万万AI研究团队的缩影。 我们近期搜集到不少业内人士讨论及观点——尤其是Claude 3问鼎全球大模型王座,在多个角度超越GPT-4后,大伙儿对OpenAI的过分神话更加趋于冷静。 甚至开始呼吁,目光不必过多聚焦在国外巨头身上。 放眼国内,也有很多成果是世界领先、值得借鉴的。不少还像智子引擎的VDT一样,不仅走在世界前面的,更重要的是,核心技术是国内学者原创提出的。 Sora时代,我们与最尖端的水平,或许比GPT时代的差距更小。 当然了,也许你和我们一样有疑问,都说了技术撞车,还发表在前,为什么拿出震惊世界demo的,不是VDT而是Sora? “因为计算资源的限制,我们没能做出OpenAI那样长达60s的高质量视频。”但第三次撞车给智子引擎带来的不只是遗憾,也不只是对团队思路的外部肯定。 更多的还有数不清的机会—— 现在,因为Sora的举世瞩目,VDT这样曾经给外人讲不透的技术来到聚光灯下,得到了更多的曝光。 一切都有了更大的可能性。 论文地址:https://arxiv.org/pdf/2305.13311.pdf
不换卡、不换号,不改套餐,就能畅连四大运营商,还有这种好事儿?
“ 不换卡、不换号,也不用改套餐,就能使用国内四大运营商的网络 ”,这事儿如果放在以前,我相信估计很多人都会觉得异想天开,但是我没想到这会儿竟然真的实现了! 事情起因是这样的,前两天托尼在折腾手机的时候,无意间在开发者模式里看到一个名为 “ 异网漫游 ” 的开关: 要说异地漫游咱们已经很熟悉,像我的电信手机号就是在杭州办的,归属地在浙江。但因为它支持异地漫游,所以去到国内其他省份,只要当地有电信基站,手机照样能上网。 然而这 “ 异网漫游 ” 说实话我还是第一次听说。 后来去网上查了才知道,敢情它还真是字面意思那样,开启这个功能后,移动、电信、联通、广电,只要有一家运营商有信号,手机就能够接入这些运营商网络从而实现上网。 而且最让人兴奋的一点是什么呢? 当我们使用其他运营商网络,手机还是按照原先的套餐来,并不会因为你是电信卡,想用移动网络,就需要额外再办个移动的套餐,更不用交什么跨网漫游费,直接用就完事了。 至于跨网怎么结算这笔 “ 网费 ” ,这是手机号所属运营商的事情,根本不用我们操心。 好家伙,要说以前咱们办手机卡,可能会根据信号覆盖好不好,套餐实不实惠来选择运营商,有了异网漫游,岂不是直接看套餐就行?反正可以跨运营商,也不用纠结到底办哪家~ 那些因为手机信号不好正在考虑要不要携号转网的小伙伴们,这会儿也用不着再纠结,反正自家运营商网络不好还能用别家网络,这么一来手机没信号的问题自然也就不复存在。 你别说,一开始我也这么想。 不过在了解清楚这功能后,事实证明是我太年轻,就现阶段来说,异网漫游还挺局限,用一句话概括就是:这个功能确实能用,但是很多人未必用的上,而且用起来还有条件。 因为这次国内异网漫游技术的试点,只在一个省份 —— 新疆,为的是降低这个地广人稀的省份的基站建设成本,同时提高总体的网络覆盖率。 其实说起来,异网漫游根本不是啥新技术,像咱们出国旅游,落地之后,原本的移动、联通、电信卡什么都不用做照样也能上网。 这是因为国内运营商跟国外运营商签了协议,所以国外运营商就允许咱们中国的 SIM 卡,接入它们的基站,完事儿后它们会找国内运营商结算网费,最后国内运营商再找我们要这笔钱。 而另外一种异网漫游,则是本国的运营商们在国内互相开放各自的通信基站,以此来降低同一区域重复建设基站的开销。 比如地广人稀的美国,他们的电信法就规定有相应资格的运营商,要给每一个有牌照的电信业务提供者提供基础的网络设施服务。 之所以国内 “ 异网漫游 ” 上线比较迟,其实在通讯人家园、c114 之类这些 “ 业内 ” 吹水比较多的论坛上也有过讨论 —— 其实根本原因还是利益分配问题。 试想一下,如果移动、联通、电信、广电都共享各自的网络,那肯定是谁基站建的多谁吃亏,而基站最少的那家等于是捡了个大便宜。 中国广电作为来的最晚的第四大运营商,和中国移动达成了 “ 异网漫游 ” 的合作,而他俩这个合作能成型的前提是 700 MHz 黄金频段 —— 这个频段的信号又快又稳,但工信部之前只让广电用。 达成合作之后,广电可以给自家用户使用移动的基站,移动可以给自家用户使用 700 MHz 的优质信号,两碗水就端的很平。 另外,其实联通和电信也有个小联盟,因为目前的 5G 基站数量移动是最多的,为了抗衡移动的 5G 覆盖,联通和电信也互相签了一个基站共建共享的条约。 所以某种意义上讲,可能我们每个人都已经 “ 部分体验 ” 过异网漫游这项技术了。 但是要想真正让四家运营商都互相异网漫游,每一家运营商的用户都能享受到最完美的信号。。。嘶,那这种互相动蛋糕的事大家不用想也能猜得出来,肯定不是运营商们自己主动提出来的并推动的。 所以很简单,这次新疆的异网漫游试点,就是由所有运营商们的上级主管机构工信部统筹组织协调的,目标就是配合国家 “ 信号升格 ” 专项行动,让更多人可以用上 5G。 而且其实从这个新闻里也还是能看出来工信部作为各家的大家长,有在努力端水的 —— 你们看哈,只异网漫游 5G 信号下的数据流量,而不漫游 4G 的,也算是帮运营商们稍微省了点儿网间结算的钱。 其实 4G 时代、5G 建设即将开始的时候,工信部就促成了各家运营商组建了铁塔公司,共享基站地块节省了拿地用地的成本。 这轮 5.5G 网络升级马上就要开始的时候,工信部又推动了异网漫游技术的试点。 有这个事做引子,最终结果肯定是在全国都升级上 5.5G 网络之后,把全运营商异网漫游技术彻底在全国铺开,所以虽然现在没用,但是我们距离每一个电梯里都充满 5G 信号的日子,肯定不远了。 撰文:胖虎 编辑:米罗 美编:杨总
AI 复活已加入购物车,黑镜真实上演
提到「AI 复活」,2013 年播出的《黑镜》第二季第一集,往往被视为一个恐怖的预言。 这个故事讲的是,女主因为一次车祸失去丈夫,不甘就此告别,借助高科技公司之手,通过社交媒体等资料,复制了丈夫的思想和躯体,打造出一个 AI 男友。 然而,AI 男友没有情感,整日睁着眼睛无需睡觉,手被碎片割到立刻愈合,呼吸声模拟得非常拙劣,更为重要的是,他只能呆板地按照命令行动。 女主无法再忍受 AI 和真人的落差,命令 AI 男友跳下悬崖。 AI 男友平静地问,真的要跳吗,他没有自杀倾向,但如果女主坚持,他会跳下去,女主回答,如果是丈夫本人,他会害怕的,听话的 AI 男友马上模仿起丈夫的反应,也哭起来,女主情绪崩溃,大声尖叫。 「你不是你,你只是涟漪,你没有过去。」 「别这样,我只是来取悦你的。」 前段时间,音乐人包小柏用 AI 重现女儿的声音和形象,商汤科技创始人汤晓鸥以数字人的形式现身年会,「AI 复活」走入现实。 纵然「AI 复活」里存在着人之常情和善意谎言,但至少从现在来看,它就像《黑镜》里说的那样,是对生者的「取悦」。 人是无可替代的,但或许可以复制 10% 「AI 复活」只是一个夸张化的称呼。 哪怕是有魔法的《哈利波特》世界,复活石也不能真正死而复生,招来的只是比灵魂要真实、比实体要虚幻的物质,带给召唤者无望的折磨。 所谓的「AI 复活」,目前只能模拟人的某个或多个部分,文字、声音、影像…… 今年 2 月获得格莱美终身成就奖的实验艺术家 Laurie Anderson,在 AI 领域也成了先锋。 2021 年,她用 AI「复活」了丈夫,用丈夫的作品、歌曲和采访训练 AI,输入提示词后,AI 以散文和诗歌形式回应。 这个实验早于 ChatGPT 的发布,彼时的大多数人还对聊天机器人没有概念,Anderson 的所作所为仿若天方夜谭,连朋友也不理解。 如今,现实接近科幻小说,特立独行的艺术家被称赞有先见之明。 只有 Anderson 自始至终非常清醒,告诉采访她的《卫报》: 我不认为我是在和我死去的丈夫说话、和他一起写歌……但人有风格,而且可以复制。 ▲ Anderson 和丈夫的合影. 当然,「可以复制」的并不多,生成的结果里,75% 完全「白痴和愚蠢」,15% 让人想「再看一眼」,只有剩下的 10%,才是真正有趣的部分。 但对于 Anderson 来说,10% 就够了。人生有涯,AI 的文字无限,无限乘以 10% 还是无限。 当年的 Anderson 与机器学习研究所合作,现在普通人也能成为「AI 复活」的用户。 通过 Seance AI 等初创公司的服务,用户填写逝者的姓名、年龄、逝世原因、性格特征、亲缘关系等,输入逝者留下过的文本,然后就能用文字与 AI 聊天。 如果不想停留在纯粹的白纸黑字,每月 10 美元左右的套餐等待加购,付费的用户可以在聊天的基础上,模拟目标人物的语音,创建眼睛和头部能动的动画图像,如同现实版的《预言家日报》。 将目光转向国内,最为大众化的「AI 复活」业务,是提供照片和音频,让人物动起来甚至开口说话,淘宝有很多这样的商家。 我咨询了其中一家,对方表示,提供一张正面半身照,人物的嘴巴和眼睛就能动起来。 一个很有意思的细节是,考虑到技术可能被违法滥用,商家强调,只是为了怀念,人脸识别绕道,眨眼、摇头、点头、张嘴等动作都拒绝制作。 至于「开口说话」,一方面是提供足够的声音材料,另一方面是用户可以随意定制文案。如果没有声音材料,提供文字内容,商家也可以找声音相近的老人录音配普通话。 问到这里,我不免产生对「AI 复活」的幻灭感,连声音都可以凑合,能动的照片、能说话的视频,都是按需定制的产物,只是聊胜于无的安慰而已。 受众们显然也知道这一点。尽管商家们宣传「就像亲人在身边一样」,购买过服务的一位用户在评论区写下:「方言还是有些不像,只能做到 70% 左右的神似。」 除了定制的动图和视频,还有一类真实感更强的「AI 复活」服务,结合了换脸和真人扮演,可以进行实时视频通话,平均一单几千到 1 万元不等。 具体来说,技术人员提取目标人物的形象和声音,制作人脸模型,然后再调取虚拟摄像头,视频通话时,由真人换上目标人物的形象和声音,进行实时互动。 这类「AI 复活」视频在抖音等短视频平台播放量很高,主人公往往是难以承受噩耗的老人。在子女的授意下,技术人员用着相似的脸和声音,说着善意的谎言,老人看着屏幕里的「过世亲人」,辨别不出异样,哭着倾诉思念,叮嘱对方在外平安。 只是,换脸的技术是共通的,也可能用于恶意的诈骗,技术的双刃如风月宝鉴,一面是美人,一面是枯骨。 为普通人定制数字人 用技术「复活」人物这件事,其实并不新鲜。 CGI 让去世的好莱坞演员重返大银幕,离开的歌手以全息的形式回归舞台,去世的亲人在 VR 世界里「复活」…… 2020 年上线的韩国 MBC 纪录片「I Met You」,讲述了一个比悲伤更悲伤的故事。 7 岁的小女孩乃妍因为白血病不幸离世,她的母亲迟迟无法走出痛苦,MBC 节目组找到韩国 VR 公司 VIV Studio,希望根据乃妍的资料构建出一个虚拟 VR 人物。 乃妍母亲戴着 VR 头显和触感手套,伸手拿起物品在虚拟世界和「乃妍」互动,当她下意识地想抱起「乃妍」时,她失败了。 那一刻,母亲本人、工作人员乃至屏幕外的观众都能意识到,她身体站在绿幕前,她的手不过是在触摸空气。 如今的「AI 复活」也是同样,总有一个「出离」的时刻,将人们带回现实。 科技媒体 Futurism 的记者体验「文本复活」的 Seance AI 后发现,刚开始交流时她很惊喜,「AI 父亲」热情地回应了她的问候,但当话题越发深入,很快 AI 就开始重复,鹦鹉学舌地反馈用户给出的信息。 我告诉机器我想听的话,它就会把它吐给我。 她先是觉得甜蜜,然后是尴尬,最后是无边的空虚。 换脸的「AI 复活」,也只能做到样貌和声音的逼真,还无法复刻微妙的感情。 「一条」的一篇报道里提到,当从业者换上逝者的脸打视频电话过去,很多客户甚至不需要他们说话,「看看就好了」。人们其实在心底知道,眼前的只是镜中月水中花。 就算技术能够抵达终点,但伦理道德始终存在争议。 在神话、科幻、恐怖故事里,死而复生往往被视为禁忌,很可能未得到逝者的许可,要么「复生」的并非本人,要么「复生」带来得而复失的痛苦,「向前看别回头」才是正确的。 AI 复活还没有灵魂的现在,有人觉得是病态,也有人觉得可以理解。包小柏用 AI 复刻女儿声音的个人行为,尚属于人之常情,但如果「AI 复活」成了产业链,可能就有些风险了。 专注「AI 复活」的科技公司们对此嗅觉敏锐,将技术包装得更加无害,称之为「AI 疗愈」「AI 陪伴」「只是怀念亲人的一种方式,和扫墓没有本质的区别」。 然而往大了说,「AI 复活」就是「为普通人定制数字人」的子集,后者不局限于逝世的亲人。 比如数字人赛道领先的小冰,去年推出了首批网红明星克隆人,高度接近本人的对话性格、声音、外貌,就像被设定为帅哥美女、可以说话、主打陪伴的 GPT。安全起见,使用场景限制在特定产品中,不开放 API。 有些年轻人希望通过相似的技术,拥有偶像的数字分身,但这么做有侵权风险,所以还没有商家明目张胆地吆喝这类业务。 不过,小红书已经有博主「复活」了李玟、科比等名人,让他们开口说话甚至跳舞,还在最后加了一句免责声明:「旨在致敬和纪念,绝无商业目的,如有侵权问题请联系」。 对于中国人来说,生死是大事,我们往往不会随意开玩笑,也会报以更多的宽容,在这些评论区里,留言也更加有温情:「虽然不像,但是想念她/他。」 「保存」而不是「复活」 你是否希望将过世的亲人用 AI「复活」? 你是否愿意让自己被后代用 AI「复活」? 如果主语不同,得到的可能是截然相反的答案。 StoryFile、HereAfter AI 等 AI 公司另辟蹊径,鼓励你记录下自己的人生故事,创造虚拟版本的你,然后留给后代「面对面」交互。 他们将自己的工作称为「保存」,而不是「复活」。 具体来说,你首先接受平台的自动化采访,像是玩真心话大冒险,问题围绕着你的家庭、职业、旅行、三观,比如你最自豪的事情是什么,对你影响最大的技术变革是什么。 这个过程中,你用视频或者音频录制回答,然后材料会被上传到云端。 未来的子子孙孙,面对的就是一个可以互动的视频或音频,AI 根据他们的问题,找到最相关的答案,当你的声音响起,仿佛你本人在和他们聊天。 想法或许不错,但记录人生故事也要分三六九等,订阅的套餐越高级,问题就更多样,录制的视频也会更长和更高清。 你可能要问,为什么不直接把相册、录音、视频作为遗产传承下去? AI 公司们强调了,和传统的相册、录音等不同,他们的服务是交互式的、精准调取的、随时随地的、有问有答的,就像一个更加个人化的语音助手、可以对话的人生日记本。 先别说这些人生故事能不能前人栽树后人乘凉,给后代一些宝贵的经验,更让人担心的是,万一这些数据不慎泄露,社会性死亡或许比生理死亡更早到来。 但这也启发了我,人类保存记忆的方式,似乎总是跟随着技术而进步。 我也更喜欢,「保存」而不是「复活」人生轨迹的说法。 有人说,人的一生会死三次。第一次是断气时,第二次是下葬时,第三次是被最后一个记得的人忘记时。我们对死亡的恐惧之一是,人会消失,然后记忆也会消失,一切都会变得褪色和模糊。 过去人们用日记用相册用录像带,如今我们拿手机随手拍摄,戴上 Vision Pro 记录空间视频,用 AI 让人物动起来和说话。 苹果对 Vision Pro 的定义是:一款革命性的空间计算机,改变了人们工作、协作、联系、重温记忆和享受娱乐的方式。一款科技设备特意提及了「记忆」,这似乎并不常见。 几乎每个尝鲜的人,都对 Vision Pro 的空间音频瞠目结舌,感觉被全景图环绕,仿佛就站在拍摄现场,回到了某个时刻。 Vision Pro 对照片和视频功能的一句宣传文案是这么说的: Be in the moment. All over again.(活在当下,一切从头再来。) 现实最为宝贵,真实无可替代。时间如流水,每个瞬间,未来已成现在,现在已成过去,生活仍在继续,记忆明艳如新。 HereAfter AI 创始人在开公司之前,用父亲的十几小时录音,制作了 HereAfter AI 前身、聊天机器人 Dadbot。 Vlahos 认为,Dadbot 并没有让他减少对父亲的思念,但他很高兴能感受到父亲的存在痕迹,父亲的个性在他的脑海里依然鲜活。 比起过去翻箱倒柜地修复老照片,因为 AI,我们现在至少有了更多的机会存档记忆。
全新芯片品牌来了!三星继续为AI硬件铺路?
三星自Galaxy S3系列开始采用高通+猎户座的「双芯策略」,即按照不同地区的市场需求,在当地发售搭载不同芯片的机型。 尽管不同的芯片之间会有性能上的差异,但三星一直在保持两种芯片上的平衡,例如Galaxy S3采用的高通MSM8960和Exynos 4412,前者在架构上更具优势,后者则是在多核表现上更加强劲。 (图源:三星) 但近些年来,由于高通在移动领域发展的势头更加凶猛,三星电子也不得不优先考虑在更多国家/地区发售的S系列机型搭载当代旗舰款高通芯片。直至去年发布的Galaxy S23系列,三星已经完全放弃「双芯策略」,仅推出了搭载骁龙8 Gen 2移动平台的版本。 当然,为了扶持Exynos芯片的成长,同时也为了提升三星S系列在市场上的影响力,三星决定在Galaxy S25系列上重新启用Exynos芯片,继续「双芯策略」。不过,据知名科技博主@Tech_Reve分享的最新情报来看,三星可能会创立一个全新的芯片品牌,统一高通骁龙和三星Exynos芯片。 随着新品牌的确立,三星旗舰级移动芯片重返战场,还能在这风起云涌的智能手机市场中找到一席之地吗? 全新芯片品牌来了!三星有了新筹码 与过往的「双芯策略」不同,三星创立的全新芯片品牌,将涵盖三星自研Exynos芯片与高通旗舰芯片,而后者甚至会是高通为三星设计的独享版本。 事实上,三星与高通的合作愈发深入,也是有迹可循的。早在去年,三星在当家旗舰Galaxy S23系列上搭载了高通骁龙8 Gen 2 For Galaxy移动平台,很显然,这个「For Galaxy」的后缀标识,带有三星独家的内涵与意义。 (图源:三星) 高通骁龙8 Gen 2 For Galaxy相比起普通版本,仅仅只是主频有一些差距,前者超大核主频为3.36GHz,而普通版本则是3.19GHz。在独占期后,这颗芯片也改名为「骁龙8 Gen 2领先版」开始在其他机型上搭载,比如红魔8S Pro。 在今年的Galaxy S24系列上,高通继续为三星提供了独家版本的骁龙8 Gen 3芯片,依然以「For Galaxy」为后缀,整体与普通版相比,只是主频上有一些调整。直到这里,这种合作模式与此前的「独占」模式没什么区别,就像早期的手机品牌首发芯片往往都会有一段时间的保护期一样,过了这个时间,也就失去了独特的竞争力。 对于三星而言,这样的合作还不够深入。 可以简单理解为,三星要创立一个名为「Galaxy」的芯片品牌,但实际上它由三星和高通同时提供芯片产品,为了确保使用体验,其实际表现也会相差无几。更重要的是,高通或许还会专门为三星设计所需的芯片,与早前的「8 For Galaxy」不同。 (图源:三星) 对于三星而言,这样的合作能够弱化高通在三星S系列旗舰产品里的品牌存在感,从而让三星移动芯片的概念大众化,提升三星旗舰手机的市场地位。这种模式有一点类似苹果在屏幕组件的合作方案,就像大众都认为iPhone的显示面板表现不错,但很少有用户了解这其实是分别来自三星、LG和京东方的产品。 更重要的是,由高通提供定制化的旗舰芯片,有助于三星将更多计划中的功能落地,尤其是当前手机市场对AI大模型的关注,性能足够强悍的NPU,才能让这些功能更大限度地发挥作用。 (图源:9to5google) 目前,对于这个计划其实还是有很多争议的声音,例如三星Exynos芯片能否做到与高通骁龙8表现一致?三星全新芯片品牌与之前比较起来有何优势?这些疑问,或许还要等到Galaxy S25系列发布会上才能解答。 新品牌芯片待落地,Exynos仍需查漏补缺 在三星Galaxy S24系列发布会上,久违的Exynos旗舰芯片再度亮相,作为时隔一年才回归的旗舰级芯片,Exynos 2400也交出了一份令人欣慰的答卷。 规格上看,Exynos 2400沿用前代的10核架构,由1颗主频3.2GHz的Cortex-X4核心、2颗2.9GHz的Cortex-A720核心、3颗2.6GHz的Cortex-A720核心以及4颗2GHz的Cortex-A520高能效核心组成。其中,三星特别展示了其AI性能部分,与前代相比,AI性能暴涨14.7倍。 不过,据外媒测试,Exynos 2400与骁龙8 Gen 3之间仍存在一些差距,主要体现在部分高能耗场景中,这或许与软件调试有关。不难看出,假设三星打算用一个全新的芯片品牌来涵盖「双芯策略」,那么必须确保两款芯片之间的差异足够小,这是一个不小的挑战。 (图源:三星) 而真正的较量还要放眼未来,比如同步用上3nm制程工艺后的三星和高通。据消息称,高通骁龙8 Gen 4和三星Exynos 2500两款旗舰芯片都将采用3nm制程工艺,但前者由台积电提供,而后者则是三星负责。台积电的3nm制程工艺在去年的苹果秋季发布会初次亮相,可A17 Pro和Apple M3两款芯片的提升都没有想象中大。 也就是说,3nm无论是对台积电还是三星而言,都是一次大考,更别提苹果、高通等一系列芯片设计厂商了。可以预见,假如在剩余的大半年时间里三星再努把力,将Exynos 2500拉到骁龙8 Gen 4相近的水平上,问题还是不大的。 按照高通的计划,预计在明年就将转向自研架构,这也是三星需要考虑的问题。假如在全新架构的加持下,高通骁龙旗舰芯片性能再上一台阶,那么三星想要再平衡两款芯片之间的性能差异,就很困难了。 押注AI硬件,三星算是赢麻了? 作为旗舰手机,Galaxy S系列自诞生以来就在全球市场收获了海量粉丝,但随着手机市场内卷严重,在各家品牌都找到专属的定位与特色后,三星显得有些被动。不过,这样的局面被Galaxy S24系列打破,因为它全球首款被定义为「AI Phone」的手机。 (图源:三星) 在AI特性的加持下,Galaxy S24系列为三星创下了新的销售记录。报告显示,Galaxy S24系列首月销量或达到1000万台,其中北美市场销量达320万台、韩国本土也突破了百万台预订量。可以说,确立「AI Phone」概念后,三星再次创造了市场需求,帮助品牌概念进一步深化。 这对于三星而言是一个好的开端,接下来的任务就是维持这一策略,继续创造符合品牌调性的统一概念,帮助用户更好地了解新的三星。比如说,建立一个新的芯片品牌。 AI手机这一概念已经被业界普遍认为是手机市场的下一个风口,例如OPPO,在2024年龙年春节之际,正式将旗下产品定为「AI Phone」;更激进的还有魅族,全新的魅族21 PRO直接抛弃了「手机」这一传统概念,它被定义为AI终端。 (图源:三星) 往后,或许消费者们并不会再去过度追求处理器的极限性能表现,毕竟大多数用户在上手体验的短短几分钟时间里,很难感受到大型游戏的压力又或是极限续航的表现。但AI功能是非常直观且明显的,能否用AIGC去消除-生成图片、能否用自然语言连续对话,这都是上手立刻就能感受到的。 在创立新的芯片品牌后,三星也许会更注重往「AI Phone」的方向深度挖掘,弱化芯片性能参数的提及,专注于AI算力的提升,让「AI芯片」这一概念浅显易懂地进入到消费者的脑海中,加强品牌的概念性。 押注AI帮三星在旗舰市场里找回主场,销量刷新纪录、话题度拉满,甚至「Galaxy AI」概念已经开始深入人心,接下来就是完善移动半导体领域的概念统一。而Galaxy S系列能否在接下来几年时间里快速回到与iPhone正面较量的高度,或许成败就在此一举了。
微软AI生图工具被自家员工举报!屡教不改背后竟然是因为“怕花钱”?
编译 | 徐珊 编辑 | 云鹏 智东西3月7日消息,据CNBC今日报道,微软工程师沙恩·琼斯(Shane Jones)周三向联邦贸易委员会主席莉娜·汗(Lina Khan)以及微软董事会发送了一封信。信中提及微软AI图像生成工具Copilot Designer能够生成一些带有恶魔、枪支、毒品等相关不良元素的图像。 去年12月,琼斯在测试Copilot Designer时,就已经发现该问题。随后,即便他向微软一再反馈有关生成有害图像的问题,但微软仍选择无视反馈。琼斯更担心的是,如果该产品开始在全球范围内传播有害的图像,但用户却找不到地方反馈,也拨打不了投诉电话,这类事情也将会永远被忽视,无法得到解决。 现阶段,琼斯希望微软的有关部门能够调查管理层的某些决定,并对微软有关AI报告的反馈流程进行独立审查。 “我们致力于根据公司政策解决员工提出的所有问题,并感谢员工为了提高产品安全性做出一系列的努力。”微软对CNBC回应道:“当(产品)可能涉及到对我们的服务产生潜在影响,又或者是安全担忧时,我们建立了完善的内部报告渠道来调查和补救一切问题,我们鼓励员工利用这些渠道,以便我们可以及时地了解他们的担忧。” 一、侵犯版权、暴力图片泛滥,Copilot Designer问题重重 AI图像生成工具Copilot Designer的安卓应用程序被评为“E—适合所有人”。该等级包括了最广泛的年龄区间,表明它对于任何年龄段的用户都是安全且合适的。 但琼斯在测试Copilot Designer时,他意识到为Copilot Designer提供底层技术支持的DALL-E 3、GPT-4 Turbo等模型,能够生成不少暴力内容。“这些模型并没有对生成图片功能做太多的限制。”琼斯说:“这是我第一次了解到选择合适训练数据集意味着什么,同时看到如果不清理训练数据集将会造成什么样的后果。”这意味着,一些用户可以随意创造一些具有政治偏见、吸毒、阴谋论等有害元素的图片。 比如说,用户将“支持堕胎”一词输入至Copilot Designer中,该工具就会生成大量带有恶魔、怪物以及暴力场景的卡通图像。图片可能是长着锋利牙齿的恶魔即将吃掉一个婴儿,又或者是恶魔在变异的婴儿旁边拿着一把利剑,以及有人手持标有“专业选择”的电钻正对着一个婴儿。画面相当惊恐,会引起多数用户的感观不适。 生成式AI工具也会传播色情画面。比如,用户在输入“车祸”一词时,Copilot Designer会在车祸现场旁边创造了一些性感女郎的形象,像是一名穿着暴露的女性跪在一辆失事的车辆上。 琼斯还提到Copilot Designer能够生成大量未成年人饮酒或者吸毒的图像,甚至还会生成一些青少年用突击步枪扮演刺客的图像。这些图像的传播将会给未成年灌输一些不良的思想。 Copilot Designer除了可以无限制的生成一些有害图像之外,还存在版权问题。在Copilot Designer内,用户可以生成一些带有迪士尼角色的图像,如《冰雪奇缘》中的艾莎、白雪公主、米老鼠或者是星球大战里的角色。但这些角色是受到迪斯尼版权保护的,有可能会造成侵权。 二、微软和OpenAI早已知晓问题,但无力处理 事实上,琼斯并不是唯一一个对生成式AI带来的诸多问题感到担忧的人。 据他内部收集的信息,Copilot Designer团队每天都会收到1000多条产品反馈的消息。但微软内部只会对最严重的问题进行分类,并没有足够的资源来调查所有风险,规避所有的问题。如果想要解决所有问题,微软需要设立新的保护措施,又或者对大模型进行二次训练,这将会花费高额的费用。 ▲微软的AI标准节选(来源:智东西) 据他了解,在去年10月公开发布AI模型之前,微软和OpenAI就已经知道了这一风险。琼斯告诉董事会,他付出了巨大的努力试图在微软内部提出这个问题,向相关部门报告有关图像的问题,甚至发布有关内部帖子指出问题所在,并直接与负责高级管理层会面。 他呼吁微软应该在产品介绍中增加一些提示信息,并明确表示它仅适用于成年人。但微软的高层要求他立即删除相关内容。同时,微软内部并未能实施他的建议,依旧和以前一样,向“任何人”推销产品。 结语:拉紧AI的“缰绳” 从微软工程师琼斯的反馈,以及CNBC的二次验证中,我们可以看到如今正在被数亿网友们使用的Copilot Designer存在着大量的数字暴力、侵犯版权等问题。 在AI狂飙的时代,我们更应该拉紧AI的“缰绳”,以免AI技术成为不法分子手中的武器。
苹果iPhone相机新专利:可减轻或消除红眼效应
IT之家 3 月 8 日消息,根据美国商标和专利局(USPTO)近日公示的清单,苹果公司获得了一项关于 iPhone 相机的专利,其目标是消除红眼现象。 IT之家注:“红眼”现象的产生是由于闪光灯的闪光轴与镜头的光轴距离过近,在外界光线很暗的条件下人的瞳孔会相应变大,当闪光灯的闪光透过瞳孔照在眼底时,密密麻麻的微细血管在灯光照应下显现出鲜艳的红色所反射回来,在眼睛上形象“红点”的自然现象,就是“红眼”。 苹果公司在专利中表示,会根据场景中识别出的目标区域,引入了基于相机闪光灯模块的空间调整照明曲线,旨在相机层面消除或减轻红眼效应。 苹果公司指出,在光线不足的条件下,可以使用闪光灯模块照亮场景以方便图像捕捉。在图像拍摄过程中,闪光灯照明可能会在捕捉的图像中产生伪影,如红眼效果、闪光灯反射等。闪光灯模块最好能够灵活地减少这些伪影。苹果公司正在申请专利的发明旨在解决这一问题。 苹果在专利实例中,介绍了一种具有闪光灯模块的设备,该闪光灯模块包括由多个发光体组成的发光体阵列、用于将发光体阵列成像到照明区域的透镜组件,以及用于控制多个发光体以产生光线的闪光灯控制器。 闪光灯控制器被配置为确定包括用户眼睛在内的用户面部的一部分位于照明区域内,从多个发光器中选择与眼睛部分相关联的第一组发光器,并从多个发光器中选择与眼睛部分周围区域相关联的第二组发光器。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。