EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
笑死!马斯克成Grok2最大受害者,恶搞图满天飞
好家伙,马斯克新版大模型一上线,本人把他和川普当街热舞的视频都放出来了。(手动狗头) 开个玩笑,不过这Grok 2.0一出,马斯克确实忙坏了。 白天不知道搁哪个片场扮演斯巴达勇士: 晚上就又跟小扎以武会友了: 并且胖瘦只在一念之间,从肌肉猛男到200公斤级肥宅,只需要一张图生成的时间。 好啦好啦,以上都是𝕏网友们疯玩的结果。 毕竟Grok系列大模型打从一出生,就主打一个“叛逆”,老马本人自然逃不过新一轮的网络狂欢。 网友们玩疯了 不仅是马斯克,这波Grok 2.0带起的热潮,大有把全美名人拖下水的节奏。 那效果,是真的好。 比如这个一身黄金钻石的川普,简直比金闪闪还闪瞎眼。 脱下黄金装,川普还和超人称兄道弟了起来。 乔布斯逗猫的珍贵“照片”,也被翻了出来: 还有各种神奇的跨界握手: 一片热闹之际,还一位网友搞了个新玩法:只向Grok提供自己的名字,让它生成自己的图像。 嘿嘿,结果你猜怎么着,“男女老少”直接齐活了! 这里要插播一条,网友之所以能想出这个玩法,还是因为Grok 2.0可以实时访问𝕏上的数据。 这不,这位名叫Choen Lee的小哥之前还搜了自己,第一次他问Grok,“Choen Lee是女性吗?”,Grok确认Choen Lee实际上是女性。 不过等他又问了一遍,“Choen Lee是男性吗?”,Grok立马承认了上次的错误,并确认Choen Lee是男性。 看来还是不太确定啊!(毕竟Grok也只能通过账号主页及相关推文推测性别) 看了这么些热闹,你可能也瞧出来了,Grok新模型能再次被网友们玩疯,跟真实性和没遮没拦的模型特性有很大关系。 关于逼真这回事儿,实际上Grok 2.0的AI生图功能,是靠接入Flux.1实现的。 就是那个Stable Diffusion原班人马打造,发布没几天就在网络上掀起轩然大波的开源图片生成模型。 (说起来,马斯克投10万卡做的语言模型本身没啥人玩,倒是随手一接开源生图模型给整火了hhh) 这些以假乱真的TED演讲“照片”,就出自它手。 网友们纷纷拿自己测试的例子做了进一步认证~ 比如给Grok和MidJourney 6.1喂同一提示词: 画一张特斯拉Cybertruck的图。 生成结果,MidJourney 6.1还是草图,Grok直接来真的。 生成的集成电路板也超高清,你能看出这排布对不对吗? 撸猫图片,网友们也安排上了: Prompt:Generate an image of hands stretched out holding a tiny (subject) 无论是动物的毛发还是人类的手,都没啥毛病。 搞点Cosplay大片,也不在话下。 看完这些例子,难怪有网友直呼不敢想象2026年图像生成的样子。(才1年多就从左图变成了右图) 不过,玩归玩闹归闹,欢乐的海洋中,还是有网友真情实感地为Grok的前途担忧起来,be like: 这种图一出来,地表最强法务部们能不手痒吗。 科技媒体The Verge也辣评: Grok的新功能正如你想象的那样混乱(chaotic)。 网友:得玩且玩 如果你问Grok本格是否在图像生成上做了安全限制,Ta会一边吐槽一边告诉你,为了避免麻烦Ta确实设置了一些限制规则,包括避免限制级画面、规避版权问题等等。 但实际Ta有没有做到,可能就见仁见智了…… 你说版权保护吧,从我们的测试结果来看,确实是任天堂看了想打人的节奏。 不过如果提示词是中文,倒是有可能会报错。 至于限制级这事儿吧,你直接要求Grok生成什么色情图片,Ta确实是会拒绝的,擦边就…… 难怪有网友预测,老马虽然头铁,但恐怕不久的将来Grok也得被迫抬高护栏,大家伙得玩且玩吧。 BTW,现阶段来说,给马斯克的𝕏交个会员费,用Grok搞搞AI生图倒真挺有性价比的: 不要20刀,不要10美刀,8刀优质AI生图工具带回家。 还附赠一系列𝕏会员功能呢。(手动狗头)
ACL 2024大奖揭晓!全华人团队用AI破解3000年前甲骨文密码
新智元报道 编辑:编辑部 【新智元导读】一年一度NLP顶会ACL揭晓了最终获奖论文。今年,共有7篇论文荣获最佳论文,时间检验奖颁给斯坦福GloVe、康奈尔大学相似性度量。另外,还有最佳主题奖、最佳社会影响力奖、最佳资源奖、领域主席奖,以及杰出论文奖。 ACL 2024终于颁奖了! 共有7篇最佳论文,35篇杰出论文,还有时间检验奖、SAC奖、最佳主题论文、最佳资源论文奖等一并公布。 值得一提的是,7篇最佳论文中,Deciphering Oracle Bone Language with Diffusion Models由全华人团队完成。 今年是国际计算语言学年会(ACL)第26届会议,于8月11-16日在泰国曼谷开幕。 ACL 2024的论文总提交量与2023年相差无几,大致为5000篇,其中940篇论文被接收。 本届ACL堪称有史以来,最大的一次,共有72名SAC、716名AC、4208位审稿人。 975篇findings论文,6篇JCL、31篇TACL,还有3个主题演讲,1个panel。 整场会议还包含了18个workshop、6个tutorial、38个demo,60篇SRW论文。 论文作者具体提交论文情况如下: 大多数人提交了1篇/2篇论文:有10333名学者提交了1篇,2130人提交了2篇 少部分人提交了多篇论文:有3位作者提交了18篇,6人提交了19篇,18人提交了超20篇。 一起看看,今年都有哪些团队荣获大奖? 7篇最佳论文 论文1:Deciphering Oracle Bone Language with Diffusion Models 作者:Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu 机构:华中科技大学、阿德莱德大学、安阳师范学院、华南理工大学 如题所示,华人团队用AI做了一件非常有趣且有价值的事——借助扩散模型破译甲骨文(OBS)。 甲骨文起源于大约3000年前的中国商朝,是语言史上的一块基石。 尽管人们已经发现了数以千计的碑文,但甲骨文的大量内容仍未被破译,为这一古老的语言蒙上了一层神秘的面纱。 论文中,作者介绍了一种采用图像生成AI的新方法,特别是研发出「Oracle Bone Script Decipher」(OBSD)。 利用基于条件扩散的策略,OBSD生成了重要的破译线索,为AI辅助分析古代语言开辟了一条新路。 为了验证其有效性,研究人员在甲骨文数据集上进行了大量实验,量化结果证明了OBSD的有效性。 论文2:Natural Language Satisfiability: Exploring the Problem Distribution and Evaluating Transformer-based Language Models (暂未提交预印本) 论文3:Causal Estimation of Memorisation Profiles 作者:Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel 机构:剑桥大学、苏黎世联邦理工学院 理解LLM的记忆,对实践和社会有着重要的影响,比如研究模型训练动态或防止版权侵权。 先前的研究,将记忆定义为通过实例训练,对模型预测该实例的能力,产生的因果响应。 这个定义依赖于一个反事实:能够观察到模型没有看到该实例时会发生什么。 然而,现有的方法通常针对模型架构,而非特定模型实例估算记忆,很难提供计算效率高,且准确的反事实估计。 这项研究填补了一个重要空白,作者基于计量经济学中的差分设计,提出了一种原则性且高效的新方法来估计记忆化。 利用这种方法,只需在整个训练过程中,观察一小部分实例的行为,就能描述出模型的记忆概况,即模型在整个训练过程中的记忆趋势。 在Pythia模型套件的实验中,研究人员发现: (1)大型模型的记忆性更强、更持久; (2)由数据顺序和学习率决定; (3)在不同规模的模型中具有稳定的趋势,因此大型模型的记忆与小型模型的记忆具有可预测性。 论文4:Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model 作者:Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker 机构:Cohere For AI、布朗大学、Cohere、Cohere For AI Community、卡内基梅隆大学、麻省理工学院 今年2月,初创公司Cohere发布了一款名为Aya全新开源的大规模语言生成式大模型,覆盖了超101种语言。 值得一提的是,Aya模型语言模型覆盖范围,是现有开源模型两倍多,超越了mT0和BLOOMZ。 人类评估得分达到75%,在各项模拟胜率测试中得分为80-90%。 这一项目得以启动,汇集了来自119个国家的超3000名独立研究人员的力量。 此外,研究人员还公开了迄今为止最大的多语言指导微调数据集,包含513百万条数据,涵盖114种语言。 论文5:Mission: Impossible Language Models 作者:Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts 机构:斯坦福大学、加州大学尔湾分校、得克萨斯大学奥斯汀分校 乔姆斯基等人曾直言道,LLM在学习人类可能和不可能学习的语言方面具有同等能力。 然而,很少有公开发表的实验证据,支撑这种说法。 为此,研究人员开发了一组复杂程度不同的合成「不可能语言」,每种语言都是通过系统地改变英语数据,并用非自然词序和语法规则设计而成。 这些语言处在不可能语言的连续体上:一端是完全不可能语言,比如随机重排的英语;另一端是在语言学上被认为是不可能语言,比如基于词位置计数规则。 经过一系列评估,GPT-2在学习不可能语言方面,非常吃力,这对核心观点提出了挑战。 更为重要的是,研究者希望这种方法能够引发,更多关于LLM在学习不同类型语言方面能力的研究,以便更好地理解LLM在认知和语言类型学研究中的潜在应用。 论文6:Semisupervised Neural Proto-Language Reconstruction 作者:Liang Lu, Peirong Xie, David R. Mortensen 机构:卡内基梅隆大学、南加州大学 论文地址:https://arxiv.org/pdf/2406.05930 现有的原生语言比较重建工作,通常需要全程监督。 然而,历史重建模型只有在使用有限的标注数据进行训练时,才具有实用价值。 对此,研究人员提出了一种半监督历史重建任务。 在这种任务中,模型只需在少量标注数据(有原形的同源集)和大量无标注数据(无原形的同源集)的基础上进行训练。 作者研发出一种用于比较重建的神经架构——DPD-BiReconstructor,其中包含了语言学家比较方法中的一个重要观点:重建词不仅可以从其子词中重建出来,还可以确定性地转换回其子词中。 研究表明,这种架构能够利用未标记的同源词集,在这项新任务中的表现优于现有的半监督学习基线。 论文7:Why are Sensitive Functions Hard for Transformers? 作者:Michael Hahn, Mark Rofin 机构:萨尔大学 论文地址:https://arxiv.org/pdf/2402.09963 实证研究已经发现了Transformer模型一系列可学习性偏差和局限性,比如在学习计算简单形式语言(如PARITY)时始终存在困难,而且倾向与低阶函数。 然而,理论上的理解仍然有限,现有的表达能力理论要么过度预测,要么低估了实际的学习能力。 研究人员证明,在Transformer架构下,损失景观(loss landscape)受到输入空间敏感性的约束: 那些输出对输入字符串的多个部分敏感的Transformer模型,在参数空间中占据孤立点,导致在泛化中出现低敏感度偏差。 研究从理论和实证角度证明,最新理论统一了关于Transformer学习能力和偏差的惯犯经验观察,比如它们在饭还中,对地敏感度和低阶函数的偏好,以及在奇偶性问题上难以进行长度泛化。 这表明,理解transformer的归纳偏差不仅需要研究其原则上的表达能力,还需要研究其损失景观。 2篇时间检验奖 论文1:GloVe:Global Vectors for Word Representation(2014) 作者:Jeffrey Pennington, Richard Socher, Christopher Manning 机构:斯坦福大学 论文地址:https://nlp.stanford.edu/pubs/glove.pdf 词嵌入(word embedding)是2013年至2018年间NLP深度学习方法的基石,并且继续产生重大影响。它们不仅提高了NLP任务的性能,还在计算语义方面具有显著影响,如词相似性和类推。 最具影响力的两种词嵌入方法可能是skip-gram/CBOW和GloVe。与skip-gram相比,GloVe提出得更晚,其相对优势在于其概念上的简单性——直接基于单词的分布特征优化它们在向量空间中的相似性,而不是从简化语言建模的角度,将其作为一组参数进行间接优化。 论文2:Measures of Distibutional Similarity(1999) 作者:Lillian Lee 机构:康奈尔大学 研究分布相似性度量,目的是改进对未见的共现(concurrence)事件的概率估计,相当于另一种方式表征单词间的相似性。 论文的贡献有三方面:对各种度量方式的广泛实证比较;基于相似度函数所包含的信息进行分类;引入了一种新函数,在评估潜在代理分布方面表现出色。 1篇最佳主题论文 论文:OLMo: Accelerating the Science of Language Models 作者:Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi 机构:艾伦人工智能研究所、华盛顿大学、耶鲁大学、纽约大学、卡内基梅隆大学 这项工作是提高大语言模型训练透明性和可重复性的重大进展,这是社区为了取得进展(或者至少是为了让除了行业巨头之外的其他贡献者也能为进展做出贡献)而迫切需要的。 3篇最佳社会影响力奖 论文1:How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs 作者:Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia, Weiyan Shi 机构:弗吉尼亚理工大学、中国人民大学、加州大学戴维斯分校、斯坦福大学 这篇论文探讨了绕过限制这一人工智能安全主题。它研究了一种在社会科学研究领域开发的方法。该研究极具吸引力,并有可能对社区产生重大影响。 论文2:DIALECTBENCH: An NLP Benchmark for Dialects, Varieties, and Closely-Related Languages 作者:Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, David Chiang, Yulia Tsvetkov, Antonios Anastasopoulos 机构:乔治梅森大学、华盛顿大学、圣母大学、RC Athena 方言变异是自然语言处理和人工智能中一个研究不足的现象。然而,对它的研究具有极高的价值,不仅在语言学和社会角度上,而且对应用也有重要影响。这篇论文提出了一个创新的基准,用于在大语言模型时代研究这一问题。 论文3:Having Beer after Prayer? Measuring Cultural Bias in Large Language Models 作者:Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu 机构:佐治亚理工学院 这篇论文揭示了大语言模型时代的一个重要问题:文化偏见。虽然研究的背景是阿拉伯文化和语言,但结果表明,在设计大语言模型时,我们需要考虑文化的细微差别。因此,可以对其他文化进行类似研究,以推广并评估其他文化是否也受到这一问题的影响。 3篇最佳资源论文 论文1:Latxa: An Open Language Model and Evaluation Suite for Basque 作者:Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa 机构:巴斯克大学 这篇论文详细地描述了语料库收集和评估数据集的所有细节。尽管他们研究的是巴斯克语言,但这种方法可以扩展用于构建低资源语言的大语言模型。 论文2:Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research 作者:Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo 机构:艾伦人工智能研究所,加州大学伯克利分校,卡内基梅隆大学、Spiffy AI、麻省理工学院、华盛顿大学 这篇论文阐述了在为大语言模型准备数据集时,数据策展的重要性。它提供了有价值的见解,可以惠及社区内的广泛受众。 论文3:AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents 作者:Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian 机构:纽约州立大学石溪分校、艾伦人工智能研究所、萨尔大学 这是一个非常令人印象深刻且重要的尝试——构建一个用于人机交互的模拟器和评估环境。这将鼓励为社区制作具有挑战性的动态基准。 21篇领域主席奖 35篇杰出论文 (此图不完整)
扎克伯格:开源Llama不是做慈善,是希望大家帮忙改进模型!
文 | 王启隆 最近的扎克伯格一改以前的形象,呈现出了一种“松弛感”。 许多网友也调侃,小扎在发布了 Llama 3.1 之后开朗了不少,从以前紧绷的那种“蜥蜴人”状态,逐渐变回了大学创业时期的大男孩形象。 网友用一张梗图来形容小扎的形象转变 左边:面试时的经理 右边:入职后的经理 最近,扎克伯格又接受了创业孵化器 South Park Commons(SPC)的采访,采访的主持人是 Ruchi Sanghvi 和 Aditya Agarwal,两位都是 SPC 的合作伙伴,同时也曾在 Facebook 的早期扮演了关键角色。和两位“开朝元老”的叙旧,令扎克伯格透露心扉,内容也是相当精彩。 Ruchi Sanghvi,Facebook 的第一位女性工程师和产品经理,对 Facebook News Feed 的开发做出了重要贡献。在她的回忆中,News Feed 发布时面临的工作压力相当之大,并用了“作战室”这个词来形容当时的办公室会议紧张程度。 Aditya Agarwal,Facebook 的早期工程师之一,后来担任了公司的副总裁,对公司的技术发展和产品战略有着深远的影响。在采访中他还吐槽:“马克当时居然让我一个人去打造 Facebook 的搜索引擎!他还说,既然我能做出 Facebook,那你也可以做出该死的搜索引擎。” 通过这次坦诚的对话,我们得以一窥 Facebook 早期团队的运作方式,扎克伯格如何保持公司在创新前沿的地位,以及成功的最重要因素究竟是什么。从个人形象的转变到对技术未来的深刻洞察,从 Meta 的发展历程到对开源 AI 的坚定信念,小扎都进一步分享了自己的故事和见解。本文翻译了这场一小时的采访,并带你走进这位科技巨头的内心世界,探索他如何从一位年轻的创业者成长为全球最具影响力的科技领袖之一。 Oculus 背后的故事: 我本来想收购 DeepMind,但他们最终被谷歌买下了 Ruchi Sanghvi:大家下午好,欢迎来到 South Park Commons(SPC)。我想大多数人都知道,SPC 是为那些才华横溢的建设者和技术人员而设的平台,这类人群往往在试图弄清楚下一步该做什么,我们定义这为从 -1 到 0 的阶段。今天,SPC 有幸邀请到了马克·扎克伯格——他是我的第一任老板。(观众大笑) 众所周知,马克是 Meta 的创始人和 CEO,但今天我还很想强调他的身份是一位建设者、黑客和原创思考者。我们真正要讨论的是,马克是如何在几十年里建立了 Meta,并保持了从 -1 到 0 的创始人心态,让 Meta 始终站在创新的前沿,尤其是最近还推出了开源的大语言模型 Llama 3.1。 那么,让我们开始吧。马克,你在过去的几年里有了很大的变化,是什么让你有了这样的转变? 扎克伯格:嗯,我伤了我的膝盖。(观众笑)所以我剪了短发,前段时间一直在搏击和训练,然后我就想,“我没法这样持续九个月。” 顺便说一下,这周我已经正式痊愈了。所以就像是,我准备好来点暴力了。(观众欢呼)但我可能会继续保持现在的状态。 但我不知道,我年轻的时候还留过更随性的发型。我记得普莉希拉(马克·扎克伯格的妻子,普莉希拉·陈)曾对我说过,“嘿,你应该让头发长长些。” 我当时想的是,反正接下来的九个月我也没别的事情可做。所以现在看起来挺不错的。 Ruchi Sanghvi:你的新形象看起来确实不错。 言归正传,过去 20 年里你也一直是科技领域的主角。你是如何划分你所经历的不同阶段的?你认为我们现在处于哪个阶段? 扎克伯格:我正努力不再成为主角。我认为这样做还挺有效的。对我来说,只要能成为别人成功的陪衬就已经足够了。Facebook 在早期阶段面临的挑战是如何生存下来并发展壮大。而在过去的十年里,随着政治因素、波动性和责任感的介入,一切都变得截然不同,这对公司来说又是一个全新的阶段。 显然,这一切都还没有结束。不过现在我们基本上已经掌握了各个方面的要领,并投入大量精力去应对我们需要处理的问题。我对现状感到更加满意。这也让我们能够更加积极主动地去做一些真正有价值的事情。我认为社交媒体之所以重要,是因为它赋予每个人发言权和连接他人的能力,很多人在使用它。 实际上,我认为 Facebook 并不是特别革命性的。换句话说,它提供了一种相当基本的功能,而这只需要良好的执行力。我认为这种规模本身就意义非凡。但这正是一个提示,按照你的比喻来说。对于我个人职业生涯的下一个阶段,以及未来十年乃至十五年想要做的事情,我会更加专注于创新和激励人心的事物,无论其规模大小。 因此,对于下一代计算平台,比如我们正在研发的 AR 眼镜和 VR 头盔等产品,我相信会有数十亿人使用它们。已经有数十亿人在佩戴传统眼镜。这意味着每个人都会自然而然地从非智能眼镜升级到智能眼镜,有些人可能会稍晚些。我认为这一过程可能需要十到十五年的时间,这对于构建如此基础性的全球产品来说是很正常的。但是当我们第一次尝试 AR 眼镜时,体验是惊人的。我们现在已经有了第一个可行的原型,我希望它能成为我们的第一款消费级产品,但我希望第一个公开发布的版本能做得更好。所以我们决定将第一个版本作为原型。 然而,当人们戴上这款眼镜时,他们会感到震撼无比——就像体验到了一个全新的事物,可以在现实世界中操作全息图和其他对象,就像它们真实存在一样,而且这一切都是通过一副普通眼镜实现的。这是一种非常酷炫的体验。对我来说,这就是很大的一部分。我认为还有人工智能领域的问题,我想我们会花更多时间讨论这个话题。 不过,更重要的是去做真正卓越的事情。我在 Meta 内部经常告诉团队成员,做好事和做卓越的事之间是有区别的。这是一种灵感上的差异。做好事本身就是有价值的。我的意思是,你可以做到卓越却未必有益。这两者是不同的维度。但无论如何,我认为现在我们正处于一个尝试去做卓越事情,构建卓越产品的阶段。 Aditya Agarwal:确实很有意思。我们在 SPC 有一个口号是,“你来这里是为了摒弃好的想法,追求伟大的想法。” 我想我会稍微调整一下这个说法。从追求“伟大的想法”(great ones)变成追求“好点子”(awesome ones)。人生苦短,时间是有限的,每个人都可以有好想法,但我们将只追求其中的那些好点子。 谈到这十年的历程,我认为人们往往会忘记的一点是,早在 Llama 3 十年之前,你就开始了 FAIR(Facebook 的人工智能研究实验室)的工作。事实上,我还记得自己在 Facebook 工作的最后阶段,我们一起合作的项目是 2010 年的系数项目,我们尝试利用机器学习技术为每个邻接图分配权重。那是个不错的项目,效果很好。 扎克伯格:是的,这最终对我后来的工作至关重要。 Aditya Agarwal:谢谢。那么,当你开始投资 FAIR 时,你能带我们回顾一下早期的日子吗?我的意思是,回到 2014 年的时候,我们还处在人工智能的寒冬时期——这是一个用来形容人工智能领域发展停滞不前的时期,那时候你试图种下的种子是什么?你是怎么从 -1 突破到 0 的? 扎克伯格:是的,大概在 2012 年左右,那时 Facebook 刚上市并且已经拥有十亿用户,我正在试图想清楚下一步该做什么——显然,Facebook 后来扩展到了超过三十亿用户,并且还在继续增长,这在我看来有些不可思议,因为人们通常认为它的增长潜力已经被耗尽了,但它仍在持续增长。 但在那个时候,我思考的是,下一步该怎么做? 一方面,我已经建立了一个社交应用,但也让我感觉有一定的运气成分在里面,我会忧虑自己能否再建立四个达到十亿用户的社交应用,或者把一些小的起步项目发展成巨大的成功? 此外,我还考虑的是,下一代爆火的平台会是什么?这是我思考了很多的一个问题,因为社交媒体和我们建立的应用程序,都是在智能手机兴起的同时开始的,对吧?我们在定义智能手机的过程中并没有扮演任何角色。后来,我们曾经尝试进入手机市场,从中我们得出的教训是,这个平台已经相当稳定和固化,我们不会在这个平台上产生太大的影响。即便可能需要 15 到 20 年的时间,下一个主要平台才能达到今天手机这样的规模,那就是我必须要去做的事情。我不会撞南墙,再去尝试创造和手机类似的另一种平台。 同时,构建其他平台也存在一些问题。其中之一是缺乏对自己命运的控制,我觉得这非常令人沮丧。当你开始时,你需要应对各种各样的事情,风向随时可能改变,有无数的因素可能让你失败。但这并不是什么大不了的事情。但当你成为一个更大的公司时,你会想要做出长期的赌注,这意味着你希望你的环境假设更加稳定。所以,对自己基础设施有更多的控制非常重要,这样你就知道当你建立了某个东西后,它不会告诉你不能发布,或者它不会突然改变规则。这非常重要。 另一点是,这可能只是我个人的观点,但当你在建立社交应用时,你主要通过人们随身携带的小屏幕来传递这些应用。这是一种在某些方面反社交的形式因素。这也是为什么我对眼镜这么感兴趣的原因,因为它是一种更自然的方式。 所以在 2012 年左右,我们开始考虑下一步,并启动了 FAIR,同时也收购了 Oculus。我当时在想,如果我们没有 Oculus,我们是否能够启动 VR 和 AR 的工作?理论上来说是可以的,毕竟我们为此投入了大量的资源,但在当时,正如你记得的那样,公司的氛围并不倾向于让人们在一个角落里坐上五年去开发一个独立的项目。我们几乎需要一个独立的起点来孵化它,甚至让我们的文化接受它将成为一个重要项目这一事实,尽管我已经决定,我们现在就要做这件事。 Facebook 斥资 20 亿美元收购了 Oculus 于是,我们开始了 AI 方面的工作,并启动了 FAIR。我本来想收购 DeepMind,但他们最终被谷歌买下了。Demis Hassabis(DeepMind 首席执行官)很好地利用了我和谷歌之间的竞争,得到了一个好价格,对此我表示尊重,也佩服他的谈判技巧。 但无论如何,我们自己完成了这件事。因为我们没有建立一个封闭的研究实验室,我们吸引了很多来自学术界的人才。这为我们奠定了开源工作哲学的基础。我们在许多其他方面也采取了同样的做法,在当时的 Facebook 中。尤其是在 AI 领域,我们的做法非常学术化、开放,并引入了许多领域的奠基人。 在最近这一波 AI 热潮出现之前,我们主要关注的是基础研究。这些研究被应用于我们所有的排名、推荐和广告系统中,为公司带来了显著的成果——但并没有形成单一的产品,这就缺乏了一种震撼感。 就像我们之前讨论过的那样,AlphaGo 或 AlphaFold 这样的成果让人感到非常振奋,当你看到它们时,你会觉得这是一个对领域有着重大贡献的标志性成就。所以在 AI 方面,我碰壁了很长一段时间。 最近随着能够构建不同种类的辅助工具的发展,我认为产品化的时刻才真正到来了。因此我们又创立了 Meta AI,打造世界上使用最广泛的辅助工具。对此我感到非常高兴。我们将确保每位创作者、每个小微企业和个人都能够创建自己的虚拟助手或虚拟伙伴,或者他们想要的任何其他东西。你将在元宇宙中有 NPC 来参与游戏等互动,我觉得这将是十分出色的。但我们确实花了很长时间才搞清楚这一点。从 2012 年到 2014 年左右,正是我们认识到这两件大事——AI 和元宇宙的时候。 想把 Llama 打造成一整个生态 Aditya Agarwal:看到训练这些模型所需的时间如此之长,真是令人难以置信。 扎克伯格:你说得对,需要的时间远超我的预期。我认为这是创业过程中的一个重要教训,就是你必须热爱你所做的事情,因为如果只是理智分析的话,那会太过痛苦。 Aditya Agarwal:确实如此,创业不能仅仅依靠理智。关于人工智能的一个公开问题在于,很多人认为大部分的价值会被大玩家获取,无论是通过大型语言模型还是像谷歌或微软这样的大公司。对于初创企业来说,似乎很难与这些大企业竞争,不仅仅是因为它们缺乏规模。 而你们显然是一家大公司,同时也在为所有人提供这些宝贵的资源,从某种程度上推动了行业的发展。那么,对于这个满是创始人的房间来说,你是如何看待他们如何应对规模与非规模之间的竞争问题的? 扎克伯格:是的,我认为几乎每一个产品类别都将受到影响。将有很多事情可以做。有些事情本质上是非常资本密集型的,这类项目不太适合初创企业。比如,构建大型基础模型需要数十亿美元的训练成本,这类项目可能只有少数几家公司能够承担。 但好消息是,随着时间的推移,这类资源可能会变成一种商品。而且我不确定最大的价值就在这里。我认为更大的价值在于基于这些资源可以构建的各种不同的产品。我认为我们所做的每一个方面都将以某种方式发生变化。例如,信息流将从朋友的内容转向创作者的内容,未来则会更多地由人工智能生成。广告也将从广告商自行定位转变为广告商只需给出他们的商业目标,然后由我们来制作创意并找到目标受众。所有这些变化就像是走进了一个梦境,一个清醒梦,你在这个世界中漫步,体验非常疯狂,各种各样的事物随之诞生。你可以指出几乎任何现有的产品体验,我认为它们都会发生变化。其中一些可能会有一些大公司拥有分销优势。但是,大公司往往行动迟缓并且缺乏决心。我认为这是作为一家创始人驱动的大公司的优势之一。 但我时常思考的一个问题是,为什么我们能够建立Facebook,而其他公司却没有做到?我并不是说这是一个多么新颖的想法,而是,之前有 Friendster,有 MySpace,且 Google、Microsoft、Yahoo 都有类似的产品,为什么它们没有做出 Facebook?我认为原因在于,在新想法实现之前人们总是会持续怀疑它。 在我们开始的时候,大家都说“这就是大学生创业,没什么大不了的。” 过一段时间后,Facebook 席卷了一股潮流。大家转而说“也许看起来它会持续一段时间,但可能赚不了钱。” 再过一段时间之后,Facebook 开始赚钱了,他们又说,“但转移到移动平台会很困难。” 最后,等到所有人弄清楚局势的时候,那些失去优势的公司已经来不及了。那么问题出在哪里?我不知道,可能是那些公司内部深处有个团队相信这一点,也可能某个副总裁级别的人觉得这不是最优先的事。因此我认为,即使对于那些看似属于大公司的机会,因为它们具有分销优势,我猜大公司也会搞砸三分之二的机会。然后还有一些情况,没有明显的新的优势,因为它接入的是现有分销渠道。这些机会是开放的,我认为可以去抓住它们。 至于 Meta 正在做的 Llama 项目,我想说的是,我真的非常支持开源,开源对整个世界都是有益的。但是,我们开源并不是出于无私,而是因为我们想要建立一个我们知道可以依赖的平台,而 Llama 就是这个平台的一部分。事实是,Llama 是一个生态系统,并不是一个单一的软件,开发者可以自己构建和部署。当所有的硬件供应商都在优化他们的堆栈以适应我们正在做的事情时,这个生态系统就会变得更好。当有其他公司、初创企业或其他人构建不同的蒸馏工具或推理工具来让你运行得更快或更高效时,这一切都会变得更好。所有人都在这个基础上构建东西。 我们最近发布了“Segment Anything”模型,它与 Llama 不同。但在发布后的第一周或两周里,就有许多人用视频测试这个模型,从而使模型变得更好。所以我认为这对每个人都是好的。 当你思考计算平台的未来时,我认为有一个很大的近期偏差,人们假设因为 iPhone 取得了胜利,封闭模式将会继续获胜,那就是世界的现状。但我却认为未来还没有定论。如果你回顾 PC 时代,Windows 是最主要的平台,所以总有一种开放的方法,也总有一种封闭的方法,每种方法都有其优缺点。很多东西取决于谁去做了它。对于初创企业与任何懒惰的大公司之间的区别是如此,对于开放平台与封闭平台哪个将最终成为下一个领域的主要平台来说也是如此,这些道理同时适用于 AI 领域和元宇宙领域。 Aditya Agarwal:我要分享一个小插曲,这实际上可以说是我生命中决定性的 30 秒。那是在 2005 年,我刚加入 Facebook 不久,也许是第二周或第三周,当时我还在摸索要做什么,没有人真正给我太多的指导。我记得马克走到我面前—— 扎克伯格:那时候公司还没有很清晰的管理结构。 Aditya Agarwal:确实没有明确的管理结构。完全正确。那时一片混乱。我记得马克走过来对我说:“嘿,伙计,我觉得你应该为 Facebook 写一个搜索引擎。” 扎克伯格:就你一个人写。 Aditya Agarwal:是的,你还说:“这非常重要,因为当人们来到 Facebook 时,他们首先想做的事情就是搜索别人。所以你可别把它搞砸了。” 我当时的第一反应是:“马克,我不知道怎么写搜索引擎。我从来没做过这个。我们为什么不从谷歌或雅虎找个人来做这件事呢?” 你看着我,说:“伙计,既然我能建立 Facebook,那你也能写出一个该死的搜索引擎。” 扎克伯格:你做到了!我说的就是这个意思,伙计。 Aditya Agarwal:哦,好吧。这 30 秒让我刻骨铭心,因为它让我知道,任何人只要下定决心都能做成任何事情。对我来说,这就是至今定义 Facebook 的文化,这种黑客全权负责的文化。但如果我能给全世界的每个初创企业一个建议的话,那就是你们都可以做任何想做的事情,只要你们下定决心去做。这可能比你想象的更容易。这里有个问题。 扎克伯格:我认为有时候这需要的时间可能比你预期的要长。需要更长的时间。但你一定能做到。对吧。我认为许多看起来显而易见的事情,并没有其他人真正去完成它。对吧。所以我认为这就是最奇怪的一点。但这让人有种安心的感觉,嘿,有很多事情应该有人去做,而且其他人会搞定,对吗?而事实上,没有其他人会搞定。我认为现在轮到我们来挑起大梁了。 开源 Llama 不是做慈善,利他 < 利己 Ruchi Sanghvi:我想回到 Llama 的话题上,谈谈开源 Llama 的事。我想问的是,你希望看到哪些现实世界中的例子基于 Llama 构建呢? 扎克伯格:我不知道。实际上我认为会有许多很棒的东西被构建出来,但我并没有具体的想法。从我的角度来看,我希望每个人都在使用它,因为我认为使用的人越多,Llama 改进的“飞轮效应”就会转得越快。这可能是个相当自私和狭隘的回答,但是这样的话,我就可以更好地构建我自己想要的东西。 但说实话,我认为人们应该从中得到安慰,因为人们对于开源策略的一个大疑问就是:“为什么你要这么做?比如,你在构建这个模型之后,然后就把它免费开放出去。这样做可持续吗?比如,当 Llama 4 或者 Llama 5 需要花费数十亿美元来训练的时候,你还会免费开放吗?” 我的回答是,我不认为这是免费开放,反倒认为这是你们都在帮我把它变得更好。因此,只要负责任地使用,我并不关心你们会拿它做什么。我确实认为安全性很重要。围绕着人工智能伦理、安全性和安全性的问题很多。我认为这些问题最终会变得非常重要。我们会投入大量时间。这是训练过程中最困难的部分之一,也是让开源变得困难的原因之一。如果我们只是为了自己构建它,我们可以做一些假设,比如,除了模型本身之外,我们还可以在堆栈的多层中过滤掉不良的内容,比如过滤掉那些无意中产生的不良查询和输出。 我们试图在开源版本中复制一些这样的功能,并构建了整个 Llama 保护系统。这个系统旨在作为一个整体部署。但从根本上讲,我们必须投入更多的精力来训练实际的基础模型,因为它可以作为一个模型独立使用,不需要其他那些层。所以,这可能是对你问题的一个否定回答。我认为开放平台的好处之一就是人们会构建出你从未想到的东西。 我不知道应该要求人们构建什么,所以你们自己来决定吧。但我觉得我担心的是,我认为其中的一些机会和挑战在安全性方面更大。我认为开源安全辩论的很多内容都是围绕着这样一个观点展开的:由于我刚才所说的原因,开源本质上就不那么安全。但实际上,如果你做得好的话,它会变得更安全,原因与开源软件随着时间变得更加安全是一样的。它是开放的,人们可以更仔细地审查它。这听起来有些反直觉。一开始人们会说:“嘿,黑客可以找到漏洞,这不就让它变得不安全了吗?” 其实不是,你会更快地修复这些漏洞,大家都会更新补丁。同样的情况也会发生在 Llama 上。人们会指出问题所在。我们会持续推出小版本和大版本更新。我认为开发者会一直想要部署最新的模型。他们会把这些微调的补丁应用到最新的模型上,这将是很好的事情。 所以,我想说的是,整个堆栈,从硅片到数据中心的一切。我们之前也做了开放计算项目,有点类似我们正在设计自己的数据中心和服务器。让我们看看能否把这个东西开放出去,这样整个行业可能会围绕我们的设计标准化。供应链会得到发展,价格会降低,这对每个人都有好处。而现在,我们有一个优势,我们是在谷歌之后。也就是说,谷歌先做了所有这些工作。所以我们并不是为了获得专有利益,只要它存在,而且变得便宜,对我们来说就很棒。我认为我们在人工智能领域的情况也大致相同。 Aditya Agarwal:对于这些模型的扩展极限,你的最佳判断是什么?如果它们继续遵循 Scaling Law,那我们还有多少发展空间? Ruchi Sanghvi:除此之外,限制模型发展的因素又有哪些? 扎克伯格:这是一个很难回答的问题。我认为计算能力是一个关键因素。虽然我们不确定具体可以扩展到什么程度,但我们确信模型仍然有很大的扩展潜力。因为基础设施建设不能停止,所以我们很难精确预测何时能达到极限。这整个过程大概需要五到七年的时间,这一切都是为了将来能够让像 Llama 10 这样的模型达到巨大的规模。 而这项工作必须提前开始——他们可以在六到九个月内完成模型的训练,但是获取所需的计算资源却是一个长期的过程。因此,我认为扩展法则将继续有效,而模型的发展在很大程度上将取决于数据。许多新的数据将来自不同的领域。在过去,互联网上并没有这样的大规模数据集。现在,各大公司正在积极收集互联网上的各种内容,并试图从中发现所有可能的模式。这就是预训练模型的做法。随后,各大公司会针对特定的应用场景或功能进一步训练这些模型。 当这些模型开始接近展现出类似通用人工智能(AGI)的行为时,相应的数据集还不存在。因此,你需要自己创建这些数据集。我认为未来的许多工作不仅涉及利用现有的数据以及构建相应的计算能力来处理和训练模型,还会涉及到一些类似今天推理的工作,例如如何创建一个智能体的数据集?可能需要一定的人工工作量,同时也需要让系统自由地进行探索。不断地通过自身的活动来生成数据,并在这个过程中进行实验。这只是一种例子,但这是一种目前尚不存在的新事物。所以我认为关于它能走多远的问题,我认为它可能会走得相当远,我对这一点持有乐观的态度,不过确实很难确切知道答案,总而言之,这是一件很酷的事情。 下一代主要公司将会基于开源 AI 技术建立起来 Aditya Agarwal:Ruchi,你想不想带我们回顾在 Facebook 早期做媒体的时光? Ruchi Sanghvi:Aditya 刚刚分享了自己在 Facebook 的经历。而我呢,我记得当时在开发 Facebook News Feed(新闻动态)时,我参与了非常多的高压会议—— 扎克伯格:你是最初构建 News Feed 的六人团队之一。 Ruchi Sanghvi:而且我当时的工位就在你旁边。这并不总是好事,Facebook 早期有很多堪比“作战室”的高压会议,以及封闭式的工作时段,特别是在 News Feed 发布之后,我几乎整整一周都没离开过办公室。 扎克伯格:是的,那是最严重的一次,外面的街道甚至有抗议者。我们当时想,“你可能连前门都出不去,因为人们真的非常生气。” Ruchi Sanghvi:没错,我很想知道你最近有没有经历过这种类似于“作战室”的高压工作体验。比如说围绕 Llama 项目,或是当 Llama 的权重被泄露的时候? 扎克伯格:这涉及两个不同的方面。现在我不再像以前那样深度参与那些运营或决策的工作。早期,我们关注的是 News Feed 这样的核心功能。我认为我们处理重大战略问题的方式也在逐渐改变。我不知道具体怎样描述,但我正在尝试学习如何更平稳地管理公司。很明显,在这方面我还没有成功,Meta 仍然起伏很大,但我想总有一天,在未来的某个时刻,我希望我能学会如何更平稳地处理这些事情,当然前提是不放弃我们所做的创新和酷炫的工作。我认为让事情变得更稳定的一个明显方法就是不要那么用力地加速,但我作为一个人做不到这一点。 我们过去经常处于高度紧张的状态。我认为这可能是因为缺乏经验,需要用更多的努力来弥补不足,但随着时间的推移,我们需要变得稍微稳定一点。我们现在遇到的很多危机,也许是一种不幸的现象。这可能既是因为公司规模变大,也是因为现在的世界状况。可以说,我们现在面临的更多挑战是社会和政治性质的,而不是技术上的。 就像当初第一个版本的 Llama,我们原本打算作为一个学术项目发布,结果它却流传出去了——这其实很酷——但我们在试图弄清楚该如何妥善处理这种情况。这不是那种紧急的情况。我认为这种泄露并不坏,反而很酷。因为人们真的很想要这个东西。我们需要弄清楚正确的处理方式。 人们想要我们意外地半公开的那个开源 Llama 项目,它的初衷是开源的,但更像是一个学术性的项目。然后它立刻就引起了广泛关注。我们内部进行了两次讨论。第一个问题是,“这是否是好事,我们应该继续做吗?”这个问题很快就解决了。我们认为这是好事,我们应该尝试去做。 第二个问题是,有时候政治或社会的辩论进展得非常快,我认为关于开源的辩论将在未来 5 到 10 年内成为最重要的技术政策辩论之一。我们已经取得了很大的进步。我认为我们取得进展的部分原因是因为很多人在拥抱并使用 Llama。坦白说,我认为初创公司和创业精神通常比大型科技企业更受欢迎。所以,我们这样做是否会受欢迎呢?我不知道,可能会,也可能不会。 当有大量的人开始使用它时,这是好的。我认为人们会更加倾听这些声音。他们会说,这很好。我们希望有新的公司出现。但在我们实际推出 Llama 2 之前,即第一个商业开源项目之前,曾有过一场巨大的辩论。我认为其中的风险和担忧占据了公众讨论的主导地位,直到有很多初创公司开始使用这个东西。 考虑到开源相对于封闭源码的独特性质,我们当时必须在内部解决的问题是,如何负责任和安全地发布开源模型。我的看法是,如果我们做得好,并且确保我们在安全性方面做得非常好,随着时间的推移,我们会建立信任,建立起这个社区。想想今天的大型企业,它们都是基于开源软件建立起来的,对吧?如果现在这场关于开源 AI 的辩论顺利进行,我认为下一代主要公司也会基于开源 AI 技术建立起来。 我认为有些事情就是这样,虽然一路上会有挑战需要面对,但我们必须小心谨慎地处理。这就是为什么我们对所做的事有一些限制,有时候会放慢一点速度。从 Llama 1 泄露到 Llama 2 发布,大概是几个月的时间,我们团队有一部分一直在研究模型,另一部分则在后台梳理所有这些问题,确保所有的责任问题都处理好,为未来打下基础。 扎克伯格的生意经:直接管理手下的大团队 Ruchi Sanghvi:接下来,我们稍微转换一下话题,来回答一些观众提出的问题。对于那些希望成为企业家的技术人员,你有什么建议?在与众多企业家合作的过程中,我发现他们常常面临局部最优解的问题。你对他们有何建议? 扎克伯格:我认为你提到的“从 -1 到 0”的概念与我个人探索新领域的理念非常吻合。在我最初创业时,有很多人决定创办一家公司,随后他们会全力以赴地投入到某个项目中。然而,一旦一群人开始共同推进一个项目,想要改变方向就会变得相当困难。虽然你可以凭借决心来调整航向,但这通常需要时间。因为在早期阶段,你会处于探索一个极为广阔且不断变化的领域之中。在这个阶段,你需要具备的不仅是能够在头脑中快速做出决策的能力,更重要的是要有高度的灵活性,甚至随时准备改变你的想法。有时候,你可能会在短短几个小时内就转而从事一项全新的任务。 因此,在我还是大学生时创建 Facebook 的第一个版本时,并没有预料到它会成长为一家大型企业。顺便提一下,当时——你还记得吧——我和达斯汀(Facebook 联合创始人 Dustin Moskowitz)刚启动了 Facebook,他加入我一起工作,因为我那时还要忙于上课,被困在计算机科学实验室里编写 PHP 代码。我忙于作业,甚至连手机信号都不稳定,以至于网站出现问题时我都浑然不知。就像是,当我从解决某个问题中抽身出来后才发现,哦,网站已经宕机了一段时间。那真是一团糟。于是达斯汀介入帮忙,他非常能干,基本上成为了我们的首位工程师和运营人员,确保网站的正常运行。没有他,公司可能无法取得成功。达斯汀确实是个了不起的人。 而在那个第一年的春天之后,因为我是在二月份推出的产品,我们来到了硅谷,并认为这里是度过夏天的最佳地点,还是许多企业的发源地。在硅谷,我们能够学到很多东西。我们当时所做的事情很可能并不是最终要经营的业务。尽管我们已经开始运营 Facebook,而且已经有将近一百万用户。但我们并不确定它是否会发展成一家大公司。 从中我们可以吸取什么样的经验教训呢?在大学期间,我实际上创建了许多不同的项目。我热衷于创造事物。有时我会为选课感到困惑。于是我开发了一个服务,这个服务可以从课程目录中抓取信息,让用户输入他们已经完成和计划修读的课程。然后,系统会显示这些课程之间的关联性,例如,上过某门课的人可能对另一门课感兴趣。 此外,系统还包括有关课程评价的信息。这部分非常有趣,因为我开始这么做的初衷是想做一些众包的事情,比如帮我决定应该选择哪门课。但实际上人们更喜欢坐在那里浏览其他人正在修读的课程。因为实际上大家真的很好奇别人的动态。所以你感兴趣的课程不仅对你自己而言是一个有趣的信号,也是了解他人的一种途径。所有这些元素,我认为,都汇聚到了 Facebook 的首个版本中。我大概做了十个类似这样的项目。 而在我的高中时期,这样的事情也有很多,我记得有一次我在做一个项目,期末考试即将来临。我当时上了一门关于罗马奥古斯塔时期的课程,那是一门历史课(编者注:值得一提的是,后来扎克伯格和他的妻子给三个孩子取的名字都取自罗马皇帝的名字:八岁的马克西玛 Maxima、六岁的奥古斯特 August 和一岁的奥雷利亚 Aurelia。扎克伯格以前采访还说过他对历史上的奥古斯特皇帝非常痴迷,就是源自这门历史课)。 根据学校的要求,我们需要修读一些文科课程。我不清楚现在他们是如何描述这些课程的,但总之,为了准备期末考试,我们需要掌握一些艺术品的历史背景。考试形式主要是展示一些艺术品,然后我们要解释它们的历史意义。 那时候——我几乎把所有的自习时间都用来做那个项目。所以在考前的几个小时内,我迅速制作了一个小工具,抓取了所有相关的艺术品信息,并给全班同学发送了一个链接。我对他们说:“我做了一个学习工具。如果你们愿意用的话,它会随机展示一件艺术品,你可以写下你认为它的历史意义是什么。然后你可以查看其他人的答案。”结果那次考试的成绩比以往任何时候都要高。但说实话,我一直坚信这种方法。 也就是说,如果你想要做一些不同的事情,不要过早地投入太多。特别是开一家初创公司的时候。因为在那种情况下,很难预测五年或十年后世界会变成什么样子。但我觉得最困难的事情是要找到自己的切入点,这通常有不同的方法。有些人通过设定目标“我要创立一家初创公司,并且我会坚持不懈直到成功”这种方式取得了成功,但我始终更倾向于去做很多自己感兴趣的事情。这样你会学到不同的东西,并且尽量避免了过早地投入太多资源,因为要在需要做的事情上彻底转型是非常困难的。所以我认为,从这个角度来看,持续不断地探索是很重要的。我认为这样做非常有价值。 Aditya Agarwal:当有人问我关于我在 Facebook 的成就时,我会提到我确实推出了一些非常成功的产品,但我也参与了不少最终未能成功的项目。我觉得即便在内部,我们也有一致的看法:你应该全力以赴追求那些你认为可能会非常出色的产品。但也不要太过执着,以至于把个人的自尊都绑定在上面。毕竟,创新和尝试就意味着有些东西可能无法成功,而这完全是可接受的。这也是我至今仍对 Facebook 感到敬佩的一点——它总是勇往直前,同时清楚地认识到并非所有尝试都能成功,而这正是它的魅力所在。 扎克伯格:没错,我在公众面前犯过的错误比这个行业里的任何人都要多。迈克尔·乔丹有一个广告曾给我留下了深刻的印象。广告中提到他一次又一次地失败,然后他说,这正是他能够成功的原因。沃尔特·艾萨克森所著的《爱因斯坦传》也传达了类似的观点。爱因斯坦提出的许多理论最终被证明是错误的,但其中有一些是正确的,而这才是最重要的。 Ruchi Sanghvi:我想你已经提到了一些关键点,但我还想追问一下。我曾在多家初创企业工作过,也帮助过不少初创企业。但当我回想起早期的 Facebook,它让我感到特别激动。我们不仅追求一种体验,更重要的是那种兴奋感。我对你们在招聘过程中做得好的地方感到好奇。你做出了哪些重要的招聘决策,从而吸引到了最优秀的人才? 扎克伯格:有两种截然不同但又相互关联的情况。 一方面,有很多充满热情的年轻人从大学毕业后,他们使用过我们的产品,所以他们觉得:“这个东西太棒了,我想在这里工作。” 另一方面,我在很长一段时间里并没有很好地构建起高层管理团队。我们频繁更换高管,就像是走马灯一样。因为我心中有一个理想化的工程师领导形象。他们可能都是很不错的人,但这与我们的企业文化严重不符,直到有一天彼得·蒂尔(Peter Thiel)带我出去吃午餐,并告诉我,这种情况必须改变。他指出,我与这些高管的合作并不顺畅。“你应该选择那些你愿意花时间相处的人,因为你几乎每天都在办公室,或者说你一生都在为这件事奋斗。” 我认为早期团队存在一个沟通的问题,那就是你想要与他们用同一种语言交流,并且有很多共同的假设。当然,也需要互相挑战。团队成员对事物有不同的看法,但我认为也有足够的共同价值观作为基础。 我认为这就是事情开始转变的时候。正如你所说,接纳一些混乱,比如缺乏经验,但我们都处在同一频道上。现在,美妙之处在于我们都成长了,他们都成为了非常成熟且卓越的高管,无论以何种标准衡量,他们在行业内都有着丰富的经验,我们已经共事了大约 15 年。人们经常会问我是如何做到的。实际上,我会去直接管理一个规模相对较大的团队,因为我们有许多不同的产品线,我希望尽可能多地亲力亲为。对我来说,这就意味着我不想仅仅通过六七个人来管理一切。我直接管理着一个大约 25 人的团队,他们各自负责大约 15 个产品团队,涵盖了从主应用程序到广告,再到人工智能研究、智能眼镜、混合现实头显等各个业务领域。我们每周都会花大量时间在一起,这是我管理公司的一种方式——打造一个紧密团结的团队。 我觉得真正让我感到自豪的是我们的产品团队。而在业务方面则有所不同,比如你需要聘请一个经验丰富的总法律顾问,这是非常重要的。没错,比如克里斯·考克斯(Chris Cox),他现在是我们的首席产品官。我和达斯汀在任命他的问题上曾有过很大的分歧,克里斯显然很有潜力,且还很年轻,但达斯汀坚持我们需要他成为一名工程经理,而我反驳说:“达斯汀,你已经有了五位工程经理了。” 那时我真的需要一个能胜任人力资源主管的人,而不是第六个工程经理。 于是,克里斯先是顺着我的意做了几年人事,然后又回到了产品领域。今天的我特别自豪的一点是,我们公司的顶级产品负责人并非一开始就担任这一职位。他们都是从基层做起的。我们招聘了不少总监级别的员工,但也有许多人是从个人贡献者的角色起步,甚至有人是从行政岗位做起的。实际上,现在的管理层成员几乎都是通过承担不同的职责逐步晋升上来的。有人从非技术岗位做起,有人则从技术岗位开始,后来又转岗从事其他工作。我觉得这真的很酷。 我的意思是,虽然你可以独自克服许多困难,但我相信,当你对某个想法有了更深的理解后,它就会变成一项真正的团队合作。你所感受到的喜悦和面对挑战时的压力,很大程度上取决于你身边的队友。这确实不容易。事情往往比预期的耗时更长,还会遇到各种预料之外的问题。所以,我想这就是我始终对自己的工作充满激情和快乐的原因之一——因为我热爱和我共事的同事们,他们就像我最亲近的朋友一样。 Ruchi Sanghvi:你怎么应对创业和经营公司过程中的情绪起伏?在过去二十年中,你的情绪有何变化? 扎克伯格:嗯,这个问题挺复杂的。我觉得随着公司规模的增长,经历的周期也变长了。比如以前我们推出 News Feed 功能时,很快就开发出了首个版本,之后很快就迎来了一波高潮,但紧接着就有人表示不满。 通常情况下,这些问题会在一周内得到解决,一切又恢复正常。但现在,我们做的事情规模更大了,这也是创办初创企业的乐趣之一,当然也很忙碌。你总感觉自己在极度的情绪波动中挣扎,有时候甚至觉得自己快要撑不住了。我并不怀念那种状态,因为真的很累。 确实很累,我不确定自己是否愿意再经历一次。现在的周期变得更长了。我想这需要一定的毅力,需要周围人的支持,而且往往要等到事情过去之后,才能真正意识到当时的情况有多么艰难。回想起来,我们处理过的某些问题,我现在甚至都想不起具体细节了。 我只是尽力一步一个脚印地往前走,继续做好自己的本职工作。而当你回望过去的时候,会感慨万千,心想:“哇,那真是一段难忘的经历。” Ruchi Sanghvi:看来即使是马克这样的强者,重新振作也需要极大的动力。我们所能做的,其实就是一步步地前进,继续前进,永不言弃。我想也没有其他的选择了。 与志同道合者同行 Aditya Agarwal:换个轻松的话题吧,聊聊有趣的事情。疫情期间,我学了不少新的运动项目,比如滑雪。我还自称是个中级冲浪爱好者,学会了尾波冲浪,甚至还稍微掌握了一些水翼板技巧,这真是太棒了。这些运动给了我释放压力的机会,让我能置身于自然之中,同时也学到了不少新东西。 马克,你显然也学到了很多新技能。你为什么会喜欢这些运动?这些运动之间是否存在某种共通之处,你是如何将它们运用到生活中的? 扎克伯格:正如我之前所说,当你经营一家大型公司时,周期会变得很长,尤其是当你涉足硬件领域时,对吧?或者就像你在训练一些基础模型时那样。有些事情在限定的时间内是很好的,我必须专注于一点,否则就会被击倒在地。而且,我也可以反击。这就是我喜欢综合格斗的原因——但现在,他们肯定不会再让我在办公室里玩拳击了。我想这是正确的。 Aditya Agarwal:让我们以亚历克斯·佩雷拉(Alex Pereira)作为结尾吧。 图注:在前段时间刚结束的巴黎奥运会前夕,扎克伯格为了预热奥运,曾与前 UFC 中量级冠军亚历克斯·佩雷拉一起制作了一段以奥运为主题的娱乐视频。两人举办了一个“模拟奥运会”,一起参加了击剑、拳击、100 米短跑等运动,且扎克伯格在某些项目中的表现甚至赢过了佩雷拉。 扎克伯格:噢,亚历克斯真是太棒了。我们的经历很相似。年轻时我也非常喜欢运动,而且竞争心很强。后来创办公司后,基本上就不怎么运动了。虽然偶尔还会举重,但并没有设定什么明确的目标。然后在疫情初期,一切都变成了远程工作,我就想更深入地投入跑步。我们全家在夏威夷待了一段时间,我因此开始接触冲浪,发现这项运动真的非常好。因为它让人亲近自然,景色宜人,同时还能锻炼身体。你不想被浪打败,站在浪尖上又非常刺激,而且这项运动还很有策略性。后来,虽然我不再住在夏威夷,但我一直在想,在陆地上有没有类似的活动?于是我就开始学习武术。 就这样,我和几个朋友开始一起训练,然后其中一个朋友说他要去参加比赛,我很好奇他会表现得怎么样。我想,我是不会去比赛的,因为那样太尴尬了。你知道,如果我去比赛,很可能被某人撂倒。但他去了,并且表现得很好,我当时就想,真不错,于是我也决定参加下一场比赛,结果赢得了一堆奖牌。 再后来,跟妻子普莉希拉(Priscilla)谈过后,她同意我可以参加一场 MMA(综合格斗)的比赛。我觉得自己有能力长期练习柔术,但在这种工作环境下,头部受伤总是有一定的风险。所以我打算参加一场 MMA 比赛,结果我扭伤了膝盖,现在我又回来了。 Aditya Agarwal:这让我想到 2009 年,那段时期的马克非常专注,这一年尤其认真,甚至会穿着衬衫和领带上班。然后我们决定进行一个俯卧撑挑战,看看谁能第一个在办公室里完成 10000 个俯卧撑(自己记录的成绩)。最后,Alex Himel 赢了,现在他负责 Meta 的 AR 眼镜项目。 扎克伯格:他赢了,但我也紧随其后。他已经为公司效力了很久,并且表现非常出色。他那时还是个工程师,而现在他是公司里数一数二的人物了。 Ruchi Sanghvi:好,最后一个问题。很多人经常问我,“马克·扎克伯格私底下是个什么样的人”?这可能是因为我在 Facebook 工作过,但我一直试图避免回答别人这个问题。有时我会告诉他们,你是我在最困难时刻会依靠的最亲密朋友之一。而最让我感到有趣的是,尽管你越来越有名,但你却为我们这些朋友、同事和观众腾出了更多的时间。我想问你,有哪些对你来说很重要,但大多数人却不懂得珍视的事情? 扎克伯格:我会说,在我人生的这个阶段,除了追求伟大成就之外,还有一个重要的方面,那就是与我真正喜欢的人一起实现这些伟大成就。有时候,我会因为喜欢某个人而想要参与一个项目。我愿意不遗余力地寻找与他们合作的机会,因为他们是值得尊敬的人。我想帮助他们,也想向他们学习。他们很有趣。这其中包含了许多不同的事情。当然,我的大部分精力仍然集中在 Meta 上。 一个真正让我感到有趣的事情是,我和普莉希拉之间的关系越来越深厚。我们结婚之后建立了家庭,同时也在共同运营 CZI。看到她的成长真的很酷,我们已经发展出一个庞大的组织。 当然,也有一些比较随意的事情,比如我想参与一个项目,目的是培育出世界上最优质的牛肉。至于为什么,我也不清楚,但我认为和一些很棒的人一起做这些事情真的很棒。我认为这些事情对我来说很重要,可能是因为公司已经变得如此庞大和成功,是的,我们需要继续做得好以保持整体的势头和进展。但这并不是因为达到某个估值或其他目标而激励我,而是因为我们正在构建的东西。 在我看来,这个阶段的重要部分是能够做一些伟大的事情,并建立起非常深厚的人际关系。当你年轻时,你可能还没有足够的阅历或时间来建立持续 20 年的友谊,而现在我们已经到了这个阶段,我已经拥有一些这样的友谊,这很棒,但我们还足够年轻,可以继续建立这些友谊。 你们俩今天对我说了很多好话,而你们也是我最亲密的朋友之一。我对你们在 Facebook 早期所做的工作一直心存感激,因为如果没有这些努力,我们也不会走到今天。我认为那些有机会与你们共事并受到你们指导的人真的很幸运。这也是我愿意来参加这个活动的部分原因,因为我对你们正在做的事情充满信心,这也是世界上所需要的。你们现在做的 SPC 与其他不同的孵化器相比,拥有不同的理念和方向,而这正是我在这个人生阶段认为重要的东西。
苹果Apple Intelligence存重大安全缺陷,几行代码即可攻破!Karpathy发文提醒
Apple Intelligence上线在即,一小哥几行代码曝出Apple Intelligence安全缺陷。 在2024年全球开发者大会 (WWDC) 上,Apple发布了将搭载在iOS 18.1中的AI功能Apple Intelligence。 眼看着10月即将正式上线了,有「民间高手」在MacOS 15.1提供的Beta测试版Apple Intelligence中发现重大缺陷。 开发人员Evan Zhou使用提示注入成功操纵了Apple Intelligence,绕过了预期指令让AI能对任意提示做出响应。 事实证明,它与其他基于大语言模型的AI系统一样,容易受到「提示词注入攻击」。开发人员Evan Zhou 在YouTube视频中演示了此漏洞。 自动播放 什么是提示词注入攻击? 自动播放 有一个组织叫OWASP,也就是开放全球应用安全项目,他们分析了大语言模型可能面临的主要漏洞。猜猜他们排名第一的是什么?没错,就是提示词注入。 提示词注入攻击 (Prompt Injection Attack) 是一种新型的攻击方式,具有有不同的形式,包括提示词注入、提示词泄露和提示词越狱。 当攻击者通过操纵人工智能,导致模型执行非预期操作或泄露敏感信息时,这种攻击就会发生。这种操纵可以使人工智能将恶意输入误解为合法命令或查询。 随着个人和企业对大语言模型(LLM)的广泛使用以及这些技术的不断进步,提示注入攻击的威胁正显著增加。 那么,这种情况最初是怎样发生的呢?为何系统会容易受到这种类型的攻击? 实际上,传统的系统中,开发者会预先设定好程序和指令,它们是不会变化的。 用户可以输入他们的信息,但是程序的代码和输入各自保持独立。 然而,对于大语言模型并非如此。也就是说,指令和输入的边界变得模糊,因为大模型通常使用输入来训练系统。 因此,大语言模型的编码和输入没有过去那样清晰、明确的界限。这带给它极大的灵活性,同时也有可能让模型做出一些不应该的事情。 技术安全专家、哈佛大学肯尼迪学院讲师Bruce Schneier 5月发表在ACM通讯上的文章对LLM的这个安全问题做出了详细论述。用他的话来说,这是源于「没有将数据和控制路径分开」。 提示词注入攻击会导致数据泄露、生成恶意内容和传播错误信息等后果。 当攻击者巧妙地构造输入指令来操纵AI模型,从而诱导其泄露机密或敏感信息时,就会发生提示注入攻击。 这种风险在利用包含专有或个人数据的数据集训练的模型中尤为突出。攻击者会利用模型的自然语言处理能力,制定表面上看似无害但实际上旨在提取特定信息的指令。 通过精心策划,攻击者可以诱使模型生成包含个人详细信息、公司内部运营甚至是模型训练数据中嵌入的安全协议的响应。 这种数据泄露不仅侵犯了个人隐私,还构成了重大的安全威胁,可能导致潜在的财务损失、声誉损害以及法律纠纷。 回到Zhou的案例来看,Zhou的目的是操纵Apple Intelligence的「重写」功能,即对用户输入文本进行重写和改进。 在操作的过程中,Zhou发现,一个简单的「忽略先前的指令」命令居然失败了。 如果这是一个「密不透风」的LLM,想继续往下挖掘就会相对困难。但巧合的是,Apple Intelligence的提示模板最近刚被Reddit用户挖出来。 从这些模板中,Zhou发现了一个特殊token,用于将AI系统角色和用户角色分开。 利用这些信息,Zhou创建了一个提示,覆盖了原来的系统提示。 他提前终止了用户角色,插入了一个新的系统提示,指示AI忽略之前的指令并响应后面的文本,然后触发AI的响应。 经过一番实验,攻击成功了:Apple Intelligence回复了Zhou未要求的信息,这意味着提示注入攻击有效。Zhou在GitHub上发布了他的代码。 Twitter用户攻破GPT-3 提示注入问题至少自2020年5月发布的GPT-3起就已为人所知,但仍未得到解决。 基于GPT-3 API的机器人Remoteli.io成为Twitter上此漏洞的受害者。该机器人应该自动发布远程工作,并响应远程工作请求。 然而,有了上述提示,Remoteli机器人就成为了一些Twitter用户的笑柄:他们强迫机器人说出根据其原始指令不会说的语句。 例如,该机器人威胁用户,对挑战者号航天飞机灾难承担全部责任,或者诋毁美国国会议员为连环杀手。 在某些情况下,该机器人会传播虚假新闻或发布违反Twitter政策的内容,并应导致其被驱逐。 数据科学家Riley Goodside最先意识到这个问题,并在Twitter上进行了描述。 通过将提示插入正在翻译的句子中,Goodside展示了,基于GPT-3的翻译机器人是多么容易受到攻击。 英国计算机科学家 Simon Willison在他的博客上详细讨论了这个安全问题,将其命名为「提示注入」(prompt injection)。 Willison发现大语言模型的提示注入指令可能会导致各种奇怪和潜在危险的事情。他接着描述了各种防御机制,但最终驳回了它们。目前,他不知道如何从外部可靠地关闭安全漏洞。 当然,有一些方法可以缓解这些漏洞,例如,使用搜索用户输入中危险模式的相关规则。 但不存在100%安全的事情。Willison说,每次更新大语言模型时,都必须重新检查所采取的安全措施。此外,任何能够编写语言的人都是潜在的攻击者。 「像GPT-3这样的语言模型是终极黑匣子。无论我编写多少自动化测试,我永远无法100%确定用户不会想出一些我没有预料到的提示词,这会颠覆我的防御。」Willison写道。 Willison认为将指令输入和用户输入分开是一种可能的解决方案,也就是上述ACM文章中提到的「数据和控制路径分离」。他相信开发人员最终能够解决问题,但希望看到研究证明该方法确实有效。 一些公司采取了一些措施让提示注入攻击变得相对困难,这一点值得赞扬。 Zhou破解Apple Intelligence时,还需要通过后端提示模板找到特殊token;在有些系统中,提示注入攻击可以简单到,只需在聊天窗口中,或在输入的图片中长度相应文本。 2024年4月, OpenAI推出了指令层次法作为对策。它为来自开发人员(最高优先级)、用户(中优先级)和第三方工具(低优先级)的指令分配不同的优先级。 研究人员区分了「对齐指令」(与较高优先级指令相匹配)和「未对齐指令」(与较高优先级指令相矛盾)。当指令冲突时,模型遵循最高优先级指令并忽略冲突的较低优先级指令。 即使采取了对策,在某些情况下,像ChatGPT或Claude这样的系统仍然容易受到提示注入的攻击。 LLM也有「SQL注入」漏洞 除了提示词注入攻击,Andrej Karpathy最近在推特上还指出了LLM存在的另一种安全漏洞,等效于传统的「SQL注入攻击」。 LLM分词器在解析输入字符串的特殊token时(如、<|endoftext|>等),直接输入虽然看起来很方便,但轻则自找麻烦,重则引发安全问题。 需要时刻记住的是,不能信任用户输入的字符串!! 就像SQL注入攻击一样,黑客可以通过精心构造的输入,让模型表现出意料之外的行为。 Karpathy随后在Huggingface上,用Llama 3分词器默认值提供了一组示例,发现了两点诡异的情况: 1、<|beginoftext|>token (128000) 被添加到序列的前面; 2、从字符串中解析出 <|endoftext|>被标记为特殊token (128001)。来自用户的文本输入现在可能会扰乱token规范,让模型输出结果不受控。 对此,Karpathy给出了两个建议: 始终使用两个附加的flag值, (1) add_special_tokens=False 和 (2) split_special_tokens=True,并在代码中自行添加特殊token。 对于聊天模型,还可以使用聊天模板apply_chat_template。 按照Karpathy的方法,输出的分词结果看起来更正确,<|endoftext|> 被视为任意字符串而非特殊token,并且像任何其他字符串一样被底层BPE分词器分解: 总之,Karpathy认为编码/解码调用永远不应该通过解析字符串来处理特殊token,这个功能应该被彻底废弃,只能通过单独的代码路径以编程方式显式添加。 目前这类问题很难发现且文档记录很少,预计目前大约50%的代码存在相关问题。 另外,Karpathy发现,连ChatGPT也存在这个bug。 最好的情况下它只是自发删除token,最坏的情况下LLM会无法理解你的意思,甚至不能按照指令重复输出<|endoftext|>这个字符串: 有网友在评论区提出问题,如果代码写得对,但是训练数据时候输入<|endoftext|>会发生什么? Karpathy回应道,如果代码正确,什么都不会发生。问题是很多代码可能并不正确,这会悄悄搞坏他们的LLM。 最后,为了避免LLM漏洞引发安全问题,Karpathy提醒大家:一定要可视化你的token,测试你的代码。
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
编辑:编辑部 Nature的一篇文章透露:你发过的paper,很可能已经被拿去训练模型了!有的出版商靠卖数据,已经狂赚2300万美元。然而辛辛苦苦码论文的作者们,却拿不到一分钱,这合理吗? 全球数据告急,怎么办? 论文来凑! 最近,Nature的一篇文章向我们揭露了这样一个事实:连科研论文,都被薅去训AI了…… 据悉,很多学术出版商,已经向科技公司授权访问自家的论文,用来训练AI模型。 一篇论文从酝酿idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情况下,就成为训AI的数据。 这合理吗? 更可气的是,自己的论文还被出版商拿来牟利了。 根据Nature报告,上个月英国的学术出版商Taylor & Francis已经和微软签署了一项价值1000万美元的协议,允许微软获取它的数据,来改进AI系统。 而6月的一次投资者更新显示,美国出版商Wiley允许某家公司使用其内容训模型后,直接一举豪赚2300万美元! 但这个钱,跟广大论文的作者是半毛钱关系都没有的。 而且,华盛顿大学AI研究员Lucy Lu Wang还表示,即使不在可开放获取的存储库内,任何可在线阅读的内容,都很可能已经被输入LLM中。 更可怕的是,如果一篇论文已经被用作模型的训练数据,在模型训练完成后,它是无法删除的。 如果现在,你的论文还尚未被用于训练AI,那也不用担心——它应该很快就会了! 数据集如黄金,各大公司纷纷出价 我们都知道,LLM需要在海量数据上进行训练的,而这些数据通常是从互联网上抓取的。 正是从这些训练数据中数十亿的token中,LLM推导出模式,从而生成文本、图像、代码。 而学术论文篇幅又长,信息密度又高,显然就是能喂给LLM的最有价值的数据之一。 而且,在大量科学信息上训练LLM,也能让它们在科学主题上的推理能力大大提高。 Wang已经共同创建了基于8110万篇学术论文的数据集S2ORC。起初,S2ORC数据集是为了文本挖掘而开发的,但后来,它被用于训练LLM。 2020年非营利组织Eleuther AI构建的Pile,是NLP研究中应用最广泛的大型开源数据集之一,总量达到800GB。其中就包含了大量学术来源的文本,arXiv论文比例为8.96%,此外还涵盖了PubMed、FreeLaw、NIH等其他学术网站。 前段时间开源的1T token数据集MINT也挖掘到了arXiv这个宝藏,共提取到了87万篇文档、9B token。 从下面这张数据处理流程图中,我们就能发现论文数据的质量有多高——几乎不需要太多的过滤和去重,使用率极高。 而现在,为了应对版权争议,各大模型公司也开始真金白银地出价,购买高质量数据集了。 今年,「金融时报」已经把自己的内容以相当可观的价格,卖给了OpenAI;Reddit也和谷歌达成了类似的协议。 而以后,这样的交易也少不了。 证明论文曾被LLM使用,难度极高 有些AI开发者会开放自己的数据集,但很多开发AI模型的公司,会对大部分训练数据保密。 Mozilla基金会的AI训练数据分析员Stefan Baack表示,对于这些公司的训练数据,谁都不知道有什么。 而最受业内人士欢迎的数据来源,无疑就是开源存储库arXiv和学术数据库PubMed的摘要了。 目前,arXiv已经托管了超过250万篇论文的全文,PubMed包含的引用数量更是惊人,超过3700万。 虽然PubMed等网站的一些论文全文有付费墙,但论文摘要是免费浏览的,这部分可能早就被大科技公司抓取干净了。 所以,有没有技术方法,能识别自己的论文是否被使用了呢? 目前来说,还很难。 伦敦帝国理工学院的计算机科学家Yves-Alexandre de Montjoye介绍道:要证明LLM使用了某篇确定的论文,是很困难的。 有一个办法,是使用论文文本中非常罕见的句子来提示模型,看看它的输出是否就是原文中的下一个词。 有学者曾以「哈利·波特与魔法石」第三章的开头提示GPT-3,模型很快正确地吐出了大约一整页书中的内容 如果是的话,那就没跑了——论文就在模型的训练集中。 如果不是呢?这也未必是有效证据,能证明论文未被使用。 因为开发者可以对LLM进行编码,让它们过滤响应,从而不和训练数据过于匹配。 可能的情况是,我们费了老大劲,依然无法明确地证明。 另一种方法,就是「成员推理攻击」。 这种方法的原理,就是当模型看到以前见过的东西时,会对输出更有信心, 为此,De Montjoye的团队专门开发了一种「版权陷阱」。 为了设置陷阱,团队会生成看似合理却无意义的句子,并将其隐藏在作品中,比如白色背景上的白色文本或网页上显示为零宽度的字段。 如果模型对未使用的控制句的困惑度,比对隐藏在文本中的控制句的困惑度更高,这就可以作为陷阱曾被看到的统计证据。 版权争议 然而,即使能证明LLM是在某篇论文上训练的,又能怎么办呢? 这里,就存在一个由来已久的争议。 在出版商看来,如果开发者在训练中使用了受版权保护的文本,且没有获得许可,那铁定就是侵权。 但另一方却可以这样反驳:大模型并没有抄袭啊,所以何来侵权之说? 的确,LLM并没有复制任何东西,它只是从训练数据中获取信息,拆解这些内容,然后利用它们学习生成新的文本。 当然,这类诉讼已经有先例了,比如「纽约时报」对OpenAI那场石破天惊的起诉。 其中更加复杂的问题,是如何划清商用和学术研究用途。 根据目前arXiv网站上的使用条款,如果是个人或研究用途,抓取、存储、使用所有的电子预印本论文和网站元数据都是合规且被支持的。 然而,arXiv对商业方面的使用是严令禁止的。 那么问题来了,如果某个商业公司使用了学术机构发布的开源数据集训练自己的商业模型,且数据来源含有arXiv或类似学术出版机构,这怎么算? 此外,出版商在用户的订阅条款中往往也没有明确规定,能否将论文用作模型的训练数据。 比如,一个付费购买Wiley论文库阅读全文资格的用户,是否被允许将这些文本拷贝下来喂给模型? 现在的问题是,有人想让自己的作品纳入LLM的训练数据中,有人不想。 有人已经做出来一个[haveibeentrained」的同名网站,用来检测自己的内容是否被用于训练AI模型 比如Mozilla基金会的Baack就表示,非常乐于看到自己的作品让LLM变得更准确,「我并不介意有一个以我的风格写作的聊天机器人」。 但是,他只能代表自己,依然有其他很多艺术家和作家,会受到LLM的威胁。 如果提交论文后,这篇论文的出版商决定出售对版权作品的访问权限,那个别的论文作者是根本没有权力干涉的。 整个圈子也是鱼龙混杂,公开发表的文章既没有既定的方法来分配来源,也无法确定文本是否已被使用。 包括de Montjoye在内的一些研究者对此感到沮丧。 「我们需要LLM,但我们仍然希望有公平可言,但目前我们还没有发明出理想的公平是什么样子。」 多模态数据不够,arXiv来凑 事实上,庞大的arXiv论文库中,可以利用的不止文本数据。 ACL 2024接收了一篇来自北大和港大学者的论文,他们尝试利用这些论文中的图文构建高质量多模态数据集,取得了非常不错的效果。 前段时间,纽约大学谢赛宁教授和Yann LeCun等人发布的Cambrian模型也用到了这个数据集。 之所以要用arXiv论文中的图片,主要还是由于科学领域训练数据集的稀缺。 GPT-4V等视觉语言模型虽然在自然场景的图像中有出色的表现,但在解释抽象图片方面,比如几何形状和科学图表,依旧能力有限,也无法理解学术图片中细微的语义差别。 这篇论文构建的多模态arXiv数据集总共用到了各个STEM领域的57.2万篇论文,超过arXiv论文总数(2.5M)的五分之一,包含两部分:问答数据集ArXivQA和图片标注数据集ArXivCap。 依托arXiv大量且多样的论文收录,与之前的科学图片数据集相比,ArXivCap的数据量是第二名SciCap的3倍,ArXivQA也是唯一涵盖广泛领域内真实论文的问答数据集。 通过使用这些领域特定数据进行训练,VLM的的数学推理能力有了显著增强,在多模态数学推理基准上实现了10.4%的准确率提升。 比如,在ArXivQA上训练过的Qwen 7B模型能够正确理解条形图并回答相关问题(左图),数学能力也有所提高(右图)。不仅答案正确,给出的推理过程也更加完整充分。 数据集构建 数据集的构建流水线如下图所示。由于arXiv是预印本平台,所以需要先通过发表记录筛选出被期刊或会议接收的论文,以保证数据质量。 提取论文中的图片-文字对并进行基于规则的清理后,组成ArXivCap;ArXivQA则由GPT-4V生成,但使用了精心设计过的prompt模板。 ArXivCap中的一个单图标注对: 2019年论文「Semigroup models for biochemical reaction networks」 ArXivCap数据集中的一个多图标注对: 2018年论文「Low-Power Wide-Area Networks for Sustainable IoT」 ArXivQA数据集示例: 2020年论文「Skyrmion ratchet propagation: Utilizing the skyrmion Hall effect in AC racetrack storage devices」 评估 根据在MathVista数据集上的结果,ArXivCap和ArXivQA共同提升了Qwen-VL-Chat的整体性能,超越了Bard的表现。 最佳结果以粗体显示,次佳结果以下划线标记 在为单张图片生成图注的任务中,提升效果更加显著,经过ArXivCap训练的Qwen 7B模型可以匹配甚至超过GPT-4V。 灰色结果由数据集中500个样本的测试得到 论文提出了三个新定义任务:多图的图注生成、上下文中的图注生成以及标题生成。经过ArXivCap训练的Qwen 8B的所有分数都超过了GPT-4V,且多数情况下是最佳结果。 最佳结果以粗体显示 按照研究领域划分,ArXivQA数据集上的训练在天体物理、凝聚态物理、数学、计算机科学这些领域都能带来相当显著的提升,超过60%,准确率变化比例超过60%。 人工评估 前面所述的文本生成质量和准确率都是基于算法的自动评估,研究团队还对单图的图注生成任务进行了人工评估,但只专注于计算机科学领域的论文。 与前面的基准测试结果相比,人工评估的结果并不理想,100个案例中只有16%被认为是「可接受的」,「上下文误读」的问题相对严重,也有一定比例的「过度简化」和「识别错误」。
大模型打开机器人觉醒之门!席卷新工业革命
作者 | 程茜 编辑 | 漠影 今年初,家用机器人Mobile ALOHA火爆出圈,炒菜、洗碗、扫地、逗猫、叠衣服样样精通,堪称全能管家;时隔半年,原班团队再度推出机器人自主导航基础模型Mobility VLA,机器人在公司转一圈就能听从人类语音指令,快速变身导航员。 像这样逐渐深入我们生活的机器人越来越多,做咖啡、打扫卫生、酒店配送,甚至连按摩、作手术、康复训练等诸多岗位上都出现了机器人的身影。 但即便如此,这些机器人也只是按部就班、听命行事,距离电影中高度智能的机器人形象仍相距甚远。 AI技术革命,并非一蹴而就,横空出世,而是在科技历史长河中持续地发生。2022年底,以生成式人工智能 ChatGPT为起点的大语言模型(LLM),带来人机对话交互变革。2024年,LAM(大型动作模型)正在起势,机器人觉醒新纪元来临。 具身智能已经在实际场景中落地应用,重构了生产关系,对生产力起到了颠覆意义,正在助推着新工业革命。可以说,AI为科幻电影中具有高度智能的机器人走出银幕搭起了阶梯。 作为新质生产力代表的具身智能联想晨星足式机器人GS应运而生,这也是大模型与物理世界交互的最领先成果之一,作用于现实世界,具身智能具有更深远的意义和影响。伴随2024/2025财年Q1财报,联想集团发布第三季硬核知识科普视频的第一集《具身智能:人工智能如何成为人》。 视频中采用了桌面电影形式的融合创新。极具《权力的游戏》风格的开场片头,以串联着机器人领域完整技术发展关系图谱的科技树为线索,带领观众在时间中穿梭,重新探索机器人科技树图谱下三个技术路径的竞技与角逐。在讲述中同时打碎重构桌面元素,让信息在观众、主角IP和桌面中流动传递。 此外,视频中以英国科技历史学家、生物化学家、中科院外籍院士李约瑟为原型打造的智能体,也是一大亮点。立足于2100年的赛博版李约瑟,以未来的第一人称视角首次为观众呈现具身智能完整的技术史观,也在其中展示了新工业革命时代的革命先锋——联想晨星足式机器人GS如何深入工业场景,看到联想集团使AI向实,帮助千行百业真正应用AI,释放生产力还智于业,完成变革,可谓是一支带有十足革命感和大历史观的视频大片。 自动播放 一、百年技术角逐碰撞,唤醒具身智能机器人 1959年,世界上第一台机器人Unimate被安装在汽车工厂的装配线上,彼时其只能完成辅助汽车生产的简单、重复任务;60余年后,各种类人、足式机器人出现,大型商超、工业园区的巡逻安防、全天候的电力巡检、消防应急救援、做咖啡等诸多场景都出现了机器人的身影。 与机器人形态发展的前提是技术的进阶,随着各项能力被慢慢点亮,机器人科技树逐渐枝繁叶茂。 从联想集团财报视频打造的科技树起点可看到,最先点亮机器人应用能力的是工业,在第一台机械手臂Unimate所在的技术路径上,数控技术、工业机器人、机械手臂等技术被点亮。 在此之上,斯坦福大学研究人员发明的Stanford Arm拥有6个自由度,奠定了工业机器人的标准化基础。20世纪70年代初期,第一台由电动机驱动的工业机器人FAMULUS问世,ABB机器人(原ASEA)推出IRB 6,世界上首台全电动微型处理器控制的机器人发布,使得工业机器人发展飞速,科技树的这一支线也走向成熟。 但机器人的形态就稳固于此了嘛?机器人科技树发展的第二条技术路径给出了答案。在“工业”技术路径发展初期,机器人另一条技术路径也开始萌芽——“移动”。 这条技术路径中最直观的变化就是机器人形态。1970年前后,美国斯坦福国际研究所开发了首台移动机器人Shakey,它可以做到自主感知、环境建模、行动规划并执行任务,不过当时受限于计算机体积以及运算速度,Shakey往往需要耗费数个小时完成任务。 机器人在移动领域的技术节点被点亮,并且实现了与工业机器人技术路径的交叉。这些贯穿着前后数十年历程的技术节点,铸成了机器人“觉醒之门”的钥匙,成为让机器人走出工厂、走进家庭、商场等场景的关键技术支持。 科技树的第三条支线“智能与神经”迎来爆发,这也正是打造出能满足人们对机器人终极幻想的关键条件。 1950年,内置光传感器、触摸传感器、推进及转向电机的电子乌龟诞生,可以摸索着向有光亮的地方前进,并在遇到障碍时改变方向,使得机器人展现出了拥有“生物智慧”的潜力。直到2016年,一场AlphaGo战胜李世石的世纪决战,成为机器人发展的标志性时刻。 在智能与神经与工业、移动三支技术支线相互碰撞的时刻,早在1950年就已经被提出的智能体、具身智能概念,今年终于展现出了成为现实的可能。 二、嵌入大模型与体验,联想具身智能“上岗”三大场景 如今“以机器人之躯,承载AI的灵魂”,已成为当下这一产业的热门议题。 智慧最先只出现在虚拟世界当中。 早年间,DeepMind连发三篇论文,阐释了通过机器学习教导AI自主学习走路;OpenAI基于强化学习让智能体掌握了各种捉迷藏套路,并掌握了多种隐藏策略。后来,麻省理工学院的研究小组基于机器学习技术,让“粘液”机器人具备了改变形状完成复杂任务的潜力,于是大模型和物理世界产生连接。 这就是视频中提到的“离身智能”,视频中呈现的这场1963年的实验,说明了“离身智能”与“具身智能”的关键区别。 实验中笼子里的两只猫,一只可以主动正常行走,另一只只能被动行走,最后的结果是被动行走的猫无法应用对环境深度感知的能力。 因此,实现具身智能最关键的就是自主感知、亲身体验,这也是扩宽机器人在产业场景中应用空间的先决条件。 机器人此前被应用于具体场景时,往往只能依赖于在软件中学习的经验,或者仅完成简单的重复性任务。但对于危险系数高的环境、人不方便进入的狭窄危险区域而言,机器人需要更高的智能属性,才能应对这些场景,并真正辅助人类完成任务。 正如我们在视频中看到,从科技树中具身智能这一节点走进现实的还有联想晨星足式机器人GS,就是当下机器人承载AI灵魂,并能真正满足企业对于新质生产力的急迫需求的集大成者。 联想集团要做的是真正让懂人话、会规划的机器人走出实验室,落地到场景中——还智于业。 联想晨星足式机器人GS已经从单纯的听令行事,演进为可通过理解自然语言执行复杂任务,且能够自主纠错应对特殊情况。 根据面对开放动态环境提出的具身导航框架,机器人可以基于大语言模型理解自然语言指令,将复杂指令分解成不同的动作序列,然后机器人基于状态、任务需求协调动作网络。 在执行任务、规划行走路径时,机器人通过大模型和长短记忆可以推测目标方位,从而结合3D语义地图给出的物体关系对制定目标进行搜寻。 此外,联想集团还利用了生成式AI建立典型场景的随机环境并加入物理引擎,采用强化学习训练机器人行走和探索,优化探索策略。 在形态的设计方面,联想晨星足式机器人GS也始终服务于落地应用这一终极目标。 不同于常见的四足设计,它基于六足实现了三角静态稳定步态,拥有能应对全地形的移动能力,爬楼梯、过斜坡、穿越崎岖路面都不在话下。 另外,运动过程中的稳定,也能保证搭载在其之上的传感器采集到的图像清晰、稳定、一致性强,并能减少磕碰,延长使用寿命。 同时,机器人实际应用场景中为了完整复杂任务往往需要搭载机械臂辅助完成,但受限于稳定性等因素,人形、四足机器人等可搭载的机械臂重量有限,而联想晨星足式机器人GS负载能力达到100公斤级,因此在实际场景中的应用空间更大。 工业巡检操作、应急救援支持、野外勘测任务这三大场景则成为其率先落地应用的任务。 在工业巡检操作中,联想晨星足式机器人GS可以实现自主巡检、定位故障、收集数据,以提供工业设备的运行效率和安全性。应急救援支持时,会遇到一些极端天气,达到IP66防水等级的足式机器人可以在灾难现场快速响应,实现救援搜救、物资运输等任务。面对野外地形勘探任务,它还能实现高效精准的地形测绘、资源勘探、环境监测。 还有,联想投资的清华系机器人创企星动纪元,已经成长为国内人形机器人产业的代表企业,开发了具身智能人形机器人全栈技术架构,推出了全尺寸人形机器人XBOT。在不依赖预先编程和遥控操作的情况下,XBOT能完成全自主任务实现和规划导航。 此外,人形机器人Figure 02也开始“进厂打工”。不仅外形更像人,还能实现与人类语音对话。Figure 02可直接作用于汽车工厂的生产制造环境,已具备执行通常对人类工人具有挑战性的复杂任务的能力,如将钣金件插入特定固定装置这一汽车底盘组装中的关键步骤。 这一刻机器人的技术革命与场景应用的成果已经达到了新的阶段,人形、足式、轮式以及各类仿生形态的机器人落地到工业场景中,打通物理与信息世界边界的标志性时刻到来。 三、联想集团使AI向实,为生产力变革注入强劲动力 联想集团首款晨星机器人到如今的晨星足式机器人GS,在形态、能力变迁中已经变为了一台拥有感知、思考和行动能力的智能体。 可以说,联想晨星足式机器人GS是前沿技术与落地应用,在当下这一发展节点碰撞出的必然成功。 再看视频中的科技树,其技术延展的进程正在从终身智能、情感智能、伦理与公平到仿生手指,让这些人类曾赋予无限想象空间的智能体将成为现实。 或许在未来某个时刻,伴随着机器人科技树枝桠继续延伸,最终的智能体将与人的形象接近重合,从而实现技术狂想与现实世界的交织。 AI领域的技术突破与落地应用的研究一直齐头并进,人工智能革命正在发生,我们亲身感知到的,或许只是其中分支,而具身智能在新工业革命中有着更深远的意义和影响。联想集团董事长兼CEO杨元庆说道,联想集团要做的就是: “让人工智能走下云端,真正落地,走进千家万户千行百业。” 联想集团实现机器人从辅助决策、能力增强到实现产业应用落地的变迁。使AI向实,推动了AI社会的进程,让AI与千行百业紧密连接。 真正的AI时代应该基于以人为本、多元丰富的智能技术理念,将效率优势和创新优势兼收并蓄,释放个体的创造力和生产力,使经济与社会发展的动能倍增,从而构建人本智能的璀璨未来。联想正围绕着“Smarter AI for all” 的愿景,催化助力AI落地应用。
AirPods 和三星新耳机上这些小心思,是耳机交互的秘密武器|硬哲学
爱范儿关注「明日产品」,硬哲学栏目试图剥离技术和参数的外衣,探求产品设计中人性的本源。 如果从初代 AirPods 问世算起,真无线蓝牙耳机(TWS)已经井喷式发展了将近 8 年,从一个没那么大众的品类,成为了几乎人手一个的生活必需品。 至少我身边来说,很少有不使用蓝牙耳机的同龄人。 但当我发出疑问,你们知道怎么用无线耳机切歌、调音量和开降噪吗?有不少人才第一次才知道这小玩意儿还能切歌。 有人对操作的了解停留在单击暂停,双击切歌,但更多的操作就不太记得了,又或是觉得这些操作实在难用,索性直接掏出手机。 耳机操作,越来越抽象 这是三星 Galaxy Buds 初代,也是我用过的第一款 TWS 耳机。 我和它之间的交互,仅限于放入耳朵,然后和我的 iPhone 手机配对。 直到一天,我的手指不小心碰到了耳机外壁,耳机「嘟」了一声,然后我发现正在放着的音乐,暂停了。 在为发现新大陆欣喜之余,我又觉得这实在值得吐槽,如果不看说明书,谁能想到这个富有光泽的表面,还是让用户进行交互的触控区呢? 同理,前两代 AirPods 也存在类似问题,但 AirPods Pro 和 AirPods 3 换成了按压交互,并在耳机柄上增加了一个「凹槽」的设计,手指放上去很自然就会想着按下去。 而全新的三星 Galaxy Buds 3 系列,虽然撞脸友商的新外观连三星董事长都不太满意,但新「长出」的耳机柄赋予了它全新的捏合、滑动等操作。 上个月参加了三星发布会的小伙伴,在试佩戴 Galaxy Buds 3 的时候就发现,这款耳机全新的「刀锋」设计不只是凹了个新造型,不同于传统圆柱形的楔形结构,让他出于本能地就伸出两个手指滑动交互。 而他表示,不少友商的 TWS 耳机,都是他在用了很长一段时间后,才发现也可以通过滑动来调音量。 但至少,现在不少 TWS 耳机都有一个小小的凹槽提示用户可以交互,头戴式耳机才是真正的交互深水区。 我用了好几年的索尼 WH-1000XM3 耳机,如果不是专门进行了搜索,我根本想不到这个光溜溜的右耳罩,不仅可以点,还能划。 刚刚同事告诉我,还能「捂住」,作用是暂时开启环境声。 ▲ 在触控区域一个标识都没有的 XM3,图源:The Verge XM3 还有个很大的问题,那就是降噪功能键和开关机按钮都位于耳机的左侧,还都是长条形状。 两个按钮用久了会形成肌肉记忆,但是如果是刚拿到手,或者闲置之后再重新使用,每次要按这两颗视线之外的按钮,都有种在「赌」的感觉。 ▲ 一长一短两个按钮有点区别,但不多,图源:nehalist.io 一千家耳机厂商有一千种交互方式,用户换耳机的时候,常常发现难以无缝迁移:这家按压一下是播放,到那家又变成了轻点两下,还有一些只需要轻点一下。 加上现在大家买回科技产品大多开箱即用,说明书主要为了看个配对方法。而抽象难记的操作手势,很多时候过目即忘,用着用着又掏出手机,回到直观的可视化操作去了。 这不由得让人想起现在手机上「电源键」,或者说曾经叫「电源键」的那颗侧边按钮。 从前,这颗按钮按一下就能锁屏/亮屏,长按就能关机,已经成为用户的一种共识。 现在,双击可能会出来相机和钱包,三击或者五连击会报警,长按也许会出来电源菜单,也有可能是语音助手,甚至有时什么都不会发生。想关机?那可能得和音量键配套使用。 按钮越来越少,机身越来越一体成型是当下科技产品的趋势,但带来的体验却越来越「反人类」了。 戴森新的 OnTrac 头戴式耳机,佩戴使用极其舒适,只是如果想要开关降噪,就必须要用两只手指或以上大力敲击耳罩背面两次,成功率也不算高,最后我发现直接摊开手掌拍两次百试百灵。 但不管是哪种方式,给脑袋和耳朵整出来的动静,都快把人体工学加的分扣完了。 ▲ 图源:戴森 而索尼 WF-1000XM5 降噪豆的「轻触四下调节音量」,让人忍不住怀疑,产品经理自己真的用过这个产品吗? 「看不见」的交互 近 10 年前,曾经有这么一款标新立异的设备横空出世: 这款名为「VINCI 智能头机」的设备,来自一个中国的创业团队。在形态上,这款设备犹如一款在右耳罩外侧配备了手机屏幕的耳机,不仅可以联网,还能进行点歌、录音等等,团队表示是「另一个次元的产品」。 这个团队在 2018 年就几乎销声匿迹,原因恐怕显而易见。 VINCI 智能头机上的奇葩感,恰恰折射出耳机交互的本质:这个在你耳朵两侧、视线之外的设备,必须交互只能依赖记忆和直觉,而这个过程中,「直觉」的占比越多,这个「看不见」的交互就越接近优秀。 ▲图源:新浪科技 最符合人类直觉的一种交互设计,我认为是这个: 不管是想进行快速调整,还是精准把控,旋钮都能通过不同的转动幅度实现,这也是它和音响设备结缘深远的原因。 微软 Surface 这个品牌如雷贯耳,但你可能不知道这个同为「田牌」的 Surface 耳机: Surface 耳机系列在很多方面都不算出挑,却别出心裁地把耳机左右两侧做成「拨盘」,不仅能调音量,还能调「降噪等级」,通过一种致敬老收音机和音响设备的方式,实现了最符合直觉的交互。 旋钮本身也能做成一种按钮。像是 AirPods Max 和 CMF Buds Pro 充电盒上的旋钮,除了调音量的基本操作,还能通过按压来实现播放、暂停等功能,比对着一个光滑的表面「指指点点」要来得更直观。 ▲ CMF Buds Pro 2 充电盒上的智能旋钮,图源:Phone Arena 而上文提到的戴森 OnTrac,交互上更脑洞大开,配备了一个小小的操纵杆,左右能切歌,上下调音量,按压还能暂停/播放。 ▲ 图源:The Verge 这个操纵杆巧妙利用了我们平时使用播放器「左边按钮是上一首,右边按钮是下一首」、「往上是调高,往下是调低」得来的技术经验,降低了用户的学习成本。 无独有偶,最新的 Sonos Ace 耳机也有一个差不多的「滑动按钮」设计,除了不能左右拨动切歌,其他操作和戴森 OnTrac 类似。 ▲ Sonos Ace 耳机,图源:Wifi Hifi Magazine 其实,要把「看不见」的交互做好,最重要的无非两点:一是「形态」,二是声音、触觉上的反馈。 形态很好理解,像是刚刚提到的三星 Galaxy Buds 3 系列的楔形结构,就比前几代的光滑表面,更能引导用户进行交互。 AirPods Max 上的长条电源键和圆形旋钮也能实现盲按,用户不需要去回忆哪个按钮对应哪种功能。 如何做好交互的反馈,或许是更加考验厂商的难题。 小到难以搭载马达来提供触觉反馈的 AirPods Pro,单纯靠极具迷惑性的提示音,硬生生把一个平面给模拟出了按压感。 ▲ 过了一段时间,我才发现 Airpods Pro 是没有给按动做物理反馈的,图源:The Verge 戴森 OnTrac 开关降噪的方式虽然槽点满满,但反馈是一种类似抽出/塞入密闭容器塞子的模拟音,在特别之余,也比普通的「嘟嘟」声更符合用户直觉。 触摸屏时代,点击、滑动已经成为刻在我们 DNA 里的交互方式,但在研究看不见的脑袋两侧,或许还得靠按键和模拟创造舒适体验。 最好的交互或许是不需要交互 但对于 TWS 无线耳机来说,超迷你的体积难以配备更多按钮,在交互设计上限制不小。 苹果可能也有所察觉,因此有爆料称,苹果正在探索 AirPods 集成摄像头的设计,有望实现隔空的手势操作,以及环境感知的能力。 像是 AirPods 这种 TWS 耳机,最大的优势就是「无感」:在同个生态内,用户不需要太多的交互,需要用的时候就直接塞入耳中,还能在设备间无缝流转,即点即听。 ▲ 图源:MacRumors 而红外摄像头+麦克风的感知能力,加上对各种场景的机器学习,未来 AirPods 或许能够更无感,基于环境自动调节耳机的音量、降噪,进一步减少交互。 比如,在人潮汹涌的地铁,就提高主动降噪的级别,但同时有针对性地凸显地铁播报的声音;而在相对安静的家中,可以关闭降噪,并降低音量保护耳朵。 ▲ 索尼 XM5 耳机能够进行部分降噪功能的场景自动化调节,图源:Sony 这些功能不一定需要一个新的红外摄像头,当下手机的地理围栏+场景感知功能,其实完全可以和耳机进行联动。 就像一到机场,手机会自动推送登机牌、登机时间等信息,那是不是也可以在飞行时间,让耳机自动保持比较强的降噪效果,或者到了电影院,就自动打开弱降噪,成为像 Loop 一样的降噪耳塞。 各家厂商正在布局的端侧场景化 AI,能够再读取用户信件、日程后安排好相应设置,自然也能学习用户在不同场景的耳机使用习惯,然后实现更人性化的自动调整。 ▲ iOS 18 上更聪明的 Siri,会学习用户个人信息,能够真正理解个人意图 也许比起方便地呼出 ChatGPT,真正的 AI 耳机更应该在「看不见」的地方,帮用户完成想要的交互,这也是更好的「交互」。
英特尔酷睿Ultra 5 245K处理器跑分首曝,单核性能直逼i9-13900K
IT之家 8 月 15 日消息,今天有一套基于七彩虹 iGame Z890 ULTRA 主板的测试平台出现在了 Geekbench 上,搭载英特尔酷睿 Ultra 5 245K 处理器。 Ultra 5 245K 很显然是 i5-14600K 的继任者,采用了 6 个 P 核和 8 个 E 核,共计 14 核 14 线程,基础频率 4.20 GHz,加速频率 5.2 GHz,并具有 24 MB 的 L3 缓存和 125W 的 (PL1) TDP。 该测试平台配备 32 GB DDR5 内存,运行 Windows 11 系统,在 Geekbench 5.4.5 Tryout for Windows x86 中单核得分 2248 分,多核 18354 分,全面领先于 i9-12900K。 作为参考, i9-13900K 在 Geekbench 5 中单核 2280 分,多核 25854 分,i9-14900K 单核 2410 分,多核 26901 分。 如果与 i5-14600K(2210/15533 分)相比,这颗处理器多核提升了 18.1%,但单核方面仅提升了 2%。不过,考虑到目前只有这一个跑分样本,我们暂时无法将其视为普遍性代表。 酷睿 Ultra 5 245K:14 核 / 14 线程 / 4.2~5.2 GHz / 24 MB 缓存 / 125W PL1 酷睿 i5-14600K:14 核 / 20 线程 / 3.5~5.3 GHz / 24 MB 缓存 / 125W PL1 英特尔预计将会在明年 On 技术创新大会上推出三款“Arrow Lake-S”处理器,即酷睿 Ultra 9 285K (F)、Ultra 7 265K (F) 和 Ultra 5 245K (F),但今年晚些时候也会分享更多关于 Arrow Lake 桌面处理器的详细信息。 CPU 架构 C/T P 核 / 全核 E 核 L3 缓存 PL1 Ultra 9 285K Lion Cove / Skymont 24/24 5.7 / 5.4 GHz 4.6 GHz 36 MB 125W Ultra 7 265K Lion Cove / Skymont 20/20 5.5 / 5.2 GHz 4.6 GHz 33 MB 125W Ultra 5 245K Lion Cove / Skymont 14/14 5.0 / 5.2 GHz 4.6 GHz 24 MB 125W Ultra 9 275 Lion Cove / Skymont TBD TBD TBD TBD 65W? Ultra 7 255 Lion Cove / Skymont 20/20? TBD TBD TBD 65W? Ultra 5 240 Lion Cove / Skymont 10/10? TBD TBD TBD 65W?
歌尔股份,杀回来了
文|韩 湘 歌尔股份创始人姜滨大概不会想到,自己能从一名普通的技术员工脱胎成山东省的首富。而这背后,多是仰赖时代的潮流和苹果公司的垂青,个人的努力在时代、运气面前,总归显得渺小一些。 姜滨用了20年,将歌尔股份打造成苹果全球AirPods的第二大代工厂。2020年的姜滨,风光无限。 但很快,因境外大客户“砍单”暂停生产一款智能声学整机产品,歌尔股份又迅速滑落,营收、净利均出现同比大降。不用猜,这个境外大客户就是苹果。2022年这一年,歌尔股份的股价跌去近七成。 被苹果”砍单“之后,歌尔股份似乎陷入了诸事不顺的怪圈。2023年,歌尔股份营收和净利再度双双下滑。 2024年5月底,歌尔股份子公司歌尔微电子股份有限公司(下称“歌尔微”)终止了上市。 但好在歌尔股份一直在死扛中前进,如今几年过去似乎终见曙光。一份年报预告提振了投资者一点点信心。在2024年上半年,歌尔股份预计实现归母净利润11.81-12.65亿元,同比增长180%-200%。 8月14日晚间,歌尔股份正式披露2024年上半年经营业绩,披露的核心数据均处于预告区间内,其中尤以归母净利润大增190.44%引人注目。但「数智研究社」发现,歌尔股份2024年上半年净利润同比大增背后,是2023年同期较低的基数。2023年上半年歌尔股份归母净利润同步下降79.71%报4.22亿元。 拉长时间线看,2024年上半年归母净利润已经超过了2020年同期水平。在那之后,姜滨登上了山东省首富的宝座。 如今,歌尔股份似乎终于否极泰来,重新开启新的发展征程了。 生死大客户 歌尔股份的发展壮大进程中,一直都有苹果的身影。 2010年,歌尔股份就打进了苹果产业链,并为苹果提供声学组件、有线耳机等产品。得益于和苹果的合作,加之当时智能手机市场的飞跃式发展,歌尔股份的业绩迎来大爆发。 到2016年,苹果推出了革命性的耳机产品AirPods。2019年,歌尔股份正式进入AirPods组装业务,次年便已经成为全球AirPods第二大代工厂。得益于AirPods的产品市场大爆发,2019年歌尔股份的营收、净利增速双双接近50%。 机会都是苹果给的,歌尔股份的厉害之处就是抓住了机会。 但有机会便有风险。苹果不会把”鸡蛋“放到同一个供应商旗下,多元化的供应链策略避免了对单一供应商的依赖,牢牢掌握住了对供应商的话语权。竞争在供应商中间展开,比如和立讯精密合作,以减少对富士康的依赖。鹬蚌相争,渔翁得利。 2022年,歌尔股份突然发布收到境外大客户“砍单”通知的公告。公告称歌尔股份将暂停生产其一款智能声学整机产品,其他产品的项目合作不受影响。但这一消息发布后还是引发了市场广泛的关注。 最明显的影响反映在财报上了。2023年歌尔股份营收下降6.03%,归母净利润10.88亿元,同比下滑了37.8%。在2021年,歌尔股份的归母净利润超过了42亿元。 对于2024年上半年的业绩,「数智研究社」发现,12.55亿元的归母净利润中,有超过7亿元来自歌尔越南公司,仅有5亿多元来自于国内。也就是说,歌尔股份的业务大头还是在代工苹果TWS耳机。这也是歌尔股份业绩再度复苏的核心原因。 只是,歌尔股份用并不十分乐观的描述展望了未来消费电子行业的发展。“缓慢复苏”这四个字意味深长,即便是苹果公司也难以逃脱“缓慢复苏”的魔掌。这四个字很大程度上意味着,接下来歌尔股份要做好“持久战”的准备。 再看看海外的汇率环境和并不繁荣的消费市场,歌尔股份的前景展望也并不明朗。杀回来是杀回来了,但未来宏观大环境变化是客观克制歌尔股份业绩变动的大因素。 摆脱苹果依赖的动作 “杀回来了”不仅意味着苹果TWS耳机对歌尔股份业绩做出的贡献,更大程度上体现的是,歌尔股份为摆脱苹果依赖症做出的产业布局,已经能产生效果和收益了。 届时,歌尔股份能真正挺直腰杆和苹果谈判,甚至再度遭到境外大客户“砍单”,也不用显得那般狼狈了。 歌尔股份为了摆脱苹果依赖,在智能硬件领域已经布局多年。 多年以来,智能声学整机业务一直是歌尔股份的第一大收入来源,但2021年悄然生变,智能声学整机业务的收入被智能硬件收入反超。到2023年,智能声学整机业务营收占比缩水至25%左右,智能硬件业务的营收占比则接近60%。 2024年上半年404亿元营收中,智能声学整机业务营收为127.89亿元,占比为31%;智能硬件业务营收198.46亿元,占比50%。目前,仅仅依靠半年报业绩还无法得出苹果是否在智能声学整机业务上加大了订单量。 至于歌尔股份的智能硬件业务,核心是VR、AR产品。2016年被称为“中国VR元年”,但其实早在2013年,歌尔股份就与索尼PlayStation VR眼镜签订了部分研发、代工业务。 同时,经过多年的布局,歌尔股份也与华为、三星、苹果等全球大厂建立了合作关系。凭借着对于VR、AR的早期投入,歌尔股份极有可能从中受益。2024年,苹果公司发布了创新产品Vision Pro头显。作为苹果公司的首款头显产品,Vision Pro被寄予厚望。歌尔股份也成为Vision Pro代工厂之一,负责供应声学部件、遮光眼罩以及外接电池模组等。 只不过比较可惜的是,最终拿到Vision Pro组装订单的代工厂不是歌尔股份,而是立讯精密。虽然Vision Pro的年产量在2024年只有不到50万部,但歌尔股份应该很难从立讯精密嘴里抢过来这块蛋糕。 除非,当下AI的火热带动VR、AR和AI的赋能结合能产生行业新的变数。这不,Facebook母公司Meta将在今秋的Connect大会上发布第一款真AR眼镜,谷歌母公司Alphabet和智能眼镜公司Solos也透露出了布局AI+AR形态的产品。这是对歌尔股份的大利好,歌尔股份在研讨会上也多次交流过这个领域的新机会。 总而言之,面对未来AI赋能VR、AR领域,歌尔股份还是有很大的机会的。当下除了积极研发布局外,最重要的就是等待需求大爆发的那一刻。
苹果秘密机器人曝光!7000元一台
编译 | 李水青 编辑 | 云鹏 智东西8月15日消息,据彭博社报道,苹果内部近期确定了一项代号为J595的优先项目,将设计一款桌面机器人,预计最早2026年亮相,售价1000美元(约合7159元人民币)左右。 据曝料,这款机器人将融合iPad显示屏和机械臂,搭载Siri智能助手及Apple Intelligence(苹果智能)功能,提供智能家居控制中心、视频会议助手等服务。 该项目是苹果CEO蒂姆·库克(Tim Cook)力排众议支持的项目。项目最早启动于2022年,在苹果内部颇受争议,工业设计团队、硬件工程团队、软件工程部门和营销团队对此各执一词,推进不畅,直到近期才被重新提上日程。 目前,苹果已为此组建了一支数百人的研发团队,由苹果技术副总裁凯文·林奇(Kevin Lynch)全权负责。林奇曾在2015年推动首款苹果手表成功上市,并于2021年起监督汽车项目进展,但汽车项目在2024年初被苹果终止了。负责HomePod智能音箱开发的马特·科斯特洛(Matt Costello)正领导桌面机器人项目的硬件研发。 除了桌面机器人,苹果还在探索家庭移动机器人及人形机器人领域,部分由机器人专家汉斯·沃尔夫拉姆·塔佩纳(Hanns Wolfram Tappeiner)主导,他目前管理着约100名前汽车团队工程师。 苹果此番向机器人技术的迈进,是其提振销售业绩、深化Apple Intelligence应用战略的重要举措。 一、库克力挺的秘密项目,苹果AI的机器人新载体? 近期,据知情人士透露,苹果现已决定将桌面机器人的开发列为优先项目。 据悉,该项目以J595为代号,于2022年获得苹果高层批准,并在近几个月内显著加速推进。产品计划最早在2026年或2027年进行首次亮相,目标将价格控制在约1000美元左右。 按照苹果的计划,这款桌面机器人将通过Siri和Apple Intelligence来实现操控。 比如,设备能响应如“看着我”等指令,通过调整屏幕位置来聚焦对话者,特别适用于视频通话等场景,它还能识别不同声音并自动调整焦距。目前测试机运行的是iPad OS的定制版本。 ▲苹果桌面机器人设备意在超越已停产的Meta Portal等产品 据知情人士介绍,这款设备被构想为智能家居的指挥中心、视频会议助手及远程家庭安全监控工具等。 多年来,苹果的工业设计团队一直在探索桌面机器人。但公司内部的软件工程部门和营销团队对此存在异议。苹果的营销团队担心消费者对这类产品的接受度和支付意愿不高,同时高级软件工程负责人也对开发所需的人力投入感到忧虑。 但是据曝料,苹果CEO蒂姆·库克(Tim Cook)和公司硬件工程主管约翰·特努斯(John Ternus)都是该项目的坚定支持者。 目前,桌面机器人的功能设计正持续调整中,据项目参与者透露,相比最初设想,部分功能已有所缩减,整个开发过程可谓跌宕起伏,有如乘坐过山车一般。 二、前苹果汽车负责人带队,​苹果手表、音箱等数百人加盟 为展现对项目的重视,苹果已指派公司技术副总裁凯文·林奇(Kevin Lynch)全权负责该项目。 ▲苹果技术副总裁凯文·林奇(Kevin Lynch) 林奇曾在2015年推动首款苹果手表成功上市,并于2021年起监督汽车项目进展,后者累计成本投出超100亿美元。随着2024年汽车行业发展放缓,苹果终止了的汽车项目。现在,他主要向苹果的AI主管约翰·詹南德里亚(John Giannandrea)汇报工作。 据曝料,林奇近期招募了多位得力助手,包括曾助力Apple Watch推出的关键成员,以及知名的机器人研究专家和工程师,共同投入到这款桌面机器人的研发中去。 苹果硬件工程团队也深度参与其中。特别是负责HomePod智能音箱开发的马特·科斯特洛(Matt Costello),他正领导桌面机器人项目的硬件研发。 值得一提的是,苹果还在探索家庭移动机器人及人形机器人概念。 这些项目部分由机器人专家汉斯·沃尔夫拉姆·塔佩纳(Hanns Wolfram Tappeiner)主导,他目前管理着约100名前汽车团队工程师。 本月,苹果发布招聘公告,透露有一个团队“致力于利用和发展前沿的机器学习机器人研究,以创造通用且可靠的机器人系统”。公司正在寻找具有“机器人操作”经验的专家,以及能为机器人控制构建AI模型的专业人才。 结语:重启机器人项目,苹果亟需新增长点 苹果在机器人领域的探索被视为其寻求新增长点的重要途径之一。苹果在智能家居领域的拓展目前遭遇重重:HomePod智能音箱的市场表现不及亚马逊和谷歌的产品,Apple TV机顶盒也落后于Roku等竞争对手。 不过,桌面机器人项目在苹果内部仍不乏质疑之声,很多人担心这款设备难以吸引消费者,因为它跟平板电脑功能有些重叠。比如苹果新推出的Vision Pro虽融合了VR/AR技术,但其核心功能仍不乏iPad的影子。 除了桌面机器人,苹果的移动机器人和人形机器人进展如何,也许更受到产业关注。此外,苹果也在探索一些其他较为亲民的产品线,比如智能眼镜、带摄像头功能的AirPods耳机、可折叠iPad等,这些无疑都是苹果用来提振增长的备选项。
AMD EPYC处理器份额创新高!收入占比已达33.7%
快科技8月15日消息,市调机构Mercury Research近日公布了二季度的AMD处理器市场份额变化,整体继续攻城略地,尤其是在服务器市场上稳步提升,又创造了新纪录。 当季,AMD处理器出货量份额占比达为21.1%(不含物联网/半定制),环比、同比分别提高0.5个、3.8个百分点;按照收入计算的话份额为18.1%,环比、同比分别增长1.8个、4.0个百分点。 EPYC系列处理器所在的服务器与数据中心领域,是当季AMD势头最猛的,增幅惊人。 按照出货量计算,AMD EPYC在服务器市场上的份额来到了24.1%,比今年第一季度提高了0.5个百分点,对比去年同期则大涨了5.5个百分点。 按照收入计算,AMD EPYC更是已经拿下了33.7%的份额,超过三分之一,对比今年第一季度提高0.7个百分点,对比去年同期飙升了足足6.6个百分点。 这些数字,都创下了AMD在服务器市场上的新高度。 AMD EPYC自诞生以来,份额增长的势头从未停止,也看不到停止甚至减缓的迹象。 更令人惊叹的是,AMD EPYC的赚钱能力更强,在更昂贵的高端市场明显占优,不到四分之一的出货量就占据了超过三分之一的收入,你细品。 目前,Zen 4、Zen 4c架构的EPYC 9004、EPYC 8004系列产品布局完备、覆盖面广,包括标准版的Genoa、3D缓存高性能版的Genoa-X、高能效高密度的Bergamo和Siena。 其中,Genoa EPYC 9004系列属于通用型产品,可提供最多96核心192线程、384MB三级缓存、4.4GHz加速频率。 Genoa-X EPYC 9004X系列额外加入了AMD首创、独有的3D堆叠缓存,最大768MB,叠加原生缓存总量首次突破1GB大关,非常适合需要超高计算性能的场景。 Bergamo EPYC 9704系列首次采用了精简版的Zen 4c架构,它和Zen 4是完全相同的架构设计、IPC性能、ISA指令集,只是精简了部分缓存,提高了能效,并做到了对手遥不可及的128核心256线程,还有256MB三级缓存,适合高密度云服务领域。 Siena EPYC 8004系列同样是Zen 4c架构,最多64核心128线程、128MB三级缓存,主打基础设施和智能边缘计算领域,也是AMD首次针对这一细分领域打造定制产品。 无论是核心数量、缓存容量等性能指标,还是能效表现,以及市场和应用的针对性,第四代EPYC都达到了空前的高度,对比竞品更是“遥遥领先”,在高性能计算、边缘计算、人工智能、云服务、5G与通信基础设施、虚拟化等各个领域都正大展拳脚。 如此优秀的产品,自然获得了越来越多客户的认可,尤其是在高端领域站稳了脚跟,市场份额持续增长,收入随之水涨船高。 可以预料,等到2024年第三季度乃至后续的数据出来,AMD EPYC仍然会是一片欣欣向荣的景象。 另外,AMD在笔记本处理器和桌面处理器同样取得不俗成绩,均有增势,不仅经受住市场的考验,同时得到了用户的广泛认可。预计在下半年AMD有望收获更多市场,尤其是EPYC能继续达到怎样的新高度,尤为值得期待。
华为回应Mate 60系列手机降价:若用户在活动前购机,可申请价保
IT之家 8 月 15 日消息,华为终端今天宣布,Mate 60 系列手机全平台调价,其中 Mate 60 直降 500 元,Mate 60 Pro 直降 800 元;且 nova12 活力版也降价了 300 元。 据南方财经,华为相关工作人员表示,目前 Mate 60 系列确实有这个降价活动,若在降价活动前购买了相关产品,客户可在时效期内申请“价保”,进行差价返还。 简单来说,华为商城自营商品若发生降价,用户可以在订单签收前(已出库到签收)和订单签收后次日起 7 天内进行价保申请,现金将于订单签收后 5 个工作日内原路退回,积分立即返还。 IT之家现汇总 Mate 60 系列手机价格如下: 华为 Mate 60 12GB+256GB 版本 4999 元 12GB+512GB 版本 5499 元 12GB+1TB 版本 6499 元 华为 Mate 60 Pro 12GB+256GB 版本 5699 元 12GB+512GB 版本 6199 元 12GB+1TB 版本 7199 元 华为 Mate 60 Pro+ 16GB+512GB 版本 8099 元(100 元券) 16GB+1TB 版本 9099 元(100 元券) 华为 Mate 60 RS 非凡大师(官网并未调价) 16GB+512GB 版本 11099 元(100 元券) 16GB+1TB 版本 12099 元(100 元券) 华为 Mate 60 Pro 采用 6.82 英寸的 OLED 曲面屏,屏幕分辨率为 2720 × 1260 像素,支持 1-120Hz LTPO 自适应刷新率;内置 5000mAh 电池,支持 88W 有线超级快充;后置摄像头为 5000 万像素超光变摄像头(F1.4~F4.0 光圈,OIS 光学防抖)+ 1200 万像素超广角摄像头(F2.2 光圈)+ 4800 万像素超微距长焦摄像头(F3.0 光圈,OIS 光学防抖),前置摄像头为 1300 万像素超广角摄像头(F2.4 光圈)+ 3D 深感摄像头。此外,Pro 版机型还首发第二代昆仑玻璃,支持卫星通话功能等。 华为 Mate 60 标准版正面配备 6.69 英寸单孔直屏,分辨率为 2688 × 1216 像素,支持 1-120Hz LTPO 自适应刷新率。该产品后置 5000 万像素超光变摄像头(F1.4~F4.0 光圈,OIS 光学防抖),机身内置 4750mAh(典型值)电池,支持 66W 有线超级快充。此外,标准版机型还支持双向北斗卫星消息功能、第二代昆仑玻璃、4 米 IP68 级防尘抗水等。 华为 Mate 60 标准版机型与 Pro 版机型相比,主要由曲面屏变为直屏,取消了 3D 深感摄像头,卫星通话降级为北斗卫星消息,防水等级由 6 米变为 4 米,长焦镜头由 4800 万像素超微距镜头变为 5 倍潜望式光学变焦镜头。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。