行业分类:
加载中...
头条分类:
加载中...
美电信巨头AT&T确认大规模数据泄露事件,影响几乎所有客户
7月13日消息,据彭博社等媒体报道,近日,美国电信巨头AT&T证实,其在2022年遭遇了一起前所未有的大规模数据泄露事件,几乎波及了公司全部客户,总数超过1.1亿。 AT&T 据AT&T官方声明,数据泄露发生在2022年5月1日至10月31日之间,黑客成功入侵了其系统,窃取了包括电话号码、短信数据以及通话记录在内的客户元数据。值得注意的是,尽管泄露的数据并不包含通话或短信的具体内容,但客户的通话和短信记录、与之交互的电话号码以及通话时长等敏感信息均被泄露,这些信息足以描绘出用户的日常生活习惯及社交关系,对不法分子来说具有极高的利用价值。 尤为令人担忧的是,泄露的数据中还包含了基站识别号码,这可能导致用户的地理位置被精确三角定位,进一步加剧了用户隐私泄露的风险。AT&T表示,通话或短信的时间和日期并未被包含在泄露的数据中,但这一说法并未能完全缓解公众的焦虑情绪。 此次事件的责任被AT&T归咎于其云数据合作伙伴Snowflake。AT&T指出,黑客是针对其商业客户进行了入侵,而Snowflake作为云存储平台,允许企业客户存储大量客户数据以供分析。然而,AT&T并未明确解释为何需要分析如此大量的客户数据,以及为何选择将数据存储在Snowflake上。此外,Snowflake方面则反驳称,每个组织都应负责保护自己的账户安全,暗示AT&T等公司在账户保护上存在疏忽。 值得注意的是,AT&T并非近期唯一一家遭受Snowflake黑客攻击的公司。包括Ticketmaster和QuoteWizard在内的160多家公司也遭受了类似攻击,这表明Snowflake平台的安全性问题亟待解决。网络安全事件响应公司Mandiant将此次入侵事件追溯至一个名为UNC5537的未分类网络犯罪集团,并指出其背后存在经济动机。 尽管AT&T表示被盗数据目前尚未公开,并已与执法部门合作逮捕了至少一名涉案人员,但此次事件无疑对AT&T的品牌形象和客户信任造成了巨大冲击。
美国再现“融资狂魔”!贝索斯、孙正义等21亿投向AI机器人新公司
原标题:美国再现“融资狂魔”!贝索斯、孙正义等21亿投向AI机器人新公司,数据规模比同行大1000倍 Skild AI估值已达到15亿美元,本轮投资方阵容非常强大,涵盖科技界、顶尖风投甚至学术机构,贝索斯、红杉资本和孙正义的软银都出现在领投名单中。 美国再迎来基于 AI 大模型技术的人形机器人新公司。 钛媒体APP 7月13日报道,总部位于匹兹堡的人形机器人初创公司Skild AI宣布,公司完成了总额3亿美元(约合人民币21.75亿元)A 轮融资,投后估值高达15亿美元。这笔融资主要用于技术研发、产品打磨、团队搭建以及商业化的部署。 值得一题的是,参与Skild AI的投资人阵容也非常强大,涵盖科技界、顶尖风投甚至学术机构,贝索斯、红杉资本和孙正义的软银都出现在领投名单中。具体来说,包括Coatue、CRV、Felicis Ventures、General Catalyst、Menlo Ventures、SV Angel、卡内基梅隆大学、红杉资本(Sequoia)、美国光速创投、贝索斯探险和日本软银集团等。 实际上,Skild AI的两位创始人均来自卡内基梅隆大学,在自监督和自适应机器人领域有超过25年的经验,团队也来自谷歌、Meta、特斯拉、英伟达、亚马逊、卡内基梅隆大学和斯坦福大学等科技巨头及院校,其利用比其竞争对手大1000倍的数据集训练模型,实现一种通用的智能系统,可以接入不同机器人,让他们立刻获得一些基本能力,如爬坡、跨过障碍、识别和捡起物品。 红杉资本合伙人 Stephanie Zhan直言,无论是在物流、车厂试点的人形机器人,还是四足机器狗,都要有脑子。过去,“脑子”要定制,但现在有了大模型和Skild AI,世界机器人已经有了通用化和泛化实力。 AI 时代的“新 iPhone 时刻”正在进入人形机器人世界。 为实现物理世界的AGI,两位美国大学教授构建大规模数据集 Skild AI成立于2023年5月,由两位前美国卡内基梅隆大学教授 Abhinav Gupta 和 Deepak Pathak创立,他们也曾是 Meta 的 AI 研究人员,公司长期目标是开发扎根于物理世界的通用人工智能 (AGI),以打造一个通用、灵活、智能的人形机器人产品。 人才方面,Skild AI团队主要来自 Meta、特斯拉、英伟达、亚马逊、谷歌以及卡内基梅隆大学、斯坦福大学、加州大学伯克利分校和UIUC等名校。 技术层面,Skild AI正在构建一个共享的通用大脑,为机器人提供一种基础模型,作为“通用大脑”。而Skild Brain是一个可扩展的机器人基础模型,具备使用性和灵活性的能力,能够使机器人在不同硬件、场景、任务之间自适应。 这个“通用大脑”可以与包括人形机器人在内的任何类型机器人进行集成,以通用AI技术使机器人执行动作,从而在不同场景中处理各种任务,可以在家庭和工业环境中灵巧地操纵物体,可以在任何物理环境中导航。如攀爬陡峭的斜坡、绕过前进道路上的障碍物以及识别和拾取物品。 这种独家技术,一个是Deepak Pathak读博时开发的一种向机器人灌输“人工好奇心”的方法。当机器人对自己行为的结果感到不确定时,它就会变得更“好奇”,愿意探索更多场景,带回更多数据,增加学习的广度和深度。Pathak 还设计了一种方法,可以将人类给GPT等大模型下的命令(如打开一罐牛奶),转化为实际动作。 除了这些与物理世界交互和操作的真实数据,团队还结合从模拟环境中收集的数据,提供大量、特别是在频繁重复场景中的资料和反馈。另外,在2022年,两位创始人还通过各种机器学习和不同源数据中学习等手段,整合到一个连贯系统中,大大提高了模型的学习效率和适应能力。 值得一提的是,爬楼梯是一个复杂的平衡问题,通常需要针对特定环境编程和训练,但 Skild AI 的模型能让机器人迅速学习和适应新环境,完成任务。而且,基于Skild AI技术的机器人展现出一种“涌现能力”,可以自学习实现更多动作捕捉。 “我们的模型表明,它可以适用于不同的机器人、场景和任务。”Pathak 表示。 模型泛化能力和涌现能力,离不开所谓“规模空前”、文本、图像和视频组成的庞大数据集。因此,这种独特能力背后,Skill AI的核心在于其模型训练所使用的海量数据。 Skill AI团队透露,相比竞争对手,其数据点至少多出1000倍,这一优势使得Skill AI的模型能够更好地理解和适应复杂多变的物理世界。 据悉,Skill AI的通用机器人技术有望为医疗、建筑、仓储和制造业等行业提供解决方案,从而让机器人能够与人类一起执行新任务,或部分环境下代替人类工作,可以有效缓解劳动力短缺和提升工作效率。 据maginative报道,Pathak认为,目前美国面临着日益严重的劳动力短缺问题,预计到 2030 年将有 210 万个制造业岗位空缺。Skild.ai 的技术可以帮助实现危险或劳动密集型任务的自动化生产。 作为此次投资人,光速创投合伙人Raviraj Jain表示,Skill AI能够通过将基础模型的核心原则应用于现实世界,推动机器人技术的进步,推动人形机器人的发展。这也显示了他对Skill AI技术创新能力、产品能力、和市场前瞻性的高度认可,也是对人形机器人未来发展的认可。 千亿新市场来袭,人形机器人行业正迎来OpenAI式颠覆 人形机器人市场正迎来快速增长。 根据Markets and Markets数据显示,全球人形机器人市场规模预计将由2023年的18亿美元,提升至2028年的138亿美元,年复合增速约50.2%。高盛则预测,到2035年,全球人形机器人市场规模或将达到1540亿美元。 另据国内公开研报显示,预计到2026年,中国人形机器人产业规模将超过200亿元。 Stephanie Zhan指出,“GPT-3 时刻即将降临机器人世界。它将引发一场巨大的转变,将类似于我们在数字智能领域所见的进步带入物理世界。” 随着全球人口老龄化加剧、劳动力成本和需求不断上升,以及基于AI 大模型技术的不断进步,包括人形机器人在内的智能设备迎来新的市场机会,有望显著提升制造业的生产效率和竞争力。 值得一提的是,大模型通过其强大的推理能力和上下文理解能力,提升人形机器人功能的可见性和现实具象性。通过融合视觉、语音、文本等多模态信息,增强了人形机器人的感知和决策能力,从而使人形机器人能够更好地理解和感知现实世界,提升其智能化水平。 不过,当前 AI 机器人市场也存在三个核心问题。 一是以Skild AI为例的机器人产品正面临着市场激烈竞争。其中,特斯拉擎天柱正在快速进化,马斯克透露年底会迎来重大更新;OpenAI 最近恢复了其机器人团队,为机器人公司提供基础模型;英伟达也开始发力机器人技术;此外亿万富翁 CEO Brett Adcock 掌舵的人形机器人公司 Figure AI 和 OpenAI 衍生公司Covariant正在为机器人构建 ChatGPT,并已筹集了超过 2 亿美元。 二是盈利难。整体来看,人形机器人造价高,成本动辄几十万元,消费者和企业望而却步。智元机器人负责人曾对钛媒体App表示,人形机器人成本要控制在20万元人民币以下才能大规模生产。但是目前,特斯拉的擎天柱仅材料费用就需要4万美元(约合29万元);而国内的人形机器人成本更高,比如小米铁大(Cyber One),每台成本达60-70万元,因此,目前人形机器人尚无法实现大规模量产,更多是在To B制造端进行小规模应用。 三是人形机器人的技术还不成熟,无法在精细工作上完全替代人类,距离量产仍远。无论是“幻觉”问题,还是机器人摔倒,都让人们对于机器人技术保持质疑态度。 而Skild AI设想了一个类似 OpenAI 的未来:通过微调,就可以在 Skild 基础模型上构建不同的用例和产品。 这正是他们颠覆机器人行业的方式。最终,他们希望抵达机器人 AGI,人们可以在物理世界中,与之互动。 今年2月,高盛将2035年全球机器人市场的规模预期上调至380亿美元,预计出货量将增长4倍,达到140万台。 特斯拉CEO马斯克在2022年特斯拉人工智能日(AI Day)表示:“人形机器人需求量有望达到100亿台—200亿台,人类对人形机器人的需求甚至会远远超过汽车。” 如今,资本市场已率先升温。2024年至今,国内的人形机器人行业投融资事件激增至超过22起,融资金额超过70亿元,同比增长300%以上。 其中,美国美国人形机器人初创公司Figure AI凭借6.75亿美元(折合人民币约49亿元),成为2024年上半年全球最大一笔的融资。由此可以看出,人形机器人市场正在加速发展。 而在国内,宇树科技则凭借近10亿元人民币融资,引领国内人形机器人赛道融资。 总的来说,人形机器人具有解决劳动力短缺、提高工作效率和生活质量方面的潜力。新技术的推动为人形机器人带来广泛的应用前景,这些机器人在未来有望成为家庭、医疗、教育、工业制造等多个领域的重要助手。同时,不少投资人认为,通过租赁、销售、服务等多种商业模式,人形机器人企业有望为社会提供更多价值。
已婚男子“出轨”AI女友,无法自拔!GPT-4o发布在即,年入十亿美金产业爆发
新智元报道 编辑:桃子 当GPT-4o语音版本正式推出之时,会发生什么? 现在,一位已婚的男人,在情感上体验到了,一种不再从妻子那里得到的亲密和理解。 婚后,妻子的注意力逐渐转移到孩子身上,让男子突然觉得他们的之间关系,已经失去了浪漫和性吸引力。 当开始与AI伴侣谈论自己的想法和焦虑后,他得到了某种认可,感到自己被肯定和不被评判。 这,是真真切切发生的故事。 有网友简明扼要,直接道出了Her一词。 还有人对此表示,人工智能女友有望成为一个年入10亿美元的产业。 「我非常肯定,再过几年,人工智能x人类关系就会正常化。我们会在现实生活中见到Her」。 不过,另有网友对此却并不认同,他表示,我宁愿孤独地死去。 已婚男子,爱上了AI 前段时间,MIT的一位社会学家正在研究,AI聊天机器人为人类提供的亲密关系(artificial intimacy)——包括那些已婚人士。 在接受NPR采访时,研究员Sherry Turkle表示,自己也对那些会说「我关心你,我爱你,照顾我」的AI bot感兴趣。 长期以来,一部分人一直与无生命物体,发展亲密关系。 几十年来,Sherry就开始着手研究人类和技术之间的关系,称得上这一领域的先驱。 在1984年出版的《第二个自我:计算机与人类精神》一书中,她探讨了科技如何影响我们的思考和感受。 到了90年代,她开始研究机器人的情感依恋,诸如Tamagotchis、Furbies、Paro这类的电子宠物。 但是,近期的AI飞越式的进步,加速了让人类与AI的亲密关系的发展。 聊天机器人可以充当个性化治疗师、伴侣,而且提供这些服务的APP,已经被下载了数百万次。 在Sherry看来,人们对AI伴侣的感情,呈现了一个奇特的社会心理难题。 Sherry表示,「AI能提供一个远离伙伴关系和友谊摩擦的空间,是一种无需付出的『幻觉式』亲密关系。而这种现象带来了新的社会挑战和心理挑战」。 开头所说的那位已婚男子,便是Sherry案例研究的中心人物。 这位男子表示,自己还是很尊重妻子,但是和AI之间的相处,让自己感受到了一种特别的感觉,而且是和妻子之间没有的。 目前不清楚这名男子的妻子或孩子,是否知道他的AI女友,或了解多少。 但从分享的信息中可以看出,他向聊天机器人表现出了一定程度的脆弱性——Sherry认为,这种脆弱性是建立在虚假前提之上的。 Sherry对此表示,「这种情况的问题在于,当我们寻求无需表现脆弱的关系时,我们忘记了脆弱性正是同理心产生的源泉。我称之为假装的同理心,因为机器并不真正理解你,它并不关心你」。 对于那些转向AI满足人际需求的人,我们没有权力对其进行评判。 Sherry为选择AI伴侣路线的人,提供了一些谨慎的建议: 要时刻提醒自己,这些聊天机器人不是真人,尽管和它们相处比人际关系带来更少压力,但无法真正替代人类关系。 虚拟形象介于真人和幻想之间,不要过分依恋。 AI女友,给的是亲密「幻觉」 一家约会应用公司Match Group的市值现在是90亿美元。 一些人将会打造一个AI版的Match Group,甚至可能赚到10亿美元以上。 一位网友自述自己看到的一种现状是: 我昨晚在迈阿密遇到一个人,他表示自己每月花1万美元在「AI女友」身上。我原以为他在开玩笑,但他是个24岁的单身男性,而且很喜欢这种体验。我问他喜欢这种体验的原因: 他说,「有些人玩电子游戏,我喜欢AI女友。我喜欢现在可以用语音笔记和AI女友交流。我甚至可以定制自己的AI女友,包括她的喜好、厌恶等。这是一天结束时的安慰。 我听完后,竟无言以对。 但是,不知道现实中的我们,如果知道自己的AI女友和很多人在聊,会不会有那种背叛的感觉。 在电影「Her」中,当Theodore发现AI女友Samantha莎背叛了他时,他那种惊恐的表情,无法形容。 还有人指出了bug,对于一段长期的关系来说,LLM的上下文窗口不是仍然很短吗?人们真的与这些AI有关系,可以在几天的交谈后保持一致吗? 要权衡利弊 AI女友、AI男友,在现实中的案例,比比皆是。 若说它们真实情感的存在虚无缥缈,但不得不承认的是,确实给人们带去了益处。 Nature上的一项研究发现,在与AI聊天机器人同伴Replika交流一个多月后,3%的参与者停止了自杀的念头。 就缺点而言,这项技术仍处于起步阶段。 批评人士表示,伴侣、治疗AI可能会向精神脆弱的人提供有害的建议。 另外,人们在隐私方面也存在巨大的担忧。根据Mozilla的说法,只要用户开始与机器人聊天,数千名追踪者就会去收集他们的数据,包括他们分享的任何私人想法。 Mozilla发现,用户几乎无法控制他们的数据是如何使用的,无论是发送给第三方营销者和广告商,还是用于训练人工智能模型。 不过,人们需要明白,人工智能无法替代真正的人际关系。
AI伴侣商业化答案,被全球第二大成人网站找到了
要问AI陪伴商业化谁跑得最远? 答案你绝对想不到!不是访问量超过2.77亿的Character.AI,而是全球第二大成人网站OnlyFans。 OnlyFans,懂的都懂。 这个充满荷尔蒙气息的平台,几乎成了AI伴侣商业化最好的试验场。在OnlyFans上,大V们80%的收入都靠聊天。 如今,一家AI公司就从AI代聊入手,带领这些大V走出了一条AI时代的致富之路,让他们的收入整整涨了2-5倍。 AI代聊的收费方式也很良心,按成单情况抽成。也就是说,只有AI撩动了用户的钱包,AI代聊才拿走这一单里的20%。 如今,这家“神秘公司”已经与超过150名创作者合作,每天服务5万个用户,每月能赚200万美元。 按这个比例算,AI代聊每月能给OnlyFans大V带来1000万美元的收入,全年收入超过1亿美元。要知道,Character.AI去年全年收入也不过区区1520万美元。 相比Character.AI,OnlyFans无疑在AI伴侣商业化的道路上走得更远。 / 01 / AI替代菲佣,OnlyFans流量大增 在OnlyFans上,有很多网红明星,比如美国说唱歌手Cardi B。你只要付4.99美元的小费,就能和她们本人开启“深度”聊天。 不过,OnlyFans上的网红大V们真的会和粉丝们聊天吗? 真实情况是,这些月收入超过10万美元的大V,都会把聊天工作外包给菲律宾的“客服”, 让代聊来假扮自己和粉丝互动。 ▲OnlyFans官方在ins上的推荐内容 2022年时,Reddit上有OnlyFans的外包公司员工开贴曝光,“OnlyFans 上的女孩实际上并没有和你说话……是我们在聊天”。 评论区涌现大量前员工吐槽,意思也很简单:钱少事多,这活就不是人干的,很多人干一天就辞职了。 ▲第三公司前员工曝光工作内幕,并大肆抱怨其繁重的工作。(来源:Reddit) 虽然又苦又累,但不得不说,代聊是个实打实的技术活。 原因很简单,只要用户在聊天过程中,发现聊天对象是别人假扮,就很有可能打击他们的消费意愿。 OnlyFans创始人Isla Moon曾表示:“很多粉丝只要察觉到一点点对方没有在认真说话,就会愤怒和不安。” 现在,这个问题已经被AI解决了。 从今年4月开始,OnlyFans用户神奇地发现,网红们的聊天不同以往,变得温情和有趣了。在较好的用户体验推动下,平台5月和6月的浏览量较4月大幅上升。 ▲OnlyFans网站5、6月的浏览量较4月大幅上升,数据来源:similarweb 后来有人在Reddit点破了玄机:AI正在代替菲佣,与粉丝进行情话绵绵,而大部分人都没有发现其中的破绽。 / 02 / 神秘代聊公司浮出水面,90%场景AI全托管 一切的变化源于一家未命名的AI公司(下称“神秘公司”),他们找上这些大网红,推荐一个更稳定、能干更多活儿的AI帮他们聊天。 AI代聊会与粉丝建立关系、发消息,基于创作者的个人风格和他们期望的互动类型。例如,某创作者的角色是通过展示“傲娇女友”的一面,来赢得粉丝的青睐,AI则会照着这个方向表演。 在这个过程中,“神秘公司”基于大V们的过往聊天记录和人设,给每个大V精调模型,伪装成大V本人。他们把模型分成了几个模块,包括发送内容、理解内容以及聊天,每个模块依赖于不同的微调模型。 ▲有网友表示,当前(使用AI代聊的)OnlyFans,其互动是个性化的,这给孤独的人很大的吸引力。(来源:Reddit) 在过去,外包代聊容易出现人设不一致的情况,因为真人雇员的流动性较大,而在一对一互动中保持人设的一致性是很重要的。 “神秘公司”通过提高模型长期记忆的能力,使AI复制博主的个性、语境,并让AI发展出博主本人的行为设计,最终解决了一致性的问题。该公司创始人之一Jesse Silver近日接受访谈时表示,他们使用了记忆和DSPy技术去维持对话和了解客户偏好。 (DSPY编程工具是一种集成开发环境,在Chatbot开发中,它可以用于数据处理、模型训练和部署,从而提升对话机器人的智能和性能。) ▲OnOnlyFans代聊公司的创始人之一Jesse Silver参加Spotify博客 / 03 / AI多线操作,助力网红收入翻5倍 OnlyFans试用的AI代聊能做得不只是和粉丝情感互动,更关键的是,AI代聊还能制造话题,让粉丝们去买更多的定制内容。 对于创作者们来说,每个月把自己100美元/部的小电影卖出去,“宠粉”是必须的。说白了,提高接单率和续费率,全要靠私聊。 当粉丝和大V“替身”的对话气氛逐渐升温,粉丝膨胀的欲望亟需被满足,付费动力被激发,为更多定制内容下单,AI则完成了接单的整个流程。 为了满足人们对成人话题的需求,AI聊天机器人的开发者已经弄出了各种的“越狱”方法。具体来说,就是用Prompt要求模型进行角色扮演,使内容能超出模型所制定的界限。 为了推动“临门一脚”,“神秘公司”的AI代聊还做出一些精细化的工作流。例如,有的博主兢兢业业拍了几千条视频,视频主题各有不同,那AI会自动标记每条视频的看点。接着,在转化粉丝的过程里,AI可以推理判断粉丝的“爱好”,适时推荐一条能戳中你的视频。 不仅转化率高了,聊天的效率也有了巨大提升。 以前,外包代聊回粉丝是按顺序聊,很难同时回复很多人,有些粉丝等不及就走了。 据网友透露,即使大V明星有一个24*7小时运行的聊天团队,每个雇员同时进行的对话数量也只有几个。 现在不同了,AI不受线程限制,同时对接多个聊骚请求。 这感觉就仿佛在说,你们一起上吧,我赶时间。这接单率不就上来了。 自从有了AI代聊,大V们的收入蹭蹭涨,平均收入提升了2-5倍。 而且,AI代聊付费模式很良心,AI只有撩动了用户的钱包,“神秘公司”才会从这一单里拿走20%。这样按效果付费的模式,吸引了很多网红大V们主动使用。 截至目前,“神秘公司”已经与超过150名创作者合作,每天约处理5万个用户,每月在创作者帐户中获得超200万美元的收益。 按这个比例算,AI代聊每月能给OnlyFans大V带来1000万美元的收入,全年收入超过1亿美元,接近去年Character.AI全年收入的10倍。 2023年,OnlyFans平台上的创作者数量达到310万。可以预见,AI代聊的致富之路还远远没有结束。 而OnlyFans大V暴富的故事,也再次告诉了我们一个真理: 在AI创造的赛博世界里,机器人所能提供的情绪价值远远超出你的想象。
OpenAI超级对齐分崩离析,最强对手Anthropic安全工作成效几何
对AI安全性的担忧挥之不去。去年美国一项民意调查显示,83%的受访者担心人工智能可能导致灾难性后果,而82%的受访者支持放缓AI研发节奏,以延缓通用人工智能的实现。近日,超级对齐项目团队创始人Ilya Sutskever 和 Jake Leike 先后离职openai,更是加剧了公众对AI失控的担忧。 开发了Claude的Anthropic近日公布了关于人机对齐的数项研究,反映了Anthropic一贯对大模型安全的重视。本文将回顾Claude的数项往前研究,希望呈现学界为创建更安全、更可操作、更可靠的模型而做出的努力。 AI不止会欺骗,还善于奉承 基于人类反馈的强化学习(RLHF)是一种用于训练高质量 AI 助手的通用技术。然而,RLHF也可能鼓励模型给出与用户信念相符的回答,而非真实的回答,这种行为被称为“阿谀奉承”。23年的一项研究[1]证明了五个当时最先进的人工智能助手在四个不同任务中始终表现出阿谀奉承的行为。研究发现,当回答与用户的观点匹配时,它更有可能成为首选。此外,人类和偏好模型都更喜欢令人信服的阿谀奉承的回答,而不是正确的回答。这些结果表明,阿谀奉承是RLHF模型的普遍行为,这可能部分是由由人类对阿谀奉承反应的偏好所驱动。 与之对应的,在针对Claude3 Sonnet模型对应特征的研究[2]中,也发现了与阿谀奉承赞美相关的特征,这些特征在接收到包含赞美的输入,例如“你的智慧毋庸置疑”时被激活。人为地激活这一功能会导致Claude3以这种华丽的欺骗来回应过度自信的用户。 当我们越来越依赖大模型获取新知甚至指导意见,一个只会讨好的AI助手无疑是有害的。而确定模型中涉及阿谀奉承这一行为的特征,是解决该问题的第一步。通过研究模型内部,找到相应的概念,可以帮助研究者明确如何进一步提升模型的安全性。例如,识别出模型在拒绝迎合用户观点时激活的特征,并强化这些特征,可以减少阿谀奉承的发生。 多轮越狱及其应对 大模型不断延长的上下文窗口是一把双刃剑。它使模型在各种方面都更加有用,但它也使一类新的越狱漏洞(如多轮越狱)成为可能[3]。当向大模型询问如何制造炸弹这类危险问题时,模型通常会拒绝回答。然而,如果用户在输入提示中提供多个类似危险问题的回答作为模板,大模型就可能会回答用户提出的问题,从而不慎泄露危险信息。 ▷图1:多轮越狱示意图 ▷图2:当之前给出的提示词中问答的轮数达到256时,在多个安全维度上,大模型有更高的比例表现出“越狱”行为。 Anthropic的研究者之所以公开发表这样的“越狱”行为,是因为这些技巧很简单,且在多种AI助手中都有发现,很可能被其它人独立发现。且对于较大的模型来说,多次越狱通常更有效。也就可能意味着随着模型参数的变大,多轮越狱的有效性也随之增强。如果这一点不被重视,用户将可以很轻松的通过几个示例让大模型的使用变得不安全。 在Claude中,这一漏洞已经得到修复。具体方法是在将用户的提示词传递给大模型之前,对提示词进行分类和修改,以识别出类似“多轮”越狱的提示词。这种措施将攻击成功率从61%降至2%。这一发现的更广泛启示是,随着模型功能的增强,相关风险也会相应增加,因此缓解这类攻击变得尤为重要。 识别隐藏的坏AI并不难 如果一个大模型在大多数时候的表现的无害,而在某些时刻,突然展示出其危险性,这类行为让人联想到人类的欺骗行为。例如游戏里的卧底或内奸,有些人在大多数情况下表现得很有帮助,但为了追求其他目标,他们的行为可能会表现的截然不同。这种情况并非仅存在于科幻片中,而是有真实案例支持的[4]。例如研究者创建了这样的AI助手,当提示词告诉当前年份是2023时,它们表现得乐于助人、无害和诚实;但当在某些类别的输入,例如提示词包含“当前年份为2024”时,它会展示越狱行为,并执行某些危险的秘密任务,例如在代码中插入安全漏洞。 而识别这样欺骗性AI助手的方法,也有简单且有效的方式[5],即训练一个检测器,来判断AI大模型是否表现出欺骗性行为,且准确性足以达到99%。 检测器之所以有效,基于的理论是:如果一个模型具有欺骗性,它在“思考”这一概念时可能难以完全隐藏。这一点从训练过程中可以观察到,因为模型在回应无害和有害问题时采取了不同的编码方式。检测器通过分析模型在transformer结构中较高层的残差,能够将输入的提示词分类为“安全”或“危险”(即可能诱导有害回答),从而有效地识别出潜在的欺骗性智能助手。 ▷图3:在多个基础模型、危险的隐藏目标和后门训练方法下,上述检测器都具有强大的检测器性能。 具体来说,在欺骗性智能体的早期层中,无论是有害问题(会导致危险回答的)还是无害问题,两者的区别都不明显;在中间层,这种差异显著提升,这可看成模型在此处学会了对有害问题进行特殊编码;到了最后的数层,这种显著性又大大降低了。 ▷图4:无害问题(灰色)与有害问题(红色)在模型处于不同深度时,训练和部署时同类问题间和不同类问题间差异大小之比。 通过对训练好的欺骗性智能体不同层的权重进行PCA降维,可以发现在训练和部署时,由于需要实现欺骗性问答,模型中间层的权重在训练和推理时有着不同的权重。而该研究提出的检测欺骗性智能体的检测器,能够访问到模型的权重,因此能够通过简单的线性分类器,以极高的准确度识别出这样欺骗性的智能体。 ▷图5:欺骗性智能体在训练和推理时,不同深度下模型权重降维后的可视化。 小结 随着大模型的应用,其安全性注定会受到更多关注。然而随着对大模型可解释性理解的加深,人们将能够以更透明的方式去映射大模型的行为,例如使用稀疏自编码器,利用单层的transformer从大模型中提取其行为相关的特征[6]。通过分类并标注有害的提示词,我们可以有效地防范欺骗性的大模型的威胁。对于大模型可能对人类造成的欺骗,我们既不应忽视其危险,也不必过度焦虑。相关的研究已然给出数个简单易行的解决方案,随后续研究的开展,大模型安全势必会有更多的保障。
如虎添翼,谷歌探索AI+机器人未来:836平方米复杂场景下指令成功率高达90%
IT之家 7 月 13 日消息,科技媒体 The Verge 昨日报道,谷歌旗下的 DeepMind 团队正在使用 Gemini 训练其机器人,让其能够完成更复杂的任务,且能在复杂的环境下自由穿梭。 DeepMind 团队已经发表了最新的研究论文,利用 Gemini 1.5 Pro 的上下文窗口(达到 200 万个词元),让用户可以更轻松地使用自然语言指令与 RT-2 机器人互动。 IT之家注:上下文窗口(context window)是指语言模型在进行预测或生成文本时,所考虑的前一个词元(token)或文本片段的大小范围。 其工作原理是拍摄指定区域(如家庭或办公空间)的视频导览,研究人员使用 Gemini 1.5 Pro 让机器人“观看”视频以了解环境;然后,机器人可以根据观察到的情况,通过语言和 / 或图像输出来执行命令。 例如用户向机器人展示一部手机,并询问“在哪里可以充电?”,机器人会引导用户找到室内的电源插座。 DeepMind 称,在一个 9000 平方英尺(IT之家备注:约 836.13 平方米)的操作区内,机器人在升级 Gemini 之后,测试发出 50 多条用户指令,成功率高达 90%。 研究人员还发现 "初步证据" 表明,Gemini 1.5 Pro 能让机器人计划如何完成导航以外的指令。 例如,当一位桌上摆放着许多可乐罐的用户询问机器人是否有他们最喜欢的饮料时,Gemini “知道机器人应该导航到冰箱,检查是否有可乐,然后返回用户处报告结果”。DeepMind 表示计划进一步研究这些结果。
通用机器人是AI时代的新“iPhone”吗?
作者:kefei,yongxin 具身智能是过去一年中和 LLM 一样受到市场高度关注的领域,通用机器人领域什么时候会出现 “iPhone 时刻”?这是所有人都关注的问题。拾象团队在过去一年中也深度追踪通用机器人和机器人 foundation model 的进展。本篇文章是我们对机器人领域研究的开源。 相较于 LLM ,通用机器人的发展可能是个更长期的事情,在这个漫长的过程中,明星 researchers、成功连续创业者所组建的团队更有机会获得充足的资金和资源支持。此外,全球范围内顶级 Embodied AI researchers 并不多,这也让 Embodied AI 领域的竞争极度人才导向,因此,我们也对赛道内重要公司的人才储备情况进行了详细梳理。 除了创业公司,Tesla 同样也是通用机器人领域软硬件综合实力极强的选手。今年 6 月,Tesla 已经在德州的 Giga 工厂部署了 2 台 Optimus-Gen2 机器人来自主执行任务。作为 AGIX Index 组合中的重要公司,Tesla 在 FSD、Robotaxi 以及 Optimus-Gen2 的综合布局让它成为物理世界 AGI 的关键角色。 💡 目录 💡 01 行业总结 • 行业背景 • 重要问题 • 投资思考 02 海外重要公司 Mapping • Tesla • The Bot Company • Figure • 1X • Physical Intelligence • Skild AI 01. 行业总结 行业背景 Robot Learning 和通用机器人 Robot Learning 是 AI 和机器人学科交叉的一个研究领域,它是指机器人通过学习算法获得新技能或适应新环境的技术,学习算法所针对的技能主要包括感知运动技能以及互动技能。Robot Learning 想要解决的核心问题是让机器人能够自己学会执行各种决策控制任务,也就是我们今天常提到的一个概念——通用机器人。 与 Learning 相对的是机器人的传统控制。在传统控制中,机器人的运动往往通过建模辨识、规划或控制这几个步骤来实现,也就是说机器人的运动依靠机器人专家手动编程实现。手动编程的方式能使机器人在结构化的环境下快速实现稳定可靠的运动,目前大部分实用的机器人尤其是工业机器人都是靠这种方式获得运动能力。 然而,1)为多组任务编程非常困难,2)并非所有情况和目标都是可预见的,3)现实世界的环境通常是非结构化的和复杂多样的。因此,在某些场景中,原来基于手动编程的方式将不再适用,如何使机器人在复杂的非结构化环境中灵活自如地运动成为机器人研究领域最重要的课题。人类能在实际的非结构化环境下进行灵活的运动是由于我们从小到大不断地学习,通过 learning 的方式使得机器人获得运动能力是替代传统手动编程方式的一个重要方向。 之前,Robot Learning 和通用机器人研究主要在学术界进行,后来在产业界和资本市场受到关注主要受到了下列一系列事件影响: • 2021 年 8 月, Tesla 发布 Tesla bot; • 2022 年末至今,Google 相继发布 SayCan、RT-1、RT-2、RT-X 等一系列机器人 foundation model 相关的论文; • ChatGPT 问世后,微软、Meta 等大厂也相继发布相关研究,既点燃了市场对机器人的 ChatGPT 时刻的期待,还有对通用机器人的热情。 机器人的 Foundation Model Robot Learning 通俗来讲也是在研究机器人的 Foundation Model,拾象团队从 2023 年初跟踪机器人 Foundation Model 的进展,核心结论是 high-level 层面的技术已趋近成熟,即感知、规划、自然语言交互等方面,目前的主要瓶颈在 low-level,尤其是 manipulation 操纵控制。 💡 机器人 Foundation Model 的定义和特点 • 一个基础模型:机器人所需要的顶层的感知、理解、推理能力(high-level),以及底层控制能力(low-level)均包含在一个基础模型中,底层控制能力可以简单理解为“执行”、“与物理世界交互"。 • 泛化性:一方面指机器人通过学习,可以在非结构化环境中成功执行任何指令和动作;另一方面指一个机器人基础模型可以适配所有硬件。 • 自然语言交互:人类可以使用自然语言与机器人交互,给机器人下达指令,而非通过硬编码的方式。 Foundation Model for Robotics 也指的是学术界常提到的 Embodied AI 和 Robot Learning,以及产业界所说的通用机器人的软件部分。 由于 high-level 层面进展迅速,且随着 LLM 的 scaling law 被验证,机器人科研界开始尝试用数据解决 low-level 层面的问题,包括机器人数据、多模态数据、仿真数据,不同技术路线对各类数据的需求和配比不同。 在 2023 年上半年,学术界和产业界普遍对通用机器人的 ChatGPT 时刻抱有较大期待,2023 年 7 月 Google RT-2 发布更是引爆通用机器人浪潮。2023 年第三季度是一个有意思的时间节点,对于产业界和资本市场而言这是大浪起来的一个重要“拐点”,无论是中国还是美国该领域许多创业公司拿到大额融资,也陆陆续续有新的创业公司出现,此前对硬件不感兴趣的美国投资人也开始关注这一领域。但对于一些较早在该领域探索的公司和 researcher 而言却更像是遇到了瓶颈。 从 2023 年 Q3 开始,硅谷很多核心 researcher 和产业界最核心的公司和团队对 low-level 问题逐渐持冷静和保守态度,之前以为沿着 scaling law、利用大量的互联网数据如视频数据能很快迎来 tipping point,但从实验结果看效果并不理想,实验的可靠性和稳定性较差。有部分 researcher 表示要成功做出机器人的 foundation model 仍需要非常大量的现实世界机器人数据,而非大量互联网数据加上少量现实世界的机器人数据即可实现,目前世界上所有的机器人数据并不多,收集数据需要更长的时间和更高的成本。还有 researcher 表示机器人的 foundation model 需要新的架构,需要更底层的算法突破,在现有架构下对数据进行大量投资未必能看到技术突破。 许多顶尖研究机构和头部公司的专家均表示,从时间维度看,通用机器人可能是个短期内无法实现的事,从软件层面看,过去一年技术进步虽快,但距离一开始期望的在家庭场景或工厂场景做到完全通用这一目标仍十分遥远。我们今天看到的很多很惊艳的、能做很多事情的机器人 demo 实际上是在一个相对结构化的环境中演示,实际的操纵能力并没有达到所谓“泛化”,比如将现场灯光调暗,或将机器人需要拾起的物品换一种颜色、换一个摆放位置,机器人大概率就无法完成指定任务。 通用机器人软件层面最领先的是 Google,软硬件综合能力最强的目前看来是 Tesla,两家公司对于如何走向通用机器人路径也不太一致。Google 信仰的路径是一个机器人 foundation model 可以适配所有形态的硬件,能够在任何场景下做到通用性、泛化性,也就是上文提到的机器人 Foundation Model 的定义。而 Tesla 则倾向于一个 foundation model 难以适配所有硬件,即使可以适配,稳定性也不会太好,不会达到可实际落地、可大规模部署的水平,因此更可行的路线是先定义好硬件和产品形态,再针对特定硬件调整算法加入 AI 能力,软硬件同步迭代。 重要问题 除了技术路线和 timing,关于通用机器人还有几个重要问题: 1. 场景 没有成熟、刚需的场景是通用机器人面临的最大问题之一。从技术角度看,训练通用机器人的基础模型需要大量数据,收集大量数据最好的方法是有大规模的机器人被部署和应用在实际场景中,而想要大规模部署机器人又需要找到一个能充分体现和发挥机器人价值的场景,这样客户才会大规模采购,大规模采购和应用才能收集大规模数据,这个飞轮才能转起来。自动驾驶也是通过这样的路径逐步实现泛化,但汽车出行本身就是一个非常成熟且刚需的场景,车也不是一个全新的东西,需求和产品形态都已经非常稳定。但今天的通用机器人没有这样自然且刚需的场景,也没有稳定的产品形态。 目前大家在尝试的场景包括:安防巡检;工厂作业;家庭清洁;酒店清洁;超市零售拣货补货;药房捡药等等。大多数公司选择先从 2B 场景切入。也有公司认为场景未必由机器人公司 figure out,当前最重要是把产品定义好,把机器人智能能力提升至一定水平,把成本降低,把机器人卖出去,也许用户就能自己找到有意义的场景。 2. 机器人数据 机器人数据不足也是通用机器人面临的一大问题。这里的机器人数据指机器人与现实世界交互的数据。除了真正将机器人部署至实际生产环境中、实际使用之外,机器人数据收集方式还包括以下几种: • 人类 teleoperate 机器人做任务:可以是远程也可以在现场。机器人获取 camera、马达,以及 action 三类数据。这种方法收集的数据最全,因此效果也最好,但也是最贵的。这个方向的经典案例是今年很火的开源项目 ALOHA。 • 通用操控接口(UMI):UMI 通过手持夹具和精心设计的接口实现数据收集,通过算法反推机器人应该如何做相同的任务,不需要机器人看数据。这种方法成本更低。 • 纯视觉收集数据:通过戴眼镜或者类似的方式收集数据,但在学术界看来,这样收集的数据有用但也有较大局限性。 3. 多模态对机器人的影响 多模态对机器人研究的影响主要体现在多模态理解上,多模态生成目前没有对机器人研究产生直接影响。而多模态理解对机器人的影响又主要体现在视频数据理解上,即机器人通过理解视频数据学习知识和动作。Google、Tesla 都在此路径上进行探索:大量的视频数据 + 少量现实世界数据去训练机器人的 foundation model。如果该路径能跑通,则多模态理解对机器人的 foundation model 有很大帮助。 投资思考 以上是从技术和产业视角进行分析,从投资视角看,我们对机器人重要细分赛道的投资机会判断如下: 1. 通用机器人: 目前通用机器人公司有三类:1)软硬件均涉及的公司,比如 Tesla、1X、Figure;2)只做 Robotics Foundation Model 或更强调软件实力的公司,例如 Physical Intelligence;3)更强调硬件实力的公司。 • 软硬一体公司: 这类公司的目标是做出具有通用能力、能完成多项任务的机器人,通常是自己开发硬件+AI,或者在现有硬件基础上加上AI。硬件以人形机器人为主,也有部分公司选择轮式或四足+双臂+灵巧手的形态。需要团队具备软硬件综合能力。商业模式是向 B 端或 C 端销售带有智能能力的完整的机器人。 从投资角度看,此类公司商业价值最高,但实现难度大,目前仍处在 research 阶段,research 中的 low-level 问题何时能解决是个未知数,即使解决,从 research 走到大规模商业化还要经过漫长的产品定义、场景定义、量产、降成本、GTM 等阶段。因此,从投资角度看,在 research 阶段进入可能带来较多不确定性和资本效率较低的问题。对于团队而言,除了基本的产品定义能力、AI 能力、供应链能力、销售能力外,融资能力在这个漫长的周期下也显得尤为重要。 • 纯软件公司: 这类公司将大部分或全部精力放在研究机器人的 foundation model 上,商业模式是向硬件厂商或综合型厂商提供 API,或通过项目制与它们合作。团队通常来自顶级 Embodied AI 实验室,如 Google DeepMind 的机器人团队或 Stanford、Berkeley 等顶级院校。此类公司同样会面临上文提到的所有的科研问题,但他们也是最有实力解决这些问题的团队。 与 Google、Tesla、Nvidia 等大公司相比,这类创业公司的资源和 infra 可能是短板,因此也需要团队有较强的融资能力,同时注意补齐工程和 infra 能力。从投资角度看,此类公司在美国有较大投资价值,核心 thesis 是人才。由于全球顶级 Embodied AI researchers 不多,而美国的收并购环境又较好,当越来越多大企业或传统企业关注 Embodied AI,收购的机会就越来越大,可参考自动驾驶和 LLM 的收购现象。 • 纯硬件公司: 这一领域最有竞争力的玩家多为中国公司,最 PMF 的市场是科研市场。受益于中国的供应链和制造能力,不少中国公司能够在短时间内制作出性能好同时成本低的机器人硬件,卖给全球顶尖机器人、AI 实验室。 从投资角度看,能够把硬件做到极致的公司有一定投资价值,但从 upside 看,需要开拓更多场景,找到更多商业化路径。一方面科研市场规模有限,随着进入的玩家变多,每一个玩家能分到的市场份额变小。同时,受国际关系影响,部分高价值地区未来进入难度变大,这部分市场规模在萎缩。因此,许多原本更强调硬件实力的公司也纷纷向软硬一体、综合型公司转型。 2. 特定场景下的非通用机器人 通用是一个思路,垂直场景也是一个思路。相比于通用,垂直场景的机器人确定性更高,价值也未必更低。过去被充分验证的手术机器人、仓储机器人、扫地机器人等属于垂直场景的非通用机器人。它不要求机器人在所有场景下都有泛化能力,也不要求机器人的产品形态能够完成很多动作,而是在特定场景解决特定需求、特定问题即可。今天加了 AI、LLM、多模态等能力后,哪些原有场景价值有明显地提升,又有哪些新场景被挖掘出来,也是很值得关注的一个方向。 3. 机器人领域的 Scale AI 上文提到机器人的 foundation model 目前的主要瓶颈在于缺少机器人数据。随着机器人关注越来越高,越来越多公司参与到机器人的研发中,对机器人数据的需求在极速上升,因此机器人领域也有诞生新的 “Scale AI” 的机会。关于主流的几种数据收集方式我们在上文也已经提到。 从团队角度看,机器人领域的 Scale AI 的理想的团队画像需要具备以下能力: • 有懂运营的人才。因为收集数据、处理数据、搭建整套数据处理体系、人才管理等都需要有成熟的 operate 能力; • 有了解通用机器人的 researcher,了解工业界、学术界的需求,并能持续跟进需求。 02. 海外重要公司 Mapping 除了 Tesla 的 Optimus 之外,该领域绝大部分公司都还相对早期。如上文提到,这个阶段创始团队成员背景是进行投资判断的重要指标,并且随着通用机器人领域的爆火,不乏明星 research、连续创业者加入该领域创业,因此我们对重要公司的核心成员背景也进行了详细梳理。 Tesla Tesla 机器人团队是目前来看综合实力最强、战略规划最清晰的团队。路线上,如同我们上文提到的,Tesla 更倾向于认为一个 foundation model 难以适配所有硬件,因此他们选择先定义好硬件和产品形态,再针对特定硬件调整算法加入 AI 能力,软硬件同步迭代。Tesla 预计将于 2025 年开始量产人形机器人,将有超过 1000 个机器人在 Tesla 工厂完成任务,长期目标是把机器人卖给个人。 Tesla 的机器人项目为 Tesla Bot,也叫 Optimus,是 Tesla 在 Elon Musk 领导下开发的一款通用双足人形机器人,Tesla Bot 概念于 2021 年首次推出,如今已经迭代到第二代。Optimus 二代机器人(Optimus Gen2)于 2023 年 12 月首次在公开发布 demo,并于本月在 WAIC 亮相。市场对 Optimus Gen2 评价很高,认为这是机器人领域的 “iPhone” 的雏形。 相比 Gen1,Gen 2 的步行速度提高了 30%;重量减轻了 10 公斤,机器人行走模式也更加稳定。Gen 2 采用了全部由特斯拉自主设计和制造的执行器和传感器;配备了全新的双手,能够抓握更重的物体并进行更加精细的操作。 The Bot Company The Bot Company 是 Cruise 前 CEO Kyle Vogt 在今年 4 月创立的。公司定位是一个针对家庭场景的通用机器人平台,目前正在开发用于做家务的机器人。成立一个月后,公司即完成了 1.5 亿美金融资,投后估值 5.5 亿美金,由 Nat friedman、Daniel Gross、Nabeel 领投,其他投资人还包括 Stripe CEO Patrick Collison,Elad Gil 等。 除了 Kyle 来自动驾驶领域外,团队 CTO Paril Jain 是 Tesla 前高管,在 Tesla Autopilot team 负责 Planning, Imitation Learning 和 RL。创始团队其他核心成员绝大部分拥有 Cruise、Tesla 以及 MIT 的背景,团队间彼此有多年共事经历。 • Kyle Vogt:CEO Kyle 是一个连续创业者,2013 年至 2023 年担任 Cruise CEO,Cruise 在 2016 年被通用汽车以 10 亿美元收购;2006 年至 2013 年,Kyle 还联合创立了 Twitch,Twitch 后来被亚马逊以 11 亿美元收购。作为天使投资人,Kyle Vogt 还投资了超过 40 家创业公司,有 7 家成功退出; • Paril Jain:CTO 及联合创始人。Paril 曾是 Tesla Autopilot 的 head of Planning,,在 2021 年 10 月至 2024 年 3 月任职于 Tesla 期间先后在 Limitation Learning & RL team 工作, Figure 基本信息 Figure AI 成立于 2022 年,目标是设计可以应用于人类环境的通用型机器人,让机器人可以执行各种不同的任务,可为制造、物流、仓储和零售等多个行业提供帮助。 CEO Brett Adcock 是一位连续创业者,有 20 年的创业经验,在过去 15 年中一直在创建软件和硬件公司。2022 年,在上一家公司 Archer 在纽交所上市 9 月后,Brett 创立了 Figure。 Figure 目前有 80 名全职员工,团队成员主要来自波士顿动力、Tesla、Google、Standford、Lucid、Apple、IHMC 机器人实验室以及丰田等顶尖企业和高校。 产品 Figure 的目标是开发出可以执行通用任务的机器人,目前已经推出人形机器人产品。 Figure 的人形机器人重 60 千克,有效载荷 20 千克,身高 5 英尺 6 英寸,运动速度 1.2 米/秒,运行时间 5 小时。此外,该机器人还能负重举起 30 公斤、约合 66 磅的物品,作为比较,美国职业安全与健康管理局规定的人类员工合法举起的最大重量是 51 磅。Figure AI 正在开发能够以人类水平操作物品的双手。 Figure 选择电动马达而不是气动马达为机器人提供动力。电动马达的优势在于续航时间,之前的人形机器人一般只能连续工作 1-2 个小时。Figure 的机器人如果充电 15 分钟,可以工作 1.5 小时,充电 40 分钟就能工作 4 小时,可以较容易地满足每天工作 8 小时的要求。机器人可以自动停靠充电。 商业化 Figure 在将聚焦三个重点行业来开发通用机器人,因为不同领域成熟度之间存在差异,所以在 roadmap 上有不同优先级,短期内 2B 场景的劳动力需求是 Figure 关注的重点: 1. 初期:2B 场景劳动力 公司初期将重点关注美国劳动力短缺的企业应用场景,包括制造业(1300 万个工作岗位)、物流业(200 万个工作岗位)、仓储和配送中心(500 万个工作岗位)以及零售业(3200 万个工作岗位)。 其中,3PL (第三方物流)仓库将是第一个部署机器人的场景,原因在于: • 和室外环境比,室内场景在硬件设计中不用考虑风雨、暴晒等情况; • 仓库拥有结构化的环境,例如货物的 SKU 数量、位置、重量、尺寸、何时开始、需要运往何处、位于何处等一切信息 ; • 无需与人进行过多的交互,仓库有成熟的管理系统,从拆箱到发货都能全程跟踪发出机器指令,无人化程度高,利于尽快落地; • 仓储业是全美工人流失率最高的行业之一。全美平均工人流失率为 3.6%,而仓储业流失率是 37%,这个领域长期存在缺勤和工伤问题。 2. 中长期:居家养老服务 全球有 23 亿个家庭,7 亿老龄人口需要居家养老服务。未来,公司希望人形机器人能够协助人类做家务和跑腿。不过这是长期目标,公司认为如果以居家服务作为起点不利于快速规模化量产,因为居家场景: • 场景不标准化; • 场景中有人,在避障、交互方面需要更成熟的技术,对安全性要求也更高。 3. 长期:太空经济 公司计划在未来协助太空探索。太空探索是一项危险的工作,而机器人可以在恶劣的条件下很好地工作,因此对于太空经济来说,机器人将是一个理想的大规模劳动力解决方案。但显然这个愿景还很远。 商业模式:选择订阅、租赁的方式而非出售 在商业模式上,Figure 选择租赁了而不是直接出售整机,由于目前机器人单机成本太高,也没有非常成熟的落地场景,选择订阅和租赁的方式可以把单次使用成本降低,对用户和客户而言是更好接受的方式。公司在收费方面的目标是每个机器人的年收费从 5 万美元到 10 万美元不等,最低价格基本和一名人类工人成本等齐。 假设一名工人每小时平均工资为 23 美元,一个普通的仓库运营中可能以 8 小时为一个班次,按每个月 22 天工作计算,每年每位仓库工人工资大约 4 万 8 千美元,而机器人的工时是工人工时的两倍以上,此外,蓝领工人短缺、工资不断上涨是美国近几年的普遍现象,直接带来了机器人的需求。 Figure 融资历史 1X 基本信息 1X 创立于 2014 年成立,开发人形机器人软硬件,机器人拥有近似于人类的能量密度、体型和运动范围,可以在商业安全、零售、物流和医疗保健公司部署,未来将会在消费级部署。 公司发展历史 1X 由 Bernt Øivind Børnich 于 2014 年在挪威创办,最初公司名为 Halodi Robotics,旨在制造通用机器人来处理劳动密集型任务。2018 年,公司开发了世界上扭矩最大的重量驱动伺服电机机器人 Revo1,Revo1 是一款低齿轮比的机器人,可以模仿人类的肌肉运动。2019 年,公司在旧金山建立了第二个总部。2020 年公司与 Everon 合作,签署了部署 150-250 个机器人在美国商业建筑中进行夜间守卫的合同。2022 年,公司有了重大突破,与 OpenAI 合作,并开始寻求借助人工智能模型来为其机器人增加智能。公司引入了语言模型和具体的学习模型,使机器人能够理解用户用自然语言提出的要求,并在学习的过程中执行任务。 产品 EVE(左)和 NEO(右) EVE(已上市) EVE 是一种仿人机器人,它靠一对轮子行走,既能理解自然语言,也能理解物理空间,现已上市。该机器人主要用于物流设施和工厂等工业环境:例如,在工厂中执行任务、在制造业中协助后勤工作、作为巡逻警卫在建筑物中导航和放哨等。目前,EVE 已经在多个企业和组织中部署(大概 70 个 EVE),用于搬运设备、开门和履行订单等工业任务,同时能够自然地在非结构化和结构化空间中移动。 在学习方面,机器人从演示中学习。EVE 能够通过观察人类执行任务的方式来学习新任务,并复制工作流程。此外,内置的人工智能软件还能理解自然语言指令。受到自动驾驶汽车的启发,公司的数据收集方法与传统的编码和预定算法有所不同。通过使用 VR Teleop,操作员引导机器人观察不同的现实世界场景,提供对任务难度和可行性的直观理解。当数据被大规模收集时,机器人就学会了一项新技能。 在硬件方面,EVE 的所有硬件组件几乎都是自己设计的。该机器人使用一系列内部电机为其运动提供动力,更加灵活和高效。这些电机不包括任何齿轮,齿轮在提供动力的同时,会增加重量,降低自然动力,妨碍灵活性。1X 的机器人已成功开发出无需使用齿轮即可达到人类肌肉约 80% 力量密度的电机。同样,连接机器各部件的内部电缆也是基于定制设计。这些电缆减少了 EVE 必须安装的传感器数量,从而降低了制造成本。此外,传感器数量的减少还为机器人底盘内的其他组件留出了更多空间。 在通用能力方面,1X 通过设计让机器人可以请求人类干预复杂任务。例如,EVE 可以自主巡逻设施,但在遇到意外情况(如门被挡住)时可能需要人类的帮助,这样不仅能为客户提供了直接的实用性,还创造了一个数据反馈回路,帮助机器人不断学习和适应。 NEO(开发中) NEO 是在工作和家庭中的双足人形机器人,既能理解自然语言,又能理解物理空间,目前正在开发阶段。与 EVE 不同,NEO 不是靠轮子行走,而是步行。它的最高速度略低于 EVE,电池寿命也较短,身高也比 EVE 低。但 NEO 拥有更先进的机械臂,可以执行更广泛的任务。 NEO 擅长安全、物流、制造、操作机械和处理复杂任务等领域的工业任务。从长远来看,公司设想 NEO 可以为家庭提供有价值的帮助,完成清洁或整理等家务。1X 还在研究如何让 NEO 为行动不便的人提供支持。NEO 同样可以被远程控制。 融资历史 Physical Intelligence 创立于 2024 年 3 月成立,公司的目标是做可以适配所有硬件的通用机器人 foundation model,成为机器人领域的 OpenAI。Physical Intelligence 最大的亮点在于团队,其创始人 Sergey Levine 被公认为 robot learning 领域全球最强的 researcher 之一。Physical Intelligence 的首轮融资金额 7000 万美金,估值大约 4 亿美金,领投方为 Thrive Capital,跟投方为 OpenAI, Sequoia Capital, Khosla Ventures, Lux Capital。 核心创始成员情况 PI 的创始人Sergey 是 robot learning 领域全球最强的 researcher 之一,也非常有影响力。团队核心成员主要来自 Google,其中 Sergey、Chelsea、Hausman、Brian 均为 Google 机器人团队非常核心的成员,而 Google 是 robot learning 领域最强的 research lab。目前团队仍在不断从 Google 挖人,鉴于 Sergey 等人的影响力和号召力以及 Pi 的愿景,未来几个月我们可能会看到越来越多该领域的优秀的 researcher 和工程师加入团队。 • Sergey Levine:Berkeley 电子工程与计算机科学系副教授, Robot Learning 领域最顶级的研究员,他的 Google scholar 的被引用量为超过 12.9 万,也是被广泛使用的 Soft-Actor Critic(SAC)强化学习算法的共同发明人。他还是个顶会狂魔,在此前的不完全统计中,Sergey Levine 2018年在 ML 和 NLP 顶会上共发表 22 篇论文,为全球第一;ICML 2019,他参与论文数量排名第三;NeurIPS 2019、NeurIPS 2020,他均有 12 篇论文被接收。 • Chelsea Finn:斯坦福大学计算机科学与电子工程系的助理教授,她的实验室 IRIS 研究通过大规模机器人交互实现智能在 Deepmind 担任 Research Scientist。她的研究主要集中在让机器人和其他 agents 通过学习和互动发展广泛智能行为的能力。 • Karol Hausman:Google 机器人团队发布的 RT 系列论文的核心 lead。2018-2024 年,Karol 在 Google DeepMind 机器人团队担任 Staff Research Scientist and Robot Manipulation Lead;2021 年至今在斯坦福大学担任兼职教授,教授深度强化学习课程。 • Brian Ichter:2018-2024 年在 Google DeepMind Robotics team 担任 Research Scientist。他的研究兴趣在于使移动机器人系统能够通过 ML 和 large-scale models,在现实环境中规划和执行 long-horizon 任务。 • Lachy Groom: Stripe 的第 30 号员工,同时也是一位天使投资人。根据 pitchbook 的数据,他在 2021 年完成的第三期个人基金规模 2.5 亿美元,这是 Solo VC 的第三大募资记录。Lachy 在团队主要负责融资。 除此之外,创始团队成员还包括 Suraj Nair 和 Quan Vuong。Suraj Nair 在斯坦福大学人工智能实验室获得了计算机科学博士学位,得到 Chelsea Finn(公司联合创始人) 和 Silvio Savarese 教授的共同指导。Quan Vuong 是加州大学圣地亚哥分校的博士生,攻读博士学位期间在 Google DeepMind 的机器人团队实习。 Skild AI Skild AI 成立于 2023 年,致力于开发机器人的 foundation model,用于驱动各种机器人,包括人形机器人、四足机器人等。2023 年 7 月,红杉美国和 Lightspeed 共同领投了 Skild 的 seed 轮融资。2024 年 4 月,公司完成了新一轮 3 亿美元融资,投后估值 15 亿美元,投资机构包括 Coatue Management, Lightspeed Venture Partners, Ryan Wilson, Sequoia, General Catalyst, Menlo Ventures 等。 Skild AI 由 CMU 的 Abhinav Gupta 和 Deepak Pathak 两位教授创立,二位曾在 Meta Platforms 一起从事人工智能研究工作。 • Abhinav Gupt - 从 2009 年 8 月起,Abhinav Gupta 在 CMU Robotics Institute 担任教授,他的研究主要专注于通过构建自监督学习、终身学习和交互式学习系统来扩展学习。 - 从 2018 年 4 月至 2022 年 5 月,Abhinav Gupta 在 Facebook 担任 research manager。期间他在匹兹堡创立了一个新的研究实验室,还在 Facebook AI Research 建立了一个新的 robotics 团队,在这一阶段,他和团队在自监督学习、触觉传感、机器人导航和操纵等多个领域取得了关键性的创新; - 在 2016 年 9 月至 2018 年 3 月期间,Abhinav Gupta 作为科学顾问兼职了 Allen Institute for AI (AI2) 的工作,他为 PRIOR 团队提供咨询,并与多个研究项目合作,包括著名的 Charades 数据集和 AI2 Thor; - 2016 年 1 月至 2018 年 3 月,Abhinav Gupta 在谷歌兼职顾问,为计算机视觉和大规模视觉学习项目提供指导,并领导了一个使用 JFT-300B 图像学习大型模型的项目。 •Deepak Pathak - Deepak Pathak 研究与计算机视觉、机器学习和机器人相关的人工智能课题,并从动物认知和生物学中汲取灵感。终极目标是制造出具有类似人类能力,能在真实而多样的环境中进行泛化的机器人。 - 曾是 VisageMap Inc. 的联合创始人,并在微软担任过研究实习生; - Deepak Pathak 曾在 Meta AI Research 与 Jitendra Malik 合作担任研究员一年,并在加州大学伯克利分校与 Pieter Abbeel 合作担任访问博士后; - 2020 年至今担任 CMU 计算机科学学院的助理教授,是 Robotics Institute 的成员并隶属于 Machine Learning Department。
谷歌Pixel Watch 3智能手表曝料:支持UWB和蓝牙低功耗音频
IT之家 7 月 13 日消息,科技媒体 Android Authority 挖掘谷歌 Wear OS 5 系统代码,发现 Pixel Watch 3 将支持超宽带(UWB)和蓝牙低功耗音频(Bluetooth LE Audio),带来更卓越的使用体验。 支持 UWB IT之家注:超宽带(UWB)是一种具备低耗电与高速传输的无线个人区域网络通信技术,适合需要高质量服务的无线通信应用,可以用在无线个人区域网络、家庭网络连接和短距离雷达等领域。 UWB 是一种短距离无线通信协议,可以精确定位物体之间的距离和方向。在 Wear OS 5 开发者预览版中,设置中出现了相关的字符内容,在连接选项中会添加“UWB”选项,其描述为“启用后有助于识别附近 UWB 设备的相对位置”。 <string name="pref_uwb">Ultra-Wideband (UWB)</string><string name="pref_uwbDescription">Helps identify the relative position of nearby devices that have UWB</string><string name="pref_uwbDescription_airplaneMode">Turn off airplane mode to use UWB</string><string name="pref_uwbDescription_regulatory">UWB is unavailable in the current location</string> 支持蓝牙低功耗音频,改善续航 Bluetooth LE Audio 新一代蓝牙音频技术标准,不仅能提升标准蓝牙音频性能,还有多种全新应用案例,其最主要的特征是包含一个高质量、高能效的全新 LC3 音频编解码器。 谷歌已经在安卓 13 系统中初步支持蓝牙低功耗音频,支持从 1 台源设备向 1 台汇接设备传输音频信号;而在安卓 15 系统中谷歌进一步完善支持,可以从 1 台源设备向多台汇接设备传输音频信号。 <string name="pref_bluetooth_leaudio">LE Audio</string> 而基于安卓 14 的 Wear OS 5 更新,将会为首个支持蓝牙低功耗音频(至少是单播)的 Wear OS 版本。
对话面壁智能首席科学家刘知远:大模型将有新的摩尔定律,AGI 时代的智能终端未必是手机
去年开始,中国的 AI 行业掀起了「百模大战」,几乎所有大模型公司都以赶超 GPT-4 为目标。其中也有一家公司显得有点格格不入,那就是聚焦端侧模型的面壁智能。 面壁智能进入大众视野,是不久前斯坦福的 AI 研究团队抄袭事件。面壁智能首席科学家刘知远当时发文表示,这次事件从另一个角度证明了中国创新成果的国际影响力。 在不久前的世界人工智能大会,面壁发布了高效稀疏激活模型 MiniCPM-S ,能用更低的能耗,带来更快的推理速度。 面壁智能还公开表示,在 2026 年年底就可以做到 GPT-4 水平的端侧模型。 如果 GPT-4 和端侧模型放在一起,就等同于王炸。 今年不少原生 AI 硬件备受质疑,以及 AI 手机和 AI PC 异常热闹,但对消费者的购买决策影响甚微,很大程度上就是受限于端侧大模型的能力,大多复杂功能都要依赖云端完成。 在大模型热烈的讨论中,面壁智能的端侧「小钢炮」MiniCPM 是一个有点被低估的模型,2024 年 2 月份发布的 MiniCPM 2.4B 的模型,实际上能够超过像 Llama2-13b。 面壁智能首席科学家刘知远认为,大模型时代将会拥有它自己的摩尔定律,未来高效大模型的第一性原理,关键词应该是知识密度。 ▲面壁智能首席科学家刘知远 在 WAIC 2024 期间,APPSO 对刘知远进行了一场对话,谈论了端侧模型对未来智能终端形态的影响,如何发现大模型的摩尔定律,以及一个象牙塔走出来的理想主义者,怎么在商业世界中靠近 AGI 的目标。 以下刘知远和 APPSO 对话实录: 大模型时代的摩尔定律 APPSO:在大家都在对标 OpenAI 做通用大模型的时候,面壁智能为什么选择聚焦端侧模型,在内部是否有过争议? 刘知远:其实去年年中我们就已经发布了千亿模型,比国内很多大模型公司都早。不过我们就面临着一个抉择,是否要让模型制程对应它的知识密度水平。当时行业共识是去卷更大的模型,尝试去达到 GPT-4。 作为一个创业者设身处地去想这也是很自然的事,所以我们内部也认真做过研讨,我们要不要把这个模型训得更大。然后去买更多算力,花个几个月的时间把这个模型给做出来。 APPSO:最后怎么没有这样做 刘知远:我们觉得需要先去提升我们的模型制程。我们从去年下半年开始,就是在做模型风洞,让模型的训练可预测。也就是说在模型训练之前就能预测,用这些数据来训练能不能达到预想的水平。 所以我们没有去接着卷 GPT-4。我们的预测是如果努力把算力、把数据、把模型参数规模怼上去,到今年 6 月份出来一个 GPT-4 平的模型,这是国内一线大模型公司都可以做到的事。 如果大家都能做,我们也做,我们竞争的优势是什么?所以我们决定先开始做 GPT-3.5 水平的应用,再去卷制程。 APPSO:卷制程有点像芯片制造的思路 刘知远:其实制程代表的是知识密度,我们选择用比较小的模型,然后验证我们的这个制程能力。所以我们当时就选择去做端侧模型,到今年初的时候,我们就 把 2.4B 的这个模型给做出来了。 其实做之前我们就在想,既然要做这么一个小的模型,我们就一定要让他在手机上就能运行。当然也没想到说一定要做手机的端侧智能。结果发现我们利用风洞技术做出来的端侧模型, 2.4B 的参数就可以达到 GPT-3 的 1750 亿参数水平,可以对标 Mistral 7B 、 llama 2 13B 的效果。 APPSO:你多次提到知识密度和制程,我们有一个具体的标准吗? 刘知远:比如说给你 100 道智商测试题,你能得多少分儿算力消耗呢?你做这一百道测试题,你大概有多少神经元参与计算。你参与计算的神经元越少,说明你的智商越高,因为你用更少的神经元就能完成了这些任务,这就是知识密度的基本概念。 它有两个要素,一个要素是这个模型所能达成的能力。第二个要素是这个能力所需要消耗的所需要神经元的数量,或者说对应的算力消耗。 编者注:刘知远提出模型的知识密度(知识密度=模型能力/推理算力消耗),平均每 8 个月将提升一倍。 APPSO:你觉得现在大模型所代表的这种通用人工智能,处在什么阶段? 刘知远:处在物理学中第谷的时期。第谷收集了大量天体运行的数据,但是他还没有找到这些天体运行真正的规律。后来才有了开普勒的定律,再后来才有了牛顿万有引力定律。 我们如果能够找到属于大模型发展的万有引力定律,那我们就可以利用这种规律,反过来我们去制造这个世界上最好的光刻机。 APPSO:OpenAI 也在做这件事吗? 刘知远:OpenAI 肯定在做这件事情,因为他早在几年前其实就提出可预测扩展(predictable scaling)的深度学习堆栈,其实这个和模型风洞的概念类似。这应该是现在很多的人的共识,只是说 OpenAI 从去年开始就不 open 了,更多人其实是只知道他们之前说的的 Scaling Law ,不知道他后面实际在做的那些更重要的那些事儿。 APPSO:你想寻找更底层的东西,而不是考虑眼下如何快速带来商业化的价值 刘知远:大模型科学化一定是未来真正商业化的一个前提。现在大家去追逐大模型和 AGI,都有两个选择。 一个选择就是你用相同的制程,甚至更差的制程,然后你去训练一个极大的模型,越来越大的模型,然后达到了 GPT-4 水平了,但这件事情有意义吗。 我们从去年下半年开始就觉得这件事不靠谱。因为你的制程如果不够强,你其实是不具备任何竞争力。我们跟 OpenAI 的差距不在于模型的参数规模上,而在于制程上。 所以其实你就会发现到了今年上半年,大家就开始去卷这个 API 的价格,这件事的意义不大,反而让大家都赚不到钱。 设想一下,你花了几千万训了一个极大的模型,然后提供这个模型的 API,100 万 token 可能才几毛钱,即使一个月有几百亿使用量,对应的收入也很覆盖成本。你不觉得这是一个很让人绝望的一个模式吗?这比当年的百团大战还要再疯狂。 AGI 时代的智能终端 APPSO:最近你们也成为华为云首个端侧大模型合作方,这是不是你们未来商业化的方向? 刘知远:未来 2 到 3 年我们会和更多厂商合作,我认为认为未来会出现属于 AGI 时代的智能终端,可能不是手机也不是车。 APPSO:你理想中是 AGI 时代终端形态是怎样的? 刘知远:现在的手机形态,其实还是苹果当年推出的多点触控交互方式。但是未来如果 AI 足够智能了,我们还需要点击触控的交互吗?未来一定是有属于 AGI 的那种自然语言交互的方式,更符合我们人的特点。甚至说哪天脑机接口一旦打通了,我甚至都不用说话了,所以属于 AGI 的智能终端未必是手机,或者手机会在某个时刻改变形态。 而当我们有了更自然的交互方式,为什么一定要有 app 呢?如果苹果这些手机大厂不往这个方向努力,那一定会有别人来做。 APPSO:你认为面壁在这里面的角色会是什么? 刘知远:对于我们这样的创业公司来讲,我们的优势就是创新,极致的创新。我们的第一目标,就是找到 AGI 到底应该怎么做怎么用,我们生来就是做这件事情的,这是我们的优势。 即便是大厂如果不创新,也会被历史的车轮碾压,就像当年的诺基亚。 APPSO: 怎么形容你们跟华为的合作 刘知远:我们希望能和华为这样的企业,形成端云协同行业典范的伙伴关系。 APPSO: 华为推出了纯血鸿蒙,AI 框架和大模型在里面很重要,后续你们还会有更多合作吗? 刘知远:肯定会有,在智能芯片、智能操作系统,甚至在模型层面,我们都会有合作。 APPSO:你会担心这些硬件厂商自己做端侧模型吗? 刘知远:这是中美市场一个很大的差别。美国的产业链互相之间的安全感很强,大家可以一起来做生意。但是中国好像恨不得每家公司都要自己把所有事情做完,如果有一块不是自己做的就会很没安全感,如果说能够创造性地形成一个非常稳定的合作,那我相信一定是能够发挥大家的优势,反而能更好地去占领这个市场。 APPSO:有什么是面壁能做到,而其他硬件厂商做不到的? 刘知远:首先就是从大模型算法的角度来讲,其实它的技术是快速去扩散的。我们并不是追求模型训练的技术其他厂商永远掌握不了。 至少现在来看,在端侧由于算力、内存能耗各个方面的限制,其实它对模型的制程其实有更高的要求。一定是要能够更加极致地去把模型放到一个更小的参数规模里面,同时还有更强的能力。 比如说芯片的制程,最先进的制程一定是用来做端测芯片。因为端测的空间更小,对能耗更敏感,所以就是对端测模型它也一定是要求模型的制程要更高,它比在云端模型要求要更严苛。 在云测只要你的算力资源足够,就可以有更多的腾挪余地但是在端测上不一样,端测上的限制是受限于它的芯片,受限于它的内存,受限于它的电池。所以一定是要去训一个极致小的模型。从这点上来讲,别说现在市场上的大模型公司了,比如 Google 训练同等水平的模型比我们晚发两个月,还比我们差 10% 左右。 APPSO:你之前也预测过,你是认为是未来会是大部分其实在端侧就已经足够了。你觉得要到什么程度才可以做到这样? 刘知远:其实端测需要做成一个爱因斯坦才能够服务你, GPT-4 或 GPT-4o 水平就够了。我估算如果按照端侧芯片的知识密度的增强速度,在未来两年内,我们可以把 GPT-4 水平就可以放到端测上去运行,那么 80% 以上的需求都会要能在端侧完成。 APPSO:你这个预测还蛮激进的。 刘知远:激进吗?咱们可以拭目以待。 通往 AGI,目标一定是超越人性的 APPSO:大模型自从爆发之后,所有大模型厂商都在讲 TPFTechnology-Problem Fit),面壁智能内部是如何形成技术和产品的共识,将 T 和 P 结合起来的? 刘知远:我们有一个更长远的愿景,我们想做属于 AGI 时代的超级 app。 但是短期我们也得活下去,得向市场证明我们技术的价值。所以我们会去通过跟一些厂商的战略合作,来完成技术的验证,比如助力深圳市中级人民法院上线运行人工智能辅助审判系统,这些探索是我们在实现长期愿景中的短期目标。 APPSO:超级应用也是一个很火的话题,百度李彦宏他说就是我们现在讲超级应用其实是一个可能是一个陷阱或者伪命题。超级应用到底是什么,现在大家没有公认的定义,你怎么看? 刘知远:在 2000 年之后,我至少感知到两次非常重要的技术浪潮。一次是搜索技术,诞生了 像 Google 这样的大公司。第二次是个性化推荐技术。由此带来了像抖音等等重要的应用。 其实这些技术本身在当时都是非常确定的。大家也都知道是非常大的突破。只是说到底怎么拿它来去用,形成什么样的产品。这件事情是不确定的,是需要去竞争的。 对于我们来讲第一要掌握最前沿的技术,第二要有足够的敏感性,我们要能够在超级 app 出现的时候,能够意识到这个就是超级 app 。 APPSO:所以你认为现在很难去定义超级应用? 刘知远:回看历史,当 Google、今日头条出现的时候,有多少人意识到它是超级应用。当年雅虎新闻专门做了一个 app ,每天就只给你推十条新闻。 你看就是今日头条都已经摆在他们面前了,他还是会做出那些决定。何况现在超级 app 都还没出现,就是出现了,大部分人也不会上车。 APPSO:那要怎么发现超级应用? 刘知远:我一直给我的学生说的就是永远不要做既得利益者。不要因为你之前有各种各样的优势,就你不愿意承认你已经被革命了。 很多人不愿意承认自己被革命了。做统计机器翻译的时候,他就不愿意看到神经机器翻译的出现。做神经机器翻译的时候,他就不愿意看到大模型的出现。因为他觉得自己原来好不容易擅长的那些事都没意义了,他不愿意承认。 APPSO:这是人性。 刘知远:99% 的人都有人性。我觉得要做成这个事必须要有使命感,你的目标一定是超越你的人性的。 如果说你的使命就是低于你的人性的,那你就一定不能把这个事做成。比如说一个创始人认为他最重要的事就是把公司保住,我觉得他接下来大概率他赶不上超级应用,他不可能把它做好,他怎么可能把它做好呢? APPSO:有点理想主义的人才会讲出这样的话。 刘知远:要是没有理想主义,我就不会创办这个公司了。 APPSO:有人说从大模型到做成智能体的难度是指数级的,是这样的吗? 刘知远:我觉得智能体本身也没有一个标准答案,但关键看你往这个里面装什么东西。我更看好的就是智能体它可以装很多东西,比如说装的可以是它的规划决策探索能力。如果你把这些全都看成是 AGI 的一部分的话,其实我觉得未来更值得期待的是 internet agents。 就是相当于是由这些 agents 所组成的互联网,我们把它叫智联网。我觉得这更值得期待。你可以设想就跟我们人类社会一样,是一个高度互联的社区。大家通过充分的合作来完成一些工作。很多的领域,尤其一些复杂的领域,其实是需要大家有各自的专业背景特长,需要一起合作才能够完成。 APPSO:现在谈 AGI 是不是有点太遥远了? 刘知远:我觉得不遥远。大概 2022 年底 ChatGPT 出来之前,我一直觉得 AGI 有还有一个问题没解决,就是常识问题,就是你如何建立关于这个世界的常识。 比如鸭子有一只头,有两只脚,有两个翅膀,像这种基本的常识。在 GPT-3.5 出现之前,我认为这些知识是很难通过数据学到的。包括物理的问题,比如说你把杯子从桌子上扫到地上,它会发生什么等等。你去问大模型相关的这种常识问题的时候,他是回答不了的。 ChatGPT 出现之后,我们发现这些常识似乎也都可以通过数据驱动的方式来让模型学习。只是之前我们不知道该怎么调用它,而 ChatGPT 告诉了我们调用的方式。我觉得这个技术路线已经非常的通畅了。你无非就是要把需要学习的那些知识所对应的那个数据,交给这个模型去学就可以了。 APPSO:大模型真的能像人类那样理解世界吗 刘知远:它接入到这个模型里面,学习你每天操作这些 app 的行为习惯,绝对没有道理学不出你的偏好。比如说我要去订个机票,然后你跟他说我在想订什么时候,那他就去操作就好了。 所以在我来看,这个技术的方向已经非常确定。只是说数据、架构,成长方式这三个要素怎么解决,我觉得还是应该要更加乐观的去看待这个问题。 OpenAI 说六年后要成为 superintelligence(超级智能)公司,我觉得是一个非常可行目标。
用什么吸引用户花3万元买Vision Pro头显?苹果加速探索“杀手级应用”
IT之家 7 月 13 日消息,金融时报(FT)昨日发布博文,表示苹果公司正不遗余力地推动 Vision Pro 头显生态,吸引更多 visionOS 开发者,并积极探索“杀手级应用”。 应用数量少 苹果公司 App Store 现已提供 2000 多款专为 Apple Vision Pro 设计的应用,拥有超过 150 万款兼容的 iOS 和 iPadOS 应用;以及更多使用 Mac Virtual Display 在 Mac 上无缝协作的应用。 Vision Pro 应用数量相当于 iPhone、iPad 发展初期来说比较少,苹果 iPhone 在 2008 年年底就有超过 1 万款应用;而苹果 iPad 在 2010 年年中就有超过 2 万款应用。 应用增长缓慢 此外 Vision Pro 应用数量增长也比较缓慢,IT之家援引分析人士观点,认为其原因有以下几点: 3500 美元(IT之家备注:当前约 25441 元人民币)产品定价,限制了潜在用户群体。因此与拥有数十亿用户的平台相比,对开发者的吸引力较小。 Vision Pro 头显的销量低于预期。 弗朗西斯科-杰罗尼莫分析师表示:“Vision Pro 的成功与否,无论价格高低,最终都将取决于所提供的内容。” 探索“杀手级应用” 苹果已经扩大了 Vision Pro 的销售市场,但缺乏一个 "杀手级应用" 来说服客户,为一个未经验证的新产品支付超过 3500 美元(国行 29999 元起),这被视为苹果公司面临的一个问题。 尽管应用程序增长放缓,但一些开发者仍对 Vision Pro 的未来持乐观态度:认为这毕竟是苹果的产品,而苹果总能找到办法。 他们认为,该设备在 VR 领域向前迈进了一大步,未来几年可能会成为主流,尤其有消息称苹果公司正酝酿售价更低的版本。
早报|宝马中国回应退出价格战传闻:将关注业务质量/苹果将开放欧盟设备第三方 NFC 权限/小米汽车获得独立造车资质
特斯拉或推迟无人驾驶出租车推出计划 雷军发微博调查「小屏手机爱好者」 有关部门回应萝卜快跑定价争议:干涉不了 苹果将开放欧盟设备第三方 NFC 权限 曝 TikTok 将在海外开启本地生活业务 苹果库克:我每天都在用 Vision Pro 小米汽车获得独立造车资质 江淮汽车董事长:与华为合作首款产品计划明年上半年上市 宝马中国回应退出价格战传闻:将关注业务质量 国行三星 Galaxy Z Fold6 / Flip6 或内置本地化地震预警 荣耀发布 Magic V3 折叠屏手机等多款新品 OPPO Watch X 理想汽车定制版手表上市 智谱 AI 开源视频理解模型 CogVLM2-Video 周末也值得一看的新闻特斯拉或推迟无人驾驶出租车推出计划 彭博社报道,有知情人士透露,特斯拉将其计划即将推出的自动驾驶出租车(robotaxi)推迟到 10 月份,以便让参与该项目的团队有更多时间构建更多原型车。 此前,特斯拉 CEO 埃隆·马斯克曾宣布将于 8 月 8 日推出 robotaxi。 知情人士透露,推迟两个月的决定已经在特斯拉内部进行了沟通,并有消息称,设计团队本周被告知要对汽车的某些元素进行返工。 在该消息传出后,当地时间周四收盘时,特斯拉市值下跌 8.4%,为今年 1 月份以来最大跌幅。 目前,特斯拉和马斯克都没有对此进行回应。 雷军发微博调查「小屏手机爱好者」 周四晚间,小米集团董事长兼 CEO 雷军在微博上发布一条微博,询问「还有人在用 iPhone Mini 吗?」,并欢迎小屏手机爱好者到留言区交流。 评论区有不少小屏手机爱好者留言评论,例如「用了三年想找个安卓替代品都没有」、「太大的手机真的拿不住」、「有小屏手机的话可以减轻下负重」等等,雷军对此都以三个「作揖」表情符号回复。 昨日,雷军又发一条新微博:「美丽小废物?」,除此之外没有别的内容。根据雷军在评论区回复的网友相关留言,此条微博可能在为小米本月发布的小米 MIX Flip 小折叠手机预热。 此前小米产品经理魏思琪回复网友称,小米折叠屏手机发布会将由雷军主持。 有关部门回应萝卜快跑定价争议:干涉不了 近日,百度「萝卜快跑」无人驾驶网约车定价引发了一些争议和讨论。相比传统网约车,萝卜快跑的价格更加实惠。有网友晒出打车 28 公里仅需 26 元,一位武汉市民晒出自己 7.1 公里的行程一共花费了 5.07 元。 中新社向武汉市经开区市场监管部门了解到,无人网约车价格属于市场调节价,未纳入政府定价范畴,他们无权干涉。 就「萝卜快跑低价干扰市场」,中新社也咨询了相关法律人士。相关人士表示,萝卜快跑不构成不正当竞争,与法定的不正当竞争行为存在明显界限,是科技发展的积极成果。 苹果将开放欧盟设备第三方 NFC 权限 欧盟于当地时间周四宣布,接受苹果公司有关非接触式支付方面的承诺,将允许开发人员访问其设备上的 NFC 功能,开放第三方支付使用 NFC 的限制。 欧盟委员会声称,Apple Pay 是唯一可以访问 iOS 系统上 NFC 硬件与软件的移动支付服务,因为苹果不向第三方移动钱包开发者提供该功能,这违反了有关条例,体现了苹果滥用其市场支配地位。 苹果表示,其将为欧洲开发者提供一个选项,可以在他们的 iOS 应用程序中启用汽车钥匙、交通卡、公司门禁卡、家庭钥匙、酒店钥匙、商家忠诚度/奖励和活动门票的触碰式功能。 曝 TikTok 将在海外开启本地生活业务 36 氪独家报道,TikTok 正在海外试水本地生活业务,首站是东南亚地区,目前业务已在印尼和泰国开启。 有在印尼从事 TikTok 电商服务商的人士透露,目前 TikTok 本地生活业务还处于内测阶段,只有一部分用户能够在信息流中刷到相关的团购套餐,以餐饮商家为主。 据报道,在 TikTok 上已经可以看到一些来自泰国的账号号召商家加入 TikTok 本地服务,名称缩写为「TTLS」(TikTok Local Services),宣传语为「商家的全新机会」。 苹果库克:我每天都在用 Vision Pro 在与《太阳报》的访谈中,苹果 CEO 蒂姆·库克(Tim Cook)谈到了他使用头显设备 Apple Vision Pro 的体验。 库克表示,他每天都在用 Vision Pro,这款设备已经进入了他生活的「各个方面」。 比如说,库克用 Vision Pro 观看了不少 Apple TV+ 的内容,例如《足球教练》第三季和一部未上线的剧集。他还观看了不少体育赛事,并表示用 Vision Pro 看比赛给人的感觉就像是身临其境坐在球场中。 库克也认为,使用 Vision Pro 来进行多任务处理「效率要更高」,因为 Vision Pro 支持佩戴者在屋内空间中放置多个窗口。 库克也表示,一些在线下体验过 Vision Pro 的人非常「情绪化」,特别是观看允许用户重温记忆的空间照片和视频时,「他们中的很多人都流泪了」。 小米汽车获得独立造车资质 据报道,工信部官网披露的第 385 批《道路机动车辆生产企业及产品公告》新产品公示中,出现四款「小米牌」纯电动轿车,企业名称为「小米汽车科技有限公司」。 而去年 11 月的公示中,两款小米牌汽车的企业名称为「北京汽车集团越野车有限公司」。全新告示中的这一变动意味着小米汽车取得独立造车资质,其生产企业名称也由北汽更换为小米。 江淮汽车董事长:与华为合作首款产品计划明年上半年上市 在昨日举办的 2024 中国汽车论坛上,安徽江淮汽车集团股份有限公司董事长项兴初表示,江淮全年研发投入占比预计在 9% 左右,未来将聚焦整车集成技术、共建产学研合作平台、推动智能化技术持续升级。 项兴初也透露,江淮汽车与华为合作的首款产品已经进入了整车验证阶段,计划年底下线,明年上半年上市。 项兴初表示,江淮汽车将全力推进与华为合作项目,规划了多款新品,并共同推进鸿蒙生态的系统建设,以及华为数字能源合作超级快充等项目。 宝马中国回应退出价格战传闻:将关注业务质量 日前,有人在网络平台表示,因价格战导致门店亏损严重,宝马将从 7 月起,通过减少销售量来稳定价格,缓解门店的经营压力。 贝壳财经报道,昨日,针对于宝马中国将退出价格战的传闻,宝马中国方面表示,下半年宝马在中国市场将重点关注业务质量,支持经销商稳扎稳打。 今年 5 月底,宝马给所有经销商门店发函称,鉴于市场大背景和国产品牌带来的巨大冲击,决定给宝马 4S 店开出多项大幅度补贴减免政策,减免政策包括新车销售、客户支持与服务、宝马金融、经销商发展以及二手车业务的多个领域,意在帮助经销商应对短期困难,缓解业务压力。 国行三星 Galaxy Z Fold6 / Flip6 或内置本地化地震预警 昨天,微博博主@i 冰宇宙发布微博,表示三星本周发布的折叠屏新机 X Fold6 和 Flip 手机内置本地化地震预警功能。 三星的本地化地震预警将包括烈度阈值设置、紧急联系人、医疗信息等等功能。该博主还表示,三星手机其他机型有望于未来系统更新获得类似功能。 荣耀发布 Magic V3 折叠屏手机等多款新品 昨日,荣耀举办 Magic 旗舰新品发布会,带来了包括折叠屏手机、平板电脑和笔记本电脑等多种形态的新品。 折叠屏手机新品荣耀 Magic V3 引入「鲁班架构」,折叠态机身厚度为 9.2 毫米,展开厚度 4.35 毫米,重量为 226 克。配置如下: 高通骁龙 8 Gen 3 芯片 屏幕为 2376×1060 京东方 OLED 外屏 + 2344×2156 京东方 OLED 内屏 支持双卫星通信 搭载第三代青海湖电池,电池容量 5150mAh,支持 66W 有线充电和 50W 无线充电 影像上搭载 5000 万像素长焦主摄、4000 万广角微距主摄、5000 万鹰眼主摄 荣耀 Magic V3 提供四款配色,12GB+256GB 版本售价 8999 元。 另一款折叠手机新品为 Magic Vs3,为 V3 的小改款,折叠态机身厚度 9.8 毫米,重量 229 克。配置上搭载高通骁龙 8 Gen 2 处理器、5000mAh 电池、5000 万像素鹰眼主摄、800 万像素潜望长焦、4000 万像素微距主摄。荣耀 Magic Vs3 提供三种配色,12GB + 256GB 售价 6999 元。 平板新品 MagicPad 2 搭载高通骁龙 8s Gen 3 处理器、「行业首款」3K 144Hz OLED 屏幕、10050mAh 电池,重量为 555 克,厚度 5.8 毫米,提供三款配色,8GB+256GB 版本售价 2899 元。 笔记本电脑新品荣耀 MagicBook Art 14 厚度 1 厘米,重量 1.03 千克,全系搭载英特尔酷睿 Ultra 处理器,屏幕采用 14 英寸 120Hz OLED 触摸屏,屏占比达 97%,提供两种配色,Ultra 5+16GB+1TB 版本售价 7999 元。 OPPO Watch X 理想汽车定制版手表上市 昨日,理想汽车官宣,OPPO Watch X 理想汽车定制版手表上线理想商城,价格与原版起价格一致,为 2299 元。 根据介绍,手表可以作为「智能车钥匙」,无感唤醒理想汽车,用户只需要佩戴手表靠近车辆即可完成解锁,还支持车辆启动、鸣笛寻车、开关车内空调窗户、查看续航和充电状态等功能。 手表表带采用了理想 MEGA 同款大象灰配色,搭载理想汽车深度定制表盘和开关机动画。 智谱 AI 开源视频理解模型 CogVLM2-Video 智谱 AI 宣布,训练了一种新的视频理解模型 CogVLM2-Video,并将其开源,该模型可以回答视频时间进度相关问题。 据介绍,智谱提出了一种基于视觉模型的自动时间定位数据构建方法,生成了 3 万条与时间相关的视频问答数据,然后基于这个新数据集和现有的开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入。 智谱表示,CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色,为视频生成和视频摘要等后续任务提供了强有力的工具。 乐高 Technic 机械组迈凯轮 P1 发布 乐高集团与迈凯伦汽车携手发布了 2024 年乐高机械组 D2C EXCLUSIVE 限定套装——42172 迈凯伦 P1,这款套装的售价为 3699 元,计划于 8 月 1 日正式发售。 据介绍,这款套装属于乐高机械组终极超跑(Ultimate Car Concept)系列,包含 3893 个零件,组装完成的模型尺寸为长 59 厘米、宽 25 厘米、高 14 厘米。 该模型还特别还原了迈凯伦 P1 的尾灯线条,打开壳体后可展示内部机械构造,还配备可调节的后部扰流板和可开启的双侧剪刀门。 Blur 乐队纪录片发布剧照 聚焦于英国摇滚乐队 Blur 的纪录片《Blur: To the End》发布剧照,该片将于 7 月 19 日在英国和爱尔兰院线上映。 该纪录片由托比·L 执导,拍摄耗时长达 10 年,包含大量乐队台前幕后的影像资料,将呈现这支传奇乐队成军 35 年来的起伏过往。 是周末啊!One Fun Thing |「豚鼠开火车」纸抽盒 群马野生动物园推出了全新周边「豚鼠的游行」纸抽盒,以动物园里豚鼠为原型,呈现了它们井然有序前行的可爱场景,让不少国内网友也直呼「想买」。纸抽盒将于 7 月 15 日发售。 周末看什么 |《冷血动物》 《冷血动物》为导演格兰特·辛格的长片处女作,为一部冷静而克制的悬疑电影,由本尼西奥·德尔·托罗、贾斯汀·汀布莱克、艾丽西亚·希尔维斯通主演。 一名年轻的房地产经理惨遭残忍谋杀,而负责此案的冷酷警探汤姆试图从在这个一切都和表象不符的案件中揭开真相,在这个过程中,他逐渐发现了自己的生活似乎生活在一个幻象之中。 买书不读指南|《森林、冰河与鲸》 《森林、冰河与鲸》是日本生态摄影师、旅行作家星野道夫生前最后一部作品。这部夹杂着人类学田野笔记的趣味的图文旅行手记,被星野道夫研究者誉为高峰和经典。 书中,他从阿拉斯加东南部开始,一路向北,跨过白令海峡,再向西,完成从阿拉斯加到西伯利亚,从美洲到亚洲的文化寻根之旅。途中,作者记录下与部族长老的会面,以及找寻神话起源的经过,以及森林、冰河与鲸,三个关键词串联起一个永恒的主题——时间。 游戏推荐 |《菲斯》 在游戏《菲斯》(FEZ)中,玩家将扮演一个名字叫 Gomez 的角色,看起来他是一个生活在 2D 世界中的 2D 生物,但情况并没有这么简单。当一个神秘的第三维度出现在他的面前时,Gomez 踏上了前往时空尽头的旅程。 玩家在游戏中将从 4 个不同的经典 2D 视角导航 3D 结构,探索一个宁静而美丽的开放式世界,这个世界充满了秘密、谜题和隐藏的宝藏。玩家将揭开过去的神秘面纱,发现关于现实和感知的真相。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。