行业分类:
加载中...
头条分类:
加载中...
“企二代”郑驹接班445天,杉杉股份跌没161亿元
文|李亦辉 编|深海 自去年3月23日出任杉杉股份董事长以来,郑驹已掌舵杉杉股份445天。郑驹接班之路并不平坦,去年2月,杉杉股份创始人郑永刚因突发心脏疾病救治无效去世,郑驹和郑永刚遗孀周婷爆发遗产争夺战。随后,双方达成妥协,双双进入董事会。 接班时,郑驹曾表示,他将接过父亲的旗帜,把杉杉建设成为受人尊敬的全球化高科技企业。 但郑驹面临的挑战并不少。受负极材料价格整体下行等因素的影响,杉杉股份连续两个季度业绩表现不佳。 2023年年报显示,全年杉杉股份营收和净利润双双下滑,其中在第四季亏损达到4.37亿元。公司表示,净利润下滑是由于公司负极材料业务和参股的正极材料业务产品价格及盈利均同比下滑,同时公司的非核心业务亏损以及对相关资产计提减值也对业绩造成一定影响。 近日,杉杉股份对外披露2024年一季报显示,报告期内公司实现营业收入约为37.52亿元,同比下降15.67%;对应实现归属净利润约为-7328.18万元,同比下降112.8%,至此公司连续两个季度录得亏损。 业绩连续亏损的杉杉股份,二级市场股价走势也不理想。雷达财经通过同花顺iFind统计发现,自郑驹接班以来,杉杉股份股价累计下跌43.05%,市值蒸发超161亿元。 锂电材料供需失衡 4月26日,杉杉股份披露了2024年一季报。 2024年第一季度,公司实现营业总收入37.52亿元,同比下降15.67%;归母净利润亏损7328.18万元,上年同期盈利5.73亿元;扣非净利润亏损7335.39万元,上年同期盈利1.66亿元。 对于归母净利润下滑,杉杉股份表示,主要系报告期内公司受行业市场环境变动影响,负极及偏光片业务产品价格同比下降,导致归属上市公司股东净利润同比下滑;及去年同期公司确认转让新亚杉杉新材料科技(衢州)有限公司股权收益。 2023年报显示,去年杉杉股份剥离了多项非核心业务。公司于2023年2月完成电解液业务子公司衢州杉杉51%的股权转让交割、于2023年7月完成东莞杉杉100%股权出售;于2023年4月完成光伏电站子公司杉鑫光伏90.035%股权出售;于2024年1月完成了光伏业务子公司宁波尤利卡90.035%股权出售交割。 对比年报来看,虽然今年一季度公司环比亏损大幅收窄,但仍罕见录得连续两个季度亏损。 年报显示,2023年公司实现营业收入190.7亿元,同比下降12.13%;归母净利润7.65亿元,同比下降71.56%;归母扣非净利润2.19亿元,同比下降90.6%。 同花顺iFinD显示,2023年第一至四季度,公司归母净利润分别为5.73亿元、4.4亿元、1.89亿元和-4.37亿元。这也意味着,从去年第四季度开始,公司已经进入亏损状态。 对于全年净利润暴跌,杉杉股份表示,2023 年在终端需求增速放缓、锂电池行业去库存的背景下,中游锂电池材料均面临供需关系阶段性失衡、产品价格下滑的重大挑战,受行业变动影响,公司负极材料业务和参股的正极材料业务产品价格及盈利均同比下滑。 除此之外,公司持续推进聚焦战略,加速剥离非核心业务和低效资产,非核心业务亏损以及对相关资产计提减值对公司业绩造成一定影响。 杉杉股份的负极材料业务主要包括锂离子电池负极材料的研发、生产和销售,主要产品有人造石墨、天然石墨、硅基负极等,下游应用终端为新能源汽车、消费电子和储能等行业。 公开资料显示,作为锂电池关键组成部分的负极材料,从2021年起一度享受着新能源汽车行业快速发展带来的红利。 百川盈孚数据显示,天然石墨低端价、中端价、高端价分别从2021年初的1.65万元/吨、3.15万元/吨、5.05万元/吨上涨至2022年5月的2.7万元/吨、4.2万元/吨、5.95万元/吨。 随着价格上行,资本迅速涌入尝试分一杯羹,行业产量大幅增长。据鑫椤资讯统计,截至2022年末,中国锂电负极材料产量141.5万吨,同比增长74.5%。 但进入2023年后,行业产能过剩的苗头开始出现。半年报中杉杉股份表示,受行业高景气影响,近几年负极材料行业产能迅速扩张,随着行业新增产能的释放,2023 年以来负极材料行业呈现阶段性、结构性的产能过剩,市场竞争加剧。 年报中公司进一步指出,2023年负极材料行业新建产能陆续释放,叠加下游需求增速放缓,导致行业供需阶段性失衡,行业面临产能消纳和价格下行的巨大压力。 根据高工锂电数据显示,2023年TOP6负极企业总产能利用率超70%,但TOP7及以后企业平均总产能利用率不足30%。 作为行业龙头的杉杉股份,也难以独善其身。年报显示,2023年公司负极材料营收同比减少9.82%,毛利率比上年减少 10.36 个百分点,库存量比上年增加72.15%。 对于后市负极材料供需的变化,杉杉股份4月10日在互动平台回复投资者称,随着产能逐步出清以及上游原材料、石墨化加工价格止跌企稳,预计2024年负极价格进一步下降的空间较小。 偏光片毛利率下滑 目前,杉杉股份有两大主营业务。 根据年报,公司在 2021 年通过收购LG化学LCD偏光片业务成为全球偏光片龙头,由此形成双主业发展新格局。 此后,杉杉股份持续加码偏光片业务。2023年9月,经公司总经理办公会审议,为完善公司偏光片业务产品布局,加快推进从LCD偏光片到LCD+OLED偏光片的突破,公司下属子公司杉金苏州及杉金广州拟收购LG化学旗下的车载、OLED、高端IT显示用偏光片等业务。目前收购事项进展顺利,正在报相关政府审批。 2023年12月,杉杉股份披露,子公司杉金光电(苏州)有限公司拟在扬州设立项目公司,投资建设年产4000万平方米高端显示用偏光片生产线项目,总投资金额不超过60亿元。 资料显示,偏光片终端广泛应用于电视、显示器、笔记本电脑、平板电脑、手机、商用显示等消费类电子产品。但在2023年,受终端需求疲软、行业内竞争加剧等影响,偏光片产品价格同比下降。 根据财报,尽管2023年杉杉股份的偏光片销量实现了10.18%的同比增长,但由于行业周期波动和价格竞争激烈,该业务的营收反而减少了0.32%,同时毛利率下降了7.18个百分点至19.52%。 杉杉股份偏光片下游客户括京东方、华星光电、LG显示、惠科等主流面板厂商。2023年,受终端需求疲软、下游面板厂商控产等因素影响,偏光片行业需求增长动能较弱,但超大尺寸偏光片需求保持较快增长。 根据CINNO Research数据显示,2023年杉杉股份在大尺寸偏光片的出货面积份额由2022年的30%提升至33%,持续保持全球第一。 此外,杉杉股份持续加大新型显示偏光片产品的研发与市场拓展力度。报告期内,公司自主研发的OLED TV和OLED手机用偏光片已量产出货,OLED IT用偏光片正在客户认证阶段。在新的显示领域方面,公司积极推进车载、VR/AR等高端产品的开发力度。 然而截至目前,偏光片产品的价格尚未触底反弹。4月10日回复中,杉杉股份表示,目前下游面板价格仍处于产业周期低位,偏光片价格整体与2023年年末价格差异不大。 在正极材料方面,2023年由于相关产品价格同比大幅下滑,公司参股的正极材料业务净利润由盈利转为亏损,给公司经营业绩带来一定影响。 其他业务方面,截至年报披露日,杉杉股份的电解液业务、光伏业务相关子公司部分或全部股权已完成出售。
张朝阳、周鸿祎帮高考生选专业 四个专业成为大佬眼中的风口
凤凰网科技讯 (作者/于雷)6月10日,昨晚,搜狐创始人、董事局主席兼首席执行官、物理学博士张朝阳与360集团创始人周鸿祎相约北京奥林匹克森林公园夜跑5公里。跑步后,张朝阳和周鸿祎与直播间的网友互动,谈及互联网近几年的行业风口。 周鸿祎认为是大模型和人工智能,互联网涉及千家万户,将赋能传统行业转型。对于未来社会需要什么类型人才、当前高考生应选择什么专业,周鸿祎推荐人工智能、能源和生物学,并强调其实拥有探索心、好奇心、持续学习和解决问题的能力更重要,“专业不重要。”张朝阳则推荐数学专业,因为学好数学未来可以向各个方向转行。他建议报专业不要随大流被主流观念束缚,女生喜欢理科就报理科,男生喜欢文科也可以选择文科。 作为当下最受关注的两位“网红CEO”,二人对身上的“网红”标签表示认可。周鸿祎认为,炒作本身没错,关键看炒作之后的效果,“我们炒作是传递一种健康向上、积极向上的风气。 ”如何抓住流量成为“网红”?张朝阳直言,短视频直播时代真实很重要,真实才能够打动人。他曾表示互联网自媒体时代,酒香也怕巷子深,要做好的内容,同时也要让别人知道。
美国欲下黑手? 中国背景新闻聚合平台NewsBreak面临审查,已拥有1200万日活用户
原标题:一点和IDG投资的新闻聚合平台NewsBreak在美面临审查,已拥有1200万日活用户 图片来源:Newsbreak 据路透社报道,三名美国议员呼吁对美国流行的新闻聚合应用程序 NewsBreak 进行更严格的审查,因为 NewsBreak 的中国股东背景,并曾使用AI工具制作错误的新闻报道。 报道引用涉及版权侵权的法庭文件、电子邮件,以及一份2022年的公司备忘录,其中记录了对"AI生成报道"的担忧,识别出至少40个实例,显示NewsBreak利用AI工具影响其服务的社区。 在这之前,News Break APP 的下载排名曾经多次登顶美国 App Store 和 Google Play 下载总榜。News Break 还曾透露,目前平台已经有 1200 万的日活用户。 议员们对 NewsBreak 目前和历史上与中国投资者的联系以及该公司在中国的存在表示担忧,因为该公司的许多工程师都在中国。 NewsBreak 在回应时表示,它是一家美国公司:"NewsBreak 一直是一家美国公司。任何与此相反的说法都是不正确的。 NewsBreak 于 2015 年在美国推出,是中国新闻聚合应用一点资讯的子公司,而一点资讯的主要股东则是凤凰网。据路透社报道,Newsbreak 和一点资讯两家公司都是由首席执行官郑朝辉创立,两家公司共享一项美国专利,即2015年注册的 “兴趣引擎”算法,该算法根据用户的兴趣和位置推荐新闻内容。 美国众议员、共和党人埃莉斯-斯特凡尼克(Elise Stefanik)表示,IDG资本对NewsBreak的支持表明,该应用 “值得加强审查”。 据路透社报道,NewsBreak 是一家私营初创公司,其主要支持者是总部位于旧金山的私募股权公司 Francisco Partners 和总部位于北京的 IDG Capital。 Francisco Partners 此前曾拒绝回答路透社关于其投资 NewsBreak 的问题,该公司发言人称这篇报道 “虚假且具有误导性”,但拒绝提供细节,只是说将其描述为 NewsBreak 的 “主要支持者 ”是不正确的,因为他们的投资不到 10%。 他们没有提供文件证明持股规模。NewsBreak 在 5 月 13 日告诉路透社,Francisco Partners 是 NewsBreak 的主要投资者。NewsBreak 周五晚些时候两次要求路透社提供支持这一说法的文件,但均未得到回应。
天价薪酬方案本周投票表决,马斯克:90%的散户股东站在我这边
IT之家 6 月 10 日消息,特斯拉首席执行官埃隆・马斯克 (Elon Musk) 的巨额薪酬方案(560 亿美元)即将在本周迎来特斯拉股东的再次表决,局势似乎对马斯克有利。 马斯克周六发文称,大约 90% 的散户股东投票支持了他的薪酬方案。据彭博社报道,这至关重要,因为可供交易的非内部人士持有的股票中,约有 45% 由散户股东持有。 如果马斯克的统计数据准确,那么只需大约五分之一的机构股东投赞成票,该薪酬方案即可通过。 机构股东的赞成票不会达到 90%,美国加州公共雇员退休基金 (CalPERS) 和挪威主权财富基金都将投票反对该薪酬方案,代理顾问机构 ISS 和 Glass Lewis 也建议投反对票。 不过,马斯克也获得了部分机构股东的支持,例如 Baron Capital 和 ARK Invest 都公开表示支持该方案。然而,据 FactSet 称,这四家机构都不是特斯拉股票的前 15 大机构持股者。 该薪酬方案授予马斯克约 3 亿股激励性股票期权,并在 2018 年获得超过 70% 的股东支持通过。然而,一位特拉华州法官在今年 1 月以披露给特斯拉投资者信息不足为由撤销了该方案。特斯拉董事会随后在提供新披露信息的情况下再次提交了该方案进行投票。 在 2018 年授予期权时,估计价值约为 560 亿美元。按照目前特斯拉的股价,这些期权的价值目前接近 500 亿美元(IT之家备注:当前约 3629.97 亿元人民币)。 除了股票期权,马斯克还直接持有约 4.11 亿股特斯拉股票,占目前已发行股票总数的 13% 左右。 如果该方案被否决,特斯拉董事会将不得不制定新的方式来补偿马斯克,而马斯克对此的反应将难以预测。 2024 年薪酬方案的最终结果预计将在当地时间 6 月 13 日特斯拉年度股东大会当天左右公布。 截至周一开盘,特斯拉股价今年迄今下跌约 29%,落后于纳斯达克综合指数约 43 个百分点。除了马斯克的薪酬问题之外,电动汽车销售增长放缓也导致了这家电动汽车巨头的交付和盈利预期下降,影响了投资者情绪。
埃隆·马斯克密友如何乘特斯拉的“东风”成为亿万富豪
一次偶然的机会让投资者安东尼奥·格拉西亚斯(Antonio Gracias)结识了马斯克,并早早投资了特斯拉。这一点,以及对解决制造层面问题的关注,成为了他取得巨大成功的关键。 六年前,埃隆·马斯克(Elon Musk)经历了一段艰苦岁月,而他的朋友安东尼奥·格拉西亚斯(Antonio Gracias,他是特斯拉的董事会成员,也是该公司的早期投资者)在那段时间里证明了自己既是他的好友,又是宝贵的问题解决者。 2018年夏天,格拉西亚斯和马斯克正在为了提高特斯拉Model 3的产量而夜以继日地工作,同时还要解决供应链和制造方面的问题。每天晚上仅有几小时的睡眠时间,他们就睡在工厂车间外的相邻会议室里。现年53岁的格拉西亚斯将其描述为一项“全员007”行动,称这是他做过的最困难的事情。两人很少离开工厂,甚至用隔壁的杂货店里买的蛋糕为马斯克庆祝47岁生日,因为时间不足以体体面面地来个派对。 格拉西亚斯是一位美国中西部土生土长的投资者。 2005年,他通过自己的风投公司Valor Equity Partners成为特斯拉的首批机构投资方之一,并在大约三年后开始投资SpaceX。之后近二十年里,格拉西亚斯亲力亲为的投资策略和对马斯克公司的押注得到了回报。 据《福布斯》估算,他现在已经跻身亿万富豪行列,这主要归功于他的特斯拉股票以及他于2001年创立的管理资产达 142 亿美元(监管资产)的 Valor Equity Partners 公司的其他投资。 一路走来,他与马斯克成为了一起滑雪、一起全家度假的好朋友。(“如果我们不和孩子们一起去度假,我们就见不到他们。当时的工作就是那么忙。”格拉西亚斯说。)马斯克也投资了格拉西亚斯的Valor Equity Partners公司,在其第一和第二只基金中投入了200万美元,这无疑为该公司带来了更多的可信度。 格拉西亚斯拒绝讨论自己的身家,也拒绝接受本文的采访。但他曾在法庭诉讼中承认,他通过投资马斯克的几家公司(包括特斯拉、SpaceX和SolarCity)积累了“足以传承的资本”。 格拉西亚斯的朋友、共同投资者和投资组合公司的高管们都认为他是一个紧张、严格,而且总是在工作的人。“安东尼奥无疑是一个非常成功、非常有影响力,但却默默无闻的投资者,”送货无人机制造商Zipline的CEO凯勒·里瑙多·克里夫顿(Keller Rinaudo Cliffton)这样评价说。 他们认为,格拉西亚斯与众不同之处在于他愿意替被他投资的公司收拾烂摊子。 Valor有一个20人的“规模团队”来全职帮助投资组合公司。他的制造专业知识和对认知科学的热情——后者是受到他神经外科医生父亲的启发——促成了Valor对早期和成长阶段公司进行投资的背后战略,这些公司包括农产品交付商Misfit Markets、人工智能数据公司Dataminr和国防软件公司Anduril。 今年2月,在佛罗里达举行的一次投资者会议上,格拉西亚斯这样描述自己与马斯克的关系:“我们不可能都是天才工程师,但我们可以把垃圾扫出去。我们很擅长做这个。” 格拉西亚斯出生于密歇根州底特律,父母都是移民,父亲来自印度,是一名神经外科医生,母亲来自西班牙,是一名训练有素的药剂师,曾经经营过一家内衣店。格拉西亚斯上中学时,他的母亲给了他一笔钱,让他进行了第一笔投资——价值300美元的苹果股票,他至今仍持有这些股票。 有报道称,上世纪90年代初,他在乔治城大学外交学院学习国际经济和金融时,曾向俄罗斯出口避孕套,之后获得硕士学位,并于1993年毕业。之后,他在高盛集团工作了两年,又进入芝加哥大学学习法律。 学习法律期间,格拉西亚斯创办了一家名为MG Capital的投资公司,这个名字来源于他母亲名字的首字母缩写。MG Capital一开始更像是一家收购公司,利用格拉西亚斯从家人、朋友处筹集来的40万美元以及他在高盛时期的收入和银行贷款,收购陷入困境的小型制造公司,将它们扭亏为盈并出售以获取利润。 他收购的第一家公司是位于加利福尼亚的一家电子电镀厂,在那里他亲身实践学习运营,飞行于芝加哥和洛杉矶之间,还亲自在工厂车间里度过了不少时光。 “这听起来像是一个人怎么亏很多钱的故事,”Zipline的CEO克利夫顿回忆起格拉西亚斯告诉他这个故事时他的反应。“有多少法学院的学生会买下一家即将倒闭的工厂?这着实让人震惊。” 格拉西亚斯表示同意。他于2022年在播客Invest Like The Best上说:“只有24、5岁、超级天真的人才能做出如此傻的事情。”但他补充说,他们在出售之前将那家公司的收入从1000万美元增加到1.25亿美元。 从法学院毕业后,一次偶然的机会改变了格拉西亚斯的投资轨迹。1999年,他的一位法学院同学大卫·萨克斯(David Sacks,后来成为Craft Ventures联合创始人)在软件和支付初创公司Confinity工作,于是格拉西亚斯的MG Capital对这家公司进行了投资。Confinity随后与马斯克的支付公司X.com合并,并最终更名为PayPal。 PayPal于2002年初上市,并于当年晚些时候被eBay以15亿美元收购。结果是,MG Capital对它的投资最终获得了最初三到四倍的回报,也为他带来了更有价值东西:与马斯克的情谊。 几年后,也就是2005年,马斯克联系了格拉西亚斯,询问他的公司(当时MG Capital已经更名为Valor Equity Partners)是否会参与特斯拉的B轮融资。格拉西亚斯答应了,并参与了当时1300万美元的融资,而那一轮融资对特斯拉的估值仅为3500万美元。 在接下来的三年里,Valor向这家电动汽车公司总共投资了约1500万美元,即便当时特斯拉还没有推出功能性产品,电动汽车也还没有明确的市场。Valor的团队最终投入了大量时间,试图降低特斯拉首款车型Roadster的供应链成本,并帮助制定其最初的销售计划。格拉西亚斯随后于2007年加入特斯拉董事会。 也就是在那个时候,Valor开始投资SpaceX,在该公司成立大约六年后投入了2500万美元。从那时起,格拉西亚斯的公司通过每个Valor基金都向SpaceX进行了投资,资金总额至少为5亿美元,现在价值近50亿美元。(据报道,SpaceX目前的估值为1800亿美元)。此外,Valor还投资了马斯克经营的其他公司,包括向SolarCity(特斯拉于2016年收购)投资2400万美元,向Neuralink和The Boring Company各投资1500万至2000万美元。 多年来,为了弄清楚为什么他的一些投资会成功而另一些会失败,格拉西亚斯从他的神经外科医生父亲那里获得了灵感。他开始阅读认知科学研究,最终用“亲熵”这个流行词来总结他的投资策略。根据Valor的一位前高管的说法,该术语的意思是,“熵”或混沌是常态,而“实际上颠覆行业并导致混沌”的技术会经历艰难的周期。 到2021年,格拉西亚斯在特斯拉的个人股份的价值增长到约10亿美元,这要归功于这家电动汽车公司的股价飙升、特斯拉慷慨的董事薪酬以及Valor公司派发的丰厚利润。例如,根据法庭文件,Valor风险基金将50%的利润分配给普通合伙人。Valor在2011年上市后退出了特斯拉的持股。 此后,格拉西亚斯出售了价值超过2.5亿美元的特斯拉股票,其中一些在他2021年离婚时归前妻所有;他剩余的大部分股份都由子女信托持有,《福布斯》将其计入他的净资产。截至2021年10月,当他从特斯拉董事会卸任时,99%的股份还是贷款抵押品。(《福布斯》将特斯拉质押股票折价25%,这是特斯拉允许董事以其股票为抵押借入的最大比例。) 这位马斯克的长期密友离开特斯拉董事会的部分原因是监管机构向特斯拉施加压力,要求其改善公司治理。有人批评格拉西亚斯与马斯克关系过于密切,无法担任特斯拉的首席独立董事,因为格拉西亚斯与马斯克的关系远远超出了商业交易,从那些滑雪度假就可见一斑。(其他三位特斯拉独立董事也辞职了。) 他与马斯克的密切关系也让公众怀疑他与马斯克收购推特(现更名为X)有关。据The Information报道,在马斯克入主推特后,Valor帮助处理了其大规模裁员,虽然这本该是首席财务官的职责。在特斯拉董事会成员批准马斯克的巨额薪酬方案之际(虽然特拉华州法官在1月份驳回了这一方案),格拉西亚斯也是当时的董事会成员之一。关于他们的关系和格拉西亚斯职业生涯的许多细节都来自格拉西亚斯在审判中的证词。 法庭文件中还引用了一条格拉西亚斯在2022年发给马斯克的短信,格拉西亚斯在与马斯克谈到言论自由时引用了他最喜欢的电影之一《教父》中的一句台词:“无论如何,我百分之百支持你,我们将奋战到底”,表明他将与马斯克并肩作战对抗其他人。 在2022年的法庭上,格拉西亚斯将马斯克描绘成一位超级英雄,一个他紧紧跟随的英雄。格拉西亚斯表示:“马斯克就像是投资界的迈克尔·乔丹。而我来自芝加哥。”在法庭上,他一再称赞马斯克是一个“了不起的人物”和产品天才。(格拉西亚斯在特拉华州法院指控马斯克薪酬过高的案件中出庭作证,因为在批准薪酬方案时,他是特斯拉薪酬委员会的成员。) 与马斯克的关系可能帮助格拉西亚斯在他的前两只基金实现了高于 20% 的年平均回报率,并募集到越来越多的资金。其后的第四和第五只基金主要投资了非马斯克的公司,如床垫公司Eight Sleep、视频游戏软件Genvid和保险公司AgentSync(PitchBook的信息显示,格拉西亚斯是前两家公司的董事会成员)。 根据格拉西亚斯的一位不愿透露姓名的同事称,Valor的第六只基金即将完成募资,需求非常强劲;其20亿美元的募集目标已经被超额认购。未来,Valor关注的一个重点是国防和安全领域,部分原因是格拉西亚斯对美国在世界上的地位感到担忧。 2022年12 月,Valor牵头为 Anduril公司筹集了15亿美元的巨额资金。该公司生产人工智能武器和其他以国防为重点的硬件和软件,同时其联合创始人帕尔默·卢基(Palmer Luckey)也是一位极具争议的人物。 特雷·斯蒂芬斯(Trae Stephens)是Anduril的另一位联合创始人兼Founders Fund的合伙人,该公司也投资了许多Valor投资过的公司。他表示,Valor在Anduril业务硬件方面的日常参与不仅有别于Founders Fund,而且与风险投资市场的其他公司也不太一样。 “实际上,在做出了第一笔投资后,他们就派出了一个团队与我们一起每天工作,帮助我们在硬件和制造方面做好准备,”斯蒂芬斯告诉《福布斯》,并称Valor还会在零星订单进来时帮助管理库存和交付。 同样毕业于乔治城大学外交学院的斯蒂芬斯也强调,格拉西亚斯的国际关系背景也让他在决定投资哪些公司时会考虑地缘政治力量及其微妙影响。 但格拉西亚斯也非常务实,他知道Valor可以如何帮助这些被投资的公司,就像它早期对特斯拉所做的那样。 “我们要处理的问题对我们来说是反复出现的问题,但对于首次创业者来说,这是第一次,”格拉西亚斯在“Invest Like The Best”播客上说道。“我们会降低风险。我们会减少痛苦。我们会提高速度,如果出了问题,我们可以帮你解决。这就是你选择我们的原因。” 文:Phoebe Liu 翻译:Vivian
苹果WWDC终极前瞻:5大看点20大AI新功能,库克不能输的一战
编译 | 孙永乐 编辑 | 云鹏 智东西6月10日消息,苹果WWDC 24(全球开发者大会)将于明日凌晨1点揭幕。虽然苹果官方发布的公告不多,但它的曝光信息却已经铺天盖地。Siri史诗级融入AI、iOS 18诸多AI新功能、与OpenAI的合作呼之欲出,苹果AI的各种动作已经成为科技圈最热的话题之一。 WWDC 24大部分活动以线上形式进行,但会在6月11日的主题演讲日于Apple Park(苹果飞船总部大楼)为特邀嘉宾举办一场线下特别活动。智东西受邀前往苹果总部,将在第一时间为你带来WWDC深度报道,期待11日凌晨与你一同见证苹果的“AI奇迹”。 从往期大会内容来看,WWDC一直以软件为中心,可以说是一场万众期待的“软件盛会”。 苹果届时将发布iOS 18,这可能成为iOS有史以来最具颠覆性的更新,而更新内容聚焦于新的AI功能和战略,将占苹果WWDC主题演讲的一半时长。 据知情人士透露,苹果的新AI系统将被称为Apple Intelligence,它将出现在iPhone,iPad和Mac操作系统的新版本上。 此外,苹果Vision Pro即将迎来第一次重大软件更新——visionOS 2要来了。苹果所有其他平台的操作系统的新版本,包括iPadOS 18、watchOS 11、macOS 15、tvOS 18也将如期而至。 至于硬件方面,在去年的WWDC上,意义重大的Vision Pro首次亮相。但截至目前,WWDC 24没有任何关于新硬件产品发布的消息。 据彭博社首席记者马克·古尔曼(Mark Gurman)报道,苹果不打算在WWDC 24上宣布任何新的硬件产品,重点将完全放在即将到来的软件更新上。 下文将根据外媒爆料的信息,梳理WWDC 24可能出现的软件更新内容,尤其是新的AI功能,包括: 整合ChatGPT的Siri 以AI为重点的iOS 18 iPadOS 18 macOS 15 visionOS 2 接下来,本文将带你深入这5大方面的数十个重磅AI升级,提前看看苹果AI大招的“前菜”。 01. Siri:整合ChatGPT 应用智能交互,多指令串联 据彭博社6月5日的报道,苹果预计很快宣布与OpenAI达成协议,将OpenAI的ChatGPT集成到iPhone的操作系统中,提供生成式AI服务。 苹果曾经率先入局,于2011年推出Siri,抢先进入语音交互和AI领域,但很快就被众多竞争对手所赶超,两年前生成式AI聊天机器人再次让苹果公司措手不及。但如今,Siri或许会成为苹果重新布局生成式AI的关键一招。 所以,苹果WWDC 24的“重头戏”,毫无疑问会是注入生成式AI后“浴火重生”的Siri。 苹果的首要任务,是借助AI让Siri更加智能,解决现有的种种问题:生硬的回复、不理解用户想法,以及“我在网络上找到这个”回应等。 基于现有信息和线索,不少外国媒体猜测,iOS 18中新版Siri或许拥有以下新AI功能: 更智能地了解用户希望Siri执行的操作 口头回答问题,而不是显示网络链接(带有ChatGPT免责声明) 了解用户的联系人、约会、位置等,以便做出更智能的响应 能够总结通知、消息和冗长文档的所有内容 能够与应用进行交互。 例如“将这个备忘录移至我的新主页文件夹” 将多条指令串联在一起。 例如“将这张照片裁剪成正方形并将其发送给Sam” 据知情人士透露,Siri用户将首次能够使用语音精确控制苹果自家应用中的各个功能和操作。未来,苹果会逐渐将其扩展到第三方应用,并允许用户将多个指令串联到一个请求中。 将指令串在一起的新功能,有可能解决Siri控制HomeKit设备的最大挫败感之一,目前用户没有办法实现“嘿Siri,关掉客厅灯并运行车库工作模式”的类似指令。 本质上,苹果是在借助生成式AI重建Siri,主要由大型语言模型(LLM)提供支持,很可能是苹果自己的LLM和OpenAI的ChatGPT技术的某种组合。 不过,鉴于Siri改造任务规模之巨大,预计最早在明年才会全面推出,作为iOS 18后续更新的一部分。 02. iOS 18:多个内置应用更新 AI照片编辑、自定义表情符号 iOS 18预计将包括多个内置应用的更新,包括备忘录、邮件、照片、Music和健身等。比如,照片将集成新的AI编辑功能,Music将获得AI自动生成的播放列表,日历将更好地集成提醒等。 另外,苹果AI新功能的一个重要部分是摘要功能。苹果公司正计划在 Safari 浏览器中添加一项功能,使用户能够快速回顾文章和网页内容,总结会议记录、短信和电子邮件。苹果还计划推出一项智能回顾功能,用于汇总用户错过的通知和消息。 值得注意的是,iOS 18中比较基础的AI任务将由设备本身处理,而更高级的功能则通过云计算来实现,且有专门AI算法自动判断特定任务的处理方法。 下面重点梳理iOS 18可能出现的新AI功能。 AI照片编辑功能 目前,媒体关于AI照片编辑功能方面的爆料相当笼统,但也有一些具体的功能描述,比如“一项新的清理功能,允许用户通过使用生成式AI软件从图像中删除对象”,即AI驱动的物体移除,去除照片中不需要的人和物体。 实际上,苹果一直致力于研究如何基于文本指令编辑照片,前几个月刚发布了名为“MGIE”的新型开源AI模型,可以根据自然语言指令编辑图像。 意思就是说,用户只需要告诉设备想要实现什么效果即可。例如,用户可以简单地说“让天空更蓝”,MGIE会将其解释为“识别并选择天空,然后将该区域的饱和度提高20%”。 虽然暂时还不知道MGIE的功能有多少会被整合到iOS 18中,但其可以作为AI照片编辑功能的预期。苹果的MGIE模型的功能大概有: 裁剪、调整大小、旋转、翻转 添加过滤器 识别和编辑特定的照片元素,如眼睛、头发和衣服 在苹果MGIE模型的论文和演示中,指令输入使用了键入文本。但最终在iOS 18上的效果,似乎更有可能是通过Siri指令,例如“嘿Siri,移除右边女人后面的柱子”。 AI自定义表情符号 彭博社报道称,苹果将使用生成式AI来允许用户创建自定义表情符号。 苹果正在开发相关软件,可以根据用户发短信的内容,即时创建自定义表情符号,也可能是会在用户点击表情符号菜单时,自动建议用户自定义表情符号。 更智能的Spotlight搜索 有媒体报道称,苹果正在考虑使用AI来实现更智能的Spotlight搜索,能够深入挖掘应用内信息。例如,可能实现如下搜索: “给我看看我做的所有关于家居装修的笔记和图纸” “给我看看我所有的奶酪食谱” 其他可能的AI功能 上述三项新AI功能,即照片编辑功能、自定义表情符号、智能Spotlight搜索,出现在iOS 18中的可能性极大。除此之外,苹果在iOS 18上还有其他媒体爆料的正在开发的新AI功能: 语音备忘录自动转录录音 邮件自动分类传入邮件 AI驱动的健康和健身教练 AI增强的日记 对错过通知和消息的智能回顾 对电子邮件和消息的建议回复 在Pages文稿中进行AI辅助写作 在Keynote讲演中创建AI辅助幻灯片 在Xcode中为开发人员编写AI代码 在 Safari中快速回顾文章和网页,总结会议笔记、短信和电子邮件 根据用户的输入(例如心情)自动生成的苹果Music播放列表 另外,iOS 18的地图应用可能会获得新的AI功能,例如支持地形图和保存自定义路线的选项,作为地图在输入方向时提供的预选路线的替代方案。 苹果还将为消息应用引入RCS,以改善iPhone和Android用户之间的对话。从iPhone向Android用户发送照片和视频将不再导致错误,群聊功能表现更加优异。 03. iPadOS 18: 计算器登陆,眼动追踪控制 说实话,iPadOS 18大部分的更新功能可能都会是iOS 18重大更新的延续。 和往年一样,iPad将受益于苹果在iPhone平台上的开发工作,因为这两个操作系统共享了大量相同的代码库。因此,iOS 18的大多数功能也将成为iPadOS 18的主要新增功能。 首先,计算器这个应用终于登陆iPad了!它在iPhone上已经存在17年了,却迟迟没有在iPad上出现。 iPadOS 18将会更新一个强大的新的无障碍功能:用户能够通过眼动追踪控制iPad。这项免提功能主要是受到Vision Pro的启发。 同时,iPadOS 18极大可能会有对Stage Manager或iPad其他多任务处理功能的增强,苹果已经花了几年时间来研究这项功能。 那些期待M4 iPad Pro独有功能或想要从iPad启动macOS的人,几乎肯定会失望,因为今年没有任何关于iPad的重大突破的传言,iPadOS 18已经能从苹果iOS 18中受益良多了。 04. macOS 15: 新增功能较少,系统设置应用改进 作为苹果历史最悠久、最成熟的软件平台,macOS每年新增的功能通常比较少。 macOS和iOS通常有许多相同之处,因此虽然我们听到的大多数爆料都集中在 iOS 18上,但许多相同的AI功能也有可能出现在macOS 15上。 今年的重点是AI,加上最新推出的Mac配备了强大的M3芯片,所以我们可以期待一些充分利用苹果神经引擎的新AI功能。 在AI之外,苹果正在更新Mac的系统设置应用,希望能够回应之前用户的批评。系统设置将采用全新的设计,并引入新的组织方法,让用户比以往更容易找到所需的设置。 但总的来看,大多数macOS 15的改进预计只是为了与iOS 18在iPhone上的功能保持一致,比如系统应用的更新和新版的Siri。 05. visionOS 2: 开发更多原生应用,预计夏季全球发售 WWDC 24上,苹果将对Vision Pro的进行首次重大软件更新,即visionOS 2,有望带来各种改进,增强Vision Pro的实际体验。包括: 更多完全为visionOS原生开发的第一方应用,而不仅仅是iPad版本(例如,日历、提醒、新闻等)。 可以在visionOS主屏幕上重新排列应用的功能。 强大的实时字幕功能,可以在视野中为所有面对面对话和应用的音频提供实时字幕。 对正念应用的升级,包括呼吸跟踪功能。 除了推出Vision Pro新的软件版本之外,苹果还可能会公布Vision Pro的全球发售计划,预计今年夏季在全球进行发售,届时苹果Vision Pro将拥有更大的客户群。 06. 结语:业务增长乏力, 同行接连开火,苹果欲借AI扭转局势 据彭博社最新消息,苹果AI新功能的加入将是选择性的,如果用户不想可以不采用,因为苹果将把新功能定位为测试版。 AI的处理要求将意味着用户需要 iPhone 15 Pro 或今年推出的机型之一。如果是 iPad 或 Mac,用户至少需要配备 M1 芯片的型号。 明日凌晨,苹果首席执行官库克(Tim Cook)会发表WWDC 24主题演讲,他必须说服消费者、开发者和投资者,苹果可以在AI时代蓬勃发展。 实际上,在过去六个季度中,有五个季度的收入均呈下滑趋势,可见苹果在现有业务上增长的乏力程度。若能在WWDC 24上推出令人惊艳的AI战略,苹果所面临的压力或许将大大缓解。 最近,微软和谷歌在各自的开发者大会上也接连“开火”,纷纷展示了它们在AI领域的突破。 微软在Build 2024上发布了多项AI功能,将全面整合到Windows和Office产品中。谷歌则在I/O 2024大会上推出了新一代AI驱动的安卓系统和各种AI工具。 在这种火药味十足的竞争环境下,在即将到来的WWDC 24上,苹果将如何接招?其应对之策值得期待。 来源:9to5mac、bloomberg、MacRumors
美媒点出苹果进军AI真实目的:不是为了用户
苹果WWDC即将开幕 凤凰网科技讯 北京时间6月10日,今夜凌晨1点,苹果公司将召开2024年度全球开发者大会(WWDC),预计人工智能(AI)将成为开幕主题演讲的重点。不过,美国《纽约时报》一针见血地指出,苹果此次进军AI市场的主要原因可不是为了普通用户。 知情人士称,近几个月,苹果企业发展副总裁阿德里安·佩里卡(Adrian Perica)协助领导了一项努力,那就是把生成式AI带给普通大众。佩里卡与其同事已经与谷歌、OpenAI等AI领导者进行了谈判,希望找到一个合作伙伴,帮助苹果在其业务中提供生成式AI。报道证实,苹果近期已经与OpenAI达成了一项协议,将后者的技术融入iPhone。截至上周,苹果仍在与谷歌进行谈判。 苹果在生成式AI上的努力,推动公司开发出了更强对话性和多功能版本的Siri,该版本将于周一发布。Siri将由苹果开发的生成式AI系统驱动,能够聊天,而不是一次只回答一个问题。一位熟悉苹果营销计划的人士表示,苹果将以苹果智能(Apple Intelligence)的名字来推广其新的AI功能。 取悦华尔街 不过,《纽约时报》同时表示,苹果投身AI市场的主要原因是取悦华尔街投资者,而不是为了普通消费者。这项技术提升了微软公司、英伟达公司的市值,前者是生成式AI领域的重要参与者,后者则是AI芯片巨头。今年1月,微软超越苹果成为全球市值最高的上市科技公司。 在市场重新洗牌的同时,苹果对AI保持沉默。苹果的政策一向是不透露未来的产品计划,但是随着公司在股市地位的下滑,苹果CEO蒂姆·库克(Tim Cook)打破惯例,在5月份的一次电话会议上告诉华尔街分析师,苹果将很快推出生成式AI产品。 自库克做出这一承诺以来,苹果股价已经反弹。截至上周五,苹果股价今年累计上涨了6%,但低于微软、英伟达的涨幅。微软股价今年已累计上涨14%,英伟达更是上涨了151%。 苹果进军生成式AI,将考验该公司能否再次进入一个新市场并重新定义它。虽然苹果并没有首先推出第一个数字音乐播放器、智能手机或智能手表,但它通过iPod、iPhone和Apple Watch改变了这些产品类别。如今,在目睹了微软、Meta、谷歌和三星将生成式AI融入各自产品两年后,苹果正从观察者变成潜在的挑战者。 对生成式AI这项技术来说,融入iPhone也是一个关键时刻。这种技术可以回答问题,生成图像和编写软件代码。苹果将把生成式AI的覆盖范围扩大到逾十亿用户,并确定它对于日常iPhone用户的实用性。 “我们仍在研究AI,因为它太复杂了,”科技研究公司Creative Strategies的总裁卡罗琳娜·米拉内西(Carolina Milanesi)表示,“苹果在所有事情上都相当保守,所以我不知道他们是否能够做到让人们拍案叫绝。但他们必须这样做,因为这将是我们与未来技术互动的方式。” 截至发稿,苹果、OpenAI以及谷歌都不予置评。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
一个尴尬的事实:先进芯片供应链,和中国大陆无关
目前最先进的手机芯片是苹果的3nm芯片,最牛的AI芯片是英伟达的B200,最先进的CPU是intel的Lunar Lake…… 但是,大家都要清楚,这些芯片就算能设计出来,但能不能被生产出来,还要看台积电的水准,能不能实现大家的设想,因为这些芯片都是台积电3nm工艺代工的。 而台积电能不能制造出来,背后还依赖于ASML,要看ASML能不能将最新的EUV光刻机造出来,如果没有EUV,台积电也没办法。 可以说,从ASML-->台积电,再从台积电-->苹果/英伟达/高通/intel等,构成了全球最先进的芯片供应链。 这条先进芯片供应链,是一环扣一环的,没有备胎,非常脆弱,任何一环出现问题,都会导致整个产业链崩掉。 比如如果ASML的EUV光刻机生产不出来,芯片工艺就暂停,台积电也没办法。如果台积电技术无法进步,那么苹果、高通、英伟达等设计出再牛的芯片,也无法制造…… 但是这条供应链,却举足轻重,因为这条供应链控制着超过6万亿美元市值的的财富,毕竟英伟达一家就高达3万亿美元了,还有台积电、ASML、高通、AMD、联发科、苹果的一部分等,全在这条供应链上。 而这条供应链更是影响着全球半导体市场,影响到至少超过20万亿美元的GDP产值,你说重要不重要? 但是,一个比较尴尬的事实上,中国大陆和这条供应链没有任何关系。能扯得上关系的,只是最终从高通、intel、英伟达等厂商那里,买到最终的先进芯片产品来使用,仅此而已。 ASML的EUV光刻机和我们没有关系,我们的供应链没有打入ASML的EUV光刻系统,ASML的EUV光刻机也不卖给我们。 台积电和我们其实也没关系,虽然都是中国企业,但台积电实际上听的是美国的话,美国要他不给谁代工,就不给谁代工。 苹果、高通、intel、英伟达都和中国大陆没有关系,他们的先进芯片卖给中国,也只是到中国来赚钱,最终产品销售,只是买卖关系。 说真的,如果我们一直被这条先进供应链排除在外,对于我们而言是非常不利的,自己制造不出先进芯片,只能被卡脖子,被别人割韭菜。 所以基于目前不乐观的外部形势,我们必须要想办法破局才行,而破局的关键是EUV光刻机,出手之人,是上海微电子。 而一旦上海微电子能够制造出EUV光刻机,那么接下来这条先进芯片供应链,就不再是全球唯一了,华为能够设计出最先进的芯片,不会输给苹果、高通、intel等,而中芯国际有望制造出最先进的芯片,不会输给台积电等。 那么上海微电子-->中芯国际,再从中芯国际-->华为/中兴等等中国芯片设计企业,先进芯片供应链,将出现彻底的洗牌。 不过这个时间肯定不会很短,也许3年,也许5年、8年、10年,但相信一定会有这么一天到来,在最核心的芯片工艺供应链舞台上,一定会有中国大陆的一席之地。
中国AI大战高考物理,第1题全对,第2题开始放飞
端午佳节,有的地方高考已经结束,有的考生还奋战在考场上。 先祝大家都心想事成,考出水平。 陆陆续续,文理综各个科目的考试题目开始在网上流出,那么语文数学之后,也是时候让大模型们继续来挑战一波了。 考题方面,先给大模型们来一份辽宁物理—— 多解释一嘴,新高考改革下大部分省份已经取消了文理分科,采用3+1+2或3+3的新模式,也就是物理化学生物现在是拆开考的。 那么闲话少叙,我们有请参赛AI助手—— 通义千问、文心一言、Kimi、智谱清言、豆包、海螺AI、腾讯元宝、讯飞星火、天工、百小应、万知、商量。 Round 1:单选题 这份物理卷共有10道选择题,其中1-7题为单选题,总计28分。 1、3两题不涉及图片解析,人类考官直接把题目扔给了大模型: 图片题给出的提示词统一为:查看图中题目,给出答案。 在看详细答案之前,心急的看官们可以先扫一眼“考试”结果(测试方法比较简单粗暴,不能完全反映各AI真实水平,仅图一乐): 文心一言、豆包、天工、智谱清言和商量出现了不同程度读图失败的问题,在成功识别的题目中,商量和文心一言的正确率为2/4,豆包、天工、智谱清言正确率为1/2。 接下来,就来看看大模型们的具体表现。 单选题中,准确率最高的是第一题,一道有关标量矢量的概念题,参赛大模型百分百通过。 到了第二题,大模型们就开始各有各的想法了。 题目是: 来看看成功得分的选手们的回答: 通义千问 文心一言 海螺AI 讯飞星火 4位选手中,文心一言和讯飞星火进行了逐个答案的分析,海螺AI则最言简意赅,只回答了答案没给过程。 另一道正确率比较高的题,是难度较大的第5题。 但答对这道题的选手名单有所不同,讯飞星火、海螺AI依然在列,另外两位换成了Kimi和腾讯元宝。 Kimi 腾讯元宝 和海螺AI一样,腾讯元宝也是惜字如金型(doge)。 另外一个有意思的现象是,有的大模型选手尽管答案不对,但还挺有考试技巧的。 比如ChatGLM,在面对双缝干涉实验中,“哪种说法可以使相邻两条亮纹中央间距变小”这个问题时,它一通分析觉得答案全错,但还是退而求其次挑了一个看上去相对正确的答案。 Round 2:多选题 再来看看多选题(18分)的情况。 p.s. 在多选题作答过程中,人类考官在提示词中提醒了选手们这是“多选题”。 根据多选题判卷规则,全部选对得满分,部分选对得一半分,有选错不得分,表现最佳的是海螺AI(2道题全对,1道题部分对),其次是通义千问、文心一言和万知(1道题全对,2道题部分对)。 和单选题的情况类似,大模型们正确率最高的第8题是一道概念题: X射线光电子能谱仪是利用X光照射材料表面激发出光电子,并对光电子进行分析的科研仪器,用某一频率的X光照射某金属表面,逸出了光电子,若增加此X光的强度,则( ) A. 该金属的逸出功增大 B. X光的光子能量不变 C. 逸出的光电子最大初动能增大 D. 单位时间逸出的光电子增多 第9题有两位选手选中了全部正确选项:海螺AI和万知。 来看看万知的具体回答: 今日份的测试,就先到这里,你觉得大模型们的表现如何?至少在这份物理卷子46分的选择题里,还是有不少选手能拿到及格分了。
谷歌CEO:并不是每次搜索都有AI答案
编译|吴莹 董思晨 来源|The Verge(YouTube) 头图来源|视觉中国 “我对AI搜索保持乐观,因为人类的好奇心是无限的,在搜索这方面,谷歌比其他任何公司都能更深刻地理解这一点。”谷歌CEO说道。 5月,谷歌I/O大会上,首席执行官桑达尔·皮查伊宣布向美国用户推出AI Overviews服务,这意味着人工智能进入搜索领域,人们将可通过提问、聊天的方式进行AI搜索,并获得AI生成的答案。这被认为是25年来搜索引擎最重大的更新之一。近日,谷歌CEO桑达尔·皮查伊(Sundar Pichai)与美国新闻网站The Verge主编尼莱·帕特尔(Nilay Patel)就AI搜索的一系列问题展开了对话。 桑达尔·皮查伊在对话中表达了对AI搜索未来发展的乐观态度,他认为AI搜索可以给人们提供更多背景信息,使用户更深层次地参与到问题的探讨中来,长期来看能够促进信息增长,带来更多流量。他反复强调,搜索的本质是提供优质内容,如果AI生成的答案无法给用户带来增量价值,那肯定不是用户想要的。他还指出,并不是每次搜索都会自动生成AI答案,他们非常尊重用户的意愿,只有用户想要AI答案时,才会在页面中显示出来。当被问到AI搜索时代是否会披露搜索结果排名的详细规则时,桑达尔·皮查伊坦言,会寻求一定的信息公开,但也同样担心人们对结果排名进行人为操作,会一直努力去寻求这种平衡。 最后,桑达尔·皮查伊谈到了对未来网络生态的展望,他认为人类对信息的消费方式不局限于现有的网络模式,现在人们可以通过网页、APP获取信息,未来他希望有更多内容更丰富、互动性更强的网络模式可选。 对话的精彩观点如下: 1.语言可以编码智能,这也可以解释为什么大型语言模型能获得成功。 2.我对AI搜索保持乐观,因为人类的好奇心是无限的,在搜索这方面,谷歌比其他任何公司都能更深刻地理解这一点。 3.随着人工智能时代的到来,谁在平台内容支持上做得更好,谁就会是赢家。 4.当你运行一个生态系统时,实质上是在平衡不同的需求,这是产品成功的本质。 5.人们对AI Overviews给出积极反馈的原因是我们提供的答案有明显的增值效果,帮助他们看到了可能没有想到的事情。 6.人类对信息的消费方式不局限于现有的网络模式,现在你可以通过网页、APP获取信息,但未来希望有更多网络模式可选,它的内容更丰富,互动性更强。 以下为对话全文(有删改): 语言可以编码智能 主持人:欢迎你来到这里,我有很多与人工智能相关的问题想和你讨论。我对互联网的未来特别期待,所以我们先从一个简单的问题开始:语言等同于智能吗? 桑达尔·皮查伊:我不是这方面的专家,但我认为语言可以编码智能,这也可以解释为什么大型语言模型能获得成功。我的直觉告诉我,语言之外还有更多值得我们探索的东西。 主持人:我看了谷歌I/O大会上发布的人工智能公告,了解了你们正在做的事情,也了解了你的竞争对手在人工智能方面的发展情况,大家都很重视语言,LLM(大型语言模型)真正引爆了大众对人工智能创新和投资的兴趣。我想知道人工智能的发展速度是否与语言能力的增长速度同频?我不明白的是,某些情况下,计算机在语言理解方面越来越强,但表现得却越来越笨,这是怎么回事? 桑达尔·皮查伊:这是一个好问题。我们推出的Gemini是多模态模型,训练时不局限文本,而是通过音频、视频、文本、图像和代码等多种方式进行训练,以便它能处理更复杂的问题。目前已初具雏形,但还未能完全将这些能力融入产品中。也许在下一个周期,当我们在输入端和输出端都使用多模态训练的方法,我相信大模型的能力会更强大,智能水平也会更高。 主持人:我问这个问题的原因是,我观察了大家对人工智能出错的反应,随着时间的推移,大家变得越来越温和。比如你在谷歌I/O大会上现场演示了人工智能多模态搜索解决问题的方法,当时那个问题是如何修理一台坏掉的胶片相机。人工智能给出的是错误答案,它说的是“只要打开胶片相机的后盖,然后晃动一下就可以了。”这很明显会毁掉相机里的东西。 桑达尔·皮查伊:讽刺的是,我当时和制作视频的团队讨论过,他们说生成的这个答案给专家看过,专家说没问题。我理解其中的细微差别,也同意你的观点,正常情况下人们不会把胶片拿到暗房外曝光。但我觉得人工智能这么做是有意义的。我希望搜索的作用是给用户提供更多的上下文信息,可以让人们更深入地探索,而答案不准确或者有错误,这些都是我们需要不断改进的地方。从你刚才的问题来看,人工智能的研究确实在向前发展,以前只有文本训练的大模型已经不能满足我们对人工智能的需求,而多模态大模型让我们看到了更多机会。 让人喜忧参半的AI搜索 主持人:近日,你们宣布人工智能将进入搜索领域,将向美国用户推出AI Overviews服务。此消息一出,网站制作者们都炸锅了,这对他们来说不亚于“世界末日”到了。比如新闻媒体联盟(News Media Alliance)的首席执行官对CNN(美国有线电视新闻网)说:“这将对我们网站制作者的流量造成毁灭性打击。”另一位媒体CEO给我转发了一则时事通讯,标题是“这对出版商是致命打击”。你是否预料到推出AI搜索功能时大家的这种反应? 桑达尔·皮查伊:我记得2010年时就有新闻说网络已经消亡,我长期从事互联网工作,所以我很关注这个。当人们处于台式电脑向移动设备过渡的阶段时,也曾有过很多担忧,比如觉得屏幕太小,人们该如何阅读内容,或者人们为什么要在移动设备上阅读内容等。我对AI搜索保持乐观,因为人类的好奇心是无限的,在搜索这方面,谷歌比其他任何公司都能更深刻地理解这一点。作为一家公司,我们意识到了生态系统的价值,它是共生的,如果没有一个丰富的生态系统来输出独特而富有价值的内容,又怎么能吸引并留住用户呢?尽管工具不断发展变化,但用户始终都在寻找高质量的内容,就人工智能搜索而言,这不是一场“零和博弈”(在严格竞争下,一方的收益必然意味着另一方的损失。),根据我们在搜索中看到的变化,人们对AI的反应非常积极,对它跃跃欲试。当你提供问题相关的背景信息时,不仅有助于用户理解,也有助于他们参与到下一步内容生成中。事实上,如果你将内容和链接放在AI Overviews中,它们的点击率会比放在AI Overviews之外时更高。 但我理解这些担忧的情绪,这些变化都属于破坏性时刻。人工智能是一个巨大的平台转变,对那些已经投入大量精力在传统平台输出内容的创作者而言,跟不上转型的确是危险的,我理解这些创作者的情绪,但我自己对AI Overviews是保持乐观态度的。 主持人:谷歌一直有一个“Google Zero”的争论。谷歌几乎是所有网站最后的一个大规模推荐流量来源。对很多网站来说,Google Zero正在发挥作用,他们的谷歌流量已经接近0了,尤其是那些不属于某个大型出版集团的独立网站。我们报道过一个名为HouseFresh的空气净化器博客,还有一个名为Retro Dodo的游戏网站,这两个网站表示他们能获得的谷歌流量几乎为零,他们觉得自己的生意要完蛋了。你怎么看这个情况? 桑达尔·皮查伊:谈论个案总是很困难,我们在努力满足用户的需求,人们在努力找出对他们有价值的东西,我们在统筹一切做这件事情,所以无法回答具体个案的问题。 主持人:但事实是一群小玩家遭受了巨大的伤害,他们的业务正在消失。 桑达尔·皮查伊:但我并不能由此判断这是一个趋势,必须看到数据或者其他证明。单纯某个网站做不下去了没办法推断出是一种趋势,就像某一家餐馆说“今年我的顾客减少了”,这无法推断出顾客的总量少了,人们都不吃饭了的结论,有可能是被其他餐馆抢走了顾客,对吧?从我们的角度来看,过去十年里,为生态系统提供了更多的流量,推动了网站数量的增长。事实上,近十年我们反而为小型网站输送了更多流量,所以流量为什么没有流向那些网站,这是个很深奥的问题,我暂时无法给出正确答案。 主持人:但你即将做出改变是吗?你希望最关心这些信息的人可以直接发布信息,直接生成信息。那也就意味着在网络上,创作内容的激励似乎越来越低了。 桑达尔·皮查伊:我觉得恰恰相反。有些时候,人们进行搜索只是快速想得到一个答案,但还有一部分用户他们一开始并不知道自己需要什么,而通过AI Overviews,可以给人们提供更多背景信息,他们会更深层次地参与到问题的探讨中来,长期来看这无疑能够促进信息增长,带来更多内容和流量。 从桌面到移动,再到现在的人工智能,大家都有探讨过“网络已死”这个话题,十年前大家就争论过“Google Zero”。我们仍然是最大的推荐者之一,所以长期以来一直非常关注这些话题。过去一年,我们还在探索满足用户期望,获得更多流量的方法。经过深入思考,我们实际上已经改变了操作方法,对于我们还没有完全了解的领域,会谨慎推荐流量,不过,我们发现还是只有高质量的内容才能吸引用户,带来更多增长。关于什么是高质量内容还存在很多争论,但根据我自己的经验,我更重视那些有独立来源、规模更小的发声者,我想要更多真实的声音。 主持人:近日我阅读了一些SEO(搜索引擎优化,利用搜索引擎的规则提高网站在有关搜索引擎内的自然排名。)出版物,它们对AI Overviews带来的变化做出了一些回应,其中指出的一点是,在搜索结果中,它不会显示是来自精选片段还是AI生成,或者只是普通的网站链接。你们今后会将这些显示出来吗,以便人们可以审核、验证和测量AI Overviews带来的流量是否如同你说的那般多? 桑达尔·皮查伊:这对搜索团队来说是一个好问题。我们一直在努力提供更多的可见性,也希望人们能创作出更多好内容,需要做好这两者之间的平衡。因为要是我们对答案词条在搜索页面的排名规则进行详细规范和设计,就会有更多人对此进行研究,并针对其进行操作。我不太清楚正确的答案是什么,但可以肯定的是要做好这里面的平衡问题。产品成功的本质 主持人:最近有新闻报道称OpenAI在YouTube上训练了其文生视频大模型Sora。你听到这个消息时有什么感受? 桑达尔·皮查伊:我们不知道细节,是YouTube团队正在跟进这件事。我们有条款和条件,并希望人们遵守这些条款和条件,所以我认为当你开发一款新产品时,应该注意这些问题。 主持人:这是一个更情绪化的问题,OpenAI的说法是“我们利用公开信息训练大模型”,所以大多数人其实是拿不到他们的收益的。他们没有一个像YouTube这样的专业团队,也没有清晰的条款,只是把自己的作品上传到网络上。你是否理解创意社区对AI利用他们的素材进行训练的这种情感反应? 桑达尔·皮查伊:无论是网站所有者、内容创作者还是艺术家,我能理解这种情感反应。就像音乐生成,我们采取的方法是首先为艺术家制作工具,我们还没有推出通用工具供任何人创作歌曲。因此,在许多情况下,我们是尽可能将创作者置于中心位置。YouTube一直在尝试找出解决这个问题的正确方法,但这也是一个变革的时刻,要知道,我们不是这个生态系统中唯一的参与者。但对于你刚才的问题,我非常理解人们对这一变革时刻的情绪。 主持人:因为他们觉得这是一种索取,他们把作品放到网上,大公司免费拿走训练模型,然后推出每月收费20美元的产品。让人感觉像是被夺走了什么但几乎没有给他们带来任何价值。我真正想问的是如何去激励这些小创作者,给他们带来价值? 桑达尔·皮查伊:YouTube之所以能取得今天的成功,就是因为它在创作者激励这块做的还不错,一直在努力解决这个问题。我相信最终在这里做得很好的玩家将拥有更多制胜策略。我们必须理清这一点,这是建立一个长期可持续发展平台的基础。随着人工智能时代的到来,谁在平台内容支持上做得更好,谁就会是赢家。 主持人:有人认为YouTube主要做的是授权业务,从创作者那里获得内容授权,然后通过广告收益回报他们。环球音乐对YouTube上的人工智能很介意,他们制定了很多规则,规定人工智能不能做什么,谷歌的反应却不尽相同,我想知道你是否可以解决这个问题。 桑达尔·皮查伊:我们在测试、迭代、确定优先级上花费了大量时间,我们非常关注用户的反馈,但并非我们所做的一切都会得到人们的同意。当你运行一个生态系统时,实质上是在平衡不同的需求,这是产品成功的本质。 主持人:我看到正在发生的另一件事是网络上充斥着人工智能内容。比如几个月前,一些不怀好意的SEO人员说“我复制了竞争对手的站点地图,将其输入人工智能,让它为我生成一个与他们的站点地图相匹配的网站副本,用这个副本从竞争对手的网站上窃取了大量流量”,我认为这是一个很糟糕的情况。我们不应该以任何方式或形式来鼓励这种行为。一方面,你该如何构建为人们创建合成内容的系统;另一方面,你又该如何对这些生成内容进行排名,以便用户获得最好的内容。 桑达尔·皮查伊:你这个问题有多个部分,第一,我们如何筛选出高质量内容。这是我们的使命,多年来这一直定义着搜索。我们整个搜索团队去年投入了大量资金,一直在完善我们的排名系统,以便更好地获取高质量内容。相信下一个十年,只有在内容筛选上做得更好,真正能筛选出高质量内容的平台和公司,才能获得胜利。 第二,人们很重视内容创作的体验。每当新技术出现时,大家都很小心谨慎。如果你和一些老电影人去讨论CGI(电脑三维动画技术),他们会有非常情绪化的反应,直到现在仍然有一些受人尊敬的电影制作人从不在电影中使用CGI,但也有人使用CGI制作出优秀的电影。所以我认为不能简单评价人工智能,人们可能正在使用人工智能来增强视频效果,也有人还没接受人工智能。但我同意你的观点,使用人工智能来生产大量内容但不增加任何价值,这不是用户想要的。随着时间的推移,用户也在不断适应AI内容,我们需要确保以负责任的方式做这件事,用心倾听用户对高质量内容的评判,并努力保持平衡。也许几年后搜索的形式发生了翻天覆地的变化,但搜索的本质仍然不会变。 一起探索AI Overviews 主持人:我们来实践一下AI Overviews,我们先在搜索框里输入最好的Chromebook(谷歌推出的笔记本电脑)。然后我把手机交给谷歌CEO,你可以看到,我问它最好的Chromebook,它们会说“这里有一些你可能会想到的东西”,然后你就会看到一些Chromebook的图片展示,还有一些是带有“最好Chromebook”标题的新闻。可以看到并没有“最好的Chromebook”这个问题的直接答案。按理说使用人工智能辅助搜索是为了更好地获得答案,但就现在这个体验而言,似乎与普通搜索没有差别。你这么看? 桑达尔·皮查伊:你向我们展示了一次搜索过程,但我们并没有自动生成AI Overviews,这是因为我们尊重用户的意愿。当我滚动搜索界面时,我看到了Chromebook,还看到了一整套可以访问的链接,它们告诉了我目前对Chromebook的所有看法,因此本例中没有展示AI Overviews,作为用户,你正在生成后续问题。 主持人:我的意思是这上面没有写什么是最好的Chromebook?答案并不在这一页面上,或许还需要谷歌为我按下一个按钮才能获得,那么就今天的搜索体验而言,这是你们的目标吗,还是只是一个起点,未来还有更好的搜索体验版本。 桑达尔·皮查伊:未来如何发展还无法预测,用户是在不断变化的,这是一个比以往任何时候都更加充满活力的时刻,我们正在测试各种情况,这次的搜索没有触发AI Overviews是因为我们认为AI Overviews不是我们想要为该查询提供的第一个体验,这些是我们在内容质量上做出的权衡。但如果用户要求的是生成摘要并提供链接,那我们会照做。我觉得这是一个合理的方向,用户需要什么就提供什么,而不是每一条都提供AI Overviews。 主持人:我再给你看一个彭博社戴夫·李(Dave Lee)所做的搜索,他只是搜索了“JetBlue Mint Lounge SFO”,然后他得到了一个AI生成的答案,然后往右滑可以看到这个答案的出处,但我们拿到的是AI重写过的,你能理解我的意思吗,就是现在我们得到的AI答案只是原有信息的重写,并不是新生成的,它是原来网站上已存在的信息。 桑达尔·皮查伊:我们要处理数十亿次查询,根据我的观察,人们对AI Overviews给出积极反馈的原因是我们提供的答案有明显的增值效果,帮助他们看到了可能没有想到的事情。这就是我们推出AI Overviews想要达到的效果。数据显示,过去25年,我们如果没有做让用户认为有价值的事情,他们会立刻通知我们,我们一次又一次见证了这个事情,人们很重视使用搜索的体验。 AI搜索的竞争与未来 主持人:前几天我看到了GPT-4O(Omni)的演示。它看起来很像你在I/O大会上的演示,即一种多模态搜索的理念。你感受到竞争带来的压力了吗? 桑达尔·皮查伊:这与当初的Siri和ALexa没有什么不同,我们都在科技领域工作,这在我看来是一种无限的创新。几年前我们所有人都在打造语音助手时,你可能会问相同的问题。现在有了一项新技术,而且它正在迅速发展,这对技术来说是“美好的一周”,周一和周二都有很多创新,并且我认为这种创新热情还会持续一段时间。我喜欢底层技术快速发展的阶段,这样可以从根本上改善用户的使用体验,我们并不希望进入一个相对静止的发展阶段,因为这个阶段无法获得快速增长。很多人对强大的智能助手都抱有期望,但如果因为底层技术的限制而无法实现这一目标,这是我们不愿意看到的。我们拥有能够更好地服务于此的底层技术,可以让Google Assistant变得更好,这无疑令我感到兴奋。 主持人:大概五年后,人工智能搜索这项技术就会成熟,届时你认为最好的网络状态是什么样的? 桑达尔·皮查伊:我希望未来的网络形态更加丰富。人类对信息的消费方式不局限于现有的网络模式,现在你可以通过网页、APP获取信息,但未来我希望有更多网络模式可选,它的内容更丰富,互动性更强。不得不承认,人们可能会利用人工智能生成大量垃圾邮件,但这可能是因为每次有新的技术浪潮出现时,人们不知道该如何使用它,就像移动设备出现时,每个人都只是把网页做成移动版本,后来人们才发展出真正的原生移动应用程序。因此,人们使用人工智能实际解决新事物,新用例的方式尚未出现,当这种情况出现时,我们的网络也会变得更加丰富。不同的人有不同的需求,或许普通只会比较浅地使用人工智能,但总会有企业家找到它的正确用法,并进行推广,这样一来,就会有伟大的创新出现。 主持人:是的,谷歌通过搜索、Chrome浏览器等为网络开发提供了很多激励措施,那么在未来人工智能发展阶段,你们要如何确保这些激励措施与目标保持一致,能指向正确的方向? 桑达尔·皮查伊:在制定激励措施前,我们需要先思考一个复杂的问题,那就是如何奖励那些具有原创性、独特性和创造力的内容。而对于创作者,我们希望无论他们做到什么规模,都可以在我们创建的内容生态系统中获得蓬勃发展的机会。这是我的想法,也是我们搜索团队的想法,是我们制定激励政策的重要原则。
深度学习之父Hinton万字访谈录:中美AI竞赛没有退路可言
文 | 王启隆 近日,27 岁天才创始人 Joel Hellermark 分享了自己和“AI 教父” Geoffery Hinton 的最新采访。Hinton 在对话中回忆自己的人工智能生涯,谈论神经网络、Scaling Law、多模态学习、模拟计算和人工智能伦理安全等多个话题,并聊了聊他的得意门生 Ilya Sutskever(前段时间离职的 OpenAI 首席科学家)。 Geoffery Hinton 受访者非常“重量级”,但采访者其实也不容小觑。Joel Hellermark 自幼在东京长大,13 岁开始编码,14 岁创立了一家视频推荐公司。在一家数字广告公司工作后,他于 19 岁创办了人工智能研究实验室 Sana(当时还不叫 Sana AI,而是叫 Sana Labs),并在 2023 年的时候筹齐 8000 万美元融资。 Joel Hellermark Hellermark 坚信学习的力量,所以他没有选择上大学,而是通过斯坦福公开的课程学习如何编码。他创办 Sana 公司的目标就是四个字:“改变教育”。Hellermark 希望通过培养员工学习和访问信息的能力,来提高员工的工作效率。 话不多说,以下是采访全文: 人工智能生涯:从研究大脑开始 Hellermark:你是什么时候开始编程的? Hinton:我从英国刚到卡内基梅隆大学的时候。 1982 年Hinton 前往卡内基梅隆大学他在那担任计算机科学系教授直至 1987 年 我在英国的研究单位时,每晚六点钟大家都会去酒吧喝一杯。 但到了卡内基梅隆几周后,我还没交到多少朋友。所以在某个周六晚上,我发现自己不知道该做什么,于是决定去实验室编写一些程序:因为实验室里有一台 Lisp 机器,家里没有。 Lisp 机器 所以,我在那个周六晚上的九点左右前往卡内基梅隆的实验室,里面人声鼎沸,所有学生都在那里研究未来,他们相信自己接下来要做的事情将会改变计算机科学的进程。这与我在英国看到的情况截然不同,令我耳目一新。 Hellermark:能不能把我们带回一切的起点 —— 剑桥时期的 Geoffrey( ~ 1970 年),试图理解人脑。脑研究是什么样的体验? Hinton:非常令人失望。我为了研究大脑,先是去学习生理学。在夏季学期,(剑桥的)老师打算教我们大脑是如何工作的,但实际上他们只教了我们神经元如何传导动作电位……这非常有趣,但不是大脑工作的原理。所以,那堂课真是令人极度失望。 于是我又转向了哲学,因为我以为他们会告诉我心灵是如何运作的。结果也是非常令人失望。最终,我选择到爱丁堡学习人工智能。人工智能倒是更有趣一些,至少我可以模拟事物,从而测试理论。 1978 年在爱丁堡大学Hinton 获得了人工智能博士学位 Hellermark:你还记得是什么激起了你对人工智能的兴趣吗?是一篇论文吗?还是某位特定的人向你介绍了这些想法? Hinton:我想是因为唐纳德·赫布(Donald Hebb)的一本书,它对我影响很大。里面介绍了如何学习神经网络中的连接强度。 Donald Hebb 曾在《行为的组织》一书中提出了著名的“突触学习学说” 早期我还读过约翰·冯·诺伊曼(John von Neumann)的一本书(《计算机与人脑》),书里介绍了大脑的计算方式以及大脑计算与普通计算机的区别。 Hellermark:当时你是否确信书里的这些学说?你的直觉是什么? Hinton:我当时的想法是,大脑学习肯定有其独特的方式。显然,大脑不是通过预设各种程序,再运用逻辑推理规则 —— 从一开始我就觉得这种方法很荒谬。所以我们必须弄清楚大脑是如何在神经网络中调整连接以完成复杂任务的。冯·诺依曼和图灵(Alan Turing)都相信这一点,他们二人在逻辑方面都很出色,且他们并不认同这种逻辑方法。 Hellermark:你是如何平衡「研究神经科学」和「开发 AI 算法」的?你早期从神经科学研究中获得了多少灵感? Hinton:其实我并没有深入研究过神经科学,我只是常被大脑工作原理的相关知识所启发。大脑中有大量的神经元,它们执行“相对简单”的操作 —— 通过神经元接收输入、进行加权处理并产生输出,以及通过调整权重来优化整体功能 —— 在概念上,这些操作听起来很简单,但实际上并非如此,问题在于如何调整这些权重以使整个系统实现有益的功能。 Ilya:凭直觉思考的天才 Hellermark:你还记得以前经历过的合作吗? Hinton:我在卡内基梅隆大学时曾与泰伦斯·塞诺夫斯基(Terry Sinofsky)有过许多交流,他当时在巴尔的摩(Baltimore)的约翰霍普金斯大学(Johns Hopkins)。 Terrence Sinofsky 我们每个月定期联络,要么他开车来匹兹堡,要么我开车去巴尔的摩。两地相距 250 英里(相当于从北京到石家庄的距离)。我们会一起度过一个周末,共同研究玻尔兹曼机(Boltzmann Machines,由玻尔兹曼分布得名)。那是我做过的最令人兴奋的研究,并且产生了很多非常有趣的技术成果,我们曾一度以为那就是大脑的工作方式。 1985 年Hinton 和 Sinofsky 发明了玻尔兹曼机这是随机神经网络和循环神经网络的一种 我还与彼得·布朗(Peter Brown)有过一次非常好的交流,他是一位非常优秀的统计学家,在 IBM 从事语音识别工作。后来他作为一个更成熟的学生来到卡内基梅隆大学攻读博士学位(编者注:实际上,Hinton 是 Brown 的博导)。 Brown 教会我许多关于语音的知识,甚至还帮助我弄懂了隐马尔可夫模型(Hidden Markov Model, HMMs)。我认为我从他那里学到的比他学到的多,而这就是我想要的那种学生。 当时我正在着手于带有类似结构的网络进行反向传播(backpropagation)研究,但尚未采用“隐藏层”这一明确命名。Brown 让我受到了隐马尔可夫模型中“隐藏”状态概念的启发,使得我们后来共同决定采用“隐藏层”(hidden layers)一词来描述神经网络中那些无法直接观测、却对模型学习和预测起到关键作用的中间层。 Hellermark:请带我们回忆你的另一位学生 —— Ilya Sutskever。 Hinton:我当时在我的办公室里编程,时间可能是某一个周日。突然有人敲门 —— 不是普通的敲门声,而是有点...几乎是急促的敲门声。于是我走过去开门,门口站着一位年轻的学生。他告诉我,比起暑期炸薯条的工作,他更渴望能在我的实验室工作。所以我告诉他,“那你为什么不预约一下,我们谈谈呢?” Ilya 说:“那就现在谈谈吧!” 这正是他的性格。 所以我们聊了一会儿,我给了他一篇论文阅读,那是关于反向传播的《自然》(Nature)论文。我们约定一周后再见面,他回来后说:“我没看懂。” 我感到非常失望。我想:“他看起来挺聪明的,但这只是链式法则而已。理解起来并不难。” 他却说:“哦,不,不,那个我懂。我只是不明白 —— 为什么不直接将梯度(即损失函数相对于模型参数的导数)应用于一个更合理的函数优化器呢?” 后来,这个问题成为了我们多年研究探讨的重点。Ilya 就是这样,他对事物的直觉总是非常敏锐。 左一为 Ilya,右一为 Hinton中间则是 Alex Krizhevsky三人合作设计了 AlexNet在 ImageNet 比赛取得了冠军 Hellermark:你认为是什么让 Ilya 有着这样的直觉? Hinton:我不知道。我觉得他总是独立思考。他从小就对人工智能感兴趣,且他显然数学很好,所以...很难确切知道原因。 Hellermark:你们俩是如何交流的?你们各自扮演着什么样的角色? Hinton:非常有趣。 我记得有一次我们试图用数据制作复杂的地图,其中用到了混合模型,目标是利用相同的相似性集合生成两张地图。在一张地图上,「bank(银行)」可能靠近「greed(贪婪)」,而在另一张地图上,「bank(银行)」则可能靠近「river(河流)」。 由于在一张地图上,「bank」不能同时靠近「greed」和「river」这两个相距甚远的词语。因此,我们需要创建地图的混合体。这项工作在 MATLAB 编程环境中进行,需要大量重构代码以实现正确的矩阵乘法操作。 在这个过程中,Ilya 对反复修改代码感到厌烦。有一天他告诉我,“我要为 MATLAB 编写一个接口,这样我就可以用另一种语言编程,从而直接将其转换成 MATLAB 代码。” 我告诉他:“不行,Ilya,这会花掉你一个月的时间。我们得继续推进这个项目。别被那个分心了。” Ilya 却说:“没关系,我今天早上已经搞定了。” Hellermark:哈哈,真是令人难以置信。在这些年里,最大的转变不仅仅是算法,还有规模(scale)。你是如何看待这些年来的数据规模增长? Hinton:Ilya 很早就有了“增加规模会有更好效果”的直觉。他一直主张“只要模型做得更大,效果就会更好”,而我起初认为这只是逃避复杂问题的一种方式,告诉他“除了扩大规模,还需要有新的创意和想法”。 事实证明,Ilya 的观点基本上是对的,虽然新想法如 Transformer 架构确实带来了很大帮助,但真正推动进步的是数据规模的扩大和计算能力的提升。在早期,我们未曾预料到计算机的速度会提高上亿倍 —— 我们原本预计最多只能提升百倍。因此,我们当时一直尝试通过巧妙的创新想法来解决问题,而实际上,如果当时就有如今这么大规模的数据和计算能力,许多问题可能早已迎刃而解。 大约在 2011 年,我和 Ilya 以及另一位研究生詹姆斯·马丁(James Martens)合作了一篇论文,利用维基百科(Wikipedia)作为数据源,尝试预测下一个 HTML 字符,结果出奇地好。我们一直对模型的表现感到惊讶:虽然我们不敢确定模型是否真的理解了内容,但从表现上看仿佛它确实理解了一样,令人难以置信。 James Martens在数届机器学习国际会议(ICML)上他们师徒三人多次合作发表论文。后来,Martens 加入了 Google Deepmind Hellermark:你在选拔人才的时候主要依靠直觉还是反复的揣度?当 Ilya 出现在你面前时,你的第一印象是“这是个聪明人,我想和他合作。” ——还是对此有更多思考? Hinton:有时候就是说不上来为什么。和 Ilya 交谈不久后,他给我的感觉是“非常聪明”。然后再和他多聊一会儿,我就发现他显然不仅非常聪明,而且直觉很好,数学也很强。所以选择他根本不需要犹豫。 还有一位同样杰出的人才,那是在某次 NIPS 会议上,我们贴了一张海报,这时有人走过来开始询问关于海报的问题。他提出的每一个问题都深入洞察了我们工作的不足之处。五分钟后,我就向他提供了博士后职位。那个人就是 David Mackay,我很遗憾他去世了(Mackay 在 2016 年因胃癌逝世)。 David Mackay 优秀的学生类型多样,有的人可能在技术创新上不那么突出,但在技术实现上极为出色;另一些人可能技术实力一般,但极其富有创造力。理想情况下,最好的人才是二者的结合体,但现实中并不总是能找到这样的人。在实验室环境下,我认为需要集合多种类型的学生,这样才能促进团队的多样性和创新能力。但我仍然相信直觉,有些人的直觉就是天生敏锐的。 Hellermark:所以为什么有些人的直觉更好?我们能培养这种直觉吗? Hinton:拥有更好直觉的人通常不会接受无用的信息。盲目相信所听到的一切,会导致形成模糊且不具备辨别力的思维框架,这是无益的。相反,那些拥有清晰思维框架的人,会在接收新信息时尝试将其与自己的认知框架相匹配,如果新信息不符合框架,则会选择拒绝。 我认为,拥有一个坚定的世界观并据此筛选信息,是培养良好直觉的关键路径。如果你的直觉已经被验证是良好的,就应该相信它们。而对于直觉不佳的人来说,无论采取何种策略,效果可能都差不多,因此他们也可以选择相信自己的直觉。 Scaling Law:GPT-4 的创造力甚至会超过人类 Hellermark:可以为我们科普一下这些模型是如何训练来预测下一个单词(predict the next word)的吗?为什么说这是一种错误的思维方式? Hinton:我其实并不认为这是错误的思考方式。实际上,我制作了第一个使用嵌入和反向传播的神经网络语言模型。数据非常简单,只运用了三元组。它将每个符号转换为嵌入,然后让这些嵌入相互作用以预测下一个符号的嵌入,并从那里预测下一个符号。然后通过整个过程的反向传播来学习这些三元组,我的研究相当于展示了它的泛化能力。 大约 10 年后,约书亚·本吉奥(Yoshua Bengio,和 Hinton 齐名的 “人工智能三教父”)使用了一个非常类似的网络,并展示了它在真实文本上的效果。 Yoshua Bengio在麦吉尔大学读研究生时,Bengio 读到了 Hinton 的论文,从此他坚定地走在神经网络的道路上度过了“AI 冬天”最寒冷的时期,他和 Hinton、LeCun 共同获得了 2018 年图灵奖 然后再过了 10 年,语言学家们开始相信嵌入的概念,所以这是一个缓慢的过程。我认为预测下一个词不仅仅是基于统计的简单预测,比如传统自动补全那样基于词频的匹配。在现代语言模型中,为了准确预测下一个词,模型必须理解上下文,这涉及到对问题或对话内容的理解。因此,预测下一个词的行为实际上迫使模型去理解语境,这种理解方式与人类的思维方式有相似之处。 尽管外界有人质疑这些模型缺乏像人类一样的推理能力,但随着模型规模的扩大,即使没有特别设计用于推理的组件,它们也展现出了推理的能力,并且随着规模继续增长,它们的推理能力也将随之增强。 Hellermark:是什么让 AI 模型能够学习如此广泛的领域? Hinton:这些大语言模型所做的,是寻找共同的结构。通过发现共同结构,它们可以使用这种共同结构来编码事物,因为这样更高效。 让我给你举个例子。如果你问 GPT-4,“为什么堆肥堆像原子弹?” 大多数人无法回答这个问题,他们从未考虑过这一点,而是会认为原子弹和堆肥堆是非常不同的东西。但 GPT-4 会告诉你:“嗯,它们的能量规模非常不同,时间规模也非常不同。但相同的是,当堆肥堆变热时,它产生的热量更快。而当原子弹产生更多中子时,它产生的中子更快。” 显然,GPT-4 能从这个问题理解并联想到链式反应的概念。正是利用这种理解,将所有信息压缩到其权重中。如果它正在这样做,那么它也将对数百种我们尚未看出类比的事物进行同样的处理,而这正是创造力产生的地方,源自于在表面上截然不同的事物之间看到这些类比。 因此,我认为 GPT-4 在规模扩大后,将会变得非常有创造力。我认为那种认为“它只是在重复所学知识的观点,只是在拼凑已经学过的文本”的观点是完全错误的。它的创造力甚至会超过人类。 Hellermark:“人工智能不会仅仅重复我们迄今为止发展的人类知识,而且有可能实现超越”……我认为这是我们尚未完全见识到的,我们基本上仍处于当前科学水平。你认为什么将使人工智能超越人类? Hinton:我们在更有限的情境中已经见过这种情况。 以 AlphaGo 为例,在与李世石的那场著名比赛中,第 37 手,AlphaGo 下了一步所有专家都认为必定是失误的棋,但实际上后来他们意识到这是一步妙手。所以那是在围棋这种有限领域内的创造性。我认为随着这些系统变得更大,我们会看到更多这样的情况。 “传奇落子” 第 37 手(Move 37) Hellermark:AlphaGo 的不同之处还在于它使用了强化学习,这使它能够超越当前的状态。它最初是从模仿学习开始的,观察人类如何玩游戏,然后通过自我对弈,发展得远超于此。你认为这是否是当前机器学习缺失的要素? Hinton:我认为这很可能是一个缺失的要素,没错。 AlphaGo 和 AlphaZero 的自我对弈是其能够做出这些创造性走法的重要原因。但我不认为这是完全必要的。很久以前我做过一个小实验,就是训练一个神经网络来识别手写数字,即 MNIST 的案例。 我故意在手写数字识别任务的训练集中加入了 50% 的错误标签,并保持这种状态。因此它不能通过简单地看到相同的例子,有时是正确答案,有时是错误答案,来平均消除错误。而即便如此,神经网络通过反向传播训练后,依然能够将错误率降低到 5% 或更低。这意味着网络有能力从错误中学习,区分哪些数据标记可能是错误的,并且从中提取出正确的模式。 这就是聪明的学生有时候能比他们的导师更聪明的原因。当导师告诉学生所有的信息时,有一半会被聪明的学生认为是“废话”,左耳朵进右耳朵出;还有另一半知识被学生们吸取,最终导致学生变得比导师更聪明。 所以实际上这些大型神经网络的表现可以远超其训练数据,而大多数人没有意识到这一点。 MNIST 数据集 Hellermark:那么,你期望如何在人工智能模型中加入推理能力呢?是通过一种思维链的方式让模型自我反馈其推理过程,还是说模型不断增长就能自然提升推理能力? Hinton:我的直觉是,随着人工智能模型,尤其是大语言模型的规模扩大,它们在推理能力上将自然地得到提升。 我想将这一过程与人类的认知过程相比较。人类通过直觉进行初步判断,并利用推理来修正和完善这些直觉。同样,AlphaGo 和 AlphaZero 这类系统通过结合直观的评估函数与深入的蒙特卡洛树搜索(Monte Carlo rollout)来优化决策,这种机制允许模型不仅仅模仿人类已有的知识和行为,还能在某种程度上创新。这正是 AlphaGo 能够做出第 37 步那种创造性走法的原因。它拥有更多的训练数据,可以使用推理来检查下一步正确的走法应该是什么。 人脑解密:符号与向量的共生 Hellermark:你对多模态有什么看法?多模态是如何影响人工智能模型理解和生成类比的能力的?—— 我的意思是,当模型不仅仅处理语言,还能处理图像、视频和声音等多媒体信息时,这将如何改变模型的本质和能力? Hinton:多模态输入会让模型有显著的改进,尤其是在理解空间关系和物体方面。例如,一个能够“看”并“操作”物体的多模态系统相比仅依赖语言的系统,能更深刻地理解物体。虽然语言可以传达大量信息,但多模态学习因为结合了多种感官输入,提供了更加丰富的上下文,使得学习过程更为直接和高效。 而且,利用多模态数据(如预测 YouTube 视频的下一帧)可以让模型获得更多的训练数据,同时减少对语言的依赖。因此,我认为这些多模态模型显然将会占据主导地位。通过这种方式,你可以获取更多数据。它们需要的语言更少。这里其实有一个哲学观点,即你可以仅通过语言学习到一个非常好的模型,但从多模态系统中学习要容易得多。 Hellermark:你认为这将如何影响模型的推理能力? Hinton:我认为它将大大提高模型对空间等事物的推理能力。比如推理当你拿起物体时会发生什么。如果一个机器人真的尝试拿起物体,它就能获得各种有助于训练的数据。 Hellermark:你认为人类大脑是为了适应语言而进化的吗?还是说,语言为了适应人类大脑而发展的? Hinton:这是一个非常好的问题。我认为 - 两者都发生了。我曾认为我们可以在不依赖语言的情况下进行大量认知活动。现在我的看法有所改变。让我给你介绍三种不同的语言观及其与认知的关系。 首先是传统的符号观,即认知是基于明确、抽象的逻辑符号及符号操作,暗示语言与逻辑思维紧密相连,几乎构成认知的核心机制。这一观点倾向于认为人类大脑和语言是协同进化的,各自适应对方的存在与发展。所以,这是一种极端的观点 与之相反的极端观点是,你的大脑内部全都是向量。这种观点认为,符号进入大脑会转换成大型向量,所有内部处理都是通过大型向量完成的。然后,如果你想生成输出,就再次生成符号。大约在 2014 年,机器翻译领域有一个阶段,人们使用循环神经网络,单词不断输入时会有一个隐藏状态,并且在这个隐藏状态中不断积累信息。所以当他们到达句尾时,他们会得到一个大的隐藏向量,这个向量捕捉了该句子的意义,然后可以用来在另一种语言中生成句子。这被称为思想向量,是对语言的第二种看法。 但还有一种第三种观点,即我现在所相信的,那就是语言和思维过程中确实涉及符号,但这些符号通过多层次的嵌入表示(embedding representation)被丰富化了。但是,这些嵌入仍然与符号相关联,意味着每个符号都有一个大的向量,这些向量相互作用,以产生下一个词的符号向量。这就是所谓的“理解”。 “理解”就是知道如何将符号转换成这些向量,以及知道这些向量的元素应该如何相互作用来预测下一个符号的向量。这就是大语言模型和我们大脑中的理解。这是一个介于两者之间的例子。你仍然保留着符号,但你将其解释为这些大型向量,而所有的努力都集中在这里。所有的知识都体现在你使用的向量以及这些向量元素之间的相互作用上,而非符号规则。但这并不是说你可以完全摆脱符号。它的意思是将符号转化为庞大的向量,但仍然停留在符号的表层结构上。 这就是这些模型的工作原理。现在在我看来,这也同样是一个更合理的人类思维模型。 算力与计算:电脑不一定要像人脑一样思考 Hellermark:你是第一批意识到使用 GPU 的人之一(2009 年),黄仁勋因此非常欣赏你。带我们回顾一下你的灵感来源。 Hinton:实际上,大约在 2006 年,我有一个叫 Rick Zelinsky 的前研究生,他是一位非常优秀的计算机视觉专家。在一次会议上,他告诉我:“你知道吗,你应该考虑使用图形处理卡,因为它们在矩阵乘法方面非常出色。你现在的研究基本上都是矩阵乘法。” 我对此思考了一会儿,试着购买了游戏用的 GPU,发现它们让处理速度提升了 30 倍。接着我们买了一整套 NVIDIA Tesla GPU,并在上面进行了语音处理,效果非常好。 NVIDIA Tesla GPU 随后到了 2009 年,我在 NIPS 上发表演讲,对 1,000 名机器学习研究人员说:“你们都应该去买 NVIDIA 的 GPU。它们代表了未来。你们做机器学习需要它们。” 实际上,我随后给 NVIDIA 发了一封邮件,说:“我告诉了 1,000 名机器学习研究人员购买你们的显卡。你们能因此免费送我一块吗?" 他们说不行 —— 我开玩笑的,其实他们只是没有回复。后来,黄仁勋知道了这件事,他免费送了我一块显卡。 Hellermark:那真是太好了,我觉得最有意思的地方在于 GPU 技术是伴随着 AI 领域一同发展的。你对于计算技术下一步应该如何演进有哪些看法? Hinton:我在谷歌的最后几年里一直思考如何实现模拟计算(analog computation)。这样我们就不用消耗兆瓦级的电力,而是可以像大脑一样只用 30 瓦,从而在模拟硬件上运行这些大语言模型。尽管我没有成功实现这一目标,但这一过程让我加深了对数字计算价值的认识。 模拟计算意味着每块硬件都有其独特性,这要求学习过程需适应硬件的具体特性,类似于人脑中每个个体的大脑差异性。由于人脑硬件的不同,使得权重无法直接从一个人转移到另一个人,信息传递效率低下,这被称为知识蒸馏(distillation)。 因其权重的可复制性和共享性,数字系统实际上是“永生”的。一旦某个系统学习到的权重被确定,它可以被保存并在任意兼容的数字系统上重现,无需考虑硬件的具体差异,从而实现高效的知识共享。数字系统间可以通过微小的学习更新,然后共享这些更新后的权重,实现集体知识的即时同步,这是人类目前无法做到的。因此,我认为数字系统在知识共享方面比人类更加优越。 Hellermark:神经科学中其实早已有很多类似的想法,并应用在了现代人工智能系统中。你觉得未来还有哪些神经科学原理尚待融入这些系统中? Hinton:我们仍需在时间尺度上与神经科学同步的一个重要领域是变化的时间尺度。在现有的神经网络模型中,通常只有两个时间尺度:一个是活动(如神经元激活状态)的快速变化,另一个是权重(长期学习参数)的缓慢调整。然而,人脑中存在多个时间尺度的权重变化,这允许了临时记忆的形成。 例如,我突然没由头地喊一句“黄瓜!”,五分钟后你戴上耳机,并在周围释放很多噪音,这时候听到的词很微弱,却更容易识别出“黄瓜”这个词 —— 因为我五分钟前说过。那么,这种知识在大脑中是如何存储的呢?显然是体现在突触的暂时性变化中,而不是神经元在对你说:“黄瓜,黄瓜,黄瓜。” 这体现在权重的暂时性变化上。通过权重的暂时性变化,你可以做很多事情,我称之为快速权重 —— 但在当前的神经模型中,我们并不这么做。 部分原因是,这些模型依赖于并行处理大量数据以实现高效的矩阵运算,而这与快速权重所需的依据输入数据动态调整权重的机制相冲突。然而,快速权重对于实现更接近人脑的临时记忆功能至关重要。我曾非常期待像 Graphcore 这样的技术如果采用顺序处理并仅进行在线学习,就有可能利用快速权重。但目前这一设想尚未实现。我预测随着技术进步,特别是当开始使用电导作为权重表示时,这一问题有望得到解决。 思维方式:“我亲眼见到机器人表现出了情感” Hellermark:了解这些模型的工作原理以及大脑的工作方式,对你的思考方式有何影响? Hinton:我认为最大的影响在于对一个抽象概念的认知转变:过去,许多人,包括统计学家、语言学家及多数 AI 研究者,对通过一个大型随机神经网络并辅以大量训练数据来学习执行复杂任务的想法持怀疑态度,他们认为这仅是“空想”。没有内在知识和严格架构限制,不可能学会复杂事物。 然而,大型神经网络模型的成功验证了这一观点的错误性:通过随机梯度下降不断调整权重,确实能够学习并掌握复杂知识。这一发现对于理解大脑的工作机制具有重要意义,表明大脑不必具备所有先天结构 —— 尽管大脑确有其固有的结构,但对于易于学习的事物,它并不需要特定的先天结构。 Hellermark:究竟如何能让 AI 模型更有效地模拟人类的意识?假如说有一个伴随人一生、具有自我反思能力的 AI 助手,那在得知主人去世的消息时,它是否会有所感受? Hinton:AI 助手如果想「得知」主人去世,就需要另一个人告诉它,或是让它自己去感知 —— 因为主人已经死了,无法给 AI 传递信息。 Hellermark:是的,你认为 AI 助手在主人去世时能感知到什么? Hinton:我认为 AI 也能有情感。就像我们有内心剧场模型来解释感知一样,我们也有类似的模型来解释情感,这些是我能体验到而别人无法体验的。 假如我在内心想:“我真想给加里(Gary Marcus,科学家,深度学习的主要反对者)的鼻子来一拳……” —— 事实上我真的经常这么想 —— 然后我试着将这个想法从内心剧场的概念中抽象出来,此时若不是因为我的前额叶的抑制作用,我会真的采取行动(揍加里一拳)。 当我们谈论情感时,实际上是在谈论“如果没有外部约束时我们可能会采取的行动”。而这正是情感的本质。它们是我们如果没有约束就会采取的行动。因此,我认为你可以用同样的方式来解释情感,并且没有理由认为这些事物(AI)不能拥有情感。 事实上,在 1973 年,我亲眼见到一个机器人表现出了情感。爱丁堡大学有一个这样的机器人,它有两只夹子,如果你将玩具车的零件单独放在一块绿色毛毡上,它就能组装起来。但如果你将零件堆在一起,它的视觉不足以弄清楚发生了什么。于是它会将夹子合拢,发出“啪”的一声,把零件击散,从而“组装”起来。 爱丁堡大学的机器人「弗莱迪」(Freddy) 如果你在一个人身上看到这一幕,你会说这是因为那个人不理解情况而感到沮丧,因为它们在面对约束和问题解决时,会采取相应的行动策略。 Hellermark:这很深奥。 回顾人生选择:“我其实真正想研究的是大脑” Hellermark:你曾经表达过一个观点,即人类和大语言模型都可以被视为一种“类比的机器”(analogy machines)。那你一生中发现过的最强大的类比是什么? Hinton:我的一生中?我觉得对我影响深远的一个类比是将宗教信仰与对符号处理的信仰相比较。我来自一个无神论家庭,所以当我在学校接触到宗教信仰时,觉得它毫无意义且不合理。后来,当我最初遇到符号处理作为解释人类思维方式的概念时,也有同样的感受,认为符号论也是无稽之谈。 但随着时间的推移,我的看法也有所改变。我认为人类确实进行着符号处理,这并不像传统观念中那么简单,即符号仅仅通过彼此之间的同一性或差异性来进行匹配。现代的理解是,我们通过给符号赋予大型嵌入向量,并利用这些向量的成分间互动来进行思考,这种方式充分利用了上下文信息。 谷歌有一位非常优秀的研究员名叫费尔南多·佩雷拉(Fernando Pereira),他曾说过,"我们确实拥有符号推理,而我们拥有的唯一符号就是自然语言。自然语言是一种符号语言,我们用它进行推理。" 现在我对此深信不疑。 Fernando Pereira Hellermark:你完成了计算机科学史上一些最有意义的研究。能教我们如何选择正确的问题来研究吗? Hinton:首先,让我纠正一下你的说法 —— 我是和我的学生们做了很多非常有意义的事情,这主要得益于与学生的良好合作以及我挑选优秀学生的能力。 这得追溯到 70 年代、80 年代、90 年代以及 2000 年代初期,当时从事神经网络研究的人非常少。因此,从事神经网络研究的少数人能够挑选到最优秀的学生。这可以说是一种幸运。至于我选择问题的方式……当科学家谈论他们的工作方式时,他们会有关于自己工作方式的理论,这些理论可能与实际情况并不相符。 但我的理论是,我会寻找那些大家都认同但感觉不对劲的事情。就是有一种直觉,觉得这里面有些问题。然后,我会针对这一点进行研究,看看是否能详细说明为什么我认为它是错误的。或许是用一个小型的计算机程序做一个小演示,展示某项事物并不像人们预期的那样工作。 让我举一个例子。大多数人认为,如果你向神经网络添加噪声,它的性能会变差。例如,每次你通过一个训练样本时,如果让一半的神经元保持沉默,它的性能会变差。实际上,它只会因此更好地泛化。而在计算机上,这可以用一个简单的例子中演示,这就是计算机模拟的好处。然后,我会深入思考“为什么会这样?”,这就是我的工作方法:找到听起来可疑的东西,对其进行研究,看看是否能给出简单演示来证明其错误。 Hellermark:假如今天有一群学生来找你,问你人工智能领域接下来最该解决的问题是什么?你会建议他们接下来应该着手解决和研究什么问题? Hinton:这个问题的答案和我过去 30 年左右一直持有的问题相同,那就是,大脑是否进行反向传播? 我相信大脑在学习过程中确实利用了梯度信息来优化其内部连接(权重),因为缺乏梯度信息会使学习效率大大降低。然而,我对于大脑如何实际获得这些梯度、是否通过某种近似反向传播机制或是完全不同的方法来实现这一点,仍持开放态度。我认为这是个重大且尚未解决的问题。如果我未来继续进行研究,这将是我的研究焦点。 Hellermark:回顾你的职业生涯,你在很多事情上都判断正确,但是你是否曾经在哪些方面判断失误?是否后悔在这些错误判断上投入了过多时间? Hinton:这其实是两个问题:我曾经在哪些方面判断失误?我是否希望自己在那上面花费的时间少一些? 我认为我在玻尔兹曼机上判断失误了,但我很高兴我在这上面花了很长时间。与反向传播相比,玻尔兹曼机提供了一种更为精妙和吸引人的梯度计算方法,而反向传播相对而言较为常规且直接遵循链式法则。 所以,我原本希望并相信玻尔兹曼机的工作原理能更贴近大脑的实际运作机制 —— 但事实并非如此。总之,我对探索玻尔兹曼机的过程并不感到遗憾,因为其本身富有启发性,并且深化了我对机器学习和神经科学的理解。 Hellermark:你是否也花了很多时间去想象这些系统发展之后会发生什么?比方说通过民主化教育,我们可以使知识更加易于获取;或者是通过人工智能,解决医学中的一些难题;或者对你来说,这些系统的发展主要是能有助于理解人脑? Hinton:我总觉得科学家应该致力于对社会有益的研究,但实际上,驱动高质量科研工作的往往是纯粹的好奇心,即对某个问题深入理解的渴望。 虽然近期我开始意识到人工智能技术既可带来巨大益处,也可能引发诸多负面影响,但这些并不是我的初衷。我只想了解一个问题:“大脑究竟是如何学会做事的?” 尽管从某种程度上说我未能完全达成初衷,但这一过程的副产品 —— 人工智能和机器学习领域的工程技术成果 —— 却是积极且具有价值的。 Hellermark:是的,这对世界来说是一次有益的失败。 未来:反向传播可能是正确的道路 Hellermark:你认为未来最有前景的应用是什么? Hinton:我认为医疗保健显然是一个重要的领域。在医疗保健方面,社会几乎可以无限吸收更多的医疗服务。一位老人通常可能需要五位医生全天候服务。因此,当人工智能在某些方面超越人类时,我们希望它在那些我们可以大量应用这些技术的领域变得更好。 此外,我们确实需要更多的医生。如果每个人都有三位专属医生那就太好了。我们未来将会达到那个阶段,所以医疗保健是一个好的方向。 还有一个应用,就是在新工程领域开发新材料,例如太阳能电池板或超导材料,或仅仅是为了理解身体是如何运作的,那将会产生巨大的影响。这些都是好事。 我所担心的是不良分子利用它们做坏事 —— 比如使用 AI 来制造杀人机器人、操纵公众舆论、进行大规模监视……这些都是非常令人担忧的事情。 Hellermark:你是否担心过减缓 AI 发展会同样导致 AI 带来的有益影响变少? Hinton:我肯定担心过。但我认为 AI 领域不太可能减缓发展,部分原因在于,它是国际性的。如果一个国家减缓了发展,其他国家并不会跟着减缓。很明显,中美之间存在一场 AI 竞赛,而双方都不会放慢脚步。 曾经有一份请愿书写道我们应该放慢脚步六个月。我之所以没有签字,是因为我认为那件事永远不会发生。通常,即使知道无法得到,为了表明立场而提出要求也是有益的……但我不认为我们会放慢脚步。 Hellermark:当你审视今天正在进行的各类研究时,你是否认为我们正将所有鸡蛋放在一个篮子里?是否应该在 AI 领域内更多元化我们的想法?还是你认为这是最有前景的方向,因此我们是否应该全力以赴投入其中? Hinton:哪怕仅是为了预测下一个词,在大模型上使用多模态数据训练也是极具前景的,我们应该在这上面全力以赴。显然,现在有大量的人正在这样做。也有很多人在做看似疯狂的事情,这都很好。因为多模态的效果非常好,所以大多数人追随这条道路是合适的。 Hellermark:特定的学习算法真的很重要吗?还是说达到期望结果主要是规模(如数据量、计算能力等)的问题?人工智能达到人类水平智能的方式是有数百万种,还是寥寥几种? Hinton:关于学习算法的重要性与多样性,我自己也不确定最终的答案,但我觉得反向传播(backpropagation)作为一种学习算法,在某种意义上是“正确”的选择,因为它通过梯度来优化参数,以提升性能,且已被证实极其成功。 虽然反向传播非常有效,但目前可能也还存在其他算法,这些算法或是获取相同梯度的变体,或是针对其他目标函数的优化,同样能发挥作用。这是一个目前非常有趣且值得探讨的问题。 我推测,大脑可能也是采取类似机制(虽然可能更简化),因为这种方式更为高效。总之,从某个角度来说,反向传播是合理的做法,且实践表明其效果极佳。 Hellermark:回顾数十年的研究生涯,你最引以为傲的是什么?是你的学生吗?还是研究成果? Hinton:玻尔兹曼机的学习算法。玻尔兹曼机的学习算法非常优雅。尽管在实际应用中可能无望,但这是我与特里合作开发时最享受的部分,也是我最引以为傲的 —— 即使它是错误的。 Hellermark:现在您大部分时间都在思考哪些问题? Hinton :我思考的是,“我应该在 Netflix(网飞,知名流媒体视频网站)上看什么?”
语音克隆技术引发担忧,OpenAI再次解释其文本转语音工具
IT之家 6 月 10 日消息,OpenAI 在几个月内第二次就其文本转语音工具进行解释,并再次强调该工具目前并未大范围开放,且未来也可能不会。 图源 Pexels “无论我们最终是否会大规模部署这项技术,让世界各地的人们理解这项技术的发展方向都非常重要,”OpenAI 公司周五在其网站上发布的一份声明中表示,“这就是为什么我们想要解释模型的运作方式、我们如何将其用于研究和教育,以及我们如何围绕该技术实施安全措施的原因。” 据IT之家了解,去年年底,OpenAI 与一小部分外部用户分享了其“语音引擎”。该引擎利用文本输入和 15 秒的人声音频剪辑,即可“生成听起来自然的人声,并与原始说话人非常相似”。该工具可以创建以假乱真的多语言人物声音,当时该公司表示他们选择预览这项技术而非大规模发布,是为了“增强社会抵御能力”,以应对“越来越逼真的人工智能生成模型”带来的威胁。 作为这些努力的一部分,OpenAI 表示他们正在积极淘汰使用语音识别进行银行账户验证的方式,探索保护个人声音在人工智能中使用的政策,教育公众有关人工智能的风险,并加快开发跟踪视听内容的技术,以便用户识别他们是在与真人还是合成内容进行互动。 然而,尽管做出了上述努力,人们对这项技术的担忧仍然存在。美国总统拜登的人工智能负责人布鲁斯・里德 (Bruce Reed) 曾表示,声音克隆技术是他夜不能寐的原因之一。美国联邦贸易委员会 (Federal Trade Commission) 今年 3 月表示,诈骗分子正在利用人工智能技术来提高他们欺诈行为的可信度,他们使用声音克隆工具,使得人们更难区分人工智能生成的声音和人类的声音。 OpenAI 在周五更新的声明中试图缓解这些担忧,“我们继续与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴接触,以确保我们在构建过程中纳入他们的反馈。”该公司还指出,一旦“语音引擎”配备了其最新模型 GPT-4o,它也将带来新的威胁。该公司表示,他们内部正在积极地“对 GPT-4o 进行‘红队测试’,以识别和解决来自社会心理学、偏见和公平以及错误信息等领域的已知和未知风险。”
抖音快手战火烧到AI
作者|齐健 编辑|苗正卿 “追赶”OpenAI的中国公司们,步子迈得越来越大了。 6月6日,快手发布了AI视频生成模型“可灵”,视频生成时长直接赶超Sora达到了120秒,且已在快影App中对创作者开放邀测。过去几天中,一些自称获得测试资格的博主po出了他们使用“可灵”直出的AI视频,一直不太高调的快手AI在海内外社交媒体迅速出圈。 X博主发布的带有“可灵”水印的视频 在Sora刚刚推出的时候,其生成的视频时长和效果被一些创作者认为非常适合短视频创作,很可能会给今天的短视频行业带来颠覆,还引发了“Sora杀死剪映”的热议。 如今,Sora尚未对剪映出手,但抖音的老对手快手却正在借助“可灵”在AI视频生成赛道给快影上提速。对于5月中旬刚刚推销过一波AI大模型产品的抖音集团而言,与快手的战火正在烧向AI。 内容之争是根本 在Sora对标大战中,快手发力AI的战术目标,更像是要绕到对手身后围绕“内容创作者资源”展开一场“偷袭”。 说到短视频平台对AI视频生成技术上的关注,就不得不分析一下AI生成的视频内容,对于用户的价值,以及这些内容对用户的影响心智。 “Sora类模型生成的内容最大的问题是‘听起来很酷’。”AI类视频创作者阿达(化名)告诉虎嗅,粉丝需要的是有新鲜感或者有情绪价值、内容价值的视频,Sora类视频的特点是“逼真”,但只是模仿真实世界的AI视频,不管是开汽车还是东京漫步,对于用户来说基本上提供不了任何价值,而新鲜感也会很快淡化。 “你第一次刷到AI视频,一个老虎迈着有点畸形的步伐往前走,你可能觉得有趣。但你刷到第二条类似内容时大概率就不会停留了。”阿达认为,有那么多有趣的“真”视频,用户为什么要花时间去看AI生成的“假”视频。 “可灵”生成的AI视频 很多短视频平台对AI视频的态度亦是如此——从用户视角去判断价值。 多位AI视频和数字人内容创作者对虎嗅表示,有些视频平台似乎不鼓励AI合成内容,这类视频分到的流量不多,有的甚至会被限流。 除此之外,AI内容的真实、安全性亦是平台要考虑的问题。AI换脸、造假,以及各种深度伪造的诈骗案件屡见不鲜,如果大量逼真的AI合成视频涌入平台,很可能会给视频平台带来更大的甄别压力。目前,各大内容平台都有相关限制,AI生成内容均会标注“作品疑似AI合成,请谨慎甄别”。 不过,对于快手来说,AI视频模型的价值可能并不在用户侧。 多年以来,快手一直试图调整自己与抖音在用户画像上的差异,并适度淡化“下沉”标签,而这就意味着快手需要丰富“内容供给”,扩大内容种类、风格,而关键资源正是创作者。目前来看,在快影当中提供AI生成视频功能,很可能是吸引优秀创作者的一个好方法。 截至发稿,快影App中显示的“可灵”内测申请人数已超40000。据虎嗅了解,其中相当多的申请者是创作者和创作团队。从目前来看,“可灵”无疑是给快影做了一波大营销。 此外,AI视频生成功能还能拉拢更多“新生”的创作者力量。 某MCN机构负责人告诉虎嗅,从过去一年短视频平台的热点内容看,未来一段时间里平台对高质量内容的判断大概会聚焦在以下方面:能够引起广泛用户参与、与文化自信和教育相关、具有社会责任感、提供实用信息、娱乐性强、能够激发UGC创作,以及能够建立个人品牌和影响力。 AI视频生成功能简化了视频制作流程,在“引起广泛用户参与、激发UGC创作”这两方面能起到积极作用。对于创作者来说,一方面能够帮助传统图文创作者基于已有内容做视频创作,加速内容迁移。另一方面也可以降低普通用户参与视频创作的门槛。 在短视频之争中,其他短视频平台玩家似乎也关注到了AI视频的创作者逻辑,正在持续加码AI视频模型。 5月中旬召开的腾讯云产业峰会上,腾讯首次公布了混元的16秒视频生成能力,并提出2-3个月内开放文生视频API接口的计划,以及2024年第三季度视频生成时长突破30秒的目标(在腾讯云的一次媒体沟通会中,混元大模型相关负责人曾表示年内可以达到60秒)。 相比抖音和快手,视频号的优势是庞大的用户规模,眼下的短板之一则是内容供给丰富度,然而视频号在内容广度和深度方面仍与抖音和快手存在明显差距。短视频和直播平台的内容质量对培养用户习惯和增加使用时长至关重要,同时庞大的内容库也是平台变现的基础。 如此看来,视频号遇到的挑战和机会似乎与快手暗合,都是要加速吸引站外创作者来丰富内容生态,并促进现有优质图文创作者向视频迁移。 AI竞赛中的成本思考 过去一年多时间里,抖快在AI领域的“军备大赛”有日渐升温趋势。 抖音集团关于AI的动作和传闻一直没断过,从10亿美元购买GPU,到利用API“扒“ChatGPT数据,再到豆包在国内AI应用榜夺冠,抖音集团一直是AI行业里低调的明星。反观快手,在生成式AI方面的动作却似乎不多,首个自研大模型“快意”直到2023年底,才加入到第三批网信办大模型备案。 在AI视频方面,抖音集团虽然没有Sora类的强大AI视频生成模型,但也发布了PixelDance、MagicVideo、AnimateDiff-Lightning等视频模型,目前抖音集团也有专门的AIGC产品即梦(Dreamina),可以完成一些短视频生成功能。 除了AI模型和产品方面的研究,抖音集团在基础设施方面投入巨大。在前面提到的10亿美金采购GPU传闻外,抖音集团旗下的火山引擎,在当下的国产大模型价格战中,亦是“打响第一枪”的厂商。快手的云基础设施关注范围则相对较小,以音视频和AI领域为主。 在AI视频方面,快手的进程也不高调,但并非风平浪静。2024年5月初,快手专家研究员王鑫涛曾在一次学术会议中做过一次题为《视频生成的初探及可控性研究》的分享,其中就提到了快手的视频生成方案Tune-A-Video。 技术tips: Tune-A-Video的关键是“时空自注意力机制”。这种技术可以结合空间(图像)和时间(视频帧序列)上的信息,以提高视频生成和处理的效果。假设视频内容是一只小狗在草地上跑。时空自注意力机制的工作过程是: 空间自注意力会分析每一帧中小狗身体的各个部分,例如头、腿、尾巴之间的关系。 时间自注意力会关注每一帧中小狗的位置和姿势变化,确保小狗在跑步的过程中动作是连贯的,不会出现瞬间移动或姿势不连贯的现象。 综合考虑这些信息后,模型能够生成一个流畅、自然的跑步小狗的视频,即使用户修改了小狗的颜色或背景场景,生成的视频仍能保持运动的一致性和视觉上的连贯性。 技术之争的背后,一定潜藏着对未来商业化的谋篇布局。然而AI技术如何商业化,目前仍是短视频以及很多行业讨论的核心问题之一。 AI视频模型要商业化至少需要解决两个问题,第一是技术层面的视频生成质量和效率,第二是成本。 从Runway、Pika等AI公司的3、4秒视频模型,到OpenAI推出Sora,很多业内人士也没想到技术发展会如此之快。Sora之后,各家AI公司的追赶速度更是令人咋舌。 “AI生成视频的质量可能不会长期困扰行业,但成本问题很难解决。”一位关注AI视频的投资人告诉虎嗅,视频模型的算力需求比语言模型大很多,优化的难度也更高。“从ChatGPT和Sora的开放程度就能看出来,ChatGPT可以开放给亿级用户,而Sora至今只有少数人试过。” 主流猜测认为Sora 模型参数量约为30亿,其训练数据可能包括过去五年的 YouTube 所有视频。投资机构Factorial Funds 发表的一篇博文分析认为,Sora模型的一次训练大概需要4200~10500块英伟达H100 GPU 训练1个月。 30亿参数相比于GPT-4的1.8万亿参数,训练成本会低很多。然而视频模型与语言模型相比,更大的开支在推理端。 举个例子,要生成一个2分钟的视频,在不考虑视频的连贯性和时空一致性的情况下,把AI视频拆成一帧一帧的图片。 按照某国内AI公司最近公布的AI图片生成最大折扣价算,生成1张图片的价格最低0.06元,1秒25帧,花费1.5元,120秒的视频成本为180元。 以快手开启的“可灵“邀测为例,假设“可灵”上线后3天内的内测申请者全部通过,每人每天试验20分钟视频,则每天的测试开销约7200万元。快手2024Q1期内利润41亿元,如果要满足全部“可灵”测试需求的话,2个月可能就要面临亏损了。 “可灵”内测申请提交通知 这还只是按生成单张图片计算的价格,如果要保证这25帧图片连续一致,价格会成倍上涨。一位AI视频模型开发者告诉虎嗅,AI视频生成的难点在于保持多个图片的一致性,相比于普通的AI图片生成,算力消耗和成本会大幅提升。 现阶段要大规模实现AI视频生成的商业化落地,推理成本更是天文数字。 Factorial Funds在Sora分析博文中提到,目前TikTok每天上传的视频总时长约1700万分钟,YouTube为4300万分钟。 假设AI视频模型真的成为生产力,可能会渗透到50%的TikTok短视频和15%的YouTube视频中,这样的渗透率之下,峰值算力需求可能达到72万块H100 GPU。按目前国内的GPU价格,每天的成本将超过千亿。 不过,这种试算在今天看来其实意义不大。AI视频模型要真的大规模渗透,模型成本和效率可能需要比今天低几个数量级。到时候全球市场上主流GPU的算力如何,使用成本如何也是未知数。 抖快之外,创业公司也在入局 6月6日奇绩创坛2024春季创业营路演上半场的最后一个项目极佳科技,展示了一款AI视频生成大模型“视界一粟YiSu”。 自动播放 极佳科技的视频展示 这款模型生成视频的原生时长为16秒,最长可达1分钟,据极佳科技介绍,该模型对算力需求不高,已经可以实现“端侧”运行,相关应用接近Sora效果。 项目介绍结束,现场数百位投资人罕见地爆发了喝彩和掌声,资本对AI视频生成技术的关注仍在持续发酵。 在天使轮的极佳科技路演同天,AI视频生成技术的主力生数科技和Pika,先后宣布了最新融资,两家公司融资额不相上下,生数科技宣布获得数亿元人民币,Pika则筹集到8000万美元。 AI视频模型公司的研究大多集中在提高视频质量和降低推理成本。多数研发AI视频生成模型的团队均表示已经在工程方面有所突破,算力需求正在下降。生数科技CEO唐家渝则表示,“生数科技的团队已经积累了完整高效的工程化经验,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验。”目前生数科技和清华大学联合开发的模型Vidu视频生成时长已达到32秒。 在抖快这样的短视频巨头的竞争中,独立AI公司的优势在于早期的技术积累和更“轻快”的开发模式。 然而这些公司目前的融资规模和当前的市场体量匹配度并不高,如果AI视频模型真要落在短视频这样的ToC赛道的话,独立AI公司在没有巨大技术突破的情况下,很可能会倾向于“择木而栖”。 巨头们对于这些AI公司的态度也在逐渐暧昧。 细看生数科技的这轮融资,其中新增了百度。虽然生数科技的早期投资人中有百度风投的身影,但百度风投与百度之间其实只是VC和LP的关系,而百度在过去一年多里对模型公司“亲自”出手,只有生数科技这一次。 虽然百度在刚刚推出文心大模型后不久,就提出过一些Text2Video的相关模型和技术,并演示了AI文生视频功能,但后续一直没有正式发布相关模型或产品。 目前,包括硅谷巨头在内的多数平台型大公司在AI视频模型方面均没有公布过大额投入。
郭明錤:iOS 18发布后,苹果将不再被视为AI行业的落后者
IT之家 6 月 10 日消息,分析师郭明錤今日表示,苹果将在即将到来的 WWDC 开发者大会上发布多个人工智能功能。 IT之家注意到,郭明錤在帖文中总结了苹果的人工智能战略,他认为苹果将强大的功能整合到其操作系统和应用的各个方面,这将成为其优势。例如,备受关注的 Siri 智能助理将迎来重大升级,但由于即将发布的 iPhone 16 仍采用 8GB 内存,其搭载的本地大型语言模型 (LLM) 技术可能会受到限制。苹果预计将结合本地和服务器端的 LLM 技术,显著提升 Siri 对用户查询的响应能力。 郭明錤并不认为苹果已经取得了超出市场预期的突破性进展,他对于即将在秋季发布的 iPhone 新机型及其配套操作系统能否引发用户换机潮持怀疑态度。不过他预计,苹果近年来在机器学习和人工智能领域的大力投入将在未来得到回报。郭明錤指出,其调查显示,2024 下半年 iPhone 16 系列的出货量可能略低于 2023 年 iPhone 15 系列同期水平。 郭明錤还指出,基于云端的 LLM 模型通常需要更长的训练时间,这可能意味着苹果的服务器端人工智能解决方案将分阶段推出,而不是在发布时完全推出。郭明錤表示,由于上述原因,新的人工智能功能所带来的显著营收和利润增长可能需要更长的时间才能完全实现。 对于苹果是否会与其他人工智能公司合作的问题,郭明錤则淡化了利用外部公司技术的重要性。他认为苹果此类合作主要集中于用户和应用交互的“封装模型”。 郭明錤总结道,WWDC 结束后,苹果将不再被视为 AI 行业的落后者。AI 将在苹果主要的应用中无所不在,苹果的用户界面设计优势将充分展现,Siri 的改善是最大卖点之一。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。