EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
“市值退市”也来了!本月多股因市值跌破3亿元拉响退市警报
财联社6月4日讯(记者 王碧微)今日晚间,B股上市公司建车B(200054.SZ)发布了可能被终止上市的第五次风险提示公告。截至6月4日收盘,建车B已连续13个交易日每日股票收盘市值低于3亿元。若此势头延续,建车B或成为沪深市场首家因市值原因终止上市的公司。 Choice数据显示,建车B股票5月17日收盘市值为人民币2.7亿元,首次低于人民币3亿元。此后,截至6月4日收盘的12个交易日中,建车B市值始终未能重回3亿元。 除建车B外,今日晚间,A股上市公司*ST深天(000023.SZ)亦发布“市值退市”预警,公司股票已有1个交易日收盘市值低于3亿元。 *ST深天并非今年首家因市值原因而鸣响退市警报的A股上市公司。4月24日晚间,ST美讯(600898.SH)曾公告,因公司股票当日收盘价为1.02元,市值2.91亿元,低于3亿元,如连续20个交易日的每日股票收盘市值均低于3亿元,公司股票将被终止上市交易。不过,在25日停牌一天后,ST美讯的市值于4月26日重新回到3亿元以上,而截至今日收盘,其市值为3.05亿元。 值得注意的是,今年4月30日,沪深交易所正式发布修订后的《股票上市规则》,新规显示,主板A股(含A+B股)的市值退市标准将从今年10月30日开始从3亿元提高至5亿元,B股、创业板及科创板的退市标准维持3亿元不变;在“过渡期”4月30日至10月30日期间,主板市值退市标准依然为3亿元。 财联社记者发现,目前已有多只A股主板公司市值低于5亿元。 (截至6月4日收盘,部分市值低于6亿元的主板上市公司,以及市值低于4亿元的创业板公司、纯B股公司) 或因新规趋严,部分上市公司也意图通过增持、回购等手段“自救”。 如建车B曾于5月26日公告:公司接到兵装集团及一致行动人中汇富通投资有限公司(简称中汇富通)、南方工业国际控股(香港)有限公司(简称南方国际)的通知,为维护广大投资者利益,提升投资者信心,中汇富通和/或南方国际计划于本增持计划公告之日起6个月内增持公司股票,本次拟增持金额合计不低于人民币150万元(含)且不超过300万元(含)。 在这一公告后的6个交易日内,建车B股价涨幅约50%。 6月3日晚间,当天股价已跌至1.13元/股的ST瑞德公告,“拟以集中竞价交易方式回购公司股份,本次回购拟使用资金总额为不低于人民币5000万元且不超过1亿元,最终回购资金总额以回购期限届满时实际回购的资金总额为准。回购股份价格不超过人民币2.11元/股(含)。”公告次日,公司股价涨超5%。 不过,在公司基本面未有明显改观的情况下,长期来看,企业风险并未消除。以今晚发布退市预警的*ST深天为例,财务数据显示,*ST深天2023年亏损1.60亿元,已连续四年亏损,2024年一季度亦亏损。
撤否率100%!中原证券5个IPO保荐项目全军覆没,因未尽职调查领罚单
图片来源:视觉中国 IPO节奏放缓的大背景下,不少券商今年投行业务还未“开张”。 蓝鲸新闻记者关注到,2024年至今,中原证券(601375.SH)保荐的5个IPO项目接连“折戟”,均系发行人主动撤回,撤回原因涉及宏观经济及资本市场环境变化、公司战略调整等。 一连5个IPO项目“颗粒无收”,更显得中原证券本就在走“下坡路”的投行业务,处在“水深火热”之中。记者梳理,中原证券投行业务近五年平均营收贡献率不足一成。2021年,中原证券投行业务营收6.19亿元,达近5年高点,此后,公司投行业务营收一路下滑,2022年锐减至2.62亿元。2023年,公司投行业务营收仅0.85亿元,较上年同期下滑67.59%,占总营收不到5%,毛利率为-89.06%。 富耐克上市过程违规,中原证券及2保代收警示函 蓝鲸记者梳理交易所披露信息发现,5家撤回上市申请的企业分别为富耐克超硬材料股份有限公司(下称“富耐克”)、河南国容电子科技股份有限公司(下称“国容股份”)、常州恒丰特导股份有限公司(下称“恒丰特导”)、郑州畅想高科股份有限公司(下称“畅想高科”)和新疆晨光生物科技股份有限公司(下称“新疆晨光”)。其中,国容股份申请深证主板IPO,其余四家均向北交所申请IPO。 图片来源:蓝鲸新闻制图 逐一拆解项目来看,富耐克是一家研究与生产立方氮化硼(CBN)单晶及其系列磨料产品的高新技术企业,于2022年6月向北交所申请IPO。此后,北交所先后进行了三轮问询。2024年2月,富耐克申请撤回上市申请获得北交所同意。年报显示,该公司2023年实现扣非归母净利润只有626.47万元,同比下降88.23%。 蓝鲸新闻记者发现,富耐克在申请公开发行并上市过程中存在违规。4月30日,北交所公布对中原证券及2名保代采取自律监管措施的决定。 经查明,富耐克招股说明书、反馈回复等发行上市申请文件存在预付账款、在建工程、净资产等披露不准确的问题,相关财务数据构成错报,不符合真实、准确、完整的要求。保荐机构中原证券及保荐代表人张朋浩、陈军勇进行尽职调查时,未能勤勉尽责、保持职业怀疑,未对大额预付款长期挂账、退回的合理性以及在建工程成本归集核算准确性进行充分核查,未在申报前发现并处理前述错报事项。 国容股份主营业务为铝电解电容器用铝箔材料的研发、生产及销售,主要产品包括电子铝箔和电极箔。公司于2023年5月向深市主板提交IPO申请,深交所对其进行过两轮问询,因上市主体、报告期内的增资与股份转让、是否涉及国有资产流失、股权代持、关联交易、安全生产、债务结构等问题被交易所追问。2024年2月2日,国容股份主动“撤单”,IPO就此终止。 恒丰特导于2022年12月8日申请在北交所IPO。恒丰特导为精达股份(600577.SH)的控股子公司,主要从事特种导体的研发、生产及销售,主要产品为镀银导体、镀锡导体、镀镍导体等。2月23日,精达股份公告,宣布控股子公司恒丰特导拟终止向不特定合格投资者公开发行股票并在北交所上市的计划,并向北交所申请撤回申请材料,原因是“鉴于未来战略调整考虑并结合对资本市场路径的规划等因素”。 畅想高科主要通过“数智运营”和“仿真实训”两类产品向轨道交通领域的客户提供一体化解决方案,于2023年5月向北交所申请IPO,已经历3轮问询,涉及第二大股东持股比例较高、12月份确认大额收入的真实性、部分客户与供应商重叠等内容。2024年2月27日,畅想高科向北交所提交了撤回申请文件。 同样计划撤回北交所上市申请的新疆晨光,表示鉴于近期宏观经济及资本市场环境变化,综合考虑子公司业务情况,经相关各方充分沟通、审慎分析后,晨光生物(300138.SZ)旗下控股子公司新疆晨光向北交所撤回申请资料。 近期IPO发行上市审核趋严态势较为显著,终止数量有所增加,也是落实上市公司高质量发展的体现。 有市场人士向记者表示,当前,市场期盼交易所能够吸引更多优质企业,抵制以“圈钱”为目的盲目谋求上市、过度融资的呼声较高,监管层也多次表态要推动北交所高质量扩容等。尤其是今年新“国九条”发布之后,交易所优化上市条件,适度提高净利润、现金流量净额、营业收入和市值等指标,从长期看,将有助于提高上市公司质量,增强上市公司的投资价值。 中原证券2023年投行收入大降七成,毛利率-89.06% 一连5个IPO项目“难产”,中原证券日子也并不好过。 近年来,中原证券业绩水平波动较大。2021年至2023年,分别实现营收44.21亿元、18.81亿元、19.68亿元,分别较上年同期增加42.46%、-57.45%、4.62%。同期,分别实现归母净利润5.13亿元、1.07亿元、2.12亿元,分别较上年同期增加392.04%、-79.23%、98.54%。 投行业务并非中原证券的强项,近五年平均营收贡献率不足一成。2021年公司投行业务营收6.19亿元,为近5年高点,此后,公司投行业务营收一路下滑。2022年投行业务营收2.62亿元,较上年下滑57.67%。2023年投行业务营收仅 0.85亿元,较上年同期下滑67.59%,占总营收不到5%,毛利率为-89.06%。 从业内排名情况来看,截至2023年报告期末,中原证券股权承销及保荐总收入排名第42名,股权承销金额排名第44名,可转债承销金额排名第21名,保荐类项目新增受理个数排名第26名;公司在2023年证券公司债券业务执业质量评价中获得B类评级。 一位投行人士对记者表示,IPO项目之间的竞争日趋白热化。布局领先、项目资源丰富的头部券商受益于大投行业务生态圈的建设,马太效应较为显著。中小券商在进行IPO项目承揽时,除了提供更具有竞争力的报价之外,重中之重是稳步提升执业质量,摒弃“带病闯关”心态,在此基础上持续扩大客户市场开拓,提高股权项目的储备数量,才更有可能获得一席之地。
交易所库存飙升!伦铜期货价格跌超2% 失守1万美元关口
财联社6月5日讯(编辑 赵昊)周二(6月4日),伦敦金属交易所(LME)金属价格多数走低,其中铜期货价格跌破每吨1万美元的心理关口。 具体行情显示,LME铜和LME镍双双下跌超2%,分别收于每吨9,935.00美元和18,888.00美元;LME锌跌0.44%,报每吨2,930.00美元;LME铝微涨0.17%,报每吨2,666.00美元。 对于LME铜来说,这是其5月10日以来首次收于1万美元关口下方。与此同时,沪铜跌1.34%,正在交易的纽约铜期货价格也跌超2.6%。美股铜板块也出现重挫,麦克莫兰銅金现跌逾5%,Ivanhoe Electric跌超11%。 分析称,交易员正在权衡全球库存大幅上升的影响,以及美国疲软的职位空缺数据。 美股早盘时,美国劳工统计局发布的职位空缺和劳动力流动调查(JOLTS)结果显示,2024年4月末职位空缺数量录得805.9万,为2021年3月以来新低,明显低于市场预期的837万,3月数据从848.8万下修至835.5万。 最近的数据表明,美国的劳动力市场正在降温,这些数据确实加强了美联储年内开启降息的押注,可能利好铜价。但另一方面,这反映了美国经济正在冷却,近期内对铜这类工业金属的需求可能会放缓。 有数据显示,沪铜的库存已攀升至2020年以来的最高水平,伦敦追踪的亚洲仓库在过去几周也有源源不断的小幅流入。通常来说,库存在每年这个时候应该会有所下降,这一反常也打压铜价从11100美元的纪录高位持续回落。 瑞士宝盛银行(Julius Baer)高管Carsten Menke在电子邮件中写道,“铜市场的供应似乎比一些交易商预计的要充足得多。因此,在我们看来,铜价不太可能迅速转向,我们宁愿预计市场将在夏季的几个月里进行盘整。” 上周,印度尼西亚政府承诺延长印尼自由港公司(PT Freeport Indonesia)等铜矿开采商的铜精矿出口许可证至12月31日,该证原定于5月31日到期。最新消息显示,印尼计划对铜精矿征收7.5%的出口税。 据了解,印尼自由港公司还在等待出口许可证的通知,副首席执行官Jenpino Ngabdi称,如果出口许可的延期获得批准,该公司今年的铜精矿产量目标将从最初的284万吨提高至378万吨。
深圳监管发声,向虚拟货币炒作说“不”!
北京商报讯(记者 岳品瑜 董晗萱)虚拟货币市场涨势诱人,随之而来的,又有炒作活动“蠢蠢欲动”。6月4日,北京商报记者注意到,深圳市地方金融管理局发布《关于虚拟货币交易炒作的风险提示》。 该风险提示指出,近期,虚拟货币交易炒作活动抬头,一些团伙以虚拟货币、“境外数字期权”等为噱头,诱导群众参与交易炒作,扰乱经济金融秩序,滋生赌博、非法集资、诈骗、传销、洗钱等违法犯罪活动,严重危害人民群众财产安全。对于已参与有关交易活动的群众,建议尽快退出,并注意收集留存相关证据,积极向当地监管部门和公安机关进行举报。 “只赚不赔,谁来谁发财!”“一币一别墅,至少起步上涨一万倍”......利用USDT等虚拟币炒作获利,甚至发展为传销行为,正在成为目前传销犯罪的新趋势。 据昆明检方发布,2022年9月至2023年3月期间,吴某加入某超算项目,在该项目没有任何实际经营活动的情况下,宣称该项目是“泰国摩根基金会和加拿大BNB生态基金”共同发起,基于稳定币USDT的超算系统,通过诱骗参与人以虚拟币USDT进行投资,获取做市本金1%的日化收益,及发展下线获得下线流水收益,根据发展会员数量、充值金额、购买VIP等级金额,形成多层组织层级,直接或者间接以发展人数、充值的数额、VIP等级和层级作为返利依据。经鉴定,某超算项目资金规模为1000余万USDT,折合人民币为1亿余元。 需要注意的是,根据中国人民银行、中央网信办等多部门联合发布的《关于进一步防范和处置虚拟货币交易炒作风险的通知》,虚拟货币不具有法定货币地位,不能作为货币进行流通。同时,参与虚拟货币投资交易活动存在法律风险,违背公序良俗的,相关民事法律行为无效,由此引发的损失由其自行承担;涉嫌破坏金融秩序、危害金融安全的,由相关部门依法查处。 也正因没有法律依据,虚拟货币交易、炒作行为频频被监管提示风险。而利用社会热点事件来发行和炒作虚拟货币、并从中牟利,已非个案。这些非法活动通常以高额回报、手把手指导、内部消息、一夜暴富等为迷惑投资者的幌子,以粉丝群、投资群为“割韭菜”的渠道,利用大众对新生事物认知不全、好奇心强、急功近利等心态,引诱受害者掉入陷阱。 3月以来,随着国际市场“利好”消息曝出,比特币曾一路狂飙,点燃投资者热情。但事实上,爆雷、崩盘、跑路等各种乱象,仍是币圈的真实写照。监管提示,虚拟货币缺乏明确的价值基础,极易受到恶意炒作与价格操纵,要严防个别不法企业以虚拟货币或“境外数字期权”为噱头开展非法集资等诈骗活动。广大群众要增强风险防范意识,谨防成为非法集资等诈骗活动的受害者。 应当认识到,高收益背后一定蕴含着高风险。多重“诱惑”之下,公众提升金融素养、充分认识到虚拟货币交易风险,成为了打击不法行为的关键。“数字资产价格的涨跌幅度和速度都与传统资产有显著差异,要避免因短期的市场波动而作出冲动的决策。对任何市场都要‘敬畏而不盲目’,尤其数字资产背后的权益机制以及技术依托与传统的投资资产显著不同,在关注数字资产之前,一定要对区块链技术、分布式商业逻辑、数字金融体系进行全面、透彻的学习理解,才能清晰地认知相关数字资产的内在价值,从本质上控制风险。”中国通信工业协会区块链专委会共同主席、香港区块链协会荣誉主席于佳宁如是说道。
百亿级项目计划进展不及预期 江西铜业终止分拆铜箔业务上市
财联社6月5日讯(记者 张良德)没赶上好时候的江西铜业(600362.SH)选择终止分拆铜箔业务上市,此前规划的超百亿铜箔项目或遭“搁浅”。 终止分拆铜箔业务上市 昨日晚间,江西铜业公告,终止分拆控股子公司江西省江铜铜箔科技股份有限公司(下称:江铜铜箔)至创业板上市并撤回相关上市申请文件。 江西铜业在终止分拆原因中提到:“基于目前市场环境等因素考虑”。事实上,目前铜箔市场已陷入“红海竞争”。公司在2023年财报中曾表示,电解铜箔扩张增速远大于需求增速,行业竞争加剧,加工费大幅下滑,铜加工行业利润整体下滑,行业进一步细分呈现差异。 此外,国内头部铜箔厂商铜冠铜箔(301217.SZ)在5月举办的业绩说明会上曾表示,目前铜箔行业产能快速扩张,竞争激烈,铜箔加工费收入下降明显,该公司今年一季度净利润亏损0. 28亿元。 上海钢联铜事业部铜板带箔分析师俞灿向财联社记者表示,随着规划产能的不断释放,铜箔行业竞争更加激烈,今年以来铜箔行业开工率整体维持在六成左右,受原材料价格上涨影响,下游备货较旺盛,但实际消费上除锂电铜箔略有增长外,电子电路铜箔仍维持较弱需求。 公告显示,江西铜业在2022年初首次提出拆分铜箔业务上市计划,据Mysteel数据,彼时主流6微米锂电铜箔的加工费约4.5万元/吨,目前约1.6万-1.8万元/吨的价格较之前降幅超六成。 有股民在公司投资者互动平台上表示,“没赶上好时候,可惜了”。 行业持续承压 百亿铜箔项目或遭“搁浅” 在江西铜业分拆江铜铜箔上市的预案中,公司在未来发展战略中提到要“有序扩张产能,提升高性能铜箔生产能力”。 事实上,公司在铜箔上的规划兑现上并不及预期,公告显示截至2023年底,公司铜箔产能仍为2020年建成的3万吨。 2021年7月,江西铜业曾抛出百亿铜箔的投资计划。据彼时公告,由江西省江铜耶兹铜箔有限公司(江铜铜箔更名前)承接拟投资114亿元年产10万吨锂电铜箔项目。 其中,项目一期年产5万吨锂电铜箔分阶段实施,力争在2023年12月31日前第一阶段2.5万吨锂电铜箔建成投产,力争在2024年12月31日前一期全部建成投产;项目二期年产5万吨锂电铜箔,力争在2028年12月31日前全部建成投产。项目两期达产后可实现年产10万吨锂电铜箔产能。 值得关注的是,在江西铜业2023年财报中,已不再提及10万吨/年锂电铜箔项目。 展望铜箔行业,俞灿告诉记者,未来整个行业将处于持续承压的情况,随着在建新产能的陆续释放以及新玩家的进入,预计未来或有部分企业仍将通过打“价格战”的方式去获取订单占领市场,但整体来看,在行业盈利能力大幅下降后,也有较多铜箔厂不再内卷,“与其多亏还不如少生产”。 据中电材协电子铜箔材料分会数据,正在投建的铜箔项目中,2024年计划预计新增产能约64.6万吨。使国内累积电解铜箔的总年产能达220.3万吨。尽管统计数据显示2023年、2024年新增电解铜箔产能年增长率呈两位数,而实际上,新增产能的真正利用率,会比2021年、2022年有大幅下降。由于当前市场需求存在着极大的不确定性,何时新增产能利用率再出现上升的“拐点”,很难预测,且在一段时期内不乐观。
涨势暂歇?美国小麦期货连跌五日 创逾半年来最长连跌纪录
财联社6月5日讯(编辑 夏军雄)由于美国小麦收割进度快于市场预期,芝加哥小麦期货周一跌超2%,连续五个交易日下跌,这是自去年11月以来最长的连跌纪录。 今年5月,受东欧地区遭遇恶劣天气影响,芝加哥小麦期货当月累计大涨超12%,创下俄乌冲突爆发以来最大的月度涨幅。 俄罗斯和乌克兰均是全球主要的粮食出口国,两国合计占据了全球小麦出口的近三分之一,但在对小麦收成至关重要的5月,俄乌却同时受到极端天气的打击,当地小麦面临减产的风险。 随着时间步入6月,小麦开始在美国南部平原堆积,交易商在等待全球买家转向来自美国的小麦供应。 美国农业部周一表示,该国冬小麦收割已完成了6%,这高于分析师预计的4%和五年平均水平3%。 Frontier Futures的经纪人Joe Nussmeier周二表示,美国小麦收割进度快于预期终于令市场有所降温,但问题是收割后的小麦无处可去,需求情况并不乐观。 作为世界上最大的小麦进口国,埃及在最新招标中从罗马尼亚和其他欧洲供应商处购买了47万吨小麦。 美国曾是全球最大的小麦出口国,但如今已经跌至第四位。美国种植最广泛的小麦品种是硬红冬小麦,大约能占到三分之二。冬小麦通常在9月至11月(在北半球)种植,并在第二年的夏季或初秋收获。 按照美国小麦协会的说法,硬红冬小麦具备出色的品质,适合用于面包卷、羊角面包和披萨饼等烘培食物。然而,这种小麦的缺点是价格偏高,在国际市场上输给了更便宜的俄罗斯小麦。 美国堪萨斯州小麦农民、作物侦察员Lee Scheufler说:“我们只知道,我们种植的小麦不一定适合对价格敏感的消费者。”
凛冬已至!保险中介牌照价格跌至24万元,仍无人问津
“保险中介,尤其是中小型中介的日子现在真的很难。”不止一位保险中介公司人士向界面新闻表达他们的担忧。 这种担忧传也传导到了保险中介牌照交易市场。5月22日,汇才保险代理(深圳)有限公司的96%股权于阿里拍卖平台拍卖,评估价格为30万元,这笔股权当前价格仅为24万元。 此前,汇才保险代理96%股权已经经过两次拍卖,第一次拍卖起拍价30万元,第二次拍卖起拍价为24万元,两次拍卖均以流拍告终。 资料显示,汇才保险代理注册资本为5000万元。根据评估报告书,截止评估基准日2022年09月30日,汇才保险代理96%股东全部权益价值为1265.9万元。 不过,因汇才保险代理主张原工作人员提供的审计相关资料不真实,导致评估报告不能准确反应该公司实际价值,法院根据实际情况决定对汇才保险代理96%的股权以30万元价格作为第一次拍卖起拍价。 为什么曾经动辄千万的保险中介牌照沦落到现在的价格?北京工商大学保险研究中心副秘书长宋占军向界面新闻指出,近年来保险监管日益规范,对保险中介行业也重点关注,采取了清理整顿等监管措施,并且对保险中介行业信息系统建设提高了要求。叠加保险市场增速放缓,增员难度加大,保险中介市场进入调整期。 除了监管的压力,从新三板挂牌的保险中介机构经营状况,也能窥得行业的现状。 除了昌宏股份外,新三板挂牌的保险中介机构已披露完毕2023年业绩。8家机构合计实现营业收入19.88亿元,比上年增长7.93%。然而增收不增利,净利润由盈转亏,共亏损2180万元。 新三板上的保险中介亦刮起“离场”潮,在高峰时期,新三板挂牌保险中介机构有30多家,现在数量已降至个位数。 今年,保险中介又将迎来新的挑战。继对银保渠道执行“报行合一”后,压降费用的旋风也吹到中介渠道。有保险经纪公司负责人向界面新闻指出,“报行合一”后,能给销售端的利益少了很多。一种情况是仅砍掉保险公司支付的销售费用,客户保单收益不受影响,另一种情况是客户保单收益和销售费用双降。 据界面新闻了解到的信息,在经历一轮经代渠道产品调整后,佣金下降程度明显,首年佣金率下调幅度在30%左右,部分产品下调幅度达到50%,机构和从业者面临收入腰斩的压力。 不过这对经代渠道是危也是机,前述负责人表示,一方面佣金的下降会导致中小型机构加速出清,部分保险中介人也会因收入下滑回流个险渠道或者彻底离开。不过从长期看,参考海外保险中介在市场的地位,中介渠道一直是市场重要一环。目前低质量中介扎堆的情况可以改善,对客户返佣等乱象被遏制,可以推动行业向高质量发展。 来源:界面新闻
美股收盘:三大指数集体收涨 英伟达再创历史新高
财联社6月5日讯(编辑 夏军雄)美东时间周二,三大指数均小幅上涨,美国就业市场展现出降温迹象。 (三大指数分钟线图,来源:TradingView) 截至收盘,道琼斯指数涨0.36%,报38,711.29点;标普500指数涨0.15%,报5,291.34点;纳斯达克指数涨0.17%,报16857.05点。 周二公布的数据显示,美国4月份的职位空缺数量降至810万个,这是三年多来的低点。 华尔街目前正关注定于周五公布的5月非农就业报告,投资者希望就业市场足够疲软,让美联储能够安心开启降息进程,同时又不至于弱到引发对美国经济陷入衰退的担忧。 Verdence Capital Advisors首席投资官Megan Horneman表示,市场目前在寻找催化剂,但总有一天,坏消息会变成真正的坏消息。 10年期美债收益率连续第四天下跌,收于4.335%。 英伟达涨超1%,续创历史新高,总市值达到2.86万亿美元。 热门股表现 大型科技股涨跌互现,苹果涨0.16%,微软涨0.62%,特斯拉跌0.86%,谷歌涨0.36%,亚马逊涨0.56%,Meta跌0.10%,英伟达涨1.25%,奈飞跌0.34%。 热门中概股涨跌不一,纳斯达克中国金龙指数跌0.99%,阿里巴巴涨0.71%,京东涨0.57%,拼多多跌0.71%,蔚来汽车涨2.43%,小鹏汽车跌0.25%,理想汽车涨1.96%,哔哩哔哩涨1.43%,百度跌0.86%,网易涨0.42%,爱奇艺涨2.44%。 公司消息 【英特尔同意以110亿美元将爱尔兰工厂49%的股份转让给投资公司阿波罗】 英特尔同意以110亿美元的对价将其在爱尔兰一家工厂的部分持股出售给阿波罗全球管理公司,引入外部资金来助力自身生产网络的大规模扩张。这家芯片制造商在一份声明中表示,根据交易条款,阿波罗将获得该拥有英特尔Fab 34工厂的合资企业中49%的股份。这也是英特尔为捉襟见肘的财务状况减负而宣布的第二个同类投资计划。 【思科启动10亿美元全球人工智能投资基金】 思科公司的全球企业风险投资部门6月4日启动了一项10亿美元的人工智能投资基金,以支持初创企业生态系统并扩大人工智能解决方案的开发。作为新人工智能基金的一部分,思科将对Cohere、Mistral AI和Scale AI等公司进行战略投资。迄今为止,思科已从10亿美元的投资基金中拿出近2亿美元。 【美国证券监管机构调查“咆哮小猫”的GameStop交易】 美国马萨诸塞州证券监管机构正在调查GameStop的交易活动,该机构发言人称,正在调查GameStop投资者基斯·吉尔(Keith Gill)的活动。此前在6月3日,GameStop美股盘前一度大涨110%。此前Reddit上的一个帖子号称显示基斯·吉尔——又名“咆哮小猫”(Roaring Kitty)的投资者在GameStop构建1.81亿美元的仓位。 游戏驿站周二收跌5.36%。 【波音CEO卡尔霍恩称董事会将决定其继任者】 波音公司即将离任的总裁兼首席执行官大卫·卡尔霍恩(David Calhoun)6月4日表示,波音董事会将决定他的继任者,他将支持董事会的选择。卡尔霍恩将于今年年底卸任,这是该公司因安全危机而进行的管理层大调整的一部分。关于继任者的猜测越来越多,卡尔霍恩支持商用飞机部门主管斯蒂芬妮·波普(Stephanie Pope),而投资者、分析师和其他人则呼吁新任高管既要有首席执行官经验,又要有工程经验。 【英国准备向肥胖患者提供礼来减肥药】 英国指导意见草案中,礼来的减肥药Mounjaro被推荐用于英国部分肥胖患者的减肥,英国国家医疗服务体系 (NHS) 将为患者提供这种药物。这些建议仍处于草案阶段,可能会根据公开咨询的意见进行修改。如果该指导意见得到确认,Mounjaro将挑战诺和诺德的Wegovy,后者是针对接受专科体重管理服务的肥胖患者推荐的药物。 【德意志银行与加密货币交易平台Bitpanda达成合作 提供实时支付解决方案】 德意志银行将与Bitpanda合作,为这家奥地利加密货币经纪公司处理客户存款和提款。据了解,加密货币行业过去一直难以找到银行合作伙伴,尤其是加密货币相关客户高度集中的Silvergate Capital Corp、Signature Bank和硅谷银行在2023年倒闭后。
债市调整,机构率先撤退?多只债券基金出现大额赎回
今日,宏利闽利一年定开债券基金发布公告,称在5月22日发生了大额赎回。为了保证持有人的利益,所以将基金净值的精度提高到小数点的后八位。 界面新闻记者统计发现,今年以来,已经有187只债券基金公告因为出现大额赎回,从而提高了基金的净值精度。 据了解,债市持续回调会导致债基资金流出,当基金发生大额赎回时,基金经理可能被迫以较低的价格迅速变现部分资产以满足赎回需求,从而导致基金资产规模大幅缩减。而提高基金份额净值精度,能够使基金份额的赎回价格更为准确,从而保护剩余份额持有人和赎回投资者的利益。 在今年的新发市场中,债券基金无疑是最吸金的。Wind数据显示,截至5月23日,今年以来共成立了467只新基金,合计募集资金的规模为4400亿元。其中,仅中长期债券基金就有75只,合计募集规模为1558.72亿元。鹏华永兴、兴业添盈、富国瑞夏、国投瑞银启源利率债、国寿安保利率债三个月定开等多只基金的首发规模均达到了80亿元的规模上限。 界面新闻整理统计发现,今年以来,有债券基金的回报率超过了5%。截至5月22日,鹏华永达中短债6个月定开的年内回报率达到了5.2%,仅一季度的回报率就为4.66%。一季报显示,该基金主要是配置了短期限的中高评级信用债,并且一季度债券资产占基金资产净值的比例达到了136.47%,这意味着该基金使用的杠杆较高。 表:今年以来收益率排名钱前20的纯债基金明细   来源:Wind 界面新闻整理 债券基金火爆,基金公司也加大了对固收产品的持营力度。日前,记者在广州多个写字楼、居民区的电梯内,均看到了“天弘信利债券基金”的大幅海报。公开资料显示,该基金成立于2016年12月16日,是一只中长期纯债基金,现任基金经理为尹粒宇,自2021年11月16日接任至今回报率为10.68%。2023年基金年报显示,天弘信利的持有人数为3.88万,相较于2022年翻了49倍。 “现在能卖的动的确实只有固收产品,我们给客户配置的方案就是偏固收+的稳健方案。因为现在客户的风险偏好变低了,相比高收益伴随的高风险,他们更看重低回撤的稳健型产品。”某公募理财子公司理财经理告诉记者。 作为今年最火的品种,债券基金为何在近期频现大额赎回?这和近期的债市回调有关。 “自4月下旬以来,债市步入震荡调整阶段。在政策导向层面,央行再次提示长端利率债的交易风险。而且随着近期长期特别国债的落地,叠加债牛失速下跌,也会导致非理性情绪出现,放大债市调整,加剧震荡的幅度。”某公募固收研究员告诉界面新闻记者。 展望后市,金鹰基金基金经理邹卫指出,从目前公布的超长国债的发行节奏来看,它分了20多期,每期就几百亿,每次的量也较小,预计对市场冲击并不大。中短端利率则主要受益于流动性充裕。在资产荒的大背景下,打击手工补息,资金脱媒、存款搬家,中短端债券被追捧。从更长的视角来看,经济高质量发展的指导方针下,新旧动能转换之际,债牛或仍将延续。当然,未来市场可能也会有回调,涨得多时大家会畏高,这时候利空的因素往往会被放大,毕竟没有只涨不跌的资产,债券市场会在波折中不断走强。 来源:界面新闻
视频号直播电商架构调整,并入微信开放平台
文|陈桥辉 Tech星球独家获悉,5月28日下午,微信发布内部公告,微信视频号直播电商团队进行了调整。据悉,微信视频号直播电商团队将并入到微信开放平台(小程序、公众号等)团队,原微信视频号直播电商团队的负责人不再担任该团队的管理工作,转由微信开放平台负责人负责。 据知情人士向Tech星球透露,此次调整,将有助于微信视频号直播电商业务更好地融入到微信生态内,让视频号直播电商获得更有利的发展。 微信视频号直播电商的发展,较为迅速。 2021年7月,视频号成立专门的直播电商团队。Tech星球曾披露,视频号组织架构下,有短视频与直播两个并列部门,其中直播电商又细分为三个部门:运营部门,主要负责策略、规则制定,辅助优质商家达人在平台冷启动,给予一定扶持;安全部门,主要负责流量算法、安全机制、审核等;产品部门,负责视频号小店以及优选联盟。 到了2022年,视频号直播电商GMV约为400亿-500亿元,2023年,《晚点 LatePost》报道,微信视频号电商 2023 年的GMV在一千亿元左右。同时,微信还在逐步扩大视频号电商业务的队伍,以满足业务快速发展的需求,除了负责前端产品的视频号直播团队外,视频号电商团队还从微信其他部门抽调人手加入视频号电商的建设。 2024年1月份的年会上,腾讯CEO马化腾表示,微信这棵老树如何发新芽,是一个很大的问题,BAT公司(百度、阿里、腾讯)里,目前好像腾讯还有机会发点新芽。视频号是“全鹅厂的希望”,结合自身特点做熟人社交的短视频,今年要全力发展的就是视频号直播电商。
OpenAI联合创始人Greg最新采访:为什么OpenAI最先做出GPT-4?
为什么是 OpenAI 首先开发出像 GPT-4 这样强大的模型?联合创始人 Greg 在接受采访时透露,团队中不仅仅有学术背景的研究型人才,同时还有优秀的工程人才,这使得他们能够从不同的角度解决问题,更有效地推动项目进步。凯文・凯利在《5000 天后的世界》一书中预测,称雄 AR 世界的不会是 GAFA—— 如今的科技四大巨头。 纵观颠覆性技术的发展史,一个领域的主导者从来无法在下一个时代的平台上继续称雄,因为它们的成功会成为它们最大的桎梏。 事实仿佛真的如此。即便谷歌疯狂自证在 AGI 领域的实力,但却只能在 OpenAI 身后追赶。 为什么大企业无法创新?为什么是 OpenAI 首先开发出像 GPT-4 这样强大的模型?即使像 Google、Meta 有那么雄厚的资本,那么多人才储备也没有做到? 5 月 15 日,可汗学院(Khan Academy)的 CEO 兼创始人萨尔曼・可汗(Sal Khan)对 OpenAI 联合创始人兼总裁格雷格・布罗克曼(Greg Brockman)进行了一段采访,这段采访或许能够帮助我们找到答案。 研究与工程并重 OpenAI 日前向公众揭秘了 Omni 团队,团队成员年龄和司龄的年轻化,以及团队管理的扁平化引发了网友热议。其实在成员组合方面,也「暗藏玄机」。 OpenAI 的团队不仅有学术背景的研究型人才,同时还有优秀的工程人才,这种组合使他们能够从不同的角度解决问题,更有效地推动项目进步。 Khan 询问 Brockman「你们认为自己做了什么才能达到如今的地位?在这个领域,有许多人在努力工作,也有许多资源雄厚的大型组织。你们认为自己做了什么与众不同?是因为你们的方法不同,还是有其他原因?」 Greg Brockman 坦言「这是个很好的问题。我认为我们是更大趋势或历史的一部分。回顾过去 70 年的计算机发展史,我们经历了指数级的增长。」 「2000 年,Ray Kurzweil 曾经说过,看看计算能力,它会告诉你什么是可能的。这就是推动进步的动力。起初大家都认为他疯了,但现在我相信大家基本上都认同他的观点。」 Ray Kurzweil 「想想我们为了实现像 GPT-4 这样的项目,付出了多少工程上的努力,从计算基础设施到使用的所有数据集和工具,这其实是全人类在很多方面的巨大努力。」 「具体来说,我们能取得这些成就,是因为我们聚集了来自研究和工程背景的优秀人才。」 「当我们开始这个项目时,让我感到非常有趣的是观察其他实验室的工作方式。你会发现,大多数实验室以研究为主,研究型工程师被告知要做什么,而研究科学家则可以随心所欲。」 「这种方式似乎并不是实际构建一个工作系统的方法,更像是为了追求论文引用数量。如果你真的想产生影响并开发出有用的东西,你需要以不同的方式来组织团队。」 「虽然说起来很简单,但实际上,这涉及到很多相互冲突的思维方式,特别是当你来自不同背景时。」 我们必须尽力去解决这些问题,虽然你永远不能完全解决它们,但可以不断进步并挑战更复杂的版本。这就是我们需要勇于面对困难、勇于挑战的地方。」 不会因为风险的存在而止步不前 建立造福人类的 AGI Greg Brockman 第一次对人工智能的概念感到兴奋,是在他读到阿兰・图灵(Alan Turing)1950 年发表的关于图灵测试的论文的时候。 他想看看,我们是否能够真正制造出图灵所说的那种机器,一种人类水平的智能,也就是我们所说的 AGI,并让它造福于全人类。 这是 OpenAI 诞生的缘起,也是它的使命和愿景。 为了这个目标,OpenAI 已经工作了 8 年。在这期间,OpenAI 一直在做同样的事情 —— 建立更大的神经网络,让它更有能力,更协调、更安全,与此同时,部署这项技术,并使其发挥作用。 Greg Brockman 称「这就是我认为这项技术最吸引我的地方,每走一步,你都能真正产生影响,真正开始造福人类。你会看到你所建立的东西带来的好处,并真正学会如何减少所有的不利因素。」 迎战新的风险 当 Khan 问及 AI 的安全性问题,Brockman 这样回答「AI 的安全问题有着悠久的历史,早在 50-60 年代,阿瑟・克拉克这样的人就在谈论这个问题。」 《2001:太空漫游》作者阿瑟・克拉克 「我认为,对 AI 拥有这种复杂的情感是非常正确的,我们既要对任何新事物感到惊奇,又要问这是要去哪里,哪里会有陷阱?我认为只有这样,我们才能正确地在这个空间里航行。」 Brockman 提到,一件非常有趣的事情是,AI 是如何变得看起来「令人惊讶」的? 在 90 年代,每个人都认为,如果 AI 可以下棋,就说明进入了 AGI 时代,但实际上,这只是我们要解决的第一件事情,AI 学会下棋并没有让我们真正走得更远。 安全性问题也是一样。并不是说对 AI 安全的前瞻性的担忧一定不会发生,但 Brockman 认为,我们在错误的事情上过于自信了。 他举了一个例子:对于 GPT-3,OpenAI 只是在基础数据集上进行训练后就将其发布,而对于 GPT-4,团队则对模型进行了调整,尽力消除偏见。 事实上 OpenAI 在 2017 年就开始开发这项技术,当时这些模型还没有出现。 现在,GPT-4 带来了一类新的风险,未来还会出现更多新的风险。风险和益处将会并存,关键是如何学会如何面对这种风险。 在实践中学习 当我们在思考 GPT 对教育领域的影响的时候,一些人可能会首先注意到抄袭的问题,Brockman 也承认让学生独立思考非常重要。 但是「对于那些无法获得出色的教育工具的人来说,ChatGPT 是一个工具。教师可以根据自己的喜好,帮助学生进行某种工作并填补教育人员无法做到的空白。」 至于如何制定规则,如何将这项技术融入教育,则需要「获得大量的意见,与大量的教育工作者接触。OpenAI 不是这项事业唯一的决定者,从每个人那里获得广泛的意见很重要。」 「我们为了实现真正的益处,和一线的教育工作者交谈,真正弄清楚他们想要什么。」 我们还需要「真正展示积极面」。 一旦你有了一个有效的正面例子,就很容易围绕它建立标准,如果没有这个,那么就相当于「在黑暗中开枪」。 就像采访者 Khan 谈到的,ChatGPT 对教育的影响取决于怎样使用,比方说我们可以用它来采访历史人物、练习辩论技巧等。 更多正面使用的案例和经验需要在实践中获得。 去年 OpenAI 发布了一篇关于部署语言模型安全标准的博客文章,这篇文章的形成用了 2 年的时间。Brockman 告诉 Khan「这种从实践中学习的迭代部署,是我们现在可以做的最重要的事情」。 每个人都可以获得 AI 的「超能力」 人工智能究竟会削弱人类能力,还是增强人类能力? Brockman 和 Khan 都站在人工智能会增强人类能力的这一边。 Brockman 乐观地说「现在,拥有一部智能手机就可以开始以一种方式进行创作,而你之前必须购买一堆专业软件,你必须去学校接受大量的培训。」 「我认为我们都可以获得人工智能的超能力,我们可以实现我们想要的目标」。 当然,关于这个问题,每个人都可以有自己的答案,但 Greg Brockman 无疑是一个乐观主义者,这或许也是 OpenAI 不断向前的原因所在。 乐观是油门,悲观是刹车,两者都不可或缺,但是想要前进,我们必须多踩油门而不是刹车。
字节偷偷盯上AI硬件?
一则收购消息,让外界更加相信字节正在悄悄打AI硬件的主意。 近期,彭博社报道字节以5000万美元(约合人民币3.62元),收购中国耳机制造商Oladance。彭博社援引知情人士称,此举是因为字节管理层看到了可穿戴设备成为AIGC服务平台的潜力。 字节在这场AI浪潮中颇为活跃。据Sensor Tower,截至今年4月,字节推出的豆包应用在苹果iOS平台一年内的下载量接近900万次,超过了百度文心一言的800万次。 前不久,OpenAI发布GPT-4o,字节旗下火山引擎紧随其后发布豆包大模型家族,并将价格打至最低0.0008元/千tokens。此举登时引发连锁反应,阿里云宣布通义千问主力模型Qwen-Long的API输入价格降至0.0005元/千tokens,降幅97%,百度拿出两款主力大模型免费对外,腾讯也公布大模型升级方案,其中主力模型之一的混元-Lite也调整为免费。 此外,在OpenAI 2月公布文生视频大模型Sora之前一周,原抖音集团CEO张楠辞职,转而挂帅剪映。三个月后,剪映全量上线AI作图和AI视频生成工具即梦。 但在大模型软件商业化迟迟无法打开局面之下,硬件,正成为一众大模型玩家输出AI能力的新载体。 手机厂商和PC厂商争相将传统智能终端改造成AI硬件,推出AI手机、AI电脑。苹果被传和OpenAI、谷歌等沟通,想要将大模型放入下半年即将公布的新品中。微软也已经宣布其Windows 11 AI PC计划,Copilot全面引入操作系统,成为随时陪伴用户的全能助手。OpenAI也宣布要开发并制造自己的AI硬件,形态无人知晓。 包括智能眼镜在内的小众硬件也成为一些企业投注的品类。Meta和雷蒙合作的智能眼镜已经塞进了多模态版本的Llama3,华为智能眼镜则接入了盘古大模型。智能眼镜轻便,且可以兼顾视(镜片)和听(镜架扬声器)。而Oladance在开放式耳机方面的技术,恰吻合后者的需求。 不过,部分AI硬件的创新先驱者已经开始遭遇危机:别在胸前的AI Pin、完全没有APP的Rabbit 1被推出后都曾惊艳一时,但前后脚翻车——Rabbit R1被质疑套壳安卓,AI Pin使用感受不佳,背后公司Humane被曝已经在寻求出售。 被字节收入囊中的Oladance,在开放式耳机设备和出海两方面都有丰富的经验。 Oladance主攻开放式耳机,也就是挂在耳朵上、不入耳的耳机。甚至现在常用的OWS(Open Wearable Stereo开放式穿戴立体声)概念本就是Oladance提出的。 这种耳机和传统入耳式耳机的最大区别在于,使用者在私享音频的同时,可以保持与外界的联通,与人交谈、收听环境音等场景不受影响。 Oladance这家公司非常年轻,2019年成立于深圳,名字很豪放:深圳市大十未来科技有限公司。创始人李浩乾本身就是BOSE的前高管,创业时带了数位BOSE工程师。 不同于先本土再出海,融资、推产品、再融资的路径,2021年7月,Oladance的第一款全开放式耳机以众筹的形式,登陆北美Kickstarter网站,1小时拿下15万美元(约合人民币105万元),收官于39.7万美元(约合人民币278万元)。其后才开始在中国销售。次年6月,Oladance进入日本市场,第一站也是众筹网站Makuake,上线2小时完成众筹目标,收官于1.05亿日元(约合人民币484万元)。 自登陆北美市场后的两年时间,Oladance的产品就已经销往全球超过30个国家和地区。 顺带一提,Oladance的产品定价不低,属于中高档价位的耳机。目前Oladance京东自营旗舰店在售耳机中,最便宜的也要999元,最贵的要1499元(目前正是618期间,页面显示“直降400”),单独的充电仓价格在300元以上。用创始人李浩乾在36氪WISE2023未来消费大会上的话说就是“我们的产品比苹果卖得还贵”。 在海外市场,Oladance已经小有名气,YouTube网站上的相关评测视频有数万甚至上百万的观看量,还曾获评亚马逊2022年年度创新品牌。 到了2023年8月,Oladance传出天使轮融资的消息,规模千万美元,由蓝驰创投、黑蚁资本领投。据36氪,李浩乾曾透露Oladance预计2024年营收超10亿美元。 字节收购一家耳机公司,醉翁之意很有可能不在音频市场。 耳机市场已经是一片红海,传统TWS真无线耳机的市场在经历高增长后已经开始萎缩,全球出货量增速从2021年的70%,降至2022年的25%,2023年就只有8%。 OWS耳机增长迅速,但规模总体较小。据市场调研机构Canalys,2023年第四季度开放式耳机占个人音频市场的份额增长了68%,但总体占比只有2.9%。据Global Information的报告,2023年全球OWS市场规模约19亿美元。 相比之下,Oladance在字节更有可能的用武之地在AI硬件。 字节是这一波AI浪潮中深受影响的科技大厂之一。去年8月,字节发布类ChatGPT应用豆包。本月(2024年5月)OpenAI公布GPT-4o,字节旗下火山引擎紧随其后发布豆包大模型家族,并将价格打到0.0008元/千tokens,一时间掀起国内大模型的价格战。 此外,抖音前CEO张楠挂帅剪映,并在不久前推出AI作图和AI视频生成工具“即梦”,追随OpenAI视频模型Sora的脚步。 在核心技术大语言模型、落地应用之外,承载AI的硬件也成了科技企业的圣杯——谁都不能准确说出未来的AI硬件到底是什么形态,但是谁都不敢不去尝试。 传统智能终端纷纷AI化,AI手机和AI电脑已经成为厂商的必备新品。微软前不久才在新品发布会上宣布推出“更快、更智能”的Windows PC品类:Windows 11 AI PC。其内置OpenAI的GPT-4o,并且将AI助手Copilot全面引入系统。微软CEO萨蒂亚·纳德拉(Satya Nadella)更是直接叫板苹果,称期待Windows与Mac能够“重新展开真正意义上的对决”。 XR设备也是AI的热战场,其中以智能眼镜最为突出。 Meta早在2021年就和雷朋眼镜合作,推出过智能眼镜。去年9月,双方再次合作推出Ran-Ban Meta智能眼镜,最大的亮点是内置Meta AI,今年还升级支持多模态版本Llama 3大模型。 这意味着用户不仅可以用“Hey Meta”唤起一个助理,而且这个助理除了语音交互之外,还可以通过眼镜摄像头识别环境,和用户沟通。Meta的CEO马克·扎克伯格(Mark Zuckerberg)自己在Instagram上发视频宣传,戴着智能眼镜的他拿起一件衬衫,询问Meta AI该怎么搭配裤子。 就连谷歌联合创始人谢尔盖·布林都感叹,智能眼镜是最新公布的Project Astra的“完美硬件”。可惜谷歌发布智能眼镜是在10年前:“不幸的是,我们搞错了时间。我真希望实际能把握得更好一些。” 如今,已经有众多企业入局智能眼镜,并将大模型带入其中。如华为把盘古大模型塞进了华为智能眼镜2里,不支持XR功能,可以视为智能音频眼镜。前天猫精灵产品总经理茹忆创业,创办的李未可科技有限公司也已经推出了首款AI智能眼镜,搭载了自研大模型WAKE-AI。 智能眼镜一般会在镜架设置扬声器,要尽量降低漏音、提高通话降噪能力,这与开放式耳机的技术不谋而合。 但AI硬件并不好做,或者说各家都尚在摸索阶段,试错也许在所难免。 这几天还有另一个关于AI硬件的消息,不过是个坏消息:Humane正在寻求出售。 Humane这个公司名本身不出圈,但要说其产品AI Pin,相信很多人都不陌生。这款可穿戴AI设备没有屏幕,配有传感器、生成式AI和小型投影仪,用户把它挂在胸前进行语音交互,还可以直接将信息投影在手心。 新颖的交互方式让AI Pin一经推出就备受瞩目,毕竟大家都在聊AI硬件,但真正做出一个不同于手机、PC的产品的还真没有几家。然而,AI Pin的实际使用体验却不尽如人意,户外日光下看不清投影内容、语音交互延迟等硬伤一大堆。 5月,彭博社报道称Humane已经在寻找下家,期望以7.5亿美元到10亿美元出售,目前正处于早期阶段。初创企业寻求出售倒也不新鲜,但“下一代iPhone”横空出世不过一个月,公司就要卷铺盖离场,也算是给AI硬件创新泼了一盆冷水。 字节做硬件并非没有经验,但缺少大获全胜的经验。 去年11月,字节旗下VR部门PICO宣布裁员,涉及员工300余人,占比23%。字节于2021年以数十亿元收购PICO并大力发展VR头显业务,巅峰时期PICO员工总数曾突破2000人。裁员后,PICO将以千人规模维持运营。 在内部发言中,PICO CEO周宏伟称“此前我们对行业和市场的发展估计得比较乐观,但实际上没有预期得那么快”。 字节PICO刚开始尝到了增长的甜。据Wellsenn XR的数据,2022年第二季度PICO出货量26万台,同比增长近8倍。但很快甜就变成了苦,据IDC估计,PICO头显出货量在2023年上半年只有14万台,远低于上一年。随着元宇宙的热度消散,整个VR赛道还没真正迎来爆发式增长就转为平静。 除此之外,字节还曾涉足教育硬件,从2020年开始推出大力智能学习灯、智能写字板等产品。其中学习灯在一年多的时间累计销量突破100万台。但2022年6月教育业务大幅裁员后,学习灯也不再发布新品。此后字节教育硬件业务负责人杨康转岗,业务首任负责人阳陆育离职,字节在教育硬件方面鲜有新消息传出。 如今AI热战持续,抢占下一代智能终端的愿景足够诱人。走得慢怕赶不上,走得快又有可能拉伤自己,字节也只能摸着石头过河。
银河通用王鹤:让具身智能机器人“言出法随”,需攻克两大局限性丨GenAICon 2024
作者 | GenAICon 2024 2024中国生成式AI大会于4月18-19日在北京举行,在大会第一天的主会场开幕式上,北京大学助理教授、银河通用机器人创始人&CTO、智源具身智能中心主任王鹤以《通向开放指令操作的具身多模态大模型系统》为题发表演讲。 成立于2023年5月的银河通用机器人,是国内具身智能代表初创公司之一,迄今已完成4轮融资,美团是公司外第一大外部股东,北大燕缘创投、清华无限基金SEE Fund均是投资方,其累计融资额已超过1亿美元。 作为国内具身智能领域资深专家,王鹤详细解读了具身智能大模型的定义、范围和关键技术。他谈到目前面向通用机器人的具身多模态大模型的局限在于数据来源有限、很难高频输出动作。应对这两大挑战的方向,一是通过仿真世界提供训练数据,二是采用三维模态模型提升泛化性和速度。 对此,银河通用机器人构建了三层级大模型系统,包括硬件、仿真合成数据训练的泛化技能、大模型等。基于该系统,机器人可实现跨场景、跨物体材质、跨形态、跨物体摆放、依据人类语音指令进行的开放语义泛化抓取,成功率达95%。 以下为王鹤的演讲实录: 今天我带来的内容与机器人相关,这个话题也是今年“AI+”中最火热的话题之一。 大模型公司OpenAI和机器人公司Figure AI联手演出,让我们看到机器人在厨房里拿苹果、端盘子、放杯子的惊艳视频。还有巨头英伟达在GTC大会官宣要做Project GROOT,GROOT就是通用机器人。 那么,对于通用机器人我们的期待是什么?就是它能像人一样干各种各样的体力劳动,可以实现我们告诉机器人指令,它通过视觉去看、各种传感器去感知,然后连续高频输出动作,也就是能够听懂我们跟它说的任务指令。这就是“言出法随”。 此外,机器人还应该做到环境泛化,在家庭、工厂、商超等不同的环境中工作。 这样的通用机器人显然不是只造出机器人本体就可以,那么背后的技术是什么?什么赋予了它这样的能力?就是具身多模态大模型。 一、拆解大模型分类,自动驾驶是典型的具身大模型 具身多模态大模型就是能高频输出动作的大模型,我将其分为非具身和具身大模型两类。 今天前面看到的一些大模型实际是非具身大模型,如GPT-4、GPT-4V、Sora等,它们的特点是,输出都是给人看或者给人读的。无论语言、图片还是视频大模型,最终服务的对象是人,显示的设备是各种手机、电脑、AR设备等。 而具身大模型的特点是:拥有一个身体,最终输出的对象是身体的运动。 这样来看,自动驾驶大模型就是一种典型的具身大模型,比如特斯拉的FSD全自动驾驶系统,今年8月号称要开始无人出租车业务Robotaix。 自动驾驶大模型的输入是视觉信号和终点的位置,输出是方向盘的动作和油门、刹车的大小。机器人相比于车来说,动作空间自由度更高,输出是底盘或者腿、手臂、手指等全身的运动。这样的机器人大模型也是这几年学术界、工业界研究的热点。 谷歌RT-2大模型是端到端的具身大模型代表,能够把香蕉放到写有“3”的纸上,把草莓放到正确的碗里。“找到正确的碗”,这背后需要大模型的通用感知和理解能力,以及连贯的动作生成能力。还有把足球移到篮球旁边,把可乐罐移到Taylor Swift的照片旁边,将红牛移动到“H”字母上。 这样的具身大模型,如果能完全达到Open-Instruction(开放指令)、Cross-Environment(跨环境泛化),就能替代大量的体力劳动。 今天,全球语言大模型、视频大模型、图片大模型、自动驾驶大模型的市场规模都达到至少千亿美元,试问如果能有一个完成任何指令的机器人代替人,它的市场规模会有多大?可能相比于目前车的市场提升两到三个数量级。 二、通用机器人面临两大局限性:数据来源有限,机器人反射弧长 谷歌的RT-2大模型背后就是通过多模态大模型输出动作,那么这样的大模型是否已经成熟了?是否今年我们可以期待有机器人保姆在家里干活?目前,无论OpenAI、英伟达,还是谷歌,做通用机器人都还有巨大的局限性。 谷歌的技术局限性第一点在于,具身机器人数据来源非常有限,谷歌在Mountain Village(美国加州)办公室的厨房里采集了17个月,得到13万条数据,使得其机器人在谷歌的厨房里表现可以非常好。 但一旦出了这个厨房,需要考察其环境泛化性,它的成功率就从97%骤降到30%左右。并且这种泛化是有选择的泛化,不是将其直接放到施工工地、非常嘈杂的后厨等场景中,它最大的问题就是数据采集没有办法做到Scalable(可扩展)。 今天,有百万台车主在开特斯拉,为特斯拉的端到端自动驾驶模型提供数据,互联网上有无穷无尽的用户上传的照片等作为多模态大模型的数据,那么机器人大模型的数据在哪儿?这是谷歌、OpenAI、英伟达没有完全解决的问题。 第二点局限为,RT-2大模型中包含了谷歌上一代大模型PaLM-E,它的速度只能达到1~3Hz,机器人的反射弧长达0.3秒甚至1秒,这样的机器人恐怕你也不敢用。 OpenAI和Figure AI合作用的是小模型,它能够达到200Hz的动作输出频率,大模型如何做到以200Hz的频率输出动作也成为通用机器人领域的重要问题。 三、打造三层级大模型系统,解决泛化、响应速度难题 今天给大家带来一些银河通用在这个问题上的探索。 如何能够做到又快又泛化?泛化说的是数据问题,今天真正可以满足机器人大模型需求的数据且含有动作标签的数据,只能来自于仿真世界、物理传感器。 在2017年,我读博士期间就开始研究如何通过仿真生成大量的合成数据,来训练机器人的视觉和动作。今天我们可以把各种家用电器等物体搬到仿真设备里面,并且可以真正做到物理仿真,机器人要沿着一定方向用力拉抽屉,而不是像游戏里面手一过去抽屉就弹开了。如果是那样的话,机器人学到的东西在真实世界里面没有用。 我们在仿真世界里面放满了各种各样的物体,赋予它跟真实世界相同的交互方式,我们再把传感器放到仿真环境里面去训练,就拥有了一个足够好的数据生成来源。 那么如何做到快?就是小模型,如同OpenAI和Figure AI的小模型一样,高频输出动作。三维视觉的小模型给我们带来了一个比Figure AI更好的选择方案。 Figure AI的方案采用了二维视觉模型,二维视觉模型最大的特点是很难泛化。如果你之前在黑色房间做训练,那么换成白色的房间此前的训练就白费了。三维视觉看到的是点云、物体的几何,不会受光照、纹理、颜色影响。 那么,这样可以做到泛化、快,还是从仿真数据里面学习的模型,能不能解决我们真实世界开放与易操作的问题?今天我把我们做的标志性成果跟大家分享一下。 我们用的是三层级大模型系统,底层是硬件层,中间层是通过仿真合成数据不用任何真实世界数据训练的泛化的技能,包括自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂衣服叠衣服柔性物体操作的泛化技能。 这里谈泛化的原因为,我们可以在仿真环境里生成千万级场景,十亿规模的动作来训练机器人,让其可以应对各种真实世界的情形和挑战。这种采集方式,相对于在真实世界里用遥控器遥控机器人采集具有极高的效率和丰富的数据来源。 最上层是大模型,可以调度中间技能API,来实现完整的从任务的感知、规划到执行的全流程。 四、大型仿真平台Open6DOR,破解六自由度操作难题 先展示第一个例子,我们如何做开放语义关节类物体的操作。 我们与斯坦福大学合作,机器人执行开关微波炉、开锅、使用搅拌机等任务时,背后不是靠我们去挨个训练不同类别,而是直接在这些物体上测试我们的模型。 这一技能来源于CVPR 2023的满分论文,我们提供了世界上第一个以零件为中心的数据集,该数据集覆盖了各种家用电器上可能存在的主要操作零部件,包括旋转盖、推盖、转钮、按钮、直线把手、圆形把手、门等。 然后我们把这些零部件放在仿真世界里面,并标注了它的位姿、所有轴的使用方法,从而帮助推理相应开门等操作的方法。 这样的合成数据集就能教机器人如何去开生活中没见过的柜子,机器人只要有三维点云、找到把手的位置,正确抓取把手在沿着柜子的方向一拉就可以打开任何抽屉。 我们的实验也证实了机器人可以完全依赖仿真世界的数据,实现真实世界里关节类物体的泛化操作,包括没见过的物体类别,如遥控器、计算器、圆形把手的锅盖等。图上面是三维视觉的输出,下面是机器人技能的展示。 这样的技能如何与大模型相结合?GPT-4V与我们十分互补,GPT-4V是典型的二维语言双模态大模型,它具有很强的推理和感知能力。但其缺点在于,会偶尔看不出来,对物体零部件的数量判断错误,且不知道零部件在三维空间中的具体位置,定位能力为零。 三维视觉的模型就可以提供GPT-4V检测到零部件的数量、位置和形态,把它作为Prompt交给GPT-4V,让它去思考这个东西怎么去用。 我举一个例子,当我们直接把检测到的微波炉零部件交给GPT-4V作为Prompt时,让它生成关于这个场景的综合描述,它会说这个微波炉有直线门、直线把手、按钮和旋钮,然后问它:“如果我想打开微波炉,我应该动哪个零部件?使用哪个API?” 大模型的回应是“动把手,调用的API是绕门轴转90度”。那么,把手在哪里、门轴在哪里是三维视觉给它的,GPT-4V不能输出三维的坐标和位置。 然后机器人尝试时,我们发现这个操作看似合理,但实际操作却打不开,这是为什么?因为微波炉不可以靠蛮力开,这时候我们将“门没有打开,只旋转了零点几度”的三维视觉反馈给GPT-4V,问它接下来怎么办。 大模型给出操作时,可以调用检测出的按钮再开门。这体现了大模型通过丰富的语料训练,已经产生了足够多的知识。我们可以直接信任它进行操作。 这样的例子很多,我们最开始讲的家用电器的零部件,GPT-4V知道零部件的位置等就可以进行操作。这是真正的Open-Instruction(开放指令),它关于环境是泛化的,不受环境的颜色、光照影响,只关心几何。 第二个例子是如何做到六自由度物体的自由摆放。六自由度指的是三自由度的平动、三自由度的转动。 谷歌的工作是三自由度的开放语义操作,它只能做到放在哪儿,不能做到朝哪儿放,其没有方向改概念只有位置概念。我们在全球率先提出桌面级操作要解决的里程碑难题就是六自由度操作,能够在桌面同时执行位置和朝向的指令,我们将其命名为Open6DOR。 Open6DOR是大型仿真平台,里面包含2500个各种各样的任务。这些任务不用于训练,而是拿来检测具身多模态大模型能不能完成,这其中有200多个家用常用物体。 其主要关注三类任务追踪,第一是只关心位置,比如把苹果放到勺子的右边、把瓶子放到锤子和改锥的中间,这就是Position-track;第二是Rotation-track,把锤子冲向左、易拉罐的标签朝左、把碗上下颠倒。而实际我们需要的是Position+Rotation的任务执行,也就是六自由度Track,比如把盒子放到锅和锅盖之间并让标签冲上,或者把卷尺放到中间且让它立起来,像这样的操作是桌面级操作里的关键性里程碑。 谁能够率先完成2500个任务,就说明你的大模型已经初步具备了Open Instuction能力。 五、三维视觉小模型快速生成动作,大模型规划 目前,针对2000多个任务,我们自己提了一套方法。 首先是抓取能力,这是银河通用的独有技术,我们研发出全球首个可以实现基于仿真合成数据训练任意材质的技术。通过海量的合成数据,我们在全球第一次达到了跨场景、跨物体材质、跨形态、跨物体摆放实现泛化抓取,并且首次达到95%的抓取成功率。 此外,对于纯透明、纯反光等物体的泛化抓取对于二维视觉、三维视觉都有极大的挑战性。可以看到,我们的方法能实时将透明高光物体的深度进行重建,并据此进行物体抓取。 下图中演示的抓取不是简单的从上往下抓,它其实是六自由度的抓取,既有三自由度的转动,又有三自由度的平动。此外,当其耦合大模型后,可以实现开放语义的物体抓取,从抓取能力上今年我们已经实现了泛化的一指令抓取。 那么如何做到位置抓取有效?下面四张图演示的指令分别是,抽一张纸盖在改锥上、把瓶子竖直放到红碗里、把足球放到抽屉里、把水豚放到金属杯子里面。 它背后是怎么做的?首先我们要用GPT-4V提取指令中的关键信息,这里的指令是“把水豚放到写着‘Open6DOR’的纸上,并且把水豚冲前”,我们用GPT-4V+Grounded-SAM把所有的物体进行分割,并且把其三维Bounding Box(边界框)输出给GPT-4V。GPT-4V理解这些物体现在的位置后,就会输出应该把物体放在哪个位置的指令。 那么旋转怎么办?GPT-4V是否可以直接输出旋转矩阵?输出机械臂左转上转横转分别多少度?答案是不能,GPT-4V没有这个能力,它并不知道转轴在哪里。 我们在全球提出了Real-same-real的Pipeline,先将真实物体在仿真环境里面重建,再把重建的物体Mesh自由落体撒满整个仿真环境,让物体处于各种可能待的位置。然后将这些位置交给GPT-4V评判,谁满足语言指令的需求,随后GPT-4V通过两轮筛选,选择出符合指令物体的摆放位置。 这样的仿真是全并行,可以很快完成,其中比较慢的就是GPT-4V需要在很多张图里选最好的一张图。我们会将十张图拼成一张图,上面打出标签0~9,GPT-4V直接输出选择哪个,可以同时解决位置在哪儿、朝向在哪儿的问题,后面就用我们的抓取算法结合路径规划,将任务完成。 我今天谈的例子是,当我们用GPT-4V端到端去做动作生成时,它并不快,就像视频生成现在是离线的一样。而机器人需要在线实时生成,因此我们提出了用中间的三维视觉小模型进行动作快速生成,大模型进行规划的三层级思路。 但未来还是端到端,谁能做好端到端的视觉、语言、动作大模型?这里隐含了一个条件——没有做好小模型的公司、没有能让动作小模型泛化的公司,不可能让大模型泛化。因为大模型在单一任务上的数据需求远高于小模型。 银河通用携带着一系列从抓取、放置、柔性物体操作到关节类物体操作等各种小模型,我们将百川归海,最终融汇到大模型里实现通用机器人。在这一点上,我们已经率先打造了全球首个跨场景泛化的导航大模型,你可以用一句话让机器人在没见过的环境里面跟着指令走,这样的机器人没有任何三维定位、建图、激光雷达,只有图片作为输入,这与人走路找路的方式一模一样。 我们相信这样通用、泛化的端到端的Vision Language Action Model(视觉语言动作大模型)将迅速革命现有的机器人产业格局,在非具身大模型和自动驾驶大模型之后创造出一条万亿的赛道。 银河通用成立于去年6月,用10个月的时间完成四轮融资,累计融资额达到1亿美元,我们有一众明星投资人。 以上是王鹤演讲内容的完整整理。
云天励飞余晓填:剖解大模型技术演进与挑战,算法芯片化突破大模型落地“三角约束”丨GenAICon 2024
作者 | GenAICon 2024 2024中国生成式AI大会于4月18-19日在北京举行,在大会第一天的主会场大模型专场上,云天励飞“云天天书”大模型技术负责人余晓填以《多模态大模型技术演进与落地应用探索》为题发表演讲。 2022年底,ChatGPT横空出世,搅起了AI行业的发展热潮。2024年初,文生视频大模型Sora推出,AGI(通用人工智能)发展驶入快车道。余晓填以Sora的发布以及美国利用脑机接口帮助瘫痪病人实现自主行动等案例,展示了AI技术惊人的迭代速度及其潜力。余晓填认为,大模型技术从前几年的崭露头角,发展到现在的如日中天,人类已然迈入了AI的新时代,并朝着AGI的大道全速前进。 在AI蓬勃发展的新时代,大模型技术成为AI领域的焦点之一。以Transformer结构为核心的大型模型被认为是一种高效、可扩展的学习器,能够在短时间内对海量数据进行学习和信息压缩。然而,大模型技术的发展仍旧面临挑战。其中突出问题之一便是数据支持的不足。 如何克服这一难题?余晓填认为,解决的关键在于顶尖AI人才的培育,顶级的人才、专家才是支撑着大模型技术快速发展的基石。 多模态大模型作为大模型技术的重要发展方向,也引起了各界的广泛关注。余晓填提到,多模态大模型信息压缩策略主要分为两种类型:分阶对齐结构和端到端对齐结构。前者利用文本数据的广泛覆盖优势,加速学习收敛速度;后者则通过一次性对各种信息进行交叉并发,实现高效的信息压缩。然而,多模态大模型的落地应用面临诸多挑战。 在此背景下,云天励飞又将如何打破大模型应用的“三角约束”,为大模型技术在各行各业的应用提供新的可能? 以下为余晓填的演讲实录: 在梳理大模型技术近期的重要事件中,如大模型的发布、算力的提升,我看到了两点重要信息:第一,AI技术的迭代速度惊人,世界各地的科技巨头均在竞相争夺领先地位;第二,以大模型技术为核心的AI领域正在经历前所未有的快速发展,并且这种加速度正持续提升。 我们梳理了三个可视化的例子。 首先,去年特斯拉在其投资者日公开展示了一个视频,展示了一个人形机器人正在尝试组装机器。这预示着我们可能即将迈入机器人制造机器人的时代。 其次,最近OpenAI发布了名为Sora的项目,并与Figure合作,开发了具备人形外观的智能机器人。这种机器人具备了高度交互性,能够与人类进行流畅的沟通,并执行人类的指令。 另外,上个月,美国首例利用脑机接口帮助瘫痪的病人已经开始使用自己的意念来发推文,甚至在半夜使用意念玩游戏。这些令人震惊的应用展示了AI技术带来的巨大潜力,表明人类已经迈入了AI的新时代。 一、从ChatGPT到Transformer,大模型在信息压缩与学习中的演进 ChatGPT的根基是围绕着Transformer结构的演化,但是,什么是Transformer?我们认为,它是一个很高效的、可扩展的海量数据的学习器。简单来说,它是一种信息压缩机制,能够在短时间内将人类历史上的所有知识进行压缩,并从中发现语言的规律。 GPT的结构并不偏好任何特定的领域或模态,它能够对各种知识和多种模态进行压缩。这种信息压缩的关键条件包括巨大的参数规模、强大的计算能力以及海量的数据支持。参数规模已经发展到了千亿或万亿级别。在计算能力方面,英伟达一直在为其提供强大支持。 然而,从数据层面,一些学者表示,以后数据将不足以支撑大模型的训练,那这时候怎么办?可能是采用数据合成,用大模型去制造更多的数据进行博弈的学习。 我们认为大模型的一个核心根基是人才,顶尖的AI人才。这种人才可以把大参数、大算力、大数据有机地结合在一起,形成真正算法结构下的高效信息压缩,而这种顶级的专家人才则是支撑着美国大模型技术快速发展的基石。 可以看到,大模型技术的发展以及大模型的能力,归纳起来就是海量信息的压缩,并学习到其中的统计规律。目前在文本方面,我们可以把海量的数据进行压缩,得到了文本的规律,形成了语言的理解和生成。视频、图像、声音等也可以通过海量的数据进行压缩,训练数百万小时的视频,最终用眼睛去看和理解这个世界,甚至在未来进行多种模态的数据交互,这时候,自然而然就会引出来下一个真正要讨论的主题——多模态大模型。 二、多模态大模型如何做信息压缩?探索分阶对齐结构、端到端对齐结构 多模态大模型是怎么去做信息压缩的?我们认为有两大类型。 第一大类型,分阶的对齐结构。第一个阶段先去压缩文本的信息,第二阶段再压缩其它的信息,其它的信息包括视觉、声音等。 为什么要这么做?因为文本的数据覆盖面更广,全量,而且是高知识量的。以此为基础,就可以获得更快的学习收敛速度。这里可以类比人,人学习的过程最重要的三大来源:说话、眼睛看世界、耳朵听东西,这三个信息可能最开始要引导的教育过程,是引导他讲东西,这也就是分阶段对齐的核心要义。从图来看,LLM Backbone以语言对齐为核心,分阶段去做多模态大模型的信息压缩,找到其中的信息系规律。 第二大类型,端到端对齐结构。就是对不同模态的数据同时学习,同时输入图像、文本各种各样的信息,直接把所有信息交叉并发,把所有的信息进行压缩,抽取里面的规律,最终达到理解这个世界,去驱动跟这个世界进行交互。 三、解读大模型技术发展三阶段,场景反哺技术阶段仍面临挑战 大模型能够帮我们做什么?我们很清楚大模型技术只是一个工具,从技术的角度去看,它帮我们把很多信息压缩,更高效地找出其中的规律。大模型要体现出价值,就要落实到各行各业、各种业务的闭环应用里面去。 借鉴AI技术发展的路径,我们认为大模型技术发展定义也有三个阶段。这三个阶段实际上也是技术跟数据或者算法的关系。 一开始,我们设计算法时通常会使用少量数据进行验证,这被称为技术找场景。在第二阶段,场景反哺技术,我们则采用更多数据来提升算法和技术的能力。第三阶段,场景找技术,即所有应用和需求都能通过同一个算法、模型来解决,这标志着我们迈入AGI时代的大道。 那么,技术找场景现在的进展如何?我们已经走完了技术找场景在大模型技术发展应用的这段路。许多应用,例如智能问答、文生成图以及像ChatGPT这样的生成式大模型单点应用,已经验证了大模型技术的应用和算法成熟度。 目前,我们正处于第二阶段,即场景反哺技术的阶段。我们可以看到,多模态大模型的落地还有很长一段路要走,其困难之处在于行业场景的复杂性。尽管我们希望在各行各业中广泛应用大模型,但行业场景的知识深度对大模型的能力提出了严峻的考验,仍存在着参差不齐、远未满足需求的情况。 因此,我们需要积极推动多模态大模型技术的落地,并应对挑战寻找解决方案。 四、如何打破大模型应用的“三角约束”?云天励飞提出“算法芯片化” 我们要考虑主要的变量是什么?从智慧城市中的城市治理、智慧交通,我们归纳出,要在多模态大模型进行落地变现,应注意三个变量的“三角约束”。 如今,对话系统备受关注,其精度已经接近人类,跟人没有差异,但在对垂域的深度支持和行业的价值,大模型没法去做。在真实生产环境中,很多任务是很复杂的,由于对垂域专业知识的不足,以及数据优化结构的增加,大模型面临着成本和效率方面的挑战。 因此,我们需要在精度、成本和效率之间寻找平衡点,以推动多模态大模型技术在对话系统中的落地应用。我们相信,我们正在积极解决这一问题,并与AI领域的同仁一道不断推进技术进步。 云天励飞是如何突破“三角约束”的?我来分享一下我们的解决方案。 自2014年云天励飞建立之初,我们就定义了“算法芯片化”的技术发展路径。算法芯片化不仅仅是简单地将算法应用于芯片,还需要高度专业的人才,需要专家人才对算法有深刻理解,对不同场景和行业数据有专业认知,并能够通过协同设计算法与场景,最终体现在芯片侧、算子侧,包括推进可伸缩的指令集、优化计算架构以及工具链的优化。 这样的技术支持使得我们能够应用包括Transformer、各种深度学习算法框架等多种算法。最重要的一点,它的成本、效率是制约多模态大模型落地的关键。 过去打造的云天天书多模态大模型包含了几个维度,包括语言、CV、文本问答、目标检测分割等。这些大模型的落地采取了分层解耦的策略,通过设计算法芯片化平台,我们构建了一个通用大模型。这个通用大模型具备基础能力,它在行业知识和场景经验方面可能只达到60到70分,但在通用性方面可以达到80分、90分甚至满分。 再往上走就是行业大模型、场景大模型,要在具体的场景业务里面拿到90分,需要低成本的算子层面优化,并通过与边缘侧数据的高效迭代训练来满足客户需求。 过去十年,云天天书算法研究经历了长时间的迭代发展。从2017年之前研究以ResNet卷积神经网络的深度学习,到Transformer结构起来之后,我们第一批启动了Transformer结构适配整个算法芯片化的平台。去年公司上市后,我们加大了对大模型技术的研发投入,并持续跟进海内外的先进技术。我们成功地研发了从百亿级到千亿级的语言多模态大模型。 上个月,我们发布了云天天书3.5V的大模型。在图文理解、生成以及问答等方面,这些模型表现非常可观。在语言大模型方面,我们去年已经多次获得了权威榜单的第一名。 五、云天励飞是怎么取得可观成绩的?背后有4项关键技术 我们如何实现这些可观的成绩?尽管我们面临了诸多挑战,但我们总结归纳后认为有四个关键点值得分享: 第一,解决成本的问题。精度可以通过数据堆积解决,在真正落地的时候,推理的成本是绕不过去的,我们的核心要义是解决高效的推理引擎问题。 为此,我们自主研发了Space推理引擎,它与算子层高效融合,实现了无损的推理,并将推理速度提升了50%以上。具体来说,像生成式大模型,通常是进行单字符的向前预测,但我们想办法一次性预测多个字符,同时保持无损、精度不变。在这种情况下,我们通过对算法结构进行改进,实现了一次性预测多个词条,从而提升了推理效率。 第二,降低核心成本。我们致力于提高效率和减少GPU存储需求,通过研究分布式切块,包括自适应的稀疏缓存解码等技术,我们成功将GPU需求降低了50%。 第三,优化训练技术。优化训练是大模型落地的根基,所有的应用都在这个根基上长起来。我们研发了一套可伸缩的大模型训练技术,简单来说,训练一个大模型,这个大模型要考虑如果扩展它的参数或者说扩展它的规模、优化它的结构,能不能复用原有的大模型? 答案是肯定的,这种方法也节省了训练成本。从深度和广度的角度来看,通过复用已训练的参数,达到深度扩展和宽度扩展,使训练效率翻倍,同时降低了达50%的训练成本。 第四,神经网络处理器和推理芯片是我们近十年来的重点。如今已经历了四代迭代,从第一代NNP100到目前的NNP400T,我们已经完全灵活适配多种深度学习架构,特别是在Transformer架构下,我们进行了指令集优化、算子的协同设计以及高效的联合设计,支撑了Transformer结构的高效推理。此外,我们还是最早一批使用Chiplet结构适配大模型的公司之一。 利用这四项核心技术,我们构建了支持边缘大模型的算法芯片化系统。我们的底层技术支持了神经网络处理器和自主研发的推理芯片,促进了国产化进程,避免了对供应链的依赖,并在此基础上实现了多模态大模型的运行。从行业应用的角度来看,我们有基于行业到边缘的场景大模型。更重要的是,我们支持用户进行无感知的在线微调,同时保护用户的数据隐私,而且成本极低。 六、实现每秒30字高效推理,多模态大模型已落地G端 云天天书的多模态大模型在文本理解和生成方面表现卓越,每秒可实现30字的高效推理速度,并能处理超过45万字的上下文。通过指定要求,快速生成符合特定格式的通知、决议等文件,从而有效推动办公自动化。大家可以看到整个生成过程内容极其简洁,速度极其快。 此外,我们也支持带参考内容的文章修改和润色,可以复制一部分已有的参考内容,高效地进行润色、修改,变成大家所需要的东西。目前这一块的内容已成功地在多个地级市、省厅局委办落地。采用我们的多模态大模型进行办公赋能,对于项目报告的内容生成也是非常灵活。 最后,在文本内容的理解和生成方面,很重要的一点是生成的质量。我们自带校阅功能,生成完之后可以多次优化里面的内容,达到自迭代、自进化的效果。云天天书多模态大模型支撑视频数据的理解和生成,很多数据训练过程结束之后,有一些数据是需要优化、编辑的,尤其在消费端的场景,比如对图片编辑,对3D数据合成。 我们可以通过多模态大模型进行数据的合成,达到我们想要的3D数据。对于图片的数据理解,比如通过指令去渲染,通过指令去编辑整个图片,让大模型去理解,根据指令操作图片,甚至画出不同的风格。多模态大模型的Agent能力,以开源目标检测为例,这种技术为城市发展提供了支持,正如我们之前提到的,我们发布了一个AI模盒,旨在促进AI技术在城市领域的应用,其中就包括基于多模态大模型的支持。 我们非常荣幸,能够身处在这个AI蓬勃发展,引领各行各业不断变革的时代。如今,AI大模型技术在各行各业遍地开花,我们希望携手各行各业的专家及朋友,共同引领多模态技术的落地,并迈向AGI大方向。
AGI渐行渐近,该加速还是要踩刹车?
马斯克在今年早些时候预测,AGI可能会在2026年投入使用。DeepMind联合创始人、首席AGI科学家Shane Legg在一次访谈中认为,2028年,人类有50%的概率开发出第一个AGI。然而百度CEO李彦宏的观点则更加审慎,他认为AGI还需要10年以上的时间才能出现。 自1956年达特茅斯会议提出“人工智能”这一概念以来,实现人类水平的智能一直是AI领域的圣杯。去年上半年,有主流研究者提出,大语言模型已经表现出“通用人工智能的火花”(sparks of AGI)。 这似乎表明,AGI已经从哲学猜想变成了将来的未来。然而,关于AGI的观点众说纷纭,大语言模型也常有愚蠢行为出现,这些都引发了对AGI的质疑。 在此背景下,我们离实现真正的AGI还有多远?如何预防AGI带来的潜在风险? AGI,未到的黎明 从性能强度和通用性两个维度,可以将人类和AI的关系划分为6个阶段:无AI、智能涌现、胜任、专家、大师、超人类。而现在大语言模型的出现,正属于第一个AGI的阶段:AGI雏形。 AGI(Artificial General Intelligence),即通用人工智能,其目标是实现人类般的通用智能,这意味着AI可以像人类一样理解任意通用任务,并以人类的智力水平执行完成。基本上,除了“自我意识”的生成,AGI就是人类对人工智能的终极梦想了。 AGI是要让智能体像人一样,不仅能够独立感知环境、进行思考、作出决策、学习新技能、执行任务,还能够与人类或其他智能体进行有效的协作。同时,智能体能够理解人类的情感,并且遵循社会伦理和道德规范。 一个完整的AGI需要具备三个基本特征:第一,必须能完成无限的任务,而不是只能完成人定义的有限几个任务。第二,要在场景中自主发现任务,这是通常所说的要做到“眼里有活儿”。第三,要有自主的价值来驱动,而不是被动的被数据所驱动。 同时,AGI还需要解决一些关键的技术问题,比如构建智能体的认知架构,让智能体由价值驱动,在现实世界中进行有效的行动,能够与社会环境进行互动,使智能体决策过程透明可解释,以及建立和人类之间的信任关系等。 以OpenAI的ChatGPT、谷歌Bard、Meta的Llama为代表的大模型,已经在通用性上展示出了AGI的潜力。因为大语言模型已经能完成范围相当广的各类任务,而且表现出了像学习新技能这样的“元认知”能力。 相比大模型的“鹦鹉范式”,AGI是以“小数据,大任务”为架构的“乌鸦范式”,智能体表现为具有自主的智能,能够自主感知、认知、推理、学习和执行,不依赖于大数据,基于无标注数据进行无监督学习,并且智能系统低功耗。就像乌鸦喝水这一行为,看似简单,却属于自主推理行为,是由价值与因果驱动的高级智能,也是AI的未来发展趋势。 如果单从AI的性能维度上看,“窄AI(Narrow AI)”类型的AI已经达到了完全超越人类认知的水平。以AlphaFold、AlphaZero为代表的专业领域AI,在特定领域已经能发现人类智力无法发现的新事物了,此类被成为“超人类窄AI”。而在某些领域,AI能达到90%的人类水平,比如文书纠正AI Grammarly,DALL·E 2,Imagen等生图AI,这被称为“专家级窄AI”。在特定领域,能达到普通人的平均水平,比如Siri,谷助手这类普通智能助理,其被称为“普通窄AI”。 所谓“窄AI”,是指那些特别擅长处理单一任务或者特定范围内工作的系统。在大多数情况下,它们在特定领域中的表现远优于人类。不过一旦它们遇到的问题超过了适用空间,效果则急转直下。换言之,它们无法将自己掌握的知识从一个领域转移到另一个领域。 尽管窄AI无法全面执行需要人类智能的任务,但在特定场景中仍然非常实用,而且已经在诸多应用之内发挥着自己的作用。谷歌搜索查询现在可以利用窄AI算法回答问题,窄AI系统会在YouTube及Netflix中推荐用户可能感兴趣的视频,并在Spotify中按喜好整理出周推音乐列表。 而在窄AI已经覆盖的能力维度上,AGI都还没有出现对应的实例,因为目前还没有出现真正意义上的AGI,对于AGI的定义,人类也还没有达到统一的认知。 谁会是AGI的起点? 从信息时代走向智能时代,“语言”成为那把开启全新时代的钥匙。著名的作家兼哲学家路德维希·维特根斯坦在其《逻辑哲学论》一书中提到:“我的语言的界限,意味着我的世界的界限。” 对人类而言,承载世界的知识、思考、沟通和文化靠的是语言。语言本身的发明代表着每多一个词汇就让世界多了一个认知维度,词汇之间建立的逻辑关系和表达代表了人类对世界完整的建模。这个模型不是在图像里面,而是通过语言进行承载,所以语言边界就是世界边界。AI核心就是把现实世界的现象翻译成为数学模型,通过语言让机器充分理解现实世界和数据的关系。 如今,人们已经走出了原来物理学靠一个公式解释世界的方法,更多是靠海量数据在不同层次单独建模,上层建模就是由大量的数据驱动。语言模型如此,生命建模也是如此,2021年最伟大的成就就是DeepMind的AlphaFord系统,针对基因到蛋白质的三维结构建模,通过这个模型预测基因被转录或者表达为蛋白质以后拥有的形态,也是全世界轰动的生命领域的突破,靠的也是数据和AI的驱动。 虽然大模型已经取得了一些惊人的进展,但如果比较AGI的三个特征,就会发现大模型还不符合AGI的要求。 首先,大模型在处理任务方面的能力有限,它们只能处理文本领域的任务,无法与物理和社会环境进行互动。这意味着像ChatGPT这样的模型不能真正“理解”语言的含义,因为它们没有身体来体验物理空间。 其次,大模型也不是自主的,它们需要人类来具体定义好每一个任务,就像一只“鹦鹉”,只能模仿被训练过的话语。真正自主的智能应该类似于“乌鸦智能”,能够自主完成比现如今AI更加智能的任务,当下的AI系统还不具备这种潜能。 第三,虽然ChatGPT已经在不同的文本数据语料库上进行了大规模训练,包括隐含人类价值观的文本,但它并不具备理解人类价值或与人类价值保持一致的能力,即缺乏所谓的道德指南针。 但这并不妨碍科技巨头对于大模型的推崇。OpenAI、谷歌在内的科技巨头,都将大模型视为迈向AGI的关键一步。OpenAI CEO Sam Altman就曾多次表示,GPT模型是朝着AGI方向发展的重要突破。 不过,Meta人工智能首席科学家杨立昆(Yann LeCun)认为,目前的大模型路线无法通往AGI,且非常危险。 他指出,现有的大模型尽管在自然语言处理、对话交互、文本创作等领域表现出色,但其仍只是一种“统计建模”技术,通过学习数据中的统计规律来完成相关任务,本质上并非具备真正的“理解”和“推理”能力。 他认为,“世界模型”更接近真正的智能,而非只学习数据的统计特征。以人类的学习过程为例,孩童在成长过程中,更多是通过观察、交互和实践来认知这个世界,而非被单纯“注入”知识。而LeCun的“世界模型”路线,则是试图通过对视频、音频等媒体的模拟与补全,让AI也经历这样一个自主学习的过程。 他也承认,实现“世界模型”并非易事,这一雄心勃勃的目标可能需要耗时10年才能实现。 将风险控制在可控范围内 对于AGI所带来的风险,图灵是最早提出警告的人之一。他在1951年说道:“一旦机器开始思考,很快就能超越我们。因此,在某个时候,我们应该期望机器能够被掌控。”因为当一个比人类更强大的智能体出现时,人类很难维持权力,特别是当这些智能体具有不正确或不完整的目标时。 如果还有人认为现在考虑这些风险是危言耸听,那么如何回答这样一个问题:你如何在比人类更强大的智能体面前永远保持权力?此外,在AI领域,还有一些人试图回避这个问题,否认AGI的可实现性,却没有提供任何证据。 OpenAI CEO Sam Altman在其文章《Planning for AGI and Beyond》里,探讨了AGI对社会、技术和伦理的潜在影响,并强调了慎重规划和负责任的发展的必要性。 文章指出,通过增加资源丰富度、推动全球经济增长,以及助力新科学知识的发现,AGI有潜力极大地提升人类生活质量。这不仅是智力的巨大增幅,更是对人类创造力和想象力的极大扩展。 然而,AGI的出现也可能带来严重的滥用风险、意外极端事件的可能以及对社会结构的剧烈动荡。因此,OpenAI提倡在发展AGI时,AGI开发者以及全社会都必须找到正确的方法来实现和利用这一技术,确保其与人类核心价值观保持一致,并公平地分享其带来的好处。 此外,OpenAI认为,从长远来看,AGI的出现仅仅是智力发展的一个节点,而AI的进步可能会在未来相当长一段时间内继续保持。OpenAI提出了一个安全的AGI发展愿景,即在较短时间内以较慢的速度过渡到AGI,以便社会有时间适应和调整。 尽管未来不可预知,但OpenAI表达了他们最关心的几个原则:希望AGI能最大限度地促进人类在宇宙中的繁荣;希望AGI带来的好处、访问权和治理能够被广泛且公平地分享,并成功应对巨大风险。 为此,OpenAI倡导在短期内进行渐进式过渡、继续创造越来越符合目标的模型,并在长期进行全球范围的对话,讨论如何治理这些系统、如何公平分配它们产生的好处,以及如何公平分享访问权。在极高的风险和回报下,人类需要团结起来,让AGI在未来世界以一种对人类最有益的方式绽放。 对于如何预防AGI给人类带来威胁,可以逐步放开AGI的能力空间和价值空间,一开始把它关在“笼子”里,慢慢打开权限。 对于AGI,可以先其适用场合和行动空间限制在特定区域内,随着人们对机器的信任的增加,确认AGI安全可控后,再逐步给予更大的空间。另外,应该进一步促进算法决策过程的透明度。如果能够清晰了解AGI的认知架构,从而知道其是如何工作的,就能更好地控制它。 人类对于AGI的探索和思考才刚刚开始,我们还有很长的路要走。AGI的进步不仅代表了技术创新,更是对未来人机交互方式的重新想象。随着我们逐步走向AGI未知领域,稳健和有序的发展显得更加重要,我们必须高度警醒AGI所带来的问题,并充分重视AGI所创造的机会。两千多年前,苏格拉底说“认识你自己”,今天在AGI技术发展的倒逼下,人类需要“重新认识你自己”。
最难方言温州话被攻克!中国电信语音大模型支持30种方言,这题GPT-4o可不会做啊
更适配中文的语音大模型来了—— 来自中国电信人工智能研究院,AI领域Fellow大满贯科学家李学龙带队,发布首个能听懂30多种多方言混说的大模型。 号称最难方言、“魔鬼的语言”的温州话,也不在话下。 自动播放 还有超自然的语音生成能力。 在2024智算云生态大会上,星辰语音大模型被官宣发布并开源。 要知道,当前语音模型开源开放本来就少,而针对方言更是特定方言特定模型。 开源且支持30种方言,有且只有星辰这么一个。 作为首个完成大语言模型的研发且开源的央企,中国电信现在又在语音模态领域秀起了肌肉。 首个支持30种方言混说语音大模型 那就来说道此次发布的能支持最多方言的语音大模型,核心功能主要体现在识别上—— 它打破了单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等30多种方言。 实际上,它早已获得国际权威赛事的能力认证,以及多个实际场景中落地。 它在国际语音顶会INTERSPEECH2024离散语音单元建模挑战赛上,星辰语音识别大模型斩获了语音识别赛道冠军。 同时在NIST(美国国家标准与技术研究院)举办的低资源粤语电话Babel语音识别任务上,取得业内最优结果。 自动播放 并且已经在智能客服、12345热线等场景中落地。 据介绍,星辰语音大模型已在北京、福建、江西、广西等地万号智能客服系统试点应用。它能秒懂方言然后服务用户,日均处理约200万通电话。 智能客服翼声平台也接入了星辰大模型的语音理解和分析能力,实现31省全覆盖,每天处理125万通客服电话。 传统语音识别模型的处理方式,是针对一种方言单独训练一个模型。 这样一方面对运营维护提出了不小的挑战。这就意味着通用语音客服场景下, 需要维护多个方言模型。 另一方面,很难触达更小众的方言,他们数据量本身比较少,标注成本非常高,增强合成挑战大,很难单独训练出比较好的识别效果。 但中国电信不仅发布并开源,性能水平位于业内前列,而且还十分落地,那么星辰语音大模型又是如何炼成的。 我们知道,这背后不仅是大模型训练,还有前期数据准备,后期推理加速等等一整套系统工程,对于企业是技术工程以及资源等综合能力体现。 在官方披露中,我们看到这些信息。 首先在大模型训练上,采用了这两个关键技术:超大规模语音预训练和多方言联合建模。 超大规模语音预训练。 Scaling Law成为共识,那么在大规模参数以及多样性数据集情下,很可能就会出现模型预训练坍缩问题,即输出生成质量下降,变得重复、无意义以及缺乏多样性。 为了解决这一问题,他们提出了“蒸馏+膨胀”联合训练算法,最终实现80层模型稳定训练。据介绍,这一算法是业内首创。 多方言联合建模。 基于离散语音表征,语音识别大模型通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率降低数十倍。 另外,联合建模使得模型学习到了各个方言之间的共性,显著降低了对新方言标注数据的需求。实验显示,有标注数据需求量降低为1%。 这是星辰语音大模型能率先实现单一模型识别30种方言混说的关键。 这直接解决了部分方言语音难获得、标注成本高昂的难题。传统那种只针对单一方言的识别方言,可能需要十万小时的标注数据量才能实现比较好的效果。但这显然并不适合那些小众方言的识别场景。 而在数据准备上,中国电信AI研究院透露,他们已构建超30种、超30万小时的高质量方言数据库。 在算力基础设施上面,在官宣首个大模型开源时就曾披露过,中国电信作为国内最早进入云计算领域的运营商,积累了大量算力建设和算力调度的核心技术。 有数据算力资源、有技术能力和场景积累,再加上大佬把持,中国电信语音大模型由此得以炼成。 但是大模型多模态,视觉模型正热门的当下,中国电信为何选择方言这个看似“冷门”的赛道发力语音大模型呢? 为什么专为方言推出语音大模型? 在公开采访中,中国电信对这一问题做出了回应。 首先,技术价值驱动。 宏观上看,我国是当前世界上语言资源更丰富的国家之一,拥有五大语系130多种语言。但是当下很多方言正面临着濒危或消亡,有数据统计,有25种使用人口不足千人,有的语言只剩下十几个人甚至几个人会说,这对方言的保护、文化的传承提出更大挑战。 在具体到我们日常的沟通。有这样一组数据值得关注。当前全国仍有约20%的人口尚未普及普通话,沟通效率比较低。这当中甚至还更多聚集在老年人群体,他们还面临着无法触及信息化服务困境。 大模型的技术范式,面对这两大刚需场景,提供了天然的解决出口。 大模型本身就是数据驱动,它能够更高效、系统地对方言进行整理归纳,是方言保护和传承的天然容器,以及极强的泛化能力。一个通用语音模型能同时实现多个任务,比如多语言/多方言语音识别、跨语言语音翻译、语种/情绪识别等,能够轻松覆盖多语种沟通交流。 为了进一步让技术普惠的加速,电信选择了开源的方式。 中国电信人工智能研究院语音大模型负责人李杰进一步解释了这方面的原因。 我们已将语音大模型全面开源,希望联合开发者共建覆盖更多方言的大模型,打破沟通壁垒,让老少边穷地区人们、老人等每个人都能享受到AI时代便利,也呼吁更多专家、方言爱好者及大众用户一起加入守护方言计划,共同传承语言文化,推动AI普惠。 其次,业务需求导向。 作为头部运营商,中国电信最核心的业务场景就是智能客服。“每天都能接到几百万通电话,其中很大比例是方言或者有方言口音的普通话。”真正实践中他们发现,人们都还是更喜欢用方言来进行沟通。 因此语音大模型一面世,就率先落地到这一场景中去创造价值,逐步覆盖更多更广的地区之中。 除此之外,它还在对外输出能力以及更多场景赋能。 比如,大家所熟知的12345市场热线这个公共服务平台。据介绍,语音大模型已经赋能多地市的12345平台让每个客服人员听懂30种方言,更快地理解更多市民需求。 前段时间,语音大模型还应用到了防范校园霸凌中,在某小学防霸凌项目中,它采用亿级参数进行推理,可在嘈杂环境下精准识别关键词进行预报警。 还有它赋能的数字人,已经在多个展会亮相工作,曾在中国国际大数据产业博览会亮相,与康辉同台主持。 最后,战略部署。此举正是中国电信「通用智能」战略部署一环。 而他们一早也提出了自己大模型领域布局:1+1+1+M+N: 1个智算云底座、1个通用大模型底座、1个数据底座、M个内部大模型、N个行业大模型。 最早在2022年12月就已启动了语义大模型的研发,去年数字科技生态大会上,他们发布了千亿参数星辰语义大模型,并相继开源7B、12B、52B大模型。 如今,随着包括语音大模型在内的发布,中国电信其实已经形成语义、语音、视觉以及多模态一整个全模态完备的大模型布局。 而他们最终的目标也很明确: 成为领先的通用人工智能服务提供商。 中国电信在大模型的布局 随着端到端多模态大模型GPT-4o的亮相,通用多模态更成为一种共识趋势。而GPT-5也被爆料说将精通更多小语种和方言…… 这实际与中国电信本身技术战略不谋而合。 如果讨论国产大模型玩家,中国电信一定是最为特殊的那个—— 不是创业公司,也并非互联网大厂,却最早入局,而且进展频频剑指通用,在业内影响不小。 跟创业公司不同的是,电信有着天然的需求驱动和应用场景。有锤子也有钉子。 只是在纯自研星辰大模型亮相之前,大众对于电信的技术感知并非那么强烈。 实际上,他们背后搭建了一支700人的AI研发团队,70%以上来自头部互联网和AI明星企业。再加上,AI领域Fellow大满贯科学家李学龙加盟,出任电信CTO,并组建中国电信人工智能研究院(TeleAI)。 基于这样的人才储备,他们很快同大模型头部选手们站在同一阵营,并且落地速度贼快。 而同互联网企业相比,作为国产运营商的电信,其实优势则更为明显了。 一方面,运营商有丰富的网络和算力资源,相对来说训练、推理成本更低。尤其在大模型的建设方面,更容易发挥规模的优势。 目前,他们已打造基础模型+行业模型+应用模型的布局,除了自研本身,还采取生态合作的方式,联合头部生态构建了涵盖教育、政务、应急等20多个行业大模型,覆盖全行业500多个应用场景。 另一方面,有庞大的客户群体作为落地基底,以及丰富的2C、2H、2B的信息服务经验,能够更快地推动大模型在各个领域的落地,形成新的经济增长点。 这当中数据累积也构成了他们的核心壁垒。目前,他们已经完成了超500TB文本数据、12亿张图文数据、PB级视频数据的积累。 这些优势使运营商有动力在人工智能领域加大投入,驱动技术进步。 也正因这样的技术和经验底气,他们才能早早确立目标并且有着清晰的时间线规划。 就像最新语音大模型,他们就计划实现首个支持国内333个地市方言和主要少数民族语言(维藏等)的语音大模型。 关于语音大模型的进展,值得期待。 而对于AI的落地,中国电信值得关注。
上海交大团队研制“导盲六足机器人”:1秒之内可响应,已在实测
“你好小狗,我要走到学院大厅。”戴着眼罩的测试者手中握着导盲杖,杖的另一头连着一只六足机器小狗。测试者说完,小狗在原地抬起六足,蹬几下地,然后缓缓牵引身后人向前走。测试者若是“心急”推推导盲杆,那小狗便会接收到指令,默默加快步伐。 这是一款来自上海交通大学机械与动力工程学院高峰教授团队研发的“六条腿”导盲机器人。在刚刚过去的由中国残联主办的“科技助残 共享美好生活”展会上,这款机器人吸引了众多人的目光。5月28日,高峰在上海交大对这款机器人进行了一次集中介绍。 据高峰介绍,“导盲六足机器人”具有视觉环境感知功能,可自主导航至目的地、动态躲避障碍、识别红绿灯等。该款机器人如通过批量化生产、人工智能辅助可有效降低成本、提升智能,可解决导盲犬数量短缺的问题。不仅如此,通过后台建立完整的互联网服务体系,导盲机器人还可以实现居家陪护、应急处理,带领盲人抵达更多地方等功能。 高峰在上海交大对“导盲六足机器人”进行介绍。 本文图片为 澎湃新闻记者 邹佳雯 图 突破人机交互技术,让导盲机器人成为视障人士的“第二双眼睛” 为什么会研究导盲机器人? 高峰谈到,据世界卫生组织统计,我国视障人士已经突破1700万人,这意味着每100人中就有至少一位视障者。但是,和庞大的视障人士数量对比,全国现役导盲犬数量仅几百只。不仅如此,导盲犬的培育还需要极高的培训成本,以及极长的训练周期,并且许多场合能否允许工作中的导盲犬进入尚处于讨论当中,仅仅依靠导盲犬远远不能满足我国千万余名视障人士的需求。基于此,团队开始了导盲六足机器人的研发工作。 高峰介绍,和盲人建立有效沟通,让导盲机器人在理解使用者意图的同时维持机器人自身动作协调,是导盲机器人的首要任务。 团队在导盲机器人上集成了听觉、触觉和力觉三种交互方式,实现盲人与导盲六足机器人之间的人机智能感知与顺应性行为。机器人可根据盲人的语音指令,基于深度学习端到端语音识别模型理解语义信息,快速响应、准确识别,目前语音识别准确率为90%以上,响应速度在1秒之内。 高峰团队研制的“导盲六足机器人” 此外,机器人可通过语音下发指令,如启动、停止、设定目的地、加速、减速等,同时实时反馈行走和环境状况等信息,实现双向智能交互。盲杖可以实现盲人与导盲机器人之间的力觉交互,向盲人提供牵引力和转向力矩,引导盲人前进和转向。盲人也可以推拉盲杖来动态调整机器人的行走速度。目前机器人最大速度达3m/s,能够满足盲人慢走、快走、跑步等出行需求,且六足的独特构型优势确保机器人可以低噪声稳定行走。 人机交互与机器人自律协同控制是机器人融合感知信息、任务需求、人机交互的指令,利用逻辑推理、自律决策,可实现智能导盲作业行为。基于导盲机器人的动力学模型,高峰团队构建了层级递进式外力估计、触地检测、坡度估计、运动状态估计模型算法,融合机器人关节、惯性导航、行为节律、历史状态等多源信息,进行多目标集成的状态观测和反馈优化的平衡控制,由此,能够实现导盲机器人在各类地形场景中自律协同控制效果。 已进入实地测试阶段,将加快落地实用 导盲机器人在复杂地形行走需要更高的自主规划能力,这类自主规划功能通常包含地面信息的获取和建模、定位导航、落脚点的选择、身体位姿规划以及连续运动的规划等。 定位精准是导盲任务的核心要求之一,团队通过多传感器数据紧耦合方式,建立了雷达-惯性里程计系统,通过滑动窗口法耦合历史帧数据,大幅减少点云运动畸变,并设计了多维度的状态残差,显著提高了系统状态估计的精度和鲁棒性,实现了三维环境地图的精准建立与机器人自身的精准定位。 而基于全局环境地图和实时感知的局部动态地图,科研团队采用模型预测和实时滚动优化方法实现机器人的路径规划和自主避障,敏捷自主躲避静态和动态障碍物,保障导盲任务的安全性。 根据室内导航任务需求,团队制定了室内场景的多层导航策略,构建了层次拓扑地图实现室内全局路径规划;针对室外场景,基于环境地图结合GPS信息进行多传感器融合,大幅提高定位与导航精度。团队还利用深度相机,通过深度学习和数字图像处理技术实现对交通信号的辨别,保障使用者出行安全。 针对台阶、楼梯等典型地形环境,团队采用多约束优化算法规划机器人稳定行走步态;通过采集机器人腿部足端力觉信息,使用机器学习方法来实时辨识足-地接触模型,可实现机器人对不同地形的自适应动态敏捷柔顺行走。 高峰介绍,目前,团队研发制成的导盲机器人已进入实地测试阶段。在整个研究推进过程中,由视障人士参与线下展示与功能测试,未来团队也将根据视障人士的实时反馈,对机器人持续研发、调试。 此外,导盲机器人的实际应用,不单单是机器人本身的应用,还需要后台大数据的支持,需要强大的运维团队的支持以及一系列推广普及的测试。据了解,高峰团队还与索辰科技密切合作,面向导盲机器人需求,开展了商业化推广。上海交通大学负责基础理论研究和关键技术攻关,索辰科技负责产品工程化以及产业化运维和推广,双方共同努力,并借助社会力量,加快导盲六足机器人的落地使用,为改善我国视障人士生活贡献一份力量。
最猛AI独角兽:一年估值1700亿,再造一个OpenAI!马斯克LeCun却吵起来了
马斯克搞大模型又融到60亿美元(约435亿元)! 这是xAI最大的一轮融资,目前估值已来到240亿美元(约1738亿元),一举超过Anthropic,成为OpenAI之下第二位。 借着这个势头,老马也亲自下场发起招聘广告: 如果你相信我们理解宇宙的使命,需要最大限度地严格追求真理,而不考虑受欢迎程度或政治正确性,欢迎加入xAI。 没想到,出了一点小插曲,图灵奖三巨头之LeCun突然跑到评论区开怼: 在近20小时里,两人持续交手了很多轮,让人不禁感叹,“原来大佬吵架也像小学生一样朴实”。 总之,这边大佬们吵架的热闹,也将xAI这个在大模型公司中相对低调的存在推到了舞台中央。 才发现xAI这些日子悄然招揽了不少人才,取得了一些新成果,大有与OpenAI一较高下之势。 马斯克再造一个OpenAI 先看xAI这次融资具体情况: B轮,60亿美元,主要参与者包括a16z、红杉资本、Valor Equity Partners、Vy Capital、Fidelity Management & Research Company、Prince Alwaleed Bin Talal 和 Kingdom Holding。 目前xAI估值来到240亿美元,超过了Anthropic(150亿美元),Mistral AI(60亿美元),只排在OpenAI之下(860亿美元)。 另外值得注意的是,a16z和红杉也是OpenAI的投资方。 可以说不光马斯克试图再造一个OpenAI,投资者也在考虑扶持OpenAI的备胎选项。 xAI研发进度也是以月为单位快速追赶,去年7月成立至今不到一年,密集发布了Grok-0,Grok-1,长文本能力的Grok-1.5,多模态能力的Grok-1.5v,以及开源了Grok-1。 产品方面除了最基础的聊天机器人,还在试点把Grok模型部署在𝕏平台,由AI总结推文趋势。 最近消息称xAI正在与Character.ai讨论潜在的合作,据报道不是在谈收购,而是重点在合作研究。 所以用AI的视角来看马斯克的商业帝国版图: 要数据有数据,𝕏平台提供大量独特的对话数据,特斯拉自动驾驶和机器人拥有大量真实场景视频数据。 要算力有算力,4月马斯克曾透露xAI拥有的H100数量在2万6-3万之间,这次融资也是要建立10万卡的计算集群。 甚至要电力,也有特斯拉能源部门可以提供保障。 同时𝕏平台也是能迅速得到大量反馈的应用部署场景。 …… 拥有这一切的马斯克,最近还留下了“AGI明年到来”这样没头没尾的一句话。 所以马斯克这次借融资之势招聘,也是急于补齐xAI目前与OpenAI差距最大的一项——人才。 AI人才涌向马斯克 xAI创始成员13人阵容固然算得上豪华,但要与OpenAI竞争,数量这块还远远不够。 去年11月OpenAI董事会内讧之时,总计有778名全职员工(最终745人签署了联名信)。 最近一段时间虽然Ilya等研究人才离职出走的消息更引人注目,但背后也在引进新鲜血液的速度只能更快。 保守估计,现在OpenAI至少有800+人。 xAI的人数就非常透明了,只需要看官号的关注数量,算上马斯克目前一共38人。 有人统计了其中32人加入xAI之前的工作经历,可以看出来自谷歌DeepMind占主力,微软、Meta、OpenAI第二梯队。 xAI的招聘节奏非常有目的性。 比如推出多模态Grok-1.5v之前,就招揽了开源多模态大模型LLaVA系列一作、浙大校友Haotian Liu等一系列搞图像、多模态的人才。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。