EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
OpenAI为什么总是领先一个版本
作者|陶然 编辑|魏晓 Sora视频模型的发布,几乎复刻了一年半之前GPT-3初登场时的AI圈盛况: 突然出现,引起热议,广为震惊。 北京时间2月16日,在没有任何消息外泄、事先预告的情况下,OpenAI在社交平台X(原推特)发帖,首次对外公布了名为Sora的文生视频AI模型。 一句“Introducing Sora, our text-to-video model(介绍一下Sora,我们的文本转视频模型)”,切入正题之简短,比起宣发,更像是一则告知:是的,我们又掏出大的来了。 之后,便是对Sora模型的能力介绍:Sora可以创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力、情感的多个角色。 还附上了演示案例的对应Prompt(提示词):美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。美丽的樱花花瓣随着雪花在风中飞舞。 对于Sora,业界评价并不统一: 有人100%认可,也有人120%、200%认可。 360创始人周鸿祎发文称,Sora意味着实现通用人工智能可能从10年缩短至1年,该模型展现的不仅是视频制作的能力,还展现了大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。 英伟达人工智能研究院首席研究科学家Jim Fan将Sora称作是视频生成领域的GPT-3时刻:Sora是一个“数据驱动的物理引擎”,一个可学习的模拟器或“世界模型”。 高强度网上冲浪且一向心直口快的马斯克则直接打出gg human(人类输了) 。 暂且不去深究后续影响到底是积极还是消极,能给AI、影视、社媒等一众行业同步带来颠覆性王炸、划时代之感的,又是OpenAI,总是OpenAI。 像是一群工程师还在讨论如何进一步完善登月计划,OpenAI的团队已经从火星传回来一组自拍——他们总是领先一个版本,为什么? 前文英伟达AI研究院科学家Jim Fan对于Sora的评价,从技术层面来看很有参考性:他将Sora定义为物理引擎和世界模型。传统意义上的视频画面是二维,而人们身处的物理世界是三维的。 这成为了AI视频模型设计之初的理念区别:在生成视频的过程中,AI的作用到底应该是将多段视频片段拆分组合,还是应该作为一个主体,构建并记录一个虚拟的AI空间。 OpenAI的选择是后者。 其官网发布的Sora技术报告中,有一句话值得注意:“我们的结果表明,发展能够模拟物理世界动态的通用模拟器是一条充满希望的途径,具有前所未有的准确度和现实感。” 做一个粗浅的理解就是,Sora不是编辑视频,而是在生成视频之前先建模一个空间,然后变成一个镜头记录这个三维立体的虚拟空间。 立体建模能展现信息量远远多于平面图,从设计思路上OpenAI就领先了一个维度,或者说提前了一个版本。 当然,更多的信息量意味着更庞大的数据流,在有限算力内跑出更好效果、在保证效果的前提下尽量节约算力,本质上是同一个问题:AI计算效率。 但对于OpenAI来说,这些问题都有经验可循——从ChatGPT到GPT-4等等项目的技术积累,成为OpenAI构建Sora模型的良好地基。 受大语言模型成功案例启发,OpenAI在探索视频模型时就在思考“如何获得类似的好处”:大模型运转期间,token(词汇单元)作为自然语言处理任务中的最小文本单位,承载着输入信息的作用,帮助模型对文本进行处理和理解。ChatGPT将代码、数学以及各种不同的自然语言一并拆分为token,再交由模型对token进行处理和理解,并能够通过学习token之间的关系来获取更多的语义信息。 同理,在视频生成模型中,OpenAI也创造了与token对应的数据单位“Patch”(图像单元),将图形语言转化为对应格式的Patch进行计算,在保证模型扩展性的同时,大幅提升单位算力内的运算效率。 而在模型的前端,OpenAI同样用上了自己在GPT系列模型的成果: 和文本对话类似,训练文生视频的过程中,除了需要视频素材案例之外,同样需要大量对应的文字说明。OpenAI采用了最初在DALL·E 3中提出的“重新加标题”模式,用具备高度描述性的标题生成器为训练集中的视频素材生成文字说明。生成结果也证明了,在制作期间为素材添加额外的说明,可以提高包括准确性在内的整体视频质量。 此外,仿照DALL·E 3的做法,OpenAI还另外使用GPT对用户输入的简短提示词进行了更便于AI理解的扩写,把用户输入的文字扩充成更长、更详尽的说明,再交由视频生成模型进行处理。 对于OpenAI这类技术驱动型公司来说,经验和技术的积累都是加速度,有迹可循的成功经验叠加团队自身对AI概念领先理解,让OpenAI总是能踩在自己的肩膀向上,或是推着自己加速向前。 比技术领先更可怕或者说更值得友商在意的,是这种领先往往会成为惯性,一步快步步快。指望靠加速追赶和对标与OpenAI看齐,在配套设施愈发成熟的阶段,难度恐怕只会不降反增。真正的增量,仍在顶层设计的创新之中。 所以,与其说是AI挤占了人的创新空间,倒不如说是AI拉高了有效创新的门槛:设计AI,或者能超越AI创意的设计,才是大模型时代的有效增量。
为什么日本实体店能干掉电商,我们却是电商干掉实体店?
全球范围来说,绝大多数国家的电商,都比不过实体店。 比如日本、美国,虽然他们的电商也很发达,但是和实体店对比起来,依然有着明显差距。 我国电商从无到有,短短时间发展到现今体量,实力不一般。也是全球独一份风景。 ❶ 为了理清其中脉络,我们需要从过去的商业信用环境说起。 在电商没有兴起的时候,大家对购物环境想必记忆深刻吧。那时候退货几无可能,纠纷吵闹都未必退得了货,哪怕商家货不对板,挂羊头卖狗肉,羊毛到了手里发现是化纤,商家不诚信,结果却由消费者承担。 商家的违法成本实在太低了,缺斤少两,以次充好,假冒伪劣层出不穷。哪怕到了现在,实体店吃了电商的亏,依旧不长记性,使用层出不穷的隐蔽招数来等着消费者入坑,有时候花了钱自认倒霉,只因维权成本太高了。 有些专家学者,倒是给消费者出了很多妙招,比如如何辨别真假蚕丝,怎么区分打药的黄瓜,如何防范电信诈P,怎么判断P2P正规与否...... 都是针对消费者的建议,警惕人们留心辨别,虽然出发点是好意,但是,是否反而将商家的错误和责任,都甩给了消费者呢? 难道人人学做侦探,有福尔摩斯的探案功力,做到全系专家知识储备,才有资格消费?不然就是活该?这显然不现实。 所以,为什么电商在我们这里能够风生水起,能把千年来就有的实体店铺干掉,是有多种缘由的。 电商,至少解决了消费者的信任问题,也就是商业诚信问题。 ❷ 电商这里,只要货不对板,材质不符,有质量问题,商家承诺未做到,哪怕个人不喜欢、后悔了,都可以无条件退换货,几乎没有阻碍,便捷高效。 万一用了段时期才发现问题,还可以期限内申请售后服务,过期还能给出差评,商家对评价很重视,一般看到差评会主动联系解决,直到顾客满意为止。 这样的消费全程和服务,都是实体店完全比不了的,况且实体售价还要高出电商数倍。 两相比较,那就别怪消费者支持网购了,大家会用口袋里的钱投票。 可以说,电商平台构建了一套商业信用体系。给了消费者最基本的尊严、最便捷的购物过程、最具性价比的商品、和最效率的售后服务。 ❸ 我去查了一些资料,日本如何处治造假售假行为呢? 不查不知道,一查吓一跳,后果居然如此严重。基本上日本企业商家只要投机取巧犯一次错,就得被罚到倾家荡产,谢幕倒闭。 明知假货进行售卖,可能被处以10年以下有期徒刑,或最高1000万日元以下,并可能同时处治有期徒刑和罚款。网上售假一样,可能处以5年以下有期徒刑,或最高500万日元以下的罚款。 欺骗消费者以假乱真的销售构成诈骗罪,最高可判处10年以下有期徒刑。除此之外,还需承担名声扫地: 第一,老板公开向民众谢罪。 第二,银行停止贷款上下游企业和合作伙伴停止商业关系,企业只能倒闭。 日本实体店的服务,真的是宾至如归,把顾客都当做贵宾相待,服务极其细微贴心,不习惯的人会有种受宠若惊感。这是他们的电商完全做不到的服务。 美国对待假冒伪劣,一样重重处治。 生产销售假冒伪劣商品,需向被侵权企业赔偿3倍于其蒙受经济损失的罚款,并承担律师费。故意从事商品与服务制假售假活动,将被处以10年入狱的刑事处罚,与最高每人200万美元与集体500万美元的罚款,重犯者将被处以10年以上入狱的刑事处罚和或个人500万美元的罚款。 其实,我们的法L也有规定生产出售假冒伪劣产品,可以刑事处罚,然而,在实际执行中,很多只有罚款没有刑罚。 某网红售卖五常大米假货,消费者举报成功,罚款25万了结,该网红每月收入都不止25万。 上市公司财务造假屡见不鲜,铅锌龙头企业**矿业报表造假虚增几亿元。证**对公司及三名高管均给予警告和罚款,企业被罚90万元,相关负责人罚款40万至45万元不等。 多期财报造假,虚增收入高达3亿多,最后仅仅罚了90万元。这种力度的处罚,简直一本万利,挣钱如此容易,谁还愿意踏踏实实的干实体呢? 反观当年东芝被爆财务造假,罚款高达71.1亿日元,折合人民币大概是4.7亿元...... ❹ 马克思说: 资BJ害怕没有利润或利润太少,就像自然界害怕真空一样。一旦有适当的利润,资本就大胆起来。如果有百分之十的利润,他就保证到处被使用;有百分之二十的利润,它就活跃起来;有百分之五十的利润,它就铤而走险;为了百分之一百的利润,它就敢践踏一切人间法L;有百分之三百的利润,它就敢犯任何罪行,甚至冒绞死的危险。 马克思《资本论》 人在利益面前会无比贪婪,这种贪婪可以践踏一切。当年朱元璋惩治贪F,剥皮楦草都制止不了。 可见,有些商家为了追逐利益,确实会想尽办法钻空子,一旦触犯到消费者利益,还需拿起维权的权利来,共同维护良好商业环境。 ...... 现在去商场买衣服,真怀疑他们的标签是不是日元韩元,挂一堆零。这让顾客本就贫穷受伤的小心灵,因为买不起再添一层伤。关键它们不仅不值那么多零,服务更是不值啊。 有些店态度极好,就怕背后有套路,比如那些美发店美容店,花个钱都不放心不舒坦。 当然,实体店如今的现状,也非电商一力所为,还有其他因素比如房租等影响。服务好名声也好的实体,人家照样活得不错,很有生命力。 网上比价,选好下单,没人忽悠,不满退换,诚信干掉不诚信,好服务干掉坏服务,它难道不香吗? 你的消费集中在网购?还是实体店呢?
第一拨靠Sora赚钱的人已经出现了
作者 | 董温淑 编辑 | 董雨晴 龙年第一个赚钱机会,是AI知识付费? 有人还在休春节假,有人已经开始用AI知识付费赚钱了…… 2024年2月16日,全球领先AGI创企OpenAI的最新文生视频大模型“Sora”悄然亮相。虽然未经提前预热,但Sora很快成为科技圈的重磅热点,引发360创始人周鸿祎、全球顶尖AI学者杨立昆等人下场讨论。 如同一石激起千层浪,在大部分人还沉浸在春节假期中时,Sora的亮相已让一些人看到了最新造富机遇的曙光。 有人已整理出了业务涉及文生视频的A股上市公司名单。不仅如此,在文生视频市场真正成熟之前,少部分嗅觉敏感的掘金者已经通过知识付费掘到了第一桶金。 「市界」注意到,虽然Sora目前仅对小部分用户开放、尚未开启公测,但围绕Sora相关功能的知识付费课程却几乎在同一时间“火”了起来。 ( 图源 /网络 ) 此外,Sora的发布甚至带动了其他GPT相关知识付费课程的售卖。一位在知识星球出售个人GPT搭建教程的博主告诉「市界」,最近几天其感受到付费率明显提升。据其透露,其所售卖的课程早在2023年中就已上架,定价约为500元,自Sora发布后短短两天已经有十余名新会员通过知识星球、微信等不同渠道付费加入社群。 在一个Sora学习群中,一名群友透露:“今天还有个做短视频的老板给我打电话,问我有没有Sora的测试渠道……只能说现在这个触及到了太多人的饭碗了。” 在国内一家AI企业任职产品经理的蒙灵则调侃道:“年初五迎财神,没想到迎来的是OpenAI。” Sora夺过宝座,国内巨头下场 360创始人周鸿祎判断,Sora意味着AGI的实现将从10年缩短到1年。 在Sora之前,上一个爆火的文生视频工具是2023年11月28日亮相的Pika,后者支持生成3D动画、2D动漫、卡通等多种画风的视频。 由于效果极其惊艳,Pika一度引发大规模讨论,甚至Pika公司90后创始人父亲所掌舵的A股上市企业、与AI业务全无相关的“信雅达”也受到带动,股价接连异动上涨。 但“残酷”的是,Pika的爆火还留在互联网的记忆里,但功能类似的Sora一经发布就再次刷新了文生视频模型的效果上限、也夺过了“最牛视频生成工具”的宝座。 ( 图源/OpenAI Sora) 文生视频工具的效果不断跃升,让人们看到了相关产品落地商业化的可行性,也吸引着越来越多的市场参与者下场。 在过去一段时间中,押注“国产Pika”几乎已成为国内科技巨头的必修课: 2023年末,百度发布了文生视频工具“度加剪辑”,号称“可以一键获取最新热点、ai生成文案、一键生成视频”。 而据多家媒体报道,过去一年中,抖音集团旗下视频制作工具剪映在寻求于AI辅助创作上进行突破,即将推出一个AI生图及视频产品。 还有人判断,除了竞争激烈、巨头环伺的文生视频工具开发环节,“在实际行业应用里面,可能还需要有大量中间件的开发”,意味着更多细分赛道中的掘金空间。此外,视频游戏等文生视频的下游应用赛道也被视为投资热点。 从2022年底ChatGPT横空出世之后,美国创企OpenAI就稳稳站在了新一轮科技浪潮的核心位置,以密集而领先的步伐引领着全球AGI事业的发展。 2023年3月,兔年春节刚过去不久,Open就发布了多模态预训练大模型GPT-4。据多家媒体报道,2023年OpenAI营收或超16亿美元,同比增长56倍。而在2023年9月,OpenAI创始人之一Sam Altman曾预计2024年公司营收有望同比翻倍。 而在龙年新春到来之际,OpenAI再次用Sora讲出了新故事。 可以预见,在新的一年中AI市场将热度不减,而谁能最先做出“国产版Sora”,或许是这一年中,国内AI市场面临的第一大难题。
Sora问世,影视业将被颠覆?业内:AI工具能提升制作效率,但很难让观众真正共情
电影是一种集合了声音、图像、剧情、表演等多种元素的艺术形式,它的制作过程通常需要大量的人力、物力和财力。但是,随着人工智能(AI)技术的发展,尤其是OpenAI最新的“文生视频”技术Sora,这一切可能都将改变。 Sora可以根据简单的文字提示生成内容丰富、画面逼真的视频,甚至可以自行分镜、切换景别,让普通人以极低的门槛制作自己的电影。该技术一经发布,就在全球引发轰动和讨论,有人称“现实将不存在了”。 在X(原推特)上,甚至有分析认为,“将来,只需要输入分镜脚本,电影就可以制作出来,不再需要几十人几百人声势浩大地去‘拍’了,也不需要什么摄影组、演员组、服装组、化妆组、灯光组、司机组了,也不需要去管理剧组,只需要掌握相应的知识,然后使用AI……不用求人的将来很快就来了。” 在接受《每日经济新闻》记者的导演看来,类Sora的工具会让电影制作的效率大大提升,解决电影制作中前后期不匹配的问题。这类技术的出现一定程度上确实可能会取代电影的服装、化妆、道具(下称“服化道”),但也存在难度。 对于Sora等AI工具在电影画面实际生成过程中的质量,他们仍持较为保守的态度。一位导演就对记者直言,一些需要真人演员表达巨大情感张力的场景,如果替换成AI生成的画面,观众就很难产生共情,甚至可能会有抵触的情绪。 图片来源:Sora官网演示视频截图 Sora代表着“文生视频”技术的巨大飞跃 《每日经济新闻》记者注意到,大多数主要的AI公司多年来一直在研究“文生视频”工具,一些公司已经发布了用户可以使用的软件。在Sora发布之前,最新版本的Runway就是最先进的“文生视频”技术,可以根据文本提示制作短视频。 New York Magazine报道称,虽然Sora目前尚未向普通用户开放使用,但根据OpenAI官方发布的Sora根据提示文字生成的视频,从现实主义、及时的反应、视频长度和功能性方面,似乎是一个相当大的技术飞跃。 从细节上看,Sora的演示视频有丝滑的移动运镜、场景转换,还可以自行分镜、切换景别,这意味着Sora可能让普通人以极低的门槛制作自己的电影。更值得一提的是,此前的文生视频模型,由于是生成单镜头,一旦输入新提示词,就会生成新镜头,主角就会变换,而Sora生成的视频,在视角转换、镜头景别切换后,仍保持主体的一致性。 OpenAI官网介绍,“Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅能理解用户在提示词中提出的要求,还能理解这些东西在现实世界中的存在方式。”这意味着,如果说GPT能通过人类的语言来理解世界,那么Sora则能通过视频、图片等多模态数据来理解世界。 The Hollywood报道中称,虽然类似的“文生视频”工具此前已经出现,但Sora确实代表了这项技术的快速发展,它有可能导致大量的裁员。 今年1月份发布的一项调查显示,好莱坞3/4的受访者预计AI将导致他们的公司裁员或合并。据估计,未来三年将有近20.4万个类似的职位受到AI的冲击。根据这项调查,音效工程师、配音演员和概念艺术家将首当其冲,视觉效果和其他后期制作也将受到冲击。如果技术继续进步,这类职位将越来越多地被AI工具所取代。 类Sora工具可能取代“服化道”,但仍存难度 Sora的突破性进展让整个好莱坞似乎都紧张了起来。Sora是否真的会颠覆电影业,未来的电影拍摄是否真的不再需要“服化道”等工作人员? 对此,将界宇宙(北京)娱乐科技有限公司签约导演、编剧,科幻英雄题材网络剧《将界》的导演和编剧蒋莱在接受《每日经济新闻》记者采访时指出,“(类Sora的‘文生视频’工具)是有可能取代‘服化道’的,但这可能需要一段时间,而且这个时间可能不会短。我不确定类Sora的技术是否真的可以实现未来的电影或电视剧的那种成品效果。” 在蒋莱看来,电影业对类Sora的工具态度应该会分为两派:第一派可能会因为AI生成的视频感觉比较假,而有天然的抵触情绪。第二派则会热烈地去拥抱类Sora工具,并不断跟进最新状态,甚至亲自去实验或想办法把它当一个工具来更好地进行电影创作。 四川二十八街文化传播有限公司创始人、独立电影制片人、出品人安迪也对《每日经济新闻》记者指出,类Sora工具的出现一定程度上确实可能会取代电影的“服化道”,但也存在难度。首先,人们用文字去描述电影场景本身可能就非常复杂。“作为电影来讲,想要用文字精准地描述导演所需要的场景,描述那些需要‘服化道’完成的场景设计,然后又要配合演员的走位景别以及故事情节内容和情绪,是非常困难的。” 就类Sora的工具在电影制作方面的应用,安迪表示,目前接触的同行感觉仍处于讨论的状态,大家既没有特别反感,也没有特别接受,是相对比较中间的。 据蒋莱了解,目前在电影界还未有AI生成的画面运用,他对记者指出,类Sora工具比较实际的应用就是来做动态的分镜,类似电影制作前期的预览。“我们传统的方法是去画2D的分镜,也会有做3D的分镜,现在的虚拟拍摄技术也非常成熟,类Sora的工具就相当于是把后期前置,就不用我们再在影棚里搭绿布来拍,那样的话大家对后期最终的呈现效果都是停留在想象阶段。类Sora的工具出来后,大大方便了分镜的制作,甚至我一个人就可以完成分镜。我能把我脑海中想象中成片要拍出的样子,先把它做出来,这样在前期团队开会筹备的时候,对于最终成片的呈现就有一个非常具象的观感。” “因此我们目前对类Sora技术的观点还是偏工具的,但我们还是应该去拥抱它。这类工具肯定会有非常积极的作用,一定可以大大提高电影制作的效率,而且能解决整个团队在电影制作前后期不匹配的痛点。”蒋莱对《每日经济新闻》记者补充道。 业内:“AI很难做到复杂的情感表达,让观众共情” 如果说类Sora的工具将有可能取代“服化道”的话,演员的生存空间会不会也被压缩呢? “AI换到视频领域,特别是影视剧的话,我认为目前AI给人的虚假感会被放大,要取代真人表演还有很远的距离,真人看AI生成的画面会天然有一种距离感。真人演员表达出来的情感,尤其是情感比较剧烈的哭戏或者情感张力比较大的戏,我不认为AI能成功做到让观众共情。”蒋莱对《每日经济新闻》记者说道。 他进一步解释道,“戏中的很多细节是很难用AI模拟的方式去实现,而且对于演员本身观众也会有情感的投射,因此我认为这种人与人之间最直接的互动感,很难通过AI去实现。” 对此,安迪有着类似的看法。他对记者指出,“电影本身包含了一部分艺术创作性在里面。艺术创作是很随机的,有很多经典的影片和好的演员,剧本里面可能没有这个台词,没有这个表情和动作,只是说在表演的瞬间,演员可能有了这个台词、表情或动作,这就是演员作为一个人的机能性的创造,创造出了我们认为非常美好的东西,且被摄影机捕捉到了,所以这并不是一个格式化的状态。我很难想象一个完全100%格式化或者AI化的电影,如果一部电影全部是AI生成或者格式化的内容,它是否还会有那种能够抓住观众内心的美感?” “例如,我认为哭戏就是AI相对难生成的内容,因为这类戏份包含着非常复杂的感情,AI很难做到恰到好处的情感表达。像《花样年华》里梁朝伟和张曼玉一次又一次的复杂情感表达,如果导演也能用文字表达并用AI生成完美的画面了,那说明‘文生视频’的技术确实蛮恐怖,但就目前来看还没有达到这样的水平。” 虽然去年以来,包括“文生图”和“文生视频”等一系列“作品”一遍遍地刷新着公众对AI能力的认知,但相关的版权问题仍是绕不开的话题。 对此,安迪对每经记者说道,“我认为在类Sora工具实际应用之前,很大一部分问题都集中在法律层面的一些讨论——到底该怎样去立法?可能科幻片的拍摄还好,但如果拍现实世界的,那么导演们怎么能够让AI合理合法地生成现实生活中的实景,包括人脸怎么是界定,这些都是这类AI工具还需要解决的痛点问题。”
周鸿祎称Sora生成视频堪比CG:未做3D建模 只需文字就可逼真描绘
快科技2月18日消息,今日,周鸿祎再次谈到Sora视频模型,他表示Sora生成视频堪比CG。 周鸿祎发视频称,Sora有三个片段让他觉得非常惊讶。其中一个是一堆金毛小狗在雪地里打滚儿,狗狗用鼻子拱雪,甚至一粒一粒的雪粒都能感觉到,他感觉这个画面非常真实。 他认为,对比Pika和Runway是做不出这样效果的。Pika和Runbway实际上是基于图形图像本身的操作来进行生成。只是形成一种比较简单的计算机动画的效果。 周鸿祎说:“即使是用常规呢计算机CG电影工业特效来看这三个画面,那也会非常难做,但是到了Sora这里,这些细节都会变得非常简单,只要给出一些文字的提示要求,就能逼真描绘出来”。 他认为,Sora是没有做3D建模的。如果Sora也只是用3D建模再进行渲染,那么这和传统的电影工业走的是一样的路,这样就不具备颠覆性和革命性了。 周鸿祎猜测Sora做到如此效果有三点原因: 1、Sora模拟了人类观察、描绘、表现世界的方法。如果人类画师用笔画出来这三个场景,人类的大脑里不需要3D建模,因为人类对世界有基本认知。人类可以随意想象出自己要做的事,可以控制自己所想。 2、Sora在学习的过程中,用了很多视频、电影的内容来作为训练输入。当输入一些画面,不仅要解读出画面的元素,还要解读出一些物理定律。 openAI的论文中曾提到recaptioning技术,意思是对每一帧画面都能够用文字来描述。这点也正符合人类认知世界的方法。 3、openAI产生了很多3D内容。不排除它用现在游戏引擎做了很多实时3D模型的渲染,再利用这些3D模型把更多的物理知识训练给Sora。 周鸿祎表示,Sora是记录文生视频AIGC的工具,它反映了AI对世界的理解,是从文字进入图像,再从图像展示对这个世界3D模型的理解。
美国想要的芯片,为什么自己造不了?
美国半导体到底经历了什么? 从仙童半导体、德州仪器发明集成电路开始,到现在不过一甲子年岁,就从当年的半导体摇篮,到现在几乎完全失去半导体制造的能力,而需要台积电来续命? 今天我们来聊聊,半导体制造为什么回不去美国。 2022 年 12 月 6 日,美国的亚利桑那州。 美国总统拜登,苹果 CEO tim,英伟达 CEO 黄仁勋,AMD CEO 苏妈,还有 91 岁的台积电创始人张忠谋等全球知名半导体公司的领导人齐聚一堂。 今天,他们大家之所以欢聚在这里,是为了庆祝他们的好伙伴 —— 台积电。 台积电计划在美国开建的晶圆厂,终于等到了属于它的第一台机器。 总统拜登更是直接激动的宣布制造业回来了! 等下,既然都说出了:“ 回来了 ” 这个词。 那就意味着在一定程度上,美国的半导体制造是 “ 失去过的 ”。 这样说有一定的道理,根据白宫在 2021 年发布的文件咱们可以看到。 美国在全球半导体制造中所占份额这几年也是在不断下降,从 1990 年的 37% 下降到 21 年的 12%。甚至,如果不及时采取措施,这个数据有可能会在未来几年里继续走低。 所以,美国半导体到底经历了什么? 从仙童半导体、德州仪器发明集成电路开始,到现在不过一甲子年岁,就从当年的半导体摇篮,到现在几乎完全失去半导体制造的能力?而需要台积电来续命。 大家好,今天我们来聊聊,半导体制造,为什么回不去美国? 美国制造,是如何流失的? 和咱们如今印象里充满黄色灯光和自动化器械的半导体工厂不同,刚刚诞生的半导体,在制作过程上,还是挺 “ 手工 ” 的,属于是某种意义上的劳动密集型企业。 那时候还没有 “ 集成电路 ” 这个概念,想做一个电路,需要分别做出电阻、电容、电感以及二极管、三极管这些基础元器件。 然后再用导线把这些最基础的元件给连起来,才能做成最最最基础的逻辑电路。 那这样做的电路,自然是费时又废工,同时由于连接复杂的原因,一旦动起来,稳定性的表现就算不上太好。 后来直到 1958 年左右,德州仪器的杰克 · 基尔比在研究的时候突然一拍脑袋发现,这几个原件是可以一起生产的啊? 那有没有一种可能,咱们能在生产的时候把这些元器件都给做在一起,那稳定性不就好多了吗。 说干就干,在一阵科研过后,他们找到了自己的办法。 先在锗晶片上制造出三极管,然后再在纯锗晶体中少量掺杂做成电阻,再用反向二极管做出电容。 这样,他们就做出了人类历史上第一个集成电路:一个相位震荡器。 不过,这个集成电路还没有解决一个关键的问题 —— 那就是还需要人力来将导线连接到这些元器件上。 后来,仙童半导体的罗伯特 · 诺伊斯在这个基础上做出了改进,决定用蒸发沉积金属的方法代替热焊接导线。 这次,把连线的步骤也给一并解决了。 但是这样也带来了一些新问题,那就是成本有些失控了。 仙童的工艺虽然更加优雅,但是需要用到当时更贵的硅工艺,再加上当时新技术的产量需求较小,所以价格属于非常难以把控。 在上个世纪六十年代,一块集成电路甚至可以卖到 450 美金,按照通货膨胀来换算的话,相当于现在的两台 iPhone 15 Pro max,1T 国行非海南版本的。 那,有什么办法可以节省集成电路制造的成本呢? 从仙童开始, 半导体制造就开始了转移。 1959 年,曾经在通用电气任职的查尔斯 · 斯波克加入了仙童半导体,他的工作内容,是给公司找个新地方建厂,他们刚刚拿下了一个半导体大单子,需要大幅度的提升产量。 斯波克本来想找个地方 —— 找一个工会势力没有那么发达的地方去建厂的。 因为他的上一份工作就是被纽约的工会给搅黄的。 首先被他考虑的一个地方就是美国东北角的波特兰市,那儿工会没有这么发达,人力成本也是相对便宜。 但他的同事诺伊斯则是劝他打开思路,他知道有个好地方,不但人力资源便宜,工会势力薄弱。 而且接受一定的西方教育,讲英语的话沟通起来问题不大。而且还是个自由港,可以避免不少进口,税率方面的问题。 这个地方就是中国香港,当时的一个高度工业化的制造中心。 对当时的他们来说,做半导体和衣服其实没啥区别。 根据斯波克的回忆,当年工人的时薪约为 25 美分,是美国工人的十分之一。 非但如此,“ 当地工人比美国工人麻利两倍,还愿意接受更艰苦的工作 ”。 除了对工资有些敏感。 如果隔壁厂的工资涨了 5%,他们可能就会光速辞职,去街对面的服装厂干活。 在这样的环境中,仙童的香港工厂于 1963 年正式投产,美国半导体制造,正式走出出海的第一步。 不过,当时转移到香港的半导体制造,其实还算不上完全。 仙童将香港的一家拖鞋工厂给改造成了半导体工厂,在那儿仅仅负责把美国生产的晶圆进行封装和测试。顺带解决了一部分的销售任务,生产出来的芯片可以直接在香港卖到东亚各地。 最后,在美国工程师 + 数千名香港工人三班倒的努力下,光是 1963 年一年,仙童就在这个旧拖鞋厂的厂房内产出了 1.2 亿枚半导体芯片。 这一业绩不但令公司十分满意,还给同行看着眼馋了。在美国哪里能找到这么便宜的人工,这么高效的产能哦。 所以大家是纷纷效仿,后来包括德州仪器、摩托罗拉在内的其他美国公司也都开始在香港设厂。 而在品尝到了产业转移的美味之后,后续的展开更是一发不可收拾。更是把目光投向了人力成本更便宜的新加坡和马来西亚。 毕竟、香港的时薪工资虽然只有美国的十分之一,但是在当时的东亚里,却已经是最高的几个了。 至此,将半导体生产搬离美国,已经是一个很明显的趋势了。 传统的半导体制造可以分为三个大环节:芯片设计,晶圆制造,以及封装测试。 当时的美国可以说是将封装测试这一技术含量最低、需要耗费人力成本最高的环节给转移到了海外。但很快,晶圆制造这个环节也被盯上了。毕竟,半导体产业,用炼金术来形容,也毫不为过。 这是河沙,本质是二氧化硅,平时撒在路上可能都没人会去捡,如果你要去建材市场特意买的话,170 元左右能拿下一吨,可能还没有搬运费贵。 这是沙子中比较好的那种高纯石英砂,身价则是翻了数倍不止,大概需要 5w 美元左右一吨。 而这是一枚 intel 最新发布的 14900k 桌面处理器,售价 4999 元,重量 35.7g。换算下来,相当于 1 亿 4 千万左右一吨。 而制作他的原料,就是高精度的石英砂。 也就是说,只要有办法设计出芯片,并且将它做出来,那就能赚大钱。 海岸线上的日本就盯上了芯片这块肥差。 毕竟半导体加工这活在当时不需要消耗太多的能源,也不会占用太多的地方,对能源相对紧缺、土地资源不太够分的日本来说简直是直对 XP。 恰好战后的美国也有利用扶持日本、来对抗苏联的想法。 得益于此,日本以低廉的价格吸收了美国的大量技术。 许多现在咱们熟悉的日本企业也都在那时候趁机崛起。 无论是晶体管、计算机、还是集成电路的这些技术,在美国人研究出来后、很快就被日本拿来研究透了,然后推出性能稍弱,但是价格更便宜的仿制产品。 这些原因导致了日本的生产技术方面一直没拉下太多。 没过几年,日本就找到了啃下美国更多肉的办法。 1966 年,日本和往常一样,准备仿照美国的 IBM,举国之力去制造一台高性能计算器:HITAC 8000。 当时的大型计算机可不是一个简单活,IBM 为了做出这台 system-360,招募了 6w 余名新员工、获得了超过 300 项专利、攻克了操作系统、数据库、集成电路等方面的一系列难关。 项目总共花费大约 52 亿美元,在那个年代,相当于 7 艘核动力航母的造价。 而日本这个仿制项目的预算却只有百分之一不到,( 0.34 亿美元 )还是个五年的分期计划。 最后自然是毫无意外的失败了。 但是研发 HITAC 8000 的过程中,由于这台机器对当时的内存有较高的要求,日本积攒了大量的全新内存开发经验。 最终在 1968 年研究出了 144 位的 N 沟道的 MOS 存储器。 这些宝贵的经验积累,帮助日本在随后到来的 DRAM 时代立积累了大量的经验。 当 Intel 最终推出成熟的 DRAM 产品 C1103 之后,日本跟着用最快的速度喝到了一碗汤, NEC 也在次年推出了类似的芯片 可能很多人对日本半导体的崛起会带有一定的疑惑。 一个现在随处可见的 DRAM,为啥能把美国一众大厂给打趴下? 但在当时、存储数据可是一个大难题,老的电脑甚至还在用磁芯存储器,读写速度、物理存储和可靠性都不大不如 DRAM。 举个例子,就像今天如果某家公司发布了能量密度比现在高一倍的电池,其他参数也全是优点,在电池储能上获得了革命性的突破。 明年可能所有友商都想用上这个电池。 可想而知这个市场有多大,英特尔美美吃肉,日本浅浅的喝汤。 在这样一个研发的过程中,半导体行业的生产过程,也从过去的劳动力密集型产业,转型向了资产密集型产业。 曾经需要女工拿着显微镜才能完成的焊线工序,现在只需要用自动焊线机就能完成,一个工厂、100 台机器,甚至只需要 10 个人来操作。 而后续更是安排上了超静车间和无尘室,直接将产品的良率大幅度提升。 再往后的故事,就是我们熟悉的那个了。 多年的技术累计,让日本 DRAM 无论是良率还是价格,都远远优于美国的产品。 各家企业也是在配合中大显神通,这一连串技术整合下来。一举占据了 DRAM 市场 90% 的份额,那些美洲大陆的科技企业更是被打的丢盔弃甲。 甚至就连发明了 DRAM 的英特尔都被打的退出 DRAM 市场,要不是中途 IBM 拉了一把,可能就得沦落到破产或者是被收购的地步了。 直到这时候,美国政府才后知后觉的反应过来,开始对日本半导体重拳出击。 从通过立法认定日本半导体行业倾销,到推动设立全球化分工的半导体行业来瓜分日本市场。 这段内容咱们之前也做视频聊过,就不再赘述了。 美国这顿操作下来,日本的半导体行业不能说一落千丈吧,但至少发力的势头算是给按住了。 但随之也带来了新的问题。 日本这边被锤了,芯片也不能没人造吧。 自己造是不太可能的了,又贵又麻烦,但是也不能全权让别人来代工,免得自己被人卡脖子。 在这个关键时刻,台积电站了出来,直接开始大声嚷嚷: “ 没事,我能造,而且我只负责代工,你们只要管自己的设计就成 ” 如果说美国当年高额的人力成本、严苛的工会是给半导体制造产业的外迁挖了一个坑的话。 那如今台积电主导这种模式,可以说是给美国的本土新工艺的制造盖上了一杯土。 只负责晶圆代工、不负责芯片设计,这种方式可以说是完美符合美国企业的胃口。 他有两个明显的优点,一方面是降低了芯片设计厂商之间的内耗。 过去大家为了保密自家做出来的芯片方案,都得藏着掖着不给别人设计,只能自建产线生产。 但现在不一样了,台积电是一个 " 与世无争 " 的晶圆代工厂,不涉及芯片设计,大家都可以把最新的芯片设计交给我代工,不用担心泄密。 而且台积电本身还变成了一个实践家,每家的芯片都做一下,就可以做完后总结一下这次哪里的工艺没做好,需要提升哪些方面,然后用在下一轮的优化设计里。 另一方面则是降低了芯片设计的准入门槛。 后续入场的新玩家,不用花重金用于研究芯片制造,只要能设计就行,制造方面的问题都可以交给台积电。 这个模式可以说是运行的非常完美,也持续运行了几十年,不过现在看来,唯一的问题可能就是台积电发展的实在是太好了。 这部分 “ 外包 ” 的代工产业链,已经被他们内卷出了无形高的技术壁垒,让新入局的人难以找到门道。 早年美国为了追求低廉的人工成本来将产业外移、而现在这部分产业在海外进行可开花结果,自己已经过上了完善的生活。 如果没有地缘政治问题的话还好,但是这次美国在制裁天,制裁地之后突然回过神来,现在能依靠的先进制程厂,只有台积电一个了。 现在突然想要人为手动的转移台积电的产量,付出的成本就不一样了。 那么问题来了, 就算台积电真的搬迁回去了, 能帮美国解决好先进制造的部分吗? 想搞清楚这个问题,我们得先看看台积电把那些工厂给搬过去了? 根据台积电董事长刘德音的说法可以看到,亚利桑那州厂第一期预计 2024 年开始量产 4nm 芯片,而二期厂房也会同步开始建设,预计将在 2026 年开始生产 3nm 芯片。 全是晶圆厂,并没有计划建设封装厂的部分。 啊对,当年封装是低端产线,但是现在早已 “ 龙王归来 ”。没错, “ 先进封装 ” 也是封装。 简单来说,先进制程可以决定一枚芯片的性能可以发挥的有多好,而先进封装要做的事情就是帮助多枚芯片尽可能的放在一起,让他们能联手起来发挥的更好,达到 1 + 1 大于 2 的效果。 比如苹果当年令人惊艳的 M1 ultra,就是借助先进封装的工艺来将两枚芯片连在一起,实现了 2.5 TB/s 的数据通信量,完美发挥了胶水芯片的性能。 英伟达的算力皇冠 H100,也是依靠先进封装实现的 HBM 内存,以此获得了在显卡上更好的性能和更低的功耗。 但是这些牛逼哄哄的技术,在美国都用不了,就算亚利桑那州的晶圆厂开工一路顺风,造出来的晶片也必须送回中国台湾才能进行进一步的封装。 这个成本已经没有多少优势了,不过、先别说这个八字还没一撇的封测厂了,就连在建设的晶圆厂,其实也是一波三折。 在 Q2 的电话会议上、台积电的董事长刘德音就表示,这美国的工人,熟练度不够啊。 “由于美国当地熟练工人短缺,公司可能不得不从台湾地区临时调入有经验的技术人员,这将使第一家工厂开始量产的时间推迟到 2025 年。” 现场的美国人也开始开始甩锅,给出了相反的说法: “ 指责台积电在建厂的过程中管理混乱,也没有做好很多安全措施,导致他们没法顺利开工。” 好家伙,世界上没有人会记住一家按时开工的晶圆厂是吧。 就算是给美国加一层 buff,让晶圆厂顺利落地,我相信后续的运行,一定还会出不少乱子。 因为半导体生产的核心,其实最关键的还是在人身上。 从 1960 年发明集成电路开始,到 2023 年的半导体厂自动化制造。 虽然从最早的人工焊接导线,人工浇灌树脂,到现在的自动化流程生产,看起来是能节约不少人力成本。 但是节省成本不代表不用人,终归还是人围着设备转,而不是设备围着人转。 经常提桶跑路经验的差友应该会发现,越是只需要少部分简单操作就能跑起来的产线机器,就越会出现三班倒的现象。 这种现象在半导体厂房里尤为明显。 如果你是一个 PE( 工艺工程师 )的话,为了保证产线不能出问题,虽然你不一定要亲自上产线操作,但是当轮到你值班的时候还是得保证自己能随叫随到,一个电话就得去产线上排查问题。 如果是一个 OP( 操作员 )的话,更是每天需要穿无尘服,十二个小时可能只能去两三次厕所,看着头顶穿梭的天车,听着身边无数机台的轰鸣,闻着光刻胶刺鼻的气味,过着与世隔绝的工作生活。 只要半导体生产的过程中还需要人力介入,那就需要招聘能接受这样工作环境的人。 这些技术员虽然说起来很普通,但是也绝对不是上汽车产线拧个螺丝那么简单。 一个非常好笑的矛盾是台积电在美建厂对于当地最大的吸引力是成创造几万工作岗位可是问题是全美都够呛找到能 match 这些工作岗位的人。 SIA(美国半导体行业协会 )的一项研究表示,预计到 2030 年,美国半导体行业能提供的工作岗位将从现在的 34.5 万增加到 46 万,但是按照目前的人才培养方案来看的话。 到时候这些新增岗位中,可能有 6.7 万个岗位招不到人。 而且在报告中还指出,目前学些 STEM( 科学、技术、工程、数学 )的学生本来就少也就算了,就算是目前学了这些专业的学生,在就业的时候也不会优先考虑去涉足半导体行业。 讲到这里,关于美国半导体制造能否重铸荣光,我相信大家心里已经有了答案。 或许美国政府希望可以用《 芯片法案 》来给半导体制造打上一针鸡血。 但是正如 2011 年,奥巴马像乔布斯提出的那个问题一样。
硅谷IT巨头宣布:裁员13519人,赔偿50亿
自 2024 年 1 月以来,科技界巨头如谷歌、Alphabet、亚马逊、微软、eBay、Unity 和 Discord 等均已相继宣布裁员。据统计,至今已有 154 家科技公司宣布了裁员计划,累计裁员人数达到 39, 496 人。 最新消息显示,SAP、火狐、思科和黑莓等企业近期宣布了裁员计划,这次裁员人数大约 13519 人,赔偿金额超 50 亿人民币。 一 华为的主要竞争对手之一,全球领先的网络设备制造商思科,于 2024 年 2 月 15 日宣布将裁减 5%的员工,约 4250 名员工,赔偿金额高达 35.97 亿元人民币。 除了裁员消息外,思科还公布了第二财季业绩,收入较去年同期下滑 6% 约 128 亿美元,这是公司近三年来首次出现收缩。 思科表示,客户推迟订单的情况对公司造成了负面影响。尽管思科预计今年下半年供应链的困境有望得到缓解,但 CEO Chuck Robbins 表示,公司下半年的复苏进度可能不会如先前预期的那样迅速。 二 著名的 Firefox(火狐)网络浏览器开发商 Mozilla,近日发布声明,宣布将减少对产品领域的投资,专注于做最有可能成功的领域。 继腾讯和字节跳动之后,Mozilla 也宣布将集中人力和资源专注于最重要的事,精简非核心项目,不仅仅是这些巨头,未来其他公司也都会这么做。 此次调整将影响 Mozilla 约 5%的员工,裁员人数约为 60 人,主要集中在产品开发部门。 这是 Mozilla 近四年来的首次大规模裁员,此前该公司曾在疫情期间进行过裁员,这些年来 Mozilla 一直在努力应对 Firefox 网络浏览器市场份额下滑的问题。 三 著名社交媒体平台 Snap 近期宣布裁员 10% 的员工,约 1000 名员工,涉及的赔偿费用超过 5 亿元人民币。 Snap 是美国的一家科技公司,它最著名的产品是 Snapchat,这是一个流行的多媒体消息应用程序,允许用户发送带有照片和视频的即时消息,这些消息会在短时间内自动删除 这次的裁员是 Snap 应对当前数字广告市场持续不振造成的经营挑战而采取的措施。这是该公司自 2022 年以来的第三轮大规模裁员,前两轮分别在 2022 年和 2023 年实施,裁员比例达到了 20%和 3%。 公司尚未具体披露哪些部门将受到调整,但表明此次裁员的目的是为了“调整团队结构,提升核心业务的执行效率,以及确保公司拥有充足资源来支持未来的发展目标”。 四 近期黑莓公司宣布将裁员 200 人,表示未来还会进行一波裁员,以节约营运成本提升获利。 黑莓(BlackBerry Limited)是一家总部位于加拿大的软件公司,专注于网络安全 黑莓公司估计,这次裁员总计将为公司节省每年 2700 万美元成本,另将通过其他措施省下 800 万美元成本。 为了节约成本,黑莓公司近年来已在全球关闭 36 处营业点。该公司预期今年度(今年 2 月底止)将大幅缩减营业支出,目标在明年度第四季(明年 2 月底止)结算前达到正数现金流。 五 最近传出消息,全球知名的企业应用软件公司 SAP 计划裁减 8000 名员工,此举被视作为适应云计算时代转型的策略之一。 SAP (Systeme, Anwendungen und Produkte in der Datenverarbeitung)是一家总部位于德国的全球领先的企业资源计划(ERP)软件提供商 在云计算时代来临之前,SAP 主要与 Oracle 和微软等传统软件巨头竞争。然而随着时代的变迁,Salesforce 采取了与 SAP 不同的策略,通过云服务切入中小企业市场,并逐渐扩展至大型企业领域,对 SAP 构成了不小的竞争压力。 为了积极响应市场变化和企业需求,SAP 决定坚定转型云服务模式,此次裁员 8000 人便是为了支持这一转型战略。这一变动公布后,SAP 股票的价值并未下跌,反而出现上涨,显示出市场对转向云计算模式的积极预期,毕竟有 Salesforce、Adobe 这样的成功案例为市场提供了信心。
揭秘Sora:开发团队成立不到1年,核心技术曾因“缺乏创新”遭拒绝
原标题:揭秘Sora:开发团队成立不到1年,站在谷歌肩头,核心技术曾因“缺乏创新”遭拒绝 2月16日,OpenAI的AI视频模型Sora炸裂出道,生成的视频无论是清晰度、连贯性和时间上都令人惊艳,一时间,诸如“现实不存在了!”的评论在全网刷屏。 Sora是如何实现如此颠覆性的能力的呢?这就不得不提到其背后的两项核心技术突破——Spacetime Patch(时空Patch)技术和Diffusion Transformer(DiT,或扩散型 Transformer)架构。 《每日经济新闻》记者查询这两项技术的原作论文发现,时空Patch的技术论文实际上是由谷歌DeepMind的科学家们于2023年7月发表的。DiT架构技术论文的一作则是Sora团队领导者之一William Peebles,但戏剧性的是,这篇论文曾在2023年的计算机视觉会议上因“缺少创新性”而遭到拒绝,仅仅1年之后,就成为Sora的核心理论之一。 如今,Sora团队毫无疑问已经成为世界上最受关注的技术团队。记者查询OpenAI官网发现,Sora团队由Peebles等3人领导,核心成员包括12人,其中有多位华人。值得注意的是,这支团队十分年轻,成立时间还尚未超过1年。 核心突破一:时空Patch,站在谷歌肩膀上 此前,OpenAI在X平台上展示了Sora将静态图像转换为动态视频的几个案例,其逼真程度令人惊叹。Sora是如何做到这一点的呢?这就不得不提到该AI视频模型背后的两项核心技术——DiT架构和Spacetime Patch(时空Patch)。 据外媒报道,Spacetime Patch是Sora创新的核心之一,该项技术是建立在谷歌DeepMind对NaViT(原生分辨率视觉Transformer)和ViT(视觉Transformer)的早期研究基础上。 Patch可以理解为Sora的基本单元,就像GPT-4 的基本单元是Token。Token是文字的片段,Patch则是视频的片段。GPT-4被训练以处理一串Token,并预测出下一个Token。Sora遵循相同的逻辑,可以处理一系列的Patch,并预测出序列中的下一个Patch。 Sora之所以能实现突破,在于其通过Spacetime Patch将视频视为补丁序列,Sora保持了原始的宽高比和分辨率,类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至关重要,使模型能够从更准确的表达中学习,从而赋予Sora近乎完美的准确性。由此,Sora能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。 记者注意到,OpenAI发布的Sora技术报告中透露了Sora的主要理论基础,其中Patch的技术论文名为Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。记者查询预印本网站arxiv后发现,该篇研究论文是由谷歌DeepMind的科学家们于2023年7月发表的。 图片来源:arxiv.org 图片来源:Google Scholar 核心突破二:扩散型Transformer架构,相关论文曾遭拒绝 除此之外,Sora的另一个重大突破是其所使用的架构,传统的文本到视频模型(如Runway、Stable Diffusion)通常是扩散模型(Diffusion Model),文本模型例如GPT-4则是Transformer模型,而Sora则采用了DiT架构,融合了前述两者的特性。 据报道,传统的扩散模型的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片时,逐步减少噪点,直到还原出一张清晰的图片。Sora采用的架构是通过Transformer的编码器-解码器架构处理包含噪点的输入图像,并在每一步预测出更清晰的图像。DiT架构结合时空Patch,让Sora能够在更多的数据上进行训练,输出质量也得到大幅提高。 OpenAI发布的Sora技术报告透露,Sora采用的DiT架构是基于一篇名为Scalable diffusion models with transformers的学术论文。记者查询预印本网站arxiv后发现,该篇原作论文是2022年12月由伯克利大学研究人员William (Bill) Peebles和纽约大学的一位研究人员Saining Xie共同发表。William (Bill) Peebles之后加入了OpenAI,领导Sora技术团队。 图片来源:arxiv.org 然而,戏剧化的是,Meta的AI科学家Yann LeCun在X平台上透露,“这篇论文曾在2023年的计算机视觉会议(CVR2023)上因‘缺少创新性’而遭到拒绝,但在2023年国际计算机视觉会议(ICCV2023)上被接受发表,并且构成了Sora的基础。” 图片来源:X平台 作为最懂DiT架构的人之一,在Sora发布后,Saining Xie在X平台上发表了关于Sora的一些猜想和技术解释,并表示,“Sora确实令人惊叹,它将彻底改变视频生成领域。” “当Bill和我参与DiT项目时,我们并未专注于创新,而是将重点放在了两个方面:简洁性和可扩展性。”他写道。“简洁性代表着灵活性。关于标准的ViT,人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。” 图片来源:X平台 不过,他认为,关于Sora仍有两个关键点尚未被提及。一是关于训练数据的来源和构建,这意味着数据很可能是Sora成功的关键因素;二是关于(自回归的)长视频生成,Sora的一大突破是能够生成长视频,但OpenAI尚未揭示相关的技术细节。 年轻的开发团队:应届博士带队,还有00后 随着Sora的爆火,Sora团队也来到世界舞台的中央,引发了持续的关注。记者查询OpenAI官网发现,Sora团队由William Peebles等3人领导,核心成员包括12人。从团队领导和成员的毕业和入职时间来看,这支团队成立的时间较短,尚未超过1年。 图片来源:OpenAI官网 从年龄上来看,这支团队也非常年轻,两位研究负责人都是在2023年才刚刚博士毕业。William (Bill) Peebles于去年5月毕业,其与Saining Xie合著的扩散Transformer论文成为Sora的核心理论基础。Tim Brooks于去年1月毕业,是DALL-E 3的作者之一,曾在谷歌和英伟达就职。 图片来源:William (Bill) Peebles个人主页 团队成员中甚至还有00后。团队中的Will DePue生于2003年,2022年刚从密西根大学计算机系本科毕业,在今年1月加入Sora项目组。 图片来源:Will DePue个人主页 此外,团队还有几位华人。据媒体报道,Li Jing是 DALL-E 3 的共同一作,2014年本科毕业于北京大学物理系,2019年获得MIT物理学博士学位,于2022年加入OpenAI。Ricky Wang则是今年1月刚刚从Meta跳槽到OpenAI。其余华人员工包括Yufei Guo等尚未有太多公开资料介绍。
高合停产6个月,剩下的新能源可能也要死90%…
不知道大伙发现没,最近倒闭或者快要倒闭的车企,好像变的越来越多了。 威马前脚才刚走没多久,前两天又有媒体爆料,说中东土豪当时答应要给高合的巨额投资,压根没有谈妥。 还有许多网友曝光,说高合不仅车交不出来,员工的工资也发不出来,甚至连展厅都租不起,纯纯要跑路的节奏。 虽然之前他们辟过谣,但就在今天,高合干脆就直接宣布停工停产6个月,这可不算什么好消息。 去年六月份的时候,余大嘴在中国汽车重庆论坛上表示,到了 2030 年,中国市场的主要玩家数量会小于 5 家。 米车的雷军,零跑的朱江明甚至是高合的丁磊,其实也都说过类似的话。 反正就是不挤到头几名,日子就没法过。 合理吗,好像也合理,毕竟连高合背景这么硬的公司都快玩不下去了,说明现在的市场竞争真的是很激烈。 不合理吧,好像也不合理,毕竟现在市场上卖的还不错的车企,满打满算至少有十几二十家。随便摘出一个都是一身的绝活。 要说过个十年大多数都会消失,听起来好像也有点夸张吧? 今天脖子哥就来给大伙盘一盘,余大嘴和雷布斯的观点到底有没有道理。 要说造车这事儿,大伙可能会觉得只要钱够多,零部件都找供应商买,是个人都能干。 但放在整个制造业里来看,汽车行业的准入门槛其实相当之高,因为它不仅超级花钱,还超级花时间。 从流程上看,想把把一台车从图纸上搬到商场里,大概要经历立项、研发、验证、生产制造以及销售这几个大阶段,每个阶段还能再分成很多小项。 里头随便挑一个,背后都是几个亿甚至几十个亿的投入。 就比如研发,大众之前就说过自己研发第八代高尔夫总共花了 22 亿美元,这里头除了大头是研发人员的工资以外,像模具开发、样件制作、实验测试这些环节也都是嘎嘎费钱。 风洞知道吧,就 MEGA 和 SU7 都吹过的那个,一小时 3 万块,试验一次就得花出去一台车的钱。 最终可能就是能让后视镜的造型好看点。 生产制造环节需要的设备和材料成本就更不用说了,别看汽车的工厂里看着好像很简陋,你就站在里头随便指,甭管指到啥肯定都贵的离谱。 产线上的机械臂,差不多 100 万一个。边上那个铁坨子压铸集群,一套小几个亿。 就连地上这些个运零件的 AGV 小车。。。 都得十几二十万一个。 所以,想要自己造一个工厂基本就是几十亿打底,上不封顶,可能还得造好几座。 这还只是能花钱解决的部分,就算啥都搞定把原型车做出来了,还得把它拉到不同的实验场地做整车匹配、电气架构、动力标定、安全检查等种种验证,还有高温、高寒、高海拔地狱级耐久测试等着。 要是没过,就得打回去重做。 一来一回,打磨一个好产品大多都得花费个好几年的时间,没点家底还真就耗不起。 所以很长时间以来,汽车一直都是一个马太效应非常明显的行业,也就是强者变得越来越强,弱者变得越来越弱。 那些销量特别好的汽车集团因为能有稳定的资金收入,就能把更多的钱花在研发新产品、扩建新工厂上。 每隔一两年就能搞出用上新技术的新车型,就会吸引更多的人去买他们车,就这样一直滚雪球。 滚着滚着,那些个销量不太好、没钱搞研发、产品越来越落后的小车企就被滚没了。 运气好的,像劳斯莱斯、 mini 这些还有利用价值的就会被那些大集团收编。 运气不好的,像什么罗孚、萨博之类的,就彻底变成时代的眼泪了。 这也就导致过去几十年里,全世界的汽车品牌数量一直在减少。少到现在,就变了少数几个大集团,各自带着手下的牌子们相互竞争。 前十个销量最高的汽车品牌或者集团,就占了全球销售份额的 75% 。 真就和余大嘴说的一样,不剩几个头部玩家了。 到这肯定有朋友会说,诶,打住,这都是以前油车的历史了,现在新能源的迭代速度已经快了不少,技术门槛也没有之前高了,得按电子产品算! 那我们就来看看电子产品领域的规律是啥样的。 根据 Counterpoint 的统计, 2017 年的时候全世界一共有 720 多个手机品牌,截止去年就只剩下 250 家了,嗝屁了接近 3 分之 2 。 当年什么金立、波导、锤子,甚至连 htc 、诺基亚这些红极一时的大品牌,现在坟头草都两米高了。 为啥?原因和汽车如出一辙,就是想做小品牌实在太难。 虽说表面上造手机很简单,大家还老调侃说谁还不是个供应链整合商,但这就真只是小打小闹,根本做不成主流。 就不说苹果和华米 OV 这些大厂,每年会花上百亿千亿做研发了,单就市场上的顶级供应商,也不是想用就用的。 传说雷总当年为了拿下三星一流的屏幕供应,前后飞了好几次韩国,低声下气地才搞定了那些三星高管。 当年锤子吐槽富士康产线不行,把富士康给气走了,后面良品率就变得更低了。 所以说因为规模效应在,这些出货量贼大的大厂可以把成本控制在很低的水平,搞的现在一两千的价位里,都能见到用上 1T 内存、高性能芯片、超级快充和 1 亿像素相机的性价比怪兽了。 这让那些杂牌手机怎么玩,直接就被卷没了。 导致最后的的主流玩家,也就剩下那么几个了。 比如果子,在近十年里头的每一年,都能以不到 20% 的市场占有率,获得 80% 上下的市场利润,最恐怖的时候甚至蹦到了 91% 。 去年全球销量前 5 的手机品牌,合起来也吃下了近 7 成的市场份额。 剧情和汽车那边简直一毛一样是吧。 其实类似像手机格局的例子其实还有很多,比如汽车零部件供应商,现在说得上话的也只有博世、大陆、法雷奥这些老炮儿了; 最近几年大火的动力电池,卷到现在也马上就要变成宁德 LG 和比亚迪三足鼎立了。 所以啊,但凡是涉及到科研、生产和制造的超重资产行业,最后大概率都会变成赢家通吃的情况。 那我们再回到一开始的问题,国内的车企会不会变得越来越少呢? 我觉得是会的。 因为不管是在过去,现在还是未来,决定一个车企能不能活下去的标准是一直在变的,而且只会变得越来越严。 以前,车企能不能活只需要看政策。 就像当年的新能源国补,那直接就是把真金白银的补给车企,砸钱鼓励大家做新能源车。 只要你想做,就有补贴拿。 从 2010 开始到现在十三年,新能源国补总共补了得有 2000 多亿,最高的时候一年就补了 400 多亿,直接催生出了一大批只靠 PPT 和车模就能骗到补贴的假车企。 2018 年之后,国补开始减少下滑,到了现在彻底归零,那批车企顺道也就寄了。 现在,车企过得好不好得看自己的家底。 经过几年的大浪淘沙以后,虽然蔚小理这些品牌都活下来了,但因为像是自动驾驶、电池电驱这些技术的进步速度实在是太快,不仅每年还是要花大价钱搞研发、多建产线保证交付的速度,还得支持销售网络的日常开销。 像比亚迪,别看它去年的净利润有两三百亿,但它总的营收估计有四五千亿。 相当于每个月,都得花几百亿用于维持日常运营和产品研发。 啥概念呢,波音 737 700 的价格是 7700 万美元,比亚迪的花销一个月能买大几十台。 体量没这么大的,理想,一个季度的开支也有一百亿左右;小鹏,小几十亿;最狠的就是蔚来,每个月还得亏上个十几亿。 这么着没有上限的花钱,真不是一般品牌能顶住的。 就比如的已经破产的威马和 “ 可能 “ 就要破产的高合,就是因为一边在咔咔烧钱,另一边车子少人买,许久没能盈利,最后把底裤烧穿了。 所以大伙可以看看现在还有啥品牌是只有声量没有销量的,下一个没的可能就是它。 举个例子,比如美国在巅峰的时候,同时存在过 1500 个汽车品牌。 但最后他们因为技术路线太像,要么就是被通用和福特用技术类似、价格更低的产品挤死,要么就是成了巨头的一部分。 红极一时的普利茅斯猎兽 有幸存者吗?有,很少。 比如特斯拉,不仅活过了一轮轮的淘汰赛,还慢慢变成了全球最大的新能源车企,自己成巨头了。 要说为啥,因为它手上的技术,像自动驾驶、电路集成和材料技术,当时世界上的几个巨头手里都没有,没法用类似的产品把它卷死。 所以特斯拉不仅活下来了,甚至直接开启了世界新能源大赛的序幕。 这说明啥?说明想要从巨头的手里活下来,唯一的方法就是抢在他们前头把优势占住了,让他们无路可走。 回过头来看国内,虽然很多新势力已经赶在大集团的前面,又是搞纯电架构又是搞智能驾驶,甚至像理想这种专注家用赛道的品牌,都已经撬动 30 万以上豪华车型的基本盘了。 可只要巨头们看到哪个细分市场有价值,自己手上又有对应的技术,那往里进军肯定就只是时间问题。 还是用比亚迪举例, 2024 年比亚迪的销量目标估计会在 360 万台左右,只比去年多了 60 万台。 这么不激进的目标背后有一句潜台词,那就是它今后的方向是在稳住基本盘的时候,去拓展那些更小众的市场。 所以,现在比亚迪的下头已经分化出了了仰望、方程豹这些中高端的小众品牌,智驾智舱什么的也都安排上了。 还不止它,像吉利下面的极氪领克,最近也跟开了窍一样,搞出了好多又便宜素质又不差的车型。上汽下头的智己,马上也有大批新车加入战斗。 在这些集团慢慢拓展领土的时候,如果新势力手上没有差异化的技术,结果必然是被吞并或是消失。 所以我觉着,之前的大浪淘沙只不过是开胃小菜,新能源的决赛圈现在才刚刚开始。 2023 年淘汰了两家, 24 年可能就是 3 家甚至是 4 家。 看看现在还活着的车企们,大伙觉得,有谁是能活到最后的呢? 点击图片跳转视频! 撰文:致命空枪 编辑:脖子右拧&结界 封面:焕妍 图片资料来源: 2013-2023年全球智能手机出货量排名,明年智能手机市场将全面反弹 Nearly 500 Brands Exited Smartphone Market During 2017-2023 全球第四大汽车集团正式诞生!PSA与FCA将于本月16日完成合并 比亚迪2023年度业绩预告:盈利增长74%至86%,新能源车销量创新高 四部门发布开展私人购买新能源汽车补贴试点通知 威马破产:车机变砖、售后无门,10万车主选择自救 91%的利润流进苹果口袋 最赚钱国产手机每台仅赚100元 “炮王”的回归之路 22亿美元砸在高尔夫上 是挥霍还是质的改变? 网友爆料高合:供应商不发货,现金流也断,会是下一个威马?
惊动美国白宫、有公司被骗2亿港元,AI“深度伪造”的罪与罚
生成式人工智能(GAI)时代,似乎没有什么不能被颠覆,连人们一直坚信不疑的“眼见为实”“有图有真相”也逐渐成为空话。 今年春节期间,OpenAI发布的文生视频模型Sora横空出世,被认为是“AGI(人工通用智能)的重要里程碑”,将颠覆视频内容生成方式。Sora的出现,振奋科技圈的同时也衍生出了担忧的情绪。有专家称,这类技术可能会导致“深度伪造”视频增多,让人难以识别真伪。OpenAI自己也承认,无法预测人们使用Sora的所有有益方式,也无法预测人们滥用它的所有方式。 Sora根据提示词生成的视频画面截图 图片来源:OpenAI官网 在Sora诞生之前,AI“深度伪造”技术已经在海内外引发担忧,知名明星与跨国公司相继成为AI“深度伪造”的受害者。今年1月底,明星泰勒·斯威夫特(Taylor Swift,中文绰号“霉霉”)大量虚假“不雅照片”在社交平台上传播。此事震动美国白宫,并掀起一波关于人工智能的担忧。2月4日,据香港文汇报报道,有诈骗集团利用AI“深度伪造”技术向一家跨国公司的香港分公司实施诈骗,并成功骗走2亿港元,这也是香港迄今为止损失最大的“换脸”案例。 诸如此类的案例越来越多,人工智能带来的新型焦虑正在形成。瑞莱智慧Real AI联合创始人&算法科学家萧子豪在接受《每日经济新闻》记者采访时就表示,他们判断,2024年这种利用AI“深度伪造”技术实施的诈骗案件会进一步增加,因为“深度伪造”技术工程化落地速度很快,“即使是不了解技术的普通人,也能够制作‘深度伪造’的内容”。 娱乐还是犯罪? “深度伪造”一词译自英文“Deepfake”(deep learning和fake的组合),现亦称深度合成(Deep Synthesis)。“Deepfake”诞生于美国。2017年,美国一名为Deepfake的用户在社交网站Reddit上发布了一则与知名演员有关的伪造视频,这项技术随后被迅速应用到多个领域,包括色情、政治、广告、娱乐等。 上海合合信息科技股份有限公司(以下简称“合合信息”)图像算法研发总监郭丰俊告诉《每日经济新闻》记者,在国内,“深度伪造”技术有积极应用,也有负面应用。 积极应用往往在于:一、个人娱乐。一些APP可为用户提供艺术照模板,通过换脸形式生成用户照片,用户足不出户也能“拍”出好看照片。此外,“深度伪造”技术也可用于制作搞笑视频、模仿名人表演,但这可能涉及版权和道德等问题;二、教育。Deepfake技术合成的历史人物讲解视频让教学更有趣味性;三、影视制作。如电影、电视剧及综艺节目中演员换脸,纪录片中为保护参演者隐私和安全而换脸等;四、医疗。医院描述或诊断患者面部肌肉疾病时,如果将患者人脸打马赛克,就看不出面部症状,这时应用Deepfake技术,可把病人视频里的脸,换成一张假脸,既可以保留人脸的运动信息,亦保护了病人隐私;五、艺术。比如有美术馆利用Deepfake技术让已故的艺术家“现身”讲述自己的故事和作品等。 但现实生活中,“深度伪造”技术也被广泛应用于诈骗、色情等非法场景。比如,一些不法分子借助“深度伪造”技术散布虚假视频,甚至制造虚假新闻,危害社会;随着视频换脸技术门槛降低,别有用心之人利用“深度伪造”技术可以轻易盗用他人身份,实施商业诋毁、敲诈勒索、网络攻击和犯罪等。 记者注意到,目前,海内外均有大量由“深度伪造”技术引发的深度造假案例,这些案例普遍造成了不小的负面影响。 比如,近日被传出大量虚假“不雅照”的泰勒·斯威夫特。据九派新闻报道,泰勒·斯威夫特正考虑对生成这些图片的网站采取法律行动。1月26日的美国白宫记者会上,发言人让-皮埃尔被问及此事时表示:“我们对此类图像流传感到担忧,更确切地说,是虚假图像,这令人担忧。”据澎湃新闻报道,这不是泰勒·斯威夫特第一次被AI“造假”。在这次“不雅照”事件前不久,一则由人工智能生成的泰勒·斯威夫特带货广告在海外社交媒体上传播。这则虚假广告利用“深度伪造”技术,合成“霉霉”的声音,并将声音及她的形象和某品牌炊具广告片段拼凑在一起,以“霉霉”身份宣称免费向粉丝赠送炊具,引导受害者点击并支付9.96美元运费,但炊具不会真的送出去。 泰勒·斯威夫特深受“深度伪造”困扰的背后,女性正成为不法分子实施侵害的重要目标群体,他们利用“深度伪造”技术制造各种女性不雅视频、图片牟利。据网络安全研究机构Sensity在2020年秋季发布的报告,在Telegram的应用中,至少有10.48万名女性“被裸体”,而在分发这些照片的7个频道中,累计用户超过10万。根据Sensity的追踪调查,Telegram应用中超七成的使用者表示他们上传的照片是通过社交平台,或其他私人渠道取得的。 英国Wired杂志于2020年发布的一篇报道也曾指出,2020年7月以来,至少有10万名女性被“深度伪造”应用DeepNude(深度伪造软件,现已下架)创建了裸照,其中一些人不到18岁。 一些国家的政客也成为不法分子制造虚假视频的对象。1月21日,美国新罕布什尔州一些选民称接到了“拜登总统”的自动留言电话,告诉接听者不要在该州初选中投票。美国白宫新闻秘书卡琳·让-皮埃尔(Karine Jean-Pierre)次日回应称:“那通电话确实是假的,(拜登)总统没有录音。我可以证实这一点。” 更严重的还有,Deepfake甚至参与到了战争当中,成为“新型武器”。2022年3月,一条乌克兰总统弗拉基米尔·泽连斯基(Volodymyr Zelensky)的“视频”被广泛传播,在该视频中,泽连斯基呼吁乌克兰士兵放下武器投降。事件发生后,乌克兰国防部在其海外社交媒体官方账号发布了泽连斯基的视频,并配文称:“请注意,这是不可能的。” 在国内,中国香港近期发生了一起规模庞大的AI“深度伪造”诈骗案。诈骗者通过搜集一家跨国公司英国高层在YouTube上的公开影像,再利用AI“深度伪造”技术,给诈骗者换上公司高层的面部和声音,从而实施诈骗,并成功从香港分公司骗走2亿港元。这起巨额诈骗案发生前,今年1月中下旬,香港特别行政区行政长官李家超也成为“深度伪造”的目标。网上出现了用人工智能伪造的电视节目片段,冒称李家超向市民推介一项高回报的投资计划。特区政府立即严正澄清,称有关影片全属伪造,行政长官从未作出相关言论。 去年5月初,内蒙古包头市公安局电信网络犯罪侦查局发布一起使用智能AI技术进行电信诈骗的案件。福建省福州市某科技公司法人代表郭先生的“好友”突然通过微信视频联系他,声称自己的朋友在外地投标,需要430万元保证金,想借用郭先生公司的账户走账。基于视频聊天信任的前提,郭先生并未核实钱是否到账,就陆续转给对方共计430万元,之后郭先生才发现被骗。 个人娱乐方面,北京市中闻(长沙)律师事务所律师刘凯告诉《每日经济新闻》记者,2022年8月,成都铁路运输第一法院曾一审审理了一批使用“AI换脸”App程序侵害他人肖像权的案件。古风汉服网红魏某起诉了4家运营AI换脸软件的公司,认为对方在自己未授权的情况下上传包含她肖像的视频作品,生成AI换脸视频,侵犯了其肖像权。记者了解到,国内之前涌现过一批换脸APP,但这些APP中有部分目前已经被下架,如ZAO、去演等。 大模型技术正降低“深度伪造”门槛 “深度伪造”是指利用深度学习技术生成合成图像、音频或视频的技术。由于公众人物的视频、音频、图片资料的公开性,为AI训练提供了大量素材,因此,这些名人频繁成为AI造假的“受害者”。从技术原理上看,“深度伪造”的实现主要依赖于深度神经网络,特别是生成对抗网络(GAN)。通过训练大量的面部图像数据,“深度伪造”模型能够学习面部特征之间的潜在关系,并生成与真实面部特征高度相似的虚假面部特征。 郭丰俊告诉记者,“深度伪造”与国内常见的“AI换脸”不能等同,后者只是前者的一种典型应用形式。“当谈到Deepfake技术时,国内和国外的研究团队都已经达到相当高的技术程度。相较于国内,国外拥有更多的应用程序和网站,这些平台提供了更多Deepfake制作工具,使用户能够相对容易地生成和分享Deepfake内容。” 运用Sora也可以生成高清图像 图片来源:OpenAI官网 浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员盘和林也告诉记者,国外对此类“深度伪造”算法限制较少,应用工具较多。在工具丰富的背景下,这项技术的普及度就相对高。“国内是有一定使用限制的,我们有监管。”盘和林表示。 萧子豪则提到,其实国内通过“AI换脸”实施的诈骗还是很常见,只是大众接触到的案例较少。一方面,太多案例可能会造成大众恐慌;另一方面,这些案例广泛传播可能会给犯罪分子以诈骗“灵感”。他透露,瑞莱智慧已经帮助很多银行在金融场景抵御AI换脸诈骗的攻击。 他认为,随着AI技术的发展与普及,“深度伪造”技术在犯罪中的应用确实呈现出增加的趋势,“而且我们判断,在2024年这种利用深度伪造实施的诈骗案件会进一步增加”。萧子豪给出的理由包括,随着“深度伪造”相关软件和工具的开发普及,即使是不了解技术的普通人,也能制作深度伪造的内容。此外,AI技术的进步也让“深度伪造”内容产生的速度更快、更难被人眼识别。 “大模型技术能够用更少的人脸数据来给特定人构造高逼真的人脸模型,降低了不法分子制作人脸视频的成本。”萧子豪说。 对于“深度伪造”技术应用不当可能带来的社会危害,郭丰俊认为,虚假合成影像可能会冲击社会信任、媒体信任,严重时还会威胁社会公共安全。此外,深度造假影像还可能会让公司名誉、财产遭受损失,还能令个人名誉、财产、精神受到损害。 目前法律法规是否足够完善? 大量深度造假视频或图片的出现,让海内外衍生出新一轮AI担忧。 据央视新闻,今年1月“假拜登来电”引发美国社会关于人工智能“深度伪造”可能影响大选的讨论,同时也延伸带出美国相关的监管政策和立法跟进迟缓的质疑。美国政府监管组织“捍卫公众利益组织”负责人罗伯特·韦斯曼批评称,政治“深度伪造”时刻已经到来,政策制定者必须尽快采取保护措施,否则将面临选举混乱。“深度伪造”会播下混乱的种子,使欺诈行为永久化。美国消费者技术协会首席执行官夏皮罗认为,“政府需要在人工智能领域扮演重要角色,确保设置安全屏障和护栏,让产业内人士知道,哪些能做,哪些不能做”。 泰勒·斯威夫特AI不雅照事件发生后,盘和林曾对外发布署名文章《用AI打败AI“深度造假”》。该文章同样提到,美国虽然已经在推动AI立法,但大部分提案还停留在纸面阶段。 相对于美国,中国在“深度伪造”方面的立法走得相对靠前。记者获悉,早在2019年11月,国家互联网信息办公室、文化和旅游部、国家广播电视总局便联合印发《网络音视频信息服务管理规定》,并于2020年1月1日起施行。该规定对网络音视频服务的使用者和提供者均提出要求,即利用基于深度学习、虚拟现实等的新技术新应用制作、发布、传播非真实音视频信息的,应当以显著方式予以标识,不得利用基于深度学习、虚拟现实等的新技术新应用制作、发布、传播虚假新闻信息。 图片来源:每日经济新闻 刘国梅 摄 2022年,国家互联网信息办公室、工信部和公安部制定的《互联网信息服务深度合成管理规定》明确,深度合成服务者应采取技术或人工方式对使用者的输入数据和合成结果进行审核。去年8月,国家互联网信息办公室还在《人脸识别技术应用安全管理规定(试行)(征求意见稿)》中明确,人脸识别技术使用者应每年对图像采集设备、个人身份识别设备的安全性和可能存在的风险进行检测评估,采取有效措施保护图像采集设备、个人身份识别设备免受攻击、侵入、干扰和破坏。 刘凯向《每日经济新闻》记者表示,实际上,目前世界各国对于“人工智能/Artificial Intelligence”未有一个确定的最终定义,均是作为一类计算机应用的统称。“就我了解到的情况,目前世界上也没有国家制定一部专门针对人工智能的统一监管规则。” 不过,我国在人工智能的立法方面紧跟行业前沿,这两年陆续出台《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理办法》三部主要法规,加之此前出台的《网络安全法》等系列法律法规,可以说已经为人工智能打造了多元化监管格局,实现了多维谱系法律法规协同治理。 “对于泰勒·斯威夫特AI不雅照的深度伪造,在我国的法律规定中可适用的主要条文有:《民法典》第一千零一十九条第一款、《互联网信息服务深度合成管理规定》第十四条第二款、《生成式人工智能服务管理暂行办法》第四条第四款规定。”刘凯说。 攻与防:AI打败AI可行吗? 身处生成式AI时代,如何有效监管和减少“深度伪造”产生的虚假信息,成为全球关注的一项重要议题。盘和林在《用AI打败AI“深度造假”》一文中曾提及一个观点:“能够监管生成式AI的,不是工业时代的法律条文,而是AI技术自身。我们不但要发展AI技术,更要让正义力量尽可能多地掌握AI技术,这样才能对不法分子形成技术压制。” 那么,用AI打败AI造假可行吗? 对此,郭丰俊告诉记者,“国内做AI篡改鉴别的企业已有不少,既有如中国电信这样的央企,又有如瑞莱智慧、中科睿鉴这类大学/科学院孵化的科技公司,还有网易、合合信息这样深耕AI行业多年的企业。”他还进一步指出,国内科研团队在“深度伪造”鉴别方面已处于世界先进水平。不同的国内研究团队多次在国际知名篡改检测大赛中获得冠亚军的好名次。 以合合信息自身为例,郭丰俊透露,公司在文档/证照图像上有较多的AI篡改检测技术积累。目前,合合信息研发的针对证件及票据图片的AI篡改检测与定位技术、AI甄别伪造人脸图像的技术等已经在金融、保险行业得到广泛应用。除了金融安全场景,郭丰俊认为,虚假新闻判断、谣言识别与分析等公共安全、媒体内容安全场景也有大量的需求,合合信息正积极探索这些场景的技术应用。 萧子豪表示,瑞莱智慧从2018年开始就持续关注“深度伪造”技术,并一直投入研发资源进行“深度伪造”的检测与防御。“例如2023年,我们帮助某银行在转账业务场景下防御了上千次深度伪造攻击。” 图片来源:公司官网 他告诉记者,瑞莱智慧一直在研发迭代更先进的算法,同时也研发了一整套深度伪造攻防靶场系统,通过自动化对抗来提升防御的能力。此外,公司也密切获取不法分子最新的伪造方法,及时进行测试和防御能力增强。 “伴随新型伪造方法的层出不穷、网络传播环境的日趋复杂,加上基于深度神经网络的检测算法存在结构性缺陷等,反深伪检测技术也面临‘强对抗性’,需要持续更新与迭代优化。类似于‘猫鼠游戏’,深度合成和检测在不断学习攻防过程中会自我进化,规避上一代的对抗技术。为了能在对抗攻防中掌握主动权,未来,反深伪检测技术的发展需融合多模态内容的取证分析等多方面能力,实现伪造内容的精准识别,打造可信内容体系。”萧子豪说。
过年8天AI圈变天!56件生成式AI要闻一文看尽,OpenAI谷歌英伟达齐放大招
开工大吉! 在刚刚过去的八天春节假期里,生成式AI继续上大分。 OpenAI成为春节期间的“话题之王” 。其于2月16日凌晨推出首款文生视频大模型Sora,引来马斯克、杨立昆、贾扬清等一众大佬发声,周鸿祎称Sora意味着AGI实现缩短到一年。 同时,OpenAI CEO萨姆·阿尔特曼(Sam Altman)正洽谈数万亿美元建设AI芯片工厂,董事会主席布雷特·泰勒(Bret Taylor)、创始成员安德烈·卡帕蒂(Andrej Karpathy)的创业项目接连曝出OpenAI被曝达成年收入达20亿美元的里程碑,估值高达800亿美元。 实际上,科技巨头如英伟达、谷歌、微软、亚马逊、苹果、Meta、Adobe等公司,都在春节期间放出了生成式AI大招。 英伟达于2月15日登上新巅峰,市值1.83万亿美元成美股第三仅次于苹果和微软。在此期间,英伟达首次公开Eos超级计算机,发布AI聊天机器人Chat with RTX,并传出组建芯片定制新部门。 谷歌发布了其大模型矩阵的最新力作Gemini 1.5;微软被曝出投资32亿欧元建设德国AI基础设施;亚马逊推出了10亿参数文本转语音模型;苹果被曝将推出类似于微软GitHub Copilot的AI编程工具;Meta发布世界模型早期版本V-JEPA…… 创企也在春节期间大秀生成式AI肌肉,并掀起一波融资小高峰。 美国AI创企Cohere推出覆盖101种语言开源大模型Aya;Stability AI推出了消费级硬件可训的文生图模型。基础设施创企Meter融资3500万美元,生成式AI创企Rasa融资3000万美元,GPU云服务商Lambda融资3.2亿美元;此外,AI数据提供商Scale AI、AI搜索引擎创企Perplexity AI、医疗AI创企Abridge等多家AI创企已经或马上获得融资。 在这个春节假期,国内外的生成式AI的应用和监管正在加速。 在国内,处于春节假期的产业玩家进展披露不多,但我国史上AI含量最高的央视总台春晚(《十年最好看春晚,史上AI含量最高!芯片硬核霸屏,机器臂转手绢,无人机秀阵法》)火速出圈;在国外,美国FTC提出新措施打击生成式AI伪造欺诈行为,欧盟通过AI临时协议并宣布于4月推《AI法案》,都让2024龙年春节假期成为生成式AI的重要时刻。 02.10~02.17春节8天假期间的全球AIGC产业要闻如下,enjoy~ 一、大年初一(2月10日) 1、传英伟达组建芯片定制新部门 智东西2月10日消息,据路透社今日报道,知情人士透露,英伟达正在建立一个新的业务部门,专注于为微软、Meta、谷歌等云计算公司以及爱立信、任天堂等其他公司设计包括AI芯片在内的定制芯片。 2、谷歌安卓版Gemini现支持手势和按键唤醒 据社交平台Threads网友Mishaal Rahman发文,谷歌于2月10日更新了安卓版Gemini,支持用户通过上划手势或长按电源键唤醒Gemini并自动发送查询。此前,用户只能通过“Hey Google”来调用Gemini。 3、微软Win11疑似将内置AI超级分辨率功能 据The Verge报道,微软可能正在为PC游戏开发类似英伟达DLSS的AI自动超级分辨率功能。社交平台X的一位用户2月10日发文分享了其在Windows 11最新测试版本系统中发现的这一功能。该功能被描述为“利用AI让游戏在细节增强的同时运行更流畅”,听起来类似英伟达的DLSS、AMD的FSR以及英特尔的XeSS。微软还没有正式官宣这一新功能。 二、大年初二(2月11日) 1、首个登上央视春晚的AI视频制作复盘发布 据微信公众号全民熊猫计划2月11日发文,创作者海辛Hyacinth和Simon阿文复盘了其制作的首个登上央视春晚的AI视频项目。该项目使用了开源社区中最新的技术ControlNet、AnimateDiff、LCM、IPAdapter,将一段真人双人舞用AI的风格转绘成陶瓷的舞蹈。 三、大年初三(2月12日) 1、2024年科技公司因转​​向AI而裁员3.4万人 据英国《金融时报》2月12日报道,今年截至发文日共有138家科技公司裁员,波及3.4万人。分析人士称,最新的裁员潮表明企业正在重新调整资源,以便投资于生成式AI等新领域,同时也向股东表明,企业仍在继续关注成本纪律。 2、Stability AI推出文生图模型 消费级硬件可训 2月12日,美国AI创企Stability AI推出了一个文生图模型Stable Cascade预览版。Stable Cascade基于大规模文本到图像扩散模型的高效架构Würstchen,易于在消费级硬件上训练和微调。为了让大家能够更方便地使用和定制这一模型,Stability AI还发布了相应的训练和推理代码,这些代码可以在GitHub页面上找到。 GitHub地址:https://github.com/Stability-AI/StableCascade 3、亚马逊推出10亿参数文本转语音模型 根据arxiv网站,亚马逊团队于2月12日推出一个名为BASE TTS的文本转语音(TTS)模型,它代表了大规模自适应流式TTS的崭新涌现能力。作为迄今为止最大的TTS模型,BASE TTS在10万小时的公共语音数据上进行了训练,从而提高语音自然度。其工作原理是通过一个拥有10亿参数的自回归转换器,将原始文本转化为离散代码(语音代码);接着,一个基于卷积的解码器以增量的、流式的方式将这些语音代码转化为波形。值得一提的是,模型的语音编码采用了新颖的语音标记化技术,该技术具有说话人ID解纠缠和字节对编码压缩的特点。团队发现,使用10K+小时和500M+参数构建的BASE TTS变体开始在处理复杂文本句子时展现出自然韵律。 论文地址:https://arxiv.org/pdf/2402.08093.pdf 音频生成样本地址:https://amazon-ltts-paper.com 4、谷歌承诺投2500万欧元 帮欧洲人学习用AI 据路透社报道,谷歌2月12日宣布承诺投入2500万欧元(约合人民币1.93亿元)帮助欧洲人学习使用AI,这笔款项已向社会企业和非营利组织开放申请,谷歌还将运营一系列“成长学院(growth academies)” ,帮助AI公司扩大经营规模。上个月,谷歌刚刚宣布将投资10亿美元在英国伦敦建立一个数据中心,以满足该地区日益增长的互联网服务需求。 5、巴基斯坦前总理用AI克隆声音拉拢支持者 据《纽约时报》报道,巴基斯坦前总理伊姆兰·汗(Imran Khan)近几个月来,一直在狱中使用AI复制自己声音的演讲来拉拢支持者。尽管在竞选期间,官员阻止他的候选人参加竞选活动,并审查对该党的新闻报道,但据当地时间周六的官方统计信息显示,与他的政党巴基斯坦自由党(Pakistan Tehreek-e-Insaf,P.T.I.)结盟的候选人赢得了最多席位。 四、大年初四(2月13日) 1、黄仁勋:AI开发用不了7万亿美元 据彭博社报道,英伟达CEO黄仁勋在当地时间2月12日于迪拜举行的世界政府峰会上表示,预计未来几年计算机技术的进步将使AI的开发成本远低于OpenAI CEO萨姆·阿尔特曼(Sam Altman)所要筹集的7万亿美元。黄仁勋说:“你不能只考虑买更多计算机,因为计算机的性能也在增强,所需总量不会有那么多。” 黄仁勋认为芯片行业技术进步将降低AI开发的成本,但同时他也在讲话中提到未来五年,全球范围内的AI数据中心建设投入将翻一倍,达到2万亿美元。 2、OpenAI董事会主席创办AI Agent创企 由OpenAI董事会主席布雷特·泰勒(Bret Taylor)创办的AI创企Sierra,2月13日正式在其官网推出面向企业的对话式AI平台Sierra,旨在让每家公司都能够构建自己的AI代理。Sierra代理可以使用自然语言和复杂的推理来创建真实、令人满意且符合品牌调性的对话互动。目前,已经有至少4家企业通过Sierra构建自己的AI代理。 3、英伟达发布Chat with RTX 英伟达2月13日发布AI聊天机器人Chat with RTX,可让用户个性化连接到自己GPT大语言模型 (LLM),支持文档、笔记、视频或其他数据等不同形式的内容输入。只需将应用程序指向包含文件的文件夹,它就会在几秒钟内将它们加载到库中。用户可以提供YouTube播放列表的网址,应用程序可以将加载播放列表中视频转录,让用户可以查询其涵盖的内容。 4、Cohere推开源大模型Aya 覆盖101种语言 美国AI创企Cohere 2月13日推出新生成性大语言研究模型 (LLM),涵盖101种不同的语言,是现有开源模型涵盖的语言数量的两倍多。开源Aya模型以及迄今为止最大的多语言指令微调数据集,其规模为5.13亿,涵盖114种语言。该数据收集包括来自世界各地的母语人士和流利使用者的注释。 5、欧盟通过AI临时协议 将于4月推《AI法案》 据路透社报道,欧洲议会的两个关键立法者小组2月13日批准了一项关于AI规则的临时协议,之后将拟定《AI法案》,于4月份的立法会议上进行投票,这将为世界上第一个关于AI的立法。该法案旨在为广泛行业使用的技术安全护栏,涉及范围从银行到汽车以及电子产品和航空公司等。 6、微软推出新AI系列解决方案 微软2月13日在其官网宣布推出Microsoft Fabric、ESG 价值链解决方案、Microsoft Sustainability Manager等新的AI解决方。这些方案可以帮助企业借助AI能力更好做出决策。比如说,用户可通过生成式AI和自然语言查询来更快地了解数据并从数据中获得分析结果。 五、大年初五(2月14日) 1、英伟达市值超过亚马逊 截至2月13日美股收盘时间,英伟达股价下跌2.15%,股价下跌0.17%,市值达到1.78万亿美元,超过亚马逊1.75万亿美元的市值。接下来,英伟达的市值即将超越Alphabet,有望成为全球第三大公司。 2、ChatGPT记忆管理功能本周上线 OpenAI 2月14日在其官网宣布,他们正在测试ChatGPT的记忆管理功能。该功能可以记住用户在所有聊天中所讨论的内容,也可以让用户不必重复输入信息,并对以后的对话更有帮助。本周OpenAI将向一小部分ChatGPT免费版和Plus用户推出记忆管理功能。 3、OpenAI创始成员Andrej Karpathy离职 据The Information报道,OpenAI创始成员之一安德烈·卡帕蒂(Andrej Karpathy)已离开公司。离职后,他正在开发一款AI助手产品,并与OpenAI研究主管鲍勃·麦格鲁(Bob McGrew)密切合作。“安德烈将离开去追求个人项目。我们对他的贡献深表感谢,并祝他一切顺利。”OpenAI发言人Kayla Wood在一份声明中表示。“他的职责已转变为与安德烈密切合作的高级研究员。” 4、首批Gemini AI用户反馈出炉 能力和GPT-4相当 据The Information报道,近日首批Gemini AI用户反馈Gemini Ultra的使用体验与GPT-4大致相当。Gemini Ultra所支撑的Gemini聊天机器人比GPT-4所支持的ChatGPT Plus的回答速度更快、回答内容更简洁、回答语句也更客观。此外,Gemini创意讲故事能力也令其中一些用户感到惊讶。 5、OpenAI董事会主席:新公司不对OpenAI构成竞争 据彭博社报道,OpenAI董事会主席布雷特·泰勒(Bret Taylor)在宣布成立AI创企Sierra一天后,驳斥了他的新公司可能与OpenAI产生竞争的担忧。泰勒在接受采访时表示:“我真的不认为OpenAI和Sierra具有竞争……我们存在于堆栈的不同层。我们是OpenAI的客户,此外还有其他一些基础模型。” 6、基础设施创企Meter获新融资 OpenAI CEO领投 互联网基础设施的初创公司Meter 2月14日表示,已在OpenAI CEO萨姆·阿尔特曼(Sam Altman)和Stripe早期员工兼著名投资者Lachy Groom领投的新一轮融资中筹集了3500万美元。该轮融资计划投资产品、供应链并发展团队。 7、生成式AI创企Rasa完成3000万美元融资 生成式AI创企Rasa 2月14日宣布完成3000万美元的C轮融资,由StepStone Group和PayPal Ventures、Andreessen Horowitz、Accel和Basis Set Ventures共同领投。Rasa主要做开放式生成会话AI平台,用于构建和提供下一级AI助手,目前已推出了Rasa Pro和Rasa Studio等生成式AI产品。 8、AI不能成为发明人 美国专利商标局发新指南 美国专利商标局(USPTO)2月14日在其官网发布了最新指南。它指出,AI系统不能被命名为发明人,但人可以在创造专利发明的过程中使用AI工具。使用AI的人必须对发明的构思做出重大贡献。一个人如果只是要求AI系统创造一些东西并监督它,则不能成为专利申请者。 9、Salesforce旗下Slack AI上线 根据Slack官网,美国SaaS龙头Salesforce子公司Slack于2月14日推出了Slack AI服务,能力包括:搜索答案,提供个性化的、智能的问题回答服务;从可访问的通道生成关键亮点回顾;一键从大量对话中获得议程总结。围绕Slack AI的一项内测分析发现,优步(Uber)和Anthropic等客户使用Slack AI来寻找答案、提炼知识和激发创意,平均每周可以为每位用户节省约97分钟时间。Slack公司CEO丹尼斯·德雷瑟(Denise Dresser)说:“在生成式AI时代,Slack是一个值得信赖的对话平台,它将企业的每个部分联系起来,从而提高团队的生产力。” 10、诺基亚推出面向产业工人的AI助手 据路透社报道,诺基亚2月14日推出了一款AI助手,名为“MX Workmate”,该助手可以为产业工人提供信息,包括基于实时数据的故障机器警告和提高工厂产量的建议方法。 11、Adobe推出AI Artbot 已避开AI版权风险 据彭博社报道,近日设计软件巨头Adobe推出新的AI Artbot,并且表明其解决方案将提供版权保护。Adobe首席营收官斯蒂芬·弗里德 (Stephen Frieder)表示,它正在与酒店、媒体和零售领域的数十公司进行试验,并指出品牌公司现在可以合法地改变照片背景,而无需重新拍摄。 12、OpenAI CEO号召建立国际机构监督AI发展 OpenAI CEO萨姆·阿尔特曼(Sam Altman)2月14日在迪拜举行的世界政府峰会(WGS)上通过视频电话表示AI的发展速度可能远快于世界的预期,他呼吁建立一个像国际原子能机构(IAEA)这样的机构来监督AI的发展。 六、大年初六(2月15日) 1、谷歌推出Gemini 1.5 突破100万个tokens 2月15日晚间,谷歌发布其大模型矩阵的最新力作Gemini 1.5。谷歌发布的第一个用于早期测试的Gemini 1.5模型是Gemini 1.5 Pro,这是一个中型的多模态模型,针对广泛任务进行了优化,其性能与谷歌迄今最大的模型1.0 Ultra相当,同时使用了更少的计算。该模型在长语境理解方面取得突破,能显著增加模型可处理的信息量——持续运行多达100万个tokens,实现迄今任何大型基础模型中最长的上下文窗口。这意味着Gemini 1.5 Pro可一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。 2、英伟达市值超谷歌成美股第三 截至美股2月14日收盘,英伟达股价上涨2.46%,市值达到1.83万亿美元(约合13.2万亿元人民币),超过谷歌母公司Alphabet的1.82万亿美元,成为美股第三大公司,仅次于苹果和微软。 3、谷歌被曝内部AI大语言模型Goose 据Business Insider 2月15日报道,泄露文件显示,谷歌悄悄推出了名为“Goose”的内部AI大语言模型,以帮助员工更快地编写代码,协助开发新产品,提高工作效率。Goose“在谷歌拥有25年的工程专业知识”,仅供谷歌员工使用,“可以回答有关谷歌特定技术的问题,使用内部技术栈编写代码,并支持基于自然语言提示编辑代码等新颖功能”。一份内部文件指出,Goose是“将AI带入产品开发过程的每个阶段”计划的一部分。目前还不清楚它是否功能齐全。Goose“还计划成为谷歌批准的第一个用于内部变成的通用大语言模型”。 4、英伟达首次公开Eos超级计算机 英伟达2月15日发布了一段视频,首次向公众展示了其最新的数据中心级超级计算机Eos。Eos在全球超级计算机500强中排名第9,是一款极大规模的英伟达DGX SuperPOD,开发人员可以在Eos上使用加速计算基础设施和完全优化的软件来实现AI突破。Eos超算采用576个英伟达DGX H100系统、英伟达Quantum-2 InfiniBand网络和软件构建,共有4608个H100 GPU,可提供总计18.4EFLOPS的FP8 AI性能。 5、GPU云服务商Lambda融资3.2亿美元 2月15日,GPU云服务商Lambda宣布完成3.2亿美元C轮融资,估值达15亿美元。本轮融资由美国创新技术基金(USIT)领投,新投资者B Capital、SK Telecom、T. Rowe Price Associates以及现有投资者Crescent Cove、Mercato Partners、1517 Fund、Bloomberg Beta和Gradient Ventures等参投。新融资将用于加速其GPU云的发展,确保AI工程团队能够通过高速英伟达Quantum-2 InfiniBand网络访问数千个英伟达GPU。 6、OpenAI CEO称7万亿美元代表的是投资总额 据The Information 2月15日报道,OpenAI CEO Sam Altman私下称其引起轰动的7万亿美元芯片筹资数额代表的是此类企业参与者在一段时间内需要进行的投资总额,包括从房地产、数据中心电力到芯片制造等等。 7、传OpenAI在开发网络搜索产品 据外媒The Information报道,据了解OpenAI计划的人士透露,OpenAI一直在开发一款网络搜索产品,这将使其与谷歌展开更直接的竞争。这位人士说,搜索服务将部分由必应(Bing)提供。 8、微软将投资32亿欧元建设德国AI基础设施 据彭博社2月15日报道,微软总裁Brad Smith在一场活动中宣布计划未来两年向德国AI基础设施投资32亿欧元。这笔资金是微软在德国最大的直接投资。 9、谷歌为AI团队开设巴黎研究中心 据彭博社2月15日报道,谷歌为其AI研究团队在法国巴黎开设了一个新的研究中心。新设施将容纳总共300名科学家和工程师,他们此前分散在巴黎的其他谷歌办公室。Alphabet及谷歌CEO Sundar Pichai周四与法国总统马克龙见面讨论了计划今年举行的法国AI峰会筹备工作等主题。 10、软银联合英伟达组建AI产业联盟 据外媒NHK报道,日本电信巨头软银正在与美国芯片制造商英伟达结成联盟,利用AI来改善无线服务,目的是开发可以在手机发射塔处理数据而无需依赖数据中心的技术。该组织将被称为AI-RAN联盟,成员包括主要移动传输设备供应商瑞典爱立信和芬兰诺基亚。消息人士称,数据处理的去中心化将允许在手机上提供更高级别的AI服务,该技术还将实现基站网络操作的自动化,允许基站自动适应数据量的变化并帮助网络避免延迟。 七、大年初七(2月16日) 1、OpenAI推出首款文生视频大模型Sora 2月16日凌晨,OpenAI推出其首款文生视频大模型Sora。该模型能根据提示词生成长达1分钟的视频,或者扩展生成的视频使其更长,同时视觉质量相当惊艳。Sora不仅对文本理解更深刻,能准确地呈现提示词,而且可在一个生成的视频中创建多个镜头,准确地保留角色和视觉风格。除了支持文本指令输入外,该模型支持生成图像,也支持将现有静止图像变成视频,能对现有视频进行扩展、将两个视频衔接并填充缺失的帧。其3D仿真能力非常突出,无论是制作短视频、动画、电影画面,还是渲染视频游戏,都展示出了令人期待的落地前景。 2、Meta发布世界模型早期版本V-JEPA Meta 2月16日推出V-JEPA模型,一种通过观看视频来教机器理解和模拟物理世界的方法,以迈向利用对世界的学习理解来计划、推理和完成复杂任务的AI愿景。Meta发布了一组V-JEPA视觉模型,这些模型使用自监督学习进行了特征预测目标的训练,能够在信息有限的情况下理解和预测视频中发生的事情。它通过在其内部特征空间中预测视频中缺失或模糊的部分来学习。与填充缺失像素的生成方法不同,这种灵活的方法可以使训练和样本效率提高6倍。结果表明,其顶级V-JEPA模型在kinect-400上成绩达到82.0%,在Something-Something-v2上达到72.2%,在ImageNet1K上达到77.9%,比肩或超过此前的领先视频模型。 GitHub地址:https://github.com/facebookresearch/jepa 论文地址:https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/ 3、苹果加紧开发AI功能 将推出AI编程工具 据彭博社2月16日报道,苹果正加紧开发更多AI功能,其为App开发者开发的一款关键软件工具即将完成,作为苹果旗舰编程软件Xcode下一个主要版本的一部分,计划最早于今年向第三方软件制造商发布。据悉,新系统的操作方式将类似于微软GitHub Copilot,使用AI来预测和完成代码块。苹果也在探索使用AI来生成测试应用程序的代码。 此外,苹果探索了自动创建Apple Music播放列表、Keynote制作幻灯片等AI功能,还考虑在其全系统搜索功能Spotlight的新版本引入大语言模型来回答复杂问题。苹果正持续磨练其大语言模型,以增强Siri和AppleCare支持等服务,并在将AI整合到其健康功能上投入了大量资金。 4、OpenAI申请“GPT”商标遭拒 据TechCrunch 2月16日报道,美国专利商标局拒绝了OpenAI申请“GPT”商标的尝试,裁定该术语“仅具有描述性”,不符合注册商标的标准,也不符合名称后加“TM”所提供的保护,因此无法注册。专利局指出,GPT已经在许多其他环境中使用,并被其他公司在相关环境中使用。这对OpenAI的品牌是一个打击。 5、OpenAI创业基金在Sam Altman名下 据Axios 2月16日报道,根据美国联邦证券备案文件,Sam Altman除了OpenAI CEO这个身份外,还是企业风险基金OpenAI创业基金的所有者。OpenAI创业基金于2021年底推出,主要投资其他AI初创公司和项目,但它不归OpenAI所有,而是由Altman合法拥有。 “我们希望快速启动,由于我们的结构,最简单的方法就是将其放在Sam的名字下。”OpenAI发言人告诉Axios,“我们一直希望这只是暂时的。”然而,这个“暂时”已经过去一年多了,这给OpenAI埋下了一个风险,OpenAI补充表示可能需要重新审查其治理结构,“在对基金进行任何变更之前进行”,其首要任务是“建立一个新的董事会”。 6、谷歌开源AI文件检测器Magika 谷歌2月16日开源AI驱动的文件类型识别系统Magika,以帮助更多人准确检测二进制和文本文件类型。Magika采用了一个定制的、高度优化的深度学习模型,即便在CPU上运行,也能在几毫秒内实现精确的文件识别。该工具已在谷歌内部被大规模使用,通过为Gmail、Drive和安全浏览文件规划到适当的安全和内容策略扫描器来帮助提高谷歌用户的安全性,每周平均处理数千亿个文件。与之前依赖人工规则的系统相比,Magika将文件类型识别准确率提高了50%。 GitHub地址:https://github.com/google/magika 7、谷歌宣布启动AI网络防御计划 谷歌2月16日宣布启动一项新的AI网络防御计划,以帮助改变网络安全,并利用AI来扭转被称为“防御者困境”的动态。其中包括一项拟议的政策和技术议程,该议程载于谷歌新报告《安全、授权、进步:AI如何扭转防御者的困境》。谷歌将其AI工具Magika开源,为检测恶意软件提供助力。 报告地址:https://services.google.com/fh/files/misc/how-ai-can-reverse-defenders-dilemma.pdf 8、周鸿祎:Sora意味着AGI实现缩短到1年 360集团创始人、董事长兼CEO周鸿祎分享一些观点,认为“今天Sora可能给广告业、电影预告片、短视频行业带来巨大颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具”。他谈到Sora的技术思路完全不一样,通过把大语言模型和扩散模型结合,实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的。一旦AI接上摄像头,把所有电影、YouTube和TikTok上的视频看一遍,对世界的理解将远远超过文字学习,“这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现”。周鸿祎相信OpenAI手里还藏有一些秘密武器。 9、FTC提出新措施 打击生成式AI伪造欺诈行为 美国联邦贸易委员会(FTC)2月16日发布一篇声明,就针对基于生成式AI工具的伪造欺诈行为的拟议处罚规则向公众征求意见,以确定修订后的规则是否应宣布企业(如创建图像、视频或文本的AI平台)提供其知道或有理由知道的商品或服务被用来通过冒充来伤害消费者是非法行为。FTC致力于利用其所有工具来检测、阻止和制止假冒欺诈,阻止欺诈行为,并确保受害消费者得到赔偿。 10、咨询公司Ankura推出生成式AI工具NoraGPT 据路透社报道,咨询和法务会计公司Ankura Consulting 2月16日表示已推出一款定制的生成式AI工具NoraGPT,该工具是与OpenAI合作开发的。NoraGPT正在Ankura的安全环境中使用,以确保员工和客户的数据得到保护。该平台具有类似人类的功能,如长期和“永久”记忆能力,这与Ankura自家AI解决方案相一致。它还将有助于文件管理。 八、大年初八(2月17日) 1、传OpenAI完成新交易,估值或超800亿美元 据《纽约时报》报道,据三位知情人士透露,OpenAI已完成一笔交易,使其估值达到800亿美元或以上,在不到10个月的时间里这家创企的估值几乎增加了两倍。知情人士称,该公司将通过风险投资公司Thrive Capital牵头的要约收购出售现有股份。 2、软银正为AI芯片项目寻求1000亿美元资金 据彭博社2月17日援引知情人士报道,软银集团创始人孙正义正在寻求高达1000亿美元的资金来资助一家芯片合资企业,以与英伟达公司竞争并供应AI必需的芯片。软银正在考虑向中东投资者筹集资金。该项目代号为Izanagi,孙正义希望这家芯片公司能与软银芯片设计部门Arm Holdings形成互补,帮助其打造一家AI芯片巨头公司。 3、OpenAI CEO正请求美国批准成立AI芯片公司 据彭博社2月17日报道,OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)制定了一项计划,从根本上增加可用于开发和操作AI的专用服务器的数量。知情人士称,过去几周,阿尔特曼一直在与美国、中东和亚洲的潜在投资者和合作伙伴会面,但他告诉其中一些人,如果没有华盛顿的批准,他就无法前进。据知情人士透露,阿尔特曼正在努力争取美国政府批准一项大规模合资企业,以促进AI芯片的全球制造。 4、训练GPT-3与130个美国家庭每年耗电量相近 据The Verge 2月17日报道,AI训练过程的能源消耗量极大,将比传统数据中心活动消耗更多的电力。例如,训练像GPT-3这样的大语言模型预计使用近1300MWh(兆瓦时)的电力,大约相当于130个美国家庭每年消耗的电量。如果流媒体播放一小时流媒体平台Netflix的视频需要大约0.0008MWh,这意味着用户需要观看超过162万小时视频才能消耗与训练GPT-3相同的电量。 5、神经搜索创企Jina AI推出8K长文本ColBERT模型 2月17日,神经搜索公司Jina AI宣布推出jina-ColBERT-v1-en,这是支持8K长文本的ColBERT模型,据了解,jina-ColBERT-v1-en效果可以比肩SOTA的ColBERTv2。目前,colbert和RAGatouille集成已上线。据悉,Jina AI于2020年2月成立,创始人肖涵曾就职于腾讯AI Lab,负责基于深度学习搜索项目研发。 试用地址:huggingface.co/jinaai/jina-colbert-v1-en 6、投资者热情高涨,多家AI创企获融资 据The Information报道,最近几周,投资者表现出了对AI创企的极大热情,初创公司也正在寻求资本化。据多位知情人士透露,AI高质量训练数据提供商Scale AI一直在与投资者讨论筹集更多资金的事宜;AI搜索引擎创企Perplexity AI收到主动报价,估值可能超过10亿美元;高通和Intuit已向AI创企Anthropic投入了一轮150亿美元的估值融资;医疗AI创企Abridge完成新一轮融资,投资后估值为8.5亿美元。 7、20家科技公司联合签署打击选举造假协议 2月17日,在慕尼黑安全会议(MSC)上,微软、Meta、谷歌、亚马逊、OpenAI等20家科技公司组成的集团联合承诺,在今年的选举中打击AI错误信息。微软、Meta、谷歌、亚马逊等公司共同签署了《2024年选举中打击AI欺骗使用的技术协议(A Tech Accord to Combat Deceptive Use of AI in 2024 Elections)》,该协议有八项具体承诺,包括承诺部署技术来对抗AI生成的旨在欺骗选民的有害内容;签署方承诺合作开发工具,以检测和解决此类AI内容等。它还包括一套广泛的原则,包括追踪与选举相关的欺骗性内容起源的重要性,以及提高公众对这一问题认识的必要性。 8、Reddit已签署价值6000万美元AI内容许可协议 据彭博社2月17日报道,知情人士透露,Reddit已签署一份合同,允许一家公司根据社交媒体平台的内容训练其AI模型。知情人士称,Reddit告诉潜在投资者,该公司已于今年早些时候签署了该交易,按年计算价值约为6000万美元。 9、加州议员提议成立新AI监管部门 据StataScoop报道,近日,加利福尼亚州参议员斯科特·维纳(Scott Wiener)提出了一项法案,他提议在加州科技部设立一个名为“前沿模型部门”的新办公室,负责加强AI执法,例如确保大型AI模型在到达用户之前进行强制测试。
每天还有几百人买万能充?他们都买来干嘛?
在所有中年人的青春里,都有一只万能充。 它在你的床头工作,为你的梦境增加七彩绚丽的灯光特效;在充电完成后,它甚至会响起刺破苍穹的音乐。 它无视手机品牌和电池型号,踏平正品机和山寨机的隔阂,只用两根小小触针,就能给现代生活持续注入能量。 曾经红极一时、人手一个的万能充,为什么不见了? 一代顶流万能充 总有人抱怨现在充电接头种类太多太麻烦,家里总得备好几根不同接口的充电线。 放到20年前,你怕是要疯! 20年前,国内手机市场风起云涌,涌入市场的手机品牌非常多,各家做的充电接口类型也不太一样。 那时你去别人家做客,要给手机充电,主人家可能会甩给你一捆各色充电线:喏,看看你的手机用哪条合适?(也可能最终也没翻出一条能匹配的) 来,选一根! 然后,一个当年的高中生出手了。 2002年,来自河南的陈同学不想再在一堆充电线里扒拉了,他决定制造一个适配所有手机的充电器。 从哪儿下手呢?有的手机充电口是长条形、有的是梯形、有的是圆形,没有什么形状的充电头可以适配一切充电口。 那就把手机电池抠下来,直接给电池充电! 当时手机电池可换,大家有用一块备一块的习惯。从这个思路出发,陈同学发明万能充解决了电池充电的问题。 2003年,万能充面世,立刻成了火爆一时的居家旅行必备品。 第一批出厂的几十万个万能充,在3天里就销售一空。后来生产万能充的工厂太多了,具体销量也无法准确统计,但普及程度不说一人一个,至少每家都有一个吧? 除了在国内流行,这小东西还远销海外,成了中国特产。 “我没买到合适的充电线,店员给了我个万能充,结果我再也没买过其他任何充电线。” “糟糕,被死去的记忆攻击了!我就用过这个,现在感觉自己老了。” “我朋友叫它‘螃蟹充电器。’”“现在我家某个地方还放着俩。”“我希望这东西还能用。” 话说回来,发明万能充的陈同学也过得不错,不仅申请了专利,还被保送进了清华大学。 消失得猝不及防 你回想一下,这个深受国内外群众喜爱的宝贝,是哪年开始消失的呢? 我说一个时间点:2007年。 那年,群魔乱舞的手机市场,出现了逐渐一家独大的手机品牌,就是现在的“街机”苹果。其中一个设计惊为天人:电池居然是不可拆卸的! 关于这么做的原因众说纷纭,有人说为了安全,有人说为了手机轻薄,有人说为了散热,还有人说为了防止山寨电池分一杯羹。咱们今天都不讨论,总之电池机身一体化的设计,很快就普及开来,并且渐渐垄断了市场。 你现在去商场想买可以拆电池的手机?抱歉,没有! 电池拆不出来,自然万能充也戳不到电池的正负极了,由此黯然退出世界舞台。 当然,除了电池不可拆卸外,还有很多因素导致万能充不再时尚。 第一,20年前,你也就用手机发个短信打个电话,出门都可以不带。现在的智能手机,几乎就是人的义肢,你能忍受抠下电池充电、几个小时不碰手机? 第二,就算你能忍受与手机的暂别,万能充也爱莫能助了。现在智能手机的电池容量,比20年前的手机大得多了去了,用原装的充电器,一个多小时可以充满电;如果用小功率的、针对老手机的万能充,可能得充上一整夜。充电速度还没耗电速度快,这就很尴尬了。 第三,随着手机市场的大半壁江山被几大品牌占领,手机接口形状也逐渐变少。你看街边的共享充电宝,一般来说拖3条尾巴,就可以应付一切手机了。 总之,在十几年的某一天,你再也记不起来家里的万能充放在哪儿了,也没有再去找过。 一息尚存 虽然万能充这个玩意儿,对00后、10后来说已经是古董,可能会被认成电蚊香、捕鼠夹,但实际上,它像珍稀动物一样,还在你难以发现的角落里生存着。 就在此刻,某购物软件上的一款万能充,销量6万,24小时内超过100人购买!你猜他们都买来做什么? 虽然一部智能手机能代替半数电器,但有人就是喜欢相机和CD。根据买家评论来看,有一大半的顾客是买来给相机和CD机充电的。好家伙,不说我都忘了这俩玩意儿还需要电池。 一部分怀旧的买家,用万能充给10多年前的手机充电,只为一睹当年收件箱里的情愫。你心动了吗? 一些难以归类的神奇用途…… 还有一些冒失又机智的年轻人把我搞不会了。丢了无线耳机的充电仓,直接用万能充和耳机充电触点“针尖对麦芒”,还真的管用! 最后还是要说点安全警示。 正规的、有3C认证的万能充是安全的,但野路子万能充容易用坏,短路后还有火灾风险,千万别用! 但就算用正规万能充,也要留意你的电池和电器,是不是有稳住充电电流电压的设定(在说明书里叫“限流保护”),有的话就能上万能充;要是没有的话,用几块钱的万能充搞坏了几百几千的电子产品,那就太得不偿失喽!
vivo“登顶”印度,一步之遥?
印度,一直是中国手机品牌的必争之地。 日前,Counterpoint Research发布的最新数据显示,2023年印度智能手机出货量为1.52亿部,与2022年持平,其中vivo成为增长最快的头部玩家,市场份额从15.8%涨至17%,与排名第一的三星仅有1%的差距。 这意味着,vivo向“印度一哥”之位发起冲击。 入“印”十年,vivo的日子过得到底怎么样?挑战三星,vivo胜算几何?问鼎“印度一哥”之路,vivo还将面临哪些挑战? 印度,vivo出海的“第一站” 据“人民网”报道,早在2014年,vivo创始人、总裁兼首席执行官沈炜亲自带队考察印度,考察团里除了vivo的高管外,还有与vivo合作的国内代理商,代理商们每到一处便和自己所负责代理的国内片区进行比照,凡是相似点较多的,就划为在印度拓展业务的区域。 之所以如此,与印度举足轻重的市场地位息息相关。 2023年4月,印度人口达到14.26亿人,一举成为世界人口第一大国,高基数之下顺势晋升为全球第二大智能手机市场。 更为重要的是,印度的潜力不可估量。 作为重要的新兴市场,印度的经济增长强劲,其财政部预计到2027年有望超过日本和德国成为世界第三大经济体,届时其GDP将达到5万亿美元,从而释放更大的消费潜力。 来源:中经数据 一名互联网观察人士告诉锌刻度:“中国企业早就预判了商机,不管是之前的‘中华酷联’,还是之后的‘华米OV’都纷纷涌向印度,谁也不愿意错过这块‘肥肉’。” 此背景下,三星首当其冲。 虽然,三星多年称霸印度智能手机市场,可市场份额却逐年缩水,2015年尚有30%的市场份额,2023年已降至18%,颓势肉眼可见。 与之对应的是,中国手机品牌崛起。 这其中,vivo并不是走得最快的一个,却稳打稳扎前行,不声不响逼近三星,大有取而代之的势头。 关于此,从其业绩也可见一斑。 据公开数据显示,vivo印度公司2023财年的销售收入为2987.49亿卢比,同比增长了9%,而净利润为21.1亿卢比,成功扭亏为盈;2016年4月1日至2023年3月31日,销售收入累计为1.4万亿卢比,净利润累计为38.7亿卢比。 需要注意的是,印度之外,vivo也在东南亚扎根站稳脚跟,成为马来西亚、印度尼西亚等国家智能手机市场排名前三的常客。 生根,比落地更难 vivo之所以起势,与本土化息息相关。 众所周知,出海容易落地难,比落地更难的是生根,这意味着要付出更多的智慧和心血,这是出海企业必须解决的棘手问题。 对此,vivo给出的解题思路是“More Local,More Global”。 入印之初,vivo的打法就与主流有所不同,没有采取门槛更低的合作方式,而是独自建厂、带领经销商铺设门店、从上至下聘用本土人才,以求更好地服务本土消费者。 据印度相关媒体报道,vivo的“印度制造”拟投入750亿卢比,按照计划2023年完成第一阶段350亿卢比投资,而当第二阶段投资完成之后,智能手机生产规模将接近其在中国的规模,并成为在印度投资最多的手机品牌之一,与韩国三星电子不相上下。 如此一来,vivo的竞争力也有了差异化。 对手们更侧重于线上,而vivo则更侧重于线下,其在印度拥有约7万家门店,90%销售通过线下渠道完成。 换而言之,其触角已深入印度的“神经末梢”。 更为关键的是,vivo精准迎合本土消费者,成功抢占经济型高端市场,才有了2023年的逆势增长。 Counterpoint Research的高级分析师瓦伦・米什拉:“智能手机市场的消费者购买模式发生了转变,消费者愿意花更多钱购买高质量的设备,以便延长使用寿命。” 高端手机逆势增长 通俗易懂地说,印度中产阶级的不断壮大,中高端消费市场也愈发兴旺,成为智能手机品牌的必争之地。 问题在于,中印两国的国情不同。 以2023年第三季度为例,中国手机市场智能手机均价为3480元,而印度市场为195美元,约1400元上下,即便如此也创了印度智能手机均价的历史新高。 一名业内人士告诉锌刻度:“高端化与经济性往往是对立的,可越来越多的印度消费者既渴望性能优异,又对价格敏感,vivo抓住了这个矛盾点,进而获得更多用户的青睐。” 譬如,在拓展高端客群方面,vivo没有盲目押注最新的旗舰机,而是抓住印度中产阶级的实际需求差异,围绕设计、影像、系统与性能,重点在线上推出T系列、在线下推出V29机型,双双成为销售的关键增长点。 vivo中央研究院院长胡柏山曾表示:“经营本质要求就是要跟踪用户需求变化,所以用户导向是企业一切的根本出发点,而创新也必然从用户导向出,只有这样企业才有生命力。” 不难看出,高端化成为智能手机行业的共识,但在不同国家不同地区高端化的内涵是不一样的,不能盲目套用“药方”。 从这个角度来看,2024年向三星发起挑战,vivo是有底气的。 竞争,又微妙起来 三星之外,vivo问鼎“印度一哥”之路还有其他挑战。 一方面,小米重新起势。 印度也是小米出海的“第一站”,好巧不巧同样是2014年起意的,可谓英雄所见略同,不过小米走得更快一些,早在2016年营业收入就超过10亿美元,一举成为印度最快创造该纪录的公司。 而三星,也曾是小米的“手下败将”。 2018年至2021年,小米一直是印度智能手机行业的“一哥”,如若不是2022年遭遇“黑天鹅”,也轮不到三星称王。 事实上,近年来印度频频“刁难”,外企无不噤如寒蝉。 为了破局,小米印度选择加码投资,并雇佣更多店员以增加就业机会,计划2024年底较2023年初增加两倍达到1.2万人,“经过多年对在线电商的大力押注后,小米将专注于提高印度零售店等线下渠道的销售额,以寻求重振智能手机销售。” 战略调整之后,小米显露了王者归来的迹象。 2023年第四季度,在印度智能手机市场,小米、vivo、三星的市场占有率分别为18.3%、17.3%、16.8%,竞争格局又微妙了起来。 图源:Counterpoint Research 另外一方面,荣耀重返印度市场。 随着荣耀元气复苏,扩张成为其关键词,遂进入更多海外市场:2023年上半年荣耀欧洲地区部出货量增长超过130%,中东非地区部出货量增长超130%,拉美地区部出货量增长超230%;其中,2023年前5个月的海外销量已经超过2022年全年的海外销量,预计2023年海外销量增长130%以上。 印度,自然也在荣耀的考虑之中。 有外媒报道,其计划2024年第一季度至第三季度在印度本土生产手机,并占据印度智能手机市场5%的销量份额。 随着新玩家的入局,印度智能手机市场更卷了,也存在分流的压力。 总而言之,印度市场既充满机遇也有不少挑战,2024年vivo全年反超三星悬念或不大,但小米等对手不容小觑,未来鹿死谁手尚犹未可知。 但可以确定的是,打铁唯有自身硬。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。