EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
首搭联发科天玑7350 Pro芯片,Nothing Phone (2a) Plus手机实物照曝光
IT之家 7 月 30 日消息,Nothing 公司计划 7 月 31 日发布 Nothing Phone(2a)Plus 智能手机,正式发布之前科技媒体 smartprix 提前分享了该机零售包装和灰色版实物图照片。 Nothing Phone (2a) Plus 外观与 Nothing Phone (2a)非常相似。泄露的渲染图显示,机身背面采用了银灰色金属漆,看起来像是 Nothing Phone 系列的新“exciting”颜色。 该手机与 Phone (2a)类似,也有三条 LED 灯。Nothing Phone(2a) Plus 的包装盒与 Phone (2a)几乎完全相同,当然,增加了“Phone (2a) Plus”文字。 Nothing Phone(2a) Plus 手机最大的亮点在于搭载联发科天玑 7350 Pro 芯片,联发科在官方渲染中表示该机配备了强大的处理器性能、迷人的显示屏和增强的功能。 IT之家此前报道,Nothing Phone 2a Plus 将配备 120Hz 刷新率的 6.7 英寸 FHD+ OLED 显示屏,外屏采用第五代大猩猩玻璃(Gorilla Glass 5)材质,峰值亮度 1300 尼特。 而在相机方面,这款手机有望配备“带 OIS 防抖的 50MP 广角主摄 + 50MP 超广角”双摄后置摄像模组;前置采用 50MP 像素自拍摄像头。 其他传闻中的功能包括该机将配备 5000mAh 电池、至高 12GB RAM / 256GB 存储空间、支持 NFC,IT之家汇总先前爆料及官方预热,整理手机规格参数如下: SoC:联发科天玑 7350 Pro 屏幕:6.7 英寸 FHD+ OLED 屏 RAM:12GB 存储空间:256GB 后置摄像头:50MP 广角主摄 + 50MP 超广角 前置摄像头:50MP 电池:5000 毫安时 售价:3 万印度卢比(IT之家备注:当前约 2606 元人民币)
不用FSD就不懂特斯拉?这位分析师听马斯克的差点撞车
特斯拉自动辅助驾驶系统 凤凰网科技讯 北京时间7月30日,在最近的两次特斯拉财报电话会议上,特斯拉CEO埃隆·马斯克(Elon Musk)反复表示,如果不亲自试试公司的“完全自动驾驶系统”(FSD),投资者就不会理解特斯拉。 于是,证券公司Truist Securities分析师威廉·斯坦(William Stein)听从了马斯克的建议,试驾了特斯拉的FSD,结果险些发生车祸。 “在我们前面的车只完成了一部分右转时,Model Y就加速穿过十字路口,”斯坦在周一发给客户的报告中写道,“我的快速干预是绝对必要的,否则就会发生事故。” 斯坦给予特斯拉股票“持有”评级和215美元的目标股价。现在,他对于特斯拉在10月份的自动驾驶出租车原型发布会上可能展示的东西“感到困惑”。马斯克上周表示,特斯拉决定将发布会推迟大约2个月至10月10日。 马斯克称正在部署新版FSD 12.5.1 今年4月初,在特斯拉第一季度财报电话会议之后,斯坦首次尝试了FSD,本月又体验了一次。他在第一次测试时写了一个好坏参半的评论,“非常好,但现在没有用”。他对第二次测试的总结为“没有变得更好,甚至可以说更差”。 斯坦的两次试驾都是在纽约郊区进行,天气晴朗干燥。在最新的测试中,FSD对车道封闭、坑洼和交通流量的适应能力给他留下了深刻的印象。他说,与第一次测试相比,第二次的驾驶“总体上感觉更自然”。 安全提示差 他表示,令人感到惊讶且表现不佳的是FSD对车主的放任。斯坦称,他不再需要用力拉动方向盘来保持FSD的启用,甚至在将目光从道路上移开时也能继续使用该系统。 “我完全把头扭向一边,视线离开道路,”斯坦写道,他补充说,他的儿子一直在留意着任何危险,“系统在20-40秒后才发出警告。” 斯坦说,除了上述干预以避免追尾一辆只完成了部分右转的汽车外,他还进行了一次干预,当时一名警察用手势示意他需要把车停到路边让一辆送葬队伍通过。 “最后,在我们的一段行驶路线上,高速公路弯曲而狭窄,车道之间有一条白色的实线,表明禁止变道,”斯坦写道,“即便如此,Model Y还是两次变道。” 距离自动驾驶还很远 斯坦的结论是,他测试的FSD版本“确实令人惊叹,但离‘解决’自动驾驶还差得很远”。他在这里引用了马斯克的话,后者一直表示特斯拉要解决自动驾驶问题。 随着电动汽车销售放缓,马斯克更加重视FSD和特斯拉人工智能业务。马斯克的言论帮助支撑了特斯拉股价。截至今年4月中旬,特斯拉股价已累计下跌逾40%。截至上周收盘,特斯拉股价下跌了12%,周一,在摩根士丹利将特斯拉列为美国汽车股的新首选股票后,特斯拉股价上涨。 截至发稿,特斯拉尚未就斯坦的报告置评。马斯克周一在X上发文称,特斯拉正在部署最新版FSD 12.5.1,该系统尚无法让特斯拉汽车实现自动驾驶。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
华为已是坐二望一,苹果将部分产能迁回中国,背后深层原因
文/王新喜 富士康在印度的产能大幅削减,继续转向国内,并在郑州投10亿建总部大楼。 而另据参考消息援引台湾“中时新闻网”报道,近几年苹果公司执行“去风险”与分散供应链的策略,将订单转向印度,但实际操作下来显然并不顺利。今年苹果已将部分产能转回中国大陆代工厂,比亚迪、立讯精密等大厂已加入iPhone 16供应链,成为苹果最新的代工伙伴。 而根据定焦数码消息,苹果对中国OEM供应商的分工也加强了,多了好几家屏幕总成、后盖、中框等OEM工厂的扶持,颇有洗牌的意味。 而苹果将部分产能迁回中国,暴露了印度代工的短板,同时也能看到华为施加给苹果的竞争压力越来越大,根据最新IDC数据,华为在国内市场份额已是坐二望一。 而如果仔细梳理,苹果将部分产能迁回中国,有5大原因。 首先是看到了印度全套供应链的短板,供应链短板影响了良率。 今年4月,苹果公布了其2023财年年度供应链名单。中国大陆工厂有155座,位居第一,中国台湾49座,位居第二。 接下来是日本、越南、泰国和新加坡分别是41座、32座,23座、23座,而印度仅有13座,排在马来西亚(18座)与菲律宾(16座)的后面。 在中国,苹果所需要的一系列元器件厂商几乎都有。尤为重要的是,中国有一个集聚型的产业生态链。苹果在中国的果链供应商,也大规模的分布在江苏、浙江以及广东省、河南省等。 大量的电子设备制造企业聚集在一个省份乃至城市,上下游形成了产业关联与聚集,中国强大的能源支持、原材料生产制造、交通与通信体系,缩短了物流运输、人工成本以及效率。这个能力,中国积累了40年。 但在印度并没有这样可以帮助苹果解决零部件成本与需求供给的配套产业生态链。而印度工厂与元器件厂商匮乏,大量零部件需要从中国进口。 这对于苹果来说,相当于中间多了一道无形的物流运输成本与进口关税成本,缺乏完整的供应链与集聚型的产业生态,意味着印度并没有帮助苹果真正降低生产制造成本,长期还将形成重大掣肘。 其二,大肠杆菌等卫生问题,是手机制造的大忌。 根据参考消息报道,苹果将部分产能转移中国的过程中,一个重大原因指向卫生管理(大肠杆菌超标)仍存在问题。 大肠杆菌是一种常见的肠道细菌,某些特定类型的大肠杆菌可以引起疾病。这些病原体通常通过污染的食物或水传播,导致食物中毒——相关症状包括腹泻、呕吐还有发热等,严重时甚至可能还会引发脱水和肾衰竭等问题。 而印度人喜欢在恒河里沐浴,但根据此前的一次监测数据,每100毫升的恒河水中,就有10万以上的大肠杆菌,这超过了世卫组织相关标准的500倍! 因此,对于印度人的卫生习惯(手抓饭)以及相关卫生标准来看,iPhone生产制造要绝对避免大肠杆菌,并不容易。而如果新生产的手机附带大肠杆菌,消费者是非常介意的。 而手机制造的卫生问题,不仅是大肠杆菌,还有无尘车间,比如做一个镜头的装配,要求是无尘车间,在国内,工人在为了保证手机镜头100%没有进灰,直接用16倍的放大镜来观察和检验,确保没有灰再出厂交付。 如果操作达不到专业标准,甚至有可能导致镜头等元器件进灰。去年iPhone15系列被某博主曝光摄像头进灰问题,曾经也引发了舆论风波。 卫生问题可能是印度产iPhone的一个令库克非常头疼的问题。 其三:高温天气与电力供给匮乏,限制了印度制造的产能。 俗话说,“热带地区无强国”,不是没有原因,今年夏天,印度曾一度突破50度高温,大量企业缺工业用水,并严重影响水力发电。 对于工业生产而言,稳定的水力、电力供应与强大基础设施是必不可少的条件。印度电力供给本身是短板,高温叠加制造业开工把用电需求拉满,导致电力供应不稳定、交通物流不畅等问题频发,也导致iPhone15系列的品控质量与生产受到了一定影响。 印度方面为应对国内“用电荒”现象,临时出出台了企业“限电令”,要求包括富士康在内的一众工厂企业,必须减少30%的生产用电量。苹果不得不将部分iPhone手机的订单从富士康转给了其他代工厂商。 其四:印度缺工程师,印度签证卡了自己脖子 一直以来,印度电子制造行业非常缺专业工程师,今天的iPhone又非常精密了,对组装良率要求很高,很多工序无法返工,产品组装不仅需要大量工人,更需要大量检测人员与工程师指导。 而苹果CEO库克早前就表示之所以在中国投资,并不是工资成本低,而是中国工程师数量众多,能满足企业在设计、技术、产品更新换代等方面的要求。 印度制造iPhone原本是需要中国工程师团队的,但自2020年之后印度以疫情等理由严格限制对华发放签证,直到今天仍未恢复。如果中国工程师想要办理印度商业签证,办理期高达3~6个月甚至15个月,而且很多办理签证的技术人员,是富士康准备派驻印度指导当地工人的工程师。 根据英国《金融时报》报道,印度过去两三年,拒绝核发商务或工作签证给多达数千名大陆工程师,包括苹果以及供应商鸿海在内的多家跨国公司,为了将供应链移出中国而赴印度投资设厂,常需依赖大陆籍技术人员,而印度严审签证严重影响了这一技术人才的转移过程。 而《印度简报》也指出,印度制造工厂很大程度依赖大陆的优质专业技术人员,但印度对华的签证政策,导致大量技术人员无法来印度现场指导,导致富士康印度工厂的良品率迟迟难以满足苹果的要求。 现如今苹果将部分产能转移中国,印度开始决定放宽对中国工人的签证,已经晚了,因为原本很多的中国工程师、技术人才是去印度跟进iPhone的订单,现在iPhone16回到中国生产,苹果部分产能回到中国,中国大陆的技术工程师团队自然需要在国内支撑不断上涨的生产需求。 当然,印度的问题还不止这些,制造业薄弱、工人懒散、效率差、本土营商环境以及政策朝令夕改,高关税等都是其中的原因。 五、苹果清醒看到了中国市场的商业诚信,而华为的竞争让苹果不敢大意 现在苹果意识到,主要制造业务还是靠中国来提供靠谱的供应链,印度组装iPhone供应印度是可以,但供应全球,还得靠中国。 而这背后另一个原因在于华为的竞争,苹果在大力投资印度、转移供应链的时候,欧菲光、歌尔、欣旺达等很多厂商,被华为带动而满血复活,此消彼长,对苹果在中国市场的供应链龙头地位越来越不利。 事实上,苹果剔除掉的中国果链厂商,放在印度本土,都是最强的,也是印度所奢求但却没有的。 手机制造质量的竞争本质就是供应链与组装能力的竞争,放着高品质供应链不用,退而求其次,并不是理性的商业决策。 而且在美国对包括华为在内一系列厂商制裁最狠的时候,中国也没有动苹果,这足以体现中国市场对外资的商业诚信,以及中国市场的开放性、法制性与商业土壤的健康性,苹果臆想中的种种地缘政治风险,其实是不存在的,反而是印度对外资的种种做法才真正充满风险。 而如今在与华为的竞争中,苹果在面临更大的压力,据IDC发布的最新手机季度跟踪报告显示,2024年第二季度,中国智能手机市场出货量同比增长8.9%,华为出货量暴增50.2%,市场份额从去年同期的13.1%,快速提升至今年二季度的18.1%,已经是坐二望一。 华为Mate70是华为解决芯片产能问题之后的一款重磅级产品,而iPhone16也是苹果寄予厚望的第一款AI手机,更不能轻率的交给印度。 如今的这场产能转移,印度也改了目标,之前说2027年40%-45%的iPhone在印度生产、2025年达到25%的目标,现改成了2028年25%。印度自己也意识到了大麻烦。 当然对于中印制造业之争,中国处于优势,也不能过于自大,印度不是我们的目标,我们的目标是比过去的自己更强,走好自己的路,践行开放战略,不断提升自己,不断攀升更高的目标,才是正途。 作者:王新喜 TMT资深评论人 
SpaceX要在澳大利亚回收星舰 涉及美国出口管制
星舰升空 凤凰网科技讯 北京时间7月30日,据路透社报道,三位知情人士称,埃隆·马斯克(Elon Musk)旗下SpaceX正与美国和澳大利亚官员进行谈判,计划在澳大利亚海岸着陆并回收一枚“星舰”火箭。随着美澳加强安全关系,这可能是SpaceX在该澳大利亚扩大业务的第一步。 自今年6月星舰首次在印度洋成功受控溅落以来,SpaceX一直渴望扩大其测试活动。助推器的成功着陆和回收是快速发展巨型可重复使用火箭的重要一环,这种火箭旨在将卫星发射到轨道并将宇航员送上月球。 SpaceX计划从美国得州的SpaceX基地发射星舰,让其在澳大利亚海岸附近的海域着陆,并在澳大利亚领土上回收。知情人士称,SpaceX要想获得这一许可,需要美国放松对出口到澳大利亚的精密太空技术的管制。不过,拜登政府已经寻求在AUKUS安全联盟内部放松类似限制,该联盟由美国、澳大利亚和英国组成。 知情人士称,最近几周,SpaceX高管与美国和澳大利亚官员讨论的重点是,让回收的星舰助推器在外国上岸面临的监管障碍。由于谈判仍在进行中,星舰在澳大利亚着陆的时间仍不清楚。 截至发稿,SpaceX、美国太空部队和澳大利亚航天局尚未就此回应。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
梅赛德斯-奔驰集团第二季度销售额367.4亿欧元,同比下降3.9%
IT之家 7 月 26 日消息,梅赛德斯-奔驰今天也交出了今年第二季度的“成绩单”。数据显示,集团第二季度销售额 367.4 亿欧元(IT之家备注:当前约 2884.02 亿元人民币),同比下降 3.9%,预估 372.2 亿欧元;第二季度息税前利润 40.4 亿欧元(当前约 317.13 亿元人民币),同比下降 19%,预估 39.9 亿欧元;第二季度净利润 30.6 亿欧元(当前约 240.2 亿元人民币),同比下降 16%,预估 29.3 亿欧元。 梅赛德斯-奔驰汽车第二季度的销量达到 496712 辆,环比增长 7%,得益于中国和美国产品供应量的提高。其中,顶级车型第二季度的销量与第一季度相比增长了 6%,但仍低于去年同期水平,这主要是由于车型更替和亚洲市场环境低迷所致。随着全新电动 G 级的推出,高端车型的供应情况继续改善。另外,AMG CLE53、AMG E53 和 AMG GLC43 车型也于第二季度开始销售。 中国市场方面,受价格战影响,梅赛德斯-奔驰在中国市场面临着不小的市场压力。多款车型相较于指导价都有十几万元的降价,降价幅度普遍在四成左右。 梅赛德斯-奔驰预计,下半年的单位销量将与去年持平,在所有全新 E 级和 GLC 车型全面上市以及高端汽车销量增长的推动下,2024 年下半年的整体销量将有所增长。
印度降低关税带动苹果iPhone降价,富士康首次考虑在该国组装iPad
IT之家 7 月 26 日消息,随着印度政府宣布手机进口关税从 20% 降至 15%,苹果也下调了 iPhone 系列手机在印度市场的价格,但仍远高于美国、中国等市场的价格。 其中,苹果 iPhone 13、14 和 15 系列机型降幅为 3000 卢比(IT之家备注:当前约 259 元人民币),而 iPhone 15 Pro 和 Pro Max 最高降价 6000 卢比,降价幅度约 3~4%。 此次降价标志着苹果当前一代 Pro 机型首次在印度降价,但仍旧非常非常贵,例如 iPhone 15 Pro 为 12.98 万卢比(当前约 11206 元人民币),Pro Max 为 15.4 万卢比(当前约 13296 元人民币)。 数据显示,2023 年印度 iPhone 出货量同比增长 39% 达到 920 万台,成为 iPhone 第五大市场。摩根士丹利称,印度的 iPhone 业务规模超过欧盟任何一个独立国家。 随着印度逐渐成为苹果重要海外市场之一,该公司正在不断扩大其在印度的投资。摩根士丹利的数据显示,苹果 2023 年在印度的营收同比增长 42%,达到 87 亿美元(当前约 629.52 亿元人民币)。 印度《经济时报》报道称,在 iPhone 降价的同时,苹果主要代工制造商富士康也已经在探索于泰米尔纳德邦工厂组装 iPad 的可能性,目前正与印度政府进行谈判。这标志着富士康印度在苹果代工生产行业中地位的提高,并反映出该公司对印度不断增长的供应链能力充满信心。
“专利战”再启:因知识产权侵权,中创新航遭宁德时代索赔
IT之家 7 月 26 日消息,IT之家从港交所披露易获悉,中创新航今日晚间公告称,公司于近日收到福建省福州市中级人民法院送达的民事起诉书。 诉讼基本情况如下:原告宁德时代新能源科技股份有限公司针对本公司及福州仓山埃安汽车销售服务有限公司(一家独立于本公司的汽车销售商)就 ZL201720968992.6 号实用新型专利(“涉诉专利”)提出的知识产权侵权索赔。 案件主要诉讼请求包括: 主张中创新航立即停止实施侵害原告涉诉专利权的行为,包括停止制造、销售和许诺销售侵害涉诉专利权的动力电池产品; (2) 主张福州仓山埃安汽车销售服务有限公司立即停止实施侵害原告涉诉专利权的行为,包括停止销售侵害原告专利权的产品; (3) 主张中创新航赔偿原告经济损失人民币 9200 万元; (4) 主张中创新航赔偿原告为制止侵权支出的合理费用人民币 30 万元。 中创新航方面称,目前公告涉及诉讼尚未开庭审理,无法院最终判决结果,亦不会对公司当前及未来的生产经营产生不利影响。公司将积极采取相关法律措施,保护公司合法权益,并切实维护公司和全体股东利益。 而在今年早些时候,由于涉及一项关于“防爆装置”的专利诉讼,中创新航及旗下子公司被要求停止侵权行为,并支付宁德时代 4157 万元赔偿。宁德时代自 2021 年 7 月起陆续针对中创新航提起五项专利诉讼,索赔总额高达 6.17 亿元。
苹果COO杰夫・威廉姆斯来华参观多家供应商,再度强调中国“果链”价值
IT之家 7 月 26 日消息,据界面新闻报道,苹果公司 COO 杰夫・威廉姆斯 7 月 25 日来华探访即将投运的深圳应用研究实验室,并参观了领益智造位于广东东莞的功能件及模组件生产工厂的数个智能制造产线及研发中心、富士康观澜工厂。 苹果官方数据显示,2023 年,占苹果全球 98% 供应链支出的 187 家供应商中,有 157 家在中国建有生产苹果产品的工厂。“这对我们作为一家公司来说是很重要的,没有我们在中国的制造业伙伴,是不可能做到的。”威廉姆斯表示。其中,有 70 多家主要供应商在广东布局了工厂,这决定了以深圳为中心的广东地区对苹果供应链的特殊意义。 威廉姆斯在参观富士康观澜工厂时提到,2007 年他曾亲眼见证初代 iPhone 在富士康的生产过程,因此 17 年后当他再次参观富士康观澜工厂时尤为感慨。“中国制造业的变化非常了不起,从一开始只是完成一些初级制造,到今天已经拥有了很多先进工艺。” 他表示,领益智造和富士康观澜工厂是两个非常典型的案例,过去的工人只能用马克笔在白板上写字、在生产线上进行大量重复性操作,但如今已经实现了非常高的自动化水平和智能制造水平。“过去数年内,苹果产品实现了很多新的技术发展。以 Apple Watch 为代表,很多产品的相关零部件制造工艺需要不断改进,耐受度和精密度也都要不断提升,这意味着合作伙伴的工程制造能力要跟上我们创新的步伐。我们非常高兴,看到他们确实做到了这一点。” 据IT之家昨日报道,苹果今年 3 月宣布扩大其在中国的应用研究实验室规模,包括提升上海研究中心的能力,并将于今年晚些时候在深圳开设应用研究实验室,深化与本地供应商的合作。苹果在深圳成立的应用研究实验室即将投入运行。该实验室的研究方向为 iPhone、iPad、Apple Vision Pro 等产品可靠性、质量和材料分析测试。 苹果已为其应用研究实验室投资超过 10 亿元人民币,并表示这一投资将继续增长。实验室帮助工程和设计团队测试原型、进行改进,并与供应商密切合作,帮助供应商提高效率、节省时间。
印度富士康首次拿下Pro订单:消息称苹果计划年内在印度组装iPhone 16 Pro/Max
IT之家 7 月 26 日消息,据 Moneycontrol,苹果计划通过富士康扩大在印度的生产线,包括即将推出的 iPhone 16 Pro 和 Pro Max 机型,这也是印度首次为 Pro 系列 iPhone 提供组装服务。 “苹果每年都在寻求与印度的合作伙伴深化其制造能力,而生产 Pro 机型是过去几年来一直在考虑的事情。今年,苹果将在印度制造 Pro 和 Pro Max 机型,以确保发布后在印度也能供应印度组装的 iPhone 16 Pro 机型。” ▲ iPhone 16 谍照 消息人士称,富士康位于泰米尔纳德邦斯里佩伦布杜尔的工厂将很快开始 iPhone 16 Pro 机型的“新产品导入”(NPI 流程),并在手机推出后进入量产阶段。 作为参考,苹果去年只有 iPhone 15 基础版机型是印度本土组装,且上市首日就为印度客户提供了印度产机型,后来又通过和硕科技为印度用户提供了 iPhone 15 Plus 的“国产机型”。 ▲ iPhone 16 渲染图 消息人士还表示,由于富士康拥有“广泛的能力”和“与苹果供应链的深度整合能力”,通常在新品制造方面享有优先权。 “在 iPhone 16 系列上市初期,Pro 和 Pro Max 机型可能会进口,但苹果将在本财年(IT之家注:截至 9 月 30 日)内提供印度本土制造的 Pro 机型,类似于它对 iPhone 15 Plus 所做的那样。” Counterpoint 数据显示,苹果目前在印度智能手机市场出货量占比仅有 6%,但 2023 年营收占比达 23%,超过三星的 21% 拿下第一。据称。苹果 2023 年在印度出货了超过 1000 万部 iPhone,高于 2022 年的 600 万部。 摩根大通分析师 2022 年表示,预计到 2025 年,苹果所有产品中将会有四分之一在中国以外地区生产,而当时这一数字为 5%。
谷歌AI一分之差痛失IMO金牌,19秒做一题碾压人类选手,几何AI超进化震撼评委
AI,已经斩获了IMO奥数银牌! 就在刚刚,谷歌DeepMind宣布:今年国际数学奥林匹克竞赛的真题,被自家的AI系统做出来了。 其中,AI不仅成功完成了6道题中的4道,而且每道题都获得了满分,相当于是银牌的最高分——28分。 这个成绩,距离金牌只有1分之遥! 609名参赛选手中,拿到金牌的只有58人 在正式比赛中,人类选手会分两次提交答案,每次限时4.5小时。 有趣的是,AI只用了几分钟便答出了其中一道,但剩下的问题却花了整整三天时间,可以说是严重超时了。 这次立下大功的,是两款AI系统——AlphaProof和AlphaGeometry 2。 划重点:2024 IMO并不在这两个AI的训练数据中。 其实,早在今年1月份,谷歌DeepMind的第一代AlphaGeometry就登上了Nature。当时,它做出了IMO 30个几何题中的25道。 AI工程师Devin背后创始人之一Scott Wu(IOI三枚金牌得主)感慨道,「当我还是个孩子的时候,奥林匹克竞赛就是我的全部。从来没有想过,仅仅10年后,它们就被AI解决了」。 今年的IMO竞赛上,共有六道赛题,涉及代数、组合学、几何和数论。六道做出四道,让我们感受一下AI的水平—— AI的数学推理能力,震惊评分教授 我们都知道,以前的AI在解决数学问题上一直捉襟见肘,原因在于推理能力和训练数据的限制。 而今天携手登场的两位AI选手,则打破了这种限制。它们分别是—— - AlphaProof,基于强化学习的形式数学推理新系统 - AlphaGeometry 2,第二代几何解题系统 两位AI给出的答案,由著名数学家Timothy Gowers教授(IMO金牌得主和菲尔兹奖得主)和Joseph Myers博士(两次IMO金牌得主、IMO 2024问题选择委员会主席),根据规则进行评分。 最终,AlphaProof正确做出两个代数题和一个数论题,其中一个最难的问题,在今年IMO中只有5名人类参赛者做了出来;AlphaGeometry 2则做出了一道几何题。 没有被攻克的,只有两道组合数学题。 Timothy Gowers教授在评分的过程中,也被深深地震撼了—— 程序能够提出这样一个非显而易见的解法,实在令人印象深刻,远超出我对当前技术水平的预期。 AlphaProof AlphaProof是一个能够在形式化语言Lean中证明数学命题的系统。 它结合了预训练的大语言模型和AlphaZero强化学习算法,后者曾自学掌握了国际象棋、将棋和围棋。 形式化语言的一个关键优势,就是可以对涉及数学推理的证明进行形式化验证。然而,由于人类编写的相关数据量非常有限,它们在机器学习中的应用一直受到限制。 相比之下,基于自然语言的方法尽管可以访问大量数据,但却可能产生似是而非、但不正确的中间推理步骤和解决方案。 为了克服这一点,谷歌DeepMind研究者通过微调Gemini模型,将自然语言问题陈述自动翻译成形式化陈述,建立了一个包含不同难度的形式化问题的大型库,从而在两个互补领域之间架起桥梁。 解题时,AlphaProof会生成候选的解决方案,并通过在Lean中搜索可能的证明步骤,来证明或反驳它们。 每个被找到并验证的证明,都被用于强化AlphaProof的语言模型,让它可以在后续解决更难的问题。 为了训练AlphaProof,研究者证明或反驳了几百万个问题,涵盖了从比赛前几周到比赛期间广泛的难度和数学主题领域。 在比赛期间,他们还应用了训练循环,通过强化自生成的比赛问题变体的证明,直到找到完整的解决方案。 AlphaProof强化学习训练循环的流程信息图:大约一百万个非正式数学问题由形式化网络翻译成形式化数学语言;接着,求解网络通过搜索这些问题的证明或反驳,并利用AlphaZero算法逐步训练自己,以解决更具挑战性的问题 AlphaGeometry 2 AlphaGeometry的升级版AlphaGeometry 2,是一个神经符号混合系统,基于Gemini的语言模型从头开始训练。 基于比上一代多了一个数量级的合成数据,它能够做出难度更高的几何问题,包括涉及物体运动、角度、比例和距离方程等等。 此外,它还采用了比前一代快两个数量级的符号引擎。当遇到新问题时,它会用一种新颖的知识共享机制,使不同搜索树的高级组合能够解决更复杂的问题。 在今年参赛IMO之前,AlphaGeometry 2已经战绩累累:它能做出过去25年IMO几何赛题中的83%,而第一代只能做出53%。 在这届IMO中,AlphaGeometry 2的神勇速度更是震惊了众人——在接收到形式化问题的19秒内,它就把问题4做出来了! 问题4要求证明∠KIL和∠XPY之和等于180°。AlphaGeometry 2建议在BI线上构造一个点E,使得∠AEB=90°。点E有助于确定AB的中点L,形成了许多类似的三角形对,如ABE ~ YBI和ALE ~ IPC,从而证明结论 AI的解题过程 值得一提的是,这些问题首先会被人工翻译成正式的数学语言,然后才会投给AI。 P1 一般来说,每届IMO试题中第一题(P1)相对来说,是比较容易的。 网友表示,「P1仅需要高中数学知识就够了,人类选手通常会在60分钟内完成」。 IMO 2024第一题主要考察了实数α的性质,并要求找出满足特定条件的实数α。 AI给出了正确答案——α是偶整数。那么,它具体是如何解答的呢? 解题第一步,AI先给出了一个定理,左右两边集合相等。 左边集合表示,所有满足条件的实数α,对于任何正整数n,n能整除从1到n的⌊i*α⌋;右边集合表示,存在一个整数k,k是偶数,实数α等于k。 接下来的证明中,分为两个方向。 首先证明右边集合,是左边集合的子集(简单方向)。 然后,再证明左边集合,是右边集合的子集(困难方向)。 直到代码结束时,AI提出了一个关键等式⌊(n+1)*α⌋ = ⌊α⌋+2n(l-⌊α⌋),使用等式来证明α必须是偶数。 最后,DeepMind总结了AI在解题过程中,依赖的三个公理:propext、Classical.choice,以及Quot.sound。 以下是P1的完整解题过程: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P1/index.html P2 第二题考察的是,正整数对(a,b)的关系,涉及到最大公约数的性质。 AI求解的答案是: 定理是对于满足特定条件的正整数对(a,b),其集合只能包含(1,1)。 AI在如下的解题过程中,采取的证明策略是,首先证明(1,1)满足给定条件,然后再证明这是唯一的解。 证明(1,1)是最终解,使用g=2,N=3。 证明如果(a,b)是解,那么ab+1必须整除g。 在这一过程中,AI使用了欧拉定理,以及模运算的性质进行推理。 最后,去证明a=b=1是唯一可能的解。 如下是P2的完整解题过程: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P2/index.html P4 P4是一道几何证明题,要求去证明一个特定的几何角度关系。 如上所述,这是由AlphaGeometry 2在19秒内完成答题,创新纪录。 根据所给的解决方案,与一代AlphaGeometry一样,所有解决方案中的辅助点都是由语言模型自动生成的。 证明中,所有的角度追踪都使用了高斯消元法(Gaussian elimination),d(AB)−d(CD)等于从AB到CD的有向角度(以π为模)。 解题过程中,AI会手动标注相似三角形和全等三角形对(以红色标注)。 接下来,就是AlphaGeometry的解题步骤了,采用了「反证法」去完成。 先用Lean完成需要证明命题的形式化,以及可视化几何构造。 证明中的关键步骤,如下所示。 完整解题过程参见下图: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P4/index.html P6 IMO第六题便是「终极boss」,探讨了函数的性质,要求证明关于有理数的特定结论。 AI求解,c=2。 先来看定理声明是,定义了「Aquaesulian函数」的性质,并声明对于所有这样的函数,f(r)+f(-r)的取值集合最多有2个元素。 证明策略是,首先证明对于任何Aquaesulian函数,f(r)+f(-r)的取值集合最多有2个元素。然后构造一个具体的Aquaesulian函数,使得f(r)+f(-r)恰好有2个不同的值。 证明当f(0)=0时,f(x)+f(-x)最多取两个不同的值,并证明不可能存在f(0)≠0的Aquaesulian函数。 构造函数f(x)=-x+2⌈x⌉,并证明它是Aquaesulian函数。 最后,再去证明对于这个函数,f(-1)+f(1) =0和f(1/2)+f(-1/2)=2是两个不同的值。 以下是完整解题过程: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/P6/index.html 能做奥数题,但能分清9.11和9.9谁大吗? 斯坦福大学和红杉的研究员Andrew Gao肯定了这次AI突破的意义—— 关键的是,最新IMO试题不包含训练集中。这一点很重要,说明AI能够处理全新的、未见过的问题。 而且,被AI成功解出的几何问题,由于涉及空间性质(需要直观思维和空间想象力),历来都被认为是极具挑战性的。 英伟达高级科学家Jim Fan则发长文表示,大模型是神秘的存在—— 它们既能在数学奥林匹克竞赛中获得银牌,又会在「9.11和9.9哪个数字更大」这样的问题上频频出错。 不仅是Gemini,就连GPT-4o、Claude-3.5、Llama-3都无法100%正确回答。 通过训练AI模型,我们正在探索超越自身智能的广阔领域。在这个过程中,我们发现了一个非常奇特的区域——一个看起来像地球,却充满诡异山谷的系外行星 这看起来很不合理,但我们可以用训练数据分布来解释: AlphaProof和AlphaGeometry 2,是在形式化证明和特定领域的符号引擎上完成训练。在某种程度上,它们在解决专业的奥林匹克竞赛问题更出色,即使它们基于通用LLM构建的。 而GPT-4o的训练集中,混杂了大量的GitHub代码数据,可能远远超过数学数据。在软件版本中,「v9.11 > v9.9」,可能严重扭曲了数据分布。因此,这个错误在某种程度上是可以理解的。 谷歌开发者负责人表示,能够解决困难的数学、物理问题的模型,是通向AGI的关键路径,而今天我们在这条道路上又迈出了一步。 另有网友表示,这一周信息量太大了。
美国多家科技巨头自揭家底:“AI竞赛已让我们无路可退”
财联社7月26日讯(编辑 赵昊)本周早些时候,Meta Platforms首席执行官扎克伯格在一档播客节目中表示,公司一直在囤积大量的英伟达芯片,以便开发和训练先进的人工智能(AI)模型。 扎克伯格承认,AI的热潮有可能已经导致了过度投资,“我认为,现在很多公司有相当大的可能在过度建设,未来回头看时会发现,我们可能都多花了数十亿美元。” 需要指出的是,他并不是科技巨头CEO中唯一一位表达了这种观点的人。在周三Alphabet的财报电话会上,公司首席执行官皮查伊也提到,公司可能在AI基础设施上投入过多,但他认为这一做法“别无选择”。 皮查伊说道:“当经历这样的曲线时,对我们来说,投资不足的风险要远远大于投资过度的风险。”昨日OpenAI官宣正在测试AI搜索功能“SearchGPT”,这一消息危及谷歌的核心业务,令Alphabet股价承压。 除了Alphabet,特斯拉也在电话会上强调了AI建设成本之高,可以预想到,下周微软、亚马逊、Meta等也会在财报中“抱怨”这一点。 本周早些时候,Meta推出了最新的开源大模型“Llama 3.1”,尽管公司投入了大量资金,但Meta依然坚持开源。这意味着,外部的开发人员可以免费访问这项技术。 对此,扎克伯格强调,开源能够促进完整的生态系统发展,并让行业中的各类模型都保持竞争、高效和开放。而从更长远的角度来看,开源会让AI变得更安全,让系统更加透明,可以受到广泛的审查。 扎克伯格在播客节目中说道,尽管成本高昂,公司在AI投资上仍然“做出了理性的决定”,“因为落后的代价是,你将会在未来10到15年最重要的技术中处于不利位置。” 红杉资本合伙人大卫·卡恩(David Cahn)在博客文章中评论道,“微软、亚马逊和谷歌之间的军备竞赛是博弈论式的。每次只要微软升级,亚马逊都会受到压力为了跟上而升级,反之亦然。” 来源:卡恩博客 卡恩在文章中贴出了一个“囚徒困境”的博弈结构图,并解释道,“云计算巨头们将AI同时视为‘威胁’和‘机会’,在技术发展期间他们没有喘息的空间,他们必须立即行动。” “微软、亚马逊和谷歌这三家公司的总市值超过了7万亿美元,他们的每次升级周期,都只有一个简单的理由,那就是‘我们有足够的钱负担得起’。”然后,这个循环就会自我强化。 周二,特斯拉CEO马斯克也提到,由于要开发Dojo超级计算机,这家电动汽车制造商对英伟达硬件的需求也非常高,“我们别无选择。英伟达方面自然也会把GPU的价格提高到市场恰好可以承受的水平。”
踢馆Llama 3.1 “欧洲OpenAI”发布开源新模型Large 2
Meta发布最新的开源大模型Llama 3.1还不到一天,法国AI初创公司Mistral就来踢馆——7月24日,Mistral发布了其全新的旗舰模型Large 2。 Mistral AI是一家成立刚满一年的法国AI初创公司,也是截至目前欧洲范围内资金最充足、最有竞争力的AI玩家,其核心成员来自Google DeepMind等顶尖AI机构,比如联创Mensch就是对Chinchilla等大模型论文的作者,提出了包括Scaling Laws(缩放法则)在内的核心技术。 2023年6月成立后仅4周,Mistral AI便靠6人团队斩获1.05亿欧元融资。公司专注在开源大模型的研发,被法国总统马克龙赞为“新一代欧洲初创企业与美国科技巨头竞争的典范”。 2023年12月,Mistral 曾发布名为Mistral 8x7B 的开源大模型,有560亿参数,效率和表现与LLaMA-65B旗鼓相当,在大模型界一炮而红。除此之外,该公司还对标ChatGPT,推出名为 Le Chat 的多语言对话助手(官网显示仍在测试阶段,需注册并申请测试资格),用于展示公司最新的技术能力。 Mistral表示,Large 2在使用Llama 3.1 405B不到三分之一的参数,即1230亿个参数的情况下,代码生成、数学和推理能力超过了前者,在生成响应时比其他领先的AI模型也更简洁,避免了过多的冗长描述。这意味着,Large 2在成本方面更具优势,开发者在本地运行也更迅速。 和Meta 的Llama 3.1一样,Large 2也没有上多模态能力,但对话的回应准确度和可靠性上,可以向Llama“以小博大”。Mistral表示,模型的幻觉问题是在Large 2的训练过程中的重点之一。此外,在指令遵循和对话任务、处理精确指令和长时间、多轮对话方面,Large 2也有所提升。 Large 2拥有128k上下文长度,可以在单次对话中接收约等于一本300页书的字符数。此外,Large 2还支持多种语言,能够处理包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语,以及80种代码语言。 图源:Mistral官网 需要指出的是,Mistral的模型并非传统意义上的开源模型,商用需付费。 目前,Large 2已经进驻了Google、Amazon、Azure和IBM的平台,为用户提供使用。用户也可以在Mistral的La Plateforme(简化AI应用开发的综合平台,提供预训练模型、数据处理工具和API接口)上通过“mistral-large-2407”体验,或在Le Chat上免费测试。 Mistral于今年6月完成B轮融资,共筹集了6.4亿美元,估值达60亿美元。此轮融资由General Catalyst领投,投资者还包括光速创投、安德森·霍洛维茨、英伟达、三星风险投资公司和IBM等。 Mistral AI目前约有60名员工,其中45名在法国,10名在美国,5名在英国。据《金融时报》报道,约四分之三的员工从事产品开发和研究工作。
国际奥委会:最大限度发挥AI工具影响力,体育人才选拔方式有望得到革新
IT之家 7 月 26 日消息,据新华社报道,在 24 日召开的发布会上,国际奥委会首席信息科技官伊拉里奥・科尔纳表示,已经确定了超过 180 个潜在的 AI 应用场景,要最大限度发挥它们的影响力。 据介绍,AI 工具可以在辨别体育人才方面展现价值 —— 通过相应技术,仅凭手机软件就能在世界任何地方“发现”新的体育人才。目前,国际奥委会与英特尔正共同开发相关定制化技术,旨在帮助各国和地区奥委会创新体育人才识别和投资培养方式,相关技术已在塞内加尔完成相应测试。 图源 Pexels 2026 年,塞内加尔即将迎来非洲地区首个奥林匹克赛事 —— 达喀尔青奥会。国际奥委会与英特尔、塞内加尔奥委会展开合作,在当地派驻一支体育科学专业团队进行项目试点。据悉,在参与此次项目的 1000 余名年轻人中,将有 48 名表现优异的年轻人通过相关测试选拔出来,被纳入塞内加尔奥委会主办的比赛项目,且未来有望成为奥运选手。 据IT之家此前报道,巴黎奥运会将大量采用中国 AI 技术,应用在赛事解说、360 度直播、视觉搜索等领域。将在巴黎奥运会上亮相的 AI 应用包括 360° 直播特效、黑白影像 AI 彩色修复、碳减排辅助等,由通义千问提供技术支持的首个(奥运领域)大模型应用也将上线,开放给国际奥组委官方解说员使用,辅助各项赛事解说。
大模型智障检测+1:Strawberry有几个r纷纷数不清,最新最强Llama3.1也傻了
继分不清9.11和9.9哪个大以后,大模型又“集体失智”了! 数不对单词“Strawberry”中有几个“r”,再次引起一片讨论。 GPT-4o不仅错了还很自信。 刚出炉的Llama-3.1 405B,倒是能在验证中发现问题并改正。 比较离谱的是Claude 3.5 Sonnet,还越改越错了。 说起来这并不是最新发现的问题,只是最近新模型接连发布,非常热闹。 一个个号称自己数学涨多少分,大家就再次拿出这个问题来试验,结果很是失望。 在众多相关讨论的帖子中,还翻出一条马斯克对此现象的评论: 好吧,也许AGI比我想象的还要更远。 路遇失智AI,拼尽全力终于教会 有人发现,即使使用Few-Shot CoT,也就是“一步一步地想”大法附加一个人类操作示例,ChatGPT依然学不会: 倒是把r出现的位置都标成1,其他标成0,问题的难度下降了,但是数“1”依旧不擅长。 为了教会大模型数r,全球网友脑洞大开,开发出各种奇奇怪怪的提示词技巧。 比如让ChatGPT使用漫画《死亡笔记中》高智商角色“L”可能使用的方法。 ChatGPT想出的方法倒是也很朴素,就是分别把每个字母写出来再一个一个数并记录位置,总之终于答对了。 有Claude玩家写了整整3682个token的提示词,方法来自DeepMind的Self-Discover论文,可以说是连夜把论文给复现了。 整个方法分为两大阶段:先针对特定任务让AI自我发现推理步骤,第二阶段再具体执行。 发现推理步骤的方法简单概括就是,不光要会抽象的思维方法,也要具体问题具体分析。 这套方法下,Claude给出的答案也非常复杂。 作者补充,花这么大力气解决“数r问题”其实并不真正实用,只是在尝试复现论文方法时偶然测试到了,希望能找出一个能用来回答所有问题的通用提示词。 不过很可惜,这位网友目前还没公布完整的提示词。 还有人想到更深一层,如果要计算文档中straberry出现多少次怎么办? 他的方法是让AI想象有一个从0开始的内存计数器,每次遇到这个单词就往上加。 有人评论这种方法就像在用英语编程。 也有AI可以一次做对 那么究竟有没有大模型,可以不靠额外提示词直接答对呢? 其实不久之前有网友报告,ChatGPT是有小概率能直接答对的,只不过不常见。 谷歌Gemini 大概有三分之二的概率能答对,打开“草稿”就能发现,默认每个问题回答三次,两次对一次错。 至于国内选手,在提问方式统一、每个模型只给一次尝试机会的测试下,上次能正确判断数字大小的,这次同样稳定发挥。 字节豆包给出了正确回答,还猜测用户问这个问题是要学习单词拼写吗? 智谱清言的ChatGLM,自动触发了代码模式,直接给出正确答案“3”。 腾讯元宝像解数学题一样列方程给出了正确答案(虽然貌似没有必要)。 文心一言4.0收费版则更加详细,也是先正确理解了意图,然后掰指头挨个找出了全部的“r”。 不过有意思的是,在同一种方法下,文心一言APP中的免费版文心3.5掰指头也能数错。 讯飞星火也通过找出“r”所在位置给出了正确回答。 还是token的锅 虽然“数r”和“9.11与9.9哪个大”,看似一个是数字问题一个是字母问题,但对于大模型来说,都是token问题。 单个字符对大模型来说意义有限,使用GPT系列的Llama系列的tokenizer就会发现,20个字符的问题,在不同AI眼中是10-13个token。 其中相同之处在于,strawberry被拆成了st-,raw,-berry三个部分来理解。 换一个思路用特殊字符ⓢⓣⓡⓐⓦⓑⓔⓡⓡⓨ来提问,每一个字符对应的token也就会分开了。 面对这种问题,其实最简单的方法就是像智谱清言一样,调用代码来解决了。 可以看到,ChatGPT直接用Python语言字符串的count函数,就能简单搞定。 刚刚创业开了所学校的大神卡帕西认为,关键在于需要让AI知道自己能力的边界,才能主动去调用工具。 至于教给大模型判断自己知道不知道的方法,Meta在LLama 3.1论文中也有所涉及。 最后正如网友所说,希望OpenAI等大模型公司,都能在下个版本中解决这个问题。
智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车
作者 | 香草 编辑 | 李水青 智东西7月26日报道,今天一早,大模型独角兽智谱AI正式发布视频生成工具清影,可支持文生、图生6秒时长的视频,即日起在PC端、手机App端以及小程序端面向所有C端用户免费开放。 先来看看效果,以下是几个官方放出的文生和图生视频案例,覆盖人像、动物、3D卡通等场景: 从Demo来看,清影的生成效果虽然相比Sora等还有一定进步空间,但就整体而言流畅度、运动幅度等都很不错,无论是人物表情、动作,还是光影变化、镜头移动,都没有明显的卡顿和突兀感,对运动幅度的把控也恰到好处,不会看起来像PPT也不会过于夸张。 此外,虽然生成是完全免费的,但生成视频需要排队,智谱AI提供了两种加速排队的订阅方式,包括5元加速1天、199元加速1年。 清影API今天也同步上线,企业和开发者都可以通过调用API的方式,体验并使用清影的文生、图生视频能力,据称这也是国内上线的首个视频生成API。 据智谱AI CEO张鹏解读,清影基于自研的底座视频生成模型CogVideoX打造,能将文本、时间、空间三个维度融合起来。该模型参考Sora算法设计,采用了DiT架构,相比前代CogVideo模型推理速度提升了6倍。 智谱AI成立于2019年6月,起源于清华大学计算机系知识工程实验室,专注于开发新一代认知智能大模型。一直以来,智谱AI以对标OpenAI全模型产品线为线索,陆续研发了包括文本、代码、图像、Agent等方面的自研模型和产品矩阵。此次发布基于CogVideoX的清影,使其大模型矩阵又扩充类一个模态。 值得一提的是,这也是国内做语言大模型起家的大模型独角兽,首次推出视频生成产品——之前这个赛道更多的是字节、快手等短视频大厂,以及爱诗科技、生数科技等专注于视频生成模型的创企。 清影具体有哪些特点?其底层模型在哪些方面做了创新?具体效果如何?智东西第一时间上手实测了一番,有以下几点发现: 1、简短的提示词效果更好,复杂指令下会丢失细节。 2、人手仍是重灾区,容易出现画面闪烁的现象。 3、生成很快,但加上排队等待时间仍达到1-2分钟。 4、相比图生视频,文生视频的稳定性更高。 当然,有限次的体验无法做到全面,也欢迎感兴趣的读者朋友,在评论区分享体验感受和新发现~ 一、半分钟生成6秒视频,复杂指令、内容连贯 清影主要有4个特点:生成速度快、复杂指令遵从能力强、内容连贯性高以及画面调度幅度大。 首先在生成速度上,清影AI据称可以在30秒内生成一段6秒、帧率16fps、分辨率1440*960的视频。 ▲实时演示视频生成(动图有加速) 其次,在复杂指令遵从能力上,智谱AI自研了视频理解模型,用于为视频数据生成高度吻合的文本描述,进而构建了海量高质量视频文本对,提升了指令遵循度。 ▲复杂指令演示 清影的第三个特点是内容连贯性,能够比较好地还原物理世界当中的一些运动的过程。 例如基于这张大家熟悉的杜甫画作,清影让杜甫不仅动了起来,而且非常自然顺滑地端起了一杯咖啡。 ▲内容连贯性 最后在画面调度方面,清影采用文本、时间、空间融合的Diffusion Transformer架构,可生成遵循特定运动规则的动态视频。 智谱AI豪迈地放出了几十个Demo,其中不乏有一些效果惊艳,比如这个:木头上长出两朵奇特的透明塑料花。 “透明塑料花”不是真实存在的,清影的想象力和审美在这个案例中得以展现。 再比如这个:比得兔开小汽车,游走在马路上,脸上的表情充满开心喜悦,全景画面。 清影绘制的兔子表情很丰富,没有出现五官扭曲的情况,前后景别还加了景深处理。 人像案例清影也拿捏住了,比如这个提示词:油画风格,美丽的少女侧颜,光透过树形成斑驳的影子,柔光落在她脸上。 整个画面光影对比鲜明,不过漏失了“油画”、“斑驳的影子”等细节。 二、实测上手有惊艳也有翻车,付费加速有些鸡肋 官方演示虽好,但清影到底好不好用,还是得自己试一下才能知道。打开清影网页端,可以看到有文生、图生视频两种功能。 ▲清影网页端 在文生视频中,我可以选择视频风格,包括卡通3D、黑白老照片、油画等;也可以选择情感氛围,包括温馨和谐、生动活泼、紧张刺激、凄凉寂寞等;运镜方式包括水平、垂直、推近、拉远四种。 在图生视频中,我可以为图片添加文字描述,如果不知道写什么也可以空着,或是让系统随机生成一个提示词。 ▲两种模式 首先我尝试了一组动物场景的提示词,第一个为:一只蓝猫在猫爬架上,正在吃主人递过来的芝士汉堡,情感氛围选择了温馨和谐。 可以看到,清影准确理解了提示词,整体效果还是很不错的。对于提示词中细节,包括猫的品种、汉堡的种类以及“递过来”的动作等,都表达得比较精准,人手也没有翻车。 第二个提示词为:一只橘猫把鼠标推下桌子,情感氛围为生动活泼。 这次清影表现得一般,鼠标上莫名其妙拴了一只小老鼠就算了,“推下桌子”的动作也是完全没有体现。 前两个提示词都属于写实场景,第三个提示词则有些“魔幻现实”:一只白猫在车里驾驶,穿过繁忙的市区街道,背景是高楼和行人,情感氛围为紧张刺激。 清影对于这个提示词的理解和呈现都还比较准确,背景中动态场景的运动幅度、一致性也比较高,但是稳定性还有所欠缺,画面会出现抖动的情况。 第二组提示词我尝试了人物场景。首先来试试经典的吃面:一个男人坐在桌边吃面条,情感氛围为凄凉寂寞。 在这个经典难题上,清影的表现还算可以,乍一看没什么错误。但细看之下,男人吃面的餐具用的是勺子,面条的形态也有些僵硬。 第二个提示词是:一个女孩坐在米色沙发上,专心地用钩针勾着一顶浅蓝色帽子,情感氛围为温馨和谐。 这条提示词中我加入了色彩的细节,清影都准确地表现了出来。女孩的钩织动作也比较真实,就是人手非常“鬼畜”。 第三个提示词为:漂亮的水色瞳孔特写,写实风格,超清,情感氛围为凄凉寂寞。 清影生成的视频基本上满足了我的预期,不过在特写镜头下,人物的皮肤和毛发都显得有些“油腻”。 最后我尝试了让清影自己生成提示词,它直接整了这么长一段:雨天的咖啡馆,以窗户为媒介拍摄一个英式咖啡馆内部,要清晰的拍摄咖啡馆内部,捕捉咖啡馆内的温馨氛围,然后变焦,对焦在雨滴拍打的窗户上。细节上,注意捕捉顾客们的交谈和笑容,以及雨水在窗户上形成的光影效果,营造出舒适而宁静的氛围。 结果很遗憾,清影自己给自己挖了个坑,生成的不能说是视频,称之为动图都有些为难。画面仅仅是平移放大了一圈,也没能体现提示词中的大部分内容。 体验完文生视频后,我又尝试了图生视频。 首先在上传图片时,清影会提醒我对图片进行裁切,且只能裁成进行固定比例的横图,这就造成了一定的局限性。上传图片之后,我输入提示词:花瓣在风中摇动。 生成效果还是比较准确的,不过这个提示词本身的难度也不算大。 接着我上传了一张静物图,这次没有输入提示词,看看清影会如何自由发挥。 这张图上有很多独立的物体,清影并没有让它们整体运动而是为每个“小团子”添加了不同动态,整体画面比较生动活泼。 第三张图我上传了一张戴着墨镜的人像,提示词为:男孩把墨镜摘下来。 这个提示词的难度很大,而且涉及到“无中生有”的部分。清影成功表现了“摘墨镜”这一动作,不过摘了是摘了,但没完全摘,墨镜还在人脸上挂着,视频后半段还出现了人体不自然的扭曲。 如果不要求它凭空生成人脸又会如何?我有上传了一张举着摄像机的人像照片,提示词改为:男孩转身面向镜头。 结果这次清影反而整了个人脸出来,就是没有眼白有些吓人……不过忽略脸的话,这次生成的效果转身幅度更大,人物的头发也随风飘动,就是他手中的器材变了个模样,人手也有些不自然。 一番体验下来,清影生成视频的效果有的惊艳到我,比如第一个小猫吃汉堡的例子,文字理解十分准确;也有的翻车严重,比如咖啡厅、橘猫的例子中,失误都比较大。 整体来看,清影在生成速度上确实比较快,虽然较宣传的30秒还有些偏差,但差不多1分钟左右就能生成视频;在运动幅度、语义理解等方面,会比较看运气,不过这也是所有视频生成工具的通病。与市面上其他公开可用的工具相比,清影在生成时长、清晰度方面还有一定的进步空间,不支持画面比例的选择也是一大遗憾。 值得一提的是,清影目前的视频生成是完全免费的,不需要会员订阅也没有数量限制。不过在排队生成的过程中,清影提醒我可以加速。点击加速的按钮,可以看到它提供了两种订阅方式:5块钱加速1天,或是199元加速1年。 ▲加速排队 该说不说,这个价格还是很实惠的,但为啥我加完速排队时间一点也没减少呢……唯一的变化就是,从“排队中”变成了“加速排队中”。可能费用太便宜了,大家都加速就相当于没加速吧(doge)。 三、自研端到端视频模型,首个API同步上线 清影基于智谱AI自研的底层模型CogVideoX打造,具有内容连贯、可控性高等特点。 在内容连贯性方面,智谱AI自研了一个高效的三维变分自编码器结构,称之为3D VAE。它能够将原视频空间压缩至2%的大小,大大减少视频扩散生成模型的训练成本和难度,再配合3D RoPE(旋转位置编码)模块,有利于在时间维度上捕捉帧间关系,建立食品中的长程依赖。 在可控性方面,智谱AI自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述文本,从而增强模型的文本理解和指令遵循的能力,使生成视频更符合用户的输入,理解超长的复杂指令。 在模型结构上,CogVideoX采用了将文本、时间、空间三个维度全部融合起来的Transformer架构,摒弃了传统的交叉注意力(Cross-Attention)模块,将文本和视频两个不同模态的空间进行对齐,能够更好地进行模态交互。 ▲CogVideoX特点 张鹏称,在CogVideoX的研发过程中,智谱AI有一次验证了Scaling Law在视频生成方面的有效性和可靠性,未来团队会在继续扩大数据规模和模型规模的同时,寻找更具突破式创新的模型架构。 智谱AI又一次实现了对OpenAI全模型产品线的对标。 ▲智谱AI对标OpenAI全模型产品线 在算力方面,清影是在北京亦庄AI公共算力平台上训练而来的。数据层面,智谱AI与Bilibili、华策影视等进行了合作。 张鹏谈道,虽然视频生成模型才刚刚起步,但已经受到了很多产业和客户侧的需求,涉及电商产品宣传、影视特效等领域。 今天起,清影AI也同步在智谱AI大模型开放平台上线了API,企业和开发者都可以通过调用API的方式体验并使用CogVideoX的文生、图生视频能力,据称这也是国内上线的首个视频生成API。 随着清影能力的加入,智谱AI旗下的AI助手清言App在功能的全面上再下一城,覆盖对话、生图、代码、Agent和视频。 智谱AI还准备了一个One more thing——视频生视频能力。不过准确来说,这相当于是一个手动视频生视频的能力:基于智谱AI近日开源的视频理解模型CogVLM2-Video,用户可以上传视频并提取出详细的文字描述,再将文字输入清影,实现“视频生视频”的效果。 ▲视频生视频 结语:又一强力玩家入局AI视频生成 Sora发布后,AI视频生成迎来“第二春”,无论是技术、产品的迭代,还是资本市场的关注,都达到了新的高度。光是本周,就有快手宣布全球上线、爱诗科技发布第二代模型,以及今天智谱AI入局等重磅进展。(视频生成大战2.0!大厂狂卷底层模型,创企5个月吸金44亿) 不同于此前的文本、图像模型赛道,国内长期处于追逐OpenAI等海外企业进展的状态。在视频生成领域,国内的大厂、创企在短短几个月内实现弯道超车,不仅打磨出了高质量的底层模型,而且个个公开可用甚至免费,给至今仍是期货的Sora上了一课。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。