EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
腾讯混元放出AI“终极P图神器”,网友们玩疯了
智东西 作者 | 王涵 编辑 | 云鹏 智东西1月28日报道,今天,腾讯混元图像3.0图生图版本正式开源。在最新的LMArena图片编辑榜单上,腾讯混元图像3.0图生图位列全球第七,也是前七名里面唯一开源的模型。 LMArena图片编辑榜单(来源:LMArena) LMArena官方X祝贺混元图像3.0图生图“在图片编辑榜单中与Nano-Banana和Seedream-4.5等表现相当”。 LMArena官方祝贺推文(来源:X) 混元图像3.0图生图支持增、删、改、风格变换、老照片修复、人物与文字修改等图片编辑功能,还可以将多张照片中的元素提取出来合成新图片。 1月26日,该模型在元宝上线,已经被网友玩出“花”了: 智东西也第一时间上手体验,发现该模型可以保持前后素材元素风格的一致性,对照片细节把握准确,思考响应速度也较快,可玩性确实很高。 混元图像3.0图生图开源页面(来源:Hugging Face) 开源地址: Github: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0 Hugging Face: https://huggingface.co/tencent/HunyuanImage-3.0-Instruct Hugging Face(蒸馏版): https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil 一、融合理解、推理与生成:混元图像3.0图生图“先思考后编辑” 据官方介绍,混元图像3.0图生图采用混合专家原生多模态架构,总参数规模达80B,激活参数约13B。 训练过程中,混元团队构建了千万量级的图生图数据,覆盖80多个任务,并注入了思维链数据,使模型能够学会先分析用户图像和意图,再输出详细编辑指令。 后训练阶段则采用自研MixGRPO算法,对齐用户偏好,大幅提升了指令响应和非编辑区域保持一致的效果。 混元图像3.0图生图架构 在多模态方面,混元图像3.0图生图版本基于混元图像3.0的原生多模态架构构建,将文本理解、视觉理解与图像生成融合于同一模型中。 作为原生多模态模型,混元图像3.0图生图核心创新在于其“先思考,后编辑”的工作流程。 当接收到用户输入的图片和提示词后,模型会首先理解图像内容,然后基于提示词进行推理,确定需要编辑的区域、详细步骤以及需要保留的区域,最终形成更加详细的编辑指令。 混元图像3.0图生图思考过程 混元图像3.0图生图支持增、删、改、风格变换、老照片修复、人物与文字修改等图片编辑功能,还可以将多张照片中的元素提取出来合成新图片。 对于普通用户,该模型可用于制作表情包、虚拟人物合拍、社交分享等日常场景。对于专业用户,它能够助力电商海报设计、游戏角色定制、创意图片制作等专业领域,提升创作效率。 二、体验混元图像3.0图生图:一句话快速P图、一键实现产品实穿效果 1月26日,混元图像3.0图生图版已经上线元宝,可以在元宝中直接对话使用。 智东西第一时间上手体验,发现该模型可以保持前后素材元素风格的一致性,对照片细节把握准确,思考响应速度也较快。 例如,我们上传一张《蒙娜丽莎的微笑》的图片和一只小猫的照片,让元宝把这只小猫P到蒙娜丽莎的怀里: 不到一分钟,元宝就完成了P图,P后的图片中的小猫元素和蒙娜丽莎与原图保持一致,且手臂部分的前后透视关系也十分准确。 我们还可以让元宝给我们换一套妆造,替我们去颐和园滑冰: 可以看到,仅凭借“颐和园”三个字,该模型就准确地生成了颐和园的佛香阁作为背景。冰面的裂纹和在冰上滑冰的人群都十分逼真。 此外,在电商领域,用户还可以直接用元宝生成产品图。该模型可以参考指定风格,快速生成所需的电商海报,且可以自由更换海报背景: 用户还能直接将产品合成到模特身上,生成自然真实的产品上身效果图,能够大幅减少电商设计的工作量: 结语:腾讯混元开源家族再壮大,“视觉生成时代”加速到来 据腾讯混元官方分享,截止目前,腾讯混元的图像、视频衍生模型数量总数达到3000个,视频模型社区下载量超过500万,混元3D系列模型社区下载量超过300万。 混元图像3.0图生图模型的开源,在壮大了腾讯开源家族的同时,也为全球开发者社区提供了一个图像生成的新选择,或许将加速AI图像编辑向更广泛日常应用的落地。 一个功能更全面、创作更便捷、人人可参与的视觉生成时代正在加速到来。
2000亿!孙正义要投出AI史上最大单笔融资
编译|万贵霞 编辑|云鹏 智东西1月28日消息,据彭博社和《华尔街日报》最新披露,软银集团正与OpenAI洽谈一笔最高达300亿美元(约合人民币2083.8亿元)的追加投资。 外媒提到,如果这笔交易最终落地,这将成为全球AI领域迄今规模最大的单笔融资之一,也意味着孙正义正在把几乎所有筹码压向OpenAI。 消息传出后,软银昨天的股价一度飙升8.8%,随后涨幅收窄,今天在东京交易时段上涨约3.7%。 软银最新股价(来源:谷歌财经) 与此同时,OpenAI也在产品层面持续加速,OpenAI昨天发布了一款面向科研人员的全新AI工具Prism,试图将ChatGPT从“通用助手”升级为“科学发现的基础设施”。 昨天,OpenAI发布上线Prism工具的公告(图源:OpenAI官网) 日本股票策略师Amir Anvarzadeh说,“孙正义显然已经孤注一掷,把所有筹码都押在了ChatGPT上。” 一、300亿美元追加投资,孙正义快要把OpenAI变成“第二个Arm” 根据多位知情人士的说法,软银目前正在评估向OpenAI追加投资至多300亿美元的可能性,相关谈判仍在进行中,最终金额和条款尚未敲定。 如果这笔交易完成,软银在OpenAI的持股比例将进一步上升。去年12月,软银刚刚向OpenAI投资225亿美元(约合人民币1562.8亿元),持股比例提升至约11%,一跃成为OpenAI最大的外部股东之一。 据昨天《华尔街日报》报道,这轮追加投资是OpenAI更大规模融资计划的一部分,该公司正试图从全球投资者手中筹集500亿(约合人民币3473.0亿元)至1000亿美元(约合人民币6945.9亿元)资金,目标估值高达7500亿至8300亿美元(约合人民币5.2万亿至5.8万亿元)。 OpenAI正在考虑进行首次公开募股(IPO),并计划从中东主权财富基金(Middle Eastern sovereign-wealth funds)和其他风险投资基金筹集资金。该公司现有投资者包括Thrive Capital、Khosla Ventures和阿联酋基金MGX。 对软银而言,这不仅是一笔财务投资,更是一次战略押注。过去几年,孙正义反复强调“AI将重塑一切产业”,而OpenAI被他视为最有可能站在这场变革核心的公司。 为了筹集足够资金持续加码OpenAI,软银正在进行一系列激进的资产调整。 《华尔街日报》报道中提到,为了筹集资金投资OpenAI,软银已将其持有的英伟达的股份以58亿美元(约合人民币402.9亿元)的价格出售。同时,软银减持了T-Mobile等资产,并利用Arm股票进行融资操作。 此前,软银还暂停了对美国数据中心运营商Switch的收购谈判,将资金集中投入AI相关项目。 过去一年里,软银在AI和自动化领域的投入明显提速:斥资65亿美元(约合人民币451.5亿元)收购美国芯片设计公司Ampere Computing;以54亿美元(约合人民币375.1亿元)收购ABB(ASEA Brown Boveri)的机器人业务;持续加码OpenAI。 软银之前的投资情况(图源:软银官网) 此外,标普全球(S&P Global)评级机构已经发出警告称,软银在AI领域的激进投资,叠加Arm股价波动,正对软银的信用评级构成压力。如果OpenAI的估值在软银资产结构中占比过高,可能进一步放大投资组合风险。 彭博社的行业研究员提到,如果软银集团向OpenAI追加投资300亿美元,其BB+信用评级可能面临下行压力。在计入尚未完成的交易、并假设软银当前持有的OpenAI股权被重新估值上调的情况下,软银的贷款价值比(LTV)可能触及35%的评级下调触发线。 为将披露口径下的LTV控制在25%以下,该交易很可能需要软银通过出售资产及动用保证金贷款等方式筹集至少150亿美元(约合人民币1041.9亿元)资金。 与此同时,软银的投资组合风险将进一步上升。按1月27日Arm股价计算,OpenAI的估值有可能超过Arm,成为软银最大的单一持股,其占软银整体资产价值的比重或将超过30%。 日本股票策略师Amir Anvarzadeh说,随着谷歌Gemini、Anthropic等模型快速追赶,ChatGPT的领先优势正受到更大挑战。 “从竞争角度看,OpenAI的前景已经不像一年前那样毫无悬念。”但他同时提到,“孙正义显然已经孤注一掷,把所有筹码都押在了ChatGPT上。” OpenAI自身也面临着一个现实问题:烧钱速度极快,模型训练需要巨额算力、推理成本持续攀升、顶尖研究人员的争夺愈发激烈。 二、Prism亮相:OpenAI把AI推进“科研工作流” 就在融资消息发酵的同时,OpenAI在产品层面也释放出一个重要信号。 1月27日,OpenAI正式推出了一款名为Prism的免费工具,定位为面向科学家的AI工具,任何拥有ChatGPT账户的用户均可免费使用。 Prism工具界面(图源:OpenAI官网) 与传统聊天界面不同,Prism更像是一个“AI增强型科研写作与协作平台”:基于GPT-5.2模型、原生支持LaTeX、可用于论文写作、修改、文献检索、支持多人协作,能将手绘草图快速转化为规范图表。 OpenAI官方说,Prism并不是要取代科学家,而是加速他们的工作流程。公司高管将其类比为科研领域的“Cursor或Windsurf”,即深度嵌入工作流、显著提升效率的工具。 现在,AI的发展越来越面向垂直场景应用。 OpenAI及其竞争对手,如谷歌的DeepMind和Anthropic的Claude,越来越专注于AI在科学和医疗保健领域的应用,从利用该技术帮助指导新药研究到审查个人医疗数据。 OpenAI将Prism推向科研领域并非偶然,该公司数据显示,ChatGPT平均每周会收到840万条与高等科学和数学相关的消息,而且这一数字预计在2025年将增长47%。 OpenAI科学副总裁Kevin Weil直言:“我认为2026年对AI和科学来说,就像2025年对AI和软件工程一样。”在他看来,AI辅助科研正站在一个类似“代码助手爆发前夜”的时间点。 在数学和统计学领域,这种趋势已经开始显现。外媒Tech Crunch提到,去年12月发表的一篇统计学论文《关于最大似然估计的学习曲线单调性(On Learning-Curve Monotonicity for Maximum Likelihood Estimators)》,该论文利用GPT-5.2 Pro模型,完成了对核心公理的新证明,而人类研究人员仅负责提示和验证模型的工作。 该论文详情(图源:康奈尔大学官网) 这类案例正在不断强化OpenAI的一个判断:AI将成为科学发现的重要参与者,而不仅是工具。 结语:从ChatGPT到“AI基础设施”,OpenAI的终局想象 把融资与产品放在一起看,会发现OpenAI正在沿着一条非常明确的路线前进。 一方面,OpenAI通过巨额融资,确保模型规模、算力和人才储备的持续领先;另一方面,OpenAI通过Prism等工具,把AI深度嵌入科研、教育、企业等高价值工作流中。 而软银,用大把的钱砸向OpenAI,赌的是AI重构产业的终极可能性。
想用Clawdbot何必抢Mac mini,手把手教你打造最强本地Agent,立省200美元 | 附保姆级教程
今年,本地 Agent 产品真的火了,说是一周一爆款,一点都不为过。 前有 Claude Cowork 一发布就创下将近五千万次的浏览;后有 Clawdbot(现在已经改名叫 Moltbot),在 GitHub 上的 Star 数量,直线突破,从两千狂飙到 7 万。 ▲ 本周你漏掉了什么 这么多工具,根本尝试不过来,况且像 Clawdbot 这种需要自己部署服务器的 AI,着实很劝退想要尝试的电脑小白用户。Cowork 就更过分了,目前只开放给 200 美元/月的 Max 订阅用户。 但无论是 Cowork 还是 Clawdbot,其实还有个更聪明的选择;它们俩能做的事,本质上都是从 Claude Code 进化来的。这个已经推出快一年的工具,在今年突然再次流行起来。 国内模型厂商,像是 MiniMax 和阶跃,也推出了 Agent 2.0 桌面版 App 和 AI 桌面伙伴,主打就是「中国版 Cowork」。这些应用无一例外地都是从 Claude Code 的概念进阶而来,打造一个本地版的 Agent。 ▲最近更新的 MiniMax Agent 和 阶跃 AI 桌面助手,都开始支持直接处理电脑文件 不需要买服务器,也不用本地搭建,Claude Code 本质上就是官方提供的一个「轻量级 Cowork」,一条命令就能安装。Skills 系统由 Anthropic 官方维护,现成的技能库也更丰富。 这篇文章,APPSO 就手把手教你如何用 Claude Code + Skills + 国产模型,构建你自己的本地 Agent。 什么是 Skills 2026 年,要混在 AI 圈里装 X,不能谈论几句 Skills,还是停留在提示词,已经算是 OUT 了。这些工具能火起来,Skills 这个概念功不可没。 Anthropic 在去年十月就推出了这项功能,但是直到今年年初,Skills 的各类教程才真正像病毒一样传播开来。不得不说,Anthropic 是有点技术傍身的,不是那种纯靠营销的吹吹捧捧,之前被广泛采用的 MCP 协议,也是由 Anthropic 提出的。 ▲ 部分 Skills 聚合网站,整理的 Skill 提交数量趋势,在今年猛增|来源:https://skillsmp.com/ 和 MPC 作为一个 USB 协议,接入不同的数据来源不同;Skills 更多的是像一个应用市场,和中文翻译为「技能」一样,它能把不同需求的应用都整理为一个单独的技能。我们可以简单的把 Agent 理解成一个游戏角色,它有自己专门的游戏定位,同时他自身也会有很多技能点,这些就是 Skills。 以前我们没办法给这个角色总结出一套按 E 出战技,按 R 开大招,要做什么都得一遍遍和 Agent 沟通;现在这些技能都封装成了一个快捷键,下次再遇到一样的怪,Skills 会直接按照之前设计的流程来操作。 根据 Anthropic 官方的介绍,它们把 Skills 定义为,能够将通用 Agent 转成专用 Agent 的文件目录。 ▲Skills 是一个目录,其中包含一个 SKILL.md 文件,该文件组织了指令、脚本和资源的文件夹,为 Agent 提供额外的功能。 由于只是一个文件目录,Skills 也有了可移植的特点,能在 Claude 网页和应用程序(仅限会员用户)、以及 Claude Code、Cowork、API、第三方平台等直接使用。 还是有点懵,看几个 Skills 的热门玩法,我们能更直观感受到它的能力。 这个官方的演示视频,介绍了在 Claude 中,如何将 PowerPoint 技能,与自定义品牌指南技能结合使用,即视频中拖拽压缩包到 Skills 界面,然后再运用海报设计技能来创作概念图。 Claude 会根据我们的需要,来自动加载这些包含指令、脚本和资源的文件夹(Skill);这些 Skills 会像一个定制化的入职培训材料,让 AI 一来就能上手,更高效的实现我们的需求。 还有一个是最近非常火的,让 Claude 生成视频,通过在 Claude Code 中使用 remotion-best-practices 这个技能,我们可以直接一句话让它生成一个视频。 此外,在这个 Anthropic 官方的 Skills 库里面,还有大量针对网页设计、前端设计、PDF 剪裁和分页等处理、文件压缩、图片格式转换、图片剪裁和拼接等处理,只要你想得到的,现在都可以透过 Skills 来直接完成。 ▲官方 Skills 库 https://skills.sh/ 甚至还有给编辑们用的去 AI 味的 Skill,在 GitHub 上收获了一千个赞。我们在 Claude Code 里面输入「/humanizer-zh」,直接运行该 Skill,然后输入需要修改的问题,这个 Skill 会直接生成改写的文本,和更改的细节。 问题来了,能直接给我们干活的 Skills,到底怎么用? 安装 Claude Code 到你的电脑 Claude 的订阅用户可以直接在 Claude 网页和 App 里面直接开启,免费用户的使用方式,目前最火的就是 Claude Code,这也是 Claude Cowork 的「脚手架」版本。有了 Claude Code,等于有了一个 200 美元订阅才能用的 Cowork,和 20 美元订阅才能用的 Skills。 ▲ 在 Claude 设置界面,「Capability 能力」选项下,订阅用户能看到 Skills 功能|图片来源:https://departmentofproduct.substack.com/p/what-are-claude-skills-and-how-can APPSO 这次手把手教大家怎么把 Claude Code 在自己的电脑上配置好,然后当成 Cowork 来使用,让 AI 操作自己的电脑本地文件,还有叠加使用不同的 Skills 来完成更专门的任务,甚至是创建自己的 Skills。 温馨提示:预计用时,视不同用户的网络环境,大约在一小时左右。60 分钟后,你就能拥有一个真的能解决 50% 人类工作的 AI。此外,不要害怕黑乎乎的终端。 总结一下大致的步骤是: 使用合适的网络,下载和安装 Node.js,Windows 用户需要额外安装 Git 应用。 在终端里输入 Claude Code 的安装命令,Windows 用户可能需要额外配置环境变量。 购买 API,智谱、Kimi、MiniMax、千问,等几大国产 AI 都支持连接到 Claude Code。 修改 Claude Code 的 settings.json 文件,根据不同模型 API 开放平台的教程,替换对应的 JSON 文件内容。 开始使用 Claude Code,一直按 Enter 等待它解决问题,同时直接复制命令安装对应的 Skills,让 Skills 来处理我们的请求。 第一步:检查网络环境,由于涉及到下载不同的软件安装包,最好是切换到使用 ChatGPT 的网络。 第二步:认识终端。 找到电脑上的终端(Terminal),打开之后不要被它黑乎乎的界面给吓到了,把它当成一个聊天简陋的对话窗口就可以,只不过在这个黑框里面,对话的语言都是各种晦涩难懂的命令。 ▲macOS 和 Windows 上的终端应用截图 第三步:软件下载。 下载和安装 Node.js,下载地址:https://nodejs.org/en/download/。 打开网页之后,网站会自动识别到设备信息,我们直接往下滚动,macOS 下载 PKG 安装包,Windows 下载MSI 安装包即可。 ▲ Nodejs 网页截图,使用默认下载即可,下载第一个(.pkg 文件/.msi 文件) 和正常的软件安装一样,我们全部使用默认的安装设置即可。当然,如果你的电脑上本来就有安装 Node.js,那可以直接跳过这一步,检查是否有安装 Node.js 的方法是在终端里面输入命令「node –version」,这也是检查是否安装成功的命令。 ▲安装成功,终端应该会显示版本号「v24.13.0」,具体版本可能会有所不同。 接着是 Windows 用户的额外操作,除了安装 Node.js,Windows 用户还需要安装 Git,我们把它叫做版本控制工具。 和安装 Node.js 一样,首先复制该网址到浏览器打开,https://git-scm.com/install/windows,然后现在 ARM64 的 Windows 电脑应该比较少,我们一般下载第一个「Git for Windows/x64 Setup」就可以。 ▲如果你想检查一下自己的 Windows 电脑是什么架构,也可以在设置-系统-系统信息-设备规格里面找到,一般会写「64 位操作系统,基于 x64 的处理器」。 安装 Git 的步骤,也是只需要按照默认的安装设置即可,如果不明白什么意思,每一步都点下一步(Next)也没问题。安装完成后,会提示我们「View Release Notes(查看发布日志)」,取消勾选,然后结束。忘记取消勾选,也只会打开一个网页,所以问题不大。 第四步:开始安装 Claude Code。 如果你的电脑操作系统是 macOS、Linux 可以直接复制下面这条命令到终端里,这里复制可以直接用快捷键 CTRL+V,然后 ENTER 运行(发送命令到终端)。 curl -fsSL https://claude.ai/install.sh | bash 没有遇到网络问题的话,我们就可以直接看到安装完成的提示信息。 ▲macOS 安装完成截图 而对于 Windows 用户,则是复制下面这条命令到终端,即打开名为 Windows PowerShell 的窗口,然后复制运行。复制时,遇到 CTRL+V 失效,反而当作命令输入,可以使用鼠标右键,然后选择粘贴。 irm https://claude.ai/install.ps1 | iex ▲Claude code 安装完成页面,如果你也跟我一样,提示遇到环境变量的问题,按照终端里面的提示信息,添加对应环境变量即可。 Windows 用户的小插曲 首先在 Windows 搜索里面,输入环境变量,会匹配到编辑系统环境变量的结果。 点击下方环境变量 按照终端提示的信息,USER PATH,我们只需要修改上方的用户变量,先点选中变量中的 Path,然后点击编辑 点击新建,然后复制你的终端里面,提示的路径信息,我这里是 C:\Users\ifanr\.local\bin 编辑完成后,点击确定,再点确定,关闭环境变量的窗口即可。然后关掉之前的终端,重新打开一个新的,输入 claude –version,看到有版本号出现,一切就大功告成了。 第五步:开始使用 Claude Code。 在终端里输入 claude,就正式进入了 Claude Code 的大门。 第一次点开,你一定会有诸多不习惯,明明是有很多选项可以选择,但是我不能用鼠标点击,就像这里的主题选择,我们只能使用键盘,上下选择,然后 Enter 表示选中。一般来说,默认第一个 dark mode 暗黑模式即可。 第六步:设置 API。 选择完主题,就会进入 API 的设置,这里提供了 Claude 账户登录,以及 API 和第三方 API 的选项,但无论选择哪个,它都会要求我们登录,登录 Claude 账号,或者 Anthropic 的 API 账户。 所以这个时候,我们要先退出终端,把 API 先设置好。 国产大模型支持 Claude Code 的非常多,无论是像千问这样的大模型家族,还是 AI 六小虎,MiniMax、Kimi、智谱 GLM 这些,都有专门的接入 Claude Code 的文档,方法基本上都一样,就是对参数进行修改。 ▲cc-switch 页面,图片来源:https://platform.minimaxi.com/docs/guides/text-ai-coding-tools 最近甚至还有专门的工具,叫做 cc-switch 来直接对 Claude Code 的 API 信息进行修改。这里我们还是演示一下如何对文件直接进行修改,cc-switch 工具的 GitHub 项目地址是 https://github.com/farion1231/cc-switch。 拿智谱来举个例子,我们首先要获取 API,不同模型厂商的 API 获取方式不同,基本上都在对应的开放平台能找到。一般来说,API 只会出现一次,所以创建后复制,最好先放到其他地方,不过也可以重新再创建。 Windows 用户:打开终端,输入命令 notepad $HOME\.claude\settings.json;然后就会弹出记事本,在记事本里面,添加或者替换对应的 “env” 信息即可,同时也需要把 TOKEN 替换为自己真实的 API-KEY。 { “env”: { “ANTHROPIC_AUTH_TOKEN”: “your_zhipu_api_key”, “ANTHROPIC_BASE_URL”: “https://open.bigmodel.cn/api/anthropic”, “API_TIMEOUT_MS”: “3000000”, “CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC”: 1 } } 在智谱官方获取 API 也很方便,前往他们官网 https://bigmodel.cn/usercenter/proj-mgmt/apikeys,创建一个新的 API KEY。现在智谱还有活动,能直接送 200 万 Token,推荐小白可以直接去智谱官网,免费就能体验。 macOS 用户,在终端里面输入 open -e ~/.claude/settings.json,就会用系统自带的文本编辑器,打开编辑窗口。 如果提示文件不存在,就输入这行命令,mkdir -p ~/.claude && echo “{}” > ~/.claude/settings.json && open -e ~/.claude/settings.json 然后同样的,直接替换 settings.json 里面的内容即可,CTRL+S 对文件进行保存。 关闭终端,然后在自己的工作文件夹里面,以终端打开,输入 claude,我们就能直接进去,来到对话的页面了。 Windows 用户这里可能还会遇到一个小问题,就是对明明已经对 settings.json 文件进行修改了,重新输入 claude,还是提示我要去登录 Claude 账户或者 Anthropic API 账户。 又一个小插曲,我们需要在终端输入 notepad $HOME\.claude.json,然后在打开的记事本文件里面,添加或修改下面这一行: “hasCompletedOnboarding”: “true”, 到这里,如果你的 API 是可以使用的,我们就能直接在 Claude Code 里面进行对话了。 一般来说,我们会在一个专门的工作文件夹里面,来启用 Claude Code。这一点在 macOS 上更加明显,我们必须不断赋予 Claude Code 访问文件夹的权限,如果是在默认的文件夹里,Claude Code 生成的和处理的内容,相对来说会杂乱一点。 macOS 同样可以右键在终端里面打开,或者直接把文件夹,拖拽到在 dock 栏的终端应用 Logo 上。 到这里,Claude Code 基本上就配置完成了,现在我们可以让它来真的做点其他 AI 做不到的工作。 如果你想使用其他的 API,例如 MiniMax 2.1,在他们的 https://platform.minimaxi.com/docs/guides/text-ai-coding-tools开放平台文档中心, 也有具体的指引,同样是获取 API 之后,修改 settings.json 文件即可。 { “env”: { “ANTHROPIC_BASE_URL”: “https://api.minimaxi.com/anthropic”, “ANTHROPIC_AUTH_TOKEN”: “”, “API_TIMEOUT_MS”: “3000000”, “CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC”: 1, “ANTHROPIC_MODEL”: “MiniMax-M2.1”, “ANTHROPIC_SMALL_FAST_MODEL”: “MiniMax-M2.1”, “ANTHROPIC_DEFAULT_SONNET_MODEL”: “MiniMax-M2.1”, “ANTHROPIC_DEFAULT_OPUS_MODEL”: “MiniMax-M2.1”, “ANTHROPIC_DEFAULT_HAIKU_MODEL”: “MiniMax-M2.1” } } 把这些文件,替换掉之前的 settings.json 文件,就可以切换到 MiniMax 的模型。 让 AI 真的干点活 首先是聊天,我们现在可以在 Claude Code 里面,要求它帮助我们对文件进行处理,或者下载等。 例如,我们从 YouTube 上随便找了一个视频,然后复制视频链接,直接丢给 Claude Code,要求他下载下来。 其实可以看到,一开始 Claude Code 会一直报错,「command not found」,一直在提示没有对应的命令,但是 Claude Code 会自动进行处理,帮助我们下载并且安装好这些对应的库。 其中视频下载 yt-dlp 这个库,以及多媒体处理的 ffmpeg 库,我们之前没有安装,Claude Code 都会安装好,然后来下载和处理视频文件。 但是这里 ffmpeg 使用的是 AV1 编码,有些设备可能会解码不了,这个时候,我们可以直接要求 Claude Code 重新对视频进行编码,以符合更多设备的播放适配。 对其他文件的处理也是这样,例如我这里有一个 PDF,我需要它帮我分页,每一页都保存为一个单独的 PDF 文件和一个 PNG 图片格式的文件,Claude Code 会自动调用对应的 PDF 库来帮我们处理。 除了这些在本地进行的操作,Claude Code 也可以通过编辑 CLAUDE.MD 来修改我们的记忆,这些功能和前几天推出的 Cowork 是一样,所以,你现在已经有了一个免费的 Cowork 了。 接下来是重头戏,Skills 来了。安装 SKill 特别容易,也是一句命令就能解决。就拿 Claude 官方的 Skills 库来进行说明,它对每个库的介绍,首先都是一句安装命令,我们复制这行命令到终端, ▲ npx skills add https://github.com/remotion-dev/skills –skill remotion-best-practices Windows 可能会提示不允许运行任何脚本,我们可以使用管理员模式打开终端,输入命令 Set-ExecutionPolicy RemoteSigned -Scope CurrentUser,表示允许运行自己编写的脚本,或者直接使用 CMD,而不是 PowerShell 来运行。 搜索 CMD,打开,输入 y 表示 yes 确定,然后可以选择要安装到哪些应用,选择是否全局安装或只是某个项目,一般我会选择全局安装,如果这个 Skills 不是针对某个特定项目,此外的设置,如安装位置等按照推荐来,直接 Enter,等待安装完成就行。 ▲使用 CMD 和 PowerShell 终端来进行安装 安装完成后,输入 claude,进入 Claude Code,然后斜杠 /,我们就能看到已经安装的两个 Skills,一个是 remotion-best-practices,一个是 web-design-guidelines。 除了通过斜杠 / 来启用对应的 Skills,在 Claude Code 里,它也能自动调用对应的 Skills 来完成我们下达的任务。 和那些 Claude Code 自动安装的库不同,Skills 更像是一个工作流,例如 Claude 官方也给出了一些针对 PDF 文件处理的 Skill。在这个 Skill 里面,不仅仅包含此前提到的 PDF 处理工具,还有更具体的工作流,来应对各种关于 PDF 的任务。 那么,什么时候需要用到 Skills,还是直接通过提示词,让 Claude Code 自己去找对应的库就好;怎么用好 Skills 又是一门新的功课。 任何可以被总结出一套工作流的任务,我们都可以让 Skills 来处理。尤其是那些 AI 还没有办法,凭借自己的知识,自动总结出工作流的任务。 像那些句子翻译之类的工作,AI 早已掌握了不同语言翻译的流程,不需要我们再赋予它什么角色,只是用简单的一两句提示词,大部分的 AI 都能翻译得很好,这个时候再用一个 Skills 来做翻译,就有点画蛇添足。 但是翻译可以被包装到一个更大的 Skill 里面,例如需要翻译为特定的格式、排版、以及文风要求;还有对不能直接复制、包含各种图表论文的 PDF 做翻译……这些每一次都需要我们跟 AI 说好该如何处理的任务,现在就能用 Skills 来解决。 最近做视频的 Skill 非常火,我们也直接让它来做一个 Claude Code 安装教程视频。 这效果我觉得是有点吹捧 Remotion 的能力了,很明显就是先做了一个网页,然后再把这个网页渲染成视频。不过这个概念倒是挺新鲜的,如果能对提示词再调整一下,或许会有一些不一样的成品。 生视频没问题,生图就更不在话下。我们还可以让它生成一张 Canva 的设计图,不需要先输入斜杠 / 唤起 Skills,我们输入的提示词,就能自动触发到相关的 Skills 的使用,Claude Code 会询问我们是否要使用 canva-design 这个 skill。 在 skill.md 的文档里面,也会有描述,用来告诉 Agent 什么时候可以唤起该 Skill。 这个 2.35:1 的封面,设计感是在线的,就是有点太简洁风格了。 直接处理电脑文件,有优点,也有很明显的缺点,有时候无预警的删除那些本来就有用的文件,是社交媒体上,对 Claude Code 这类产品,最常见的控诉。 ▲开启 Plan mode 后会有提示显示「plan mode on」 有一个小 Tips,就是我们在使用 Claude Code 时,可以按 shift+tab 切换到 Plan Mode,计划模式。在计划模式下,Claude Code 不仅会保持为「只读模式」,对电脑文件不做任何操作,只是先给出执行的计划;此外,它也会比普通模式有更多的思考。 虽然 Claude 官方是推荐我们在多步骤实现、代码探索和交互式开发等项目上使用 Plan Mode,但我们的使用体验是,一般任务开着,也不会有额外的影响。 和这个缺点一样,Claude Code 并不是面向一般用户的产品,就连 Skills 也是,我们在安装 Skills 时,可以看到它能选择不同的 Agents,有 OpenCode、Cursor、字节的 Trae、腾讯的 CodeBuddy、Gemini CLI 等等工具。 这些工具都是面向开发者设计的,现在能从代码圈里走出来,或许一方面也是证实了 AI 时代,这种工具带来的差异,会越来越小。 每个人都可以拿起一个称手的工具,造出轮子,组装成汽车,然后开着这辆车,带我们去一些未曾抵达的地方。 未来 APPSO 会带来更多的 AI 时代的工具指南,我们的线下活动 AIDONE 也在持续更新,和我们一起去发现和体验,更好用的明日产品。
降价超2000元的iPhone Air,成了OpenAI CEO萨姆·奥特曼的主力机
凤凰网科技讯 1月28日,OpenAI CEO萨姆·奥特曼(Sam Altman)在开年答疑会上,展示了自己正在使用的手机是iPhone Air。 去年,他曾在社交媒体发文称,“好久没这么想升级到新款iPhone了,看起来很酷。”并在回复网友提问时确认,所指的就是iPhone Air。 不过,该机近期降价超2000元的消息也引发了网民关注。这一幅度不仅刷新了新款iPhone的降价纪录,也明显不同于苹果以往循序渐进的降价策略,显得格外“反常”。有媒体报道称,这背后,是iPhone Air自上市以来在全球范围内持续遇冷的残酷现实。事实上,这款以“苹果史上最轻薄”为卖点的产品,因续航妥协、仅支持eSIM等设计,在高端市场中竞争力不足,销量远未达预期。多位分析人士认为,此次iPhone Air大幅降价的目的更偏向于清库存,而非通过价格刺激拉动整体销量。 还有网友购买后开机激活后发现,iPhone Air电池生产日期为2025年7月份,表明该机是库存产品。针对网友质疑iPhone Air为库存机的说法,苹果官方客服予以否认。 客服表示,苹果产品不是先有订单后生产,因此时间会有出入,且电子产品与食品不同,不存在过期说法。此外,该客服还透露,设备发出前是看不到实际情况的,因此不存在因为降价就发出时间久产品的情况。
摩托罗拉Moto G67/G77手机渲染图曝光:6.8英寸屏幕、5200mAh电池
IT之家 1 月 28 日消息,科技媒体 YTechB 昨日(1 月 27 日)发布博文,分享了一组渲染图,展示了摩托罗拉 Moto G67 和 Moto G77 手机渲染图。 颜色方面,Moto G67 会提供“北极海豹”(Arctic Seal)与“浅鹦鹉绿”(Light Parrot Green)两种活力色调;而 Moto G77 将推出“黑橄榄”(Black Olive)与“云杉影”(Shaded Spruce)两款深邃质感的配色。 外观方面,Moto G67 和 Moto G77 均采用了摩托罗拉流线型背板设计,主要外观差异集中在相机模组区域:Moto G77 的闪光灯周围设计了一圈独特的彩色品牌标识。 两款机型均采用了一块 6.8 英寸的 OLED 显示屏,支持 120Hz 高刷新率及 1080p+ 分辨率,两者均内置了 5200mAh 电池,并前置 3200 万像素自拍镜头,后置 800 万像素超广角镜头。 Moto G67 采用了轻量化机身设计,不过其防护等级仅为 IP64,这意味着该机虽然具备防尘能力,但并不完全防水。IT之家附上相关图片如下: 该机搭载了联发科天玑 6300 处理器,并配备 4GB 内存与 128GB 存储空间,配备 5000 万像素主摄(索尼 LYT-600 传感器)。此外,Moto G67 还配备了一个 microSD 读卡器,该卡槽可作为第二张 SIM 卡插槽使用。 Moto G77 定位更高,搭载了性能稍强的联发科天玑 6400 处理器,并将内存容量提升至 8GB。影像系统方面,Moto G77 配备了一颗 1.08 亿像素的主摄像头,相比 G67 具备更强的解析力。
英伟达RTX Remix Logic上线:900+参数任意调,不改源代码重塑经典游戏
IT之家 1 月 28 日消息,英伟达昨日(1 月 27 日)更新 NVIDIA App,正式推出 RTX Remix Logic,让 MOD 作者不访问源代码的情况下,根据实时游戏事件(如玩家位置、按键输入)动态触发图形特效。 IT之家注:RTX Remix Logic 是英伟达推出的一个“游戏修改工具包”中的逻辑模块,以前为老游戏开发 MOD,通常只能换换贴图,画面是死的。 这个新功能允许 Mod 作者设定“如果…… 就……”的规则(比如:如果玩家走到这里,就开始下雨),让老游戏的画面能根据玩家的操作实时变化,而且不需要懂复杂的编程代码。 官方数据显示,目前已有超过 165 款经典 PC 游戏支持 RTX Remix Logic 技术,为老游戏高清重制开辟了全新赛道。 RTX Remix Logic 系统内置了 30 多种游戏内事件触发器,涵盖“玩家状态”(如视角缩放、坐标)、“世界包围盒”(室内外检测)、“物体状态”及“时间流逝”等。 一旦触发,系统可实时操控超过 900 项图形参数。这意味着 MOD 作者可以实现随时间变化的动态光照、根据天气改变的雾气密度,甚至在此前不支持的技术上叠加路径追踪体积光和色差等后处理特效。 英伟达为了降低技术门槛,引入高度可视化的无代码节点式界面(Node-based Interface)。创作者只需通过简单的拖拽操作,将“触发器”节点与“动作”节点相连,即可构建复杂的交互逻辑。 界面配备了专用滑块用于微调参数,并支持在 Remix 编辑器中实时预览效果。对于资深开发者,该框架还支持插件扩展,允许创建自定义事件触发器。官方演示中,在《半条命 2》RTX 版里打开一扇门,便能瞬间触发风格迥异的“Ravenholm 多元宇宙”场景。
蔚来世界模型NWM新版推送:新增城区领航换电功能
凤凰网科技讯 1月28日,蔚来汽车正式推送“蔚来世界模型 NWM”全新版本。首批更新覆盖超过46万辆搭载“Banyan 榕”系统的车型,而“Cedar 雪松”及“Cedar S 雪松”车型也将在近期获得推送。 此次升级的核心是采用了“世界模型+闭环强化学习”的研发范式。据称,该系统可将城区与高速领航辅助全面模型化,旨在提升行车过程的类人安心感与通行效率。 该新版本重点提升了全域领航辅助的基础行车能力,为用户提供选道准、博弈强、控车稳的行车体验,安心与效率兼顾。同时,其优化了跟随导航路线的车道选择能力、避让车流及动态选道能力,并新增效率换道。连续路口的合理选道能力、路口通过能力、道路行驶的通行效率,都得到了大幅提升。 此外,该版本能够积极根据车流博弈找空变道,变道更果断、更顺畅。同时,优异的窄路表现也得到了延续,在人车混行中既能留足安心感,也能找到空隙高效通行。 新版本还新增了“城区领航换电”功能,可支持全国超过2000座二代及以上换电站,实现在城区场景下从领航驾驶到自动换电的衔接。蔚来表示,其高算力硬件(如Banyan平台算力达1016TOPS)为此次模型升级提供了支撑。 根据规划,蔚来将在2026年继续加大云端训练算力投入,以加快智能辅助驾驶功能的迭代速度。
通用汽车探索“降本增效”:导入磷酸铁锂电池,还要用软件定义汽车
IT之家 1 月 28 日消息,通用汽车在周二的 2025 年全年财报电话会上披露,公司正在推动电动汽车降本,方向不仅限于采用更便宜的锂离子电池。 据外媒 insideevs 报道,通用汽车除了推进富锰锂和磷酸铁锂等更低成本电池方案,还准备从更多环节压低电动汽车售价。通用汽车董事长兼 CEO 玛丽 · 巴拉说:“我们现在的投资将高度聚焦于成本削减。每一款电动汽车都有专门团队,在电池之外继续把成本降下来。” ▲ 图源凯迪拉克 通用汽车预计在 2028 年推出第二代软件定义汽车架构,覆盖燃油和纯电车型。据悉,这一架构会把动力、信息娱乐和安全等所有关键系统,都整合到一个高速计算核心之上。 通用汽车的新“软件定义汽车”平台将于 2028 年率先于凯迪拉克凯雷德 IQ 搭载,并引入新的激光雷达传感器,以便在特定驾驶条件下实现 L3 级脱手脱眼的自动驾驶能力。 与此同时,通用汽车也在加速推进富锰锂与磷酸铁锂电池的低成本路线。通用汽车去年表示,富锰锂电池将让全尺寸卡车和 SUV 在成本接近磷酸铁锂的情况下,实现超过 644km 续航,相关车型计划在 2028 年推出。 通用汽车还计划在新一代雪佛兰 Bolt EV、Silverado EV 的未来某个版本上导入更便宜的磷酸铁锂电池。磷酸铁锂电池在中国应用极广,是推动低价电动汽车的重要基础。通用汽车称,磷酸铁锂方案可为每辆车减少约 6000 美元(IT之家注:现汇率约合 41798 元人民币)的成本。 玛丽 · 巴拉说:“我们知道,电车车主通常不会再回到油车,所以通用汽车会继续推进计划,大幅降低成本,为未来做好准备。”
电池落后20年!德国汽车教父:得赶紧转向中国
快科技1月28日消息,德国“汽车教父”费迪南德・杜登霍夫在接受采访时表示,欧洲在电池领域落后中国20年,德国得赶紧转向中国,借助中国供应商的电池弥补这一劣势。 杜登霍夫指出,中国汽车企业的相关投资对欧洲非常有帮助。以锂离子电池为例,宁德时代和国轩高科等企业为欧洲电动汽车制造提供了关键支持。 同样的,在天线技术(如德赛西威)和激光雷达传感器等领域,中国企业也凭借领先技术为欧洲产业升级提供了重要助力。 这种合作对中德两国企业来说都是双赢的战略。通过这种方式,两国产业的优势可以结合起来。 他还进一步强调,中国企业研发速度往往更快,研发周期有时比德国企业短50%,这种效率也转化为明显的成本优势,值得德国企业深入学习。 技术代差之下,中欧汽车产业的合作已逐步落地,宁德时代与宝马合资的德国电芯工厂已投产,其产品将配套宝马等欧洲车企的电动车型;比亚迪也正与斯特兰蒂斯合作,共同开发低成本磷酸铁锂电池。 数据显示,中国车企通过模块化平台、数字化仿真等技术,将新车研发周期压缩至欧洲企业的50%-60%,电池成本较欧洲低30%。 这一优势直接转化为市场竞争力,2025年12月,中国车企在欧洲单月销量首次突破10万辆,同比增长127%,市场占有率飙升至9.5%,较2024年同期的4.5%实现翻倍。 2026年1月12日,中国商务部与欧盟委员会同步宣布,通过价格承诺机制取代关税对抗,为电动汽车贸易争端画上阶段性句号。 根据协议,中国出口商可通过承诺最低售价、披露供应链信息等方式替代反补贴税,相关数据显示,该机制实施后,预计2026年中国对欧电动车出口量将再增15%-20%,同时带动本土化生产投资。
ASML阿斯麦入局半导体后工序光刻 威胁日本企业地位
【CNMO科技消息】1月28日,据日本媒体报道,全球光刻设备巨头荷兰阿斯麦控股(ASML)正将业务拓展至半导体制造的后工序领域,向原本几乎由佳能垄断的市场发起挑战,同时尼康也计划在2026年度实现相关量产,半导体设备厂商间的竞争愈发白热化。 半导体后工序光刻,简单来说,就是在半导体制造的后期阶段,利用光刻技术对芯片之间的连接层进行精细布线绘制。这一过程对于实现芯片间高效稳定的连接和信号传输至关重要,直接影响着半导体产品的性能和可靠性。 此前,这一领域的光刻设备市场主要由佳能占据。而此次ASML推出了用于在芯片之间连接层上绘制布线的设备。随着最尖端半导体性能的不断提升,后工序的重要性日益凸显,成为提升半导体整体性能的关键环节之一。 当前,面向AI的半导体市场中,“先进封装”技术愈发普及。该技术能将图像处理半导体(GPU)和存储器等多个芯片组合在一起协同工作,有效提升半导体性能。为适应这一技术发展趋势,ASML在2025年9月前已开始出货专用于先进封装的光刻设备,并且似乎已交付给全球领先的半导体企业。 随着ASML等巨头入局半导体后工序光刻领域,不仅将改变原有的市场格局,也将推动相关技术的加速发展。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。