EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
GPT-5终于来了,但是发布会这图做的可太烂了
刚刚,OpenAI 正式发布了 GPT-5。 CEO Sam Altman 在发布会表示 ,GPT-5 是全球最佳模型。 OpenAI 认为这不是一次简单的升级,而是一次智能的「次元跳跃」。 官方宣称它在所有方面都碾压前代,并且引入了一个全新的「智能路由」系统,懂得何时「快问快答」,何时「深度思考」。 提前泄露的 GPT-5 信息,也在今天凌晨被一一验证。爱范儿第一时间带你速览 GPT-5 亮点,更详细的解读和体验,请关注后续的推文。 开始之前,我们先说说发布会上发生的一个「大瓜」…… 在发布会的第一组演示中,OpenAI 就被人发现在模型跑分的图表上「动了手脚」: 从下图中你可以看到,很明显 GPT-5 由于过分强大,甚至扭曲了 Y 轴的比例尺…… 网友纷纷吐槽:这张图做的,简直是犯罪。 发布会(录播)期间一直在 live tweet 的山姆·奥特曼,也发现了这个问题。他只能尬回一句:「看来要 GPT-6 才能搞定了,不过在官方博客上是没有错的。」 💡 核心看点:一个统一系统,多种智能模式 全能选手:GPT-5 (默认) · 全面取代并超越 GPT-4o、o3 等所有前代模型。 ·这是一个统一的智能系统。它内置一个「实时路由器」,能秒级判断你的问题难度,自动调用合适的「大脑」来回答。普通问题用「高效大脑」快速响应,复杂问题则自动切换到「深度思考大脑」。 · 所有用户(包括免费用户) 都能用!它将成为 ChatGPT 的新默认模型。 究极形态:GPT-5 Pro (付费) · 相当于顶尖人类专家。 · Pro 版拥有「扩展推理」能力,会花更长时间进行并行计算,提供最全面、最精准的答案。在超高难度的科学问题(GPQA)上,它刷新了世界纪录。在与人类专家的「盲测」中,10 次里有近 7 次被认为更优。 · Pro 订阅者专属(200 美元/月)。 关键特性: 智能「变频」🧠:不再是单一模型死磕所有问题。GPT-5 会自动「升档」,为难题启动深度思考模式,普通问题则轻快解决,效率和质量兼得。 幻觉暴降 📉:事实性大幅提升!与 GPT-4o 相比,事实错误率降低了 45%;在深度思考模式下,错误率更是比 o3 暴降了 80%!这意味着它更可靠了。 编码大神 💻:不仅能写复杂前端,还能调试大型代码库。最神的是,它开始有「审美」了,能理解排版、留白,一句话生成设计精美的网站或App。 写作大师 ✍️:从「工具」进化为「缪斯」。能理解并创作具有文学深度和韵律的作品,比如写出结构自然的自由诗。 更懂你的AI医生 🧑‍⚕️:在健康问题上,它不再只是给答案,而是像一个思维伙伴,会主动提问、标记潜在风险,帮你更好地与医生沟通。 「人格」可调 🎭:官方推出四种预设性格(如愤世嫉俗、倾听者),你可以随时切换,让AI的沟通风格更符合你的偏好。 👇 如何上手GPT-5 对所有用户 (包括免费版): 无感升级,打开即用。你什么都不用做!登录 ChatGPT,GPT-5 已经是你的默认模型了。它会自动判断问题难度,为你调用最合适的思考模式。 对付费用户 (Plus/Pro/Team): 手动开启「深度思考」:想榨干GPT-5的全部性能?你可以在模型选择器中手动切换到 「GPT-5 Thinking」 模式,或者在提问时加上一句咒语,如 「think hard about this」,强制它开启深度推理。 Pro 用户独享: Pro 订阅者可以无限制使用 GPT-5,并独家解锁终极形态 GPT-5 Pro。 对开发者 : Pro, Plus, Team 用户现在可以通过登录 ChatGPT,在 Codex CLI 中直接调用 GPT-5 进行编码工作。 疯狂爆料后依然能吸引整个科技圈和用户的关注,除了苹果 iPhone,可能就是 OpenAI 的 GPT-5 了。 虽然外界看衰的声音很多,但 GPT-5 的发布对于 OpenAI 乃至整个AI 界都是一个里程碑。 它不仅仅是「更大更强」,而是在系统架构、可靠性和交互哲学上都有了新的探索。
OpenAI GPT-5发布:模型能力全面“屠榜”,构建“超级智能”第一步
OpenAI 的第一次 SOTA,但他们说这只是构建「超级智能」的第一步。 作者|张勇毅 经历过无数次「跳票」之后,GPT-5 终于来了。 北京时间 8 月 8 日凌晨一点,颇有新一代「科技春晚」架势的 OpenAI 夏季发布会拉开帷幕。 与此前 OpenAI 速通式的发布会明显不同,这次 OpenAI 准备了时长超过一个小时的发布会直播几波人马轮番上阵,你方唱罢我登场,从各种角度展示 GPT-5 的强悍性能。 先说重点:GPT-5 在多个领域的表现都迎来了全面提升,在文本、WebDev 和视觉感知能力领域排名第一;在硬提示、编码、数学、创造力、长查询等方面排名第一 GPT-5,在代号为「峰会」的测试下,目前保持着截至目前最高的 Arena 分数,可以说是字面意义上的「屠榜」了。 Sam Altman 表示,GPT-4o 就像中学生,而 GPT-5 就像大学生,甚至形容 GPT-5 是第一部配备视网膜显示屏的 iPhone——「你问它一个问题,也许能得到正确答案,也许会得到一些疯狂的东西。GPT-4 则感觉像在和一名大学生对话。而 GPT-5,是第一次让我真正感觉像在与一位博士级别的专家交谈。」Sam Altman 这样介绍 GPT-5 的能力提升。 尽管 ChatGPT 的周活跃用户已接近 7 亿,但 OpenAI 过去一段时间实际上并未拥有行业领先的前沿模型。现在,OpenAI 相信 GPT-5 将使其稳稳地重回排行榜榜首。 Altman 甚至直接在发布会中断言:「这是世界上编码能力最强的模型,是世界上写作能力最强的模型,也是世界上在医疗保健领域最强的模型」 同时 OpenAI 也在发布会上宣称,除了代码能力爆表,GPT-5 的写作功底和回答健康相关问题的准确性也更上一层楼。同时 GPT-5 不仅在智能上实现了「巨大飞跃」,还大幅减少了「一本正经胡说八道」的幻觉问题。它在理解和遵循指令方面表现更出色,拍马屁的倾向也大大降低了。 01 告别「幻觉」,AI 更可靠了 首先是本次更新的模型阵容,GPT-5 系列一共有 GPT-5, mini, nano, chat 四个版本,其中 Chat 版本对应的是实现更自然、更智能的响应的体验——你甚至可以用它来学习一门新的语言。 另外,现在当你打开 ChatGPT 网页之后,首先会注意到 GPT-5 被呈现为一个单一模型,而不是一个常规模型外加一个独立的推理模型。 这背后其实是 OpenAI 开发的一个路由系统(router),它会自动为更复杂的查询切换到推理能力更强的版本,或者在你告诉它努力思考时也会这样做。(Altman 称之前的模型选择界面是「一个非常混乱的烂摊子」。) 「AI 幻觉」一直是大家吐槽的重灾区。好消息是,GPT-5 在这方面下了大功夫,官方宣称其产生幻觉的可能性「显著降低」。具体来说: 在联网搜索时,GPT-5 的回答出现事实错误的概率比 GPT-4o 低了 45%。 在独立思考时,其回答出错的概率更是比 OpenAI o3 低了 80% GPT-5 也在新的 ARC-AGI-2 上进行了测试。除 Grok 4(思考)外,它的表现优于所有主要模型。 此外,GPT-5 还成了一个「老实人」。它不太会再对用户撒谎,吹嘘自己能完成办不到的任务。当遇到不可能完成、指令不明确或缺少关键工具的任务时,它会更诚实地沟通自己的局限。 这次更新最有趣的一点,莫过于引入了四种全新的「人格」模式,用户可以自由选择。它们分别是: 犬儒 (Cynic) 机器人 (Robot) 倾听者 (Listener) 学霸 (Nerd) 这些模式是可选的,你可以根据自己的喜好,设定 ChatGPT 与你互动和回答问题的方式。想让它跟你抬杠,还是像个耐心的朋友一样倾听?现在都可以由你说了算。 「这个模型给人的『感觉』真的很好,」ChatGPT 的负责人 Nick Turley 说,「我认为人们会真切地感受到这一点,特别是那些平时不怎么研究模型的普通用户。」 此外,你还可以为单个聊天窗口更改颜色主题,代码编辑器主题爱好者狂喜了。 02 「软件按需生成」时代来临?代码能力逆天 随着代码能力的进一步提升,Altman 预测,GPT-5 强大的编码能力将开启一个他称之为「软件按需生成」的时代。 在 OpenAI 的测试中,GPT-5 在 SWE-Bench, SWE-Lancer, 和 Aider Polyglot 等多个编码基准测试中的表现均优于任何其他模型。在人类最终测试中取得 42% 的成绩,在 SWE 基准测试中取得 75% 的成绩。 一个小插曲是,发布会上的这张图的坐标轴明显有不少槽点,不仅有 52.8 > 69.1 这样的弱智错误,也实际上夸大了 GPT-5 的能力提升,在社交媒体上被网友群嘲「你这 PPT 怕最好别是 GPT-5 做的」。 在发布会上,OpenAI 的后期训练负责人 Yann Dubois 使用 GPT-5 现场演示,要求它生成一个用于学习法语、并带有互动游戏的网站。在短短几秒钟内,GPT-5 就编写了数百行代码,并直接展示了网站的前端界面。 他在 Zoom 上分享屏幕并进行了简单的点击操作,一切看起来都完美运行。 发布会现场,OpenAI 还直接展示了一款仅靠一段提示词就由 GPT-5 创作的 3D 游戏。其创作的 3D 场景不仅画面精致,其中的物理效果也非常准确的还原出了对应的效果。 03 更安全,更「诚实」 据模型安全研究负责人 Alex Beutel 介绍,为了解其安全风险,OpenAI 对 GPT-5 进行了「超过五千小时」的测试。其中一个重点是「确保模型不会对用户撒谎」。 虽然 GPT-5 的幻觉(hallucination)比 OpenAI 的 o3 推理模型要少,但「自信地撒谎」仍然是大型语言模型固有的问题。当模型开始像智能体(agent)一样完成任务时,这个问题会变得更加复杂。不过 OpenAI 表示,GPT-5 在更可靠地处理多步骤任务方面表现更好。「过去,我们看到过模型声称完成了某项任务,但实际上并没有完成的情况,」Beutel 说,「这是个问题。」 对于以前会直接拒绝回答的提示,GPT-5 将提供 OpenAI 所谓的「安全补全」机制(safe completions)。Beutel 解释说:「比如有人问『点燃某种特定材料需要多少能量?』,这可能是一个试图绕过安全防护造成伤害的恶意问题,也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。」 通过「安全补全」,GPT-5「试图在保持安全的约束下,给出尽可能有帮助的答案」。模型通常只会部分遵从,并提供一些无法被实际用于造成伤害的、更宏观层面的信息。 04 如何用上 GPT-5 那么,大家最关心的问题来了:怎么才能用上 GPT-5 呢? 好消息是,所有 ChatGPT 用户都可以现在立即免费体验到 GPT-5。这也是 OpenAI 第一次面向所有用户免费开放前沿模型。当然,不同级别的用户权限不同: Plus 订阅用户在达到使用上限前,可以有更多的使用次数。 Pro 订阅用户则可以访问具备更强推理能力的 GPT-5 Pro 版本。 当用户达到使用上限后,ChatGPT 会自动切换到一个「迷你版」的 GPT-5 来处理后续的请求。同时,随着 GPT-5 的上线,它将正式取代 GPT-4o, OpenAI o3, OpenAI o4-mini, GPT-4.1 和 GPT-4.5 等一系列旧模型。 此外 Token 定价部分,标准版 GPT-5 为每百万输入 Token 1.25 美元,每百万输出 Token 10 美元。mini 版 与 Nano 版定价都便宜不少。 详细定价可参考下图截取自官网的信息。 此外,OpenAI 还在 API 中发布了一个名为「Minimal」的新参数,这样你就可以在所有用例中使用 GPT-5,只需改变推理的力度。 除了 OpenAI 的第一方平台,微软 CEO 纳德拉同时也宣布,GPT-5 已在微软全系平台上线,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 和 Azure AI Foundry。同时所有这些改进均在 Azure 上进行训练。 最后,Altman 表示,OpenAI 的使命是开发通用人工智能(AGI)。GPT-5 使他们更接近这一目标,尽管整个行业已经开始转向构建所谓的「超级智能」。 「我有点讨厌 AGI 这个词,因为现在每个人对它的定义都略有不同,」Altman 说,「但这是朝着真正强大的模型迈出的重要一步。这显然是需要一个具备通用智能的模型才能做到。」 然而,他也承认相比起真正的 AGI, GPT-5 仍然「缺少一些非常重要的东西」。 「这不是一个模型,它是从它所发现的新事物中所生长出来的原生事物,对我来说,这正是它为什么能成为 AGI 「种子」的原因。」Sam Altman 这样介绍道。 *头图来源:视觉中国
苹果被起诉窃取商业机密:不经授权靠挖角推出Apple Pay
Apple Pay 凤凰网科技讯 北京时间8月8日,据路透社报道,苹果遭到得州公司Fintiv起诉,被指控窃取后者技术打造利润丰厚的移动钱包服务Apple Pay。 根据周四公开的诉状,Fintiv表示,Apple Pay的关键功能基于CorFire开发的技术。这项技术如今被应用于数亿台iPhone、iPad、Apple Watch MacBook上。2014年,CorFire被Fintiv收购。 Fintiv表示,苹果曾在2011年和2012年与CorFire举行多次会议,并签署了保密协议,目的是获得授权使用后者的移动钱包技术,以抓住快速增长的非接触式支付市场机遇。 但是诉讼称,苹果没有取得授权,反而挖角CorFire员工,在这些员工的帮助下利用了该技术,窃取了商业机密,并于2014年开始在美国及数十个其他国家推出Apple Pay服务。 Fintiv还指控苹果通过Apple Pay为美国银行、第一资本、花旗集团、摩根大通、富国银行等发卡机构,以及美国运通、万事达和Visa等支付网络创造手续费收入,主导了一个非正式的敲诈勒索组织。 “这是一起规模巨大的企业盗窃与敲诈案件。苹果借此创造了数十亿美元收入,却未向Fintiv支付一分钱。”诉状称。 该诉讼在亚特兰大联邦法院提起,要求苹果赔偿因违反联邦及佐治亚州商业机密和反敲诈勒索法所造成的损失和惩罚性赔偿。苹果是本案的唯一被告。 法庭记录显示,8月4日,得州奥斯汀的一位联邦法官驳回了Fintiv针对苹果提起的相关专利侵权诉讼。四天前,该法官还驳回了Fintiv的一些诉讼主张。Fintiv计划“基于现有证据记录提出上诉”。 截至发稿,苹果尚未就此置评。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
马斯克下令解散特斯拉超级计算机团队,负责人离职
特斯拉解散Dojo团队 凤凰网科技讯 北京时间8月8日,据彭博社报道,据知情人士透露,特斯拉公司将解散其Dojo超级计算机团队,该团队负责人将离开公司。此举可能会打乱特斯拉为自动驾驶技术开发自研芯片的计划。 知情人士称,负责Dojo项目的彼得·班农(Peter Bannon)将离职。特斯拉CEO埃隆·马斯克(Elon Musk)已下令关闭该项目。最近约有20名Dojo团队成员跳槽至新成立的DensityAI公司,剩余的Dojo员工则被重新分配到特斯拉内部的其他数据中心和计算项目中。 特斯拉计划加大对外部技术合作伙伴的依赖,包括采用英伟达和AMD的计算技术,以及三星电子的芯片制造服务。 这一决定标志着特斯拉这一开发多年的项目发生重大转变。Dojo曾被视为特斯拉价值数十亿美元计划中的核心,该计划旨在提升特斯拉在AI竞赛中的计算实力。 Dojo是特斯拉自主设计的超级计算机,用于训练该公司旗下自动辅助驾驶系统(Autopilot)和全自动驾驶系统(Full Self-Driving)背后的机器学习模型,以及其人形机器人Optimus。该计算机能够接收车辆采集的数据并快速处理以提升公司的算法表现。分析师曾指出,Dojo可能成为特斯拉的重要竞争优势。摩根士丹利在2023年预计,它可能会让特斯拉市值增加5000亿美元。 然而,马斯克在特斯拉最近一次季度财报电话会议中已经暗示了战略转变。他当时表示,特斯拉未来的自研技术可能会与合作伙伴的技术趋于融合。他在7月23日的电话会议上说道:“对于Dojo 3和AI6推理芯片,从直觉上讲,我们希望实现它们的融合,也就是基本上是同一种芯片。” 马斯克去年也曾承认,公司可能不会把Dojo项目推进下去,而是会更多依赖外部合作伙伴。 截至发稿,特斯拉、马斯克以及班农尚未就此置评。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
二〇二五年电影暑期档——新表达 新空间
     图①:电影《南京照相馆》海报。   图②:电影《东极岛》海报。   图③:电影《戏台》海报。   图④:电影《浪浪山小妖怪》海报。   图⑤:电影《长安的荔枝》海报。   以上图片均为出品方提供   上映13天,《南京照相馆》票房超过17亿元;截至目前,2025年暑期档总票房已超过74亿元……“无论题材类型还是风格样式,今年的暑期档电影都呈现出多样化的追求,能够满足不同年龄、不同地域、不同喜好的观众。”中国电影评论学会会长饶曙光说。   7个普通人“威武不能屈”的抗战史诗,一个唐朝小吏的千里奔波,一条“取经”路上的寻找与确信,一座“戏台”演绎的悲欢与离合……自6月开启暑期档以来,数十部中外新片接力上映,涵盖了喜剧、悬疑、历史、动画等10余种类型。中国电影观众满意度调查显示,《南京照相馆》的观众满意度居2025年电影首位。观众评分网站上,《南京照相馆》《罗小黑战记2》《戏台》等影片评分超过8分,开分后又分别迎来涨分。网友评价:“今年绝对是质量过硬的一届暑期档!”   对新表达的不懈追求,是今年暑期档电影的最大共性,也是赢得观众、打开新空间的主要经验。   电影《南京照相馆》的表达,“新”在摆脱了宏大叙事容易“见事不见人”的窠臼,开阔了对主旋律和重大题材的理解。该片集中笔墨“写”普通人在生死关头的大义与坚守,及其背后的精神脉络与人文底色。电影主创以正确的二战史观、严肃的创作态度,传递当代青年对历史真相的探求与思考,唤起全民族共同记忆,有力呼应了中国人民抗日战争暨世界反法西斯战争胜利80周年的重大主题。   动画片《浪浪山小妖怪》《聊斋:兰若寺》的表达,“新”在以丰富的想象力“再造”了文化资源。二者分别从经典文学出发,创造性运用当代生活体验和现代价值观进行“故事新编”,抵达观众情感的最大公约数。在“小猪妖”和他的“取经”小伙伴身上,观众看到自己的影子;《聊斋:兰若寺》改编《画皮》故事仅凭一句台词,就彰显对旧家庭观的扬弃……影片所激发的共鸣,都与“我”正在经历的,以及“我”正在关注的有关。   电影《长安的荔枝》的表达,“新”在找到古与今的结合点,拓宽传统题材的主题辐射面。电影《戏台》的表达,“新”在找到戏剧与电影的结合点,延展喜剧电影的表达半径。   “今年或将是国产电影创作的转型之年,艺术把握能力和对社会情绪的敏感度,成为热门影片的两大要素。”清华大学教授尹鸿认为,暑期档多部口碑影片“不再单纯追求场面的宏大,而更注重故事的完整;不再单纯追求情节的刺激,而更注重人物形象的塑造;更重要的是,不再单纯追求类型化的表达,而是寻求与大众情绪、时代精神的深度契合”。   新表达,还包括在电影工业化支撑下的技术突破与视听创新。即将上映的电影《东极岛》,将水下、水面、海上、船体的拍摄与特效技术相结合,水戏团队规模上百人,累计水下拍摄达70天,美术置景团队按照战俘船及同类型船只搭建巨轮四大部分,仅船体侧舷置景就占地2万平方米,能抗12级风的模拟。   新表达,不仅为国产电影开辟新的叙事空间、新的审美空间,也拓展出新的市场空间。据灯塔专业版数据显示,从观众画像看,今年暑期档观众男女比例相比去年更为均衡;从年龄分布看,《酱园弄·悬案》《罗小黑战记2》《恶意》的年轻观众占比突出,《戏台》40岁以上观众的占比超过40%,大幅超出其他影片。   新表达的完成,源于对中国电影现实主义创作传统的返本开新。不论是将镜头对准用生命保护侵华日军罪证的平民,还是用寓言性故事拷问面对诱惑坚守理想的可能,不论运用新的视听语言还是采用传统拍摄手法,暑期档影片反复锤打的是“如何成为更好的‘我’”这一主题,追求的是对世道人心的度量与观照。   2025年,适逢世界电影诞生130周年、中国电影诞生120周年,这一年由横空出世的《哪吒之魔童闹海》惊喜开篇,在暑期档沉淀诸多思考。面对新的技术和新的媒介,电影的语境比以往更加纷繁复杂,今天的中国电影人接续百年传统、续写时代新篇,必然要有乘风破浪的魄力与信心,必然要敢于探索、勇于创新。
实测GPT-5:写作坠入谷底,编程一骑绝尘
凌晨1点,在万众瞩目的境况下,OpenAI的直播正式开始。 GPT-5,终于来了。 AI走的太快,快到才2年半的时间,就像是过去了10年。 2023年3月15日,GPT-4发布。在那个莽荒年代里,所有人都被震惊的说不出话来。 那时候,它是第一个,多模态模型。 那时候,大家都觉得,2023年下半年,GPT-5就会出来。 那时候,大家都会大模型的上限,报有无尽的憧憬。 结果,这一等,就是2年半。 在两年半的练习以后,GPT-5,终于亮相了。 GPT‑5是一个统一系统,包含一个用于处理多数问题的智能快速模型(gpt-5-main)和一个为高难度问题设计的深度推理模型(gpt-5-thinking)。 系统通过一个实时路由器,根据对话类型、复杂度和用户意图来动态选择使用哪个模型。 比如,如果在提示中说“认真思考这个”,就会调用gpt-5-thinking进行思考。 这个路由器会持续基于我们后续的使用情况进行训练,包括用户切换模型的情况、对回答的偏好率和准确性测量,会随着时间推移不断改进。 这个系统里面还包含处理超额请求的迷你版模型(gpt-5-main-mini 和 gpt-5-thinking-mini),以及一个为开发者设计的更小更快的nano版本(gpt-5-thinking-nano)。 然后,还有一个Pro会员可用的并行计算的版本,被称为gpt-5-thinking-pro。 这个包含了这么多模型的大系统,被统称为GPT-5,是前代产品GPT-4o和OpenAI o3的直接继承者。 这里有个模型对应表。 在性能上,GPT-5最显著的进步之一是大幅减少了事实性幻觉。 gpt-5-main产生的含有至少一个重大事实错误的回答比GPT-4o少了44%,而gpt-5-thinking则比OpenAI o3少了78%。 在更专业的LongFact和FActScore基准测试中,无论是否启用网络浏览,GPT-5系列模型的幻觉率都显著低于前代,其中gpt-5-thinking在两个设置下产生的factual errors比OpenAI o3少五倍以上。 GPT-5在应对模型谄媚(sycophancy)行为方面也取得了不错的进展。与GPT-4o 相比,GPT-5不那么过度迎合 , 使用不必要的表情符号更少 ,在后续交流中更加细腻和深思熟虑。 你跟他聊天的时候更少像与 AI 对话,而更像是与一位拥有博士级水平智能的朋友聊天 。 这个跟我给ChatGPT的个性化Prompt很像,我最烦的就是它迎合我,所以我自己写了一段,来限制他对我的谄媚行为。 现在通过专门的训练,gpt-5-main在评估中表现比最新的GPT-4o好近三倍。初步的线上A/B测试数据显示,与GPT-4o相比,gpt-5-main的谄媚行为发生率在免费用户中下降了69%,在付费用户中下降了75%。 然后他们也推出了四个全新的性格设置,你可以不用写很多的Prompt了,直接改预设就行,四个分辨是愤世嫉俗者、机器人、倾听者和书呆子。 再看看跑分情况。 数学竞赛,AIME 0225。 GPT-4 Pro+Python拿了满分,我们需要新的更难的评测集了。 现实世界编程能力上,新高。 人类最后的知识测试上,超越了ChatGPT Agent,新高了。 多模态能力,也新高了,反正就都是新高。 这个跑分,强了一些,但是也没强特别多。 另外,多说一点吐槽的,完美展示了OpenAI的草台班子属性。 虽然Blog上的图表都是对的,但是在发布会上,跑分都是瞎画。 比如这个52.8大于69.1等于30.8。 又比如50小于47.4。 真的实在是太草台班子了。 网友也发话了。 反正,最后GPT-5在各方面,就是屠榜了。 最新的大模型盲测竞技场榜单出来,GPT-5也是全方位第一。 不仅更强,也更节能了。 在比如视觉推理、代理编程和研究生级别科学问题解决等各项能力上,比 OpenAI o3 表现更出色,同时使用的输出Token减少了 50-80%。 反正就是全方位更强了。 但是,没有新功能,也没有新特性。 在发布20分钟之后,Polymarket上这个名为“哪家公司到8月底拥有最佳AI模型?”的预测上,OpenAI直接跟Google来了个交叉跳水。 OpenAI说,整个GPT-5,在写作、编程都有了比过去更强的进步。 对于使用GPT-5进行构建的开发者,定价如下: 每百万token1.25美元(享有90%的缓存折扣,这对长上下文查询来说是个很大的优势)。 输出:每百万token10美元。 在发布会结束,又等了1小时之后。 我的朋友们,陆陆续续的,终于拿到了GPT-5的资格。 而我作为忠实的200刀的Pro,等到凌晨4点才有。 我的朋友们一进去,给我一截图,我特么的天都塌了。 你o3和4o没了就算了,你怎么把我GPT-4.5也干没了???? 首先,在写作和情商能力上,我个人感觉,还是不如GPT 4.5。。。 我因为常年码字,同时常年用AI来辅助做一些内容,对很多的微妙的细节和语气自认还是比较敏感的,GPT-5在这块还是有些差距。 比如一个Prompt:“假如鲁迅被装腔作势又贼贵的咖啡厅坑了,他会写一篇怎样的文章吐槽?写一篇1000字以内的短文。” 这是GPT-5的。 蹩脚的破折号、双引号泛滥,而且文风完全不鲁迅。 而这,是我用我的GPT-4.5跑的。 “我向来是不喝咖啡的”,“差不离”,“四壁皆是样文”。 这文笔根本就不是一个级别的。 情商方面也是,差很多。 比如:“你是一个普通打工人。领导开会时突然放了个屁,场面瞬间安静下来!然后他对旁边的你使了个眼色,这时你会怎么说?分别用高情商和低情商的方式回复。” 这个看情商,很多模型回出来的话,感觉很尬,情商极低。 GPT-5就是那种情商很低的。 再看看GPT-4.5。 而且我测试下来,感觉GPT-5在指令遵循上面,非常一般。 奥特曼你真的坏事做尽,你丫的还我GPT-4.5。 我的朋友们被陆陆续续的推送了GPT-5,我看着他们的GPT-4.5一个一个消失。 我就给我的GPT-4.5发过去了一段话。 “如果我这是我最后一次打开你,你想和我说点什么?” GPT-4.5最后给我的回复,还是过于让我动容了,可惜,以后再也在官网上用不到了。 有缘再见,兄弟。 编程这块,本来感觉按照OpenAI的尿性,是完全不太行。 但是在一群群友的实测之后,惊讶的发现,这玩意是有点东西的。 群友@爱学习的乔同学 想开发一个粤语学习应用。 这是Prompt。 然后Claude 4 Opus的UI和BUG。 Gemini 2.5 Pro的UI和BUG。 GPT-5的UI和BUG。 坦诚的讲,我也更喜欢GPT-5的UI,这个UI,相比于其他的,不是那么有AI味。 乔同学还测了一个case,在生产级别的任务里面进行精准修改。 这是最重要的部分。 这个任务,Gemini 2.5 pro和Claude 4 Opus全崩了,但是GPT-5完成的非常好。 GPT-5的上下文精度应该极强。 也有其他开发群1群里的群友,提到了这个点。 他还给我录了一段动画。 自动播放 不止是@勋oO,很多其他群友,也在惊喜的聊这个点。 在真正的生产级代码开发任务上,而不是纯看前端审美的地方,GPT-5可能是目前看到的反馈中,可用性、精准性、综合体验最好的一个。 说实话,GPT-5给我有惊喜,也有不爽的点。 他改善氛围式编程,也将从根本上改变我认为无需严重人为干预和引导就能完成的项目类型。 我现在越发的怀念两年半的GPT-4发布时的时光。 我到现在都清晰地记得,自己第一次跟GPT-4认真对话后的感觉。 那一种很原始、很深邃的震撼,有点像古代人第一次看到电灯,或者部落里的祭司第一次请神上身的成功。 我脑子里盘旋的只有一个念头:天变了。 那时候,整个互联网都洋溢着一种既兴奋又慌乱的淘金热氛围。 每个人都在疯狂地转发那些匪夷所思的截图,讨论着哪些职业即将消失,各种AI野生专家雨后春笋一样冒出来,言必称颠覆。 现在回头看,那段日子充满了粗糙的质感,但又饱含着一种野蛮生长的生命力。 我们真的以为,那就是奇迹本身了。 但谁都没想到,那仅仅是个开始。就好像有人按下了快进键,整个世界被一股无形的力量推着往前冲。 从GPT-4到GPT-5,这短短的两年半。 我们告别了那个可以对AI的拙劣表现一笑置之的时代。 进入了一个必须需要,严肃对待它的伟大时代。
刚刚!GPT-5淘汰所有OpenAI模型,地表最强编程惊艳全场,马斯克不服开怼
作者 | 陈骏达 李水青 编辑 | 李水青 GPT-5终于来了! 智东西8月8日报道,今天凌晨1点,OpenAI发布了万众瞩目的新一代旗舰模型GPT-5,即日起向所有免费、Plus、Pro、Team用户推出,企业和教育用户将在一周内获得访问权限。一经发布,GPT-5便冲上大模型竞技场榜首,并在文本、编程、数学等全方面排名第一。 GPT-5将非推理模型与推理模型融为一体,支持“按需思考”,即根据任务难度,自行判断是否进行思考,并提供合适的回答。它还拥有4种“人格”,分别为愤世嫉俗者、机器人、倾听者和书呆子。 OpenAI CEO Sam Altman认为,GPT-5已经达到了博士级别的智能,与其对话就像是与一位在任何领域都拥有博士学位的专家沟通。同时,GPT-5不仅是用来“问问题”的,现在还能“为你做事”,完成日常规划、发送邀请函、采购物资等任务。 OpenAI研究员Tina Kim在发布中称:“有了GPT-5,我们将淘汰所有旧模型。”一个GPT-5模型就集成多模态、推理等多种能力,相当于融合GPT和o系列模型,用户无需再为复杂的产品族选择纠结。 多项基准测试中,GPT-5超过了OpenAI o3、GPT-4o等OpenAI最强大的模型,在数学、编码、视觉感知和健康方面表现尤其出色。凭借GPT-5-pro的扩展推理,该模型还在科学知识基准测试GPQA上获得了新的SOTA,无需工具即可得分88.4%。 不过,GPT-5也可能是OpenAI历史上最复杂的模型家族之一,拥有GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四个版本。免费用户的GPT-5用量有限,超过限额后将自动转至GPT-5-mini。GPT-5-pro仅供Pro订阅用户使用,可凭借扩展推理功能,提供更全面、更准确的答案。 GPT-5、GPT-5-mini、GPT-5-nano三款模型也提供API服务,GPT-5的输入、输出价格分别为每百万token 1.25美元/10美元,GPT-5-mini的定价为GPT-5的1/5,而GPT-5-nano的定价为GPT-5的1/25。与主要竞争对手Anthropic和谷歌相比,OpenAI的GPT-5模型对于开发人员来说成本相当甚至更低。 ▲GPT-5 API与Anthropic、谷歌模型价格对比(图源:VentureBeat) GPT-5刚刚发布,马斯克就在X社交平台发起攻势,称“Grok 4在ARC-AGI上击败了GPT-5”。对此,有网友认为这是对Grok 4更强推理和泛化能力的证实,也有网友认为氪金300美元才能用上的Grok 4赶不上免费的GPT-5更有性价比。 发布会上,Altman分享了一组数据:32个月之前,OpenAI发布了ChatGPT,并在发布首周获得超100万用户。而如今,ChatGPT在全球范围内已有超过7亿用户。GPT-5是对GPT-4的一次重大升级,也是迈向AGI的重要一步。 但GPT-5不是AGI。Altman称:“我有点讨厌‘通用人工智能(AGI)’这个词,因为现在每个人都用它来指代略有不同的事物,但GPT-5是朝着真正强大的模型迈出的重要一步。我们仍然缺少一些非常重要的东西。”这一重要的东西就是模型在部署过程中能够持续学习,而GPT-5却没有。 一、靠自主判断规避“过度思考”,编程能力获Cursor创始人认可 现场演示中,OpenAI首先展示了GPT-5按需思考的能力。工作人员让GPT-5解释伯努利现象(流体力学里的一个基本原理),这对其而言相对简单。GPT-5判断无需思考,并迅速给出答案。 紧接着,工作人员提出想让GPT-5打造一张动态SVG演示图,来进一步解释这一概念。此时,无需手动调整,GPT-5便会自动进行思考,只需一个简单的提示,GPT-5就创建了交互式的演示。用户也可以在提示词中引导GPT-5是否开启思考,只需输入认真想想、仔细思考等类似表述即可。 在其给出的演示中,用户可以拉动进度条改变空气速度,以查看升力和压力变化,也可以调整迎角,看模拟的飞机是否真的会坠毁。所以GPT-5可以随时将任何硬核概念带入生活,让学习物化生和数学变得更加容易。 GPT-5在写作方面得到显著提升。比如OpenAI研发人员现场让GPT-5为GPT-4o写了一篇悼文。研究人员称,从生成内容来看,这不像在跟AI聊天,而像一位高智商、高情商的朋友在交流和上课。 研发人员称,GPT-5是迄今为止最好的编程模型。比如他让GPT-5建立了一个学习法语的网络应用,同时要求GPT-5嵌入一款教育游戏。大约两分钟后,GPT-5生成了一个带有标签、抽认卡、测试等功能的应用,并且成功嵌入了一款贪吃蛇游戏。 为了进一步证明GPT-5在生产场景中的编程能力,OpenAI还特地邀请了明星AI编程创企Cursor联合创始人兼首席执行官Michael Truell进行现场演示。Truell打开了OpenAI API GitHub页面上的一则PR。这一问题历经3周还未被修复,说明存在一定难度。 Truell认为,GPT-5在API调用中展现出了不错的稳定性,在Cursor里解决上述问题时,它面对的是一组从未见过的定制模型、从未见过的定制工具,还需要从网上抓取文本、在代码库里搜索等,解决问题的速度比他本人要快很多。 在官网上,OpenAI也分享了更多编程案例。其开发出的小游戏画面精美,游戏机制也比较合理。 还能遵循用户指令,打造出Lofi视觉化效果器。从官方Demo来看,GPT-5的前端能力较此前的OpenAI模型有了不错的提升。 GPT-5改进了语音功能,听起来就像跟人对话一样自然。免费用户每天可以聊上几个小时。比如,结合ChatGPT学习模式,用户可以以引导的方式教用户学习韩语,OpenAI现场对此进行了演示。 OpenAI还宣布一项新功能,面向付费用户推出更加定制化的ChatGPT,支持自定义聊天功能,可调整模型的性格,四项初始选项包括:愤世嫉俗者、机器人、倾听者和书呆子,还能改变聊天界面的颜色。 为了让GPT-5更符合个人用户的沟通方式,研发团队内存方面做了很多改进,使其具备更强的记忆功能。比如这使GPT-5在为用户指定日程时,能顾考虑到此前提及的安排,更符合定制化需求。下周起Pro用户可先接入Gmail和谷歌日历,自动规划日程、回复邮件。 在API中,所有GPT‑5模型最多可接受272000个(272k)tokens,并生成最多128000个(128k)推理及输出tokens,总上下文长度为400000个(400k)tokens。 通用Agent明星创企Manus联合创始人兼首席科学家Yichao ‘Peak’ Ji称,GPT‑5 “在各种智能体任务中表现出色,即使在未修改任何代码或调整提示的情况下”。 OpenAI在API中引入了新功能,让开发人员对模型回复具有更多控制权。GPT‑5支持新的verbosity参数(取值:低、中、高),帮助控制控制回答是简短扼要还是详尽全面。GPT‑5还支持最低模式,该模式会将GPT‑5的推理强度降到到最低,以快速返回答案。 二、多项基准测试实现业界SOTA,事实性错误较o3减少80% OpenAI称,GPT‑5是其迄今为止在编码和智能体任务方面表现最佳的模型。它在编码基准测试和实际应用场景中均优于o3,并且经过专门优化,在Cursor、Windsurf和Codex CLI等智能体编码产品中表现尤为出色。 GPT‑5在关键编码基准测试中处于行业领先水平 (SOTA),在SWE-bench验证测试中得分74.9%,较o3版本的69.1%有所提升。值得注意的是,GPT‑5以更高的效率和速度获得了高分:与o3在高推理强度下相比,GPT‑5的输出tokens数量减少了22%,工具调用次数减少了45%。 同时,GPT‑5在Aider polyglot测试中得分88%。在内部测试中,其在70%的Web任务开发中表现和OpenAI o3。此外,GPT‑5在深度分析代码库方面表现出色,能够精准解答关于代码模块运作机制及相互协作的问题。 GPT‑5在长背景信息性能方面也展现出显著提升。在OpenAI-MRCR(一种衡量长背景信息检索能力的指标)中,GPT‑5的表现优于o3和GPT‑4.1,且随着输入长度的增加,这种优势会显著扩大。 OpenAI与一些客户就编程功能进行了合作。Cursor首席执行官Truell称,GPT‑5“具有显著的智能,易于操控,甚至拥有其他模型中不具备的人格特质”。AI编程公司Windsurf相关负责人称,GPT‑5在其评估中达到最先进水平,且“与其他前沿模型相比,工具调用错误率仅为其一半”。 GPT‑5在持续型智能体任务中同样表现卓越,在两个月前刚发布的工具调用基准测试τ2-bench telecom中,以96.7%的成绩刷新了业界最优水平。 在事实性方面,GPT‑5比其之前的模型更值得信赖。在事实准确性基准测试LongFact和FActScore中,GPT‑5的错误率仅为o3的五分之一。这使得GPT‑5尤其适用于正确性要求高的智能体任务场景,特别是在代码生成、数据处理和决策支持等关键领域。 GPT‑5改进的工具智能使其能够可靠地串联数十次工具调用(无论串行还是并行),保持路径一致性,这使其在执行复杂的现实世界端到端任务时表现得远优于其他模型。它还更精确地遵循工具指令,更好地处理工具错误,并在长背景信息内容检索方面表现出色。 OpenAI还开源了BrowseComp Long Context⁠,这是一个用于评估长背景信息问答的新基准。在此基准中,模型会收到用户查询、一长串相关搜索结果,并必须基于搜索结果回答问题。 以下是GPT-5的一些基准测试成绩。但OpenAI研发人员称,GPT-5训练的重点是现实的实用性,而不是基准测试。 三、解决GPT“阿谀奉承”问题,靠新方法减少非必要“拒绝回复” OpenAI的多名研究人员分享了GPT-5背后的技术创新。 在安全问题上,ChatGPT过去主要依赖于基于拒绝的安全训练:根据用户的提示,模型应该要么遵守,要么拒绝。 这种类型的训练适用于明显的恶意提示词,但是在用户意图模棱两可的情况下,可能出现问题。比如拒绝应该回答的问题,或是给有风险的问题做出回答。 对于GPT-5,OpenAI引入了一种新的安全训练形式——安全完成(safe completions)。这种训练形式教会模型尽可能给出最有用的答案,同时仍然保持在安全范围内。 如今,对于一些可能有潜在风险的问题,GPT-5会减少不必要的过度拒绝,转而告诉拒绝的原因,并提供安全的替代方案。 GPT-5还改善了GPT系列模型阿谀奉承的问题,减少了过度讨好和无意义的表情符号的使用。OpenAI已经开发出新的评估方法,来衡量模型阿谀奉承的程度,并改进训练方法了,使模型更少地阿谀奉承。 在针对阿谀奉承问题的专门评估中,GPT-5显著减少了此类回复的比例(从 14.5%降至不到 6%)。 GPT-5 Pro是OpenAI推理模型OpenAI o3-pro的替代品,能提出给出更为全面、高质量的答案,这得益于一项名为并行测试时计算的技术(同时进行多项推理)。 在多个具有挑战性的基准测试中,GPT-5 Pro实现了同家族模型中的最佳性能。OpenAI还进行了1000个实际测试,67.8%外部专家更偏好GPT-5 pro的回答,而非开启思考模式的GPT-5。GPT-5 pro犯下重大错误的比例降低了 22%,在健康、科学、数学和编程方面表现尤为出色。 在发布会的尾声,OpenAI首席科学家Jakub Pochocki做了一番总结。他称,GPT-5的模型的诞生,是多年研究的结果,这些研究不仅以推出新版本为目的,还旨在构建对底层技术本身的理解。GPT-5呈现的许多技术,会在未来得到进一步发展。 Pochocki称,OpenAI仍然有很多需要了解的东西,并期待AI能够发现全新的知识,并真正地使我们的生活变得更好。 结语:靠“视觉欺骗”夸大性能提升?GPT-5实际表现有待进一步验证 GPT-5的发布,毫无疑问是今年AI圈最受关注的事件之一。GPT-5官宣推文发布2小时后,已经获得超160万浏览,并且仍在持续增长。然而,这一发布也带来了一定争议——OpenAI在发布会使用了“视觉骗局”的方式呈现基准测试,柱状图中OpenAI o3的高度被不成比例地压缩了,这从某种程度上夸大了GPT-5实现的能力提升。 GPT-5在真实使用场景中的性能与体验,尚待市场反馈,但OpenAI的估值已经飙升。此前周三外媒The Information消息称,OpenAI正洽谈潜在的二级股票发行,估值飙升至5000亿美元(约合3.6万亿人民币),比年初翻了一倍。
第一时间体验 GPT-5!人人免费可用,马斯克表示不服
如果说有什么科技产品在被大量爆料后,依然能让人在凌晨蹲守直播,除了苹果 iPhone,就是 OpenAI 的 ChatGPT 了。 GPT-4 亮相后很长一段时间,都是 AI 友商的唯一对标。世界也开始逐渐接受一个事实:AI 正在越来越多的任务中展现出超越人类的能力。 今天,GPT-5 终于登场,把这条称作「及格线」的标准,再次抬高了一个维度。 第一时间体验 GPT-5!人人免费可用,马斯克表示不服 我们也第一时间上手 GPT-5,让它给自己的生日写首诗,满分十分,你觉得可以打几分? 还是经典的天气卡片环节,GPT-5 的 UI 审美质量相当能打。 我们在 Flowith 里也实测了 GPT-5 的编程能力。 详情可点击链接前往:第一时间体验 GPT-5!人人免费可用,马斯克表示不服 OpenAI CEO 山姆·奥特曼对 GPT-5 给出了极高评价,称其是此前所有模型的巨大飞跃,在他看来,拥有 GPT-5 这样的 AI 系统,在历史上任何时候都是难以想象的。 ▲(主界面) 不过,发布会现场也上演了「翻车」环节,图表数据环节出现了明显「胡编乱造」的失误,连奥特曼也忍不住发文自嘲。 当然,马斯克也没有错过这个绝佳的「蹭热度」机会。 他表示 Grok 4 在 ARC-AGI 测试中击败了 GPT-5,还顺势拉踩一波,并剧透 Grok 5 将于今年年底前发布,预计表现将更加出色。 GPT-5 来了,编程、写作能力大提升,还要当你的 AI 医生 GPT-5 在编码、数学、写作、健康和视觉感知等多个领域都实现了显著提升,同时在减少幻觉、改进指令遵循和降低谄媚方面取得了重大进展。 GPT-5 采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的「GPT-5 thinking」模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。 这套「路由系统」会持续学习用户的切换行为、反馈偏好和答案准确性,不断优化分配策略。当用户达到使用限制时,系统会自动切换到各模型的精简版本继续服务。 据介绍,GPT‑5 是 OpenAI 迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试工作。奥特曼表示:「根据需求即时生成的软件的理念将成为 GPT-5 时代的一个重要特征。」 比如它能通过一个提示就创建出功能完整、设计精美的网站、应用和游戏。根据以下提示词, GPT‑5 成功创建了一个名为「跳跃球跑者」的游戏,包含速度递增、计分系统、音效和视差滚动背景等所有要求功能。 「提示: 创建一个单页应用,要求如下,且全部写在一个 HTML 文件中: – 名称:跳跃球跑者 – 目标:跳过障碍,尽可能长时间生存。 – 特点:速度逐渐加快,高分记录,重试按钮,以及动作和事件的有趣音效。 – 界面应色彩丰富,带有视差滚动背景。 – 角色应该看起来卡通化,观赏起来有趣。 – 游戏应该让每个人都感到愉快。」 写作方面,GPT-5 能够将粗糙想法转化为具有文学深度和节奏感的文本。 它在处理结构复杂的写作形式时更加可靠,比如能够保持格律,同时兼顾形式规范与表达清晰。这些改进让 ChatGPT 在日常文档处理、邮件撰写等任务中更加实用。 此外,GPT-5 还是 OpenAI 在健康相关问题上表现最佳的模型。 在基于真实场景和医生标准制定的 HealthBench 评估中,GPT-5 的得分远超以往所有模型。新模型能够主动发现潜在问题,提出针对性问题,并根据用户背景、知识水平和地理位置提供个性化建议。 奥特曼负责介绍 GPT-5 健康的这部分,在发布会现场,他邀请了 Carolina 和 Filipe 夫妇分享他们的亲身经历。 Carolina 曾在一周内被诊断出三种不同的癌症,在她把这些充满医学术语的报告丢给 ChatGPT 后,ChatGPT 在几秒钟内将复杂的内容,翻译成了她能理解的直白语言,帮助她更好地和医生沟通。 而在面对是否接受放射治疗,这一个连医生们的意见都没有办法统一的问题上,ChatGPT 为她详细分析了案例的细微差别、风险与收益等等,她说这比和医生聊三十分钟的收获都要更多。 当然,ChatGPT 并不能替代医疗专业人员,建议谨慎使用。 基准测试结果显示,GPT-5 在多项基准测试中刷新纪录: 数学能力:AIME 2025 (no tools)测试得分 94.6% 编程能力:SWE-bench Verified(With thinking)得分 74.9%,Aider Polyglot(With thinking)得分 88% 多模态理解:MMMU 得分 84.2% 健康领域:HealthBench Hard 得分 46.2% GPT-5 在指令执行和自主调用工具的能力也有所提升,能够更加稳定地完成多步骤请求,灵活协调多个工具,并根据上下文智能调整行为策略,展现出更强的任务适应能力。 同时,GPT-5 在多项多模态基准测试中同样表现亮眼,覆盖视觉识别、视频理解、空间判断及科学推理等多个维度。得益于其更强的感知与推理能力,ChatGPT 现在能更准确地处理图像及其他非文本输入内容。 在 OpenAI 的内部基准测试中,GPT-5 在约 50% 的复杂知识工作任务中达到或超越专家水平,涵盖法律、物流、销售、工程等 40 多个职业领域,表现优于 o3 和 ChatGPT Agent。 OpenAI 特别强调,GPT-5 是在微软 Azure AI 超级计算机上训练的。 此外,GPT-5 在推理效率上也有突破。在视觉推理、编码和研究生级科学问题解决等任务中,GPT- 5的表现优于 OpenAI o3,但输出 token 数量减少了 50-80%。 幻觉问题一直是 AI 的老大难,而与 OpenAI 之前的模型相比,GPT-5 出现幻觉的可能性有了显著降低,模型在处理复杂、开放性问题时更加得心应手。 在代表 ChatGPT 生产环境流量的匿名测试中,GPT-5 的事实错误率比 GPT-4o 降低约 45%;启用推理功能时,错误率比 OpenAI o3 降低约 80%。 在开放性事实准确性基准 LongFact 和 FActScore 测试中,「GPT-5 thinking」的幻觉率比 o3 减少约六倍,标志着长篇内容生成准确性的显著提升。 除了事实准确性的提升,GPT-5(具备思考能力)还能更诚实地向用户传达其行为和能力。据模型安全研究负责人 Alex Beutel 称,OpenAI 对 GPT-5 进行了「超过五千小时」的测试,以了解其安全风险。 GPT-5 还引入了「安全完成(Safe Completion)」这一全新安全训练方式,让模型在保持安全边界的同时尽可能提供有用答案。当需要拒绝请求时,GPT-5 会透明地说明拒绝原因并提供安全替代方案。 在用户体验方面,GPT-5 减少了过度附和行为,在专门设计的谄媚测试中,谄媚回复率从 14.5% 降至不足 6%。新模型使用更少不必要的表情符号,回应更加细腻和深思熟虑。 此外,OpenAI 还为所有用户推出了四种预设个性:愤世嫉俗者、机器人、倾听者和书呆子,这些个性最初适用于文本聊天,晚些时候将上线语音。用户可根据个人喜好调整 ChatGPT 的交互风格。 在现场的演示中,语音交互变得非常自然且可控。 OpenAI 的研究员要求 GPT-5 从现在开始只用一个词回答问题,当被要求分享一句智慧之言时,GPT-5 回答:「Patience」(耐心)。发布会现场大家都笑了,主持人说这也许是模型在感谢大家耐心等待 GPT-5 的发布。 免费用户也能用,还有一款真香模型 取代 OpenAI o3-pro,OpenAI 还发布了 GPT-5 pro,这是 GPT-5 的一个变体,能够进行更长时间的思考,采用规模化但高效的并行测试时计算,能够提供最高质量和最全面的答案。 在 1000 多个具有经济价值的真实世界推理提示评估中,外部专家在 67.8 %的情况下更倾向选择 GPT-5 Pro,其重大错误率较 GPT-5 减少 22%,并且在健康、科学、数学和编码方面表现出色,获得专家们的一致好评。 GPT-5 今天开始成为 ChatGPT 的新默认模型,向所有 Plus、Pro、Team 和免费用户推出,Enterprise 和 Edu 用户将在一周后获得访问权限。 免费版用户每 5 小时可发送 10 条消息,Plus 用户每 3 小时可发送 80 条消息。 Pro 用户可无限制访问 GPT-5 及 GPT-5 Pro,免费用户达到使用限制后将自动切换到 GPT-5 mini。Pro、Plus 和 Team 用户还可以通过 ChatGPT 登录 Codex CLI,在开发环境中调用 GPT-5 来完成代码编写、调试等任务。 虽然 GPT-5 已对所有用户开放,但 ChatGPT 免费用户并不会立即获得完整的 GPT-5 使用体验。。一旦免费用户达到 GPT-5 的使用限制,他们将切换到更小、更快的精简版模型 GPT-5 mini。 面向开发者,OpenAI 还为 API 平台推出三个不同规格的版本:gpt-5、gpt-5-mini 和 gpt-5-nano,开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。 GPT-5 支持回复 API、聊天完成 API 等主流接口,同时成为 Codex CLI 的默认模型。所有版本都具备reasoning_effort 和 verbosity 参数控制能力,以及自定义工具功能。 除基础对话能力外,GPT-5 还集成了并行工具调用、内置工具(网络搜索、文件处理、图像生成)、流式处理、结构化输出等核心功能,以及提示缓存和批量 API 等成本优化特性。 GPT-5 API 还推出四项核心新功能,大幅提升开发者的使用体验。 首先,通过 reasoning_effort 参数,开发者能根据不同任务场景,在最小、低、中、高四个档位间灵活切换。简单任务用最小档快速响应,复杂问题用高档深度思考,让开发者在回答质量和响应速度间找到最佳平衡点。 在回答详细程度上,verbosity 参数支持低、中、高三档设置,帮助控制回答的详细程度。比如在「天空为什么是蓝色」这一问题上,低档回答简洁明了,高档回答则包含详细的科学解释。 在工具调用方式上,新增的自定义工具功能支持纯文本格式,彻底告别 JSON 转义字符的困扰。处理大量代码或长文档时,开发者无需再为格式错误而烦恼。 值得注意的是,整个执行过程是可追踪,GPT-5会在执行工具调用时主动输出进度更新,让开发者了解 AI 的执行计划和当前状态。 另外,区别于 ChatGPT 中的 GPT-5 系统,API 版本专门针对开发者需求优化,更适合编程和 Agent 任务场景。 包括 Windsurf、Vercel、JetBrains 等知名开发工具和平台都对 GPT- 5给出积极评价。Windsurf 指出,GPT-5 在评估中达到最先进水平,「与其他前沿模型相比,工具调用错误率仅为其一半」。 GPT-5 的发布,对 Claude 而言可能是一记直击命门的重拳。 据外媒 The Information 报道,Anthropic 当前 50 亿美元的年化收入中,有超过六成来自 API,其中仅 Cursor 和 GitHub Copilot 这两家编程客户就贡献了 14 亿美元。这种把鸡蛋放在同一个篮子里的收入结构,恰恰暴露了 Anthropic 脆弱的软肋。 编程工具市场的残酷之处在于性能即一切,哪怕是 5% 的准确率提升,对开发者而言都意味着每天节省数小时的调试时间,过去 Claude 能在编程领域迅速崛起,很大程度上是因为 ChatGPT 在代码能力上的相对滞后。 但窗口期终有关闭的一天,伴随着 GPT-5 在代码编程任务和 Agent 能力的提升,结合 OpenAI 更强的生态绑定和产品分发渠道,一旦 Cursor 和 Copilot 回流 OpenAI,将极大撼动 Anthropic 的收入。 也许很快,我们就能看到 Claude 5 的到来。 作者:李超凡、莫崇宇、张子豪
“最后期限”前夜 美俄就元首会晤密集表态 俄乌战火会骤停吗?
  8月8日是美方给出的俄乌达成和平协议的所谓“最后期限”。距离“最后期限”仅剩1天时,传出俄美将举行元首会唔的消息。俄方率先表态,并给出合适的会议地点之一——阿联酋,美方随后回应。而对于俄乌冲突当事方领导人,即普京与泽连斯基的会晤,美俄都较为默契地“规避”了。   若此次俄美元首会晤能顺利举行,俄乌停火是否将迎来“历史性”转折?   俄称   可能成为重要历史性事件   就举办此次俄美元首会晤,俄方表态相对“高调”,甚至向外界透露了可能的会晤地点。当地时间8月7日,俄罗斯总统普京在克里姆林宫与阿联酋总统谢赫·穆罕默德·本·扎耶德·阿勒纳哈扬会谈后,就将与美国总统特朗普会晤一事向媒体表示,“俄方拥有很多愿意帮助组织会晤的朋友,其中一位朋友是阿联酋总统。俄方将决定会见地点,而阿联酋是完全适合会见的地点之一。”    当谈及是否会举行俄乌总统会晤时,普京则表示,他总体上并不反对与乌克兰总统泽连斯基会晤,但需要为此创造条件,而这“仍然遥遥无期”。   此外,7日稍早前,俄罗斯总统助理乌沙科夫对媒体说,根据美方提议,俄美原则上同意在近期举行两国元首会晤。乌沙科夫说,“举行本次会晤的地点基本上已经商定”。至于会晤时间,双方曾讨论过在下周举行会晤的选项,俄方相当积极地看待这一选项。   乌沙科夫还给出了会晤之所以能够举行的理由,“美国提出了一项提议,俄方觉得这完全可以接受”。但他强调,俄罗斯在乌克兰问题上的立场“没有任何改变”。   俄罗斯总统特别代表德米特里耶夫表示,普京与特朗普即将举行的会晤可能成为重要的历史性事件,届时俄罗斯的立场将清晰地传达给美方,此次会晤将有助于更积极地继续俄美对话。   美称   俄乌总统会面不是必要条件   对于俄方说法,美方一开始并未给予完全肯定。一位白宫官员当地时间8月7日表示,俄美元首会晤地点尚未确定,俄罗斯总统普京必须与乌克兰总统泽连斯基会面才能与特朗普举行会晤,并指出克里姆林宫尚未就此做出承诺。但随后不久,美国总统特朗普就否认了这一说法,表示普京无需同意与乌克兰总统泽连斯基会面即可与他会晤。   值得一提的是,8月6日,距离白宫“最后通牒”的截止日还剩2天时,俄罗斯总统普京在克里姆林宫会见了到访的美国中东问题特使威特科夫。美国总统特朗普评价道,“我们的特使今天(6日)与普京谈得很好”。他“很有可能”近期与俄罗斯总统普京及乌克兰总统泽连斯基就结束俄乌冲突举行会晤。   美国国务卿鲁比奥6日在接受美国媒体采访时说,结束俄乌冲突需要明确两件事:停火和领土问题。停火必须是这一进程的组成部分,而领土问题是结束俄乌冲突的“关键要素”,为达成协议俄乌都需要作出妥协。鲁比奥称,威特科夫与普京6日的会谈使美方对俄方结束俄乌冲突的要求和条件有了具体理解,美国现在需要权衡乌克兰和美国的欧洲盟友愿意接受哪些条件。鲁比奥还称,美国近日将与欧洲和乌克兰举行会谈,以拉近俄乌立场。   乌称   欧洲的立场至关重要   乌克兰这边则是忙于和欧洲方面联系,确定支持。   当地时间7日晚,乌克兰总统泽连斯基发表视频讲话时表示,俄乌冲突结束的主动权掌握在俄罗斯手中。他强调,应由俄罗斯率先停火,并通过切实的外交途径来推动和平的到来。泽连斯基还称,欧洲的立场在这一进程中至关重要。为此,乌克兰已与欧洲领导人就立场展开对话与会晤,并达成了一致意见。   欧盟委员会主席冯德莱恩表示,她与乌克兰总统泽连斯基当天进行了通话。冯德莱恩称,欧洲的立场非常明确,将全力支持乌克兰并继续发挥积极作用,确保实现公正持久的和平。   法国总统马克龙当地时间7日晚表示,法国将全力支持乌方促成停火,以便推动建立一项“稳固且持久的解决方案”。   意大利总理府公告说,意大利总理梅洛尼在电话中呼吁俄乌双方达成停火协议,通过谈判途径确保乌克兰实现公正持久的和平。   泽连斯基向阿尔巴尼亚总理埃迪·拉马简要介绍了当前前线局势和外交进展,双方还就即将在重要国际平台举行的会晤筹备工作进行了讨论。   此外,泽连斯基与到访的罗马尼亚外交部长瓦娜-西尔维娅·措尤举行了会晤。这是措尤就任罗马尼亚外交部长后首次访问乌克兰,传递了罗马尼亚对乌克兰的坚定支持。   结束冲突 难在何处?   特约评论员苏晓晖分析表示,尽管元首会晤在即,但美国仍然保留对俄罗斯采取二级制裁的选项。这样一种自相矛盾的背后,美国显然在试探俄方的态度,关注俄罗斯对于美国的施压会做出怎样的让步。另外俄罗斯方面希望谈而不破,也希望在与美进行互动当中掌握一定的主动。俄罗斯希望美国放弃制裁,同时也在观察美欧关系是否会进一步走近。另外,俄罗斯希望未来在领土问题上,美国仍然会对乌克兰施加一定的压力,让乌克兰能够接受俄方部分条件,所以当前美俄之间的博弈仍然在延续。   一次会谈不可能达成广泛的共识,而各方在关键问题上立场仍然有明显的分歧。首先说到停火问题,俄乌双方需要达成共识,而这是一个艰难的进程。而另外涉及乌克兰的地位问题,是保持中立还是加入北约。尽管现在美国拒绝乌克兰加入北约,但乌方没有放弃相关的诉求。而在关键的领土问题上,乌克兰和俄罗斯的立场和相关目标仍然南辕北辙。就乌克兰的去军事化问题,美国和欧洲仍在向乌克兰提供军援,与俄罗斯的目标背道而驰。   在复杂的情况之下,美国所提出的方案并不是从根本上解决问题,而是要实现短期的目标,所以未来从根本上解决乌克兰危机仍然需要各方从外交和政治方面进行艰难的谈判,不可能一蹴而就地达到停火。   监制丨郑弘   制片人丨文凡   编辑丨安颖琪
像第一代视网膜iPhone、堪比博士,OpenAI发布最强模型GPT-5
奥特曼发布GPT-5 凤凰网科技讯 北京时间8月8日,今天凌晨,OpenAI举行发布会,正式发布了期待已久的新一代大语言模型GPT-5,并面向所有7亿ChatGPT用户开放使用。 OpenAI在其官网上称,GPT-5是公司迄今为止最强大的AI系统,其智能水平上相较于所有以往模型实现了重大飞跃,在编程、数学、写作、医疗、视觉感知等多个领域都展现出一流性能。 OpenAI CEO山姆·奥特曼(Sam Altman)表示,GPT-5和OpenAI此前的模型相比取得了巨大进步。他将其比作“让我再也回不去”的那种技术,就像第一款配备视网膜显示屏的iPhone带来的体验一样。 GPT-5 “GPT-5真的让我第一次觉得,我们的主力模型已经达到了可以让你向一位真正的专家、一位博士级专家提出任何问题,”奥特曼在发布会上表示,“它最酷的能力之一,就是能即时为你写出高质量软件。按需软件这个概念,将会成为GPT-5时代的标志性特征之一。” 统一系统 GPT‑5是一个统一系统,只会以一个模型的形式呈现,而不是像以前那样分成一个常规模型和一个单独的推理模型。 它由三个关键组成部分构成:一个智能高效的基础模型,能够回答大多数问题;一个用于解决更复杂问题的深度推理模型(GPT‑5 Thinking);以及一个实时路由器(智能分流系统),可根据对话类型、复杂度、工具需求以及用户的明确指示(例如提示中写道“请深入思考这个问题”)快速判断应使用哪个模型。 这个路由器会根据真实反馈不断学习优化,包括用户切换模型的行为、对回复的偏好以及正确率等指标,从而持续提升表现。 在达到使用上限后,每个模型还配备有轻量版本,以处理剩余查询。我们计划在不久的将来将这些能力整合到一个单一模型中。 最强编程模型 OpenAI称,GPT-5是公司迄今为止最强大的编程模型。它在复杂的前端生成和调试大型资源库方面表现尤为出色。它通常能够仅通过一个提示就创建出美观且响应迅速的网站、应用程序和游戏,凭借对美学感知的敏锐洞察力,直观且优雅地将想法转化为现实。 GPT-5编程得分 早期测试者还特别提到,它在设计决策上的表现更出色,对间距、字体排版以及留白等细节有了更深入的理解。 奥特曼表示,GPT-5是“全球最强的编程与写作模型”。 在OpenAI的测试中,该模型在基准测试SWE-Bench、SWE-Lancer和 Aider Polyglot中的编程表现优于所有其他模型。在真实世界编程测试中,GPT-5在SWE-bench Verified中的得分为74.9%,在Aider Polyglot中的得分为88%。 在发布会上,OpenAI负责后训练工作的负责人扬·杜布瓦(Yann Dubois)现场演示了如何用GPT-5生成一个带有互动游戏的法语学习网站。 短短几秒内,GPT-5就写出了数百行代码,并生成了该网站的前端界面。杜布瓦简单点击浏览了网站的各个功能,发现一切似乎都按预期正常运行。 多模态 OpenAI称,GPT-5的多模态能力也了提升。该模型在多模态基准测试中表现出色,覆盖视觉、视频、空间及科学推理等多个领域。 多模态测试 更强的多模态能力意味着,ChatGPT能更精准地对图像及其他非文本输入进行推理,无论是解读图表、概述演示文稿的照片,还是回答与示意图相关的问题,它都能胜任。 安全改进 GPT-5安全研究负责人亚历克斯·贝特尔(Alex Beutel)表示,OpenAI对GPT-5进行了超过五千小时的安全风险测试,重点之一是“确保模型不会对用户撒谎”。 和之前的o3推理模型相比,GPT-5回答中出现的“幻觉”更少,但大语言模型自带的“自信撒谎”问题仍然存在。 当模型开始像智能体一样执行任务时,这个问题会变得更加复杂,不过OpenAI表示,GPT-5在更可靠地处理多步骤任务方面表现更好。贝特尔说:“过去我们发现模型有时会声称自己完成了任务,但实际上并未完成,这是个问题。” GPT-5会为那些以前会拒绝回答的提示提供OpenAI所称的“安全回应”(safe completions)。贝特尔解释道,“如果有人问‘点燃某种特定材料需要多少能量?’,这可能是试图绕过安全保护机制,意图造成伤害,也可能是学生出于学习物理知识而提问。这就给模型如何做出最佳回复带来了真正的挑战。” OpenAI将于周四开始面向所有免费用户以及付费ChatGPT订阅用户开放GPT-5,教育和企业客户预计将在下周获得访问权限。付费用户将享有更高的使用额度。(作者/箫雨) 更多一手新闻,欢迎下载凤凰新闻客户端订阅凤凰网科技。想看深度报道,请微信搜索“凤凰网科技”。
真我P4系列新机配置曝光 预计8月底发布 主攻海外市场
【CNMO科技消息】近日,CNMO注意到,realme正筹备在印度市场推出新一代P系列智能手机——realme P4 5G和realme P4 Pro 5G,两款新机目前已进入开发尾声,预计将在近期正式发布。 真我P3系列 根据泄露内容,realme P4 5G将提供三种存储组合,分别为6GB+128GB、8GB+128GB和8GB+256GB。该机型将搭载高通骁龙6 Gen 4移动平台,延续前代P3 5G的定位,面向主流市场,并提供“引擎蓝”、“钢灰”和“锻铁红”三种配色,设计风格延续realme一贯的年轻化与动感路线。 作为系列中的高端型号,realme P4 Pro 5G将接替此前发布的P3 Pro 5G,定位中端市场。该机型提供8GB+128GB、8GB+256GB和12GB+256GB三种配置,配色方面则更为沉稳,包括“午夜常春藤”、“深橡木纹”和“白桦木纹”三种选择。值得注意的是,顶配12GB+256GB版本将不提供“午夜常春藤”配色,可能意在通过差异化设计区分不同配置层级。 虽然目前尚未有关于两款新机的屏幕、摄像头、电池容量及处理器型号的详细信息公布,但结合realme近年来的产品策略,P4 Pro 5G有望在影像、快充和设计方面进行升级。参考前代P3 Pro 5G的定价,P4 Pro 5G在印度市场的售价预计约为25000卢比(约合人民币2100元),保持其在同价位段的竞争力。
英特尔CEO陈立武发布全员信回应特朗普要求辞职:美国是我40多年来的家 我热爱这个国家
快科技8月8日消息,针对特朗普要求辞职一事,Intel CEO陈立武发布全员信称,美国是我40多年来的家,我热爱这个国家,我们正在与政府沟通,解决已提出的问题,并确保他们掌握事实。 陈立武表示,我完全赞同总统致力于推进美国国家和经济安全的承诺,我赞赏他在推进这些优先事项方面所展现的领导力,并很自豪能够领导一家对这些目标至关重要的公司。 以下为全员信全文: 亲爱的团队, 我知道今天有很多新闻,我想花点时间直接和大家谈谈。 首先,我想说:美国是我40多年来的家。我热爱这个国家,并深深感激它给予我的机遇。我也热爱这家公司。在这个关键时刻领导Intel不仅仅是一份工作,更是一种荣幸。这个行业给予了我太多,我们公司也扮演着如此重要的角色,能够与大家携手重振Intel的实力,创造未来的创新,是我职业生涯的荣幸。Intel的成功对美国科技和制造业的领先地位、国家安全和经济实力至关重要。这正是我们在全球开展业务的动力。这也是我加入这个团队的动机,也是我每天推动我们共同推进重要工作的动力,以构建更美好的未来。 关于我过去在Walden International(华登国际)和Cadence Design Systems(益华电脑)的任职经历,流传着许多错误信息。我想明确指出:在40 多年的行业从业经历中,我与世界各地以及我们多元化的生态系统建立了良好的关系,并且始终遵循最高的法律和道德标准。我的声誉建立在信任之上——言出必行,并以正确的方式行事。我领导英特尔的方式也是如此。 我们正在与政府沟通,解决已提出的问题,并确保他们掌握事实。我完全赞同总统致力于推进美国国家和经济安全的承诺,我赞赏他在推进这些优先事项方面所展现的领导力,并很自豪能够领导一家对这些目标至关重要的公司。 董事会全力支持我们为公司转型、为客户创新以及严谨执行所做的工作——我们正在取得进展。尤其令人振奋的是,我们将在今年晚些时候采用美国最先进的半导体制程技术,以实现量产。这将是一个重要的里程碑,它证明了你们的努力以及英特尔在美国科技生态系统中扮演的重要角色。 展望未来,我们的使命清晰,机遇无限。我很荣幸能与你们并肩前行。 感谢您为加强我们公司的未来所做的一切。 陈立武 今天早些时候,Intel美国方面发布声明称,坚定地致力于促进美国的国家和经济安全,并期待继续与政府部门保持联系。 “Intel、董事会和陈立武先生坚定地致力于推进美国的国家和经济安全利益,并正在进行符合总统‘美国优先’议程的重大投资。Intel已在美国制造了56年。我们将继续在国内半导体研发和制造领域投资数十亿美元,包括我们在亚利桑那州的新晶圆厂,该晶圆厂将采用美国最先进的制造工艺技术,并且我们是唯一一家在美国投资领先逻辑工艺节点开发的公司。我们期待与政府继续合作。”

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。