EN
中文
注册 / 登录
产品分类:
加载中...
头条分类:
加载中...
真有被现在的探探平台吓到…
事情是这样的: 最开始,我在小红书上收到一条私信,说有人用我的信息在探探上冒充我,还拿去相亲。 那个女生告诉我,她和对方聊了很久,结果账号突然注销了,她问我:是不是你不想理她了? 没过几天,微博又有人私信我,说探探上怎么找不到我了;我告诉他,我根本没注册过探探。他这才反应过来,自己一直在跟骗子聊天。 01 本来以为这事差不多结束了,没想到后面越来越魔幻。 接着,抖音上有位小姐姐私信我:你是不是信息被盗用了?我在探探上看到你了。我当时就觉得不对劲,赶紧回她:如果再遇到这种情况,直接举报就好。 我以为这事就这么过去了。 结果没几天,那位小姐姐又发来消息:我又刷到你了。还给我发了截图和探探ID。这下彻底忍不了了。我打了探探客服电话,想让他们帮忙处理。 结果你猜客服怎么说? 他们居然告诉我:你得先注册一个探探账号,我们才能把处理结果反馈给你;我当时就懵了。我对这种社交平台本来就没什么好感,注册完一堆乱七八糟的信息肯定会来找你。 我就问能不能不注册账号也帮我处理?客服说不行。你说气不气人? 我是个人信息被盗用的受害者,去找平台反映问题,结果人家说必须先注册账号,实名或者把资料发过去,才能帮你处理;这也太离谱了。 更离谱的是,平台还补充了一句:处理完也不能保证不会再出现;也就是说,就算你举报了一个冒充账号,它可能还会换个马甲回来。 注释:这样的留言还有很多 事情发展到这一步,心里确实不是滋味。于是,我查了下探探最近的财报数据,结果越看越觉得,这事儿没那么简单。 根据2025年Q1财报,探探的月活用户同比下滑了21.9%,从1370万掉到了1070万;付费用户数也减少了30万,从110万降到了80万。 更夸张的是,陌陌付费用户更是从380万暴跌到90万,几乎腰斩。这些数字背后,藏着什么问题? 一句话总结:用户信任,正在悄悄崩塌。 说实话,一开始,我以为只是个别案例,毕竟互联网上谁还没遇到过点骚扰信息?但当我看到这些数据时才意识到:我的遭遇,只是冰山一角。 因为当一个平台的用户开始大量流失,尤其付费用户对平台更有粘性和价值的核心人群在减少时,往往意味着一件事: 用户不再信任这个平台了。而信任崩塌的背后,往往是隐私泄露、虚假账号泛滥、平台响应迟缓等问题的集中爆发。 探探一直宣传自己有“敏感词弹窗”、“人工审核团队”等机制,号称是用户的“安全港”。 可现实呢?我去小红书、微博搜了下,发现大量用户吐槽被冒充过;更讽刺的是,很多人提到举报无效。所以,平台所谓的“保护机制”,是表面功夫。 还有一点,现在的社交模式已经变了。平台不保护用户隐私,用户自然就会离开。Z世代年轻人,正在逃离像探探这样的“颜值社交”平台,转投Soul、小红书等“兴趣社交”平台。 为什么?因为在那些平台上,他们能通过算法匹配到价值观相近的人,建立更深层次的关系。 而探探那种“左滑右滑”的玩法,越来越像快餐式社交,像选妃,甚至成了灰产的温床。这也解释了为什么它的增值服务收入也在下降:用户不愿意为一个缺乏安全感、体验差的平台买单了。 所以,我不是故意抹黑探探,是用真实经历说明:营收下滑的背后,是信任在崩塌。 当越来越多的人像我一样,发现信息被滥用、平台却无动于衷时,就会像我一样,不仅不会注册账号,还会劝身边的朋友别用了,而这是财报里那些冰冷数字背后的真相。 02 如果说,用户不再信任平台,是财报下滑根本原因。那更值得追问:为什么平台明明有能力保护我们,却选择让受害者自己去“擦屁股”? 我在维权过程当中,最大感受是: 我只是一个被冒用身份的人;可要花时间截图、写邮件、发邮箱,去配合他们的流程。 这些本该是平台该做的事。 很多社交平台都在宣传“安全机制”,比如人工审核、敏感词弹窗、AI识别等等;听起来很厉害,但现实中,这些机制往往是“被动触发”的。 什么意思呢? 除非你主动举报,否则平台不会自动检测风险,也不会主动封号;这就相当于:你雇了个保安,但他只在你大喊“小偷来了时才动手。 而与此同时,平台还在“降本增效”。 我查了下,探探母公司挚文集团 2025 年一季度业绩显示,公司报告期内净营收 25.21 亿元,同比下降 1.5%。 而他们所谓的“降本”,是裁员、减少客服人数、压缩内容审核团队规模。换句话说,不是他们没能力解决问题,是选择不去解决。 对比一下别的平台差距就出来了,像微信支付宝这样的平台面对隐私和安全的问题,做法很不一样。 实名认证 + 生物识别 + 异常登录提醒……一整套自动化防护机制,用户不需要主动举报,系统就能识别风险并提前预警。 再看看探探呢? 只有用户举报才会触发处理机制;缺乏跨平台黑名单机制,盗用者注销后可以重新注册;AI工具只服务于付费用户,基础用户的安全没人管。 你会发现一个很讽刺的现象:越赚钱的平台,越愿意投入保护用户, 越挣扎的平台,越想让用户替它们擦屁股。 这种成本转嫁的结果最终造成体验变差,用户越来越不愿意在平台上花钱,增值服务收入下降,直播打赏也开始乏力。 其次是口碑崩塌。越来越多的人像我一样,在社交平台上吐槽、劝退朋友,形成负向传播;最终,平台只能靠“降本”维持利润,但长期来看,这种模式根本不可持续。 那问题来了:平台真的没能力解决这些问题吗?不是的。它有能力,但不愿意投钱,因为在它眼里,用户不是资产,是可以随时割的韭菜。 03 所以,为什么平台会选择这样的模式?谁决定了“用户权益”要给“流量增长”让路? 答案藏在它的商业模式里。 陌生人社交平台不是慈善机构,本质上靠数据、注意力、付费行为来赚钱。为了维持链条,探探公司选择了一种最简单粗暴的方式:低门槛吸引流量,高成本让用户承担后果。 这就导致了一个怪圈: 越依赖流量,越不愿意花成本保护用户;越不保护用户的平台,用户流失得越快;用户流失越快,平台就越想通过“降本增效”维持利润……于是,整个系统就陷入了恶性循环。 你会发现一个很奇怪的现象:平台宁愿被投诉、被冒充、被诈骗,也不愿意主动加强审核机制。 为什么?因为一旦审核变严、注册变难、监管变复杂,就意味着,新用户减少、活跃度下降、数据指标不好看。 而这直接影响什么? 投资人信心、财报数据、管理层KPI;所以你看,在这套逻辑下,平台不是不想保护用户,是不敢保护;因为一保护,流量就可能下滑;一流量下滑,平台赚钱模型就不稳了。 我特意查了下,2025 年 2 月艾瑞指数数据,探探男性用户占比 57.91%,女性用户占比 42.09%;而从历史趋势看,男性用户始终占主导。 这说明什么? 平台运营重心,是围绕着“谁更愿意花钱”来设计的。男性用户更愿意打赏、买会员、解锁功能,所以,平台愿意为他们提供服务,女性更在意安全、骚扰控制、体验感,却被边缘化。 这不是个人偏见,是赤裸裸的商业选择。 很多人以为平台上虚假账号、冒用身份、诈骗行为是“管理疏漏”。但如果你认真观察探探的产品设计就会发现: 推送大量陌生匹配,为了刺激互动;设置闪聊、附近的人等功能,为了提高曝光……这些看似是“功能”,其实都服务于一个目标: 最大化流量产出,最小化平台责任。 灰色地带之所以长期存在,是它根本不想管;因为它知道,只要有人玩,就有钱赚;至于出了问题谁负责?对不起,那是注册进来时,自己选的。所以,平台更在乎流量增长,不是用户感受。 04 写到这,可能会有人说了:谁来约束它的行为?难道不该有人管吗?现实是:没人真能管得了它。 很多人以为,中国也有《个人信息保护法》、《网络安全法》、《消费者权益保护法》……听起来很全,但执行起来确实很难。 以我这次为例:要先注册账号才能举报;举报后平台说“处理完也不能保证不再出现”;这是典型的“形式合规、实质免责”。 平台在隐私政策里写得天花乱坠:我们重视您的隐私、我们会严格审核账号……一旦出了事,它就搬出一句话:您已同意用户协议,由此产生的风险由您自行承担。 这哪里是服务?是霸王条款。 我不是没想过走法律途径。现实取证难、周期长、成本高。想告平台,得证明它主观故意放任盗用行为。 能拿到内部流程证据吗?不能。能证明平台明知有问题却不作为吗?很难。 最终结果,是你根本告不起它;而这也正是很多平台敢于“降本增效”的底气,它们知道,大多数人不会真的去较真。 我们再来看下国外做法,差距一下就出来了。 欧盟GDPR法规,对Meta等平台开出的罚款动辄数亿欧元;美国也多次因数据泄露、虚假账号泛滥等问题,对社交平台发起调查和起诉。 而在这些地方,用户维权的路径也更清晰:可以向监管机构投诉;有集体诉讼机制;平台一旦违规,会被高额处罚。 反观国内呢?平台还在靠“注册即免责”、“用户自担风险”这类条款,规避法律责任。 而监管部门面对大量平台、海量数据、技术门槛,执法难度极大。这就导致了一个尴尬的局面:法律写了,平台看了,用户输了。 我们回过头看探探的财报也能发现端倪,它持续降本增效,不怕被罚,因为没人罚它;它不怕用户投诉,因为用户投诉也没用,这才是最可怕的地方。 哎,最后我想说一句: 平台不是不懂法律,它太懂怎么钻空子;它不怕用户,也不怕法律。可能,它真正怕的只有一件事,真有人来查它、罚它、关掉它的“灰色红利”。 希望每个人都能保护好隐私,问题是怎么保护?荒诞。
经济学家示警:AI投资崩盘隐忧,泡沫规模远超“互联网泡沫”
IT之家 7 月 19 日消息,科技媒体 Tom's Hardware 昨日(7 月 18 日)发布博文,报道称经济学家 Torsten Sløk 示警称,相比较 21 世纪初的“互联网泡沫”,AI 领域的泡沫规模更大,已笼罩在崩溃的阴影下。 IT之家注:Torsten Sløk 是美国资产管理公司 Apollo Global Management 的首席经济学家,他认为相比较“互联网泡沫”,目前 AI 公司被高估情况更为严重。 互联网泡沫(又称科网泡沫或 dot 泡沫)指自 1995 年至 2001 年间的投机泡沫,在欧美及亚洲多个国家的股票市场中,与科技及新兴的互联网相关企业股价高速上升的事件。 在 20 世纪末,投资者疯狂涌入互联网市场,投入了数万亿美元,但在 21 世纪初,市场崩溃,股价暴跌,很多公司破产,亚马逊等行业巨头也损失了大量投资、收益和市值。 Sløk 认为这种情况目前已经在很多 AI 公司中上演,包括苹果、微软、OpenAI、Meta、谷歌 / Alphabet、亚马逊在内,这些公司通过投资 AI 项目,估值和股价大幅上涨,但与其盈利潜力严重不符。 Sløk 认为这次 AI 泡沫更大,崩溃可能会更严重。虽然他没有给出具体的时间表,但该媒体指出 Meta 公司天价挖人、OpenAI 推动“星际之门”项目等,都折射了当前 AI 市场繁荣背后的隐忧。 Meta 在元宇宙上投入了数百亿,然后迅速转向 AI,仿佛元宇宙从未存在过。NFT 和区块链本应改变艺术、金融和投资的运作方式,但这一切尚未实现。
别光看Claude 多厉害!Anthropic内部拉响警报:“AI 的经济冲击比想象的更危险!”
作者 | Daniel Dominguez 译者 | 田橙 Anthropic 宣布启动“经济未来计划”,这是一项应对 AI 经济影响的倡议。随着人工智能对全球劳动力市场和生产力的影响日益加深,该计划旨在为应对这场经济变革提供深刻洞见与战略支持。作为 Anthropic 现有“经济指数”的扩展,该计划将聚焦三大核心:深入实证研究,推动数据驱动的政策制定,并完善经济衡量工具,从而更精准地捕捉 AI 在经济中扮演的动态角色。 该计划围绕三大核心支柱构建。第一个支柱是研究资助,为研究 AI 经济影响的独立研究人员提供资金和资源。这笔资金将支持一系列关键研究,旨在解答 AI 时代的核心经济问题:劳动力市场将如何演变?生产力会发生怎样的转移?AI 又将催生出哪些前所未有的价值创造方式? 第二个支柱是基于证据的政策制定,重点是为研究人员、政策制定者和行业专业人士创造合作与评估政策提案的机会。议题包括劳动力转型、财政政策和创新创造,重点关注以数据驱动的战略来应对 AI 对劳动力和更广泛经济的影响。 第三大支柱为“经济测量与数据”,将通过创建首个关于 AI 经济应用与长期影响的纵向数据集,来扩展 Anthropic 经济指数。此举将有助于持续追踪 AI 在重塑行业、就业市场和生产力格局中的作用。最终目标是构建一个强大的数据基础设施,它不仅能为深入理解 AI 的经济影响提供支撑,还将为未来的相关研究指明方向。 该计划还将与独立研究机构建立战略合作,提供 API 信用额度等资源支持。此举旨在扩大 AI 经济影响的研究与政策分析生态。Anthropic 现已开放合作申请,欢迎各机构提交研究提案。 随着 AI 在经济中作用的持续扩大,对此类研究的需求也日益增长。政策制定者和行业领袖正在寻求可靠的实时数据,以了解 AI 如何影响劳动力、创造新的工作类别以及改变传统的生产力衡量标准。为弥补现有研究的不足,“经济未来计划”将资助相关政策研究,从而有效应对 AI 带来的机遇与挑战。 社区的评论反映了对人工智能影响劳动力的好奇、担忧和谨慎乐观的复杂情绪。AI 教育专家 Andres Franco 在 X 上评论道: “行吧,总算有人开始研究这事了。现在这股 AI 热潮,对就业市场的冲击有多危险,大部分人根本就没概念。” 与此同时,用户 @bryanstrummer 分享道: “别逗了,AI 已经在家门口抢饭碗了。希望这计划是来办实事的,而不是又拉一帮专家学者,炮制一份关于‘未来工作’的精美报告。那种老套的剧本,我们早就知道结局是什么了。” 展望未来,该计划旨在通过推动社会对话,确保 AI 的经济影响处于可控范围。人工智能正在不断改变我们工作与生活的方式,在此背景下,“经济未来计划”这类倡议的价值便尤为凸显——它们是塑造一个可持续、普惠的 AI 赋能型经济的关键所在。
宇树王兴兴,A股上市辅导公告了
稚晖君之后,王兴兴也来到了资本市场门口。 创业九年,宇树科技终于走到IPO门前。这次不再是传闻。 中国证监会官网信息,宇树已在浙江证监局办理辅导备案,并且公布了首次公开发行股票(IPO)并上市辅导案报告。 这标志着宇树科技正式冲刺A股上市。 王兴兴持股也随即曝光,直接持股23.82%,并通过有限合伙平台合计控制34.76%股权。 顺利的话,最快将于2025年10月对公司进行综合评估,形成符合要求的上市申请文件。 目前,宇树科技的最新估值已超百亿元,完成10轮融资,投资方包括美团、腾讯、阿里、红杉中国、经纬创投、北京机器人产业发展投资基金、深创投等。 据王兴兴自己透露,宇树科技年度营收已超过10亿元人民币;并且自2020年以来就始终保持盈利状态。 △图片来自新华社 这几天,智元控股的A股公司上玮新材已经连续8个交易日涨停,股价暴涨330%。 关于“具身智能第一股”花落谁家,又开始有了悬念。 宇树科技启动IPO 文件显示,宇树科技成立2016年8月,注册资本3.64亿元,行业定位是横跨“计算机、通信设备制造”(C39)与“通用设备制造”(C34)双领域。 根据辅导工作安排,最快将在今年10月到12月,辅导机构会评估宇树科技是否达到发行上市条件,并协助公司按照相关规定准备首次公开发行股票并上市申请文件。 有消息称,宇树科技大概率先登陆A股科创板,后续再择机进入港股,争取最大化流动性。 事实上从今年春晚出圈、被称「杭州刘小龙」之后,宇树就一直有意无意地在被传要上市,实际也一直有迹可循。 今年4月,王兴兴在被问及是否有赴港上市的计划时表示,“后续有可能,不确定。” 一个月之后,宇树科技就正式宣布,从即日起更改为股份有限公司。当时业内专家就预测,宇树科技此举是在准备启动上市。 股份制改造作为公司上市前的先行步骤,标注着宇树正在调整自己的资本结构,为公开募资做好充足准备。 当天,宇树科技除了公司市场主体类型发生变更,还同时进行了章程备案和投资人信息变更。 多名投资人及企业的出资额和百分比都出现了变动,甚至包括王兴兴本人在内。 而6月,宇树更是完成了IPO前的最后一程C轮融资,腾讯、锦秋基金、阿里、蚂蚁集团和吉利资本入股,老股东跟投比例超90%。 但尽管外界关于宇树上市的传闻甚嚣尘上,王兴兴却从未明确表达过态度,也没有否定过,直到刚刚辅导备案公示,才彻底一锤定音。 宇树这一路:从1人到1000人 据王兴兴透露,目前整个宇树有约1000人,而看2016年刚成立时公司有且只有王兴兴1个人。 那时候刚毕业的他已经入职大疆工作,但没想到研究生期间自主研发的机器狗XDog,却为他吸引到了天使投资。 于是他选择辞职创业,而四足机器人也成为了宇树科技最初的产品方向。 依托XDog的技术雏形,2017年宇树科技发布首款产品Laikago。 作为国内首个正式对外发布并零售的高运动性能四足机器人,Laikago让宇树崭露头角,市场第一次认识到了,这家看似初出茅庐的新兴企业,在技术上也毫不逊色。 甚至在2023年,宇树已经占据全球四足机器人市场份额将近70%。 不过,要说宇树真正为大众所知,还得是因为同年他们推出的第一款人形机器人H1。 当时市场上人形机器人价格居高不下,波士顿动力的Atlas成本就超百万美元,而H1官方售价仅为9万美元 (折合人民币约65万)。 同时它还是国内第一款可以跑动的全尺寸通用人形机器人,可完成后空翻等高难度动作,还有强大的避障功能和平衡能力。 一经推出,可以说是火遍外网。 9万美元的价格,让许多大学实验室都能在预算范围之内用以科学研究,也难怪Karpathy当时都直呼想要。 例如斯坦福大学、加州大学伯克利分校、东京大学等海外知名高校都曾采购宇树科技的人形机器人产品,用于二次开发或AI训练。 同时四足机器人Go1还登上了美国超级碗赛前表演舞台,在全球范围内吸引了大量目光。 这把火也烧到了国内,蔚来汽车宣布在合肥工厂部署10台H1,负责零部件搬运、产线巡检等简单任务,这一次宇树科技充分展示了其在科研和工业领域的应用潜力。 趁热打铁,宇树科技又在2024年5月发布了轻量级人形机器人G1,这次基础版售价更是低至9.9万元,可以克服更多危险地形,更好地在小空间中执行精细任务,具备消费级通用机器人水平。 而今年年初,宇树科技的H1更是登上了央视春晚,这一次宇树真的家喻户晓了。 谁还没有被这段机器人舞蹈亮瞎眼: 2月,H1和G1正式线上首发开售,上线不久就被一抢而空。 成立仅9年,宇树科技就这样一步步成为大众心中的具身智能领军企业。 在融资方面,已经吸引到了美团龙珠、红杉中国等众多知名投资机构在内的10轮融资,官方估值已超120亿元。 这个数字放至国内,也只有刚刚通过收购上纬新材叩开科创板大门的智元机器人能一较高下,可以说两家聚焦人形机器人赛道的头部企业,正围绕 “具身智能第一股” 的头衔在金融市场展开激烈较量。 另外在产品方向,宇树科技不仅涵盖人形机器人、灵巧手等多个领域,也在积极争取自主研发所有的核心零部件、电机、控制系统等,并构建了完整的交付、制造和售后体系。 同时,宇树科技也与国内外多家公司、高校开展密切合作,包括技术研发、人才培养等。 2024年7月,宇树科技和上海大学、上海市宝山区签署战略合作协议,共同成立“通用智能机器人研究院”,推动生成式AI、具身智能等技术应用。 △图片来自上海大学官网 今年6月又刚刚与安踏集团、香港理工大学南京技术创新研究院一起开设人形机器人运动科学联合研究基地,聚焦人形机器人运动科学数据采集与分析,以及机器人专用运动装备的系统性研发。 另外,宇树科技还与例如谷歌、英伟达等海外头部AI企业达成合作,一起推动AI+机器人落地。 如今,全速前进的宇树科技正在开启新的篇章。 具身智能投资火热 今年年初以来,从宇树机器人在春晚上一炮而红,掀起的全民关注机器人热潮也反哺到了资本市场。 具身智能领域迎来了前所未有的融资机遇,据有关数据统计,截止到今年7月,该领域一共发生了141起投融资事件,要知道去年一整年只有77起。 仅今年上半年数量就远超2024年全年,足以证明投资圈目前对具身智能企业抱有充足的信心,而更多投资方还在加速进场中。 不过,相关的融资也更多地集中在天使轮、种子轮以及A系列融资,B轮之后的融资占比不足10%,整个市场还处于起步阶段。 其中,值得关注的融资案例就是本月8号的智元机器人,正式宣布收购科创板的新材料公司上纬新材的六成股份,曲线进入二级市场。 另外,像星动纪元、它石智航、杭州云深处、星海图、深圳跨维在本月也相继宣布融资信息。 由清华大学交叉信息研究院孵化的北京星动纪元科技有限公司,已推出人形机器人STAR系列以及全自研12个全驱动自由度灵巧手XHAND1,在7日完成了近5亿元A轮融资。 由陈亦伦领衔的上海它石智航在8日也宣布完成了1.22亿美元天使+轮融资,而在3月刚刚完成了1.2亿美元融资,一举打破了中国具身智能行业天使轮最大融资额记录,即使他们至今还未推出任何一项产品。 同天,杭州云深处完成近5亿元融资,该公司致力于智能足式机器人研发。 第二天,公司创始人均为90后的杭州星海图公司也完成了A4及A5轮战略融资,总金额超过1亿美元,由今日资本、美团龙珠等联合领投。截至目前,其Pre-A轮及A轮总融资规模近15亿元,最新轮次估值较年初增长超3倍。 接着跨维(深圳)智能数字科技有限公司也宣布完成A1和A2轮融资,金额总计达数亿元。 近期频繁发生的融资事件,充分彰显了资本对具身智能赛道的押注,也预示着行业正从技术探索迈向产业场景落地。 从“资本热”到“产业热”的转折,其中的领军人物,也就是王兴兴,在一众名校履历和天才少年中间,不显山不漏水,成为了聚光灯下最瞩目的明星。 王兴兴其人:英语差所以不会考虑波士顿动力 王兴兴,今年正好35岁,浙江宁波余桃人。本科毕业于浙江理工大学机械与自动控制学院。 研究生时期,离开浙江来到上海,在上海大学机械工程专业读完了硕士。 据说,他从小就喜欢动手、搞些发明。 读研二的时候,他就已经带着他的XDog参加国际智能“星创师”大赛,并获得二等奖。 知乎上还有个话题:怎么看上海大学王兴兴同学做的XDog。 当时他们看到的视频,应该是这样式儿的。 结果他本人在底下回复: 我运气还不错吧、运气真的不错吧。 他回顾打造这个机器人的经历,起因是考研失败(英语悲剧了)。 然后调剂来到了上海大学开始搞四足机器人。搞着搞着就发现用电机系统做出来的动态性能,是有可能与波士顿动力液压系统做出来的相媲美。 他那时候可能没想到,几年之后的今天,波士顿动力才断臂转型,弃液压选电机。 当时他发现这个点之后就很激动:恨不得马上辍学去创业。 后来进行了不断的尝试,也就打造了XDog这样一个机器狗。 他表示:XDog算是当时我个人能力的最高水平了。 在这篇回应的最后,还po上了两张梗图,吐槽了下波士顿动力卖身的新闻。嗯,很王兴兴了。 王兴兴研究生毕业后就入职大疆。没想到XDog突然火了起来,当时他这种低成本高性能足式机器人相当于开了技术先河。 正好天时地利人和,在大疆干了两个月之后,他就开始离职创业,接下来宇树科技相关的故事了。 在几年前,还是27岁的王兴兴接受澎湃新闻的采访,按照他们的描述,王兴兴有些腼腆和不知所措。 在被问到如果你可以是去波士顿动力工作,或者选择自己创业,你会怎么选。 他笑了笑说: 我不会有这个困难的,因为我英语差,可能出国都不太好出,所以这个事情不会发生,我也不用去考虑这个问题。 但如果是创业前,我可能会去,但现在的我,真的没有想过。 也算是Call Back了。 如果当年他如果英语达标考研上岸,还会有宇树科技吗? 参考链接: [1]https://baijiahao.baidu.com/s?id=1837077320070881146&wfr=spider&for=pc [2]https://www.caixin.com/2025-07-18/102342725.html [3]https://www.caixin.com/2025-07-16/102341606.html?originReferrer=caixinsearch_pc [4]https://finance.sina.cn/tech/2025-07-16/detail-inffrzss6143675.d.html [5]https://www.unitree.com/cn [6]https://m.thepaper.cn/wifiKey_detail.jsp?contid=1844331&from=wifiKey# [7]https://mp.weixin.qq.com/s/mvpsmwHuZqOSRKAo-nWKMQ [8]https://stcn.com/article/detail/2657686.html
代码碾压一切!OpenAI神秘模型o3-alpha一夜刷屏,却遭41岁大神绝地反杀
编辑:定慧 好困 OpenAI的神秘模型o3-alpha意外曝光,其强大的代码能力碾压众多AI。该模型疑似在东京AtCoder世界编程大赛2025中夺得亚军,最终不敌人类选手Psyho。 OpenAI果然藏了一手。 昨天夜里,一个名为「o3-alpha-responses-2025-07-17」的神秘模型被爆出。 网友们疯狂测试后,得出一致结论,这个模型强得离谱。 WebDev Arena网页的源码 甚至有网友在实测后,大赞o3-alpha,将它称为目前「最佳编码和物理模型」。 每次新模型出来后,小球的碰撞实验已经成为一种「传统」,这次「o3 Alpha」不仅完美的展示了物理碰撞,并且还能随时改变小球的大小。 在WebDev Arena上,「o3-alpha-responses-2025-07-17」以「Anonymous-Chatbot」的名称出现。 根据网友的猜测,它很有可能是在编码能力上得到了「史诗级」加强的o3升级版。 毕竟目前在WebDev Arena Leaderboard中,OpenAI只有一款专门编程的GPT-4.1-2025-04-14上榜。 不过,目前想要捕捉到这个匿名模型,需要在竞技场中多次尝试(我们在WebDev Arena多次尝试未能捕捉到这个匿名模型)。 Peter Gostev在竞技场中使用如下提示词「幸运的」捕捉到了o3-alpha,感兴趣的话你也可以试试。 还有网友爆出,OpenAI可能「派出」了这个模型去参加世界最难编程竞赛:东京举行的AtCoder世界巡回赛2025决赛。(需要OpenAI确定) OpenAI的这个o3-alpha模型最终获得了第二,第一名是人类Psyho。 虽然o3-alpha可能已经被OpenAI下架,但网友们还是保留了丰富的实测案例。 从实测来看,「o3-alpha」在前端代码能力达到了领先水平——远胜于Claude Sonnet、o3、Gemini 2.5 Pro。 实测效果惊人 网友Peter Gostev发现该模型后,使用提示词「要求模型使用Three.js创建一个程序生成的星球」。 测试后,他很难相信,但是依然认为o3-alpha的编码水平达到一个全新的高度。 以下是完整的测试对比视频,可以看出o3-alpha的效果整体最好。 自动播放 OpenAI模型在前端能力方面一直表现平平,Peter表示这次的模型似乎终于在这方面超越了其他所有模型。 有网友用经典的「骑自行车的鹈鹕」进行了测试,表示o3 alpha完全打败了o3 pro。 以下是o3 alpha生成的动画版的效果,你觉得这个效果如何。 o3-alpha还能一句话就生成的「我的世界」模拟器。 超mini版GTA的复刻,o3-alpha也能一句话搞定。 自动播放 还能一键生成高度可定制的SVG应用。 有网友用o3-alpha造了一个魔方模拟器,甚至可以输入「魔方算法」来直接操控,确实太强大了。 自动播放 仅仅靠着文字提示就可以实现。 网友还用o3-alpha创建了一个太空入侵模拟游戏,再次体现了OpenAI这个新模型的前端代码能力。 自动播放 网友Mahi用只有2-3个单词的提示对比了o3-alpha和Gemini 2.5 Pro。 o3-alpha生成的网页效果要好于Gemini 2.5 Pro。 除了以上神秘的o3-alpha模型和OpenAI派出AI选手参与顶尖编程大赛外。 刚刚发布的ChatGPT Agent也实力惊人。 OpenAI的研究院Zhiqing Sun,表示ChatGPT Agent通过了ARC-AGI-3的第一关。 41岁大神击败AI 守住人类最后防线 o3-alpha被爆出的时机非常的「巧合」。 因为前两天在东京举行的AtCoder世界巡回赛2025决赛中,同样是OpenAI的一款匿名模型,获得了第二名。 根据网友爆料,这个模型很大概率就是o3-alpha。 我们推测OpenAI本来应该是打算「一鸣惊人」,但有一个名叫Psyho的人类戏剧性的打败了AI获得了第一名。 是的,这位来自波兰的编程大神——Przemysław Dębiak(aka Psyho),用一场惊心动魄的胜利告诉世界:人类,还没输! 地点是东京,AtCoder世界编程大赛的决赛现场。 空气中弥漫着紧张的气息,因为这次的对手非同寻常——一个由OpenAI亲自下场派出的AI模型。 在这里,人类和AI选手需要在10小时内,不断优化墙壁的设置以及机器人的分组,让它们能够在30x30的网格内以最少的步数回家。 从华沙一路飞到东京的「Psyho」,本来就已经身心俱疲。 而这场堪称马拉松的比赛,更是让他愈发感觉自己已经濒临极限。 「我累到爆炸,真的,有好几次我都想直接放弃算了,」他回忆道。 三天里,「Psyho」只睡了10个小时。 而他的对手,那个「不知疲倦」的AI,早已能够在诸如算法实现、代码优化等纯粹的工程任务中,凭借着更快地速度碾压人类。 不过,这次的比赛,是人类的主场。 原因在于,比赛时间越长,就越考验从零到一的创造性,AI就会越吃力。 比赛一开始,AI很快就以绝对优势实现领先; 直到第7小时,一步步稳扎稳打的大神「Psyho」才实现反超,而AI却陷入了困境; 第8小时,AI突然发现了一个全新的思路,并一举超越了「Psyho」——新方法不仅实现了更好的墙体设计,还带来了更好的资源调度; 即将进入倒计时阶段,剧情再次反转。「Psyho」灵感乍现,对AI完成了绝地反杀!虽然AI还在不断调整,但差距却越来越大。 最终,这个41岁的男人,成功在长达10小时鏖战的最后关头,凭借着血肉之躯和人类独有的创造力,战胜了冰冷的机器! 对于这场胜利,奥特曼亲自发文祝贺道:「干得好,Psyho。」 与此同时,OpenAI官方也发文表示:「我们的模型拿了第二。恭喜冠军,这次你成功地阻击了我们!」 更有趣的是,比赛的组织者都惊呆了。 他们坦言:「我们本来就觉得人类会赢,但说实话,我们被AI能拿到第二名给吓到了!」 他们一针见血地指出:「在代码优化的硬实力上,AI已经超越了人类,但它唯独缺少了人类那神来之笔的创造力。」 没错!「Psyho」赢得不靠蛮力,而是靠一个「完全不同的解题思路」。 当所有人都和AI在同一条赛道上狂奔时,他另辟蹊径,找到了AI视野之外的「最优解」。 而他用的武器也很简单,就是最常规的编程软件,连AI辅助工具都没用。 当然,这只是一场战役的胜利,远非「人·机」大战的结束。 从IBM「深蓝」到谷歌「AlphaGo」,AI战胜人类的传奇早已上演。奥特曼也预言,AI很快就会在编程竞赛中全面超越人类。 但至少在东京的那个不眠之夜,一位名叫「Psyho」的孤胆英雄,为人类赢得了一丝喘息。 参考资料: https://x.com/chetaslua/status/1946154816691966227 https://x.com/chetaslua/status/1946165458048291091
MiniMax M1全球技术闭门会实录:RL、混合架构、长上下文的下一步
7月10号,MiniMax面向全球举办了M1技术探讨会。作为中国团队,我们很高兴组织发起与全球学者的开放技术探讨。现场,来自十几个国家地区的观众从世界各地加入,与M1团队和全球学者进行了技术交流。 M1团队与来自香港科技大学、滑铁卢大学、Anthropic、Hugging Face、SGLang、vLLM、RL领域的研究者及业界嘉宾在模型架构创新、RL训练、长上下文应用等领域探讨了当前的前沿话题。嘉宾详见: 秉承开源精神,我们将本场探讨会的技术观点分享出来,以下是要点总结: 01 RL能否赋予模型新能力? RL能否提升模型的基础能力?很多人认为,RL只是在激活模型在预训练阶段就已经学会的一些能力或技巧,不能够让模型从根本上学会预训练阶段不存在的新技能,例如有些论文说,RL并不能提高模型的pass@k。 首先需要定义模型的基础能力。一个比较实用的定义是,对于给定的上下文长度,模型在一组特定问题上,在无限次尝试下的通过率(pass@k, k→∞)是多少。如果这个通过率等于1,就表示这个模型能解决这类问题。如果通过率等于0,就表示模型解决不了。如果模型的生成长度,即模型思考过程的长度是无限的,RL什么也改变不了。根据定义,如果你有无限的上下文长度,那么所有能用自然语言表述的问题,理论上都可以通过有限次的采样尝试来解决。 如果针对一个有限上下文长度,RL是否能赋予模型新能力?答案是:能。因为RL所做的是改变模型输出的分布。预训练后,模型可能需要至少10W个token才能解决某个问题,但经过RL微调后,它可能只需要10K个token。如果模型有限上下文长度是50K个token,那么RL的确赋予了模型新能力。 在有限上下文长度下, pass@k 是一个好的衡量指标。K的取值很重要,这取决于如何定义模型能力,如果定义是“模型至少有一次能解决这个问题”,那么应该用尽可能大的k来衡量pass@k;但如果定义是“模型能否在4次尝试内解决问题”,那应该去衡量 pass@4。 目前 Reward 是RL scaling 的核心瓶颈,特别是如何为那些不基于结果的奖励(non-outcome-based reward)进行建模,这是全世界都还感到困惑的地方。比如,人类可以从别人写的一段文字或反馈中获得正面或负面的感受,但我们目前并没有很好的方法来对这种主观感受进行建模。 02 预训练的价值在于更多样化的数据分布 如何理解预训练在RL过程中的角色?如果预训练在某些技能,如编程或数学,上有所欠缺,后训练阶段仅凭RL能把这块短板补上吗? 原则上可以,只要有足够的信息源,我们就可以用RL来替代任何过程。某种意义上,预训练只是RL的一种特例。任何监督学习都可以被看作是一种特殊的强化学习。现阶段,RL训练阶段的数据分布,要远比预训练数据的分布狭窄得多。这正是目前进行预训练能带来的最大收益——它让模型获得了范围远为广阔的知识。 但在当前阶段,预训练的价值在于,我们可以在预训练阶段接触到更多样化的数据分布。因为目前RL训练数据的质量要求门槛相当高,我们主要知道如何在有限的环境中扩展RL训练,例如reward被清晰定义的环境。目前RL研究的核心挑战之一是如何拓展至reward清晰的环境之外。奖励建模(Reward Modeling)可能是一种解决方案,但更为通用的奖励信号依然是行业在探索的方向。 03 只在数学和代码上做RL训练,更容易产生幻觉 关于通用推理,至少在今年二月左右,大多数RL数据,都来自于数学或编程领域。而事实是,只在数学和代码上进行RL训练,模型更容易产生幻觉。在很多事实性基准,比如SimpleQA上的性能会显著下降,甚至在像MMLU这样的多学科问答基准上也会下降。 因此我们做通用推理数据集的一个动机,就是为了创建更多样化的RL训练数据。WebInstruct-verified旨在为所有领域构建更大规模的RL训练数据,以便模型能够在不同领域取得进步,而不仅是数学和编程。 现在我们甚至在尝试进一步扩大这个规模。之前,通过在预训练数据集中搜索可用的RL数据来扩大规模,我们成功地把它扩展到了50万的量级。现在正尝试通过检索更大规模的预训练数据集,从中获取越来越多样的RL数据,并采用在mid-training进行RL的范式,而不仅仅是作为后训练。 04 如何让模型用图像思考? 目前很多视觉推理范式,核心大都集中在文本形式的思维链上,而视觉部分固化为一个 ViT编码器,没法让模型在编码图像上花费更多计算资源。而像 Pixel Reasoner 或其他一些工作,正试图帮模型重新审视图像的特定区域,并对其进行重新编码,从而在关键区域上投入更多算力。 但这并不是一个非常本质的提升模型能力的方法,在现阶段更像是一个权宜之计。因为现有的视觉编码器太弱了,无法很好地处理高分辨率图像,所以才尝试用zoom-in或其他操作来操纵图像表示,然后从输入中重新调用它,并在此基础上进行推理。在现阶段,大多数工具,比如zoom-in、重新调用帧或高亮显示,实际上都只是在增强感知能力。 也存在一些更复杂的工具,能从根本上改变图像,比如使用图像生成技术。这种做法就已经超越了单纯增强感知的范畴,比如在几何问题中画辅助线。最近还没太多这方面的成功案例,但如果有人能设法让这种方法奏效,那它将是“用图像思考”的一个更强大版本。 我们仍然需要解决根本的瓶颈问题:如何更好地编码视觉像素,以及如何以更好的方式在潜在空间(latent space)中进行视觉推理——注意,不是在实际的像素空间,而是在抽象的潜在空间。 Latent reasoning可能是一个非常好的机会。很多视觉推理,特别是在机器人或具身智能领域,真的需要在空间中思考。在这些涉及空间感的场景下,文本推理就不是一个好方法,很多推理过程是隐式的,无法被清晰地表述或言语化。 05 当前RL领域最令人兴奋的挑战 RL面临挑战之一,是Reward Modeling,特别是如何超越那些结果容易被评估的环境。这将会极大地扩展RL应用场景。 另一个可能很重要的领域是多智能体。不过,多智能体目前更多受限于基础设施,而非理论研究。对我来说,用一个中央模型调用子智能体和调用工具是同一回事,没有区别。当我说“多智能体”时,脑海中想的更多的是一个包含多个AI模型、并且它们在训练过程中相互交互的环境。 还有一个令人兴奋的领域就是AI自动化研究——让模型自己训练自己。这其实一直以来都与AGI的定义相关:当模型可以在没有人类干预的情况下,自我训练并自我提升。 还有刚刚提到的,非Token空间的推理,那里也存在着机会。 06 长上下文是Agent的Game changer 长上下文在Agent工作流中有巨大潜力。我们另一个客户正在构建复杂的智能体系统,长上下文窗口对他们来说是真正的game-changer。Agent完成某个任务时,能够将整个代码库、API参考文档、历史交互数据等等,全部一次性喂给它。这种任务你不能分几次调用来处理,因为当你让智能体完成任务时,它掌握的关于这个项目的信息越多,产出的质量就越高。 我们有望从目前在大多数情况下,只能处理相当孤立任务的智能体,发展到那些能够管理复杂项目、同时保持完整上下文感知的智能体。 对于Nebuis的客户,M1这样超长上下文模型的真正价值在于解锁了全新的企业级应用场景。这些场景以前用分块处理策略来解决,非常繁琐,甚至几乎不可能。 例如,一个法律行业客户需要把文件一块一块地喂给大语言模型,并用一些窍门来优化检索和上下文管理。这样问题在于,可能错过埋藏在某个随机法律文件某一页中的关键细节。而有了1M token的上下文窗口,就可以一次性处理整个案件历史、所有相关判例以及所有其他信息源,这无疑能提升了服务质量。 Writer是一家服务于全球企业级客户的公司,长上下文模型在企业级应用需求非常广泛。它被应用得最多的领域之一是法律合规分析。比如,分析冗长的合同、电子健康记录或公司年报,从中提取关键条款、识别风险,然后附上引文进行总结,需要非常巨大的上下文窗口。另一个领域是客户研究洞察。比如,总结大量的调查问卷回复或研究论文,以发现其中的主题,并提取一些见解。 长上下文模型也被大量用于收入与报告相关的业务。比如,录入大量的项目招标书,从Salesforce中拉取数据,然后自动起草第一版的回应;或者处理一些基金报告,这需要将内部研究与第三方市场数据结合起来。还有技术支持与知识管理领域。这是每个开发者的负担——对工单进行分类,更新内容管理系统,或者为已有的工作流发布内容。要让智能体在这个领域里运作,就需要长上下文能力。 07 混合架构将成为主流 对比纯线性注意力和Full Attention,混合注意力机制(Hybrid Attention)无疑是最有前景的方案。纯线性注意力机制有很多根本性局限,因为它的状态大小是固定的,因此,在处理长序列建模问题时表现不佳。而Full Attention虽然提供了灵活性,但其代价也显而易见:KV缓存大小会随着序列长度线性增长,并且训练复杂度也是平方级的。当序列不断变长时,高昂的推理和训练复杂度就会成为瓶颈。将这两种机制结合起来,也就显得顺理成章,混合模型(Hybrid Model)就应运而生了。 混合架构将会成为模型设计的主流,因为随着对大规模部署和低延迟需求的增长,人们会越来越关心推理效率和模型的推理能力。MiniMax的模型也证明了这一点。至于如何进一步拓展混合注意力架构的空间,未来的研究者需要思考,不能只是简单地用固定的比例来交错堆叠Softmax注意力和线性注意力层,也许需要更多样的混合架构形式。 脱离硬件的纯粹算法研究,正逐渐失去关注度,尤其是在LLM领域。如果一项技术无法规模化,或者不能被高效地部署,那它就很难获得关注、形成势能。一个算法不仅要在理论上站得住脚,还必须在硬件上——尤其是在GPU或TPU这类加速器上高效运行。如今的算法研究者们已经,并且也应当熟悉基本的硬件原理,比如内存层级(memory hierarchy)、并行计算(parallelism)、共享内存(shared memory)等等。他们还应该去掌握一些底层的GPU编程工具,比如 Triton。这才是当今在LLM领域做算法研究的正确方向。 混合架构目前的瓶颈在于基础设施。混合模型的有效性在去年就已经得到了很好的验证,但没有公司投入更多资金进行大规模验证,直到 MiniMax 发布了他们的大模型 MiniMax Text-01,人们才意识到混合模型原来有这么大的潜力。当前算法层面已经趋于稳定了,我们应该专注于为这些新机制构建好的基础设施。 08 混合架构推理的前沿实践 在推理层面,随着混合注意力架构越来越流行,为了在SGLang或其他推理引擎中充分利用缓存感知和缓存复用等特性,我们需要为普通架构和混合架构设计一个统一的抽象层,这样才能简单地将所有优化应用到混合模型上。 此外当前MiniMax模型这种7+1层交错的架构可能会带来一些工程挑战,特别是在用计算图优化(Graph Optimization)进行部署时,因为不同层的计算和内存访问模式是不同的,这会导致GPU利用率不平衡。可能需要用一些技术来解决它,比如批处理重叠(batch overlapping)或者更先进的pipline策略。 从支持混合架构的技术层面来说,首先需要一个混合分配器(hybrid allocator),这个功能在vLLM中已经有了。它有助于管理混合架构的KV缓存——尽管对于某些部分我们不称其为KV缓存,但混合架构中仍然存在某种形式的状态。这些状态的生命周期与全注意力层的KV缓存并不同步,所以需要设计如何让它与现有的缓存机制、预填充、解码等环节协同工作。 其次,批处理重叠(batch overlapping)会很有帮助。采用了混合架构后,有些层是full attention,有些层只是简单的线性注意力,这就存在计算不平衡。如果按顺序计算,那么在计算线性注意力层时,计算资源可能就未被充分利用。但如果能将两个微批次(micro-batches)重叠起来处理,只要比例计算得当,理论上任意时刻都会有一个微批次在执行计算密集型的full attention 操作,从而最大化GPU利用率。 从生产部署的角度来看,混合架构的推理速度对现实应用至关重要。例如,有一个客户,需要并发处理多个几十万token的请求。但对于使用二次方复杂度注意力的传统模型,在这种输入大小和并发量下,生成速度都会变得极慢。用 DeepSeeker-R1,在8个并发请求、每个请求10万token的情况下,平均要等待大约1分钟才能得到首个token。而用MiniMax的模型,大约是4到5秒,数字小了一个量级。这个速度完全可以接受,并且也为在生产负载下,用如此大的上下文进行在线应用解锁了可能性。 09 M1背后的Q&A Q:混合线性注意力会如何影响使用RL的推理模型的性能? A:在训练过程中,当我们扩展到可处理数万 token 上下文长度的模型时,遇到了重大问题:RL训练停滞不前,奖励信号在仅几百步后就不再增长。研究后,我们发现问题在于,线性注意力架构在这种规模下固有的训练不稳定性。这导致了一些问题,比如某些层激活值爆炸等,并使模型在训练和推理时的行为出现了严重错位。识别并修复了这个 bug 之后,我们才成功地使用RL训练该模型。 这个问题,也使得我们发现混合线性注意力的一个根本性权衡:它效率极高,单位 token 的计算成本非常低,但通常需要生成更多的 token(即更长的推理路径)才能达到与 full attention 模型相同的性能。然而,我们的工作证明了,通过适当规模的RL以及合适的推理时算力,混合注意力模型确实能媲美full attention架构性能。 这对未来架构设计的一个关键启示,是评估方法的重要性。为了公平地比较混合模型与其他模型,我们应该基于在给定任务下、固定总计算预算内的性能来进行评估,而不仅仅是比较固定输出长度下的效果。这提供了一个更全面、更能反映模型真实效率和能力的视角。 Q:推理模型是否已经具备了System 2推理和自我反思能力? A:System 2推理和自我反思,可以被理解为从大语言模型基本原理中涌现出的、可被观测的模式。 首先其核心驱动力,是有效利用更大的计算资源,即更长的输出,来获得更好性能的能力。我们观察到的高级推理能力,是扩展这些资源后的直接结果,而非其根本原因。本质上,为模型提供更多的计算能力去“思考”,使得这些复杂的模式得以涌现。 其次,这种高级推理可以被看作是一种自动化的Prompt Engineering。对于数学或编程等复杂任务,模型学会了生成自己的内部思考过程,这实际上取代了人类提供详尽、分步式指令的需要。 对于写作等任务,模型在思考过程中会先对问题进行分析,并对写作步骤进行专业化拆解。它会独立地执行诸如规划和对问题进行更深层次分析等操作。这使得模型能够通过创建详细推理路径来“像专家一样思考”。 因此 System2 推理和自我反思,实质上是如何高效地利用并扩展计算预算(computation budget),同时也是模型自动深化用户问题的体现。 自创立以来,MiniMax 即以“与所有人共创智能”为使命,致力于推动人工智能科技前沿发展,实现通用人工智能(AGI)。我们将继续坚持做上限更高的事,坚持底层架构和算法创新,与合作伙伴一起为全球开源社区持续贡献。 Intelligence with Everyone
科技巨头态度迥异:微软倾向于签署欧盟AI准则,Meta直言无法接受
IT之家 7 月 19 日消息,欧盟主席表示,欧盟可能会签署一项自愿行为准则,旨在帮助企业遵守去年已经生效的《人工智能法案》,但这一准则却引发了美国科技龙头的分歧。 微软总裁布拉德・史密斯(Brad Smith)周五向路透社表示,公司很可能会签署该准则,以支持欧盟的人工智能监管机构,并强调与工业界的直接接触。 然而,Meta 则拒绝签署该指导方针。Meta 首席全球事务官乔尔・卡普兰(Joel Kaplan)表示,该准则给模型开发者带来了法律不确定性,其措施也超出了《人工智能法案》的范围。 图源:Pexels 该自愿性行为准则由 13 名独立专家制定,该法案旨在规范人工智能技术的使用,确保其在欧盟范围内的合法性和安全性。签署方必须公布其通用 AI 模型训练所用内容的摘要,并制定符合欧盟版权法的政策。 该准则是 2024 年 6 月生效的《人工智能法案》的一部分,适用于谷歌母公司 Alphabet、Facebook 母公司 Meta、OpenAI、Anthropic、Mistral 等数千家企业。IT之家注意到,OpenAI 和 Mistral 等其他公司已经同意签署该准则。 卡普兰指出,Meta 与 45 家欧洲公司持有相同担忧,认为这种过度扩张将阻碍欧洲前沿人工智能模型的开发和部署,影响欧洲企业的业务发展。
Windsurf惊魂96小时,AI闪电并购战:谷歌天价挖人,Cognition逆袭接盘
7月伊始的一个周四,AI编程工具初创公司Windsurf的40多位研究员和工程师接到管理层的神秘邀请,齐聚加州山景城。 结果一进会议室,谜底揭晓:Windsurf老板Varun Mohan旁边坐着谷歌的联合创始人Sergey Brin,谷歌AI大佬Demis Hassabis还视频连线参加了。 谷歌是来挖人的,想让Windsurf的员工跳槽到谷歌DeepMind。 为了吸引大家,谷歌开出的条件很诱人:薪酬直接翻倍,远超员工在Windsurf的股权价值。 好多员工当场就签了合同,第二天(周五)就跑去谷歌DeepMind上班,离Windsurf办公室才8分钟车程。 周五晚上,消息爆出,谷歌跟Windsurf签了个24亿美元的许可协议,大部分钱都进了股东的口袋。 周一,Windsurf的剧情又有了新进展。 另一家AI编程公司Cognition跳出来,宣布收购Windsurf剩下的资产,包括没有去谷歌报道的200来号员工。 这笔交易的具体金额没公开,但据说好几家公司对Windsurf的「残余部队」感兴趣,对Windsurf抛了橄榄枝。 谷歌、亚马逊、微软、Meta这些大厂忙着跟AI初创公司签协议,把顶尖人才收入囊中。 与此同时,Meta还在跟其他公司抢明星AI研究员,开出的薪水高得吓人,有的甚至上亿美金。 惊魂96小时 Windsurf的这场「被追求」之旅可不平静。 今年4月,传出OpenAI要以30亿美金收购Windsurf的消息。 这家公司可是AI编程领域的明星,做的软件能帮程序员写代码、自动化操作、审查代码。 据Cognition CEO Scott Wu周一给员工的邮件里说,Windsurf现在每年能赚8200万美金的稳定收入,客户包括350家企业和几十万日活跃用户。 但OpenAI的收购谈着谈着就卡住了,主要是因为OpenAI跟微软的合作关系。 按照协议,OpenAI得把Windsurf的技术共享给微软,这让Windsurf有点不爽。 几个月过去了,OpenAI的收购没什么进展,Windsurf的员工在全员会上追问高管,他们却啥也不说,搞得大家云里雾里。 雪上加霜的是,Windsurf又摊上事了。 他们的AI编程工具部分依赖Anthropic的模型,但6月份,Anthropic突然掐断了Windsurf的模型使用权限。 Anthropic自己也做编程工具,算是Windsurf的对手。 Windsurf的产品性能因此大打折扣。 Windsurf CEO在X上表示,他们通过其他方式绕道解决了模型问题,但成本涨了不少,运营也更复杂了。 有人觉得,跟Anthropic的矛盾加上Cursor这种资金雄厚的对手带来的竞争压力,Windsurf得找个大靠山,帮他们搞到更多芯片,开发自己的AI模型。 消失的员工 OpenAI最终没能成为Windsurf的「真命天子」。 据知情人透露,6月底,Windsurf开始跟谷歌谈合作。 因为担心OpenAI得跟微软共享技术,Windsurf直接叫停了跟OpenAI的谈判,顺便还跟Meta聊了聊。 谷歌动作很快,直接搞了个招聘加许可的协议,绕过了传统收购的麻烦审查。 据知情人说,Windsurf账上还有1亿多美元现金,投资人包括Greenoaks Capital、Kleiner Perkins和General Catalyst。 然而,没被邀请去酒店开会的Windsurf员工发现不对劲:办公室里好多工程师和研究员都不见了。 周五一早,Windsurf CEO便跟剩下员工开了会,宣布谷歌要挖走部分员工,还签了个许可协议支付了费用。 去谷歌的同事拿到了高薪+奖金,像是进了VIP通道;而留下来的人不仅被晾在了一边,而且未归属的股权也无法兑现。 更让人不安的是,公司走了这么多技术大牛,客户很可能会觉得Windsurf现在只是个空壳,不值得信任。 更好的未来 不过,故事还没完。 周五下午5点,「无缝」接手了这个烂摊子的新CEO Jeff Wang,开始马不停蹄地为公司剩下资产和员工谋求出路。 对此表现出浓厚兴趣的,不仅有红杉资本支持的AI软件开发公司Factory,还有开发出了首个AI程序员Devin的Cognition。 时间来到周一早上,Jeff Wang在慎重地权衡之后,决定跟Cognition签署协议。 如果说谷歌想要的是招揽人才与技术许可,那么Cognition的收获则远不止于此—— 他们得到的,不仅涵盖了Windsurf的全部知识产权、产品线、品牌、运营体系,还有工程、产品和市场推广团队。 随着Cognition的接手,Windsurf员工的未归属股权也得到了快速兑现。 不仅如此,Windsurf的产品也将继续独立运营。 难怪在新CEO在发给员工的邮件中这样说道:「Cognition是我们唯一怕过的对手,也是我们最佩服的团队,是带Windsurf走向下一阶段的最佳选择。」 Cognition老板Scott Wu在给员工的邮件里,热情欢迎新加入的Windsurf同事。 他写道:「每位新员工都会跟老员工一样,得到透明、公平的对待,我们非常尊重你们的能力和价值。从今天起,咱们就是一个团队,齐心协力往前冲!」
Manus“删博、裁员、跑路新加坡”后,创始人首次复盘经验教训
作者 林易 编辑 重点君 从全球爆火,到成功融资,再到被曝删博、裁员、跑路新加坡,Manus仅仅用了四个月,就把一条新兴赛道的创业演示了个遍。 有人认为Manus开了一个很坏的头,利用中国工程师资源打造产品,迅速融资,裁员跑路...... 在一片争议声中,今天凌晨,这家公司的联合创始人季逸超罕见发声,发布了长达数千字的博客,试图把舆论拉回到产品和技术本身,也第一次公开回应了这场起落背后的关键教训。 四个月从爆火到争议 我们先简单回顾一下。今年3月,Manus因“全球首个通用Agent”概念走红,当时有人说这是中国的“第二个DeepSeek时刻”。 5月,Manus很快完成由硅谷顶级风投Benchmark领投的7500万美元B轮融资,估值飙升至5亿美元。外界对它的一度期待极高。 但6月底,Manus突然被媒体曝出多起争议事件:部分员工称被无预警裁员、创始团队在社交平台上大规模删博、公司主体搬到新加坡,舆论哗然。 一时间,删博、裁员、跑路,成了这家明星Agent创业公司的主要标签。 联合创始人凌晨发长文 面对外界质疑,季逸超这次选择用一篇技术向的长文作答,首次系统总结了团队对Agent产品和技术的核心认知: 1、选择上下文工程,而非端到端自研大模型。Manus创始人上一家公司曾尝试从零训练NLP模型,结果被GPT-3等大模型淘汰。这次复盘后,他们选择不再自研底层模型,而是专注于如何基于开源或商业大模型,做“上下文工程”,把现有能力最大化发挥出来。 2、KV缓存命中率是代理系统的核心指标。多轮智能代理与单轮聊天不同,输入输出比可能高达100:1,长输入会极大影响延迟和推理成本。上下文设计的目标是最大化KV缓存命中率,这要求提示要稳定、上下文只追加不修改、保证前缀可重复利用。 3、工具管理避免动态增减,用遮蔽代替删除。代理功能多,动作空间会迅速扩大,模型更易选错。动态添加或删除工具会导致缓存失效。Manus的实践是用上下文状态机管理工具可用性:通过屏蔽Token概率,而非直接从上下文移除,既保证灵活性,又保留缓存。 4、把文件系统当作无限上下文。大模型上下文窗口再大也有限,且超长上下文会拉低推理速度、抬高成本。Manus做法是把文件系统当作代理的外部记忆,信息可随时存取,保证历史状态可查、可读写、可恢复。 5、用显式“背诵”机制操控模型注意力。在长任务中,Manus会自动生成todo.md,把任务拆解成可执行清单,并不断更新,把目标重复写到上下文末尾,相当于“反复提醒模型”,避免任务中途跑偏。 6、不抹掉错误,保留失败信息以帮助模型自我修正。智能体必然会出错,与其隐藏错误、重新开始,不如把失败信息留在上下文里,让模型“看到”失败路径,形成负面示例,从而减少同类错误。 7、一句话总结就是:上下文工程是一门新兴的实验科学,Manus想用上下文塑造代理的行为和能力:不是比拼模型多聪明,而是比拼怎么让模型更有用。 复盘之外,争议未平息 从这篇博客看得出,Manus并非完全是个“PPT项目”。它确实做了不少面向Agent场景的底层探索,也踩过不少坑。 但这篇长文没提到外界最关心的问题:公司为什么要搬去新加坡?国内被裁员工如何善后?等等。 这些问题,季逸超没有回答,博客里也没提。 季逸超在结尾写道:“智能代理的未来将由一个个情境逐步构建。精心设计每一个情境。” 当下的现实是,Manus是否还有机会把这些“情境”从技术文档带回真正的用户手里? 一切仍未有定论。 博文链接: https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus 以下为Manus 联合创始人季逸博客原文(由GPT翻译): 面向AI 代理的上下文工程:构建 Manus 的经验教训 2025 年 7 月 18 日 季逸超 在Manus 项目伊始,我和团队面临一个关键抉择:是使用开源基础模型训练一个端到端的代理模型,还是基于前沿模型的上下文学习能力构建代理? 回想我在自然语言处理领域的最初十年,我们没有这样的选择余地。在BERT 的远古时代(是的,已经七年了),模型必须经过微调并评估后才能迁移到新任务。即使当时的模型远小于如今的 LLMs,这一过程每次迭代往往也需数周。对于快速发展的应用,尤其是产品市场匹配前期,这样缓慢的反馈周期是致命的。这是我上一家创业公司的惨痛教训,当时我从零开始训练模型用于开放信息抽取和语义搜索。随后 GPT-3 和 Flan-T5 的出现,让我自研的模型一夜之间变得无关紧要。讽刺的是,正是这些模型开启了上下文学习的新纪元——也为我们开辟了一条全新的前进道路。 这个来之不易的教训让选择变得清晰:Manus 将押注于上下文工程。这使我们能够在数小时内发布改进,而不是数周,同时保持我们的产品与底层模型正交:如果模型进步是涨潮,我们希望 Manus 是船,而不是固定在海床上的柱子。 然而,上下文工程远非简单。这是一门实验科学——我们已经重建了四次代理框架,每次都是在发现了更好的上下文塑造方法之后。我们亲切地称这种手动的架构搜索、提示调整和经验猜测过程为“随机梯度下降”。它不优雅,但有效。 这篇文章分享了我们通过自己的“SGD”达到的局部最优解。如果你正在构建自己的 AI 代理,希望这些原则能帮助你更快收敛。 围绕KV 缓存设计 如果只能选择一个指标,我认为KV 缓存命中率是生产阶段 AI 代理最重要的指标。它直接影响延迟和成本。要理解原因,我们先看看典型代理的工作方式: 在接收到用户输入后,代理通过一系列工具调用来完成任务。在每次迭代中,模型根据当前上下文从预定义的动作空间中选择一个动作。然后在环境中执行该动作(例如Manus 的虚拟机沙箱),以产生观察结果。动作和观察结果被追加到上下文中,形成下一次迭代的输入。这个循环持续进行,直到任务完成。 正如你所想象的,上下文随着每一步增长,而输出——通常是结构化的函数调用——则相对较短。这使得预填充与解码之间的比例在代理中远远偏高,区别于聊天机器人。例如,在 Manus 中,平均输入与输出的Token比约为100:1。 幸运的是,具有相同前缀的上下文可以利用KV 缓存,这大大减少了首次生成标记时间(TTFT)和推理成本——无论你是使用自托管模型还是调用推理 API。这里的节省可不是小数目:以 Claude Sonnet 为例,缓存的输入标记费用为 0.30 美元/千标记,而未缓存的则为 3 美元/千标记——相差 10 倍。 从上下文工程的角度来看,提高KV 缓存命中率涉及几个关键做法: 保持提示前缀稳定。由于LLMs 的自回归特性,即使是单个标记的差异也会使该标记及其之后的缓存失效。一个常见错误是在系统提示开头包含时间戳——尤其是精确到秒的时间戳。虽然这样可以让模型告诉你当前时间,但也会大幅降低缓存命中率。 使你的上下文仅追加。避免修改之前的操作或观察。确保你的序列化是确定性的。许多编程语言和库在序列化JSON 对象时不保证键的顺序稳定,这可能会悄无声息地破坏缓存。 在需要时明确标记缓存断点。一些模型提供商或推理框架不支持自动增量前缀缓存,而是需要在上下文中手动插入缓存断点。设置这些断点时,应考虑缓存可能过期的情况,至少确保断点包含系统提示的结尾部分。 此外,如果你使用像vLLM 这样的框架自托管模型,确保启用了前缀/提示缓存,并且使用会话 ID 等技术在分布式工作节点间一致地路由请求。 遮蔽,而非移除 随着你的智能体功能不断增强,其动作空间自然变得更加复杂——简单来说,就是工具数量激增。最近 MCP 的流行更是火上浇油。如果允许用户自定义工具,相信我:总会有人将数百个神秘工具接入你精心策划的动作空间。结果,模型更可能选择错误的动作或走低效路径。简而言之,你的重装智能体反而变得更笨。 一种自然的反应是设计动态动作空间——或许使用类似 RAG 的方式按需加载工具。我们在 Manus 中也尝试过。但实验表明一个明确的规则:除非绝对必要,避免在迭代过程中动态添加或移除工具。主要有两个原因: 在大多数LLMs 中,工具定义在序列化后通常位于上下文的前部,通常在系统提示之前或之后。因此,任何更改都会使所有后续操作和观察的 KV 缓存失效。 当之前的操作和观察仍然引用当前上下文中不再定义的工具时,模型会感到困惑。如果没有受限解码,这通常会导致模式违规或幻觉操作。 为了解决这一问题,同时提升动作选择的效果,Manus 使用了一个上下文感知的状态机来管理工具的可用性。它不是移除工具,而是在解码过程中屏蔽Token的对数概率,以根据当前上下文防止(或强制)选择某些动作。 在实际操作中,大多数模型提供商和推理框架都支持某种形式的响应预填充,这使你可以在不修改工具定义的情况下限制动作空间。函数调用通常有三种模式(我们以NousResearch 的 Hermes 格式为例): 自动– 模型可以选择是否调用函数。通过仅预填回复前缀实现:<|im_start|>assistant 必需——模型必须调用一个函数,但选择不受限制。通过预填充到工具调用标记实现:<|im_start|>assistant 指定——模型必须从特定子集中调用函数。通过预填充到函数名开头实现:<|im_start|>assistant{"name": “browser_ 利用此方法,我们通过直接屏蔽标记的对数概率来限制动作选择。例如,当用户提供新输入时,Manus 必须立即回复,而不是执行动作。我们还特意设计了具有一致前缀的动作名称——例如,所有与浏览器相关的工具都以 browser_开头,命令行工具以 shell_开头。这使我们能够轻松确保代理在特定状态下仅从某一组工具中选择,而无需使用有状态的对数概率处理器。 这些设计有助于确保Manus 代理循环保持稳定——即使在模型驱动架构下也是如此。 将文件系统用作上下文 现代前沿的LLMs 现在提供 128K Token或更多的上下文窗口。但在现实世界的智能代理场景中,这通常不够,有时甚至成为负担。有三个常见的痛点: 观察内容可能非常庞大,尤其是当代理与网页或PDF 等非结构化数据交互时。很容易超出上下文限制。 即使窗口技术上支持,模型性能在超过某个上下文长度后往往会下降。 长输入代价高昂,即使使用前缀缓存也是如此。你仍然需要为传输和预填充每个标记付费。 为了解决这个问题,许多智能体系统实施了上下文截断或压缩策略。但过度压缩不可避免地导致信息丢失。问题是根本性的:智能体本质上必须基于所有先前状态来预测下一步动作——而你无法可靠地预测哪条观察在十步之后可能变得关键。从逻辑角度看,任何不可逆的压缩都存在风险。 这就是为什么我们将文件系统视为Manus 中的终极上下文:大小无限,天生持久,并且可以由智能体自身直接操作。模型学会按需写入和读取文件——不仅将文件系统用作存储,更作为结构化的外部记忆。 我们的压缩策略始终设计为可恢复的。例如,只要保留网址,网页内容就可以从上下文中删除;只要沙盒中仍有文档路径,文档内容也可以省略。这使得Manus 能够缩短上下文长度而不永久丢失信息。 在开发此功能时,我不禁想象,状态空间模型(SSM)要在具代理性的环境中有效工作需要什么条件。与 Transformer 不同,SSM 缺乏完全的注意力机制,难以处理长距离的向后依赖。但如果它们能掌握基于文件的记忆——将长期状态外部化而非保存在上下文中——那么它们的速度和效率可能会开启新一代代理。具代理性的 SSM 或许才是神经图灵机的真正继任者。 通过背诵操控注意力 如果你使用过Manus,可能会注意到一个有趣的现象:在处理复杂任务时,它倾向于创建一个 todo.md 文件,并随着任务的推进逐步更新,勾选已完成的事项。 这不仅仅是可爱的行为——这是一种有意操控注意力的机制。 Manus 中的一个典型任务平均需要大约 50 次工具调用。这是一个较长的循环——由于 Manus 依赖 LLMs 进行决策,因此在长上下文或复杂任务中,容易偏离主题或忘记之前的目标。 通过不断重写待办事项清单,Manus 将其目标反复写入上下文末尾。这将全局计划推入模型的近期注意力范围,避免了“中途丢失”问题,减少了目标不一致的情况。实际上,它利用自然语言来引导自身关注任务目标——无需特殊的架构改动。 保留错误信息 智能体会犯错。这不是漏洞——这是现实。语言模型会产生幻觉,环境会返回错误,外部工具会出现异常,意外的边缘情况时常发生。在多步骤任务中,失败不是例外;它是循环的一部分。 然而,一个常见的冲动是隐藏这些错误:清理痕迹,重试操作,或重置模型状态,寄希望于神奇的“温度”参数。这看起来更安全、更可控。但这付出了代价:抹去失败就抹去了证据。没有证据,模型就无法适应。 根据我们的经验,改善智能体行为的最有效方法之一看似简单:在上下文中保留错误的路径。当模型看到失败的操作及其产生的观察结果或堆栈跟踪时,它会隐式地更新内部信念。这会使其先验偏离类似的操作,从而减少重复同样错误的可能性。 事实上,我们认为错误恢复是衡量真正智能体行为的最明确指标之一。然而,在大多数学术研究和公开基准测试中,这一指标仍然被忽视,这些研究和测试通常侧重于理想条件下的任务成功率。 避免被少量示例限制 少量示例提示是提升LLM 输出的常用技巧。但在智能体系统中,它可能以微妙的方式适得其反。 语言模型擅长模仿;它们会复制上下文中的行为模式。如果你的上下文充满了类似的过去动作-观察对,模型往往会遵循这种模式,即使这已不再是最优选择。 在涉及重复决策或操作的任务中,这可能会带来危险。例如,在使用Manus 帮助审查一批 20 份简历时,代理经常陷入一种节奏——仅仅因为上下文中出现了类似内容,就重复执行相似的操作。这会导致偏离、过度泛化,甚至有时产生幻觉。 解决方法是增加多样性。Manus 在动作和观察中引入少量结构化的变化——不同的序列化模板、替代表达、顺序或格式上的细微噪声。这种受控的随机性有助于打破模式,调整模型的注意力。 换句话说,不要让少量示例把自己限制在固定模式中。上下文越统一,代理就越脆弱。 结论 上下文工程仍是一门新兴科学——但对于代理系统来说,它已经至关重要。模型可能变得更强大、更快速、更廉价,但再强的原始能力也无法替代记忆、环境和反馈的需求。你如何塑造上下文,最终决定了代理的行为:运行速度、恢复能力以及扩展范围。 在Manus,我们通过反复重写、走过死胡同以及在数百万用户中的实际测试,学到了这些经验。我们在这里分享的内容并非普遍真理,但这些是对我们有效的模式。如果它们能帮助你避免哪怕一次痛苦的迭代,那么这篇文章就达到了它的目的。 智能代理的未来将由一个个情境逐步构建。精心设计每一个情境。
柯达逆袭:CEO康坦扎如何重塑品牌
柯达曾在影像领域缔造出辉煌历史,一度成为摄影的代名词,却在数码时代陷入衰落并最终破产。而如今,这家公司已走上转型重生之路。 原文标题:《柯达的下一个时刻:CEO吉姆·康坦扎如何重塑品牌》 在20世纪80年代,柯达就是摄影的代名词。人们装进相机里的每一个胶卷筒上都印着醒目的红、黄、黑配色标签,那些装满双份相片的信封上,也都有那个标志性的“K”字标识。人们总会一张张仔细翻找,挑出最值得与亲友分享的瞬间。那时,所有值得纪念的时刻都被称为“柯达时刻”,这个品牌不仅融入了我们的日常生活,更在摄影市场中占据着主导地位。 如今,胶片相机已成过往时代的遗存。每个胶卷能拍的照片张数有限,而且必须等冲洗出来才能看到效果如何——这听起来简直古旧又过时。而对于柯达这个品牌本身,人们也很容易像对待泛美航空(Pan Am World Airways)和百视达(Blockbuster)那样,把它扔进“煊赫一时的过气公司”的垃圾堆。 然而柯达依然屹立,且活力不减。 这不仅仅体现在品牌授权业务上——那个经典的红黄“K”字标志还点缀在海外各类服饰及生活用品上,仅今年一季度就创收约400万美元。尽管高品质胶片与印刷业务仍是其支柱业务,但公司正依托核心技术优势开辟新赛道。CEO吉姆·康坦扎(Jim Continenza)表示,如今的柯达是一家专注于化学品、材料处理及制造的B2B企业,未来也同样如此。今年5月,公司宣布投资2000万美元在纽约罗切斯特新建工厂,生产制药行业用化学品。 康坦扎表示,“外界很难理解这样的转型,你没法再去赞助赛车了,那些光鲜的事情都与你无关了。你现在必须心无旁骛,专注于业务,聚焦客户需求、深挖技术优势、重构盈利模式,而之前这一切都严重失衡。” 柯达的转型是一场由内而外的自我重塑。虽然大多数企业无需经历柯达这般彻底的转型,但在康坦扎的领导下,这家公司证明了只要秉持正确理念,聚焦核心业务,即使绝境也能涅槃重生,因此其经历对许多公司仍不失借鉴意义。 历史回溯 1925年,乔治·伊士曼正在使用柯达相机进行拍摄。图片来源:BETTMANN ARCHIVE 伊士曼柯达公司的历史可追溯至1881年。当时,摄影爱好者乔治·伊士曼(George Eastman)与罗切斯特商人亨利·斯特朗(Henry Strong)合作,生产无需即时显影的感光玻璃版。1888年,伊士曼研制出首款胶片相机,旨在让摄影走进大众生活。 柯达始终扎根罗切斯特,在长达一个多世纪里持续引领摄影与胶片技术的创新。现任CEO康坦扎坦言,过去数十年,柯达曾占据这个市场超80%的份额——这种垄断地位不仅滋生了自满情绪,更形成了封闭僵化的企业文化。 进入20世纪90年代,数码摄影浪潮席卷而来。尽管柯达早期深度参与了数码技术的研发,却未能及时转型。随着营收断崖式下跌,公司尝试了各种策略——收购化工企业、进军数码相机制造、投资家用打印机市场——但最终仍于2012年依据美国《破产法》第十一章提出破产保护申请。 新任领导登场 柯达CEO吉姆·康坦扎。图片来源:KODAK 2013年,柯达仍处于破产期间,经验丰富的商业领袖康坦扎加入了柯达董事会,这位曾多次帮助其他企业扭亏为盈的老将打趣道:“我是随这个破产公司一起附送的赠品。”2019年他被任命执行董事长,2020年出任CEO。他表示,作为董事会成员,他对公司和股东都负有责任。 “董事会请我接手时,我责无旁贷,”他说,“况且公司陷入困境时,我也在任。……你不能因为身为董事就推脱说‘这不是我的错’,一旦加入董事会,当股东将信任托付给你时,你就要对股东负责。” 康坦扎还强调,决不能让柯达的员工因管理层(无论是现任还是前任)的决策失误而受苦。他指出,这些员工靠柯达养家糊口,而公司高管们即便在公司陷入困境时,也不太可能面临同样的财务困境。 破局之路 乔治·伊士曼1888年发明的首款柯达相机(左后)、折叠式相机、布朗尼盒式相机、傻瓜相机,以及1999年推出的数码相机(前中)。图片来源:SSPL/GETTY IMAGES 康坦扎说,让柯达重回正轨的思路很简单:公司亏钱,那就少花钱;消费者不想买你的产品,那就搞清楚他们真正想要什么;最后就是确保内部运营顺畅。 当然,实际情况远比这复杂,但康坦扎上任首日就看清了最大的问题。当他在公司剧院里面对千余名员工,向他们发问“柯达究竟是做什么的”时,竟无人能答。进一步了解后他发现,柯达最“擅长”的,竟是生产无人问津的产品。 2016年一个阴云密布的早晨,纽约州罗切斯特市伊士曼柯达全球总部大楼外景。图片来源:GETTY IMAGES 带着这样的发现,康坦扎开始重新审视柯达的核心竞争力,重视起一直以来被柯达忽视的消费者群体。 康坦扎称,一直以来,柯达都在不断创新突破,拥有超过27,000件专利,直到今天,柯达仍然积极活跃在创新领域。柯达也坚持投入和升级擅长的领域,胶片与商业印刷现在仍然是其最大的业务板块,2024财年占总收入的约72%。康坦扎不无自豪地表示,柯达的胶印版数码印刷技术无论是质量还是速度,在全球都是首屈一指,在美国也是独此一家。柯达仍坚持生产高质量胶片,如今它们仍在被顶级电影制作人使用。此外,柯达还为其他公司代工生产胶片,用于静态摄影、X光成像和视频拍摄等用途。 但柯达也开始拓宽化学品业务,不再局限于胶片涂布、相纸涂层、影像显影等用途。 如今,这些积累多年的专业技术也被应用到电动汽车及其他电池的涂层制造。此外,预计今年晚些时候投产的制药工厂,也将生产受美国FDA监管的诊断检测试剂。康坦扎表示,他发现柯达在涉足不过数年的制药领域,不仅具备所需的专业技术,还可为此类关键化学品打造本土供应来源。(他说,当初切入这一业务的动因,并不是如今的关税威胁,而是新冠疫情高峰期的供应链危机。) 除了寻找可以攀登的新领域,康坦扎还致力于逐步偿还公司的债务,并为公司重组引入更合适的融资安排。 康坦扎表示,在重振柯达的过程中,他最重视的企业价值观是敢于竞争——然后争取胜利。 “有两个选择,”康坦扎说。“你可以保守应对,尽量不花钱,苟延残喘12年,直到钱耗光,因为你怕花钱太猛,公司会倒得更快。或者你也可以把钱投进去,虽然可能会死得很快,但谁又能知道结果如何?至少你还能拼出一线生机。我永远会选择拼一把。” 聚焦领导力 1996年,位于罗切斯特的伊士曼柯达公司生产的一次性相机。图片来源:JAMES LEYNSE/CORBIS VIA GETTY IMAGES 让柯达起死回生的,不仅仅是康坦扎在业务层面上的专注,还有他对员工的态度。 他的任何决策背后都包含着对一线员工的尊重。康坦扎表示,他跑工厂的次数不下一百次,可能比去办公室的次数还多。他认为,让真正做事的员工明白“管理层是为他们服务的”,这也是为什么公司上下每个人都愿意为柯达努力工作。他说:“你不是来给员工增加障碍或者负担的,也不是来评判他们的。你的职责是支持他们。” 相比之下,柯达的领导层却没那么“神圣不可侵犯”。康坦扎表示,上任之初他换掉了大约80%的管理团队,目的是把精力集中在正确的事情上。部分资深员工得以留任,但也有一些没能留下。 康坦扎表示,那些留下来的人员彼此之间会直接交流。领导层会亲自参与季度业务评审会议,而不是派助理参加。他说:“你是否需要参加会议、是否需要在场,不取决于你的职级,而是看你的职能。” 康坦扎称,柯达虽然是一家上市公司,但行事更像一个家族企业。在柯达,无论你是什么职级,都可以对公司提出建议或不同意见。柯达不再有那种绝对的部门界限,不会有人说某些职能“不是我的工作”或“与我无关”。康坦扎还说,他给予员工足够的空间去完成自己的工作,即使失败,也不会苛责他们。 未来计划 图片来源:Nikos Pekiaridis/NurPhoto via Getty Images 康坦扎表示,今后,化学品、涂层和制药业务会在柯达的业务中慢慢占据更大比重,不过柯达不太可能完全放弃胶片和印刷业务,因为这是公司擅长且深受信赖的领域。 他说:“未来的柯达会看起来像一家先进材料和化工公司,不过也涉足印刷业务。” 康坦扎表示,柯达会继续偿还债务。为此,他期望公司在各个领域都持续增长,尤其是在制药化学品方面。他说,既然柯达已开始进入这一领域,就应充分利用投入的资金和正在建设的设施。 康坦扎称,他的底线就是柯达不倒闭。 “三年前,一位在柯达工作了将近50年的员工跟我说,‘吉姆,我走的时候,得把我的技术和经验传下去,但我没人可传。’这是我在柯达工作最快乐的一天,因为之前从来没人跟我说过这些,”康坦扎说。“他们一度觉得没有未来了,但现在,他们一直干到了退休,正忙着把毕生所学传授给补充进来的‘新血’。” 文:Megan Poinski 翻译:Lei&Rach 校对:Lemin
媒体称退货达40%,顺丰总裁王卫为雷军“带货”小米新款AI眼镜
快科技7月19日消息,近日,社交平台上有网友爆料称:有博主透露,顺丰总裁王卫佩戴小米新款 AI 眼镜现身。 将相关发布图片放大查看,能清晰看到顺丰总裁王卫确实佩戴着一副印有“xiaomi”字样的眼镜。 对此,有网友调侃称:王卫为雷军“带货咯”。 此前,在6月底,小米正式发布了AI眼镜。这款眼镜有三个版本,标准版售价 1999元,单色电致变色版售价2699元,彩色电致变色版售价2999元。 在配置方面,小米 AI 眼镜配备了 1200 万像素主摄,支持 2304x1728 高清录像,还具备 EIS 电子防抖功能,能够确保第一视角拍摄画面的稳定。 同时,它搭载了四麦克风阵列、骨传导麦克风以及开放式扬声器。 在硬件配置上,小米 AI 眼镜搭载了高通骁龙 AR1 芯片和 BES2700H 低功耗处理芯片,内置小米金沙江电池,号称典型续航时间可达 8.6 小时。 不过,小米AI眼镜上市后也面临着一些用户反馈的问题。 有媒体报道,一位购买了小米AI眼镜的用户在社交平台发文称,目前这款眼镜的拍照效果对光线要求较高。 在光线充足的情况下,画质尚可;但只要光线稍暗,画质就会变得很差,而且还会出现明显的抖动模糊现象。 此外,小米 AI 眼镜的续航能力也遭到部分用户诟病。 官方宣称其续航时间为 8 小时,视频录制一次官方建议时长为 10 分钟,但有消费者表示,实际使用中最多只能录制40分钟。 据行业媒体VR Vision统计,在抖音平台上,AI眼镜行业的平均退货率在 40% —50%之间,小米也未能避免这一情况,其在抖音平台的退货率大概达到 40%。
挑战谷歌霸主地位:Perplexity正洽谈在手机上预装AI浏览器
IT之家 7 月 19 日消息,英伟达投资的 AI 初创公司 Perplexity 正在对谷歌 Chrome 浏览器及其 AI 搜索引擎在移动市场中的垄断性地位发起挑战。 当地时间周五,其 CEO 阿拉文德・斯里尼瓦斯(Aravind Srinivas)向路透社透露,该公司正在与移动设备制造商(OEM)洽谈,希望能够在智能手机上预装其新推出的 Comet AI 移动浏览器。 斯里尼瓦斯表示,“说服移动 OEM 将默认浏览器从 Chrome 改为 Comet 并不容易”,他还强调了移动平台上用户惯性带来的挑战。 目前 Comet 浏览器仍处于 Beta 测试阶段,暂时仅适用于桌面设备,集成了自家 AI 助手,允许用户询问有关电子邮件、日历或浏览历史等个人数据的问题,甚至能执行安排会议、总结网页等任务。 斯里尼瓦斯表示,在为数十万初始测试者稳定桌面版本后,Perplexity 明年的目标是吸引“数千万到数亿”用户。 路透社本月早些时候报道,OpenAI 正在开发自己的 AI 智能体浏览器,可自动执行旅行订票、财务管理等复杂任务。 据 Statcounter 数据,截至上月,谷歌 Chrome 在移动设备中的市场份额约为 70%,苹果 Safari 与三星浏览器合计占比 24%。 彭博新闻 6 月曾报道,Perplexity 正在与三星电子、苹果谈判,计划将其 AI 搜索能力整合到两家公司的设备中,潜在增强 Bixby(三星)或 Siri(苹果)等语音助手功能。 Perplexity 今年早些时候完成了 5 亿美元(IT之家注:现汇率约合 35.92 亿元人民币)融资,估值达 140 亿美元(现汇率约合 1005.7 亿元人民币),其投资者包括 Accel、英伟达、杰夫・贝索斯(Jeff Bezos)及前谷歌 CEO 埃里克・施密特(Eric Schmidt)。
杨植麟摸着DeepSeek过河
文|邓咏仪 编辑|苏建勋 发布开源模型K2一周后,Kimi引起的全球热潮还在继续。 7月11日,月之暗面(Moonshot AI)开源了万亿参数的MoE模型Kimi K2。这是一个参数高达1T,激活参数32B的MoE模型,包括两款开源模型版本Kimi-Base和Kimi-instruct。 K2是个“偏科”选手,擅长编程、智能体类的任务。在Kimi公布的测评结果中,Kimi K2在自主编程、工具调用和数学推理三个维度的表现上,都超过了同为开源模型的DeepSeek-V3和阿里Qwen3。 Hugging Face数据显示,开源一周后,K2下载量累计超过10万,还在快速攀升中。在大模型权威竞技场LMSYS中,K2-Instruct已经冲到总榜第四,仅次于GPT-4o、Claude-3.5、Gemini-1.5-Pro。 马斯克在推特上转发了的OpenRouter趋势数据显示,K2的在一周内攀升至全球趋势榜第二,仅次于Grok 4。 △图源:Twitter 月之暗面这次没有选择大规模营销,而是在用一种全新的方式开源。 K2发布后,Kimi的算法工程师、研究员,在推特、小红书、知乎上积极分享K2的工作和技术,回复用户疑问;Kimi的官方推特也在不间断地刷屏,转发社区里对K2的赞美和建议。 热情的互动引来了更多的“自来水”。Hugging Face联合创始人Thomas Wolf就对Kimi K2大加赞赏,表示开源模型正在挑战最新的闭源权重模型。 发布热闹得像团建,与这家公司过去半年的沉默形成鲜明对比。 过去两年,Kimi经历了一场过山车般的起伏:几乎是最后一个推出ChatBot助手Kimi,但是凭借着长文本和出圈的策划一炮而红,成为最先出圈的大模型应用产品。 但2025年,几乎所有模型厂商,都被横空出世的DeepSeek打得失语。追逐AGI,证明自己还有技术实力,变成了所有厂商要做的证明题。 曾经拥有梦幻开端的Kimi,在今年来了个猛转弯:To C的Kimi应用停止投流,专心主攻模型。去年曾经试水的Ohai、Noisee等其他C端应用,以及Kimi在多模态上的尝试也迅速暂停。这也让它遭受的质疑更猛烈——是不是放弃了预训练?停止投流后,To C应用放弃了吗? 蛰伏半年,Kimi需要一场翻身仗。K2的发布,就是回归AGI主线的一种宣言。 “又一个DeepSeek时刻” K2发布,已经引起了全球开发者社区的震动。7月16日,著名的《Nature》杂志发文,表示K2的发布为“另一个DeepSeek时刻”,足见其赞美。 为什么K2的发布如此重要?简单来说,因为K2把DeepSeek模式再走了一遍:主打高性能、低成本,而且真开源。最重要的是,端出了真的好东西。 K2是个性能强悍的模型。它很专注,目标清晰——就是为了智能体(Agentic AI)而生。 一位Kimi的算法工程师Justin Wong在博客里说:Kimi希望把人与AI的交互方式,从chat-first变成artifact-first,即交付一个具体的交付物(比如一个3D模型、一个表格),而非交付一段聊天上下文。 用大白话说,就是要真能干活,不只是纯聊天了。 了解了这点,才能理解Kimi在模型训练路线上的诸多选择。 DeepSeek R1发布时,更多注重思考、推理能力,在发布后相当长一段时间才加入工具调用功能。而K2并没有像DeepSeek R1那样带上推理模式(如展现思考过程),虽然也着重提升了风格化写作能力,但并没有过多强调。 K2最看重的还是Agentic(智能体)能力,把提升“自主使用工具、完成任务”的能力,放到最高优先级。“这在整个领域里是一个非常罕见的选择。”一位从业者评论道。 更具体地说,K2把优化的重点放在了:根据聊天的上下文,调用外部的工具,要让调用速度更快,完成任务的质量更高——比如浏览器、PPT、Excel、3D绘画软件等等。用户也可以接入owl、Cline、RooCode 等 Agent/Coding 框架,来自主编程。 所以,在K2的使用案例中,你可以看到,直接输入Prompt,不用怎么等K2“思考”,K2就迅速生成3D旋转地球模型、生成PPT、生成昼夜循环的山川峡谷3D景观、3D粒子星系、交易看盘等等。 △Prompt: Create a 3D HTML mountain scene with cliffs, rivers, and day-night lighting. Supports drag/zoom, animated transitions, realistic gradients, and toggleable contour lines... (创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示...) 来源:Kimi 把13万行的原始数据丢给 Kimi K2,可以帮你分析远程办公比例对薪资的影响,分析显著差异,自动生成统计图表与回归模型解读等等,用统一色调做出小提琴图(violin plot) 、箱线图(box plot)、散点图(scatter plot)等专业图表,整理成报告。 △来源:Kimi K2的另一个核心贡献在于,把模型的训练和使用成本又拉到了一个地板价,同时还保持着接近Claude主流模型的性能,主打一个性价比高。 Kimi K2 API的定价是:每百万输入tokens 4元,每百万输出tokens 16元;直接和同样主打编程的Claude 4 Sonnet(每百万输入3美元,每百万输出15美元)的API价格相比,整体成本可以下降超过75%。 别小看这75%,如今AI编程已经成为创业赛道的“明牌”,赛道里包括Cursor等头部AI编程公司估值已经迅速起飞。截至2025年6月,Cursor的ARR(年度经常性收入)已突破5亿美元大关,相较于4月中旬披露的3亿美元,短短两个月内飙升了60%。 开发者会实实在在用脚投票。K2一出,Hugging Face的下载量涨得飞快,K2很快就登上了OpenRouter的趋势榜周第二,开发者频频吐槽为什么API还这么慢,用不上。 K2现在并不完美,输出的结果还是会有不足之处,比如Token输出比较啰嗦,代码质量和顶尖的Claude相比还是有差距——但架不住它性价比高。很多博主的测试案例中,普通程序员写一天代码也就几块钱,大大降低了AI编程的算力使用门槛。 性价比高,也源于Kimi一些原创性的创新。 Kimi从训练阶段引入了新的优化器Muon,取代了原来主流的AdamW优化器,在不同Llama架构模型上,Muon的算力需求只有AdamW的52%。 优化器是大模型里的一个核心组件,决定着在训练时的模型参数如何调整。优化器优化得越好,模型在同样的硬件环境下跑得更快、更稳,换种角度说,也更节省了算力。 这可以说是一场技术冒险。Muon原本是一个比较前沿的优化器方向,甚至没有发表正式论文,以前只在小型模型上训练成功过。但Kimi选择将Muon扩大到万亿参数去尝试,并且解决了大规模训练下的很多技术难点,让Muon成为这次K2发布最受尊重的工作之一。 在公司门口放钢琴、公司名字用传奇摇滚专辑命名,这看起来是很朋克。但在巨大的市场压力下,专注在一个方向,把一个新技术架构直接上到万亿参数去训练,用真金白银去试,还成功了。 这才是真的朋克。 六小龙没有回头路 从K2发布的细节看,DeepSeek在全球造成的影响仍在持续。 今年1月发布的DeepSeek R1是全球AI叙事的分水岭。在那之前,国内无论是大厂,还是AI初创,大家都在卷AI应用,抢夺用户和留存。 Kimi曾经在2024年做过一波激进投流,和字节的豆包对打。但投流、增长是在大厂舒适区里的事情,Kimi很快就显得力不从心。2024年11月,豆包宣布MAU过亿,在国内一时风头无两。 很快,这些成果都被DeepSeek R1迅速超越。 DeepSeek之后,无论是大厂还是初创,大家都形成共识:追求模型能力提升才是最重要的事。国内To C应用的战场上,几乎就剩下元宝、夸克和豆包在厮杀。 如今商业化已经是个有点遥远,且不是最重要的问题了。面对在模型和应用上都在All in的大厂,留给大模型初创的路几乎只有一条:开源,和攻克最难的问题。 前不久的36氪Waves大会上,真格基金合伙人戴雨森在谈到Kimi与Minimax时曾说: “一年前,大家比投放、比用户,比投放,其实是大厂的机会。现在则回到技术前沿,回到强认知,我相信反而更适合以技术大牛为核心的创业团队。 ” 六小龙们都做出了自己的选择。DeepSeek R1的冲击后,各家呈上的答卷,实则表明了一种路线的分野:Kimi已经有点像Anthropic,主打提升编程、智能体的能力;Minimax和阶跃牢牢抓紧多模态;智谱则是走更本土、To B/To G的路线;百川选择继续做医疗模型;01早已宣布不再做超大基础模型迭代,转而专注在大模型落地上。 此前,Kimi在海外知名度有限,但K2的爆火已经带来实在的回报:全球开发者圈子里开始关注起Kimi,有人开始研究CEO杨植麟的过往经历。开发者们喜欢这个充满朋克文化的团队——Kimi团队成员在小红书、推特展示公司里以传奇乐队命名的会议室,也会在Twitter坦承“现在K2还不完美,infra还有很多不足,正在加班加点修复。” △来源:Twitter 而更早之前,在Kimi专注提升模型能力,推出包括深度研究等产品后,其实也反哺到了产品上:Kimi的Web端数据从6月开始反弹,访问量环比增长30%。 某种程度上,开源和朋克有着同样的精神内核,自由、开放、尊重技术,这是现在AI圈子里最强势的"注意力货币",不仅能建立名声、展现信仰,还有招揽人才——这才是AI初创现在最着急的事。 K2发布后,一位Kimi研究员曾经在博客里提到:“ 2025年,智能的上限仍然完全由模型决定,作为一家以AGI为目标的公司,如果不去追求智能的上限,那我一天也不会多呆下去。” 追求AGI看似是一条窄路,对还在这条路上的初创公司而言,还是一条康庄大道。 只要足够专注。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。