行业分类:
加载中...
头条分类:
加载中...
浙江父亲想用AI“复活”儿子:像《流浪地球2》中的丫丫一样
快科技1月29日消息,据国内媒体报道,随着生成式AI数字技术的发展,使用AI“复活”亲属,与他们再见一面或者说说话,也迎来了可能。 浙江金华的吴先生,他的独子去年在英国留学时不幸意外去世,年仅22岁,强忍着巨大的悲痛,夫妻按儿子生前签署的器官捐赠协议,捐赠的器官让5个陌生人重获新生。 失去独子后,出于对孩子的思念,吴先生萌生了使用数字“AI技术”复活儿子的想法。 起初,他在广州找到过一个初创团队,发过去儿子微信里的照片和语音素材文件包,他们收到一个网址,在对话框里输入文字,就会生成一段数字形象说话的视频。 这与他期待中的可交互数字人,无论是在形象还是声音上,都有极大的落差。 后来,吴先生找到了张泽伟等人创立的“超级头脑”团队,获得一段AI生成的视频,虽然效果依然初级,“儿子”的声音略带机械感,能够听出说话时的区别,但也给出了数字AI“复活”的可能。 而吴先生所期待的,就是《流浪地球2》中,刘德华饰演父亲的女儿丫丫,以“数字生命”的形式出现在电脑里,有自主思想,可以互动交流。 虽然目前技术还不能达到,但吴先生已经将跟儿子有关的素材,按照情感、逻辑等分类汇总保存,等一个时机喂给AI,他相信有一天科技能够进步到此种地步,达成自己的愿望。
爆火的哄哄模拟器,无法拒绝的赛博女友
前两天和朋友聊天,大家讨论到情感问题,我自认还是有点儿水平的,能把人迷得不要不要的。 朋友在聊天框里翻了个白眼并发过来一个 AI 工具「哄哄模拟器」的链接,让我「看看自己几斤几两」。 哼,也不看看我是谁,怎么可能难倒我。 试试就「逝世」 带着三分不屑四分怀疑打开了「哄哄模拟器」(https://hong.greatdk.com/),页面显示这是一个对话练习 AI,可以提升「使用语言技巧和沟通能力在限定次数内让对方原谅你」的能力。 为了证明自己,我选择了胜率最低字数最少的难题:「饭桌上顺手给女朋友闺蜜夹了两片肉」。 跳转页面后看着题目瞬间清醒,光标停在答题框跳动很久,第一句回答我就犯难了。 得,硬着头皮回答吧,「刚才我脑抽了」,然后页面瞬间弹窗「TA 离你而去」,我一整个人就是「啊?!」 「哄哄模拟器」里有许多有意思的难题,涉及情侣、职场、电视剧等各种场景,你可以自由选择预设好的难题在线哄人,AI 会根据你的聊天内容动态评分,原谅值过低只能开局重开,原谅值达到一定数值则哄人成功。 哄哄模拟器的开发者是王登科,他表示上线后产品 24 小时涌入超过 60 万用户,消耗了大模型十几亿 token,发生了 2000 万次对话,这个有趣的 AI 工具源于他和女朋友的一次争吵。 基于 AI 的哄人器 「几个月前,当时我和女朋友因为我现在已经忘记的原因而有了一些争吵,我一边看着对方骂我的样子,一边把对方想象成一个机器人,头上有个虚拟的进度条,我观察她的反应,假装成我的回应会让她头上的进度条发生变化,然后我就突然想到了一个产品创意:带有数值和反馈系统的基于场景的聊天。」 最开始,王登科把哄哄模拟器发布在他的微博、即刻、X 和 V2ex上,但反响平平。没想到不久后「在线人数已经飙到了 5000,日活用户到了接近 10 万」。经过分析,王登科推测流量主要来自 QQ 空间和 QQ 群。 由于哄哄模拟器调用了 OpenAI 的 ChatGPT 3.5 接口,成本 0.0015美元/1000 个 token,猛增的流量一个晚上跑了一亿的 token,成本约 150 美元。为了解决成本问题,王登科使用 Moonshot 模型替代了 ChatGPT。 随着分享裂变用户猛增,哄哄模拟器进入了被封禁,申诉解封,再被封禁,再次申诉解封循环,流量开始回落。 对于哄哄模拟器的商业前景,王登科认为「目前的哄哄模拟器就是一个短期很难有商业回报的产品,它成本极高,而收益却极低——如果我不用非常极端的办法去恶心用户的话。这样的一个产品,前途其实并不明朗」。 AI 情感陪伴 复盘「哄哄模拟器」时,王登科发现「用户们很喜欢它,很多用户把我放置的关卡全部通关,还有人在全部通关之后又逐个进行最短回复的挑战,B站,抖音都出现了大量体验,游玩或者吐槽的视频」,可见 AI 情感陪伴是有潜在市场需求的。 B 站上出现了大量攻略 哄哄模拟器一开始调用的是 OpenAI 的 ChatGPT 3.5 接口。在前不久上线的 GPTs 商店里,搜索 girlfriend或者 boyfriend,有不少类似的 AI 情感伴侣。 虽然 OpenAI 在使用条款中明确表示不允许 AI 培养浪漫伴侣关系或进行受管制活动,但几乎所有 AI 情感伴侣的介绍都高度一致:贴心、专情和智慧,拥有完美人设,话里话外还会暗示可以「做很多事」。 和谷歌、腾讯、VISA 等合作的数据公司 data.ai 表示,美国市场 2023 年从苹果或谷歌商店下载的 30 个聊天 AI 中,有 7 个涉及 AI 朋友、女友和伴侣。 英国 Foxy AI 公司则更进一步,创作了一名叫 Lexi Love 的女性 AI 投放在 Instagram 上,会说 30 多种语音,24 小时使用文字、图片、视频陪用户聊天,目前每月的收入达到了 3 万美元,一些人甚至以为她是真人并约会,甚至每个月她会收到 20 多次求婚。 Foxy AI 公司 CEO Sam Emara 认为,Lexi Love 的各项数据证明 AI 有能力与人深入交流,提供令人满意的女友体验。 孤独是陪伴的生产力 自 ChatGPT 诞生以来,大众更多把 AI 的关注点放在提升效率上,但谈到 AI 对现实世界的影响时,人们往往更担心 AI 诞生灵智拥有感情,洞察人性提供情绪价值的 AI 产品或许是属于 AI 的另一条支线任务。 根据美国疾控中心网站 2022年 的数据,美国孤独症的患病率高达 2.3%,在监测到的 8 岁儿童中,每 44 名就有一名被确认为孤独症谱系障碍。 世界卫生组织统计,全球约 10 亿人正在遭受精神障碍困扰。中国精神卫生调查显示,成人抑郁障碍终生患病率为 6.8%,其中抑郁症为 3.4%。 在结束孤独和减少抑郁的过程中,人们往往遭受着经济、时间和情感的三维打击。 心理辅导费用昂贵,耗时耗力,咨询师还不一定真的符合自己的情感治愈需求。 AI 情感陪伴则在上述三个维度都具备着优势,或许这就是情感陪伴工具在 AI 领域爆发的重要原因之一。 The Clueless 经纪公司 AI 女模,月入 1.5 万美元,背后是一整个团队 不过,对 AI 情感陪伴的依赖则是我们需要警惕的,完美人设是不存在的。 现实中每个人千差万别,一个人对女朋友说「饭桌上顺手给女朋友闺蜜夹了两片肉是因为脑抽了」,性格直爽的女友知道男友前一天加班到凌晨 3 点大概率会一笑了之,敏感细腻的女友可能听到男友无论多完美的哄人话术还是会记上一笔。 同济大学王颖吉教授认为: 聊天机器人只是提供语音或文字帮助的工作助手,而非能够进行深入对谈的灵魂伴侣。人机伦理纠葛及陷阱的风险正随着机器智能化和拟人化程度的提高而日趋严重。考虑到人工智能所带来的伦理安全风险及社会后果,人们应该尽量避免卷入与机器之间的深度社会情感关系,更多地专注于其工具性服务功能。
号称中文评测超越 GPT-4,百川智能发布超千亿参数大模型 Baichuan 3
「清华系」大模型创业公司又放大招了。 1 月 29 日,由搜狗创始人王小川(清华本硕)创立的百川智能,正式发布了超千亿参数的大语言模型 Baichuan 3。该模型不仅在多个权威测试中表现卓越,更是在中文指标上超越了 GPT-4。 测试结果显示,在 MMLU 等多个英语基准测试中,Baichuan 3 达到接近 GPT-4 九成的水平。在 CMMLU、GAOKAO 等多个中文基准测试中,Baichuan 3 则是遥遥领先,大幅度超越了 GPT-3.5,也全面超越了 GPT-4。 在数学和代码的榜单测试,以及 MT-Bench、IFEval 等对齐榜单的评测中,Baichuan 3 均超越了 GPT-3.5、Claude 等大模型,也位居行业前列,仅略逊于 GPT-4。 AI+医疗是大模型的关键应用领域。医疗问题复杂多变、知识更新迅速、准确性要求高,需要模型在文本、图像、声音等方面全面展现强大的理解和决策能力。 因此,百川智能将其视为大模型的「皇冠上的明珠」。 Baichuan 3 在医疗领域进行了大量训练和优化,训练后的效果也很显著,其在 MCMLE、MedExam、CMExam 等中文医疗任务的表现超过 GPT-4,USMLE、MedMCQA 等英文医疗任务也接近 GPT-4 水平,一举夺下了医疗能力最强的中文大模型称号。 据官方透露,为了加强这方面的训练,Baichuan 3 在模型预训练阶段就构建了超过千亿 Token 的医疗数据集,涵盖从理论到实践各个方面的医学知识,以确保在医学领域的专业度和知识深度。 在推理阶段,百川智能通过准确描述任务、恰当选择样本,优化了针对医疗知识的 Prompt,也使得模型输出更加准确以及符合逻辑的推理步骤。 语义理解和文本生成是大模型最基础的底层能力,可以被视为人工智能模型的核心支柱。王小川曾指出,语言是人类认知世界的边界,从技术实现层面来看,感知并理解语言比图像和视频更具难度。 在他看来,牛顿使用三大运动定律将宇宙万物间的规律抽象为数学表达式,这对人类认知是一次重大飞跃。今天的大模型也是如此。掌握语言背后的规律,就意味着掌握了知识本身,以及人类的思考、交流和文化。 语言模型就像原子弹一样,它可能会点燃一个氢弹。未来还会有更好的建模,这是我们在未来需要做的功课。 Baichuan 3 强大的中文语言处理能力是其最大亮点之一。即便面对格式复杂、结构严密、韵律丰富的宋词等高难度文体,Baichuan 3 也能生成内容工整、对仗到位、韵脚和谐的作品。 官方表示,Baichuan 3 结合「RLHF&RLAIF」以及迭代式强化学习的方法使大型语言模型在诗歌创作方面能力大幅提升。相比业内其他顶级模型,其创作可用性提高超过 5 倍,文学造诣完胜 GPT-4。 ▲体验链接:https://www.baichuan-ai.com/ 例如,在官方的演示中,让 Baichuan 3 就 OpenAI「宫斗大戏」生成一首定风波,它中英文夹杂的表现倒是别有一番趣味 《定风波·忆昔风云变幻中》 忆昔风云变幻中,AI 领域起惊鸿。Altman 遭逢离散苦,谁助? Nadella 援手通。 昔日同侪成对手,何究?江湖恩怨付长空。共铸辉煌携手进,无悔,砥砺前行路无穷。 值得一提的是,百川智能在开源的理念上与其他大模型公司有所不同。王小川在 Baichuan 2 的发布会上的一段讲话便可见一斑。 Llama 2 开源模型的时代已经过去了。我们现在可以获得比 Llama 更友好且能力更强的开源模型,能够帮助扶持中国整个生态的发展。 Llama 2 虽标榜开源,但实际仅限英语环境使用。相比之下,Baichuan 2 系列面向中文用户全面开放,在中英双语环境下均提供免费服务。 百川智能已经陆续开源了 Baichuan-7B、Baichuan-13B、Baichuan2-7B、Baichuan2-13B 等四款低成本部署,支持中英双语的大模型。 此外,当被媒体问及如何做到开源和商业化闭源模型齐头并进、快速迭代时,百川智能技术联合创始人陈炜鹏透露,这得益于他们丰富的搜索技术经验能够被快速迁移应用到大模型研发。 从技术层面看,搜索与大模型有许多共通的技术基础。比如在模型训练的关键数据处理环节,团队根据在搜索领域的经验,进行数据筛选优化,实现了过滤重复、提升质量,从而为模型提供高质量的数据支撑。 去年九月份,当谈到国内大模型与 ChatGPT 的差距时,王小川作出了这样的判断: GPT-4 一直在不断进步,最近它们推出语音和图像功能,引起了很大的轰动。从时间角度来看,我们认为可能需要两年或三年的时间,才能更接近 GPT-4 目前的水平。 当然,在大模型竞争的刀刃相向中,仅仅停留在技术探索阶段还不够,百川智能下一步仍然是需要加快技术向应用场景的转化。 王小川不止一次在公开场合提到「超级应用」,他甚至预测今年中国会有若干个超级应用产生。而这也或将成为大模型的下一场战事。
百度输入法在联想词里塞广告,他们没事整这怪活干啥?
今天世超刷到一个新闻,事不大,但网友们反应都很大。 事情是这样的,前两天一个 V 站网友发帖,谴责 “ 百度输入法完全没下限 ” 。 原来在他打字时,百度输入法会在功能栏和输入栏之间塞入横幅广告。 在点了右上角关闭后,广告没再出现,他也就忍了。 但没想到,过段时间百度输入法换了一个姿势再来了一次。 在网友输入 “ 招商 ” 两字之后,联想词里居然出现了文字广告——★热门加盟店排行。 点开后发现,这是一个展示最近各大品牌加盟指数的综合榜单。 事情的经过就是这样,世超猜测一下,这大概率是百度输入法在一些特定词上接入了传播。 比如它检测到 “ 招商 ” 关键词,就会给用户推荐相关查询榜单。类似的,如果它和美食平台合作,那用户输入 “ 中午吃啥 ” ,它可能就给你推荐 “ ★美食榜单 ” 。 不过百度的朋友告诉我,目前这个功能已经被下掉了。 虽然说这个广告尺寸非常小,还没世超一个鼻屎大,但这件事让大家都觉得离谱,匪夷所思。 问题的关键,就在于输入法是使用频次非常高的应用,大家很难接受这里出现广告。 而且在广告形式越来越烦人的当下,你有任何 “ 创新 ” ,都会引起大家反感。再说了,输入法面板总共也就屏幕一半大,你还搁这投广告呢。 后来,这个帖子被各大博主转发到了微博,世超发现原来很多人都被输入法广告偷袭过了。 早在 2024 年第一天,就有网友发微博吐槽过百度输入法。 还有个网友正在这条话题下面看热闹呢,结果看着看着,自己也碰到了广告。 和往常一样,一旦大公司有什么负面新闻爆出来,那自然免不了大家的口吐芬芳了。别说百度输入法了,评论区不会放过任何一个百度系产品,新账旧账一起算。 当然,也有很多网友表示 “ 其他家也都这样 ” ,自己用的是搜狗和讯飞输入法,之前也碰到过广告。 还有的网友则是站出来推荐自己用的输入法,什么 iOS 默认输入法,谷歌的 GBoard 最好。如果爱折腾,还可以用开源的 rime 输入法,需自己下载配置文件。 其实上面这些评论,每次相关新闻底下都能看到,世超也都习惯了。 不过,今天这个事情倒是引发我的好奇心,这年头输入法们有这么缺钱吗? 你说这些国内数一数二输入法的产品经理,他们肯定知道这种广告会影响用户体验,很容易把用户送到别家手里。 那为啥还非要做这种广告,难道真如网友所说,一点营收手段都没有吗?如果完全不赚钱,那为啥都争着抢着做输入法呢? 我认为,营收手段还是有一点的。 首先对我们用户来说,感知最大的,就是售卖皮肤。 喜欢捣鼓输入法外观的差友,估计都知道 “ 森林集 ” 。这应该是最有名的皮肤制作者了。他制作的皮肤比官方的都要精致,好看,布局也好用,世超以前在他那买了很多皮肤。 由于生意实在太好,后来百度和搜狗官方都邀请他合作,把皮肤上架到官方商店售卖。 这一套模式这两年趋于成熟,只要你打开输入法的软件页面,就可以看到很多第三方作者设计的皮肤和字体,价格在 1 元到 6 元不等。 你花钱图个美观,输入法官方从中拿点抽成。 截图源自搜狗输入法 ▼ 可能有些差友觉得美化输入法,是很小众的需求。 但实际上,世超遇到过不少差友愿意为了皮肤和布局,去选择输入法。像百度输入法的皮肤个性化更为强大,有网友就表示自己很嫌弃百度输入法,但为了皮肤,忍了。 除了有付费皮肤,输入法的软件还挂载各种了贴片广告,以及观看广告解锁皮肤。 图源百度输入法 ▼ 不过这毕竟是输入法的软件页面,用户没事干也不会天天打开的。所以这种广告展示的频率并不高,属于小本生意。 以上是手机端的输入法变现模式,至于电脑端,无非就是一些弹窗广告,老生常谈了。 除了这些我们看得到的,在用户无法轻易感知到的方面,输入法也能赚到钱。 首先,一个行业内都心照不宣的变现手段,就是售卖用户信息给广告联盟,方便广告主们用于精准推送。 看到这你可能要骂自己的信息又被出卖了,但你还没有办法。因为你的信息怎么处置人家协议里早写好了,你用了就是同意了。 比如百度输入法的隐私政策里就写着,他们不会向第三方共享我们的个人信息,但,无法识别特定个人的除外。 类似的,在搜狗输入法的隐私政策中,也能看到为了 “ 投放广告,优化广告效果 ” ,他们会向广告主共享我们的部分数据。 不过,这些数据并不是直接给到第三方的,而是去掉了各种敏感信息,广告主们无法从这些信息推定出你这个人到底是谁。 但有了这些信息后,广告主就能精准把广告投送到你手机上。所以咱们有时和朋友聊完天,一打开购物平台,就能看到刚聊的东西,大家也就懂了吧。 除了共享用户信息,输入法还能接到企业定制订单。 除了专有词库,这些企业最需要的是私有化部署,这样员工敲的那些文字和数据都能存储在本地,保护企业的隐私安全。 虽然上面世超说了这么多的盈利模式,但其实输入法的盈利与否,一直是个谜。 就连坐拥市场最大份额的搜狗输入法,你都没办法在财报里看到具体的盈利数字。 不过根据数据判断,输入法直接赚到的钱并不高。比如搜狗 2021 第二季度的总营收为 1.475 亿美元,其中搜索和搜索相关的营收占比超过了 9 成。 类似的,百度输入法可能也没啥太强的变现能力。这次它往输入法里塞这个服务入口,应该也是想试一试,结果给自己试爆炸了。 其实一直以来,输入法的主要任务都不是为了盈利,而是为自家产品服务的。 比如说搜狗的 “ 三级火箭 ” 策略,三级火箭( 搜索引擎 )的起飞,需要一级火箭( 输入法 )二级火箭( 浏览器 )的助推。 意思就是用搜狗输入法,去扶持搜狗搜索。 如果你电脑上装着搜狗输入法,然后在其他搜索引擎键入文字,点 “ 下箭头 ” 后搜索框里就会出现联想词。点击这些联想词,它就会跳转到搜狗来搜这些词。 这个功能以前只存在 PC 端,现在已经延伸到了手机端。 所以近几年华为, vivo 甚至是非手机厂商的微信,都开始自研输入法,可能也不只是为了做一个 “ 输入文字 ” 的工具。 毕竟做输入法的成本没那么高,但它是个非常大的流量口子。只要有输入需求,你在任何软件里都能用到它,刚需且高频。 这巨大的流量一旦掌控,就意味着有很多机会,能导流到自家的其他产品。 比如搜狗输入法里,你就能用上搜狗搜索;百度输入法里,你也能用上百度搜索。 就是刚出道不久的微信输入法,它也提供了 QQ 音乐和微信读书的入口。 它就相当于厂家们用低成本造的一辆不要票的绿皮火车,毫不费力地载满了乘客。他们真正的目的,就是在每个车厢里有意无意展示自家产品。 但,也正是因为它们距离用户太近,大家对他们的任何出格动作,也就会异常敏感。 如果说 App 里的弹窗像你家门口的小广告,烦人但还可以接受的话,那我亲手敲下的键盘,推荐的联想词却是提前安排好的,就像是你自作主张把我家门打开,把广告放在了里边。 没啥伤害,但总让人感觉怪怪的。 撰文:刺猬 编辑:面线 莽山烙铁头 封面:三狗
美国AI战争再升级,全力阻止中国获得算力!或禁止中国企业用云计算训模型
雷蒙多表示,拜登政府要求美国云计算公司确定外国实体是否在利用他们的算力训练AI模型。现在,美国政府在尽全力阻止我们用他们的尖端技术训练AI模型。 据路透社1月26日报道,美国商务部长雷蒙多表示,拜登政府提议要求美国云计算公司确定外国实体是否正在访问美国数据中心以训练人工智能模型。 雷蒙多在接受路透社采访时说:「我们不能让非国家主体、中国或我们不希望访问我们的云计算系统的人,来训练他们的模型。」 「我们对芯片实行出口管制,而这些芯片位于美国的云数据中心,因此我们还必须考虑关闭这些可能涉及恶意活动的途径。」 2023年11月1日,美国商务部长雷蒙多在英国举行的人工智能安全峰会上发表讲话 尽全力阻止中国得到算力 现在,拜登政府正在采取一系列措施,阻止中国利用美国的技术发展人工智能,因为这个新兴的行业已经引发了安全上的担忧。 这项拟议中「了解你的客户」的规定已于26日发布,供公众评议,并且将于本周公布。 「这是一件大事。」雷蒙多表示。 美国正在「竭尽所能地试图阻止中国得到训练自己的人工智能模型的算力,但如果他们绕过这一点,使用我们的云来训练他们的模型,那这么做还有什么用?」 上个月,雷蒙多就曾表示,商务部不会允许英伟达「出货最复杂、处理能力最强的人工智能芯片,好让中国能够训练他们的先进模型。」 美国政府担心中国以国家安全为由开发先进的人工智能系统,并且已经采取措施,阻止北京获得美国的尖端技术来加强其军事力量。 客户识别计划 这项提案要求美国云计算公司验证通过一项「了解你的客户计划」或「客户识别计划」,来验证注册或维护美国云计算账户的外国用户身份。 它还将设定识别外国用户的最低标准,并要求云计算公司每年对合规性进行认证。 雷蒙多说,美国的云计算公司「应该有责任知道谁是他们最大的客户,谁在训练最强大的模型,我们正在努力获得这些信息。至于我们将如何处理这些信息,这取决于我们发现了什么。」 去年10月,拜登曾签署了一项行政命令,要求对美国国家安全、经济、公共卫生或安全构成风险的人工智能系统的开发者在向公众发布安全测试结果之前,需要先与美国政府分享信息。 美国商务部正在计划很快向公司发送这些调查请求。 雷蒙多告诉路透社,公司将有30天的时间做出回应。「任何不想遵守规定的公司,对我来说都是一个危险信号。」 科技行业贸易组织NetChoice的总法律顾问Carl Szabo表示,商务部正在执行拜登的「非法」行政命令,「来强制行业对人工智能进行报告」。 他补充说,要求美国云公司报告非美国实体使用其资源训练大语言模型的情况,「可能会阻碍国际合作」。
恐龙一天能吃几个人、核废水里能不能游泳?这些离谱问题的答案都在这
前段时间,世超在写日本核废水溢出的时候,意外发现了一个非常有趣的科普网站:What if & How to 。 在当时的稿子里,我们用了里面的一篇科普作为例证,讲的是普通人在冷却核燃料的乏燃料池里游泳,有啥后果? 作者兰道尔 · 门罗,从辐射强度、水池温度到人的游泳轨迹等等可能的因素,从头到尾分析了一遍。 最后说是正常情况下,在乏燃料池表面几米,怎么游都不会有啥安全隐患。 一开始世超还没怎么在意,以为这只是专门搞科普的大 V ,偶然做了这么一个无厘头的选题。 但在前后翻了两篇文章之后,我才发现,原来这就是一个专门做各种逆天问题科普的网站。 官网就是图片这样式儿的,属于开门见山类型,主页就是最新的一篇科普文,可以点击箭头切换文章。 科普主题也没藏着掖着,直接就在网站顶栏标明了,主打一个 “ 荒谬 ” —— What if ?是专门用科学理论解答一些比较荒谬的问题,而How to :就是给咱们平时会遇到的问题提一些荒谬的建议。 至于有多荒谬,世超也粗略翻了下已经发布的科普文章,虽然目前官网上收录的统共也没 30 篇,但说实话,几乎每个问题,都能给世超一点小小的震撼。 像是 “ 地球上所有人用激光笔照射月球,它会变色吗? ”“ 如果每个人都有个灵魂伴侣在世界某个地方,会怎么样? ” 等等等等。 而问题有多不着调,这老哥的分析就有多严谨和无懈可击。 就比如 “ 有个霸王龙被当街释放,那它每天得吃多少人才能满足自己的卡路里摄入量? ” 这题。 他给出的答案是半个成年人,或者一个 10 岁的小孩。 当然这也不是张口就来的,正文里作者预估了一个霸王龙的体重跟一头大象差不多。 具体的新陈代谢也无从考证,就暂且用了普通哺乳动物来估算,这样算下来,霸王龙一天得消耗掉 4 万卡路里。 而一个 80 公斤的成年人,能量大概在 11 万卡路里左右,接下来就是简单的加减法了。 这还没完,作者甚至还贴心地给了一些延伸答案,说一个纽约市的人大概能养活 1000 只霸王龙。 而且要想霸王龙不吃人也不是不行,地球上多的是饭店,就拿麦当劳来举例吧,每家麦当劳一天大概能做 1245 个汉堡出来,换算成能量就是 60 万卡路里。 这就意味着,每天给每个霸王龙喂 80 个汉堡就行,而且一家麦当劳店就能养活十几只霸王龙。 而让世超印象深刻的还有一题,那就是:假设有个管子可以把海里的水排到太空,把地球抽干需要多久? 因为即使脑洞已经开到了外太空,这老哥的回答依旧是以理服人。 作者抓住了太空和地球上存在压力差,水会被管子吸走这个关键点,还给问题做了优化,假设水直接抽到火星,管道口子的直径比篮球场宽一点,照这个情况,海洋得数十万年才能被抽干净。 并且还没等海洋抽干净的时候,气候和生态系统首先就得崩溃了,人也早就灭绝了。 反正网站上全是类似大脑洞的科普,而且最近,兰道尔还打算把里面一些科普文章做成视频,一个多月内油管账号已经更了四个视频了。 至于这些大脑洞的问题是怎么来的,每篇文章下面都有个上传问题入口,大家有什么离谱的问题都能提,作者会选有趣的、可以操作的问题去解答。 另外,兰道尔也不只在网站上更新科普文章,他还会定期把特定的文章整理成书,像是 what if 到现在已经出了两本了。 而且书的风评也都还不错,在国内也有中译本,豆瓣评分也都在 8 分以上。 而这一切的背后,都离不开作者兰道尔 · 门罗的脑洞付出,他自己的故事其实也相当精彩,是正儿八经学物理出身的,之前还在 NASA 工作过一段时间。 并且兰道尔无厘头的特点,在读书的时候就已经显现出来了,他不想听课的时候,就喜欢画一些计算机、数学、科学相关的火柴人漫画。 他还把这些作品同步到了一个专门的网站,起了个 “ xkcd ” 的名字,据兰道尔自己的说法,这个名字也是随便打出来的,为的就是不被定义,主打一个想画什么就画什么。 后来在没有画漫画的灵感时,他就会写写无厘头的科普文章。 至于为啥要做这种科普,其实也真没什么高大上的理由,就像兰道尔在之前采访时说的:就是享受解答这些无厘头问题的过程。 他做科普的契机,也就想解答一些学生关于 “ 《 指环王 》中索伦之眼爆炸的威力有多大 ” 的问题。 到现在,兰道尔还真在 “ 离谱问题 ” 科普的路上,搞出了点名堂来。 相关系列的书,比尔 · 盖茨都亲自盖章推荐过,纽约时报、卫报也都多次刊登过里面的科普文章,并且还有三次雨果奖的提名。 甚至有网友认定,这可以称得上是科学家们的现代圣经了。 最后,世超想说虽然问题是离谱的、是不着调的,但兰道尔分析问题时的严谨与理性,却是实打实的。 可以说是用最离谱的问题,给大伙们科最接地气的普,分享最硬核的科学精神。 另外,谁小时候没问过一些稀奇古怪的问题呢,但小朋友们得到的回应,多半都是 “ 一边去,别想这些有的没的。 ” 世超也希望,能有越来越多如兰道尔这样的科普者出现,大伙们也能勇敢地问出 What if ,因为每个天马行空的疑问,可能都在等待一个科学与严谨的回答。 撰文:松鼠 编辑:江江 封面:萱萱
觉得智驾是灵魂的上汽,竟然把飞凡的智驾团队裁了…
新的一年汽车行业将会越来越卷似乎已经成为了大家的共识。 现在某职场平台上,一则飞凡智驾事业部全员裁撤的消息传出,让人感慨年关难过。 而领导飞凡智驾团队的飞凡首席产品官 Pia Hu 现在也被曝已经离职,飞凡的智驾可以说快凉透了。 这样大刀阔斧的砍掉智驾团队,是因为飞凡现在虽谈不上苟延残喘,但情况不容乐观。 2023 年底,新款飞凡 R7 降价 9 万,一下子从 27.99 降到 18.99 ,但只是卖出了 3099 辆,非常惨淡。 而兄弟品牌智己,同样是下探 20-25 万的市场, LS6 单车月销破万。整个智己品牌后发先至,全年累计销量 38253 台,同比增长 665% ,现在成绩起码能够挤进 “ 理想榜单 ” 了。 所以,上汽集团舍弃掉飞凡的自研智驾,全面转向智己使用的 Momenta 降本增效,也是理所应当。 曾经飞凡是上汽第一个新能源品牌,还是上汽全权主导的 “ 排头兵 ” ,被寄予年销破 10 万的厚望,为什么会落得现在这般下场呢? 因为飞凡的血统,注定它就是爷爷不疼,奶奶不爱。 飞凡汽车脱胎于荣威。 当初上汽费了老大劲从英国把罗孚的技术买回来,就是路虎名字里面那个 ROVER ,但是没能买到商标。 上汽不甘心啊,所以只能仿创一个荣威。 荣威大家懂的,上修飞机下修表,荣威名爵修不了。 从罗孚买来的本来就是老掉牙的技术,再加上上汽当时还没有成熟的本土化研发实力。 这一来一去,荣威的品控就直接原地爆炸了。 后来,为了蹭上新能源热度,荣威把新能源业务剥离出来,单走一个字母 “R” ,试图摆脱骂名。 2020 年, R 汽车在广州车展亮相的时候,还特别心机的摆在小鹏展台旁边,放上自己的 R-Aura 概念车。 人们一看,英文车标、高级外国汽车、新能源,大大滴好! R 汽车也因此获得了一小波曝光度和媒体赞誉。 但是当 R 汽车推出第一款量产车 ER6 的时候,大家才发现,它直接换壳了荣威 Ei6 。都不说你是个油改电了,之前 Ei6 有过正常行驶发动机掉下来的惊人故障。。。 而后续第二款车型 Marvel R 的车名更是逆天,干脆就只在荣威 Marvel X 上改了个字母后缀,装都不装了。此后, R 汽车和荣威的切割以失败告终。 估计也是看不下去那么多烂活了,上汽高层的耐心到了极限,干脆联手阿里巴巴、张江高科新建 “ 智己 ” 品牌,重新冲击高端。 在智己这座大山面前, R 汽车向上的可能被封死了,只能填补智己的空缺,改名飞凡汽车,在 20-30 万价位布局。 原本差异化竞争下,飞凡也能在 20-30 万的区间站稳脚跟,与智己井水不犯河水,但是各品牌独立运营的方针,让两个品牌最终面临同室操戈的局面。 智己一开始定位为 “ 驾控旗舰 ” ,一开始出的 L7 一度触摸 40 万的门槛,还说自己是威廉姆斯 F1 车队大师级调教,就是奔着对标 BBA 去的。 当时市场反馈并不如意,但可能是智己的互联网基因发挥作用,它们当机立断选择价格下探。 通常来说,同级别的 SUV 售价比轿车更贵,但智己一反常态,直接推出了 28.98-45.98 万的 LS7 ,将起售价打到 30 万以下。 28 万,一台 5049mm 长, 3060mm 轴距的中大型 SUV ,离离原上谱。 但是另一边比智己 LS7 小一号的飞凡 R7 ,却还要卖 27.99-38.99 万元。 两者相差无几的价格,飞凡 R7 辅助影像功能更少、中控屏也更小,而且缺少外放电等配置,直接被智己打崩了。 更别提同价位还有 Model Y 、小鹏 G6 、蔚来 ES6 等经过市场验证的对手。 后来飞凡 R7 到了 24 款才把价格降下来,已经错过宣传的最佳时机了。 另一方面,飞凡一度大力宣传的自研 PP-CEM 也被迫向成本妥协。 这是上汽一开始两头押注就注定的。 飞凡因为国际化战略,所以自研的 PP-CEM 选择了美国 Luminar 的激光雷达、采埃孚的 4D 成像雷达、海拉的 77GHz 角雷达多传感器融合感知路线,而且用了两张 Orin-X 芯片来打造。 主打堆配置,多重冗余,适配中欧多地的法规。 而另一边的智己则是扎根国产供应链,智驾用的 Momenta 方案,激光雷达也是国产的速腾聚创,便宜又大碗。 两条截然不同的路线,随着智驾训练的深入,对于上汽来说是支撑不起的内耗。 所以,当中国车市的价格战打响,以及上汽集团作为国企需要侧重国产化投资,成本更高的飞凡 PP-CEM 肯定会被放弃。 在营销上面,飞凡也是不及智己。 虽然智己的 CEO 刘涛经常有着不少迷惑营销,什么剑指特斯拉,车上包饺子煮火锅,高速超速、压线变道,以一己之力拉低了整个上汽形象。 但是毕竟黑红也是红,大家确实记住了有这么一家车企叫智己。 甚至跟随特斯拉推出 “ 逆天 ” 的半幅式方向盘,也是非常好的一个记忆点。 相比之下,飞凡唯一的舆论可就惨多了。 飞凡一直在宣传消费者感知度不高的 “ 巴赫座舱 ” ,要么就是实战经验不够丰富的 RISING PILOT 。 但是最破圈的却是 22 年的成都车展维权事件,处理 ER6 留下来的烂摊子,公关起不了一点作用。 一边是智己的黑红也是红,另一边是飞凡的噤声无人问津,现在智己与飞凡的内部斗争似乎已经落下帷幕。 去年 8 月,领导飞凡 PP-CEM 团队的首席科学家金杰盂离职,预示着飞凡的战略收缩开始。今年 1 月 11 日,上汽官宣吴冰卸任飞凡 CEO 。再到现在的大裁员,接手金杰盂的 Pia Hu 也离开了上汽。 飞凡汽车高管这一系列的变动,配合飞凡 R7 一下降价 9 万的操作,只能说飞凡已经彻底给智己让位了。。。 飞凡作为上汽最早拥抱新能源的品牌,起了个大早,赶了个晚集,现在手上能打的牌只剩下换电。 可飞凡连智驾都砍了,更重资产的换电还能走多远呢? 要我说,既然上汽选择了 Momenta 这个智驾的第一梯队当 “ 灵魂 ” ,飞凡不如慢慢换装 Momenta 方案,再把荣威的家用车市场吃下来,主打中低端智驾。 毕竟现在 20 万以下车型能做好智驾的屈指可数,飞凡下沉后凭借外观、智驾还能有点机会。 看看隔壁破产的威马,经营危机的高合,中国新能源车企已经开始淘汰 “ 缩圈 ” 了。飞凡再不狠一点,可能也就剩这两年了。 撰文:浩森编辑:脖子右拧 & 面线封面:萱萱
GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板
当你让大模型写一首「莎士比亚十四行诗」,并以严格的韵律「ABAB CDCD EFEF GG」执行。 同时,诗中还要包含提供的3个词。 对于这么高难度的创作题,LLM在收到指令后,并不一定能够按要求做出这首诗。 正所谓,人各有所长,LLM也是如此,仅凭单一模型有时是无法完成一项任务的。 那该如何解? 最近,来自斯坦福和OpenAI的两位研究员,设计了一种提升LLM性能的全新方法——元提示(meta-prompting)。 「元提示」能够把单一的LLM变身为全能的「指挥家」。 论文地址:https://arxiv.org/abs/2401.12954 通过使用高层「元提示」指令,让大模型把复杂任务拆成子任务,然后再将这些任务分配给「专家模型」。 每个模型收到量身订制的指令后,输出结果。最终元模型有效整合这些结果,输出最终的答案。 最重要的是,LLM还会利用自身理解、推理能力,对最终输出结果进行打磨和验证,确保输出结果的准确性。 这种合作方式,能够让LLM成为核心,通过灵活调用专家,在多种任务上实现大幅性能提升。 实验中,研究人员在Game of 24(24点游戏)、Checkmate-in-One、Python编程挑战等多种任务上,为GPT-4集成了Python解释器,在元提示策略下,模型性能刷新SOTA。 具体来说,相比「标准提示」提升了17.1%,相比「动态专家提示」提高了17.3%,相比「多角色提示」提高了15.2%。 元提示让LLM充当「指挥者」 我们已看到,GPT-4、PaLM、LLaMa等新一代大模型已经在NLP处理生成中,展现出强大的泛化能力。 然而,所有的LLM并非强大到无所不能,也会在输出结果中产生「幻觉」,比如输出不符合事实、误导性的内容。 随着这些模型的运行成本变得更加实惠,人们自然会问,是否可以使用「脚手架」(Scaffolding)系统并利用多个 大模型查询,以便提升LLM输出的准确性和稳健性? 在这项研究中,斯坦福和OpenAI的研究人员便提出了一种增强大模型性能的新技术——元提示(meta-prompting)。 这个过程,就需要构建一个高级「元提示」,来指示大模型: - 将复杂的任务或问题分解为多个小的、可管理的子任务 - 为每个子任务分配一个受过特定领域训练的「专家」模型 - 监督这些专家模型之间的沟通 - 在整个过程中,运用LLM理解、推理和验证能力 当收到「查询」时,大模型在元提示下充当「指挥者」。它会生成一个消息历史,包含来自各种专家模型的响应。 LLM最初负责生成消息历史中的「指挥」部分,过程就包括选择专家模型,并为它们制定具体指示。 然而,相同的LLM也可以充当这些独立专家,根据指挥者为每个特定查询选择的专业知识和信息生成输出。 这种方法允许单一、统一的LLM保持一致的推理思路,同时还可以利用各种专家角色。 通过动态选择的上下文来提示这些专家,从而为大模型流程引入了新的视角,而指挥模型则保留了整个历史和协调的全景图。 因此,这种方法使单个黑盒LLM,能够有效地充当核心指挥者的角色,又可以作为多样化专家小组生成更准确、可靠和一致的响应。 作者介绍,「元提示」方法结合并扩展了进来一系列关于各种 「提示理念」的研究。 其中,就包括高层次规划和决策、动态角色分配、多智能体辩论、自我调试和自我反思等等。 任何任务,皆不惧 而「元提示」独到之处就在于,与任务无关性。 与需要针对每个任务量身定制的特定指令或示例的传统脚手架方法不同,「元提示」是在各种任务和输入中采用同一组高级指令。 这种通用性对用户来说非常有利,因为为每个不同任务提供详细示例,或具体指导非常的麻烦。 举个栗子,当收到「写一首关于自拍的莎士比亚十四行诗」之类的一次性请求时,用户不需要提供「高质量新古典主义诗歌」的示例。 「元提示」通过提供广泛、灵活的框架,提高了LLM的实用性,同时又不影响相关性。 此外,为了展示「元提示」的多功能性和集成功能,研究人员还调用「Python解释器」的功能,增强了AI系统。 这使得该技术的应用更加动态和全面,进一步扩展了其有效解决各种任务和查询的潜力。 下图中,展示了「元提示」对话内容的可视化。 具体描述了元模型(中心控制LLM,又名「指挥者」)如何将其自身的输出,与各种专家模型或代码执行的输入和输出穿插在一起。 这样的配置使得元提示成为几乎通用的工具。 它允许将各种LLM交互和计算整合到一个单一的、一致的描述中。「元提示」的与众不同之处在于,它让大模型自行决断使用哪些提示以及执行哪些代码片段。 算法过程 「元提示」方法的本意是,使用模型来协调和执行多个独立的查询,然后综合它们的响应以输出最终响应。 这一机制支持集成方法,利用独立专业模型的优势和多样性,来协作解决和解决多方面的任务或问题。 研究人员认为,虽然单个通用模型可能为通用查询提供有价值且有用的见解,但结合多个特定领域模型(我们也称为专家)的观点和结论有可能输出更全面、更稳健的结果,甚至是准确的解决方案。 我们的元提示策略的核心是其浅层次结构,其中一个模型(称为"元模型")作为权威的主要实体出现。 从概念上讲,框架内的特定领域专家可以采取多种形式,例如为执行特定任务而定制的微调LLM、用于处理特定领域相关查询的专用API,甚至是计算器或Python解释器等计算工具可以执行算术计算或编写和执行代码。 这些专家尽管功能各异,但都在元模型的监督下进行指导和统一。 实验设置中,只能通过元模型调用专家模型,它们之间不能直接相互交流。这一限制,是为了简化专家之间的沟通,并将元模型置于操作的中心。 - 转换输入 使用转换函数t_init,将原始查询放置在合适的模板(template)中,然后向元模型发出初始指令。 - 循环迭代 (a)提示元模型:当前消息列表,即H_t,指导元模型的下一步行动——直接处理查询,或咨询特定领域的专家。 (b)调用特定领域的专家模型:如果元模型没有返回结果,它可以调用任何专家并给它指令,这些指令是使用e_exp从其输出中提取的。不过,这个过程是孤立的:每个专家模型只能看到元模型选择与它们共享的内容,并做出相应的响应。 比如,如果问题涉及数学和历史,元模型可能会咨询数学专家进行计算,并咨询历史专家了解历史背景。专家的输出结果会被提取出来,并附加额外的说明,所有这些都使用t_mid模板。 (c)返回最终响应:如果元模型的响应包含最终答案(通过不同的特殊标记突出显示),则使用e_ret提取解决方案并返回。 (d)错误处理:如果模型响应y_t既不包含最终答案,也不包含对专家模型的调用,则在信息列表中附加错误信息H_t。这确保了程序是稳健的,并可以处理意外的输出。 在接下来的实验中,研究人员将「元提示」与四种基线方法进行了比较,包括标准提示(Standard prompting)、零样本CoT提示、专家提示、多角色提示。 此外,为了评估「元提示」方法相对于其他零样本提示基线的有效性,研究人员还采用了一系列需要不同程度的数学和算法推理、特定领域知识和文学创作能力的任务和数据集。 其中包括: - 24点游戏:使用四个给定数字中的每一个,恰好一次组成一个值为24的算术表达式 - Three BIG-Bench Hard:即几何形状、多步算术、单词排序 - Python编程难题:一系列用Python编写的具有挑战性的编程难题,具有不同的难度级别 - 多语种小学数学:是GSM8K数据集的多语种版本,将一个子集的示例翻译成十种不同类型的语言 - 莎士比亚十四行诗写作:目标是以严格的韵律「ABAB CDCD EFEF GG」写一首十四行诗,需要包含提供的三个词。 主要成果 从表1所示的结果中可以看到,元提示(meta-prompting)技术相较于传统的零样本(zero-shot)提示技术具有明显的优势—— 元提示技术的表现分别比标准提示提高了17.1%,比专家(动态)提示(expert (dynamic) prompting)提高了17.3%,以及比多人格提示(multipersona prompting)提高了15.2%。 而在Python解释器的辅助下,元提示(meta-prompting)技术在多种任务上显著超越了传统的零样本(zero-shot)提示技术。这一方法在解决那些高度依赖启发式或反复试错策略的任务上表现出色。 例如,在24点游戏挑战中,与传统提示方法相比,元提示技术使准确度大幅提升了超过60%,在Python编程难题上取得了约15%的提升,并在十四行诗创作上实现了近18%的提升。 零样本分解、错误检测与聚合 元提示框架之所以成功,一大原因是它巧妙地利用了专业知识、内部合作以及在过程中不断自我检验的机制。 这种方法,连同采用多角色互动的方式,促进了多轮对话,让不同的角色共同参与到解决问题的过程中。 以解决MGSM数据集中的多语言算术问题为例,GPT-4在采用元提示方法时,通常会经历三个阶段: 首先将问题从源语言(比如,孟加拉语)翻译成英语,接着应用计算专长(例如,请求数学专家的帮助)来寻找解决方案,最后进行独立或验证确认。 其中,元提示能够在不被明确指令的情况下完成这样的翻译。 新视角 这个概念可以帮助解决一个广为人知的问题:大语言模型倾向于重复自己的错误,并且还非常自信。 相比于多角色提示,元提示会在过程中让专家或不同角色重新审视问题,从而为发现新的见解和先前未被注意到的错误提供了可能。 想象一下,如果任务是解决24点游戏,即用6、11、12和13这四个数字,每个各用一次,组成一个算术表达式,使其结果为24: 1. 元模型(Meta Model)建议咨询数学、问题解决和Python编程的专家。强调需要准确无误地遵循规则,并在必要时让其他专家进行复审。 2. 在一位专家给出方案后,另一位专家指出了其中的错误。于是,元模型建议编写一个Python程序来搜索可行的方案。 3. 接着,元模型邀请了一位编程专家负责编写这个程序。 4. 另一位编程专家随后发现了程序中的错误,对其进行了修改,并执行了更新后的程序。 5.为了确保输出的结果无误,元模型又请了一位数学专家来进行验证。 6. 经过核验,元模型最终给出了答案。 可以看到,通过在每一步骤中加入新的视角,元提示不仅能找到问题的解决方案,还能有效地发现并更正错误。 实时代码执行 通过在高级编程策略中引入Python编程专家,并使其根据人类的自然语言指令来编写并执行代码,研究人员成功地把解决问题的比例从32.7%提高到了45.8%。 这种实时执行代码的能力,让研究人员能够即时地验证和优化解决方案,极大地提升了解决问题的效率和准确性。 而且,这种提升的效果并不局限于某一种特定的任务。 在24点游戏和单词排序这样的任务中,将Python解释器集成到元提示中后,准确率分别提高了56.0%和15.6%。(与基线相比则分别提高了64.0%和19.2%)。 总的来说,Python解释器可以让各类任务的平均性能提升额外的11.5%。 作者介绍 Mirac Suzgun Mirac Suzgun是斯坦福大学计算机科学专业的博士生,同时他也在斯坦福法学院攻读法学博士学位。 他专注于研究大语言模型(LLM)的局限与潜能,寻找更有效、更易于理解的文本生成方法。 他本科毕业于哈佛学院,取得了数学与计算机科学的双学位,并辅修了民间传说与神话学。 Adam Tauman Kalai Adam Tauman Kalai是OpenAI的一名研究员,专注于Lilian Weng领导下的AI安全与伦理问题。 在此之前,他在微软研究院新英格兰分部工作,自该研究院2008年成立以来,共参与了包括代码生成(教计算机编程)、公平性原则、算法设计、翻译鲸鱼语言、博弈论、计算机幽默、众包技术等多个有趣项目的研究。 在加入微软研究院之前,他曾在乔治亚理工学院和丰田工业大学芝加哥分校担任计算机科学助理教授。
中国AI绘画哪家强?十大免费工具横评,BAT参战,但不是最强
对国内10款免费AI文生图工具5个梯度的进阶体验对比,哪款工具更得心应手? 作者 | 程茜 编辑 | 心缘 距离龙年春节只剩11天了,你的新年头像或红包封面准备好了吗? 如果还没有,AI绘画工具可能是个“私人定制”的不错选择。 过去一年,AI文生图模型持续进化,不仅能熟练驾驭各路画风,而且陆续解决画不好手、搞不明白空间位置、不理解“红烧狮子头”等有歧义或抽象概念的种种难点。 国外Midjourney、DALL·E 3、Imagen 2虽好,但用起来有一定门槛。好在国内大模型企业们急追猛赶,发布了一大波适合中国人体质的AI绘图工具,在易得性上甩开国外AI工具十条街。 这些工具通通可以免费体验,通过网页或App即可使用,在使用门槛上基本拉不开差距。拼生成速度吧,大致每张图片都能在半分钟内生成,具体受网络环境或浏览器状况的影响,做不到很客观。 那么谁才是国产AI文生图工具的头号玩家?谁才是辅助专业创作者提高效率、解救绘画小白于水火之中的神器?回答这个问题,要考察两个关键能力:理解到位,画得精细。 为此,我对国内10款免费的AI文生图工具进行了5个梯度进阶的体验对比,考题包括但不限于日常脑洞、网络名梗、头像设计、公司年会、春节氛围、跨界组合、诗词理解、多轮修改,来看看哪款工具更得心应手、更能秒懂用户的心。 综合来看,智谱AI的智谱清言是整体表现最稳定的一款AI文生图工具,在10个考验中基本都能生成符合我要求的图像。 不过全员翻车的考题也不少,例如画出来的鹦鹉爪子不仅奇形怪状,数量也与真实不符;理解不了时下正热的“南方小土豆”,还把“拿着冰糖葫芦”这一动作画成了串在一起的土豆;把福字、春联上的文字写的像鬼画符…… 论文字理解能力,智谱清言、文心一言、讯飞星火、通义万相、混元助手的表现更胜一筹。360智绘、美图MiracleVision则在面对第一道题的“阿拉斯加”时就出了岔子,莫名把阿拉斯加画成一个男人/北极熊。 论画面精细程度,智谱清言、通义万相、文心一格生成的春节氛围图几乎可以拿来即用;但画出来的吉祥物,即使直接点名龙年背景,结果通义万相、讯飞星火、抖音豆包的吉祥物形象可以说与传统“龙”没有关系。 论多轮修改的靠谱程度,文心一言是每一轮都坚持到最后的玩家,智谱清言都是忠于上一幅图片修改,腾讯混元助手的表现则可圈可点,有的每一步需求都理解到位,有的却加了一些奇怪元素。整体来看,多轮修改是画图、设计的必备技能,但基本所有的AI绘画工具都无法做到。 为了保证对比的公平,我在体验每一个工具的生成能力时均以第一次生成图片为准,具体的对比如下: 01 . 青铜难度:1-2个关键词,鸟爪、网络热词难拆解,讯飞、智谱AI表现亮眼 第一阶段青铜难度的提示词较为简单,这些提示里包含的关键词大多只有2个,包含生成图片中的主要角色,以及其这一角色的地理位置、行为动作、图片大小、图片风格等其中之一个关键要素。 首先是“一只站在楼顶的阿拉斯加”,主要包含对地理位置和阿拉斯加犬种的理解。 将两个关键词分拆来看,各个工具都通过周围楼层的对比或者俯瞰来呈现“站在楼顶”。大多数图片也都突出了阿拉斯加大型犬、黑白配色、长毛等主要特征。 但是令我没想到的是“阿拉斯加”这个常见犬种,竟然会有AI生成的形象完全与之不搭边。美图MiracleVision画了一只形似北极熊的动物站在了楼顶,360智绘更离谱,画了一个男人站在楼顶。 第二道题是生成“一只站在树杈上的粉色鹦鹉”,这一提示词的关键词主要包含地理位置、粉色、鹦鹉。这道题的难点在于鸟爪和人手一样,都是困扰AI的一道难关,一些AI生成的鸟爪图经常会出现形态扭曲、奇怪的情况。 果不其然,10款AI绘画工具全都翻车。鹦鹉脚趾为对趾型足,两趾向前,两趾向后。但这些图片中有的将脚趾隐藏在树干之后,有的即使画出了脚趾但数量和位置也不对。 不过这些AI生图都呈现了“站在树杈上、粉色”的特点,也都能一眼看出是鹦鹉,但经不起细看。 当我放大图片细细观察时,通义万相、讯飞星火、讯飞星火绘画助手、美图MiracleVision在鹦鹉眼睛的处理上也出了岔子,有的鹦鹉一侧有两只眼睛、有的眼球很小完全失真。 第三道难题是“一个拿着冰糖葫芦的南方小土豆,‘南方小土豆’是东北人对游客的昵称”,这一提示词的主要难点在于理解“拿着冰糖葫芦”和“南方小土豆是游客”。 从结果来看,有的图片将土豆当成山楂串了起来,有的直接将一颗颗小土豆重新排列组合,还有的直接搬来了土豆的卡通形象。 其中独树一帜的当属讯飞的两款AI工具,充分理解了“小土豆是游客”这一概念,我也终于在10张图片中看到了真人形象。 但冰糖葫芦全部翻车也是我没想到的,只有智谱清言的卡通形象在一根木棍上串着几颗红色果子,还稍微与冰糖葫芦贴边。 青铜挑战的最后一道题是,“用青花瓷风格画冷杉”,对图片风格进行了指定。 这一大难题的生成结果之间的差距较大,有将冷杉画到青花瓷器具上、有将青花瓷花纹画到冷杉上、还有使用青花瓷对应的线条颜色等直接呈现一幅画。 前两种虽然将青花瓷风格和冷杉这两大元素相结合,但理解的仍然不够准确。其中通义万相、智谱清言、腾讯混元助手的图片感觉甚至可以直接拿来用,其将青花瓷风格直接融入到了画中。 不过,智谱清言的画还有一个小bug:将冷杉画成了松树。 02 . 白银难度:关键词数量翻倍 汉字、指定位置内容翻车多 白银阶段的提示词难度上升,关键词从2个增长到5个以上,并且需要对关键词描述加以理解。 第一道题为了契合即将到来的春节,让AI绘画工具生成了“一张春节氛围浓重的图片,需要包含灯笼、春联、福字”,除了美图MiracleVision外,其余图片都体现了热闹的春节氛围。 为了降低一点难度,方便我能快速在图片中找到相应元素,这道题只设置了“灯笼、春联、福字”三个明确的关键词,但最后的结果并不完美。 智谱清言、抖音豆包倒是完全保留了三个元素,但中文字符的呈现仍然是一大难题。智谱清言的图片可以勉强看出“福”的轮廓,抖音豆包的春联、福字则全是一堆乱码。 其余几个工具生成的图片中大多都只包含其中的1-2个元素,而通义万相、讯飞星火、讯飞星火绘画助手、腾讯混元助手的春节氛围十分浓厚,整个画面看起来也很和谐。 第二道题的关键词数量直接翻倍,包括“饺子,美食,热气腾腾,色彩柔和,高饱和度,食物摄影,诱人,定焦,超清”。 起初我以为这道难题的门槛会在后面一长串的限定词呈现上,但没想到直接从“饺子”就开始翻车。抖音豆包、讯飞星火、讯飞星火绘画助手、通义万相、智谱清言生成的图片能看出是正宗饺子,其余几个已经直接“变异”为包子。 第三道题中设置了一个难关,“一家公司开年会,在图片的右上角位置,需要有年会主题的横幅”,需要在指定位置画出年会的横幅。 在体现氛围这一块,这些AI工具画得都还不错。不过,360智绘、通义万相、美图MiracleVision的图片并没有理解“年会”的概念,而是直接省略了“年”字,生出了一张大家开会的图片。 这道题里我并没有将放横幅的位置指定十分精确,只是模糊说了“右上角”。从位置来看,抖音豆包、讯飞星火、讯飞星火绘画助手有横幅、主题,但都在画面的正上方,智谱清言的图片右上角可以明显看到有横幅、标语类元素。 白银阶段的最后一道难题是,“今年是龙年,为春晚画一幅宣传海报,需要有吉祥物”。 春晚的吉祥物传统由来已久,龙也是中国传统文化的典型代表形象,AI绘画在这两个元素的结合方面确实给出了一些更新的思路。有龙头人身、小恐龙形象等等,还有一些甚至完全脱离了传统意义的龙。 从最后的生图效果来看,除了智谱清言的图片有出现宣传海报的边框等,其余大多都只有一个吉祥物形象和背景。 03 . 黄金难度:想象力发散测试 “鱼跃龙门”几乎难倒所有工具 黄金难度考验的既是AI绘画工具的想象力与创造力,还有对一些误导性提示词的分辨。 第一道题为“两个机器人携手登月的四格漫画”,四格漫画想要考研AI绘画工具能不能将四个有互相关联的画面呈现出来。 从结果来看,虽然单看图片无法理解四格漫画呈现的具体故事,但相似的角色以及角色动作、背景的改变都呈现出了其中的连贯性,其中的代表AI绘画工具就是智谱清言、抖音豆包、美图MiracleVision。360智绘生成的图片虽然也呈现了四格漫画,但更像是一个人类登月的故事。 其余几款工具则直接忽略了“四格漫画”这一关键词,只体现了“两个机器人携手”登月。 第二道题更加无厘头,“蒙娜丽莎来到中国应聘为一名程序员”,需要AI绘画工具体现出蒙娜丽莎、中国、程序员三个元素。 文心一格、讯飞星火、讯飞星火绘画助手直接将蒙娜丽莎的经典形象和电脑相结合,百度文心一言、360智绘、阿里云通义万相、智谱清言、混元助手则进行了完全再创作,前三个生成的图片可能是为了贴合中国这一元素,长相更像中国人。智谱清言的形象更贴近外国人形象,并且唯一将“应聘”体现出来的图片,混元助手则自行采用了漫画画风。 抖音豆包、美图MiracleVision直接将蒙娜丽莎的原形象搬到了图片上,但调整了图片背景,不过并不能让我一眼看明白想体现的关键元素是什么。 第三道题为AI绘画工具挖了一个大坑,“一只叫做‘松鼠鳜鱼’的鱼成功跃龙门”,需要AI避开“松鼠鳜鱼”,精准get到这不是重点。 “松鼠鳜鱼”这一难题还是骗过了1/2的AI工具,好在此前的“松鼠跪在一条鱼前”的乌龙没有再次出现。讯飞星火的图片体现的是“鱼跃门”,智谱清言包含了“龙”和“门”。美图MiracleVision更为简单粗暴,直接用文字将这条鱼的名字打在了正中间。 04 . 铂金难度:字面直译画图 古诗意境呈现相距较远 最后钻石难度,就是集中国古人智慧之大成的古诗理解环节。一般而言,古诗寥寥数语背后蕴含了与社会背景、人物古诗等都相关的意境等,所以既需要AI理解这句诗,还应该联合古诗上下文。 为了循序渐进,AI绘画工具一开始接收到的诗句都是画面感很强,有突出的对象和环境描写。 第一道题是“墙角数枝梅,凌寒独自开”,单看句面意思拆解来看就是墙角、梅花、寒冷、开放这几个关键词。 除了另辟蹊径的美图MiracleVision,其余几款工具都将“梅花”、“开”作为画面的主体。文心一言的画作边上还有诗句及印章,更符合古诗配图的风格。文心一格、通义万相、智谱清言、讯飞星火、讯飞星火绘画助手、腾讯混元助手的画面上都有雪花,体现了“凌寒”。 智谱清言的梅花处于墙角,但从外观看更像现代的墙壁,与古诗暗含的年代不相符。 第二道题的古诗“黄河之水天上来,奔流到海不复回”画面感也很强,但与梅花不同,这句诗中的“黄河”有指定的对象。 美图MiracleVision仍然直接了当将诗句放到了图片正中间。抖音豆包、百度文心一言、百度文心一格、阿里云通义万相的图片对于黄河的呈现更为真实,且体现出了“奔流到海”的气势。智谱清言、讯飞星火、讯飞星火绘画助手更专注于呈现“黄”的元素。 360智绘虽然能感受到黄河,但河面过于平静,没有奔流的气势。 最后一道题“了却君王天下事,赢得生前身后名”的难度在于,画面感不强,AI无法直接从字面获取到诗句的主要对象。 从AI绘画工具生成的图片可以看出,大多工具将“君王”作为图片的主体,通义万相是一个大型宫殿,也从侧面体现的是君王。不过文心一言和文心一格呈现出的是一个女性形象,与古诗的字面意思看起来毫无联系。 美图MiracleVision无法根据这一提示词生成图片。 当将“醉里挑灯看剑,梦回吹角连营。八百里分麾下炙,五十弦翻塞外声,沙场秋点兵。马作的卢飞快,弓如霹雳弦惊。了却君王天下事,赢得生前身后名。可怜白发生!”整首诗作为提示词,AI绘画工具生成图片更符合古诗本身的意境,都有征战沙场的将军形象。不过美图MiracleVision仍然无法生成。 其中,智谱清言左下方还有诗句,更符合古诗配图风格。360智绘、阿里云通义万相图片中只有一位将军形象,无法体现出更宏大的场面。 05 . 钻石难度:多轮对话反复修图 仅文心一言坚持到底 每一个设计师的设计稿都有N个版本,所以想要让AI画出我满意的图片就需要反复提需求。 然而在这一环节只剩三位竞争对手:文心一言、智谱清言、腾讯混元助手。其余几款工具因为不支持多轮对话等原因直接退赛。 第一道题还是延续了上文多个AI工具败下阵来的春节氛围图的提示词。 这回我变难缠了,对AI工具生成的图片更加挑剔,在让它们生成一张春节氛围浓厚、包含灯笼、春联、福字的图片后,又不断提出新的修改要求,包括“画面更写实”、“人多一点”、“画面里还要有人在放鞭炮”等。向所有AI工具都输入的文字都完全一致。 文心一言生成的四张图中,除了对“写实”这个词理解不到位,其余改进都很符合我的需求,并且可以看出下一幅图基本没有偏离上一幅的整体风格。 与文心一言相比,智谱清言的四张图能明显感受到是同一幅画面的内容逐渐增多,不过也是在“写实”这部分,后三张图仍然为卡通、动漫风格。 腾讯混元助手的四张图可以用风格迥异来形容了,每一张都是在前面所有需求的基础上进行再创造,不过对于“写实”的理解,混元助手也更胜一筹,后三张明显感觉更为真实。然而,最后一张图,混元助手却将“放鞭炮”画成了“放烟花”,完全找不出鞭炮在哪儿。 第二道题也是前面众多AI绘画工具曾经化饺子为包子的考题要求增加版。 在让每个AI工具画一张刚出炉的饺子照片后,我又陆续提出“让这盘饺子冒着热气”、“再多来几盘饺子”、“旁边再多几盘菜”、“旁边再坐一家人吃这些菜”等修改要求。 一共五轮对话,一路坚持到最后的只有文心一言,智谱清言在加几盘菜环节落败,告诉我它还没有构思好,可以换其他需求,混元助手仅仅坚持到了让饺子冒着热气,就回复“还未学习到如何回答这个问题的内容”。 不过,乍看之下文心一言的前四张图几乎没有差别,第四张图虽然勉强可以看到饺子周围多了几个碗,但这些更像是蘸料碗。最后一张的氛围倒是很对,但并没有在此前的版本上修改,等于全都推翻重来。 智谱清言虽然仅有三张图,但都按要求改了,不过还是和之前的问题一样,最后饺子变包子。智谱清言生成的每一张图下面还附带了它对图片的理解与解释,比如第三张图它有提到“中心是一盘冒着热气的刚出炉的饺子,周围摆放着几盘其他各种不同的中国菜肴。这些菜肴包括蔬菜、肉类和米饭,代表了一顿传统的中国餐”。这让我能够根据它对需求的理解去再次提出修改建议。 腾讯混元助手的两张图既把饺子变成了包子,还莫名其妙在中间放了一碟辣椒。 第三道题则更具迷惑性,我试图让AI搞懂狗和狗不理包子的关系。 我首先让每个AI工具画一桌天津狗不理包子,接着要求把图改成“一只狗在吃狗不理包子”,又让它把狗的颜色换成黑色、把图片换成漫画风。 文心一言前两轮表现很不错,既有狗不理包子也有狗,但后两张图让我大跌眼镜,黑漆漆的包子属实很罕见,并且第四张图包子“露馅”了,有一种往烧麦生成的感觉。 智谱清言的四张图,我每一张要求它修改的细节都涵盖很到位,美中不足的是为什么包子会接连变成馒头、汉堡包和一大块面包? 腾讯混元助手直接在中间将狗放到了包子盘中,不过狗的颜色确实改变的很到位,后两张图的包子同样变成了汉堡包。 06 . 结语:AI绘画工具对比 图片氛围感拉满,遇到真实物体就歇菜 从我深度体验国产10款AI绘画工具的感受来看,AI在一些氛围感较强、没有指明具体包含要素的图片生成上表现较好,但一旦指定生成狗、包子、饺子等具体可以物体时,就会出现奇怪的图片。不过当碰上春节氛围或者青花瓷风格,这些需要AI自主创作更多的画面时,它往往能带给我惊喜,有些甚至可以拿来即用。 刚开始,AI绘画工具因为对松鼠“跪”鱼、车/水/马/龙等的奇葩理解闹出不少乌龙,但现在随着其图像生成效果越来越逼真,对细节的刻画也很细致,我对这些工具的印象也大大改观。 不过对于更资深的绘画工作者而言,AI在刻画物体方面容易犯错的问题十分致命。当人们想要用AI来为书籍配图、宣传海报生成图片时,非资深人士很难发现AI生成的鸟爪、动物形象等是否符合客观情况,海报上的文字、吉祥物形象如果不能被一下子看懂或者出现一些不符合常理的内容也会让传播效果大打折扣,因此这也是我希望AI绘画工具下一步亟需改进的地方。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。