行业分类:
加载中...
头条分类:
加载中...
特斯拉自动驾驶团队再遭重创,顶尖AI工程师离职另起炉灶
IT之家 5 月 15 日消息,特斯拉近日又损失了一位自动驾驶领域的顶尖 AI 工程师 ——Paril Jain,Jain 此前担任特斯拉人工智能团队的“规划、模仿学习和强化学习”部门的技术负责人。他的离职正值特斯拉大规模裁员以及员工士气低迷之际,引发了外界对特斯拉自动驾驶项目前景的担忧。 IT之家注意到,过去几周,特斯拉公司在各个部门进行了数轮裁员。除了裁员之外,还有报道指出部分员工因士气低落而选择离开公司。种种迹象表明,特斯拉正处于人才流失潮之中。 Paril Jain 在特斯拉工作了九年,是公司自动驾驶项目的重要成员,他最近领导的团队负责“构建可扩展至汽车和人形机器人平台的自动驾驶基础模型”、“利用数百万英里的驾驶数据和干预信息构建鲁棒可扩展的端到端学习自动驾驶系统”等等关键工作。 Jain 今日宣布离开特斯拉,与 Twitch 和 Cruise 的联合创始人 Kyle Vogt 共同创立了一家名为“The Bot Company” 的机器人创业公司。Jain 表示,他和 Vogt 将致力于让人们的生活变得更加轻松便捷。 尽管 Jain 对特斯拉团队表达了赞赏,称其打造了“市场上最好的自动驾驶产品”,并对即将发布的 V12 版本和“真正智能召唤”功能充满期待,但其离职仍然显示出特斯拉自动驾驶团队的领导层正在出现人才流失的迹象。这对于特斯拉自动驾驶技术能否取得突破性进展,以及其此前作出的诸多承诺能否兑现,都蒙上了一层阴影。
I/O 2024,Google吹响通用AI反击号角
记者 | 张勇毅 编辑 | 高宇雷 有了 24 小时前 OpenAI 用 GPT-4o 带来的炸场之后,今年的 Google I/O 还未开始,似乎就被架在了一个相当尴尬的地位,即使每个人都知道 Google 将发布足够多的新 AI 内容,但有了 GPT-4o 的珠玉在前,即使是 Google 也不得不面临巨大的压力。 这种奇怪的气氛贯穿了今年 Google I/O 主题演讲始终,除了 CEO 皮查伊演讲少了很多自信、多了一些此前少见的不自然感与口误之外,今年 Google I/O 还贡献了历年最奇怪的暖场活动,是以一次 AI 工具的翻车为开场:一位从舞台上的茶杯中钻出的 DJ,在台上使用 Google 内部开发的一款 AI DJ 小工具 —— MusicFX DJ,在舞台上现场用随机生成的关键词,来创造出一首曲目。 虽然创作出的曲调很糟糕,甚至现场效果还有点魔幻,在社交媒体上遭到大量猝不及防的开发者一致吐槽,但好在 Google 还是用两个小时的时间,给这个世界再一次带来了足够多的惊喜 —— 以及对 OpenAI 与微软的反击。 开场首先,皮查伊先带我们回顾了过去一年 Google AI 主打产品 —— Gemini 的主要进展,如果说全年 I/O 全场出现频率最高的词是 AI 的话,今年毫无意外将变成 Gemini;首先是 Gemini Advanced 在发布三个月之后就已经获得了超过一百万用户;以及两个月之前发布、最高支持一百万 Token 上下文识别(通行计算方法中约等于 50 万中文字符)。的 Gemini 1.5 Pro,今天起将面向全球用户正式推送。 不仅如此,Gemini 1.5 Pro 还从原本的一百万 Token 上下文升级至两百万 Token 上下文识别。这意味着在多模态处理中能处理超过三万行代码,或是超过一小时的视频文件。 在介绍了 Gemini 本身之后,就到了 Gemini 真正的长处 —— 应用内整合体验中,皮查伊先是演示了整合在相册中的功能,在停车并给车拍了照片之后,当你找不到停车的位置,可以直接问 Gemini “我的车在哪”,它就能帮你自动识别相关照片中的信息,提示你车停在了哪里。 这个功能被称为。Ask Photos,将于今年正式发布。 在 Google 办公套件中,如今也迎来了 Gemini 更深度的整合,不仅能在 Gmail 中生成线上会议纪要、在所有邮件中提取关键信息。还能与 Google 表格联动,自动整理邮件中包括的表格文件,甚至是生成一个数据分析表格。 为了提升用户日常处理工作内容的办公效率,Google 还将 Gemini 的功能包装成了一个 AI 员工—— AI Teammate,来充当你工作中的一个人工智能助理,帮你整理各种信息并借助大模型来实现更智能的反馈,例如从邮件中提炼信息,甚至是会议录音中的关键信息。 除了办公套件之外 去年作为探索项目登场的 Notebook LM 今年也公布了新进展:作为 Google 生成式 AI 直面教育应用场景的项目,这被外界看作是对 OpenAI”撞车“最直接的回应。 在现场的演示中,NotebookLM 不仅能很好地充当一个老师的身份、讲述一组简单的物理课程,还能模拟两个演讲者,生成一个类似对话的讲解内容。在用户提问“你能举个例子吗”这样的问题时,实时给出一个准确的回答。让你能够更准确地掌握物理原理中的细节。 Google 同时还针对去年发布、在 Android 手机上实现画圈搜索功能的“Circle to Search”功能加入了更多教育相关的使用场景:现在这个功能已经支持识别画面中的数学题以及符号公示等复杂的内容。 在 AI 行业早期,除了 OpenAI 之外,还存在着另外一个聚集了业界大量人才的组织 —— 那就是如今已经被 Google 收购并整合的 DeepMind。 但在过去十余年时间中,DeepMind 长期以一种低调的印象示人:以研究成果定胜负,而不是像 OpenAI 管理层一样,在各种演讲中抛头露面发表言论。 但在今年 I/O 上,DeepMind 创始人哈萨比斯第一次出现在 Google I/O 舞台上,来给金主“救火”,Alphabet 内部对 AI 的紧迫性可见一斑。 这位 AI 行业举足轻重的大牛上台,却看似轻飘飘地发布了一个针对端侧的模型 —— Gemini 1.5 Flash,甚至现场观众都有些没反应过来他是在卖什么关子,直到哈萨比斯说出他们的最终目的 —— 打造通用强人工智能。 实现这个目标的具体步骤,就是哈萨比斯介绍的新项目 —— Project Astra,探索通用人工智能如何在日常生活中为我们提供真正日常生活所必须的帮助。 作为对这个问题的直接回应,哈萨比斯现场展示了 Astra 的一个使用视频:操作者以智能手机为媒介,让大模型实时收集环境中的各种信息,并在围绕着办公室转了一圈后突然提问:你记得眼镜在哪里吗“。 在正常的环境中,即使是两个正常人类之间对话,也可能会忽视掉这些细节,但演示中的 AI 却精准地从众多环境信息中捕捉到了眼镜的位置,并给出了正确的方位提示。这种强悍的通用语言与环境理解能力将现场气氛推向了最高潮,也再一次向外界展示了 Deepmind 作为传统 AI 强手实力的冰山一角。 哈萨比斯还特别提到,这些演示项目并非刻意实现、“仅供参考”的演示效果,两个短片中的所有实现效果都是一次完成。这意味着当前 Project Astra 已经能非常流畅地实现这些效果。 除了对通用人工智能的探索之外,哈萨比斯还介绍了 Deepmind 在多模态领域的新进展:将在图像、音频以及视频三个主要内容领域全方位出击。分别是能够生成超过 60 秒、画质为 1080p 的视频片段的视觉模型 Voe、文生图模型 Imagen 3、以及面向专业音乐创作者的音乐合成工具 Music AI Sandbox。 TPU 硬件的更新也是 Google I/O 主题眼镜中的保留项目,每次伴随着 AI 新技术发布,TPU 作为驱动软件的硬件引擎都会随着更新迭代。 这次主题演讲中 Google 发布了代号为 Trilium 的第六代 TPU 硬件,计算能力相比前代提升 4.7 倍,预计将在 2024 年年底面向用户推出,本次发布会中出现的 Veo、Gemini 1.5 Pro 等几乎所有产品,都是在这些新硬件上计算而来。 Android 也不能免俗,将 AI 功能更新作为今年介绍的重点。尤其是 Gemini 在 Android 系统中更深度的整合。 实际上今年的 Android 15 当然也不只有 AI 功能,但 Google 为了给 AI 功能让路,在首日的主题演讲中介绍的都是 Android 15 中与 AI 相关的动态,剩余的内容被挤到了次日的分会场演讲中。 Gemini 作为一个独立 App 在 Android 端已经存在一段时间了,这次 Google 终于进一步发挥了“主场”优势,将 Gemini 进一步整合进操作系统中:现在在 Gemini 对话中生成的图像可以被直接拖拽到其他应用中使用。 这次 Gemini 在 Android 上的最新进展是 Gemini Live,主打使用语音的双向流畅对话体验,在对话过程中你甚至可以像现实与真人对话一样,通过打断对话、提出新问题的方式来更高效的沟通。Google 同时预告基于 Project Astra 实现的摄像视频识别功能也将在今年年内发布。 这个功能实现的原理,是将视频内容逐帧拆解并交给 Gemini 识别,在效果上实现接近“理解世界”的效果。例如当你不会用某款相机时,用手机镜头对准相机并提问,Gemini 就能够从画面中识别出相机的型号,并根据你的问题,搜索相关内容给出使用教程。 另一个重要功能更新是 Android 15 中的 Gemini 支持了 YouTube 视频内容识别,Gemini 在视频播放界面可以直接提取视频相关的信息,并回答用户各种关于视频的问题,甚至是生成视频内容摘要。YouTube 上数十亿个视频都可以使用这个功能。 除了这些联网功能更新,去年发布的、完全基于端侧算力实现的 Gemini Nano 则是更多本地功能的基础;基于本地模型实现的功能不仅能更快速地实现诸如画面内容识别等无障碍功能,还能在更多隐私需求更高的应用场景中,比如这次新发布的基于本地语音模型、通过对话内容,判断出对方是否可能是诈骗电话。 通过 Gemini Nano 模型本地实时处理,在检测到诸如“银行”“转账”等关键字眼以及上下文之后,手机的通话界面会弹出一个“这可能是诈骗电话”的提示,并给出诸如“银行不会要求你通过电话转账”这种可能的理由。 毫无疑问,在智能手机端,端侧模型的潜力还有巨大的挖掘空间,这次模型本身能力也得到了加强,Gemini Nano 在原本仅支持文本识别的基础上,将于今年内增加视觉、听觉与口语的识别支持。 去年在 OpenAI 改变世界之后,Google 也只是被改变的一部分:2023 I/O 中即使充满了各种 AI,也很容易给人一种“凑数”的观感:以至于“演讲中出现了多少次 AI”的恶搞视频,反而在主题演讲结束后,成为社交媒体上被疯传最多的内容。 到了 2024,即使 OpenAI 还想在复刻一把“偷袭”,但 Google 这次的准备显然更加充足自信,甚至 Google 官方也还玩了去年的梗,主动问了观众“我们今年说了多少次 AI”? 对于这个问题,皮查伊的回答是将演讲的文稿直接扔给 Gemini,让它提取文本中内容来回答,答案是 120 次,然后在说出这句话的同时,数字变成了 121。 这个小小的幽默其实也揭示了 Google 对 AI 的开放态度:任何问题都尝试用 AI 来回答。皮查伊还重新强调了 Google 在 AI 领域的目标”整理世界所有的信息为你所用“,Google 在软件侧的所有软件更新几乎都是在践行这一目标。 从这一点来讲,有着广泛应用生态与用户的 Google 生态,仍然有着巨大的先手优势。加上本次 I/O 中展示的既有当下就能立即使用到的 Gemini 更新,也有类似 Project Astra 这样极具野心的前沿探索项目,一系列组合拳之下,Google 在 AI 领域的第一梯队位置再一次得到了稳固。 至少从这次 I/O 我们看到新内容的分量来讲,Google 仍然是 OpenAI 最强力的竞争对手,即使它曾经短暂地落于下风。
谷歌硬刚OpenAI,硅谷大战继续升级
记者 | 闫俊文 编辑 | 李薇 一场科技竞赛正在美国硅谷上演。 5月15日,谷歌举办了2024年I/O开发者大会,AI是全场的主题,谷歌CEO桑达尔·皮查伊和他的同事们发布了Gemini 1.5 Pro的新版本,在100万Tokens的窗口能力上,进一步扩大至200万Tokens,它们的最终目标是无限上下文。 谷歌还展示了新的搜索产品,比如从本周开始,谷歌搜索引擎将在美国推出“AI概览”(AI Overviews)的功能,搜索引擎会直接归纳总结搜索结果。此外,谷歌还推出了新的TPU,第六代TPU芯片Trillium,较上一代芯片的算力表现翻4.7倍。 就在这场发布会前一天,OpenAI举行了春季发布会,发布最新GPT-4o多模态大模型,相较于GPT-4 Trubo速度更快、价格也更便宜。接下来的一个月里,硅谷还将迎来两家科技巨头的重磅大会——5月21日左右,微软将举行Build年度开发者大会;6月10日左右,苹果将举办全球开发者大会。一场有关AI的大比拼在大洋彼岸开赛。 伴随着OpenAI的崛起,以及谷歌在AR眼镜等失利,外界一度评价谷歌已经成为一家为“赚钱”打造的机器,失去了创新激情。 不过,谷歌仍然拥有谷歌搜索、YouTube、云服务、Gmail、Android以及自动驾驶Waymo等业务,仅YouTube就有20亿月活用户,Android也拥有20亿月活用户,可以说,谷歌掌握着全球最多的用户场景、数据以及设备接口。 谷歌发布更新产品后,谷歌-C股价微涨0.6%,收盘价为171.93美元,市值2.12万亿美元,股价较2024年开年上涨了23%。 在刚刚过去的财季,谷歌展现出强有力的竞争力。2024年第一季度,谷歌实现营收805.39亿美元,同比增长15%,非美国通用会计准则下净利润为236.62亿美元,同比增长57%。 谷歌艰难守阵地 大会一开场,皮查伊就介绍说,现在已经有超过150万开发者正在使用谷歌的原生多模态大模型Gemini。Gemini在2023年12月上线,它被认为超过了GPT-4。 皮查伊宣布,Gemini 1.5 Pro向全球所有开发者开放,并支持200万Tokens的Gemini 1.5 Pro模型的预览,他们的目标是“无限上下文”。 此次开发者大会,谷歌着墨最多的是搜索,这是谷歌的起家业务,现在谷歌要重新定义搜索,它要把搜索做成多轮对话的推理,用户只需要问就可以了。 皮查伊以“重新定义搜索”的架势,连续上线多款基于Gemini的产品,比如总结谷歌搜索引擎结果的“AI概览”功能,支持用户存储图片的AI搜索Ask Photos。 以练瑜伽为例,谷歌会帮用户找到排名更靠前的工作室,并介绍他们的服务,可以看到每个门店的距离。谷歌搜索会把更大的问题分解成各个部分的问题,比如排名、评论、营业时间以及其他更多的研究。 但“重新定义搜索”的最大主动权可能不在谷歌手里,而在OpenAI这边。今年年初有传言说,OpenAI计划上线AI搜索业务,不过在5月14日OpenAI的发布会上,并没有展现该业务,这可能与算力成本有关系。 成熟大公司对待创新公司的崛起仍然毫无办法。对标OpenAI,谷歌仍在努力显示自己的存在。 在此次发布会上,谷歌还展示了一个名为Astra的项目,这是谷歌开发的通用人工助理,在演示视频中,Astra通过手机摄像头能识别真实环境中的物体,实现了能看、能说、能听。这与前一天OpenAI上线的GPT-4o功能类似,都实现了人机交互的新形式。但谷歌似乎不满足于此,Astra更强调指向人、机器与现实世界的三重交互。 大模型最大的挑战是解决响应时间的问题。谷歌介绍说,它们在Gemini模型的基础上,开发了通过连续编码视频帧,更快地处理信息的代理,同时,将视频和语音输入组合到事件的时间线中,捕捉并有效记忆。这些代理可以更好地理解用户所处的环境,并在对话中快速响应,使交互的速度和质量更加自然。 Gemini也将支持语音实时交互,同时今年晚些时候还将上线实时视频交互功能。未来几个月内,谷歌也将推出类似于GPTs的自定义AI助手Gems。它将能与“谷歌全家桶”进行交互。 “Gems易于创建,它们可以充当你的瑜伽闺蜜、你的私人副主厨、聪明的微积分导师、代码的同行评审员。”谷歌的相关负责人说。 谷歌发布会上还宣布了安卓生态的AI新进展,今年晚些时候,能够在本地运行的多模态Gemini Nano模型将登陆Pixel手机,它更智能,更注重隐私保护,比如,如果用户接到诈骗电话,将会提醒用户。 如果没有OpenAI,上述谷歌的创新技术可以称得上可圈可点,但奈何“既生瑜,何生亮”。 硅谷科技竞赛升级 在发布会上,谷歌只提到一家科技大公司,那就是英伟达。皮查伊发布了第六代TPU(张量处理器,谷歌为机器学习定制的专用芯片)芯片Trillium,较上一代芯片的算力表现翻4.7倍,TPU是谷歌自己研发的GPU芯片。 同时,皮查伊说,谷歌云将在2025年初,用上英伟达的最新Blackwell架构GPU。在过去数年,谷歌投资了200万英里的地面和海底光纤。 今年3月,英伟达发布了基于“Blackwell”架构的B100芯片与B200 GPU加速器,英伟达创始人黄仁勋说,这是迄今为止,英伟达最强大的GPU芯片,在生产出首批服务器之后,黄仁勋将一台服务器送给了OpenAI。 GPU在过去一年多时间成为堪比黄金的硬通货,各大科技公司不得不排队数月来等货,这让黄仁勋成为硅谷最受欢迎的CEO,人们争相排队和他见面,英伟达也是所有科技公司的合作伙伴。 而在GPU大热的背后,硅谷正在进入新一轮的科技竞赛。 2022年底,OpenAI发布ChatGPT开始,整个硅谷进入亢奋状态,这里甚至诞生了AI一条街,五六个人就可以组建一个公司,依靠一个想法获得融资,比如斯坦福博士生郭文景和同学创办的Pika,短短数月间就完成5500万美元融资,并推出了视频生成器Pika1.0。 科技巨头之间的关系变得异常紧张,主要是AI重构了边界,大公司重新变得野心勃勃: 微软重新盯上了搜索,扶持Bing发展;Meta向第三方硬件制造商开放VR头显操作系统Meta Horizon OS,进一步蚕食苹果生态;为应对OpenAI的崛起,苹果不得不放弃数十年的造车计划,集中资源搞AI。 进化以群体聚集的形式在硅谷上演,大公司你追我赶,它们之间的合纵连横也让AI竞赛变得复杂。 苹果公司计划和OpenAI合作,将OpenAI的技术引入iPhone之中,但微软是OpenAI的最大出资方;谷歌正和OpenAI酣战,支持其开源系统Android的AI进化,以展开和苹果iOS系统之间的竞争。 席卷全球的这次科技竞赛浪潮颇有点20世纪七八十年代硅谷的意味。那时,原生技术层出不穷,1968年,英特尔成立;1969年,AMD成立;1976年,乔布斯创办苹果电脑;1977年,甲骨文成立;1984年,思科公司成立。 只不过,50年前,是芯片等硬件造就了创业潮,创造了财富;现在,AI以及产品化则是最新的动力。 在AI时代,中国互联网同样也迎来了新发展机会,但正如大部分中国AI创业者所说,虽然一家又一家公司会在这次浪潮中转型甚至退场,但是千万不要低估中国创业者的生命力。
谷歌I/O大会,眼花缭乱,但缺王炸
作者 | 毕安娣 编辑 | 王靖 五月真热闹,OpenAI才开了春季发布会,谷歌I/O大会也如期召开了。 实话实说,观看主题演讲直播的过程中,脑海不禁会浮现曾被谷歌内部员工泄露的梗图——谷歌AI产品和项目一个又一个不同又相似的名字令人头大。 主题演讲的关键词仍旧是AI,谷歌还自己在现场给出了提到“AI”的次数,在120次以上。 在万众瞩目的AI领域,谷歌宣布了若干新消息。 AI大模型升级了两个,Gemini 1.5 Pro双下文窗口拓展到200万令牌、Gemini Nano增加多模态理解能力;新发布了三个,更轻更快的Gemini 1.5 Flash、新架下的Gemma 2.0,以及视觉语言模型PaliGemma。 另有文生图模型迭代至Imagen 3,还新发布了一个文生视频模型Veo。 AI的具体应用延展上,谷歌这次憋了不少招。 谷歌的核心产品搜索中,发布AI Overviews,加强版AI搜索摘要功能将率先上架美国。谷歌搜索中还将加入制定计划、视频搜索等多重AI驱动的功能。 此外,Gemini还被塞进谷歌照片以及即时通讯应用Google Messages等产品中。 让人联想到OpenAI才发布的GPT-4o的,是谷歌旨在打造未来通用AI助理的新项目Project Astra,以及Gemin的新功能Live。Gemini Live支持与AI语音聊天,年内预计加入相机功能,和AI实时“视频通话”。 有点尴尬的是,在第三方拉流的直播间里,观众直呼“无聊”,并对眼花缭乱的名字感到困惑。CNET的评论员指出,谷歌需要精进讲故事的能力,而不是一上来就将各个部分尽数展开。 01 OpenAI赶在谷歌I/O大会前一天开春季发布会,原本盛传的搜索产品没来,但“人类级别响应”的GPT-4o让人一窥新一代AI助理大战的轮廓。 难以想象要是没有OpenAI的狙击,谷歌会有多开朗。 本次谷歌I/O大会上,原本最具惊喜的也是AI助理方面的进展。 首先,谷歌公布了一个新项目,名为Project Astra。用谷歌Deepmind负责人哈萨比斯(Demis Hassabis)的话说,这是真正通向AGI的万能助手项目。 相比于谷歌上一代AI助手Google Assistant,Project Astra的AI助手模式多样,且能实时交互。没有烦人的唤醒词,也没有尴尬的延迟。看你所看,为你排忧解难。 演示视频中,用户打开手机摄像头,对准任意物品,AI可以准确说出物品的名称,如“这是一个音响”。用户可以实时视频的同时,在屏幕上涂画、进一步向AI提问,如画一个箭头指向音响的某个部分,询问是什么。当用户将镜头对准窗外时,AI则直接根据景色猜测出用户所在的地点。 在摄像头匆匆扫过场景的情况下,用户求助“眼镜放在哪儿”,助手准确识别并回答“你的眼镜在红苹果的旁边”。 去年12月,Gemini就曾发布通过视频和AI互动的视频,但事后承认视频经过剪辑,谷歌为此没少被戳脊梁骨。 有意思的是,这次在演示视频的一开头,谷歌就郑重承诺,视频是实时、一次性拍摄的。 不过,谷歌尚未针对Project Astra给出明确的时间线,只是含糊地表示今年晚些时候其中的一些功能将更新到Gemini及其他应用中。 谷歌在AI助手方面还有更看得见、摸得着的进展——Gemini Live,也就是对Gemini产品进行多模态功能拓展。Gemini Advanced用户将可以用语音和Gemini进行对话,对话更流畅自然,延迟更低,可以随时打断,预计夏天上线。谷歌还表示,今年年内将加入相机功能,实现实时视频。 可以说这一次,谷歌被OpenAI精准狙击——GPT-4o不仅早一天发布,而且现场演示,未来几周就会开放给全部用户。 02 近日外界都在盛传OpenAI将推出搜索类产品,与谷歌一战,但这样的情况并没有发生,而谷歌自己也已经马不停蹄地升级了谷歌搜索。 搜索作为谷歌的核心产品,即将迎来一次大升级——搜索摘要功能AI Overview,同时包含多步推理功能Multi-Step Reasoning、在搜索中做计划Planning in Search,以及用视频提问Ask With Video。 AI Overview,顾名思义,是指用户键入文本、点击搜索之后,出现在最上方的将是AI帮忙整理的信息摘要。其中包含用自然语言对搜索结果的总结和概括,以及推荐的链接。从前这被谷歌称为“搜索生成式体验(SGE)”。 多步推理Multi-step reasoning则可以用来做计划。当用户在搜索框键入“附近最好的瑜伽馆”时,AI摘要会将附近瑜伽馆依照评分、课程、距离等信息分类成块,更清晰地展示给用户。Planning in Search则允许用户直接用谷歌搜索做计划,如在搜索框中键入饮食计划的需求,搜索引擎会给你自动生成一份。 想要搜索商品的时候,AI同样会发挥作用,在搜索框键入“有上下坡的五英里通勤自行车”,搜索引擎会在上方给出选购自行车的思路建议,并给出若干商品推荐。 从一个又一个详尽的演示不难看出,谷歌已经下定决心重塑搜索体验。 不过,AI搜索在很多竞品中都已经被应用,更有专做AI搜索的Perplexity.AI。谷歌对搜索体验作出的重大升级,放在2024年的5月已经不大能带来新鲜感。 应用生态的其他新动作更像是补齐,如Gmail邮箱、Google Messages通讯、谷歌照片等,Gemini逐渐拓展到越来越多的谷歌应用中,大有“Gemini无处不在”的态势。 03 AI背后的模型,谷歌这次也是大手一挥,升级的升级,新发布的新发布,Gemini家族不断壮大。 三个月前发布的Gemini 1.5 Pro终于“发货”了,即日起正式开放给订阅了Gemini Advanced(类似ChatGPT Plus)的用户。 Gemini 1.5 Pro支持100万token的上下文窗口,今年晚些时候将会增加到200万token。更形象地说,升级后的Gemini 1.5 Pro能同时处理22小时音频、2小时视频、超过60000行代码或140万个单词。 新发布的模型中,Gemini 1.5 Flash原本有明星潜质,但被OpenAI狙击。GPT-4o驱动的ChatGPT狙击Project Astra和Gemini Live,GPT-4o狙击Gemini Flash。 Gemini 1.5 Flash主打更轻更快,反应速度和效率是其主打特色,拥有多模态推理能力,擅长总结、聊天、图像、文档数据提取、视频字幕等。但这些特点,显然和GPT-4o撞车了。 除此之外,谷歌的开源模型Gemma也发布了新版本,Gemma 2.0有270亿参数,并拓展出多模态版本PaliGemma。 多模态生成式模型,谷歌在I/O大会上公布了三个,涵盖图像、音乐和视频。 文生图模型谷歌此前就有,此次做了迭代,发布Imagen 3。Imagen 3对提示词的理解更加准确细致,可以生成更逼真的图像。在演示中,Imagen3从一长段提示词中提取了8个细节信息,并在生成的图像中一一体现。 音乐生成模型Music AI Sandbox是全新的,用户可以用小段Demo拓展延长,也可以按照文本提示对音乐进行再创作,改变和调整音乐风格等。鉴于谷歌旗下还有YouTube等UGC平台,此类模型将很好地服务于创作者。 更惹眼的其实是谷歌此次新发布的文生视频模型Veo。 谷歌Veo可接收文本、图像和视频提示,生成1080p规格、60s的高质量长视频。 年初OpenAI曾发布Sora,虽未正式对公众开放使用,但演示视频和小范围的测试已经让Sora获得了不小的追捧。从演示的效果来看,Veo可与Sora一战。 这届I/O大会,谷歌交出了诚意满满的“成就清单”,大模型仍在进步和创新中,AI应用生态也不断发展。 但新名词轰炸之后,能留给人深刻印象的东西并不多。比起前一天发布GPT-4o让外界感叹科幻电影照进现实的OpenAI,谷歌到底还是缺一个王炸。
两小时“吼出”121次AI,谷歌背后埋伏着Open AI的幽灵
作者 | 魏琳华 谷歌和Open AI的又一次对阵,刚刚落幕了。 北京时间5月14日凌晨,OpenAI发布端到端多模态AI大模型GPT-4o,酷似科幻电影《Her》的AI语音对话迅速成为关注焦点。 24小时后,携新版Gemini AI大模型等产品,谷歌在北京时间5月15日凌晨1点的I/O 2024大会上重振旗鼓,试图在AI赛道上重新夺回主动权。 在过往一年中,多次被Open AI抢走风头的谷歌,能否打一个翻身仗? 不到两小时,提到121次AI 将近两个小时的发布会上,关键词“AI”贯穿了谷歌全场的演讲展示。 “我猜想现场一定有人想数一数今天的发布会上有多少次提到AI。”在I/O发布会现场,谷歌CEO桑德拉·皮查伊打趣道,观众席内响起一片笑声。 这个答案由谷歌AI现场完成统计,“一共提到了120次。”皮查伊说。话音刚落,屏幕上的数字跳到了121次。 不到两小时的发布会,谷歌讲了121次AI 图源:谷歌发布会 由皮查伊开场,谷歌在发布会上先后介绍了他们在软件、硬件等方面的AI布局。可以说,关注前沿发展的谷歌,在人们今年所能见到的AI应用方向上均有涉猎。 作为基础架构的大模型Gemini发布1.5 Pro型号,再次打破100万tokens(文本中最小语义单元)的纪录,原版相当于一次可以处理长达1500页文本、30000行代码或是长达1小时的视频,现在新模型将上下文窗口扩大一倍,达到200万tokens。 聚焦于自有模型的能力突破之外,谷歌还面向开发者推出了轻量级模型Gemini 1.5 Flash,相较于旧有模型,Gemini Flash实现了低延迟响应并降低使用成本,其100万tokens只要0.35美元。比前一天发布的GPT-4o更加便宜。 谷歌披露大模型API的最新定价 图源:谷歌发布会 在多模态模型布局上,谷歌一口气发布了图片生成模型imagen和视频生成模型Veo。其中,Veo支持生成60秒以上的1080P视频,它被人们视为对标Open AI的视频生成模型Sora。 “生成视频的难点在于解决物品在空间中的移动,并且随着时间的推移需要保持一致性。”谷歌DeepMind负责人道格说。“AI发展15年,我们就知道它会改变一切,现在已经到了实现它的时刻。” 现场展示中,Veo发布了多个演示视频:在草地上奔跑的猎豹、穿梭在星际之间的宇宙飞船等。在演示片中,谷歌展示了他们和影视从业者的合作实践。初步看起来,它拥有不输于Sora的流畅体验,但同样不对外开放使用。 由Voe生成的视频,汽车在公路上飞驰 图源:谷歌发布会 发布会现场,皮查伊多次提及“Making AI more helpful for everyone ”,借助大模型Gemini的能力,谷歌开发了一系列AI功能。比如支持用搜索方式查找手机图片的Ask Photo、AI助理Project Astra。 让人眼前一亮的是Project Astra,在演示视频中,通过手机和AR眼镜的联合使用,AI能够在目之所及的范围内完成和用户的实时交互。它不仅成功识别并向用户解释了圈出来的硬件,还能帮助用户在桌子上找眼镜、解答白板上的题目。Project Astra也被视为GPT-4o的对手。 Gemini准确识别出电脑上的代码用于加密和解密 图源:谷歌发布会 谷歌还将Gemini集成在包括搜索引擎、Gmail、Maps等在内的AI全家桶产品中。 备受关注的是,在这次发布会上,谷歌正式宣布推出AI搜索功能,目前仅支持向美国地区开放。在演示中,谷歌的AI搜索在解决复杂问题上应用“多步推理”,以往需要搜索十次才能获得的答案,合并到一个问题解决。比如一次性纳入用户的通勤和时间安排,通过AI搜索为用户推荐适合的瑜伽馆。 应用“AI Overview”推荐店铺 图源:谷歌发布会 谷歌秀的肌肉,连自家员工也瞧不上 在谷歌这场秀肌肉的发布会上,Open AI依然是那个站在巨头背后的幽灵。 从ChatGPT开启新一轮人工智能浪潮的时候,它就给了谷歌重重一击。自GPT-4发布之后,人们关注的目光更是开始向Open AI倾斜。 野心勃勃的Open AI CEO萨姆·阿尔特曼也将谷歌视为头号竞争对手。从宣传时间的选择到产品发布战略,Open AI的枪口多次瞄向谷歌。 一年以来,谷歌已经在与Open AI的对阵中多次尝到苦果: 2月15日,Gemini 1.5 Pro 发布。同一天,Open AI发布Sora,虽然目前仍然处于无法测试使用的状态,但Sora实现文生视频的流畅性和画面表现震惊科技圈。对比之下,Gemini的重大更新几乎无人问津。 本次,Open AI刚刚举办的春季发布会同样是一次有备而来的伏击。Open AI将发布会时间由5月9日挪到了5月13日,刚好是谷歌举办I/O发布会的前一天。 在昨日的发布会上,Open AI只用了半个小时,就押到了谷歌今天的两个重点。 一是轻量级模型的发布,Open AI推出的GPT-4o同样以低成本、快速响应的方式实现,官网介绍,GPT-4o达到了媲美GPT-4 Turbo的各项能力,但成本仅为后者的一半。 另一个是AI助手,Open AI CTO米拉·穆拉蒂现场演示了如何和手机上运行的模型GPT-4o完成交谈。“它对人类的情绪、语气理解得十分自然精准,如同与一个真正的人类朋友或助理在聊天。” 在这段实时演示中,GPT-4o准确识别了人类的情绪,它会开玩笑,调侃人类的呼吸声音太大;它能依照用户要求,更改说话的语气,比如用更夸张的戏剧腔代替冰冷的电子音;它还能实现同声传译,准确地把意大利语翻译成英文。 正如阿尔特曼在X中提前预告的那样,科幻电影《Her》中的剧情走入现实,人类和AI实时对话的设想已经具备实现的雏形。 电影《Her》讲述人类和AI恋爱的故事 为了防御对手,谷歌曾经一个月发布5次大模型。今年2月,谷歌曾先后发布Gemini功能更新、推出Ultra版本、发布Gemini 1.5 Pro,并发布开源模型Gemma和世界模型Genie。 但这些不痛不痒的更新不仅没有起到防御作用,甚至还引发了负面反馈。谷歌内部流传出的图片曾毫不留情地吐槽,“连内部员工都记不住这些大模型的名字”。 保守败于疯狂,只剩一张“生态牌” 回顾过往,人工智能曾在2014年、2017年多次引起科技界的关注,而在几次浪潮中,谷歌都扮演着先驱者的角色。 追溯至2011年,谷歌就已经在公司内部成立了“谷歌大脑”(Google Brain),专注于深度学习和神经网络研究,目标是“让机器也能拥有理解和学习的能力”。 2014年,谷歌斥资4亿美元收购英国AI公司DeepMind,进一步夯实了在深度学习领域的实力,孕育出了具有里程碑意义的AlphaGo(阿尔法围棋)。次年,谷歌将机器学习系统TensorFlow开源,并启动研发AI芯片TPU,在算力层面为后续训练大模型打下硬件基础。 2016年,皮查伊在当年的I/O开发者大会上宣布,将AI置于公司首要发展战略,正式向AI First转型。在提出Transformer架构,并发布LaMda大模型后,从搜索、助理到Pixel手机、Nest家居等,谷歌开始全面把AI能力植入产品线。 谷歌更倾向于让AI扮演一个辅助角色,对AI的态度偏保守。随着时间轴滑向2023年,谷歌的风头慢慢被Open AI压过一筹。谷歌的前瞻性布局和先发优势,被Open AI的疯狂打败了。 在技术成熟的情况下,后起创业公司Open AI使用的核心技术正是由谷歌发明的。GPT的“T”就来源于2017年谷歌发布论文中研究的Transformer架构。Open AI烧了大把的钱,砸出了训练大模型的可行方向。 ChatGPT在2022年底发布之时,谷歌可能也注意到了这家初创公司,但未能引起足够的重视和警惕。2023年1月,谷歌AI负责人Jeff Dean在一个内部会议中表示,虽然谷歌拥有做AI产品的技术和能力,但和小型初创公司相比,谷歌做出决策必须更加保守。 直到2023年2月,ChatGPT引起巨大反响,被视为冲击搜索引擎的新出口。谷歌匆忙应战,推出大模型Bard,却因常识性失误引发口碑崩盘——在发布会现场,Bard将智利超大望远镜首次拍摄系外行星的功劳记在了詹姆斯·韦伯太空望远镜上,间接引发谷歌母公司市值暴跌1000亿美元。 在之后的表现中,谷歌逐渐消磨掉了人们的信任。Gemini Ultra版本发布一天后被质疑造假,有内部员工表示“这(视频)是不切实际的”,谷歌最后也承认演示视频是经剪辑制作的效果。 多次犯下致命失误后,谷歌AI产品的信服力越降越低。谷歌正在尽力追赶并弥补过失。从这次发布会的动作来看,谷歌的策略调整为:以大而全的方式布局所有AI细分赛道的机会。 对于算力、算法和人才储备充足,技术功底深厚的谷歌而言,借助于自家生态的优势,谷歌将Gemini集成在方方面面,凭借数据积累,谷歌自有生态构建的护城河壁垒,是Open AI所无法取代的。 “谷歌最坚固的护城河是分销,Gemini 不必成为最好的模型,也能成为世界上最常用的模型。”英伟达高级研究科学家范麟熙(Jim Fan)在X上评价。 不再领先的谷歌,只好握紧生态的优势牌。
华为刚刚发布的新品,手上用的家里装的都有,还覆盖了全年龄段
紧接着一周前的迪拜发布会,华为今天也在国内召开了夏季全场景新品发布会,不仅将先前已经在海外发布的几个新品带回国内,还带来了一系列穿戴、家具和全屋智能新品,以及一个绘画 App。 听起来发了不少东西?本文带你速览华为新品都有哪些亮点。 「天生会画」App:画画这件事,华为是认真的 发布会上的第一个新品,不是平板,不是笔记本,而是一个应用。 这个预热已久的「天生会画」App,由华为联合中国美术学院自研,为自家平板 MatePad 系列带来了杀手级绘画应用。 天生会画提供 100 多种笔刷和 70 多种可供定义的笔刷参数,以及「拟真画布」自定义绘画画布材质,在专业性上拉满。 作为「科技」和「艺术」的结合,天生会画还支持 AI 智能选区,可选中绘画中的元素和主体,进行变形或者自由放置。 可以说,天生会画就是为挑战苹果 iPad 上的专业绘图应用「Procreate」而来。 而比起 Procreate 这个「外来的和尚」,可以预想联手中国美术学院的天生会画,会在「国画」创作的支持上更加到位。发布会上,不少展示的作品就是水墨为主的国画作品。 天生会画对绘画小白也非常友好,提供大量的初学者教程,华为终端 BG CEO 何刚就在发布会上展示了作为小白的他,用天生会画用时 10 分钟画出来的油画作品,效果惊艳。 ▲ 何刚展示自己用「天生会画」创作的作品 天生会画也于 15 日开始了公测,在 MatePad Pro 13.2 平板上率先发布,未来也会登陆更多华为平板设备。 在屏幕上大做文章的全新 MatePad 和 MateBook 14 两款此前在迪拜先行发布的设备:MatePad 11.5″S 平板和全新 MateBook 14 笔记本,这次也迎来了国行版。 华为 MatePad 11.5″S 搭载了全新「云晰柔光屏」,也就是迪拜介绍的「PaperMatte」中文版,采用了防眩光纳米蚀刻技术,号称能够消除 99% 的干扰光,在户外能防太阳光,在室内能防灯光。 除了更加清晰,云晰柔光屏也在「护眼」上开卷,搭配多层纳米磁控光学镀膜技术,护眼同时降低 60% 屏幕反射率,提升观看舒适度。 「云晰柔光屏」不仅仅看起来更好,如果在这块屏幕上使用华为 M-Pencil 3 手写笔,还能提供类似真实纸感的书写体验。 为了配合这块「好写」的屏幕,华为推出了华为笔记更新,素材集市和 AI 字迹调整大大降低了做出美观实用笔记的门槛,录音笔记同步让笔记回顾更加方便。 这块好屏幕的具体参数也不可小觑:144Hz 高刷新率,3:2 比例,2.8K 高清分辨率,还支持 P3 广色域。 其他配置上,MatePad 11.5″S 搭载了 8800 mAh 电池,支持 22.5W 快充,配备四扬声器和华为 Histen 8.1 声音算法,系统为 HarmonyOS 4.2。 华为 MatePad 11.5″S 柔光版 8GB+256GB 版本售价 2599 元,华为还提供了不带云晰柔光屏的版本,8GB+128GB 售价 2099 元。 笔记本新品 MateBook 14 也搭载了一块亮点满满的好屏幕。 这块 14.2 英寸的 OLED 屏幕,支持包括 sRGB、P3 和 Adobe RGB 在内的多种色域模式,精度达到 ΔE < 1,以及 120 Hz 高刷新率,屏幕比例为 3:2,屏占比达 91%。 护眼能力上,MateBook 14 这块屏幕支持 1920Hz 高频调光,据介绍,在低亮度环境使用可以降低疲劳感。 更重要的是,这块屏幕还是华为笔记本史上第一次支持手写笔,可搭配华为 M-Pencil 3 使用。 即使不用手写笔,这块支持 10 点触控的屏幕也能够满足日常使用。 性能上,MateBook 14 搭载英特尔®酷睿 Ultra 处理器,配备了全新鲨鱼鳍风扇系统,并且支持 SuperTurbo 性能模式,开启后打开 PowerPoint 文件速度快 22.8%,打开 Excel 文件速度提升 14.9%。 在 MateBook Pro X 上亮相过的盘古大模型也来到了 MateBook 14 上,不仅支持 AI 概要功能,还内置 AI 空间,可选超过 100 个智能体。 虽然不如 MateBook X Pro 般惊艳,但 MateBook 14 机身 1.31 千克和 14.5 毫米的厚度也足够轻薄。 价格上,Ultra 5 处理器+16GB+1TB 的版本售价为 6499 元,提供皓月银和深空灰两种配色,32GB 版本提供原野绿配色。 好马配好鞍,华为还发布了第二代无线鼠标,支持星闪连接,精度最高可达 12000 DPI,价格 229 元。 全新设计的 Watch FIT 3 更加时尚了 迪拜发布会上亮相的华为 Watch FIT 3,也正式推出了国行版本。 Watch FIT 3 采用了全新的圆角方形设计,和前两代更为方正和长条的设计相比,新设计更加时尚年轻,还搭载了以往圆形表才有的圆形表冠。 这款手表擅长的两大领域可以这么形容:「吃」和「动」,支持卡路里、营养素记录分析,以及超 100 种运动模式和 6 种运动模式自动识别。 续航上,Watch FIT 3 搭载 400mAh 电池,常规使用下能够坚持 7 天,而最长续航达到 10 天,启用 AOD 的续航为 4 天。 Watch FIT 3 在尺寸和重量上的表现堪称惊艳。手表表身采用铝合金材质,厚度仅为 9.9 毫米,重量为 26 克。屏幕为 1.82 英寸的 AMOLED 屏幕,屏占比达 77.4%,最高亮度达 1500 尼特。 Watch FIT 3 提供六种配色,氟橡胶及尼龙表带版售价 999 元。 除了面向成年人的手表,华为还带来了儿童手表 5 Pro,支持楼层定位,在没网、关机 5 天的状态下也能定位,售价 1198 元。还有一款「青春版」儿童手表 5 新耀版,价格 698 元。 「未来感」十足的智能家居和全屋智能 除了手上用的数码产品,本次华为发布会的下半场重点放在了智能家居和全屋智能上。 此前已经开启预售的华为 Vision 智慧屏 4 也在这场发布会上正式发布,这块智慧屏搭载了一块 4K 超清全面屏,支持 240HZ 鸿鹄画质,边框仅为 1.5 毫米,屏占比达 98%。 投屏已经是当下非常重要的智能显示屏使用场景,华为 Vision 智慧屏 4 支持哔哩哔哩、腾讯视频等多个平台的 4K 投屏,手机一碰就能投,连弹幕都不会卡。 Vision 智慧屏 4 的「智慧」首先体现在灵犀遥控体验的大升级上,遥控器指哪点哪,精准触控,体验上尽力还原手机操控。 通过灵犀遥控和超级桌面,HarmonyOS 手机应用还能全量登上这块大屏。 这块大屏幕还搭载了 AI 摄像头,不仅能够实现通话人像追踪等智慧功能,还能识别儿童坐姿和距离。 华为 Vision 智慧屏 4 提供 65 英寸、75 英寸和 86 英寸三种尺寸,起售价 5499 元。 觉得价格还是太贵?华为还推出了「青春版」Vision 智慧屏 4 SE,也支持 4K 一碰投屏,屏幕刷新率为 120 Hz,提供 55 英寸、65 英寸、75 英寸三个尺寸,起售价 2699 元。 何刚也在发布会中预告,下半年华为将会有 100 多英寸的超大尺寸旗舰产品发布。 2022 年发布的「美好记忆保险柜」华为家庭存储也推出了更新,行业首发应用数据备份功能。例如,针对微信聊天记录可以实现全量备份,并一键恢复指定记录。 比智能家居更上一层楼的「全屋智能」场景,华为也带来了新品。 「AI 辅助康养传感器」主打以 AI 重塑关怀,通过毫米波雷达,对人体姿态、精准的位置和呼吸频率进行检测和判定,支持跌倒、坠床、睡眠三大场景,可以及时分级别告警摔倒、坠床等异常状态,还能生成睡眠报告。 AI 辅助康养传感器并不搭载摄像头,以毫米波雷达进行检测,无成像能力,数据也只在本地处理,也无需佩戴智能设备,保护用户隐私,定价 1399 元。 而新一代超薄吸顶音箱对比上一代厚度减少 49%,来到 8cm,音质上低音、低频和高音也均有所增强,主打「音乐跨空间流转」和「多氛围场景歌单」。 在发布会上,华为也介绍了其智能照明系统,亮度色温随心控,丰富照明模式,且通过 PLC 群控调光实现一驱多灯。 新品介绍完了,华为还全新推出了「未来之家」,有点类似全屋智能的「样板间」,将会在各大城市商圈、公园等场景中推出。未来还会有未来酒店、未来民宿、未来医院等场景。 「可变空间」则更加科幻,在这个智能家场景下,小房子也能变出「大空间」。据介绍,2 万元的造价就可以创造出 15 平米的可变空间。 货真价实的「全场景」发布会 整场发布会看下来,可以发现华为发布了种类非常丰富的产品,既有 3C 数码的平板和笔记本,也有智能穿戴的手表,更有智能家居全屋智能产品。 涵盖的人群也非常丰富:下至儿童手表,上至老人康养传感器;既有面向学生群体的平板电脑,也有面向商务人士的笔记本。 因此,华为这个发布会是货真价实的「全场景」新品发布会,而能做到全场景,正是因为底层都是自家已经迭代四个版本的系统 HarmonyOS。 下个月,华为还将举行 HDC 2024 开发者大会,为 HarmonyOS 描绘下一步蓝图,爱范儿也会持续进行关注。
谷歌深夜发布“AI超级全家桶”,但最大的创新却被OpenAI狙击了
昨晚,谷歌发布“AI超级全家桶”,但最大的创新却被OpenAI狙击了 作者 | 郑玥、芯芯 编辑 | 郑玄 不出预料,谷歌是被 OpenAI 狙击了。 一连串烟雾弹后,昨天 OpenAI 用一个可以看到、听到真实世界,并可以实时无延迟对话的 AI 智能助手「GPT-4o」震撼了世界。而把发布 4o 的时间点特别选在谷歌 I/O 大会开幕前一天,当时就有媒体预测,OpenAI 这是在狙击谷歌。 果不其然,美国当地时间 14 日上午 10 点举行的谷歌 I/O 大会主题演讲上,虽然谷歌发布了一系列基于 Gemini 的「AI 全家桶」——包括升级 200 万 tokens 上下文的 Gemini 1.5 Pro、新模型 Gemini 1.5 flash、类 Sora 的新视频大模型 Veo,以及包括 AI 搜索、AI + Gmail 在内的多个 AI 应用。 但最受关注的,还是谷歌 DeepMind 负责人兼谷歌 AI 领导者 Demis Hassabis 口中,真正通向 AGI 的万能助手项目——「Project Astra」。以及面向 Gemini Advanced 订阅者新推出的语音聊天功能 Live,后者预计还将在年内加入相机功能,让 AI 可以基于用户所处的真实环境展开对话。 这两个产品都有点像「GPT-4o」,但先不论三者的真实效果到底如何,从产品进展来看 OpenAI 已经领先一筹。不过这也不意味着 OpenAI 注定成为最后的赢家,目前来看手机依然是这些超级智能助手最重要的硬件载体,掌握安卓系统的谷歌有着天然的优势。从这个角度看,前段时间苹果与 OpenAI 的合作传闻,可能正是来源于二者对抗谷歌因而各取所需。 不论如何,具备「真实世界感知 Input」+「低延迟语音 Output」的超级智能助手,已经成为下一阶段 AI 公司军备竞赛的关键。接下来更多大模型公司、云计算平台,甚至手机公司、AI 应用开发者都会卷入其中。 01.Project Astra——实时视频问答,发誓没有造假 I/O 大会上,谷歌发了一段非常惊艳的 AI 助手演示视频,这次还了发誓,没有以任何方式伪造或篡改。 Demis Hassabis 说,Project Astra 是自己期待了几十年的 AI 助手的雏形,是 AI 助手的未来。 Project Astra 是一个实时、多模式的人工智能助手,通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互,它的语音交互比当前形式的 Google Assistant 更自然,没有延迟或延迟,可以回答问题或帮助你做几乎任何事情。 演示视频中,用户要求 Project Astra 在看到发出声音的东西时告诉她,助手回答说,它可以看到一个发出声音的扬声器。 交互是实时语音进行的,且并没有「嘿,Google、Gemini」等唤起词,用户问 Project Astra 视频中显示器上的代码有什么作用,Project Astra 没有一丝延迟地进行了解释。 Project Astra 记住了一闪而过的眼镜|图片来源:谷歌 Project Astra 关于视觉的处理甚至算整场发布会最大的亮点。「你记得我把眼睛放哪了吗?」「你的眼镜在桌子上的红苹果旁边。」Project Astra 甚至通过镜头记住了一闪而过的眼镜,并准确回答出在苹果旁。这里可能夹带了一点「私货」,这副眼镜上或许也有 Project Astra。 从演示看,Project Astra 可以很快处理收到的信息,可以通过连续编码视频帧并将视频和语音组合成事件时间线来做到这一点,然后缓存信息以供回忆。谷歌表示,其中一些功能将在今年晚些时候添加到 Gemini 应用程序和其他产品中。 Project Astra 给这个乐队起名为金色条纹|图片来源:谷歌 谷歌称 DeepMind 团队还在研究如何最好地将多模态模型整合在一起,以及如何平衡超大型通用模型与更小、更集中的模型。 昨天刚发布 GPT-4o 的 OpenAI 最重大的突破也在多模态上,看下来似乎昨日重现。最大的一个区别在视觉处理上,是目前 GPT-4o 只能处理静态图像,Astra 已经可以处理视频。 Project Astra 背后的 Gemini 系列大模型能力也有更新。上个月举办的 Google Cloud Next 2024 大会上发布,发布的 Gemini 1.5 Pro,具有原生音频理解、系统指令、JSON 模式等,可提供 100 万长文本能力,宣布已经向全球开发者开放。 这次宣布推出的 Gemini 1.5 Flash 模型,解决了关键的成本问题。Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间,主要面向开发者。会上详细介绍了 Gemini 1.5 Pro 和 Flash 的定价。Gemini 1.5 Flash 的价格定为每 100 万个 token 35 美分,这比 GPT-4o 的每 100 万个 token 5 美元的价格要便宜得多。 Gemini 1.5 Flash|图片来源:极客公园 谷歌还预告了接下来的动作,宣布今年晚些时候将模型的现有上下文窗口增加一倍,达到 200 万个 token。这将使其能够同时处理 2 小时的视频、22 小时的音频、超过 60,000 行代码或超过 140 万个单词。 Gemini 1.5 Pro |图片来源:极客公园 谷歌去年 12 月发布的一个预录演示遭到「造假」质疑,通过剪辑误导人们高估 Gemini 的视频处理能力,不过现在,这些能力都是真的了。 02. 基于大模型的 AI 应用生态方面的进展 在这次 I/O 大会上,谷歌基于大模型的 AI 应用生态也有所升级,涵盖搜索、照片、创作、工具以及工作应用等方方面面。 搜索是谷歌 25 年前的创世产品。在一年前,谷歌表示,搜索的未来是 AI。现在,谷歌搜索中的 AI 真的来了,主打一个——「让谷歌帮你谷歌。」 谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在 I/O 大会上宣布,人工智能生成的搜索摘要,现在被称为「人工智能概述」,将在「本周」向美国的所有人推出,更多国家/地区即将推出。 相比从前,AI 搜索可以处理更复杂的问题。谷歌提供了一个例子,也许用户在寻找一个新的瑜伽工作室,要求这个工作室既要在当地很受欢迎,也要方便通勤,还要有折扣,只需一次搜索就能实现。 另外,用户还可以调整已经生成的 AI 摘要,或者选择简化版本,或者选择查看更多细节。 这一切是谷歌通过定制的 Gemini 模型来实现的,其将多步推理、规划和多模态与搜索系统结合,总结网络内容并展示答案,据称还是 AI 来设计和填充结果页面。 但一个问题是,如果是 AI 为用户捕获搜索结果,谷歌的竞价广告业务往哪放? 据谷歌高管称,与传统查询出的网页列表相比,AI 摘要中包含的链接会获得更多点击。「与以往一样,广告将继续出现在页面的专用位置上,并通过清晰的标签区分有机结果和赞助结果。」 除了提问,谷歌 AI 搜索还能制定计划,从饮食到旅行计划,比如搜索「创建一个容易准备的团体 3 天饮食计划」,AI 就会定制计划,然后用户可以将某份晚餐调整成素食,随后导出到文档或者谷歌邮箱里。 搜索还不仅仅是文本框中的文字,谷歌的视觉搜索也进化了,可以用视频提问。比如,用户有台二手唱片机,上面带针的金属部件漂移了,不知道怎么回事,可以直接用视频搜索,即能得到有解决步骤的 AI 摘要和相关链接,省去描述问题所需要的正确术语的时间和麻烦。 使用谷歌 AI 搜索,直接制定饮食计划 |图片来源:谷歌 谷歌照片应用也将进化。桑达尔·皮查伊在演示中称,9 年前他们推出了这个应用,现在每天有超过 60 亿张照片和视频被上传到这里。 该应用在未来几个月将推出「询问照片(Ask Photos)」功能,也是基于 Gemini 模型,可以让用户以自然语言搜索照片和视频中的人物、宠物、地点等,它能理解照片的上下文和主题,找到特定的回忆信息,无需滑动屏幕。 例如,「向我展示我参观过的每个国家公园的最好看的照片」「去年我在哪里露营?」「我的优惠券什么时候到期?」「露西娅什么时候学会游泳的?」「显示露西娅的游泳进步情况」「莉娜的生日派对是什么主题?」最后,它还能撰写旅行亮点或者个性化的标题,供用户在社交媒体上分享。 谷歌还称,「除非在极少数情况下是为了解决虐待或伤害问题,我们不会使用这些个人数据训练 Google Photos 之外的任何生成式 AI 产品,包括其他 Gemini 模型和产品。」 使用询问照片功能,询问生日派对细节|图片来源:谷歌 在创作工具方面,谷歌在 I/O 大会上还推出了 AI 生成视频的工具 VideoFX,并更新了 AI 图像和 AI 音乐创作工具 ImageFX 和 MusicFX。 VideoFX 可以让电影制作人编写提示来构建电影镜头,ImageFX 添加了图像编辑控件,而 MusicFX 出了一个新的 DJ 模式。 其中,新工具 VideoFX 由 Veo 提供动力,Veo 是谷歌 DeepMind 最强的生成式视频模型。这个新工具配备了一个故事板模式,可以逐个场景地进行迭代,并向最终视频添加音乐。 据谷歌高管称,Veo 能理解「延时拍摄」等电影术语,可以生成各种电影和视觉风格的 1080p 分辨率视频,时间还可以超过一分钟。Veo 将通过候补名单提供预览版。 另外值得注意的是,VideoFX、ImageFX 和 MusicFX 生成的所有内容都被数字水印 SynthID 标记,主要是为了防止 AI 内容滥用和虚假信息传播问题。 使用谷歌 AI 生成视频工具 VideoFX |图片来源:谷歌 除了创作工具,谷歌日常工作应用的进化也值得关注。包括 Gmail 邮箱、日历、文档、表格、幻灯片、云端硬盘等在内谷歌 Workspace 应用,将引入最新的 AI 模型 Gemini 1.5 Pro,位于侧边栏,作为一个虚拟助手。 当用户点击侧边栏的 Gemini 图标时,Gmail 中的 Gemini 将提供「总结此电子邮件」「列出下一步操作」「建议回复」等选项。用户可以让它总结小孩学校的邮件,获得需要行动的信息,起草回复。 Gmail 侧面板中的 Gemini 总结电子邮件 |图片来源:谷歌 另外,在昨天 OpenAI 发布的 GPT-4o 演示中,其中有个教育场景,GPT-4o 直接化身家教,逐步教一个青少年解决几何数学问题。 谷歌也宣布推出 LearnLM,这是一组基于 Gemini 的微调模型,专为学习教育而设计,同时演示了一些在搜索、YouTube 应用上的 AI 教育学习场景。 比如,在 YouTube 上,用户可以在观看视频时提问,也可以针对视频提后续问题。在 Android 上,可以用画圈搜索(Circle to Search)尝试解决数学和物理题目里的特定困难。 针对 YouTube 学习视频进行提问 |图片来源:谷歌 在这场 AI 公司的军备竞赛中,谷歌追赶 OpenAI 的其中一大优势「老本」,在于其掌握手机安卓系统,以及庞大的应用生态。 但当生成式 AI 真的全方位进入谷歌的生态应用,直接接管搜索,帮人回忆过去,制定出行计划,取代真人家教等等,其准确性是否真的可靠?我们拭目以待。
字节大模型发布!“比行业价格低99%”,对话火山引擎总裁谭待
作者 | 三北 编辑 | 云鹏 智东西5月15日报道,今日,在火山引擎原动力大会上,字节跳动豆包大模型正式开启对外服务。 豆包大模型家族在会上首次亮相,目前包括通用模型Pro、通用模型Lite、角色扮演模型、语音识别模型、语音合成模型、声音复刻模型、文生图模型、Function Call模型、向量化模型九款模型。 在定价方面,火山引擎正推动大模型从“以分计价”进入“以厘计价”阶段。豆包通用模型Pro 128k版模型推理输入价格为0.005元/千Tokens,据称比行业价格低95.8%。 豆包通用模型Pro 32k版模型推理输入价格为0.0008元/千Tokens,比行业价格低99.3%。换句话说,一元钱就能买到豆包主力模型的125万Tokens,相当于三本《三国演义》。 ▲火山引擎总裁谭待在解读豆包主力大模型的定价 同时,火山引擎宣布推出火山方舟2.0平台,发布联网插件、内容插件、知识库插件三个重要插件。火山方舟2.0平台可提供万卡GPU资源池支撑训练,支持3分钟内完成千卡扩容,在系统承载力、安全与服务能力上实现提升。 此外,火山引擎还宣布推出扣子专业版,提供企业级AI应用开发平台;发布了数据洞察AI助手ChatBI、智能创作云2.0、AI 助手 Sales Copilot;联合多家行业伙伴成立智能终端大模型联盟、汽车大模型生态联盟。 在会后,智东西等少数媒体与火山引擎总裁谭待进行了面对面对话。 团队在豆包大模型的定价方面有什么样的想法和思考? 谭待说,不同尺寸、性能的模型价格不一样,字节这次是能力最强的主力模型的定价都比行业价格低99%,这是非常惊人的。 背后的原因有两点:一是团队能做到,团队在技术上有非常多优化手段,包括通过模型结构的优化调整,把成本做低、效果做好,通过分布式推理、混合调度大幅度降低部署成本等;二是团队需要怎么做,今年大模型的应用变得更加重要,同时大模型创新的风险依然很高,因此大家需要把试错成本降得非常低,才能够让大模型广泛地应用起来。 豆包大模型在价格降低的同时性能怎么样? 根据谭待在现场的解答,豆包主力模型是要跟市面上所有的主力模型去对比,虽然模型参数、基准测试表现在会上没有特别披露,但在它开放后大家马上就会看到很多第三方测试结果出来,团队自信接受用户使用之后的测评。第二是普通用户去用豆包App后会有自己的感受,它的巨大的使用量也是模型能力很好的证明。 ▲火山引擎大模型服务全矩阵图(智东西现场拍摄) 谭待透露,豆包大模型目前日均处理1200亿Tokens文本,生成3000万张图片。而豆包App下载总量截至目前已达1亿,双端月活跃用户达2600万。 一、推出全栈AI服务,豆包大模型开启对外服务 谭待说,大模型的发展与每个人、每家企业都息息相关,而当下企业落地大模型面临着模型效果、推理成本和落地难度等关键挑战。 为此,火山引擎宣布推出全栈AI服务,提供更低成本、更易落地的更好模型,助力企业AI转型。 同时,豆包大模型正式开启对外服务。谭待透露,经过一年时间的迭代和市场验证,豆包大模型目前日均处理1200亿Tokens文本,生成3000万张图片。 豆包通用模型Pro具备理解、生成、逻辑、记忆等强综合能力, 支持128k长文本精调,且支持问答、总结、分类、创作等丰富的场景。 豆包通用模型Lite是更具性价比的通用模型,千Tokens成本降低84%,延迟降低50%,它支持闲聊、天气及实时信息查询、音乐视频播放、导航等场景,效果领先传统语音处理50%以上。 豆包角色扮演模型支持角色高度定制,能够基于上下文感知自适应用户扮演或陪伴需求,且具有强剧情推动能力,能够持续引导聊天。 在豆包语音系列模型,豆包语音识别模型具有高准确率和个性化特征,支持多语种识别;豆包合成模型具有自然、多情绪和多演绎特征;豆包声音复刻模型支持5秒复刻,跨语种迁移,与原声具有高相似度。 此外,豆包大模型还包括文生图模型、Function Call模型、向量化模型等其他细分领域模型。 会上,字节跳动产品和战略副总裁朱骏结合豆包的案例解读字节在大模型产品设计上的思考。 朱骏谈道,豆包的设计有几条基本原则,第一是足够拟人化,比如“豆包”这一名字就体现了拟人化特征。 第二是离用户近。豆包的功能定位包括随身携带的“语音百事通”、桌面端文案创作小助手等,主要嵌入用户现有的使用环境,以拉进与用户的距离。 第三是遵循个性化。在智能体的世界,每个人都有个性化的需求和情感,因此在豆包上每个普通用户都可以“捏”一个专属自己的智能体。豆包还支持打造更高阶的智能体定义能力,比如打造个性化的辅导老师等。 截至目前,豆包App下载总量已达1亿,双端月活跃用户达2600万,智能体总创建数达800万。 二、火山方舟2.0平台发布,万卡GPU资源池支撑,三大插件升级 今日,火山引擎还宣布推出火山方舟2.0平台,发布联网插件、内容插件、知识库插件三个重要插件。 其中,联网插件支持实时联网信源,提供抖音、今日头条同款搜索能力,并支持多模态交互及意图识别检索。 内容插件支持海量内容调取,独家上架抖音内容插件,提供抖音丰富视频和图文内容,丰富大模型和用户的交互过程,并支持内容策略定制。 平台知识库插件支持企业调用内部知识库,内置了字节自主研发的搜索引擎,支持毫秒级、百亿规模检索,且搜索更新快、搜索相关性高。 除了插件升级,火山方舟2.0平台在系统承载力、安全与服务能力上实现提升。 谭待称,平台可提供万卡GPU资源池支撑训练,3分钟内完成千卡扩容,运维体验和安全合规增强,助力AI场景落地的最后一公里。 三、扣子专业版发布,推出AI助手ChatBI,智能创作云2.0升级 今日,火山引擎推出扣子专业版,提供企业级AI应用开发平台。 据悉,扣子是字节推出的新一代AI应用开发平台,具有低门槛、个性化、实时性和多模态等特征,具备海量的AI资源、丰富的发布渠道,并支持一键自定义API服务。 目前,扣子专业版已集成在火山引擎的大模型服务平台“火山方舟”上。招商银行、海底捞火锅、超级猩猩、猎聘等企业,已在扣子上搭建了智能体。复旦大学、浙江大学等名校也为课程和实验搭建AI“助教”。 今日,火山引擎智能数据洞察DataWind正式发布AI助手ChatBI,用户可通过自然语言交互生成指标,用于图表制作、数据查询,还可进行深度数据分析,且ChatBI支持IM交互,可多端应用,随时随地自助分析,有望大幅降低数据消费门槛。 面向营销场景,火山引擎进行了智能创作云2.0的升级,成为从内容创作、矩阵分发、广告投放到数据洞察一站式的企业内容营销增长方案;不仅提供多模态的理解与生成能力,助力视频创作效率提升25倍,更上线抖音话题、POI、小程序等营销工具,使门店页面曝光提升600%。 面向销售场景,火山引擎发布了销售AI 助手 Sales Copilot,能够高效跟进客户需求,随时辅助销售解答复杂的产品问题。此外,它还能通过角色扮演的方式模拟不同风格的对客演练,并提供优秀话术学习,提升销售沟通质量。 此外,火山引擎今日与OPPO、vivo、荣耀、小米、三星、华硕宣布成立智能终端大模型联盟;与吉利汽车、长城汽车、捷途汽车、赛力斯、智己汽车等20余家厂商,宣布成立汽车大模型生态联盟。 结语:大模型产业新的价格战打响 当下,全球大模型产的的价格战已经打响。那厢,国外OpenAI最新推出的旗舰模型GPT-4o刚刚宣布API定价降低一半;这厢,国内的字节跳动豆包大模型将价格打爆,主力模型相比行业价格降低99%。 随着豆包大模型家族首亮相,我们看到字节做大模型具有强应用导向的特征。在应用需求的导向下,字节跳动及火山引擎关注模型效果、成本和易用等多个维度的平衡。本次豆包大模型的一大特征是远低于行业市场的定价,模型的实际使用性能和体验如何,我们持续关注用户和开发者体验后的进一步反馈。
谷歌开发者大会暗藏玄机:30秒视频暗示 十年前失败的AR眼镜即将复活
财联社5月15日讯(编辑 刘蕊)在谷歌I/O开发者大会上,谷歌发布的万能AI助手——Project Astra吸引了最多的目光。 值得注意的是,在这一AI项目的展示视频中,除了Project Astra的种种强大功能以外,谷歌也在暗示,其十年前宣告失败的AR眼镜项目即将重新出山。 谷歌AR眼镜项目复活? 2012年,谷歌推出首款AR眼镜“Google Project Glass”,在当时一度引发业界惊叹。 但由于这款产品的价格高昂、应用不足,这款产品的市场反响冷淡,最终在2015年1月19日,谷歌停止了谷歌眼镜的“探索者”项目,标志着这一项目的失败。 尽管在那之后,谷歌又上架了面向企业的企业版AR眼镜,但市场反馈依旧不如人意,这款企业版产品在去年也停产了。 然而如今,借助人工智能的技术支持,谷歌似乎准备重新推出这款产品。 在Project Astra的演示视频中,尽管在视频的大部分时间内,演示者都是用手机拍摄画面并与AI助手互动。但在演示中途,演示者突然问Gemini:“你还记得在哪里看到过我的眼镜吗?”,Gemini立刻回答:“是的,我记得。你的眼镜放在桌子上,就是苹果的旁边”。 紧接着,演示者戴上了眼镜,并在视频中展示了戴上眼镜后的视角画面。 这段约半分钟的画面中,演示者可以继续向AI助手提问。很显然,这副眼镜上搭载了智能摄像头以帮助它了解周围的环境,并且可以回答使用者的问题。 视频中展示了戴上眼镜后的视角画面 尽管视频中并未详细介绍这款可穿戴设备,但这一演示内容显然是在暗示,Project Astra可以应用于眼镜。而在发布会后,谷歌的高管们也对外证实了这一猜测。 谷歌高管证实:谷歌眼镜将是AI助手的完美应用 在发布会后,谷歌DeepMind首席执行官杰米斯·哈萨比斯(Demis Hassabis)和谷歌联合创始人谢尔盖·布林(Sergey Brin)接受采访时证实,该公司正在试验为“Project Astra ”制造眼镜的想法。 “显然,它在手机上的效果非常好,”哈萨比斯表示,“但整个硅谷都在讨论这个问题——当这些系统完全开发出来时,可能还需要其他形式的载体。在我看来,谷歌眼镜是一个显而易见的选择。” 布林称,Project Astra是人工智能眼镜的“杀手级应用”,并补充说,谷歌进入这个领域的时间早了10年,“这很有趣,因为它就像是完美的硬件。” “我们的想法是要解放双手,”布林表示,“在很多场景下,比如你正在做饭或做一些运动时,或者你想要这个东西帮助你时,在这些时候,如果还必须用手拿着手机,就会很尴尬。” 哪怕谷歌眼镜是在十年前发布的,但10年后的今天,布林仍然认为这款产品的外形“非常酷”,“不幸的是,我们在(发布)时点上搞砸了,我有点希望我能把握好一点时间。”
字节发布豆包大模型家族,一块钱生成三本《三国演义》,价格比行业便宜 99%
一块钱买得到什么? 在今天上午召开的 2024 季春季火山引擎 Force 原动力大会上,火山引擎总裁谭待给出了一个意料之外的答案。 一元钱就能买到豆包主力模型的 125 万 tokens,大约是 200 万个汉字,相当于三本《三国演义》。 价格战开卷!字节发布豆包大模型 大模型场景落地的关键挑战在于模型效果、推理成本以及落地难度。 为了帮助企业解决好这些挑战,用更好的模型、更低的成本和更易落地的方案帮助企业做好 AI 转型,火山引擎今天正式推出新一代的全栈 AI 服务。 好的技术一定是在大规模的运用,在大量调用的情况下不断打磨才能形成的。 一年前,原名为「云雀」的豆包大模型成为国内首批通过算法备案的大模型之一。 经过一年的迭代发展,现在豆包大模型目前日均处理 1200 亿 tokens 文本,生成超过 3000 万张图片。 从今天开始,豆包大模型将正式通过火山引擎对外提供服务。 本次发布的模型家族包括豆包通用模型 pro、通用模型 lite、角色扮演模型、语音识别模型、语音合成模型、文生图模型等多款模型。 其中豆包大模型 Pro 是豆包模型的最强代表,在理解生成逻辑和记忆等多个维度上都有非常出色的性能,支持 128K 上下文窗口,能够帮助用户快速理解耳环总结高难度的长文本内容。 在某些场景里,对于延时和成本敏感的客户来说,豆包通用模型 lite 则是更好的选择。 得益于角色扮演模型的加持,无论是扮演四川话的老师,还是推动剧本杀的故事演绎,现场的实际演示都显得游刃有余。 语音是与 AI 交互过程中的重要一环。 语音识别模型和语音合成模型能够准确识别用户的内容、语种和语境,并且通过对音色、语气和语调的学习,可以让大模型表达出真实的感情,让 AI 实现仿若真人般的交流。 大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。火山引擎今天直接化身「价格屠夫」,给大模型市场带来了亿点点震撼。 市面上同规格模型的定价一般为 0.12 元/千 Tokens,而豆包通用模型 pro-32k 模型推理输入价格仅为 0.0008 元/千 Tokens,比行业价格低 99.3%。 又或者,豆包通用模型 pro-128k 模型的输入价格为 0.005 元/千 Tokens,比行业价格低 95.8%,真正做到了「从分到厘」的价格内卷。 另外,为了帮助企业更好地落地应用大模型,谭待也宣布推出火山方舟 2.0 平台并发布三个大模型插件: 联网插件:从全网的数据中搜索出相关的数据信息 内容插件:提供丰富的视频和图文内容 知识库插件:支持专有数据的精调,从而尽可能降低 AI 幻觉 应用为本,落地才是王道 通过 AI 原生的开发平台,我们有机会让每一个人都成为 AI 应用的开发者。 在发布会现场,谭待掷地有声地作出了如上判断。作为新一代 AI 应用搭建平台,无论用户是否具有编程基础,都可以在扣子上快速搭建基于模型的各类 bot。 并且,用户还能将 bot 发布到各种社交平台、通讯软件或部署到网站等其他渠道。 发布会的开场演示了一位五年级小朋友的 AI bot,它通过利用在学校学到的语文知识,打造了一个堪称英语外教的 AI bot。 而在对应用场景能力要求更高的企业环境中,海底捞使用扣子模拟顾客对话演练,帮助客服小姐姐提高服务水平。 超级猩猩使用扣子帮助用户懂得更好的健身;招商银行基于扣子搭建了推荐餐饮优惠门店的掌上生活优惠 bot 以及分析市场行情的财富看点…… 扣子创建的 bot 支持文字、图片、语音、视频、GUI 卡片等多种模态的混合交互,用户甚至可以像和真人聊天一样跟 bot 进行语音交流,他永远会以最智能也最自然的方式回应用户的每一个请求。 另外,火山引擎还正式发布了扣子专业版——火山引擎根据企业需求,以扣子平台为基础做进一步的封装,支持许多高级的特性。 在过往的十多年里,最懂移动互联网时代的字节跳动似乎总能做一个产品火一个,悄然成为如今的庞然巨兽。 而本次发布会最让人印象深刻的,也莫过于字节跳动如何理解大模型时代下的产品应用与开发。 产品和战略副总裁朱骏表示,比起在服务器端跑的代码,更重要的是要创造出合适的产品形态和自然的交互方式,以满足用户的实际需求,让用户真正愿意使用这些产品。 在发布会现场,朱骏透露了豆包名字的来由。 看似和 AI 扯不上太多关系的「豆包」实则在最初起名时,首先确定下来的通用原则便是简单、好读、好记。 与此同时,为了拉近产品与用户之间的距离,他们内部也为豆包这类产品定义了三个产品设计原则:拟人化、离用户近,嵌入用户的使用环境、个性化。 在过去的一年里,字节跳动在大模型应用的形态上做了很多的探索,而他最大的感受是跟 AI 时代之前相比,做应用既有共性,也有很大的差别。 那共性是什么呢?人的本质的需求其实没有变化。比方说想要快速的、方便的获取信息的需求没有变化,在工作当中要给自己提效…… 在他看来,以往做产品相对比较简单,因为至少底下的技术是成熟的,是稳定的,所以你只要发挥你的同理心,去想用户的需求是什么,但大模型时代却又截然不同。 它新的难度就是不仅要考虑大模型此时此刻能干啥,可能更重要的是要去猜测 3 个月、 6 个月、两年以后能够实现什么样的新的用户场景。 所以这是一个新的挑战,也是要在动态的技术演进下,不断的去预测下一个产品的 PMF。 以 AI 搜索引擎为例,朱骏透露在去年上半年评测搜索的任务,往往 10 道题错 6 道,这意味着搜索这个应用场景是完全不成立,但随着模型能力的进化,如今 AI 搜索任务时至今日至少达到可用的程度。 这种从无到有,从可用到优化的转变,不仅仅是技术层面的突破,更是对用户需求深刻洞察的成果。 根据麦肯锡的报告,到 2030 年,大模型推动的全球经济增量将达到 49 万亿元人民币,其中中国部分的经济增量将达到 14 万亿人民币。 庞大的经济增量既包括大模型对现有工作效率的提升,也包括新技术所带的新场景和新业态。字节跳动的探索,是 AI 应用落地的一个缩影,也同样是整个行业需要思考的共同课题。 而这也正是谭待在本场发布会反复强调的一点,好的模型一定要让每一个人,每一家企业都用起来。
华为MatePad Pro 13.2发布:搭载自研绘画软件,售价5199元起
凤凰网科技讯(作者/周文浩)5月15日,华为MatePad Pro 13.2英寸平板电脑正式开售,售价5199元起。该款平板电脑拥有自研绘画软件“天生会画”和AI隔空操控功能。 天生会画是华为全新自研的平板绘画软件,该软件预置超过100支类别齐全、常用百搭的笔刷,为用户提供了超过70种的详细参数设置,并支持自制笔刷,设计专属于己的神来之笔。此外,天生会画还搭载了方天绘画引擎,可大幅优化性能负载,让软件运行更快,内存占用更低,实现更低时延、更多图层和高帧率。 华为MatePad Pro还支持AI隔空操控功能,这也是AI隔空操控首次登陆华为平板。该功能支持华为MatePad Pro 13.2英寸平板和Mate60系列一样挥动手势,随心翻页和截图,让特殊场景下的平板操控体验更加便捷高效。 此外,该平板搭载13.2英寸的超大柔性OLED屏幕,屏占比94%,这款设备不仅支持华为M-Pencil(第三代),还是首款采用星闪技术的压感手写笔,为其创新的交互功能,如自由多窗、实况窗和平行视界,为用户提供了更加灵活和强大的操作方式。 在专业生态方面,这款平板电脑内置了PC应用引擎,支持WPS Office、亿图图标、CAJViewer等PC级办公软件。生态联动功能如超级中转站、多屏协同、多设备通信共享,可以提升办公效率。 为了满足不同用户的需求,这款平板电脑还支持多种输入方式,包括华为M-Pencil(第三代)和华为智能磁吸键盘(星闪版)。这些特点共同构成了华为在高端平板市场的最新力作,预示着移动办公和创意工作的新时代。 除此之外,华为MatePad 11.5"S也亮相发布会,售价2599元起,采用云晰柔光屏技术,使该平板的书写舒适度提升了47%,号称屏幕可以模拟出纸张质感。
追觅发布全新洗地机:告别缠毛困扰,让打扫变得轻松简单
「做家务」这个词,对很多人来说,听起来就会觉得很累。尤其是在生活和工作的压力,让很多人做家务的时间开始变得寥寥无几。 在选择洗地机时,大家的要求就是能把地扫干净、拖干净,解放双手的同时让人参与的事儿越少越好。追觅科技也一直在向这个方向努力,最近他们推出的一系列洗地机新品,正是对这一追求的最新诠释。 清洁工具的灵魂在于让用户轻松告别繁重的清洁工作。追觅洗地机这次带来了高达 20000Pa 的大吸力,以强劲动力和一步到位的清洁效果,真正做到解放双手,再创洗地机的「吸力巅峰」。 当然,光有大吸力是不够的,除了要有「蛮力」,还要有「智取」。打扫房间本就是一件体力活,肯定是越快完成越好,这就需要让我们提高清洁的效率。而缠毛问题一直是洗地机用户反馈最多的痛点,「吸不进去,吐不出来」的场景实在是让人感到难受。 想象一下,每次清洁完毕后,面对滚刷上缠绕的一团糟的毛发,往往需要用手一根一根艰难地去解开。不仅费时费力,而且体验极其不佳。这种清洁后的「二次劳动」常常让人感到沮丧,甚至对使用洗地机产生抵触。 对于这一问题,尽管市场上出现了各种解决方案,如固定梳齿刮条、双刮条防缠等,但它们往往无法全面彻底地清洁。底座割毛虽然提供了一种解决方式,但其效率并不理想。这些过往方案,都是被动式解决方案,从未从根源上解决毛发缠绕的难题。 追觅科技想要「化被动为主动」,在这一领域取得了突破性进展。其带来了主动式多重防缠绕系统,首创的瑞士 PPA 割毛齿刃技术,形成了一套「创新完整毛发切割技术」。 PPA(聚苯醚胺)材料以其卓越的高强度和耐热性在洗地机的毛发切割组件中发挥了关键作用。与传统金属材质相比,PPA 不仅更加耐用,还能在高温环境下维持出色的物理性能。这种材料的耐热和高强度特性,确保了洗地机在高温清洁过程中的稳定性能。 「85 密集齿梳」的设计精准捕捉每一根毛发,而「60 度黄金夹角」和特殊齿梳结构,使得割毛过程既高效又彻底。这些创新设计的综合效果,让追觅洗地机在处理毛发缠绕时的表现十分卓越。 在 TÜV 南德实验室的认证下,追觅洗地机成功通过了「行业最严苛的 0 缠毛测试挑战」。即便是面对 1000 根 50cm 湿发的考验,追觅洗地机的滚刷缠绕率依然能够保持为零,这一成就在洗地机行业内尚属首次。 用户无需再面对繁琐的手动清理过程,洗地机自身的清洁能力得到了「质的飞跃」。这也成就了追觅洗地机「最强主动式 0 缠毛系统」,持续为每一个家庭带来更洁净、更便捷的清洁体验。 2023 年 9 月,追觅首次推出「60℃ 热水正反转自清洁技术」,在短时间内便引领了行业的「快速升温」,各家洗地机开始竞相提升自清洁温度。追觅这次带来了「100℃ 高温清洗滚刷」,经过「泡、洗、挤、吸、正反转」五大清洗流程,追觅洗地机实现了高达 99.9999% 的除菌率。 面对 100℃高温的挑战,原有的很多配件都无法正常使用,容易出现脱落的问题。 为了解决这一问题,追觅科技追觅创新设计耐高温材料,「超洁纤维滚刷」能在高温环境下保持刷毛的蓬松质感和良好韧性,而「高分子除水刮条」则实现了对高温和磨损的卓越耐受性,更将挂水率效果提升了 87%。 在 600W 高效功率发热元件和每分钟 16000 转的高速轴流风机加持下,追觅洗地机实现了 5 分钟「轻音恒温烘干」。不仅运行噪音低,声音如同家电风扇一般,而且还能全程保持恒定高温,利用 75°C 的热流进行除菌,实现高效除菌。 除了对滚刷进行高温杀菌,追觅科技同样重视地面的杀菌效果。为此,追觅与清越科技联手,共同研发了 ElectroPero®电化学专利技术。该技术通过可控浓度的过氧化氢溶液,采用电解除菌的方法,为地面提供了有效的杀菌保障。 对于 H20 Ultra Station,追觅还首创了「全能超薄自动上下水基站」。在高效自清洁的同时,还免去了维护的烦恼,真正做到「拿起就能用,放下不用管」 从「初体验之选」的 H20 Pro 旋风版,到「全能之选」的 H30 Ultra Mix,追觅这次共推出了六款洗地机新品,覆盖了从 2899 元到 4499 元的多个价格区间。 无论是针对小户型的日常清洁,还是大户型的深度打扫,总有一款可以满足需求。 一款易维护的洗地机,才是一个真正令人省心的得力助手。而有效的地面清洁和机身自清洁,更应是一个洗地机的必备修养。 清洁时高效,用完后省心,这便是追觅想要追求的体验。
打工人效率暴增神器!AI时代硬核办公图鉴,TWS耳机成全能会议助理
作者 | 程茜 编辑 | 漠影 越来越多的智能硬件被卷入生成式AI热潮,以手机、PC为代表的生产力工具革命已然开启,曾被看作影音娱乐工具的耳机正作为其中的新兴品类掀起新浪潮。 智东西5月15日报道,今日下午,未来智能重磅发布讯飞会议耳机Pro 2、iFLYBUDS 2和Kit 2,让生成式AI引爆的生产力工具革命更为具像化。 讯飞会议耳机Pro 2正在全方位重塑用户的办公体验,能够一步到位完成录音、转写、翻译、存储,加持了生成式AI的viaim AI功能,轻松将2小时会议内容一键就能帮你快速get重点。 与手机、PC这些此前在用户办公中就占据重要位置的设备不同,耳机之前多被用于休闲娱乐的音视频场景。现在,其场景已经发生质的迁移,一定程度上成为办公必需品。 未来智能成立初期就瞄准了TWS耳机的这一细分赛道,从一片红海的市场中突出重围,目前已经瞄准办公会议场景推出多个系列耳机,将TWS耳机的应用可能性进一步扩宽。未来智能CEO马啸透露,讯飞耳机已经进入154个国家和地区,去年至今,每月销售环比增长超过50%。 在新品发布的背景下,智东西等媒体与未来智能CEO马啸、CPO柳达、 CTO王松进行了深入交流,试图从讯飞会议耳机Pro 2出发,挖掘TWS耳机以及各类硬件设备在AI新时代下将如何破局。 一、耳机秒变AI会议助理,能实时记录、摘要、提取信息 AI与耳机的结合已经在讯飞会议耳机Pro 2上展现出强大的生命力。2023年5月,未来智能首次发布viaim AI会议助理,如今,未来智能CTO王松谈道,viaim AI正在向一个合格的工作搭档进化。 日常生活、办公工作中我们往往会面临一种情形,大家聚集在一起集思广益经常会出现激烈争论的情况,整理记录的人时常会手忙脚乱。 并且在工作节奏日益高效的当下,单纯依靠脑子和手写很难快速将会议的重点记录下来,想要做到既全面又重点突出难上加难。讯飞会议耳机Pro 2搭载的viaim AI会议助理就在这时派上用场,用户可以带着耳机边讨论、边思考,完全忽略会议的整理任务,并且会议结束一份完整清晰的纪要就能呈现到手机或电脑端。 viaim AI会议助理背后的三大秘密武器就是摘要总结、待办事项、智能询问。 用户只需要在手机APP里点击一下,AI就会呈现出刚刚根据录音整理的会议要点总结,长达2小时的会议一键就可以快速get到重点。 昨日凌晨,生成式AI领域的当红炸子鸡OpenAI发布了重磅更新,我就使用讯飞会议耳机Pro 2帮我在线画了重点。 可以看到,虽然一些新发布内容中,受口语或者非专有名词影响无法被准确识别出来,但摘要总结中提到的重点与我全程观看直播的感受一致甚至更为全面,不到1分钟就将这场发布会的重点提炼的明晰清楚。 除了这种发布会类型的内容,用户会面临各种各样的周例会,其中既包含对上一周遇到问题及工作成果的复盘总结,还会针对未来一周、一个月的工作进行总体规划,这就要让摘要总结、待办事项功能齐上手。 用户点击进入摘要、待办页面后,可以通过左右滑动查看。在待办事项中,AI会将录音文件中涉及到的具体时间期限、具体任务提炼出来,方便用户确认待办事项的进度。 与此同时,多元化的交互方式已经成为生成式AI变革人们日常生活的一大趋势,viaim AI此次还融入了语音交互功能。 在待办事项右下角处有“智能询问”入口,用户可以通过语音或者文字输入问题。在面对待办事项跟进时,viaim AI能基于相应事项生成子任务,为用户拆解任务的具体执行过程。 当用户结束了冗长的几小时工作会议后,只需要通过语音或者文字询问,viaim AI就会快速提取会议中的关键信息进行解答。 相比于软件类工具,耳机与AI的结合进一步拓宽了其在办公场景的应用范围,且交互方式更为多元,真正融入到了用户的实际办公任务中。 二、从录音、转写、识别到存储,讯飞会议耳机已成会议标配 作为生产力工具的集大成者,讯飞会议耳机Pro 2除了AI升级外,在诸多与会议场景紧密联系的录音、转写、翻译、存储等方面也实现了升级迭代。 AI能力使得TWS耳机的实用价值有了飞跃式提升,这些功能则是承载AI能力的根基与底座,让用户的体验更为流畅。 TWS耳机最为直接的功能就是录音,未来智能在做的事就是让用户越来越无感,进一步做到自然“闪录”。 讯飞会议耳机Pro 2考虑到用户在不同场景下的录音需求,除了正常的打开APP点击开启录音,当用户在移动过程中或不方便使用手机时,就可以长按耳机上的感应区,快速将通话的内容录音。 此次讯飞会议耳机Pro 2将闪录的场景进一步扩展,在会议现场用户甚至无需连接APP、手机也能一键录音。 该功能的实现靠的就是讯飞会议耳机Pro 2上新增的物理按键,用户滑开耳机盖就可以看到的“红色录音按键”。 当用户按下这个按钮,耳机盒上方的“L”和“R”按钮之一就会闪烁,这意味着耳机已经开始录音,现场拾音距离能达到7米。因为没有与APP或手机连接,现场录音的文件会存储在耳机中,并会根据耳机的存储空间智能选择存储位置。 耳机的存储空间可以达到每只2小时,共计4个小时,基本能满足用户的日常会议需求。 现场录音结束后,用户打开APP可以随时将文件下载到手机中进行转写,一般1小时录音文件可以在3-4分钟内传输完成。 在现场录音转写之外,讯飞会议耳机Pro 2还能支持实时转写、实时转译,直接为通话和看视频的用户打造了一个“滚动字幕条”。 通话过程中,转写的内容会自动分段、排版,并将语气词、重复词等智能过滤。同时,AI系统会自动分析录音中的高频词,方便用户后续检索。 讯飞会议耳机Pro 2的安心录功能还可以保证用户的线上电话会议不被打断。此前,用户使用手机接入线上会议,会在接听快递、外卖等电话时导致会议中断。 录音转写的过程中,除了能开启中文翻译,还可以实现多人的声纹识别,或者将文字直播的内容分享给其他用户,这样一来即使没有讯飞会议耳机Pro 2,用户也可以体验到实时翻译。 在APP中,用户可以直接上传声纹库,将常用的人与声音相对应上传至声纹库,使得不同人的声音直接同步到最终的转写结果中。 在翻译方面,讯飞会议耳机Pro 2支持的语言从11种扩充至32种,还能听懂12种方言、2种民族语言、10种行业术语。 对于英语基础较差的用户,讯飞会议耳机Pro 2既可以充当同传听译设备,现场转写转译,还能通过耳机播放翻译后的内容;还可以作为翻译官,将耳机和手机联动起来构成一套全能的翻译设备。 这些音频文件的存储也被考虑在内,用户可以在手机、Pad、电脑端同步查看、修改,能够随手整合修改会议纪要中的问题,并以文字或邮件的形式发送,做到全流程自动化。其中,云空间可以支持存储6000分钟的录音内容。 这样一来,讯飞会议耳机Pro 2就将用户在会议场景的核心环节全面接管,其多元且丰富的功能体系,也为用户在会议场景的办公效率提供了强大支撑。 三、生成式AI新浪潮势不可挡,TWS耳机价值增量涌现 讯飞会议耳机Pro 2的功能升级瞄准的都是用户在会议场景的核心痛点,更具针对性且更为直接,这也使得用户对于耳机这一硬件设备的固有印象被颠覆。 当下通用型的TWS耳机即便也会被用于办公场景,但用户更多将其视为休闲、娱乐类工具,与办公场景的用户深度结合的TWS耳机少之又少。 不过,其具备的典型特征使得TWS耳机拥有作为重要生产力工具的潜力。 用户日常生活中需要处理非常多的部门会议、工作电话,TWS耳机就是其获取音视频内容的关键载体,又因为便携性等使其价值进一步被放大。 在信息量极速爆炸的当下,海量信息的处理与整合,就需要录音与AI的加持,这也是办公场景下用户更为高效且直接的处理方式。 生成式AI技术的突飞猛进,又为TWS耳机化身生产力工具增添了助推器,其强大的理解能力使得录音内容被更高效利用起来。 这也是未来智能一开始就锚定办公耳机这一细分品类的重要原因。 去年5月,未来智能发布其首款AIGC耳机,首次将viaim AI会议助理内置到iFLYBUDS Nano系列录音降噪会议耳机中,真正找到了当下TWS耳机、生成式AI以及办公场景的结合点。 马啸坚定认为,垂直领域才是有用的AI助理诞生的地方,硬件入口正是AI助理的加速器。 目前,该公司的TWS耳机矩阵围绕着办公场景不断深入,从远程办公到线下办公,从入耳式到耳挂式,集不同形态、不同场景、不同办公需求于大成。 马啸补充说,未来智能的核心战略就是双引擎增长,AI、硬件。一方面用AI的摘要、待办等能力黏住用户,另一方面通过硬件以不同的形式、入口与用户交互。 可以看出,未来智能在TWS耳机市场增速放缓的背景下强势入局,并在办公这一条细分赛道中逐渐站稳脚跟,找到了突破口。并且其将TWS耳机定义为生产力工具的理念,与当下生成式AI对智能硬件的革新不谋而合。 结语:生成式AI浪潮,TWS耳机在会议里破局 未来智能从成立之初就确定要将AI交互做到真正实用,如今系列新品的发布也证明了其正在将耳机的价值体现出来。 生成式AI对手机、PC等生产力工具设备的革命已经起势,未来智能CPO柳达谈道,相比于手机、PC设备,TWS耳机最大的不同就是更接近于人的五感六官,成为代替用户器官的存在,能够变成用户的嘴和耳朵感知外界环境。这也是硬件设备需要服务于人的关键,用户需要不同的感官获取信息。 可以确定的是,讯飞会议耳机正承载着生成式AI的技术发展与用户在办公场景的核心需求起飞,TWS耳机正在生产力工具的革命中扮演着愈加重要的角色。
OPPO Find X7手机安卓15 Beta开发者预览版发布,不建议普通用户升级
IT之家 5 月 14 日消息,OPPO Android 15 开发者预览版计划今日上线 OPPO 开放平台,为 OPPO Find X7 手机推出安卓 15 开发者预览版系统,仅建议开发者尝鲜,不建议普通用户刷入。 OPPO Find X7 Android 15 Beta 是基于 Google Android 15 Beta 开发的系统。 Android 15 开发者预览版本将会适配最新的 Google GMS 包,与 GMS 包重复的原生功能应用将不再保留。 升级到 Android 15 Beta 后,手机存储将被格式化,全部资料包括音乐与图片将会清除,请开发者提前备份好资料。 OPPO Find X7 版本需为 14.0.0.501 及以下,才能升级到 Android 15 Beta。14.0.0.501 以上的版本无法升级 Android 15 Beta,请降级后再通过本刷入方式升级。 ▲ OPPO Find X7 手机 IT之家图赏 具体刷入方式如下: 进行手机系统升级操作前,备份数据到电脑或云端 通过 PC 端下载 Android 15 Beta 升级固件包,并将该升级固件包拷贝到手机存储根目录中 打开手机的设置 -> 关于本机 -> 版本信息 -> 连续点击版本号 7 次 打开手机的设置 -> 关于本机 -> 最上方“软件更新”卡片 -> 右上“⋮”图标 -> 点击 本地安装 -> 点击 左上角“≡”菜单按钮 点击下方的机型名称 -> 找到页面最下方的压缩包,点击并选择 “立即解压”键 等待解压完成点击 “立即安装”键 等待手机重新启动,成功升级到 Android 15 Beta ▲ Android 15 Beta 升级固件包 当前版本系统存在以下已知问题: 蓝牙连接存在部分兼容性问题 特定场景下 Wi-Fi 概率性无法连接打印机 智能解锁功能无法使用 特定场景下相机部分功能显示异常 部分场景下与 PC、PAD 跨屏互联时功能异常 部分三方应用存在闪退等兼容性问题 特定场景下存在稳定性问题 特定场景下软件商店闪退 个人热点修改安全性设置后概率性无法打开 截屏预览时马赛克自动打码功能失效 相机拍照后照片不显示 ProXDR 按钮
379元的诺基亚复古神机3210售罄,谁在买?
在2024年这个智能手机竞争激烈的年代,诺基亚却意外地成了热销焦点。 5月8日,诺基亚发布新品时宣称:“诺基亚3210全新升级,还是那味儿。经典复刻,智能升级。”在如今手机市场已经进入存量时代,许多智能手机新品都难以销售,更不用说曾经的老款机型了。 然而,事实却出乎意料。发布当天,诺基亚手机官方微博宣布,首批诺基亚3210 4G已经全部售罄。 这款发售于1999年风靡全球的机型,凭借其独特的设计和出色的品质,曾创下1亿6000万部的惊人销量,位列史上销量第二。“贪吃蛇”游戏是很多人童年的本命游戏,还有老梗“诺基亚砸核桃”讲的就是这款机型。 诺基亚手机曾风靡一时,可面对智能手机时代的变革,却在时代的洪流中掉队伍。 此次,诺基亚推出经典机型 3210 意欲何为?年轻人疯抢复刻版诺基亚3210的背后心理又是什么? 新款诺基亚3210 4G有哪些改动? 在售价上,诺基亚3210 4G依然走百元机价位,官方售价是379元。 那么,与1999年的原版前身相比,新的诺基亚3210 4G有什么变化呢? 在外观上,新款诺基亚3210 4G继承了原版的外形精髓,但机身更为轻薄,宽度略增,并提供了黑、蓝、金三种时尚配色。金属涂层的加持让这款手机更具质感,深受年轻人喜爱。此外,手机上还保留了经典的贪吃蛇游戏。 在屏幕方面,新款诺基亚3210 4G采用了2.4英寸的IPS大屏幕,色彩显示更为细腻。同时,它还配备了一颗200万像素的后置摄像头和闪光灯,拍照效果类似于CCD,满足了用户基本的拍照需求。 在性能方面,新款诺基亚3210 4G支持中国移动、联通、电信、广电的4G网络,以及VoLTE高清语音通话,它还拥有双NanoSIM小卡卡槽,支持双卡双4G功能。机身内部提供了128MB的存储空间,并可通过micro SD卡扩展至最多32GB。 此外,内置的1450mAh大容量电池确保了持久的续航能力,而现代化的Type-C接口则让充电和数据传输更为便捷。 在软件方面,诺基亚3210 4G也进行了升级。它内置了喜马拉雅和咪咕音乐等应用,并支持移动支付功能,如支付宝。海外版本的用户还可以使用新闻、天气等App,甚至能通过YouTube Shorts来刷短视频。 然而,值得注意的是,这款手机并不支持微信,且扫码支付需要先使用智能手机进行登录。 诺基亚明确认识到这款手机在配置上的不足,因此在详情页上将其定位为“备用机群体”和“学生群体”的首选。 尽管如此,年轻人对这款诺基亚3210 4G的热情依然高涨。在各大平台搜索时,笔者发现诺基亚3210 4G目前全网断货。诺基亚天猫旗舰店显示该型号手机缺货中,而诺基亚手机京东自营旗舰店、抖音、快手直播间等则开放了预约通道。 据诺基亚官微发布消息,下一批诺基亚3210 4G将在5月31日晚8点开放抢购。 诺基亚不卖手机卖专利? 诺基亚一手缔造了一个时代的传奇。从1996年开始,诺基亚连续15年占据手机销量榜首,明星产品诺基亚1100销量高达2.5亿部,这一纪录至今仍未被打破。 最疯狂的时候,诺基亚在全球手机市场占有率达72.8%。2000年更是凭借1.28亿台功能机销售,实现了197.72亿欧元的净销售额和39.08亿欧元的营业利润。那些年里,诺基亚在全球用户的心目中总体印象就是操作系统友好、铃声很独特、硬件坚固耐用。 市场的风云变幻总是难以预料。就在诺基亚如日中天之际,苹果公司于2007年推出了革命性的iPhone,次年谷歌又推出了Android操作系统,使手机市场格局发生了颠覆性变革。但诺基亚未能及时响应市场变化,坚守自家Symbian操作系统,最终在智能手机时代全面落后,市场份额从70%暴跌至不足4%,市值缩水超过90%。 诺基亚手机业务最终以73亿美元被微软收购,CEO约玛·奥利拉发出感叹:“我们并没有做错什么,但不知为什么,我们输了。” 然而,诺基亚并未真正输掉一切。在放弃手机业务后,诺基亚转而专注于通信业务,通过一系列收购如诺基亚西门子通信公司、摩托罗拉无线网络业务和阿尔卡特朗讯,成为全球第二大通信设备制造商,并在2017年以1850亿欧元的年营收重返世界500强。 此外,诺基亚还通过专利授权获取高额利润,其移动通信技术专利超过3万项,涵盖从2G到5G,全球手机厂商均难以绕开其专利“围墙”。专利授权是诺基亚最赚钱的业务,毛利率多年维持在90%以上。 比如手机带照相机也是诺基亚的专利,不管你是苹果、三星、华为还是OPPO、VIVO都要交钱;再比如App Store,也是诺基亚的专利。 多年来,诺基亚起诉了许多全球手机厂商并获胜。2011年,苹果向诺基亚赔偿了4.2亿欧元,并且每年还需支付1亿欧元的专利费;2014年,三星在官司中败诉,每年需向诺基亚支付2亿多欧元。 人们都认为诺基亚已经退出历史舞台,但实际上这家企业依然活跃且表现不俗。2022年,在全球科技巨头普遍遭遇寒冬的背景下,诺基亚却逆势增长,营收和净利润分别达到249.11亿欧元和42.59亿欧元,同比增长12.2%和161.86%,净利润更是创下近10年新高。 去年,诺基亚更换了使用了近60年的Logo。现任CEO佩卡·伦德马克表示:“旧Logo与智能手机有关,如今诺基亚是一家商业技术公司。”毕竟,能够依靠技术躺着赚钱,谁说这不是一种成功呢? 年轻人疯抢诺基亚是为了手机戒断? 这款诺基亚3210 4G一上线,立马勾起一大波网友的回忆杀。许多人纷纷感叹,这不仅仅是一款手机,更是他们青春的象征。“这不是手机是青春啊。”“我父亲给我买的第一个手机就是诺基亚3210。”“梦回1999,我那时候刚高中毕业。”…… 情怀之外,年轻人选择诺基亚也有另外一些理由。比如,手机不卡顿不发热、结实耐摔质量“无敌”,其拍照功能具有复古质感,被誉为“平价版 CCD”。 在一些人的心目中,一台经典的诺基亚虽然外形和内饰都跟不上时代,但用起来的感觉却很好,最起码稳重踏实,还承载了一段回忆。 当然,年轻人选择诺基亚还有一个重要原因——戒断手机。在信息爆炸的时代,社交媒体应用程序无处不在,人们几乎无法得到片刻的宁静。许多年轻人将3210 4G作为备用手机,以此回忆那个没有微信、钉钉,生活和工作还未完全绑定的年代。 不仅如此,在美国,年轻人中也兴起了一股“智障手机”热潮。这些手机相对于智能手机来说,功能并不那么丰富,但它们为用户提供了一个避开社交媒体全方位轰炸的空间,为他们创造了一个无人打扰的私人天地。 近年来,诺基亚的功能手机在全球市场上的销量激增。2022年6月,诺基亚官方宣布,其功能机105系列的全球销量已突破2亿台。而在2016年,每月的销量就已超过一万台。 年轻人明白,完全避免社交互动是不可能的,但寻求短暂的宁静和休息是必要的。所以他们将诺基亚手机作为一个备用工具,以此来平衡生活和工作,寻找那份暂时的安宁。 其实,当前我们讨论的诺基亚,已非昔日之诺基亚。自2014年把设备与服务业务售予微软后,诺基亚便退出了智能手机市场的竞争。到了2016年,诺基亚品牌被授权给HMD Global公司使用。 目前,HMD Global不仅在积极塑造自己的品牌形象,推出HMD品牌的智能手机,同时也致力于复兴诺基亚的手机业务,专注于功能手机的研发和推广。 3210不是HMD为诺基亚推出的复古手机中的独一款。实际上,HMD Global已经推出了“复刻家族”系列,包括回归1999年的诺基亚8210 4G,以及追溯至2007年的诺基亚5710手机。 不过,这些复刻版的功能手机指向的是特定的小众市场,仅凭复古机型东山再起难了。 但不管是年轻人还是中年人,买复古手机,也算是追忆一下自己的过去吧。

版权所有 (C) 广州智会云科技发展有限公司 粤ICP备20006386号

免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系。