午夜激情影院国产_久久毛片免费播放_国产成人综合在线95精品_精品视频在线观自拍自拍_无码粉嫩小泬抽搐白浆免费_在线观看麻豆国产传媒61_黄色视频无码亚洲啊v在线_国产成人精品免费久亚洲高清不卡_先锋无码午夜资源网站_2021自拍视频亚洲国产第一区

  • 末大必折網(wǎng)末大必折網(wǎng)

    国内外AI大厂重押,初创梭哈,谁能凭记忆成为下一个DeepSeek?

    机器之心报道

    作者:Youli

    谁率先让模型拥有「记忆」,谁就掌握主动权。

    「记忆」会是引爆新一轮 AI 浪潮的最后一块拼图吗?

    如果时间往前推半年或四五个月,业界对于这一问题可能都是疑惑、不解:彼时 DeepSeek 将大模型推理能力推至高潮引起的余波仍在蔓延,Manus 在全球范围内开启通用 AI Agent 新叙事,人们正沉浸在技术和应用双面开花带来的热闹、狂欢中……「记忆」,有什么好说的?

    然而时至今日,推理已然成为各大模型标配,「百 Agent 混战」的背后,「通用 Agent」一席仍旧空缺。技术演进曲线的放缓和爆发式应用到来的「遥遥无期」,开始让业界意识到,下一轮 AI 智能提升的关键在于,让 AI 能够像人类一样持续学习积累经验、适应新任务而不遗忘旧知识,同时实现长上下文的高效理解。

    换句话说,就是让大模型拥有像人类一样的「记忆」能力。或许有人会问,当前大模型似乎依靠长文本、外部数据库已经有「记忆」?

    是,也不是。如果按照业界呼唤的「类人记忆」这一范畴来看,现在我们所讨论的「记忆」,是指大模型能够具备人类对记忆的组织、检索、应用方式,是一种相较于当前大模型「短期记忆」的「长期记忆」或「终身记忆」。

    其实,从国内外大模型从业者的一些操作中也可以感知到「记忆」在业界的「变热」,尤其是刚刚过去的 8 月:

    8 月 12 日,Anthropic 宣布旗下聊天机器人 Claude 具有记忆功能,对话中可根据搜索过去对话,在新的聊天中寻找及引用相关资讯,让双方能够无缝地持续讨论,「不必每次都从头开始」。

    随后 13 日,谷歌宣布 Gemini 也已配备记忆能力,且支持跨越多次对话,从用户交流中提炼关键细节和偏好,并在下一次交互时主动调用,让对话更自然、更连贯。

    8 月 14 日,字节跳动 Seed 团队发布 M3-Agent 系统,首次让 AI 具备了类似人类的长期记忆和推理能力,且不再仅限于文本,已然扩展到视频、音频等多模态中。

    8 月 20 日,OpenAI CEO Sam Altman 在发布 GPT-5 后,谈及 GPT-6 的设计愿景时提到,他希望未来的 ChatGPT 版本能够让用户定义语气和个性,而其中关键就在于「记忆」,这将是 GPT-6 的重点所在。

    其实早在去年 2 月的时候,OpenAI 已经在 ChatGPT 上线记忆功能。

    而今年 4 月,马斯克的 xAI 也宣称 Grok 已经能够记住多轮对话内容。

    最新的消息是,又有一个玩家「跑步入场」——Mistral AI,宣布开始引入「记忆」系统,已与 20 多个由 MCP 提供支持的企业平台集成,试图通过记忆来记住重要的事情……

    越来越多的玩家开始入局、押注「记忆」。基于此,机器之心与业界从业者进行了交流,我们发现:围绕「记忆」的研究将是接下来大模型的新方向,而谁能率先让大模型拥有像人类一样的「记忆」能力,谁就掌握了主动权。

    「记忆」能力,是此刻 AI 技术侧和应用侧的双重诉求

    虽然国内外 AI 厂商最近纷纷扎堆推出「记忆」相关产品,但实际上,在学术界,意识到应该将 AI 与记忆相结合的研究要开始得更早一些。

    记忆张量 CTO 李志宇告诉机器之心,大概是从 2023 年年底开始的。

    记忆张量是一家聚焦 Agent Memory 的初创企业,推出了业界首个记忆操作系统,也是业界最早关注到这一领域的研究团队之一。2024 年 7 月,中国科学院院士鄂维南牵头主导,杨泓康、熊飞宇、李志宇等人参与研发的记忆分层大模型 ——Memory3(忆立方)正式发布,该模型开创性地将参数拆解为隐性记忆、显性记忆和外置记忆库,以优化推理效率并降低幻觉问题。一经发布,便引起关注,并在后续被 Meta、Google 等团队跟进。而大多数参与成员则是记忆张量的初始团队成员。

    李志宇告诉机器之心,虽然早早开始推进「记忆」相关研究,但其实内心也并非那么笃定。

    怎么理解?

    回顾那一时间段,业界正沉浸在 Scaling Law 是 LLM 第一性原理的叙事中,各大模型厂商忙着堆算力、堆数据,来换取大模型性能提升,但现实是算力匮乏,大厂可以依靠资金与资源上的累积来「大力出奇迹」,但这对许多开发基座模型的团队来说就是一个巨大成本负担,根本比不过。

    基于此,团队开始思考能不能从基础理论角度把大模型再「拆开」,看看是否还有可提升空间?「如果某一时刻,当下的 Scaling Law 失效,另一条 Scaling 路线又会是什么?」

    一番研究后发现,其实没必要把所有知识(记忆)都压缩进大模型参数空间,只需把公共常识或推理能力压缩进去,而对于那些细碎知识,保证让它在需要用这条具体记忆时能够去检索、使用、与模型一起做推理就够了。团队便试着将模型参数记忆按照显性记忆、隐性记忆和外部记忆做分层建模,以便获得更好的性能提升。

    结果很明显,「赌」对了,这是一条具有开创意义的道路,之后团队便继续沿着这一路线进行大模型「记忆」能力的探索……

    而腾讯 AI Lab 专家研究员王琰开始感知到大模型「记忆」能力的重要,也是在 2023 年年底,不同的是,他是从应用侧感知到的。

    腾讯 AI Lab 是腾讯推出的企业级 AI 实验室,成立于 2016 年 4 月,致力于推动 AGI 发展,研究方向涵盖 NLP、语音、CV、游戏等多个领域。据了解,AI Lab 是业界最早进行利用 RAG 提升模型「记忆」能力的研究团队之一,相关研究曾获得 2021 年 ACL 杰出论文奖。

    王琰告诉机器之心,当时他正在开发一款游戏 Agent,其中最重要的一个功能是「陪伴」,比如玩家玩了一年的游戏,那 Agent 就应该记得玩家这一年在游戏里所发生的事情,这就意味着 Agent 需要「终身记忆」。但明显,当时模型的「记忆」能力根本达不到这一诉求。

    那时大模型应用主要集中在对话产品,一种主流观点认为,长文本(Long Context)就是一切,或将是通往 AGI 的最佳路径?!?#22914果我们有无限长的 Long Context,我们就能解决任何问题」,是大多数业内人士所坚信的。

    但在游戏 Agent 的研究实践上,让王琰意识到不是这么回事。

    Long Context 生成方面的研究主要集中在长度外推和扩充窗口长度上,其主要思想是在模型的 KV states 中尽可能多且有效地储存上文信息,并让模型在推理时候尽可能准确用好这些信息。

    但这种理念仅适用于对话场景,因为对话场景的 state(状态)不会改变,可 Agent 不同,Agent 场景的一个特点就是场景周围环境随时变化,即 state 随时变化,如果这种变化以 Long Context 形式注入,Context Window 分分钟就要「爆炸」。

    当然,扩 Context Window 也是一种有效办法,可更长的上下文意味着更大的显存消耗,「这是个根本无法承受的成本?!?/p>

    意识到这一点,王琰开始探索新方法。2024 年 1 月,新方法初见成效。

    这是一种全新思路:将上文信息储存在模型参数,而非 KV cache 中,来降低对 KV states 的依赖。这些用来储存上文信息的参数被集中在一个临时的 Lora 模块(Temp-Lora)中,推理过程不断拿模型生成的 token 训练这一模块,以实现历史信息存储。

    结合他在游戏 Agent 的开发上来看,这是一个参数化记忆,用一个 Lora 模块来记载 Agent 与玩家过去的交互历史,让模型实现类似「终身记忆」的能力。

    很明显,在获悉早期从业者之所以进行「记忆」能力相关研究的「缘起」后,对于当下各大模型厂商不断重申「记忆」的重要性也就不难理解:这是技术侧和应用侧的双重诉求。

    从技术层面来看,如果说 2023 年年底,只是少数人担心 Scaling Law 会失效,那么现在不管是 OpenAI 还是其他 AI 大厂都已经清楚认识到,过去几年通过堆算力、参数量来获得性能提升的「边际效应」已经明显下降,即便再去堆成倍的算力,都拿不到 10% 甚至 5% 的能力突破,仅仅依靠「大」已经无法把模型性能,或者在应用场景的能力进行比较好的提升。他们同样也想要去寻找新的技术范式。

    「技术本身的瓶颈导致大家开始寻找新方向。」李志宇说道。

    他认为,从这个角度来看,如果用人类来类比大模型,人与动物的不同在于,一是人会制造和使用工具,这对应的是(模型)MCP 这一层的能力。另外一点是,人能够总结、思考和反馈,并且形成记忆,然后让「记忆」在人类整个文明传承过程当中,被不断建模、重构以获得进一步性能提升。如今看来,模型工具层面已经做完了,而且更多是横向过程(MCP 层级),接下来大家想要突破的可能就是「记忆」这个口子了。

    从应用层面来看,当前 AI Agent 已是大模型主流叙事,数量上「百 Agent」竞相狂奔的盛景已是事实。能力上,大家对于模型本身的要求越来越高,不再是最开始仅作为单一工具去解决瞬时问题,而是把 AI 当成合作伙伴或秘书去解决更为长期的问题,这就需要它能够记住之前的交互与反馈。

    「这种情况下,模型终身记忆,而且是不依赖 Context Window 的终身记忆就成为非常重要的事情了?!?#29579琰说道。

    Agent 想要取得突破性进展,「记忆」是必不可少的一个环节。

    技术尚未收敛,路径抉择不一

    当前,随着市场上开始重视模型「记忆」能力的大模型厂商越来越多,「记忆」前面的限定词也变得五花八门,「终身记忆」「持久记忆」「全局记忆」「个性化记忆」等术语不断涌现。

    在李志宇看来,这是因为单纯谈「记忆」本身对于普通用户的理解成本较高,所以各大厂商在命名时会在前面加限定词,一定程度上也代表了各自的技术侧重点不同。

    比如,OpenAI 提及的是「全局记忆」,更像是对应于 Anthropic 提出的「局部记忆」概念的映射。前者认为记忆应该无处不在,在用户可能用到的地方随时随地出现,所以「全局记忆」是从覆盖面上考虑的,而「终身或持久记忆」是基于时间线角度的考量。归根究底,「记忆」能力的重点在于如何把大模型记忆本身或 AI 应用的记忆本身这件事情做好。

    目前来看,当前业界对于大模型「记忆」能力的研究主要有这样几种路线。

    一是参数化记忆,是架构层面,基于基座模型本身的驱动融合记忆创新,去解决记忆问题。目标是让模型从参数层面自己能够区分哪些是需要被作为「记忆」去检索和建模,然后在推理过程中融合到前向推理过程中。

    参数化记忆也分两种,一种是直接基于目前模型主流的 Transformer 架构展开研究,比如 Temp-Lora 方法,就是用 Lora 模块来记录过去的对话历史。

    另外一种是采用非 Transformer 架构。比如,谷歌推出 Titans 架构,提出三级记忆(短期 / 长期 / 持久记忆),用「惊讶度」机制动态更新记忆;Meta 的研究突破在于将 Transformer 中的前馈网络(FFN)替换为记忆层,并保持其他部分不变;国内的非 Transformer 架构 RWKV 等。

    李志宇认为,这一路线的好处在于整体理论上限非常高,(做得好的话)可能突破现有的模型「记忆」,对于时间、人物、连续性的感知问题都能够有较好解决方案。但问题也很明显,「研发成本非常高,短期内落地难度比较大?!?/p>

    王琰持相似看法。在他看来,当前市场上有多种非 Transformer 模型架构宣称自己有「长期记忆」能力,但问题在于这种「长期」局限于架构,就像人脑容量一样,是有上限的。这就导致这些所谓的「长期记忆」模型在长期记忆上「打不过」只有短期记忆的 Transformer,因为 Transformer 可以通过堆硬件来解决,实现「长期记忆」。

    二是上下文记忆(上下文工程),即将模型需要知道的信息以 prompt 方式放在 Context Window 中,当模型开始推理之前可以先浏览一遍获取相应信息。Manus 是一家典型将上下文工程做到极致的公司,近期研究中不断强调在 Agent 交互过程中更好地做 KV cache 管理(KV cache 管理本质上就是一种记忆管理形式),尽可能让不同 Agent 之间能够复用一些「记忆」。

    但局限性也很明显,上下文工程是基于人类智慧来指挥,那当模型推理出错时就容易混淆,到底是上下文工程出错还是模型本身出错?当前并没有一个自动化机制来评判,所以最后上下文工程容易变成纯粹的工程事情。

    三是外部数据库 / RAG,即将信息存储在模型外部数据库中(如向量数据库),在需要时通过 RAG 将最相关内容取回,注入到当前 Context Window 中,为模型提供决策依据。

    从研究上来看,现有 RAG 最终目的是让模型每次搜索都一定返回正确结果,可即便是人类用搜索引擎也会经常修改关键词,所以难以保证搜索时能够找到自己想要的内容。为此,就不得不修改检索算法,但这也并非易事,甚至需要扩大团队规模来专门做这件事,最后往往变成大家都在做 RAG,并非模型本身,本末倒置。而且这显然也无法通过训练来实现模型整体性能提升,所以虽然看似工程上广泛使用,但上限低。

    很明显,每一条路线都有各自优势与局限性,短期内并没有一个最优解,有些玩家甚至选择的不是单一路线,而是探索多种路线的融合。

    王琰认为,这是由于当前技术路线还未收敛,按照各自路线进行探索与改进,都会带来一定程度上模型「记忆」能力的提升。因为大家诉求一致,「能够用尽量少的代价来记忆得尽量牢。」王琰说道,根据这一诉求,未来模型「记忆」能力无非就是在围绕记忆的压缩比与保真度这两个事情在做。

    同样,李志宇也这样认为,当前有关模型「记忆」的研究还处于早期阶段,各种路线的解题思路其实都是围绕如何用空间换时间,或者如何在有限的空间内提高模型整体的推理和应用效率。

    据了解,目前王琰及其所在团队正全力攻关具有 Inference Time Training 能力的新型模型架构,即在推理过程中不断的把过去历史储存到模型的参数区中,也就是参数化记忆。

    而相较于常规路线划分,李志宇更倾向于把上下文工程与 RAG + 外部数据库这种形式归为一类,因为它们更多是从应用层面解决记忆机制实现问题,且本质都是一种「外挂记忆」,上限比较明显。

    路线上则选择了一条折中方式,即将目前基模能落地的一部分加上应用工程创新能落地的一部分,两者相互结合,打造出一套能够解决问题的记忆框架,这也正是当前记忆张量在做的事情,并推出面向大模型的开源记忆操作系统 MemOS。

    谁能凭借「记忆」再造一个「DeepSeek」?

    虽然关于模型「记忆」能力的路线划分复杂、多样,但其实从玩家来看,当前业界主要有两类玩家。

    一类是像 OpenAI、Anthropic、Google 这类 AI 厂商,他们有自己 ToC 向 Chat 服务,在这一类的服务里面,他们更多是想通过引入「长短期记忆」能力来达成个性化服务目标。

    当然,可能各个厂商所要达成个性化能力本身会有差异,像是OpenAI 强调「全局记忆」,Anthropic 强调的是「局部记忆」按需使用,但本质诉求更多是想借助「记忆」的个性化能力来留住用户。

    另一类是「记忆」的中间件服务商,类似于 Mem0 或者记忆张量的 MemOS ,以及 Zep 等开源的记忆框架,它们更多是扮演大模型到应用层的中间件角色,面向更为广泛的开发者,希望开发者和相关应用产品能够体会到,类似于 OpenAI 在自己产品里面展现的「记忆」能力增强所带来的体验和性能变化。

    而围绕着两类玩家在模型「记忆」能力上的诉求不同,他们各自的商业模式也或将发生变化。

    比如对于 OpenAI 这样的大厂来说,他们的目标是让用户在自家的 APP 类产品上高频使用、形成越多越多的「记忆」,继而在自家 APP 上沉淀、形成粘性,之后一旦用户绑定,可能就很难再挪到其他地方去。从这个角度来说,他们希望用户能相对独立、在自家场景池子里沉淀出「独家记忆」。

    而对于初创企业来说,他们希望更多的开发者或企业能够快速去具备「记忆」能力,同时让大家形成一个可共享的记忆中枢,随着越来越多的 APP 联合去做记忆的共享、中枢的管理,就会形成对原有中心化的「去中心化」,同时也会形成一个新的中心化记忆平台。

    这种记忆平台或许能够立体刻画这个用户的所有事情,比如对用户在工作场景、生活场景的经历、偏好等,有一个立体记忆能力,而这种记忆是能够增强他在使用任何与 AI 相关 APP 上的体验。

    Mistral AI 的最新动作,无疑是这类玩家的一个典型代表,宣布免费、大幅扩展其企业级业务平台 Le Chat,并已经和 20 多家平台集成。而这一动作也被视为是在试图通过提供先进的「记忆」功能和广泛的第三方集成,来打破已有的 AI 市场竞争格局……

    由此看来,AI 战场已经升级,在新一轮围绕「记忆」能力构建的竞赛中,各类玩家是一个互相角力的状态,战况胶着,谁都有可能「跑」出来。而前面也已经提到,「记忆」能力,是模型技术层面和应用层的双重诉求,一旦取得突破性进展,那么无疑将再现「DeepSeek 时刻」「Manus 时刻」。

    而从当前 AI「记忆」能力的发展状况来看,目前留给各大玩家的时间也不是「很多」。

    按照李志宇的理解,如果将模型「记忆」能力按照抽取、存储、更新、调度、应用、治理六个维度划分,那我们可能距离真正能够在大范围去用,并且大家能够感受到它给我们生活带来无处不在变化的话,可能还需要一到两年的时间。

    而如果想要达到治理层面,也就是解决模型「记忆」本身的幻觉问题、隐私保障,甚至立法等问题的话,至少可能还要三到五年的时间。

    未来,到底是谁将再现「DeepSeek 时刻」,目前看来是「乾坤未定,一切皆有可能是黑马」。

    贊(3560)
    未經(jīng)允許不得轉(zhuǎn)載:>末大必折網(wǎng)»国内外AI大厂重押,初创梭哈,谁能凭记忆成为下一个DeepSeek?