发布信息

字节新多模态Agent框架!让AI拥有长期记忆

作者:本站编辑      2025-11-03 11:54:29     8
字节新多模态Agent框架!让AI拥有长期记忆

字节新多模态Agent框架!让AI拥有长期记忆

字节新多模态Agent框架!让AI拥有长期记忆

字节新多模态Agent框架!让AI拥有长期记忆

字节新多模态Agent框架!让AI拥有长期记忆

字节新多模态Agent框架!让AI拥有长期记忆

研究介绍了一个新颖的多模态智能体框架—M3-Agent,其配备长期记忆能力,可以处理听觉/视觉输入来构建情景记忆,同时利用语义记忆来积累世界知识;
⭐️M3-Agent能够自主执行多轮推理并检索相关信息来完成任务;在各种长视频问答基准测试中,M3-Agent始终优于所有基线,准确率提升了5-7%;

?M3-Agent通过两个持续运行的流程来运作:记忆化流程和控制流程;
⭐️记忆化流程: 持续感知实时多模态输入,以构建和更新长期记忆;其分为两部分:
- 情景记忆:记录在观察到的具体事件;
- 语义记忆 :记录提炼出来的通用知识;
记忆条目被组织为记忆图,每个节点包含ID、模态类型、原始内容、嵌入向量、权重和时间戳等元数据;
⭐️Agent配备了一套外部工具,如人脸识别,声音识别等;用于提取多模态数据中的面部和声音特征;

⭐️控制流程: 解释外部指令,对存储的记忆进行检索推理,执行相应的任务;
-接收到外部指令后,Agent会生成包含系统提示和指令提示的轨迹;
- 设定最多执行次数,在每轮问答中,生成响应,解析为:「Search」或「Answer」
- 「Search」则自主调用搜索工具,如search_clip:检索视频片段;search_node:检索相关节点;将检索结果附到轨迹中,供推理使用;
-
[Answer]: 流程结束,返回最终答案

⭐️通过这样多轮迭代的推理和检索机制,M3-Agent能够有效地利用其长期记忆来回答复杂的长视频问答任务;

?M3-Agent有哪些亮点:
- 创新的长期记忆架构:解决了传统方法处理长视频时面临的计算限制和效率问题;
- 类似人的记忆生成机制;
- 多轮迭代推理:M3-Agent采用RL进行训练,能够自主执行多轮、迭代式的推理和记忆检索;
- 超越强大基线: M3-Agent在长视频基准测试中,始终优于所有基线,包括主流模型;相较于最强大的基线提升5%-7%;
#chatgpt应用领域 #AI人工智能 #ai论文 #ai研究 #大模型

相关内容 查看全部