

刚刷到一篇叫DeepAgent的论文,我感觉AI Agent这个领域可能真的要变天了。很多人都说这玩意儿是自从ReAct框架出来之后,最大的一次技术飞跃。
我看了下它的核心思路,真的有点东西。
以前的AI Agent,你多少都得给它预设一些工作流,或者给它一个固定的工具箱,告诉它能用什么。但DeepAgent完全不一样,它能自己思考、自己发现新工具、自己决定怎么行动,整个过程没有任何预设的脚本。
它引入了一个叫内存折叠(Memory Folding)的机制。这个机制的作用,就是让Agent能把过去所有的思考过程、行动记录,进行压缩和整理,然后分门别类地存放到结构化的记忆里,比如情节记忆、工作记忆、工具记忆。这个过程能让它在下一次思考之前,能有一个清晰、整理过的经验库。
他们还搞了个新的强化学习方法,叫ToolPO。这个东西牛逼的地方在于,它奖励Agent的标准不只是看你最后有没有完成任务,更重要的是看你在过程中是怎么使用工具的。
经过测试,DeepAgent在几乎所有的标准测试集上,都把GPT-4级别的Agent给打败了。
无论是WebShop、ALFWorld还是GAIA,全都领先。最关键的是,就算给它一些它从来没见过的开放工具,它也能上手就用,而且用得很好。
我觉得,这是我们第一次真正看到一个通用推理Agent的雏形。它能够像人一样运作,会记忆、会适应、会学习如何思考。以前的Agent更像是被设定好程序的机器人,而DeepAgent开始展现出一种自主学习和成GLISH成長的能力。
感觉AI Agent的时代,真的被提升到了一个全新的水平。?
#科技 #ai #人工智能 #商业 #互联网大厂 #互联网 #大模型 #大厂
我看了下它的核心思路,真的有点东西。
以前的AI Agent,你多少都得给它预设一些工作流,或者给它一个固定的工具箱,告诉它能用什么。但DeepAgent完全不一样,它能自己思考、自己发现新工具、自己决定怎么行动,整个过程没有任何预设的脚本。
它引入了一个叫内存折叠(Memory Folding)的机制。这个机制的作用,就是让Agent能把过去所有的思考过程、行动记录,进行压缩和整理,然后分门别类地存放到结构化的记忆里,比如情节记忆、工作记忆、工具记忆。这个过程能让它在下一次思考之前,能有一个清晰、整理过的经验库。
他们还搞了个新的强化学习方法,叫ToolPO。这个东西牛逼的地方在于,它奖励Agent的标准不只是看你最后有没有完成任务,更重要的是看你在过程中是怎么使用工具的。
经过测试,DeepAgent在几乎所有的标准测试集上,都把GPT-4级别的Agent给打败了。
无论是WebShop、ALFWorld还是GAIA,全都领先。最关键的是,就算给它一些它从来没见过的开放工具,它也能上手就用,而且用得很好。
我觉得,这是我们第一次真正看到一个通用推理Agent的雏形。它能够像人一样运作,会记忆、会适应、会学习如何思考。以前的Agent更像是被设定好程序的机器人,而DeepAgent开始展现出一种自主学习和成GLISH成長的能力。
感觉AI Agent的时代,真的被提升到了一个全新的水平。?
#科技 #ai #人工智能 #商业 #互联网大厂 #互联网 #大模型 #大厂
