构建高效的Agent[译文&笔记]

📅 2025-01-15 | 🖱️

原文: Building effective agents, 作者: Anthropic, Dec 20, 2024
https://www.anthropic.com/research/building-effective-agents

过去一年，我们与数十个团队合作，构建了跨行业的大型语言模型(LLM)智能体。我们发现，最成功的实现并没有使用复杂的框架或专门的库，而是使用简单、可组合的模式构建的。

在这篇文章中，我们将分享我们与客户合作以及自行构建智能体的经验，并为开发人员提供构建有效智能体的实用建议。

1.什么是智能体(Agent)？ #

“智能体”可以用多种方式定义:

一些客户将智能体定义为完全自主的系统，它们可以长时间独立运行，并使用各种工具来完成复杂的任务。
其他人则使用该术语来描述遵循预定义**工作流(workflows)**的更具规范性的实现。

在Anthropic，我们将所有这些变体都归类为智能体系统(agentic systems)，但在工作流(workflows) 和智能体(agents) 之间做出了重要的架构区分：

工作流(workflows) 是通过预定义的代码路径来协调LLM和 工具(tools) 的系统。
智能体(agents) 则是LLM动态地指导其自身流程和工具使用的系统，并保持对其如何完成任务的控制。

下面，我们将详细探讨这两种类型的智能体系统。在附录1（“实践中的智能体”）中，我们描述了客户发现使用这些类型的系统特别有价值的两个领域。

2.何时(以及何时不)使用智能体 #

在使用LLM构建应用程序时，我们建议找到尽可能简单的解决方案，仅在需要时才增加复杂性。这可能意味着根本不需要构建智能体系统。智能体系统通常以延迟和成本换取更好的任务表现，你应该考虑这种权衡何时有意义。

当需要更高的复杂性时，工作流为定义明确的任务提供可预测性和一致性，而当需要大规模的灵活性和模型驱动的决策时，智能体是更好的选择。然而，对于许多应用程序来说，使用检索(retrieval)和上下文示例(in-context examples)优化单个LLM调用通常就足够了。

3.何时以及如何使用框架 #

有许多框架可以使智能体系统更易于实现，包括：

LangChain的LangGraph
Amazon Bedrock的AI Agent framework
Rivet，一个拖放式GUI LLM工作流程构建器
Vellum，另一个用于构建和测试复杂工作流程的GUI 工具。

这些框架通过简化标准底层任务（例如调用LLM、定义和解析工具以及将调用链接在一起）使入门变得容易。但是，它们通常会创建额外的抽象层，这些抽象层可能会掩盖底层的提示和响应，从而使其更难调试。它们也可能使人们倾向于在简单的设置就足够的情况下添加复杂性。

我们建议开发人员首先直接使用LLM API：许多模式可以用几行代码实现。如果你确实使用框架，请确保你了解底层代码。对底层代码的错误假设是客户错误的常见来源。

请参阅我们的cookbook以获取一些示例实现。

4.“构建块(building blocks)"、“工作流(workflows)“和"智能体(agents)” #

在本节中，我们将探讨我们在生产中看到的智能体系统的常见模式。我们将从我们的基本构建块(bocks)——增强型LLM开始，并逐步增加复杂性，从简单的组合工作流程到自主智能体。

4.1 构建块:增强型LLM(The augmented LLM) #

智能体系统的基本构建模块是使用增强功能(例如检索retrieval、工具tools和记忆memory)增强的LLM。我们目前的模型可以主动使用这些功能——生成它们自己的搜索查询、选择适当的工具以及确定要保留的信息。

图1:增强型大模型

我们建议关注实现的两个关键方面：

针对你的特定用例定制这些功能，并确保它们为你的LLM提供简单、文档完善的接口。
虽然有很多方法可以实现这些增强功能，但一种方法是通过我们最近发布的模型上下文协议，该协议允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统集成。

在本文的剩余部分，我们将假设每个LLM调用都可以访问这些增强功能。

4.2 工作流:提示链(Prompt chaining) #

提示链将任务分解为一系列步骤，其中每个LLM调用处理前一个调用的输出。你可以在任何中间步骤添加程序化检查(请参阅下图中的“门控gate”)，以确保流程仍在正轨上。

图2:提示链(Prompt chaining)

何时使用：此工作流非常适合可以轻松、清晰地分解为固定子任务的情况。主要目标是通过使每个LLM调用成为一个更简单的任务来权衡延迟以获得更高的准确性。

Prompt chaining有用的示例：

生成营销文案，然后将其翻译成另一种语言。
编写文档大纲，检查大纲是否符合某些标准，然后根据大纲编写文档。

4.3 工作流:路由(Routing) #

路由对输入进行分类，并将其定向到专门的后续任务。此工作流程允许关注点分离，并构建更专业的提示。如果没有此工作流程，针对一种类型的输入进行优化可能会损害其他输入的性能。

图3:路由(Routing)

何时使用：路由适用于存在最好单独处理的不同类别，并且可以通过LLM或更传统的分类模型/算法准确处理分类的复杂任务。

路由有用的示例：

将不同类型的客户服务查询(一般问题、退款请求、技术支持)定向到不同的下游流程、提示和工具。
将简单/常见的问题路由到像Claude 3.5 Haiku这样的小型模型，将困难/不寻常的问题路由到像Claude 3.5 Sonnet这样功能更强大的模型，以优化成本和速度。

4.3 工作流:并行化(Parallelization) #

LLM有时可以同时处理一项任务，并以编程方式聚合它们的输出。并行化以两种主要变体形式表现出来：

分段(Sectioning)：将任务分解为并行运行的独立子任务。
投票(Voting)：多次运行同一任务以获得不同的输出。

图4:并行化(Parallelization)

何时使用：当可以并行化划分的子任务以提高速度，或者当需要多个视角或尝试以获得更高的置信度结果时，并行化是有效的。对于具有多个考虑因素的复杂任务，当每个考虑因素由单独的 LLM 调用处理时，LLM 通常表现更好，从而可以专注于每个特定方面。

并行化有用的示例：

分段：
- 实施护栏，其中一个模型实例处理用户查询，而另一个模型实例筛选它们以查找不适当的内容或请求。这往往比让同一个 LLM 调用同时处理护栏和核心响应表现更好。
- 自动化评估以评估 LLM 性能，其中每个 LLM 调用评估模型在给定提示下性能的不同方面。
投票：
- 审查一段代码是否存在漏洞，其中几个不同的提示审查代码并在发现问题时标记代码。
- 评估给定内容是否不适当，使用多个提示评估不同方面或需要不同的投票阈值以平衡误报和漏报。

4.4 工作流:协调者-工作者(Orchestrator-workers) #

在协调者-工作者工作流程中，中央LLM动态地分解任务，将其委派给工作者LLM，并综合它们的结果。

图5:协调者-工作者(Orchestrator-workers)

何时使用：此工作流程非常适合你无法预测所需子任务的复杂任务（例如，在编码中，需要更改的文件数量以及每个文件中更改的性质可能取决于任务）。虽然在形式上相似，但与并行化的关键区别在于其灵活性——子任务不是预定义的，而是由协调者根据特定输入确定的。

协调者-工作者有用的示例：

每次都对多个文件进行复杂更改的编码产品。
涉及从多个来源收集和分析信息以查找可能的关联信息

4.5 工作流:评估者-优化者(Evaluator-optimizer) #

在评估者-优化者工作流程中，一个LLM调用生成响应，而另一个LLM调用在循环中提供评估和反馈。

图6:评估者-优化者(Evaluator-optimizer)

何时使用：当我们有明确的评估标准，并且迭代改进提供可衡量的价值时，此工作流程尤其有效。两个很好的适用迹象是：

首先，当人类清楚地表达他们的反馈时，LLM响应可以得到明显的改进；
其次，LLM可以提供此类反馈。这类似于人类作家在创作润色后的文档时可能经历的迭代写作过程。

评估者-优化者有用的示例：

文学翻译，其中存在翻译LLM最初可能无法捕捉到的细微差别，但评估者LLM可以提供有用的评论。
需要多轮搜索和分析以收集全面信息的复杂搜索任务，其中评估者决定是否需要进一步搜索。

4.6 智能体(Agents) #

随着LLM在关键功能（理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复）方面的成熟，智能体正在生产中涌现。智能体以人类用户的命令或交互式讨论开始其工作。一旦任务明确，智能体就会独立计划和操作，可能会返回给人类以获取更多信息或判断。在执行过程中，智能体必须在每个步骤（例如工具调用结果或代码执行）从环境中获得“真实信息”以评估其进度，这一点至关重要。然后，智能体可以在检查点或遇到障碍时暂停以获取人工反馈。任务通常在完成后终止，但通常也包括停止条件（例如最大迭代次数）以保持控制。

智能体可以处理复杂的任务，但它们的实现通常很简单。它们通常只是基于循环中环境反馈使用工具的LLM。因此，清晰周到地设计工具集及其文档至关重要。我们在附录2（“工具的提示词工程”）中扩展了有关工具开发的最佳实践。

图7:自主智能体

何时使用：智能体可用于难以或不可能预测所需步骤数量，并且无法硬编码固定路径的开放性问题。LLM 可能会运行很多轮，你必须对其决策制定有一定的信任度。智能体的自主性使其非常适合在受信任的环境中扩展任务。

智能体的自主性意味着更高的成本，以及潜在的累积错误。我们建议在沙盒环境中进行广泛的测试，并采取适当的保护措施。

智能体有用的示例，以下示例来自我们自己的实现：

用于解决涉及根据任务描述对多个文件进行编辑的SWE-bench tasks的编码智能体；
我们的“computer use” reference implementation，其中Claude使用computer来完成任务。

图8:Coding Agent

4.7 组合和自定义这些模式 #

这些构建块不是规定性的。它们是开发人员可以塑造和组合以适应不同用例的常见模式。与任何LLM功能一样，成功的关键是衡量性能并迭代实现。再次重申：你应该仅在它能够明显改善结果时才考虑增加复杂性。

总结 #

在LLM领域取得成功并不在于构建最复杂的系统。而在于构建适合你需求的系统。从简单的提示开始，通过全面的评估对其进行优化，并且仅在更简单的解决方案不足时才添加多步骤智能体系统。

在实施智能体时，我们尝试遵循三个核心原则：

保持智能体设计的简洁性。
通过明确显示智能体的规划步骤来优先考虑透明度。
通过全面的工具文档和测试来精心设计你的智能体-计算机接口(ACI)。

框架可以帮助你快速入门，但当你转向生产时，请不要犹豫，减少抽象层并使用基本组件进行构建。通过遵循这些原则，你可以创建不仅功能强大，而且可靠、可维护并受到用户信任的智能体。

致谢 #

由Erik Schluntz和Barry Zhang 撰写。这项工作借鉴了我们在Anthropic构建智能体的经验以及我们客户分享的宝贵见解，对此我们深表感谢。

附录1：实践中的智能体 #

我们与客户的合作揭示了 AI 智能体的两个特别有前景的应用，它们展示了上述模式的实际价值。这两个应用都说明了智能体如何为需要对话和操作、具有明确的成功标准、支持反馈循环以及整合有意义的人工监督的任务增加最大价值。

A. 客户支持

客户支持通过工具集成将熟悉的聊天机器人界面与增强功能相结合。这非常适合更开放的智能体，因为：

支持交互自然地遵循对话流程，同时需要访问外部信息和操作；
可以集成工具以提取客户数据、订单历史记录和知识库文章；
可以以编程方式处理诸如发出退款或更新工单之类的操作；
可以通过用户定义的解决方案清楚地衡量成功。

一些公司已经通过仅对成功解决方案收费的基于使用量的定价模式证明了这种方法的可行性，这表明了他们对智能体有效性的信心。

B. 编码智能体

软件开发领域已经显示出LLM 功能的巨大潜力，其功能从代码完成发展到自主解决问题。智能体尤其有效，因为：

代码解决方案可以通过自动化测试进行验证；
智能体可以使用测试结果作为反馈来迭代解决方案；
问题空间是定义明确且结构化的；
可以客观地衡量输出质量。

在我们自己的实现中，智能体现在可以仅根据拉取请求描述来解决SWE-bench Verified基准中的实际GitHub 问题。但是，虽然自动化测试有助于验证功能，但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。

附录2：工具的提示词工程 #

无论你构建哪种智能体系统，工具都可能是你智能体的重要组成部分。“工具”使 Claude 能够通过在我们 API 中指定其确切的结构和定义来与外部服务和 API 交互。当 Claude 响应时，如果它计划调用工具，它将在 API 响应中包含一个“工具使用块”。工具定义和规范应像你的整体提示一样受到提示工程的关注。在这个简短的附录中，我们将描述如何提示工程你的工具。

通常有几种方法可以指定相同的操作。例如，你可以通过编写差异来指定文件编辑，或者通过重写整个文件来指定文件编辑。对于结构化输出，你可以将代码返回到Markdown或JSON 中。在软件工程中，此类差异是表面性的，可以从一种格式无损地转换为另一种格式。但是，某些格式对于LLM来说比其他格式更难编写。编写差异需要在编写新代码之前知道块标头中有多少行在更改。与Markdown相比，在 JSON 中编写代码需要对换行符和引号进行额外的转义。

我们关于决定工具格式的建议如下：

给模型足够的token 来“思考”，然后再把自己逼到死角。
使格式接近模型在互联网上的文本中自然看到的格式。
确保没有格式“开销”，例如必须准确计算数千行代码，或转义它编写的任何代码。

一个经验法则是考虑在人机界面 (HCI) 中投入了多少精力，并计划在创建良好的智能体-计算机界面 (ACI) 中投入同样多的精力。以下是一些关于如何做到这一点的想法：

设身处地为模型着想。基于描述和参数，使用此工具是否显而易见，或者你是否需要仔细考虑？如果是这样，那么对于模型来说可能也是如此。一个好的工具定义通常包括示例用法、边缘情况、输入格式要求以及与其他工具的清晰界限。
你如何更改参数名称或描述以使事情更清晰？将其视为为团队中的初级开发人员编写出色的文档字符串。当使用许多类似的工具时，这一点尤其重要。
测试模型如何使用你的工具：在我们的工作台中运行许多示例输入，以查看模型犯了哪些错误，并进行迭代。
防止你的工具出错。更改参数，使其更难犯错。

在为SWE-bench构建我们的智能体时，我们实际上花费了比整体提示更多的时间来优化我们的工具。例如，我们发现模型在使用相对文件路径的工具时会犯错误，因为智能体已移出根目录。为了解决这个问题，我们将工具更改为始终需要绝对文件路径——我们发现模型完美地使用了这种方法。