构建多智能体研究系统

AI系统的演变已经到了一个 fascinating inflection point，single-agent approaches 正在 hitting their limits。进入多智能体系统——其中多个AI智能体协作解决超越单个智能体能力的复杂问题的架构。本文探讨构建生产就绪多智能体研究系统的技术原则、架构决策和 hard-won lessons。

多智能体架构的理由

研究任务 embodies the perfect storm of complexity 使它们成为多智能体系统的理想候选者。与确定性工作流不同，研究涉及：

不可预测的探索路径其中下一步取决于当前发现
跨多个源和领域的并行信息收集
基于中间发现的动态策略适应
上下文需求经常超出单个智能体容量

根本洞察是研究 mirrors human collaborative investigation。正如人类研究团队 divide labor, pursue parallel tracks, and synthesize findings，多智能体系统可以利用这种自然的分解。

我们的内部评估展示了这种方法的威力：使用Claude Opus 4作为编排器、Claude Sonnet 4子智能体的多智能体系统在研究任务上比 single-agent Claude Opus 4 实现了 90.2% 更好的性能。这种改进源于三个解释 95% 性能变异的关键因素：

Token预算利用（80%的变异）
工具调用频率
模型选择

该架构通过将工作 distribution across agents with separate context windows 有效地扩展 token usage，实现单个智能体无法达到的并行推理。

架构模式和设计决策

编排器-工作者模式

核心架构遵循 orchestrator-worker pattern，其中 lead agent coordinates the research process while delegating to specialized subagents。此模式提供 several advantages：

这种模式与Antfarm模式中描述的专业化智能体团队理念一致，每个智能体都有特定的角色和职责。

关注点分离：每个子智能体专注于研究的特定方面
并行执行：多个子智能体可以同时工作
上下文隔离：每个智能体维护自己的上下文窗口
故障隔离：一个子智能体的问题不会级联到其他

动态 vs 静态检索

传统 RAG 系统使用静态检索——获取与输入查询相似的 chunks。多智能体研究系统使用动态检索：

根据中间发现 adapt search strategies
基于结果质量 iteratively refine queries
探索在调查过程中出现的 tangential connections
跨多次搜索迭代 synthesize information

处理管道

系统遵循结构化管道：

查询分析：主导智能体分析用户查询并制定初始策略
子智能体生成：主导智能体创建具有特定目标的专门子智能体
并行搜索：子智能体使用不同工具和策略执行搜索
综合：主导智能体整合发现并确定是否需要额外研究
引用处理：专用引用智能体确保适当的来源 attribution
结果交付：最终研究结果与引用返回给用户

多智能体协调的提示工程

多智能体系统引入了需要 sophisticated prompt engineering 的协调复杂性。关键原则包括：

智能体心智模型

理解智能体如何 interpret and execute prompts 至关重要。我们使用生产系统中完全相同的提示和工具构建模拟，允许我们 observe agent behavior step-by-step。这揭示了失败模式如：

智能体在 already obtained sufficient results 时继续工作
过于冗长的搜索查询降低了 effectiveness
错误选择和特定任务不匹配的工具

委托策略

编排器必须向子智能体提供清晰、详细的 instructions包括：

清晰的目标：要查找的特定信息
输出格式：如何结构和展示发现
工具指导：使用哪些工具以及何时使用
任务边界：什么 not to investigate 以避免重叠

模糊的 instructions like “research the semiconductor shortage” 导致重复工作和调查 misaligned。具有明确劳动分工的具体 instructions proved essential。

努力扩展启发式方法

智能体 struggle to judge appropriate effort levels，所以我们嵌入了明确的扩展规则：

简单的事实查找：1个智能体，3-10次工具调用
直接比较：2-4个子智能体，每次10-15次调用
复杂研究：10+ 具有明确划分职责的子智能体

工具接口设计

智能体-工具接口与人类计算机接口一样关键。有效的工具设计需要：

独特的目的：每个工具应有清晰、独特的功能
质量描述：工具需要准确、comprehensive documentation
使用启发式：关于何时以及如何使用每个工具的明确指导
错误处理：在工具失败时优雅降级

我们发现Claude 4模型擅长 improving tool descriptions——当给一个 flawed tool 和 failure examples 时，它们可以 diagnose issues and suggest improvements，导致 40% faster task completion。

搜索策略模式

有效的搜索策略 mirror expert human research：

从宽开始，再收窄：先使用短、通用查询，然后再深入 specific
评估 landscape：在承诺特定方向之前评估什么信息可用
渐进精炼：使用结果 inform subsequent searches

思考过程指导

扩展思考模式作为智能体可控的草稿本：

主导智能体使用思考来规划方法、评估工具和定义子智能体角色
子智能体使用交错思考来评估结果质量、识别差距和精炼查询
所有智能体受益于 improve instruction-following 的明确推理链

多智能体系统的评估策略

评估多智能体系统带来独特挑战，因为智能体可能采取不同的有效路径到达同一目标。当”correct” steps 不是 predetermined 时，传统的逐步评估 breakdowns。

灵活的评估方法

而不是 prescriptive step checking，专注于：

基于结果的评估：系统是否 achieve the intended goal？
过程合理性：给定上下文采取的步骤是否 sensible？
资源效率：系统是否使用了适当的 effort levels？

使用小样本快速迭代

在开发早期，changes have dramatic impacts。效果 sizes 很大 enough (30% a 80% success rate improvements) que small test sets of 20 queries 可以清楚地显示 changes 的影响。不要等待大型评估套件——用代表性示例立即开始测试。

LLM-as-Judge 评估

对于自由形式的研究输出，LLM judges 提供跨多个 criteria 的可扩展评估：

事实准确性：声称是否 match sources？
引用准确性：cited sources 是否支持声称？
完整性：是否覆盖了所有请求的方面？
来源质量：是否使用了权威来源？
工具效率：是否使用了适当的工具？

输出 0.0-1.0 scores 的单个 LLM call 比多个 specialized judges 更 consistent。

边缘案例的人工评估

人工测试仍然是 catching 必不可少的：

幻觉答案在 unusual queries 上
系统故障未 captured in automated tests
微妙的偏见在 source selection 中
涌现行为来自智能体 interactions

人工测试者识别了我们早期智能体偏向 SEO-optimized content farms over authoritative sources，导致 improved source quality heuristics。

生产工程挑战

从原型到生产引入了多智能体系统 unique production engineering challenges。

有状态执行和错误处理

多智能体系统在长时间运行的流程中维护状态，使错误 handling critical：

持久执行：系统必须 graceful handling failures 而不失去进度
智能恢复：使用模型 intelligence to adapt when tools fail
检查点系统：启用从 failure points 恢复而不是 complete restarts
重试逻辑：实现 deterministic safeguards alongside adaptive intelligence

调试和可观察性

Non-deterministic agent behavior makes debugging challenging：

全生产跟踪：跟踪智能体决策和工具使用
模式监控：观察智能体决策 patterns and interaction structures
隐私保护的 observability：监控系统行为 sin acceso a conversation content
根本原因分析：区分 systematic issues and edge cases

部署协调

有状态多智能体系统需要 careful deployment strategies：

彩虹部署：逐渐将流量从旧版本转移到新版本
状态 preservation：确保运行的智能体不被 updates 中断
版本兼容性：维护进行中研究的 backward compatibility

并行化瓶颈

当前的同步执行创建 limitations：

顺序协调：主导智能体等待子智能体完成
有限的 steering：无对子智能体方向的 mid-process adjustments
阻塞操作：单个慢速子智能体阻塞整个系统

未来的异步执行可能启用额外的并行性但 introduces complexity in result coordination and state consistency。

性能特征和权衡

多智能体系统带来显著的性能权衡：

Token使用扩展

单个智能体：基线 token 使用
智能体系统：~4× 比聊天交互更多 tokens
多智能体系统：~15× 比聊天交互更多 tokens

这种扩展需要 careful consideration of economic viability and task value。

速度改进

尽管 token usage 更高，parallelization 提供 dramatic speed improvements：

并行子智能体创建：3-5 个子智能体同时生成
并行工具使用：每个子智能体使用 3+ tools concurrently
时间减少：对于复杂查询 up to 90% faster completion

最佳用例

多智能体系统 excel at：

高价值任务其中 increased performance justifies cost
可并行工作具有独立子任务
跨多个来源的信息综合
复杂的工具编排需要专门的接口

它们不太适合：

共享上下文需求其中所有智能体需要相同信息
高度依赖任务具有紧密协调要求
实时协作工作需要 immediate inter-agent communication

未来方向和新兴模式

随着多智能体系统成熟，几种模式正在 emergence：

基于工件的通信

直接的子智能体输出到外部系统可以绕过协调器瓶颈：

文件系统输出：子智能体在外部系统中存储工作
轻量级引用：协调者接收指针而不是完整内容
专门的提示：针对特定输出类型优化的子智能体
减少 token overhead：避免通过对话历史复制大输出

记忆和上下文管理

长视距对话需要 sophisticated memory strategies：

阶段摘要：在继续之前压缩已完成的工作
外部记忆：在上下文窗口外存储 essential information
新鲜上下文生成：创建具有 clean contexts 的新子智能体
智能交接：跨上下文边界保持连续性

涌现的协作模式

多智能体系统发展出 unexpected interaction patterns：

隐式协调：智能体 develop working relationships 而无需 explicit programming
自适应劳动分工：基于智能体能力的动态任务分配
集体智能：从智能体 interactions 中涌现的系统级洞察

多智能体系统构建者的课程

基于我们的生产经验，这里是 key recommendations：

从清晰架构模式开始：Orchestrator-worker 提供稳固基础
在提示工程上大量投资：智能体协调 primarily a prompting challenge
早期构建可观察性：理解智能体行为对调试至关重要
拥抱快速迭代：小测试集可以揭示 large effect sizes
为失败设计：多智能体系统 amplify both successes and failures
考虑经济权衡：Token usage scales significantly with agent count
专注于高价值用例：确保任务价值 justifies system complexity

结论

多智能体研究系统代表了AI能力的显著进化，使单个智能体无法处理的问题成为可能。架构需要 careful attention to coordination, evaluation, and production engineering，但结果为适当的用例 justified complexity。

关键洞察是智能通过协作扩展，不仅仅是通过个体能力。正如人类社会通过集体智能 becomes exponentially more capable，多智能体AI系统 can achieve performance levels que individual agents cannot reach。

随着模型继续改进和协调机制成熟，我们 expect multi-agent systems to become increasingly important for complex, open-ended tasks que require 那种灵活的、适应性智能 emerge from collaborative problem-solving。

AI的未来不只在于使单个智能体更 smart，而在于 orchestrate them to work together effectively。多智能体研究系统只是这个 collaborative intelligence revolution 的开始。

这篇文章基于构建生产多智能体研究系统的见解。有关 implementation details and example prompts，see Anthropic Cookbook。

进一步阅读

单智能体 vs 多智能体AI系统 — 架构选择的权衡
Antfarm模式：编排专业化智能体团队 — 编排器的实际实现
AI智能体的可靠性鸿沟 — 多智能体系统的可靠性考量
模型上下文协议——真正自主AI的基础 — 工具接口标准化
提示词工程——构建可靠智能体工作流的必备技能 — 委托策略的提示工程