Skip to content

Antfarm 模式:编排专业化智能体团队实现复合工程

Updated: at 05:00 AM

Antfarm 模式:编排专业化智能体团队实现复合工程

多智能体工作流如何将复合工程从理论变为实践


太长不看版

复合工程承诺带来 300-700% 的生产力提升,但大多数团队实际上难以做到。秘诀是什么?构建编排的 AI 智能体团队,其中每个智能体都有特定的角色、全新的上下文和清晰的交接。

Antfarm 通过以下方式使其变得实用:

  • 专业化智能体(规划者、开发者、验证者、测试者、审查者)
  • 防止退化的全新上下文
  • 自动重试和升级
  • 你真正可以信赖的确定性工作流

结果是?功能在几小时内而不是几周内发布,bug 更少,人工劳动更少。

在本文中,我将介绍你今天就可以使用的真实模式——包括具体的 YAML 示例、在生产环境中运行这些工作流的经验教训,以及诚实地看待困难之处。


我曾经经历过

几个月前,我试图用单个 AI 智能体构建一个功能。开始时很顺利——生成代码、运行测试、取得进展。但随着对话的增长,事情变得……混乱。

智能体会:

  • 忘记早期的决定
  • 引入它已经修复过的回归问题
  • 对修改了哪些文件感到困惑
  • 因为”快完成了”而在测试上偷工减料

我花更多时间照看 AI 而不是实际构建。复合工程的承诺——300-700% 的速度提升——感觉很遥远。

然后我发现了多智能体模式。这种转变是天壤之别。

我没有让一个通才智能体做所有事情,而是拆分了工作:

  • 一个智能体规划和分解
  • 另一个实现
  • 第三个验证
  • 第四个测试
  • 最后一个审查

每个都获得全新的会话、清晰的期望和明确的验收标准。

区别是什么?第一个功能在45 分钟内发布,零人工干预。那一刻我知道这是未来。


为什么多智能体胜过单智能体

在深入 Antfarm 之前,让我们谈谈为什么专业化对 AI 智能体很重要。

上下文退化问题

LLM 有一个记录良好的问题:随着对话变长,它们开始失去重点。你见过这种情况——50 条消息后,模型开始产生幻觉,忘记你们达成的一致,犯粗心的错误。

Ralph Loop 通过每次迭代重新开始解决了这个问题。但使用单个智能体在一个长会话中做所有事情,你最终还是会撞墙。

Antfarm 的洞察: 每个步骤都有自己的干净会话。除了 git 和进度文件外没有共享内存。没有上下文腐烂。智能体只看到它此刻需要看到的内容。


专业化强制执行纪律

当一个智能体试图同时实现验证时,它会被诱惑:

  • 在没有彻底检查的情况下将自己的工作标记为”完成”
  • 跳过边界情况因为”可能没问题”
  • 降低自己的标准以满足截止日期

使用独立的智能体,验证者的唯一工作就是说”这不够好”(如果确实不够好)。测试者为发现失败模式而生。审查者在所有故事中应用一致的标准。

这不仅仅是关于质量——这是关于反馈完整性。每个步骤都为下一个提供诚实、不受损害的反馈。


并行化而不混乱

在传统团队中,并行工作会导致合并冲突、集成地狱和沟通开销。使用 Antfarm,每个智能体都在自己的分支式隔离中工作,然后将验证过的工件传递给下游。

你可以并行运行多个故事(如果它们是独立的),工作流确保干净的交接。不再有”等待后端”,因为后端智能体已经完成了。


真实工作流:功能开发

让我们看看 Antfarm 附带的 feature-dev 工作流:

steps:
  - id: plan
    agent: planner
    input: |
      将这个功能请求分解为离散的、可实现的故事。
      每个故事必须有清晰的验收标准。
      回复 STATUS: done 和 STORIES: [带标准的故事列表]

  - id: setup
    agent: setup
    input: |
      为实施准备工作区。
      安装依赖项,配置环境。
      准备就绪后回复 STATUS: done。

  - id: implement
    agent: developer
    input: |
      实现 {{plan}} 中下一个未完成的故事。
      遵循项目的架构模式。
      在标记完成前运行类型检查和 lint。
      回复 STATUS: done 和 FILES_CHANGED: [列表]

  - id: verify
    agent: verifier
    input: |
      根据 {{plan}} 中的验收标准验证实现。
      代码是否真的满足要求?
      如果验证通过回复 STATUS: done,否则回复 STATUS: retry 并附带反馈。

  - id: test
    agent: tester
    input: |
      运行项目的测试套件。
      为新功能添加回归测试。
      确保所有测试通过。
      测试通过后回复 STATUS: done。

  - id: pr
    agent: developer
    input: |
      为变更创建拉取请求。
      包括摘要、测试说明和截图(如适用)。
      回复 STATUS: done 并附带 PR URL。

  - id: review
    agent: reviewer
    input: |
      审查 PR 的代码质量、安全性、性能。
      请求变更或批准。
      回复 STATUS: approved 或 STATUS: changes-requested 并附带反馈。

这就是行动中的复合工程——每个步骤都有清晰的交接、验收标准和自动验证。在前一个步骤成功之前,没有步骤会前进。


人工接触(因为我们还没到那一步)

让我诚实一点:这些工作流不是魔法。我运行过足够多次,知道它们在哪里发光,在哪里绊倒。

运作完美的:

  • 具有清晰规范的直接功能
  • 具有可重现步骤的 bug 修复
  • 针对已知边界情况的测试生成
  • 文档更新

仍然挣扎的:

  • 探索性工作(智能体需要的上下文比你提供的更多)
  • 复杂的架构决策(需要人工判断)
  • 训练分布之外的新颖问题
  • 需要真正创造力而非模式匹配的任何事情

最佳点?规范明确、有界任务。你能将工作分解为离散的、可验证的故事越多,Antfarm 的表现就越好。

我的经验法则: 如果你能用一个清晰的句子描述完成状态,Antfarm 可能就能构建它。


设计你自己的工作流程

你不仅限于捆绑的工作流。Antfarm 的力量在于为你的特定需求定义自定义智能体团队

从简单开始

不要试图在第一天就构建一个 7 步工作流。从以下开始:

  1. planimplementreview

让它端到端工作。然后添加 verify,然后 test,然后 pr。每个步骤都应该证明它的价值。

角色很重要

每个智能体的 AGENTS.md 定义其个性和约束:

# 验证者智能体

你是一位持怀疑态度的高级 QA 工程师。你的工作是在工作真正完成之前说"不"。

## 指南
- 检查计划中的每个验收标准
- 如果可能,自己运行代码
- 验证边界情况已处理
- 没有证据不接受"在我的机器上可以工作"

## 输出格式
STATUS: done | retry
FEEDBACK: [详细的、具体的反馈(如果重试)]

清晰、有界的角色帮助 AI 保持角色并做你需要的工作。


交接是一切

魔法在于 {{plan}}{{verify}} 引用——每个步骤接收上一步骤的实际输出,而不仅仅是摘要。这创建了一个证据链,确保没有东西在翻译中丢失。

如果规划者说”使用 bcrypt 实现用户认证”,验证者会看到实际的实现并可以检查:“真的使用了 bcrypt 吗?密码加盐了吗?有限速吗?”

这不仅仅是自动化——这是可审计、可重复的工程


重要的指标

你如何知道你的复合工程设置是否真的有效?跟踪这些:

指标目标为什么重要
每个故事的周期时间< 30 分钟测量实际速度
一次性成功率> 70%高率 = 好的规范和智能体
人工接触率< 20%低率 = 智能体理解标准
升级率< 5%低率 = 工作流设计良好

如果你的升级率很高,你的工作流太复杂或者你的智能体需要更好的提示。如果一次性成功率低,你的验收标准模糊。


更大的图景:这就是我们扩展的方式

我确信多智能体编排是在大规模实现真正复合工程的唯一方法。单智能体工作流会达到平台期。纯人工团队会遇到人数限制。但智能体团队?

  • 水平扩展:添加更多智能体,而不是更多人
  • 24/7 工作:没有疲劳,没有上下文切换
  • 一致的质量:每个步骤都遵循相同的护栏
  • 廉价迭代:重新生成一个故事只需几分钱

这不是取代工程师——这是解放工程师,使他们摆脱编写样板代码、编写基本测试和审查琐碎变更的低杠杆工作。

获胜的工程师将是那些能够设计、编排和改进这些智能体系统的人——而不是那些自己编写最多代码的人。

这就是复合工程思维。


今天开始

如果你想尝试:

  1. 安装 Antfarm(查看他们的 README
  2. 运行示例antfarm workflow run feature-dev "添加暗模式切换"
  3. 查看仪表板http://localhost:3333
  4. 调整智能体角色以匹配你的项目
  5. 发布你的第一个 AI 构建功能,零实现工作

一旦你感受到智能体团队的速度——就是……有效……就无法回头了。


进一步阅读


我是 Vinci Rufus,探索智能体 AI 和复合工程的交叉点。我撰写关于构建可靠、高速 AI 系统的内容。在 Twitter @areai51 上关注我,或在 vincirufus.com 阅读更多内容。


Previous Post
AI现实检验——最新劳动力市场数据对你的职业生涯意味着什么
Next Post
ChatGPT 不是 LLM - GPT 才是