AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

基本信息

arXiv ID: 2308.08155
作者: Qingyun Wu, Gagan Bansal, Jieyu Zhang, Yiran Wu, Beibin Li, Erkang Zhu, Li Jiang, Xiaoyun Zhang, Shaokun Zhang, Jiale Liu, Ahmed Hassan Awadallah, Ryen W White, Doug Burger, Chi Wang
分类: cs.AI, cs.CL, cs.AI
导入类型: url

摘要

AutoGen is an open-source framework that allows developers to build LLM applications via multiple agents that can converse with each other to accomplish tasks. AutoGen agents are customizable, conversable, and can operate in various modes that employ combinations of LLMs, human inputs, and tools. Using AutoGen, developers can also flexibly define agent interaction behaviors. Both natural language and computer code can be used to program flexible conversation patterns for different applications. AutoGen serves as a generic infrastructure to build diverse applications of various complexities and LLM capacities. Empirical studies demonstrate the effectiveness of the framework in many example applications, with domains ranging from mathematics, coding, question answering, operations research, online decision-making, entertainment, etc.

核心贡献

提出 AutoGen 开源多智能体对话框架：提供了一种通用基础设施，允许开发者通过多个可对话的智能体来构建 LLM 应用，智能体之间通过对话协作完成任务。
可定制、可对话的智能体设计：AutoGen 智能体具有高度可定制性，支持以 LLM、人类输入和工具的任意组合方式运行，开发者可灵活定义智能体的交互行为。
灵活的对话模式编程：支持使用自然语言和计算机代码两种方式来编程定义灵活的对话模式，适应不同应用场景的需求。
通用应用基础设施：作为通用框架，AutoGen 可支撑从简单到复杂的各种 LLM 应用开发，覆盖数学、编程、问答、运筹学、在线决策、娱乐等多个领域。
开源生态：框架开源发布，降低了多智能体 LLM 应用的开发门槛。

方法概述

AutoGen 的核心设计理念是“以对话为中心”的多智能体架构：

智能体抽象（Conversable Agent）：定义了可对话智能体的统一抽象，每个智能体封装了一个 LLM（或工具/人类），具备发送和接收消息的能力。
多模式运行：智能体可以多种模式运行：
- 纯 LLM 模式：智能体完全由 LLM 驱动自主决策。
- 人类参与模式（Human-in-the-Loop）：人类作为智能体参与对话，提供反馈和指导。
- 工具增强模式：智能体可调用外部工具（如代码执行器、搜索引擎）来辅助完成任务。
灵活的对话拓扑：开发者可通过自然语言或代码定义智能体之间的对话流程，支持两人对话、群组讨论、嵌套对话等多种交互模式。
人机协作设计：强调人类参与在 LLM 应用中的重要性，支持在关键节点引入人类审核和干预。
代码执行能力：内置安全的代码执行环境，使智能体能够编写并运行代码来解决计算密集型任务。

实验结果

AutoGen 在多个应用领域进行了广泛的实证研究：

数学推理：在数学问题求解任务中，多智能体对话协作显著提升了准确率，尤其是当 LLM 智能体与人类反馈相结合时效果更佳。
代码生成：在编程任务中，AutoGen 支持的多智能体协作（如一个智能体写代码、另一个智能体调试和验证）相比单智能体方法具有更好的代码质量和更低的错误率。
问答任务：在复杂问答场景中，多智能体通过分工协作（如检索、分析、综合）提升了答案的准确性和完整性。
运筹优化：在运筹学问题中，多智能体协作展示了在复杂决策问题上的求解能力。
在线决策：在需要实时交互的场景中，AutoGen 的灵活对话模式支持动态调整决策策略。
框架通用性验证：实验覆盖了从简单到复杂的多种应用场景，证明 AutoGen 作为通用基础设施能够有效支撑不同复杂度和 LLM 能力水平的应用开发。

分析信息

分析来源: pdf_analysis
分析置信度: high
分析时间: 2026-05-02 06:02
关键词: GPT, LLM, RL, question answering
PDF 路径: /root/wiki/raw/papers/2308-08155.pdf

导入时间: 2026-05-01 23:30 导入方式: url