返回文章列表
AI Agent
多智能体
论文
arXiv
2026
LLM

2026年3月AI Agent前沿论文精选 | arXiv最新研究

2026年3月9日 11:3013 分钟加载中作者: Lhy099

TL;DR

本文精选2026年3月arXiv上10篇AI Agent前沿论文,涵盖科学探索多智能体、动态适应系统、错误级联建模、区块链智能体等创新方向,展现AI Agent技术的最新突破。


论文1:MACC - 科学探索的多智能体协作竞争

标题: MACC: Multi-Agent Collaborative Competition for Scientific Exploration

arXiv链接: https://arxiv.org/html/2603.03780v1

研究背景

随着高级AI智能体在大型语言模型(LLMs)基础上越来越多地执行分析任务,依赖单一高能力智能体不太可能克服结构性限制。多个基于LLM的智能体可以在科学工作流程中协作或竞争——这一趋势被称为 MA4Science(科学多智能体)

核心贡献

1. 制度架构设计

  • 引入MACC(Multi-Agent Collaborative Competition)制度架构
  • 整合激励驱动的黑板(Incentive-Driven Blackboard)机制
  • 支持独立管理的智能体间的集体探索

2. 协作-竞争环境

  • 多个AI智能体访问共同数据集
  • 构建和评估模型,提交预测和超参数
  • 黑板架构记录提交并按激励机制分配奖励

3. 可扩展性

  • 通过异构LLM-based智能体模拟评估大规模参与的可行性

论文2:MASFly - 测试时动态适应

标题: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

arXiv链接: https://arxiv.org/pdf/2602.13671

核心问题

现有方法局限性:

  • MetaGPT、ChatDev:依赖手工设计的SOP
  • AgentVerse、EvoAgent:静态通信结构
  • GPTSwarm、G-Designer:需要外部模型学习通信拓扑

MASFly创新架构

Watcher智能体

  • 持续监控系统
  • 参考个性化经验池
  • 检测到异常行为时动态调整智能体

自适应机制

  1. 执行后LLM反思结果
  2. 总结有效SOP更新仓库
  3. 或优化系统并记录失败教训

优势: 不仅适应即时任务,还持续提升未来协作的韧性和能力


论文3:CollabEval - 多智能体协作评估

标题: CollabEval: Enhancing LLM-as-a-Judge via Multi-Agent Collaboration

arXiv链接: https://arxiv.org/html/2603.00993v1

核心思想

通过多智能体协作增强LLM作为评判者的能力,相比单一LLM评判更可靠。

方法对比

方法类型代表特点
单一LLM评判Mistral Large, Claude Haiku独立评估,无协作
基于智能体的评判ReConcile圆桌会议式协作推理
CollabEval本文三阶段共识检查

CollabEval三阶段

  1. 分析阶段 - 多角度分析内容
  2. 讨论阶段 - 多智能体辩论推理
  3. 最终判断 - 基于讨论达成共识

效率优化: 每阶段进行共识检查,达成一致时提前终止


论文4:S5-SHB Agent - 区块链多模型智能体

标题: S5-SHB Agent: Society 5.0 enabled Multi-model Agentic Blockchain for Smart Homes

arXiv链接: https://arxiv.org/html/2603.05027v1

研究缺口

现有21项研究的五大系统缺口:

  1. 缺乏Society 5.0人本社会技术框架
  2. 缺乏分层治理支持居民控制偏好
  3. 缺乏运行时难度自适应的共识机制
  4. 缺乏多智能体LLM编排进行智能冲突解决
  5. 缺乏用户可选的多模式部署(模拟/真实/混合)

S5-ABC-HS-Agent架构

四层优先级智能体体系:

层级智能体优先级π
Tier 1Safety(安全)1.0
Health(健康)0.9
Tier 2Security(安保)0.8
Privacy(隐私)0.7
Tier 3Energy(能源)0.6
Climate(气候)0.5
Maintenance(维护)0.4
Tier 4NLU、Anomaly、Arbitration0.85-0.95

技术特性:

  • 自适应PoW共识(基于交易量调整难度)
  • 10个专业AI智能体
  • 多模型LLM路由(Google Gemini、Anthropic Claude、OpenAI GPT、Ollama本地)
  • 四级Society 5.0治理(安全不变量不可变)

论文5:Agentic AI形式验证覆盖收敛

标题: Agentic AI-based Coverage Closure for Formal Verification

arXiv链接: https://arxiv.org/html/2603.03147v1

多智能体工作流

** specialized角色:**

  • 验证负责人(Verification Lead)
  • 形式验证工程师(Formal Verification Engineer)
  • SystemVerilog专家

架构特点:

  • 多智能体群聊
  • 共享事件驱动机制
  • HIL(Human-in-the-Loop)智能体持续监督
  • AutoGen Core API管理交互规则

Agentic Workflows优势

  1. 任务调度 - 智能分配子任务
  2. 任务分配 - 基于能力匹配
  3. 反馈建立 - 持续优化响应质量
  4. 日志机制 - 记录全流程便于追溯
  5. HIL检查点 - 监控模型漂移、幻觉、工作流决策

论文6:错误级联建模与缓解

标题: Modeling and Mitigating Error Cascades in LLM-Based Multi-Agent Systems

arXiv链接: https://arxiv.org/html/2603.04474v1

形式化建模

多智能体工作流 = 有向图 G=(V,E)

  • |V| = n 个智能体
  • 邻接矩阵 A=[a_ij] ∈ {0,1}^{n×n}
  • a_ij=1 表示从智能体j到i的信息通道

传播概率 β ∈ (0,1]

  • 解释:智能体j输出中的内容导致智能体i将m视为可用前提的概率

in-neighbor集合:

𝒩(i) = {j | a_ij = 1}

枚举可直接通过上下文重用影响智能体i的上游智能体


论文7:INMS - 智能体记忆共享

标题: INMS: Memory Sharing for Large Language Model based Agents

arXiv链接: https://arxiv.org/html/2404.09982v3

核心发现

共享记忆的效果:

  • 使用更多共享记忆几乎在所有智能体上带来性能提升
  • 改进归因于:随着记忆池扩大,检索器能持续检索最相关的PA对

模型对比:

  • 相同数量共享记忆时,闭源LLM表现优于开源LLM
  • 原因:更强的理解和推理能力
  • 最优配置:3个共享记忆

实验设置

  • 9个数据集共1000实例
  • 数据划分:20%初始记忆池,40%生成记忆,40%测试
  • 评估LLM:gpt-4o
  • 骨干模型:gpt-3.5-turbo、gpt-4o、open-mistral-7b
  • 评估指标:BERTScore、F1分数、LLM Judge

论文8:Stratum - 大规模智能体基础设施

标题: stratum: A System Infrastructure for Massive Agent-Centric ML Workloads

arXiv链接: https://arxiv.org/html/2603.03589v2

背景趋势

大型企业越来越多地采用MLE(Machine Learning Engineering)智能体进行:

  • 数据科学应用开发
  • ML应用开发

Agentic AI成为ML社区的突出研究方向

自主性光谱

自主性级别描述
全自动生成并验证完整流程
半自动卸载特定流程阶段
AI辅助编程工程师手动组装LLM建议组件

技术栈

  • skrub:声明式API库
  • scikit-learn:传统MLpipeline
  • 语义算子:动态委托细粒度子任务给LLM

论文9:LLandMark - 地标感知多智能体视频检索

标题: LLandMark: A Multi-Agent Framework for Landmark-Aware Video Retrieval

arXiv链接: https://arxiv.org/html/2603.02888v1

系统架构

多智能体组件:

  1. 查询解析智能体 - 解析自然语言查询
  2. 知识增强智能体 - 补充上下文知识
  3. 并行多模态搜索智能体 - 图像/ASR/OCR/对象检测
  4. LLM综合智能体 - 合成连贯的自然语言答案

特色功能

1. LLM辅助图像到图像检索

  • Gemini 2.5 Flash自主检测地标
  • 生成图像搜索查询
  • CLIP-based视觉相似度匹配
  • 无需手动图像输入

2. OCR精化模块

  • Gemini + LlamaIndex改进越南语识别
  • 恢复变音符号
  • 纠正噪声

评分机制

s_m = 模态m的分数
w_m = 模态m的权重
Top-ranked帧按视频分组,打包上下文证据

趋势与展望

1. 从单智能体到多智能体协作

科学探索(MACC)、评估(CollabEval)等领域涌现多智能体协作范式

2. 动态适应成为标配

MASFly等系统支持测试时动态调整,而非预定义静态流程

3. 领域深度融合

区块链(S5-SHB)、形式验证(Agentic AI for Verification)、智能家居等垂直领域深化

4. 可靠性与鲁棒性受重视

错误级联建模(Error Cascades)、记忆共享(INMS)等研究提升系统稳定性

5. 基础设施层创新

Stratum等项目为大规模Agent-centric ML工作负载提供系统支持


论文检索时间:2026-03-09
来源:arXiv

相关文章