AI Daily

TL;DR

本文精选2026年3月arXiv上10篇AI Agent前沿论文，涵盖科学探索多智能体、动态适应系统、错误级联建模、区块链智能体等创新方向，展现AI Agent技术的最新突破。

论文1：MACC - 科学探索的多智能体协作竞争

标题： MACC: Multi-Agent Collaborative Competition for Scientific Exploration

arXiv链接： https://arxiv.org/html/2603.03780v1

研究背景

随着高级AI智能体在大型语言模型（LLMs）基础上越来越多地执行分析任务，依赖单一高能力智能体不太可能克服结构性限制。多个基于LLM的智能体可以在科学工作流程中协作或竞争——这一趋势被称为 MA4Science（科学多智能体）。

核心贡献

1. 制度架构设计

引入MACC（Multi-Agent Collaborative Competition）制度架构
整合激励驱动的黑板（Incentive-Driven Blackboard）机制
支持独立管理的智能体间的集体探索

2. 协作-竞争环境

多个AI智能体访问共同数据集
构建和评估模型，提交预测和超参数
黑板架构记录提交并按激励机制分配奖励

3. 可扩展性

通过异构LLM-based智能体模拟评估大规模参与的可行性

论文2：MASFly - 测试时动态适应

标题： Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time

arXiv链接： https://arxiv.org/pdf/2602.13671

核心问题

现有方法局限性：

MetaGPT、ChatDev：依赖手工设计的SOP
AgentVerse、EvoAgent：静态通信结构
GPTSwarm、G-Designer：需要外部模型学习通信拓扑

MASFly创新架构

Watcher智能体

持续监控系统
参考个性化经验池
检测到异常行为时动态调整智能体

自适应机制

执行后LLM反思结果
总结有效SOP更新仓库
或优化系统并记录失败教训

优势： 不仅适应即时任务，还持续提升未来协作的韧性和能力

论文3：CollabEval - 多智能体协作评估

标题： CollabEval: Enhancing LLM-as-a-Judge via Multi-Agent Collaboration

arXiv链接： https://arxiv.org/html/2603.00993v1

核心思想

通过多智能体协作增强LLM作为评判者的能力，相比单一LLM评判更可靠。

方法对比

方法类型	代表	特点
单一LLM评判	Mistral Large, Claude Haiku	独立评估，无协作
基于智能体的评判	ReConcile	圆桌会议式协作推理
CollabEval	本文	三阶段共识检查

CollabEval三阶段

分析阶段 - 多角度分析内容
讨论阶段 - 多智能体辩论推理
最终判断 - 基于讨论达成共识

效率优化： 每阶段进行共识检查，达成一致时提前终止

论文4：S5-SHB Agent - 区块链多模型智能体

标题： S5-SHB Agent: Society 5.0 enabled Multi-model Agentic Blockchain for Smart Homes

arXiv链接： https://arxiv.org/html/2603.05027v1

研究缺口

现有21项研究的五大系统缺口：

缺乏Society 5.0人本社会技术框架
缺乏分层治理支持居民控制偏好
缺乏运行时难度自适应的共识机制
缺乏多智能体LLM编排进行智能冲突解决
缺乏用户可选的多模式部署（模拟/真实/混合）

S5-ABC-HS-Agent架构

四层优先级智能体体系：

层级	智能体	优先级π
Tier 1	Safety（安全）	1.0
	Health（健康）	0.9
Tier 2	Security（安保）	0.8
	Privacy（隐私）	0.7
Tier 3	Energy（能源）	0.6
	Climate（气候）	0.5
	Maintenance（维护）	0.4
Tier 4	NLU、Anomaly、Arbitration	0.85-0.95

技术特性：

自适应PoW共识（基于交易量调整难度）
10个专业AI智能体
多模型LLM路由（Google Gemini、Anthropic Claude、OpenAI GPT、Ollama本地）
四级Society 5.0治理（安全不变量不可变）

论文5：Agentic AI形式验证覆盖收敛

标题： Agentic AI-based Coverage Closure for Formal Verification

arXiv链接： https://arxiv.org/html/2603.03147v1

多智能体工作流

** specialized角色：**

验证负责人（Verification Lead）
形式验证工程师（Formal Verification Engineer）
SystemVerilog专家

架构特点：

多智能体群聊
共享事件驱动机制
HIL（Human-in-the-Loop）智能体持续监督
AutoGen Core API管理交互规则

Agentic Workflows优势

任务调度 - 智能分配子任务
任务分配 - 基于能力匹配
反馈建立 - 持续优化响应质量
日志机制 - 记录全流程便于追溯
HIL检查点 - 监控模型漂移、幻觉、工作流决策

论文6：错误级联建模与缓解

标题： Modeling and Mitigating Error Cascades in LLM-Based Multi-Agent Systems

arXiv链接： https://arxiv.org/html/2603.04474v1

形式化建模

多智能体工作流 = 有向图 G=(V,E)

|V| = n 个智能体
邻接矩阵 A=[a_ij] ∈ {0,1}^{n×n}
a_ij=1 表示从智能体j到i的信息通道

传播概率 β ∈ (0,1]

解释：智能体j输出中的内容导致智能体i将m视为可用前提的概率

in-neighbor集合：

𝒩(i) = {j | a_ij = 1}

枚举可直接通过上下文重用影响智能体i的上游智能体

论文7：INMS - 智能体记忆共享

标题： INMS: Memory Sharing for Large Language Model based Agents

arXiv链接： https://arxiv.org/html/2404.09982v3

核心发现

共享记忆的效果：

使用更多共享记忆几乎在所有智能体上带来性能提升
改进归因于：随着记忆池扩大，检索器能持续检索最相关的PA对

模型对比：

相同数量共享记忆时，闭源LLM表现优于开源LLM
原因：更强的理解和推理能力
最优配置：3个共享记忆

实验设置

9个数据集共1000实例
数据划分：20%初始记忆池，40%生成记忆，40%测试
评估LLM：gpt-4o
骨干模型：gpt-3.5-turbo、gpt-4o、open-mistral-7b
评估指标：BERTScore、F1分数、LLM Judge

论文8：Stratum - 大规模智能体基础设施

标题： stratum: A System Infrastructure for Massive Agent-Centric ML Workloads

arXiv链接： https://arxiv.org/html/2603.03589v2

背景趋势

大型企业越来越多地采用MLE（Machine Learning Engineering）智能体进行：

数据科学应用开发
ML应用开发

Agentic AI成为ML社区的突出研究方向

自主性光谱

自主性级别	描述
全自动	生成并验证完整流程
半自动	卸载特定流程阶段
AI辅助编程	工程师手动组装LLM建议组件

技术栈

skrub：声明式API库
scikit-learn：传统MLpipeline
语义算子：动态委托细粒度子任务给LLM

论文9：LLandMark - 地标感知多智能体视频检索

标题： LLandMark: A Multi-Agent Framework for Landmark-Aware Video Retrieval

arXiv链接： https://arxiv.org/html/2603.02888v1

系统架构

多智能体组件：

查询解析智能体 - 解析自然语言查询
知识增强智能体 - 补充上下文知识
并行多模态搜索智能体 - 图像/ASR/OCR/对象检测
LLM综合智能体 - 合成连贯的自然语言答案

特色功能

1. LLM辅助图像到图像检索

Gemini 2.5 Flash自主检测地标
生成图像搜索查询
CLIP-based视觉相似度匹配
无需手动图像输入

2. OCR精化模块

Gemini + LlamaIndex改进越南语识别
恢复变音符号
纠正噪声

评分机制

s_m = 模态m的分数
w_m = 模态m的权重
Top-ranked帧按视频分组，打包上下文证据

趋势与展望

1. 从单智能体到多智能体协作

科学探索（MACC）、评估（CollabEval）等领域涌现多智能体协作范式

2. 动态适应成为标配

MASFly等系统支持测试时动态调整，而非预定义静态流程

3. 领域深度融合

区块链（S5-SHB）、形式验证（Agentic AI for Verification）、智能家居等垂直领域深化

4. 可靠性与鲁棒性受重视

错误级联建模（Error Cascades）、记忆共享（INMS）等研究提升系统稳定性

5. 基础设施层创新

Stratum等项目为大规模Agent-centric ML工作负载提供系统支持

论文检索时间：2026-03-09
来源：arXiv