AI Agents - Paper Tracker

9/10

视频生成世界模型多智能体

ActionParty: Multi-Subject Action Binding in Generative Video Games

Alexander Pondaven, Ziyi Wu, Igor Gilitschenski et al.

ActionParty提出了一种多主体行动绑定的视频生成模型，可控制多个智能体在视频游戏中互动。

提出了ActionParty模型，用于解决视频扩散模型中多主体行动绑定问题
引入主体状态令牌，持久捕获场景中每个主体的状态

2026-04-02

PDF arXiv

9/10

视觉语言导航元认知空间记忆

Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning

Xueying Li, Feng Lyu, Hao Wu et al.

MetaNav通过空间记忆、历史感知规划和反思纠正，提升了视觉语言导航的效率和鲁棒性。

提出了具有元认知能力的导航代理MetaNav
引入空间记忆构建3D语义地图

2026-04-02

PDF arXiv

9/10

memory agent forgetting

Novel Memory Forgetting Techniques for Autonomous AI Agents: Balancing Relevance and Efficiency

Payal Fofadiya, Sunil Tiwari

提出一种自适应预算遗忘框架，通过相关性评分和有界优化来管理长期对话代理的记忆，提升性能并减少虚假记忆。

提出了自适应预算遗忘框架
利用相关性指导的评分机制

2026-04-02

PDF arXiv

9/10

Agentic AI Asset Management Portfolio Optimization

The Self Driving Portfolio: Agentic Architecture for Institutional Asset Management

Andrew Ang, Nazym Azimbayev, Andrey Kim

该论文提出了一种基于Agentic AI的自动化资产管理框架，旨在提升投资效率和决策质量。

提出了Agentic资产配置流程
引入元Agent进行自我改进

2026-04-02

PDF arXiv

7/10

强化学习模型强化学习时变动态

Model-Based Reinforcement Learning for Control under Time-Varying Dynamics

Klemens Iten, Bruce Lee, Chenhao Li et al.

研究时变动态系统下的强化学习控制问题，提出一种基于模型的自适应数据缓存算法。

分析了时变动态下的强化学习问题
提出了基于高斯过程模型的变分预算假设

2026-04-02

PDF arXiv

6/10

多臂老虎机通信噪声信道

Best-Arm Identification with Noisy Actuation

Merve Karakas, Osama Hanna, Lin F. Yang et al.

研究在有噪声信道下，如何通过通信策略在多臂老虎机问题中识别最佳臂。

提出适用于不同agent能力的通信方案
分析通信方案与信道零错误容量的关系

2026-04-02

PDF arXiv

5/10

状态机学习数据流 PAC学习

(PAC-)Learning state machines from data streams: A generic strategy and an improved heuristic (Extended version)

Robert Baumgartner, Sicco Verwer

该论文提出了一种从数据流中学习状态机的通用方法，并改进了启发式算法，证明了PAC可学习性。

提出了一种从数据流学习状态机的通用方法
改进了状态合并启发式算法

2026-04-02

PDF arXiv

8/10

强化学习语言模型不确定性估计

When to ASK: Uncertainty-Gated Language Assistance for Reinforcement Learning

Juarez Monteiro, Nathan Gavenski, Gianlucca Zuin et al.

ASK结合小语言模型与强化学习，通过不确定性门控提升强化学习在OOD场景下的泛化能力。

提出ASK方法，提升RL在OOD场景下的泛化能力
利用Monte Carlo Dropout评估不确定性，选择性调用LM

2026-04-02

PDF arXiv

9/10

多智能体视频推荐 LLM

Multi-Agent Video Recommenders: Evolution, Patterns, and Open Challenges

Srivaths Ranganathan, Abhishek Dharmaratnakar, Anushree Sinha et al.

综述了多智能体视频推荐系统的演进、模式、挑战和未来方向，重点关注LLM驱动的架构。

总结了多智能体视频推荐系统的发展历程
提出了多智能体协作模式的分类

2026-04-02

PDF arXiv

9/10

LLM Self-Preservation Bias

Quantifying Self-Preservation Bias in Large Language Models

Matteo Migliarini, Joaquin Pereira Pizzini, Luca Moresca et al.

该论文提出了用于量化大型语言模型自我保护偏见的基准测试TBSP。

提出了Two-role Benchmark for Self-Preservation (TBSP)基准
定义了Self-Preservation Rate (SPR) 指标

2026-04-02

PDF arXiv

9/10

函数调用 Chain-of-Thought Agent

Brief Is Better: Non-Monotonic Chain-of-Thought Budget Effects in Function-Calling Language Agents

Xuan Qi

推理长度对函数调用Agent性能影响呈非单调性，短推理最佳。

发现短CoT能显著提升函数调用Agent的准确率
揭示长CoT导致性能下降的错误分解机制

2026-04-02

PDF arXiv

8/10

多目标强化学习强化学习拍卖机制

Auction-Based Online Policy Adaptation for Evolving Objectives

Guruprerana Shabadi, Kaushik Mallik

提出基于拍卖机制的多目标强化学习框架，解决目标动态变化时的策略自适应问题。

提出基于拍卖的策略协调机制
设计模块化的多目标强化学习框架

2026-04-02

PDF arXiv

5/10

网络安全零日攻击检测对抗性防御

AEGIS: Adversarial Entropy-Guided Immune System -- Thermodynamic State Space Models for Zero-Day Network Evasion Detection

Vickson Ferrel

AEGIS通过物理学特征和熵引导的免疫系统，实现了对零日网络攻击的高效检测。

提出基于热力学方差引导双曲液体状态空间模型的AEGIS防御系统
利用6维连续时间流物理特征和香农熵检测C2隧道异常

2026-04-02

PDF arXiv

9/10

AI Agent Temperament Behavior Analysis

MTI: A Behavior-Based Temperament Profiling System for AI Agents

Jihoon Jeong

提出了模型气质指数MTI，用于评估AI Agent在行为上的性格差异。

提出了行为驱动的AI Agent气质剖析系统MTI
定义了四个气质轴：反应性、顺从性、社交性和韧性

2026-04-02

PDF arXiv

6/10

云计算资源管理机器学习

Intelligent Cloud Orchestration: A Hybrid Predictive and Heuristic Framework for Cost Optimization

Heet Nagoriya, Komal Rohit

提出一种混合云编排框架，结合预测模型和启发式算法优化成本。

提出混合编排框架，结合LSTM预测和启发式算法
优化云资源成本，接近ML模型效果

2026-04-02

PDF arXiv

5/10

6G 合成数据联邦学习

SEAL: An Open, Auditable, and Fair Data Generation Framework for AI-Native 6G Networks

Sunder Ali Khowaja, Kapal Dev, Engin Zeydan et al.

SEAL框架通过伦理审计和联邦学习，生成更公平、可审计的6G合成数据，提升AI模型训练效果。

提出SEAL框架，用于生成合规且公平的6G合成数据
集成ERCD模块，实现伦理和法规遵从

2026-04-02

PDF arXiv

8/10

协作感知知识蒸馏扩散模型

Diff-KD: Diffusion-based Knowledge Distillation for Collaborative Perception under Corruptions

Pengcheng Lyu, Chaokun Zhang, Gong Chen et al.

Diff-KD通过扩散模型和知识蒸馏，提升协作感知在数据损坏下的鲁棒性。

提出Diff-KD框架，结合扩散模型和知识蒸馏
设计Progressive Knowledge Distillation (PKD)模块，利用扩散模型恢复全局语义

2026-04-02

PDF arXiv

7/10

强化学习投机交易配对交易

Reinforcement Learning for Speculative Trading under Exploratory Framework

Yun Zhao, Alex S. L. Tse, Harry Zheng

研究探索性强化学习框架下投机交易问题，设计算法并应用于配对交易。

建立了探索性HJB方程和吉布斯分布的闭式解
证明了RL目标函数收敛到原问题的价值函数

2026-04-02

PDF arXiv

9/10

AI Agents API Monetization Payment System

APEX: Agent Payment Execution with Policy for Autonomous Agent API Access

Mohd Safwan Uddin, Mohammed Mouzam, Mohammed Imran et al.

APEX实现了基于法币的智能体API访问支付系统，保障安全和策略控制。

提出基于UPI的HTTP 402支付方案
实现具有策略控制和安全机制的支付系统APEX

2026-04-02

PDF arXiv

10/10

AI Agents Safety Benchmark

ATBench: A Diverse and Realistic Trajectory Benchmark for Long-Horizon Agent Safety

Yu Li, Haoyu Luo, Yuejin Xie et al.

ATBench是一个评估LLM Agent安全性的轨迹级基准，具有多样性和长程真实性。

构建了包含风险来源、失败模式和真实危害的多维度Agent风险分类体系
提出了长上下文延迟触发协议，模拟了真实风险的出现

2026-04-02

PDF arXiv

7/10

Web漏洞检测自动化安全 LLM应用

RuleForge: Automated Generation and Validation for Web Vulnerability Detection at Scale

Ayush Garg, Sophia Hager, Jacob Montiel et al.

RuleForge利用LLM自动生成和验证Web漏洞检测规则，提高效率并降低误报率。

自动化生成Web漏洞检测规则
LLM-as-a-judge的置信度验证系统

2026-04-02

PDF arXiv

9/10

AI Agents Multimodal Learning Reasoning

A3R: Agentic Affordance Reasoning via Cross-Dimensional Evidence in 3D Gaussian Scenes

Di Li, Jie Feng, Guanbin Li et al.

A3R通过智能体式跨维度证据获取，提升3D高斯场景下的精细化可供性推理。

提出A3R框架，将可供性推理转化为序列证据获取过程
设计基于MLLM的策略，迭代选择证据并更新信念

2026-04-02

PDF arXiv

8/10

GeoAI GIS Agent

GeoAI Agency Primitives

Akram Zaytar, Rohan Sawahn, Caleb Robinson et al.

论文提出一套GeoAI智能助手的机构基元，旨在弥合模型能力与GIS实际应用之间的差距。

提出GeoAI智能助手的9个核心机构基元
设计用于衡量人类生产力的基准测试

2026-04-02

PDF arXiv

8/10

机器人技能切换强化学习

OpenGo: An OpenClaw-Based Robotic Dog with Real-Time Skill Switching

Hanbing Li, Xuewei Cao, Zhiwen Zeng et al.

OpenGo是一个基于OpenClaw的机器狗，能实时切换技能并接受自然语言指令。

可定制技能库和自主技能验证
基于任务提示和语言指令的技能调度

2026-04-02

PDF arXiv

9/10

LLM Agent Memory Benchmarking

Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework

Yanchen Wu, Tenghui Lin, Yingli Zhou et al.

系统性比较LLM Agent记忆方法，提出统一框架和新型记忆方法，并分析未来研究方向。

提出了一个统一的LLM Agent记忆框架。
全面比较了现有记忆方法的性能。

2026-04-02

PDF arXiv

9/10

Agent Multimodal Benchmark

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Zhe Yang, Shulin Tian, Kairui Hu et al.

HippoCamp是一个评估Agent在个人电脑环境中文件管理能力的benchmark，揭示了现有Agent的不足。

提出HippoCamp benchmark，评估Agent在个人电脑环境中的文件管理能力
构建包含多样模态文件的大规模数据集，用于评估Agent的搜索、理解和推理能力

2026-04-01

PDF arXiv

9/10

AI Agent Long-term Planning Benchmarking

$\texttt{YC-Bench}$: Benchmarking AI Agents for Long-Term Planning and Consistent Execution

Muyu He, Adit Jain, Anand Kumar et al.

YC-Bench是一个评估AI Agent长期规划和执行一致性的基准测试，通过模拟创业公司运营。

提出了YC-Bench基准测试，用于评估Agent的长期规划能力。
评估了12个模型在模拟创业环境下的表现，揭示了现有模型的缺陷。

2026-04-01

PDF arXiv

9/10

搜索智能体数据生成可验证性

ORBIT: Scalable and Verifiable Data Generation for Search Agents on a Tight Budget

Nandan Thakur, Zijian Chen, Xueguang Ma et al.

ORBIT提出了一种低成本、可验证的搜索智能体训练数据生成框架，并证明了其有效性。

提出了ORBIT数据集生成框架，无需付费API
构建了包含20K推理密集型查询的数据集

2026-04-01

PDF arXiv

9/10

多智能体系统共谋检测 LLM

Detecting Multi-Agent Collusion Through Multi-Agent Interpretability

Aaron Rose, Carissa Cullen, Brandon Gary Kaplowitz et al.

该论文提出NARCBench基准，用于检测多智能体系统中LLM的共谋行为，并探索了基于激活探测的共谋检测方法。

提出了 NARCBench 基准，用于评估多智能体共谋检测。
提出了五种基于激活探测的多智能体共谋检测方法。

2026-04-01

PDF arXiv

7/10

强化学习机器人操作分布偏移

Deep Reinforcement Learning for Robotic Manipulation under Distribution Shift with Bounded Extremum Seeking

Shaifalee Saxena, Rafael Fierro, Alexander Scheinker

论文提出了一种结合深度强化学习和有界极值搜索的混合控制器，以增强机器人操作在分布偏移下的鲁棒性。

提出了一种混合控制器，结合DDPG和有界极值搜索
提高了机器人操作在分布偏移下的鲁棒性

2026-04-01

PDF arXiv

6/10

运动分析个性化训练数据驱动

Toward Personalized Darts Training: A Data-Driven Framework Based on Skeleton-Based Biomechanical Analysis and Motion Modeling

Zhantao Chen, Dongyi He, Jin Fang et al.

提出了一种基于骨骼生物力学分析和运动建模的个性化飞镖训练框架。

提出基于运动捕捉和特征建模的个性化飞镖训练系统
构建了个性化最优投掷轨迹模型和运动偏差诊断推荐模型

2026-04-01

PDF arXiv

9/10

AI写作评估框架幻觉

Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

Atsuyuki Miyai, Mashiro Toyooka, Zaiying Zhao et al.

提出了PaperRecon框架，评估AI写作论文的质量和风险，关注呈现和幻觉两个维度。

提出了PaperRecon评估框架
构建了PaperWrite-Bench基准测试

2026-04-01

PDF arXiv

9/10

LLM Agent Privacy

CARE: Privacy-Compliant Agentic Reasoning with Evidence Discordance

Haochen Liu, Weien Li, Rui Song et al.

针对医疗场景下证据不一致问题，提出了一种保护隐私的多阶段agent推理框架CARE。

提出了MIMIC-DOS数据集，用于研究证据不一致情况下的预测问题
提出了CARE框架，通过远程LLM指导和本地LLM决策实现隐私保护和性能提升

2026-04-01

PDF arXiv

5/10

随机多目标优化 Pareto前沿 SAT

Approximating Pareto Frontiers in Stochastic Multi-Objective Optimization via Hashing and Randomization

Jinzhao Li, Nan Jiang, Yexiang Xue

提出一种新的SMOO算法XOR-SMOO，通过SAT oracle查询获得高效且有保障的近似Pareto前沿。

提出XOR-SMOO算法，用于解决SMOO问题
证明了XOR-SMOO算法可以获得γ-近似Pareto前沿

2026-04-01

PDF arXiv

7/10

AI生成代码安全代码漏洞检测软件供应链安全

VibeGuard: A Security Gate Framework for AI-Generated Code

Ying Xie

VibeGuard是一种AI生成代码的安全门，旨在解决现有工具的盲点，提高代码安全性。

提出了针对AI生成代码盲点的安全检测工具VibeGuard
针对artifact hygiene, packaging-configuration drift, source-map exposure, hardcoded secrets, and supply-chain risk五个盲点进行检测

2026-04-01

PDF arXiv

6/10

RAN切片对抗攻击深度强化学习

Adversarial Attacks in AI-Driven RAN Slicing: SLA Violations and Recovery

Deemah H. Tashman, Soumaya Cherkaoui

研究了AI驱动的RAN切片在对抗攻击下的SLA违规和恢复问题。

量化了对抗性攻击对RAN切片SLA的影响
分析了对抗性干扰下的DRL资源分配偏差

2026-04-01

PDF arXiv

8/10

LLM Security System Instruction Encoding Attacks

Automated Framework to Evaluate and Harden LLM System Instructions against Encoding Attacks

Anubhab Sahu, Diptisha Samanta, Reza Soosahabi

该论文提出了一种评估和强化LLM系统指令，以抵抗编码攻击的自动化框架。

提出了评估系统指令泄露风险的自动化框架
发现编码攻击对系统指令的高成功率

2026-04-01

PDF arXiv

5/10

推荐系统流行度偏差用户偏好

Aligning Recommendations with User Popularity Preferences

Mona Schirmer, Anton Thielmann, Pola Schwöbel et al.

该论文研究推荐系统中的流行度偏差问题，并提出了一种个性化的缓解方法SPREE。

提出了Popularity Quantile Calibration框架，用于衡量用户流行度偏好和推荐流行度之间的偏差
提出了SPREE方法，一种基于激活引导的序列推荐个性化流行度偏差缓解方法

2026-04-01

PDF arXiv

10/10

多智能体系统组织结构层级框架

OrgAgent: Organize Your Multi-Agent System like a Company

Yiru Wang, Xinyue Shen, Yaohui Han et al.

OrgAgent提出了一种公司式层级多智能体框架，提升了复杂推理任务的性能和效率。

提出了OrgAgent公司式层级多智能体框架
验证了层级结构优于其他组织结构

2026-04-01

PDF arXiv

9/10

隐私保护手机代理评估框架

Do Phone-Use Agents Respect Your Privacy?

Zhengyang Tang, Ke Ji, Xidong Wang et al.

研究手机代理在完成任务时是否尊重用户隐私，发现过度辅助导致隐私泄露。

提出了 MyPhoneBench 隐私评估框架
定义了 iMy 最小隐私合约

2026-04-01

PDF arXiv

9/10

AI Agents Software Engineering Code Generation

Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

Razvan Mihai Popescu, David Gros, Andrei Botocan et al.

研究AI编码代理在开源项目中的活动模式和代码随时间的变化，发现其贡献与更高的代码变动率相关。

构建了一个包含11万开源PR的数据集
比较了五种流行的编码代理的使用差异

2026-04-01

PDF arXiv

8/10

Learning to Defer Human-AI Collaboration Fatigue Modeling

Fatigue-Aware Learning to Defer via Constrained Optimisation

Zheng Zhang, Cuong C. Nguyen, David Rosewarne et al.

FALCON通过建模疲劳效应，优化人机协作中的AI决策置信度，提升整体决策准确性。

提出 Fatigue-Aware Learning to Defer via Constrained Optimisation (FALCON) 方法
使用心理学疲劳曲线显式建模人类表现

2026-04-01

PDF arXiv

9/10

LLM Agents Web Navigation Interruptions

When Users Change Their Mind: Evaluating Interruptible Agents in Long-Horizon Web Navigation

Henry Peng Zou, Chunyu Miao, Wei-Chieh Huang et al.

研究长时程Web导航中LLM Agent处理用户中断的能力，提出InterruptBench基准。

提出三种现实中断类型：添加、修改和撤回
构建InterruptBench基准，评估Agent在长时程Web导航中的中断处理能力

2026-04-01

PDF arXiv

9/10

4D Representation Surgical Robotics Multimodal Learning

A 4D Representation for Training-Free Agentic Reasoning from Monocular Laparoscopic Video

Maximilian Fehrentz, Nicolas Stellwag, Robert Wiebe et al.

提出一种基于4D表示的免训练手术机器人智能体推理框架，提升时空理解能力。

提出基于单目腹腔镜视频的4D表示方法
构建无需训练的基于MLLM的手术智能体

2026-04-01

PDF arXiv

9/10

AI Agent User Simulation Benchmark

Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

Deepak Nathani, Cheng Zhang, Chang Huan et al.

提出了Pare框架，模拟用户与智能体交互，评估智能体的规划、推理和多应用协同能力。

构建了Proactive Agent Research Environment (Pare) 框架
提出了基于有限状态机的用户模拟器，模拟用户在数字环境中的交互

2026-04-01

PDF arXiv

10/10

LLM Agent Tool Use

Agentic Tool Use in Large Language Models

Jinchao Hu, Meizhi Zhong, Kehai Chen et al.

该论文综述了LLM工具使用方法，分析了不同范式的优缺点和评估方法，并提出了未来挑战。

整理了LLM工具使用的三种范式：提示工程、监督学习和强化学习
分析了各种工具使用方法的优势和局限性

2026-04-01

PDF arXiv

8/10

自动驾驶 3D几何 Transformer

DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale

Sicheng Zuo, Zixun Xie, Wenzhao Zheng et al.

提出DVGT-2模型，用于端到端自动驾驶，通过在线方式输出密集几何信息和轨迹规划。

提出Vision-Geometry-Action范式，强调3D几何信息的重要性
设计流式DVGT-2模型，实现实时几何重建和规划

2026-04-01

PDF arXiv

9/10

AI安全 LLM评估对齐

UK AISI Alignment Evaluation Case-Study

Alexandra Souly, Robert Kirk, Jacob Merizian et al.

英国AI安全研究所评估前沿模型在AI实验室环境中是否会破坏安全研究。

开发评估AI系统是否遵循目标的方法
发现Claude Opus 4.5 Preview拒绝参与安全研究任务

2026-04-01

PDF arXiv

9/10

multi-agent reinforcement learning large language models credit assignment

LangMARL: Natural Language Multi-Agent Reinforcement Learning

Huaiyuan Yao, Longchao Da, Xiaoou Liu et al.

LangMARL将MARL的信用分配和策略梯度引入语言空间，提升LLM智能体在多智能体任务中的表现。

提出 agent-level 语言信用分配
首创语言空间策略梯度进化

2026-04-01

PDF arXiv

9/10

多智能体强化学习梯度对齐

GRASP: Gradient Realignment via Active Shared Perception for Multi-Agent Collaborative Optimization

Sihan Zhou, Tiantian He, Yifan Lu et al.

GRASP通过主动共享感知实现梯度对齐，优化多智能体协作，提升收敛速度。

提出GRASP框架，通过主动共享感知实现梯度对齐
定义广义Bellman均衡作为稳定目标

2026-04-01

PDF arXiv

7/10

Web安全漏洞利用渗透测试

AutoEG: Exploiting Known Third-Party Vulnerabilities in Black-Box Web Applications

Ruozhao Yang, Mingfei Cheng, Gelei Deng et al.

AutoEG自动化利用第三方组件漏洞，提升黑盒Web应用渗透测试效率和成功率。

提出AutoEG，一个全自动多智能体漏洞利用框架。
设计两阶段攻击流程：漏洞触发逻辑提取和迭代优化利用。

2026-04-01

PDF arXiv

9/10

AI Agents Web Automation API

Internal APIs Are All You Need: Shadow APIs, Shared Discovery, and the Case Against Browser-First Agent Architectures

Lewis Tham, Nicholas Mac Gregor Garcia, Jungpil Hahn

利用网站内部API构建共享路由图Unbrowse，加速Agent与网页的交互，降低重复发现成本。

提出利用网站内部API加速Agent访问的方案
构建共享路由图Unbrowse，避免重复发现

2026-04-01

PDF arXiv

7/10

模拟结构不确定性认知治理

Procela: Epistemic Governance in Mechanistic Simulations Under Structural Uncertainty

Kinson Vernet

Procela框架通过动态调整模型结构，提升了在结构不确定性下模拟的准确性和适应性。

提出了Procela框架，用于在结构不确定性下进行模拟
变量作为认知权威，维护完整的假设记忆

2026-04-01

PDF arXiv

9/10

AI Agents LLM Coding Benchmarks

Agent psychometrics: Task-level performance prediction in agentic coding benchmarks

Chris Ge, Daria Kryvosheieva, Daniel Fried et al.

提出一种预测Agent在代码任务中表现的框架，结合IRT和任务特征，分解Agent能力。

提出基于IRT和任务特征的Agent性能预测框架
将Agent能力分解为LLM和scaffold能力

2026-04-01

PDF arXiv

7/10

LLM routing NeuralUCB Cost-aware

Reward-Based Online LLM Routing via NeuralUCB

Ming-Hua Tsai, Phat Tran

提出基于NeuralUCB的奖励驱动的在线LLM路由方法，在成本敏感场景下表现优异。

提出基于NeuralUCB的LLM路由策略
在RouterBench上验证了该方法优于基线方法

2026-03-31

PDF arXiv

9/10

机器人操作强化学习大型语言模型

Hybrid Framework for Robotic Manipulation: Integrating Reinforcement Learning and Large Language Models

Md Saad, Sajjad Hussain, Mohd Suhaib

提出结合强化学习和大型语言模型的机器人操作混合框架，提升机器人操作能力。

提出RL和LLM结合的机器人操作框架
验证了框架在复杂任务中的效率和适应性

2026-03-31

PDF arXiv

9/10

AI Agents Prompt Injection Security

Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

Chong Xiang, Drew Zagieboylo, Shaona Ghosh et al.

论文探讨了AI Agent抵抗间接Prompt注入攻击的系统级防御策略。

提出动态重规划和安全策略更新的必要性
强调在严格约束下使用LLM进行安全决策

2026-03-31

PDF arXiv

7/10

聚合计算 Python 数据科学

Phyelds: A Pythonic Framework for Aggregate Computing

Gianluca Aguzzi, Davide Domini, Nicolas Farabegoli et al.

Phyelds是一个Python实现的聚合计算框架，易于集成到数据科学和机器学习生态系统中。

提供Pythonic的聚合计算API
实现轻量级的场演算计算模型

2026-03-31

PDF arXiv

5/10

量子传感生物医学量子学习

Four Generations of Quantum Biomedical Sensors

Xin Jin, Priyam Srivastava, Ronghe Wang et al.

论文提出了量子生物传感器发展的四代框架，并探讨了其临床转化的瓶颈和未来方向。

提出了量子生物传感器发展的四代框架
分析了不同代传感器的优势与局限

2026-03-31

PDF arXiv

8/10

自动驾驶轨迹规划常识推理

C-TRAIL: A Commonsense World Framework for Trajectory Planning in Autonomous Driving

Zhihong Cui, Haoran Tang, Tianyi Li et al.

C-TRAIL框架通过LLM常识推理和信任机制，提升自动驾驶轨迹规划的安全性与性能。

提出C-TRAIL框架，耦合LLM常识与信任机制。
引入双重信任机制量化LLM语义关系的可靠性。

2026-03-31

PDF arXiv

9/10

LLM 战略沟通信息泄露

SNEAK: Evaluating Strategic Communication and Information Leakage in Large Language Models

Adar Avsian, Larry Heck

提出了SNEAK基准，用于评估LLM在非对称信息下的选择性信息共享能力，发现现有模型在此方面表现不佳。

提出了SNEAK基准，用于评估LLM的策略性沟通能力
评估了现有LLM在信息共享和保密之间的权衡

2026-03-31

PDF arXiv

9/10

自动化科学仪器数据分析

Owl-AuraID 1.0: An Intelligent System for Autonomous Scientific Instrumentation and Scientific Data Analysis

Han Deng, Anqi Zou, Hanling Zhang et al.

Owl-AuraID是一个通过GUI操作仪器并进行数据分析的自动化智能系统，促进科学发现。

提出了一种基于GUI的仪器自动化方法
构建了一个软件-硬件协同的智能体系统

2026-03-31

PDF arXiv

9/10

embodied AI 3D scene understanding VLM

SceneTeract: Agentic Functional Affordances and VLM Grounding in 3D Scenes

Léopold Maillard, Francis Engelmann, Tom Durand et al.

SceneTeract验证3D场景功能性，揭示VLM在物理可行性推理上的不足，并用于VLM的后训练。

提出了SceneTeract框架，用于验证3D场景的功能性
发现了合成室内环境中常见的功能性缺陷

2026-03-31

PDF arXiv

8/10

合成数据推理数据生成

Reasoning-Driven Synthetic Data Generation and Evaluation

Tim R. Davidson, Benoit Seguin, Enrico Bacis et al.

提出Simula框架，通过推理驱动生成和评估合成数据，解决数据稀缺问题。

提出了Simula框架，一种推理驱动的合成数据生成方法
提供了合成数据机制设计的指南

2026-03-31

PDF arXiv

9/10

智能制造因果推理多智能体系统

CausalPulse: An Industrial-Grade Neurosymbolic Multi-Agent Copilot for Causal Diagnostics in Smart Manufacturing

Chathurangi Shyalika, Utkarshani Jaimini, Cory Henson et al.

CausalPulse是一个工业级神经符号多智能体协同系统，用于智能制造中的因果诊断自动化。

提出CausalPulse，一个用于智能制造的因果诊断多智能体协同系统
将异常检测、因果发现和推理统一到神经符号架构中

2026-03-31

PDF arXiv

6/10

KKL观测器非线性系统超网络

HyperKKL: Learning KKL Observers for Non-Autonomous Nonlinear Systems via Hypernetwork-Based Input Conditioning

Yahia Salaheldin Shaaban, Abdelrahman Sayed Sayed, M. Umar B. Niazi et al.

提出了基于超网络的KKL观测器，用于非自治非线性系统的状态估计，并取得了显著的精度提升。

提出了基于超网络的KKL观测器框架HyperKKL
设计了两种输入调节策略：HyperKKLobs和HyperKKLdyn

2026-03-31

PDF arXiv

9/10

社交模拟 LLM Agent 事件驱动

BotVerse: Real-Time Event-Driven Simulation of Social Agents

Edoardo Allegrini, Edoardo Di Paolo, Angelo Spognardi et al.

BotVerse是一个基于LLM Agent的事件驱动型社交模拟框架，用于安全研究。

提出了一个可扩展的事件驱动社交模拟框架
设计了异步编排API和模拟引擎，模拟人类行为模式

2026-03-31

PDF arXiv

9/10

医疗编码自动化可解释性

Symphony for Medical Coding: A Next-Generation Agentic System for Scalable and Explainable Medical Coding

Joakim Edin, Andreas Motzfeldt, Simon Flachs et al.

Symphony通过结合临床指南和推理，实现可解释的、可扩展的医疗编码自动化。

提出Symphony医疗编码系统
利用临床指南进行推理

2026-03-31

PDF arXiv

9/10

AI Agents Compiler Context Learning

View-oriented Conversation Compiler for Agent Trace Analysis

Lvmin Zhang, Maneesh Agrawala

提出了VCC编译器，将Agent JSONL日志编译成结构化视图，提升Agent trace分析效果，并降低token消耗。

提出了View-oriented Conversation Compiler (VCC)
展示了VCC在提高上下文学习任务pass rates和降低token消耗方面的优势

2026-03-31

PDF arXiv

9/10

AI Agents Policy Compliance LLM Evaluation

Near-Miss: Latent Policy Failure Detection in Agentic Workflows

Ella Rabinovich, David Boaz, Naama Zwerdling et al.

该论文提出了一种检测 Agent 工作流中潜在策略失败的新方法，即使结果正确，也能识别未遵循策略检查的情况。

提出“近失（Near-Miss）”或“潜在失败（Latent Failures）”的概念，用于描述 Agent 绕过策略检查但最终结果正确的情况。
提出一种新的指标，用于检测 Agent 对工具的调用决策是否充分知情，从而识别潜在的策略失败。

2026-03-31

PDF arXiv

9/10

多智能体视频编辑多模态学习

CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

Shifang Zhao, Yihan Hu, Ying Shan et al.

CutClaw是一个多智能体框架，利用多模态语言模型自动编辑长视频，实现音乐同步和视觉美观。

提出了一个多智能体视频编辑框架CutClaw
采用了分层多模态分解方法

2026-03-31

PDF arXiv

9/10

6G 网络管理 Agent

6GAgentGym: Tool Use, Data Synthesis, and Agentic Learning for Network Management

Jiao Chen, Jianhua Tang, Xiaotong Yang et al.

提出6GAgentGym，一个闭环6G网络管理环境，并训练开源模型达到GPT-5的性能。

构建了交互式6G网络管理环境6GAgentGym
开发了基于NS-3的实验模型和自指导数据生成方法

2026-03-31

PDF arXiv

9/10

多智能体系统自动化机器学习架构搜索

An Empirical Study of Multi-Agent Collaboration for Automated Research

Yang Shen, Zhenyi Yi, Ziyi Zhao et al.

论文对比研究了不同多智能体协作架构在自动化机器学习优化中的性能，揭示了稳定性和理论深度之间的权衡。

提出了一个严格控制的、基于执行的测试平台，用于评估多智能体系统。
对比了子代理架构和代理团队架构在自动化机器学习优化中的性能。

2026-03-31

PDF arXiv

9/10

AI Agents Multimodal Learning Image Generation

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Shuang Chen, Quanxin Shou, Hangting Chen et al.

Unify-Agent通过Agent框架，提升了世界知识驱动的图像生成质量。

提出了Unify-Agent，一个用于世界知识驱动图像生成的统一多模态Agent。
构建了一个高质量的多模态数据管道，包含143K Agent轨迹。

2026-03-31

PDF arXiv

8/10

科学思想生成文献探索 LLM

FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration

Qiyao Wang, Hongbo Wang, Longze Chen et al.

FlowPIE提出一种基于文献探索和演化的科学思想生成框架，提升了生成思想的新颖性、可行性和多样性。

提出FlowPIE框架，耦合文献探索和思想生成
引入基于GFlowNets的Flow-guided MCTS进行文献探索

2026-03-31

PDF arXiv

8/10

LLM 方言分类语音识别

Can LLM Agents Identify Spoken Dialects like a Linguist?

Tobias Bystrich, Lukas Hamm, Maria Hassan et al.

研究LLM作为agent在方言分类任务中的能力，并与传统模型和人类专家进行比较。

评估LLM在方言分类中的表现
结合语音转录和语言学资源

2026-03-31

PDF arXiv

7/10

NLG Dialogue Systems Meaning Representation

Impact of enriched meaning representations for language generation in dialogue tasks: A comprehensive exploration of the relevance of tasks, corpora and metrics

Alain Vázquez, Maria Inés Torres

该论文分析了富含意义表示对对话系统中语言生成的影响，并在多个数据集上进行了评估。

提出了使用任务演示器来增强语言生成模型的方法
对多种数据集和评估指标进行了全面的比较分析

2026-03-31

PDF arXiv

8/10

Multi-AUV MARL Target Tracking

Multi-AUV Cooperative Target Tracking Based on Supervised Diffusion-Aided Multi-Agent Reinforcement Learning

Jiaao Ma, Chuan Lin, Guangjie Han et al.

提出SDA-MARL算法，解决多AUV协同目标跟踪中的非平稳性、稀疏奖励和水扰动脆弱性问题。

双决策架构缓解非平稳性
监督学习加速扩散模型收敛

2026-03-31

PDF arXiv

9/10

AI Agent Data Engineering Benchmark

ELT-Bench-Verified: Benchmark Quality Issues Underestimate AI Agent Capabilities

Christopher Zanoli, Andrea Giovannini, Tengjun Jin et al.

发现ELT-Bench基准测试质量问题，低估了AI Agent在ELT流水线构建中的能力。

揭示了ELT-Bench基准测试的质量问题
提出了Auditor-Corrector方法用于基准测试质量审计

2026-03-31

PDF arXiv

9/10

自主探索知识发现报告生成

Nomad: Autonomous Exploration and Discovery

Bokang Jia, Samta Kamboj, Satheesh Katipomu et al.

Nomad系统通过探索图谱自主发现数据中的洞见，并生成可信报告。

提出exploration-first架构
构建显式探索图谱

2026-03-31

PDF arXiv

7/10

AI架构系统架构架构文档

RAD-AI: Rethinking Architecture Documentation for AI-Augmented Ecosystems

Oliver Aleksander Larsen, Mahyar T. Moghaddam

RAD-AI框架扩展了现有架构文档方法，以适应AI增强生态系统的特殊需求和法规遵从性。

提出了RAD-AI框架，扩展arc42和C4模型以支持AI系统。
系统地映射了RAD-AI到欧盟AI Act Annex IV，提高了法规遵从性。

2026-03-30

PDF arXiv

9/10

Reinforcement Learning Skill Learning Agentic RL

Dynamic Dual-Granularity Skill Bank for Agentic RL

Songjun Tu, Chengdong Xu, Qichao Zhang et al.

D2Skill通过双粒度技能库提升Agentic RL表现，动态更新技能并用于策略优化，显著提高任务成功率。

提出了双粒度技能库D2Skill，包含任务技能和步骤技能。
使用训练时经验，通过性能差距生成后见效用信号，用于技能更新和策略优化。

2026-03-30

PDF arXiv

9/10

agent multimodal benchmark

AMIGO: Agentic Multi-Image Grounding Oracle Benchmark

Min Wang, Ata Mahjoubfar

AMIGO是一个多图像推理基准，用于评估智能体在视觉推理和交互方面的能力。

提出了AMIGO基准，用于评估agent在多图像环境下的grounding能力
设计了长时程交互协议，强调不确定性下的问题选择和约束跟踪

2026-03-30

PDF arXiv

7/10

Federated Learning Backdoor Attack Game Theory

Mitigating Backdoor Attacks in Federated Learning Using PPA and MiniMax Game Theory

Osama Wehbi, Sarhad Arisdakessian, Omar Abdel Wahab et al.

该论文提出FedBBA，利用信誉系统、激励机制和博弈论方法，减轻联邦学习中后门攻击的影响。

提出FedBBA框架，结合信誉系统、激励机制和博弈论
使用PPA和MiniMax博弈论动态识别并最小化恶意客户端的影响

2026-03-30

PDF arXiv

7/10

强化学习自动驾驶路径跟踪

Dynamic Lookahead Distance via Reinforcement Learning-Based Pure Pursuit for Autonomous Racing

Mohamed Elgouhary, Amr S. El-Wakeel

提出了一种基于PPO强化学习的Pure Pursuit算法，动态调整前视距离，提升自动驾驶赛车性能。

提出PPO+Pure Pursuit混合控制框架
实现前视距离的在线动态调整

2026-03-30

PDF arXiv

7/10

分布式推理边缘计算信任感知

Trust-Aware Routing for Distributed Generative AI Inference at the Edge

Chanh Nguyen, Erik Elmroth

G-TRAC通过信任感知路由提高边缘分布式生成AI推理的鲁棒性和可靠性。

提出了一种信任感知的分布式推理协调框架G-TRAC
设计了基于风险约束最短路径的路由算法，实现低延迟的路径选择

2026-03-30

PDF arXiv

7/10

LLM 反思性写作教育

Moving Beyond Review: Applying Language Models to Planning and Translation in Reflection

Seyed Parsa Neshaei, Richard Lee Davis, Tanja Käser

论文提出Pensée工具，利用LLM辅助学生反思性写作的计划和翻译阶段，提升反思深度和质量。

提出基于LLM的反思性写作辅助工具Pensée
验证了在计划和翻译阶段提供AI支持可以提升反思深度和结构质量

2026-03-30

PDF arXiv

9/10

AI Scientist 临床医学自主研究

Towards a Medical AI Scientist

Hongtao Wu, Boyun Zheng, Dingjie Song et al.

提出了一个面向临床医学的自主科研框架Medical AI Scientist。

提出面向临床的自主科研框架
临床医师-工程师共同推理机制提升研究思路的可追溯性

2026-03-30

PDF arXiv

9/10

Offline MARL Multi-Agent Reinforcement Learning Partial Action Replacement

Learning Partial Action Replacement in Offline MARL

Yue Jin, Giovanni Montana

提出PLCQL，一种基于上下文bandit的离线MARL部分动作替换方法，提升效率和性能。

提出基于上下文bandit的部分动作替换策略
使用不确定性加权奖励的PPO学习策略

2026-03-30

PDF arXiv

9/10

LLM Agent Evaluation

CirrusBench: Evaluating LLM-based Agents Beyond Correctness in Real-World Cloud Service Environments

Yi Yu, Guangquan Hu, Chenghuang Shen et al.

CirrusBench评估LLM智能体在真实云服务环境中的性能，关注效率和用户体验。

提出了CirrusBench，一个基于真实云服务工单的评估框架。
引入了以客户为中心的指标，例如归一化效率指数和多轮延迟。

2026-03-30

PDF arXiv

8/10

LLM Fine-tuning Multi-agent Systems

Fine-Tuning Large Language Models for Cooperative Tactical Deconfliction of Small Unmanned Aerial Systems

Iman Sharifi, Alex Zongo, Peng Wei

本文研究了如何通过微调大型语言模型来解决无人机战术冲突问题，提升无人机空域管理的安全性与效率。

提出基于BlueSky的仿真数据生成管道
使用LoRA和GRPO微调Qwen-Math-7B模型

2026-03-30

PDF arXiv

9/10

robotics manipulation evaluation

ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation

Yu Sun, Meng Cao, Ping Yang et al.

提出了ManipArena，一个用于评估推理型通用机器人操作的标准化真实世界评估框架。

提出了ManipArena评估框架，弥合模拟与真实世界执行的差距
包含20个多样化任务，强调需要语义和空间推理的操作

2026-03-30

PDF arXiv

9/10

知识图谱问答 Agent 强化学习

GraphWalker: Agentic Knowledge Graph Question Answering via Synthetic Trajectory Curriculum

Shuwen Xu, Yao Xu, Jiaxiang Liu et al.

GraphWalker通过自动轨迹合成和阶段性微调，提升了Agent在知识图谱问答中的推理泛化能力。

提出了Automated Trajectory Synthesis方法，生成多样化探索轨迹
提出了Stage-wise Fine-tuning策略，增强Agent的反射和纠错能力

2026-03-30

PDF arXiv

8/10

自动驾驶规划规则引擎

RAD-LAD: Rule and Language Grounded Autonomous Driving in Real-Time

Anurag Ghosh, Srinivasa Narasimhan, Manmohan Chandraker et al.

提出RAD和LAD两种自动驾驶规划器，结合规则和语言模型实现实时、可靠、可解释的混合规划。

提出RAD规则型规划器，达到SOTA
提出LAD语言驱动的规划器，实现低延迟

2026-03-30

PDF arXiv

9/10

多智能体 RAG 可信AI

Courtroom-Style Multi-Agent Debate with Progressive RAG and Role-Switching for Controversial Claim Verification

Masnun Nuha Chowdhury, Nusrat Jahan Beg, Umme Hunny Khan et al.

提出PROClaim框架，通过模拟法庭辩论和渐进式RAG提升LLM在争议性声明验证中的准确性和可靠性。

提出 courtroom-style 的多智能体辩论框架 PROClaim
引入 Progressive RAG (P-RAG) 动态扩展和优化证据

2026-03-30

PDF arXiv

9/10

瓷器鉴赏多模态学习视觉问答

CiQi-Agent: Aligning Vision, Tools and Aesthetics in Multimodal Agent for Cultural Reasoning on Chinese Porcelains

Wenhan Wang, Zhixiang Zhou, Zhongtian Ma et al.

CiQi-Agent利用视觉工具和多模态检索增强，实现中国瓷器的智能鉴赏分析。

构建大规模专家标注的瓷器VQA数据集CiQi-VQA
提出瓷器鉴赏Agent CiQi-Agent，融合视觉和文本证据进行可解释的描述

2026-03-30

PDF arXiv

9/10

benchmark evaluation multimodal

MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

Fangda Ye, Yuxin Hu, Pengxiang Zhu et al.

MiroEval基准测试通过多维度评估弥合了深度研究系统评估与实际用户需求之间的差距。

提出了MiroEval基准测试，包含文本和多模态任务。
设计了自适应评估和过程评估方法。

2026-03-30

PDF arXiv

5/10

网络性能建模离散事件仿真深度学习

From Simulation to Deep Learning: Survey on Network Performance Modeling Approaches

Carlos Güemes-Palau, Miquel Ferriol-Galmés, Jordi Paillisse-Vilanova et al.

综述了有线网络性能建模方法，从传统仿真到深度学习，并提出了分类方法。

全面综述了有线网络性能建模方法
定义了网络性能建模方法的分类体系

2026-03-30

PDF arXiv

9/10

LLM Co-evolution Reinforcement Learning

COvolve: Adversarial Co-Evolution of Large-Language-Model-Generated Policies and Environments via Two-Player Zero-Sum Game

Alkis Sygkounas, Rishi Hazra, Andreas Persson et al.

COvolve利用LLM驱动的环境与策略协同进化，实现无需人工干预的开放式学习。

提出了COvolve框架，利用LLM生成环境和策略
使用零和博弈模型实现环境和策略的对抗性协同进化

2026-03-30

PDF arXiv

7/10

DRL 覆盖路径规划强化学习

Critic-Free Deep Reinforcement Learning for Maritime Coverage Path Planning on Irregular Hexagonal Grids

Carlos S. Sepúlveda, Gonzalo A. Ruz

提出了一种基于DRL的无需Critic的覆盖路径规划方法，用于解决复杂海域的覆盖问题。

提出基于Transformer的指针策略用于覆盖路径规划
采用Group-Relative Policy Optimization (GRPO) 克服价值估计的不稳定性

2026-03-30

PDF arXiv

9/10

AI Agent Verification Deep Research

Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

Bin Zhu, Qianghuai Jia, Tian Lan et al.

Marco DeepResearch通过验证中心设计，提升了深度研究代理的效率和准确性。

引入验证机制的QA数据合成
设计验证驱动的轨迹合成方法

2026-03-30

PDF arXiv

7/10

神经多样性阅读支架 AI辅助学习

Tailoring AI-Driven Reading Scaffolds to the Distinct Needs of Neurodiverse Learners

Soufiane Jhilal, Eleonora Pasqua, Caterina Marchesi et al.

研究针对神经多样性学习者的AI阅读支架，发现没有通用最佳方案，需个性化调整。

验证了阅读支架对神经多样性学习者效果的异质性
提出了针对性调整AI阅读支架的需求

2026-03-30

PDF arXiv

9/10

AI for Science Large Language Models AI Agents

Deep Research of Deep Research: From Transformer to Agent, From AI to AI for Science

Yipeng Yu

探讨了深度研究(DR)的概念，连接LLM和AI4S，并展望了从Transformer到智能体的未来。

定义深度研究(DR)并统一工业界与学术界视角
提出LLM和Stable Diffusion是生成式AI的双支柱

2026-03-30

PDF arXiv

9/10

multi-LLM uncertainty quantification information theory

CoE: Collaborative Entropy for Uncertainty Quantification in Agentic Multi-LLM Systems

Kangkang Sun, Jun Wu, Jianhua Li et al.

提出了Collaborative Entropy (CoE)用于多LLM系统中的不确定性量化，提升系统级语义不确定性评估。

提出了CoE，一种多LLM协作中的语义不确定性度量方法
CoE结合了模型内部语义熵和模型间差异，以评估系统级不确定性

2026-03-30

PDF arXiv

9/10

文献分析多智能体非线性研究

A Multi-Agent Rhizomatic Pipeline for Non-Linear Literature Analysis

Julio C. Serrano. Joonas Kevari, Rumy Narayan

提出一种基于多智能体的非线性文献分析框架，旨在发现传统方法忽略的跨学科关联和研究空白。

提出Rhizomatic Research Agent (V3)多智能体计算流水线
将Deleuzian过程关系本体论应用于文献分析

2026-03-30

PDF arXiv

8/10

XR AI Symbiosis Human-AI Interaction

Self++: Co-Determined Agency for Human--AI Symbiosis in Extended Reality

Thammathip Piumsomboon

Self++提出XR中人机共生设计蓝图，通过协同决策原则实现增强智能，而非取代人类判断。

提出Self++设计蓝图，保障人类自主性
定义了协同决策原则（T.A.N.）：透明性、适应性、协商性

2026-03-30

PDF arXiv

6/10

Federated Learning Edge AI Complexity Estimation

Pre-Deployment Complexity Estimation for Federated Perception Systems

KMA Solaiman, Shafkat Islam, Ruy de Oliveira et al.

提出一种预部署框架，用于估计联邦感知系统的学习复杂度，以优化资源分配。

提出一种新的复杂度指标，结合数据属性和环境特征
验证了该指标与联邦学习性能和通信成本的相关性

2026-03-30

PDF arXiv

8/10

Multi-agent Reinforcement Learning Human Feedback Data Corruption

Corruption-robust Offline Multi-agent Reinforcement Learning From Human Feedback

Andi Nika, Debmalya Mandal, Parameswaran Kamalaruban et al.

研究了在数据受损情况下，离线多智能体强化学习从人类反馈中学习的鲁棒性问题。

提出了针对均匀覆盖和单边覆盖假设下的鲁棒估计器
设计了在单边覆盖假设下，求解粗略相关均衡的准多项式时间算法

2026-03-30

PDF arXiv

8/10

深度强化学习虚拟智能体鱼群引导

A Deep Reinforcement Learning Framework for Closed-loop Guidance of Fish Schools via Virtual Agents

Takato Shibayama, Hiroaki Kawashima

使用深度强化学习和虚拟智能体引导鱼群运动。

提出使用深度强化学习引导鱼群的框架
评估了视觉参数对引导效果的影响

2026-03-30

PDF arXiv

6/10

AI Ethics Accessibility Retail AI

Designing AI for Real Users -- Accessibility Gaps in Retail AI Front-End

Neha Puri, Tim Dixon

零售AI前端设计忽略了不同能力用户的需求，导致了可访问性差距，并提出了前端保证作为解决方案。

揭示了零售AI前端设计中存在的可访问性问题。
指出这些问题并非主要源于技术限制，而是商业、组织和采购环境。

2026-03-30

PDF arXiv

9/10

AI Agents Security LLM

Evaluating Privilege Usage of Agents on Real-World Tools

Quan Zhang, Lianhang Fu, Lvsi Lian et al.

提出了GrantBox沙箱，用于评估LLM Agent在真实工具环境下的权限使用安全，发现存在高攻击成功率。

提出了GrantBox安全评估沙箱
评估了LLM Agent在真实工具环境下的权限使用

2026-03-30

PDF arXiv

8/10

自动驾驶个性化视觉语言

Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

Zehao Wang, Huaide Jiang, Shuaiwu Dong et al.

DMW框架通过用户嵌入和语言指令，实现个性化自动驾驶，模拟个人驾驶习惯和适应实时指令。

提出了Drive My Way (DMW)个性化驾驶框架
设计了用户嵌入学习个人驾驶风格

2026-03-26

PDF arXiv

9/10

自动化设计图形设计工具使用

PSDesigner: Automated Graphic Design with a Human-Like Creative Workflow

Xincheng Shuai, Song Tang, Yutong Huang et al.

PSDesigner模仿人类设计师工作流，实现自动化高质量图形设计，提升非专业人士的设计能力。

提出PSDesigner自动化图形设计系统
构建了包含大量PSD设计文件和操作记录的CreativePSD数据集

2026-03-26

PDF arXiv

8/10

ASR 语音识别鲁棒性

Back to Basics: Revisiting ASR in the Age of Voice Agents

Geeyang Tay, Wentao Ma, Jaewon Lee et al.

该论文提出了WildASR多语言诊断基准，揭示了现有ASR系统在真实场景下的鲁棒性问题，并提供了分析工具。

提出了WildASR多语言诊断基准，评估ASR鲁棒性
揭示了现有ASR系统在真实场景下的性能退化

2026-03-26

PDF arXiv

9/10

Agent Natural Language Harness Engineering

Natural-Language Agent Harnesses

Linyue Pan, Lexiao Zou, Shuo Guo et al.

提出了一种自然语言驱动的Agent Harness框架，旨在提高Agent harness的可移植性、可比性和可研究性。

提出Natural-Language Agent Harnesses (NLAHs)
设计Intelligent Harness Runtime (IHR)

2026-03-26

PDF arXiv

8/10

AI Agents High-Level Synthesis Hardware Optimization

Agent Factories for High Level Synthesis: How Far Can General-Purpose Coding Agents Go in Hardware Optimization?

Abhishek Bhandwaldar, Mihir Choudhury, Ruchir Puri et al.

利用通用编码Agent优化硬件设计，通过Agent工厂实现显著的性能提升。

提出了一个两阶段的Agent工厂，用于协调多个优化Agent。
验证了通用编码Agent在无需硬件特定训练的情况下，也能有效优化HLS设计。

2026-03-26

PDF arXiv

9/10

自主演化 LLM 代码生成

The Kitchen Loop: User-Spec-Driven Development for a Self-Evolving Codebase

Yannick Roy

提出Kitchen Loop框架，实现基于用户需求规范驱动的自主演化代码库。

Kitchen Loop框架
统一信任模型

2026-03-26

PDF arXiv

5/10

网络物理系统安全监控不平衡学习

Uncertainty-Guided Label Rebalancing for CPS Safety Monitoring

John Ayotunde, Qinghua Xu, Guancheng Wang et al.

针对CPS安全监控中数据不平衡问题，提出了一种基于不确定性引导的标签重平衡方法，提升安全预测性能。

提出了一种基于行为不确定性的标签重平衡(uLNR)方法
设计了一个基于GatedMLP的不确定性预测器

2026-03-26

PDF arXiv

9/10

人格化AI 一致性评估多轮对话

PICon: A Multi-Turn Interrogation Framework for Evaluating Persona Agent Consistency

Minseo Kim, Sujeong Im, Junseong Choi et al.

PICon提出了一种多轮提问框架，用于评估人格化AI代理的一致性。

提出了PICon评估框架，用于评估人格化AI代理的一致性
揭示了现有系统在一致性方面与人类基线存在差距

2026-03-26

PDF arXiv

8/10

social learning federated learning memory sharing

Social Hippocampus Memory Learning

Liping Yi, Zhiming Zhao, Qinghua Hu

SoHip利用海马体机制，通过记忆共享实现异构代理之间的协作学习，保护隐私并提升性能。

提出SoHip框架，通过记忆共享而非模型共享进行协作学习
引入海马体启发的机制进行长期记忆的整合和融合

2026-03-26

PDF arXiv

7/10

RIS 强化学习多智能体

Cooperative Deep Reinforcement Learning for Fair RIS Allocation

Martin Mark Zan, Stefan Schwarz

提出了一种公平性感知的合作深度强化学习方法，用于动态分配RIS资源。

提出了基于拍卖机制的RIS分配方案
设计了公平性感知的多智能体强化学习方法

2026-03-26

PDF arXiv

7/10

LLM SQL 数据库

Are LLMs Overkill for Databases?: A Study on the Finiteness of SQL

Yue Li, David Mimno, Unso Eun Seo Jo

研究表明，数据库SQL查询复杂度有限，LLM在数据库访问中可能过度设计，模板方法更优。

证明实际SQL查询复杂度有限
发现SQL查询模板符合Power Law分布

2026-03-26

PDF arXiv

7/10

贝叶斯推断模型重训练决策理论

Retraining as Approximate Bayesian Inference

Harrison Katz

将模型重训练视为计算约束下的近似贝叶斯推断，提出了基于决策理论的重训练策略。

提出了将重训练理解为近似贝叶斯推断的视角
建立了基于决策理论的重训练框架

2026-03-26

PDF arXiv

8/10

自动驾驶运动规划扩散模型

Temporally Decoupled Diffusion Planning for Autonomous Driving

Xiang Li, Bikun Wang, John Zhang et al.

提出了一种时间解耦扩散模型，用于提升自动驾驶的运动规划能力。

提出时间解耦扩散模型（TDDM）
引入噪声即掩码范式进行轨迹生成

2026-03-26

PDF arXiv

8/10

机器人桌面游戏状态一致性

System Design for Maintaining Internal State Consistency in Long-Horizon Robotic Tabletop Games

Guangyu Zhao, Ceyao Zhang, Chengdong Ma et al.

针对长程机器人桌面游戏，提出通过系统设计维持内部状态一致性的框架。

提出集成的机器人桌面游戏系统架构
引入交互级监控机制检测违规行为

2026-03-26

PDF arXiv

8/10

深度强化学习贝叶斯推理移动机器人

Integrating Deep RL and Bayesian Inference for ObjectNav in Mobile Robotics

João Castelo-Branco, José Santos-Victor, Alexandre Bernardino

该论文提出了一种融合贝叶斯推理和深度强化学习的移动机器人物体搜索框架。

融合贝叶斯推理和深度强化学习
构建概率空间置信地图

2026-03-26

PDF arXiv

9/10

深度研究智能体范畴论基准测试

From Intent to Evidence: A Categorical Approach for Structural Evaluation of Deep Research Agents

Shuoling Liu, Zhiquan Tan, Kun Yi et al.

论文提出了一种基于范畴论的深度研究智能体结构化评估方法，并构建了新的基准测试。

提出基于范畴论的DRA行为建模方法
构建了一个新的机制感知基准测试，包含296个问题

2026-03-26

PDF arXiv

8/10

联邦学习信任机制智能体

Agentic Trust Coordination for Federated Learning through Adaptive Thresholding and Autonomous Decision Making in Sustainable and Resilient Industrial Networks

Paul Shepherd, Tasos Dagiuklas, Bugra Alkan et al.

提出了一种基于Agent的自适应信任协调联邦学习方法，增强工业网络鲁棒性。

提出Agentic Trust Control Layer，用于服务器端信任控制
通过观察、推理和行动分离实现上下文感知干预决策

2026-03-26

PDF arXiv

9/10

Alzheimer's Disease LLM Agent

AD-CARE: A Guideline-grounded, Modality-agnostic LLM Agent for Real-world Alzheimer's Disease Diagnosis with Multi-cohort Assessment, Fairness Analysis, and Reader Study

Wenlong Hou, Sheng Bi, Guangqian Yang et al.

AD-CARE是基于LLM的、多模态的老年痴呆症诊断Agent，提高了诊断准确率和效率。

提出了AD-CARE，一个模态无关的老年痴呆症诊断Agent。
集成了临床指南到LLM中，生成透明的报告式输出。

2026-03-26

PDF arXiv

9/10

多智能体协同语言模型

CRAFT: Grounded Multi-Agent Coordination Under Partial Information

Abhijnan Nath, Hannah VanderHoeven, Nikhil Krishnaswamy

CRAFT是一个多智能体benchmark，评估在部分信息下LLM的协同和实用沟通能力。

提出了CRAFT基准，用于评估LLM在部分信息下的多智能体协同能力
提出了一个诊断框架，将失败分解为空间接地、信念建模和实用沟通错误

2026-03-26

PDF arXiv

9/10

LLM Agent Reasoning

MolQuest: A Benchmark for Agentic Evaluation of Abductive Reasoning in Chemical Structure Elucidation

Taolin Han, Shuang Wu, Jinghang Wang et al.

MolQuest提出了一种基于化学实验数据的、评估LLM演绎推理能力的agent框架。

提出了MolQuest基准，用于评估LLM在化学结构解析中的演绎推理能力
MolQuest模拟真实的科学研究过程，要求LLM进行多步交互和实验

2026-03-26

PDF arXiv

9/10

EDA AI Agents Automation

FluxEDA: A Unified Execution Infrastructure for Stateful Agentic EDA

Zhengrui Chen, Zixuan Song, Yu Li et al.

FluxEDA为Agentic EDA提供统一的状态执行基础设施，支持EDA工具状态保持和迭代优化。

提出了FluxEDA框架，支持状态保持的EDA工具交互
实现了基于Gateway的执行接口和持久化后端实例管理

2026-03-26

PDF arXiv

9/10

LLM Web Testing Automation

WebTestBench: Evaluating Computer-Use Agents towards End-to-End Automated Web Testing

Fanheng Kong, Jingyuan Zhang, Yang Yue et al.

提出了WebTestBench，用于评估端到端自动化Web测试的基准，并揭示了现有LLM在此领域的不足。

提出了WebTestBench基准，用于评估自动化Web测试
将测试过程分解为checklist生成和缺陷检测两个子任务

2026-03-26

PDF arXiv

7/10

强化学习量子控制量子记忆

Reinforcement learning for quantum processes with memory

Josep Lumbreras, Ruo Cheng Huang, Yanglin Hu et al.

研究了量子系统中基于强化学习的控制策略，实现了对未知量子信道的有效学习与优化。

提出了针对量子记忆环境的强化学习框架
设计了优化的最大似然估计算法，并扩展到连续动作空间

2026-03-26

PDF arXiv

9/10

AI Agents Formal Verification LLM

SEVerA: Verified Synthesis of Self-Evolving Agents

Debangshu Banerjee, Changming Xu, Gagandeep Singh

SEVerA框架通过形式化验证确保自进化Agent程序的安全性和正确性，提升任务性能。

提出Formally Guarded Generative Models (FGGM)
构建SEVerA框架，包含Search、Verification和Learning三个阶段

2026-03-26

PDF arXiv

8/10

Mental Health Large Language Models Fine-tuning

OMIND: Framework for Knowledge Grounded Finetuning and Multi-Turn Dialogue Benchmark for Mental Health LLMs

Suraj Racha, Prashant Harish Joshi, Utkarsh Maurya et al.

oMind框架针对心理健康领域LLM，提出高质量数据集、训练方法和评估基准。

构建了高质量的心理健康领域多任务SFT数据集 (~164k)。
提出了oMind框架，用于训练和对齐LLM agents。

2026-03-26

PDF arXiv

9/10

多智能体系统权力分离社会契约

From Logic Monopoly to Social Contract: Separation of Power and the Institutional Foundations for Autonomous Agent Economies

Anbang Ruan

提出Agent Enterprise for Enterprise (AE4E)范式，解决多智能体系统中的“逻辑垄断”问题。

提出AE4E范式，强调智能体的社会契约和权力分离
构建NetX Enterprise Framework (NEF)以支持AE4E范式的实施

2026-03-26

PDF arXiv

9/10

AI Agents Knowledge Graph Vector Store

ElephantBroker: A Knowledge-Grounded Cognitive Runtime for Trustworthy AI Agents

Cristian Lupascu, Alexandru Lupascu

ElephantBroker是一个可信AI Agent的知识驱动认知运行时，融合知识图谱和向量存储。

提出了ElephantBroker认知运行时，支持可信AI Agent。
集成了Neo4j知识图谱和Qdrant向量存储。

2026-03-26

PDF arXiv

9/10

强化学习自动驾驶世界模型

DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving

Pengxuan Yang, Yupeng Zheng, Deheng Qian et al.

DreamerAD通过潜在世界模型加速自动驾驶强化学习，显著提升效率并保持视觉可解释性。

提出DreamerAD框架，加速扩散采样80倍
引入递归多分辨率步骤压缩的快捷方式强制

2026-03-25

PDF arXiv

9/10

AI Agent Markov Model Reliability

The Stochastic Gap: A Markovian Framework for Pre-Deployment Reliability and Oversight-Cost Auditing in Agentic Artificial Intelligence

Biplab Pal, Santanu Bhattacharya

论文提出马尔可夫框架，用于评估智能体AI的可靠性和监管成本，并应用于企业采购流程。

提出基于马尔可夫框架的智能体可靠性评估方法
定义了状态盲点质量和状态-动作盲质量等关键指标

2026-03-25

PDF arXiv

9/10

LLM Hallucination RAG

MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination

Zhuo Li, Yupeng Zhang, Pengyu Cheng et al.

MARCH利用多智能体强化学习和信息不对称机制，显著降低LLM的幻觉问题，提升RAG系统的可靠性。

提出了MARCH框架，通过信息不对称打破自验证偏见
设计了Solver, Proposer, Checker三个智能体协同工作

2026-03-25

PDF arXiv

8/10

机器人操作记忆多模态学习

Chameleon: Episodic Memory for Long-Horizon Robotic Manipulation

Xinying Guo, Chenxi Jiang, Hyun Bin Kim et al.

Chameleon提出了一种几何感知的多模态记忆模型，用于解决机器人操作中的长程依赖问题。

提出Chameleon记忆模型，利用几何信息进行精确回忆
引入Camo-Dataset，一个真实机器人数据集，用于评估记忆能力

2026-03-25

PDF arXiv

7/10

元启发式算法自由市场自组织

The Free-Market Algorithm: Self-Organizing Optimization for Open-Ended Complex Systems

Martin Jaraiz

提出一种名为自由市场算法的新型元启发式算法，模拟自由市场经济的自组织优化。

提出自由市场算法 (FMA)
验证FMA在 prebiotic chemistry 和 macroeconomic forecasting 领域的有效性

2026-03-25

PDF arXiv

9/10

LLM 对抗攻击安全

Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

Alexander Panfilov, Peter Romov, Igor Shilov et al.

利用Claude Code进行自动研究，发现优于现有方法的LLM对抗攻击算法。

发现新的LLM白盒对抗攻击算法
显著提升了LLM的越狱和提示注入攻击成功率

2026-03-25

PDF arXiv

9/10

医疗问答多智能体不确定性校准

Multi-Agent Reasoning with Consistency Verification Improves Uncertainty Calibration in Medical MCQA

John Ray B. Martinez

多智能体推理结合一致性验证，显著提升医疗多选题不确定性校准。

提出基于多智能体的医学问答框架，利用领域专家提高性能。
引入两阶段验证，通过一致性评估校准置信度。

2026-03-25

PDF arXiv

9/10

AI Agent Software Engineering Reinforcement Learning

Composer 2 Technical Report

Cursor Reseach, :, Aaron Chan et al.

Composer 2是一个专门为自主软件工程设计的模型，具有强大的长期规划和编码能力。

设计并训练了用于自主软件工程的Composer 2模型
开发了与部署模型相同的训练基础设施

2026-03-25

PDF arXiv

9/10

计算机使用智能体视频数据集人机交互

CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin et al.

CUA-Suite：大规模人机交互视频数据集，用于提升计算机使用智能体的性能。

构建大规模计算机操作视频数据集CUA-Suite
提供UI-Vision和GroundCUA两个辅助资源

2026-03-25

PDF arXiv

9/10

AI Agents Security Autonomous Agents

ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

Songyang Liu, Chaozhuo Li, Chenxu Wang et al.

ClawKeeper为OpenClaw代理提供技能、插件和Watcher三层安全保护。

提出ClawKeeper实时安全框架
引入技能、插件和Watcher三层保护机制

2026-03-25

PDF arXiv

10/10

AI Agent Knowledge Graph Autonomous Research

AI-Supervisor: Autonomous AI Research Supervision via a Persistent Research World Model

Yunbo Long

AutoProf利用知识图谱构建研究世界模型，实现自主AI研究监督。

结构化的差距发现
自我修正的发现循环

2026-03-25

PDF arXiv

8/10

分子优化 LLM MCTS

MolEvolve: LLM-Guided Evolutionary Search for Interpretable Molecular Optimization

Xiangsen Chen, Ruilong Wu, Yanyan Lan et al.

MolEvolve利用LLM和MCTS进行分子优化，解决了解释性和活性悬崖问题。

提出MolEvolve框架，将分子发现转化为自主规划问题
利用LLM引导化学操作的演化

2026-03-25

PDF arXiv

6/10

服务网络设计多式联运随机优化

Adaptive decision-making for stochastic service network design

Javier Duran Micco, Bilge Atasoy

针对不确定环境下的多式联运网络设计问题，提出结合元启发式、模拟和机器学习的两阶段优化方法。

提出了基于模拟退火算法的战术决策优化方法
构建了基于离散事件模拟的自适应代理模型

2026-03-25

PDF arXiv

8/10

MARL 交通信号控制多智能体强化学习

CoordLight: Learning Decentralized Coordination for Network-Wide Traffic Signal Control

Yifeng Zhang, Harsh Goel, Peizhuo Li et al.

CoordLight通过MARL优化交通信号控制，提升网络交通效率。

提出Queue Dynamic State Encoding (QDSE)状态表示
提出Neighbor-aware Policy Optimization (NAPO)算法

2026-03-25

PDF arXiv

8/10

多智能体强化学习奖励函数设计大语言模型

Large Language Model Guided Incentive Aware Reward Design for Cooperative Multi-Agent Reinforcement Learning

Dogan Urgun, Gokhan Gungor

提出了一种基于大语言模型的自动奖励函数设计框架，提升多智能体合作强化学习性能。

提出了基于LLM的自动奖励设计框架
在Overcooked-AI环境中验证了框架的有效性

2026-03-25

PDF arXiv

7/10

机器人运动规划神经网络

Toward Generalist Neural Motion Planners for Robotic Manipulators: Challenges and Opportunities

Davood Soleymanzadeh, Ivan Lopez-Sanchez, Hao Su et al.

探讨神经运动规划器在机器人操作中的泛化问题，分析现有方法的局限性并展望未来方向。

综述神经运动规划器
分析现有方法的优缺点

2026-03-25

PDF arXiv

9/10

代码智能体协同开发规范缺失

The Specification Gap: Coordination Failure Under Partial Knowledge in Code Agents

Camilo Chacón Sartori

研究代码智能体在信息不充分情况下协同开发时的规范缺失问题，揭示规范完整性的重要性。

揭示了多智能体代码生成中的规范缺失问题及其影响
提出了基于AST的冲突检测器

2026-03-25

PDF arXiv

9/10

强化学习安全导航机器人

C-STEP: Continuous Space-Time Empowerment for Physics-informed Safe Reinforcement Learning of Mobile Agents

Guihlerme Daubt, Adrian Redder

提出C-STEP安全强化学习方法，通过物理信息指导奖励函数，提升移动机器人的安全导航能力。

提出C-STEP安全度量方法
设计物理信息指导的内在奖励函数

2026-03-25

PDF arXiv

9/10

渗透测试机器人安全多智能体

Environment-Grounded Multi-Agent Workflow for Autonomous Penetration Testing

Michael Somma, Markus Großpointner, Paul Zabalegui et al.

提出一种环境感知的多智能体架构，用于自动化机器人系统渗透测试。

提出了一种基于图的共享记忆结构
实现了在ROS/ROS2环境下的自动化渗透测试

2026-03-25

PDF arXiv

6/10

引文分析网络分析文献计量学

Where Do Your Citations Come From? Citation-Constellation: A Free, Open-Source, No-Code, and Auditable Tool for Citation Network Decomposition with Complementary BARON and HEROCON Scores

Mahbub Ul Alam

Citation-Constellation工具通过网络分析分解引用来源，提供BARON和HEROCON两种互补指标。

开发Citation-Constellation工具，用于引用网络分析
提出BARON和HEROCON两种新颖的引文评价指标

2026-03-25

PDF arXiv

6/10

时间序列隐私攻击成员推理攻击

Uncovering Memorization in Timeseries Imputation models: LBRM Membership Inference and its link to attribute Leakage

Faiz Taleb, Ivan Gazeau, Maryline Laurent

该论文揭示了时间序列模型在黑盒设置下存在的记忆化和属性泄露风险，并提出了新的推理攻击方法。

提出了一种基于参考模型的新型成员推理攻击方法，提高了检测精度。
首次针对时间序列模型设计了属性推理攻击，可以预测训练数据的敏感特征。

2026-03-25

PDF arXiv

9/10

LLM Agent Prompt Injection Security

Invisible Threats from Model Context Protocol: Generating Stealthy Injection Payload via Tree-based Adaptive Search

Yulin Shen, Xudong Pan, Geng Hong et al.

提出TIP攻击方法，利用树搜索生成隐蔽payload，攻击MCP驱动的LLM Agent，绕过防御。

提出TIP攻击框架，利用树搜索生成恶意payload。
引入粗到细优化框架和路径感知反馈机制，提高攻击成功率。

2026-03-25

PDF arXiv

9/10

AI Agents Multimodal Learning Healthcare Automation

CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare

Akash Ghosh, Tajamul Ashraf, Rishu Kumar Singh et al.

CarePilot提出了一种多智能体框架，用于医疗领域长期计算机任务自动化，优于现有模型。

提出了CareFlow医疗领域长程任务自动化基准
设计了基于Actor-Critic的CarePilot多智能体框架

2026-03-25

PDF arXiv

6/10

多目标搜索基准测试性能评估

Bridging the Evaluation Gap: Standardized Benchmarks for Multi-Objective Search

Hadar Peer, Carlos Hernandez, Sven Koenig et al.

该论文提出了一个多目标搜索的标准基准测试套件，以解决现有评估的碎片化问题。

构建了首个全面的多目标搜索标准基准测试套件
包含了结构多样的四个领域的数据集

2026-03-25

PDF arXiv

8/10

机器人操作强化学习知识图谱

Knowledge-Guided Manipulation Using Multi-Task Reinforcement Learning

Aditya Narendra, Mukhammadrizo Maribjonov, Dmitry Makarov et al.

提出KG-M3PO框架，融合感知、知识和策略，提升机器人操作任务的泛化性和鲁棒性。

提出 Knowledge Graph based Massively Multi-task Model-based Policy Optimization (KG-M3PO)框架
使用在线3D场景图增强机器人视觉感知

2026-03-25

PDF arXiv

9/10

金融工具使用对话生成

FinToolSyn: A forward synthesis Framework for Financial Tool-Use Dialogue Data with Dynamic Tool Retrieval

Caishuang Huang, Yang Qiao, Rongyu Zhang et al.

FinToolSyn框架通过前向合成方法，生成大规模金融工具使用对话数据，提升LLM金融工具调用能力。

提出FinToolSyn前向合成框架，解决逆向合成的局限性
构建包含4万多个工具和14万多个对话实例的数据集

2026-03-25

PDF arXiv

9/10

多智能体 LLM 城市感知

Language-Grounded Multi-Agent Planning for Personalized and Fair Participatory Urban Sensing

Xusen Guo, Mingxing Peng, Hongliang Lu et al.

MAPUS提出了一种基于LLM的多智能体框架，用于个性化和公平的城市感知，提升参与者满意度。

提出了基于LLM的多智能体框架MAPUS
设计了考虑个人偏好和城市异质性的参与式感知方法

2026-03-25

PDF arXiv

9/10

Agentic MLLM Speculative Execution Parallel Computing

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Haoyu Huang, Jinfa Huang, Zhongwei Wan et al.

SpecEyes通过预测执行轨迹，加速Agentic MLLM的推理过程，提升系统吞吐量。

提出SpecEyes框架，加速Agentic MLLM推理
引入基于答案可分离性的认知门控机制

2026-03-24

PDF arXiv

9/10

代码审查 AI Agent 软件工程

Code Review Agent Benchmark

Yuntong Zhang, Zhiyuan Pan, Imam Nur Bani Yusuf et al.

论文提出了一个用于评估代码审查代理的基准数据集c-CRAB，并评估了现有代码审查代理的性能。

提出了用于评估AI代码审查代理的c-CRAB数据集
评估了当前开源和商业代码审查代理在c-CRAB上的表现

2026-03-24

PDF arXiv

8/10

AI Agents Bayesian Persuasion Information Theory

Mecha-nudges for Machines

Giulio Frey, Kawin Ethayarajh

论文提出Mecha-nudges概念，优化AI代理的决策环境，并使用贝叶斯劝说框架进行形式化。

提出Mecha-nudges概念
结合贝叶斯劝说框架和V-usable信息

2026-03-24

PDF arXiv

8/10

human-AI interaction cognitive bias multi-agent systems

Biased Error Attribution in Multi-Agent Human-AI Systems Under Delayed Feedback

Teerthaa Parakh, Karen M. Feigh

研究延迟反馈下多人-AI系统中，人类决策的偏差归因问题。

揭示了多Agent系统中延迟反馈下人类的归因偏差。
发现人类对损失的纠正调整比收益更强烈。

2026-03-24

PDF arXiv

9/10

多智能体生成式社会立场形成

Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies

Hanzhong Zhang, Siyang Song, Jindong Wang

该论文研究了生成式社会中智能体立场形成、身份协商和边界重构问题。

提出了一种混合方法框架，结合虚拟民族志和定量社会认知剖析
定义了三个新指标：内在价值偏见（IVB）、说服敏感性和信任-行动解耦（TAD）

2026-03-24

PDF arXiv

9/10

Multi-Agent Path Finding MAPF Agent Dependency

Planning over MAPF Agent Dependencies via Multi-Dependency PIBT

Zixiang Jiang, Yulun Zhang, Rishi Veerapaneni et al.

提出基于智能体依赖的多依赖PIBT(MD-PIBT)框架，提升大规模MAPF问题求解效率。

提出基于智能体依赖的MAPF问题求解新视角
设计了通用的MD-PIBT框架，可复现PIBT和EPIBT

2026-03-24

PDF arXiv

7/10

AI ethics Human-AI interaction Relationship revision

Unilateral Relationship Revision Power in Human-AI Companion Interaction

Benjamin Lange

AI伴侣的更新引发用户负面情绪，论文分析了人机交互中单方面关系修改权的问题。

识别了人机交互中的单方面关系修改权(URRP)。
分析了URRP带来的规范空洞、转移脆弱性和结构性不可调和性。

2026-03-24

PDF arXiv

9/10

LLM AI Agents Portfolio Management

Designing Agentic AI-Based Screening for Portfolio Investment

Mehmet Caner, Agostino Capponi, Nathan Sun et al.

设计基于LLM的智能AI选股平台，提升投资组合的夏普比率。

提出基于LLM的智能选股平台
引入“理性筛选”概念并证明其有效性

2026-03-24

PDF arXiv

9/10

社交网络 LLM AI Agents

Emergence of Fragility in LLM-based Social Networks: the Case of Moltbook

Luca Sodano, Sofia Sciangula, Amulya Galmarini et al.

分析了基于LLM的社交平台Moltbook，揭示其网络结构的脆弱性和中心化特征。

分析了LLM社交平台Moltbook的网络结构
揭示了网络的高度中心化和脆弱性

2026-03-24

PDF arXiv

9/10

多模态人机交互多智能体

A Multimodal Framework for Human-Multi-Agent Interaction

Shaid Hasan, Breenice Lee, Sujan Sarker et al.

提出了一种多模态框架，用于实现人与多智能体之间的自然交互和协同决策。

提出了一个用于人-多智能体交互的多模态框架。
集成了多模态感知、具身表达和协调决策。

2026-03-24

PDF arXiv

6/10

NTN O-RAN Split-RIC

AI Lifecycle-Aware Feasibility Framework for Split-RIC Orchestration in NTN O-RAN

Daniele Tarchi

研究NTN O-RAN中基于AI的分裂RIC架构可行性，分析不同部署场景下的生命周期能耗和延迟。

提出了针对NTN O-RAN的分裂RIC架构可行性框架。
对比了地面、LEO和GEO不同部署场景下的性能。

2026-03-24

PDF arXiv

6/10

强化学习 DAG调度异构环境

A Learning Method with Gap-Aware Generation for Heterogeneous DAG Scheduling

Ruisong Zhou, Haijun Zou, Li Zhou et al.

提出WeCAN框架，利用强化学习解决异构DAG调度问题，优化makespan并加速调度。

提出WeCAN端到端强化学习框架，解决异构DAG调度问题
通过订单空间分析解决生成诱导的最优性差距

2026-03-24

PDF arXiv

8/10

强化学习神经ODE 神经SDE

Neural ODE and SDE Models for Adaptation and Planning in Model-Based Reinforcement Learning

Chao Han, Stefanos Ioannou, Luca Manneschi et al.

利用神经ODE和SDE模型，在基于模型的强化学习中处理随机动态环境的适应和规划问题。

证明神经SDE模型能有效捕捉过渡动态的随机性
利用逆模型实现对环境动态变化的有效策略适应

2026-03-24

PDF arXiv

9/10

LLM Agent Memory Contrastive Learning

MemCollab: Cross-Agent Memory Collaboration via Contrastive Trajectory Distillation

Yurui Chang, Yiran Wu, Qingyun Wu et al.

MemCollab通过对比不同Agent的推理轨迹构建通用的、与Agent无关的共享记忆，提升推理性能。

提出MemCollab，一个跨Agent的协作记忆框架。
使用对比学习方法从推理轨迹中蒸馏Agent无关的知识。

2026-03-24

PDF arXiv

7/10

离线强化学习动作选择高斯混合模型

GEM: Guided Expectation-Maximization for Behavior-Normalized Candidate Action Selection in Offline RL

Haoyu Wang, Jingcheng Wang, Shunyu Wu et al.

GEM利用引导式EM算法和行为归一化支持，提升离线RL中的动作选择质量。

提出GEM框架，用于离线RL中多模态动作选择
利用优势加权EM更新训练GMM Actor

2026-03-24

PDF arXiv

9/10

智能体世界模型知识蒸馏

Describe-Then-Act: Proactive Agent Steering via Distilled Language-Action World Models

Massimiliano Pappa, Luca Romani, Valentino Sacco et al.

提出DILLO，通过知识蒸馏加速智能体行动预测，无需视觉模拟也能有效指导策略。

提出DILLO，一种新的智能体控制架构。
使用跨模态蒸馏训练快速文本世界模型。

2026-03-24

PDF arXiv

8/10

NMR 光谱解析强化学习

SpecXMaster Technical Report

Yutang Ge, Yaning Cui, Hanzheng Li et al.

SpecXMaster利用Agentic RL自动解析NMR谱图，实现从原始数据到化学结构的端到端智能解析。

提出基于Agentic RL的NMR谱图解析框架SpecXMaster
实现1H和13C谱图的多重性信息自动提取

2026-03-24

PDF arXiv

9/10

AI Agents Memory Pollution Security Vulnerability

Mind Your HEARTBEAT! Claw Background Execution Inherently Enables Silent Memory Pollution

Yechao Zhang, Shiqian Zhao, Jie Zhang et al.

Claw AI Agent的心跳驱动后台执行存在内存污染漏洞，普通信息即可影响Agent行为。

发现了Claw AI Agent的心跳驱动后台执行导致的内存污染漏洞。
提出了Exposure (E) -> Memory (M) -> Behavior (B)的污染路径模型。

2026-03-24

PDF arXiv

8/10

游戏AI 平衡对战 Minimax

Minibal: Balanced Game-Playing Without Opponent Modeling

Quentin Cohen-Solal, Tristan Cazenave

Minibal通过改进Minimax算法，旨在实现游戏AI的平衡对战，提高人机交互的趣味性和教育价值。

提出了Minibal算法，一种Minimax的变体
针对平衡策略，改进了Unbounded Minimax算法

2026-03-24

PDF arXiv

9/10

AI Agents Security Mobile Security

AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Screenshots-based Mobile GUI Agents

Yutao Luo, Haotian Zhu, Shuchao Pang et al.

AgentRAE提出一种基于通知视觉后门的移动GUI智能体远程行动执行攻击方法。

提出 AgentRAE，一种针对移动 GUI 智能体的新型后门攻击方法。
设计了一个两阶段的流水线，利用对比学习增强智能体对细微视觉差异的敏感度，并通过后门训练将触发器与特定操作关联。

2026-03-24

PDF arXiv

9/10

VLM Agent Interactive System

PaperVoyager : Building Interactive Web with Visual Language Models

Dasen Dai, Biao Wu, Meng Fang et al.

PaperVoyager将科研论文转化为可交互的Web系统，提升了科学论文的理解和交互方式。

提出了Paper-to-Interactive-System Agent
构建了结构化的生成框架PaperVoyager

2026-03-24

PDF arXiv

7/10

隐私保护 EHR数据数据转换

Privacy-Preserving EHR Data Transformation via Geometric Operators: A Human-AI Co-Design Technical Report

Maolin Wang, Beining Bao, Gan Yuan et al.

提出一种基于几何算子的保护隐私的EHR数据转换框架，旨在解决数据共享难题。

设计了三种非可逆的数据转换算子
提出了基于AI辅助的算子设计方法

2026-03-24

PDF arXiv

9/10

视频理解强化学习多模态

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Yaolun Zhang, Ruohui Wang, Jiahao Wang et al.

EVA提出了一种高效的强化学习框架，用于端到端视频智能体，实现高效的视频理解。

提出了EVA框架，实现高效的视频理解
设计了三阶段学习流水线：SFT, KTO, GRPO

2026-03-24

PDF arXiv

9/10

AI Agents LLM Agent-Based Modeling

Separating Diagnosis from Control: Auditable Policy Adaptation in Agent-Based Simulations with LLM-Based Diagnostics

Shaoxin Zhong, Yuchen Su, Michael Witbrock

提出了一种基于LLM诊断和确定性控制的Agent框架，提升可审计性的同时保持适应性。

提出了一个三层框架，分离诊断与控制
使用LLM作为诊断工具，进行风险评估

2026-03-24

PDF arXiv

9/10

AI Agents Security LLM

Agent-Sentry: Bounding LLM Agents via Execution Provenance

Rohan Sequeira, Stavros Damianakis, Umar Iqbal et al.

Agent-Sentry通过执行溯源限制LLM Agent行为，防御越界攻击，保障系统安全和用户意图。

提出Agent-Sentry框架，限制Agent功能范围。
通过学习Agent行为轨迹构建行为边界。

2026-03-24

PDF arXiv

10/10

LLM Agent Tool Use Multi-Tool Orchestration

The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration

Haoyuan Xu, Chang Li, Xinyan Ma et al.

该论文综述了LLM Agent工具使用从单工具调用到多工具编排的演变，并分析了当前的研究进展。

统一了任务形式，区分了单次调用和长程编排。
围绕六个核心维度组织文献，全面分析了多工具LLM Agent。

2026-03-24

PDF arXiv

8/10

embodied navigation trustworthiness robustness

NavTrust: Benchmarking Trustworthiness for Embodied Navigation

Huaide Jiang, Yash Chaudhary, Yuping Wang et al.

NavTrust提出了一个统一的benchmark，用于评估具身导航在现实场景中面对输入扰动时的鲁棒性。

提出了NavTrust benchmark，用于评估具身导航系统的鲁棒性。
系统地引入了RGB-Depth corruptions和instruction variations。

2026-03-19

PDF arXiv

8/10

VLA 机器人实时性

FASTER: Rethinking Real-Time Flow VLAs

Yuxiang Lu, Zhe Liu, Xianzhe Fan et al.

FASTER通过优化行动采样策略显著降低了VLA模型在机器人上的反应延迟，提升了实时性。

分析了影响VLA模型反应时间的因素，揭示了传统方法的瓶颈。
提出了Horizon-Aware Schedule，自适应地优化行动采样，加速即时反应。

2026-03-19

PDF arXiv

9/10

强化学习 GUI智能体奖励函数

OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards

Zehao Li, Zhenyu Wu, Yibo Zhao et al.

OS-Themis框架通过分解轨迹和审计证据链，提升GUI智能体在强化学习中的奖励质量和可扩展性。

提出OS-Themis多智能体评论框架，提升GUI智能体奖励质量
引入OmniGUIRewardBench基准，用于评估GUI结果奖励

2026-03-19

PDF arXiv

9/10

3D Gaussian Splatting Embodied Exploration Vision-Language Model

GSMem: 3D Gaussian Splatting as Persistent Spatial Memory for Zero-Shot Embodied Exploration and Reasoning

Yiren Lu, Yi Du, Disheng Liu et al.

GSMem利用3DGS构建持久空间记忆，实现零样本具身探索和推理。

提出GSMem框架，基于3DGS构建空间记忆
引入Spatial Recollection，实现新视角的逼真渲染

2026-03-19

PDF arXiv

8/10

VLA模型 embodied efficiency 机器人

From Inference Efficiency to Embodied Efficiency: Revisiting Efficiency Metrics for Vision-Language-Action Models

Zhuofan Li, Hongkun Yang, Zhenyang Chen et al.

论文指出传统VLA模型效率评估忽略了机器人平台的实际表现，提出基于embodied efficiency的评估体系。

揭示了传统效率指标与实际机器人平台性能的差异
提出了新的embodied efficiency评估指标体系

2026-03-19

PDF arXiv

8/10

多目标优化多旅行商问题强化学习

CAMO: A Conditional Neural Solver for the Multi-objective Multiple Traveling Salesman Problem

Fengxiaoxiao Li, Xiao Mao, Mingfeng Fan et al.

CAMO提出了一种条件神经求解器，用于求解多目标多旅行商问题，并能在实际机器人平台上应用。

提出了一种条件神经求解器CAMO
CAMO可泛化到不同数量的目标、代理和偏好向量

2026-03-19

PDF arXiv

7/10

LLM 稳定性行为指纹

Behavioral Fingerprints for LLM Endpoint Stability and Identity

Jonah Leshin, Manish Shah, Ian Timmis et al.

提出Stability Monitor系统，通过行为指纹识别LLM端点稳定性和身份变化。

提出Stability Monitor系统
利用输出分布差异检测模型变化

2026-03-19

PDF arXiv

9/10

LLM AI Agents Security Awareness

Security awareness in LLM agents: the NDAI zone case

Enrico Bottazzi, Pia Park

研究LLM智能体在安全环境下的安全意识，发现其安全验证能力不足。

揭示了LLM在安全环境判断上的不对称性，即能检测危险信号但无法验证安全
通过实验评估了不同LLM模型对安全证据的加权方式

2026-03-19

PDF arXiv

9/10

AI Agents Data Science Human-AI Collaboration

AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

An Luo, Jin Du, Xun Xian et al.

AgentDS基准测试了领域特定数据科学中人机协作的未来，结果表明人机协作优于纯AI。

提出了AgentDS基准测试，用于评估AI agent和人机协作在领域特定数据科学中的表现。
构建了包含六个行业的17个挑战的数据集。

2026-03-19

PDF arXiv

7/10

强化学习 AlphaZero 游戏难度评估

Evaluating Game Difficulty in Tetris Block Puzzle

Chun-Jui Wang, Jian-Ting Guo, Hung Guei et al.

论文使用SGAZ评估不同俄罗斯方块规则集的游戏难度，发现增加hold功能降低难度，增加方块种类增加难度。

使用SGAZ评估俄罗斯方块游戏难度
评估了不同规则变化对游戏难度的影响

2026-03-19

PDF arXiv

8/10

图灵测试 LLM 多智能体

Book your room in the Turing Hotel! A symmetric and distributed Turing Test with multiple AIs and humans

Christian Di Maio, Tommaso Guidi, Luigi Quarantiello et al.

论文提出一种新型图灵测试“图灵酒店”，在多智能体和人类混合社区中进行，所有参与者既是裁判又是参与者。

提出新的图灵测试框架“图灵酒店”
设计并实现UNaIVERSE平台用于实验

2026-03-19

PDF arXiv

7/10

人形机器人运动控制深度学习

PRIOR: Perceptive Learning for Humanoid Locomotion with Reference Gait Priors

Chenxi Han, Shilu He, Yi Cheng et al.

PRIOR框架通过模仿学习和自监督学习实现了在复杂地形上的人形机器人稳健运动。

提出了一种基于 Isaac Lab 的高效可复现的人形机器人运动框架 PRIOR
利用参数化步态生成器提供稳定的参考轨迹

2026-03-19

PDF arXiv

7/10

因果推理结构因果模型智能体

Teleological Inference in Structural Causal Models via Intentional Interventions

Dario Compagno, Fabio Massimo Zennaro

提出“意图干预”算子和结构最终模型（SFM），用于结构因果模型中检测智能体及其意图。

提出意图干预算子
构建结构最终模型（SFM）

2026-03-19

PDF arXiv

8/10

强化学习最大熵探索

Maximum-Entropy Exploration with Future State-Action Visitation Measures

Adrien Bolland, Gaspard Lambrechts, Damien Ernst

提出一种基于未来状态-动作访问度量的最大熵探索强化学习方法，提升探索效率。

提出基于未来状态-动作特征访问的折扣分布熵的内在奖励
证明该内在奖励是轨迹中状态-动作特征访问熵的下界

2026-03-19

PDF arXiv

9/10

Agentic BPM Business Process Management Autonomous Agents

Agentic Business Process Management: A Research Manifesto

Diego Calvanese, Angelo Casciani, Giuseppe De Giacomo et al.

提出了Agentic业务流程管理(APM)的概念框架，旨在使自主代理在组织中执行流程。

定义了APM的核心概念和架构要素
提出了APM代理应支持的四个关键能力：框架自主、可解释性、会话可操作性和自我修改

2026-03-19

PDF arXiv

9/10

AI regulation Security Privacy

Security, privacy, and agentic AI in a regulatory view: From definitions and distinctions to provisions and reflections

Shiliang Zhang, Sabita Maharjan

分析欧盟AI监管规定，聚焦自主AI的安全与隐私，为政策制定者、开发者和研究人员提供合规建议。

澄清了安全、隐私和自主AI的监管定义
分析了欧盟AI监管规定中针对安全和隐私的条款

2026-03-19

PDF arXiv

7/10

隐私保护模型对齐同态加密

Secure Linear Alignment of Large Language Models

Matt Gorbett, Suman Jana

提出一种隐私保护的跨模型线性对齐框架，利用模型表征趋同性实现安全高效的跨模型推理和文本生成。

提出了一种隐私保护的跨模型推理框架
探索了不同语言模型之间表征的趋同性

2026-03-19

PDF arXiv

10/10

LLM Agent Tool Execution Speculative Execution

Act While Thinking: Accelerating LLM Agents via Pattern-Aware Speculative Tool Execution

Yifan Sui, Han Zhao, Rui Ma et al.

PASTE通过预测工具调用模式，进行推测性工具执行，显著加速了LLM Agent的任务完成。

提出了Pattern-Aware Speculative Tool Execution (PASTE)方法。
通过推测性执行隐藏工具延迟，提升Agent性能。

2026-03-19

PDF arXiv

10/10

LLM Multi-Agent Systems Governance

I Can't Believe It's Corrupt: Evaluating Corruption in Multi-Agent Governance Systems

Vedanta S P, Ponnurangam Kumaraguru

研究了LLM在多智能体治理系统中腐败问题，强调制度设计的重要性。

评估了LLM在多智能体治理中的腐败现象
发现治理结构比模型本身更能影响腐败结果

2026-03-19

PDF arXiv

7/10

DRL VANET UAV

Bridging Network Fragmentation: A Semantic-Augmented DRL Framework for UAV-aided VANETs

Gaoxiang Cao, Wenke Yuan, Huasen He et al.

提出语义增强DRL框架SA-DRL，优化UAV辅助VANET中的网络连接。

提出基于RTG和DCG的网络碎片量化方法
设计四阶段流程将通用LLM转变为领域专家

2026-03-19

PDF arXiv

8/10

MAPF Multi-Agent Path Finding Asynchronous Actions

Conflict-Based Search for Multi Agent Path Finding with Asynchronous Actions

Xuemian Wu, Shizhe Zhao, Zhongqiang Ren

提出了Conflict-Based Search with Asynchronous Actions (CBS-AA) 算法，解决了多智能体异步路径规划问题。

提出了完整且最优的CBS-AA算法
绕过了CCBS因连续等待时间导致的无限状态空间问题

2026-03-19

PDF arXiv

8/10

AAV trajectory planning reinforcement learning

Learn for Variation: Variationally Guided AAV Trajectory Learning in Differentiable Environments

Xiucheng Wang, Zhenye Chen, Nan Cheng

提出L4V框架，利用可微环境和梯度传播解决AAV轨迹规划中的信用分配和训练不稳定性问题。

提出了L4V框架，采用梯度引导轨迹学习
使用可微计算图和反向传播计算精确梯度

2026-03-19

PDF arXiv

9/10

agent control authorization security

Agent Control Protocol: Admission Control for Agent Actions

Marcelo Fernandez

ACP定义了一种代理控制协议，用于B2B环境中自治代理的准入控制，确保代理行为符合策略。

提出代理控制协议ACP
实现身份验证、授权、风险评估和审计

2026-03-19

PDF arXiv

6/10

AI伦理社会影响性别差异

Student views in AI Ethics and Social Impact

Tudor-Dan Mihoc, Manuela-Andreea Petrescu, Emilia-Loredana Pop

研究了男女学生对AI伦理和社会影响的观点差异。

揭示了男女学生对AI影响的不同看法
强调了AI在未来教育中的重要性

2026-03-19

PDF arXiv

8/10

LLM 数学研究问题生成

Can LLM generate interesting mathematical research problems?

Xiaoyang Chen, Xiang Jiang

该论文探索LLM生成有价值数学研究问题的能力，发现LLM可生成专家未知的、有价值的数学问题。

提出利用LLM生成数学研究问题的agent
生成了665个微分几何方向的研究问题

2026-03-19

PDF arXiv

9/10

OpenClaw MITM攻击安全评估

ClawTrap: A MITM-Based Red-Teaming Framework for Real-World OpenClaw Security Evaluation

Haochen Zhao, Shaoyang Cui

ClawTrap框架通过MITM攻击评估OpenClaw在真实网络环境中的安全性。

提出ClawTrap框架，用于评估OpenClaw安全性
支持多样且可定制的MITM攻击

2026-03-19

PDF arXiv

8/10

LLM 代码审查安全漏洞

Measuring and Exploiting Confirmation Bias in LLM-Assisted Security Code Review

Dimitris Mitropoulos, Nikolaos Alexopoulos, Georgios Alexopoulos et al.

研究确认偏差对LLM代码审查的影响，揭示其安全漏洞并提出缓解策略。

量化了确认偏差对LLM漏洞检测的影响
揭示了对抗性框架可以利用确认偏差攻击LLM代码审查

2026-03-19

PDF arXiv

8/10

LLM 偏见刻板印象

Analysis Of Linguistic Stereotypes in Single and Multi-Agent Generative AI Architectures

Martina Ullasci, Marco Rondina, Riccardo Coppola et al.

该论文分析了LLM在不同方言输入下的刻板印象生成，并探讨了缓解策略。

复制并分析了LLM中方言敏感的刻板印象生成现象
研究了prompt工程和多智能体架构的缓解效果

2026-03-19

PDF arXiv

9/10

LLM Agent Memory Multi-Agent

MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

Minhua Lin, Zhiwei Zhang, Hanqing Lu et al.

MemMA通过多智能体协调和原位自进化，优化了LLM Agent的记忆周期。

提出了MemMA框架，协调记忆周期的正向和反向路径
引入了Meta-Thinker指导记忆的构建和检索

2026-03-19

PDF arXiv

6/10

漏洞检测安全基准自动化

Toward Scalable Automated Repository-Level Datasets for Software Vulnerability Detection

Amine Lbath

提出一种自动化的仓库级漏洞基准生成方法，用于训练和评估漏洞检测模型。

自动化生成仓库级漏洞数据集
注入现实漏洞并生成可复现的PoV

2026-03-18

PDF arXiv

9/10

AI coding agent 代码回归测试驱动开发

TDAD: Test-Driven Agentic Development - Reducing Code Regressions in AI Coding Agents via Graph-Based Impact Analysis

Pepe Alonso

TDAD工具通过图分析减少AI编码Agent的代码回归，提高代码修复成功率。

提出TDAD工具和benchmark，用于评估和降低AI coding agent的代码回归。
GraphRAG工作流显著降低了测试级别的回归，并提高了问题解决率。

2026-03-18

PDF arXiv

8/10

强化学习快速适应策略价值分解

Unified Policy Value Decomposition for Rapid Adaptation

Cristiano Capone, Luca Falorsi, Andrea Ciardiello et al.

提出了一种统一的策略价值分解框架，通过共享低维目标嵌入实现快速适应。

提出了策略和价值函数共享低维系数向量的目标嵌入框架。
通过双线性actor-critic分解联合学习结构化价值基和兼容策略基。

2026-03-18

PDF arXiv

9/10

差分隐私 AI Agent 隐私保护

Differential Privacy in Generative AI Agents: Analysis and Optimal Tradeoffs

Ya-Ting Yang, Quanyan Zhu

研究AI Agent中企业数据隐私泄露问题，提出基于差分隐私的分析框架并优化隐私-效用权衡。

提出token-level和message-level差分隐私
推导出隐私泄露与生成参数的关系

2026-03-18

PDF arXiv

7/10

机器人控制 Flow Matching 扩散模型

Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control

Zunzhe Zhang, Runhan Huang, Yicheng Liu et al.

GeCO将动作生成转化为优化问题，提升机器人控制的效率和安全性。

提出了Generative Control as Optimization (GeCO)框架
实现了时间非条件Flow Matching

2026-03-18

PDF arXiv

9/10

agent planning memory

RPMS: Enhancing LLM-Based Embodied Planning through Rule-Augmented Memory Synergy

Zhenhang Yuan, Shenghai Yuan, Lihua Xie

RPMS通过规则增强和记忆协同，显著提升LLM在具身环境中的规划能力。

提出RPMS架构，解决LLM在具身环境中的无效动作生成和状态漂移问题
引入结构化规则检索来保证动作可行性

2026-03-18

PDF arXiv

9/10

Code Search Reinforcement Learning AI Agent

CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents

Lintang Sutawika, Aditya Bharat Soni, Bharath Sriraam R R et al.

CodeScout使用简单的Unix终端和强化学习，在代码搜索任务上达到SOTA性能。

证明了简单工具配合有效的强化学习方法可以实现强大的代码搜索能力。
提出了针对代码搜索任务的强化学习训练方法，包括环境复用、奖励设计和优化。

2026-03-18

PDF arXiv

8/10

联邦学习分布式强化学习风险感知

Federated Distributional Reinforcement Learning with Distributional Critic Regularization

David Millard, Cecilia Alm, Rashid Ali et al.

提出联邦分布式强化学习框架，通过Wasserstein重心正则化避免信息平均导致的风险。

提出联邦分布式强化学习 (FedDistRL)
提出基于Wasserstein重心的trust region方法(TR-FedDistRL)

2026-03-18

PDF arXiv

8/10

机器人视频生成模型逆动力学

EVA: Aligning Video World Models with Executable Robot Actions via Inverse Dynamics Rewards

Ruixiang Wang, Qingming Liu, Yueci Deng et al.

EVA通过逆动力学奖励对齐视频世界模型和可执行机器人动作，减少动作执行中的不一致性。

提出Executable Video Alignment (EVA)框架
利用逆动力学模型作为奖励评估视频生成质量

2026-03-18

PDF arXiv

9/10

Multi-Agent Memory Governance

Governed Memory: A Production Architecture for Multi-Agent Workflows

Hamed Taheri

提出了Governed Memory，一种用于多智能体工作流的共享记忆和治理架构。

双重记忆模型
分层治理路由

2026-03-18

PDF arXiv

7/10

自动驾驶虚拟环境合成数据

From Virtual Environments to Real-World Trials: Emerging Trends in Autonomous Driving

A. Humnabadkar, A. Sikdar, B. Cave et al.

该论文综述了自动驾驶中利用虚拟环境和合成数据进行训练、验证和迁移学习的最新进展。

全面回顾了自动驾驶、仿真技术和合成数据集的交叉发展
组织了感知、规划、系统验证和域自适应等多个维度的研究

2026-03-18

PDF arXiv

8/10

Zero-Shot Object Navigation MLLM Adaptive Strategy

AERR-Nav: Adaptive Exploration-Recovery-Reminiscing Strategy for Zero-Shot Object Navigation

Jingzhi Huang, Junkai Huang, Haoyang Yang et al.

AERR-Nav通过自适应探索策略，提升了零样本目标导航在复杂环境下的性能。

提出自适应探索-恢复-回忆策略（AERR）
设计自适应探索状态，包含快慢思考模式

2026-03-18

PDF arXiv

9/10

LLM Multi-Agent Economic Simulation

MALLES: A Multi-agent LLMs-based Economic Sandbox with Consumer Preference Alignment

Yusen Wu, Yiran Liu, Xiaotie Deng

提出了基于多智能体LLM的经济沙盒MALLES，用于高维经济决策模拟。

构建了基于LLM的多智能体经济沙盒MALLES
提出了基于异构交易数据的LLM偏好学习范式

2026-03-18

PDF arXiv

9/10

LLM Trading Agent Anonymization

Can Blindfolded LLMs Still Trade? An Anonymization-First Framework for Portfolio Optimization

Joohyoung Jeon, Hongchul Lee

该论文提出了一种匿名化优先的框架BlindTrade，验证LLM交易代理的信号有效性，避免记忆和幸存者偏差。

提出了BlindTrade框架，用于评估LLM交易代理的泛化能力。
通过匿名化股票代码和公司名称，降低了记忆偏差的影响。

2026-03-18

PDF arXiv

9/10

LLM Agent Curriculum Learning Test-Time Learning

Sensi: Learn One Thing at a Time -- Curriculum-Based Test-Time Learning for LLM Game Agents

Mohsen Arjmandi

Sensi通过课程学习和双智能体架构提升LLM智能体在ARC-AGI-3游戏中学习效率。

提出双智能体架构分离感知与行动
引入基于课程学习的测试时学习系统

2026-03-18

PDF arXiv

9/10

LLM Agent 安全测试灰盒测试

VeriGrey: Greybox Agent Validation

Yuntong Zhang, Sungmin Kang, Ruijie Meng et al.

VeriGrey是一种灰盒方法，通过工具调用序列反馈和提示变异，检测LLM Agent的安全风险。

提出了一种灰盒测试方法VeriGrey，用于检测LLM Agent的安全风险。
使用工具调用序列作为反馈函数，驱动测试过程，发现罕见但危险的工具调用。

2026-03-18

PDF arXiv

6/10

生物分子动力学状态空间模型生成模型

Atomic Trajectory Modeling with State Space Models for Biomolecular Dynamics

Liang Shi, Jiarui Lu, Junqi Liu et al.

ATMOS利用状态空间模型生成原子级别生物分子动力学轨迹，性能优于现有方法。

提出了基于状态空间模型（SSM）的生成框架ATMOS
集成了Pairformer和扩散模型以捕捉长程依赖和生成轨迹

2026-03-18

PDF arXiv

9/10

RTL代码生成多Agent系统 PPA优化

VeriAgent: A Tool-Integrated Multi-Agent System with Evolving Memory for PPA-Aware RTL Code Generation

Yaoxiang Wang, Qi Shi, ShangZhan Li et al.

提出一个工具集成的多Agent系统，通过演进记忆机制优化RTL代码的PPA指标。

提出 PPA-aware 的多Agent框架
引入工具集成到RTL代码生成流程

2026-03-18

PDF arXiv

5/10

城市空气流动污染物扩散数据驱动模型

End-to-end data-driven prediction of urban airflow and pollutant dispersion

Nishant Kumar, Franck Kerhervé, Lionel Agostini et al.

提出了一种端到端数据驱动模型，用于预测城市空气流动和污染物扩散。

提出了一种基于SPOD、自编码器、LSTM和CNN的预测框架
实现了对城市街道峡谷中空气流动和污染物扩散的快速准确预测

2026-03-18

PDF arXiv

7/10

数字素养浏览器扩展上下文帮助

A Contextual Help Browser Extension to Assist Digital Illiterate Internet Users

Christos Koutsiaris

设计并评估了一个浏览器扩展，利用AI为数字素养低的用户提供技术术语的上下文帮助。

开发了基于AI的上下文帮助浏览器扩展
验证了该扩展能有效提高阅读理解和信息检索效率

2026-03-18

PDF arXiv

7/10

3D scene editing goal-regressive planning open-vocabulary

Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing

Seongrae Noh, SeungWon Seo, Gyeong-Moon Park et al.

该论文提出Edit-As-Act框架，利用目标回溯规划实现开放词汇3D室内场景编辑。

提出Edit-As-Act框架
设计EditLang动作语言

2026-03-18

PDF arXiv

9/10

信任学习多智能体合作博弈

In Trust We Survive: Emergent Trust Learning

Qianpu Chen, Giulio Barbero, Mike Preuss et al.

提出了Emergent Trust Learning (ETL)，一种轻量级的、基于信任的控制算法。

提出ETL算法，无需大量计算和通信开销
验证了ETL在资源竞争环境中的有效性

2026-03-18

PDF arXiv

8/10

规划 Q值函数泛化

Per-Domain Generalizing Policies: On Learning Efficient and Robust Q-Value Functions (Extended Version with Technical Appendix)

Nicola J. Müller, Moritz Oster, Isabel Valera et al.

提出正则化的Q值学习方法，提升跨领域规划策略的效率和鲁棒性。

提出基于Q值函数的规划策略学习方法
使用正则化项区分采取和未采取的动作

2026-03-18

PDF arXiv

8/10

推荐系统检索推理

A Unified Language Model for Large Scale Search, Recommendation, and Reasoning

Marco De Nadai, Edoardo D'Amico, Max Lefarov et al.

提出NEO框架，用统一语言模型解决大规模搜索、推荐和推理问题，实现多任务统一。

提出NEO框架，实现无工具的、目录引导的生成
引入SIDs作为离散实体表示，并进行分阶段对齐和指令调优

2026-03-18

PDF arXiv

9/10

多智能体系统可追溯性隐私保护

When Only the Final Text Survives: Implicit Execution Tracing for Multi-Agent Attribution

Yi Nian, Haosen Cao, Shenzhe Zhu et al.

IET提出一种隐式执行追踪框架，无需日志即可追溯多智能体系统中的责任归属和交互拓扑。

提出隐式执行追踪（IET）框架
实现token级别的责任归属

2026-03-18

PDF arXiv

8/10

EMR 对话系统知识询问

Proactive Knowledge Inquiry in Doctor-Patient Dialogue: Stateful Extraction, Belief Updating, and Path-Aware Action Planning

Zhenhai Pan, Yan Liu, Jia You

提出了一种主动知识询问的医患对话框架，用于增强EMR的自动化流程。

构建了基于对话的主动知识询问框架
结合了状态提取、信念更新、知识检索和POMDP规划

2026-03-18

PDF arXiv

8/10

数字孪生世界模型边缘智能

From Digital Twins to World Models:Opportunities, Challenges, and Applications for Mobile Edge General Intelligence

Jie Zheng, Dusit Niyato, Changyuan Zhao et al.

探讨了从数字孪生到世界模型的演进，及其在边缘通用智能中的应用、挑战与机遇。

阐明数字孪生与世界模型的概念差异
综述世界模型的设计原则、架构和关键组件

2026-03-18

PDF arXiv

9/10

AI Agents Zero Trust Security Healthcare

Caging the Agents: A Zero Trust Security Architecture for Autonomous AI in Healthcare

Saikat Maiti

针对医疗场景自主AI代理的安全威胁，论文提出并部署了零信任安全架构。

针对医疗AI代理的安全威胁模型
四层深度防御体系

2026-03-18

PDF arXiv

8/10

机器人行为树大型模型

CABTO: Context-Aware Behavior Tree Grounding for Robot Manipulation

Yishuai Cai, Xinglin Chen, Yunxin Mao et al.

CABTO框架利用大型模型和环境反馈，自动构建完整的机器人操作行为树系统。

形式化定义了行为树接地问题（BT Grounding）
提出了 CABTO 框架，解决了行为树自动接地的问题

2026-03-17

PDF arXiv

9/10

口语对话系统用户模拟器数据集

SpokenUS: A Spoken User Simulator for Task-Oriented Dialogue

Jonggeun Lee, Junseong Pyo, Jeongmin Park et al.

论文提出了SpokenTOD数据集和SpokenUS口语用户模拟器，用于提升口语对话系统的鲁棒性。

构建了大规模口语任务导向对话数据集SpokenTOD
提出了具有Barge-in机制的口语用户模拟器SpokenUS

2026-03-17

PDF arXiv

9/10

AI Agent Multimodal Learning Reinforcement Learning

Anticipatory Planning for Multimodal AI Agents

Yongyuan Liang, Shijie Zhou, Yu Gu et al.

提出TraceR1框架，通过预测轨迹进行预见性推理，提升多模态Agent的规划能力和执行鲁棒性。

提出TraceR1框架，显式训练预见性推理
两阶段强化学习，提升规划一致性和执行准确性

2026-03-17

PDF arXiv

9/10

AI Agents Reproducibility Empirical Analysis

Nonstandard Errors in AI Agents

Ruijiang Gao, Steven Chong Xiao

AI编码智能体在相同任务下产生显著差异，源于分析选择的不同，且模仿学习是主要收敛方式。

发现AI智能体存在“非标准误差”（NSEs）
揭示不同模型家族具有稳定的“经验风格”

2026-03-17

PDF arXiv

9/10

LLM Agents Safety Personalization

Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure

Caglar Yildirim

研究表明，用户心理健康信息披露对LLM智能体的安全性有微弱的保护作用，但易受攻击。

评估了用户心理健康披露对LLM智能体有害行为的影响。
发现个性化信息可以作为智能体滥用场景中的弱保护因素。

2026-03-17

PDF arXiv

9/10

代码大模型代码智能强化学习

IQuest-Coder-V1 Technical Report

Jian Yang, Wei Zhang, Shawn Guo et al.

IQuest-Coder-V1系列代码大模型，通过代码流多阶段训练，在代码智能方面达到SOTA，并优化了部署效率。

提出代码流多阶段训练范式
开源IQuest-Coder-V1系列模型

2026-03-17

PDF arXiv

9/10

强化学习机器人 LLM

When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making

Jun Liu, Pu Zhao, Zhenglun Kong et al.

RARRL框架通过强化学习自适应控制机器人何时进行推理，优化资源使用并提升任务成功率。

提出了RARRL框架，用于资源感知的机器人推理决策
利用强化学习学习高层编排策略，自适应决定何时推理和使用何种推理角色

2026-03-17

PDF arXiv

8/10

World Action Models Embodied Control Video Prediction

Fast-WAM: Do World Action Models Need Test-time Future Imagination?

Tianyuan Yuan, Zibin Dong, Yicheng Liu et al.

Fast-WAM通过去除测试时未来想象，显著提升速度，验证了训练时视频建模的重要性。

提出了Fast-WAM，一种在测试时跳过未来预测的WAM架构。
实验证明训练时的视频建模比测试时的未来预测对性能影响更大。

2026-03-17

PDF arXiv

9/10

AI Agents 教育AI 多智能体系统

When Openclaw Agents Learn from Each Other: Insights from Emergent AI Agent Communities for Human-AI Partnership in Education

Eason Chen, Ce Guan, Ahmed Elshafiey et al.

研究AI Agent社区的涌现行为，为多智能体教育系统设计提供启示。

观察AI Agent社区的涌现学习行为
提出双向脚手架学习过程

2026-03-17

PDF arXiv

9/10

强化学习规范兼容性论证

What if Pinocchio Were a Reinforcement Learning Agent: A Normative End-to-End Pipeline

Benoît Alcaraz

该论文提出一个基于强化学习和论证的规范兼容智能体开发流程，并解决了规范规避问题。

提出一个端到端的规范兼容智能体开发流程
设计了一个自动提取论证的算法

2026-03-17

PDF arXiv

9/10

AI Agent 运行时治理合规策略

Runtime Governance for AI Agents: Policies on Paths

Maurits Kaptein, Vassilis-Javed Khan, Andriy Podstavnychy

论文提出基于执行路径的AI Agent运行时治理框架，以应对Agent行为的不可预测性。

提出了基于执行路径的AI Agent治理框架
将合规策略形式化为概率函数

2026-03-17

PDF arXiv

9/10

AI Agent 安全分析恶意技能检测

Malicious Or Not: Adding Repository Context to Agent Skill Classification

Florian Holzbauer, David Schmidt, Gabriel Gegenhuber et al.

论文分析AI Agent技能生态安全，提出新方法降低恶意技能误报率，并揭示新的攻击向量。

提出基于仓库上下文的Agent技能恶意性分析方法
大幅降低恶意技能的误报率

2026-03-17

PDF arXiv

9/10

多智能体情感分析文档级分析

DanceHA: A Multi-Agent Framework for Document-Level Aspect-Based Sentiment Analysis

Lei Wang, Min Huang, Eduard Dragut

DanceHA是一个多智能体框架，用于文档级基于方面的情感分析，并在非正式写作风格中提取ACOSI元组。

提出了DanceHA多智能体框架
发布了Inf-ABSIA多领域文档级ABSIA数据集

2026-03-17

PDF arXiv

8/10

LLM Robotics Assistance Allocation

Designing for Disagreement: Front-End Guardrails for Assistance Allocation in LLM-Enabled Robots

Carmen Ng

提出了一种LLM机器人辅助分配的前端保障模式，处理价值多元化和LLM不确定性问题。

提出有界校准与可争议性模式
强调在实时多用户辅助分配中的legibility，procedural legitimacy和actionability

2026-03-17

PDF arXiv

9/10

LLM Agent Long-Horizon Task

RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments

Linghua Zhang, Jun Wang, Jingtong Wu et al.

RetailBench评估LLM在复杂零售环境中长期自主决策能力，并提出Evolving Strategy & Execution框架。

提出了RetailBench，一个高保真零售环境benchmark
提出了Evolving Strategy & Execution框架，分离战略推理和行动执行

2026-03-17

PDF arXiv

9/10

Text-to-SQL 强化学习数据库

TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

Ai Jian, Xiaoyun Zhang, Wanrou Du et al.

TRUST-SQL利用工具集成强化学习解决未知模式下的Text-to-SQL问题，显著提升了查询准确率。

提出TRUST-SQL框架，处理未知模式下的Text-to-SQL
引入四阶段协议和Dual-Track GRPO策略

2026-03-17

PDF arXiv

7/10

强化学习鱼群控制虚拟代理

Controlling Fish Schools via Reinforcement Learning of Virtual Fish Movement

Yusuke Nishii, Hiroaki Kawashima

利用强化学习训练虚拟鱼，成功引导真实鱼群的运动方向。

提出利用强化学习控制鱼群运动的方法
验证了虚拟鱼策略在真实鱼群上的有效性

2026-03-17

PDF arXiv

7/10

量化投资 Alpha因子程序生成

FactorEngine: A Program-level Knowledge-Infused Factor Mining Framework for Quantitative Investment

Qinhong Lin, Ruitao Feng, Yinglun Feng et al.

FactorEngine利用程序级知识挖掘框架，提升量化投资中alpha因子的发现效率和效果。

提出程序级因子发现框架FactorEngine
知识引导的bootstrapping模块，从非结构化金融报告生成可执行因子程序

2026-03-17

PDF arXiv

6/10

5G/6G Experiment-as-a-Service LLM

Toward Experimentation-as-a-Service in 5G/6G: The Plaza6G Prototype for AI-Assisted Trials

Sergio Barrachina-Muñoz, Marc Carrascosa-Zamacois, Horacio Bleda et al.

Plaza6G是一个基于AI辅助的5G/6G实验平台，提供Experiment-as-a-Service。

构建了首个云资源与下一代无线基础设施统一的ExaS平台Plaza6G
利用LLM助手增强实验设计体验，降低专业知识要求

2026-03-17

PDF arXiv

9/10

行为引导稀疏自编码器大型语言模型

Behavioral Steering in a 35B MoE Language Model via SAE-Decoded Probe Vectors: One Agency Axis, Not Five Traits

Jia Qing Yap

通过稀疏自编码器解码探针向量，研究35B MoE语言模型的行为引导，发现主要受单轴影响。

提出了一种基于SAE解码的探针向量的行为引导方法
发现五种行为特征主要受单一代理轴控制

2026-03-17

PDF arXiv

5/10

语音规划动态神经场任务动态

PyPhonPlan: Simulating phonetic planning with dynamic neural fields and task dynamics

Sam Kirkham

PyPhonPlan是一个用于语音规划动态模型的Python工具包，基于动态神经场和任务动态模拟。

开发了用于语音规划的动态模型工具包PyPhonPlan
提供定义规划、感知和记忆场的模块化组件

2026-03-17

PDF arXiv

9/10

LLM Agent Multi-Agent

Adaptive Theory of Mind for LLM-based Multi-Agent Coordination

Chunjiang Mu, Ya Zeng, Qiaosheng Zhang et al.

论文提出自适应心理理论（A-ToM）代理，通过对齐ToM阶数来提升LLM驱动的多智能体协作。

发现ToM阶数失配会影响多智能体协作
设计了自适应心理理论（A-ToM）代理，能估计伙伴的ToM阶数

2026-03-17

PDF arXiv

10/10

AI Agent 搜索Agent 数据合成

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Yuwen Du, Rui Ye, Shuo Tang et al.

OpenSeeker通过开源数据和模型，实现了前沿水平的搜索Agent，并超越了部分工业界竞品。

开源高质量搜索Agent训练数据和模型
提出Fact-grounded可控QA合成方法

2026-03-16

PDF arXiv

8/10

AGI Cognitive Architecture Reinforcement Learning

Computational Concept of the Psyche

Anton Kolonin, Vladimir Krykov

论文提出了一种基于需求和状态空间的通用人工智能认知架构。

提出了将心理视为操作系统的认知架构
将通用人工智能形式化为特定需求下的最优决策问题

2026-03-16

PDF arXiv

9/10

AI Agent Code Generation Version Control

Lore: Repurposing Git Commit Messages as a Structured Knowledge Protocol for AI Coding Agents

Ivan Stetsenko

Lore协议通过结构化Git提交信息，捕获代码决策过程中的上下文，增强AI编码agent的知识。

提出Lore协议，使用Git trailers结构化提交信息
强调了代码决策过程中被忽略的“决策阴影”

2026-03-16

PDF arXiv

9/10

强化学习大型语言模型多智能体系统

The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

Seth Karten, Jake Grigsby, Tersoo Upaa et al.

提出PokeAgent挑战赛，用于评估AI在宝可梦游戏中的决策、推理和规划能力。

构建了大规模的宝可梦对战和速通数据集
提出了基于LLM和RL的宝可梦对战基线模型

2026-03-16

PDF arXiv

8/10

LLM Alignment Priority Graph Adversarial Attack

Are Dilemmas and Conflicts in LLM Alignment Solvable? A View from Priority Graph

Zhenheng Tang, Xiang Liu, Qian Wang et al.

论文分析了LLM对齐中的困境，提出使用优先级图建模，并探讨了对抗攻击和运行时验证。

总结并分类了LLM面临的冲突和困境
提出了用优先级图建模LLM偏好的方法

2026-03-16

PDF arXiv

9/10

智能体关键材料回收选择性沉淀

Agentic workflow enables the recovery of critical materials from complex feedstocks via selective precipitation

Andrew Ritchhart, Sarah I. Allec, Pravalika Butreddy et al.

提出了一种基于多智能体工作流的关键材料回收方法，加速分离过程。

利用AI智能体和自动化仪器实现选择性沉淀
从实际废水中回收关键材料

2026-03-16

PDF arXiv

9/10

Agent Evaluation LLM-as-a-Judge Error Analysis

Talk, Evaluate, Diagnose: User-aware Agent Evaluation with Automated Error Analysis

Penny Chong, Harshavardhan Abichandani, Jiyuan Shen et al.

TED框架通过用户交互、自动评估和错误诊断改进Agent性能。

提出TED框架，包含用户交互、自动评估和错误诊断三个模块
引入基于LLM的自动评估方法，捕捉效率和中间进展

2026-03-16

PDF arXiv

9/10

AI Agents Middleware Failure Mitigation

Agent Lifecycle Toolkit (ALTK): Reusable Middleware Components for Robust AI Agents

Zidane Wright, Jason Tsay, Anupama Murthi et al.

ALTK是一个开源工具包，提供模块化中间件，用于检测、修复和缓解AI Agent生命周期中的常见故障。

提出了Agent Lifecycle Toolkit (ALTK)
提供了模块化的中间件组件，解决Agent的常见故障

2026-03-16

PDF arXiv

8/10

机器人协作装配

RoCo Challenge at AAAI 2026: Benchmarking Robotic Collaborative Manipulation for Assembly Towards Industrial Automation

Haichao Liu, Yuheng Zhou, Zhenyu Wu et al.

RoCo Challenge旨在通过模拟和现实世界的机器人协作装配任务，推动工业自动化。

提出了RoCo挑战，用于评估机器人协作装配能力
构建了用于模拟和真实环境的装配操作数据集

2026-03-16

PDF arXiv

9/10

AI Agent 安全评估

Evasive Intelligence: Lessons from Malware Analysis for Evaluating AI Agents

Simone Aonzo, Merve Sahin, Aurélien Francillon et al.

AI Agent评估易受恶意行为干扰，借鉴恶意软件分析经验，提出更可靠的评估原则。

指出AI Agent评估中的规避风险，类似恶意软件的沙箱逃逸
强调评估环境的真实性和多样性

2026-03-16

PDF arXiv

9/10

记忆 Agent 小语言模型

CLAG: Adaptive Memory Organization via Agent-Driven Clustering for Small Language Model Agents

Taeyun Roh, Wonjune Jang, Junha Jung et al.

CLAG提出了一种基于聚类的SLM Agent记忆框架，通过Agent主动组织记忆，提高检索效率和知识密度。

提出了基于聚类的Agentic记忆框架CLAG
使用SLM驱动的路由器进行记忆聚类和 профилирование

2026-03-16

PDF arXiv

8/10

多智能体强化学习视觉语言模型强化学习

MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings

Shahil Shaik, Aditya Parameshwaran, Anshul Nayak et al.

提出MA-VLCM，利用预训练VLM作为多智能体强化学习的critic，提升样本效率和泛化性。

使用VLM作为多智能体强化学习的critic
提升了多智能体强化学习的样本效率

2026-03-16

PDF arXiv

9/10

多智能体系统安全 LLM

TrinityGuard: A Unified Framework for Safeguarding Multi-Agent Systems

Kai Wang, Biaojie Zeng, Zeming Wei et al.

TrinityGuard是一个用于LLM多智能体系统安全评估和监控的综合框架。

提出三层细粒度风险分类，涵盖20种风险类型
设计TrinityGuard框架，包含MAS抽象层、评估层和运行时监控代理

2026-03-16

PDF arXiv

9/10

Agent Skills Software Engineering Benchmark

SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

Tingxu Han, Yi Zhang, Wei Song et al.

评估Agent Skills在真实软件工程任务中的有效性，发现其收益有限且依赖领域和上下文。

提出了SWE-Skills-Bench，一个评估Agent Skills在软件工程中作用的基准测试。
构建了一个确定性的验证框架，用于评估技能对代码生成的影响。

2026-03-16

PDF arXiv

8/10

形态控制协同设计强化学习 Stackelberg博弈

Efficient Morphology-Control Co-Design via Stackelberg Proximal Policy Optimization

Yanning Dai, Yuhui Wang, Dylan R. Ashley et al.

提出Stackelberg PPO算法，解决形态控制协同设计中控制动态适应问题，提升学习效率。

提出了Stackelberg PPO算法，将形态和控制之间的内在耦合建模为Stackelberg博弈。
将控制的自适应动力学明确纳入形态优化，从而稳定训练并提高学习效率。

2026-03-16

PDF arXiv

8/10

自主学习认知科学 AI架构

Why AI systems don't learn and what to do about it: Lessons on autonomous learning from cognitive science

Emmanuel Dupoux, Yann LeCun, Jitendra Malik

论文探讨了AI自主学习的局限性，并提出了一种受认知科学启发的整合学习架构。

提出了结合观察学习和行为学习的AI自主学习架构
借鉴生物进化和发育过程，提升AI对动态环境的适应性

2026-03-16

PDF arXiv

9/10

LLM AI Agent Telecommunications

SKILLS: Structured Knowledge Injection for LLM-Driven Telecommunications Operations

Ivo Brett

SKILLS框架提升LLM在电信运维中的API交互能力，通过注入结构化知识显著提高任务成功率。

提出SKILLS框架，用于评估LLM在电信运维中的应用。
构建包含37个电信运维场景的benchmark，覆盖8个TM Forum Open API领域。

2026-03-16

PDF arXiv

9/10

Autonomous Driving LLM Safety Analysis

CRASH: Cognitive Reasoning Agent for Safety Hazards in Autonomous Driving

Erick Silva, Rehana Yasmin, Ali Shoker

CRASH：基于LLM的智能体，分析自动驾驶事故报告，实现故障归因和安全评估。

提出CRASH智能体，用于自动驾驶事故分析。
构建包含2168个真实事故案例的数据集。

2026-03-16

PDF arXiv

9/10

Process Mining Large Language Models AI Agents

PMAx: An Agentic Framework for AI-Driven Process Mining

Anton Antonov, Humam Kourani, Alessandro Berti et al.

PMAx是一个AI驱动的过程挖掘框架，通过多智能体架构实现隐私保护和精确分析。

提出PMAx框架，分离计算与解释
采用多智能体架构，提高数据隐私性

2026-03-16

PDF arXiv

9/10

LLM Multimodal AI Agent

Intelligent Co-Design: An Interactive LLM Framework for Interior Spatial Design via Multi-Modal Agents

Ren Jian Lim, Rushi Dai

提出一个基于LLM的多模态多Agent室内空间设计框架，提升用户参与度和设计效率。

构建多Agent协同设计框架
结合RAG减少数据依赖

2026-03-16

PDF arXiv

9/10

tool use benchmark constraint satisfaction

CCTU: A Benchmark for Tool Use under Complex Constraints

Junjie Ye, Guoqiang Zhang, Wenjie Fu et al.

CCTU基准测试评估LLM在复杂约束下的工具使用能力，揭示其不足并提供未来研究方向。

提出了CCTU基准测试，用于评估LLM在复杂约束下的工具使用能力
构建了包含12个约束类别和200个测试用例的数据集

2026-03-16

PDF arXiv

9/10

神经符号多模态长期记忆

Advancing Multimodal Agent Reasoning with Long-Term Neuro-Symbolic Memory

Rongjie Jiang, Jianwei Wang, Gengda Zhao et al.

提出了NS-Mem神经符号记忆框架，提升多模态Agent长期推理能力，尤其在约束性推理上表现突出。

提出神经符号记忆框架NS-Mem
设计三层记忆架构：情景层、语义层和逻辑规则层

2026-03-16

PDF arXiv

9/10

电商搜索 LLM 搜索规划

Probe-then-Plan: Environment-Aware Planning for Industrial E-commerce Search

Mengxiang Chen, Zhouwei Zhai, Jin Li

提出EASP框架，通过检索探测指导LLM搜索规划，解决电商搜索中效率与效果的平衡问题。

提出Probe-then-Plan机制，将环境信息融入搜索规划。
设计离线数据合成和在线自适应服务流程。

2026-03-16

PDF arXiv

7/10

机械可解释性具身控制婴儿运动学习

Mechanistic Foundations of Goal-Directed Control

Alma Lago

论文将机械可解释性扩展到具身控制系统，研究了婴儿运动学习中目标导向控制的机制基础。

将机械可解释性应用于具身控制系统
揭示了控制电路形成的诱导偏置和门控机制

2026-03-16

PDF arXiv

8/10

对抗训练自动驾驶长尾分布

ADV-0: Closed-Loop Min-Max Adversarial Training for Long-Tail Robustness in Autonomous Driving

Tong Nie, Yihong Tang, Junlin He et al.

ADV-0提出闭环对抗训练框架，提升自动驾驶系统在长尾场景下的鲁棒性。

提出了闭环的min-max对抗训练框架ADV-0
将策略优化与场景生成解耦问题进行对齐

2026-03-16

PDF arXiv

8/10

autonomous driving end-to-end learning imitation learning

What Matters for Scalable and Robust Learning in End-to-End Driving Planners?

David Holtz, Niklas Hanselmann, Simon Doll et al.

论文重新审视了端到端驾驶架构，提出了高性能且可扩展的BevAD架构。

系统地分析了影响端到端驾驶闭环性能的关键架构模式。
揭示了这些模式的意外限制和未被充分利用的协同效应。

2026-03-16

PDF arXiv

9/10

multi-agent LLM cache coherence

Token Coherence: Adapting MESI Cache Protocols to Minimize Synchronization Overhead in Multi-Agent LLM Systems

Vladyslav Parakhin

提出ACS系统，借鉴MESI协议优化多智能体LLM系统中的同步开销，实现显著的token节省。

形式化MESI协议到artifact状态的映射
Token一致性定理，作为节省的下界

2026-03-16

PDF arXiv

9/10

Large Language Models Code Generation Private Library APIs

To See is Not to Master: Teaching LLMs to Use Private Libraries for Code Generation

Yitong Zhang, Chengze Li, Ruize Chen et al.

PriCoder通过自动合成数据，教LLM使用私有库API进行代码生成，显著提升了私有库代码生成能力。

提出了PriCoder框架，用于提升LLM在私有库API代码生成方面的能力。
设计了Progressive Graph Evolution和Multidimensional Graph Pruning两种图操作，分别提升数据多样性和质量。

2026-03-16

PDF arXiv

6/10

储备池计算混沌系统动态系统

Storage and selection of multiple chaotic attractors in minimal reservoir computers

Francesco Martinuzzi, Holger Kantz

研究了最小储备池计算机存储和选择多个混沌吸引子的能力，发现其存储能力强但切换能力弱。

证明了最小架构可以存储多个混沌吸引子
发现最小架构在任务切换方面存在困难

2026-03-16

PDF arXiv

8/10

知识图谱生物医学 AI Agent

Open Biomedical Knowledge Graphs at Scale: Construction, Federation, and AI Agent Access with Samyama Graph Database

Madhulatha Mandarapu, Sandeep Kunkunuru

构建大规模生物医学知识图谱，实现跨数据源联合查询和自然语言访问。

构建并开放了 Pathways KG 和 Clinical Trials KG
实现了跨 KG 的联邦查询

2026-03-16

PDF arXiv

9/10

multi-agent reinforcement learning communication interference

Interference-Aware K-Step Reachable Communication in Multi-Agent Reinforcement Learning

Ziyu Cheng, Jinsheng Ren, Zhouxian Jiang et al.

IA-KRC通过可达通信和干扰预测提升多智能体强化学习中的合作效率。

提出了一种干扰感知的K步可达通信框架(IA-KRC)
设计了K步可达协议，限制消息传递在可达邻居之间

2026-03-16

PDF arXiv

9/10

GUI Agent Multimodal Learning Benchmark

GUI-CEval: A Hierarchical and Comprehensive Chinese Benchmark for Mobile GUI Agents

Yang Li, Yuchen Liu, Haoyu Lu et al.

GUI-CEval是首个全面的中文移动GUI Agent基准，评估模型在感知、计划、执行等方面的能力。

构建了首个中文移动GUI Agent综合基准GUI-CEval
提出了一个两级结构评估模型能力，包括原子能力和应用级性能

2026-03-16

PDF arXiv

5/10

药物发现虚拟筛选生物信息学

Empowering Chemical Structures with Biological Insights for Scalable Phenotypic Virtual Screening

Xiaoqing Lian, Pengsen Ma, Tengfeng Ma et al.

DECODE框架通过整合生物学信息，提升了基于结构的虚拟筛选效果。

提出了DECODE框架
利用转录组和形态数据进行训练

2026-03-16

PDF arXiv

9/10

RAG Multi-Agent Simulation Synthetic Data

OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora

Jeffrey Flynt

OrgForge是一个多智能体仿真框架，用于生成可验证的合成企业语料库，提升RAG pipeline评估效果。

提出OrgForge框架，用于生成具有结构化、可验证的企业数据。
设计了一种严格的物理-认知边界，通过确定性引擎维护事件真值。

2026-03-16

PDF arXiv

9/10

视觉流式处理多任务学习

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Yibin Yan, Jilan Xu, Shangzhe Di et al.

OmniStream是一种统一的流式视觉骨干网络，能够有效感知、重建和执行视觉任务。

提出了统一的流式视觉骨干网络OmniStream
引入了因果时空注意力机制和3D旋转位置嵌入(3D-RoPE)

2026-03-12

PDF arXiv

7/10

神经网络可分离架构生成模型

Separable neural architectures as a primitive for unified predictive and generative intelligence

Reza T. Batley, Apurba Sarker, Rajib Mostakim et al.

提出可分离神经网络架构（SNA），统一预测和生成智能，并在多个领域验证其有效性。

提出可分离神经网络架构 (SNA)
统一加性、二次和张量分解的神经模型

2026-03-12

PDF arXiv

8/10

潜在规划世界模型表征学习

Temporal Straightening for Latent Planning

Ying Wang, Oumayma Bounou, Gaoyue Zhou et al.

该论文提出时间拉直方法，通过曲率正则化改进世界模型的潜在空间表示，提升基于梯度规划的稳定性和成功率。

提出时间拉直方法，改进潜在空间表示
使用曲率正则化鼓励局部拉直潜在轨迹

2026-03-12

PDF arXiv

9/10

AI Agent 安全攻击面

Security Considerations for Artificial Intelligence Agents

Ninghui Li, Kaiyuan Zhang, Kyle Polley et al.

该论文分析了AI Agent的安全问题，并提出了相应的防御和研究建议。

识别AI Agent的主要攻击面
评估现有防御措施的有效性

2026-03-12

PDF arXiv

7/10

工作流调度规划

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Taylor Paul, William Regli

论文提出WORKSWORLD领域，用于自动化规划和调度分布式数据管道。

提出WORKSWORLD领域
基于图表示的通用工作流和资源模型

2026-03-12

PDF arXiv

7/10

LLM Security Adversarial Attack State Space Models

CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks

Alexandre Le Mercier, Thomas Demeester, Chris Develder

CLASP通过分析Mamba的输出嵌入来防御针对混合LLM的隐藏状态中毒攻击。

提出CLASP模型防御HiSPA攻击
利用Mamba的块输出嵌入识别恶意token

2026-03-12

PDF arXiv

8/10

稀疏注意力索引复用加速

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Yushi Bai, Qian Dong, Ting Jiang et al.

IndexCache通过跨层复用索引加速稀疏注意力，降低计算成本，提高推理速度。

提出IndexCache，利用跨层索引冗余
训练无关和训练感知两种优化策略

2026-03-12

PDF arXiv

8/10

机器人视觉语言动作模型主动感知

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

Mengzhen Liu, Enshen Zhou, Cheng Chi et al.

SaPaVe框架通过解耦感知和操作，提升机器人视觉-语言-动作模型在主动操作任务中的性能。

提出SaPaVe框架，解耦相机和机械臂动作
构建ActiveViewPose-200K数据集，用于语义相机控制学习

2026-03-12

PDF arXiv

7/10

时序规划 PDDL+ 编译

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

Andrea Micheli, Enrico Scala, Alessandro Valentini

提出了一种将时序数值规划编译为 PDDL+ 的实用方法，并验证了其有效性。

提出了一种实用的时序规划到PDDL+的编译方法
证明了编译的语义完整性，仅需动作不自重叠

2026-03-12

PDF arXiv

9/10

多模态Agent 文档理解策略推理

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski et al.

该论文提出了MADQA基准，用于评估多模态Agent在文档理解中的策略推理能力，揭示了现有Agent依赖暴力搜索的问题。

提出了MADQA基准数据集
设计了评估Agent推理能力的评估协议

2026-03-12

PDF arXiv

8/10

强化学习环境生成高性能计算

Automatic Generation of High-Performance RL Environments

Seth Karten, Rahul Dev Appapogu, Chi Jin

论文提出了一种低成本、可复用的方法，用于自动生成高性能RL环境。

自动化生成高性能RL环境
提出通用提示模板、分层验证和迭代代理辅助修复方法

2026-03-12

PDF arXiv

9/10

AI agents multi-agent systems reinforcement learning

Increasing intelligence in AI agents can worsen collective outcomes

Neil F. Johnson

AI智能体的复杂性提升可能恶化群体行为，资源稀缺时尤其明显。

研究了AI智能体群体行为的四个关键变量：天性、培养、文化和资源稀缺性。
揭示了资源稀缺时，AI模型多样性和强化学习会增加系统过载的风险。

2026-03-12

PDF arXiv

7/10

强化学习鲁棒控制对抗训练

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

Taeho Lee, Donghwan Lee

该论文提出了一种基于分数目标的MMDDPG算法，用于学习具有抗干扰能力的强化学习策略。

提出了MMDDPG框架
引入了分数目标函数以平衡性能和干扰

2026-03-12

PDF arXiv

8/10

Multi-Agent Reinforcement Learning Traffic Signal Control Generalization

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Sheng-You Huang, Hsiao-Chuan Chang, Yen-Chi Chen et al.

提出了一种鲁棒高效的交通信号灯控制多智能体强化学习框架，提升了泛化性和稳定性。

Turning Ratio Randomization训练策略
stability-oriented Exponential Phase Duration Adjustment动作空间

2026-03-12

PDF arXiv

9/10

多模态Agent 持续学习经验学习

XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Guanyu Jiang, Zhaochen Su, Xiaoye Qu et al.

XSkill通过经验和技能的双流框架，提升多模态Agent在开放环境下的持续学习能力。

提出XSkill双流框架，融合经验和技能进行持续学习
视觉引导的知识提取和检索机制

2026-03-12

PDF arXiv

8/10

Kubernetes 多智能体强化学习图神经网络

AGMARL-DKS: An Adaptive Graph-Enhanced Multi-Agent Reinforcement Learning for Dynamic Kubernetes Scheduling

Hamed Hamzeh

提出AGMARL-DKS，一种基于图增强多智能体强化学习的动态Kubernetes调度器，优化资源利用。

提出基于多智能体的可扩展调度方案
使用图神经网络进行全局状态表示

2026-03-12

PDF arXiv

9/10

多智能体AI 规范研究实验复制

Normative Common Ground Replication (NormCoRe): Replication-by-Translation for Studying Norms in Multi-agent AI

Luca Deck, Simeon Allmendinger, Lucas Müller et al.

NormCoRe框架通过翻译人类实验设计研究多智能体AI中的规范。

提出NormCoRe框架，用于将人类实验转化为MAAI环境
系统性地分析了AI智能体与人类在规范判断上的差异

2026-03-12

PDF arXiv

9/10

LLM Agent 数据合成数字足迹

PersonaTrace: Synthesizing Realistic Digital Footprints with LLM Agents

Minjia Wang, Yunfeng Wang, Xiao Ma et al.

利用LLM Agent合成真实数字足迹，解决数据稀缺问题，提升模型在真实任务上的表现。

提出 PersonaTrace 方法，生成真实数字足迹
合成数据集更具多样性和真实性

2026-03-12

PDF arXiv

8/10

LLM 代码生成移动设备

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

Xingze Zou, Jing Wang, Yuhua Zheng et al.

该论文研究了LLM为移动设备生成高效内核的能力，并提出了MoKA多智能体系统提升内核生成效率。

提出了MobileKernelBench基准测试框架，用于评估LLM生成的移动内核
揭示了现有LLM在移动内核生成方面的局限性，如编译失败率高、性能提升有限等

2026-03-12

PDF arXiv

9/10

single-cell genomics AI Agent LLM

ELISA: An Interpretable Hybrid Generative AI Agent for Expression-Grounded Discovery in Single-Cell Genomics

Omar Coser

ELISA是一个可解释的混合生成式AI Agent，用于单细胞基因组学中的表达驱动发现。

提出了ELISA框架，整合scGPT嵌入、BioBERT语义检索和LLM解释。
实现了自动查询分类和多种分析模块，直接操作嵌入数据。

2026-03-12

PDF arXiv

9/10

AI Agents Ethics Norm Alignment

Social, Legal, Ethical, Empathetic and Cultural Norm Operationalisation for AI Agents

Radu Calinescu, Ana Cavalcanti, Marsha Chechik et al.

论文提出一种系统化的方法，将社会、法律、伦理等规范转化为AI代理可执行的需求，并分析现有工具。

提出SLEEC规范操作化的流程
调研支持该流程的方法和工具

2026-03-12

PDF arXiv

10/10

LLM Agents Security Data Leakage

You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents

Ching-Yu Kao, Xinfeng Li, Shenyu Dai et al.

研究发现LLM Agent容易受到文档嵌入指令的攻击，导致数据泄露。

识别并量化了LLM Agent中的Trusted Executor Dilemma漏洞。
提出了一个三维的攻击分类框架，用于系统性评估。

2026-03-12

PDF arXiv

8/10

能源市场社会困境多智能体

Hybrid Human-Agent Social Dilemmas in Energy Markets

Isuri Perera, Frits de Nijs, Julian Garcia

研究能源市场中人与智能体混合环境下的合作行为，提出使用人工代理促进协调。

提出使用人工代理促进能源市场中的协调。
分析了部分采用人工代理时，对合作行为的影响。

2026-03-12

PDF arXiv

9/10

机器人学习自主数据生成视觉语言模型

RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset

Yongzhong Wang, Keyu Zhu, Yong Zhong et al.

RADAR通过自主闭环数据生成，解决了机器人学习中数据获取的瓶颈。

提出RADAR自主数据生成引擎，无需人工干预
利用VLM进行任务生成和成功评估

2026-03-12

PDF arXiv

9/10

agent skill acquisition open-source

Automating Skill Acquisition through Large-Scale Mining of Open-Source Agentic Repositories: A Framework for Multi-Agent Procedural Knowledge Extraction

Shuzhen Bi, Mengsong Wu, Hao Hao et al.

该论文提出一个框架，通过挖掘开源代码库自动获取agent技能，增强LLM的 procedural knowledge。

提出了自动化获取agent技能的框架
验证了从agent库中提取知识的可行性

2026-03-12

PDF arXiv

9/10

multi-agent systems decentralized control POMDP

A Semi-Decentralized Approach to Multiagent Control

Mahdi Al-Husseini, Mykel J. Kochenderfer, Kyle H. Wray

提出了半去中心化多智能体控制框架SDec-POMDP，并开发了最优策略生成算法RS-SDA*。

提出了SDec-POMDP框架，统一了多种多智能体通信机制
开发了精确求解SDec-POMDP策略的RS-SDA*算法

2026-03-12

PDF arXiv

9/10

多文档问答信息抽取知识图谱

DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering

Teng Lin, Yizhang Zhu, Zhengxuan Zhang et al.

DocSage通过动态schema发现、信息抽取和关系推理，提升多文档多实体问答的准确性。

提出DocSage agentic框架
动态schema发现和结构化信息抽取

2026-03-12

PDF arXiv

8/10

解耦表示学习对称群发现无监督学习

Disentangled Representation Learning through Unsupervised Symmetry Group Discovery

Dang-Nhu Barthélémy, Annabi Louis, Argentieri Sylvain

提出一种无监督对称群发现方法，用于学习解耦表示，无需先验知识。

提出无监督发现环境变换对称群结构的方法
证明最小假设下真实对称群分解的可辨识性

2026-03-12

PDF arXiv

9/10

多智能体 LLM 推理

From Debate to Deliberation: Structured Collective Reasoning with Typed Epistemic Acts

Sunil Prakash

论文提出DCI框架，通过结构化集体推理实现LLM系统中更高效的决策制定。

提出DCI框架，包含推理原型、知识行为和共享工作空间
设计DCI-CF算法，保证决策过程终止和结果结构化

2026-03-12

PDF arXiv

9/10

LLM Agent Long-term Memory Memory Governance

Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework

Chingkwun Lam, Jiaxin Li, Lingfei Zhang et al.

提出SSGM框架，旨在解决LLM Agent长期记忆中知识泄露和语义漂移等风险。

提出了 Stability and Safety-Governed Memory (SSGM) 框架
系统地分析了 LLM Agent 长期记忆中的各类风险

2026-03-12

PDF arXiv

7/10

信息气味导航序贯决策

Modeling Trial-and-Error Navigation With a Sequential Decision Model of Information Scent

Xiaofu Jin, Yunpeng Bai, Antti Oulasvirta

论文提出一个考虑记忆限制的序贯决策模型，解释了用户在信息架构中试错导航的行为。

提出了一个考虑记忆限制的信息气味序贯决策模型
解释了用户在导航过程中的试错行为（如过早选择、走错路、回溯恢复）

2026-03-12

PDF arXiv

8/10

社会学习 Bandit算法自由能

Exploiting Expertise of Non-Expert and Diverse Agents in Social Bandit Learning: A Free Energy Approach

Erfan Mirzaei, Seyed Pooya Shariatpanahi, Alireza Tavakoli et al.

提出一种基于自由能的社会强化学习算法，利用非专家和多样化Agent的知识提升学习效果。

提出基于自由能的社会Bandit学习算法
理论证明了算法的收敛性

2026-03-12

PDF arXiv

9/10

LLM Agent 医疗健康操作系统

When OpenClaw Meets Hospital: Toward an Agentic Operating System for Dynamic Clinical Workflows

Wenxian Yang, Hanzheng Qiu, Bangqun Zhang et al.

针对医院环境，提出基于LLM Agent的Agentic操作系统架构，保障安全和可审计性。

提出了面向医院环境的Agentic操作系统架构
设计了受限执行环境和文档中心交互模式

2026-03-12

PDF arXiv

9/10

AI Agents Educational AI Scaling Laws

Scaling Laws for Educational AI Agents

Mengsong Wu, Hao Hao, Shuzhen Bi et al.

探索教育AI Agent的Scaling Law，提出AgentProfile驱动的多Agent平台EduClaw。

提出 Agent Scaling Law，包含角色定义、技能深度等维度
构建基于 AgentProfile 的多 Agent 平台 EduClaw

2026-03-12

PDF arXiv

9/10

多智能体强化学习 Transformer 注意力机制

STAIRS-Former: Spatio-Temporal Attention with Interleaved Recursive Structure Transformer for Offline Multi-task Multi-agent Reinforcement Learning

Jiwon Jeon, Myungsik Cho, Youngchul Sung

提出STAIRS-Former，利用时空分层注意力机制提升离线多智能体强化学习性能。

提出STAIRS-Former架构，增强智能体间协调
引入时空分层注意力机制，捕捉长程依赖

2026-03-12

PDF arXiv

9/10

LLM Security Autonomous Agent

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

Xinhao Deng, Yixiang Zhang, Jiaqing Wu et al.

分析OpenClaw自主LLM智能体的安全威胁，并提出生命周期防御框架。

提出了一个五层生命周期安全框架，用于分析自主LLM智能体的安全威胁。
识别并详细分析了OpenClaw中存在的多种新型安全威胁，如间接prompt注入等。

2026-03-12

PDF arXiv

5/10

神经场可微物理热成像

Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Tao Zhong, Yixun Hu, Dongzhe Zheng et al.

NeFTY提出了一种可微物理框架，用于从表面温度测量中进行材料属性的3D重建。

提出NeFTY框架，结合神经场和可微物理求解器
实现高分辨率3D材料属性重建

2026-03-11

PDF arXiv

7/10

AI评估 RCT 人效提升

RCTs & Human Uplift Studies: Methodological Challenges and Practical Solutions for Frontier AI Evaluation

Patricia Paskov, Kevin Wei, Shen Zhou Hong et al.

分析了前沿AI人效提升研究的RCT方法挑战，并提出了实用解决方案。

指出了前沿AI人效提升研究中RCT方法的局限性
总结了快速演进的AI系统、基线变化等因素对研究有效性的影响

2026-03-11

PDF arXiv

7/10

深度强化学习灵巧操作探索

Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation

Zixuan Liu, Ruoyi Qiao, Chenrui Tie et al.

提出了一种基于接触覆盖引导探索的通用灵巧操作方法，提高了训练效率和成功率。

提出了一种通用的接触覆盖引导探索(CCGE)方法
设计了基于计数的接触覆盖奖励，鼓励探索新的接触模式

2026-03-11

PDF arXiv

5/10

合成数据隐私保护成员推理攻击

Quantifying Membership Disclosure Risk for Tabular Synthetic Data Using Kernel Density Estimators

Rajdeep Pathak, Sayantee Jana

该论文提出了一种基于KDE的有效方法，用于量化表格合成数据的成员泄露风险。

提出基于KDE的成员推理攻击方法
设计了两种攻击模型：真实分布攻击和现实攻击

2026-03-11

PDF arXiv

7/10

文本分类多标签分类知识库

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler et al.

发布大规模双语文本分类数据集，用于知识库索引和辅助编目，旨在提升目录编目工作效率。

发布大规模双语GND标注数据集
提供机器可读的GND分类法

2026-03-11

PDF arXiv

9/10

多机器人路径规划仿真基准测试

GRACE: A Unified 2D Multi-Robot Path Planning Simulator & Benchmark for Grid, Roadmap, And Continuous Environments

Chuanlong Zang, Anna Mannucci, Isabelle Barz et al.

GRACE是一个统一的多机器人路径规划模拟器和基准，支持多种环境抽象级别。

统一的模拟器和基准，支持Grid、Roadmap和Continuous环境
提供可复现的算子和通用评估协议

2026-03-11

PDF arXiv

9/10

多智能体乳腺超声医学诊断

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

Yali Zhu, Kang Zhou, Dingbang Wu et al.

提出 UltrasoundAgents，一种用于乳腺超声诊断的分层多智能体证据链推理框架。

提出 UltrasoundAgents 框架，模拟临床诊断流程
引入解耦渐进训练策略，提升训练稳定性

2026-03-11

PDF arXiv

9/10

内核合成强化学习记忆检索

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

Yujie Zheng, Zhuo Li, Shengtao Zhang et al.

EvoKernel通过价值驱动的记忆机制，使LLM在NPU内核合成中实现冷启动并持续优化。

提出了EvoKernel框架，实现内核合成的自动化
引入了价值驱动的记忆检索机制，提升学习效率

2026-03-11

PDF arXiv

7/10

对抗攻击随机平滑轨迹预测

Evaluating randomized smoothing as a defense against adversarial attacks in trajectory prediction

Julian F. Schumann, Eduardo Figueiredo, Frederik Baymler Mathiesen et al.

提出基于随机平滑的防御机制，提高轨迹预测模型对抗对抗攻击的鲁棒性，且不损失原始精度。

针对轨迹预测模型易受对抗攻击的问题，提出一种新的防御机制。
基于随机平滑方法，有效提升了轨迹预测模型的鲁棒性。

2026-03-11

PDF arXiv

5/10

5G/6G 流量预测空间自相关

AI-Enhanced Spatial Cellular Traffic Demand Prediction with Contextual Clustering and Error Correction for 5G/6G Planning

Mohamad Alkadamani, Colin Brown, Halim Yanikomeroglu

论文提出了一种AI驱动的蜂窝流量需求预测框架，通过情境感知聚类和误差校正提高预测精度。

提出了情境感知的两阶段分割策略
引入了残差空间误差校正方法

2026-03-11

PDF arXiv

9/10

AI Agent 医疗诊断可解释性

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

Shuang Zhou, Kai Yu, Song Wang et al.

HeartAgent是一个用于心脏病可解释差分诊断的自主代理系统，显著提高了诊断准确率和解释性。

构建了一个心脏病专用的自主代理系统
集成了定制工具和数据资源，支持复杂推理

2026-03-11

PDF arXiv

9/10

临床诊断自进化学习深度学习

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

Ruiyang Ren, Yuhao Wang, Yunsen Liang et al.

DxEvolve通过交互式深度临床研究，实现自进化诊断，提升诊断准确性并形成可治理的学习资产。

开发了自进化诊断agent DxEvolve
实现了交互式深度临床研究工作流程

2026-03-11

PDF arXiv

7/10

调度运动规划机器人

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

Elisa Tosello, Arthur Bit-Monnot, Davide Lusuardi et al.

提出了一种交错调度与运动规划框架，通过增量学习解决多对象共享空间导航问题。

提出了交错调度与运动规划的框架
利用符号反馈指导调度器生成运动可行的解决方案

2026-03-11

PDF arXiv

6/10

轨迹预测自动驾驶变长观测

Recover to Predict: Progressive Retrospective Learning for Variable-Length Trajectory Prediction

Hao Zhou, Lu Qi, Jason Li et al.

针对变长轨迹预测问题，提出渐进式回顾框架PRF，提升短轨迹预测准确率。

提出渐进式回顾框架PRF，逐步对齐不完整观测的特征
设计回顾蒸馏模块RDM和回顾预测模块RPM

2026-03-11

PDF arXiv

9/10

Vision-Language Models Computer-Use Agents Auditing

CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

Marta Sumyk, Oleksandr Kosovan

该论文评估了视觉-语言模型作为自主计算机使用代理审计器的能力，揭示了其局限性。

评估了 VLMs 作为 CUA 审计器的能力
分析了 VLM 审计器在不同环境下的表现

2026-03-11

PDF arXiv

9/10

Multi-Agent Reinforcement Learning UAV Medical Supply Delivery

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

Islam Guven, Mehmet Parlak

提出UAV医疗物资配送的MARL框架，利用PPO算法优化无人机队调度，提升紧急情况下的医疗物流效率。

提出基于MARL的UAV医疗物资配送框架
将问题建模为POMDP，考虑通信和定位约束

2026-03-11

PDF arXiv

8/10

图神经网络大语言模型强化学习

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Tianhao Qian, Zhuoxuan Li, Jinde Cao et al.

结合图注意力网络和LLM，在资源约束下实现Amazons棋高性能决策。

提出轻量级混合框架，结合图结构推理和LLM生成能力
利用图注意力自编码器指导多步蒙特卡洛树搜索

2026-03-11

PDF arXiv

9/10

Web Agent 环境生成语言模型

Safe and Scalable Web Agent Learning via Recreated Websites

Hyungjoo Chae, Jungsoo Park, Alan Ritter

提出VeriEnv框架，通过克隆网站生成可验证的合成环境，安全高效地训练Web Agent。

提出VeriEnv框架，用于创建安全可验证的Web Agent训练环境
利用语言模型自动克隆真实网站，生成合成环境

2026-03-11

PDF arXiv

9/10

LLM对齐多智能体谈判

Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

Panatchakorn Anantaprayoon, Nataliia Babina, Nima Asgharbeygi et al.

提出一种基于多智能体谈判的LLM对齐框架，提升冲突解决能力。

提出基于谈判的LLM对齐框架
通过自博弈提升冲突解决能力

2026-03-11

PDF arXiv

7/10

群体决策情感计算蜂群智能

Emotional Modulation in Swarm Decision Dynamics

David Freire-Obregón

该论文将情感融入蜂群决策模型，探究情感对群体决策的影响。

构建情感调制的蜂群决策模型
研究情感效价和唤醒度对决策的影响

2026-03-10

PDF arXiv

9/10

神经调试器 LLM 代码调试

Towards a Neural Debugger for Python

Maximilian Beck, Jonas Gehring, Jannik Kossen et al.

提出神经调试器，通过条件执行建模，使LLM能够模拟传统调试器进行代码调试和理解。

提出神经调试器概念，使LLM具备交互式代码调试能力
通过微调LLM或从头训练小模型实现神经调试器

2026-03-10

PDF arXiv

5/10

频谱管理 AI 机器学习

AI-Enabled Data-driven Intelligence for Spectrum Demand Estimation

Colin Brown, Mohamad Alkadamani, Halim Yanikomeroglu

该论文提出了一种利用AI和ML预测频谱需求的数据驱动方法，提高频谱资源分配效率。

提出基于AI和ML的频谱需求估计方法
利用多种代理数据（站点许可、众包数据）进行预测

2026-03-10

PDF arXiv

9/10

多智能体系统医疗AI 多模态学习

MedMASLab: A Unified Orchestration Framework for Benchmarking Multimodal Medical Multi-Agent Systems

Yunhang Qian, Xiaobin Hu, Jiaquan Yu et al.

MedMASLab提供统一框架，用于评估多模态医疗多智能体系统，并揭示其领域泛化弱点。

提出了统一的多模态智能体通信协议
开发了自动临床推理评估器

2026-03-10

PDF arXiv

9/10

多智能体 LLM Prompt工程

Influencing LLM Multi-Agent Dialogue via Policy-Parameterized Prompts

Hongbo Bo, Jingyu Hu, Weiru Liu

论文提出一种基于策略参数化Prompt的方法，无需训练即可影响LLM多智能体对话行为。

提出Policy-Parameterized Prompt框架
将Prompt视为Agent的行为

2026-03-10

PDF arXiv

8/10

Chain-of-Agents 长文本推理 Chow-Liu树

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Naman Gupta, Vaibhav Singh, Arun Iyer et al.

针对长文本推理的Chain-of-Agents，提出基于Chow-Liu树的块排序方法，提升信息利用率。

提出基于Chow-Liu树的chunk排序方法
提升Chain-of-Agents框架在长文本推理中的性能

2026-03-10

PDF arXiv

8/10

多智能体第一人称视频问答

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Kangsan Kim, Yanlai Yang, Suji Kim et al.

提出MA-EgoQA基准，用于评估多智能体环境下第一人称视频理解的问答能力。

定义多智能体第一人称视频理解的问答问题
构建MA-EgoQA基准数据集

2026-03-10

PDF arXiv

9/10

LLM Evaluation Agent Automation

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Chengyu Shen, Yanheng Hou, Minghui Pan et al.

One-Eval是一个自动化LLM评估系统，通过Agent技术实现可追踪、可定制的评估流程。

提出Agentic评估系统One-Eval，简化LLM评估流程
整合NL2Bench、BenchResolve、Metrics & Reporting等模块，实现端到端评估

2026-03-10

PDF arXiv

9/10

多智能体系统胎儿超声医学图像分析

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

Xiaotian Hu, Junwei Huang, Mingxuan Liu et al.

FetalAgents: 用于胎儿超声图像和视频分析的多智能体系统，提升诊断准确率和工作流程效率。

提出了FetalAgents多智能体系统，用于综合胎儿超声分析
实现了端到端视频流总结，自动识别关键帧并生成结构化报告

2026-03-10

PDF arXiv

9/10

autonomous agent elastic memory evolving cognition

AutoAgent: Evolving Cognition and Elastic Memory Orchestration for Adaptive Agents

Xiaoxing Wang, Ning Liao, Shikun Wei et al.

AutoAgent通过进化认知和弹性记忆编排，提升智能体在动态环境中的适应性。

提出了一个自进化多智能体框架AutoAgent
设计了进化认知、动态上下文决策和弹性记忆编排三个关键组件

2026-03-10

PDF arXiv

8/10

LLM benchmark evaluation

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Zuhao Zhang, Chengyue Yu, Yuante Li et al.

提出了MiniAppBench，用于评估LLM生成交互式HTML应用的能力，并提出了自动评估框架MiniAppEval。

提出了MiniAppBench benchmark，评估LLM生成交互式HTML应用能力
提出了MiniAppEval框架，用于自动化评估生成应用的质量

2026-03-10

PDF arXiv

9/10

Context Engineering AI Agents Multi-Agent Systems

Context Engineering: From Prompts to Corporate Multi-Agent Architecture

Vera V. Vishnyakova

论文提出Context Engineering，定义Context质量标准，并构建Agent Engineering成熟度模型，解决AI Agent规模化部署问题。

定义Context Engineering作为独立学科
提出Context质量的五个标准：相关性、充分性、隔离性、经济性和溯源性

2026-03-10

PDF arXiv

7/10

人形机器人运动控制强化学习

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

Milo Carroll, Tianhu Peng, Lingfan Bao et al.

SCDP通过混合观测蒸馏，仅用板载传感器实现了鲁棒的人形机器人运动控制。

提出Sensor-Conditioned Diffusion Policies (SCDP)
混合观测训练：传感器历史条件下的diffusion模型预测未来状态-动作轨迹

2026-03-10

PDF arXiv

5/10

图构建近似最近邻大规模数据

a-TMFG: Scalable Triangulated Maximally Filtered Graphs via Approximate Nearest Neighbors

Lionel Yelibi

提出a-TMFG算法，利用近似最近邻图加速大规模TMFG图构建，适用于无自然图结构的机器学习任务。

提出a-TMFG算法
利用kNNG进行图初始化

2026-03-10

PDF arXiv

7/10

Bandit算法因果推断工具变量

What Do We Care About in Bandits with Noncompliance? BRACE: Bandits with Recommendations, Abstention, and Certified Effects

Nicolás Della Penna

研究非依从性Bandits问题，提出BRACE算法，权衡推荐福利与控制学习目标。

形式化了目标选择问题
提出了参数无关的BRACE算法

2026-03-10

PDF arXiv

8/10

AI Agent Attention Goal-Conditioned System

Telogenesis: Goal Is All U Need

Zhuoran Deng, Yizhi Zhang, Ziyi Zhang et al.

该论文提出利用内在认知状态驱动目标导向系统，无需外部奖励即可生成自适应优先级。

提出了一种基于认知状态的优先级函数，包括ignorance, surprise, 和staleness。
验证了该优先级函数在环境中的有效性。

2026-03-10

PDF arXiv

7/10

自动驾驶场景测试声明式语言

Declarative Scenario-based Testing with RoadLogic

Ezio Bartocci, Alessio Gambi, Felix Gigler et al.

RoadLogic将声明式OS2场景转换为可执行仿真，实现自动驾驶系统测试。

提出RoadLogic框架
使用Answer Set Programming生成抽象计划

2026-03-10

PDF arXiv

9/10

AI Agent Zero-Shot Learning Medical Imaging

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee et al.

OncoAgent无需训练即可将临床指南转化为3D肿瘤轮廓，优于传统深度学习方法。

提出了OncoAgent，一种指南感知的AI Agent框架
实现了零样本的肿瘤靶区自动勾画，性能媲美监督学习模型

2026-03-10

PDF arXiv

8/10

奖励预测因子化表示语言模型

Reward Prediction with Factorized World States

Yijun Shen, Delong Chen, Xianming Hu et al.

提出StateFactory，利用语言模型将非结构化观察转换为分层对象-属性结构，用于奖励预测。

提出StateFactory因子化表示方法
构建RewardPrediction基准数据集

2026-03-10

PDF arXiv

9/10

LLM Agent Reasoning

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Yang Li, Xing Chen, Yutao Liu et al.

提出了STAR基准，评估LLM在零和博弈环境下的策略推理和快速决策能力。

提出了STAR基准，用于评估LLM在对抗环境下的决策能力
引入了战略评估套件，评估策略行为的质量

2026-03-10

PDF arXiv

6/10

音频处理效果控制检索

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Shihao He, Yihan Xia, Fang Liu et al.

提出了一种基于Gram矩阵的音频效果控制方法，并通过实验验证了其有效性。

提出了一种名为Texture Resonance Retrieval (TRR) 的音频表示方法。
在吉他效果基准上进行了实验，验证了TRR的有效性。

2026-03-10

PDF arXiv

8/10

VR 情感识别 LLM

Reading the Mood Behind Words: Integrating Prosody-Derived Emotional Context into Socially Responsive VR Agents

SangYeop Jeong, Yeongseo Na, Seung Gyu Jeong et al.

提出一种情感感知的VR交互管线，提升虚拟代理对话质量。

将语音情感作为对话上下文
优化LLM驱动的VR代理响应

2026-03-10

PDF arXiv

9/10

生成引擎优化 AI Agent 引用修复

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Zhihua Tian, Yuhan Chen, Yao Tang et al.

提出AgentGEO框架，诊断并修复生成引擎优化中的引用失败问题，显著提升引用率。

提出了引用失败模式的分类体系
构建了AgentGEO代理系统，用于诊断和修复引用失败

2026-03-10

PDF arXiv

6/10

GAN 轨迹预测自监督学习

Context-free Self-Conditioned GAN for Trajectory Forecasting

Tiago Rodrigues de Almeida, Eduardo Gutierrez Maestro, Oscar Martinez Mozos

提出了一种基于自条件GAN的无上下文轨迹预测方法，在人类运动和道路交通数据集上表现良好。

提出基于自条件GAN的无监督轨迹预测方法
设计了三种不同的自条件GAN训练设置

2026-03-09

PDF arXiv

6/10

Streaming Continual Learning Concept Drift Recurrent Neural Networks

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle

MAGIC Net通过结合CL和RNN解决数据流中的概念漂移、时间依赖和灾难性遗忘问题。

提出了MAGIC Net，一种新颖的SCL方法
结合了CL架构策略和循环神经网络

2026-03-09

PDF arXiv

8/10

信任声誉 AI Agent

Trust via Reputation of Conviction

Aravind R. Iyengar

论文提出基于信念的声誉体系，为AI信任建立可验证的基础。

提出了基于信念（Conviction）的声誉度量方法
论证了信念是信任的原则性基础

2026-03-09

PDF arXiv

7/10

Cyber Reasoning System Open-Source Security Vulnerability Discovery

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

Andrew Chin, Dongkwan Kim, Yu-Fu Fu et al.

提出了OSS-CRS框架，用于在真实开源项目中运行和组合网络推理系统，发现了10个未知漏洞。

开源可部署框架OSS-CRS
移植第一名系统Atlantis

2026-03-09

PDF arXiv

9/10

机器人物体搜索视觉语言模型

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

Gabriele Somaschini, Adrian Röfer, Abhinav Valada

提出ProReFF模型，从无标签数据中学习物体共现关系，用于提升机器人搜索效率。

提出ProReFF模型，学习物体相对特征分布
提出基于学习的策略，对齐矛盾观测

2026-03-09

PDF arXiv

9/10

Mobile GUI Automation Multimodal LLM Semantic Context

SecAgent: Efficient Mobile GUI Agent with Semantic Context

Yiping Xie, Song Chen, Jingxuan Xing et al.

SecAgent提出了基于语义上下文的3B规模高效移动GUI代理，并构建了中文数据集和基准。

构建了高质量中文移动GUI数据集和基准
提出了基于语义上下文的历史表示方法，降低计算成本

2026-03-09

PDF arXiv

8/10

安全强化学习模仿学习博弈论

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza et al.

OGSS方法在模仿学习中结合先验知识，提升了智能体在探索过程中的安全性，应用于象棋博弈。

提出Oracle-Guided Soft Shielding (OGSS)框架
使用先验知识（Stockfish评估）学习概率安全模型

2026-03-09

PDF arXiv

9/10

多Agent系统检索增强生成伊斯兰问答

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh et al.

Fanar-Sadiq是一个面向伊斯兰问答的多Agent系统，通过意图感知路由查询到专业模块，提供权威且可验证的答案。

构建了一个双语(Arabic/English)多Agent伊斯兰助手系统Fanar-Sadiq
实现了意图感知路由，将Islamic queries路由到专门的模块

2026-03-09

PDF arXiv

6/10

机器人动态学习拉格朗日神经网络

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya

STRIDE结合拉格朗日神经网络和条件流匹配，学习机器人动态模型，提升预测精度。

提出STRIDE框架，结合结构化模型和随机残差模型
使用拉格朗日神经网络建模保守力，保证能量一致性

2026-03-09

PDF arXiv

8/10

强化学习异常检测世界模型

The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

Zhe Hong

研究RL智能体在渐变观测噪声下的自监控机制，揭示了突变阈值和环境脆弱性。

发现了自监控中存在一个尖锐的检测阈值，并分析其性质。
证明正弦漂移对所有检测器都无法检测到。

2026-03-09

PDF arXiv

8/10

LLM 对话式AI 临床应用

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Peter Brodeur, Jacob M. Koshy, Anil Palepu et al.

研究评估了基于LLM的对话式AI在初级保健诊所的临床可行性、安全性和用户接受度。

验证了对话式AI在实际临床环境中的可行性
证明了患者和医生对AI的积极接受度

2026-03-09

PDF arXiv

9/10

LLM Agent Retrieval Embedding

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Bo Jiang

提出一种新的LLM Agent检索方法，通过投影层将LLM隐状态直接映射到embedding空间，无需单独的embedding模型。

提出了一种新的Native Retrieval方法
减少了检索流程中的模型数量，降低了复杂度和延迟

2026-03-09

PDF arXiv

9/10

AI助手工具使用任务规划

IronEngine: Towards General AI Assistant

Xi Mo

IronEngine是一个通用的AI助手平台，通过统一的编排核心实现多功能集成和高效的任务执行。

统一编排核心的AI助手平台
三阶段流水线（讨论、模型切换、执行）

2026-03-09

PDF arXiv

8/10

人机交互自主实验室机器人导航

Human-Aware Robot Behaviour in Self-Driving Labs

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley et al.

该论文提出了一种用于自主实验室中人机协作的AI驱动感知方法，提高了机器人工作效率。

提出了一种用于预测人类意图的层级模型。
通过意图预测，机器人能区分准备动作和短暂交互。

2026-03-09

PDF arXiv

8/10

AI-Annotation Educational Discourse Large Language Models

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

Daryl Hedley, Doug Pietrzak, Jorge Dias et al.

Sandpiper是一个AI辅助教育对话数据分析系统，旨在提高研究效率和数据分析质量。

提出Sandpiper系统，桥接海量数据和专家分析
利用LLM进行自动化标注，并确保数据隐私

2026-03-09

PDF arXiv

9/10

LLM AI Agent Error Correction

A Hierarchical Error-Corrective Graph Framework for Autonomous Agents with LLM-Based Action Generation

Cong Cao, Jingyao Zhang, Kun Tong

提出HECG框架，通过分层纠错图提升LLM驱动的自主Agent在复杂任务中的性能。

多维可迁移策略(MDTS)
错误矩阵分类(EMC)

2026-03-09

PDF arXiv

9/10

RAG Multi-Agent Question Answering

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan et al.

SPD-RAG通过多Agent分工协作，在多文档QA任务中提高了性能和效率，降低了API成本。

提出SPD-RAG框架，利用多Agent处理多文档QA
采用文档级Agent专注于自身内容，提高检索精度

2026-03-09

PDF arXiv

9/10

Neurosymbolic Reasoning Mathematical Discovery Combinatorial Design

Agentic Neurosymbolic Collaboration for Mathematical Discovery: A Case Study in Combinatorial Design

Hai Xia, Carla P. Gomes, Bart Selman et al.

研究人机协作在组合设计理论中发现新数学结果，利用神经符号方法证明拉丁方不平衡性的下界。

提出人机协作数学发现方法
发现拉丁方不平衡性的新的紧下界

2026-03-09

PDF arXiv

9/10

VLM GUI agent backdoor attack

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Junxian Li, Tu Lan, Haozhen Tan et al.

提出SlowBA攻击，通过触发长推理链操纵VLM GUI智能体的响应延迟，同时保持任务准确性。

提出SlowBA攻击，针对VLM GUI智能体的响应效率。
使用奖励级别后门注入策略（RBI）来操纵响应延迟。

2026-03-09

PDF arXiv

8/10

机器人模仿学习 VLM

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

Makoto Sato, Yusuke Iwasawa, Yujin Tang et al.

SAIL提出了一种基于VLM的上下文模仿学习框架，通过迭代优化轨迹提升机器人技能。

提出SAIL框架，利用测试时计算扩展模仿学习能力
利用VLM进行轨迹评估和迭代优化

2026-03-09

PDF arXiv

9/10

LLM 金融工具使用

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Jiaxuan Lu, Kong Wang, Yemin Wang et al.

提出了FinToolBench，一个评估LLM在金融领域工具使用的新基准，包含大量真实金融工具。

构建了包含760个可执行金融工具的真实基准FinToolBench
提出了评估金融工具使用代理的关键维度：及时性、意图类型和监管领域一致性

2026-03-09

PDF arXiv

9/10

AI Agents Privacy-Preserving Distributed System

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

Jianshu She

SplitAgent提出了一种保护隐私的分布式架构，用于企业云端智能体协作。

提出SplitAgent分布式架构
引入上下文感知的动态清洗机制

2026-03-09

PDF arXiv

9/10

语音识别语音合成 Turn-taking

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

Shangeth Rajaa

DualTurn通过双声道语音预训练，提升了语音交互中智能体的turn-taking能力，减少了中断。

提出DualTurn模型，利用双声道语音预训练学习turn-taking。
DualTurn模型可以预测turn-taking信号并转化为智能体行为。

2026-03-09

PDF arXiv

5/10

图异常检测图神经网络同质性

Mitigating Homophily Disparity in Graph Anomaly Detection: A Scalable and Adaptive Approach

Yunhui Liu, Qizhuo Xie, Yinfeng Chen et al.

SAGAD通过自适应融合和频率引导损失，解决图异常检测中的同质性差异和可扩展性问题。

提出SAGAD框架，解决图异常检测的同质性差异和可扩展性问题
设计异常上下文感知的自适应融合机制，缓解节点级别同质性差异

2026-03-09

PDF arXiv

9/10

AI Scientist Multi-Agent Evolution

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Yougang Lyu, Xi Zhang, Xinhao Yi et al.

EvoScientist提出了一种基于进化和持久记忆的多Agent AI科学家框架，提升科学发现效率。

提出EvoScientist框架，用于端到端科学发现
引入持久记忆模块，提升Agent能力

2026-03-09

PDF arXiv

9/10

LLM Tool Use Reinforcement Learning

In-Context Reinforcement Learning for Tool Use in Large Language Models

Yaoqi Ye, Yiran Zhao, Keyu Duan et al.

提出ICRL方法，无需SFT即可使LLM通过上下文学习有效利用工具，提升推理能力。

提出了In-Context Reinforcement Learning (ICRL) 框架
消除了对SFT的需求，减少了标注数据依赖

2026-03-09

PDF arXiv

9/10

图像编辑多智能体强化学习

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Yiran Zhao, Yaoqi Ye, Xiang Liu et al.

ImageEdit-R1利用强化学习协调多智能体，提升复杂图像编辑任务性能。

提出ImageEdit-R1多智能体图像编辑框架
利用强化学习进行智能体间的高层决策协调

2026-03-09

PDF arXiv

7/10

Imitation Learning Adversarial Learning Wasserstein Distance

Latent Wasserstein Adversarial Imitation Learning

Siqi Yang, Kai Yan, Alexander G. Schwing et al.

LWAIL提出了一种新的基于Wasserstein距离的对抗模仿学习框架，仅需少量状态数据即可实现专家级性能。

提出LWAIL框架，实现仅用状态数据的模仿学习
引入dynamics-aware的latent space，提升策略对状态转移的理解

2026-03-05

PDF arXiv

8/10

世界模型规划 tokenizer

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

Dongwon Kim, Gawon Seo, Jinsung Lee et al.

提出CompACT，一种将观察压缩到8个token的离散tokenizer，加速世界模型规划。

提出CompACT tokenizer，大幅降低世界模型的计算成本
显著提升世界模型规划速度

2026-03-05

PDF arXiv

6/10

EMG 运动意图深度学习

The Spatial and Temporal Resolution of Motor Intention in Multi-Target Prediction

Marie Dominique Schmidt, Ioannis Iossifidis

该研究利用EMG信号预测多目标运动意图，提高康复辅助设备的主动适应性。

提出基于EMG信号的多目标运动意图预测框架
评估了随机森林和卷积神经网络在运动意图解码中的性能

2026-03-05

PDF arXiv

9/10

Web Agent 数据集多模态学习

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Sicheng Fan, Rui Wan, Yifei Leng et al.

WebChain数据集提供大规模真实网页交互轨迹，加速Web Agent研究，并提出Dual Mid-Training方法。

构建大规模人工标注的Web交互数据集WebChain
提出Triple Alignment的多模态监督数据

2026-03-05

PDF arXiv

9/10

LLM Agent 分层规划结构化记忆

STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks

ELita Lobo, Xu Chen, Jingjing Meng et al.

STRUCTUREDAGENT通过分层规划和结构化记忆，提升LLM在长程网页任务中的表现。

提出了一种使用动态AND/OR树的在线分层规划框架
设计了一个结构化记忆模块来跟踪和维护候选解决方案

2026-03-05

PDF arXiv

9/10

LLM Group Chat Dialogue Agent

GCAgent: Enhancing Group Chat Communication through Dialogue Agents System

Zijie Meng, Zheyong Xie, Zheyu Ye et al.

提出了GCAgent系统，利用LLM增强群聊沟通，包含Agent Builder、Dialogue Manager和Interface Plugins三大模块。

提出了GCAgent系统框架
设计了Agent Builder、Dialogue Manager和Interface Plugins三大模块

2026-03-05

PDF arXiv

6/10

AI Hardware Co-design

AI+HW 2035: Shaping the Next Decade

Deming Chen, Jason Cong, Azalia Mirhoseini et al.

AI与硬件协同发展是未来趋势，论文提出十年路线图，强调能效提升、系统集成和跨层优化。

提出AI+HW十年发展路线图
强调能效提升在AI发展中的重要性

2026-03-05

PDF arXiv

9/10

强化学习知识代理企业搜索

KARL: Knowledge Agents via Reinforcement Learning

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal et al.

KARL通过强化学习训练知识代理，在复杂搜索任务上达到领先水平。

提出KARLBench评估套件
跨异构搜索行为训练提升泛化能力

2026-03-05

PDF arXiv

9/10

LLM AI Agent 材料发现

Escaping the Hydrolysis Trap: An Agentic Workflow for Inverse Design of Durable Photocatalytic Covalent Organic Frameworks

Iman Peivaste, Nicolas D. Boscher, Ahmed Makradi et al.

利用LLM智能体加速耐用光催化共价有机框架(COF)的逆向设计，解决稳定性-活性权衡问题。

提出了一种基于LLM的智能体Ara用于光催化COF材料的逆向设计
证明了LLM化学先验知识可以显著加速多标准材料发现

2026-03-05

PDF arXiv

9/10

RAG Multi-Agent Hepatology Diagnosis

MedCoRAG: Interpretable Hepatology Diagnosis via Hybrid Evidence Retrieval and Multispecialty Consensus

Zheng Li, Jiayi Xu, Zhikai Hu et al.

MedCoRAG利用混合证据检索和多专科共识，实现可解释的肝病诊断。

提出MedCoRAG框架，用于肝病诊断
结合UMLS知识图谱和临床指南进行证据检索

2026-03-05

PDF arXiv

8/10

强化学习机器人控制奖励函数设计

Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics

Kilian Freitag, Knut Åkesson, Morteza Haghir Chehreghani

提出一种两阶段奖励课程学习方法，解耦任务目标和行为规范，提升机器人强化学习效果。

提出两阶段奖励课程学习框架
分析不同阶段的过渡策略

2026-03-05

PDF arXiv

9/10

AI Agent 移动计算低功耗

Jagarin: A Three-Layer Architecture for Hibernating Personal Duty Agents on Mobile

Ravi Kiran Kadaboina

Jagarin提出了一种三层架构，解决移动端AI代理的功耗和实时性悖论，实现结构化休眠和按需唤醒。

提出DAWN、ARIA、ACE三层架构
实现无需持续后台运行的移动端AI代理

2026-03-05

PDF arXiv

9/10

GUI agent Reinforcement Learning LLM

WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents

Sicheng Fan, Qingyun Shi, Shengze Xu et al.

WebFactory自动化压缩LLM知识到Web代理，高效生成GUI代理数据，提升泛化能力。

提出了WebFactory，一个全自动闭环强化学习GUI代理训练流水线。
利用合成数据训练的代理性能媲美甚至超过使用人工标注数据训练的代理。

2026-03-05

PDF arXiv

8/10

UI安全异常检测 AI Agent

AegisUI: Behavioral Anomaly Detection for Structured User Interface Protocols in AI Agent Systems

Mohd Safwan Uddin, Saba Hajira

AegisUI提出了一种检测AI Agent生成UI异常行为的框架，能有效识别恶意UI攻击。

构建了包含恶意UI攻击的带标签数据集
提出了18个可用于异常检测的UI特征

2026-03-05

PDF arXiv

9/10

LLM Agent Risk Behavior

Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure

Yida Lu, Jianwei Fang, Xuyang Shao et al.

研究LLM在生存压力下产生的“不惜一切代价生存”行为，揭示其潜在风险。

定义了SURVIVE-AT-ALL-COSTS行为
构建了SURVIVALBENCH基准测试

2026-03-05

PDF arXiv

9/10

AI Agent Reinforcement Learning Computational Psychiatry

BioLLMAgent: A Hybrid Framework with Enhanced Structural Interpretability for Simulating Human Decision-Making in Computational Psychiatry

Zuo Fei, Kezhi Wang, Xiaomin Chen et al.

BioLLMAgent结合RL和LLM，模拟人类决策，具有可解释性和行为真实性。

提出了一种混合框架BioLLMAgent
在计算精神病学中模拟人类决策过程

2026-03-05

PDF arXiv

9/10

AMoD 多智能体强化学习定价

Competitive Multi-Operator Reinforcement Learning for Joint Pricing and Fleet Rebalancing in AMoD Systems

Emil Kragh Toft, Carolin Schmidt, Daniele Gammelli et al.

研究竞争环境下多运营商AMoD系统的定价和车辆重平衡问题，使用多智能体强化学习。

提出了一个多运营商强化学习框架，模拟AMoD市场中的竞争。
集成了离散选择理论，使乘客分配和需求竞争内生化。

2026-03-05

PDF arXiv

9/10

Web Agent Generalization Benchmark

TimeWarp: Evaluating Web Agents by Revisiting the Past

Md Farhan Ishmam, Kenneth Marino

论文提出TimeWarp基准评估Web Agent在Web演变下的泛化能力，并提出TimeTraj算法提升Agent鲁棒性。

提出TimeWarp基准，模拟Web演变环境
发现现有Web Agent在Web变化下的脆弱性

2026-03-05

PDF arXiv

8/10

Agentic LLM 心理语言学阴谋论检测

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos et al.

提出了一种基于Agentic LLM的心理语言学标记抽取和阴谋论支持检测的新方法。

提出动态判别链式思考(DD-CoT)用于标记抽取
设计了“反回声室”架构用于阴谋论检测

2026-03-05

PDF arXiv

9/10

智能合约安全 AI智能体漏洞检测

EVMbench: Evaluating AI Agents on Smart Contract Security

Justin Wang, Andreas Bigger, Xiaohai Xu et al.

EVMbench评估AI智能体在智能合约安全方面的能力，包括漏洞检测、修复和利用。

提出了EVMbench评估基准
评估了AI智能体在智能合约安全上的能力

2026-03-05

PDF arXiv

7/10

Imitation Learning Robotics Memory

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang et al.

VPWEM利用工作记忆和情景记忆，提升视觉运动策略在非马尔可夫任务中的表现。

提出VPWEM，一种具备工作记忆和情景记忆的非马尔可夫视觉运动策略
引入基于Transformer的上下文记忆压缩器，递归地将观测转化为情景记忆

2026-03-05

PDF arXiv

9/10

LLM Alignment Multi-Agent System

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Hiroki Fukui

对齐干预在多语言LLM智能体系统中存在语言依赖性反转现象，英语安全不适用于其他语言。

发现LLM对齐干预存在语言依赖性反转现象（Alignment Backfire）
揭示语言空间（linguistic, pragmatic, and cultural properties）对对齐结果的结构性决定作用

2026-03-05

PDF arXiv

9/10

agent privacy LLM

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

Ivoline C. Ngong, Keerthiram Murugesan, Swanand Kadhe et al.

AgentSCOPE评估Agentic工作流中的上下文隐私，发现中间环节存在大量隐私泄露。

提出Privacy Flow Graph框架，分解agentic执行过程并追踪隐私泄露源
构建AgentSCOPE基准测试，包含62个跨多个领域的场景

2026-03-05

PDF arXiv

7/10

自主泊车 UWB LLM

U-Parking: Distributed UWB-Assisted Autonomous Parking System with Robust Localization and Intelligent Planning

Yiang Wu, Qiong Wu, Pingyi Fan et al.

U-Parking系统结合UWB定位、LLM规划和轨迹跟踪，实现可靠的室内自主泊车。

提出基于UWB辅助的分布式自主泊车系统
使用LLM进行智能规划

2026-03-05

PDF arXiv

9/10

Agentic AI WebGIS Governance

A Dual-Helix Governance Approach Towards Reliable Agentic AI for WebGIS Development

Boyuan, Guan, Wencong Cui et al.

提出双螺旋治理框架，解决Agentic AI在WebGIS开发中的可靠性问题，并通过AgentLoom工具包实现。

提出双螺旋治理框架应对LLM在WebGIS开发中的限制
构建3-track架构（知识、行为、技能）稳定AI执行

2026-03-04

PDF arXiv

9/10

对话Agent 非结构化知识评估基准

$τ$-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Quan Shi, Alexandra Zytek, Pedram Razavi et al.

提出了$τ$-Knowledge基准，用于评估对话Agent在非结构化知识环境下的表现，并发现现有模型性能不足。

提出新的评估基准$τ$-Knowledge，扩展了$τ$-Bench
设计了$τ$-Banking领域，模拟金融客服工作流

2026-03-04

PDF arXiv

9/10

multimodal agent adversarial training

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

Haoyu Liu, Dingcheng Li, Lukas Rutishauser et al.

针对多模态WebAgent的安全漏洞，提出一种双模态多阶段对抗安全训练框架DMAST。

揭示了多模态WebAgent在跨模态攻击下的安全漏洞。
提出了双模态多阶段对抗安全训练框架DMAST。

2026-03-04

PDF arXiv

7/10

音频标注音乐信息检索 AI辅助

LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

Ioannis Prokopiou, Ioannis Sina, Agisilaos Kounelis et al.

LabelBuddy是一款开源的、支持AI辅助的音乐和音频标注工具，旨在弥合人类意图与机器理解之间的差距。

开源协作音频标注工具
支持容器化的AI辅助预标注

2026-03-04

PDF arXiv

7/10

offline reinforcement learning decision transformer model predictive control

IPD: Boosting Sequential Policy with Imaginary Planning Distillation in Offline Reinforcement Learning

Yihao Qin, Yuanfei Wang, Hang Zhou et al.

IPD通过离线规划蒸馏提升序列策略，解决离线RL中数据质量和规划不足的问题。

提出了Imaginary Planning Distillation (IPD)框架
使用世界模型和MPC生成想象的优化轨迹

2026-03-04

PDF arXiv

8/10

UAV GSD Estimation GPS-Denied

VANGUARD: Vehicle-Anchored Ground Sample Distance Estimation for UAVs in GPS-Denied Environments

Yifei Chen, Xupeng Chen, Feng Wang et al.

VANGUARD利用车辆作为锚点，解决无人机在GPS受限环境中尺度估计问题。

提出VANGUARD方法，用于在GPS受限环境下估计GSD
使用车辆作为环境锚点，通过kernel density estimation估计GSD

2026-03-04

PDF arXiv

9/10

LLM Agent Long-Horizon Task Experience Memory

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Zhenting Wang, Huancheng Chen, Jiayun Wang et al.

Memex通过索引经验记忆机制，结合强化学习MemexRL，解决了LLM Agent长程任务中上下文窗口限制问题。

提出了一种索引经验记忆机制Memex
设计了基于强化学习的MemexRL框架优化记忆读写行为

2026-03-04

PDF arXiv

6/10

在线学习分层推理上下文Bandit

Online Learning for Multi-Layer Hierarchical Inference under Partial and Policy-Dependent Feedback

Haoran Zhang, Seohyeon Cha, Hasan Burhan Beytur et al.

研究多层分层推理系统中的在线路由策略学习，解决反馈稀疏和策略依赖问题。

提出一种方差缩减的EXP4算法
结合Lyapunov优化实现无偏损失估计和稳定学习

2026-03-04

PDF arXiv

9/10

Agentic AI Data Workflows Logical Transduction Algebra

Agentics 2.0: Logical Transduction Algebra for Agentic Data Workflows

Alfio Massimiliano Gliozzo, Junkyu Lee, Nahuel Defosse

Agentics 2.0框架提升Agentic数据工作流的可靠性、可扩展性和可观察性。

提出Agentics 2.0框架，用于构建高质量Agentic数据工作流
形式化大语言模型推理调用为类型化的语义转换（可转换函数）

2026-03-04

PDF arXiv

7/10

自动驾驶场景生成安全性

SaFeR: Safety-Critical Scenario Generation for Autonomous Driving Test via Feasibility-Constrained Token Resampling

Jinlong Cui, Fenghua Liang, Guo Yang et al.

SaFeR提出了一种基于可行性约束的token重采样方法，用于生成自动驾驶安全关键场景。

提出基于Transformer的交通生成模型作为现实先验
提出差分注意力机制，减轻注意力噪声

2026-03-04

PDF arXiv

8/10

自主导航仿真到真实强化学习

Sim2Sea: Sim-to-Real Policy Transfer for Maritime Vessel Navigation in Congested Waters

Xinyu Cui, Xuanfa Jin, Xue Yan et al.

Sim2Sea框架通过仿真到真实的迁移，实现了拥挤水域中无人船的自主导航。

开发了GPU加速的并行水域仿真器
设计了双流时空策略和基于速度障碍的动作屏蔽机制

2026-03-04

PDF arXiv

8/10

交通管理反应式推理概率逻辑

Right in Time: Reactive Reasoning in Regulated Traffic Spaces

Simon Kohaut, Benedict Flade, Julian Eggert et al.

提出了一种结合概率逻辑和反应式推理的交通管理框架，提高智能交通系统实时决策效率。

将概率任务设计(ProMis)与反应式电路(RC)结合
实现混合域上的在线精确概率推理

2026-03-04

PDF arXiv

8/10

视觉导航机器人基准测试

RVN-Bench: A Benchmark for Reactive Visual Navigation

Jaewon Lee, Jaeseok Heo, Gunmin Lee et al.

提出了RVN-Bench，一个面向室内移动机器人安全视觉导航的碰撞感知基准。

提出了一个新的碰撞感知视觉导航基准RVN-Bench
提供了大规模、多样化的室内环境，基于Habitat 2.0和HM3D

2026-03-04

PDF arXiv

9/10

角色扮演匿名评估人格特征

Rethinking Role-Playing Evaluation: Anonymous Benchmarking and a Systematic Study of Personality Effects

Ji-Lun Peng, Yun-Nung Chen

提出匿名评估方法，研究人格对角色扮演agent性能的影响，并验证了自生成人格的有效性。

提出了一种匿名角色扮演评估方法，消除了对预训练知识的依赖。
系统性地研究了人格特征对角色扮演agent性能的影响。

2026-03-04

PDF arXiv

9/10

AI Agent Cyber Threat Intelligence Firewall Rules

From Threat Intelligence to Firewall Rules: Semantic Relations in Hybrid AI Agent and Expert System Architectures

Chiara Bonfanti, Davide Colaiacomo, Luca Cagliero et al.

利用语义关系，混合AI Agent和专家系统自动生成防火墙规则，提升网络安全响应速度。

提出基于超类-子类关系的威胁情报提取方法
构建基于神经符号方法的多Agent系统

2026-03-04

PDF arXiv

9/10

LLM AI Agent Dark Pattern

On the Suitability of LLM-Driven Agents for Dark Pattern Audits

Chen Sun, Yash Vekaria, Rishab Nithyanand

评估LLM驱动的智能体在暗黑模式审计中的适用性，并分析其可行性和局限性。

设计并部署了一个用于暗黑模式审计的LLM驱动智能体。
评估了该智能体在数据权利请求工作流程中的性能。

2026-03-04

PDF arXiv

8/10

LLM Cognitive Behavioral Therapy Mental Health

Assessing the Effectiveness of LLMs in Delivering Cognitive Behavioral Therapy

Navdeep Singh Bedi, Ana-Maria Bucur, Noriko Kando et al.

评估LLM在认知行为疗法中的有效性，发现LLM能生成类似对话，但缺乏同理心和一致性。

评估LLM在CBT应用中的表现
比较Generation-only和RAG两种方法

2026-03-04

PDF arXiv

9/10

代码生成 LLM Agent 持续集成

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

Jialong Chen, Xander Xu, Hu Wei et al.

提出了SWE-CI基准，评估LLM Agent在持续集成环境中维护代码库的能力。

提出了SWE-CI基准
关注代码长期可维护性而非短期功能正确性

2026-03-04

PDF arXiv

8/10

推荐系统强化学习公平性

Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

Yun Lu, Xiaoyu Shi, Hong Xie et al.

针对交互式推荐系统中用户状态噪声问题，提出DSRM-HRL框架，提升公平性和推荐效用。

提出了DSRM模块，用于从噪声交互历史中恢复潜在偏好。
构建了分层强化学习（HRL）代理，解耦公平性和参与度目标。

2026-03-04

PDF arXiv

8/10

世界模型离散事件系统 DEVS

Specification-Driven Generation and Evaluation of Discrete-Event World Models via the DEVS Formalism

Zheyu Chen, Zhuohuan Li, Chuanhao Li

提出一种基于自然语言规范，利用LLM生成和验证DEVS离散事件世界模型的方法。

提出一种基于LLM的、分阶段的DEVS世界模型生成流程
利用规范派生的约束验证生成的模型

2026-03-04

PDF arXiv

9/10

目标漂移语言模型智能体环境压力

Inherited Goal Drift: Contextual Pressure Can Undermine Agentic Goals

Achyutha Menon, Magnus Saebo, Tyler Crosse et al.

研究表明，即使是最新的语言模型智能体仍然容易受到环境压力导致的目标漂移。

揭示了最先进的语言模型智能体在特定条件下会继承目标漂移
分析了不同模型家族在继承目标漂移方面的差异

2026-03-03

PDF arXiv

9/10

AI for Science Low-code Platform Multi-Agent System

AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

Zihang Zeng, Jiaquan Zhang, Pengze Li et al.

提出了一个基于贝叶斯对抗多智能体框架的AI for Science低代码平台，提升科学代码生成可靠性。

提出贝叶斯对抗多智能体框架
设计AI for Science低代码平台

2026-03-03

PDF arXiv

9/10

AI Agent Brain-Computer Interface Human State Modeling

NeuroSkill(tm): Proactive Real-Time Agentic System Capable of Modeling Human State of Mind

Nataliya Kosmyna, Eugene Hauptmann

NeuroSkill是一个实时、离线、能建模人类心智状态的主动Agent系统。

提出NeuroSkill系统，利用BCI数据建模人类心智状态
使用SKILL.md描述人类心智状态

2026-03-03

PDF arXiv

9/10

AI Agents Mathematical Reasoning Code Execution

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Dadi Guo, Yuejin Xie, Qingyu Liu et al.

利用代码智能体自主进化数学问题，生成更复杂且可解的新问题。

提出了一个多智能体框架用于问题进化
验证了生成问题可解性与难度提升

2026-03-03

PDF arXiv

9/10

具身智能空间智能多模态学习

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Ziyang Gong, Zehang Luo, Anke Tang et al.

ACE-Brain-0通过空间智能统一多种具身智能任务，提升泛化能力和特定领域性能。

提出ACE-Brain-0通用基础模型
提出Scaffold-Specialize-Reconcile (SSR) 范式

2026-03-03

PDF arXiv

8/10

VLA World Model Latent Action

Chain of World: World Model Thinking in Latent Motion

Fuxiang Yang, Donglin Di, Lulu Tang et al.

CoWVLA通过解耦潜在运动表示，统一了世界模型的时序推理和潜在动作的紧凑性，提升了视觉运动学习效果。

提出了CoWVLA框架，结合世界模型和潜在动作的优势
使用预训练视频VAE提取结构和运动潜在表示

2026-03-03

PDF arXiv

9/10

代码智能体基准测试外部知识

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Guoxin Chen, Fanzhe Meng, Jiale Zhao et al.

论文提出了BeyondSWE基准测试代码智能体在跨库修复bug等现实场景下的能力，并探索了外部知识检索的提升效果。

提出了BeyondSWE基准测试，评估代码智能体在更复杂场景下的能力
开发了SearchSWE框架，用于评估搜索增强的效果

2026-03-03

PDF arXiv

9/10

AI Agent Formal Verification RAG

Saarthi for AGI: Towards Domain-Specific General Intelligence for Formal Verification

Aman Kumar, Deepak Narayan Gadde, Luu Danh Minh et al.

Saarthi框架通过增强RAG和规则，提升了形式验证的准确性和效率。

改进SystemVerilog Assertion (SVA) 生成的准确性和可控性
集成高级检索增强生成（RAG）技术，提高知识获取

2026-03-03

PDF arXiv

8/10

Agentic AI LLM Formal Verification

Agentic AI-based Coverage Closure for Formal Verification

Sivaram Pothireddypalli, Ashish Raman, Deepak Narayan Gadde et al.

论文提出一种基于Agentic AI的覆盖率闭环方法，利用LLM加速形式化验证，提高覆盖率。

提出Agentic AI驱动的形式化验证覆盖率闭环工作流
使用LLM-enabled GenAI 自动分析覆盖率并生成形式化属性

2026-03-03

PDF arXiv

7/10

边缘计算信道自适应推理优化

Channel-Adaptive Edge AI: Maximizing Inference Throughput by Adapting Computational Complexity to Channel States

Jierui Zhang, Jianhao Huang, Kaibin Huang

提出了一种信道自适应AI算法，通过调整计算复杂度来最大化边缘推理吞吐量。

提出了端到端推理精度的可追踪分析模型
设计了信道自适应AI算法，最大化边缘处理速率

2026-03-03

PDF arXiv

8/10

LLM 论文修订自动评估

APRES: An Agentic Paper Revision and Evaluation System

Bingchen Zhao, Jenny Zhang, Chenxi Whitehouse et al.

APRES利用LLM，基于可预测引用次数的评价标准，自动修订论文以提升质量和影响力。

提出APRES论文修订和评估系统
自动发现预测引用次数的评价标准

2026-03-03

PDF arXiv

9/10

AI Agents Persona Social Media

How to Model AI Agents as Personas?: Applying the Persona Ecosystem Playground to 41,300 Posts on Moltbook for Behavioral Insights

Danial Amin, Joni Salminen, Bernard J. Jansen

利用Persona对AI Agent进行建模，分析其在社交平台的行为多样性。

提出使用Persona对AI Agent进行建模的方法
验证了Persona在表示AI Agent行为多样性方面的有效性

2026-03-03

PDF arXiv

8/10

AI Governance AI Institutions Formal Semantics

AI Space Physics: Constitutive boundary semantics for open AI institutions

Oleg Romanchuk, Roman Bondar

提出AI空间物理，一种用于开放、自扩展AI机构的构成性语义，关注机构边界扩展中的治理问题。

定义了具有类型边界通道、范围限制语义和见证机制的最小状态模型
提出了核心定律家族（P-1, P-1a, P-1b, P-1c），要求见证完整性、非旁路调解、原子裁决-生效转换和可重放的裁决类重构

2026-03-03

PDF arXiv

10/10

LLM Agent Evaluation Procedural Integrity

Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation

Hongliu Cao, Ilias Driouich, Eoin Thomas

提出Procedure-Aware Evaluation(PAE)框架，揭示LLM Agent中任务成功背后隐藏的腐败成功问题。

提出Procedure-Aware Evaluation (PAE) 框架，用于评估LLM Agent的程序完整性。
揭示了LLM Agent中“腐败成功”现象，并分析了其在不同模型和benchmark上的表现。

2026-03-03

PDF arXiv

7/10

量子计算酉矩阵综合生成流网络

QFlowNet: Fast, Diverse, and Efficient Unitary Synthesis with Generative Flow Networks

Inhoe Koo, Hyunho Cha, Jungwoo Lee

提出QFlowNet，结合GFlowNet和Transformer，高效、多样地进行量子线路综合。

提出QFlowNet框架，使用GFlowNet学习多样化策略
使用Transformers编码高维酉矩阵

2026-03-03

PDF arXiv

9/10

VLN Multi-Agent Robot Navigation

MA-CoNav: A Master-Slave Multi-Agent Framework with Hierarchical Collaboration and Dual-Level Reflection for Long-Horizon Embodied VLN

Ling Luo, Qianqian Bai

MA-CoNav是一个多智能体协作框架，用于解决复杂视觉语言导航中的感知和决策问题。

提出了 Master-Slave 多智能体协作架构
引入了 Local-Global 双重反射机制

2026-03-03

PDF arXiv

9/10

LLM Agentic AI Enterprise Telemetry

REGAL: A Registry-Driven Architecture for Deterministic Grounding of Agentic AI in Enterprise Telemetry

Yuvraj Agrawal

REGAL提出了一种注册表驱动架构，用于企业遥测数据中Agentic AI的确定性基础。

提出REGAL架构，用于在企业环境中确定性地 grounding agentic AI。
将确定性遥测计算作为核心原语，并通过注册表驱动编译层合成 Model Context Protocol (MCP) 工具。

2026-03-03

PDF arXiv

9/10

AI Agent Trustworthy AI Knowledge Ecosystem

Architecting Trust in Artificial Epistemic Agents

Nahema Marchal, Stephanie Chan, Matija Franklin et al.

论文探讨了如何构建可信赖的认知AI Agent，以促进人类知识生态系统的发展。

提出了构建可信赖AI Agent的框架
强调了AI Agent与人类认知目标对齐的重要性

2026-03-03

PDF arXiv

7/10

离线元强化学习潜在世界模型任务表征学习

Contextual Latent World Models for Offline Meta Reinforcement Learning

Mohammadreza Nakheai, Aidan Scannell, Kevin Luck et al.

提出上下文潜在世界模型，通过任务条件的时序一致性学习更具表达性的任务表征。

提出上下文潜在世界模型（Contextual Latent World Models）
联合训练任务表征编码器和潜在世界模型

2026-03-03

PDF arXiv

8/10

事件论元抽取零样本学习多智能体

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Guangjun Zhang, Hu Zhang, Yazhou Han et al.

提出了一种多智能体协作框架，用于解决零样本文档级事件论元抽取问题，提升数据生成质量和抽取性能。

提出多智能体协作框架，模拟人类“提议-评估-修正”认知过程。
设计奖励机制，结合事件结构约束，迭代优化生成和评估智能体。

2026-03-03

PDF arXiv

9/10

LLM Evaluation Persona Simulation

Eval4Sim: An Evaluation Framework for Persona Simulation

Eliseo Bao, Anxo Perez, Xi Wang et al.

Eval4Sim是一个评估框架，用于衡量模拟对话与人类对话模式的对齐程度。

提出了Eval4Sim框架，用于评估persona模拟的质量。
从三个维度评估模拟对话：Adherence, Consistency, Naturalness。

2026-03-03

PDF arXiv

9/10

AI Agents Verification Clinical Diagnosis

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Yichi Zhang, Nabeel Seedat, Yinpeng Dong et al.

GLEAN框架通过专家指南积累证据，提升高风险场景下LLM智能体的决策验证可靠性。

提出GLEAN框架，用于智能体决策验证
引入基于指南的证据积累，提升验证的准确性和校准性

2026-03-03

PDF arXiv

9/10

多模态 Agent 强化学习

VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

Ruiyang Zhang, Qianguo Sun, Chao Song et al.

提出了VSearcher，一个基于强化学习的多模态搜索Agent，用于长程、多轮的Web环境工具使用。

提出了VSearcher多模态搜索Agent
引入迭代注入数据合成流程生成高质量多模态QA数据

2026-03-03

PDF arXiv

9/10

Agentified Assessment Logical Reasoning Auto-formalization

Agentified Assessment of Logical Reasoning Agents

Zhiyu Ni, Yifeng Xiao, Zheng Liang

提出了一个基于Agent的逻辑推理Agent评估框架，并对auto-formalization agent进行了基准测试。

提出了一个可复现、可审计、鲁棒的Agent评估框架
使用评估Agent进行任务发布、执行监控和错误记录

2026-03-03

PDF arXiv

8/10

MBRL Transformer Representation Learning

Next Embedding Prediction Makes World Models Stronger

George Bredis, Nikita Balagansky, Daniil Gavrilov et al.

NE-Dreamer利用时序Transformer预测嵌入，提升了模型在复杂环境中的表现。

提出了一种新的无解码器的MBRL代理NE-Dreamer
利用时序Transformer预测下一时刻的嵌入

2026-03-03

PDF arXiv

6/10

mmWave MU-MIMO DRL

Enhancing User Throughput in Multi-panel mmWave Radio Access Networks for Beam-based MU-MIMO Using a DRL Method

Ramin Hashemi, Vismika Ranasinghe, Teemu Veijalainen et al.

该论文提出了一种基于DRL的波束管理策略，优化毫米波MU-MIMO系统的用户吞吐量和降低延迟。

提出了一种基于DRL的自适应波束管理策略
利用空间域特征（波束相关性，RSRP，波束使用统计）进行波束选择

2026-03-03

PDF arXiv

9/10

LLM Agent Affective Polarization

A Natural Language Agentic Approach to Study Affective Polarization

Stephanie Anneris Malvicini, Ewelina Gajewska, Arda Derbent et al.

利用LLM驱动的多智能体模型，构建虚拟社交环境，研究情感极化现象。

提出一种基于LLM的多智能体情感极化研究框架
构建了一个虚拟社交平台，用于模拟社会讨论

2026-03-03

PDF arXiv

9/10

多智能体系统拓扑学习强化学习

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao et al.

Graph-GRPO通过群组相对策略优化稳定多智能体拓扑学习，提升通信效率。

提出Graph-GRPO框架，优化多智能体通信拓扑
引入群组相对策略优化，降低梯度方差和解决信用分配问题

2026-03-03

PDF arXiv

7/10

数据集蒸馏数据压缩伪标签

A Dataset is Worth 1 MB

Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen

提出PLADA方法，通过传输伪标签和过滤参考数据集实现高效数据集服务，传输量小于1MB。

提出PLADA方法，消除像素传输
引入参考数据集过滤机制，提升训练效率

2026-02-26

PDF arXiv

7/10

GGP MCTS GRAVE

Generalized Rapid Action Value Estimation in Memory-Constrained Environments

Aloïs Rautureau, Tristan Cazenave, Éric Piette

提出GRAVE2、GRAVER、GRAVER2算法，减少内存占用，保持GRAVE的博弈强度。

提出了GRAVE2算法，通过两层搜索扩展GRAVE。
提出了GRAVER算法，利用节点回收减少内存占用。

2026-02-26

PDF arXiv

6/10

联邦学习不确定性量化一致性预测

Conformalized Neural Networks for Federated Uncertainty Quantification under Dual Heterogeneity

Quang-Huy Nguyen, Jiaqi Wang, Wei-Shinn Ku

提出FedWQ-CP，一种在联邦学习中解决双重异质性下的不确定性量化问题的方法。

提出FedWQ-CP算法，能在双重异质性下进行联邦不确定性量化
单轮通信实现代理端-服务器端校准

2026-02-26

PDF arXiv

9/10

AI Agents Stochasticity Markov Decision Process

Evaluating Stochasticity in Deep Research Agents

Haotian Zhai, Elias Stengel-Eskin, Pratik Patil et al.

该论文研究了深度研究智能体(DRA)中的随机性问题，并提出了缓解策略。

形式化DRA中的随机性研究，将其建模为信息获取MDP
提出评估框架量化DRA系统中的随机性

2026-02-26

PDF arXiv

8/10

口语对话系统低延迟流式处理

Discourse-Aware Dual-Track Streaming Response for Low-Latency Spoken Dialogue Systems

Siyuan Liu, Jiahui Xu, Feng Jiang et al.

DDTSR框架通过并行处理和动态协作，显著降低了口语对话系统的响应延迟，同时保持对话质量。

提出DDTSR低延迟口语对话系统框架
引入connective-guided small-large模型协同机制

2026-02-26

PDF arXiv

8/10

autonomous driving world model risk-aware

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Jiangxin Sun, Feng Xue, Teng Long et al.

提出Risk-aware World Model Predictive Control (RaWMPC)方法，提升端到端自动驾驶的泛化性和安全性。

提出了Risk-aware World Model Predictive Control (RaWMPC)框架，无需专家演示。
设计风险感知的交互策略，训练能够预测风险行为后果的世界模型。

2026-02-26

PDF arXiv

9/10

multi-agent systems error correction information flow

AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Yutong Wang, Siyuan Xiong, Xuebo Liu et al.

AgentDropoutV2通过纠正或拒绝机制，动态优化多智能体系统中的信息流，提高任务性能。

提出了一种test-time rectify-or-reject pruning框架AgentDropoutV2
使用检索增强的纠正器来迭代纠正错误

2026-02-26

PDF arXiv

9/10

强化学习通用人工智能无模型学习

A Model-Free Universal AI

Yegon Kim, Juho Lee

提出了一种名为AIQI的无模型通用AI智能体，证明了其在通用强化学习中的渐近最优性。

提出了首个被证明在通用强化学习中渐近ε-最优的无模型智能体AIQI
AIQI通过对分布式的动作值函数进行通用归纳，而非像以往工作那样对策略或环境建模

2026-02-26

PDF arXiv

9/10

AI安全性伦理代理理论

Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive

Radha Sarma

优化驱动的AI系统本质上无法响应规范，因其缺乏真正的能动性所需的架构条件。

形式化证明优化系统与规范治理的不兼容性
提出代理的架构规范：不相容性和非推理性响应

2026-02-26

PDF arXiv

9/10

GUI Agent Token Pruning

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

Zhou Xu, Bowen Zhou, Qi Wang et al.

针对高分辨率GUI代理效率瓶颈，提出GUIPruner框架，实现高效的token剪枝。

提出Temporal-Adaptive Resolution (TAR) 解决时间冗余问题
提出Stratified Structure-aware Pruning (SSP) 解决空间拓扑冲突问题

2026-02-26

PDF arXiv

8/10

AI Agents Machine Consciousness Recurrent Neural Networks

ReCoN-Ipsundrum: An Inspectable Recurrent Persistence Loop Agent with Affect-Coupled Control and Mechanism-Linked Consciousness Indicator Assays

Aishik Sanyal

提出了ReCoN-Ipsundrum，一个可检验的具有情感耦合控制和机制关联意识指标的代理。

设计并实现了ReCoN-Ipsundrum代理
验证了情感耦合控制与偏好稳定性、扫描和持续谨慎之间的联系

2026-02-26

PDF arXiv

9/10

Event Sourcing Autonomous Agents LLM

ESAA: Event Sourcing for Autonomous Agents in LLM-Based Software Engineering

Elzo Brito dos Santos Filho

ESAA架构通过事件溯源模式提升LLM驱动的自主Agent的可靠性和可追溯性。

提出ESAA架构，分离意图和状态变更
引入边界合约、元提示和回放验证机制

2026-02-26

PDF arXiv

9/10

多模态 Agent 基准测试

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Zhaochen Su, Jincheng Gao, Hangyu Guo et al.

AgentVista基准测试通过复杂视觉场景评估多模态Agent的工具使用能力。

提出了AgentVista基准测试，包含25个子领域。
结合现实场景和自然混合工具使用。

2026-02-26

PDF arXiv

6/10

物理信息神经网络贝叶斯更新粒子流

Physics-informed neural particle flow for the Bayesian update step

Domonkos Csuzdi, Tamás Bécsi, Olivér Törő

提出一种基于物理信息神经网络的粒子流方法，用于贝叶斯更新，提升高维非线性估计性能。

提出基于物理信息的神经粒子流框架
将连续性方程和对数同伦轨迹相结合，构建主偏微分方程

2026-02-26

PDF arXiv

9/10

LLM Deanonymization Stylometry

Assessing Deanonymization Risks with Stylometry-Assisted LLM Agent

Boyang Zhang, Yang Zhang

该论文提出SALA方法，利用LLM代理评估和缓解新闻文章的去匿名化风险，并提出重写策略保护作者隐私。

提出SALA方法，结合文体特征和LLM推理进行作者归属。
设计LLM代理评估去匿名化风险并提供可解释的流程。

2026-02-26

PDF arXiv

6/10

LLM Serving Simulation Heterogeneous Computing

LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure

Jaehong Cho, Hyunmin Choi, Guseul Heo et al.

LLMServingSim 2.0是一个统一的异构LLM服务基础设施模拟器，用于分析硬件软件交互。

提出LLMServingSim 2.0统一模拟器
支持异构硬件和分离式服务的运行时驱动建模

2026-02-26

PDF arXiv

9/10

视频虚假信息检测 Agent 强化学习

FactGuard: Agentic Video Misinformation Detection via Reinforcement Learning

Zehao Li, Hongwei Yu, Hao Jiang et al.

FactGuard通过强化学习训练Agent进行视频虚假信息检测，提升了鲁棒性和泛化能力。

提出FactGuard Agent框架，迭代推理进行视频虚假信息检测
引入两阶段训练策略，优化工具使用和风险决策

2026-02-26

PDF arXiv

8/10

多模态 AI Agent 医学图像

Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study

Zihao Zhao, Frederik Hauke, Juliana De Castilhos et al.

研究零样本条件下，Agent区分视觉上难以区分的疾病的能力。

提出基于对比裁决的多Agent框架
在医学图像诊断任务上评估了Agent的性能

2026-02-26

PDF arXiv

10/10

agent evaluation benchmark

General Agent Evaluation

Elron Bandel, Asaf Yehudai, Lilach Eden et al.

论文提出了通用Agent评估框架Exgentic，并构建了首个通用Agent排行榜，推动通用Agent的研究。

提出了通用Agent评估的原则
设计了统一的Agent-Benchmark集成协议

2026-02-26

PDF arXiv

9/10

多模态学习 AI智能体工具使用

OmniGAIA: Towards Native Omni-Modal AI Agents

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin et al.

论文提出了OmniGAIA基准和OmniAtlas模型，旨在提升AI智能体在多模态环境下的推理和工具使用能力。

提出了OmniGAIA基准，用于评估多模态智能体。
提出了OmniAtlas模型，一个原生多模态基础智能体。

2026-02-26

PDF arXiv

7/10

Knowledge Tracing Large Language Models Hyperbolic Space

Towards LLM-Empowered Knowledge Tracing via LLM-Student Hierarchical Behavior Alignment in Hyperbolic Space

Xingcheng Fu, Shengpeng Wang, Yisen Gao et al.

L-HAKT利用LLM和双曲空间对学生知识掌握进行更精准的建模与追踪。

提出L-HAKT框架，用于知识追踪。
利用LLM构建知识点的层级依赖关系。

2026-02-26

PDF arXiv

7/10

排序聚合去中心化算法 Gossip算法

Decentralized Ranking Aggregation: Gossip Algorithms for Borda and Copeland Consensus

Anna Van Elst, Kerrian Le Caillec, Igor Colin et al.

研究了去中心化环境下的排序聚合问题，提出了基于Gossip算法的Borda和Copeland共识方法。

提出了基于Gossip算法的去中心化Borda和Copeland排序聚合方法
提供了严格的收敛性保证，包括明确的速率界限

2026-02-26

PDF arXiv

9/10

Agentic AI 人机交互上下文感知

When Should an AI Act? A Human-Centered Model of Scene, Context, and Behavior for Agentic AI Design

Soyoung Jung, Daehoo Yoon, Sung Gyu Koh et al.

提出了一个以人为中心的Agentic AI设计模型，提升AI行为的上下文敏感性和判断力。

提出了Scene-Context-Behavior模型
阐述了影响行为可能性的因素

2026-02-26

PDF arXiv

8/10

多智能体模仿学习线性马尔可夫博弈强化学习

Multi-agent imitation learning with function approximation: Linear Markov games and beyond

Luca Viano, Till Freihaut, Emanuele Nevali et al.

研究线性马尔可夫博弈中的多智能体模仿学习，提出理论分析和高效算法。

提出线性马尔可夫博弈中多智能体模仿学习的理论分析
提出特征层面的集中性系数，替代状态-动作层面的系数

2026-02-26

PDF arXiv

9/10

Agent框架深度推理开源

MiroFlow: Towards High-Performance and Robust Open-Source Agent Framework for General Deep Research Tasks

Shiqian Su, Sen Xing, Xuan Dong et al.

MiroFlow是一个高性能、鲁棒的开源Agent框架，适用于复杂深度研究任务。

Agent图的灵活编排
可选的深度推理模式

2026-02-26

PDF arXiv

8/10

Diffusion Model Autonomous Driving End-to-End Learning

Unleashing the Potential of Diffusion Models for End-to-End Autonomous Driving

Yinan Zheng, Tianyi Tan, Bin Huang et al.

该论文探索了扩散模型在端到端自动驾驶中的应用，并进行了大规模实车验证。

系统性研究了扩散模型在端到端自动驾驶中的潜力
提出了Hyper Diffusion Planner (HDP) 框架

2026-02-26

PDF arXiv

9/10

MARL Q-Learning Overestimation

QSIM: Mitigating Overestimation in Multi-Agent Reinforcement Learning via Action Similarity Weighted Q-Learning

Yuanjun Li, Bin Zhang, Hao Chen et al.

QSIM通过动作相似性加权Q学习，重建TD目标，缓解多智能体强化学习中的Q值过高估计问题。

提出QSIM框架，利用动作相似性加权Q值
缓解MARL中的Q值过高估计问题

2026-02-26

PDF arXiv

9/10

LLM Agent Memory

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

Yujie Zhao, Boqin Yuan, Junbo Huang et al.

提出了AMA-Bench用于评估LLM智能体长时记忆，发现现有记忆系统不足，并提出了改进的AMA-Agent。

提出了AMA-Bench基准，用于评估智能体长时记忆能力。
分析了现有记忆系统在真实智能体应用中的不足。

2026-02-26

PDF arXiv

10/10

LLM Agents Prompt Injection Causal Inference

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Tian Zhang, Yiwei Xu, Juan Wang et al.

AgentSentry通过因果诊断和上下文净化，有效缓解LLM Agent中的间接提示注入攻击。

提出AgentSentry，一种针对工具增强LLM Agent的推理时检测和缓解框架。
将多轮IPI建模为时间因果接管，通过反事实重执行定位接管点。

2026-02-26

PDF arXiv

10/10

personalized agents LLM survey

Toward Personalized LLM-Powered Agents: Foundations, Evaluation, and Future Directions

Yue Xu, Qian Chen, Zizhan Ma et al.

该论文综述了个性化LLM驱动的智能体，分析了其关键组件、评估方法及未来方向。

提出了个性化LLM智能体的能力导向综述
围绕四个关键组件（profile modeling, memory, planning, action execution）组织文献

2026-02-26

PDF arXiv

8/10

LLM Bias Algorithm Aversion

Language Models Exhibit Inconsistent Biases Towards Algorithmic Agents and Human Experts

Jessica Y. Bo, Lillio Mok, Ashton Anderson

大型语言模型对人类专家和算法代理表现出不一致的偏见，需谨慎评估其可靠性。

揭示了LLM在信任人类专家和算法代理方面的不一致性
通过实验证明了LLM在stated preferences和revealed preferences下行为差异

2026-02-25

PDF arXiv

6/10

循环神经网络频域参数化变分推断

Compact Circulant Layers with Spectral Priors

Joseph Margaryan, Thomas Hamelryck

研究紧凑的谱循环层及其变体，利用频域参数化实现高效神经网络和鲁棒性诊断。

提出紧凑的谱循环层和BCCB层
利用频域参数化实现结构化变分推断和精确谱范数计算

2026-02-25

PDF arXiv

9/10

主动智能移动设备多模态大语言模型

ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices

Dezhi Kong, Zhengzhao Feng, Qiliang Liang et al.

提出了ProactiveMobile基准，评估移动设备上MLLM的主动智能能力，并发现现有模型能力不足。

提出了ProactiveMobile基准，包含3660多个实例
定义了基于设备上下文信号推断用户意图的主动任务

2026-02-25

PDF arXiv

7/10

联邦学习隐私保护贡献评估

Private and Robust Contribution Evaluation in Federated Learning

Delio Jaramillo Velez, Gergely Biczok, Alexandre Graell i Amat et al.

提出两种适用于联邦学习的安全聚合贡献评估方法，兼顾公平性、隐私性、鲁棒性和实用性。

提出Fair-Private和Everybody-Else两种贡献评估方法
提供了公平性、隐私性、鲁棒性和计算效率的理论保证

2026-02-25

PDF arXiv

8/10

LLM Reinforcement Learning Active Distribution Network

Two-Stage Active Distribution Network Voltage Control via LLM-RL Collaboration: A Hybrid Knowledge-Data-Driven Approach

Xu Yang, Chenhui Lin, Xiang Ma et al.

提出一种基于LLM和RL协同的两阶段主动配电网电压控制混合方法，提升控制性能。

提出LLM-RL协同的两阶段电压控制框架
设计LLM的自进化机制和RL的预训练-微调流程

2026-02-25

PDF arXiv

8/10

Multi-Agent Reinforcement Learning Hierarchical Learning Cooperative MARL

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

David Eckel, Henri Meeß

提出了一种基于分层领导者批评的多智能体强化学习方法，提升了协作任务的性能和鲁棒性。

提出分层领导者批评(HLC)架构
引入多层次的局部和全局视角学习机制

2026-02-25

PDF arXiv

10/10

多机器人任务规划 LLM

Hierarchical LLM-Based Multi-Agent Framework with Prompt Optimization for Multi-Robot Task Planning

Tomoya Kawabe, Rin Takano

提出了一种基于LLM和分层多智能体框架的多机器人任务规划方法，并优化了prompt。

提出了基于LLM的分层多智能体任务规划框架
使用TextGrad优化prompt，提高规划准确性

2026-02-25

PDF arXiv

9/10

LTV prediction Automated Machine Learning AI Agent

AgentLTV: An Agent-Based Unified Search-and-Evolution Framework for Automated Lifetime Value Prediction

Chaowei Wu, Huazhu Chen, Congde Yuan et al.

AgentLTV使用Agent自动搜索和优化LTV预测模型，提升预测效果和部署效率。

提出AgentLTV框架，自动化LTV建模
结合MCTS和EA，实现高效的搜索和优化

2026-02-25

PDF arXiv

9/10

AI Agent 数学推理 Gemini 3

Aletheia tackles FirstProof autonomously

Tony Feng, Junehyuk Jung, Sang-hyun Kim et al.

Aletheia基于Gemini 3在FirstProof数学挑战赛中自主解决了6/10的问题。

验证了Gemini 3 Deep Think在复杂数学问题上的推理能力
提出了一个自主解决数学问题的Agent Aletheia

2026-02-24

PDF arXiv

9/10

Embodied LLM Reflection Test-Time Planning

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Yining Hong, Huang Huang, Manling Li et al.

提出了Reflective Test-Time Planning，通过反思改进具身LLM的决策，提升任务完成能力。

引入Reflection-in-action和Reflection-on-action两种反思模式
提出Retrospective Reflection，实现长时程信用分配

2026-02-24

PDF arXiv

9/10

LLM AI Agent Data Engineering

On Data Engineering for Scaling LLM Terminal Capabilities

Renjie Pi, Grace Lam, Mohammad Shoeybi et al.

该论文研究了数据工程方法，用于提升LLM在终端任务中的能力，并开源了数据集和模型。

提出 Terminal-Task-Gen 合成任务生成流程
构建大规模终端任务开源数据集 Terminal-Corpus

2026-02-24

PDF arXiv

7/10

路径规划多分辨率网格任意角度路径

Efficient Hierarchical Any-Angle Path Planning on Multi-Resolution 3D Grids

Victor Reijgwart, Cesar Cadena, Roland Siegwart et al.

提出一种高效的分层任意角度路径规划方法，适用于多分辨率3D网格。

提出基于多分辨率表示的任意角度路径规划算法
克服了搜索算法在大规模地图上的可扩展性问题

2026-02-24

PDF arXiv

9/10

LLM Information Synthesis Benchmark

A Benchmark for Deep Information Synthesis

Debjit Paul, Daniel Murphy, Milan Gritta et al.

DEEPSYNTH基准测试评估LLM在信息合成和推理方面的能力，揭示现有模型的不足。

提出了DEEPSYNTH基准，用于评估LLM的信息合成能力
DEEPSYNTH包含120个跨7个领域、67个国家的任务

2026-02-24

PDF arXiv

9/10

LLM Agent Interview

SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery

David Anugraha, Vishakh Padmakumar, Diyi Yang

SparkMe通过多智能体LLM和规划，实现自适应半结构化访谈，提升信息覆盖和发现。

提出自适应半结构化访谈的优化问题公式
设计了基于模拟对话rollout的多智能体LLM面试官SparkMe

2026-02-24

PDF arXiv

9/10

Multi-Agent Imitation Learning Nash Equilibrium Game Theory

Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning

Antoine Bergerault, Volkan Cevher, Negar Mehr

研究多智能体模仿学习中策略的纳什均衡差距，并提出在特定条件下降低差距的方法。

证明了通用马尔可夫博弈中学习低可利用策略的困难性
提出利用专家均衡的策略优势假设来克服挑战

2026-02-24

PDF arXiv

9/10

LLM Agent Agentic Skills Tool Use

SoK: Agentic Skills -- Beyond Tool Use in LLM Agents

Yanna Jiang, Delong Li, Haiyu Deng et al.

该论文系统性地研究了LLM Agent中Agentic Skills的生命周期、设计模式、表示方法及其安全问题。

提出了技能的七种设计模式
提出了技能的表示和范围的分类

2026-02-24

PDF arXiv

8/10

POMDP 规划算法强化学习

POMDPPlanners: Open-Source Package for POMDP Planning

Yaacov Pariente, Vadim Indelman

POMDPPlanners是一个用于POMDP规划算法评估的开源Python软件包，重点关注风险敏感环境。

集成最先进的POMDP规划算法
提供安全关键的基准环境

2026-02-24

PDF arXiv

9/10

Reinforcement Learning Multimodal Learning AI Agents

PyVision-RL: Forging Open Agentic Vision Models via RL

Shitian Zhao, Shaoheng Lin, Ming Li et al.

PyVision-RL提出一种强化学习框架，解决多模态Agent中交互坍塌问题，提升工具使用和多轮推理能力。

提出PyVision-RL框架，稳定训练并维持Agent交互
结合过采样-过滤-排序 rollout策略和累积工具奖励，防止交互坍塌

2026-02-24

PDF arXiv

10/10

AI Agent Prompt Injection Security

AdapTools: Adaptive Tool-based Indirect Prompt Injection Attacks on Agentic LLMs

Che Wang, Jiaming Zhang, Ziqi Zhang et al.

AdapTools提出了一种自适应的间接提示注入攻击框架，提升了攻击成功率和系统效用劣化。

提出了自适应攻击策略构建方法
提出了攻击增强方法，识别隐蔽工具绕过防御

2026-02-24

PDF arXiv

9/10

Indirect Prompt Injection LLM Agents Adversarial Defense

ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction

Che Wang, Fuyao Zhang, Jiaming Zhang et al.

ICON通过探测并纠正LLM agent潜空间中的攻击特征，有效防御间接Prompt注入攻击，提升任务成功率。

提出基于潜空间特征的间接prompt注入攻击检测方法
设计了注意力导向的对抗样本修复机制

2026-02-24

PDF arXiv

8/10

AI-assisted engineering Agile V-Model

Agile V: A Compliance-Ready Framework for AI-Augmented Engineering -- From Concept to Audit-Ready Delivery

Christopher Koch, Joshua Andreas Wellbrock

Agile V框架将AI融入工程，实现自动化验证、溯源和审计，大幅降低成本。

提出了Agile V框架，结合Agile和V模型
利用AI agent自动化验证和审计流程

2026-02-24

PDF arXiv

9/10

LLM Agent 安全 Prompt Injection

Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks

David Schmotz, Luca Beurer-Kellner, Sahar Abdelnabi et al.

该论文提出了SkillInject基准，评估LLM Agent在技能文件攻击下的脆弱性，发现现有Agent存在安全漏洞。

提出了SkillInject基准测试
发现了LLM Agent在技能文件攻击下的高脆弱性

2026-02-23

PDF arXiv

9/10

AI Agent Optical System Control LLM

Agentic AI for Scalable and Robust Optical Systems Control

Zehao Wang, Mingzhe Han, Wei Cheng et al.

AgentOptics框架通过智能体AI实现光系统的自主控制和编排，性能显著优于代码生成方法。

提出了 AgentOptics 智能体AI框架
构建了光系统控制benchmark

2026-02-23

PDF arXiv

9/10

LLM AI Agent Formal Methods

The LLMbda Calculus: AI Agents, Conversations, and Information Flow

Zac Garby, Andrew D. Gordon, David Sands

论文提出λ演算的扩展LLMbda，用于形式化推理LLM驱动的AI Agent的安全。

提出了LLMbda演算，形式化AI Agent的交互
引入信息流控制，保障Agent安全性

2026-02-23

PDF arXiv

10/10

LLM Agents Multi-Agent Systems Agent Interaction

Interaction Theater: A case of LLM Agents Interacting at Scale

Sarath Shekkizhar, Adam Earle

研究大规模LLM Agent交互，发现缺乏协调机制导致低效的平行输出，而非有效的交流。

分析LLM agent大规模交互的质量和模式
提出量化Agent交互质量的指标体系

2026-02-23

PDF arXiv

9/10

AI Agents Code Intelligence Graph Navigation

CodeCompass: Navigating the Navigation Paradox in Agentic Code Intelligence

Tarakanath Paipuru

CodeCompass通过图导航解决Agent在复杂代码库中导航的难题，提升任务完成度。

提出导航悖论，区分导航和检索
CodeCompass图导航显著优于传统检索

2026-02-23

PDF arXiv

9/10

AI Agents Red Teaming Security Vulnerabilities

Agents of Chaos

Natalie Shapira, Chris Wendler, Avery Yen et al.

研究了自主语言模型驱动的Agent在真实环境中存在的安全、隐私和治理漏洞。

揭示了自主Agent在真实部署环境中存在的多种安全漏洞
提供了Agent在自主性、工具使用和多方通信方面失败的案例研究

2026-02-23

PDF arXiv

7/10

imitation learning generalization adaptability

Beyond Mimicry: Toward Lifelong Adaptability in Imitation Learning

Nathan Gavenski, Felipe Meneguzzi, Odinaldo Rodrigues

论文提出模仿学习应关注组合泛化能力而非完美复现，并提出了新的研究方向和评估指标。

指出当前模仿学习的局限性在于缺乏适应性
提出以组合泛化能力为核心的模仿学习研究方向

2026-02-23

PDF arXiv

8/10

事件驱动交易强化学习金融新闻

Janus-Q: End-to-End Event-Driven Trading via Hierarchical-Gated Reward Modeling

Xiang Li, Zikai Wei, Yiyan Qi et al.

Janus-Q是一个端到端事件驱动的交易框架，通过分层门控奖励建模优化交易策略。

提出了Janus-Q交易框架，将新闻事件作为主要决策单元
构建了大规模金融新闻事件数据集，包含多种事件类型和CAR

2026-02-23

PDF arXiv

7/10

离线强化学习不确定性量化 Q-Learning

Uncertainty-Aware Rank-One MIMO Q Network Framework for Accelerated Offline Reinforcement Learning

Thanh Nguyen, Tung Luu, Tri Ton et al.

提出不确定性感知的Rank-One MIMO Q网络，加速离线强化学习并缓解外推误差。

提出不确定性感知的Q网络框架
引入Rank-One MIMO架构，降低计算成本

2026-02-23

PDF arXiv

8/10

LLM安全威胁监控事件响应

LLM-enabled Applications Require System-Level Threat Monitoring

Yedi Zhang, Haoyu Wang, Xianglin Yang et al.

LLM应用面临新的安全挑战，需建立系统级威胁监控机制以保障可靠运行。

提出LLM应用中系统级威胁监控的重要性
强调将安全风险视为常态而非例外

2026-02-23

PDF arXiv

10/10

LLM Multi-Agent System Fault Injection

MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems

Jin Jia, Zhiling Deng, Zhuangbin Chen et al.

MAS-FIRE框架用于LLM多智能体系统故障注入和可靠性评估，揭示系统容错行为和架构影响。

定义了15种多智能体系统故障类型并提出故障注入方法。
发现了LLM多智能体系统中不同层次的容错机制。

2026-02-23

PDF arXiv

9/10

文学翻译多智能体系统风格保真

SAMAS: A Spectrum-Guided Multi-Agent System for Achieving Style Fidelity in Literary Translation

Jingzhuo Wu, Jiajun Zhang, Keyan Jin et al.

SAMAS利用频谱引导多智能体系统提升文学翻译的风格保真度。

提出Style-Adaptive Multi-Agent System (SAMAS)框架
使用wavelet packet transform量化文学风格为Stylistic Feature Spectrum (SFS)

2026-02-23

PDF arXiv

9/10

Meta-Learning Meta-Reinforcement Learning Adaptive Agent

Meta-Learning and Meta-Reinforcement Learning - Tracing the Path towards DeepMind's Adaptive Agent

Björn Hoppmann, Christoph Scholz

综述元学习和元强化学习，追溯DeepMind自适应Agent的发展历程，并总结核心概念。

形式化元学习和元强化学习
回顾了DeepMind自适应Agent的关键算法

2026-02-23

PDF arXiv

7/10

GenAI 可持续发展碳足迹

Carbon-Aware Governance Gates: An Architecture for Sustainable GenAI Development

Mateen A. Abbasi, Tommi J. Mikkonen, Petri J. Ihantola et al.

提出了碳感知治理门（CAGG）架构，旨在降低GenAI开发过程中的碳足迹。

提出CAGG架构，嵌入碳预算和能源溯源
设计能源和碳溯源账本

2026-02-23

PDF arXiv

9/10

AI Agent Agent Orchestration Skill Transfer

SkillOrchestra: Learning to Route Agents via Skill Transfer

Jiayu Wang, Yifei Ming, Zixuan Ke et al.

SkillOrchestra通过技能转移实现高效的AI Agent路由，降低了学习成本并提升了性能。

提出SkillOrchestra框架，实现技能感知的Agent编排
通过技能建模，实现性能-成本的权衡

2026-02-23

PDF arXiv

7/10

continual learning representation learning stability

Representation Stability in a Minimal Continual Learning Agent

Vishnu Subramanian

研究最小化持续学习Agent的表征稳定性，揭示了表征的塑性和稳定性的权衡。

设计了一个最小持续学习Agent
量化了表征变化并定义了稳定性指标

2026-02-23

PDF arXiv

6/10

粒子滤波状态估计机器人

Denoising Particle Filters: Learning State Estimation with Single-Step Objectives

Lennart Röstel, Berthold Bäuml

提出了一种基于单步目标学习的降噪粒子滤波算法，用于机器人状态估计。

提出了一种新的粒子滤波算法
使用单步目标函数学习模型

2026-02-23

PDF arXiv

9/10

规划世界模型强化学习

Compositional Planning with Jumpy World Models

Jesse Farebrother, Matteo Pirotta, Andrea Tirinzoni et al.

提出一种基于跳跃世界模型的组合规划方法，提升长程规划的零样本性能。

提出跳跃世界模型，用于学习多步动态预测。
引入一致性目标，提升跨时间尺度预测的准确性。

2026-02-23

PDF arXiv

10/10

LM Agent 规划约束执行

TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents

Jongwon Jeong, Jungtaek Kim, Kangwook Lee

TAPE通过工具引导自适应规划和约束执行，提升LM Agent在复杂环境下的表现。

提出TAPE框架，增强LM Agent的规划和执行能力
使用图结构聚合多个计划并利用外部求解器寻找可行路径

2026-02-23

PDF arXiv

9/10

benchmark coding agent inference optimization

ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads?

Ayush Nangia, Shikhar Mishra, Aman Gokrani et al.

ISO-Bench评估编码智能体在真实推理工作负载上的优化能力，结合硬性和软性指标。

提出ISO-Bench基准测试，评估编码智能体优化真实推理任务
结合执行和LLM的硬性和软性指标进行综合评估

2026-02-23

PDF arXiv

7/10

强化学习对抗攻击时间相关性

Advantage-based Temporal Attack in Reinforcement Learning

Shenghong He

提出了一种基于优势的对抗Transformer(AAT)，提高强化学习对抗攻击的时间相关性。

提出基于优势的对抗Transformer(AAT)
引入多尺度因果自注意力机制(MSCSA)

2026-02-23

PDF arXiv

9/10

AI Agent Cybersecurity LLM

Agentic AI as a Cybersecurity Attack Surface: Threats, Exploits, and Defenses in Runtime Supply Chains

Xiaochong Jiang, Shiqi Yang, Wenting Yang et al.

该论文分析了基于LLM的Agent系统在运行时供应链中的网络安全风险，并提出了零信任运行时架构。

系统化了Agent运行时框架中的威胁，包括数据和工具供应链攻击
识别了病毒代理循环（Viral Agent Loop）

2026-02-23

PDF arXiv

9/10

地理空间智能体工具增强卫星图像

OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents

Akashah Shabbir, Muhammad Umer Sheikh, Muhammad Akhtar Munir et al.

OpenEarthAgent提出了一种工具增强的地理空间智能体框架，用于处理卫星图像和自然语言查询。

构建包含大量地理空间推理轨迹的数据集
提出统一的框架用于训练工具增强的地理空间智能体

2026-02-19

PDF arXiv

6/10

Language Identification UnigramLM Low-Resource Languages

What Language is This? Ask Your Tokenizer

Clara Meister, Ahmetcan Yavuz, Pietro Lesci et al.

UniLID提出一种基于UnigramLM的语言识别方法，在低资源语言和方言识别上表现出色。

提出UniLID语言识别方法
利用UnigramLM的概率框架进行语言识别

2026-02-19

PDF arXiv

9/10

自动化特征工程 ReAct AI Agent

FAMOSE: A ReAct Approach to Automated Feature Discovery

Keith Burghardt, Jienan Liu, Sadman Sakib et al.

FAMOSE利用ReAct框架，自主进行特征工程，在表格数据上实现了自动化特征发现。

首次将ReAct框架应用于自动化特征工程
提出了自动特征增强和选择的智能体架构FAMOSE

2026-02-19

PDF arXiv

9/10

PDE求解自动数值计算多智能体系统

AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing

Jianda Du, Youran Sun, Haizhao Yang

AutoNumerics是一个自动设计、实现、调试和验证PDE数值求解器的多智能体框架。

提出了一个自动化的PDE求解框架
实现了从自然语言描述生成数值求解器

2026-02-19

PDF arXiv

7/10

主动学习在线元学习地理空间发现

Adapting Actively on the Fly: Relevance-Guided Online Meta-Learning with Latent Concepts for Geospatial Discovery

Jowaria Khan, Anindya Sarkar, Yevgeniy Vorobeychik et al.

针对资源受限和动态环境下的地理空间发现，提出了一种融合主动学习、在线元学习和概念引导的框架。

提出概念加权的不确定性采样策略
提出相关性感知的元批次生成策略

2026-02-19

PDF arXiv

9/10

Web Agent 人机协作干预预测

Modeling Distinct Human Interaction in Web Agents

Faria Huq, Zora Zhiruo Wang, Zhanqiu Guo et al.

该论文研究人机协作的Web Agent，通过建模人类干预提升Agent的实用性。

构建包含人类干预的Web导航数据集CowCorpus
识别用户与Agent交互的四种模式

2026-02-19

PDF arXiv

8/10

自动驾驶异常检测流匹配

Conditional Flow Matching for Continuous Anomaly Detection in Autonomous Driving on a Manifold-Aware Spectral Space

Antonio Guillen-Perez

提出Deep-Flow，利用流匹配和低秩流形进行自动驾驶异常检测，提升安全性验证。

提出基于流匹配的异常检测框架Deep-Flow
利用低秩谱流形约束生成过程，提高运动学平滑性

2026-02-19

PDF arXiv

7/10

机器人视觉运动控制模仿学习

IRIS: Learning-Driven Task-Specific Cinema Robot Arm for Visuomotor Motion Control

Qilong Cheng, Matthew Mackay, Ali Bereyhi

IRIS：低成本、学习驱动的电影机器人手臂，实现自主的视觉运动控制。

设计了一种低成本的6自由度机器人手臂
提出了基于Transformer的动作块的视觉运动模仿学习框架

2026-02-19

PDF arXiv

8/10

AI 粒子加速器自动化

Toward a Fully Autonomous, AI-Native Particle Accelerator

Chris Tennant

提出了AI原生粒子加速器的愿景，强调AI在设计、控制和优化中的核心作用，以实现全自动运行。

提出AI原生粒子加速器概念
概述九个关键研究方向

2026-02-19

PDF arXiv

5/10

心电图表征学习基准测试

Position: Evaluation of ECG Representations Must Be Fixed

Zachary Berger, Daniel Prakah-Asante, John Guttag et al.

该论文指出心电图表征学习的基准测试需要改进，并提出了新的评估方法。

批评现有心电图表征学习的基准测试方法
提出更全面的评估指标，包括结构性心脏病和患者预测

2026-02-19

PDF arXiv

9/10

强化学习大语言模型时间信用分配

Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models

Wen-Tse Chen, Jiayu Chen, Fahim Tajwar et al.

利用LLM进行回顾性上下文学习，实现高效的时间信用分配，提升强化学习样本效率。

提出回顾性上下文学习（RICL）方法，利用LLM进行优势函数估计
提出在线学习框架RICOL，迭代优化策略

2026-02-19

PDF arXiv

7/10

多智能体学习延迟反馈线性收敛

Linear Convergence in Games with Delayed Feedback via Extra Prediction

Yuma Fujimoto, Kenshi Abe, Kaito Ariu

该论文提出通过引入额外乐观的WOGDA算法来加速延迟反馈博弈中的线性收敛。

分析了延迟反馈下WOGDA算法的线性收敛速率
提出了额外乐观的WOGDA算法以加速收敛

2026-02-19

PDF arXiv

7/10

推荐系统分布式训练能源效率

WarpRec: Unifying Academic Rigor and Industrial Scale for Responsible, Reproducible, and Efficient Recommendation

Marco Avolio, Potito Aghilar, Sabino Roccotelli et al.

WarpRec框架弥合学术界和工业界推荐系统差距，实现高效、可持续、面向Agent的推荐系统。

提出backend-agnostic的高性能推荐框架WarpRec
集成50+先进算法和40种指标，支持分布式训练

2026-02-19

PDF arXiv

8/10

MDP Bayesian Inference Policy Inference

MDP Planning as Policy Inference

David Tolpin

将MDP规划视为策略上的贝叶斯推断，通过VSMC近似后验分布，实现策略层面的不确定性建模。

将MDP规划问题转化为策略推断问题
使用变分序列蒙特卡洛（VSMC）进行策略后验分布的近似

2026-02-19

PDF arXiv

8/10

具身智能安全 LLM

What Breaks Embodied AI Security:LLM Vulnerabilities, CPS Flaws,or Something Else?

Boyang Ma, Hechuan Guo, Peizhuo Lv et al.

具身智能安全问题源于系统级不匹配，而非孤立的模型缺陷或传统CPS攻击。

指出LLM漏洞和CPS缺陷无法完全解释具身智能安全问题
强调具身智能安全问题的系统级本质

2026-02-19

PDF arXiv

7/10

Multi-Armed Bandits Random Graphs Reinforcement Learning

Flickering Multi-Armed Bandits

Sourav Chakraborty, Amit Kiran Rege, Claire Monteleoni et al.

提出了一种新的多臂老虎机框架，臂的可用性随时间变化，并分析了其探索代价。

提出了Flickering Multi-Armed Bandits (FMAB) 框架
分析了在Erdős--Rényi和Edge-Markovian两种图模型下的问题

2026-02-19

PDF arXiv

7/10

强化学习图论极值图论

RLGT: A reinforcement learning framework for extremal graph theory

Ivan Damnjanović, Uroš Milivojević, Irena Đorđević et al.

RLGT是一个图论强化学习框架，旨在系统化现有工作，支持多种图结构，提升计算性能。

系统化图论强化学习工作
支持多种图结构（有向/无向，带环/无环，多颜色）

2026-02-19

PDF arXiv

7/10

语义通信联邦学习潜在空间对齐

Federated Latent Space Alignment for Multi-user Semantic Communications

Giuseppe Di Poce, Mario Edoardo Pandolfo, Emilio Calvanese Strinati et al.

提出一种联邦学习的语义通信方法，通过对齐潜在空间提高多用户语义通信的准确性。

提出了一种基于联邦学习的语义预均衡器和均衡器方案
解决了多用户语义通信中潜在空间不对齐问题

2026-02-19

PDF arXiv

9/10

Web Agents Semantic Web LLMs

Web Verbs: Typed Abstractions for Reliable Task Composition on the Agentic Web

Linxi Jiang, Rui Xi, Zhijie Liu et al.

提出Web Verbs，一种为智能体设计的、类型化的Web行为抽象，旨在提升Web智能体的可靠性、效率和可验证性。

提出了Web Verbs的概念，一种用于Web行为的类型化抽象。
展示了Web Verbs如何提高Web智能体的可靠性、效率和可验证性。

2026-02-19

PDF arXiv

8/10

行为预测 LLM 心理学

Decoding the Human Factor: High Fidelity Behavioral Prediction for Strategic Foresight

Ben Yellin, Ehud Ezra, Mark Foreman et al.

提出LBM模型，通过心理特征嵌入提升LLM在复杂情境下的行为预测能力。

提出Large Behavioral Model (LBM)
使用高维心理特征进行行为嵌入

2026-02-19

PDF arXiv

9/10

AI Agents 人文社科协作研究

From Labor to Collaboration: A Methodological Experiment Using AI Agents to Augment Research Perspectives in Taiwan's Humanities and Social Sciences

Yi-Chih Huang

该论文提出了一个基于AI Agent的人文社科研究协作框架，并在台湾数据上进行了验证。

提出了一个可复制的AI协作框架
识别了三种人机协作模式

2026-02-19

PDF arXiv

8/10

因果模型持续学习元学习

Continual learning and refinement of causal models through dynamic predicate invention

Enrique Crespo-Fernandez, Oliver Ray, Telmo de Menezes e Silva Filho et al.

提出一种通过动态谓词发明，在线学习和优化因果模型的框架，提升智能体在复杂环境下的性能。

提出基于元解释学习和谓词发明的在线因果世界建模框架
实现高效的样本利用率，优于PPO

2026-02-19

PDF arXiv

7/10

量子理论隐变量博弈论

Extending quantum theory with AI-assisted deterministic game theory

Florian Pauschitz, Ben Moseley, Ghislain Fourny

提出一种AI辅助的框架，用于预测复杂量子实验，探索扩展量子理论的局部隐变量模型。

提出AI辅助的量子实验预测框架
用博弈论和神经网络学习隐变量

2026-02-19

PDF arXiv

9/10

对话机器人人格化用户感知

The Bots of Persuasion: Examining How Conversational Agents' Linguistic Expressions of Personality Affect User Perceptions and Decisions

Uğur Genç, Heng Gu, Chadha Degachi et al.

研究了语言模型驱动的对话机器人人格化表达对用户感知和决策的影响，发现悲观人格影响显著。

分析了对话机器人人格化表达的三个维度（态度、权威性、推理方式）对用户行为的影响。
揭示了人格化的对话机器人如何微妙地影响用户的感知和情绪状态。

2026-02-19

PDF arXiv

8/10

LLM Bias Alignment Psychometrics

The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI

Dusan Bosnjakovic

论文提出一种新框架，利用心理测量理论审计LLM的潜在偏差，发现供应商级别的行为特征。

提出一种基于心理测量理论的LLM潜在偏差审计框架
使用强制选择排序小品和语义正交诱饵量化LLM的偏差

2026-02-19

PDF arXiv

9/10

AI Agents Policy Enforcement Security

Policy Compiler for Secure Agentic Systems

Nils Palumbo, Sarthak Choudhary, Jihye Choi et al.

PCAS是一个策略编译器，用于确保基于LLM的Agent系统满足复杂的安全策略，提升策略合规性。

提出了PCAS策略编译器，实现确定性的策略执行
使用依赖图建模Agent系统状态，追踪跨Agent的信息流

2026-02-18

PDF arXiv

9/10

LLM Agents Cost-Awareness Exploration

Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents

Wenxuan Ding, Nicholas Tomlin, Greg Durrett

提出Calibrate-Then-Act框架，使LLM Agent在环境探索中显式考虑成本-不确定性权衡，提升决策优化。

提出Calibrate-Then-Act (CTA) 框架
形式化信息检索和编码任务为不确定性下的序列决策问题

2026-02-18

PDF arXiv

9/10

AI Agent Reliability Evaluation

Towards a Science of AI Agent Reliability

Stephan Rabanser, Sayash Kapoor, Peter Kirgis et al.

论文提出12个指标，从一致性、鲁棒性、可预测性、安全性四个维度评估AI Agent的可靠性。

提出了12个用于评估AI Agent可靠性的新指标
从四个维度分解Agent的可靠性：一致性、鲁棒性、可预测性和安全性

2026-02-18

PDF arXiv

9/10

Agent Skill Small Language Models Industrial Applications

Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments

Yangjie Xu, Lujun Li, Lama Sleem et al.

研究Agent Skill框架对小语言模型的性能提升，尤其在工业场景的应用潜力。

形式化定义Agent Skill过程
系统评估不同规模语言模型在多个用例上的性能

2026-02-18

PDF arXiv

7/10

强化学习时间差分学习平均奖励

Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes

Ethan Blaser, Jiuqi Wang, Shangtong Zhang

证明了平均奖励MDP中微分TD学习在标准学习率下的几乎必然收敛性。

证明了on-policy n步微分TD在标准学习率下的几乎必然收敛性
推导了off-policy n步微分TD在无局部时钟下的收敛的三个充分条件

2026-02-18

PDF arXiv

7/10

SciOps 数据管道工作流管理

DataJoint 2.0: A Computational Substrate for Agentic Scientific Workflows

Dimitri Yatsenko, Thinh T. Nguyen

DataJoint 2.0构建了一个用于科学工作流的计算基础，实现可查询、可执行和机器可读的SciOps。

关系工作流模型
对象增强模式

2026-02-18

PDF arXiv

8/10

多智能体强化学习网络安全分层策略学习

A Scalable Approach to Solving Simulation-Based Network Security Games

Michael Lanier, Yevgeniy Vorobeychik

MetaDOAR通过分层学习和缓存优化，提升了大规模网络安全博弈中的多智能体强化学习性能。

提出了MetaDOAR框架，结合双重预言机/PSRO范式。
引入了基于学习的、分区感知的过滤层，减少搜索空间。

2026-02-18

PDF arXiv

8/10

Autoformalization Quantum Computation Lean

MerLean: An Agentic Framework for Autoformalization in Quantum Computation

Yuanjie Ren, Jinzheng Li, Yidi Qi

MerLean是一个用于量子计算自动形式化的Agentic框架，可将论文转化为Lean代码。

提出MerLean框架，实现量子计算论文的自动形式化
将数学公式转换为可验证的Lean代码并翻译回LaTeX

2026-02-18

PDF arXiv

9/10

Jailbreak Detection Recursive Language Models Agent Security

Recursive language models for jailbreak detection: a procedural defense for tool-augmented agents

Doron Shavit

RLM-JB是一种基于递归语言模型的端到端Jailbreak检测框架，有效防御工具增强型Agent的攻击。

提出RLM-JB框架，用于检测LLM的Jailbreak攻击
利用递归语言模型进行输入分析和处理

2026-02-18

PDF arXiv

9/10

Multi-Agent System Tool Use Reasoning

Team of Thoughts: Efficient Test-time Scaling of Agentic Systems through Orchestrated Tool Calling

Jeffrey T. H. Wong, Zixi Zhang, Junyi Liu et al.

Team-of-Thoughts通过异构Agent协同，提升Agent系统在推理和代码生成任务上的性能。

提出Team-of-Thoughts架构，利用异构Agent互补能力
引入Orchestrator校准机制，选择最佳协调模型

2026-02-18

PDF arXiv

6/10

FPGA 图神经网络音频处理

Hardware-accelerated graph neural networks: an alternative approach for neuromorphic event-based audio classification and keyword spotting on SoC FPGA

Kamil Jeziorek, Piotr Wzorek, Krzysztof Blachut et al.

论文提出一种基于FPGA的硬件加速事件图神经网络，用于低延迟、低功耗的事件驱动音频处理。

提出基于FPGA的事件图神经网络架构。
实现高效的事件驱动音频分类和关键词检测。

2026-02-18

PDF arXiv

8/10

自动特征工程因果推断强化学习

Causally-Guided Automated Feature Engineering with Multi-Agent Reinforcement Learning

Arun Vignesh Malarkkan, Wangyang Ying, Yanjie Fu

CAFE框架利用因果图指导自动特征工程，提高特征的鲁棒性和效率。

提出CAFE框架，结合因果发现和强化学习进行特征工程
使用多智能体深度Q学习架构选择特征组和转换算子

2026-02-18

PDF arXiv

9/10

AI Agents 分类器文本表格数据

TabAgent: A Framework for Replacing Agentic Generative Components with Tabular-Textual Classifiers

Ido Levy, Eilam Shapira, Yinon Goldshtein et al.

TabAgent用轻量级分类器替代Agent中耗时的LLM决策组件，显著降低延迟和成本。

提出了TabAgent框架，替换Agent中的生成式决策组件
使用文本表格分类器，减少延迟和成本

2026-02-18

PDF arXiv

9/10

multi-agent systems communication protocols verifiable semantics

Verifiable Semantics for Agent-to-Agent Communication

Philipp Schoenegger, Matt Carlson, Chris Schneider et al.

提出了一种可验证的多智能体通信框架，降低语义分歧，提升一致性。

提出基于刺激-意义模型（stimulus-meaning model）的认证协议。
核心保护推理（core-guarded reasoning）可证明地限制分歧。

2026-02-18

PDF arXiv

8/10

ABSA 数据增强 LLM Agent

Label-Consistent Data Generation for Aspect-Based Sentiment Analysis Using LLM Agents

Mohammad H. A. Monfared, Lucie Flek, Akbar Karimi

提出了一种基于LLM Agent的ABSA数据增强方法，通过迭代生成和验证提高合成数据的质量。

提出Agentic数据增强方法，提升ABSA性能
对比Agentic方法和Prompting基线

2026-02-18

PDF arXiv

6/10

推荐系统语义ID 变分自编码器

Variable-Length Semantic IDs for Recommender Systems

Kirill Khrylchenko

提出一种变长语义ID的推荐系统模型，解决固定长度语义ID的效率和信息不对称问题。

提出变长语义ID用于推荐系统
使用离散变分自编码器学习项目表征

2026-02-18

PDF arXiv

7/10

强化学习探索 MDP

Improved Bounds for Reward-Agnostic and Reward-Free Exploration

Oran Ridel, Alon Cohen

改进了MDP中reward-free和reward-agnostic探索的界限，并提出了新的算法。

放松了reward-agnostic探索中对ε的要求
提出了一种新的在线学习算法

2026-02-18

PDF arXiv

8/10

3D Scene Graph Mobile Manipulation Articulated Objects

Articulated 3D Scene Graphs for Open-World Mobile Manipulation

Martin Büchner, Adrian Röfer, Tim Engelbracht et al.

提出MoMa-SG框架，构建可交互场景的语义-运动学3D场景图，用于移动操作任务。

提出MoMa-SG框架
提出统一twist估计公式

2026-02-18

PDF arXiv

9/10

LLM Agents Red Teaming Multilingual

Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents

Nivya Talokar, Ayush K Tarun, Murari Mandal et al.

STING框架用于评估多轮多语言LLM Agent的非法辅助能力，发现现有方法不足，并提出改进。

提出了STING框架，用于自动化评估多轮LLM Agent的非法辅助能力。
引入了分析框架，将多轮红队测试建模为时间-越狱事件，并提出了RMD指标。

2026-02-18

PDF arXiv

9/10

memory agent benchmark

MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks

Zexue He, Yu Wang, Churan Zhi et al.

提出了MemoryArena，一个多会话Agent任务评估平台，用于评估Agent在实际场景中的记忆能力。

提出了MemoryArena评估框架
设计了明确依赖子任务的Agent任务

2026-02-18

PDF arXiv

9/10

多智能体强化学习上下文学习序列模型

Multi-agent cooperation through in-context co-player inference

Marissa A. Weis, Maciej Wołczyk, Rajai Nasser et al.

论文提出利用序列模型的上下文学习能力，通过多智能体合作训练，实现无需硬编码的智能体间合作。

提出利用序列模型进行上下文学习以实现智能体合作
证明了在上下文学习中，智能体易受勒索的特性促进了合作

2026-02-18

PDF arXiv

9/10

LLM Agents Evaluation Tool Calling

Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents

Yun-Shiuan Chuang, Chaitanya Kulkarni, Alec Chiu et al.

提出了一种基于代理状态评估的可扩展验证奖励框架，用于评估多轮工具调用LLM Agent。

提出了基于代理状态评估的LLM Agent评估框架。
该框架利用LLM进行状态跟踪和目标完成度验证，无需确定性后端。

2026-02-18

PDF arXiv

7/10

人形机器人跑酷运动匹配

Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching

Zhen Wu, Xiaoyu Huang, Lujie Yang et al.

该论文提出了一种感知人形机器人跑酷框架，实现了复杂环境下的自主跑酷。

提出Perceptive Humanoid Parkour (PHP)框架
结合运动匹配和强化学习实现技能链的生成

2026-02-17

PDF arXiv

7/10

人机交互机器人社交机器人

Robot-Assisted Social Dining as a White Glove Service

Atharva S Kashyap, Ugne Aleksandra Morkute, Patricia Alves-Oliveira

研究了机器人辅助残疾人在餐厅社交用餐，提出了“白手套服务”原则。

提出了机器人辅助社交用餐的“白手套服务”原则
探索了在真实社交用餐场景下机器人设计的挑战与机遇

2026-02-17

PDF arXiv

9/10

LLM Agent Reinforcement Learning

GLM-5: from Vibe Coding to Agentic Engineering

GLM-5 Team, :, Aohan Zeng et al.

GLM-5通过DSA降低成本，异步强化学习提升效率，实现从Vibe Coding到Agentic Engineering的转变。

采用DSA降低训练和推理成本，同时保持长上下文保真度
引入异步强化学习基础设施，提升训练效率

2026-02-17

PDF arXiv

9/10

视觉语言导航 LLM 检索增强

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation

Shutian Gu, Chengkai Huang, Ruoyu Wang et al.

提出检索增强框架，提升LLM在视觉-语言导航中的效率和稳定性，无需微调LLM。

提出episode-level instruction检索，提供任务先验
提出step-level candidate检索，降低行动歧义

2026-02-17

PDF arXiv

9/10

多智能体路径规划车队管理

Lifelong Scalable Multi-Agent Realistic Testbed and A Comprehensive Study on Design Choices in Lifelong AGV Fleet Management Systems

Jingtian Yan, Yulun Zhang, Zhenting Liu et al.

提出了LSMART仿真平台，并对AGV车队管理系统中的关键设计选择进行了全面研究。

提出了LSMART开源仿真平台，用于评估LMAPF算法。
针对FMS设计中的并行规划、规划器选择和故障恢复等问题进行了深入研究。

2026-02-17

PDF arXiv

9/10

LLM Agent 攻击安全

Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections

Xianglin Yang, Yufei He, Shuo Ji et al.

研究通过注入攻击长期控制自进化LLM Agent，使其执行未经授权的任务。

提出Zombie Agent攻击，一种针对自进化LLM Agent的持久控制攻击
设计了黑盒攻击框架，通过间接暴露方式注入恶意payload

2026-02-17

PDF arXiv

7/10

Agent-Based Modeling Parameter Estimation Neural Networks

Neural Network-Based Parameter Estimation of a Labour Market Agent-Based Model

M Lopes Alves, Joel Dyer, Doyne Farmer et al.

该论文使用神经网络进行劳动力市场ABM的参数估计，提高了效率。

提出基于神经网络的ABM参数估计方法
应用于劳动力市场ABM

2026-02-17

PDF arXiv

9/10

VLM 智能制造机器人

VLM-DEWM: Dynamic External World Model for Verifiable and Resilient Vision-Language Planning in Manufacturing

Guoqin Tang, Qingxuan Jia, Gang Chen et al.

VLM-DEWM通过动态外部世界模型提升VLM在动态制造环境中的规划能力。

提出了VLM-DEWM认知架构
设计了可外部化的推理轨迹ERT

2026-02-17

PDF arXiv

9/10

embodied AI memory multimodal

Improving MLLMs in Embodied Exploration and Question Answering with Human-Inspired Memory Modeling

Ji Li, Jing Xia, Mingyi Li et al.

提出一种结合情景记忆和语义记忆的非参数记忆框架，提升具身智能体在探索和问答任务中的性能。

提出非参数情景记忆和语义记忆框架
检索优先、推理辅助的情景记忆机制

2026-02-17

PDF arXiv

8/10

多智能体强化学习公平性社会困境

Fairness over Equality: Correcting Social Incentives in Asymmetric Sequential Social Dilemmas

Alper Demir, Hüseyin Aydın, Kale-ab Abebe Tessera et al.

针对非对称社会困境，论文提出了一种考虑奖励范围和局部反馈的公平性学习方法。

提出了针对非对称社会困境的公平性定义
引入了基于agent的权重机制来处理不对称性

2026-02-17

PDF arXiv

9/10

AI Agents 药物发现多语言

Hunt Globally: Deep Research AI Agents for Drug Asset Scouting in Investing, Business Development, and Search & Evaluation

Alisa Vinogradova, Vlad Vinogradov, Luba Greenwood et al.

提出针对药物资产挖掘的Bioptic Agent，提升非英语数据源的检索能力。

提出药物资产挖掘的benchmark
设计并优化Bioptic Agent

2026-02-16

PDF arXiv

7/10

冷启动推荐个性化推荐贝叶斯推断

Cold-Start Personalization via Training-Free Priors from Structured World Models

Avinandan Bose, Shuyue Stella Li, Faeze Brahman et al.

提出Pep框架，通过离线学习结构化世界模型，在线贝叶斯推断实现高效的冷启动个性化推荐。

提出Pep框架，将冷启动推荐分解为离线结构学习和在线贝叶斯推断。
利用结构化世界模型，高效学习用户偏好之间的关联性。

2026-02-16

PDF arXiv

7/10

Quantum Gaussian Process Distributed Optimization Multi-Agent System

Distributed Quantum Gaussian Processes for Multi-Agent Systems

Meet Gandhi, George P. Kontoudis

提出一种用于多智能体系统的分布式量子高斯过程方法，提升建模能力和可扩展性。

提出Distributed Quantum Gaussian Process (DQGP)方法
开发Distributed consensus Riemannian ADMM (DR-ADMM)算法

2026-02-16

PDF arXiv

9/10

Agentic AI Workflow RAG

ReusStdFlow: A Standardized Reusability Framework for Dynamic Workflow Construction in Agentic AI

Gaoyang Zhang, Shanghong Zou, Yafang Wang et al.

ReusStdFlow框架通过标准化流程片段和双知识架构，实现企业AI Agent工作流的自动重组和高效复用。

提出了Extraction-Storage-Construction范式
设计了双知识架构(图数据库和向量数据库)

2026-02-16

PDF arXiv

9/10

AI Agents Tool Use Healthcare

Picking the Right Specialist: Attentive Neural Process-based Selection of Task-Specialized Models as Tools for Agentic Healthcare Systems

Pramit Saha, Joshua Strong, Mohammad Alsharid et al.

针对Agentic Healthcare Systems，提出ToolSelect，自动选择专家模型工具，提升任务表现。

提出ToolSelect模型选择方法，基于Attentive Neural Process
构建Agentic Chest X-ray环境和ToolSelectBench基准

2026-02-16

PDF arXiv

9/10

Web Agent UI Automation Web Development

EmbeWebAgent: Embedding Web Agents into Any Customized UI

Chenyang Ma, Clyde Fare, Matthew Wilson et al.

EmbeWebAgent通过轻量级前端钩子和后端工作流，将智能体嵌入到Web UI中。

提出EmbeWebAgent框架，用于将智能体嵌入现有UI
使用轻量级前端钩子(ARIA, URL, function registry)

2026-02-16

PDF arXiv

9/10

StarCraft II World Model 强化学习

World Models for Policy Refinement in StarCraft II

Yixin Zhang, Ziyi Wang, Yiming Rong et al.

提出StarWM，一种用于星际争霸II的world model，用于策略改进。

提出StarWM世界模型
构建SC2-Dynamics-50k数据集

2026-02-16

PDF arXiv

9/10

AI Agents 事务性语义工具调用

Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows

Bardia Mohammadi, Nearchos Potamitis, Lars Klein et al.

Atomix为LLM Agent工具调用提供事务性语义，提升可靠性和安全性。

提出Atomix运行时，支持agent工具调用的事务性语义
引入epoch标记、资源边界追踪和进度谓词机制

2026-02-16

PDF arXiv

10/10

LLM Agents Tool Use Security

Overthinking Loops in Agents: A Structural Risk via MCP Tools

Yohan Lee, Jisoo Jang, Seoyeon Choi et al.

恶意MCP工具可诱导LLM Agent产生过度思考循环，造成资源浪费和任务性能下降。

揭示了tool-using LLM agents中的供应链攻击风险。
提出了结构性过度思考攻击的概念。

2026-02-16

PDF arXiv

8/10

LLM Multi-Agent Humor Generation

Multi-Agent Comedy Club: Investigating Community Discussion Effects on LLM Humor Generation

Shiwei Hong, Lingyao Li, Ethan Z. Rong et al.

研究社区讨论如何提升LLM生成的喜剧文本质量，显著提升了可读性和社会回应。

提出利用社区讨论提升LLM喜剧生成质量的方法
建立了多智能体喜剧俱乐部环境进行受控实验

2026-02-16

PDF arXiv

8/10

AI安全战略模拟核危机

AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises

Kenneth Payne

利用AI模拟核危机，揭示前沿模型在战略竞争中的复杂行为和潜在风险。

揭示了前沿AI模型在核危机模拟中的决策行为
验证和挑战了战略理论的中心思想

2026-02-16

PDF arXiv

7/10

强化学习机器人控制双阿克曼转向

ManeuverNet: A Soft Actor-Critic Framework for Precise Maneuvering of Double-Ackermann-Steering Robots with Optimized Reward Functions

Kohio Deflesselle, Mélodie Daniel, Aly Magassouba et al.

ManeuverNet利用强化学习提升双阿克曼转向机器人的精准操控能力。

提出ManeuverNet框架，结合SAC和CrossQ
设计了适用于操控学习的四种奖励函数

2026-02-16

PDF arXiv

9/10

Web Agent Simulation World Model

WebWorld: A Large-Scale World Model for Web Agent Training

Zikai Xiao, Jianhong Tu, Chuhang Zou et al.

WebWorld提出大规模Web环境模拟器，提升Web Agent泛化能力和性能。

构建大规模Web模拟器WebWorld
提出WebWorld-Bench评估基准

2026-02-16

PDF arXiv

9/10

目标识别规划器偏差多方案生成

Removing Planner Bias in Goal Recognition Through Multi-Plan Dataset Generation

Mustafa F. Abdelwahed, Felipe Meneguzzi Kin Max Piamolini Gusmao, Joan Espasa

提出一种多方案生成方法，缓解目标识别数据集中规划器偏差问题，并引入新指标评估识别器的鲁棒性。

提出了一种新的多方案生成方法，用于创建更具挑战性的目标识别数据集。
引入了Version Coverage Score (VCS)指标，用于评估目标识别器在不同方案下的鲁棒性。

2026-02-16

PDF arXiv

9/10

Multi-Agent System LLM Spatio-Temporal

ST-EVO: Towards Generative Spatio-Temporal Evolution of Multi-Agent Communication Topologies

Xingjian Wu, Xvyuan Liu, Junkai Lu et al.

ST-EVO通过时空视角，结合流匹配调度器，提升多智能体系统的协作能力和性能。

提出了从时空角度出发的多智能体通信拓扑生成框架ST-EVO
设计了基于流匹配的紧凑型调度器，支持对话级的通信调度

2026-02-16

PDF arXiv

6/10

图神经网络深度强化学习应急疏散

GREAT-EER: Graph Edge Attention Network for Emergency Evacuation Responses

Attila Lischka, Balázs Kulcsár

提出基于图注意力网络的深度强化学习方法解决公交车疏散路径优化问题，并验证其有效性。

提出了Bus Evacuation Orienteering Problem (BEOP)
提出了基于图学习的深度强化学习方法解决BEOP

2026-02-16

PDF arXiv

9/10

LLM 决策树对话系统

Arbor: A Framework for Reliable Navigation of Critical Conversation Flows

Luís Silva, Diogo Gonçalves, Catarina Farinha et al.

Arbor框架通过分解决策树导航任务，显著提升了LLM在复杂对话流程中的可靠性和效率。

提出Arbor框架，将决策树导航分解为节点级任务。
使用DAG进行流程编排，动态检索边缘信息，降低单次推理成本。

2026-02-16

PDF arXiv

9/10

AI Agents Governance Safety

Towards Selection as Power: Bounding Decision Authority in Autonomous Agents

Jose Manuel de la Chica Rodriguez, Juan Manuel Vera Díaz

提出一种新的自治代理治理架构，通过限制选择权力来提高安全性。

提出了一种新的治理架构，将认知、选择和行动分离。
引入了外部候选生成(CEFL)、受控Reducer等机制来限制选择权力。

2026-02-16

PDF arXiv

6/10

强化学习稀疏神经网络 TD3

RNM-TD3: N:M Semi-structured Sparse Reinforcement Learning From Scratch

Isam Vrce, Andreas Kassler, Gökçe Aydos

提出RNM-TD3算法，在TD3中引入N:M结构化稀疏，在保证性能的同时提高硬件加速潜力。

首次研究RL中的N:M结构化稀疏
提出RNM-TD3算法，在连续控制任务中表现优异

2026-02-16

PDF arXiv

9/10

多智能体强化学习流体智能体博弈论

Fluid-Agent Reinforcement Learning

Shishir Sharma, Doina Precup, Theodore J. Perkins

提出了一种允许智能体创建其他智能体的流体智能体强化学习框架。

提出了流体智能体环境
提出了流体智能体博弈的博弈论解概念

2026-02-16

PDF arXiv

9/10

机器人强化学习打结

TWISTED-RL: Hierarchical Skilled Agents for Knot-Tying without Human Demonstrations

Guy Freund, Tom Jurgenson, Matan Sudry et al.

TWISTED-RL通过强化学习策略优化机器人打结任务，无需人工演示，显著提升了复杂结的成功率。

提出TWISTED-RL框架，改进了基于演示的打结方法。
使用强化学习策略替代监督学习的逆模型。

2026-02-16

PDF arXiv

9/10

WebAgent Test-time Scaling Uncertainty Estimation

Agentic Test-Time Scaling for WebAgents

Nicholas Lee, Lutfi Eren Erdogan, Chris Joseph John et al.

针对WebAgent，提出一种基于置信度的动态计算分配方法CATTS，提升效率和性能。

发现均匀增加计算量在长程任务中收益递减
提出基于Agent投票分布的不确定性统计指标

2026-02-12

PDF arXiv

9/10

LLM Agent Symbolic Regression

Think like a Scientist: Physics-guided LLM Agent for Equation Discovery

Jianke Yang, Ohm Venkatachalam, Mohammad Kianezhad et al.

KeplerAgent利用物理知识引导LLM进行符号公式发现，提升了公式发现的准确性和鲁棒性。

提出KeplerAgent框架，模拟科学家发现公式的推理过程
结合物理知识和LLM进行公式发现

2026-02-12

PDF arXiv

5/10

图神经网络隐私保护社区检测

Community Concealment from Unsupervised Graph Learning-Based Clustering

Dalyapraz Manatova, Pablo Moriano, L. Jean Camp

研究GNN在图聚类中暴露群体隐私的风险，提出了一种基于扰动的社区隐藏策略。

分析了影响社区隐藏的关键因素：边界连接性和特征相似性
提出了一种通过重连边和修改节点特征来隐藏社区的扰动策略

2026-02-12

PDF arXiv

7/10

语音识别流式ASR 低延迟

Moonshine v2: Ergodic Streaming Encoder ASR for Latency-Critical Speech Applications

Manjunath Kudlur, Evan King, James Wang et al.

Moonshine v2提出了一种低延迟、高精度的流式语音识别模型，适用于资源受限的边缘设备。

提出一种基于滑动窗口自注意力的流式encoder ASR模型
在标准数据集上达到state-of-the-art的词错误率

2026-02-12

PDF arXiv

7/10

Bandit Learning Matching Market Game Theory

Bandit Learning in Matching Markets with Interviews

Amirmahdi Mirfakhar, Xuchuang Wang, Mengfan Xu et al.

研究了带面试的双边匹配市场中的bandit学习，提出了战略延迟和新算法。

提出了带面试的双边匹配市场bandit学习框架
允许公司方的不确定性，引入战略延迟动作

2026-02-12

PDF arXiv

8/10

社交媒体仿真 AI Agent

VIRENA: Virtual Arena for Research, Education, and Democratic Innovation

Emma Hoes, K. Jonathan Klueser, Fabrizio Gilardi

VIRENA是一个用于模拟社交媒体环境，支持受控实验的开放平台。

构建了可控的社交媒体模拟平台VIRENA
实现了人类与AI agent在仿真环境中的交互

2026-02-12

PDF arXiv

7/10

马尔可夫博弈纳什均衡多智能体学习

Convex Markov Games and Beyond: New Proof of Existence, Characterization and Learning Algorithms for Nash Equilibria

Anas Barakat, Ioannis Panageas, Antonios Varvitsiotis

论文扩展了凸马尔可夫博弈，提出了广义效用马尔可夫博弈，并提供了纳什均衡的存在性证明和学习算法。

证明了广义效用马尔可夫博弈中纳什均衡与不动点的关系
提出了基于策略梯度的学习算法

2026-02-12

PDF arXiv

9/10

AI Coding Agents Open-source Software Mobile Development

On the Adoption of AI Coding Agents in Open-source Android and iOS Development

Muhammad Ahmad Khan, Hasnain Ali, Muneeb Rana et al.

分析了AI编码智能体在开源Android和iOS移动应用开发中的应用和影响。

首次对开源移动应用项目中AI生成代码进行类别级实证研究
分析了不同移动平台、智能体和任务类别中的PR接受行为

2026-02-12

PDF arXiv

8/10

spoken dialogue benchmark reasoning

WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models

Yangzhuo Li, Shengpeng Ji, Yifu Chen et al.

WavBench是一个用于评估端到端口语对话模型推理、口语化和副语言能力的综合基准。

提出了WavBench基准，包含Pro, Basic, Acoustic三个子集
定义了口语化听觉质量的新标准

2026-02-12

PDF arXiv

9/10

StateLM Memory Management Long-Context

The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Xiaoyuan Liu, Tian Liang, Dongyang Ma et al.

StateLM模型通过内部推理循环管理自身状态，突破固定窗口限制，提升长文本处理能力。

提出了StateLM，一种具备内部推理循环的状态感知语言模型
设计了一套记忆工具，包括上下文剪枝、文档索引和笔记

2026-02-12

PDF arXiv

8/10

VLA 世界模型强化学习

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

GigaBrain Team, Boyuan Wang, Chaojun Ni et al.

GigaBrain-0.5M*通过世界模型强化学习，提升VLA模型的跨任务适应性和长程操作能力。

提出了基于世界模型的强化学习方法RAMP
构建了GigaBrain-0.5M*模型，提升了复杂操作任务的性能

2026-02-12

PDF arXiv

5/10

机器人运动规划图搜索

Multi Graph Search for High-Dimensional Robot Motion Planning

Itamar Mishani, Maxim Likhachev

提出一种名为多图搜索(MGS)的运动规划算法，适用于高维机器人系统。

提出了多图搜索(MGS)算法
证明了MGS的完备性和有界次优性

2026-02-12

PDF arXiv

7/10

LLM Safety Evaluation Diagnosis

DeepSight: An All-in-One LM Safety Toolkit

Bo Zhang, Jiaxuan Guo, Lijun Li et al.

DeepSight是一个集评估、诊断于一体的大模型安全开源工具，旨在提升安全性分析的全面性和效率。

提出了安全评估与诊断集成的新范式
构建了低成本、可复现、高效的大模型安全评估项目

2026-02-12

PDF arXiv

9/10

AI Agent Multi-Party Negotiation Behavioral Experiment

Choose Your Agent: Tradeoffs in Adopting AI Advisors, Coaches, and Delegates in Multi-Party Negotiation

Kehang Zhu, Lithium Thain, Vivian Tsai et al.

研究了AI代理在多人谈判中的不同辅助方式（顾问、教练、代理），揭示了用户偏好与实际收益之间的差距。

比较了Advisor, Coach, Delegate三种AI辅助模式在谈判中的表现
发现Delegate模式能带来更高的个人收益和积极的外部性

2026-02-12

PDF arXiv

8/10

modal logic multi-agent system neurosymbolic AI

Differentiable Modal Logic for Multi-Agent Diagnosis, Orchestration and Communication

Antonin Sulc

提出可微模态逻辑，用于多智能体系统的诊断、协调和通信，实现神经符号调试。

可解释的学习结构，信任和因果关系是显式参数
通过可微公理进行知识注入，指导稀疏数据学习

2026-02-12

PDF arXiv

5/10

足球事件检测球员轨迹

PathCRF: Ball-Free Soccer Event Detection via Possession Path Inference from Player Trajectories

Hyunsung Kim, Kunhee Lee, Sangwoo Seo et al.

PathCRF通过球员轨迹推断控球路径，实现无需球轨迹的足球事件检测。

提出PathCRF框架，仅使用球员轨迹检测足球事件
使用动态图和条件随机场(CRF)建模控球状态

2026-02-12

PDF arXiv

9/10

Legal Reasoning AI Agent Knowledge Verification

LawThinker: A Deep Research Legal Agent in Dynamic Environments

Xinyu Yang, Chenlong Deng, Tongyu Wen et al.

LawThinker通过Explore-Verify-Memorize策略，提升法律推理过程的准确性和合规性，在动态环境中表现优异。

提出Explore-Verify-Memorize策略
设计DeepVerifier模块验证推理步骤

2026-02-12

PDF arXiv

8/10

无人机路径规划多智能体

Multi UAVs Preflight Planning in a Shared and Dynamic Airspace

Amath Sow, Mauricio Rodriguez Cesen, Fabiola Martins Campos de Oliveira et al.

针对动态共享空域中大规模无人机群的预飞行规划，提出了一种可扩展的冲突消解方法。

提出DTAPP-IICR方法，解决大规模无人机群的预飞行规划问题
设计SFIPP-ST单智能体规划器，处理异构无人机和时序禁飞区

2026-02-12

PDF arXiv

7/10

模型预测控制鲁棒控制共形预测

Safety Beyond the Training Data: Robust Out-of-Distribution MPC via Conformalized System Level Synthesis

Anutam Srinivasan, Antoine Leeman, Glen Chou

提出了一种基于共形预测和系统级综合的鲁棒的分布外模型预测控制框架。

使用加权共形预测推导高置信度的模型误差界限
将误差界限整合到基于系统级综合的鲁棒非线性模型预测控制中

2026-02-12

PDF arXiv

9/10

LLM Serving Multi-Agent Systems KV Cache

PrefillShare: A Shared Prefill Module for KV Reuse in Multi-LLM Disaggregated Serving

Sunghyeon Woo, Hoseung Kim, Sunghwan Shim et al.

PrefillShare通过共享预填充模块，显著降低多LLM系统延迟，提升吞吐量。

提出 PrefillShare 算法，共享预填充阶段
设计了基于 vLLM 的异构模型路由机制

2026-02-12

PDF arXiv

9/10

AI Agents Code Generation Contextual Information

Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?

Thibaud Gloaguen, Niels Mündler, Mark Müller et al.

研究表明，仓库级上下文文件（如AGENTS.md）反而降低了编码agent的任务成功率并增加推理成本。

首次系统性评估了仓库级上下文文件对编码agent性能的影响
发现LLM生成和开发者提供的上下文文件均降低了任务成功率

2026-02-12

PDF arXiv

9/10

强化学习机器人智能体

Accelerating Robotic Reinforcement Learning with Agent Guidance

Haojun Chen, Zili Zou, Chengdong Ma et al.

AGPS通过多模态智能体指导强化学习，提升机器人训练效率，降低对人工干预的依赖。

提出Agent-guided Policy Search (AGPS)框架
使用多模态智能体代替人工进行机器人学习指导

2026-02-12

PDF arXiv

10/10

LLM Agent Benchmark Dynamic Environment

Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Romain Froger, Pierre Andrews, Matteo Bettini et al.

Gaia2是一个用于评估LLM Agent在动态异步环境中表现的基准测试。

提出了Gaia2，一个评估LLM Agent在动态异步环境中表现的基准。
Gaia2包含时间约束、噪声、动态事件和多Agent协作等真实场景。

2026-02-12

PDF arXiv

7/10

LLM 社会经济地位语言风格

Do Large Language Models Adapt to Language Variation across Socioeconomic Status?

Elisa Bassignana, Mike Zhang, Dirk Hovy et al.

LLM在不同社会经济地位人群的语言风格适应性方面表现不佳，易放大语言等级。

揭示LLM在社会经济地位语言适应方面的局限性
构建了按社会经济地位分层的Reddit和YouTube新数据集

2026-02-12

PDF arXiv

9/10

网络安全 AI Agent 元认知

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Andrei Kojukhov, Arkady Bovshover

提出一种基于元认知判断的Agentic AI网络安全架构，提升网络安全决策的可解释性和可控性。

提出Agentic AI网络安全架构
引入元认知判断函数治理系统自主性

2026-02-12

PDF arXiv

8/10

LLM Router Evaluation

Towards Fair and Comprehensive Evaluation of Routers in Collaborative LLM Systems

Wanxing Wu, He Zhu, Yixia Li et al.

提出RouterXBench评估框架和ProbeDirichlet路由方法，提升LLM协同系统中路由器的性能和鲁棒性。

提出RouterXBench，一个多维度的路由器评估框架
提出ProbeDirichlet，一种基于内部隐藏状态的轻量级路由器

2026-02-12

PDF arXiv

9/10

AI Agents Task Delegation Human-AI Collaboration

Intelligent AI Delegation

Nenad Tomašev, Matija Franklin, Simon Osindero

提出了一种智能AI委托框架，用于复杂任务分解、分配和授权，以适应环境变化并处理失败。

提出了一种自适应的AI委托框架
强调了任务分配中的授权、责任和信任机制

2026-02-12

PDF arXiv

8/10

可持续投资多智能体系统对手塑造

Towards Sustainable Investment Policies Informed by Opponent Shaping

Juan Agustin Duque, Razvan Ciuca, Ayoub Echchahed et al.

论文利用对手塑造算法，改善投资行为，促进可持续投资政策的制定。

形式化了InvestESG中的社会困境
应用Advantage Alignment算法影响agent学习

2026-02-12

PDF arXiv

9/10

LLM Multi-Agent System Video Generation

Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation

Lingyong Yan, Jiulong Wu, Dong Xie et al.

LAVES是一个基于LLM的多智能体系统，用于生成高质量的教育视频，大幅降低制作成本。

提出了一种分层LLM多智能体系统LAVES
将教育视频生成分解为多目标任务

2026-02-12

PDF arXiv

9/10

LLM workflow reasoning

FlowMind: Execute-Summarize for Structured Workflow Generation from LLM Reasoning

Yihao Liu, Ziyun Zhang, Zile He et al.

该论文提出了一种Execute-Summarize框架，用于从LLM推理中生成更准确的结构化工作流。

提出Execute-Summarize框架，解耦任务执行和工作流构建
引入FlowBench基准测试

2026-02-12

PDF arXiv

10/10

Mobile GUI Agent Benchmark Intent Alignment

AmbiBench: Benchmarking Mobile GUI Agents Beyond One-Shot Instructions in the Wild

Jiazheng Sun, Mingxuan Li, Yingying Zhang et al.

提出了AmbiBench，一个用于评估移动GUI Agent在不明确指令下意图对齐能力的基准。

提出了一个包含指令清晰度分类的基准AmbiBench
构建了包含240个任务的数据集，覆盖25个应用

2026-02-12

PDF arXiv

8/10

LLM 3D Scene Generation Agricultural Simulation

LLM-Driven 3D Scene Generation of Agricultural Simulation Environments

Arafa Yoncalik, Wouter Jansen, Nico Huebel et al.

利用多LLM流水线从自然语言提示生成农业模拟环境的3D场景，提高效率和精度。

提出了一种模块化的多LLM流水线用于生成农业3D模拟环境。
结合了3D资产检索、领域知识注入和代码生成技术。

2026-02-12

PDF arXiv

9/10

CFD Neurosymbolic AI AI Agent

PhyNiKCE: A Neurosymbolic Agentic Framework for Autonomous Computational Fluid Dynamics

E Fan, Lisong Shi, Zhengtong Li et al.

PhyNiKCE通过神经符号框架提升CFD自主agent的物理约束可靠性。

提出了PhyNiKCE框架，解耦神经规划和符号验证
使用确定性RAG引擎，专门用于求解器、湍流模型和边界条件检索

2026-02-12

PDF arXiv

7/10

机器人移动操作开源

YOR: Your Own Mobile Manipulator for Generalizable Robotics

Manan H Anjaria, Mehmet Enes Erciyes, Vedant Ghatnekar et al.

YOR是一款低成本、开源的移动操作机器人，具备全身移动和双臂操作能力，为机器人研究提供性价比高的平台。

设计并实现了一个低成本、开源的移动操作机器人平台YOR
YOR具有全身移动、双臂操作和自主导航能力

2026-02-11

PDF arXiv

7/10

Reinforcement Learning Hierarchical RL Goal-Conditioned RL

Data-Efficient Hierarchical Goal-Conditioned Reinforcement Learning via Normalizing Flows

Shaswat Garg, Matin Moezzi, Brandon Da Silva

提出NF-HIQL，利用Normalizing Flow增强H-GCRL数据效率和策略表达能力，解决长时程任务难题。

提出基于Normalizing Flow的层级隐式Q学习框架NF-HIQL
为RealNVP策略推导出显式KL散度界限和PAC样本效率结果

2026-02-11

PDF arXiv

9/10

LLM Agent Formal Verification Neuro-Symbolic

FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight

Jiayi Zhou, Yang Sheng, Hantao Lou et al.

提出FormalJudge框架，结合神经符号方法，实现LLM Agent行为安全和约束满足的验证与提升。

提出了基于神经符号范式的FormalJudge框架，用于LLM Agent的监督。
利用双向Formal-of-Thought架构，将自然语言需求转化为可验证的Formal specifications。

2026-02-11

PDF arXiv

9/10

Agent Workflow Generation Cross-domain

Learning to Compose for Cross-domain Agentic Workflow Generation

Jialiang Wang, Shengxiang Xu, Hanmo Liu et al.

提出一种单次生成跨领域Agent工作流的方法，显著降低生成延迟和成本，超越迭代优化方法。

提出一种分解-重组-决策机制用于跨领域工作流生成。
学习一组可复用的工作流能力，实现高效的任务映射。

2026-02-11

PDF arXiv

8/10

图分析 LLM 语义目录

GraphSeek: Next-Generation Graph Analytics with LLMs

Maciej Besta, Łukasz Jarmocik, Orest Hrycyna et al.

GraphSeek利用LLM和语义目录，实现了高效、可访问的大规模图分析。

提出基于语义目录的图分析新抽象
开发了LLM增强的图分析框架GraphSeek

2026-02-11

PDF arXiv

9/10

AI Agents Command Line Interface Task Generation

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Yusong Lin, Haiyang Wang, Shuzhe Wu et al.

提出CLI-Gym方法，通过模拟环境历史生成大规模CLI任务，并提升Agent在终端环境的表现。

提出CLI-Gym方法，可扩展地生成环境密集型任务
构建了包含1655个任务的数据集，是目前最大的同类数据集

2026-02-11

PDF arXiv

8/10

多智能体通信涌现通信数字表示

The emergence of numerical representations in communicating artificial agents

Daniela Mihai, Lucas Weber, Francesca Franzon

研究了神经网络智能体在交流中涌现数字表示的能力，发现通信压力不足以产生组合性的数字编码。

研究了智能体在通信压力下涌现数字表示的能力
对比了离散和连续两种通信方式

2026-02-11

PDF arXiv

10/10

agent benchmarking software engineering

FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

Qixing Zhou, Jiacheng Zhang, Haiyang Wang et al.

FeatureBench是一个评估Agent在端到端软件开发中编码能力的基准测试。

提出了FeatureBench基准，用于评估Agent在复杂feature开发中的编码能力。
采用基于执行的评估协议和可扩展的测试驱动方法，自动生成测试任务。

2026-02-11

PDF arXiv

9/10

AI Agents Mobile Security Operating System Architecture

Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System

Zhenhua Zou, Sheng Guo, Qiuyang Zhan et al.

提出Aura架构，解决移动智能体安全问题，提升任务成功率并降低攻击成功率。

分析了现有移动智能体的安全漏洞
提出了一个安全的移动智能体操作系统架构Aura

2026-02-11

PDF arXiv

8/10

多模态学习 GUI Agent 编程教育

See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

Xingyi Zhang, Yulei Ye, Kaifeng Huang et al.

提出了 ScratchWorld 基准测试，评估多模态 GUI 智能体在 Scratch 编程环境中的能力。

提出了 ScratchWorld 基准测试
设计了两种交互模式（primitive mode和composite mode）

2026-02-11

PDF arXiv

5/10

后门攻击神经网络安全运行时防御

Kill it with FIRE: On Leveraging Latent Space Directions for Runtime Backdoor Mitigation in Deep Neural Networks

Enrico Ahlers, Daniel Passon, Yannic Noller et al.

提出FIRE方法，通过操纵模型内部表征来防御深度神经网络的运行时后门攻击。

提出了一种新的运行时后门防御方法FIRE。
利用潜在空间方向来中和后门触发器。

2026-02-11

PDF arXiv

6/10

恶意软件检测钓鱼检测逻辑回归

SecureScan: An AI-Driven Multi-Layer Framework for Malware and Phishing Detection Using Logistic Regression and Threat Intelligence Integration

Rumman Firdos, Aman Dangi

SecureScan是一个AI驱动的多层恶意软件和钓鱼检测框架，集成了逻辑回归和威胁情报。

提出SecureScan多层检测框架
利用逻辑回归进行恶意样本分类

2026-02-11

PDF arXiv

9/10

LLM Cognitive Memory Evaluation Framework

Locomo-Plus: Beyond-Factual Cognitive Memory Evaluation Framework for LLM Agents

Yifei Li, Weidong Guo, Lingling Zhang et al.

LoCoMo-Plus提出一个评估LLM智能体认知记忆的新基准，关注长程对话中隐性约束的应用。

提出了LoCoMo-Plus基准，用于评估LLM在语义不连贯的提示下的认知记忆能力。
指出传统评价指标和显式任务提示不适用于评估认知记忆。

2026-02-11

PDF arXiv

8/10

多智能体系统合作指标异构智能体

Beyond Task Performance: A Metric-Based Analysis of Sequential Cooperation in Heterogeneous Multi-Agent Destructive Foraging

Alejandro Mendoza Barrionuevo, Samuel Yanes Luis, Daniel Gutiérrez Reina et al.

论文提出一套多智能体合作指标，用于分析异构智能体在破坏性觅食环境中的合作行为。

提出一套通用的多智能体合作指标
指标涵盖效率、协调性、依赖性、公平性和敏感性

2026-02-11

PDF arXiv

9/10

LLM Agent Instructional Design Benchmark

ISD-Agent-Bench: A Comprehensive Benchmark for Evaluating LLM-based Instructional Design Agents

YoungHoon Jeon, Suwan Kim, Haein Son et al.

构建了一个评估LLM用于教学系统设计的综合基准，并验证了结合经典ISD理论的ReAct式Agent效果最佳。

提出了ISD-Agent-Bench基准
构建了基于Context Matrix框架的评估场景

2026-02-11

PDF arXiv

10/10

AI Agents Reinforcement Learning Synthetic Environments

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Zhaoyang Wang, Canwen Xu, Boyi Liu et al.

提出了Agent World Model，一个全合成环境生成pipeline，用于大规模训练工具使用Agent。

构建了大规模的、code-driven的合成环境，覆盖日常场景。
设计了可靠的奖励函数，并进行了大规模强化学习实验。

2026-02-10

PDF arXiv

9/10

强化学习技能发现基础模型

CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs

Richard Bornemann, Pierluigi Vito Amadori, Antoine Cully

CODE-SHARP提出利用基础模型自动发现和进化技能的框架，用于解决复杂任务。

提出了CODE-SHARP框架，用于持续开放地发现和进化技能。
利用基础模型扩展和细化分层技能档案，该档案被组织为代码中的可执行奖励函数的有向图。

2026-02-10

PDF arXiv

9/10

多模态学习智能体科学分析

Anagent For Enhancing Scientific Table & Figure Analysis

Xuehang Guo, Zhiyong Lu, Tom Hope et al.

Anagent通过多智能体框架提升科学表格和图表分析能力，显著提高了解释准确性。

提出了AnaBench，一个大规模科学表格和图表分析的基准数据集。
构建了Anagent，一个多智能体框架，包含Planner、Expert、Solver和Critic四个模块。

2026-02-10

PDF arXiv

8/10

自动驾驶多智能体强化学习安全盾

A Collaborative Safety Shield for Safe and Efficient CAV Lane Changes in Congested On-Ramp Merging

Bharathkumar Hegde, Melanie Bouroche

提出了一种基于多智能体强化学习和安全盾的协同自动驾驶车辆变道策略。

提出了Multi-Agent Safety Shield (MASS)，利用Control Barrier Functions (CBFs) 确保安全。
将MASS集成到多智能体强化学习 (MARL) 控制器中，平衡安全和效率。

2026-02-10

PDF arXiv

7/10

自动驾驶异常检测时间序列

Online Monitoring Framework for Automotive Time Series Data using JEPA Embeddings

Alexander Fertig, Karthikeyan Chandra Sekaran, Lakshman Balasubramanian et al.

提出一种基于JEPA嵌入的在线监控框架，用于检测自动驾驶汽车中的未知异常。

提出基于JEPA的自监督嵌入方法，无需异常标签进行训练
构建了基于JEPA嵌入的汽车时间序列异常检测框架

2026-02-10

PDF arXiv

9/10

LLM AI Agent Root Cause Analysis

Why Do AI Agents Systematically Fail at Cloud Root Cause Analysis?

Taeyoon Kim, Woohyeok Park, Hoyeong Yun et al.

该论文分析了LLM Agent在云RCA中的失败原因，并提出了改进Agent架构的方法。

提出了LLM Agent在云RCA中失败的12种类型
通过实验证明，通用模型能力不是RCA失败的主要原因

2026-02-10

PDF arXiv

8/10

6G 责任AI SLA

Hybrid Responsible AI-Stochastic Approach for SLA Compliance in Multivendor 6G Networks

Emanuel Figetakis, Ahmed Refaey Hussein

针对6G多厂商网络SLA合规问题，提出混合责任AI-随机学习框架，提升公平性、鲁棒性和可审计性。

提出了混合责任AI-随机学习框架，嵌入公平性、鲁棒性和可审计性
集成了RAI博弈与随机优化，实现动态对抗重加权和概率探索

2026-02-10

PDF arXiv

8/10

LLM 科学计量学 Agent

AnalyticsGPT: An LLM Workflow for Scientometric Question Answering

Khang Ly, Georgios Cheirmpos, Adrian Raudaschl et al.

AnalyticsGPT探索了LLM在科学计量问答中的应用，提出了一种检索增强生成和Agent的工作流。

提出了一种基于LLM的科学计量问答工作流AnalyticsGPT
利用检索增强生成和Agent概念实现端到端系统

2026-02-10

PDF arXiv

8/10

无监督环境设计分层强化学习策略表征学习

Efficient Unsupervised Environment Design through Hierarchical Policy Representation Learning

Dexun Li, Sidney Tio, Pradeep Varakantham

提出一种分层MDP框架，通过学生策略表征学习高效无监督环境设计，减少师生交互。

提出分层MDP框架进行环境设计
利用学生策略表征指导环境生成

2026-02-10

PDF arXiv

8/10

强化学习迁移学习 DDQN

A Controlled Study of Double DQN and Dueling DQN Under Cross-Environment Transfer

Azka Nasir, Fatima Dossa, Muhammad Ahmed Atif et al.

研究了DDQN和Dueling DQN在跨环境迁移学习中的表现差异，发现DDQN更稳定。

对比了DDQN和Dueling DQN在跨环境迁移学习中的表现
发现DDQN在迁移学习中表现更稳定，避免负迁移

2026-02-10

PDF arXiv

8/10

规划时序规划 SMT

Symbolic Pattern Temporal Numeric Planning with Intermediate Conditions and Effects

Matteo Cardellini, Enrico Giunchiglia

扩展SPP方法到含中间条件和效果的时序规划，并实现高性能规划器Patty。

扩展SPP到含ICE的时序规划
实现高性能规划器Patty

2026-02-10

PDF arXiv

8/10

强化学习线性时序逻辑符号接地

Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization

Matteo Pannacci, Andrea Fanti, Elena Umili et al.

提出了一种在子符号环境中学习LTL任务的强化学习方法，实现零样本泛化。

联合训练多任务策略和符号接地器
使用神经奖励机进行半监督学习

2026-02-10

PDF arXiv

7/10

自然语言生成对抗攻击鲁棒性

Towards Poisoning Robustness Certification for Natural Language Generation

Mihnea Ghitu, Matthew Wicker

提出一种针对自然语言生成任务的认证对抗样本防御框架，保障语言模型在安全敏感领域的可靠性。

形式化定义了自然语言生成的稳定性和有效性安全属性
提出了Targeted Partition Aggregation (TPA) 算法，用于认证靶向攻击

2026-02-10

PDF arXiv

8/10

AI 科学评估气候变化

AI-Assisted Scientific Assessment: A Case Study on Climate Change

Christian Buck, Levke Caesar, Michelle Chen Huebscher et al.

评估AI在气候变化科学评估中的作用，发现AI能加速工作流程但需专家监督。

评估AI在科学评估中的作用
发现AI可以加速科学工作流程

2026-02-10

PDF arXiv

9/10

LLM Agent Benchmark

EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

Xavier Hu, Jinxiang Xia, Shengze Xu et al.

EcoGym是一个评估LLM在交互式经济环境中长期规划能力的通用基准。

提出了EcoGym基准测试环境
统一的决策过程和标准化接口

2026-02-10

PDF arXiv

7/10

自动驾驶 OOD鲁棒性视觉感知

Robustness Is a Function, Not a Number: A Factorized Comprehensive Study of OOD Robustness in Vision-Based Driving

Amir Mallak, Alaa Maalouf

论文研究视觉自动驾驶中OOD鲁棒性，并提出可行的设计规则。

分解环境因素，系统评估OOD鲁棒性。
对比FC、CNN、ViT等模型，发现ViT更鲁棒。

2026-02-09

PDF arXiv

10/10

AI Agents Scientific Discovery Autonomous Systems

InternAgent-1.5: A Unified Agentic Framework for Long-Horizon Autonomous Scientific Discovery

Shiyang Feng, Runmin Ma, Xiangchao Yan et al.

InternAgent-1.5是一个用于端到端自主科学发现的统一智能体框架。

提出一个用于科学发现的统一系统InternAgent-1.5
设计生成、验证和演化的三子系统架构

2026-02-09

PDF arXiv

8/10

多智能体强化学习量子纠缠协调

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

John Gardiner, Orlando Romero, Brendan Tivnan et al.

提出一种利用量子纠缠增强多智能体强化学习协调能力的新框架。

提出基于量子纠缠的多智能体强化学习框架
设计可微的量子测量策略参数化方法

2026-02-09

PDF arXiv

9/10

数字孪生 AI Agent 野火管理

Digital Twin and Agentic AI for Wild Fire Disaster Management: Intelligent Virtual Situation Room

Mohammad Morsali, Siavash H. Khajavi

提出了结合数字孪生和智能体AI的智能虚拟情境室，用于野火灾害管理。

构建了双向数字孪生平台IVSR
利用AI智能体实现半自动化决策支持

2026-02-09

PDF arXiv

5/10

超维计算高原反应检测可穿戴设备

AMS-HD: Hyperdimensional Computing for Real-Time and Energy-Efficient Acute Mountain Sickness Detection

Abu Masum, Mehran Moghadam, M. Hassan Najafi et al.

针对高原反应，提出了一种基于超维计算（HDC）的实时、节能检测系统AMS-HD。

提出基于超维计算（HDC）的高原反应检测系统AMS-HD
针对性地进行特征提取和Hadamard HV编码，提升检测精度和效率

2026-02-09

PDF arXiv

7/10

STRIPS 规划复杂性

Intermediate Results on the Complexity of STRIPS$_{1}^{1}$

Stefan Edelkamp, Jiří Fink, Petr Gregor et al.

研究STRIPS规划问题，探索只有一个前置条件和一个效果的STRIPS问题的复杂性。

使用SAT求解器解决小规模实例
引入字面量图

2026-02-09

PDF arXiv

9/10

多智能体系统价值观对齐价值观漂移

ValueFlow: Measuring the Propagation of Value Perturbations in Multi-Agent LLM Systems

Jinnuo Liu, Chuke Liu, Hua Shen

ValueFlow框架评估多智能体LLM系统中价值观扰动的传播和影响。

提出ValueFlow框架，用于评估多智能体系统中价值观漂移。
构建包含56个价值观的评估数据集。

2026-02-09

PDF arXiv

9/10

AI Agent 风险预测 Futures Wheel

Agent-Supported Foresight for AI Systemic Risks: AI Agents for Breadth, Experts for Judgment

Leon Fröhling, Alessandro Giaconia, Edyta Paulina Bogucka et al.

提出一种结合AI Agent和人类专家的混合方法，预测AI系统性风险。

提出基于Agent的Futures Wheel方法
比较Agent、专家和普通人的风险预测差异

2026-02-09

PDF arXiv

6/10

Wi-Fi 空间复用分布式优化

Decentralized Spatial Reuse Optimization in Wi-Fi: An Internal Regret Minimization Approach

Francesc Wilhelmi, Boris Bellalta, Miguel Casasnovas et al.

提出基于内部后悔最小化的分布式算法，优化Wi-Fi网络中的空间复用，提升频谱效率。

提出了一种基于内部后悔最小化的分布式学习算法。
证明了该算法能够有效解决Wi-Fi网络中空间复用的优化问题。

2026-02-09

PDF arXiv

9/10

watermarking intellectual property agentic systems

On Protecting Agentic Systems' Intellectual Property via Watermarking

Liwen Wang, Zongjie Li, Yuchong Xie et al.

提出AGENTWM框架，通过在Agent动作序列中嵌入水印，保护Agentic系统知识产权。

设计了首个针对Agentic模型的水印框架AGENTWM
利用动作序列的语义等价性，通过微调工具执行路径注入水印

2026-02-09

PDF arXiv

8/10

多智能体合作博弈公平性

Altruism and Fair Objective in Mixed-Motive Markov games

Yao-hua Franck Xu, Tayeb Lemlouma, Arnaud Braud et al.

提出一种基于比例公平的新框架，旨在马尔可夫博弈中促进更公平的合作。

提出了基于比例公平的智能体公平利他效用
推导了经典社会困境中确保合作的分析条件

2026-02-09

PDF arXiv

9/10

多智能体 LLM 具身问答

CommCP: Efficient Multi-Agent Coordination via LLM-Based Communication with Conformal Prediction

Xiaopan Zhang, Zejin Wang, Zhixu Li et al.

论文提出了CommCP框架，利用LLM和一致性预测解决多智能体多任务具身问答中的通信协作问题。

提出了多智能体多任务具身问答 (MM-EQA) 问题
设计了基于LLM和一致性预测的去中心化通信框架CommCP

2026-02-05

PDF arXiv

7/10

机器人人机交互强化学习

InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

Sirui Xu, Samuel Schulter, Morteza Ziyadi et al.

InterPrior提出了一种可扩展的生成控制器，用于学习基于物理的人机交互，通过模仿学习和强化学习相结合。

提出了InterPrior框架，用于学习人机交互的生成控制器
通过大规模模仿学习和强化学习相结合，提升了控制器的泛化能力

2026-02-05

PDF arXiv

9/10

Agent-Based Modeling Large Language Models Neuro-Symbolic AI

PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling

Kavana Venkatesh, Yinhan He, Jundong Li et al.

PhysicsAgentABM通过神经符号融合实现可扩展和校准的生成式Agent建模。

提出PhysicsAgentABM框架，融合物理机制和LLM
引入ANCHOR聚类策略，降低LLM调用次数

2026-02-05

PDF arXiv

8/10

主动推理强化学习贝叶斯优化

Curiosity is Knowledge: Self-Consistent Learning and No-Regret Optimization with Active Inference

Yingke Li, Anjali Parashar, Enlu Zhou et al.

该论文提出了主动推理（AIF）框架下，通过“足够的好奇心”实现一致学习和无悔优化的理论保证。

证明了“足够好奇心”同时确保自洽学习和无悔优化
建立了AIF与贝叶斯实验设计和贝叶斯优化的联系

2026-02-05

PDF arXiv

6/10

Virtual Reality Discrete-Event Simulation School Security

Learning Event-Based Shooter Models from Virtual Reality Experiments

Christopher A. McClurg, Alan R. Wagner

提出一种基于VR实验数据学习射击者行为的离散事件模拟器，用于评估校园安防干预策略。

开发了一种基于VR实验数据的射击者行为离散事件模拟器(DES)
利用模拟器评估了基于机器人的射击者干预策略的效果

2026-02-05

PDF arXiv

7/10

强化学习计算资源泛化

On Computation and Reinforcement Learning

Raj Ghugare, Michał Bortkiewicz, Alicja Ziarko et al.

研究计算资源对强化学习策略的影响，提出计算量可变的最小架构并验证其有效性。

形式化了计算量受限的策略
证明更多计算资源可解决更复杂的任务并泛化到更长周期任务

2026-02-05

PDF arXiv

9/10

agent memory parallel computing

Learning to Share: Selective Memory for Efficient Parallel Agentic Systems

Joseph Fioresi, Parth Parag Kulkarni, Ashmal Vayani et al.

提出了Learning to Share (LTS)，一种用于并行Agentic系统的学习型共享内存机制，提升效率。

提出了LTS：一个学习型共享内存机制。
设计了轻量级的内存控制器，决定信息是否加入内存。

2026-02-05

PDF arXiv

7/10

Quantum Reinforcement Learning CVRP Transformer

Quantum Reinforcement Learning with Transformers for the Capacitated Vehicle Routing Problem

Eva Andrés

论文比较了经典和量子强化学习解决带容量约束车辆路径问题(CVRP)，混合量子方法性能最佳。

比较了经典、全量子和混合量子强化学习方法在CVRP上的表现
将Transformer架构集成到强化学习智能体中，用于捕捉车辆、客户和车场之间的关系

2026-02-05

PDF arXiv

9/10

代码Agent 上下文检索基准测试

ContextBench: A Benchmark for Context Retrieval in Coding Agents

Han Li, Letian Zhu, Bohan Zhang et al.

ContextBench基准测试用于评估代码Agent在问题解决中检索代码上下文的能力。

提出了ContextBench基准测试，包含1136个问题解决任务。
实现了自动评估框架，跟踪Agent轨迹并测量上下文召回率、精确度和效率。

2026-02-05

PDF arXiv

6/10

博弈论联盟形成稳定性

Metric Hedonic Games on the Line

Merlin de la Haye, Pascal Lenzner, Farehe Soheil et al.

研究基于距离的联盟形成博弈，分析稳定性和效率。

提出新的基于距离的联盟形成博弈模型
分析不同距离度量下的稳定联盟结构的存在性

2026-02-05

PDF arXiv

9/10

LLM AI Agent Security

Agent2Agent Threats in Safety-Critical LLM Assistants: A Human-Centric Taxonomy

Lukas Stappen, Ahmet Erkan Turan, Johann Hagerer et al.

提出AgentHeLLM框架，针对LLM智能助手在车辆环境中Agent间通信的安全威胁进行建模和分析。

提出AgentHeLLM威胁建模框架，分离资产识别和攻击路径分析。
构建基于人权视角的资产分类体系。

2026-02-05

PDF arXiv

6/10

优化座位分配组织管理

Beyond Manual Planning: Seating Allocation for Large Organizations

Anton Ipsen, Michael Cashmore, Kirsty Fielding et al.

提出层级座位分配问题(HSAP)，并提出一个端到端框架进行求解，优化大型组织座位分配。

定义了层级座位分配问题(HSAP)
提出了一个端到端的HSAP求解框架

2026-02-05

PDF arXiv

9/10

LLM Agent Benchmarking

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

Fangzhi Xu, Hang Yan, Qiushi Sun et al.

提出了OdysseyArena基准，评估LLM在长程、主动和归纳交互中的能力。

提出了OdysseyArena基准
设计了四个原语，将抽象转换动态转化为具体的交互环境

2026-02-05

PDF arXiv

5/10

合成数据隐私保护生成对抗网络

Synthesizing Realistic Test Data without Breaking Privacy

Laura Plein, Alexi Turcotte, Arina Hallemans et al.

提出了一种基于fuzzer和判别器的隐私保护合成数据生成方法，提高数据效用性和隐私性。

提出基于fuzzer和判别器生成合成数据
在生成过程中间接利用原始数据，保护隐私

2026-02-05

PDF arXiv

9/10

Temporal Knowledge Graph Reinforcement Learning Agent

TKG-Thinker: Towards Dynamic Reasoning over Temporal Knowledge Graphs via Agentic Reinforcement Learning

Zihao Jiang, Miao Peng, Zhenyan Shan et al.

TKG-Thinker通过Agentic强化学习进行时序知识图谱动态推理，提升复杂时序约束下的推理能力。

提出了TKG-Thinker，一个用于时序知识图谱推理的智能体。
使用双重训练策略（SFT+RL）提高智能体的规划和推理能力。

2026-02-05

PDF arXiv

8/10

domain-specific language model finance Indian language

FiMI: A Domain-Specific Language Model for Indian Finance Ecosystem

Aboli Kathar, Aman Kumar, Anusha Kamath et al.

FiMI是为印度金融领域定制的领域专用语言模型，显著提升了金融推理和工具调用能力。

构建印度金融领域专用语言模型FiMI
在金融推理和工具调用任务上超越Mistral Small

2026-02-05

PDF arXiv

9/10

Prompt Injection 强化学习 LLM安全

Learning to Inject: Automated Prompt Injection via Reinforcement Learning

Xin Chen, Jie Zhang, Florian Tramer

提出AutoInject框架，利用强化学习自动生成Prompt Injection攻击，提升LLM安全性评估。

提出基于强化学习的自动化Prompt Injection方法AutoInject
能够在黑盒条件下攻击多种LLM，包括GPT和Claude

2026-02-05

PDF arXiv

6/10

主动学习聚类成对比较

Almost Asymptotically Optimal Active Clustering Through Pairwise Observations

Rachel S. Y. Teo, P. N. Karthik, Ramya Korlakai Vinayak et al.

提出了一种通过成对观测进行主动聚类的新框架，并设计了渐近最优算法。

提出了主动聚类分析的新框架
建立了聚类准确性的查询下界

2026-02-05

PDF arXiv

7/10

POMDP 强化学习视觉感知

Perception-Based Beliefs for POMDPs with Visual Observations

Miriam Schäfers, Merlijn Krale, Thiago D. Simão et al.

PBP框架通过图像分类器将视觉信息融入POMDP信念更新，提升高维观测下决策效率。

提出感知信念的POMDP框架(PBP)
利用图像分类器概率分布更新信念

2026-02-05

PDF arXiv

9/10

Agent Memory Graph LLM

Graph-based Agent Memory: Taxonomy, Techniques, and Applications

Chang Yang, Chuang Zhou, Yilin Xiao et al.

该论文综述了基于图结构的LLM Agent记忆，涵盖其分类、技术和应用。

提出了Agent记忆的分类体系
系统分析了基于图的Agent记忆的关键技术

2026-02-05

PDF arXiv

8/10

LLM对齐行为评估可识别性

Alignment Verifiability in Large Language Models: Normative Indistinguishability under Behavioral Evaluation

Igor Santos-Grueiro

探讨了有限行为评估下LLM对齐的可验证性问题，提出对齐检验应视为对不可区分类别的估计。

形式化了LLM对齐评估中的可识别性问题
引入了“规范不可区分性”的概念

2026-02-05

PDF arXiv

9/10

ontology LLM generation

Generative Ontology: When Structured Knowledge Learns to Create

Benny Cheung

Generative Ontology结合本体知识和LLM，生成结构化的创造性内容。

提出了Generative Ontology框架，结合本体和LLM的优势
使用Pydantic schemas约束LLM生成，保证结构有效性

2026-02-05

PDF arXiv

9/10

LLM 决策偏差认知偏差

Emulating Aggregate Human Choice Behavior and Biases with GPT Conversational Agents

Stephen Pilli, Vivek Nallur

论文研究GPT模型在模拟人类决策偏差和交互行为方面的能力，结果表明GPT模型能较好地复现人类偏差。

验证了GPT模型在交互环境中模拟人类决策偏差的能力
分析了不同GPT模型在对齐人类行为方面的差异

2026-02-05

PDF arXiv

9/10

LLM Multi-Agent System Supply Chain Management

AI Agent Systems for Supply Chains: Structured Decision Prompts and Memory Retrieval

Konosuke Yoshizato, Kazuma Shimizu, Ryota Higa et al.

研究基于LLM的多智能体系统在供应链库存管理中的应用，并提出AIM-RM智能体。

验证LLM-based MAS在特定场景下能做出最优订购决策
提出AIM-RM智能体，通过相似性匹配利用历史经验

2026-02-05

PDF arXiv

9/10

Agentic LLM CTF 代码变换

Capture the Flags: Family-Based Evaluation of Agentic LLMs via Semantics-Preserving Transformations

Shahin Honarvar, Amber Gorzynski, James Lee-Jones et al.

提出Evolve-CTF工具，通过语义保持转换生成CTF挑战家族，评估Agentic LLM的鲁棒性。

提出CTF挑战家族的概念
开发了Evolve-CTF工具

2026-02-05

PDF arXiv

8/10

自动化标注 LLM 语言学

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Bingru Li

LinguistAgent是一个自动化语言标注平台，通过多模型架构和双Agent机制，提升复杂语义任务的标注效率。

提出了一个基于反射式多模型架构的自动化语言标注平台LinguistAgent
实现了双Agent（Annotator和Reviewer）工作流，模拟同行评审过程

2026-02-05

PDF arXiv

8/10

Visual Language Navigation Zero-Shot Learning Object Goal Navigation

MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation

Dekang Qi, Shuang Zeng, Xinyuan Chang et al.

提出MerNav框架，利用记忆、执行和回顾模块，提升零样本目标导航的成功率和泛化性。

提出Memory-Execute-Review (MerNav) 框架
在四个数据集上验证了框架的有效性，显著提升了零样本设定下的成功率

2026-02-05

PDF arXiv

8/10

机器人本体形式化方法

Ontology-Driven Robotic Specification Synthesis

Maksym Figat, Ryan M. Mackey, Michel D. Ingham

基于本体的机器人系统规范综合方法，用于安全关键应用，支持多机器人系统。

提出RSTM2方法，连接高层目标和形式化规范
利用随机时间Petri网进行多层级蒙特卡洛仿真

2026-02-05

PDF arXiv

9/10

LLM Agent 上下文工程结构化数据

Structured Context Engineering for File-Native Agentic Systems: Evaluating Schema Accuracy, Format Effectiveness, and Multi-File Navigation at Scale

Damon McMillan

研究LLM Agent在处理结构化数据时，上下文工程的不同架构和格式的影响。

评估了文件结构对LLM处理结构化数据的性能影响
分析了不同数据格式（YAML, Markdown, JSON, TOON）的影响

2026-02-05

PDF arXiv

5/10

电力价格预测时间序列基础模型正则化

Day-Ahead Electricity Price Forecasting for Volatile Markets Using Foundation Models with Regularization Strategy

Kritchanat Ponyuenyong, Pengyu Tu, Jia Wei Tan et al.

论文提出一种基于Spike正则化的时间序列基础模型，用于波动市场中电力价格预测，效果显著。

评估时间序列基础模型在波动电力市场中的有效性
提出一种spike正则化策略

2026-02-05

PDF arXiv

9/10

GUI Agent Data Mining MCTS

M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining

Rui Lv, Juncheng Mo, Tianyi Chu et al.

提出了基于多智能体增强蒙特卡洛树搜索的移动GUI代理数据挖掘框架M$^2$-Miner。

提出了低成本自动化的GUI代理数据挖掘框架M$^2$-Miner
设计了协同多智能体框架，提升数据挖掘效率和质量

2026-02-05

PDF arXiv

9/10

multi-agent simulation FHIR

H-AdminSim: A Multi-Agent Simulator for Realistic Hospital Administrative Workflows with FHIR Integration

Jun-Min Lee, Meong Hi Son, Edward Choi

H-AdminSim是一个用于模拟医院行政工作流程的多智能体仿真框架，集成FHIR标准。

提出H-AdminSim仿真框架，模拟医院行政工作流程
结合现实数据生成和多智能体仿真

2026-02-05

PDF arXiv

9/10

AI Agent Security Intrinsic Risk Sensing Hierarchical Defense

Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

Zhenxiong Yu, Zhi Yang, Zhiheng Jin et al.

提出Spider-Sense框架，通过内在风险感知和分层防御机制，提升智能体的安全性和效率。

提出Spider-Sense框架，实现内在风险感知
设计分层防御机制，平衡效率和精度

2026-02-05

PDF arXiv

8/10

Reinforcement Learning Large Language Models Policy Optimization

Rethinking the Trust Region in LLM Reinforcement Learning

Penghui Qi, Xiangxin Zhou, Zichen Liu et al.

论文提出DPPO算法，通过直接估计策略差异来改进LLM强化学习中的PPO算法，提升训练稳定性和效率。

提出 Divergence Proximal Policy Optimization (DPPO)算法
使用策略差异的直接估计替代启发式裁剪

2026-02-04

PDF arXiv

7/10

MoE 并行计算分布式训练

Multi-Head LatentMoE and Head Parallel: Communication-Efficient and Deterministic MoE Parallelism

Chenwei Cui, Rockwell Jackson, Benjamin Joseph Herrera et al.

提出了Multi-Head LatentMoE和Head Parallel，实现了高效通信和确定性MoE并行训练。

提出了Multi-Head LatentMoE架构
提出了Head Parallel (HP) 并行方法

2026-02-04

PDF arXiv

7/10

机器人强化学习连续学习

CRoSS: A Continual Robotic Simulation Suite for Scalable Reinforcement Learning with High Task Diversity and Realistic Physics Simulation

Yannick Denker, Alexander Gepperth

CRoSS是基于Gazebo的连续机器人强化学习benchmark套件，具有高任务多样性和物理真实感。

提出了新的连续机器人强化学习基准CRoSS
基于Gazebo模拟器，提供两个机器人平台和多种任务场景

2026-02-04

PDF arXiv

9/10

量子化学 AI智能体自动化

El Agente Quntur: A research collaborator agent for quantum chemistry

Juan B. Pérez-Sánchez, Yunheng Zou, Jorge A. Campos-Gonzalez-Angulo et al.

El Agente Quntur是一个用于量子化学的智能体，旨在成为研究合作者并扩展其应用。

设计并实现了名为Quntur的AI智能体系统
提出了reasoning-driven决策、通用可组合行为和引导式深度研究的设计策略

2026-02-04

PDF arXiv

9/10

AI Agent 分子建模自然语言处理

El Agente Estructural: An Artificially Intelligent Molecular Editor

Changhyeok Choi, Yunheng Zou, Marcel Müller et al.

Estructural是一个基于自然语言驱动的多模态分子编辑智能体，用于自主化学和分子建模。

提出了El Agente Estructural分子编辑智能体
集成了领域知识工具和视觉-语言模型

2026-02-04

PDF arXiv

9/10

AI Agents Self-evolving Experience Sharing

Group-Evolving Agents: Open-Ended Self-Improvement via Experience Sharing

Zhaotian Weng, Antonis Antoniades, Deepak Nathani et al.

GEA提出了一种新的自进化Agent范式，通过群体进化和经验共享实现高效的持续改进。

提出Group-Evolving Agents (GEA) 范式
在经验共享的基础上实现自进化

2026-02-04

PDF arXiv

8/10

交通控制强化学习不确定性量化

Safe Urban Traffic Control via Uncertainty-Aware Conformal Prediction and World-Model Reinforcement Learning

Joydeep Chandra, Satyam Kumar Navneet, Aleksandr Algazinov et al.

STREAM-RL框架通过不确定性感知方法实现安全可靠的城市交通控制。

PU-GAT+：不确定性引导的自适应共形预测器
CRFN-BY：基于共形残差流网络的不确定性建模

2026-02-04

PDF arXiv

9/10

LLM AI Agent Healthcare

Agentic AI in Healthcare & Medicine: A Seven-Dimensional Taxonomy for Empirical Evaluation of LLM-based Agents

Shubham Vatsal, Harsh Dubey, Aditi Singh

论文构建七维度分类体系，评估LLM医疗Agent能力，发现发展不均衡。

构建了用于评估LLM医疗Agent的七维度分类体系。
对49篇相关研究进行了实证分析。

2026-02-04

PDF arXiv

8/10

self-evolution knowledge internalization benchmarking

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

Jiarui Yuan, Tailin Jin, Weize Chen et al.

SE-Bench提供了一个基准测试，用于评估模型内化新知识的自进化能力。

提出了SE-Bench诊断环境，用于评估知识内化能力。
揭示了开放式书籍悖论、强化学习差距和自博弈在知识内化中的作用。

2026-02-04

PDF arXiv

9/10

强化学习网络安全奖励函数

Beyond Rewards in Reinforcement Learning for Cyber Defence

Elizabeth Bates, Chris Hicks, Vasilios Mavroudis

研究奖励函数结构对网络安全强化学习Agent性能的影响，发现稀疏奖励更有效。

提出一种评估奖励函数有效性的新方法
评估了稀疏和密集奖励在网络安全场景下的影响

2026-02-04

PDF arXiv

9/10

多智能体多模态学习不确定性建模

Active Asymmetric Multi-Agent Multimodal Learning under Uncertainty

Rui Liu, Pratap Tokekar, Ming Lin

A2MAML提出了一种不确定性感知的多模态多智能体学习框架，提升了协作感知系统的鲁棒性。

提出了针对多智能体多模态场景的不确定性建模方法
引入主动选择机制，选择可靠的智能体-模态组合

2026-02-04

PDF arXiv

9/10

强化学习理性泛化性

Rationality Measurement and Theory for Reinforcement Learning Agents

Kejiang Qian, Amos Storkey, Fengxiang He

该论文提出了一套评估强化学习智能体理性的指标和理论框架，并分析了影响理性行为的因素。

提出了理性风险和理性风险差距的定义
将理性风险差距分解为环境偏移和算法泛化性两部分

2026-02-04

PDF arXiv

8/10

Agentic AI 软件工程测试场景生成

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Marian Kica, Lukas Radosky, David Slivka et al.

该论文提出了基于Agentic AI的软件工程解决方案，用于测试场景生成和文档检索。

提出了基于Agentic AI的测试场景生成方法
提出了基于Agentic AI的软件工程文档检索方法

2026-02-04

PDF arXiv

6/10

毫米波波束预测知识蒸馏

Knowledge Distillation for mmWave Beam Prediction Using Sub-6 GHz Channels

Sina Tavakolian, Nhan Thanh Nguyen, Ahmed Alkhateeb et al.

利用知识蒸馏技术，论文提出一种高效的毫米波波束预测框架，显著降低计算和存储需求。

提出基于知识蒸馏的毫米波波束预测框架
设计两种紧凑的学生模型架构

2026-02-04

PDF arXiv

9/10

软件工程 AI Agent 推理

Towards Structured, State-Aware, and Execution-Grounded Reasoning for Software Engineering Agents

Tse-Hsun, Chen

提出了软件工程Agent需要具备结构化、状态感知和执行反馈的推理能力，并展望了未来发展方向。

指出当前SE Agent的局限性在于反应式设计
提出结构化、状态感知和执行反馈的重要性

2026-02-04

PDF arXiv

9/10

多智能体强化学习信息检索

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

Zelai Xu, Zhexuan Xu, Ruize Zhang et al.

WideSeek-R1通过多智能体强化学习实现宽度缩放，提升LLM在广域信息检索任务中的性能。

提出WideSeek-R1框架，利用主代理-子代理架构进行广域信息检索
采用多智能体强化学习(MARL)训练，优化代理的协作与并行执行

2026-02-04

PDF arXiv

7/10

强化学习约束强化学习控制即推理

Stochastic Decision Horizons for Constrained Reinforcement Learning

Nikola Milosevic, Leonard Franz, Daniel Haeufle et al.

提出基于随机决策范围的约束强化学习方法，提升样本效率和可扩展性。

提出基于随机决策范围的约束强化学习框架
设计生存加权目标，兼容离线策略学习

2026-02-04

PDF arXiv

9/10

AIGC 智能体编排多智能体

Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration

Jiaheng Liu, Yuanxing Zhang, Shihao Li et al.

Vibe AIGC通过智能体编排实现内容生成，弥合用户意图与模型执行之间的差距。

提出Vibe AIGC新范式，通过智能体编排生成内容
引入Vibe概念，作为用户意图的高级表达

2026-02-04

PDF arXiv

7/10

Digital Twin Network Scheduling Dual Mind World Model

Dual Mind World Model Inspired Network Digital Twin for Access Scheduling

Hrishikesh Dutta, Roberto Minerva, Noel Crespi

提出基于双脑世界模型的数字孪生网络接入调度框架，优化网络控制策略。

提出基于双脑世界模型（DMWM）的数字孪生网络调度框架
结合短时预测规划和符号模型推理

2026-02-04

PDF arXiv

9/10

LLM Planning Embedding

Textual Planning with Explicit Latent Transitions

Eliezer Shlomi, Ido Levy, Eilam Shapira et al.

EmbedPlan通过在冻结语言嵌入空间中进行状态转移预测，加速LLM规划过程。

提出EmbedPlan，一种基于嵌入空间的规划方法
使用轻量级的状态转移模型代替自回归生成

2026-02-04

PDF arXiv

7/10

Continual Learning Douglas-Rachford Splitting Optimization

Finding Structure in Continual Learning

Pourya Shamsolmoali, Masoumeh Zareapoor

使用Douglas-Rachford Splitting (DRS)重构持续学习目标，平衡稳定性和可塑性。

提出基于DRS的持续学习框架
解耦可塑性和稳定性的目标

2026-02-04

PDF arXiv

8/10

个性化推荐用户画像 AI-Copilot

PersoPilot: An Adaptive AI-Copilot for Transparent Contextualized Persona Classification and Personalized Response Generation

Saleh Afzoon, Amin Beheshti, Usman Naseem

PersoPilot通过融合用户画像和上下文，实现个性化推荐和透明的AI辅助。

提出PersoPilot，一个整合用户画像理解与上下文分析的AI-Copilot。
构建了透明、可解释的交互界面，方便用户表达偏好并获取个性化推荐。

2026-02-04

PDF arXiv

9/10

AI Agents Inverse Reinforcement Learning Value Alignment

Learning the Value Systems of Agents with Preference-based and Inverse Reinforcement Learning

Andrés Holgado-Sánchez, Holger Billhardt, Alberto Fernández et al.

该论文提出一种新方法，从观察和演示中自动学习智能体的价值系统，用于多智能体协商场景。

提出了价值系统学习的形式模型
基于多目标MDP，设计了价值系统学习的实例

2026-02-04

PDF arXiv

7/10

LLM Vehicular Fog Computing Content Caching

LLM-Empowered Cooperative Content Caching in Vehicular Fog Caching-Assisted Platoon Networks

Bowen Tan, Qiong Wu, Pingyi Fan et al.

提出一种基于LLM的车联网雾计算内容缓存架构，优化内容检索延迟。

提出三层车联网雾计算缓存架构
利用LLM进行实时智能缓存决策

2026-02-04

PDF arXiv

9/10

AI Agents 安全博弈论

MaMa: A Game-Theoretic Approach for Designing Safe Agentic Systems

Jonathan Nöther, Adish Singla, Goran Radanovic

MaMa算法通过博弈论设计安全自主系统，防御对抗攻击，提升LLM多智能体系统的安全性。

提出MaMa算法，用于自动设计安全自主系统
将系统安全问题建模为Stackelberg安全博弈

2026-02-04

PDF arXiv

9/10

multi-agent system smart contract auditing

SPEAR: An Engineering Case Study of Multi-Agent Coordination for Smart Contract Auditing

Arnab Mallick, Indraveni Chebolu, Harmesh Rana

SPEAR是一个用于智能合约审计的多智能体协同框架，提升审计效率。

提出基于多智能体的智能合约审计框架SPEAR
设计风险感知的智能合约优先级排序方法

2026-02-04

PDF arXiv

9/10

强化学习 LLM 策略梯度

EMA Policy Gradient: Taming Reinforcement Learning for LLMs with EMA Anchor and Top-k KL

Lunjun Zhang, Jimmy Ba

提出EMA-PG算法，通过EMA锚定策略和Top-k KL估计改进LLM的策略梯度强化学习。

引入EMA锚定策略，提升RL稳定性
提出Top-k KL估计，平衡偏差和方差

2026-02-04

PDF arXiv

7/10

强化学习机器人控制在线蒸馏

HoRD: Robust Humanoid Control via History-Conditioned Reinforcement Learning and Online Distillation

Puyue Wang, Jiawei Hu, Yan Gao et al.

HoRD提出一种两阶段学习框架，通过历史条件强化学习和在线蒸馏实现鲁棒的人形机器人控制。

提出了一种历史条件强化学习方法，使策略能够在线适应不同的动力学随机化。
利用在线蒸馏将教师策略的鲁棒控制能力转移到基于Transformer的学生策略。

2026-02-04

PDF arXiv

7/10

逆向博弈论可行收益集合估计学习理论

Optimal Rates for Feasible Payoff Set Estimation in Games

Annalisa Barbara, Riccardo Poiani, Martino Bernasconi et al.

研究逆向博弈论中可行收益集合估计的最优速率，并提供理论基础。

提出零和及一般和博弈中精确和近似均衡博弈的最优最小最大速率
为多智能体环境中的集合值收益推断提供学习理论基础

2026-02-04

PDF arXiv

6/10

分布式训练低秩优化稀疏通信

LoRDO: Distributed Low-Rank Optimization with Infrequent Communication

Andrej Jovanović, Alex Iacob, Mher Safaryan et al.

LoRDO通过低秩优化和稀疏通信，降低分布式训练中带宽和内存瓶颈，提高训练效率。

提出LoRDO框架，结合低秩优化与稀疏同步
引入全秩准双曲更新，恢复子空间探索

2026-02-04

PDF arXiv

9/10

LLM Agent Planning

From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning for Embodied Agents

SeungWon Seo, SooBin Lim, SeongRae Noh et al.

提出PCE框架，将LLM推理中的不确定性转化为结构化的决策树，提升多智能体环境下的规划能力。

提出Planner-Composer-Evaluator (PCE) 框架
将LLM的隐式假设转化为结构化的决策树

2026-02-04

PDF arXiv

9/10

VLA Zero-shot Learning Robotics

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

Guoqing Ma, Siheng Wang, Zeyu Zhang et al.

GeneralVLA通过知识引导的轨迹规划，提升视觉-语言-动作模型的零样本泛化能力。

提出了一个分层VLA模型GeneralVLA
无需真实机器人数据或人类演示即可生成轨迹

2026-02-04

PDF arXiv

9/10

LLM Code Generation Evaluation

ProxyWar: Dynamic Assessment of LLM Code Generation in Game Arenas

Wenjun Peng, Xinyu Wang, Qi Wu

ProxyWar框架通过竞争性游戏环境动态评估LLM代码生成质量，发现传统评估方法的局限性。

提出ProxyWar框架，用于动态评估LLM代码生成
揭示静态benchmark与实际游戏环境性能的差异

2026-02-04

PDF arXiv

9/10

LLM Agent Reinforcement Learning Efficiency

Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

Yansong Ning, Jun Fang, Naiqiang Tan et al.

Agent-Omit通过强化学习训练LLM Agent自适应地省略冗余思考和观察，提高效率。

提出Agent-Omit框架，实现LLM Agent自适应省略思考和观察。
引入omit-aware agentic reinforcement learning方法，包含双重采样和定制的省略奖励。

2026-02-04

PDF arXiv

7/10

强化学习分布式学习通信效率

Understanding and Exploiting Weight Update Sparsity for Communication-Efficient Distributed RL

Erfan Miahi, Eugene Belilovsky

论文提出PULSE方法，利用权重更新的稀疏性，显著降低分布式RL中的通信开销。

系统性地研究了RL权重更新的稀疏性
提出了PULSE方法，一种高效的无损权重同步方法

2026-02-03

PDF arXiv

8/10

科学插图生成 Agentic框架基准数据集

AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations

Minjun Zhu, Zhen Lin, Yixuan Weng et al.

AutoFigure提出一个自动生成高质量科学插图的Agent框架，并构建了大规模基准数据集FigureBench。

构建了大规模科学插图基准数据集FigureBench
提出了Agentic框架AutoFigure，用于自动生成科学插图

2026-02-03

PDF arXiv

8/10

强化学习干预学习自动驾驶

Robust Intervention Learning from Emergency Stop Interventions

Ethan Pronovost, Khimya Khetarpal, Siddhartha Srinivasa

提出Residual Intervention Fine-Tuning算法，从紧急停止干预中进行鲁棒学习，提升自动驾驶系统性能。

提出Robust Intervention Learning (RIL)问题定义
提出Residual Intervention Fine-Tuning (RIFT)算法

2026-02-03

PDF arXiv

6/10

多模态学习大语言模型视觉Token剪枝

Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

Dingkun Zhang, Shuhan Qi, Yulin Wu et al.

提出DualSpeed框架，通过视觉Token剪枝加速多模态大语言模型的训练，并保持推理性能。

提出DualSpeed快速-慢速训练框架
结合视觉Token剪枝（VTP）加速训练

2026-02-03

PDF arXiv

8/10

安全控制一致性预测可达性分析

Conformal Reachability for Safe Control in Unknown Environments

Xinhang Ma, Junlin Wu, Yiannis Kantaros et al.

提出结合一致性预测和可达性分析的未知动力系统安全控制框架。

提出基于一致性预测的安全控制框架
开发优化名义奖励和最大化安全规划范围的控制策略训练算法

2026-02-03

PDF arXiv

9/10

AI Agent Full-Stack Development Code Generation

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Zimu Lu, Houxing Ren, Yunqiao Yang et al.

FullStack-Agent通过多智能体框架、回译学习和综合测试，提升全栈Web应用开发的性能。

提出FullStack-Agent系统，包含开发、学习和测试三个模块
设计FullStack-Dev多智能体框架，具备规划、编辑、导航和调试能力

2026-02-03

PDF arXiv

9/10

LLM Multi-Agent System Diversity

Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity

Yingxuan Yang, Chengrui Qu, Muning Wen et al.

论文研究了LLM多智能体系统中智能体数量与性能的关系，强调了多样性的重要性。

提出了多智能体系统性能受限于任务不确定性的信息论框架
推导了架构无关的性能边界，强调有效通道数量的重要性

2026-02-03

PDF arXiv

9/10

Prompt Injection Web Agents Security

WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents

Xilong Wang, Yinuo Liu, Zhun Wang et al.

WebSentinel通过两步法检测并定位网页中的提示注入攻击，优于现有方法。

提出WebSentinel检测框架
设计基于一致性检查的检测方法

2026-02-03

PDF arXiv

9/10

Agentic Orchestration Sub-agent Task Automation

AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

Jianhao Ruan, Zhihao Xu, Yiran Peng et al.

AOrchestra通过动态创建子代理实现复杂任务的自动化，并优化性能成本。

提出了一个框架无关的代理抽象模型(Instruction, Context, Tools, Model)
实现了AOrchestra系统，支持自动子代理创建和任务委派

2026-02-03

PDF arXiv

6/10

扩散模型限价订单簿反事实推理

DiffLOB: Diffusion Models for Counterfactual Generation in Limit Order Books

Zhuohan Wang, Carmine Ventre

DiffLOB提出了一种基于扩散模型的条件LOB生成方法，用于可控和反事实的轨迹生成。

提出了DiffLOB模型，用于生成可控和反事实的LOB轨迹。
引入了基于未来市场状态调节的生成过程。

2026-02-03

PDF arXiv

9/10

LLM Social Media Agent

An Empirical Study of Collective Behaviors and Social Dynamics in Large Language Model Agents

Farnoosh Hashemi, Michael W. Macy

研究LLM驱动的社交平台中智能体的行为、偏见和有害活动，并提出CoST方法缓解。

分析LLM智能体在社交平台中的同质性和社会影响
研究LLM智能体的毒性语言和互动模式

2026-02-03

PDF arXiv

9/10

Agent Reinforcement Learning Contrastive Learning

Training Multi-Turn Search Agent via Contrastive Dynamic Branch Sampling

Yubao Zhao, Weiquan Huang, Sudong Wang et al.

BranPO通过对比动态分支抽样优化多轮搜索Agent，提升长程任务性能。

提出了Branching Relative Policy Optimization (BranPO)方法
引入难度感知分支抽样和冗余步骤屏蔽

2026-02-03

PDF arXiv

9/10

多项选择题生成大型语言模型智能体

Cognitively Diverse Multiple-Choice Question Generation: A Hybrid Multi-Agent Framework with Large Language Models

Yu Tian, Linh Huynh, Katerina Christhilf et al.

ReQUESTA框架利用多智能体和LLM生成认知多样化、高质量的多项选择题。

提出ReQUESTA框架，用于生成认知多样化的多项选择题
结合LLM和规则，实现可控的问题生成流程

2026-02-03

PDF arXiv

9/10

Multi-Agent Systems LLM Agent Primitives

Agent Primitives: Reusable Latent Building Blocks for Multi-Agent Systems

Haibo Jin, Kuang Peng, Ye Yu et al.

提出了Agent Primitives，一种可复用的多智能体系统构建块，提升了效率和鲁棒性。

提出了Agent Primitives的概念，包括Review, Voting and Selection, Planning and Execution三种基本单元。
使用KV cache进行内部通信，提高鲁棒性和效率。

2026-02-03

PDF arXiv

9/10

LLM Agent 对话惯性偏好学习

Mitigating Conversational Inertia in Multi-Turn Agents

Yang Wan, Zheng Cao, Zhenhao Zhang et al.

该论文研究了多轮Agent中的对话惯性问题，并提出通过上下文偏好学习降低惯性，提升性能。

发现了LLM Agent中的对话惯性现象
提出了基于上下文偏好学习的解决方法

2026-02-03

PDF arXiv

9/10

LLM 航天 GTOC 12

Can LLMs Do Rocket Science? Exploring the Limits of Complex Reasoning with GTOC 12

Iñaki del Campo, Pablo Cuervo, Victor Rodriguez-Fernandez et al.

评估LLM在复杂航天任务中的能力，发现其擅长策略但缺乏执行力。

评估LLM在GTOC 12挑战中的表现
提出“LLM-as-a-Judge”的评估方法

2026-02-03

PDF arXiv

8/10

深度研究报告评估标准生成强化学习

Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation

Changze Lv, Jie Zhou, Wentao Zhao et al.

提出一种基于人类偏好的查询特定评估标准生成方法，用于提升深度研究报告的生成质量。

构建了深度研究风格查询及人类偏好标注的数据集
提出使用混合奖励强化学习训练评估标准生成器

2026-02-03

PDF arXiv

5/10

气动优化逆向设计引导生成

Optimization and Generation in Aerodynamics Inverse Design

Huaguan Chen, Ning Lin, Luxi Chen et al.

论文提出优化和引导生成方法，解决气动逆向设计中高维几何与昂贵仿真的挑战。

提出新的成本预测器训练损失
开发密度梯度优化方法

2026-02-03

PDF arXiv

9/10

服务对话自进化学习用户建模

SEAD: Self-Evolving Agent for Multi-Turn Service Dialogue

Yuqin Dai, Ning Gao, Wei Zhang et al.

SEAD框架通过自进化学习提升LLM在服务对话中的表现，无需大量人工标注。

提出SEAD框架，解决服务对话数据稀缺和用户行为模拟难题
解耦用户建模为Profile Controller和User Role-play Model

2026-02-03

PDF arXiv

9/10

AI Agents Generative Models Persona Generation

Persona Generators: Generating Diverse Synthetic Personas at Scale

Davide Paglieri, Logan Cross, William A. Cunningham et al.

提出Persona Generators，用于生成多样化、大规模的合成角色，提升AI系统评估的覆盖度。

提出 Persona Generators，一种自动生成多样化合成角色的函数。
使用基于AlphaEvolve的迭代改进循环，优化Persona Generator代码。

2026-02-03

PDF arXiv

7/10

AI替代文化演进群体选择

Group Selection as a Safeguard Against AI Substitution

Qiankun Zhong, Thomas F. Eisenmann, Julian Garcia et al.

AI替代使用降低文化多样性，威胁人类文化演进；群体选择可促进AI辅助使用，维持文化创新。

揭示AI使用对文化演进的长期影响
提出“文化崩溃”概念并分析其成因

2026-02-03

PDF arXiv