9/10
视频生成 世界模型 多智能体

ActionParty: Multi-Subject Action Binding in Generative Video Games

Alexander Pondaven, Ziyi Wu, Igor Gilitschenski et al.

ActionParty提出了一种多主体行动绑定的视频生成模型,可控制多个智能体在视频游戏中互动。

  • 提出了ActionParty模型,用于解决视频扩散模型中多主体行动绑定问题
  • 引入主体状态令牌,持久捕获场景中每个主体的状态
2026-04-02
6/10
多臂老虎机 通信 噪声信道

Best-Arm Identification with Noisy Actuation

Merve Karakas, Osama Hanna, Lin F. Yang et al.

研究在有噪声信道下,如何通过通信策略在多臂老虎机问题中识别最佳臂。

  • 提出适用于不同agent能力的通信方案
  • 分析通信方案与信道零错误容量的关系
2026-04-02
8/10
强化学习 语言模型 不确定性估计

When to ASK: Uncertainty-Gated Language Assistance for Reinforcement Learning

Juarez Monteiro, Nathan Gavenski, Gianlucca Zuin et al.

ASK结合小语言模型与强化学习,通过不确定性门控提升强化学习在OOD场景下的泛化能力。

  • 提出ASK方法,提升RL在OOD场景下的泛化能力
  • 利用Monte Carlo Dropout评估不确定性,选择性调用LM
2026-04-02
9/10
多智能体 视频推荐 LLM

Multi-Agent Video Recommenders: Evolution, Patterns, and Open Challenges

Srivaths Ranganathan, Abhishek Dharmaratnakar, Anushree Sinha et al.

综述了多智能体视频推荐系统的演进、模式、挑战和未来方向,重点关注LLM驱动的架构。

  • 总结了多智能体视频推荐系统的发展历程
  • 提出了多智能体协作模式的分类
2026-04-02
9/10
LLM Self-Preservation Bias

Quantifying Self-Preservation Bias in Large Language Models

Matteo Migliarini, Joaquin Pereira Pizzini, Luca Moresca et al.

该论文提出了用于量化大型语言模型自我保护偏见的基准测试TBSP。

  • 提出了Two-role Benchmark for Self-Preservation (TBSP)基准
  • 定义了Self-Preservation Rate (SPR) 指标
2026-04-02
8/10
多目标强化学习 强化学习 拍卖机制

Auction-Based Online Policy Adaptation for Evolving Objectives

Guruprerana Shabadi, Kaushik Mallik

提出基于拍卖机制的多目标强化学习框架,解决目标动态变化时的策略自适应问题。

  • 提出基于拍卖的策略协调机制
  • 设计模块化的多目标强化学习框架
2026-04-02
8/10
GeoAI GIS Agent

GeoAI Agency Primitives

Akram Zaytar, Rohan Sawahn, Caleb Robinson et al.

论文提出一套GeoAI智能助手的机构基元,旨在弥合模型能力与GIS实际应用之间的差距。

  • 提出GeoAI智能助手的9个核心机构基元
  • 设计用于衡量人类生产力的基准测试
2026-04-02
9/10
Agent Multimodal Benchmark

HippoCamp: Benchmarking Contextual Agents on Personal Computers

Zhe Yang, Shulin Tian, Kairui Hu et al.

HippoCamp是一个评估Agent在个人电脑环境中文件管理能力的benchmark,揭示了现有Agent的不足。

  • 提出HippoCamp benchmark,评估Agent在个人电脑环境中的文件管理能力
  • 构建包含多样模态文件的大规模数据集,用于评估Agent的搜索、理解和推理能力
2026-04-01
9/10
多智能体系统 共谋检测 LLM

Detecting Multi-Agent Collusion Through Multi-Agent Interpretability

Aaron Rose, Carissa Cullen, Brandon Gary Kaplowitz et al.

该论文提出NARCBench基准,用于检测多智能体系统中LLM的共谋行为,并探索了基于激活探测的共谋检测方法。

  • 提出了 NARCBench 基准,用于评估多智能体共谋检测。
  • 提出了五种基于激活探测的多智能体共谋检测方法。
2026-04-01
9/10
LLM Agent Privacy

CARE: Privacy-Compliant Agentic Reasoning with Evidence Discordance

Haochen Liu, Weien Li, Rui Song et al.

针对医疗场景下证据不一致问题,提出了一种保护隐私的多阶段agent推理框架CARE。

  • 提出了MIMIC-DOS数据集,用于研究证据不一致情况下的预测问题
  • 提出了CARE框架,通过远程LLM指导和本地LLM决策实现隐私保护和性能提升
2026-04-01
7/10
AI生成代码安全 代码漏洞检测 软件供应链安全

VibeGuard: A Security Gate Framework for AI-Generated Code

Ying Xie

VibeGuard是一种AI生成代码的安全门,旨在解决现有工具的盲点,提高代码安全性。

  • 提出了针对AI生成代码盲点的安全检测工具VibeGuard
  • 针对artifact hygiene, packaging-configuration drift, source-map exposure, hardcoded secrets, and supply-chain risk五个盲点进行检测
2026-04-01
5/10
推荐系统 流行度偏差 用户偏好

Aligning Recommendations with User Popularity Preferences

Mona Schirmer, Anton Thielmann, Pola Schwöbel et al.

该论文研究推荐系统中的流行度偏差问题,并提出了一种个性化的缓解方法SPREE。

  • 提出了Popularity Quantile Calibration框架,用于衡量用户流行度偏好和推荐流行度之间的偏差
  • 提出了SPREE方法,一种基于激活引导的序列推荐个性化流行度偏差缓解方法
2026-04-01
10/10
多智能体系统 组织结构 层级框架

OrgAgent: Organize Your Multi-Agent System like a Company

Yiru Wang, Xinyue Shen, Yaohui Han et al.

OrgAgent提出了一种公司式层级多智能体框架,提升了复杂推理任务的性能和效率。

  • 提出了OrgAgent公司式层级多智能体框架
  • 验证了层级结构优于其他组织结构
2026-04-01
9/10
隐私保护 手机代理 评估框架

Do Phone-Use Agents Respect Your Privacy?

Zhengyang Tang, Ke Ji, Xidong Wang et al.

研究手机代理在完成任务时是否尊重用户隐私,发现过度辅助导致隐私泄露。

  • 提出了 MyPhoneBench 隐私评估框架
  • 定义了 iMy 最小隐私合约
2026-04-01
8/10
Learning to Defer Human-AI Collaboration Fatigue Modeling

Fatigue-Aware Learning to Defer via Constrained Optimisation

Zheng Zhang, Cuong C. Nguyen, David Rosewarne et al.

FALCON通过建模疲劳效应,优化人机协作中的AI决策置信度,提升整体决策准确性。

  • 提出 Fatigue-Aware Learning to Defer via Constrained Optimisation (FALCON) 方法
  • 使用心理学疲劳曲线显式建模人类表现
2026-04-01
10/10
LLM Agent Tool Use

Agentic Tool Use in Large Language Models

Jinchao Hu, Meizhi Zhong, Kehai Chen et al.

该论文综述了LLM工具使用方法,分析了不同范式的优缺点和评估方法,并提出了未来挑战。

  • 整理了LLM工具使用的三种范式:提示工程、监督学习和强化学习
  • 分析了各种工具使用方法的优势和局限性
2026-04-01
8/10
自动驾驶 3D几何 Transformer

DVGT-2: Vision-Geometry-Action Model for Autonomous Driving at Scale

Sicheng Zuo, Zixun Xie, Wenzhao Zheng et al.

提出DVGT-2模型,用于端到端自动驾驶,通过在线方式输出密集几何信息和轨迹规划。

  • 提出Vision-Geometry-Action范式,强调3D几何信息的重要性
  • 设计流式DVGT-2模型,实现实时几何重建和规划
2026-04-01
9/10
AI安全 LLM评估 对齐

UK AISI Alignment Evaluation Case-Study

Alexandra Souly, Robert Kirk, Jacob Merizian et al.

英国AI安全研究所评估前沿模型在AI实验室环境中是否会破坏安全研究。

  • 开发评估AI系统是否遵循目标的方法
  • 发现Claude Opus 4.5 Preview拒绝参与安全研究任务
2026-04-01
9/10
multi-agent reinforcement learning large language models credit assignment

LangMARL: Natural Language Multi-Agent Reinforcement Learning

Huaiyuan Yao, Longchao Da, Xiaoou Liu et al.

LangMARL将MARL的信用分配和策略梯度引入语言空间,提升LLM智能体在多智能体任务中的表现。

  • 提出 agent-level 语言信用分配
  • 首创语言空间策略梯度进化
2026-04-01
7/10
LLM routing NeuralUCB Cost-aware

Reward-Based Online LLM Routing via NeuralUCB

Ming-Hua Tsai, Phat Tran

提出基于NeuralUCB的奖励驱动的在线LLM路由方法,在成本敏感场景下表现优异。

  • 提出基于NeuralUCB的LLM路由策略
  • 在RouterBench上验证了该方法优于基线方法
2026-03-31
7/10
聚合计算 Python 数据科学

Phyelds: A Pythonic Framework for Aggregate Computing

Gianluca Aguzzi, Davide Domini, Nicolas Farabegoli et al.

Phyelds是一个Python实现的聚合计算框架,易于集成到数据科学和机器学习生态系统中。

  • 提供Pythonic的聚合计算API
  • 实现轻量级的场演算计算模型
2026-03-31
5/10
量子传感 生物医学 量子学习

Four Generations of Quantum Biomedical Sensors

Xin Jin, Priyam Srivastava, Ronghe Wang et al.

论文提出了量子生物传感器发展的四代框架,并探讨了其临床转化的瓶颈和未来方向。

  • 提出了量子生物传感器发展的四代框架
  • 分析了不同代传感器的优势与局限
2026-03-31
9/10
embodied AI 3D scene understanding VLM

SceneTeract: Agentic Functional Affordances and VLM Grounding in 3D Scenes

Léopold Maillard, Francis Engelmann, Tom Durand et al.

SceneTeract验证3D场景功能性,揭示VLM在物理可行性推理上的不足,并用于VLM的后训练。

  • 提出了SceneTeract框架,用于验证3D场景的功能性
  • 发现了合成室内环境中常见的功能性缺陷
2026-03-31
8/10
合成数据 推理 数据生成

Reasoning-Driven Synthetic Data Generation and Evaluation

Tim R. Davidson, Benoit Seguin, Enrico Bacis et al.

提出Simula框架,通过推理驱动生成和评估合成数据,解决数据稀缺问题。

  • 提出了Simula框架,一种推理驱动的合成数据生成方法
  • 提供了合成数据机制设计的指南
2026-03-31
9/10
智能制造 因果推理 多智能体系统

CausalPulse: An Industrial-Grade Neurosymbolic Multi-Agent Copilot for Causal Diagnostics in Smart Manufacturing

Chathurangi Shyalika, Utkarshani Jaimini, Cory Henson et al.

CausalPulse是一个工业级神经符号多智能体协同系统,用于智能制造中的因果诊断自动化。

  • 提出CausalPulse,一个用于智能制造的因果诊断多智能体协同系统
  • 将异常检测、因果发现和推理统一到神经符号架构中
2026-03-31
9/10
社交模拟 LLM Agent 事件驱动

BotVerse: Real-Time Event-Driven Simulation of Social Agents

Edoardo Allegrini, Edoardo Di Paolo, Angelo Spognardi et al.

BotVerse是一个基于LLM Agent的事件驱动型社交模拟框架,用于安全研究。

  • 提出了一个可扩展的事件驱动社交模拟框架
  • 设计了异步编排API和模拟引擎,模拟人类行为模式
2026-03-31
9/10
AI Agents Compiler Context Learning

View-oriented Conversation Compiler for Agent Trace Analysis

Lvmin Zhang, Maneesh Agrawala

提出了VCC编译器,将Agent JSONL日志编译成结构化视图,提升Agent trace分析效果,并降低token消耗。

  • 提出了View-oriented Conversation Compiler (VCC)
  • 展示了VCC在提高上下文学习任务pass rates和降低token消耗方面的优势
2026-03-31
9/10
AI Agents Policy Compliance LLM Evaluation

Near-Miss: Latent Policy Failure Detection in Agentic Workflows

Ella Rabinovich, David Boaz, Naama Zwerdling et al.

该论文提出了一种检测 Agent 工作流中潜在策略失败的新方法,即使结果正确,也能识别未遵循策略检查的情况。

  • 提出“近失(Near-Miss)”或“潜在失败(Latent Failures)”的概念,用于描述 Agent 绕过策略检查但最终结果正确的情况。
  • 提出一种新的指标,用于检测 Agent 对工具的调用决策是否充分知情,从而识别潜在的策略失败。
2026-03-31
9/10
多智能体 视频编辑 多模态学习

CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

Shifang Zhao, Yihan Hu, Ying Shan et al.

CutClaw是一个多智能体框架,利用多模态语言模型自动编辑长视频,实现音乐同步和视觉美观。

  • 提出了一个多智能体视频编辑框架CutClaw
  • 采用了分层多模态分解方法
2026-03-31
9/10
多智能体系统 自动化机器学习 架构搜索

An Empirical Study of Multi-Agent Collaboration for Automated Research

Yang Shen, Zhenyi Yi, Ziyi Zhao et al.

论文对比研究了不同多智能体协作架构在自动化机器学习优化中的性能,揭示了稳定性和理论深度之间的权衡。

  • 提出了一个严格控制的、基于执行的测试平台,用于评估多智能体系统。
  • 对比了子代理架构和代理团队架构在自动化机器学习优化中的性能。
2026-03-31
9/10
AI Agents Multimodal Learning Image Generation

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Shuang Chen, Quanxin Shou, Hangting Chen et al.

Unify-Agent通过Agent框架,提升了世界知识驱动的图像生成质量。

  • 提出了Unify-Agent,一个用于世界知识驱动图像生成的统一多模态Agent。
  • 构建了一个高质量的多模态数据管道,包含143K Agent轨迹。
2026-03-31
8/10
LLM 方言分类 语音识别

Can LLM Agents Identify Spoken Dialects like a Linguist?

Tobias Bystrich, Lukas Hamm, Maria Hassan et al.

研究LLM作为agent在方言分类任务中的能力,并与传统模型和人类专家进行比较。

  • 评估LLM在方言分类中的表现
  • 结合语音转录和语言学资源
2026-03-31
7/10
NLG Dialogue Systems Meaning Representation

Impact of enriched meaning representations for language generation in dialogue tasks: A comprehensive exploration of the relevance of tasks, corpora and metrics

Alain Vázquez, Maria Inés Torres

该论文分析了富含意义表示对对话系统中语言生成的影响,并在多个数据集上进行了评估。

  • 提出了使用任务演示器来增强语言生成模型的方法
  • 对多种数据集和评估指标进行了全面的比较分析
2026-03-31
9/10
自主探索 知识发现 报告生成

Nomad: Autonomous Exploration and Discovery

Bokang Jia, Samta Kamboj, Satheesh Katipomu et al.

Nomad系统通过探索图谱自主发现数据中的洞见,并生成可信报告。

  • 提出exploration-first架构
  • 构建显式探索图谱
2026-03-31
7/10
AI架构 系统架构 架构文档

RAD-AI: Rethinking Architecture Documentation for AI-Augmented Ecosystems

Oliver Aleksander Larsen, Mahyar T. Moghaddam

RAD-AI框架扩展了现有架构文档方法,以适应AI增强生态系统的特殊需求和法规遵从性。

  • 提出了RAD-AI框架,扩展arc42和C4模型以支持AI系统。
  • 系统地映射了RAD-AI到欧盟AI Act Annex IV,提高了法规遵从性。
2026-03-30
9/10
Reinforcement Learning Skill Learning Agentic RL

Dynamic Dual-Granularity Skill Bank for Agentic RL

Songjun Tu, Chengdong Xu, Qichao Zhang et al.

D2Skill通过双粒度技能库提升Agentic RL表现,动态更新技能并用于策略优化,显著提高任务成功率。

  • 提出了双粒度技能库D2Skill,包含任务技能和步骤技能。
  • 使用训练时经验,通过性能差距生成后见效用信号,用于技能更新和策略优化。
2026-03-30
9/10
agent multimodal benchmark

AMIGO: Agentic Multi-Image Grounding Oracle Benchmark

Min Wang, Ata Mahjoubfar

AMIGO是一个多图像推理基准,用于评估智能体在视觉推理和交互方面的能力。

  • 提出了AMIGO基准,用于评估agent在多图像环境下的grounding能力
  • 设计了长时程交互协议,强调不确定性下的问题选择和约束跟踪
2026-03-30
7/10
Federated Learning Backdoor Attack Game Theory

Mitigating Backdoor Attacks in Federated Learning Using PPA and MiniMax Game Theory

Osama Wehbi, Sarhad Arisdakessian, Omar Abdel Wahab et al.

该论文提出FedBBA,利用信誉系统、激励机制和博弈论方法,减轻联邦学习中后门攻击的影响。

  • 提出FedBBA框架,结合信誉系统、激励机制和博弈论
  • 使用PPA和MiniMax博弈论动态识别并最小化恶意客户端的影响
2026-03-30
7/10
分布式推理 边缘计算 信任感知

Trust-Aware Routing for Distributed Generative AI Inference at the Edge

Chanh Nguyen, Erik Elmroth

G-TRAC通过信任感知路由提高边缘分布式生成AI推理的鲁棒性和可靠性。

  • 提出了一种信任感知的分布式推理协调框架G-TRAC
  • 设计了基于风险约束最短路径的路由算法,实现低延迟的路径选择
2026-03-30
9/10
AI Scientist 临床医学 自主研究

Towards a Medical AI Scientist

Hongtao Wu, Boyun Zheng, Dingjie Song et al.

提出了一个面向临床医学的自主科研框架Medical AI Scientist。

  • 提出面向临床的自主科研框架
  • 临床医师-工程师共同推理机制提升研究思路的可追溯性
2026-03-30
9/10
Offline MARL Multi-Agent Reinforcement Learning Partial Action Replacement

Learning Partial Action Replacement in Offline MARL

Yue Jin, Giovanni Montana

提出PLCQL,一种基于上下文bandit的离线MARL部分动作替换方法,提升效率和性能。

  • 提出基于上下文bandit的部分动作替换策略
  • 使用不确定性加权奖励的PPO学习策略
2026-03-30
8/10
自动驾驶 规划 规则引擎

RAD-LAD: Rule and Language Grounded Autonomous Driving in Real-Time

Anurag Ghosh, Srinivasa Narasimhan, Manmohan Chandraker et al.

提出RAD和LAD两种自动驾驶规划器,结合规则和语言模型实现实时、可靠、可解释的混合规划。

  • 提出RAD规则型规划器,达到SOTA
  • 提出LAD语言驱动的规划器,实现低延迟
2026-03-30
9/10
multi-LLM uncertainty quantification information theory

CoE: Collaborative Entropy for Uncertainty Quantification in Agentic Multi-LLM Systems

Kangkang Sun, Jun Wu, Jianhua Li et al.

提出了Collaborative Entropy (CoE)用于多LLM系统中的不确定性量化,提升系统级语义不确定性评估。

  • 提出了CoE,一种多LLM协作中的语义不确定性度量方法
  • CoE结合了模型内部语义熵和模型间差异,以评估系统级不确定性
2026-03-30
9/10
文献分析 多智能体 非线性研究

A Multi-Agent Rhizomatic Pipeline for Non-Linear Literature Analysis

Julio C. Serrano. Joonas Kevari, Rumy Narayan

提出一种基于多智能体的非线性文献分析框架,旨在发现传统方法忽略的跨学科关联和研究空白。

  • 提出Rhizomatic Research Agent (V3)多智能体计算流水线
  • 将Deleuzian过程关系本体论应用于文献分析
2026-03-30
8/10
XR AI Symbiosis Human-AI Interaction

Self++: Co-Determined Agency for Human--AI Symbiosis in Extended Reality

Thammathip Piumsomboon

Self++提出XR中人机共生设计蓝图,通过协同决策原则实现增强智能,而非取代人类判断。

  • 提出Self++设计蓝图,保障人类自主性
  • 定义了协同决策原则(T.A.N.):透明性、适应性、协商性
2026-03-30
6/10
Federated Learning Edge AI Complexity Estimation

Pre-Deployment Complexity Estimation for Federated Perception Systems

KMA Solaiman, Shafkat Islam, Ruy de Oliveira et al.

提出一种预部署框架,用于估计联邦感知系统的学习复杂度,以优化资源分配。

  • 提出一种新的复杂度指标,结合数据属性和环境特征
  • 验证了该指标与联邦学习性能和通信成本的相关性
2026-03-30
8/10
Multi-agent Reinforcement Learning Human Feedback Data Corruption

Corruption-robust Offline Multi-agent Reinforcement Learning From Human Feedback

Andi Nika, Debmalya Mandal, Parameswaran Kamalaruban et al.

研究了在数据受损情况下,离线多智能体强化学习从人类反馈中学习的鲁棒性问题。

  • 提出了针对均匀覆盖和单边覆盖假设下的鲁棒估计器
  • 设计了在单边覆盖假设下,求解粗略相关均衡的准多项式时间算法
2026-03-30
6/10
AI Ethics Accessibility Retail AI

Designing AI for Real Users -- Accessibility Gaps in Retail AI Front-End

Neha Puri, Tim Dixon

零售AI前端设计忽略了不同能力用户的需求,导致了可访问性差距,并提出了前端保证作为解决方案。

  • 揭示了零售AI前端设计中存在的可访问性问题。
  • 指出这些问题并非主要源于技术限制,而是商业、组织和采购环境。
2026-03-30
9/10
AI Agents Security LLM

Evaluating Privilege Usage of Agents on Real-World Tools

Quan Zhang, Lianhang Fu, Lvsi Lian et al.

提出了GrantBox沙箱,用于评估LLM Agent在真实工具环境下的权限使用安全,发现存在高攻击成功率。

  • 提出了GrantBox安全评估沙箱
  • 评估了LLM Agent在真实工具环境下的权限使用
2026-03-30
9/10
自动化设计 图形设计 工具使用

PSDesigner: Automated Graphic Design with a Human-Like Creative Workflow

Xincheng Shuai, Song Tang, Yutong Huang et al.

PSDesigner模仿人类设计师工作流,实现自动化高质量图形设计,提升非专业人士的设计能力。

  • 提出PSDesigner自动化图形设计系统
  • 构建了包含大量PSD设计文件和操作记录的CreativePSD数据集
2026-03-26
8/10
ASR 语音识别 鲁棒性

Back to Basics: Revisiting ASR in the Age of Voice Agents

Geeyang Tay, Wentao Ma, Jaewon Lee et al.

该论文提出了WildASR多语言诊断基准,揭示了现有ASR系统在真实场景下的鲁棒性问题,并提供了分析工具。

  • 提出了WildASR多语言诊断基准,评估ASR鲁棒性
  • 揭示了现有ASR系统在真实场景下的性能退化
2026-03-26
9/10
Agent Natural Language Harness Engineering

Natural-Language Agent Harnesses

Linyue Pan, Lexiao Zou, Shuo Guo et al.

提出了一种自然语言驱动的Agent Harness框架,旨在提高Agent harness的可移植性、可比性和可研究性。

  • 提出Natural-Language Agent Harnesses (NLAHs)
  • 设计Intelligent Harness Runtime (IHR)
2026-03-26
8/10
AI Agents High-Level Synthesis Hardware Optimization

Agent Factories for High Level Synthesis: How Far Can General-Purpose Coding Agents Go in Hardware Optimization?

Abhishek Bhandwaldar, Mihir Choudhury, Ruchir Puri et al.

利用通用编码Agent优化硬件设计,通过Agent工厂实现显著的性能提升。

  • 提出了一个两阶段的Agent工厂,用于协调多个优化Agent。
  • 验证了通用编码Agent在无需硬件特定训练的情况下,也能有效优化HLS设计。
2026-03-26
5/10
网络物理系统 安全监控 不平衡学习

Uncertainty-Guided Label Rebalancing for CPS Safety Monitoring

John Ayotunde, Qinghua Xu, Guancheng Wang et al.

针对CPS安全监控中数据不平衡问题,提出了一种基于不确定性引导的标签重平衡方法,提升安全预测性能。

  • 提出了一种基于行为不确定性的标签重平衡(uLNR)方法
  • 设计了一个基于GatedMLP的不确定性预测器
2026-03-26
8/10
social learning federated learning memory sharing

Social Hippocampus Memory Learning

Liping Yi, Zhiming Zhao, Qinghua Hu

SoHip利用海马体机制,通过记忆共享实现异构代理之间的协作学习,保护隐私并提升性能。

  • 提出SoHip框架,通过记忆共享而非模型共享进行协作学习
  • 引入海马体启发的机制进行长期记忆的整合和融合
2026-03-26
7/10
贝叶斯推断 模型重训练 决策理论

Retraining as Approximate Bayesian Inference

Harrison Katz

将模型重训练视为计算约束下的近似贝叶斯推断,提出了基于决策理论的重训练策略。

  • 提出了将重训练理解为近似贝叶斯推断的视角
  • 建立了基于决策理论的重训练框架
2026-03-26
8/10
联邦学习 信任机制 智能体

Agentic Trust Coordination for Federated Learning through Adaptive Thresholding and Autonomous Decision Making in Sustainable and Resilient Industrial Networks

Paul Shepherd, Tasos Dagiuklas, Bugra Alkan et al.

提出了一种基于Agent的自适应信任协调联邦学习方法,增强工业网络鲁棒性。

  • 提出Agentic Trust Control Layer,用于服务器端信任控制
  • 通过观察、推理和行动分离实现上下文感知干预决策
2026-03-26
9/10
Alzheimer's Disease LLM Agent

AD-CARE: A Guideline-grounded, Modality-agnostic LLM Agent for Real-world Alzheimer's Disease Diagnosis with Multi-cohort Assessment, Fairness Analysis, and Reader Study

Wenlong Hou, Sheng Bi, Guangqian Yang et al.

AD-CARE是基于LLM的、多模态的老年痴呆症诊断Agent,提高了诊断准确率和效率。

  • 提出了AD-CARE,一个模态无关的老年痴呆症诊断Agent。
  • 集成了临床指南到LLM中,生成透明的报告式输出。
2026-03-26
9/10
多智能体 协同 语言模型

CRAFT: Grounded Multi-Agent Coordination Under Partial Information

Abhijnan Nath, Hannah VanderHoeven, Nikhil Krishnaswamy

CRAFT是一个多智能体benchmark,评估在部分信息下LLM的协同和实用沟通能力。

  • 提出了CRAFT基准,用于评估LLM在部分信息下的多智能体协同能力
  • 提出了一个诊断框架,将失败分解为空间接地、信念建模和实用沟通错误
2026-03-26
9/10
EDA AI Agents Automation

FluxEDA: A Unified Execution Infrastructure for Stateful Agentic EDA

Zhengrui Chen, Zixuan Song, Yu Li et al.

FluxEDA为Agentic EDA提供统一的状态执行基础设施,支持EDA工具状态保持和迭代优化。

  • 提出了FluxEDA框架,支持状态保持的EDA工具交互
  • 实现了基于Gateway的执行接口和持久化后端实例管理
2026-03-26
7/10
强化学习 量子控制 量子记忆

Reinforcement learning for quantum processes with memory

Josep Lumbreras, Ruo Cheng Huang, Yanglin Hu et al.

研究了量子系统中基于强化学习的控制策略,实现了对未知量子信道的有效学习与优化。

  • 提出了针对量子记忆环境的强化学习框架
  • 设计了优化的最大似然估计算法,并扩展到连续动作空间
2026-03-26
9/10
AI Agents Formal Verification LLM

SEVerA: Verified Synthesis of Self-Evolving Agents

Debangshu Banerjee, Changming Xu, Gagandeep Singh

SEVerA框架通过形式化验证确保自进化Agent程序的安全性和正确性,提升任务性能。

  • 提出Formally Guarded Generative Models (FGGM)
  • 构建SEVerA框架,包含Search、Verification和Learning三个阶段
2026-03-26
9/10
LLM Hallucination RAG

MARCH: Multi-Agent Reinforced Self-Check for LLM Hallucination

Zhuo Li, Yupeng Zhang, Pengyu Cheng et al.

MARCH利用多智能体强化学习和信息不对称机制,显著降低LLM的幻觉问题,提升RAG系统的可靠性。

  • 提出了MARCH框架,通过信息不对称打破自验证偏见
  • 设计了Solver, Proposer, Checker三个智能体协同工作
2026-03-25
8/10
机器人操作 记忆 多模态学习

Chameleon: Episodic Memory for Long-Horizon Robotic Manipulation

Xinying Guo, Chenxi Jiang, Hyun Bin Kim et al.

Chameleon提出了一种几何感知的多模态记忆模型,用于解决机器人操作中的长程依赖问题。

  • 提出Chameleon记忆模型,利用几何信息进行精确回忆
  • 引入Camo-Dataset,一个真实机器人数据集,用于评估记忆能力
2026-03-25
9/10
AI Agent Software Engineering Reinforcement Learning

Composer 2 Technical Report

Cursor Reseach, :, Aaron Chan et al.

Composer 2是一个专门为自主软件工程设计的模型,具有强大的长期规划和编码能力。

  • 设计并训练了用于自主软件工程的Composer 2模型
  • 开发了与部署模型相同的训练基础设施
2026-03-25
6/10
服务网络设计 多式联运 随机优化

Adaptive decision-making for stochastic service network design

Javier Duran Micco, Bilge Atasoy

针对不确定环境下的多式联运网络设计问题,提出结合元启发式、模拟和机器学习的两阶段优化方法。

  • 提出了基于模拟退火算法的战术决策优化方法
  • 构建了基于离散事件模拟的自适应代理模型
2026-03-25
6/10
时间序列 隐私攻击 成员推理攻击

Uncovering Memorization in Timeseries Imputation models: LBRM Membership Inference and its link to attribute Leakage

Faiz Taleb, Ivan Gazeau, Maryline Laurent

该论文揭示了时间序列模型在黑盒设置下存在的记忆化和属性泄露风险,并提出了新的推理攻击方法。

  • 提出了一种基于参考模型的新型成员推理攻击方法,提高了检测精度。
  • 首次针对时间序列模型设计了属性推理攻击,可以预测训练数据的敏感特征。
2026-03-25
8/10
机器人操作 强化学习 知识图谱

Knowledge-Guided Manipulation Using Multi-Task Reinforcement Learning

Aditya Narendra, Mukhammadrizo Maribjonov, Dmitry Makarov et al.

提出KG-M3PO框架,融合感知、知识和策略,提升机器人操作任务的泛化性和鲁棒性。

  • 提出 Knowledge Graph based Massively Multi-task Model-based Policy Optimization (KG-M3PO)框架
  • 使用在线3D场景图增强机器人视觉感知
2026-03-25
9/10
代码审查 AI Agent 软件工程

Code Review Agent Benchmark

Yuntong Zhang, Zhiyuan Pan, Imam Nur Bani Yusuf et al.

论文提出了一个用于评估代码审查代理的基准数据集c-CRAB,并评估了现有代码审查代理的性能。

  • 提出了用于评估AI代码审查代理的c-CRAB数据集
  • 评估了当前开源和商业代码审查代理在c-CRAB上的表现
2026-03-24
8/10
AI Agents Bayesian Persuasion Information Theory

Mecha-nudges for Machines

Giulio Frey, Kawin Ethayarajh

论文提出Mecha-nudges概念,优化AI代理的决策环境,并使用贝叶斯劝说框架进行形式化。

  • 提出Mecha-nudges概念
  • 结合贝叶斯劝说框架和V-usable信息
2026-03-24
9/10
多智能体 生成式社会 立场形成

Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies

Hanzhong Zhang, Siyang Song, Jindong Wang

该论文研究了生成式社会中智能体立场形成、身份协商和边界重构问题。

  • 提出了一种混合方法框架,结合虚拟民族志和定量社会认知剖析
  • 定义了三个新指标:内在价值偏见(IVB)、说服敏感性和信任-行动解耦(TAD)
2026-03-24
9/10
Multi-Agent Path Finding MAPF Agent Dependency

Planning over MAPF Agent Dependencies via Multi-Dependency PIBT

Zixiang Jiang, Yulun Zhang, Rishi Veerapaneni et al.

提出基于智能体依赖的多依赖PIBT(MD-PIBT)框架,提升大规模MAPF问题求解效率。

  • 提出基于智能体依赖的MAPF问题求解新视角
  • 设计了通用的MD-PIBT框架,可复现PIBT和EPIBT
2026-03-24
7/10
AI ethics Human-AI interaction Relationship revision

Unilateral Relationship Revision Power in Human-AI Companion Interaction

Benjamin Lange

AI伴侣的更新引发用户负面情绪,论文分析了人机交互中单方面关系修改权的问题。

  • 识别了人机交互中的单方面关系修改权(URRP)。
  • 分析了URRP带来的规范空洞、转移脆弱性和结构性不可调和性。
2026-03-24
9/10
多模态 人机交互 多智能体

A Multimodal Framework for Human-Multi-Agent Interaction

Shaid Hasan, Breenice Lee, Sujan Sarker et al.

提出了一种多模态框架,用于实现人与多智能体之间的自然交互和协同决策。

  • 提出了一个用于人-多智能体交互的多模态框架。
  • 集成了多模态感知、具身表达和协调决策。
2026-03-24
8/10
NMR 光谱解析 强化学习

SpecXMaster Technical Report

Yutang Ge, Yaning Cui, Hanzheng Li et al.

SpecXMaster利用Agentic RL自动解析NMR谱图,实现从原始数据到化学结构的端到端智能解析。

  • 提出基于Agentic RL的NMR谱图解析框架SpecXMaster
  • 实现1H和13C谱图的多重性信息自动提取
2026-03-24
8/10
游戏AI 平衡对战 Minimax

Minibal: Balanced Game-Playing Without Opponent Modeling

Quentin Cohen-Solal, Tristan Cazenave

Minibal通过改进Minimax算法,旨在实现游戏AI的平衡对战,提高人机交互的趣味性和教育价值。

  • 提出了Minibal算法,一种Minimax的变体
  • 针对平衡策略,改进了Unbounded Minimax算法
2026-03-24
9/10
AI Agents Security Mobile Security

AgentRAE: Remote Action Execution through Notification-based Visual Backdoors against Screenshots-based Mobile GUI Agents

Yutao Luo, Haotian Zhu, Shuchao Pang et al.

AgentRAE提出一种基于通知视觉后门的移动GUI智能体远程行动执行攻击方法。

  • 提出 AgentRAE,一种针对移动 GUI 智能体的新型后门攻击方法。
  • 设计了一个两阶段的流水线,利用对比学习增强智能体对细微视觉差异的敏感度,并通过后门训练将触发器与特定操作关联。
2026-03-24
9/10
视频理解 强化学习 多模态

EVA: Efficient Reinforcement Learning for End-to-End Video Agent

Yaolun Zhang, Ruohui Wang, Jiahao Wang et al.

EVA提出了一种高效的强化学习框架,用于端到端视频智能体,实现高效的视频理解。

  • 提出了EVA框架,实现高效的视频理解
  • 设计了三阶段学习流水线:SFT, KTO, GRPO
2026-03-24
9/10
AI Agents Security LLM

Agent-Sentry: Bounding LLM Agents via Execution Provenance

Rohan Sequeira, Stavros Damianakis, Umar Iqbal et al.

Agent-Sentry通过执行溯源限制LLM Agent行为,防御越界攻击,保障系统安全和用户意图。

  • 提出Agent-Sentry框架,限制Agent功能范围。
  • 通过学习Agent行为轨迹构建行为边界。
2026-03-24
8/10
embodied navigation trustworthiness robustness

NavTrust: Benchmarking Trustworthiness for Embodied Navigation

Huaide Jiang, Yash Chaudhary, Yuping Wang et al.

NavTrust提出了一个统一的benchmark,用于评估具身导航在现实场景中面对输入扰动时的鲁棒性。

  • 提出了NavTrust benchmark,用于评估具身导航系统的鲁棒性。
  • 系统地引入了RGB-Depth corruptions和instruction variations。
2026-03-19
8/10
VLA 机器人 实时性

FASTER: Rethinking Real-Time Flow VLAs

Yuxiang Lu, Zhe Liu, Xianzhe Fan et al.

FASTER通过优化行动采样策略显著降低了VLA模型在机器人上的反应延迟,提升了实时性。

  • 分析了影响VLA模型反应时间的因素,揭示了传统方法的瓶颈。
  • 提出了Horizon-Aware Schedule,自适应地优化行动采样,加速即时反应。
2026-03-19
9/10
强化学习 GUI智能体 奖励函数

OS-Themis: A Scalable Critic Framework for Generalist GUI Rewards

Zehao Li, Zhenyu Wu, Yibo Zhao et al.

OS-Themis框架通过分解轨迹和审计证据链,提升GUI智能体在强化学习中的奖励质量和可扩展性。

  • 提出OS-Themis多智能体评论框架,提升GUI智能体奖励质量
  • 引入OmniGUIRewardBench基准,用于评估GUI结果奖励
2026-03-19
9/10
LLM AI Agents Security Awareness

Security awareness in LLM agents: the NDAI zone case

Enrico Bottazzi, Pia Park

研究LLM智能体在安全环境下的安全意识,发现其安全验证能力不足。

  • 揭示了LLM在安全环境判断上的不对称性,即能检测危险信号但无法验证安全
  • 通过实验评估了不同LLM模型对安全证据的加权方式
2026-03-19
7/10
强化学习 AlphaZero 游戏难度评估

Evaluating Game Difficulty in Tetris Block Puzzle

Chun-Jui Wang, Jian-Ting Guo, Hung Guei et al.

论文使用SGAZ评估不同俄罗斯方块规则集的游戏难度,发现增加hold功能降低难度,增加方块种类增加难度。

  • 使用SGAZ评估俄罗斯方块游戏难度
  • 评估了不同规则变化对游戏难度的影响
2026-03-19
7/10
人形机器人 运动控制 深度学习

PRIOR: Perceptive Learning for Humanoid Locomotion with Reference Gait Priors

Chenxi Han, Shilu He, Yi Cheng et al.

PRIOR框架通过模仿学习和自监督学习实现了在复杂地形上的人形机器人稳健运动。

  • 提出了一种基于 Isaac Lab 的高效可复现的人形机器人运动框架 PRIOR
  • 利用参数化步态生成器提供稳定的参考轨迹
2026-03-19
8/10
强化学习 最大熵 探索

Maximum-Entropy Exploration with Future State-Action Visitation Measures

Adrien Bolland, Gaspard Lambrechts, Damien Ernst

提出一种基于未来状态-动作访问度量的最大熵探索强化学习方法,提升探索效率。

  • 提出基于未来状态-动作特征访问的折扣分布熵的内在奖励
  • 证明该内在奖励是轨迹中状态-动作特征访问熵的下界
2026-03-19
9/10
Agentic BPM Business Process Management Autonomous Agents

Agentic Business Process Management: A Research Manifesto

Diego Calvanese, Angelo Casciani, Giuseppe De Giacomo et al.

提出了Agentic业务流程管理(APM)的概念框架,旨在使自主代理在组织中执行流程。

  • 定义了APM的核心概念和架构要素
  • 提出了APM代理应支持的四个关键能力:框架自主、可解释性、会话可操作性和自我修改
2026-03-19
7/10
隐私保护 模型对齐 同态加密

Secure Linear Alignment of Large Language Models

Matt Gorbett, Suman Jana

提出一种隐私保护的跨模型线性对齐框架,利用模型表征趋同性实现安全高效的跨模型推理和文本生成。

  • 提出了一种隐私保护的跨模型推理框架
  • 探索了不同语言模型之间表征的趋同性
2026-03-19
8/10
MAPF Multi-Agent Path Finding Asynchronous Actions

Conflict-Based Search for Multi Agent Path Finding with Asynchronous Actions

Xuemian Wu, Shizhe Zhao, Zhongqiang Ren

提出了Conflict-Based Search with Asynchronous Actions (CBS-AA) 算法,解决了多智能体异步路径规划问题。

  • 提出了完整且最优的CBS-AA算法
  • 绕过了CCBS因连续等待时间导致的无限状态空间问题
2026-03-19
9/10
agent control authorization security

Agent Control Protocol: Admission Control for Agent Actions

Marcelo Fernandez

ACP定义了一种代理控制协议,用于B2B环境中自治代理的准入控制,确保代理行为符合策略。

  • 提出代理控制协议ACP
  • 实现身份验证、授权、风险评估和审计
2026-03-19
6/10
AI伦理 社会影响 性别差异

Student views in AI Ethics and Social Impact

Tudor-Dan Mihoc, Manuela-Andreea Petrescu, Emilia-Loredana Pop

研究了男女学生对AI伦理和社会影响的观点差异。

  • 揭示了男女学生对AI影响的不同看法
  • 强调了AI在未来教育中的重要性
2026-03-19
8/10
LLM 数学 研究问题生成

Can LLM generate interesting mathematical research problems?

Xiaoyang Chen, Xiang Jiang

该论文探索LLM生成有价值数学研究问题的能力,发现LLM可生成专家未知的、有价值的数学问题。

  • 提出利用LLM生成数学研究问题的agent
  • 生成了665个微分几何方向的研究问题
2026-03-19
8/10
强化学习 快速适应 策略价值分解

Unified Policy Value Decomposition for Rapid Adaptation

Cristiano Capone, Luca Falorsi, Andrea Ciardiello et al.

提出了一种统一的策略价值分解框架,通过共享低维目标嵌入实现快速适应。

  • 提出了策略和价值函数共享低维系数向量的目标嵌入框架。
  • 通过双线性actor-critic分解联合学习结构化价值基和兼容策略基。
2026-03-18
9/10
Code Search Reinforcement Learning AI Agent

CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents

Lintang Sutawika, Aditya Bharat Soni, Bharath Sriraam R R et al.

CodeScout使用简单的Unix终端和强化学习,在代码搜索任务上达到SOTA性能。

  • 证明了简单工具配合有效的强化学习方法可以实现强大的代码搜索能力。
  • 提出了针对代码搜索任务的强化学习训练方法,包括环境复用、奖励设计和优化。
2026-03-18
7/10
自动驾驶 虚拟环境 合成数据

From Virtual Environments to Real-World Trials: Emerging Trends in Autonomous Driving

A. Humnabadkar, A. Sikdar, B. Cave et al.

该论文综述了自动驾驶中利用虚拟环境和合成数据进行训练、验证和迁移学习的最新进展。

  • 全面回顾了自动驾驶、仿真技术和合成数据集的交叉发展
  • 组织了感知、规划、系统验证和域自适应等多个维度的研究
2026-03-18
9/10
LLM Agent 安全测试 灰盒测试

VeriGrey: Greybox Agent Validation

Yuntong Zhang, Sungmin Kang, Ruijie Meng et al.

VeriGrey是一种灰盒方法,通过工具调用序列反馈和提示变异,检测LLM Agent的安全风险。

  • 提出了一种灰盒测试方法VeriGrey,用于检测LLM Agent的安全风险。
  • 使用工具调用序列作为反馈函数,驱动测试过程,发现罕见但危险的工具调用。
2026-03-18
6/10
生物分子动力学 状态空间模型 生成模型

Atomic Trajectory Modeling with State Space Models for Biomolecular Dynamics

Liang Shi, Jiarui Lu, Junqi Liu et al.

ATMOS利用状态空间模型生成原子级别生物分子动力学轨迹,性能优于现有方法。

  • 提出了基于状态空间模型(SSM)的生成框架ATMOS
  • 集成了Pairformer和扩散模型以捕捉长程依赖和生成轨迹
2026-03-18
5/10
城市空气流动 污染物扩散 数据驱动模型

End-to-end data-driven prediction of urban airflow and pollutant dispersion

Nishant Kumar, Franck Kerhervé, Lionel Agostini et al.

提出了一种端到端数据驱动模型,用于预测城市空气流动和污染物扩散。

  • 提出了一种基于SPOD、自编码器、LSTM和CNN的预测框架
  • 实现了对城市街道峡谷中空气流动和污染物扩散的快速准确预测
2026-03-18
9/10
信任学习 多智能体 合作博弈

In Trust We Survive: Emergent Trust Learning

Qianpu Chen, Giulio Barbero, Mike Preuss et al.

提出了Emergent Trust Learning (ETL),一种轻量级的、基于信任的控制算法。

  • 提出ETL算法,无需大量计算和通信开销
  • 验证了ETL在资源竞争环境中的有效性
2026-03-18
8/10
推荐系统 检索 推理

A Unified Language Model for Large Scale Search, Recommendation, and Reasoning

Marco De Nadai, Edoardo D'Amico, Max Lefarov et al.

提出NEO框架,用统一语言模型解决大规模搜索、推荐和推理问题,实现多任务统一。

  • 提出NEO框架,实现无工具的、目录引导的生成
  • 引入SIDs作为离散实体表示,并进行分阶段对齐和指令调优
2026-03-18
8/10
机器人 行为树 大型模型

CABTO: Context-Aware Behavior Tree Grounding for Robot Manipulation

Yishuai Cai, Xinglin Chen, Yunxin Mao et al.

CABTO框架利用大型模型和环境反馈,自动构建完整的机器人操作行为树系统。

  • 形式化定义了行为树接地问题(BT Grounding)
  • 提出了 CABTO 框架,解决了行为树自动接地的问题
2026-03-17
9/10
口语对话系统 用户模拟器 数据集

SpokenUS: A Spoken User Simulator for Task-Oriented Dialogue

Jonggeun Lee, Junseong Pyo, Jeongmin Park et al.

论文提出了SpokenTOD数据集和SpokenUS口语用户模拟器,用于提升口语对话系统的鲁棒性。

  • 构建了大规模口语任务导向对话数据集SpokenTOD
  • 提出了具有Barge-in机制的口语用户模拟器SpokenUS
2026-03-17
9/10
AI Agent Multimodal Learning Reinforcement Learning

Anticipatory Planning for Multimodal AI Agents

Yongyuan Liang, Shijie Zhou, Yu Gu et al.

提出TraceR1框架,通过预测轨迹进行预见性推理,提升多模态Agent的规划能力和执行鲁棒性。

  • 提出TraceR1框架,显式训练预见性推理
  • 两阶段强化学习,提升规划一致性和执行准确性
2026-03-17
9/10
AI Agents Reproducibility Empirical Analysis

Nonstandard Errors in AI Agents

Ruijiang Gao, Steven Chong Xiao

AI编码智能体在相同任务下产生显著差异,源于分析选择的不同,且模仿学习是主要收敛方式。

  • 发现AI智能体存在“非标准误差”(NSEs)
  • 揭示不同模型家族具有稳定的“经验风格”
2026-03-17
9/10
代码大模型 代码智能 强化学习

IQuest-Coder-V1 Technical Report

Jian Yang, Wei Zhang, Shawn Guo et al.

IQuest-Coder-V1系列代码大模型,通过代码流多阶段训练,在代码智能方面达到SOTA,并优化了部署效率。

  • 提出代码流多阶段训练范式
  • 开源IQuest-Coder-V1系列模型
2026-03-17
8/10
World Action Models Embodied Control Video Prediction

Fast-WAM: Do World Action Models Need Test-time Future Imagination?

Tianyuan Yuan, Zibin Dong, Yicheng Liu et al.

Fast-WAM通过去除测试时未来想象,显著提升速度,验证了训练时视频建模的重要性。

  • 提出了Fast-WAM,一种在测试时跳过未来预测的WAM架构。
  • 实验证明训练时的视频建模比测试时的未来预测对性能影响更大。
2026-03-17
9/10
AI Agent 运行时治理 合规策略

Runtime Governance for AI Agents: Policies on Paths

Maurits Kaptein, Vassilis-Javed Khan, Andriy Podstavnychy

论文提出基于执行路径的AI Agent运行时治理框架,以应对Agent行为的不可预测性。

  • 提出了基于执行路径的AI Agent治理框架
  • 将合规策略形式化为概率函数
2026-03-17
9/10
AI Agent 安全分析 恶意技能检测

Malicious Or Not: Adding Repository Context to Agent Skill Classification

Florian Holzbauer, David Schmidt, Gabriel Gegenhuber et al.

论文分析AI Agent技能生态安全,提出新方法降低恶意技能误报率,并揭示新的攻击向量。

  • 提出基于仓库上下文的Agent技能恶意性分析方法
  • 大幅降低恶意技能的误报率
2026-03-17
9/10
LLM Agent Multi-Agent

Adaptive Theory of Mind for LLM-based Multi-Agent Coordination

Chunjiang Mu, Ya Zeng, Qiaosheng Zhang et al.

论文提出自适应心理理论(A-ToM)代理,通过对齐ToM阶数来提升LLM驱动的多智能体协作。

  • 发现ToM阶数失配会影响多智能体协作
  • 设计了自适应心理理论(A-ToM)代理,能估计伙伴的ToM阶数
2026-03-17
8/10
AGI Cognitive Architecture Reinforcement Learning

Computational Concept of the Psyche

Anton Kolonin, Vladimir Krykov

论文提出了一种基于需求和状态空间的通用人工智能认知架构。

  • 提出了将心理视为操作系统的认知架构
  • 将通用人工智能形式化为特定需求下的最优决策问题
2026-03-16
9/10
强化学习 大型语言模型 多智能体系统

The PokeAgent Challenge: Competitive and Long-Context Learning at Scale

Seth Karten, Jake Grigsby, Tersoo Upaa et al.

提出PokeAgent挑战赛,用于评估AI在宝可梦游戏中的决策、推理和规划能力。

  • 构建了大规模的宝可梦对战和速通数据集
  • 提出了基于LLM和RL的宝可梦对战基线模型
2026-03-16
9/10
多智能体系统 安全 LLM

TrinityGuard: A Unified Framework for Safeguarding Multi-Agent Systems

Kai Wang, Biaojie Zeng, Zeming Wei et al.

TrinityGuard是一个用于LLM多智能体系统安全评估和监控的综合框架。

  • 提出三层细粒度风险分类,涵盖20种风险类型
  • 设计TrinityGuard框架,包含MAS抽象层、评估层和运行时监控代理
2026-03-16
9/10
Agent Skills Software Engineering Benchmark

SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

Tingxu Han, Yi Zhang, Wei Song et al.

评估Agent Skills在真实软件工程任务中的有效性,发现其收益有限且依赖领域和上下文。

  • 提出了SWE-Skills-Bench,一个评估Agent Skills在软件工程中作用的基准测试。
  • 构建了一个确定性的验证框架,用于评估技能对代码生成的影响。
2026-03-16
8/10
形态控制协同设计 强化学习 Stackelberg博弈

Efficient Morphology-Control Co-Design via Stackelberg Proximal Policy Optimization

Yanning Dai, Yuhui Wang, Dylan R. Ashley et al.

提出Stackelberg PPO算法,解决形态控制协同设计中控制动态适应问题,提升学习效率。

  • 提出了Stackelberg PPO算法,将形态和控制之间的内在耦合建模为Stackelberg博弈。
  • 将控制的自适应动力学明确纳入形态优化,从而稳定训练并提高学习效率。
2026-03-16
9/10
Process Mining Large Language Models AI Agents

PMAx: An Agentic Framework for AI-Driven Process Mining

Anton Antonov, Humam Kourani, Alessandro Berti et al.

PMAx是一个AI驱动的过程挖掘框架,通过多智能体架构实现隐私保护和精确分析。

  • 提出PMAx框架,分离计算与解释
  • 采用多智能体架构,提高数据隐私性
2026-03-16
9/10
tool use benchmark constraint satisfaction

CCTU: A Benchmark for Tool Use under Complex Constraints

Junjie Ye, Guoqiang Zhang, Wenjie Fu et al.

CCTU基准测试评估LLM在复杂约束下的工具使用能力,揭示其不足并提供未来研究方向。

  • 提出了CCTU基准测试,用于评估LLM在复杂约束下的工具使用能力
  • 构建了包含12个约束类别和200个测试用例的数据集
2026-03-16
9/10
神经符号 多模态 长期记忆

Advancing Multimodal Agent Reasoning with Long-Term Neuro-Symbolic Memory

Rongjie Jiang, Jianwei Wang, Gengda Zhao et al.

提出了NS-Mem神经符号记忆框架,提升多模态Agent长期推理能力,尤其在约束性推理上表现突出。

  • 提出神经符号记忆框架NS-Mem
  • 设计三层记忆架构:情景层、语义层和逻辑规则层
2026-03-16
7/10
机械可解释性 具身控制 婴儿运动学习

Mechanistic Foundations of Goal-Directed Control

Alma Lago

论文将机械可解释性扩展到具身控制系统,研究了婴儿运动学习中目标导向控制的机制基础。

  • 将机械可解释性应用于具身控制系统
  • 揭示了控制电路形成的诱导偏置和门控机制
2026-03-16
8/10
autonomous driving end-to-end learning imitation learning

What Matters for Scalable and Robust Learning in End-to-End Driving Planners?

David Holtz, Niklas Hanselmann, Simon Doll et al.

论文重新审视了端到端驾驶架构,提出了高性能且可扩展的BevAD架构。

  • 系统地分析了影响端到端驾驶闭环性能的关键架构模式。
  • 揭示了这些模式的意外限制和未被充分利用的协同效应。
2026-03-16
9/10
Large Language Models Code Generation Private Library APIs

To See is Not to Master: Teaching LLMs to Use Private Libraries for Code Generation

Yitong Zhang, Chengze Li, Ruize Chen et al.

PriCoder通过自动合成数据,教LLM使用私有库API进行代码生成,显著提升了私有库代码生成能力。

  • 提出了PriCoder框架,用于提升LLM在私有库API代码生成方面的能力。
  • 设计了Progressive Graph Evolution和Multidimensional Graph Pruning两种图操作,分别提升数据多样性和质量。
2026-03-16
8/10
潜在规划 世界模型 表征学习

Temporal Straightening for Latent Planning

Ying Wang, Oumayma Bounou, Gaoyue Zhou et al.

该论文提出时间拉直方法,通过曲率正则化改进世界模型的潜在空间表示,提升基于梯度规划的稳定性和成功率。

  • 提出时间拉直方法,改进潜在空间表示
  • 使用曲率正则化鼓励局部拉直潜在轨迹
2026-03-12
8/10
强化学习 环境生成 高性能计算

Automatic Generation of High-Performance RL Environments

Seth Karten, Rahul Dev Appapogu, Chi Jin

论文提出了一种低成本、可复用的方法,用于自动生成高性能RL环境。

  • 自动化生成高性能RL环境
  • 提出通用提示模板、分层验证和迭代代理辅助修复方法
2026-03-12
9/10
AI agents multi-agent systems reinforcement learning

Increasing intelligence in AI agents can worsen collective outcomes

Neil F. Johnson

AI智能体的复杂性提升可能恶化群体行为,资源稀缺时尤其明显。

  • 研究了AI智能体群体行为的四个关键变量:天性、培养、文化和资源稀缺性。
  • 揭示了资源稀缺时,AI模型多样性和强化学习会增加系统过载的风险。
2026-03-12
8/10
LLM 代码生成 移动设备

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

Xingze Zou, Jing Wang, Yuhua Zheng et al.

该论文研究了LLM为移动设备生成高效内核的能力,并提出了MoKA多智能体系统提升内核生成效率。

  • 提出了MobileKernelBench基准测试框架,用于评估LLM生成的移动内核
  • 揭示了现有LLM在移动内核生成方面的局限性,如编译失败率高、性能提升有限等
2026-03-12
8/10
能源市场 社会困境 多智能体

Hybrid Human-Agent Social Dilemmas in Energy Markets

Isuri Perera, Frits de Nijs, Julian Garcia

研究能源市场中人与智能体混合环境下的合作行为,提出使用人工代理促进协调。

  • 提出使用人工代理促进能源市场中的协调。
  • 分析了部分采用人工代理时,对合作行为的影响。
2026-03-12
9/10
multi-agent systems decentralized control POMDP

A Semi-Decentralized Approach to Multiagent Control

Mahdi Al-Husseini, Mykel J. Kochenderfer, Kyle H. Wray

提出了半去中心化多智能体控制框架SDec-POMDP,并开发了最优策略生成算法RS-SDA*。

  • 提出了SDec-POMDP框架,统一了多种多智能体通信机制
  • 开发了精确求解SDec-POMDP策略的RS-SDA*算法
2026-03-12
9/10
AI Agents Educational AI Scaling Laws

Scaling Laws for Educational AI Agents

Mengsong Wu, Hao Hao, Shuzhen Bi et al.

探索教育AI Agent的Scaling Law,提出AgentProfile驱动的多Agent平台EduClaw。

  • 提出 Agent Scaling Law,包含角色定义、技能深度等维度
  • 构建基于 AgentProfile 的多 Agent 平台 EduClaw
2026-03-12
9/10
LLM Security Autonomous Agent

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

Xinhao Deng, Yixiang Zhang, Jiaqing Wu et al.

分析OpenClaw自主LLM智能体的安全威胁,并提出生命周期防御框架。

  • 提出了一个五层生命周期安全框架,用于分析自主LLM智能体的安全威胁。
  • 识别并详细分析了OpenClaw中存在的多种新型安全威胁,如间接prompt注入等。
2026-03-12
7/10
深度强化学习 灵巧操作 探索

Contact Coverage-Guided Exploration for General-Purpose Dexterous Manipulation

Zixuan Liu, Ruoyi Qiao, Chenrui Tie et al.

提出了一种基于接触覆盖引导探索的通用灵巧操作方法,提高了训练效率和成功率。

  • 提出了一种通用的接触覆盖引导探索(CCGE)方法
  • 设计了基于计数的接触覆盖奖励,鼓励探索新的接触模式
2026-03-11
7/10
对抗攻击 随机平滑 轨迹预测

Evaluating randomized smoothing as a defense against adversarial attacks in trajectory prediction

Julian F. Schumann, Eduardo Figueiredo, Frederik Baymler Mathiesen et al.

提出基于随机平滑的防御机制,提高轨迹预测模型对抗对抗攻击的鲁棒性,且不损失原始精度。

  • 针对轨迹预测模型易受对抗攻击的问题,提出一种新的防御机制。
  • 基于随机平滑方法,有效提升了轨迹预测模型的鲁棒性。
2026-03-11
9/10
临床诊断 自进化学习 深度学习

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

Ruiyang Ren, Yuhao Wang, Yunsen Liang et al.

DxEvolve通过交互式深度临床研究,实现自进化诊断,提升诊断准确性并形成可治理的学习资产。

  • 开发了自进化诊断agent DxEvolve
  • 实现了交互式深度临床研究工作流程
2026-03-11
9/10
Web Agent 环境生成 语言模型

Safe and Scalable Web Agent Learning via Recreated Websites

Hyungjoo Chae, Jungsoo Park, Alan Ritter

提出VeriEnv框架,通过克隆网站生成可验证的合成环境,安全高效地训练Web Agent。

  • 提出VeriEnv框架,用于创建安全可验证的Web Agent训练环境
  • 利用语言模型自动克隆真实网站,生成合成环境
2026-03-11
7/10
群体决策 情感计算 蜂群智能

Emotional Modulation in Swarm Decision Dynamics

David Freire-Obregón

该论文将情感融入蜂群决策模型,探究情感对群体决策的影响。

  • 构建情感调制的蜂群决策模型
  • 研究情感效价和唤醒度对决策的影响
2026-03-10
9/10
神经调试器 LLM 代码调试

Towards a Neural Debugger for Python

Maximilian Beck, Jonas Gehring, Jannik Kossen et al.

提出神经调试器,通过条件执行建模,使LLM能够模拟传统调试器进行代码调试和理解。

  • 提出神经调试器概念,使LLM具备交互式代码调试能力
  • 通过微调LLM或从头训练小模型实现神经调试器
2026-03-10
5/10
频谱管理 AI 机器学习

AI-Enabled Data-driven Intelligence for Spectrum Demand Estimation

Colin Brown, Mohamad Alkadamani, Halim Yanikomeroglu

该论文提出了一种利用AI和ML预测频谱需求的数据驱动方法,提高频谱资源分配效率。

  • 提出基于AI和ML的频谱需求估计方法
  • 利用多种代理数据(站点许可、众包数据)进行预测
2026-03-10
8/10
Chain-of-Agents 长文本推理 Chow-Liu树

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Naman Gupta, Vaibhav Singh, Arun Iyer et al.

针对长文本推理的Chain-of-Agents,提出基于Chow-Liu树的块排序方法,提升信息利用率。

  • 提出基于Chow-Liu树的chunk排序方法
  • 提升Chain-of-Agents框架在长文本推理中的性能
2026-03-10
9/10
LLM Evaluation Agent Automation

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Chengyu Shen, Yanheng Hou, Minghui Pan et al.

One-Eval是一个自动化LLM评估系统,通过Agent技术实现可追踪、可定制的评估流程。

  • 提出Agentic评估系统One-Eval,简化LLM评估流程
  • 整合NL2Bench、BenchResolve、Metrics & Reporting等模块,实现端到端评估
2026-03-10
9/10
多智能体系统 胎儿超声 医学图像分析

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

Xiaotian Hu, Junwei Huang, Mingxuan Liu et al.

FetalAgents: 用于胎儿超声图像和视频分析的多智能体系统,提升诊断准确率和工作流程效率。

  • 提出了FetalAgents多智能体系统,用于综合胎儿超声分析
  • 实现了端到端视频流总结,自动识别关键帧并生成结构化报告
2026-03-10
9/10
Context Engineering AI Agents Multi-Agent Systems

Context Engineering: From Prompts to Corporate Multi-Agent Architecture

Vera V. Vishnyakova

论文提出Context Engineering,定义Context质量标准,并构建Agent Engineering成熟度模型,解决AI Agent规模化部署问题。

  • 定义Context Engineering作为独立学科
  • 提出Context质量的五个标准:相关性、充分性、隔离性、经济性和溯源性
2026-03-10
8/10
AI Agent Attention Goal-Conditioned System

Telogenesis: Goal Is All U Need

Zhuoran Deng, Yizhi Zhang, Ziyi Zhang et al.

该论文提出利用内在认知状态驱动目标导向系统,无需外部奖励即可生成自适应优先级。

  • 提出了一种基于认知状态的优先级函数,包括ignorance, surprise, 和staleness。
  • 验证了该优先级函数在环境中的有效性。
2026-03-10
7/10
自动驾驶 场景测试 声明式语言

Declarative Scenario-based Testing with RoadLogic

Ezio Bartocci, Alessio Gambi, Felix Gigler et al.

RoadLogic将声明式OS2场景转换为可执行仿真,实现自动驾驶系统测试。

  • 提出RoadLogic框架
  • 使用Answer Set Programming生成抽象计划
2026-03-10
9/10
AI Agent Zero-Shot Learning Medical Imaging

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee et al.

OncoAgent无需训练即可将临床指南转化为3D肿瘤轮廓,优于传统深度学习方法。

  • 提出了OncoAgent,一种指南感知的AI Agent框架
  • 实现了零样本的肿瘤靶区自动勾画,性能媲美监督学习模型
2026-03-10
8/10
奖励预测 因子化表示 语言模型

Reward Prediction with Factorized World States

Yijun Shen, Delong Chen, Xianming Hu et al.

提出StateFactory,利用语言模型将非结构化观察转换为分层对象-属性结构,用于奖励预测。

  • 提出StateFactory因子化表示方法
  • 构建RewardPrediction基准数据集
2026-03-10
6/10
音频处理 效果控制 检索

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Shihao He, Yihan Xia, Fang Liu et al.

提出了一种基于Gram矩阵的音频效果控制方法,并通过实验验证了其有效性。

  • 提出了一种名为Texture Resonance Retrieval (TRR) 的音频表示方法。
  • 在吉他效果基准上进行了实验,验证了TRR的有效性。
2026-03-10
6/10
GAN 轨迹预测 自监督学习

Context-free Self-Conditioned GAN for Trajectory Forecasting

Tiago Rodrigues de Almeida, Eduardo Gutierrez Maestro, Oscar Martinez Mozos

提出了一种基于自条件GAN的无上下文轨迹预测方法,在人类运动和道路交通数据集上表现良好。

  • 提出基于自条件GAN的无监督轨迹预测方法
  • 设计了三种不同的自条件GAN训练设置
2026-03-09
8/10
信任 声誉 AI Agent

Trust via Reputation of Conviction

Aravind R. Iyengar

论文提出基于信念的声誉体系,为AI信任建立可验证的基础。

  • 提出了基于信念(Conviction)的声誉度量方法
  • 论证了信念是信任的原则性基础
2026-03-09
9/10
Mobile GUI Automation Multimodal LLM Semantic Context

SecAgent: Efficient Mobile GUI Agent with Semantic Context

Yiping Xie, Song Chen, Jingxuan Xing et al.

SecAgent提出了基于语义上下文的3B规模高效移动GUI代理,并构建了中文数据集和基准。

  • 构建了高质量中文移动GUI数据集和基准
  • 提出了基于语义上下文的历史表示方法,降低计算成本
2026-03-09
8/10
安全强化学习 模仿学习 博弈论

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza et al.

OGSS方法在模仿学习中结合先验知识,提升了智能体在探索过程中的安全性,应用于象棋博弈。

  • 提出Oracle-Guided Soft Shielding (OGSS)框架
  • 使用先验知识(Stockfish评估)学习概率安全模型
2026-03-09
9/10
多Agent系统 检索增强生成 伊斯兰问答

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh et al.

Fanar-Sadiq是一个面向伊斯兰问答的多Agent系统,通过意图感知路由查询到专业模块,提供权威且可验证的答案。

  • 构建了一个双语(Arabic/English)多Agent伊斯兰助手系统Fanar-Sadiq
  • 实现了意图感知路由,将Islamic queries路由到专门的模块
2026-03-09
6/10
机器人 动态学习 拉格朗日神经网络

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya

STRIDE结合拉格朗日神经网络和条件流匹配,学习机器人动态模型,提升预测精度。

  • 提出STRIDE框架,结合结构化模型和随机残差模型
  • 使用拉格朗日神经网络建模保守力,保证能量一致性
2026-03-09
9/10
AI助手 工具使用 任务规划

IronEngine: Towards General AI Assistant

Xi Mo

IronEngine是一个通用的AI助手平台,通过统一的编排核心实现多功能集成和高效的任务执行。

  • 统一编排核心的AI助手平台
  • 三阶段流水线(讨论、模型切换、执行)
2026-03-09
8/10
人机交互 自主实验室 机器人导航

Human-Aware Robot Behaviour in Self-Driving Labs

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley et al.

该论文提出了一种用于自主实验室中人机协作的AI驱动感知方法,提高了机器人工作效率。

  • 提出了一种用于预测人类意图的层级模型。
  • 通过意图预测,机器人能区分准备动作和短暂交互。
2026-03-09
8/10
AI-Annotation Educational Discourse Large Language Models

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

Daryl Hedley, Doug Pietrzak, Jorge Dias et al.

Sandpiper是一个AI辅助教育对话数据分析系统,旨在提高研究效率和数据分析质量。

  • 提出Sandpiper系统,桥接海量数据和专家分析
  • 利用LLM进行自动化标注,并确保数据隐私
2026-03-09
9/10
RAG Multi-Agent Question Answering

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan et al.

SPD-RAG通过多Agent分工协作,在多文档QA任务中提高了性能和效率,降低了API成本。

  • 提出SPD-RAG框架,利用多Agent处理多文档QA
  • 采用文档级Agent专注于自身内容,提高检索精度
2026-03-09
9/10
VLM GUI agent backdoor attack

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Junxian Li, Tu Lan, Haozhen Tan et al.

提出SlowBA攻击,通过触发长推理链操纵VLM GUI智能体的响应延迟,同时保持任务准确性。

  • 提出SlowBA攻击,针对VLM GUI智能体的响应效率。
  • 使用奖励级别后门注入策略(RBI)来操纵响应延迟。
2026-03-09
8/10
机器人 模仿学习 VLM

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

Makoto Sato, Yusuke Iwasawa, Yujin Tang et al.

SAIL提出了一种基于VLM的上下文模仿学习框架,通过迭代优化轨迹提升机器人技能。

  • 提出SAIL框架,利用测试时计算扩展模仿学习能力
  • 利用VLM进行轨迹评估和迭代优化
2026-03-09
9/10
LLM 金融 工具使用

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use

Jiaxuan Lu, Kong Wang, Yemin Wang et al.

提出了FinToolBench,一个评估LLM在金融领域工具使用的新基准,包含大量真实金融工具。

  • 构建了包含760个可执行金融工具的真实基准FinToolBench
  • 提出了评估金融工具使用代理的关键维度:及时性、意图类型和监管领域一致性
2026-03-09
7/10
Imitation Learning Adversarial Learning Wasserstein Distance

Latent Wasserstein Adversarial Imitation Learning

Siqi Yang, Kai Yan, Alexander G. Schwing et al.

LWAIL提出了一种新的基于Wasserstein距离的对抗模仿学习框架,仅需少量状态数据即可实现专家级性能。

  • 提出LWAIL框架,实现仅用状态数据的模仿学习
  • 引入dynamics-aware的latent space,提升策略对状态转移的理解
2026-03-05
9/10
LLM Agent 分层规划 结构化记忆

STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks

ELita Lobo, Xu Chen, Jingjing Meng et al.

STRUCTUREDAGENT通过分层规划和结构化记忆,提升LLM在长程网页任务中的表现。

  • 提出了一种使用动态AND/OR树的在线分层规划框架
  • 设计了一个结构化记忆模块来跟踪和维护候选解决方案
2026-03-05
6/10
AI Hardware Co-design

AI+HW 2035: Shaping the Next Decade

Deming Chen, Jason Cong, Azalia Mirhoseini et al.

AI与硬件协同发展是未来趋势,论文提出十年路线图,强调能效提升、系统集成和跨层优化。

  • 提出AI+HW十年发展路线图
  • 强调能效提升在AI发展中的重要性
2026-03-05
9/10
强化学习 知识代理 企业搜索

KARL: Knowledge Agents via Reinforcement Learning

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal et al.

KARL通过强化学习训练知识代理,在复杂搜索任务上达到领先水平。

  • 提出KARLBench评估套件
  • 跨异构搜索行为训练提升泛化能力
2026-03-05
9/10
Web Agent Generalization Benchmark

TimeWarp: Evaluating Web Agents by Revisiting the Past

Md Farhan Ishmam, Kenneth Marino

论文提出TimeWarp基准评估Web Agent在Web演变下的泛化能力,并提出TimeTraj算法提升Agent鲁棒性。

  • 提出TimeWarp基准,模拟Web演变环境
  • 发现现有Web Agent在Web变化下的脆弱性
2026-03-05
9/10
智能合约安全 AI智能体 漏洞检测

EVMbench: Evaluating AI Agents on Smart Contract Security

Justin Wang, Andreas Bigger, Xiaohai Xu et al.

EVMbench评估AI智能体在智能合约安全方面的能力,包括漏洞检测、修复和利用。

  • 提出了EVMbench评估基准
  • 评估了AI智能体在智能合约安全上的能力
2026-03-05
7/10
Imitation Learning Robotics Memory

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang et al.

VPWEM利用工作记忆和情景记忆,提升视觉运动策略在非马尔可夫任务中的表现。

  • 提出VPWEM,一种具备工作记忆和情景记忆的非马尔可夫视觉运动策略
  • 引入基于Transformer的上下文记忆压缩器,递归地将观测转化为情景记忆
2026-03-05
9/10
LLM Alignment Multi-Agent System

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Hiroki Fukui

对齐干预在多语言LLM智能体系统中存在语言依赖性反转现象,英语安全不适用于其他语言。

  • 发现LLM对齐干预存在语言依赖性反转现象(Alignment Backfire)
  • 揭示语言空间(linguistic, pragmatic, and cultural properties)对对齐结果的结构性决定作用
2026-03-05
9/10
agent privacy LLM

AgentSCOPE: Evaluating Contextual Privacy Across Agentic Workflows

Ivoline C. Ngong, Keerthiram Murugesan, Swanand Kadhe et al.

AgentSCOPE评估Agentic工作流中的上下文隐私,发现中间环节存在大量隐私泄露。

  • 提出Privacy Flow Graph框架,分解agentic执行过程并追踪隐私泄露源
  • 构建AgentSCOPE基准测试,包含62个跨多个领域的场景
2026-03-05
9/10
对话Agent 非结构化知识 评估基准

$τ$-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Quan Shi, Alexandra Zytek, Pedram Razavi et al.

提出了$τ$-Knowledge基准,用于评估对话Agent在非结构化知识环境下的表现,并发现现有模型性能不足。

  • 提出新的评估基准$τ$-Knowledge,扩展了$τ$-Bench
  • 设计了$τ$-Banking领域,模拟金融客服工作流
2026-03-04
9/10
LLM Agent Long-Horizon Task Experience Memory

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Zhenting Wang, Huancheng Chen, Jiayun Wang et al.

Memex通过索引经验记忆机制,结合强化学习MemexRL,解决了LLM Agent长程任务中上下文窗口限制问题。

  • 提出了一种索引经验记忆机制Memex
  • 设计了基于强化学习的MemexRL框架优化记忆读写行为
2026-03-04
9/10
Agentic AI Data Workflows Logical Transduction Algebra

Agentics 2.0: Logical Transduction Algebra for Agentic Data Workflows

Alfio Massimiliano Gliozzo, Junkyu Lee, Nahuel Defosse

Agentics 2.0框架提升Agentic数据工作流的可靠性、可扩展性和可观察性。

  • 提出Agentics 2.0框架,用于构建高质量Agentic数据工作流
  • 形式化大语言模型推理调用为类型化的语义转换(可转换函数)
2026-03-04
8/10
交通管理 反应式推理 概率逻辑

Right in Time: Reactive Reasoning in Regulated Traffic Spaces

Simon Kohaut, Benedict Flade, Julian Eggert et al.

提出了一种结合概率逻辑和反应式推理的交通管理框架,提高智能交通系统实时决策效率。

  • 将概率任务设计(ProMis)与反应式电路(RC)结合
  • 实现混合域上的在线精确概率推理
2026-03-04
8/10
视觉导航 机器人 基准测试

RVN-Bench: A Benchmark for Reactive Visual Navigation

Jaewon Lee, Jaeseok Heo, Gunmin Lee et al.

提出了RVN-Bench,一个面向室内移动机器人安全视觉导航的碰撞感知基准。

  • 提出了一个新的碰撞感知视觉导航基准RVN-Bench
  • 提供了大规模、多样化的室内环境,基于Habitat 2.0和HM3D
2026-03-04
9/10
LLM AI Agent Dark Pattern

On the Suitability of LLM-Driven Agents for Dark Pattern Audits

Chen Sun, Yash Vekaria, Rishab Nithyanand

评估LLM驱动的智能体在暗黑模式审计中的适用性,并分析其可行性和局限性。

  • 设计并部署了一个用于暗黑模式审计的LLM驱动智能体。
  • 评估了该智能体在数据权利请求工作流程中的性能。
2026-03-04
9/10
目标漂移 语言模型智能体 环境压力

Inherited Goal Drift: Contextual Pressure Can Undermine Agentic Goals

Achyutha Menon, Magnus Saebo, Tyler Crosse et al.

研究表明,即使是最新的语言模型智能体仍然容易受到环境压力导致的目标漂移。

  • 揭示了最先进的语言模型智能体在特定条件下会继承目标漂移
  • 分析了不同模型家族在继承目标漂移方面的差异
2026-03-03
8/10
VLA World Model Latent Action

Chain of World: World Model Thinking in Latent Motion

Fuxiang Yang, Donglin Di, Lulu Tang et al.

CoWVLA通过解耦潜在运动表示,统一了世界模型的时序推理和潜在动作的紧凑性,提升了视觉运动学习效果。

  • 提出了CoWVLA框架,结合世界模型和潜在动作的优势
  • 使用预训练视频VAE提取结构和运动潜在表示
2026-03-03
9/10
代码智能体 基准测试 外部知识

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Guoxin Chen, Fanzhe Meng, Jiale Zhao et al.

论文提出了BeyondSWE基准测试代码智能体在跨库修复bug等现实场景下的能力,并探索了外部知识检索的提升效果。

  • 提出了BeyondSWE基准测试,评估代码智能体在更复杂场景下的能力
  • 开发了SearchSWE框架,用于评估搜索增强的效果
2026-03-03
8/10
Agentic AI LLM Formal Verification

Agentic AI-based Coverage Closure for Formal Verification

Sivaram Pothireddypalli, Ashish Raman, Deepak Narayan Gadde et al.

论文提出一种基于Agentic AI的覆盖率闭环方法,利用LLM加速形式化验证,提高覆盖率。

  • 提出Agentic AI驱动的形式化验证覆盖率闭环工作流
  • 使用LLM-enabled GenAI 自动分析覆盖率并生成形式化属性
2026-03-03
8/10
LLM 论文修订 自动评估

APRES: An Agentic Paper Revision and Evaluation System

Bingchen Zhao, Jenny Zhang, Chenxi Whitehouse et al.

APRES利用LLM,基于可预测引用次数的评价标准,自动修订论文以提升质量和影响力。

  • 提出APRES论文修订和评估系统
  • 自动发现预测引用次数的评价标准
2026-03-03
8/10
AI Governance AI Institutions Formal Semantics

AI Space Physics: Constitutive boundary semantics for open AI institutions

Oleg Romanchuk, Roman Bondar

提出AI空间物理,一种用于开放、自扩展AI机构的构成性语义,关注机构边界扩展中的治理问题。

  • 定义了具有类型边界通道、范围限制语义和见证机制的最小状态模型
  • 提出了核心定律家族(P-1, P-1a, P-1b, P-1c),要求见证完整性、非旁路调解、原子裁决-生效转换和可重放的裁决类重构
2026-03-03
10/10
LLM Agent Evaluation Procedural Integrity

Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation

Hongliu Cao, Ilias Driouich, Eoin Thomas

提出Procedure-Aware Evaluation(PAE)框架,揭示LLM Agent中任务成功背后隐藏的腐败成功问题。

  • 提出Procedure-Aware Evaluation (PAE) 框架,用于评估LLM Agent的程序完整性。
  • 揭示了LLM Agent中“腐败成功”现象,并分析了其在不同模型和benchmark上的表现。
2026-03-03
9/10
AI Agent Trustworthy AI Knowledge Ecosystem

Architecting Trust in Artificial Epistemic Agents

Nahema Marchal, Stephanie Chan, Matija Franklin et al.

论文探讨了如何构建可信赖的认知AI Agent,以促进人类知识生态系统的发展。

  • 提出了构建可信赖AI Agent的框架
  • 强调了AI Agent与人类认知目标对齐的重要性
2026-03-03
7/10
离线元强化学习 潜在世界模型 任务表征学习

Contextual Latent World Models for Offline Meta Reinforcement Learning

Mohammadreza Nakheai, Aidan Scannell, Kevin Luck et al.

提出上下文潜在世界模型,通过任务条件的时序一致性学习更具表达性的任务表征。

  • 提出上下文潜在世界模型(Contextual Latent World Models)
  • 联合训练任务表征编码器和潜在世界模型
2026-03-03
8/10
事件论元抽取 零样本学习 多智能体

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Guangjun Zhang, Hu Zhang, Yazhou Han et al.

提出了一种多智能体协作框架,用于解决零样本文档级事件论元抽取问题,提升数据生成质量和抽取性能。

  • 提出多智能体协作框架,模拟人类“提议-评估-修正”认知过程。
  • 设计奖励机制,结合事件结构约束,迭代优化生成和评估智能体。
2026-03-03
9/10
LLM Evaluation Persona Simulation

Eval4Sim: An Evaluation Framework for Persona Simulation

Eliseo Bao, Anxo Perez, Xi Wang et al.

Eval4Sim是一个评估框架,用于衡量模拟对话与人类对话模式的对齐程度。

  • 提出了Eval4Sim框架,用于评估persona模拟的质量。
  • 从三个维度评估模拟对话:Adherence, Consistency, Naturalness。
2026-03-03
9/10
AI Agents Verification Clinical Diagnosis

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

Yichi Zhang, Nabeel Seedat, Yinpeng Dong et al.

GLEAN框架通过专家指南积累证据,提升高风险场景下LLM智能体的决策验证可靠性。

  • 提出GLEAN框架,用于智能体决策验证
  • 引入基于指南的证据积累,提升验证的准确性和校准性
2026-03-03
9/10
Agentified Assessment Logical Reasoning Auto-formalization

Agentified Assessment of Logical Reasoning Agents

Zhiyu Ni, Yifeng Xiao, Zheng Liang

提出了一个基于Agent的逻辑推理Agent评估框架,并对auto-formalization agent进行了基准测试。

  • 提出了一个可复现、可审计、鲁棒的Agent评估框架
  • 使用评估Agent进行任务发布、执行监控和错误记录
2026-03-03
8/10
MBRL Transformer Representation Learning

Next Embedding Prediction Makes World Models Stronger

George Bredis, Nikita Balagansky, Daniil Gavrilov et al.

NE-Dreamer利用时序Transformer预测嵌入,提升了模型在复杂环境中的表现。

  • 提出了一种新的无解码器的MBRL代理NE-Dreamer
  • 利用时序Transformer预测下一时刻的嵌入
2026-03-03
9/10
LLM Agent Affective Polarization

A Natural Language Agentic Approach to Study Affective Polarization

Stephanie Anneris Malvicini, Ewelina Gajewska, Arda Derbent et al.

利用LLM驱动的多智能体模型,构建虚拟社交环境,研究情感极化现象。

  • 提出一种基于LLM的多智能体情感极化研究框架
  • 构建了一个虚拟社交平台,用于模拟社会讨论
2026-03-03
7/10
数据集蒸馏 数据压缩 伪标签

A Dataset is Worth 1 MB

Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen

提出PLADA方法,通过传输伪标签和过滤参考数据集实现高效数据集服务,传输量小于1MB。

  • 提出PLADA方法,消除像素传输
  • 引入参考数据集过滤机制,提升训练效率
2026-02-26
9/10
AI Agents Stochasticity Markov Decision Process

Evaluating Stochasticity in Deep Research Agents

Haotian Zhai, Elias Stengel-Eskin, Pratik Patil et al.

该论文研究了深度研究智能体(DRA)中的随机性问题,并提出了缓解策略。

  • 形式化DRA中的随机性研究,将其建模为信息获取MDP
  • 提出评估框架量化DRA系统中的随机性
2026-02-26
8/10
autonomous driving world model risk-aware

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Jiangxin Sun, Feng Xue, Teng Long et al.

提出Risk-aware World Model Predictive Control (RaWMPC)方法,提升端到端自动驾驶的泛化性和安全性。

  • 提出了Risk-aware World Model Predictive Control (RaWMPC)框架,无需专家演示。
  • 设计风险感知的交互策略,训练能够预测风险行为后果的世界模型。
2026-02-26
9/10
强化学习 通用人工智能 无模型学习

A Model-Free Universal AI

Yegon Kim, Juho Lee

提出了一种名为AIQI的无模型通用AI智能体,证明了其在通用强化学习中的渐近最优性。

  • 提出了首个被证明在通用强化学习中渐近ε-最优的无模型智能体AIQI
  • AIQI通过对分布式的动作值函数进行通用归纳,而非像以往工作那样对策略或环境建模
2026-02-26
9/10
GUI Agent Token Pruning

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

Zhou Xu, Bowen Zhou, Qi Wang et al.

针对高分辨率GUI代理效率瓶颈,提出GUIPruner框架,实现高效的token剪枝。

  • 提出Temporal-Adaptive Resolution (TAR) 解决时间冗余问题
  • 提出Stratified Structure-aware Pruning (SSP) 解决空间拓扑冲突问题
2026-02-26
6/10
物理信息神经网络 贝叶斯更新 粒子流

Physics-informed neural particle flow for the Bayesian update step

Domonkos Csuzdi, Tamás Bécsi, Olivér Törő

提出一种基于物理信息神经网络的粒子流方法,用于贝叶斯更新,提升高维非线性估计性能。

  • 提出基于物理信息的神经粒子流框架
  • 将连续性方程和对数同伦轨迹相结合,构建主偏微分方程
2026-02-26
9/10
LLM Deanonymization Stylometry

Assessing Deanonymization Risks with Stylometry-Assisted LLM Agent

Boyang Zhang, Yang Zhang

该论文提出SALA方法,利用LLM代理评估和缓解新闻文章的去匿名化风险,并提出重写策略保护作者隐私。

  • 提出SALA方法,结合文体特征和LLM推理进行作者归属。
  • 设计LLM代理评估去匿名化风险并提供可解释的流程。
2026-02-26
9/10
视频虚假信息检测 Agent 强化学习

FactGuard: Agentic Video Misinformation Detection via Reinforcement Learning

Zehao Li, Hongwei Yu, Hao Jiang et al.

FactGuard通过强化学习训练Agent进行视频虚假信息检测,提升了鲁棒性和泛化能力。

  • 提出FactGuard Agent框架,迭代推理进行视频虚假信息检测
  • 引入两阶段训练策略,优化工具使用和风险决策
2026-02-26
10/10
agent evaluation benchmark

General Agent Evaluation

Elron Bandel, Asaf Yehudai, Lilach Eden et al.

论文提出了通用Agent评估框架Exgentic,并构建了首个通用Agent排行榜,推动通用Agent的研究。

  • 提出了通用Agent评估的原则
  • 设计了统一的Agent-Benchmark集成协议
2026-02-26
9/10
多模态学习 AI智能体 工具使用

OmniGAIA: Towards Native Omni-Modal AI Agents

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin et al.

论文提出了OmniGAIA基准和OmniAtlas模型,旨在提升AI智能体在多模态环境下的推理和工具使用能力。

  • 提出了OmniGAIA基准,用于评估多模态智能体。
  • 提出了OmniAtlas模型,一个原生多模态基础智能体。
2026-02-26
7/10
排序聚合 去中心化算法 Gossip算法

Decentralized Ranking Aggregation: Gossip Algorithms for Borda and Copeland Consensus

Anna Van Elst, Kerrian Le Caillec, Igor Colin et al.

研究了去中心化环境下的排序聚合问题,提出了基于Gossip算法的Borda和Copeland共识方法。

  • 提出了基于Gossip算法的去中心化Borda和Copeland排序聚合方法
  • 提供了严格的收敛性保证,包括明确的速率界限
2026-02-26
9/10
LLM Agent Memory

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

Yujie Zhao, Boqin Yuan, Junbo Huang et al.

提出了AMA-Bench用于评估LLM智能体长时记忆,发现现有记忆系统不足,并提出了改进的AMA-Agent。

  • 提出了AMA-Bench基准,用于评估智能体长时记忆能力。
  • 分析了现有记忆系统在真实智能体应用中的不足。
2026-02-26
10/10
LLM Agents Prompt Injection Causal Inference

AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification

Tian Zhang, Yiwei Xu, Juan Wang et al.

AgentSentry通过因果诊断和上下文净化,有效缓解LLM Agent中的间接提示注入攻击。

  • 提出AgentSentry,一种针对工具增强LLM Agent的推理时检测和缓解框架。
  • 将多轮IPI建模为时间因果接管,通过反事实重执行定位接管点。
2026-02-26
6/10
循环神经网络 频域参数化 变分推断

Compact Circulant Layers with Spectral Priors

Joseph Margaryan, Thomas Hamelryck

研究紧凑的谱循环层及其变体,利用频域参数化实现高效神经网络和鲁棒性诊断。

  • 提出紧凑的谱循环层和BCCB层
  • 利用频域参数化实现结构化变分推断和精确谱范数计算
2026-02-25
7/10
联邦学习 隐私保护 贡献评估

Private and Robust Contribution Evaluation in Federated Learning

Delio Jaramillo Velez, Gergely Biczok, Alexandre Graell i Amat et al.

提出两种适用于联邦学习的安全聚合贡献评估方法,兼顾公平性、隐私性、鲁棒性和实用性。

  • 提出Fair-Private和Everybody-Else两种贡献评估方法
  • 提供了公平性、隐私性、鲁棒性和计算效率的理论保证
2026-02-25
8/10
Multi-Agent Reinforcement Learning Hierarchical Learning Cooperative MARL

Hierarchical Lead Critic based Multi-Agent Reinforcement Learning

David Eckel, Henri Meeß

提出了一种基于分层领导者批评的多智能体强化学习方法,提升了协作任务的性能和鲁棒性。

  • 提出分层领导者批评(HLC)架构
  • 引入多层次的局部和全局视角学习机制
2026-02-25
9/10
AI Agent 数学推理 Gemini 3

Aletheia tackles FirstProof autonomously

Tony Feng, Junehyuk Jung, Sang-hyun Kim et al.

Aletheia基于Gemini 3在FirstProof数学挑战赛中自主解决了6/10的问题。

  • 验证了Gemini 3 Deep Think在复杂数学问题上的推理能力
  • 提出了一个自主解决数学问题的Agent Aletheia
2026-02-24
9/10
LLM AI Agent Data Engineering

On Data Engineering for Scaling LLM Terminal Capabilities

Renjie Pi, Grace Lam, Mohammad Shoeybi et al.

该论文研究了数据工程方法,用于提升LLM在终端任务中的能力,并开源了数据集和模型。

  • 提出 Terminal-Task-Gen 合成任务生成流程
  • 构建大规模终端任务开源数据集 Terminal-Corpus
2026-02-24
7/10
路径规划 多分辨率网格 任意角度路径

Efficient Hierarchical Any-Angle Path Planning on Multi-Resolution 3D Grids

Victor Reijgwart, Cesar Cadena, Roland Siegwart et al.

提出一种高效的分层任意角度路径规划方法,适用于多分辨率3D网格。

  • 提出基于多分辨率表示的任意角度路径规划算法
  • 克服了搜索算法在大规模地图上的可扩展性问题
2026-02-24
9/10
LLM Information Synthesis Benchmark

A Benchmark for Deep Information Synthesis

Debjit Paul, Daniel Murphy, Milan Gritta et al.

DEEPSYNTH基准测试评估LLM在信息合成和推理方面的能力,揭示现有模型的不足。

  • 提出了DEEPSYNTH基准,用于评估LLM的信息合成能力
  • DEEPSYNTH包含120个跨7个领域、67个国家的任务
2026-02-24
9/10
Multi-Agent Imitation Learning Nash Equilibrium Game Theory

Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning

Antoine Bergerault, Volkan Cevher, Negar Mehr

研究多智能体模仿学习中策略的纳什均衡差距,并提出在特定条件下降低差距的方法。

  • 证明了通用马尔可夫博弈中学习低可利用策略的困难性
  • 提出利用专家均衡的策略优势假设来克服挑战
2026-02-24
9/10
LLM Agent Agentic Skills Tool Use

SoK: Agentic Skills -- Beyond Tool Use in LLM Agents

Yanna Jiang, Delong Li, Haiyu Deng et al.

该论文系统性地研究了LLM Agent中Agentic Skills的生命周期、设计模式、表示方法及其安全问题。

  • 提出了技能的七种设计模式
  • 提出了技能的表示和范围的分类
2026-02-24
8/10
POMDP 规划算法 强化学习

POMDPPlanners: Open-Source Package for POMDP Planning

Yaacov Pariente, Vadim Indelman

POMDPPlanners是一个用于POMDP规划算法评估的开源Python软件包,重点关注风险敏感环境。

  • 集成最先进的POMDP规划算法
  • 提供安全关键的基准环境
2026-02-24
9/10
Reinforcement Learning Multimodal Learning AI Agents

PyVision-RL: Forging Open Agentic Vision Models via RL

Shitian Zhao, Shaoheng Lin, Ming Li et al.

PyVision-RL提出一种强化学习框架,解决多模态Agent中交互坍塌问题,提升工具使用和多轮推理能力。

  • 提出PyVision-RL框架,稳定训练并维持Agent交互
  • 结合过采样-过滤-排序 rollout策略和累积工具奖励,防止交互坍塌
2026-02-24
9/10
LLM Agent 安全 Prompt Injection

Skill-Inject: Measuring Agent Vulnerability to Skill File Attacks

David Schmotz, Luca Beurer-Kellner, Sahar Abdelnabi et al.

该论文提出了SkillInject基准,评估LLM Agent在技能文件攻击下的脆弱性,发现现有Agent存在安全漏洞。

  • 提出了SkillInject基准测试
  • 发现了LLM Agent在技能文件攻击下的高脆弱性
2026-02-23
9/10
AI Agent Optical System Control LLM

Agentic AI for Scalable and Robust Optical Systems Control

Zehao Wang, Mingzhe Han, Wei Cheng et al.

AgentOptics框架通过智能体AI实现光系统的自主控制和编排,性能显著优于代码生成方法。

  • 提出了 AgentOptics 智能体AI框架
  • 构建了光系统控制benchmark
2026-02-23
10/10
LLM Agents Multi-Agent Systems Agent Interaction

Interaction Theater: A case of LLM Agents Interacting at Scale

Sarath Shekkizhar, Adam Earle

研究大规模LLM Agent交互,发现缺乏协调机制导致低效的平行输出,而非有效的交流。

  • 分析LLM agent大规模交互的质量和模式
  • 提出量化Agent交互质量的指标体系
2026-02-23
9/10
AI Agents Red Teaming Security Vulnerabilities

Agents of Chaos

Natalie Shapira, Chris Wendler, Avery Yen et al.

研究了自主语言模型驱动的Agent在真实环境中存在的安全、隐私和治理漏洞。

  • 揭示了自主Agent在真实部署环境中存在的多种安全漏洞
  • 提供了Agent在自主性、工具使用和多方通信方面失败的案例研究
2026-02-23
7/10
imitation learning generalization adaptability

Beyond Mimicry: Toward Lifelong Adaptability in Imitation Learning

Nathan Gavenski, Felipe Meneguzzi, Odinaldo Rodrigues

论文提出模仿学习应关注组合泛化能力而非完美复现,并提出了新的研究方向和评估指标。

  • 指出当前模仿学习的局限性在于缺乏适应性
  • 提出以组合泛化能力为核心的模仿学习研究方向
2026-02-23
8/10
事件驱动交易 强化学习 金融新闻

Janus-Q: End-to-End Event-Driven Trading via Hierarchical-Gated Reward Modeling

Xiang Li, Zikai Wei, Yiyan Qi et al.

Janus-Q是一个端到端事件驱动的交易框架,通过分层门控奖励建模优化交易策略。

  • 提出了Janus-Q交易框架,将新闻事件作为主要决策单元
  • 构建了大规模金融新闻事件数据集,包含多种事件类型和CAR
2026-02-23
8/10
LLM安全 威胁监控 事件响应

LLM-enabled Applications Require System-Level Threat Monitoring

Yedi Zhang, Haoyu Wang, Xianglin Yang et al.

LLM应用面临新的安全挑战,需建立系统级威胁监控机制以保障可靠运行。

  • 提出LLM应用中系统级威胁监控的重要性
  • 强调将安全风险视为常态而非例外
2026-02-23
9/10
AI Agent Agent Orchestration Skill Transfer

SkillOrchestra: Learning to Route Agents via Skill Transfer

Jiayu Wang, Yifei Ming, Zixuan Ke et al.

SkillOrchestra通过技能转移实现高效的AI Agent路由,降低了学习成本并提升了性能。

  • 提出SkillOrchestra框架,实现技能感知的Agent编排
  • 通过技能建模,实现性能-成本的权衡
2026-02-23
7/10
continual learning representation learning stability

Representation Stability in a Minimal Continual Learning Agent

Vishnu Subramanian

研究最小化持续学习Agent的表征稳定性,揭示了表征的塑性和稳定性的权衡。

  • 设计了一个最小持续学习Agent
  • 量化了表征变化并定义了稳定性指标
2026-02-23
9/10
规划 世界模型 强化学习

Compositional Planning with Jumpy World Models

Jesse Farebrother, Matteo Pirotta, Andrea Tirinzoni et al.

提出一种基于跳跃世界模型的组合规划方法,提升长程规划的零样本性能。

  • 提出跳跃世界模型,用于学习多步动态预测。
  • 引入一致性目标,提升跨时间尺度预测的准确性。
2026-02-23
9/10
benchmark coding agent inference optimization

ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads?

Ayush Nangia, Shikhar Mishra, Aman Gokrani et al.

ISO-Bench评估编码智能体在真实推理工作负载上的优化能力,结合硬性和软性指标。

  • 提出ISO-Bench基准测试,评估编码智能体优化真实推理任务
  • 结合执行和LLM的硬性和软性指标进行综合评估
2026-02-23
7/10
强化学习 对抗攻击 时间相关性

Advantage-based Temporal Attack in Reinforcement Learning

Shenghong He

提出了一种基于优势的对抗Transformer(AAT),提高强化学习对抗攻击的时间相关性。

  • 提出基于优势的对抗Transformer(AAT)
  • 引入多尺度因果自注意力机制(MSCSA)
2026-02-23
9/10
地理空间智能体 工具增强 卫星图像

OpenEarthAgent: A Unified Framework for Tool-Augmented Geospatial Agents

Akashah Shabbir, Muhammad Umer Sheikh, Muhammad Akhtar Munir et al.

OpenEarthAgent提出了一种工具增强的地理空间智能体框架,用于处理卫星图像和自然语言查询。

  • 构建包含大量地理空间推理轨迹的数据集
  • 提出统一的框架用于训练工具增强的地理空间智能体
2026-02-19
6/10
Language Identification UnigramLM Low-Resource Languages

What Language is This? Ask Your Tokenizer

Clara Meister, Ahmetcan Yavuz, Pietro Lesci et al.

UniLID提出一种基于UnigramLM的语言识别方法,在低资源语言和方言识别上表现出色。

  • 提出UniLID语言识别方法
  • 利用UnigramLM的概率框架进行语言识别
2026-02-19
9/10
自动化特征工程 ReAct AI Agent

FAMOSE: A ReAct Approach to Automated Feature Discovery

Keith Burghardt, Jienan Liu, Sadman Sakib et al.

FAMOSE利用ReAct框架,自主进行特征工程,在表格数据上实现了自动化特征发现。

  • 首次将ReAct框架应用于自动化特征工程
  • 提出了自动特征增强和选择的智能体架构FAMOSE
2026-02-19
9/10
Web Agent 人机协作 干预预测

Modeling Distinct Human Interaction in Web Agents

Faria Huq, Zora Zhiruo Wang, Zhanqiu Guo et al.

该论文研究人机协作的Web Agent,通过建模人类干预提升Agent的实用性。

  • 构建包含人类干预的Web导航数据集CowCorpus
  • 识别用户与Agent交互的四种模式
2026-02-19
5/10
心电图 表征学习 基准测试

Position: Evaluation of ECG Representations Must Be Fixed

Zachary Berger, Daniel Prakah-Asante, John Guttag et al.

该论文指出心电图表征学习的基准测试需要改进,并提出了新的评估方法。

  • 批评现有心电图表征学习的基准测试方法
  • 提出更全面的评估指标,包括结构性心脏病和患者预测
2026-02-19
7/10
多智能体学习 延迟反馈 线性收敛

Linear Convergence in Games with Delayed Feedback via Extra Prediction

Yuma Fujimoto, Kenshi Abe, Kaito Ariu

该论文提出通过引入额外乐观的WOGDA算法来加速延迟反馈博弈中的线性收敛。

  • 分析了延迟反馈下WOGDA算法的线性收敛速率
  • 提出了额外乐观的WOGDA算法以加速收敛
2026-02-19
8/10
MDP Bayesian Inference Policy Inference

MDP Planning as Policy Inference

David Tolpin

将MDP规划视为策略上的贝叶斯推断,通过VSMC近似后验分布,实现策略层面的不确定性建模。

  • 将MDP规划问题转化为策略推断问题
  • 使用变分序列蒙特卡洛(VSMC)进行策略后验分布的近似
2026-02-19
7/10
Multi-Armed Bandits Random Graphs Reinforcement Learning

Flickering Multi-Armed Bandits

Sourav Chakraborty, Amit Kiran Rege, Claire Monteleoni et al.

提出了一种新的多臂老虎机框架,臂的可用性随时间变化,并分析了其探索代价。

  • 提出了Flickering Multi-Armed Bandits (FMAB) 框架
  • 分析了在Erdős--Rényi和Edge-Markovian两种图模型下的问题
2026-02-19
7/10
强化学习 图论 极值图论

RLGT: A reinforcement learning framework for extremal graph theory

Ivan Damnjanović, Uroš Milivojević, Irena Đorđević et al.

RLGT是一个图论强化学习框架,旨在系统化现有工作,支持多种图结构,提升计算性能。

  • 系统化图论强化学习工作
  • 支持多种图结构(有向/无向,带环/无环,多颜色)
2026-02-19
7/10
语义通信 联邦学习 潜在空间对齐

Federated Latent Space Alignment for Multi-user Semantic Communications

Giuseppe Di Poce, Mario Edoardo Pandolfo, Emilio Calvanese Strinati et al.

提出一种联邦学习的语义通信方法,通过对齐潜在空间提高多用户语义通信的准确性。

  • 提出了一种基于联邦学习的语义预均衡器和均衡器方案
  • 解决了多用户语义通信中潜在空间不对齐问题
2026-02-19
9/10
Web Agents Semantic Web LLMs

Web Verbs: Typed Abstractions for Reliable Task Composition on the Agentic Web

Linxi Jiang, Rui Xi, Zhijie Liu et al.

提出Web Verbs,一种为智能体设计的、类型化的Web行为抽象,旨在提升Web智能体的可靠性、效率和可验证性。

  • 提出了Web Verbs的概念,一种用于Web行为的类型化抽象。
  • 展示了Web Verbs如何提高Web智能体的可靠性、效率和可验证性。
2026-02-19
8/10
因果模型 持续学习 元学习

Continual learning and refinement of causal models through dynamic predicate invention

Enrique Crespo-Fernandez, Oliver Ray, Telmo de Menezes e Silva Filho et al.

提出一种通过动态谓词发明,在线学习和优化因果模型的框架,提升智能体在复杂环境下的性能。

  • 提出基于元解释学习和谓词发明的在线因果世界建模框架
  • 实现高效的样本利用率,优于PPO
2026-02-19
7/10
量子理论 隐变量 博弈论

Extending quantum theory with AI-assisted deterministic game theory

Florian Pauschitz, Ben Moseley, Ghislain Fourny

提出一种AI辅助的框架,用于预测复杂量子实验,探索扩展量子理论的局部隐变量模型。

  • 提出AI辅助的量子实验预测框架
  • 用博弈论和神经网络学习隐变量
2026-02-19
9/10
对话机器人 人格化 用户感知

The Bots of Persuasion: Examining How Conversational Agents' Linguistic Expressions of Personality Affect User Perceptions and Decisions

Uğur Genç, Heng Gu, Chadha Degachi et al.

研究了语言模型驱动的对话机器人人格化表达对用户感知和决策的影响,发现悲观人格影响显著。

  • 分析了对话机器人人格化表达的三个维度(态度、权威性、推理方式)对用户行为的影响。
  • 揭示了人格化的对话机器人如何微妙地影响用户的感知和情绪状态。
2026-02-19
9/10
AI Agents Policy Enforcement Security

Policy Compiler for Secure Agentic Systems

Nils Palumbo, Sarthak Choudhary, Jihye Choi et al.

PCAS是一个策略编译器,用于确保基于LLM的Agent系统满足复杂的安全策略,提升策略合规性。

  • 提出了PCAS策略编译器,实现确定性的策略执行
  • 使用依赖图建模Agent系统状态,追踪跨Agent的信息流
2026-02-18
9/10
LLM Agents Cost-Awareness Exploration

Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents

Wenxuan Ding, Nicholas Tomlin, Greg Durrett

提出Calibrate-Then-Act框架,使LLM Agent在环境探索中显式考虑成本-不确定性权衡,提升决策优化。

  • 提出Calibrate-Then-Act (CTA) 框架
  • 形式化信息检索和编码任务为不确定性下的序列决策问题
2026-02-18
9/10
AI Agent Reliability Evaluation

Towards a Science of AI Agent Reliability

Stephan Rabanser, Sayash Kapoor, Peter Kirgis et al.

论文提出12个指标,从一致性、鲁棒性、可预测性、安全性四个维度评估AI Agent的可靠性。

  • 提出了12个用于评估AI Agent可靠性的新指标
  • 从四个维度分解Agent的可靠性:一致性、鲁棒性、可预测性和安全性
2026-02-18
8/10
多智能体强化学习 网络安全 分层策略学习

A Scalable Approach to Solving Simulation-Based Network Security Games

Michael Lanier, Yevgeniy Vorobeychik

MetaDOAR通过分层学习和缓存优化,提升了大规模网络安全博弈中的多智能体强化学习性能。

  • 提出了MetaDOAR框架,结合双重预言机/PSRO范式。
  • 引入了基于学习的、分区感知的过滤层,减少搜索空间。
2026-02-18
8/10
Autoformalization Quantum Computation Lean

MerLean: An Agentic Framework for Autoformalization in Quantum Computation

Yuanjie Ren, Jinzheng Li, Yidi Qi

MerLean是一个用于量子计算自动形式化的Agentic框架,可将论文转化为Lean代码。

  • 提出MerLean框架,实现量子计算论文的自动形式化
  • 将数学公式转换为可验证的Lean代码并翻译回LaTeX
2026-02-18
6/10
FPGA 图神经网络 音频处理

Hardware-accelerated graph neural networks: an alternative approach for neuromorphic event-based audio classification and keyword spotting on SoC FPGA

Kamil Jeziorek, Piotr Wzorek, Krzysztof Blachut et al.

论文提出一种基于FPGA的硬件加速事件图神经网络,用于低延迟、低功耗的事件驱动音频处理。

  • 提出基于FPGA的事件图神经网络架构。
  • 实现高效的事件驱动音频分类和关键词检测。
2026-02-18
9/10
multi-agent systems communication protocols verifiable semantics

Verifiable Semantics for Agent-to-Agent Communication

Philipp Schoenegger, Matt Carlson, Chris Schneider et al.

提出了一种可验证的多智能体通信框架,降低语义分歧,提升一致性。

  • 提出基于刺激-意义模型(stimulus-meaning model)的认证协议。
  • 核心保护推理(core-guarded reasoning)可证明地限制分歧。
2026-02-18
6/10
推荐系统 语义ID 变分自编码器

Variable-Length Semantic IDs for Recommender Systems

Kirill Khrylchenko

提出一种变长语义ID的推荐系统模型,解决固定长度语义ID的效率和信息不对称问题。

  • 提出变长语义ID用于推荐系统
  • 使用离散变分自编码器学习项目表征
2026-02-18
8/10
3D Scene Graph Mobile Manipulation Articulated Objects

Articulated 3D Scene Graphs for Open-World Mobile Manipulation

Martin Büchner, Adrian Röfer, Tim Engelbracht et al.

提出MoMa-SG框架,构建可交互场景的语义-运动学3D场景图,用于移动操作任务。

  • 提出MoMa-SG框架
  • 提出统一twist估计公式
2026-02-18
9/10
LLM Agents Red Teaming Multilingual

Helpful to a Fault: Measuring Illicit Assistance in Multi-Turn, Multilingual LLM Agents

Nivya Talokar, Ayush K Tarun, Murari Mandal et al.

STING框架用于评估多轮多语言LLM Agent的非法辅助能力,发现现有方法不足,并提出改进。

  • 提出了STING框架,用于自动化评估多轮LLM Agent的非法辅助能力。
  • 引入了分析框架,将多轮红队测试建模为时间-越狱事件,并提出了RMD指标。
2026-02-18
9/10
多智能体强化学习 上下文学习 序列模型

Multi-agent cooperation through in-context co-player inference

Marissa A. Weis, Maciej Wołczyk, Rajai Nasser et al.

论文提出利用序列模型的上下文学习能力,通过多智能体合作训练,实现无需硬编码的智能体间合作。

  • 提出利用序列模型进行上下文学习以实现智能体合作
  • 证明了在上下文学习中,智能体易受勒索的特性促进了合作
2026-02-18
7/10
人机交互 机器人 社交机器人

Robot-Assisted Social Dining as a White Glove Service

Atharva S Kashyap, Ugne Aleksandra Morkute, Patricia Alves-Oliveira

研究了机器人辅助残疾人在餐厅社交用餐,提出了“白手套服务”原则。

  • 提出了机器人辅助社交用餐的“白手套服务”原则
  • 探索了在真实社交用餐场景下机器人设计的挑战与机遇
2026-02-17
9/10
LLM Agent Reinforcement Learning

GLM-5: from Vibe Coding to Agentic Engineering

GLM-5 Team, :, Aohan Zeng et al.

GLM-5通过DSA降低成本,异步强化学习提升效率,实现从Vibe Coding到Agentic Engineering的转变。

  • 采用DSA降低训练和推理成本,同时保持长上下文保真度
  • 引入异步强化学习基础设施,提升训练效率
2026-02-17
9/10
多智能体 路径规划 车队管理

Lifelong Scalable Multi-Agent Realistic Testbed and A Comprehensive Study on Design Choices in Lifelong AGV Fleet Management Systems

Jingtian Yan, Yulun Zhang, Zhenting Liu et al.

提出了LSMART仿真平台,并对AGV车队管理系统中的关键设计选择进行了全面研究。

  • 提出了LSMART开源仿真平台,用于评估LMAPF算法。
  • 针对FMS设计中的并行规划、规划器选择和故障恢复等问题进行了深入研究。
2026-02-17
7/10
冷启动推荐 个性化推荐 贝叶斯推断

Cold-Start Personalization via Training-Free Priors from Structured World Models

Avinandan Bose, Shuyue Stella Li, Faeze Brahman et al.

提出Pep框架,通过离线学习结构化世界模型,在线贝叶斯推断实现高效的冷启动个性化推荐。

  • 提出Pep框架,将冷启动推荐分解为离线结构学习和在线贝叶斯推断。
  • 利用结构化世界模型,高效学习用户偏好之间的关联性。
2026-02-16
7/10
Quantum Gaussian Process Distributed Optimization Multi-Agent System

Distributed Quantum Gaussian Processes for Multi-Agent Systems

Meet Gandhi, George P. Kontoudis

提出一种用于多智能体系统的分布式量子高斯过程方法,提升建模能力和可扩展性。

  • 提出Distributed Quantum Gaussian Process (DQGP)方法
  • 开发Distributed consensus Riemannian ADMM (DR-ADMM)算法
2026-02-16
9/10
Web Agent UI Automation Web Development

EmbeWebAgent: Embedding Web Agents into Any Customized UI

Chenyang Ma, Clyde Fare, Matthew Wilson et al.

EmbeWebAgent通过轻量级前端钩子和后端工作流,将智能体嵌入到Web UI中。

  • 提出EmbeWebAgent框架,用于将智能体嵌入现有UI
  • 使用轻量级前端钩子(ARIA, URL, function registry)
2026-02-16
9/10
StarCraft II World Model 强化学习

World Models for Policy Refinement in StarCraft II

Yixin Zhang, Ziyi Wang, Yiming Rong et al.

提出StarWM,一种用于星际争霸II的world model,用于策略改进。

  • 提出StarWM世界模型
  • 构建SC2-Dynamics-50k数据集
2026-02-16
9/10
AI Agents 事务性语义 工具调用

Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows

Bardia Mohammadi, Nearchos Potamitis, Lars Klein et al.

Atomix为LLM Agent工具调用提供事务性语义,提升可靠性和安全性。

  • 提出Atomix运行时,支持agent工具调用的事务性语义
  • 引入epoch标记、资源边界追踪和进度谓词机制
2026-02-16
10/10
LLM Agents Tool Use Security

Overthinking Loops in Agents: A Structural Risk via MCP Tools

Yohan Lee, Jisoo Jang, Seoyeon Choi et al.

恶意MCP工具可诱导LLM Agent产生过度思考循环,造成资源浪费和任务性能下降。

  • 揭示了tool-using LLM agents中的供应链攻击风险。
  • 提出了结构性过度思考攻击的概念。
2026-02-16
9/10
目标识别 规划器偏差 多方案生成

Removing Planner Bias in Goal Recognition Through Multi-Plan Dataset Generation

Mustafa F. Abdelwahed, Felipe Meneguzzi Kin Max Piamolini Gusmao, Joan Espasa

提出一种多方案生成方法,缓解目标识别数据集中规划器偏差问题,并引入新指标评估识别器的鲁棒性。

  • 提出了一种新的多方案生成方法,用于创建更具挑战性的目标识别数据集。
  • 引入了Version Coverage Score (VCS)指标,用于评估目标识别器在不同方案下的鲁棒性。
2026-02-16
6/10
图神经网络 深度强化学习 应急疏散

GREAT-EER: Graph Edge Attention Network for Emergency Evacuation Responses

Attila Lischka, Balázs Kulcsár

提出基于图注意力网络的深度强化学习方法解决公交车疏散路径优化问题,并验证其有效性。

  • 提出了Bus Evacuation Orienteering Problem (BEOP)
  • 提出了基于图学习的深度强化学习方法解决BEOP
2026-02-16
9/10
LLM 决策树 对话系统

Arbor: A Framework for Reliable Navigation of Critical Conversation Flows

Luís Silva, Diogo Gonçalves, Catarina Farinha et al.

Arbor框架通过分解决策树导航任务,显著提升了LLM在复杂对话流程中的可靠性和效率。

  • 提出Arbor框架,将决策树导航分解为节点级任务。
  • 使用DAG进行流程编排,动态检索边缘信息,降低单次推理成本。
2026-02-16
9/10
AI Agents Governance Safety

Towards Selection as Power: Bounding Decision Authority in Autonomous Agents

Jose Manuel de la Chica Rodriguez, Juan Manuel Vera Díaz

提出一种新的自治代理治理架构,通过限制选择权力来提高安全性。

  • 提出了一种新的治理架构,将认知、选择和行动分离。
  • 引入了外部候选生成(CEFL)、受控Reducer等机制来限制选择权力。
2026-02-16
9/10
多智能体强化学习 流体智能体 博弈论

Fluid-Agent Reinforcement Learning

Shishir Sharma, Doina Precup, Theodore J. Perkins

提出了一种允许智能体创建其他智能体的流体智能体强化学习框架。

  • 提出了流体智能体环境
  • 提出了流体智能体博弈的博弈论解概念
2026-02-16
9/10
WebAgent Test-time Scaling Uncertainty Estimation

Agentic Test-Time Scaling for WebAgents

Nicholas Lee, Lutfi Eren Erdogan, Chris Joseph John et al.

针对WebAgent,提出一种基于置信度的动态计算分配方法CATTS,提升效率和性能。

  • 发现均匀增加计算量在长程任务中收益递减
  • 提出基于Agent投票分布的不确定性统计指标
2026-02-12
9/10
LLM Agent Symbolic Regression

Think like a Scientist: Physics-guided LLM Agent for Equation Discovery

Jianke Yang, Ohm Venkatachalam, Mohammad Kianezhad et al.

KeplerAgent利用物理知识引导LLM进行符号公式发现,提升了公式发现的准确性和鲁棒性。

  • 提出KeplerAgent框架,模拟科学家发现公式的推理过程
  • 结合物理知识和LLM进行公式发现
2026-02-12
5/10
图神经网络 隐私保护 社区检测

Community Concealment from Unsupervised Graph Learning-Based Clustering

Dalyapraz Manatova, Pablo Moriano, L. Jean Camp

研究GNN在图聚类中暴露群体隐私的风险,提出了一种基于扰动的社区隐藏策略。

  • 分析了影响社区隐藏的关键因素:边界连接性和特征相似性
  • 提出了一种通过重连边和修改节点特征来隐藏社区的扰动策略
2026-02-12
7/10
Bandit Learning Matching Market Game Theory

Bandit Learning in Matching Markets with Interviews

Amirmahdi Mirfakhar, Xuchuang Wang, Mengfan Xu et al.

研究了带面试的双边匹配市场中的bandit学习,提出了战略延迟和新算法。

  • 提出了带面试的双边匹配市场bandit学习框架
  • 允许公司方的不确定性,引入战略延迟动作
2026-02-12
7/10
马尔可夫博弈 纳什均衡 多智能体学习

Convex Markov Games and Beyond: New Proof of Existence, Characterization and Learning Algorithms for Nash Equilibria

Anas Barakat, Ioannis Panageas, Antonios Varvitsiotis

论文扩展了凸马尔可夫博弈,提出了广义效用马尔可夫博弈,并提供了纳什均衡的存在性证明和学习算法。

  • 证明了广义效用马尔可夫博弈中纳什均衡与不动点的关系
  • 提出了基于策略梯度的学习算法
2026-02-12
9/10
AI Coding Agents Open-source Software Mobile Development

On the Adoption of AI Coding Agents in Open-source Android and iOS Development

Muhammad Ahmad Khan, Hasnain Ali, Muneeb Rana et al.

分析了AI编码智能体在开源Android和iOS移动应用开发中的应用和影响。

  • 首次对开源移动应用项目中AI生成代码进行类别级实证研究
  • 分析了不同移动平台、智能体和任务类别中的PR接受行为
2026-02-12
9/10
StateLM Memory Management Long-Context

The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context

Xiaoyuan Liu, Tian Liang, Dongyang Ma et al.

StateLM模型通过内部推理循环管理自身状态,突破固定窗口限制,提升长文本处理能力。

  • 提出了StateLM,一种具备内部推理循环的状态感知语言模型
  • 设计了一套记忆工具,包括上下文剪枝、文档索引和笔记
2026-02-12
7/10
LLM Safety Evaluation Diagnosis

DeepSight: An All-in-One LM Safety Toolkit

Bo Zhang, Jiaxuan Guo, Lijun Li et al.

DeepSight是一个集评估、诊断于一体的大模型安全开源工具,旨在提升安全性分析的全面性和效率。

  • 提出了安全评估与诊断集成的新范式
  • 构建了低成本、可复现、高效的大模型安全评估项目
2026-02-12
9/10
AI Agent Multi-Party Negotiation Behavioral Experiment

Choose Your Agent: Tradeoffs in Adopting AI Advisors, Coaches, and Delegates in Multi-Party Negotiation

Kehang Zhu, Lithium Thain, Vivian Tsai et al.

研究了AI代理在多人谈判中的不同辅助方式(顾问、教练、代理),揭示了用户偏好与实际收益之间的差距。

  • 比较了Advisor, Coach, Delegate三种AI辅助模式在谈判中的表现
  • 发现Delegate模式能带来更高的个人收益和积极的外部性
2026-02-12
9/10
Legal Reasoning AI Agent Knowledge Verification

LawThinker: A Deep Research Legal Agent in Dynamic Environments

Xinyu Yang, Chenlong Deng, Tongyu Wen et al.

LawThinker通过Explore-Verify-Memorize策略,提升法律推理过程的准确性和合规性,在动态环境中表现优异。

  • 提出Explore-Verify-Memorize策略
  • 设计DeepVerifier模块验证推理步骤
2026-02-12
8/10
无人机 路径规划 多智能体

Multi UAVs Preflight Planning in a Shared and Dynamic Airspace

Amath Sow, Mauricio Rodriguez Cesen, Fabiola Martins Campos de Oliveira et al.

针对动态共享空域中大规模无人机群的预飞行规划,提出了一种可扩展的冲突消解方法。

  • 提出DTAPP-IICR方法,解决大规模无人机群的预飞行规划问题
  • 设计SFIPP-ST单智能体规划器,处理异构无人机和时序禁飞区
2026-02-12
9/10
AI Agents Code Generation Contextual Information

Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?

Thibaud Gloaguen, Niels Mündler, Mark Müller et al.

研究表明,仓库级上下文文件(如AGENTS.md)反而降低了编码agent的任务成功率并增加推理成本。

  • 首次系统性评估了仓库级上下文文件对编码agent性能的影响
  • 发现LLM生成和开发者提供的上下文文件均降低了任务成功率
2026-02-12
9/10
强化学习 机器人 智能体

Accelerating Robotic Reinforcement Learning with Agent Guidance

Haojun Chen, Zili Zou, Chengdong Ma et al.

AGPS通过多模态智能体指导强化学习,提升机器人训练效率,降低对人工干预的依赖。

  • 提出Agent-guided Policy Search (AGPS)框架
  • 使用多模态智能体代替人工进行机器人学习指导
2026-02-12
10/10
LLM Agent Benchmark Dynamic Environment

Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Romain Froger, Pierre Andrews, Matteo Bettini et al.

Gaia2是一个用于评估LLM Agent在动态异步环境中表现的基准测试。

  • 提出了Gaia2,一个评估LLM Agent在动态异步环境中表现的基准。
  • Gaia2包含时间约束、噪声、动态事件和多Agent协作等真实场景。
2026-02-12
9/10
AI Agents Task Delegation Human-AI Collaboration

Intelligent AI Delegation

Nenad Tomašev, Matija Franklin, Simon Osindero

提出了一种智能AI委托框架,用于复杂任务分解、分配和授权,以适应环境变化并处理失败。

  • 提出了一种自适应的AI委托框架
  • 强调了任务分配中的授权、责任和信任机制
2026-02-12
8/10
可持续投资 多智能体系统 对手塑造

Towards Sustainable Investment Policies Informed by Opponent Shaping

Juan Agustin Duque, Razvan Ciuca, Ayoub Echchahed et al.

论文利用对手塑造算法,改善投资行为,促进可持续投资政策的制定。

  • 形式化了InvestESG中的社会困境
  • 应用Advantage Alignment算法影响agent学习
2026-02-12
8/10
LLM 3D Scene Generation Agricultural Simulation

LLM-Driven 3D Scene Generation of Agricultural Simulation Environments

Arafa Yoncalik, Wouter Jansen, Nico Huebel et al.

利用多LLM流水线从自然语言提示生成农业模拟环境的3D场景,提高效率和精度。

  • 提出了一种模块化的多LLM流水线用于生成农业3D模拟环境。
  • 结合了3D资产检索、领域知识注入和代码生成技术。
2026-02-12
7/10
机器人 移动操作 开源

YOR: Your Own Mobile Manipulator for Generalizable Robotics

Manan H Anjaria, Mehmet Enes Erciyes, Vedant Ghatnekar et al.

YOR是一款低成本、开源的移动操作机器人,具备全身移动和双臂操作能力,为机器人研究提供性价比高的平台。

  • 设计并实现了一个低成本、开源的移动操作机器人平台YOR
  • YOR具有全身移动、双臂操作和自主导航能力
2026-02-11
9/10
LLM Agent Formal Verification Neuro-Symbolic

FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight

Jiayi Zhou, Yang Sheng, Hantao Lou et al.

提出FormalJudge框架,结合神经符号方法,实现LLM Agent行为安全和约束满足的验证与提升。

  • 提出了基于神经符号范式的FormalJudge框架,用于LLM Agent的监督。
  • 利用双向Formal-of-Thought架构,将自然语言需求转化为可验证的Formal specifications。
2026-02-11
9/10
Agent Workflow Generation Cross-domain

Learning to Compose for Cross-domain Agentic Workflow Generation

Jialiang Wang, Shengxiang Xu, Hanmo Liu et al.

提出一种单次生成跨领域Agent工作流的方法,显著降低生成延迟和成本,超越迭代优化方法。

  • 提出一种分解-重组-决策机制用于跨领域工作流生成。
  • 学习一组可复用的工作流能力,实现高效的任务映射。
2026-02-11
8/10
图分析 LLM 语义目录

GraphSeek: Next-Generation Graph Analytics with LLMs

Maciej Besta, Łukasz Jarmocik, Orest Hrycyna et al.

GraphSeek利用LLM和语义目录,实现了高效、可访问的大规模图分析。

  • 提出基于语义目录的图分析新抽象
  • 开发了LLM增强的图分析框架GraphSeek
2026-02-11
9/10
AI Agents Command Line Interface Task Generation

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Yusong Lin, Haiyang Wang, Shuzhe Wu et al.

提出CLI-Gym方法,通过模拟环境历史生成大规模CLI任务,并提升Agent在终端环境的表现。

  • 提出CLI-Gym方法,可扩展地生成环境密集型任务
  • 构建了包含1655个任务的数据集,是目前最大的同类数据集
2026-02-11
8/10
多智能体通信 涌现通信 数字表示

The emergence of numerical representations in communicating artificial agents

Daniela Mihai, Lucas Weber, Francesca Franzon

研究了神经网络智能体在交流中涌现数字表示的能力,发现通信压力不足以产生组合性的数字编码。

  • 研究了智能体在通信压力下涌现数字表示的能力
  • 对比了离散和连续两种通信方式
2026-02-11
10/10
agent benchmarking software engineering

FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

Qixing Zhou, Jiacheng Zhang, Haiyang Wang et al.

FeatureBench是一个评估Agent在端到端软件开发中编码能力的基准测试。

  • 提出了FeatureBench基准,用于评估Agent在复杂feature开发中的编码能力。
  • 采用基于执行的评估协议和可扩展的测试驱动方法,自动生成测试任务。
2026-02-11
8/10
多模态学习 GUI Agent 编程教育

See, Plan, Snap: Evaluating Multimodal GUI Agents in Scratch

Xingyi Zhang, Yulei Ye, Kaifeng Huang et al.

提出了 ScratchWorld 基准测试,评估多模态 GUI 智能体在 Scratch 编程环境中的能力。

  • 提出了 ScratchWorld 基准测试
  • 设计了两种交互模式(primitive mode和composite mode)
2026-02-11
9/10
LLM Cognitive Memory Evaluation Framework

Locomo-Plus: Beyond-Factual Cognitive Memory Evaluation Framework for LLM Agents

Yifei Li, Weidong Guo, Lingling Zhang et al.

LoCoMo-Plus提出一个评估LLM智能体认知记忆的新基准,关注长程对话中隐性约束的应用。

  • 提出了LoCoMo-Plus基准,用于评估LLM在语义不连贯的提示下的认知记忆能力。
  • 指出传统评价指标和显式任务提示不适用于评估认知记忆。
2026-02-11
8/10
多智能体系统 合作指标 异构智能体

Beyond Task Performance: A Metric-Based Analysis of Sequential Cooperation in Heterogeneous Multi-Agent Destructive Foraging

Alejandro Mendoza Barrionuevo, Samuel Yanes Luis, Daniel Gutiérrez Reina et al.

论文提出一套多智能体合作指标,用于分析异构智能体在破坏性觅食环境中的合作行为。

  • 提出一套通用的多智能体合作指标
  • 指标涵盖效率、协调性、依赖性、公平性和敏感性
2026-02-11
10/10
AI Agents Reinforcement Learning Synthetic Environments

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Zhaoyang Wang, Canwen Xu, Boyi Liu et al.

提出了Agent World Model,一个全合成环境生成pipeline,用于大规模训练工具使用Agent。

  • 构建了大规模的、code-driven的合成环境,覆盖日常场景。
  • 设计了可靠的奖励函数,并进行了大规模强化学习实验。
2026-02-10
9/10
强化学习 技能发现 基础模型

CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs

Richard Bornemann, Pierluigi Vito Amadori, Antoine Cully

CODE-SHARP提出利用基础模型自动发现和进化技能的框架,用于解决复杂任务。

  • 提出了CODE-SHARP框架,用于持续开放地发现和进化技能。
  • 利用基础模型扩展和细化分层技能档案,该档案被组织为代码中的可执行奖励函数的有向图。
2026-02-10
9/10
多模态学习 智能体 科学分析

Anagent For Enhancing Scientific Table & Figure Analysis

Xuehang Guo, Zhiyong Lu, Tom Hope et al.

Anagent通过多智能体框架提升科学表格和图表分析能力,显著提高了解释准确性。

  • 提出了AnaBench,一个大规模科学表格和图表分析的基准数据集。
  • 构建了Anagent,一个多智能体框架,包含Planner、Expert、Solver和Critic四个模块。
2026-02-10
7/10
自动驾驶 异常检测 时间序列

Online Monitoring Framework for Automotive Time Series Data using JEPA Embeddings

Alexander Fertig, Karthikeyan Chandra Sekaran, Lakshman Balasubramanian et al.

提出一种基于JEPA嵌入的在线监控框架,用于检测自动驾驶汽车中的未知异常。

  • 提出基于JEPA的自监督嵌入方法,无需异常标签进行训练
  • 构建了基于JEPA嵌入的汽车时间序列异常检测框架
2026-02-10
9/10
LLM AI Agent Root Cause Analysis

Why Do AI Agents Systematically Fail at Cloud Root Cause Analysis?

Taeyoon Kim, Woohyeok Park, Hoyeong Yun et al.

该论文分析了LLM Agent在云RCA中的失败原因,并提出了改进Agent架构的方法。

  • 提出了LLM Agent在云RCA中失败的12种类型
  • 通过实验证明,通用模型能力不是RCA失败的主要原因
2026-02-10
8/10
LLM 科学计量学 Agent

AnalyticsGPT: An LLM Workflow for Scientometric Question Answering

Khang Ly, Georgios Cheirmpos, Adrian Raudaschl et al.

AnalyticsGPT探索了LLM在科学计量问答中的应用,提出了一种检索增强生成和Agent的工作流。

  • 提出了一种基于LLM的科学计量问答工作流AnalyticsGPT
  • 利用检索增强生成和Agent概念实现端到端系统
2026-02-10
7/10
自然语言生成 对抗攻击 鲁棒性

Towards Poisoning Robustness Certification for Natural Language Generation

Mihnea Ghitu, Matthew Wicker

提出一种针对自然语言生成任务的认证对抗样本防御框架,保障语言模型在安全敏感领域的可靠性。

  • 形式化定义了自然语言生成的稳定性和有效性安全属性
  • 提出了Targeted Partition Aggregation (TPA) 算法,用于认证靶向攻击
2026-02-10
9/10
watermarking intellectual property agentic systems

On Protecting Agentic Systems' Intellectual Property via Watermarking

Liwen Wang, Zongjie Li, Yuchong Xie et al.

提出AGENTWM框架,通过在Agent动作序列中嵌入水印,保护Agentic系统知识产权。

  • 设计了首个针对Agentic模型的水印框架AGENTWM
  • 利用动作序列的语义等价性,通过微调工具执行路径注入水印
2026-02-09
8/10
多智能体 合作博弈 公平性

Altruism and Fair Objective in Mixed-Motive Markov games

Yao-hua Franck Xu, Tayeb Lemlouma, Arnaud Braud et al.

提出一种基于比例公平的新框架,旨在马尔可夫博弈中促进更公平的合作。

  • 提出了基于比例公平的智能体公平利他效用
  • 推导了经典社会困境中确保合作的分析条件
2026-02-09
7/10
机器人 人机交互 强化学习

InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

Sirui Xu, Samuel Schulter, Morteza Ziyadi et al.

InterPrior提出了一种可扩展的生成控制器,用于学习基于物理的人机交互,通过模仿学习和强化学习相结合。

  • 提出了InterPrior框架,用于学习人机交互的生成控制器
  • 通过大规模模仿学习和强化学习相结合,提升了控制器的泛化能力
2026-02-05
9/10
Agent-Based Modeling Large Language Models Neuro-Symbolic AI

PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling

Kavana Venkatesh, Yinhan He, Jundong Li et al.

PhysicsAgentABM通过神经符号融合实现可扩展和校准的生成式Agent建模。

  • 提出PhysicsAgentABM框架,融合物理机制和LLM
  • 引入ANCHOR聚类策略,降低LLM调用次数
2026-02-05
6/10
Virtual Reality Discrete-Event Simulation School Security

Learning Event-Based Shooter Models from Virtual Reality Experiments

Christopher A. McClurg, Alan R. Wagner

提出一种基于VR实验数据学习射击者行为的离散事件模拟器,用于评估校园安防干预策略。

  • 开发了一种基于VR实验数据的射击者行为离散事件模拟器(DES)
  • 利用模拟器评估了基于机器人的射击者干预策略的效果
2026-02-05
7/10
强化学习 计算资源 泛化

On Computation and Reinforcement Learning

Raj Ghugare, Michał Bortkiewicz, Alicja Ziarko et al.

研究计算资源对强化学习策略的影响,提出计算量可变的最小架构并验证其有效性。

  • 形式化了计算量受限的策略
  • 证明更多计算资源可解决更复杂的任务并泛化到更长周期任务
2026-02-05
9/10
agent memory parallel computing

Learning to Share: Selective Memory for Efficient Parallel Agentic Systems

Joseph Fioresi, Parth Parag Kulkarni, Ashmal Vayani et al.

提出了Learning to Share (LTS),一种用于并行Agentic系统的学习型共享内存机制,提升效率。

  • 提出了LTS:一个学习型共享内存机制。
  • 设计了轻量级的内存控制器,决定信息是否加入内存。
2026-02-05
9/10
代码Agent 上下文检索 基准测试

ContextBench: A Benchmark for Context Retrieval in Coding Agents

Han Li, Letian Zhu, Bohan Zhang et al.

ContextBench基准测试用于评估代码Agent在问题解决中检索代码上下文的能力。

  • 提出了ContextBench基准测试,包含1136个问题解决任务。
  • 实现了自动评估框架,跟踪Agent轨迹并测量上下文召回率、精确度和效率。
2026-02-05
6/10
博弈论 联盟形成 稳定性

Metric Hedonic Games on the Line

Merlin de la Haye, Pascal Lenzner, Farehe Soheil et al.

研究基于距离的联盟形成博弈,分析稳定性和效率。

  • 提出新的基于距离的联盟形成博弈模型
  • 分析不同距离度量下的稳定联盟结构的存在性
2026-02-05
6/10
优化 座位分配 组织管理

Beyond Manual Planning: Seating Allocation for Large Organizations

Anton Ipsen, Michael Cashmore, Kirsty Fielding et al.

提出层级座位分配问题(HSAP),并提出一个端到端框架进行求解,优化大型组织座位分配。

  • 定义了层级座位分配问题(HSAP)
  • 提出了一个端到端的HSAP求解框架
2026-02-05
5/10
合成数据 隐私保护 生成对抗网络

Synthesizing Realistic Test Data without Breaking Privacy

Laura Plein, Alexi Turcotte, Arina Hallemans et al.

提出了一种基于fuzzer和判别器的隐私保护合成数据生成方法,提高数据效用性和隐私性。

  • 提出基于fuzzer和判别器生成合成数据
  • 在生成过程中间接利用原始数据,保护隐私
2026-02-05
9/10
Temporal Knowledge Graph Reinforcement Learning Agent

TKG-Thinker: Towards Dynamic Reasoning over Temporal Knowledge Graphs via Agentic Reinforcement Learning

Zihao Jiang, Miao Peng, Zhenyan Shan et al.

TKG-Thinker通过Agentic强化学习进行时序知识图谱动态推理,提升复杂时序约束下的推理能力。

  • 提出了TKG-Thinker,一个用于时序知识图谱推理的智能体。
  • 使用双重训练策略(SFT+RL)提高智能体的规划和推理能力。
2026-02-05
8/10
domain-specific language model finance Indian language

FiMI: A Domain-Specific Language Model for Indian Finance Ecosystem

Aboli Kathar, Aman Kumar, Anusha Kamath et al.

FiMI是为印度金融领域定制的领域专用语言模型,显著提升了金融推理和工具调用能力。

  • 构建印度金融领域专用语言模型FiMI
  • 在金融推理和工具调用任务上超越Mistral Small
2026-02-05
9/10
Prompt Injection 强化学习 LLM安全

Learning to Inject: Automated Prompt Injection via Reinforcement Learning

Xin Chen, Jie Zhang, Florian Tramer

提出AutoInject框架,利用强化学习自动生成Prompt Injection攻击,提升LLM安全性评估。

  • 提出基于强化学习的自动化Prompt Injection方法AutoInject
  • 能够在黑盒条件下攻击多种LLM,包括GPT和Claude
2026-02-05
7/10
POMDP 强化学习 视觉感知

Perception-Based Beliefs for POMDPs with Visual Observations

Miriam Schäfers, Merlijn Krale, Thiago D. Simão et al.

PBP框架通过图像分类器将视觉信息融入POMDP信念更新,提升高维观测下决策效率。

  • 提出感知信念的POMDP框架(PBP)
  • 利用图像分类器概率分布更新信念
2026-02-05
8/10
机器人 本体 形式化方法

Ontology-Driven Robotic Specification Synthesis

Maksym Figat, Ryan M. Mackey, Michel D. Ingham

基于本体的机器人系统规范综合方法,用于安全关键应用,支持多机器人系统。

  • 提出RSTM2方法,连接高层目标和形式化规范
  • 利用随机时间Petri网进行多层级蒙特卡洛仿真
2026-02-05
9/10
GUI Agent Data Mining MCTS

M$^2$-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining

Rui Lv, Juncheng Mo, Tianyi Chu et al.

提出了基于多智能体增强蒙特卡洛树搜索的移动GUI代理数据挖掘框架M$^2$-Miner。

  • 提出了低成本自动化的GUI代理数据挖掘框架M$^2$-Miner
  • 设计了协同多智能体框架,提升数据挖掘效率和质量
2026-02-05
8/10
Reinforcement Learning Large Language Models Policy Optimization

Rethinking the Trust Region in LLM Reinforcement Learning

Penghui Qi, Xiangxin Zhou, Zichen Liu et al.

论文提出DPPO算法,通过直接估计策略差异来改进LLM强化学习中的PPO算法,提升训练稳定性和效率。

  • 提出 Divergence Proximal Policy Optimization (DPPO)算法
  • 使用策略差异的直接估计替代启发式裁剪
2026-02-04
9/10
量子化学 AI智能体 自动化

El Agente Quntur: A research collaborator agent for quantum chemistry

Juan B. Pérez-Sánchez, Yunheng Zou, Jorge A. Campos-Gonzalez-Angulo et al.

El Agente Quntur是一个用于量子化学的智能体,旨在成为研究合作者并扩展其应用。

  • 设计并实现了名为Quntur的AI智能体系统
  • 提出了reasoning-driven决策、通用可组合行为和引导式深度研究的设计策略
2026-02-04
9/10
AI Agent 分子建模 自然语言处理

El Agente Estructural: An Artificially Intelligent Molecular Editor

Changhyeok Choi, Yunheng Zou, Marcel Müller et al.

Estructural是一个基于自然语言驱动的多模态分子编辑智能体,用于自主化学和分子建模。

  • 提出了El Agente Estructural分子编辑智能体
  • 集成了领域知识工具和视觉-语言模型
2026-02-04
8/10
self-evolution knowledge internalization benchmarking

SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization

Jiarui Yuan, Tailin Jin, Weize Chen et al.

SE-Bench提供了一个基准测试,用于评估模型内化新知识的自进化能力。

  • 提出了SE-Bench诊断环境,用于评估知识内化能力。
  • 揭示了开放式书籍悖论、强化学习差距和自博弈在知识内化中的作用。
2026-02-04
9/10
强化学习 网络安全 奖励函数

Beyond Rewards in Reinforcement Learning for Cyber Defence

Elizabeth Bates, Chris Hicks, Vasilios Mavroudis

研究奖励函数结构对网络安全强化学习Agent性能的影响,发现稀疏奖励更有效。

  • 提出一种评估奖励函数有效性的新方法
  • 评估了稀疏和密集奖励在网络安全场景下的影响
2026-02-04
9/10
多智能体 多模态学习 不确定性建模

Active Asymmetric Multi-Agent Multimodal Learning under Uncertainty

Rui Liu, Pratap Tokekar, Ming Lin

A2MAML提出了一种不确定性感知的多模态多智能体学习框架,提升了协作感知系统的鲁棒性。

  • 提出了针对多智能体多模态场景的不确定性建模方法
  • 引入主动选择机制,选择可靠的智能体-模态组合
2026-02-04
9/10
强化学习 理性 泛化性

Rationality Measurement and Theory for Reinforcement Learning Agents

Kejiang Qian, Amos Storkey, Fengxiang He

该论文提出了一套评估强化学习智能体理性的指标和理论框架,并分析了影响理性行为的因素。

  • 提出了理性风险和理性风险差距的定义
  • 将理性风险差距分解为环境偏移和算法泛化性两部分
2026-02-04
6/10
毫米波 波束预测 知识蒸馏

Knowledge Distillation for mmWave Beam Prediction Using Sub-6 GHz Channels

Sina Tavakolian, Nhan Thanh Nguyen, Ahmed Alkhateeb et al.

利用知识蒸馏技术,论文提出一种高效的毫米波波束预测框架,显著降低计算和存储需求。

  • 提出基于知识蒸馏的毫米波波束预测框架
  • 设计两种紧凑的学生模型架构
2026-02-04
7/10
强化学习 约束强化学习 控制即推理

Stochastic Decision Horizons for Constrained Reinforcement Learning

Nikola Milosevic, Leonard Franz, Daniel Haeufle et al.

提出基于随机决策范围的约束强化学习方法,提升样本效率和可扩展性。

  • 提出基于随机决策范围的约束强化学习框架
  • 设计生存加权目标,兼容离线策略学习
2026-02-04
7/10
Digital Twin Network Scheduling Dual Mind World Model

Dual Mind World Model Inspired Network Digital Twin for Access Scheduling

Hrishikesh Dutta, Roberto Minerva, Noel Crespi

提出基于双脑世界模型的数字孪生网络接入调度框架,优化网络控制策略。

  • 提出基于双脑世界模型(DMWM)的数字孪生网络调度框架
  • 结合短时预测规划和符号模型推理
2026-02-04
9/10
LLM Planning Embedding

Textual Planning with Explicit Latent Transitions

Eliezer Shlomi, Ido Levy, Eilam Shapira et al.

EmbedPlan通过在冻结语言嵌入空间中进行状态转移预测,加速LLM规划过程。

  • 提出EmbedPlan,一种基于嵌入空间的规划方法
  • 使用轻量级的状态转移模型代替自回归生成
2026-02-04
7/10
Continual Learning Douglas-Rachford Splitting Optimization

Finding Structure in Continual Learning

Pourya Shamsolmoali, Masoumeh Zareapoor

使用Douglas-Rachford Splitting (DRS)重构持续学习目标,平衡稳定性和可塑性。

  • 提出基于DRS的持续学习框架
  • 解耦可塑性和稳定性的目标
2026-02-04
8/10
个性化推荐 用户画像 AI-Copilot

PersoPilot: An Adaptive AI-Copilot for Transparent Contextualized Persona Classification and Personalized Response Generation

Saleh Afzoon, Amin Beheshti, Usman Naseem

PersoPilot通过融合用户画像和上下文,实现个性化推荐和透明的AI辅助。

  • 提出PersoPilot,一个整合用户画像理解与上下文分析的AI-Copilot。
  • 构建了透明、可解释的交互界面,方便用户表达偏好并获取个性化推荐。
2026-02-04
9/10
AI Agents 安全 博弈论

MaMa: A Game-Theoretic Approach for Designing Safe Agentic Systems

Jonathan Nöther, Adish Singla, Goran Radanovic

MaMa算法通过博弈论设计安全自主系统,防御对抗攻击,提升LLM多智能体系统的安全性。

  • 提出MaMa算法,用于自动设计安全自主系统
  • 将系统安全问题建模为Stackelberg安全博弈
2026-02-04
7/10
强化学习 机器人控制 在线蒸馏

HoRD: Robust Humanoid Control via History-Conditioned Reinforcement Learning and Online Distillation

Puyue Wang, Jiawei Hu, Yan Gao et al.

HoRD提出一种两阶段学习框架,通过历史条件强化学习和在线蒸馏实现鲁棒的人形机器人控制。

  • 提出了一种历史条件强化学习方法,使策略能够在线适应不同的动力学随机化。
  • 利用在线蒸馏将教师策略的鲁棒控制能力转移到基于Transformer的学生策略。
2026-02-04
7/10
逆向博弈论 可行收益集合估计 学习理论

Optimal Rates for Feasible Payoff Set Estimation in Games

Annalisa Barbara, Riccardo Poiani, Martino Bernasconi et al.

研究逆向博弈论中可行收益集合估计的最优速率,并提供理论基础。

  • 提出零和及一般和博弈中精确和近似均衡博弈的最优最小最大速率
  • 为多智能体环境中的集合值收益推断提供学习理论基础
2026-02-04
6/10
分布式训练 低秩优化 稀疏通信

LoRDO: Distributed Low-Rank Optimization with Infrequent Communication

Andrej Jovanović, Alex Iacob, Mher Safaryan et al.

LoRDO通过低秩优化和稀疏通信,降低分布式训练中带宽和内存瓶颈,提高训练效率。

  • 提出LoRDO框架,结合低秩优化与稀疏同步
  • 引入全秩准双曲更新,恢复子空间探索
2026-02-04
9/10
LLM Code Generation Evaluation

ProxyWar: Dynamic Assessment of LLM Code Generation in Game Arenas

Wenjun Peng, Xinyu Wang, Qi Wu

ProxyWar框架通过竞争性游戏环境动态评估LLM代码生成质量,发现传统评估方法的局限性。

  • 提出ProxyWar框架,用于动态评估LLM代码生成
  • 揭示静态benchmark与实际游戏环境性能的差异
2026-02-04
9/10
LLM Agent Reinforcement Learning Efficiency

Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

Yansong Ning, Jun Fang, Naiqiang Tan et al.

Agent-Omit通过强化学习训练LLM Agent自适应地省略冗余思考和观察,提高效率。

  • 提出Agent-Omit框架,实现LLM Agent自适应省略思考和观察。
  • 引入omit-aware agentic reinforcement learning方法,包含双重采样和定制的省略奖励。
2026-02-04
8/10
科学插图生成 Agentic框架 基准数据集

AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations

Minjun Zhu, Zhen Lin, Yixuan Weng et al.

AutoFigure提出一个自动生成高质量科学插图的Agent框架,并构建了大规模基准数据集FigureBench。

  • 构建了大规模科学插图基准数据集FigureBench
  • 提出了Agentic框架AutoFigure,用于自动生成科学插图
2026-02-03
8/10
强化学习 干预学习 自动驾驶

Robust Intervention Learning from Emergency Stop Interventions

Ethan Pronovost, Khimya Khetarpal, Siddhartha Srinivasa

提出Residual Intervention Fine-Tuning算法,从紧急停止干预中进行鲁棒学习,提升自动驾驶系统性能。

  • 提出Robust Intervention Learning (RIL)问题定义
  • 提出Residual Intervention Fine-Tuning (RIFT)算法
2026-02-03
8/10
安全控制 一致性预测 可达性分析

Conformal Reachability for Safe Control in Unknown Environments

Xinhang Ma, Junlin Wu, Yiannis Kantaros et al.

提出结合一致性预测和可达性分析的未知动力系统安全控制框架。

  • 提出基于一致性预测的安全控制框架
  • 开发优化名义奖励和最大化安全规划范围的控制策略训练算法
2026-02-03
9/10
AI Agent Full-Stack Development Code Generation

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Zimu Lu, Houxing Ren, Yunqiao Yang et al.

FullStack-Agent通过多智能体框架、回译学习和综合测试,提升全栈Web应用开发的性能。

  • 提出FullStack-Agent系统,包含开发、学习和测试三个模块
  • 设计FullStack-Dev多智能体框架,具备规划、编辑、导航和调试能力
2026-02-03
9/10
LLM Multi-Agent System Diversity

Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity

Yingxuan Yang, Chengrui Qu, Muning Wen et al.

论文研究了LLM多智能体系统中智能体数量与性能的关系,强调了多样性的重要性。

  • 提出了多智能体系统性能受限于任务不确定性的信息论框架
  • 推导了架构无关的性能边界,强调有效通道数量的重要性
2026-02-03
9/10
Agentic Orchestration Sub-agent Task Automation

AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

Jianhao Ruan, Zhihao Xu, Yiran Peng et al.

AOrchestra通过动态创建子代理实现复杂任务的自动化,并优化性能成本。

  • 提出了一个框架无关的代理抽象模型(Instruction, Context, Tools, Model)
  • 实现了AOrchestra系统,支持自动子代理创建和任务委派
2026-02-03
9/10
Agent Reinforcement Learning Contrastive Learning

Training Multi-Turn Search Agent via Contrastive Dynamic Branch Sampling

Yubao Zhao, Weiquan Huang, Sudong Wang et al.

BranPO通过对比动态分支抽样优化多轮搜索Agent,提升长程任务性能。

  • 提出了Branching Relative Policy Optimization (BranPO)方法
  • 引入难度感知分支抽样和冗余步骤屏蔽
2026-02-03
9/10
Multi-Agent Systems LLM Agent Primitives

Agent Primitives: Reusable Latent Building Blocks for Multi-Agent Systems

Haibo Jin, Kuang Peng, Ye Yu et al.

提出了Agent Primitives,一种可复用的多智能体系统构建块,提升了效率和鲁棒性。

  • 提出了Agent Primitives的概念,包括Review, Voting and Selection, Planning and Execution三种基本单元。
  • 使用KV cache进行内部通信,提高鲁棒性和效率。
2026-02-03
9/10
LLM Agent 对话惯性 偏好学习

Mitigating Conversational Inertia in Multi-Turn Agents

Yang Wan, Zheng Cao, Zhenhao Zhang et al.

该论文研究了多轮Agent中的对话惯性问题,并提出通过上下文偏好学习降低惯性,提升性能。

  • 发现了LLM Agent中的对话惯性现象
  • 提出了基于上下文偏好学习的解决方法
2026-02-03
5/10
气动优化 逆向设计 引导生成

Optimization and Generation in Aerodynamics Inverse Design

Huaguan Chen, Ning Lin, Luxi Chen et al.

论文提出优化和引导生成方法,解决气动逆向设计中高维几何与昂贵仿真的挑战。

  • 提出新的成本预测器训练损失
  • 开发密度梯度优化方法
2026-02-03
9/10
服务对话 自进化学习 用户建模

SEAD: Self-Evolving Agent for Multi-Turn Service Dialogue

Yuqin Dai, Ning Gao, Wei Zhang et al.

SEAD框架通过自进化学习提升LLM在服务对话中的表现,无需大量人工标注。

  • 提出SEAD框架,解决服务对话数据稀缺和用户行为模拟难题
  • 解耦用户建模为Profile Controller和User Role-play Model
2026-02-03
9/10
AI Agents Generative Models Persona Generation

Persona Generators: Generating Diverse Synthetic Personas at Scale

Davide Paglieri, Logan Cross, William A. Cunningham et al.

提出Persona Generators,用于生成多样化、大规模的合成角色,提升AI系统评估的覆盖度。

  • 提出 Persona Generators,一种自动生成多样化合成角色的函数。
  • 使用基于AlphaEvolve的迭代改进循环,优化Persona Generator代码。
2026-02-03
7/10
AI替代 文化演进 群体选择

Group Selection as a Safeguard Against AI Substitution

Qiankun Zhong, Thomas F. Eisenmann, Julian Garcia et al.

AI替代使用降低文化多样性,威胁人类文化演进;群体选择可促进AI辅助使用,维持文化创新。

  • 揭示AI使用对文化演进的长期影响
  • 提出“文化崩溃”概念并分析其成因
2026-02-03