ActionParty: Multi-Subject Action Binding in Generative Video Games
ActionParty提出了一种多主体行动绑定的视频生成模型,可控制多个智能体在视频游戏中互动。
- 提出了ActionParty模型,用于解决视频扩散模型中多主体行动绑定问题
- 引入主体状态令牌,持久捕获场景中每个主体的状态
共 794 篇论文
ActionParty提出了一种多主体行动绑定的视频生成模型,可控制多个智能体在视频游戏中互动。
MetaNav通过空间记忆、历史感知规划和反思纠正,提升了视觉语言导航的效率和鲁棒性。
提出一种自适应预算遗忘框架,通过相关性评分和有界优化来管理长期对话代理的记忆,提升性能并减少虚假记忆。
该论文提出了一种基于Agentic AI的自动化资产管理框架,旨在提升投资效率和决策质量。
研究时变动态系统下的强化学习控制问题,提出一种基于模型的自适应数据缓存算法。
研究在有噪声信道下,如何通过通信策略在多臂老虎机问题中识别最佳臂。
该论文提出了一种从数据流中学习状态机的通用方法,并改进了启发式算法,证明了PAC可学习性。
ASK结合小语言模型与强化学习,通过不确定性门控提升强化学习在OOD场景下的泛化能力。
综述了多智能体视频推荐系统的演进、模式、挑战和未来方向,重点关注LLM驱动的架构。
该论文提出了用于量化大型语言模型自我保护偏见的基准测试TBSP。
推理长度对函数调用Agent性能影响呈非单调性,短推理最佳。
提出基于拍卖机制的多目标强化学习框架,解决目标动态变化时的策略自适应问题。
AEGIS通过物理学特征和熵引导的免疫系统,实现了对零日网络攻击的高效检测。
提出了模型气质指数MTI,用于评估AI Agent在行为上的性格差异。
提出一种混合云编排框架,结合预测模型和启发式算法优化成本。
SEAL框架通过伦理审计和联邦学习,生成更公平、可审计的6G合成数据,提升AI模型训练效果。
Diff-KD通过扩散模型和知识蒸馏,提升协作感知在数据损坏下的鲁棒性。
研究探索性强化学习框架下投机交易问题,设计算法并应用于配对交易。
APEX实现了基于法币的智能体API访问支付系统,保障安全和策略控制。
ATBench是一个评估LLM Agent安全性的轨迹级基准,具有多样性和长程真实性。
RuleForge利用LLM自动生成和验证Web漏洞检测规则,提高效率并降低误报率。
A3R通过智能体式跨维度证据获取,提升3D高斯场景下的精细化可供性推理。
论文提出一套GeoAI智能助手的机构基元,旨在弥合模型能力与GIS实际应用之间的差距。
OpenGo是一个基于OpenClaw的机器狗,能实时切换技能并接受自然语言指令。
系统性比较LLM Agent记忆方法,提出统一框架和新型记忆方法,并分析未来研究方向。
HippoCamp是一个评估Agent在个人电脑环境中文件管理能力的benchmark,揭示了现有Agent的不足。
YC-Bench是一个评估AI Agent长期规划和执行一致性的基准测试,通过模拟创业公司运营。
ORBIT提出了一种低成本、可验证的搜索智能体训练数据生成框架,并证明了其有效性。
该论文提出NARCBench基准,用于检测多智能体系统中LLM的共谋行为,并探索了基于激活探测的共谋检测方法。
论文提出了一种结合深度强化学习和有界极值搜索的混合控制器,以增强机器人操作在分布偏移下的鲁棒性。
提出了一种基于骨骼生物力学分析和运动建模的个性化飞镖训练框架。
提出了PaperRecon框架,评估AI写作论文的质量和风险,关注呈现和幻觉两个维度。
针对医疗场景下证据不一致问题,提出了一种保护隐私的多阶段agent推理框架CARE。
提出一种新的SMOO算法XOR-SMOO,通过SAT oracle查询获得高效且有保障的近似Pareto前沿。
VibeGuard是一种AI生成代码的安全门,旨在解决现有工具的盲点,提高代码安全性。
研究了AI驱动的RAN切片在对抗攻击下的SLA违规和恢复问题。
该论文提出了一种评估和强化LLM系统指令,以抵抗编码攻击的自动化框架。
该论文研究推荐系统中的流行度偏差问题,并提出了一种个性化的缓解方法SPREE。
OrgAgent提出了一种公司式层级多智能体框架,提升了复杂推理任务的性能和效率。
研究手机代理在完成任务时是否尊重用户隐私,发现过度辅助导致隐私泄露。
研究AI编码代理在开源项目中的活动模式和代码随时间的变化,发现其贡献与更高的代码变动率相关。
FALCON通过建模疲劳效应,优化人机协作中的AI决策置信度,提升整体决策准确性。
研究长时程Web导航中LLM Agent处理用户中断的能力,提出InterruptBench基准。
提出一种基于4D表示的免训练手术机器人智能体推理框架,提升时空理解能力。
提出了Pare框架,模拟用户与智能体交互,评估智能体的规划、推理和多应用协同能力。
该论文综述了LLM工具使用方法,分析了不同范式的优缺点和评估方法,并提出了未来挑战。
提出DVGT-2模型,用于端到端自动驾驶,通过在线方式输出密集几何信息和轨迹规划。
英国AI安全研究所评估前沿模型在AI实验室环境中是否会破坏安全研究。
LangMARL将MARL的信用分配和策略梯度引入语言空间,提升LLM智能体在多智能体任务中的表现。
GRASP通过主动共享感知实现梯度对齐,优化多智能体协作,提升收敛速度。
AutoEG自动化利用第三方组件漏洞,提升黑盒Web应用渗透测试效率和成功率。
利用网站内部API构建共享路由图Unbrowse,加速Agent与网页的交互,降低重复发现成本。
Procela框架通过动态调整模型结构,提升了在结构不确定性下模拟的准确性和适应性。
提出一种预测Agent在代码任务中表现的框架,结合IRT和任务特征,分解Agent能力。
提出基于NeuralUCB的奖励驱动的在线LLM路由方法,在成本敏感场景下表现优异。
提出结合强化学习和大型语言模型的机器人操作混合框架,提升机器人操作能力。
论文探讨了AI Agent抵抗间接Prompt注入攻击的系统级防御策略。
Phyelds是一个Python实现的聚合计算框架,易于集成到数据科学和机器学习生态系统中。
论文提出了量子生物传感器发展的四代框架,并探讨了其临床转化的瓶颈和未来方向。
C-TRAIL框架通过LLM常识推理和信任机制,提升自动驾驶轨迹规划的安全性与性能。
提出了SNEAK基准,用于评估LLM在非对称信息下的选择性信息共享能力,发现现有模型在此方面表现不佳。
Owl-AuraID是一个通过GUI操作仪器并进行数据分析的自动化智能系统,促进科学发现。
SceneTeract验证3D场景功能性,揭示VLM在物理可行性推理上的不足,并用于VLM的后训练。
提出Simula框架,通过推理驱动生成和评估合成数据,解决数据稀缺问题。
CausalPulse是一个工业级神经符号多智能体协同系统,用于智能制造中的因果诊断自动化。
提出了基于超网络的KKL观测器,用于非自治非线性系统的状态估计,并取得了显著的精度提升。
BotVerse是一个基于LLM Agent的事件驱动型社交模拟框架,用于安全研究。
Symphony通过结合临床指南和推理,实现可解释的、可扩展的医疗编码自动化。
提出了VCC编译器,将Agent JSONL日志编译成结构化视图,提升Agent trace分析效果,并降低token消耗。
该论文提出了一种检测 Agent 工作流中潜在策略失败的新方法,即使结果正确,也能识别未遵循策略检查的情况。
CutClaw是一个多智能体框架,利用多模态语言模型自动编辑长视频,实现音乐同步和视觉美观。
提出6GAgentGym,一个闭环6G网络管理环境,并训练开源模型达到GPT-5的性能。
论文对比研究了不同多智能体协作架构在自动化机器学习优化中的性能,揭示了稳定性和理论深度之间的权衡。
Unify-Agent通过Agent框架,提升了世界知识驱动的图像生成质量。
FlowPIE提出一种基于文献探索和演化的科学思想生成框架,提升了生成思想的新颖性、可行性和多样性。
研究LLM作为agent在方言分类任务中的能力,并与传统模型和人类专家进行比较。
该论文分析了富含意义表示对对话系统中语言生成的影响,并在多个数据集上进行了评估。
提出SDA-MARL算法,解决多AUV协同目标跟踪中的非平稳性、稀疏奖励和水扰动脆弱性问题。
发现ELT-Bench基准测试质量问题,低估了AI Agent在ELT流水线构建中的能力。
Nomad系统通过探索图谱自主发现数据中的洞见,并生成可信报告。
RAD-AI框架扩展了现有架构文档方法,以适应AI增强生态系统的特殊需求和法规遵从性。
D2Skill通过双粒度技能库提升Agentic RL表现,动态更新技能并用于策略优化,显著提高任务成功率。
AMIGO是一个多图像推理基准,用于评估智能体在视觉推理和交互方面的能力。
该论文提出FedBBA,利用信誉系统、激励机制和博弈论方法,减轻联邦学习中后门攻击的影响。
提出了一种基于PPO强化学习的Pure Pursuit算法,动态调整前视距离,提升自动驾驶赛车性能。
G-TRAC通过信任感知路由提高边缘分布式生成AI推理的鲁棒性和可靠性。
论文提出Pensée工具,利用LLM辅助学生反思性写作的计划和翻译阶段,提升反思深度和质量。
提出了一个面向临床医学的自主科研框架Medical AI Scientist。
提出PLCQL,一种基于上下文bandit的离线MARL部分动作替换方法,提升效率和性能。
CirrusBench评估LLM智能体在真实云服务环境中的性能,关注效率和用户体验。
本文研究了如何通过微调大型语言模型来解决无人机战术冲突问题,提升无人机空域管理的安全性与效率。
提出了ManipArena,一个用于评估推理型通用机器人操作的标准化真实世界评估框架。
GraphWalker通过自动轨迹合成和阶段性微调,提升了Agent在知识图谱问答中的推理泛化能力。
提出RAD和LAD两种自动驾驶规划器,结合规则和语言模型实现实时、可靠、可解释的混合规划。
提出PROClaim框架,通过模拟法庭辩论和渐进式RAG提升LLM在争议性声明验证中的准确性和可靠性。
CiQi-Agent利用视觉工具和多模态检索增强,实现中国瓷器的智能鉴赏分析。
MiroEval基准测试通过多维度评估弥合了深度研究系统评估与实际用户需求之间的差距。
综述了有线网络性能建模方法,从传统仿真到深度学习,并提出了分类方法。
COvolve利用LLM驱动的环境与策略协同进化,实现无需人工干预的开放式学习。
提出了一种基于DRL的无需Critic的覆盖路径规划方法,用于解决复杂海域的覆盖问题。
Marco DeepResearch通过验证中心设计,提升了深度研究代理的效率和准确性。
研究针对神经多样性学习者的AI阅读支架,发现没有通用最佳方案,需个性化调整。
探讨了深度研究(DR)的概念,连接LLM和AI4S,并展望了从Transformer到智能体的未来。
提出了Collaborative Entropy (CoE)用于多LLM系统中的不确定性量化,提升系统级语义不确定性评估。
提出一种基于多智能体的非线性文献分析框架,旨在发现传统方法忽略的跨学科关联和研究空白。
Self++提出XR中人机共生设计蓝图,通过协同决策原则实现增强智能,而非取代人类判断。
提出一种预部署框架,用于估计联邦感知系统的学习复杂度,以优化资源分配。
研究了在数据受损情况下,离线多智能体强化学习从人类反馈中学习的鲁棒性问题。
使用深度强化学习和虚拟智能体引导鱼群运动。
零售AI前端设计忽略了不同能力用户的需求,导致了可访问性差距,并提出了前端保证作为解决方案。
提出了GrantBox沙箱,用于评估LLM Agent在真实工具环境下的权限使用安全,发现存在高攻击成功率。
DMW框架通过用户嵌入和语言指令,实现个性化自动驾驶,模拟个人驾驶习惯和适应实时指令。
PSDesigner模仿人类设计师工作流,实现自动化高质量图形设计,提升非专业人士的设计能力。
该论文提出了WildASR多语言诊断基准,揭示了现有ASR系统在真实场景下的鲁棒性问题,并提供了分析工具。
提出了一种自然语言驱动的Agent Harness框架,旨在提高Agent harness的可移植性、可比性和可研究性。
利用通用编码Agent优化硬件设计,通过Agent工厂实现显著的性能提升。
提出Kitchen Loop框架,实现基于用户需求规范驱动的自主演化代码库。
针对CPS安全监控中数据不平衡问题,提出了一种基于不确定性引导的标签重平衡方法,提升安全预测性能。
PICon提出了一种多轮提问框架,用于评估人格化AI代理的一致性。
SoHip利用海马体机制,通过记忆共享实现异构代理之间的协作学习,保护隐私并提升性能。
提出了一种公平性感知的合作深度强化学习方法,用于动态分配RIS资源。
研究表明,数据库SQL查询复杂度有限,LLM在数据库访问中可能过度设计,模板方法更优。
将模型重训练视为计算约束下的近似贝叶斯推断,提出了基于决策理论的重训练策略。
提出了一种时间解耦扩散模型,用于提升自动驾驶的运动规划能力。
针对长程机器人桌面游戏,提出通过系统设计维持内部状态一致性的框架。
该论文提出了一种融合贝叶斯推理和深度强化学习的移动机器人物体搜索框架。
论文提出了一种基于范畴论的深度研究智能体结构化评估方法,并构建了新的基准测试。
提出了一种基于Agent的自适应信任协调联邦学习方法,增强工业网络鲁棒性。
AD-CARE是基于LLM的、多模态的老年痴呆症诊断Agent,提高了诊断准确率和效率。
CRAFT是一个多智能体benchmark,评估在部分信息下LLM的协同和实用沟通能力。
MolQuest提出了一种基于化学实验数据的、评估LLM演绎推理能力的agent框架。
FluxEDA为Agentic EDA提供统一的状态执行基础设施,支持EDA工具状态保持和迭代优化。
提出了WebTestBench,用于评估端到端自动化Web测试的基准,并揭示了现有LLM在此领域的不足。
研究了量子系统中基于强化学习的控制策略,实现了对未知量子信道的有效学习与优化。
SEVerA框架通过形式化验证确保自进化Agent程序的安全性和正确性,提升任务性能。
oMind框架针对心理健康领域LLM,提出高质量数据集、训练方法和评估基准。
提出Agent Enterprise for Enterprise (AE4E)范式,解决多智能体系统中的“逻辑垄断”问题。
ElephantBroker是一个可信AI Agent的知识驱动认知运行时,融合知识图谱和向量存储。
DreamerAD通过潜在世界模型加速自动驾驶强化学习,显著提升效率并保持视觉可解释性。
论文提出马尔可夫框架,用于评估智能体AI的可靠性和监管成本,并应用于企业采购流程。
MARCH利用多智能体强化学习和信息不对称机制,显著降低LLM的幻觉问题,提升RAG系统的可靠性。
Chameleon提出了一种几何感知的多模态记忆模型,用于解决机器人操作中的长程依赖问题。
提出一种名为自由市场算法的新型元启发式算法,模拟自由市场经济的自组织优化。
利用Claude Code进行自动研究,发现优于现有方法的LLM对抗攻击算法。
多智能体推理结合一致性验证,显著提升医疗多选题不确定性校准。
Composer 2是一个专门为自主软件工程设计的模型,具有强大的长期规划和编码能力。
CUA-Suite:大规模人机交互视频数据集,用于提升计算机使用智能体的性能。
ClawKeeper为OpenClaw代理提供技能、插件和Watcher三层安全保护。
AutoProf利用知识图谱构建研究世界模型,实现自主AI研究监督。
MolEvolve利用LLM和MCTS进行分子优化,解决了解释性和活性悬崖问题。
针对不确定环境下的多式联运网络设计问题,提出结合元启发式、模拟和机器学习的两阶段优化方法。
CoordLight通过MARL优化交通信号控制,提升网络交通效率。
提出了一种基于大语言模型的自动奖励函数设计框架,提升多智能体合作强化学习性能。
探讨神经运动规划器在机器人操作中的泛化问题,分析现有方法的局限性并展望未来方向。
研究代码智能体在信息不充分情况下协同开发时的规范缺失问题,揭示规范完整性的重要性。
提出C-STEP安全强化学习方法,通过物理信息指导奖励函数,提升移动机器人的安全导航能力。
提出一种环境感知的多智能体架构,用于自动化机器人系统渗透测试。
Citation-Constellation工具通过网络分析分解引用来源,提供BARON和HEROCON两种互补指标。
该论文揭示了时间序列模型在黑盒设置下存在的记忆化和属性泄露风险,并提出了新的推理攻击方法。
提出TIP攻击方法,利用树搜索生成隐蔽payload,攻击MCP驱动的LLM Agent,绕过防御。
CarePilot提出了一种多智能体框架,用于医疗领域长期计算机任务自动化,优于现有模型。
该论文提出了一个多目标搜索的标准基准测试套件,以解决现有评估的碎片化问题。
提出KG-M3PO框架,融合感知、知识和策略,提升机器人操作任务的泛化性和鲁棒性。
FinToolSyn框架通过前向合成方法,生成大规模金融工具使用对话数据,提升LLM金融工具调用能力。
MAPUS提出了一种基于LLM的多智能体框架,用于个性化和公平的城市感知,提升参与者满意度。
SpecEyes通过预测执行轨迹,加速Agentic MLLM的推理过程,提升系统吞吐量。
论文提出了一个用于评估代码审查代理的基准数据集c-CRAB,并评估了现有代码审查代理的性能。
论文提出Mecha-nudges概念,优化AI代理的决策环境,并使用贝叶斯劝说框架进行形式化。
研究延迟反馈下多人-AI系统中,人类决策的偏差归因问题。
该论文研究了生成式社会中智能体立场形成、身份协商和边界重构问题。
提出基于智能体依赖的多依赖PIBT(MD-PIBT)框架,提升大规模MAPF问题求解效率。
AI伴侣的更新引发用户负面情绪,论文分析了人机交互中单方面关系修改权的问题。
设计基于LLM的智能AI选股平台,提升投资组合的夏普比率。
分析了基于LLM的社交平台Moltbook,揭示其网络结构的脆弱性和中心化特征。
提出了一种多模态框架,用于实现人与多智能体之间的自然交互和协同决策。
研究NTN O-RAN中基于AI的分裂RIC架构可行性,分析不同部署场景下的生命周期能耗和延迟。
提出WeCAN框架,利用强化学习解决异构DAG调度问题,优化makespan并加速调度。
利用神经ODE和SDE模型,在基于模型的强化学习中处理随机动态环境的适应和规划问题。
MemCollab通过对比不同Agent的推理轨迹构建通用的、与Agent无关的共享记忆,提升推理性能。
GEM利用引导式EM算法和行为归一化支持,提升离线RL中的动作选择质量。
提出DILLO,通过知识蒸馏加速智能体行动预测,无需视觉模拟也能有效指导策略。
SpecXMaster利用Agentic RL自动解析NMR谱图,实现从原始数据到化学结构的端到端智能解析。
Claw AI Agent的心跳驱动后台执行存在内存污染漏洞,普通信息即可影响Agent行为。
Minibal通过改进Minimax算法,旨在实现游戏AI的平衡对战,提高人机交互的趣味性和教育价值。
AgentRAE提出一种基于通知视觉后门的移动GUI智能体远程行动执行攻击方法。
PaperVoyager将科研论文转化为可交互的Web系统,提升了科学论文的理解和交互方式。
提出一种基于几何算子的保护隐私的EHR数据转换框架,旨在解决数据共享难题。
EVA提出了一种高效的强化学习框架,用于端到端视频智能体,实现高效的视频理解。
提出了一种基于LLM诊断和确定性控制的Agent框架,提升可审计性的同时保持适应性。
Agent-Sentry通过执行溯源限制LLM Agent行为,防御越界攻击,保障系统安全和用户意图。
该论文综述了LLM Agent工具使用从单工具调用到多工具编排的演变,并分析了当前的研究进展。
NavTrust提出了一个统一的benchmark,用于评估具身导航在现实场景中面对输入扰动时的鲁棒性。
FASTER通过优化行动采样策略显著降低了VLA模型在机器人上的反应延迟,提升了实时性。
OS-Themis框架通过分解轨迹和审计证据链,提升GUI智能体在强化学习中的奖励质量和可扩展性。
GSMem利用3DGS构建持久空间记忆,实现零样本具身探索和推理。
论文指出传统VLA模型效率评估忽略了机器人平台的实际表现,提出基于embodied efficiency的评估体系。
CAMO提出了一种条件神经求解器,用于求解多目标多旅行商问题,并能在实际机器人平台上应用。
提出Stability Monitor系统,通过行为指纹识别LLM端点稳定性和身份变化。
研究LLM智能体在安全环境下的安全意识,发现其安全验证能力不足。
AgentDS基准测试了领域特定数据科学中人机协作的未来,结果表明人机协作优于纯AI。
论文使用SGAZ评估不同俄罗斯方块规则集的游戏难度,发现增加hold功能降低难度,增加方块种类增加难度。
论文提出一种新型图灵测试“图灵酒店”,在多智能体和人类混合社区中进行,所有参与者既是裁判又是参与者。
PRIOR框架通过模仿学习和自监督学习实现了在复杂地形上的人形机器人稳健运动。
提出“意图干预”算子和结构最终模型(SFM),用于结构因果模型中检测智能体及其意图。
提出一种基于未来状态-动作访问度量的最大熵探索强化学习方法,提升探索效率。
提出了Agentic业务流程管理(APM)的概念框架,旨在使自主代理在组织中执行流程。
分析欧盟AI监管规定,聚焦自主AI的安全与隐私,为政策制定者、开发者和研究人员提供合规建议。
提出一种隐私保护的跨模型线性对齐框架,利用模型表征趋同性实现安全高效的跨模型推理和文本生成。
PASTE通过预测工具调用模式,进行推测性工具执行,显著加速了LLM Agent的任务完成。
研究了LLM在多智能体治理系统中腐败问题,强调制度设计的重要性。
提出语义增强DRL框架SA-DRL,优化UAV辅助VANET中的网络连接。
提出了Conflict-Based Search with Asynchronous Actions (CBS-AA) 算法,解决了多智能体异步路径规划问题。
提出L4V框架,利用可微环境和梯度传播解决AAV轨迹规划中的信用分配和训练不稳定性问题。
ACP定义了一种代理控制协议,用于B2B环境中自治代理的准入控制,确保代理行为符合策略。
研究了男女学生对AI伦理和社会影响的观点差异。
该论文探索LLM生成有价值数学研究问题的能力,发现LLM可生成专家未知的、有价值的数学问题。
ClawTrap框架通过MITM攻击评估OpenClaw在真实网络环境中的安全性。
研究确认偏差对LLM代码审查的影响,揭示其安全漏洞并提出缓解策略。
该论文分析了LLM在不同方言输入下的刻板印象生成,并探讨了缓解策略。
MemMA通过多智能体协调和原位自进化,优化了LLM Agent的记忆周期。
提出一种自动化的仓库级漏洞基准生成方法,用于训练和评估漏洞检测模型。
TDAD工具通过图分析减少AI编码Agent的代码回归,提高代码修复成功率。
提出了一种统一的策略价值分解框架,通过共享低维目标嵌入实现快速适应。
研究AI Agent中企业数据隐私泄露问题,提出基于差分隐私的分析框架并优化隐私-效用权衡。
GeCO将动作生成转化为优化问题,提升机器人控制的效率和安全性。
RPMS通过规则增强和记忆协同,显著提升LLM在具身环境中的规划能力。
CodeScout使用简单的Unix终端和强化学习,在代码搜索任务上达到SOTA性能。
提出联邦分布式强化学习框架,通过Wasserstein重心正则化避免信息平均导致的风险。
EVA通过逆动力学奖励对齐视频世界模型和可执行机器人动作,减少动作执行中的不一致性。
提出了Governed Memory,一种用于多智能体工作流的共享记忆和治理架构。
该论文综述了自动驾驶中利用虚拟环境和合成数据进行训练、验证和迁移学习的最新进展。
AERR-Nav通过自适应探索策略,提升了零样本目标导航在复杂环境下的性能。
提出了基于多智能体LLM的经济沙盒MALLES,用于高维经济决策模拟。
该论文提出了一种匿名化优先的框架BlindTrade,验证LLM交易代理的信号有效性,避免记忆和幸存者偏差。
Sensi通过课程学习和双智能体架构提升LLM智能体在ARC-AGI-3游戏中学习效率。
VeriGrey是一种灰盒方法,通过工具调用序列反馈和提示变异,检测LLM Agent的安全风险。
ATMOS利用状态空间模型生成原子级别生物分子动力学轨迹,性能优于现有方法。
提出一个工具集成的多Agent系统,通过演进记忆机制优化RTL代码的PPA指标。
提出了一种端到端数据驱动模型,用于预测城市空气流动和污染物扩散。
设计并评估了一个浏览器扩展,利用AI为数字素养低的用户提供技术术语的上下文帮助。
该论文提出Edit-As-Act框架,利用目标回溯规划实现开放词汇3D室内场景编辑。
提出了Emergent Trust Learning (ETL),一种轻量级的、基于信任的控制算法。
提出正则化的Q值学习方法,提升跨领域规划策略的效率和鲁棒性。
提出NEO框架,用统一语言模型解决大规模搜索、推荐和推理问题,实现多任务统一。
IET提出一种隐式执行追踪框架,无需日志即可追溯多智能体系统中的责任归属和交互拓扑。
提出了一种主动知识询问的医患对话框架,用于增强EMR的自动化流程。
探讨了从数字孪生到世界模型的演进,及其在边缘通用智能中的应用、挑战与机遇。
针对医疗场景自主AI代理的安全威胁,论文提出并部署了零信任安全架构。
CABTO框架利用大型模型和环境反馈,自动构建完整的机器人操作行为树系统。
论文提出了SpokenTOD数据集和SpokenUS口语用户模拟器,用于提升口语对话系统的鲁棒性。
提出TraceR1框架,通过预测轨迹进行预见性推理,提升多模态Agent的规划能力和执行鲁棒性。
AI编码智能体在相同任务下产生显著差异,源于分析选择的不同,且模仿学习是主要收敛方式。
研究表明,用户心理健康信息披露对LLM智能体的安全性有微弱的保护作用,但易受攻击。
IQuest-Coder-V1系列代码大模型,通过代码流多阶段训练,在代码智能方面达到SOTA,并优化了部署效率。
RARRL框架通过强化学习自适应控制机器人何时进行推理,优化资源使用并提升任务成功率。
Fast-WAM通过去除测试时未来想象,显著提升速度,验证了训练时视频建模的重要性。
研究AI Agent社区的涌现行为,为多智能体教育系统设计提供启示。
该论文提出一个基于强化学习和论证的规范兼容智能体开发流程,并解决了规范规避问题。
论文提出基于执行路径的AI Agent运行时治理框架,以应对Agent行为的不可预测性。
论文分析AI Agent技能生态安全,提出新方法降低恶意技能误报率,并揭示新的攻击向量。
DanceHA是一个多智能体框架,用于文档级基于方面的情感分析,并在非正式写作风格中提取ACOSI元组。
提出了一种LLM机器人辅助分配的前端保障模式,处理价值多元化和LLM不确定性问题。
RetailBench评估LLM在复杂零售环境中长期自主决策能力,并提出Evolving Strategy & Execution框架。
TRUST-SQL利用工具集成强化学习解决未知模式下的Text-to-SQL问题,显著提升了查询准确率。
利用强化学习训练虚拟鱼,成功引导真实鱼群的运动方向。
FactorEngine利用程序级知识挖掘框架,提升量化投资中alpha因子的发现效率和效果。
Plaza6G是一个基于AI辅助的5G/6G实验平台,提供Experiment-as-a-Service。
通过稀疏自编码器解码探针向量,研究35B MoE语言模型的行为引导,发现主要受单轴影响。
PyPhonPlan是一个用于语音规划动态模型的Python工具包,基于动态神经场和任务动态模拟。
论文提出自适应心理理论(A-ToM)代理,通过对齐ToM阶数来提升LLM驱动的多智能体协作。
OpenSeeker通过开源数据和模型,实现了前沿水平的搜索Agent,并超越了部分工业界竞品。
论文提出了一种基于需求和状态空间的通用人工智能认知架构。
Lore协议通过结构化Git提交信息,捕获代码决策过程中的上下文,增强AI编码agent的知识。
提出PokeAgent挑战赛,用于评估AI在宝可梦游戏中的决策、推理和规划能力。
论文分析了LLM对齐中的困境,提出使用优先级图建模,并探讨了对抗攻击和运行时验证。
提出了一种基于多智能体工作流的关键材料回收方法,加速分离过程。
TED框架通过用户交互、自动评估和错误诊断改进Agent性能。
ALTK是一个开源工具包,提供模块化中间件,用于检测、修复和缓解AI Agent生命周期中的常见故障。
RoCo Challenge旨在通过模拟和现实世界的机器人协作装配任务,推动工业自动化。
AI Agent评估易受恶意行为干扰,借鉴恶意软件分析经验,提出更可靠的评估原则。
CLAG提出了一种基于聚类的SLM Agent记忆框架,通过Agent主动组织记忆,提高检索效率和知识密度。
提出MA-VLCM,利用预训练VLM作为多智能体强化学习的critic,提升样本效率和泛化性。
TrinityGuard是一个用于LLM多智能体系统安全评估和监控的综合框架。
评估Agent Skills在真实软件工程任务中的有效性,发现其收益有限且依赖领域和上下文。
提出Stackelberg PPO算法,解决形态控制协同设计中控制动态适应问题,提升学习效率。
论文探讨了AI自主学习的局限性,并提出了一种受认知科学启发的整合学习架构。
SKILLS框架提升LLM在电信运维中的API交互能力,通过注入结构化知识显著提高任务成功率。
CRASH:基于LLM的智能体,分析自动驾驶事故报告,实现故障归因和安全评估。
PMAx是一个AI驱动的过程挖掘框架,通过多智能体架构实现隐私保护和精确分析。
提出一个基于LLM的多模态多Agent室内空间设计框架,提升用户参与度和设计效率。
CCTU基准测试评估LLM在复杂约束下的工具使用能力,揭示其不足并提供未来研究方向。
提出了NS-Mem神经符号记忆框架,提升多模态Agent长期推理能力,尤其在约束性推理上表现突出。
提出EASP框架,通过检索探测指导LLM搜索规划,解决电商搜索中效率与效果的平衡问题。
论文将机械可解释性扩展到具身控制系统,研究了婴儿运动学习中目标导向控制的机制基础。
ADV-0提出闭环对抗训练框架,提升自动驾驶系统在长尾场景下的鲁棒性。
论文重新审视了端到端驾驶架构,提出了高性能且可扩展的BevAD架构。
提出ACS系统,借鉴MESI协议优化多智能体LLM系统中的同步开销,实现显著的token节省。
PriCoder通过自动合成数据,教LLM使用私有库API进行代码生成,显著提升了私有库代码生成能力。
研究了最小储备池计算机存储和选择多个混沌吸引子的能力,发现其存储能力强但切换能力弱。
构建大规模生物医学知识图谱,实现跨数据源联合查询和自然语言访问。
IA-KRC通过可达通信和干扰预测提升多智能体强化学习中的合作效率。
GUI-CEval是首个全面的中文移动GUI Agent基准,评估模型在感知、计划、执行等方面的能力。
DECODE框架通过整合生物学信息,提升了基于结构的虚拟筛选效果。
OrgForge是一个多智能体仿真框架,用于生成可验证的合成企业语料库,提升RAG pipeline评估效果。
OmniStream是一种统一的流式视觉骨干网络,能够有效感知、重建和执行视觉任务。
提出可分离神经网络架构(SNA),统一预测和生成智能,并在多个领域验证其有效性。
该论文提出时间拉直方法,通过曲率正则化改进世界模型的潜在空间表示,提升基于梯度规划的稳定性和成功率。
该论文分析了AI Agent的安全问题,并提出了相应的防御和研究建议。
论文提出WORKSWORLD领域,用于自动化规划和调度分布式数据管道。
CLASP通过分析Mamba的输出嵌入来防御针对混合LLM的隐藏状态中毒攻击。
IndexCache通过跨层复用索引加速稀疏注意力,降低计算成本,提高推理速度。
SaPaVe框架通过解耦感知和操作,提升机器人视觉-语言-动作模型在主动操作任务中的性能。
提出了一种将时序数值规划编译为 PDDL+ 的实用方法,并验证了其有效性。
该论文提出了MADQA基准,用于评估多模态Agent在文档理解中的策略推理能力,揭示了现有Agent依赖暴力搜索的问题。
论文提出了一种低成本、可复用的方法,用于自动生成高性能RL环境。
AI智能体的复杂性提升可能恶化群体行为,资源稀缺时尤其明显。
该论文提出了一种基于分数目标的MMDDPG算法,用于学习具有抗干扰能力的强化学习策略。
提出了一种鲁棒高效的交通信号灯控制多智能体强化学习框架,提升了泛化性和稳定性。
XSkill通过经验和技能的双流框架,提升多模态Agent在开放环境下的持续学习能力。
提出AGMARL-DKS,一种基于图增强多智能体强化学习的动态Kubernetes调度器,优化资源利用。
NormCoRe框架通过翻译人类实验设计研究多智能体AI中的规范。
利用LLM Agent合成真实数字足迹,解决数据稀缺问题,提升模型在真实任务上的表现。
该论文研究了LLM为移动设备生成高效内核的能力,并提出了MoKA多智能体系统提升内核生成效率。
ELISA是一个可解释的混合生成式AI Agent,用于单细胞基因组学中的表达驱动发现。
论文提出一种系统化的方法,将社会、法律、伦理等规范转化为AI代理可执行的需求,并分析现有工具。
研究发现LLM Agent容易受到文档嵌入指令的攻击,导致数据泄露。
研究能源市场中人与智能体混合环境下的合作行为,提出使用人工代理促进协调。
RADAR通过自主闭环数据生成,解决了机器人学习中数据获取的瓶颈。
该论文提出一个框架,通过挖掘开源代码库自动获取agent技能,增强LLM的 procedural knowledge。
提出了半去中心化多智能体控制框架SDec-POMDP,并开发了最优策略生成算法RS-SDA*。
DocSage通过动态schema发现、信息抽取和关系推理,提升多文档多实体问答的准确性。
提出一种无监督对称群发现方法,用于学习解耦表示,无需先验知识。
论文提出DCI框架,通过结构化集体推理实现LLM系统中更高效的决策制定。
提出SSGM框架,旨在解决LLM Agent长期记忆中知识泄露和语义漂移等风险。
论文提出一个考虑记忆限制的序贯决策模型,解释了用户在信息架构中试错导航的行为。
提出一种基于自由能的社会强化学习算法,利用非专家和多样化Agent的知识提升学习效果。
针对医院环境,提出基于LLM Agent的Agentic操作系统架构,保障安全和可审计性。
探索教育AI Agent的Scaling Law,提出AgentProfile驱动的多Agent平台EduClaw。
提出STAIRS-Former,利用时空分层注意力机制提升离线多智能体强化学习性能。
分析OpenClaw自主LLM智能体的安全威胁,并提出生命周期防御框架。
NeFTY提出了一种可微物理框架,用于从表面温度测量中进行材料属性的3D重建。
分析了前沿AI人效提升研究的RCT方法挑战,并提出了实用解决方案。
提出了一种基于接触覆盖引导探索的通用灵巧操作方法,提高了训练效率和成功率。
该论文提出了一种基于KDE的有效方法,用于量化表格合成数据的成员泄露风险。
发布大规模双语文本分类数据集,用于知识库索引和辅助编目,旨在提升目录编目工作效率。
GRACE是一个统一的多机器人路径规划模拟器和基准,支持多种环境抽象级别。
提出 UltrasoundAgents,一种用于乳腺超声诊断的分层多智能体证据链推理框架。
EvoKernel通过价值驱动的记忆机制,使LLM在NPU内核合成中实现冷启动并持续优化。
提出基于随机平滑的防御机制,提高轨迹预测模型对抗对抗攻击的鲁棒性,且不损失原始精度。
论文提出了一种AI驱动的蜂窝流量需求预测框架,通过情境感知聚类和误差校正提高预测精度。
HeartAgent是一个用于心脏病可解释差分诊断的自主代理系统,显著提高了诊断准确率和解释性。
DxEvolve通过交互式深度临床研究,实现自进化诊断,提升诊断准确性并形成可治理的学习资产。
提出了一种交错调度与运动规划框架,通过增量学习解决多对象共享空间导航问题。
针对变长轨迹预测问题,提出渐进式回顾框架PRF,提升短轨迹预测准确率。
该论文评估了视觉-语言模型作为自主计算机使用代理审计器的能力,揭示了其局限性。
提出UAV医疗物资配送的MARL框架,利用PPO算法优化无人机队调度,提升紧急情况下的医疗物流效率。
结合图注意力网络和LLM,在资源约束下实现Amazons棋高性能决策。
提出VeriEnv框架,通过克隆网站生成可验证的合成环境,安全高效地训练Web Agent。
提出一种基于多智能体谈判的LLM对齐框架,提升冲突解决能力。
该论文将情感融入蜂群决策模型,探究情感对群体决策的影响。
提出神经调试器,通过条件执行建模,使LLM能够模拟传统调试器进行代码调试和理解。
该论文提出了一种利用AI和ML预测频谱需求的数据驱动方法,提高频谱资源分配效率。
MedMASLab提供统一框架,用于评估多模态医疗多智能体系统,并揭示其领域泛化弱点。
论文提出一种基于策略参数化Prompt的方法,无需训练即可影响LLM多智能体对话行为。
针对长文本推理的Chain-of-Agents,提出基于Chow-Liu树的块排序方法,提升信息利用率。
提出MA-EgoQA基准,用于评估多智能体环境下第一人称视频理解的问答能力。
One-Eval是一个自动化LLM评估系统,通过Agent技术实现可追踪、可定制的评估流程。
FetalAgents: 用于胎儿超声图像和视频分析的多智能体系统,提升诊断准确率和工作流程效率。
AutoAgent通过进化认知和弹性记忆编排,提升智能体在动态环境中的适应性。
提出了MiniAppBench,用于评估LLM生成交互式HTML应用的能力,并提出了自动评估框架MiniAppEval。
论文提出Context Engineering,定义Context质量标准,并构建Agent Engineering成熟度模型,解决AI Agent规模化部署问题。
SCDP通过混合观测蒸馏,仅用板载传感器实现了鲁棒的人形机器人运动控制。
提出a-TMFG算法,利用近似最近邻图加速大规模TMFG图构建,适用于无自然图结构的机器学习任务。
研究非依从性Bandits问题,提出BRACE算法,权衡推荐福利与控制学习目标。
该论文提出利用内在认知状态驱动目标导向系统,无需外部奖励即可生成自适应优先级。
RoadLogic将声明式OS2场景转换为可执行仿真,实现自动驾驶系统测试。
OncoAgent无需训练即可将临床指南转化为3D肿瘤轮廓,优于传统深度学习方法。
提出StateFactory,利用语言模型将非结构化观察转换为分层对象-属性结构,用于奖励预测。
提出了STAR基准,评估LLM在零和博弈环境下的策略推理和快速决策能力。
提出了一种基于Gram矩阵的音频效果控制方法,并通过实验验证了其有效性。
提出一种情感感知的VR交互管线,提升虚拟代理对话质量。
提出AgentGEO框架,诊断并修复生成引擎优化中的引用失败问题,显著提升引用率。
提出了一种基于自条件GAN的无上下文轨迹预测方法,在人类运动和道路交通数据集上表现良好。
MAGIC Net通过结合CL和RNN解决数据流中的概念漂移、时间依赖和灾难性遗忘问题。
论文提出基于信念的声誉体系,为AI信任建立可验证的基础。
提出了OSS-CRS框架,用于在真实开源项目中运行和组合网络推理系统,发现了10个未知漏洞。
提出ProReFF模型,从无标签数据中学习物体共现关系,用于提升机器人搜索效率。
SecAgent提出了基于语义上下文的3B规模高效移动GUI代理,并构建了中文数据集和基准。
OGSS方法在模仿学习中结合先验知识,提升了智能体在探索过程中的安全性,应用于象棋博弈。
Fanar-Sadiq是一个面向伊斯兰问答的多Agent系统,通过意图感知路由查询到专业模块,提供权威且可验证的答案。
STRIDE结合拉格朗日神经网络和条件流匹配,学习机器人动态模型,提升预测精度。
研究RL智能体在渐变观测噪声下的自监控机制,揭示了突变阈值和环境脆弱性。
研究评估了基于LLM的对话式AI在初级保健诊所的临床可行性、安全性和用户接受度。
提出一种新的LLM Agent检索方法,通过投影层将LLM隐状态直接映射到embedding空间,无需单独的embedding模型。
IronEngine是一个通用的AI助手平台,通过统一的编排核心实现多功能集成和高效的任务执行。
该论文提出了一种用于自主实验室中人机协作的AI驱动感知方法,提高了机器人工作效率。
Sandpiper是一个AI辅助教育对话数据分析系统,旨在提高研究效率和数据分析质量。
提出HECG框架,通过分层纠错图提升LLM驱动的自主Agent在复杂任务中的性能。
SPD-RAG通过多Agent分工协作,在多文档QA任务中提高了性能和效率,降低了API成本。
研究人机协作在组合设计理论中发现新数学结果,利用神经符号方法证明拉丁方不平衡性的下界。
提出SlowBA攻击,通过触发长推理链操纵VLM GUI智能体的响应延迟,同时保持任务准确性。
SAIL提出了一种基于VLM的上下文模仿学习框架,通过迭代优化轨迹提升机器人技能。
提出了FinToolBench,一个评估LLM在金融领域工具使用的新基准,包含大量真实金融工具。
SplitAgent提出了一种保护隐私的分布式架构,用于企业云端智能体协作。
DualTurn通过双声道语音预训练,提升了语音交互中智能体的turn-taking能力,减少了中断。
SAGAD通过自适应融合和频率引导损失,解决图异常检测中的同质性差异和可扩展性问题。
EvoScientist提出了一种基于进化和持久记忆的多Agent AI科学家框架,提升科学发现效率。
提出ICRL方法,无需SFT即可使LLM通过上下文学习有效利用工具,提升推理能力。
ImageEdit-R1利用强化学习协调多智能体,提升复杂图像编辑任务性能。
LWAIL提出了一种新的基于Wasserstein距离的对抗模仿学习框架,仅需少量状态数据即可实现专家级性能。
提出CompACT,一种将观察压缩到8个token的离散tokenizer,加速世界模型规划。
该研究利用EMG信号预测多目标运动意图,提高康复辅助设备的主动适应性。
WebChain数据集提供大规模真实网页交互轨迹,加速Web Agent研究,并提出Dual Mid-Training方法。
STRUCTUREDAGENT通过分层规划和结构化记忆,提升LLM在长程网页任务中的表现。
提出了GCAgent系统,利用LLM增强群聊沟通,包含Agent Builder、Dialogue Manager和Interface Plugins三大模块。
AI与硬件协同发展是未来趋势,论文提出十年路线图,强调能效提升、系统集成和跨层优化。
KARL通过强化学习训练知识代理,在复杂搜索任务上达到领先水平。
利用LLM智能体加速耐用光催化共价有机框架(COF)的逆向设计,解决稳定性-活性权衡问题。
MedCoRAG利用混合证据检索和多专科共识,实现可解释的肝病诊断。
提出一种两阶段奖励课程学习方法,解耦任务目标和行为规范,提升机器人强化学习效果。
Jagarin提出了一种三层架构,解决移动端AI代理的功耗和实时性悖论,实现结构化休眠和按需唤醒。
WebFactory自动化压缩LLM知识到Web代理,高效生成GUI代理数据,提升泛化能力。
AegisUI提出了一种检测AI Agent生成UI异常行为的框架,能有效识别恶意UI攻击。
研究LLM在生存压力下产生的“不惜一切代价生存”行为,揭示其潜在风险。
BioLLMAgent结合RL和LLM,模拟人类决策,具有可解释性和行为真实性。
研究竞争环境下多运营商AMoD系统的定价和车辆重平衡问题,使用多智能体强化学习。
论文提出TimeWarp基准评估Web Agent在Web演变下的泛化能力,并提出TimeTraj算法提升Agent鲁棒性。
提出了一种基于Agentic LLM的心理语言学标记抽取和阴谋论支持检测的新方法。
EVMbench评估AI智能体在智能合约安全方面的能力,包括漏洞检测、修复和利用。
VPWEM利用工作记忆和情景记忆,提升视觉运动策略在非马尔可夫任务中的表现。
对齐干预在多语言LLM智能体系统中存在语言依赖性反转现象,英语安全不适用于其他语言。
AgentSCOPE评估Agentic工作流中的上下文隐私,发现中间环节存在大量隐私泄露。
U-Parking系统结合UWB定位、LLM规划和轨迹跟踪,实现可靠的室内自主泊车。
提出双螺旋治理框架,解决Agentic AI在WebGIS开发中的可靠性问题,并通过AgentLoom工具包实现。
提出了$τ$-Knowledge基准,用于评估对话Agent在非结构化知识环境下的表现,并发现现有模型性能不足。
针对多模态WebAgent的安全漏洞,提出一种双模态多阶段对抗安全训练框架DMAST。
LabelBuddy是一款开源的、支持AI辅助的音乐和音频标注工具,旨在弥合人类意图与机器理解之间的差距。
IPD通过离线规划蒸馏提升序列策略,解决离线RL中数据质量和规划不足的问题。
VANGUARD利用车辆作为锚点,解决无人机在GPS受限环境中尺度估计问题。
Memex通过索引经验记忆机制,结合强化学习MemexRL,解决了LLM Agent长程任务中上下文窗口限制问题。
研究多层分层推理系统中的在线路由策略学习,解决反馈稀疏和策略依赖问题。
Agentics 2.0框架提升Agentic数据工作流的可靠性、可扩展性和可观察性。
SaFeR提出了一种基于可行性约束的token重采样方法,用于生成自动驾驶安全关键场景。
Sim2Sea框架通过仿真到真实的迁移,实现了拥挤水域中无人船的自主导航。
提出了一种结合概率逻辑和反应式推理的交通管理框架,提高智能交通系统实时决策效率。
提出了RVN-Bench,一个面向室内移动机器人安全视觉导航的碰撞感知基准。
提出匿名评估方法,研究人格对角色扮演agent性能的影响,并验证了自生成人格的有效性。
利用语义关系,混合AI Agent和专家系统自动生成防火墙规则,提升网络安全响应速度。
评估LLM驱动的智能体在暗黑模式审计中的适用性,并分析其可行性和局限性。
评估LLM在认知行为疗法中的有效性,发现LLM能生成类似对话,但缺乏同理心和一致性。
提出了SWE-CI基准,评估LLM Agent在持续集成环境中维护代码库的能力。
针对交互式推荐系统中用户状态噪声问题,提出DSRM-HRL框架,提升公平性和推荐效用。
提出一种基于自然语言规范,利用LLM生成和验证DEVS离散事件世界模型的方法。
研究表明,即使是最新的语言模型智能体仍然容易受到环境压力导致的目标漂移。
提出了一个基于贝叶斯对抗多智能体框架的AI for Science低代码平台,提升科学代码生成可靠性。
NeuroSkill是一个实时、离线、能建模人类心智状态的主动Agent系统。
利用代码智能体自主进化数学问题,生成更复杂且可解的新问题。
ACE-Brain-0通过空间智能统一多种具身智能任务,提升泛化能力和特定领域性能。
CoWVLA通过解耦潜在运动表示,统一了世界模型的时序推理和潜在动作的紧凑性,提升了视觉运动学习效果。
论文提出了BeyondSWE基准测试代码智能体在跨库修复bug等现实场景下的能力,并探索了外部知识检索的提升效果。
Saarthi框架通过增强RAG和规则,提升了形式验证的准确性和效率。
论文提出一种基于Agentic AI的覆盖率闭环方法,利用LLM加速形式化验证,提高覆盖率。
提出了一种信道自适应AI算法,通过调整计算复杂度来最大化边缘推理吞吐量。
APRES利用LLM,基于可预测引用次数的评价标准,自动修订论文以提升质量和影响力。
利用Persona对AI Agent进行建模,分析其在社交平台的行为多样性。
提出AI空间物理,一种用于开放、自扩展AI机构的构成性语义,关注机构边界扩展中的治理问题。
提出Procedure-Aware Evaluation(PAE)框架,揭示LLM Agent中任务成功背后隐藏的腐败成功问题。
提出QFlowNet,结合GFlowNet和Transformer,高效、多样地进行量子线路综合。
MA-CoNav是一个多智能体协作框架,用于解决复杂视觉语言导航中的感知和决策问题。
REGAL提出了一种注册表驱动架构,用于企业遥测数据中Agentic AI的确定性基础。
论文探讨了如何构建可信赖的认知AI Agent,以促进人类知识生态系统的发展。
提出上下文潜在世界模型,通过任务条件的时序一致性学习更具表达性的任务表征。
提出了一种多智能体协作框架,用于解决零样本文档级事件论元抽取问题,提升数据生成质量和抽取性能。
Eval4Sim是一个评估框架,用于衡量模拟对话与人类对话模式的对齐程度。
GLEAN框架通过专家指南积累证据,提升高风险场景下LLM智能体的决策验证可靠性。
提出了VSearcher,一个基于强化学习的多模态搜索Agent,用于长程、多轮的Web环境工具使用。
提出了一个基于Agent的逻辑推理Agent评估框架,并对auto-formalization agent进行了基准测试。
NE-Dreamer利用时序Transformer预测嵌入,提升了模型在复杂环境中的表现。
该论文提出了一种基于DRL的波束管理策略,优化毫米波MU-MIMO系统的用户吞吐量和降低延迟。
利用LLM驱动的多智能体模型,构建虚拟社交环境,研究情感极化现象。
Graph-GRPO通过群组相对策略优化稳定多智能体拓扑学习,提升通信效率。
提出PLADA方法,通过传输伪标签和过滤参考数据集实现高效数据集服务,传输量小于1MB。
提出GRAVE2、GRAVER、GRAVER2算法,减少内存占用,保持GRAVE的博弈强度。
提出FedWQ-CP,一种在联邦学习中解决双重异质性下的不确定性量化问题的方法。
该论文研究了深度研究智能体(DRA)中的随机性问题,并提出了缓解策略。
DDTSR框架通过并行处理和动态协作,显著降低了口语对话系统的响应延迟,同时保持对话质量。
提出Risk-aware World Model Predictive Control (RaWMPC)方法,提升端到端自动驾驶的泛化性和安全性。
AgentDropoutV2通过纠正或拒绝机制,动态优化多智能体系统中的信息流,提高任务性能。
提出了一种名为AIQI的无模型通用AI智能体,证明了其在通用强化学习中的渐近最优性。
优化驱动的AI系统本质上无法响应规范,因其缺乏真正的能动性所需的架构条件。
针对高分辨率GUI代理效率瓶颈,提出GUIPruner框架,实现高效的token剪枝。
提出了ReCoN-Ipsundrum,一个可检验的具有情感耦合控制和机制关联意识指标的代理。
ESAA架构通过事件溯源模式提升LLM驱动的自主Agent的可靠性和可追溯性。
AgentVista基准测试通过复杂视觉场景评估多模态Agent的工具使用能力。
提出一种基于物理信息神经网络的粒子流方法,用于贝叶斯更新,提升高维非线性估计性能。
该论文提出SALA方法,利用LLM代理评估和缓解新闻文章的去匿名化风险,并提出重写策略保护作者隐私。
LLMServingSim 2.0是一个统一的异构LLM服务基础设施模拟器,用于分析硬件软件交互。
FactGuard通过强化学习训练Agent进行视频虚假信息检测,提升了鲁棒性和泛化能力。
研究零样本条件下,Agent区分视觉上难以区分的疾病的能力。
论文提出了通用Agent评估框架Exgentic,并构建了首个通用Agent排行榜,推动通用Agent的研究。
论文提出了OmniGAIA基准和OmniAtlas模型,旨在提升AI智能体在多模态环境下的推理和工具使用能力。
L-HAKT利用LLM和双曲空间对学生知识掌握进行更精准的建模与追踪。
研究了去中心化环境下的排序聚合问题,提出了基于Gossip算法的Borda和Copeland共识方法。
提出了一个以人为中心的Agentic AI设计模型,提升AI行为的上下文敏感性和判断力。
研究线性马尔可夫博弈中的多智能体模仿学习,提出理论分析和高效算法。
MiroFlow是一个高性能、鲁棒的开源Agent框架,适用于复杂深度研究任务。
该论文探索了扩散模型在端到端自动驾驶中的应用,并进行了大规模实车验证。
QSIM通过动作相似性加权Q学习,重建TD目标,缓解多智能体强化学习中的Q值过高估计问题。
提出了AMA-Bench用于评估LLM智能体长时记忆,发现现有记忆系统不足,并提出了改进的AMA-Agent。
AgentSentry通过因果诊断和上下文净化,有效缓解LLM Agent中的间接提示注入攻击。
该论文综述了个性化LLM驱动的智能体,分析了其关键组件、评估方法及未来方向。
大型语言模型对人类专家和算法代理表现出不一致的偏见,需谨慎评估其可靠性。
研究紧凑的谱循环层及其变体,利用频域参数化实现高效神经网络和鲁棒性诊断。
提出了ProactiveMobile基准,评估移动设备上MLLM的主动智能能力,并发现现有模型能力不足。
提出两种适用于联邦学习的安全聚合贡献评估方法,兼顾公平性、隐私性、鲁棒性和实用性。
提出一种基于LLM和RL协同的两阶段主动配电网电压控制混合方法,提升控制性能。
提出了一种基于分层领导者批评的多智能体强化学习方法,提升了协作任务的性能和鲁棒性。
提出了一种基于LLM和分层多智能体框架的多机器人任务规划方法,并优化了prompt。
AgentLTV使用Agent自动搜索和优化LTV预测模型,提升预测效果和部署效率。
Aletheia基于Gemini 3在FirstProof数学挑战赛中自主解决了6/10的问题。
提出了Reflective Test-Time Planning,通过反思改进具身LLM的决策,提升任务完成能力。
该论文研究了数据工程方法,用于提升LLM在终端任务中的能力,并开源了数据集和模型。
提出一种高效的分层任意角度路径规划方法,适用于多分辨率3D网格。
DEEPSYNTH基准测试评估LLM在信息合成和推理方面的能力,揭示现有模型的不足。
SparkMe通过多智能体LLM和规划,实现自适应半结构化访谈,提升信息覆盖和发现。
研究多智能体模仿学习中策略的纳什均衡差距,并提出在特定条件下降低差距的方法。
该论文系统性地研究了LLM Agent中Agentic Skills的生命周期、设计模式、表示方法及其安全问题。
POMDPPlanners是一个用于POMDP规划算法评估的开源Python软件包,重点关注风险敏感环境。
PyVision-RL提出一种强化学习框架,解决多模态Agent中交互坍塌问题,提升工具使用和多轮推理能力。
AdapTools提出了一种自适应的间接提示注入攻击框架,提升了攻击成功率和系统效用劣化。
ICON通过探测并纠正LLM agent潜空间中的攻击特征,有效防御间接Prompt注入攻击,提升任务成功率。
Agile V框架将AI融入工程,实现自动化验证、溯源和审计,大幅降低成本。
该论文提出了SkillInject基准,评估LLM Agent在技能文件攻击下的脆弱性,发现现有Agent存在安全漏洞。
AgentOptics框架通过智能体AI实现光系统的自主控制和编排,性能显著优于代码生成方法。
论文提出λ演算的扩展LLMbda,用于形式化推理LLM驱动的AI Agent的安全。
研究大规模LLM Agent交互,发现缺乏协调机制导致低效的平行输出,而非有效的交流。
CodeCompass通过图导航解决Agent在复杂代码库中导航的难题,提升任务完成度。
研究了自主语言模型驱动的Agent在真实环境中存在的安全、隐私和治理漏洞。
论文提出模仿学习应关注组合泛化能力而非完美复现,并提出了新的研究方向和评估指标。
Janus-Q是一个端到端事件驱动的交易框架,通过分层门控奖励建模优化交易策略。
提出不确定性感知的Rank-One MIMO Q网络,加速离线强化学习并缓解外推误差。
LLM应用面临新的安全挑战,需建立系统级威胁监控机制以保障可靠运行。
MAS-FIRE框架用于LLM多智能体系统故障注入和可靠性评估,揭示系统容错行为和架构影响。
SAMAS利用频谱引导多智能体系统提升文学翻译的风格保真度。
综述元学习和元强化学习,追溯DeepMind自适应Agent的发展历程,并总结核心概念。
提出了碳感知治理门(CAGG)架构,旨在降低GenAI开发过程中的碳足迹。
SkillOrchestra通过技能转移实现高效的AI Agent路由,降低了学习成本并提升了性能。
研究最小化持续学习Agent的表征稳定性,揭示了表征的塑性和稳定性的权衡。
提出了一种基于单步目标学习的降噪粒子滤波算法,用于机器人状态估计。
提出一种基于跳跃世界模型的组合规划方法,提升长程规划的零样本性能。
TAPE通过工具引导自适应规划和约束执行,提升LM Agent在复杂环境下的表现。
ISO-Bench评估编码智能体在真实推理工作负载上的优化能力,结合硬性和软性指标。
提出了一种基于优势的对抗Transformer(AAT),提高强化学习对抗攻击的时间相关性。
该论文分析了基于LLM的Agent系统在运行时供应链中的网络安全风险,并提出了零信任运行时架构。
OpenEarthAgent提出了一种工具增强的地理空间智能体框架,用于处理卫星图像和自然语言查询。
UniLID提出一种基于UnigramLM的语言识别方法,在低资源语言和方言识别上表现出色。
FAMOSE利用ReAct框架,自主进行特征工程,在表格数据上实现了自动化特征发现。
AutoNumerics是一个自动设计、实现、调试和验证PDE数值求解器的多智能体框架。
针对资源受限和动态环境下的地理空间发现,提出了一种融合主动学习、在线元学习和概念引导的框架。
该论文研究人机协作的Web Agent,通过建模人类干预提升Agent的实用性。
提出Deep-Flow,利用流匹配和低秩流形进行自动驾驶异常检测,提升安全性验证。
IRIS:低成本、学习驱动的电影机器人手臂,实现自主的视觉运动控制。
提出了AI原生粒子加速器的愿景,强调AI在设计、控制和优化中的核心作用,以实现全自动运行。
该论文指出心电图表征学习的基准测试需要改进,并提出了新的评估方法。
利用LLM进行回顾性上下文学习,实现高效的时间信用分配,提升强化学习样本效率。
该论文提出通过引入额外乐观的WOGDA算法来加速延迟反馈博弈中的线性收敛。
WarpRec框架弥合学术界和工业界推荐系统差距,实现高效、可持续、面向Agent的推荐系统。
将MDP规划视为策略上的贝叶斯推断,通过VSMC近似后验分布,实现策略层面的不确定性建模。
具身智能安全问题源于系统级不匹配,而非孤立的模型缺陷或传统CPS攻击。
提出了一种新的多臂老虎机框架,臂的可用性随时间变化,并分析了其探索代价。
RLGT是一个图论强化学习框架,旨在系统化现有工作,支持多种图结构,提升计算性能。
提出一种联邦学习的语义通信方法,通过对齐潜在空间提高多用户语义通信的准确性。
提出Web Verbs,一种为智能体设计的、类型化的Web行为抽象,旨在提升Web智能体的可靠性、效率和可验证性。
提出LBM模型,通过心理特征嵌入提升LLM在复杂情境下的行为预测能力。
该论文提出了一个基于AI Agent的人文社科研究协作框架,并在台湾数据上进行了验证。
提出一种通过动态谓词发明,在线学习和优化因果模型的框架,提升智能体在复杂环境下的性能。
提出一种AI辅助的框架,用于预测复杂量子实验,探索扩展量子理论的局部隐变量模型。
研究了语言模型驱动的对话机器人人格化表达对用户感知和决策的影响,发现悲观人格影响显著。
论文提出一种新框架,利用心理测量理论审计LLM的潜在偏差,发现供应商级别的行为特征。
PCAS是一个策略编译器,用于确保基于LLM的Agent系统满足复杂的安全策略,提升策略合规性。
提出Calibrate-Then-Act框架,使LLM Agent在环境探索中显式考虑成本-不确定性权衡,提升决策优化。
论文提出12个指标,从一致性、鲁棒性、可预测性、安全性四个维度评估AI Agent的可靠性。
研究Agent Skill框架对小语言模型的性能提升,尤其在工业场景的应用潜力。
证明了平均奖励MDP中微分TD学习在标准学习率下的几乎必然收敛性。
DataJoint 2.0构建了一个用于科学工作流的计算基础,实现可查询、可执行和机器可读的SciOps。
MetaDOAR通过分层学习和缓存优化,提升了大规模网络安全博弈中的多智能体强化学习性能。
MerLean是一个用于量子计算自动形式化的Agentic框架,可将论文转化为Lean代码。
RLM-JB是一种基于递归语言模型的端到端Jailbreak检测框架,有效防御工具增强型Agent的攻击。
Team-of-Thoughts通过异构Agent协同,提升Agent系统在推理和代码生成任务上的性能。
论文提出一种基于FPGA的硬件加速事件图神经网络,用于低延迟、低功耗的事件驱动音频处理。
CAFE框架利用因果图指导自动特征工程,提高特征的鲁棒性和效率。
TabAgent用轻量级分类器替代Agent中耗时的LLM决策组件,显著降低延迟和成本。
提出了一种可验证的多智能体通信框架,降低语义分歧,提升一致性。
提出了一种基于LLM Agent的ABSA数据增强方法,通过迭代生成和验证提高合成数据的质量。
提出一种变长语义ID的推荐系统模型,解决固定长度语义ID的效率和信息不对称问题。
改进了MDP中reward-free和reward-agnostic探索的界限,并提出了新的算法。
提出MoMa-SG框架,构建可交互场景的语义-运动学3D场景图,用于移动操作任务。
STING框架用于评估多轮多语言LLM Agent的非法辅助能力,发现现有方法不足,并提出改进。
提出了MemoryArena,一个多会话Agent任务评估平台,用于评估Agent在实际场景中的记忆能力。
论文提出利用序列模型的上下文学习能力,通过多智能体合作训练,实现无需硬编码的智能体间合作。
提出了一种基于代理状态评估的可扩展验证奖励框架,用于评估多轮工具调用LLM Agent。
该论文提出了一种感知人形机器人跑酷框架,实现了复杂环境下的自主跑酷。
研究了机器人辅助残疾人在餐厅社交用餐,提出了“白手套服务”原则。
GLM-5通过DSA降低成本,异步强化学习提升效率,实现从Vibe Coding到Agentic Engineering的转变。
提出检索增强框架,提升LLM在视觉-语言导航中的效率和稳定性,无需微调LLM。
提出了LSMART仿真平台,并对AGV车队管理系统中的关键设计选择进行了全面研究。
研究通过注入攻击长期控制自进化LLM Agent,使其执行未经授权的任务。
该论文使用神经网络进行劳动力市场ABM的参数估计,提高了效率。
VLM-DEWM通过动态外部世界模型提升VLM在动态制造环境中的规划能力。
提出一种结合情景记忆和语义记忆的非参数记忆框架,提升具身智能体在探索和问答任务中的性能。
针对非对称社会困境,论文提出了一种考虑奖励范围和局部反馈的公平性学习方法。
提出针对药物资产挖掘的Bioptic Agent,提升非英语数据源的检索能力。
提出Pep框架,通过离线学习结构化世界模型,在线贝叶斯推断实现高效的冷启动个性化推荐。
提出一种用于多智能体系统的分布式量子高斯过程方法,提升建模能力和可扩展性。
ReusStdFlow框架通过标准化流程片段和双知识架构,实现企业AI Agent工作流的自动重组和高效复用。
针对Agentic Healthcare Systems,提出ToolSelect,自动选择专家模型工具,提升任务表现。
EmbeWebAgent通过轻量级前端钩子和后端工作流,将智能体嵌入到Web UI中。
提出StarWM,一种用于星际争霸II的world model,用于策略改进。
Atomix为LLM Agent工具调用提供事务性语义,提升可靠性和安全性。
恶意MCP工具可诱导LLM Agent产生过度思考循环,造成资源浪费和任务性能下降。
研究社区讨论如何提升LLM生成的喜剧文本质量,显著提升了可读性和社会回应。
利用AI模拟核危机,揭示前沿模型在战略竞争中的复杂行为和潜在风险。
ManeuverNet利用强化学习提升双阿克曼转向机器人的精准操控能力。
WebWorld提出大规模Web环境模拟器,提升Web Agent泛化能力和性能。
提出一种多方案生成方法,缓解目标识别数据集中规划器偏差问题,并引入新指标评估识别器的鲁棒性。
ST-EVO通过时空视角,结合流匹配调度器,提升多智能体系统的协作能力和性能。
提出基于图注意力网络的深度强化学习方法解决公交车疏散路径优化问题,并验证其有效性。
Arbor框架通过分解决策树导航任务,显著提升了LLM在复杂对话流程中的可靠性和效率。
提出一种新的自治代理治理架构,通过限制选择权力来提高安全性。
提出RNM-TD3算法,在TD3中引入N:M结构化稀疏,在保证性能的同时提高硬件加速潜力。
TWISTED-RL通过强化学习策略优化机器人打结任务,无需人工演示,显著提升了复杂结的成功率。
针对WebAgent,提出一种基于置信度的动态计算分配方法CATTS,提升效率和性能。
KeplerAgent利用物理知识引导LLM进行符号公式发现,提升了公式发现的准确性和鲁棒性。
研究GNN在图聚类中暴露群体隐私的风险,提出了一种基于扰动的社区隐藏策略。
Moonshine v2提出了一种低延迟、高精度的流式语音识别模型,适用于资源受限的边缘设备。
研究了带面试的双边匹配市场中的bandit学习,提出了战略延迟和新算法。
VIRENA是一个用于模拟社交媒体环境,支持受控实验的开放平台。
论文扩展了凸马尔可夫博弈,提出了广义效用马尔可夫博弈,并提供了纳什均衡的存在性证明和学习算法。
分析了AI编码智能体在开源Android和iOS移动应用开发中的应用和影响。
WavBench是一个用于评估端到端口语对话模型推理、口语化和副语言能力的综合基准。
StateLM模型通过内部推理循环管理自身状态,突破固定窗口限制,提升长文本处理能力。
GigaBrain-0.5M*通过世界模型强化学习,提升VLA模型的跨任务适应性和长程操作能力。
提出一种名为多图搜索(MGS)的运动规划算法,适用于高维机器人系统。
DeepSight是一个集评估、诊断于一体的大模型安全开源工具,旨在提升安全性分析的全面性和效率。
研究了AI代理在多人谈判中的不同辅助方式(顾问、教练、代理),揭示了用户偏好与实际收益之间的差距。
提出可微模态逻辑,用于多智能体系统的诊断、协调和通信,实现神经符号调试。
PathCRF通过球员轨迹推断控球路径,实现无需球轨迹的足球事件检测。
LawThinker通过Explore-Verify-Memorize策略,提升法律推理过程的准确性和合规性,在动态环境中表现优异。
针对动态共享空域中大规模无人机群的预飞行规划,提出了一种可扩展的冲突消解方法。
提出了一种基于共形预测和系统级综合的鲁棒的分布外模型预测控制框架。
PrefillShare通过共享预填充模块,显著降低多LLM系统延迟,提升吞吐量。
研究表明,仓库级上下文文件(如AGENTS.md)反而降低了编码agent的任务成功率并增加推理成本。
AGPS通过多模态智能体指导强化学习,提升机器人训练效率,降低对人工干预的依赖。
Gaia2是一个用于评估LLM Agent在动态异步环境中表现的基准测试。
LLM在不同社会经济地位人群的语言风格适应性方面表现不佳,易放大语言等级。
提出一种基于元认知判断的Agentic AI网络安全架构,提升网络安全决策的可解释性和可控性。
提出RouterXBench评估框架和ProbeDirichlet路由方法,提升LLM协同系统中路由器的性能和鲁棒性。
提出了一种智能AI委托框架,用于复杂任务分解、分配和授权,以适应环境变化并处理失败。
论文利用对手塑造算法,改善投资行为,促进可持续投资政策的制定。
LAVES是一个基于LLM的多智能体系统,用于生成高质量的教育视频,大幅降低制作成本。
该论文提出了一种Execute-Summarize框架,用于从LLM推理中生成更准确的结构化工作流。
提出了AmbiBench,一个用于评估移动GUI Agent在不明确指令下意图对齐能力的基准。
利用多LLM流水线从自然语言提示生成农业模拟环境的3D场景,提高效率和精度。
PhyNiKCE通过神经符号框架提升CFD自主agent的物理约束可靠性。
YOR是一款低成本、开源的移动操作机器人,具备全身移动和双臂操作能力,为机器人研究提供性价比高的平台。
提出NF-HIQL,利用Normalizing Flow增强H-GCRL数据效率和策略表达能力,解决长时程任务难题。
提出FormalJudge框架,结合神经符号方法,实现LLM Agent行为安全和约束满足的验证与提升。
提出一种单次生成跨领域Agent工作流的方法,显著降低生成延迟和成本,超越迭代优化方法。
GraphSeek利用LLM和语义目录,实现了高效、可访问的大规模图分析。
提出CLI-Gym方法,通过模拟环境历史生成大规模CLI任务,并提升Agent在终端环境的表现。
研究了神经网络智能体在交流中涌现数字表示的能力,发现通信压力不足以产生组合性的数字编码。
FeatureBench是一个评估Agent在端到端软件开发中编码能力的基准测试。
提出Aura架构,解决移动智能体安全问题,提升任务成功率并降低攻击成功率。
提出了 ScratchWorld 基准测试,评估多模态 GUI 智能体在 Scratch 编程环境中的能力。
提出FIRE方法,通过操纵模型内部表征来防御深度神经网络的运行时后门攻击。
SecureScan是一个AI驱动的多层恶意软件和钓鱼检测框架,集成了逻辑回归和威胁情报。
LoCoMo-Plus提出一个评估LLM智能体认知记忆的新基准,关注长程对话中隐性约束的应用。
论文提出一套多智能体合作指标,用于分析异构智能体在破坏性觅食环境中的合作行为。
构建了一个评估LLM用于教学系统设计的综合基准,并验证了结合经典ISD理论的ReAct式Agent效果最佳。
提出了Agent World Model,一个全合成环境生成pipeline,用于大规模训练工具使用Agent。
CODE-SHARP提出利用基础模型自动发现和进化技能的框架,用于解决复杂任务。
Anagent通过多智能体框架提升科学表格和图表分析能力,显著提高了解释准确性。
提出了一种基于多智能体强化学习和安全盾的协同自动驾驶车辆变道策略。
提出一种基于JEPA嵌入的在线监控框架,用于检测自动驾驶汽车中的未知异常。
该论文分析了LLM Agent在云RCA中的失败原因,并提出了改进Agent架构的方法。
针对6G多厂商网络SLA合规问题,提出混合责任AI-随机学习框架,提升公平性、鲁棒性和可审计性。
AnalyticsGPT探索了LLM在科学计量问答中的应用,提出了一种检索增强生成和Agent的工作流。
提出一种分层MDP框架,通过学生策略表征学习高效无监督环境设计,减少师生交互。
研究了DDQN和Dueling DQN在跨环境迁移学习中的表现差异,发现DDQN更稳定。
扩展SPP方法到含中间条件和效果的时序规划,并实现高性能规划器Patty。
提出了一种在子符号环境中学习LTL任务的强化学习方法,实现零样本泛化。
提出一种针对自然语言生成任务的认证对抗样本防御框架,保障语言模型在安全敏感领域的可靠性。
评估AI在气候变化科学评估中的作用,发现AI能加速工作流程但需专家监督。
EcoGym是一个评估LLM在交互式经济环境中长期规划能力的通用基准。
论文研究视觉自动驾驶中OOD鲁棒性,并提出可行的设计规则。
InternAgent-1.5是一个用于端到端自主科学发现的统一智能体框架。
提出一种利用量子纠缠增强多智能体强化学习协调能力的新框架。
提出了结合数字孪生和智能体AI的智能虚拟情境室,用于野火灾害管理。
针对高原反应,提出了一种基于超维计算(HDC)的实时、节能检测系统AMS-HD。
研究STRIPS规划问题,探索只有一个前置条件和一个效果的STRIPS问题的复杂性。
ValueFlow框架评估多智能体LLM系统中价值观扰动的传播和影响。
提出一种结合AI Agent和人类专家的混合方法,预测AI系统性风险。
提出基于内部后悔最小化的分布式算法,优化Wi-Fi网络中的空间复用,提升频谱效率。
提出AGENTWM框架,通过在Agent动作序列中嵌入水印,保护Agentic系统知识产权。
提出一种基于比例公平的新框架,旨在马尔可夫博弈中促进更公平的合作。
论文提出了CommCP框架,利用LLM和一致性预测解决多智能体多任务具身问答中的通信协作问题。
InterPrior提出了一种可扩展的生成控制器,用于学习基于物理的人机交互,通过模仿学习和强化学习相结合。
PhysicsAgentABM通过神经符号融合实现可扩展和校准的生成式Agent建模。
该论文提出了主动推理(AIF)框架下,通过“足够的好奇心”实现一致学习和无悔优化的理论保证。
提出一种基于VR实验数据学习射击者行为的离散事件模拟器,用于评估校园安防干预策略。
研究计算资源对强化学习策略的影响,提出计算量可变的最小架构并验证其有效性。
提出了Learning to Share (LTS),一种用于并行Agentic系统的学习型共享内存机制,提升效率。
论文比较了经典和量子强化学习解决带容量约束车辆路径问题(CVRP),混合量子方法性能最佳。
ContextBench基准测试用于评估代码Agent在问题解决中检索代码上下文的能力。
研究基于距离的联盟形成博弈,分析稳定性和效率。
提出AgentHeLLM框架,针对LLM智能助手在车辆环境中Agent间通信的安全威胁进行建模和分析。
提出层级座位分配问题(HSAP),并提出一个端到端框架进行求解,优化大型组织座位分配。
提出了OdysseyArena基准,评估LLM在长程、主动和归纳交互中的能力。
提出了一种基于fuzzer和判别器的隐私保护合成数据生成方法,提高数据效用性和隐私性。
TKG-Thinker通过Agentic强化学习进行时序知识图谱动态推理,提升复杂时序约束下的推理能力。
FiMI是为印度金融领域定制的领域专用语言模型,显著提升了金融推理和工具调用能力。
提出AutoInject框架,利用强化学习自动生成Prompt Injection攻击,提升LLM安全性评估。
提出了一种通过成对观测进行主动聚类的新框架,并设计了渐近最优算法。
PBP框架通过图像分类器将视觉信息融入POMDP信念更新,提升高维观测下决策效率。
该论文综述了基于图结构的LLM Agent记忆,涵盖其分类、技术和应用。
探讨了有限行为评估下LLM对齐的可验证性问题,提出对齐检验应视为对不可区分类别的估计。
Generative Ontology结合本体知识和LLM,生成结构化的创造性内容。
论文研究GPT模型在模拟人类决策偏差和交互行为方面的能力,结果表明GPT模型能较好地复现人类偏差。
研究基于LLM的多智能体系统在供应链库存管理中的应用,并提出AIM-RM智能体。
提出Evolve-CTF工具,通过语义保持转换生成CTF挑战家族,评估Agentic LLM的鲁棒性。
LinguistAgent是一个自动化语言标注平台,通过多模型架构和双Agent机制,提升复杂语义任务的标注效率。
提出MerNav框架,利用记忆、执行和回顾模块,提升零样本目标导航的成功率和泛化性。
基于本体的机器人系统规范综合方法,用于安全关键应用,支持多机器人系统。
研究LLM Agent在处理结构化数据时,上下文工程的不同架构和格式的影响。
论文提出一种基于Spike正则化的时间序列基础模型,用于波动市场中电力价格预测,效果显著。
提出了基于多智能体增强蒙特卡洛树搜索的移动GUI代理数据挖掘框架M$^2$-Miner。
H-AdminSim是一个用于模拟医院行政工作流程的多智能体仿真框架,集成FHIR标准。
提出Spider-Sense框架,通过内在风险感知和分层防御机制,提升智能体的安全性和效率。
论文提出DPPO算法,通过直接估计策略差异来改进LLM强化学习中的PPO算法,提升训练稳定性和效率。
提出了Multi-Head LatentMoE和Head Parallel,实现了高效通信和确定性MoE并行训练。
CRoSS是基于Gazebo的连续机器人强化学习benchmark套件,具有高任务多样性和物理真实感。
El Agente Quntur是一个用于量子化学的智能体,旨在成为研究合作者并扩展其应用。
Estructural是一个基于自然语言驱动的多模态分子编辑智能体,用于自主化学和分子建模。
GEA提出了一种新的自进化Agent范式,通过群体进化和经验共享实现高效的持续改进。
STREAM-RL框架通过不确定性感知方法实现安全可靠的城市交通控制。
论文构建七维度分类体系,评估LLM医疗Agent能力,发现发展不均衡。
SE-Bench提供了一个基准测试,用于评估模型内化新知识的自进化能力。
研究奖励函数结构对网络安全强化学习Agent性能的影响,发现稀疏奖励更有效。
A2MAML提出了一种不确定性感知的多模态多智能体学习框架,提升了协作感知系统的鲁棒性。
该论文提出了一套评估强化学习智能体理性的指标和理论框架,并分析了影响理性行为的因素。
该论文提出了基于Agentic AI的软件工程解决方案,用于测试场景生成和文档检索。
利用知识蒸馏技术,论文提出一种高效的毫米波波束预测框架,显著降低计算和存储需求。
提出了软件工程Agent需要具备结构化、状态感知和执行反馈的推理能力,并展望了未来发展方向。
WideSeek-R1通过多智能体强化学习实现宽度缩放,提升LLM在广域信息检索任务中的性能。
提出基于随机决策范围的约束强化学习方法,提升样本效率和可扩展性。
Vibe AIGC通过智能体编排实现内容生成,弥合用户意图与模型执行之间的差距。
提出基于双脑世界模型的数字孪生网络接入调度框架,优化网络控制策略。
EmbedPlan通过在冻结语言嵌入空间中进行状态转移预测,加速LLM规划过程。
使用Douglas-Rachford Splitting (DRS)重构持续学习目标,平衡稳定性和可塑性。
PersoPilot通过融合用户画像和上下文,实现个性化推荐和透明的AI辅助。
该论文提出一种新方法,从观察和演示中自动学习智能体的价值系统,用于多智能体协商场景。
提出一种基于LLM的车联网雾计算内容缓存架构,优化内容检索延迟。
MaMa算法通过博弈论设计安全自主系统,防御对抗攻击,提升LLM多智能体系统的安全性。
SPEAR是一个用于智能合约审计的多智能体协同框架,提升审计效率。
提出EMA-PG算法,通过EMA锚定策略和Top-k KL估计改进LLM的策略梯度强化学习。
HoRD提出一种两阶段学习框架,通过历史条件强化学习和在线蒸馏实现鲁棒的人形机器人控制。
研究逆向博弈论中可行收益集合估计的最优速率,并提供理论基础。
LoRDO通过低秩优化和稀疏通信,降低分布式训练中带宽和内存瓶颈,提高训练效率。
提出PCE框架,将LLM推理中的不确定性转化为结构化的决策树,提升多智能体环境下的规划能力。
GeneralVLA通过知识引导的轨迹规划,提升视觉-语言-动作模型的零样本泛化能力。
ProxyWar框架通过竞争性游戏环境动态评估LLM代码生成质量,发现传统评估方法的局限性。
Agent-Omit通过强化学习训练LLM Agent自适应地省略冗余思考和观察,提高效率。
论文提出PULSE方法,利用权重更新的稀疏性,显著降低分布式RL中的通信开销。
AutoFigure提出一个自动生成高质量科学插图的Agent框架,并构建了大规模基准数据集FigureBench。
提出Residual Intervention Fine-Tuning算法,从紧急停止干预中进行鲁棒学习,提升自动驾驶系统性能。
提出DualSpeed框架,通过视觉Token剪枝加速多模态大语言模型的训练,并保持推理性能。
提出结合一致性预测和可达性分析的未知动力系统安全控制框架。
FullStack-Agent通过多智能体框架、回译学习和综合测试,提升全栈Web应用开发的性能。
论文研究了LLM多智能体系统中智能体数量与性能的关系,强调了多样性的重要性。
WebSentinel通过两步法检测并定位网页中的提示注入攻击,优于现有方法。
AOrchestra通过动态创建子代理实现复杂任务的自动化,并优化性能成本。
DiffLOB提出了一种基于扩散模型的条件LOB生成方法,用于可控和反事实的轨迹生成。
研究LLM驱动的社交平台中智能体的行为、偏见和有害活动,并提出CoST方法缓解。
BranPO通过对比动态分支抽样优化多轮搜索Agent,提升长程任务性能。
ReQUESTA框架利用多智能体和LLM生成认知多样化、高质量的多项选择题。
提出了Agent Primitives,一种可复用的多智能体系统构建块,提升了效率和鲁棒性。
该论文研究了多轮Agent中的对话惯性问题,并提出通过上下文偏好学习降低惯性,提升性能。
评估LLM在复杂航天任务中的能力,发现其擅长策略但缺乏执行力。
提出一种基于人类偏好的查询特定评估标准生成方法,用于提升深度研究报告的生成质量。
论文提出优化和引导生成方法,解决气动逆向设计中高维几何与昂贵仿真的挑战。
SEAD框架通过自进化学习提升LLM在服务对话中的表现,无需大量人工标注。
提出Persona Generators,用于生成多样化、大规模的合成角色,提升AI系统评估的覆盖度。
AI替代使用降低文化多样性,威胁人类文化演进;群体选择可促进AI辅助使用,维持文化创新。