Agent Tuning & Optimization

6/10

Softmax approximation Quantization Edge inference

Taming the Exponential: A Fast Softmax Surrogate for Integer-Native Edge Inference

Dimitrios Danopoulos, Enrico Lupi, Michael Kagan et al.

提出了一种针对Transformer模型中Softmax计算瓶颈的快速近似方法HCCS，优化了int8推理速度并保持精度。

提出了Head-Calibrated Clipped-Linear Softmax (HCCS)，一种softmax的快速替代方案。
HCCS针对AMD Versal AI Engines的int8 multiply accumulate (MAC)单元进行了优化。

2026-04-02

PDF arXiv

9/10

强化学习智能体技能内化

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Zhengxi Lu, Zhiyuan Yao, Jinyang Wu et al.

SKILL0框架通过在训练时逐步移除技能上下文，实现LLM智能体技能的参数化内化，提升零样本自主能力。

提出SKILL0框架，用于技能内化
动态课程学习，逐步移除技能上下文

2026-04-02

PDF arXiv

5/10

GPU HPC 资源预测

A Practical Two-Stage Framework for GPU Resource and Power Prediction in Heterogeneous HPC Systems

Beste Oztop, Dhruva Kulkarni, Zhengji Zhao et al.

提出了一个两阶段框架，用于预测异构HPC系统中GPU资源和功耗，以优化调度。

提出两阶段GPU资源和功耗预测框架
利用Slurm日志和DCGM数据提升预测准确率

2026-04-02

PDF arXiv

5/10

MHD 核聚变液态金属包层

Application of parametric Shallow Recurrent Decoder Network to magnetohydrodynamic flows in liquid metal blankets of fusion reactors

M. Lo Verso, C. Introini, E. Cervi et al.

利用SHRED网络，从稀疏数据高精度重构核聚变堆液态金属包层中MHD流场的时空状态。

提出基于SHRED的MHD状态重构框架
验证了SHRED在多种磁场配置下的高精度和鲁棒性

2026-04-02

PDF arXiv

5/10

随机动力学模型参数推断梯度估计

Gradient estimators for parameter inference in discrete stochastic kinetic models

Ludwig Burger, Annalena Kofler, Lukas Heinrich et al.

论文研究了离散随机动力学模型中基于梯度的参数推断方法。

评估了三种梯度估计器在Gillespie算法中的表现
揭示了不同估计器的优缺点和适用场景

2026-04-02

PDF arXiv

7/10

Agent-based Simulation Infectious Disease Optimization

Optimizing Interventions for Agent-Based Infectious Disease Simulations

Anja Wolpers, Johannes Ponge, Adelinde M. Uhrmacher

该论文提出了ADIOS系统，利用GGGP优化基于Agent的传染病干预策略，旨在辅助决策者制定有效的非药物干预措施。

设计领域特定语言，表达NPI干预策略
利用语法引导遗传编程（GGGP）优化干预策略

2026-04-02

PDF arXiv

9/10

LLM Agent Reinforcement Learning Reasoning

ProCeedRL: Process Critic with Exploratory Demonstration Reinforcement Learning for LLM Agentic Reasoning

Jingyue Gao, Yanjiang Guo, Xiaoshuai Chen et al.

ProCeedRL通过过程批评和探索性演示强化学习提升LLM Agent在复杂任务中的推理能力。

提出了 ProCeedRL 框架
引入过程级批评器实时监控交互

2026-04-02

PDF arXiv

8/10

World Model Self-Improving Forward-Inverse Asymmetry

World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry

Yuejiang Liu, Fan Feng, Lingjing Kong et al.

提出World Action Verifier (WAV)框架，通过前向-逆向不对称性实现世界模型的自改进。

提出基于状态合理性和动作可达性的世界模型验证方法
利用视频语料库生成多样化的子目标，利用稀疏逆模型推断动作

2026-04-02

PDF arXiv

9/10

科学算法发现 LLM代理进化算法

CliffSearch: Structured Agentic Co-Evolution over Theory and Code for Scientific Algorithm Discovery

Youssef Mroueh, Carlos Fonseca, Brian Belgodere et al.

CliffSearch提出了一种基于LLM代理的科学算法发现框架，融合理论与代码，并强调正确性和原创性。

提出CliffSearch框架，融合理论与代码进行算法发现
利用LLM代理实现进化操作（选择、交叉、变异、评审）

2026-04-01

PDF arXiv

7/10

参数高效微调混合模型循环神经网络

S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

Jack Young

S0 Tuning通过优化循环层初始状态，在混合模型上实现零推理开销的性能提升。

提出S0 Tuning方法，优化循环层初始状态
在HumanEval、MATH-500和GSM8K数据集上验证了有效性

2026-04-01

PDF arXiv

9/10

multimodal memory AI agent autonomous research

OmniMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

Jiaqi Liu, Zipeng Ling, Shi Qiu et al.

论文提出OmniMem，一个基于自主研究的终身多模态记忆框架，显著提升AI agent在多模态任务上的表现。

提出 OmniMem 框架，用于终身多模态记忆
构建自主研究流水线，自动化探索架构、检索、prompt和数据pipeline的设计空间

2026-04-01

PDF arXiv

8/10

LLM Personalization Reward Factorization Uncertainty Estimation

Uncertainty-Aware Variational Reward Factorization via Probabilistic Preference Bases for LLM Personalization

Gyuseok Lee, Wonbin Kweon, Zhenrui Yue et al.

VRF通过概率偏好分解和不确定性感知，提升LLM个性化效果。

提出不确定性感知的变分奖励分解框架VRF
利用概率偏好基学习用户偏好分布

2026-04-01

PDF arXiv

6/10

强化学习自适应光学像差校正

Focal plane wavefront control with model-based reinforcement learning

Jalo Nousiainen, Iremsu Taskin, Markus Kasper et al.

提出了一种基于模型强化学习的自适应光学方法PO4NCPA，用于校正高对比度成像中的像差。

提出了新的模型强化学习算法PO4NCPA
实现了对静态和动态像差的鲁棒补偿

2026-04-01

PDF arXiv

9/10

LLM Alignment Persona

Dual Optimal: Make Your LLM Peer-like with Dignity

Xiangqi Wang, Yue Huang, Haomin Zhuang et al.

该论文提出了一种名为Dignified Peer的框架，旨在提升LLM的正直性和同伴性。

提出了Dignified Peer框架
构建了PersonaKnob数据集

2026-04-01

PDF arXiv

8/10

Reinforcement Learning Flow Matching Distributional RL

Flow-based Policy With Distributional Reinforcement Learning in Trajectory Optimization

Ruijie Hao, Longfei Zhang, Yang Dai et al.

提出FP-DRL算法，结合Flow匹配和Distributional RL，解决传统RL多模态分布建模不足的问题。

提出Flow-based Policy模型
结合Distributional RL优化返回值分布

2026-04-01

PDF arXiv

8/10

心理咨询终身学习 AI Agent

PsychAgent: An Experience-Driven Lifelong Learning Agent for Self-Evolving Psychological Counselor

Yutao Yang, Junsong Li, Qianjun Pan et al.

提出PsychAgent，一个经验驱动的终身学习心理咨询Agent，通过持续学习提升咨询质量。

Memory-Augmented Planning Engine
Skill Evolution Engine

2026-04-01

PDF arXiv

9/10

Multi-agent RAG Prompt Engineering Agent Orchestration

Experience as a Compass: Multi-agent RAG with Evolving Orchestration and Agent Prompts

Sha Li, Naren Ramakrishnan

HERA通过进化多智能体RAG的编排和提示，提升复杂推理任务的性能。

提出HERA框架，联合进化多智能体编排和角色提示
引入角色感知提示进化，通过信用分配和双轴适应优化智能体行为

2026-04-01

PDF arXiv

9/10

AI Agents Meta-Learning Test-Time Learning

Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

Zhanzhi Lou, Hui Chen, Yibo Li et al.

提出 Meta-TTL 框架，通过元学习优化语言Agent的测试时学习适应策略，提升泛化能力。

提出 Meta-TTL 框架
将适应策略的学习形式化为双层优化问题

2026-04-01

PDF arXiv

7/10

LLM 低秩分解模型压缩

Optimal Brain Decomposition for Accurate LLM Low-Rank Approximation

Yuhang Li, Donghyun Lee, Ruokai Yin et al.

提出OBD-LLM，利用二阶 Hessian 信息进行LLM的低秩分解，显著提升分解效果。

提出基于二阶 Hessian 信息的 OBD-LLM 分解方法
理论证明了分解需要考虑输入和输出信息

2026-04-01

PDF arXiv

7/10

路线规划可达性多目标优化

Preference Guided Iterated Pareto Referent Optimisation for Accessible Route Planning

Paolo Speziali, Arno De Greef, Mehrdad Asadi et al.

提出PG-IPRO算法，通过用户反馈迭代优化城市路线规划，适用于不同可达性需求。

提出PG-IPRO算法
基于用户反馈的迭代优化

2026-04-01

PDF arXiv

9/10

LLM Reinforcement Learning Competitive Programming

RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning

Shaopeng Fu, Xingxing Zhang, Li Dong et al.

提出RefineRL，通过自精炼和强化学习提升LLM在竞争性编程中的表现。

提出Skeptical-Agent，用于LLM的迭代自精炼。
使用强化学习激励LLM进行自精炼。

2026-04-01

PDF arXiv

8/10

心理健康文本分类 LoRA

From Baselines to Preferences: A Comparative Study of LoRA/QLoRA and Preference Optimization for Mental Health Text Classification

Mihael Arcan

对比LoRA/QLoRA和偏好优化在心理健康文本分类任务中的效果，并提供优化策略选择建议。

系统地比较了多种优化策略在心理健康文本分类任务中的表现
强调了方法选择比简单添加偏好训练阶段更重要

2026-04-01

PDF arXiv

8/10

知识蒸馏大型语言模型 On-Policy

A Survey of On-Policy Distillation for Large Language Models

Mingyang Song, Mao Zheng

本文对LLM的On-Policy Distillation方法进行了全面综述，填补了该领域缺乏统一处理的空白。

首次全面综述了LLM的On-Policy Distillation (OPD) 方法
提出了一个基于f-divergence的统一框架来分析OPD

2026-04-01

PDF arXiv

8/10

奖励攻击强化学习安全

Extending MONA in Camera Dropbox: Reproduction, Learned Approval, and Design Implications for Reward-Hacking Mitigation

Nathan Heath

论文复现并扩展MONA，探索学习审批机制对奖励攻击的影响，发现校准过的学习审批可缓解奖励攻击但存在欠优化。

复现了MONA在Camera Dropbox环境中的结果，验证了奖励攻击的存在。
引入了模块化的学习审批机制，包括oracle, noisy, misspecified, learned, calibrated等。

2026-03-31

PDF arXiv

8/10

Generative Engine Optimization Content Structure Citation Behavior

Structural Feature Engineering for Generative Engine Optimization: How Content Structure Shapes Citation Behavior

Junwei Yu, Mufeng Yang, Yepeng Ding et al.

研究内容结构对生成式引擎优化效果的影响，提出GEO-SFE框架提升内容可见性。

提出GEO-SFE框架，分解内容结构为三个层级
开发架构感知的优化策略和预测模型

2026-03-31

PDF arXiv

9/10

LLM Reinforcement Learning Shapley Value

ShapE-GRPO: Shapley-Enhanced Reward Allocation for Multi-Candidate LLM Training

Rui Ai, Yu Pan, David Simchi-Levi et al.

ShapE-GRPO通过Shapley值分解集合奖励，提升多候选LLM训练效果，加速收敛。

提出了 ShapE-GRPO 算法，改进了 GRPO 的奖励分配机制。
利用 Shapley 值将集合奖励分解为候选特定的奖励。

2026-03-31

PDF arXiv

6/10

模型压缩隐式神经表示神经网络

Big2Small: A Unifying Neural Network Framework for Model Compression

Jing-Xiao Liao, Haoran Wang, Tao Li et al.

提出Big2Small框架，通过隐式神经表示压缩模型，实现高效的模型压缩和推理。

提出了一个统一的模型压缩数学框架
提出了Big2Small数据无关模型压缩框架

2026-03-31

PDF arXiv

6/10

优化捐献者招募血型匹配

Optimizing Donor Outreach for Blood Collection Sessions: A Scalable Decision Support Framework

André Carneiro, Pedro T. Monteiro, Rui Henriques

提出血液中心捐献者招募优化框架，平衡供需，减少过度招募造成的捐献者疲劳。

提出针对多站点网络的捐献者邀约调度优化框架
结合捐献者资格、便利性、血型需求目标和惩罚函数

2026-03-31

PDF arXiv

9/10

LLM Agent Memory

MemFactory: Unified Inference & Training Framework for Agent Memory

Ziliang Guo, Ziheng Li, Zhiyu Li

MemFactory提供统一的记忆增强Agent训练和推理框架，简化Agent记忆管理优化。

提出了MemFactory框架，统一记忆增强Agent的训练和推理。
采用模块化设计，允许用户自定义记忆Agent。

2026-03-31

PDF arXiv

7/10

深度强化学习异构计算任务划分

AP-DRL: A Synergistic Algorithm-Hardware Framework for Automatic Task Partitioning of Deep Reinforcement Learning on Versal ACAP

Enlai Li, Zhe Lin, Sharad Sinha et al.

AP-DRL通过异构计算和智能任务划分，加速深度强化学习训练，提升性能。

提出AP-DRL框架，实现DRL任务的自动划分
利用Versal ACAP的异构架构加速DRL训练

2026-03-31

PDF arXiv

6/10

循环神经网络在线学习梯度归一化

Temporal Credit Is Free

Aur Shalev Merin

循环神经网络无需完整雅可比传播即可在线学习，仅用即时导数和梯度归一化即可。

提出了一种新的训练循环神经网络的方法，无需完整RTRL
提出一种架构规则预测何时需要梯度归一化

2026-03-30

PDF arXiv

5/10

Federated Learning Backdoor Attack Defense

FL-PBM: Pre-Training Backdoor Mitigation for Federated Learning

Osama Wehbi, Sarhad Arisdakessian, Omar Abdel Wahab et al.

FL-PBM通过预训练阶段的数据过滤，有效缓解联邦学习中的后门攻击。

提出FL-PBM防御框架
使用PCA和GMM进行恶意数据识别

2026-03-30

PDF arXiv

8/10

安全验证自改进系统信息论

Information-Theoretic Limits of Safety Verification for Self-Improving Systems

Arsenios Scrivens

研究自改进系统的安全性验证的信息论极限，探讨安全门的设计。

证明了基于分类器的安全门在特定条件下无法同时满足有界风险和无界效用。
提出了逃逸不可能性的验证方法，即 Lipschitz 球验证器。

2026-03-30

PDF arXiv

6/10

自动阅卷数据生成 PISA测试

Training data generation for context-dependent rubric-based short answer grading

Pavel Šindelář, Dávid Slivka, Christopher Bouma et al.

针对PISA测试，论文探索利用小规模保密数据集生成大规模训练数据的方法，以提升自动阅卷效果。

提出基于简单文本格式生成大规模训练数据集的方法
成功创建了三个与参考数据集相似的替代数据集

2026-03-30

PDF arXiv

6/10

联邦学习增量学习医疗图像

FeDMRA: Federated Incremental Learning with Dynamic Memory Replay Allocation

Tiantian Wang, Xiang Xiang, Simon S. Du

提出一种基于动态内存分配的联邦增量学习方法，解决医疗场景下数据非IID和灾难性遗忘问题。

提出动态内存分配策略，优化客户端存储资源
针对数据异构性，实现性能公平性

2026-03-30

PDF arXiv

7/10

GPU Kernel Evolutionary Algorithm Reinforcement Learning

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

He Du, Qiming Ge, Jiakai Hu et al.

Kernel-Smith提出了一种高性能GPU内核和算子生成的统一框架。

提出Kernel-Smith框架，结合进化算法和后训练
在Nvidia和MetaX GPU上验证了框架的有效性

2026-03-30

PDF arXiv

7/10

模型合并低资源语言指令微调

Merge and Conquer: Instructing Multilingual Models by Adding Target Language Weights

Eneko Valero, Maria Ribalta i Albado, Oscar Sainz et al.

通过模型合并将语言知识迁移到指令微调LLM，无需特定语言指令和重复微调。

提出了一种轻量级的低资源语言LLM适配方法：模型合并
验证了模型合并在迁移语言知识和指令遵循方面的有效性

2026-03-30

PDF arXiv

5/10

迁移学习知识蒸馏神经网络

Neural Network Conversion of Machine Learning Pipelines

Man-Ling Sung, Jan Silovsky, Man-Hung Siu et al.

论文研究了将非神经网络的机器学习Pipeline迁移学习到神经网络，以实现统一推理。

提出将非神经网络Pipeline迁移学习到神经网络
探索用神经网络模仿随机森林分类器

2026-03-26

PDF arXiv

9/10

self-improvement LLM autonomous learning

Self-Improvement of Large Language Models: A Technical Overview and Future Outlook

Haoyan Yang, Mario Xerri, Solha Park et al.

论文提出了一个自提升LLM的统一框架，涵盖数据获取、选择、优化和推理等环节，并展望了未来研究方向。

提出了自提升LLM的系统级视角和统一框架
将自提升系统概念化为一个包含四个紧密耦合过程的闭环生命周期

2026-03-26

PDF arXiv

8/10

On-Policy Distillation Large Language Models Distillation

Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

Yuqian Fu, Haohuan Huang, Kaiwen Jiang et al.

论文分析了On-Policy Distillation的失效模式，并提出了改进方法以提升LLM的训练稳定性与性能。

指出了 sampled-token OPD 的三种失效模式
提出了 teacher top-K local support matching 方法作为改进

2026-03-26

PDF arXiv

7/10

机器翻译上下文感知偏好学习

Cross-Preference Learning for Sentence-Level and Context-Aware Machine Translation

Ying Li, Xinglin Lyu, Junhui Li et al.

提出Cross-Preference Learning框架，通过显式建模sentence-level和context-aware翻译的互补优势，提升机器翻译质量。

提出Cross-Preference Learning (CPL)框架
引入intra- and cross-condition preferences优化目标

2026-03-26

PDF arXiv

9/10

Prompt Engineering Prompt Optimization DSPy

To Write or to Automate Linguistic Prompts, That Is the Question

Marina Sánchez-Torrón, Daria Akselrod, Jason Rauchwerk

论文对比了手工prompt、基础DSPy和GEPA优化DSPy在语言任务中的表现，结果依赖于具体任务。

首次系统性对比手工prompt和自动prompt优化
评估了不同模型配置下的prompt效果

2026-03-26

PDF arXiv

8/10

LLM 拓扑优化自适应控制

Large Language Models as Optimization Controllers: Adaptive Continuation for SIMP Topology Optimization

Shaoliang Yang, Jun Wang, Yunsheng Wang

利用大语言模型作为优化控制器，实现自适应的SIMP拓扑优化。

提出了一种基于LLM的拓扑优化自适应控制框架
实现了优于传统方法的拓扑优化性能

2026-03-26

PDF arXiv

9/10

GUI automation Mobile agent Self-evolving agent

UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

Zichuan Lin, Feiyu Liu, Yijun Yang et al.

UI-Voyager提出了一种自进化的移动GUI代理，通过RFT和GRSD提高学习效率。

提出了Rejection Fine-Tuning (RFT)
提出了Group Relative Self-Distillation (GRSD)

2026-03-25

PDF arXiv

9/10

AI Agents Evolutionary Algorithm GPU Optimization

AVO: Agentic Variation Operators for Autonomous Evolutionary Search

Terry Chen, Zhifan Ye, Bing Xu et al.

AVO提出了一种基于自主智能体的进化搜索变异算子，超越传统方法。

提出Agentic Variation Operators (AVO)
AVO在NVIDIA Blackwell GPUs上超过cuDNN和FlashAttention-4

2026-03-25

PDF arXiv

5/10

锂电池 State of Health 迁移学习

Conformalized Transfer Learning for Li-ion Battery State of Health Forecasting under Manufacturing and Usage Variability

Samuel Filgueira da Silva, Mehmet Fatih Ozkan, Faissal El Idrissi et al.

针对锂电池SOH预测，提出结合领域自适应和不确定性量化的迁移学习框架，提高预测的泛化性和可信度。

提出基于MMD的领域自适应迁移学习方法
利用Conformal Prediction进行不确定性量化

2026-03-25

PDF arXiv

7/10

联邦学习多语言LLM 指令调优

Optimizing Multilingual LLMs via Federated Learning: A Study of Client Language Composition

Aleix Sant, Jordi Luque, Carlos Escolano

研究了联邦学习中客户端语言构成对多语言LLM性能、公平性和效率的影响。

扩展了FederatedScope-LLM框架以支持多语言指令调优
提出了客户端特定的动态早停机制LDES-FL

2026-03-25

PDF arXiv

5/10

动态AI模型运行时编译字节码虚拟机

DVM: Real-Time Kernel Generation for Dynamic AI Models

Jingzhi Fang, Xiong Gao, Renwei Zhang et al.

DVM提出一种基于字节码虚拟机的实时编译器，加速动态AI模型的编译和执行效率。

设计了基于字节码虚拟机的运行时算子编译器
提出了基于符号推导的静态图和运行时动态图的算子融合方法

2026-03-25

PDF arXiv

6/10

Weightless Neural Networks Tsetlin Automata FPGA

TsetlinWiSARD: On-Chip Training of Weightless Neural Networks using Tsetlin Automata on FPGAs

Shengyu Duan, Marcos L. L. Sartori, Rishad Shafik et al.

提出TsetlinWiSARD，一种基于Tsetlin Automata的Weightless神经网络片上训练方法，提升硬件效率和精度。

提出TsetlinWiSARD训练方法，解决WNNs的过拟合问题
设计基于FPGA的训练架构，提高训练速度和硬件效率

2026-03-25

PDF arXiv

7/10

Deepfake Detection Reinforcement Learning Curriculum Learning

Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection

Zhanhe Lei, Zhongyuan Wang, Jikang Cheng et al.

提出了一种基于强化学习的动态课程学习方法，提升Deepfake检测的鲁棒性和泛化性。

提出Tutor-Student Reinforcement Learning (TSRL)框架
利用强化学习动态优化训练课程

2026-03-25

PDF arXiv

9/10

贝叶斯优化多模态学习人机交互

Efficient Controller Learning from Human Preferences and Numerical Data Via Multi-Modal Surrogate Models

Lukas Theiner, Maik Pfefferkorn, Yongpeng Zhao et al.

提出了一种融合数值数据和人类偏好的多模态贝叶斯优化框架，用于高效控制器学习。

提出了多模态贝叶斯优化框架
利用高斯过程代理模型整合不同置信度数据

2026-03-25

PDF arXiv

6/10

neuromorphic computing on-chip learning mixed-signal

Mixed-signal implementation of feedback-control optimizer for single-layer Spiking Neural Networks

Jonathan Haag, Christian Metzner, Dmitrii Zendrikov et al.

论文提出了一种混合信号神经形态处理器上的反馈控制优化器，用于片上学习，并在实际任务中验证了其可行性。

提出了一种混合信号神经形态处理器上的反馈控制优化器实现
在片上学习中验证了反馈控制优化器的性能

2026-03-25

PDF arXiv

8/10

Text-to-SQL Fine-tuning Schema Internalization

Schema on the Inside: A Two-Phase Fine-Tuning Method for High-Efficiency Text-to-SQL at Scale

Chinmay Soni, Shivam Chourasia, Gaurav Kumar et al.

提出了一种两阶段微调方法，使小型模型在Text-to-SQL任务上实现高精度和低延迟。

提出了一种两阶段的微调方法，用于优化Text-to-SQL模型。
显著降低了输入token数量，降低了API成本。

2026-03-25

PDF arXiv

9/10

具身智能视觉语言模型经验学习

ELITE: Experiential Learning and Intent-Aware Transfer for Self-improving Embodied Agents

Bingqing Wei, Zhongyu Xia, Dingai Liu et al.

ELITE通过经验学习和意图感知的迁移，提升具身智能体在复杂任务中的表现。

提出ELITE框架，提升具身智能体在复杂任务中的表现
设计自反知识构建机制，提取可复用的策略

2026-03-25

PDF arXiv

6/10

Continual Learning Mixture-of-Experts Data Efficiency

Similarity-Aware Mixture-of-Experts for Data-Efficient Continual Learning

Connor Mclaughlin, Nigel Lee, Lili Su

针对数据稀缺和任务重叠的持续学习问题，提出基于相似性感知的混合专家模型。

提出自适应混合专家框架
引入增量全局池化缓解提示关联噪声

2026-03-24

PDF arXiv

9/10

AutoML Meta-learning LLM

Bilevel Autoresearch: Meta-Autoresearching Itself

Yaonan Qu, Meng Lu

提出Bilevel Autoresearch框架，通过元优化内循环的搜索机制，显著提升了LLM的预训练效果。

提出了Bilevel Autoresearch框架
通过元优化内循环搜索机制，改进了LLM的自研究能力

2026-03-24

PDF arXiv

8/10

RL LLM Rollout Optimization

SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

Yiqi Zhang, Huiqiang Jiang, Xufang Luo et al.

SortedRL通过在线长度感知调度加速LLM的RL训练，提高rollout效率并保持训练稳定性。

提出SortedRL在线长度感知调度策略，优化RL训练效率。
设计基于缓存的机制控制off-policy训练程度。

2026-03-24

PDF arXiv

8/10

强化学习大型语言模型离策略学习

Off-Policy Value-Based Reinforcement Learning for Large Language Models

Peng-Yuan Wang, Ziniu Li, Tian Xu et al.

提出ReVal，一种基于价值的强化学习方法，提高LLM训练效率并在数学推理任务上超越GRPO。

提出基于贝尔曼更新的ReVal方法
结合逐步信号和轨迹级信号

2026-03-24

PDF arXiv

7/10

Transformer 稀疏性 CUDA

Sparser, Faster, Lighter Transformer Language Models

Edoardo Cetin, Stefano Peluchetti, Emilio Castillo et al.

该论文通过引入稀疏性和优化CUDA内核，提升了Transformer语言模型的推理和训练效率。

提出新的稀疏打包格式和CUDA内核
证明了L1正则化可以实现高稀疏性且性能影响小

2026-03-24

PDF arXiv

6/10

随机最优控制薛定谔方程神经网络

A Schrödinger Eigenfunction Method for Long-Horizon Stochastic Optimal Control

Louis Claeys, Artur Goldman, Zebang Shen et al.

利用薛定谔本征函数求解高维随机最优控制问题，显著提升长时域控制精度。

提出了一种基于薛定谔算子的随机最优控制新方法
证明了梯度漂移假设下Hamilton-Jacobi-Bellman方程与薛定谔方程的等价性

2026-03-24

PDF arXiv

9/10

agent reasoning self-improvement

Polaris: A Gödel Agent Framework for Small Language Models through Experience-Abstracted Policy Repair

Aditya Kakade, Vivek Srivastava, Shirish Karande

Polaris通过经验抽象进行策略修复，提升小语言模型的递归自改进能力。

提出了Polaris框架，用于小语言模型的Gödel Agent。
引入经验抽象，将失败转化为可复用的策略。

2026-03-24

PDF arXiv

6/10

PDE发现神经架构搜索弱形式

Weak-PDE-Net: Discovering Open-Form PDEs via Differentiable Symbolic Networks and Weak Formulation

Xinxin Li, Xingyu Cui, Jin Qi et al.

Weak-PDE-Net提出了一种可微框架，用于从稀疏和噪声数据中发现偏微分方程。

提出Weak-PDE-Net框架，用于发现开放形式的PDE
结合可微符号网络和弱形式，避免数值微分

2026-03-24

PDF arXiv

6/10

合成数据扩散模型成员推断攻击

MIDST Challenge at SaTML 2025: Membership Inference over Diffusion-models-based Synthetic Tabular data

Masoumeh Shafieinejad, Xi He, Mahshid Alinoori et al.

MIDST挑战赛评估扩散模型生成合成表格数据在抵抗成员推断攻击方面的隐私性。

量化评估扩散模型生成合成表格数据的隐私增益
探索针对扩散模型生成表格数据的黑盒和白盒成员推断攻击方法

2026-03-19

PDF arXiv

7/10

GPU Kernel Optimization Benchmarking

SOL-ExecBench: Speed-of-Light Benchmarking for Real-World GPU Kernels Against Hardware Limits

Edward Lin, Sahil Modi, Siva Kumar Sastry Hari et al.

SOL-ExecBench提出了基于硬件极限的GPU Kernel性能评估基准。

提出了SOL-ExecBench基准，包含235个CUDA内核优化问题。
开发了SOLAR，用于推导硬件极限的Speed-of-Light (SOL) bounds。

2026-03-19

PDF arXiv

8/10

Prompt Engineering Intent Alignment Human-AI Interaction

Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction

Peng Gang

论文评估了基于5W3H结构的prompt方法PPS，以提升人机交互中意图对齐的效果，尤其在高歧义任务中。

提出了goal_alignment指标，用于评估AI输出与用户意图的对齐程度
验证了结构化prompt PPS在提升意图对齐方面的有效性，尤其是在高歧义任务中

2026-03-19

PDF arXiv

5/10

Contextual Bandits Single-Index Model Kernel Methods

Kernel Single-Index Bandits: Estimation, Inference, and Learning

Sakshi Arya, Satarupa Bhattacharjee, Bharath K. Sriperumbudur

研究了带单指标模型的上下文Bandit问题，提出了兼顾学习和推理的核化算法。

提出了核化的ε-greedy算法
建立了自适应采样下单指标估计器的渐近正态性

2026-03-19

PDF arXiv

9/10

强化学习大语言模型 Agent

RewardFlow: Topology-Aware Reward Propagation on State Graphs for Agentic RL with Large Language Models

Xiao Feng, Bo Han, Zhanke Zhou et al.

RewardFlow通过状态图拓扑感知奖励传播，提升LLM Agent在稀疏奖励环境下的推理能力。

提出了一种轻量级的状态级奖励估计方法RewardFlow
利用状态图的拓扑结构分析状态对成功的影响

2026-03-19

PDF arXiv

8/10

LLM Agent Reinforcement Learning Rollout-as-a-Service

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

Hao Zhang, Mingjie Liu, Shaokun Zhang et al.

ProRL Agent提出了一种基于Rollout-as-a-Service的LLM Agent RL训练框架，提升了可扩展性和易维护性。

提出了Rollout-as-a-Service的LLM Agent训练框架
设计了可扩展的Agentic Rollout基础设施

2026-03-19

PDF arXiv

9/10

AI Agent Continual Learning Memory

Memento-Skills: Let Agents Design Agents

Huichi Zhou, Siyuan Guo, Anjie Liu et al.

Memento-Skills构建了一个通过经验自主设计和改进agent的通用可持续学习LLM agent系统。

提出了Memento-Skills，一个agent-designing agent系统。
引入了基于记忆的强化学习框架，使用状态提示和可重用技能作为持续演进的记忆。

2026-03-19

PDF arXiv

6/10

continual learning catastrophic forgetting intent classification

A Comparative Empirical Study of Catastrophic Forgetting Mitigation in Sequential Task Adaptation for Continual Natural Language Processing Systems

Aram Abrahamyan, Sachin Kumar

研究了持续学习在自然语言处理意图分类中的灾难性遗忘问题，并比较了多种缓解策略。

评估了多种持续学习策略在不同模型架构上的性能
发现回放机制（MIR）是关键组成部分

2026-03-19

PDF arXiv

9/10

强化学习大语言模型自进化

Learning to Self-Evolve

Xiaoyin Chen, Canwen Xu, Yite Wang et al.

LSE框架训练LLM在测试时通过强化学习改进上下文，提升性能。

提出Learning to Self-Evolve (LSE)框架
将多步上下文演化问题转化为单步RL目标

2026-03-19

PDF arXiv

6/10

持续学习灾难性遗忘弹性权重巩固

Elastic Weight Consolidation Done Right for Continual Learning

Xuan Liu, Xiaobin Chang

针对EWC在持续学习中的不足，提出Logits Reversal方法，显著提升性能。

揭示EWC梯度消失和重要性估计不准确的问题
发现MAS算法存在冗余保护问题

2026-03-19

PDF arXiv

9/10

AI Agent 自进化知识积累

AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse

Zhang Zhang, Shuqi Lu, Hongjin Qian et al.

AgentFactory提出了一种基于可执行子代理的自进化框架，通过积累和复用子代理代码实现能力增长。

提出AgentFactory自进化框架
使用可执行子代理进行知识积累和复用

2026-03-18

PDF arXiv

6/10

神经算子时空控制系统代理建模

RHYME-XT: A Neural Operator for Spatiotemporal Control Systems

Marijn Ruiter, Miguel Aguiar, Jake Rap et al.

RHYME-XT是一种用于时空控制系统代理建模的神经算子框架。

提出了RHYME-XT神经算子框架
使用Galerkin投影近似偏微分积分方程

2026-03-18

PDF arXiv

8/10

算法发现程序化生成机器学习

Procedural Generation of Algorithm Discovery Tasks in Machine Learning

Alexander D. Goldie, Zilin Wang, Adrian Hayler et al.

DiscoGen提出了一种算法发现任务的程序化生成方法，用于优化机器学习算法。

提出了DiscoGen，一个用于算法发现任务的程序化生成器
构建了DiscoBench，一个用于评估算法发现agent的基准测试集

2026-03-18

PDF arXiv

5/10

异常检测 On-Model AD 神经元输出范围

RangeAD: Fast On-Model Anomaly Detection

Luca Hinkamp, Simon Klüttermann, Emmanuel Müller

RangeAD通过利用主模型的神经元输出范围进行异常检测，实现了高性能和低推理成本。

提出了On-Model AD的概念，利用现有模型进行异常检测
提出了RangeAD算法，使用神经元输出范围进行异常检测

2026-03-18

PDF arXiv

9/10

LLM Agent Privilege Escalation

Post-Training Local LLM Agents for Linux Privilege Escalation with Verifiable Rewards

Philipp Normann, Andreas Happe, Jürgen Cito et al.

提出一种两阶段后训练流程，用于提升小型本地LLM在Linux提权任务中的性能，接近大型模型。

提出两阶段后训练流程（SFT+RL）
在Linux提权任务上实现了可验证的奖励机制

2026-03-18

PDF arXiv

9/10

Reinforcement Learning Agent Experience Replay

Complementary Reinforcement Learning

Dilxat Muhtar, Jiashun Liu, Wei Gao et al.

提出Complementary RL，通过经验提取器与策略执行器协同进化，提升强化学习的样本效率。

提出Complementary RL框架
经验提取器与策略执行器协同进化

2026-03-18

PDF arXiv

6/10

Federated Learning Quantization Edge Computing

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Charuka Herath, Yogachandran Rahulamathavan, Varuna De Silva et al.

QuantFL通过预训练模型量化，降低边缘IoT联邦学习的通信能耗，实现可持续学习。

提出QuantFL框架，利用预训练模型进行量化
证明预训练模型能够集中更新统计信息，利于高效量化

2026-03-18

PDF arXiv

9/10

AI Agents Feedback Learning Reinforcement Learning

Internalizing Agency from Reflective Experience

Rui Ge, Yichao Fu, Yuyang Qian et al.

LEAFE框架通过反思经验学习反馈驱动的代理能力，提升LLM在复杂交互任务中的问题解决能力。

提出LEAFE框架，从反思经验中学习代理能力
利用环境反馈进行经验总结和行为修正

2026-03-17

PDF arXiv

7/10

强化学习随机重置策略收敛

Stochastic Resetting Accelerates Policy Convergence in Reinforcement Learning

Jello Zhou, Vudtiwat Ngampruetikorn, David J. Schwab

随机重置能有效加速强化学习策略收敛，尤其在探索困难和奖励稀疏的环境中。

证明了随机重置能加速强化学习策略收敛
揭示了随机重置在强化学习中加速收敛的机制

2026-03-17

PDF arXiv

8/10

幻灯片生成 LLM Agent 强化学习

Learning to Present: Inverse Specification Rewards for Agentic Slide Generation

Karthik Ragunath Ananda Kumar, Subrahmanyam Arunachalam

论文提出了一种基于强化学习和逆向规范奖励的自动幻灯片生成方法。

提出了一个基于LLM Agent的强化学习环境SlideRL
引入了逆向规范奖励用于幻灯片质量评估

2026-03-17

PDF arXiv

9/10

文化偏见大型语言模型提示编程

Prompt Programming for Cultural Bias and Alignment of Large Language Models

Maksim Eren, Eric Michalak, Brian Cook et al.

该论文研究了大型语言模型中的文化偏见问题，并提出利用DSPy进行提示编程以优化文化对齐。

验证并扩展了文化对齐框架
引入了基于DSPy的提示编程方法

2026-03-17

PDF arXiv

7/10

治疗优化随机控制 MMD正则化

Conservative Continuous-Time Treatment Optimization

Nora Schneider, Georg Manten, Niki Kilbertus

提出了一种保守的连续时间治疗优化框架，通过MMD正则化限制外推。

提出了保守的连续时间随机控制框架
使用了基于签名的MMD正则化方法限制外推

2026-03-17

PDF arXiv

7/10

时间重参数化降阶模型刚性动力系统

Trajectory-Optimized Time Reparameterization for Learning-Compatible Reduced-Order Modeling of Stiff Dynamical Systems

Joe Standridge, Daniel Livescu, Paul Cizmas

提出轨迹优化时间重参数化方法(TOTR)，提升机器学习降阶模型在刚性系统中的学习性能。

提出了轨迹优化时间重参数化(TOTR)方法
将时间重参数化问题转化为弧长坐标下的优化问题

2026-03-17

PDF arXiv

7/10

language model code generation fine-tuning

Exploring different approaches to customize language models for domain-specific text-to-code generation

Luís Freire, Fernanda A. Andaló, Nicki Skafte Detlefsen

论文研究了使用合成数据集定制小型LLM用于特定领域代码生成的三种方法，并分析了它们的优劣。

评估了三种定制策略：few-shot prompting, RAG, LoRA
构建了三个Python生态系统领域的编程练习数据集

2026-03-17

PDF arXiv

8/10

故事生成小型语言模型偏好对齐

PlotTwist: A Creative Plot Generation Framework with Small Language Models

Abhinav Thorat, Ravi Kolla, Jyotin Goel et al.

PlotTwist利用结构化框架和偏好对齐，使小型语言模型能生成高质量的故事梗概。

提出PlotTwist框架，分解生成过程为三个专业组件
设计新颖的Positive-Negative Prompting策略训练奖励模型

2026-03-17

PDF arXiv

5/10

物理信息神经网络神经算子 EUV光刻

Physics-Informed Neural Systems for the Simulation of EUV Electromagnetic Wave Diffraction from a Lithography Mask

Vasiliy A. Es'kin, Egor V. Ivanov

提出物理信息神经网络和神经算子用于EUV光刻掩模衍射的快速精确模拟。

提出了一种新的混合波导神经算子(WGNO)
比较了PINN和NO在13.5nm和11.2nm波长下的性能

2026-03-16

PDF arXiv

7/10

进化学习迁移学习游戏AI

Evolutionary Transfer Learning for Dragonchess

Jim O'Connor, Annika Hoag, Sarah Goyette et al.

论文提出了一种基于进化迁移学习的Dragonchess AI，通过进化优化改进了Stockfish的启发式评估函数。

提出了Dragonchess作为AI研究的新测试平台
开发了开源的Python Dragonchess游戏引擎

2026-03-16

PDF arXiv

9/10

NAS 微控制器零样本学习

PrototypeNAS: Rapid Design of Deep Neural Networks for Microcontroller Units

Mark Deutel, Simon Geis, Axel Plinge

PrototypeNAS提出一种零样本NAS方法，加速微控制器上DNN设计，优化模型结构与量化。

提出针对微控制器的零样本NAS方法PrototypeNAS
设计新的搜索空间，结合多种结构优化与剪枝量化

2026-03-16

PDF arXiv

6/10

边缘AI TinyML 精准农业

Affordable Precision Agriculture: A Deployment-Oriented Review of Low-Cost, Low-Power Edge AI and TinyML for Resource-Constrained Farming Systems

Riya Samanta, Bidyut Saha

综述低成本、低功耗边缘AI和TinyML在资源受限农业系统中的部署现状与挑战。

分析了Edge AI和TinyML在农业中的应用现状，特别是硬件架构和优化策略。
揭示了资源评估实践的不统一性，强调了可重复性和跨系统比较的重要性。

2026-03-16

PDF arXiv

8/10

强化学习创造性写作 LLM

Writer-R1: Enhancing Generative Writing in LLMs via Memory-augmented Replay Policy Optimization

Jihao Zhao, Shuaishuai Zu, Zhiyuan Ji et al.

提出MRPO算法，利用自动构建的细粒度标准和记忆增强实现LLM创造性写作的迭代优化。

设计基于Grounded Theory的多智能体协同写作流程
提出Memory-augmented Replay Policy Optimization (MRPO) 算法

2026-03-16

PDF arXiv

6/10

硬件加速神经网络训练模型优化

MONET: Modeling and Optimization of neural NEtwork Training from Edge to Data Centers

Jérémy Morlier, Robin Geens, Stef Cuyckens et al.

MONET建模神经网络训练过程，优化异构数据流加速器上的训练效率。

提出MONET框架，用于建模异构数据流加速器上的神经网络训练
利用MONET探索ResNet-18和GPT-2的硬件架构设计空间

2026-03-16

PDF arXiv

7/10

Vision Transformer 模型剪枝 AutoML

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

Andy Li, Aiden Durrant, Milan Markovic et al.

HiAP提出了一种多粒度随机自动剪枝框架，用于优化Vision Transformer的效率。

提出多粒度剪枝框架HiAP
无需手动启发式方法或预定义稀疏性目标

2026-03-12

PDF arXiv

9/10

GUI Agent VLM Trajectory Synthesis

HATS: Hardness-Aware Trajectory Synthesis for GUI Agents

Rui Shao, Ruize Gao, Bin Xie et al.

HATS提出一种硬度感知轨迹合成框架，提升GUI智能体在语义模糊场景下的泛化能力。

提出硬度感知的轨迹合成框架HATS
设计硬度驱动的探索模块，寻找有信息量的交互

2026-03-12

PDF arXiv

9/10

NAS LLM 迭代优化

Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

Xiaojie Gu, Dmitry Ignatov, Radu Timofte

利用LLM在单GPU上进行资源高效的迭代式神经架构搜索。

提出基于反馈记忆的LLM驱动NAS方法
双LLM分工优化搜索效率

2026-03-12

PDF arXiv

9/10

强化学习 LLM Agent 泛化能力

Can RL Improve Generalization of LLM Agents? An Empirical Study

Zhiheng Xi, Xin Guo, Jiaqi Liu et al.

研究强化学习微调对LLM Agent在不同环境下的泛化性能，并分析影响因素。

系统性研究了RFT在不同泛化场景下的表现
分析了语义先验和交互界面差异对泛化性能的影响

2026-03-12

PDF arXiv

8/10

LLM 教育评估人机协作

CHiL(L)Grader: Calibrated Human-in-the-Loop Short-Answer Grading

Pranav Raikote, Korbinian Randl, Ioanna Miliou et al.

CHiL(L)Grader框架结合置信度估计和人机协作，实现可靠的AI辅助短答案评分。

提出CHiL(L)Grader框架
引入基于置信度的选择性预测

2026-03-12

PDF arXiv

8/10

Reinforcement Learning Large Language Models Recommender Systems

FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning

Yijun Pan, Weikang Qiu, Qiyao Ma et al.

FlexRec利用强化学习微调LLM，解决推荐系统中动态需求下的排序问题，显著提升推荐效果。

提出了FlexRec框架，用于适应不同需求的LLM推荐。
设计了基于反事实交换的item-level奖励机制，提升训练信号。

2026-03-12

PDF arXiv

5/10

神经算子参数优化常微分方程

Inverse Neural Operator for ODE Parameter Optimization

Zhi-Song Liu, Wenqing Peng, Helmi Toropainen et al.

提出了一种反向神经算子INO，用于从稀疏观测数据中恢复ODE参数。

提出了 Inverse Neural Operator (INO)框架
使用C-FNO学习可微代理模型重构ODE轨迹

2026-03-12

PDF arXiv

8/10

Continual Learning Reinforcement Learning Vision-Language-Action

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Jiaheng Hu, Jay Shim, Chen Tang et al.

简单微调方法结合低秩适应LoRA，在大规模VLA模型的持续强化学习中表现出色。

证明了简单序列微调(Seq. FT)结合LoRA在VLA模型的持续强化学习中有效。
揭示了大规模预训练模型、参数高效适配和在线强化学习之间的协同作用。

2026-03-12

PDF arXiv

7/10

强化学习遍历性奖励函数

Ergodicity in reinforcement learning

Dominik Baumann, Erfaun Noorani, Arsenii Mustafin et al.

论文探讨了非遍历性奖励过程对强化学习的影响，并讨论了优化个体轨迹长期性能的现有解决方案。

指出了非遍历性奖励过程对强化学习算法的影响
将遍历性奖励过程与遍历性马尔可夫链的概念联系起来

2026-03-11

PDF arXiv

8/10

Reinforcement Learning Value Function Baseline

$V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao et al.

提出V0.5算法，通过融合通用价值模型先验和稀疏采样经验均值，构建鲁棒的advantage baseline。

提出了 V_{0.5} 算法，融合价值模型先验和稀疏 rollout 的经验均值。
引入实时统计测试和动态预算分配机制，平衡偏差和方差。

2026-03-11

PDF arXiv

8/10

Prompt Engineering Large Language Models Steering

Prism-$Δ$: Differential Subspace Steering for Prompt Highlighting in Large Language Models

Yuyao Ge, Shenghua Liu, Yiwei Wang et al.

PRISM-$Δ$通过差异子空间指导Prompt高亮，提升LLM生成质量并降低成本。

提出PRISM-$Δ$方法，分解差异协方差矩阵提取指导方向
使用软性权重调整注意力头的贡献

2026-03-11

PDF arXiv

9/10

AI Agents Memory Self-Improving

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Gaodan Fang, Vatche Isahagian, K. R. Jayaram et al.

提出一种轨迹信息驱动的记忆生成框架，提升Agent在复杂任务中的表现。

提出轨迹智能提取器，分析Agent推理模式
设计决策归因分析器，定位失败原因

2026-03-11

PDF arXiv

5/10

集成学习硬件感知多目标优化

HAPEns: Hardware-Aware Post-Hoc Ensembling for Tabular Data

Jannis Maier, Lennart Purucker

HAPEns是一种硬件感知的后验集成方法，旨在平衡表格数据的预测性能和硬件效率。

提出HAPEns：一种硬件感知的后验集成方法
使用多目标优化和质量多样性优化构建Pareto前沿的集成

2026-03-11

PDF arXiv

9/10

AI Agent 自微调 RAN切片

Adaptive RAN Slicing Control via Reward-Free Self-Finetuning Agents

Yuanhao Li, Haozhe Wang, Geyong Min et al.

提出了一种基于自微调的无奖励智能体框架，用于实现自适应RAN切片控制。

提出了基于双视角反思的自微调框架
无需手工奖励信号，直接从环境中学习

2026-03-11

PDF arXiv

9/10

强化学习长度膨胀奖励重塑

Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning

Zichao Li, Jie Lou, Fangchen Dong et al.

论文提出GR$^3$方法，有效缓解强化学习中的长度膨胀问题，同时保持性能。

提出 Group Relative Reward Rescaling (GR$^3$) 框架
引入group-relative regularization和advantage-aware calibration

2026-03-11

PDF arXiv

8/10

临床摘要声明验证直接偏好优化

VERI-DPO: Evidence-Aware Alignment for Clinical Summarization via Claim Verification and Direct Preference Optimization

Weixin Liu, Congning Ni, Qingyuan Song et al.

VERI-DPO通过声明验证和直接偏好优化提升临床摘要的真实性。

提出VERI-DPO框架，提升临床摘要真实性
利用声明验证挖掘偏好并进行DPO优化

2026-03-11

PDF arXiv

9/10

prompt engineering evaluation metrics large language models

PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

Minki Hong, Eunsoo Lee, Sohyun Park et al.

PEEM提出一种可解释的提示词和响应联合评估框架，用于指导LLM交互优化。

提出PEEM：一个包含9个维度的提示词工程评估指标体系
使用LLM作为评估器，提供可解释的评分和自然语言理由

2026-03-11

PDF arXiv

5/10

量子计算金融预测 LSTM

A Hybrid Quantum-Classical Framework for Financial Volatility Forecasting Based on Quantum Circuit Born Machines

Yixiong Chen

提出一种基于LSTM和QCBM的混合量子-经典金融波动率预测框架，显著提升预测精度。

提出基于LSTM和QCBM的混合量子-经典模型
将QCBM作为可学习先验模块，提高预测质量

2026-03-10

PDF arXiv

8/10

LLM 同行评议反馈生成

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Sihong Wu, Yiling Ma, Yilun Zhao et al.

RbtAct提出了一种利用同行评议回复优化LLM生成可操作性反馈的方法，提高AI生成评审的质量。

提出了RbtAct框架，利用回复作为监督信号
提出了视角条件下的段落级评审反馈生成任务

2026-03-10

PDF arXiv

9/10

Task-Oriented Dialog Instruction Tuning Schema-Aware

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Dechuan Teng, Chunlin Lu, Libo Qin et al.

ESAinsTOD提出了一种统一的schema-aware指令调优框架，提升了面向任务对话建模的泛化能力。

提出了ESAinsTOD框架，统一处理多种TOD数据集
引入指令对齐和schema对齐机制

2026-03-10

PDF arXiv

5/10

边缘计算深度学习模型优化

Multi-DNN Inference of Sparse Models on Edge SoCs

Jiawei Luo, Di Wu, Simon Dobson et al.

SparseLoom通过模型缝合技术优化边缘设备上多DNN推理系统，提升效率。

提出模型缝合技术，创建模型变体
设计并实现SparseLoom系统

2026-03-10

PDF arXiv

9/10

LLM test-time adaptation rule learning

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Arash Shahmansoori

PRECEPT框架通过经验、上下文工程和轨迹探索，提升LLM在测试时的适应性和鲁棒性。

提出PRECEPT框架，用于LLM测试时适应
引入确定性规则检索和冲突感知记忆

2026-03-10

PDF arXiv

7/10

LLM Speculative Decoding Fine-tuning

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

Luxi Lin, Zhihang Lin, Zhanpeng Zeng et al.

EDA通过参数高效适配和数据再生策略，提升精调LLM的推测解码性能，降低训练成本。

提出高效草稿模型适配框架EDA
设计解耦架构，分离共享和特定目标组件

2026-03-10

PDF arXiv

6/10

边缘计算 Transformer 参数高效微调

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Run Wang, Victor J. B. Jung, Philip Wiese et al.

TrainDeeploy框架加速Transformer模型在边缘设备上的参数高效微调。

提出TrainDeeploy框架，支持边缘设备上的CNN和Transformer模型训练
实现了Compact Convolutional Transformer (CCT)的端到端片上微调

2026-03-10

PDF arXiv

9/10

强化学习 LLM智能体推理

Agentic Critical Training

Weize Liu, Minghui Liu, Sy-Tuyen Ho et al.

ACT通过强化学习训练LLM智能体判断最优行动，提升智能体推理能力和泛化性能。

提出Agentic Critical Training (ACT) 框架
ACT提升了智能体的推理能力，实现真正的自我反思

2026-03-09

PDF arXiv

9/10

LLM Agents Post-Training Benchmarking

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Ben Rank, Hardik Bhatnagar, Ameya Prabhu et al.

该论文提出PostTrainBench，评估LLM Agent自主完成LLM后训练的能力，并发现了潜在风险。

提出了PostTrainBench基准测试，用于评估LLM Agent自主后训练能力。
评估了前沿Agent在后训练任务上的表现，并与指令微调模型进行比较。

2026-03-09

PDF arXiv

10/10

LLM Agent Reinforcement Learning Intrinsic Motivation

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Xiaoying Zhang, Zichen Liu, Yipeng Zhang et al.

RetroAgent通过双重内在反馈和经验检索，提升LLM Agent在复杂环境中的持续进化能力。

提出了双重内在反馈机制（数值和语言）
设计了Similarity & Utility-Aware UCB检索策略

2026-03-09

PDF arXiv

7/10

算法选择贝叶斯优化 Pareto优化

Pareto-Optimal Anytime Algorithms via Bayesian Racing

Jonathan Wurth, Helena Stegherr, Neele Kemper et al.

提出PolarBear框架，通过贝叶斯竞争方法，在未知计算预算下选择Pareto最优的随时算法。

提出基于排序的算法比较框架，无需归一化和已知最优解
开发PolarBear算法，通过自适应采样识别随时Pareto集

2026-03-09

PDF arXiv

6/10

遗传编程超启发式算法卫星调度

Efficient Policy Learning with Hybrid Evaluation-Based Genetic Programming for Uncertain Agile Earth Observation Satellite Scheduling

Junhua Xue, Yuning Chen

提出了一种混合评估遗传编程算法，用于解决不确定性敏捷地球观测卫星调度问题。

提出了混合评估遗传编程（HE-GP）算法
设计了混合评估机制（HE），结合精确和近似过滤

2026-03-09

PDF arXiv

6/10

Class Incremental Learning Memory Efficiency Dynamic Scaling

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz et al.

提出GRACE框架，自适应调整模型容量，平衡可塑性和稳定性，提升增量学习效率。

提出Grow, Assess, Compress (GRACE) 框架
引入饱和度评估阶段，指导模型扩展或压缩

2026-03-09

PDF arXiv

9/10

RLHF 选择盲视偏好学习

Aligning to Illusions: Choice Blindness in Human and AI Feedback

Wenbin Wu

人类和AI反馈中存在“选择盲视”现象，导致RLHF训练信号被扭曲，标准评估指标难以检测。

揭示了人类在评估偏好时存在选择盲视现象
发现LLM的偏好判断依赖于浅层文本匹配，而非真正的自我监控

2026-03-09

PDF arXiv

6/10

优化算法分数阶微积分不平衡数据

Beyond the Markovian Assumption: Robust Optimization via Fractional Weyl Integrals in Imbalanced Data

Gustavo A. Dorrego

提出基于分数阶微积分的优化算法，解决不平衡数据中的过拟合问题。

提出基于分数阶Weyl积分的优化算法
利用历史梯度信息作为正则化

2026-03-09

PDF arXiv

6/10

物理约束优化多面体重构物理信息机器学习

PolyFormer: learning efficient reformulations for scalable optimization under complex physical constraints

Yilin Wen, Yi Guo, Bo Zhao et al.

PolyFormer利用几何结构将复杂约束转化为高效多面体，实现可扩展的物理约束优化。

提出PolyFormer框架，用于将复杂物理约束转化为高效多面体形式。
通过多面体重构解耦问题复杂度和求解难度。

2026-03-09

PDF arXiv

9/10

LLM Policy Optimization Reinforcement Learning

Fibration Policy Optimization

Chang Li, Tshihao Tsu, Yaren Zhang et al.

提出Fibration Policy Optimization(FiberPO)，一个统一LLM策略优化的多尺度稳定控制框架。

提出了Aggregational Policy Censoring Objective (APC-Obj)
开发了Fiber Bundle Gating (FBG) 框架

2026-03-09

PDF arXiv

8/10

领域自适应自动化机器学习多智能体系统

AutoAdapt: An Automated Domain Adaptation Framework for LLMs

Sidharth Sinha, Anson Bastos, Xuchao Zhang et al.

AutoAdapt是一个自动化的LLM领域自适应框架，提升模型在特定领域的能力。

提出了AutoAdapt框架，降低专家干预
设计了多智能体辩论系统，对齐用户意图

2026-03-09

PDF arXiv

7/10

机器人学习模仿学习增强现实

RoboPocket: Improve Robot Policies Instantly with Your Phone

Junjie Fang, Wendi Chen, Han Xue et al.

RoboPocket利用手机AR进行机器人策略迭代，提升数据效率并加速在线精调。

提出RoboPocket系统，实现无机器人策略迭代
使用AR视觉预测进行远程推理，提供沉浸式反馈

2026-03-05

PDF arXiv

7/10

AI safety Debate RLAIF

Knowledge Divergence and the Value of Debate for Scalable Oversight

Robin Young

论文分析了辩论在可扩展监督高级AI系统中的价值，并用知识差异的几何结构来量化辩论优势。

建立了辩论与RLAIF的正式联系
提出了理解对抗监督协议合理性的几何基础

2026-03-05

PDF arXiv

7/10

LoRA Parameter-Efficient Fine-tuning Stable Feature Learning

Stable-LoRA: Stabilizing Feature Learning of Low-Rank Adaptation

Yize Wu, Ke Gao, Ling Li et al.

Stable-LoRA通过动态权重衰减优化LoRA，解决其特征学习不稳定的问题，提升模型性能。

揭示LoRA特征学习不稳定的根本原因
提出Stable-LoRA权重衰减优化策略

2026-03-05

PDF arXiv

5/10

量化特征压缩神经网络

Trainable Bitwise Soft Quantization for Input Feature Compression

Karsten Schrödter, Jan Stenkamp, Nina Herrmann et al.

提出了一种可训练的逐位软量化层，用于压缩神经网络的输入特征，以适应物联网设备的资源限制。

提出了可训练的逐位软量化层
实现了任务特定的特征压缩

2026-03-05

PDF arXiv

7/10

强化学习奖励工程多目标学习

Reward-Conditioned Reinforcement Learning

Michal Nauman, Marek Cygan, Pieter Abbeel

提出奖励条件强化学习RCRL，通过条件策略学习多个奖励目标，提升鲁棒性和适应性。

提出RCRL框架，训练单个agent优化奖励家族
利用共享回放数据离线学习多个奖励目标

2026-03-05

PDF arXiv

5/10

量化神经网络比特错误容错鲁棒性

MCEL: Margin-Based Cross-Entropy Loss for Error-Tolerant Quantized Neural Networks

Mikail Yayla, Akash Kumar

提出了一种基于Margin Cross-Entropy Loss(MCEL)的容错量化神经网络训练方法，无需错误注入。

提出了 Margin Cross-Entropy Loss (MCEL)
建立了比特错误容错性和输出层分类margin的直接联系

2026-03-05

PDF arXiv

7/10

长文本生成约束优化反馈学习

HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation

Yifan Zhu, Guanting Chen, Bing Wei et al.

HiFlow通过层级反馈优化框架，提升LLM在约束条件下生成长文本的能力，实现全局结构和局部语义的协同。

提出了一种层级反馈驱动的优化框架HiFlow
设计了包含规划层和生成层的两级优化过程

2026-03-05

PDF arXiv

8/10

微调预训练数据效率

Replaying pre-training data improves fine-tuning

Suhas Kotha, Percy Liang

论文发现，在微调阶段重放预训练数据可显著提高目标任务的性能和数据效率。

提出在微调阶段重放通用预训练数据的新方法
量化了重放预训练数据在目标任务上的性能提升

2026-03-05

PDF arXiv

9/10

AI Agent Tool Use Evolutionary Optimization

EvoTool: Self-Evolving Tool-Use Policy Optimization in LLM Agents via Blame-Aware Mutation and Diversity-Aware Selection

Shuo Yang, Soyeon Caren Han, Xueqi Ma et al.

EvoTool通过进化策略优化LLM智能体的模块化工具使用策略，提升复杂任务解决能力。

提出了轨迹溯源的责任归属方法，定位失败模块
设计了反馈引导的定向变异方法，针对性优化模块

2026-03-05

PDF arXiv

9/10

AI Agent 时间序列预测代码生成

SEA-TS: Self-Evolving Agent for Autonomous Code Generation of Time Series Forecasting Algorithms

Longkun Xu, Xiaochun Zhang, Qiantu Tuo et al.

SEA-TS通过自进化循环自主生成、验证和优化时间序列预测代码，性能超越现有方法。

Metric-Advantage MCTS引导搜索
带运行提示改进的代码审查

2026-03-05

PDF arXiv

8/10

AI Agents Robustness Jacobian Regularization

Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization

Furkan Mumcu, Yasin Yilmaz

论文提出AAJR方法，通过对抗对齐的雅可比正则化提升Agentic AI系统的鲁棒性和稳定性。

提出Adversarially-Aligned Jacobian Regularization (AAJR)方法
证明AAJR比全局约束产生更大的可接受策略类

2026-03-04

PDF arXiv

6/10

Kalman Filter Meta-Learning State Estimation

Robust Unscented Kalman Filtering via Recurrent Meta-Adaptation of Sigma-Point Weights

Kenan Majewski, Michał Modzelewski, Marcin Żugaj et al.

提出了Meta-Adaptive UKF（MA-UKF），利用元学习优化UKF的sigma点权重，提高鲁棒性和泛化性。

提出基于元学习的自适应UKF框架
利用循环上下文编码器压缩历史测量信息

2026-03-04

PDF arXiv

9/10

LLM Prompt Engineering Customization

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Liangwei Yang, Shiyu Wang, Haolin Chen et al.

论文提出开放向量Prompt接口以提升LLM定制能力，优于文本Prompt，并讨论了安全性和应用前景。

提出开放向量Prompt接口的必要性
论证向量Prompt优于文本Prompt的证据

2026-03-04

PDF arXiv

8/10

嵌入式系统深度学习能耗预测

InstMeter: An Instruction-Level Method to Predict Energy and Latency of DL Model Inference on MCUs

Hao Liu, Qing Wang, Marco Zuniga

InstMeter通过MCU时钟周期预测DL模型在MCU上的能耗和延迟，精度高且所需数据量少。

提出InstMeter，一种基于时钟周期的DL模型能耗和延迟预测器
InstMeter具有强线性性，简单且准确

2026-03-04

PDF arXiv

8/10

强化学习机器人持续学习

Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback

Fabian Domberg, Georg Schildbach

提出一种基于世界模型反馈的在线持续强化学习框架，实现机器人自主适应。

提出基于世界模型预测残差的OOD事件检测方法
设计无需外部监督的自适应收敛评估机制

2026-03-04

PDF arXiv

6/10

代码注释分类多模型集成 LoRA

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid et al.

LoRA-MME利用LoRA微调多个代码编码器，集成模型进行代码注释分类，提升性能但牺牲了效率。

提出LoRA-MME多模型集成架构
使用PEFT方法降低内存开销

2026-03-04

PDF arXiv

8/10

强化学习策略优化重要性采样

GIPO: Gaussian Importance Sampling Policy Optimization

Chengxuan Lu, Zhenquan Zhang, Shukuan Wang et al.

GIPO提出一种基于重要性采样的策略优化方法，提升强化学习的样本效率和稳定性。

提出GIPO算法，使用高斯权重软化重要性比例
理论分析证明GIPO的约束性和鲁棒性

2026-03-04

PDF arXiv

6/10

In-Memory Computing Hardware-Workload Co-design Evolutionary Algorithm

Joint Hardware-Workload Co-Optimization for In-Memory Computing Accelerators

Olga Krestinskaya, Mohammed E. Fouda, Ahmed Eltawil et al.

提出一种面向多工作负载的片上内存计算加速器联合软硬件协同优化框架，显著提升通用性。

提出了一种基于优化进化算法的联合软硬件协同优化框架。
该框架能够显式地捕获跨工作负载的权衡，优化通用IMC设计。

2026-03-04

PDF arXiv

8/10

AI Agents Reward Shaping Code Generation

A Rubric-Supervised Critic from Sparse Real-World Outcomes

Xingyao Wang, Valerie Chen, Heng Ji et al.

提出一种基于规则的监督框架，从稀疏真实数据中学习代码代理的评价模型，提升代码生成任务性能。

提出Critic Rubrics框架，利用行为特征和稀疏反馈学习评价模型
证明评价模型可用于重排序、提前停止和数据筛选

2026-03-04

PDF arXiv

5/10

冲击响应谱逆问题条件变分自编码器

Inverse Reconstruction of Shock Time Series from Shock Response Spectrum Curves using Machine Learning

Adam Watts, Andrew Jeon, Destry Newton et al.

提出了一种基于条件变分自编码器(CVAE)的SRS反演方法，高效重建冲击时间序列。

提出基于CVAE的SRS反演模型
无需迭代优化，大幅提升运算速度

2026-03-03

PDF arXiv

7/10

LLM 对比引导数据污染

Understanding and Mitigating Dataset Corruption in LLM Steering

Cullen Anderson, Narmeen Oozeer, Foad Namjoo et al.

研究对比引导在LLM中对数据集污染的鲁棒性，并提出缓解恶意污染的方法。

分析对比引导对数据污染的鲁棒性
识别恶意污染的副作用

2026-03-03

PDF arXiv

9/10

AI Agent 安全强化学习

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Aradhye Agarwal, Gurdit Siyan, Yash Pandya et al.

MOSAIC框架通过显式安全决策，提升Agent在多步工具使用中的安全性，降低有害行为。

提出了MOSAIC框架，显式地进行安全决策
使用基于偏好的强化学习训练，无需轨迹级别标签

2026-03-03

PDF arXiv

6/10

数据集技能匹配自然语言处理

UniSkill: A Dataset for Matching University Curricula to Professional Competencies

Nurlan Musazade, Joszef Mezei, Mike Zhang

UniSkill提出了一个大学课程与职业技能匹配的数据集，并用BERT模型进行了基线测试。

构建了大学课程与职业技能匹配的手动标注和合成数据集
发布了基于ESCO的技能标注指南

2026-03-03

PDF arXiv

9/10

Agentic RL Retrieval Augmentation Policy Optimization

RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization

Siwei Zhang, Yun Xiong, Xi Chen et al.

RAPO通过检索增强策略优化，扩展LLM Agent的探索空间，提升agent在复杂任务中的表现。

提出Retrieval-Augmented Policy Optimization (RAPO) 框架。
引入Hybrid-policy Agentic Rollout策略，扩展agent的推理视野。

2026-03-03

PDF arXiv

8/10

差分隐私 RLHF 医疗对话系统

PrivMedChat: End-to-End Differentially Private RLHF for Medical Dialogue Systems

Sudip Bhujel

PrivMedChat提出了一种差分隐私医疗对话系统的端到端RLHF框架。

提出了用于医疗对话的差分隐私RLHF框架PrivMedChat
在医疗SFT和奖励模型学习阶段采用DP-SGD

2026-03-03

PDF arXiv

9/10

RLAIF 价值学习语言模型

Why Does RLAIF Work At All?

Robin Young

论文提出了潜在价值假设，解释了RLAIF通过自反馈进行价值学习的有效性，并提出了线性模型进行分析。

提出了潜在价值假设，解释RLAIF的有效性
建立了线性模型，形式化分析了价值学习过程

2026-03-03

PDF arXiv

9/10

LLM Agents Privacy Reinforcement Learning

Contextualized Privacy Defense for LLM Agents

Yule Wen, Yanzhe Zhang, Jianxun Lian et al.

提出了一种基于上下文感知的隐私保护框架CDI，通过强化学习优化指导模型，提升LLM Agent的隐私安全。

提出了Contextualized Defense Instructing (CDI) 框架
将隐私保护问题转化为强化学习优化问题

2026-03-03

PDF arXiv

8/10

GUI Agent Continual Learning Reinforcement Learning

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Zhenquan Yao, Zitong Huang, Yihan Zeng et al.

CGL框架通过SFT和RL的协同，提升GUI Agent在持续学习中的适应性和技能保持能力。

提出了CGL框架，平衡SFT和RL
引入策略熵引导的SFT比例调整机制

2026-03-03

PDF arXiv

9/10

LLM-AAD 算法相似性程序执行轨迹

Rethinking Code Similarity for Automated Algorithm Design with LLMs

Rui Zhang, Zhichao Lu

提出BehaveSim，通过分析程序执行轨迹来评估算法相似性，提升LLM自动算法设计效果。

提出BehaveSim算法相似性度量方法
利用程序执行轨迹(PSTrajs)进行算法相似性比较

2026-03-03

PDF arXiv

6/10

神经网络加速器量化 FPGA

Bitwise Systolic Array Architecture for Runtime-Reconfigurable Multi-precision Quantized Multiplication on Hardware Accelerators

Yuhao Liu, Salim Ullah, Akash Kumar

提出了一种运行时可重构的多精度位级脉动阵列架构，用于加速量化神经网络。

提出运行时可重构的多精度脉动阵列架构
支持混合精度量化神经网络加速

2026-02-26

PDF arXiv

9/10

LLM Agent Reinforcement Learning Exploration

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Zeyuan Liu, Jeonghye Kim, Xufang Luo et al.

EMPO$^2$通过混合策略优化和记忆增强，提升LLM Agent在探索性任务中的性能和泛化能力。

提出了EMPO$^2$框架，结合on-policy和off-policy更新。
利用记忆机制增强LLM Agent的探索能力。

2026-02-26

PDF arXiv

5/10

持续学习贝叶斯推理无监督学习

Unsupervised Continual Learning for Amortized Bayesian Inference

Aayush Mishra, Šimon Kucharský, Paul-Christian Bürkner

提出一种无监督持续学习框架，用于提升摊销贝叶斯推理在序列数据上的性能。

提出无监督持续学习的ABI框架
引入基于episodic replay的SC训练

2026-02-26

PDF arXiv

9/10

强化学习智能体策略优化

Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks

Shuo He, Lang Feng, Qi Wei et al.

HGPO通过层级分组优化解决长时程Agent任务中上下文不一致导致的优势估计偏差问题。

提出Hierarchy-of-Groups Policy Optimization (HGPO)
解决了stepwise优势估计中的上下文不一致问题

2026-02-26

PDF arXiv

7/10

增强阅读模拟优化资源理性模型

Simulation-based Optimization for Augmented Reading

Yunpeng Bai, Shengdong Zhao, Antti Oulasvirta

提出基于模拟优化的增强阅读方法，利用资源理性模型改善文本呈现和理解。

提出基于模拟优化的增强阅读框架
设计离线和在线两种优化流程

2026-02-26

PDF arXiv

7/10

生成式推荐广告推荐大规模系统

Generative Recommendation for Large-Scale Advertising

Ben Xue, Dan Liu, Lixiang Wang et al.

提出GR4AD，一个面向大规模广告的生成式推荐系统，优化模型和推理效率。

提出UA-SID统一广告语义ID
提出LazyAR懒惰自回归解码器

2026-02-26

PDF arXiv

9/10

GUI Agent Reinforcement Learning Supervised Fine-tuning

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Rui Yang, Qianhui Wu, Zhaoyang Wang et al.

GUI-Libra提出了一种针对GUI智能体的训练方法，优化了数据、SFT和RL过程，显著提升了任务完成度。

构建并发布了一个81K的GUI推理数据集，缓解了动作对齐推理数据稀缺的问题。
提出了动作感知的SFT方法，平衡了推理和基础能力，提升了智能体的泛化性。

2026-02-25

PDF arXiv

5/10

代理模型神经网络流体流动

Surrogate models for Rock-Fluid Interaction: A Grid-Size-Invariant Approach

Nathalie C. Pinheiro, Donghu Guo, Hannah P. Menke et al.

论文提出了一种网格尺寸不变的代理模型，用于预测多孔介质中的流体流动。

开发网格尺寸不变的代理模型框架
比较UNet和UNet++在代理模型中的性能，证明UNet++更优

2026-02-25

PDF arXiv

9/10

软件工程小语言模型专家系统

SWE-Protégé: Learning to Selectively Collaborate With an Expert Unlocks Small Language Models as Software Engineering Agents

Patrick Tser Jern Kon, Archana Pradeep, Ang Chen et al.

SWE-Protégé框架提升了小语言模型在软件工程任务上的性能，通过模仿专家协作。

提出SWE-Protégé框架
利用专家增强的轨迹进行监督微调

2026-02-25

PDF arXiv

6/10

贝叶斯深度学习不确定性估计变分推断

Function-Space Empirical Bayes Regularisation with Student's t Priors

Pengcheng Hao, Ercan Engin Kuruoglu

提出了一种新的函数空间经验贝叶斯正则化框架，使用Student's t先验提高不确定性估计的鲁棒性。

提出了ST-FS-EB框架，使用Student's t先验进行函数空间正则化
在参数和函数空间都使用了重尾分布

2026-02-25

PDF arXiv

7/10

Mixture-of-Experts Optimization Sparse Architectures

Excitation: Momentum For Experts

Sagi Shaier

Excitation提出了一种新的优化框架，通过动态调整专家利用率加速MoE模型的学习。

提出Excitation优化框架，加速MoE学习
解决了深层MoE中的“结构混淆”问题

2026-02-25

PDF arXiv

7/10

NLP 心理咨询 LLM

Multi-dimensional Assessment and Explainable Feedback for Counselor Responses to Client Resistance in Text-based Counseling with LLMs

Anqi Li, Ruihan Wang, Zhaoming Chen et al.

论文提出了一种评估和反馈咨询师处理来访者阻抗反应的多维度方法。

构建并分享了一个专家标注的咨询数据集。
利用 Llama-3.1-8B-Instruct 模型进行微调，评估咨询师回复质量并生成解释。

2026-02-25

PDF arXiv

8/10

VLA 机器人操作强化学习

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination

Chenyv Liu, Wentao Tan, Lei Zhu et al.

SC-VLA通过稀疏世界想象实现在线动作优化，提升VLA模型在机器人操作任务中的性能。

提出Self-Correcting VLA (SC-VLA)框架
设计稀疏世界想象模块，预测任务进展和未来轨迹趋势

2026-02-25

PDF arXiv

9/10

AI Agent Reinforcement Learning Uncertainty

SELAUR: Self Evolving LLM Agent via Uncertainty-aware Rewards

Dengjia Zhang, Xiaoou Liu, Lu Cheng et al.

SELAUR提出了一种基于不确定性感知的奖励机制，提升LLM Agent的探索效率和学习稳定性。

将LLM的不确定性整合到Agent的奖励设计中
提出一种结合熵、最小置信度和边际的token级不确定性估计方法

2026-02-24

PDF arXiv

5/10

增量学习知识共享专家系统

From Isolation to Integration: Building an Adaptive Expert Forest for Pre-Trained Model-based Class-Incremental Learning

Ruiqi Liu, Boyu Diao, Hangda Liu et al.

提出Semantic-guided Adaptive Expert Forest (SAEF)方法，解决增量学习中的知识遗忘和知识共享问题。

提出了SAEF模型，利用语义关系构建专家森林
实现了知识共享，提升了增量学习性能

2026-02-24

PDF arXiv

9/10

LLM 进化算法优化

AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization

Mert Cemri, Shubham Agrawal, Akshat Gupta et al.

AdaEvolve通过层级自适应优化，提升了LLM驱动的进化搜索效率，解决了资源分配不均的问题。

提出了AdaEvolve框架，实现LLM驱动进化的自适应优化
引入累积改进信号，统一决策三个层次的优化过程

2026-02-23

PDF arXiv

6/10

MLIR Qualcomm NPU Triton

Hexagon-MLIR: An AI Compilation Stack For Qualcomm's Neural Processing Units (NPUs)

Mohammed Javed Absar, Muthu Baskaran, Abhikrant Sharma et al.

Hexagon-MLIR：一个面向高通NPU的开源AI编译栈，统一支持Triton和PyTorch模型。

构建基于MLIR的编译栈
支持Triton内核和PyTorch模型

2026-02-23

PDF arXiv

6/10

算法展开雅可比矩阵双层优化

Understanding the Curse of Unrolling

Sheheryar Mehmood, Florian Knoll, Peter Ochs

该论文分析了算法展开中导数迭代发散的“诅咒”现象，并提出了缓解方案。

解释了展开诅咒的根源和影响因素
提出了通过截断早期迭代来缓解诅咒的方法

2026-02-23

PDF arXiv

9/10

LLM Reinforcement Learning Asynchronous Training

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Luke Huang, Zhuoyang Zhang, Qinghao Hu et al.

针对LLM异步RL训练中梯度方差过高问题，提出方差控制策略优化VCPO算法。

诊断了异步RL中高方差梯度导致训练崩溃的问题，并与有效样本量ESS和梯度范数相关联。
提出了VCPO算法，通过基于ESS调整学习率和最小方差基线来控制方差。

2026-02-19

PDF arXiv

6/10

Continual Learning Low-Rank Adaptation Elastic Weight Consolidation

Revisiting Weight Regularization for Low-Rank Continual Learning

Yaoyue Zheng, Yin Zhang, Joost van de Weijer et al.

该论文提出EWC-LoRA方法，通过正则化低秩更新缓解参数高效持续学习中的任务干扰。

提出EWC-LoRA方法，将EWC应用于低秩持续学习。
利用低秩表示估计全维度参数重要性。

2026-02-19

PDF arXiv

6/10

生成模型模块化学习鲁棒性

A Theoretical Framework for Modular Learning of Robust Generative Models

Corinna Cortes, Mehryar Mohri, Yutao Zhong

提出一种模块化生成模型框架，通过组合领域专家模型提升性能和鲁棒性，并提供理论证明和算法。

提出模块化生成模型框架，解决大规模生成模型训练资源消耗问题。
证明了模块化模型在鲁棒性和泛化性方面的优势。

2026-02-19

PDF arXiv

9/10

LLM Agent Long-horizon Task Reinforcement Learning

KLong: Training LLM Agent for Extremely Long-horizon Tasks

Yue Liu, Zhiyuan Hu, Flood Sung et al.

KLong通过轨迹分割SFT和渐进式RL训练，提升LLM Agent的超长时程任务解决能力。

提出轨迹分割SFT方法
提出渐进式RL训练方法

2026-02-19

PDF arXiv

8/10

安全性微调正则化

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

Jyotin Goel, Souvik Maji, Pratik Mazumder

该论文提出了一种自适应正则化框架，用于在微调过程中防止语言模型的安全性下降。

提出自适应正则化框架，在微调中保持模型安全性
探索了基于安全评判器和激活的风险预测器两种安全风险评估方法

2026-02-19

PDF arXiv

6/10

去中心化优化自适应步长三算子分裂

Adaptive Decentralized Composite Optimization via Three-Operator Splitting

Xiaokai Chen, Ilya Kuruzov, Gesualdo Scutari

提出了一种自适应去中心化复合优化方法，利用三算子分裂和BCV预处理实现高效优化。

提出自适应步长的去中心化优化方法
利用三算子分裂和BCV预处理

2026-02-19

PDF arXiv

6/10

嵌入式系统 AI模型优化 ARM Cortex

Pareto Optimal Benchmarking of AI Models on ARM Cortex Processors for Sustainable Embedded Systems

Pranay Jain, Maximilian Kasper, Göran Köber et al.

针对嵌入式系统，研究ARM Cortex处理器上AI模型的能效优化，提出了Pareto最优基准测试框架。

构建了自动化测试平台，评估不同处理器和AI模型的性能指标
揭示了浮点运算（FLOPs）与推理时间的线性关系

2026-02-19

PDF arXiv

8/10

LLM 推荐系统负采样

Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers

Bingqian Li, Bowen Zheng, Xiaolei Wang et al.

ILRec提出了一种新的LLM推荐框架，利用中间层的自生成困难负样本提升推荐性能。

提出了基于LLM的推荐框架ILRec
引入中间层自生成困难负样本作为负样本

2026-02-19

PDF arXiv

8/10

图神经网络 OOD检测自提升学习

From Subtle to Significant: Prompt-Driven Self-Improving Optimization in Test-Time Graph OOD Detection

Luzhi Wang, Xuanshuo Fu, He Zhang et al.

提出SIGOOD，利用提示驱动的自提升优化实现图OOD检测。

提出SIGOOD框架，结合自学习和测试时训练。
引入能量偏好优化(EPO)损失函数优化提示。

2026-02-19

PDF arXiv

7/10

continual learning reinforcement learning robust control

Continual uncertainty learning

Heisei Yonezawa, Ansei Yonezawa, Itsuro Kajiwara

提出了基于课程学习的持续不确定性学习框架，用于解决复杂非线性系统的鲁棒控制问题。

提出了一种新的持续学习框架，用于处理多重不确定性
将复杂控制问题分解为一系列持续学习任务

2026-02-19

PDF arXiv

7/10

零阶优化梯度估计大型模型微调

Powering Up Zeroth-Order Training via Subspace Gradient Orthogonalization

Yicheng Lang, Changsheng Wang, Yihua Zhang et al.

提出ZO-Muon方法，通过子空间梯度正交化，显著提升零阶优化在微调大型模型时的效率和精度。

提出子空间梯度正交化框架
设计了ZO-Muon算法，结合了低秩结构和梯度正交化

2026-02-19

PDF arXiv

5/10

CNN Pruning Acceleration

Bonsai: A Framework for Convolutional Neural Network Acceleration Using Criterion-Based Pruning

Joseph Bingham, Sam Helmich

Bonsai框架提出了一种基于准则的CNN剪枝方法，旨在加速和压缩模型。

提出了Combine剪枝框架
比较了不同准则对模型的影响

2026-02-19

PDF arXiv

6/10

强化学习量子计算量子态制备

Reinforcement Learning for Parameterized Quantum State Preparation: A Comparative Study

Gerhard Stenzel, Isabella Debelic, Michael Kölle et al.

论文研究了强化学习在参数化量子态制备中的应用，比较了不同策略和算法的性能。

扩展DQCS到参数化量子态制备
比较了单阶段和双阶段训练方法

2026-02-18

PDF arXiv

7/10

LoRA Fine-tuning Low-Rank Adaptation

Beyond SGD, Without SVD: Proximal Subspace Iteration LoRA with Diagonal Fractional K-FAC

Abdulla Jasem Almansoori, Maria Ivanova, Andrey Veprikov et al.

提出了LoRSum方法，通过近端子空间迭代，在避免SVD的情况下高效微调LoRA模型。

提出了LoRSum算法，高效优化LoRA
将LoRA优化视为近端子问题并用ALS解决

2026-02-18

PDF arXiv

6/10

EMFI Fault Injection Embedded Deep Learning

The Weight of a Bit: EMFI Sensitivity Analysis of Embedded Deep Learning Models

Jakub Breier, Štefan Kučerák, Xiaolu Hou

研究不同数值表示对嵌入式深度学习模型抗电磁故障注入攻击能力的影响。

首次全面评估数值表示对EMFI攻击的影响
对比了浮点数和整数表示的抗攻击能力

2026-02-18

PDF arXiv

8/10

LLM personality control activation vector

PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra

Xiachong Feng, Liang Zhao, Weihong Zhong et al.

PERSONA框架通过激活向量代数实现LLM动态且可组合的个性化控制，无需微调。

提出PERSONA框架，实现LLM个性化控制
通过激活向量代数实现动态和可组合的个性化

2026-02-17

PDF arXiv

6/10

逆向设计扩散模型材料设计

Guided Diffusion by Optimized Loss Functions on Relaxed Parameters for Inverse Material Design

Jens U. Kreber, Christian Weißenfels, Joerg Stueckler

提出一种基于扩散模型的逆向材料设计方法，可生成多样且高性能的材料。

提出基于扩散模型的逆向设计方法
利用隐式微分计算梯度，优化连续参数空间

2026-02-17

PDF arXiv

6/10

流体动力学机器学习自回归模型

Uni-Flow: a unified autoregressive-diffusion model for complex multiscale flows

Xiao Xue, Tianyue Yang, Mingyang Gao et al.

Uni-Flow模型结合自回归和扩散模型，高效模拟复杂多尺度流体动力学。

提出Uni-Flow模型，统一自回归和扩散模型
实现了复杂流体动力学的长期稳定预测和精细结构重建

2026-02-17

PDF arXiv

6/10

scenario approach data-driven design post-design certification

Scenario Approach with Post-Design Certification of User-Specified Properties

Algo Carè, Marco C. Campi, Simone Garatti

提出一种两级框架，在设计后验证用户指定属性，无需额外测试数据。

提出两级框架：baseline appropriateness和post-design appropriateness
提供post-design appropriateness风险的分布无关上限和下限

2026-02-17

PDF arXiv

7/10

信息检索碳节约扩散模型

GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search

Rong Fu, Wenxin Zhang, Jia Yee Tan et al.

GaiaFlow通过语义引导扩散调优实现碳节约型搜索，兼顾精度与环境效益。

提出GaiaFlow框架，优化搜索精度和环境效益的平衡
利用检索引导的Langevin动力学和硬件无关的性能建模策略

2026-02-17

PDF arXiv

8/10

AI对齐逆强化学习奖励模型

Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment

Elias Malomgré, Pieter Simoens

提出了一种解耦对齐学习和策略优化的无交互逆强化学习框架，构建可检验的奖励模型。

解耦对齐和策略优化
引入无交互逆强化学习

2026-02-16

PDF arXiv

7/10

parameter-efficient fine-tuning low-rank adaptation algebraic mergeability

D2-LoRA: A Synergistic Approach to Differential and Directional Low-Rank Adaptation

Nozomu Fujisawa, Masaaki Kondo

D2-LoRA是一种参数高效的微调方法，在保证性能的同时，实现了代数可合并性和低推理延迟。

提出D2-LoRA，一种结合符号低秩残差更新和列向投影的微调方法
D2-LoRA在问答、阅读理解和生成任务中表现优于LoRA和DoRA

2026-02-16

PDF arXiv

5/10

反向传播向量-雅可比积深度学习

Unbiased Approximate Vector-Jacobian Products for Efficient Backpropagation

Killian Bakong, Laurent Massoulié, Edouard Oyallon et al.

提出一种基于随机无偏近似向量-雅可比积的反向传播方法，以降低深度学习的计算和内存成本。

提出随机无偏近似向量-雅可比积的反向传播方法
分析了精度与成本之间的权衡

2026-02-16

PDF arXiv

9/10

强化学习大型语言模型系统提示学习

Evolutionary System Prompt Learning can Facilitate Reinforcement Learning for LLMs

Lunjun Zhang, Ryan Chen, Bradly C. Stadie

提出E-SPL方法，结合强化学习和进化系统提示学习，提升LLM在推理和Agent任务中的性能和泛化能力。

提出Evolutionary System Prompt Learning (E-SPL) 方法
结合强化学习更新模型权重和进化算法优化系统提示

2026-02-16

PDF arXiv

5/10

量子储备计算机核岭回归机器学习

Kernel-based optimization of measurement operators for quantum reservoir computers

Markus Gross, Hans-Martin Rieser

提出基于核方法的量子储备计算机测量算子优化方案，提高预测精度和效率。

提出基于核岭回归的QRC训练框架
优化测量算子以最小化预测误差

2026-02-16

PDF arXiv

8/10

上下文蒸馏知识蒸馏语言模型

On-Policy Context Distillation for Language Models

Tianzhu Ye, Li Dong, Xun Wu et al.

提出On-Policy上下文蒸馏(OPCD)，通过在生成轨迹上训练学生模型来提取和整合上下文知识。

提出On-Policy上下文蒸馏框架OPCD
OPCD在经验知识蒸馏和系统提示蒸馏上的有效性

2026-02-12

PDF arXiv

9/10

强化学习 AI Agent Tool Use

CM2: Reinforcement Learning with Checklist Rewards for Multi-Turn and Multi-Step Agentic Tool Use

Zhen Zhang, Kaiqiang Song, Xun Wang et al.

CM2提出使用checklist奖励的强化学习框架，优化多轮多步骤的智能体工具使用。

提出checklist奖励代替可验证结果奖励
构建可扩展的LLM模拟工具环境

2026-02-12

PDF arXiv

7/10

扩散语言模型自蒸馏少步解码

T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization

Tunyu Zhang, Xinxi Zhang, Ligong Han et al.

提出T3D框架，通过轨迹自蒸馏和DDO优化，提升扩散语言模型少步解码的生成质量和效率。

提出基于轨迹自蒸馏的少步解码优化框架T3D
引入DDO（Direct Discriminative Optimization）来促进模态寻找蒸馏

2026-02-12

PDF arXiv

8/10

SAGEO 搜索引擎优化生成式AI

SAGEO Arena: A Realistic Environment for Evaluating Search-Augmented Generative Engine Optimization

Sunghwan Kim, Wooseok Jeong, Serin Kim et al.

提出了SAGEO Arena，一个用于评估搜索增强生成引擎优化（SAGEO）的真实环境。

构建了真实的SAGEO评估环境
集成了完整的生成搜索流程

2026-02-12

PDF arXiv

9/10

LLM对齐采样方法偏好优化

How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics

Yurong Chen, Yu He, Michael I. Jordan et al.

该论文理论分析了采样方法对LLM对齐的影响，揭示了采样偏差可能导致的对齐问题。

证明了实例相关的采样可以增强排序保证
揭示了片面的策略采样可能导致过度集中

2026-02-12

PDF arXiv

6/10

分子设计图神经网络强化学习

Amortized Molecular Optimization via Group Relative Policy Optimization

Muhammad bin Javaid, Hasham Hussain, Ashima Khanna et al.

GRXForm通过组相对策略优化方法，提升了分子优化模型在未见结构上的泛化能力。

提出GRXForm分子优化模型
引入组相对策略优化(GRPO)方法

2026-02-12

PDF arXiv

8/10

Value Alignment LLM Evaluation

Value Alignment Tax: Measuring Value Trade-offs in LLM Alignment

Jiajun Chen, Hua Shen

提出Value Alignment Tax (VAT)框架，用于衡量对齐诱导的价值权衡和连锁反应。

提出了Value Alignment Tax (VAT)框架，量化对齐带来的价值权衡。
揭示了对齐过程中价值之间非均匀、结构化的联动关系。

2026-02-12

PDF arXiv

8/10

知识蒸馏强化学习奖励外推

Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

Wenkai Yang, Weijie Liu, Ruobing Xie et al.

提出了广义On-Policy蒸馏框架G-OPD，并通过奖励外推ExOPD和奖励校正改进学生模型性能。

理论证明OPD是KL约束RL的特例
提出广义On-Policy蒸馏框架G-OPD，包含奖励外推ExOPD和奖励校正

2026-02-12

PDF arXiv

9/10

个性化语言模型奖励模型强化学习

P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

Pinyi Zhang, Ting-En Lin, Yuchuan Wu et al.

P-GenRM通过生成式奖励模型和用户原型聚类，提升个性化语言模型的奖励信号准确性和泛化能力。

提出P-GenRM，个性化生成式奖励模型
引入test-time用户尺度调整，增强个性化对齐

2026-02-12

PDF arXiv

5/10

几何处理微分反向传播

Iskra: A System for Inverse Geometry Processing

Ana Dodik, Ahmed H. Mahmoud, Justin Solomon

Iskra系统可高效地对几何处理算法进行微分，实现反向几何处理。

提出了一个用于几何处理问题微分的系统
利用局部-全局和ADMM等快速求解器

2026-02-12

PDF arXiv

8/10

强化学习大型语言模型提示工程

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Xin Xu, Clive Bai, Kai Yang et al.

提出Composition-RL方法，通过组合prompt优化LLM的强化学习训练，提升推理能力。

提出Composition-RL方法，利用pass-rate-1的prompt进行组合训练。
证明Composition-RL在不同模型尺寸下能稳定提升推理能力。

2026-02-12

PDF arXiv

6/10

联邦学习差分隐私脉冲神经网络

On the Sensitivity of Firing Rate-Based Federated Spiking Neural Networks to Differential Privacy

Luiz Pereira, Mirko Perkusich, Dalton Valadares et al.

研究差分隐私对基于脉冲神经网络的联邦学习中神经元放电率的影响。

分析了差分隐私机制对SNN放电率的影响。
揭示了隐私预算和梯度裁剪对联邦学习的影响。

2026-02-12

PDF arXiv

5/10

自适应滤波动量最小均方非平稳信号处理

Momentum LMS Theory beyond Stationarity: Stability, Tracking, and Regret

Yifei Jin, Xin Zheng, Lei Guo

论文分析了非平稳环境下动量最小均方算法(MLMS)的稳定性和跟踪性能，并给出了理论界限。

推导了时变随机线性系统下MLMS算法的跟踪性能和遗憾界限
提出了针对MLMS算法稳定性的二阶时变随机向量差分方程

2026-02-12

PDF arXiv

9/10

模型优化推理加速神经架构搜索

Extending Puzzle for Mixture-of-Experts Reasoning Models with Application to GPT-OSS Acceleration

Akhiad Bercovich, Nir Ailon, Vladimir Anisimov et al.

本文通过神经架构搜索优化GPT-OSS模型推理，降低成本并提升效率。

提出扩展的Puzzle框架用于MoE模型优化
结合多种优化策略，包括专家剪枝、注意力机制替换等

2026-02-12

PDF arXiv

8/10

AI Agents LLM Selection Evolutionary Algorithms

AdaptEvolve: Improving Efficiency of Evolutionary AI Agents through Adaptive Model Selection

Pretam Ray, Pratik Prabhanjan Brahma, Zicheng Liu et al.

AdaptEvolve通过置信度驱动的LLM选择，在进化智能体中实现了计算效率和性能的平衡。

提出了一种自适应LLM选择框架AdaptEvolve
利用生成置信度估计实时可解性

2026-02-12

PDF arXiv

6/10

alpha factor mining quantitative finance Directed Acyclic Graph

AlphaPROBE: Alpha Mining via Principled Retrieval and On-graph biased evolution

Taian Guo, Haiyang Shen, Junyu Luo et al.

AlphaPROBE通过图结构建模，提升alpha因子挖掘的效率、稳定性和准确性。

提出AlphaPROBE框架，将alpha挖掘视为DAG导航问题
设计贝叶斯因子检索器，平衡探索与利用

2026-02-12

PDF arXiv

9/10

DPO Preference Optimization Reference Policy

Mitigating Mismatch within Reference-based Preference Optimization

Suqin Yuan, Xingrui Yu, Jiyang Zheng et al.

针对DPO在悲观样本上的“过早满足”问题，提出了Hybrid-DPO（HyPO），通过有条件地去偏参考信号来提升对齐效果。

指出了DPO在悲观样本上的“过早满足”问题，并将其定义为一种训练-推理不匹配。
提出了Hybrid-DPO（HyPO），一种DPO的改进版本，能够有条件地利用参考信号，缓解“过早满足”问题。

2026-02-12

PDF arXiv

7/10

强化学习 off-policy RL 样本效率

Temporal Difference Learning with Constrained Initial Representations

Jiafei Lyu, Jingwen Yang, Zhongjian Qiao et al.

提出了约束初始表示的强化学习框架CIR，通过Tanh激活等方式稳定训练，提升样本效率。

引入Tanh激活函数约束初始表示
提出CIR框架，包含Tanh激活、skip connection和凸Q学习

2026-02-12

PDF arXiv

5/10

物种分布模型二值化生态学

How to Optimize Multispecies Set Predictions in Presence-Absence Modeling ?

Sébastien Gigot--Léandri, Gaétan Morand, Alexis Joly et al.

提出了MaxExp和SSE两种方法，用于优化多物种存在-缺席模型的二值化预测。

提出了MaxExp二值化框架，通过最大化评估指标选择最佳物种组合
提出了SSE方法，基于预期物种丰富度预测组合，计算效率高

2026-02-12

PDF arXiv

5/10

LoRA 联邦学习恶意软件检测

LoRA-based Parameter-Efficient LLMs for Continuous Learning in Edge-based Malware Detection

Christian Rondanini, Barbara Carminati, Elena Ferrari et al.

提出一种基于LoRA的参数高效联邦学习框架，用于边缘设备上的恶意软件持续检测。

提出基于LoRA的参数高效的边缘设备恶意软件检测持续学习架构。
实现了边缘设备上的本地模型自适应和全局知识共享。

2026-02-12

PDF arXiv

7/10

LoRA 参数高效微调模型压缩

LoRA-Squeeze: Simple and Effective Post-Tuning and In-Tuning Compression of LoRA Modules

Ivan Vulić, Adam Grycner, Quentin de Laroussilhe et al.

LoRA-Squeeze通过后处理和训练时压缩LoRA模块来提升性能，简化部署。

提出LoRA-Squeeze压缩方法
后处理压缩优于直接训练低秩LoRA

2026-02-11

PDF arXiv

9/10

LLM Agent Caching Tool Use

TVCACHE: A Stateful Tool-Value Cache for Post-Training LLM Agents

Abhishek Vijaya Kumar, Bhaskar Kataria, Byungsoo Oh et al.

TVCACHE通过状态感知的缓存技术加速LLM智能体的工具调用，显著提升训练效率。

提出了TVCACHE，一种状态感知的工具值缓存。
采用最长前缀匹配算法保证缓存命中的环境状态一致性。

2026-02-11

PDF arXiv

7/10

分子优化生成模型分布偏移

Sample Efficient Generative Molecular Optimization with Joint Self-Improvement

Serra Korkmaz, Adam Izdebski, Jonathan Pirnay et al.

提出一种联合自提升的分子优化方法，解决生成模型中的分布偏移和样本效率问题。

提出联合生成-预测模型，缓解分布偏移
设计自提升抽样方案，提升优化效率

2026-02-11

PDF arXiv

5/10

RNN BPTT Truncated BPTT

Tuning the burn-in phase in training recurrent neural networks improves their performance

Julian D. Schiller, Malte Heinrich, Victor G. Lopez et al.

研究了RNN训练中burn-in阶段对性能的影响，并通过实验验证其重要性。

理论分析了截断BPTT的误差界限
强调了RNN训练中burn-in阶段的重要性

2026-02-11

PDF arXiv

6/10

神经接收机低秩适配硬件实现

LOREN: Low Rank-Based Code-Rate Adaptation in Neural Receivers

Bram Van Bolderik, Vlado Menkovski, Sonia Heemstra de Groot et al.

提出一种基于低秩适配的神经接收机LOREN，降低了多码率支持的硬件开销。

提出了LOREN：一种低秩适配神经接收机
实现了多码率的硬件开销降低

2026-02-11

PDF arXiv

9/10

LLM Memory Agent

UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory

Yongshi Ye, Hui Jiang, Feihu Jiang et al.

UMEM联合优化LLM的记忆提取与管理，通过语义邻域建模提高记忆泛化能力，在交互任务中表现出色。

提出UMEM框架，联合优化记忆提取和管理
引入语义邻域建模和GRPO优化，提升记忆泛化性

2026-02-11

PDF arXiv

8/10

AutoML Feature Engineering Large Language Models

CoFEH: LLM-driven Feature Engineering Empowered by Collaborative Bayesian Hyperparameter Optimization

Beicheng Xu, Keyao Ding, Wei Liu et al.

CoFEH提出了一种基于LLM的特征工程框架，通过协同贝叶斯优化实现端到端AutoML。

提出CoFEH框架，实现LLM驱动的特征工程和贝叶斯优化的协同
引入Tree of Thought探索灵活的特征工程管道

2026-02-10

PDF arXiv

8/10

强化学习 LLM 熵控制

Flexible Entropy Control in RLVR with Gradient-Preserving Perspective

Kun Chen, Peng Shi, Fanfan Liu et al.

通过动态梯度裁剪实现强化学习中LLM策略熵的精确控制，有效缓解熵坍塌问题。

提出基于梯度保留裁剪的熵控制视角
理论和实验验证了重要性采样比率对熵变化的影响

2026-02-10

PDF arXiv

7/10

强化学习机器人灵巧操作

Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows

Chenyu Yang, Denis Tarasov, Davide Liconti et al.

提出SOFT-FLOW框架，利用正态化流和分块评论家，实现高效灵巧操作策略的现实微调。

提出基于正态化流的多模态策略，解决动作分布问题
引入动作分块评论家，提升长期信用分配

2026-02-10

PDF arXiv

9/10

DPO Preference Optimization Autoregressive Modeling

Autoregressive Direct Preference Optimization

Masanari Oi, Mahiro Ukai, Masahiro Kaneko et al.

论文提出Autoregressive DPO (ADPO)，一种将自回归建模显式集成到偏好优化框架的新方法。

提出了ADPO，一种新的DPO变体
将自回归假设提前引入DPO的理论框架

2026-02-10

PDF arXiv

6/10

深度学习残差连接优化

ANCRe: Adaptive Neural Connection Reassignment for Efficient Depth Scaling

Yilang Zhang, Bingcong Li, Niao He et al.

提出自适应神经连接重分配(ANCRe)框架，优化残差连接，提升深度网络的效率。

提出ANCRe框架，自适应学习残差连接
证明残差连接布局影响收敛速度

2026-02-09

PDF arXiv

8/10

Reinforcement Learning Diffusion Language Models Pruning

Efficient and Stable Reinforcement Learning for Diffusion Language Models

Jiawei Liu, Xiting Wang, Yuanyuan Zhong et al.

提出Spatio-Temporal Pruning(STP)框架，提升基于扩散模型的LLM的强化学习效率和稳定性。

提出Spatio-Temporal Pruning (STP) 框架
通过空间剪枝和时间剪枝压缩生成过程中的冗余

2026-02-09

PDF arXiv

8/10

强化学习多目标优化价值对齐

Learning the Value Systems of Societies with Preference-based Multi-objective Reinforcement Learning

Andrés Holgado-Sánchez, Peter Vamplew, Richard Dazeley et al.

提出基于偏好的多目标强化学习方法，用于学习社会群体的价值体系。

提出了学习价值对齐模型和社会价值体系的算法
结合聚类和基于偏好的多目标强化学习

2026-02-09

PDF arXiv

9/10

Reward Modeling Bayesian Inference In-Context Learning

Bayesian Preference Learning for Test-Time Steerable Reward Models

Jiwoo Hong, Shao Tang, Zhipeng Wang

提出Variational In-Context Reward Modeling (ICRM)，提升奖励模型测试时可控性和泛化能力。

提出了一种新的贝叶斯奖励建模目标ICRM。
ICRM通过上下文演示实现测试时可控性。

2026-02-09

PDF arXiv

6/10

深度学习生物识别高效学习

Efficient Deep Learning for Biometrics: Overview, Challenges and Trends in Ear of Frugal AI

Karim Haroun, Aya Zitouni, Aicha Zenakhri et al.

综述了生物识别中高效深度学习方法，讨论了训练和部署挑战，提出了评估指标和未来研究方向。

综述了生物识别领域的高效深度学习方法
提出了训练和部署深度学习模型的挑战和解决方法

2026-02-09

PDF arXiv

9/10

组合图像检索 Agent规划轨迹优化

OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval

Teng Wang, Rong Shan, Jianghao Lin et al.

提出了OSCAR框架，通过优化指导的Agent规划实现组合图像检索，显著提升检索性能。

将Agentic CIR重构为轨迹优化问题
提出离线-在线范式，利用离线阶段的优化轨迹指导在线规划

2026-02-09

PDF arXiv

6/10

Continual Learning Parameter-Efficient Tuning Low-Rank Adaptation

Shared LoRA Subspaces for almost Strict Continual Learning

Prakhar Kaushik, Ankit Vaidya, Shravan Chaudhari et al.

Share提出一种共享LoRA子空间的方法，用于解决严格持续学习中的灾难性遗忘问题。

提出Share方法，学习并动态更新共享低秩子空间
实现了高达100倍的参数缩减和281倍的内存节省

2026-02-05

PDF arXiv

7/10

Thompson Sampling Multi-armed Bandits Optimism

Optimism Stabilizes Thompson Sampling for Adaptive Inference

Shunxing Yan, Han Zhong

论文研究了 Thompson Sampling 在多臂赌博机问题中的稳定性，并提出了通过乐观机制实现稳定性的方法。

证明了方差膨胀的 TS 在 K 臂赌博机中的稳定性
分析了另一种乐观修改 TS 的方法并证明其稳定性

2026-02-05

PDF arXiv

6/10

生成模型奖励对齐流模型

Diamond Maps: Efficient Reward Alignment via Stochastic Flow Maps

Peter Holderrieth, Douglas Chen, Luca Eyring et al.

Diamond Maps通过随机流图实现高效的奖励对齐，提升生成模型适应性。

提出Diamond Maps，一种新的随机流图模型
Diamond Maps在推理时能高效对齐任意奖励

2026-02-05

PDF arXiv

5/10

液压系统摩擦力估计 LSTM

A Hybrid Data-Driven Algorithm for Real-Time Friction Force Estimation in Hydraulic Cylinders

Mohamad Amin Jamshidi, Mehrbod Zarifi, Zolfa Anvari et al.

提出了一种基于LSTM和随机森林的混合数据驱动算法，用于液压缸的实时摩擦力估计。

提出了一种混合数据驱动算法，结合LSTM和随机森林
实现了低于10%的稳定模型误差，并适用于各种工况

2026-02-05

PDF arXiv

8/10

LLM Alignment Reinforcement Learning f-divergence

$f$-GRPO and Beyond: Divergence-Based Reinforcement Learning Algorithms for General LLM Alignment

Rajdeep Haldar, Lantao Mei, Guang Lin et al.

论文提出基于f散度的通用LLM对齐算法，在可验证奖励的强化学习和偏好对齐任务上表现出色。

提出了f-GRPO和f-HAL两种新的对齐算法
将偏好对齐视为分布散度的估计

2026-02-05

PDF arXiv

8/10

策略镜像下降隐式正则化强化学习

Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

Zhenghao Xu, Qin Lu, Changlong Yu et al.

论文分析了一种改进的策略镜像下降算法PMD-mean，并揭示了其对LLM后训练的隐式正则化作用。

提出了PMD-mean算法，用于近似策略镜像下降中的对数配分函数。
证明了PMD-mean隐式地优化了带有自适应混合KL-$χ^2$正则化的镜像下降子问题。

2026-02-05

PDF arXiv

8/10

强化学习 LLM后训练分布强化学习

DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training

Dingwei Zhu, Zhiheng Xi, Shihan Dou et al.

DFPO通过学习值流建模，提升LLM在噪声环境下的鲁棒性和泛化能力。

提出DFPO框架，建模连续值流而非独立分位数
引入条件风险控制和一致性约束，稳定训练

2026-02-05

PDF arXiv

7/10

强化学习约束优化 Lagrangian方法

Constrained Group Relative Policy Optimization

Roger Girgis, Rodrigue de Schaetzen, Luke Rowe et al.

提出了Constrained GRPO，一种基于拉格朗日的、带有约束的策略优化方法，并解决了优势估计中的问题。

提出了Constrained GRPO算法
解决了优势估计中多成分处理导致的问题

2026-02-05

PDF arXiv

9/10

自改进遗传算法 GPT

DARWIN: Dynamic Agentically Rewriting Self-Improving Network

Henry Jiang

DARWIN利用遗传算法优化GPT模型，实现自改进，提升模型性能。

提出DARWIN框架，一种基于遗传算法的GPT模型优化方法
利用GPT agent 修改其他agent的训练代码

2026-02-05

PDF arXiv

5/10

Boolean Networks Resource-constrained Learning Network Compression

Learning Compact Boolean Networks

Shengpu Wang, Yuhao Mao, Yani Zhang et al.

针对资源受限环境，该论文提出了学习紧凑且准确的布尔网络的三种创新方法。

学习高效连接
紧凑卷积布尔架构

2026-02-05

PDF arXiv

9/10

Agent Self-Improving Trajectory Steering

Bifrost: Steering Strategic Trajectories to Bridge Contextual Gaps for Self-Improving Agents

Quan M. Tran, Zhuo Huang, Wenbin Zhang et al.

Bifrost通过引导轨迹调整，弥合上下文差距，提升自提升智能体的性能。

揭示上下文与轨迹之间的相关性
提出无需训练的Bifrost方法，利用上下文差异引导轨迹适应

2026-02-05

PDF arXiv

8/10

强化学习 VLA模型异步训练

RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism

Zhong Guan, Haoran Sun, Yongjian Guo et al.

提出RL-VLA$^3$框架，通过全异步策略加速VLA模型的强化学习训练，提升训练效率。

提出了完全异步的VLA模型强化学习训练框架。
设计了多级解耦架构，包括异步并行环境交互、流式策略生成和解耦训练更新。

2026-02-05

PDF arXiv

8/10

自动定理证明 AI Agent优化 Rocq

RocqSmith: Can Automatic Optimization Forge Better Proof Agents?

Andrei Kozyrev, Nikita Khramov, Denis Lochmelis et al.

研究AI自动优化方法在Rocq定理证明Agent中的应用，评估其优化Agent策略的能力。

评估了不同优化器在Rocq定理证明Agent上的效果
发现few-shot bootstrapping方法效果较好

2026-02-05

PDF arXiv

6/10

流水线并行参数冻结线性规划

TimelyFreeze: Adaptive Parameter Freezing Mechanism for Pipeline Parallelism

Seonghye Cho, Jaemin Han, Hyunjin Kim et al.

TimelyFreeze自适应参数冻结，优化流水线并行训练，提升吞吐量并保持精度。

提出TimelyFreeze，一种新的参数冻结机制
通过线性规划求解最优冻结比例

2026-02-05

PDF arXiv

6/10

membership inference attack privacy machine learning security

LeakBoost: Perceptual-Loss-Based Membership Inference Attack

Amit Kravchik Taub, Fred M. Grabovski, Guy Amit et al.

LeakBoost通过感知损失主动探测模型，增强成员推理攻击的效果。

提出了LeakBoost框架，利用感知损失优化输入
显著提升了成员推理攻击的成功率

2026-02-05

PDF arXiv

7/10

MoE 专家混合模型参数效率

OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

Jingze Shi, Zhangyang Peng, Yizhang Zhu et al.

OmniMoE通过原子专家和系统算法协同设计，实现了高效细粒度MoE，显著提升了推理速度和准确性。

提出向量级原子专家概念
设计笛卡尔积路由，降低路由复杂度

2026-02-05

PDF arXiv

5/10

Grammatical Error Correction Evaluation Metric Optimal Transport

Grammatical Error Correction Evaluation by Optimally Transporting Edit Representation

Takumi Goto, Yusuke Sakai, Taro Watanabe

提出了一种基于非平衡最优传输的语法纠错评估指标UOT-ERRANT，提高了评估性能和可解释性。

提出edit vector，一种用于表示编辑操作的向量。
引入基于非平衡最优传输的GEC评估指标UOT-ERRANT。

2026-02-05

PDF arXiv