6/10
Softmax approximation Quantization Edge inference

Taming the Exponential: A Fast Softmax Surrogate for Integer-Native Edge Inference

Dimitrios Danopoulos, Enrico Lupi, Michael Kagan et al.

提出了一种针对Transformer模型中Softmax计算瓶颈的快速近似方法HCCS,优化了int8推理速度并保持精度。

  • 提出了Head-Calibrated Clipped-Linear Softmax (HCCS),一种softmax的快速替代方案。
  • HCCS针对AMD Versal AI Engines的int8 multiply accumulate (MAC)单元进行了优化。
2026-04-02
7/10
Agent-based Simulation Infectious Disease Optimization

Optimizing Interventions for Agent-Based Infectious Disease Simulations

Anja Wolpers, Johannes Ponge, Adelinde M. Uhrmacher

该论文提出了ADIOS系统,利用GGGP优化基于Agent的传染病干预策略,旨在辅助决策者制定有效的非药物干预措施。

  • 设计领域特定语言,表达NPI干预策略
  • 利用语法引导遗传编程(GGGP)优化干预策略
2026-04-02
8/10
World Model Self-Improving Forward-Inverse Asymmetry

World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry

Yuejiang Liu, Fan Feng, Lingjing Kong et al.

提出World Action Verifier (WAV)框架,通过前向-逆向不对称性实现世界模型的自改进。

  • 提出基于状态合理性和动作可达性的世界模型验证方法
  • 利用视频语料库生成多样化的子目标,利用稀疏逆模型推断动作
2026-04-02
9/10
multimodal memory AI agent autonomous research

OmniMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

Jiaqi Liu, Zipeng Ling, Shi Qiu et al.

论文提出OmniMem,一个基于自主研究的终身多模态记忆框架,显著提升AI agent在多模态任务上的表现。

  • 提出 OmniMem 框架,用于终身多模态记忆
  • 构建自主研究流水线,自动化探索架构、检索、prompt和数据pipeline的设计空间
2026-04-01
6/10
强化学习 自适应光学 像差校正

Focal plane wavefront control with model-based reinforcement learning

Jalo Nousiainen, Iremsu Taskin, Markus Kasper et al.

提出了一种基于模型强化学习的自适应光学方法PO4NCPA,用于校正高对比度成像中的像差。

  • 提出了新的模型强化学习算法PO4NCPA
  • 实现了对静态和动态像差的鲁棒补偿
2026-04-01
9/10
LLM Alignment Persona

Dual Optimal: Make Your LLM Peer-like with Dignity

Xiangqi Wang, Yue Huang, Haomin Zhuang et al.

该论文提出了一种名为Dignified Peer的框架,旨在提升LLM的正直性和同伴性。

  • 提出了Dignified Peer框架
  • 构建了PersonaKnob数据集
2026-04-01
7/10
LLM 低秩分解 模型压缩

Optimal Brain Decomposition for Accurate LLM Low-Rank Approximation

Yuhang Li, Donghyun Lee, Ruokai Yin et al.

提出OBD-LLM,利用二阶 Hessian 信息进行LLM的低秩分解,显著提升分解效果。

  • 提出基于二阶 Hessian 信息的 OBD-LLM 分解方法
  • 理论证明了分解需要考虑输入和输出信息
2026-04-01
8/10
知识蒸馏 大型语言模型 On-Policy

A Survey of On-Policy Distillation for Large Language Models

Mingyang Song, Mao Zheng

本文对LLM的On-Policy Distillation方法进行了全面综述,填补了该领域缺乏统一处理的空白。

  • 首次全面综述了LLM的On-Policy Distillation (OPD) 方法
  • 提出了一个基于f-divergence的统一框架来分析OPD
2026-04-01
8/10
奖励攻击 强化学习 安全

Extending MONA in Camera Dropbox: Reproduction, Learned Approval, and Design Implications for Reward-Hacking Mitigation

Nathan Heath

论文复现并扩展MONA,探索学习审批机制对奖励攻击的影响,发现校准过的学习审批可缓解奖励攻击但存在欠优化。

  • 复现了MONA在Camera Dropbox环境中的结果,验证了奖励攻击的存在。
  • 引入了模块化的学习审批机制,包括oracle, noisy, misspecified, learned, calibrated等。
2026-03-31
6/10
模型压缩 隐式神经表示 神经网络

Big2Small: A Unifying Neural Network Framework for Model Compression

Jing-Xiao Liao, Haoran Wang, Tao Li et al.

提出Big2Small框架,通过隐式神经表示压缩模型,实现高效的模型压缩和推理。

  • 提出了一个统一的模型压缩数学框架
  • 提出了Big2Small数据无关模型压缩框架
2026-03-31
9/10
LLM Agent Memory

MemFactory: Unified Inference & Training Framework for Agent Memory

Ziliang Guo, Ziheng Li, Zhiyu Li

MemFactory提供统一的记忆增强Agent训练和推理框架,简化Agent记忆管理优化。

  • 提出了MemFactory框架,统一记忆增强Agent的训练和推理。
  • 采用模块化设计,允许用户自定义记忆Agent。
2026-03-31
6/10
循环神经网络 在线学习 梯度归一化

Temporal Credit Is Free

Aur Shalev Merin

循环神经网络无需完整雅可比传播即可在线学习,仅用即时导数和梯度归一化即可。

  • 提出了一种新的训练循环神经网络的方法,无需完整RTRL
  • 提出一种架构规则预测何时需要梯度归一化
2026-03-30
6/10
自动阅卷 数据生成 PISA测试

Training data generation for context-dependent rubric-based short answer grading

Pavel Šindelář, Dávid Slivka, Christopher Bouma et al.

针对PISA测试,论文探索利用小规模保密数据集生成大规模训练数据的方法,以提升自动阅卷效果。

  • 提出基于简单文本格式生成大规模训练数据集的方法
  • 成功创建了三个与参考数据集相似的替代数据集
2026-03-30
7/10
GPU Kernel Evolutionary Algorithm Reinforcement Learning

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

He Du, Qiming Ge, Jiakai Hu et al.

Kernel-Smith提出了一种高性能GPU内核和算子生成的统一框架。

  • 提出Kernel-Smith框架,结合进化算法和后训练
  • 在Nvidia和MetaX GPU上验证了框架的有效性
2026-03-30
7/10
模型合并 低资源语言 指令微调

Merge and Conquer: Instructing Multilingual Models by Adding Target Language Weights

Eneko Valero, Maria Ribalta i Albado, Oscar Sainz et al.

通过模型合并将语言知识迁移到指令微调LLM,无需特定语言指令和重复微调。

  • 提出了一种轻量级的低资源语言LLM适配方法:模型合并
  • 验证了模型合并在迁移语言知识和指令遵循方面的有效性
2026-03-30
5/10
迁移学习 知识蒸馏 神经网络

Neural Network Conversion of Machine Learning Pipelines

Man-Ling Sung, Jan Silovsky, Man-Hung Siu et al.

论文研究了将非神经网络的机器学习Pipeline迁移学习到神经网络,以实现统一推理。

  • 提出将非神经网络Pipeline迁移学习到神经网络
  • 探索用神经网络模仿随机森林分类器
2026-03-26
9/10
self-improvement LLM autonomous learning

Self-Improvement of Large Language Models: A Technical Overview and Future Outlook

Haoyan Yang, Mario Xerri, Solha Park et al.

论文提出了一个自提升LLM的统一框架,涵盖数据获取、选择、优化和推理等环节,并展望了未来研究方向。

  • 提出了自提升LLM的系统级视角和统一框架
  • 将自提升系统概念化为一个包含四个紧密耦合过程的闭环生命周期
2026-03-26
8/10
On-Policy Distillation Large Language Models Distillation

Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

Yuqian Fu, Haohuan Huang, Kaiwen Jiang et al.

论文分析了On-Policy Distillation的失效模式,并提出了改进方法以提升LLM的训练稳定性与性能。

  • 指出了 sampled-token OPD 的三种失效模式
  • 提出了 teacher top-K local support matching 方法作为改进
2026-03-26
9/10
Prompt Engineering Prompt Optimization DSPy

To Write or to Automate Linguistic Prompts, That Is the Question

Marina Sánchez-Torrón, Daria Akselrod, Jason Rauchwerk

论文对比了手工prompt、基础DSPy和GEPA优化DSPy在语言任务中的表现,结果依赖于具体任务。

  • 首次系统性对比手工prompt和自动prompt优化
  • 评估了不同模型配置下的prompt效果
2026-03-26
9/10
AI Agents Evolutionary Algorithm GPU Optimization

AVO: Agentic Variation Operators for Autonomous Evolutionary Search

Terry Chen, Zhifan Ye, Bing Xu et al.

AVO提出了一种基于自主智能体的进化搜索变异算子,超越传统方法。

  • 提出Agentic Variation Operators (AVO)
  • AVO在NVIDIA Blackwell GPUs上超过cuDNN和FlashAttention-4
2026-03-25
5/10
锂电池 State of Health 迁移学习

Conformalized Transfer Learning for Li-ion Battery State of Health Forecasting under Manufacturing and Usage Variability

Samuel Filgueira da Silva, Mehmet Fatih Ozkan, Faissal El Idrissi et al.

针对锂电池SOH预测,提出结合领域自适应和不确定性量化的迁移学习框架,提高预测的泛化性和可信度。

  • 提出基于MMD的领域自适应迁移学习方法
  • 利用Conformal Prediction进行不确定性量化
2026-03-25
5/10
动态AI模型 运行时编译 字节码虚拟机

DVM: Real-Time Kernel Generation for Dynamic AI Models

Jingzhi Fang, Xiong Gao, Renwei Zhang et al.

DVM提出一种基于字节码虚拟机的实时编译器,加速动态AI模型的编译和执行效率。

  • 设计了基于字节码虚拟机的运行时算子编译器
  • 提出了基于符号推导的静态图和运行时动态图的算子融合方法
2026-03-25
6/10
neuromorphic computing on-chip learning mixed-signal

Mixed-signal implementation of feedback-control optimizer for single-layer Spiking Neural Networks

Jonathan Haag, Christian Metzner, Dmitrii Zendrikov et al.

论文提出了一种混合信号神经形态处理器上的反馈控制优化器,用于片上学习,并在实际任务中验证了其可行性。

  • 提出了一种混合信号神经形态处理器上的反馈控制优化器实现
  • 在片上学习中验证了反馈控制优化器的性能
2026-03-25
9/10
AutoML Meta-learning LLM

Bilevel Autoresearch: Meta-Autoresearching Itself

Yaonan Qu, Meng Lu

提出Bilevel Autoresearch框架,通过元优化内循环的搜索机制,显著提升了LLM的预训练效果。

  • 提出了Bilevel Autoresearch框架
  • 通过元优化内循环搜索机制,改进了LLM的自研究能力
2026-03-24
7/10
Transformer 稀疏性 CUDA

Sparser, Faster, Lighter Transformer Language Models

Edoardo Cetin, Stefano Peluchetti, Emilio Castillo et al.

该论文通过引入稀疏性和优化CUDA内核,提升了Transformer语言模型的推理和训练效率。

  • 提出新的稀疏打包格式和CUDA内核
  • 证明了L1正则化可以实现高稀疏性且性能影响小
2026-03-24
6/10
随机最优控制 薛定谔方程 神经网络

A Schrödinger Eigenfunction Method for Long-Horizon Stochastic Optimal Control

Louis Claeys, Artur Goldman, Zebang Shen et al.

利用薛定谔本征函数求解高维随机最优控制问题,显著提升长时域控制精度。

  • 提出了一种基于薛定谔算子的随机最优控制新方法
  • 证明了梯度漂移假设下Hamilton-Jacobi-Bellman方程与薛定谔方程的等价性
2026-03-24
8/10
Prompt Engineering Intent Alignment Human-AI Interaction

Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction

Peng Gang

论文评估了基于5W3H结构的prompt方法PPS,以提升人机交互中意图对齐的效果,尤其在高歧义任务中。

  • 提出了goal_alignment指标,用于评估AI输出与用户意图的对齐程度
  • 验证了结构化prompt PPS在提升意图对齐方面的有效性,尤其是在高歧义任务中
2026-03-19
5/10
Contextual Bandits Single-Index Model Kernel Methods

Kernel Single-Index Bandits: Estimation, Inference, and Learning

Sakshi Arya, Satarupa Bhattacharjee, Bharath K. Sriperumbudur

研究了带单指标模型的上下文Bandit问题,提出了兼顾学习和推理的核化算法。

  • 提出了核化的ε-greedy算法
  • 建立了自适应采样下单指标估计器的渐近正态性
2026-03-19
8/10
LLM Agent Reinforcement Learning Rollout-as-a-Service

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

Hao Zhang, Mingjie Liu, Shaokun Zhang et al.

ProRL Agent提出了一种基于Rollout-as-a-Service的LLM Agent RL训练框架,提升了可扩展性和易维护性。

  • 提出了Rollout-as-a-Service的LLM Agent训练框架
  • 设计了可扩展的Agentic Rollout基础设施
2026-03-19
9/10
AI Agent Continual Learning Memory

Memento-Skills: Let Agents Design Agents

Huichi Zhou, Siyuan Guo, Anjie Liu et al.

Memento-Skills构建了一个通过经验自主设计和改进agent的通用可持续学习LLM agent系统。

  • 提出了Memento-Skills,一个agent-designing agent系统。
  • 引入了基于记忆的强化学习框架,使用状态提示和可重用技能作为持续演进的记忆。
2026-03-19
6/10
continual learning catastrophic forgetting intent classification

A Comparative Empirical Study of Catastrophic Forgetting Mitigation in Sequential Task Adaptation for Continual Natural Language Processing Systems

Aram Abrahamyan, Sachin Kumar

研究了持续学习在自然语言处理意图分类中的灾难性遗忘问题,并比较了多种缓解策略。

  • 评估了多种持续学习策略在不同模型架构上的性能
  • 发现回放机制(MIR)是关键组成部分
2026-03-19
9/10
强化学习 大语言模型 自进化

Learning to Self-Evolve

Xiaoyin Chen, Canwen Xu, Yite Wang et al.

LSE框架训练LLM在测试时通过强化学习改进上下文,提升性能。

  • 提出Learning to Self-Evolve (LSE)框架
  • 将多步上下文演化问题转化为单步RL目标
2026-03-19
6/10
持续学习 灾难性遗忘 弹性权重巩固

Elastic Weight Consolidation Done Right for Continual Learning

Xuan Liu, Xiaobin Chang

针对EWC在持续学习中的不足,提出Logits Reversal方法,显著提升性能。

  • 揭示EWC梯度消失和重要性估计不准确的问题
  • 发现MAS算法存在冗余保护问题
2026-03-19
8/10
算法发现 程序化生成 机器学习

Procedural Generation of Algorithm Discovery Tasks in Machine Learning

Alexander D. Goldie, Zilin Wang, Adrian Hayler et al.

DiscoGen提出了一种算法发现任务的程序化生成方法,用于优化机器学习算法。

  • 提出了DiscoGen,一个用于算法发现任务的程序化生成器
  • 构建了DiscoBench,一个用于评估算法发现agent的基准测试集
2026-03-18
5/10
异常检测 On-Model AD 神经元输出范围

RangeAD: Fast On-Model Anomaly Detection

Luca Hinkamp, Simon Klüttermann, Emmanuel Müller

RangeAD通过利用主模型的神经元输出范围进行异常检测,实现了高性能和低推理成本。

  • 提出了On-Model AD的概念,利用现有模型进行异常检测
  • 提出了RangeAD算法,使用神经元输出范围进行异常检测
2026-03-18
9/10
Reinforcement Learning Agent Experience Replay

Complementary Reinforcement Learning

Dilxat Muhtar, Jiashun Liu, Wei Gao et al.

提出Complementary RL,通过经验提取器与策略执行器协同进化,提升强化学习的样本效率。

  • 提出Complementary RL框架
  • 经验提取器与策略执行器协同进化
2026-03-18
9/10
AI Agents Feedback Learning Reinforcement Learning

Internalizing Agency from Reflective Experience

Rui Ge, Yichao Fu, Yuyang Qian et al.

LEAFE框架通过反思经验学习反馈驱动的代理能力,提升LLM在复杂交互任务中的问题解决能力。

  • 提出LEAFE框架,从反思经验中学习代理能力
  • 利用环境反馈进行经验总结和行为修正
2026-03-17
7/10
治疗优化 随机控制 MMD正则化

Conservative Continuous-Time Treatment Optimization

Nora Schneider, Georg Manten, Niki Kilbertus

提出了一种保守的连续时间治疗优化框架,通过MMD正则化限制外推。

  • 提出了保守的连续时间随机控制框架
  • 使用了基于签名的MMD正则化方法限制外推
2026-03-17
8/10
故事生成 小型语言模型 偏好对齐

PlotTwist: A Creative Plot Generation Framework with Small Language Models

Abhinav Thorat, Ravi Kolla, Jyotin Goel et al.

PlotTwist利用结构化框架和偏好对齐,使小型语言模型能生成高质量的故事梗概。

  • 提出PlotTwist框架,分解生成过程为三个专业组件
  • 设计新颖的Positive-Negative Prompting策略训练奖励模型
2026-03-17
7/10
进化学习 迁移学习 游戏AI

Evolutionary Transfer Learning for Dragonchess

Jim O'Connor, Annika Hoag, Sarah Goyette et al.

论文提出了一种基于进化迁移学习的Dragonchess AI,通过进化优化改进了Stockfish的启发式评估函数。

  • 提出了Dragonchess作为AI研究的新测试平台
  • 开发了开源的Python Dragonchess游戏引擎
2026-03-16
6/10
边缘AI TinyML 精准农业

Affordable Precision Agriculture: A Deployment-Oriented Review of Low-Cost, Low-Power Edge AI and TinyML for Resource-Constrained Farming Systems

Riya Samanta, Bidyut Saha

综述低成本、低功耗边缘AI和TinyML在资源受限农业系统中的部署现状与挑战。

  • 分析了Edge AI和TinyML在农业中的应用现状,特别是硬件架构和优化策略。
  • 揭示了资源评估实践的不统一性,强调了可重复性和跨系统比较的重要性。
2026-03-16
9/10
GUI Agent VLM Trajectory Synthesis

HATS: Hardness-Aware Trajectory Synthesis for GUI Agents

Rui Shao, Ruize Gao, Bin Xie et al.

HATS提出一种硬度感知轨迹合成框架,提升GUI智能体在语义模糊场景下的泛化能力。

  • 提出硬度感知的轨迹合成框架HATS
  • 设计硬度驱动的探索模块,寻找有信息量的交互
2026-03-12
9/10
强化学习 LLM Agent 泛化能力

Can RL Improve Generalization of LLM Agents? An Empirical Study

Zhiheng Xi, Xin Guo, Jiaqi Liu et al.

研究强化学习微调对LLM Agent在不同环境下的泛化性能,并分析影响因素。

  • 系统性研究了RFT在不同泛化场景下的表现
  • 分析了语义先验和交互界面差异对泛化性能的影响
2026-03-12
8/10
Reinforcement Learning Large Language Models Recommender Systems

FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning

Yijun Pan, Weikang Qiu, Qiyao Ma et al.

FlexRec利用强化学习微调LLM,解决推荐系统中动态需求下的排序问题,显著提升推荐效果。

  • 提出了FlexRec框架,用于适应不同需求的LLM推荐。
  • 设计了基于反事实交换的item-level奖励机制,提升训练信号。
2026-03-12
5/10
神经算子 参数优化 常微分方程

Inverse Neural Operator for ODE Parameter Optimization

Zhi-Song Liu, Wenqing Peng, Helmi Toropainen et al.

提出了一种反向神经算子INO,用于从稀疏观测数据中恢复ODE参数。

  • 提出了 Inverse Neural Operator (INO)框架
  • 使用C-FNO学习可微代理模型重构ODE轨迹
2026-03-12
8/10
Continual Learning Reinforcement Learning Vision-Language-Action

Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Jiaheng Hu, Jay Shim, Chen Tang et al.

简单微调方法结合低秩适应LoRA,在大规模VLA模型的持续强化学习中表现出色。

  • 证明了简单序列微调(Seq. FT)结合LoRA在VLA模型的持续强化学习中有效。
  • 揭示了大规模预训练模型、参数高效适配和在线强化学习之间的协同作用。
2026-03-12
7/10
强化学习 遍历性 奖励函数

Ergodicity in reinforcement learning

Dominik Baumann, Erfaun Noorani, Arsenii Mustafin et al.

论文探讨了非遍历性奖励过程对强化学习的影响,并讨论了优化个体轨迹长期性能的现有解决方案。

  • 指出了非遍历性奖励过程对强化学习算法的影响
  • 将遍历性奖励过程与遍历性马尔可夫链的概念联系起来
2026-03-11
8/10
Reinforcement Learning Value Function Baseline

$V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao et al.

提出V0.5算法,通过融合通用价值模型先验和稀疏采样经验均值,构建鲁棒的advantage baseline。

  • 提出了 V_{0.5} 算法,融合价值模型先验和稀疏 rollout 的经验均值。
  • 引入实时统计测试和动态预算分配机制,平衡偏差和方差。
2026-03-11
5/10
集成学习 硬件感知 多目标优化

HAPEns: Hardware-Aware Post-Hoc Ensembling for Tabular Data

Jannis Maier, Lennart Purucker

HAPEns是一种硬件感知的后验集成方法,旨在平衡表格数据的预测性能和硬件效率。

  • 提出HAPEns:一种硬件感知的后验集成方法
  • 使用多目标优化和质量多样性优化构建Pareto前沿的集成
2026-03-11
8/10
LLM 同行评议 反馈生成

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Sihong Wu, Yiling Ma, Yilun Zhao et al.

RbtAct提出了一种利用同行评议回复优化LLM生成可操作性反馈的方法,提高AI生成评审的质量。

  • 提出了RbtAct框架,利用回复作为监督信号
  • 提出了视角条件下的段落级评审反馈生成任务
2026-03-10
5/10
边缘计算 深度学习 模型优化

Multi-DNN Inference of Sparse Models on Edge SoCs

Jiawei Luo, Di Wu, Simon Dobson et al.

SparseLoom通过模型缝合技术优化边缘设备上多DNN推理系统,提升效率。

  • 提出模型缝合技术,创建模型变体
  • 设计并实现SparseLoom系统
2026-03-10
9/10
强化学习 LLM智能体 推理

Agentic Critical Training

Weize Liu, Minghui Liu, Sy-Tuyen Ho et al.

ACT通过强化学习训练LLM智能体判断最优行动,提升智能体推理能力和泛化性能。

  • 提出Agentic Critical Training (ACT) 框架
  • ACT提升了智能体的推理能力,实现真正的自我反思
2026-03-09
9/10
LLM Agents Post-Training Benchmarking

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Ben Rank, Hardik Bhatnagar, Ameya Prabhu et al.

该论文提出PostTrainBench,评估LLM Agent自主完成LLM后训练的能力,并发现了潜在风险。

  • 提出了PostTrainBench基准测试,用于评估LLM Agent自主后训练能力。
  • 评估了前沿Agent在后训练任务上的表现,并与指令微调模型进行比较。
2026-03-09
7/10
算法选择 贝叶斯优化 Pareto优化

Pareto-Optimal Anytime Algorithms via Bayesian Racing

Jonathan Wurth, Helena Stegherr, Neele Kemper et al.

提出PolarBear框架,通过贝叶斯竞争方法,在未知计算预算下选择Pareto最优的随时算法。

  • 提出基于排序的算法比较框架,无需归一化和已知最优解
  • 开发PolarBear算法,通过自适应采样识别随时Pareto集
2026-03-09
9/10
RLHF 选择盲视 偏好学习

Aligning to Illusions: Choice Blindness in Human and AI Feedback

Wenbin Wu

人类和AI反馈中存在“选择盲视”现象,导致RLHF训练信号被扭曲,标准评估指标难以检测。

  • 揭示了人类在评估偏好时存在选择盲视现象
  • 发现LLM的偏好判断依赖于浅层文本匹配,而非真正的自我监控
2026-03-09
9/10
LLM Policy Optimization Reinforcement Learning

Fibration Policy Optimization

Chang Li, Tshihao Tsu, Yaren Zhang et al.

提出Fibration Policy Optimization(FiberPO),一个统一LLM策略优化的多尺度稳定控制框架。

  • 提出了Aggregational Policy Censoring Objective (APC-Obj)
  • 开发了Fiber Bundle Gating (FBG) 框架
2026-03-09
8/10
领域自适应 自动化机器学习 多智能体系统

AutoAdapt: An Automated Domain Adaptation Framework for LLMs

Sidharth Sinha, Anson Bastos, Xuchao Zhang et al.

AutoAdapt是一个自动化的LLM领域自适应框架,提升模型在特定领域的能力。

  • 提出了AutoAdapt框架,降低专家干预
  • 设计了多智能体辩论系统,对齐用户意图
2026-03-09
7/10
机器人学习 模仿学习 增强现实

RoboPocket: Improve Robot Policies Instantly with Your Phone

Junjie Fang, Wendi Chen, Han Xue et al.

RoboPocket利用手机AR进行机器人策略迭代,提升数据效率并加速在线精调。

  • 提出RoboPocket系统,实现无机器人策略迭代
  • 使用AR视觉预测进行远程推理,提供沉浸式反馈
2026-03-05
7/10
LoRA Parameter-Efficient Fine-tuning Stable Feature Learning

Stable-LoRA: Stabilizing Feature Learning of Low-Rank Adaptation

Yize Wu, Ke Gao, Ling Li et al.

Stable-LoRA通过动态权重衰减优化LoRA,解决其特征学习不稳定的问题,提升模型性能。

  • 揭示LoRA特征学习不稳定的根本原因
  • 提出Stable-LoRA权重衰减优化策略
2026-03-05
5/10
量化 特征压缩 神经网络

Trainable Bitwise Soft Quantization for Input Feature Compression

Karsten Schrödter, Jan Stenkamp, Nina Herrmann et al.

提出了一种可训练的逐位软量化层,用于压缩神经网络的输入特征,以适应物联网设备的资源限制。

  • 提出了可训练的逐位软量化层
  • 实现了任务特定的特征压缩
2026-03-05
7/10
强化学习 奖励工程 多目标学习

Reward-Conditioned Reinforcement Learning

Michal Nauman, Marek Cygan, Pieter Abbeel

提出奖励条件强化学习RCRL,通过条件策略学习多个奖励目标,提升鲁棒性和适应性。

  • 提出RCRL框架,训练单个agent优化奖励家族
  • 利用共享回放数据离线学习多个奖励目标
2026-03-05
8/10
微调 预训练 数据效率

Replaying pre-training data improves fine-tuning

Suhas Kotha, Percy Liang

论文发现,在微调阶段重放预训练数据可显著提高目标任务的性能和数据效率。

  • 提出在微调阶段重放通用预训练数据的新方法
  • 量化了重放预训练数据在目标任务上的性能提升
2026-03-05
8/10
强化学习 策略优化 重要性采样

GIPO: Gaussian Importance Sampling Policy Optimization

Chengxuan Lu, Zhenquan Zhang, Shukuan Wang et al.

GIPO提出一种基于重要性采样的策略优化方法,提升强化学习的样本效率和稳定性。

  • 提出GIPO算法,使用高斯权重软化重要性比例
  • 理论分析证明GIPO的约束性和鲁棒性
2026-03-04
6/10
In-Memory Computing Hardware-Workload Co-design Evolutionary Algorithm

Joint Hardware-Workload Co-Optimization for In-Memory Computing Accelerators

Olga Krestinskaya, Mohammed E. Fouda, Ahmed Eltawil et al.

提出一种面向多工作负载的片上内存计算加速器联合软硬件协同优化框架,显著提升通用性。

  • 提出了一种基于优化进化算法的联合软硬件协同优化框架。
  • 该框架能够显式地捕获跨工作负载的权衡,优化通用IMC设计。
2026-03-04
8/10
AI Agents Reward Shaping Code Generation

A Rubric-Supervised Critic from Sparse Real-World Outcomes

Xingyao Wang, Valerie Chen, Heng Ji et al.

提出一种基于规则的监督框架,从稀疏真实数据中学习代码代理的评价模型,提升代码生成任务性能。

  • 提出Critic Rubrics框架,利用行为特征和稀疏反馈学习评价模型
  • 证明评价模型可用于重排序、提前停止和数据筛选
2026-03-04
9/10
RLAIF 价值学习 语言模型

Why Does RLAIF Work At All?

Robin Young

论文提出了潜在价值假设,解释了RLAIF通过自反馈进行价值学习的有效性,并提出了线性模型进行分析。

  • 提出了潜在价值假设,解释RLAIF的有效性
  • 建立了线性模型,形式化分析了价值学习过程
2026-03-03
9/10
LLM Agents Privacy Reinforcement Learning

Contextualized Privacy Defense for LLM Agents

Yule Wen, Yanzhe Zhang, Jianxun Lian et al.

提出了一种基于上下文感知的隐私保护框架CDI,通过强化学习优化指导模型,提升LLM Agent的隐私安全。

  • 提出了Contextualized Defense Instructing (CDI) 框架
  • 将隐私保护问题转化为强化学习优化问题
2026-03-03
8/10
GUI Agent Continual Learning Reinforcement Learning

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Zhenquan Yao, Zitong Huang, Yihan Zeng et al.

CGL框架通过SFT和RL的协同,提升GUI Agent在持续学习中的适应性和技能保持能力。

  • 提出了CGL框架,平衡SFT和RL
  • 引入策略熵引导的SFT比例调整机制
2026-03-03
9/10
LLM-AAD 算法相似性 程序执行轨迹

Rethinking Code Similarity for Automated Algorithm Design with LLMs

Rui Zhang, Zhichao Lu

提出BehaveSim,通过分析程序执行轨迹来评估算法相似性,提升LLM自动算法设计效果。

  • 提出BehaveSim算法相似性度量方法
  • 利用程序执行轨迹(PSTrajs)进行算法相似性比较
2026-03-03
5/10
持续学习 贝叶斯推理 无监督学习

Unsupervised Continual Learning for Amortized Bayesian Inference

Aayush Mishra, Šimon Kucharský, Paul-Christian Bürkner

提出一种无监督持续学习框架,用于提升摊销贝叶斯推理在序列数据上的性能。

  • 提出无监督持续学习的ABI框架
  • 引入基于episodic replay的SC训练
2026-02-26
9/10
强化学习 智能体 策略优化

Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks

Shuo He, Lang Feng, Qi Wei et al.

HGPO通过层级分组优化解决长时程Agent任务中上下文不一致导致的优势估计偏差问题。

  • 提出Hierarchy-of-Groups Policy Optimization (HGPO)
  • 解决了stepwise优势估计中的上下文不一致问题
2026-02-26
7/10
增强阅读 模拟优化 资源理性模型

Simulation-based Optimization for Augmented Reading

Yunpeng Bai, Shengdong Zhao, Antti Oulasvirta

提出基于模拟优化的增强阅读方法,利用资源理性模型改善文本呈现和理解。

  • 提出基于模拟优化的增强阅读框架
  • 设计离线和在线两种优化流程
2026-02-26
7/10
生成式推荐 广告推荐 大规模系统

Generative Recommendation for Large-Scale Advertising

Ben Xue, Dan Liu, Lixiang Wang et al.

提出GR4AD,一个面向大规模广告的生成式推荐系统,优化模型和推理效率。

  • 提出UA-SID统一广告语义ID
  • 提出LazyAR懒惰自回归解码器
2026-02-26
9/10
GUI Agent Reinforcement Learning Supervised Fine-tuning

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Rui Yang, Qianhui Wu, Zhaoyang Wang et al.

GUI-Libra提出了一种针对GUI智能体的训练方法,优化了数据、SFT和RL过程,显著提升了任务完成度。

  • 构建并发布了一个81K的GUI推理数据集,缓解了动作对齐推理数据稀缺的问题。
  • 提出了动作感知的SFT方法,平衡了推理和基础能力,提升了智能体的泛化性。
2026-02-25
5/10
代理模型 神经网络 流体流动

Surrogate models for Rock-Fluid Interaction: A Grid-Size-Invariant Approach

Nathalie C. Pinheiro, Donghu Guo, Hannah P. Menke et al.

论文提出了一种网格尺寸不变的代理模型,用于预测多孔介质中的流体流动。

  • 开发网格尺寸不变的代理模型框架
  • 比较UNet和UNet++在代理模型中的性能,证明UNet++更优
2026-02-25
6/10
贝叶斯深度学习 不确定性估计 变分推断

Function-Space Empirical Bayes Regularisation with Student's t Priors

Pengcheng Hao, Ercan Engin Kuruoglu

提出了一种新的函数空间经验贝叶斯正则化框架,使用Student's t先验提高不确定性估计的鲁棒性。

  • 提出了ST-FS-EB框架,使用Student's t先验进行函数空间正则化
  • 在参数和函数空间都使用了重尾分布
2026-02-25
7/10
Mixture-of-Experts Optimization Sparse Architectures

Excitation: Momentum For Experts

Sagi Shaier

Excitation提出了一种新的优化框架,通过动态调整专家利用率加速MoE模型的学习。

  • 提出Excitation优化框架,加速MoE学习
  • 解决了深层MoE中的“结构混淆”问题
2026-02-25
9/10
AI Agent Reinforcement Learning Uncertainty

SELAUR: Self Evolving LLM Agent via Uncertainty-aware Rewards

Dengjia Zhang, Xiaoou Liu, Lu Cheng et al.

SELAUR提出了一种基于不确定性感知的奖励机制,提升LLM Agent的探索效率和学习稳定性。

  • 将LLM的不确定性整合到Agent的奖励设计中
  • 提出一种结合熵、最小置信度和边际的token级不确定性估计方法
2026-02-24
9/10
LLM 进化算法 优化

AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization

Mert Cemri, Shubham Agrawal, Akshat Gupta et al.

AdaEvolve通过层级自适应优化,提升了LLM驱动的进化搜索效率,解决了资源分配不均的问题。

  • 提出了AdaEvolve框架,实现LLM驱动进化的自适应优化
  • 引入累积改进信号,统一决策三个层次的优化过程
2026-02-23
6/10
算法展开 雅可比矩阵 双层优化

Understanding the Curse of Unrolling

Sheheryar Mehmood, Florian Knoll, Peter Ochs

该论文分析了算法展开中导数迭代发散的“诅咒”现象,并提出了缓解方案。

  • 解释了展开诅咒的根源和影响因素
  • 提出了通过截断早期迭代来缓解诅咒的方法
2026-02-23
9/10
LLM Reinforcement Learning Asynchronous Training

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Luke Huang, Zhuoyang Zhang, Qinghao Hu et al.

针对LLM异步RL训练中梯度方差过高问题,提出方差控制策略优化VCPO算法。

  • 诊断了异步RL中高方差梯度导致训练崩溃的问题,并与有效样本量ESS和梯度范数相关联。
  • 提出了VCPO算法,通过基于ESS调整学习率和最小方差基线来控制方差。
2026-02-19
6/10
Continual Learning Low-Rank Adaptation Elastic Weight Consolidation

Revisiting Weight Regularization for Low-Rank Continual Learning

Yaoyue Zheng, Yin Zhang, Joost van de Weijer et al.

该论文提出EWC-LoRA方法,通过正则化低秩更新缓解参数高效持续学习中的任务干扰。

  • 提出EWC-LoRA方法,将EWC应用于低秩持续学习。
  • 利用低秩表示估计全维度参数重要性。
2026-02-19
6/10
生成模型 模块化学习 鲁棒性

A Theoretical Framework for Modular Learning of Robust Generative Models

Corinna Cortes, Mehryar Mohri, Yutao Zhong

提出一种模块化生成模型框架,通过组合领域专家模型提升性能和鲁棒性,并提供理论证明和算法。

  • 提出模块化生成模型框架,解决大规模生成模型训练资源消耗问题。
  • 证明了模块化模型在鲁棒性和泛化性方面的优势。
2026-02-19
9/10
LLM Agent Long-horizon Task Reinforcement Learning

KLong: Training LLM Agent for Extremely Long-horizon Tasks

Yue Liu, Zhiyuan Hu, Flood Sung et al.

KLong通过轨迹分割SFT和渐进式RL训练,提升LLM Agent的超长时程任务解决能力。

  • 提出轨迹分割SFT方法
  • 提出渐进式RL训练方法
2026-02-19
7/10
continual learning reinforcement learning robust control

Continual uncertainty learning

Heisei Yonezawa, Ansei Yonezawa, Itsuro Kajiwara

提出了基于课程学习的持续不确定性学习框架,用于解决复杂非线性系统的鲁棒控制问题。

  • 提出了一种新的持续学习框架,用于处理多重不确定性
  • 将复杂控制问题分解为一系列持续学习任务
2026-02-19
7/10
零阶优化 梯度估计 大型模型微调

Powering Up Zeroth-Order Training via Subspace Gradient Orthogonalization

Yicheng Lang, Changsheng Wang, Yihua Zhang et al.

提出ZO-Muon方法,通过子空间梯度正交化,显著提升零阶优化在微调大型模型时的效率和精度。

  • 提出子空间梯度正交化框架
  • 设计了ZO-Muon算法,结合了低秩结构和梯度正交化
2026-02-19
6/10
scenario approach data-driven design post-design certification

Scenario Approach with Post-Design Certification of User-Specified Properties

Algo Carè, Marco C. Campi, Simone Garatti

提出一种两级框架,在设计后验证用户指定属性,无需额外测试数据。

  • 提出两级框架:baseline appropriateness和post-design appropriateness
  • 提供post-design appropriateness风险的分布无关上限和下限
2026-02-17
7/10
信息检索 碳节约 扩散模型

GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search

Rong Fu, Wenxin Zhang, Jia Yee Tan et al.

GaiaFlow通过语义引导扩散调优实现碳节约型搜索,兼顾精度与环境效益。

  • 提出GaiaFlow框架,优化搜索精度和环境效益的平衡
  • 利用检索引导的Langevin动力学和硬件无关的性能建模策略
2026-02-17
7/10
parameter-efficient fine-tuning low-rank adaptation algebraic mergeability

D2-LoRA: A Synergistic Approach to Differential and Directional Low-Rank Adaptation

Nozomu Fujisawa, Masaaki Kondo

D2-LoRA是一种参数高效的微调方法,在保证性能的同时,实现了代数可合并性和低推理延迟。

  • 提出D2-LoRA,一种结合符号低秩残差更新和列向投影的微调方法
  • D2-LoRA在问答、阅读理解和生成任务中表现优于LoRA和DoRA
2026-02-16
5/10
反向传播 向量-雅可比积 深度学习

Unbiased Approximate Vector-Jacobian Products for Efficient Backpropagation

Killian Bakong, Laurent Massoulié, Edouard Oyallon et al.

提出一种基于随机无偏近似向量-雅可比积的反向传播方法,以降低深度学习的计算和内存成本。

  • 提出随机无偏近似向量-雅可比积的反向传播方法
  • 分析了精度与成本之间的权衡
2026-02-16
9/10
强化学习 大型语言模型 系统提示学习

Evolutionary System Prompt Learning can Facilitate Reinforcement Learning for LLMs

Lunjun Zhang, Ryan Chen, Bradly C. Stadie

提出E-SPL方法,结合强化学习和进化系统提示学习,提升LLM在推理和Agent任务中的性能和泛化能力。

  • 提出Evolutionary System Prompt Learning (E-SPL) 方法
  • 结合强化学习更新模型权重和进化算法优化系统提示
2026-02-16
8/10
上下文蒸馏 知识蒸馏 语言模型

On-Policy Context Distillation for Language Models

Tianzhu Ye, Li Dong, Xun Wu et al.

提出On-Policy上下文蒸馏(OPCD),通过在生成轨迹上训练学生模型来提取和整合上下文知识。

  • 提出On-Policy上下文蒸馏框架OPCD
  • OPCD在经验知识蒸馏和系统提示蒸馏上的有效性
2026-02-12
8/10
Value Alignment LLM Evaluation

Value Alignment Tax: Measuring Value Trade-offs in LLM Alignment

Jiajun Chen, Hua Shen

提出Value Alignment Tax (VAT)框架,用于衡量对齐诱导的价值权衡和连锁反应。

  • 提出了Value Alignment Tax (VAT)框架,量化对齐带来的价值权衡。
  • 揭示了对齐过程中价值之间非均匀、结构化的联动关系。
2026-02-12
5/10
几何处理 微分 反向传播

Iskra: A System for Inverse Geometry Processing

Ana Dodik, Ahmed H. Mahmoud, Justin Solomon

Iskra系统可高效地对几何处理算法进行微分,实现反向几何处理。

  • 提出了一个用于几何处理问题微分的系统
  • 利用局部-全局和ADMM等快速求解器
2026-02-12
5/10
自适应滤波 动量最小均方 非平稳信号处理

Momentum LMS Theory beyond Stationarity: Stability, Tracking, and Regret

Yifei Jin, Xin Zheng, Lei Guo

论文分析了非平稳环境下动量最小均方算法(MLMS)的稳定性和跟踪性能,并给出了理论界限。

  • 推导了时变随机线性系统下MLMS算法的跟踪性能和遗憾界限
  • 提出了针对MLMS算法稳定性的二阶时变随机向量差分方程
2026-02-12
9/10
DPO Preference Optimization Reference Policy

Mitigating Mismatch within Reference-based Preference Optimization

Suqin Yuan, Xingrui Yu, Jiyang Zheng et al.

针对DPO在悲观样本上的“过早满足”问题,提出了Hybrid-DPO(HyPO),通过有条件地去偏参考信号来提升对齐效果。

  • 指出了DPO在悲观样本上的“过早满足”问题,并将其定义为一种训练-推理不匹配。
  • 提出了Hybrid-DPO(HyPO),一种DPO的改进版本,能够有条件地利用参考信号,缓解“过早满足”问题。
2026-02-12
7/10
强化学习 off-policy RL 样本效率

Temporal Difference Learning with Constrained Initial Representations

Jiafei Lyu, Jingwen Yang, Zhongjian Qiao et al.

提出了约束初始表示的强化学习框架CIR,通过Tanh激活等方式稳定训练,提升样本效率。

  • 引入Tanh激活函数约束初始表示
  • 提出CIR框架,包含Tanh激活、skip connection和凸Q学习
2026-02-12
5/10
物种分布模型 二值化 生态学

How to Optimize Multispecies Set Predictions in Presence-Absence Modeling ?

Sébastien Gigot--Léandri, Gaétan Morand, Alexis Joly et al.

提出了MaxExp和SSE两种方法,用于优化多物种存在-缺席模型的二值化预测。

  • 提出了MaxExp二值化框架,通过最大化评估指标选择最佳物种组合
  • 提出了SSE方法,基于预期物种丰富度预测组合,计算效率高
2026-02-12
9/10
LLM Agent Caching Tool Use

TVCACHE: A Stateful Tool-Value Cache for Post-Training LLM Agents

Abhishek Vijaya Kumar, Bhaskar Kataria, Byungsoo Oh et al.

TVCACHE通过状态感知的缓存技术加速LLM智能体的工具调用,显著提升训练效率。

  • 提出了TVCACHE,一种状态感知的工具值缓存。
  • 采用最长前缀匹配算法保证缓存命中的环境状态一致性。
2026-02-11
6/10
神经接收机 低秩适配 硬件实现

LOREN: Low Rank-Based Code-Rate Adaptation in Neural Receivers

Bram Van Bolderik, Vlado Menkovski, Sonia Heemstra de Groot et al.

提出一种基于低秩适配的神经接收机LOREN,降低了多码率支持的硬件开销。

  • 提出了LOREN:一种低秩适配神经接收机
  • 实现了多码率的硬件开销降低
2026-02-11
9/10
DPO Preference Optimization Autoregressive Modeling

Autoregressive Direct Preference Optimization

Masanari Oi, Mahiro Ukai, Masahiro Kaneko et al.

论文提出Autoregressive DPO (ADPO),一种将自回归建模显式集成到偏好优化框架的新方法。

  • 提出了ADPO,一种新的DPO变体
  • 将自回归假设提前引入DPO的理论框架
2026-02-10
8/10
Reinforcement Learning Diffusion Language Models Pruning

Efficient and Stable Reinforcement Learning for Diffusion Language Models

Jiawei Liu, Xiting Wang, Yuanyuan Zhong et al.

提出Spatio-Temporal Pruning(STP)框架,提升基于扩散模型的LLM的强化学习效率和稳定性。

  • 提出Spatio-Temporal Pruning (STP) 框架
  • 通过空间剪枝和时间剪枝压缩生成过程中的冗余
2026-02-09
9/10
Reward Modeling Bayesian Inference In-Context Learning

Bayesian Preference Learning for Test-Time Steerable Reward Models

Jiwoo Hong, Shao Tang, Zhipeng Wang

提出Variational In-Context Reward Modeling (ICRM),提升奖励模型测试时可控性和泛化能力。

  • 提出了一种新的贝叶斯奖励建模目标ICRM。
  • ICRM通过上下文演示实现测试时可控性。
2026-02-09
9/10
组合图像检索 Agent规划 轨迹优化

OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval

Teng Wang, Rong Shan, Jianghao Lin et al.

提出了OSCAR框架,通过优化指导的Agent规划实现组合图像检索,显著提升检索性能。

  • 将Agentic CIR重构为轨迹优化问题
  • 提出离线-在线范式,利用离线阶段的优化轨迹指导在线规划
2026-02-09
6/10
Continual Learning Parameter-Efficient Tuning Low-Rank Adaptation

Shared LoRA Subspaces for almost Strict Continual Learning

Prakhar Kaushik, Ankit Vaidya, Shravan Chaudhari et al.

Share提出一种共享LoRA子空间的方法,用于解决严格持续学习中的灾难性遗忘问题。

  • 提出Share方法,学习并动态更新共享低秩子空间
  • 实现了高达100倍的参数缩减和281倍的内存节省
2026-02-05
7/10
Thompson Sampling Multi-armed Bandits Optimism

Optimism Stabilizes Thompson Sampling for Adaptive Inference

Shunxing Yan, Han Zhong

论文研究了 Thompson Sampling 在多臂赌博机问题中的稳定性,并提出了通过乐观机制实现稳定性的方法。

  • 证明了方差膨胀的 TS 在 K 臂赌博机中的稳定性
  • 分析了另一种乐观修改 TS 的方法并证明其稳定性
2026-02-05
6/10
生成模型 奖励对齐 流模型

Diamond Maps: Efficient Reward Alignment via Stochastic Flow Maps

Peter Holderrieth, Douglas Chen, Luca Eyring et al.

Diamond Maps通过随机流图实现高效的奖励对齐,提升生成模型适应性。

  • 提出Diamond Maps,一种新的随机流图模型
  • Diamond Maps在推理时能高效对齐任意奖励
2026-02-05
8/10
策略镜像下降 隐式正则化 强化学习

Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training

Zhenghao Xu, Qin Lu, Changlong Yu et al.

论文分析了一种改进的策略镜像下降算法PMD-mean,并揭示了其对LLM后训练的隐式正则化作用。

  • 提出了PMD-mean算法,用于近似策略镜像下降中的对数配分函数。
  • 证明了PMD-mean隐式地优化了带有自适应混合KL-$χ^2$正则化的镜像下降子问题。
2026-02-05
7/10
强化学习 约束优化 Lagrangian方法

Constrained Group Relative Policy Optimization

Roger Girgis, Rodrigue de Schaetzen, Luke Rowe et al.

提出了Constrained GRPO,一种基于拉格朗日的、带有约束的策略优化方法,并解决了优势估计中的问题。

  • 提出了Constrained GRPO算法
  • 解决了优势估计中多成分处理导致的问题
2026-02-05
5/10
Boolean Networks Resource-constrained Learning Network Compression

Learning Compact Boolean Networks

Shengpu Wang, Yuhao Mao, Yani Zhang et al.

针对资源受限环境,该论文提出了学习紧凑且准确的布尔网络的三种创新方法。

  • 学习高效连接
  • 紧凑卷积布尔架构
2026-02-05
8/10
强化学习 VLA模型 异步训练

RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism

Zhong Guan, Haoran Sun, Yongjian Guo et al.

提出RL-VLA$^3$框架,通过全异步策略加速VLA模型的强化学习训练,提升训练效率。

  • 提出了完全异步的VLA模型强化学习训练框架。
  • 设计了多级解耦架构,包括异步并行环境交互、流式策略生成和解耦训练更新。
2026-02-05
8/10
自动定理证明 AI Agent优化 Rocq

RocqSmith: Can Automatic Optimization Forge Better Proof Agents?

Andrei Kozyrev, Nikita Khramov, Denis Lochmelis et al.

研究AI自动优化方法在Rocq定理证明Agent中的应用,评估其优化Agent策略的能力。

  • 评估了不同优化器在Rocq定理证明Agent上的效果
  • 发现few-shot bootstrapping方法效果较好
2026-02-05
6/10
membership inference attack privacy machine learning security

LeakBoost: Perceptual-Loss-Based Membership Inference Attack

Amit Kravchik Taub, Fred M. Grabovski, Guy Amit et al.

LeakBoost通过感知损失主动探测模型,增强成员推理攻击的效果。

  • 提出了LeakBoost框架,利用感知损失优化输入
  • 显著提升了成员推理攻击的成功率
2026-02-05
7/10
MoE 专家混合模型 参数效率

OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

Jingze Shi, Zhangyang Peng, Yizhang Zhu et al.

OmniMoE通过原子专家和系统算法协同设计,实现了高效细粒度MoE,显著提升了推理速度和准确性。

  • 提出向量级原子专家概念
  • 设计笛卡尔积路由,降低路由复杂度
2026-02-05
5/10
Grammatical Error Correction Evaluation Metric Optimal Transport

Grammatical Error Correction Evaluation by Optimally Transporting Edit Representation

Takumi Goto, Yusuke Sakai, Taro Watanabe

提出了一种基于非平衡最优传输的语法纠错评估指标UOT-ERRANT,提高了评估性能和可解释性。

  • 提出edit vector,一种用于表示编辑操作的向量。
  • 引入基于非平衡最优传输的GEC评估指标UOT-ERRANT。
2026-02-05