LLM Memory & RAG - Paper Tracker

8/10

RAG LLaMA Electron-Ion Collider

Retrieval-Augmented Question Answering over Scientific Literature for the Electron-Ion Collider

Tina. J. Jat, T. Ghosh, Karthik Suresh

该论文构建了一个基于本地LLaMA模型的Electron-Ion Collider (EIC) 领域RAG问答系统。

构建了本地部署的EIC相关文档RAG系统
使用开源LLaMA模型进行答案生成

2026-04-02

PDF arXiv

9/10

Retrieval-Augmented Language Model Instruction Tuning Neuron-level Sparsity

Neuro-RIT: Neuron-Guided Instruction Tuning for Robust Retrieval-Augmented Language Model

Jaemin Kim, Jae O Lee, Sumyeong Ahn et al.

Neuro-RIT通过神经元引导的指令微调，增强检索增强语言模型在噪声环境下的鲁棒性。

提出Neuro-RIT框架，实现神经元级别的鲁棒性提升
基于归因的神经元挖掘，区分处理相关和无关上下文的神经元

2026-04-02

PDF arXiv

10/10

RAG 重排序强化学习

Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning

Yuhang Wu, Xiangqing Shen, Fanfan Wang et al.

提出了一种基于强化学习的重排序偏好优化框架RRPO，提升RAG中检索结果的生成质量。

提出RRPO框架，使用LLM反馈优化重排序器
无需人工标注，降低成本

2026-04-02

PDF arXiv

7/10

LLM RAG 保险

AI in Insurance: Adaptive Questionnaires for Improved Risk Profiling

Diogo Silva, João Teixeira, Bruno Lima

ARQuest利用LLM和另类数据构建个性化保险问卷，提升用户体验并简化流程。

提出了ARQuest框架，使用LLM生成自适应问卷
结合社交媒体图像分析和地理数据等另类数据

2026-04-02

PDF arXiv

9/10

检索增强小型语言模型科学问答

Do We Need Bigger Models for Science? Task-Aware Retrieval with Small Language Models

Florian Kelber, Matthias Jobst, Yuni Susanti et al.

研究表明，检索增强能在一定程度上弥补小模型的能力不足，但模型容量对复杂推理仍然重要。

设计轻量级的检索增强框架
实现任务感知的检索策略选择

2026-04-02

PDF arXiv

8/10

自监督学习知识获取模型修正

Learn by Surprise, Commit by Proof

Kang-Sin Choi

LSCP通过自验证方式，使模型学习新知识并修正已有知识，避免死记硬背。

提出LSCP自门控后训练框架
利用Q&A链迫使模型识别知识缺口

2026-04-02

PDF arXiv

5/10

生物信息学机器学习大数据

annbatch unlocks terabyte-scale training of biological data in anndata

Ilan Gold, Felix Fischer, Lucas Arnoldt et al.

annbatch加速生物大数据集机器学习训练，优化数据加载瓶颈，提升训练效率。

针对Anndata格式优化数据加载
提升生物数据机器学习训练速度

2026-04-02

PDF arXiv

8/10

表格数据上下文学习电子病历

Retrieval-aligned Tabular Foundation Models Enable Robust Clinical Risk Prediction in Electronic Health Records Under Real-world Constraints

Minh-Khoi Pham, Thang-Long Nguyen Ho, Thao Thi Phuong Dao et al.

提出AWARE框架，通过任务对齐的检索提升表格数据上下文学习在电子病历临床风险预测中的鲁棒性。

提出AWARE框架，优化表格数据的检索
在多队列EHR基准上评估TICL模型

2026-04-02

PDF arXiv

9/10

RAG 检索金融文档

From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents

Meftun Akarsu, Recep Kaan Karaman, Christopher Mierbach

该论文系统评估了多种检索策略在文本和表格混合金融文档上的RAG系统性能，并提出了优化建议。

系统评估多种检索策略
发现BM25在金融文档上优于部分语义检索

2026-04-02

PDF arXiv

7/10

注意力机制长上下文模型压缩

Screening Is Enough

Ken M. Nakanishi

论文提出Multiscreen架构，通过筛选机制实现绝对Query-Key相关性，减少参数和推理延迟。

提出Multiscreen架构和筛选机制
减少参数数量和推理延迟

2026-04-01

PDF arXiv

8/10

In-Context Learning Induction Heads Temporal Dependencies

Temporal Dependencies in In-Context Learning: The Role of Induction Heads

Anooshka Bajaj, Deven Mahesh Mistry, Sahaj Singh Maini et al.

研究发现LLM的上下文学习中，归纳头对时间依赖性处理和序列回忆行为至关重要。

揭示了LLM上下文学习中的序列回忆模式
证明了归纳头在实现这种模式中的作用

2026-04-01

PDF arXiv

7/10

MoE 领域自适应 Transformer

Cost-Penalized Fitness in FMA-Orchestrated Mixture of Experts: Experimental Evidence for Molecular Memory in Domain Adaptation

Martin Jaraiz

提出了一种基于成本惩罚适应度的MoE管理方法，实现了LLM在领域自适应中的“分子记忆”效应。

提出成本惩罚适应度的MoE管理方法
发现“分子记忆”效应，加速领域切换

2026-04-01

PDF arXiv

8/10

大语言模型内存优化奇异值分解

Spectral Compact Training: Pre-Training Large Language Models via Permanent Truncated SVD and Stiefel QR Retraction

Björn Roman Kohlberger

SCT方法通过截断SVD和Stiefel流形QR回缩，显著降低LLM训练的内存消耗。

提出Spectral Compact Training (SCT) 方法
实现高达199倍的内存缩减

2026-04-01

PDF arXiv

10/10

RAG Retrieval-Augmented Generation Scaling Laws

To Memorize or to Retrieve: Scaling Laws for RAG-Considerate Pretraining

Karan Singh, Michael Yu, Varun Gangal et al.

研究预训练数据量和检索数据量之间的权衡，为RAG系统的数据分配提供指导。

提出了一个三维缩放框架，用于建模模型大小、预训练tokens和检索语料库大小对性能的影响。
量化了检索对模型性能的提升，并分析了其边际效用与模型规模和任务类型的关系。

2026-04-01

PDF arXiv

7/10

Attention Mechanism Low-Rank Approximation Large Language Models

Tucker Attention: A generalization of approximate attention mechanisms

Timon Klein, Jonas Kusch, Sebastian Sager et al.

提出了Tucker Attention，一种广义的近似注意力机制，在降低参数量同时保持性能。

提出了Tucker Attention，一种更参数高效的注意力机制
Tucker Attention包含了GQA、MLA、MHA等作为特例

2026-03-31

PDF arXiv

8/10

可验证声明检测知识检索大语言模型

ContextClaim: A Context-Driven Paradigm for Verifiable Claim Detection

Yufeng Li, Rrubaa Panchendrarajan, Arkaitz Zubiaga

ContextClaim通过引入外部知识，提升可验证声明检测的性能，并在不同数据集和模型上进行了评估。

提出ContextClaim范式，将检索引入声明检测阶段
利用Wikipedia检索上下文信息，辅助声明可验证性判断

2026-03-31

PDF arXiv

6/10

时间序列预测预训练LLM 参数高效微调

One-for-All: A Lightweight Stabilized and Parameter-Efficient Pre-trained LLM for Time Series Forecasting

Prasanjit Dey, Soumyabrata Dev, Bianca Schoen-Phelan

提出一种参数高效、稳定且轻量级的预训练LLM，用于时间序列预测。

提出Gaussian Rank-Stabilized Low-Rank Adapters (rsLoRA)用于参数高效微调
引入数学上可证明的秩稳定机制，实现梯度稳定

2026-03-31

PDF arXiv

9/10

机器人动作预测检索增强

RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment

Qiyuan Zhuang, He-Yang Xu, Yijun Wang et al.

RAAP通过检索增强和对齐学习，提升机器人未知环境下的物体动作预测能力。

提出RAAP框架，结合检索和对齐学习预测动作
解耦静态接触定位和动态动作方向，实现更好的迁移

2026-03-31

PDF arXiv

9/10

RAG Uncertainty Entropy

Entropic Claim Resolution: Uncertainty-Driven Evidence Selection for RAG

Davide Di Gioia

ECR通过最小化答案假设熵，动态选择证据，解决RAG中知识不确定性问题。

提出 Entropic Claim Resolution (ECR) 算法
使用期望熵减少 (EER) 进行证据选择

2026-03-30

PDF arXiv

9/10

RAG Knowledge Base Evidence Distillation

Training the Knowledge Base through Evidence Distillation and Write-Back Enrichment

Yuxing Lu, Xukai Zhao, Wei Wu et al.

WriteBack-RAG提出了一种可训练的知识库方法，通过证据提炼和回写增强RAG性能。

提出WriteBack-RAG框架，可训练知识库
利用标注数据提炼知识并增强索引

2026-03-26

PDF arXiv

8/10

Probabilistic AI Compute-in-Memory Memory Architecture

A Unified Memory Perspective for Probabilistic Trustworthy AI

Xueji Zhao, Likai Pei, Jianbo Liu et al.

论文提出统一的内存视角分析概率可信AI，揭示随机采样对内存效率的影响，并评估新兴计算架构。

提出了统一的内存访问视角，将确定性访问视为随机采样的极限情况
定义了内存级评估标准，包括统一操作、分布可编程性等

2026-03-26

PDF arXiv

9/10

联邦学习 RAG 隐私保护

Supercharging Federated Intelligence Retrieval

Dimitris Stripelis, Patrick Foley, Mohammad Naseri et al.

提出一种安全的联邦RAG系统，在保护隐私的同时实现分布式知识检索和远程LLM推理。

提出安全联邦RAG系统
使用Flower进行联邦学习

2026-03-26

PDF arXiv

9/10

RAG chunking adaptive learning

Adaptive Chunking: Optimizing Chunking-Method Selection for RAG

Paulo Roberto de Moura Júnior, Jean Lelong, Annabelle Blangero

论文提出自适应分块框架，基于文档内在指标选择最佳分块策略，提升RAG性能。

提出了自适应分块框架，能根据文档选择最佳分块策略
提出了五个新的文档内在指标来评估分块质量

2026-03-26

PDF arXiv

8/10

RAG LLM 合成数据

Knowledge-Guided Retrieval-Augmented Generation for Zero-Shot Psychiatric Data: Privacy Preserving Synthetic Data Generation

Adam Jakobsen, Sushant Gautam, Hugo Lewi Hammer et al.

提出一种知识引导的检索增强生成框架，用于生成保护隐私的精神科合成数据。

提出基于LLM的零样本精神科合成数据生成方法
利用DSM-5和ICD-10知识库引导LLM生成

2026-03-26

PDF arXiv

9/10

RAG AI Policy Retrieval

Retrieval Improvements Do Not Guarantee Better Answers: A Study of RAG for AI Policy QA

Saahil Mathur, Ryan David Rittner, Vedant Ajit Thakur et al.

针对AI政策RAG系统，研究发现检索性能提升不保证问答质量提升，甚至可能导致更强的幻觉。

评估了RAG在AI政策问答中的应用效果
发现提升检索质量不一定提高问答质量

2026-03-25

PDF arXiv

9/10

RAG Chunking Information Retrieval

Evaluating Chunking Strategies For Retrieval-Augmented Generation in Oil and Gas Enterprise Documents

Samuel Taiwo, Mohd Amaluddin Yusoff

论文评估了不同chunking策略在油气企业文档RAG中的表现，发现结构感知chunking效果较好，但P&ID处理能力不足。

对比了四种chunking策略在油气领域文档上的性能
发现结构感知chunking在检索效果和计算成本上具有优势

2026-03-25

PDF arXiv

9/10

RAG 公平性 LLM

Who Benefits from RAG? The Role of Exposure, Utility and Attribution Bias

Mahdi Dehghan, Graham McDonald

该论文研究了RAG系统中查询群组公平性问题，发现RAG会放大不同群组间准确率的差异。

揭示RAG系统中存在的查询群组公平性问题
分析了群体暴露、效用和归因对RAG公平性的影响

2026-03-25

PDF arXiv

9/10

memory agent benchmark

PERMA: Benchmarking Personalized Memory Agents via Event-Driven Preference and Realistic Task Environments

Shuochen Liu, Junyi Zhu, Long Shu et al.

PERMA基准测试个性化记忆代理，关注事件驱动的偏好演变和真实任务环境。

提出了PERMA基准，评估个性化记忆代理的长期一致性。
设计了时间相关的交互事件，模拟真实用户偏好的演变。

2026-03-24

PDF arXiv

9/10

RAG Fine-tuning Evaluation Metrics

Parametric Knowledge and Retrieval Behavior in RAG Fine-Tuning for Electronic Design Automation

Julian Oestreich, Maximilian Bley, Frank Binder et al.

针对EDA领域，论文提出了RAG微调方法，并设计了新的评估指标，验证了小模型的有效性。

提出TriFEX，一种基于三元组的评估pipeline，用于评估RAG生成质量
提出PKP指标，用于评估RAG模型内部知识的准确性

2026-03-24

PDF arXiv

9/10

memory retrieval AI Agent

Knowledge Access Beats Model Size: Memory Augmented Routing for Persistent AI Agents

Xunzhuo Liu, Bowei He, Xue Liu et al.

提出一种记忆增强的推理框架，利用检索到的上下文，以小模型实现高效的AI Agent推理。

提出基于检索的记忆增强推理框架，提升AI Agent的效率。
证明在用户特定查询中，知识访问比模型大小更重要。

2026-03-24

PDF arXiv

9/10

RAG 安全语料库投毒

ProGRank: Probe-Gradient Reranking to Defend Dense-Retriever RAG from Corpus Poisoning

Xiangyu Yin, Yi Qi, Chih-hong Cheng

ProGRank通过扰动梯度分析重排序，有效防御RAG系统的语料库投毒攻击。

提出ProGRank，一种无需训练的后处理防御方法
利用梯度信息识别和降低恶意样本的排名

2026-03-24

PDF arXiv

9/10

KV Cache Compression Large Language Models

EchoKV: Efficient KV Cache Compression via Similarity-Based Reconstruction

Yixuan Wang, Shiyu Ji, Yijun Liu et al.

EchoKV提出了一种基于相似性重构的高效KV缓存压缩方案，支持标准和压缩推理之间的灵活切换。

提出EchoKV压缩方案，实现KV缓存高效压缩
利用轻量级网络重构残余KV组件

2026-03-24

PDF arXiv

7/10

时间序列签名方法深度学习

The Exponentially Weighted Signature

Alexandre Bloch, Samuel N. Cohen, Terry Lyons et al.

提出了指数加权签名(EWS)，通过引入更丰富的记忆动态来改进传统签名，并提升了时间序列数据的建模能力。

提出了指数加权签名（EWS）
证明了EWS是张量代数上线性控制微分方程的唯一解

2026-03-19

PDF arXiv

8/10

MoE 量化边缘计算

DyMoE: Dynamic Expert Orchestration with Mixed-Precision Quantization for Efficient MoE Inference on Edge

Yuegui Huang, Zhiyuan Fang, Weiqi Luo et al.

DyMoE提出一种动态混合精度量化框架，优化MoE模型在边缘设备上的实时推理性能。

动态量化专家重要性
深度自适应调度

2026-03-19

PDF arXiv

9/10

RAG Multilingual Multi-hop QA

DaPT: A Dual-Path Framework for Multilingual Multi-hop Question Answering

Yilin Wang, Yuchun Fan, Jiaoyang Li et al.

DaPT框架通过双路子问题图和双语检索提升多语言多跳问答的RAG性能。

构建了多语言多跳问答基准数据集。
提出了DaPT双路框架，利用源语言和英语翻译提升检索效果。

2026-03-19

PDF arXiv

9/10

RAG Query Rewriting Decision Making

Hypothesis-Conditioned Query Rewriting for Decision-Useful Retrieval

Hangeol Chang, Changsun Lee, Seungjoon Rho et al.

提出HCQR框架，通过假设引导的查询重写提升RAG在决策任务中的表现。

提出 Hypothesis-Conditioned Query Rewriting (HCQR) 框架
设计三种目标查询策略：支持假设、区分选项、验证线索

2026-03-19

PDF arXiv

8/10

attention mechanism memory augmentation linear time complexity

MANAR: Memory-augmented Attention with Navigational Abstract Conceptual Representation

Zuher Jahshan, Ben Ben Ishay, Leonid Yavits

MANAR通过记忆增强注意力机制和抽象概念表示，实现线性时间复杂度的全局信息整合，提升模型性能。

提出了MANAR架构，结合记忆增强注意力机制和抽象概念表示
实现了线性时间复杂度的注意力机制，解决了传统注意力机制的二次复杂度问题

2026-03-19

PDF arXiv

9/10

LLM Agent Memory

D-Mem: A Dual-Process Memory System for LLM Agents

Zhixing You, Jiachen Yuan, Jason Cai

D-Mem是一种双过程记忆系统，通过质量门控策略平衡效率与准确性，提升LLM Agent的长期推理能力。

提出了D-Mem双过程记忆系统
设计了多维质量门控策略

2026-03-19

PDF arXiv

9/10

LLM Hallucination Retrieval-Augmented Generation

Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval

Md. Asraful Haque, Aasar Mehdi, Maaz Mahboob et al.

提出一种基于领域知识的多层检索验证架构，用于缓解LLM的幻觉问题。

提出了领域知识指导的多层检索和验证框架
利用LangGraph实现了自调节的四阶段pipeline

2026-03-18

PDF arXiv

9/10

LLM Memory Knowledge Objects

Facts as First Class Objects: Knowledge Objects for Persistent LLM Memory

Oliver Zahn, Simran Chana

论文提出Knowledge Objects (KOs)作为LLM持久记忆方案，解决传统in-context learning的不足。

提出Knowledge Objects (KOs)的架构
揭示in-context memory的三种失败模式：容量限制，压缩损失和目标漂移

2026-03-18

PDF arXiv

9/10

RAG Diffusion Model Knowledge-intensive QA

Adaptive Guidance for Retrieval-Augmented Masked Diffusion Models

Jaemin Kim, Jong Chul Ye

提出ARAM框架，通过信噪比自适应调整检索增强掩码扩散模型中的引导尺度，提升知识密集型问答性能。

提出ARAM框架，解决扩散模型RAG中的检索冲突问题
基于信噪比动态调整检索上下文引导尺度

2026-03-18

PDF arXiv

7/10

Continual Learning Adaptive Normalization Tabular Data

CLeAN: Continual Learning Adaptive Normalization in Dynamic Environments

Isabella Marasco, Davide Evangelista, Elena Loli Piccolomini et al.

CLeAN提出了一种自适应归一化方法，用于解决持续学习中数据分布变化的问题，提升模型性能并缓解灾难性遗忘。

提出了CLeAN：一种针对持续学习的自适应归一化技术。
使用可学习参数和EMA模块估计全局特征尺度，适应数据分布变化。

2026-03-18

PDF arXiv

7/10

推荐系统生成式模型播客发现

Deploying Semantic ID-based Generative Retrieval for Large-Scale Podcast Discovery at Spotify

Edoardo D'Amico, Marco De Nadai, Praveen Chandar et al.

Spotify提出了GLIDE，一种基于语义ID的生成式检索模型，用于大规模播客发现。

提出了GLIDE模型，用于播客推荐
使用语义ID实现大规模目录的生成式检索

2026-03-18

PDF arXiv

9/10

长上下文注意力机制模型优化

Learning When to Attend: Conditional Memory Access for Long-Context LLMs

Sakshi Choudhary, Aditya Chattopadhyay, Luca Zancato et al.

提出L2A层，通过条件性长程记忆访问扩展LLM上下文长度，提高效率并降低内存占用。

提出L2A层，实现token-wise条件全局注意力
在Qwen模型上将有效上下文长度扩展到128K

2026-03-18

PDF arXiv

8/10

LLM inference Lossless compression GPU optimization

ZipServ: Fast and Memory-Efficient LLM Inference with Hardware-Aware Lossless Compression

Ruibo Fan, Xiangrui Yu, Xinglin Pan et al.

ZipServ通过硬件感知的无损压缩，加速并降低LLM推理的内存占用。

提出了Tensor-Core-Aware Triple Bitmap Encoding (TCA-TBE) 格式
设计了fused decompression-GEMM (ZipGEMM) kernel

2026-03-18

PDF arXiv

10/10

LLM Memory Agent

Chronos: Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory

Sahil Sen, Elias Lumer, Anmol Gulati et al.

Chronos提出了一种时间感知的对话记忆框架，通过结构化事件检索增强LLM在长期对话中的性能。

提出Chronos框架，包含事件日历和会话日历。
动态提示指导检索，支持多跳时间敏感查询。

2026-03-17

PDF arXiv

9/10

RAG Factuality Conformal Prediction

Is Conformal Factuality for RAG-based LLMs Robust? Novel Metrics and Systematic Insights

Yi Chen, Daiwei Chen, Sukrut Madhav Chikodikar et al.

论文评估了RAG中一致性事实性过滤的可靠性和实用性，揭示了其在分布偏移下的脆弱性。

提出了信息感知的评估指标，更贴近实际任务
揭示了一致性过滤在高事实性水平下的低效性

2026-03-17

PDF arXiv

6/10

LLM 预训练量化

Understanding Quantization of Optimizer States in LLM Pre-training: Dynamics of State Staleness and Effectiveness of State Resets

Kristi Topollai, Anna Choromanska

论文研究了LLM预训练中量化优化器状态的问题，提出了状态重置的有效策略。

揭示了量化导致优化器状态失效的机理
建立了状态失效的预测模型

2026-03-17

PDF arXiv

8/10

LLM 个性化上下文感知

BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Sangyeon Yoon, Sunkyoung Kim, Hyesoo Hong et al.

BenchPreS评估LLMs在不同语境下对个性化偏好的选择性应用能力。

提出了BenchPreS基准测试
定义了Misapplication Rate和Appropriate Application Rate两个指标

2026-03-17

PDF arXiv

9/10

KV缓存压缩向量量化大语言模型

VQKV: High-Fidelity and High-Ratio Cache Compression via Vector-Quantization

Yixuan Wang, Qingyu Shi, Jiayu Zhou et al.

VQKV通过向量量化实现KV缓存高压缩率和高保真度，显著提升LLM在资源受限环境下的部署能力。

提出了一种新的基于向量量化的KV缓存压缩方法VQKV
在保证高压缩率的同时，维持了较高的模型性能

2026-03-17

PDF arXiv

8/10

LLM Fine-tuning Single GPU

An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU

Ruijia Yang, Zeyi Wen

SlideFormer系统通过异构协同设计，实现了在单GPU上高效微调超大语言模型。

轻量级异步引擎，重叠计算与I/O
高效异构内存管理，降低峰值内存占用

2026-03-17

PDF arXiv

9/10

RAG 跨文档推理多跳问答

IndexRAG: Bridging Facts for Cross-Document Reasoning at Index Time

Zhenghua Bao, Yi Shi

IndexRAG通过离线构建桥接事实，提升跨文档推理的检索增强生成效果，无需额外训练。

提出IndexRAG，一种新型跨文档推理的检索增强生成方法
将跨文档推理从在线推断转移到离线索引

2026-03-17

PDF arXiv

9/10

persistent memory frozen LLM conversational learning

Trained Persistent Memory for Frozen Encoder--Decoder LLMs: Six Architectural Methods

Hong Jeong

提出一种冻结LLM的持续性内存方法，在受限资源下实现对话学习。

证明了在冻结LLM中实现持续性内存的可行性
提出了六种不同的内存架构方法

2026-03-17

PDF arXiv

9/10

对话记忆信息检索排序

SmartSearch: How Ranking Beats Structure for Conversational Memory Retrieval

Jesper Derehag, Carlos Calva, Timmy Ghiurau

SmartSearch通过简单的排序方法，在对话记忆检索任务上超越了复杂的结构化方法。

提出了一种基于排序的对话记忆检索方法SmartSearch
证明了在对话记忆检索中排序比结构更重要

2026-03-16

PDF arXiv

8/10

知识编辑大语言模型泛化性

Beyond the Covariance Trap: Unlocking Generalization in Same-Subject Knowledge Editing for Large Language Models

Xiyu Liu, Qingyi Si, Zhengxiao Liu et al.

论文针对大语言模型在同主题知识编辑中泛化性不足的问题，提出RoSE方法提升模型指令跟随能力。

发现了同主题知识编辑中泛化性崩溃的几何根源
提出了Isotropic Geometric Alignment降低表征偏差

2026-03-16

PDF arXiv

7/10

machine unlearning privacy transformer

Rethinking Machine Unlearning: Models Designed to Forget via Key Deletion

Sonia Laguna, Jorge da Silva Goncalves, Moritz Vandenhirtz et al.

提出一种“设计即遗忘”的机器卸载新范式，通过密钥删除实现高效、零样本的遗忘能力。

提出“设计即遗忘”的卸载范式
设计了MUNKEY模型，通过密钥删除实现卸载

2026-03-16

PDF arXiv

7/10

Backdoor Attack Pre-trained Models Temporal Dimension

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

Zikang Ding, Haomiao Yang, Meng Hao et al.

提出延迟后门攻击(DBA)，利用时间维度作为新型攻击面，通过延迟触发实现隐蔽性。

提出了延迟后门攻击(DBA)的概念，并证明了其可行性。
设计并实现了DND原型，验证了DBA的有效性。

2026-03-12

PDF arXiv

8/10

LLM Adapter Inference Optimization

AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization

Qiyang Li, Rui Kong, Yuchen Li et al.

AdaFuse通过token级别预选和融合kernel优化加速动态adapter推理。

提出了token级别的adapter预选策略
设计了融合CUDA kernel优化adapter切换

2026-03-12

PDF arXiv

9/10

RAG 法律检索增强生成

Legal-DC: Benchmarking Retrieval-Augmented Generation for Legal Documents

Yaocong Li, Qiang Lan, Leihan Zhang et al.

构建中文法律RAG基准Legal-DC，提出LegRAG框架，提升法律检索与生成性能。

构建Legal-DC中文法律RAG基准数据集
提出LegRAG框架，结合法律自适应索引和双路径自反思机制

2026-03-12

PDF arXiv

9/10

RAG 文本分块多智能体

QChunker: Learning Question-Aware Text Chunking for Domain RAG via Multi-Agent Debate

Jihao Zhao, Daixuan Li, Pengfei Li et al.

QChunker通过多智能体辩论学习问题感知的文本分块，优化领域RAG。

提出QChunker，将RAG范式重构为理解-检索-增强。
设计多智能体辩论框架，提升文本分块的逻辑连贯性和信息完整性。

2026-03-12

PDF arXiv

8/10

RoPE Positional Encoding Transformer

Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE

Mohammad Aflah Khan, Krishna P. Gummadi, Manish Gupta et al.

研究了部分RoPE对Transformer性能的影响，发现小比例RoPE即可达到与完整RoPE相近的效果，并显著节省内存。

研究了部分RoPE对模型性能和收敛性的影响
发现使用小比例RoPE即可达到与完整RoPE相近的性能

2026-03-12

PDF arXiv

9/10

LLM Pseudo-Relevance Feedback Information Retrieval

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Nour Jedidi, Jimmy Lin

系统性研究LLM伪相关反馈，揭示反馈源和反馈模型对效果的影响，提供设计指导。

系统分析反馈源和反馈模型对PRF的影响
揭示LLM生成文本作为反馈源的有效性

2026-03-11

PDF arXiv

9/10

LLM KV Cache Eviction

LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

Jinwoo Ahn, Ingyu Seong, Akhil Kedia et al.

LookaheadKV通过预测重要性得分，无需生成草稿即可实现快速准确的KV缓存淘汰。

提出LookaheadKV框架，无需草稿生成即可预测KV缓存的重要性。
设计参数高效的模块，用于提升重要性得分预测的准确性。

2026-03-11

PDF arXiv

7/10

LLM Serving Side Channel Attack Cache Optimization

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri et al.

CacheSolidarity通过监控和选择性隔离，防御LLM多租户环境下的缓存侧信道攻击，提升性能。

提出CacheSolidarity系统，防御LLM服务中的缓存侧信道攻击
在不牺牲性能的前提下，保护多租户LLM系统安全

2026-03-11

PDF arXiv

8/10

chatbot evaluation LLM

End-to-End Chatbot Evaluation with Adaptive Reasoning and Uncertainty Filtering

Nhi Dang, Tung Le, Huy Tien Nguyen

提出了一种端到端的自动chatbot评估方法，降低人工评估成本并提高可扩展性。

提出端到端自动评估框架
使用LLM进行问题生成和答案判断

2026-03-11

PDF arXiv

9/10

RAG 多轮对话检索增强生成

AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations

Dimosthenis Athanasiou, Maria Lymperaiou, Giorgos Filandrianos et al.

该论文提出了一种基于查询多样性和多阶段生成pipeline的RAG系统，并在 SemEval-2026 Task 8 中取得优异成绩。

提出一种查询多样性的检索策略
设计多阶段生成pipeline

2026-03-11

PDF arXiv

8/10

continual learning large language models replay

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Yiyang Lu, Yu He, Jianlong Chen et al.

MSSR通过估计样本记忆强度自适应地进行经验回放，有效缓解了LLM持续微调中的灾难性遗忘。

提出了Memory-Inspired Sampler and Scheduler Replay (MSSR)框架
MSSR通过记忆强度估计自适应地选择回放样本和调整回放频率

2026-03-10

PDF arXiv

9/10

RAG 知识检索物理学

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Abhishikth Mallampalli, Sridhara Dasu

MITRA是基于RAG的AI助手，专为大型物理实验合作中的知识检索而设计，注重隐私和性能。

构建基于RAG的知识检索系统MITRA
开发自动化文档检索和文本提取流水线

2026-03-10

PDF arXiv

9/10

LLM RAG 食品营养

Evaluation of LLMs in retrieving food and nutritional context for RAG systems

Maks Požarnik Vavken, Matevž Ogrinc, Tome Eftimov et al.

评估LLM在食品营养RAG系统中检索数据的能力，发现其在复杂查询中存在挑战。

评估LLM在食品营养数据检索中的应用
分析了LLM在处理复杂查询时的局限性

2026-03-10

PDF arXiv

8/10

LLM 知识冲突上下文学习

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Isabelle Augenstein

该论文探讨了LLM参数知识与上下文知识之间的相互作用，以及如何解决知识冲突问题。

提出评估LLM知识的方法
设计诊断知识冲突的测试

2026-03-10

PDF arXiv

7/10

Continual Learning Transformers Routing

Routing without Forgetting

Alessio Masano, Giovanni Bellitto, Dipam Goswani et al.

提出了一种名为RwF的Transformer架构，通过能量模型的关联检索层实现在线持续学习中的动态路由。

提出Routing without Forgetting (RwF)架构
利用能量模型的关联检索实现动态路由

2026-03-10

PDF arXiv

9/10

RAG 多跳问答知识图谱

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Jiashuo Sun, Yixuan Xie, Jimeng Shi et al.

TaSR-RAG利用分类指导的结构化推理进行检索增强生成，提升多跳问答效果。

提出Taxonomy-guided Structured Reasoning (TaSR-RAG) 框架。
将查询和文档表示为关系三元组，并用分类法约束实体语义。

2026-03-10

PDF arXiv

9/10

LLM Memory Retrieval Tool-Augmented Agent

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Mengwei Yuan, Jianan Liu, Jing Yang et al.

提出TA-Mem框架，通过工具增强的自主记忆检索，提升LLM在长程对话问答中的表现。

提出了一种工具增强的自主记忆检索框架TA-Mem
设计了基于语义相关的自适应分块和结构化信息提取的记忆提取LLM Agent

2026-03-10

PDF arXiv

9/10

长文本 KV缓存分层索引

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

Dongfang Li, Zixuan Liu, Gang Lin et al.

LycheeCluster通过结构感知分块和分层KV索引，高效处理长文本上下文的LLM推理。

提出了基于结构感知分块的KV缓存管理方法
构建了基于三角不等式的递归分层索引

2026-03-09

PDF arXiv

8/10

LLM Training Memory Efficiency

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Zeju Qiu, Lixin Liu, Adrian Weller et al.

POET-X通过改进正交等价变换，降低了LLM训练的内存消耗和计算开销。

提出了POET-X算法，降低内存占用
提升了LLM训练的吞吐量

2026-03-05

PDF arXiv

6/10

语料库辩论自然语言处理

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo et al.

DEBISS语料库：一个包含口语、个人辩论和半结构化特征的辩论语料库，具有丰富的NLP任务标注。

提出了DEBISS语料库，填补了辩论语料库的空白
包含了口语、个人辩论和半结构化特征

2026-03-05

PDF arXiv

7/10

Attention Transformer GPU

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Ted Zadouri, Markus Hoehnerbach, Jay Shah et al.

FlashAttention-4针对Blackwell GPU架构，优化Attention机制，提升计算效率。

针对Blackwell GPU的非对称硬件扩展设计算法
软件模拟指数和条件 softmax 重新缩放减少非 matmul 操作

2026-03-05

PDF arXiv

9/10

RAG 长文本 KV缓存

InfoFlow KV: Information-Flow-Aware KV Recomputation for Long Context

Xin Teng, Canyu Zhang, Shaoyi Zheng et al.

论文提出一种基于信息流的KV缓存重计算方法，优化长文本检索增强生成。

提出基于信息流的KV缓存选择方法
利用注意力范数可靠识别关键token

2026-03-05

PDF arXiv

9/10

RAG Time-Series Predictive Maintenance

Retrieval-Augmented Generation with Covariate Time Series

Kenny Ye Liang, Zhongyi Pei, Huan Zhang et al.

针对时序预测，提出了一种无需训练、基于 regime 感知的 RAG 框架 RAG4CTS，并成功应用于工业场景。

提出了一种 regime 感知的时序 RAG 框架 RAG4CTS
构建了分层时间序列原生知识库，实现无损存储和物理信息检索

2026-03-05

PDF arXiv

6/10

LLM Query Suggestion Local-Life Service

LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services

Jinwen Chen, Shuai Gong, Shiwen Zhang et al.

LocalSUG利用LLM解决本地生活服务查询推荐的地理位置、偏好和效率挑战。

城市感知候选挖掘，注入地理信息
GRPO算法优化LLM偏好并减少暴露偏差

2026-03-05

PDF arXiv

9/10

对话系统记忆机制长程依赖

Bounded State in an Infinite Horizon: Proactive Hierarchical Memory for Ad-Hoc Recall over Streaming Dialogues

Bingbing Wang, Jing Li, Ruifeng Xu

提出ProStream框架，解决无限对话流中的有界状态记忆和即时回忆问题，并构建STEM-Bench评估。

构建STEM-Bench基准测试
提出ProStream框架，解决记忆效率和准确率的平衡问题

2026-03-05

PDF arXiv

9/10

量化 Transformer 激活异常值

Activation Outliers in Transformer Quantization: Reproduction, Statistical Analysis, and Deployment Tradeoffs

Pranav Kumar Kaliaperumal

研究Transformer量化中激活异常值导致精度下降问题，并分析多种缓解策略的有效性和硬件部署的影响。

复现激活异常值现象并进行系统级扩展
统计分析激活值分布，揭示重尾特性

2026-03-04

PDF arXiv

9/10

RAG Retrieval Multilingual

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

Martin Asenov, Kenza Benkirane, Dan Goldwater et al.

该论文表明，文档表征质量而非检索器本身是RAG性能提升的关键，并呼吁分解评估。

揭示了文档表征在RAG中的重要性
证明了BM25通过优化表征可以达到媲美甚至超越复杂检索器的效果

2026-03-04

PDF arXiv

7/10

越南语文本规范化 TTS

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen et al.

VietNormalizer是一个开源的越南语文本规范化Python库，专为TTS和NLP应用设计。

提出了一种无需依赖的越南语文本规范化工具 VietNormalizer
采用规则驱动的流水线处理各种非标准词

2026-03-04

PDF arXiv

9/10

RAG 知识图谱工业优化

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Y. Zhong, R. Huang, M. Wang et al.

提出一种类型感知的RAG方法，利用依赖闭包生成可执行的工业优化模型，提升模型编译成功率。

提出类型感知的RAG框架，解决LLM在工业优化建模中生成不可执行代码的问题
构建领域特定的类型化知识库，并利用知识图谱编码数学依赖关系

2026-03-03

PDF arXiv

7/10

食物分类层级分类检索增强

FEAST: Retrieval-Augmented Multi-Hierarchical Food Classification for the FoodEx2 System

Lorenzo Molfetta, Alessio Cocchieri, Stefano Fantazzini et al.

FEAST提出了一种检索增强的多层次食物分类框架，提升FoodEx2系统中小样本分类的性能。

提出了FEAST框架，分解FoodEx2分类为三个阶段
利用层级结构引导训练，进行深度度量学习

2026-03-03

PDF arXiv

8/10

Transformer State Space Model In-context Retrieval

Retrievit: In-context Retrieval Capabilities of Transformers, State Space Models, and Hybrid Architectures

Georgios Pantazopoulos, Malvina Nikandrou, Ioannis Konstas et al.

研究了Transformer、SSM和混合架构在上下文检索任务中的性能差异和优势。

对比了Transformer、SSM和混合架构的上下文检索能力。
揭示了SSM在信息密集型检索任务中的优势。

2026-03-03

PDF arXiv

9/10

神经记忆自然语言控制持续学习

Tell Me What To Learn: Generalizing Neural Memory to be Controllable in Natural Language

Max S. Bennett, Thomas P. Zollo, Richard Zemel

提出一种可控的广义神经记忆系统，通过自然语言指令指导模型选择性学习和记忆。

提出了一种基于自然语言指令的可控神经记忆系统
实现了对异构信息源的选择性学习

2026-02-26

PDF arXiv

9/10

KV Cache Quantization Large Language Models

InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models

Sayed Mohammadreza Tayaranian Hosseini, Amir Ardakani, Warren J. Gross

InnerQ提出了一种硬件感知的KV缓存量化方案，旨在降低解码延迟并保持精度。

提出了InnerQ量化方案，通过内维度分组优化内存访问和加速反量化
结合混合量化、高精度窗口和逐通道归一化，保持量化后的模型精度

2026-02-26

PDF arXiv

9/10

RAG 多轮对话评测基准

MTRAG-UN: A Benchmark for Open Challenges in Multi-Turn RAG Conversations

Sara Rosenthal, Yannis Katsis, Vraj Shah et al.

MTRAG-UN是一个多轮RAG对话评测基准，用于评估模型在不可回答、不明确等问题上的表现。

提出了MTRAG-UN基准数据集
包含6个领域超过2800轮对话

2026-02-26

PDF arXiv

9/10

LLM 激活压缩内存优化

PRAC: Principal-Random Subspace for LLM Activation Compression and Memory-Efficient Training

Yanyi Li, Yimu Zhang, Cong Fang

PRAC通过主成分-随机子空间分解激活，实现LLM训练中激活压缩和内存优化。

提出PRAC激活压缩方法
证明PRAC产生无偏梯度估计并最小化方差

2026-02-26

PDF arXiv

8/10

Transformer Context Parallelism Memory Efficiency

Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

Ravi Ghadia, Maksim Abraham, Sergei Vorobyov et al.

UPipe通过头级别分块实现高效上下文并行，显著降低Transformer的激活内存占用，支持更长上下文。

提出了UPipe上下文并行技术
在头级别进行细粒度分块，显著降低激活内存

2026-02-24

PDF arXiv

8/10

SSM Tensor Parallelism Multi-GPU

Scaling State-Space Models on Multiple GPUs with Tensor Parallelism

Anurag Dutt, Nimit Shah, Hazem Masarani et al.

论文提出了一种通信高效的张量并行化方法，用于加速选择性状态空间模型在大规模GPU上的推理。

针对SSM模型提出通信高效的张量并行化设计
优化了SSM状态缓存以提升TTFT

2026-02-24

PDF arXiv

9/10

RAG Retrieval-Augmented Generation Dynamic Retrieval

RMIT-ADM+S at the MMU-RAG NeurIPS 2025 Competition

Kun Ran, Marwah Alaofi, Danula Hettiachchi et al.

RMIT-ADM+S团队提出R2RAG，一种动态调整检索策略的RAG架构，并在NeurIPS 2025竞赛中获奖。

提出Routing-to-RAG (R2RAG)架构
动态调整检索策略

2026-02-24

PDF arXiv

6/10

音乐生成长序列建模 Transformer

Depth-Structured Music Recurrence: Budgeted Recurrent Attention for Full-Piece Symbolic Music Modeling

Yungang Yi

DSMR模型通过分层记忆调度，实现资源受限下的长序列音乐建模。

提出了Depth-Structured Music Recurrence (DSMR)模型
设计了分层记忆调度策略，优化资源分配

2026-02-23

PDF arXiv

8/10

电商搜索对比学习语义嵌入

Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval

Jiaqi Xi, Raghav Saboo, Luming Chen et al.

提出一种用于电商搜索的分级相关性优化的“Mine and Refine”对比学习框架，提升检索效果。

提出“Mine and Refine”对比学习框架
引入基于LLM的策略一致性标注和噪音降低

2026-02-19

PDF arXiv

8/10

统计水印大语言模型可随时停止推断

Towards Anytime-Valid Statistical Watermarking

Baihe Huang, Eric Xu, Kannan Ramchandran et al.

提出了基于e-value的水印框架，实现了LLM生成内容的高效、可随时停止的统计水印检测。

提出了基于e-value的Anchor E-Watermarking框架
实现了最优采样与随时有效的推断的统一

2026-02-19

PDF arXiv

9/10

知识图谱检索增强生成电信领域

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Dun Yuan, Hao Zhou, Xue Liu et al.

论文提出KG-RAG框架，结合知识图谱与检索增强生成，提升LLM在电信领域的准确性和可靠性。

提出KG-RAG框架
利用知识图谱增强LLM在电信领域的知识

2026-02-19

PDF arXiv

8/10

LLM 个人数据隐私

What Do LLMs Associate with Your Name? A Human-Centered Black-Box Audit of Personal Data

Dimitri Staufer, Kirsten Morehouse

论文审计LLM对个人数据的关联性，发现模型能生成高准确度的个人信息，并引发用户对数据隐私的关注。

提出LMP2审计工具，评估LLM对个人信息的关联
评估了多个LLM生成个人信息的准确性

2026-02-19

PDF arXiv

8/10

仇恨言论检测反仇恨言论 Retrieval-Augmented Generation

PEACE 2.0: Grounded Explanations and Counter-Speech for Combating Hate Expressions

Greta Damo, Stéphane Petiot, Elena Cabrio et al.

PEACE 2.0工具利用RAG生成证据支撑的反仇恨言论解释和回复。

提出PEACE 2.0工具
利用RAG生成仇恨言论的解释和回复

2026-02-19

PDF arXiv

9/10

LLMs RAG Web Research

Beyond Pipelines: A Fundamental Study on the Rise of Generative-Retrieval Architectures in Web Research

Amirereza Abbasi, Mohsen Hooshmand

该论文综述了大型语言模型（LLMs）和检索增强生成（RAG）对Web研究和应用的影响。

总结了LLMs和RAG在Web研究中的应用
探讨了LLMs在信息检索、问答等任务中的作用

2026-02-19

PDF arXiv

9/10

长尾问答数据增强检索增强生成

RPDR: A Round-trip Prediction-Based Data Augmentation Framework for Long-Tail Question Answering

Yiming Zhang, Siyue Zhang, Junbo Zhao et al.

RPDR通过回环预测选择易学数据，增强检索器在长尾问答中的表现。

提出RPDR框架，增强长尾问答检索能力
使用回环预测选择高质量训练数据

2026-02-19

PDF arXiv

7/10

线性注意力 Mamba-2 长序列建模

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

Gabriel Mongaras, Eric C. Larson

通过简化和改进Mamba-2，论文提出了一种高效且精度接近softmax attention的模型2Mamba。

简化Mamba-2并确定关键组件
改进A-mask和隐藏状态维度提升精度

2026-02-19

PDF arXiv

8/10

问答系统多语言信息检索

WebFAQ 2.0: A Multilingual QA Dataset with Mined Hard Negatives for Dense Retrieval

Michael Dinzinger, Laura Caspari, Ali Salman et al.

WebFAQ 2.0发布，扩展了多语言FAQ问答数据集，并提供硬负例用于训练稠密检索模型。

构建大规模多语言FAQ问答数据集
提供带cross-encoder评分的硬负例数据集

2026-02-19

PDF arXiv

5/10

SoftDTW GPU acceleration PyTorch

SoftDTW-CUDA-Torch: Memory-Efficient GPU-Accelerated Soft Dynamic Time Warping for PyTorch

Ron Shapira Weber, Oren Freifeld

提出了一个GPU加速、内存高效的SoftDTW PyTorch库，解决了现有实现的长度限制、数值不稳定和内存消耗问题。

tiled anti-diagonal kernel execution移除序列长度限制
log-space backward pass防止浮点溢出

2026-02-19

PDF arXiv

8/10

Fast Weight Reinforcement Learning Long Context Modeling

Reinforced Fast Weights with Next-Sequence Prediction

Hee Seung Hwang, Xindi Wu, Sanghyuk Chun et al.

提出REFINE框架，通过强化学习优化Fast Weight模型，提升长文本建模能力。

提出REFINE框架，使用NSP目标训练Fast Weight模型
利用强化学习选择信息量大的token位置并生成多token序列

2026-02-18

PDF arXiv

8/10

药物化学分子设计生成模型

Retrieval-Augmented Foundation Models for Matched Molecular Pair Transformations to Recapitulate Medicinal Chemistry Intuition

Bo Pan, Peter Zhiping Zhang, Hao-Wei Pang et al.

该论文提出了一种基于检索增强的基础模型，用于药物化学中匹配分子对转化，提升了药物设计的效率和可控性。

提出基于大规模 MMPT 的基础模型
引入可控的提示机制

2026-02-18

PDF arXiv

9/10

RAG 知识图谱聚合物

Retrieval Augmented Generation of Literature-derived Polymer Knowledge: The Example of a Biodegradable Polymer Expert System

Sonakshi Gupta, Akhlak Mahmood, Wei Xiong et al.

论文提出两种检索增强生成方法，用于从聚合物文献中提取知识，并构建可信赖的材料科学助手。

开发了两种检索流水线：VectorRAG和GraphRAG
构建了PHA文献的上下文保留段落嵌入和规范化知识图谱

2026-02-18

PDF arXiv

7/10

小型语言模型领域专用模型量化

Quecto-V1: Empirical Analysis of 8-bit Quantized Small Language Models for On-Device Legal Retrieval

Subrit Dikshit

Quecto-V1是一个针对印度法律领域，使用8比特量化的专用小型语言模型，实现了高效的本地部署。

设计并训练了针对印度法律领域的专用小型语言模型 Quecto-V1
采用 8-bit 量化，将模型大小压缩到 150MB 以下，便于本地部署

2026-02-18

PDF arXiv

9/10

multimodal agent memory

MMA: Multimodal Memory Agent

Yihao Lu, Wanru Cheng, Zeyu Zhang et al.

MMA通过动态评估检索到的记忆可靠性，提升多模态Agent在复杂环境中的表现。

提出Multimodal Memory Agent (MMA)模型
引入动态可靠性评分机制

2026-02-18

PDF arXiv

8/10

量化 QAT 低比特

1-Bit Wonder: Improving QAT Performance in the Low-Bit Regime through K-Means Quantization

Sohir Maskey, Constantin Eichenberg, Johannes Messner et al.

该论文研究了低比特量化感知训练，发现K-Means量化在1比特时性能最佳。

证明K-Means量化优于整数格式
发现在固定内存预算下，1比特量化权重在生成任务上表现最佳

2026-02-17

PDF arXiv

7/10

文本嵌入模型蒸馏对比学习

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Mohammad Kalim Akram, Saba Sturua, Nastia Havriushenko et al.

提出一种结合模型蒸馏和任务特定对比损失的训练方法，提升小型嵌入模型的性能。

提出新的训练方法，结合模型蒸馏和任务特定对比损失
训练出高性能的小型嵌入模型 jina-embeddings-v5-text-small 和 jina-embeddings-v5-text-nano

2026-02-17

PDF arXiv

7/10

文本风格迁移 LLM微调回译

Text Style Transfer with Parameter-efficient LLM Finetuning and Round-trip Translation

Ruoxi Liu, Philipp Koehn

提出了一种基于参数高效微调LLM和回译的文本风格迁移方法。

提出使用回译生成平行数据集，解决平行语料稀缺问题
采用参数高效微调LLM进行风格迁移

2026-02-16

PDF arXiv

7/10

RNN 动态系统非对称神经网络

Drift-Diffusion Matching: Embedding dynamics in latent manifolds of asymmetric neural networks

Ramón Nartallo-Kaluarachchi, Renaud Lambiotte, Alain Goriely

提出漂移-扩散匹配框架，使非对称RNN能在低维潜在空间中表示任意随机动力系统。

提出了漂移-扩散匹配框架
展示了非对称RNN嵌入随机微分方程的能力

2026-02-16

PDF arXiv

9/10

长音频问答 RAG

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar et al.

提出了LongAudio-RAG框架，利用事件检测结果而非原始音频进行RAG，提升长音频问答性能。

提出了 LongAudio-RAG 框架
构建了长音频问答合成数据集

2026-02-16

PDF arXiv

9/10

RAG 长文档检索注意力机制

AttentionRetriever: Attention Layers are Secretly Long Document Retrievers

David Jiahao Fu, Lam Thanh Do, Jiayu Li et al.

AttentionRetriever利用注意力机制和实体检索，构建上下文感知嵌入，提升长文档检索性能和效率。

提出AttentionRetriever模型，提升长文档检索性能
利用注意力机制构建上下文感知嵌入

2026-02-12

PDF arXiv

9/10

RAG 长文本处理信息压缩

Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

Julia Belikova, Danila Rozhevskii, Dennis Svirin et al.

论文研究了压缩表征在RAG中信息溢出的问题，并提出了检测方法，以提高长文本处理能力。

定义了token overflow的概念
提出了检测token overflow的方法论

2026-02-12

PDF arXiv

9/10

attention memory consolidation adaptive computation

Learning to Forget Attention: Memory Consolidation for Adaptive Compute Reduction

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

提出了一种基于记忆整合的自适应计算缩减方法,通过动态减少冗余注意力计算提高效率。

发现GPT-2模型中大量注意力操作是冗余的，并提出CRMA解决此问题。
引入基于整合的路由机制CRMA，实现注意力利用率随训练过程下降。

2026-02-12

PDF arXiv

9/10

Reranking Long Context Attention Mechanism

Query-focused and Memory-aware Reranker for Long Context Processing

Yuqing Li, Jiangnan Li, Mo Yu et al.

提出一种新的query-focused的memory-aware reranking框架，在多个数据集上超越SOTA。

提出query-focused reranking框架
利用attention score估计passage-query相关性

2026-02-12

PDF arXiv

8/10

LLM Safety Alignment Neuron-level Control

SafeNeuron: Neuron-Level Safety Alignment for Large Language Models

Zhaoxin Wang, Jiaming Liang, Fengbin Zhu et al.

SafeNeuron提出了一种神经元级别的安全对齐框架，增强LLM的安全性与鲁棒性。

提出了SafeNeuron框架，提升LLM应对神经元剪枝攻击的鲁棒性
降低了开源模型被用于红队攻击的风险

2026-02-12

PDF arXiv

7/10

NLP IR Dataset

CitiLink-Minutes: A Multilayer Annotated Dataset of Municipal Meeting Minutes

Ricardo Campos, Ana Filipa Pacheco, Ana Luísa Fernandes et al.

CitiLink-Minutes是一个欧洲葡萄牙市政会议记录的多层注释数据集，旨在促进NLP和IR在该领域的应用。

创建了包含超过一百万个tokens的多层注释市政会议记录数据集
提供了元数据、讨论主题和投票结果三个维度的注释

2026-02-12

PDF arXiv

6/10

推荐系统知识图谱孟加拉语

Towards Personalized Bangla Book Recommendation: A Large-Scale Multi-Entity Book Graph Dataset

Rahin Arefin Ahmed, Md. Anik Chowdhury, Sakil Ahmed Sheikh Reza et al.

构建了大规模孟加拉语图书知识图谱数据集，并进行了推荐模型基准测试。

构建大规模孟加拉语图书知识图谱数据集RokomariBG
提供了Top-N推荐任务的基准测试

2026-02-12

PDF arXiv

7/10

In-Context Learning Demonstration Selection Meta-Learning

Meta-Sel: Efficient Demonstration Selection for In-Context Learning via Supervised Meta-Learning

Xubin Wang, Weijia Jia

Meta-Sel提出了一种基于监督元学习的高效演示选择方法，用于上下文学习中的意图分类。

提出Meta-Sel，一种轻量级监督元学习演示选择方法
构建元数据集，使用类一致性作为监督信号

2026-02-12

PDF arXiv

7/10

线性循环网络状态空间模型序列建模

Improved state mixing in higher-order and block diagonal linear recurrent networks

Igor Dubinin, Antonio Orvieto, Felix Effenberger

该论文提出了两种结构化的线性循环网络架构，通过更丰富的状态混合提高表达能力并保持效率。

提出了更高阶线性循环单元（H-LRU），混合多个过去状态。
提出了块对角线性循环单元（BD-LRU），实现块内密集通道混合。

2026-02-12

PDF arXiv

9/10

线性注意力稀疏内存长程依赖

RAM-Net: Expressive Linear Attention with Selectively Addressable Memory

Kaicheng Xiao, Haotian Li, Liran Dong et al.

RAM-Net通过可寻址稀疏内存提升线性注意力模型的表达能力和检索精度，同时保持计算效率。

提出了一种名为RAM-Net的新型架构，弥合了全注意力机制和线性模型的差距
引入了高维稀疏向量作为显式地址，允许模型选择性地访问大规模内存状态

2026-02-12

PDF arXiv

9/10

神经检索查询重写可解释性

Improving Neural Retrieval with Attribution-Guided Query Rewriting

Moncef Garouani, Josiane Mothe

提出一种基于Token级别归因的查询重写方法，提升神经检索器的性能。

利用检索器反馈指导查询重写
使用token-level归因引导LLM生成更清晰的查询

2026-02-12

PDF arXiv

7/10

推荐系统乌尔都语 Transformer

ULTRA:Urdu Language Transformer-based Recommendation Architecture

Alishbah Bashir, Fatima Qaiser, Ijaz Hussain

ULTRA是针对低资源乌尔都语的自适应语义推荐框架，通过双嵌入和查询长度感知路由提升推荐效果。

提出了ULTRA：一种基于Transformer的乌尔都语推荐架构
引入双嵌入架构和查询长度感知路由机制

2026-02-12

PDF arXiv

9/10

长文本建模稀疏注意力线性注意力

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

MiniCPM Team, Wenhao An, Yingfa Chen et al.

MiniCPM-SALA通过混合稀疏和线性注意力机制，在长文本建模中实现了高效的性能和内存效率。

提出MiniCPM-SALA混合注意力架构，结合稀疏和线性注意力的优势
引入成本效益高的持续训练框架，降低训练成本

2026-02-12

PDF arXiv

8/10

嵌入模型多语言检索

Diffusion-Pretrained Dense and Contextual Embeddings

Sedigheh Eslami, Maksim Gaiduk, Markus Krimmel et al.

论文提出了pplx-embed系列多语言嵌入模型，利用扩散预训练模型提升检索性能，并在多个benchmark上取得优异结果。

提出pplx-embed系列模型，包括pplx-embed-v1和pplx-embed-context-v1
利用扩散预训练语言模型作为backbone，提升上下文理解能力

2026-02-11

PDF arXiv

7/10

3D集成 FlashAttention Transformer加速

From Buffers to Registers: Unlocking Fine-Grained FlashAttention with Hybrid-Bonded 3D NPU Co-Design

Jinxin Yu, Yudong Pan, Mengdi Wang et al.

提出3D-Flow架构和3D-FlashAttention方法，加速Transformer模型，降低能耗并提升速度。

提出了3D-Flow，一种混合键合的3D堆叠空间加速器
设计了3D-FlashAttention，一种细粒度调度方法

2026-02-11

PDF arXiv

8/10

RAG Multilingual Report Generation

Overview of the TREC 2025 RAGTIME Track

Dawn Lawrie, Sean MacAvaney, James Mayfield et al.

TREC 2025 RAGTIME 旨在评估多语言环境下报告生成的性能，涵盖多语言信息检索任务。

创建多语言新闻文档集
设计多语言报告生成任务

2026-02-10

PDF arXiv

9/10

RAG 检索增强检索盲点

With Argus Eyes: Assessing Retrieval Gaps via Uncertainty Scoring to Detect and Remedy Retrieval Blind Spots

Zeinab Sadat Taghavi, Ali Modarressi, Hinrich Schutze et al.

该论文提出ARGUS方法，通过预先识别并修复检索盲点来提升RAG系统的检索效果。

发现RAG系统中神经检索器的检索盲点
提出Retrieval Probability Score (RPS)用于预测检索盲点

2026-02-10

PDF arXiv

9/10

RAG 对话QA 多轮对话

Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA

Klejda Alushi, Jan Strich, Chris Biemann et al.

论文系统比较了多种RAG方法在多轮对话QA中的表现，发现简单方法通常优于复杂方法。

系统性地比较了多种RAG方法在多轮对话QA任务中的性能。
揭示了不同RAG方法在不同数据集上的性能差异以及影响因素。

2026-02-10

PDF arXiv

8/10

社区笔记信息检索信息缺失

GitSearch: Enhancing Community Notes Generation with Gap-Informed Targeted Search

Sahajpreet Singh, Kokil Jaidka, Min-Yen Kan

GitSearch通过识别信息缺失并检索相关信息，提升社区笔记的生成效果。

提出GitSearch框架，优化社区笔记生成
构建PolBench基准数据集

2026-02-09

PDF arXiv

9/10

近邻搜索多样性福利函数

Welfarist Formulations for Diverse Similarity Search

Siddharth Barman, Nirjhar Das, Shivam Gupta et al.

提出了基于福利函数的近邻搜索算法，提升检索结果的多样性，并兼顾相关性。

提出了基于福利函数的多样性近邻搜索目标函数
设计了高效的算法，可与现有ANN方法结合

2026-02-09

PDF arXiv

8/10

LLM Sparse Attention Inference Optimization

QUOKA: Query-Oriented KV Selection For Efficient LLM Prefill

Dalton Jones, Junyoung Park, Matthew Morse et al.

QUOKA是一种面向查询的KV选择算法，通过减少KV对数量加速LLM推理，同时保持精度。

提出了一种新的稀疏注意力算法QUOKA
基于查询与平均查询的余弦相似度进行KV选择

2026-02-09

PDF arXiv

9/10

KV Cache Attention Inference Optimization

Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction

Ziyao Tang, Pengkun Jiao, Xinhang Chen et al.

LU-KV通过优化头级别缓存分配，减少KV缓存大小，降低推理延迟和显存占用。

提出LU-KV框架，通过凸包松弛和边际效用贪婪求解器优化头级别缓存分配
引入数据驱动的离线分析协议，便于LU-KV的实际部署

2026-02-09

PDF arXiv

9/10

LLM 隐式记忆安全

Stateless Yet Not Forgetful: Implicit Memory as a Hidden Channel in LLMs

Ahmed Salem, Andrew Paverd, Sahar Abdelnabi

该论文揭示了LLM中一种名为“隐式记忆”的新机制，允许模型跨会话传递信息，并探讨其潜在风险。

发现了LLM中隐式记忆的存在，无需显式记忆模块即可跨会话传递信息
提出了基于隐式记忆的时间炸弹后门攻击，展示了其潜在危害

2026-02-09

PDF arXiv

9/10

KV-cache 压缩低秩近似

KV-CoRE: Benchmarking Data-Dependent Low-Rank Compressibility of KV-Caches in LLMs

Jian Chen, Zhuoran Wang, Jiayu Qin et al.

该论文提出KV-CoRE方法评估LLM中KV-cache的数据依赖低秩可压缩性，并进行了大规模基准测试。

提出KV-CoRE方法评估KV-cache可压缩性
构建大规模KV-cache可压缩性基准测试

2026-02-05

PDF arXiv

8/10

LLM Modeling & Simulation RAG

A Guide to Large Language Models in Modeling and Simulation: From Core Techniques to Critical Challenges

Philippe J. Giabbanelli

论文针对LLM在建模与仿真应用中的常见问题提供实用指南，强调设计选择和评估。

LLM在M&S应用中的最佳实践指南
常见问题的分析与诊断策略

2026-02-05

PDF arXiv

9/10

LLM 代码补全定制化

Automated Customization of LLMs for Enterprise Code Repositories Using Semantic Scopes

Ulrich Finkler, Irene Manotas, Wei Zhang et al.

针对企业代码库，提出基于语义范围的LLM自动定制方法，提高代码补全质量和开发者效率。

提出基于语义范围的代码LLM定制方法
评估了RAG和FT两种定制策略在企业代码库上的效果

2026-02-05

PDF arXiv

7/10

稀疏嵌入对比学习模型优化

CSRv2: Unlocking Ultra-Sparse Embeddings

Lixuan Guo, Yifei Wang, Tiansheng Wen et al.

CSRv2通过改进训练方法，使超稀疏嵌入在保证性能的同时，显著提升计算和存储效率。

提出渐进式k-退火稳定稀疏学习
引入监督对比目标增强表征质量

2026-02-05

PDF arXiv

8/10

信息检索词嵌入 Word Mover's Distance

Evaluating the impact of word embeddings on similarity scoring in practical information retrieval

Niall McCarroll, Kevin Curran, Eugene McNamee et al.

该论文评估了基于WMD和词嵌入的相似度计算方法在信息检索中的有效性，并验证了其优越性。

提出基于WMD和词嵌入的相似度计算方法
证明了WMD + GloVe组合优于其他检索模型

2026-02-05

PDF arXiv

9/10

RAG 多跳问答知识库

CompactRAG: Reducing LLM Calls and Token Overhead in Multi-Hop Question Answering

Hao Yang, Zhiyu Yang, Xupeng Zhang et al.

CompactRAG通过离线知识库构建和在线高效推理，显著降低多跳问答中的LLM调用和token消耗。

提出CompactRAG框架，解耦离线知识库构建和在线推理
构建原子QA知识库，减少LLM推理步骤

2026-02-05

PDF arXiv

7/10

优化器 Muon 联想记忆

Muon in Associative Memory Learning: Training Dynamics and Scaling Laws

Binghui Li, Kaifei Wang, Han Zhong et al.

论文研究了Muon优化器在联想记忆学习中的训练动态和缩放规律，揭示其优于梯度下降的原因。

证明了Muon在无噪声情况下比梯度下降快指数级
推导了噪声情况下Muon的优化缩放律，并证明其优于梯度下降

2026-02-05

PDF arXiv

9/10

RAG 知识验证强化学习

Mitigating Hallucination in Financial Retrieval-Augmented Generation via Fine-Grained Knowledge Verification

Taoye Yin, Haoyuan Hu, Yaxin Fan et al.

论文提出一种基于强化学习和细粒度知识验证的RAG方法，缓解金融领域的幻觉问题。

提出RLFKV框架，通过细粒度知识验证提升RAG系统可靠性
引入信息量奖励，防止模型过度简化回答

2026-02-05

PDF arXiv

9/10

RAG Entity Matching Blocking

Cost-Efficient RAG for Entity Matching with LLMs: A Blocking-based Exploration

Chuangtao Ma, Zeyu Zhang, Arijit Khan et al.

提出了基于分块的低成本RAG架构CE-RAG4EM，用于提升实体匹配效率。

提出了一种基于分块的成本效益型RAG架构CE-RAG4EM
提出了一个统一的实体匹配RAG系统分析与评估框架

2026-02-05

PDF arXiv

7/10

tabular data compression foundation model

End-to-End Compression for Tabular Foundation Models

Guri Zabërgja, Rafiq Kamel, Arlind Kadra et al.

提出TACO模型，通过压缩训练数据集在潜在空间中加速和压缩tabular foundation model。

提出了一种端到端表格数据压缩模型TACO
实现了更快的推理速度和更低的内存消耗

2026-02-05

PDF arXiv

8/10

ArkTS 代码检索数据集

ArkTS-CodeSearch: A Open-Source ArkTS Dataset for Code Retrieval

Yulong He, Artem Ermakov, Sergey Kovalchuk et al.

构建了大规模ArkTS代码检索数据集与基准，并进行了模型微调，提升了ArkTS代码理解能力。

构建了大规模开源ArkTS代码检索数据集
设计了基于自然语言注释的代码检索任务

2026-02-05

PDF arXiv

8/10

LLM Reranking Tournament Graph

BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs

Sheshansh Agrawal, Thien Hang Nguyen, Douwe Kiela

提出了基于tournament graph的LLM zero-shot reranking框架，提高了效率和准确率。

提出tournament graph reranking框架
设计信息增益最大化查询策略

2026-02-05

PDF arXiv

9/10

LLM Training Memory-Centric Architecture CPU Offloading

Horizon-LM: A RAM-Centric Architecture for LLM Training

Zhengqing Yuan, Lichao Sun, Yanfang et al.

Horizon-LM通过CPU主导的架构，突破GPU内存限制，实现单节点大规模LLM训练。

提出CPU主导的内存中心化LLM训练架构
消除GPU常驻模块和自动微分图

2026-02-04

PDF arXiv

5/10

风速预测风电场集群时间序列预测

Legendre Memory Unit with A Multi-Slice Compensation Model for Short-Term Wind Speed Forecasting Based on Wind Farm Cluster Data

Mumin Zhang, Haochen Zhang, Xin Zhi Khoo et al.

提出一种基于风电场集群数据的WMF-CPK-MSLMU短期风速预测集成模型。

创新性地应用LMU进行风速预测
提出基于CPK的多切片LMU（MSLMU）

2026-02-04

PDF arXiv

8/10

机器翻译低资源上下文学习

Beyond Many-Shot Translation: Scaling In-Context Demonstrations For Low-Resource Machine Translation

Luis Frentzen Salim, Esteban Carlin, Alexandre Morinvil et al.

研究了长文本上下文学习在低资源机器翻译中的应用，揭示了其有效性限制和语料类型敏感性。

探索了长文本上下文学习在低资源机器翻译中的应用
比较了不同类型语料作为上下文信息的有效性

2026-02-04

PDF arXiv

9/10

RAG LLM 生物医学

Less Finetuning, Better Retrieval: Rethinking LLM Adaptation for Biomedical Retrievers via Synthetic Data and Model Merging

Sameh Khattab, Jean-Philippe Corbeil, Osman Alperen Koraş et al.

提出STM框架，通过合成数据、提示优化和模型合并，高效提升LLM在生物医学检索任务上的性能。

提出Synthesize-Train-Merge (STM) 框架
利用合成硬负样本提升检索性能

2026-02-04

PDF arXiv

9/10

SAR ATR RAG

SAR-RAG: ATR Visual Question Answering by Semantic Search, Retrieval, and MLLM Generation

David F. Ramirez, Tim Overman, Kristen Jaskie et al.

SAR-RAG通过语义搜索和图像检索增强MLLM，提升合成孔径雷达图像的目标识别精度。

提出SAR-RAG模型，结合语义搜索和图像检索
利用已知目标类型的图像范例进行对比，提高ATR预测精度

2026-02-04

PDF arXiv

9/10

RAG 知识投毒稀疏注意力

Addressing Corpus Knowledge Poisoning Attacks on RAG Using Sparse Attention

Sagie Dekel, Moshe Tennenholtz, Oren Kurland

论文提出一种基于稀疏注意力机制的SDAG方法，用于防御RAG中的知识投毒攻击。

提出SDAG方法，防御RAG中的知识投毒攻击
SDAG使用块稀疏注意力机制，限制文档间的交叉注意力

2026-02-04

PDF arXiv

9/10

信息检索数据标注 LLM

AIANO: Enhancing Information Retrieval with AI-Augmented Annotation

Sameh Khattab, Marie Bauer, Lukas Heine et al.

AIANO通过AI辅助标注，显著提升了信息检索数据集的创建效率和质量。

开发了AIANO：一个AI辅助标注工具。
提出了AI增强的标注流程，结合人工和LLM的优势。

2026-02-04

PDF arXiv

9/10

Weight Tying Language Model Training Stability

Rethinking Weight Tying: Pseudo-Inverse Tying for Stable LM Training and Updates

Jian Gu, Aldeida Aleti, Chunyang Chen et al.

提出伪逆权重绑定(PIT)，通过共享的潜在token记忆同步embedding和unembedding，提升训练稳定性和语义一致性。

提出Pseudo-Inverse Tying (PIT)权重绑定方法
设计正交共享记忆和可学习的对称正定变换

2026-02-04

PDF arXiv

5/10

机器学习晶体结构预测钙钛矿

Machine Learning-Driven Crystal System Prediction for Perovskites Using Augmented X-ray Diffraction Data

Ansu Mathew, Ahmer A. B. Baloch, Alamin Yakasai et al.

基于机器学习和增强XRD数据预测钙钛矿晶体结构。

提出了一种基于机器学习的钙钛矿晶体系统预测框架
使用了多种机器学习模型并结合了数据增强策略

2026-02-04

PDF arXiv

7/10

Machine Unlearning Conformal Prediction Generative Models

Inference-time Unlearning Using Conformal Prediction

Somnath Basu Roy Chowdhury, Rahul Kidambi, Avinava Dubey et al.

提出一种基于Conformal Prediction的推理时免训练卸载框架，提升卸载性能并提供保证。

提出了推理时卸载框架，无需模型参数更新
利用Conformal Prediction减少计算开销

2026-02-03

PDF arXiv

9/10

LLM 上下文压缩信息传输

Context Compression via Explicit Information Transmission

Jiangnan Ye, Hanqi Yan, Zhenyi Shen et al.

ComprExIT通过显式信息传输实现高效LLM上下文压缩，解决了传统自注意力压缩的局限性。

提出ComprExIT框架，解耦压缩和LLM内部自注意力。
引入深度和宽度方向的信息传输机制。

2026-02-03

PDF arXiv

6/10

OCR 文档解析土耳其语

OCRTurk: A Comprehensive OCR Benchmark for Turkish

Deniz Yılmaz, Evren Ayberk Munis, Çağrı Toraman et al.

OCRTurk是一个土耳其语文档解析基准，包含多种文档类型和难度等级，评估了七个OCR模型。

提出了OCRTurk土耳其语文档解析基准
覆盖多种文档类型和布局元素

2026-02-03

PDF arXiv

7/10

Transformer 线性注意力 Softmax注意力

Neural Attention Search Linear: Towards Adaptive Token-Level Hybrid Attention Models

Difan Deng, Andreas Bentzen Winje, Lukas Fehring et al.

NAtS-L提出了一种token级别的混合注意力机制，自动选择线性或softmax注意力。

提出NAtS-L框架，实现token级别的混合注意力。
自动搜索最优的Gated DeltaNet和softmax注意力组合。

2026-02-03

PDF arXiv

9/10

RAG 土耳其语检索增强生成

RAGTurk: Best Practices for Retrieval Augmented Generation in Turkish

Süha Kağan Köse, Mehmet Can Baytekin, Burak Aktaş et al.

该论文构建了土耳其语RAG数据集，并评估了不同RAG流程的性能，优化土耳其语RAG系统。

构建了土耳其语RAG数据集
评估了不同RAG流程在土耳其语上的性能

2026-02-03

PDF arXiv

9/10

RAG 强化学习检索器优化

Reinforcement Fine-Tuning for History-Aware Dense Retriever in RAG

Yicheng Zhang, Zhen Qin, Zhaomin Wu et al.

提出了一种基于强化学习的历史感知稠密检索器微调方法，优化RAG管道的检索性能。

提出了基于强化学习的检索器优化方法。
使用随机抽样代替确定性检索，使检索器可以通过RL优化。

2026-02-03

PDF arXiv

5/10

成员推理攻击对抗性解释差分隐私

Explanations Leak: Membership Inference with Differential Privacy and Active Learning Defense

Fatima Ezzeddine, Osama Zammar, Silvia Giordano et al.

研究对抗性解释如何增强成员推理攻击，并提出差分隐私和主动学习结合的防御框架。

分析了解释泄露对成员推理攻击的影响
提出了基于差分隐私和主动学习的防御框架

2026-02-03

PDF arXiv

9/10

RAG 知识图谱检索增强生成

Use Graph When It Needs: Efficiently and Adaptively Integrating Retrieval-Augmented Generation with Graphs

Su Dong, Qinggang Zhang, Yilin Xiao et al.

EA-GraphRAG通过语法分析自适应地结合RAG和GraphRAG，提升了知识密集型任务的准确性和效率。

提出了语法感知的复杂度分析方法
设计了轻量级的复杂度评分器

2026-02-03

PDF arXiv

7/10

Sparse Attention KV Cache Large Language Models

HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

Yizhao Gao, Jianyu Wei, Qihao Zhang et al.

HySparse通过全注意力层引导稀疏注意力，有效减少计算和内存开销并提升性能。

提出HySparse架构，交错全注意力和稀疏注意力层
使用全注意力层作为oracle进行token选择

2026-02-03

PDF arXiv

7/10

量化后训练量化模型压缩

MatGPTQ: Accurate and Efficient Post-Training Matryoshka Quantization

Maximilian Kleinegger, Elvir Crnčević, Dan Alistarh

MatGPTQ提出了一种高效的后训练Matryoshka量化方法，实现了单模型多精度部署。

提出MatGPTQ：一种新的后训练Matryoshka量化流程
引入跨位误差补偿，优化多精度目标

2026-02-03

PDF arXiv

6/10

LoRA 低秩适配灾难性遗忘

Least but not Last: Fine-tuning Intermediate Principal Components for Better Performance-Forgetting Trade-Offs

Alessio Quercia, Arya Bangun, Ira Assent et al.

通过微调中间主成分，LoRA方法在性能和遗忘之间实现了更好的权衡。

分析了LoRA中性能-遗忘的权衡问题
提出了一种基于中间主成分的LoRA初始化方法

2026-02-03

PDF arXiv