9/10
Retrieval-Augmented Language Model Instruction Tuning Neuron-level Sparsity

Neuro-RIT: Neuron-Guided Instruction Tuning for Robust Retrieval-Augmented Language Model

Jaemin Kim, Jae O Lee, Sumyeong Ahn et al.

Neuro-RIT通过神经元引导的指令微调,增强检索增强语言模型在噪声环境下的鲁棒性。

  • 提出Neuro-RIT框架,实现神经元级别的鲁棒性提升
  • 基于归因的神经元挖掘,区分处理相关和无关上下文的神经元
2026-04-02
8/10
自监督学习 知识获取 模型修正

Learn by Surprise, Commit by Proof

Kang-Sin Choi

LSCP通过自验证方式,使模型学习新知识并修正已有知识,避免死记硬背。

  • 提出LSCP自门控后训练框架
  • 利用Q&A链迫使模型识别知识缺口
2026-04-02
7/10
注意力机制 长上下文 模型压缩

Screening Is Enough

Ken M. Nakanishi

论文提出Multiscreen架构,通过筛选机制实现绝对Query-Key相关性,减少参数和推理延迟。

  • 提出Multiscreen架构和筛选机制
  • 减少参数数量和推理延迟
2026-04-01
8/10
In-Context Learning Induction Heads Temporal Dependencies

Temporal Dependencies in In-Context Learning: The Role of Induction Heads

Anooshka Bajaj, Deven Mahesh Mistry, Sahaj Singh Maini et al.

研究发现LLM的上下文学习中,归纳头对时间依赖性处理和序列回忆行为至关重要。

  • 揭示了LLM上下文学习中的序列回忆模式
  • 证明了归纳头在实现这种模式中的作用
2026-04-01
10/10
RAG Retrieval-Augmented Generation Scaling Laws

To Memorize or to Retrieve: Scaling Laws for RAG-Considerate Pretraining

Karan Singh, Michael Yu, Varun Gangal et al.

研究预训练数据量和检索数据量之间的权衡,为RAG系统的数据分配提供指导。

  • 提出了一个三维缩放框架,用于建模模型大小、预训练tokens和检索语料库大小对性能的影响。
  • 量化了检索对模型性能的提升,并分析了其边际效用与模型规模和任务类型的关系。
2026-04-01
7/10
Attention Mechanism Low-Rank Approximation Large Language Models

Tucker Attention: A generalization of approximate attention mechanisms

Timon Klein, Jonas Kusch, Sebastian Sager et al.

提出了Tucker Attention,一种广义的近似注意力机制,在降低参数量同时保持性能。

  • 提出了Tucker Attention,一种更参数高效的注意力机制
  • Tucker Attention包含了GQA、MLA、MHA等作为特例
2026-03-31
8/10
可验证声明检测 知识检索 大语言模型

ContextClaim: A Context-Driven Paradigm for Verifiable Claim Detection

Yufeng Li, Rrubaa Panchendrarajan, Arkaitz Zubiaga

ContextClaim通过引入外部知识,提升可验证声明检测的性能,并在不同数据集和模型上进行了评估。

  • 提出ContextClaim范式,将检索引入声明检测阶段
  • 利用Wikipedia检索上下文信息,辅助声明可验证性判断
2026-03-31
8/10
Probabilistic AI Compute-in-Memory Memory Architecture

A Unified Memory Perspective for Probabilistic Trustworthy AI

Xueji Zhao, Likai Pei, Jianbo Liu et al.

论文提出统一的内存视角分析概率可信AI,揭示随机采样对内存效率的影响,并评估新兴计算架构。

  • 提出了统一的内存访问视角,将确定性访问视为随机采样的极限情况
  • 定义了内存级评估标准,包括统一操作、分布可编程性等
2026-03-26
9/10
联邦学习 RAG 隐私保护

Supercharging Federated Intelligence Retrieval

Dimitris Stripelis, Patrick Foley, Mohammad Naseri et al.

提出一种安全的联邦RAG系统,在保护隐私的同时实现分布式知识检索和远程LLM推理。

  • 提出安全联邦RAG系统
  • 使用Flower进行联邦学习
2026-03-26
9/10
RAG chunking adaptive learning

Adaptive Chunking: Optimizing Chunking-Method Selection for RAG

Paulo Roberto de Moura Júnior, Jean Lelong, Annabelle Blangero

论文提出自适应分块框架,基于文档内在指标选择最佳分块策略,提升RAG性能。

  • 提出了自适应分块框架,能根据文档选择最佳分块策略
  • 提出了五个新的文档内在指标来评估分块质量
2026-03-26
7/10
时间序列 签名方法 深度学习

The Exponentially Weighted Signature

Alexandre Bloch, Samuel N. Cohen, Terry Lyons et al.

提出了指数加权签名(EWS),通过引入更丰富的记忆动态来改进传统签名,并提升了时间序列数据的建模能力。

  • 提出了指数加权签名(EWS)
  • 证明了EWS是张量代数上线性控制微分方程的唯一解
2026-03-19
9/10
RAG Query Rewriting Decision Making

Hypothesis-Conditioned Query Rewriting for Decision-Useful Retrieval

Hangeol Chang, Changsun Lee, Seungjoon Rho et al.

提出HCQR框架,通过假设引导的查询重写提升RAG在决策任务中的表现。

  • 提出 Hypothesis-Conditioned Query Rewriting (HCQR) 框架
  • 设计三种目标查询策略:支持假设、区分选项、验证线索
2026-03-19
8/10
attention mechanism memory augmentation linear time complexity

MANAR: Memory-augmented Attention with Navigational Abstract Conceptual Representation

Zuher Jahshan, Ben Ben Ishay, Leonid Yavits

MANAR通过记忆增强注意力机制和抽象概念表示,实现线性时间复杂度的全局信息整合,提升模型性能。

  • 提出了MANAR架构,结合记忆增强注意力机制和抽象概念表示
  • 实现了线性时间复杂度的注意力机制,解决了传统注意力机制的二次复杂度问题
2026-03-19
9/10
LLM Agent Memory

D-Mem: A Dual-Process Memory System for LLM Agents

Zhixing You, Jiachen Yuan, Jason Cai

D-Mem是一种双过程记忆系统,通过质量门控策略平衡效率与准确性,提升LLM Agent的长期推理能力。

  • 提出了D-Mem双过程记忆系统
  • 设计了多维质量门控策略
2026-03-19
9/10
LLM Hallucination Retrieval-Augmented Generation

Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval

Md. Asraful Haque, Aasar Mehdi, Maaz Mahboob et al.

提出一种基于领域知识的多层检索验证架构,用于缓解LLM的幻觉问题。

  • 提出了领域知识指导的多层检索和验证框架
  • 利用LangGraph实现了自调节的四阶段pipeline
2026-03-18
9/10
RAG Diffusion Model Knowledge-intensive QA

Adaptive Guidance for Retrieval-Augmented Masked Diffusion Models

Jaemin Kim, Jong Chul Ye

提出ARAM框架,通过信噪比自适应调整检索增强掩码扩散模型中的引导尺度,提升知识密集型问答性能。

  • 提出ARAM框架,解决扩散模型RAG中的检索冲突问题
  • 基于信噪比动态调整检索上下文引导尺度
2026-03-18
7/10
Continual Learning Adaptive Normalization Tabular Data

CLeAN: Continual Learning Adaptive Normalization in Dynamic Environments

Isabella Marasco, Davide Evangelista, Elena Loli Piccolomini et al.

CLeAN提出了一种自适应归一化方法,用于解决持续学习中数据分布变化的问题,提升模型性能并缓解灾难性遗忘。

  • 提出了CLeAN:一种针对持续学习的自适应归一化技术。
  • 使用可学习参数和EMA模块估计全局特征尺度,适应数据分布变化。
2026-03-18
9/10
长上下文 注意力机制 模型优化

Learning When to Attend: Conditional Memory Access for Long-Context LLMs

Sakshi Choudhary, Aditya Chattopadhyay, Luca Zancato et al.

提出L2A层,通过条件性长程记忆访问扩展LLM上下文长度,提高效率并降低内存占用。

  • 提出L2A层,实现token-wise条件全局注意力
  • 在Qwen模型上将有效上下文长度扩展到128K
2026-03-18
9/10
KV缓存压缩 向量量化 大语言模型

VQKV: High-Fidelity and High-Ratio Cache Compression via Vector-Quantization

Yixuan Wang, Qingyu Shi, Jiayu Zhou et al.

VQKV通过向量量化实现KV缓存高压缩率和高保真度,显著提升LLM在资源受限环境下的部署能力。

  • 提出了一种新的基于向量量化的KV缓存压缩方法VQKV
  • 在保证高压缩率的同时,维持了较高的模型性能
2026-03-17
9/10
RAG 跨文档推理 多跳问答

IndexRAG: Bridging Facts for Cross-Document Reasoning at Index Time

Zhenghua Bao, Yi Shi

IndexRAG通过离线构建桥接事实,提升跨文档推理的检索增强生成效果,无需额外训练。

  • 提出IndexRAG,一种新型跨文档推理的检索增强生成方法
  • 将跨文档推理从在线推断转移到离线索引
2026-03-17
7/10
machine unlearning privacy transformer

Rethinking Machine Unlearning: Models Designed to Forget via Key Deletion

Sonia Laguna, Jorge da Silva Goncalves, Moritz Vandenhirtz et al.

提出一种“设计即遗忘”的机器卸载新范式,通过密钥删除实现高效、零样本的遗忘能力。

  • 提出“设计即遗忘”的卸载范式
  • 设计了MUNKEY模型,通过密钥删除实现卸载
2026-03-16
9/10
LLM Pseudo-Relevance Feedback Information Retrieval

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Nour Jedidi, Jimmy Lin

系统性研究LLM伪相关反馈,揭示反馈源和反馈模型对效果的影响,提供设计指导。

  • 系统分析反馈源和反馈模型对PRF的影响
  • 揭示LLM生成文本作为反馈源的有效性
2026-03-11
7/10
LLM Serving Side Channel Attack Cache Optimization

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

Panagiotis Georgios Pennas, Konstantinos Papaioannou, Marco Guarnieri et al.

CacheSolidarity通过监控和选择性隔离,防御LLM多租户环境下的缓存侧信道攻击,提升性能。

  • 提出CacheSolidarity系统,防御LLM服务中的缓存侧信道攻击
  • 在不牺牲性能的前提下,保护多租户LLM系统安全
2026-03-11
9/10
RAG 多轮对话 检索增强生成

AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations

Dimosthenis Athanasiou, Maria Lymperaiou, Giorgos Filandrianos et al.

该论文提出了一种基于查询多样性和多阶段生成pipeline的RAG系统,并在 SemEval-2026 Task 8 中取得优异成绩。

  • 提出一种查询多样性的检索策略
  • 设计多阶段生成pipeline
2026-03-11
8/10
continual learning large language models replay

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Yiyang Lu, Yu He, Jianlong Chen et al.

MSSR通过估计样本记忆强度自适应地进行经验回放,有效缓解了LLM持续微调中的灾难性遗忘。

  • 提出了Memory-Inspired Sampler and Scheduler Replay (MSSR)框架
  • MSSR通过记忆强度估计自适应地选择回放样本和调整回放频率
2026-03-10
7/10
Continual Learning Transformers Routing

Routing without Forgetting

Alessio Masano, Giovanni Bellitto, Dipam Goswani et al.

提出了一种名为RwF的Transformer架构,通过能量模型的关联检索层实现在线持续学习中的动态路由。

  • 提出Routing without Forgetting (RwF)架构
  • 利用能量模型的关联检索实现动态路由
2026-03-10
6/10
语料库 辩论 自然语言处理

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo et al.

DEBISS语料库:一个包含口语、个人辩论和半结构化特征的辩论语料库,具有丰富的NLP任务标注。

  • 提出了DEBISS语料库,填补了辩论语料库的空白
  • 包含了口语、个人辩论和半结构化特征
2026-03-05
9/10
RAG Time-Series Predictive Maintenance

Retrieval-Augmented Generation with Covariate Time Series

Kenny Ye Liang, Zhongyi Pei, Huan Zhang et al.

针对时序预测,提出了一种无需训练、基于 regime 感知的 RAG 框架 RAG4CTS,并成功应用于工业场景。

  • 提出了一种 regime 感知的时序 RAG 框架 RAG4CTS
  • 构建了分层时间序列原生知识库,实现无损存储和物理信息检索
2026-03-05
9/10
RAG 知识图谱 工业优化

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Y. Zhong, R. Huang, M. Wang et al.

提出一种类型感知的RAG方法,利用依赖闭包生成可执行的工业优化模型,提升模型编译成功率。

  • 提出类型感知的RAG框架,解决LLM在工业优化建模中生成不可执行代码的问题
  • 构建领域特定的类型化知识库,并利用知识图谱编码数学依赖关系
2026-03-03
9/10
KV Cache Quantization Large Language Models

InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models

Sayed Mohammadreza Tayaranian Hosseini, Amir Ardakani, Warren J. Gross

InnerQ提出了一种硬件感知的KV缓存量化方案,旨在降低解码延迟并保持精度。

  • 提出了InnerQ量化方案,通过内维度分组优化内存访问和加速反量化
  • 结合混合量化、高精度窗口和逐通道归一化,保持量化后的模型精度
2026-02-26
8/10
Transformer Context Parallelism Memory Efficiency

Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

Ravi Ghadia, Maksim Abraham, Sergei Vorobyov et al.

UPipe通过头级别分块实现高效上下文并行,显著降低Transformer的激活内存占用,支持更长上下文。

  • 提出了UPipe上下文并行技术
  • 在头级别进行细粒度分块,显著降低激活内存
2026-02-24
8/10
SSM Tensor Parallelism Multi-GPU

Scaling State-Space Models on Multiple GPUs with Tensor Parallelism

Anurag Dutt, Nimit Shah, Hazem Masarani et al.

论文提出了一种通信高效的张量并行化方法,用于加速选择性状态空间模型在大规模GPU上的推理。

  • 针对SSM模型提出通信高效的张量并行化设计
  • 优化了SSM状态缓存以提升TTFT
2026-02-24
9/10
RAG Retrieval-Augmented Generation Dynamic Retrieval

RMIT-ADM+S at the MMU-RAG NeurIPS 2025 Competition

Kun Ran, Marwah Alaofi, Danula Hettiachchi et al.

RMIT-ADM+S团队提出R2RAG,一种动态调整检索策略的RAG架构,并在NeurIPS 2025竞赛中获奖。

  • 提出Routing-to-RAG (R2RAG)架构
  • 动态调整检索策略
2026-02-24
8/10
统计水印 大语言模型 可随时停止推断

Towards Anytime-Valid Statistical Watermarking

Baihe Huang, Eric Xu, Kannan Ramchandran et al.

提出了基于e-value的水印框架,实现了LLM生成内容的高效、可随时停止的统计水印检测。

  • 提出了基于e-value的Anchor E-Watermarking框架
  • 实现了最优采样与随时有效的推断的统一
2026-02-19
7/10
线性注意力 Mamba-2 长序列建模

2Mamba2Furious: Linear in Complexity, Competitive in Accuracy

Gabriel Mongaras, Eric C. Larson

通过简化和改进Mamba-2,论文提出了一种高效且精度接近softmax attention的模型2Mamba。

  • 简化Mamba-2并确定关键组件
  • 改进A-mask和隐藏状态维度提升精度
2026-02-19
8/10
Fast Weight Reinforcement Learning Long Context Modeling

Reinforced Fast Weights with Next-Sequence Prediction

Hee Seung Hwang, Xindi Wu, Sanghyuk Chun et al.

提出REFINE框架,通过强化学习优化Fast Weight模型,提升长文本建模能力。

  • 提出REFINE框架,使用NSP目标训练Fast Weight模型
  • 利用强化学习选择信息量大的token位置并生成多token序列
2026-02-18
9/10
multimodal agent memory

MMA: Multimodal Memory Agent

Yihao Lu, Wanru Cheng, Zeyu Zhang et al.

MMA通过动态评估检索到的记忆可靠性,提升多模态Agent在复杂环境中的表现。

  • 提出Multimodal Memory Agent (MMA)模型
  • 引入动态可靠性评分机制
2026-02-18
7/10
文本嵌入 模型蒸馏 对比学习

jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Mohammad Kalim Akram, Saba Sturua, Nastia Havriushenko et al.

提出一种结合模型蒸馏和任务特定对比损失的训练方法,提升小型嵌入模型的性能。

  • 提出新的训练方法,结合模型蒸馏和任务特定对比损失
  • 训练出高性能的小型嵌入模型 jina-embeddings-v5-text-small 和 jina-embeddings-v5-text-nano
2026-02-17
9/10
RAG 长文档检索 注意力机制

AttentionRetriever: Attention Layers are Secretly Long Document Retrievers

David Jiahao Fu, Lam Thanh Do, Jiayu Li et al.

AttentionRetriever利用注意力机制和实体检索,构建上下文感知嵌入,提升长文档检索性能和效率。

  • 提出AttentionRetriever模型,提升长文档检索性能
  • 利用注意力机制构建上下文感知嵌入
2026-02-12
9/10
attention memory consolidation adaptive computation

Learning to Forget Attention: Memory Consolidation for Adaptive Compute Reduction

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

提出了一种基于记忆整合的自适应计算缩减方法,通过动态减少冗余注意力计算提高效率。

  • 发现GPT-2模型中大量注意力操作是冗余的,并提出CRMA解决此问题。
  • 引入基于整合的路由机制CRMA,实现注意力利用率随训练过程下降。
2026-02-12
8/10
LLM Safety Alignment Neuron-level Control

SafeNeuron: Neuron-Level Safety Alignment for Large Language Models

Zhaoxin Wang, Jiaming Liang, Fengbin Zhu et al.

SafeNeuron提出了一种神经元级别的安全对齐框架,增强LLM的安全性与鲁棒性。

  • 提出了SafeNeuron框架,提升LLM应对神经元剪枝攻击的鲁棒性
  • 降低了开源模型被用于红队攻击的风险
2026-02-12
7/10
NLP IR Dataset

CitiLink-Minutes: A Multilayer Annotated Dataset of Municipal Meeting Minutes

Ricardo Campos, Ana Filipa Pacheco, Ana Luísa Fernandes et al.

CitiLink-Minutes是一个欧洲葡萄牙市政会议记录的多层注释数据集,旨在促进NLP和IR在该领域的应用。

  • 创建了包含超过一百万个tokens的多层注释市政会议记录数据集
  • 提供了元数据、讨论主题和投票结果三个维度的注释
2026-02-12
7/10
线性循环网络 状态空间模型 序列建模

Improved state mixing in higher-order and block diagonal linear recurrent networks

Igor Dubinin, Antonio Orvieto, Felix Effenberger

该论文提出了两种结构化的线性循环网络架构,通过更丰富的状态混合提高表达能力并保持效率。

  • 提出了更高阶线性循环单元(H-LRU),混合多个过去状态。
  • 提出了块对角线性循环单元(BD-LRU),实现块内密集通道混合。
2026-02-12
9/10
线性注意力 稀疏内存 长程依赖

RAM-Net: Expressive Linear Attention with Selectively Addressable Memory

Kaicheng Xiao, Haotian Li, Liran Dong et al.

RAM-Net通过可寻址稀疏内存提升线性注意力模型的表达能力和检索精度,同时保持计算效率。

  • 提出了一种名为RAM-Net的新型架构,弥合了全注意力机制和线性模型的差距
  • 引入了高维稀疏向量作为显式地址,允许模型选择性地访问大规模内存状态
2026-02-12
7/10
推荐系统 乌尔都语 Transformer

ULTRA:Urdu Language Transformer-based Recommendation Architecture

Alishbah Bashir, Fatima Qaiser, Ijaz Hussain

ULTRA是针对低资源乌尔都语的自适应语义推荐框架,通过双嵌入和查询长度感知路由提升推荐效果。

  • 提出了ULTRA:一种基于Transformer的乌尔都语推荐架构
  • 引入双嵌入架构和查询长度感知路由机制
2026-02-12
8/10
嵌入模型 多语言 检索

Diffusion-Pretrained Dense and Contextual Embeddings

Sedigheh Eslami, Maksim Gaiduk, Markus Krimmel et al.

论文提出了pplx-embed系列多语言嵌入模型,利用扩散预训练模型提升检索性能,并在多个benchmark上取得优异结果。

  • 提出pplx-embed系列模型,包括pplx-embed-v1和pplx-embed-context-v1
  • 利用扩散预训练语言模型作为backbone,提升上下文理解能力
2026-02-11
8/10
RAG Multilingual Report Generation

Overview of the TREC 2025 RAGTIME Track

Dawn Lawrie, Sean MacAvaney, James Mayfield et al.

TREC 2025 RAGTIME 旨在评估多语言环境下报告生成的性能,涵盖多语言信息检索任务。

  • 创建多语言新闻文档集
  • 设计多语言报告生成任务
2026-02-10
9/10
RAG 对话QA 多轮对话

Comprehensive Comparison of RAG Methods Across Multi-Domain Conversational QA

Klejda Alushi, Jan Strich, Chris Biemann et al.

论文系统比较了多种RAG方法在多轮对话QA中的表现,发现简单方法通常优于复杂方法。

  • 系统性地比较了多种RAG方法在多轮对话QA任务中的性能。
  • 揭示了不同RAG方法在不同数据集上的性能差异以及影响因素。
2026-02-10
9/10
近邻搜索 多样性 福利函数

Welfarist Formulations for Diverse Similarity Search

Siddharth Barman, Nirjhar Das, Shivam Gupta et al.

提出了基于福利函数的近邻搜索算法,提升检索结果的多样性,并兼顾相关性。

  • 提出了基于福利函数的多样性近邻搜索目标函数
  • 设计了高效的算法,可与现有ANN方法结合
2026-02-09
8/10
LLM Sparse Attention Inference Optimization

QUOKA: Query-Oriented KV Selection For Efficient LLM Prefill

Dalton Jones, Junyoung Park, Matthew Morse et al.

QUOKA是一种面向查询的KV选择算法,通过减少KV对数量加速LLM推理,同时保持精度。

  • 提出了一种新的稀疏注意力算法QUOKA
  • 基于查询与平均查询的余弦相似度进行KV选择
2026-02-09
9/10
LLM 隐式记忆 安全

Stateless Yet Not Forgetful: Implicit Memory as a Hidden Channel in LLMs

Ahmed Salem, Andrew Paverd, Sahar Abdelnabi

该论文揭示了LLM中一种名为“隐式记忆”的新机制,允许模型跨会话传递信息,并探讨其潜在风险。

  • 发现了LLM中隐式记忆的存在,无需显式记忆模块即可跨会话传递信息
  • 提出了基于隐式记忆的时间炸弹后门攻击,展示了其潜在危害
2026-02-09
7/10
稀疏嵌入 对比学习 模型优化

CSRv2: Unlocking Ultra-Sparse Embeddings

Lixuan Guo, Yifei Wang, Tiansheng Wen et al.

CSRv2通过改进训练方法,使超稀疏嵌入在保证性能的同时,显著提升计算和存储效率。

  • 提出渐进式k-退火稳定稀疏学习
  • 引入监督对比目标增强表征质量
2026-02-05
7/10
优化器 Muon 联想记忆

Muon in Associative Memory Learning: Training Dynamics and Scaling Laws

Binghui Li, Kaifei Wang, Han Zhong et al.

论文研究了Muon优化器在联想记忆学习中的训练动态和缩放规律,揭示其优于梯度下降的原因。

  • 证明了Muon在无噪声情况下比梯度下降快指数级
  • 推导了噪声情况下Muon的优化缩放律,并证明其优于梯度下降
2026-02-05
7/10
tabular data compression foundation model

End-to-End Compression for Tabular Foundation Models

Guri Zabërgja, Rafiq Kamel, Arlind Kadra et al.

提出TACO模型,通过压缩训练数据集在潜在空间中加速和压缩tabular foundation model。

  • 提出了一种端到端表格数据压缩模型TACO
  • 实现了更快的推理速度和更低的内存消耗
2026-02-05
8/10
ArkTS 代码检索 数据集

ArkTS-CodeSearch: A Open-Source ArkTS Dataset for Code Retrieval

Yulong He, Artem Ermakov, Sergey Kovalchuk et al.

构建了大规模ArkTS代码检索数据集与基准,并进行了模型微调,提升了ArkTS代码理解能力。

  • 构建了大规模开源ArkTS代码检索数据集
  • 设计了基于自然语言注释的代码检索任务
2026-02-05
9/10
LLM Training Memory-Centric Architecture CPU Offloading

Horizon-LM: A RAM-Centric Architecture for LLM Training

Zhengqing Yuan, Lichao Sun, Yanfang et al.

Horizon-LM通过CPU主导的架构,突破GPU内存限制,实现单节点大规模LLM训练。

  • 提出CPU主导的内存中心化LLM训练架构
  • 消除GPU常驻模块和自动微分图
2026-02-04
9/10
信息检索 数据标注 LLM

AIANO: Enhancing Information Retrieval with AI-Augmented Annotation

Sameh Khattab, Marie Bauer, Lukas Heine et al.

AIANO通过AI辅助标注,显著提升了信息检索数据集的创建效率和质量。

  • 开发了AIANO:一个AI辅助标注工具。
  • 提出了AI增强的标注流程,结合人工和LLM的优势。
2026-02-04
9/10
Weight Tying Language Model Training Stability

Rethinking Weight Tying: Pseudo-Inverse Tying for Stable LM Training and Updates

Jian Gu, Aldeida Aleti, Chunyang Chen et al.

提出伪逆权重绑定(PIT),通过共享的潜在token记忆同步embedding和unembedding,提升训练稳定性和语义一致性。

  • 提出Pseudo-Inverse Tying (PIT)权重绑定方法
  • 设计正交共享记忆和可学习的对称正定变换
2026-02-04
7/10
Machine Unlearning Conformal Prediction Generative Models

Inference-time Unlearning Using Conformal Prediction

Somnath Basu Roy Chowdhury, Rahul Kidambi, Avinava Dubey et al.

提出一种基于Conformal Prediction的推理时免训练卸载框架,提升卸载性能并提供保证。

  • 提出了推理时卸载框架,无需模型参数更新
  • 利用Conformal Prediction减少计算开销
2026-02-03
9/10
LLM 上下文压缩 信息传输

Context Compression via Explicit Information Transmission

Jiangnan Ye, Hanqi Yan, Zhenyi Shen et al.

ComprExIT通过显式信息传输实现高效LLM上下文压缩,解决了传统自注意力压缩的局限性。

  • 提出ComprExIT框架,解耦压缩和LLM内部自注意力。
  • 引入深度和宽度方向的信息传输机制。
2026-02-03
6/10
OCR 文档解析 土耳其语

OCRTurk: A Comprehensive OCR Benchmark for Turkish

Deniz Yılmaz, Evren Ayberk Munis, Çağrı Toraman et al.

OCRTurk是一个土耳其语文档解析基准,包含多种文档类型和难度等级,评估了七个OCR模型。

  • 提出了OCRTurk土耳其语文档解析基准
  • 覆盖多种文档类型和布局元素
2026-02-03
9/10
RAG 土耳其语 检索增强生成

RAGTurk: Best Practices for Retrieval Augmented Generation in Turkish

Süha Kağan Köse, Mehmet Can Baytekin, Burak Aktaş et al.

该论文构建了土耳其语RAG数据集,并评估了不同RAG流程的性能,优化土耳其语RAG系统。

  • 构建了土耳其语RAG数据集
  • 评估了不同RAG流程在土耳其语上的性能
2026-02-03
9/10
RAG 强化学习 检索器优化

Reinforcement Fine-Tuning for History-Aware Dense Retriever in RAG

Yicheng Zhang, Zhen Qin, Zhaomin Wu et al.

提出了一种基于强化学习的历史感知稠密检索器微调方法,优化RAG管道的检索性能。

  • 提出了基于强化学习的检索器优化方法。
  • 使用随机抽样代替确定性检索,使检索器可以通过RL优化。
2026-02-03
7/10
量化 后训练量化 模型压缩

MatGPTQ: Accurate and Efficient Post-Training Matryoshka Quantization

Maximilian Kleinegger, Elvir Crnčević, Dan Alistarh

MatGPTQ提出了一种高效的后训练Matryoshka量化方法,实现了单模型多精度部署。

  • 提出MatGPTQ:一种新的后训练Matryoshka量化流程
  • 引入跨位误差补偿,优化多精度目标
2026-02-03