Retrieval-Augmented Question Answering over Scientific Literature for the Electron-Ion Collider
该论文构建了一个基于本地LLaMA模型的Electron-Ion Collider (EIC) 领域RAG问答系统。
- 构建了本地部署的EIC相关文档RAG系统
- 使用开源LLaMA模型进行答案生成
共 170 篇论文
该论文构建了一个基于本地LLaMA模型的Electron-Ion Collider (EIC) 领域RAG问答系统。
Neuro-RIT通过神经元引导的指令微调,增强检索增强语言模型在噪声环境下的鲁棒性。
提出了一种基于强化学习的重排序偏好优化框架RRPO,提升RAG中检索结果的生成质量。
ARQuest利用LLM和另类数据构建个性化保险问卷,提升用户体验并简化流程。
研究表明,检索增强能在一定程度上弥补小模型的能力不足,但模型容量对复杂推理仍然重要。
LSCP通过自验证方式,使模型学习新知识并修正已有知识,避免死记硬背。
annbatch加速生物大数据集机器学习训练,优化数据加载瓶颈,提升训练效率。
提出AWARE框架,通过任务对齐的检索提升表格数据上下文学习在电子病历临床风险预测中的鲁棒性。
该论文系统评估了多种检索策略在文本和表格混合金融文档上的RAG系统性能,并提出了优化建议。
论文提出Multiscreen架构,通过筛选机制实现绝对Query-Key相关性,减少参数和推理延迟。
研究发现LLM的上下文学习中,归纳头对时间依赖性处理和序列回忆行为至关重要。
提出了一种基于成本惩罚适应度的MoE管理方法,实现了LLM在领域自适应中的“分子记忆”效应。
SCT方法通过截断SVD和Stiefel流形QR回缩,显著降低LLM训练的内存消耗。
研究预训练数据量和检索数据量之间的权衡,为RAG系统的数据分配提供指导。
提出了Tucker Attention,一种广义的近似注意力机制,在降低参数量同时保持性能。
ContextClaim通过引入外部知识,提升可验证声明检测的性能,并在不同数据集和模型上进行了评估。
提出一种参数高效、稳定且轻量级的预训练LLM,用于时间序列预测。
RAAP通过检索增强和对齐学习,提升机器人未知环境下的物体动作预测能力。
ECR通过最小化答案假设熵,动态选择证据,解决RAG中知识不确定性问题。
WriteBack-RAG提出了一种可训练的知识库方法,通过证据提炼和回写增强RAG性能。
论文提出统一的内存视角分析概率可信AI,揭示随机采样对内存效率的影响,并评估新兴计算架构。
提出一种安全的联邦RAG系统,在保护隐私的同时实现分布式知识检索和远程LLM推理。
论文提出自适应分块框架,基于文档内在指标选择最佳分块策略,提升RAG性能。
提出一种知识引导的检索增强生成框架,用于生成保护隐私的精神科合成数据。
针对AI政策RAG系统,研究发现检索性能提升不保证问答质量提升,甚至可能导致更强的幻觉。
论文评估了不同chunking策略在油气企业文档RAG中的表现,发现结构感知chunking效果较好,但P&ID处理能力不足。
该论文研究了RAG系统中查询群组公平性问题,发现RAG会放大不同群组间准确率的差异。
PERMA基准测试个性化记忆代理,关注事件驱动的偏好演变和真实任务环境。
针对EDA领域,论文提出了RAG微调方法,并设计了新的评估指标,验证了小模型的有效性。
提出一种记忆增强的推理框架,利用检索到的上下文,以小模型实现高效的AI Agent推理。
ProGRank通过扰动梯度分析重排序,有效防御RAG系统的语料库投毒攻击。
EchoKV提出了一种基于相似性重构的高效KV缓存压缩方案,支持标准和压缩推理之间的灵活切换。
提出了指数加权签名(EWS),通过引入更丰富的记忆动态来改进传统签名,并提升了时间序列数据的建模能力。
DyMoE提出一种动态混合精度量化框架,优化MoE模型在边缘设备上的实时推理性能。
DaPT框架通过双路子问题图和双语检索提升多语言多跳问答的RAG性能。
提出HCQR框架,通过假设引导的查询重写提升RAG在决策任务中的表现。
MANAR通过记忆增强注意力机制和抽象概念表示,实现线性时间复杂度的全局信息整合,提升模型性能。
D-Mem是一种双过程记忆系统,通过质量门控策略平衡效率与准确性,提升LLM Agent的长期推理能力。
提出一种基于领域知识的多层检索验证架构,用于缓解LLM的幻觉问题。
论文提出Knowledge Objects (KOs)作为LLM持久记忆方案,解决传统in-context learning的不足。
提出ARAM框架,通过信噪比自适应调整检索增强掩码扩散模型中的引导尺度,提升知识密集型问答性能。
CLeAN提出了一种自适应归一化方法,用于解决持续学习中数据分布变化的问题,提升模型性能并缓解灾难性遗忘。
Spotify提出了GLIDE,一种基于语义ID的生成式检索模型,用于大规模播客发现。
提出L2A层,通过条件性长程记忆访问扩展LLM上下文长度,提高效率并降低内存占用。
ZipServ通过硬件感知的无损压缩,加速并降低LLM推理的内存占用。
Chronos提出了一种时间感知的对话记忆框架,通过结构化事件检索增强LLM在长期对话中的性能。
论文评估了RAG中一致性事实性过滤的可靠性和实用性,揭示了其在分布偏移下的脆弱性。
论文研究了LLM预训练中量化优化器状态的问题,提出了状态重置的有效策略。
BenchPreS评估LLMs在不同语境下对个性化偏好的选择性应用能力。
VQKV通过向量量化实现KV缓存高压缩率和高保真度,显著提升LLM在资源受限环境下的部署能力。
SlideFormer系统通过异构协同设计,实现了在单GPU上高效微调超大语言模型。
IndexRAG通过离线构建桥接事实,提升跨文档推理的检索增强生成效果,无需额外训练。
提出一种冻结LLM的持续性内存方法,在受限资源下实现对话学习。
SmartSearch通过简单的排序方法,在对话记忆检索任务上超越了复杂的结构化方法。
论文针对大语言模型在同主题知识编辑中泛化性不足的问题,提出RoSE方法提升模型指令跟随能力。
提出一种“设计即遗忘”的机器卸载新范式,通过密钥删除实现高效、零样本的遗忘能力。
提出延迟后门攻击(DBA),利用时间维度作为新型攻击面,通过延迟触发实现隐蔽性。
AdaFuse通过token级别预选和融合kernel优化加速动态adapter推理。
构建中文法律RAG基准Legal-DC,提出LegRAG框架,提升法律检索与生成性能。
QChunker通过多智能体辩论学习问题感知的文本分块,优化领域RAG。
研究了部分RoPE对Transformer性能的影响,发现小比例RoPE即可达到与完整RoPE相近的效果,并显著节省内存。
系统性研究LLM伪相关反馈,揭示反馈源和反馈模型对效果的影响,提供设计指导。
LookaheadKV通过预测重要性得分,无需生成草稿即可实现快速准确的KV缓存淘汰。
CacheSolidarity通过监控和选择性隔离,防御LLM多租户环境下的缓存侧信道攻击,提升性能。
提出了一种端到端的自动chatbot评估方法,降低人工评估成本并提高可扩展性。
该论文提出了一种基于查询多样性和多阶段生成pipeline的RAG系统,并在 SemEval-2026 Task 8 中取得优异成绩。
MSSR通过估计样本记忆强度自适应地进行经验回放,有效缓解了LLM持续微调中的灾难性遗忘。
MITRA是基于RAG的AI助手,专为大型物理实验合作中的知识检索而设计,注重隐私和性能。
评估LLM在食品营养RAG系统中检索数据的能力,发现其在复杂查询中存在挑战。
该论文探讨了LLM参数知识与上下文知识之间的相互作用,以及如何解决知识冲突问题。
提出了一种名为RwF的Transformer架构,通过能量模型的关联检索层实现在线持续学习中的动态路由。
TaSR-RAG利用分类指导的结构化推理进行检索增强生成,提升多跳问答效果。
提出TA-Mem框架,通过工具增强的自主记忆检索,提升LLM在长程对话问答中的表现。
LycheeCluster通过结构感知分块和分层KV索引,高效处理长文本上下文的LLM推理。
POET-X通过改进正交等价变换,降低了LLM训练的内存消耗和计算开销。
DEBISS语料库:一个包含口语、个人辩论和半结构化特征的辩论语料库,具有丰富的NLP任务标注。
FlashAttention-4针对Blackwell GPU架构,优化Attention机制,提升计算效率。
论文提出一种基于信息流的KV缓存重计算方法,优化长文本检索增强生成。
针对时序预测,提出了一种无需训练、基于 regime 感知的 RAG 框架 RAG4CTS,并成功应用于工业场景。
LocalSUG利用LLM解决本地生活服务查询推荐的地理位置、偏好和效率挑战。
提出ProStream框架,解决无限对话流中的有界状态记忆和即时回忆问题,并构建STEM-Bench评估。
研究Transformer量化中激活异常值导致精度下降问题,并分析多种缓解策略的有效性和硬件部署的影响。
该论文表明,文档表征质量而非检索器本身是RAG性能提升的关键,并呼吁分解评估。
VietNormalizer是一个开源的越南语文本规范化Python库,专为TTS和NLP应用设计。
提出一种类型感知的RAG方法,利用依赖闭包生成可执行的工业优化模型,提升模型编译成功率。
FEAST提出了一种检索增强的多层次食物分类框架,提升FoodEx2系统中小样本分类的性能。
研究了Transformer、SSM和混合架构在上下文检索任务中的性能差异和优势。
提出一种可控的广义神经记忆系统,通过自然语言指令指导模型选择性学习和记忆。
InnerQ提出了一种硬件感知的KV缓存量化方案,旨在降低解码延迟并保持精度。
MTRAG-UN是一个多轮RAG对话评测基准,用于评估模型在不可回答、不明确等问题上的表现。
PRAC通过主成分-随机子空间分解激活,实现LLM训练中激活压缩和内存优化。
UPipe通过头级别分块实现高效上下文并行,显著降低Transformer的激活内存占用,支持更长上下文。
论文提出了一种通信高效的张量并行化方法,用于加速选择性状态空间模型在大规模GPU上的推理。
RMIT-ADM+S团队提出R2RAG,一种动态调整检索策略的RAG架构,并在NeurIPS 2025竞赛中获奖。
DSMR模型通过分层记忆调度,实现资源受限下的长序列音乐建模。
提出一种用于电商搜索的分级相关性优化的“Mine and Refine”对比学习框架,提升检索效果。
提出了基于e-value的水印框架,实现了LLM生成内容的高效、可随时停止的统计水印检测。
论文提出KG-RAG框架,结合知识图谱与检索增强生成,提升LLM在电信领域的准确性和可靠性。
论文审计LLM对个人数据的关联性,发现模型能生成高准确度的个人信息,并引发用户对数据隐私的关注。
PEACE 2.0工具利用RAG生成证据支撑的反仇恨言论解释和回复。
该论文综述了大型语言模型(LLMs)和检索增强生成(RAG)对Web研究和应用的影响。
RPDR通过回环预测选择易学数据,增强检索器在长尾问答中的表现。
通过简化和改进Mamba-2,论文提出了一种高效且精度接近softmax attention的模型2Mamba。
WebFAQ 2.0发布,扩展了多语言FAQ问答数据集,并提供硬负例用于训练稠密检索模型。
提出了一个GPU加速、内存高效的SoftDTW PyTorch库,解决了现有实现的长度限制、数值不稳定和内存消耗问题。
提出REFINE框架,通过强化学习优化Fast Weight模型,提升长文本建模能力。
该论文提出了一种基于检索增强的基础模型,用于药物化学中匹配分子对转化,提升了药物设计的效率和可控性。
论文提出两种检索增强生成方法,用于从聚合物文献中提取知识,并构建可信赖的材料科学助手。
Quecto-V1是一个针对印度法律领域,使用8比特量化的专用小型语言模型,实现了高效的本地部署。
MMA通过动态评估检索到的记忆可靠性,提升多模态Agent在复杂环境中的表现。
该论文研究了低比特量化感知训练,发现K-Means量化在1比特时性能最佳。
提出一种结合模型蒸馏和任务特定对比损失的训练方法,提升小型嵌入模型的性能。
提出了一种基于参数高效微调LLM和回译的文本风格迁移方法。
提出漂移-扩散匹配框架,使非对称RNN能在低维潜在空间中表示任意随机动力系统。
提出了LongAudio-RAG框架,利用事件检测结果而非原始音频进行RAG,提升长音频问答性能。
AttentionRetriever利用注意力机制和实体检索,构建上下文感知嵌入,提升长文档检索性能和效率。
论文研究了压缩表征在RAG中信息溢出的问题,并提出了检测方法,以提高长文本处理能力。
提出了一种基于记忆整合的自适应计算缩减方法,通过动态减少冗余注意力计算提高效率。
提出一种新的query-focused的memory-aware reranking框架,在多个数据集上超越SOTA。
SafeNeuron提出了一种神经元级别的安全对齐框架,增强LLM的安全性与鲁棒性。
CitiLink-Minutes是一个欧洲葡萄牙市政会议记录的多层注释数据集,旨在促进NLP和IR在该领域的应用。
构建了大规模孟加拉语图书知识图谱数据集,并进行了推荐模型基准测试。
Meta-Sel提出了一种基于监督元学习的高效演示选择方法,用于上下文学习中的意图分类。
该论文提出了两种结构化的线性循环网络架构,通过更丰富的状态混合提高表达能力并保持效率。
RAM-Net通过可寻址稀疏内存提升线性注意力模型的表达能力和检索精度,同时保持计算效率。
提出一种基于Token级别归因的查询重写方法,提升神经检索器的性能。
ULTRA是针对低资源乌尔都语的自适应语义推荐框架,通过双嵌入和查询长度感知路由提升推荐效果。
MiniCPM-SALA通过混合稀疏和线性注意力机制,在长文本建模中实现了高效的性能和内存效率。
论文提出了pplx-embed系列多语言嵌入模型,利用扩散预训练模型提升检索性能,并在多个benchmark上取得优异结果。
提出3D-Flow架构和3D-FlashAttention方法,加速Transformer模型,降低能耗并提升速度。
TREC 2025 RAGTIME 旨在评估多语言环境下报告生成的性能,涵盖多语言信息检索任务。
该论文提出ARGUS方法,通过预先识别并修复检索盲点来提升RAG系统的检索效果。
论文系统比较了多种RAG方法在多轮对话QA中的表现,发现简单方法通常优于复杂方法。
GitSearch通过识别信息缺失并检索相关信息,提升社区笔记的生成效果。
提出了基于福利函数的近邻搜索算法,提升检索结果的多样性,并兼顾相关性。
QUOKA是一种面向查询的KV选择算法,通过减少KV对数量加速LLM推理,同时保持精度。
LU-KV通过优化头级别缓存分配,减少KV缓存大小,降低推理延迟和显存占用。
该论文揭示了LLM中一种名为“隐式记忆”的新机制,允许模型跨会话传递信息,并探讨其潜在风险。
该论文提出KV-CoRE方法评估LLM中KV-cache的数据依赖低秩可压缩性,并进行了大规模基准测试。
论文针对LLM在建模与仿真应用中的常见问题提供实用指南,强调设计选择和评估。
针对企业代码库,提出基于语义范围的LLM自动定制方法,提高代码补全质量和开发者效率。
CSRv2通过改进训练方法,使超稀疏嵌入在保证性能的同时,显著提升计算和存储效率。
该论文评估了基于WMD和词嵌入的相似度计算方法在信息检索中的有效性,并验证了其优越性。
CompactRAG通过离线知识库构建和在线高效推理,显著降低多跳问答中的LLM调用和token消耗。
论文研究了Muon优化器在联想记忆学习中的训练动态和缩放规律,揭示其优于梯度下降的原因。
论文提出一种基于强化学习和细粒度知识验证的RAG方法,缓解金融领域的幻觉问题。
提出了基于分块的低成本RAG架构CE-RAG4EM,用于提升实体匹配效率。
提出TACO模型,通过压缩训练数据集在潜在空间中加速和压缩tabular foundation model。
构建了大规模ArkTS代码检索数据集与基准,并进行了模型微调,提升了ArkTS代码理解能力。
提出了基于tournament graph的LLM zero-shot reranking框架,提高了效率和准确率。
Horizon-LM通过CPU主导的架构,突破GPU内存限制,实现单节点大规模LLM训练。
提出一种基于风电场集群数据的WMF-CPK-MSLMU短期风速预测集成模型。
研究了长文本上下文学习在低资源机器翻译中的应用,揭示了其有效性限制和语料类型敏感性。
提出STM框架,通过合成数据、提示优化和模型合并,高效提升LLM在生物医学检索任务上的性能。
SAR-RAG通过语义搜索和图像检索增强MLLM,提升合成孔径雷达图像的目标识别精度。
论文提出一种基于稀疏注意力机制的SDAG方法,用于防御RAG中的知识投毒攻击。
AIANO通过AI辅助标注,显著提升了信息检索数据集的创建效率和质量。
提出伪逆权重绑定(PIT),通过共享的潜在token记忆同步embedding和unembedding,提升训练稳定性和语义一致性。
基于机器学习和增强XRD数据预测钙钛矿晶体结构。
提出一种基于Conformal Prediction的推理时免训练卸载框架,提升卸载性能并提供保证。
ComprExIT通过显式信息传输实现高效LLM上下文压缩,解决了传统自注意力压缩的局限性。
OCRTurk是一个土耳其语文档解析基准,包含多种文档类型和难度等级,评估了七个OCR模型。
NAtS-L提出了一种token级别的混合注意力机制,自动选择线性或softmax注意力。
该论文构建了土耳其语RAG数据集,并评估了不同RAG流程的性能,优化土耳其语RAG系统。
提出了一种基于强化学习的历史感知稠密检索器微调方法,优化RAG管道的检索性能。
研究对抗性解释如何增强成员推理攻击,并提出差分隐私和主动学习结合的防御框架。
EA-GraphRAG通过语法分析自适应地结合RAG和GraphRAG,提升了知识密集型任务的准确性和效率。
HySparse通过全注意力层引导稀疏注意力,有效减少计算和内存开销并提升性能。
MatGPTQ提出了一种高效的后训练Matryoshka量化方法,实现了单模型多精度部署。
通过微调中间主成分,LoRA方法在性能和遗忘之间实现了更好的权衡。