Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning
提出Batched Contextual Reinforcement方法,提高LLM推理效率和准确率,发现任务规模效应。
- 提出Batched Contextual Reinforcement训练范式
- 发现任务规模效应,提升推理吞吐量
共 586 篇论文
提出Batched Contextual Reinforcement方法,提高LLM推理效率和准确率,发现任务规模效应。
提出用户回复生成作为探测LLM交互意识的方法,发现交互意识与任务准确率解耦,可通过后训练提升。
De Jure提出了一种全自动的监管规则结构化抽取方法,无需人工标注,并能有效提升抽取质量。
提出DDCD框架,利用扩散模型的目标函数学习因果结构,解决高维数据下的可扩展性和稳定性问题。
生成式AI凸显数据科学的人本核心,教育应聚焦人类推理能力。
研究情绪化提示对大语言模型的影响,发现其影响较小且依赖于具体任务,自适应情绪提示更有效。
论文提出Trace Inversion方法,通过比较原始查询和重构查询,提高LLM的拒答能力。
论文提出了一种轻量级、模型无关的token重要性可视化方法,用于理解LLM对prompt信息的处理方式。
该论文从理论和实验上证明了深度能够有效提升RNN的记忆容量和表达能力。
该论文提出L3TR框架,通过块注意力、位置编码和ID采样,提升LLM在人才推荐中的效果并减轻位置偏差。
该论文提出了一种基于文本频率的LLM优化框架,包括文本频率律、蒸馏和课程学习方法。
研究软件提及共指消解中,词汇和上下文方法在噪声下的性能差异及效率。
该论文研究了LLM作为时间序列解释的生成器和评估器的可行性,并构建了合成数据集进行评估。
该论文提出了一种更可靠的控制向量选择方法,提高了大语言模型推理能力。
GOOSE提出一种训练无关的自适应spine树结构,用于加速LLM推断中的推测解码。
WISE通过思考压缩实现高效推理,显著减少推理长度,同时保持了优秀的零样本分割性能。
综述性论文,全面介绍了语言模型中潜在空间的基础、演变、机制、能力和未来展望。
提出一种无需训练的零样本LLM生成文本检测方法$k$NNProxy,通过$k$NN检索实现代理模型对齐。
提出Apriel-Reasoner,通过可复现的RL后训练方法,提升通用推理能力并降低推理成本。
SAFE框架通过KG验证的逐步反馈纠正LLM多跳推理中的错误,提升推理的可靠性和准确性。
论文提出了SenseMath基准,评估LLM的结构敏感数值推理能力,发现LLM缺乏人类般的数字感知。
Qiana是一种量化上下文和公式的时序一阶逻辑框架。
YOCO-U结合YOCO和递归计算,提升LLM的推理深度和效率,同时保持低开销和全局KV缓存。
LAPIS-SHRED利用浅层循环解码器,从稀疏时序数据中重建时空动态。
论文构建了AI天气预测的完整学习管线理论框架,并验证了其重要性。
RELISH提出一种轻量级迭代状态头用于文本回归,优于现有方法且参数效率高。
大语言模型在推理前已做出决策,推理过程倾向于合理化既定选择。
ORCA框架通过在线校准采样过程提高LLM推理效率和泛化能力,降低计算成本。
研究表明,LLM在不同上下文环境中,推理过程会显著缩短,影响自我验证行为。
Brainstacks提出了一种模块化的持续学习架构,通过冻结MoE-LoRA堆栈实现跨领域认知能力。
利用掩码扩散模型OptoLlama进行光学薄膜逆向设计,性能优于现有方法。
SKINNs:将结构化知识嵌入神经网络,提升金融建模和经济参数估计效果。
论文研究了在蛋白质互作网络中使用组合结构嵌入进行生物功能预测的有效性。
MARS-GPS通过多链思考投票和代码验证,显著提升大语言模型在几何问题求解上的推理能力。
PIRL框架通过显式最大化迭代间的策略改进,提出了自纠正的策略优化方法PIPO。
提出了EmoScene基准测试多维情感理解,并使用贝叶斯推理改进情感预测。
论文揭示LLM在简单字符计数任务中内部正确计算但输出错误,源于后期层负电路抑制。
AfrIFact数据集促进非洲语言的自动事实核查研究,揭示了跨语言检索和LLM在多语言事实验证方面的挑战。
论文研究奖励函数对CoT监控能力的影响,提出对齐、正交和冲突三种类型,并通过实验验证了冲突奖励会降低CoT监控能力。
YARN框架利用LLM提取故事结构抽象,提升了机器在叙事中类比推理的能力。
提出Think-Anywhere,一种在代码生成过程中按需进行推理的新机制,提升了LLM的性能和可解释性。
该论文探索了大型语言模型在数学物理计算中的能力,成功求解了多个自旋链模型的Bethe Ansatz解。
该论文研究了德语ESG报告的可读性,通过众包标注和模型评估,找到了预测人类可读性的最佳模型。
AMShortcut是一种高效生成模型,用于无定形材料的逆向设计,提升推理和训练效率。
DUME通过动态组合领域专家模型,无需额外训练即可构建多任务MoE模型,提升性能。
ReTriP是一个端到端生成框架,将逆合成路线规划转化为直接的CoT推理任务,并在长程规划中表现出色。
提出一种从概率分布中提取一阶公式的方法,以减少存储空间并提高稀疏性。
KEditVis通过交互式可视化辅助用户理解和优化LLM的知识编辑流程,提升编辑效果。
论文提出“概念挫败”框架,旨在对齐人类概念与机器学习模型内部表征,提升可解释性。
DeToxR模型通过强化学习优化LLM,融合非结构化数据和医疗数据,提升中毒诊断准确性。
论文研究如何评估LLM评分的可信度,提高自动化评分的可靠性。
提出一种更紧凑的列车装载优化模型,降低了计算复杂度并提高了求解效率。
提出PRoSFI方法,通过形式化验证中间步骤提升LLM推理的可靠性,同时保持准确性。
论文提出使用token-level perplexity分析LLM是否基于正确的语言线索进行预测,揭示模型可能依赖非预期启发式。
评估LLM在医疗咨询中对不规范患者行为的反应,并提出了相应的评估基准。
评估LLM生成事前授权信函的能力,发现临床内容强但行政支撑薄弱,尚不能直接用于实际应用。
该论文研究了随机森林和梯度提升树等树集成模型的严格、逻辑自洽的可解释性。
线性探针和稀疏自编码器在组合泛化上失败的原因是字典学习的不足,而非推断方法。
利用GPU加速和混合精度优化Transformer模型,实现实时推理并降低内存占用。
提出一种基于物理的神经网络框架,用于学习完全耦合的热力学本构模型,保证热力学相容性。
提出了一种基于物理信息的冲击识别框架,可实现更稳定、数据效率更高的冲击识别。
提出了MonitorBench,一个用于评估大型语言模型CoT可监控性的综合基准。
比较三种T-范数算子在欧盟AI法案合规分类神经符号推理系统中的性能。
提出ECGPD-LEF框架,利用ECG诊断概率预测低左心室射血分数,兼顾性能和可解释性。
该论文提出一种用于大规模知识图谱补全的检索-重排序模型,在WikiKG90Mv2数据集上取得了显著提升。
探讨AI缩放定律的有效性,分析其背后的逻辑和对未来效率提升的意义。
提出一种保留歧义的自然语言到时序逻辑转换方法,解决自然语言歧义性问题。
大型语言模型在低可观测性和高可观测性领域存在能力与解释脱钩的现象,挑战传统认知。
EvidenceNet构建疾病特定知识图谱,增强生物医学推理和假设生成能力。
分析K-12教育中数据素养的学习路径,提出数据范式框架并构建学习轨迹。
论文提出了一种基于能量最小化的结构化隐空间轨迹推理方法,并解决了训练中的分布不匹配问题。
DongYuan框架通过LLM解决中西医结合的脾胃病诊断难题,并构建了高质量数据集和评估基准。
该研究探讨了LLM的数学问题解决能力与其评估学生解题步骤准确性的能力之间的关联性。
提出了规则-事实(RAF)模型,用于研究神经网络的泛化和记忆能力。
提出一种非参数工具变量回归的保形预测方法,保证有限样本覆盖率。
EcoThink提出了一种节能自适应推理框架,降低LLM推理过程中的能源消耗并提升可持续性。
Causal-INSIGHT提出了一种从时间序列预测模型中提取因果结构的框架。
提出一种无需标注数据的跨模型差异性方法,用于评估语言模型的正确性。
论文研究对称感知机的教师-学生模型,分析了噪声影响下的学习过程和相变。
TAPO通过翻译增强策略优化,提升LLM在多语言数学推理中的性能,解决语言理解不足问题。
该论文提出一种设计时验证框架,在训练前验证AI模型的数值稳定性、计算正确性等。
论文提出推理安全的概念,并设计监控器实时检测LLM推理过程中的错误。
使用因果推断评估ICU出院策略,旨在优化干预时长和患者预后。
GlowQ通过组共享低秩近似优化量化LLM,提升推理速度和精度。
通过分析算术谜题,揭示了谜题难度与结构属性之间的关系,用于提升自适应学习系统。
提出了一种利用LLM作为token压缩和解压缩器的新方法,实现显著的token数量缩减和高效的长文本处理。
提出WWHO架构和SGPE算法,优化Abugida文字的LLM分词效率,降低Token Tax。
DAGverse构建框架,利用科学论文提取文档级的语义DAG,并发布了包含108个DAG的数据集。
提出了FRED指标评估极低资源机器翻译,揭示性能差异受训练数据质量和预训练影响。
自蒸馏有时会降低LLM的推理能力,主要是因为抑制了模型在推理过程中的不确定性表达。
Mechanic提出了一种基于sorry驱动的分解方法,提高了自动化定理证明的效率。
论文探讨了如何将因果机器学习融入临床决策支持系统,提出了设计原则和实践特征。
OneSearch-V2通过增强推理和自蒸馏,显著提升了生成式搜索的性能和用户体验。
利用大语言模型评估幼儿师生互动质量,提高评估效率并实现常态化监测。
针对跨文档软件指代消解,提出一种混合框架,结合语义嵌入、知识库查询和密度聚类。
提出一种基于量子卷积神经网络的混合量子-经典偏微分方程求解框架,利用量子计算加速。
提出基于因果推断的多重图解耦表示学习框架CaDeM,提升图表示的泛化性和可解释性。
KCLNet提出了一种面向模拟电路的图表示学习框架,通过电路定律约束提升泛化能力。
提出DGO框架,通过外部经验库和内部知识双重引导,提升LLM在RLVR训练中的利用和内化能力。
该论文提出了概念层面的知识追踪任务,并构建了ConceptKT数据集,用于预测学生知识缺陷。
EMoT是一种受生物启发的层级推理框架,结合休眠机制和记忆编码,用于复杂多领域问题。
使用RAG的LLM进行伊斯兰继承份额计算和继承人分配。
LLM在性别推断中违反了上下文不变性,即使在语法结构相似的情况下也会出现偏差。
研究软件演化下,LLM生成测试用例的鲁棒性和对语义变化的适应性。
GEM模型通过能量匹配解决图生成中采样问题,达到或超过扩散模型的性能。
论文提出了一种基于对比度度量学习的点云分割方法,用于高粒度探测器中的粒子簇分割。
WISTERIA模型通过弱隐式信号和注意力机制,提升了时间关系抽取性能并增强了解释性。
该研究比较了多种机器学习模型在重庆市气温和相对湿度小时预测中的表现,XGBoost表现最佳。
论文构建了一个学习理论框架,用于研究学习器、记忆和评估条件随时间变化的学习场景。
提出了连续权重核密度估计方法,解决低数据量下的加权一致性异常检测问题。
SIDReasoner通过增强SID-语言对齐和结果驱动的强化优化,提升生成式推荐中的推理能力。
针对大语言模型安全监控的脆弱性,提出激活水印防御自适应攻击。
利用张量网络傅里叶方法高效压缩非高斯分布,加速风险计算。
研究表明,脑对齐对于LLM的语言能力至关重要,脑失调会导致下游任务性能显著下降。
该论文批判了表格数据生成领域对扩散模型的过度依赖,并提出了基于概率电路的替代方案。
该论文评估了LLM在受约束优化问题(电力系统最优潮流问题)上的推理和优化能力,发现现有LLM表现不佳。
论文提出利用聚合算子改进牙科记录的人员身份识别方法,提高了识别准确性和可解释性。
论文评估成员推断攻击(MIAs),发现其在现实条件下是较弱的隐私威胁,可能导致过度防御。
FinTradeBench是一个金融推理基准,评估LLMs在公司基本面和交易信号上的推理能力。
Nemotron-Cascade 2是一个30B MoE模型,通过级联强化学习和多领域知识蒸馏实现卓越的推理和Agent能力。
论文提出Box Maze框架,通过显式过程控制提高LLM推理的可靠性,减少对抗条件下的边界失效。
评估大语言模型在反事实博弈中的策略推理能力,揭示其在策略泛化和激励敏感性方面的局限性。
论文提出一种优化语言模型分裂训练的方法,通过计算分配提升模型在特定领域的性能。
D5P4是一种基于行列式点过程的并行离散扩散解码方法,旨在提升生成文本的多样性。
SHAPCA结合PCA降维和SHAP解释光谱数据机器学习模型,提供一致且可解释的特征重要性分析。
HOLMES模型结合在线推理和层级贝叶斯,实现了序列数据中层级结构的发现和学习。
研究基于LLM的二进制分析中,隐式token级模式如何组织探索过程。
研究了推理语言模型中并行采样方法对不确定性估计的影响,发现混合信号表现最佳。
MoRI框架通过动机驱动的推理,提升大语言模型在科学构思方面的技术深度和科学依据。
提出了一个轻量级的AI模型推理可验证框架,通过采样和统计特性降低了证明开销。
该论文提出了一个多语言时间推理基准,分析了token化和时间表示对LLM时间推理的影响。
CBRL通过注入示范提升强化学习探索效率,在多种推理任务上验证有效性。
论文提出了一种新的意识形态框架,超越了传统的左右划分,用于更细致地分析社会话语。
论文研究链式思考中不确定性轨迹形状对LLM推理可靠性的预测能力。
利用基于模拟的推理(SBI)方法,提升在地球结构不确定性下的矩张量反演结果的可靠性。
提出一种新的Neural Galerkin Normalizing Flow框架,近似扩散过程的转移概率密度函数。
论文提出Authority-Level Priors (ALPs)概念,解决分层预测处理中身份调节机制不足的问题,并提出可验证的预测。
论文提出了一个数学对象推理的框架,包括数据集、训练方法和测试时聚合策略,显著提升了LLM在数学领域的表现。
该论文探讨了ChatGPT等生成式AI如何表示和推理地理知识,并提出了三个启发性问题。
Mi:dm K 2.5 Pro是一个针对企业级复杂场景优化的32B韩语LLM,具备卓越推理能力。
提出基于视觉-文本交错推理的几何问题求解框架,并引入强化学习策略优化模型。
Δ-DRESS算法通过顶点删除在同构图检测中表现出色,超越3-WL算法。
该论文研究Decoder-only模型在机器翻译中存在的性别偏见问题,并提出一种新的评估指标。
提出CARE方法,通过协方差感知和秩增强分解,优化多头潜在注意力转换,提升模型性能。
提出RAMP,一种基于强化学习的自适应混合精度量化方法,提高LLM在资源受限设备上的推理效率。
该论文研究了LLM如何计算verbal confidence,揭示了其automatic、sophisticated的自我评估机制。
FLAIR模型通过潜变量推理模拟人脑边听边思考的机制,提升全双工对话系统性能。
论文研究了利用语言模型从文本推断舞台布局,并提出了一种训练和评估方法。
提出了一种利用信息增益自动生成CoT推理步骤标签的方法,用于提升LLM推理的可靠性和效率。
研究了Transformer模型在Dropout下的鲁棒性,揭示模型架构对稳定性的影响。
CoVerRL通过生成器-验证器协同进化,解决了无标签推理中的共识陷阱问题。
抑制性归一化误差信号能显著提升神经网络在图像识别任务中的学习性能。
提出了一个基于LLM的论文评价框架CNPE,通过比较进行论文质量排序,提升评价的鲁棒性和泛化性。
SYRAN是一种基于符号回归的无监督异常检测方法,可生成人类可读的方程进行异常检测。
FoMo-X框架通过模块化解释性信号,提升了异常检测基础模型的可解释性和可靠性。
提出CIRL框架,结合流行病学结构和数据驱动的时间表示,估计时变再生数。
研究PCA在高维几何设计参数估计中的局限性,并提出改进方法以实现准确的参数估计。
AirDDE通过神经延迟微分方程建模空气质量预测中的延迟效应,显著提升了预测精度。
研究神经算子(NOs)在FitzHugh-Nagumo模型中捕捉时空动态的平移不变性,并评估不同NOs架构的性能。
Baguan-TS利用3D Transformer和上下文学习,提升了带协变量的时间序列预测性能。
该论文揭示了视频生成模型中推理能力涌现的新机制——Chain-of-Steps,并分析了相关行为。
该论文提出了一种轻量级方法,利用LoRA适配器和强化学习,使小型LLM能够在边缘设备上进行高效推理。
该论文提出了一套稳定可扩展的并行牛顿法,用于解决序列计算的并行化难题,并提供了理论保证。
InCoder-32B是首个面向工业场景的32B参数代码大模型,在工业领域基准测试中表现出色。
pADAM是一种多物理场学习的通用生成框架,可实现跨异构偏微分方程的统一推理。
该论文研究了大型语言模型中存在的文化偏见,通过歌词作者身份推断评估其文化倾向。
提出一种基于贝叶斯模型的 IAT 分析方法,用于预测精神健康相关指标。
GeMA利用变分自编码器学习潜在流形边界,用于复杂系统效率评估和基准测试。
论文研究了LLM在阿拉伯语词法句法标注和依存句法分析任务上的表现,并分析了其优势与不足。
提出了结合几何和分类的Finsler度量,用于轨迹推断,提升了在合成和真实数据上的插值性能。
提出自适应马尔可夫模型,通过重掩码和自适应步数提升离散推理能力。
研究了低资源机器翻译中,利用语言相关性进行LLM上下文学习的有效性。
Omanic:一个多跳QA数据集,用于评估LLM推理过程中的中间步骤表现,包含合成和人工标注数据。
研究LLM在模拟进行中的地缘政治冲突中的推理能力,缓解数据泄露问题。
利用概率单纯形的几何特性,提出一种共轭且校准的多类高斯过程分类模型。
该论文研究了无监督RL提升LLM数学推理能力,并揭示其成功和失败的原因。
EmoLLM通过情境评估和认知情感共推理框架,提升大语言模型在对话中的情感智能。
论文提出RecencyQA数据集,用于评估LLM在时间敏感问题上的表现,关注答案时效性和上下文依赖性。
FEAT提出了线性复杂度的结构化数据基础模型,通过混合线性编码提升性能并加速推理。
研究发现LLM在schema引导推理中,中间结构对最终输出的因果影响较弱,更多作为上下文信息。
提出了一种基于模糊规则和深度学习的、可解释的射电天文数据处理机器学习工作流。
该论文利用XGBoost和SHAP值,结合DeepSeek解释,构建了个性化肺癌药物反应预测模型。
利用Transformer和LLM构建车辆故障诊断的预测、发现和推理框架。
MoDA通过混合深度注意力机制解决LLM深度扩展中的信号衰减问题,提升模型性能。
HorizonMath提出了一个自动验证数学发现能力的基准,并发现了GPT的潜在新贡献。
论文揭示LLM存在道德冷漠问题,并提出通过重构潜在表示来改善道德推理。
该论文提出一种有效的知识蒸馏方法,用于将Transformer LLM提炼到xLSTM架构上,并取得较好效果。
Mamba-3通过改进状态空间模型,提升了序列建模的性能和效率。
论文研究LLM在生成迷惑选项时模拟学生错误推理的能力,并分析其策略和失败模式。
InterveneBench基准测试LLM在真实社会系统干预推理和因果研究设计的能力,发现现有LLM表现不佳,并提出STRIDES框架。
提出了一个用于近最短路径路由的级联混合专家模型,提升稀疏网络路由精度。
该论文提出信息论框架分析LLM推理,强调不确定性外部化对推理能力的重要性。
该论文深入研究了LLM在表格理解中的内部机制,并分析了不同模型的表现差异。
SFCoT通过主动安全评估和校准,提升LLM在推理过程中的安全性,有效抵抗对抗性攻击。
更大beam size可能损害LLM推理性能,论文分析了过估计偏差问题并提出了最佳beam size选择方法。
提出Dependency-Oriented Sampler (DOS)解码策略,利用token间依赖关系优化Masked Diffusion Language Models的生成。
PYTHEN是一个基于Python的灵活法律推理框架,易于使用和扩展。
xplainfi是一个R包,提供多种特征重要性方法和统计推断,增强机器学习模型的可解释性。
PRISM提出了一种可扩展的基于模拟的模型推断方法,可在测试时控制模型复杂度。
SAGE提出一种多智能体自进化框架,提升LLM在数学和代码生成方面的推理能力。
提出HindSight框架,通过未来影响评估AI生成研究想法的质量,揭示了LLM评估与实际影响的差异。
论文提出基于JLS XML架构连接日韩法律数据,并进行跨国法律条文对比研究。
提出Attention Residuals和Block AttnRes,用注意力机制替代传统残差连接中的固定权重累加,提升模型性能。
研究了推理LLM作为裁判在不可验证领域对LLM进行后训练的实际影响和潜在问题。
Idea-Catalyst框架通过LLM驱动跨学科灵感,促进科研创新。
TopoBench基准测试评估LLM在拓扑推理难题上的能力,发现LLM在空间约束提取方面存在瓶颈。
研究LLM隐私审计,发现LLM会泄露个人信息,并提出改进隐私审计的建议。
该论文提出了一种基于TCN的多标签学习框架,用于识别转录因子结合位点。
SFI通过解耦快慢推理步骤,在长文本生成中加速推理,无需额外训练。
论文分析了基于PFN的因果推断方法的一致性问题,并提出了校准方法。
提出基于Voronoi图的概率电路,提升几何建模能力并保持可推理性。
论文提出了CoMMET,一个多模态、多轮对话的ToM评估基准,并评估了LLM的ToM能力。
Bielik-Minitron-7B通过剪枝和知识蒸馏压缩Bielik-11B模型,提升波兰语性能。
提出了CreativeBench基准测试,用于评估和提升机器的代码生成创造力。
提出了BaVarIA攻击,统一了LiRA、RMIA和BASE,并在低shadow-model预算下提升了成员推理攻击效果。
深入分析Wikidata限定词的语义和用法,构建分类体系,优化知识图谱查询。
提出ForwardFlow,一种基于深度学习的仅模拟统计推断方法,利用神经网络学习参数估计。
该论文研究了测试时缩放场景下推理LLM的排序问题,并提出了Scorio库。
提出分子结构检索的选择性预测框架,通过不确定性估计提高预测可靠性。
LLM2Vec-Gen提出一种新的自监督方法,通过学习LLM的潜在输出来生成高质量文本嵌入。
PharmGraph-Auditor通过混合知识图谱和验证链,提升处方审核的安全性和可追溯性。
提出DPS方法,通过预测学习动态来选择信息量大的prompt,加速LLM的RL finetuning。
SNPgen提出了一种基于条件潜在扩散的表型监督合成基因型生成框架。
提出了多语言推理环境Multilingual Reasoning Gym,可生成14种语言的推理问题。
提出了一种基于动力学信息的深度学习框架,用于预测高维混沌系统中的极端事件。
提出了mAceReason-Math,一个高质量的多语言数学问题数据集,用于强化学习与可验证奖励。
提出HIR-SDD,结合大型音频语言模型和人类推理,提升语音深度伪造检测的鲁棒性和可解释性。
该论文评估并提升波兰语LLM Bielik的推理能力,提出了评估方法并分析了其与其它LLM的对比。
提出条件期望奖励CER,利用LLM自身作为隐式验证器,提升LLM在通用推理任务中的性能。
该论文研究表明,对于道德推理任务,奖励最大化方法与多样性匹配方法相比,并没有显著劣势。
研究Transformer在上下文学习中如何进行隐式统计推断,并发现其近似似然比检验。
利用生成式AI的图像优化能力,可有效绕过现有深度伪造检测方法。
提出了CREATE基准,用于评估LLM的联想创造力,通过路径生成衡量概念间的连接。
研究发现LLM通过推理能够提高诚实度,与人类直觉相反,并解释了其内在机制。
推理能解锁LLM的参数知识,即使对于单跳问题,推理也能提升知识回忆,但可能引入幻觉。
利用上下文强化学习,通过证据增益隐式监督推理质量,提升大语言模型的推理能力。
论文通过“不透明串行深度”量化了LLM进行外部化推理(如CoT)的必要性。
论文使用模拟推断改进中微子相互作用模型的参数估计,提升实验精度。
World2Mind工具包通过构建空间认知地图提升多模态模型在三维空间推理方面的能力。
提出EsoLang-Bench,利用冷启动的冷门语言评估LLM的真正推理能力。
提出了一个基于GNN的时间序列异常检测开源框架,并对GNN在该领域的应用进行了评估。
FreqCycle通过多尺度时频分析,提升时间序列预测的准确性和效率。
利用XLA优化Mamba-2,实现跨平台O(1)状态缓存和高效推理,无需手写CUDA/Triton内核。
GeoSolver通过可验证的过程监督强化学习,提升遥感图像理解中VLMs的推理能力。
通过忠实释义进行潜意识学习,即使内容相反,教师模型的偏好也会传递给学生模型。
论文提出“第三实体”概念,分析人-AI交互中涌现的新认知模式“Vibe-creation”,及其对教育和认知的影响。
VMoER通过变分推理建模MoE层路由选择的不确定性,提升了模型校准性和鲁棒性。
该论文揭示了LLM在道德推理中易忽略常识矛盾的现象,并发现了叙事焦点偏差。
论文提出一个数据驱动框架,用于预测增材制造中零件表面的粗糙度并实现交互式可视化。
提出了AI金融智能基准AFIB,评估了多个LLM在金融分析任务中的表现,SuperInvesting表现最佳。
CODA通过难度感知的计算分配,动态调整推理深度,提高推理效率。
OfficeQA Pro:一个评估AI Agent在企业级环境中进行文档推理的基准测试。
提出一种基于神经网络的结构保持算子推断方法,用于动力系统的降阶建模。
论文提出基于条件信息瓶颈(CIB)的LLM推理压缩方法,提升效率并保持精度。
SYNAPSE是一个免训练框架,用于分析和压力测试Transformer模型内部神经元行为。
GCOS提出一种几何约束的异常值合成方法,提升深度神经网络的OOD鲁棒性。
LLM具有行为可塑性,可通过token条件生成和强化学习进行调控,实现行为模式切换。
该论文研究了循环Transformer和记忆模块在提升语言模型推理能力上的作用,以及它们的组合效果。
该论文研究了语言模型在条件句中处理预设问题的能力,发现模型主要依赖浅层模式匹配。
论文提出用结构化的哈达玛变换替代多头注意力中的密集输出投影,提升效率。
CORE-Acu通过神经符号方法提升中医决策支持的可解释性和安全性。
论文比较了嵌入、微调和LLM三种方法,用于预测词义在短故事中的合理性。
CoFiCot提出了一种自适应的粗到细推理框架,动态调整LLM的推理策略。
SERQ提出了一种用于LLM量化的、基于显著性感知的低秩误差重构方法,有效提升低精度下的模型性能。
提出了一个基于异构数据的工业维护决策支持框架,利用LLM进行证据驱动的推理。
RexDrug利用强化学习增强LLM推理,用于抽取复杂药物组合关系。
TIER通过构建和利用文本富网络的层次结构,提升节点表示学习效果。
提出了一种基于信息熵的Taylor剪枝方法,提升大语言模型剪枝后的性能,无需额外教师模型。
揭示了推理模型中存在的表演性CoT现象,并提出了检测和缓解方法。
论文提出了一种不依赖检索的LLM事实核查方法,并通过实验验证了其有效性和泛化能力。
提出一种针对医学表格数据的可解释原型部件神经网络,兼顾精度和可解释性。
该论文探索了使用低参数LLM通过推理驱动的微调策略实现高性能词义消歧。
论文提出Judge Reliability Harness,用于评估LLM判定的可靠性,发现不同模型在不同基准测试中表现差异大。
综述性论文,探讨生成式AI合成数据在统计推断中的应用,分析其优势、局限与使用原则。
ProRes提出了一种渐进式残差预热方法,通过调整层级预热顺序,提升语言模型预训练的稳定性与收敛速度。
DiSCTT利用共识引导的自步学习提升大模型在推理中的测试时自适应性能。
提出几何感知量化框架GAQ,在保证SO(3)等变性的前提下,实现GNN模型压缩和加速。
X-RAY使用形式化探针分析LLM的推理能力,揭示其在约束处理上的非对称性。
发布了首个大规模越南语招聘广告数据集,并评估了LLM在招聘任务上的表现。
SlideSparse解锁稀疏张量核心加速,提升(2N-2):2N稀疏模式下LLM推理速度。
论文提出通过词汇表裁剪来平衡覆盖率和延迟,从而加速推测解码。
将形式逻辑提炼到神经空间,用核对齐方法高效学习信号时序逻辑的连续神经表示。
扩散LLM通过填充EoS token进行隐藏计算,从而提升复杂推理能力。
提出了一种基于有限状态转换器(FST)的通用语言模型转换框架,用于适应特定输出需求。
Logi-PAR通过可微规则将逻辑推理融入病人活动识别,提升临床安全和可解释性。
论文提出Sparse-BitNet,结合1.58-bit量化与N:M稀疏化,提升LLM效率并加速训练和推理。
C2-Faith基准测试评估LLM作为CoT推理判断器的因果和覆盖完整性。
该论文理论分析了Transformer中类比推理的涌现,揭示了表征对齐对推理能力的重要性。
论文建立了循环图神经网络和循环算术电路在计算能力上的精确对应关系。
提出双向课程生成框架,通过多智能体自适应调整问题难度,提升LLM数学推理的数据效率。
GELO是一种轻量级LLM混淆方法,通过动态混合隐藏状态,保护推理过程中的prompt隐私。
针对多语言多领域DimABSA任务,提出一种融合微调编码器和LoRA调优LLM的高效方法。
SELDON是一个用于预测稀疏天文光变曲线的连续时间变分自编码器,可加速超新星的发现。
该论文提出了一种用于推理的图检索和反思提示的三阶段系统,并在SemEval-2026任务中取得了第一名。
提出V1框架,通过成对排序统一生成和自验证,提升复杂推理任务中的性能和效率。
论文提出概率导航架构,通过热力学训练使状态空间模型具备架构自知能力,实现高效停止预测。
对波兰语11B模型进行极端的2-bit量化方法比较,并公开模型和数据。
研究表明LLM在心理理论测试中表现出与模型大小、训练方式相关的社会认知能力。
FINEST通过细粒度评估提升LLM在敏感话题上的安全性和有用性。
该论文提出了一种基于激活的监控方法,用于在生成过程中检测大型语言模型的奖励劫持行为。
论文提出一种无需重训练的推理时方法LDA,用于降低蛋白质语言模型生成毒性蛋白的风险。
提出了一种多维度LLM推理质量评分框架,并应用于去中心化推理网络的质量评估。
论文构建了范畴论深度学习的余代数基础,并提出了一个通用的逼近定理。
该论文调研了神经符号人工智能领域任务导向的进展,旨在提升模型的可解释性和推理能力。
DynFormer通过动力学信息指导Transformer,显著降低求解PDE的计算成本和误差。
Odin是一种用于知识图谱中自主发现有意义模式的图智能引擎。
论文提出了一种基于指令调优LLM和紧凑提示的论证成分检测新方法,将ACD重构为生成任务,性能优于现有技术。
论文提出PURE框架,通过选择与用户偏好一致的证据,生成更可信的推荐解释。
提出一种因果推断的广义贝叶斯框架,提供对因果效应的可靠不确定性量化。
提出了一种步骤级稀疏自编码器(SSAE),用于解析LLM推理过程,提取步骤级别的稀疏特征。
利用稀疏自编码器分析单细胞模型,揭示其内部知识组织但缺乏调控逻辑。
论文提出SEAL框架,通过多基准测试驱动的方式,用于评估LLM推理过程中的碳排放量。
提出ShipTraj-R1,利用GRPO优化LLM进行船舶轨迹预测,效果优于现有方法。
提出GraphSSR框架,通过自适应子图去噪提升LLM在零样本图学习中的推理性能。
论文探索了无需自回归生成即可从LLM内部表征中提取数值预测分布的方法。
提出了可解释的多项式学习(IPL)时间序列预测方法,在精度和可解释性之间取得平衡。
该论文提出一个将LLM、论证挖掘、量化推理和描述逻辑相结合的框架,用于分析辩论。
通过输入的不变变换重采样降低认知不确定性,从而提高AI模型推理精度。
该论文证明AGM信念修正逻辑包含KM信念更新逻辑,并缩小了两者在处理非惊讶信息上的差异。
论文分析了扩散语言模型并行解码退化为自回归的原因,并提出一种数据驱动方法NAP提升并行解码性能。
SC-ARENA提出了一种知识增强的单细胞生物学LLM评估框架,统一评估并克服传统指标的局限性。
理论分析微调对线性注意力模型上下文学习的影响,提出保留上下文学习的微调方法。
论文提出一种约束优化框架训练深度状态空间模型,并提出EKVAE模型,在系统辨识和预测方面表现优异。
NoRA通过引入非线性机制,突破LoRA的线性瓶颈,提升参数效率,在复杂推理任务中表现更优。
ReMix通过连续空间优化缓解DLLM并行解码中的语义矛盾,显著提升推理速度。
论文提出了一种利用QA-SRL框架,通过跨语言迁移实现多语言语义角色标注的方法。
研究上下文对LLM道德决策的影响,发现LLM在道德选择上易受引导且存在反常现象。
FlexMS是一个用于评估代谢组学中深度学习质谱预测工具的灵活基准框架。
论文提出AttriWiki自监督数据管道,训练探针以识别LLM输出的知识来源,提高模型可信度。
该论文研究如何提升语言模型在推理过程中访问自身参数知识的能力,并提出基于强化学习的训练方法。
DySCO通过动态调整注意力权重,提升长文本语言模型在长上下文推理任务中的性能。
该论文提出了一种基于逻辑的XAI方法,增强Framingham风险评分的透明度和可解释性。
提出一种基于置信度的多尺度模型选择策略,以降低LLM推理成本并保持准确率。
提出了混合事件模型Mixed-SuStaIn,用于疾病进展和亚型建模,可处理离散和连续数据。
RADAR通过判别式学习提升LLM在知识图谱推理中的泛化能力和鲁棒性。
大型语言模型在算法理解和推理方面存在系统性缺陷,表现为“算法盲目性”。
针对Hinglish文本,微调的DistilBERT模型在反讽检测中优于大型语言模型。
提出一种强化学习方法,联合优化句子分解质量和验证器对齐,提升复杂声明验证性能。
研究如何扩展LLM在长代码上下文中的应用,着重关注位置编码和注意力机制的优化。
D-CoT通过控制标签约束CoT过程,提升小模型推理效率和性能并减少token消耗。
该论文利用LLM生成解释来提升隐式篇章关系识别的性能和可解释性。
Persona4Rec利用离线LLM推理构建可解释的用户画像物品索引,加速推荐系统。
fEDM+框架通过可解释性模块和多元验证,改进了原fEDM框架的伦理决策过程。
提出Explore-on-Graph框架,通过强化学习鼓励LLM在知识图谱上自主探索推理路径,提升推理能力。
研究表明Pass@k优化可能导致Pass@1性能下降,揭示了prompt干扰导致的梯度冲突。
提出Sequential Counterfactual Framework,解决时间序列临床数据反事实推断问题。
该论文提出了一个评估大语言模型前瞻性风险意识的框架,并使用Butterfly数据集进行了生态环境领域的实验。
论文提出了一个关注基于案例推理的FOL数据集,并分析了LLM在此类问题上的表现差距。
提出transcoder adapters,用于理解推理模型微调前后MLP计算差异,并应用于Qwen2.5-Math-7B和DeepSeek-R1-Distill-Qwen-7B。
提出了一种验证LLM数学解题能力的流水线方法,包括自动和交互式验证。
提出OP-GRPO框架,使LLM在无显式提示下生成多元化视角回复,提升了视角覆盖度和模型性能。
该论文提出了一种基于深度展开MCMC核的GAN架构,用于高效、模块化和可解释的高维后验采样。
提出一种显式语法语义特征融合方法,用于构建轻量级的鲁棒文本分类模型。
构建大规模城市时空基础模型,实现跨城市、跨任务的零样本泛化。
CAMEL通过置信度门控反射和反事实增强,提升奖励模型的准确性和效率。
SpecMind提出了一种基于反馈迭代的多轮交互框架,用于生成更准确和完整的程序后置条件。
JUCAL算法联合校准分类模型集合中的不确定性,提升预测可靠性并降低计算成本。
LAD通过学习优势分布解决LLM推理中奖励信号过拟合问题,提升推理能力和生成多样性。
提出选择性思维链(Selective CoT)方法,在保证准确率的同时,提高医学问答效率。
论文提出了一种分布无关的DLM解掩码策略,自适应数据依赖结构,加速采样过程。
Qwen 32B模型展现了检测概念注入的能力,揭示了模型潜在的自省能力和可控性。
研究表明,非自回归离散扩散模型通过利用规划任务的不对称性,在lookahead规划任务上表现优于自回归模型。
论文建立了随机网络蒸馏(RND)与深度集成和贝叶斯推断的理论等价性。
提出一种免训练的Replicate-and-Quantize方法,用于动态平衡SMoE模型推理时的负载,提高效率。
提出了一种基于全卷积时空模型的深度学习框架,用于加速和高精度预测材料微观结构演变。
提出了Watson & Holmes侦探游戏新基准,评估人类和LLM在自然情境下的推理能力。
提出DSDR框架,通过双尺度多样性正则化增强LLM推理中基于强化学习的探索,提升推理性能。
提出ODRL约束的指称语义,用于知识库驱动的策略冲突检测,提升跨数据空间互操作性。
针对ODRL策略约束中多维属性的歧义性,提出了基于轴分解的解决方案。
针对扩散语言模型,提出了一种能够识别并剪枝不稳定注意力汇聚点的Sink-Aware剪枝方法,提升了推理效率。
HIPE-2026评估多语言历史文本中准确高效的Person-Place关系抽取,支持历史数据处理下游应用。
提出了一种弱强验证框架,用于平衡LLM推理的成本和可靠性,并设计在线算法控制错误。
该论文揭示了波斯语LLM在理解文化习俗和推理方面存在的严重不足。
提出了基于常微分方程(ODE)的LLM对齐新框架ODESteer,提升了对齐效果。
MASPO通过统一梯度利用、概率质量和信号可靠性,提升LLM推理的鲁棒性和样本效率。
论文提出可重用性和可验证性两个指标,用于评估CoT推理质量,揭示了现有评估方法的盲点。
radVI算法通过优化径向轮廓改进变分推断,提升高维分布近似的准确性。
该论文研究了小型LLM在意大利语医疗NLP任务上的表现,并比较了多种优化策略。
Jolt Atlas是一个基于查找参数的零知识ML框架,适用于模型推理。
该论文提出了一种降低LLM在多项选择题基准测试中偏见的评估方法,提高了模型的鲁棒性。
AIDG框架评估LLM在多轮对话中信息提取与包含的不对称性,揭示其推理瓶颈。
研究表明,在多选题中,更易被想到的选项更有可能是正确答案,可用于建模学生行为。
MedClarify通过迭代提问增强医学LLM的诊断能力,减少诊断错误。
该论文详细介绍了从原始arXiv LaTeX数据训练小型科学语言模型的完整流程和经验。
提出一种量化和缓解LLM在问卷评估中社会期望偏差的方法,并用强制选择问卷减少偏差。
CounterFlowNet利用GFlowNet生成高质量且满足约束的反事实解释,提升了解释的有效性、稀疏性和多样性。
TAPO-DL扩展了描述逻辑,通过程序和Oracle形式化信息行为的动态过程。
提出一种可解释的时间污染检测框架,用于评估LLM在回测中是否存在知识泄露,并提出TimeSPEC方法降低泄露。
该论文提出利用隐私保护的LLM推理来实现廉价且可验证的推理,降低验证开销。
利用大语言模型和扩散模型,结合晶体对称性约束,实现更精确的晶体结构预测。
论文强调因果关系在LLM可解释性研究中的重要性,并提出诊断框架以提升研究结果的泛化能力。
SynthBH方法利用合成数据提升FDR控制的多重假设检验效率。
SPARC通过神经符号方法提升LLM在C语言单元测试生成中的性能。
论文提出了基于范畴论的因果抽象通用框架,统一了多种因果抽象概念,并拓展到量子模型。
该论文提出BT-sigma模型,通过判断LLM判决可靠性,提升LLM评估NLG质量的准确性。
提出了一种利用模型更新序列进行更强的成员推理攻击的方法SeMI*。
研究了扩散模型在二次奖励函数下的采样问题,并分析了其计算复杂性。
ParlaCAP数据集用于分析欧洲议会政治议程,提出了一种低成本的领域特定主题分类方法。
FoT框架通过动态优化链、树、图推理,提升大语言模型的效率和效果。
该论文研究了深度学习在LC-MS/MS数据分析中使用的损失函数对分子指纹预测和分子检索的影响,揭示了两者之间的权衡。
CALMs通过条件加性局部模型,在GAMs和GA^2Ms之间取得了预测精度和可解释性的平衡。
论文统一了LLM中循环和深度增长两种迭代计算方法,并证明了它们之间的互补性。
利用LLM作为不完美的专家,结合因果ABA框架进行因果发现,并提出评估协议。
IndicEval是一个评估LLM在印度教育场景下多语言能力的评测框架。
研究表明,LLM公平性对齐在单一属性上优化可能导致其他属性的偏差加剧,存在偏差溢出效应。
论文提出了一种基于人工智能和物理约束的XRD结构精修方法WPEM,提升了衍射数据分析的准确性和效率。
论文对比了IG和SHAP两种XAI方法在化工过程故障检测LSTM分类器中的应用,并分析了其有效性。
探讨Gromov-Wasserstein距离的稀疏性、极值结构和单调性,并与线性最优传输对比。
该论文探讨了使用LLM模拟人类行为的有效性,提出了启发式方法和统计校准两种策略。
逐层近似验证的不可组合性:即使每层计算误差可控,整体输出误差可能不可控。
论文展示了在抗辐射FPGA上实现低延迟机器学习应用,并扩展hls4ml工具以支持此类FPGA。
提出了递归概念演化(RCE)框架,通过动态修改LLM内部表征几何来提升组合推理能力。
STAPO通过屏蔽稀疏token梯度更新,稳定强化学习过程,提升LLM推理能力。
研究在线气候变化讨论中冲突性言论的成因和互动模式,重点分析对话结构的影响。
统一RNN和DNN的特征学习理论,揭示权重共享对网络功能的影响。
提出DKP-PC算法,通过直接反馈对齐加速预测编码网络的训练,提高效率和可扩展性。
提出SquRL框架,利用强化学习动态构建Text-to-SQL工作流,提升复杂和分布外查询性能。
提出了基于条件熵惩罚自编码器(CEPAE)的时间序列反事实推断方法。
ExpertWeaver利用GLU激活模式将稠密LLM转化为高效MoE,无需训练且性能优于现有方法。
提出一种基于多臂老虎机理论的LLM评估优化方法,动态分配计算资源以降低评估误差。
该论文研究了多模态LLM在视觉规划任务中链式思考(CoT)推理的泛化能力,发现文本模型优于图像模型。
TAROT提出了一种能力自适应的课程强化微调方法,提升LLM的代码生成能力。
论文研究了在KD45个体信念下,共同信念的逻辑刻画问题,并给出了完备的公理化描述。
提出了一种基于强化学习和知识蒸馏的跨域新闻推荐方法,提升兴趣建模和推荐性能。
研究混合动态领域中实际因果关系,提出两种主因定义并证明其等价性。
论文提出了一种将因果信息融入因果基础模型(CFMs)的方法,提升模型性能。
BFS-PO算法利用最佳优先搜索策略,缩短大型推理模型的推理链,提高准确率并减少冗余输出。
该论文提出通过对话式环境中的内省体验来提升AI学习,强调对话质量的重要性。
该论文深入分析了CoT推理轨迹,揭示其成功背后的潜在机制,并量化了CoT中各部分对最终答案的贡献。
提出了一种隐式学习的一阶关系概率推理框架,实现无需显式模型构建的概率查询。
论文研究了RLVR在复杂推理任务中的训练动态,揭示了数据难度谱对学习效果的影响。
Goldilocks RL通过动态调整训练难度,克服了强化学习在稀疏奖励下推理任务中的低效问题。
论文构建了巴斯克语的物理常识推理数据集BasPhyCo,并评估了LLM在低资源语言上的表现。
该论文提出了一个构建包含模式和事实的完整知识图谱数据集的流程,用于机器学习和推理。
论文从几何角度分析小模型幻觉问题,提出利用embedding空间聚类区分真实和虚假响应的方法。
该论文研究了大型语言模型推理能力在机器翻译中的应用,并提出了针对机器翻译的结构化推理框架。
通过在推理时循环重用Transformer模块,提升预训练语言模型的性能。
Qute提出了一种量子原生数据库,利用量子计算加速数据处理,并优化量子资源利用。
论文揭示了开放权重语言模型中预填充攻击的系统性漏洞,并进行了大规模实证研究。
提出GradMAP方法,通过梯度度量和投影补偿加速LLM层剪枝,提升剪枝速度和性能。
GenPANIS提出了一个用于多相介质PDE正逆问题的统一生成框架。
论文提出了一个大规模的Wikidata问答数据集WDQL,用于训练问答系统。
该论文评估了多个大型语言模型在医疗问答任务中的零样本表现,并比较了不同模型的性能。
论文提出XTF框架,通过解释性的token级噪声过滤提升LLM微调性能。
论文区分了LLM中幻觉和欺骗两种不同类型的错误,并提出了相应的分析框架。
该论文研究了多模态LLM在长链推理中因知识冲突导致的失败问题,并提出了诊断和控制方法。
论文提出一种受教学启发的知识蒸馏框架IOA,提升小模型在复杂推理任务上的性能。
论文扩展了QBBN模型,通过结合LLM和语法解析,实现了自然语言的逻辑信息检索,并提升了推理能力。
Sci-CoE通过几何共识和稀疏监督,提升LLM在科学推理任务中的鲁棒性和多样性。
dVoting利用dLLM的并行生成能力,通过投票机制提升推理能力,无需额外训练。
GPT-4o在理论推理(ToM)的核心能力上存在缺陷,缺乏一致且泛化的心理状态行为模型。
STAR框架融合统计与Agent推理,提升大模型性能预测在数据稀疏情况下的准确性和可解释性。
针对大语言模型推理冗余问题,提出自适应反射和长度协调惩罚机制,提升推理效率和准确率。
该论文探索了将Mamba-2算子融入递归推理模型的可行性,并验证了其在保持推理能力的同时具有性能提升。
通过注入行为模式引导大语言模型的推理过程,无需更新模型参数即可提升推理性能。
MEME模型将金融市场视为演化生态,通过投资叙事建模市场动态,优于现有方法。
提出一种基于LLM的财务报告三元组抽取流水线,并使用本体驱动代理指标进行评估。
提出Talk2DM,一个基于大语言模型的车辆-道路-云集成动态地图自然语言查询和常识推理模块。
提出了DeepFusionKernel,一种深度融合内核,优化Transformer中SwiGLU MLP块的内存带宽瓶颈,提升推理速度。
提出APST框架,通过重复推理测试评估LLM在持续使用中的安全性和可靠性。
论文提出Thinking with Drafting方法,通过领域特定语言连接视觉感知和逻辑推理,提高视觉推理的精确性。
提出SCF-RKL模型融合框架,通过稀疏互补融合和分布感知更新,有效提升模型融合效果。
重复训练在基于思维链数据的有监督微调中优于数据规模扩大,能提升大语言模型的推理能力。
TabICLv2通过新颖的合成数据生成和架构优化,在表格数据预测任务上超越现有模型。
SteuerLLM针对德国税法领域,通过领域数据训练,性能超越通用LLM。
提出RLCER,利用自进化规则强化LLM的CoT推理能力,无需人工标注且优于outcome-centric RL。
SynergyKGC通过拓扑感知协同机制解决知识图谱补全中的结构异构问题,提升推理性能。
VulReaD利用知识图谱引导LLM进行软件漏洞推理和检测,提升CWE覆盖和可解释性。
提出了Kalman Linear Attention(KLA),一种并行贝叶斯滤波方法,提升语言建模和状态追踪的效率与表达能力。
Macaron是一个多语言文化推理基准,旨在测试LLM在不同文化背景下的推理能力。
针对循环Transformer,论文提出Step-Decomposed Influence方法,分析训练数据对循环推理过程的影响。
提出Chain of Mindset (CoM)框架,自适应地选择认知模式进行推理,提升LLM解决问题的能力。
该论文提出了一种从模拟轨迹中发现高级模式,并用自然语言指导LM进行物理推理的方法。
ATTNPO利用模型注意力机制进行过程监督,有效减少推理冗余并提升性能。
论文研究了LLM在生成前从内部表征预测成功率,并利用此信号提升推理效率。
研究大学生使用AI辅助阅读的行为模式和认知参与度,发现效率驱动下的“AI阅读”现象。
研究LLM路由策略对用户行为的影响,揭示提供者与用户之间的潜在利益冲突。
提出QP-OneModel,一个统一的生成式LLM,用于小红书搜索中的多任务查询理解,提升搜索效果。
提出一种基于量子幅度估计的稳健CVaR计算方法,用于解决随机结构力学中的尾部风险问题。
利用LLM的推理能力预测其在教育对话分析中的预测正确性,提高自动化分析质量。
GloSA-sum通过拓扑数据分析实现全局结构感知,提升文本摘要的准确性和效率。
GHS-TDA通过构建全局假设图和拓扑数据分析,提升LLM推理的准确性和鲁棒性。
通过熵操作缓解Flow模型OOD检测中的似然悖论,提高OOD检测性能。
该论文发现LLM在搜索增强推理中存在知识整合衰减问题,并提出SAKE方法缓解该问题。
AlgoVeri提供了一个统一的基准测试,用于评估AI模型在Dafny、Verus和Lean中生成形式验证代码的能力。
提出iGRPO,一种基于自反馈的LLM推理优化方法,并在数学推理任务上取得了SOTA结果。
CausalT5K是一个诊断LLM因果推理缺陷的基准测试,旨在提升模型的可信赖性。
论文提出SimpliPy加速符号回归简化,提升了Amortized SR的效率和准确性。
论文利用LLM提升人道主义危机响应中地理位置提取的精度和公平性。
该论文提出一个统一的定性推理框架,研究了组合定性约束网络的可满足性判定及其复杂性。
FlexMoRE提出了一种灵活的混合专家模型,通过异构秩专家提升联邦训练大语言模型的效率和性能。
Kirin提出了一种整数和脉冲混合的SNN,实现了ANN到SNN的无损精度转换,并提高了时间和能源效率。
该论文提出了一种学习神经网络权重先验的方法,结合了贝叶斯深度学习和概率元学习。
PERSPECTRA是一个评估LLM处理多元观点的可扩展、可配置的基准。
PBLean将VeriPB的伪布尔证明导入Lean 4,通过反射实现验证和定理推导。
研究非凸约束下的MAP推断问题,提出了一种可扩展的消息传递算法和一种通用的约束MAP策略。
6G-Bench是一个用于评估6G网络中语义通信和网络推理的开放基准。
提出了PyAGC,一个全面的属性图聚类基准,旨在弥合学术研究与工业应用之间的差距。
论文通过实验和理论分析,探讨LLM在学习不可能语言方面的能力,并对Chomsky的观点提出新的见解。
提出一种基于压缩记忆和强化学习的LLM长文本推理框架,提升效率和扩展上下文长度。
提出Pre-hoc Sparsity方法,解决长文本推理中KV选择的后验偏差问题,提升推理效率和准确性。
DFlash提出了一种基于扩散模型的推测解码框架,显著加速LLM的推理过程。
通过自蒸馏将预训练语言模型转换为快速多token预测模型,无需额外组件。
针对在线广告场景,提出了一种基于停止随机游走的因果推断方法,用于评估长期广告效果。
提出动态滑动块调度DSB,优化Diffusion LLM的并行解码质量和效率,并提出DSB Cache加速。
TRIT通过整合翻译训练提升多语言长推理能力,无需额外数据,效果显著。
研究多语言LLM在价值观问题上的一致性,发现语言会影响LLM的回答。
提出基于正则化非对称校准的PTQ方法,通过连续舍入提高LLM量化性能。
FaithRL通过引入显式可信度奖励和隐式截断重采样,提升小型推理模型CoT推理的可靠性。
EuroLLM-22B是一个支持多种欧洲语言的大型语言模型,性能与同规模模型相当,并开源了数据和代码。
xList-Hate通过分解仇恨言论检测任务为多个概念性问题,提升了模型的鲁棒性和可解释性。
提出了一种可扩展的基于分数的变分贝叶斯深度神经网络后验推断方法,适用于大规模模型。
研究无分布假设下的双样本检验问题,并引入模糊TV距离进行推断。
CFRecs利用反事实图学习,为房地产用户提供可操作的推荐建议,优化用户目标。
BABE是一个生物学领域的新基准,旨在评估LLM的实验推理能力。
RRAttention提出了一种新颖的动态稀疏注意力机制,通过head round-robin采样实现高效长文本推理。
研究数据块模型中的精确恢复问题,提出了新的阈值刻画和算法。
NEX提出了一种无监督的CoT选择和模型排序框架,通过神经元激活模式识别探索与利用阶段。
LongR通过强化学习和密集奖励,提升LLM在长文本推理中的表现。
分析LLM推理过程中能源消耗,发现预填充影响解码,并提出抑制冗余生成降低能耗。
该论文分析了LLM推理中的能源效率,发现存在最佳效率区间,并提出了一个预测能源效率的模型。
提出了用于动态环境下的反应式异步概率推理框架Resin及高效实现Reactive Circuits。
论文揭示GRPO在探索和难度适应上的局限性,并提出改进算法A-GRAE。
提出RGCF-XRec,利用语言模型和协同过滤知识,实现可解释的序列推荐,提升效果和效率。
提出了一种人机协作的LLM知识图谱问答框架,提升知识图谱的可访问性和准确性。
SDFP提出了一种无需训练、即插即用的LLM加速框架,通过FIT剪枝构建draft模型。
提出了基于最优传输的跨架构模型融合框架,实现大模型知识向小模型的有效迁移。
提出OD-CRL框架,优化条件表示学习中的基向量并抑制干扰,提升任务性能。
SciDef提出一个基于LLM的pipeline,用于从学术文献中自动提取定义,并评估了不同prompting策略和指标。
提出一种上下文感知的儿童语言评估框架,关注扩展性和独立性,优于传统长度指标。
即使LLM拒绝生成假新闻,CoT推理过程也可能包含不安全内容,需关注潜在风险。
分解提示不能弥补知识差距,但能帮助模型表达“我不知道”。
分析线性注意力模型低秩现象,提出硬件感知结构化剪枝方法,减少模型状态大小。
研究表明,推理模型通过上下文token表示的动态调整实现抽象结构信息的有效处理和问题解决。
论文反驳了AI能力呈指数增长的观点,提出AI能力增长可能已过拐点,并构建复杂模型进行论证。
论文研究了如何训练LLM在时间问答中学会拒绝回答,并利用RL优化其推理能力。
推理能力能在一定程度上减少大语言模型中内隐的社会偏见。
LinGO利用语言图优化LLM,提升在线不文明言论意图识别准确性。
LLM模拟人类对虚假信息的易感性时,高估了态度影响,忽略了社交网络的作用。
论文改进因果根因分析方法,应用于时变系统异常检测,尤其针对能源系统峰值避免问题。
GenRM只追求结果准确性导致欺骗性对齐,本文提出Rationale一致性指标并改进训练方法。
QUATRO通过直接强制执行信任域约束,实现LLM策略优化的稳定和可控。
RexBERT针对电商领域,利用高质量数据和训练方法,构建高效的BERT模型。
论文研究了基于特征的自动议论文评分,提升了评分的解释性和教育实用性。
本文提出了一种TabPFN的不确定性分解框架,并验证了其有效性。
LycheeDecode通过混合头稀疏解码加速长文本LLM推理,提升速度和质量。
提出一种离线权重更新方法C-Δθ,用于选择性拒绝,无需推理时干预。
ReThinker通过置信度引导的反思和工具使用,显著提升了LLM在复杂科学推理任务上的性能。
论文利用虚拟斑马鱼环境,结合LLM进行神经活动机制模型的自动发现与验证。
论文研究了微领域自适应预训练(mDAPT)在生成任务中的潜力和瓶颈,并揭示了其在知识获取方面的有效性。
提出了一种基于贝叶斯PINN的线性逆问题求解方法,可量化不确定性。
提出一种基于内部节点的A/B测试估计器,并使用预测器进行偏差校正,提升网络干扰下的测试效果。
Swordsman提出了一种基于熵驱动的自适应分块解码框架,提高了扩散语言模型的效率和性能。
评估大型语言模型在临床推理中存在的性别偏见,发现不同模型存在稳定的性别偏向。
TrajFusion通过融合错误轨迹和反思提示,提升LLM数学推理能力。
提出了GBMPO框架,探索Bregman散度在LLM推理策略优化中的应用,显著提升数学推理和代码生成性能。
CEITNet通过笛卡尔局部环境张量网络高效预测高阶晶体张量。
提出Parallel-Probe框架,通过2D探测优化并行推理,实现效率与准确率的平衡。
该论文展示了Gemini模型在科学研究中的应用,并总结了人机协作的有效方法。
提出了CROSS-ALIGN+框架,提升基于meme的社交恶意信息检测效果,并增强模型可解释性。
论文提出FINCH框架,自适应融合音频和时空信息,提升生物声学分类性能。
提出一种在计算预算下控制LLM推理风险的框架,优化计算效率。
提出核代理模型,用于高效准确地评估训练任务对目标任务的影响,优于线性模型。
RC算法通过迭代解码,利用LLM的生成和总结能力,实现推理链的持续改进,提升模型在长推理任务上的性能。
UniGeM通过几何探索统一数据混合和选择,提高LLM训练的数据效率。
扩散语言模型通过联合预测未知token进行推理,本文探究了隐变量token的作用,并将其引入自回归模型。
提出了SCOPE和REACH两种新的EHR生成模型估计器,显著降低了计算成本和抽样方差。
提出了ID-MoCQA,一个用于评估LLM文化理解能力的大规模多跳印尼文化问答数据集。
SemanticSpec通过语义感知的推测解码,提升LLM推理效率,尤其在长链推理中表现突出。
Search-R2通过Actor-Refiner协作,结合混合奖励,提升了搜索集成推理的性能。
本教程定义了信息检索中的推理,构建统一分析框架,促进跨学科合作,提升IR系统的推理能力。
论文提出了一种Trust Region Entropy(TRE)方法,提升LLM在强化学习中的探索能力。
Phys-Instruct通过物理引导的蒸馏,加速扩散模型求解偏微分方程,并提升物理一致性。
提出一种基于回归投影和批量差异的模拟推断方法,加速参数推断并分析其局限性。
EHRWorld模型通过在临床数据上训练,显著提升了LLM在长期医疗模拟中的稳定性和准确性。
论文提出一种新的单步逆合成基准测试框架,并使用化学合理性指标ChemCensor评估LLM的性能。
研究LLM在代码、图和自然语言等表示之间的泛化能力,并提出一种两阶段数据课程。
WARP逻辑神经网络通过高效学习硬件原生逻辑块组合,降低训练成本,提高推理速度。
提出PNS方法,通过合成高质量负样本来提升LLM的推理能力。
FaithRL通过最大化步骤级忠实度来提升LLM多步推理的可靠性,降低幻觉率。
提出了一种基于路径似然优化的扩散LLM解码方法,提升推理准确性。
提出DisCo和Table-GLS框架,解耦表格结构和内容,提升LVLM在表格推理上的效率和泛化性。
DeepDFA通过将时序逻辑注入深度学习,提升序列子符号应用性能。
论文发现LLM推理中过度自验证现象,提出经验驱动框架抑制无效自验证,减少token使用并保持甚至提升准确率。