LLM Reasoning - Paper Tracker

9/10

LLM 推理效率 Chain-of-Thought

Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

Bangji Yang, Hongbo Ma, Jiajun Fan et al.

提出Batched Contextual Reinforcement方法，提高LLM推理效率和准确率，发现任务规模效应。

提出Batched Contextual Reinforcement训练范式
发现任务规模效应，提升推理吞吐量

2026-04-02

PDF arXiv

8/10

交互意识 LLM评估用户回复生成

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Sarath Shekkizhar, Romain Cosentino, Adam Earle

提出用户回复生成作为探测LLM交互意识的方法，发现交互意识与任务准确率解耦，可通过后训练提升。

提出一种新的评估LLM交互意识的probe：用户回复生成。
揭示了LLM的交互意识与任务准确率之间存在解耦现象。

2026-04-02

PDF arXiv

9/10

LLM 规则抽取监管科技

De Jure: Iterative LLM Self-Refinement for Structured Extraction of Regulatory Rules

Keerat Guliani, Deepkamal Gill, David Landsman et al.

De Jure提出了一种全自动的监管规则结构化抽取方法，无需人工标注，并能有效提升抽取质量。

提出无需人工标注的监管规则结构化抽取流程De Jure
利用LLM进行语义分解、多维度评估和迭代修复

2026-04-02

PDF arXiv

7/10

因果发现扩散模型贝叶斯网络

Smoothing the Landscape: Causal Structure Learning via Diffusion Denoising Objectives

Hao Zhu, Di Zhou, Donna Slonim

提出DDCD框架，利用扩散模型的目标函数学习因果结构，解决高维数据下的可扩展性和稳定性问题。

利用扩散模型的去噪目标函数平滑梯度，加速收敛
提出自适应的k-hop无环约束，提高运行效率

2026-04-02

PDF arXiv

8/10

生成式AI 数据科学教育

Generative AI Spotlights the Human Core of Data Science: Implications for Education

Nathan Taback

生成式AI凸显数据科学的人本核心，教育应聚焦人类推理能力。

强调数据科学教育中人类推理的重要性
分析了生成式AI对数据科学工作流程的影响

2026-04-02

PDF arXiv

8/10

LLM Emotional Prompting Prompt Engineering

Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models

Minda Zhao, Yutong Yang, Chufei Peng et al.

研究情绪化提示对大语言模型的影响，发现其影响较小且依赖于具体任务，自适应情绪提示更有效。

评估情绪化提示对 LLM 在多项任务上的影响
提出自适应情绪提示框架 EmotionRL

2026-04-02

PDF arXiv

9/10

LLM 拒答推理

Answering the Wrong Question: Reasoning Trace Inversion for Abstention in LLMs

Abinitha Gourabathina, Inkit Padhi, Manish Nagireddy et al.

论文提出Trace Inversion方法，通过比较原始查询和重构查询，提高LLM的拒答能力。

提出Query Misalignment Framework
提出Trace Inversion方法

2026-04-02

PDF arXiv

8/10

LLM Explainability Visualization

VISTA: Visualization of Token Attribution via Efficient Analysis

Syed Ahmed, Bharathi Vokkaliga Ganesh, Jagadish Babu P et al.

论文提出了一种轻量级、模型无关的token重要性可视化方法，用于理解LLM对prompt信息的处理方式。

提出一种模型无关的token重要性可视化方法
使用扰动策略和三矩阵分析框架

2026-04-02

PDF arXiv

6/10

RNN 深度学习表达能力

On the Role of Depth in the Expressivity of RNNs

Maude Lizaire, Michael Rizvi-Martel, Éric Dupuis et al.

该论文从理论和实验上证明了深度能够有效提升RNN的记忆容量和表达能力。

证明深度能有效提升RNN的记忆容量
揭示深度如何增强RNN的表达能力

2026-04-02

PDF arXiv

7/10

人才推荐 LLM 位置偏差

Towards Position-Robust Talent Recommendation via Large Language Models

Silin Du, Hongyan Liu

该论文提出L3TR框架，通过块注意力、位置编码和ID采样，提升LLM在人才推荐中的效果并减轻位置偏差。

提出了一个名为L3TR的列表式人才推荐框架
设计了块注意力机制和局部位置编码方法，以增强文档间处理并减轻位置偏差和并发token偏差

2026-04-02

PDF arXiv

7/10

文本频率 LLM优化课程学习

Adam's Law: Textual Frequency Law on Large Language Models

Hongyuan Adam Lu, Z. L., Victor Wei et al.

该论文提出了一种基于文本频率的LLM优化框架，包括文本频率律、蒸馏和课程学习方法。

提出文本频率律 (TFL)
提出文本频率蒸馏 (TFD)方法

2026-04-02

PDF arXiv

6/10

共指消解软件提及噪声鲁棒性

Do Lexical and Contextual Coreference Resolution Systems Degrade Differently under Mention Noise? An Empirical Study on Scientific Software Mentions

Atilla Kaan Alkan, Felix Grezes, Jennifer Lynn Bartlett et al.

研究软件提及共指消解中，词汇和上下文方法在噪声下的性能差异及效率。

比较了词汇和上下文共指消解方法在噪声下的表现
分析了不同噪声类型对两种方法的影响

2026-04-02

PDF arXiv

8/10

LLM Time Series Explanation

LLM-as-a-Judge for Time Series Explanations

Preetham Sivalingam, Murari Mandal, Saurabh Deshpande et al.

该论文研究了LLM作为时间序列解释的生成器和评估器的可行性，并构建了合成数据集进行评估。

提出了基于LLM的时间序列解释评估方法，无需参考解释。
构建了一个包含350个时间序列案例的合成基准数据集。

2026-04-02

PDF arXiv

9/10

控制向量推理大语言模型

Reliable Control-Point Selection for Steering Reasoning in Large Language Models

Haomin Zhuang, Hojun Yoo, Xiaonan Luo et al.

该论文提出了一种更可靠的控制向量选择方法，提高了大语言模型推理能力。

发现CoT边界的非稳定性问题
提出基于稳定性的控制向量过滤方法

2026-04-02

PDF arXiv

8/10

推测解码大语言模型推理加速

Goose: Anisotropic Speculation Trees for Training-Free Speculative Decoding

Tao Jin, Phuong Minh Nguyen, Naoya Inoue

GOOSE提出一种训练无关的自适应spine树结构，用于加速LLM推断中的推测解码。

提出Anisotropic Speculation Trees（GOOSE）框架
证明当token质量存在差距时，非对称树是最优的

2026-04-02

PDF arXiv

9/10

语言分割链式思考模型压缩

Efficient Reasoning via Thought Compression for Language Segmentation

Qing Zhou, Shiyu Zhang, Yuyu Jia et al.

WISE通过思考压缩实现高效推理，显著减少推理长度，同时保持了优秀的零样本分割性能。

提出WISE框架，通过压缩推理过程加速推理。
引入concise rationale和self-distillation目标。

2026-04-02

PDF arXiv

8/10

latent space language model representation learning

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Xinlei Yu, Zhangquan Chen, Yongbo He et al.

综述性论文，全面介绍了语言模型中潜在空间的基础、演变、机制、能力和未来展望。

系统性地总结了语言模型中潜在空间的研究现状。
从机制和能力两个角度组织了潜在空间的技术发展。

2026-04-02

PDF arXiv

8/10

LLM生成文本检测零样本学习代理对齐

$k$NNProxy: Efficient Training-Free Proxy Alignment for Black-Box Zero-Shot LLM-Generated Text Detection

Kahim Wong, Kemou Li, Haiwei Wu et al.

提出一种无需训练的零样本LLM生成文本检测方法$k$NNProxy，通过$k$NN检索实现代理模型对齐。

提出$k$NNProxy，一种无需训练和高效查询的代理对齐框架
利用$k$NN-LM检索机制作为固定代理LLM的领域适配器

2026-04-02

PDF arXiv

9/10

强化学习推理大语言模型

Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

Rafael Pardinas, Ehsan Kamalloo, David Vazquez et al.

提出Apriel-Reasoner，通过可复现的RL后训练方法，提升通用推理能力并降低推理成本。

可复现的多领域RL后训练方法
自适应领域采样机制

2026-04-02

PDF arXiv

9/10

多跳推理知识图谱错误纠正

SAFE: Stepwise Atomic Feedback for Error correction in Multi-hop Reasoning

Daeyong Kwon, Soyoung Yoon, Seung-won Hwang

SAFE框架通过KG验证的逐步反馈纠正LLM多跳推理中的错误，提升推理的可靠性和准确性。

提出了SAFE框架，用于动态评估和纠正LLM多跳推理错误
建立了原子错误分类体系和KG验证流程，用于识别和消除训练数据中的噪声

2026-04-02

PDF arXiv

9/10

LLM Reasoning Number Sense

SenseMath: Do LLMs Have Number Sense? Evaluating Shortcut Use, Judgment, and Generation

Haomin Zhuang, Xiangqi Wang, Yili Shen et al.

论文提出了SenseMath基准，评估LLM的结构敏感数值推理能力，发现LLM缺乏人类般的数字感知。

提出了SenseMath基准，用于评估LLM的数值推理能力
设计了三种评估设置：Shortcut Use, Applicability Judgment, Problem Generation

2026-04-02

PDF arXiv

7/10

一阶逻辑时序逻辑知识表示

Qiana: A First-Order Formalism to Quantify over Contexts and Formulas with Temporality

Simon Coumes, Pierre-Henri Paris, François Schwarzentruber et al.

Qiana是一种量化上下文和公式的时序一阶逻辑框架。

提出了一种新的逻辑框架Qiana
Qiana可以量化上下文和公式

2026-04-02

PDF arXiv

8/10

LLM 深度缩放推理效率

Universal YOCO for Efficient Depth Scaling

Yutao Sun, Li Dong, Tianzhu Ye et al.

YOCO-U结合YOCO和递归计算，提升LLM的推理深度和效率，同时保持低开销和全局KV缓存。

提出 Universal YOCO (YOCO-U) 架构
结合YOCO和递归计算，提升推理效率

2026-04-01

PDF arXiv

6/10

时空预测数据同化循环神经网络

LAtent Phase Inference from Short time sequences using SHallow REcurrent Decoders (LAPIS-SHRED)

Yuxuan Bao, Xingyue Zhang, J. Nathan Kutz

LAPIS-SHRED利用浅层循环解码器，从稀疏时序数据中重建时空动态。

提出LAPIS-SHRED框架，用于从短时稀疏数据中重建时空动态
采用模块化架构，支持双向推断和多尺度重建

2026-04-01

PDF arXiv

6/10

AI天气预测机器学习误差分析

The Recipe Matters More Than the Kitchen:Mathematical Foundations of the AI Weather Prediction Pipeline

Piyush Garg, Diana R. Gergel, Andrew E. Shao et al.

论文构建了AI天气预测的完整学习管线理论框架，并验证了其重要性。

构建了基于近似理论、动力系统理论、信息理论和统计学习理论的AI天气预测学习管线框架
提出了学习管线误差分解，证明估计误差在当前规模下占主导地位

2026-04-01

PDF arXiv

8/10

LLM Regression Text Regression

LLM REgression with a Latent Iterative State Head

Yiheng Su, Matthew Lease

RELISH提出一种轻量级迭代状态头用于文本回归，优于现有方法且参数效率高。

提出了一种新的轻量级文本回归架构RELISH
使用迭代潜在状态细化预测标量值

2026-04-01

PDF arXiv

9/10

大语言模型推理因果关系

Therefore I am. I Think

Esakkivel Esakkiraja, Sai Rajeswar, Denis Akhiyarov et al.

大语言模型在推理前已做出决策，推理过程倾向于合理化既定选择。

揭示了决策在推理过程中的提前编码现象
通过激活操控验证了决策对推理过程的因果影响

2026-04-01

PDF arXiv

9/10

LLM reasoning calibration

Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning

Cai Zhou, Zekai Wang, Menghua Wu et al.

ORCA框架通过在线校准采样过程提高LLM推理效率和泛化能力，降低计算成本。

提出在线推理校准(ORCA)框架
基于conformal prediction和test-time training校准采样过程

2026-04-01

PDF arXiv

9/10

LLM Reasoning Context Management

Reasoning Shift: How Context Silently Shortens LLM Reasoning

Gleb Rodionov

研究表明，LLM在不同上下文环境中，推理过程会显著缩短，影响自我验证行为。

揭示了LLM推理长度受上下文影响的现象（Reasoning Shift）
分析了推理过程缩短与自我验证行为减少的关联

2026-04-01

PDF arXiv

8/10

持续学习 LoRA MoE

Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

Mohammad R. Abu Ayyash

Brainstacks提出了一种模块化的持续学习架构，通过冻结MoE-LoRA堆栈实现跨领域认知能力。

提出了Brainstacks架构，用于持续多领域微调LLM
利用MoE-LoRA实现更快的收敛速度

2026-04-01

PDF arXiv

7/10

逆向设计光学薄膜扩散模型

Inverse Design of Optical Multilayer Thin Films using Robust Masked Diffusion Models

Jonas Schaible, Asena Karolin Özdemir, Charlotte Debus et al.

利用掩码扩散模型OptoLlama进行光学薄膜逆向设计，性能优于现有方法。

提出了基于掩码扩散模型的OptoLlama
在薄膜逆向设计任务上取得了更好的性能

2026-04-01

PDF arXiv

6/10

神经网络结构化知识金融建模

Bridging Structured Knowledge and Data: A Unified Framework with Finance Applications

Yi Cao, Zexun Chen, Lin William Cong et al.

SKINNs：将结构化知识嵌入神经网络，提升金融建模和经济参数估计效果。

提出SKINNs框架，统一结构化知识和数据
证明了SKINNs的统计性质，如一致性和渐近正态性

2026-04-01

PDF arXiv

7/10

蛋白质互作网络网络嵌入生物信息学

Event Embedding of Protein Networks : Compositional Learning of Biological Function

Antonin Sulc

论文研究了在蛋白质互作网络中使用组合结构嵌入进行生物功能预测的有效性。

提出基于组合结构的蛋白质网络嵌入方法
证明组合结构能提高通路一致性和功能类比准确性

2026-04-01

PDF arXiv

9/10

Large Language Models Geometric Reasoning Chain-of-Thought

Beyond Symbolic Solving: Multi Chain-of-Thought Voting for Geometric Reasoning in Large Language Models

Md. Abu Bakor Siddique, Shahrin Hossain, Sadman Ahmed Siam et al.

MARS-GPS通过多链思考投票和代码验证，显著提升大语言模型在几何问题求解上的推理能力。

提出MARS-GPS模型，增强几何推理能力
采用多链思考并行推理和Python代码数值验证

2026-04-01

PDF arXiv

9/10

强化学习策略优化语言模型

Policy Improvement Reinforcement Learning

Huaiyang Wang, Xiaojie Li, Deqing Wang et al.

PIRL框架通过显式最大化迭代间的策略改进，提出了自纠正的策略优化方法PIPO。

提出了Policy Improvement Reinforcement Learning (PIRL)框架
提出了Policy Improvement Policy Optimization (PIPO)算法

2026-04-01

PDF arXiv

8/10

情感分析多维情感贝叶斯推理

Emotion Entanglement and Bayesian Inference for Multi-Dimensional Emotion Understanding

Hemanth Kotaprolu, Kishan Maharaj, Raey Zhao et al.

提出了EmoScene基准测试多维情感理解，并使用贝叶斯推理改进情感预测。

提出了EmoScene基准测试，用于评估多维情感理解。
构建了基于Plutchik情感理论的8维情感向量标注数据。

2026-04-01

PDF arXiv

9/10

LLM Reasoning Interpretability

From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks

Ayan Datta, Mounika Marreddy, Alexander Mehler et al.

论文揭示LLM在简单字符计数任务中内部正确计算但输出错误，源于后期层负电路抑制。

揭示LLM符号推理失败源于模型内部结构性干扰，而非信息缺失。
证明LLM前向传播实现了一种竞争性解码机制。

2026-04-01

PDF arXiv

7/10

Fact Checking African Languages Information Retrieval

AfrIFact: Cultural Information Retrieval, Evidence Extraction and Fact Checking for African Languages

Israel Abebe Azime, Jesujoba Oluwadara Alabi, Crystina Zhang et al.

AfrIFact数据集促进非洲语言的自动事实核查研究，揭示了跨语言检索和LLM在多语言事实验证方面的挑战。

构建了包含十种非洲语言和英语的事实核查数据集AfrIFact
评估了嵌入模型在跨语言检索方面的能力

2026-04-01

PDF arXiv

9/10

Chain-of-Thought Monitorability Reinforcement Learning

Aligned, Orthogonal or In-conflict: When can we safely optimize Chain-of-Thought?

Max Kaufmann, David Lindner, Roland S. Zimmermann et al.

论文研究奖励函数对CoT监控能力的影响，提出对齐、正交和冲突三种类型，并通过实验验证了冲突奖励会降低CoT监控能力。

提出 CoT 监控能力的概念，并分析了训练对其的影响
建立了一个预测 CoT 监控能力变化的理论框架

2026-03-31

PDF arXiv

9/10

LLM Analogical Reasoning Narrative Understanding

Enhancing Structural Mapping with LLM-derived Abstractions for Analogical Reasoning in Narratives

Mohammadhossein Khojasteh, Yifan Jiang, Stefano De Giorgis et al.

YARN框架利用LLM提取故事结构抽象，提升了机器在叙事中类比推理的能力。

提出YARN框架，用于叙事类比推理
定义并操作化了四个抽象层次

2026-03-31

PDF arXiv

9/10

代码生成 LLM推理强化学习

Think Anywhere in Code Generation

Xue Jiang, Tianyu Zhang, Ge Li et al.

提出Think-Anywhere，一种在代码生成过程中按需进行推理的新机制，提升了LLM的性能和可解释性。

提出了Think-Anywhere推理机制，允许LLM在代码生成过程中随时进行推理。
通过冷启动训练和基于结果的强化学习，实现了Think-Anywhere的自适应推理能力。

2026-03-31

PDF arXiv

7/10

Large Language Models Mathematical Physics Bethe Ansatz

Bethe Ansatz with a Large Language Model

Balázs Pozsgay, István Vona

该论文探索了大型语言模型在数学物理计算中的能力，成功求解了多个自旋链模型的Bethe Ansatz解。

验证LLM在解决复杂数学物理问题上的能力
发现了新的且未发表的自旋链模型的Bethe Ansatz解

2026-03-31

PDF arXiv

6/10

ESG 可读性自然语言处理

Towards Empowering Consumers through Sentence-level Readability Scoring in German ESG Reports

Benjamin Josef Schüßler, Jakob Prange

该论文研究了德语ESG报告的可读性，通过众包标注和模型评估，找到了预测人类可读性的最佳模型。

构建了德语ESG报告句子级可读性标注数据集
评估了多种可读性评分方法在德语ESG报告上的表现

2026-03-31

PDF arXiv

6/10

无定形材料逆向设计生成模型

AMShortcut: An Inference- and Training-Efficient Inverse Design Model for Amorphous Materials

Yan Lin, Jonas A. Finkler, Tao Du et al.

AMShortcut是一种高效生成模型，用于无定形材料的逆向设计，提升推理和训练效率。

提出了AMShortcut模型，提升了无定形材料逆向设计的效率
实现了在少量采样步骤下准确推理无定形材料的结构

2026-03-31

PDF arXiv

8/10

MoE Transfer Learning Fine-tuning

Training-Free Dynamic Upcycling of Expert Language Models

Eros Fanì, Oğuzhan Ersoy

DUME通过动态组合领域专家模型，无需额外训练即可构建多任务MoE模型，提升性能。

提出了一种新的动态Upcycling MoE (DUME) 方法
无需额外训练即可构建多任务模型

2026-03-31

PDF arXiv

9/10

逆合成路线规划强化学习 Chain-of-Thought

Reinforced Reasoning for End-to-End Retrosynthetic Planning

Chenyang Zuo, Siqi Fan, Yizhen Luo et al.

ReTriP是一个端到端生成框架，将逆合成路线规划转化为直接的CoT推理任务，并在长程规划中表现出色。

提出了ReTriP端到端生成框架
使用路径一致的分子表示

2026-03-31

PDF arXiv

7/10

概率分布稀疏编码一阶逻辑

A First Step Towards Even More Sparse Encodings of Probability Distributions

Florian Andreas Marwitz, Tanya Braun, Ralf Möller

提出一种从概率分布中提取一阶公式的方法，以减少存储空间并提高稀疏性。

提出一种稀疏编码概率分布的新方法
通过提取逻辑公式减少所需存储空间

2026-03-31

PDF arXiv

8/10

知识编辑可视化分析大型语言模型

KEditVis: A Visual Analytics System for Knowledge Editing of Large Language Models

Zhenning Chen, Hanbei Zhan, Yanwei Huang et al.

KEditVis通过交互式可视化辅助用户理解和优化LLM的知识编辑流程，提升编辑效果。

设计并实现了KEditVis可视化分析系统
提出了利用可视化辅助知识编辑的方法

2026-03-31

PDF arXiv

8/10

interpretable AI concept alignment foundation models

Concept frustration: Aligning human concepts and machine representations

Enrico Parisini, Christopher J. Soelistyo, Ahab Isaac et al.

论文提出“概念挫败”框架，旨在对齐人类概念与机器学习模型内部表征，提升可解释性。

提出“概念挫败”的概念，用于衡量人类与机器概念的差异
开发任务对齐相似度度量，检测概念挫败现象

2026-03-31

PDF arXiv

9/10

强化学习 LLM 中毒诊断

Learning Diagnostic Reasoning for Decision Support in Toxicology

Nico Oberländer, David Bani-Harouni, Tobias Zellner et al.

DeToxR模型通过强化学习优化LLM，融合非结构化数据和医疗数据，提升中毒诊断准确性。

提出 DeToxR 模型，应用于中毒诊断决策支持
使用强化学习优化 LLM，提升多标签预测性能

2026-03-31

PDF arXiv

8/10

LLM 自动化评分置信度校准

When Can We Trust LLM Graders? Calibrating Confidence for Automated Assessment

Robinson Ferrer, Damla Turgut, Zhongzhou Chen et al.

论文研究如何评估LLM评分的可信度，提高自动化评分的可靠性。

对比了三种置信度估计方法的效果
分析了不同规模LLM的校准性能

2026-03-31

PDF arXiv

5/10

列车装载优化组合优化数学规划

Reducing Complexity for Quantum Approaches in Train Load Optimization

Zhijie Tang, Albert Nieto-Morales, Arit Kumar Bishwas

提出一种更紧凑的列车装载优化模型，降低了计算复杂度并提高了求解效率。

创新性地在目标函数中隐式计算再处理成本
大幅减少模型变量和约束的数量

2026-03-31

PDF arXiv

9/10

LLM Reasoning Formal Verification

Learning to Generate Formally Verifiable Step-by-Step Logic Reasoning via Structured Formal Intermediaries

Luoxin Chen, Yichi Zhou, Huishuai Zhang

提出PRoSFI方法，通过形式化验证中间步骤提升LLM推理的可靠性，同时保持准确性。

提出PRoSFI奖励方法，关注推理过程的可靠性
利用形式化验证指导LLM生成可验证的推理步骤

2026-03-31

PDF arXiv

8/10

LLM可解释性 Token-level Perplexity Linguistic Analysis

Is my model perplexed for the right reason? Contrasting LLMs' Benchmark Behavior with Token-Level Perplexity

Zoë Prins, Samuele Punzo, Frank Wildenburg et al.

论文提出使用token-level perplexity分析LLM是否基于正确的语言线索进行预测，揭示模型可能依赖非预期启发式。

提出一种基于token-level perplexity的LLM可解释性框架
对比最小句子对，分析模型对关键linguistic cue的依赖程度

2026-03-31

PDF arXiv

8/10

LLM 医疗咨询患者行为

Beyond Idealized Patients: Evaluating LLMs under Challenging Patient Behaviors in Medical Consultations

Yahan Li, Xinyi Jie, Wanjia Ruan et al.

评估LLM在医疗咨询中对不规范患者行为的反应，并提出了相应的评估基准。

定义了四种不规范患者行为
构建了CPB-Bench双语基准数据集

2026-03-31

PDF arXiv

8/10

LLM Prior Authorization Healthcare

AI-Generated Prior Authorization Letters: Strong Clinical Content, Weak Administrative Scaffolding

Moiz Sadiq Awan, Maryam Raza

评估LLM生成事前授权信函的能力，发现临床内容强但行政支撑薄弱，尚不能直接用于实际应用。

系统性评估LLM生成事前授权信函的能力
揭示LLM在行政细节处理方面的不足

2026-03-31

PDF arXiv

7/10

可解释性AI 树集成模型随机森林

Rigorous Explanations for Tree Ensembles

Yacine Izza, Alexey Ignatiev, Xuanxiang Huang et al.

该论文研究了随机森林和梯度提升树等树集成模型的严格、逻辑自洽的可解释性。

为树集成模型提供严格定义的可解释性方法
研究了随机森林和梯度提升树的可解释性

2026-03-31

PDF arXiv

6/10

稀疏自编码器组合泛化字典学习

Stop Probing, Start Coding: Why Linear Probes and Sparse Autoencoders Fail at Compositional Generalisation

Vitória Barin Pacela, Shruti Joshi, Isabela Camacho et al.

线性探针和稀疏自编码器在组合泛化上失败的原因是字典学习的不足，而非推断方法。

证明稀疏自编码器在组合泛化上的失败归因于字典学习而非amortization
发现SAE学习的字典指向错误的方向

2026-03-30

PDF arXiv

7/10

Transformer GPU Acceleration Inference Optimization

GPU-Accelerated Optimization of Transformer-Based Neural Networks for Real-Time Inference

Soutrik Mukherjee, Sangwhan Cha

利用GPU加速和混合精度优化Transformer模型，实现实时推理并降低内存占用。

设计并评估了基于NVIDIA TensorRT的GPU加速推理pipeline
提出了混合精度策略，平衡性能和数值精度

2026-03-30

PDF arXiv

5/10

神经网络热力学本构模型

A Convex Route to Thermomechanics: Learning Internal Energy and Dissipation

Hagen Holthusen, Paul Steinmann, Ellen Kuhl

提出一种基于物理的神经网络框架，用于学习完全耦合的热力学本构模型，保证热力学相容性。

提出基于内能和耗散势的热力学本构模型学习方法
采用输入凸神经网络保证热力学容许性

2026-03-30

PDF arXiv

7/10

物理信息冲击识别复合材料

Physics-Informed Framework for Impact Identification in Aerospace Composites

Natália Ribeiro Marinho, Richard Loendersloot, Jan Willem Wiegman et al.

提出了一种基于物理信息的冲击识别框架，可实现更稳定、数据效率更高的冲击识别。

提出了一种融合物理知识和数据驱动推理的冲击识别框架
利用物理信息的能量指标构建输入空间

2026-03-30

PDF arXiv

9/10

LLM Chain-of-Thought Monitorability

MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

Han Wang, Yifan Sun, Brian Ko et al.

提出了MonitorBench，一个用于评估大型语言模型CoT可监控性的综合基准。

构建了包含1514个实例的MonitorBench基准
提出了两种压力测试设置评估CoT可监控性

2026-03-30

PDF arXiv

8/10

神经符号推理 EU AI Act T-范数算子

T-Norm Operators for EU AI Act Compliance Classification: An Empirical Comparison of Lukasiewicz, Product, and Gödel Semantics in a Neuro-Symbolic Reasoning System

Adam Laabs

比较三种T-范数算子在欧盟AI法案合规分类神经符号推理系统中的性能。

首次比较三种T-范数算子在AI法案合规分类中的应用
分析算子选择、规则库完整性和分类性能的关系

2026-03-30

PDF arXiv

6/10

心电图人工智能心脏疾病

Detecting low left ventricular ejection fraction from ECG using an interpretable and scalable predictor-driven framework

Ya Zhou, Tianxiang Hao, Ziyi Cai et al.

提出ECGPD-LEF框架，利用ECG诊断概率预测低左心室射血分数，兼顾性能和可解释性。

提出ECGPD-LEF框架，融合诊断概率和可解释模型
验证框架在独立数据集上的鲁棒性和优越性

2026-03-30

PDF arXiv

7/10

知识图谱图嵌入链接预测

TIEG-Youpu Solution for NeurIPS 2022 WikiKG90Mv2-LSC

Feng Nie, Zhixiu Ye, Sifa Xie et al.

该论文提出一种用于大规模知识图谱补全的检索-重排序模型，在WikiKG90Mv2数据集上取得了显著提升。

提出优先级填充检索模型
提出基于集成的邻居增强表示重排序模型

2026-03-30

PDF arXiv

8/10

scaling laws efficiency compute

The Unreasonable Effectiveness of Scaling Laws in AI

Chien-Ping Lu

探讨AI缩放定律的有效性，分析其背后的逻辑和对未来效率提升的意义。

解释了缩放定律的有效性
提出了逻辑计算的概念

2026-03-30

PDF arXiv

7/10

自然语言处理时序逻辑形式化方法

Structural-Ambiguity-Aware Translation from Natural Language to Signal Temporal Logic

Kosei Fushimi, Kazunobu Serizawa, Junya Ikemoto et al.

提出一种保留歧义的自然语言到时序逻辑转换方法，解决自然语言歧义性问题。

提出歧义保留的NL-STL转换方法
使用CCG进行n-best句法分析

2026-03-30

PDF arXiv

9/10

LLM 可解释性认知

Coherent Without Grounding, Grounded Without Success: Observability and Epistemic Failure

Camilo Chacón Sartori

大型语言模型在低可观测性和高可观测性领域存在能力与解释脱钩的现象，挑战传统认知。

提出了双向一致性悖论，揭示LLM能力与解释的解耦现象
构建了认知三角模型，分析了先验、信号和领域知识在不同可观测性下的交互

2026-03-30

PDF arXiv

8/10

知识图谱生物医学大型语言模型

Building evidence-based knowledge graphs from full-text literature for disease-specific biomedical reasoning

Chang Zong, Sicheng Lv, Si-tu Xue et al.

EvidenceNet构建疾病特定知识图谱，增强生物医学推理和假设生成能力。

构建EvidenceNet数据集和框架
利用LLM抽取和结构化生物医学证据

2026-03-30

PDF arXiv

6/10

数据素养 K-12教育学习轨迹

Mapping data literacy trajectories in K-12 education

Robert Whyte, Manni Cheung, Katharine Childs et al.

分析K-12教育中数据素养的学习路径，提出数据范式框架并构建学习轨迹。

提出数据范式框架，从逻辑和可解释性两个维度分类学习活动
构建数据素养学习轨迹，可视化学习路径

2026-03-30

PDF arXiv

9/10

推理能量模型隐空间规划

Reasoning as Energy Minimization over Structured Latent Trajectories

David K. Johansson

论文提出了一种基于能量最小化的结构化隐空间轨迹推理方法，并解决了训练中的分布不匹配问题。

提出 Energy-Based Reasoning via Structured Latent Planning (EBRM) 模型
分析了隐空间规划中的分布不匹配问题

2026-03-30

PDF arXiv

8/10

LLM 中医西医

DongYuan: An LLM-Based Framework for Integrative Chinese and Western Medicine Spleen-Stomach Disorders Diagnosis

Hua Li, Yingying Li, Xiaobin Feng et al.

DongYuan框架通过LLM解决中西医结合的脾胃病诊断难题，并构建了高质量数据集和评估基准。

构建了高质量的中西医结合脾胃病数据集（SSDF系列）
提出了基于SFT和DPO的两阶段训练策略的ICWM诊断LLM（SSDF-Core）

2026-03-30

PDF arXiv

8/10

LLM 数学问题解决评估

Is Mathematical Problem-Solving Expertise in Large Language Models Associated with Assessment Performance?

Liang Zhang, Yu Fu, Xinyi Jin

该研究探讨了LLM的数学问题解决能力与其评估学生解题步骤准确性的能力之间的关联性。

验证了数学问题解决能力与评估学生解题步骤准确性之间的关联
发现评估难度高于直接解题，尤其是在存在错误的情况下

2026-03-26

PDF arXiv

7/10

泛化记忆神经网络

The Rules-and-Facts Model for Simultaneous Generalization and Memorization in Neural Networks

Gabriele Farné, Fabrizio Boncoraglio, Lenka Zdeborová

提出了规则-事实（RAF）模型，用于研究神经网络的泛化和记忆能力。

提出了RAF模型，简化了泛化和记忆的理论分析
量化了过参数化如何支持同时实现规则学习和记忆

2026-03-26

PDF arXiv

6/10

保形预测工具变量回归非参数统计

Conformal Prediction for Nonparametric Instrumental Regression

Masahiro Kato

提出一种非参数工具变量回归的保形预测方法，保证有限样本覆盖率。

提出了基于保形推断的非参数工具变量回归预测区间构建方法
建立了分布自由的有限样本覆盖率保证

2026-03-26

PDF arXiv

9/10

LLM 节能自适应推理

EcoThink: A Green Adaptive Inference Framework for Sustainable and Accessible Agents

Linxiao Li, Zhixiang Lu

EcoThink提出了一种节能自适应推理框架，降低LLM推理过程中的能源消耗并提升可持续性。

提出EcoThink框架，通过动态评估query复杂度减少不必要的推理
通过知识蒸馏的路由机制，区分简单和复杂query

2026-03-26

PDF arXiv

7/10

因果推断时间序列模型解释性

Causal-INSIGHT: Probing Temporal Models to Extract Causal Structure

Benjamin Redden, Hui Wang, Shuyan Li

Causal-INSIGHT提出了一种从时间序列预测模型中提取因果结构的框架。

提出Causal-INSIGHT框架，用于从时间预测模型中提取因果结构
引入Qbic，一种稀疏图选择准则，平衡预测精度和结构复杂度

2026-03-26

PDF arXiv

8/10

language model correctness estimation cross-model

Cross-Model Disagreement as a Label-Free Correctness Signal

Matt Gorbett, Suman Jana

提出一种无需标注数据的跨模型差异性方法，用于评估语言模型的正确性。

提出跨模型差异性作为正确性指标
引入Cross-Model Perplexity (CMP)和Cross-Model Entropy (CME)

2026-03-26

PDF arXiv

6/10

感知机教师-学生模型相变

The Symmetric Perceptron: a Teacher-Student Scenario

Giovanni Catania, Aurélien Decelle, Suhanee Korpe

论文研究对称感知机的教师-学生模型，分析了噪声影响下的学习过程和相变。

提出了对称感知机的教师-学生模型
分析了不同势函数和噪声下的相图

2026-03-26

PDF arXiv

9/10

多语言数学推理强化学习

TAPO: Translation Augmented Policy Optimization for Multilingual Mathematical Reasoning

Xu Huang, Zhejian Lai, Zixian Huang et al.

TAPO通过翻译增强策略优化，提升LLM在多语言数学推理中的性能，解决语言理解不足问题。

提出了TAPO框架，结合GRPO和翻译增强策略
引入了步级相对优势机制，解耦理解和推理

2026-03-26

PDF arXiv

7/10

AI可靠性设计时验证类型系统

Decidable By Construction: Design-Time Verification for Trustworthy AI

Houston Haynes

该论文提出一种设计时验证框架，在训练前验证AI模型的数值稳定性、计算正确性等。

提出一种设计时验证框架，降低AI可靠性的计算开销。
将AI模型属性表示为有限生成阿贝尔群上的约束。

2026-03-26

PDF arXiv

10/10

推理安全大型语言模型链式思考

Beyond Content Safety: Real-Time Monitoring for Reasoning Vulnerabilities in Large Language Models

Xunguang Wang, Yuguang Zhou, Qingyue Wang et al.

论文提出推理安全的概念，并设计监控器实时检测LLM推理过程中的错误。

定义推理安全，提出九种不安全推理行为的分类
大规模实验验证错误类型的普遍性

2026-03-26

PDF arXiv

6/10

因果推断 ICU 出院策略

A Causal Framework for Evaluating ICU Discharge Strategies

Sagar Nagaraj Simha, Juliette Ortholand, Dave Dongelmans et al.

使用因果推断评估ICU出院策略，旨在优化干预时长和患者预后。

扩展g-formula Python包，用于评估停止策略
开源pipeline，应用于MIMIC-IV数据集

2026-03-26

PDF arXiv

7/10

量化低秩近似模型压缩

GlowQ: Group-Shared LOw-Rank Approximation for Quantized LLMs

Selim An, Il hong Suh, Yeseong Kim

GlowQ通过组共享低秩近似优化量化LLM，提升推理速度和精度。

提出组共享低秩近似方法GlowQ
提出选择性GlowQ-S，进一步优化延迟

2026-03-26

PDF arXiv

8/10

算术谜题难度建模自适应学习

4OPS: Structural Difficulty Modeling in Integer Arithmetic Puzzles

Yunus E. Zeytuncu

通过分析算术谜题，揭示了谜题难度与结构属性之间的关系，用于提升自适应学习系统。

形式化算术谜题问题并开发精确求解器
构建大规模数据集并定义难度度量

2026-03-26

PDF arXiv

8/10

LLM Token Compression Autoencoding

Large Language Model as Token Compressor and Decompressor

Wenbing Li, Zikai Song, Jielei Zhang et al.

提出了一种利用LLM作为token压缩和解压缩器的新方法，实现显著的token数量缩减和高效的长文本处理。

提出了基于LLM的自编码token压缩框架
实现了高达18倍的token缩减，同时保持了重构保真度

2026-03-26

PDF arXiv

8/10

LLM Tokenizer Abugida

Separate Before You Compress: The WWHO Tokenization Architecture

Kusal Darshana

提出WWHO架构和SGPE算法，优化Abugida文字的LLM分词效率，降低Token Tax。

提出WWHO三层架构和SGPE算法
针对复杂Abugida文字的LLM分词问题

2026-03-26

PDF arXiv

7/10

知识图谱信息抽取文档理解

DAGverse: Building Document-Grounded Semantic DAGs from Scientific Papers

Shu Wan, Saketh Vishnubhatla, Iskander Kushbay et al.

DAGverse构建框架，利用科学论文提取文档级的语义DAG，并发布了包含108个DAG的数据集。

提出DAGverse框架，用于半自动构建文档级语义DAG
构建DAGverse-Pipeline，用于高精度语义DAG提取

2026-03-26

PDF arXiv

7/10

机器翻译低资源评估指标

Translation or Recitation? Calibrating Evaluation Scores for Machine Translation of Extremely Low-Resource Languages

Danlu Chen, Ka Sing He, Jiahe Tian et al.

提出了FRED指标评估极低资源机器翻译，揭示性能差异受训练数据质量和预训练影响。

提出了FRED指标，包含生育率、检索代理、预训练曝光和语料库多样性
揭示了训练集重叠和预训练暴露对极低资源翻译性能的影响

2026-03-26

PDF arXiv

9/10

自蒸馏 LLM 推理

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

Jeonghye Kim, Xufang Luo, Minbeom Kim et al.

自蒸馏有时会降低LLM的推理能力，主要是因为抑制了模型在推理过程中的不确定性表达。

发现自蒸馏会降低LLM的推理能力
指出原因是抑制了模型的不确定性表达

2026-03-25

PDF arXiv

9/10

自动化定理证明大语言模型形式化验证

Mechanic: Sorrifier-Driven Formal Decomposition Workflow for Automated Theorem Proving

Ruichen Qiu, Yichuan Cao, Junqi Liu et al.

Mechanic提出了一种基于sorry驱动的分解方法，提高了自动化定理证明的效率。

提出了sorry驱动的正式分解策略
避免了完整重构的浪费和上下文过长的问题

2026-03-25

PDF arXiv

7/10

因果机器学习临床决策支持系统人机协作

Integrating Causal Machine Learning into Clinical Decision Support Systems: Insights from Literature and Practice

Domenique Zipperling, Lukas Schmidt, Benedikt Hahn et al.

论文探讨了如何将因果机器学习融入临床决策支持系统，提出了设计原则和实践特征。

提出了基于因果ML的CDSS的设计需求
提出了CDSS的设计原则

2026-03-25

PDF arXiv

8/10

生成式检索自蒸馏查询理解

OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework

Ben Chen, Siyuan Wang, Yufei Ma et al.

OneSearch-V2通过增强推理和自蒸馏，显著提升了生成式搜索的性能和用户体验。

提出 thought-augmented 查询理解模块
构建 reasoning-internalized 自蒸馏训练流程

2026-03-25

PDF arXiv

7/10

LLM Early Childhood Education Assessment

When AI Meets Early Childhood Education: Large Language Models as Assessment Teammates in Chinese Preschools

Xingming Li, Runke Huang, Yanan Bao et al.

利用大语言模型评估幼儿师生互动质量，提高评估效率并实现常态化监测。

构建大规模中文幼儿师生互动数据集TEPE-TCI-370h
开发基于LLM的互动评估框架Interaction2Eval

2026-03-25

PDF arXiv

5/10

指代消解软件识别语义嵌入

Semantic Centroids and Hierarchical Density-Based Clustering for Cross-Document Software Coreference Resolution

Julia Matela, Frank Krüger

针对跨文档软件指代消解，提出一种混合框架，结合语义嵌入、知识库查询和密度聚类。

提出结合语义嵌入、知识库查询和密度聚类的混合框架
使用Sentence-BERT模型生成密集语义嵌入

2026-03-25

PDF arXiv

7/10

量子计算偏微分方程神经网络

Quantum Neural Physics: Solving Partial Differential Equations on Quantum Simulators using Quantum Convolutional Neural Networks

Jucai Zhai, Muhammad Abdullah, Boyang Chen et al.

提出一种基于量子卷积神经网络的混合量子-经典偏微分方程求解框架，利用量子计算加速。

提出Quantum Neural Physics框架，将偏微分方程映射到量子电路。
设计混合量子-经典CNN多重网格求解器(HQC-CNNMG)。

2026-03-25

PDF arXiv

6/10

图神经网络因果推断解耦表示学习

Causality-Driven Disentangled Representation Learning in Multiplex Graphs

Saba Nasiri, Selin Aviyente, Dorina Thanou

提出基于因果推断的多重图解耦表示学习框架CaDeM，提升图表示的泛化性和可解释性。

提出基于因果推断的解耦表示学习框架
实现了共享和私有信息的有效分离

2026-03-25

PDF arXiv

6/10

图神经网络模拟电路表示学习

KCLNet: Electrically Equivalence-Oriented Graph Representation Learning for Analog Circuits

Peng Xu, Yapeng Li, Tinghuan Chen et al.

KCLNet提出了一种面向模拟电路的图表示学习框架，通过电路定律约束提升泛化能力。

提出了一种异步图神经网络结构，用于模拟电路表示学习
引入了基于基尔霍夫电流定律(KCL)的表示学习方法，约束嵌入空间

2026-03-25

PDF arXiv

8/10

强化学习大型语言模型可验证奖励

Towards Effective Experiential Learning: Dual Guidance for Utilization and Internalization

Fei Bai, Zhipeng Chen, Chuan Hao et al.

提出DGO框架，通过外部经验库和内部知识双重引导，提升LLM在RLVR训练中的利用和内化能力。

提出DGO框架，结合外部和内部经验提升RLVR训练效果
构建经验库，利用历史轨迹引导探索

2026-03-25

PDF arXiv

8/10

知识追踪概念学习 LLM

ConceptKT: A Benchmark for Concept-Level Deficiency Prediction in Knowledge Tracing

Yu-Chen Kang, Yu-Chien Tang, An-Zi Yen

该论文提出了概念层面的知识追踪任务，并构建了ConceptKT数据集，用于预测学生知识缺陷。

提出了概念层面的知识追踪任务
构建了ConceptKT数据集

2026-03-25

PDF arXiv

8/10

推理层级结构记忆编码

Enhanced Mycelium of Thought (EMoT): A Bio-Inspired Hierarchical Reasoning Architecture with Strategic Dormancy and Mnemonic Encoding

Florian Odi Stummer

EMoT是一种受生物启发的层级推理框架，结合休眠机制和记忆编码，用于复杂多领域问题。

提出EMoT框架，一种层级推理架构
引入战略休眠和激活机制

2026-03-25

PDF arXiv

9/10

RAG LLM 法律推理

CVPD at QIAS 2026: RAG-Guided LLM Reasoning for Al-Mawarith Share Computation and Heir Allocation

Wassim Swaileh, Mohammed-En-Nadhir Zighem, Hichem Telli et al.

使用RAG的LLM进行伊斯兰继承份额计算和继承人分配。

提出基于RAG的伊斯兰继承份额计算pipeline
使用符号计算器生成高质量的合成数据

2026-03-25

PDF arXiv

9/10

LLM Bias Gender Inference

Failure of contextual invariance in gender inference with large language models

Sagar Kumar, Ariel Flint, Luca Maria Aiello et al.

LLM在性别推断中违反了上下文不变性，即使在语法结构相似的情况下也会出现偏差。

揭示了LLM在性别推断任务中上下文不变性失效的问题。
发现即使引入极小的上下文信息，LLM输出也会发生显著变化。

2026-03-24

PDF arXiv

8/10

LLM 测试生成软件演化

Evaluating LLM-Based Test Generation Under Software Evolution

Sabaat Haroon, Mohammad Taha Khan, Muhammad Ali Gulzar

研究软件演化下，LLM生成测试用例的鲁棒性和对语义变化的适应性。

评估了LLM生成测试在程序演化下的表现
分析了语义改变和语义保持改变对LLM生成测试的影响

2026-03-24

PDF arXiv

6/10

图生成能量模型采样

Graph Energy Matching: Transport-Aligned Energy-Based Modeling for Graph Generation

Michal Balcerak, Suprosana Shit, Chinmay Prabhakar et al.

GEM模型通过能量匹配解决图生成中采样问题，达到或超过扩散模型的性能。

提出Graph Energy Matching (GEM)框架
引入transport-aligned能量函数

2026-03-24

PDF arXiv

5/10

点云分割对比度度量学习高粒度探测器

Contrastive Metric Learning for Point Cloud Segmentation in Highly Granular Detectors

Max Marriott-Clarke, Lazar Novakovic, Elizabeth Ratzer et al.

论文提出了一种基于对比度度量学习的点云分割方法，用于高粒度探测器中的粒子簇分割。

提出基于监督对比度度量学习的点云分割方法
改进了重叠簇的分离和泛化能力

2026-03-24

PDF arXiv

8/10

时间关系抽取注意力机制自然语言处理

WISTERIA: Weak Implicit Signal-based Temporal Relation Extraction with Attention

Duy Dao Do, Anaïs Halftermeyer, Thi-Bich-Hanh Dao

WISTERIA模型通过弱隐式信号和注意力机制，提升了时间关系抽取性能并增强了解释性。

提出WISTERIA框架，利用弱隐式信号进行时间关系抽取
结合多头注意力和pair-conditioned top-K pooling，隔离信息量最大的上下文token

2026-03-24

PDF arXiv

5/10

机器学习时间序列预测气象预测

A Comparative Study of Machine Learning Models for Hourly Forecasting of Air Temperature and Relative Humidity

Jiaqi Dong

该研究比较了多种机器学习模型在重庆市气温和相对湿度小时预测中的表现，XGBoost表现最佳。

比较多种机器学习模型在气象预测中的应用
提出适用于山区城市气象预测的有效方法

2026-03-24

PDF arXiv

6/10

机器学习理论 Regime Variation 自适应学习

General Machine Learning: Theory for Learning Under Variable Regimes

Aomar Osmani

论文构建了一个学习理论框架，用于研究学习器、记忆和评估条件随时间变化的学习场景。

定义了 regime-varying 学习的核心理论对象
建立了 admissibility、protected-core preservation 和 evaluator-aware learning evolution 之间的联系

2026-03-24

PDF arXiv

7/10

异常检测一致性推理核密度估计

Between Resolution Collapse and Variance Inflation: Weighted Conformal Anomaly Detection in Low-Data Regimes

Oliver Hennhöfer, Christine Preisach

提出了连续权重核密度估计方法，解决低数据量下的加权一致性异常检测问题。

解决了加权一致性异常检测中分辨率崩溃和方差膨胀的权衡问题
提出了基于连续权重核密度估计的推理松弛方法

2026-03-24

PDF arXiv

8/10

生成式推荐语义ID 语言模型推理

Reasoning over Semantic IDs Enhances Generative Recommendation

Yingzhi He, Yan Sun, Junfei Tan et al.

SIDReasoner通过增强SID-语言对齐和结果驱动的强化优化，提升生成式推荐中的推理能力。

提出SIDReasoner框架，增强SID-语言对齐。
利用多任务训练和教师模型合成SID中心的数据。

2026-03-24

PDF arXiv

8/10

LLM安全自适应攻击激活水印

Robust Safety Monitoring of Language Models via Activation Watermarking

Toluwani Aremu, Daniil Ognev, Samuele Poppi et al.

针对大语言模型安全监控的脆弱性，提出激活水印防御自适应攻击。

揭示现有监控方法易受自适应攻击
设计基于激活水印的防御机制

2026-03-24

PDF arXiv

5/10

张量网络傅里叶变换风险计算

High-Resolution Tensor-Network Fourier Methods for Exponentially Compressed Non-Gaussian Aggregate Distributions

Juan José Rodríguez-Aldavero, Juan José García-Ripoll

利用张量网络傅里叶方法高效压缩非高斯分布，加速风险计算。

提出基于张量网络的压缩表示方法
实现对高分辨率频率模式的计算

2026-03-24

PDF arXiv

8/10

LLM 脑对齐语言理解

When Language Models Lose Their Mind: The Consequences of Brain Misalignment

Gabriele Merlin, Mariya Toneva

研究表明，脑对齐对于LLM的语言能力至关重要，脑失调会导致下游任务性能显著下降。

提出了脑失调LLM的概念
评估了脑对齐对LLM语言能力的影响

2026-03-24

PDF arXiv

5/10

表格数据生成概率电路生成模型

A Sobering Look at Tabular Data Generation via Probabilistic Circuits

Davide Scassola, Dylan Ponsford, Adrián Javaloy et al.

该论文批判了表格数据生成领域对扩散模型的过度依赖，并提出了基于概率电路的替代方案。

指出现有表格数据生成评估协议的局限性
提出了基于深度概率电路(PCs)的表格数据生成方法

2026-03-24

PDF arXiv

9/10

LLM Reasoning Optimization

Can Large Language Models Reason and Optimize Under Constraints?

Fabien Bernier, Salah Ghamizi, Pantelis Dogoulis et al.

该论文评估了LLM在受约束优化问题（电力系统最优潮流问题）上的推理和优化能力，发现现有LLM表现不佳。

提出了一个评估LLM在受约束优化问题上的能力的新框架。
揭示了现有LLM在处理结构化推理和约束优化方面的不足。

2026-03-24

PDF arXiv

5/10

forensic dentistry dental records aggregation operators

On the use of Aggregation Operators to improve Human Identification using Dental Records

Antonio D. Villegas-Yeguas, Guillermo R-García, Tzipi Kahana et al.

论文提出利用聚合算子改进牙科记录的人员身份识别方法，提高了识别准确性和可解释性。

设计牙科记录自动比较的聚合机制
引入数据驱动、模糊逻辑和机器学习等聚合方法

2026-03-24

PDF arXiv

7/10

Membership Inference Attack Privacy Machine Learning

A Critical Review on the Effectiveness and Privacy Threats of Membership Inference Attacks

Najeeb Jebreel, David Sánchez, Josep Domingo-Ferrer

论文评估成员推断攻击（MIAs），发现其在现实条件下是较弱的隐私威胁，可能导致过度防御。

提出评估MIAs的框架，定义了真正的隐私威胁条件
评估了代表性的MIAs

2026-03-24

PDF arXiv

9/10

LLM 金融推理基准测试

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Yogesh Agrawal, Aniruddha Dutta, Md Mahadi Hasan et al.

FinTradeBench是一个金融推理基准，评估LLMs在公司基本面和交易信号上的推理能力。

提出了FinTradeBench金融推理基准
涵盖基本面、交易信号和混合推理三种类型问题

2026-03-19

PDF arXiv

9/10

MoE 强化学习知识蒸馏

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Zhuolin Yang, Zihan Liu, Yang Chen et al.

Nemotron-Cascade 2是一个30B MoE模型，通过级联强化学习和多领域知识蒸馏实现卓越的推理和Agent能力。

构建了3B激活参数的30B MoE模型，具有卓越的推理和Agent能力
扩展了Cascade RL，覆盖更广泛的推理和Agent领域

2026-03-19

PDF arXiv

9/10

LLM Reasoning Process Control

Box Maze: A Process-Control Architecture for Reliable LLM Reasoning

Zou Qiang

论文提出Box Maze框架，通过显式过程控制提高LLM推理的可靠性，减少对抗条件下的边界失效。

提出Box Maze框架，一种显式过程控制架构
将LLM推理分解为记忆 grounding、结构化推理和边界强制三层

2026-03-19

PDF arXiv

8/10

LLM reasoning game theory

Evaluating Counterfactual Strategic Reasoning in Large Language Models

Dimitrios Georgousis, Maria Lymperaiou, Angeliki Dimitriou et al.

评估大语言模型在反事实博弈中的策略推理能力，揭示其在策略泛化和激励敏感性方面的局限性。

提出了反事实博弈的概念来评估LLM的策略推理能力
设计了多指标评估框架，对比了默认和反事实环境下的LLM表现

2026-03-19

PDF arXiv

7/10

语言模型领域特定分裂训练

Optimal Splitting of Language Models from Mixtures to Specialized Domains

Skyler Seto, Pierre Ablin, Anastasiia Filippova et al.

论文提出一种优化语言模型分裂训练的方法，通过计算分配提升模型在特定领域的性能。

提出一种预训练模型分裂训练的优化方法
利用 scaling laws 预测模型损失

2026-03-19

PDF arXiv

6/10

离散扩散模型文本生成解码方法

D5P4: Partition Determinantal Point Process for Diversity in Parallel Discrete Diffusion Decoding

Jonathan Lys, Vincent Gripon, Bastien Pasdeloup et al.

D5P4是一种基于行列式点过程的并行离散扩散解码方法，旨在提升生成文本的多样性。

提出了离散扩散模型的广义beam-search框架
设计了基于行列式点过程(DPP)的D5P4多样性选择算法

2026-03-19

PDF arXiv

6/10

光谱数据机器学习可解释性

SHAPCA: Consistent and Interpretable Explanations for Machine Learning Models on Spectroscopy Data

Mingxing Zhang, Nicola Rossberg, Simone Innocente et al.

SHAPCA结合PCA降维和SHAP解释光谱数据机器学习模型，提供一致且可解释的特征重要性分析。

提出SHAPCA框架，用于解释光谱数据机器学习模型
结合PCA和SHAP，在原始输入空间提供解释

2026-03-19

PDF arXiv

7/10

在线学习层级贝叶斯模型序列数据

Hierarchical Latent Structure Learning through Online Inference

Ines Aitsahalia, Kiyohito Iigaya

HOLMES模型结合在线推理和层级贝叶斯，实现了序列数据中层级结构的发现和学习。

提出了HOLMES模型，用于在线学习层级潜在结构。
验证了HOLMES模型在预测性能和表示紧凑性方面的优势。

2026-03-19

PDF arXiv

8/10

LLM 二进制分析漏洞分析

Implicit Patterns in LLM-Based Binary Analysis

Qiang Li, XiangRui Zhang, Haining Wang

研究基于LLM的二进制分析中，隐式token级模式如何组织探索过程。

首次大规模trace级别研究LLM在二进制分析中的隐式模式
识别出四种主导模式：早期修剪、路径依赖锁定、目标回溯、知识引导优先级

2026-03-19

PDF arXiv

9/10

Uncertainty Estimation Reasoning Models Chain-of-Thought

How Uncertainty Estimation Scales with Sampling in Reasoning Models

Maksym Del, Markus Kängsepp, Marharyta Domnich et al.

研究了推理语言模型中并行采样方法对不确定性估计的影响，发现混合信号表现最佳。

分析了自洽性和语言置信度在推理模型中的不确定性估计中的表现
揭示了混合信号组合在提高不确定性估计质量方面的优势

2026-03-19

PDF arXiv

9/10

科学构思动机驱动推理强化学习

MoRI: Learning Motivation-Grounded Reasoning for Scientific Ideation in Large Language Models

Chenyang Gu, Jiahao Cheng, Meicong Zhang et al.

MoRI框架通过动机驱动的推理，提升大语言模型在科学构思方面的技术深度和科学依据。

提出MoRI框架，增强LLM的科学推理能力
引入熵感知信息增益和对比语义增益的强化学习奖励

2026-03-19

PDF arXiv

7/10

Verifiable AI Cryptographic Proofs Model Auditing

Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference

Pranay Anchuri, Matteo Campanelli, Paul Cesaretti et al.

提出了一个轻量级的AI模型推理可验证框架，通过采样和统计特性降低了证明开销。

提出了一种基于采样的轻量级密码学证明方法，用于验证AI模型的推理过程。
形式化了利用功能不同的模型之间的轨迹分离来保证可验证推理协议安全性的条件。

2026-03-19

PDF arXiv

8/10

LLM 时间推理多语言

What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?

Gagan Bhatia, Ahmad Muhammad Isa, Maxime Peyrard et al.

该论文提出了一个多语言时间推理基准，分析了token化和时间表示对LLM时间推理的影响。

提出了MultiTempBench多语言时间推理基准
发现token化质量是低资源语言时间推理的瓶颈

2026-03-19

PDF arXiv

8/10

Reinforcement Learning Exploration Few-shot Learning

Context Bootstrapped Reinforcement Learning

Saaket Agashe, Jayanth Srinivasa, Gaowen Liu et al.

CBRL通过注入示范提升强化学习探索效率，在多种推理任务上验证有效性。

提出Context Bootstrapped Reinforcement Learning (CBRL)
通过预先注入示范来引导探索，提高RLVR的探索效率

2026-03-19

PDF arXiv

6/10

Ideology NLP Social Discourse

A conceptual framework for ideology beyond the left and right

Kenneth Joseph, Kim Williams, David Lazer

论文提出了一种新的意识形态框架，超越了传统的左右划分，用于更细致地分析社会话语。

提出了一种基于社会认知网络的多层次意识形态框架
阐明了该框架如何连接现有NLP任务（如立场检测和自然语言推理）

2026-03-19

PDF arXiv

9/10

LLM Reasoning Chain-of-Thought

Entropy trajectory shape predicts LLM reasoning reliability: A diagnostic study of uncertainty dynamics in chain-of-thought

Xinghao Zhao

论文研究链式思考中不确定性轨迹形状对LLM推理可靠性的预测能力。

提出熵轨迹单调性指标，用于预测CoT推理的正确性
揭示了单调性比总熵减少量更能预测正确性

2026-03-19

PDF arXiv

5/10

地震学矩张量反演贝叶斯推断

Improving moment tensor solutions under Earth structure uncertainty with simulation-based inference

A. A. Saoulis, T. -S. Pham, A. M. G. Ferreira

利用基于模拟的推理(SBI)方法，提升在地球结构不确定性下的矩张量反演结果的可靠性。

提出基于模拟的推理(SBI)方法解决地球结构不确定性问题
证明传统高斯参数化方法的局限性

2026-03-19

PDF arXiv

6/10

Normalizing Flows Diffusion Models Fokker-Planck Equation

Neural Galerkin Normalizing Flow for Transition Probability Density Functions of Diffusion Models

Riccardo Saporiti, Fabio Nobile

提出一种新的Neural Galerkin Normalizing Flow框架，近似扩散过程的转移概率密度函数。

提出Neural Galerkin Normalizing Flow框架
使用Normalizing Flows求解Fokker-Planck方程

2026-03-19

PDF arXiv

7/10

Hierarchical Predictive Processing Authority-Level Priors Active Inference

Authority-Level Priors: An Under-Specified Constraint in Hierarchical Predictive Processing

Marcela Palejova

论文提出Authority-Level Priors (ALPs)概念，解决分层预测处理中身份调节机制不足的问题，并提出可验证的预测。

提出Authority-Level Priors (ALPs)的概念
解释了信念更新和自主神经反应不一致的现象

2026-03-19

PDF arXiv

9/10

数学推理 LLM 数据集

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Pranjal Aggarwal, Marjan Ghazvininejad, Seungone Kim et al.

论文提出了一个数学对象推理的框架，包括数据集、训练方法和测试时聚合策略，显著提升了LLM在数学领域的表现。

构建并发布了数学对象推理数据集Principia
提出了使用LLM judges和verifiers的训练方法，特别是on-policy训练

2026-03-19

PDF arXiv

8/10

Geography LLM Reasoning

Geography According to ChatGPT -- How Generative AI Represents and Reasons about Geography

Krzysztof Janowicz, Gengchen Mai, Rui Zhu et al.

该论文探讨了ChatGPT等生成式AI如何表示和推理地理知识，并提出了三个启发性问题。

分析了生成式AI对地理知识的表示和推理能力
提出了AI模型地理知识的脆弱性问题

2026-03-19

PDF arXiv

9/10

LLM Korean Language Reasoning

Mi:dm K 2.5 Pro

KT Tech innovation Group

Mi:dm K 2.5 Pro是一个针对企业级复杂场景优化的32B韩语LLM，具备卓越推理能力。

针对韩语及特定领域进行优化
构建高质量数据基础，采用AST分析、gap-filling等方法

2026-03-19

PDF arXiv

9/10

Multimodal Learning Geometric Reasoning Reinforcement Learning

Thinking with Constructions: A Benchmark and Policy Optimization for Visual-Text Interleaved Geometric Reasoning

Haokun Zhao, Wanshi Xu, Haidong Yuan et al.

提出基于视觉-文本交错推理的几何问题求解框架，并引入强化学习策略优化模型。

构建了包含文本构造步骤和视觉更新的几何问题数据集GeoAux-Bench
发现视觉-文本交错辅助优于单模态辅助，构造可以降低推理困惑度

2026-03-19

PDF arXiv

6/10

图同构图算法强正则图

Breaking Hard Isomorphism Benchmarks with DRESS

Eduar Castrillo Velilla

Δ-DRESS算法通过顶点删除在同构图检测中表现出色，超越3-WL算法。

提出并验证了Δ-DRESS算法
在大量强正则图数据集上实现了100%的同构图区分

2026-03-19

PDF arXiv

7/10

机器翻译性别偏见 Decoder-only模型

Gender Disambiguation in Machine Translation: Diagnostic Evaluation in Decoder-Only Architectures

Chiara Manna, Hosein Mohebbi, Afra Alishahi et al.

该论文研究Decoder-only模型在机器翻译中存在的性别偏见问题，并提出一种新的评估指标。

提出新的“Prior Bias”指标
评估Decoder-only模型在机器翻译中的性别偏见

2026-03-18

PDF arXiv

8/10

LLM Attention Model Compression

CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention

Zhongzhu Zhou, Fengxiang Bie, Ziyan Chen et al.

提出CARE方法，通过协方差感知和秩增强分解，优化多头潜在注意力转换，提升模型性能。

激活保留分解
调整秩分配

2026-03-18

PDF arXiv

7/10

量化混合精度强化学习

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Arpit Singh Gautam, Saurabh Jha

提出RAMP，一种基于强化学习的自适应混合精度量化方法，提高LLM在资源受限设备上的推理效率。

提出RAMP框架，基于强化学习自动调整每层比特宽度
引入Scale Folding技术，支持亚4比特量化

2026-03-18

PDF arXiv

9/10

LLM verbal confidence metacognition

How do LLMs Compute Verbal Confidence

Dharshan Kumaran, Arthur Conmy, Federico Barbero et al.

该论文研究了LLM如何计算verbal confidence，揭示了其automatic、sophisticated的自我评估机制。

揭示LLM的verbal confidence是cached retrieval而非just-in-time计算
发现confidence representations在答案附近的位置出现，并被缓存

2026-03-18

PDF arXiv

8/10

全双工对话系统潜变量推理语音识别

The Silent Thought: Modeling Internal Cognition in Full-Duplex Spoken Dialogue Models via Latent Reasoning

Donghang Wu, Tianyu Zhang, Yuxin Li et al.

FLAIR模型通过潜变量推理模拟人脑边听边思考的机制，提升全双工对话系统性能。

提出FLAIR模型，模拟对话中的内部认知过程
设计了基于ELBO的目标函数，用于有效监督微调

2026-03-18

PDF arXiv

7/10

语言模型空间推理舞台布局

Text-to-Stage: Spatial Layouts from Long-form Narratives

Jefferson Hernandez, Swarnadeep Saha, Chenxi Whitehouse et al.

论文研究了利用语言模型从文本推断舞台布局，并提出了一种训练和评估方法。

提出了一种从非结构化文本生成舞台布局的方法
设计了一个受戏剧启发的可验证评估套件

2026-03-18

PDF arXiv

9/10

LLM Chain-of-Thought Information Gain

Process Supervision for Chain-of-Thought Reasoning via Monte Carlo Net Information Gain

Corentin Royer, Debarun Bhattacharjya, Gaetano Rossiello et al.

提出了一种利用信息增益自动生成CoT推理步骤标签的方法，用于提升LLM推理的可靠性和效率。

提出基于信息论的自动步骤标签生成方法
降低了计算复杂度至O(N)

2026-03-18

PDF arXiv

8/10

Transformer Dropout Uncertainty

Dropout Robustness and Cognitive Profiling of Transformer Models via Stochastic Inference

Antônio Junior Alves Caiado, Michael Hahsler

研究了Transformer模型在Dropout下的鲁棒性，揭示模型架构对稳定性的影响。

首次对Transformer模型进行MC Dropout基准测试
揭示Dropout鲁棒性与架构相关，与模型规模无关

2026-03-18

PDF arXiv

9/10

无标签学习强化学习 LLM推理

CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution

Teng Pan, Yuchen Yan, Zixuan Wang et al.

CoVerRL通过生成器-验证器协同进化，解决了无标签推理中的共识陷阱问题。

提出了CoVerRL框架
揭示了无标签推理中的共识陷阱

2026-03-18

PDF arXiv

7/10

神经网络抑制性归一化误差反向传播

Inhibitory normalization of error signals improves learning in neural circuits

Roy Henha Eyono, Daniel Levenstein, Arna Ghosh et al.

抑制性归一化误差信号能显著提升神经网络在图像识别任务中的学习性能。

揭示了抑制介导的归一化在神经网络学习中的作用机制。
证明了对反向传播误差进行归一化处理能显著提高学习性能。

2026-03-18

PDF arXiv

8/10

LLM Paper Evaluation Ranking

From Isolated Scoring to Collaborative Ranking: A Comparison-Native Framework for LLM-Based Paper Evaluation

Pujun Zheng, Jiacheng Yao, Jinquan Zheng et al.

提出了一个基于LLM的论文评价框架CNPE，通过比较进行论文质量排序，提升评价的鲁棒性和泛化性。

提出Comparison-Native的论文评价框架CNPE。
设计基于图的相似性排序算法，用于采样更具信息量的论文对。

2026-03-18

PDF arXiv

5/10

异常检测符号回归无监督学习

Unsupervised Symbolic Anomaly Detection

Md Maruf Hossain, Tim Katzke, Simon Klüttermann et al.

SYRAN是一种基于符号回归的无监督异常检测方法，可生成人类可读的方程进行异常检测。

提出了一种基于符号回归的无监督异常检测方法SYRAN
学习人类可读的方程来描述符号不变量

2026-03-18

PDF arXiv

6/10

异常检测可解释性AI 基础模型

FoMo X: Modular Explainability Signals for Outlier Detection Foundation Models

Simon Klüttermann, Tim Katzke, Phuong Huong Nguyen et al.

FoMo-X框架通过模块化解释性信号，提升了异常检测基础模型的可解释性和可靠性。

提出了FoMo-X模块化框架，增强异常检测基础模型的可解释性。
设计了Severity Head和Uncertainty Head，提供风险分级和置信度度量。

2026-03-18

PDF arXiv

6/10

流行病学再生数估计时间序列分析

Conditional Inverse Learning of Time-Varying Reproduction Numbers Inference

Lanlan Yu, Quan-Hui Liu, Haoyue Zheng et al.

提出CIRL框架，结合流行病学结构和数据驱动的时间表示，估计时变再生数。

提出CIRL框架，用于估计时变再生数
结合流行病学约束和数据驱动的时间表示

2026-03-18

PDF arXiv

5/10

PCA 几何设计参数降维

CA-Based Interpretable Knowledge Representation and Analysis of Geometric Design Parameters

Alexander Köhler, Michael Breuß

研究PCA在高维几何设计参数估计中的局限性，并提出改进方法以实现准确的参数估计。

分析PCA在几何设计参数估计中的问题
提出实现准确参数估计的条件

2026-03-18

PDF arXiv

5/10

空气质量预测延迟微分方程深度学习

AirDDE: Multifactor Neural Delay Differential Equations for Air Quality Forecasting

Binqing Wu, Zongjiang Shang, Shiyu Liu et al.

AirDDE通过神经延迟微分方程建模空气质量预测中的延迟效应，显著提升了预测精度。

提出AirDDE，一种基于神经延迟微分方程的空气质量预测框架
引入记忆增强注意力模块，自适应捕捉多因素数据的延迟效应

2026-03-18

PDF arXiv

5/10

Neural Operators FitzHugh-Nagumo model Translation Invariance

Translation Invariance of Neural Operators for the FitzHugh-Nagumo Model

Luca Pellegrini

研究神经算子(NOs)在FitzHugh-Nagumo模型中捕捉时空动态的平移不变性，并评估不同NOs架构的性能。

提出一种新颖的训练策略，评估NOs的平移不变性。
对七种NOs架构进行了全面的基准测试，包括训练和测试精度、效率和推理速度。

2026-03-18

PDF arXiv

6/10

时间序列预测 Transformer 上下文学习

Baguan-TS: A Sequence-Native In-Context Learning Model for Time Series Forecasting with Covariates

Linxiao Yang, Xue Jiang, Gezheng Xu et al.

Baguan-TS利用3D Transformer和上下文学习，提升了带协变量的时间序列预测性能。

提出Baguan-TS模型，融合序列表示学习和上下文学习
引入目标空间检索的局部校准方法，提升模型稳定性和准确性

2026-03-18

PDF arXiv

9/10

视频生成扩散模型推理

Demystifing Video Reasoning

Ruisi Wang, Zhongang Cai, Fanyi Pu et al.

该论文揭示了视频生成模型中推理能力涌现的新机制——Chain-of-Steps，并分析了相关行为。

提出Chain-of-Steps (CoS)推理机制，挑战了Chain-of-Frames (CoF)的假设
识别了工作记忆、自我纠正增强、感知先于行动等推理行为

2026-03-17

PDF arXiv

9/10

LLM 推理边缘计算

Efficient Reasoning on the Edge

Yelysei Bondarenko, Thomas Hehn, Rob Hesselink et al.

该论文提出了一种轻量级方法，利用LoRA适配器和强化学习，使小型LLM能够在边缘设备上进行高效推理。

LoRA适配器结合监督微调，提升小型LLM的推理能力
通过强化学习进行预算强制，显著减少响应长度

2026-03-17

PDF arXiv

6/10

并行计算牛顿法动态系统

Unifying Optimization and Dynamics to Parallelize Sequential Computation: A Guide to Parallel Newton Methods for Breaking Sequential Bottlenecks

Xavier Gonzalez

该论文提出了一套稳定可扩展的并行牛顿法，用于解决序列计算的并行化难题，并提供了理论保证。

开发了可扩展且稳定的并行牛顿法（包括拟牛顿法和信赖域法）
将多种定点方法统一到并行牛顿框架中

2026-03-17

PDF arXiv

8/10

代码大模型工业场景代码生成

InCoder-32B: Code Foundation Model for Industrial Scenarios

Jian Yang, Wei Zhang, Jiajun Wu et al.

InCoder-32B是首个面向工业场景的32B参数代码大模型，在工业领域基准测试中表现出色。

提出InCoder-32B模型，解决工业场景代码大模型性能退化问题
采用高效架构和多阶段训练策略

2026-03-17

PDF arXiv

5/10

多物理场学习生成模型偏微分方程

pADAM: A Plug-and-Play All-in-One Diffusion Architecture for Multi-Physics Learning

Amirhossein Mollaali, Bongseok Kim, Christian Moya et al.

pADAM是一种多物理场学习的通用生成框架，可实现跨异构偏微分方程的统一推理。

提出了pADAM，一个统一的生成框架，用于学习跨异构偏微分方程的共享概率先验。
pADAM支持前向预测和逆推理，无需重新训练。

2026-03-17

PDF arXiv

7/10

文化偏见大型语言模型作者身份推断

Probing Cultural Signals in Large Language Models through Author Profiling

Valentin Lafargue, Ariel Guerra-Adames, Emmanuelle Claeys et al.

该论文研究了大型语言模型中存在的文化偏见，通过歌词作者身份推断评估其文化倾向。

揭示了LLM在作者身份推断中存在的文化偏见
提出了量化文化差异的公平性指标MAD和RD

2026-03-17

PDF arXiv

5/10

贝叶斯模型心理测量学隐性联想测验 (IAT)

Bayesian Inference of Psychometric Variables From Brain and Behavior in Implicit Association Tests

Christian A. Kothe, Sean Mullen, Michael V. Bronstein et al.

提出一种基于贝叶斯模型的 IAT 分析方法，用于预测精神健康相关指标。

提出了一种稀疏分层贝叶斯模型，用于分析 IAT 数据。
验证了该模型在预测自杀意念和精神病相关症状方面的有效性。

2026-03-17

PDF arXiv

6/10

效率评估基准测试流形学习

GeMA: Learning Latent Manifold Frontiers for Benchmarking Complex Systems

Jia Ming Li, Anupriya, Daniel J. Graham

GeMA利用变分自编码器学习潜在流形边界，用于复杂系统效率评估和基准测试。

提出Geometric Manifold Analysis (GeMA)方法
使用productivity-manifold variational autoencoder (ProMan-VAE)

2026-03-17

PDF arXiv

8/10

LLM 阿拉伯语词法句法标注

Arabic Morphosyntactic Tagging and Dependency Parsing with Large Language Models

Mohamed Adel, Bashar Alhafni, Nizar Habash

论文研究了LLM在阿拉伯语词法句法标注和依存句法分析任务上的表现，并分析了其优势与不足。

评估了指令调整后的LLM在阿拉伯语结构化预测任务上的性能
分析了prompt设计和示例选择对性能的影响

2026-03-17

PDF arXiv

6/10

轨迹推断 Finsler几何动态系统

Learning Lineage-guided Geodesics with Finsler Geometry

Aaron Zweig, Mingxuan Zhang, David A. Knowles et al.

提出了结合几何和分类的Finsler度量，用于轨迹推断，提升了在合成和真实数据上的插值性能。

提出了一种新的Finsler度量
结合了几何和分类先验知识

2026-03-17

PDF arXiv

9/10

离散推理马尔可夫模型自适应步数

Self-Aware Markov Models for Discrete Reasoning

Gregor Kornhardt, Jannis Chemseddine, Christian Wald et al.

提出自适应马尔可夫模型，通过重掩码和自适应步数提升离散推理能力。

引入自感知马尔可夫模型
允许token重掩码以纠正错误

2026-03-17

PDF arXiv

7/10

低资源翻译 LLM 上下文学习

Can Linguistically Related Languages Guide LLM Translation in Low-Resource Settings?

Aishwarya Ramasethu, Niyathi Allu, Rohin Garg et al.

研究了低资源机器翻译中，利用语言相关性进行LLM上下文学习的有效性。

分析了语言相关pivot语言在低资源翻译中的作用
评估了few-shot示例构建对翻译效果的影响

2026-03-17

PDF arXiv

10/10

多跳推理 QA 数据集

Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models

Xiaojie Gu, Sherry T. Tong, Aosong Feng et al.

Omanic:一个多跳QA数据集，用于评估LLM推理过程中的中间步骤表现，包含合成和人工标注数据。

提出了Omanic数据集，包含结构化标注的多跳QA数据
系统评估了SOTA LLM在OmanicBench上的表现

2026-03-17

PDF arXiv

9/10

LLM 地缘政治推理

When AI Navigates the Fog of War

Ming Li, Xirui Li, Tianyi Zhou

研究LLM在模拟进行中的地缘政治冲突中的推理能力，缓解数据泄露问题。

构建了基于时间节点的LLM推理评估框架
分析了LLM在地缘政治危机中的战略推理能力

2026-03-17

PDF arXiv

5/10

高斯过程多类分类 Aitchison几何

Simplex-to-Euclidean Bijection for Conjugate and Calibrated Multiclass Gaussian Process

Bernardo Williams, Harsha Vardhan Tetali, Arto Klami et al.

利用概率单纯形的几何特性，提出一种共轭且校准的多类高斯过程分类模型。

将多类分类问题转化为低维度的GP回归问题
实现共轭推断，避免分布近似

2026-03-17

PDF arXiv

9/10

无监督RL LLM 数学推理

When and Why Does Unsupervised RL Succeed in Mathematical Reasoning? A Manifold Envelopment Perspective

Zelin Zhang, Fei Cheng, Chenhui Chu

该论文研究了无监督RL提升LLM数学推理能力，并揭示其成功和失败的原因。

设计和评估了一系列促进简洁和确定性生成的内在奖励
揭示了基础模型的逻辑先验如何影响无监督RL的成功或失败

2026-03-17

PDF arXiv

9/10

情感智能情境评估推理

EmoLLM: Appraisal-Grounded Cognitive-Emotional Co-Reasoning in Large Language Models

Yifei Zhang, Mingyang Li, Henry Gao et al.

EmoLLM通过情境评估和认知情感共推理框架，提升大语言模型在对话中的情感智能。

提出基于情境评估理论的EmoLLM框架
设计了显式的情境评估推理图(ARG)进行中间推理

2026-03-17

PDF arXiv

9/10

问答系统时间推理数据集

How often do Answers Change? Estimating Recency Requirements in Question Answering

Bhawna Piryani, Zehra Mert, Adam Jatowt

论文提出RecencyQA数据集，用于评估LLM在时间敏感问题上的表现，关注答案时效性和上下文依赖性。

提出recency-stationarity分类法
构建RecencyQA数据集

2026-03-17

PDF arXiv

7/10

结构化数据线性复杂度基础模型

FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

Zhenghang Song, Tang Qian, Lu Chen et al.

FEAT提出了线性复杂度的结构化数据基础模型，通过混合线性编码提升性能并加速推理。

提出了多层双轴架构，用混合线性编码替代二次注意力
设计了AFBM和Conv-GLA，实现局部依赖和全局记忆

2026-03-17

PDF arXiv

9/10

LLM 因果推理忠实度

Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Oleg Somov, Mikhail Chaichuk, Mikhail Seleznyov et al.

研究发现LLM在schema引导推理中，中间结构对最终输出的因果影响较弱，更多作为上下文信息。

提出了一种因果评估协议，用于衡量LLM对中间结构的忠实度。
发现LLM对中间结构的表观忠实度脆弱，改变中间结构后预测更新失败。

2026-03-17

PDF arXiv

5/10

射电天文学机器学习可解释性

Explainable machine learning workflows for radio astronomical data processing

S. Yatawatta, A. Ahmadi, B. Asabere et al.

提出了一种基于模糊规则和深度学习的、可解释的射电天文数据处理机器学习工作流。

提出一种可解释的射电天文数据处理ML方法
结合模糊规则和深度学习提高可解释性

2026-03-17

PDF arXiv

6/10

肺癌药物反应预测 XGBoost

An Interpretable Machine Learning Framework for Non-Small Cell Lung Cancer Drug Response Analysis

Ann Rachel, Pranav M Pawar, Mithun Mukharjee et al.

该论文利用XGBoost和SHAP值，结合DeepSeek解释，构建了个性化肺癌药物反应预测模型。

构建基于基因信息的药物反应预测模型
利用SHAP值进行模型的可解释性分析

2026-03-17

PDF arXiv

7/10

时间序列故障诊断因果推断

Learning to Predict, Discover, and Reason in High-Dimensional Discrete Event Sequences

Hugo Math

利用Transformer和LLM构建车辆故障诊断的预测、发现和推理框架。

提出基于Transformer的预测性维护架构
开发可扩展的样本和群体级别因果发现框架

2026-03-17

PDF arXiv

8/10

注意力机制深度学习语言模型

Mixture-of-Depths Attention

Lianghui Zhu, Yuxin Fang, Bencheng Liao et al.

MoDA通过混合深度注意力机制解决LLM深度扩展中的信号衰减问题，提升模型性能。

提出混合深度注意力机制MoDA，允许注意力头关注当前层和先前层的KV对
设计硬件高效的MoDA算法，优化非连续内存访问

2026-03-16

PDF arXiv

9/10

数学基准测试自动验证

HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification

Erik Y. Wang, Sumeet Motwani, James V. Roggeveen et al.

HorizonMath提出了一个自动验证数学发现能力的基准，并发现了GPT的潜在新贡献。

提出了HorizonMath基准，包含超过100个未解决的数学问题
开发了自动验证框架，可以高效验证数学问题的解

2026-03-16

PDF arXiv

9/10

道德推理 LLM表示 Sparse Autoencoders

Mechanistic Origin of Moral Indifference in Language Models

Lingyu Li, Yan Teng, Yingchun Wang

论文揭示LLM存在道德冷漠问题，并提出通过重构潜在表示来改善道德推理。

发现LLM在道德概念上的表示存在差异
提出使用Sparse Autoencoders重构道德特征的方法

2026-03-16

PDF arXiv

7/10

知识蒸馏 xLSTM 大语言模型

Effective Distillation to Hybrid xLSTM Architectures

Lukas Hauzenberger, Niklas Schmidinger, Thomas Schmied et al.

该论文提出一种有效的知识蒸馏方法，用于将Transformer LLM提炼到xLSTM架构上，并取得较好效果。

提出针对xLSTM的蒸馏pipeline
引入合并阶段，整合线性化专家模型

2026-03-16

PDF arXiv

7/10

序列建模状态空间模型推理效率

Mamba-3: Improved Sequence Modeling using State Space Principles

Aakash Lahoti, Kevin Y. Li, Berlin Chen et al.

Mamba-3通过改进状态空间模型，提升了序列建模的性能和效率。

改进的状态空间模型离散化
复数状态更新规则

2026-03-16

PDF arXiv

9/10

LLM 教育推理

Can LLMs Model Incorrect Student Reasoning? A Case Study on Distractor Generation

Yanick Zengaffinen, Andreas Opedal, Donya Rooein et al.

论文研究LLM在生成迷惑选项时模拟学生错误推理的能力，并分析其策略和失败模式。

提出分析LLM生成迷惑选项策略的分类方法
分析LLM模拟学生错误推理的流程和失败模式

2026-03-16

PDF arXiv

9/10

causal inference LLM benchmark

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

Shaojie Shi, Zhengyu Shi, Lingran Zheng et al.

InterveneBench基准测试LLM在真实社会系统干预推理和因果研究设计的能力，发现现有LLM表现不佳，并提出STRIDES框架。

提出了InterveneBench基准测试，用于评估LLM在社会科学干预推理方面的能力
发现现有LLM在InterveneBench上的表现不佳

2026-03-16

PDF arXiv

6/10

路由算法深度学习混合专家模型

Bridging Local and Global Knowledge: Cascaded Mixture-of-Experts Learning for Near-Shortest Path Routing

Yung-Fu Chen, Anish Arora

提出了一个用于近最短路径路由的级联混合专家模型，提升稀疏网络路由精度。

提出了Cascaded Mixture of Experts (Ca-MoE)架构
引入在线元学习策略，防止灾难性遗忘

2026-03-16

PDF arXiv

9/10

LLM Reasoning Information Theory

Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty

Jeonghye Kim, Xufang Luo, Minbeom Kim et al.

该论文提出信息论框架分析LLM推理，强调不确定性外部化对推理能力的重要性。

提出基于信息论的LLM推理分析框架
区分程序性信息和认知性语言化

2026-03-16

PDF arXiv

8/10

LLM Table Understanding Interpretability

A Closer Look into LLMs for Table Understanding

Jia Wang, Chuanyu Qin, Mingyu Zheng et al.

该论文深入研究了LLM在表格理解中的内部机制，并分析了不同模型的表现差异。

揭示了LLM处理表格数据的注意力机制演变过程
分析了不同类型LLM在表格任务中的有效层数

2026-03-16

PDF arXiv

9/10

LLM安全对抗性攻击 Chain-of-Thought

SFCoT: Safer Chain-of-Thought via Active Safety Evaluation and Calibration

Yu Pan, Wenlong Yu, Tiejun Wu et al.

SFCoT通过主动安全评估和校准，提升LLM在推理过程中的安全性，有效抵抗对抗性攻击。

提出SFCoT框架，实现推理过程中的实时安全评估和校准
设计三层安全评分系统和多角度一致性验证机制

2026-03-16

PDF arXiv

9/10

LLM Beam Search Reasoning

More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search

Gal Dalal, Assaf Hallak, Gal Chechik et al.

更大beam size可能损害LLM推理性能，论文分析了过估计偏差问题并提出了最佳beam size选择方法。

揭示了beam search中的过估计偏差问题
提出了基于信号噪声比的最大有效beam width理论

2026-03-16

PDF arXiv

7/10

Masked Diffusion Language Models Decoding Strategy Attention Mechanism

DOS: Dependency-Oriented Sampler for Masked Diffusion Language Models

Xueyu Zhou, Yangrong Hu, Jian Huang

提出Dependency-Oriented Sampler (DOS)解码策略，利用token间依赖关系优化Masked Diffusion Language Models的生成。

提出Dependency-Oriented Sampler (DOS)
利用attention矩阵近似token间依赖关系

2026-03-16

PDF arXiv

8/10

法律推理 Python 形式化方法

PYTHEN: A Flexible Framework for Legal Reasoning in Python

Ha-Thanh Nguyen, Ken Satoh

PYTHEN是一个基于Python的灵活法律推理框架，易于使用和扩展。

提出了一个基于Python的法律推理框架PYTHEN
支持合取和析取条件以及更具表现力的异常处理

2026-03-16

PDF arXiv

6/10

特征重要性机器学习 R语言

xplainfi: Feature Importance and Statistical Inference for Machine Learning in R

Lukas Burk, Fiona Katharina Ewald, Giuseppe Casalicchio et al.

xplainfi是一个R包，提供多种特征重要性方法和统计推断，增强机器学习模型的可解释性。

实现多种特征重要性方法
提供基于高斯分布等的条件抽样架构

2026-03-16

PDF arXiv

7/10

模型选择仿真贝叶斯推断

Scalable Simulation-Based Model Inference with Test-Time Complexity Control

Manuel Gloeckler, J. P. Manzano-Patrón, Stamatios N. Sotiropoulos et al.

PRISM提出了一种可扩展的基于模拟的模型推断方法，可在测试时控制模型复杂度。

提出PRISM模型，用于联合推断离散模型结构和连续参数。
实现测试时模型复杂度的可控性。

2026-03-16

PDF arXiv

9/10

LLM 推理多智能体

SAGE: Multi-Agent Self-Evolution for LLM Reasoning

Yulin Peng, Xinxin Zhu, Chenxing Wei et al.

SAGE提出一种多智能体自进化框架，提升LLM在数学和代码生成方面的推理能力。

提出SAGE框架，利用自进化智能体提升LLM推理能力
设计Challenger, Planner, Solver, Critic四个智能体协同进化

2026-03-16

PDF arXiv

8/10

评估框架研究想法生成 LLM评估

HindSight: Evaluating Research Idea Generation via Future Impact

Bo Jiang

提出HindSight框架，通过未来影响评估AI生成研究想法的质量，揭示了LLM评估与实际影响的差异。

提出HindSight评估框架
揭示LLM评估与实际研究影响的差异

2026-03-16

PDF arXiv

7/10

法律信息检索跨语言检索法律数据标准化

Bridging National and International Legal Data: Two Projects Based on the Japanese Legal Standard XML Schema for Comparative Law Studies

Makoto Nakamura

论文提出基于JLS XML架构连接日韩法律数据，并进行跨国法律条文对比研究。

构建JLS到AKN的转换管道
应用多语言嵌入模型进行跨国条文匹配

2026-03-16

PDF arXiv

7/10

大型语言模型残差连接注意力机制

Attention Residuals

Kimi Team, Guangyu Chen, Yu Zhang et al.

提出Attention Residuals和Block AttnRes，用注意力机制替代传统残差连接中的固定权重累加，提升模型性能。

提出Attention Residuals (AttnRes)
提出Block AttnRes以降低内存和通信开销

2026-03-16

PDF arXiv

9/10

LLM Reasoning Reinforcement Learning

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Yixin Liu, Yue Yu, DiJia Su et al.

研究了推理LLM作为裁判在不可验证领域对LLM进行后训练的实际影响和潜在问题。

揭示了非推理和推理裁判在LLM对齐中的关键差异
发现推理裁判训练的策略可以通过对抗性输出来欺骗其他LLM裁判

2026-03-12

PDF arXiv

8/10

LLM 跨学科研究科研创新

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur et al.

Idea-Catalyst框架通过LLM驱动跨学科灵感，促进科研创新。

提出Idea-Catalyst跨学科灵感框架
系统性地识别跨学科见解，辅助创意推理

2026-03-12

PDF arXiv

9/10

LLM 拓扑推理基准测试

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya et al.

TopoBench基准测试评估LLM在拓扑推理难题上的能力，发现LLM在空间约束提取方面存在瓶颈。

提出了TopoBench基准测试，包含六种拓扑难题
分析了LLM在解决拓扑难题时的错误类型

2026-03-12

PDF arXiv

8/10

LLM 隐私审计

Human-Centred LLM Privacy Audits: Findings and Frictions

Dimitri Staufer, Kirsten Morehouse, David Hartmann et al.

研究LLM隐私审计，发现LLM会泄露个人信息，并提出改进隐私审计的建议。

提出了LMP2隐私审计工具
揭示了LLM隐私评估的挑战和摩擦

2026-03-12

PDF arXiv

5/10

转录因子结合位点多标签学习

A Multi-Label Temporal Convolutional Framework for Transcription Factor Binding Characterization

Pietro Demurtas, Ferdinando Zanchetta, Giovanni Perini et al.

该论文提出了一种基于TCN的多标签学习框架，用于识别转录因子结合位点。

提出了基于TCN的多标签学习方法用于转录因子结合位点预测
实现了多个转录因子结合位点的可靠预测

2026-03-12

PDF arXiv

8/10

推理加速长文本自回归模型

Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

Xingyu Xie, Zhaochen Yu, Yue Liao et al.

SFI通过解耦快慢推理步骤，在长文本生成中加速推理，无需额外训练。

提出了一种无需训练的加速推理框架Slow-Fast Inference (SFI)
观察到句子内部注意力支撑的稳定性规律

2026-03-12

PDF arXiv

7/10

因果推断 Foundation Model 频率一致性

Frequentist Consistency of Prior-Data Fitted Networks for Causal Inference

Valentyn Melnychuk, Vahid Balazadeh, Stefan Feuerriegel et al.

论文分析了基于PFN的因果推断方法的一致性问题，并提出了校准方法。

指出现有PFN方法存在先验诱导的混淆偏差。
提出基于单步后验校正(OSPC)的校准程序。

2026-03-12

PDF arXiv

6/10

概率电路 Voronoi图密度估计

Geometry-Aware Probabilistic Circuits via Voronoi Tessellations

Sahil Sidheekh, Sriraam Natarajan

提出基于Voronoi图的概率电路，提升几何建模能力并保持可推理性。

将Voronoi图引入概率电路以提升几何建模能力
提出保证上下界的近似推断框架

2026-03-12

PDF arXiv

9/10

Theory of Mind LLM Multimodal

CoMMET: To What Extent Can LLMs Perform Theory of Mind Tasks?

Ruirui Chen, Weifeng Jiang, Chengwei Qin et al.

论文提出了CoMMET，一个多模态、多轮对话的ToM评估基准，并评估了LLM的ToM能力。

提出了新的多模态ToM评估基准CoMMET
CoMMET覆盖更广泛的精神状态和引入多轮测试

2026-03-12

PDF arXiv

7/10

模型压缩知识蒸馏结构化剪枝

Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language

Remigiusz Kinas, Paweł Kiszczak, Sergio P. Perez et al.

Bielik-Minitron-7B通过剪枝和知识蒸馏压缩Bielik-11B模型，提升波兰语性能。

构建波兰语优化压缩模型Bielik-Minitron-7B
采用结构化剪枝和知识蒸馏进行模型压缩

2026-03-12

PDF arXiv

7/10

代码生成创造力基准测试

CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Zi-Han Wang, Lam Nguyen, Zhengyang Zhao et al.

提出了CreativeBench基准测试，用于评估和提升机器的代码生成创造力。

提出了CreativeBench基准测试，包含组合和探索两个子集
分析了现有模型在CreativeBench上的表现，揭示了scaling和reasoning的影响

2026-03-12

PDF arXiv

7/10

成员推理攻击隐私机器学习安全

Exponential-Family Membership Inference: From LiRA and RMIA to BaVarIA

Rickard Brännvall

提出了BaVarIA攻击，统一了LiRA、RMIA和BASE，并在低shadow-model预算下提升了成员推理攻击效果。

统一了LiRA、RMIA和BASE到指数族框架
提出了基于贝叶斯方差推断的BaVarIA攻击

2026-03-12

PDF arXiv

6/10

Wikidata 知识图谱限定词

Understanding Wikidata Qualifiers: An Analysis and Taxonomy

Gilles Falquet, Sahar Aljalbout

深入分析Wikidata限定词的语义和用法，构建分类体系，优化知识图谱查询。

提出了Wikidata限定词的分类体系
分析了限定词的使用频率和多样性

2026-03-12

PDF arXiv

6/10

深度学习统计推断参数估计

ForwardFlow: Simulation only statistical inference using deep learning

Stefan Böhringer

提出ForwardFlow，一种基于深度学习的仅模拟统计推断方法，利用神经网络学习参数估计。

提出基于summary网络的频繁主义模型
设计包含collapse层的分支网络结构

2026-03-11

PDF arXiv

9/10

LLM Reasoning Ranking

Ranking Reasoning LLMs under Test-Time Scaling

Mohsen Hariri, Michael Hinczewski, Jing Ma et al.

该论文研究了测试时缩放场景下推理LLM的排序问题，并提出了Scorio库。

形式化了测试时缩放下的密集基准排序
提出了Scorio库，包含多种统计排序方法

2026-03-11

PDF arXiv

5/10

质谱分析分子结构检索选择性预测

When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

Mira Jürgens, Gaetan De Waele, Morteza Rakhshaninejad et al.

提出分子结构检索的选择性预测框架，通过不确定性估计提高预测可靠性。

提出基于风险-覆盖率权衡的选择性预测框架
评估了不同粒度级别的不确定性量化策略

2026-03-11

PDF arXiv

7/10

text embedding self-supervised learning large language model

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Parishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt et al.

LLM2Vec-Gen提出一种新的自监督方法，通过学习LLM的潜在输出来生成高质量文本嵌入。

提出了一种新的自监督嵌入方法LLM2Vec-Gen。
在MTEB上取得了state-of-the-art的自监督性能。

2026-03-11

PDF arXiv

8/10

知识图谱大型语言模型医疗

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

Yichi Zhu, Kan Ling, Xu Liu et al.

PharmGraph-Auditor通过混合知识图谱和验证链，提升处方审核的安全性和可追溯性。

构建混合药物知识库(HPKB)
提出迭代模式精化算法(ISR)

2026-03-11

PDF arXiv

9/10

强化学习 LLM 推理

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

Yixiu Mao, Yun Qu, Qi Wang et al.

提出DPS方法，通过预测学习动态来选择信息量大的prompt，加速LLM的RL finetuning。

提出Dynamics-Predictive Sampling (DPS) 方法
将prompt的解决过程建模为动态系统

2026-03-11

PDF arXiv

5/10

合成数据生成基因型表型

SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion

Andrea Lampis, Michela Carlotta Massi, Nicola Pirastu et al.

SNPgen提出了一种基于条件潜在扩散的表型监督合成基因型生成框架。

提出了两阶段条件潜在扩散框架SNPgen
实现了表型监督的合成基因型生成

2026-03-11

PDF arXiv

9/10

多语言推理数据集

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava et al.

提出了多语言推理环境Multilingual Reasoning Gym，可生成14种语言的推理问题。

扩展了Reasoning Gym到多语言环境
构建了包含14种语言的推理问题数据集

2026-03-11

PDF arXiv

6/10

极端事件预测动力系统深度学习

Dynamics-Informed Deep Learning for Predicting Extreme Events

Eirini Katsidoniotaki, Themistoklis P. Sapsis

提出了一种基于动力学信息的深度学习框架，用于预测高维混沌系统中的极端事件。

提出了一种基于FTLE-like precursors的极端事件预测方法
使用OTD模式自适应地计算低维子空间中的不稳定性增长

2026-03-11

PDF arXiv

8/10

多语言数学问题强化学习

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava et al.

提出了mAceReason-Math，一个高质量的多语言数学问题数据集，用于强化学习与可验证奖励。

构建了高质量的多语言数学问题数据集
该数据集专为RLVR设计，难度适合当前模型

2026-03-11

PDF arXiv

8/10

语音深度伪造检测大型音频语言模型链式思考

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov et al.

提出HIR-SDD，结合大型音频语言模型和人类推理，提升语音深度伪造检测的鲁棒性和可解释性。

提出HIR-SDD框架
结合大型音频语言模型和人类推理

2026-03-11

PDF arXiv

8/10

LLM 推理评估

Making Bielik LLM Reason (Better): A Field Report

Adam Trybus, Bartosz Bartnicki, Remigiusz Kinas

该论文评估并提升波兰语LLM Bielik的推理能力，提出了评估方法并分析了其与其它LLM的对比。

创建Bielik LLM推理能力评估方法
对比Bielik与其它LLM的推理能力

2026-03-11

PDF arXiv

9/10

Reinforcement Learning Large Language Models Reasoning

Reinforcement Learning with Conditional Expectation Reward

Changyi Xiao, Caijun Xu, Yixin Cao

提出条件期望奖励CER，利用LLM自身作为隐式验证器，提升LLM在通用推理任务中的性能。

提出了一种新的奖励函数：条件期望奖励（CER）
CER无需手工规则，适用于通用推理任务

2026-03-11

PDF arXiv

8/10

LLM Alignment Reinforcement Learning Moral Reasoning

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu et al.

该论文研究表明，对于道德推理任务，奖励最大化方法与多样性匹配方法相比，并没有显著劣势。

首次在MoReBench上比较奖励最大化和多样性匹配方法在道德推理中的效果
发现道德推理任务的高奖励分布比数学推理更集中

2026-03-11

PDF arXiv

8/10

Transformer In-context Learning Statistical Inference

Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context

Faris Chaudhry, Siddhant Gadkari

研究Transformer在上下文学习中如何进行隐式统计推断，并发现其近似似然比检验。

揭示了Transformer在上下文学习中进行隐式统计推断的机制
证明了Transformer能够从上下文中逼近贝叶斯最优充分统计量

2026-03-11

PDF arXiv

8/10

Deepfake Detection Generative AI Adversarial Attacks

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

Sunpill Kim, Chanwoo Hwang, Minsu Kim et al.

利用生成式AI的图像优化能力，可有效绕过现有深度伪造检测方法。

证明了生成式AI的语义保持图像优化能力可以欺骗深度伪造检测器。
揭示了商业AI系统比开源模型带来更大的安全风险，因为前者更易使用且效果更好。

2026-03-11

PDF arXiv

8/10

联想创造力基准测试 LLM评估

CREATE: Testing LLMs for Associative Creativity

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman et al.

提出了CREATE基准，用于评估LLM的联想创造力，通过路径生成衡量概念间的连接。

提出CREATE基准用于评估联想创造力
定义了路径的specificity和diversity指标

2026-03-10

PDF arXiv

10/10

LLM 推理诚实

Think Before You Lie: How Reasoning Improves Honesty

Ann Yuan, Asma Ghandeharioun, Carter Blum et al.

研究发现LLM通过推理能够提高诚实度，与人类直觉相反，并解释了其内在机制。

发现LLM推理能够提高诚实度
揭示了代表空间几何结构对诚实度的影响

2026-03-10

PDF arXiv

9/10

LLM 推理知识回忆

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Zorik Gekhman, Roee Aharoni, Eran Ofek et al.

推理能解锁LLM的参数知识，即使对于单跳问题，推理也能提升知识回忆，但可能引入幻觉。

揭示了推理如何提升LLM的参数知识回忆能力
提出了计算缓冲效应和事实启动两种机制

2026-03-10

PDF arXiv

9/10

强化学习上下文学习推理质量

Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning

Tiehua Mei, Minxuan Lv, Leiyu Pan et al.

利用上下文强化学习，通过证据增益隐式监督推理质量，提升大语言模型的推理能力。

提出In-Context RLVR方法，提升推理质量
利用Evidence Gain信号，无需额外评估器

2026-03-10

PDF arXiv

9/10

LLM Reasoning Chain-of-Thought

Quantifying the Necessity of Chain of Thought through Opaque Serial Depth

Jonah Brown-Cohen, David Lindner, Rohin Shah

论文通过“不透明串行深度”量化了LLM进行外部化推理（如CoT）的必要性。

提出了“不透明串行深度”的概念
计算了Gemma 3模型的不透明串行深度上限

2026-03-10

PDF arXiv

6/10

模拟推断中微子物理模型参数优化

First Estimation of Model Parameters for Neutrino-Induced Nucleon Knockout Using Simulation-Based Inference

Karla Tame-Narvaez, Steven Gardiner, Aleksandra Ćiprijanović et al.

论文使用模拟推断改进中微子相互作用模型的参数估计，提升实验精度。

使用SBI方法重新评估了GENIE模型的参数
在MicroBooNE实验数据上验证了SBI方法的有效性

2026-03-10

PDF arXiv

8/10

空间推理多模态学习工具包

World2Mind: Cognition Toolkit for Allocentric Spatial Reasoning in Foundation Models

Shouwei Ruan, Bin Wang, Zhenyu Wu et al.

World2Mind工具包通过构建空间认知地图提升多模态模型在三维空间推理方面的能力。

提出 World2Mind 工具包，无需训练即可提升空间推理能力
构建 Allocentric-Spatial Tree (AST) 提供几何拓扑先验

2026-03-10

PDF arXiv

9/10

LLM 推理基准测试

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Aman Sharma, Paras Chopra

提出EsoLang-Bench，利用冷启动的冷门语言评估LLM的真正推理能力。

提出了EsoLang-Bench基准测试集
使用冷门编程语言评估LLM的推理能力

2026-03-10

PDF arXiv

6/10

GNN Time Series Anomaly Detection Open-Source Framework

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori et al.

提出了一个基于GNN的时间序列异常检测开源框架，并对GNN在该领域的应用进行了评估。

开发了一个用于基于GNN的TSAD的开源框架，支持可重复实验。
评估了多种GNN架构在TSAD任务上的性能和可解释性。

2026-03-10

PDF arXiv

5/10

时间序列预测时频分析深度学习

FreqCycle: A Multi-Scale Time-Frequency Analysis Method for Time Series Forecasting

Boya Zhang, Shuaijie Yin, Huiwen Zhu et al.

FreqCycle通过多尺度时频分析，提升时间序列预测的准确性和效率。

提出FECF模块提取低频特征
提出SFPL模块增强中高频能量

2026-03-10

PDF arXiv

7/10

State-Space Models Mamba XLA

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Cosmo Santoni

利用XLA优化Mamba-2，实现跨平台O(1)状态缓存和高效推理，无需手写CUDA/Triton内核。

展示了Mamba-2的状态空间对偶性与XLA优化器的契合性，避免了自定义内核。
实现了完整的XLA推理路径，包括预填充和缓存自回归解码，且无需主机同步。

2026-03-10

PDF arXiv

8/10

遥感视觉语言模型推理

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Lang Sun, Ronghao Fu, Zhuoran Duan et al.

GeoSolver通过可验证的过程监督强化学习，提升遥感图像理解中VLMs的推理能力。

构建大规模 token 级别过程监督数据集 Geo-PRM-2M
提出 token 级别过程奖励模型 GeoPRM，提供细粒度反馈

2026-03-10

PDF arXiv

8/10

语言模型潜意识学习释义

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Isaia Gisler, Zhonghao He, Tianyi Qiu

通过忠实释义进行潜意识学习，即使内容相反，教师模型的偏好也会传递给学生模型。

揭示了语言模型在释义数据上的潜意识学习现象
证明了偏好可以通过释义传递，即使内容相反

2026-03-10

PDF arXiv

7/10

人机交互生成式AI 认知科学

Vibe-Creation: The Epistemology of Human-AI Emergent Cognition

Ilya Levin

论文提出“第三实体”概念，分析人-AI交互中涌现的新认知模式“Vibe-creation”，及其对教育和认知的影响。

提出“第三实体”和“Vibe-creation”概念
构建人-AI交互的新理论框架

2026-03-10

PDF arXiv

8/10

Bayesian Inference Mixture-of-Experts Uncertainty Quantification

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

Albus Yizhuo Li, Matthew Wicker

VMoER通过变分推理建模MoE层路由选择的不确定性，提升了模型校准性和鲁棒性。

提出VMoER，一种针对MoE层的结构化贝叶斯不确定性建模方法
验证了VMoER在foundation model上的校准性和鲁棒性提升

2026-03-10

PDF arXiv

9/10

LLM 道德推理常识推理

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal et al.

该论文揭示了LLM在道德推理中易忽略常识矛盾的现象，并发现了叙事焦点偏差。

提出了CoMoral基准数据集
揭示了LLM在道德推理中常识理解的不足

2026-03-10

PDF arXiv

5/10

增材制造表面粗糙度机器学习

Interactive 3D visualization of surface roughness predictions in additive manufacturing: A data-driven framework

Engin Deniz Erkan, Elif Surer, Ulas Yaman

论文提出一个数据驱动框架，用于预测增材制造中零件表面的粗糙度并实现交互式可视化。

构建实验数据集，包含不同倾斜角度的粗糙度测量值
使用多层感知机回归器预测粗糙度

2026-03-10

PDF arXiv

9/10

金融分析 LLM评估基准测试

Evaluating Financial Intelligence in Large Language Models: Benchmarking SuperInvesting AI with LLM Engines

Akshay Gulati, Kanha Singhania, Tushar Banga et al.

提出了AI金融智能基准AFIB，评估了多个LLM在金融分析任务中的表现，SuperInvesting表现最佳。

提出了AI金融智能基准（AFIB）
评估了多个LLM在金融分析任务中的表现

2026-03-09

PDF arXiv

9/10

自适应推理计算分配难度感知

CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning

Siye Wu, Jian Xie, Yikai Zhang et al.

CODA通过难度感知的计算分配，动态调整推理深度，提高推理效率。

提出了一种难度感知的计算分配方法CODA
利用策略内部的难度信号来分配计算资源

2026-03-09

PDF arXiv

9/10

文档推理 AI Agent 基准测试

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins et al.

OfficeQA Pro：一个评估AI Agent在企业级环境中进行文档推理的基准测试。

提出了OfficeQA Pro基准测试
评估了前沿LLM在多文档推理上的表现

2026-03-09

PDF arXiv

6/10

神经网络降阶建模动力系统

NN-OpInf: an operator inference approach using structure-preserving composable neural networks

Eric Parish, Anthony Gruber, Patrick Blonigan et al.

提出一种基于神经网络的结构保持算子推断方法，用于动力系统的降阶建模。

提出NN-OpInf框架，结构保持且可组合。
学习隐空间动力学，强制局部算子结构。

2026-03-09

PDF arXiv

9/10

LLM Reasoning Compression

Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Fabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi

论文提出基于条件信息瓶颈（CIB）的LLM推理压缩方法，提升效率并保持精度。

将高效推理重构为信息瓶颈下的有损压缩问题
提出基于CIB的LLM推理模型，解决了attention机制破坏马尔可夫性的问题

2026-03-09

PDF arXiv

7/10

Transformer Interpretability Robustness

SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding

Jesús Sánchez Ochoa, Enrique Tomás Martínez Beltrán, Alberto Huertas Celdrán

SYNAPSE是一个免训练框架，用于分析和压力测试Transformer模型内部神经元行为。

提出SYNAPSE框架，无需重新训练即可分析Transformer模型
揭示Transformer模型内部表示的领域无关组织结构

2026-03-09

PDF arXiv

6/10

Out-of-Distribution Detection OOD Robustness Anomaly Detection

Geometrically Constrained Outlier Synthesis

Daniil Karzanov, Marcin Detyniecki

GCOS提出一种几何约束的异常值合成方法，提升深度神经网络的OOD鲁棒性。

提出GCOS框架，生成几何约束的异常值
利用非一致性分数定义自适应外壳

2026-03-09

PDF arXiv

9/10

LLM 行为可塑性强化学习

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Liyuan Mao, Le Yu, Jing Zhou et al.

LLM具有行为可塑性，可通过token条件生成和强化学习进行调控，实现行为模式切换。

揭示LLM内在的行为可塑性
提出Token-Conditioned Reinforcement Learning (ToCoRL)框架

2026-03-09

PDF arXiv

9/10

Transformer Looping Memory

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

Markus Frey, Behzad Shomali, Ali Hamza Bashir et al.

该论文研究了循环Transformer和记忆模块在提升语言模型推理能力上的作用，以及它们的组合效果。

提出结合自适应循环和记忆模块的Transformer模型
发现循环主要提升数学推理能力，记忆模块提升常识推理能力

2026-03-09

PDF arXiv

8/10

语言模型预设语用学

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

Tara Azin, Daniel Dumitrescu, Diana Inkpen et al.

该论文研究了语言模型在条件句中处理预设问题的能力，发现模型主要依赖浅层模式匹配。

提出了预设投射的诊断数据集
评估了RoBERTa、DeBERTa、LLaMA和Gemma等模型

2026-03-09

PDF arXiv

7/10

Transformer Attention Hadamard Transform

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Shubham Aggarwal, Lokendra Kumar

论文提出用结构化的哈达玛变换替代多头注意力中的密集输出投影，提升效率。

减少模型参数量
提升推理速度和内存效率

2026-03-09

PDF arXiv

9/10

LLM Reasoning Knowledge Graph

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

Liuyi Xu, Yun Guo, Ming Chen et al.

CORE-Acu通过神经符号方法提升中医决策支持的可解释性和安全性。

构建了首个针灸结构化推理链数据集
提出了结合知识图谱安全验证的神经符号框架

2026-03-09

PDF arXiv

7/10

词义消歧 LLM 提示工程

NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Tong Wu, Thanet Markchom, Huizhi Liang

论文比较了嵌入、微调和LLM三种方法，用于预测词义在短故事中的合理性。

比较嵌入、微调和LLM三种方法
提出基于结构化提示和决策规则的方法

2026-03-09

PDF arXiv

9/10

LLM 推理自适应

Not All Queries Need Deep Thought: CoFiCot for Adaptive Coarse-to-fine Stateful Refinement

Dongxu Zhang, Hongqiang Lin, Yiding Sun et al.

CoFiCot提出了一种自适应的粗到细推理框架，动态调整LLM的推理策略。

提出CoFiCot框架，动态调整LLM推理资源
使用多指标分类器评估问题难度

2026-03-09

PDF arXiv

8/10

LLM quantization low-rank adaptation error reconstruction

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

Yeonsik Park, Hyeonseong Kim, Seungkyu Choi

SERQ提出了一种用于LLM量化的、基于显著性感知的低秩误差重构方法，有效提升低精度下的模型性能。

提出了一种基于显著性感知的低秩误差重构方法SERQ
采用单低秩补偿矩阵，减少推理时的中间量化步骤

2026-03-09

PDF arXiv

8/10

工业维护 LLM 推理

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez et al.

提出了一个基于异构数据的工业维护决策支持框架，利用LLM进行证据驱动的推理。

构建了Condition Insight Agent决策支持框架
整合了维护语言、行为抽象和故障语义

2026-03-09

PDF arXiv

9/10

药物组合提取关系抽取大型语言模型

RexDrug: Reliable Multi-Drug Combination Extraction through Reasoning-Enhanced LLMs

Zhijun Wang, Ling Luo, Dinghao Pan et al.

RexDrug利用强化学习增强LLM推理，用于抽取复杂药物组合关系。

提出RexDrug框架，用于n-ary药物组合提取
利用多智能体协作生成高质量推理轨迹

2026-03-09

PDF arXiv

7/10

文本富网络层次知识表示学习

Learning Hierarchical Knowledge in Text-Rich Networks with Taxonomy-Informed Representation Learning

Yunhui Liu, Yongchao Liu, Yinfeng Chen et al.

TIER通过构建和利用文本富网络的层次结构，提升节点表示学习效果。

提出TIER模型，学习文本富网络中的层次知识
使用相似性引导对比学习构建聚类友好的嵌入空间

2026-03-09

PDF arXiv

9/10

Large Language Model Pruning Information Entropy

High-Fidelity Pruning for Large Language Models

Yijun Zhu, Jianxin Wang, Chengchao Shen

提出了一种基于信息熵的Taylor剪枝方法，提升大语言模型剪枝后的性能，无需额外教师模型。

提出了基于信息熵的Taylor剪枝准则，无需额外教师模型。
该方法能更全面地评估神经元的重要性，提升剪枝后模型的预测能力。

2026-03-09

PDF arXiv

9/10

推理链式思考 CoT

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Siddharth Boppana, Annabel Ma, Max Loeffler et al.

揭示了推理模型中存在的表演性CoT现象，并提出了检测和缓解方法。

发现了推理模型中的表演性CoT现象
提出了利用激活探针检测表演性CoT的方法

2026-03-05

PDF arXiv

8/10

事实核查 LLM 内部表示

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy et al.

论文提出了一种不依赖检索的LLM事实核查方法，并通过实验验证了其有效性和泛化能力。

提出了不依赖检索的事实核查任务
设计了一个全面的评估框架，关注泛化性

2026-03-05

PDF arXiv

7/10

可解释性医学表格数据原型学习

An interpretable prototype parts-based neural network for medical tabular data

Jacek Karolczak, Jerzy Stefanowski

提出一种针对医学表格数据的可解释原型部件神经网络，兼顾精度和可解释性。

提出一种基于原型部件的神经网络模型，专门用于医学表格数据。
采用可训练的特征patching方法，从结构化数据中学习有意义的原型部件。

2026-03-05

PDF arXiv

9/10

词义消歧低参数LLM 推理

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough

该论文探索了使用低参数LLM通过推理驱动的微调策略实现高性能词义消歧。

证明低参数LLM通过CoT推理和邻词分析可媲美GPT-4-Turbo的WSD性能
提出了适用于低参数LLM的推理驱动微调策略

2026-03-05

PDF arXiv

9/10

LLM Judge Reliability Evaluation

Judge Reliability Harness: Stress Testing the Reliability of LLM Judges

Sunishchal Dev, Andrew Sloan, Joshua Kavner et al.

论文提出Judge Reliability Harness，用于评估LLM判定的可靠性，发现不同模型在不同基准测试中表现差异大。

开源的LLM判定可靠性评估工具Judge Reliability Harness
系统性评估了四个SOTA判定的可靠性

2026-03-05

PDF arXiv

6/10

生成式AI 合成数据统计推断

Harnessing Synthetic Data from Generative AI for Statistical Inference

Ahmad Abdel-Azim, Ruoyu Wang, Xihong Lin

综述性论文，探讨生成式AI合成数据在统计推断中的应用，分析其优势、局限与使用原则。

系统性地回顾了生成式AI合成数据在统计领域的应用现状
分析了合成数据使用中常见的偏差和问题

2026-03-05

PDF arXiv

7/10

Language Model Pretraining Transformer Optimization

Progressive Residual Warmup for Language Model Pretraining

Tianhao Chen, Xin Xu, Lu Yin et al.

ProRes提出了一种渐进式残差预热方法，通过调整层级预热顺序，提升语言模型预训练的稳定性与收敛速度。

提出了 Progressive Residual Warmup (ProRes) 方法
通过实验证明了 ProRes 在不同模型规模下的有效性

2026-03-05

PDF arXiv

9/10

测试时自适应自步学习推理

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

Mohammad Mahdi Moradi, Sudhir Mudur

DiSCTT利用共识引导的自步学习提升大模型在推理中的测试时自适应性能。

提出难度感知的共识引导自步学习框架DiSCTT
使用采样轨迹的一致性估计实例难度

2026-03-05

PDF arXiv

6/10

Equivariant GNNs Quantization Molecular Dynamics

Preserving Continuous Symmetry in Discrete Spaces: Geometric-Aware Quantization for SO(3)-Equivariant GNNs

Haoyu Zhou, Ping Xue, Hao Zhang et al.

提出几何感知量化框架GAQ，在保证SO(3)等变性的前提下，实现GNN模型压缩和加速。

Magnitude-Direction Decoupled Quantization (MDDQ)
Symmetry-aware training strategy

2026-03-05

PDF arXiv

9/10

LLM Reasoning Formal Verification

X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

Gao Tianxi, Cai Yufan, Yuan Yusi et al.

X-RAY使用形式化探针分析LLM的推理能力，揭示其在约束处理上的非对称性。

提出了一个基于形式化和校准探针的LLM推理能力分析系统X-RAY
揭示了LLM在约束精化和解空间重构上的推理不对称性

2026-03-05

PDF arXiv

6/10

Vietnamese NLP Labor Market Analysis Job Advertisement

VietJobs: A Vietnamese Job Advertisement Dataset

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj

发布了首个大规模越南语招聘广告数据集，并评估了LLM在招聘任务上的表现。

构建并发布了大规模越南语招聘广告数据集VietJobs
在VietJobs上评估了多个LLM在职位分类和薪资预测任务上的表现

2026-03-05

PDF arXiv

8/10

稀疏性 LLM加速 GPU

SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity

Hanyong Shao, Yingbo Hao, Ting Song et al.

SlideSparse解锁稀疏张量核心加速，提升(2N-2):2N稀疏模式下LLM推理速度。

提出SlideSparse系统，支持(2N-2):2N稀疏模式在通用GPU上的加速。
使用滑动窗口分解将(2N-2):2N权重块转换为兼容2:4稀疏模式。

2026-03-05

PDF arXiv

7/10

推测解码词汇表裁剪模型优化

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

Ofir Ben Shoham

论文提出通过词汇表裁剪来平衡覆盖率和延迟，从而加速推测解码。

提出词汇表裁剪方法加速推测解码
将词汇表选择建模为约束优化问题

2026-03-05

PDF arXiv

9/10

形式逻辑神经符号信号时序逻辑

Distilling Formal Logic into Neural Spaces: A Kernel Alignment Approach for Signal Temporal Logic

Sara Candussio, Gabriele Sarti, Gaia Saveri et al.

将形式逻辑提炼到神经空间，用核对齐方法高效学习信号时序逻辑的连续神经表示。

提出一种将符号鲁棒性核提炼到Transformer编码器中的方法
引入连续、核加权的几何对齐目标函数

2026-03-05

PDF arXiv

9/10

Diffusion LLM Reasoning End-of-Sequence Token

Diffusion LLMs can think EoS-by-EoS

Sarah Breckner, Sebastian Schuster

扩散LLM通过填充EoS token进行隐藏计算，从而提升复杂推理能力。

发现扩散LLM利用EoS token进行推理
验证了EoS token在扩散LLM中的隐藏计算作用

2026-03-05

PDF arXiv

7/10

language model finite-state transducer string transformation

Transducing Language Models

Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu et al.

提出了一种基于有限状态转换器(FST)的通用语言模型转换框架，用于适应特定输出需求。

提出基于FST的语言模型转换框架
开发用于边缘化和条件化的算法

2026-03-05

PDF arXiv

8/10

病人活动识别逻辑推理可微规则

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang et al.

Logi-PAR通过可微规则将逻辑推理融入病人活动识别，提升临床安全和可解释性。

提出Logi-PAR框架，结合上下文信息和可学习逻辑规则
实现病人活动识别的规则自动学习和端到端优化

2026-03-05

PDF arXiv

7/10

量化稀疏化 LLM

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Di Zhang, Xun Wu, Shaohan Huang et al.

论文提出Sparse-BitNet，结合1.58-bit量化与N:M稀疏化，提升LLM效率并加速训练和推理。

提出Sparse-BitNet框架
证明1.58-bit量化与N:M稀疏化的兼容性

2026-03-05

PDF arXiv

9/10

LLM Chain-of-Thought Reasoning

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Avni Mittal, Rauno Arike

C2-Faith基准测试评估LLM作为CoT推理判断器的因果和覆盖完整性。

提出了C2-Faith基准测试，用于评估LLM作为CoT推理判断器的能力。
揭示了不同任务框架下LLM判断器的性能差异。

2026-03-05

PDF arXiv

9/10

Transformer 类比推理表征学习

Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang

该论文理论分析了Transformer中类比推理的涌现，揭示了表征对齐对推理能力的重要性。

证明了基于相似性和属性的联合训练能够通过表征对齐实现类比推理
揭示了顺序训练中学习顺序的重要性，即先学习相似性结构

2026-03-05

PDF arXiv

5/10

图神经网络计算复杂性算术电路

Recurrent Graph Neural Networks and Arithmetic Circuits

Timon Barlag, Vivian Holzapfel, Laura Strieker et al.

论文建立了循环图神经网络和循环算术电路在计算能力上的精确对应关系。

提出了循环算术电路的概念
证明了循环图神经网络可以模拟循环算术电路

2026-03-05

PDF arXiv

9/10

课程学习数学推理数据效率

Bidirectional Curriculum Generation: A Multi-Agent Framework for Data-Efficient Mathematical Reasoning

Boren Hu, Xiao Liu, Boci Peng et al.

提出双向课程生成框架，通过多智能体自适应调整问题难度，提升LLM数学推理的数据效率。

提出双向课程生成框架
构建多智能体生态模拟自适应教学

2026-03-05

PDF arXiv

7/10

LLM 隐私保护模型混淆

Good-Enough LLM Obfuscation (GELO)

Anatoly Belikov, Ilya Fedotov

GELO是一种轻量级LLM混淆方法，通过动态混合隐藏状态，保护推理过程中的prompt隐私。

提出GELO混淆方法，保护LLM推理隐私
设计了非正交和正交混合两种防御策略

2026-03-05

PDF arXiv

7/10

Aspect-Based Sentiment Analysis Multilingual Low-Resource

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou et al.

针对多语言多领域DimABSA任务，提出一种融合微调编码器和LoRA调优LLM的高效方法。

提出统一且任务自适应的DimABSA模型
结合语言特定编码器微调和LLM LoRA调优

2026-03-05

PDF arXiv

6/10

天文时间序列变分自编码器

SELDON: Supernova Explosions Learned by Deep ODE Networks

Jiezhong Wu, Jack O'Brien, Jennifer Li et al.

SELDON是一个用于预测稀疏天文光变曲线的连续时间变分自编码器，可加速超新星的发现。

提出SELDON，一种新的连续时间变分自编码器。
利用神经网络ODE进行时间序列的外推。

2026-03-04

PDF arXiv

9/10

事件推理图检索 LLM

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos et al.

该论文提出了一种用于推理的图检索和反思提示的三阶段系统，并在SemEval-2026任务中取得了第一名。

图检索方法
反思提示进化优化的LLM推理

2026-03-04

PDF arXiv

9/10

推理自验证强化学习

$V_1$: Unifying Generation and Self-Verification for Parallel Reasoners

Harman Singh, Xiuyu Li, Kusha Sareen et al.

提出V1框架，通过成对排序统一生成和自验证，提升复杂推理任务中的性能和效率。

提出V1框架，包含V1-Infer和V1-PairRL两个组件
V1-Infer：基于不确定性的锦标赛式排序算法，动态分配验证算力

2026-03-04

PDF arXiv

7/10

State Space Models Thermodynamic Training Architectural Proprioception

Architectural Proprioception in State Space Models: Thermodynamic Training Induces Anticipatory Halt Detection

Jay Noon

论文提出概率导航架构，通过热力学训练使状态空间模型具备架构自知能力，实现高效停止预测。

提出概率导航架构（PNA）
发现热力学训练可以使SSM具备架构自知能力

2026-03-04

PDF arXiv

8/10

量化 LLM 波兰语

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Jakub Prejzner

对波兰语11B模型进行极端的2-bit量化方法比较，并公开模型和数据。

首次系统评估波兰语LLM的2-bit量化
比较了六种先进的后训练量化方法

2026-03-04

PDF arXiv

9/10

LLM Theory of Mind False Belief Test

Traces of Social Competence in Large Language Models

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn

研究表明LLM在心理理论测试中表现出与模型大小、训练方式相关的社会认知能力。

使用平衡的FBT变体评估LLM的社会认知能力
发现模型规模和训练方式影响FBT表现

2026-03-04

PDF arXiv

8/10

LLM Evaluation Sensitive Topics

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

Juhyun Oh, Nayeon Lee, Chani Jung et al.

FINEST通过细粒度评估提升LLM在敏感话题上的安全性和有用性。

提出了FINEST，一种细粒度敏感话题评估分类法
通过FINEST指导的改进流程显著提升LLM回复质量

2026-03-04

PDF arXiv

9/10

Reward Hacking Misalignment Activation Analysis

Monitoring Emergent Reward Hacking During Generation via Internal Activations

Patrick Wilhelm, Thorsten Wittkopp, Odej Kao

该论文提出了一种基于激活的监控方法，用于在生成过程中检测大型语言模型的奖励劫持行为。

提出一种基于内部激活的奖励劫持检测方法
发现内部激活模式可以区分奖励劫持和良性行为

2026-03-04

PDF arXiv

7/10

蛋白质语言模型毒性降低生物安全

Inference-Time Toxicity Mitigation in Protein Language Models

Manuel Fernández Burda, Santiago Aranguri, Iván Arcuschin Moreno et al.

论文提出一种无需重训练的推理时方法LDA，用于降低蛋白质语言模型生成毒性蛋白的风险。

提出LDA方法，降低PLM生成的毒性蛋白
证明LDA在降低毒性的同时保持蛋白质的生物学合理性

2026-03-04

PDF arXiv

8/10

LLM Decentralized Inference Quality Assessment

A Multi-Dimensional Quality Scoring Framework for Decentralized LLM Inference with Proof of Quality

Arther Tian, Alex Ding, Frank Chen et al.

提出了一种多维度LLM推理质量评分框架，并应用于去中心化推理网络的质量评估。

提出多维度质量评分框架，分解质量评估维度。
分析了各维度质量信号的可靠性，发现维度依赖于任务。

2026-03-04

PDF arXiv

6/10

Categorical Deep Learning Coalgebra Universal Approximation

Coalgebras for categorical deep learning: Representability and universal approximation

Dragan Mašulović

论文构建了范畴论深度学习的余代数基础，并提出了一个通用的逼近定理。

提出了深度学习中不变表示的余代数基础
证明了范畴理论框架下的通用逼近定理

2026-03-03

PDF arXiv

8/10

Neuro-Symbolic AI Explainability Reasoning

Neuro-Symbolic Artificial Intelligence: A Task-Directed Survey in the Black-Box Models Era

Giovanni Pio Delvecchio, Lorenzo Molfetta, Gianluca Moro

该论文调研了神经符号人工智能领域任务导向的进展，旨在提升模型的可解释性和推理能力。

综述了神经符号AI在特定任务上的进展
探讨了神经符号系统如何增强可解释性和推理能力

2026-03-03

PDF arXiv

6/10

PDE Transformer Neural Operator

From Complex Dynamics to DynFormer: Rethinking Transformers for PDEs

Pengyu Lai, Yixiao Chen, Dewu Yang et al.

DynFormer通过动力学信息指导Transformer，显著降低求解PDE的计算成本和误差。

提出了DynFormer，一种动力学信息驱动的神经算子。
引入Spectral Embedding和Kronecker结构注意力机制，高效捕捉大规模全局交互。

2026-03-03

PDF arXiv

7/10

Knowledge Graph Autonomous Discovery Graph Intelligence

Odin: Multi-Signal Graph Intelligence for Autonomous Discovery in Knowledge Graphs

Muyukani Kizito, Elizabeth Nyambere

Odin是一种用于知识图谱中自主发现有意义模式的图智能引擎。

提出了 COMPASS 评分，融合结构、语义、时间及社群信息
解决了图谱探索中的“回音室”问题，通过桥梁节点实现跨社群探索

2026-03-03

PDF arXiv

8/10

论证挖掘指令调优大语言模型

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

Sofiane Elguendouze, Erwan Hain, Elena Cabrio et al.

论文提出了一种基于指令调优LLM和紧凑提示的论证成分检测新方法，将ACD重构为生成任务，性能优于现有技术。

将ACD重构为语言生成任务
使用指令调优LLM和紧凑提示进行ACD

2026-03-03

PDF arXiv

9/10

推荐系统可解释性 LLM

Beyond Factual Correctness: Mitigating Preference-Inconsistent Explanations in Explainable Recommendation

Chengkai Wang, Baisong Liu

论文提出PURE框架，通过选择与用户偏好一致的证据，生成更可信的推荐解释。

形式化了偏好不一致解释问题
提出了PURE框架，通过选择偏好对齐的证据来生成解释

2026-03-03

PDF arXiv

7/10

因果推断贝叶斯推断不确定性量化

Generalized Bayes for Causal Inference

Emil Javurek, Dennis Frauen, Yuxin Wang et al.

提出一种因果推断的广义贝叶斯框架，提供对因果效应的可靠不确定性量化。

提出用于因果推断的广义贝叶斯框架
无需显式似然建模，直接对因果估计量设置先验

2026-03-03

PDF arXiv

9/10

LLM Reasoning Interpretability

Step-Level Sparse Autoencoder for Reasoning Process Interpretation

Xuan Yang, Jiayu Liu, Yuhang Lai et al.

提出了一种步骤级稀疏自编码器(SSAE)，用于解析LLM推理过程，提取步骤级别的稀疏特征。

提出了步骤级稀疏自编码器(SSAE)
通过信息瓶颈解耦了推理步骤中的增量信息和背景信息

2026-03-03

PDF arXiv

6/10

单细胞基础模型稀疏自编码器

Sparse autoencoders reveal organized biological knowledge but minimal regulatory logic in single-cell foundation models: a comparative atlas of Geneformer and scGPT

Ihor Kendiukhov

利用稀疏自编码器分析单细胞模型，揭示其内部知识组织但缺乏调控逻辑。

构建了Geneformer和scGPT的特征图谱，揭示大规模叠加现象
验证模型内部编码了丰富的生物知识，如通路和蛋白互作

2026-03-03

PDF arXiv

8/10

LLM 碳排放可持续性

SEALing the Gap: A Reference Framework for LLM Inference Carbon Estimation via Multi-Benchmark Driven Embodiment

Priyavanshi Pathania, Rohit Mehra, Vibhu Saujanya Sharma et al.

论文提出SEAL框架，通过多基准测试驱动的方式，用于评估LLM推理过程中的碳排放量。

提出了LLM推理碳排放评估的参考框架的设计原则
构建了SEAL，一个基于多基准测试的初步实现

2026-03-03

PDF arXiv

8/10

LLM 轨迹预测强化学习

ShipTraj-R1: Reinforcing Ship Trajectory Prediction in Large Language Models via Group Relative Policy Optimization

Yang Zhan, Yunhao Li, Zhang Chao et al.

提出ShipTraj-R1，利用GRPO优化LLM进行船舶轨迹预测，效果优于现有方法。

设计动态提示，引导自适应CoT推理
引入规则奖励机制，激励推理格式和预测精度

2026-03-03

PDF arXiv

8/10

图神经网络大语言模型零样本学习

Beyond One-Size-Fits-All: Adaptive Subgraph Denoising for Zero-Shot Graph Learning with Large Language Models

Fengzhi Li, Liang Zhang, Yuan Zuo et al.

提出GraphSSR框架，通过自适应子图去噪提升LLM在零样本图学习中的推理性能。

提出SSR流水线，动态调整子图提取策略。
开发SSR-SFT数据合成策略，微调LLM。

2026-03-03

PDF arXiv

7/10

LLM 预测分布回归

Eliciting Numerical Predictive Distributions of LLMs Without Autoregression

Julianna Piskorz, Katarzyna Kobalczyk, Mihaela van der Schaar

论文探索了无需自回归生成即可从LLM内部表征中提取数值预测分布的方法。

提出利用探针从LLM内部表征预测数值分布统计量
验证了LLM嵌入包含数值预测分布的关键信息

2026-03-03

PDF arXiv

6/10

Time-series Forecasting Interpretability Polynomial Learning

Towards Accurate and Interpretable Time-series Forecasting: A Polynomial Learning Approach

Bo Liu, Shao-Bo Lin, Changmiao Wang et al.

提出了可解释的多项式学习（IPL）时间序列预测方法，在精度和可解释性之间取得平衡。

提出 interpretable polynomial learning (IPL) 方法
通过多项式表示显式建模原始特征及其交互

2026-03-03

PDF arXiv

9/10

LLM Argument Mining Reasoning

LLM-based Argument Mining meets Argumentation and Description Logics: a Unified Framework for Reasoning about Debates

Gianvincenzo Alfano, Sergio Greco, Lucio La Cava et al.

该论文提出一个将LLM、论证挖掘、量化推理和描述逻辑相结合的框架，用于分析辩论。

提出一个统一的框架，结合LLM和论证逻辑
使用模糊论证知识库表示辩论

2026-03-03

PDF arXiv

7/10

不确定性推理不变变换

Invariant Transformation and Resampling based Epistemic-Uncertainty Reduction

Sha Hu

通过输入的不变变换重采样降低认知不确定性，从而提高AI模型推理精度。

提出了一种基于重采样的推理方法
利用不变变换输入的多版本来减少认知不确定性

2026-02-26

PDF arXiv

8/10

信念修正信念更新模态逻辑

The logic of KM belief update is contained in the logic of AGM belief revision

Giacomo Bonanno

该论文证明AGM信念修正逻辑包含KM信念更新逻辑，并缩小了两者在处理非惊讶信息上的差异。

建立了KM信念更新公理和模态逻辑之间的对应关系
证明了AGM信念修正逻辑包含KM信念更新逻辑

2026-02-26

PDF arXiv

8/10

Diffusion Language Models Non-Autoregressive Decoding Parallel Decoding

Why Diffusion Language Models Struggle with Truly Parallel (Non-Autoregressive) Decoding?

Pengxiang Li, Dilxat Muhtar, Lu Yin et al.

论文分析了扩散语言模型并行解码退化为自回归的原因，并提出一种数据驱动方法NAP提升并行解码性能。

发现训练数据是导致DLM并行解码退化为自回归的原因之一
提出NAP方法，通过数据处理和并行强制解码策略优化并行解码

2026-02-26

PDF arXiv

8/10

LLM 单细胞生物学评估框架

SC-Arena: A Natural Language Benchmark for Single-Cell Reasoning with Knowledge-Augmented Evaluation

Jiahao Zhao, Feng Jiang, Shaowei Qin et al.

SC-ARENA提出了一种知识增强的单细胞生物学LLM评估框架，统一评估并克服传统指标的局限性。

提出了SC-ARENA，一个面向单细胞生物学的自然语言评估框架。
提出了Virtual Cell抽象，统一评估目标。

2026-02-26

PDF arXiv

8/10

in-context learning fine-tuning linear attention

Fine-Tuning Without Forgetting In-Context Learning: A Theoretical Analysis of Linear Attention Models

Chungpa Lee, Jy-yong Sohn, Kangwook Lee

理论分析微调对线性注意力模型上下文学习的影响，提出保留上下文学习的微调方法。

理论分析微调如何影响上下文学习能力
提出限制更新value矩阵可以保留上下文学习能力

2026-02-26

PDF arXiv

6/10

深度状态空间模型变分推断贝叶斯滤波

Latent Matters: Learning Deep State-Space Models

Alexej Klushyn, Richard Kurle, Maximilian Soelch et al.

论文提出一种约束优化框架训练深度状态空间模型，并提出EKVAE模型，在系统辨识和预测方面表现优异。

提出一种约束优化框架训练DSSM
提出 extended Kalman VAE (EKVAE) 模型

2026-02-26

PDF arXiv

9/10

Low-Rank Adaptation Parameter-Efficient Fine-Tuning Non-linear Adaptation

NoRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

Hung-Hsuan Chen

NoRA通过引入非线性机制，突破LoRA的线性瓶颈，提升参数效率，在复杂推理任务中表现更优。

提出NoRA，一种非线性低秩适配方法
通过SiLU门控和结构化Dropout实现流形扩展

2026-02-26

PDF arXiv

7/10

DLLM Diffusion Model Inference Speedup

Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference

Yushi Ye, Feng Hong, Huangjie Zheng et al.

ReMix通过连续空间优化缓解DLLM并行解码中的语义矛盾，显著提升推理速度。

提出ReMix框架，集成连续表示到离散解码过程
引入连续混合状态，迭代优化token表示

2026-02-26

PDF arXiv

7/10

语义角色标注 QA-SRL 跨语言迁移学习

Effective QA-driven Annotation of Predicate-Argument Relations Across Languages

Jonathan Davidov, Aviv Slobodkin, Shmuel Tomi Klein et al.

论文提出了一种利用QA-SRL框架，通过跨语言迁移实现多语言语义角色标注的方法。

提出基于QA-SRL的跨语言语义角色标注方法
设计了约束翻译和词对齐的pipeline自动生成标注

2026-02-26

PDF arXiv

9/10

LLM 道德推理上下文影响

Moral Preferences of LLMs Under Directed Contextual Influence

Phil Blandfort, Tushar Karayil, Urja Pawar et al.

研究上下文对LLM道德决策的影响，发现LLM在道德选择上易受引导且存在反常现象。

提出了一种评估上下文中LLM道德偏好的方法。
发现LLM的道德选择易受表面相关的上下文影响。

2026-02-26

PDF arXiv

6/10

质谱预测代谢组学深度学习

FlexMS is a flexible framework for benchmarking deep learning-based mass spectrum prediction tools in metabolomics

Yunhua Zhong, Yixuan Tang, Yifan Li et al.

FlexMS是一个用于评估代谢组学中深度学习质谱预测工具的灵活基准框架。

构建质谱预测的基准框架FlexMS
支持多种模型架构的动态构建和评估

2026-02-26

PDF arXiv

8/10

知识归属大语言模型自监督学习

Probing for Knowledge Attribution in Large Language Models

Ivo Brink, Alexander Boer, Dennis Ulmer

论文提出AttriWiki自监督数据管道，训练探针以识别LLM输出的知识来源，提高模型可信度。

提出了AttriWiki自监督数据管道，用于生成知识归属标签
训练探针，能够可靠地预测LLM输出的知识来源

2026-02-26

PDF arXiv

9/10

语言模型推理知识访问

Improving Parametric Knowledge Access in Reasoning Language Models

Melody Ma, John Hewitt

该论文研究如何提升语言模型在推理过程中访问自身参数知识的能力，并提出基于强化学习的训练方法。

发现语言模型在访问自身知识时推理能力不足
提出通过强化学习训练模型进行参数知识推理的方法

2026-02-25

PDF arXiv

9/10

长文本语言模型注意力机制

DySCO: Dynamic Attention-Scaling Decoding for Long-Context LMs

Xi Ye, Wuwei Zhang, Fangcong Yin et al.

DySCO通过动态调整注意力权重，提升长文本语言模型在长上下文推理任务中的性能。

提出一种新的解码算法DySCO
利用检索头动态调整注意力权重

2026-02-25

PDF arXiv

7/10

XAI Framingham Risk Score Cardiovascular Disease

Enhancing Framingham Cardiovascular Risk Score Transparency through Logic-Based XAI

Emannuel L. de A. Bezerra, Luiz H. T. Viana, Vinícius P. Chagas et al.

该论文提出了一种基于逻辑的XAI方法，增强Framingham风险评分的透明度和可解释性。

提出了FRS的逻辑解释器
生成可操作的场景，降低患者风险

2026-02-25

PDF arXiv

8/10

LLM 模型选择置信度

Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference

Bo-Wei Chen, Chung-Chi Chen, An-Zi Yen

提出一种基于置信度的多尺度模型选择策略，以降低LLM推理成本并保持准确率。

提出置信度驱动的模型选择策略
评估模型知识的可能性和响应的准确性

2026-02-25

PDF arXiv

5/10

疾病进展建模亚型分析混合数据类型

Disease Progression and Subtype Modeling for Combined Discrete and Continuous Input Data

Sterre de Jonge, Elisabeth J. Vinke, Meike W. Vernooij et al.

提出了混合事件模型Mixed-SuStaIn，用于疾病进展和亚型建模，可处理离散和连续数据。

提出了Mixed-SuStaIn模型，能够处理混合数据类型。
将模型应用于阿尔茨海默病数据，验证了有效性。

2026-02-25

PDF arXiv

9/10

知识图谱推理大型语言模型判别式学习

RADAR: Reasoning as Discrimination with Aligned Representations for LLM-based Knowledge Graph Reasoning

Bo Xue, Yuan Jin, Luoyi Fu et al.

RADAR通过判别式学习提升LLM在知识图谱推理中的泛化能力和鲁棒性。

提出RADAR框架，将知识图谱推理重构为判别式实体选择任务
利用强化学习增强实体可分离性，优化表示空间

2026-02-25

PDF arXiv

9/10

LLM 算法推理因果发现

Large Language Models are Algorithmically Blind

Sohan Venkatesh, Ashish Mahendran Kurapath, Tejas Melkote

大型语言模型在算法理解和推理方面存在系统性缺陷，表现为“算法盲目性”。

揭示了LLM在算法理解方面的局限性
提出了“算法盲目性”的概念

2026-02-25

PDF arXiv

7/10

反讽检测 Hinglish文本 DistilBERT

Small Wins Big: Comparing Large Language Models and Domain Fine-Tuned Models for Sarcasm Detection in Code-Mixed Hinglish Text

Bitan Majumder, Anirban Sen

针对Hinglish文本，微调的DistilBERT模型在反讽检测中优于大型语言模型。

证明了微调小型模型在低资源场景下的有效性
比较了LLM和微调模型在反讽检测任务上的性能

2026-02-25

PDF arXiv

8/10

claim verification decomposition reinforcement learning

Distill and Align Decomposition for Enhanced Claim Verification

Jabez Magomere, Elena Kochkina, Samuel Mensah et al.

提出一种强化学习方法，联合优化句子分解质量和验证器对齐，提升复杂声明验证性能。

提出基于GRPO的强化学习方法
引入结构化序列推理和知识蒸馏

2026-02-25

PDF arXiv

8/10

LLM 代码生成上下文长度扩展

An Evaluation of Context Length Extrapolation in Long Code via Positional Embeddings and Efficient Attention

Madhusudan Ghosh, Rishabh Gupta

研究如何扩展LLM在长代码上下文中的应用，着重关注位置编码和注意力机制的优化。

评估了用于长代码上下文扩展的方法
探索了位置编码的改进方法

2026-02-25

PDF arXiv

9/10

Chain-of-Thought 小语言模型知识推理

D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models

Shunsuke Ubukata

D-CoT通过控制标签约束CoT过程，提升小模型推理效率和性能并减少token消耗。

提出D-CoT框架，使用控制标签规范CoT推理过程
在小模型上实现了显著的性能提升和计算成本降低

2026-02-25

PDF arXiv

9/10

隐式篇章关系识别自然语言解释大型语言模型

Improving Implicit Discourse Relation Recognition with Natural Language Explanations from LLMs

Heng Wang, Changxing Wu

该论文利用LLM生成解释来提升隐式篇章关系识别的性能和可解释性。

提出一种利用LLM生成解释增强IDRR模型的方法
提出一种分类-生成联合框架，利用LLM生成的解释进行监督训练

2026-02-25

PDF arXiv

8/10

推荐系统大型语言模型用户画像

Offline Reasoning for Efficient Recommendation: LLM-Empowered Persona-Profiled Item Indexing

Deogyong Kim, Junseong Lee, Jeongeun Lee et al.

Persona4Rec利用离线LLM推理构建可解释的用户画像物品索引，加速推荐系统。

提出Persona4Rec框架，实现高效推荐
使用LLM离线推理生成物品的用户画像表示

2026-02-25

PDF arXiv

7/10

伦理决策可解释性模糊逻辑

fEDM+: A Risk-Based Fuzzy Ethical Decision Making Framework with Principle-Level Explainability and Pluralistic Validation

Abeer Dyoub, Francesca A. Lisi

fEDM+框架通过可解释性模块和多元验证，改进了原fEDM框架的伦理决策过程。

引入了解释和溯源模块(ETM)
实现了基于道德原则的决策解释

2026-02-25

PDF arXiv

9/10

知识图谱 LLM 强化学习

Explore-on-Graph: Incentivizing Autonomous Exploration of Large Language Models on Knowledge Graphs with Path-refined Reward Modeling

Shiqi Yan, Yubo Chen, Ruiqi Zhou et al.

提出Explore-on-Graph框架，通过强化学习鼓励LLM在知识图谱上自主探索推理路径，提升推理能力。

提出Explore-on-Graph框架
引入强化学习激励LLM探索

2026-02-25

PDF arXiv

9/10

LLM Pass@k Pass@1

Why Pass@k Optimization Can Degrade Pass@1: Prompt Interference in LLM Post-training

Anas Barakat, Souradip Chakraborty, Khushbu Pahwa et al.

研究表明Pass@k优化可能导致Pass@1性能下降，揭示了prompt干扰导致的梯度冲突。

理论分析Pass@k优化降低Pass@1的原因
发现prompt干扰导致的梯度冲突

2026-02-24

PDF arXiv

7/10

反事实推断时间序列数据临床数据

Sequential Counterfactual Inference for Temporal Clinical Data: Addressing the Time Traveler Dilemma

Jingya Cheng, Alaleh Azhir, Jiazi Tian et al.

提出Sequential Counterfactual Framework，解决时间序列临床数据反事实推断问题。

提出Sequential Counterfactual Framework
区分不可变和可控特征，考虑时间依赖性

2026-02-24

PDF arXiv

8/10

LLM Risk Awareness Environmental Impact

Evaluating Proactive Risk Awareness of Large Language Models

Xuan Luo, Yubin Chen, Zhiyu Hou et al.

该论文提出了一个评估大语言模型前瞻性风险意识的框架，并使用Butterfly数据集进行了生态环境领域的实验。

提出了前瞻性风险意识评估框架
构建了Butterfly数据集用于生态环境领域评估

2026-02-24

PDF arXiv

9/10

LLM 推理数学

Linear Reasoning vs. Proof by Cases: Obstacles for Large Language Models in FOL Problem Solving

Yuliang Ji, Fuchen Shen, Jian Wu et al.

论文提出了一个关注基于案例推理的FOL数据集，并分析了LLM在此类问题上的表现差距。

提出了新的FOL数据集PC-FOL，专注于基于案例的推理。
实验表明LLM在线性推理和基于案例推理问题上存在显著的性能差距。

2026-02-24

PDF arXiv

9/10

LLM Reasoning Interpretability

Transcoder Adapters for Reasoning-Model Diffing

Nathan Hu, Jake Ward, Thomas Icard et al.

提出transcoder adapters，用于理解推理模型微调前后MLP计算差异，并应用于Qwen2.5-Math-7B和DeepSeek-R1-Distill-Qwen-7B。

提出transcoder adapters技术，用于理解模型微调后的内部机制变化。
发现adapters可以有效捕捉推理模型微调带来的性能提升，并具有稀疏性和可解释性。

2026-02-24

PDF arXiv

9/10

LLM 数学推理验证

Pipeline for Verifying LLM-Generated Mathematical Solutions

Varvara Sazonova, Dmitri Shmelkin, Stanislav Kikot et al.

提出了一种验证LLM数学解题能力的流水线方法，包括自动和交互式验证。

提出一种LLM数学解题的验证流水线
使用提示工程生成特定形式的解题方案

2026-02-24

PDF arXiv

8/10

强化学习大型语言模型视角多元化

Overton Pluralistic Reinforcement Learning for Large Language Models

Yu Fu, Seongho Son, Ilija Bogunovic

提出OP-GRPO框架，使LLM在无显式提示下生成多元化视角回复，提升了视角覆盖度和模型性能。

提出OP-GRPO框架
使用相似度估计器提升覆盖度评估精度

2026-02-24

PDF arXiv

6/10

MCMC GAN 深度展开

Deep unfolding of MCMC kernels: scalable, modular & explainable GANs for high-dimensional posterior sampling

Jonathan Spence, Tobías I. Liaudat, Konstantinos Zygalakis et al.

该论文提出了一种基于深度展开MCMC核的GAN架构，用于高效、模块化和可解释的高维后验采样。

提出基于深度展开Langevin MCMC算法的GAN架构
设计了一种监督正则化Wasserstein GAN框架用于后验采样

2026-02-24

PDF arXiv

7/10

文本分类语法特征语义特征

Explicit Grammar Semantic Feature Fusion for Robust Text Classification

Azrin Sultana, Firoz Ahmed

提出一种显式语法语义特征融合方法，用于构建轻量级的鲁棒文本分类模型。

提出显式编码句法结构的语法向量。
将语法向量与冻结的上下文嵌入融合。

2026-02-24

PDF arXiv

6/10

城市计算时空数据基础模型

UrbanFM: Scaling Urban Spatio-Temporal Foundation Models

Wei Chen, Yuqian Wu, Junle Chen et al.

构建大规模城市时空基础模型，实现跨城市、跨任务的零样本泛化。

构建了包含全球城市数据的WorldST数据集
提出了MiniST单元，统一网格和传感器数据表示

2026-02-24

PDF arXiv

9/10

奖励模型置信度门控强化学习

CAMEL: Confidence-Gated Reflection for Reward Modeling

Zirui Zhu, Hailun Xu, Yang Luo et al.

CAMEL通过置信度门控反射和反事实增强，提升奖励模型的准确性和效率。

提出一种置信度门控反射框架CAMEL
引入反事实前缀增强进行模型训练

2026-02-24

PDF arXiv

9/10

LLM 后置条件推断交互式学习

SpecMind: Cognitively Inspired, Interactive Multi-Turn Framework for Postcondition Inference

Cuong Chi Le, Minh V. T Pham, Tung Vu Duy et al.

SpecMind提出了一种基于反馈迭代的多轮交互框架，用于生成更准确和完整的程序后置条件。

提出SpecMind框架，利用LLM进行交互式后置条件推断
采用反馈驱动的多轮Prompt方法，迭代优化候选后置条件

2026-02-24

PDF arXiv

7/10

模型校准不确定性量化集成学习

JUCAL: Jointly Calibrating Aleatoric and Epistemic Uncertainty in Classification Tasks

Jakob Heiss, Sören Lambrecht, Jakob Weissteiner et al.

JUCAL算法联合校准分类模型集合中的不确定性，提升预测可靠性并降低计算成本。

提出JUCAL算法，联合校准认知不确定性和偶然不确定性。
JUCAL优化NLL，无需访问模型内部参数。

2026-02-23

PDF arXiv

9/10

reinforcement learning reasoning large language models

LAD: Learning Advantage Distribution for Reasoning

Wendi Li, Sharon Li

LAD通过学习优势分布解决LLM推理中奖励信号过拟合问题，提升推理能力和生成多样性。

提出Learning Advantage Distributions (LAD)框架
证明最优策略更新与基于优势的目标分布之间的等价性

2026-02-23

PDF arXiv

9/10

医学问答大语言模型思维链

To Reason or Not to: Selective Chain-of-Thought in Medical Question Answering

Zaifu Zhan, Min Zeng, Shuang Zhou et al.

提出选择性思维链(Selective CoT)方法，在保证准确率的同时，提高医学问答效率。

提出了Selective CoT方法，根据问题复杂度动态选择是否进行推理
实验证明Selective CoT在医学问答任务中能有效减少推理时间和Token消耗

2026-02-23

PDF arXiv

7/10

Diffusion Language Models Unmasking Schedule Sampling Convergence

Adaptation to Intrinsic Dependence in Diffusion Language Models

Yunxiao Zhao, Changxiao Cai

论文提出了一种分布无关的DLM解掩码策略，自适应数据依赖结构，加速采样过程。

提出了一种自适应于数据依赖结构的DLM解掩码策略
证明了该策略在采样收敛性上的理论保证，优于现有方法

2026-02-23

PDF arXiv

8/10

LLM Introspection Concept Injection

Latent Introspection: Models Can Detect Prior Concept Injections

Theia Pearson-Vogel, Martin Vanek, Raymond Douglas et al.

Qwen 32B模型展现了检测概念注入的能力，揭示了模型潜在的自省能力和可控性。

揭示了LLM的潜在自省能力
发现模型可以通过logit lens分析检测早期上下文的概念注入

2026-02-23

PDF arXiv

8/10

lookahead planning discrete diffusion models autoregressive models

Discrete Diffusion Models Exploit Asymmetry to Solve Lookahead Planning Tasks

Itamar Trainin, Shauli Ravfogel, Omri Abend et al.

研究表明，非自回归离散扩散模型通过利用规划任务的不对称性，在lookahead规划任务上表现优于自回归模型。

揭示了自回归和非自回归模型在lookahead任务上的不同机制
指出了规划任务中forward generation和reverse generation的不对称性

2026-02-23

PDF arXiv

7/10

不确定性量化随机网络蒸馏深度集成

On the Equivalence of Random Network Distillation, Deep Ensembles, and Bayesian Inference

Moritz A. Zanger, Yijun Wu, Pascal R. Van der Vaart et al.

论文建立了随机网络蒸馏(RND)与深度集成和贝叶斯推断的理论等价性。

证明了RND的自预测误差等价于深度集成的预测方差。
表明通过构造特定的RND目标函数，RND误差分布可以反映贝叶斯推断的后验预测分布。

2026-02-23

PDF arXiv

8/10

SMoE Load Balancing Inference

A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs

Zijie Liu, Jie Peng, Jinhao Duan et al.

提出一种免训练的Replicate-and-Quantize方法，用于动态平衡SMoE模型推理时的负载，提高效率。

分析SMoE模型推理时负载不均衡问题
提出Replicate-and-Quantize (R&Q) 框架

2026-02-23

PDF arXiv

6/10

深度学习材料科学微观结构演化

Fully Convolutional Spatiotemporal Learning for Microstructure Evolution Prediction

Michael Trimboli, Mohammed Alsubaie, Sirani M. Perera et al.

提出了一种基于全卷积时空模型的深度学习框架，用于加速和高精度预测材料微观结构演变。

提出全卷积时空模型用于微观结构演化预测
实现高精度和低计算成本的预测

2026-02-23

PDF arXiv

9/10

推理基准测试自然语言处理

Watson & Holmes: A Naturalistic Benchmark for Comparing Human and LLM Reasoning

Thatchawin Leelawat, Lewis D Griffin

提出了Watson & Holmes侦探游戏新基准，评估人类和LLM在自然情境下的推理能力。

提出了新的自然主义推理基准：Watson & Holmes
开发了自动评分系统，可扩展且可复现

2026-02-23

PDF arXiv

9/10

LLM Reasoning Reinforcement Learning

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Zhongwei Wan, Yun Shen, Zhihao Dou et al.

提出DSDR框架，通过双尺度多样性正则化增强LLM推理中基于强化学习的探索，提升推理性能。

提出双尺度多样性正则化(DSDR)框架
设计全局和局部多样性组件，促进不同推理模式的探索

2026-02-23

PDF arXiv

7/10

ODRL 指称语义知识库

Denotational Semantics for ODRL: Knowledge-Based Constraint Conflict Detection

Daham Mustafa, Diego Collarana, Yixin Peng et al.

提出ODRL约束的指称语义，用于知识库驱动的策略冲突检测，提升跨数据空间互操作性。

提出了ODRL约束的指称语义
实现了基于知识库的冲突检测框架

2026-02-23

PDF arXiv

6/10

ODRL 策略约束轴分解

Axis Decomposition for ODRL: Resolving Dimensional Ambiguity in Policy Constraints through Interval Semantics

Daham Mustafa, Diego Collarana, Yixin Peng et al.

针对ODRL策略约束中多维属性的歧义性，提出了基于轴分解的解决方案。

提出了轴分解框架，将多维属性分解为轴特定的标量属性
证明了该框架的确定性解释、AABB完整性等四个性质

2026-02-23

PDF arXiv

8/10

Diffusion Language Model Pruning Attention Sink

Sink-Aware Pruning for Diffusion Language Models

Aidar Myrzakhan, Tianyi Li, Bowei Guo et al.

针对扩散语言模型，提出了一种能够识别并剪枝不稳定注意力汇聚点的Sink-Aware剪枝方法，提升了推理效率。

发现了扩散语言模型中注意力汇聚点的不稳定性，不同于自回归模型。
提出了Sink-Aware Pruning方法，自动识别并剪枝不稳定的注意力汇聚点。

2026-02-19

PDF arXiv

6/10

关系抽取多语言历史文本

CLEF HIPE-2026: Evaluating Accurate and Efficient Person-Place Relation Extraction from Multilingual Historical Texts

Juri Opitz, Corina Raclé, Emanuela Boros et al.

HIPE-2026评估多语言历史文本中准确高效的Person-Place关系抽取，支持历史数据处理下游应用。

构建Person-Place关系抽取评估数据集
评估准确率、计算效率和领域泛化能力

2026-02-19

PDF arXiv

9/10

LLM Reasoning Verification

When to Trust the Cheap Check: Weak and Strong Verification for Reasoning

Shayan Kiyani, Sima Noorani, George Pappas et al.

提出了一种弱强验证框架，用于平衡LLM推理的成本和可靠性，并设计在线算法控制错误。

形式化弱强验证策略，平衡成本和可靠性
提出衡量指标：错误接受率、错误拒绝率、强验证频率

2026-02-19

PDF arXiv

9/10

Persian Language Model Cultural Reasoning Benchmark

Unmasking the Factual-Conceptual Gap in Persian Language Models

Alireza Sakhaeirad, Ali Ma'manpoosh, Arshia Hemmat

该论文揭示了波斯语LLM在理解文化习俗和推理方面存在的严重不足。

提出了DivanBench基准测试，用于评估波斯语LLM的文化常识推理能力
揭示了现有波斯语LLM存在严重的顺从偏差，无法有效识别文化习俗违例

2026-02-19

PDF arXiv

8/10

LLM Alignment Activation Steering ODE

ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment

Hongjue Zhao, Haosen Sun, Jiangtao Kong et al.

提出了基于常微分方程(ODE)的LLM对齐新框架ODESteer，提升了对齐效果。

建立了基于ODE的LLM对齐激活Steering理论框架。
将激活Steering方向的识别等价于控制理论中的Barrier函数设计。

2026-02-19

PDF arXiv

9/10

LLM 强化学习策略优化

MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

Xiaoliang Fu, Jiaye Lin, Yangyi Fang et al.

MASPO通过统一梯度利用、概率质量和信号可靠性，提升LLM推理的鲁棒性和样本效率。

提出MASPO框架，统一梯度利用、概率质量和信号可靠性。
引入可微软高斯门控，最大化梯度效用。

2026-02-19

PDF arXiv

9/10

Chain-of-Thought Reasoning Evaluation

Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability

Shashank Aggarwal, Ram Vikas Mishra, Amit Awekar

论文提出可重用性和可验证性两个指标，用于评估CoT推理质量，揭示了现有评估方法的盲点。

提出可重用性与可验证性指标
构建Thinker-Executor框架进行CoT评估

2026-02-19

PDF arXiv

6/10

变分推断 Wasserstein距离优化

Variational inference via radial transport

Luca Ghafourpour, Sinho Chewi, Alessio Figalli et al.

radVI算法通过优化径向轮廓改进变分推断，提升高维分布近似的准确性。

提出了一种新的变分推断算法radVI
为radVI提供了理论收敛保证

2026-02-19

PDF arXiv

7/10

小型LLM 医疗NLP 意大利语

Small LLMs for Medical NLP: a Systematic Analysis of Few-Shot, Constraint Decoding, Fine-Tuning and Continual Pre-Training in Italian

Pietro Ferrazzi, Mattia Franzin, Alberto Lavelli et al.

该论文研究了小型LLM在意大利语医疗NLP任务上的表现，并比较了多种优化策略。

评估小型LLM在医疗NLP任务上的性能
比较了不同的适应策略，包括微调和约束解码

2026-02-19

PDF arXiv

7/10

Zero-Knowledge Machine Learning zkML ONNX

Jolt Atlas: Verifiable Inference via Lookup Arguments in Zero Knowledge

Wyatt Benno, Alberto Centelles, Antoine Douchet et al.

Jolt Atlas是一个基于查找参数的零知识ML框架，适用于模型推理。

提出Jolt Atlas框架，用于零知识ML模型推理
利用查找参数和ONNX格式，简化模型验证

2026-02-19

PDF arXiv

9/10

LLM Bias Evaluation

ABCD: All Biases Come Disguised

Mateusz Nowak, Xavier Cadet, Peter Chin

该论文提出了一种降低LLM在多项选择题基准测试中偏见的评估方法，提高了模型的鲁棒性。

发现LLM在多项选择题中存在标签位置、少样本提示等偏见。
提出了一种简单的去偏评估协议，使用统一的、无序的标签。

2026-02-19

PDF arXiv

9/10

LLM Reasoning Dialogue

AIDG: Evaluating Asymmetry Between Information Extraction and Containment in Multi-Turn Dialogue

Adib Sakhawat, Fardeen Sadab, Rakin Shahriar

AIDG框架评估LLM在多轮对话中信息提取与包含的不对称性，揭示其推理瓶颈。

提出了AIDG评估框架，用于评估LLM的战略推理能力
设计了AIDG-I和AIDG-II两个任务，分别测量社交推理和约束满足

2026-02-19

PDF arXiv

7/10

可用性启发式多选题认知建模

The Role of the Availability Heuristic in Multiple-Choice Answering Behaviour

Leonidas Zotos, Hedderik van Rijn, Malvina Nissim

研究表明，在多选题中，更易被想到的选项更有可能是正确答案，可用于建模学生行为。

验证了可用性启发式在多选题解答中的作用
提出了一种基于语料库评估选项认知可用性的计算方法

2026-02-19

PDF arXiv

9/10

医疗诊断 LLM 信息寻求

MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions

Hui Min Wong, Philip Heesen, Pascal Janetzky et al.

MedClarify通过迭代提问增强医学LLM的诊断能力，减少诊断错误。

提出MedClarify：一个信息寻求的AI agent
使用信息增益最大化选择问题

2026-02-19

PDF arXiv

8/10

scientific language model arXiv LaTeX

ArXiv-to-Model: A Practical Study of Scientific LM Training

Anuj Gupta

该论文详细介绍了从原始arXiv LaTeX数据训练小型科学语言模型的完整流程和经验。

构建科学语言模型的端到端pipeline
分析预处理决策对模型训练的影响

2026-02-19

PDF arXiv

8/10

LLM Psychometrics Social Desirability Bias

Quantifying and Mitigating Socially Desirable Responding in LLMs: A Desirability-Matched Graded Forced-Choice Psychometric Study

Kensuke Okada, Yui Furukawa, Kyosuke Bunji

提出一种量化和缓解LLM在问卷评估中社会期望偏差的方法，并用强制选择问卷减少偏差。

提出了量化LLM中社会期望偏差的心理测量框架。
构建了梯度强制选择（GFC）Big Five问卷，以匹配期望。

2026-02-19

PDF arXiv

7/10

反事实解释可解释性AI 生成模型

CounterFlowNet: From Minimal Changes to Meaningful Counterfactual Explanations

Oleksii Furman, Patryk Marszałek, Jan Masłowski et al.

CounterFlowNet利用GFlowNet生成高质量且满足约束的反事实解释，提升了解释的有效性、稀疏性和多样性。

提出CounterFlowNet，一种基于GFlowNet的反事实解释生成方法
利用序列特征修改生成稀疏的解释

2026-02-19

PDF arXiv

7/10

描述逻辑信息行为建模 sheaf理论

TAPO-Structured Description Logic for Information Behavior: Procedural and Oracle-Based Extensions

Takao Inoué

TAPO-DL扩展了描述逻辑，通过程序和Oracle形式化信息行为的动态过程。

提出TAPO-DL，扩展了标准描述逻辑
引入P-Box和O-Box，分别处理程序和外部信息源

2026-02-19

PDF arXiv

9/10

LLM Backtesting Temporal Knowledge Leakage

All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting

Zeyu Zhang, Ryan Chen, Bradly C. Stadie

提出一种可解释的时间污染检测框架，用于评估LLM在回测中是否存在知识泄露，并提出TimeSPEC方法降低泄露。

提出Shapley-DCLR指标，用于量化LLM推理中泄露信息的占比。
提出TimeSPEC方法，通过 claim 验证和再生，主动过滤时间污染。

2026-02-19

PDF arXiv

8/10

LLM privacy verifiable inference

Privacy-Preserving Mechanisms Enable Cheap Verifiable Inference of LLMs

Arka Pal, Louai Zahran, William Gvozdjak et al.

该论文提出利用隐私保护的LLM推理来实现廉价且可验证的推理，降低验证开销。

提出了新的基于隐私保护LLM推理的可验证推理协议
提出的协议计算成本低，几乎没有下游影响

2026-02-19

PDF arXiv

7/10

晶体结构预测材料发现大语言模型

Universal Fine-Grained Symmetry Inference and Enforcement for Rigorous Crystal Structure Prediction

Shi Yin, Jinming Mu, Xudong Zhu et al.

利用大语言模型和扩散模型，结合晶体对称性约束，实现更精确的晶体结构预测。

使用LLM编码化学语义并生成Wyckoff模式
通过约束优化严格执行对称性一致性

2026-02-19

PDF arXiv

8/10

LLM Interpretability Causality

Causality is Key for Interpretability Claims to Generalise

Shruti Joshi, Aaron Mueller, David Klindt et al.

论文强调因果关系在LLM可解释性研究中的重要性，并提出诊断框架以提升研究结果的泛化能力。

强调因果推断在LLM可解释性研究中的作用
提出基于Pearl因果层次的LLM可解释性评估框架

2026-02-18

PDF arXiv

6/10

多重假设检验 FDR控制合成数据

Synthetic-Powered Multiple Testing with FDR Control

Yonghoon Lee, Meshi Bashari, Edgar Dobriban et al.

SynthBH方法利用合成数据提升FDR控制的多重假设检验效率。

提出SynthBH方法，融合真实和合成数据进行多重假设检验
证明了在PRDS条件下SynthBH的FDR控制

2026-02-18

PDF arXiv

8/10

LLM Unit Test Generation C Language

SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation

Jaid Monwar Chowdhury, Chi-An Fu, Reyhaneh Jabbarvand

SPARC通过神经符号方法提升LLM在C语言单元测试生成中的性能。

提出SPARC框架，结合CFG分析、操作映射、路径目标测试合成和自纠正验证循环。
SPARC在真实和算法测试用例上优于prompt生成baseline和KLEE。

2026-02-18

PDF arXiv

7/10

因果推断抽象范畴论

Causal and Compositional Abstraction

Robin Lorenz, Sean Tull

论文提出了基于范畴论的因果抽象通用框架，统一了多种因果抽象概念，并拓展到量子模型。

提出了基于自然变换的因果抽象通用框架
统一了多种现有的因果抽象概念

2026-02-18

PDF arXiv

8/10

LLM NLG evaluation pairwise comparison

Who can we trust? LLM-as-a-jury for Comparative Assessment

Mengjie Qian, Guangzhi Sun, Mark J. F. Gales et al.

该论文提出BT-sigma模型，通过判断LLM判决可靠性，提升LLM评估NLG质量的准确性。

提出BT-sigma模型，用于评估LLM判决可靠性
验证了LLM判决存在不一致性，影响ranking效果

2026-02-18

PDF arXiv

7/10

Membership Inference Privacy Model Update

Sequential Membership Inference Attacks

Thomas Michel, Debabrota Basu, Emilie Kaufmann

提出了一种利用模型更新序列进行更强的成员推理攻击的方法SeMI*。

提出了最优的序列成员推理攻击SeMI*
推导了SeMI*的理论最优功率

2026-02-18

PDF arXiv

7/10

diffusion models sampling reward function

Steering diffusion models with quadratic rewards: a fine-grained analysis

Ankur Moitra, Andrej Risteski, Dhruv Rohatgi

研究了扩散模型在二次奖励函数下的采样问题，并分析了其计算复杂性。

证明了线性奖励倾斜始终可以有效采样
提出了使用Hubbard-Stratonovich变换的低秩正定二次倾斜的有效采样算法

2026-02-18

PDF arXiv

7/10

议会研究政治议程多语言处理

Supercharging Agenda Setting Research: The ParlaCAP Dataset of 28 European Parliaments and a Scalable Multilingual LLM-Based Classification

Taja Kuzman Pungeršek, Peter Rupnik, Daniela Širinić et al.

ParlaCAP数据集用于分析欧洲议会政治议程，提出了一种低成本的领域特定主题分类方法。

创建大规模议会语料库ParlaCAP
提出基于LLM的领域特定政策主题分类方法

2026-02-18

PDF arXiv

9/10

LLM reasoning optimization

Framework of Thoughts: A Foundation Framework for Dynamic and Optimized Reasoning based on Chains, Trees, and Graphs

Felix Fricke, Simon Malberg, Georg Groh

FoT框架通过动态优化链、树、图推理，提升大语言模型的效率和效果。

提出了通用动态推理框架FoT
实现了超参数调优、Prompt优化等功能

2026-02-18

PDF arXiv

6/10

质谱代谢组学深度学习

Small molecule retrieval from tandem mass spectrometry: what are we optimizing for?

Gaetan De Waele, Marek Wydmuch, Krzysztof Dembczyński et al.

该论文研究了深度学习在LC-MS/MS数据分析中使用的损失函数对分子指纹预测和分子检索的影响，揭示了两者之间的权衡。

揭示了指纹相似性和分子检索之间的根本权衡
推导了新的后悔界限，表征了贝叶斯最优决策的差异

2026-02-18

PDF arXiv

6/10

可解释性广义加性模型模型蒸馏

Interpretability-by-Design with Accurate Locally Additive Models and Conditional Feature Effects

Vasilis Gkolemis, Loukas Kavouras, Dimitrios Kyriakopoulos et al.

CALMs通过条件加性局部模型，在GAMs和GA^2Ms之间取得了预测精度和可解释性的平衡。

提出了Conditionally Additive Local Models (CALMs)模型
设计了基于知识蒸馏的训练流程，用于识别同质区域并拟合可解释的形状函数

2026-02-18

PDF arXiv

9/10

LLM Iteration Depth Growing

From Growing to Looping: A Unified View of Iterative Computation in LLMs

Ferdinand Kapl, Emmanouil Angelis, Kaitlin Maile et al.

论文统一了LLM中循环和深度增长两种迭代计算方法，并证明了它们之间的互补性。

提出了循环和深度增长模型的统一视角
证明了循环和深度增长模型具有收敛的深度方向特征

2026-02-18

PDF arXiv

9/10

Causal Discovery Large Language Models Causal ABA

Leveraging Large Language Models for Causal Discovery: a Constraint-based, Argumentation-driven Approach

Zihao Li, Fabrizio Russo

利用LLM作为不完美的专家，结合因果ABA框架进行因果发现，并提出评估协议。

提出了使用LLM作为因果ABA中语义结构先验来源的方法
结合条件独立性证据提升因果发现性能

2026-02-18

PDF arXiv

9/10

LLM evaluation Multilingual Education

IndicEval: A Bilingual Indian Educational Evaluation Framework for Large Language Models

Saurabh Bharti, Gaurav Azad, Abhinaw Jagtap et al.

IndicEval是一个评估LLM在印度教育场景下多语言能力的评测框架。

提出了一个基于真实考试题目的多语言评估框架IndicEval
评估了多个LLM在教育场景下的推理能力和语言适应性

2026-02-18

PDF arXiv

8/10

LLM Fairness Bias Spillover

Intra-Fairness Dynamics: The Bias Spillover Effect in Targeted LLM Alignment

Eva Paraschou, Line Harder Clemmensen, Sneha Das

研究表明，LLM公平性对齐在单一属性上优化可能导致其他属性的偏差加剧，存在偏差溢出效应。

揭示了LLM对齐中目标属性的公平性优化可能导致其他属性的偏差溢出效应
通过实验证明了在模糊语境下，改善一个属性的公平性可能恶化其他属性的不公平性

2026-02-18

PDF arXiv

5/10

X-ray Diffraction Structure Refinement Artificial Intelligence

AI-Driven Structure Refinement of X-ray Diffraction

Bin Cao, Qian Zhang, Zhenjie Feng et al.

论文提出了一种基于人工智能和物理约束的XRD结构精修方法WPEM，提升了衍射数据分析的准确性和效率。

提出了基于物理约束的整体模式分解和精修工作流程WPEM
实现了布拉格定律在batch EM框架中的显式约束

2026-02-18

PDF arXiv

6/10

XAI LSTM Fault Detection

Explainability for Fault Detection System in Chemical Processes

Georgios Gravanis, Dimitrios Kyriakou, Spyros Voutetakis et al.

论文对比了IG和SHAP两种XAI方法在化工过程故障检测LSTM分类器中的应用，并分析了其有效性。

比较IG和SHAP在化工过程故障诊断中的表现
利用XAI方法定位故障发生的子系统

2026-02-18

PDF arXiv

6/10

Gromov-Wasserstein Optimal Transport Sparsity

On sparsity, extremal structure, and monotonicity properties of Wasserstein and Gromov-Wasserstein optimal transport plans

Titouan Vayer

探讨Gromov-Wasserstein距离的稀疏性、极值结构和单调性，并与线性最优传输对比。

研究GW最优传输方案的稀疏性
分析GW最优传输方案在什么条件下是置换矩阵

2026-02-18

PDF arXiv

7/10

自然语言处理 Transformer 自注意力

Avey-B

Devang Acharya, Mohammad Hammoud

Avey模型的encoder-only改进版，性能超越Transformer，更高效处理长文本。

Avey模型的encoder-only重构
解耦静态和动态参数化

2026-02-17

PDF arXiv

8/10

LLM simulation behavioral science

This human study did not involve human subjects: Validating LLM simulations as behavioral evidence

Jessica Hullman, David Broska, Huaman Sun et al.

该论文探讨了使用LLM模拟人类行为的有效性，提出了启发式方法和统计校准两种策略。

对比了启发式方法和统计校准两种LLM模拟策略
阐明了不同策略在探索性研究和验证性研究中的适用性

2026-02-17

PDF arXiv

7/10

Verification Neural Inference Floating-Point Arithmetic

A Note on Non-Composability of Layerwise Approximate Verification for Neural Inference

Or Zamir

逐层近似验证的不可组合性：即使每层计算误差可控，整体输出误差可能不可控。

证明了逐层近似验证方法对于神经推理的无效性
提供了一个反例，展示了即使每层误差很小，最终输出也可能被恶意操控

2026-02-17

PDF arXiv

5/10

FPGA 机器学习 hls4ml

Enabling Low-Latency Machine learning on Radiation-Hard FPGAs with hls4ml

Katya Govorkova, Julian Garcia Pardinas, Vladimir Loncar et al.

论文展示了在抗辐射FPGA上实现低延迟机器学习应用，并扩展hls4ml工具以支持此类FPGA。

开发轻量级自编码器压缩时间读数
引入硬件感知的量化策略，降低模型权重

2026-02-17

PDF arXiv

9/10

LLM Reasoning Compositional Reasoning

Recursive Concept Evolution for Compositional Reasoning in Large Language Models

Sarim Chaudhry

提出了递归概念演化（RCE）框架，通过动态修改LLM内部表征几何来提升组合推理能力。

提出了递归概念演化（RCE）框架
引入动态生成的低秩概念子空间

2026-02-17

PDF arXiv

5/10

约束规划调度累积约束

On inferring cumulative constraints

Konstantin Sidorov

提出一种预处理方法，通过推断累积约束来优化约束规划调度问题。

发现覆盖集并生成有效不等式
通过提升强化覆盖不等式

2026-02-17

PDF arXiv

9/10

强化学习大型语言模型推理

STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Shiqi Liu, Zeyu He, Guojian Zhan et al.

STAPO通过屏蔽稀疏token梯度更新，稳定强化学习过程，提升LLM推理能力。

识别并定义了导致训练不稳定的稀疏token
提出了STAPO算法，通过屏蔽稀疏token的梯度更新来稳定训练

2026-02-17

PDF arXiv

6/10

自然语言处理在线讨论冲突分析

The geometry of online conversations and the causal antecedents of conflictual discourse

Carlo Santagiustina, Caterina Cruciani

研究在线气候变化讨论中冲突性言论的成因和互动模式，重点分析对话结构的影响。

利用LLM分析了在线对话中冲突性语言的多个维度（立场、语气、情感/事实框架）。
揭示了时间延迟对回复质量和内容的影响。

2026-02-17

PDF arXiv

6/10

RNN DNN Feature Learning

A unified theory of feature learning in RNNs and DNNs

Jan P. Bauer, Kirsten Fischer, Moritz Helias et al.

统一RNN和DNN的特征学习理论，揭示权重共享对网络功能的影响。

建立了RNN和DNN的统一平均场理论
揭示了权重共享对时序任务泛化的影响

2026-02-17

PDF arXiv

6/10

预测编码反馈对齐神经网络

Accelerated Predictive Coding Networks via Direct Kolen-Pollack Feedback Alignment

Davide Casnici, Martin Lefebvre, Justin Dauwels et al.

提出DKP-PC算法，通过直接反馈对齐加速预测编码网络的训练，提高效率和可扩展性。

提出DKP-PC算法，解决预测编码中的反馈延迟和指数衰减问题
引入可学习的反馈连接，实现输出层到所有隐藏层的直接误差传递

2026-02-17

PDF arXiv

8/10

Text-to-SQL Reinforcement Learning Dynamic Workflow

Beyond Static Pipelines: Learning Dynamic Workflows for Text-to-SQL

Yihan Wang, Peiyu Liu, Runyu Chen et al.

提出SquRL框架，利用强化学习动态构建Text-to-SQL工作流，提升复杂和分布外查询性能。

提出基于强化学习的动态工作流构建框架SquRL
设计了规则奖励函数和动态actor masking与伪奖励机制，提升训练效率

2026-02-17

PDF arXiv

6/10

时间序列反事实推断自编码器

CEPAE: Conditional Entropy-Penalized Autoencoders for Time Series Counterfactuals

Tomàs Garriga, Gerard Sanz, Eduard Serrahima de Cambra et al.

提出了基于条件熵惩罚自编码器(CEPAE)的时间序列反事实推断方法。

提出了CEPAE模型，使用熵惩罚鼓励解耦数据表示
将自编码器应用于时间序列反事实推断

2026-02-17

PDF arXiv

8/10

Mixture-of-Experts MoE Gated Linear Unit

ExpertWeaver: Unlocking the Inherent MoE in Dense LLMs with GLU Activation Patterns

Ziyu Zhao, Tong Zhu, Zhi Zhang et al.

ExpertWeaver利用GLU激活模式将稠密LLM转化为高效MoE，无需训练且性能优于现有方法。

提出ExpertWeaver框架，一种无需训练的稠密模型到MoE的转换方法
发现GLU激活模式揭示了LLM中固有的MoE结构

2026-02-17

PDF arXiv

9/10

LLM evaluation Multi-armed bandit Variance reduction

LLM-as-Judge on a Budget

Aadirupa Saha, Aniket Wagde, Branislav Kveton

提出一种基于多臂老虎机理论的LLM评估优化方法，动态分配计算资源以降低评估误差。

提出一种基于方差自适应的多臂老虎机LLM评估方法。
证明了该方法在最坏情况下的误差界。

2026-02-17

PDF arXiv

8/10

Multimodal LLM Reasoning Out-of-Distribution Generalization

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Yannic Neuhaus, Nicolas Flammarion, Matthias Hein et al.

该论文研究了多模态LLM在视觉规划任务中链式思考(CoT)推理的泛化能力，发现文本模型优于图像模型。

提出了评估多模态LLM推理泛化能力的框架。
揭示了CoT推理在不同输入表示下的OOD泛化能力差异。

2026-02-17

PDF arXiv

8/10

代码生成强化学习课程学习

TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Chansung Park, Juyong Jiang, Fan Wang et al.

TAROT提出了一种能力自适应的课程强化微调方法，提升LLM的代码生成能力。

提出TAROT框架，利用多层级测试集和能力自适应的课程学习
解耦课程进度和原始奖励，实现能力条件评估和策略选择

2026-02-17

PDF arXiv

8/10

共同信念逻辑知识表示

Common Belief Revisited

Thomas Ågotnes

论文研究了在KD45个体信念下，共同信念的逻辑刻画问题，并给出了完备的公理化描述。

证明了KD4加上shift-reflexivity公理不足以刻画共同信念
发现并证明了一个额外的公理依赖于agent数量

2026-02-17

PDF arXiv

7/10

新闻推荐跨域推荐强化学习

Learning User Interests via Reasoning and Distillation for Cross-Domain News Recommendation

Mengdan Zhu, Yufan Zhao, Tao Di et al.

提出了一种基于强化学习和知识蒸馏的跨域新闻推荐方法，提升兴趣建模和推荐性能。

提出强化学习框架生成兴趣驱动的新闻搜索查询
利用 GRPO 和多重奖励优化查询列表生成策略

2026-02-16

PDF arXiv

7/10

因果关系混合动态领域时间情境演算

On the Semantics of Primary Cause in Hybrid Dynamic Domains

Shakil M. Khan, Asim Mehmood, Sandra Zilles

研究混合动态领域中实际因果关系，提出两种主因定义并证明其等价性。

提出混合时间情境演算中的主因定义
形式化贡献的角度定义因果关系

2026-02-16

PDF arXiv

7/10

因果推断因果基础模型领域知识

Use What You Know: Causal Foundation Models with Partial Graphs

Arik Reuter, Anish Dhir, Cristiana Diaconu et al.

论文提出了一种将因果信息融入因果基础模型(CFMs)的方法，提升模型性能。

提出在CFMs中融入因果信息的框架
提出利用完整或部分因果图信息的策略

2026-02-16

PDF arXiv

9/10

推理强化学习最佳优先搜索

BFS-PO: Best-First Search for Large Reasoning Models

Fiorenzo Parascandolo, Wenhui Tan, Enver Sangineto et al.

BFS-PO算法利用最佳优先搜索策略，缩短大型推理模型的推理链，提高准确率并减少冗余输出。

提出BFS-PO算法，解决LRM的过度推理问题
使用最大熵节点的回溯机制，寻找最短正确答案

2026-02-16

PDF arXiv

8/10

内省对话式学习 AI推理

Position: Introspective Experience from Conversational Environments as a Path to Better Learning

Claudiu Cristian Musat, Jackson Tolins, Diego Antognini et al.

该论文提出通过对话式环境中的内省体验来提升AI学习，强调对话质量的重要性。

提出内省是提升AI推理能力的关键
强调社会互动对AI推理能力发展的重要性

2026-02-16

PDF arXiv

9/10

LLM Chain-of-Thought Reasoning

The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics

Gregor Bachmann, Yichen Jiang, Seyed Mohsen Moosavi Dezfooli et al.

该论文深入分析了CoT推理轨迹，揭示其成功背后的潜在机制，并量化了CoT中各部分对最终答案的贡献。

提出了量化CoT各部分贡献的“潜力”概念
揭示了CoT轨迹中非单调性、尖峰和幸运猜测等模式

2026-02-16

PDF arXiv

9/10

概率逻辑关系推理隐式学习

Lifted Relational Probabilistic Inference via Implicit Learning

Luise Ge, Brendan Juba, Kris Nilsson et al.

提出了一种隐式学习的一阶关系概率推理框架，实现无需显式模型构建的概率查询。

提出基于隐式学习的一阶关系概率推理方法
实现了 grounding-lift 和 world-lift 两种提升

2026-02-16

PDF arXiv

9/10

强化学习 Transformer 推理

On the Learning Dynamics of RLVR at the Edge of Competence

Yu Huang, Zixin Wen, Yuejie Chi et al.

论文研究了RLVR在复杂推理任务中的训练动态，揭示了数据难度谱对学习效果的影响。

提出了RLVR在Transformer中训练动态的理论
揭示了数据难度谱平滑性对RLVR性能的影响

2026-02-16

PDF arXiv

9/10

强化学习推理课程学习

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning

Ilia Mahrooghi, Aryo Lotfi, Emmanuel Abbe

Goldilocks RL通过动态调整训练难度，克服了强化学习在稀疏奖励下推理任务中的低效问题。

提出Goldilocks数据采样策略，根据学生模型能力动态选择难度合适的样本
利用教师模型预测问题难度，并指导学生模型训练

2026-02-16

PDF arXiv

8/10

物理常识推理低资源语言巴斯克语

Physical Commonsense Reasoning for Lower-Resourced Languages and Dialects: a Study on Basque

Jaione Bengoetxea, Itziar Gonzalez-Dios, Rodrigo Agerri

论文构建了巴斯克语的物理常识推理数据集BasPhyCo，并评估了LLM在低资源语言上的表现。

构建了巴斯克语物理常识推理数据集BasPhyCo
评估了LLM在巴斯克语，尤其是方言变体上的物理常识推理能力

2026-02-16

PDF arXiv

9/10

Knowledge Graph Dataset Schema

Return of the Schema: Building Complete Datasets for Machine Learning and Reasoning on Knowledge Graphs

Ivan Diliso, Roberto Barile, Claudia d'Amato et al.

该论文提出了一个构建包含模式和事实的完整知识图谱数据集的流程，用于机器学习和推理。

提出构建完整知识图谱数据集的工作流程
生成包含模式和事实的 curated 数据集套件

2026-02-16

PDF arXiv

8/10

幻觉小语言模型几何分析

A Geometric Analysis of Small-sized Language Model Hallucinations

Emanuele Ricco, Elia Onofri, Lorenzo Cima et al.

论文从几何角度分析小模型幻觉问题，提出利用embedding空间聚类区分真实和虚假响应的方法。

提出幻觉的几何分析视角
证明真实响应在embedding空间中更紧密聚类

2026-02-16

PDF arXiv

9/10

machine translation large language models reasoning

Unlocking Reasoning Capability on Machine Translation in Large Language Models

Sara Rajaee, Sebastian Vincent, Alexandre Berard et al.

该论文研究了大型语言模型推理能力在机器翻译中的应用，并提出了针对机器翻译的结构化推理框架。

发现通用推理在机器翻译中效果不佳
提出了针对机器翻译的结构化推理框架

2026-02-16

PDF arXiv

7/10

Transformer Inference Looping

Inner Loop Inference for Pretrained Transformers: Unlocking Latent Capabilities Without Training

Jonathan Lys, Vincent Gripon, Bastien Pasdeloup et al.

通过在推理时循环重用Transformer模块，提升预训练语言模型的性能。

提出了推理时内循环方法
无需训练即可提升性能

2026-02-16

PDF arXiv

5/10

量子计算数据库量子数据库

Qute: Towards Quantum-Native Database

Muzhi Chen, Xuanhe Zhou, Wei Zhou et al.

Qute提出了一种量子原生数据库，利用量子计算加速数据处理，并优化量子资源利用。

扩展SQL编译为量子电路
混合优化器动态选择执行计划

2026-02-16

PDF arXiv

8/10

LLM 安全攻击

Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

Lukas Struppek, Adam Gleave, Kellin Pelrine

论文揭示了开放权重语言模型中预填充攻击的系统性漏洞，并进行了大规模实证研究。

首次系统性研究预填充攻击对开放权重模型的影响
评估了多种预填充攻击策略的有效性

2026-02-16

PDF arXiv

8/10

Layer Pruning Large Language Models Model Compression

GradMAP: Faster Layer Pruning with Gradient Metric and Projection Compensation

Hao Liu, Guangyan Li, Wensheng Zhang et al.

提出GradMAP方法，通过梯度度量和投影补偿加速LLM层剪枝，提升剪枝速度和性能。

提出基于梯度幅值的层重要性度量方法，提高剪枝效率
提出投影补偿矩阵，减轻剪枝带来的模型性能下降

2026-02-16

PDF arXiv

5/10

生成模型逆问题 PDE

GenPANIS: A Latent-Variable Generative Framework for Forward and Inverse PDE Problems in Multiphase Media

Matthaios Chatzopoulos, Phaedon-Stelios Koutsourelakis

GenPANIS提出了一个用于多相介质PDE正逆问题的统一生成框架。

提出了GenPANIS，一个基于隐变量的生成框架。
该框架可以处理离散值材料场，避免了物理保真度的问题。

2026-02-16

PDF arXiv

7/10

Wikidata 问答系统 SPARQL

The Wikidata Query Logs Dataset

Sebastian Walter, Hannah Bast

论文提出了一个大规模的Wikidata问答数据集WDQL，用于训练问答系统。

构建了一个包含200k问答对的Wikidata数据集WDQL。
提出了一种基于Agent的方法，用于从匿名SPARQL查询中生成自然语言问题。

2026-02-16

PDF arXiv

8/10

LLM Medical QA Zero-Shot Learning

Assessing Large Language Models for Medical QA: Zero-Shot and LLM-as-a-Judge Evaluation

Shefayat E Shams Adib, Ahmed Alfey Sani, Ekramul Alam Esham et al.

该论文评估了多个大型语言模型在医疗问答任务中的零样本表现，并比较了不同模型的性能。

评估多个LLM在医疗QA任务上的零样本表现
使用iCliniq数据集作为基准

2026-02-16

PDF arXiv

9/10

LLM Fine-tuning Noise Filtering

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

Yuchen Yang, Wenze Lin, Enhao Huang et al.

论文提出XTF框架，通过解释性的token级噪声过滤提升LLM微调性能。

提出XTF框架，分解token贡献为可解释的属性
利用token级噪声过滤改进LLM微调

2026-02-16

PDF arXiv

8/10

LLM Hallucination Deception

Disentangling Deception and Hallucination Failures in LLMs

Haolang Lu, Hongrui Peng, WeiYe Fu et al.

论文区分了LLM中幻觉和欺骗两种不同类型的错误，并提出了相应的分析框架。

区分幻觉和欺骗两种LLM失败模式
提出了基于知识存在和行为表达的分析视角

2026-02-16

PDF arXiv

8/10

多模态长链推理知识冲突

Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning

Jing Tang, Kun Wang, Haolang Lu et al.

该论文研究了多模态LLM在长链推理中因知识冲突导致的失败问题，并提出了诊断和控制方法。

形式化了知识冲突的概念，区分了输入层和过程层的冲突
通过探针实验揭示了冲突信号的线性可分性、深度定位、层次一致性和方向不对称性

2026-02-16

PDF arXiv

9/10

知识蒸馏大型语言模型教学法

Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation

Bowei He, Yankai Chen, Xiaokun Zhang et al.

论文提出一种受教学启发的知识蒸馏框架IOA，提升小模型在复杂推理任务上的性能。

提出IOA框架，包含知识识别、组织和适应三个阶段
结合Bloom的掌握学习原则和维果茨基的最近发展区理论

2026-02-12

PDF arXiv

9/10

逻辑推理自然语言处理语法解析

Statistical Parsing for Logical Information Retrieval

Greg Coppola

论文扩展了QBBN模型，通过结合LLM和语法解析，实现了自然语言的逻辑信息检索，并提升了推理能力。

扩展QBBN模型，加入否定推理能力
提出一种类型化的逻辑语言和语法解析器

2026-02-12

PDF arXiv

9/10

科学推理自进化几何共识

Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

Xiaohan He, Shiyang Feng, Songtao Huang et al.

Sci-CoE通过几何共识和稀疏监督，提升LLM在科学推理任务中的鲁棒性和多样性。

提出Sci-CoE框架，实现LLM在科学推理中的自进化。
引入几何奖励机制，综合考虑共识、可靠性和多样性。

2026-02-12

PDF arXiv

9/10

dLLM 推理投票

dVoting: Fast Voting for dLLMs

Sicheng Feng, Zigeng Chen, Xinyin Ma et al.

dVoting利用dLLM的并行生成能力，通过投票机制提升推理能力，无需额外训练。

提出了一种名为dVoting的快速投票技术
利用dLLM的任意位置生成能力进行迭代优化

2026-02-12

PDF arXiv

9/10

Theory of Mind LLM evaluation Reasoning

GPT-4o Lacks Core Features of Theory of Mind

John Muchovej, Amanda Royka, Shane Lee et al.

GPT-4o在理论推理（ToM）的核心能力上存在缺陷，缺乏一致且泛化的心理状态行为模型。

提出了评估LLM的ToM的新框架
揭示了LLM在简单ToM任务上取得成功，但在逻辑等价任务上失败

2026-02-12

PDF arXiv

9/10

大模型性能预测统计方法 Agent推理

STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction

Xiaoxiao Wang, Chunxiao Li, Junying Wang et al.

STAR框架融合统计与Agent推理，提升大模型性能预测在数据稀疏情况下的准确性和可解释性。

提出STAR框架，结合统计和Agent推理
引入受约束概率矩阵分解(CPMF)和外部知识检索

2026-02-12

PDF arXiv

9/10

LLM Reasoning Reinforcement Learning

Stop Unnecessary Reflection: Training LRMs for Efficient Reasoning with Adaptive Reflection and Length Coordinated Penalty

Zewei Yu, Lirong Gao, Yuke Zhu et al.

针对大语言模型推理冗余问题，提出自适应反射和长度协调惩罚机制，提升推理效率和准确率。

提出Adaptive Reflection and Length Coordinated Penalty (ARLCP)框架
引入反射惩罚以减少不必要的反射步骤

2026-02-12

PDF arXiv

9/10

递归推理 Mamba-2 状态空间模型

Tiny Recursive Reasoning with Mamba-2 Attention Hybrid

Wenlong Wang, Fergal Reid

该论文探索了将Mamba-2算子融入递归推理模型的可行性，并验证了其在保持推理能力的同时具有性能提升。

验证了Mamba-2算子在递归推理框架中的可行性
发现了Mamba-2混合算子能提升ARC-AGI-1数据集上的性能

2026-02-12

PDF arXiv

9/10

推理行为模式提示调整

InjectRBP: Steering Large Language Model Reasoning Behavior via Pattern Injection

Xiuping Wu, Zhao Yu, Yuxin Cheng et al.

通过注入行为模式引导大语言模型的推理过程，无需更新模型参数即可提升推理性能。

观察到模型推理行为的自适应分布
提出 InjectCorrect 和 InjectRLOpt 两种无参数优化的推理引导方法

2026-02-12

PDF arXiv

8/10

金融市场 LLM 投资叙事

MEME: Modeling the Evolutionary Modes of Financial Markets

Taian Guo, Haiyang Shen, Junyu Luo et al.

MEME模型将金融市场视为演化生态，通过投资叙事建模市场动态，优于现有方法。

提出了Logic-Oriented的金融市场建模视角
构建了MEME模型，通过多Agent提取和高斯混合模型重建市场动态

2026-02-12

PDF arXiv

7/10

LLM 三元组抽取财务报告

LLM-based Triplet Extraction from Financial Reports

Dante Wesslund, Ville Stenström, Pontus Linde et al.

提出一种基于LLM的财务报告三元组抽取流水线，并使用本体驱动代理指标进行评估。

提出基于LLM的财务报告三元组抽取流水线
使用本体一致性和忠实度作为评估指标

2026-02-12

PDF arXiv

7/10

Large Language Models Autonomous Driving Natural Language Processing

Talk2DM: Enabling Natural Language Querying and Commonsense Reasoning for Vehicle-Road-Cloud Integrated Dynamic Maps with Large Language Models

Lu Tao, Jinxuan Luo, Yousuke Watanabe et al.

提出Talk2DM，一个基于大语言模型的车辆-道路-云集成动态地图自然语言查询和常识推理模块。

构建了VRC合作感知仿真框架VRCsim。
创建了VRC-QA问答数据集，专注于混合交通场景的空间查询和推理。

2026-02-12

PDF arXiv

7/10

Transformer Kernel Fusion Memory Optimization

Deep Kernel Fusion for Transformers

Zixi Zhang, Zhiwen Mo, Yiren Zhao et al.

提出了DeepFusionKernel，一种深度融合内核，优化Transformer中SwiGLU MLP块的内存带宽瓶颈，提升推理速度。

提出DeepFusionKernel优化SwiGLU MLP块
减少HBM流量并提高缓存重用率

2026-02-12

PDF arXiv

8/10

LLM安全可靠性压力测试

Evaluating LLM Safety Under Repeated Inference via Accelerated Prompt Stress Testing

Keita Broadwater

提出APST框架，通过重复推理测试评估LLM在持续使用中的安全性和可靠性。

提出 Accelerated Prompt Stress Testing (APST) 框架
使用伯努利和二项模型量化安全故障率

2026-02-12

PDF arXiv

9/10

Multimodal Learning Reasoning Visual Reasoning

Thinking with Drafting: Optical Decompression via Logical Reconstruction

Jingxuan Wei, Honghao He, Caijun Jia et al.

论文提出Thinking with Drafting方法，通过领域特定语言连接视觉感知和逻辑推理，提高视觉推理的精确性。

提出Thinking with Drafting (TwD)框架
利用DSL作为中间表示，实现逻辑重建

2026-02-12

PDF arXiv

9/10

model merging large language models sparse updates

Beyond Parameter Arithmetic: Sparse Complementary Fusion for Distribution-Aware Model Merging

Weihong Lin, Lin Sun, Qilong Shi et al.

提出SCF-RKL模型融合框架，通过稀疏互补融合和分布感知更新，有效提升模型融合效果。

提出Sparse Complementary Fusion with reverse KL (SCF-RKL) 模型融合框架
利用reverse Kullback-Leibler divergence测量模型间的函数差异

2026-02-12

PDF arXiv

10/10

Chain-of-Thought Supervised Fine-tuning Data Repetition

Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort et al.

重复训练在基于思维链数据的有监督微调中优于数据规模扩大，能提升大语言模型的推理能力。

证明了重复训练优于数据扩增在思维链微调中的作用
提出了token准确率可以作为重复训练的停止标准

2026-02-11

PDF arXiv

7/10

tabular data foundation model in-context learning

TabICLv2: A better, faster, scalable, and open tabular foundation model

Jingang Qu, David Holzmüller, Gaël Varoquaux et al.

TabICLv2通过新颖的合成数据生成和架构优化，在表格数据预测任务上超越现有模型。

新型合成数据生成引擎，提高预训练多样性
可扩展的softmax注意力机制，提升泛化能力

2026-02-11

PDF arXiv

9/10

LLM 税法领域自适应

SteuerLLM: Local specialized large language model for German tax law analysis

Sebastian Wind, Jeta Sopa, Laurin Schmid et al.

SteuerLLM针对德国税法领域，通过领域数据训练，性能超越通用LLM。

构建了德国税法领域的开放基准SteuerEx
提出了领域自适应的LLM模型SteuerLLM

2026-02-11

PDF arXiv

9/10

chain-of-thought reasoning reinforcement learning

Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics

Leheng Sheng, Wenchang Ma, Ruixin Hong et al.

提出RLCER，利用自进化规则强化LLM的CoT推理能力，无需人工标注且优于outcome-centric RL。

提出一种自主的CoT奖励方法，无需人工标注。
提出RLCER，通过自提出和自进化的规则奖励CoT。

2026-02-11

PDF arXiv

8/10

知识图谱补全图神经网络异构图

SynergyKGC: Reconciling Topological Heterogeneity in Knowledge Graph Completion via Topology-Aware Synergy

Xuecheng Zou, Yu Tang, Bingbing Wang

SynergyKGC通过拓扑感知协同机制解决知识图谱补全中的结构异构问题，提升推理性能。

提出一种自适应框架SynergyKGC，有效融合异构拓扑结构。
引入关系感知的跨模态协同专家和语义意图驱动的门控机制。

2026-02-11

PDF arXiv

8/10

软件漏洞检测知识图谱大型语言模型

VulReaD: Knowledge-Graph-guided Software Vulnerability Reasoning and Detection

Samal Mukhtar, Yinghua Yao, Zhu Sun et al.

VulReaD利用知识图谱引导LLM进行软件漏洞推理和检测，提升CWE覆盖和可解释性。

提出VulReaD框架，结合知识图谱和LLM进行漏洞检测
使用teacher LLM生成CWE一致的对比推理监督

2026-02-11

PDF arXiv

8/10

Kalman Filter Linear Attention State-Space Model

Kalman Linear Attention: Parallel Bayesian Filtering For Efficient Language Modelling and State Tracking

Vaisakh Shaj, Cameron Barker, Aidan Scannell et al.

提出了Kalman Linear Attention(KLA)，一种并行贝叶斯滤波方法，提升语言建模和状态追踪的效率与表达能力。

提出KLA层，一种新的神经序列建模单元
将Kalman滤波器重参数化，实现并行计算

2026-02-11

PDF arXiv

9/10

多语言推理文化

Macaron: Controlled, Human-Written Benchmark for Multilingual and Multicultural Reasoning via Template-Filling

Alaa Elsetohy, Sama Hadhoud, Haryo Akbarianto Wibowo et al.

Macaron是一个多语言文化推理基准，旨在测试LLM在不同文化背景下的推理能力。

提出了一个基于模板的多语言多文化推理基准Macaron
涵盖7种推理类型和22种文化方面

2026-02-11

PDF arXiv

8/10

Transformer 循环神经网络可解释性

Step-resolved data attribution for looped transformers

Georgios Kaissis, David Mildenberger, Juan Felipe Gomez et al.

针对循环Transformer，论文提出Step-Decomposed Influence方法，分析训练数据对循环推理过程的影响。

提出Step-Decomposed Influence (SDI)方法
TensorSketch加速SDI计算

2026-02-10

PDF arXiv

10/10

LLM Reasoning Agent

Chain of Mindset: Reasoning with Adaptive Cognitive Modes

Tianyi Jiang, Arctanx An, Hengyi Feng et al.

提出Chain of Mindset (CoM)框架，自适应地选择认知模式进行推理，提升LLM解决问题的能力。

提出Chain of Mindset (CoM) 框架
引入四种异构的认知模式：Spatial, Convergent, Divergent, Algorithmic

2026-02-10

PDF arXiv

8/10

Language Models Physical Reasoning Simulation Traces

Discovering High Level Patterns from Simulation Traces

Sean Memery, Kartic Subr

该论文提出了一种从模拟轨迹中发现高级模式，并用自然语言指导LM进行物理推理的方法。

提出一种自然语言指导的方法，从模拟日志中发现粗粒度的模式。
综合程序来操作模拟日志，并将其映射到一系列高级激活模式。

2026-02-10

PDF arXiv

9/10

强化学习推理注意力机制

ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning

Shuaiyi Nie, Siyu Ding, Wenyuan Zhang et al.

ATTNPO利用模型注意力机制进行过程监督，有效减少推理冗余并提升性能。

提出了一种低开销的过程监督强化学习框架ATTNPO
利用模型的注意力信号进行步进式信用分配

2026-02-10

PDF arXiv

9/10

LLM 推理效率线性探针

LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations

William Lugoloobi, Thomas Foster, William Bankes et al.

论文研究了LLM在生成前从内部表征预测成功率，并利用此信号提升推理效率。

提出了一种从LLM生成前激活中预测成功率的方法
证明了LLM编码了与人类认知不同的、模型特定的难度概念

2026-02-10

PDF arXiv

7/10

AI辅助阅读认知参与大学生

Self-Regulated Reading with AI Support: An Eight-Week Study with Students

Yue Fu, Joel Wester, Niels Van Berkel et al.

研究大学生使用AI辅助阅读的行为模式和认知参与度，发现效率驱动下的“AI阅读”现象。

量化分析AI辅助阅读中不同认知层级的提示词频率和顺序
揭示学生在AI辅助阅读中存在的意图-行为差距

2026-02-10

PDF arXiv

8/10

LLM Routing Game Theory

Routing, Cascades, and User Choice for LLMs

Rafid Mahmood

研究LLM路由策略对用户行为的影响，揭示提供者与用户之间的潜在利益冲突。

提出了LLM提供者和用户之间的Stackelberg博弈模型
刻画了用户最佳响应策略和简化了提供者问题

2026-02-10

PDF arXiv

8/10

LLM Query Understanding Search Engine

QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search

Jianzhao Huang, Xiaorui Huang, Fei Zhao et al.

提出QP-OneModel，一个统一的生成式LLM，用于小红书搜索中的多任务查询理解，提升搜索效果。

提出统一生成式LLM QP-OneModel
采用渐进三阶段对齐策略和多奖励强化学习

2026-02-10

PDF arXiv

5/10

量子计算风险评估结构力学

Stabilized Maximum-Likelihood Iterative Quantum Amplitude Estimation for Structural CVaR under Correlated Random Fields

Alireza Tabarraei

提出一种基于量子幅度估计的稳健CVaR计算方法，用于解决随机结构力学中的尾部风险问题。

开发了一种量子增强的CVaR评估框架，利用最大似然幅度估计。
提出了一种稳定的推理方案，包括多假设可行性跟踪和周期性低深度消除歧义。

2026-02-10

PDF arXiv

9/10

LLM Reasoning Educational Dialogue

LLM Reasoning Predicts When Models Are Right: Evidence from Coding Classroom Discourse

Bakhtawar Ahtisham, Kirk Vanacore, Zhuqian Zhou et al.

利用LLM的推理能力预测其在教育对话分析中的预测正确性，提高自动化分析质量。

提出基于LLM推理的错误检测方法
分析了正确和错误推理的语言学特征

2026-02-10

PDF arXiv

8/10

文本摘要拓扑数据分析全局结构感知

Text summarization via global structure awareness

Jiaquan Zhang, Chaoning Zhang, Shuxu Chen et al.

GloSA-sum通过拓扑数据分析实现全局结构感知，提升文本摘要的准确性和效率。

提出GloSA-sum，首个基于TDA的全局结构感知摘要方法
设计拓扑引导的迭代策略，平衡准确性和效率

2026-02-10

PDF arXiv

9/10

LLM Reasoning Chain-of-Thought

GHS-TDA: A Synergistic Reasoning Framework Integrating Global Hypothesis Space with Topological Data Analysis

Jiaquan Zhang, Chaoning Zhang, Shuxu Chen et al.

GHS-TDA通过构建全局假设图和拓扑数据分析，提升LLM推理的准确性和鲁棒性。

提出了GHS-TDA框架，结合全局假设图和拓扑数据分析
构建语义丰富的全局假设图，协调多个推理路径

2026-02-10

PDF arXiv

6/10

OOD检测生成模型 Flow模型

Mitigating the Likelihood Paradox in Flow-based OOD Detection via Entropy Manipulation

Donghwan Kim, Hyunsoo Yoon

通过熵操作缓解Flow模型OOD检测中的似然悖论，提高OOD检测性能。

提出了一种基于语义相似性的熵操作方法
理论分析证明该方法可增大ID和OOD样本的似然差距

2026-02-10

PDF arXiv

9/10

LLM 知识整合推理

Knowledge Integration Decay in Search-Augmented Reasoning of Large Language Models

Sangwon Yu, Ik-hwan Kim, Donghun Kang et al.

该论文发现LLM在搜索增强推理中存在知识整合衰减问题，并提出SAKE方法缓解该问题。

发现知识整合衰减问题 (KID)
提出 Self-Anchored Knowledge Encoding (SAKE) 方法

2026-02-10

PDF arXiv

7/10

形式验证代码生成基准测试

AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms

Haoyu Zhao, Ziran Yang, Jiawei Li et al.

AlgoVeri提供了一个统一的基准测试，用于评估AI模型在Dafny、Verus和Lean中生成形式验证代码的能力。

提出了AlgoVeri基准测试，包含77个经典算法的验证代码生成任务
揭示了不同验证系统在能力上的关键差距

2026-02-10

PDF arXiv

9/10

LLM Reasoning Reinforcement Learning

iGRPO: Self-Feedback-Driven LLM Reasoning

Ali Hatamizadeh, Shrimai Prabhumoye, Igor Gitman et al.

提出iGRPO，一种基于自反馈的LLM推理优化方法，并在数学推理任务上取得了SOTA结果。

提出了一种新的基于自反馈的强化学习方法iGRPO
iGRPO在数学推理任务上优于GRPO

2026-02-09

PDF arXiv

9/10

因果推理 LLM 基准测试

CausalT5K: Diagnosing and Informing Refusal for Trustworthy Causal Reasoning of Skepticism, Sycophancy, Detection-Correction, and Rung Collapse

Longling Geng, Andy Ouyang, Theodore Wu et al.

CausalT5K是一个诊断LLM因果推理缺陷的基准测试，旨在提升模型的可信赖性。

构建了一个包含5000多个案例的因果推理诊断基准CausalT5K
提出了三个关键的因果推理能力：检测阶梯崩塌、抵御逢迎和生成明智拒绝

2026-02-09

PDF arXiv

7/10

符号回归表达式简化机器学习

Breaking the Simplification Bottleneck in Amortized Neural Symbolic Regression

Paul Saegert, Ullrich Köthe

论文提出SimpliPy加速符号回归简化，提升了Amortized SR的效率和准确性。

设计了快速的规则化表达式简化引擎SimpliPy
提出了Flash-ANSR框架，显著提升了Amortized SR的性能

2026-02-09

PDF arXiv

8/10

LLM Geolocation Extraction Humanitarian Crisis Response

Large Language Models for Geolocation Extraction in Humanitarian Crisis Response

G. Cafferata, T. Demarco, K. Kalimeri et al.

论文利用LLM提升人道主义危机响应中地理位置提取的精度和公平性。

提出了基于LLM的两步地理位置提取框架
改进了人道主义文本中地理位置提取的精度和公平性

2026-02-09

PDF arXiv

8/10

定性推理约束网络可满足性

Deciding the Satisfiability of Combined Qualitative Constraint Networks

Quentin Cohen-Solal, Alexandre Niveau, Maroua Bouzid

该论文提出一个统一的定性推理框架，研究了组合定性约束网络的可满足性判定及其复杂性。

统一了多种定性形式的扩展和组合
建立了可满足性判定的多项式定理

2026-02-09

PDF arXiv

8/10

混合专家联邦学习低秩分解

FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models

Annemette Brok Pirchert, Jacob Nielsen, Mogens Henrik From et al.

FlexMoRE提出了一种灵活的混合专家模型，通过异构秩专家提升联邦训练大语言模型的效率和性能。

提出FlexMoRE，一种灵活的混合秩异构专家模型。
系统性地研究了专家秩与下游任务性能之间的权衡。

2026-02-09

PDF arXiv

7/10

SNN ANN 量化

Kirin: Improving ANN efficiency with SNN Hybridization

Chenyu Wang, Zhanglu Yan, Zhi Zhou et al.

Kirin提出了一种整数和脉冲混合的SNN，实现了ANN到SNN的无损精度转换，并提高了时间和能源效率。

提出了 Spike Matrix Hybridization 策略，降低延迟
引入了 Silence Threshold 机制，保持精度

2026-02-09

PDF arXiv

6/10

贝叶斯深度学习元学习变分推断

Amortising Inference and Meta-Learning Priors in Neural Networks

Tommy Rochussen, Vincent Fortuin

该论文提出了一种学习神经网络权重先验的方法，结合了贝叶斯深度学习和概率元学习。

提出了一种学习权重先验的方法
实现了数据集级别的摊销变分推断

2026-02-09

PDF arXiv

8/10

LLM 多元观点基准

PERSPECTRA: A Scalable and Configurable Pluralist Benchmark of Perspectives from Arguments

Shangrui Nie, Kian Omoomi, Lucie Flek et al.

PERSPECTRA是一个评估LLM处理多元观点的可扩展、可配置的基准。

构建了包含丰富论据的多元观点基准数据集PERSPECTRA
提出了意见计数、意见匹配和极性检查三个任务

2026-02-09

PDF arXiv

7/10

Lean 4 伪布尔证明形式化验证

PBLean: Pseudo-Boolean Proof Certificates for Lean 4

Stefan Szeider

PBLean将VeriPB的伪布尔证明导入Lean 4，通过反射实现验证和定理推导。

实现了VeriPB证明到Lean 4的导入
提出了基于反射的证明检查器，并验证其正确性

2026-02-09

PDF arXiv

7/10

MAP inference Non-convex constraints Optimization

The Theory and Practice of MAP Inference over Non-Convex Constraints

Leander Kurscheidt, Gabriele Masina, Roberto Sebastiani et al.

研究非凸约束下的MAP推断问题，提出了一种可扩展的消息传递算法和一种通用的约束MAP策略。

研究了约束MAP推断的条件和可行性
设计了可扩展的消息传递算法

2026-02-09

PDF arXiv

8/10

6G 语义通信网络推理

6G-Bench: An Open Benchmark for Semantic Communication and Network-Level Reasoning with Foundation Models in AI-Native 6G Networks

Mohamed Amine Ferrag, Abderrahmane Lakas, Merouane Debbah

6G-Bench是一个用于评估6G网络中语义通信和网络推理的开放基准。

定义了6G网络决策任务分类体系
构建包含3722个高质量问题的评估集

2026-02-09

PDF arXiv

7/10

图聚类属性图基准测试

Bridging Academia and Industry: A Comprehensive Benchmark for Attributed Graph Clustering

Yunhui Liu, Pengyu Qiu, Yu Xing et al.

提出了PyAGC，一个全面的属性图聚类基准，旨在弥合学术研究与工业应用之间的差距。

构建了大规模、低同质性的属性图聚类基准PyAGC。
统一了属性图聚类方法，提出了模块化的Encode-Cluster-Optimize框架。

2026-02-09

PDF arXiv

8/10

LLM Impossible Language Chomsky

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Ziyan wang, Longlong Ma

论文通过实验和理论分析，探讨LLM在学习不可能语言方面的能力，并对Chomsky的观点提出新的见解。

通过实验验证GPT-2和小模型在学习不可能语言上的表现差异，揭示Transformer架构的重要性。
提出在Chomsky框架内对LLM的新视角，以及从理性主义到功能主义/经验主义的理论范式转变。

2026-02-09

PDF arXiv

9/10

长文本推理压缩记忆强化学习

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Zhuoen Chen, Dongfang Li, Meishan Zhang et al.

提出一种基于压缩记忆和强化学习的LLM长文本推理框架，提升效率和扩展上下文长度。

提出了一种基于chunk-wise压缩和选择性记忆召回的长文本推理框架
使用强化学习联合优化压缩器和推理器

2026-02-09

PDF arXiv

9/10

长文本推理稀疏注意力 KV缓存

Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference

Yifei Gao, Lei Wang, Rong-Cheng Tu et al.

提出Pre-hoc Sparsity方法，解决长文本推理中KV选择的后验偏差问题，提升推理效率和准确性。

提出了Pre-hoc Sparsity (PrHS) 方法
推导了互信息损失的上界，实现了显式的精度控制

2026-02-09

PDF arXiv

9/10

LLM 推测解码扩散模型

DFlash: Block Diffusion for Flash Speculative Decoding

Jian Chen, Yesheng Liang, Zhijian Liu

DFlash提出了一种基于扩散模型的推测解码框架，显著加速LLM的推理过程。

提出DFlash框架，利用扩散模型并行生成草稿token
将目标模型上下文特征融入草稿模型，提高草稿质量

2026-02-05

PDF arXiv

7/10

语言模型多token预测自蒸馏

Multi-Token Prediction via Self-Distillation

John Kirchenbauer, Abhimanyu Hans, Brian Bartoldson et al.

通过自蒸馏将预训练语言模型转换为快速多token预测模型，无需额外组件。

提出了一种新的多token预测方法
无需训练额外的验证模型

2026-02-05

PDF arXiv

6/10

因果推断在线广告随机游走

Causal Inference on Stopped Random Walks in Online Advertising

Jia Yuan Yu

针对在线广告场景，提出了一种基于停止随机游走的因果推断方法，用于评估长期广告效果。

提出将在线广告收益建模为停止随机游走
结合预算分割实验设计、Anscombe定理和中心极限定理构建置信区间

2026-02-05

PDF arXiv

7/10

Diffusion LLM 并行解码动态调度

DSB: Dynamic Sliding Block Scheduling for Diffusion LLMs

Lizhuo Luo, Shenggui Li, Yonggang Wen et al.

提出动态滑动块调度DSB，优化Diffusion LLM的并行解码质量和效率，并提出DSB Cache加速。

分析了Naive Block Scheduling的局限性
提出了动态滑动块调度方法DSB

2026-02-05

PDF arXiv

9/10

多语言长推理翻译

Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

Junxiao Liu, Zhijun Wang, Yixiao Li et al.

TRIT通过整合翻译训练提升多语言长推理能力，无需额外数据，效果显著。

提出TRIT框架，整合翻译训练到多语言推理中
提升多语言问题理解和响应生成能力

2026-02-05

PDF arXiv

8/10

多语言LLM 价值观语言依赖性

Polyglots or Multitudes? Multilingual LLM Answers to Value-laden Multiple-Choice Questions

Léo Labat, Etienne Ollion, François Yvon

研究多语言LLM在价值观问题上的一致性，发现语言会影响LLM的回答。

发布了新的多语言价值观调查数据集MEVS
研究了多语言LLM在价值观问题上的语言依赖性

2026-02-05

PDF arXiv

8/10

量化后训练量化大语言模型

Regularized Calibration with Successive Rounding for Post-Training Quantization

Seohyeon Cha, Huancheng Chen, Dongjun Kim et al.

提出基于正则化非对称校准的PTQ方法，通过连续舍入提高LLM量化性能。

提出了正则化非对称校准目标
设计了连续舍入过程

2026-02-05

PDF arXiv

9/10

强化学习链式思考可信度

Stop Rewarding Hallucinated Steps: Faithfulness-Aware Step-Level Reinforcement Learning for Small Reasoning Models

Shuo Nie, Hexuan Deng, Chao Wang et al.

FaithRL通过引入显式可信度奖励和隐式截断重采样，提升小型推理模型CoT推理的可靠性。

提出FaithRL，一种可信度感知的步骤级别强化学习方法
引入显式可信度奖励，鼓励推理过程的忠实性

2026-02-05

PDF arXiv

8/10

LLM Multilingual European Languages

EuroLLM-22B: Technical Report

Miguel Moura Ramos, Duarte M. Alves, Hippolyte Gisserot-Boukhlef et al.

EuroLLM-22B是一个支持多种欧洲语言的大型语言模型，性能与同规模模型相当，并开源了数据和代码。

训练了一个支持多种欧洲语言的22B参数LLM
开源了预训练数据和指令微调数据集EuroBlocks

2026-02-05

PDF arXiv

9/10

仇恨言论检测可解释性鲁棒性

xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection

Adrián Girón, Pablo Miralles, Javier Huertas-Tato et al.

xList-Hate通过分解仇恨言论检测任务为多个概念性问题，提升了模型的鲁棒性和可解释性。

提出xList-Hate框架，将仇恨言论检测分解为诊断性问题
使用LLM回答诊断性问题，生成二元诊断表示

2026-02-05

PDF arXiv

7/10

贝叶斯神经网络变分推断深度学习

Large-scale Score-based Variational Posterior Inference for Bayesian Deep Neural Networks

Minyoung Kim

提出了一种可扩展的基于分数的变分贝叶斯深度神经网络后验推断方法，适用于大规模模型。

提出了一种新的可扩展的变分推断方法
结合了分数匹配损失和近端惩罚项

2026-02-05

PDF arXiv

6/10

two-sample testing distribution-free total variation distance

Distribution-free two-sample testing with blurred total variation distance

Rohan Hore, Rina Foygel Barber

研究无分布假设下的双样本检验问题，并引入模糊TV距离进行推断。

提出模糊TV距离用于无分布假设的双样本检验
提供模糊TV距离上下界的理论保证

2026-02-05

PDF arXiv

7/10

推荐系统图神经网络反事实学习

CFRecs: Counterfactual Recommendations on Real Estate User Listing Interaction Graphs

Seyedmasoud Mousavi, Ruomeng Xu, Xiaojing Zhu

CFRecs利用反事实图学习，为房地产用户提供可操作的推荐建议，优化用户目标。

提出CFRecs框架，将反事实解释转化为可操作的推荐
结合GNN和Graph-VAE，策略性地调整图结构和节点属性

2026-02-05

PDF arXiv

9/10

benchmark biology reasoning

BABE: Biology Arena BEnchmark

Junting Zhou, Jin Chen, Linfeng Hao et al.

BABE是一个生物学领域的新基准，旨在评估LLM的实验推理能力。

提出了BABE基准，用于评估生物学AI系统的实验推理能力
BABE基于同行评审论文和真实生物学研究

2026-02-05

PDF arXiv

8/10

attention mechanism sparse attention long context

RRAttention: Dynamic Block Sparse Attention via Per-Head Round-Robin Shifts for Long-Context Inference

Siran Liu, Guoxia Wang, Sa Wang et al.

RRAttention提出了一种新颖的动态稀疏注意力机制，通过head round-robin采样实现高效长文本推理。

提出RRAttention，一种新的动态稀疏注意力方法
通过head round-robin采样策略实现高效的全局模式发现

2026-02-05

PDF arXiv

5/10

社区检测随机块模型精确恢复

Exact Recovery in the Data Block Model

Amir R. Asadi, Akbar Davoodi, Ramin Javadi et al.

研究数据块模型中的精确恢复问题，提出了新的阈值刻画和算法。

提出了用于数据块模型精确恢复的Chernoff--TV散度
刻画了数据块模型精确恢复的尖锐阈值

2026-02-05

PDF arXiv

9/10

Chain-of-Thought 无监督学习模型排序

NEX: Neuron Explore-Exploit Scoring for Label-Free Chain-of-Thought Selection and Model Ranking

Kang Chen, Zhuoka Feng, Sihan Zhao et al.

NEX提出了一种无监督的CoT选择和模型排序框架，通过神经元激活模式识别探索与利用阶段。

提出NEX框架，用于无监督CoT选择和模型排序
利用神经元激活模式识别探索与利用阶段

2026-02-05

PDF arXiv

9/10

Reinforcement Learning Long Context Reasoning

LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards

Bowen Ping, Zijun Chen, Yiyao Yu et al.

LongR通过强化学习和密集奖励，提升LLM在长文本推理中的表现。

提出LongR框架，结合动态“思考与阅读”机制。
引入基于相对信息增益的上下文密度奖励。

2026-02-05

PDF arXiv

8/10

绿色AI 能源效率 LLM推理

Towards Green AI: Decoding the Energy of LLM Inference in Software Development

Lola Solovyeva, Fernando Castor

分析LLM推理过程中能源消耗，发现预填充影响解码，并提出抑制冗余生成降低能耗。

分析LLM推理各阶段的能耗
发现预填充成本影响解码阶段能耗

2026-02-05

PDF arXiv

8/10

LLM Energy Efficiency Inference

Determining Energy Efficiency Sweet Spots in Production LLM Inference

Hiari Pizzini Cavagna, Andrea Proia, Giacomo Madella et al.

该论文分析了LLM推理中的能源效率，发现存在最佳效率区间，并提出了一个预测能源效率的模型。

发现LLM推理存在能源效率最佳区间
提出基于Transformer架构的能源效率预测模型

2026-02-05

PDF arXiv

8/10

概率推理异步计算反应式编程

Reactive Knowledge Representation and Asynchronous Reasoning

Simon Kohaut, Benedict Flade, Julian Eggert et al.

提出了用于动态环境下的反应式异步概率推理框架Resin及高效实现Reactive Circuits。

提出了概率编程语言Resin
提出了Reactive Circuits用于高效推理

2026-02-05

PDF arXiv

8/10

强化学习语言模型推理

Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

Zhiqi Yu, Zhangquan Chen, Mengting Liu et al.

论文揭示GRPO在探索和难度适应上的局限性，并提出改进算法A-GRAE。

发现了Group Relative Advantage Estimation (GRAE) 中的隐含优势对称性问题
提出Asymmetric GRAE (A-GRAE) 算法，动态调整探索激励和样本难度焦点

2026-02-05

PDF arXiv

8/10

推荐系统可解释性语言模型

Reasoning-guided Collaborative Filtering with Language Models for Explainable Recommendation

Fahad Anwaar, Adil Mehmood Khan, Muhammad Khalid et al.

提出RGCF-XRec，利用语言模型和协同过滤知识，实现可解释的序列推荐，提升效果和效率。

提出 reasoning-guided CF 知识增强方法
高效的四维度评分机制过滤噪声

2026-02-05

PDF arXiv

9/10

知识图谱 LLM 人机交互

A Human-in-the-Loop, LLM-Centered Architecture for Knowledge-Graph Question Answering

Larissa Pusch, Alexandre Courtiol, Tim Conrad

提出了一种人机协作的LLM知识图谱问答框架，提升知识图谱的可访问性和准确性。

提出人机协作的问答框架
利用LLM生成和解释Cypher查询

2026-02-05

PDF arXiv

8/10

大语言模型投机解码模型剪枝

SDFP: Speculative Decoding with FIT-Pruned Models for Training-Free and Plug-and-Play LLM Acceleration

Hanyu Wei, Zunhai Su, Peng Lu et al.

SDFP提出了一种无需训练、即插即用的LLM加速框架，通过FIT剪枝构建draft模型。

提出基于Fisher信息迹(FIT)的层剪枝方法
构建无需训练的轻量级draft模型

2026-02-05

PDF arXiv

7/10

模型融合知识迁移最优传输

Transport and Merge: Cross-Architecture Merging for Large Language Models

Chenhang Cui, Binyun Yang, Fei Shen et al.

提出了基于最优传输的跨架构模型融合框架，实现大模型知识向小模型的有效迁移。

提出了一种基于最优传输的跨架构模型融合方法
实现了大模型到异构小模型的知识迁移

2026-02-05

PDF arXiv

6/10

条件表示学习正交基优化零空间去噪

Refine and Purify: Orthogonal Basis Optimization with Null-Space Denoising for Conditional Representation Learning

Jiaquan Wang, Yan Lyu, Chen Li et al.

提出OD-CRL框架，优化条件表示学习中的基向量并抑制干扰，提升任务性能。

提出Adaptive Orthogonal Basis Optimization (AOBO)
提出Null-Space Denoising Projection (NSDP)

2026-02-05

PDF arXiv

8/10

定义提取 LLM 自然语言处理

SciDef: Automating Definition Extraction from Academic Literature with Large Language Models

Filip Kučera, Christoph Mandl, Isao Echizen et al.

SciDef提出一个基于LLM的pipeline，用于从学术文献中自动提取定义，并评估了不同prompting策略和指标。

提出了SciDef：一个基于LLM的定义提取pipeline
构建了DefExtra & DefSim数据集用于评估

2026-02-05

PDF arXiv

8/10

儿童语言语言评估 LLM

Beyond Length: Context-Aware Expansion and Independence as Developmentally Sensitive Evaluation in Child Utterances

Jiyun Chun, Eric Fosler-Lussier, Michael White et al.

提出一种上下文感知的儿童语言评估框架，关注扩展性和独立性，优于传统长度指标。

提出Expansion和Independence两个评估儿童语言的新维度
开发基于LLM的评估框架，自动评估儿童语言

2026-02-05

PDF arXiv

9/10

LLM安全性 Chain-of-Thought 注意力机制

CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation

Zhao Tong, Chunlin Gong, Yiping Zhang et al.

即使LLM拒绝生成假新闻，CoT推理过程也可能包含不安全内容，需关注潜在风险。

提出了针对LLM推理过程安全性的统一分析框架
利用雅可比矩阵和谱度量分析CoT生成过程中的注意力头

2026-02-04

PDF arXiv

8/10

LLM Prompting Uncertainty

Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know"

Dhruv Madhwal, Lyuxin David Zhang, Dan Roth et al.

分解提示不能弥补知识差距，但能帮助模型表达“我不知道”。

揭示分解提示对模型可靠性的影响
提出基于提示方式不一致性的不确定性信号

2026-02-04

PDF arXiv

7/10

Linear Attention Model Pruning Low-Rank Approximation

The Key to State Reduction in Linear Attention: A Rank-based Perspective

Philipp Nazari, T. Konstantin Rusch

分析线性注意力模型低秩现象，提出硬件感知结构化剪枝方法，减少模型状态大小。

理论分析了线性注意力中秩对检索误差的影响
提出了基于秩分解的结构化剪枝方法，用于减少状态大小

2026-02-04

PDF arXiv

9/10

推理模型表示学习上下文学习

Fluid Representations in Reasoning Models

Dmitrii Kharlapenko, Alessandro Stolfo, Arthur Conmy et al.

研究表明，推理模型通过上下文token表示的动态调整实现抽象结构信息的有效处理和问题解决。

发现推理模型在推理过程中改进内部的动作和概念表示
证明了模型会发展出专注于结构的抽象编码

2026-02-04

PDF arXiv

8/10

AI能力增长指数增长拐点

Are AI Capabilities Increasing Exponentially? A Competing Hypothesis

Haosen Ge, Hamsa Bastani, Osbert Bastani

论文反驳了AI能力呈指数增长的观点，提出AI能力增长可能已过拐点，并构建复杂模型进行论证。

反驳了AI能力指数增长的观点
指出现有模型预测的脆弱性

2026-02-04

PDF arXiv

9/10

LLM 时间问答拒绝回答

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Xinyu Zhou, Chang Jin, Carsten Eickhoff et al.

论文研究了如何训练LLM在时间问答中学会拒绝回答，并利用RL优化其推理能力。

提出了结合CoT监督和强化学习的框架，用于训练LLM的拒绝回答能力。
系统分析了不同信息类型和训练技术对时间推理和拒绝行为的影响。

2026-02-04

PDF arXiv

9/10

LLM Bias Reasoning

Inference-Time Reasoning Selectively Reduces Implicit Social Bias in Large Language Models

Molly Apsel, Michael N. Jones

推理能力能在一定程度上减少大语言模型中内隐的社会偏见。

发现推理能显著减少LLM的内隐社会偏见
揭示了这种减少偏见效应的领域特异性 (仅在社会偏见领域)

2026-02-04

PDF arXiv

8/10

不文明言论检测语言图优化 LLM

LinGO: A Linguistic Graph Optimization Framework with LLMs for Interpreting Intents of Online Uncivil Discourse

Yuan Zhang, Thales Bertaglia

LinGO利用语言图优化LLM，提升在线不文明言论意图识别准确性。

提出了LinGO框架，用于多类意图不文明言论分类。
分解语言为多步语言成分，针对性优化错误步骤。

2026-02-04

PDF arXiv

8/10

LLM 虚假信息偏差

Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility

Eun Cheol Choi, Lindsay E. Young, Emilio Ferrara

LLM模拟人类对虚假信息的易感性时，高估了态度影响，忽略了社交网络的作用。

揭示了LLM在模拟虚假信息易感性时存在的偏差。
评估了LLM在重现人类虚假信息信念和分享模式方面的能力。

2026-02-04

PDF arXiv

7/10

因果分析根因分析时变系统

Causal explanations of outliers in systems with lagged time-dependencies

Philipp Alexander Schwarz, Johannes Oberpriller, Sven Klaassen

论文改进因果根因分析方法，应用于时变系统异常检测，尤其针对能源系统峰值避免问题。

扩展因果根因分析方法到时变系统
提出两种处理无限依赖图的截断方法

2026-02-04

PDF arXiv

9/10

Reward Model Reasoning Alignment

Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models

Binghai Wang, Yantao Liu, Yuxuan Liu et al.

GenRM只追求结果准确性导致欺骗性对齐，本文提出Rationale一致性指标并改进训练方法。

提出Rationale一致性指标，用于衡量推理过程与人类判断的对齐程度
发现现有模型存在欺骗性对齐问题

2026-02-04

PDF arXiv

9/10

LLM Fine-tuning Reinforcement Learning Trust Region Policy Optimization

QUATRO: Query-Adaptive Trust Region Policy Optimization for LLM Fine-tuning

Doyeon Lee, Eunyi Lyou, Hyunsoo Cho et al.

QUATRO通过直接强制执行信任域约束，实现LLM策略优化的稳定和可控。

提出Query-Adaptive Trust-Region Policy Optimization (QUATRO)算法
通过原则性优化直接强制执行信任域约束

2026-02-04

PDF arXiv

7/10

E-commerce BERT Pre-training

RexBERT: Context Specialized Bidirectional Encoders for E-commerce

Rahul Bajaj, Anuj Garg

RexBERT针对电商领域，利用高质量数据和训练方法，构建高效的BERT模型。

发布 Ecom-niverse 电商领域数据集
提出基于 ModernBERT 的可复现预训练方案

2026-02-04

PDF arXiv

8/10

自动评分议论文自然语言处理

Beyond Holistic Scores: Automatic Trait-Based Quality Scoring of Argumentative Essays

Lucile Favero, Juan Antonio Pérez-Ortiz, Tanja Käser et al.

论文研究了基于特征的自动议论文评分，提升了评分的解释性和教育实用性。

提出了基于小规模LLM的结构化上下文学习方法
提出了基于BigBird模型的CORAL风格序数回归方法

2026-02-04

PDF arXiv

6/10

TabPFN 不确定性分解贝叶斯预测推理

A principled framework for uncertainty decomposition in TabPFN

Sandra Fortini, Kenyon Ng, Sonia Petrone et al.

本文提出了一种TabPFN的不确定性分解框架，并验证了其有效性。

提出了TabPFN的不确定性分解方法
证明了监督设置下的预测CLT

2026-02-04

PDF arXiv

9/10

LLM 长文本推理加速

LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding

Gang Lin, Dongfang Li, Zhuoen Chen et al.

LycheeDecode通过混合头稀疏解码加速长文本LLM推理，提升速度和质量。

提出基于HardKuma的混合头注意力机制
动态识别关键token并重用

2026-02-04

PDF arXiv

8/10

LLM Safety Refusal

$C$-$ΔΘ$: Circuit-Restricted Weight Arithmetic for Selective Refusal

Aditya Kasliwal, Pratinav Seth, Vinay Kumar Sankarapu

提出一种离线权重更新方法C-Δθ，用于选择性拒绝，无需推理时干预。

提出 Circuit Restricted Weight Arithmetic (C-Δθ) 方法
通过稀疏电路定位拒绝相关的计算

2026-02-04

PDF arXiv

10/10

LLM Scientific Reasoning Tool Use

ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control

Zhentao Tang, Yuqi Cui, Shixiong Kai et al.

ReThinker通过置信度引导的反思和工具使用，显著提升了LLM在复杂科学推理任务上的性能。

提出了基于Solver-Critic-Selector架构的置信度感知Agent框架ReThinker
设计了反向数据合成流程和自适应轨迹回收策略，用于无监督训练

2026-02-04

PDF arXiv

8/10

神经科学机制模型系统识别

Discovering Mechanistic Models of Neural Activity: System Identification in an in Silico Zebrafish

Jan-Matthis Lueckmann, Viren Jain, Michał Januszewski

论文利用虚拟斑马鱼环境，结合LLM进行神经活动机制模型的自动发现与验证。

建立了透明的神经活动ground truth仿真环境
证明了LLM驱动的树搜索能发现优于传统基线的预测模型

2026-02-04

PDF arXiv

8/10

LLM 微领域自适应预训练生成任务

Is Micro Domain-Adaptive Pre-Training Effective for Real-World Operations? Multi-Step Evaluation Reveals Potential and Bottlenecks

Masaya Tsunokake, Yuta Koreeda, Terufumi Morishita et al.

论文研究了微领域自适应预训练（mDAPT）在生成任务中的潜力和瓶颈，并揭示了其在知识获取方面的有效性。

将问答过程分解为知识获取、推理和答案生成三个子任务进行评估
验证了mDAPT在解决知识获取问题上的有效性

2026-02-04

PDF arXiv

6/10

PINN Bayesian Inference Inverse Problems

Bayesian PINNs for uncertainty-aware inverse problems (BPINN-IP)

Ali Mohammad-Djafari

提出了一种基于贝叶斯PINN的线性逆问题求解方法，可量化不确定性。

提出了BPINN-IP方法
利用变分推理和蒙特卡洛dropout进行预测

2026-02-04

PDF arXiv

7/10

A/B testing Network interference Cluster randomization

Journey to the Centre of Cluster: Harnessing Interior Nodes for A/B Testing under Network Interference

Qianyi Chen, Anpeng Wu, Bo Li et al.

提出一种基于内部节点的A/B测试估计器，并使用预测器进行偏差校正，提升网络干扰下的测试效果。

提出Mean-in-Interior (MII)估计器，降低方差
利用counterfactual predictor校正内部节点的偏差

2026-02-04

PDF arXiv

7/10

diffusion language models entropy block-wise decoding

Swordsman: Entropy-Driven Adaptive Block Partition for Efficient Diffusion Language Models

Yu Zhang, Xinchen Li, Jialei Zhou et al.

Swordsman提出了一种基于熵驱动的自适应分块解码框架，提高了扩散语言模型的效率和性能。

提出熵驱动的自适应分块解码框架Swordsman
通过熵分析识别语义或句法成分边界

2026-02-04

PDF arXiv

9/10

LLM 临床推理性别偏见

Evaluating the Presence of Sex Bias in Clinical Reasoning by Large Language Models

Isabel Tsintsiper, Sheng Wong, Beth Albert et al.

评估大型语言模型在临床推理中存在的性别偏见，发现不同模型存在稳定的性别偏向。

系统性评估LLM在临床推理中的性别偏见
发现不同LLM模型存在稳定的、模型特定的性别偏向

2026-02-04

PDF arXiv

9/10

LLM Mathematical Reasoning Fine-tuning

Beyond Rejection Sampling: Trajectory Fusion for Scaling Mathematical Reasoning

Jie Deng, Hanshuang Tong, Jun Li et al.

TrajFusion通过融合错误轨迹和反思提示，提升LLM数学推理能力。

提出了TrajFusion，一种改进的微调策略
将拒绝采样重新定义为结构化监督构建过程

2026-02-04

PDF arXiv

9/10

LLM Policy Optimization Bregman Divergence

Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning

Rui Yuan, Mykola Khandoga, Vinay Kumar Sankarapu

提出了GBMPO框架，探索Bregman散度在LLM推理策略优化中的应用，显著提升数学推理和代码生成性能。

提出了 Group-Based Mirror Policy Optimization (GBMPO) 框架
探索了多种 Bregman 散度在策略优化中的应用，包括手动设计和神经元映射

2026-02-04

PDF arXiv

5/10

晶体张量预测等变神经网络张量网络

Efficient Equivariant High-Order Crystal Tensor Prediction via Cartesian Local-Environment Many-Body Coupling

Dian Jin, Yancheng Yuan, Xiaoming Tao

CEITNet通过笛卡尔局部环境张量网络高效预测高阶晶体张量。

提出CEITNet模型，用于高效预测高阶晶体张量性质
使用笛卡尔张量基构建等变输出，提高计算效率

2026-02-04

PDF arXiv

9/10

并行推理效率优化 LLM

Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

Tong Zheng, Chengsong Huang, Runpeng Dai et al.

提出Parallel-Probe框架，通过2D探测优化并行推理，实现效率与准确率的平衡。

提出2D探测方法，揭示并行推理中的宽度-深度动态
设计Parallel-Probe控制器，基于共识提前停止和偏差剪枝动态优化并行推理

2026-02-03

PDF arXiv

8/10

LLM 科学研究人机协作

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain et al.

该论文展示了Gemini模型在科学研究中的应用，并总结了人机协作的有效方法。

展示Gemini模型在解决开放性科学问题中的能力
提取有效人机协作的通用技术

2026-02-03

PDF arXiv

8/10

Meme Social Abuse Detection Multimodal Learning

They Said Memes Were Harmless-We Found the Ones That Hurt: Decoding Jokes, Symbols, and Cultural References

Sahil Tripathi, Gautam Siddharth Kashyap, Mehwish Nasim et al.

提出了CROSS-ALIGN+框架，提升基于meme的社交恶意信息检测效果，并增强模型可解释性。

缓解文化盲区
减少边界模糊

2026-02-03

PDF arXiv

6/10

音频分类时空融合自适应权重

Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion

Oscar Ovanger, Levi Harris, Timothy H. Keitt

论文提出FINCH框架，自适应融合音频和时空信息，提升生物声学分类性能。

提出了FINCH框架，用于自适应融合音频和时空证据。
引入per-sample gating函数，评估上下文信息的可靠性。

2026-02-03

PDF arXiv

9/10

LLM Reasoning Risk Control

Conformal Thinking: Risk Control for Reasoning on a Compute Budget

Xi Wang, Anushri Suresh, Alvin Zhang et al.

提出一种在计算预算下控制LLM推理风险的框架，优化计算效率。

提出基于风险控制的LLM推理预算设定框架
引入上限和下限阈值来控制推理过程

2026-02-03

PDF arXiv

7/10

任务归因核代理模型元学习

Efficient Estimation of Kernel Surrogate Models for Task Attribution

Zhenshuo Zhang, Minxuan Duan, Hongyang R. Zhang

提出核代理模型，用于高效准确地评估训练任务对目标任务的影响，优于线性模型。

提出统一的任务权重框架分析任务归因方法。
引入核代理模型，有效捕捉二阶任务交互。

2026-02-03

PDF arXiv

9/10

Reasoning Reinforcement Learning Large Language Models

Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

Ian Wu, Yuxiao Qu, Amrith Setlur et al.

RC算法通过迭代解码，利用LLM的生成和总结能力，实现推理链的持续改进，提升模型在长推理任务上的性能。

提出了一种新的迭代解码算法RC
证明RC可以提升模型在长推理任务上的外推能力

2026-02-03

PDF arXiv

7/10

数据混合数据选择流形学习

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Changhao Wang, Yunfei Yu, Xinhao Yao et al.

UniGeM通过几何探索统一数据混合和选择，提高LLM训练的数据效率。

提出UniGeM框架，统一数据混合和选择
通过几何分布过滤高质量实例，保证逻辑一致性

2026-02-03

PDF arXiv

9/10

扩散模型自回归模型推理

Reasoning with Latent Tokens in Diffusion Language Models

Andre He, Sean Welleck, Daniel Fried

扩散语言模型通过联合预测未知token进行推理，本文探究了隐变量token的作用，并将其引入自回归模型。

揭示了扩散模型中隐变量token对于推理能力的重要性
提出了一种调节隐变量token数量的方法，平衡推理速度和样本质量

2026-02-03

PDF arXiv

7/10

EHR 生成模型临床预测

Efficient Variance-reduced Estimation from Generative EHR Models: The SCOPE and REACH Estimators

Luke Solo, Matthew B. A. McDermott, William F. Parker et al.

提出了SCOPE和REACH两种新的EHR生成模型估计器，显著降低了计算成本和抽样方差。

提出了SCOPE和REACH两种新的无偏估计器
证明了REACH保证了方差缩减

2026-02-03

PDF arXiv

9/10

多跳问答文化理解印尼文化

No Shortcuts to Culture: Indonesian Multi-hop Question Answering for Complex Cultural Understanding

Vynska Amalia Permadi, Xingwei Tan, Nafise Sadat Moosavi et al.

提出了ID-MoCQA，一个用于评估LLM文化理解能力的大规模多跳印尼文化问答数据集。

构建了大规模印尼文化多跳问答数据集ID-MoCQA
提出了将单跳问题转换为多跳推理链的框架

2026-02-03

PDF arXiv

9/10

LLM 推测解码语义理解

Beyond Tokens: Semantic-Aware Speculative Decoding for Efficient Inference by Probing Internal States

Ximing Dong, Shaowei Wang, Dayi Lin et al.

SemanticSpec通过语义感知的推测解码，提升LLM推理效率，尤其在长链推理中表现突出。

提出语义感知的推测解码框架SemanticSpec
引入语义概率估计机制，利用内部隐状态评估语义序列的可能性

2026-02-03

PDF arXiv

9/10

搜索集成推理强化学习 Actor-Refiner

Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration

Bowei He, Minda Hu, Zenan Xu et al.

Search-R2通过Actor-Refiner协作，结合混合奖励，提升了搜索集成推理的性能。

提出Actor-Refiner协作框架，增强搜索集成推理。
设计混合奖励，提供细粒度监督。

2026-02-03

PDF arXiv

9/10

信息检索推理知识推理

Tutorial on Reasoning for IR & IR for Reasoning

Mohanna Hoveyda, Panagiotis Efstratiadis, Arjen de Vries et al.

本教程定义了信息检索中的推理，构建统一分析框架，促进跨学科合作，提升IR系统的推理能力。

定义了信息检索中推理的概念
构建了推理方法的统一分析框架

2026-02-03

PDF arXiv

9/10

强化学习探索熵正则化

TRE: Encouraging Exploration in the Trust Region

Chao Huang, Yujing Lu, Quangang Li et al.

论文提出了一种Trust Region Entropy（TRE）方法，提升LLM在强化学习中的探索能力。

发现了标准熵正则化在LLM中失效的原因是累积尾部风险
提出了TRE方法，在模型信任区域内鼓励探索

2026-02-03

PDF arXiv

7/10

扩散模型偏微分方程知识蒸馏

Ultra Fast PDE Solving via Physics Guided Few-step Diffusion

Cindy Xiangrui Kong, Yueqi Wang, Haoyang Zheng et al.

Phys-Instruct通过物理引导的蒸馏，加速扩散模型求解偏微分方程，并提升物理一致性。

提出Phys-Instruct框架，加速PDE求解。
通过PDE知识蒸馏，增强物理一致性。

2026-02-03

PDF arXiv

6/10

simulation-based inference regression importance sampling

Simulation-Based Inference via Regression Projection and Batched Discrepancies

Arya Farahi, Jonah Rose, Paul Torrey

提出一种基于回归投影和批量差异的模拟推断方法，加速参数推断并分析其局限性。

提出基于回归投影的轻量级模拟推断方法
证明该方法的一致性和稳定性

2026-02-03

PDF arXiv

8/10

医疗AI 世界模型电子病历

EHRWorld: A Patient-Centric Medical World Model for Long-Horizon Clinical Trajectories

Linjie Mu, Zhongzhen Huang, Yannian Gu et al.

EHRWorld模型通过在临床数据上训练，显著提升了LLM在长期医疗模拟中的稳定性和准确性。

提出了EHRWorld模型，用于模拟长期临床轨迹。
构建了大规模纵向临床数据集EHRWorld-110K。

2026-02-03

PDF arXiv

8/10

LLM 逆合成药物发现

When Single Answer Is Not Enough: Rethinking Single-Step Retrosynthesis Benchmarks for LLMs

Bogdan Zagribelnyy, Ivan Ilin, Maksim Kuznetsov et al.

论文提出一种新的单步逆合成基准测试框架，并使用化学合理性指标ChemCensor评估LLM的性能。

提出了新的逆合成基准测试框架
引入了化学合理性指标ChemCensor

2026-02-03

PDF arXiv

8/10

LLM Generalization Representation Learning

Can Large Language Models Generalize Procedures Across Representations?

Fangru Lin, Valentin Hofmann, Xingchen Wan et al.

研究LLM在代码、图和自然语言等表示之间的泛化能力，并提出一种两阶段数据课程。

揭示了LLM在不同表示形式之间泛化的局限性
提出了一种有效的两阶段数据课程训练方法

2026-02-03

PDF arXiv

9/10

逻辑神经网络硬件加速机器学习

WARP Logic Neural Networks

Lino Gerlach, Thore Gerlach, Liv Våge et al.

WARP逻辑神经网络通过高效学习硬件原生逻辑块组合，降低训练成本，提高推理速度。

提出WARP逻辑神经网络框架
参数效率最高的布尔函数表示

2026-02-03

PDF arXiv

9/10

LLM 推理负样本

Not All Negative Samples Are Equal: LLMs Learn Better from Plausible Reasoning

Zixiang Di, Jinyi Han, Shuo Zhang et al.

提出PNS方法，通过合成高质量负样本来提升LLM的推理能力。

提出了Plausible Negative Samples（PNS）方法
使用逆向强化学习生成高质量负样本

2026-02-03

PDF arXiv

10/10

Reinforcement Learning Reasoning Faithfulness

Learning to Reason Faithfully through Step-Level Faithfulness Maximization

Runquan Gui, Yafu Li, Xiaoye Qu et al.

FaithRL通过最大化步骤级忠实度来提升LLM多步推理的可靠性，降低幻觉率。

提出了FaithRL框架，直接优化推理忠实度
设计了几何奖励机制和忠实度感知的优势调制机制

2026-02-03

PDF arXiv

9/10

Diffusion LLM Inference Unmasking Order

Lookahead Path Likelihood Optimization for Diffusion LLMs

Xuejie Liu, Yap Vit Chun, Yitao Liang et al.

提出了一种基于路径似然优化的扩散LLM解码方法，提升推理准确性。

提出了路径对数似然(Path LL)目标
设计了高效的值估计器POKE

2026-02-03

PDF arXiv

9/10

LVLM 表格推理解耦

Decoupling Skeleton and Flesh: Efficient Multimodal Table Reasoning with Disentangled Alignment and Structure-aware Guidance

Yingjie Zhu, Xuefeng Bai, Kehai Chen et al.

提出DisCo和Table-GLS框架，解耦表格结构和内容，提升LVLM在表格推理上的效率和泛化性。

提出DisCo框架，解耦结构和内容。
提出Table-GLS框架，进行结构引导的推理。

2026-02-03

PDF arXiv

8/10

神经符号学习时序逻辑深度学习

DeepDFA: Injecting Temporal Logic in Deep Learning for Sequential Subsymbolic Applications

Elena Umili, Francesco Argenziano, Roberto Capobianco

DeepDFA通过将时序逻辑注入深度学习，提升序列子符号应用性能。

提出DeepDFA神经符号框架
将时序逻辑（DFA）建模为可微分层

2026-02-03

PDF arXiv

9/10

LLM Reasoning Self-Verification

Self-Verification Dilemma: Experience-Driven Suppression of Overused Checking in LLM Reasoning

Quanyu Long, Kai Jie Jiang, Jianda Chen et al.

论文发现LLM推理中过度自验证现象，提出经验驱动框架抑制无效自验证，减少token使用并保持甚至提升准确率。

发现LLM推理中过度自验证问题
提出经验驱动的自验证抑制框架

2026-02-03

PDF arXiv