8/10
交互意识 LLM评估 用户回复生成

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Sarath Shekkizhar, Romain Cosentino, Adam Earle

提出用户回复生成作为探测LLM交互意识的方法,发现交互意识与任务准确率解耦,可通过后训练提升。

  • 提出一种新的评估LLM交互意识的probe:用户回复生成。
  • 揭示了LLM的交互意识与任务准确率之间存在解耦现象。
2026-04-02
8/10
LLM Explainability Visualization

VISTA: Visualization of Token Attribution via Efficient Analysis

Syed Ahmed, Bharathi Vokkaliga Ganesh, Jagadish Babu P et al.

论文提出了一种轻量级、模型无关的token重要性可视化方法,用于理解LLM对prompt信息的处理方式。

  • 提出一种模型无关的token重要性可视化方法
  • 使用扰动策略和三矩阵分析框架
2026-04-02
6/10
RNN 深度学习 表达能力

On the Role of Depth in the Expressivity of RNNs

Maude Lizaire, Michael Rizvi-Martel, Éric Dupuis et al.

该论文从理论和实验上证明了深度能够有效提升RNN的记忆容量和表达能力。

  • 证明深度能有效提升RNN的记忆容量
  • 揭示深度如何增强RNN的表达能力
2026-04-02
7/10
人才推荐 LLM 位置偏差

Towards Position-Robust Talent Recommendation via Large Language Models

Silin Du, Hongyan Liu

该论文提出L3TR框架,通过块注意力、位置编码和ID采样,提升LLM在人才推荐中的效果并减轻位置偏差。

  • 提出了一个名为L3TR的列表式人才推荐框架
  • 设计了块注意力机制和局部位置编码方法,以增强文档间处理并减轻位置偏差和并发token偏差
2026-04-02
7/10
文本频率 LLM优化 课程学习

Adam's Law: Textual Frequency Law on Large Language Models

Hongyuan Adam Lu, Z. L., Victor Wei et al.

该论文提出了一种基于文本频率的LLM优化框架,包括文本频率律、蒸馏和课程学习方法。

  • 提出文本频率律 (TFL)
  • 提出文本频率蒸馏 (TFD)方法
2026-04-02
8/10
LLM Time Series Explanation

LLM-as-a-Judge for Time Series Explanations

Preetham Sivalingam, Murari Mandal, Saurabh Deshpande et al.

该论文研究了LLM作为时间序列解释的生成器和评估器的可行性,并构建了合成数据集进行评估。

  • 提出了基于LLM的时间序列解释评估方法,无需参考解释。
  • 构建了一个包含350个时间序列案例的合成基准数据集。
2026-04-02
9/10
语言分割 链式思考 模型压缩

Efficient Reasoning via Thought Compression for Language Segmentation

Qing Zhou, Shiyu Zhang, Yuyu Jia et al.

WISE通过思考压缩实现高效推理,显著减少推理长度,同时保持了优秀的零样本分割性能。

  • 提出WISE框架,通过压缩推理过程加速推理。
  • 引入concise rationale和self-distillation目标。
2026-04-02
8/10
latent space language model representation learning

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Xinlei Yu, Zhangquan Chen, Yongbo He et al.

综述性论文,全面介绍了语言模型中潜在空间的基础、演变、机制、能力和未来展望。

  • 系统性地总结了语言模型中潜在空间的研究现状。
  • 从机制和能力两个角度组织了潜在空间的技术发展。
2026-04-02
9/10
多跳推理 知识图谱 错误纠正

SAFE: Stepwise Atomic Feedback for Error correction in Multi-hop Reasoning

Daeyong Kwon, Soyoung Yoon, Seung-won Hwang

SAFE框架通过KG验证的逐步反馈纠正LLM多跳推理中的错误,提升推理的可靠性和准确性。

  • 提出了SAFE框架,用于动态评估和纠正LLM多跳推理错误
  • 建立了原子错误分类体系和KG验证流程,用于识别和消除训练数据中的噪声
2026-04-02
8/10
LLM 深度缩放 推理效率

Universal YOCO for Efficient Depth Scaling

Yutao Sun, Li Dong, Tianzhu Ye et al.

YOCO-U结合YOCO和递归计算,提升LLM的推理深度和效率,同时保持低开销和全局KV缓存。

  • 提出 Universal YOCO (YOCO-U) 架构
  • 结合YOCO和递归计算,提升推理效率
2026-04-01
6/10
AI天气预测 机器学习 误差分析

The Recipe Matters More Than the Kitchen:Mathematical Foundations of the AI Weather Prediction Pipeline

Piyush Garg, Diana R. Gergel, Andrew E. Shao et al.

论文构建了AI天气预测的完整学习管线理论框架,并验证了其重要性。

  • 构建了基于近似理论、动力系统理论、信息理论和统计学习理论的AI天气预测学习管线框架
  • 提出了学习管线误差分解,证明估计误差在当前规模下占主导地位
2026-04-01
8/10
LLM Regression Text Regression

LLM REgression with a Latent Iterative State Head

Yiheng Su, Matthew Lease

RELISH提出一种轻量级迭代状态头用于文本回归,优于现有方法且参数效率高。

  • 提出了一种新的轻量级文本回归架构RELISH
  • 使用迭代潜在状态细化预测标量值
2026-04-01
9/10
大语言模型 推理 因果关系

Therefore I am. I Think

Esakkivel Esakkiraja, Sai Rajeswar, Denis Akhiyarov et al.

大语言模型在推理前已做出决策,推理过程倾向于合理化既定选择。

  • 揭示了决策在推理过程中的提前编码现象
  • 通过激活操控验证了决策对推理过程的因果影响
2026-04-01
9/10
LLM Reasoning Context Management

Reasoning Shift: How Context Silently Shortens LLM Reasoning

Gleb Rodionov

研究表明,LLM在不同上下文环境中,推理过程会显著缩短,影响自我验证行为。

  • 揭示了LLM推理长度受上下文影响的现象(Reasoning Shift)
  • 分析了推理过程缩短与自我验证行为减少的关联
2026-04-01
9/10
强化学习 策略优化 语言模型

Policy Improvement Reinforcement Learning

Huaiyang Wang, Xiaojie Li, Deqing Wang et al.

PIRL框架通过显式最大化迭代间的策略改进,提出了自纠正的策略优化方法PIPO。

  • 提出了Policy Improvement Reinforcement Learning (PIRL)框架
  • 提出了Policy Improvement Policy Optimization (PIPO)算法
2026-04-01
7/10
Fact Checking African Languages Information Retrieval

AfrIFact: Cultural Information Retrieval, Evidence Extraction and Fact Checking for African Languages

Israel Abebe Azime, Jesujoba Oluwadara Alabi, Crystina Zhang et al.

AfrIFact数据集促进非洲语言的自动事实核查研究,揭示了跨语言检索和LLM在多语言事实验证方面的挑战。

  • 构建了包含十种非洲语言和英语的事实核查数据集AfrIFact
  • 评估了嵌入模型在跨语言检索方面的能力
2026-04-01
9/10
Chain-of-Thought Monitorability Reinforcement Learning

Aligned, Orthogonal or In-conflict: When can we safely optimize Chain-of-Thought?

Max Kaufmann, David Lindner, Roland S. Zimmermann et al.

论文研究奖励函数对CoT监控能力的影响,提出对齐、正交和冲突三种类型,并通过实验验证了冲突奖励会降低CoT监控能力。

  • 提出 CoT 监控能力的概念,并分析了训练对其的影响
  • 建立了一个预测 CoT 监控能力变化的理论框架
2026-03-31
9/10
代码生成 LLM推理 强化学习

Think Anywhere in Code Generation

Xue Jiang, Tianyu Zhang, Ge Li et al.

提出Think-Anywhere,一种在代码生成过程中按需进行推理的新机制,提升了LLM的性能和可解释性。

  • 提出了Think-Anywhere推理机制,允许LLM在代码生成过程中随时进行推理。
  • 通过冷启动训练和基于结果的强化学习,实现了Think-Anywhere的自适应推理能力。
2026-03-31
7/10
Large Language Models Mathematical Physics Bethe Ansatz

Bethe Ansatz with a Large Language Model

Balázs Pozsgay, István Vona

该论文探索了大型语言模型在数学物理计算中的能力,成功求解了多个自旋链模型的Bethe Ansatz解。

  • 验证LLM在解决复杂数学物理问题上的能力
  • 发现了新的且未发表的自旋链模型的Bethe Ansatz解
2026-03-31
8/10
MoE Transfer Learning Fine-tuning

Training-Free Dynamic Upcycling of Expert Language Models

Eros Fanì, Oğuzhan Ersoy

DUME通过动态组合领域专家模型,无需额外训练即可构建多任务MoE模型,提升性能。

  • 提出了一种新的动态Upcycling MoE (DUME) 方法
  • 无需额外训练即可构建多任务模型
2026-03-31
9/10
逆合成路线规划 强化学习 Chain-of-Thought

Reinforced Reasoning for End-to-End Retrosynthetic Planning

Chenyang Zuo, Siqi Fan, Yizhen Luo et al.

ReTriP是一个端到端生成框架,将逆合成路线规划转化为直接的CoT推理任务,并在长程规划中表现出色。

  • 提出了ReTriP端到端生成框架
  • 使用路径一致的分子表示
2026-03-31
8/10
interpretable AI concept alignment foundation models

Concept frustration: Aligning human concepts and machine representations

Enrico Parisini, Christopher J. Soelistyo, Ahab Isaac et al.

论文提出“概念挫败”框架,旨在对齐人类概念与机器学习模型内部表征,提升可解释性。

  • 提出“概念挫败”的概念,用于衡量人类与机器概念的差异
  • 开发任务对齐相似度度量,检测概念挫败现象
2026-03-31
9/10
强化学习 LLM 中毒诊断

Learning Diagnostic Reasoning for Decision Support in Toxicology

Nico Oberländer, David Bani-Harouni, Tobias Zellner et al.

DeToxR模型通过强化学习优化LLM,融合非结构化数据和医疗数据,提升中毒诊断准确性。

  • 提出 DeToxR 模型,应用于中毒诊断决策支持
  • 使用强化学习优化 LLM,提升多标签预测性能
2026-03-31
5/10
列车装载优化 组合优化 数学规划

Reducing Complexity for Quantum Approaches in Train Load Optimization

Zhijie Tang, Albert Nieto-Morales, Arit Kumar Bishwas

提出一种更紧凑的列车装载优化模型,降低了计算复杂度并提高了求解效率。

  • 创新性地在目标函数中隐式计算再处理成本
  • 大幅减少模型变量和约束的数量
2026-03-31
8/10
LLM可解释性 Token-level Perplexity Linguistic Analysis

Is my model perplexed for the right reason? Contrasting LLMs' Benchmark Behavior with Token-Level Perplexity

Zoë Prins, Samuele Punzo, Frank Wildenburg et al.

论文提出使用token-level perplexity分析LLM是否基于正确的语言线索进行预测,揭示模型可能依赖非预期启发式。

  • 提出一种基于token-level perplexity的LLM可解释性框架
  • 对比最小句子对,分析模型对关键linguistic cue的依赖程度
2026-03-31
7/10
可解释性AI 树集成模型 随机森林

Rigorous Explanations for Tree Ensembles

Yacine Izza, Alexey Ignatiev, Xuanxiang Huang et al.

该论文研究了随机森林和梯度提升树等树集成模型的严格、逻辑自洽的可解释性。

  • 为树集成模型提供严格定义的可解释性方法
  • 研究了随机森林和梯度提升树的可解释性
2026-03-31
5/10
神经网络 热力学 本构模型

A Convex Route to Thermomechanics: Learning Internal Energy and Dissipation

Hagen Holthusen, Paul Steinmann, Ellen Kuhl

提出一种基于物理的神经网络框架,用于学习完全耦合的热力学本构模型,保证热力学相容性。

  • 提出基于内能和耗散势的热力学本构模型学习方法
  • 采用输入凸神经网络保证热力学容许性
2026-03-30
7/10
物理信息 冲击识别 复合材料

Physics-Informed Framework for Impact Identification in Aerospace Composites

Natália Ribeiro Marinho, Richard Loendersloot, Jan Willem Wiegman et al.

提出了一种基于物理信息的冲击识别框架,可实现更稳定、数据效率更高的冲击识别。

  • 提出了一种融合物理知识和数据驱动推理的冲击识别框架
  • 利用物理信息的能量指标构建输入空间
2026-03-30
7/10
知识图谱 图嵌入 链接预测

TIEG-Youpu Solution for NeurIPS 2022 WikiKG90Mv2-LSC

Feng Nie, Zhixiu Ye, Sifa Xie et al.

该论文提出一种用于大规模知识图谱补全的检索-重排序模型,在WikiKG90Mv2数据集上取得了显著提升。

  • 提出优先级填充检索模型
  • 提出基于集成的邻居增强表示重排序模型
2026-03-30
6/10
数据素养 K-12教育 学习轨迹

Mapping data literacy trajectories in K-12 education

Robert Whyte, Manni Cheung, Katharine Childs et al.

分析K-12教育中数据素养的学习路径,提出数据范式框架并构建学习轨迹。

  • 提出数据范式框架,从逻辑和可解释性两个维度分类学习活动
  • 构建数据素养学习轨迹,可视化学习路径
2026-03-30
9/10
推理 能量模型 隐空间规划

Reasoning as Energy Minimization over Structured Latent Trajectories

David K. Johansson

论文提出了一种基于能量最小化的结构化隐空间轨迹推理方法,并解决了训练中的分布不匹配问题。

  • 提出 Energy-Based Reasoning via Structured Latent Planning (EBRM) 模型
  • 分析了隐空间规划中的分布不匹配问题
2026-03-30
6/10
保形预测 工具变量回归 非参数统计

Conformal Prediction for Nonparametric Instrumental Regression

Masahiro Kato

提出一种非参数工具变量回归的保形预测方法,保证有限样本覆盖率。

  • 提出了基于保形推断的非参数工具变量回归预测区间构建方法
  • 建立了分布自由的有限样本覆盖率保证
2026-03-26
7/10
因果推断 时间序列 模型解释性

Causal-INSIGHT: Probing Temporal Models to Extract Causal Structure

Benjamin Redden, Hui Wang, Shuyan Li

Causal-INSIGHT提出了一种从时间序列预测模型中提取因果结构的框架。

  • 提出Causal-INSIGHT框架,用于从时间预测模型中提取因果结构
  • 引入Qbic,一种稀疏图选择准则,平衡预测精度和结构复杂度
2026-03-26
8/10
language model correctness estimation cross-model

Cross-Model Disagreement as a Label-Free Correctness Signal

Matt Gorbett, Suman Jana

提出一种无需标注数据的跨模型差异性方法,用于评估语言模型的正确性。

  • 提出跨模型差异性作为正确性指标
  • 引入Cross-Model Perplexity (CMP)和Cross-Model Entropy (CME)
2026-03-26
6/10
感知机 教师-学生模型 相变

The Symmetric Perceptron: a Teacher-Student Scenario

Giovanni Catania, Aurélien Decelle, Suhanee Korpe

论文研究对称感知机的教师-学生模型,分析了噪声影响下的学习过程和相变。

  • 提出了对称感知机的教师-学生模型
  • 分析了不同势函数和噪声下的相图
2026-03-26
7/10
AI可靠性 设计时验证 类型系统

Decidable By Construction: Design-Time Verification for Trustworthy AI

Houston Haynes

该论文提出一种设计时验证框架,在训练前验证AI模型的数值稳定性、计算正确性等。

  • 提出一种设计时验证框架,降低AI可靠性的计算开销。
  • 将AI模型属性表示为有限生成阿贝尔群上的约束。
2026-03-26
6/10
因果推断 ICU 出院策略

A Causal Framework for Evaluating ICU Discharge Strategies

Sagar Nagaraj Simha, Juliette Ortholand, Dave Dongelmans et al.

使用因果推断评估ICU出院策略,旨在优化干预时长和患者预后。

  • 扩展g-formula Python包,用于评估停止策略
  • 开源pipeline,应用于MIMIC-IV数据集
2026-03-26
8/10
算术谜题 难度建模 自适应学习

4OPS: Structural Difficulty Modeling in Integer Arithmetic Puzzles

Yunus E. Zeytuncu

通过分析算术谜题,揭示了谜题难度与结构属性之间的关系,用于提升自适应学习系统。

  • 形式化算术谜题问题并开发精确求解器
  • 构建大规模数据集并定义难度度量
2026-03-26
8/10
LLM Token Compression Autoencoding

Large Language Model as Token Compressor and Decompressor

Wenbing Li, Zikai Song, Jielei Zhang et al.

提出了一种利用LLM作为token压缩和解压缩器的新方法,实现显著的token数量缩减和高效的长文本处理。

  • 提出了基于LLM的自编码token压缩框架
  • 实现了高达18倍的token缩减,同时保持了重构保真度
2026-03-26
7/10
知识图谱 信息抽取 文档理解

DAGverse: Building Document-Grounded Semantic DAGs from Scientific Papers

Shu Wan, Saketh Vishnubhatla, Iskander Kushbay et al.

DAGverse构建框架,利用科学论文提取文档级的语义DAG,并发布了包含108个DAG的数据集。

  • 提出DAGverse框架,用于半自动构建文档级语义DAG
  • 构建DAGverse-Pipeline,用于高精度语义DAG提取
2026-03-26
7/10
机器翻译 低资源 评估指标

Translation or Recitation? Calibrating Evaluation Scores for Machine Translation of Extremely Low-Resource Languages

Danlu Chen, Ka Sing He, Jiahe Tian et al.

提出了FRED指标评估极低资源机器翻译,揭示性能差异受训练数据质量和预训练影响。

  • 提出了FRED指标,包含生育率、检索代理、预训练曝光和语料库多样性
  • 揭示了训练集重叠和预训练暴露对极低资源翻译性能的影响
2026-03-26
7/10
量子计算 偏微分方程 神经网络

Quantum Neural Physics: Solving Partial Differential Equations on Quantum Simulators using Quantum Convolutional Neural Networks

Jucai Zhai, Muhammad Abdullah, Boyang Chen et al.

提出一种基于量子卷积神经网络的混合量子-经典偏微分方程求解框架,利用量子计算加速。

  • 提出Quantum Neural Physics框架,将偏微分方程映射到量子电路。
  • 设计混合量子-经典CNN多重网格求解器(HQC-CNNMG)。
2026-03-25
9/10
LLM Bias Gender Inference

Failure of contextual invariance in gender inference with large language models

Sagar Kumar, Ariel Flint, Luca Maria Aiello et al.

LLM在性别推断中违反了上下文不变性,即使在语法结构相似的情况下也会出现偏差。

  • 揭示了LLM在性别推断任务中上下文不变性失效的问题。
  • 发现即使引入极小的上下文信息,LLM输出也会发生显著变化。
2026-03-24
8/10
LLM 测试生成 软件演化

Evaluating LLM-Based Test Generation Under Software Evolution

Sabaat Haroon, Mohammad Taha Khan, Muhammad Ali Gulzar

研究软件演化下,LLM生成测试用例的鲁棒性和对语义变化的适应性。

  • 评估了LLM生成测试在程序演化下的表现
  • 分析了语义改变和语义保持改变对LLM生成测试的影响
2026-03-24
8/10
时间关系抽取 注意力机制 自然语言处理

WISTERIA: Weak Implicit Signal-based Temporal Relation Extraction with Attention

Duy Dao Do, Anaïs Halftermeyer, Thi-Bich-Hanh Dao

WISTERIA模型通过弱隐式信号和注意力机制,提升了时间关系抽取性能并增强了解释性。

  • 提出WISTERIA框架,利用弱隐式信号进行时间关系抽取
  • 结合多头注意力和pair-conditioned top-K pooling,隔离信息量最大的上下文token
2026-03-24
6/10
机器学习理论 Regime Variation 自适应学习

General Machine Learning: Theory for Learning Under Variable Regimes

Aomar Osmani

论文构建了一个学习理论框架,用于研究学习器、记忆和评估条件随时间变化的学习场景。

  • 定义了 regime-varying 学习的核心理论对象
  • 建立了 admissibility、protected-core preservation 和 evaluator-aware learning evolution 之间的联系
2026-03-24
8/10
生成式推荐 语义ID 语言模型推理

Reasoning over Semantic IDs Enhances Generative Recommendation

Yingzhi He, Yan Sun, Junfei Tan et al.

SIDReasoner通过增强SID-语言对齐和结果驱动的强化优化,提升生成式推荐中的推理能力。

  • 提出SIDReasoner框架,增强SID-语言对齐。
  • 利用多任务训练和教师模型合成SID中心的数据。
2026-03-24
5/10
表格数据生成 概率电路 生成模型

A Sobering Look at Tabular Data Generation via Probabilistic Circuits

Davide Scassola, Dylan Ponsford, Adrián Javaloy et al.

该论文批判了表格数据生成领域对扩散模型的过度依赖,并提出了基于概率电路的替代方案。

  • 指出现有表格数据生成评估协议的局限性
  • 提出了基于深度概率电路(PCs)的表格数据生成方法
2026-03-24
9/10
LLM Reasoning Optimization

Can Large Language Models Reason and Optimize Under Constraints?

Fabien Bernier, Salah Ghamizi, Pantelis Dogoulis et al.

该论文评估了LLM在受约束优化问题(电力系统最优潮流问题)上的推理和优化能力,发现现有LLM表现不佳。

  • 提出了一个评估LLM在受约束优化问题上的能力的新框架。
  • 揭示了现有LLM在处理结构化推理和约束优化方面的不足。
2026-03-24
9/10
LLM 金融推理 基准测试

FinTradeBench: A Financial Reasoning Benchmark for LLMs

Yogesh Agrawal, Aniruddha Dutta, Md Mahadi Hasan et al.

FinTradeBench是一个金融推理基准,评估LLMs在公司基本面和交易信号上的推理能力。

  • 提出了FinTradeBench金融推理基准
  • 涵盖基本面、交易信号和混合推理三种类型问题
2026-03-19
9/10
LLM Reasoning Process Control

Box Maze: A Process-Control Architecture for Reliable LLM Reasoning

Zou Qiang

论文提出Box Maze框架,通过显式过程控制提高LLM推理的可靠性,减少对抗条件下的边界失效。

  • 提出Box Maze框架,一种显式过程控制架构
  • 将LLM推理分解为记忆 grounding、结构化推理和边界强制三层
2026-03-19
8/10
LLM reasoning game theory

Evaluating Counterfactual Strategic Reasoning in Large Language Models

Dimitrios Georgousis, Maria Lymperaiou, Angeliki Dimitriou et al.

评估大语言模型在反事实博弈中的策略推理能力,揭示其在策略泛化和激励敏感性方面的局限性。

  • 提出了反事实博弈的概念来评估LLM的策略推理能力
  • 设计了多指标评估框架,对比了默认和反事实环境下的LLM表现
2026-03-19
7/10
语言模型 领域特定 分裂训练

Optimal Splitting of Language Models from Mixtures to Specialized Domains

Skyler Seto, Pierre Ablin, Anastasiia Filippova et al.

论文提出一种优化语言模型分裂训练的方法,通过计算分配提升模型在特定领域的性能。

  • 提出一种预训练模型分裂训练的优化方法
  • 利用 scaling laws 预测模型损失
2026-03-19
7/10
在线学习 层级贝叶斯模型 序列数据

Hierarchical Latent Structure Learning through Online Inference

Ines Aitsahalia, Kiyohito Iigaya

HOLMES模型结合在线推理和层级贝叶斯,实现了序列数据中层级结构的发现和学习。

  • 提出了HOLMES模型,用于在线学习层级潜在结构。
  • 验证了HOLMES模型在预测性能和表示紧凑性方面的优势。
2026-03-19
8/10
LLM 二进制分析 漏洞分析

Implicit Patterns in LLM-Based Binary Analysis

Qiang Li, XiangRui Zhang, Haining Wang

研究基于LLM的二进制分析中,隐式token级模式如何组织探索过程。

  • 首次大规模trace级别研究LLM在二进制分析中的隐式模式
  • 识别出四种主导模式:早期修剪、路径依赖锁定、目标回溯、知识引导优先级
2026-03-19
9/10
Uncertainty Estimation Reasoning Models Chain-of-Thought

How Uncertainty Estimation Scales with Sampling in Reasoning Models

Maksym Del, Markus Kängsepp, Marharyta Domnich et al.

研究了推理语言模型中并行采样方法对不确定性估计的影响,发现混合信号表现最佳。

  • 分析了自洽性和语言置信度在推理模型中的不确定性估计中的表现
  • 揭示了混合信号组合在提高不确定性估计质量方面的优势
2026-03-19
7/10
Verifiable AI Cryptographic Proofs Model Auditing

Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference

Pranay Anchuri, Matteo Campanelli, Paul Cesaretti et al.

提出了一个轻量级的AI模型推理可验证框架,通过采样和统计特性降低了证明开销。

  • 提出了一种基于采样的轻量级密码学证明方法,用于验证AI模型的推理过程。
  • 形式化了利用功能不同的模型之间的轨迹分离来保证可验证推理协议安全性的条件。
2026-03-19
8/10
Reinforcement Learning Exploration Few-shot Learning

Context Bootstrapped Reinforcement Learning

Saaket Agashe, Jayanth Srinivasa, Gaowen Liu et al.

CBRL通过注入示范提升强化学习探索效率,在多种推理任务上验证有效性。

  • 提出Context Bootstrapped Reinforcement Learning (CBRL)
  • 通过预先注入示范来引导探索,提高RLVR的探索效率
2026-03-19
6/10
Ideology NLP Social Discourse

A conceptual framework for ideology beyond the left and right

Kenneth Joseph, Kim Williams, David Lazer

论文提出了一种新的意识形态框架,超越了传统的左右划分,用于更细致地分析社会话语。

  • 提出了一种基于社会认知网络的多层次意识形态框架
  • 阐明了该框架如何连接现有NLP任务(如立场检测和自然语言推理)
2026-03-19
9/10
数学推理 LLM 数据集

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Pranjal Aggarwal, Marjan Ghazvininejad, Seungone Kim et al.

论文提出了一个数学对象推理的框架,包括数据集、训练方法和测试时聚合策略,显著提升了LLM在数学领域的表现。

  • 构建并发布了数学对象推理数据集Principia
  • 提出了使用LLM judges和verifiers的训练方法,特别是on-policy训练
2026-03-19
9/10
LLM Korean Language Reasoning

Mi:dm K 2.5 Pro

KT Tech innovation Group

Mi:dm K 2.5 Pro是一个针对企业级复杂场景优化的32B韩语LLM,具备卓越推理能力。

  • 针对韩语及特定领域进行优化
  • 构建高质量数据基础,采用AST分析、gap-filling等方法
2026-03-19
9/10
Multimodal Learning Geometric Reasoning Reinforcement Learning

Thinking with Constructions: A Benchmark and Policy Optimization for Visual-Text Interleaved Geometric Reasoning

Haokun Zhao, Wanshi Xu, Haidong Yuan et al.

提出基于视觉-文本交错推理的几何问题求解框架,并引入强化学习策略优化模型。

  • 构建了包含文本构造步骤和视觉更新的几何问题数据集GeoAux-Bench
  • 发现视觉-文本交错辅助优于单模态辅助,构造可以降低推理困惑度
2026-03-19
6/10
图同构 图算法 强正则图

Breaking Hard Isomorphism Benchmarks with DRESS

Eduar Castrillo Velilla

Δ-DRESS算法通过顶点删除在同构图检测中表现出色,超越3-WL算法。

  • 提出并验证了Δ-DRESS算法
  • 在大量强正则图数据集上实现了100%的同构图区分
2026-03-19
9/10
LLM verbal confidence metacognition

How do LLMs Compute Verbal Confidence

Dharshan Kumaran, Arthur Conmy, Federico Barbero et al.

该论文研究了LLM如何计算verbal confidence,揭示了其automatic、sophisticated的自我评估机制。

  • 揭示LLM的verbal confidence是cached retrieval而非just-in-time计算
  • 发现confidence representations在答案附近的位置出现,并被缓存
2026-03-18
7/10
语言模型 空间推理 舞台布局

Text-to-Stage: Spatial Layouts from Long-form Narratives

Jefferson Hernandez, Swarnadeep Saha, Chenxi Whitehouse et al.

论文研究了利用语言模型从文本推断舞台布局,并提出了一种训练和评估方法。

  • 提出了一种从非结构化文本生成舞台布局的方法
  • 设计了一个受戏剧启发的可验证评估套件
2026-03-18
7/10
神经网络 抑制性归一化 误差反向传播

Inhibitory normalization of error signals improves learning in neural circuits

Roy Henha Eyono, Daniel Levenstein, Arna Ghosh et al.

抑制性归一化误差信号能显著提升神经网络在图像识别任务中的学习性能。

  • 揭示了抑制介导的归一化在神经网络学习中的作用机制。
  • 证明了对反向传播误差进行归一化处理能显著提高学习性能。
2026-03-18
5/10
异常检测 符号回归 无监督学习

Unsupervised Symbolic Anomaly Detection

Md Maruf Hossain, Tim Katzke, Simon Klüttermann et al.

SYRAN是一种基于符号回归的无监督异常检测方法,可生成人类可读的方程进行异常检测。

  • 提出了一种基于符号回归的无监督异常检测方法SYRAN
  • 学习人类可读的方程来描述符号不变量
2026-03-18
6/10
异常检测 可解释性AI 基础模型

FoMo X: Modular Explainability Signals for Outlier Detection Foundation Models

Simon Klüttermann, Tim Katzke, Phuong Huong Nguyen et al.

FoMo-X框架通过模块化解释性信号,提升了异常检测基础模型的可解释性和可靠性。

  • 提出了FoMo-X模块化框架,增强异常检测基础模型的可解释性。
  • 设计了Severity Head和Uncertainty Head,提供风险分级和置信度度量。
2026-03-18
5/10
空气质量预测 延迟微分方程 深度学习

AirDDE: Multifactor Neural Delay Differential Equations for Air Quality Forecasting

Binqing Wu, Zongjiang Shang, Shiyu Liu et al.

AirDDE通过神经延迟微分方程建模空气质量预测中的延迟效应,显著提升了预测精度。

  • 提出AirDDE,一种基于神经延迟微分方程的空气质量预测框架
  • 引入记忆增强注意力模块,自适应捕捉多因素数据的延迟效应
2026-03-18
5/10
Neural Operators FitzHugh-Nagumo model Translation Invariance

Translation Invariance of Neural Operators for the FitzHugh-Nagumo Model

Luca Pellegrini

研究神经算子(NOs)在FitzHugh-Nagumo模型中捕捉时空动态的平移不变性,并评估不同NOs架构的性能。

  • 提出一种新颖的训练策略,评估NOs的平移不变性。
  • 对七种NOs架构进行了全面的基准测试,包括训练和测试精度、效率和推理速度。
2026-03-18
9/10
视频生成 扩散模型 推理

Demystifing Video Reasoning

Ruisi Wang, Zhongang Cai, Fanyi Pu et al.

该论文揭示了视频生成模型中推理能力涌现的新机制——Chain-of-Steps,并分析了相关行为。

  • 提出Chain-of-Steps (CoS)推理机制,挑战了Chain-of-Frames (CoF)的假设
  • 识别了工作记忆、自我纠正增强、感知先于行动等推理行为
2026-03-17
9/10
LLM 推理 边缘计算

Efficient Reasoning on the Edge

Yelysei Bondarenko, Thomas Hehn, Rob Hesselink et al.

该论文提出了一种轻量级方法,利用LoRA适配器和强化学习,使小型LLM能够在边缘设备上进行高效推理。

  • LoRA适配器结合监督微调,提升小型LLM的推理能力
  • 通过强化学习进行预算强制,显著减少响应长度
2026-03-17
8/10
代码大模型 工业场景 代码生成

InCoder-32B: Code Foundation Model for Industrial Scenarios

Jian Yang, Wei Zhang, Jiajun Wu et al.

InCoder-32B是首个面向工业场景的32B参数代码大模型,在工业领域基准测试中表现出色。

  • 提出InCoder-32B模型,解决工业场景代码大模型性能退化问题
  • 采用高效架构和多阶段训练策略
2026-03-17
5/10
多物理场学习 生成模型 偏微分方程

pADAM: A Plug-and-Play All-in-One Diffusion Architecture for Multi-Physics Learning

Amirhossein Mollaali, Bongseok Kim, Christian Moya et al.

pADAM是一种多物理场学习的通用生成框架,可实现跨异构偏微分方程的统一推理。

  • 提出了pADAM,一个统一的生成框架,用于学习跨异构偏微分方程的共享概率先验。
  • pADAM支持前向预测和逆推理,无需重新训练。
2026-03-17
7/10
文化偏见 大型语言模型 作者身份推断

Probing Cultural Signals in Large Language Models through Author Profiling

Valentin Lafargue, Ariel Guerra-Adames, Emmanuelle Claeys et al.

该论文研究了大型语言模型中存在的文化偏见,通过歌词作者身份推断评估其文化倾向。

  • 揭示了LLM在作者身份推断中存在的文化偏见
  • 提出了量化文化差异的公平性指标MAD和RD
2026-03-17
8/10
LLM 阿拉伯语 词法句法标注

Arabic Morphosyntactic Tagging and Dependency Parsing with Large Language Models

Mohamed Adel, Bashar Alhafni, Nizar Habash

论文研究了LLM在阿拉伯语词法句法标注和依存句法分析任务上的表现,并分析了其优势与不足。

  • 评估了指令调整后的LLM在阿拉伯语结构化预测任务上的性能
  • 分析了prompt设计和示例选择对性能的影响
2026-03-17
6/10
轨迹推断 Finsler几何 动态系统

Learning Lineage-guided Geodesics with Finsler Geometry

Aaron Zweig, Mingxuan Zhang, David A. Knowles et al.

提出了结合几何和分类的Finsler度量,用于轨迹推断,提升了在合成和真实数据上的插值性能。

  • 提出了一种新的Finsler度量
  • 结合了几何和分类先验知识
2026-03-17
9/10
离散推理 马尔可夫模型 自适应步数

Self-Aware Markov Models for Discrete Reasoning

Gregor Kornhardt, Jannis Chemseddine, Christian Wald et al.

提出自适应马尔可夫模型,通过重掩码和自适应步数提升离散推理能力。

  • 引入自感知马尔可夫模型
  • 允许token重掩码以纠正错误
2026-03-17
9/10
LLM 地缘政治 推理

When AI Navigates the Fog of War

Ming Li, Xirui Li, Tianyi Zhou

研究LLM在模拟进行中的地缘政治冲突中的推理能力,缓解数据泄露问题。

  • 构建了基于时间节点的LLM推理评估框架
  • 分析了LLM在地缘政治危机中的战略推理能力
2026-03-17
7/10
结构化数据 线性复杂度 基础模型

FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data

Zhenghang Song, Tang Qian, Lu Chen et al.

FEAT提出了线性复杂度的结构化数据基础模型,通过混合线性编码提升性能并加速推理。

  • 提出了多层双轴架构,用混合线性编码替代二次注意力
  • 设计了AFBM和Conv-GLA,实现局部依赖和全局记忆
2026-03-17
9/10
LLM 因果推理 忠实度

Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Oleg Somov, Mikhail Chaichuk, Mikhail Seleznyov et al.

研究发现LLM在schema引导推理中,中间结构对最终输出的因果影响较弱,更多作为上下文信息。

  • 提出了一种因果评估协议,用于衡量LLM对中间结构的忠实度。
  • 发现LLM对中间结构的表观忠实度脆弱,改变中间结构后预测更新失败。
2026-03-17
8/10
注意力机制 深度学习 语言模型

Mixture-of-Depths Attention

Lianghui Zhu, Yuxin Fang, Bencheng Liao et al.

MoDA通过混合深度注意力机制解决LLM深度扩展中的信号衰减问题,提升模型性能。

  • 提出混合深度注意力机制MoDA,允许注意力头关注当前层和先前层的KV对
  • 设计硬件高效的MoDA算法,优化非连续内存访问
2026-03-16
9/10
道德推理 LLM表示 Sparse Autoencoders

Mechanistic Origin of Moral Indifference in Language Models

Lingyu Li, Yan Teng, Yingchun Wang

论文揭示LLM存在道德冷漠问题,并提出通过重构潜在表示来改善道德推理。

  • 发现LLM在道德概念上的表示存在差异
  • 提出使用Sparse Autoencoders重构道德特征的方法
2026-03-16
7/10
知识蒸馏 xLSTM 大语言模型

Effective Distillation to Hybrid xLSTM Architectures

Lukas Hauzenberger, Niklas Schmidinger, Thomas Schmied et al.

该论文提出一种有效的知识蒸馏方法,用于将Transformer LLM提炼到xLSTM架构上,并取得较好效果。

  • 提出针对xLSTM的蒸馏pipeline
  • 引入合并阶段,整合线性化专家模型
2026-03-16
9/10
causal inference LLM benchmark

InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

Shaojie Shi, Zhengyu Shi, Lingran Zheng et al.

InterveneBench基准测试LLM在真实社会系统干预推理和因果研究设计的能力,发现现有LLM表现不佳,并提出STRIDES框架。

  • 提出了InterveneBench基准测试,用于评估LLM在社会科学干预推理方面的能力
  • 发现现有LLM在InterveneBench上的表现不佳
2026-03-16
8/10
LLM Table Understanding Interpretability

A Closer Look into LLMs for Table Understanding

Jia Wang, Chuanyu Qin, Mingyu Zheng et al.

该论文深入研究了LLM在表格理解中的内部机制,并分析了不同模型的表现差异。

  • 揭示了LLM处理表格数据的注意力机制演变过程
  • 分析了不同类型LLM在表格任务中的有效层数
2026-03-16
9/10
LLM安全 对抗性攻击 Chain-of-Thought

SFCoT: Safer Chain-of-Thought via Active Safety Evaluation and Calibration

Yu Pan, Wenlong Yu, Tiejun Wu et al.

SFCoT通过主动安全评估和校准,提升LLM在推理过程中的安全性,有效抵抗对抗性攻击。

  • 提出SFCoT框架,实现推理过程中的实时安全评估和校准
  • 设计三层安全评分系统和多角度一致性验证机制
2026-03-16
9/10
LLM Beam Search Reasoning

More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search

Gal Dalal, Assaf Hallak, Gal Chechik et al.

更大beam size可能损害LLM推理性能,论文分析了过估计偏差问题并提出了最佳beam size选择方法。

  • 揭示了beam search中的过估计偏差问题
  • 提出了基于信号噪声比的最大有效beam width理论
2026-03-16
7/10
Masked Diffusion Language Models Decoding Strategy Attention Mechanism

DOS: Dependency-Oriented Sampler for Masked Diffusion Language Models

Xueyu Zhou, Yangrong Hu, Jian Huang

提出Dependency-Oriented Sampler (DOS)解码策略,利用token间依赖关系优化Masked Diffusion Language Models的生成。

  • 提出Dependency-Oriented Sampler (DOS)
  • 利用attention矩阵近似token间依赖关系
2026-03-16
8/10
法律推理 Python 形式化方法

PYTHEN: A Flexible Framework for Legal Reasoning in Python

Ha-Thanh Nguyen, Ken Satoh

PYTHEN是一个基于Python的灵活法律推理框架,易于使用和扩展。

  • 提出了一个基于Python的法律推理框架PYTHEN
  • 支持合取和析取条件以及更具表现力的异常处理
2026-03-16
7/10
模型选择 仿真 贝叶斯推断

Scalable Simulation-Based Model Inference with Test-Time Complexity Control

Manuel Gloeckler, J. P. Manzano-Patrón, Stamatios N. Sotiropoulos et al.

PRISM提出了一种可扩展的基于模拟的模型推断方法,可在测试时控制模型复杂度。

  • 提出PRISM模型,用于联合推断离散模型结构和连续参数。
  • 实现测试时模型复杂度的可控性。
2026-03-16
9/10
LLM 推理 多智能体

SAGE: Multi-Agent Self-Evolution for LLM Reasoning

Yulin Peng, Xinxin Zhu, Chenxing Wei et al.

SAGE提出一种多智能体自进化框架,提升LLM在数学和代码生成方面的推理能力。

  • 提出SAGE框架,利用自进化智能体提升LLM推理能力
  • 设计Challenger, Planner, Solver, Critic四个智能体协同进化
2026-03-16
7/10
大型语言模型 残差连接 注意力机制

Attention Residuals

Kimi Team, Guangyu Chen, Yu Zhang et al.

提出Attention Residuals和Block AttnRes,用注意力机制替代传统残差连接中的固定权重累加,提升模型性能。

  • 提出Attention Residuals (AttnRes)
  • 提出Block AttnRes以降低内存和通信开销
2026-03-16
9/10
LLM Reasoning Reinforcement Learning

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Yixin Liu, Yue Yu, DiJia Su et al.

研究了推理LLM作为裁判在不可验证领域对LLM进行后训练的实际影响和潜在问题。

  • 揭示了非推理和推理裁判在LLM对齐中的关键差异
  • 发现推理裁判训练的策略可以通过对抗性输出来欺骗其他LLM裁判
2026-03-12
9/10
LLM 拓扑推理 基准测试

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

Mayug Maniparambil, Nils Hoehing, Janak Kapuriya et al.

TopoBench基准测试评估LLM在拓扑推理难题上的能力,发现LLM在空间约束提取方面存在瓶颈。

  • 提出了TopoBench基准测试,包含六种拓扑难题
  • 分析了LLM在解决拓扑难题时的错误类型
2026-03-12
8/10
LLM 隐私 审计

Human-Centred LLM Privacy Audits: Findings and Frictions

Dimitri Staufer, Kirsten Morehouse, David Hartmann et al.

研究LLM隐私审计,发现LLM会泄露个人信息,并提出改进隐私审计的建议。

  • 提出了LMP2隐私审计工具
  • 揭示了LLM隐私评估的挑战和摩擦
2026-03-12
7/10
因果推断 Foundation Model 频率一致性

Frequentist Consistency of Prior-Data Fitted Networks for Causal Inference

Valentyn Melnychuk, Vahid Balazadeh, Stefan Feuerriegel et al.

论文分析了基于PFN的因果推断方法的一致性问题,并提出了校准方法。

  • 指出现有PFN方法存在先验诱导的混淆偏差。
  • 提出基于单步后验校正(OSPC)的校准程序。
2026-03-12
9/10
Theory of Mind LLM Multimodal

CoMMET: To What Extent Can LLMs Perform Theory of Mind Tasks?

Ruirui Chen, Weifeng Jiang, Chengwei Qin et al.

论文提出了CoMMET,一个多模态、多轮对话的ToM评估基准,并评估了LLM的ToM能力。

  • 提出了新的多模态ToM评估基准CoMMET
  • CoMMET覆盖更广泛的精神状态和引入多轮测试
2026-03-12
6/10
Wikidata 知识图谱 限定词

Understanding Wikidata Qualifiers: An Analysis and Taxonomy

Gilles Falquet, Sahar Aljalbout

深入分析Wikidata限定词的语义和用法,构建分类体系,优化知识图谱查询。

  • 提出了Wikidata限定词的分类体系
  • 分析了限定词的使用频率和多样性
2026-03-12
9/10
LLM Reasoning Ranking

Ranking Reasoning LLMs under Test-Time Scaling

Mohsen Hariri, Michael Hinczewski, Jing Ma et al.

该论文研究了测试时缩放场景下推理LLM的排序问题,并提出了Scorio库。

  • 形式化了测试时缩放下的密集基准排序
  • 提出了Scorio库,包含多种统计排序方法
2026-03-11
7/10
text embedding self-supervised learning large language model

LLM2Vec-Gen: Generative Embeddings from Large Language Models

Parishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt et al.

LLM2Vec-Gen提出一种新的自监督方法,通过学习LLM的潜在输出来生成高质量文本嵌入。

  • 提出了一种新的自监督嵌入方法LLM2Vec-Gen。
  • 在MTEB上取得了state-of-the-art的自监督性能。
2026-03-11
6/10
极端事件预测 动力系统 深度学习

Dynamics-Informed Deep Learning for Predicting Extreme Events

Eirini Katsidoniotaki, Themistoklis P. Sapsis

提出了一种基于动力学信息的深度学习框架,用于预测高维混沌系统中的极端事件。

  • 提出了一种基于FTLE-like precursors的极端事件预测方法
  • 使用OTD模式自适应地计算低维子空间中的不稳定性增长
2026-03-11
8/10
语音深度伪造检测 大型音频语言模型 链式思考

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov et al.

提出HIR-SDD,结合大型音频语言模型和人类推理,提升语音深度伪造检测的鲁棒性和可解释性。

  • 提出HIR-SDD框架
  • 结合大型音频语言模型和人类推理
2026-03-11
8/10
LLM 推理 评估

Making Bielik LLM Reason (Better): A Field Report

Adam Trybus, Bartosz Bartnicki, Remigiusz Kinas

该论文评估并提升波兰语LLM Bielik的推理能力,提出了评估方法并分析了其与其它LLM的对比。

  • 创建Bielik LLM推理能力评估方法
  • 对比Bielik与其它LLM的推理能力
2026-03-11
9/10
Reinforcement Learning Large Language Models Reasoning

Reinforcement Learning with Conditional Expectation Reward

Changyi Xiao, Caijun Xu, Yixin Cao

提出条件期望奖励CER,利用LLM自身作为隐式验证器,提升LLM在通用推理任务中的性能。

  • 提出了一种新的奖励函数:条件期望奖励(CER)
  • CER无需手工规则,适用于通用推理任务
2026-03-11
8/10
LLM Alignment Reinforcement Learning Moral Reasoning

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu et al.

该论文研究表明,对于道德推理任务,奖励最大化方法与多样性匹配方法相比,并没有显著劣势。

  • 首次在MoReBench上比较奖励最大化和多样性匹配方法在道德推理中的效果
  • 发现道德推理任务的高奖励分布比数学推理更集中
2026-03-11
8/10
Deepfake Detection Generative AI Adversarial Attacks

Naïve Exposure of Generative AI Capabilities Undermines Deepfake Detection

Sunpill Kim, Chanwoo Hwang, Minsu Kim et al.

利用生成式AI的图像优化能力,可有效绕过现有深度伪造检测方法。

  • 证明了生成式AI的语义保持图像优化能力可以欺骗深度伪造检测器。
  • 揭示了商业AI系统比开源模型带来更大的安全风险,因为前者更易使用且效果更好。
2026-03-11
8/10
联想创造力 基准测试 LLM评估

CREATE: Testing LLMs for Associative Creativity

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman et al.

提出了CREATE基准,用于评估LLM的联想创造力,通过路径生成衡量概念间的连接。

  • 提出CREATE基准用于评估联想创造力
  • 定义了路径的specificity和diversity指标
2026-03-10
10/10
LLM 推理 诚实

Think Before You Lie: How Reasoning Improves Honesty

Ann Yuan, Asma Ghandeharioun, Carter Blum et al.

研究发现LLM通过推理能够提高诚实度,与人类直觉相反,并解释了其内在机制。

  • 发现LLM推理能够提高诚实度
  • 揭示了代表空间几何结构对诚实度的影响
2026-03-10
9/10
LLM 推理 知识回忆

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Zorik Gekhman, Roee Aharoni, Eran Ofek et al.

推理能解锁LLM的参数知识,即使对于单跳问题,推理也能提升知识回忆,但可能引入幻觉。

  • 揭示了推理如何提升LLM的参数知识回忆能力
  • 提出了计算缓冲效应和事实启动两种机制
2026-03-10
6/10
GNN Time Series Anomaly Detection Open-Source Framework

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori et al.

提出了一个基于GNN的时间序列异常检测开源框架,并对GNN在该领域的应用进行了评估。

  • 开发了一个用于基于GNN的TSAD的开源框架,支持可重复实验。
  • 评估了多种GNN架构在TSAD任务上的性能和可解释性。
2026-03-10
7/10
人机交互 生成式AI 认知科学

Vibe-Creation: The Epistemology of Human-AI Emergent Cognition

Ilya Levin

论文提出“第三实体”概念,分析人-AI交互中涌现的新认知模式“Vibe-creation”,及其对教育和认知的影响。

  • 提出“第三实体”和“Vibe-creation”概念
  • 构建人-AI交互的新理论框架
2026-03-10
9/10
自适应推理 计算分配 难度感知

CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning

Siye Wu, Jian Xie, Yikai Zhang et al.

CODA通过难度感知的计算分配,动态调整推理深度,提高推理效率。

  • 提出了一种难度感知的计算分配方法CODA
  • 利用策略内部的难度信号来分配计算资源
2026-03-09
7/10
Transformer Interpretability Robustness

SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding

Jesús Sánchez Ochoa, Enrique Tomás Martínez Beltrán, Alberto Huertas Celdrán

SYNAPSE是一个免训练框架,用于分析和压力测试Transformer模型内部神经元行为。

  • 提出SYNAPSE框架,无需重新训练即可分析Transformer模型
  • 揭示Transformer模型内部表示的领域无关组织结构
2026-03-09
6/10
Out-of-Distribution Detection OOD Robustness Anomaly Detection

Geometrically Constrained Outlier Synthesis

Daniil Karzanov, Marcin Detyniecki

GCOS提出一种几何约束的异常值合成方法,提升深度神经网络的OOD鲁棒性。

  • 提出GCOS框架,生成几何约束的异常值
  • 利用非一致性分数定义自适应外壳
2026-03-09
9/10
Transformer Looping Memory

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

Markus Frey, Behzad Shomali, Ali Hamza Bashir et al.

该论文研究了循环Transformer和记忆模块在提升语言模型推理能力上的作用,以及它们的组合效果。

  • 提出结合自适应循环和记忆模块的Transformer模型
  • 发现循环主要提升数学推理能力,记忆模块提升常识推理能力
2026-03-09
8/10
LLM quantization low-rank adaptation error reconstruction

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

Yeonsik Park, Hyeonseong Kim, Seungkyu Choi

SERQ提出了一种用于LLM量化的、基于显著性感知的低秩误差重构方法,有效提升低精度下的模型性能。

  • 提出了一种基于显著性感知的低秩误差重构方法SERQ
  • 采用单低秩补偿矩阵,减少推理时的中间量化步骤
2026-03-09
9/10
Large Language Model Pruning Information Entropy

High-Fidelity Pruning for Large Language Models

Yijun Zhu, Jianxin Wang, Chengchao Shen

提出了一种基于信息熵的Taylor剪枝方法,提升大语言模型剪枝后的性能,无需额外教师模型。

  • 提出了基于信息熵的Taylor剪枝准则,无需额外教师模型。
  • 该方法能更全面地评估神经元的重要性,提升剪枝后模型的预测能力。
2026-03-09
8/10
事实核查 LLM 内部表示

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy et al.

论文提出了一种不依赖检索的LLM事实核查方法,并通过实验验证了其有效性和泛化能力。

  • 提出了不依赖检索的事实核查任务
  • 设计了一个全面的评估框架,关注泛化性
2026-03-05
7/10
可解释性 医学表格数据 原型学习

An interpretable prototype parts-based neural network for medical tabular data

Jacek Karolczak, Jerzy Stefanowski

提出一种针对医学表格数据的可解释原型部件神经网络,兼顾精度和可解释性。

  • 提出一种基于原型部件的神经网络模型,专门用于医学表格数据。
  • 采用可训练的特征patching方法,从结构化数据中学习有意义的原型部件。
2026-03-05
9/10
LLM Judge Reliability Evaluation

Judge Reliability Harness: Stress Testing the Reliability of LLM Judges

Sunishchal Dev, Andrew Sloan, Joshua Kavner et al.

论文提出Judge Reliability Harness,用于评估LLM判定的可靠性,发现不同模型在不同基准测试中表现差异大。

  • 开源的LLM判定可靠性评估工具Judge Reliability Harness
  • 系统性评估了四个SOTA判定的可靠性
2026-03-05
6/10
生成式AI 合成数据 统计推断

Harnessing Synthetic Data from Generative AI for Statistical Inference

Ahmad Abdel-Azim, Ruoyu Wang, Xihong Lin

综述性论文,探讨生成式AI合成数据在统计推断中的应用,分析其优势、局限与使用原则。

  • 系统性地回顾了生成式AI合成数据在统计领域的应用现状
  • 分析了合成数据使用中常见的偏差和问题
2026-03-05
7/10
Language Model Pretraining Transformer Optimization

Progressive Residual Warmup for Language Model Pretraining

Tianhao Chen, Xin Xu, Lu Yin et al.

ProRes提出了一种渐进式残差预热方法,通过调整层级预热顺序,提升语言模型预训练的稳定性与收敛速度。

  • 提出了 Progressive Residual Warmup (ProRes) 方法
  • 通过实验证明了 ProRes 在不同模型规模下的有效性
2026-03-05
9/10
LLM Reasoning Formal Verification

X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

Gao Tianxi, Cai Yufan, Yuan Yusi et al.

X-RAY使用形式化探针分析LLM的推理能力,揭示其在约束处理上的非对称性。

  • 提出了一个基于形式化和校准探针的LLM推理能力分析系统X-RAY
  • 揭示了LLM在约束精化和解空间重构上的推理不对称性
2026-03-05
6/10
Vietnamese NLP Labor Market Analysis Job Advertisement

VietJobs: A Vietnamese Job Advertisement Dataset

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj

发布了首个大规模越南语招聘广告数据集,并评估了LLM在招聘任务上的表现。

  • 构建并发布了大规模越南语招聘广告数据集VietJobs
  • 在VietJobs上评估了多个LLM在职位分类和薪资预测任务上的表现
2026-03-05
8/10
稀疏性 LLM加速 GPU

SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity

Hanyong Shao, Yingbo Hao, Ting Song et al.

SlideSparse解锁稀疏张量核心加速,提升(2N-2):2N稀疏模式下LLM推理速度。

  • 提出SlideSparse系统,支持(2N-2):2N稀疏模式在通用GPU上的加速。
  • 使用滑动窗口分解将(2N-2):2N权重块转换为兼容2:4稀疏模式。
2026-03-05
9/10
Diffusion LLM Reasoning End-of-Sequence Token

Diffusion LLMs can think EoS-by-EoS

Sarah Breckner, Sebastian Schuster

扩散LLM通过填充EoS token进行隐藏计算,从而提升复杂推理能力。

  • 发现扩散LLM利用EoS token进行推理
  • 验证了EoS token在扩散LLM中的隐藏计算作用
2026-03-05
7/10
language model finite-state transducer string transformation

Transducing Language Models

Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu et al.

提出了一种基于有限状态转换器(FST)的通用语言模型转换框架,用于适应特定输出需求。

  • 提出基于FST的语言模型转换框架
  • 开发用于边缘化和条件化的算法
2026-03-05
8/10
病人活动识别 逻辑推理 可微规则

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang et al.

Logi-PAR通过可微规则将逻辑推理融入病人活动识别,提升临床安全和可解释性。

  • 提出Logi-PAR框架,结合上下文信息和可学习逻辑规则
  • 实现病人活动识别的规则自动学习和端到端优化
2026-03-05
5/10
图神经网络 计算复杂性 算术电路

Recurrent Graph Neural Networks and Arithmetic Circuits

Timon Barlag, Vivian Holzapfel, Laura Strieker et al.

论文建立了循环图神经网络和循环算术电路在计算能力上的精确对应关系。

  • 提出了循环算术电路的概念
  • 证明了循环图神经网络可以模拟循环算术电路
2026-03-05
7/10
LLM 隐私保护 模型混淆

Good-Enough LLM Obfuscation (GELO)

Anatoly Belikov, Ilya Fedotov

GELO是一种轻量级LLM混淆方法,通过动态混合隐藏状态,保护推理过程中的prompt隐私。

  • 提出GELO混淆方法,保护LLM推理隐私
  • 设计了非正交和正交混合两种防御策略
2026-03-05
6/10
天文 时间序列 变分自编码器

SELDON: Supernova Explosions Learned by Deep ODE Networks

Jiezhong Wu, Jack O'Brien, Jennifer Li et al.

SELDON是一个用于预测稀疏天文光变曲线的连续时间变分自编码器,可加速超新星的发现。

  • 提出SELDON,一种新的连续时间变分自编码器。
  • 利用神经网络ODE进行时间序列的外推。
2026-03-04
9/10
推理 自验证 强化学习

$V_1$: Unifying Generation and Self-Verification for Parallel Reasoners

Harman Singh, Xiuyu Li, Kusha Sareen et al.

提出V1框架,通过成对排序统一生成和自验证,提升复杂推理任务中的性能和效率。

  • 提出V1框架,包含V1-Infer和V1-PairRL两个组件
  • V1-Infer:基于不确定性的锦标赛式排序算法,动态分配验证算力
2026-03-04
9/10
LLM Theory of Mind False Belief Test

Traces of Social Competence in Large Language Models

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn

研究表明LLM在心理理论测试中表现出与模型大小、训练方式相关的社会认知能力。

  • 使用平衡的FBT变体评估LLM的社会认知能力
  • 发现模型规模和训练方式影响FBT表现
2026-03-04
9/10
Reward Hacking Misalignment Activation Analysis

Monitoring Emergent Reward Hacking During Generation via Internal Activations

Patrick Wilhelm, Thorsten Wittkopp, Odej Kao

该论文提出了一种基于激活的监控方法,用于在生成过程中检测大型语言模型的奖励劫持行为。

  • 提出一种基于内部激活的奖励劫持检测方法
  • 发现内部激活模式可以区分奖励劫持和良性行为
2026-03-04
7/10
蛋白质语言模型 毒性降低 生物安全

Inference-Time Toxicity Mitigation in Protein Language Models

Manuel Fernández Burda, Santiago Aranguri, Iván Arcuschin Moreno et al.

论文提出一种无需重训练的推理时方法LDA,用于降低蛋白质语言模型生成毒性蛋白的风险。

  • 提出LDA方法,降低PLM生成的毒性蛋白
  • 证明LDA在降低毒性的同时保持蛋白质的生物学合理性
2026-03-04
6/10
PDE Transformer Neural Operator

From Complex Dynamics to DynFormer: Rethinking Transformers for PDEs

Pengyu Lai, Yixiao Chen, Dewu Yang et al.

DynFormer通过动力学信息指导Transformer,显著降低求解PDE的计算成本和误差。

  • 提出了DynFormer,一种动力学信息驱动的神经算子。
  • 引入Spectral Embedding和Kronecker结构注意力机制,高效捕捉大规模全局交互。
2026-03-03
7/10
因果推断 贝叶斯推断 不确定性量化

Generalized Bayes for Causal Inference

Emil Javurek, Dennis Frauen, Yuxin Wang et al.

提出一种因果推断的广义贝叶斯框架,提供对因果效应的可靠不确定性量化。

  • 提出用于因果推断的广义贝叶斯框架
  • 无需显式似然建模,直接对因果估计量设置先验
2026-03-03
9/10
LLM Reasoning Interpretability

Step-Level Sparse Autoencoder for Reasoning Process Interpretation

Xuan Yang, Jiayu Liu, Yuhang Lai et al.

提出了一种步骤级稀疏自编码器(SSAE),用于解析LLM推理过程,提取步骤级别的稀疏特征。

  • 提出了步骤级稀疏自编码器(SSAE)
  • 通过信息瓶颈解耦了推理步骤中的增量信息和背景信息
2026-03-03
8/10
Diffusion Language Models Non-Autoregressive Decoding Parallel Decoding

Why Diffusion Language Models Struggle with Truly Parallel (Non-Autoregressive) Decoding?

Pengxiang Li, Dilxat Muhtar, Lu Yin et al.

论文分析了扩散语言模型并行解码退化为自回归的原因,并提出一种数据驱动方法NAP提升并行解码性能。

  • 发现训练数据是导致DLM并行解码退化为自回归的原因之一
  • 提出NAP方法,通过数据处理和并行强制解码策略优化并行解码
2026-02-26
6/10
深度状态空间模型 变分推断 贝叶斯滤波

Latent Matters: Learning Deep State-Space Models

Alexej Klushyn, Richard Kurle, Maximilian Soelch et al.

论文提出一种约束优化框架训练深度状态空间模型,并提出EKVAE模型,在系统辨识和预测方面表现优异。

  • 提出一种约束优化框架训练DSSM
  • 提出 extended Kalman VAE (EKVAE) 模型
2026-02-26
7/10
语义角色标注 QA-SRL 跨语言迁移学习

Effective QA-driven Annotation of Predicate-Argument Relations Across Languages

Jonathan Davidov, Aviv Slobodkin, Shmuel Tomi Klein et al.

论文提出了一种利用QA-SRL框架,通过跨语言迁移实现多语言语义角色标注的方法。

  • 提出基于QA-SRL的跨语言语义角色标注方法
  • 设计了约束翻译和词对齐的pipeline自动生成标注
2026-02-26
9/10
LLM 道德推理 上下文影响

Moral Preferences of LLMs Under Directed Contextual Influence

Phil Blandfort, Tushar Karayil, Urja Pawar et al.

研究上下文对LLM道德决策的影响,发现LLM在道德选择上易受引导且存在反常现象。

  • 提出了一种评估上下文中LLM道德偏好的方法。
  • 发现LLM的道德选择易受表面相关的上下文影响。
2026-02-26
8/10
知识归属 大语言模型 自监督学习

Probing for Knowledge Attribution in Large Language Models

Ivo Brink, Alexander Boer, Dennis Ulmer

论文提出AttriWiki自监督数据管道,训练探针以识别LLM输出的知识来源,提高模型可信度。

  • 提出了AttriWiki自监督数据管道,用于生成知识归属标签
  • 训练探针,能够可靠地预测LLM输出的知识来源
2026-02-26
9/10
语言模型 推理 知识访问

Improving Parametric Knowledge Access in Reasoning Language Models

Melody Ma, John Hewitt

该论文研究如何提升语言模型在推理过程中访问自身参数知识的能力,并提出基于强化学习的训练方法。

  • 发现语言模型在访问自身知识时推理能力不足
  • 提出通过强化学习训练模型进行参数知识推理的方法
2026-02-25
9/10
长文本 语言模型 注意力机制

DySCO: Dynamic Attention-Scaling Decoding for Long-Context LMs

Xi Ye, Wuwei Zhang, Fangcong Yin et al.

DySCO通过动态调整注意力权重,提升长文本语言模型在长上下文推理任务中的性能。

  • 提出一种新的解码算法DySCO
  • 利用检索头动态调整注意力权重
2026-02-25
9/10
LLM 算法推理 因果发现

Large Language Models are Algorithmically Blind

Sohan Venkatesh, Ashish Mahendran Kurapath, Tejas Melkote

大型语言模型在算法理解和推理方面存在系统性缺陷,表现为“算法盲目性”。

  • 揭示了LLM在算法理解方面的局限性
  • 提出了“算法盲目性”的概念
2026-02-25
8/10
claim verification decomposition reinforcement learning

Distill and Align Decomposition for Enhanced Claim Verification

Jabez Magomere, Elena Kochkina, Samuel Mensah et al.

提出一种强化学习方法,联合优化句子分解质量和验证器对齐,提升复杂声明验证性能。

  • 提出基于GRPO的强化学习方法
  • 引入结构化序列推理和知识蒸馏
2026-02-25
8/10
LLM Risk Awareness Environmental Impact

Evaluating Proactive Risk Awareness of Large Language Models

Xuan Luo, Yubin Chen, Zhiyu Hou et al.

该论文提出了一个评估大语言模型前瞻性风险意识的框架,并使用Butterfly数据集进行了生态环境领域的实验。

  • 提出了前瞻性风险意识评估框架
  • 构建了Butterfly数据集用于生态环境领域评估
2026-02-24
9/10
LLM Reasoning Interpretability

Transcoder Adapters for Reasoning-Model Diffing

Nathan Hu, Jake Ward, Thomas Icard et al.

提出transcoder adapters,用于理解推理模型微调前后MLP计算差异,并应用于Qwen2.5-Math-7B和DeepSeek-R1-Distill-Qwen-7B。

  • 提出transcoder adapters技术,用于理解模型微调后的内部机制变化。
  • 发现adapters可以有效捕捉推理模型微调带来的性能提升,并具有稀疏性和可解释性。
2026-02-24
9/10
LLM 数学推理 验证

Pipeline for Verifying LLM-Generated Mathematical Solutions

Varvara Sazonova, Dmitri Shmelkin, Stanislav Kikot et al.

提出了一种验证LLM数学解题能力的流水线方法,包括自动和交互式验证。

  • 提出一种LLM数学解题的验证流水线
  • 使用提示工程生成特定形式的解题方案
2026-02-24
6/10
城市计算 时空数据 基础模型

UrbanFM: Scaling Urban Spatio-Temporal Foundation Models

Wei Chen, Yuqian Wu, Junle Chen et al.

构建大规模城市时空基础模型,实现跨城市、跨任务的零样本泛化。

  • 构建了包含全球城市数据的WorldST数据集
  • 提出了MiniST单元,统一网格和传感器数据表示
2026-02-24
9/10
奖励模型 置信度门控 强化学习

CAMEL: Confidence-Gated Reflection for Reward Modeling

Zirui Zhu, Hailun Xu, Yang Luo et al.

CAMEL通过置信度门控反射和反事实增强,提升奖励模型的准确性和效率。

  • 提出一种置信度门控反射框架CAMEL
  • 引入反事实前缀增强进行模型训练
2026-02-24
9/10
reinforcement learning reasoning large language models

LAD: Learning Advantage Distribution for Reasoning

Wendi Li, Sharon Li

LAD通过学习优势分布解决LLM推理中奖励信号过拟合问题,提升推理能力和生成多样性。

  • 提出Learning Advantage Distributions (LAD)框架
  • 证明最优策略更新与基于优势的目标分布之间的等价性
2026-02-23
9/10
医学问答 大语言模型 思维链

To Reason or Not to: Selective Chain-of-Thought in Medical Question Answering

Zaifu Zhan, Min Zeng, Shuang Zhou et al.

提出选择性思维链(Selective CoT)方法,在保证准确率的同时,提高医学问答效率。

  • 提出了Selective CoT方法,根据问题复杂度动态选择是否进行推理
  • 实验证明Selective CoT在医学问答任务中能有效减少推理时间和Token消耗
2026-02-23
7/10
Diffusion Language Models Unmasking Schedule Sampling Convergence

Adaptation to Intrinsic Dependence in Diffusion Language Models

Yunxiao Zhao, Changxiao Cai

论文提出了一种分布无关的DLM解掩码策略,自适应数据依赖结构,加速采样过程。

  • 提出了一种自适应于数据依赖结构的DLM解掩码策略
  • 证明了该策略在采样收敛性上的理论保证,优于现有方法
2026-02-23
8/10
LLM Introspection Concept Injection

Latent Introspection: Models Can Detect Prior Concept Injections

Theia Pearson-Vogel, Martin Vanek, Raymond Douglas et al.

Qwen 32B模型展现了检测概念注入的能力,揭示了模型潜在的自省能力和可控性。

  • 揭示了LLM的潜在自省能力
  • 发现模型可以通过logit lens分析检测早期上下文的概念注入
2026-02-23
8/10
lookahead planning discrete diffusion models autoregressive models

Discrete Diffusion Models Exploit Asymmetry to Solve Lookahead Planning Tasks

Itamar Trainin, Shauli Ravfogel, Omri Abend et al.

研究表明,非自回归离散扩散模型通过利用规划任务的不对称性,在lookahead规划任务上表现优于自回归模型。

  • 揭示了自回归和非自回归模型在lookahead任务上的不同机制
  • 指出了规划任务中forward generation和reverse generation的不对称性
2026-02-23
7/10
不确定性量化 随机网络蒸馏 深度集成

On the Equivalence of Random Network Distillation, Deep Ensembles, and Bayesian Inference

Moritz A. Zanger, Yijun Wu, Pascal R. Van der Vaart et al.

论文建立了随机网络蒸馏(RND)与深度集成和贝叶斯推断的理论等价性。

  • 证明了RND的自预测误差等价于深度集成的预测方差。
  • 表明通过构造特定的RND目标函数,RND误差分布可以反映贝叶斯推断的后验预测分布。
2026-02-23
9/10
LLM Reasoning Reinforcement Learning

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Zhongwei Wan, Yun Shen, Zhihao Dou et al.

提出DSDR框架,通过双尺度多样性正则化增强LLM推理中基于强化学习的探索,提升推理性能。

  • 提出双尺度多样性正则化(DSDR)框架
  • 设计全局和局部多样性组件,促进不同推理模式的探索
2026-02-23
8/10
Diffusion Language Model Pruning Attention Sink

Sink-Aware Pruning for Diffusion Language Models

Aidar Myrzakhan, Tianyi Li, Bowei Guo et al.

针对扩散语言模型,提出了一种能够识别并剪枝不稳定注意力汇聚点的Sink-Aware剪枝方法,提升了推理效率。

  • 发现了扩散语言模型中注意力汇聚点的不稳定性,不同于自回归模型。
  • 提出了Sink-Aware Pruning方法,自动识别并剪枝不稳定的注意力汇聚点。
2026-02-19
9/10
LLM Reasoning Verification

When to Trust the Cheap Check: Weak and Strong Verification for Reasoning

Shayan Kiyani, Sima Noorani, George Pappas et al.

提出了一种弱强验证框架,用于平衡LLM推理的成本和可靠性,并设计在线算法控制错误。

  • 形式化弱强验证策略,平衡成本和可靠性
  • 提出衡量指标:错误接受率、错误拒绝率、强验证频率
2026-02-19
9/10
Persian Language Model Cultural Reasoning Benchmark

Unmasking the Factual-Conceptual Gap in Persian Language Models

Alireza Sakhaeirad, Ali Ma'manpoosh, Arshia Hemmat

该论文揭示了波斯语LLM在理解文化习俗和推理方面存在的严重不足。

  • 提出了DivanBench基准测试,用于评估波斯语LLM的文化常识推理能力
  • 揭示了现有波斯语LLM存在严重的顺从偏差,无法有效识别文化习俗违例
2026-02-19
8/10
LLM Alignment Activation Steering ODE

ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment

Hongjue Zhao, Haosen Sun, Jiangtao Kong et al.

提出了基于常微分方程(ODE)的LLM对齐新框架ODESteer,提升了对齐效果。

  • 建立了基于ODE的LLM对齐激活Steering理论框架。
  • 将激活Steering方向的识别等价于控制理论中的Barrier函数设计。
2026-02-19
6/10
变分推断 Wasserstein距离 优化

Variational inference via radial transport

Luca Ghafourpour, Sinho Chewi, Alessio Figalli et al.

radVI算法通过优化径向轮廓改进变分推断,提升高维分布近似的准确性。

  • 提出了一种新的变分推断算法radVI
  • 为radVI提供了理论收敛保证
2026-02-19
9/10
LLM Bias Evaluation

ABCD: All Biases Come Disguised

Mateusz Nowak, Xavier Cadet, Peter Chin

该论文提出了一种降低LLM在多项选择题基准测试中偏见的评估方法,提高了模型的鲁棒性。

  • 发现LLM在多项选择题中存在标签位置、少样本提示等偏见。
  • 提出了一种简单的去偏评估协议,使用统一的、无序的标签。
2026-02-19
7/10
可用性启发式 多选题 认知建模

The Role of the Availability Heuristic in Multiple-Choice Answering Behaviour

Leonidas Zotos, Hedderik van Rijn, Malvina Nissim

研究表明,在多选题中,更易被想到的选项更有可能是正确答案,可用于建模学生行为。

  • 验证了可用性启发式在多选题解答中的作用
  • 提出了一种基于语料库评估选项认知可用性的计算方法
2026-02-19
8/10
scientific language model arXiv LaTeX

ArXiv-to-Model: A Practical Study of Scientific LM Training

Anuj Gupta

该论文详细介绍了从原始arXiv LaTeX数据训练小型科学语言模型的完整流程和经验。

  • 构建科学语言模型的端到端pipeline
  • 分析预处理决策对模型训练的影响
2026-02-19
7/10
反事实解释 可解释性AI 生成模型

CounterFlowNet: From Minimal Changes to Meaningful Counterfactual Explanations

Oleksii Furman, Patryk Marszałek, Jan Masłowski et al.

CounterFlowNet利用GFlowNet生成高质量且满足约束的反事实解释,提升了解释的有效性、稀疏性和多样性。

  • 提出CounterFlowNet,一种基于GFlowNet的反事实解释生成方法
  • 利用序列特征修改生成稀疏的解释
2026-02-19
9/10
LLM Backtesting Temporal Knowledge Leakage

All Leaks Count, Some Count More: Interpretable Temporal Contamination Detection in LLM Backtesting

Zeyu Zhang, Ryan Chen, Bradly C. Stadie

提出一种可解释的时间污染检测框架,用于评估LLM在回测中是否存在知识泄露,并提出TimeSPEC方法降低泄露。

  • 提出Shapley-DCLR指标,用于量化LLM推理中泄露信息的占比。
  • 提出TimeSPEC方法,通过 claim 验证和再生,主动过滤时间污染。
2026-02-19
8/10
LLM privacy verifiable inference

Privacy-Preserving Mechanisms Enable Cheap Verifiable Inference of LLMs

Arka Pal, Louai Zahran, William Gvozdjak et al.

该论文提出利用隐私保护的LLM推理来实现廉价且可验证的推理,降低验证开销。

  • 提出了新的基于隐私保护LLM推理的可验证推理协议
  • 提出的协议计算成本低,几乎没有下游影响
2026-02-19
8/10
LLM Interpretability Causality

Causality is Key for Interpretability Claims to Generalise

Shruti Joshi, Aaron Mueller, David Klindt et al.

论文强调因果关系在LLM可解释性研究中的重要性,并提出诊断框架以提升研究结果的泛化能力。

  • 强调因果推断在LLM可解释性研究中的作用
  • 提出基于Pearl因果层次的LLM可解释性评估框架
2026-02-18
6/10
多重假设检验 FDR控制 合成数据

Synthetic-Powered Multiple Testing with FDR Control

Yonghoon Lee, Meshi Bashari, Edgar Dobriban et al.

SynthBH方法利用合成数据提升FDR控制的多重假设检验效率。

  • 提出SynthBH方法,融合真实和合成数据进行多重假设检验
  • 证明了在PRDS条件下SynthBH的FDR控制
2026-02-18
8/10
LLM Unit Test Generation C Language

SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation

Jaid Monwar Chowdhury, Chi-An Fu, Reyhaneh Jabbarvand

SPARC通过神经符号方法提升LLM在C语言单元测试生成中的性能。

  • 提出SPARC框架,结合CFG分析、操作映射、路径目标测试合成和自纠正验证循环。
  • SPARC在真实和算法测试用例上优于prompt生成baseline和KLEE。
2026-02-18
7/10
因果推断 抽象 范畴论

Causal and Compositional Abstraction

Robin Lorenz, Sean Tull

论文提出了基于范畴论的因果抽象通用框架,统一了多种因果抽象概念,并拓展到量子模型。

  • 提出了基于自然变换的因果抽象通用框架
  • 统一了多种现有的因果抽象概念
2026-02-18
8/10
LLM NLG evaluation pairwise comparison

Who can we trust? LLM-as-a-jury for Comparative Assessment

Mengjie Qian, Guangzhi Sun, Mark J. F. Gales et al.

该论文提出BT-sigma模型,通过判断LLM判决可靠性,提升LLM评估NLG质量的准确性。

  • 提出BT-sigma模型,用于评估LLM判决可靠性
  • 验证了LLM判决存在不一致性,影响ranking效果
2026-02-18
7/10
Membership Inference Privacy Model Update

Sequential Membership Inference Attacks

Thomas Michel, Debabrota Basu, Emilie Kaufmann

提出了一种利用模型更新序列进行更强的成员推理攻击的方法SeMI*。

  • 提出了最优的序列成员推理攻击SeMI*
  • 推导了SeMI*的理论最优功率
2026-02-18
7/10
diffusion models sampling reward function

Steering diffusion models with quadratic rewards: a fine-grained analysis

Ankur Moitra, Andrej Risteski, Dhruv Rohatgi

研究了扩散模型在二次奖励函数下的采样问题,并分析了其计算复杂性。

  • 证明了线性奖励倾斜始终可以有效采样
  • 提出了使用Hubbard-Stratonovich变换的低秩正定二次倾斜的有效采样算法
2026-02-18
6/10
质谱 代谢组学 深度学习

Small molecule retrieval from tandem mass spectrometry: what are we optimizing for?

Gaetan De Waele, Marek Wydmuch, Krzysztof Dembczyński et al.

该论文研究了深度学习在LC-MS/MS数据分析中使用的损失函数对分子指纹预测和分子检索的影响,揭示了两者之间的权衡。

  • 揭示了指纹相似性和分子检索之间的根本权衡
  • 推导了新的后悔界限,表征了贝叶斯最优决策的差异
2026-02-18
6/10
可解释性 广义加性模型 模型蒸馏

Interpretability-by-Design with Accurate Locally Additive Models and Conditional Feature Effects

Vasilis Gkolemis, Loukas Kavouras, Dimitrios Kyriakopoulos et al.

CALMs通过条件加性局部模型,在GAMs和GA^2Ms之间取得了预测精度和可解释性的平衡。

  • 提出了Conditionally Additive Local Models (CALMs)模型
  • 设计了基于知识蒸馏的训练流程,用于识别同质区域并拟合可解释的形状函数
2026-02-18
9/10
LLM Iteration Depth Growing

From Growing to Looping: A Unified View of Iterative Computation in LLMs

Ferdinand Kapl, Emmanouil Angelis, Kaitlin Maile et al.

论文统一了LLM中循环和深度增长两种迭代计算方法,并证明了它们之间的互补性。

  • 提出了循环和深度增长模型的统一视角
  • 证明了循环和深度增长模型具有收敛的深度方向特征
2026-02-18
8/10
LLM Fairness Bias Spillover

Intra-Fairness Dynamics: The Bias Spillover Effect in Targeted LLM Alignment

Eva Paraschou, Line Harder Clemmensen, Sneha Das

研究表明,LLM公平性对齐在单一属性上优化可能导致其他属性的偏差加剧,存在偏差溢出效应。

  • 揭示了LLM对齐中目标属性的公平性优化可能导致其他属性的偏差溢出效应
  • 通过实验证明了在模糊语境下,改善一个属性的公平性可能恶化其他属性的不公平性
2026-02-18
5/10
X-ray Diffraction Structure Refinement Artificial Intelligence

AI-Driven Structure Refinement of X-ray Diffraction

Bin Cao, Qian Zhang, Zhenjie Feng et al.

论文提出了一种基于人工智能和物理约束的XRD结构精修方法WPEM,提升了衍射数据分析的准确性和效率。

  • 提出了基于物理约束的整体模式分解和精修工作流程WPEM
  • 实现了布拉格定律在batch EM框架中的显式约束
2026-02-18
6/10
XAI LSTM Fault Detection

Explainability for Fault Detection System in Chemical Processes

Georgios Gravanis, Dimitrios Kyriakou, Spyros Voutetakis et al.

论文对比了IG和SHAP两种XAI方法在化工过程故障检测LSTM分类器中的应用,并分析了其有效性。

  • 比较IG和SHAP在化工过程故障诊断中的表现
  • 利用XAI方法定位故障发生的子系统
2026-02-18
7/10
自然语言处理 Transformer 自注意力

Avey-B

Devang Acharya, Mohammad Hammoud

Avey模型的encoder-only改进版,性能超越Transformer,更高效处理长文本。

  • Avey模型的encoder-only重构
  • 解耦静态和动态参数化
2026-02-17
5/10
FPGA 机器学习 hls4ml

Enabling Low-Latency Machine learning on Radiation-Hard FPGAs with hls4ml

Katya Govorkova, Julian Garcia Pardinas, Vladimir Loncar et al.

论文展示了在抗辐射FPGA上实现低延迟机器学习应用,并扩展hls4ml工具以支持此类FPGA。

  • 开发轻量级自编码器压缩时间读数
  • 引入硬件感知的量化策略,降低模型权重
2026-02-17
5/10
约束规划 调度 累积约束

On inferring cumulative constraints

Konstantin Sidorov

提出一种预处理方法,通过推断累积约束来优化约束规划调度问题。

  • 发现覆盖集并生成有效不等式
  • 通过提升强化覆盖不等式
2026-02-17
6/10
自然语言处理 在线讨论 冲突分析

The geometry of online conversations and the causal antecedents of conflictual discourse

Carlo Santagiustina, Caterina Cruciani

研究在线气候变化讨论中冲突性言论的成因和互动模式,重点分析对话结构的影响。

  • 利用LLM分析了在线对话中冲突性语言的多个维度(立场、语气、情感/事实框架)。
  • 揭示了时间延迟对回复质量和内容的影响。
2026-02-17
6/10
RNN DNN Feature Learning

A unified theory of feature learning in RNNs and DNNs

Jan P. Bauer, Kirsten Fischer, Moritz Helias et al.

统一RNN和DNN的特征学习理论,揭示权重共享对网络功能的影响。

  • 建立了RNN和DNN的统一平均场理论
  • 揭示了权重共享对时序任务泛化的影响
2026-02-17
6/10
预测编码 反馈对齐 神经网络

Accelerated Predictive Coding Networks via Direct Kolen-Pollack Feedback Alignment

Davide Casnici, Martin Lefebvre, Justin Dauwels et al.

提出DKP-PC算法,通过直接反馈对齐加速预测编码网络的训练,提高效率和可扩展性。

  • 提出DKP-PC算法,解决预测编码中的反馈延迟和指数衰减问题
  • 引入可学习的反馈连接,实现输出层到所有隐藏层的直接误差传递
2026-02-17
8/10
Text-to-SQL Reinforcement Learning Dynamic Workflow

Beyond Static Pipelines: Learning Dynamic Workflows for Text-to-SQL

Yihan Wang, Peiyu Liu, Runyu Chen et al.

提出SquRL框架,利用强化学习动态构建Text-to-SQL工作流,提升复杂和分布外查询性能。

  • 提出基于强化学习的动态工作流构建框架SquRL
  • 设计了规则奖励函数和动态actor masking与伪奖励机制,提升训练效率
2026-02-17
9/10
LLM evaluation Multi-armed bandit Variance reduction

LLM-as-Judge on a Budget

Aadirupa Saha, Aniket Wagde, Branislav Kveton

提出一种基于多臂老虎机理论的LLM评估优化方法,动态分配计算资源以降低评估误差。

  • 提出一种基于方差自适应的多臂老虎机LLM评估方法。
  • 证明了该方法在最坏情况下的误差界。
2026-02-17
8/10
Multimodal LLM Reasoning Out-of-Distribution Generalization

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Yannic Neuhaus, Nicolas Flammarion, Matthias Hein et al.

该论文研究了多模态LLM在视觉规划任务中链式思考(CoT)推理的泛化能力,发现文本模型优于图像模型。

  • 提出了评估多模态LLM推理泛化能力的框架。
  • 揭示了CoT推理在不同输入表示下的OOD泛化能力差异。
2026-02-17
8/10
共同信念 逻辑 知识表示

Common Belief Revisited

Thomas Ågotnes

论文研究了在KD45个体信念下,共同信念的逻辑刻画问题,并给出了完备的公理化描述。

  • 证明了KD4加上shift-reflexivity公理不足以刻画共同信念
  • 发现并证明了一个额外的公理依赖于agent数量
2026-02-17
7/10
因果关系 混合动态领域 时间情境演算

On the Semantics of Primary Cause in Hybrid Dynamic Domains

Shakil M. Khan, Asim Mehmood, Sandra Zilles

研究混合动态领域中实际因果关系,提出两种主因定义并证明其等价性。

  • 提出混合时间情境演算中的主因定义
  • 形式化贡献的角度定义因果关系
2026-02-16
7/10
因果推断 因果基础模型 领域知识

Use What You Know: Causal Foundation Models with Partial Graphs

Arik Reuter, Anish Dhir, Cristiana Diaconu et al.

论文提出了一种将因果信息融入因果基础模型(CFMs)的方法,提升模型性能。

  • 提出在CFMs中融入因果信息的框架
  • 提出利用完整或部分因果图信息的策略
2026-02-16
9/10
推理 强化学习 最佳优先搜索

BFS-PO: Best-First Search for Large Reasoning Models

Fiorenzo Parascandolo, Wenhui Tan, Enver Sangineto et al.

BFS-PO算法利用最佳优先搜索策略,缩短大型推理模型的推理链,提高准确率并减少冗余输出。

  • 提出BFS-PO算法,解决LRM的过度推理问题
  • 使用最大熵节点的回溯机制,寻找最短正确答案
2026-02-16
9/10
LLM Chain-of-Thought Reasoning

The Potential of CoT for Reasoning: A Closer Look at Trace Dynamics

Gregor Bachmann, Yichen Jiang, Seyed Mohsen Moosavi Dezfooli et al.

该论文深入分析了CoT推理轨迹,揭示其成功背后的潜在机制,并量化了CoT中各部分对最终答案的贡献。

  • 提出了量化CoT各部分贡献的“潜力”概念
  • 揭示了CoT轨迹中非单调性、尖峰和幸运猜测等模式
2026-02-16
9/10
概率逻辑 关系推理 隐式学习

Lifted Relational Probabilistic Inference via Implicit Learning

Luise Ge, Brendan Juba, Kris Nilsson et al.

提出了一种隐式学习的一阶关系概率推理框架,实现无需显式模型构建的概率查询。

  • 提出基于隐式学习的一阶关系概率推理方法
  • 实现了 grounding-lift 和 world-lift 两种提升
2026-02-16
9/10
强化学习 Transformer 推理

On the Learning Dynamics of RLVR at the Edge of Competence

Yu Huang, Zixin Wen, Yuejie Chi et al.

论文研究了RLVR在复杂推理任务中的训练动态,揭示了数据难度谱对学习效果的影响。

  • 提出了RLVR在Transformer中训练动态的理论
  • 揭示了数据难度谱平滑性对RLVR性能的影响
2026-02-16
9/10
强化学习 推理 课程学习

Goldilocks RL: Tuning Task Difficulty to Escape Sparse Rewards for Reasoning

Ilia Mahrooghi, Aryo Lotfi, Emmanuel Abbe

Goldilocks RL通过动态调整训练难度,克服了强化学习在稀疏奖励下推理任务中的低效问题。

  • 提出Goldilocks数据采样策略,根据学生模型能力动态选择难度合适的样本
  • 利用教师模型预测问题难度,并指导学生模型训练
2026-02-16
8/10
幻觉 小语言模型 几何分析

A Geometric Analysis of Small-sized Language Model Hallucinations

Emanuele Ricco, Elia Onofri, Lorenzo Cima et al.

论文从几何角度分析小模型幻觉问题,提出利用embedding空间聚类区分真实和虚假响应的方法。

  • 提出幻觉的几何分析视角
  • 证明真实响应在embedding空间中更紧密聚类
2026-02-16
9/10
machine translation large language models reasoning

Unlocking Reasoning Capability on Machine Translation in Large Language Models

Sara Rajaee, Sebastian Vincent, Alexandre Berard et al.

该论文研究了大型语言模型推理能力在机器翻译中的应用,并提出了针对机器翻译的结构化推理框架。

  • 发现通用推理在机器翻译中效果不佳
  • 提出了针对机器翻译的结构化推理框架
2026-02-16
5/10
量子计算 数据库 量子数据库

Qute: Towards Quantum-Native Database

Muzhi Chen, Xuanhe Zhou, Wei Zhou et al.

Qute提出了一种量子原生数据库,利用量子计算加速数据处理,并优化量子资源利用。

  • 扩展SQL编译为量子电路
  • 混合优化器动态选择执行计划
2026-02-16
8/10
Layer Pruning Large Language Models Model Compression

GradMAP: Faster Layer Pruning with Gradient Metric and Projection Compensation

Hao Liu, Guangyan Li, Wensheng Zhang et al.

提出GradMAP方法,通过梯度度量和投影补偿加速LLM层剪枝,提升剪枝速度和性能。

  • 提出基于梯度幅值的层重要性度量方法,提高剪枝效率
  • 提出投影补偿矩阵,减轻剪枝带来的模型性能下降
2026-02-16
7/10
Wikidata 问答系统 SPARQL

The Wikidata Query Logs Dataset

Sebastian Walter, Hannah Bast

论文提出了一个大规模的Wikidata问答数据集WDQL,用于训练问答系统。

  • 构建了一个包含200k问答对的Wikidata数据集WDQL。
  • 提出了一种基于Agent的方法,用于从匿名SPARQL查询中生成自然语言问题。
2026-02-16
8/10
LLM Hallucination Deception

Disentangling Deception and Hallucination Failures in LLMs

Haolang Lu, Hongrui Peng, WeiYe Fu et al.

论文区分了LLM中幻觉和欺骗两种不同类型的错误,并提出了相应的分析框架。

  • 区分幻觉和欺骗两种LLM失败模式
  • 提出了基于知识存在和行为表达的分析视角
2026-02-16
8/10
多模态 长链推理 知识冲突

Diagnosing Knowledge Conflict in Multimodal Long-Chain Reasoning

Jing Tang, Kun Wang, Haolang Lu et al.

该论文研究了多模态LLM在长链推理中因知识冲突导致的失败问题,并提出了诊断和控制方法。

  • 形式化了知识冲突的概念,区分了输入层和过程层的冲突
  • 通过探针实验揭示了冲突信号的线性可分性、深度定位、层次一致性和方向不对称性
2026-02-16
9/10
知识蒸馏 大型语言模型 教学法

Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation

Bowei He, Yankai Chen, Xiaokun Zhang et al.

论文提出一种受教学启发的知识蒸馏框架IOA,提升小模型在复杂推理任务上的性能。

  • 提出IOA框架,包含知识识别、组织和适应三个阶段
  • 结合Bloom的掌握学习原则和维果茨基的最近发展区理论
2026-02-12
9/10
逻辑推理 自然语言处理 语法解析

Statistical Parsing for Logical Information Retrieval

Greg Coppola

论文扩展了QBBN模型,通过结合LLM和语法解析,实现了自然语言的逻辑信息检索,并提升了推理能力。

  • 扩展QBBN模型,加入否定推理能力
  • 提出一种类型化的逻辑语言和语法解析器
2026-02-12
9/10
dLLM 推理 投票

dVoting: Fast Voting for dLLMs

Sicheng Feng, Zigeng Chen, Xinyin Ma et al.

dVoting利用dLLM的并行生成能力,通过投票机制提升推理能力,无需额外训练。

  • 提出了一种名为dVoting的快速投票技术
  • 利用dLLM的任意位置生成能力进行迭代优化
2026-02-12
9/10
Theory of Mind LLM evaluation Reasoning

GPT-4o Lacks Core Features of Theory of Mind

John Muchovej, Amanda Royka, Shane Lee et al.

GPT-4o在理论推理(ToM)的核心能力上存在缺陷,缺乏一致且泛化的心理状态行为模型。

  • 提出了评估LLM的ToM的新框架
  • 揭示了LLM在简单ToM任务上取得成功,但在逻辑等价任务上失败
2026-02-12
9/10
递归推理 Mamba-2 状态空间模型

Tiny Recursive Reasoning with Mamba-2 Attention Hybrid

Wenlong Wang, Fergal Reid

该论文探索了将Mamba-2算子融入递归推理模型的可行性,并验证了其在保持推理能力的同时具有性能提升。

  • 验证了Mamba-2算子在递归推理框架中的可行性
  • 发现了Mamba-2混合算子能提升ARC-AGI-1数据集上的性能
2026-02-12
8/10
金融市场 LLM 投资叙事

MEME: Modeling the Evolutionary Modes of Financial Markets

Taian Guo, Haiyang Shen, Junyu Luo et al.

MEME模型将金融市场视为演化生态,通过投资叙事建模市场动态,优于现有方法。

  • 提出了Logic-Oriented的金融市场建模视角
  • 构建了MEME模型,通过多Agent提取和高斯混合模型重建市场动态
2026-02-12
7/10
LLM 三元组抽取 财务报告

LLM-based Triplet Extraction from Financial Reports

Dante Wesslund, Ville Stenström, Pontus Linde et al.

提出一种基于LLM的财务报告三元组抽取流水线,并使用本体驱动代理指标进行评估。

  • 提出基于LLM的财务报告三元组抽取流水线
  • 使用本体一致性和忠实度作为评估指标
2026-02-12
7/10
Large Language Models Autonomous Driving Natural Language Processing

Talk2DM: Enabling Natural Language Querying and Commonsense Reasoning for Vehicle-Road-Cloud Integrated Dynamic Maps with Large Language Models

Lu Tao, Jinxuan Luo, Yousuke Watanabe et al.

提出Talk2DM,一个基于大语言模型的车辆-道路-云集成动态地图自然语言查询和常识推理模块。

  • 构建了VRC合作感知仿真框架VRCsim。
  • 创建了VRC-QA问答数据集,专注于混合交通场景的空间查询和推理。
2026-02-12
7/10
Transformer Kernel Fusion Memory Optimization

Deep Kernel Fusion for Transformers

Zixi Zhang, Zhiwen Mo, Yiren Zhao et al.

提出了DeepFusionKernel,一种深度融合内核,优化Transformer中SwiGLU MLP块的内存带宽瓶颈,提升推理速度。

  • 提出DeepFusionKernel优化SwiGLU MLP块
  • 减少HBM流量并提高缓存重用率
2026-02-12
9/10
Multimodal Learning Reasoning Visual Reasoning

Thinking with Drafting: Optical Decompression via Logical Reconstruction

Jingxuan Wei, Honghao He, Caijun Jia et al.

论文提出Thinking with Drafting方法,通过领域特定语言连接视觉感知和逻辑推理,提高视觉推理的精确性。

  • 提出Thinking with Drafting (TwD)框架
  • 利用DSL作为中间表示,实现逻辑重建
2026-02-12
10/10
Chain-of-Thought Supervised Fine-tuning Data Repetition

Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort et al.

重复训练在基于思维链数据的有监督微调中优于数据规模扩大,能提升大语言模型的推理能力。

  • 证明了重复训练优于数据扩增在思维链微调中的作用
  • 提出了token准确率可以作为重复训练的停止标准
2026-02-11
7/10
tabular data foundation model in-context learning

TabICLv2: A better, faster, scalable, and open tabular foundation model

Jingang Qu, David Holzmüller, Gaël Varoquaux et al.

TabICLv2通过新颖的合成数据生成和架构优化,在表格数据预测任务上超越现有模型。

  • 新型合成数据生成引擎,提高预训练多样性
  • 可扩展的softmax注意力机制,提升泛化能力
2026-02-11
9/10
chain-of-thought reasoning reinforcement learning

Reinforcing Chain-of-Thought Reasoning with Self-Evolving Rubrics

Leheng Sheng, Wenchang Ma, Ruixin Hong et al.

提出RLCER,利用自进化规则强化LLM的CoT推理能力,无需人工标注且优于outcome-centric RL。

  • 提出一种自主的CoT奖励方法,无需人工标注。
  • 提出RLCER,通过自提出和自进化的规则奖励CoT。
2026-02-11
8/10
Transformer 循环神经网络 可解释性

Step-resolved data attribution for looped transformers

Georgios Kaissis, David Mildenberger, Juan Felipe Gomez et al.

针对循环Transformer,论文提出Step-Decomposed Influence方法,分析训练数据对循环推理过程的影响。

  • 提出Step-Decomposed Influence (SDI)方法
  • TensorSketch加速SDI计算
2026-02-10
10/10
LLM Reasoning Agent

Chain of Mindset: Reasoning with Adaptive Cognitive Modes

Tianyi Jiang, Arctanx An, Hengyi Feng et al.

提出Chain of Mindset (CoM)框架,自适应地选择认知模式进行推理,提升LLM解决问题的能力。

  • 提出Chain of Mindset (CoM) 框架
  • 引入四种异构的认知模式:Spatial, Convergent, Divergent, Algorithmic
2026-02-10
8/10
Language Models Physical Reasoning Simulation Traces

Discovering High Level Patterns from Simulation Traces

Sean Memery, Kartic Subr

该论文提出了一种从模拟轨迹中发现高级模式,并用自然语言指导LM进行物理推理的方法。

  • 提出一种自然语言指导的方法,从模拟日志中发现粗粒度的模式。
  • 综合程序来操作模拟日志,并将其映射到一系列高级激活模式。
2026-02-10
9/10
强化学习 推理 注意力机制

ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning

Shuaiyi Nie, Siyu Ding, Wenyuan Zhang et al.

ATTNPO利用模型注意力机制进行过程监督,有效减少推理冗余并提升性能。

  • 提出了一种低开销的过程监督强化学习框架ATTNPO
  • 利用模型的注意力信号进行步进式信用分配
2026-02-10
9/10
LLM 推理效率 线性探针

LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations

William Lugoloobi, Thomas Foster, William Bankes et al.

论文研究了LLM在生成前从内部表征预测成功率,并利用此信号提升推理效率。

  • 提出了一种从LLM生成前激活中预测成功率的方法
  • 证明了LLM编码了与人类认知不同的、模型特定的难度概念
2026-02-10
7/10
AI辅助阅读 认知参与 大学生

Self-Regulated Reading with AI Support: An Eight-Week Study with Students

Yue Fu, Joel Wester, Niels Van Berkel et al.

研究大学生使用AI辅助阅读的行为模式和认知参与度,发现效率驱动下的“AI阅读”现象。

  • 量化分析AI辅助阅读中不同认知层级的提示词频率和顺序
  • 揭示学生在AI辅助阅读中存在的意图-行为差距
2026-02-10
8/10
LLM Routing Game Theory

Routing, Cascades, and User Choice for LLMs

Rafid Mahmood

研究LLM路由策略对用户行为的影响,揭示提供者与用户之间的潜在利益冲突。

  • 提出了LLM提供者和用户之间的Stackelberg博弈模型
  • 刻画了用户最佳响应策略和简化了提供者问题
2026-02-10
5/10
量子计算 风险评估 结构力学

Stabilized Maximum-Likelihood Iterative Quantum Amplitude Estimation for Structural CVaR under Correlated Random Fields

Alireza Tabarraei

提出一种基于量子幅度估计的稳健CVaR计算方法,用于解决随机结构力学中的尾部风险问题。

  • 开发了一种量子增强的CVaR评估框架,利用最大似然幅度估计。
  • 提出了一种稳定的推理方案,包括多假设可行性跟踪和周期性低深度消除歧义。
2026-02-10
8/10
文本摘要 拓扑数据分析 全局结构感知

Text summarization via global structure awareness

Jiaquan Zhang, Chaoning Zhang, Shuxu Chen et al.

GloSA-sum通过拓扑数据分析实现全局结构感知,提升文本摘要的准确性和效率。

  • 提出GloSA-sum,首个基于TDA的全局结构感知摘要方法
  • 设计拓扑引导的迭代策略,平衡准确性和效率
2026-02-10
7/10
形式验证 代码生成 基准测试

AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms

Haoyu Zhao, Ziran Yang, Jiawei Li et al.

AlgoVeri提供了一个统一的基准测试,用于评估AI模型在Dafny、Verus和Lean中生成形式验证代码的能力。

  • 提出了AlgoVeri基准测试,包含77个经典算法的验证代码生成任务
  • 揭示了不同验证系统在能力上的关键差距
2026-02-10
9/10
LLM Reasoning Reinforcement Learning

iGRPO: Self-Feedback-Driven LLM Reasoning

Ali Hatamizadeh, Shrimai Prabhumoye, Igor Gitman et al.

提出iGRPO,一种基于自反馈的LLM推理优化方法,并在数学推理任务上取得了SOTA结果。

  • 提出了一种新的基于自反馈的强化学习方法iGRPO
  • iGRPO在数学推理任务上优于GRPO
2026-02-09
9/10
因果推理 LLM 基准测试

CausalT5K: Diagnosing and Informing Refusal for Trustworthy Causal Reasoning of Skepticism, Sycophancy, Detection-Correction, and Rung Collapse

Longling Geng, Andy Ouyang, Theodore Wu et al.

CausalT5K是一个诊断LLM因果推理缺陷的基准测试,旨在提升模型的可信赖性。

  • 构建了一个包含5000多个案例的因果推理诊断基准CausalT5K
  • 提出了三个关键的因果推理能力:检测阶梯崩塌、抵御逢迎和生成明智拒绝
2026-02-09
8/10
定性推理 约束网络 可满足性

Deciding the Satisfiability of Combined Qualitative Constraint Networks

Quentin Cohen-Solal, Alexandre Niveau, Maroua Bouzid

该论文提出一个统一的定性推理框架,研究了组合定性约束网络的可满足性判定及其复杂性。

  • 统一了多种定性形式的扩展和组合
  • 建立了可满足性判定的多项式定理
2026-02-09
8/10
混合专家 联邦学习 低秩分解

FlexMoRE: A Flexible Mixture of Rank-heterogeneous Experts for Efficient Federatedly-trained Large Language Models

Annemette Brok Pirchert, Jacob Nielsen, Mogens Henrik From et al.

FlexMoRE提出了一种灵活的混合专家模型,通过异构秩专家提升联邦训练大语言模型的效率和性能。

  • 提出FlexMoRE,一种灵活的混合秩异构专家模型。
  • 系统性地研究了专家秩与下游任务性能之间的权衡。
2026-02-09
7/10
SNN ANN 量化

Kirin: Improving ANN efficiency with SNN Hybridization

Chenyu Wang, Zhanglu Yan, Zhi Zhou et al.

Kirin提出了一种整数和脉冲混合的SNN,实现了ANN到SNN的无损精度转换,并提高了时间和能源效率。

  • 提出了 Spike Matrix Hybridization 策略,降低延迟
  • 引入了 Silence Threshold 机制,保持精度
2026-02-09
6/10
贝叶斯深度学习 元学习 变分推断

Amortising Inference and Meta-Learning Priors in Neural Networks

Tommy Rochussen, Vincent Fortuin

该论文提出了一种学习神经网络权重先验的方法,结合了贝叶斯深度学习和概率元学习。

  • 提出了一种学习权重先验的方法
  • 实现了数据集级别的摊销变分推断
2026-02-09
7/10
Lean 4 伪布尔证明 形式化验证

PBLean: Pseudo-Boolean Proof Certificates for Lean 4

Stefan Szeider

PBLean将VeriPB的伪布尔证明导入Lean 4,通过反射实现验证和定理推导。

  • 实现了VeriPB证明到Lean 4的导入
  • 提出了基于反射的证明检查器,并验证其正确性
2026-02-09
7/10
MAP inference Non-convex constraints Optimization

The Theory and Practice of MAP Inference over Non-Convex Constraints

Leander Kurscheidt, Gabriele Masina, Roberto Sebastiani et al.

研究非凸约束下的MAP推断问题,提出了一种可扩展的消息传递算法和一种通用的约束MAP策略。

  • 研究了约束MAP推断的条件和可行性
  • 设计了可扩展的消息传递算法
2026-02-09
8/10
LLM Impossible Language Chomsky

Large Language Models and Impossible Language Acquisition: "False Promise" or an Overturn of our Current Perspective towards AI

Ziyan wang, Longlong Ma

论文通过实验和理论分析,探讨LLM在学习不可能语言方面的能力,并对Chomsky的观点提出新的见解。

  • 通过实验验证GPT-2和小模型在学习不可能语言上的表现差异,揭示Transformer架构的重要性。
  • 提出在Chomsky框架内对LLM的新视角,以及从理性主义到功能主义/经验主义的理论范式转变。
2026-02-09
9/10
长文本推理 稀疏注意力 KV缓存

Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference

Yifei Gao, Lei Wang, Rong-Cheng Tu et al.

提出Pre-hoc Sparsity方法,解决长文本推理中KV选择的后验偏差问题,提升推理效率和准确性。

  • 提出了Pre-hoc Sparsity (PrHS) 方法
  • 推导了互信息损失的上界,实现了显式的精度控制
2026-02-09
9/10
LLM 推测解码 扩散模型

DFlash: Block Diffusion for Flash Speculative Decoding

Jian Chen, Yesheng Liang, Zhijian Liu

DFlash提出了一种基于扩散模型的推测解码框架,显著加速LLM的推理过程。

  • 提出DFlash框架,利用扩散模型并行生成草稿token
  • 将目标模型上下文特征融入草稿模型,提高草稿质量
2026-02-05
7/10
语言模型 多token预测 自蒸馏

Multi-Token Prediction via Self-Distillation

John Kirchenbauer, Abhimanyu Hans, Brian Bartoldson et al.

通过自蒸馏将预训练语言模型转换为快速多token预测模型,无需额外组件。

  • 提出了一种新的多token预测方法
  • 无需训练额外的验证模型
2026-02-05
6/10
因果推断 在线广告 随机游走

Causal Inference on Stopped Random Walks in Online Advertising

Jia Yuan Yu

针对在线广告场景,提出了一种基于停止随机游走的因果推断方法,用于评估长期广告效果。

  • 提出将在线广告收益建模为停止随机游走
  • 结合预算分割实验设计、Anscombe定理和中心极限定理构建置信区间
2026-02-05
7/10
Diffusion LLM 并行解码 动态调度

DSB: Dynamic Sliding Block Scheduling for Diffusion LLMs

Lizhuo Luo, Shenggui Li, Yonggang Wen et al.

提出动态滑动块调度DSB,优化Diffusion LLM的并行解码质量和效率,并提出DSB Cache加速。

  • 分析了Naive Block Scheduling的局限性
  • 提出了动态滑动块调度方法DSB
2026-02-05
8/10
LLM Multilingual European Languages

EuroLLM-22B: Technical Report

Miguel Moura Ramos, Duarte M. Alves, Hippolyte Gisserot-Boukhlef et al.

EuroLLM-22B是一个支持多种欧洲语言的大型语言模型,性能与同规模模型相当,并开源了数据和代码。

  • 训练了一个支持多种欧洲语言的22B参数LLM
  • 开源了预训练数据和指令微调数据集EuroBlocks
2026-02-05
9/10
benchmark biology reasoning

BABE: Biology Arena BEnchmark

Junting Zhou, Jin Chen, Linfeng Hao et al.

BABE是一个生物学领域的新基准,旨在评估LLM的实验推理能力。

  • 提出了BABE基准,用于评估生物学AI系统的实验推理能力
  • BABE基于同行评审论文和真实生物学研究
2026-02-05
5/10
社区检测 随机块模型 精确恢复

Exact Recovery in the Data Block Model

Amir R. Asadi, Akbar Davoodi, Ramin Javadi et al.

研究数据块模型中的精确恢复问题,提出了新的阈值刻画和算法。

  • 提出了用于数据块模型精确恢复的Chernoff--TV散度
  • 刻画了数据块模型精确恢复的尖锐阈值
2026-02-05
8/10
LLM Energy Efficiency Inference

Determining Energy Efficiency Sweet Spots in Production LLM Inference

Hiari Pizzini Cavagna, Andrea Proia, Giacomo Madella et al.

该论文分析了LLM推理中的能源效率,发现存在最佳效率区间,并提出了一个预测能源效率的模型。

  • 发现LLM推理存在能源效率最佳区间
  • 提出基于Transformer架构的能源效率预测模型
2026-02-05
8/10
概率推理 异步计算 反应式编程

Reactive Knowledge Representation and Asynchronous Reasoning

Simon Kohaut, Benedict Flade, Julian Eggert et al.

提出了用于动态环境下的反应式异步概率推理框架Resin及高效实现Reactive Circuits。

  • 提出了概率编程语言Resin
  • 提出了Reactive Circuits用于高效推理
2026-02-05
7/10
模型融合 知识迁移 最优传输

Transport and Merge: Cross-Architecture Merging for Large Language Models

Chenhang Cui, Binyun Yang, Fei Shen et al.

提出了基于最优传输的跨架构模型融合框架,实现大模型知识向小模型的有效迁移。

  • 提出了一种基于最优传输的跨架构模型融合方法
  • 实现了大模型到异构小模型的知识迁移
2026-02-05
7/10
Linear Attention Model Pruning Low-Rank Approximation

The Key to State Reduction in Linear Attention: A Rank-based Perspective

Philipp Nazari, T. Konstantin Rusch

分析线性注意力模型低秩现象,提出硬件感知结构化剪枝方法,减少模型状态大小。

  • 理论分析了线性注意力中秩对检索误差的影响
  • 提出了基于秩分解的结构化剪枝方法,用于减少状态大小
2026-02-04
9/10
推理模型 表示学习 上下文学习

Fluid Representations in Reasoning Models

Dmitrii Kharlapenko, Alessandro Stolfo, Arthur Conmy et al.

研究表明,推理模型通过上下文token表示的动态调整实现抽象结构信息的有效处理和问题解决。

  • 发现推理模型在推理过程中改进内部的动作和概念表示
  • 证明了模型会发展出专注于结构的抽象编码
2026-02-04
9/10
LLM 时间问答 拒绝回答

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Xinyu Zhou, Chang Jin, Carsten Eickhoff et al.

论文研究了如何训练LLM在时间问答中学会拒绝回答,并利用RL优化其推理能力。

  • 提出了结合CoT监督和强化学习的框架,用于训练LLM的拒绝回答能力。
  • 系统分析了不同信息类型和训练技术对时间推理和拒绝行为的影响。
2026-02-04
7/10
因果分析 根因分析 时变系统

Causal explanations of outliers in systems with lagged time-dependencies

Philipp Alexander Schwarz, Johannes Oberpriller, Sven Klaassen

论文改进因果根因分析方法,应用于时变系统异常检测,尤其针对能源系统峰值避免问题。

  • 扩展因果根因分析方法到时变系统
  • 提出两种处理无限依赖图的截断方法
2026-02-04
9/10
LLM Fine-tuning Reinforcement Learning Trust Region Policy Optimization

QUATRO: Query-Adaptive Trust Region Policy Optimization for LLM Fine-tuning

Doyeon Lee, Eunyi Lyou, Hyunsoo Cho et al.

QUATRO通过直接强制执行信任域约束,实现LLM策略优化的稳定和可控。

  • 提出Query-Adaptive Trust-Region Policy Optimization (QUATRO)算法
  • 通过原则性优化直接强制执行信任域约束
2026-02-04
6/10
TabPFN 不确定性分解 贝叶斯预测推理

A principled framework for uncertainty decomposition in TabPFN

Sandra Fortini, Kenyon Ng, Sonia Petrone et al.

本文提出了一种TabPFN的不确定性分解框架,并验证了其有效性。

  • 提出了TabPFN的不确定性分解方法
  • 证明了监督设置下的预测CLT
2026-02-04
8/10
LLM 微领域自适应预训练 生成任务

Is Micro Domain-Adaptive Pre-Training Effective for Real-World Operations? Multi-Step Evaluation Reveals Potential and Bottlenecks

Masaya Tsunokake, Yuta Koreeda, Terufumi Morishita et al.

论文研究了微领域自适应预训练(mDAPT)在生成任务中的潜力和瓶颈,并揭示了其在知识获取方面的有效性。

  • 将问答过程分解为知识获取、推理和答案生成三个子任务进行评估
  • 验证了mDAPT在解决知识获取问题上的有效性
2026-02-04
9/10
LLM Policy Optimization Bregman Divergence

Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning

Rui Yuan, Mykola Khandoga, Vinay Kumar Sankarapu

提出了GBMPO框架,探索Bregman散度在LLM推理策略优化中的应用,显著提升数学推理和代码生成性能。

  • 提出了 Group-Based Mirror Policy Optimization (GBMPO) 框架
  • 探索了多种 Bregman 散度在策略优化中的应用,包括手动设计和神经元映射
2026-02-04
9/10
并行推理 效率优化 LLM

Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

Tong Zheng, Chengsong Huang, Runpeng Dai et al.

提出Parallel-Probe框架,通过2D探测优化并行推理,实现效率与准确率的平衡。

  • 提出2D探测方法,揭示并行推理中的宽度-深度动态
  • 设计Parallel-Probe控制器,基于共识提前停止和偏差剪枝动态优化并行推理
2026-02-03
6/10
音频分类 时空融合 自适应权重

Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion

Oscar Ovanger, Levi Harris, Timothy H. Keitt

论文提出FINCH框架,自适应融合音频和时空信息,提升生物声学分类性能。

  • 提出了FINCH框架,用于自适应融合音频和时空证据。
  • 引入per-sample gating函数,评估上下文信息的可靠性。
2026-02-03
7/10
任务归因 核代理模型 元学习

Efficient Estimation of Kernel Surrogate Models for Task Attribution

Zhenshuo Zhang, Minxuan Duan, Hongyang R. Zhang

提出核代理模型,用于高效准确地评估训练任务对目标任务的影响,优于线性模型。

  • 提出统一的任务权重框架分析任务归因方法。
  • 引入核代理模型,有效捕捉二阶任务交互。
2026-02-03
9/10
Reasoning Reinforcement Learning Large Language Models

Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

Ian Wu, Yuxiao Qu, Amrith Setlur et al.

RC算法通过迭代解码,利用LLM的生成和总结能力,实现推理链的持续改进,提升模型在长推理任务上的性能。

  • 提出了一种新的迭代解码算法RC
  • 证明RC可以提升模型在长推理任务上的外推能力
2026-02-03
9/10
扩散模型 自回归模型 推理

Reasoning with Latent Tokens in Diffusion Language Models

Andre He, Sean Welleck, Daniel Fried

扩散语言模型通过联合预测未知token进行推理,本文探究了隐变量token的作用,并将其引入自回归模型。

  • 揭示了扩散模型中隐变量token对于推理能力的重要性
  • 提出了一种调节隐变量token数量的方法,平衡推理速度和样本质量
2026-02-03
9/10
信息检索 推理 知识推理

Tutorial on Reasoning for IR & IR for Reasoning

Mohanna Hoveyda, Panagiotis Efstratiadis, Arjen de Vries et al.

本教程定义了信息检索中的推理,构建统一分析框架,促进跨学科合作,提升IR系统的推理能力。

  • 定义了信息检索中推理的概念
  • 构建了推理方法的统一分析框架
2026-02-03
9/10
强化学习 探索 熵正则化

TRE: Encouraging Exploration in the Trust Region

Chao Huang, Yujing Lu, Quangang Li et al.

论文提出了一种Trust Region Entropy(TRE)方法,提升LLM在强化学习中的探索能力。

  • 发现了标准熵正则化在LLM中失效的原因是累积尾部风险
  • 提出了TRE方法,在模型信任区域内鼓励探索
2026-02-03
7/10
扩散模型 偏微分方程 知识蒸馏

Ultra Fast PDE Solving via Physics Guided Few-step Diffusion

Cindy Xiangrui Kong, Yueqi Wang, Haoyang Zheng et al.

Phys-Instruct通过物理引导的蒸馏,加速扩散模型求解偏微分方程,并提升物理一致性。

  • 提出Phys-Instruct框架,加速PDE求解。
  • 通过PDE知识蒸馏,增强物理一致性。
2026-02-03
8/10
LLM Generalization Representation Learning

Can Large Language Models Generalize Procedures Across Representations?

Fangru Lin, Valentin Hofmann, Xingchen Wan et al.

研究LLM在代码、图和自然语言等表示之间的泛化能力,并提出一种两阶段数据课程。

  • 揭示了LLM在不同表示形式之间泛化的局限性
  • 提出了一种有效的两阶段数据课程训练方法
2026-02-03
9/10
逻辑神经网络 硬件加速 机器学习

WARP Logic Neural Networks

Lino Gerlach, Thore Gerlach, Liv Våge et al.

WARP逻辑神经网络通过高效学习硬件原生逻辑块组合,降低训练成本,提高推理速度。

  • 提出WARP逻辑神经网络框架
  • 参数效率最高的布尔函数表示
2026-02-03
9/10
Diffusion LLM Inference Unmasking Order

Lookahead Path Likelihood Optimization for Diffusion LLMs

Xuejie Liu, Yap Vit Chun, Yitao Liang et al.

提出了一种基于路径似然优化的扩散LLM解码方法,提升推理准确性。

  • 提出了路径对数似然(Path LL)目标
  • 设计了高效的值估计器POKE
2026-02-03