Paper Tracker - 首页

高相关度论文

AI Agents 9/10

ActionParty: Multi-Subject Action Binding in Generative Video Games

ActionParty提出了一种多主体行动绑定的视频生成模型，可控制多个智能体在视频游戏中互动。

视频生成世界模型多智能体行动控制

Multimodal Learning 9/10

Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection

ModMap通过跨模态特征映射和跨视角调制，在3D异常检测中取得了领先性能。

3D Anomaly Detection Multimodal Learning Cross-View Learning Feature Mapping

Multimodal Learning 9/10

Steerable Visual Representations

提出可控视觉表征，通过早期融合文本信息到视觉编码器中，实现对图像特征的精细控制。

可控视觉表征视觉语言模型早期融合

LLM Reasoning 9/10

Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

提出Batched Contextual Reinforcement方法，提高LLM推理效率和准确率，发现任务规模效应。

LLM 推理效率 Chain-of-Thought 强化学习

AI Agents 9/10

Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning

MetaNav通过空间记忆、历史感知规划和反思纠正，提升了视觉语言导航的效率和鲁棒性。

视觉语言导航元认知空间记忆 LLM

Multimodal Learning 9/10

A Simple Baseline for Streaming Video Understanding

提出SimpleStream基线，仅用滑动窗口即可媲美复杂流视频理解模型，揭示感知-记忆权衡。

streaming video understanding VLM sliding window baseline

LLM Reasoning 8/10

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

提出用户回复生成作为探测LLM交互意识的方法，发现交互意识与任务准确率解耦，可通过后训练提升。

交互意识 LLM评估用户回复生成

Multimodal Learning 8/10

VOID: Video Object and Interaction Deletion

提出VOID框架，利用因果推理和视频扩散模型实现物理上合理的视频对象移除。

视频对象移除因果推理视频扩散模型视觉语言模型

Multimodal Learning 9/10

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Omni123通过统一文本到2D和3D生成，利用2D数据提升3D建模效果。

3D生成多模态学习文本到3D 自回归模型

AI Agents 9/10

Novel Memory Forgetting Techniques for Autonomous AI Agents: Balancing Relevance and Efficiency

提出一种自适应预算遗忘框架，通过相关性评分和有界优化来管理长期对话代理的记忆，提升性能并减少虚假记忆。

memory agent forgetting long-term memory

最新论文

AI Agents 9/10

ActionParty: Multi-Subject Action Binding in Generative Video Games

Alexander Pondaven, Ziyi Wu, Igor Gilitschenski et al.

ActionParty提出了一种多主体行动绑定的视频生成模型，可控制多个智能体在视频游戏中互动。

2026-04-02 PDF

Multimodal Learning 7/10

Generative World Renderer

Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan et al.

提出了一个大规模高质量游戏数据集用于训练生成式渲染模型，并提出了VLM评估方法。

2026-04-02 PDF

Multimodal Learning 9/10

Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection

Alex Costanzino, Pierluigi Zama Ramirez, Giuseppe Lisanti et al.

ModMap通过跨模态特征映射和跨视角调制，在3D异常检测中取得了领先性能。

2026-04-02 PDF

Multimodal Learning 9/10

Steerable Visual Representations

Jona Ruthardt, Manu Gaur, Deva Ramanan et al.

提出可控视觉表征，通过早期融合文本信息到视觉编码器中，实现对图像特征的精细控制。

2026-04-02 PDF

LLM Reasoning 9/10

Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning

Bangji Yang, Hongbo Ma, Jiajun Fan et al.

提出Batched Contextual Reinforcement方法，提高LLM推理效率和准确率，发现任务规模效应。

2026-04-02 PDF

AI Agents 9/10

Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning

Xueying Li, Feng Lyu, Hao Wu et al.

MetaNav通过空间记忆、历史感知规划和反思纠正，提升了视觉语言导航的效率和鲁棒性。

2026-04-02 PDF

Multimodal Learning 9/10

A Simple Baseline for Streaming Video Understanding

Yujiao Shen, Shulin Tian, Jingkang Yang et al.

提出SimpleStream基线，仅用滑动窗口即可媲美复杂流视频理解模型，揭示感知-记忆权衡。

2026-04-02 PDF

LLM Reasoning 8/10

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Sarath Shekkizhar, Romain Cosentino, Adam Earle

提出用户回复生成作为探测LLM交互意识的方法，发现交互意识与任务准确率解耦，可通过后训练提升。

2026-04-02 PDF

Multimodal Learning 8/10

VOID: Video Object and Interaction Deletion

Saman Motamed, William Harvey, Benjamin Klein et al.

提出VOID框架，利用因果推理和视频扩散模型实现物理上合理的视频对象移除。

2026-04-02 PDF

Agent Tuning & Optimization 6/10

Taming the Exponential: A Fast Softmax Surrogate for Integer-Native Edge Inference

Dimitrios Danopoulos, Enrico Lupi, Michael Kagan et al.

提出了一种针对Transformer模型中Softmax计算瓶颈的快速近似方法HCCS，优化了int8推理速度并保持精度。

2026-04-02 PDF

Multimodal Learning 9/10

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Chongjie Ye, Cheng Cao, Chuanyu Pan et al.

Omni123通过统一文本到2D和3D生成，利用2D数据提升3D建模效果。

2026-04-02 PDF

AI Agents 9/10

Novel Memory Forgetting Techniques for Autonomous AI Agents: Balancing Relevance and Efficiency

Payal Fofadiya, Sunil Tiwari

提出一种自适应预算遗忘框架，通过相关性评分和有界优化来管理长期对话代理的记忆，提升性能并减少虚假记忆。

2026-04-02 PDF

AI Agents 9/10

The Self Driving Portfolio: Agentic Architecture for Institutional Asset Management

Andrew Ang, Nazym Azimbayev, Andrey Kim

该论文提出了一种基于Agentic AI的自动化资产管理框架，旨在提升投资效率和决策质量。

2026-04-02 PDF

LLM Reasoning 9/10

De Jure: Iterative LLM Self-Refinement for Structured Extraction of Regulatory Rules

Keerat Guliani, Deepkamal Gill, David Landsman et al.

De Jure提出了一种全自动的监管规则结构化抽取方法，无需人工标注，并能有效提升抽取质量。

2026-04-02 PDF

Agent Tuning & Optimization 9/10

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Zhengxi Lu, Zhiyuan Yao, Jinyang Wu et al.

SKILL0框架通过在训练时逐步移除技能上下文，实现LLM智能体技能的参数化内化，提升零样本自主能力。

2026-04-02 PDF

Multimodal Learning 9/10

Modular Energy Steering for Safe Text-to-Image Generation with Foundation Models

Yaoteng Tan, Zikui Cai, M. Salman Asif

提出一种利用冻结的预训练模型进行安全文本到图像生成的推理时能量引导框架。

2026-04-02 PDF

AI Agents 7/10

Model-Based Reinforcement Learning for Control under Time-Varying Dynamics

Klemens Iten, Bruce Lee, Chenhao Li et al.

研究时变动态系统下的强化学习控制问题，提出一种基于模型的自适应数据缓存算法。

2026-04-02 PDF

LLM Memory & RAG 8/10

Retrieval-Augmented Question Answering over Scientific Literature for the Electron-Ion Collider

Tina. J. Jat, T. Ghosh, Karthik Suresh

该论文构建了一个基于本地LLaMA模型的Electron-Ion Collider (EIC) 领域RAG问答系统。

2026-04-02 PDF

AI Agents 6/10

Best-Arm Identification with Noisy Actuation

Merve Karakas, Osama Hanna, Lin F. Yang et al.

研究在有噪声信道下，如何通过通信策略在多臂老虎机问题中识别最佳臂。

2026-04-02 PDF

Multimodal Learning 8/10

SPAR: Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation

Naomi Kombol, Ivan Martinović, Siniša Šegvić et al.

SPAR提出了一种单次Any-Resolution ViT，通过知识蒸馏实现高效的高分辨率开放词汇分割。

2026-04-02 PDF

分类浏览

LLM Memory & RAG

170 篇论文

AI Agents

794 篇论文

LLM Reasoning

586 篇论文

Multimodal Learning

914 篇论文

Agent Tuning & Optimization

253 篇论文