Multimodal Learning - Paper Tracker

7/10

生成式渲染逆渲染数据集

Generative World Renderer

Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan et al.

提出了一个大规模高质量游戏数据集用于训练生成式渲染模型，并提出了VLM评估方法。

大规模动态G-buffer数据集
VLM评估协议

2026-04-02

PDF arXiv

9/10

3D Anomaly Detection Multimodal Learning Cross-View Learning

Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection

Alex Costanzino, Pierluigi Zama Ramirez, Giuseppe Lisanti et al.

ModMap通过跨模态特征映射和跨视角调制，在3D异常检测中取得了领先性能。

提出了ModMap框架，用于多视角多模态3D异常检测
引入了跨模态和跨视角的特征映射学习机制

2026-04-02

PDF arXiv

9/10

可控视觉表征视觉语言模型早期融合

Steerable Visual Representations

Jona Ruthardt, Manu Gaur, Deva Ramanan et al.

提出可控视觉表征，通过早期融合文本信息到视觉编码器中，实现对图像特征的精细控制。

提出可控视觉表征
提出早期融合文本和视觉信息的框架

2026-04-02

PDF arXiv

9/10

streaming video understanding VLM sliding window

A Simple Baseline for Streaming Video Understanding

Yujiao Shen, Shulin Tian, Jingkang Yang et al.

提出SimpleStream基线，仅用滑动窗口即可媲美复杂流视频理解模型，揭示感知-记忆权衡。

提出了一个简单的滑动窗口基线SimpleStream
验证了SimpleStream在流视频理解任务上的有效性

2026-04-02

PDF arXiv

8/10

视频对象移除因果推理视频扩散模型

VOID: Video Object and Interaction Deletion

Saman Motamed, William Harvey, Benjamin Klein et al.

提出VOID框架，利用因果推理和视频扩散模型实现物理上合理的视频对象移除。

提出了VOID视频对象移除框架
利用Kubric和HUMOTO生成了新的配对数据集

2026-04-02

PDF arXiv

9/10

3D生成多模态学习文本到3D

Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

Chongjie Ye, Cheng Cao, Chuanyu Pan et al.

Omni123通过统一文本到2D和3D生成，利用2D数据提升3D建模效果。

提出3D-native的文本到2D/3D统一生成模型Omni123
引入图像和3D之间的跨模态一致性作为结构约束

2026-04-02

PDF arXiv

9/10

文本到图像生成安全生成能量模型

Modular Energy Steering for Safe Text-to-Image Generation with Foundation Models

Yaoteng Tan, Zikui Cai, M. Salman Asif

提出一种利用冻结的预训练模型进行安全文本到图像生成的推理时能量引导框架。

提出基于能量的文本到图像安全生成框架
利用视觉语言基础模型作为安全监督信号

2026-04-02

PDF arXiv

8/10

Vision Transformer Open-vocabulary Segmentation Knowledge Distillation

SPAR: Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation

Naomi Kombol, Ivan Martinović, Siniša Šegvić et al.

SPAR提出了一种单次Any-Resolution ViT，通过知识蒸馏实现高效的高分辨率开放词汇分割。

提出了SPAR，一种resolution-agnostic的ViT
使用知识蒸馏将sliding-window teacher的空间推理能力传递给single-pass student

2026-04-02

PDF arXiv

9/10

无人机视觉-语言-动作目标跟踪

UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models

Qiyao Zhang, Shuhua Zheng, Jianli Sun et al.

提出UAV-Track VLA模型，用于提升无人机在复杂场景下的视觉-语言-动作跟踪能力。

构建大规模无人机视觉-语言-动作跟踪数据集和评估基准
提出UAV-Track VLA模型，引入时间压缩网络和空间感知双分支解码器

2026-04-02

PDF arXiv

9/10

多模态学习对话式AI 认知负荷理论

Impact of Multimodal and Conversational AI on Learning Outcomes and Experience

Karan Taneja, Anjali Singh, Ashok K. Goel

研究了多模态和对话式AI对视觉密集型STEM领域学习效果的影响。

比较了三种学习生物学的方法：MuDoC, TexDoC, DocSearch
发现MuDoC组学习效果最好，TexDoC组体验最好但效果最差

2026-04-02

PDF arXiv

8/10

自动驾驶多传感器融合图注意力网络

LEO: Graph Attention Network based Hybrid Multi Sensor Extended Object Fusion and Tracking for Autonomous Driving Applications

Mayank Mayank, Bharanidhar Duraisamy, Florian Geiss

LEO利用图注意力网络融合多传感器数据，实现动态目标的形状和轨迹估计。

提出LEO：一个基于图注意力网络的时空模型，用于扩展对象的感知。
融合多模态传感器数据，学习自适应融合权重，提升感知精度。

2026-04-02

PDF arXiv

9/10

自动驾驶视觉语言模型多模态学习

UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

Yongkang Li, Lijun Zhou, Sixu Yan et al.

UniDriveVLA通过专家解耦解决自动驾驶中感知和推理的冲突，实现统一的视觉-语言-动作模型。

提出UniDriveVLA模型，解耦感知和推理。
结合稀疏感知和三阶段训练提升空间感知。

2026-04-02

PDF arXiv

9/10

多模态推荐机器学习遗忘数据隐私

TRU: Targeted Reverse Update for Efficient Multimodal Recommendation Unlearning

Zhanting Zhou, KaHou Tam, Ziqiang Zheng et al.

针对多模态推荐系统中数据难删除问题，提出TRU框架，实现有针对性的逆向更新，提升遗忘效果。

发现多模态推荐系统删除数据的影响是不均匀分布的。
提出targeted reverse update (TRU) 框架，包含 ranking fusion gate、branch-wise modality scaling 和 capacity-aware layer isolation 三个模块。

2026-04-02

PDF arXiv

8/10

机器人视觉触觉

Cross-Modal Visuo-Tactile Object Perception

Anirvan Dutta, Simone Tasciotti, Claudia Cusseddu et al.

提出了Cross-Modal Latent Filter (CMLF)模型，用于机器人视觉-触觉融合的物理属性估计。

提出CMLF模型，用于视觉-触觉融合
支持视觉和触觉之间的双向先验传递

2026-04-02

PDF arXiv

6/10

在线手写体生成风格化 Transformer

CASHG: Context-Aware Stylized Online Handwriting Generation

Jinsu Shin, Sungeun Hong, Jin Yeong Bak

CASHG通过显式建模字符间连接，生成风格一致的在线手写体句子。

提出CASHG，一种上下文感知的在线手写体生成器
引入字符连接性和间距度量(CSM)评估方法

2026-04-02

PDF arXiv

9/10

多模态学习统一模型跨模态推理

LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

Jiachun Jin, Zetong Zhou, Xiao Yang et al.

LatentUM通过共享潜在空间统一多模态表征，实现高效且无偏的跨模态推理和生成。

提出了LatentUM，一种新型统一模型。
消除了视觉理解和生成之间像素空间的依赖。

2026-04-02

PDF arXiv

9/10

视频时序定位多模态学习大语言模型

GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding

Rong Fan, Kaiyan Xiao, Minghao Zhu et al.

GroundVTS通过查询引导的视觉Token采样，提升视频大语言模型在时序定位任务上的性能。

提出 GroundVTS 架构，优化视频信息提取
引入细粒度查询引导的视觉 Token 过滤机制

2026-04-02

PDF arXiv

9/10

多模态学习通用多模态嵌入隐变量推理

PLUME: Latent Reasoning Based Universal Multimodal Embedding

Chenwei He, Xiangzhao Hao, Tianyu Yang et al.

PLUME提出一种基于隐变量推理的通用多模态嵌入框架，提升推理效率。

提出PLUME框架，用隐变量推理替代显式CoT。
引入语义锚点引导的过渡适配器，实现多样化的推理轨迹。

2026-04-02

PDF arXiv

9/10

Human-Object Interaction Detection Vision-Language Models Context Mining

Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection

Soo Won Seo, KyungChae Lee, Hyungchan Cho et al.

提出InCoM-Net，结合视觉语言模型和目标检测器，提升人-物交互检测性能。

提出Instance-centric Context Mining Network (InCoM-Net)
设计Instance-centric Context Refinement (ICR) 模块

2026-04-02

PDF arXiv

9/10

多模态学习模态缺失代理令牌

COMPASS: Complete Multimodal Fusion via Proxy Tokens and Shared Spaces for Ubiquitous Sensing

Hao Wang, Yanyu Qian, Pengcheng Weng et al.

COMPASS提出了一种基于代理令牌和共享空间的多模态融合框架，有效解决了模态缺失问题。

提出了一种基于代理令牌的模态缺失融合框架COMPASS
使用pairwise源到目标的生成器在共享潜在空间中合成代理令牌

2026-04-02

PDF arXiv

9/10

多模态学习视觉语言模型日语

Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models

Issa Sugiura, Keito Sasagawa, Keisuke Nakao et al.

提出了Jagle，一个大规模日语多模态后训练数据集，用于提升VLM在日语任务上的性能。

构建了迄今为止最大的日语多模态后训练数据集Jagle
提出了异构数据源的VQA pair生成方法，包括VLM生成、翻译和文本渲染

2026-04-02

PDF arXiv

6/10

Diffusion Models Discrete Data Generative Models

Why Gaussian Diffusion Models Fail on Discrete Data?

Alexander Shabalin, Simon Elistratov, Viacheslav Meshchaninov et al.

研究高斯扩散模型在离散数据生成上失效的原因，并提出了缓解方法。

发现了DDPM在离散数据上采样的关键问题：噪声数据密度多峰
提出了q-sampling方法缓解该问题

2026-04-02

PDF arXiv

9/10

VLM Multimodal Learning UAV

Are VLMs Lost Between Sky and Space? LinkS$^2$Bench for UAV-Satellite Dynamic Cross-View Spatial Intelligence

Dian Liu, Jie Feng, Di Li et al.

提出了LinkS$^2$Bench，用于评估VLM在无人机-卫星动态跨视角空间智能方面的能力。

构建了首个无人机-卫星动态跨视角空间智能基准测试集LinkS$^2$Bench
设计了Cross-View Alignment Adapter提升模型性能

2026-04-02

PDF arXiv

9/10

MLLM Visual Attention Cognitive Hallucination

Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation

Boyang Gong, Yu Zheng, Fanye Kong et al.

MLLM视觉注意力具有惯性，阻碍认知推理，提出IVE方法打破惯性并提升认知能力。

发现MLLM视觉注意力的惯性问题
提出Inertia-aware Visual Excitation (IVE)方法

2026-04-02

PDF arXiv

9/10

放射影像 Foundation Model 自监督学习

Curia-2: Scaling Self-Supervised Learning for Radiology Foundation Models

Antoine Saporta, Baptiste Callard, Corentin Dancette et al.

Curia-2通过优化预训练策略和扩展模型规模，显著提升了放射影像Foundation Models的性能。

改进了放射影像的预训练策略
构建了更大规模的多模态CT/MRI FM

2026-04-02

PDF arXiv

9/10

VQA Multimodal Learning Egocentric Video

Ego-Grounding for Personalized Question-Answering in Egocentric Videos

Junbin Xiao, Shenglang Zhang, Pengxiang Zhu et al.

论文提出了MyEgo数据集，用于评估MLLM在理解和推理第一人称视角视频中自我相关信息的能力。

提出了MyEgo数据集，用于评估MLLM的自我认知能力
分析了现有MLLM在个性化VQA任务上的表现

2026-04-02

PDF arXiv

7/10

医学图像分割深度学习 nnU-Net

Automated Prostate Gland Segmentation in MRI Using nnU-Net

Pablo Rodriguez-Belenguer, Gloria Ribas, Javier Aquerreta Escribano et al.

使用nnU-Net自动分割MRI前列腺，实现高精度和泛化性，优于通用分割方法。

提出了一种基于nnU-Net v2的MRI前列腺自动分割方法
利用多模态mpMRI数据提高了分割精度

2026-04-02

PDF arXiv

9/10

图像描述幼儿教育多模态学习

Captioning Daily Activity Images in Early Childhood Education: Benchmark and Algorithm

Sixing Li, Zhibin Gu, Ziqi Zhang et al.

提出了一个针对幼儿教育图像描述的大规模数据集和混合训练框架，提升了专业对象描述的准确性。

构建了大规模幼儿教育图像描述数据集ECAC
提出了混合训练框架RSRS，动态切换RL和监督优化

2026-04-02

PDF arXiv

8/10

多模态学习自然语言处理医疗健康

Is Clinical Text Enough? A Multimodal Study on Mortality Prediction in Heart Failure Patients

Oumaima El Khettari, Virgile Barthet, Guillaume Hocquet et al.

研究了多模态Transformer在心衰患者短期死亡率预测中的应用，并对比了LLM的效果。

评估了text-only, structured-only, multimodal, LLM等多种方法在心衰死亡率预测中的性能
证明了实体级别的文本表示增强了CLS嵌入的预测效果

2026-04-02

PDF arXiv

9/10

多模态情感识别上下文推理不确定性建模

SURE: Synergistic Uncertainty-aware Reasoning for Multimodal Emotion Recognition in Conversations

Yiqiang Cai, Chengyan Wu, Bolei Ma et al.

SURE模型通过协同不确定性感知推理，提升对话场景下多模态情感识别的鲁棒性和上下文建模能力。

提出不确定性感知的专家混合模块
设计迭代推理模块进行多轮上下文推理

2026-04-02

PDF arXiv

9/10

医学图像视觉定位视觉语言模型

Enhancing Medical Visual Grounding via Knowledge-guided Spatial Prompts

Yifan Gao, Tao Zhou, Yi Zhou et al.

论文提出KnowMVG框架，通过知识引导的空间提示增强医学图像视觉定位的精确性。

提出知识增强提示策略，编码短语相关的医学知识
提出全局-局部注意力机制，融合粗粒度全局信息和细粒度局部线索

2026-04-02

PDF arXiv

8/10

3D场景理解无监督学习数据增强

Lifting Unlabeled Internet-level Data for 3D Scene Understanding

Yixin Chen, Yaowei Zhang, Huangyue Yu et al.

利用网络视频自动生成3D场景理解训练数据，提升模型性能。

提出了利用无标签网络视频自动生成3D场景训练数据的方法
分析了数据自动生成中的瓶颈并揭示关键因素

2026-04-02

PDF arXiv

9/10

遥感图像视觉定位视觉语言

ProVG: Progressive Visual Grounding via Language Decoupling for Remote Sensing Imagery

Ke Li, Ting Wang, Di Wang et al.

ProVG通过解耦语言表达式，动态调节视觉注意力，实现遥感图像视觉定位的精度提升。

提出了一种新的遥感视觉定位框架ProVG。
引入 progressive cross-modal modulator 实现 coarse-to-fine 的视觉语言对齐。

2026-04-02

PDF arXiv

9/10

VLM 几何变换空间推理

Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance

Jason Qiu, Zachary Meurer, Xavier Thomas et al.

VLM在几何变换下表现脆弱，缺乏鲁棒的空间不变性和等变性，空间推理能力不足。

揭示了VLM在几何变换下的脆弱性
系统评估了VLM在不同视觉领域（草图、照片、艺术）的表现

2026-04-02

PDF arXiv

9/10

多模态学习视觉语言模型强化学习

Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models

Zekai Ye, Qiming Li, Xiaocheng Feng et al.

提出了一种感知驱动的策略优化PGPO，提升LVLM在多模态推理任务中的性能，通过动态调整token级别的优势函数。

提出了Token Visual Dependency的概念，量化视觉输入的信息增益。
引入了感知驱动的策略优化PGPO，动态重塑token级别的优势函数。

2026-04-02

PDF arXiv

9/10

ultrasound image-text contrastive learning

Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding

Jiayun Jin, Haolong Chai, Xueying Huang et al.

提出了 Ultrasound-CLIP 模型，用于提升超声图像文本理解能力，并在相关任务上取得了SOTA。

构建了大规模超声图像文本数据集 US-365K
建立了超声诊断分类体系 UDT

2026-04-02

PDF arXiv

9/10

自动驾驶 Vision-Language-Action 因果推理

Causal Scene Narration with Runtime Safety Supervision for Vision-Language-Action Driving

Yun Li, Yidu Zhang, Simon Thompson et al.

提出Causal Scene Narration方法，通过因果场景叙述和运行时安全监督，提升自动驾驶VLA模型的性能。

提出Causal Scene Narration (CSN)方法
结合Simplex-based运行时安全监督

2026-04-02

PDF arXiv

9/10

多模态学习可视化 LLM

True (VIS) Lies: Analyzing How Generative AI Recognizes Intentionality, Rhetoric, and Misleadingness in Visualization Lies

Graziano Blasilli, Marco Angelini

研究多模态LLM识别可视化谎言的能力，并分析其潜在原因和意图。

构建可视化谎言和意图的分析框架
评估了16个先进的LLM在识别可视化谎言方面的能力

2026-04-01

PDF arXiv

9/10

ROS 2 Florence-2 Vision-Language Model

A ROS 2 Wrapper for Florence-2: Multi-Mode Local Vision-Language Inference for Robotic Systems

J. E. Domínguez-Vidal

开发了Florence-2模型的ROS 2封装，支持多种交互模式，方便机器人系统集成视觉-语言模型。

提供 Florence-2 模型的 ROS 2 封装
支持连续、同步和异步三种交互模式

2026-04-01

PDF arXiv

7/10

洪水风险评估街景图像机器学习

Property-Level Flood Risk Assessment Using AI-Enabled Street-View Lowest Floor Elevation Extraction and ML Imputation Across Texas

Xiangpeng Li, Yu-Hsuan Ho, Sam D Brody et al.

利用AI分析街景图像进行房产级洪水风险评估，并提出可行性方法。

提出基于街景图像的 LFE 提取和 ML 插补的洪水风险评估框架
构建了一个在德克萨斯州 18 个区域应用的三阶段流程

2026-04-01

PDF arXiv

9/10

单目深度估计 CLIP 混合适配器

Lightweight Prompt-Guided CLIP Adaptation for Monocular Depth Estimation

Reyhaneh Ahani Manghotay, Jie Liang

MoA-DepthCLIP利用轻量级混合适配器和选择性微调，高效地将CLIP知识迁移到单目深度估计任务。

提出了轻量级混合适配器(MoA)模块
结合深度bin分类和直接回归的混合预测架构

2026-04-01

PDF arXiv

7/10

3D Occupancy Prediction Out-of-Distribution Detection Prototype Learning

ProOOD: Prototype-Guided Out-of-Distribution 3D Occupancy Prediction

Yuheng Zhang, Mengfei Duan, Kunyu Peng et al.

ProOOD通过原型引导，提升3D语义占据预测的OOD检测能力，尤其针对长尾类数据。

提出ProOOD方法，融合原型引导的语义补全与尾部挖掘。
提出EchoOOD，结合logit一致性与原型匹配产生可靠的OOD评分。

2026-04-01

PDF arXiv

10/10

对抗攻击鲁棒性视觉-语言模型

PDA: Text-Augmented Defense Framework for Robust Vision-Language Models against Adversarial Image Attacks

Jingning Xu, Haochen Luo, Chen Liu

PDA框架通过文本增强提升视觉-语言模型在对抗图像攻击下的鲁棒性，无需训练。

提出PDA框架，提升VLM的鲁棒性
利用文本增强（prompt paraphrasing, question decomposition, consistency aggregation）

2026-04-01

PDF arXiv

9/10

MLLM 长视频理解关键帧采样

Query-Conditioned Evidential Keyframe Sampling for MLLM-Based Long-Form Video Understanding

Yiheng Wang, Lichen Zhu, Yueqian Lin et al.

提出了一种基于信息瓶颈理论的查询条件式证据关键帧采样方法，提升MLLM在长视频理解任务上的性能。

提出了基于信息瓶颈理论的关键帧采样框架
设计了查询条件式证据评分网络

2026-04-01

PDF arXiv

9/10

YouTube Shorts Israel-Hamas War Multimodal Analysis

Multimodal Analysis of State-Funded News Coverage of the Israel-Hamas War on YouTube Shorts

Daniel Miehling, Sandra Kuebler

分析YouTube Shorts上国家资助媒体对以哈冲突的多模态报道，揭示情绪和视觉线索。

提出一个结合自动转录、情感分析和场景分类的多模态分析流程
分析了2300个与冲突相关的Shorts和94000多个视觉帧

2026-04-01

PDF arXiv

9/10

LVLM hallucination context integration

ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration

Bei Yan, Yuecong Min, Jie Zhang et al.

ACT通过自适应上下文整合，有效减少LVLM的幻觉问题，提升视觉-语言对齐效果。

提出视觉上下文探索，自适应增强视觉探索的注意力头
提出语义上下文聚合，有效聚合视觉证据，解决信息损失问题

2026-04-01

PDF arXiv

9/10

农作物产量预测多模态数据深度学习

YieldSAT: A Multimodal Benchmark Dataset for High-Resolution Crop Yield Prediction

Miro Miranda, Deepak Pathak, Patrick Helber et al.

YieldSAT数据集发布，用于高分辨率农作物产量预测，包含多模态数据和深度学习模型。

发布了大规模、高质量的农作物产量预测数据集YieldSAT
提出了基于深度学习的像素回归方法用于产量预测

2026-04-01

PDF arXiv

7/10

舞蹈检索动作捕捉时间序列分析

Learning Quantised Structure-Preserving Motion Representations for Dance Fingerprinting

Arina Kharlamova, Bowei He, Chen Ma et al.

DANCEMATCH提出了一种端到端舞蹈检索框架，通过量化运动表示实现高效舞蹈指纹识别。

提出了DANCEMATCH框架，用于运动驱动的舞蹈检索。
引入Skeleton Motion Quantisation (SMQ) 和 Spatio-Temporal Transformers (STT) 编码人体姿势。

2026-04-01

PDF arXiv

9/10

视觉语言模型跨图示对齐装配指令

Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

Zhuchenyang Liu, Yao Zhang, Yu Xiao

该论文系统评估了VLM在跨图示装配指令对齐任务中的表现，并分析了影响因素。

构建了IKEA-Bench基准数据集
评估了不同VLM在装配指令对齐任务上的性能

2026-04-01

PDF arXiv

9/10

Spatial Augmented Reality Vision Language Model Segmentation

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Zimo Cao, Yuchen Deng, Haibin Ling et al.

ProCap通过解耦物理场景和投影内容，提升空间增强现实中视觉语言模型理解能力，并提出RGBP数据集。

提出ProCap框架，解耦物理场景和投影内容
构建RGBP数据集，包含SAR场景的密集标注

2026-04-01

PDF arXiv

10/10

VLM Multimodal Japanese

JAMMEval: A Refined Collection of Japanese Benchmarks for Reliable VLM Evaluation

Issa Sugiura, Koki Maeda, Shuhei Kurita et al.

论文提出JAMMEval，一个经过精细化处理的日语VLM评测基准，提升评测可靠性。

构建高质量日语VQA评测基准JAMMEval
通过人工标注改进数据质量和评测可靠性

2026-04-01

PDF arXiv

9/10

VLM Vision Transformer 模型压缩

PixelPrune: Pixel-Level Adaptive Visual Token Reduction via Predictive Coding

Nan Wang, Zhiwei Jin, Chen Chen et al.

PixelPrune通过预测编码压缩，在ViT编码器前剪枝冗余像素块，加速VLM推理和训练。

提出PixelPrune，一种基于预测编码的像素级自适应视觉token剪枝方法
PixelPrune在ViT编码器之前操作，加速整个推理pipeline

2026-04-01

PDF arXiv

9/10

视觉语言模型知识蒸馏多模态学习

LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

Patrick Amadeus Irawan, Erland Hilman Fuadi, Shanu Kumar et al.

LinguDistill通过知识蒸馏恢复视觉语言模型在多模态适应中损失的语言能力，无需增加额外模块。

提出LinguDistill：一种adapter-free的知识蒸馏方法。
使用层级KV-cache共享，实现视觉条件下的教师模型监督。

2026-04-01

PDF arXiv

9/10

遥感视觉语言模型持续学习

Continual Vision-Language Learning for Remote Sensing: Benchmarking and Analysis

Xingxing Weng, Ruifeng Ni, Chao Pang et al.

提出CLeaRS基准，评估遥感视觉语言模型在持续学习中的灾难性遗忘问题，并分析现有方法的局限性。

提出了CLeaRS遥感持续视觉语言学习基准
定义了三种评估协议：长时程、模态增量和任务增量

2026-04-01

PDF arXiv

9/10

MLLM 空间推理一致性

Multimodal Language Models Cannot Spot Spatial Inconsistencies

Om Khangaonkar, Hadi J. Rad, Hamed Pirsiavash

多模态大语言模型在空间一致性推理上表现不佳，无法识别3D空间矛盾。

提出了一种评估MLLM空间一致性的新任务
创建了一个可扩展的数据集生成方法

2026-04-01

PDF arXiv

9/10

VLM Surgical Video Understanding Dataset Generation

An Approach to Enriching Surgical Video Datasets for Fine-Grained Spatial-Temporal Understanding of Vision-Language Models

Lennart Maack, Alexander Schlaefer

提出SurgSTU-Pipeline自动生成手术视频数据集，提升VLM对手术视频时空理解能力。

提出了SurgSTU-Pipeline，一个用于生成手术视频数据集的确定性流程
构建了包含15万个细粒度时空问答样本的SurgSTU数据集

2026-04-01

PDF arXiv

7/10

wearable HAR activity recognition natural language processing

ActivityNarrated: An Open-Ended Narrative Paradigm for Wearable Human Activity Understanding

Lala Shakti Swarup Ray, Mengxi Liu, Alcina Pinto et al.

提出了一种开放式可穿戴人体活动理解方法，通过自然语言描述对齐传感器数据。

提出了基于叙事的开放式人体活动理解框架
设计了自然的数据收集和标注流程

2026-04-01

PDF arXiv

9/10

视觉语言模型 token剪枝注意力机制

IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models

Dong-Jae Lee, Sunghyun Baek, Junmo Kim

提出一种基于注意力的视觉语言模型（LVLM）token剪枝方法，旨在提高效率，降低计算成本。

将token剪枝视为隐式权重剪枝
提出了基于信息量和信息冗余度的token选择指标

2026-04-01

PDF arXiv

6/10

OCR State-Space Models Mamba

A Benchmark of State-Space Models vs. Transformers and BiLSTM-based Models for Historical Newspaper OCR

Merveilles Agbeti-messan, Thierry Paquet, Clément Chatelain et al.

该论文提出了一种基于Mamba的OCR架构，并验证了其在效率和精度上优于Transformer和BiLSTM。

提出了首个基于SSM (Mamba) 的 OCR 架构
进行了大规模的 SSM、Transformer 和 BiLSTM OCR 性能基准测试

2026-04-01

PDF arXiv

9/10

测试时自适应强化学习视频理解

TTA-Vid: Generalized Test-Time Adaptation for Video Reasoning

Soumya Shamarao Jahagirdar, Edson Araujo, Anna Kukleva et al.

TTA-Vid利用测试时强化学习，无需标注数据即可使视频理解模型适应新领域。

提出TTA-Vid，一种测试时视频理解自适应方法
使用批量感知频率奖励作为伪标签更新模型

2026-04-01

PDF arXiv

9/10

Video-LLM Continual Learning Benchmark

CL-VISTA: Benchmarking Continual Learning in Video Large Language Models

Haiyang Guo, Yichen Shi, Fei Zhu et al.

CL-VISTA是为Video-LLM持续学习定制的基准，揭示了性能、效率和内存之间的权衡。

提出了CL-VISTA基准，用于评估Video-LLM的持续学习能力。
涵盖了8个多样化任务，有效暴露了灾难性遗忘问题。

2026-04-01

PDF arXiv

9/10

医学VQA 知识图谱 Mamba

KG-CMI: Knowledge graph enhanced cross-Mamba interaction for medical visual question answering

Xianyao Zheng, Hong Yu, Hui Cui et al.

提出KG-CMI框架，融合知识图谱和Mamba交互，提升医学VQA性能，并实现自由形式答案生成。

提出知识图谱增强的跨模态Mamba交互框架KG-CMI
设计细粒度跨模态特征对齐模块FCFA

2026-04-01

PDF arXiv

9/10

Social VR Harassment Detection Vision-Language Model

HarassGuard: Detecting Harassment Behaviors in Social Virtual Reality with Vision-Language Models

Junhee Lee, Minseok Kim, Hwanjo Heo et al.

HarassGuard利用视觉-语言模型检测社交VR中的骚扰行为，保护用户隐私。

构建了基于视觉的骚扰行为数据集
提出了基于VLM的骚扰行为检测系统HarassGuard

2026-04-01

PDF arXiv

9/10

多模态学习生存预测可解释性

Quantifying Cross-Modal Interactions in Multimodal Glioma Survival Prediction via InterSHAP: Evidence for Additive Signal Integration

Iain Swift, JingHua Ye, Ruairi O'Reilly

通过InterSHAP量化多模态融合中信号交互，发现性能提升源于互补信号聚合而非协同作用。

验证了多模态融合性能提升不一定源于跨模态协同作用
提出了基于InterSHAP的量化多模态交互的方法

2026-03-31

PDF arXiv

8/10

多模态学习深度学习脑胶质瘤

Trimodal Deep Learning for Glioma Survival Prediction: A Feasibility Study Integrating Histopathology, Gene Expression, and MRI

Iain Swift, JingHua Ye

研究使用三模态深度学习（病理、基因、MRI）预测脑胶质瘤患者生存期，初步验证了MRI的潜在价值。

探索MRI在脑胶质瘤生存预测中的作用
提出融合病理、基因表达和MRI的三模态深度学习框架

2026-03-31

PDF arXiv

7/10

图神经网络多模态学习脑连接

Learning Structural-Functional Brain Representations through Multi-Scale Adaptive Graph Attention for Cognitive Insight

Badhan Mazumder, Sir-Lord Wiafe, Aline Kotoski et al.

提出MAGNet，利用多尺度自适应图注意力网络融合结构和功能脑连接，提升认知功能预测。

提出MAGNet框架，融合结构和功能脑连接
利用Transformer-style图神经网络学习结构-功能交互

2026-03-31

PDF arXiv

8/10

手术视频理解预训练自监督学习

Scaling Video Pretraining for Surgical Foundation Models

Sicheng Lu, Zikai Xiao, Jianhui Wei et al.

SurgRec提出了一个可扩展和可复现的手术视频预训练框架，提升了手术视频理解能力。

构建了大规模手术视频数据集
提出了统一的预训练流水线

2026-03-31

PDF arXiv

9/10

手术视频视觉问答多模态学习

SurgTEMP: Temporal-Aware Surgical Video Question Answering with Text-guided Visual Memory for Laparoscopic Cholecystectomy

Shi Li, Vinkle Srivastav, Nicolas Chanel et al.

SurgTEMP通过分层视觉记忆和SCP训练，提升了手术视频问答在时间语义理解和多任务评估上的性能。

提出了SurgTEMP框架，融合了查询引导的token选择和手术能力发展（SCP）训练。
构建了包含32K问答对和3,855个视频片段的CholeVidQA-32K数据集。

2026-03-31

PDF arXiv

9/10

长视频计数枚举

EC-Bench: Enumeration and Counting Benchmark for Ultra-Long Videos

Fumihiko Tsuchiya, Taiki Miyanishi, Mahiro Ukai et al.

EC-Bench：长视频计数基准，挑战现有MLLM在长时间序列推理上的能力。

提出了EC-Bench，一个长视频枚举和计数基准。
EC-Bench包含超过30分钟的长视频和相应的枚举证据。

2026-03-31

PDF arXiv

7/10

分割不确定性不确定性量化图像分割

Better than Average: Spatially-Aware Aggregation of Segmentation Uncertainty Improves Downstream Performance

Vanessa Emanuela Guarino, Claudia Winklmayr, Jannik Franzen et al.

该论文研究了分割不确定性聚合方法对下游任务的影响，并提出了空间感知的聚合策略。

分析了常用聚合策略的性质、局限性和陷阱
提出了新的空间不确定性结构聚合策略

2026-03-31

PDF arXiv

9/10

MLLM Agentic Tool Planning Interleaved Generation

ATP-Bench: Towards Agentic Tool Planning for MLLM Interleaved Generation

Yinuo Liu, Zi Qian, Heng Zhou et al.

提出了用于评估MLLM交错生成Agentic Tool Planning能力的ATP-Bench基准，揭示了模型在连贯规划和工具使用上的不足。

提出了ATP-Bench基准，包含7702个QA对，覆盖8个类别和25个视觉关键意图
提出了Multi-Agent MLLM-as-a-Judge (MAM)系统，用于评估工具调用精度

2026-03-31

PDF arXiv

9/10

多模态学习放射学报告摘要视觉注意力

Less Is More? Selective Visual Attention to High-Importance Regions for Multimodal Radiology Summarization

Mst. Fahmida Sultana Naznin, Adnan Ibney Faruq, Mushfiqur Rahman et al.

提出ViTAS模型，通过选择性关注病灶区域图像，显著提升了多模态放射学报告摘要的生成效果。

提出ViTAS模型，通过关注病灶区域而非全图提升性能
使用 MedSAM2 进行肺部分割，并结合 Shapley 值进行自适应补丁聚类

2026-03-31

PDF arXiv

9/10

VLA VLM 机器人控制

DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA

Yi Chen, Yuying Ge, Hui Zhou et al.

DIAL通过解耦意图和动作，利用潜在世界建模，提升VLA模型性能并减少数据依赖。

提出DIAL框架，解耦高层决策和底层动作。
利用VLM进行潜在世界建模，显式编码意图。

2026-03-31

PDF arXiv

9/10

Multimodal Machine Learning Cancer Metastasis Prediction Electronic Health Records

Multimodal Machine Learning for Early Prediction of Metastasis in a Swedish Multi-Cancer Cohort

Franco Rugolon, Korbinian Randl, Braslav Jovanovic et al.

该论文利用多模态机器学习预测四种癌症的转移风险，提升预测准确率。

提出了一个预测癌症转移风险的多模态机器学习框架
比较了传统和深度学习分类器在单模态和多模态组合上的表现

2026-03-31

PDF arXiv

7/10

边缘计算行为检测公共安全

From Skeletons to Semantics: Design and Deployment of a Hybrid Edge-Based Action Detection System for Public Safety

Ganen Sethupathy, Lalit Dumka, Jan Schagen

针对公共安全，提出一种结合骨骼动作分析和视觉-语言模型的混合边缘行为检测系统。

设计并部署混合边缘行为检测系统
比较骨骼动作分析和视觉-语言模型的性能

2026-03-31

PDF arXiv

9/10

视觉语言模型安全风险评估基准数据集

TSHA: A Benchmark for Visual Language Models in Trustworthy Safety Hazard Assessment Scenarios

Qiucheng Yu, Ruijie Xu, Mingang Chen et al.

论文提出了TSHA基准，用于评估视觉语言模型在可信安全风险评估中的能力，解决了现有基准的局限性。

构建了更真实的TSHA基准数据集，包含多种来源的数据
提出了更全面的安全评估任务和评估协议

2026-03-31

PDF arXiv

9/10

multimodal learning active learning benchmarking

Mind the Gap: A Framework for Assessing Pitfalls in Multimodal Active Learning

Dustin Eisenhardt, Yunhee Jeong, Florian Buettner

该论文提出了评估多模态主动学习陷阱的框架，揭示了现有方法在模态平衡上的不足。

提出了多模态主动学习的基准测试框架
分析了多模态主动学习中存在的模态不平衡问题

2026-03-31

PDF arXiv

10/10

LVLM Partial Information Decomposition Multimodal Fusion

A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models

Lixin Xiu, Xufang Luo, Hideki Nakayama

该论文利用信息分解方法分析LVLM的决策过程，揭示其多模态融合和单模态先验依赖。

提出了一种使用部分信息分解(PID)的新框架，用于量化评估LVLM的信息谱。
揭示了两种任务模式（协同驱动 vs. 知识驱动）和两种模型策略（融合中心 vs. 语言中心）。

2026-03-31

PDF arXiv

9/10

边缘计算跨模态检索视频理解

Storing Less, Finding More: How Novelty Filtering Improves Cross-Modal Retrieval on Edge Cameras

Sherif Abdelwahab

提出一种新型边缘相机跨模态检索架构，通过新颖性过滤提升检索性能。

提出基于epsilon-net的边缘设备新颖性过滤器
设计跨模态适配器和云端重排序器

2026-03-31

PDF arXiv

9/10

遥感图像-文本多模态学习

BigEarthNet.txt: A Large-Scale Multi-Sensor Image-Text Dataset and Benchmark for Earth Observation

Johann-Ludwig Herzog, Mathis Jürgen Adler, Leonard Hackel et al.

提出了大规模多传感器遥感图像-文本数据集BigEarthNet.txt，用于提升遥感领域视觉-语言模型性能。

构建了大规模多传感器遥感图像-文本数据集BigEarthNet.txt
数据集包含多种类型的文本标注，包括地理锚定的描述、视觉问答对和指代表达式检测指令

2026-03-31

PDF arXiv

8/10

量化知识蒸馏 LoRA

Quantization with Unified Adaptive Distillation to enable multi-LoRA based one-for-all Generative Vision Models on edge

Sowmya Vajrala, Aakash Parmar, Prasanna R et al.

提出QUAD框架，通过量化和知识蒸馏实现多LoRA共享模型在边缘设备上的高效部署。

提出QUAD量化感知训练策略
设计统一的LoRA权重处理框架，支持动态任务切换

2026-03-31

PDF arXiv

9/10

放射报告生成置信度校准强化学习

Calibrated Confidence Expression for Radiology Report Generation

David Bani-Harouni, Chantal Pellegrini, Julian Lüers et al.

ConRad通过强化学习微调医学LVLM，生成校准的置信度表达，提升放射报告生成的安全性。

提出 ConRad 框架，提升放射报告置信度校准
采用 GRPO 算法，基于对数评分规则训练模型

2026-03-31

PDF arXiv

9/10

多语言视觉语言 MLLM

M-MiniGPT4: Multilingual VLLM Alignment via Translated Data

Seung Hun Han, Youssef Mohamed, Mohamed Elhoseiny

M-MiniGPT4通过混合数据和多语言对齐训练，提升了多语言视觉语言理解能力，并在MMMU上取得了优秀表现。

提出M-MiniGPT4多语言视觉大语言模型
使用混合多语言数据提升VLU性能

2026-03-31

PDF arXiv

9/10

手写体识别少样本学习多模态学习

Few-shot Writer Adaptation via Multimodal In-Context Learning

Tom Simon, Stephane Nicolas, Pierrick Tranouez et al.

提出了一种基于多模态上下文学习的少样本手写体风格迁移方法，无需参数更新即可实现。

提出了一种上下文驱动的HTR框架
设计了一个紧凑的CNN-Transformer模型

2026-03-31

PDF arXiv

9/10

3D Question Answering Vision-Language Models Token Pruning

SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

Wenli Li, Kai Zhao, Haoran Jiang et al.

SeGPruner通过语义和几何引导的token修剪，提升3D问答的效率，并保持性能。

提出SeGPruner框架，用于3D QA中多视角图像的token缩减。
使用注意力机制的显著性token选择器，保留语义相关的token。

2026-03-31

PDF arXiv

9/10

视觉错觉视觉语言模型工具使用

Seeing the Evidence, Missing the Answer: Tool-Guided Vision-Language Models on Visual Illusions

Xuesong Wang, Harry Wang

提出了一种工具引导的推理框架，解决VLM在视觉错觉上的系统性偏差问题。

提出了一种基于图像操作工具的通用推理框架
该框架无需模型训练即可解决视觉错觉问题

2026-03-31

PDF arXiv

8/10

盲脸修复扩散模型属性控制

A2BFR: Attribute-Aware Blind Face Restoration

Chenxin Zhu, Yushun Fang, Lu Liu et al.

A$^2$BFR通过属性感知学习和语义双重训练，实现了高保真和可控的盲脸修复。

提出了A$^2$BFR框架，结合高保真重建和提示控制生成
引入属性感知学习，利用面部属性嵌入监督去噪潜在空间

2026-03-31

PDF arXiv

8/10

Multimodal PAD ID Documents

Multimodal Models Meet Presentation Attack Detection on ID Documents

Marina Villanueva, Juan M. Espin, Juan E. Tapia

研究多模态模型在身份证件PAD中的应用，但实验结果表明效果不佳。

探索多模态模型在身份验证PAD中的应用
使用预训练模型Paligemma, Llava, Qwen

2026-03-31

PDF arXiv

9/10

MLLM 对抗攻击视觉提示注入

Adversarial Prompt Injection Attack on Multimodal Large Language Models

Meiwen Ding, Song Xia, Chenqi Kong et al.

研究针对多模态大语言模型（MLLM）的不可察觉视觉提示注入攻击，提升攻击的有效性和隐蔽性。

提出了一种基于对抗性提示的视觉注入攻击方法。
设计了一种自适应嵌入恶意提示到图像中的方法，通过有界文本叠加实现语义引导。

2026-03-31

PDF arXiv

9/10

对抗鲁棒性视觉-语言模型零样本学习

AGFT: Alignment-Guided Fine-Tuning for Zero-Shot Adversarial Robustness of Vision-Language Models

Yubo Cui, Xianchao Guan, Zijun Xiong et al.

AGFT通过对齐视觉特征和文本嵌入，提升视觉-语言模型在零样本对抗攻击下的鲁棒性。

提出了对齐引导的微调框架(AGFT)
利用软对齐分布进行文本引导的对抗训练

2026-03-31

PDF arXiv

5/10

时空预测量子计算三维云场

Hybrid Quantum-Classical Spatiotemporal Forecasting for 3D Cloud Fields

Fu Wang, Qifeng Lu, Xinyu Long et al.

提出QENO，一种混合量子-经典时空预测框架，用于三维云场预测，效果优于现有模型。

提出QENO框架，融合量子计算和经典方法
引入拓扑感知量子增强模块，建模非局部耦合

2026-03-31

PDF arXiv

9/10

幻觉消除多模态大模型中间表示

Hallucination-aware intermediate representation edit in large vision-language models

Wei Suo, Hanzu Zhang, Lijun Zhang et al.

提出一种幻觉感知的中间表示编辑框架，有效且高效地消除多模态大模型的幻觉问题。

提出幻觉感知的中间表示检测和编辑框架
在现有benchmark上取得SOTA性能

2026-03-31

PDF arXiv

9/10

多模态学习表征学习医学图像

Assessing Multimodal Chronic Wound Embeddings with Expert Triplet Agreement

Fabian Kabus, Julia Hindel, Jelena Bratulić et al.

论文提出TriDerm框架，利用专家知识评估多模态慢性伤口嵌入，提升RDEB疾病相似病例检索效果。

提出TriDerm框架，融合图像、掩码和专家报告学习伤口表示
利用专家三元组判断评估嵌入空间，快速收集临床相似性知识

2026-03-31

PDF arXiv

9/10

Diffusion Transformer Text-to-Image 生成模型

On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

Omer Dahary, Benaya Koren, Daniel Garibi et al.

提出一种新颖的上下文空间排斥方法，用于提升Diffusion Transformer的图像生成多样性，同时保持图像质量和语义一致性。

提出在Contextual Space中进行排斥的新框架
实现生成多样性与视觉保真度之间的平衡

2026-03-30

PDF arXiv

8/10

芯片布局视觉语言模型进化算法

See it to Place it: Evolving Macro Placements with Vision-Language Models

Ikechukwu Uchendu, Swati Goel, Karly Hou et al.

提出VeoPlace，利用视觉语言模型指导芯片布局，显著提升芯片设计性能。

提出VeoPlace框架，利用VLM指导芯片布局
无需微调VLM即可实现性能提升

2026-03-30

PDF arXiv

9/10

机器人学习强化学习视频语言模型

SOLE-R1: Video-Language Reasoning as the Sole Reward for On-Robot Reinforcement Learning

Philip Schroeder, Thomas Weng, Karl Schmeckpeper et al.

SOLE-R1利用视频语言模型进行机器人强化学习，无需人工奖励。

提出SOLE-R1模型，作为机器人强化学习的唯一奖励信号。
开发大规模视频轨迹和推理合成流水线，生成时序对齐的CoT轨迹。

2026-03-30

PDF arXiv

9/10

MLLM Long Video Understanding Token Selection

AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding

Haozhe Qi, Kevin Qu, Mahdi Rad et al.

AdaptToken提出一种基于熵的自适应token选择框架，用于提升MLLM长视频理解能力。

提出基于模型不确定性的全局控制信号，用于长视频token选择。
提出AdaptToken框架，通过熵估计提示相关性，进行token预算分配。

2026-03-30

PDF arXiv

9/10

多模态学习强化学习推理

Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning

Ziqi Miao, Haonan Jia, Lijun Li et al.

PRCO通过双角色强化学习，解耦感知与推理优化，提升多模态推理性能。

提出了PRCO框架，解耦感知和推理的优化目标
设计了观察者和解决者双角色，分别负责提取证据和预测答案

2026-03-30

PDF arXiv

10/10

MLLM 多模态自适应分辨率

ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

Huanxuan Liao, Zhongtao Jiang, Yupu Hao et al.

ResAdapt通过自适应分辨率分配，提升了多模态大模型在低视觉预算下的推理效率。

提出ResAdapt框架，实现输入侧的自适应分辨率分配
使用Cost-Aware Policy Optimization (CAPO)训练分配器

2026-03-30

PDF arXiv

9/10

图像匿名化隐私保护扩散模型

Unsafe2Safe: Controllable Image Anonymization for Downstream Utility

Mih Dinh, SouYoung Jin

Unsafe2Safe提出了一种自动化的图像匿名化流程，保证隐私的同时维持图像效用。

提出了一种全自动的图像匿名化pipeline
设计了一个综合的匿名化质量评估标准

2026-03-30

PDF arXiv

9/10

图表问答 Agent 多模态学习

Navigating the Mirage: A Dual-Path Agentic Framework for Robust Misleading Chart Question Answering

Yanjie Zhang, Yafei Li, Rui Sheng et al.

ChartCynics框架通过双路径和Agent技术，显著提升了模型在欺骗性图表问答中的鲁棒性。

提出 ChartCynics 双路径Agent框架
设计诊断视觉路径和 OCR驱动数据路径

2026-03-30

PDF arXiv

10/10

对抗攻击视觉语言模型鲁棒性

XSPA: Crafting Imperceptible X-Shaped Sparse Adversarial Perturbations for Transferable Attacks on VLMs

Chengyin Hu, Jiaju Han, Xuemeng Sun et al.

提出一种X形稀疏像素攻击（XSPA），用于评估视觉语言模型在跨任务上的鲁棒性。

提出了一种新型的稀疏、结构化的对抗攻击方法XSPA。
证明了即使是高度稀疏和视觉上难以察觉的扰动也能显著破坏VLMs的跨任务语义。

2026-03-30

PDF arXiv

9/10

Vision-Language-Action Streaming Action Flow Matching

StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation

Yiran Shi, Dongqi Guo, Tianchen Zhao et al.

提出StreamingVLA模型，通过并行VLA阶段，减少延迟和执行停顿，提高效率。

提出动作流匹配，消除对动作分块的依赖。
设计自适应观察机制，并行执行和观察阶段。

2026-03-30

PDF arXiv

9/10

领域泛化视觉语言模型 Prompt学习

Domain-Invariant Prompt Learning for Vision-Language Models

Arsham Gholamzadeh Khoee, Yinan Yu, Robert Feldt

DiCoOp通过对抗训练扩展CoOp，学习领域不变的视觉语言模型Prompt，提升领域泛化能力。

提出Domain-invariant Context Optimization (DiCoOp)
使用对抗训练学习领域不变的prompt

2026-03-30

PDF arXiv

9/10

视觉-语言模型文档检索生成

Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model

Athos Georgiou

Hydra将文档检索和生成统一到单个视觉-语言模型中，降低了内存和复杂度。

提出了Hydra双头架构，实现检索和生成统一
通过LoRA适配器实现检索功能切换，不影响生成质量

2026-03-30

PDF arXiv

9/10

Multimodal Learning Chemical Structure Recognition Markush Structure

MarkushGrapher-2: End-to-end Multimodal Recognition of Chemical Structures

Tim Strohmeyer, Lucas Morin, Gerhard Ingmar Meijer et al.

提出MarkushGrapher-2，用于端到端多模态识别化学结构，性能优于现有方法。

提出MarkushGrapher-2端到端多模态识别方法
构建大规模Markush结构数据集

2026-03-30

PDF arXiv

9/10

AIGC检测 MLLM 模糊决策树

Generalizable Detection of AI Generated Images with Large Models and Fuzzy Decision Tree

Fei Wu, Guanghao Ding, Zijian Niu et al.

提出一种结合轻量级伪影检测器和MLLM的AI生成图像检测框架，提升检测精度和泛化性。

提出基于模糊决策树的融合框架
结合低级伪影和高级语义特征

2026-03-30

PDF arXiv

6/10

MRI CT 图像合成

MRI-to-CT synthesis using drifting models

Qing Lyu, Jianxu Wang, Jeremy Hudson et al.

提出一种基于漂移模型的MRI到CT合成方法，在骨盆CT图像合成上优于现有方法。

提出漂移模型用于MRI到CT合成
证明漂移模型在图像质量和效率上的优势

2026-03-30

PDF arXiv

8/10

SNN FPGA Neuromorphic Computing

AceleradorSNN: A Neuromorphic Cognitive System Integrating Spiking Neural Networks and DynamicImage Signal Processing on FPGA

Daniel Gutierrez, Ruben Martinez, Leyre Arnedo et al.

提出AceleradorSNN，一种基于SNN和动态ISP的FPGA加速的神经形态认知系统。

设计了基于SNN的神经形态处理单元（NPU）
设计了动态可重构的认知图像信号处理器（ISP）

2026-03-30

PDF arXiv

8/10

图像融合语义分割多模态学习

Unified Restoration-Perception Learning: Maritime Infrared-Visible Image Fusion and Segmentation

Weichao Cai, Weiliang Huang, Biao Xue et al.

提出用于海事场景红外-可见光图像融合和分割的统一复原-感知学习框架。

构建红外-可见光海事船舶数据集(IVMSD)
提出多任务互补学习框架(MCLF)

2026-03-30

PDF arXiv

7/10

Diffusion Transformer Edge Computing Hardware-Aware Optimization

EdgeDiT: Hardware-Aware Diffusion Transformers for Efficient On-Device Image Generation

Sravanth Kodavanti, Manjunath Arveti, Sowmya Vajrala et al.

EdgeDiT通过硬件感知优化，实现Diffusion Transformer在移动NPU上的高效图像生成。

提出硬件感知的EdgeDiT架构
针对移动NPU优化DiT

2026-03-30

PDF arXiv

9/10

VLM 多模态学习临床AI

The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation

Doan Nam Long Vu, Simone Balloccu

临床VLM评估中，提示词框架（scaffold effect）会导致虚假的多模态性能提升，而非真正的信息融合。

揭示了临床VLM评估中的“scaffold effect”现象
证明了提示词框架对VLM性能的显著影响，即使在没有实际多模态信息的情况下

2026-03-30

PDF arXiv

9/10

Membership Inference Attack Large Audio Language Models Multimodal Learning

Membership Inference Attacks against Large Audio Language Models

Jia-Kai Dong, Yu-Xiang Lin, Hung-Yi Lee

首次系统评估大型音频语言模型（LALM）的成员推断攻击（MIA），并提出了避免虚假相关性的评估方法。

揭示了音频数据中的分布偏移会导致LALM的虚假MIA性能。
提出了基于文本、频谱和韵律特征的多模态盲基线，用于评估分布偏移的影响。

2026-03-30

PDF arXiv

9/10

视频编辑多模态学习大语言模型

AutoCut: End-to-end advertisement video editing based on multimodal discretization and controllable generation

Milton Zhou, Sizhong Qin, Yongzhi Li et al.

AutoCut是一个端到端的广告视频编辑框架，通过多模态分词和可控生成提高效率和降低成本。

提出AutoCut端到端广告视频编辑框架
使用多模态分词构建共享视频-音频-文本空间

2026-03-30

PDF arXiv

9/10

草图视觉问答抽象

SEA: Evaluating Sketch Abstraction Efficiency via Element-level Commonsense Visual Question Answering

Jiho Park, Sieun Choi, Jaeyoon Seo et al.

提出SEA指标评估草图抽象效率，并构建了CommonSketch数据集。

提出SEA指标，评估草图抽象效率
构建了CommonSketch数据集，包含元素级别标注

2026-03-30

PDF arXiv

6/10

脑肿瘤分类 MRI图像集成学习

Optimized Weighted Voting System for Brain Tumor Classification Using MRI Images

Ha Anh Vu

论文提出一种加权集成学习方法，结合深度学习和传统机器学习模型，用于脑肿瘤MRI图像分类。

提出基于加权投票的集成学习框架
结合深度学习和传统机器学习方法

2026-03-30

PDF arXiv

9/10

驾驶视频生成视觉语言推理多视角学习

VistaGEN: Consistent Driving Video Generation with Fine-Grained Control Using Multiview Visual-Language Reasoning

Li-Heng Chen, Ke Cheng, Yahui Liu et al.

VistaGEN通过多视角视觉语言推理实现可控、一致的驾驶视频生成。

提出VistaGEN，实现细粒度控制的驾驶视频生成
引入多视角视觉语言推理，提升时空一致性

2026-03-30

PDF arXiv

9/10

多模态大语言模型残缺图像补全视觉生成模型

Integrating Multimodal Large Language Model Knowledge into Amodal Completion

Heecheol Yun, Eunho Yang

提出AmodalCG框架，利用多模态大语言模型指导残缺图像补全，提升了补全效果。

利用MLLM知识指导残缺图像补全
提出AmodalCG框架，融合MLLM推理和视觉生成模型

2026-03-30

PDF arXiv

9/10

Vision-Language-Action Robotics Paraphrase Robustness

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Chanyoung Kim, Minwoo Kim, Minseok Kang et al.

LIBERO-Para基准测试VLA模型在指令复述下的鲁棒性，发现性能显著下降，并提出PRIDE度量指标。

构建了LIBERO-Para基准测试，用于评估VLA模型在指令复述下的鲁棒性。
发现了VLA模型在指令复述下性能显著下降，尤其是在物体层面。

2026-03-30

PDF arXiv

5/10

自动驾驶语义分割多任务学习

TwinMixing: A Shuffle-Aware Feature Interaction Model for Multi-Task Segmentation

Minh-Khoi Do, Huy Che, Dinh-Duy Phan et al.

TwinMixing是一种轻量级多任务分割模型，专为自动驾驶环境下的车道线和可行驶区域分割设计。

提出了高效金字塔混合(EPM)模块，增强多尺度特征提取
设计了双分支上采样(DBU)块，实现精细且空间一致的特征重建

2026-03-30

PDF arXiv

9/10

CLIP Zero-shot Learning Interpretability

Explaining CLIP Zero-shot Predictions Through Concepts

Onat Ozdemir, Anders Christensen, Stephan Alaniz et al.

EZPC通过将CLIP的预测与人类可理解的概念对齐，实现了零样本图像识别的可解释性。

提出了EZPC模型，连接了CLIP和概念瓶颈模型。
通过对齐和重构目标学习概念空间映射。

2026-03-30

PDF arXiv

9/10

Multimodal Learning Electromagnetic Perception Foundation Model

PReD: An LLM-based Foundation Multimodal Model for Electromagnetic Perception, Recognition, and Decision

Zehua Han, Jing Xiao, Yiqi Duan et al.

PReD是首个电磁领域的多模态大模型，实现感知、识别、决策的智能闭环。

构建高质量多任务电磁数据集PReD-1.3M
提出电磁领域多模态基础模型PReD

2026-03-30

PDF arXiv

9/10

遥感图像-文本检索噪声对应自步学习

Robust Remote Sensing Image-Text Retrieval with Noisy Correspondence

Qiya Song, Yiqiang Xie, Yuan Sun et al.

针对遥感图像-文本检索中噪声对应问题，提出鲁棒检索框架RRSITR，提升模型在噪声环境下的性能。

提出鲁棒遥感图像-文本检索范式RRSITR
设计自步学习策略应对噪声对应问题

2026-03-30

PDF arXiv

8/10

智能合约漏洞检测图神经网络

ORACAL: A Robust and Explainable Multimodal Framework for Smart Contract Vulnerability Detection with Causal Graph Enrichment

Tran Duong Minh Dai, Triet Huynh Minh Le, M. Ali Babar et al.

ORACAL利用异构多模图学习和因果推理，提升智能合约漏洞检测的准确性和可解释性。

提出ORACAL框架，融合CFG、DFG和CG。
利用RAG和LLM增强图的关键子图。

2026-03-30

PDF arXiv

8/10

医学视觉定位强化学习课程学习

MedLoc-R1: Performance-Aware Curriculum Reward Scheduling for GRPO-Based Medical Visual Grounding

Guangjing Yang, Ziyuan Qin, Chaoran Zhang et al.

针对医学图像视觉定位中奖励稀疏问题，提出基于性能感知的课程奖励调度框架MedLoc-R1。

提出了基于性能感知的课程奖励调度框架MedLoc-R1。
引入滑动窗口性能追踪器和多条件更新规则，自动调整奖励策略。

2026-03-30

PDF arXiv

9/10

自动驾驶视觉语言模型强化学习

$AutoDrive\text{-}P^3$: Unified Chain of Perception-Prediction-Planning Thought via Reinforcement Fine-Tuning

Yuqi Ye, Zijian Zhang, Junhong Lin et al.

AutoDrive-P3通过强化微调整合感知、预测和规划链式推理，提升端到端自动驾驶性能。

提出AutoDrive-P3框架，整合感知、预测和规划
构建P3-CoT数据集，促进连贯推理

2026-03-30

PDF arXiv

7/10

文档分析数字化 OCR

Quid est VERITAS? A Modular Framework for Archival Document Analysis

Leonardo Bassanini, Ludovico Biancardi, Alfio Ferrara et al.

VERITAS框架将文档数字化重构为集成工作流，提升转录质量和下游应用。

提出VERITAS模块化框架，用于档案文档分析
实现了转录、版面分析和语义增强的集成

2026-03-30

PDF arXiv

9/10

自动驾驶视觉语言模型指令跟随

Vega: Learning to Drive with Natural Language Instructions

Sicheng Zuo, Yuxuan Li, Wenzhao Zheng et al.

提出了一种基于视觉-语言-世界-行动模型的自动驾驶方案，并构建了大规模指令驾驶数据集。

构建了包含多样指令的InstructScene数据集
提出了统一的视觉-语言-世界-行动模型Vega

2026-03-26

PDF arXiv

9/10

视频时序定位多模态学习对象中心学习

SlotVTG: Object-Centric Adapter for Generalizable Video Temporal Grounding

Jiwook Han, Geo Ahn, Youngrae Kim et al.

提出SlotVTG，通过轻量级slot adapter提升MLLM在视频时序定位任务中的泛化能力。

提出SlotVTG框架，利用slot attention进行对象中心视觉推理
引入objectness priors鼓励语义一致的slot形成

2026-03-26

PDF arXiv

8/10

视频生成长视频 KV-cache

PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

Xiaofeng Mao, Shaohao Rui, Kaining Ying et al.

PackForcing通过分层KV-cache策略，实现短视频训练到长视频生成的高效迁移。

提出三分区KV-cache策略
引入动态top-k上下文选择机制

2026-03-26

PDF arXiv

9/10

视觉语言模型组合性对比学习

No Hard Negatives Required: Concept Centric Learning Leads to Compositionality without Degrading Zero-shot Capabilities of Contrastive Models

Hai X. Pham, David T. Hoffmann, Ricardo Guerrero et al.

提出概念中心学习方法，提升对比视觉语言模型在组合性任务上的表现，同时保持零样本能力。

提出概念中心学习框架，解决视觉语言模型的组合性问题。
使用短概念中心标题部分对齐图像。

2026-03-26

PDF arXiv

9/10

多模态学习强化学习循环一致性

R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning

Zirui Zhang, Haoyu Dong, Kexin Pei et al.

提出R-C2框架，通过跨模态循环一致性增强多模态推理，提高模型理解能力。

提出R-C2框架，利用循环一致性进行多模态学习
引入无标签的循环一致性奖励信号

2026-03-26

PDF arXiv

8/10

视频世界模型记忆机制动态物体建模

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Kaijin Chen, Dingkang Liang, Xin Zhou et al.

针对视频世界模型中动态物体遮挡问题，提出混合记忆和新数据集，实现更好的动态物体建模。

提出混合记忆机制，区分静态背景和动态物体
构建HM-World数据集，用于评估混合记忆模型

2026-03-26

PDF arXiv

9/10

多模态幻觉视觉 grounding

Seeing to Ground: Visual Attention for Hallucination-Resilient MDLLMs

Vishal Narnaware, Animesh Gupta, Kevin Zhai et al.

论文提出VISAGE框架，通过校准目标函数，减少多模态大语言模型中的幻觉问题。

提出VISAGE框架，用于减少多模态幻觉
分析了多模态幻觉的根本原因：目标不匹配

2026-03-26

PDF arXiv

7/10

跨视角地理定位自回归模型空间推理

Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming

Yunus Talha Erzurumlu, Jiyong Kwag, Alper Yilmaz

提出一种基于自回归缩放的跨视角地理定位方法，无需对比学习，性能优于传统方法。

提出自回归缩放方法进行跨视角地理定位
提出新的更真实的跨视角地理定位基准

2026-03-26

PDF arXiv

9/10

结肠镜医疗影像多模态学习

Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

Abdullah Hamdi, Changchun Yang, Xin Gao

构建了大规模结肠镜视频数据集Colon-Bench，并评估了MLLM在该数据集上的性能。

构建了大规模、多类别、密集标注的结肠镜视频数据集Colon-Bench
提出了一个多阶段agentic workflow用于高效标注结肠镜视频

2026-03-26

PDF arXiv

9/10

多模态学习视觉推理潜在表征

LanteRn: Latent Visual Structured Reasoning

André G. Viveiros, Nuno Gonçalves, Matthias Lindemann et al.

LanteRn通过在LLM中引入紧凑的潜在视觉表征，提升了多模态推理中细粒度的视觉理解能力。

提出了 LanteRn 框架，允许 LMM 在潜在空间中进行视觉推理
使用监督微调和强化学习训练模型，对齐视觉特征和任务效用

2026-03-26

PDF arXiv

9/10

MLLM 人脸验证公平性

Demographic Fairness in Multimodal LLMs: A Benchmark of Gender and Ethnicity Bias in Face Verification

Ünsal Öztürk, Hatef Otroshi Shahreza, Sébastien Marcel

研究了MLLM在人脸验证任务中的性别和种族偏见，并进行了基准测试。

评估了多个开源MLLM在人脸验证任务中的公平性。
揭示了MLLM在不同人口群体中的偏见模式。

2026-03-26

PDF arXiv

9/10

多模态学习层级学习生物分类

Hierarchy-Guided Multimodal Representation Learning for Taxonomic Inference

Sk Miraj Ahmed, Xi Yu, Yunqi Li et al.

提出层级引导的多模态表示学习方法，用于解决生物分类推断问题，提升分类准确率。

提出Hierarchical Information Regularization (HiR)进行层级信息编码
设计CLiBD-HiR和CLiBD-HiR-Fuse两种变体

2026-03-26

PDF arXiv

9/10

遥感多模态学习高度感知

GeoHeight-Bench: Towards Height-Aware Multimodal Reasoning in Remote Sensing

Xuran Hu, Zhitong Xiong, Zhongcheng Hong et al.

提出了针对遥感图像高度感知能力的多模态大模型评估框架与基线模型。

构建了用于相对高度分析的GeoHeight-Bench基准。
构建了更具挑战性的地形感知推理GeoHeight-Bench+基准。

2026-03-26

PDF arXiv

9/10

多模态图像融合眼科手术实时场景理解

Towards Comprehensive Real-Time Scene Understanding in Ophthalmic Surgery through Multimodal Image Fusion

Nikolo Rohrmoser, Ghazal Ghazaei, Michael Sommersperger et al.

该论文提出了一种多模态图像融合方法，用于眼科手术中的实时场景理解，提高了手术器械跟踪精度。

提出了一种多模态、时序、实时的网络架构
引入交叉注意力融合模块融合OPMI和iOCT图像特征

2026-03-26

PDF arXiv

8/10

microservice incident management multimodal fusion

Missing-Aware Multimodal Fusion for Unified Microservice Incident Management

Wenzhuo Qian, Hailiang Zhao, Ziqi Wang et al.

针对微服务事件管理中数据缺失问题，提出了一种鲁棒的自监督多模态融合框架ARMOR。

提出了 modality-specific asymmetric encoder，隔离模态间差异。
设计了 missing-aware gated fusion机制，减少数据缺失干扰。

2026-03-26

PDF arXiv

9/10

叙事连贯性视觉-语言模型多模态

Humans vs Vision-Language Models: A Unified Measure of Narrative Coherence

Nikolai Ilinykh, Hyewon Jang, Shalom Lappin et al.

该论文比较了人类和视觉-语言模型在视觉故事叙事连贯性上的差异。

提出一套衡量叙事连贯性的指标
对比分析了人类和VLM生成故事的连贯性

2026-03-26

PDF arXiv

8/10

羽毛球数据集多模态学习

BFMD: A Full-Match Badminton Dense Dataset for Dense Shot Captioning

Ning Ding, Keisuke Fujii, Toru Tamaki

提出了一个羽毛球全场比赛密集标注数据集BFMD，并构建了基于VideoMAE的多模态字幕生成框架。

构建了首个羽毛球全场比赛密集标注数据集BFMD
提出了基于VideoMAE的多模态字幕生成框架

2026-03-26

PDF arXiv

7/10

高光谱成像自动驾驶 HSI-Drive

Challenges in Hyperspectral Imaging for Autonomous Driving: The HSI-Drive Case

Koldo Basterretxea, Jon Gutiérrez-Zaballa, Javier Echanobe

分析高光谱成像在自动驾驶中应用的挑战，并基于HSI-Drive数据集进行实验。

分析高光谱成像在自动驾驶中的挑战
探讨适用于自动驾驶的HSI技术

2026-03-26

PDF arXiv

9/10

视频异常检测视觉-语言模型零样本学习

GridVAD: Open-Set Video Anomaly Detection via Spatial Reasoning over Stratified Frame Grids

Mohamed Eltahir, Ahmed O. Ibrahim, Obada Siralkhatim et al.

GridVAD提出了一种基于视觉-语言模型的无训练视频异常检测方法，利用空间推理生成像素级异常掩码。

提出了GridVAD框架，一个无需训练的视频异常检测流程
利用视觉-语言模型生成异常提议

2026-03-26

PDF arXiv

9/10

假新闻检测多模态学习智能体

From Manipulation to Mistrust: Explaining Diverse Micro-Video Misinformation for Robust Debunking in the Wild

Zhi Zeng, Yifei Yang, Jiaying Wu et al.

该论文提出了一个大规模微视频假新闻基准和基于多智能体推理的检测框架，有效提升了假新闻的检测性能。

构建了大规模微视频假新闻基准 WildFakeBench
提出了基于多智能体推理的假新闻检测框架 FakeAgent

2026-03-26

PDF arXiv

9/10

视频生成多视角学习具身智能

VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents

George Eskandar, Fengyi Shen, Mohammad Altillawi et al.

VideoWeaver是首个多模态多视角视频转换框架，用于具身智能体环境重构，实现视角一致性。

提出了多视角视频到视频的转换框架VideoWeaver
利用共享4D潜在空间实现视角一致性

2026-03-26

PDF arXiv

10/10

VLM 3D空间理解分层学习

HiSpatial: Taming Hierarchical 3D Spatial Understanding in Vision-Language Models

Huizhi Liang, Yichao Shen, Yu Deng et al.

HiSpatial提出分层框架提升VLM的3D空间理解能力，并构建数据集和RGB-D VLM，在多个基准测试中达到SOTA。

提出分层框架分解3D空间理解任务
构建大规模3D空间VQA数据集

2026-03-26

PDF arXiv

9/10

侧信道攻击视觉语言模型安全

Shape and Substance: Dual-Layer Side-Channel Attacks on Local Vision-Language Models

Eyal Hadad, Mordechai Guri

针对本地视觉语言模型，论文提出双层侧信道攻击，泄露输入图像的几何信息和语义内容。

揭示动态高分辨率预处理引入的侧信道漏洞
提出基于执行时间和缓存争用的双层攻击框架

2026-03-26

PDF arXiv

8/10

机器人视觉-语言动作策略

LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior

Xinkai Wang, Chenyi Wang, Yifu Xu et al.

LaMP利用3D场景流作为运动先验，提升机器人操作任务中的视觉-语言-动作策略。

提出LaMP框架，融合视觉、语言和动作，利用3D场景流作为运动先验。
设计Motion Expert和Action Expert，通过门控交叉注意力进行信息融合。

2026-03-26

PDF arXiv

9/10

多模态学习数据集蒸馏知识迁移

Multimodal Dataset Distillation via Phased Teacher Models

Shengbin Guo, Hang Zhao, Senqiao Yang et al.

提出一种新型多模态数据集蒸馏框架PTM-ST，有效提升学生模型性能并降低存储开销。

提出Phased Teacher Model with Shortcut Trajectory (PTM-ST)框架
解决多模态数据集蒸馏中跨阶段性能差距和教师模型不稳定的问题

2026-03-26

PDF arXiv

7/10

Low-Light Image Enhancement Controllable Enhancement State Space Models

Towards Controllable Low-Light Image Enhancement: A Continuous Multi-illumination Dataset and Efficient State Space Framework

Hongru Han, Tingrui Guo, Liming Zhang et al.

提出可控的低光照图像增强框架CLE-RWKV，并构建了新的多光照数据集Light100。

提出了可控低光照增强（CLE）的概念
构建了包含连续光照过渡的Light100数据集

2026-03-26

PDF arXiv

8/10

3D信道指纹多模态学习低空通信

CSI-tuples-based 3D Channel Fingerprints Construction Assisted by MultiModal Learning

Chenjie Xie, Li You, Ruirong Chen et al.

论文提出了一种基于CSI-tuples和多模态学习的3D信道指纹构建框架，提高低空通信环境感知精度。

提出基于CSI-tuples的3D信道指纹模型
设计了包含Corr-MMF、MMR和CSI-R模块的多模态框架

2026-03-26

PDF arXiv

9/10

文本-视频检索多模态学习关系学习

EagleNet: Energy-Aware Fine-Grained Relationship Learning Network for Text-Video Retrieval

Yuhan Chen, Pengwen Dai, Chuan Wang et al.

EagleNet通过细粒度关系学习和能量感知匹配，提升文本-视频检索性能。

提出细粒度关系学习机制(FRL)，学习文本和帧之间的关系。
设计能量感知匹配(EAM)来建模文本-帧交互的能量。

2026-03-26

PDF arXiv

7/10

轨迹异常检测高光谱图像 Transformer

Hyperspectral Trajectory Image for Multi-Month Trajectory Anomaly Detection

Md Awsafur Rahman, Chandrakanth Gudavalli, Hardik Prajapati et al.

提出TITAnD，通过将轨迹转换为高光谱图像，利用Transformer进行多月轨迹异常检测。

提出高光谱轨迹图像(HTI)表示轨迹数据
引入循环因子分解Transformer (CFT)模型

2026-03-26

PDF arXiv

9/10

OOD Detection Vision-Language Models Negative Labels

Activation Matters: Test-time Activated Negative Labels for OOD Detection with Vision-Language Models

Yabin Zhang, Maya Varma, Yunhe Gao et al.

提出TANL方法，通过激活的负标签提升视觉-语言模型在OOD检测中的性能。

提出测试时激活负标签(TANL)方法，动态评估激活水平并选择高激活的负标签。
设计了一种标签激活度量标准，利用历史测试样本自适应对齐测试分布。

2026-03-26

PDF arXiv

9/10

多模态错误信息检测概念图

Probabilistic Concept Graph Reasoning for Multimodal Misinformation Detection

Ruichao Yang, Wei Gao, Xiaobin Zhu et al.

提出PCGR框架，利用概率概念图推理提升多模态错误信息检测的准确性和可解释性。

提出PCGR框架，实现可解释的多模态错误信息检测
利用MLLM自动发现和验证高层概念

2026-03-26

PDF arXiv

9/10

多模态学习医学影像视觉问答

Photon: Speedup Volume Understanding with Efficient Multimodal Large Language Models

Chengyu Fang, Heng Guo, Zheng Jiang et al.

Photon通过自适应token压缩加速3D医学影像多模态大语言模型在视觉问答中的应用。

提出instruction-conditioned token scheduling和surrogate gradient propagation自适应压缩token
引入带梯度恢复的自定义反向传播规则，优化离散token丢弃

2026-03-26

PDF arXiv

9/10

视频文本对齐排序优化视觉编码器微调

Learning to Rank Caption Chains for Video-Text Alignment

Ansel Blume, Burak Uzkent, Shalini Chaudhuri et al.

提出基于排序优化的视频文本对齐方法，并发现视觉编码器微调的重要性。

提出基于排序的优化方法，提升视频文本对齐效果
通过caption degradation生成大规模caption chain

2026-03-26

PDF arXiv

9/10

deepfake detection self-supervised learning audio-visual

SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment

Sahibzada Adil Shahzad, Ammarah Hashmi, Junichi Yamagishi et al.

SAVe提出了一种自监督音视频深度伪造检测框架，利用视觉伪影和音视频错位。

提出一种自监督学习的音视频深度伪造检测框架
利用身份保持、区域感知自混合伪造样本模拟篡改伪影

2026-03-26

PDF arXiv

8/10

文档生成 HTML/CSS 多模态学习

AnyDoc: Enhancing Document Generation via Large-Scale HTML/CSS Data Synthesis and Height-Aware Reinforcement Optimization

Jiawei Lin, Wanrong Zhu, Vlad I Morariu et al.

AnyDoc框架通过大规模HTML/CSS数据合成和高度感知强化学习优化文档生成，效果显著。

提出了AnyDoc框架，用于统一处理多种文档生成任务
构建了大规模HTML/CSS文档数据集DocHTML

2026-03-26

PDF arXiv

7/10

数据增强图像分类鲁棒性

MoireMix: A Formula-Based Data Augmentation for Improving Image Classification Robustness

Yuto Matsuo, Yoshihiro Fukuhara, Yuki M. Asano et al.

提出一种基于莫尔干涉的公式化数据增强方法，提升图像分类模型的鲁棒性。

提出了一种新的基于莫尔干涉的数据增强方法
该方法计算开销小，无需外部数据

2026-03-26

PDF arXiv

9/10

多模态学习强化学习奖励建模

MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning

Chenglong Wang, Yifu Huo, Yang Gan et al.

MSRL通过多阶段强化学习提升多模态奖励模型，解决标注数据不足问题，性能显著提升。

提出了一种多阶段强化学习（MSRL）方法，用于扩展多模态奖励模型（MRM）的训练。
设计了跨模态知识蒸馏方法，以提高MSRL中的偏好泛化能力。

2026-03-26

PDF arXiv

9/10

多模态学习主动学习强化学习

Label What Matters: Modality-Balanced and Difficulty-Aware Multimodal Active Learning

Yuqiao Zeng, Xu Wang, Tengfei Liang et al.

提出RL-MBA框架，解决多模态主动学习中模态平衡和难度感知问题，提高模型性能和公平性。

提出RL-MBA框架
设计自适应模态贡献平衡(AMCB)机制

2026-03-26

PDF arXiv

9/10

多模态学习容错性异常检测

Layer-Specific Lipschitz Modulation for Fault-Tolerant Multimodal Representation Learning

Diyar Altinses, Andreas Schwung

提出一种用于容错多模态表示学习的层特异性Lipschitz调制框架。

提出基于Lipschitz和Jacobian的故障敏感性度量
设计了两阶段自监督训练方案，增强异常检测和纠正能力

2026-03-26

PDF arXiv

9/10

Vision-Language-Action Robotics Object-Centric Inference

TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models

Jiaying Zhou, Zhihao Zhan, Ruifeng Zhai et al.

提出TAG，通过目标无关的指导来提升VLA模型在复杂场景下的目标定位准确性和鲁棒性。

提出了TAG: 一种推理时的指导机制，用于减少VLA策略中的干扰和外观偏差。
TAG不修改策略架构，易于集成到现有VLA策略中。

2026-03-25

PDF arXiv

9/10

视觉语言模型图像质量评估心理物理学

Vision-Language Models vs Human: Perceptual Image Quality Assessment

Imran Mehmood, Imad Ali Shah, Ming Ronnier Luo et al.

该论文评估了视觉语言模型在图像质量评估任务中与人类感知的对齐程度，并分析了不同属性的影响。

系统性地对比了六个VLMs与人类在图像质量评估上的表现
揭示了VLMs在不同图像质量属性（对比度、色彩度）上的表现差异

2026-03-25

PDF arXiv

9/10

矢量化视觉语言模型 SVG

VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

Qijia He, Xunmei Liu, Hammaad Memon et al.

提出VFIG，一个基于视觉语言模型的复杂图形矢量化方法，并构建了大规模数据集和评估基准。

提出VFIG模型，用于图到SVG的高保真转换
构建了大规模数据集VFIG-DATA

2026-03-25

PDF arXiv

9/10

speaker identification multimodal learning missing modality

POLY-SIM: Polyglot Speaker Identification with Missing Modality Grand Challenge 2026 Evaluation Plan

Marta Moscati, Muhammad Saad Saeed, Marina Zanoni et al.

POLY-SIM挑战赛旨在推动缺失模态和跨语言环境下多模态说话人识别的研究。

设计POLY-SIM 2026挑战赛
提供标准化基准和评估框架

2026-03-25

PDF arXiv

9/10

Agent Video Understanding Vision-Language Model

LensWalk: Agentic Video Understanding by Planning How You See in Videos

Keliang Li, Yansong Li, Hongze Shen et al.

LensWalk通过让LLM自主控制视觉观察，提升了长视频理解的准确性、鲁棒性和可解释性。

提出LensWalk框架，赋予LLM控制视频观察的能力
通过reason-plan-observe循环动态调整视频观察范围和密度

2026-03-25

PDF arXiv

9/10

视频语言预训练手术视频事件识别

CliPPER: Contextual Video-Language Pretraining on Long-form Intraoperative Surgical Procedures for Event Recognition

Florian Stilz, Vinkle Srivastav, Nassir Navab et al.

CliPPER通过上下文视频语言预训练，提升手术视频事件识别的准确率。

提出Contextual Video-Text Contrastive Learning (VTC_CTX) 和 Clip Order Prediction (COP) 预训练目标
引入循环一致性对齐(Cycle-Consistency Alignment)增强视频文本匹配

2026-03-25

PDF arXiv

8/10

多语言象形图特殊教育

Robust Multilingual Text-to-Pictogram Mapping for Scalable Reading Rehabilitation

Soufiane Jhilal, Martina Galletti

开发了一种多语言AI系统，自动将文本映射为象形图，辅助特殊教育儿童的阅读理解。

开发多语言文本-象形图映射系统
系统评估了五种不同语言的覆盖率、质量和延迟

2026-03-25

PDF arXiv

9/10

少样本学习跨模态学习 CLIP

Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification

Dipam Goswami, Simone Magistri, Gido M. van de Ven et al.

提出一种跨模态原型对齐与混合方法，提升CLIP在少样本分类任务中的性能。

提出混合图像和文本原型的方法作为收缩估计器
提出文本对齐的语义图像子空间，用于减少图像原型中的噪声

2026-03-25

PDF arXiv

9/10

Theory of Mind Multimodal Learning Vision-Language

Video-Only ToM: Enhancing Theory of Mind in Multimodal Large Language Models

Siqi Liu, Xinyang Li, Bochao Zou et al.

该论文提出VisionToM框架，通过干预视觉表征提升MLLM的视频理解ToM能力。

提出VisionToM框架，用于提升MLLM的视频理解ToM能力
通过干预视觉表征，引导模型关注正确语义目标，减少对语言先验的依赖

2026-03-25

PDF arXiv

8/10

多模态学习生物特征识别动物行为

Counting Without Numbers \& Finding Without Words

Badri Narayana Patro

提出了一种结合视觉和听觉生物特征的多模态宠物重聚系统，提高了宠物重聚的成功率。

提出了一种结合视觉和听觉的多模态重聚系统
系统能够处理不同频率范围的动物叫声

2026-03-25

PDF arXiv

9/10

视频生成多模态学习推理

OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

Kaihang Pan, Qi Tian, Jianwei Zhang et al.

OmniWeaving旨在通过统一框架实现自由组合和推理的视频生成，并提出了评估基准。

提出了OmniWeaving统一视频生成模型
利用大规模预训练数据集增强组合和推理能力

2026-03-25

PDF arXiv

9/10

深度伪造检测视觉-语言模型跨模态学习

Unleashing Vision-Language Semantics for Deepfake Video Detection

Jiawen Zhu, Yunqi Miao, Xueyi Zhang et al.

VLAForge利用视觉-语言语义增强深度伪造视频检测的判别能力，优于现有方法。

提出VLAForge框架，融合视觉和语言语义
设计ForgePerceiver，增强视觉感知，保留VLA知识

2026-03-25

PDF arXiv

9/10

因果推断迁移学习医学图像分析

Causal Transfer in Medical Image Analysis

Mohammed M. Abdelsamea, Daniel Tweneboah Anyimadu, Tasneem Selim et al.

综述医学图像分析中因果迁移学习方法，提升模型跨域泛化性和鲁棒性。

提出了医学图像分析中的因果迁移学习(CTL)范式
构建了连接因果框架和迁移机制的统一分类体系

2026-03-25

PDF arXiv

9/10

3D Human-Object Interaction Diffusion Model Vision-Language Model

ViHOI: Human-Object Interaction Synthesis with Visual Priors

Songjin Cai, Linjie Zhong, Ling Guo et al.

ViHOI利用2D图像先验指导3D人与物体交互生成，提升生成质量和泛化性。

提出ViHOI框架，利用视觉先验提升HOI生成质量
利用VLM提取视觉和文本先验，并设计Q-Former进行压缩

2026-03-25

PDF arXiv

9/10

图像地理定位多模态学习动态路由

GeoRouter: Dynamic Paradigm Routing for Worldwide Image Geolocalization

Pengyue Jia, Derong Xu, Yingyi Zhang et al.

GeoRouter提出了一种动态路由框架，利用LVLM为图像地理定位选择最优范式。

提出GeoRouter动态路由框架
引入距离感知偏好目标函数优化

2026-03-25

PDF arXiv

8/10

OCR 轻量级模型数据质量

PP-OCRv5: A Specialized 5M-Parameter Model Rivaling Billion-Parameter Vision-Language Models on OCR Tasks

Cheng Cui, Yubo Zhang, Ting Sun et al.

PP-OCRv5以5M参数媲美数十亿参数VLM，强调高质量数据在OCR中的重要性。

提出轻量级OCR系统PP-OCRv5
系统性地研究了数据质量对OCR性能的影响

2026-03-25

PDF arXiv

8/10

神经符号系统多模态学习疲劳检测

A Neuro-Symbolic System for Interpretable Multimodal Physiological Signals Integration in Human Fatigue Detection

Mohammadreza Jamalifard, Yaxiong Lei, Parasto Azizinezhad et al.

提出了一种神经符号系统，用于可解释的多模态生理信号融合，以检测人类疲劳。

提出了一种神经符号架构，学习可解释的生理概念
使用可微近似推理规则结合概念

2026-03-25

PDF arXiv

9/10

多模态 AI Agent 视频理解

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

Yunzhe Wang, Runhui Xu, Kexin Zheng et al.

提出GameplayQA基准，用于评估多智能体3D环境中多模态LLM的感知和推理能力。

构建了GameplayQA基准数据集，包含密集标注的多人3D游戏视频
设计了三元组（Self, Other Agents, World）结构的标注体系

2026-03-25

PDF arXiv

9/10

多模态学习自监督学习表征学习

Le MuMo JEPA: Multi-Modal Self-Supervised Representation Learning with Learnable Fusion Tokens

Ciem Cornelissen, Sam Leroux, Pieter Simoens

Le MuMo JEPA提出了一种多模态自监督学习框架，利用融合tokens学习统一表征。

提出Le MuMo JEPA框架，用于多模态自监督表征学习
使用可学习的融合tokens作为模态间的信息瓶颈

2026-03-25

PDF arXiv

9/10

文档解析视觉语言模型粗到细处理

Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing

Cheng Cui, Ting Sun, Suyin Liang et al.

PaddleOCR-VL通过粗到细视觉处理，提升文档解析效率和性能，关注关键区域，抑制冗余信息。

提出Valid Region Focus Module (VRFM)，聚焦文档关键区域
设计并训练了轻量级视觉语言模型PaddleOCR-VL-0.9B

2026-03-25

PDF arXiv

8/10

医学图像融合知识产权保护模型认证

AMIF: Authorizable Medical Image Fusion Model with Built-in Authentication

Jie Song, Jun Jia, Wei Sun et al.

AMIF提出一种可授权的医学图像融合模型，内置认证机制，保护知识产权，防止模型泄露。

提出AMIF模型，内置认证机制
融合目标中加入授权访问控制

2026-03-25

PDF arXiv

9/10

VLM Vision-Language Agent Episodic Memory

Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

Tommaso Galliena, Stefano Rosa, Tommaso Apicella et al.

提出了一种记忆增强的视觉-语言智能体，以解决跨视角的对象描述不一致问题。

提出记忆增强的视觉-语言智能体
构建自监督训练数据集

2026-03-25

PDF arXiv

9/10

医疗AI 可解释性自适应深度

RVLM: Recursive Vision-Language Models with Adaptive Depth

Nicanor Mayumu, Zeenath Khan, Melodena Stephens et al.

RVLM通过迭代生成-执行循环和自适应深度，提升医疗AI的可审计性和效率。

提出RVLM框架，结合迭代生成-执行循环
实现基于任务复杂度的自适应迭代深度

2026-03-25

PDF arXiv

9/10

超分辨率奖励模型多模态学习

RefReward-SR: LR-Conditioned Reward Modeling for Preference-Aligned Super-Resolution

Yushuai Song, Weize Quan, Weining Wang et al.

提出RefReward-SR，利用LR条件奖励模型优化超分辨率重建，更符合人类感知偏好。

提出LR条件奖励模型RefReward-SR
构建大规模LR条件超分辨率偏好数据集RefSR-18K

2026-03-25

PDF arXiv

9/10

LVLM Few-shot Learning Zero-shot Learning

Unlocking Few-Shot Capabilities in LVLMs via Prompt Conditioning and Head Selection

Adhemar de Senneville, Xavier Bou, Jérémy Anger et al.

LVLMs可通过prompt conditioning和head选择提升zero-shot和few-shot图像分类性能，缩小与CLIP的差距。

提出Head Ensemble Classifiers (HEC)，一种无训练的分类器。
发现LVLMs的内部表示（尤其是注意力头）在分类任务中表现优异。

2026-03-25

PDF arXiv

8/10

fMRI EEG 脑活动建模

Modeling Spatiotemporal Neural Frames for High Resolution Brain Dynamic

Wanying Qu, Jianxiong Gao, Wei Wang et al.

提出了一种EEG条件下的fMRI重建框架，实现高分辨率、高时间一致性的动态脑活动建模。

提出EEG条件下的fMRI重建框架
利用null-space中间帧重建解决采样不规则问题

2026-03-25

PDF arXiv

9/10

指代表对象检测数据稀缺启发式推理

Heuristic-inspired Reasoning Priors Facilitate Data-Efficient Referring Object Detection

Xu Zhang, Zhe Chen, Jing Zhang et al.

提出HeROD框架，通过注入启发式推理先验，提升数据稀缺场景下指代表对象检测的效率。

提出De-ROD任务，用于评估低数据量下的ROD性能
提出HeROD框架，注入空间和语义推理先验

2026-03-25

PDF arXiv

8/10

多模态卫星图像时间序列分析

Comparative analysis of dual-form networks for live land monitoring using multi-modal satellite image time series

Iris Dumeur, Jérémy Anger, Gabriele Facciolo

研究双形式注意力机制在多模卫星图像时间序列土地监测中的应用，提升效率。

提出基于双形式注意力机制的高效多模SITS分析方法
设计了针对时序不规则和未对齐问题的时序自适应双形式机制

2026-03-25

PDF arXiv

9/10

MLLM 安全风险图像生成

When Understanding Becomes a Risk: Authenticity and Safety Risks in the Emerging Image Generation Paradigm

Ye Leng, Junjie Chu, Mingjie Li et al.

MLLM更强的语义理解能力带来比扩散模型更大的安全风险，包括不安全内容生成和假图片合成。

系统性分析和比较了MLLM和扩散模型在不安全内容生成和假图片合成方面的安全风险。
发现MLLM比扩散模型更容易生成不安全图像，因为MLLM更能理解抽象prompt。

2026-03-25

PDF arXiv

9/10

海报理解海报生成多模态学习

PosterIQ: A Design Perspective Benchmark for Poster Understanding and Generation

Yuheng Feng, Wen Zhang, Haodong Duan et al.

PosterIQ是一个海报理解与生成的设计驱动型基准，涵盖海报的结构、排版和语义意图。

构建海报理解与生成基准数据集PosterIQ
定义了布局解析、文本-图像对应等任务

2026-03-25

PDF arXiv

9/10

Alzheimer's Disease Multimodal Learning Reasoning

AD-Reasoning: Multimodal Guideline-Guided Reasoning for Alzheimer's Disease Diagnosis

Qiuhui Chen, Yushan Deng, Xuancheng Yao et al.

AD-Reasoning提出了一种基于多模态信息的、结合NIA-AA指南的阿尔茨海默病诊断框架，提高了诊断准确性和透明性。

提出了AD-Reasoning多模态诊断框架
构建了AD-MultiSense多模态QA数据集

2026-03-25

PDF arXiv

10/10

LVLM 对象幻觉注意力机制

Mitigating Object Hallucinations in LVLMs via Attention Imbalance Rectification

Han Sun, Qin Li, Peixin Wang et al.

论文通过纠正视觉语言模型中的注意力失衡来减轻对象幻觉问题。

提出注意力失衡概念，量化并可视化注意力差异。
提出注意力失衡校正(AIR)方法，通过重分配注意力权重缓解幻觉。

2026-03-25

PDF arXiv

8/10

深度伪造检测泛化性对比学习

Beyond Semantic Priors: Mitigating Optimization Collapse for Generalizable Visual Forensics

Jipeng Liu, Haichao Shi, Siyu Xing et al.

针对深度伪造检测中优化崩溃问题，提出CoRIT模型，提升跨域泛化能力。

提出Critical Optimization Radius (COR) 和 Gradient Signal-to-Noise Ratio (GSNR)用于理论分析
发现Layer-wise GSNR衰减是优化崩溃的根源

2026-03-25

PDF arXiv

8/10

风格迁移扩散模型注意力机制

HAM: A Training-Free Style Transfer Approach via Heterogeneous Attention Modulation for Diffusion Models

Yeqi He, Liang Li, Zhiwen Yang et al.

提出了一种基于异构注意力调制（HAM）的免训练扩散模型风格迁移方法。

提出了异构注意力调制（HAM）框架
引入了全局注意力规则（GAR）和局部注意力移植（LAT）机制

2026-03-25

PDF arXiv

8/10

Speech-LLM ASR Contextual Bias

From Oracle to Noisy Context: Mitigating Contextual Exposure Bias in Speech-LLMs

Xiaoyong Guo, Nanjie Li, Zijie Zeng et al.

该论文提出了一种训练框架，用于缓解语音LLM中上下文暴露偏差问题，提高模型在真实场景下的鲁棒性。

提出上下文暴露偏差问题
提出Teacher Error Knowledge, Context Dropout, DPO三种方法

2026-03-25

PDF arXiv

9/10

Multimodal Learning Tabular Data Neuro-Symbolic Reasoning

Thinking with Tables: Enhancing Multi-Modal Tabular Understanding via Neuro-Symbolic Reasoning

Kun-Yang Yu, Zhi Zhou, Shi-Yu Tian et al.

论文提出一种基于神经符号推理的表格理解方法TWT，提升多模态表格数据理解能力。

提出TVMU任务面临的三大挑战
设计了基于程序辅助的神经符号推理机制TWT

2026-03-25

PDF arXiv

9/10

医学影像 VLM 基准测试

MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage

Ufaq Khan, Umair Nawaz, L D M S S Teja et al.

MedObvious基准测试揭示了医学VLM在输入验证方面存在的安全隐患，模型易产生幻觉并缺乏鲁棒性。

提出了MedObvious基准测试，用于评估医学VLMs的输入验证能力
揭示了现有VLMs在医学图像输入验证方面的局限性

2026-03-24

PDF arXiv

8/10

多模态学习强化学习图像生成

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Jie Liu, Zilyu Ye, Linxiao Yuan et al.

提出UniGRPO，用于联合优化推理和图像生成策略，提升图像生成质量，为多轮交互模型提供基线。

提出UniGRPO框架，用于联合优化文本和图像生成策略。
改进FlowGRPO，移除classifier-free guidance和替换KL惩罚。

2026-03-24

PDF arXiv

9/10

VLLM 效率视觉-语言

VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas et al.

VISOR通过动态稀疏视觉-语言交互提升VLLM效率，在不损失性能的前提下降低计算成本。

提出VISOR，一种稀疏视觉-语言交互方法
设计动态视觉计算分配策略

2026-03-24

PDF arXiv

8/10

Referring Video Object Segmentation RVOS MLLM

AgentRVOS: Reasoning over Object Tracks for Zero-Shot Referring Video Object Segmentation

Woojeong Jin, Jaeho Lee, Heeseong Shin et al.

AgentRVOS利用SAM3和MLLM构建无训练Agent框架，通过对象轨迹推理实现视频对象分割。

提出AgentRVOS框架，无需训练即可实现高质量RVOS
利用SAM3生成对象轨迹，提供对象级证据

2026-03-24

PDF arXiv

8/10

机器人多模态学习触觉感知

VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Haoran Yuan, Weigang Yi, Zhenyu Zhang et al.

VTAM通过融合视觉和触觉信息，提升了机器人在复杂物理交互任务中的性能。

提出了Video-Tactile Action Model (VTAM)，融合视觉和触觉信息
设计了触觉正则化损失，稳定多模态融合

2026-03-24

PDF arXiv

9/10

3D场景分割多模态学习大语言模型

UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation

Jiaying Lin, Dan Xu

UniFunc3D利用多模态大语言模型，提出了一种统一的、无训练的3D场景功能分割框架。

提出UniFunc3D框架，无需训练。
引入主动时空定位策略，实现由粗到精的分割。

2026-03-24

PDF arXiv

8/10

图像修复扩散模型少步生成

InverFill: One-Step Inversion for Enhanced Few-Step Diffusion Inpainting

Duc Vu, Kien Nguyen, Trong-Tung Nguyen et al.

InverFill通过一步反演注入语义信息，提升少步扩散模型图像修复质量。

提出InverFill单步反演方法，用于提升少步扩散模型修复效果
利用文本到图像模型进行图像修复，无需训练特定的修复模型

2026-03-24

PDF arXiv

9/10

MLLM Prompt Optimization Object Detection

DetPO: In-Context Learning with Multi-Modal LLMs for Few-Shot Object Detection

Gautam Rajendrakumar Gare, Neehar Peri, Matvei Popov et al.

DetPO提出了一种黑盒prompt优化方法，提升MLLM在少样本目标检测任务上的性能。

提出了一种名为DetPO的梯度无关的prompt优化方法。
DetPO通过最大化检测精度和校准置信度来优化文本prompt。

2026-03-24

PDF arXiv

9/10

3D City Multimodal Learning Large Language Models

3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding

Yiping Chen, Jinpeng Li, Wenyu Ke et al.

提出3DCity-LLM框架，用于3D城市尺度视觉-语言感知与理解，并构建大规模数据集。

提出3DCity-LLM框架
构建高质量的3DCity-LLM-1.2M数据集

2026-03-24

PDF arXiv

9/10

MLLM 空间推理文本表示

Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

Jiacheng Hua, Yishu Yin, Yuhang Wu et al.

论文提出TRACE方法，通过文本表示引导MLLM进行3D空间推理，提升视频理解能力。

提出TRACE提示方法，利用文本表示进行3D空间推理。
TRACE编码元上下文、相机轨迹和对象实体。

2026-03-24

PDF arXiv

9/10

MLLM 3D建模关节资产

SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

Chuanrui Zhang, Minghan Qin, Yuang Wang et al.

SIMART通过MLLM将静态网格分解为可用于物理模拟的铰接资产。

提出基于MLLM的单阶段关节资产创建方法
引入Sparse 3D VQ-VAE减少token数量

2026-03-24

PDF arXiv

6/10

毫米波雷达材料分类几何偏移

Edge Radar Material Classification Under Geometry Shifts

Jannik Hohmann, Dong Wang, Andreas Nüchter

提出了一种毫米波雷达材料分类方法，并分析了几何偏移对分类性能的影响。

提出基于毫米波雷达的材料分类pipeline
分析了几何偏移对分类性能的影响

2026-03-24

PDF arXiv

9/10

视觉语言模型双曲几何层级表征

ARGENT: Adaptive Hierarchical Image-Text Representations

Chuong Huynh, Hossein Souri, Abhinav Kumar et al.

ARGENT提出了一种新的双曲视觉语言模型，通过自适应损失和角度概率评估提升层级表征能力。

提出自适应的包含损失和范数正则化，防止锥坍塌
引入基于角度的概率包含协议 (PEP) 用于评估层级理解

2026-03-24

PDF arXiv

9/10

医学影像报告生成课程学习

Curriculum-Driven 3D CT Report Generation via Language-Free Visual Grafting and Zone-Constrained Compression

V. K. Cody Bumgardner, Mitchell A. Klusty, Mahmut S. Gokmen et al.

Ker-VLJEPA-3B通过课程学习框架，提升了3D CT报告生成的准确性和效果。

提出四阶段课程学习框架Ker-VLJEPA-3B
使用无文本监督的自监督视觉骨干网络

2026-03-24

PDF arXiv

9/10

MLLM Multimodal Figurative Meaning

I Came, I Saw, I Explained: Benchmarking Multimodal LLMs on Figurative Meaning in Memes

Shijia Zhou, Saif M. Mohammad, Barbara Plank et al.

该论文评估了多模态大语言模型在理解 Meme 中隐喻意义的能力，发现模型存在偏见且解释不忠实。

评估了MLLM在Meme隐喻意义理解上的表现
揭示了模型对隐喻意义的偏见

2026-03-24

PDF arXiv

9/10

机器人操作视觉语言行动模型人类注视

Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation

Anupam Pani, Yanchao Yang

论文提出了一种基于人类视觉注意力的机器人操作学习框架，提升了机器人操作的性能和可解释性。

提出基于人类注视的VLA模型正则化训练方法
无需额外硬件即可提升机器人操作性能

2026-03-24

PDF arXiv

9/10

VLM Gaze Tracking Ego-Centric Vision

Gaze-Regularized VLMs for Ego-Centric Behavior Understanding

Anupam Pani, Yanchao Yang

论文提出了一种基于注视正则化的VLM框架，用于提升以自我为中心的行为理解和未来事件预测。

引入注视信息到VLM架构
提出基于注视的查询机制

2026-03-24

PDF arXiv

9/10

视频LLM 时间推理视觉提示

ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting

Yeonkyung Lee, Dayun Ju, Youngmin Kim et al.

ViKey通过视觉提示和关键词帧映射，提升视频LLM在稀疏帧下的时间推理能力。

提出ViKey框架，结合视觉提示和关键词帧映射
利用帧索引作为字典键，连接文本提示和相关帧

2026-03-24

PDF arXiv

9/10

主动学习跨模态学习视觉语言模型

Conformal Cross-Modal Active Learning

Huy Hoang Nguyen, Cédric Jung, Shirin Salehi et al.

CCMA利用跨模态信息，提升视觉任务主动学习的数据效率，优于现有单模态方法。

提出Conformal Cross-Modal Acquisition (CCMA)框架
利用预训练VLM作为教师模型提供语义不确定性估计

2026-03-24

PDF arXiv

9/10

speech-to-video dyadic interaction multimodal learning

InterDyad: Interactive Dyadic Speech-to-Video Generation by Querying Intermediate Visual Guidance

Dongwei Pan, Longwei Guo, Jiazhi Guan et al.

InterDyad通过中间视觉引导，实现更自然、可控的双人交互视频生成。

提出InterDyad框架，实现基于结构化运动引导的交互视频生成
引入MetaQuery机制，对齐音频和运动先验

2026-03-24

PDF arXiv

9/10

ARVOS Audio-based Segmentation Vision-Language

3rd Place of MeViS-Audio Track of the 5th PVUW: VIRST-Audio

Jihwan Hong, Jaeyoung Do

VIRST-Audio模型利用文本监督进行音频视频对象分割，通过ASR转换音频并引入存在感知门控提升鲁棒性，在MeViS-Audio挑战赛中获得第三名。

提出VIRST-Audio框架，结合预训练RVOS模型和视觉语言架构。
利用ASR模块将音频转换为文本，实现文本监督的分割。

2026-03-24

PDF arXiv

9/10

MLLM 视觉错觉多尺度感知

SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions

Jinzhe Tu, Ruilei Guo, Zihan Guo et al.

研究MLLM在视觉错觉上的缺陷，提出SMSP多尺度感知策略提升模型对视觉错觉的理解。

提出了IlluChar错觉数据集
发现了MLLM对高频信息的注意力偏见

2026-03-24

PDF arXiv

8/10

强化学习自回归模型图像生成

Policy-based Tuning of Autoregressive Image Models with Instance- and Distribution-Level Rewards

Orhun Buğra Baran, Melih Kandemir, Ramazan Gokberk Cinbis

提出了一种基于强化学习的自回归图像模型微调框架，提升图像质量和多样性。

提出了一种新的分布级别Leave-One-Out FID (LOO-FID)奖励，用于鼓励多样性。
结合实例级别奖励（CLIP和HPSv2）以保证语义和感知保真度。

2026-03-24

PDF arXiv

10/10

Medical VLM Causal Reasoning Self-Reflection

MedCausalX: Adaptive Causal Reasoning with Self-Reflection for Trustworthy Medical Vision-Language Models

Jianxin Lin, Chunzheng Zhu, Peter J. Kneuertz et al.

MedCausalX通过自反思和因果推理，提升医学视觉语言模型的可信度和可靠性。

提出了CRMed数据集，包含细粒度解剖标注和因果推理链。
设计了双阶段自适应反思架构，进行因果分析和验证。

2026-03-24

PDF arXiv

9/10

MLLM Whole Slide Image Computational Pathology

MLLM-HWSI: A Multimodal Large Language Model for Hierarchical Whole Slide Image Understanding

Basit Alawode, Arif Mahmood, Muaz Khalifa Al-Radi et al.

MLLM-HWSI是一种用于病理全切片图像理解的多模态大语言模型，通过层级结构实现精细化分析。

提出了MLLM-HWSI模型，用于层级WSI理解
引入层级对比目标和跨尺度一致性损失

2026-03-24

PDF arXiv

9/10

目标检测可解释性AI 多模态学习

YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception

Marios Impraimakis, Daniel Vazquez, Feiyu Zhou

利用Kolmogorov-Arnold网络提升YOLOv10目标检测的可解释性和置信度评估，结合多模态信息增强可信赖AI。

提出基于Kolmogorov-Arnold网络的可解释置信度评估方法
将BLIP模型融入，实现多模态解释

2026-03-24

PDF arXiv

7/10

交通标志识别自动驾驶数据集

Traffic Sign Recognition in Autonomous Driving: Dataset, Benchmark, and Field Experiment

Guoyang Zhao, Weiqing Qi, Kai Zhang et al.

论文提出了大规模交通标志数据集TS-1M，并针对自动驾驶中的鲁棒性问题进行了基准测试。

构建大规模、多样化的交通标志数据集TS-1M
设计诊断性基准测试，评估模型在各种挑战下的性能

2026-03-24

PDF arXiv

8/10

语义分割 CLIP 开放词汇

Looking Beyond the Window: Global-Local Aligned CLIP for Training-free Open-Vocabulary Semantic Segmentation

ByeongCheol Lee, Hyun Seok Seong, Sangeek Hyun et al.

针对训练自由的开放词汇语义分割，提出一种全局-局部对齐的CLIP模型，解决窗口间的语义差异问题。

提出Global-Local Aligned CLIP (GLA-CLIP)框架，实现窗口间的信息交互
引入代理锚点 (Proxy Anchor)，提供统一的语义参考，缓解窗口偏差

2026-03-24

PDF arXiv

9/10

3D认知地图多视角视觉语言空间推理

Cog3DMap: Multi-View Vision-Language Reasoning with 3D Cognitive Maps

Chanyoung Gwak, Yoonwoo Jeong, Byungwoo Jeon et al.

Cog3DMap通过构建显式3D认知地图，增强MLLM的多视角空间推理能力。

提出Cog3DMap框架，构建显式3D认知地图
将3D空间信息融入MLLM的输入

2026-03-24

PDF arXiv

8/10

可解释性AI 自然灾害管理深度学习

Concept-based explanations of Segmentation and Detection models in Natural Disaster Management

Samar Heydari, Jawher Said, Galip Ümit Yolcu et al.

提出一个针对自然灾害管理中分割和检测模型的概念解释框架，提升模型透明度和可信度。

扩展LRP解释到PIDNet的融合层
应用PCX提供概念层面的局部和全局解释

2026-03-24

PDF arXiv

8/10

视觉语言动作模型 token剪枝机器人

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

Jintao Cheng, Haozhe Wang, Weibin Li et al.

VLA-IAP是一种训练无关的视觉token剪枝方法，通过交互对齐提升VLA模型在资源受限平台上的推理效率。

提出基于几何先验的结构锚点保留机制
设计基于语义-运动对齐的动态剪枝强度调度策略

2026-03-24

PDF arXiv

9/10

多模态学习内容审核自然语言处理

Beyond Hate: Differentiating Uncivil and Intolerant Speech in Multimodal Content Moderation

Nils A. Herrmann, Tobias Eder, Jingyi He et al.

该论文区分了不文明和不容忍言论，提出了细粒度的多模态内容审核方案。

提出了区分incivility和intolerance的细粒度标注方案
验证了细粒度标注结合粗粒度标注可以提升模型性能

2026-03-24

PDF arXiv

9/10

视频语言预训练掩码视觉建模多模态学习

Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining

Weijun Zhuang, Yuqing Huang, Weikang Meng et al.

ClusterSTM提出一种簇级时空掩码策略，提升视频语言预训练的效率和性能。

提出簇级时空掩码策略，缓解信息损失和时间泄露问题
引入视频-文本相关性重建目标，增强多模态语义对齐

2026-03-24

PDF arXiv

8/10

Diffusion Models Personalization Quantization

PersonalQ: Select, Quantize, and Serve Personalized Diffusion Models for Efficient Inference

Qirui Wang, Qi Guo, Yiding Sun et al.

PersonalQ提出了一种统一框架，通过选择、量化和提供个性化扩散模型来提高推理效率。

提出Intent-aligned选择方法，提高意图对齐
提出Trigger-Aware Quantization (TAQ)方法，实现高效量化

2026-03-24

PDF arXiv

9/10

放射报告生成评估指标大型语言模型

Ran Score: a LLM-based Evaluation Score for Radiology Report Generation

Ran Zhang, Yucong Lin, Zhaoli Su et al.

提出了Ran Score，一种基于LLM的放射报告生成评估指标，特别关注低频异常和临床语言。

提出了Ran Score评估指标
结合人类专家知识和LLM进行多标签发现提取

2026-03-24

PDF arXiv

9/10

Audio-Visual Speech Recognition Video Conferencing Multimodal Learning

When AVSR Meets Video Conferencing: Dataset, Degradation, and the Hidden Mechanism Behind Performance Collapse

Yihuan Huang, Jun Xue, Liu Jiajun et al.

针对视频会议场景下的AVSR性能退化问题，构建了MLD-VC数据集并分析了原因，提出了优化方法。

构建了首个面向视频会议的AVSR多模态数据集MLD-VC
分析了视频会议场景下AVSR性能退化的原因，包括传输失真和人类过度表达

2026-03-24

PDF arXiv

9/10

视频MLLM Token压缩时空建模

ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models via Spatial-Temporal Forest Modeling

Shaobo Ju, Baiyang Song, Tao Chen et al.

ForestPrune通过时空森林建模实现视频MLLM高比例视觉token压缩。

提出ForestPrune，一种新颖的视频MLLM token剪枝方法。
通过时空森林建模实现高效且高比例的token剪枝。

2026-03-24

PDF arXiv

7/10

黑盒域适应知识蒸馏视觉语言模型

Dual-Teacher Distillation with Subnetwork Rectification for Black-Box Domain Adaptation

Zhe Zhang, Jing Li, Wanli Xue et al.

提出了一种双教师蒸馏方法，通过子网络校正解决黑盒域适应问题，提升模型性能。

提出了双教师蒸馏框架DDSR，结合黑盒模型和ViL的优势
引入子网络驱动的正则化策略，减轻噪声监督的影响

2026-03-24

PDF arXiv

9/10

视觉-语言强化学习离线学习

VLGOR: Visual-Language Knowledge Guided Offline Reinforcement Learning for Generalizable Agents

Pengsen Liu, Maosen Zeng, Nan Tang et al.

VLGOR利用视觉-语言知识生成虚假轨迹，增强离线强化学习，提升智能体泛化能力。

提出了VLGOR框架，融合视觉和语言知识
使用视觉-语言模型预测未来状态和动作

2026-03-24

PDF arXiv

9/10

红队测试视觉-语言模型 LLM

TreeTeaming: Autonomous Red-Teaming of Vision-Language Models via Hierarchical Strategy Exploration

Chunxiao Li, Lijun Li, Jing Shao

TreeTeaming通过层级策略探索，实现对视觉-语言模型(VLM)的自主红队测试。

提出TreeTeaming自动化红队测试框架
利用LLM进行动态、演进式策略探索

2026-03-24

PDF arXiv

8/10

Sim-to-Real 灵巧操作视觉语言动作模型

Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models

Ruixing Jin, Zicheng Zhu, Ruixiang Ouyang et al.

研究了灵巧操作中Sim-to-Real泛化的关键因素，并提出了评估协议。

评估了多层次域随机化等因素对Sim-to-Real的影响
设计了全面的灵巧操作评估协议

2026-03-24

PDF arXiv

9/10

视频监控多模态学习视频问答

ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

Hyojin Park, Yi Li, Janghoon Cho et al.

提出ForeSea，一个用于视频监控场景下多模态查询的AI取证搜索系统及数据集ForeSeaQA。

提出了新的多模态视频问答数据集ForeSeaQA
设计了三阶段的AI取证搜索系统ForeSea

2026-03-24

PDF arXiv

9/10

MLLM 3D Scene Understanding Video Generation

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Xianjin Wu, Dingkang Liang, Tianrui Feng et al.

利用视频生成模型中的隐式3D先验知识，提升MLLM在空间理解方面的能力。

提出VEGA-3D框架，利用预训练视频扩散模型作为潜在世界模拟器。
通过token-level自适应门控融合机制，将时空特征与语义表示融合。

2026-03-19

PDF arXiv

8/10

视觉生成离散表示扩散模型

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

Yuqing Wang, Chuofan Ma, Zhijie Lin et al.

提出CubiD模型，首次实现高维离散表示的视觉生成，并验证其表示能力。

提出CubiD模型，实现高维离散表示的生成。
提出细粒度的掩码策略，提升模型学习能力。

2026-03-19

PDF arXiv

8/10

视频编辑多模态学习指令引导

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Xinyao Zhang, Wenkai Dong, Yuxin Song et al.

SAMA通过解耦语义锚定和运动对齐，提升指令引导的视频编辑效果，实现更精确的语义修改和更真实的运动保持。

提出语义锚定，实现指令感知的结构规划
提出运动对齐，利用视频恢复预训练增强运动建模能力

2026-03-19

PDF arXiv

7/10

diffusion model noise schedule spectral properties

Spectrally-Guided Diffusion Noise Schedules

Carlos Esteves, Ameesh Makadia

提出了一种基于图像频谱特性的像素扩散模型噪声调度方法，提高了生成质量。

提出了基于图像频谱特性的噪声调度方法
推导了最小和最大噪声水平的理论界限

2026-03-19

PDF arXiv

9/10

自动驾驶多视角学习 3D场景理解

DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

Dong Zhuo, Wenzhao Zheng, Sicheng Zuo et al.

DriveTok提出了一种高效的3D驾驶场景Tokenization方法，用于多视角重建和理解。

提出DriveTok，一种高效的3D驾驶场景Tokenizer
使用3D可变形交叉注意力将视觉特征转换为场景tokens

2026-03-19

PDF arXiv

9/10

长音频视频 OmniLLM 多模态学习

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

Keda Tao, Yuhua Zheng, Jia Xu et al.

提出了LVOmniBench，用于评估OmniLLM在长音频视频理解方面的能力。

提出了LVOmniBench基准数据集，包含275个长视频和1014个QA对
揭示了现有OmniLLM在处理长音频视频时面临的挑战

2026-03-19

PDF arXiv

9/10

文本到3D 3D生成部件感知

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

Tianjiao Yu, Xinzhuo Li, Muntasir Wahed et al.

DreamPartGen提出一种语义驱动的、部件感知的文本到3D生成框架，实现高质量的3D物体生成。

引入Duplex Part Latents (DPLs) 联合建模部件几何和外观
引入Relational Semantic Latents (RSLs) 捕捉部件间依赖关系

2026-03-19

PDF arXiv

9/10

VLM SSM Vision Transformer

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Shang-Jui Ray Kuo, Paola Cascante-Bonilla

研究了状态空间模型（SSM）作为视觉编码器在视觉语言模型（VLM）中的表现，发现其具有竞争力。

评估了SSM作为VLM视觉骨干网络的性能
提出了提高视觉骨干网络稳定性的策略

2026-03-19

PDF arXiv

9/10

视觉语言模型视觉注意力语言框架

Tinted Frames: Question Framing Blinds Vision-Language Models

Wan-Cyuan Fan, Jiayun Luo, Declan Kutscher et al.

研究表明，视觉语言模型(VLM)的视觉注意力受问题框架影响，导致性能下降和不一致。

揭示了VLM的视觉注意力受到语言框架选择性影响
量化了框架对图像注意力和分布的影响

2026-03-19

PDF arXiv

9/10

LLM LALM Auditory Knowledge

How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang et al.

该论文研究LLM中的听觉知识对LALM性能的影响，并进行了全面的评估。

评估了不同LLM的听觉知识储备
揭示了文本预训练中的听觉知识与LALM性能的相关性

2026-03-19

PDF arXiv

7/10

声学合成流匹配少样本学习

Few-shot Acoustic Synthesis with Multimodal Flow Matching

Amandine Brunetto

提出FLAC，一种基于流匹配的概率方法，用于少样本声学合成，生成与场景一致的RIR。

提出FLAC，一种新的声学合成方法
引入AGREE，一种新的几何一致性评估指标

2026-03-19

PDF arXiv

8/10

医学图像分割强化学习偏好学习

ARIADNE: A Perception-Reasoning Synergy Framework for Trustworthy Coronary Angiography Analysis

Zhan Jin, Yu Luo, Yizhou Zhang et al.

ARIADNE框架通过偏好对齐感知和RL推理，提升冠状动脉造影分析的可靠性。

提出结合DPO和Sa2VA的感知模块，利用Betti数约束进行拓扑对齐
设计基于RL的推理模块，通过拒绝机制优化诊断可靠性

2026-03-19

PDF arXiv

9/10

视觉语言导航多模态学习机器人

Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation

Swagat Padhan, Lakshya Jain, Bhavya Minesh Shah et al.

提出MAPG框架，分解复杂指令为子任务，提升VLM在度量约束下的视觉语言导航性能。

提出MAPG框架，分解复杂语言指令
设计MAPG-Bench基准测试，评估度量语义目标定位

2026-03-19

PDF arXiv

6/10

EEG Mamba Transformer

LuMamba: Latent Unified Mamba for Electrode Topology-Invariant and Efficient EEG Modeling

Danaé Broustail, Anna Tegon, Thorir Mar Ingolfsson et al.

LuMamba结合拓扑不变编码和线性复杂度状态空间模型，高效处理脑电信号，性能优越。

提出了LuMamba模型，用于EEG建模
系统研究了LeJEPA在生物信号学习中的应用

2026-03-19

PDF arXiv

9/10

交通异常理解视觉语言模型数据集

TAU-R1: Visual Language Model for Traffic Anomaly Understanding

Yuqiang Lin, Kehua Chen, Sam Lockyer et al.

提出了用于交通异常理解的视觉语言模型TAU-R1，并构建了Roundabout-TAU数据集。

构建了Roundabout-TAU数据集
提出了两层视觉语言框架TAU-R1

2026-03-19

PDF arXiv

9/10

视觉语言模型安全判断语义引导

SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues

Carlos Hinojosa, Clemens Grange, Bernard Ghanem

研究语义线索如何影响视觉语言模型（VLM）的安全判断，揭示其脆弱性。

提出了语义引导框架，用于控制VLM的安全行为
构建了SAVeS基准，用于评估情境安全

2026-03-19

PDF arXiv

9/10

地球观测视觉语言模型像素级推理

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Yan Shu, Bin Ren, Zhitong Xiong et al.

TerraScope提出了一个像素级视觉推理的VLM，用于地球观测任务。

提出TerraScope模型，支持像素级地理空间推理
构建Terra-CoT数据集，包含百万级别像素级标注样本

2026-03-19

PDF arXiv

9/10

视觉-语言模型偏差校正稀疏表示

SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

Quentin Guimard, Federico Bartsch, Simone Caldarella et al.

SEM通过稀疏自编码器分解CLIP嵌入，实现对视觉-语言模型偏差的后处理校正。

提出Sparse Embedding Modulation (SEM)框架
利用稀疏表示实现更精确的偏差干预

2026-03-19

PDF arXiv

9/10

MLLM 图像分割多模态学习

Rethinking MLLM Itself as a Segmenter with a Single Segmentation Token

Anqi Zhang, Xiaokang Ji, Guangyu Gao et al.

提出了一种无需额外解码器的MLLM图像分割方法SELF1E，通过单一分割token实现高效分割。

提出SELF1E，一种基于单一分割token的MLLM分割方法
通过保留原始分辨率特征并融入残差特征，提升特征精度

2026-03-19

PDF arXiv

8/10

扩散模型对齐监督微调

CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think

Zening Sun, Zhengpeng Xie, Lichen Bai et al.

CRAFT通过复合奖励过滤和增强型SFT，在少量数据下高效对齐扩散模型。

提出CRAFT框架，减少数据依赖和计算成本
提出复合奖励过滤（CRF）技术，构建高质量数据集

2026-03-19

PDF arXiv

9/10

视觉语言模型空间推理多跳推理

MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model

Youngwan Lee, Soojin Jang, Yoorhim Cho et al.

提出了用于评估视觉语言模型多跳空间推理能力的MultihopSpatial基准。

多跳组合空间推理基准MultihopSpatial
评估推理和视觉定位的Acc@50IoU指标

2026-03-19

PDF arXiv

9/10

视觉上下文学习多提示融合局部感知

PromptHub: Enhancing Multi-Prompt Visual In-Context Learning with Locality-Aware Fusion, Concentration and Alignment

Tianci Luo, Jinpeng Wang, Shiyu Qin et al.

PromptHub通过局部感知融合、集中和对齐增强多提示视觉上下文学习，提升视觉任务性能。

提出PromptHub框架，增强多提示视觉上下文学习
引入局部感知融合机制，利用空间先验

2026-03-19

PDF arXiv

5/10

无线电地图 diffusion模型少量样本学习

RadioDiff-FS: Physics-Informed Manifold Alignment in Few-Shot Diffusion Models for High-Fidelity Radio Map Construction

Xiucheng Wang, Zixuan Guo, Nan Cheng

RadioDiff-FS利用少量样本，构建高保真无线电地图，有效降低了建模成本。

提出RadioDiff-FS框架，用于少量样本下的无线电地图构建
基于多径分解理论，提出方向一致性损失（DCL）

2026-03-19

PDF arXiv

10/10

视频问答视觉语言模型帧选择

HORNet: Task-Guided Frame Selection for Video Question Answering with Vision-Language Models

Xiangyu Bai, Bishoy Galoaa, Sarah Ostadabbas

HORNet通过学习帧选择策略提升VLM在视频问答任务上的效率和性能。

提出HORNet，一种轻量级的帧选择策略
使用Group Relative Policy Optimization (GRPO)训练帧选择策略

2026-03-19

PDF arXiv

9/10

Vision-Language Models Spatial Reasoning Semantic Segmentation

Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

Yuchen Li, Amanmeet Garg, Shalini Chaudhuri et al.

Perceptio通过显式的语义分割和深度token增强了LVLM的空间推理能力，并在多个基准测试中取得了SOTA。

提出了Perceptio，一个感知增强的LVLM
使用VQVAE深度编码和SAM2分割生成空间token

2026-03-19

PDF arXiv

9/10

RGB-T 3D Reconstruction Transformer

SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction

Vsevolod Skorokhodov, Chenghao Xu, Shuo Sun et al.

提出SEAR方法，高效微调视觉几何Transformer，用于RGB+热成像3D重建，提升多模态对齐效果。

提出SEAR微调策略，提升RGB-T图像的3D重建效果
构建新的RGB+Thermal数据集，用于多模态3D重建

2026-03-19

PDF arXiv

7/10

情感AI 多模态学习视频分析

Dual-Model Prediction of Affective Engagement and Vocal Attractiveness from Speaker Expressiveness in Video Learning

Hung-Yue Suen, Kuo-En Hung, Fan-Hsun Tseng

论文提出了一种基于说话人情感表达预测观众情感投入和声音吸引力的双模型方法。

提出了一种说话人中心的情感AI方法，无需观众侧信息即可预测观众反馈
构建了基于MOOCs的大规模语料库

2026-03-19

PDF arXiv

9/10

Sim2Real Diffusion Model Knowledge Graph

Ontology-Guided Diffusion for Zero-Shot Visual Sim2Real Transfer

Mohamed Youssef, Mayar Elfares, Anna-Maria Meer et al.

OGD利用知识图谱引导扩散模型，实现了零样本Sim2Real图像转换，提升了图像的真实感和可解释性。

提出Ontology-Guided Diffusion (OGD) 框架
使用知识图谱表示图像真实感

2026-03-19

PDF arXiv

6/10

多变量时间序列预测稀疏注意力机制多模态信息融合

Accurate and Efficient Multi-Channel Time Series Forecasting via Sparse Attention Mechanism

Lei Gao, Hengda Bao, Jingfei Fang et al.

Li-Net模型通过稀疏注意力机制和多模态融合，高效准确地进行多通道时间序列预测。

提出了Li-Net模型，用于捕捉通道间的线性和非线性依赖
引入了稀疏Top-K Softmax注意力机制和多尺度投影框架

2026-03-19

PDF arXiv

9/10

multimodal computational pathology whole slide imaging

Multimodal Model for Computational Pathology:Representation Learning and Image Compression

Peihang Wu, Zehong Chen, Lijian Xu

综述性论文，分析了多模态计算病理学中的表示学习、图像压缩、数据增强和多智能体协作诊断等关键技术。

系统分析了自监督表示学习和结构感知 Token 压缩在 WSI 中的应用
探讨了多模态数据生成与增强方法

2026-03-19

PDF arXiv

9/10

视觉语言模型链式思考损失函数

Balanced Thinking: Improving Chain of Thought Training in Vision Language Models

Shaked Perek, Ben Wiesel, Avihu Dekel et al.

提出SCALe损失函数，通过动态权重解决VLM中CoT训练的token不平衡问题，提高推理精度和效率。

提出SCALe损失函数，动态调整推理和答案部分的权重
显著降低训练时间，效率提升

2026-03-19

PDF arXiv

8/10

直播电商 AI助手多模态学习

Click-to-Ask: An AI Live Streaming Assistant with Offline Copywriting and Online Interactive QA

Ruizhi Yu, Keyang Zhong, Peng Liu et al.

Click-to-Ask是一个AI直播助手，通过离线文案生成和在线交互问答提升直播效率。

提出Click-to-Ask系统，用于优化直播电商体验
利用离线模块生成合规的商品推广文案

2026-03-19

PDF arXiv

9/10

文本生成图像 VLM 闭环优化

Agentic Flow Steering and Parallel Rollout Search for Spatially Grounded Text-to-Image Generation

Ping Chen, Daoxuan Zhang, Xiangming Wang et al.

提出AFS-Search闭环框架，通过VLM引导，提升空间约束文本生成图像质量。

引入AFS-Search框架，解决T2I生成中的语义歧义和误差累积问题
利用VLM作为语义批评家，动态引导生成过程

2026-03-19

PDF arXiv

9/10

LVLM AI生成视频检测多模态学习

GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?

Yueying Zou, Pei Pei Li, Zekun Li et al.

GenVideoLens基准测试揭示LVLMs在AI生成视频检测中光学、物理和时序推理上的不足。

提出了GenVideoLens，一个细粒度的AI生成视频检测基准测试。
构建了包含真实和AI生成视频的数据集，并进行了多维度标注。

2026-03-19

PDF arXiv

9/10

多模态学习可解释性危机事件分类

Cross-Modal Rationale Transfer for Explainable Humanitarian Classification on Social Media

Thi Huyen Nguyen, Koustav Rudra, Wolfgang Nejdl

提出一种跨模态的、可解释的人道主义分类框架，提升了社会媒体危机事件分类的准确性和可解释性。

提出跨模态理由转移方法，从文本理由推导出图像理由。
提出可解释的多模态分类框架，提高分类透明度。

2026-03-19

PDF arXiv

9/10

CLIP 对抗鲁棒性零样本学习

Complementary Text-Guided Attention for Zero-Shot Adversarial Robustness

Lu Yu, Haiyang Zhang, Changsheng Xu

提出互补文本引导注意力机制Comp-TGA，提升CLIP模型在零样本对抗环境下的鲁棒性。

发现对抗扰动会导致文本引导注意力发生变化
提出TGA-ZSR框架，利用局部和全局注意力约束增强鲁棒性

2026-03-19

PDF arXiv

5/10

手写数字识别缅甸语深度学习

myMNIST: Benchmark of PETNN, KAN, and Classical Deep Learning Models for Burmese Handwritten Digit Recognition

Ye Kyaw Thu, Thazin Myint Oo, Thepchai Supnithi

myMNIST缅甸手写数字数据集上，PETNN等模型与经典深度学习模型性能对比基准。

首次在myMNIST数据集上系统评估多种模型
验证了PETNN模型在缅甸手写数字识别上的有效性

2026-03-19

PDF arXiv

9/10

医学图像 Deepfake检测可解释性

MedForge: Interpretable Medical Deepfake Detection via Forgery-aware Reasoning

Zhihui Chen, Kai He, Qingyuan Lei et al.

MedForge提出一种可解释的医学Deepfake检测方法，提高了检测精度和可信度。

构建了MedForge-90K医学Deepfake数据集
提出了MedForge-Reasoner检测模型

2026-03-19

PDF arXiv

9/10

长视频问答多模态学习帧选择

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Dan Ben-Ami, Gabriele Serussi, Kobi Cohen et al.

HiMu是一种高效的无训练长视频问答框架，通过分层多模态帧选择提升性能。

提出HiMu框架，实现高效的长视频问答
使用分层逻辑树分解问题，利用轻量级专家处理多模态信息

2026-03-19

PDF arXiv

9/10

医学视觉语言模型图像质量评估对抗攻击

CoDA: Exploring Chain-of-Distribution Attacks and Post-Hoc Token-Space Repair for Medical Vision-Language Models

Xiang Chen, Fangfang Yang, Chunlei Meng et al.

提出了CoDA框架评估医学视觉语言模型在临床环境中抵抗图像质量退化的能力，并提出了一种修复策略。

提出了CoDA框架，模拟临床图像质量退化。
评估了CLIP和MLLM在CoDA攻击下的性能。

2026-03-19

PDF arXiv

9/10

视频理解视觉语言模型 Token剪枝

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Jianrui Zhang, Yue Yang, Rohun Tripathi et al.

提出了一种统一的时空Token评分模块STTS，用于高效的视频VLM的Token剪枝，提升计算效率。

提出STTS模块，统一剪枝ViT和LLM中的视觉tokens
引入辅助损失学习时间维度上的token重要性

2026-03-18

PDF arXiv

9/10

MLLM 骨骼动作识别可微渲染

Universal Skeleton Understanding via Differentiable Rendering and MLLMs

Ziyi Wang, Peiming Li, Xinshun Wang et al.

SkeletonLLM通过可微渲染将骨骼数据转换为视觉信息，利用MLLM实现通用骨骼理解。

提出 DrAction，一个可微且格式无关的渲染器
引入 Causal Reasoning Distillation 和 Discriminative Finetuning 的协同训练策略

2026-03-18

PDF arXiv

9/10

3D Reasoning Vision-Language Model Localization

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Kevin Qu, Haozhe Qi, Mihai Dusmanu et al.

Loc3R-VLM通过全局布局重建和情境建模，增强视觉语言模型在3D空间理解和定位方面的能力。

提出Loc3R-VLM框架，增强2D视觉语言模型的3D理解能力。
引入全局布局重建和情境建模，实现空间监督，将感知和语言锚定在3D环境中。

2026-03-18

PDF arXiv

7/10

3D generation Tokenization Semantic alignment

LoST: Level of Semantics Tokenization for 3D Shapes

Niladri Shekhar Dutt, Zifan Shi, Paul Guerrero et al.

LoST通过语义显著性进行3D形状的token化，显著提升重建和生成质量。

提出Level-of-Semantics Tokenization (LoST)，基于语义显著性进行token化
引入Relational Inter-Distance Alignment (RIDA) 损失函数，用于3D语义对齐

2026-03-18

PDF arXiv

9/10

3D场景理解机器人操作多模态学习

GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes

Huajian Zeng, Abhishek Saroha, Daniel Cremers et al.

GMT利用多模态Transformer生成3D场景中可控的6自由度物体操作轨迹。

提出了一种多模态Transformer框架GMT，用于生成目标导向的物体轨迹
结合3D包围盒几何、点云环境、语义对象类别和目标姿态

2026-03-18

PDF arXiv

9/10

Multimodal Learning 3D Scene Understanding Egomotion

Feeling the Space: Egomotion-Aware Video Representation for Efficient and Accurate 3D Scene Understanding

Shuyao Shi, Kang G. Shin

Motion-MLLM利用运动数据增强MLLM，提升3D场景理解的效率和准确性。

提出Motion-MLLM框架，融合运动数据和视觉信息
设计级联运动-视觉关键帧过滤模块

2026-03-18

PDF arXiv

8/10

扩散模型多层图像生成文本到图像

LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Vlad-Constantin Lungu-Stan, Ionut Mironica, Mariana-Iuliana Georgescu

LaDe提出了一种新的潜在扩散框架，用于生成和分解可编辑的多层图形媒体设计。

提出了一种新的潜在扩散框架LaDe
支持文本到图像生成、文本到图层设计生成和图层分解三个任务

2026-03-18

PDF arXiv

9/10

长视频理解分层表示递归语言模型

VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Mohamed Eltahir, Ali Habibullah, Yazan Alshoibi et al.

VideoAtlas通过分层网格结构实现长视频的无损、可导航表示，并结合RLM实现高效视频理解。

提出VideoAtlas：一种用于表示长视频的无损、可导航的分层网格结构。
提出Video-RLM：结合VideoAtlas和递归语言模型的视频理解框架。

2026-03-18

PDF arXiv

8/10

行车记录仪交通责任多模态学习

Interpretable Traffic Responsibility from Dashcam Video via Legal Multi Agent Reasoning

Jingchun Yang, Jinchang Zhang

提出C-TRAIL数据集和一个两阶段框架，用于从行车记录仪视频中推断交通责任。

提出了C-TRAIL多模态法律数据集，包含行车记录仪视频和对应的法律条文
提出了一个两阶段框架，包括交通事件理解模块和法律多智能体框架

2026-03-18

PDF arXiv

8/10

BiomedCLIP 多标签分类视频胶囊内窥镜

Differential Attention-Augmented BiomedCLIP with Asymmetric Focal Optimization for Imbalanced Multi-Label Video Capsule Endoscopy Classification

Podakanti Satyajith Chary, Nagarajan Ganapathy

针对VCE图像多标签分类，提出了基于BiomedCLIP和不对称Focal优化的框架，提升不平衡数据集性能。

引入差分注意力机制抑制噪声
采用多种优化策略处理类别不平衡问题

2026-03-18

PDF arXiv

8/10

自动软件修复多模态学习 LLM Agent

FailureMem: A Failure-Aware Multimodal Framework for Autonomous Software Repair

Ruize Ma, Yilei Jiang, Shilin Zhang et al.

FailureMem是一个多模态自动软件修复框架，通过记忆失败经验提升修复成功率。

提出混合工作流-Agent架构，平衡结构化定位与灵活推理
引入主动感知工具，实现区域级视觉定位

2026-03-18

PDF arXiv

9/10

音频问答多模态证据融合

Multi-Source Evidence Fusion for Audio Question Answering

Aivo Olev, Tanel Alumäe

提出多源证据融合的音频问答系统，在Interspeech 2026挑战赛中获得第一，大幅领先。

多源证据融合
可靠性分层声学工具

2026-03-18

PDF arXiv

8/10

视频扩散模型截断反向传播像素级损失

ChopGrad: Pixel-Wise Losses for Latent Video Diffusion via Truncated Backpropagation

Dmitriy Rivkin, Parker Ewen, Lili Gao et al.

ChopGrad通过截断反向传播降低视频扩散模型训练的显存占用。

提出ChopGrad截断反向传播方案
理论分析证明其有效性

2026-03-18

PDF arXiv

9/10

量化后训练量化大型视觉语言模型

Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients

Ziwei Xiang, Fanhu Zeng, Hongjian Fang et al.

该论文提出了一种细粒度后训练量化方法，利用量化感知集成梯度提升LVLM量化性能。

提出基于量化感知集成梯度的细粒度量化策略
将量化粒度从模态级别提升到token级别

2026-03-18

PDF arXiv

9/10

Deepfake Detection Vision-Language Models Multimodal Learning

Evidence Packing for Cross-Domain Image Deepfake Detection with LVLMs

Yuxin Liu, Fei Wang, Kun Li et al.

提出了一种无需微调LVLM的图像Deepfake检测框架SCEP，通过证据驱动推理提高检测泛化性。

提出Semantic Consistent Evidence Pack (SCEP)框架
使用证据驱动推理代替全图推理

2026-03-18

PDF arXiv

9/10

多模态学习有害内容检测幽默理解

Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor

Ahmed Sharshar, Hosam Elgendy, Saad El Dine Ahmed et al.

论文提出了一个用于检测和理解有害幽默的多模态、多语言基准数据集，并评估了现有模型。

构建了包含文本、图像和视频的多模态、多语言有害幽默数据集
提出了区分安全、显性和隐性有害幽默的标注指南

2026-03-18

PDF arXiv

9/10

医学图像分割多模态学习通用模型

Concept-to-Pixel: Prompt-Free Universal Medical Image Segmentation

Haoyun Chen, Fenghe Tang, Wenxin Ma et al.

C2P提出了一种无需提示的通用医学图像分割框架，利用多模态LLM进行知识蒸馏，实现跨模态的泛化。

提出 Concept-to-Pixel (C2P) 框架，实现无需提示的通用医学图像分割。
利用多模态LLM将医学概念蒸馏为可学习的语义token，并引入几何token来约束结构。

2026-03-18

PDF arXiv

9/10

细粒度视觉识别大型视觉语言模型自适应推理

SARE: Sample-wise Adaptive Reasoning for Training-free Fine-grained Visual Recognition

Jingxiao Yang, DaLin He, Miao Pan et al.

SARE提出了一种样本自适应的推理框架，用于无需训练的细粒度视觉识别。

提出样本自适应推理框架SARE
结合快速检索和精细推理的级联设计

2026-03-18

PDF arXiv

9/10

多模态遥感语义分割参数高效

Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation

Haocheng Li, Juepeng Zheng, Shuangxi Miao et al.

MoBaNet提出一种参数高效、模态平衡的对称融合框架，用于多模态遥感语义分割。

提出 Cross-modal Prompt-Injected Adapter (CPIA)
提出 Difference-Guided Gated Fusion Module (DGFM)

2026-03-18

PDF arXiv

9/10

视频理解时间推理合成数据

Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos

Songtao Jiang, Sibo Song, Chenyi Zhou et al.

提出SynRL框架，利用合成视频学习可迁移的时间基元，提升视频推理能力。

提出了SynRL框架，用于学习时间基元
使用程序化生成的合成视频进行训练，成本效益高

2026-03-18

PDF arXiv

9/10

VLM 推理分割恶劣天气

WeatherReasonSeg: A Benchmark for Weather-Aware Reasoning Segmentation in Visual Language Models

Wanjun Du, Zifeng Yuan, Tingting Chen et al.

提出 WeatherReasonSeg 基准，评估 VLM 在恶劣天气下的推理分割能力。

构建了可控的合成天气推理数据集，用于细粒度的鲁棒性分析
构建了真实世界恶劣天气推理分割数据集，使用掩码引导的 LLM 提示生成语义一致的查询

2026-03-18

PDF arXiv

10/10

MLLM Hallucination Fine-grained Queries

FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Rui Xiao, Sanghwan Kim, Yongqin Xian et al.

针对MLLM在细粒度负查询下产生幻觉的问题，提出了FINER基准和FINER-Tuning方法。

提出了FINER基准，用于评估MLLM在细粒度负查询下的幻觉问题
分析了MLLM在多种场景下的幻觉现象

2026-03-18

PDF arXiv

9/10

Cross-Domain Few-Shot Learning CLIP Vision-Language Alignment

Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment

Yaze Zhao, Yixiong Zou, Yuhua Li et al.

针对CDFSL中CLIP模型局部对齐问题，提出循环一致性和语义锚定机制，提升局部视觉-语言对齐和可解释性。

发现CDFSL中CLIP模型存在局部不对齐问题
提出循环一致性学习，利用自监督信息进行局部视觉-语言对齐

2026-03-18

PDF arXiv

8/10

3D Perception Scene Graph Gaussian Splatting

ReLaGS: Relational Language Gaussian Splatting

Yaxu Xie, Abdalla Arafa, Alireza Javanmardi et al.

ReLaGS构建了分层语言蒸馏高斯场景和3D语义场景图，用于开放词汇3D感知和推理。

提出了一种无需场景特定训练的3D场景构建框架
引入了高斯裁剪机制和多视角语言对齐策略

2026-03-18

PDF arXiv

8/10

MRI分割跨模态学习参数高效学习

LoGSAM: Parameter-Efficient Cross-Modal Grounding for MRI Segmentation

Mohammad Robaitul Islam Bhuiyan, Sheethal Bhat, Melika Qahqaie et al.

LoGSAM利用语音转录和少量参数更新，实现MRI图像肿瘤的自动分割。

提出LoGSAM框架，实现语音驱动的肿瘤分割
参数高效的跨模态Grounding方法

2026-03-18

PDF arXiv

8/10

Vision-Language-Action Speculative Decoding Robot Control

HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness

Zihao Zheng, Zhihao Mao, Sicheng Tian et al.

HeiSD框架通过混合推测解码加速具身视觉-语言-动作模型的推理速度，并保持任务成功率。

分析了drafter-based和retrieval-based SD在VLA模型中的优缺点
提出了HeiSD框架，包含基于检索的SD优化方法和基于运动学的融合度量

2026-03-18

PDF arXiv

9/10

MLLM Video-SFT Multimodal Learning

Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Linghao Zhang, Jungang Li, Yonghua Hei et al.

视频微调能提升视频理解能力，但可能牺牲静态图像理解能力，存在时空理解的权衡。

系统研究了视频微调对MLLM时空理解能力的影响
发现视频微调存在时空理解的权衡，提升视频性能可能牺牲静态图像性能

2026-03-18

PDF arXiv

6/10

点云分析 SE(3)等变性卷积神经网络

Learning Coordinate-based Convolutional Kernels for Continuous SE(3) Equivariant and Efficient Point Cloud Analysis

Jaein Kim, Hee Bin Yoo, Dong-Sig Han et al.

提出了一种新的SE(3)等变卷积方法ECKConv，提高了点云分析的效率和性能。

提出基于坐标的等变卷积核ECKConv
利用双陪集空间实现SE(3)等变性

2026-03-18

PDF arXiv

5/10

视觉异常检测持续学习教师-学生模型

AdapTS: Lightweight Teacher-Student Approach for Multi-Class and Continual Visual Anomaly Detection

Manuel Barusco, Davide Dalle Pezze, Francesco Borsatti et al.

AdapTS是一种轻量级的教师-学生框架，用于多类和持续视觉异常检测。

提出了AdapTS框架，适用于多类和持续视觉异常检测。
使用轻量级adapter注入，减少了内存占用。

2026-03-18

PDF arXiv

9/10

遥感多模态开放词汇分割

MM-OVSeg:Multimodal Optical-SAR Fusion for Open-Vocabulary Segmentation in Remote Sensing

Yimin Wei, Aoran Xiao, Hongruixuan Chen et al.

提出MM-OVSeg，一个基于光图和SAR图像融合的遥感开放词汇分割框架，解决恶劣天气下的分割问题。

提出了一种跨模态统一流程，用于多传感器表征对齐。
设计了一个双编码器融合模块，集成了多视觉基础模型的分层特征。

2026-03-18

PDF arXiv

9/10

Vision-Language-Action Kinematics Robotics

KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition

Gaoge Han, Zhengqing Gao, Ziwen Li et al.

提出了KineVLA框架，通过双层动作分解实现对精细运动指令的理解与执行，并在数据集上验证了其优越性。

提出了一个富含运动学信息的VLA任务
提出了KineVLA框架，解耦目标层不变性和运动学层可变性

2026-03-18

PDF arXiv

9/10

开放词汇语义分割视觉语言模型成本聚合

PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation

Jianjian Yin, Tao Chen, Yi Chen et al.

PCA-Seg提出并行成本聚合方法，解决开放词汇语义分割中语义和空间信息的干扰问题。

提出并行成本聚合(PCA)范式
设计专家驱动的感知学习(EPL)模块

2026-03-18

PDF arXiv

9/10

多模态学习医学图像疾病识别

EI: Early Intervention for Multimodal Imaging based Disease Recognition

Qijie Wei, Hailan Lin, Xirong Li

提出一种用于多模态医学图像疾病识别的早期干预框架，解决信息融合和数据稀缺问题。

提出早期干预（EI）框架，利用参考模态指导目标模态嵌入
提出低秩混合适配（MoR）方法，高效微调视觉基础模型

2026-03-18

PDF arXiv

10/10

LMM Image-to-Code Benchmark

Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation

Jiawei Zhou, Chi Zhang, Xiang Feng et al.

Omni-I2C是一个用于评估LMMs将图像转化为代码能力的高保真综合基准。

提出了Omni-I2C基准，包含1080个高质量样本
涵盖多种主题、图像模态和编程语言

2026-03-18

PDF arXiv

8/10

无人机检测 RGB-T 数据集

UAV-CB: A Complex-Background RGB-T Dataset and Local Frequency Bridge Network for UAV Detection

Shenghui Huang, Menghao Hu, Longkun Zou et al.

提出针对复杂背景下无人机检测的RGB-T数据集UAV-CB和局部频率桥网络LFBNet。

构建了新的RGB-T无人机检测数据集UAV-CB
提出了局部频率桥网络LFBNet，用于RGB-T融合

2026-03-18

PDF arXiv

9/10

多模态学习安全性评估统一模型

UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models

Segyu Lee, Boryeong Cho, Hojung Jung et al.

UniSAFE是一个评估统一多模态模型安全性的综合基准，揭示了现有模型在多模态情境下的安全漏洞。

提出了首个针对统一多模态模型的系统级安全基准UniSAFE
构建了包含6802个实例，覆盖7种模态组合的测试数据集

2026-03-18

PDF arXiv

8/10

单目3D目标检测弱监督学习多模态学习

VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection

Chupeng Liu, Jiyong Rao, Shangquan Sun et al.

提出VirPro框架，利用视觉信息提升弱监督单目3D目标检测性能，解决文本描述多样性不足问题。

提出Visual-referred Probabilistic Prompt Learning (VirPro)框架
设计Adaptive Prompt Bank (APB)存储场景相关的提示

2026-03-18

PDF arXiv

9/10

多模态学习序列推荐视觉语言模型

VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation

Junyoung Kim, Woojoo Kim, Jaehyung Lim et al.

VLM2Rec提出了一种基于VLM的序列推荐框架，解决了多模态数据中的模态崩溃问题。

发现了VLM在多模态序列推荐中存在模态崩溃问题
提出了弱模态惩罚对比学习以平衡模态利用

2026-03-18

PDF arXiv

9/10

GUI grounding Vision-Language Model Adaptive Zoom

AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement

Siqi Pei, Liang Tang, Tiaonan Duan et al.

AdaZoom-GUI通过指令优化和自适应缩放提升VLM在GUI界面定位的准确性和效率。

提出了指令优化模块，提升指令理解
设计了自适应缩放策略，优化小元素定位

2026-03-18

PDF arXiv

7/10

机器人操作数据生成 3D资产

ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K

Kaixuan Wang, Tianxing Chen, Jiawei Liu et al.

ManiTwin提出了一种自动化流程，高效生成大规模、高质量的机器人操作数据。

构建了包含10万个高质量3D资产的ManiTwin-100K数据集
提出一种高效的数据生成流程，可将单张图像转换为仿真可用的3D资产

2026-03-17

PDF arXiv

7/10

视频超分辨率交互式视频处理关键帧

SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation

Jiongze Yu, Xiangbo Gao, Pooja Verlani et al.

SparkVSR提出了一种交互式的视频超分辨率框架，利用稀疏关键帧作为控制信号。

提出一种交互式视频超分辨率框架SparkVSR。
使用稀疏关键帧作为用户可控的信号。

2026-03-17

PDF arXiv

9/10

手术智能多模态学习数据集

Surg$Σ$: A Spectrum of Large-Scale Multimodal Data and Foundation Models for Surgical Intelligence

Zhitao Zeng, Mengya Xu, Jian Jiang et al.

Surg$Σ$框架提供大规模多模态手术数据和模型，旨在提升手术智能的泛化性和可解释性。

构建了大规模多模态手术数据集Surg$Σ$-DB
设计了统一的数据模式和分层推理标注

2026-03-17

PDF arXiv

8/10

深度估计 3D重建多模态学习

WildDepth: A Multimodal Dataset for 3D Wildlife Perception and Depth Estimation

Muhammad Aamir, Naoya Muramatsu, Sangyun Shin et al.

WildDepth是一个用于动物3D感知和深度估计的多模态数据集，包含RGB和LiDAR数据。

构建了大规模的动物RGB-LiDAR同步数据集WildDepth
提出了基于多模态数据融合的深度估计和3D重建方法

2026-03-17

PDF arXiv

9/10

3D Vision-Language Model Intraoral Scans Dental Diagnosis

IOSVLM: A 3D Vision-Language Model for Unified Dental Diagnosis from Intraoral Scans

Huimin Xiong, Zijie Meng, Tianxiang Hu et al.

提出了IOSVLM，一种用于口腔扫描3D统一牙科诊断的视觉语言模型。

提出了一个端到端的3D视觉语言模型IOSVLM。
构建了一个大型多源IOS诊断VQA数据集IOSVQA。

2026-03-17

PDF arXiv

7/10

脑电信号深度学习自监督学习

SpecMoE: Spectral Mixture-of-Experts Foundation Model for Cross-Species EEG Decoding

D. Darankoum, C. Habermacher, J. Volle et al.

SpecMoE模型利用频谱信息进行跨物种脑电解码，性能优于现有方法。

提出了基于STFT图和高斯平滑掩码的预训练方法
设计了SpecHi-Net模型，用于高效信号重构

2026-03-17

PDF arXiv

9/10

视觉上下文学习反事实推理图像检索

Retrieving Counterfactuals Improves Visual In-Context Learning

Guangzhi Xiong, Sanchit Sinha, Zhenghao He et al.

CIRCLES通过检索反事实样例，提升视觉上下文学习中视觉语言模型（VLMs）的推理能力。

提出CIRCLES框架，通过属性引导的组合图像检索构建反事实样例集
通过反事实样例提升VLMs对因果关系的推理能力

2026-03-17

PDF arXiv

9/10

VLM Chain-of-Thought Uncertainty Quantification

The Cost of Reasoning: Chain-of-Thought Induces Overconfidence in Vision-Language Models

Robert Welch, Emir Konuk, Kevin Smith

CoT推理会降低VLM的不确定性估计质量，导致模型过度自信，但一致性方法仍然有效。

揭示了CoT推理导致VLM过度自信的现象
指出了隐式答案条件化是造成过度自信的主要原因

2026-03-17

PDF arXiv

9/10

多模态融合光流估计场景流估计

$x^2$-Fusion: Cross-Modality and Cross-Dimension Flow Estimation in Event Edge Space

Ruishan Guo, Ciyu Ruan, Haoyang Wang et al.

提出了$x^2$-Fusion，通过事件边缘空间统一多模态特征，提升光流和场景流估计精度。

提出了事件边缘空间，作为多模态特征统一的潜在空间
提出了可靠性感知自适应融合，提升在退化场景下的稳定性

2026-03-17

PDF arXiv

9/10

LVLM Hallucination Mitigation Visual Grounding

Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation

Jiawei Mao, Hardy Chen, Haoqin Tu et al.

Kestrel是一个免训练的LVLM幻觉缓解框架，通过视觉 grounding 和证据验证的自精炼机制减少幻觉。

提出 Kestrel 框架，结合视觉 grounding 和证据验证自精炼
利用 LVLM 评估证据的真伪，降低过度修正风险

2026-03-17

PDF arXiv

8/10

异常检测场景图归一化流

BUSSARD: Normalizing Flows for Bijective Universal Scene-Specific Anomalous Relationship Detection

Melissa Schween, Mathis Kruse, Bodo Rosenhahn

BUSSARD利用归一化流检测场景图中的异常关系，性能优于现有方法并具备更强的鲁棒性。

提出了一种基于归一化流的异常关系检测模型BUSSARD
在SARD数据集上取得了比SOTA更好的AUROC结果

2026-03-17

PDF arXiv

9/10

Compositional Zero-Shot Learning Flow Matching Vision-Language Model

FlowComposer: Composable Flows for Compositional Zero-Shot Learning

Zhenqi He, Lin Li, Long Chen

FlowComposer提出了一种基于流匹配的CZSL框架，显式融合属性和对象特征，提升模型泛化能力。

提出了FlowComposer框架，显式融合属性和对象特征。
设计了泄漏引导的增强方案，利用残余特征。

2026-03-17

PDF arXiv

9/10

MLLM 人脸识别可解释性

MLLM-based Textual Explanations for Face Comparison

Redwan Sony, Anil K Jain, Ross Arun

分析了MLLM在人脸识别解释上的可靠性，发现其解释存在幻觉问题，并提出了评估框架。

系统分析MLLM生成的人脸识别解释的可靠性
揭示了MLLM解释中存在的幻觉问题

2026-03-17

PDF arXiv

9/10

视觉-语言模型奖励模型强化学习

Rationale Matters: Learning Transferable Rubrics via Proxy-Guided Critique for VLMReward Models

Weijie Qiu, Dai Guan, Junxin Wang et al.

提出Proxy-GRM，通过代理引导的评价标准验证，提升视觉-语言模型奖励模型的标准质量。

提出Proxy-GRM框架，显式优化奖励模型的中间评价标准。
引入轻量级代理，预测偏好排序，并以此作为评价标准质量的奖励。

2026-03-17

PDF arXiv

5/10

姿态估计动物姿态估计频率空间融合

FSMC-Pose: Frequency and Spatial Fusion with Multiscale Self-calibration for Cattle Mounting Pose Estimation

Fangjing Li, Zhihai Wang, Xinxin Ding et al.

FSMC-Pose通过频率空间融合和多尺度自校准，提升复杂环境下牛只骑跨姿态估计的准确性。

提出轻量级的频率-空间融合网络CattleMountNet，用于分离牛只和背景
设计多尺度自校准头SC2Head，减少动物重叠造成的结构错位

2026-03-17

PDF arXiv

9/10

量化 MXFP4 模型压缩

BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

Ji-Fu Li, Manyi Zhang, Xiaobo Xia et al.

BATQuant通过块级优化实现对MXFP4量化的鲁棒性，显著提升MLLM/LLM性能。

提出块级仿射变换，防止跨块异常值传播
引入全局和私有Kronecker分解，降低存储和运行时开销

2026-03-17

PDF arXiv

9/10

VLM 时间敏感知识多模态学习

V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models

Seyed Mahed Mousavi, Christian Moiola, Massimo Rizzoli et al.

V-DyKnow基准测试评估VLMs在时间敏感知识上的表现，揭示了模型在事实更新和跨模态一致性方面的局限性。

提出了V-DyKnow基准测试，用于评估VLMs的时间敏感知识
分析了VLMs在跨模态和输入扰动下的可靠性

2026-03-17

PDF arXiv

9/10

多视角视觉推理视觉语言基准数据集

VIEW2SPACE: Studying Multi-View Visual Reasoning from Sparse Observations

Fucai Ke, Zhixi Cai, Boying Li et al.

研究稀疏多视角视觉推理，提出VIEW2SPACE基准和Grounded Chain-of-Thought方法。

提出 VIEW2SPACE 多视角推理基准数据集
设计 Grounded Chain-of-Thought with Visual Evidence 方法

2026-03-17

PDF arXiv

9/10

LLM Multimodal Learning Intelligent Transportation

ExpressMind: A Multimodal Pretrained Large Language Model for Expressway Operation

Zihe Wang, Yihuan Wang, Haiyang Yu. Zhiyong Cui et al.

ExpressMind是一个专为高速公路运营设计的预训练多模态大语言模型，提升智能交通认知能力。

构建了行业首个全栈高速公路数据集
提出了基于自监督学习和无监督学习的双层LLM预训练范式

2026-03-17

PDF arXiv

7/10

Speech Emotion Recognition Speech Synthesis Generalization

On the Emotion Understanding of Synthesized Speech

Yuan Ge, Haishu Zhao, Aokai Hao et al.

现有语音情感识别模型难以泛化到合成语音，因为合成语音与人类语音存在表征不匹配，且SLM倾向于从文本语义推断情感。

揭示了语音情感识别模型在合成语音上的泛化性问题
指出现有SER模型利用非鲁棒的捷径而非捕捉根本特征

2026-03-17

PDF arXiv

9/10

Multimodal Emotion Recognition Deductive Reasoning Reinforcement Learning

Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition

Yu Liu, Lei Zhang, Haoxun Li et al.

HyDRA通过混合证据演绎推理解决开放词汇多模态情感识别中的歧义性问题，并提供可解释的证据。

提出HyDRA，一种混合证据演绎推理架构
采用强化学习进行分层奖励塑造，优化推理轨迹

2026-03-17

PDF arXiv

9/10

MLLM 3D Spatial Perception Geometric Alignment

GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models

Jiaxin Zhang, Junjun Jiang, Haijie Li et al.

GAP-MLLM通过几何对齐预训练，增强MLLM在3D空间感知任务中的性能。

提出GAP-MLLM框架，显式激活MLLM的结构感知能力
引入视觉提示联合任务，预测稀疏点云和语义标签

2026-03-17

PDF arXiv

9/10

多模态学习文档检索视觉语言模型

Evo-Retriever: LLM-Guided Curriculum Evolution with Viewpoint-Pathway Collaboration for Multimodal Document Retrieval

Weiqing Li, Jinyue Guo, Yaqi Wang et al.

Evo-Retriever利用LLM指导的课程演化，通过多视角-路径协同提升多模态文档检索性能。

提出了基于LLM指导的课程演化检索框架Evo-Retriever
设计了多视角图像对齐方法增强细粒度匹配

2026-03-17

PDF arXiv

9/10

视觉语言模型道德推理多模态学习

Visual Distraction Undermines Moral Reasoning in Vision-Language Models

Xinyi Yang, Chenheng Xu, Weijun Hong et al.

视觉输入会干扰视觉语言模型的道德推理，绕过基于文本的安全机制，造成安全隐患。

揭示了视觉输入对视觉语言模型道德推理的负面影响
提出了多模态道德困境模拟（MDS）基准测试

2026-03-17

PDF arXiv

7/10

目标检测领域泛化知识蒸馏

CD-FKD: Cross-Domain Feature Knowledge Distillation for Robust Single-Domain Generalization in Object Detection

Junseok Lee, Sungho Shin, Seongju Lee et al.

提出CD-FKD，通过跨域特征知识蒸馏提升目标检测模型在单领域泛化中的鲁棒性。

提出Cross-Domain Feature Knowledge Distillation (CD-FKD)方法
利用全局和实例级特征蒸馏增强学生网络的泛化能力

2026-03-17

PDF arXiv

8/10

物理参数估计视频分析动态系统

IRIS: A Real-World Benchmark for Inverse Recovery and Identification of Physical Dynamic Systems from Monocular Video

Rasul Khanbayov, Mohamed Rayan Barhdadi, Erchin Serpedin et al.

IRIS基准数据集，用于从视频中进行物理动态系统的逆向恢复和辨识研究。

构建高保真真实世界视频数据集IRIS
定义标准化评估协议

2026-03-17

PDF arXiv

6/10

云分割短时预报全天图像

LenghuSky-8: An 8-Year All-Sky Cloud Dataset with Star-Aware Masks and Alt-Az Calibration for Segmentation and Nowcasting

Yicheng Rui, Xiao-Wei Duan, Licai Deng et al.

发布LenghuSky-8八年全天云图数据集，含星敏感掩膜和高精度校准，用于云分割和短时预报。

构建了长时间序列全天云图数据集，数据质量高
提出了基于DINOv3特征的云分割方法，精度高

2026-03-17

PDF arXiv

9/10

跨模态学习自监督学习浮游生物识别

Cross-modal learning for plankton recognition

Joona Kareinen, Veikka Immonen, Tuomas Eerola et al.

提出一种基于自监督跨模态学习的浮游生物识别方法，有效利用图像和光学测量数据，减少标注需求。

提出基于对比学习的跨模态浮游生物识别方法
利用光学测量数据辅助图像识别，减少人工标注

2026-03-17

PDF arXiv

9/10

多模态学习生存风险预测 Mamba

HGP-Mamba: Integrating Histology and Generated Protein Features for Mamba-based Multimodal Survival Risk Prediction

Jing Dai, Chen Wu, Ming Wu et al.

HGP-Mamba是一种基于Mamba的多模态框架，结合组织学和生成的蛋白特征进行癌症生存风险预测。

提出一种高效的蛋白特征提取器 (PFE)
引入Local Interaction-aware Mamba (LiAM) 用于细粒度特征交互

2026-03-17

PDF arXiv

9/10

Arabic NLP Generative AI Language Model

Fanar 2.0: Arabic Generative AI Stack

FANAR TEAM, Ummar Abbas, Mohammad Shahmeer Ahmad et al.

Fanar 2.0是卡塔尔的以阿拉伯语为中心的生成式AI平台，在资源有限的情况下取得了显著的性能提升。

建立了以阿拉伯语为中心的完整生成式AI平台
在资源约束下，通过数据质量控制、持续预训练和模型合并实现了性能提升

2026-03-17

PDF arXiv

8/10

生成对抗网络皮肤病灶分类数据增强

DermaFlux: Synthetic Skin Lesion Generation with Rectified Flows for Enhanced Image Classification

Stathis Galanakis, Alexandros Koliousis, Stefanos Zafeiriou

DermaFlux利用Rectified Flows生成高质量皮肤病灶图像，提升分类性能。

提出DermaFlux生成框架
使用LoRA进行参数高效微调

2026-03-17

PDF arXiv

9/10

visual tokenization image reconstruction image generation

Semantic One-Dimensional Tokenizer for Image Reconstruction and Generation

Yunpeng Qu, Kaidong Zhang, Yukang Ding et al.

提出SemTok，一种将图像压缩为具有高级语义的1D离散token的语义Tokenizer。

提出了2D到1D的tokenization方案
提出了语义对齐约束

2026-03-17

PDF arXiv

9/10

Medical VQA Multimodal Learning Visual Cues

InViC: Intent-aware Visual Cues for Medical Visual Question Answering

Zhisong Wang, Ziyang Chen, Zanting Ye et al.

InViC通过意图感知视觉线索增强医学VQA中MLLM对图像的关注，提高临床可靠性。

提出了InViC框架，显式增强MLLM对视觉证据的利用
设计了Cue Tokens Extraction (CTE) 模块，提取关键视觉线索

2026-03-17

PDF arXiv

8/10

remote sensing neuro-symbolic route planning

NeSy-Route: A Neuro-Symbolic Benchmark for Constrained Route Planning in Remote Sensing

Ming Yang, Zhi Zhou, Shi-Yu Tian et al.

NeSy-Route是一个用于遥感约束路径规划的大规模神经符号基准。

提出了NeSy-Route基准，用于评估遥感中的约束路径规划能力
开发了自动数据生成框架，生成具有最优解的多样化路径规划任务

2026-03-17

PDF arXiv

9/10

multimodal benchmarking visual reasoning

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

Zhengbo Zhang, Jinbo Su, Zhaowen Zhou et al.

提出了一个名为VisBrowse-Bench的新型视觉原生搜索基准，用于评估多模态浏览代理的视觉推理能力。

提出了VisBrowse-Bench基准数据集，包含169个VQA实例
提出了一个代理工作流，用于驱动浏览代理主动收集和推理视觉信息

2026-03-17

PDF arXiv

8/10

故事可视化角色定制多模态学习

Persistent Story World Simulation with Continuous Character Customization

Jinlu Zhang, Qiyun Wang, Baoxiang Du et al.

EverTale通过持续角色定制实现持久故事世界模拟，提升角色一致性和视觉故事质量。

提出All-in-One-World Character Integrator
引入基于MLLM的Character Quality Gate

2026-03-17

PDF arXiv

8/10

微手势识别细粒度语义视觉语言模型

FG-SGL: Fine-Grained Semantic Guidance Learning via Motion Process Decomposition for Micro-Gesture Recognition

Jinsheng Wei, Zhaodi Xu, Guanming Lu et al.

提出FG-SGL框架，利用细粒度语义指导微手势识别，提升对细微动作差异的感知能力。

提出FG-SGL框架，融合细粒度和类别语义指导。
构建细粒度文本数据集，描述微手势的动态过程。

2026-03-17

PDF arXiv

9/10

多模态学习零样本学习信息抽取

Hyperbolic Multimodal Generative Representation Learning for Generalized Zero-Shot Multimodal Information Extraction

Baohang Zhou, Kehui Song, Rize Jin et al.

提出一种双曲多模态生成表示学习框架HMGRL，解决广义零样本多模态信息抽取问题。

提出双曲多模态生成表示学习框架HMGRL
在双曲空间重建变分信息瓶颈和自编码器

2026-03-17

PDF arXiv

9/10

视频问答多模态学习视觉推理

When Thinking Hurts: Mitigating Visual Forgetting in Video Reasoning via Frame Repetition

Xiaokun Sun, Yubo Wang, Haoyu Cao et al.

针对视频问答中视觉信息丢失问题，提出FrameRepeat框架，通过帧重复增强视觉线索。

提出FrameRepeat框架，自动识别并重复关键帧。
提出Add-One-In (AOI)训练策略，利用MLLM输出概率生成监督信号。

2026-03-17

PDF arXiv

9/10

multimodal reasoning vision-language

Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models

Junxin Wang, Dai Guan, Weijie Qiu et al.

提出EVPV方法，通过显式视觉前提验证来提升视觉-语言过程奖励模型的可靠性。

提出EVPV框架，解耦感知不确定性和逻辑评估
利用视觉检查表和约束提取器进行视觉前提验证

2026-03-17

PDF arXiv

8/10

SVG LLM 强化学习

Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning

Haomin Wang, Qi Wei, Qianli Ma et al.

CTRL-S通过多任务多奖励强化学习提升SVG-LLM的推理能力和生成质量。

提出CTRL-S框架，引入CoT进行SVG生成推理
构建高质量SVG-Sophia数据集

2026-03-17

PDF arXiv

9/10

多模态学习内容审核儿童安全

KidsNanny: A Two-Stage Multimodal Content Moderation Pipeline Integrating Visual Classification, Object Detection, OCR, and Contextual Reasoning for Child Safety

Viraj Panchal, Tanmay Talsaniya, Parag Patel et al.

提出KidsNanny多模态内容审核框架，结合视觉和文本分析提高儿童安全内容检测效率。

提出了一个两阶段多模态内容审核架构KidsNanny
结合视觉分类、目标检测、OCR和上下文推理

2026-03-17

PDF arXiv

9/10

360° Image Multimodal Large Language Models Visual Question Answering

360° Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method

Huyen T. T. Tran, Van-Quang Nguyen, Farros Alferro et al.

针对MLLM在360°图像理解的不足，提出了360Bench基准测试和无训练的Free360框架。

提出了360Bench，一个高分辨率360°图像VQA基准。
系统评估了MLLM和增强方法在360°图像理解方面的能力。

2026-03-17

PDF arXiv

9/10

机器人操作动态环境视觉语言动作模型

Towards Generalizable Robotic Manipulation in Dynamic Environments

Heng Fang, Shangru Li, Shuhan Wang et al.

论文提出了DOMINO数据集和PUMA模型，用于提升VLA模型在动态环境下的机器人操作能力。

构建了大规模动态操作数据集DOMINO
提出了动态感知VLA架构PUMA

2026-03-16

PDF arXiv

9/10

VLA 机器人操作视觉语言

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Yulin Luo, Hao Chen, Zhuangzhe Wu et al.

提出DeepVision-VLA，增强VLA模型视觉表征，提升机器人操作性能。

提出DeepVision-VLA框架，利用VL-MoT增强视觉信息。
引入Action-Guided Visual Pruning (AGVP)剪枝，降低计算开销。

2026-03-16

PDF arXiv

9/10

强化学习视频MLLM 机器人操作

From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

Yibin Liu, Yaxing Lyu, Daqi Gao et al.

提出PRIMO R1框架，利用强化学习提升视频MLLM在机器人操作中的过程推理能力，实现更精准的监督。

提出PRIMO R1框架，将视频MLLM转化为主动“评论员”
利用强化学习激励显式的思维链生成，用于进度估计

2026-03-16

PDF arXiv

10/10

幻觉检测视觉语言模型信息论

Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models

Lexiang Xiong, Qi Li, Jingwen Ye et al.

提出一个多阶段诊断框架，通过认知状态空间追踪视觉语言模型中的幻觉问题。

提出新的幻觉诊断范式，将幻觉视为动态认知病理
构建基于信息论探针的认知状态空间，实现幻觉检测

2026-03-16

PDF arXiv

9/10

医疗越南语胸部X光

ViX-Ray: A Vietnamese Chest X-Ray Dataset for Vision-Language Models

Duy Vu Minh Nguyen, Chinh Thanh Truong, Phuc Hoang Tran et al.

该论文发布了包含5400张越南胸部X光片的ViX-Ray数据集，用于评估和提升VLM在越南临床领域的表现。

创建了ViX-Ray越南胸部X光片数据集
分析了数据集中的语言模式

2026-03-16

PDF arXiv

8/10

遥感图像生成扩散模型边缘引导

RSGen: Enhancing Layout-Driven Remote Sensing Image Generation with Diverse Edge Guidance

Xianbao Hou, Yonghao He, Zeyd Boukhers et al.

RSGen通过多样化边缘引导，提升布局驱动的遥感图像生成效果，优化目标检测。

提出RSGen框架，利用边缘信息增强遥感图像生成
使用图像到图像生成增强边缘图的多样性

2026-03-16

PDF arXiv

9/10

多模态学习大语言模型时序推理

Evaluating Time Awareness and Cross-modal Active Perception of Large Models via 4D Escape Room Task

Yurui Dong, Ziyue Wang, Shuyun Lu et al.

提出了EscapeCraft-4D环境，评估大模型在时序感知和跨模态主动感知方面的能力。

提出了EscapeCraft-4D环境
评估了现有模型在时序感知和跨模态融合方面的不足

2026-03-16

PDF arXiv

8/10

时间序列预测多模态学习 LLM

Unlocking the Value of Text: Event-Driven Reasoning and Multi-Level Alignment for Time Series Forecasting

Siyuan Wang, Peng Chen, Yihang Wang et al.

VoT模型利用事件驱动推理和多层次对齐，提升文本在时间序列预测中的价值。

提出Event-driven Reasoning，结合文本信息和LLM推理能力
提出Historical In-context Learning，指导LLM进行有效的推理

2026-03-16

PDF arXiv

5/10

音乐信息检索音乐流派分类机器学习

Music Genre Classification: A Comparative Analysis of Classical Machine Learning and Deep Learning Approaches

Sachin Prajuli, Abhishek Karna, OmPrakash Dhakl

论文比较了经典机器学习和深度学习方法在尼泊尔音乐流派分类上的应用，并提出了新的数据集。

构建了一个包含8个尼泊尔音乐流派的新数据集
比较了9种分类模型在尼泊尔音乐流派分类上的性能

2026-03-16

PDF arXiv

9/10

多语言文档理解场景文本

SEA-Vision: A Multilingual Benchmark for Comprehensive Document and Scene Text Understanding in Southeast Asia

Pengfei Yue, Xingran Zhao, Juntao Chen et al.

SEA-Vision，一个东南亚多语言文档和场景文本理解的综合基准。

构建了包含11种东南亚语言的文档和场景文本理解基准SEA-Vision
SEA-Vision包含文档解析和文本中心视觉问答(TEC-VQA)两个任务

2026-03-16

PDF arXiv

7/10

目标检测自动驾驶知识保留

Detection of Autonomous Shuttles in Urban Traffic Images Using Adaptive Residual Context

Mohamed Aziz Younes, Nicolas Saunier, Guillaume-Alexandre Bilodeau

提出Adaptive Residual Context(ARC)架构，用于在城市交通图像中高效检测自动驾驶车辆。

提出ARC架构，解决新目标检测的灾难性遗忘问题
通过Context-Guided Bridge连接上下文分支和任务分支，保留预训练表示

2026-03-16

PDF arXiv

7/10

对抗攻击人脸重识别对抗补丁

AI Evasion and Impersonation Attacks on Facial Re-Identification with Activation Map Explanations

Noe Claudel, Weisi Guo, Yang Xing

提出一种新的对抗性补丁生成框架，用于攻击人脸重识别系统，可实现逃逸和模仿攻击。

提出基于条件编码器-解码器的对抗补丁生成框架，无需迭代优化。
利用双重对抗目标优化补丁，包括拉取和推送项。

2026-03-16

PDF arXiv

8/10

XR WebXR Multimodal

Multimodal Cyber-physical Interaction in XR: Hybrid Doctoral Thesis Defense

Ahmad Alhilal, Kit Yung Lam, Lik-Hang Lee et al.

提出了一个支持混合XR博士论文答辩的多模态框架，并成功进行了首次实践。

提出支持多种参与方式的XR框架
集成全身动作捕捉实现自然交互

2026-03-16

PDF arXiv

6/10

Flow-Based Generative Models Conditional Flow Matching Optimal Transport

Faster Inference of Flow-Based Generative Models via Improved Data-Noise Coupling

Aram Davtyan, Leello Tadesse Dadi, Volkan Cevher et al.

LOOM-CFM通过跨minibatch优化数据噪声耦合，加速Flow-Based生成模型的推理。

提出LOOM-CFM方法，扩展minibatch OT的范围
提升Flow-Based生成模型采样速度-质量权衡

2026-03-16

PDF arXiv

7/10

数据集多样性图像分类 chest X-ray

Dataset Diversity Metrics and Impact on Classification Models

Théo Sourget, Niclas Claßen, Jack Junchi Xu et al.

研究数据集多样性指标与模型性能的相关性，发现部分指标与模型表现相关。

评估多种数据集多样性指标
分析指标与下游任务性能的相关性

2026-03-16

PDF arXiv

9/10

统一模型模型加速多模态学习

Flash-Unified: A Training-Free and Task-Aware Acceleration Framework for Native Unified Models

Junlong Ke, Zichen Wen, Boxue Yang et al.

FlashU框架通过任务感知优化，在统一模型中实现生成和理解任务的加速，且保持性能。

首次系统分析了统一模型中的参数专业化现象
提出了无需训练的任务感知加速框架FlashU

2026-03-16

PDF arXiv

7/10

自监督学习对比学习表征学习

IConE: Batch Independent Collapse Prevention for Self-Supervised Representation Learning

Konstantinos Almpanakis, Anna Kreshuk

IConE提出了一种不依赖batch size的自监督学习方法，通过全局可学习实例嵌入防止表征坍塌。

提出了IConE框架，解耦了坍塌预防和batch size
引入了可学习的辅助实例嵌入，通过多样性目标正则化

2026-03-16

PDF arXiv

7/10

天气预报多智能体跨模态学习

AGCD: Agent-Guided Cross-Modal Decoding for Weather Forecasting

Jing Wu, Yang Liu, Lin Zhang et al.

AGCD提出一种利用多智能体和跨模态解码进行天气预报的框架，提升预测精度和物理一致性。

提出Agent-Guided Cross-modal Decoding (AGCD) 框架
利用MLLMs生成状态条件物理先验知识

2026-03-16

PDF arXiv

9/10

视觉语言模型安全越狱攻击

Directional Embedding Smoothing for Robust Vision Language Models

Ye Wang, Jing Liu, Toshiaki Koike-Akino

该论文扩展了RESTA防御，通过方向性嵌入平滑，增强了视觉语言模型抵抗越狱攻击的鲁棒性。

将RESTA防御扩展到VLMs
提出方向性嵌入噪声，提升防御效果

2026-03-16

PDF arXiv

9/10

幻觉检测图像描述基准测试

HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning

Kuniaki Saito, Risa Shinoda, Shohei Tanaka et al.

提出了HalDec-Bench，一个评估图像描述幻觉检测器性能的基准，包含多样的模型和幻觉类型。

构建了HalDec-Bench基准，用于评估幻觉检测器。
提供了不同幻觉类型的细粒度标注。

2026-03-16

PDF arXiv

9/10

视觉语言模型物理异常检测指令微调

Multi-turn Physics-informed Vision-language Model for Physics-grounded Anomaly Detection

Yao Gu, Xiaohao Xu, Yingna Wu

提出物理信息指导的多轮对话视觉语言模型，显著提升物理异常检测性能。

提出物理信息指导的指令微调框架
引入多轮对话分解因果推理

2026-03-16

PDF arXiv

9/10

多模态学习视觉理解视觉生成

HYDRA: Unifying Multi-modal Generation and Understanding via Representation-Harmonized Tokenization

Xuerui Qiu, Yutao Cui, Guozhen Zhang et al.

HYDRA通过Representation-Harmonized Tokenization统一多模态生成与理解，达到新的SOTA。

提出HYDRA-TOK，一种representation-harmonized ViT
引入Generation-Semantic Bottleneck (GSB) 机制

2026-03-16

PDF arXiv

9/10

文档解析并行解码视觉语言模型

Efficient Document Parsing via Parallel Token Prediction

Lei Li, Ze Zhao, Meng Li et al.

论文提出了一种并行Token预测方法PTP，加速VLM文档解析，提升效率和泛化能力。

提出并行Token预测方法PTP，加速文档解析
设计数据生成流程，提供大规模高质量训练数据

2026-03-16

PDF arXiv

8/10

自闭症谱系障碍多模态融合图学习

Multimodal Connectome Fusion via Cross-Attention for Autism Spectrum Disorder Classification Using Graph Learning

Ansar Rahman, Hassan Shojaee-Mend, Sepideh Hatamikia

论文提出一种基于图学习和交叉注意力的多模态融合框架，用于自闭症谱系障碍分类。

提出基于图学习的多模态融合框架
引入非对称Transformer交叉注意力机制

2026-03-16

PDF arXiv

9/10

长视频理解视觉压缩记忆反馈

Question-guided Visual Compression with Memory Feedback for Long-Term Video Understanding

Sosuke Yamao, Natsuki Miyahara, Yuankai Qi et al.

提出QViC-MF框架，利用问题引导的记忆反馈机制，提升长视频理解任务性能。

提出 Question-guided Visual Compression with Memory Feedback (QViC-MF) 框架
设计 Question-guided Multimodal Selective Attention (QMSA) 模块

2026-03-16

PDF arXiv

9/10

知识蒸馏视觉语言模型细粒度图像分类

DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer

Zhengxu He, Jun Li, Zhijian Wu

提出DAIT，利用中间教师网络自适应地将VLM知识迁移到轻量级分类器，提升细粒度图像分类性能。

提出DAIT框架，解决VLM到轻量级模型知识蒸馏的对齐问题
引入可训练的中间教师网络，提取任务相关的判别性视觉线索

2026-03-16

PDF arXiv

9/10

COVID-19 CT图像多专家融合

Vision-Language Model Based Multi-Expert Fusion for CT Image Classification

Jianfa Bai, Kejin Lu, Runtian Yuan et al.

提出一种多专家融合框架，用于解决多源CT图像的COVID-19检测问题。

提出肺部感知的3D专家模型
开发基于MedSigLIP的切片级和跨切片专家模型

2026-03-16

PDF arXiv

9/10

多模态学习信息抽取基准测试

VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

Udi Barzelay, Ophir Azulai, Inbar Shapira et al.

VAREX是一个用于评估多模态模型从政府表格中抽取结构化数据的基准。

提出了VAREX基准，用于评估多模态模型结构化数据抽取能力
使用了Reverse Annotation pipeline生成确定性ground truth

2026-03-16

PDF arXiv

9/10

多模态学习知识更新评估基准

MMKU-Bench: A Multimodal Update Benchmark for Diverse Visual Knowledge

Baochen Fu, Yuntao Du, Cheng Chang et al.

提出MMKU-Bench，一个用于多模态知识更新的综合评估基准，包含更新知识和未知知识两种场景。

构建了一个多模态知识更新的综合评估基准MMKU-Bench
涵盖更新知识和未知知识两种场景，促进不同知识类型学习的比较分析

2026-03-16

PDF arXiv

9/10

多模态学习深度学习医学影像

Learning from Limited and Incomplete Data: A Multimodal Framework for Predicting Pathological Response in NSCLC

Alice Natalina Caragliano, Giulia Farina, Fatih Aksu et al.

该论文提出一种多模态深度学习框架，利用CT影像和临床数据预测NSCLC新辅助治疗后的主要病理反应。

提出基于基础模型CT特征提取方法
设计缺失感知架构处理不完整的临床数据

2026-03-16

PDF arXiv

9/10

VLA 机器人操作深度状态空间模型

AnoleVLA: Lightweight Vision-Language-Action Model with Deep State Space Models for Mobile Manipulation

Yusuke Takagi, Motonari Kambara, Daichi Yashima et al.

AnoleVLA是一种轻量级视觉-语言-动作模型，利用深度状态空间模型高效处理多模态序列，提升移动机器人的操作性能。

提出了轻量级VLA模型AnoleVLA
使用深度状态空间模型处理视觉和文本输入

2026-03-16

PDF arXiv

9/10

Multimodal Learning AI Agents Benchmarking

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Xuanyu Zhu, Yuhao Dong, Rundong Wang et al.

VTC-Bench是一个评估MLLM工具使用能力的综合基准，包含32种OpenCV工具和680个问题。

提出了VTC-Bench，一个用于评估MLLM工具使用能力的基准。
VTC-Bench包含32种OpenCV工具，支持复杂的工具组合和长时程规划。

2026-03-16

PDF arXiv

9/10

Meme Multimodal Generation Reappraisal

MER-Bench: A Comprehensive Benchmark for Multimodal Meme Reappraisal

Yiqi Nie, Fei Wang, Junjie Chen et al.

提出了Meme Reappraisal任务，构建了MER-Bench数据集，并提出了评估框架。

提出了Meme Reappraisal任务
构建了MER-Bench数据集

2026-03-16

PDF arXiv

9/10

视觉语言模型化学反应图解析强化学习

Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing

Jiahe Song, Chuang Wang, Yinfan Wang et al.

论文提出IdtVP提示策略和Re3-DAPO强化学习算法，提升VLM在化学反应图解析中的准确性和泛化能力。

提出Identifier as Visual Prompting (IdtVP)
引入Re3-DAPO强化学习算法

2026-03-16

PDF arXiv

9/10

VideoQA MLLM Visual Reasoning

Clue Matters: Leveraging Latent Visual Clues to Empower Video Reasoning

Kaixin zhang, Xiaohe Li, Jiahao Li et al.

ClueNet通过挖掘视觉线索增强视频推理能力，提升VideoQA性能，并缓解幻觉问题。

提出ClueNet框架，利用视觉线索进行视频推理
解耦监督学习，对线索提取和链式推理进行对齐

2026-03-16

PDF arXiv

8/10

视频帧插值图像编辑模型少量样本学习

Edit2Interp: Adapting Image Foundation Models from Spatial Editing to Video Frame Interpolation with Few-Shot Learning

Nasrin Rahimi, Mısra Yavuz, Burak Can Biner et al.

利用图像编辑模型的空间先验知识，通过少量样本微调实现视频帧插值。

提出了一种利用图像编辑模型进行视频帧插值的方法
证明了图像编辑模型的空间理解能力可以转化为时间推理能力

2026-03-16

PDF arXiv

9/10

假新闻检测多模态学习跨模态一致性

Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos

Chong Tian, Yu Wang, Chenxu Yang et al.

提出MAGIC3模型，通过建模跨模态一致性来检测短视频中的假新闻。

提出MAGIC3模型，显式建模跨三模态一致性
利用多风格LLM重写来获得风格鲁棒的文本表示

2026-03-16

PDF arXiv

10/10

多模态学习推测解码视觉语言模型

MMSpec: Benchmarking Speculative Decoding for Vision-Language Models

Hui Shen, Xin Wang, Ping Zhang et al.

论文提出了MMSpec基准测试，评估视觉语言模型中推测解码的加速效果，并提出了ViSkip方法。

构建了MMSpec基准测试，包含600个多模态样本
发现了文本LLM推测解码方法在多模态场景下的退化现象

2026-03-16

PDF arXiv

9/10

情感计算多模态融合注意力机制

Anchoring Emotions in Text: Robust Multimodal Fusion for Mimicry Intensity Estimation

Lingsi Zhu, Yuefeng Zou, Yunxiang Zhang et al.

TAEMI利用文本锚定和跨模态注意力机制，提升了情感模仿强度的估计精度，尤其在数据缺失情况下表现鲁棒。

提出TAEMI框架，用于情感模仿强度估计
引入Text-Anchored Dual Cross-Attention机制

2026-03-16

PDF arXiv

9/10

遥感世界模型多模态

RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting

Linrui Xu, Zhongan Wang, Fei Shen et al.

RS-WorldModel统一遥感理解与未来预测，提出新数据集RSWBench-1.1M并超越现有模型。

提出统一遥感世界模型RS-WorldModel
构建大规模遥感数据集RSWBench-1.1M

2026-03-16

PDF arXiv

9/10

MLLM 视觉组合推理基准测试

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Haozhan Shen, Shilin Yan, Hongwei Xue et al.

提出了MM-CondChain基准，用于评估MLLM在视觉组合推理方面的能力，并发现现有模型表现不足。

提出了MM-CondChain基准，用于评估视觉组合推理能力。
设计了一个agentic合成流程，可扩展地构建基准数据。

2026-03-12

PDF arXiv

9/10

图像编辑多模态学习推理

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Mingxin Liu, Ziqian Fan, Zhaokai Wang et al.

GRADE基准测试学科知识驱动的图像编辑推理能力，揭示现有模型在该领域的不足。

提出了GRADE基准数据集，包含10个学科领域的520个样本
提出了多维度评估协议，评估学科推理、视觉一致性和逻辑可读性

2026-03-12

PDF arXiv

9/10

视频理解多模态大模型注意力机制

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Baifeng Shi, Stephanie Fu, Long Lian et al.

AutoGaze通过自回归方式选择关键视频帧，减少计算量，提升多模态大模型处理长视频的能力。

提出AutoGaze模块，显著减少视频处理中的冗余计算。
在多个视频基准测试上取得了优异的结果。

2026-03-12

PDF arXiv

9/10

Multimodal Learning Diffusion Models Chain-of-Thought

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Xuanlang Dai, Yujie Zhou, Long Xing et al.

EndoCoT通过迭代细化潜在思想状态，并将其与扩散模型的去噪过程桥接，增强了MLLM的推理能力。

提出了EndoCoT框架，增强了MLLM在扩散模型中的推理能力
引入迭代思想引导模块，激活MLLM的推理潜力

2026-03-12

PDF arXiv

9/10

多模态学习文档推理科学QA

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Ziyu Chen, Yilun Zhao, Chengye Wang et al.

SciMDR提出一种合成和重构框架，构建大规模科学多模态文档推理数据集，提升模型在科学QA任务中的表现。

提出 synthesize-and-reground 框架
构建大规模科学多模态文档推理数据集 SciMDR

2026-03-12

PDF arXiv

9/10

3D场景生成 VLM 视觉反馈

SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation

Jun Luo, Jiaxiang Tang, Ruijie Lu et al.

SceneAssistant通过视觉反馈迭代优化，实现开放词汇的3D场景生成。

提出基于视觉反馈的3D场景生成框架
利用VLM进行空间推理和规划

2026-03-12

PDF arXiv

9/10

多模态学习视觉语言模型取证

ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models

Yingxin Lai, Zitong Yu, Jun Wang et al.

ForensicZip通过Forgery驱动的token压缩，加速多模态取证模型并保持检测性能。

提出了ForensicZip框架，用于取证视觉语言模型的token压缩。
利用Birth-Death Optimal Transport问题建模时间token演化，识别伪造痕迹。

2026-03-12

PDF arXiv

9/10

VLM 行为理解姿态估计

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

Jingyang Ke, Weihan Li, Amartya Pradhan et al.

BehaviorVLM提出了一种无需微调的视觉语言模型，用于动物行为的姿态估计和行为理解。

提出BehaviorVLM，一个统一的视觉语言框架
无需任务特定的微调

2026-03-12

PDF arXiv

9/10

多模态学习几何推理隐空间表示

LatentGeo: Learnable Auxiliary Constructions in Latent Space for Multimodal Geometric Reasoning

Haiying Xu, Zihan Wang, Song Dai et al.

LatentGeo通过学习隐空间表示来解决多模态几何推理中辅助线构建的难题。

提出了LatentGeo框架，学习连续的隐空间视觉表示
设计了三阶段课程学习方法，逐步对齐和内化隐空间表示

2026-03-12

PDF arXiv

8/10

文本渲染 Text-to-Image Agentic Workflow

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

Zexuan Yan, Jiarui Jin, Yue Ma et al.

GlyphBanana通过agentic workflow和glyph模板注入，提升文本渲染的精确度，尤其在复杂字符和公式渲染方面。

提出了 GlyphBanana，一个用于精确文本渲染的agentic workflow
设计了专门用于复杂字符和公式渲染的 benchmark

2026-03-12

PDF arXiv

9/10

MLLM 置信度校准强化学习

Linking Perception, Confidence and Accuracy in MLLMs

Yuetian Du, Yucheng Wang, Rongyu Zhang et al.

论文研究MLLM的置信度校准问题，提出CDRL和CA-TTS框架，提升模型性能并实现置信度感知。

揭示MLLM的置信度误校准问题
提出Confidence-Driven Reinforcement Learning (CDRL)方法

2026-03-12

PDF arXiv

9/10

意图理解第一视角视频 MLLM

EgoIntent: An Egocentric Step-level Benchmark for Understanding What, Why, and Next

Ye Pan, Chi Kit Wong, Yuanhuiyi Lyu et al.

提出了EgoIntent，一个用于评估第一视角视频中细粒度意图理解的基准数据集。

提出了EgoIntent基准数据集，包含3014个步骤和15个场景
定义了三个意图理解维度：What, Why, Next

2026-03-12

PDF arXiv

9/10

3D generation Human-Object Interaction Multimodal learning

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Agniv Sharma, Xianghui Xie, Tom Fischer et al.

Hoi3DGen通过高质量交互数据和文本到3D流程，显著提升了3D人机交互生成的质量和保真度。

构建了高质量的3D人机交互数据集
提出了一个完整的文本到3D的生成框架

2026-03-12

PDF arXiv

9/10

图像Tokenizer 视觉理解图像生成

EvoTok: A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation

Yan Li, Ning Liao, Xiangyu Zhao et al.

EvoTok提出了一种统一的图像Tokenizer，通过残差演化过程弥合视觉理解和生成之间的差距。

提出EvoTok，一种统一的图像Tokenizer。
通过残差向量量化实现图像的演化式表示。

2026-03-12

PDF arXiv

9/10

Multimodal Learning Vision-Language Model Medical Imaging

Paper Title: LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments

Zhaoyang Jiang, Zhizhong Fu, David McAllister et al.

LoV3D利用3D视觉语言模型，结合区域体积评估进行纵向脑MRI分析，辅助阿尔茨海默病诊断。

提出了LoV3D:一个3D视觉语言模型管线，用于分析纵向脑MRI。
引入了临床加权的验证器，用于优化诊断输出，无需人工标注。

2026-03-12

PDF arXiv

9/10

持续学习视觉语言模型语义几何

Continual Learning with Vision-Language Models via Semantic-Geometry Preservation

Chiyuan He, Zihuan Qiu, Fanman Meng et al.

提出SeGP-CL方法，通过语义几何保持解决VLM持续学习中的灾难性遗忘问题，提升稳定性和前向迁移能力。

提出语义几何保持的持续学习框架SeGP-CL
使用对抗锚点探测易漂移区域并进行跨模态几何蒸馏

2026-03-12

PDF arXiv

9/10

Vision-Language Models Embodied Agents Unsafe Action Detection

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Jiayue Pu, Zhongxiang Sun, Zilu Zhang et al.

提出了HomeSafe-Bench，评估VLMs在家庭环境中不安全行为检测的能力，并提出了一种高效的检测架构HD-Guard。

提出了HomeSafe-Bench基准测试
设计了Hierarchical Dual-Brain Guard (HD-Guard)架构

2026-03-12

PDF arXiv

9/10

情感识别多模态学习跨注意力

Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling

Junhyeong Byeon, Jeongyeol Kim, Sejoon Lim

提出一种基于双向跨注意力和时间建模的多模态情感识别框架，提升了非约束环境下的情感识别性能。

提出基于CLIP和Wav2Vec 2.0的视觉和音频特征提取方法
设计双向跨注意力融合模块，增强跨模态上下文信息

2026-03-12

PDF arXiv

8/10

传感器自监督学习语言模型

Learning Transferable Sensor Models via Language-Informed Pretraining

Yuliang Chen, Arvind Pillai, Yu Yvonne Wu et al.

SLIP通过语言信息预训练传感器模型，提升跨领域零样本迁移能力，实现语义理解和生成推理。

提出SLIP框架，用于学习语言对齐的传感器表示。
结合对比对齐和传感器条件描述，提升判别理解和生成推理能力。

2026-03-12

PDF arXiv

9/10

结构化报告放射学多模态学习

Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting

Chantal Pellegrini, Adrian Delchev, Ege Özsoy et al.

ProtoSR通过融合自由文本知识，提升了结构化放射报告生成模型的细粒度判别能力，在Rad-ReStruct数据集上取得领先成果。

提出 ProtoSR 模型，融合自由文本知识提升结构化报告精度
构建了基于 MIMIC-CXR 的多模态知识库，包含图像和文本信息

2026-03-12

PDF arXiv

9/10

MLLM Video Reasoning Streaming

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Lu Wang, Zhuoran Jin, Yupu Hao et al.

提出Think While Watching框架，提升MLLM在连续视频流上的多轮推理能力，并减少输出token。

提出了Memory-anchored流式视频推理框架
构建了三阶段多轮CoT数据集并采用阶段匹配训练策略

2026-03-12

PDF arXiv

9/10

视觉文本压缩多模态学习评估框架

ZeroSense:How Vision matters in Long Context Compression

Yonghan Gao, Zehong Chen, Lijian Xu et al.

论文提出一种解耦评估框架和ZeroSense基准，用于更准确评估视觉文本压缩的质量。

提出解耦评估框架，消除下游模型语义推断的影响
构建ZeroSense基准，确保测试样本低语义相关性

2026-03-12

PDF arXiv

9/10

深度学习多模态医学影像

Multimodal classification of Radiation-Induced Contrast Enhancements and tumor recurrence using deep learning

Robin Peretzke, Marlin Hanstein, Maximilian Fischer et al.

提出RICE-NET模型，利用多模态深度学习区分脑胶质瘤术后复发和放射性损伤。

提出RICE-NET模型
整合纵向MRI数据和放疗剂量分布

2026-03-12

PDF arXiv

9/10

虚拟试穿图像编辑基准数据集

VTEdit-Bench: A Comprehensive Benchmark for Multi-Reference Image Editing Models in Virtual Try-On

Xiaoye Liang, Zhiyuan Qu, Mingye Zou et al.

提出了VTEdit-Bench，用于评估通用图像编辑模型在虚拟试穿任务中的性能。

构建了VTEdit-Bench基准数据集，包含多种复杂虚拟试穿场景。
提出了VTEdit-QA，一个基于VLM的、参考感知的评估器。

2026-03-12

PDF arXiv

6/10

Vision Transformer 空气质量预测跨分辨率注意力

Cross-Resolution Attention Network for High-Resolution PM2.5 Prediction

Ammar Kheder, Helmi Toropainen, Wenqing Peng et al.

提出CRAN-PM模型，利用跨分辨率注意力高效预测高分辨率PM2.5浓度。

提出基于Vision Transformer的CRAN-PM模型
引入跨分辨率注意力融合不同分辨率数据

2026-03-12

PDF arXiv

9/10

文本到视频生成物体状态变化基准测试

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

Xianjing Han, Bin Zhu, Shiqi Hu et al.

提出了OSCBench基准测试，用于评估文本到视频生成模型对物体状态变化的理解能力。

构建了OSCBench基准测试数据集
提出了基于MLLM的自动评估方法

2026-03-12

PDF arXiv

9/10

MLLM VLC Reasoning

Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks

Mei Chee Leong, Ying Gu, Hui Li Tan et al.

提出显式逻辑通道验证和增强多模态大语言模型在零样本任务中的表现。

提出显式逻辑通道(ELC)用于验证和增强MLLM。
提出一致性率(CR)用于跨通道验证和模型选择。

2026-03-12

PDF arXiv

8/10

后门检测视觉编码器零样本学习

BackdoorIDS: Zero-shot Backdoor Detection for Pretrained Vision Encoder

Siquan Huang, Yijiang Li, Ningzhi Gao et al.

BackdoorIDS是一种零样本的视觉编码器后门检测方法，基于注意力的劫持和恢复现象。

提出了一种零样本后门检测方法BackdoorIDS
利用输入掩码过程中注意力变化检测后门

2026-03-12

PDF arXiv

9/10

多模态学习抑郁症诊断表示学习

IDRL: An Individual-Aware Multimodal Depression-Related Representation Learning Framework for Depression Diagnosis

Chongxiao Wang, Junjie Liang, Peng Cao et al.

IDRL框架通过解耦多模态表示和个体感知融合，提升抑郁症诊断的准确性和鲁棒性。

提出IDRL框架，用于多模态抑郁症诊断
解耦多模态表示为抑郁症相关和不相关空间

2026-03-12

PDF arXiv

9/10

多模态大语言模型建筑平面图

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

Sizhong Qin, Ramon Elias Weber, Xinzheng Lu

HouseMind通过tokenization统一了建筑平面图的理解、生成和编辑，提高了空间推理和可控性。

提出了一种新的多模态大语言模型HouseMind
引入了离散房间实例token构建统一词汇

2026-03-12

PDF arXiv

9/10

VLM 艺术风格识别计算机视觉

Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style

Marvin Limpijankit, Milad Alshomary, Yassin Oulad Daoud et al.

该论文分析了视觉语言模型识别艺术风格的机制，并与艺术史家的认知进行对比。

揭示VLM预测艺术风格的驱动概念
量化评估VLM与艺术史家认知的一致性

2026-03-11

PDF arXiv

9/10

text-to-image color fidelity image generation

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

Zhengyao Fang, Zexi Jia, Yijia Zhong et al.

该论文针对文本到图像生成中的颜色逼真度问题，提出了数据集、评估指标和优化方法。

提出了用于评估颜色逼真度的Color Fidelity Dataset (CFD)
提出了用于客观评估颜色逼真度的Color Fidelity Metric (CFM)

2026-03-11

PDF arXiv

9/10

Vision-Language Models Object Detection Counting Hallucinations

GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Boyuan Chen, Minghao Shao, Siddharth Garg et al.

GroundCount通过结合目标检测模块增强VLM，显著提升了计数任务的准确率和效率。

提出了 GroundCount 框架，提升了 VLM 的计数准确率
发现位置编码对计数任务至关重要，但对不同模型影响不同

2026-03-11

PDF arXiv

7/10

视频质量评估视频识别对比学习

Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

Jian Sun, Mohammad H. Mahoor

提出一种结合对比学习和视频质量评估的视频识别方法SSL-V3，提升低质量视频识别的准确率。

提出结合VQA的自监督学习视频识别框架SSL-V3
使用Combined-SSL机制将VQA融入视频分类

2026-03-11

PDF arXiv

8/10

终身学习模仿学习多模态学习

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella et al.

提出一种终身模仿学习框架，利用多模态潜在空间和增量调整实现策略持续优化。

提出基于多模态潜在空间的终身模仿学习框架
引入增量特征调整机制，稳定任务嵌入

2026-03-11

PDF arXiv

9/10

OCR 文档理解多模态学习

GLM-OCR Technical Report

Shuaiqi Duan, Yadong Xue, Weihan Wang et al.

GLM-OCR提出了一种高效的0.9B参数多模态模型，用于文档理解，具有高性能和高效率。

提出Multi-Token Prediction机制加速解码
采用PP-DocLayout-V3进行布局分析

2026-03-11

PDF arXiv

9/10

知识蒸馏跨模态学习语言模型

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

Ayan Sengupta, Shantanu Dixit, Md Shad Akhtar et al.

ARMADA框架有效将视觉-语言模型的知识迁移到纯语言模型，无需昂贵的多模态预训练。

提出ARMADA跨模态知识蒸馏框架
无需多模态预训练或调整教师模型

2026-03-11

PDF arXiv

9/10

多模态学习位置编码长文本

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

Lin Chen, Bolin Ni, Qi Yang et al.

提出了跨模态距离不变位置编码DIPE，缓解了MLLM长文本中视觉信息衰减问题。

提出跨模态距离不变位置编码DIPE
缓解了长文本场景下的视觉信息衰减问题

2026-03-11

PDF arXiv

5/10

大气校正高光谱影像 EnMAP

6ABOS: An Open-Source Atmospheric Correction Framework for the EnMAP Hyperspectral Mission Based on 6S

Gabriel Caballero Cañas, Bárbara Alvado Arranz, Xavier Sòria-Perpinyà et al.

论文提出6ABOS，一个基于6S的EnMAP高光谱影像大气校正开源框架，适用于水体反射率提取。

自动化EnMAP高光谱影像大气校正
基于6S辐射传输模型的物理反演

2026-03-11

PDF arXiv

9/10

VLM Multimodal Learning Chain-of-Thought

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

Hongji Yang, Yucheng Zhou, Wencheng Han et al.

提出HanMoVLM，用于中国艺术绘画的专业评估，提升VLM在艺术领域的理解和评估能力。

构建HanMo-Bench数据集，包含拍卖级真迹和AI生成作品
提出HanMoVLM模型，并采用专家验证的Chain-of-Thought推理

2026-03-11

PDF arXiv

9/10

MLLM STEM 视觉感知

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Tongkun Guan, Zhibo Yang, Jianqiang Wan et al.

该论文通过代码作为感知媒介，提升MLLM在STEM领域的可视化感知能力。

揭示MLLM在STEM领域视觉推理上的瓶颈是感知能力
构建大规模Image-Caption-Code数据集ICC-1M

2026-03-11

PDF arXiv

9/10

UAV traffic scene understanding multimodal

UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark

Yu Zhang, Zhicheng Zhao, Ze Luo et al.

提出CTCNet，用于复杂环境下的无人机交通场景理解，并构建了大规模多模态数据集Traffic-VQA。

提出Cross-spectral Traffic Cognition Network (CTCNet)
设计Prototype-Guided Knowledge Embedding (PGKE)模块

2026-03-11

PDF arXiv

9/10

行人导航视觉语言模型深度感知

WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation

Rafi Ibn Sultan, Hui Zhu, Xiangyu Zhou et al.

WalkGPT通过深度感知分割实现基于视觉语言的行人导航，解决现有模型对空间理解的不足。

提出了WalkGPT模型，用于深度感知的行人导航引导
引入MSQP和CTP模块，实现精细的视觉语言 grounding 和深度推理

2026-03-11

PDF arXiv

9/10

多模态学习图像生成图像编辑

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Yaqi Zhao, Wang Lin, Zijian Zhang et al.

UniCom通过压缩连续语义表示，统一多模态理解与生成，实现卓越的图像编辑可控性。

提出了基于压缩连续表示的统一多模态框架UniCom
证明了降低通道维度比空间下采样更有效

2026-03-11

PDF arXiv

8/10

数字人建模多模态传感人机交互

A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction

Daniel J. Buxton, Mufti Mahmud, Jordan J. Bird et al.

提出了一种平台无关的多模态数字人建模框架，支持AI驱动的人机交互研究。

设计了平台无关的数字人建模框架
集成了OpenBCI Galea头显作为统一的多模态传感层

2026-03-11

PDF arXiv

9/10

视频理解鲁棒性多模态

Are Video Reasoning Models Ready to Go Outside?

Yangfan He, Changgyu Boo, Jaehong Yoon

提出ROVA框架，增强视频理解模型在真实扰动下的鲁棒性，并构建了PVRBench基准测试。

提出ROVA训练框架，提升模型在扰动环境下的鲁棒性
引入难度感知在线训练策略，自适应选择信息量大的样本

2026-03-11

PDF arXiv

9/10

CG图像质量评估视觉语言模型检索增强

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

Zhuangzi Li, Jian Jin, Shilv Cai et al.

针对CG图像质量评估，提出基于检索增强的VLM框架R4-CGQA，提升VLM对CG图像质量的评估能力。

构建了包含CG图像及质量描述的数据集
提出了基于检索增强的双流框架R4-CGQA

2026-03-11

PDF arXiv

7/10

图像拼接语义特征几何特征

UniStitch: Unifying Semantic and Geometric Features for Image Stitching

Yuan Mei, Lang Nie, Kang Liao et al.

UniStitch统一几何和语义特征，用于提升图像拼接性能。

提出Neural Point Transformer (NPT) 模块
设计Adaptive Mixture of Experts (AMoE) 模块

2026-03-11

PDF arXiv

9/10

AIRT 缺陷检测视觉-语言模型

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato et al.

提出一种基于视觉-语言模型的AIRT缺陷认知分析框架，无需训练即可检测碳纤维复合材料的内部缺陷。

提出了一种基于视觉-语言模型的AIRT缺陷认知分析框架
设计了AIRT-VLM适配器，增强缺陷可见性并对齐热成像域与VLM表示

2026-03-11

PDF arXiv

9/10

图像机器翻译跨模态学习 benchmark

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Jiahao Lyu, Pei Fu, Zhenhang Li et al.

提出了IMTBench，一个多场景跨模态图像机器翻译评测基准，用于评估端到端图像翻译系统的性能。

构建了包含2500个样本的多场景图像翻译基准数据集IMTBench
提出了多方面的评估指标，包括翻译质量、背景保持、图像质量和跨模态对齐分数

2026-03-11

PDF arXiv

8/10

导航遮挡视觉语言

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Xinyu Gao, Gang Chen, Javier Alonso-Mora

BEACON通过预测BEV可负担性热图，解决语言条件下的遮挡导航问题。

提出BEACON模型，用于预测遮挡场景下的BEV可负担性热图
将空间线索注入VLM并融合深度信息

2026-03-10

PDF arXiv

9/10

MLLM 病理学记忆网络

PathMem: Toward Cognition-Aligned Memory Transformation for Pathology MLLMs

Jinyue Li, Yuci Liang, Qiankun Li et al.

PathMem提出一种记忆增强的病理学MLLM框架，有效融合结构化知识并提升诊断推理能力。

提出PathMem框架，融合长期记忆和工作记忆
引入Memory Transformer，动态转换知识

2026-03-10

PDF arXiv

9/10

扩散模型多模态学习医学图像

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Rong Zhou, Houliang Zhou, Yao Su et al.

ACADiff利用临床信息指导扩散模型，用于脑部多模态图像补全，提升诊断性能。

提出ACADiff框架，用于合成缺失的脑部影像模态
利用GPT-4o编码的prompt进行临床指导

2026-03-10

PDF arXiv

9/10

VLM 空间智能运动

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Yuchen Yang, Yuqing Shao, Duxiu Huang et al.

提出CourtSI数据集和基准，用于评估VLMs在运动场景中的空间智能，揭示模型差距。

构建了首个大规模运动场景空间智能数据集CourtSI
提出了高质量评估基准CourtSI-Bench，并进行严格的人工验证

2026-03-10

PDF arXiv

9/10

多模态学习统一模型视觉生成

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Changyao Tian, Danni Yang, Guanzhou Chen et al.

InternVL-U是一个轻量级的多模态统一模型，以40亿参数实现了高效的理解、推理、生成和编辑能力。

提出了轻量级多模态统一模型InternVL-U (4B)
采用统一上下文建模和模态特定模块化设计

2026-03-10

PDF arXiv

9/10

多模态学习情感分析缺失数据

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le et al.

提出了 MissBench，用于评估多模态情感分析模型在不平衡缺失模态下的性能，并提供评估指标MEI和MLI。

提出了MissBench基准测试框架
定义了Modality Equity Index (MEI)和Modality Learning Index (MLI)两个诊断指标

2026-03-10

PDF arXiv

9/10

VLM 点云定位多模态学习

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Shuhao Kang, Youqi Liao, Peijie Wang et al.

VLM-Loc利用视觉语言模型进行点云地图中的文本定位，提升复杂环境下的定位精度。

提出VLM-Loc框架，利用VLM进行空间推理
将点云转换为BEV图像和场景图，编码几何和语义信息

2026-03-10

PDF arXiv

9/10

视觉语言模型个性化注意力机制

Ego: Embedding-Guided Personalization of Vision-Language Models

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas et al.

提出一种高效的视觉语言模型个性化方法Ego，通过内部注意力机制提取视觉token，实现概念记忆和描述。

提出了一种基于视觉token的个性化方法
无需额外训练，提升效率和泛化性

2026-03-10

PDF arXiv

8/10

多语言 Logo生成扩散模型

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

Mingyu Kang, Hyein Seo, Yuna Jeong et al.

LogoDiffuser提出一种免训练的多语言logo生成方法，通过可控注意力机制融合文字和视觉元素。

提出免训练的多语言logo生成方法LogoDiffuser
利用基于图像的字符输入，实现鲁棒的字符结构控制

2026-03-10

PDF arXiv

9/10

VLN-CE Vision-Language Navigation Contrastive Learning

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Haoyuan Li, Rui Liu, Hehe Fan et al.

SACA框架通过步进式对比对齐，从不完美轨迹中提取密集监督，提升VLN-CE任务性能。

提出Step-Aware Contrastive Alignment (SACA) 框架
设计感知步进式审计器评估每步进展

2026-03-10

PDF arXiv

9/10

MLLM Egocentric Perception Long-Horizon Reasoning

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Chengjun Yu, Xuhan Zhu, Chaoqun Du et al.

论文提出了EXPLORE-Bench基准，用于评估MLLM在长时程自我中心场景预测中的推理能力。

提出了EXPLORE-Bench基准数据集，包含长动作序列和结构化场景标注。
系统评估了现有MLLM在长时程自我中心推理任务上的性能。

2026-03-10

PDF arXiv

9/10

视觉语言数据选择无训练

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

Peng Sun, Huawen Shen, Yi Ban et al.

提出CVS方法，通过评估问题对答案有效性的影响，实现视觉语言SFT的无训练数据选择。

提出CVS，一种无训练的数据选择方法
利用问题对答案有效性影响来评估样本质量

2026-03-10

PDF arXiv

9/10

LALM 多音频理解基准测试

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo et al.

论文提出了MUGEN基准测试LALMs的多音频理解能力，并提出了改进策略。

提出了MUGEN基准测试
揭示了LALMs在多音频理解方面的弱点

2026-03-10

PDF arXiv

9/10

MLLM Safety Causal Reasoning

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

Ming Wen, Kun Yang, Jingyu Zhang et al.

提出了OOD-MMSafe基准测试MLLM在因果链中识别潜在风险的能力，并提出CASPO框架提升模型安全性。

提出了OOD-MMSafe基准测试
揭示了MLLM模型在识别潜在风险方面的因果盲视

2026-03-10

PDF arXiv

9/10

医学图像融合超分辨率多模态学习

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil et al.

提出TriFusion-SR，一种用于联合三模态医学图像融合和超分辨率的框架。

提出基于小波的条件扩散框架，用于联合三模态融合和超分辨率。
引入Rectified Wavelet Features (RWF) 校正潜在系数。

2026-03-10

PDF arXiv

9/10

VideoQA PEFT Temporal Modeling

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Luca Carlini, Chiara Lena, Cesare Hassan et al.

TemporalDoRA通过时序建模改进了手术视频问答的鲁棒性，并提出了REAL-Colon-VQA数据集。

提出TemporalDoRA，一种时序感知的PEFT方法
提出REAL-Colon-VQA数据集，用于评估语言变异敏感性

2026-03-10

PDF arXiv

9/10

VQA Vietnamese Multimodal Learning

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc et al.

论文提出了一个大规模自动构建的越南语视觉问答数据集，并探索了Transformer架构。

构建大规模越南语VQA数据集
基于Transformer架构探索越南语VQA

2026-03-10

PDF arXiv

9/10

multimodal parsing knowledge representation reasoning

Logics-Parsing-Omni Technical Report

Xin An, Jingyi Cai, Xiangyang Chen et al.

Omni Parsing框架统一多模态数据解析，实现从感知到认知的递进式解析，并构建了相关数据集和模型。

提出Omni Parsing框架，统一多模态解析流程
构建了包含文档、图像和音视频的统一分类体系

2026-03-10

PDF arXiv

9/10

Multimodal Agent Evaluation

MM-tau-p$^2$: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

Anupam Purwar, Aditya Choudhary

提出了MM-tau-p$^2$基准，用于评估具身用户适应性的多模态Agent的鲁棒性。

提出了MM-tau-p$^2$基准，用于评估多模态Agent
引入了12个新的评估指标

2026-03-10

PDF arXiv

8/10

3D Gaussian Splatting SLAM Multimodal Learning

X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models

Yueen Ma, Irwin King

X-GS框架统一了3DGS架构，赋能多模态模型，实现实时的语义增强在线SLAM。

提出了X-GS框架，统一多种3DGS技术。
设计了X-GS-Perceiver，实现高效的几何与姿态共优化，并从视觉基础模型提取语义特征。

2026-03-10

PDF arXiv

9/10

合成数据遥感视觉-语言模型

Grounding Synthetic Data Generation With Vision and Language Models

Ümit Mert Çağlar, Alptekin Temizel

提出基于视觉-语言模型的合成数据生成和评估框架，用于遥感图像增强，并构建了ARAS400k数据集。

提出基于视觉-语言模型的合成数据生成和评估框架
构建大规模遥感增强数据集ARAS400k

2026-03-10

PDF arXiv

9/10

全景视觉视觉语言模型 VQA

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Weijia Fan, Ruiping Liu, Jiale Wei et al.

提出全景语言模型PLM，用于理解复杂全景场景，超越传统多视角拼接。

提出全景语言模型范式PLM
构建大规模全景VQA数据集PanoVQA

2026-03-10

PDF arXiv

9/10

遥感视觉语言多模态

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

Xiao Yang, Ronghao Fu, Zhuoran Duan et al.

GeoAlignCLIP通过多粒度一致性学习增强遥感图像中文本对齐，提升细粒度视觉语言理解。

提出了GeoAlignCLIP框架，实现遥感图像中细粒度对齐
学习多粒度语义对齐并结合模内一致性

2026-03-10

PDF arXiv

9/10

音频语言模型推理自复述

ALARM: Audio-Language Alignment for Reasoning Models

Petr Grinberg, Hassan Shahmohammadi

ALARM模型通过自复述和多音频编码器融合，提升了音频推理能力，并在多项基准测试中取得领先。

提出了自复述方法以适应推理LLM
融合压缩多个音频编码器以增强表示

2026-03-10

PDF arXiv

9/10

多模态学习强化学习视觉语言模型

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Ming Nie, Chunwei Wang, Jianhua Han et al.

提出了一种基于强化学习的后训练策略，提升统一视觉语言模型的多模态交错生成能力。

提出了一种基于强化学习的后训练策略，无需大规模多模态交错数据集。
提出了统一的策略优化框架，扩展了Group Relative Policy Optimization (GRPO)到多模态设置。

2026-03-10

PDF arXiv

9/10

VLM 自动驾驶时间推理

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar et al.

该论文探讨了驾驶场景下VLM的一致性和时间推理能力，并提出了改进方案。

揭示了VLM在驾驶场景中一致性和时间推理的局限性
构建了用于评估未来场景推理的FutureVQA数据集

2026-03-10

PDF arXiv

9/10

prompt learning vision-language model few-shot learning

Evolving Prompt Adaptation for Vision-Language Models

Enming Zhang, Jiayang Li, Yanru Wu et al.

EvoPrompt通过控制prompt的进化路径，实现VLMs在小样本学习中的稳定和知识保留。

提出了EvoPrompt框架，用于稳定且知识保留的VLM微调。
引入了Modality-Shared Prompt Projector (MPP)生成分层prompt。

2026-03-10

PDF arXiv

9/10

视觉Token压缩 VLM 重要性采样

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang et al.

PruneSID通过协同重要性和多样性，高效压缩VLM中的视觉Token，提升推理速度。

提出了一种训练无关的视觉Token压缩方法PruneSID
设计了Principal Semantic Components Analysis (PSCA) 用于token聚类

2026-03-10

PDF arXiv

9/10

Multimodal Object-Entity Relation Extraction Large Vision-Language Model Reinforcement Learning

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Xiang Yuan, Xu Chu, Xinrong Chen et al.

MORE-R1通过强化学习引导LVLM进行逐步推理，显著提升了多模态对象-实体关系抽取性能。

提出了一种新的模型MORE-R1，用于多模态对象-实体关系抽取。
利用强化学习进行逐步推理，增强了LVLM处理复杂场景的能力。

2026-03-10

PDF arXiv

9/10

遥感视觉-语言模型基准测试

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Ronghao Fu, Haoran Liu, Weijie Zhang et al.

OmniEarth是一个遥感视觉-语言模型的综合评估基准，包含感知、推理和鲁棒性三个维度。

提出了OmniEarth基准数据集
定义了28个细粒度遥感任务

2026-03-10

PDF arXiv

8/10

手术室场景理解拓扑表示多模态学习

TopoOR: A Unified Topological Scene Representation for the Operating Room

Tony Danjun Wang, Ka Young Kim, Tolga Birdal et al.

TopoOR提出了一种新的手术室场景拓扑表示方法，提升手术过程理解和预测能力。

提出了TopoOR，一种新的手术室场景拓扑表示方法
设计了高阶注意力机制，保留流形结构和模态特征

2026-03-10

PDF arXiv

8/10

autonomous driving vision-language-action model knowledge distillation

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei et al.

EvoDriveVLA通过协同感知-规划蒸馏，提升自动驾驶视觉-语言-动作模型的性能和稳定性。

提出了一种协同感知-规划蒸馏框架EvoDriveVLA
利用自锚定视觉蒸馏，通过轨迹引导的关键区域感知来正则化学生网络表示

2026-03-10

PDF arXiv

7/10

运动预测开放世界增量学习

Open-World Motion Forecasting

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran et al.

提出开放世界运动预测框架，解决现实场景中目标类别动态变化的问题。

提出了开放世界运动预测问题设定。
构建了端到端的类增量运动预测框架。

2026-03-10

PDF arXiv

8/10

机器人控制多模态学习流模型

From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation

Ju Dong, Liding Zhang, Lei Zhang et al.

该论文提出了一种基于IMLE的分布蒸馏框架，将流模型提炼为单步策略，实现机器人实时多模态轨迹控制。

提出基于IMLE的分布蒸馏框架
使用双向Chamfer距离促进模式覆盖和保真度

2026-03-10

PDF arXiv

9/10

文档图像机器翻译多模态学习 ICDAR

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Yaping Zhang, Yupu Liang, Zhiyang Zhang et al.

ICDAR 2025 DIMT挑战赛关注复杂布局文档图像的端到端机器翻译。

提出了DIMT挑战赛，促进多模态文档理解研究
设计了OCR-free和OCR-based两种track

2026-03-10

PDF arXiv

9/10

MLLM 视觉差异基准测试

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Tengjin Weng, Wenhao Jiang, Jingyi Wang et al.

该论文提出OddGridBench基准测试MLLM在细粒度视觉差异识别上的能力，并提出OddGrid-GRPO进行优化。

提出OddGridBench基准测试
揭示现有MLLM在细粒度视觉差异识别方面的不足

2026-03-10

PDF arXiv

8/10

数据集多模态学习航天器

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Aodi Wu, Jianhong Zuo, Zeyuan Zhao et al.

SpaceSense-Bench：大规模多模态航天器感知与姿态估计基准数据集。

构建了大规模多模态航天器感知数据集
提供像素级和点云级的语义分割标签以及精确的6DoF姿态真值

2026-03-10

PDF arXiv

9/10

医学图像分割缺失模态一致性学习

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Xinyu Tong, Meihua Zhou, Bowu Fan et al.

CLoE通过专家一致性学习解决医学图像分割中模态缺失问题，提升分割精度。

提出CLoE框架，通过一致性学习提高缺失模态分割的鲁棒性。
引入模态专家一致性和区域专家一致性，分别关注全局和局部一致性。

2026-03-10

PDF arXiv

9/10

SVG生成 VLM 生成器-评论家

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao et al.

IntroSVG通过生成器-评论家框架，结合渲染反馈，提升文本到SVG的生成质量。

提出Introspective SVG Generation Framework (IntroSVG)
使用统一的VLM作为生成器和评论家

2026-03-10

PDF arXiv

9/10

Vision-Language Models Prompt Tuning Foreground Attention

FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

Haoyang Li, Liang Wang, Siyu Zhou et al.

针对VLMs微调中前景注意力漂移问题，提出自适应前景引导的提示调优方法。

提出Foreground Reliability Gate，提升前景质量
设计Foreground Distillation Compensation模块，引导视觉注意力

2026-03-09

PDF arXiv

9/10

Text-to-Image Chain-of-Thought Code Generation

CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

Haodong Li, Chunmei Qing, Huanyu Zhang et al.

CoCo提出一种代码驱动的CoT推理框架，用于精确、可控的文本到图像生成，并构建了CoCo-10K数据集。

提出Code-as-CoT (CoCo) 框架
构建了CoCo-10K数据集

2026-03-09

PDF arXiv

8/10

视频检索视觉语言模型状态转换

CAST: Modeling Visual State Transitions for Consistent Video Retrieval

Yanqing Liu, Yingcheng Liu, Fanghong Dong et al.

CAST模型通过预测视觉状态转换，提升了视频检索的一致性和时间连贯性。

提出了Consistent Video Retrieval (CVR)任务
设计了CAST模型，用于建模视觉状态转换

2026-03-09

PDF arXiv

7/10

头部Avatar 表情泛化检索增强

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Matan Levy, Gavriel Habib, Issar Tzachor et al.

提出了一种检索增强方法RAF，提升无模板头部avatar的表情泛化能力。

提出了检索增强方法RAF，用于训练无模板头部avatar
通过检索邻近表情特征，扩大了表情覆盖范围

2026-03-09

PDF arXiv

8/10

Interpretability Black-box model Large Language Models

UNBOX: Unveiling Black-box visual models with Natural-language

Simone Carnemolla, Chiara Russo, Simone Palazzo et al.

UNBOX利用LLM和扩散模型，在纯语义搜索下揭示黑盒视觉模型的内在逻辑和潜在偏差。

提出了UNBOX框架，用于在完全无数据、无梯度和无反向传播的约束下进行类别的模型剖析。
利用大型语言模型和文本到图像的扩散模型将激活最大化转化为纯粹的语义搜索。

2026-03-09

PDF arXiv

9/10

MLLM 3D Reasoning Spatial Reasoning

Boosting MLLM Spatial Reasoning with Geometrically Referenced 3D Scene Representations

Jiangye Yuan, Gowri Kumar, Baoyuan Wang

论文提出GR3D方法，增强MLLM对三维空间推理能力，无需额外训练，提升了zero-shot性能。

提出GR3D几何参考3D场景表示方法
GR3D提升MLLM在3D空间推理任务的性能

2026-03-09

PDF arXiv

8/10

人形机器人强化学习视觉语言模型

MetaWorld-X: Hierarchical World Modeling via VLM-Orchestrated Experts for Humanoid Loco-Manipulation

Yutong Shen, Hangxu Liu, Penghui Liu et al.

MetaWorld-X提出了一个基于VLM专家分层世界模型，用于解决人形机器人复杂操作任务。

提出基于VLM的分层世界模型MetaWorld-X
设计专家策略（SEP）和智能路由机制（IRM）

2026-03-09

PDF arXiv

9/10

步态分析多模态学习生物力学

BioGait-VLM: A Tri-Modal Vision-Language-Biomechanics Framework for Interpretable Clinical Gait Assessment

Erdong Chen, Yuyang Ji, Jacob K. Greenberg et al.

BioGait-VLM通过融合视觉、语言和生物力学信息，提升步态分析的泛化性和可解释性。

提出了一种三模态的Vision-Language-Biomechanics框架BioGait-VLM
引入时间证据提取分支和生物力学标记分支

2026-03-09

PDF arXiv

7/10

Object Detection DETR Matching-free

Beyond Hungarian: Match-Free Supervision for End-to-End Object Detection

Shoumeng Qiu, Xinrun Li, Yang Long

提出一种无需匈牙利算法的DETR训练方法，通过跨注意力机制实现query和目标的隐式匹配。

提出基于跨注意力的Query选择模块（CAQS）
实现了无需显式匹配的端到端目标检测

2026-03-09

PDF arXiv

9/10

ECG Echocardiography Multimodal Learning

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

Michelle Espranita Liman, Özgün Turgut, Alexander Müller et al.

Echo2ECG利用多视角超声心动图增强ECG特征，提高心脏表型预测和检索性能。

提出了Echo2ECG多模态自监督学习框架
利用多视角Echos丰富ECG表征，捕捉心脏形态结构

2026-03-09

PDF arXiv

9/10

Vision-Language Models Typography Fine-tuning

Reading $\neq$ Seeing: Diagnosing and Closing the Typography Gap in Vision-Language Models

Heng Zhou, Ao Yu, Li Kang et al.

VLMs在文本识别上表现出色，但在排版识别方面存在差距，论文对此进行了系统研究和改进。

发现了VLMs在排版识别上的差距，尤其是在字体样式方面
构建了评估VLMs排版能力的框架和数据集

2026-03-09

PDF arXiv

8/10

跨模态学习地理定位视觉-语言模型

Global Cross-Modal Geo-Localization: A Million-Scale Dataset and a Physical Consistency Learning Framework

Yutong Hu, Jinhui Chen, Chaoqiang Xu et al.

论文提出了一个大规模跨模态地理定位数据集CORE，并提出了物理规律感知的跨模态地理定位框架PLANET。

构建了百万级全球跨模态地理定位数据集CORE
提出了物理规律感知的跨模态地理定位网络PLANET

2026-03-09

PDF arXiv

9/10

VLM 安全对齐威胁图像

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

Qishun Yang, Shu Yang, Lijie Hu et al.

提出Visual Self-Fulfilling Alignment，通过威胁图像训练VLM提升安全性，无需安全标签。

提出了一种新的VLM安全对齐方法VSFA。
VSFA利用威胁相关图像进行无标签训练，提升VLM的安全性。

2026-03-09

PDF arXiv

9/10

Deepfake Detection Audio-Visual Learning Cross-Attention

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Youngseo Kim, Kwan Yun, Seokhyeon Hong et al.

提出X-AVDT，利用生成器内部音视频一致性线索，提高深度伪造检测的鲁棒性和泛化性。

提出X-AVDT检测器，利用音视频交叉注意力特征进行深度伪造检测
提出MMDF数据集，包含多种生成模型的深度伪造数据

2026-03-09

PDF arXiv

8/10

目标导航机器人视觉语言

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza et al.

提出一种无需LLM的实时目标导航方法R2F，显著提升导航效率。

重新利用ray frontiers进行目标导航
提出R2F-VLN，扩展到自由形式语言指令

2026-03-09

PDF arXiv

9/10

视觉语言模型时空推理实体跟踪

Can Vision-Language Models Solve the Shell Game?

Tiedong Liu, Wee Sun Lee

该论文揭示了视觉语言模型在时空推理上的局限性，并提出了基于时空轨迹生成的解决方案。

提出了VET-Bench，一个用于评估VLMs时空推理能力的合成数据集。
证明了固定深度Transformer-based VLMs在跟踪无法区分的对象时存在理论上的局限性。

2026-03-09

PDF arXiv

7/10

手部姿态估计人机交互长时程规划

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

Zhi Wang, Liu Liu, Ruonan Liu et al.

提出StructBiHOI框架，用于生成长时程双手与物体交互的结构化动作。

提出StructBiHOI框架，解耦时序联合规划与帧级动作优化
使用jointVAE和maniVAE分别建模长期关节演化和精细手部姿态

2026-03-09

PDF arXiv

6/10

医学图像图像生成 Rectified Flow

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Selena Huisman, Nordin Belkacemi, Vera Keil et al.

该论文提出了一种基于Rectified Flow的AI模型，用于预测脑肿瘤患者放疗后的MRI图像。

提出基于Rectified Flow的脑部MRI图像生成模型
实现快速且真实的放疗后MRI预测

2026-03-09

PDF arXiv

9/10

多模态学习视觉数学推理多智能体系统

M$^3$-ACE: Rectifying Visual Perception in Multimodal Math Reasoning via Multi-Agentic Context Engineering

Peijin Xie, Zhen Xu, Bingquan Liu et al.

M³-ACE通过多智能体协作校正视觉感知，提升多模态数学推理性能。

提出M³-ACE框架，解耦感知和推理
引入Summary Tool和Refine Tool，支持稳定多轮协作

2026-03-09

PDF arXiv

9/10

视觉语言模型提示学习最优传输

Local-Global Prompt Learning via Sparse Optimal Transport

Deniz Kizaroğlu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu et al.

SOT-GLP通过稀疏最优传输实现局部-全局提示学习，提升视觉语言模型在少样本分类和OOD检测上的性能。

提出了SOT-GLP方法，结合全局和局部提示学习
利用V-V注意力构建类别条件稀疏patch集合

2026-03-09

PDF arXiv

7/10

语音基础模型自监督学习语句级表示

Learning Multiple Utterance-Level Attribute Representations with a Unified Speech Encoder

Maryem Bouziane, Salima Mdhaffar, Yannick Estève

提出一种统一的后训练框架，使语音基础模型能够生成多种类型的语句级表示。

提出统一的后训练框架
学习多个语句级属性表示

2026-03-09

PDF arXiv

9/10

Vision Transformer Robustness Concept-Guided Learning

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Yehonatan Elisha, Oren Barkan, Noam Koenigstein

提出一种概念引导微调方法，通过对齐模型内部相关性与概念掩码，提升ViT模型的鲁棒性。

提出概念引导微调框架，增强ViT鲁棒性
利用LLM和VLM自动生成概念掩码，无需人工标注

2026-03-09

PDF arXiv

8/10

Text-to-Image Medical Imaging Retrieval-Augmented Generation

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Daniele Molino, Camillo Maria Caruso, Paolo Soda et al.

提出一种检索增强的Text-to-CT生成方法，利用检索到的解剖结构信息指导生成，提高图像质量和临床一致性。

提出了检索增强的Text-to-CT生成方法
利用3D视觉-语言编码器检索语义相关的临床案例

2026-03-09

PDF arXiv

9/10

多模态学习数学推理视觉问答

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

Tianyu Yang, Sihong Wu, Yilun Zhao et al.

综述多模态数学推理研究，提出统一的感知-对齐-推理范式，并探讨未来方向。

系统分析了多模态数学推理的研究现状
提出了理解和比较不同方法的四个关键问题

2026-03-09

PDF arXiv

9/10

零样本学习动作识别视觉语言模型

Novel Semantic Prompting for Zero-Shot Action Recognition

Salman Iqbal, Waheed Rehman

论文提出SP-CLIP框架，通过语义提示增强视觉语言模型，提升零样本动作识别性能。

提出基于结构化语义提示的零样本动作识别方法
设计多层次抽象的语义提示，包含意图、运动、物体交互

2026-03-09

PDF arXiv

8/10

摘要生成多模态学习跨语言

Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization

Chaimae Chellaf, Salima Mdhaffar, Yannick Estève et al.

SBARThez利用多模态、多语言嵌入和实体注入提升摘要的准确性和简洁性。

提出SBARThez框架，支持跨语言摘要和多模态输入
引入命名实体注入机制，提升生成摘要的事实一致性

2026-03-09

PDF arXiv

7/10

视觉触觉 sim-to-real 3D重建

FlowTouch: View-Invariant Visuo-Tactile Prediction

Seongjin Bien, Carlo Kneissl, Tobias Jülg et al.

FlowTouch提出了一种视角不变的视觉-触觉预测模型，利用局部3D网格实现跨域泛化。

提出了FlowTouch模型，用于视角不变的视觉-触觉预测
利用局部3D网格编码信息，提高模型的泛化能力

2026-03-09

PDF arXiv

9/10

视听语音识别 AVSR 合成数据

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Pol Buitrago, Pol Gàlvez, Oriol Pareras et al.

提出了一种利用合成视觉数据在零视听资源下进行视听语音识别的框架。

提出零视听资源下的视听语音识别框架
利用唇形同步静态面部图像生成合成视觉流

2026-03-09

PDF arXiv

9/10

多模态学习协同感知模态融合

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Jiageng Wen, Shengjie Zhao, Bing Li et al.

SiMO提出一种单模态可操作的多模态协同感知框架，解决模态失效问题，提升鲁棒性。

提出Length-Adaptive Multi-Modal Fusion (LAMMA) 适应模态缺失
提出Pretrain-Align-Fuse-RD训练策略，解决模态竞争问题

2026-03-09

PDF arXiv

8/10

情感识别音频语言模型歧义情感

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Xiaofeng Yu, Jiaheng Dong, Jean Honorio et al.

提出一种面向LALM的歧义情感识别方法，通过分布推理和链式思考提升模型对复杂情感的理解。

提出歧义感知目标函数，对齐预测与人类感知分布
提出结构化的歧义感知链式思考监督，引导情感线索推理

2026-03-09

PDF arXiv

9/10

多模态融合无人机检测图像配准

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Ishrat Jahan, Molla E Majid, M Murugappan et al.

提出两种多模态融合策略，RGIF和RGMAF，用于提升异构传感器下无人机检测的鲁棒性和精度。

提出Registration-aware Guided Image Fusion (RGIF)
提出Reliability-Gated Modality-Attention Fusion (RGMAF)

2026-03-09

PDF arXiv

9/10

LiDAR OOD Detection Vision-Language Model

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

Michael Kösel, Marcel Schreiber, Michael Ulrich et al.

提出ALOOD方法，利用语言表示进行LiDAR OOD目标检测，提升自动驾驶安全性。

提出基于语言表示的LiDAR OOD目标检测方法ALOOD
将OOD检测转化为zero-shot分类任务

2026-03-09

PDF arXiv

9/10

多模态学习电磁信号处理低信噪比

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

Junyu Shen, Zhendong She, Chenghanyu Zhang et al.

MERLIN提出了针对电磁信号的低信噪比鲁棒多模态LLM框架，并构建了数据集和基准。

构建大规模电磁信号-文本数据集EM-100k
提出综合性的电磁信号基准EM-Bench

2026-03-09

PDF arXiv

9/10

视觉-语言-动作机器人控制神经科学

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Xiang Shi, Wenlong Huang, Menglin Zou et al.

论文提出一种神经科学启发的视觉-语言-动作三元架构SaiVLA-0，实现高效计算和可复现性。

提出Cerebrum-Pons-Cerebellum三元架构
引入固定比例调度和两阶段特征缓存以实现计算感知

2026-03-09

PDF arXiv

9/10

自动驾驶多模态学习混合专家模型

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

Zihan You, Hongwei Liu, Chenxu Dang et al.

提出了场景自适应的混合专家VLA模型SAMoE-VLA，用于提升自动驾驶决策的稳定性和安全性。

提出了场景自适应的混合专家机制，基于BEV特征进行专家选择
引入了条件跨模态因果注意力机制，整合世界状态、语言意图和行动历史

2026-03-09

PDF arXiv

9/10

多模态学习缺陷检测数据增强

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

Xuesong Wang, Caisheng Wang

利用多模态大语言模型生成缺陷图像，提升电力线绝缘子缺陷检测效果。

提出基于MLLM的缺陷图像生成方法
使用双参考条件和人工验证提高图像多样性和标签准确性

2026-03-09

PDF arXiv

9/10

UAV Geolocalization Cross-View

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Bowen Liu, Pengyue Jia, Wanyu Wang et al.

提出了一种基于LVLM的关系建模方法，用于提升跨视角无人机地理定位的准确性。

提出了基于LVLM的联合关系建模方法
设计了关系感知损失函数，使用软标签进行优化

2026-03-09

PDF arXiv

9/10

多模态学习情感识别 Transformer

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Jun Yu, Naixiang Zheng, Guoyuan Wang et al.

针对ABAWE表情识别挑战，提出了一种鲁棒的多模态框架，有效处理模态缺失和数据不平衡问题。

提出基于安全交叉注意力和模态Dropout的多模态框架
采用Focal Loss和滑动窗口软投票策略缓解数据不平衡

2026-03-09

PDF arXiv

9/10

multimodal lifelong learning agent

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Guo Chen, Lidong Lu, Yicheng Liu et al.

提出用于多模态终身理解的MM-Lifelong数据集和递归多模态Agent(ReMA)模型，解决现有模型记忆瓶颈和全局定位崩溃问题。

构建了大规模多模态终身学习数据集MM-Lifelong
提出了递归多模态Agent(ReMA)模型，有效缓解记忆瓶颈和全局定位崩溃问题

2026-03-05

PDF arXiv

9/10

幻觉检测视觉语言模型可解释性

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun et al.

该论文提出了一种在视觉语言模型生成文本前预测幻觉风险的方法。

提出预生成幻觉检测方法HALP
探究不同模型内部表示对幻觉检测的有效性

2026-03-05

PDF arXiv

8/10

共同基础多模态认知推理

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Yifan Zhu, Mariah Bradford, Kenneth Lai et al.

论文研究了AI在多模态协同场景下构建共同基础的难题，并提出了DPIP数据集进行评估。

提出了DPIP协同任务和多模态数据集
评估了LLMs和DEL在共同基础建模上的表现

2026-03-05

PDF arXiv

9/10

多模态学习图像检索视觉语言

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

Kanon Amemiya, Daichi Yashima, Kei Katsumata et al.

NaiLIA提出了一种多模态美甲设计检索方法，能更好地理解复杂的用户意图和颜色偏好。

提出NaiLIA多模态检索方法
引入基于置信度得分的松弛损失

2026-03-05

PDF arXiv

8/10

视觉语言导航零样本学习机器人导航

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

Esteban Padilla, Boyang Sun, Marc Pollefeys et al.

OpenFrontier提出了一种免训练的视觉语言导航框架，利用语义先验实现高效的零样本导航。

提出OpenFrontier框架，无需训练即可实现视觉语言导航
将导航问题转化为稀疏子目标识别和到达问题

2026-03-05

PDF arXiv

8/10

语音语言模型自监督学习 WavLM

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Luca Della Libera, Cem Subakan, Mirco Ravanelli

WavSLM通过蒸馏WavLM表征，实现单流语音语言建模，无需文本监督。

提出WavSLM单流语音语言模型
使用WavLM蒸馏学习语音表征

2026-03-05

PDF arXiv

7/10

语料库构建濒危语言多语种

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Mohammad Mamun Or Rashid

构建了孟加拉国首个国家级多语种平行多模态语料库，覆盖多种濒危语言。

创建了孟加拉国少数民族语言的大规模多语种语料库
系统性的田野调查和数据收集方法

2026-03-05

PDF arXiv

10/10

KB-VQA Multimodal Learning Reinforcement Learning

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Shan Ning, Longtian Qiu, Xuming He

Wiki-R1通过课程学习强化学习框架，提升MLLM在知识库VQA上的推理能力，达到SOTA。

提出了基于数据生成的课程强化学习框架Wiki-R1
设计了可控的课程数据生成方法，控制样本难度

2026-03-05

PDF arXiv

8/10

ASR Test-Time Adaptation Reinforcement Learning

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Linghan Fang, Tianxin Xie, Li Liu

提出ASR-TRA，一种基于强化学习的测试时自适应框架，提升ASR在噪声和口音环境下的鲁棒性。

提出了一种基于强化学习的测试时自适应框架ASR-TRA
利用音频-文本语义对齐作为奖励信号

2026-03-05

PDF arXiv

8/10

数字孪生机器人分拣视觉语言模型

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Serkan Ergun, Tobias Mitterer, Hubert Zangl

论文提出一种基于数字孪生的纺织品分拣系统，利用VLM进行分类和异物识别。

提出数字孪生驱动的纺织品分拣系统
评估了多种VLM在纺织品分类任务上的性能

2026-03-05

PDF arXiv

9/10

多模态学习图神经网络大语言模型

Mario: Multimodal Graph Reasoning with Large Language Models

Yuanfu Sun, Kang Li, Pengkang Guo et al.

Mario提出了一个统一的框架，利用LLM在多模态图上进行推理，解决跨模态一致性和异构模态偏好的问题。

提出了图条件VLM设计，通过对比学习提升跨模态一致性
提出了模态自适应图指令微调机制，利用可学习的路由选择最佳模态配置

2026-03-05

PDF arXiv

9/10

Vision-Language-Action Adaptive Inference Complexity Awareness

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci

提出一种复杂度感知的自适应VLA框架，通过视觉信息判断任务复杂度，提升推理效率和鲁棒性。

提出了复杂度感知的自适应推理框架，提升VLA模型的效率。
利用视觉信息进行任务复杂度检测，实现Act, Think, Abstain三种执行策略。

2026-03-05

PDF arXiv

8/10

行人属性识别 Transformer 多模态学习

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

Minghe Xu, Rouying Wu, Jiarui Xu et al.

UniPAR提出了一个统一的Transformer框架，用于处理多种模态下的行人属性识别任务。

提出了统一的Transformer框架UniPAR用于PAR
引入统一数据调度策略和动态分类头

2026-03-05

PDF arXiv

6/10

时间序列预测多维外生变量航空维护

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

Jiafeng Lin, Mengren Zheng, Simeng Ye et al.

Aura框架通过整合多维外部因素，显著提升了航空时间序列预测的准确性和适应性。

提出Aura框架，显式组织和编码异构外部信息。
针对航空维护场景，识别并利用三种不同的外部因素。

2026-03-05

PDF arXiv

10/10

多模态学习多模态大模型评估基准

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Yanlin Li, Minghui Guo, Kaiwen Zhang et al.

提出了 UniM 基准，用于评估多模态大模型在任意模态组合的理解和生成能力。

提出了 UniM 数据集，包含 31K 多模态实例
提出了 UniM 评估套件，评估模型语义正确性、结构完整性和连贯性

2026-03-05

PDF arXiv

7/10

蓝光检测应急车辆多目视觉

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez et al.

该研究提出一种基于多目视觉和颜色注意力机制的蓝光应急车辆检测系统。

构建了欧洲应急车辆蓝光图像数据集 ABLDataset
提出了基于颜色注意力机制的 RT-DETR 蓝光检测算法

2026-03-05

PDF arXiv

9/10

常识推理零样本学习视觉知识

Enhancing Zero-shot Commonsense Reasoning by Integrating Visual Knowledge via Machine Imagination

Hyuntae Park, Yeachan Kim, SangKeun Lee

通过机器想象补充视觉知识，增强零样本常识推理能力，有效缓解文本知识的偏差。

提出Imagine框架，将图像生成器融入推理流程。
构建合成数据集，模拟视觉问答场景，辅助视觉上下文利用。

2026-03-05

PDF arXiv

9/10

多模态学习图像描述指令微调

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Jiaxin Fan, Wenpo Song

VisionPangu是一个17亿参数的多模态模型，通过高质量监督提升图像细节描述能力。

提出了一个紧凑型多模态模型VisionPangu
利用DOCCI数据集提升语义连贯性和描述丰富性

2026-03-05

PDF arXiv

9/10

LVLM Hallucination Attention Mechanism

AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

Li'an Zhong, Ziqiang He, Jibin Zheng et al.

AdaIAT通过自适应地增强生成文本的注意力来减轻LVLM中的幻觉问题，并保持语言连贯性。

提出Attention to Generated Text (IAT)方法，减轻幻觉。
提出Adaptive IAT (AdaIAT)，自适应控制干预时间和幅度。

2026-03-05

PDF arXiv

9/10

VLM 知识产权保护动态授权

Authorize-on-Demand: Dynamic Authorization with Legality-Aware Intellectual Property Protection for VLMs

Lianyu Wang, Meng Wang, Huazhu Fu et al.

提出了一种新的动态授权与合法性感知的VLM知识产权保护框架，支持按需授权和自适应部署。

提出AoD-IP框架，实现VLM的动态授权
引入双路径推理机制，联合预测输入合法性和任务特定输出

2026-03-05

PDF arXiv

9/10

联邦学习多模态学习对抗学习

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Min Tan, Junchao Ma, Yinfu Feng et al.

FedAFD提出了一种新的多模态联邦学习框架，通过对抗融合和蒸馏提升客户端和服务器端的学习效果。

提出了双层对抗对齐策略，缓解模态和任务差异
设计了细粒度融合模块，自适应整合全局知识

2026-03-05

PDF arXiv

9/10

联邦学习多模态学习脑肿瘤分割

Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation

Hong Liu, Dong Wei, Qian Dai et al.

提出了用于多模态脑肿瘤分割的联邦学习框架FedMEPD，解决了模态异构和个性化问题。

提出了联邦模态特定编码器以处理模态间异构性。
提出了部分个性化的多模态融合解码器以满足个体需求。

2026-03-05

PDF arXiv

9/10

CT报告生成图像-文本对比学习结构感知

Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation

Hong Liu, Dong Wei, Qiong Peng et al.

提出一个两阶段结构驱动的图像-文本对比学习框架，用于自动生成CT报告，提高临床效率。

引入结构感知的图像-文本对比学习
提出基于文本相似性的软伪标签缓解假阴性

2026-03-05

PDF arXiv

9/10

自动驾驶轨迹生成多模态学习

K-Gen: A Multimodal Language-Conditioned Approach for Interpretable Keypoint-Guided Trajectory Generation

Mingxuan Mu, Guo Yang, Lei Chen et al.

K-Gen利用多模态大语言模型和关键点引导生成 interpretable 自动驾驶轨迹，性能优于现有方法。

提出了一种基于关键点引导的多模态轨迹生成框架K-Gen
利用MLLM结合视觉和文本信息进行轨迹生成

2026-03-05

PDF arXiv

8/10

audio generation diffusion model controllable generation

Low-Resource Guidance for Controllable Latent Audio Diffusion

Zachary Novack, Zack Zukowski, CJ Carr et al.

提出一种低资源、可控的潜在音频扩散方法，通过选择性时频引导和潜在控制头实现细粒度音频控制。

提出选择性TFG和LatCHs实现低成本控制
在latent space操作避免昂贵的解码步骤

2026-03-04

PDF arXiv

9/10

长视频理解关键帧选择多模态学习

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov et al.

FocusGraph提出了一种图结构的帧选择框架，用于长视频问答，提升推理效率和性能。

提出了基于图结构的场景字幕LLM选择器，用于选择关键帧
设计了无训练的 Patch-wise Sparse-Flow Retention (PSFR) 方法选择关键帧

2026-03-04

PDF arXiv

8/10

病理报告生成混合专家模型检索重排序

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

Yixin Chen, Ziyu Su, Hikmat Khan et al.

RANGER模型通过专家混合和自适应检索重排序，提升病理报告生成的质量。

提出了一种基于稀疏门控专家混合(MoE)的病理报告生成框架RANGER。
引入自适应检索重排序模块，减少噪声并改善语义对齐。

2026-03-04

PDF arXiv

8/10

360° video generation diffusion model autoregressive model

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Lingen Li, Guangzhi Wang, Xiaoyu Li et al.

CubeComposer原生生成4K分辨率360°视频，提升VR沉浸式体验。

提出时空自回归扩散模型CubeComposer
设计立方体面上下文管理机制，提升效率

2026-03-04

PDF arXiv

9/10

用户反馈多模态大语言模型情境感知

FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions

Ali Ebrahimi Pourasad, Meyssam Saghiri, Walid Maalej

FeedAIde利用多模态大语言模型，通过情境感知提问，引导用户提交更完善的App反馈报告。

提出了一种情境感知的交互式反馈方法FeedAIde
使用多模态大语言模型进行自适应提问

2026-03-04

PDF arXiv

9/10

文档解析视觉语言模型基准测试

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

Changda Zhou, Ziyue Gao, Xueqing Wang et al.

构建了首个大规模文档解析物理重建基准Real5-OmniDocBench，用于评估VLM在真实场景下的鲁棒性。

构建了Real5-OmniDocBench基准
实现了OmniDocBench的完整物理重建

2026-03-04

PDF arXiv

8/10

机器人衣物操作视觉语言推理

GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning

Mingleyang Li, Yuran Wang, Yue Chen et al.

提出一种基于视觉-语言推理的杂乱衣物检索方案，实现安全准确的单件衣物抓取。

提出基于视觉-语言推理的衣物检索流程
利用SAM2进行衣物分割，增强VLM对衣物状态的感知

2026-03-04

PDF arXiv

9/10

audio-visual learning multimodal learning large language models

Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Dongnuan Cai, Henghui Du, Chang Zhou et al.

Crab$^{+}$通过显式合作解决AV-LLM中的负迁移问题，实现更全面的视听场景理解。

提出AV-UIE v2数据集，包含详细推理过程。
设计统一接口对齐异构任务。

2026-03-04

PDF arXiv

6/10

音频超分辨率扩散模型生成模型

FastWave: Optimized Diffusion Model for Audio Super-Resolution

Nikita Kuznetsov, Maksim Kaledin

FastWave提出了一种优化的扩散模型用于音频超分辨率，降低了计算成本并提高了训练速度。

提出FastWave模型，参数量小，计算复杂度低
在音频超分辨率任务上，性能优于NU-Wave 2

2026-03-04

PDF arXiv

9/10

组合图像检索对比学习负采样

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Geon Park, Ji-Hoon Park, Seong-Whan Lee

针对组合图像检索的判别性查询嵌入，提出可学习属性权重和目标相对负采样。

提出可学习的属性权重，强调与修改文本相关的视觉特征。
引入目标相对负采样，选择信息量更大的负样本。

2026-03-04

PDF arXiv

9/10

人脸空想性错觉视觉模型歧义性分析

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Qianpu Chen, Derya Soydaner, Rob Saunders

利用人脸空想性错觉，分析多种视觉模型在歧义情况下的判别能力，揭示了表征选择对模型行为的影响。

提出了一个用于分析视觉模型在歧义情况下行为的诊断框架。
使用人脸空想性错觉作为受控探针，研究不同视觉模型的检测、定位、不确定性和偏差。

2026-03-04

PDF arXiv

9/10

视频LLM 实时交互基准测试

RIVER: A Real-Time Interaction Benchmark for Video LLMs

Yansong Shi, Qingsong Zhao, Tianxiang Jiang et al.

论文提出了RIVER Bench，一个评估视频LLM实时交互能力的新基准，并提供了一种改进方法。

提出了RIVER Bench，用于评估视频LLM的实时交互能力
设计了Retrospective Memory, Live-Perception, Proactive Anticipation三个任务

2026-03-04

PDF arXiv

9/10

遥感图像图像分割多模态学习

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

Lifan Jiang, Yuhang Pei, oxi Wu et al.

GeoSeg提出一种免训练的遥感图像推理驱动分割框架，无需标注数据即可进行精准分割。

提出GeoSeg框架，实现零样本遥感图像分割
引入偏差感知坐标精细化，校正定位偏差

2026-03-04

PDF arXiv

9/10

多模态推理视觉

Phi-4-reasoning-vision-15B Technical Report

Jyoti Aneja, Michael Harrison, Neel Joshi et al.

Phi-4-reasoning-vision-15B是一个紧凑型开源多模态推理模型，注重数据质量和架构设计。

构建了小型高效的多模态推理模型
验证了数据质量对模型性能的关键作用

2026-03-04

PDF arXiv

8/10

Minecraft MLLM 皮肤生成

BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft

Hengquan Guo

BLOCK是一个开源的二阶段MLLM Minecraft皮肤生成流程，通过MLLM和FLUX.2模型实现像素级皮肤生成。

提出BLOCK开源皮肤生成流程
设计基于MLLM的3D预览合成阶段

2026-03-04

PDF arXiv

9/10

多模态学习单应性估计数据合成

Towards Generalized Multimodal Homography Estimation

Jinkun You, Jiaxin Cheng, Jie Zhang et al.

提出一种新的多模态单应性估计方法，通过合成数据和网络设计增强泛化能力。

提出一种新的训练数据合成方法
设计一种新的网络结构利用跨尺度信息并解耦颜色信息

2026-03-04

PDF arXiv

7/10

手写文本识别 Transformer N-gram

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Florent Meyer, Laurent Guichard, Denis Coquenet et al.

提出了一种n-gram注入Transformer解码器的方法，用于手写文本识别中的动态语言模型自适应，提升跨领域识别精度。

提出n-gram注入Transformer解码器的方法
实现了动态语言模型自适应

2026-03-04

PDF arXiv

9/10

视觉语言模型视觉推理可解释性

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

Yangfu Li, Hongjian Zhan, Jiawei Chen et al.

DeepScan是一个免训练框架，通过层级扫描、重聚焦和证据增强推理，提升LVLM的视觉理解能力。

提出DeepScan框架，无需训练即可提升LVLM的视觉理解能力
提出层级扫描方法，有效减轻干扰上下文的影响

2026-03-04

PDF arXiv

8/10

持续学习视觉语言动作模型经验回放

Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

Huihan Liu, Changyeon Kim, Bo Liu et al.

预训练VLA模型在持续学习中表现出惊人的抗遗忘能力，简单经验回放即可有效。

发现预训练VLA模型抗遗忘能力强
验证简单经验回放(ER)在VLA上的有效性

2026-03-04

PDF arXiv

7/10

点云自监督学习 Transformer

Utonia: Toward One Encoder for All Point Clouds

Yujia Zhang, Xiaoyang Wu, Yunhan Yang et al.

提出Utonia，一个统一的自监督点云Transformer编码器，适用于多个领域。

提出一个统一的跨域点云编码器Utonia
证明了Utonia在不同领域之间的迁移能力

2026-03-03

PDF arXiv

8/10

人形机器人全身运动操作多模态学习

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

Xialin He, Sirui Xu, Xinyao Li et al.

ULTRA提出了一个统一框架，实现人形机器人自主全身运动操作，提升了感知和任务规范下的泛化能力。

提出物理驱动的神经重定向算法
学习统一的多模态控制器

2026-03-03

PDF arXiv

9/10

多模态学习预训练视觉语言模型

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Shengbang Tong, David Fan, John Nguyen et al.

研究原生多模态模型，揭示视觉和语言数据互补性，发现视觉比语言更需要数据。

提出Representation Autoencoder (RAE) 作为统一视觉表示
证明视觉和语言数据具有互补性，促进下游能力提升

2026-03-03

PDF arXiv

8/10

三维重建长序列几何

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Junyi Zhang, Charles Herrmann, Junhwa Hur et al.

LoGeR提出一种混合记忆模块，用于提升长视频序列三维重建的全局一致性。

提出混合记忆模块，结合参数化和非参数化记忆
实现无需后优化的超长序列稠密三维重建

2026-03-03

PDF arXiv

10/10

多模态学习视觉语言模型基准测试

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Zimo Wen, Boxiu Li, Wanbo Zhang et al.

该论文提出了UniG2U-Bench，评估统一模型在多模态理解中生成能力的有效性。

提出了UniG2U-Bench基准测试，包含7个类别和30个子任务
评估了30多个模型，揭示了统一模型的性能弱点和优势

2026-03-03

PDF arXiv

9/10

地球观测多模态学习扩散模型

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci et al.

COP-GEN利用扩散Transformer对多模态地球观测数据进行条件生成建模。

提出COP-GEN，一种多模态隐扩散Transformer模型。
实现了任意到任意的条件生成，包括零样本模态转换。

2026-03-03

PDF arXiv

9/10

Text-to-Image Safety Steering Activation Transport

Conditioned Activation Transport for T2I Safety Steering

Maciej Chrabąszcz, Aleksander Szymczyk, Jan Dubiński et al.

提出CAT框架，通过条件激活传输，在保证图像质量的同时降低T2I模型生成不安全内容。

构建 SafeSteerDataset 对比数据集
提出基于几何的条件机制和非线性传输图的 CAT 框架

2026-03-03

PDF arXiv

8/10

肺部超声图像扩散模型小波变换

AWDiff: An a trous wavelet diffusion model for lung ultrasound image synthesis

Maryam Heidari, Nantheera Anantrasirichai, Steven Walker et al.

提出AWDiff模型，利用小波变换和扩散模型进行肺部超声图像生成，提升图像质量。

提出了AWDiff模型
结合小波变换和扩散模型

2026-03-03

PDF arXiv

5/10

海冰分割 SAR FPGA

TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference

Mhd Rashed Al Koutayni, Mohamed Selim, Gerd Reis et al.

TinyIceNet：低功耗SAR海冰分割网络，用于星载FPGA推理，实现近实时海冰监测。

提出TinyIceNet，一种紧凑型语义分割网络
针对星载SAR图像进行了硬件算法协同设计

2026-03-03

PDF arXiv

7/10

Generative AI Interaction Design Design Practice

Design Generative AI for Practitioners: Exploring Interaction Approaches Aligned with Creative Practice

Xiaohan Peng, Wendy E. Mackay, Janin Koch

论文提出三种与设计实践对齐的生成式AI交互方法，提升设计师对AI输出的控制力。

提出三种新的交互方法：DesignPrompt, FusAIn, DesignTrace
强调在设计流程的不同阶段分配控制权的重要性

2026-03-03

PDF arXiv

8/10

教育 AI生成内容视频质量评估

EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

Baoliang Chen, Xinlong Bu, Lingyu Zhu et al.

提出EduAIGV-1k数据集和EduVQA模型，评估AI生成教育视频质量。

构建了首个AI生成教育视频质量评估基准数据集EduAIGV-1k
提出了细粒度的标注方法，包括感知质量和提示对齐

2026-03-03

PDF arXiv

9/10

Vision-Language Models Semi-Supervised Learning Few-Shot Learning

Semi-Supervised Few-Shot Adaptation of Vision-Language Models

Julio Silva-Rodríguez, Ender Konukoglu

针对医学图像分类小样本学习中的类别不平衡问题，提出一种半监督方法，利用无标签数据提升模型性能。

提出一种基于文本信息伪标签传播的半监督学习方法
应用于医学图像分类的小样本学习

2026-03-03

PDF arXiv

9/10

Multimodal Retrieval Chain-of-Thought Representation Learning

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Xiangzhao Hao, Shijie Wang, Tianyu Yang et al.

TRACE通过生成式推理和判别式表示学习，提升通用多模态检索性能，实现任务自适应。

提出TRACE框架，融合生成式推理和判别式表示学习
构建M-BEIR-CoT数据集，用于训练推理模型

2026-03-03

PDF arXiv

9/10

3D Visual Grounding Referring Expression Segmentation Vision-Language Understanding

3D-DRES: Detailed 3D Referring Expression Segmentation

Qi Chen, Changli Wu, Jiayi Ji et al.

提出了新的3D Referring Expression Segmentation任务(3D-DRES)，并构建了数据集DetailRefer和基线模型DetailBase。

提出了3D-DRES任务，实现phrase到3D instance的映射
构建了包含54,432个描述的DetailRefer数据集

2026-03-03

PDF arXiv

9/10

多模态视频检索地标识别

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi et al.

LLandMark是一个多智能体框架，用于地标感知的多模态交互式视频检索，提升越南场景的检索效果。

提出 LLandMark 多智能体框架，用于多模态视频检索
引入地标知识代理，增强基于 CLIP 的语义匹配

2026-03-03

PDF arXiv

9/10

LVLM Chain-of-Thought 视频流

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

Jialiang Zhang, Junlong Tong, Junyan Lin et al.

提出Think-as-You-See (TaYS)，一个针对视频流的并行化CoT推理框架，提升LVLM在视频理解任务中的效率和响应速度。

提出TaYS框架，实现视频流的并行化CoT推理
引入时间对齐的推理单元、流式注意力机制和双KV缓存

2026-03-03

PDF arXiv

9/10

新视角合成高斯溅射多模态学习

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang

提出一种多模态先验引导的重要性采样方法，用于稀疏视角下的新视角合成。

提出多模态先验引导的重要性采样机制
设计粗到细的Gaussian表示

2026-03-03

PDF arXiv

9/10

vision-language models diagram understanding probing

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Haruto Yoshida, Keito Kudo, Yoichi Aoki et al.

该论文通过探针实验揭示LVLMs处理图结构数据时，节点和边信息编码的阶段性差异。

发现LVLMs中节点信息在视觉编码器中较早编码，而边信息则较晚编码。
揭示边信息在线性可分性方面在视觉编码器和语言模型中存在差异。

2026-03-03

PDF arXiv

9/10

语言条件导航连续流场端到端学习

CoFL: Continuous Flow Fields for Language-Conditioned Navigation

Haokun Liu, Zhaoqi Ma, Yicheng Chen et al.

CoFL通过预测连续流场实现语言条件导航，无需离散动作预测，并在真实场景中实现了zero-shot部署。

提出了一种端到端的语言条件导航策略CoFL
设计了一种基于程序化标注的大规模BEV图像-指令数据集

2026-03-03

PDF arXiv

8/10

文生视频品牌集成多智能体

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Zihao Zhu, Ruotong Wang, Siwei Lyu et al.

BrandFusion提出一个多智能体框架，用于在文生视频中无缝集成品牌，提升商业价值。

提出了在文生视频中无缝集成品牌的新任务
提出了BrandFusion多智能体框架，包含离线品牌知识库构建和在线提示优化阶段

2026-03-03

PDF arXiv

8/10

VLM OCR Ancient Greek

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot et al.

研究了VLM在古希腊文本识别中的应用，提出了数据集并评估了模型性能。

构建了大规模的古希腊文本合成数据集
建立了古希腊文本识别的真实扫描数据集基准

2026-03-03

PDF arXiv

9/10

MLLM 文档信息提取 OCR

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

Jiyuan Shen, Peiyue Yuan, Atin Ghosh et al.

研究了MLLM在文档信息提取中是否需要OCR，发现强大MLLM可媲美OCR+MLLM。

评估了MLLM在文档信息提取中的性能
提出了自动化的分层错误分析框架

2026-03-03

PDF arXiv

9/10

图像-文本对比学习多模态学习视觉表征学习

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

HanZpeng Liu, Yaqian Li, Zidan Wang et al.

ITO通过多重对齐和训练时融合，提升图像-文本对比学习的模态一致性和表征能力。

提出ITO框架，结合多重对齐和训练时融合
多重对齐增强了图像-文本对应关系的监督

2026-03-03

PDF arXiv

9/10

Multimodal LLM Remote Sensing Visual Question Answering

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Yi Liu, Jing Zhang, Di Wang et al.

针对遥感VQA中MLLM的幻觉问题，提出一种无需训练的推理方法RADAR，提升性能并减少幻觉。

提出了RSHBench，一个用于细粒度诊断幻觉的基准
提出了RADAR，一种无需训练的推理方法，利用注意力机制引导定位和推理

2026-03-03

PDF arXiv

9/10

多模态学习视觉语言模型指令学习

iGVLM: Dynamic Instruction-Guided Vision Encoding for Question-Aware Multimodal Understanding

HanZpeng Liu, Yaqian Li, Zidan Wang et al.

iGVLM通过动态指令引导的视觉编码，提升了多模态模型在复杂推理任务中的性能。

提出iGVLM框架，解耦表示分支和动态调节分支
引入MM4诊断探针，用于评估多查询多指令下的逻辑一致性

2026-03-03

PDF arXiv

8/10

视频生成多智能体共享世界建模

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

Jiayi Zhu, Jianing Zhang, Yiying Yang et al.

ShareVerse提出了一种多智能体一致性视频生成框架，用于共享世界建模。

构建大规模多智能体交互数据集
提出空间拼接策略确保多视角几何一致性

2026-03-03

PDF arXiv

10/10

多模态 MLLM 评估

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Shunki Uebayashi, Kento Masui, Kyohei Atarashi et al.

提出M3IRT框架，用于评估MLLM的跨模态推理能力，并优化多模态benchmark。

提出了多模态多维度项目反应理论框架(M3IRT)
利用M3IRT评估MLLM的跨模态推理能力和问题难度

2026-03-03

PDF arXiv

8/10

水面目标检测雷达视觉融合 Transformer

physfusion: A Transformer-based Dual-Stream Radar and Vision Fusion Framework for Open Water Surface Object Detection

Yuting Wan, Liguo Sun, Jiuwu Hao et al.

提出PhysFusion，利用雷达和视觉信息融合，提升水面目标检测精度和鲁棒性。

提出物理信息雷达编码器(PIR Encoder)
设计雷达引导的交互式融合模块(RIFM)

2026-03-02

PDF arXiv

9/10

自动驾驶视觉语言动作模型潜在空间推理

LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving

Yuechen Luo, Fang Li, Shaoqing Xu et al.

提出LaST-VLA框架，通过潜在时空推理提升自动驾驶视觉-语言-动作模型性能，解决语义-感知解耦和感知-符号冲突。

提出Latent Spatio-Temporal CoT框架
引入双重特征对齐机制，从3D基础模型和世界模型中提取几何约束和动态预测信息

2026-03-02

PDF arXiv

8/10

3D generation occlusion reasoning text-to-image

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Vaibhav Agrawal, Rishubh Parihar, Pradhaan Bhat et al.

SeeThrough3D通过显式建模遮挡关系，实现了3D布局条件下的高质量图像生成。

提出了遮挡感知3D场景表示(OSCR)
利用遮挡信息进行图像生成

2026-02-26

PDF arXiv

9/10

Vision-Language Models Reasoning Reporting Bias

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Amita Kamath, Jack Hessel, Khyathi Chandu et al.

VLMs推理能力不足源于训练数据中的报告偏差，扩大规模不能解决，需有针对性地数据标注。

揭示VLMs推理能力不足的根本原因是训练数据中的报告偏差
证明扩大数据规模、模型规模和语言种类不能有效提升VLMs的推理能力

2026-02-26

PDF arXiv

9/10

开放词汇分割视觉语言模型少样本学习

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Tilemachos Aravanis, Vladan Stojnić, Bill Psomas et al.

提出一种基于检索增强的测试时适配器，利用少量带标注样本提升开放词汇分割性能。

提出检索增强测试时适配器，融合文本和视觉支持特征
实现了学习型的、针对每个查询的特征融合，提升了模态协同

2026-02-26

PDF arXiv

9/10

情感识别多模态学习混合专家模型

A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations

Soumya Dutta, Smruthi Balaji, Sriram Ganapathy

提出了一个用于对话情绪识别的混合专家模型MiSTER-E，有效融合语音和文本信息。

提出了MiSTER-E模型，解耦了模态特定上下文建模和多模态信息融合
引入了监督对比损失和KL散度正则化，增强模态一致性

2026-02-26

PDF arXiv

9/10

LMM Multimodal Learning In-Context Learning

Large Multimodal Models as General In-Context Classifiers

Marco Garosi, Matteo Farina, Alessandro Conti et al.

论文研究了大型多模态模型在上下文学习中的分类能力，并提出了CIRCLE方法提升开放世界分类效果。

论证了LMMs在上下文学习中作为分类器的潜力。
提出了CIRCLE方法，提升LMMs在开放世界分类中的鲁棒性。

2026-02-26

PDF arXiv

9/10

电影梗概多模态学习工具增强

MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction

Yizhi Li, Xiaohan Chen, Miao Jiang et al.

MovieTeller利用工具增强和渐进式抽象生成ID一致且连贯的电影梗概。

提出了一种无需微调，工具增强的电影梗概生成框架
利用外部人脸识别工具建立事实基础

2026-02-26

PDF arXiv

9/10

3D LMM Fourier Transform Point Cloud

Efficient Encoder-Free Fourier-based 3D Large Multimodal Model

Guofeng Mei, Wei Lin, Luigi Riz et al.

Fase3D提出了一种高效的无编码器傅里叶变换3D场景大模型，显著提升3D数据处理效率。

提出基于傅里叶变换的3D场景LMM
引入点云序列化和快速傅里叶变换(FFT)近似自注意力

2026-02-26

PDF arXiv

9/10

World Models Multimodal Learning Consistency

The Trinity of Consistency as a Defining Principle for General World Models

Jingxuan Wei, Siyuan Li, Yuhang Xu et al.

论文提出世界模型应基于一致性三位一体原则，并构建了评估基准CoW-Bench。

提出了Modal, Spatial, Temporal一致性三位一体原则
提出了CoW-Bench多帧推理与生成基准

2026-02-26

PDF arXiv

7/10

视频稳定无监督学习在线处理

No Labels, No Look-Ahead: Unsupervised Online Video Stabilization with Classical Priors

Tao Liu, Gang Wan, Kan Ren et al.

提出一种新的无监督在线视频稳定框架，无需配对数据，性能优于现有方法。

提出一种新的无监督在线视频稳定框架
设计了基于经典pipeline的多线程缓冲机制

2026-02-26

PDF arXiv

9/10

Compositional Zero-Shot Learning Test-Time Adaptation Multimodal Learning

WARM-CAT: : Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

Xudong Yan, Songhe Feng, Jiaxin Wang et al.

WARM-CAT通过积累无监督知识和动态调整原型，解决组合零样本学习中的分布偏移问题。

提出 Warm-Started Test-Time Comprehensive Knowledge Accumulation (WARM-CAT) 方法
设计自适应更新权重控制原型调整程度，灵活适应分布偏移

2026-02-26

PDF arXiv

9/10

视觉-语言模型弱监督学习生物医学图像处理

Cytoarchitecture in Words: Weakly Supervised Vision-Language Modeling for Human Brain Microscopy

Matthew Sutton, Katrin Amunts, Timo Dickscheid et al.

提出一种基于弱监督的视觉-语言模型，用于描述人脑显微图像中的细胞结构。

提出了一种基于标签介导的图像-文本弱监督学习方法
将现有的细胞结构视觉基础模型(CytoNet)与大型语言模型相连接

2026-02-26

PDF arXiv

6/10

心脏血流关系图深度学习

Learning Disease-Sensitive Latent Interaction Graphs From Noisy Cardiac Flow Measurements

Viraj Patel, Marko Grujic, Philipp Aigner et al.

提出一种基于物理信息的潜在关系图框架，用于建模心脏血流特征，以诊断心脏疾病。

提出基于物理信息的潜在关系图模型
应用于主动脉缩窄和左心室辅助装置数据

2026-02-26

PDF arXiv

9/10

Zero-Shot Learning Composed Image Retrieval Multimodal Learning

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Tianyue Wang, Leigang Qu, Tianyu Yang et al.

WISER通过检索-验证-精炼流程，结合图像和文本检索，实现无需训练的零样本组合图像检索。

提出WISER框架，融合T2I和I2I检索，建模意图和不确定性。
设计自适应融合模块，根据置信度选择精炼或融合双路径检索结果。

2026-02-26

PDF arXiv

7/10

异常检测少样本学习预训练模型

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

Camile Lendering, Erkut Akdag, Egor Bondarev

SubspaceAD是一种无需训练的少样本异常检测方法，基于预训练模型特征和子空间建模。

提出无需训练的少样本异常检测方法SubspaceAD
利用预训练DINOv2提取特征并进行PCA降维

2026-02-26

PDF arXiv

8/10

医疗AI 诊断对齐多模态学习

Modeling Expert AI Diagnostic Alignment via Immutable Inference Snapshots

Dimitrios P. Panagoulias, Evangelia-Aikaterini Tsichrintzi, Georgios Savvidis et al.

该论文提出通过不变的推理快照建模专家AI诊断对齐框架，提高临床决策支持系统的人工对齐评估。

提出诊断对齐框架，使用不变推理状态
结合VLM、BERT和SLMI进行医学实体提取和推理

2026-02-26

PDF arXiv

9/10

LLM Benchmarking Scanning Probe Microscopy

SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy

Peiyao Xiao, Xiaogang Li, Chengliang Xu et al.

SPM-Bench是一个用于评估LLM在扫描探针显微镜领域的自动多模态基准测试，具有高权威性和低成本。

提出了SPM-Bench基准测试
设计了全自动数据合成流水线

2026-02-26

PDF arXiv

10/10

multimodal medical imaging brain tumor

MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

Feng Guo, Jiaxiang Liu, Yang Li et al.

MM-NeuroOnco构建了大规模脑肿瘤MRI多模态诊断基准，并提出了NeuroOnco-GPT模型。

构建了大规模多模态脑肿瘤MRI诊断数据集MM-NeuroOnco
提出了多模型协作的自动医学信息补全和质量控制流程

2026-02-26

PDF arXiv

9/10

假新闻检测多模态学习视觉语义

MViR: Multi-View Visual-Semantic Representation for Fake News Detection

Haochen Liang, Xinqi Su, Jun Wang et al.

MViR通过多视角视觉语义表示提升假新闻检测性能，融合图像和文本信息。

提出多视角视觉语义表示框架(MViR)
使用金字塔空洞卷积捕获多视角视觉语义特征

2026-02-26

PDF arXiv

9/10

MLLM 长视频理解关键帧采样

MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

Wenhui Tan, Xiaoyi Yu, Jiaze Li et al.

MSJoE通过联合优化MLLM和采样器，提升长视频理解效率和准确率。

提出MSJoE框架，联合演化MLLM和轻量级关键帧采样器
引入查询推理，提升关键帧选择的准确性

2026-02-26

PDF arXiv

10/10

VLM OCR 因果干预

Where Vision Becomes Text: Locating the OCR Routing Bottleneck in Vision-Language Models

Jonathan Steinberg, Oren Gal

该论文通过因果干预探究了视觉语言模型中OCR信息的路由机制和瓶颈位置。

揭示了不同架构VLMs中OCR瓶颈的位置差异
发现OCR信号是低维的且具有跨数据集的迁移性

2026-02-26

PDF arXiv

9/10

Multimodal Learning Domain Generalization Semi-Supervised Learning

Towards Multimodal Domain Generalization with Few Labels

Hongzhao Li, Hao Dong, Hualei Wan et al.

提出了一个半监督多模态域泛化框架，解决了数据量少和域偏移的问题。

提出了半监督多模态域泛化(SSMDG)问题
提出了包含三个关键组件的统一框架

2026-02-26

PDF arXiv

9/10

LMM Multimodal Learning Reinforcement Learning

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Hongrui Jia, Chaoya Jiang, Shikun Zhang et al.

DPE是一种诊断驱动的迭代训练方法，通过诊断盲点动态调整数据，持续提升LMMs性能。

提出Diagnostic-driven Progressive Evolution (DPE) 训练框架
利用多智能体标注和质量控制大规模多模态数据

2026-02-26

PDF arXiv

7/10

医学影像胸部X光基础模型

A data- and compute-efficient chest X-ray foundation model beyond aggressive scaling

Chong Wang, Yabin Zhang, Yunhe Gao et al.

提出CheXficient模型，通过主动数据管理实现高效的胸部X光影像基础模型预训练。

提出一种数据和计算高效的医学影像基础模型预训练方法
CheXficient模型在更少的数据和计算资源下达到与全数据模型相当甚至更优的性能

2026-02-26

PDF arXiv

9/10

视频理解 Tokenizer 轨迹建模

TrajTok: Learning Trajectory Tokens enables better Video Understanding

Chenhao Zheng, Jieyu Zhang, Jianing Zhang et al.

提出TrajTok视频tokenizer，通过联合训练动态分割视频轨迹，提升视频理解性能和效率。

提出端到端视频tokenizer模块TrajTok，与下游任务联合训练。
TrajTok通过隐式聚类提取时空轨迹，无需外部分割和跟踪流水线。

2026-02-26

PDF arXiv

9/10

多模态学习视觉推理大语言模型

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

You Li, Chi Chen, Yanghao Li et al.

论文揭示了现有多模态大语言模型中隐空间推理的无效性，并提出显式文本想象方法CapImagine。

揭示了隐空间推理中输入与隐状态、隐状态与答案之间的断连
提出了基于显式文本想象的视觉推理方法CapImagine

2026-02-26

PDF arXiv

9/10

文本到视频生成动态空间关系直接偏好优化

SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

Fengming Liu, Tat-Jen Cham, Chuanxia Zheng

SPATIALALIGN框架通过DPO微调T2V模型，提升视频中动态空间关系与文本提示的对齐。

提出了SPATIALALIGN自提升框架
设计了基于几何的DSR-SCORE指标

2026-02-26

PDF arXiv

9/10

Referring Image Segmentation Vision-Language Alignment Masked Learning

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Tongfei Chen, Shuo Yang, Yuguang Yang et al.

AMLRIS通过对齐感知掩码学习提升指代图像分割效果，关注可信线索。

提出Alignment-Aware Masked Learning (AML)训练策略
显式估计像素级视觉-语言对齐

2026-02-26

PDF arXiv

9/10

multimodal vision-language captioning

Asymmetric Idiosyncrasies in Multimodal Models

Muzi Tao, Chufan Shi, Huijuan Wang et al.

研究了Caption模型和Text-to-Image模型之间的风格差异，并提出了一种新的量化方法。

提出了一种基于分类的框架，用于量化Caption模型的风格特征。
发现Caption模型的风格特征在生成的图像中显著消失。

2026-02-26

PDF arXiv

10/10

幻觉缓解视觉语言模型子空间编辑

HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models

Yangguang Lin, Quan Fang, Yufei Li et al.

HulluEdit通过正交子空间编辑，单次推理有效减少大视觉语言模型中的对象幻觉，同时保持通用能力。

提出HulluEdit，一种单次、无参考的幻觉缓解框架
引入正交子空间编辑，将隐藏状态分解为视觉证据、先验冲突和残差不确定性

2026-02-26

PDF arXiv

9/10

3D LVLM 位置编码球坐标

SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

Guanting Ye, Qiyan Zhao, Wenhao Yu et al.

针对3D LVLM在3D空间感知上的不足，提出了基于球坐标的位置编码SoPE，增强了模型对3D几何结构的理解。

提出了基于球坐标的位置编码SoPE
引入了多尺度频率混合策略

2026-02-26

PDF arXiv

9/10

membership inference attack diffusion model privacy

No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

Joonsung Jeon, Woo Jae Kim, Suhyeon Ha et al.

提出了一种无需真实caption的membership inference攻击方法MoFit，有效识别扩散模型训练集成员。

提出MoFit框架，实现caption-free的membership inference攻击
通过优化图像扰动，构建过拟合生成流形的surrogate

2026-02-26

PDF arXiv

9/10

VQA Smart Glasses Multimodal Learning

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

Zhuohang Jiang, Xu Yuan, Haohao Qu et al.

提出了首个智能眼镜VQA基准SUPERGLASSES，并构建了检索增强的智能眼镜Agent SUPERLENS。

构建了首个基于真实智能眼镜数据的VQA基准数据集SUPERGLASSES
评估了26个VLM模型在该基准上的表现，揭示了现有模型的局限性

2026-02-26

PDF arXiv

9/10

vision-language model image-text retrieval Vietnamese

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

ViCLIP-OT是首个越南语图像-文本检索基础模型，结合对比学习和最优传输损失。

提出了专门为越南语图像-文本检索设计的ViCLIP-OT模型
集成了CLIP风格的对比学习和SIGROT损失，增强跨模态一致性

2026-02-26

PDF arXiv

9/10

多模态学习对象幻觉视觉语言模型

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Lingfeng Ren, Weihao Yu, Runpeng Yu et al.

NoLan通过动态抑制语言先验，有效缓解了大型视觉语言模型中的对象幻觉问题。

系统分析了视觉编码器和语言解码器在对象幻觉生成中的作用，发现语言先验是主要原因
提出了NoLan框架，一种无需训练的动态抑制语言先验的方法

2026-02-25

PDF arXiv

9/10

VideoLLM Streaming Temporal Reasoning

WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs

Yulin Zhang, Cheng Shi, Sibei Yang

WeaveTime解决了视频LLM在流式处理中时间感知不足的问题，提升了准确性和效率。

提出了时间感知问题Time-Agnosticism
设计了流式顺序感知增强Temporal Reconstruction

2026-02-25

PDF arXiv

9/10

3D MRI 视觉语言模型放射报告生成

Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D

Mariano Barone, Francesco Di Serio, Giuseppe Riccio et al.

Brain3D利用3D视觉Transformer和分阶段对齐方法，实现脑肿瘤MRI自动报告生成。

提出Brain3D框架，用于从3D脑肿瘤MRI生成放射报告
将预训练2D医学编码器扩展到3D架构

2026-02-25

PDF arXiv

8/10

RGB-Event 公里标识别预训练模型

RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models

Xiaoyu Xian, Shiao Wang, Xiao Wang et al.

提出了一种基于RGB-Event数据和预训练模型的公里标识别方法，并构建了大规模数据集EvMetro5K。

提出了基于RGB-Event HyperGraph Prompt的KMR方法
构建了大规模RGB-Event数据集EvMetro5K

2026-02-25

PDF arXiv

8/10

Vision-Language-Action World Modeling Action Generation

World Guidance: World Modeling in Condition Space for Action Generation

Yue Su, Sijin Chen, Haixin Shi et al.

WoG通过条件空间建模，提升VLA模型动作生成的精细度和泛化性。

提出WoG框架，将未来观测映射到紧凑的条件空间。
联合预测压缩条件和未来动作，实现有效的条件空间世界建模。

2026-02-25

PDF arXiv

5/10

医学图像降噪深度学习

PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for medical images

Jitindra Fartiyal, Pedro Freire, Sergei K. Turitsyn et al.

PatchDenoiser通过多尺度patch学习和融合，高效降噪医学图像，保留细节。

提出了一种轻量级的医学图像降噪框架PatchDenoiser
采用多尺度patch学习和空间感知融合策略

2026-02-25

PDF arXiv

9/10

MLLM 图像翻译多模态学习

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

Junxin Lu, Tengfei Song, Zhanglin Wu et al.

GLoTran通过全局-局部双重感知提升MLLM在高分辨率富文本图像翻译任务上的性能。

提出GLoTran框架，利用全局图像和局部文本切片增强视觉感知
构建大规模高分辨率富文本图像翻译数据集GLoD

2026-02-25

PDF arXiv

9/10

自动驾驶多模态学习推理

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

Lingjun Zhang, Yujian Yuan, Changjie Wu et al.

MindDriver通过渐进式多模态推理，提升VLM在自动驾驶中的规划能力，并提出数据标注和强化微调方法。

提出了渐进式多模态推理框架MindDriver
开发了反馈引导的自动数据标注流程

2026-02-25

PDF arXiv

10/10

MLLM 多模态医学诊断

MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models

Boqi Chen, Xudong Liu, Jiachuan Peng et al.

提出了MEDSYN基准，评估MLLM在复杂临床病例中多证据融合的诊断能力，揭示了模型在跨模态证据利用上的不足。

提出了MEDSYN多模态临床基准
揭示了MLLM在诊断中跨模态证据利用的差距

2026-02-25

PDF arXiv

9/10

图像记忆性多模态学习自然语言反馈

How to Take a Memorable Picture? Empowering Users with Actionable Feedback

Francesco Laiti, Davide Talon, Jacopo Staiano et al.

提出MemFeed任务，利用MLLM提供图像记忆性改进的自然语言反馈，并构建了MemBench基准。

提出Memorability Feedback (MemFeed) 任务
提出 MemCoach 方法，基于 MLLM 提供图像记忆性改进的自然语言反馈

2026-02-25

PDF arXiv

6/10

联邦学习数据不平衡原型学习

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

Shiwei Lu, Yuhang He, Jiashuo Li et al.

GFPL框架通过生成式联邦原型学习解决资源受限和数据不平衡的联邦学习问题。

提出基于GMM的原型生成方法
设计基于Bhattacharyya距离的原型聚合策略

2026-02-25

PDF arXiv

9/10

图神经网络视觉语言模型问答系统

DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs

Yanbin Wei, Jiangyue Yan, Chun Kang et al.

DynamicGTR通过动态选择图拓扑表示提升VLM在图问答任务中的性能，实现精度和简洁性的平衡。

提出DynamicGTR框架，动态选择最优图拓扑表示
提升VLM在图算法问答任务中的性能

2026-02-25

PDF arXiv

10/10

MLLM Few-shot learning Benchmark

FewMMBench: A Benchmark for Multimodal Few-Shot Learning

Mustafa Dogan, Ilker Kesen, Iacer Calixto et al.

FewMMBench基准测试用于评估多模态大语言模型在少样本学习方面的能力。

提出了FewMMBench基准，用于评估MLLM的少样本学习能力
涵盖了多样的多模态理解任务，例如属性识别和时间推理

2026-02-25

PDF arXiv

9/10

video foundation models benchmark evaluation

UniVBench: Towards Unified Evaluation for Video Foundation Models

Jianhui Wei, Xiaotian Zhang, Yichen Li et al.

UniVBench旨在统一评估视频基础模型在理解、生成、编辑和重建等方面的能力。

提出了UniVBench基准测试，用于统一评估视频基础模型
包含了视频理解、生成、编辑和重建四个核心任务

2026-02-25

PDF arXiv

9/10

视频深度伪造视觉语言模型时间推理

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Zheyuan Gu, Qingsong Zhao, Yusong Wang et al.

提出了FAQ基准测试，提升VLM在视频深度伪造时间一致性推理能力。

提出了FAQ基准测试，用于评估VLM在视频深度伪造时间推理能力。
FAQ包含三个层级：面部感知、时间深度伪造定位和取证推理。

2026-02-25

PDF arXiv

9/10

多模态 LLM 推理

Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

Jinghan Li, Junfeng Fang, Jinda Lu et al.

提出一种难度感知的分组归一化方法Durian，提升多模态LLM的推理能力。

提出了难度感知的分组归一化方法Durian
通过视觉熵和模型置信度来定义样本难度

2026-02-25

PDF arXiv

9/10

医学图像视觉-语言预训练 CT图像

SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning

Jiayi Wang, Hadrien Reynaud, Ibrahim Ethem Hamamci et al.

SigVLP提出了一种新的视觉-语言预训练方法，通过分块和旋转位置编码解决CT体积数据变异性问题。

提出SigVLP模型，使用旋转位置编码适应不同尺寸的CT体积。
使用分块的CT体积和器官级别文本信息进行更细粒度的监督。

2026-02-25

PDF arXiv

9/10

AI生成图像检测 MLLM 特征融合

TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection

Wenbin Wang, Yuge Huang, Jianqing Xu et al.

TranX-Adapter 通过优化 MLLM 中语义和伪影特征的融合，提升 AI 生成图像检测的鲁棒性。

提出 TranX-Adapter，一种轻量级的融合适配器
引入 Task-aware Optimal-Transport Fusion，利用 Jensen-Shannon 散度传递伪影信息

2026-02-25

PDF arXiv

6/10

图像重建卷积字典学习稀疏表示

Learning spatially adaptive sparsity level maps for arbitrary convolutional dictionaries

Joshua Schulz, David Schote, Christoph Kolbitsch et al.

提出一种基于神经网络的自适应稀疏度图卷积字典学习方法，增强了解释性和鲁棒性。

提出改进的网络结构和训练策略，实现滤波器置换不变性
允许在推理时更换卷积字典

2026-02-25

PDF arXiv

9/10

LVLM Hallucination Mitigation Multimodal

Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

Jianghao Yin, Qin Chen, Kedi Chen et al.

提出动态多模态激活引导方法，通过语义感知的干预缓解大型视觉语言模型中的幻觉问题。

揭示LVLM中真实性和视觉感知能力激活模式的差异
提出动态多模态激活引导方法（Dynamic Multimodal Activation Steering）

2026-02-25

PDF arXiv

7/10

医学影像计算机辅助诊断视觉认知

Following the Diagnostic Trace: Visual Cognition-guided Cooperative Network for Chest X-Ray Diagnosis

Shaoxuan Wu, Jingkun Chen, Chong Ma et al.

VCC-Net利用视觉认知指导胸部X光诊断，提升AI辅助诊断的可靠性和可解释性。

提出VCC-Net，实现视觉认知引导的协同诊断范式
利用眼动追踪或鼠标捕捉放射科医生的视觉搜索轨迹和注意力模式

2026-02-25

PDF arXiv

8/10

多模态检索索引压缩注意力机制

Multi-Vector Index Compression in Any Modality

Hanxiang Qin, Alexander Martin, Rohan Jha et al.

针对多模态晚期交互检索，提出基于注意力引导聚类的索引压缩方法，提升检索效率。

提出注意力引导聚类(AGC)压缩多向量文档表示
证明AGC优于其他压缩方法，如序列重塑和记忆tokens

2026-02-24

PDF arXiv

9/10

3D视觉推理视觉语言模型自监督学习

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

Haoyi Jiang, Liu Liu, Xinjie Wang et al.

Spa3R通过自监督学习，从2D图像中提取3D空间信息，提升VLM的空间推理能力。

提出 Predictive Spatial Field Modeling (PSFM) 范式
构建 Spa3R 框架，从多视角图像学习统一的空间表示

2026-02-24

PDF arXiv

7/10

医学图像深度学习可解释AI

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman et al.

XMorph通过LLM辅助的混合深度智能，实现可解释的脑肿瘤诊断，提高了诊断准确率。

提出信息加权边界归一化(IWBN)机制，增强肿瘤形态表示
开发结合GradCAM++和LLM文本解释的双通道可解释AI模块

2026-02-24

PDF arXiv

9/10

text-to-image retrieval vision-language learning query completion

Seeing Through Words: Controlling Visual Retrieval Quality with Language Models

Jianglin Lu, Simon Jenni, Kushal Kafle et al.

提出一种质量可控的文本到图像检索方法，利用语言模型扩展短查询并控制图像质量。

提出质量可控检索新范式
利用生成式语言模型进行查询补全

2026-02-24

PDF arXiv

9/10

ECG 多模态学习表征学习

CG-DMER: Hybrid Contrastive-Generative Framework for Disentangled Multimodal ECG Representation Learning

Ziwei Niu, Hao Sun, Shujun Bian et al.

提出CG-DMER框架，通过对比生成学习解耦多模态ECG表征，提升心电图分析性能。

提出空间-时间掩码建模，捕捉ECG精细时空依赖
设计表征解耦和对齐策略，减少模态偏差

2026-02-24

PDF arXiv

9/10

VideoQA Urban Dynamics Multimodal Reasoning

UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik et al.

UDVideoQA数据集旨在评估视频语言模型在城市交通场景下多物体时空推理能力。

提出了一个新的交通视频问答数据集UDVideoQA
设计了统一的标注流程和层级推理结构

2026-02-24

PDF arXiv

7/10

Vision Transformer DeepSpeed 分布式训练

Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads

Huy Trinh, Rebecca Ma, Zeqi Yu et al.

利用DeepSpeed加速Vision Transformer在图像任务上的分布式训练，评估其性能和可扩展性。

评估DeepSpeed在ViT上的加速效果
分析了不同GPU配置下的训练效率

2026-02-24

PDF arXiv

9/10

LVLM Self-Evaluation Uncertainty Quantification

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

Seongheon Park, Changdae Oh, Hyeong Kyu Choi et al.

VAUQ提出一种视觉感知的不确定性量化框架，用于评估LVLM对视觉依赖预测的置信度。

提出Image-Information Score (IS)来量化视觉信息对预测的影响
提出基于核心区域掩码的策略以放大显著区域的影响

2026-02-24

PDF arXiv

9/10

MLLM 视觉理解潜在表示

CrystaL: Spontaneous Emergence of Visual Latents in MLLMs

Yang Zhang, Danyang Li, Yuxuan Li et al.

CrystaL通过对齐完整和损坏图像的潜在表示，提升多模态大语言模型视觉理解能力。

提出CrystaL框架，无需额外标注即可提升视觉信息保留
通过对齐注意力模式和预测分布，提炼任务相关的视觉语义

2026-02-24

PDF arXiv

10/10

图像标注多模态大语言模型 MLLM

Are Multimodal Large Language Models Good Annotators for Image Tagging?

Ming-Kun Xie, Jia-Hao Xiao, Zhiqiang Kou et al.

该论文分析了MLLM在图像标注中的应用潜力，并提出了TagLLM框架提高标注质量。

分析MLLM在图像标注中的能力和局限性
提出TagLLM框架，包括候选标签生成和标签消歧义两个模块

2026-02-24

PDF arXiv

7/10

UAV 深度学习扩展卡尔曼滤波

EKF-Based Depth Camera and Deep Learning Fusion for UAV-Person Distance Estimation and Following in SAR Operations

Luka Šiktar, Branimir Ćaran, Bojan Šekoranja et al.

论文提出一种基于EKF融合深度相机和深度学习的无人机人员距离估计和跟随系统。

融合深度相机和单目相机信息进行人员距离估计
使用YOLO-pose进行深度学习滤波和相机-人体距离估计

2026-02-24

PDF arXiv

9/10

长视频理解多模态学习 AI Agent

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Jihao Qiu, Lingxi Xie, Xinyue Huo et al.

LongVideo-R1提出了一种高效的、基于推理的多模态Agent，用于低成本的长视频理解。

提出了LongVideo-R1 Agent，用于高效长视频理解。
引入推理模块，利用视觉线索导航视频上下文。

2026-02-24

PDF arXiv

9/10

视觉文本渲染强化学习结构异常检测

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

Hanshen Zhu, Yuliang Liu, Xuecheng Wu et al.

TextPecker通过量化结构异常来提升视觉文本渲染的保真度和语义对齐。

提出了TextPecker，一种可插拔的结构异常感知强化学习策略。
构建了带有字符级结构异常注释的识别数据集。

2026-02-24

PDF arXiv

9/10

多模态学习知识图谱推荐系统

E-MMKGR: A Unified Multimodal Knowledge Graph Framework for E-commerce Applications

Jiwoo Kang, Yeon-Chang Lee

E-MMKGR构建电商多模态知识图谱，通过GNN学习统一的物品表示，提升推荐和搜索效果。

提出E-MMKGR框架，解决模态扩展性和任务泛化性问题
构建电商领域的多模态知识图谱E-MMKG

2026-02-24

PDF arXiv

8/10

联邦学习跨模态学习医学图像分割

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen et al.

提出一种基于数据增强的联邦学习方法，解决跨模态医学图像分割泛化问题。

提出全局强度非线性增强方法(GIN)以模拟模态差异。
验证GIN在联邦学习框架下跨模态分割的有效性。

2026-02-24

PDF arXiv

9/10

多模态推荐图神经网络专家网络

Modality-Guided Mixture of Graph Experts with Entropy-Triggered Routing for Multimodal Recommendation

Ji Dai, Quan Fang, Dengsheng Cai

提出MAGNET模型，通过模态引导的图专家网络和熵触发路由，提升多模态推荐效果。

提出模态引导的图专家网络MAGNET
引入交互条件专家路由和结构感知图增强

2026-02-24

PDF arXiv

8/10

对比学习行为控制大型语言模型

PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding

Baolong Bi, Yuyao Ge, Shenghua Liu et al.

PromptCD提出一种测试时行为控制方法，通过对比学习提升LLM和VLM的可靠性和安全性。

提出Polarity-Prompt Contrastive Decoding (PromptCD)，一种测试时行为控制方法。
将对比解码扩展到更广泛的增强目标，适用于LLM和VLM。

2026-02-24

PDF arXiv

9/10

具身智能 VLM 基准

How Foundational Skills Influence VLM-based Embodied Agents:A Native Perspective

Bo Peng, Pi Bu, Keyu Pan et al.

提出了NativeEmbodied基准，用于评估VLM驱动的具身智能体在原生低级动作空间中的技能。

提出了NativeEmbodied基准，包含复杂场景中的高层任务和针对基础技能的低层任务。
分析了现有VLM在具身智能体技能方面的不足。

2026-02-24

PDF arXiv

6/10

手术机器人关注点追踪视野引导

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

Rulin Zhou, Guankun Wang, An Wang et al.

提出SurgAtt-Tracker，通过时序重排序和运动感知优化，实现稳定准确的手术视野关注点追踪。

提出SurgAtt-Tracker框架
构建大规模手术关注点数据集SurgAtt-1.16M

2026-02-24

PDF arXiv

9/10

多模态学习公平性物理信息

Physics-based phenomenological characterization of cross-modal bias in multimodal models

Hyeongmo Kim, Sohyun Kang, Yerin Choi et al.

该论文提出了一种基于物理现象的解释性方法，用于分析多模态LLM中的跨模态偏差和公平性问题。

提出了基于物理现象的解释性方法来分析MLLM偏差
使用物理代理模型描述Transformer动态，分析跨模态偏差

2026-02-24

PDF arXiv

9/10

视频推理大规模数据集基准测试

A Very Big Video Reasoning Suite

Maijunxian Wang, Ruisi Wang, Juyi Lin et al.

论文提出了一个大规模视频推理数据集VBVR，并构建了可验证的评估框架VBVR-Bench，用于研究视频推理能力。

构建了大规模视频推理数据集VBVR
提出了可验证的评估框架VBVR-Bench

2026-02-23

PDF arXiv

9/10

机器人视觉语言模型视频规划

NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

Jiahui Fu, Junyu Nan, Lingfeng Sun et al.

NovaPlan利用闭环视频语言规划，实现零样本长程机器人操作任务。

提出NovaPlan框架，融合VLM规划和几何机器人执行
利用视频生成提取关键点和手部姿态作为运动学先验

2026-02-23

PDF arXiv

9/10

vision-language multimodal cross-modal retrieval

StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues

Zanxi Ruan, Qiuyu Kong, Songqun Gao et al.

StructXLIP通过提取图像结构信息，增强视觉语言模型的跨模态对齐，提升检索性能。

提出StructXLIP框架，利用图像边缘信息增强VLM
引入结构中心损失，优化图像与文本结构表示的对齐

2026-02-23

PDF arXiv

9/10

视觉语言模型热需求预测卫星图像

HeatPrompt: Zero-Shot Vision-Language Modeling of Urban Heat Demand from Satellite Images

Kundan Thota, Xuanhao Mu, Thorsten Schlachter et al.

HeatPrompt利用视觉-语言模型和卫星图像，零样本预测城市热需求，提升预测精度。

提出HeatPrompt零样本热需求预测框架
利用预训练VLM提取语义特征进行热需求建模

2026-02-23

PDF arXiv

8/10

机器人安全视觉语言模型上下文推理

Contextual Safety Reasoning and Grounding for Open-World Robots

Zachary Ravichadran, David Snyder, Alexander Robey et al.

CORE框架利用VLM进行在线上下文推理和环境感知，实现开放世界中机器人的情境安全。

提出了CORE安全框架，实现基于VLM的上下文安全推理
将上下文安全规则与物理环境对齐，进行空间定位

2026-02-23

PDF arXiv

7/10

Vision Transformer Tensor Cosine Product Efficient Computation

A Computationally Efficient Multidimensional Vision Transformer

Alaa El Ichi, Khalide Jbilou

提出一种基于张量余弦积(Cproduct)的高效视觉Transformer，降低计算和内存成本。

提出基于张量余弦积的Transformer框架
设计了新的Cproduct-based视觉Transformer架构(TCP-ViT)

2026-02-23

PDF arXiv

9/10

图像生成空间推理强化学习

RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection

Tianyu Wang, Zhiyuan Ma, Qian Wang et al.

RL-RIG利用强化学习和反射机制，提升图像生成模型在空间推理上的能力。

提出 RL-RIG 框架，结合强化学习和反射机制
引入 Generate-Reflect-Edit 范式，模仿思维链推理

2026-02-23

PDF arXiv

9/10

零样本学习伪装对象分割多模态学习

Discover, Segment, and Select: A Progressive Mechanism for Zero-shot Camouflaged Object Segmentation

Yilong Yang, Jianxin Tian, Shengchuan Zhang et al.

提出了一种用于零样本伪装对象分割的渐进式发现-分割-选择(DSS)机制。

提出了 Feature-coherent Object Discovery (FOD) 模块
提出了 Semantic-driven Mask Selection (SMS) 模块

2026-02-23

PDF arXiv

9/10

VLM Token Compression Attention-free

ApET: Approximation-Error Guided Token Compression for Efficient VLMs

Qiankun Ma, Ziyao Zhang, Haofei Wang et al.

ApET通过近似误差引导的token压缩方法，在保证性能的同时显著提升了VLMs的推理效率。

提出基于近似误差的视觉Token压缩框架ApET
无需依赖attention，兼容FlashAttention等高效attention kernel

2026-02-23

PDF arXiv

9/10

光伏功率预测多模态学习时间序列预测

M3S-Net: Multimodal Feature Fusion Network Based on Multi-scale Data for Ultra-short-term PV Power Forecasting

Penghui Niu, Taotao Cai, Suqi Zhang et al.

M3S-Net利用多尺度数据和新型跨模态融合，显著提升了超短期光伏功率预测精度。

提出多尺度局部通道选择网络，精确提取薄云特征
设计基于FFT的多尺度序列到图像分析网络，解耦气象数据周期性

2026-02-23

PDF arXiv

9/10

篡改文本检测多模态学习强化学习

TextShield-R1: Reinforced Reasoning for Tampered Text Detection

Chenfan Qu, Yiwu Zhong, Jian Liu et al.

TextShield-R1是首个基于强化学习的MLLM篡改文本检测方案，提升了篡改文本检测的准确性和可解释性。

提出基于强化学习的MLLM篡改文本检测框架TextShield-R1
引入Forensic Continual Pre-training进行预训练

2026-02-23

PDF arXiv

8/10

3D perception Open-vocabulary Industrial environment

Open-vocabulary 3D scene perception in industrial environments

Keno Moenck, Adrian Philip Florea, Julian Koch et al.

提出一种适用于工业环境的免训练开放词汇3D感知方法，解决现有模型泛化性差的问题。

提出一种免训练的开放词汇3D感知流水线
使用领域适配的VLFM 'IndustrialCLIP'进行开放词汇查询

2026-02-23

PDF arXiv

9/10

视觉-语言模型轨迹感知空间理解

TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

Fan Yang, Shurong Zheng, Hongyin Zhao et al.

TraceVision提出一种轨迹感知的视觉-语言模型，提升空间理解和交互能力。

提出TraceVision模型，融合视觉特征和轨迹信息
设计几何简化方法提取轨迹关键点

2026-02-23

PDF arXiv

9/10

多模态学习数据集蒸馏 CLIP

Multimodal Dataset Distillation Made Simple by Prototype-Guided Data Synthesis

Junhyeok Choi, Sangwoo Mo, Minwoo Chae

提出一种基于原型引导数据合成的无学习多模态数据集蒸馏框架，提高跨架构泛化能力。

提出一种无学习的多模态数据集蒸馏框架
使用CLIP提取图像-文本对齐嵌入，获得原型

2026-02-23

PDF arXiv

9/10

多模态地点识别自动驾驶

VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving Environments

Jingyi Xu, Zhangshuo Qi, Zhongmiao Yan et al.

提出VGGT-MPR，利用VGGT解决自动驾驶环境下的多模态地点识别问题，实现高性能检索和重排序。

提出VGGT-MPR框架，用于多模态地点识别。
利用VGGT提取几何特征，并进行深度预测增强。

2026-02-23

PDF arXiv

9/10

deepfake detection reasoning multimodal learning

Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision

Kartik Kuckreja, Parul Gupta, Muhammad Haris Khan et al.

提出DeepfakeJudge框架，通过自举生成-评估过程提升深度伪造检测模型推理能力并进行评估。

构建了包含多种伪造类型的OOD benchmark和带有视觉推理标签的人工标注子集。
提出了DeepfakeJudge框架，用于可扩展的推理监督和评估。

2026-02-23

PDF arXiv

9/10

Vision-Language-Action Pose Estimation Robotics

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

Haitao Lin, Hanyang Yu, Jingshun Huang et al.

Pose-VLA通过解耦和预训练，提升VLA模型在机器人任务上的泛化性和效率。

提出Pose-VLA解耦范式，分离空间先验学习和具体动作对齐
引入离散姿态token作为通用表示，融合3D数据和机器人轨迹

2026-02-23

PDF arXiv

9/10

多模态推荐可解释性深度学习

DReX: An Explainable Deep Learning-based Multimodal Recommendation Framework

Adamya Shyam, Venkateswara Rao Kagita, Bharti Rana et al.

DReX是一个可解释的深度学习多模态推荐框架，通过增量更新优化用户和物品表示。

提出了一种统一的多模态推荐框架DReX
利用交互级别的多模态反馈增量细化用户和物品表示

2026-02-23

PDF arXiv

8/10

艺术品分类内容推荐 Iconclass

Iconographic Classification and Content-Based Recommendation for Digitized Artworks

Krzysztof Kutt, Maciej Baczyński

本文提出一个基于Iconclass词汇表，结合YOLOv8和推荐算法的数字化艺术品分类和推荐系统。

自动化艺术品iconographic分类
基于内容的艺术品推荐

2026-02-23

PDF arXiv

9/10

3D Reconstruction Human-Object Interaction Text-Guided Reconstruction

TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

Hyeongjin Nam, Daniel Sungho Jung, Kyoung Mu Lee

提出TeHOR框架，利用文本和外观信息指导3D人体和物体联合重建，提升语义一致性和视觉逼真度。

引入文本描述以实现非接触人-物交互的重建
融入外观信息以获取全局上下文，提升重建质量

2026-02-23

PDF arXiv

8/10

图像检索数据匿名化隐私保护

Evaluating the Impact of Data Anonymization on Image Retrieval

Marvin Chen, Manuel Eberhardinger, Johannes Maucher

该论文系统性地评估了数据匿名化对基于内容的图像检索性能的影响。

提出了一个评估数据匿名化对CBIR影响的框架
评估了不同匿名化方法和程度对CBIR的影响

2026-02-23

PDF arXiv

9/10

视觉语言模型罕见物体识别多模态学习

Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness

Xin Hu, Haomiao Ni, Yunbei Zhang et al.

针对视觉语言模型在罕见物体推理上的不足，提出一种高效的即插即用模块，提升模型性能。

提出了多模态类别嵌入学习方法，利用视觉基础模型和文本描述弥补罕见物体训练数据不足。
设计了基于注意力的增强模块，精细化视觉 tokens，改善模型对细节的感知。

2026-02-23

PDF arXiv

9/10

多模态学习跨模态对齐语义协同表示

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

Chunlei Meng, Guanhong Huang, Rong Fu et al.

CLCR通过跨层语义协同表示，解决了多模态学习中语义不对齐和误差传播的问题，提升了表征质量。

提出跨层语义协同表示（CLCR）框架
设计层内协同交换域（IntraCED）和层间协同聚合域（InterCAD）

2026-02-23

PDF arXiv

9/10

多模态情感分析特征解耦跨模态融合

Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis

Chunlei Meng, Jiabin Luo, Zhenglin Yan et al.

提出了Tri-Subspace Disentanglement框架，通过解耦子空间提升多模态情感分析性能。

提出Tri-Subspace Disentanglement (TSD) 框架
设计Subspace-Aware Cross-Attention (SACA) 融合模块

2026-02-23

PDF arXiv

9/10

LVLM 对抗攻击防御

VALD: Multi-Stage Vision Attack Detection for Efficient LVLM Defense

Nadav Kadvil, Ayellet Tal

提出一种高效的LVLM对抗攻击检测防御方法，结合图像变换和数据整合，无需训练。

提出一种多阶段的对抗攻击检测机制
结合图像变换和Agent数据整合来恢复模型正确行为

2026-02-23

PDF arXiv

9/10

多模态学习视觉语言指代消解

A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data

Joseph Bingham

该论文提出一个多模态框架，用于对齐人类语言描述和视觉感知数据，并验证了其有效性。

提出一个整合语言和视觉信息的计算框架
使用SIFT和UQI模拟人类感知分类

2026-02-23

PDF arXiv

9/10

VLA 机器人视觉语言

When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs

Yu Fang, Yuchun Feng, Dong Jing et al.

针对VLA中视觉偏见导致的counterfactual failures，提出了LIBERO-CF基准和CAG缓解方法。

提出了LIBERO-CF，一个评估VLA counterfactual failures的基准。
揭示了现有VLA模型中counterfactual failures的普遍性。

2026-02-19

PDF arXiv

9/10

LVLM 对抗攻击黑盒攻击

Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting

Xiaohan Zhao, Zhaoyi Li, Yaxin Luo et al.

该论文提出了M-Attack-V2，通过精细化细节攻击显著提升了黑盒LVLM对抗攻击的成功率。

提出了Multi-Crop Alignment (MCA)降低梯度方差
提出了Auxiliary Target Alignment (ATA)构建平滑目标流形

2026-02-19

PDF arXiv

6/10

电子垃圾回收深度学习 YOLOx

A.R.I.S.: Automated Recycling Identification System for E-Waste Classification Using Deep Learning

Dhruv Talwar, Harsh Desai, Wendong Yin et al.

A.R.I.S. 通过深度学习 YOLOx 模型，实现了高效的电子垃圾自动分类和回收。

提出了基于 YOLOx 的电子垃圾自动分类系统 A.R.I.S.
实现了金属、塑料、电路板的实时分类

2026-02-19

PDF arXiv

8/10

Virtual Try-On Diffusion Transformer Correspondence Alignment

CORAL: Correspondence Alignment for Improved Virtual Try-On

Jiyoung Kim, Youngjin Shin, Siyoon Jin et al.

CORAL通过显式对齐人-物对应关系提升虚拟试穿效果，改善细节保留。

分析了Diffusion Transformer中3D attention的对应关系
提出了Correspondence Alignment (CORAL) 框架

2026-02-19

PDF arXiv

9/10

音乐生成多模态学习艺术作品

Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment

Ivan Rinaldi, Matteo Mendula, Nicola Fanelli et al.

提出ArtToMus框架，用于直接将艺术作品转化为音乐，无需文本转换。

构建ArtSound数据集，包含艺术作品-音乐对
提出ArtToMus框架，直接将视觉信息映射到音乐

2026-02-19

PDF arXiv

8/10

AI GameStore 通用人工智能视觉语言模型

AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

Lance Ying, Ryan Truong, Prafull Sharma et al.

提出了AI GameStore，通过玩人类游戏来评估通用人工智能，并评估了VLMs的性能。

提出了AI GameStore平台
利用LLM合成新的代表性人类游戏

2026-02-19

PDF arXiv

9/10

MLLM Image Editing Reinforcement Learning

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

Qiucheng Wu, Jing Shi, Simon Jenni et al.

RetouchIQ提出了一种基于通用奖励模型的MLLM图像润饰框架，提升了图像编辑的语义一致性和感知质量。

提出了RetouchIQ框架，用于指令驱动的可执行图像编辑。
提出了通用奖励模型，利用RL微调MLLM来评估编辑结果。

2026-02-19

PDF arXiv

9/10

视频推理事件图强化学习

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

Zixu Cheng, Da Li, Jian Hu et al.

GraphThinker通过构建事件图增强视频推理，利用强化学习减少幻觉。

提出GraphThinker模型，利用事件图增强视频推理
引入视觉注意力奖励强化视觉 grounding，减少幻觉

2026-02-19

PDF arXiv

9/10

Medical VLM Conformal Prediction Uncertainty Calibration

LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs

Behzad Bozorgtabar, Dwarikanath Mahapatra, Sudipta Roy et al.

LATA通过Laplacian平滑改进医学VLM的校准不确定性，提升预测效率和类别平衡。

提出了LATA，一种训练和标签无关的校准方法。
使用Laplacian平滑零样本概率，提高预测精度。

2026-02-19

PDF arXiv

8/10

量子材料多模态学习指令微调

QuPAINT: Physics-Aware Instruction Tuning Approach to Quantum Material Discovery

Xuan-Bac Nguyen, Hoang-Quan Nguyen, Sankalp Pandey et al.

提出QuPAINT框架，利用物理先验知识提升量子材料光学图像识别能力。

提出Synthia物理驱动的合成数据生成器
构建QMat-Instruct大规模量子材料指令数据集

2026-02-19

PDF arXiv

9/10

MLLM 异常检测工业应用

EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

Xiaomeng Peng, Xilang Huang, Seon Han Choi

EAGLE利用专家模型引导MLLM，无需微调即可提升工业异常检测的准确性和可解释性。

提出EAGLE框架，无需微调即可提高MLLM异常检测性能
利用专家模型指导MLLM关注异常区域，提升可解释性

2026-02-19

PDF arXiv

9/10

多模态学习生存预测缺失数据处理

A Contrastive Variational AutoEncoder for NSCLC Survival Prediction with Missing Modalities

Michele Zanitti, Vanja Miskovic, Francesco Trovò et al.

提出一种多模态对比变分自编码器，用于解决非小细胞肺癌生存预测中模态缺失问题。

提出多模态对比变分自编码器（MCVAE）处理模态缺失问题。
引入学习门控机制的融合瓶颈，标准化模态贡献。

2026-02-19

PDF arXiv

9/10

广义类别发现多模态学习知识蒸馏

SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery

Lorenzo Caselli, Marco Mistretta, Simone Magistri et al.

SpectralGCD利用CLIP跨模态相似性，通过谱滤波和知识蒸馏实现高效广义类别发现。

提出SpectralGCD框架，利用跨模态图像-概念相似性
引入谱滤波，自动保留相关概念

2026-02-19

PDF arXiv

8/10

图像检索形式验证深度学习

Visual Model Checking: Graph-Based Inference of Visual Routines for Image Retrieval

Adrià Molina, Oriol Ramos Terrades, Josep Lladós

提出一种结合形式验证和深度学习的图像检索框架，提升复杂关系查询的可信度和可验证性。

将形式验证融入图像检索
提出基于图的视觉推理方法

2026-02-19

PDF arXiv

5/10

免疫组库亲和力评估公平性

SubQuad: Near-Quadratic-Free Structure Inference with Distribution-Balanced Objectives in Adaptive Receptor framework

Rong Fu, Zijian Zhang, Wenxin Zhang et al.

SubQuad通过优化流程和目标函数，实现了免疫组库分析的加速、减负和公平性提升。

提出了 antigen-aware 的近亚二次检索方法
设计了可微分门控模块自适应融合对齐和嵌入通道

2026-02-19

PDF arXiv

8/10

AI生成视频检测 Swin Transformer 视频嵌入

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

Hung Mai, Loi Dinh, Duc Hai Nguyen et al.

EA-Swin利用嵌入无关的Swin Transformer有效检测AI生成视频，并提出了新的EA-Video数据集。

提出EA-Swin模型，一种嵌入无关的Swin Transformer
构建EA-Video数据集，包含多样化的AI生成视频

2026-02-19

PDF arXiv

6/10

Earth Embeddings 深度学习地表高度映射

Inferring Height from Earth Embeddings: First insights using Google AlphaEarth

Alireza Hamoudzadeh, Valeria Belloni, Roberta Ravanelli

利用AlphaEarth Embeddings和深度学习模型进行地表高度推断的研究，效果初步验证。

探索了Earth Embeddings在区域地表高度映射中的应用潜力
评估了U-Net和U-Net++在高度推断中的表现

2026-02-19

PDF arXiv

9/10

多模态大语言模型 token剪枝

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Yahong Wang, Juncheng Wu, Zhangkai Ni et al.

EntropyPrune通过矩阵熵指导视觉token剪枝，加速多模态大语言模型推理。

提出了基于矩阵熵的视觉token剪枝框架EntropyPrune。
发现了“熵坍塌层”（ECL），作为剪枝阶段选择的原则性标准。

2026-02-19

PDF arXiv

9/10

LVLM 视觉语言模型视觉信息增益

Selective Training for Large Vision Language Models via Visual Information Gain

Seulbi Lee, Sangheum Hwang

论文提出一种基于视觉信息增益的选择性训练方法，提升LVLM的视觉 grounding 能力并缓解语言偏见。

提出视觉信息增益(VIG)度量视觉输入带来的预测不确定性减少
提出VIG引导的选择性训练方案，优先训练高VIG样本和tokens

2026-02-19

PDF arXiv

9/10

多模态学习后门攻击对比学习

BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning

Siyuan Liang, Yongcheng Jing, Yingjie Wang et al.

BadCLIP++提出了一种隐蔽且持久的多模态对比学习后门攻击框架，有效抵抗检测和微调。

提出语义融合QR微触发器，增强隐蔽性
引入目标对齐子集选择，强化低注入率下的信号

2026-02-19

PDF arXiv

9/10

时间序列多模态学习视觉

TimeOmni-VL: Unified Models for Time Series Understanding and Generation

Tong Guan, Sheng Pan, Johan Barthelemy et al.

TimeOmni-VL提出了一种视觉中心的时间序列统一模型，用于理解和生成任务，并引入了Bi-TSI和TSUMM-Suite。

提出了TimeOmni-VL框架，统一时间序列理解和生成
引入了保真度双向映射Bi-TSI，实现时间序列和图像之间的转换

2026-02-19

PDF arXiv

9/10

视觉语言模型推理显著性感知

Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

Mingjia Shi, Yinhan He, Yaochen Zhu et al.

提出一种基于显著性感知的多路径推理方法SAP，解决视觉语言模型推理中视觉信息利用不足的问题。

提出显著性感知原则（SAP）用于视觉语言推理
支持多路径推理，并行探索不同推理行为

2026-02-18

PDF arXiv

9/10

组合泛化对象中心表征视觉问答

Are Object-Centric Representations Better At Compositional Generalization?

Ferdinand Kapl, Amir Mohammad Karimi Mamaghan, Maximilian Seitzer et al.

研究表明，在组合泛化任务中，当数据受限时，面向对象的表征优于密集表征。

提出了新的视觉问答基准测试，用于评估组合泛化能力
比较了有无对象中心偏置的视觉编码器的性能

2026-02-18

PDF arXiv

9/10

具身感知第一人称视角视频多模态学习

Learning Situated Awareness in the Real World

Chuhan Li, Ruilin Han, Joy Hsu et al.

提出了SAW-Bench，一个评估模型在真实世界视频中具身感知能力的基准。

构建了真实世界具身感知的视频数据集SAW-Bench
定义了六种具身感知任务

2026-02-18

PDF arXiv

8/10

街景图像分类 CLIP 注意力机制

A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification

Qi You, Yitai Cheng, Zichao Zeng et al.

提出CLIP-MHAdapter，一种基于注意力机制的CLIP轻量级适配方法，用于街景图像属性分类。

提出CLIP-MHAdapter模型
在Global StreetScapes数据集上取得SOTA结果

2026-02-18

PDF arXiv

7/10

视频理解零样本学习类别拆分

Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding

Kaiting Liu, Hazel Doughty

提出视频分类拆分任务，无需额外数据即可将粗粒度类别拆分为细粒度子类别，提升视频理解精度。

提出类别拆分任务，用于细粒度视频理解。
提出零样本拆分方法，利用视频分类器的潜在组合结构。

2026-02-18

PDF arXiv

8/10

服装建模缝纫图案生成视觉语言模型

DressWild: Feed-Forward Pose-Agnostic Garment Sewing Pattern Generation from In-the-Wild Images

Zeng Tao, Ying Jiang, Yunuo Chen et al.

DressWild提出了一种从单张自然图像生成服装缝纫图案和3D模型的feed-forward方法。

提出DressWild，一个高效的服装图案生成pipeline
利用视觉语言模型（VLMs）解决姿势变化问题

2026-02-18

PDF arXiv

7/10

Analytical Diffusion 生成模型可扩展性

Fast and Scalable Analytical Diffusion

Xinyi Shang, Peng Sun, Jingyu Lin et al.

提出了一种高效的Analytical Diffusion模型GoldDiff，通过动态选择“Golden Subset”加速推理，显著提升了模型的可扩展性。

发现后验渐进集中现象
提出Dynamic Time-Aware Golden Subset Diffusion (GoldDiff)框架

2026-02-18

PDF arXiv

9/10

Visual Self-Refine Chart Parsing Vision-Language Model

Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing

Jinsong Li, Xiaoyi Dong, Yuhang Zang et al.

提出Visual Self-Refine框架，利用像素级视觉反馈提升LVLM在图表解析中的准确性。

提出Visual Self-Refine (VSR)范式
提出ChartVSR模型应用于图表解析

2026-02-18

PDF arXiv

9/10

机器人任务生成 VLA预训练

RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation

Yixue Zhang, Kun Wu, Zhi Gao et al.

RoboGene自动化生成多样且符合物理规律的机器人任务，提升VLA预训练效果。

提出RoboGene框架，用于自动化生成机器人任务
结合多样性驱动采样、自反思机制和人机协作

2026-02-18

PDF arXiv

8/10

OCR 多语言印度

Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems

Ali Faraz, Raja Kolla, Ashish Kulkarni et al.

论文针对印度场景设计高效OCR系统，提出两种训练策略并构建了两个SOTA模型。

提出两种针对印度语境的多语言OCR训练策略
构建了Chitrapathak系列OCR模型，并在Telugu上达到SOTA

2026-02-18

PDF arXiv

9/10

病理报告生成视觉语言模型医学图像处理

Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model

Ahmet Halici, Ece Tugba Cebeci, Musa Balci et al.

提出一种基于金字塔特征提取和UNI基础模型的自动病理报告生成框架。

提出基于UNI和Transformer解码器的分层视觉语言框架
采用多分辨率金字塔式patch选择和图像预处理

2026-02-18

PDF arXiv

9/10

MLLM 多模态视频理解

ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

Daichi Yashima, Shuhei Kurita, Yusuke Oda et al.

ReMoRa通过精炼的运动表征，提升多模态大语言模型在长视频理解上的性能。

提出ReMoRa，一种基于压缩表示的视频MLLM
使用运动表征编码时间动态，减少计算冗余

2026-02-18

PDF arXiv

8/10

空间音频问答运动推理

Spatial Audio Question Answering and Reasoning on Dynamic Source Movements

Arvind Krishna Sridhar, Yinyi Guo, Erik Visser

该论文研究了动态声源运动场景下的空间音频问答，并提出了相应的解决方案。

提出了运动中心的空间音频增强框架
设计了带有思考模式的端到端多模态微调方法

2026-02-18

PDF arXiv

5/10

3D 医学图像分割 Transformer 深度学习

RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal

RefineFormer3D是一种高效的3D医学图像分割模型，兼顾精度和效率。

提出RefineFormer3D，一种轻量级transformer架构
使用GhostConv3D进行高效特征提取

2026-02-18

PDF arXiv

9/10

多模态融合医学图像分析注意力机制

HyPCA-Net: Advancing Multimodal Fusion in Medical Image Analysis

J. Dhar, M. K. Pandey, D. Chakladar et al.

HyPCA-Net提出了一种混合并行融合的级联注意力网络，用于提升多模态医学图像分析的性能和效率。

提出了计算高效的残差自适应学习注意力模块，用于捕捉精细的模态特定表征。
提出了双视角级联注意力模块，用于学习不同模态之间鲁棒的共享表征。

2026-02-18

PDF arXiv

8/10

世界模型隐变量动作视频生成

Factored Latent Action World Models

Zizhao Wang, Chang Shi, Jiaheng Hu et al.

FLAM分解场景为独立因子，学习隐变量动作，提升多实体环境下视频生成质量和策略学习。

提出了一种分解的隐变量动作模型FLAM
FLAM在复杂多实体环境中建模更准确

2026-02-18

PDF arXiv

8/10

光伏功率预测多模态学习深度学习

Meteorological data and Sky Images meets Neural Models for Photovoltaic Power Forecasting

Ines Montoya-Espinagosa, Antonio Agudo

论文提出了一种结合气象数据、天空图像和光伏历史数据的混合深度学习光伏功率预测方法。

提出了一种结合天空图像、气象数据和光伏历史数据的多模态光伏功率预测方法
验证了气象数据(尤其是长波辐射)对光伏功率预测的有效性

2026-02-17

PDF arXiv

9/10

多模态大语言模型表格

ViTaB-A: Evaluating Multimodal Large Language Models on Visual Table Attribution

Yahia Alqurnawi, Preetom Biswas, Anmol Rao et al.

该论文评估了多模态大语言模型在视觉表格属性归因任务上的表现，发现其归因能力远低于问答能力。

提出了视觉表格属性归因（ViTaB-A）的评估任务
评估了不同模型在不同表格格式和提示策略下的归因能力

2026-02-17

PDF arXiv

9/10

多模态图表编辑基准测试

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

Manav Nitin Kapadnis, Lawanya Baghel, Atharva Naik et al.

提出了ChartEditBench基准，用于评估多模态大模型在多轮图表编辑中的能力。

提出了 ChartEditBench 基准数据集
设计了评估多轮图表编辑能力的框架

2026-02-17

PDF arXiv

9/10

阿尔茨海默病多模态学习图注意力网络

MRC-GAT: A Meta-Relational Copula-Based Graph Attention Network for Interpretable Multimodal Alzheimer's Disease Diagnosis

Fatemeh Khalvandi, Saadat Izadi, Abdolah Chalechale

MRC-GAT模型通过结合多模态数据和图注意力网络，实现了阿尔茨海默病的高精度诊断。

提出Meta-Relational Copula-Based Graph Attention Network (MRC-GAT) 模型
引入copula-based相似性对齐，整合多模态特征

2026-02-17

PDF arXiv

8/10

ECG 语言模型心脏事件预测

CAMEL: An ECG Language Model for Forecasting Cardiac Events

Neelay Velingker, Alaia Solko-Breslin, Mayank Keoliya et al.

CAMEL是首个用于预测心脏事件的ECG语言模型，优于现有方法。

提出首个用于预测心脏事件的ECG语言模型CAMEL
引入ECGForecastBench基准测试

2026-02-17

PDF arXiv

9/10

放射报告生成多模态学习可解释性

Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation

Marco Salmè, Federico Siciliano, Fabrizio Silvestri et al.

CEMRAG通过融合临床概念和多模态RAG，提升放射报告生成的可解释性和准确性。

提出Concept-Enhanced Multimodal RAG (CEMRAG)框架
将视觉表示分解为可解释的临床概念

2026-02-17

PDF arXiv

9/10

自动驾驶视觉语言模型理由响应性

CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving

Lucas Elbert Suryana, Farah Bierenga, Sanne van Buuren et al.

提出CARE Drive框架，评估自动驾驶视觉语言模型对人类理由的响应性，提高决策可解释性。

提出CARE Drive框架，评估视觉语言模型在自动驾驶中的理由响应性
通过上下文扰动测量决策对人类理由的敏感度

2026-02-17

PDF arXiv

10/10

多模态学习信息论 Transformer

How Vision Becomes Language: A Layer-wise Information-Theoretic Analysis of Multimodal Reasoning

Hongxuan Wu, Yukun Zhang, Xueqing Zhou

论文通过信息论方法分析多模态Transformer中视觉信息如何转化为语言。

提出了PID Flow，一种适用于高维神经表征的PID框架
揭示了多模态Transformer中模态转导模式：视觉信息早期主导，语言信息后期主导

2026-02-17

PDF arXiv

9/10

LVLM Hallucination Mitigation Attention Dynamics

Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs

Guangtao Lyu, Qi Liu, Chenghao Xu et al.

提出PADE方法，利用LVLM内部注意力动态增强视觉核心区域，缓解幻觉问题。

发现LVLM中正向注意力动态(PAD)能揭示核心视觉区域
提出Positive Attention Dynamics Enhancement (PADE)干预方法

2026-02-17

PDF arXiv

8/10

3D Gaussian Splatting Transient Object Removal Semantic Filtering

Semantic-Guided 3D Gaussian Splatting for Transient Object Removal

Aditi Prabakaran, Priyesh Shukla

提出语义引导的3D高斯溅射方法，有效去除多视角重建中的瞬态物体，提升重建质量。

提出基于视觉-语言模型的语义过滤框架
利用CLIP相似度进行高斯 opacity 正则化和剪枝

2026-02-17

PDF arXiv

9/10

Multimodal Learning Face Morphing Attack Detection Zero-Shot Learning

Emergent Morphing Attack Detection in Open Multi-modal Large Language Models

Marija Ivanovska, Vitomir Štruc

首次系统评估开源多模态大语言模型在人脸变形攻击检测中的零样本能力，效果显著。

首次系统性评估开源MLLM在人脸变形攻击检测中的零样本性能
证明了MLLM在无需微调的情况下具备检测人脸变形攻击的能力

2026-02-17

PDF arXiv

9/10

VLA Action Tokenization Vision-Language-Action

ActionCodec: What Makes for Good Action Tokenizers

Zibin Dong, Yicheng Liu, Shiduo Zhang et al.

该论文研究了Vision-Language-Action模型中动作Tokenizers的设计原则，并提出了ActionCodec。

提出了VLA优化视角的动作Tokenizer设计原则
设计了高性能动作Tokenizer ActionCodec

2026-02-17

PDF arXiv

9/10

热成像视觉语言模型基准数据集

ThermEval: A Structured Benchmark for Evaluation of Vision-Language Models on Thermal Imagery

Ayush Shrivastava, Kirtan Gangani, Laksh Jain et al.

提出了用于评估视觉语言模型在热成像上的性能的结构化基准ThermEval，揭示了现有模型在该领域的不足。

构建了大规模热成像视觉问答数据集ThermEval-B，包含像素级温度信息。
评估了多种VLM在热成像上的表现，发现模型在温度推理等方面存在缺陷。

2026-02-16

PDF arXiv

9/10

Multimodal Learning Contrastive Learning Orthogonality Constraints

Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations

Carolin Cissee, Raneen Younis, Zahra Ahmadi

COrAL框架通过正交化和非对称掩码，显式建模多模态数据的冗余、独特和协同信息，提升表征质量。

提出COrAL框架，显式建模冗余、独特和协同的多模态信息。
采用正交约束解耦共享和模态特定特征，确保信息分离。

2026-02-16

PDF arXiv

8/10

视频生成三维重建记忆网络

AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories

Zun Wang, Han Lin, Jaehong Yoon et al.

AnchorWeave通过局部几何记忆融合解决长时视频生成中全局三维重建不一致问题。

提出AnchorWeave框架，利用局部几何记忆进行视频生成
设计覆盖驱动的局部记忆检索方法

2026-02-16

PDF arXiv

9/10

多模态摘要 CLIP Web搜索

Web-Scale Multimodal Summarization using CLIP-Based Semantic Alignment

Mounvik K, N Harshit

提出了一种基于CLIP语义对齐的Web规模多模态摘要框架。

Web规模多模态摘要框架
基于CLIP的语义对齐检索

2026-02-16

PDF arXiv

10/10

CT 多模态学习医学影像

CT-Bench: A Benchmark for Multimodal Lesion Understanding in Computed Tomography

Qingqing Zhu, Qiao Jin, Tejas S. Mathai et al.

CT-Bench数据集发布，包含CT病灶标注和多模态问答，用于提升AI病灶理解能力。

构建首个CT病灶级别的多模态Benchmark数据集CT-Bench
提供病灶图像、元数据及多任务视觉问答

2026-02-16

PDF arXiv

9/10

LLM 无线通信射频信号

RF-GPT: Teaching AI to See the Wireless World

Hang Zou, Yu Tian, Bohao Wang et al.

RF-GPT通过视觉编码器和LLM理解RF信号，实现无线通信领域的高级推理。

提出了一种射频语言模型（RFLM）RF-GPT
利用多模态LLM处理和理解射频频谱图

2026-02-16

PDF arXiv

9/10

指代图像分割视觉信息部分注意力跨模态学习

VIPA: Visual Informative Part Attention for Referring Image Segmentation

Yubin Cho, Hyunwoo Yu, Kyeongbo Kong et al.

提出VIPA框架，通过视觉信息部分注意力机制提升指代图像分割精度。

提出VIPA框架，利用视觉信息部分注意力进行图像分割
设计视觉表达式生成器(VEG)，提取信息丰富的视觉tokens

2026-02-16

PDF arXiv

8/10

目标跟踪模型预测遮挡处理

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo et al.

提出GOT-JEPA，利用模型预测预训练框架和OccuSolver提升通用目标跟踪的泛化性和遮挡处理能力。

提出GOT-JEPA模型预测预训练框架
提出OccuSolver遮挡处理模块

2026-02-16

PDF arXiv

8/10

Meta-learning Transformer Multimodal Learning

Universal Algorithm-Implicit Learning

Stefano Woerner, Seong Joon Oh, Christian F. Baumgartner

提出通用元学习框架和算法隐式学习概念，Transformer实现跨域、跨模态和高类别任务的元学习。

提出算法隐式学习框架
设计TAIL元学习模型

2026-02-16

PDF arXiv

9/10

Uniform Information Density Multimodal Learning Vision-Language

Is Information Density Uniform when Utterances are Grounded on Perception and Discourse?

Matteo Gay, Coleman Haley, Mario Giulianelli et al.

研究发现视觉和语篇 grounding 使信息分布更均匀，支持上下文相关的UID假设。

首次在视觉 grounding 环境下验证 UID 假设
使用多语言视觉语言模型在多种语言上进行实验

2026-02-16

PDF arXiv

9/10

多模态学习幻觉检测图像重构

VIGIL: Tackling Hallucination Detection in Image Recontextualization

Joanna Wojciechowicz, Maria Łubniewska, Jakub Antczak et al.

VIGIL提出了多模态图像重构中幻觉检测基准，并构建了多阶段检测流水线。

构建了细粒度的图像重构幻觉分类基准数据集VIGIL
提出了多阶段幻觉检测流水线

2026-02-16

PDF arXiv

7/10

Vision Transformer Variable Image Size Medical Imaging

VariViT: A Vision Transformer for Variable Image Sizes

Aswathi Varma, Suprosanna Shit, Chinmay Prabhakar et al.

VariViT针对可变尺寸图像设计，通过改进的位置编码和批处理策略提升ViT在医学图像上的性能。

提出处理可变图像尺寸的ViT模型VariViT
设计新的位置编码调整方案以适应不同数量的图像块

2026-02-16

PDF arXiv

9/10

multimodal temporal reasoning planning

MATEO: A Multimodal Benchmark for Temporal Reasoning and Planning in LVLMs

Gabriel Roccabruna, Olha Khomyn, Giuseppe Riccardi

MATEO是一个多模态基准，用于评估LVLM在时间推理和规划方面的能力，特别是针对真实世界的任务。

提出了MATEO基准数据集，用于评估LVLM的时间推理能力
构建了一个高质量的多模态食谱数据集，包含图像和步骤分解

2026-02-16

PDF arXiv

9/10

自动驾驶 VLA模型扩散模型

DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving

Chenxu Dang, Sining Ang, Yongkang Li et al.

DriveFine通过混合扩散VLA模型，结合生成与精炼专家，提升自动驾驶决策的精确性和鲁棒性。

提出了一种masked diffusion VLA模型DriveFine
设计了可插拔的block-MoE结构，实现生成与精炼专家解耦

2026-02-16

PDF arXiv

9/10

motion understanding motion generation reinforcement learning

MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

Hongpeng Wang, Zeyu Zhang, Wenhao Li et al.

MoRL通过强化学习和链式运动推理，统一运动理解与生成，显著提升逻辑推理和感知真实性。

提出了基于可验证奖励的强化学习统一多模态运动模型MoRL
引入了链式运动（CoM）推理方法，增强推理能力

2026-02-16

PDF arXiv

8/10

OCR 历史文本误差分析

Error Patterns in Historical OCR: A Comparative Analysis of TrOCR and a Vision-Language Model

Ari Vesalainen, Eetu Mäkelä, Laura Ruotsalainen et al.

比较TrOCR和Qwen在历史文本OCR上的误差模式，分析其对学术研究的影响。

揭示了TrOCR和Qwen在历史文本OCR误差上的差异。
提出了基于假设的误差分析方法。

2026-02-16

PDF arXiv

9/10

视觉-语言-动作对齐验证机器人

Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment

Jacky Kwok, Xilun Zhang, Mengdi Xu et al.

验证方法比策略学习更有效地提升视觉-语言-动作对齐，并提出了CoVer框架。

提出test-time验证方法提升VLA模型性能
提出对比验证器CoVer，提升计算效率和数据利用率

2026-02-12

PDF arXiv

9/10

Multimodal Chain-of-Thought Test-Time Scaling

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Leon Liangyu Chen, Haoyu Ma, Zhipeng Fan et al.

UniT提出多模态链式思考测试时扩展框架，提升统一模型在复杂任务中的推理能力。

提出UniT框架，实现多模态链式思考测试时扩展
验证了统一模型在短推理轨迹上训练后，可泛化到更长的推理链

2026-02-12

PDF arXiv

6/10

Flow Matching Self-Distillation Categorical Data Generation

Categorical Flow Maps

Daan Roos, Oscar Davis, Floor Eijkelboom et al.

提出Categorical Flow Maps，加速类别数据的少步生成，实现优异性能。

提出Categorical Flow Maps方法
基于flow matching的类别数据生成

2026-02-12

PDF arXiv

9/10

多模态学习离散流匹配图像生成

Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Onkar Susladkar, Tushar Prakash, Gayatri Deshmukh et al.

UniDFlow通过解耦理解和生成，优化多模态偏好对齐，实现多模态任务的SOTA性能。

提出UniDFlow统一离散流匹配框架
使用低秩适配器解耦理解和生成

2026-02-12

PDF arXiv

9/10

多模态学习图像生成图像编辑

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

Dianyi Wang, Ruihang Li, Feng Han et al.

DeepGen 1.0提出轻量级多模态模型，在图像生成和编辑方面表现出色。

提出Stacked Channel Bridging (SCB)结构
设计数据驱动的三阶段训练策略

2026-02-12

PDF arXiv

9/10

结构化信息抽取文档图像理解视觉语言模型

ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

Mathieu Sibue, Andres Muñoz Garza, Samuel Mensah et al.

提出ExStrucTiny基准数据集，用于评估通用视觉语言模型在文档图像结构化信息抽取方面的能力。

构建了ExStrucTiny基准数据集，包含多样文档类型和抽取场景
提出了一个结合人工和合成数据的新型数据生成流程

2026-02-12

PDF arXiv

9/10

Multimodal LLMs Visual Reasoning Primary Education

Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education

Mohamed Huti, Alasdair Mackintosh, Amy Waldock et al.

论文提出了视觉推理基准VRB，用于评估MLLM解决小学视觉问题的能力，揭示了模型在空间推理方面的局限性。

提出了视觉推理基准VRB数据集
评估了MLLM在解决小学视觉问题上的能力

2026-02-12

PDF arXiv

9/10

视觉语言分割模型压缩知识蒸馏

SAM3-LiteText: An Anatomical Study of the SAM3 Text Encoder for Efficient Vision-Language Segmentation

Chengxi Zeng, Yuxuan Jiang, Ge Gao et al.

SAM3-LiteText通过知识蒸馏，大幅减少SAM3文本编码器参数，提升视觉语言分割效率。

分析了视觉语言分割中文本提示的冗余性
提出了轻量级文本编码框架SAM3-LiteText

2026-02-12

PDF arXiv

9/10

3D Gaussian Splatting Vision-Language Models Object Navigation

3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting

Wancai Zheng, Hao Chen, Xianlong Lu et al.

提出3DGSNav，利用3D高斯溅射增强视觉语言模型在对象导航中的空间推理能力。

将3D高斯溅射作为VLMs的持久记忆
设计结构化视觉提示和CoT提示

2026-02-12

PDF arXiv

7/10

attention mechanism linear attention transformer

HLA: Hadamard Linear Attention

Hanno Ackermann, Hong Cai, Mohsen Ghafoorian et al.

论文提出Hadamard线性注意力(HLA)，旨在以更高阶有理函数近似softmax，提高效率。

提出Hadamard线性注意力(HLA)
使用更高阶有理函数近似softmax

2026-02-12

PDF arXiv

7/10

热带气旋气象卫星 Kolmogorov-Arnold Network

KAN-FIF: Spline-Parameterized Lightweight Physics-based Tropical Cyclone Estimation on Meteorological Satellite

Jiakang Shen, Qinghui Chen, Runtong Wang et al.

提出KAN-FIF轻量级框架，用于气象卫星上热带气旋的物理信息预测，精度高、速度快、参数少。

提出基于KAN的特征交互框架KAN-FIF
实验证明KAN-FIF在参数量和推理速度上优于现有模型

2026-02-12

PDF arXiv

8/10

强化学习状态估计多模态学习

Geometry of Uncertainty: Learning Metric Spaces for Multimodal State Estimation in RL

Alfredo Reichlin, Adriano Pacciarelli, Danica Kragic et al.

提出一种新型强化学习状态估计方法，通过学习度量空间提升多模态信息融合的鲁棒性。

提出基于度量空间的无显式概率建模的状态估计方法
引入多模态隐变量转移模型

2026-02-12

PDF arXiv

9/10

VLM LLM Activity Recognition

Can Local Vision-Language Models improve Activity Recognition over Vision Transformers? -- Case Study on Newborn Resuscitation

Enrico Guerriero, Kjersti Engan, Øyvind Meinich-Bache

论文研究局部视觉-语言模型在新生儿复苏活动识别上的应用，并超越了ViT。

探索局部VLM在新生儿复苏活动识别中的潜力
使用LoRA微调VLM，显著提升了活动识别的F1分数

2026-02-12

PDF arXiv

9/10

扩散模型 MLLM 空间推理

Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation

Wei Chen, Yancheng Long, Mingqiao Liu et al.

提出Spatial Chain-of-Thought框架，提升扩散模型在空间理解和推理生成方面的能力。

提出SCoT框架，弥合MLLM推理和扩散模型生成能力
训练增强布局感知能力的扩散模型

2026-02-12

PDF arXiv

9/10

Vision-Language Models PDF to Markdown French

Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion

Bruno Rigal, Victor Dupriez, Alexis Mignon et al.

该论文评估了VLMs在法语PDF转Markdown上的性能，并提出了新的评估基准。

提出了法语PDF到Markdown转换的新基准
设计了针对具体错误模式的单元测试式评估方法

2026-02-12

PDF arXiv

7/10

VAE 视觉皮层上下文调制

TAVAE: A VAE with Adaptable Priors Explains Contextual Modulation in the Visual Cortex

Balázs Meszéna, Keith T. Murray, Julien Corbo et al.

论文提出了任务可适应的VAE模型(TAVAE)，用于解释视觉皮层中的上下文调制现象。

提出了Task-Amortized VAE (TAVAE)
验证了视觉系统可以按需学习灵活的任务特定上下文先验

2026-02-12

PDF arXiv

8/10

Music Information Retrieval Benchmark Multimodal Learning

IncompeBench: A Permissively Licensed, Fine-Grained Benchmark for Music Information Retrieval

Benjamin Clavié, Atoof Shakir, Jonah Turner et al.

提出了IncompeBench，一个用于音乐信息检索的高质量、开放许可基准测试集。

构建了包含1574个音乐片段、500个查询和超过125000个相关性判断的基准测试集
使用了多阶段流程，确保了高质量的人工标注数据

2026-02-12

PDF arXiv

7/10

NR-VQA 视频质量评估多任务学习

Learning Perceptual Representations for Gaming NR-VQA with Multi-Task FR Signals

Yu-Chih Chen, Michael Wang, Chieh-Dun Wen et al.

提出一种多任务学习框架，利用FR指标作为监督信号，提升游戏视频的无参考视频质量评估。

提出基于FR指标的多任务学习框架MTL-VQA
自适应任务权重分配策略

2026-02-12

PDF arXiv

9/10

Multimodal Learning Distillation Fine-grained Perception

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Lai Wei, Liangbo He, Jun Lan et al.

提出Region-to-Image Distillation方法，提升MLLM在细粒度多模态感知上的单次推理能力。

提出 Region-to-Image Distillation 训练方法
构建细粒度多模态感知基准 ZoomBench

2026-02-12

PDF arXiv

9/10

VLA 机器人操作视频预测嵌入

JEPA-VLA: Video Predictive Embedding is Needed for VLA Models

Shangchen Miao, Ningya Feng, Jialong Wu et al.

该论文提出JEPA-VLA模型，通过融入视频预测嵌入提升VLA模型在机器人操作任务中的性能和泛化性。

发现现有VLA模型视觉表示的局限性
提出JEPA-VLA模型，融合视频预测嵌入

2026-02-12

PDF arXiv

9/10

多模态学习推荐系统 Transformer

Hi-SAM: A Hierarchical Structure-Aware Multi-modal Framework for Large-Scale Recommendation

Pingjun Pan, Tingting Zhou, Peiyao Lu et al.

Hi-SAM通过解耦语义标记和分层Transformer结构，提升多模态推荐系统的效果，并在大规模场景下验证有效性。

提出了解耦语义标记器(DST)，解决模态间语义纠缠问题
提出了分层记忆锚点Transformer(HMAT)，考虑用户交互层级结构

2026-02-12

PDF arXiv

8/10

LLM 4D World Generation Code Generation

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Yi Zhang, Yunshuang Wang, Zeyu Zhang et al.

Code2Worlds框架利用编码LLM生成具有物理规律的动态4D世界，解决多尺度和语义物理鸿沟问题。

提出了双流架构解耦对象生成与环境编排
建立了物理感知闭环机制迭代优化模拟代码

2026-02-12

PDF arXiv

9/10

Test-Time Adaptation Entropy Bias

Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation

Xiangyu Wu, Dongming Jiang, Feng Yu et al.

提出自适应去偏Tsallis熵(ADTE)用于测试时自适应，解决CLIP模型在不平衡数据上的偏差问题。

发现Tsallis熵(TE)更适合表征有偏分布
提出自适应去偏Tsallis熵(ADTE)，通过类别相关的参数q^l进行自适应调整

2026-02-12

PDF arXiv

9/10

Multimodal Object Hallucination Contrastive Decoding

Mask What Matters: Mitigating Object Hallucinations in Multimodal Large Language Models with Object-Aligned Visual Contrastive Decoding

Boqi Chen, Xudong Liu, Jianing Qiu

该论文提出了一种基于目标对齐视觉对比解码的方法，旨在缓解多模态大语言模型中的目标幻觉问题。

提出了目标对齐的视觉对比解码方法
利用自监督视觉Transformer中的目标中心注意力

2026-02-12

PDF arXiv

9/10

视觉语言模型电商多模态学习

Adapting Vision-Language Models for E-commerce Understanding at Scale

Matteo Nulli, Vladimir Orshulevich, Tala Bazazo et al.

针对电商场景，论文提出了一种适配通用视觉语言模型的方法，并构建了新的评估体系。

提出电商场景下适配通用VLM的策略
构建全面的电商产品理解评估套件

2026-02-12

PDF arXiv

9/10

时空视频定位视觉提示强化学习

STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning

Xiaowen Zhang, Zhi Gao, Licheng Jiao et al.

提出STVG-R1，通过视觉提示和强化学习，在时空视频定位任务上实现SOTA。

提出基于视觉提示的STVG框架，避免跨模态对齐
引入强化学习优化时序准确性、空间一致性和结构化格式

2026-02-12

PDF arXiv

9/10

Multimodal Learning Graph Representation Engineering Schematics

Beyond Pixels: Vector-to-Graph Transformation for Reliable Schematic Auditing

Chengwei Ma, Zhen Tian, Zhou Zhou et al.

提出Vector-to-Graph方法，解决MLLM在工程图审核中结构盲视问题，提升审核准确率。

提出Vector-to-Graph (V2G) 转换方法，将CAD图转换为属性图
证明了像素方法在工程图理解上的局限性

2026-02-12

PDF arXiv

7/10

野火预测 U-Net 哈达玛变换

U-Net with Hadamard Transform and DCT Latent Spaces for Next-day Wildfire Spread Prediction

Yingyi Luo, Shuaiang Rong, Adam Watts et al.

TD-FusionUNet模型利用哈达玛变换和DCT进行野火蔓延预测，在精度和效率间取得平衡。

提出TD-FusionUNet模型，融合哈达玛变换和DCT
引入随机边缘裁剪和高斯混合模型预处理技术

2026-02-12

PDF arXiv

9/10

情感生成虚拟现实视觉-语言对齐

EmoSpace: Fine-Grained Emotion Prototype Learning for Immersive Affective Content Generation

Bingyuan Wang, Xingbei Chen, Zongyang Qiu et al.

EmoSpace提出了一种基于视觉-语言对齐的细粒度情感原型学习框架，用于生成沉浸式情感内容。

提出EmoSpace框架，实现情感感知内容生成
引入动态、可解释的情感原型，实现细粒度情感控制

2026-02-12

PDF arXiv

9/10

自动驾驶多模态LLM Token缩减

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo et al.

SToRM通过监督式Token缩减，在保证性能的同时显著降低多模态LLM在自动驾驶中的计算成本。

提出Supervised Token Reduction框架SToRM
设计轻量级的重要性预测器

2026-02-12

PDF arXiv

9/10

Multimodal Learning Generative Fluid Intelligence Unified Multimodal Models

GENIUS: Generative Fluid Intelligence Evaluation Suite

Ruichuan An, Sihan Yang, Ziyu Guo et al.

GENIUS评估UMM在生成式流体智力方面的能力，提出新的评估标准和方法。

定义了生成式流体智力 (GFI) 的三个基本要素
提出了 GENIUS 评估套件，用于评估模型的 GFI

2026-02-11

PDF arXiv

9/10

game development benchmark multimodal learning

GameDevBench: Evaluating Agentic Capabilities Through Game Development

Wayne Chi, Yixiong Fang, Arnav Yayavaram et al.

GameDevBench是一个评估智能体游戏开发能力的多模态基准测试。

提出了GameDevBench基准测试，用于评估智能体在游戏开发中的能力。
定义了132个基于教程的游戏开发任务，需要多模态理解和复杂代码实现。

2026-02-11

PDF arXiv

9/10

LVLM 视觉语言模型多模态学习

Chatting with Images for Introspective Visual Thinking

Junfei Wu, Jian Guan, Qiang Liu et al.

ViLaVT通过语言引导的特征调制，增强了LVLM在多图和视频空间推理上的能力。

提出了一种新的框架“chatting with images”，通过语言引导视觉特征调制进行视觉操作
设计了ViLaVT，一个具有动态视觉编码器的LVLM，用于交互式视觉推理

2026-02-11

PDF arXiv

8/10

语音翻译同步翻译强化学习

Simultaneous Speech-to-Speech Translation Without Aligned Data

Tom Labiausse, Romain Fabre, Yannick Estève et al.

Hibiki-Zero无需对齐数据即可实现同步语音翻译，并通过强化学习优化延迟。

提出了无需词级对齐数据的语音翻译方法
使用GRPO优化延迟的同时保持翻译质量

2026-02-11

PDF arXiv

8/10

多商品流多模态语言模型强化学习

Divide, Harmonize, Then Conquer It: Shooting Multi-Commodity Flow Problems with Multimodal Language Models

Xinyu Yuan, Yan Qiao, Zonghui Wang et al.

Pram利用多模态语言模型解决多商品流问题，实现高效且鲁棒的资源分配。

提出Pram，一种基于MLM的多商品流问题解决方法
将原问题分解为子问题，利用MLM进行求解

2026-02-11

PDF arXiv

7/10

多视角学习对抗鲁棒性金融图像

When Fusion Helps and When It Breaks: View-Aligned Robustness in Same-Source Financial Imaging

Rui Ma

研究金融图像表示的多视角学习和对抗鲁棒性，探索融合策略对预测性能的影响。

揭示标签噪声对金融时间序列预测的影响
分析了早期和晚期融合策略在金融图像预测中的优劣

2026-02-11

PDF arXiv

8/10

Financial AI Multilingual Multimodal

The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems

Zhuohan Xie, Rania Elbadry, Fan Zhang et al.

CLEF 2026 FinMMEval Lab推出首个多语言多模态金融LLM评估框架，包含三个互联任务。

首个多语言多模态金融LLM评估框架
提供三个互联的金融任务：金融考试问答、多语言金融问答和金融决策

2026-02-11

PDF arXiv

9/10

VLM 图表转代码结构化表示

Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation

Minggui He, Mingchen Dai, Jian Zhang et al.

提出Chart Specification，通过结构化表示和细粒度监督提升VLM图表转代码的结构保真度。

提出Chart Specification结构化中间表示
设计Spec-Align Reward进行结构正确性反馈

2026-02-11

PDF arXiv

8/10

视频生成自回归模型缓存策略

Flow caching for autoregressive video generation

Yuexiao Ma, Xuzhe Zheng, Jing Xu et al.

FlowCache提出了一种针对自回归视频生成的缓存框架，显著加速视频生成。

提出了针对自回归视频生成的FlowCache缓存框架
引入了chunkwise缓存策略，动态适应每个chunk的denoising特性

2026-02-11

PDF arXiv

9/10

VLM SFT Reinforcement Learning

Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training

Aojun Lu, Tao Feng, Hangjie Yuan et al.

该论文解释了RL在VLM后训练中泛化性优于SFT的原因，并提出难度引导的SFT方法。

揭示了数据难度对VLM泛化性能的影响
提出了难度引导的SFT（DC-SFT）方法，提升OOD泛化能力

2026-02-11

PDF arXiv

9/10

VLM 自行车辅助系统视觉问答

From Steering to Pedalling: Do Autonomous Driving VLMs Generalize to Cyclist-Assistive Spatial Perception and Planning?

Krishna Kanth Nakka, Vedasri Nakka

论文提出了CyclingVQA基准测试，评估VLMs在自行车辅助空间感知和规划中的泛化能力。

提出了CyclingVQA基准测试，用于评估VLMs在自行车辅助场景下的性能
评估了31+个VLMs在CyclingVQA上的表现，揭示了现有模型的不足

2026-02-11

PDF arXiv

9/10

VLM 领域自适应强化学习

Reinforced Curriculum Pre-Alignment for Domain-Adaptive VLMs

Yuming Yan, Shuo Yang, Kai Tang et al.

提出了一种基于强化学习和课程学习的领域自适应VLM训练方法RCPA。

提出了一种新的VLM后训练范式RCPA，用于领域自适应。
引入课程感知的渐进调制机制，平衡领域知识学习和通用能力保持。

2026-02-11

PDF arXiv

6/10

CT Reconstruction Diffusion Model Deep Generative Prior

A Diffusion-Based Generative Prior Approach to Sparse-view Computed Tomography

Davide Evangelista, Pasquale Cascarano, Elena Loli Piccolomini

该论文提出了一种基于扩散模型的生成先验方法，用于解决稀疏视图CT重建问题。

结合扩散模型和迭代优化算法
改进图像生成、模型和迭代算法

2026-02-11

PDF arXiv

9/10

自动驾驶 Vision-Language Model 端到端学习

From Representational Complementarity to Dual Systems: Synergizing VLM and Vision-Only Backbones for End-to-End Driving

Sining Ang, Yuguang Yang, Chenxu Dang et al.

该论文研究了VLM和纯视觉backbone在端到端驾驶中的互补性，并提出了结合二者优势的混合驾驶方案。

发现VLM和纯视觉backbone在驾驶行为上的差异性
提出了HybridDriveVLA，结合VLM和纯视觉backbone的优势

2026-02-11

PDF arXiv

9/10

VQA Multimodal Learning Visual Reasoning

TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning

Junhua Liu, Zhangcheng Wang, Zhike Han et al.

提出了一个大规模动态视觉推理数据集TwiFF-2.7M，并提出了相应的TwiFF模型，在动态视觉问答任务上取得了显著提升。

提出了大规模动态视觉推理数据集TwiFF-2.7M
提出了高质量的评估基准TwiFF-Bench

2026-02-11

PDF arXiv

9/10

3D HOI Text-to-Motion Multimodal Learning

Multimodal Priors-Augmented Text-Driven 3D Human-Object Interaction Generation

Yin Wang, Ziyao Zhang, Zhiying Leng et al.

提出MP-HOI框架，利用多模态先验指导文本驱动的3D人-物交互动作生成，提升交互真实性。

利用多模态数据先验指导HOI生成
增强的对象表示，引入几何关键点等

2026-02-11

PDF arXiv

9/10

视觉-语言-动作模型无监督学习状态预测

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Jingwen Sun, Wenyao Zhang, Zekun Qi et al.

VLA-JEPA通过无泄漏的状态预测，提升视觉-语言-动作模型在泛化性和鲁棒性方面的表现。

提出了VLA-JEPA预训练框架，解决像素变化导致的偏差。
引入了无泄漏状态预测，利用未来帧的潜在表示作为监督。

2026-02-10

PDF arXiv

9/10

合成图像检测混合推理强化学习

Fake-HR1: Rethinking reasoning of vision language model for synthetic image detection

Changjiang Jiang, Xinkuan Sha, Fengchang Yu et al.

Fake-HR1自适应地进行推理，提升了图像合成检测的效率和性能。

提出了Fake-HR1混合推理模型
设计了两阶段训练框架HFT和HGRPO

2026-02-10

PDF arXiv

7/10

扩散模型语义分解耦合推理

Coupled Inference in Diffusion Models for Semantic Decomposition

Calvin Yeung, Ali Zakeri, Zhuowen Zou et al.

提出基于扩散模型的耦合推理框架，用于语义分解任务，优于传统谐振器网络。

提出基于扩散模型的语义分解框架
引入重建驱动的引导项耦合扩散过程

2026-02-10

PDF arXiv

9/10

MLLM Vision Transformer Multi-task Learning

VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization

Yikun Liu, Yuan Liu, Shangzhe Di et al.

论文提出VersaViT，通过多任务协作训练优化MLLM中的视觉骨干网络，提升其在视觉任务上的性能。

发现MLLM的视觉编码器在密集特征表示方面存在不足
提出VersaViT，一种新型多任务协作训练框架

2026-02-10

PDF arXiv

9/10

工业异常检测可解释性AI 多模态学习

Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection

Peng Chen, Chao Huang, Yunkang Cao et al.

Reason-IAD通过知识引导和动态推理提升工业异常检测的准确性和可解释性。

提出了一个知识引导的检索增强模块，融入领域知识。
设计了一个基于熵的潜在推理机制，鼓励稳定预测。

2026-02-10

PDF arXiv

9/10

多模态检索基准数据集知识推理

ARK: A Dual-Axis Multimodal Retrieval Benchmark along Reasoning and Knowledge

Yijie Lin, Guofeng Ding, Haochen Zhou et al.

提出了ARK基准，用于评估多模态检索在知识和推理方面的能力，并分析了现有模型的不足。

提出了ARK基准数据集，包含知识领域和推理技能两个维度
分析了现有模型在知识密集型和推理密集型检索中的差距

2026-02-10

PDF arXiv

9/10

幻觉缓解视觉语言模型知识稳定性

SAKED: Mitigating Hallucination in Large Vision-Language Models via Stability-Aware Knowledge Enhanced Decoding

Zhaoxu Li, Chenqi Kong, Peijun Bao et al.

SAKED通过稳定知识解码降低LVLM幻觉，提升视觉语言模型的可靠性。

提出知识稳定性评分KSS
提出SAKED解码方法，抑制噪声并利用可靠知识

2026-02-10

PDF arXiv

9/10

语音LLM 多模态端到端

Covo-Audio Technical Report

Wenfu Wang, Chenxing Li, Liqiang Zhang et al.

Covo-Audio提出了一个7B参数的端到端语音LLM，在多项任务中表现出色。

提出了Covo-Audio模型
验证了语音LLM在多种音频任务上的能力

2026-02-10

PDF arXiv

7/10

扩散模型可解释性医学影像

Explainability in Generative Medical Diffusion Models: A Faithfulness-Based Analysis on MRI Synthesis

Surjo Dey, Pallabi Saikia

研究通过忠实度分析，提升医学扩散模型在MRI合成中的可解释性，增强AI在医疗应用中的可信度。

提出了基于忠实度的可解释性框架
分析了ProtoPNet, EPPNet, ProtoPool等方法的表现

2026-02-10

PDF arXiv

7/10

自监督学习离散表示表示学习

Self-Supervised Learning as Discrete Communication

Kawtar Zaher, Ilyass Moummad, Olivier Buisson et al.

提出一种基于离散通信的自监督学习方法，通过二元编码学习结构化视觉表示。

将自监督学习建模为师生网络间的离散通信过程
提出一种编码率正则化项，鼓励有效利用约束信道，促进结构化表示

2026-02-10

PDF arXiv

8/10

3D affordance Multimodal Learning Video Understanding

VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model

Hanqing Wang, Mingyu Liu, Xiaoyu Chen et al.

该论文提出VideoAfford，利用多模态大语言模型进行视频中3D可供性的学习和推理。

构建了视频-3D交互可供性数据集VIDA
提出了基于多模态大语言模型的VideoAfford模型

2026-02-10

PDF arXiv

9/10

LLM Multimodal Hate Speech Detection

Towards Training-free Multimodal Hate Localisation with Large Language Models

Yueming Sun, Long Yang, Jianbo Jiao et al.

LELA是首个基于LLM的无训练视频仇恨内容定位框架，优于现有无训练基线。

提出首个无训练的LLM视频仇恨内容定位框架LELA
利用多模态captioning和多阶段prompting实现细粒度定位

2026-02-10

PDF arXiv

9/10

医学图像编辑数据集多模态学习

MieDB-100k: A Comprehensive Dataset for Medical Image Editing

Yongfan Lai, Wen Qian, Bo Liu et al.

MieDB-100k是一个大规模、高质量的医学图像编辑数据集，促进医学图像编辑模型的发展。

构建大规模、高质量、多样化的医学图像编辑数据集MieDB-100k
提出包含感知、修改和转换三种编辑任务的数据集分类方法

2026-02-10

PDF arXiv

9/10

谱聚类视觉-语言模型跨模态学习

Delving into Spectral Clustering with Vision-Language Representations

Bo Peng, Yuanwei Hu, Bo Liu et al.

该论文提出一种基于视觉-语言表征的谱聚类方法，显著提升了聚类性能。

提出基于视觉-语言模型中跨模态对齐的谱聚类方法
引入神经正切核并使用积极名词进行锚定

2026-02-10

PDF arXiv

9/10

多模态学习细胞病理学医学影像

Singpath-VL Technical Report

Zhen Qiu, Kaiwen Xiao, Zhengwei Lu et al.

Singpath-VL是一种用于宫颈细胞学AI辅助诊断的多模态大模型，通过合成数据集和微调实现。

构建大规模宫颈细胞学图像-描述合成数据集
提出基于Qwen3-VL-4B的宫颈细胞学专用MLLM Singpath-VL

2026-02-10

PDF arXiv

9/10

LVLM 视觉注意力幻觉

Attention to details, logits to truth: visual-aware attention and logits enhancement to mitigate hallucinations in LVLMs

Jingyi Wang, Fei Li, Rujie Liu

提出了一种训练自由的视觉注意力干预算法，通过增强任务相关视觉token的注意力来减少LVLM中的幻觉。

提出了一种基于视觉-文本相似性的注意力重分配算法
将视觉注意力值注入到beam search解码中

2026-02-10

PDF arXiv

9/10

多模态推理链式思考 CoT压缩

Bridging Efficiency and Transparency: Explainable CoT Compression in Multimodal Large Reasoning Models

Yizhi Wang, Linan Yue, Min-Ling Zhang

提出XMCC，一种可解释的多模态CoT压缩器，通过强化学习优化压缩决策，提升推理效率并提供可解释性。

提出XMCC压缩器，优化多模态推理CoT
使用强化学习进行CoT压缩决策

2026-02-10

PDF arXiv

10/10

Knowledge Distillation Multimodal Learning Large Language Models

Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions

Lin Chen, Xiaoke Zhao, Kun Ding et al.

该论文提出了一种新颖的知识蒸馏框架Align-TI，用于压缩多模态大语言模型，提升性能。

提出Align-TI框架，利用token交互进行知识蒸馏
引入IVA模块，对齐视觉信息提取能力

2026-02-10

PDF arXiv

9/10

伪影检测 VLM 少量样本学习

ArtifactLens: Hundreds of Labels Are Enough for Artifact Detection with VLMs

James Burgess, Rameen Abdal, Dan Stoddart et al.

ArtifactLens利用少量标注数据，解锁预训练VLM的伪影检测能力，在AIGC领域实现SOTA。

提出 ArtifactLens 系统，用少量标注数据实现高效伪影检测。
在多个伪影数据集上取得了最先进的结果。

2026-02-10

PDF arXiv

9/10

文本到图像生成扩散模型模型蒸馏

ArcFlow: Unleashing 2-Step Text-to-Image Generation via High-Precision Non-Linear Flow Distillation

Zihan Yang, Shuyuan Tu, Licheng Zhang et al.

ArcFlow通过非线性流蒸馏加速文本到图像的生成，实现高质量快速生成。

提出ArcFlow框架，利用非线性流近似教师轨迹
使用连续动量过程混合来参数化速度场

2026-02-09

PDF arXiv

8/10

GUI generation image generation benchmark

GEBench: Benchmarking Image Generation Models as GUI Environments

Haodong Li, Jingwei Wu, Quan Sun et al.

GEBench提出了一个评估GUI图像生成模型在动态交互和时间一致性方面的基准。

提出了GEBench基准数据集
提出了GE-Score评估指标

2026-02-09

PDF arXiv

8/10

人机协作多模态沟通约定形成

Gesturing Toward Abstraction: Multimodal Convention Formation in Collaborative Physical Tasks

Kiyosu Maeda, William P. McCarthy, Ching-Yi Tsai et al.

研究人机协作中语言和手势如何演化为高效的共享抽象，并构建多模态协同模型。

揭示了物理协作中语言和手势抽象的形成机制
提出了多模态环境下的概率性约定形成模型

2026-02-09

PDF arXiv

9/10

时序异常检测多模态学习大语言模型

AnomSeer: Reinforcing Multimodal LLMs to Reason for Time-Series Anomaly Detection

Junru Zhang, Lang Feng, Haoran Shi et al.

AnomSeer通过强化MLLM对时序数据结构细节的推理，提升了异常检测、定位和解释的精度。

提出AnomSeer框架，用于增强MLLM的时序异常检测能力
引入专家CoT生成精细化推理过程

2026-02-09

PDF arXiv

9/10

Video MLLM Frame Reduction Text-guided

TiFRe: Text-guided Video Frame Reduction for Efficient Video Multi-modal Large Language Models

Xiangtian Zheng, Zishuo Wang, Yuxin Peng

TiFRe通过文本引导的帧采样和帧匹配融合，在减少计算成本的同时提升视频语言任务性能。

提出了文本引导的帧采样(TFS)策略，利用LLM和CLIP选择关键帧
提出了帧匹配和融合(FMM)机制，将非关键帧信息融入关键帧

2026-02-09

PDF arXiv

8/10

MRI合成鼻咽癌基础模型

Any-to-All MRI Synthesis: A Unified Foundation Model for Nasopharyngeal Carcinoma and Its Downstream Applications

Yao Pu, Yiming Shi, Zhenxi Zhang et al.

开发了一种用于鼻咽癌MRI图像合成的统一基础模型，提升RT规划准确性。

提出了一种基于对比视觉表征学习和VLA的统一基础模型。
实现了任意模态到任意模态的MRI合成。

2026-02-09

PDF arXiv

9/10

视频生成视频编辑多模态学习

Omni-Video 2: Scaling MLLM-Conditioned Diffusion for Unified Video Generation and Editing

Hao Yang, Zhiyu Tan, Jia Gong et al.

Omni-Video 2利用MLLM理解用户指令，指导视频扩散模型实现统一的视频生成与编辑。

提出基于MLLM的视频编辑框架
设计轻量级适配器以复用预训练扩散模型

2026-02-09

PDF arXiv

7/10

零样本学习医学图像分析身体区域检测

Zero-shot System for Automatic Body Region Detection for Volumetric CT and MR Images

Farnaz Khun Jush, Grit Werner, Mark Klemens et al.

提出基于预训练模型的零样本方法，用于CT和MR图像的自动身体区域检测。

提出三种零样本身体区域检测流程。
评估了分割驱动的规则系统、MLLM和分割感知MLLM。

2026-02-09

PDF arXiv

9/10

多模态学习视频理解稀疏性

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Feilong Tang, Xiang An, Yunyao Yan et al.

OV-Encoder通过编解码器对齐的稀疏性，在多模态理解上取得显著性能提升。

提出Codec Patchification，聚焦关键区域
引入3D RoPE，统一时空推理

2026-02-09

PDF arXiv

9/10

多模态学习注意力机制全局工作空间

An Attention Mechanism for Robust Multimodal Integration in a Global Workspace Architecture

Roland Bertin-Johannet, Lara Scipio, Leopold Maytié et al.

论文提出一种顶向下注意力机制，增强全局工作空间架构在多模态任务中的噪声鲁棒性和泛化能力。

提出了一种用于全局工作空间的顶向下注意力机制
证明了该机制提升了多模态系统的噪声鲁棒性

2026-02-09

PDF arXiv

9/10

Vision-Language Model Reinforcement Learning Self-Correction

Learning Self-Correction in Vision-Language Models via Rollout Augmentation

Yi Ding, Ziliang Qiu, Bolian Li et al.

该论文提出了一种通过rollout增强学习视觉语言模型自校正能力的方法，并在多个基准测试中取得了领先成果。

提出了 correction-specific rollouts (Octopus) 框架，增强自校正示例
引入 response-masking 策略，解耦自校正和直接推理

2026-02-09

PDF arXiv

9/10

流式视频QA 多模态学习场景感知

Vista: Scene-Aware Optimization for Streaming Video Question Answering under Post-Hoc Queries

Haocheng Lu, Nan Zhang, Wei Tao et al.

Vista针对流式视频QA，提出场景感知的优化方案，实现高效且可扩展的推理。

场景感知分割
场景感知压缩

2026-02-09

PDF arXiv

9/10

Video Understanding In-Context Learning Multimodal Learning

Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

Yuhao Dong, Shulin Tian, Shuai Liu et al.

提出Demo-ICL任务和基准，用于评估MLLM从视频演示中学习的能力，并提出Demo-ICL模型。

定义了Demo-driven Video In-Context Learning任务
构建了Demo-ICL-Bench基准数据集

2026-02-09

PDF arXiv

9/10

MLLM Bimanual Manipulation Benchmark

BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Xin Wu, Zhixuan Liang, Yue Ma et al.

提出BiManiBench基准测试MLLM在双臂操作中的空间推理、规划和控制能力。

提出了BiManiBench双臂操作基准测试
评估了MLLM在双臂任务中的性能

2026-02-09

PDF arXiv

9/10

e-commerce short video MLLM

E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs

Xianjie Liu, Yiman Hu, Liang Wu et al.

提出了电商短视频理解基准E-VAds，并设计了基于RL的推理模型E-VAds-R1。

提出了多模态信息密度评估框架，量化了电商视频的复杂性
构建了电商短视频理解基准E-VAds，包含高质量视频和开放式问答对

2026-02-09

PDF arXiv

9/10

视觉推理奖励模型基准测试

What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning

Yujin Zhou, Pengcheng Wen, Jiale Chen et al.

论文提出了一个用于评估LVLMs视觉推理过程奖励模型的综合基准测试。

定义了7种细粒度的错误类型，揭示了专用PRM的必要性。
构建了一个包含1206条人工标注推理轨迹的综合基准。

2026-02-09

PDF arXiv

9/10

视觉语言模型视觉推理链式思考

CoTZero: Annotation-Free Human-Like Vision Reasoning via Hierarchical Synthetic CoT

Chengyi Du, Yazhe Niu, Dazhong Shen et al.

CoTZero通过无标注的分层合成CoT数据，提升视觉语言模型的人类水平视觉推理能力。

提出了无标注的CoTZero范式
设计了双阶段数据合成方法，模拟人类认知过程

2026-02-09

PDF arXiv

9/10

multimodal reasoning image generation

UReason: Benchmarking the Reasoning Paradox in Unified Multimodal Models

Cheng Yang, Chufan Shi, Bo Shui et al.

论文提出了UReason基准测试，揭示了统一多模态模型中推理在视觉合成中的悖论现象。

提出了UReason基准测试，包含2000个实例，覆盖五种推理任务。
设计了一种评估框架，比较直接生成、推理引导生成和去语境化生成。

2026-02-09

PDF arXiv

9/10

多模态检索视觉推理 Agent

V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

Dongyang Chen, Chaoyang Wang, Dezhao SU et al.

V-Retrver通过视觉证据驱动的Agent推理，提升通用多模态检索的准确性和可靠性。

提出V-Retrver框架，利用Agent进行视觉证据驱动的推理
引入课程学习策略，训练证据收集检索Agent

2026-02-05

PDF arXiv

7/10

diffusion model generalization inductive bias

Diffusion Model's Generalization Can Be Characterized by Inductive Biases toward a Data-Dependent Ridge Manifold

Ye He, Yitong Qiu, Molei Tao

论文刻画了扩散模型的泛化能力，提出了基于数据依赖的脊流形，并分析了推理过程中的reach-align-slide现象。

提出了描述扩散模型泛化能力的脊流形概念
分析了推理过程中的reach-align-slide动态

2026-02-05

PDF arXiv

9/10

视觉生成模型评估 pairwise比较

GenArena: How Can We Achieve Human-Aligned Evaluation for Visual Generation Tasks?

Ruihang Li, Leigang Qu, Jingxu Zhang et al.

GenArena提出一种基于pairwise比较的视觉生成模型评估框架，提升了评估的稳定性和与人类感知的对齐。

发现了pointwise评估方法的局限性
提出了基于pairwise比较的GenArena评估框架

2026-02-05

PDF arXiv

9/10

视频生成推理基准测试

RISE-Video: Can Video Generators Decode Implicit World Rules?

Mingxin Liu, Shuran Ma, Shibei Meng et al.

提出RISE-Video基准测试，评估视频生成模型在理解隐式世界规则方面的推理能力。

提出了RISE-Video基准测试
设计了多维评估协议

2026-02-05

PDF arXiv

8/10

视频生成时间一致性语义对齐

LSA: Localized Semantic Alignment for Enhancing Temporal Consistency in Traffic Video Generation

Mirlan Karimov, Teodora Spasojevic, Markus Braun et al.

LSA通过对齐语义特征增强交通视频生成的时间一致性，无需额外控制信号。

提出LSA框架，用于增强视频生成的时间一致性
使用语义特征一致性损失来微调预训练模型

2026-02-05

PDF arXiv

9/10

音视频理解多模态学习自监督学习

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Zhangquan Chen, Jiale Tao, Ruihuang Li et al.

OmniVideo-R1通过查询意图和模态注意力增强音视频推理能力，提升了混合模态理解性能。

提出基于自监督学习的查询式 grounding 方法
提出基于对比学习的模态注意力融合方法

2026-02-05

PDF arXiv

9/10

Vision-Language Models Token Pruning Visual Question Answering

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Enwei Tong, Yuanchao Bai, Yao Zhu et al.

提出FSR框架，模拟人类视觉机制，有效剪枝VLMs中的视觉tokens，提升效率与精度。

提出 Focus-Scan-Refine (FSR) 框架
结合视觉重要性和指令相关性，聚焦关键证据

2026-02-05

PDF arXiv

8/10

推测解码变分推断语言模型加速

Variational Speculative Decoding: Rethinking Draft Training from Token Likelihood to Sequence Acceptance

Xiandong Zou, Jianshu Li, Jing Huang et al.

提出了变分推测解码VSD，通过优化草稿路径来加速LLM和MLLM的推理，提高解码效率。

提出了Variational Speculative Decoding (VSD)框架
使用变分推断优化草稿训练，最大化目标模型接受概率

2026-02-05

PDF arXiv

9/10

MLLM 多模态学习嵌入

Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification

Lexiang Hu, Youze Xue, Dian Li et al.

提出了AGFF-Embed，自适应融合全局和细粒度信息的MLLM嵌入，并结合EGA提升性能。

提出AGFF-Embed模型，融合全局和细粒度感知
利用MLLM生成不同语义维度的嵌入

2026-02-05

PDF arXiv

9/10

视觉语言模型潜在空间政治倾向

Ethology of Latent Spaces

Philippe Boisnard

该论文研究了视觉语言模型(VLM)潜在空间的政治和文化倾向，揭示了模型间的显著差异。

揭示了VLM潜在空间并非中性，存在模型特定敏感性
提出了计算潜在政治化、涌现偏差等概念

2026-02-05

PDF arXiv

8/10

LLM PGHD 医疗健康

Exploring AI-Augmented Sensemaking of Patient-Generated Health Data: A Mixed-Method Study with Healthcare Professionals in Cardiac Risk Reduction

Pavithren V S Pakianathan, Rania Islambouli, Diogo Branco et al.

研究了LLM如何辅助医护人员理解患者健康数据，提升临床决策效率。

评估了LLM在PGHD理解中的应用
提出了AI辅助临床工作流的设计建议

2026-02-05

PDF arXiv

7/10

Diffusion Transformer 剪枝模型加速

Shiva-DiT: Residual-Based Differentiable Top-$k$ Selection for Efficient Diffusion Transformers

Jiaji Zhang, Hailiang Zhao, Guoxuan Zhu et al.

Shiva-DiT通过残差学习的可微Top-k选择加速Diffusion Transformer。

提出基于残差的可微Top-k选择方法，实现高效DiT剪枝
引入上下文感知路由和自适应比率策略，自动学习剪枝策略

2026-02-05

PDF arXiv

9/10

开放词汇语义分割视觉语言模型图像分割

LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation

Junyang Chen, Xiangbo Lv, Zhiqiang Kou et al.

LoGoSeg通过融合局部和全局特征，实现了高效且泛化性强的开放词汇语义分割。

提出对象存在先验以减少幻觉
引入区域感知对齐模块以建立区域级视觉-文本对应

2026-02-05

PDF arXiv

9/10

视觉语言模型几何推理迭代精炼

TangramSR: Can Vision-Language Models Reason in Continuous Geometric Space?

Yikun Zong, Cheston Tan

该论文提出了一种迭代精炼框架，提升视觉语言模型在几何空间推理方面的能力。

设计了模拟人类认知机制的迭代精炼框架
通过无训练的验证-精炼代理，显著提升了几何推理的IoU

2026-02-05

PDF arXiv

9/10

VLLM 无人机自主导航

VLN-Pilot: Large Vision-Language Model as an Autonomous Indoor Drone Operator

Bessie Dominguez-Dager, Sergio Suescun-Ferrandiz, Felix Escalona et al.

VLN-Pilot利用大型视觉语言模型实现室内无人机自主导航，无需人工遥控。

提出VLN-Pilot框架，利用VLLM控制室内无人机
实现基于自然语言指令的无人机自主导航

2026-02-05

PDF arXiv

9/10

多模态学习医学图像处理深度学习

A Unified Multimodal Framework for Dataset Construction and Model-Based Diagnosis of Ameloblastoma

Ajo Babu George, Anna Mariam John, Athul Anoop et al.

构建多模态数据集，开发AI模型辅助成釉细胞瘤诊断与治疗决策。

构建了成釉细胞瘤多模态数据集
开发了基于多模态数据的深度学习模型

2026-02-05

PDF arXiv

9/10

多模态学习双臂操作触觉感知

DECO: Decoupled Multimodal Diffusion Transformer for Bimanual Dexterous Manipulation with a Plugin Tactile Adapter

Xukun Li, Yu Sun, Lei Zhang et al.

DECO提出了一种解耦多模态扩散Transformer，用于灵巧双臂操作。

提出了DECO框架，用于解耦多模态条件
引入触觉适配器，增强感知能力

2026-02-05

PDF arXiv

9/10

情感识别多模态学习可解释性

XEmoGPT: An Explainable Multimodal Emotion Recognition Framework with Cue-Level Perception and Reasoning

Hanwen Zhang, Yao Liu, Peiyuan Jiang et al.

XEmoGPT提出了一种可解释的多模态情感识别框架，提升了情感线索感知和推理能力。

提出XEmoGPT框架，增强情感线索感知和推理
构建大规模情感线索数据集EmoCue，促进线索级推理

2026-02-05

PDF arXiv

9/10

遥感多模态数据集

SOMA-1M: A Large-Scale SAR-Optical Multi-resolution Alignment Dataset for Multi-Task Remote Sensing

Peihao Wu, Yongxiang Yao, Yi Wan et al.

SOMA-1M是一个大规模、多分辨率、像素级对齐的SAR-光学遥感数据集，促进多模态遥感算法研究。

构建大规模多分辨率SAR-光学对齐数据集SOMA-1M
提出严格的粗到细图像匹配框架，保证像素级对齐

2026-02-05

PDF arXiv

9/10

推荐系统多模态学习大型语言模型

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Yicheng Di, Zhanjie Zhang, Yun Wangc et al.

LMMRec利用LLM提取动机，融合多模态信息，提升推荐系统性能。

提出LMMRec框架，利用LLM理解用户和物品动机
采用双编码器结构和对比学习，实现跨模态对齐

2026-02-05

PDF arXiv

9/10

Vision-Language-Action Affordance Generalization Robotics

Benchmarking Affordance Generalization with BusyBox

Dean Fortier, Timothy Adamson, Tess Hellebrekers et al.

提出了BusyBox，一个评估VLA模型在操作具有熟悉物理特征的新物体时泛化能力的物理基准。

提出了BusyBox基准，用于评估VLA模型的affordance generalization能力
BusyBox由可互换和旋转的模块组成，可创建具有不同外观但相同 affordance 的变体

2026-02-05

PDF arXiv

9/10

Multimodal Vision-Language Models Hallucination

Once Correct, Still Wrong: Counterfactual Hallucination in Multilingual Vision-Language Models

Basel Mousi, Fahim Dalvi, Shammur Chowdhury et al.

论文揭示了多语言视觉-语言模型在非西方文化背景下的反事实幻觉问题，并提出了新的评估基准。

提出了M2CQA基准测试，用于评估中东北非文化背景下的多语言视觉-语言模型的反事实幻觉
提出了CounterFactual Hallucination Rate (CFHR)指标，用于衡量模型在正确回答真实语句后接受反事实语句的可能性

2026-02-05

PDF arXiv

7/10

MRI CT Swin Transformer

Parallel Swin Transformer-Enhanced 3D MRI-to-CT Synthesis for MRI-Only Radiotherapy Planning

Zolnamar Dorjsembe, Hung-Yi Chen, Furen Xiao et al.

提出一种基于并行Swin Transformer的3D MRI合成CT方法，用于MRI引导的放疗计划。

提出并行Swin Transformer增强的Med2Transformer架构
利用双Swin Transformer分支建模局部细节和长程依赖

2026-02-05

PDF arXiv

9/10

文档解析视觉语言模型布局分析

Dolphin-v2: Universal Document Parsing via Scalable Anchor Prompting

Hao Feng, Wei Shi, Ke Zhang et al.

Dolphin-v2通过可扩展的Anchor Prompting实现了通用文档解析，提升了多种文档的解析性能。

针对拍摄文档的鲁棒解析
更细粒度的元素检测与语义属性提取

2026-02-05

PDF arXiv

9/10

视觉推理 VLM 基准测试

VRIQ: Benchmarking and Analyzing Visual-Reasoning IQ of VLMs

Tina Khezresmaeilzadeh, Jike Zhong, Konstantinos Psounis

VRIQ基准测试VLMs的视觉推理能力，发现感知是主要瓶颈。

提出VRIQ基准测试，评估VLMs的视觉推理能力
分析了VLMs在视觉推理上的弱点，发现感知是主要瓶颈

2026-02-05

PDF arXiv

9/10

强化学习多模态学习注意力机制

Reinforced Attention Learning

Bangzheng Li, Jianmo Ni, Chen Qu et al.

RAL通过强化学习直接优化多模态LLM的内部注意力分布，提升感知能力和跨模态对齐。

提出Reinforced Attention Learning (RAL)框架
将强化学习应用于优化多模态LLM的注意力分布

2026-02-04

PDF arXiv

9/10

Vision-Language Model Token Composition Efficient Inference

When LLaVA Meets Objects: Token Composition for Vision-Language-Models

Soumya Jahagirdar, Walid Bousselham, Anna Kukleva et al.

Mask-LLaVA通过结合多层次视觉特征，实现了视觉语言模型的高效推理，减少了计算需求。

提出Mask-LLaVA框架，利用多层次视觉特征进行高效视觉表示
在测试时动态调整token数量，无需重新训练即可保持性能

2026-02-04

PDF arXiv

7/10

图像分类深度学习对抗训练

Toward Reliable and Explainable Nail Disease Classification: Leveraging Adversarial Training and Grad-CAM Visualization

Farzia Hossain, Samanta Ghosh, Shahida Begum et al.

本文提出了一种基于深度学习的指甲疾病分类方法，利用对抗训练和Grad-CAM可视化提高模型的可靠性和可解释性。

利用InceptionV3等CNN模型进行指甲疾病分类
应用对抗训练增强模型鲁棒性

2026-02-04

PDF arXiv

9/10

多模态学习大语言模型 Token压缩

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

Yue Ding, Yiyan Ji, Jungang Li et al.

OmniSIFT提出了一种模态非对称的token压缩框架，用于优化多模态大模型的效率。

提出了模态非对称的token压缩框架OmniSIFT
设计了时空视频剪枝模块和视觉引导的音频选择模块

2026-02-04

PDF arXiv

9/10

Vision-Language Models Visualized Text Benchmark

VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?

Qing'an Liu, Juntong Feng, Yuhao Wang et al.

VISTA-Bench揭示了现有VLM在理解视觉化文本时存在显著的性能下降，与纯文本理解能力有较大差距。

提出了VISTA-Bench基准测试，用于评估VLM对视觉化文本的理解能力
发现了VLM在视觉化文本理解上的显著性能差距

2026-02-04

PDF arXiv

7/10

生成模型漂移模型单步生成

Generative Modeling via Drifting

Mingyang Deng, He Li, Tianhong Li et al.

提出漂移模型，通过演化分布进行生成建模，实现高质量单步生成。

提出Drifting Models新范式
实现训练中演化分布

2026-02-04

PDF arXiv

9/10

癫痫检测脑电信号多模态学习

NeuroCanvas: VLLM-Powered Robust Seizure Detection by Reformulating Multichannel EEG as Image

Yan Chen, Jie Peng, Moajjem Hossain Chowdhury et al.

NeuroCanvas利用VLLM将多通道脑电信号转化为图像，实现高效鲁棒的癫痫检测。

提出了NeuroCanvas框架，用于癫痫检测。
引入熵引导通道选择器(ECS)解决多通道异构性问题。

2026-02-04

PDF arXiv

6/10

降水融合深度学习 TransUNet

A Dual-TransUNet Deep Learning Framework for Multi-Source Precipitation Merging and Improving Seasonal and Extreme Estimates

Yuchen Ye, Zixuan Qi, Shixuan Li et al.

提出了一个双阶段TransUNet框架，用于融合多源降水数据，提升季节性和极端降水估计。

开发了双阶段TransUNet降水融合框架DDL-MSPMF
提高了季节性降水估计的准确性(R=0.75; RMSE=2.70 mm/day)

2026-02-04

PDF arXiv

10/10

多模态 LLM 安全性

Alignment Drift in Multimodal LLMs: A Two-Phase, Longitudinal Evaluation of Harm Across Eight Model Releases

Casey Ford, Madison Van Doren, Emily Dix

纵向评估了多模态LLM的安全性，发现其抗对抗性攻击能力随迭代发生漂移。

构建了多模态LLM对抗性攻击基准测试集
评估了多个MLLM版本的安全性，发现了安全性漂移现象

2026-02-04

PDF arXiv

9/10

文本到图像生成提示工程交互式系统

Adaptive Prompt Elicitation for Text-to-Image Generation

Xinyi Wen, Lena Hegemann, Xiaofu Jin et al.

APE通过视觉查询交互式地帮助用户优化文本到图像生成的提示词，提升图像与用户意图的对齐。

提出了自适应提示词诱导（APE）技术
利用信息论框架形式化交互式意图推理

2026-02-04

PDF arXiv

9/10

Multimodal Learning Autoregressive Model Mixture-of-Experts

ERNIE 5.0 Technical Report

Haifeng Wang, Hua Wu, Tian Wu et al.

ERNIE 5.0 是一个统一多模态理解和生成的原生自回归基础模型，具有弹性训练和MoE架构。

提出了统一多模态理解和生成的原生自回归基础模型ERNIE 5.0
采用超稀疏混合专家（MoE）架构和模态无关的专家路由

2026-02-04

PDF arXiv

9/10

VLM zero-shot learning spacecraft detection

Annotation Free Spacecraft Detection and Segmentation using Vision Language Models

Samet Hicsonmez, Jose Sosa, Dan Pineau et al.

提出一种基于视觉语言模型（VLM）的无标注航天器检测与分割框架，显著提升了航天器图像处理性能。

提出annotation-free的航天器检测与分割流程
利用预训练VLM自动生成伪标签

2026-02-04

PDF arXiv

9/10

RGBD Referring Multi-Object Tracking Multimodal Learning

DRMOT: A Dataset and Framework for RGBD Referring Multi-Object Tracking

Sijia Chen, Lijuan Ma, Yanqiu Yu et al.

提出RGBD指代多目标跟踪任务，构建DRSet数据集，提出DRTrack框架。

提出RGBD指代多目标跟踪任务(DRMOT)
构建用于DRMOT的DRSet数据集

2026-02-04

PDF arXiv

8/10

手-物体交互视频重建 Agentic生成

AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation

Jin-Chuan Shi, Binhong Ye, Tao Liu et al.

AGILE利用Agentic生成方法，从视频中重建鲁棒的、物理上合理的交互物体。

提出基于VLM引导的Agentic生成流程，合成完整物体网格。
提出稳健的anchor-and-track策略，摆脱对SfM的依赖。

2026-02-04

PDF arXiv

9/10

VLM Token Reduction Inference Acceleration

PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective

Haokui Zhang, Congyang Ou, Dawei Yan et al.

PIO-FVLM通过目标导向的视觉token缩减加速VLM推理，保持性能的同时显著提升效率。

提出了一种训练无关的视觉token缩减方法PIO-FVLM
利用层局部代理损失指导token重要性排序

2026-02-04

PDF arXiv

9/10

放射报告生成视觉语言模型医学影像

LEAD: Layer-wise Expert-aligned Decoding for Faithful Radiology Report Generation

Ruixiao Yang, Yuanhe Tian, Xu Yang et al.

LEAD方法通过层级专家对齐解码，提升放射报告生成的准确性并减少幻觉。

提出Layer-wise Expert-aligned Decoding (LEAD)方法
设计多专家模块提取病理特征并融入解码层

2026-02-04

PDF arXiv

9/10

多模态事实核查智能体

VILLAIN at AVerImaTeC: Verifying Image-Text Claims via Multi-Agent Collaboration

Jaeyoon Jung, Yejun Yoon, Seunghyun Yoon et al.

VILLAIN系统通过多智能体协作，使用视觉-语言模型验证图像-文本声明，并在AVerImaTeC任务中取得领先。

提出基于prompt的多智能体协作框架
利用知识库和网络信息增强证据

2026-02-04

PDF arXiv

9/10

图像退化理解 Vision-Language Model 多模态学习

Understanding Degradation with Vision Language Model

Guanzhou Lan, Chenyi Liao, Yuqi Yang et al.

提出DU-VLM模型，用于理解图像退化并用于图像复原，通过分层结构预测任务和多模态链式思考实现。

重新定义图像退化理解为分层结构预测任务
提出DU-VLM模型，基于autoregressive next-token prediction范式

2026-02-04

PDF arXiv

9/10

机器人视觉语言模型具身智能

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

Yu Bai, MingMing Yu, Chaojie Li et al.

EgoActor通过VLM将高层指令转化为机器人具体的空间感知行为。

提出了EgoActing任务，将任务规划与机器人行为相结合
提出了EgoActor模型，一个统一且可扩展的视觉-语言模型

2026-02-04

PDF arXiv

8/10

fMRI multimodal learning autoregressive model

BrainVista: Modeling Naturalistic Brain Dynamics as Multimodal Next-Token Prediction

Xuanhua Yin, Runkai Zhao, Lina Yao et al.

BrainVista通过多模态自回归框架模拟自然状态下大脑的动态预测，实现先进的fMRI编码。

提出BrainVista多模态自回归框架
引入Network-wise Tokenizers和Spatial Mixer Head

2026-02-04

PDF arXiv

9/10

MLLM Catastrophic Forgetting Sparse Fine-tuning

Model-Dowser: Data-Free Importance Probing to Mitigate Catastrophic Forgetting in Multimodal Large Language Models

Hyeontaek Hwang, Nguyen Dinh Son, Daeyoung Kim

Model-Dowser通过参数重要性评估进行稀疏微调，有效缓解多模态大模型中的灾难性遗忘。

提出Model-Dowser方法，通过评估参数重要性缓解灾难性遗忘
该方法在不访问数据情况下选择性地保留重要参数

2026-02-04

PDF arXiv

9/10

GMNER MLLM 多模态

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

Jinlong Ma, Yu Zhang, Xuefeng Bai et al.

该论文提出一种新的多模态大型语言模型(MLLM)方法，用于解决GMNER中的模态偏差问题，提升性能。

揭示了MLLMs在GMNER中存在的模态偏差问题（视觉偏差和文本偏差）
提出了模态感知一致性推理（MCR）方法，包括MRSI和CVO

2026-02-04

PDF arXiv

9/10

Multimodal Reasoning Vision-Language Model

Vision-aligned Latent Reasoning for Multi-modal Large Language Model

Byungwoo Jeon, Yoonwoo Jeong, Hyunseok Lee et al.

VaLR通过动态生成视觉对齐的潜在token，提升MLLM在多步推理中的视觉信息保持能力。

提出Vision-aligned Latent Reasoning (VaLR)框架
VaLR通过对齐MLLM中间嵌入与视觉编码器嵌入来保持视觉知识

2026-02-04

PDF arXiv

9/10

分割多模态推理

Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search

Tianming Liang, Qirui Du, Jian-Fang Hu et al.

Seg-ReSearch通过交错推理和外部搜索，突破MLLM的知识瓶颈，提升了分割性能。

提出Seg-ReSearch分割范式，结合推理和外部搜索
设计分层奖励机制，优化训练过程

2026-02-04

PDF arXiv

5/10

机器翻译突厥语数据合成

No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

Dmitry Karpov

该论文研究了五种突厥语机器翻译，利用合成数据和检索方法优化了翻译效果。

针对五种突厥语的机器翻译模型构建
利用合成数据微调模型，提升翻译效果

2026-02-04

PDF arXiv

9/10

联邦学习多模态学习医学图像

Med-MMFL: A Multimodal Federated Learning Benchmark in Healthcare

Aavash Chhetri, Bibek Niroula, Pratik Shrestha et al.

提出了首个综合性的医学多模态联邦学习（MMFL）基准Med-MMFL，促进该领域研究。

提出了医学多模态联邦学习基准Med-MMFL
涵盖多种模态、任务和联邦场景

2026-02-04

PDF arXiv

9/10

多模态学习视觉推理自洽性

History-Guided Iterative Visual Reasoning with Self-Correction

Xinglong Yang, Zhilin Peng, Zhanzhan Liu et al.

提出H-GIVR框架，通过历史信息引导迭代视觉推理，动态纠错，提高多模态大模型的推理准确性。

提出历史引导的迭代视觉推理框架H-GIVR
利用历史推理信息动态纠正视觉理解错误

2026-02-04

PDF arXiv

9/10

对抗攻击视觉语言模型注意力机制

When and Where to Attack? Stage-wise Attention-Guided Adversarial Attack on Large Vision Language Models

Jaehyun Kwak, Nam Cao, Boryeong Cho et al.

SAGA是一种基于注意力机制的对抗攻击方法，能高效攻击大型视觉语言模型。

发现区域注意力得分与对抗损失敏感性正相关
提出Stage-wise Attention-Guided Attack (SAGA)框架

2026-02-04

PDF arXiv

9/10

工作记忆视觉语言模型 n-back

Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models

Sichu Liang, Hongyu Zhu, Wenwen Wang et al.

该论文比较了视觉语言模型在文本和图像形式的空间n-back任务中的工作记忆表现，发现文本形式表现更优。

评估了视觉语言模型在视觉和文本空间n-back任务中的性能差异
分析了模型在不同任务中的错误模式和干扰因素

2026-02-04

PDF arXiv

9/10

CLIP Active Learning Uncertainty Modeling

Explicit Uncertainty Modeling for Active CLIP Adaptation with Dual Prompt Tuning

Qian-Wei Wang, Yaguang Song, Shu-Tao Xia

提出基于双Prompt调整的主动CLIP适应框架，显式建模不确定性以优化样本选择。

提出双Prompt调整方法，包括正向和负向Prompt
显式建模预测标签的置信度，用于不确定性估计

2026-02-04

PDF arXiv

9/10

视觉语言模型无监督学习微调

Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner

Qian-Wei Wang, Guanghao Meng, Ren Cai et al.

CoFT提出了一种无需人工标注的视觉语言模型微调框架，通过双模型协作提升性能。

提出 Collaborative Fine-Tuning (CoFT)框架
引入双提示学习策略，建模伪标签纯净度

2026-02-04

PDF arXiv

9/10

视觉问答多模态学习注意力机制

Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement

Zipeng Zhu, Zhanghao Hu, Qinglin Zhu et al.

该论文提出了一种层自适应的视觉定位和解码增强方法，提升了视觉问答任务的性能。

提出了基于query的视觉激活度量VAQ
提出了层自适应的推理流程LASER

2026-02-04

PDF arXiv

9/10

Multimodal Reasoning Reinforcement Learning

Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision

Lingzhuang Sun, Ruitong Liu, Yuxia Zhu et al.

提出Guided Verifier框架，通过动态验证器实时监督MLLM推理过程，减少错误传播，提升推理能力。

提出Guided Verifier框架，实现动态过程监督
构建CoRe数据集用于训练验证器，针对多模态幻觉问题

2026-02-04

PDF arXiv

9/10

心电图多模态学习大型语言模型

ECG-R1: Protocol-Guided and Modality-Agnostic MLLM for Reliable ECG Interpretation

Jiarui Jin, Haoyu Wang, Xingliang Wu et al.

ECG-R1通过协议引导和模态解耦，提升MLLM在心电图判读的可靠性。

提出协议引导的指令数据生成方法
设计了模态解耦架构，提高鲁棒性和跨模态一致性

2026-02-04

PDF arXiv

9/10

MLLM Hallucination Key-Value Smoothing

KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing

Siyu Jiang, Feiyang Chen, Xiaojin Zhang et al.

KVSmooth通过平滑KV-Cache，缓解多模态大语言模型中的幻觉问题，无需额外训练。

提出KVSmooth方法，有效减少MLLM的幻觉现象
KVSmooth是training-free和plug-and-play的，易于应用

2026-02-04

PDF arXiv

9/10

VLA Quantization Embodied Control

QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization

Yuhao Xu, Yantai Yang, Zhenyang Fan et al.

QVLA提出了一种面向具身控制的动作中心量化框架，有效压缩VLA模型并提升性能。

提出QVLA：一种动作中心量化框架
引入细粒度的通道级比特分配策略

2026-02-03

PDF arXiv