7/10
生成式渲染 逆渲染 数据集

Generative World Renderer

Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan et al.

提出了一个大规模高质量游戏数据集用于训练生成式渲染模型,并提出了VLM评估方法。

  • 大规模动态G-buffer数据集
  • VLM评估协议
2026-04-02
9/10
可控视觉表征 视觉语言模型 早期融合

Steerable Visual Representations

Jona Ruthardt, Manu Gaur, Deva Ramanan et al.

提出可控视觉表征,通过早期融合文本信息到视觉编码器中,实现对图像特征的精细控制。

  • 提出可控视觉表征
  • 提出早期融合文本和视觉信息的框架
2026-04-02
9/10
streaming video understanding VLM sliding window

A Simple Baseline for Streaming Video Understanding

Yujiao Shen, Shulin Tian, Jingkang Yang et al.

提出SimpleStream基线,仅用滑动窗口即可媲美复杂流视频理解模型,揭示感知-记忆权衡。

  • 提出了一个简单的滑动窗口基线SimpleStream
  • 验证了SimpleStream在流视频理解任务上的有效性
2026-04-02
8/10
视频对象移除 因果推理 视频扩散模型

VOID: Video Object and Interaction Deletion

Saman Motamed, William Harvey, Benjamin Klein et al.

提出VOID框架,利用因果推理和视频扩散模型实现物理上合理的视频对象移除。

  • 提出了VOID视频对象移除框架
  • 利用Kubric和HUMOTO生成了新的配对数据集
2026-04-02
8/10
Vision Transformer Open-vocabulary Segmentation Knowledge Distillation

SPAR: Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation

Naomi Kombol, Ivan Martinović, Siniša Šegvić et al.

SPAR提出了一种单次Any-Resolution ViT,通过知识蒸馏实现高效的高分辨率开放词汇分割。

  • 提出了SPAR,一种resolution-agnostic的ViT
  • 使用知识蒸馏将sliding-window teacher的空间推理能力传递给single-pass student
2026-04-02
9/10
无人机 视觉-语言-动作 目标跟踪

UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models

Qiyao Zhang, Shuhua Zheng, Jianli Sun et al.

提出UAV-Track VLA模型,用于提升无人机在复杂场景下的视觉-语言-动作跟踪能力。

  • 构建大规模无人机视觉-语言-动作跟踪数据集和评估基准
  • 提出UAV-Track VLA模型,引入时间压缩网络和空间感知双分支解码器
2026-04-02
8/10
自动驾驶 多传感器融合 图注意力网络

LEO: Graph Attention Network based Hybrid Multi Sensor Extended Object Fusion and Tracking for Autonomous Driving Applications

Mayank Mayank, Bharanidhar Duraisamy, Florian Geiss

LEO利用图注意力网络融合多传感器数据,实现动态目标的形状和轨迹估计。

  • 提出LEO:一个基于图注意力网络的时空模型,用于扩展对象的感知。
  • 融合多模态传感器数据,学习自适应融合权重,提升感知精度。
2026-04-02
9/10
多模态推荐 机器学习遗忘 数据隐私

TRU: Targeted Reverse Update for Efficient Multimodal Recommendation Unlearning

Zhanting Zhou, KaHou Tam, Ziqiang Zheng et al.

针对多模态推荐系统中数据难删除问题,提出TRU框架,实现有针对性的逆向更新,提升遗忘效果。

  • 发现多模态推荐系统删除数据的影响是不均匀分布的。
  • 提出targeted reverse update (TRU) 框架,包含 ranking fusion gate、branch-wise modality scaling 和 capacity-aware layer isolation 三个模块。
2026-04-02
8/10
机器人 视觉 触觉

Cross-Modal Visuo-Tactile Object Perception

Anirvan Dutta, Simone Tasciotti, Claudia Cusseddu et al.

提出了Cross-Modal Latent Filter (CMLF)模型,用于机器人视觉-触觉融合的物理属性估计。

  • 提出CMLF模型,用于视觉-触觉融合
  • 支持视觉和触觉之间的双向先验传递
2026-04-02
6/10
在线手写体生成 风格化 Transformer

CASHG: Context-Aware Stylized Online Handwriting Generation

Jinsu Shin, Sungeun Hong, Jin Yeong Bak

CASHG通过显式建模字符间连接,生成风格一致的在线手写体句子。

  • 提出CASHG,一种上下文感知的在线手写体生成器
  • 引入字符连接性和间距度量(CSM)评估方法
2026-04-02
9/10
多模态学习 通用多模态嵌入 隐变量推理

PLUME: Latent Reasoning Based Universal Multimodal Embedding

Chenwei He, Xiangzhao Hao, Tianyu Yang et al.

PLUME提出一种基于隐变量推理的通用多模态嵌入框架,提升推理效率。

  • 提出PLUME框架,用隐变量推理替代显式CoT。
  • 引入语义锚点引导的过渡适配器,实现多样化的推理轨迹。
2026-04-02
6/10
Diffusion Models Discrete Data Generative Models

Why Gaussian Diffusion Models Fail on Discrete Data?

Alexander Shabalin, Simon Elistratov, Viacheslav Meshchaninov et al.

研究高斯扩散模型在离散数据生成上失效的原因,并提出了缓解方法。

  • 发现了DDPM在离散数据上采样的关键问题:噪声数据密度多峰
  • 提出了q-sampling方法缓解该问题
2026-04-02
9/10
放射影像 Foundation Model 自监督学习

Curia-2: Scaling Self-Supervised Learning for Radiology Foundation Models

Antoine Saporta, Baptiste Callard, Corentin Dancette et al.

Curia-2通过优化预训练策略和扩展模型规模,显著提升了放射影像Foundation Models的性能。

  • 改进了放射影像的预训练策略
  • 构建了更大规模的多模态CT/MRI FM
2026-04-02
9/10
VQA Multimodal Learning Egocentric Video

Ego-Grounding for Personalized Question-Answering in Egocentric Videos

Junbin Xiao, Shenglang Zhang, Pengxiang Zhu et al.

论文提出了MyEgo数据集,用于评估MLLM在理解和推理第一人称视角视频中自我相关信息的能力。

  • 提出了MyEgo数据集,用于评估MLLM的自我认知能力
  • 分析了现有MLLM在个性化VQA任务上的表现
2026-04-02
7/10
医学图像分割 深度学习 nnU-Net

Automated Prostate Gland Segmentation in MRI Using nnU-Net

Pablo Rodriguez-Belenguer, Gloria Ribas, Javier Aquerreta Escribano et al.

使用nnU-Net自动分割MRI前列腺,实现高精度和泛化性,优于通用分割方法。

  • 提出了一种基于nnU-Net v2的MRI前列腺自动分割方法
  • 利用多模态mpMRI数据提高了分割精度
2026-04-02
8/10
多模态学习 自然语言处理 医疗健康

Is Clinical Text Enough? A Multimodal Study on Mortality Prediction in Heart Failure Patients

Oumaima El Khettari, Virgile Barthet, Guillaume Hocquet et al.

研究了多模态Transformer在心衰患者短期死亡率预测中的应用,并对比了LLM的效果。

  • 评估了text-only, structured-only, multimodal, LLM等多种方法在心衰死亡率预测中的性能
  • 证明了实体级别的文本表示增强了CLS嵌入的预测效果
2026-04-02
9/10
医学图像 视觉定位 视觉语言模型

Enhancing Medical Visual Grounding via Knowledge-guided Spatial Prompts

Yifan Gao, Tao Zhou, Yi Zhou et al.

论文提出KnowMVG框架,通过知识引导的空间提示增强医学图像视觉定位的精确性。

  • 提出知识增强提示策略,编码短语相关的医学知识
  • 提出全局-局部注意力机制,融合粗粒度全局信息和细粒度局部线索
2026-04-02
8/10
3D场景理解 无监督学习 数据增强

Lifting Unlabeled Internet-level Data for 3D Scene Understanding

Yixin Chen, Yaowei Zhang, Huangyue Yu et al.

利用网络视频自动生成3D场景理解训练数据,提升模型性能。

  • 提出了利用无标签网络视频自动生成3D场景训练数据的方法
  • 分析了数据自动生成中的瓶颈并揭示关键因素
2026-04-02
9/10
多模态学习 视觉语言模型 强化学习

Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models

Zekai Ye, Qiming Li, Xiaocheng Feng et al.

提出了一种感知驱动的策略优化PGPO,提升LVLM在多模态推理任务中的性能,通过动态调整token级别的优势函数。

  • 提出了Token Visual Dependency的概念,量化视觉输入的信息增益。
  • 引入了感知驱动的策略优化PGPO,动态重塑token级别的优势函数。
2026-04-02
9/10
单目深度估计 CLIP 混合适配器

Lightweight Prompt-Guided CLIP Adaptation for Monocular Depth Estimation

Reyhaneh Ahani Manghotay, Jie Liang

MoA-DepthCLIP利用轻量级混合适配器和选择性微调,高效地将CLIP知识迁移到单目深度估计任务。

  • 提出了轻量级混合适配器(MoA)模块
  • 结合深度bin分类和直接回归的混合预测架构
2026-04-01
7/10
3D Occupancy Prediction Out-of-Distribution Detection Prototype Learning

ProOOD: Prototype-Guided Out-of-Distribution 3D Occupancy Prediction

Yuheng Zhang, Mengfei Duan, Kunyu Peng et al.

ProOOD通过原型引导,提升3D语义占据预测的OOD检测能力,尤其针对长尾类数据。

  • 提出ProOOD方法,融合原型引导的语义补全与尾部挖掘。
  • 提出EchoOOD,结合logit一致性与原型匹配产生可靠的OOD评分。
2026-04-01
9/10
LVLM hallucination context integration

ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration

Bei Yan, Yuecong Min, Jie Zhang et al.

ACT通过自适应上下文整合,有效减少LVLM的幻觉问题,提升视觉-语言对齐效果。

  • 提出视觉上下文探索,自适应增强视觉探索的注意力头
  • 提出语义上下文聚合,有效聚合视觉证据,解决信息损失问题
2026-04-01
9/10
农作物产量预测 多模态数据 深度学习

YieldSAT: A Multimodal Benchmark Dataset for High-Resolution Crop Yield Prediction

Miro Miranda, Deepak Pathak, Patrick Helber et al.

YieldSAT数据集发布,用于高分辨率农作物产量预测,包含多模态数据和深度学习模型。

  • 发布了大规模、高质量的农作物产量预测数据集YieldSAT
  • 提出了基于深度学习的像素回归方法用于产量预测
2026-04-01
7/10
舞蹈检索 动作捕捉 时间序列分析

Learning Quantised Structure-Preserving Motion Representations for Dance Fingerprinting

Arina Kharlamova, Bowei He, Chen Ma et al.

DANCEMATCH提出了一种端到端舞蹈检索框架,通过量化运动表示实现高效舞蹈指纹识别。

  • 提出了DANCEMATCH框架,用于运动驱动的舞蹈检索。
  • 引入Skeleton Motion Quantisation (SMQ) 和 Spatio-Temporal Transformers (STT) 编码人体姿势。
2026-04-01
9/10
Spatial Augmented Reality Vision Language Model Segmentation

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Zimo Cao, Yuchen Deng, Haibin Ling et al.

ProCap通过解耦物理场景和投影内容,提升空间增强现实中视觉语言模型理解能力,并提出RGBP数据集。

  • 提出ProCap框架,解耦物理场景和投影内容
  • 构建RGBP数据集,包含SAR场景的密集标注
2026-04-01
9/10
VLM Vision Transformer 模型压缩

PixelPrune: Pixel-Level Adaptive Visual Token Reduction via Predictive Coding

Nan Wang, Zhiwei Jin, Chen Chen et al.

PixelPrune通过预测编码压缩,在ViT编码器前剪枝冗余像素块,加速VLM推理和训练。

  • 提出PixelPrune,一种基于预测编码的像素级自适应视觉token剪枝方法
  • PixelPrune在ViT编码器之前操作,加速整个推理pipeline
2026-04-01
9/10
视觉语言模型 知识蒸馏 多模态学习

LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

Patrick Amadeus Irawan, Erland Hilman Fuadi, Shanu Kumar et al.

LinguDistill通过知识蒸馏恢复视觉语言模型在多模态适应中损失的语言能力,无需增加额外模块。

  • 提出LinguDistill:一种adapter-free的知识蒸馏方法。
  • 使用层级KV-cache共享,实现视觉条件下的教师模型监督。
2026-04-01
9/10
遥感 视觉语言模型 持续学习

Continual Vision-Language Learning for Remote Sensing: Benchmarking and Analysis

Xingxing Weng, Ruifeng Ni, Chao Pang et al.

提出CLeaRS基准,评估遥感视觉语言模型在持续学习中的灾难性遗忘问题,并分析现有方法的局限性。

  • 提出了CLeaRS遥感持续视觉语言学习基准
  • 定义了三种评估协议:长时程、模态增量和任务增量
2026-04-01
9/10
MLLM 空间推理 一致性

Multimodal Language Models Cannot Spot Spatial Inconsistencies

Om Khangaonkar, Hadi J. Rad, Hamed Pirsiavash

多模态大语言模型在空间一致性推理上表现不佳,无法识别3D空间矛盾。

  • 提出了一种评估MLLM空间一致性的新任务
  • 创建了一个可扩展的数据集生成方法
2026-04-01
9/10
测试时自适应 强化学习 视频理解

TTA-Vid: Generalized Test-Time Adaptation for Video Reasoning

Soumya Shamarao Jahagirdar, Edson Araujo, Anna Kukleva et al.

TTA-Vid利用测试时强化学习,无需标注数据即可使视频理解模型适应新领域。

  • 提出TTA-Vid,一种测试时视频理解自适应方法
  • 使用批量感知频率奖励作为伪标签更新模型
2026-04-01
9/10
Video-LLM Continual Learning Benchmark

CL-VISTA: Benchmarking Continual Learning in Video Large Language Models

Haiyang Guo, Yichen Shi, Fei Zhu et al.

CL-VISTA是为Video-LLM持续学习定制的基准,揭示了性能、效率和内存之间的权衡。

  • 提出了CL-VISTA基准,用于评估Video-LLM的持续学习能力。
  • 涵盖了8个多样化任务,有效暴露了灾难性遗忘问题。
2026-04-01
8/10
手术视频理解 预训练 自监督学习

Scaling Video Pretraining for Surgical Foundation Models

Sicheng Lu, Zikai Xiao, Jianhui Wei et al.

SurgRec提出了一个可扩展和可复现的手术视频预训练框架,提升了手术视频理解能力。

  • 构建了大规模手术视频数据集
  • 提出了统一的预训练流水线
2026-03-31
9/10
手术视频 视觉问答 多模态学习

SurgTEMP: Temporal-Aware Surgical Video Question Answering with Text-guided Visual Memory for Laparoscopic Cholecystectomy

Shi Li, Vinkle Srivastav, Nicolas Chanel et al.

SurgTEMP通过分层视觉记忆和SCP训练,提升了手术视频问答在时间语义理解和多任务评估上的性能。

  • 提出了SurgTEMP框架,融合了查询引导的token选择和手术能力发展(SCP)训练。
  • 构建了包含32K问答对和3,855个视频片段的CholeVidQA-32K数据集。
2026-03-31
9/10
长视频 计数 枚举

EC-Bench: Enumeration and Counting Benchmark for Ultra-Long Videos

Fumihiko Tsuchiya, Taiki Miyanishi, Mahiro Ukai et al.

EC-Bench:长视频计数基准,挑战现有MLLM在长时间序列推理上的能力。

  • 提出了EC-Bench,一个长视频枚举和计数基准。
  • EC-Bench包含超过30分钟的长视频和相应的枚举证据。
2026-03-31
9/10
MLLM Agentic Tool Planning Interleaved Generation

ATP-Bench: Towards Agentic Tool Planning for MLLM Interleaved Generation

Yinuo Liu, Zi Qian, Heng Zhou et al.

提出了用于评估MLLM交错生成Agentic Tool Planning能力的ATP-Bench基准,揭示了模型在连贯规划和工具使用上的不足。

  • 提出了ATP-Bench基准,包含7702个QA对,覆盖8个类别和25个视觉关键意图
  • 提出了Multi-Agent MLLM-as-a-Judge (MAM)系统,用于评估工具调用精度
2026-03-31
9/10
多模态学习 放射学报告摘要 视觉注意力

Less Is More? Selective Visual Attention to High-Importance Regions for Multimodal Radiology Summarization

Mst. Fahmida Sultana Naznin, Adnan Ibney Faruq, Mushfiqur Rahman et al.

提出ViTAS模型,通过选择性关注病灶区域图像,显著提升了多模态放射学报告摘要的生成效果。

  • 提出ViTAS模型,通过关注病灶区域而非全图提升性能
  • 使用 MedSAM2 进行肺部分割,并结合 Shapley 值进行自适应补丁聚类
2026-03-31
9/10
Multimodal Machine Learning Cancer Metastasis Prediction Electronic Health Records

Multimodal Machine Learning for Early Prediction of Metastasis in a Swedish Multi-Cancer Cohort

Franco Rugolon, Korbinian Randl, Braslav Jovanovic et al.

该论文利用多模态机器学习预测四种癌症的转移风险,提升预测准确率。

  • 提出了一个预测癌症转移风险的多模态机器学习框架
  • 比较了传统和深度学习分类器在单模态和多模态组合上的表现
2026-03-31
9/10
multimodal learning active learning benchmarking

Mind the Gap: A Framework for Assessing Pitfalls in Multimodal Active Learning

Dustin Eisenhardt, Yunhee Jeong, Florian Buettner

该论文提出了评估多模态主动学习陷阱的框架,揭示了现有方法在模态平衡上的不足。

  • 提出了多模态主动学习的基准测试框架
  • 分析了多模态主动学习中存在的模态不平衡问题
2026-03-31
10/10
LVLM Partial Information Decomposition Multimodal Fusion

A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models

Lixin Xiu, Xufang Luo, Hideki Nakayama

该论文利用信息分解方法分析LVLM的决策过程,揭示其多模态融合和单模态先验依赖。

  • 提出了一种使用部分信息分解(PID)的新框架,用于量化评估LVLM的信息谱。
  • 揭示了两种任务模式(协同驱动 vs. 知识驱动)和两种模型策略(融合中心 vs. 语言中心)。
2026-03-31
9/10
遥感 图像-文本 多模态学习

BigEarthNet.txt: A Large-Scale Multi-Sensor Image-Text Dataset and Benchmark for Earth Observation

Johann-Ludwig Herzog, Mathis Jürgen Adler, Leonard Hackel et al.

提出了大规模多传感器遥感图像-文本数据集BigEarthNet.txt,用于提升遥感领域视觉-语言模型性能。

  • 构建了大规模多传感器遥感图像-文本数据集BigEarthNet.txt
  • 数据集包含多种类型的文本标注,包括地理锚定的描述、视觉问答对和指代表达式检测指令
2026-03-31
9/10
放射报告生成 置信度校准 强化学习

Calibrated Confidence Expression for Radiology Report Generation

David Bani-Harouni, Chantal Pellegrini, Julian Lüers et al.

ConRad通过强化学习微调医学LVLM,生成校准的置信度表达,提升放射报告生成的安全性。

  • 提出 ConRad 框架,提升放射报告置信度校准
  • 采用 GRPO 算法,基于对数评分规则训练模型
2026-03-31
9/10
多语言 视觉语言 MLLM

M-MiniGPT4: Multilingual VLLM Alignment via Translated Data

Seung Hun Han, Youssef Mohamed, Mohamed Elhoseiny

M-MiniGPT4通过混合数据和多语言对齐训练,提升了多语言视觉语言理解能力,并在MMMU上取得了优秀表现。

  • 提出M-MiniGPT4多语言视觉大语言模型
  • 使用混合多语言数据提升VLU性能
2026-03-31
9/10
手写体识别 少样本学习 多模态学习

Few-shot Writer Adaptation via Multimodal In-Context Learning

Tom Simon, Stephane Nicolas, Pierrick Tranouez et al.

提出了一种基于多模态上下文学习的少样本手写体风格迁移方法,无需参数更新即可实现。

  • 提出了一种上下文驱动的HTR框架
  • 设计了一个紧凑的CNN-Transformer模型
2026-03-31
9/10
3D Question Answering Vision-Language Models Token Pruning

SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

Wenli Li, Kai Zhao, Haoran Jiang et al.

SeGPruner通过语义和几何引导的token修剪,提升3D问答的效率,并保持性能。

  • 提出SeGPruner框架,用于3D QA中多视角图像的token缩减。
  • 使用注意力机制的显著性token选择器,保留语义相关的token。
2026-03-31
8/10
盲脸修复 扩散模型 属性控制

A2BFR: Attribute-Aware Blind Face Restoration

Chenxin Zhu, Yushun Fang, Lu Liu et al.

A$^2$BFR通过属性感知学习和语义双重训练,实现了高保真和可控的盲脸修复。

  • 提出了A$^2$BFR框架,结合高保真重建和提示控制生成
  • 引入属性感知学习,利用面部属性嵌入监督去噪潜在空间
2026-03-31
9/10
MLLM 对抗攻击 视觉提示注入

Adversarial Prompt Injection Attack on Multimodal Large Language Models

Meiwen Ding, Song Xia, Chenqi Kong et al.

研究针对多模态大语言模型(MLLM)的不可察觉视觉提示注入攻击,提升攻击的有效性和隐蔽性。

  • 提出了一种基于对抗性提示的视觉注入攻击方法。
  • 设计了一种自适应嵌入恶意提示到图像中的方法,通过有界文本叠加实现语义引导。
2026-03-31
5/10
时空预测 量子计算 三维云场

Hybrid Quantum-Classical Spatiotemporal Forecasting for 3D Cloud Fields

Fu Wang, Qifeng Lu, Xinyu Long et al.

提出QENO,一种混合量子-经典时空预测框架,用于三维云场预测,效果优于现有模型。

  • 提出QENO框架,融合量子计算和经典方法
  • 引入拓扑感知量子增强模块,建模非局部耦合
2026-03-31
9/10
多模态学习 表征学习 医学图像

Assessing Multimodal Chronic Wound Embeddings with Expert Triplet Agreement

Fabian Kabus, Julia Hindel, Jelena Bratulić et al.

论文提出TriDerm框架,利用专家知识评估多模态慢性伤口嵌入,提升RDEB疾病相似病例检索效果。

  • 提出TriDerm框架,融合图像、掩码和专家报告学习伤口表示
  • 利用专家三元组判断评估嵌入空间,快速收集临床相似性知识
2026-03-31
9/10
MLLM Long Video Understanding Token Selection

AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding

Haozhe Qi, Kevin Qu, Mahdi Rad et al.

AdaptToken提出一种基于熵的自适应token选择框架,用于提升MLLM长视频理解能力。

  • 提出基于模型不确定性的全局控制信号,用于长视频token选择。
  • 提出AdaptToken框架,通过熵估计提示相关性,进行token预算分配。
2026-03-30
9/10
多模态学习 强化学习 推理

Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning

Ziqi Miao, Haonan Jia, Lijun Li et al.

PRCO通过双角色强化学习,解耦感知与推理优化,提升多模态推理性能。

  • 提出了PRCO框架,解耦感知和推理的优化目标
  • 设计了观察者和解决者双角色,分别负责提取证据和预测答案
2026-03-30
10/10
MLLM 多模态 自适应分辨率

ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning

Huanxuan Liao, Zhongtao Jiang, Yupu Hao et al.

ResAdapt通过自适应分辨率分配,提升了多模态大模型在低视觉预算下的推理效率。

  • 提出ResAdapt框架,实现输入侧的自适应分辨率分配
  • 使用Cost-Aware Policy Optimization (CAPO)训练分配器
2026-03-30
10/10
对抗攻击 视觉语言模型 鲁棒性

XSPA: Crafting Imperceptible X-Shaped Sparse Adversarial Perturbations for Transferable Attacks on VLMs

Chengyin Hu, Jiaju Han, Xuemeng Sun et al.

提出一种X形稀疏像素攻击(XSPA),用于评估视觉语言模型在跨任务上的鲁棒性。

  • 提出了一种新型的稀疏、结构化的对抗攻击方法XSPA。
  • 证明了即使是高度稀疏和视觉上难以察觉的扰动也能显著破坏VLMs的跨任务语义。
2026-03-30
9/10
领域泛化 视觉语言模型 Prompt学习

Domain-Invariant Prompt Learning for Vision-Language Models

Arsham Gholamzadeh Khoee, Yinan Yu, Robert Feldt

DiCoOp通过对抗训练扩展CoOp,学习领域不变的视觉语言模型Prompt,提升领域泛化能力。

  • 提出Domain-invariant Context Optimization (DiCoOp)
  • 使用对抗训练学习领域不变的prompt
2026-03-30
9/10
Multimodal Learning Chemical Structure Recognition Markush Structure

MarkushGrapher-2: End-to-end Multimodal Recognition of Chemical Structures

Tim Strohmeyer, Lucas Morin, Gerhard Ingmar Meijer et al.

提出MarkushGrapher-2,用于端到端多模态识别化学结构,性能优于现有方法。

  • 提出MarkushGrapher-2端到端多模态识别方法
  • 构建大规模Markush结构数据集
2026-03-30
6/10
MRI CT 图像合成

MRI-to-CT synthesis using drifting models

Qing Lyu, Jianxu Wang, Jeremy Hudson et al.

提出一种基于漂移模型的MRI到CT合成方法,在骨盆CT图像合成上优于现有方法。

  • 提出漂移模型用于MRI到CT合成
  • 证明漂移模型在图像质量和效率上的优势
2026-03-30
9/10
Membership Inference Attack Large Audio Language Models Multimodal Learning

Membership Inference Attacks against Large Audio Language Models

Jia-Kai Dong, Yu-Xiang Lin, Hung-Yi Lee

首次系统评估大型音频语言模型(LALM)的成员推断攻击(MIA),并提出了避免虚假相关性的评估方法。

  • 揭示了音频数据中的分布偏移会导致LALM的虚假MIA性能。
  • 提出了基于文本、频谱和韵律特征的多模态盲基线,用于评估分布偏移的影响。
2026-03-30
9/10
Vision-Language-Action Robotics Paraphrase Robustness

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Chanyoung Kim, Minwoo Kim, Minseok Kang et al.

LIBERO-Para基准测试VLA模型在指令复述下的鲁棒性,发现性能显著下降,并提出PRIDE度量指标。

  • 构建了LIBERO-Para基准测试,用于评估VLA模型在指令复述下的鲁棒性。
  • 发现了VLA模型在指令复述下性能显著下降,尤其是在物体层面。
2026-03-30
5/10
自动驾驶 语义分割 多任务学习

TwinMixing: A Shuffle-Aware Feature Interaction Model for Multi-Task Segmentation

Minh-Khoi Do, Huy Che, Dinh-Duy Phan et al.

TwinMixing是一种轻量级多任务分割模型,专为自动驾驶环境下的车道线和可行驶区域分割设计。

  • 提出了高效金字塔混合(EPM)模块,增强多尺度特征提取
  • 设计了双分支上采样(DBU)块,实现精细且空间一致的特征重建
2026-03-30
9/10
CLIP Zero-shot Learning Interpretability

Explaining CLIP Zero-shot Predictions Through Concepts

Onat Ozdemir, Anders Christensen, Stephan Alaniz et al.

EZPC通过将CLIP的预测与人类可理解的概念对齐,实现了零样本图像识别的可解释性。

  • 提出了EZPC模型,连接了CLIP和概念瓶颈模型。
  • 通过对齐和重构目标学习概念空间映射。
2026-03-30
9/10
遥感图像-文本检索 噪声对应 自步学习

Robust Remote Sensing Image-Text Retrieval with Noisy Correspondence

Qiya Song, Yiqiang Xie, Yuan Sun et al.

针对遥感图像-文本检索中噪声对应问题,提出鲁棒检索框架RRSITR,提升模型在噪声环境下的性能。

  • 提出鲁棒遥感图像-文本检索范式RRSITR
  • 设计自步学习策略应对噪声对应问题
2026-03-30
7/10
文档分析 数字化 OCR

Quid est VERITAS? A Modular Framework for Archival Document Analysis

Leonardo Bassanini, Ludovico Biancardi, Alfio Ferrara et al.

VERITAS框架将文档数字化重构为集成工作流,提升转录质量和下游应用。

  • 提出VERITAS模块化框架,用于档案文档分析
  • 实现了转录、版面分析和语义增强的集成
2026-03-30
9/10
自动驾驶 视觉语言模型 指令跟随

Vega: Learning to Drive with Natural Language Instructions

Sicheng Zuo, Yuxuan Li, Wenzhao Zheng et al.

提出了一种基于视觉-语言-世界-行动模型的自动驾驶方案,并构建了大规模指令驾驶数据集。

  • 构建了包含多样指令的InstructScene数据集
  • 提出了统一的视觉-语言-世界-行动模型Vega
2026-03-26
9/10
视频时序定位 多模态学习 对象中心学习

SlotVTG: Object-Centric Adapter for Generalizable Video Temporal Grounding

Jiwook Han, Geo Ahn, Youngrae Kim et al.

提出SlotVTG,通过轻量级slot adapter提升MLLM在视频时序定位任务中的泛化能力。

  • 提出SlotVTG框架,利用slot attention进行对象中心视觉推理
  • 引入objectness priors鼓励语义一致的slot形成
2026-03-26
9/10
视觉语言模型 组合性 对比学习

No Hard Negatives Required: Concept Centric Learning Leads to Compositionality without Degrading Zero-shot Capabilities of Contrastive Models

Hai X. Pham, David T. Hoffmann, Ricardo Guerrero et al.

提出概念中心学习方法,提升对比视觉语言模型在组合性任务上的表现,同时保持零样本能力。

  • 提出概念中心学习框架,解决视觉语言模型的组合性问题。
  • 使用短概念中心标题部分对齐图像。
2026-03-26
8/10
视频世界模型 记忆机制 动态物体建模

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Kaijin Chen, Dingkang Liang, Xin Zhou et al.

针对视频世界模型中动态物体遮挡问题,提出混合记忆和新数据集,实现更好的动态物体建模。

  • 提出混合记忆机制,区分静态背景和动态物体
  • 构建HM-World数据集,用于评估混合记忆模型
2026-03-26
9/10
多模态 幻觉 视觉 grounding

Seeing to Ground: Visual Attention for Hallucination-Resilient MDLLMs

Vishal Narnaware, Animesh Gupta, Kevin Zhai et al.

论文提出VISAGE框架,通过校准目标函数,减少多模态大语言模型中的幻觉问题。

  • 提出VISAGE框架,用于减少多模态幻觉
  • 分析了多模态幻觉的根本原因:目标不匹配
2026-03-26
7/10
跨视角地理定位 自回归模型 空间推理

Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming

Yunus Talha Erzurumlu, Jiyong Kwag, Alper Yilmaz

提出一种基于自回归缩放的跨视角地理定位方法,无需对比学习,性能优于传统方法。

  • 提出自回归缩放方法进行跨视角地理定位
  • 提出新的更真实的跨视角地理定位基准
2026-03-26
9/10
多模态学习 视觉推理 潜在表征

LanteRn: Latent Visual Structured Reasoning

André G. Viveiros, Nuno Gonçalves, Matthias Lindemann et al.

LanteRn通过在LLM中引入紧凑的潜在视觉表征,提升了多模态推理中细粒度的视觉理解能力。

  • 提出了 LanteRn 框架,允许 LMM 在潜在空间中进行视觉推理
  • 使用监督微调和强化学习训练模型,对齐视觉特征和任务效用
2026-03-26
9/10
多模态学习 层级学习 生物分类

Hierarchy-Guided Multimodal Representation Learning for Taxonomic Inference

Sk Miraj Ahmed, Xi Yu, Yunqi Li et al.

提出层级引导的多模态表示学习方法,用于解决生物分类推断问题,提升分类准确率。

  • 提出Hierarchical Information Regularization (HiR)进行层级信息编码
  • 设计CLiBD-HiR和CLiBD-HiR-Fuse两种变体
2026-03-26
9/10
多模态图像融合 眼科手术 实时场景理解

Towards Comprehensive Real-Time Scene Understanding in Ophthalmic Surgery through Multimodal Image Fusion

Nikolo Rohrmoser, Ghazal Ghazaei, Michael Sommersperger et al.

该论文提出了一种多模态图像融合方法,用于眼科手术中的实时场景理解,提高了手术器械跟踪精度。

  • 提出了一种多模态、时序、实时的网络架构
  • 引入交叉注意力融合模块融合OPMI和iOCT图像特征
2026-03-26
8/10
microservice incident management multimodal fusion

Missing-Aware Multimodal Fusion for Unified Microservice Incident Management

Wenzhuo Qian, Hailiang Zhao, Ziqi Wang et al.

针对微服务事件管理中数据缺失问题,提出了一种鲁棒的自监督多模态融合框架ARMOR。

  • 提出了 modality-specific asymmetric encoder,隔离模态间差异。
  • 设计了 missing-aware gated fusion机制,减少数据缺失干扰。
2026-03-26
8/10
羽毛球 数据集 多模态学习

BFMD: A Full-Match Badminton Dense Dataset for Dense Shot Captioning

Ning Ding, Keisuke Fujii, Toru Tamaki

提出了一个羽毛球全场比赛密集标注数据集BFMD,并构建了基于VideoMAE的多模态字幕生成框架。

  • 构建了首个羽毛球全场比赛密集标注数据集BFMD
  • 提出了基于VideoMAE的多模态字幕生成框架
2026-03-26
9/10
视频生成 多视角学习 具身智能

VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents

George Eskandar, Fengyi Shen, Mohammad Altillawi et al.

VideoWeaver是首个多模态多视角视频转换框架,用于具身智能体环境重构,实现视角一致性。

  • 提出了多视角视频到视频的转换框架VideoWeaver
  • 利用共享4D潜在空间实现视角一致性
2026-03-26
9/10
多模态学习 数据集蒸馏 知识迁移

Multimodal Dataset Distillation via Phased Teacher Models

Shengbin Guo, Hang Zhao, Senqiao Yang et al.

提出一种新型多模态数据集蒸馏框架PTM-ST,有效提升学生模型性能并降低存储开销。

  • 提出Phased Teacher Model with Shortcut Trajectory (PTM-ST)框架
  • 解决多模态数据集蒸馏中跨阶段性能差距和教师模型不稳定的问题
2026-03-26
7/10
轨迹异常检测 高光谱图像 Transformer

Hyperspectral Trajectory Image for Multi-Month Trajectory Anomaly Detection

Md Awsafur Rahman, Chandrakanth Gudavalli, Hardik Prajapati et al.

提出TITAnD,通过将轨迹转换为高光谱图像,利用Transformer进行多月轨迹异常检测。

  • 提出高光谱轨迹图像(HTI)表示轨迹数据
  • 引入循环因子分解Transformer (CFT)模型
2026-03-26
9/10
OOD Detection Vision-Language Models Negative Labels

Activation Matters: Test-time Activated Negative Labels for OOD Detection with Vision-Language Models

Yabin Zhang, Maya Varma, Yunhe Gao et al.

提出TANL方法,通过激活的负标签提升视觉-语言模型在OOD检测中的性能。

  • 提出测试时激活负标签(TANL)方法,动态评估激活水平并选择高激活的负标签。
  • 设计了一种标签激活度量标准,利用历史测试样本自适应对齐测试分布。
2026-03-26
9/10
多模态学习 医学影像 视觉问答

Photon: Speedup Volume Understanding with Efficient Multimodal Large Language Models

Chengyu Fang, Heng Guo, Zheng Jiang et al.

Photon通过自适应token压缩加速3D医学影像多模态大语言模型在视觉问答中的应用。

  • 提出instruction-conditioned token scheduling和surrogate gradient propagation自适应压缩token
  • 引入带梯度恢复的自定义反向传播规则,优化离散token丢弃
2026-03-26
9/10
视频文本对齐 排序优化 视觉编码器微调

Learning to Rank Caption Chains for Video-Text Alignment

Ansel Blume, Burak Uzkent, Shalini Chaudhuri et al.

提出基于排序优化的视频文本对齐方法,并发现视觉编码器微调的重要性。

  • 提出基于排序的优化方法,提升视频文本对齐效果
  • 通过caption degradation生成大规模caption chain
2026-03-26
9/10
deepfake detection self-supervised learning audio-visual

SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment

Sahibzada Adil Shahzad, Ammarah Hashmi, Junichi Yamagishi et al.

SAVe提出了一种自监督音视频深度伪造检测框架,利用视觉伪影和音视频错位。

  • 提出一种自监督学习的音视频深度伪造检测框架
  • 利用身份保持、区域感知自混合伪造样本模拟篡改伪影
2026-03-26
9/10
多模态学习 强化学习 奖励建模

MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning

Chenglong Wang, Yifu Huo, Yang Gan et al.

MSRL通过多阶段强化学习提升多模态奖励模型,解决标注数据不足问题,性能显著提升。

  • 提出了一种多阶段强化学习(MSRL)方法,用于扩展多模态奖励模型(MRM)的训练。
  • 设计了跨模态知识蒸馏方法,以提高MSRL中的偏好泛化能力。
2026-03-26
9/10
Vision-Language-Action Robotics Object-Centric Inference

TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models

Jiaying Zhou, Zhihao Zhan, Ruifeng Zhai et al.

提出TAG,通过目标无关的指导来提升VLA模型在复杂场景下的目标定位准确性和鲁棒性。

  • 提出了TAG: 一种推理时的指导机制,用于减少VLA策略中的干扰和外观偏差。
  • TAG不修改策略架构,易于集成到现有VLA策略中。
2026-03-25
9/10
视觉语言模型 图像质量评估 心理物理学

Vision-Language Models vs Human: Perceptual Image Quality Assessment

Imran Mehmood, Imad Ali Shah, Ming Ronnier Luo et al.

该论文评估了视觉语言模型在图像质量评估任务中与人类感知的对齐程度,并分析了不同属性的影响。

  • 系统性地对比了六个VLMs与人类在图像质量评估上的表现
  • 揭示了VLMs在不同图像质量属性(对比度、色彩度)上的表现差异
2026-03-25
9/10
矢量化 视觉语言模型 SVG

VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

Qijia He, Xunmei Liu, Hammaad Memon et al.

提出VFIG,一个基于视觉语言模型的复杂图形矢量化方法,并构建了大规模数据集和评估基准。

  • 提出VFIG模型,用于图到SVG的高保真转换
  • 构建了大规模数据集VFIG-DATA
2026-03-25
9/10
Agent Video Understanding Vision-Language Model

LensWalk: Agentic Video Understanding by Planning How You See in Videos

Keliang Li, Yansong Li, Hongze Shen et al.

LensWalk通过让LLM自主控制视觉观察,提升了长视频理解的准确性、鲁棒性和可解释性。

  • 提出LensWalk框架,赋予LLM控制视频观察的能力
  • 通过reason-plan-observe循环动态调整视频观察范围和密度
2026-03-25
9/10
视频语言预训练 手术视频 事件识别

CliPPER: Contextual Video-Language Pretraining on Long-form Intraoperative Surgical Procedures for Event Recognition

Florian Stilz, Vinkle Srivastav, Nassir Navab et al.

CliPPER通过上下文视频语言预训练,提升手术视频事件识别的准确率。

  • 提出Contextual Video-Text Contrastive Learning (VTC_CTX) 和 Clip Order Prediction (COP) 预训练目标
  • 引入循环一致性对齐(Cycle-Consistency Alignment)增强视频文本匹配
2026-03-25
9/10
Theory of Mind Multimodal Learning Vision-Language

Video-Only ToM: Enhancing Theory of Mind in Multimodal Large Language Models

Siqi Liu, Xinyang Li, Bochao Zou et al.

该论文提出VisionToM框架,通过干预视觉表征提升MLLM的视频理解ToM能力。

  • 提出VisionToM框架,用于提升MLLM的视频理解ToM能力
  • 通过干预视觉表征,引导模型关注正确语义目标,减少对语言先验的依赖
2026-03-25
8/10
多模态学习 生物特征识别 动物行为

Counting Without Numbers \& Finding Without Words

Badri Narayana Patro

提出了一种结合视觉和听觉生物特征的多模态宠物重聚系统,提高了宠物重聚的成功率。

  • 提出了一种结合视觉和听觉的多模态重聚系统
  • 系统能够处理不同频率范围的动物叫声
2026-03-25
9/10
深度伪造检测 视觉-语言模型 跨模态学习

Unleashing Vision-Language Semantics for Deepfake Video Detection

Jiawen Zhu, Yunqi Miao, Xueyi Zhang et al.

VLAForge利用视觉-语言语义增强深度伪造视频检测的判别能力,优于现有方法。

  • 提出VLAForge框架,融合视觉和语言语义
  • 设计ForgePerceiver,增强视觉感知,保留VLA知识
2026-03-25
9/10
因果推断 迁移学习 医学图像分析

Causal Transfer in Medical Image Analysis

Mohammed M. Abdelsamea, Daniel Tweneboah Anyimadu, Tasneem Selim et al.

综述医学图像分析中因果迁移学习方法,提升模型跨域泛化性和鲁棒性。

  • 提出了医学图像分析中的因果迁移学习(CTL)范式
  • 构建了连接因果框架和迁移机制的统一分类体系
2026-03-25
9/10
3D Human-Object Interaction Diffusion Model Vision-Language Model

ViHOI: Human-Object Interaction Synthesis with Visual Priors

Songjin Cai, Linjie Zhong, Ling Guo et al.

ViHOI利用2D图像先验指导3D人与物体交互生成,提升生成质量和泛化性。

  • 提出ViHOI框架,利用视觉先验提升HOI生成质量
  • 利用VLM提取视觉和文本先验,并设计Q-Former进行压缩
2026-03-25
9/10
医疗AI 可解释性 自适应深度

RVLM: Recursive Vision-Language Models with Adaptive Depth

Nicanor Mayumu, Zeenath Khan, Melodena Stephens et al.

RVLM通过迭代生成-执行循环和自适应深度,提升医疗AI的可审计性和效率。

  • 提出RVLM框架,结合迭代生成-执行循环
  • 实现基于任务复杂度的自适应迭代深度
2026-03-25
9/10
LVLM Few-shot Learning Zero-shot Learning

Unlocking Few-Shot Capabilities in LVLMs via Prompt Conditioning and Head Selection

Adhemar de Senneville, Xavier Bou, Jérémy Anger et al.

LVLMs可通过prompt conditioning和head选择提升zero-shot和few-shot图像分类性能,缩小与CLIP的差距。

  • 提出Head Ensemble Classifiers (HEC),一种无训练的分类器。
  • 发现LVLMs的内部表示(尤其是注意力头)在分类任务中表现优异。
2026-03-25
9/10
MLLM 安全风险 图像生成

When Understanding Becomes a Risk: Authenticity and Safety Risks in the Emerging Image Generation Paradigm

Ye Leng, Junjie Chu, Mingjie Li et al.

MLLM更强的语义理解能力带来比扩散模型更大的安全风险,包括不安全内容生成和假图片合成。

  • 系统性分析和比较了MLLM和扩散模型在不安全内容生成和假图片合成方面的安全风险。
  • 发现MLLM比扩散模型更容易生成不安全图像,因为MLLM更能理解抽象prompt。
2026-03-25
9/10
医学影像 VLM 基准测试

MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage

Ufaq Khan, Umair Nawaz, L D M S S Teja et al.

MedObvious基准测试揭示了医学VLM在输入验证方面存在的安全隐患,模型易产生幻觉并缺乏鲁棒性。

  • 提出了MedObvious基准测试,用于评估医学VLMs的输入验证能力
  • 揭示了现有VLMs在医学图像输入验证方面的局限性
2026-03-24
8/10
多模态学习 强化学习 图像生成

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Jie Liu, Zilyu Ye, Linxiao Yuan et al.

提出UniGRPO,用于联合优化推理和图像生成策略,提升图像生成质量,为多轮交互模型提供基线。

  • 提出UniGRPO框架,用于联合优化文本和图像生成策略。
  • 改进FlowGRPO,移除classifier-free guidance和替换KL惩罚。
2026-03-24
8/10
图像修复 扩散模型 少步生成

InverFill: One-Step Inversion for Enhanced Few-Step Diffusion Inpainting

Duc Vu, Kien Nguyen, Trong-Tung Nguyen et al.

InverFill通过一步反演注入语义信息,提升少步扩散模型图像修复质量。

  • 提出InverFill单步反演方法,用于提升少步扩散模型修复效果
  • 利用文本到图像模型进行图像修复,无需训练特定的修复模型
2026-03-24
9/10
MLLM Prompt Optimization Object Detection

DetPO: In-Context Learning with Multi-Modal LLMs for Few-Shot Object Detection

Gautam Rajendrakumar Gare, Neehar Peri, Matvei Popov et al.

DetPO提出了一种黑盒prompt优化方法,提升MLLM在少样本目标检测任务上的性能。

  • 提出了一种名为DetPO的梯度无关的prompt优化方法。
  • DetPO通过最大化检测精度和校准置信度来优化文本prompt。
2026-03-24
6/10
毫米波雷达 材料分类 几何偏移

Edge Radar Material Classification Under Geometry Shifts

Jannik Hohmann, Dong Wang, Andreas Nüchter

提出了一种毫米波雷达材料分类方法,并分析了几何偏移对分类性能的影响。

  • 提出基于毫米波雷达的材料分类pipeline
  • 分析了几何偏移对分类性能的影响
2026-03-24
9/10
视觉语言模型 双曲几何 层级表征

ARGENT: Adaptive Hierarchical Image-Text Representations

Chuong Huynh, Hossein Souri, Abhinav Kumar et al.

ARGENT提出了一种新的双曲视觉语言模型,通过自适应损失和角度概率评估提升层级表征能力。

  • 提出自适应的包含损失和范数正则化,防止锥坍塌
  • 引入基于角度的概率包含协议 (PEP) 用于评估层级理解
2026-03-24
9/10
机器人操作 视觉语言行动模型 人类注视

Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation

Anupam Pani, Yanchao Yang

论文提出了一种基于人类视觉注意力的机器人操作学习框架,提升了机器人操作的性能和可解释性。

  • 提出基于人类注视的VLA模型正则化训练方法
  • 无需额外硬件即可提升机器人操作性能
2026-03-24
9/10
VLM Gaze Tracking Ego-Centric Vision

Gaze-Regularized VLMs for Ego-Centric Behavior Understanding

Anupam Pani, Yanchao Yang

论文提出了一种基于注视正则化的VLM框架,用于提升以自我为中心的行为理解和未来事件预测。

  • 引入注视信息到VLM架构
  • 提出基于注视的查询机制
2026-03-24
9/10
视频LLM 时间推理 视觉提示

ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting

Yeonkyung Lee, Dayun Ju, Youngmin Kim et al.

ViKey通过视觉提示和关键词帧映射,提升视频LLM在稀疏帧下的时间推理能力。

  • 提出ViKey框架,结合视觉提示和关键词帧映射
  • 利用帧索引作为字典键,连接文本提示和相关帧
2026-03-24
9/10
主动学习 跨模态学习 视觉语言模型

Conformal Cross-Modal Active Learning

Huy Hoang Nguyen, Cédric Jung, Shirin Salehi et al.

CCMA利用跨模态信息,提升视觉任务主动学习的数据效率,优于现有单模态方法。

  • 提出Conformal Cross-Modal Acquisition (CCMA)框架
  • 利用预训练VLM作为教师模型提供语义不确定性估计
2026-03-24
9/10
ARVOS Audio-based Segmentation Vision-Language

3rd Place of MeViS-Audio Track of the 5th PVUW: VIRST-Audio

Jihwan Hong, Jaeyoung Do

VIRST-Audio模型利用文本监督进行音频视频对象分割,通过ASR转换音频并引入存在感知门控提升鲁棒性,在MeViS-Audio挑战赛中获得第三名。

  • 提出VIRST-Audio框架,结合预训练RVOS模型和视觉语言架构。
  • 利用ASR模块将音频转换为文本,实现文本监督的分割。
2026-03-24
8/10
强化学习 自回归模型 图像生成

Policy-based Tuning of Autoregressive Image Models with Instance- and Distribution-Level Rewards

Orhun Buğra Baran, Melih Kandemir, Ramazan Gokberk Cinbis

提出了一种基于强化学习的自回归图像模型微调框架,提升图像质量和多样性。

  • 提出了一种新的分布级别Leave-One-Out FID (LOO-FID)奖励,用于鼓励多样性。
  • 结合实例级别奖励(CLIP和HPSv2)以保证语义和感知保真度。
2026-03-24
9/10
目标检测 可解释性AI 多模态学习

YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception

Marios Impraimakis, Daniel Vazquez, Feiyu Zhou

利用Kolmogorov-Arnold网络提升YOLOv10目标检测的可解释性和置信度评估,结合多模态信息增强可信赖AI。

  • 提出基于Kolmogorov-Arnold网络的可解释置信度评估方法
  • 将BLIP模型融入,实现多模态解释
2026-03-24
8/10
语义分割 CLIP 开放词汇

Looking Beyond the Window: Global-Local Aligned CLIP for Training-free Open-Vocabulary Semantic Segmentation

ByeongCheol Lee, Hyun Seok Seong, Sangeek Hyun et al.

针对训练自由的开放词汇语义分割,提出一种全局-局部对齐的CLIP模型,解决窗口间的语义差异问题。

  • 提出Global-Local Aligned CLIP (GLA-CLIP)框架,实现窗口间的信息交互
  • 引入代理锚点 (Proxy Anchor),提供统一的语义参考,缓解窗口偏差
2026-03-24
9/10
视频语言预训练 掩码视觉建模 多模态学习

Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining

Weijun Zhuang, Yuqing Huang, Weikang Meng et al.

ClusterSTM提出一种簇级时空掩码策略,提升视频语言预训练的效率和性能。

  • 提出簇级时空掩码策略,缓解信息损失和时间泄露问题
  • 引入视频-文本相关性重建目标,增强多模态语义对齐
2026-03-24
9/10
Audio-Visual Speech Recognition Video Conferencing Multimodal Learning

When AVSR Meets Video Conferencing: Dataset, Degradation, and the Hidden Mechanism Behind Performance Collapse

Yihuan Huang, Jun Xue, Liu Jiajun et al.

针对视频会议场景下的AVSR性能退化问题,构建了MLD-VC数据集并分析了原因,提出了优化方法。

  • 构建了首个面向视频会议的AVSR多模态数据集MLD-VC
  • 分析了视频会议场景下AVSR性能退化的原因,包括传输失真和人类过度表达
2026-03-24
9/10
MLLM 3D Scene Understanding Video Generation

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Xianjin Wu, Dingkang Liang, Tianrui Feng et al.

利用视频生成模型中的隐式3D先验知识,提升MLLM在空间理解方面的能力。

  • 提出VEGA-3D框架,利用预训练视频扩散模型作为潜在世界模拟器。
  • 通过token-level自适应门控融合机制,将时空特征与语义表示融合。
2026-03-19
7/10
diffusion model noise schedule spectral properties

Spectrally-Guided Diffusion Noise Schedules

Carlos Esteves, Ameesh Makadia

提出了一种基于图像频谱特性的像素扩散模型噪声调度方法,提高了生成质量。

  • 提出了基于图像频谱特性的噪声调度方法
  • 推导了最小和最大噪声水平的理论界限
2026-03-19
9/10
视觉语言模型 视觉注意力 语言框架

Tinted Frames: Question Framing Blinds Vision-Language Models

Wan-Cyuan Fan, Jiayun Luo, Declan Kutscher et al.

研究表明,视觉语言模型(VLM)的视觉注意力受问题框架影响,导致性能下降和不一致。

  • 揭示了VLM的视觉注意力受到语言框架选择性影响
  • 量化了框架对图像注意力和分布的影响
2026-03-19
7/10
声学合成 流匹配 少样本学习

Few-shot Acoustic Synthesis with Multimodal Flow Matching

Amandine Brunetto

提出FLAC,一种基于流匹配的概率方法,用于少样本声学合成,生成与场景一致的RIR。

  • 提出FLAC,一种新的声学合成方法
  • 引入AGREE,一种新的几何一致性评估指标
2026-03-19
9/10
交通异常理解 视觉语言模型 数据集

TAU-R1: Visual Language Model for Traffic Anomaly Understanding

Yuqiang Lin, Kehua Chen, Sam Lockyer et al.

提出了用于交通异常理解的视觉语言模型TAU-R1,并构建了Roundabout-TAU数据集。

  • 构建了Roundabout-TAU数据集
  • 提出了两层视觉语言框架TAU-R1
2026-03-19
9/10
地球观测 视觉语言模型 像素级推理

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Yan Shu, Bin Ren, Zhitong Xiong et al.

TerraScope提出了一个像素级视觉推理的VLM,用于地球观测任务。

  • 提出TerraScope模型,支持像素级地理空间推理
  • 构建Terra-CoT数据集,包含百万级别像素级标注样本
2026-03-19
9/10
MLLM 图像分割 多模态学习

Rethinking MLLM Itself as a Segmenter with a Single Segmentation Token

Anqi Zhang, Xiaokang Ji, Guangyu Gao et al.

提出了一种无需额外解码器的MLLM图像分割方法SELF1E,通过单一分割token实现高效分割。

  • 提出SELF1E,一种基于单一分割token的MLLM分割方法
  • 通过保留原始分辨率特征并融入残差特征,提升特征精度
2026-03-19
9/10
Vision-Language Models Spatial Reasoning Semantic Segmentation

Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

Yuchen Li, Amanmeet Garg, Shalini Chaudhuri et al.

Perceptio通过显式的语义分割和深度token增强了LVLM的空间推理能力,并在多个基准测试中取得了SOTA。

  • 提出了Perceptio,一个感知增强的LVLM
  • 使用VQVAE深度编码和SAM2分割生成空间token
2026-03-19
9/10
Sim2Real Diffusion Model Knowledge Graph

Ontology-Guided Diffusion for Zero-Shot Visual Sim2Real Transfer

Mohamed Youssef, Mayar Elfares, Anna-Maria Meer et al.

OGD利用知识图谱引导扩散模型,实现了零样本Sim2Real图像转换,提升了图像的真实感和可解释性。

  • 提出Ontology-Guided Diffusion (OGD) 框架
  • 使用知识图谱表示图像真实感
2026-03-19
9/10
LVLM AI生成视频检测 多模态学习

GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?

Yueying Zou, Pei Pei Li, Zekun Li et al.

GenVideoLens基准测试揭示LVLMs在AI生成视频检测中光学、物理和时序推理上的不足。

  • 提出了GenVideoLens,一个细粒度的AI生成视频检测基准测试。
  • 构建了包含真实和AI生成视频的数据集,并进行了多维度标注。
2026-03-19
9/10
多模态学习 可解释性 危机事件分类

Cross-Modal Rationale Transfer for Explainable Humanitarian Classification on Social Media

Thi Huyen Nguyen, Koustav Rudra, Wolfgang Nejdl

提出一种跨模态的、可解释的人道主义分类框架,提升了社会媒体危机事件分类的准确性和可解释性。

  • 提出跨模态理由转移方法,从文本理由推导出图像理由。
  • 提出可解释的多模态分类框架,提高分类透明度。
2026-03-19
9/10
CLIP 对抗鲁棒性 零样本学习

Complementary Text-Guided Attention for Zero-Shot Adversarial Robustness

Lu Yu, Haiyang Zhang, Changsheng Xu

提出互补文本引导注意力机制Comp-TGA,提升CLIP模型在零样本对抗环境下的鲁棒性。

  • 发现对抗扰动会导致文本引导注意力发生变化
  • 提出TGA-ZSR框架,利用局部和全局注意力约束增强鲁棒性
2026-03-19
9/10
视频理解 视觉语言模型 Token剪枝

Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Jianrui Zhang, Yue Yang, Rohun Tripathi et al.

提出了一种统一的时空Token评分模块STTS,用于高效的视频VLM的Token剪枝,提升计算效率。

  • 提出STTS模块,统一剪枝ViT和LLM中的视觉tokens
  • 引入辅助损失学习时间维度上的token重要性
2026-03-18
9/10
MLLM 骨骼动作识别 可微渲染

Universal Skeleton Understanding via Differentiable Rendering and MLLMs

Ziyi Wang, Peiming Li, Xinshun Wang et al.

SkeletonLLM通过可微渲染将骨骼数据转换为视觉信息,利用MLLM实现通用骨骼理解。

  • 提出 DrAction,一个可微且格式无关的渲染器
  • 引入 Causal Reasoning Distillation 和 Discriminative Finetuning 的协同训练策略
2026-03-18
9/10
3D Reasoning Vision-Language Model Localization

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Kevin Qu, Haozhe Qi, Mihai Dusmanu et al.

Loc3R-VLM通过全局布局重建和情境建模,增强视觉语言模型在3D空间理解和定位方面的能力。

  • 提出Loc3R-VLM框架,增强2D视觉语言模型的3D理解能力。
  • 引入全局布局重建和情境建模,实现空间监督,将感知和语言锚定在3D环境中。
2026-03-18
7/10
3D generation Tokenization Semantic alignment

LoST: Level of Semantics Tokenization for 3D Shapes

Niladri Shekhar Dutt, Zifan Shi, Paul Guerrero et al.

LoST通过语义显著性进行3D形状的token化,显著提升重建和生成质量。

  • 提出Level-of-Semantics Tokenization (LoST),基于语义显著性进行token化
  • 引入Relational Inter-Distance Alignment (RIDA) 损失函数,用于3D语义对齐
2026-03-18
8/10
扩散模型 多层图像生成 文本到图像

LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Vlad-Constantin Lungu-Stan, Ionut Mironica, Mariana-Iuliana Georgescu

LaDe提出了一种新的潜在扩散框架,用于生成和分解可编辑的多层图形媒体设计。

  • 提出了一种新的潜在扩散框架LaDe
  • 支持文本到图像生成、文本到图层设计生成和图层分解三个任务
2026-03-18
9/10
长视频理解 分层表示 递归语言模型

VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Mohamed Eltahir, Ali Habibullah, Yazan Alshoibi et al.

VideoAtlas通过分层网格结构实现长视频的无损、可导航表示,并结合RLM实现高效视频理解。

  • 提出VideoAtlas:一种用于表示长视频的无损、可导航的分层网格结构。
  • 提出Video-RLM:结合VideoAtlas和递归语言模型的视频理解框架。
2026-03-18
8/10
行车记录仪 交通责任 多模态学习

Interpretable Traffic Responsibility from Dashcam Video via Legal Multi Agent Reasoning

Jingchun Yang, Jinchang Zhang

提出C-TRAIL数据集和一个两阶段框架,用于从行车记录仪视频中推断交通责任。

  • 提出了C-TRAIL多模态法律数据集,包含行车记录仪视频和对应的法律条文
  • 提出了一个两阶段框架,包括交通事件理解模块和法律多智能体框架
2026-03-18
9/10
Deepfake Detection Vision-Language Models Multimodal Learning

Evidence Packing for Cross-Domain Image Deepfake Detection with LVLMs

Yuxin Liu, Fei Wang, Kun Li et al.

提出了一种无需微调LVLM的图像Deepfake检测框架SCEP,通过证据驱动推理提高检测泛化性。

  • 提出Semantic Consistent Evidence Pack (SCEP)框架
  • 使用证据驱动推理代替全图推理
2026-03-18
9/10
多模态学习 有害内容检测 幽默理解

Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor

Ahmed Sharshar, Hosam Elgendy, Saad El Dine Ahmed et al.

论文提出了一个用于检测和理解有害幽默的多模态、多语言基准数据集,并评估了现有模型。

  • 构建了包含文本、图像和视频的多模态、多语言有害幽默数据集
  • 提出了区分安全、显性和隐性有害幽默的标注指南
2026-03-18
9/10
医学图像分割 多模态学习 通用模型

Concept-to-Pixel: Prompt-Free Universal Medical Image Segmentation

Haoyun Chen, Fenghe Tang, Wenxin Ma et al.

C2P提出了一种无需提示的通用医学图像分割框架,利用多模态LLM进行知识蒸馏,实现跨模态的泛化。

  • 提出 Concept-to-Pixel (C2P) 框架,实现无需提示的通用医学图像分割。
  • 利用多模态LLM将医学概念蒸馏为可学习的语义token,并引入几何token来约束结构。
2026-03-18
10/10
MLLM Hallucination Fine-grained Queries

FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Rui Xiao, Sanghwan Kim, Yongqin Xian et al.

针对MLLM在细粒度负查询下产生幻觉的问题,提出了FINER基准和FINER-Tuning方法。

  • 提出了FINER基准,用于评估MLLM在细粒度负查询下的幻觉问题
  • 分析了MLLM在多种场景下的幻觉现象
2026-03-18
9/10
Cross-Domain Few-Shot Learning CLIP Vision-Language Alignment

Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment

Yaze Zhao, Yixiong Zou, Yuhua Li et al.

针对CDFSL中CLIP模型局部对齐问题,提出循环一致性和语义锚定机制,提升局部视觉-语言对齐和可解释性。

  • 发现CDFSL中CLIP模型存在局部不对齐问题
  • 提出循环一致性学习,利用自监督信息进行局部视觉-语言对齐
2026-03-18
8/10
3D Perception Scene Graph Gaussian Splatting

ReLaGS: Relational Language Gaussian Splatting

Yaxu Xie, Abdalla Arafa, Alireza Javanmardi et al.

ReLaGS构建了分层语言蒸馏高斯场景和3D语义场景图,用于开放词汇3D感知和推理。

  • 提出了一种无需场景特定训练的3D场景构建框架
  • 引入了高斯裁剪机制和多视角语言对齐策略
2026-03-18
8/10
MRI分割 跨模态学习 参数高效学习

LoGSAM: Parameter-Efficient Cross-Modal Grounding for MRI Segmentation

Mohammad Robaitul Islam Bhuiyan, Sheethal Bhat, Melika Qahqaie et al.

LoGSAM利用语音转录和少量参数更新,实现MRI图像肿瘤的自动分割。

  • 提出LoGSAM框架,实现语音驱动的肿瘤分割
  • 参数高效的跨模态Grounding方法
2026-03-18
8/10
Vision-Language-Action Speculative Decoding Robot Control

HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness

Zihao Zheng, Zhihao Mao, Sicheng Tian et al.

HeiSD框架通过混合推测解码加速具身视觉-语言-动作模型的推理速度,并保持任务成功率。

  • 分析了drafter-based和retrieval-based SD在VLA模型中的优缺点
  • 提出了HeiSD框架,包含基于检索的SD优化方法和基于运动学的融合度量
2026-03-18
9/10
遥感 多模态 开放词汇分割

MM-OVSeg:Multimodal Optical-SAR Fusion for Open-Vocabulary Segmentation in Remote Sensing

Yimin Wei, Aoran Xiao, Hongruixuan Chen et al.

提出MM-OVSeg,一个基于光图和SAR图像融合的遥感开放词汇分割框架,解决恶劣天气下的分割问题。

  • 提出了一种跨模态统一流程,用于多传感器表征对齐。
  • 设计了一个双编码器融合模块,集成了多视觉基础模型的分层特征。
2026-03-18
9/10
多模态学习 医学图像 疾病识别

EI: Early Intervention for Multimodal Imaging based Disease Recognition

Qijie Wei, Hailan Lin, Xirong Li

提出一种用于多模态医学图像疾病识别的早期干预框架,解决信息融合和数据稀缺问题。

  • 提出早期干预(EI)框架,利用参考模态指导目标模态嵌入
  • 提出低秩混合适配(MoR)方法,高效微调视觉基础模型
2026-03-18
9/10
多模态学习 安全性评估 统一模型

UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models

Segyu Lee, Boryeong Cho, Hojung Jung et al.

UniSAFE是一个评估统一多模态模型安全性的综合基准,揭示了现有模型在多模态情境下的安全漏洞。

  • 提出了首个针对统一多模态模型的系统级安全基准UniSAFE
  • 构建了包含6802个实例,覆盖7种模态组合的测试数据集
2026-03-18
7/10
机器人操作 数据生成 3D资产

ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K

Kaixuan Wang, Tianxing Chen, Jiawei Liu et al.

ManiTwin提出了一种自动化流程,高效生成大规模、高质量的机器人操作数据。

  • 构建了包含10万个高质量3D资产的ManiTwin-100K数据集
  • 提出一种高效的数据生成流程,可将单张图像转换为仿真可用的3D资产
2026-03-17
9/10
视觉上下文学习 反事实推理 图像检索

Retrieving Counterfactuals Improves Visual In-Context Learning

Guangzhi Xiong, Sanchit Sinha, Zhenghao He et al.

CIRCLES通过检索反事实样例,提升视觉上下文学习中视觉语言模型(VLMs)的推理能力。

  • 提出CIRCLES框架,通过属性引导的组合图像检索构建反事实样例集
  • 通过反事实样例提升VLMs对因果关系的推理能力
2026-03-17
9/10
多模态融合 光流估计 场景流估计

$x^2$-Fusion: Cross-Modality and Cross-Dimension Flow Estimation in Event Edge Space

Ruishan Guo, Ciyu Ruan, Haoyang Wang et al.

提出了$x^2$-Fusion,通过事件边缘空间统一多模态特征,提升光流和场景流估计精度。

  • 提出了事件边缘空间,作为多模态特征统一的潜在空间
  • 提出了可靠性感知自适应融合,提升在退化场景下的稳定性
2026-03-17
9/10
LVLM Hallucination Mitigation Visual Grounding

Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation

Jiawei Mao, Hardy Chen, Haoqin Tu et al.

Kestrel是一个免训练的LVLM幻觉缓解框架,通过视觉 grounding 和证据验证的自精炼机制减少幻觉。

  • 提出 Kestrel 框架,结合视觉 grounding 和证据验证自精炼
  • 利用 LVLM 评估证据的真伪,降低过度修正风险
2026-03-17
9/10
Compositional Zero-Shot Learning Flow Matching Vision-Language Model

FlowComposer: Composable Flows for Compositional Zero-Shot Learning

Zhenqi He, Lin Li, Long Chen

FlowComposer提出了一种基于流匹配的CZSL框架,显式融合属性和对象特征,提升模型泛化能力。

  • 提出了FlowComposer框架,显式融合属性和对象特征。
  • 设计了泄漏引导的增强方案,利用残余特征。
2026-03-17
9/10
MLLM 人脸识别 可解释性

MLLM-based Textual Explanations for Face Comparison

Redwan Sony, Anil K Jain, Ross Arun

分析了MLLM在人脸识别解释上的可靠性,发现其解释存在幻觉问题,并提出了评估框架。

  • 系统分析MLLM生成的人脸识别解释的可靠性
  • 揭示了MLLM解释中存在的幻觉问题
2026-03-17
5/10
姿态估计 动物姿态估计 频率空间融合

FSMC-Pose: Frequency and Spatial Fusion with Multiscale Self-calibration for Cattle Mounting Pose Estimation

Fangjing Li, Zhihai Wang, Xinxin Ding et al.

FSMC-Pose通过频率空间融合和多尺度自校准,提升复杂环境下牛只骑跨姿态估计的准确性。

  • 提出轻量级的频率-空间融合网络CattleMountNet,用于分离牛只和背景
  • 设计多尺度自校准头SC2Head,减少动物重叠造成的结构错位
2026-03-17
9/10
VLM 时间敏感知识 多模态学习

V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models

Seyed Mahed Mousavi, Christian Moiola, Massimo Rizzoli et al.

V-DyKnow基准测试评估VLMs在时间敏感知识上的表现,揭示了模型在事实更新和跨模态一致性方面的局限性。

  • 提出了V-DyKnow基准测试,用于评估VLMs的时间敏感知识
  • 分析了VLMs在跨模态和输入扰动下的可靠性
2026-03-17
9/10
LLM Multimodal Learning Intelligent Transportation

ExpressMind: A Multimodal Pretrained Large Language Model for Expressway Operation

Zihe Wang, Yihuan Wang, Haiyang Yu. Zhiyong Cui et al.

ExpressMind是一个专为高速公路运营设计的预训练多模态大语言模型,提升智能交通认知能力。

  • 构建了行业首个全栈高速公路数据集
  • 提出了基于自监督学习和无监督学习的双层LLM预训练范式
2026-03-17
7/10
Speech Emotion Recognition Speech Synthesis Generalization

On the Emotion Understanding of Synthesized Speech

Yuan Ge, Haishu Zhao, Aokai Hao et al.

现有语音情感识别模型难以泛化到合成语音,因为合成语音与人类语音存在表征不匹配,且SLM倾向于从文本语义推断情感。

  • 揭示了语音情感识别模型在合成语音上的泛化性问题
  • 指出现有SER模型利用非鲁棒的捷径而非捕捉根本特征
2026-03-17
9/10
Multimodal Emotion Recognition Deductive Reasoning Reinforcement Learning

Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition

Yu Liu, Lei Zhang, Haoxun Li et al.

HyDRA通过混合证据演绎推理解决开放词汇多模态情感识别中的歧义性问题,并提供可解释的证据。

  • 提出HyDRA,一种混合证据演绎推理架构
  • 采用强化学习进行分层奖励塑造,优化推理轨迹
2026-03-17
9/10
视觉语言模型 道德推理 多模态学习

Visual Distraction Undermines Moral Reasoning in Vision-Language Models

Xinyi Yang, Chenheng Xu, Weijun Hong et al.

视觉输入会干扰视觉语言模型的道德推理,绕过基于文本的安全机制,造成安全隐患。

  • 揭示了视觉输入对视觉语言模型道德推理的负面影响
  • 提出了多模态道德困境模拟(MDS)基准测试
2026-03-17
9/10
跨模态学习 自监督学习 浮游生物识别

Cross-modal learning for plankton recognition

Joona Kareinen, Veikka Immonen, Tuomas Eerola et al.

提出一种基于自监督跨模态学习的浮游生物识别方法,有效利用图像和光学测量数据,减少标注需求。

  • 提出基于对比学习的跨模态浮游生物识别方法
  • 利用光学测量数据辅助图像识别,减少人工标注
2026-03-17
9/10
Arabic NLP Generative AI Language Model

Fanar 2.0: Arabic Generative AI Stack

FANAR TEAM, Ummar Abbas, Mohammad Shahmeer Ahmad et al.

Fanar 2.0是卡塔尔的以阿拉伯语为中心的生成式AI平台,在资源有限的情况下取得了显著的性能提升。

  • 建立了以阿拉伯语为中心的完整生成式AI平台
  • 在资源约束下,通过数据质量控制、持续预训练和模型合并实现了性能提升
2026-03-17
9/10
Medical VQA Multimodal Learning Visual Cues

InViC: Intent-aware Visual Cues for Medical Visual Question Answering

Zhisong Wang, Ziyang Chen, Zanting Ye et al.

InViC通过意图感知视觉线索增强医学VQA中MLLM对图像的关注,提高临床可靠性。

  • 提出了InViC框架,显式增强MLLM对视觉证据的利用
  • 设计了Cue Tokens Extraction (CTE) 模块,提取关键视觉线索
2026-03-17
9/10
multimodal benchmarking visual reasoning

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

Zhengbo Zhang, Jinbo Su, Zhaowen Zhou et al.

提出了一个名为VisBrowse-Bench的新型视觉原生搜索基准,用于评估多模态浏览代理的视觉推理能力。

  • 提出了VisBrowse-Bench基准数据集,包含169个VQA实例
  • 提出了一个代理工作流,用于驱动浏览代理主动收集和推理视觉信息
2026-03-17
9/10
多模态学习 内容审核 儿童安全

KidsNanny: A Two-Stage Multimodal Content Moderation Pipeline Integrating Visual Classification, Object Detection, OCR, and Contextual Reasoning for Child Safety

Viraj Panchal, Tanmay Talsaniya, Parag Patel et al.

提出KidsNanny多模态内容审核框架,结合视觉和文本分析提高儿童安全内容检测效率。

  • 提出了一个两阶段多模态内容审核架构KidsNanny
  • 结合视觉分类、目标检测、OCR和上下文推理
2026-03-17
9/10
360° Image Multimodal Large Language Models Visual Question Answering

360° Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method

Huyen T. T. Tran, Van-Quang Nguyen, Farros Alferro et al.

针对MLLM在360°图像理解的不足,提出了360Bench基准测试和无训练的Free360框架。

  • 提出了360Bench,一个高分辨率360°图像VQA基准。
  • 系统评估了MLLM和增强方法在360°图像理解方面的能力。
2026-03-17
9/10
机器人操作 动态环境 视觉语言动作模型

Towards Generalizable Robotic Manipulation in Dynamic Environments

Heng Fang, Shangru Li, Shuhan Wang et al.

论文提出了DOMINO数据集和PUMA模型,用于提升VLA模型在动态环境下的机器人操作能力。

  • 构建了大规模动态操作数据集DOMINO
  • 提出了动态感知VLA架构PUMA
2026-03-16
9/10
医疗 越南语 胸部X光

ViX-Ray: A Vietnamese Chest X-Ray Dataset for Vision-Language Models

Duy Vu Minh Nguyen, Chinh Thanh Truong, Phuc Hoang Tran et al.

该论文发布了包含5400张越南胸部X光片的ViX-Ray数据集,用于评估和提升VLM在越南临床领域的表现。

  • 创建了ViX-Ray越南胸部X光片数据集
  • 分析了数据集中的语言模式
2026-03-16
7/10
目标检测 自动驾驶 知识保留

Detection of Autonomous Shuttles in Urban Traffic Images Using Adaptive Residual Context

Mohamed Aziz Younes, Nicolas Saunier, Guillaume-Alexandre Bilodeau

提出Adaptive Residual Context(ARC)架构,用于在城市交通图像中高效检测自动驾驶车辆。

  • 提出ARC架构,解决新目标检测的灾难性遗忘问题
  • 通过Context-Guided Bridge连接上下文分支和任务分支,保留预训练表示
2026-03-16
7/10
数据集多样性 图像分类 chest X-ray

Dataset Diversity Metrics and Impact on Classification Models

Théo Sourget, Niclas Claßen, Jack Junchi Xu et al.

研究数据集多样性指标与模型性能的相关性,发现部分指标与模型表现相关。

  • 评估多种数据集多样性指标
  • 分析指标与下游任务性能的相关性
2026-03-16
7/10
天气预报 多智能体 跨模态学习

AGCD: Agent-Guided Cross-Modal Decoding for Weather Forecasting

Jing Wu, Yang Liu, Lin Zhang et al.

AGCD提出一种利用多智能体和跨模态解码进行天气预报的框架,提升预测精度和物理一致性。

  • 提出Agent-Guided Cross-modal Decoding (AGCD) 框架
  • 利用MLLMs生成状态条件物理先验知识
2026-03-16
9/10
视觉语言模型 安全 越狱攻击

Directional Embedding Smoothing for Robust Vision Language Models

Ye Wang, Jing Liu, Toshiaki Koike-Akino

该论文扩展了RESTA防御,通过方向性嵌入平滑,增强了视觉语言模型抵抗越狱攻击的鲁棒性。

  • 将RESTA防御扩展到VLMs
  • 提出方向性嵌入噪声,提升防御效果
2026-03-16
9/10
幻觉检测 图像描述 基准测试

HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning

Kuniaki Saito, Risa Shinoda, Shohei Tanaka et al.

提出了HalDec-Bench,一个评估图像描述幻觉检测器性能的基准,包含多样的模型和幻觉类型。

  • 构建了HalDec-Bench基准,用于评估幻觉检测器。
  • 提供了不同幻觉类型的细粒度标注。
2026-03-16
9/10
文档解析 并行解码 视觉语言模型

Efficient Document Parsing via Parallel Token Prediction

Lei Li, Ze Zhao, Meng Li et al.

论文提出了一种并行Token预测方法PTP,加速VLM文档解析,提升效率和泛化能力。

  • 提出并行Token预测方法PTP,加速文档解析
  • 设计数据生成流程,提供大规模高质量训练数据
2026-03-16
9/10
知识蒸馏 视觉语言模型 细粒度图像分类

DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer

Zhengxu He, Jun Li, Zhijian Wu

提出DAIT,利用中间教师网络自适应地将VLM知识迁移到轻量级分类器,提升细粒度图像分类性能。

  • 提出DAIT框架,解决VLM到轻量级模型知识蒸馏的对齐问题
  • 引入可训练的中间教师网络,提取任务相关的判别性视觉线索
2026-03-16
9/10
多模态学习 信息抽取 基准测试

VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents

Udi Barzelay, Ophir Azulai, Inbar Shapira et al.

VAREX是一个用于评估多模态模型从政府表格中抽取结构化数据的基准。

  • 提出了VAREX基准,用于评估多模态模型结构化数据抽取能力
  • 使用了Reverse Annotation pipeline生成确定性ground truth
2026-03-16
9/10
多模态学习 知识更新 评估基准

MMKU-Bench: A Multimodal Update Benchmark for Diverse Visual Knowledge

Baochen Fu, Yuntao Du, Cheng Chang et al.

提出MMKU-Bench,一个用于多模态知识更新的综合评估基准,包含更新知识和未知知识两种场景。

  • 构建了一个多模态知识更新的综合评估基准MMKU-Bench
  • 涵盖更新知识和未知知识两种场景,促进不同知识类型学习的比较分析
2026-03-16
9/10
VideoQA MLLM Visual Reasoning

Clue Matters: Leveraging Latent Visual Clues to Empower Video Reasoning

Kaixin zhang, Xiaohe Li, Jiahao Li et al.

ClueNet通过挖掘视觉线索增强视频推理能力,提升VideoQA性能,并缓解幻觉问题。

  • 提出ClueNet框架,利用视觉线索进行视频推理
  • 解耦监督学习,对线索提取和链式推理进行对齐
2026-03-16
8/10
视频帧插值 图像编辑模型 少量样本学习

Edit2Interp: Adapting Image Foundation Models from Spatial Editing to Video Frame Interpolation with Few-Shot Learning

Nasrin Rahimi, Mısra Yavuz, Burak Can Biner et al.

利用图像编辑模型的空间先验知识,通过少量样本微调实现视频帧插值。

  • 提出了一种利用图像编辑模型进行视频帧插值的方法
  • 证明了图像编辑模型的空间理解能力可以转化为时间推理能力
2026-03-16
10/10
多模态学习 推测解码 视觉语言模型

MMSpec: Benchmarking Speculative Decoding for Vision-Language Models

Hui Shen, Xin Wang, Ping Zhang et al.

论文提出了MMSpec基准测试,评估视觉语言模型中推测解码的加速效果,并提出了ViSkip方法。

  • 构建了MMSpec基准测试,包含600个多模态样本
  • 发现了文本LLM推测解码方法在多模态场景下的退化现象
2026-03-16
9/10
图像编辑 多模态学习 推理

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Mingxin Liu, Ziqian Fan, Zhaokai Wang et al.

GRADE基准测试学科知识驱动的图像编辑推理能力,揭示现有模型在该领域的不足。

  • 提出了GRADE基准数据集,包含10个学科领域的520个样本
  • 提出了多维度评估协议,评估学科推理、视觉一致性和逻辑可读性
2026-03-12
9/10
Multimodal Learning Diffusion Models Chain-of-Thought

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Xuanlang Dai, Yujie Zhou, Long Xing et al.

EndoCoT通过迭代细化潜在思想状态,并将其与扩散模型的去噪过程桥接,增强了MLLM的推理能力。

  • 提出了EndoCoT框架,增强了MLLM在扩散模型中的推理能力
  • 引入迭代思想引导模块,激活MLLM的推理潜力
2026-03-12
9/10
多模态学习 文档推理 科学QA

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Ziyu Chen, Yilun Zhao, Chengye Wang et al.

SciMDR提出一种合成和重构框架,构建大规模科学多模态文档推理数据集,提升模型在科学QA任务中的表现。

  • 提出 synthesize-and-reground 框架
  • 构建大规模科学多模态文档推理数据集 SciMDR
2026-03-12
8/10
文本渲染 Text-to-Image Agentic Workflow

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

Zexuan Yan, Jiarui Jin, Yue Ma et al.

GlyphBanana通过agentic workflow和glyph模板注入,提升文本渲染的精确度,尤其在复杂字符和公式渲染方面。

  • 提出了 GlyphBanana,一个用于精确文本渲染的agentic workflow
  • 设计了专门用于复杂字符和公式渲染的 benchmark
2026-03-12
9/10
MLLM 置信度校准 强化学习

Linking Perception, Confidence and Accuracy in MLLMs

Yuetian Du, Yucheng Wang, Rongyu Zhang et al.

论文研究MLLM的置信度校准问题,提出CDRL和CA-TTS框架,提升模型性能并实现置信度感知。

  • 揭示MLLM的置信度误校准问题
  • 提出Confidence-Driven Reinforcement Learning (CDRL)方法
2026-03-12
9/10
3D generation Human-Object Interaction Multimodal learning

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Agniv Sharma, Xianghui Xie, Tom Fischer et al.

Hoi3DGen通过高质量交互数据和文本到3D流程,显著提升了3D人机交互生成的质量和保真度。

  • 构建了高质量的3D人机交互数据集
  • 提出了一个完整的文本到3D的生成框架
2026-03-12
9/10
Multimodal Learning Vision-Language Model Medical Imaging

Paper Title: LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments

Zhaoyang Jiang, Zhizhong Fu, David McAllister et al.

LoV3D利用3D视觉语言模型,结合区域体积评估进行纵向脑MRI分析,辅助阿尔茨海默病诊断。

  • 提出了LoV3D:一个3D视觉语言模型管线,用于分析纵向脑MRI。
  • 引入了临床加权的验证器,用于优化诊断输出,无需人工标注。
2026-03-12
9/10
持续学习 视觉语言模型 语义几何

Continual Learning with Vision-Language Models via Semantic-Geometry Preservation

Chiyuan He, Zihuan Qiu, Fanman Meng et al.

提出SeGP-CL方法,通过语义几何保持解决VLM持续学习中的灾难性遗忘问题,提升稳定性和前向迁移能力。

  • 提出语义几何保持的持续学习框架SeGP-CL
  • 使用对抗锚点探测易漂移区域并进行跨模态几何蒸馏
2026-03-12
8/10
传感器 自监督学习 语言模型

Learning Transferable Sensor Models via Language-Informed Pretraining

Yuliang Chen, Arvind Pillai, Yu Yvonne Wu et al.

SLIP通过语言信息预训练传感器模型,提升跨领域零样本迁移能力,实现语义理解和生成推理。

  • 提出SLIP框架,用于学习语言对齐的传感器表示。
  • 结合对比对齐和传感器条件描述,提升判别理解和生成推理能力。
2026-03-12
9/10
结构化报告 放射学 多模态学习

Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting

Chantal Pellegrini, Adrian Delchev, Ege Özsoy et al.

ProtoSR通过融合自由文本知识,提升了结构化放射报告生成模型的细粒度判别能力,在Rad-ReStruct数据集上取得领先成果。

  • 提出 ProtoSR 模型,融合自由文本知识提升结构化报告精度
  • 构建了基于 MIMIC-CXR 的多模态知识库,包含图像和文本信息
2026-03-12
9/10
视觉文本压缩 多模态学习 评估框架

ZeroSense:How Vision matters in Long Context Compression

Yonghan Gao, Zehong Chen, Lijian Xu et al.

论文提出一种解耦评估框架和ZeroSense基准,用于更准确评估视觉文本压缩的质量。

  • 提出解耦评估框架,消除下游模型语义推断的影响
  • 构建ZeroSense基准,确保测试样本低语义相关性
2026-03-12
6/10
Vision Transformer 空气质量预测 跨分辨率注意力

Cross-Resolution Attention Network for High-Resolution PM2.5 Prediction

Ammar Kheder, Helmi Toropainen, Wenqing Peng et al.

提出CRAN-PM模型,利用跨分辨率注意力高效预测高分辨率PM2.5浓度。

  • 提出基于Vision Transformer的CRAN-PM模型
  • 引入跨分辨率注意力融合不同分辨率数据
2026-03-12
8/10
后门检测 视觉编码器 零样本学习

BackdoorIDS: Zero-shot Backdoor Detection for Pretrained Vision Encoder

Siquan Huang, Yijiang Li, Ningzhi Gao et al.

BackdoorIDS是一种零样本的视觉编码器后门检测方法,基于注意力的劫持和恢复现象。

  • 提出了一种零样本后门检测方法BackdoorIDS
  • 利用输入掩码过程中注意力变化检测后门
2026-03-12
9/10
text-to-image color fidelity image generation

Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

Zhengyao Fang, Zexi Jia, Yijia Zhong et al.

该论文针对文本到图像生成中的颜色逼真度问题,提出了数据集、评估指标和优化方法。

  • 提出了用于评估颜色逼真度的Color Fidelity Dataset (CFD)
  • 提出了用于客观评估颜色逼真度的Color Fidelity Metric (CFM)
2026-03-11
9/10
OCR 文档理解 多模态学习

GLM-OCR Technical Report

Shuaiqi Duan, Yadong Xue, Weihan Wang et al.

GLM-OCR提出了一种高效的0.9B参数多模态模型,用于文档理解,具有高性能和高效率。

  • 提出Multi-Token Prediction机制加速解码
  • 采用PP-DocLayout-V3进行布局分析
2026-03-11
9/10
MLLM STEM 视觉感知

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Tongkun Guan, Zhibo Yang, Jianqiang Wan et al.

该论文通过代码作为感知媒介,提升MLLM在STEM领域的可视化感知能力。

  • 揭示MLLM在STEM领域视觉推理上的瓶颈是感知能力
  • 构建大规模Image-Caption-Code数据集ICC-1M
2026-03-11
9/10
视频理解 鲁棒性 多模态

Are Video Reasoning Models Ready to Go Outside?

Yangfan He, Changgyu Boo, Jaehong Yoon

提出ROVA框架,增强视频理解模型在真实扰动下的鲁棒性,并构建了PVRBench基准测试。

  • 提出ROVA训练框架,提升模型在扰动环境下的鲁棒性
  • 引入难度感知在线训练策略,自适应选择信息量大的样本
2026-03-11
9/10
AIRT 缺陷检测 视觉-语言模型

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato et al.

提出一种基于视觉-语言模型的AIRT缺陷认知分析框架,无需训练即可检测碳纤维复合材料的内部缺陷。

  • 提出了一种基于视觉-语言模型的AIRT缺陷认知分析框架
  • 设计了AIRT-VLM适配器,增强缺陷可见性并对齐热成像域与VLM表示
2026-03-11
9/10
图像机器翻译 跨模态学习 benchmark

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Jiahao Lyu, Pei Fu, Zhenhang Li et al.

提出了IMTBench,一个多场景跨模态图像机器翻译评测基准,用于评估端到端图像翻译系统的性能。

  • 构建了包含2500个样本的多场景图像翻译基准数据集IMTBench
  • 提出了多方面的评估指标,包括翻译质量、背景保持、图像质量和跨模态对齐分数
2026-03-11
9/10
VLM 空间智能 运动

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Yuchen Yang, Yuqing Shao, Duxiu Huang et al.

提出CourtSI数据集和基准,用于评估VLMs在运动场景中的空间智能,揭示模型差距。

  • 构建了首个大规模运动场景空间智能数据集CourtSI
  • 提出了高质量评估基准CourtSI-Bench,并进行严格的人工验证
2026-03-10
9/10
VLM 点云定位 多模态学习

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

Shuhao Kang, Youqi Liao, Peijie Wang et al.

VLM-Loc利用视觉语言模型进行点云地图中的文本定位,提升复杂环境下的定位精度。

  • 提出VLM-Loc框架,利用VLM进行空间推理
  • 将点云转换为BEV图像和场景图,编码几何和语义信息
2026-03-10
9/10
视觉语言模型 个性化 注意力机制

Ego: Embedding-Guided Personalization of Vision-Language Models

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas et al.

提出一种高效的视觉语言模型个性化方法Ego,通过内部注意力机制提取视觉token,实现概念记忆和描述。

  • 提出了一种基于视觉token的个性化方法
  • 无需额外训练,提升效率和泛化性
2026-03-10
9/10
MLLM Egocentric Perception Long-Horizon Reasoning

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

Chengjun Yu, Xuhan Zhu, Chaoqun Du et al.

论文提出了EXPLORE-Bench基准,用于评估MLLM在长时程自我中心场景预测中的推理能力。

  • 提出了EXPLORE-Bench基准数据集,包含长动作序列和结构化场景标注。
  • 系统评估了现有MLLM在长时程自我中心推理任务上的性能。
2026-03-10
9/10
医学图像融合 超分辨率 多模态学习

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil et al.

提出TriFusion-SR,一种用于联合三模态医学图像融合和超分辨率的框架。

  • 提出基于小波的条件扩散框架,用于联合三模态融合和超分辨率。
  • 引入Rectified Wavelet Features (RWF) 校正潜在系数。
2026-03-10
9/10
VideoQA PEFT Temporal Modeling

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Luca Carlini, Chiara Lena, Cesare Hassan et al.

TemporalDoRA通过时序建模改进了手术视频问答的鲁棒性,并提出了REAL-Colon-VQA数据集。

  • 提出TemporalDoRA,一种时序感知的PEFT方法
  • 提出REAL-Colon-VQA数据集,用于评估语言变异敏感性
2026-03-10
9/10
multimodal parsing knowledge representation reasoning

Logics-Parsing-Omni Technical Report

Xin An, Jingyi Cai, Xiangyang Chen et al.

Omni Parsing框架统一多模态数据解析,实现从感知到认知的递进式解析,并构建了相关数据集和模型。

  • 提出Omni Parsing框架,统一多模态解析流程
  • 构建了包含文档、图像和音视频的统一分类体系
2026-03-10
9/10
合成数据 遥感 视觉-语言模型

Grounding Synthetic Data Generation With Vision and Language Models

Ümit Mert Çağlar, Alptekin Temizel

提出基于视觉-语言模型的合成数据生成和评估框架,用于遥感图像增强,并构建了ARAS400k数据集。

  • 提出基于视觉-语言模型的合成数据生成和评估框架
  • 构建大规模遥感增强数据集ARAS400k
2026-03-10
9/10
音频语言模型 推理 自复述

ALARM: Audio-Language Alignment for Reasoning Models

Petr Grinberg, Hassan Shahmohammadi

ALARM模型通过自复述和多音频编码器融合,提升了音频推理能力,并在多项基准测试中取得领先。

  • 提出了自复述方法以适应推理LLM
  • 融合压缩多个音频编码器以增强表示
2026-03-10
9/10
多模态学习 强化学习 视觉语言模型

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Ming Nie, Chunwei Wang, Jianhua Han et al.

提出了一种基于强化学习的后训练策略,提升统一视觉语言模型的多模态交错生成能力。

  • 提出了一种基于强化学习的后训练策略,无需大规模多模态交错数据集。
  • 提出了统一的策略优化框架,扩展了Group Relative Policy Optimization (GRPO)到多模态设置。
2026-03-10
9/10
prompt learning vision-language model few-shot learning

Evolving Prompt Adaptation for Vision-Language Models

Enming Zhang, Jiayang Li, Yanru Wu et al.

EvoPrompt通过控制prompt的进化路径,实现VLMs在小样本学习中的稳定和知识保留。

  • 提出了EvoPrompt框架,用于稳定且知识保留的VLM微调。
  • 引入了Modality-Shared Prompt Projector (MPP)生成分层prompt。
2026-03-10
9/10
Multimodal Object-Entity Relation Extraction Large Vision-Language Model Reinforcement Learning

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Xiang Yuan, Xu Chu, Xinrong Chen et al.

MORE-R1通过强化学习引导LVLM进行逐步推理,显著提升了多模态对象-实体关系抽取性能。

  • 提出了一种新的模型MORE-R1,用于多模态对象-实体关系抽取。
  • 利用强化学习进行逐步推理,增强了LVLM处理复杂场景的能力。
2026-03-10
8/10
手术室场景理解 拓扑表示 多模态学习

TopoOR: A Unified Topological Scene Representation for the Operating Room

Tony Danjun Wang, Ka Young Kim, Tolga Birdal et al.

TopoOR提出了一种新的手术室场景拓扑表示方法,提升手术过程理解和预测能力。

  • 提出了TopoOR,一种新的手术室场景拓扑表示方法
  • 设计了高阶注意力机制,保留流形结构和模态特征
2026-03-10
8/10
autonomous driving vision-language-action model knowledge distillation

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei et al.

EvoDriveVLA通过协同感知-规划蒸馏,提升自动驾驶视觉-语言-动作模型的性能和稳定性。

  • 提出了一种协同感知-规划蒸馏框架EvoDriveVLA
  • 利用自锚定视觉蒸馏,通过轨迹引导的关键区域感知来正则化学生网络表示
2026-03-10
7/10
运动预测 开放世界 增量学习

Open-World Motion Forecasting

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran et al.

提出开放世界运动预测框架,解决现实场景中目标类别动态变化的问题。

  • 提出了开放世界运动预测问题设定。
  • 构建了端到端的类增量运动预测框架。
2026-03-10
9/10
医学图像分割 缺失模态 一致性学习

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Xinyu Tong, Meihua Zhou, Bowu Fan et al.

CLoE通过专家一致性学习解决医学图像分割中模态缺失问题,提升分割精度。

  • 提出CLoE框架,通过一致性学习提高缺失模态分割的鲁棒性。
  • 引入模态专家一致性和区域专家一致性,分别关注全局和局部一致性。
2026-03-10
8/10
视频检索 视觉语言模型 状态转换

CAST: Modeling Visual State Transitions for Consistent Video Retrieval

Yanqing Liu, Yingcheng Liu, Fanghong Dong et al.

CAST模型通过预测视觉状态转换,提升了视频检索的一致性和时间连贯性。

  • 提出了Consistent Video Retrieval (CVR)任务
  • 设计了CAST模型,用于建模视觉状态转换
2026-03-09
7/10
头部Avatar 表情泛化 检索增强

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Matan Levy, Gavriel Habib, Issar Tzachor et al.

提出了一种检索增强方法RAF,提升无模板头部avatar的表情泛化能力。

  • 提出了检索增强方法RAF,用于训练无模板头部avatar
  • 通过检索邻近表情特征,扩大了表情覆盖范围
2026-03-09
8/10
Interpretability Black-box model Large Language Models

UNBOX: Unveiling Black-box visual models with Natural-language

Simone Carnemolla, Chiara Russo, Simone Palazzo et al.

UNBOX利用LLM和扩散模型,在纯语义搜索下揭示黑盒视觉模型的内在逻辑和潜在偏差。

  • 提出了UNBOX框架,用于在完全无数据、无梯度和无反向传播的约束下进行类别的模型剖析。
  • 利用大型语言模型和文本到图像的扩散模型将激活最大化转化为纯粹的语义搜索。
2026-03-09
9/10
Deepfake Detection Audio-Visual Learning Cross-Attention

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Youngseo Kim, Kwan Yun, Seokhyeon Hong et al.

提出X-AVDT,利用生成器内部音视频一致性线索,提高深度伪造检测的鲁棒性和泛化性。

  • 提出X-AVDT检测器,利用音视频交叉注意力特征进行深度伪造检测
  • 提出MMDF数据集,包含多种生成模型的深度伪造数据
2026-03-09
8/10
目标导航 机器人 视觉语言

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza et al.

提出一种无需LLM的实时目标导航方法R2F,显著提升导航效率。

  • 重新利用ray frontiers进行目标导航
  • 提出R2F-VLN,扩展到自由形式语言指令
2026-03-09
9/10
视觉语言模型 时空推理 实体跟踪

Can Vision-Language Models Solve the Shell Game?

Tiedong Liu, Wee Sun Lee

该论文揭示了视觉语言模型在时空推理上的局限性,并提出了基于时空轨迹生成的解决方案。

  • 提出了VET-Bench,一个用于评估VLMs时空推理能力的合成数据集。
  • 证明了固定深度Transformer-based VLMs在跟踪无法区分的对象时存在理论上的局限性。
2026-03-09
9/10
视觉语言模型 提示学习 最优传输

Local-Global Prompt Learning via Sparse Optimal Transport

Deniz Kizaroğlu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu et al.

SOT-GLP通过稀疏最优传输实现局部-全局提示学习,提升视觉语言模型在少样本分类和OOD检测上的性能。

  • 提出了SOT-GLP方法,结合全局和局部提示学习
  • 利用V-V注意力构建类别条件稀疏patch集合
2026-03-09
8/10
Text-to-Image Medical Imaging Retrieval-Augmented Generation

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Daniele Molino, Camillo Maria Caruso, Paolo Soda et al.

提出一种检索增强的Text-to-CT生成方法,利用检索到的解剖结构信息指导生成,提高图像质量和临床一致性。

  • 提出了检索增强的Text-to-CT生成方法
  • 利用3D视觉-语言编码器检索语义相关的临床案例
2026-03-09
9/10
零样本学习 动作识别 视觉语言模型

Novel Semantic Prompting for Zero-Shot Action Recognition

Salman Iqbal, Waheed Rehman

论文提出SP-CLIP框架,通过语义提示增强视觉语言模型,提升零样本动作识别性能。

  • 提出基于结构化语义提示的零样本动作识别方法
  • 设计多层次抽象的语义提示,包含意图、运动、物体交互
2026-03-09
7/10
视觉触觉 sim-to-real 3D重建

FlowTouch: View-Invariant Visuo-Tactile Prediction

Seongjin Bien, Carlo Kneissl, Tobias Jülg et al.

FlowTouch提出了一种视角不变的视觉-触觉预测模型,利用局部3D网格实现跨域泛化。

  • 提出了FlowTouch模型,用于视角不变的视觉-触觉预测
  • 利用局部3D网格编码信息,提高模型的泛化能力
2026-03-09
9/10
多模态学习 协同感知 模态融合

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Jiageng Wen, Shengjie Zhao, Bing Li et al.

SiMO提出一种单模态可操作的多模态协同感知框架,解决模态失效问题,提升鲁棒性。

  • 提出Length-Adaptive Multi-Modal Fusion (LAMMA) 适应模态缺失
  • 提出Pretrain-Align-Fuse-RD训练策略,解决模态竞争问题
2026-03-09
8/10
情感识别 音频语言模型 歧义情感

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Xiaofeng Yu, Jiaheng Dong, Jean Honorio et al.

提出一种面向LALM的歧义情感识别方法,通过分布推理和链式思考提升模型对复杂情感的理解。

  • 提出歧义感知目标函数,对齐预测与人类感知分布
  • 提出结构化的歧义感知链式思考监督,引导情感线索推理
2026-03-09
9/10
自动驾驶 多模态学习 混合专家模型

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

Zihan You, Hongwei Liu, Chenxu Dang et al.

提出了场景自适应的混合专家VLA模型SAMoE-VLA,用于提升自动驾驶决策的稳定性和安全性。

  • 提出了场景自适应的混合专家机制,基于BEV特征进行专家选择
  • 引入了条件跨模态因果注意力机制,整合世界状态、语言意图和行动历史
2026-03-09
9/10
多模态学习 情感识别 Transformer

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Jun Yu, Naixiang Zheng, Guoyuan Wang et al.

针对ABAWE表情识别挑战,提出了一种鲁棒的多模态框架,有效处理模态缺失和数据不平衡问题。

  • 提出基于安全交叉注意力和模态Dropout的多模态框架
  • 采用Focal Loss和滑动窗口软投票策略缓解数据不平衡
2026-03-09
9/10
multimodal lifelong learning agent

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Guo Chen, Lidong Lu, Yicheng Liu et al.

提出用于多模态终身理解的MM-Lifelong数据集和递归多模态Agent(ReMA)模型,解决现有模型记忆瓶颈和全局定位崩溃问题。

  • 构建了大规模多模态终身学习数据集MM-Lifelong
  • 提出了递归多模态Agent(ReMA)模型,有效缓解记忆瓶颈和全局定位崩溃问题
2026-03-05
8/10
视觉语言导航 零样本学习 机器人导航

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

Esteban Padilla, Boyang Sun, Marc Pollefeys et al.

OpenFrontier提出了一种免训练的视觉语言导航框架,利用语义先验实现高效的零样本导航。

  • 提出OpenFrontier框架,无需训练即可实现视觉语言导航
  • 将导航问题转化为稀疏子目标识别和到达问题
2026-03-05
7/10
语料库构建 濒危语言 多语种

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Mohammad Mamun Or Rashid

构建了孟加拉国首个国家级多语种平行多模态语料库,覆盖多种濒危语言。

  • 创建了孟加拉国少数民族语言的大规模多语种语料库
  • 系统性的田野调查和数据收集方法
2026-03-05
9/10
多模态学习 图神经网络 大语言模型

Mario: Multimodal Graph Reasoning with Large Language Models

Yuanfu Sun, Kang Li, Pengkang Guo et al.

Mario提出了一个统一的框架,利用LLM在多模态图上进行推理,解决跨模态一致性和异构模态偏好的问题。

  • 提出了图条件VLM设计,通过对比学习提升跨模态一致性
  • 提出了模态自适应图指令微调机制,利用可学习的路由选择最佳模态配置
2026-03-05
9/10
Vision-Language-Action Adaptive Inference Complexity Awareness

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci

提出一种复杂度感知的自适应VLA框架,通过视觉信息判断任务复杂度,提升推理效率和鲁棒性。

  • 提出了复杂度感知的自适应推理框架,提升VLA模型的效率。
  • 利用视觉信息进行任务复杂度检测,实现Act, Think, Abstain三种执行策略。
2026-03-05
8/10
行人属性识别 Transformer 多模态学习

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

Minghe Xu, Rouying Wu, Jiarui Xu et al.

UniPAR提出了一个统一的Transformer框架,用于处理多种模态下的行人属性识别任务。

  • 提出了统一的Transformer框架UniPAR用于PAR
  • 引入统一数据调度策略和动态分类头
2026-03-05
6/10
时间序列预测 多维外生变量 航空维护

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

Jiafeng Lin, Mengren Zheng, Simeng Ye et al.

Aura框架通过整合多维外部因素,显著提升了航空时间序列预测的准确性和适应性。

  • 提出Aura框架,显式组织和编码异构外部信息。
  • 针对航空维护场景,识别并利用三种不同的外部因素。
2026-03-05
10/10
多模态学习 多模态大模型 评估基准

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Yanlin Li, Minghui Guo, Kaiwen Zhang et al.

提出了 UniM 基准,用于评估多模态大模型在任意模态组合的理解和生成能力。

  • 提出了 UniM 数据集,包含 31K 多模态实例
  • 提出了 UniM 评估套件,评估模型语义正确性、结构完整性和连贯性
2026-03-05
9/10
联邦学习 多模态学习 对抗学习

FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation

Min Tan, Junchao Ma, Yinfu Feng et al.

FedAFD提出了一种新的多模态联邦学习框架,通过对抗融合和蒸馏提升客户端和服务器端的学习效果。

  • 提出了双层对抗对齐策略,缓解模态和任务差异
  • 设计了细粒度融合模块,自适应整合全局知识
2026-03-05
8/10
audio generation diffusion model controllable generation

Low-Resource Guidance for Controllable Latent Audio Diffusion

Zachary Novack, Zack Zukowski, CJ Carr et al.

提出一种低资源、可控的潜在音频扩散方法,通过选择性时频引导和潜在控制头实现细粒度音频控制。

  • 提出选择性TFG和LatCHs实现低成本控制
  • 在latent space操作避免昂贵的解码步骤
2026-03-04
9/10
长视频理解 关键帧选择 多模态学习

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov et al.

FocusGraph提出了一种图结构的帧选择框架,用于长视频问答,提升推理效率和性能。

  • 提出了基于图结构的场景字幕LLM选择器,用于选择关键帧
  • 设计了无训练的 Patch-wise Sparse-Flow Retention (PSFR) 方法选择关键帧
2026-03-04
6/10
音频超分辨率 扩散模型 生成模型

FastWave: Optimized Diffusion Model for Audio Super-Resolution

Nikita Kuznetsov, Maksim Kaledin

FastWave提出了一种优化的扩散模型用于音频超分辨率,降低了计算成本并提高了训练速度。

  • 提出FastWave模型,参数量小,计算复杂度低
  • 在音频超分辨率任务上,性能优于NU-Wave 2
2026-03-04
9/10
组合图像检索 对比学习 负采样

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Geon Park, Ji-Hoon Park, Seong-Whan Lee

针对组合图像检索的判别性查询嵌入,提出可学习属性权重和目标相对负采样。

  • 提出可学习的属性权重,强调与修改文本相关的视觉特征。
  • 引入目标相对负采样,选择信息量更大的负样本。
2026-03-04
9/10
人脸空想性错觉 视觉模型 歧义性分析

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Qianpu Chen, Derya Soydaner, Rob Saunders

利用人脸空想性错觉,分析多种视觉模型在歧义情况下的判别能力,揭示了表征选择对模型行为的影响。

  • 提出了一个用于分析视觉模型在歧义情况下行为的诊断框架。
  • 使用人脸空想性错觉作为受控探针,研究不同视觉模型的检测、定位、不确定性和偏差。
2026-03-04
9/10
视频LLM 实时交互 基准测试

RIVER: A Real-Time Interaction Benchmark for Video LLMs

Yansong Shi, Qingsong Zhao, Tianxiang Jiang et al.

论文提出了RIVER Bench,一个评估视频LLM实时交互能力的新基准,并提供了一种改进方法。

  • 提出了RIVER Bench,用于评估视频LLM的实时交互能力
  • 设计了Retrospective Memory, Live-Perception, Proactive Anticipation三个任务
2026-03-04
9/10
多模态 推理 视觉

Phi-4-reasoning-vision-15B Technical Report

Jyoti Aneja, Michael Harrison, Neel Joshi et al.

Phi-4-reasoning-vision-15B是一个紧凑型开源多模态推理模型,注重数据质量和架构设计。

  • 构建了小型高效的多模态推理模型
  • 验证了数据质量对模型性能的关键作用
2026-03-04
9/10
多模态学习 单应性估计 数据合成

Towards Generalized Multimodal Homography Estimation

Jinkun You, Jiaxin Cheng, Jie Zhang et al.

提出一种新的多模态单应性估计方法,通过合成数据和网络设计增强泛化能力。

  • 提出一种新的训练数据合成方法
  • 设计一种新的网络结构利用跨尺度信息并解耦颜色信息
2026-03-04
7/10
点云 自监督学习 Transformer

Utonia: Toward One Encoder for All Point Clouds

Yujia Zhang, Xiaoyang Wu, Yunhan Yang et al.

提出Utonia,一个统一的自监督点云Transformer编码器,适用于多个领域。

  • 提出一个统一的跨域点云编码器Utonia
  • 证明了Utonia在不同领域之间的迁移能力
2026-03-03
9/10
多模态学习 预训练 视觉语言模型

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Shengbang Tong, David Fan, John Nguyen et al.

研究原生多模态模型,揭示视觉和语言数据互补性,发现视觉比语言更需要数据。

  • 提出Representation Autoencoder (RAE) 作为统一视觉表示
  • 证明视觉和语言数据具有互补性,促进下游能力提升
2026-03-03
8/10
三维重建 长序列 几何

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Junyi Zhang, Charles Herrmann, Junhwa Hur et al.

LoGeR提出一种混合记忆模块,用于提升长视频序列三维重建的全局一致性。

  • 提出混合记忆模块,结合参数化和非参数化记忆
  • 实现无需后优化的超长序列稠密三维重建
2026-03-03
10/10
多模态学习 视觉语言模型 基准测试

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Zimo Wen, Boxiu Li, Wanbo Zhang et al.

该论文提出了UniG2U-Bench,评估统一模型在多模态理解中生成能力的有效性。

  • 提出了UniG2U-Bench基准测试,包含7个类别和30个子任务
  • 评估了30多个模型,揭示了统一模型的性能弱点和优势
2026-03-03
9/10
Text-to-Image Safety Steering Activation Transport

Conditioned Activation Transport for T2I Safety Steering

Maciej Chrabąszcz, Aleksander Szymczyk, Jan Dubiński et al.

提出CAT框架,通过条件激活传输,在保证图像质量的同时降低T2I模型生成不安全内容。

  • 构建 SafeSteerDataset 对比数据集
  • 提出基于几何的条件机制和非线性传输图的 CAT 框架
2026-03-03
8/10
教育 AI生成内容 视频质量评估

EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

Baoliang Chen, Xinlong Bu, Lingyu Zhu et al.

提出EduAIGV-1k数据集和EduVQA模型,评估AI生成教育视频质量。

  • 构建了首个AI生成教育视频质量评估基准数据集EduAIGV-1k
  • 提出了细粒度的标注方法,包括感知质量和提示对齐
2026-03-03
9/10
Vision-Language Models Semi-Supervised Learning Few-Shot Learning

Semi-Supervised Few-Shot Adaptation of Vision-Language Models

Julio Silva-Rodríguez, Ender Konukoglu

针对医学图像分类小样本学习中的类别不平衡问题,提出一种半监督方法,利用无标签数据提升模型性能。

  • 提出一种基于文本信息伪标签传播的半监督学习方法
  • 应用于医学图像分类的小样本学习
2026-03-03
9/10
3D Visual Grounding Referring Expression Segmentation Vision-Language Understanding

3D-DRES: Detailed 3D Referring Expression Segmentation

Qi Chen, Changli Wu, Jiayi Ji et al.

提出了新的3D Referring Expression Segmentation任务(3D-DRES),并构建了数据集DetailRefer和基线模型DetailBase。

  • 提出了3D-DRES任务,实现phrase到3D instance的映射
  • 构建了包含54,432个描述的DetailRefer数据集
2026-03-03
9/10
vision-language models diagram understanding probing

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Haruto Yoshida, Keito Kudo, Yoichi Aoki et al.

该论文通过探针实验揭示LVLMs处理图结构数据时,节点和边信息编码的阶段性差异。

  • 发现LVLMs中节点信息在视觉编码器中较早编码,而边信息则较晚编码。
  • 揭示边信息在线性可分性方面在视觉编码器和语言模型中存在差异。
2026-03-03
9/10
语言条件导航 连续流场 端到端学习

CoFL: Continuous Flow Fields for Language-Conditioned Navigation

Haokun Liu, Zhaoqi Ma, Yicheng Chen et al.

CoFL通过预测连续流场实现语言条件导航,无需离散动作预测,并在真实场景中实现了zero-shot部署。

  • 提出了一种端到端的语言条件导航策略CoFL
  • 设计了一种基于程序化标注的大规模BEV图像-指令数据集
2026-03-03
8/10
VLM OCR Ancient Greek

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot et al.

研究了VLM在古希腊文本识别中的应用,提出了数据集并评估了模型性能。

  • 构建了大规模的古希腊文本合成数据集
  • 建立了古希腊文本识别的真实扫描数据集基准
2026-03-03
9/10
自动驾驶 视觉语言动作模型 潜在空间推理

LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving

Yuechen Luo, Fang Li, Shaoqing Xu et al.

提出LaST-VLA框架,通过潜在时空推理提升自动驾驶视觉-语言-动作模型性能,解决语义-感知解耦和感知-符号冲突。

  • 提出Latent Spatio-Temporal CoT框架
  • 引入双重特征对齐机制,从3D基础模型和世界模型中提取几何约束和动态预测信息
2026-03-02
9/10
Vision-Language Models Reasoning Reporting Bias

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

Amita Kamath, Jack Hessel, Khyathi Chandu et al.

VLMs推理能力不足源于训练数据中的报告偏差,扩大规模不能解决,需有针对性地数据标注。

  • 揭示VLMs推理能力不足的根本原因是训练数据中的报告偏差
  • 证明扩大数据规模、模型规模和语言种类不能有效提升VLMs的推理能力
2026-02-26
9/10
开放词汇分割 视觉语言模型 少样本学习

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Tilemachos Aravanis, Vladan Stojnić, Bill Psomas et al.

提出一种基于检索增强的测试时适配器,利用少量带标注样本提升开放词汇分割性能。

  • 提出检索增强测试时适配器,融合文本和视觉支持特征
  • 实现了学习型的、针对每个查询的特征融合,提升了模态协同
2026-02-26
9/10
情感识别 多模态学习 混合专家模型

A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations

Soumya Dutta, Smruthi Balaji, Sriram Ganapathy

提出了一个用于对话情绪识别的混合专家模型MiSTER-E,有效融合语音和文本信息。

  • 提出了MiSTER-E模型,解耦了模态特定上下文建模和多模态信息融合
  • 引入了监督对比损失和KL散度正则化,增强模态一致性
2026-02-26
9/10
LMM Multimodal Learning In-Context Learning

Large Multimodal Models as General In-Context Classifiers

Marco Garosi, Matteo Farina, Alessandro Conti et al.

论文研究了大型多模态模型在上下文学习中的分类能力,并提出了CIRCLE方法提升开放世界分类效果。

  • 论证了LMMs在上下文学习中作为分类器的潜力。
  • 提出了CIRCLE方法,提升LMMs在开放世界分类中的鲁棒性。
2026-02-26
9/10
3D LMM Fourier Transform Point Cloud

Efficient Encoder-Free Fourier-based 3D Large Multimodal Model

Guofeng Mei, Wei Lin, Luigi Riz et al.

Fase3D提出了一种高效的无编码器傅里叶变换3D场景大模型,显著提升3D数据处理效率。

  • 提出基于傅里叶变换的3D场景LMM
  • 引入点云序列化和快速傅里叶变换(FFT)近似自注意力
2026-02-26
9/10
Compositional Zero-Shot Learning Test-Time Adaptation Multimodal Learning

WARM-CAT: : Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

Xudong Yan, Songhe Feng, Jiaxin Wang et al.

WARM-CAT通过积累无监督知识和动态调整原型,解决组合零样本学习中的分布偏移问题。

  • 提出 Warm-Started Test-Time Comprehensive Knowledge Accumulation (WARM-CAT) 方法
  • 设计自适应更新权重控制原型调整程度,灵活适应分布偏移
2026-02-26
9/10
Zero-Shot Learning Composed Image Retrieval Multimodal Learning

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Tianyue Wang, Leigang Qu, Tianyu Yang et al.

WISER通过检索-验证-精炼流程,结合图像和文本检索,实现无需训练的零样本组合图像检索。

  • 提出WISER框架,融合T2I和I2I检索,建模意图和不确定性。
  • 设计自适应融合模块,根据置信度选择精炼或融合双路径检索结果。
2026-02-26
7/10
异常检测 少样本学习 预训练模型

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

Camile Lendering, Erkut Akdag, Egor Bondarev

SubspaceAD是一种无需训练的少样本异常检测方法,基于预训练模型特征和子空间建模。

  • 提出无需训练的少样本异常检测方法SubspaceAD
  • 利用预训练DINOv2提取特征并进行PCA降维
2026-02-26
8/10
医疗AI 诊断对齐 多模态学习

Modeling Expert AI Diagnostic Alignment via Immutable Inference Snapshots

Dimitrios P. Panagoulias, Evangelia-Aikaterini Tsichrintzi, Georgios Savvidis et al.

该论文提出通过不变的推理快照建模专家AI诊断对齐框架,提高临床决策支持系统的人工对齐评估。

  • 提出诊断对齐框架,使用不变推理状态
  • 结合VLM、BERT和SLMI进行医学实体提取和推理
2026-02-26
9/10
Multimodal Learning Domain Generalization Semi-Supervised Learning

Towards Multimodal Domain Generalization with Few Labels

Hongzhao Li, Hao Dong, Hualei Wan et al.

提出了一个半监督多模态域泛化框架,解决了数据量少和域偏移的问题。

  • 提出了半监督多模态域泛化(SSMDG)问题
  • 提出了包含三个关键组件的统一框架
2026-02-26
7/10
医学影像 胸部X光 基础模型

A data- and compute-efficient chest X-ray foundation model beyond aggressive scaling

Chong Wang, Yabin Zhang, Yunhe Gao et al.

提出CheXficient模型,通过主动数据管理实现高效的胸部X光影像基础模型预训练。

  • 提出一种数据和计算高效的医学影像基础模型预训练方法
  • CheXficient模型在更少的数据和计算资源下达到与全数据模型相当甚至更优的性能
2026-02-26
9/10
视频理解 Tokenizer 轨迹建模

TrajTok: Learning Trajectory Tokens enables better Video Understanding

Chenhao Zheng, Jieyu Zhang, Jianing Zhang et al.

提出TrajTok视频tokenizer,通过联合训练动态分割视频轨迹,提升视频理解性能和效率。

  • 提出端到端视频tokenizer模块TrajTok,与下游任务联合训练。
  • TrajTok通过隐式聚类提取时空轨迹,无需外部分割和跟踪流水线。
2026-02-26
9/10
多模态学习 视觉推理 大语言模型

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

You Li, Chi Chen, Yanghao Li et al.

论文揭示了现有多模态大语言模型中隐空间推理的无效性,并提出显式文本想象方法CapImagine。

  • 揭示了隐空间推理中输入与隐状态、隐状态与答案之间的断连
  • 提出了基于显式文本想象的视觉推理方法CapImagine
2026-02-26
9/10
Referring Image Segmentation Vision-Language Alignment Masked Learning

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Tongfei Chen, Shuo Yang, Yuguang Yang et al.

AMLRIS通过对齐感知掩码学习提升指代图像分割效果,关注可信线索。

  • 提出Alignment-Aware Masked Learning (AML)训练策略
  • 显式估计像素级视觉-语言对齐
2026-02-26
9/10
multimodal vision-language captioning

Asymmetric Idiosyncrasies in Multimodal Models

Muzi Tao, Chufan Shi, Huijuan Wang et al.

研究了Caption模型和Text-to-Image模型之间的风格差异,并提出了一种新的量化方法。

  • 提出了一种基于分类的框架,用于量化Caption模型的风格特征。
  • 发现Caption模型的风格特征在生成的图像中显著消失。
2026-02-26
10/10
幻觉缓解 视觉语言模型 子空间编辑

HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models

Yangguang Lin, Quan Fang, Yufei Li et al.

HulluEdit通过正交子空间编辑,单次推理有效减少大视觉语言模型中的对象幻觉,同时保持通用能力。

  • 提出HulluEdit,一种单次、无参考的幻觉缓解框架
  • 引入正交子空间编辑,将隐藏状态分解为视觉证据、先验冲突和残差不确定性
2026-02-26
9/10
membership inference attack diffusion model privacy

No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings

Joonsung Jeon, Woo Jae Kim, Suhyeon Ha et al.

提出了一种无需真实caption的membership inference攻击方法MoFit,有效识别扩散模型训练集成员。

  • 提出MoFit框架,实现caption-free的membership inference攻击
  • 通过优化图像扰动,构建过拟合生成流形的surrogate
2026-02-26
9/10
多模态学习 对象幻觉 视觉语言模型

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Lingfeng Ren, Weihao Yu, Runpeng Yu et al.

NoLan通过动态抑制语言先验,有效缓解了大型视觉语言模型中的对象幻觉问题。

  • 系统分析了视觉编码器和语言解码器在对象幻觉生成中的作用,发现语言先验是主要原因
  • 提出了NoLan框架,一种无需训练的动态抑制语言先验的方法
2026-02-25
9/10
3D MRI 视觉语言模型 放射报告生成

Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D

Mariano Barone, Francesco Di Serio, Giuseppe Riccio et al.

Brain3D利用3D视觉Transformer和分阶段对齐方法,实现脑肿瘤MRI自动报告生成。

  • 提出Brain3D框架,用于从3D脑肿瘤MRI生成放射报告
  • 将预训练2D医学编码器扩展到3D架构
2026-02-25
8/10
Vision-Language-Action World Modeling Action Generation

World Guidance: World Modeling in Condition Space for Action Generation

Yue Su, Sijin Chen, Haixin Shi et al.

WoG通过条件空间建模,提升VLA模型动作生成的精细度和泛化性。

  • 提出WoG框架,将未来观测映射到紧凑的条件空间。
  • 联合预测压缩条件和未来动作,实现有效的条件空间世界建模。
2026-02-25
9/10
图像记忆性 多模态学习 自然语言反馈

How to Take a Memorable Picture? Empowering Users with Actionable Feedback

Francesco Laiti, Davide Talon, Jacopo Staiano et al.

提出MemFeed任务,利用MLLM提供图像记忆性改进的自然语言反馈,并构建了MemBench基准。

  • 提出Memorability Feedback (MemFeed) 任务
  • 提出 MemCoach 方法,基于 MLLM 提供图像记忆性改进的自然语言反馈
2026-02-25
10/10
MLLM Few-shot learning Benchmark

FewMMBench: A Benchmark for Multimodal Few-Shot Learning

Mustafa Dogan, Ilker Kesen, Iacer Calixto et al.

FewMMBench基准测试用于评估多模态大语言模型在少样本学习方面的能力。

  • 提出了FewMMBench基准,用于评估MLLM的少样本学习能力
  • 涵盖了多样的多模态理解任务,例如属性识别和时间推理
2026-02-25
9/10
video foundation models benchmark evaluation

UniVBench: Towards Unified Evaluation for Video Foundation Models

Jianhui Wei, Xiaotian Zhang, Yichen Li et al.

UniVBench旨在统一评估视频基础模型在理解、生成、编辑和重建等方面的能力。

  • 提出了UniVBench基准测试,用于统一评估视频基础模型
  • 包含了视频理解、生成、编辑和重建四个核心任务
2026-02-25
9/10
医学图像 视觉-语言预训练 CT图像

SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning

Jiayi Wang, Hadrien Reynaud, Ibrahim Ethem Hamamci et al.

SigVLP提出了一种新的视觉-语言预训练方法,通过分块和旋转位置编码解决CT体积数据变异性问题。

  • 提出SigVLP模型,使用旋转位置编码适应不同尺寸的CT体积。
  • 使用分块的CT体积和器官级别文本信息进行更细粒度的监督。
2026-02-25
8/10
多模态检索 索引压缩 注意力机制

Multi-Vector Index Compression in Any Modality

Hanxiang Qin, Alexander Martin, Rohan Jha et al.

针对多模态晚期交互检索,提出基于注意力引导聚类的索引压缩方法,提升检索效率。

  • 提出注意力引导聚类(AGC)压缩多向量文档表示
  • 证明AGC优于其他压缩方法,如序列重塑和记忆tokens
2026-02-24
9/10
3D视觉推理 视觉语言模型 自监督学习

Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning

Haoyi Jiang, Liu Liu, Xinjie Wang et al.

Spa3R通过自监督学习,从2D图像中提取3D空间信息,提升VLM的空间推理能力。

  • 提出 Predictive Spatial Field Modeling (PSFM) 范式
  • 构建 Spa3R 框架,从多视角图像学习统一的空间表示
2026-02-24
7/10
医学图像 深度学习 可解释AI

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman et al.

XMorph通过LLM辅助的混合深度智能,实现可解释的脑肿瘤诊断,提高了诊断准确率。

  • 提出信息加权边界归一化(IWBN)机制,增强肿瘤形态表示
  • 开发结合GradCAM++和LLM文本解释的双通道可解释AI模块
2026-02-24
9/10
LVLM Self-Evaluation Uncertainty Quantification

VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation

Seongheon Park, Changdae Oh, Hyeong Kyu Choi et al.

VAUQ提出一种视觉感知的不确定性量化框架,用于评估LVLM对视觉依赖预测的置信度。

  • 提出Image-Information Score (IS)来量化视觉信息对预测的影响
  • 提出基于核心区域掩码的策略以放大显著区域的影响
2026-02-24
9/10
MLLM 视觉理解 潜在表示

CrystaL: Spontaneous Emergence of Visual Latents in MLLMs

Yang Zhang, Danyang Li, Yuxuan Li et al.

CrystaL通过对齐完整和损坏图像的潜在表示,提升多模态大语言模型视觉理解能力。

  • 提出CrystaL框架,无需额外标注即可提升视觉信息保留
  • 通过对齐注意力模式和预测分布,提炼任务相关的视觉语义
2026-02-24
10/10
图像标注 多模态大语言模型 MLLM

Are Multimodal Large Language Models Good Annotators for Image Tagging?

Ming-Kun Xie, Jia-Hao Xiao, Zhiqiang Kou et al.

该论文分析了MLLM在图像标注中的应用潜力,并提出了TagLLM框架提高标注质量。

  • 分析MLLM在图像标注中的能力和局限性
  • 提出TagLLM框架,包括候选标签生成和标签消歧义两个模块
2026-02-24
9/10
长视频理解 多模态学习 AI Agent

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Jihao Qiu, Lingxi Xie, Xinyue Huo et al.

LongVideo-R1提出了一种高效的、基于推理的多模态Agent,用于低成本的长视频理解。

  • 提出了LongVideo-R1 Agent,用于高效长视频理解。
  • 引入推理模块,利用视觉线索导航视频上下文。
2026-02-24
8/10
对比学习 行为控制 大型语言模型

PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding

Baolong Bi, Yuyao Ge, Shenghua Liu et al.

PromptCD提出一种测试时行为控制方法,通过对比学习提升LLM和VLM的可靠性和安全性。

  • 提出Polarity-Prompt Contrastive Decoding (PromptCD),一种测试时行为控制方法。
  • 将对比解码扩展到更广泛的增强目标,适用于LLM和VLM。
2026-02-24
9/10
具身智能 VLM 基准

How Foundational Skills Influence VLM-based Embodied Agents:A Native Perspective

Bo Peng, Pi Bu, Keyu Pan et al.

提出了NativeEmbodied基准,用于评估VLM驱动的具身智能体在原生低级动作空间中的技能。

  • 提出了NativeEmbodied基准,包含复杂场景中的高层任务和针对基础技能的低层任务。
  • 分析了现有VLM在具身智能体技能方面的不足。
2026-02-24
9/10
视频推理 大规模数据集 基准测试

A Very Big Video Reasoning Suite

Maijunxian Wang, Ruisi Wang, Juyi Lin et al.

论文提出了一个大规模视频推理数据集VBVR,并构建了可验证的评估框架VBVR-Bench,用于研究视频推理能力。

  • 构建了大规模视频推理数据集VBVR
  • 提出了可验证的评估框架VBVR-Bench
2026-02-23
9/10
vision-language multimodal cross-modal retrieval

StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues

Zanxi Ruan, Qiuyu Kong, Songqun Gao et al.

StructXLIP通过提取图像结构信息,增强视觉语言模型的跨模态对齐,提升检索性能。

  • 提出StructXLIP框架,利用图像边缘信息增强VLM
  • 引入结构中心损失,优化图像与文本结构表示的对齐
2026-02-23
8/10
机器人安全 视觉语言模型 上下文推理

Contextual Safety Reasoning and Grounding for Open-World Robots

Zachary Ravichadran, David Snyder, Alexander Robey et al.

CORE框架利用VLM进行在线上下文推理和环境感知,实现开放世界中机器人的情境安全。

  • 提出了CORE安全框架,实现基于VLM的上下文安全推理
  • 将上下文安全规则与物理环境对齐,进行空间定位
2026-02-23
7/10
Vision Transformer Tensor Cosine Product Efficient Computation

A Computationally Efficient Multidimensional Vision Transformer

Alaa El Ichi, Khalide Jbilou

提出一种基于张量余弦积(Cproduct)的高效视觉Transformer,降低计算和内存成本。

  • 提出基于张量余弦积的Transformer框架
  • 设计了新的Cproduct-based视觉Transformer架构(TCP-ViT)
2026-02-23
9/10
图像生成 空间推理 强化学习

RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection

Tianyu Wang, Zhiyuan Ma, Qian Wang et al.

RL-RIG利用强化学习和反射机制,提升图像生成模型在空间推理上的能力。

  • 提出 RL-RIG 框架,结合强化学习和反射机制
  • 引入 Generate-Reflect-Edit 范式,模仿思维链推理
2026-02-23
9/10
VLM Token Compression Attention-free

ApET: Approximation-Error Guided Token Compression for Efficient VLMs

Qiankun Ma, Ziyao Zhang, Haofei Wang et al.

ApET通过近似误差引导的token压缩方法,在保证性能的同时显著提升了VLMs的推理效率。

  • 提出基于近似误差的视觉Token压缩框架ApET
  • 无需依赖attention,兼容FlashAttention等高效attention kernel
2026-02-23
9/10
篡改文本检测 多模态学习 强化学习

TextShield-R1: Reinforced Reasoning for Tampered Text Detection

Chenfan Qu, Yiwu Zhong, Jian Liu et al.

TextShield-R1是首个基于强化学习的MLLM篡改文本检测方案,提升了篡改文本检测的准确性和可解释性。

  • 提出基于强化学习的MLLM篡改文本检测框架TextShield-R1
  • 引入Forensic Continual Pre-training进行预训练
2026-02-23
8/10
3D perception Open-vocabulary Industrial environment

Open-vocabulary 3D scene perception in industrial environments

Keno Moenck, Adrian Philip Florea, Julian Koch et al.

提出一种适用于工业环境的免训练开放词汇3D感知方法,解决现有模型泛化性差的问题。

  • 提出一种免训练的开放词汇3D感知流水线
  • 使用领域适配的VLFM 'IndustrialCLIP'进行开放词汇查询
2026-02-23
9/10
deepfake detection reasoning multimodal learning

Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision

Kartik Kuckreja, Parul Gupta, Muhammad Haris Khan et al.

提出DeepfakeJudge框架,通过自举生成-评估过程提升深度伪造检测模型推理能力并进行评估。

  • 构建了包含多种伪造类型的OOD benchmark和带有视觉推理标签的人工标注子集。
  • 提出了DeepfakeJudge框架,用于可扩展的推理监督和评估。
2026-02-23
9/10
Vision-Language-Action Pose Estimation Robotics

Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

Haitao Lin, Hanyang Yu, Jingshun Huang et al.

Pose-VLA通过解耦和预训练,提升VLA模型在机器人任务上的泛化性和效率。

  • 提出Pose-VLA解耦范式,分离空间先验学习和具体动作对齐
  • 引入离散姿态token作为通用表示,融合3D数据和机器人轨迹
2026-02-23
9/10
多模态推荐 可解释性 深度学习

DReX: An Explainable Deep Learning-based Multimodal Recommendation Framework

Adamya Shyam, Venkateswara Rao Kagita, Bharti Rana et al.

DReX是一个可解释的深度学习多模态推荐框架,通过增量更新优化用户和物品表示。

  • 提出了一种统一的多模态推荐框架DReX
  • 利用交互级别的多模态反馈增量细化用户和物品表示
2026-02-23
9/10
3D Reconstruction Human-Object Interaction Text-Guided Reconstruction

TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

Hyeongjin Nam, Daniel Sungho Jung, Kyoung Mu Lee

提出TeHOR框架,利用文本和外观信息指导3D人体和物体联合重建,提升语义一致性和视觉逼真度。

  • 引入文本描述以实现非接触人-物交互的重建
  • 融入外观信息以获取全局上下文,提升重建质量
2026-02-23
8/10
图像检索 数据匿名化 隐私保护

Evaluating the Impact of Data Anonymization on Image Retrieval

Marvin Chen, Manuel Eberhardinger, Johannes Maucher

该论文系统性地评估了数据匿名化对基于内容的图像检索性能的影响。

  • 提出了一个评估数据匿名化对CBIR影响的框架
  • 评估了不同匿名化方法和程度对CBIR的影响
2026-02-23
9/10
视觉语言模型 罕见物体识别 多模态学习

Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness

Xin Hu, Haomiao Ni, Yunbei Zhang et al.

针对视觉语言模型在罕见物体推理上的不足,提出一种高效的即插即用模块,提升模型性能。

  • 提出了多模态类别嵌入学习方法,利用视觉基础模型和文本描述弥补罕见物体训练数据不足。
  • 设计了基于注意力的增强模块,精细化视觉 tokens,改善模型对细节的感知。
2026-02-23
9/10
多模态学习 跨模态对齐 语义协同表示

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

Chunlei Meng, Guanhong Huang, Rong Fu et al.

CLCR通过跨层语义协同表示,解决了多模态学习中语义不对齐和误差传播的问题,提升了表征质量。

  • 提出跨层语义协同表示(CLCR)框架
  • 设计层内协同交换域(IntraCED)和层间协同聚合域(InterCAD)
2026-02-23
9/10
多模态情感分析 特征解耦 跨模态融合

Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis

Chunlei Meng, Jiabin Luo, Zhenglin Yan et al.

提出了Tri-Subspace Disentanglement框架,通过解耦子空间提升多模态情感分析性能。

  • 提出Tri-Subspace Disentanglement (TSD) 框架
  • 设计Subspace-Aware Cross-Attention (SACA) 融合模块
2026-02-23
8/10
Virtual Try-On Diffusion Transformer Correspondence Alignment

CORAL: Correspondence Alignment for Improved Virtual Try-On

Jiyoung Kim, Youngjin Shin, Siyoon Jin et al.

CORAL通过显式对齐人-物对应关系提升虚拟试穿效果,改善细节保留。

  • 分析了Diffusion Transformer中3D attention的对应关系
  • 提出了Correspondence Alignment (CORAL) 框架
2026-02-19
9/10
MLLM Image Editing Reinforcement Learning

RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward

Qiucheng Wu, Jing Shi, Simon Jenni et al.

RetouchIQ提出了一种基于通用奖励模型的MLLM图像润饰框架,提升了图像编辑的语义一致性和感知质量。

  • 提出了RetouchIQ框架,用于指令驱动的可执行图像编辑。
  • 提出了通用奖励模型,利用RL微调MLLM来评估编辑结果。
2026-02-19
9/10
视频推理 事件图 强化学习

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

Zixu Cheng, Da Li, Jian Hu et al.

GraphThinker通过构建事件图增强视频推理,利用强化学习减少幻觉。

  • 提出GraphThinker模型,利用事件图增强视频推理
  • 引入视觉注意力奖励强化视觉 grounding,减少幻觉
2026-02-19
6/10
Earth Embeddings 深度学习 地表高度映射

Inferring Height from Earth Embeddings: First insights using Google AlphaEarth

Alireza Hamoudzadeh, Valeria Belloni, Roberta Ravanelli

利用AlphaEarth Embeddings和深度学习模型进行地表高度推断的研究,效果初步验证。

  • 探索了Earth Embeddings在区域地表高度映射中的应用潜力
  • 评估了U-Net和U-Net++在高度推断中的表现
2026-02-19
9/10
LVLM 视觉语言模型 视觉信息增益

Selective Training for Large Vision Language Models via Visual Information Gain

Seulbi Lee, Sangheum Hwang

论文提出一种基于视觉信息增益的选择性训练方法,提升LVLM的视觉 grounding 能力并缓解语言偏见。

  • 提出视觉信息增益(VIG)度量视觉输入带来的预测不确定性减少
  • 提出VIG引导的选择性训练方案,优先训练高VIG样本和tokens
2026-02-19
9/10
时间序列 多模态学习 视觉

TimeOmni-VL: Unified Models for Time Series Understanding and Generation

Tong Guan, Sheng Pan, Johan Barthelemy et al.

TimeOmni-VL提出了一种视觉中心的时间序列统一模型,用于理解和生成任务,并引入了Bi-TSI和TSUMM-Suite。

  • 提出了TimeOmni-VL框架,统一时间序列理解和生成
  • 引入了保真度双向映射Bi-TSI,实现时间序列和图像之间的转换
2026-02-19
9/10
视觉语言模型 推理 显著性感知

Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

Mingjia Shi, Yinhan He, Yaochen Zhu et al.

提出一种基于显著性感知的多路径推理方法SAP,解决视觉语言模型推理中视觉信息利用不足的问题。

  • 提出显著性感知原则(SAP)用于视觉语言推理
  • 支持多路径推理,并行探索不同推理行为
2026-02-18
9/10
组合泛化 对象中心表征 视觉问答

Are Object-Centric Representations Better At Compositional Generalization?

Ferdinand Kapl, Amir Mohammad Karimi Mamaghan, Maximilian Seitzer et al.

研究表明,在组合泛化任务中,当数据受限时,面向对象的表征优于密集表征。

  • 提出了新的视觉问答基准测试,用于评估组合泛化能力
  • 比较了有无对象中心偏置的视觉编码器的性能
2026-02-18
9/10
具身感知 第一人称视角视频 多模态学习

Learning Situated Awareness in the Real World

Chuhan Li, Ruilin Han, Joy Hsu et al.

提出了SAW-Bench,一个评估模型在真实世界视频中具身感知能力的基准。

  • 构建了真实世界具身感知的视频数据集SAW-Bench
  • 定义了六种具身感知任务
2026-02-18
7/10
视频理解 零样本学习 类别拆分

Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding

Kaiting Liu, Hazel Doughty

提出视频分类拆分任务,无需额外数据即可将粗粒度类别拆分为细粒度子类别,提升视频理解精度。

  • 提出类别拆分任务,用于细粒度视频理解。
  • 提出零样本拆分方法,利用视频分类器的潜在组合结构。
2026-02-18
7/10
Analytical Diffusion 生成模型 可扩展性

Fast and Scalable Analytical Diffusion

Xinyi Shang, Peng Sun, Jingyu Lin et al.

提出了一种高效的Analytical Diffusion模型GoldDiff,通过动态选择“Golden Subset”加速推理,显著提升了模型的可扩展性。

  • 发现后验渐进集中现象
  • 提出Dynamic Time-Aware Golden Subset Diffusion (GoldDiff)框架
2026-02-18
9/10
多模态融合 医学图像分析 注意力机制

HyPCA-Net: Advancing Multimodal Fusion in Medical Image Analysis

J. Dhar, M. K. Pandey, D. Chakladar et al.

HyPCA-Net提出了一种混合并行融合的级联注意力网络,用于提升多模态医学图像分析的性能和效率。

  • 提出了计算高效的残差自适应学习注意力模块,用于捕捉精细的模态特定表征。
  • 提出了双视角级联注意力模块,用于学习不同模态之间鲁棒的共享表征。
2026-02-18
8/10
世界模型 隐变量动作 视频生成

Factored Latent Action World Models

Zizhao Wang, Chang Shi, Jiaheng Hu et al.

FLAM分解场景为独立因子,学习隐变量动作,提升多实体环境下视频生成质量和策略学习。

  • 提出了一种分解的隐变量动作模型FLAM
  • FLAM在复杂多实体环境中建模更准确
2026-02-18
8/10
光伏功率预测 多模态学习 深度学习

Meteorological data and Sky Images meets Neural Models for Photovoltaic Power Forecasting

Ines Montoya-Espinagosa, Antonio Agudo

论文提出了一种结合气象数据、天空图像和光伏历史数据的混合深度学习光伏功率预测方法。

  • 提出了一种结合天空图像、气象数据和光伏历史数据的多模态光伏功率预测方法
  • 验证了气象数据(尤其是长波辐射)对光伏功率预测的有效性
2026-02-17
9/10
多模态 大语言模型 表格

ViTaB-A: Evaluating Multimodal Large Language Models on Visual Table Attribution

Yahia Alqurnawi, Preetom Biswas, Anmol Rao et al.

该论文评估了多模态大语言模型在视觉表格属性归因任务上的表现,发现其归因能力远低于问答能力。

  • 提出了视觉表格属性归因(ViTaB-A)的评估任务
  • 评估了不同模型在不同表格格式和提示策略下的归因能力
2026-02-17
9/10
阿尔茨海默病 多模态学习 图注意力网络

MRC-GAT: A Meta-Relational Copula-Based Graph Attention Network for Interpretable Multimodal Alzheimer's Disease Diagnosis

Fatemeh Khalvandi, Saadat Izadi, Abdolah Chalechale

MRC-GAT模型通过结合多模态数据和图注意力网络,实现了阿尔茨海默病的高精度诊断。

  • 提出Meta-Relational Copula-Based Graph Attention Network (MRC-GAT) 模型
  • 引入copula-based相似性对齐,整合多模态特征
2026-02-17
8/10
ECG 语言模型 心脏事件预测

CAMEL: An ECG Language Model for Forecasting Cardiac Events

Neelay Velingker, Alaia Solko-Breslin, Mayank Keoliya et al.

CAMEL是首个用于预测心脏事件的ECG语言模型,优于现有方法。

  • 提出首个用于预测心脏事件的ECG语言模型CAMEL
  • 引入ECGForecastBench基准测试
2026-02-17
9/10
自动驾驶 视觉语言模型 理由响应性

CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving

Lucas Elbert Suryana, Farah Bierenga, Sanne van Buuren et al.

提出CARE Drive框架,评估自动驾驶视觉语言模型对人类理由的响应性,提高决策可解释性。

  • 提出CARE Drive框架,评估视觉语言模型在自动驾驶中的理由响应性
  • 通过上下文扰动测量决策对人类理由的敏感度
2026-02-17
8/10
3D Gaussian Splatting Transient Object Removal Semantic Filtering

Semantic-Guided 3D Gaussian Splatting for Transient Object Removal

Aditi Prabakaran, Priyesh Shukla

提出语义引导的3D高斯溅射方法,有效去除多视角重建中的瞬态物体,提升重建质量。

  • 提出基于视觉-语言模型的语义过滤框架
  • 利用CLIP相似度进行高斯 opacity 正则化和剪枝
2026-02-17
9/10
Multimodal Learning Face Morphing Attack Detection Zero-Shot Learning

Emergent Morphing Attack Detection in Open Multi-modal Large Language Models

Marija Ivanovska, Vitomir Štruc

首次系统评估开源多模态大语言模型在人脸变形攻击检测中的零样本能力,效果显著。

  • 首次系统性评估开源MLLM在人脸变形攻击检测中的零样本性能
  • 证明了MLLM在无需微调的情况下具备检测人脸变形攻击的能力
2026-02-17
9/10
VLA Action Tokenization Vision-Language-Action

ActionCodec: What Makes for Good Action Tokenizers

Zibin Dong, Yicheng Liu, Shiduo Zhang et al.

该论文研究了Vision-Language-Action模型中动作Tokenizers的设计原则,并提出了ActionCodec。

  • 提出了VLA优化视角的动作Tokenizer设计原则
  • 设计了高性能动作Tokenizer ActionCodec
2026-02-17
9/10
热成像 视觉语言模型 基准数据集

ThermEval: A Structured Benchmark for Evaluation of Vision-Language Models on Thermal Imagery

Ayush Shrivastava, Kirtan Gangani, Laksh Jain et al.

提出了用于评估视觉语言模型在热成像上的性能的结构化基准ThermEval,揭示了现有模型在该领域的不足。

  • 构建了大规模热成像视觉问答数据集ThermEval-B,包含像素级温度信息。
  • 评估了多种VLM在热成像上的表现,发现模型在温度推理等方面存在缺陷。
2026-02-16
9/10
Multimodal Learning Contrastive Learning Orthogonality Constraints

Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations

Carolin Cissee, Raneen Younis, Zahra Ahmadi

COrAL框架通过正交化和非对称掩码,显式建模多模态数据的冗余、独特和协同信息,提升表征质量。

  • 提出COrAL框架,显式建模冗余、独特和协同的多模态信息。
  • 采用正交约束解耦共享和模态特定特征,确保信息分离。
2026-02-16
9/10
LLM 无线通信 射频信号

RF-GPT: Teaching AI to See the Wireless World

Hang Zou, Yu Tian, Bohao Wang et al.

RF-GPT通过视觉编码器和LLM理解RF信号,实现无线通信领域的高级推理。

  • 提出了一种射频语言模型(RFLM)RF-GPT
  • 利用多模态LLM处理和理解射频频谱图
2026-02-16
9/10
指代图像分割 视觉信息部分注意力 跨模态学习

VIPA: Visual Informative Part Attention for Referring Image Segmentation

Yubin Cho, Hyunwoo Yu, Kyeongbo Kong et al.

提出VIPA框架,通过视觉信息部分注意力机制提升指代图像分割精度。

  • 提出VIPA框架,利用视觉信息部分注意力进行图像分割
  • 设计视觉表达式生成器(VEG),提取信息丰富的视觉tokens
2026-02-16
8/10
Meta-learning Transformer Multimodal Learning

Universal Algorithm-Implicit Learning

Stefano Woerner, Seong Joon Oh, Christian F. Baumgartner

提出通用元学习框架和算法隐式学习概念,Transformer实现跨域、跨模态和高类别任务的元学习。

  • 提出算法隐式学习框架
  • 设计TAIL元学习模型
2026-02-16
9/10
多模态学习 幻觉检测 图像重构

VIGIL: Tackling Hallucination Detection in Image Recontextualization

Joanna Wojciechowicz, Maria Łubniewska, Jakub Antczak et al.

VIGIL提出了多模态图像重构中幻觉检测基准,并构建了多阶段检测流水线。

  • 构建了细粒度的图像重构幻觉分类基准数据集VIGIL
  • 提出了多阶段幻觉检测流水线
2026-02-16
7/10
Vision Transformer Variable Image Size Medical Imaging

VariViT: A Vision Transformer for Variable Image Sizes

Aswathi Varma, Suprosanna Shit, Chinmay Prabhakar et al.

VariViT针对可变尺寸图像设计,通过改进的位置编码和批处理策略提升ViT在医学图像上的性能。

  • 提出处理可变图像尺寸的ViT模型VariViT
  • 设计新的位置编码调整方案以适应不同数量的图像块
2026-02-16
9/10
multimodal temporal reasoning planning

MATEO: A Multimodal Benchmark for Temporal Reasoning and Planning in LVLMs

Gabriel Roccabruna, Olha Khomyn, Giuseppe Riccardi

MATEO是一个多模态基准,用于评估LVLM在时间推理和规划方面的能力,特别是针对真实世界的任务。

  • 提出了MATEO基准数据集,用于评估LVLM的时间推理能力
  • 构建了一个高质量的多模态食谱数据集,包含图像和步骤分解
2026-02-16
9/10
motion understanding motion generation reinforcement learning

MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

Hongpeng Wang, Zeyu Zhang, Wenhao Li et al.

MoRL通过强化学习和链式运动推理,统一运动理解与生成,显著提升逻辑推理和感知真实性。

  • 提出了基于可验证奖励的强化学习统一多模态运动模型MoRL
  • 引入了链式运动(CoM)推理方法,增强推理能力
2026-02-16
9/10
Multimodal Chain-of-Thought Test-Time Scaling

UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Leon Liangyu Chen, Haoyu Ma, Zhipeng Fan et al.

UniT提出多模态链式思考测试时扩展框架,提升统一模型在复杂任务中的推理能力。

  • 提出UniT框架,实现多模态链式思考测试时扩展
  • 验证了统一模型在短推理轨迹上训练后,可泛化到更长的推理链
2026-02-12
6/10
Flow Matching Self-Distillation Categorical Data Generation

Categorical Flow Maps

Daan Roos, Oscar Davis, Floor Eijkelboom et al.

提出Categorical Flow Maps,加速类别数据的少步生成,实现优异性能。

  • 提出Categorical Flow Maps方法
  • 基于flow matching的类别数据生成
2026-02-12
9/10
结构化信息抽取 文档图像理解 视觉语言模型

ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

Mathieu Sibue, Andres Muñoz Garza, Samuel Mensah et al.

提出ExStrucTiny基准数据集,用于评估通用视觉语言模型在文档图像结构化信息抽取方面的能力。

  • 构建了ExStrucTiny基准数据集,包含多样文档类型和抽取场景
  • 提出了一个结合人工和合成数据的新型数据生成流程
2026-02-12
7/10
attention mechanism linear attention transformer

HLA: Hadamard Linear Attention

Hanno Ackermann, Hong Cai, Mohsen Ghafoorian et al.

论文提出Hadamard线性注意力(HLA),旨在以更高阶有理函数近似softmax,提高效率。

  • 提出Hadamard线性注意力(HLA)
  • 使用更高阶有理函数近似softmax
2026-02-12
9/10
VLA 机器人操作 视频预测嵌入

JEPA-VLA: Video Predictive Embedding is Needed for VLA Models

Shangchen Miao, Ningya Feng, Jialong Wu et al.

该论文提出JEPA-VLA模型,通过融入视频预测嵌入提升VLA模型在机器人操作任务中的性能和泛化性。

  • 发现现有VLA模型视觉表示的局限性
  • 提出JEPA-VLA模型,融合视频预测嵌入
2026-02-12
9/10
多模态学习 推荐系统 Transformer

Hi-SAM: A Hierarchical Structure-Aware Multi-modal Framework for Large-Scale Recommendation

Pingjun Pan, Tingting Zhou, Peiyao Lu et al.

Hi-SAM通过解耦语义标记和分层Transformer结构,提升多模态推荐系统的效果,并在大规模场景下验证有效性。

  • 提出了解耦语义标记器(DST),解决模态间语义纠缠问题
  • 提出了分层记忆锚点Transformer(HMAT),考虑用户交互层级结构
2026-02-12
8/10
LLM 4D World Generation Code Generation

Code2Worlds: Empowering Coding LLMs for 4D World Generation

Yi Zhang, Yunshuang Wang, Zeyu Zhang et al.

Code2Worlds框架利用编码LLM生成具有物理规律的动态4D世界,解决多尺度和语义物理鸿沟问题。

  • 提出了双流架构解耦对象生成与环境编排
  • 建立了物理感知闭环机制迭代优化模拟代码
2026-02-12
9/10
Test-Time Adaptation Entropy Bias

Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation

Xiangyu Wu, Dongming Jiang, Feng Yu et al.

提出自适应去偏Tsallis熵(ADTE)用于测试时自适应,解决CLIP模型在不平衡数据上的偏差问题。

  • 发现Tsallis熵(TE)更适合表征有偏分布
  • 提出自适应去偏Tsallis熵(ADTE),通过类别相关的参数q^l进行自适应调整
2026-02-12
9/10
视觉语言模型 电商 多模态学习

Adapting Vision-Language Models for E-commerce Understanding at Scale

Matteo Nulli, Vladimir Orshulevich, Tala Bazazo et al.

针对电商场景,论文提出了一种适配通用视觉语言模型的方法,并构建了新的评估体系。

  • 提出电商场景下适配通用VLM的策略
  • 构建全面的电商产品理解评估套件
2026-02-12
9/10
Multimodal Learning Graph Representation Engineering Schematics

Beyond Pixels: Vector-to-Graph Transformation for Reliable Schematic Auditing

Chengwei Ma, Zhen Tian, Zhou Zhou et al.

提出Vector-to-Graph方法,解决MLLM在工程图审核中结构盲视问题,提升审核准确率。

  • 提出Vector-to-Graph (V2G) 转换方法,将CAD图转换为属性图
  • 证明了像素方法在工程图理解上的局限性
2026-02-12
9/10
Multimodal Learning Generative Fluid Intelligence Unified Multimodal Models

GENIUS: Generative Fluid Intelligence Evaluation Suite

Ruichuan An, Sihan Yang, Ziyu Guo et al.

GENIUS评估UMM在生成式流体智力方面的能力,提出新的评估标准和方法。

  • 定义了生成式流体智力 (GFI) 的三个基本要素
  • 提出了 GENIUS 评估套件,用于评估模型的 GFI
2026-02-11
9/10
game development benchmark multimodal learning

GameDevBench: Evaluating Agentic Capabilities Through Game Development

Wayne Chi, Yixiong Fang, Arnav Yayavaram et al.

GameDevBench是一个评估智能体游戏开发能力的多模态基准测试。

  • 提出了GameDevBench基准测试,用于评估智能体在游戏开发中的能力。
  • 定义了132个基于教程的游戏开发任务,需要多模态理解和复杂代码实现。
2026-02-11
9/10
LVLM 视觉语言模型 多模态学习

Chatting with Images for Introspective Visual Thinking

Junfei Wu, Jian Guan, Qiang Liu et al.

ViLaVT通过语言引导的特征调制,增强了LVLM在多图和视频空间推理上的能力。

  • 提出了一种新的框架“chatting with images”,通过语言引导视觉特征调制进行视觉操作
  • 设计了ViLaVT,一个具有动态视觉编码器的LVLM,用于交互式视觉推理
2026-02-11
8/10
语音翻译 同步翻译 强化学习

Simultaneous Speech-to-Speech Translation Without Aligned Data

Tom Labiausse, Romain Fabre, Yannick Estève et al.

Hibiki-Zero无需对齐数据即可实现同步语音翻译,并通过强化学习优化延迟。

  • 提出了无需词级对齐数据的语音翻译方法
  • 使用GRPO优化延迟的同时保持翻译质量
2026-02-11
8/10
视频生成 自回归模型 缓存策略

Flow caching for autoregressive video generation

Yuexiao Ma, Xuzhe Zheng, Jing Xu et al.

FlowCache提出了一种针对自回归视频生成的缓存框架,显著加速视频生成。

  • 提出了针对自回归视频生成的FlowCache缓存框架
  • 引入了chunkwise缓存策略,动态适应每个chunk的denoising特性
2026-02-11
9/10
VLM 领域自适应 强化学习

Reinforced Curriculum Pre-Alignment for Domain-Adaptive VLMs

Yuming Yan, Shuo Yang, Kai Tang et al.

提出了一种基于强化学习和课程学习的领域自适应VLM训练方法RCPA。

  • 提出了一种新的VLM后训练范式RCPA,用于领域自适应。
  • 引入课程感知的渐进调制机制,平衡领域知识学习和通用能力保持。
2026-02-11
9/10
视觉-语言-动作模型 无监督学习 状态预测

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Jingwen Sun, Wenyao Zhang, Zekun Qi et al.

VLA-JEPA通过无泄漏的状态预测,提升视觉-语言-动作模型在泛化性和鲁棒性方面的表现。

  • 提出了VLA-JEPA预训练框架,解决像素变化导致的偏差。
  • 引入了无泄漏状态预测,利用未来帧的潜在表示作为监督。
2026-02-10
7/10
扩散模型 语义分解 耦合推理

Coupled Inference in Diffusion Models for Semantic Decomposition

Calvin Yeung, Ali Zakeri, Zhuowen Zou et al.

提出基于扩散模型的耦合推理框架,用于语义分解任务,优于传统谐振器网络。

  • 提出基于扩散模型的语义分解框架
  • 引入重建驱动的引导项耦合扩散过程
2026-02-10
9/10
MLLM Vision Transformer Multi-task Learning

VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization

Yikun Liu, Yuan Liu, Shangzhe Di et al.

论文提出VersaViT,通过多任务协作训练优化MLLM中的视觉骨干网络,提升其在视觉任务上的性能。

  • 发现MLLM的视觉编码器在密集特征表示方面存在不足
  • 提出VersaViT,一种新型多任务协作训练框架
2026-02-10
9/10
多模态检索 基准数据集 知识推理

ARK: A Dual-Axis Multimodal Retrieval Benchmark along Reasoning and Knowledge

Yijie Lin, Guofeng Ding, Haochen Zhou et al.

提出了ARK基准,用于评估多模态检索在知识和推理方面的能力,并分析了现有模型的不足。

  • 提出了ARK基准数据集,包含知识领域和推理技能两个维度
  • 分析了现有模型在知识密集型和推理密集型检索中的差距
2026-02-10
9/10
语音LLM 多模态 端到端

Covo-Audio Technical Report

Wenfu Wang, Chenxing Li, Liqiang Zhang et al.

Covo-Audio提出了一个7B参数的端到端语音LLM,在多项任务中表现出色。

  • 提出了Covo-Audio模型
  • 验证了语音LLM在多种音频任务上的能力
2026-02-10
7/10
自监督学习 离散表示 表示学习

Self-Supervised Learning as Discrete Communication

Kawtar Zaher, Ilyass Moummad, Olivier Buisson et al.

提出一种基于离散通信的自监督学习方法,通过二元编码学习结构化视觉表示。

  • 将自监督学习建模为师生网络间的离散通信过程
  • 提出一种编码率正则化项,鼓励有效利用约束信道,促进结构化表示
2026-02-10
9/10
医学图像编辑 数据集 多模态学习

MieDB-100k: A Comprehensive Dataset for Medical Image Editing

Yongfan Lai, Wen Qian, Bo Liu et al.

MieDB-100k是一个大规模、高质量的医学图像编辑数据集,促进医学图像编辑模型的发展。

  • 构建大规模、高质量、多样化的医学图像编辑数据集MieDB-100k
  • 提出包含感知、修改和转换三种编辑任务的数据集分类方法
2026-02-10
9/10
谱聚类 视觉-语言模型 跨模态学习

Delving into Spectral Clustering with Vision-Language Representations

Bo Peng, Yuanwei Hu, Bo Liu et al.

该论文提出一种基于视觉-语言表征的谱聚类方法,显著提升了聚类性能。

  • 提出基于视觉-语言模型中跨模态对齐的谱聚类方法
  • 引入神经正切核并使用积极名词进行锚定
2026-02-10
9/10
多模态学习 细胞病理学 医学影像

Singpath-VL Technical Report

Zhen Qiu, Kaiwen Xiao, Zhengwei Lu et al.

Singpath-VL是一种用于宫颈细胞学AI辅助诊断的多模态大模型,通过合成数据集和微调实现。

  • 构建大规模宫颈细胞学图像-描述合成数据集
  • 提出基于Qwen3-VL-4B的宫颈细胞学专用MLLM Singpath-VL
2026-02-10
9/10
伪影检测 VLM 少量样本学习

ArtifactLens: Hundreds of Labels Are Enough for Artifact Detection with VLMs

James Burgess, Rameen Abdal, Dan Stoddart et al.

ArtifactLens利用少量标注数据,解锁预训练VLM的伪影检测能力,在AIGC领域实现SOTA。

  • 提出 ArtifactLens 系统,用少量标注数据实现高效伪影检测。
  • 在多个伪影数据集上取得了最先进的结果。
2026-02-10
9/10
Vision-Language Model Reinforcement Learning Self-Correction

Learning Self-Correction in Vision-Language Models via Rollout Augmentation

Yi Ding, Ziliang Qiu, Bolian Li et al.

该论文提出了一种通过rollout增强学习视觉语言模型自校正能力的方法,并在多个基准测试中取得了领先成果。

  • 提出了 correction-specific rollouts (Octopus) 框架,增强自校正示例
  • 引入 response-masking 策略,解耦自校正和直接推理
2026-02-09
9/10
Video Understanding In-Context Learning Multimodal Learning

Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

Yuhao Dong, Shulin Tian, Shuai Liu et al.

提出Demo-ICL任务和基准,用于评估MLLM从视频演示中学习的能力,并提出Demo-ICL模型。

  • 定义了Demo-driven Video In-Context Learning任务
  • 构建了Demo-ICL-Bench基准数据集
2026-02-09
9/10
e-commerce short video MLLM

E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs

Xianjie Liu, Yiman Hu, Liang Wu et al.

提出了电商短视频理解基准E-VAds,并设计了基于RL的推理模型E-VAds-R1。

  • 提出了多模态信息密度评估框架,量化了电商视频的复杂性
  • 构建了电商短视频理解基准E-VAds,包含高质量视频和开放式问答对
2026-02-09
9/10
multimodal reasoning image generation

UReason: Benchmarking the Reasoning Paradox in Unified Multimodal Models

Cheng Yang, Chufan Shi, Bo Shui et al.

论文提出了UReason基准测试,揭示了统一多模态模型中推理在视觉合成中的悖论现象。

  • 提出了UReason基准测试,包含2000个实例,覆盖五种推理任务。
  • 设计了一种评估框架,比较直接生成、推理引导生成和去语境化生成。
2026-02-09
9/10
视觉语言模型 潜在空间 政治倾向

Ethology of Latent Spaces

Philippe Boisnard

该论文研究了视觉语言模型(VLM)潜在空间的政治和文化倾向,揭示了模型间的显著差异。

  • 揭示了VLM潜在空间并非中性,存在模型特定敏感性
  • 提出了计算潜在政治化、涌现偏差等概念
2026-02-05
9/10
推荐系统 多模态学习 大型语言模型

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Yicheng Di, Zhanjie Zhang, Yun Wangc et al.

LMMRec利用LLM提取动机,融合多模态信息,提升推荐系统性能。

  • 提出LMMRec框架,利用LLM理解用户和物品动机
  • 采用双编码器结构和对比学习,实现跨模态对齐
2026-02-05
9/10
Vision-Language-Action Affordance Generalization Robotics

Benchmarking Affordance Generalization with BusyBox

Dean Fortier, Timothy Adamson, Tess Hellebrekers et al.

提出了BusyBox,一个评估VLA模型在操作具有熟悉物理特征的新物体时泛化能力的物理基准。

  • 提出了BusyBox基准,用于评估VLA模型的affordance generalization能力
  • BusyBox由可互换和旋转的模块组成,可创建具有不同外观但相同 affordance 的变体
2026-02-05
9/10
Multimodal Vision-Language Models Hallucination

Once Correct, Still Wrong: Counterfactual Hallucination in Multilingual Vision-Language Models

Basel Mousi, Fahim Dalvi, Shammur Chowdhury et al.

论文揭示了多语言视觉-语言模型在非西方文化背景下的反事实幻觉问题,并提出了新的评估基准。

  • 提出了M2CQA基准测试,用于评估中东北非文化背景下的多语言视觉-语言模型的反事实幻觉
  • 提出了CounterFactual Hallucination Rate (CFHR)指标,用于衡量模型在正确回答真实语句后接受反事实语句的可能性
2026-02-05
9/10
视觉推理 VLM 基准测试

VRIQ: Benchmarking and Analyzing Visual-Reasoning IQ of VLMs

Tina Khezresmaeilzadeh, Jike Zhong, Konstantinos Psounis

VRIQ基准测试VLMs的视觉推理能力,发现感知是主要瓶颈。

  • 提出VRIQ基准测试,评估VLMs的视觉推理能力
  • 分析了VLMs在视觉推理上的弱点,发现感知是主要瓶颈
2026-02-05
9/10
强化学习 多模态学习 注意力机制

Reinforced Attention Learning

Bangzheng Li, Jianmo Ni, Chen Qu et al.

RAL通过强化学习直接优化多模态LLM的内部注意力分布,提升感知能力和跨模态对齐。

  • 提出Reinforced Attention Learning (RAL)框架
  • 将强化学习应用于优化多模态LLM的注意力分布
2026-02-04
9/10
Vision-Language Model Token Composition Efficient Inference

When LLaVA Meets Objects: Token Composition for Vision-Language-Models

Soumya Jahagirdar, Walid Bousselham, Anna Kukleva et al.

Mask-LLaVA通过结合多层次视觉特征,实现了视觉语言模型的高效推理,减少了计算需求。

  • 提出Mask-LLaVA框架,利用多层次视觉特征进行高效视觉表示
  • 在测试时动态调整token数量,无需重新训练即可保持性能
2026-02-04
7/10
生成模型 漂移模型 单步生成

Generative Modeling via Drifting

Mingyang Deng, He Li, Tianhong Li et al.

提出漂移模型,通过演化分布进行生成建模,实现高质量单步生成。

  • 提出Drifting Models新范式
  • 实现训练中演化分布
2026-02-04
9/10
文本到图像生成 提示工程 交互式系统

Adaptive Prompt Elicitation for Text-to-Image Generation

Xinyi Wen, Lena Hegemann, Xiaofu Jin et al.

APE通过视觉查询交互式地帮助用户优化文本到图像生成的提示词,提升图像与用户意图的对齐。

  • 提出了自适应提示词诱导(APE)技术
  • 利用信息论框架形式化交互式意图推理
2026-02-04
9/10
Multimodal Learning Autoregressive Model Mixture-of-Experts

ERNIE 5.0 Technical Report

Haifeng Wang, Hua Wu, Tian Wu et al.

ERNIE 5.0 是一个统一多模态理解和生成的原生自回归基础模型,具有弹性训练和MoE架构。

  • 提出了统一多模态理解和生成的原生自回归基础模型ERNIE 5.0
  • 采用超稀疏混合专家(MoE)架构和模态无关的专家路由
2026-02-04
9/10
图像退化理解 Vision-Language Model 多模态学习

Understanding Degradation with Vision Language Model

Guanzhou Lan, Chenyi Liao, Yuqi Yang et al.

提出DU-VLM模型,用于理解图像退化并用于图像复原,通过分层结构预测任务和多模态链式思考实现。

  • 重新定义图像退化理解为分层结构预测任务
  • 提出DU-VLM模型,基于autoregressive next-token prediction范式
2026-02-04
9/10
Multimodal Reasoning Vision-Language Model

Vision-aligned Latent Reasoning for Multi-modal Large Language Model

Byungwoo Jeon, Yoonwoo Jeong, Hyunseok Lee et al.

VaLR通过动态生成视觉对齐的潜在token,提升MLLM在多步推理中的视觉信息保持能力。

  • 提出Vision-aligned Latent Reasoning (VaLR)框架
  • VaLR通过对齐MLLM中间嵌入与视觉编码器嵌入来保持视觉知识
2026-02-04
9/10
联邦学习 多模态学习 医学图像

Med-MMFL: A Multimodal Federated Learning Benchmark in Healthcare

Aavash Chhetri, Bibek Niroula, Pratik Shrestha et al.

提出了首个综合性的医学多模态联邦学习(MMFL)基准Med-MMFL,促进该领域研究。

  • 提出了医学多模态联邦学习基准Med-MMFL
  • 涵盖多种模态、任务和联邦场景
2026-02-04
9/10
多模态学习 视觉推理 自洽性

History-Guided Iterative Visual Reasoning with Self-Correction

Xinglong Yang, Zhilin Peng, Zhanzhan Liu et al.

提出H-GIVR框架,通过历史信息引导迭代视觉推理,动态纠错,提高多模态大模型的推理准确性。

  • 提出历史引导的迭代视觉推理框架H-GIVR
  • 利用历史推理信息动态纠正视觉理解错误
2026-02-04