Multimodal Learning
共 914 篇论文
Modulate-and-Map: Crossmodal Feature Mapping with Cross-View Modulation for 3D Anomaly Detection
ModMap通过跨模态特征映射和跨视角调制,在3D异常检测中取得了领先性能。
- 提出了ModMap框架,用于多视角多模态3D异常检测
- 引入了跨模态和跨视角的特征映射学习机制
Steerable Visual Representations
提出可控视觉表征,通过早期融合文本信息到视觉编码器中,实现对图像特征的精细控制。
- 提出可控视觉表征
- 提出早期融合文本和视觉信息的框架
A Simple Baseline for Streaming Video Understanding
提出SimpleStream基线,仅用滑动窗口即可媲美复杂流视频理解模型,揭示感知-记忆权衡。
- 提出了一个简单的滑动窗口基线SimpleStream
- 验证了SimpleStream在流视频理解任务上的有效性
VOID: Video Object and Interaction Deletion
提出VOID框架,利用因果推理和视频扩散模型实现物理上合理的视频对象移除。
- 提出了VOID视频对象移除框架
- 利用Kubric和HUMOTO生成了新的配对数据集
Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation
Omni123通过统一文本到2D和3D生成,利用2D数据提升3D建模效果。
- 提出3D-native的文本到2D/3D统一生成模型Omni123
- 引入图像和3D之间的跨模态一致性作为结构约束
Modular Energy Steering for Safe Text-to-Image Generation with Foundation Models
提出一种利用冻结的预训练模型进行安全文本到图像生成的推理时能量引导框架。
- 提出基于能量的文本到图像安全生成框架
- 利用视觉语言基础模型作为安全监督信号
SPAR: Single-Pass Any-Resolution ViT for Open-vocabulary Segmentation
SPAR提出了一种单次Any-Resolution ViT,通过知识蒸馏实现高效的高分辨率开放词汇分割。
- 提出了SPAR,一种resolution-agnostic的ViT
- 使用知识蒸馏将sliding-window teacher的空间推理能力传递给single-pass student
UAV-Track VLA: Embodied Aerial Tracking via Vision-Language-Action Models
提出UAV-Track VLA模型,用于提升无人机在复杂场景下的视觉-语言-动作跟踪能力。
- 构建大规模无人机视觉-语言-动作跟踪数据集和评估基准
- 提出UAV-Track VLA模型,引入时间压缩网络和空间感知双分支解码器
Impact of Multimodal and Conversational AI on Learning Outcomes and Experience
研究了多模态和对话式AI对视觉密集型STEM领域学习效果的影响。
- 比较了三种学习生物学的方法:MuDoC, TexDoC, DocSearch
- 发现MuDoC组学习效果最好,TexDoC组体验最好但效果最差
LEO: Graph Attention Network based Hybrid Multi Sensor Extended Object Fusion and Tracking for Autonomous Driving Applications
LEO利用图注意力网络融合多传感器数据,实现动态目标的形状和轨迹估计。
- 提出LEO:一个基于图注意力网络的时空模型,用于扩展对象的感知。
- 融合多模态传感器数据,学习自适应融合权重,提升感知精度。
UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving
UniDriveVLA通过专家解耦解决自动驾驶中感知和推理的冲突,实现统一的视觉-语言-动作模型。
- 提出UniDriveVLA模型,解耦感知和推理。
- 结合稀疏感知和三阶段训练提升空间感知。
TRU: Targeted Reverse Update for Efficient Multimodal Recommendation Unlearning
针对多模态推荐系统中数据难删除问题,提出TRU框架,实现有针对性的逆向更新,提升遗忘效果。
- 发现多模态推荐系统删除数据的影响是不均匀分布的。
- 提出targeted reverse update (TRU) 框架,包含 ranking fusion gate、branch-wise modality scaling 和 capacity-aware layer isolation 三个模块。
Cross-Modal Visuo-Tactile Object Perception
提出了Cross-Modal Latent Filter (CMLF)模型,用于机器人视觉-触觉融合的物理属性估计。
- 提出CMLF模型,用于视觉-触觉融合
- 支持视觉和触觉之间的双向先验传递
CASHG: Context-Aware Stylized Online Handwriting Generation
CASHG通过显式建模字符间连接,生成风格一致的在线手写体句子。
- 提出CASHG,一种上下文感知的在线手写体生成器
- 引入字符连接性和间距度量(CSM)评估方法
LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model
LatentUM通过共享潜在空间统一多模态表征,实现高效且无偏的跨模态推理和生成。
- 提出了LatentUM,一种新型统一模型。
- 消除了视觉理解和生成之间像素空间的依赖。
GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding
GroundVTS通过查询引导的视觉Token采样,提升视频大语言模型在时序定位任务上的性能。
- 提出 GroundVTS 架构,优化视频信息提取
- 引入细粒度查询引导的视觉 Token 过滤机制
PLUME: Latent Reasoning Based Universal Multimodal Embedding
PLUME提出一种基于隐变量推理的通用多模态嵌入框架,提升推理效率。
- 提出PLUME框架,用隐变量推理替代显式CoT。
- 引入语义锚点引导的过渡适配器,实现多样化的推理轨迹。
Mining Instance-Centric Vision-Language Contexts for Human-Object Interaction Detection
提出InCoM-Net,结合视觉语言模型和目标检测器,提升人-物交互检测性能。
- 提出Instance-centric Context Mining Network (InCoM-Net)
- 设计Instance-centric Context Refinement (ICR) 模块
COMPASS: Complete Multimodal Fusion via Proxy Tokens and Shared Spaces for Ubiquitous Sensing
COMPASS提出了一种基于代理令牌和共享空间的多模态融合框架,有效解决了模态缺失问题。
- 提出了一种基于代理令牌的模态缺失融合框架COMPASS
- 使用pairwise源到目标的生成器在共享潜在空间中合成代理令牌
Jagle: Building a Large-Scale Japanese Multimodal Post-Training Dataset for Vision-Language Models
提出了Jagle,一个大规模日语多模态后训练数据集,用于提升VLM在日语任务上的性能。
- 构建了迄今为止最大的日语多模态后训练数据集Jagle
- 提出了异构数据源的VQA pair生成方法,包括VLM生成、翻译和文本渲染
Why Gaussian Diffusion Models Fail on Discrete Data?
研究高斯扩散模型在离散数据生成上失效的原因,并提出了缓解方法。
- 发现了DDPM在离散数据上采样的关键问题:噪声数据密度多峰
- 提出了q-sampling方法缓解该问题
Are VLMs Lost Between Sky and Space? LinkS$^2$Bench for UAV-Satellite Dynamic Cross-View Spatial Intelligence
提出了LinkS$^2$Bench,用于评估VLM在无人机-卫星动态跨视角空间智能方面的能力。
- 构建了首个无人机-卫星动态跨视角空间智能基准测试集LinkS$^2$Bench
- 设计了Cross-View Alignment Adapter提升模型性能
Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation
MLLM视觉注意力具有惯性,阻碍认知推理,提出IVE方法打破惯性并提升认知能力。
- 发现MLLM视觉注意力的惯性问题
- 提出Inertia-aware Visual Excitation (IVE)方法
Curia-2: Scaling Self-Supervised Learning for Radiology Foundation Models
Curia-2通过优化预训练策略和扩展模型规模,显著提升了放射影像Foundation Models的性能。
- 改进了放射影像的预训练策略
- 构建了更大规模的多模态CT/MRI FM
Ego-Grounding for Personalized Question-Answering in Egocentric Videos
论文提出了MyEgo数据集,用于评估MLLM在理解和推理第一人称视角视频中自我相关信息的能力。
- 提出了MyEgo数据集,用于评估MLLM的自我认知能力
- 分析了现有MLLM在个性化VQA任务上的表现
Automated Prostate Gland Segmentation in MRI Using nnU-Net
使用nnU-Net自动分割MRI前列腺,实现高精度和泛化性,优于通用分割方法。
- 提出了一种基于nnU-Net v2的MRI前列腺自动分割方法
- 利用多模态mpMRI数据提高了分割精度
Captioning Daily Activity Images in Early Childhood Education: Benchmark and Algorithm
提出了一个针对幼儿教育图像描述的大规模数据集和混合训练框架,提升了专业对象描述的准确性。
- 构建了大规模幼儿教育图像描述数据集ECAC
- 提出了混合训练框架RSRS,动态切换RL和监督优化
Is Clinical Text Enough? A Multimodal Study on Mortality Prediction in Heart Failure Patients
研究了多模态Transformer在心衰患者短期死亡率预测中的应用,并对比了LLM的效果。
- 评估了text-only, structured-only, multimodal, LLM等多种方法在心衰死亡率预测中的性能
- 证明了实体级别的文本表示增强了CLS嵌入的预测效果
SURE: Synergistic Uncertainty-aware Reasoning for Multimodal Emotion Recognition in Conversations
SURE模型通过协同不确定性感知推理,提升对话场景下多模态情感识别的鲁棒性和上下文建模能力。
- 提出不确定性感知的专家混合模块
- 设计迭代推理模块进行多轮上下文推理
Enhancing Medical Visual Grounding via Knowledge-guided Spatial Prompts
论文提出KnowMVG框架,通过知识引导的空间提示增强医学图像视觉定位的精确性。
- 提出知识增强提示策略,编码短语相关的医学知识
- 提出全局-局部注意力机制,融合粗粒度全局信息和细粒度局部线索
Lifting Unlabeled Internet-level Data for 3D Scene Understanding
利用网络视频自动生成3D场景理解训练数据,提升模型性能。
- 提出了利用无标签网络视频自动生成3D场景训练数据的方法
- 分析了数据自动生成中的瓶颈并揭示关键因素
ProVG: Progressive Visual Grounding via Language Decoupling for Remote Sensing Imagery
ProVG通过解耦语言表达式,动态调节视觉注意力,实现遥感图像视觉定位的精度提升。
- 提出了一种新的遥感视觉定位框架ProVG。
- 引入 progressive cross-modal modulator 实现 coarse-to-fine 的视觉语言对齐。
Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance
VLM在几何变换下表现脆弱,缺乏鲁棒的空间不变性和等变性,空间推理能力不足。
- 揭示了VLM在几何变换下的脆弱性
- 系统评估了VLM在不同视觉领域(草图、照片、艺术)的表现
Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models
提出了一种感知驱动的策略优化PGPO,提升LVLM在多模态推理任务中的性能,通过动态调整token级别的优势函数。
- 提出了Token Visual Dependency的概念,量化视觉输入的信息增益。
- 引入了感知驱动的策略优化PGPO,动态重塑token级别的优势函数。
Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding
提出了 Ultrasound-CLIP 模型,用于提升超声图像文本理解能力,并在相关任务上取得了SOTA。
- 构建了大规模超声图像文本数据集 US-365K
- 建立了超声诊断分类体系 UDT
Causal Scene Narration with Runtime Safety Supervision for Vision-Language-Action Driving
提出Causal Scene Narration方法,通过因果场景叙述和运行时安全监督,提升自动驾驶VLA模型的性能。
- 提出Causal Scene Narration (CSN)方法
- 结合Simplex-based运行时安全监督
True (VIS) Lies: Analyzing How Generative AI Recognizes Intentionality, Rhetoric, and Misleadingness in Visualization Lies
研究多模态LLM识别可视化谎言的能力,并分析其潜在原因和意图。
- 构建可视化谎言和意图的分析框架
- 评估了16个先进的LLM在识别可视化谎言方面的能力
A ROS 2 Wrapper for Florence-2: Multi-Mode Local Vision-Language Inference for Robotic Systems
开发了Florence-2模型的ROS 2封装,支持多种交互模式,方便机器人系统集成视觉-语言模型。
- 提供 Florence-2 模型的 ROS 2 封装
- 支持连续、同步和异步三种交互模式
Property-Level Flood Risk Assessment Using AI-Enabled Street-View Lowest Floor Elevation Extraction and ML Imputation Across Texas
利用AI分析街景图像进行房产级洪水风险评估,并提出可行性方法。
- 提出基于街景图像的 LFE 提取和 ML 插补的洪水风险评估框架
- 构建了一个在德克萨斯州 18 个区域应用的三阶段流程
Lightweight Prompt-Guided CLIP Adaptation for Monocular Depth Estimation
MoA-DepthCLIP利用轻量级混合适配器和选择性微调,高效地将CLIP知识迁移到单目深度估计任务。
- 提出了轻量级混合适配器(MoA)模块
- 结合深度bin分类和直接回归的混合预测架构
ProOOD: Prototype-Guided Out-of-Distribution 3D Occupancy Prediction
ProOOD通过原型引导,提升3D语义占据预测的OOD检测能力,尤其针对长尾类数据。
- 提出ProOOD方法,融合原型引导的语义补全与尾部挖掘。
- 提出EchoOOD,结合logit一致性与原型匹配产生可靠的OOD评分。
PDA: Text-Augmented Defense Framework for Robust Vision-Language Models against Adversarial Image Attacks
PDA框架通过文本增强提升视觉-语言模型在对抗图像攻击下的鲁棒性,无需训练。
- 提出PDA框架,提升VLM的鲁棒性
- 利用文本增强(prompt paraphrasing, question decomposition, consistency aggregation)
Query-Conditioned Evidential Keyframe Sampling for MLLM-Based Long-Form Video Understanding
提出了一种基于信息瓶颈理论的查询条件式证据关键帧采样方法,提升MLLM在长视频理解任务上的性能。
- 提出了基于信息瓶颈理论的关键帧采样框架
- 设计了查询条件式证据评分网络
Multimodal Analysis of State-Funded News Coverage of the Israel-Hamas War on YouTube Shorts
分析YouTube Shorts上国家资助媒体对以哈冲突的多模态报道,揭示情绪和视觉线索。
- 提出一个结合自动转录、情感分析和场景分类的多模态分析流程
- 分析了2300个与冲突相关的Shorts和94000多个视觉帧
ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration
ACT通过自适应上下文整合,有效减少LVLM的幻觉问题,提升视觉-语言对齐效果。
- 提出视觉上下文探索,自适应增强视觉探索的注意力头
- 提出语义上下文聚合,有效聚合视觉证据,解决信息损失问题
YieldSAT: A Multimodal Benchmark Dataset for High-Resolution Crop Yield Prediction
YieldSAT数据集发布,用于高分辨率农作物产量预测,包含多模态数据和深度学习模型。
- 发布了大规模、高质量的农作物产量预测数据集YieldSAT
- 提出了基于深度学习的像素回归方法用于产量预测
Learning Quantised Structure-Preserving Motion Representations for Dance Fingerprinting
DANCEMATCH提出了一种端到端舞蹈检索框架,通过量化运动表示实现高效舞蹈指纹识别。
- 提出了DANCEMATCH框架,用于运动驱动的舞蹈检索。
- 引入Skeleton Motion Quantisation (SMQ) 和 Spatio-Temporal Transformers (STT) 编码人体姿势。
Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment
该论文系统评估了VLM在跨图示装配指令对齐任务中的表现,并分析了影响因素。
- 构建了IKEA-Bench基准数据集
- 评估了不同VLM在装配指令对齐任务上的性能
ProCap: Projection-Aware Captioning for Spatial Augmented Reality
ProCap通过解耦物理场景和投影内容,提升空间增强现实中视觉语言模型理解能力,并提出RGBP数据集。
- 提出ProCap框架,解耦物理场景和投影内容
- 构建RGBP数据集,包含SAR场景的密集标注
JAMMEval: A Refined Collection of Japanese Benchmarks for Reliable VLM Evaluation
论文提出JAMMEval,一个经过精细化处理的日语VLM评测基准,提升评测可靠性。
- 构建高质量日语VQA评测基准JAMMEval
- 通过人工标注改进数据质量和评测可靠性
PixelPrune: Pixel-Level Adaptive Visual Token Reduction via Predictive Coding
PixelPrune通过预测编码压缩,在ViT编码器前剪枝冗余像素块,加速VLM推理和训练。
- 提出PixelPrune,一种基于预测编码的像素级自适应视觉token剪枝方法
- PixelPrune在ViT编码器之前操作,加速整个推理pipeline
LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation
LinguDistill通过知识蒸馏恢复视觉语言模型在多模态适应中损失的语言能力,无需增加额外模块。
- 提出LinguDistill:一种adapter-free的知识蒸馏方法。
- 使用层级KV-cache共享,实现视觉条件下的教师模型监督。
Continual Vision-Language Learning for Remote Sensing: Benchmarking and Analysis
提出CLeaRS基准,评估遥感视觉语言模型在持续学习中的灾难性遗忘问题,并分析现有方法的局限性。
- 提出了CLeaRS遥感持续视觉语言学习基准
- 定义了三种评估协议:长时程、模态增量和任务增量
Multimodal Language Models Cannot Spot Spatial Inconsistencies
多模态大语言模型在空间一致性推理上表现不佳,无法识别3D空间矛盾。
- 提出了一种评估MLLM空间一致性的新任务
- 创建了一个可扩展的数据集生成方法
An Approach to Enriching Surgical Video Datasets for Fine-Grained Spatial-Temporal Understanding of Vision-Language Models
提出SurgSTU-Pipeline自动生成手术视频数据集,提升VLM对手术视频时空理解能力。
- 提出了SurgSTU-Pipeline,一个用于生成手术视频数据集的确定性流程
- 构建了包含15万个细粒度时空问答样本的SurgSTU数据集
ActivityNarrated: An Open-Ended Narrative Paradigm for Wearable Human Activity Understanding
提出了一种开放式可穿戴人体活动理解方法,通过自然语言描述对齐传感器数据。
- 提出了基于叙事的开放式人体活动理解框架
- 设计了自然的数据收集和标注流程
IWP: Token Pruning as Implicit Weight Pruning in Large Vision Language Models
提出一种基于注意力的视觉语言模型(LVLM)token剪枝方法,旨在提高效率,降低计算成本。
- 将token剪枝视为隐式权重剪枝
- 提出了基于信息量和信息冗余度的token选择指标
A Benchmark of State-Space Models vs. Transformers and BiLSTM-based Models for Historical Newspaper OCR
该论文提出了一种基于Mamba的OCR架构,并验证了其在效率和精度上优于Transformer和BiLSTM。
- 提出了首个基于SSM (Mamba) 的 OCR 架构
- 进行了大规模的 SSM、Transformer 和 BiLSTM OCR 性能基准测试
TTA-Vid: Generalized Test-Time Adaptation for Video Reasoning
TTA-Vid利用测试时强化学习,无需标注数据即可使视频理解模型适应新领域。
- 提出TTA-Vid,一种测试时视频理解自适应方法
- 使用批量感知频率奖励作为伪标签更新模型
CL-VISTA: Benchmarking Continual Learning in Video Large Language Models
CL-VISTA是为Video-LLM持续学习定制的基准,揭示了性能、效率和内存之间的权衡。
- 提出了CL-VISTA基准,用于评估Video-LLM的持续学习能力。
- 涵盖了8个多样化任务,有效暴露了灾难性遗忘问题。
KG-CMI: Knowledge graph enhanced cross-Mamba interaction for medical visual question answering
提出KG-CMI框架,融合知识图谱和Mamba交互,提升医学VQA性能,并实现自由形式答案生成。
- 提出知识图谱增强的跨模态Mamba交互框架KG-CMI
- 设计细粒度跨模态特征对齐模块FCFA
HarassGuard: Detecting Harassment Behaviors in Social Virtual Reality with Vision-Language Models
HarassGuard利用视觉-语言模型检测社交VR中的骚扰行为,保护用户隐私。
- 构建了基于视觉的骚扰行为数据集
- 提出了基于VLM的骚扰行为检测系统HarassGuard
Quantifying Cross-Modal Interactions in Multimodal Glioma Survival Prediction via InterSHAP: Evidence for Additive Signal Integration
通过InterSHAP量化多模态融合中信号交互,发现性能提升源于互补信号聚合而非协同作用。
- 验证了多模态融合性能提升不一定源于跨模态协同作用
- 提出了基于InterSHAP的量化多模态交互的方法
Trimodal Deep Learning for Glioma Survival Prediction: A Feasibility Study Integrating Histopathology, Gene Expression, and MRI
研究使用三模态深度学习(病理、基因、MRI)预测脑胶质瘤患者生存期,初步验证了MRI的潜在价值。
- 探索MRI在脑胶质瘤生存预测中的作用
- 提出融合病理、基因表达和MRI的三模态深度学习框架
Learning Structural-Functional Brain Representations through Multi-Scale Adaptive Graph Attention for Cognitive Insight
提出MAGNet,利用多尺度自适应图注意力网络融合结构和功能脑连接,提升认知功能预测。
- 提出MAGNet框架,融合结构和功能脑连接
- 利用Transformer-style图神经网络学习结构-功能交互
Scaling Video Pretraining for Surgical Foundation Models
SurgRec提出了一个可扩展和可复现的手术视频预训练框架,提升了手术视频理解能力。
- 构建了大规模手术视频数据集
- 提出了统一的预训练流水线
SurgTEMP: Temporal-Aware Surgical Video Question Answering with Text-guided Visual Memory for Laparoscopic Cholecystectomy
SurgTEMP通过分层视觉记忆和SCP训练,提升了手术视频问答在时间语义理解和多任务评估上的性能。
- 提出了SurgTEMP框架,融合了查询引导的token选择和手术能力发展(SCP)训练。
- 构建了包含32K问答对和3,855个视频片段的CholeVidQA-32K数据集。
EC-Bench: Enumeration and Counting Benchmark for Ultra-Long Videos
EC-Bench:长视频计数基准,挑战现有MLLM在长时间序列推理上的能力。
- 提出了EC-Bench,一个长视频枚举和计数基准。
- EC-Bench包含超过30分钟的长视频和相应的枚举证据。
Better than Average: Spatially-Aware Aggregation of Segmentation Uncertainty Improves Downstream Performance
该论文研究了分割不确定性聚合方法对下游任务的影响,并提出了空间感知的聚合策略。
- 分析了常用聚合策略的性质、局限性和陷阱
- 提出了新的空间不确定性结构聚合策略
ATP-Bench: Towards Agentic Tool Planning for MLLM Interleaved Generation
提出了用于评估MLLM交错生成Agentic Tool Planning能力的ATP-Bench基准,揭示了模型在连贯规划和工具使用上的不足。
- 提出了ATP-Bench基准,包含7702个QA对,覆盖8个类别和25个视觉关键意图
- 提出了Multi-Agent MLLM-as-a-Judge (MAM)系统,用于评估工具调用精度
Less Is More? Selective Visual Attention to High-Importance Regions for Multimodal Radiology Summarization
提出ViTAS模型,通过选择性关注病灶区域图像,显著提升了多模态放射学报告摘要的生成效果。
- 提出ViTAS模型,通过关注病灶区域而非全图提升性能
- 使用 MedSAM2 进行肺部分割,并结合 Shapley 值进行自适应补丁聚类
DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA
DIAL通过解耦意图和动作,利用潜在世界建模,提升VLA模型性能并减少数据依赖。
- 提出DIAL框架,解耦高层决策和底层动作。
- 利用VLM进行潜在世界建模,显式编码意图。
Multimodal Machine Learning for Early Prediction of Metastasis in a Swedish Multi-Cancer Cohort
该论文利用多模态机器学习预测四种癌症的转移风险,提升预测准确率。
- 提出了一个预测癌症转移风险的多模态机器学习框架
- 比较了传统和深度学习分类器在单模态和多模态组合上的表现
From Skeletons to Semantics: Design and Deployment of a Hybrid Edge-Based Action Detection System for Public Safety
针对公共安全,提出一种结合骨骼动作分析和视觉-语言模型的混合边缘行为检测系统。
- 设计并部署混合边缘行为检测系统
- 比较骨骼动作分析和视觉-语言模型的性能
TSHA: A Benchmark for Visual Language Models in Trustworthy Safety Hazard Assessment Scenarios
论文提出了TSHA基准,用于评估视觉语言模型在可信安全风险评估中的能力,解决了现有基准的局限性。
- 构建了更真实的TSHA基准数据集,包含多种来源的数据
- 提出了更全面的安全评估任务和评估协议
Mind the Gap: A Framework for Assessing Pitfalls in Multimodal Active Learning
该论文提出了评估多模态主动学习陷阱的框架,揭示了现有方法在模态平衡上的不足。
- 提出了多模态主动学习的基准测试框架
- 分析了多模态主动学习中存在的模态不平衡问题
A Comprehensive Information-Decomposition Analysis of Large Vision-Language Models
该论文利用信息分解方法分析LVLM的决策过程,揭示其多模态融合和单模态先验依赖。
- 提出了一种使用部分信息分解(PID)的新框架,用于量化评估LVLM的信息谱。
- 揭示了两种任务模式(协同驱动 vs. 知识驱动)和两种模型策略(融合中心 vs. 语言中心)。
Storing Less, Finding More: How Novelty Filtering Improves Cross-Modal Retrieval on Edge Cameras
提出一种新型边缘相机跨模态检索架构,通过新颖性过滤提升检索性能。
- 提出基于epsilon-net的边缘设备新颖性过滤器
- 设计跨模态适配器和云端重排序器
BigEarthNet.txt: A Large-Scale Multi-Sensor Image-Text Dataset and Benchmark for Earth Observation
提出了大规模多传感器遥感图像-文本数据集BigEarthNet.txt,用于提升遥感领域视觉-语言模型性能。
- 构建了大规模多传感器遥感图像-文本数据集BigEarthNet.txt
- 数据集包含多种类型的文本标注,包括地理锚定的描述、视觉问答对和指代表达式检测指令
Quantization with Unified Adaptive Distillation to enable multi-LoRA based one-for-all Generative Vision Models on edge
提出QUAD框架,通过量化和知识蒸馏实现多LoRA共享模型在边缘设备上的高效部署。
- 提出QUAD量化感知训练策略
- 设计统一的LoRA权重处理框架,支持动态任务切换
Calibrated Confidence Expression for Radiology Report Generation
ConRad通过强化学习微调医学LVLM,生成校准的置信度表达,提升放射报告生成的安全性。
- 提出 ConRad 框架,提升放射报告置信度校准
- 采用 GRPO 算法,基于对数评分规则训练模型
M-MiniGPT4: Multilingual VLLM Alignment via Translated Data
M-MiniGPT4通过混合数据和多语言对齐训练,提升了多语言视觉语言理解能力,并在MMMU上取得了优秀表现。
- 提出M-MiniGPT4多语言视觉大语言模型
- 使用混合多语言数据提升VLU性能
Few-shot Writer Adaptation via Multimodal In-Context Learning
提出了一种基于多模态上下文学习的少样本手写体风格迁移方法,无需参数更新即可实现。
- 提出了一种上下文驱动的HTR框架
- 设计了一个紧凑的CNN-Transformer模型
SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering
SeGPruner通过语义和几何引导的token修剪,提升3D问答的效率,并保持性能。
- 提出SeGPruner框架,用于3D QA中多视角图像的token缩减。
- 使用注意力机制的显著性token选择器,保留语义相关的token。
Seeing the Evidence, Missing the Answer: Tool-Guided Vision-Language Models on Visual Illusions
提出了一种工具引导的推理框架,解决VLM在视觉错觉上的系统性偏差问题。
- 提出了一种基于图像操作工具的通用推理框架
- 该框架无需模型训练即可解决视觉错觉问题
A2BFR: Attribute-Aware Blind Face Restoration
A$^2$BFR通过属性感知学习和语义双重训练,实现了高保真和可控的盲脸修复。
- 提出了A$^2$BFR框架,结合高保真重建和提示控制生成
- 引入属性感知学习,利用面部属性嵌入监督去噪潜在空间
Multimodal Models Meet Presentation Attack Detection on ID Documents
研究多模态模型在身份证件PAD中的应用,但实验结果表明效果不佳。
- 探索多模态模型在身份验证PAD中的应用
- 使用预训练模型Paligemma, Llava, Qwen
Adversarial Prompt Injection Attack on Multimodal Large Language Models
研究针对多模态大语言模型(MLLM)的不可察觉视觉提示注入攻击,提升攻击的有效性和隐蔽性。
- 提出了一种基于对抗性提示的视觉注入攻击方法。
- 设计了一种自适应嵌入恶意提示到图像中的方法,通过有界文本叠加实现语义引导。
AGFT: Alignment-Guided Fine-Tuning for Zero-Shot Adversarial Robustness of Vision-Language Models
AGFT通过对齐视觉特征和文本嵌入,提升视觉-语言模型在零样本对抗攻击下的鲁棒性。
- 提出了对齐引导的微调框架(AGFT)
- 利用软对齐分布进行文本引导的对抗训练
Hybrid Quantum-Classical Spatiotemporal Forecasting for 3D Cloud Fields
提出QENO,一种混合量子-经典时空预测框架,用于三维云场预测,效果优于现有模型。
- 提出QENO框架,融合量子计算和经典方法
- 引入拓扑感知量子增强模块,建模非局部耦合
Hallucination-aware intermediate representation edit in large vision-language models
提出一种幻觉感知的中间表示编辑框架,有效且高效地消除多模态大模型的幻觉问题。
- 提出幻觉感知的中间表示检测和编辑框架
- 在现有benchmark上取得SOTA性能
Assessing Multimodal Chronic Wound Embeddings with Expert Triplet Agreement
论文提出TriDerm框架,利用专家知识评估多模态慢性伤口嵌入,提升RDEB疾病相似病例检索效果。
- 提出TriDerm框架,融合图像、掩码和专家报告学习伤口表示
- 利用专家三元组判断评估嵌入空间,快速收集临床相似性知识
On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers
提出一种新颖的上下文空间排斥方法,用于提升Diffusion Transformer的图像生成多样性,同时保持图像质量和语义一致性。
- 提出在Contextual Space中进行排斥的新框架
- 实现生成多样性与视觉保真度之间的平衡
See it to Place it: Evolving Macro Placements with Vision-Language Models
提出VeoPlace,利用视觉语言模型指导芯片布局,显著提升芯片设计性能。
- 提出VeoPlace框架,利用VLM指导芯片布局
- 无需微调VLM即可实现性能提升
SOLE-R1: Video-Language Reasoning as the Sole Reward for On-Robot Reinforcement Learning
SOLE-R1利用视频语言模型进行机器人强化学习,无需人工奖励。
- 提出SOLE-R1模型,作为机器人强化学习的唯一奖励信号。
- 开发大规模视频轨迹和推理合成流水线,生成时序对齐的CoT轨迹。
AdaptToken: Entropy-based Adaptive Token Selection for MLLM Long Video Understanding
AdaptToken提出一种基于熵的自适应token选择框架,用于提升MLLM长视频理解能力。
- 提出基于模型不确定性的全局控制信号,用于长视频token选择。
- 提出AdaptToken框架,通过熵估计提示相关性,进行token预算分配。
Seeing with You: Perception-Reasoning Coevolution for Multimodal Reasoning
PRCO通过双角色强化学习,解耦感知与推理优化,提升多模态推理性能。
- 提出了PRCO框架,解耦感知和推理的优化目标
- 设计了观察者和解决者双角色,分别负责提取证据和预测答案
ResAdapt: Adaptive Resolution for Efficient Multimodal Reasoning
ResAdapt通过自适应分辨率分配,提升了多模态大模型在低视觉预算下的推理效率。
- 提出ResAdapt框架,实现输入侧的自适应分辨率分配
- 使用Cost-Aware Policy Optimization (CAPO)训练分配器
Unsafe2Safe: Controllable Image Anonymization for Downstream Utility
Unsafe2Safe提出了一种自动化的图像匿名化流程,保证隐私的同时维持图像效用。
- 提出了一种全自动的图像匿名化pipeline
- 设计了一个综合的匿名化质量评估标准
Navigating the Mirage: A Dual-Path Agentic Framework for Robust Misleading Chart Question Answering
ChartCynics框架通过双路径和Agent技术,显著提升了模型在欺骗性图表问答中的鲁棒性。
- 提出 ChartCynics 双路径Agent框架
- 设计诊断视觉路径和 OCR驱动数据路径
XSPA: Crafting Imperceptible X-Shaped Sparse Adversarial Perturbations for Transferable Attacks on VLMs
提出一种X形稀疏像素攻击(XSPA),用于评估视觉语言模型在跨任务上的鲁棒性。
- 提出了一种新型的稀疏、结构化的对抗攻击方法XSPA。
- 证明了即使是高度稀疏和视觉上难以察觉的扰动也能显著破坏VLMs的跨任务语义。
StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation
提出StreamingVLA模型,通过并行VLA阶段,减少延迟和执行停顿,提高效率。
- 提出动作流匹配,消除对动作分块的依赖。
- 设计自适应观察机制,并行执行和观察阶段。
Domain-Invariant Prompt Learning for Vision-Language Models
DiCoOp通过对抗训练扩展CoOp,学习领域不变的视觉语言模型Prompt,提升领域泛化能力。
- 提出Domain-invariant Context Optimization (DiCoOp)
- 使用对抗训练学习领域不变的prompt
Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model
Hydra将文档检索和生成统一到单个视觉-语言模型中,降低了内存和复杂度。
- 提出了Hydra双头架构,实现检索和生成统一
- 通过LoRA适配器实现检索功能切换,不影响生成质量
MarkushGrapher-2: End-to-end Multimodal Recognition of Chemical Structures
提出MarkushGrapher-2,用于端到端多模态识别化学结构,性能优于现有方法。
- 提出MarkushGrapher-2端到端多模态识别方法
- 构建大规模Markush结构数据集
Generalizable Detection of AI Generated Images with Large Models and Fuzzy Decision Tree
提出一种结合轻量级伪影检测器和MLLM的AI生成图像检测框架,提升检测精度和泛化性。
- 提出基于模糊决策树的融合框架
- 结合低级伪影和高级语义特征
MRI-to-CT synthesis using drifting models
提出一种基于漂移模型的MRI到CT合成方法,在骨盆CT图像合成上优于现有方法。
- 提出漂移模型用于MRI到CT合成
- 证明漂移模型在图像质量和效率上的优势
AceleradorSNN: A Neuromorphic Cognitive System Integrating Spiking Neural Networks and DynamicImage Signal Processing on FPGA
提出AceleradorSNN,一种基于SNN和动态ISP的FPGA加速的神经形态认知系统。
- 设计了基于SNN的神经形态处理单元(NPU)
- 设计了动态可重构的认知图像信号处理器(ISP)
Unified Restoration-Perception Learning: Maritime Infrared-Visible Image Fusion and Segmentation
提出用于海事场景红外-可见光图像融合和分割的统一复原-感知学习框架。
- 构建红外-可见光海事船舶数据集(IVMSD)
- 提出多任务互补学习框架(MCLF)
EdgeDiT: Hardware-Aware Diffusion Transformers for Efficient On-Device Image Generation
EdgeDiT通过硬件感知优化,实现Diffusion Transformer在移动NPU上的高效图像生成。
- 提出硬件感知的EdgeDiT架构
- 针对移动NPU优化DiT
The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation
临床VLM评估中,提示词框架(scaffold effect)会导致虚假的多模态性能提升,而非真正的信息融合。
- 揭示了临床VLM评估中的“scaffold effect”现象
- 证明了提示词框架对VLM性能的显著影响,即使在没有实际多模态信息的情况下
Membership Inference Attacks against Large Audio Language Models
首次系统评估大型音频语言模型(LALM)的成员推断攻击(MIA),并提出了避免虚假相关性的评估方法。
- 揭示了音频数据中的分布偏移会导致LALM的虚假MIA性能。
- 提出了基于文本、频谱和韵律特征的多模态盲基线,用于评估分布偏移的影响。
AutoCut: End-to-end advertisement video editing based on multimodal discretization and controllable generation
AutoCut是一个端到端的广告视频编辑框架,通过多模态分词和可控生成提高效率和降低成本。
- 提出AutoCut端到端广告视频编辑框架
- 使用多模态分词构建共享视频-音频-文本空间
SEA: Evaluating Sketch Abstraction Efficiency via Element-level Commonsense Visual Question Answering
提出SEA指标评估草图抽象效率,并构建了CommonSketch数据集。
- 提出SEA指标,评估草图抽象效率
- 构建了CommonSketch数据集,包含元素级别标注
Optimized Weighted Voting System for Brain Tumor Classification Using MRI Images
论文提出一种加权集成学习方法,结合深度学习和传统机器学习模型,用于脑肿瘤MRI图像分类。
- 提出基于加权投票的集成学习框架
- 结合深度学习和传统机器学习方法
VistaGEN: Consistent Driving Video Generation with Fine-Grained Control Using Multiview Visual-Language Reasoning
VistaGEN通过多视角视觉语言推理实现可控、一致的驾驶视频生成。
- 提出VistaGEN,实现细粒度控制的驾驶视频生成
- 引入多视角视觉语言推理,提升时空一致性
Integrating Multimodal Large Language Model Knowledge into Amodal Completion
提出AmodalCG框架,利用多模态大语言模型指导残缺图像补全,提升了补全效果。
- 利用MLLM知识指导残缺图像补全
- 提出AmodalCG框架,融合MLLM推理和视觉生成模型
LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models
LIBERO-Para基准测试VLA模型在指令复述下的鲁棒性,发现性能显著下降,并提出PRIDE度量指标。
- 构建了LIBERO-Para基准测试,用于评估VLA模型在指令复述下的鲁棒性。
- 发现了VLA模型在指令复述下性能显著下降,尤其是在物体层面。
TwinMixing: A Shuffle-Aware Feature Interaction Model for Multi-Task Segmentation
TwinMixing是一种轻量级多任务分割模型,专为自动驾驶环境下的车道线和可行驶区域分割设计。
- 提出了高效金字塔混合(EPM)模块,增强多尺度特征提取
- 设计了双分支上采样(DBU)块,实现精细且空间一致的特征重建
Explaining CLIP Zero-shot Predictions Through Concepts
EZPC通过将CLIP的预测与人类可理解的概念对齐,实现了零样本图像识别的可解释性。
- 提出了EZPC模型,连接了CLIP和概念瓶颈模型。
- 通过对齐和重构目标学习概念空间映射。
PReD: An LLM-based Foundation Multimodal Model for Electromagnetic Perception, Recognition, and Decision
PReD是首个电磁领域的多模态大模型,实现感知、识别、决策的智能闭环。
- 构建高质量多任务电磁数据集PReD-1.3M
- 提出电磁领域多模态基础模型PReD
Robust Remote Sensing Image-Text Retrieval with Noisy Correspondence
针对遥感图像-文本检索中噪声对应问题,提出鲁棒检索框架RRSITR,提升模型在噪声环境下的性能。
- 提出鲁棒遥感图像-文本检索范式RRSITR
- 设计自步学习策略应对噪声对应问题
ORACAL: A Robust and Explainable Multimodal Framework for Smart Contract Vulnerability Detection with Causal Graph Enrichment
ORACAL利用异构多模图学习和因果推理,提升智能合约漏洞检测的准确性和可解释性。
- 提出ORACAL框架,融合CFG、DFG和CG。
- 利用RAG和LLM增强图的关键子图。
MedLoc-R1: Performance-Aware Curriculum Reward Scheduling for GRPO-Based Medical Visual Grounding
针对医学图像视觉定位中奖励稀疏问题,提出基于性能感知的课程奖励调度框架MedLoc-R1。
- 提出了基于性能感知的课程奖励调度框架MedLoc-R1。
- 引入滑动窗口性能追踪器和多条件更新规则,自动调整奖励策略。
$AutoDrive\text{-}P^3$: Unified Chain of Perception-Prediction-Planning Thought via Reinforcement Fine-Tuning
AutoDrive-P3通过强化微调整合感知、预测和规划链式推理,提升端到端自动驾驶性能。
- 提出AutoDrive-P3框架,整合感知、预测和规划
- 构建P3-CoT数据集,促进连贯推理
Quid est VERITAS? A Modular Framework for Archival Document Analysis
VERITAS框架将文档数字化重构为集成工作流,提升转录质量和下游应用。
- 提出VERITAS模块化框架,用于档案文档分析
- 实现了转录、版面分析和语义增强的集成
Vega: Learning to Drive with Natural Language Instructions
提出了一种基于视觉-语言-世界-行动模型的自动驾驶方案,并构建了大规模指令驾驶数据集。
- 构建了包含多样指令的InstructScene数据集
- 提出了统一的视觉-语言-世界-行动模型Vega
SlotVTG: Object-Centric Adapter for Generalizable Video Temporal Grounding
提出SlotVTG,通过轻量级slot adapter提升MLLM在视频时序定位任务中的泛化能力。
- 提出SlotVTG框架,利用slot attention进行对象中心视觉推理
- 引入objectness priors鼓励语义一致的slot形成
PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference
PackForcing通过分层KV-cache策略,实现短视频训练到长视频生成的高效迁移。
- 提出三分区KV-cache策略
- 引入动态top-k上下文选择机制
No Hard Negatives Required: Concept Centric Learning Leads to Compositionality without Degrading Zero-shot Capabilities of Contrastive Models
提出概念中心学习方法,提升对比视觉语言模型在组合性任务上的表现,同时保持零样本能力。
- 提出概念中心学习框架,解决视觉语言模型的组合性问题。
- 使用短概念中心标题部分对齐图像。
R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning
提出R-C2框架,通过跨模态循环一致性增强多模态推理,提高模型理解能力。
- 提出R-C2框架,利用循环一致性进行多模态学习
- 引入无标签的循环一致性奖励信号
Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models
针对视频世界模型中动态物体遮挡问题,提出混合记忆和新数据集,实现更好的动态物体建模。
- 提出混合记忆机制,区分静态背景和动态物体
- 构建HM-World数据集,用于评估混合记忆模型
Seeing to Ground: Visual Attention for Hallucination-Resilient MDLLMs
论文提出VISAGE框架,通过校准目标函数,减少多模态大语言模型中的幻觉问题。
- 提出VISAGE框架,用于减少多模态幻觉
- 分析了多模态幻觉的根本原因:目标不匹配
Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming
提出一种基于自回归缩放的跨视角地理定位方法,无需对比学习,性能优于传统方法。
- 提出自回归缩放方法进行跨视角地理定位
- 提出新的更真实的跨视角地理定位基准
Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos
构建了大规模结肠镜视频数据集Colon-Bench,并评估了MLLM在该数据集上的性能。
- 构建了大规模、多类别、密集标注的结肠镜视频数据集Colon-Bench
- 提出了一个多阶段agentic workflow用于高效标注结肠镜视频
LanteRn: Latent Visual Structured Reasoning
LanteRn通过在LLM中引入紧凑的潜在视觉表征,提升了多模态推理中细粒度的视觉理解能力。
- 提出了 LanteRn 框架,允许 LMM 在潜在空间中进行视觉推理
- 使用监督微调和强化学习训练模型,对齐视觉特征和任务效用
Demographic Fairness in Multimodal LLMs: A Benchmark of Gender and Ethnicity Bias in Face Verification
研究了MLLM在人脸验证任务中的性别和种族偏见,并进行了基准测试。
- 评估了多个开源MLLM在人脸验证任务中的公平性。
- 揭示了MLLM在不同人口群体中的偏见模式。
Hierarchy-Guided Multimodal Representation Learning for Taxonomic Inference
提出层级引导的多模态表示学习方法,用于解决生物分类推断问题,提升分类准确率。
- 提出Hierarchical Information Regularization (HiR)进行层级信息编码
- 设计CLiBD-HiR和CLiBD-HiR-Fuse两种变体
GeoHeight-Bench: Towards Height-Aware Multimodal Reasoning in Remote Sensing
提出了针对遥感图像高度感知能力的多模态大模型评估框架与基线模型。
- 构建了用于相对高度分析的GeoHeight-Bench基准。
- 构建了更具挑战性的地形感知推理GeoHeight-Bench+基准。
Towards Comprehensive Real-Time Scene Understanding in Ophthalmic Surgery through Multimodal Image Fusion
该论文提出了一种多模态图像融合方法,用于眼科手术中的实时场景理解,提高了手术器械跟踪精度。
- 提出了一种多模态、时序、实时的网络架构
- 引入交叉注意力融合模块融合OPMI和iOCT图像特征
Missing-Aware Multimodal Fusion for Unified Microservice Incident Management
针对微服务事件管理中数据缺失问题,提出了一种鲁棒的自监督多模态融合框架ARMOR。
- 提出了 modality-specific asymmetric encoder,隔离模态间差异。
- 设计了 missing-aware gated fusion机制,减少数据缺失干扰。
Humans vs Vision-Language Models: A Unified Measure of Narrative Coherence
该论文比较了人类和视觉-语言模型在视觉故事叙事连贯性上的差异。
- 提出一套衡量叙事连贯性的指标
- 对比分析了人类和VLM生成故事的连贯性
BFMD: A Full-Match Badminton Dense Dataset for Dense Shot Captioning
提出了一个羽毛球全场比赛密集标注数据集BFMD,并构建了基于VideoMAE的多模态字幕生成框架。
- 构建了首个羽毛球全场比赛密集标注数据集BFMD
- 提出了基于VideoMAE的多模态字幕生成框架
Challenges in Hyperspectral Imaging for Autonomous Driving: The HSI-Drive Case
分析高光谱成像在自动驾驶中应用的挑战,并基于HSI-Drive数据集进行实验。
- 分析高光谱成像在自动驾驶中的挑战
- 探讨适用于自动驾驶的HSI技术
GridVAD: Open-Set Video Anomaly Detection via Spatial Reasoning over Stratified Frame Grids
GridVAD提出了一种基于视觉-语言模型的无训练视频异常检测方法,利用空间推理生成像素级异常掩码。
- 提出了GridVAD框架,一个无需训练的视频异常检测流程
- 利用视觉-语言模型生成异常提议
From Manipulation to Mistrust: Explaining Diverse Micro-Video Misinformation for Robust Debunking in the Wild
该论文提出了一个大规模微视频假新闻基准和基于多智能体推理的检测框架,有效提升了假新闻的检测性能。
- 构建了大规模微视频假新闻基准 WildFakeBench
- 提出了基于多智能体推理的假新闻检测框架 FakeAgent
VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents
VideoWeaver是首个多模态多视角视频转换框架,用于具身智能体环境重构,实现视角一致性。
- 提出了多视角视频到视频的转换框架VideoWeaver
- 利用共享4D潜在空间实现视角一致性
HiSpatial: Taming Hierarchical 3D Spatial Understanding in Vision-Language Models
HiSpatial提出分层框架提升VLM的3D空间理解能力,并构建数据集和RGB-D VLM,在多个基准测试中达到SOTA。
- 提出分层框架分解3D空间理解任务
- 构建大规模3D空间VQA数据集
Shape and Substance: Dual-Layer Side-Channel Attacks on Local Vision-Language Models
针对本地视觉语言模型,论文提出双层侧信道攻击,泄露输入图像的几何信息和语义内容。
- 揭示动态高分辨率预处理引入的侧信道漏洞
- 提出基于执行时间和缓存争用的双层攻击框架
LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior
LaMP利用3D场景流作为运动先验,提升机器人操作任务中的视觉-语言-动作策略。
- 提出LaMP框架,融合视觉、语言和动作,利用3D场景流作为运动先验。
- 设计Motion Expert和Action Expert,通过门控交叉注意力进行信息融合。
Multimodal Dataset Distillation via Phased Teacher Models
提出一种新型多模态数据集蒸馏框架PTM-ST,有效提升学生模型性能并降低存储开销。
- 提出Phased Teacher Model with Shortcut Trajectory (PTM-ST)框架
- 解决多模态数据集蒸馏中跨阶段性能差距和教师模型不稳定的问题
Towards Controllable Low-Light Image Enhancement: A Continuous Multi-illumination Dataset and Efficient State Space Framework
提出可控的低光照图像增强框架CLE-RWKV,并构建了新的多光照数据集Light100。
- 提出了可控低光照增强(CLE)的概念
- 构建了包含连续光照过渡的Light100数据集
CSI-tuples-based 3D Channel Fingerprints Construction Assisted by MultiModal Learning
论文提出了一种基于CSI-tuples和多模态学习的3D信道指纹构建框架,提高低空通信环境感知精度。
- 提出基于CSI-tuples的3D信道指纹模型
- 设计了包含Corr-MMF、MMR和CSI-R模块的多模态框架
EagleNet: Energy-Aware Fine-Grained Relationship Learning Network for Text-Video Retrieval
EagleNet通过细粒度关系学习和能量感知匹配,提升文本-视频检索性能。
- 提出细粒度关系学习机制(FRL),学习文本和帧之间的关系。
- 设计能量感知匹配(EAM)来建模文本-帧交互的能量。
Hyperspectral Trajectory Image for Multi-Month Trajectory Anomaly Detection
提出TITAnD,通过将轨迹转换为高光谱图像,利用Transformer进行多月轨迹异常检测。
- 提出高光谱轨迹图像(HTI)表示轨迹数据
- 引入循环因子分解Transformer (CFT)模型
Activation Matters: Test-time Activated Negative Labels for OOD Detection with Vision-Language Models
提出TANL方法,通过激活的负标签提升视觉-语言模型在OOD检测中的性能。
- 提出测试时激活负标签(TANL)方法,动态评估激活水平并选择高激活的负标签。
- 设计了一种标签激活度量标准,利用历史测试样本自适应对齐测试分布。
Probabilistic Concept Graph Reasoning for Multimodal Misinformation Detection
提出PCGR框架,利用概率概念图推理提升多模态错误信息检测的准确性和可解释性。
- 提出PCGR框架,实现可解释的多模态错误信息检测
- 利用MLLM自动发现和验证高层概念
Photon: Speedup Volume Understanding with Efficient Multimodal Large Language Models
Photon通过自适应token压缩加速3D医学影像多模态大语言模型在视觉问答中的应用。
- 提出instruction-conditioned token scheduling和surrogate gradient propagation自适应压缩token
- 引入带梯度恢复的自定义反向传播规则,优化离散token丢弃
Learning to Rank Caption Chains for Video-Text Alignment
提出基于排序优化的视频文本对齐方法,并发现视觉编码器微调的重要性。
- 提出基于排序的优化方法,提升视频文本对齐效果
- 通过caption degradation生成大规模caption chain
SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment
SAVe提出了一种自监督音视频深度伪造检测框架,利用视觉伪影和音视频错位。
- 提出一种自监督学习的音视频深度伪造检测框架
- 利用身份保持、区域感知自混合伪造样本模拟篡改伪影
AnyDoc: Enhancing Document Generation via Large-Scale HTML/CSS Data Synthesis and Height-Aware Reinforcement Optimization
AnyDoc框架通过大规模HTML/CSS数据合成和高度感知强化学习优化文档生成,效果显著。
- 提出了AnyDoc框架,用于统一处理多种文档生成任务
- 构建了大规模HTML/CSS文档数据集DocHTML
MoireMix: A Formula-Based Data Augmentation for Improving Image Classification Robustness
提出一种基于莫尔干涉的公式化数据增强方法,提升图像分类模型的鲁棒性。
- 提出了一种新的基于莫尔干涉的数据增强方法
- 该方法计算开销小,无需外部数据
MSRL: Scaling Generative Multimodal Reward Modeling via Multi-Stage Reinforcement Learning
MSRL通过多阶段强化学习提升多模态奖励模型,解决标注数据不足问题,性能显著提升。
- 提出了一种多阶段强化学习(MSRL)方法,用于扩展多模态奖励模型(MRM)的训练。
- 设计了跨模态知识蒸馏方法,以提高MSRL中的偏好泛化能力。
Label What Matters: Modality-Balanced and Difficulty-Aware Multimodal Active Learning
提出RL-MBA框架,解决多模态主动学习中模态平衡和难度感知问题,提高模型性能和公平性。
- 提出RL-MBA框架
- 设计自适应模态贡献平衡(AMCB)机制
Layer-Specific Lipschitz Modulation for Fault-Tolerant Multimodal Representation Learning
提出一种用于容错多模态表示学习的层特异性Lipschitz调制框架。
- 提出基于Lipschitz和Jacobian的故障敏感性度量
- 设计了两阶段自监督训练方案,增强异常检测和纠正能力
TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models
提出TAG,通过目标无关的指导来提升VLA模型在复杂场景下的目标定位准确性和鲁棒性。
- 提出了TAG: 一种推理时的指导机制,用于减少VLA策略中的干扰和外观偏差。
- TAG不修改策略架构,易于集成到现有VLA策略中。
Vision-Language Models vs Human: Perceptual Image Quality Assessment
该论文评估了视觉语言模型在图像质量评估任务中与人类感知的对齐程度,并分析了不同属性的影响。
- 系统性地对比了六个VLMs与人类在图像质量评估上的表现
- 揭示了VLMs在不同图像质量属性(对比度、色彩度)上的表现差异
VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models
提出VFIG,一个基于视觉语言模型的复杂图形矢量化方法,并构建了大规模数据集和评估基准。
- 提出VFIG模型,用于图到SVG的高保真转换
- 构建了大规模数据集VFIG-DATA
POLY-SIM: Polyglot Speaker Identification with Missing Modality Grand Challenge 2026 Evaluation Plan
POLY-SIM挑战赛旨在推动缺失模态和跨语言环境下多模态说话人识别的研究。
- 设计POLY-SIM 2026挑战赛
- 提供标准化基准和评估框架
LensWalk: Agentic Video Understanding by Planning How You See in Videos
LensWalk通过让LLM自主控制视觉观察,提升了长视频理解的准确性、鲁棒性和可解释性。
- 提出LensWalk框架,赋予LLM控制视频观察的能力
- 通过reason-plan-observe循环动态调整视频观察范围和密度
CliPPER: Contextual Video-Language Pretraining on Long-form Intraoperative Surgical Procedures for Event Recognition
CliPPER通过上下文视频语言预训练,提升手术视频事件识别的准确率。
- 提出Contextual Video-Text Contrastive Learning (VTC_CTX) 和 Clip Order Prediction (COP) 预训练目标
- 引入循环一致性对齐(Cycle-Consistency Alignment)增强视频文本匹配
Robust Multilingual Text-to-Pictogram Mapping for Scalable Reading Rehabilitation
开发了一种多语言AI系统,自动将文本映射为象形图,辅助特殊教育儿童的阅读理解。
- 开发多语言文本-象形图映射系统
- 系统评估了五种不同语言的覆盖率、质量和延迟
Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification
提出一种跨模态原型对齐与混合方法,提升CLIP在少样本分类任务中的性能。
- 提出混合图像和文本原型的方法作为收缩估计器
- 提出文本对齐的语义图像子空间,用于减少图像原型中的噪声
Video-Only ToM: Enhancing Theory of Mind in Multimodal Large Language Models
该论文提出VisionToM框架,通过干预视觉表征提升MLLM的视频理解ToM能力。
- 提出VisionToM框架,用于提升MLLM的视频理解ToM能力
- 通过干预视觉表征,引导模型关注正确语义目标,减少对语言先验的依赖
Counting Without Numbers \& Finding Without Words
提出了一种结合视觉和听觉生物特征的多模态宠物重聚系统,提高了宠物重聚的成功率。
- 提出了一种结合视觉和听觉的多模态重聚系统
- 系统能够处理不同频率范围的动物叫声
OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning
OmniWeaving旨在通过统一框架实现自由组合和推理的视频生成,并提出了评估基准。
- 提出了OmniWeaving统一视频生成模型
- 利用大规模预训练数据集增强组合和推理能力
Unleashing Vision-Language Semantics for Deepfake Video Detection
VLAForge利用视觉-语言语义增强深度伪造视频检测的判别能力,优于现有方法。
- 提出VLAForge框架,融合视觉和语言语义
- 设计ForgePerceiver,增强视觉感知,保留VLA知识
Causal Transfer in Medical Image Analysis
综述医学图像分析中因果迁移学习方法,提升模型跨域泛化性和鲁棒性。
- 提出了医学图像分析中的因果迁移学习(CTL)范式
- 构建了连接因果框架和迁移机制的统一分类体系
ViHOI: Human-Object Interaction Synthesis with Visual Priors
ViHOI利用2D图像先验指导3D人与物体交互生成,提升生成质量和泛化性。
- 提出ViHOI框架,利用视觉先验提升HOI生成质量
- 利用VLM提取视觉和文本先验,并设计Q-Former进行压缩
GeoRouter: Dynamic Paradigm Routing for Worldwide Image Geolocalization
GeoRouter提出了一种动态路由框架,利用LVLM为图像地理定位选择最优范式。
- 提出GeoRouter动态路由框架
- 引入距离感知偏好目标函数优化
PP-OCRv5: A Specialized 5M-Parameter Model Rivaling Billion-Parameter Vision-Language Models on OCR Tasks
PP-OCRv5以5M参数媲美数十亿参数VLM,强调高质量数据在OCR中的重要性。
- 提出轻量级OCR系统PP-OCRv5
- 系统性地研究了数据质量对OCR性能的影响
A Neuro-Symbolic System for Interpretable Multimodal Physiological Signals Integration in Human Fatigue Detection
提出了一种神经符号系统,用于可解释的多模态生理信号融合,以检测人类疲劳。
- 提出了一种神经符号架构,学习可解释的生理概念
- 使用可微近似推理规则结合概念
GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents
提出GameplayQA基准,用于评估多智能体3D环境中多模态LLM的感知和推理能力。
- 构建了GameplayQA基准数据集,包含密集标注的多人3D游戏视频
- 设计了三元组(Self, Other Agents, World)结构的标注体系
Le MuMo JEPA: Multi-Modal Self-Supervised Representation Learning with Learnable Fusion Tokens
Le MuMo JEPA提出了一种多模态自监督学习框架,利用融合tokens学习统一表征。
- 提出Le MuMo JEPA框架,用于多模态自监督表征学习
- 使用可学习的融合tokens作为模态间的信息瓶颈
Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing
PaddleOCR-VL通过粗到细视觉处理,提升文档解析效率和性能,关注关键区域,抑制冗余信息。
- 提出Valid Region Focus Module (VRFM),聚焦文档关键区域
- 设计并训练了轻量级视觉语言模型PaddleOCR-VL-0.9B
AMIF: Authorizable Medical Image Fusion Model with Built-in Authentication
AMIF提出一种可授权的医学图像融合模型,内置认证机制,保护知识产权,防止模型泄露。
- 提出AMIF模型,内置认证机制
- 融合目标中加入授权访问控制
Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning
提出了一种记忆增强的视觉-语言智能体,以解决跨视角的对象描述不一致问题。
- 提出记忆增强的视觉-语言智能体
- 构建自监督训练数据集
RVLM: Recursive Vision-Language Models with Adaptive Depth
RVLM通过迭代生成-执行循环和自适应深度,提升医疗AI的可审计性和效率。
- 提出RVLM框架,结合迭代生成-执行循环
- 实现基于任务复杂度的自适应迭代深度
RefReward-SR: LR-Conditioned Reward Modeling for Preference-Aligned Super-Resolution
提出RefReward-SR,利用LR条件奖励模型优化超分辨率重建,更符合人类感知偏好。
- 提出LR条件奖励模型RefReward-SR
- 构建大规模LR条件超分辨率偏好数据集RefSR-18K
Unlocking Few-Shot Capabilities in LVLMs via Prompt Conditioning and Head Selection
LVLMs可通过prompt conditioning和head选择提升zero-shot和few-shot图像分类性能,缩小与CLIP的差距。
- 提出Head Ensemble Classifiers (HEC),一种无训练的分类器。
- 发现LVLMs的内部表示(尤其是注意力头)在分类任务中表现优异。
Modeling Spatiotemporal Neural Frames for High Resolution Brain Dynamic
提出了一种EEG条件下的fMRI重建框架,实现高分辨率、高时间一致性的动态脑活动建模。
- 提出EEG条件下的fMRI重建框架
- 利用null-space中间帧重建解决采样不规则问题
Heuristic-inspired Reasoning Priors Facilitate Data-Efficient Referring Object Detection
提出HeROD框架,通过注入启发式推理先验,提升数据稀缺场景下指代表对象检测的效率。
- 提出De-ROD任务,用于评估低数据量下的ROD性能
- 提出HeROD框架,注入空间和语义推理先验
Comparative analysis of dual-form networks for live land monitoring using multi-modal satellite image time series
研究双形式注意力机制在多模卫星图像时间序列土地监测中的应用,提升效率。
- 提出基于双形式注意力机制的高效多模SITS分析方法
- 设计了针对时序不规则和未对齐问题的时序自适应双形式机制
When Understanding Becomes a Risk: Authenticity and Safety Risks in the Emerging Image Generation Paradigm
MLLM更强的语义理解能力带来比扩散模型更大的安全风险,包括不安全内容生成和假图片合成。
- 系统性分析和比较了MLLM和扩散模型在不安全内容生成和假图片合成方面的安全风险。
- 发现MLLM比扩散模型更容易生成不安全图像,因为MLLM更能理解抽象prompt。
PosterIQ: A Design Perspective Benchmark for Poster Understanding and Generation
PosterIQ是一个海报理解与生成的设计驱动型基准,涵盖海报的结构、排版和语义意图。
- 构建海报理解与生成基准数据集PosterIQ
- 定义了布局解析、文本-图像对应等任务
AD-Reasoning: Multimodal Guideline-Guided Reasoning for Alzheimer's Disease Diagnosis
AD-Reasoning提出了一种基于多模态信息的、结合NIA-AA指南的阿尔茨海默病诊断框架,提高了诊断准确性和透明性。
- 提出了AD-Reasoning多模态诊断框架
- 构建了AD-MultiSense多模态QA数据集
Mitigating Object Hallucinations in LVLMs via Attention Imbalance Rectification
论文通过纠正视觉语言模型中的注意力失衡来减轻对象幻觉问题。
- 提出注意力失衡概念,量化并可视化注意力差异。
- 提出注意力失衡校正(AIR)方法,通过重分配注意力权重缓解幻觉。
Beyond Semantic Priors: Mitigating Optimization Collapse for Generalizable Visual Forensics
针对深度伪造检测中优化崩溃问题,提出CoRIT模型,提升跨域泛化能力。
- 提出Critical Optimization Radius (COR) 和 Gradient Signal-to-Noise Ratio (GSNR)用于理论分析
- 发现Layer-wise GSNR衰减是优化崩溃的根源
HAM: A Training-Free Style Transfer Approach via Heterogeneous Attention Modulation for Diffusion Models
提出了一种基于异构注意力调制(HAM)的免训练扩散模型风格迁移方法。
- 提出了异构注意力调制(HAM)框架
- 引入了全局注意力规则(GAR)和局部注意力移植(LAT)机制
From Oracle to Noisy Context: Mitigating Contextual Exposure Bias in Speech-LLMs
该论文提出了一种训练框架,用于缓解语音LLM中上下文暴露偏差问题,提高模型在真实场景下的鲁棒性。
- 提出上下文暴露偏差问题
- 提出Teacher Error Knowledge, Context Dropout, DPO三种方法
Thinking with Tables: Enhancing Multi-Modal Tabular Understanding via Neuro-Symbolic Reasoning
论文提出一种基于神经符号推理的表格理解方法TWT,提升多模态表格数据理解能力。
- 提出TVMU任务面临的三大挑战
- 设计了基于程序辅助的神经符号推理机制TWT
MedObvious: Exposing the Medical Moravec's Paradox in VLMs via Clinical Triage
MedObvious基准测试揭示了医学VLM在输入验证方面存在的安全隐患,模型易产生幻觉并缺乏鲁棒性。
- 提出了MedObvious基准测试,用于评估医学VLMs的输入验证能力
- 揭示了现有VLMs在医学图像输入验证方面的局限性
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation
提出UniGRPO,用于联合优化推理和图像生成策略,提升图像生成质量,为多轮交互模型提供基线。
- 提出UniGRPO框架,用于联合优化文本和图像生成策略。
- 改进FlowGRPO,移除classifier-free guidance和替换KL惩罚。
VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions
VISOR通过动态稀疏视觉-语言交互提升VLLM效率,在不损失性能的前提下降低计算成本。
- 提出VISOR,一种稀疏视觉-语言交互方法
- 设计动态视觉计算分配策略
AgentRVOS: Reasoning over Object Tracks for Zero-Shot Referring Video Object Segmentation
AgentRVOS利用SAM3和MLLM构建无训练Agent框架,通过对象轨迹推理实现视频对象分割。
- 提出AgentRVOS框架,无需训练即可实现高质量RVOS
- 利用SAM3生成对象轨迹,提供对象级证据
VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs
VTAM通过融合视觉和触觉信息,提升了机器人在复杂物理交互任务中的性能。
- 提出了Video-Tactile Action Model (VTAM),融合视觉和触觉信息
- 设计了触觉正则化损失,稳定多模态融合
UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation
UniFunc3D利用多模态大语言模型,提出了一种统一的、无训练的3D场景功能分割框架。
- 提出UniFunc3D框架,无需训练。
- 引入主动时空定位策略,实现由粗到精的分割。
InverFill: One-Step Inversion for Enhanced Few-Step Diffusion Inpainting
InverFill通过一步反演注入语义信息,提升少步扩散模型图像修复质量。
- 提出InverFill单步反演方法,用于提升少步扩散模型修复效果
- 利用文本到图像模型进行图像修复,无需训练特定的修复模型
DetPO: In-Context Learning with Multi-Modal LLMs for Few-Shot Object Detection
DetPO提出了一种黑盒prompt优化方法,提升MLLM在少样本目标检测任务上的性能。
- 提出了一种名为DetPO的梯度无关的prompt优化方法。
- DetPO通过最大化检测精度和校准置信度来优化文本prompt。
3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding
提出3DCity-LLM框架,用于3D城市尺度视觉-语言感知与理解,并构建大规模数据集。
- 提出3DCity-LLM框架
- 构建高质量的3DCity-LLM-1.2M数据集
Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning
论文提出TRACE方法,通过文本表示引导MLLM进行3D空间推理,提升视频理解能力。
- 提出TRACE提示方法,利用文本表示进行3D空间推理。
- TRACE编码元上下文、相机轨迹和对象实体。
SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM
SIMART通过MLLM将静态网格分解为可用于物理模拟的铰接资产。
- 提出基于MLLM的单阶段关节资产创建方法
- 引入Sparse 3D VQ-VAE减少token数量
Edge Radar Material Classification Under Geometry Shifts
提出了一种毫米波雷达材料分类方法,并分析了几何偏移对分类性能的影响。
- 提出基于毫米波雷达的材料分类pipeline
- 分析了几何偏移对分类性能的影响
ARGENT: Adaptive Hierarchical Image-Text Representations
ARGENT提出了一种新的双曲视觉语言模型,通过自适应损失和角度概率评估提升层级表征能力。
- 提出自适应的包含损失和范数正则化,防止锥坍塌
- 引入基于角度的概率包含协议 (PEP) 用于评估层级理解
Curriculum-Driven 3D CT Report Generation via Language-Free Visual Grafting and Zone-Constrained Compression
Ker-VLJEPA-3B通过课程学习框架,提升了3D CT报告生成的准确性和效果。
- 提出四阶段课程学习框架Ker-VLJEPA-3B
- 使用无文本监督的自监督视觉骨干网络
I Came, I Saw, I Explained: Benchmarking Multimodal LLMs on Figurative Meaning in Memes
该论文评估了多模态大语言模型在理解 Meme 中隐喻意义的能力,发现模型存在偏见且解释不忠实。
- 评估了MLLM在Meme隐喻意义理解上的表现
- 揭示了模型对隐喻意义的偏见
Gaze-Regularized Vision-Language-Action Models for Robotic Manipulation
论文提出了一种基于人类视觉注意力的机器人操作学习框架,提升了机器人操作的性能和可解释性。
- 提出基于人类注视的VLA模型正则化训练方法
- 无需额外硬件即可提升机器人操作性能
Gaze-Regularized VLMs for Ego-Centric Behavior Understanding
论文提出了一种基于注视正则化的VLM框架,用于提升以自我为中心的行为理解和未来事件预测。
- 引入注视信息到VLM架构
- 提出基于注视的查询机制
ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting
ViKey通过视觉提示和关键词帧映射,提升视频LLM在稀疏帧下的时间推理能力。
- 提出ViKey框架,结合视觉提示和关键词帧映射
- 利用帧索引作为字典键,连接文本提示和相关帧
Conformal Cross-Modal Active Learning
CCMA利用跨模态信息,提升视觉任务主动学习的数据效率,优于现有单模态方法。
- 提出Conformal Cross-Modal Acquisition (CCMA)框架
- 利用预训练VLM作为教师模型提供语义不确定性估计
InterDyad: Interactive Dyadic Speech-to-Video Generation by Querying Intermediate Visual Guidance
InterDyad通过中间视觉引导,实现更自然、可控的双人交互视频生成。
- 提出InterDyad框架,实现基于结构化运动引导的交互视频生成
- 引入MetaQuery机制,对齐音频和运动先验
3rd Place of MeViS-Audio Track of the 5th PVUW: VIRST-Audio
VIRST-Audio模型利用文本监督进行音频视频对象分割,通过ASR转换音频并引入存在感知门控提升鲁棒性,在MeViS-Audio挑战赛中获得第三名。
- 提出VIRST-Audio框架,结合预训练RVOS模型和视觉语言架构。
- 利用ASR模块将音频转换为文本,实现文本监督的分割。
SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions
研究MLLM在视觉错觉上的缺陷,提出SMSP多尺度感知策略提升模型对视觉错觉的理解。
- 提出了IlluChar错觉数据集
- 发现了MLLM对高频信息的注意力偏见
Policy-based Tuning of Autoregressive Image Models with Instance- and Distribution-Level Rewards
提出了一种基于强化学习的自回归图像模型微调框架,提升图像质量和多样性。
- 提出了一种新的分布级别Leave-One-Out FID (LOO-FID)奖励,用于鼓励多样性。
- 结合实例级别奖励(CLIP和HPSv2)以保证语义和感知保真度。
MedCausalX: Adaptive Causal Reasoning with Self-Reflection for Trustworthy Medical Vision-Language Models
MedCausalX通过自反思和因果推理,提升医学视觉语言模型的可信度和可靠性。
- 提出了CRMed数据集,包含细粒度解剖标注和因果推理链。
- 设计了双阶段自适应反思架构,进行因果分析和验证。
MLLM-HWSI: A Multimodal Large Language Model for Hierarchical Whole Slide Image Understanding
MLLM-HWSI是一种用于病理全切片图像理解的多模态大语言模型,通过层级结构实现精细化分析。
- 提出了MLLM-HWSI模型,用于层级WSI理解
- 引入层级对比目标和跨尺度一致性损失
YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception
利用Kolmogorov-Arnold网络提升YOLOv10目标检测的可解释性和置信度评估,结合多模态信息增强可信赖AI。
- 提出基于Kolmogorov-Arnold网络的可解释置信度评估方法
- 将BLIP模型融入,实现多模态解释
Traffic Sign Recognition in Autonomous Driving: Dataset, Benchmark, and Field Experiment
论文提出了大规模交通标志数据集TS-1M,并针对自动驾驶中的鲁棒性问题进行了基准测试。
- 构建大规模、多样化的交通标志数据集TS-1M
- 设计诊断性基准测试,评估模型在各种挑战下的性能
Looking Beyond the Window: Global-Local Aligned CLIP for Training-free Open-Vocabulary Semantic Segmentation
针对训练自由的开放词汇语义分割,提出一种全局-局部对齐的CLIP模型,解决窗口间的语义差异问题。
- 提出Global-Local Aligned CLIP (GLA-CLIP)框架,实现窗口间的信息交互
- 引入代理锚点 (Proxy Anchor),提供统一的语义参考,缓解窗口偏差
Cog3DMap: Multi-View Vision-Language Reasoning with 3D Cognitive Maps
Cog3DMap通过构建显式3D认知地图,增强MLLM的多视角空间推理能力。
- 提出Cog3DMap框架,构建显式3D认知地图
- 将3D空间信息融入MLLM的输入
Concept-based explanations of Segmentation and Detection models in Natural Disaster Management
提出一个针对自然灾害管理中分割和检测模型的概念解释框架,提升模型透明度和可信度。
- 扩展LRP解释到PIDNet的融合层
- 应用PCX提供概念层面的局部和全局解释
VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models
VLA-IAP是一种训练无关的视觉token剪枝方法,通过交互对齐提升VLA模型在资源受限平台上的推理效率。
- 提出基于几何先验的结构锚点保留机制
- 设计基于语义-运动对齐的动态剪枝强度调度策略
Beyond Hate: Differentiating Uncivil and Intolerant Speech in Multimodal Content Moderation
该论文区分了不文明和不容忍言论,提出了细粒度的多模态内容审核方案。
- 提出了区分incivility和intolerance的细粒度标注方案
- 验证了细粒度标注结合粗粒度标注可以提升模型性能
Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining
ClusterSTM提出一种簇级时空掩码策略,提升视频语言预训练的效率和性能。
- 提出簇级时空掩码策略,缓解信息损失和时间泄露问题
- 引入视频-文本相关性重建目标,增强多模态语义对齐
PersonalQ: Select, Quantize, and Serve Personalized Diffusion Models for Efficient Inference
PersonalQ提出了一种统一框架,通过选择、量化和提供个性化扩散模型来提高推理效率。
- 提出Intent-aligned选择方法,提高意图对齐
- 提出Trigger-Aware Quantization (TAQ)方法,实现高效量化
Ran Score: a LLM-based Evaluation Score for Radiology Report Generation
提出了Ran Score,一种基于LLM的放射报告生成评估指标,特别关注低频异常和临床语言。
- 提出了Ran Score评估指标
- 结合人类专家知识和LLM进行多标签发现提取
When AVSR Meets Video Conferencing: Dataset, Degradation, and the Hidden Mechanism Behind Performance Collapse
针对视频会议场景下的AVSR性能退化问题,构建了MLD-VC数据集并分析了原因,提出了优化方法。
- 构建了首个面向视频会议的AVSR多模态数据集MLD-VC
- 分析了视频会议场景下AVSR性能退化的原因,包括传输失真和人类过度表达
ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models via Spatial-Temporal Forest Modeling
ForestPrune通过时空森林建模实现视频MLLM高比例视觉token压缩。
- 提出ForestPrune,一种新颖的视频MLLM token剪枝方法。
- 通过时空森林建模实现高效且高比例的token剪枝。
Dual-Teacher Distillation with Subnetwork Rectification for Black-Box Domain Adaptation
提出了一种双教师蒸馏方法,通过子网络校正解决黑盒域适应问题,提升模型性能。
- 提出了双教师蒸馏框架DDSR,结合黑盒模型和ViL的优势
- 引入子网络驱动的正则化策略,减轻噪声监督的影响
VLGOR: Visual-Language Knowledge Guided Offline Reinforcement Learning for Generalizable Agents
VLGOR利用视觉-语言知识生成虚假轨迹,增强离线强化学习,提升智能体泛化能力。
- 提出了VLGOR框架,融合视觉和语言知识
- 使用视觉-语言模型预测未来状态和动作
TreeTeaming: Autonomous Red-Teaming of Vision-Language Models via Hierarchical Strategy Exploration
TreeTeaming通过层级策略探索,实现对视觉-语言模型(VLM)的自主红队测试。
- 提出TreeTeaming自动化红队测试框架
- 利用LLM进行动态、演进式策略探索
Grounding Sim-to-Real Generalization in Dexterous Manipulation: An Empirical Study with Vision-Language-Action Models
研究了灵巧操作中Sim-to-Real泛化的关键因素,并提出了评估协议。
- 评估了多层次域随机化等因素对Sim-to-Real的影响
- 设计了全面的灵巧操作评估协议
ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance
提出ForeSea,一个用于视频监控场景下多模态查询的AI取证搜索系统及数据集ForeSeaQA。
- 提出了新的多模态视频问答数据集ForeSeaQA
- 设计了三阶段的AI取证搜索系统ForeSea
Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
利用视频生成模型中的隐式3D先验知识,提升MLLM在空间理解方面的能力。
- 提出VEGA-3D框架,利用预训练视频扩散模型作为潜在世界模拟器。
- 通过token-level自适应门控融合机制,将时空特征与语义表示融合。
Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens
提出CubiD模型,首次实现高维离散表示的视觉生成,并验证其表示能力。
- 提出CubiD模型,实现高维离散表示的生成。
- 提出细粒度的掩码策略,提升模型学习能力。
SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing
SAMA通过解耦语义锚定和运动对齐,提升指令引导的视频编辑效果,实现更精确的语义修改和更真实的运动保持。
- 提出语义锚定,实现指令感知的结构规划
- 提出运动对齐,利用视频恢复预训练增强运动建模能力
Spectrally-Guided Diffusion Noise Schedules
提出了一种基于图像频谱特性的像素扩散模型噪声调度方法,提高了生成质量。
- 提出了基于图像频谱特性的噪声调度方法
- 推导了最小和最大噪声水平的理论界限
DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding
DriveTok提出了一种高效的3D驾驶场景Tokenization方法,用于多视角重建和理解。
- 提出DriveTok,一种高效的3D驾驶场景Tokenizer
- 使用3D可变形交叉注意力将视觉特征转换为场景tokens
LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs
提出了LVOmniBench,用于评估OmniLLM在长音频视频理解方面的能力。
- 提出了LVOmniBench基准数据集,包含275个长视频和1014个QA对
- 揭示了现有OmniLLM在处理长音频视频时面临的挑战
DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising
DreamPartGen提出一种语义驱动的、部件感知的文本到3D生成框架,实现高质量的3D物体生成。
- 引入Duplex Part Latents (DPLs) 联合建模部件几何和外观
- 引入Relational Semantic Latents (RSLs) 捕捉部件间依赖关系
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders
研究了状态空间模型(SSM)作为视觉编码器在视觉语言模型(VLM)中的表现,发现其具有竞争力。
- 评估了SSM作为VLM视觉骨干网络的性能
- 提出了提高视觉骨干网络稳定性的策略
Tinted Frames: Question Framing Blinds Vision-Language Models
研究表明,视觉语言模型(VLM)的视觉注意力受问题框架影响,导致性能下降和不一致。
- 揭示了VLM的视觉注意力受到语言框架选择性影响
- 量化了框架对图像注意力和分布的影响
How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation
该论文研究LLM中的听觉知识对LALM性能的影响,并进行了全面的评估。
- 评估了不同LLM的听觉知识储备
- 揭示了文本预训练中的听觉知识与LALM性能的相关性
Few-shot Acoustic Synthesis with Multimodal Flow Matching
提出FLAC,一种基于流匹配的概率方法,用于少样本声学合成,生成与场景一致的RIR。
- 提出FLAC,一种新的声学合成方法
- 引入AGREE,一种新的几何一致性评估指标
ARIADNE: A Perception-Reasoning Synergy Framework for Trustworthy Coronary Angiography Analysis
ARIADNE框架通过偏好对齐感知和RL推理,提升冠状动脉造影分析的可靠性。
- 提出结合DPO和Sa2VA的感知模块,利用Betti数约束进行拓扑对齐
- 设计基于RL的推理模块,通过拒绝机制优化诊断可靠性
Meanings and Measurements: Multi-Agent Probabilistic Grounding for Vision-Language Navigation
提出MAPG框架,分解复杂指令为子任务,提升VLM在度量约束下的视觉语言导航性能。
- 提出MAPG框架,分解复杂语言指令
- 设计MAPG-Bench基准测试,评估度量语义目标定位
LuMamba: Latent Unified Mamba for Electrode Topology-Invariant and Efficient EEG Modeling
LuMamba结合拓扑不变编码和线性复杂度状态空间模型,高效处理脑电信号,性能优越。
- 提出了LuMamba模型,用于EEG建模
- 系统研究了LeJEPA在生物信号学习中的应用
TAU-R1: Visual Language Model for Traffic Anomaly Understanding
提出了用于交通异常理解的视觉语言模型TAU-R1,并构建了Roundabout-TAU数据集。
- 构建了Roundabout-TAU数据集
- 提出了两层视觉语言框架TAU-R1
SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues
研究语义线索如何影响视觉语言模型(VLM)的安全判断,揭示其脆弱性。
- 提出了语义引导框架,用于控制VLM的安全行为
- 构建了SAVeS基准,用于评估情境安全
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation
TerraScope提出了一个像素级视觉推理的VLM,用于地球观测任务。
- 提出TerraScope模型,支持像素级地理空间推理
- 构建Terra-CoT数据集,包含百万级别像素级标注样本
SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models
SEM通过稀疏自编码器分解CLIP嵌入,实现对视觉-语言模型偏差的后处理校正。
- 提出Sparse Embedding Modulation (SEM)框架
- 利用稀疏表示实现更精确的偏差干预
Rethinking MLLM Itself as a Segmenter with a Single Segmentation Token
提出了一种无需额外解码器的MLLM图像分割方法SELF1E,通过单一分割token实现高效分割。
- 提出SELF1E,一种基于单一分割token的MLLM分割方法
- 通过保留原始分辨率特征并融入残差特征,提升特征精度
CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think
CRAFT通过复合奖励过滤和增强型SFT,在少量数据下高效对齐扩散模型。
- 提出CRAFT框架,减少数据依赖和计算成本
- 提出复合奖励过滤(CRF)技术,构建高质量数据集
MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model
提出了用于评估视觉语言模型多跳空间推理能力的MultihopSpatial基准。
- 多跳组合空间推理基准MultihopSpatial
- 评估推理和视觉定位的Acc@50IoU指标
PromptHub: Enhancing Multi-Prompt Visual In-Context Learning with Locality-Aware Fusion, Concentration and Alignment
PromptHub通过局部感知融合、集中和对齐增强多提示视觉上下文学习,提升视觉任务性能。
- 提出PromptHub框架,增强多提示视觉上下文学习
- 引入局部感知融合机制,利用空间先验
RadioDiff-FS: Physics-Informed Manifold Alignment in Few-Shot Diffusion Models for High-Fidelity Radio Map Construction
RadioDiff-FS利用少量样本,构建高保真无线电地图,有效降低了建模成本。
- 提出RadioDiff-FS框架,用于少量样本下的无线电地图构建
- 基于多径分解理论,提出方向一致性损失(DCL)
HORNet: Task-Guided Frame Selection for Video Question Answering with Vision-Language Models
HORNet通过学习帧选择策略提升VLM在视频问答任务上的效率和性能。
- 提出HORNet,一种轻量级的帧选择策略
- 使用Group Relative Policy Optimization (GRPO)训练帧选择策略
Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation
Perceptio通过显式的语义分割和深度token增强了LVLM的空间推理能力,并在多个基准测试中取得了SOTA。
- 提出了Perceptio,一个感知增强的LVLM
- 使用VQVAE深度编码和SAM2分割生成空间token
SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction
提出SEAR方法,高效微调视觉几何Transformer,用于RGB+热成像3D重建,提升多模态对齐效果。
- 提出SEAR微调策略,提升RGB-T图像的3D重建效果
- 构建新的RGB+Thermal数据集,用于多模态3D重建
Dual-Model Prediction of Affective Engagement and Vocal Attractiveness from Speaker Expressiveness in Video Learning
论文提出了一种基于说话人情感表达预测观众情感投入和声音吸引力的双模型方法。
- 提出了一种说话人中心的情感AI方法,无需观众侧信息即可预测观众反馈
- 构建了基于MOOCs的大规模语料库
Ontology-Guided Diffusion for Zero-Shot Visual Sim2Real Transfer
OGD利用知识图谱引导扩散模型,实现了零样本Sim2Real图像转换,提升了图像的真实感和可解释性。
- 提出Ontology-Guided Diffusion (OGD) 框架
- 使用知识图谱表示图像真实感
Accurate and Efficient Multi-Channel Time Series Forecasting via Sparse Attention Mechanism
Li-Net模型通过稀疏注意力机制和多模态融合,高效准确地进行多通道时间序列预测。
- 提出了Li-Net模型,用于捕捉通道间的线性和非线性依赖
- 引入了稀疏Top-K Softmax注意力机制和多尺度投影框架
Multimodal Model for Computational Pathology:Representation Learning and Image Compression
综述性论文,分析了多模态计算病理学中的表示学习、图像压缩、数据增强和多智能体协作诊断等关键技术。
- 系统分析了自监督表示学习和结构感知 Token 压缩在 WSI 中的应用
- 探讨了多模态数据生成与增强方法
Balanced Thinking: Improving Chain of Thought Training in Vision Language Models
提出SCALe损失函数,通过动态权重解决VLM中CoT训练的token不平衡问题,提高推理精度和效率。
- 提出SCALe损失函数,动态调整推理和答案部分的权重
- 显著降低训练时间,效率提升
Click-to-Ask: An AI Live Streaming Assistant with Offline Copywriting and Online Interactive QA
Click-to-Ask是一个AI直播助手,通过离线文案生成和在线交互问答提升直播效率。
- 提出Click-to-Ask系统,用于优化直播电商体验
- 利用离线模块生成合规的商品推广文案
Agentic Flow Steering and Parallel Rollout Search for Spatially Grounded Text-to-Image Generation
提出AFS-Search闭环框架,通过VLM引导,提升空间约束文本生成图像质量。
- 引入AFS-Search框架,解决T2I生成中的语义歧义和误差累积问题
- 利用VLM作为语义批评家,动态引导生成过程
GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?
GenVideoLens基准测试揭示LVLMs在AI生成视频检测中光学、物理和时序推理上的不足。
- 提出了GenVideoLens,一个细粒度的AI生成视频检测基准测试。
- 构建了包含真实和AI生成视频的数据集,并进行了多维度标注。
Cross-Modal Rationale Transfer for Explainable Humanitarian Classification on Social Media
提出一种跨模态的、可解释的人道主义分类框架,提升了社会媒体危机事件分类的准确性和可解释性。
- 提出跨模态理由转移方法,从文本理由推导出图像理由。
- 提出可解释的多模态分类框架,提高分类透明度。
Complementary Text-Guided Attention for Zero-Shot Adversarial Robustness
提出互补文本引导注意力机制Comp-TGA,提升CLIP模型在零样本对抗环境下的鲁棒性。
- 发现对抗扰动会导致文本引导注意力发生变化
- 提出TGA-ZSR框架,利用局部和全局注意力约束增强鲁棒性
myMNIST: Benchmark of PETNN, KAN, and Classical Deep Learning Models for Burmese Handwritten Digit Recognition
myMNIST缅甸手写数字数据集上,PETNN等模型与经典深度学习模型性能对比基准。
- 首次在myMNIST数据集上系统评估多种模型
- 验证了PETNN模型在缅甸手写数字识别上的有效性
MedForge: Interpretable Medical Deepfake Detection via Forgery-aware Reasoning
MedForge提出一种可解释的医学Deepfake检测方法,提高了检测精度和可信度。
- 构建了MedForge-90K医学Deepfake数据集
- 提出了MedForge-Reasoner检测模型
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering
HiMu是一种高效的无训练长视频问答框架,通过分层多模态帧选择提升性能。
- 提出HiMu框架,实现高效的长视频问答
- 使用分层逻辑树分解问题,利用轻量级专家处理多模态信息
CoDA: Exploring Chain-of-Distribution Attacks and Post-Hoc Token-Space Repair for Medical Vision-Language Models
提出了CoDA框架评估医学视觉语言模型在临床环境中抵抗图像质量退化的能力,并提出了一种修复策略。
- 提出了CoDA框架,模拟临床图像质量退化。
- 评估了CLIP和MLLM在CoDA攻击下的性能。
Unified Spatio-Temporal Token Scoring for Efficient Video VLMs
提出了一种统一的时空Token评分模块STTS,用于高效的视频VLM的Token剪枝,提升计算效率。
- 提出STTS模块,统一剪枝ViT和LLM中的视觉tokens
- 引入辅助损失学习时间维度上的token重要性
Universal Skeleton Understanding via Differentiable Rendering and MLLMs
SkeletonLLM通过可微渲染将骨骼数据转换为视觉信息,利用MLLM实现通用骨骼理解。
- 提出 DrAction,一个可微且格式无关的渲染器
- 引入 Causal Reasoning Distillation 和 Discriminative Finetuning 的协同训练策略
Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models
Loc3R-VLM通过全局布局重建和情境建模,增强视觉语言模型在3D空间理解和定位方面的能力。
- 提出Loc3R-VLM框架,增强2D视觉语言模型的3D理解能力。
- 引入全局布局重建和情境建模,实现空间监督,将感知和语言锚定在3D环境中。
LoST: Level of Semantics Tokenization for 3D Shapes
LoST通过语义显著性进行3D形状的token化,显著提升重建和生成质量。
- 提出Level-of-Semantics Tokenization (LoST),基于语义显著性进行token化
- 引入Relational Inter-Distance Alignment (RIDA) 损失函数,用于3D语义对齐
GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes
GMT利用多模态Transformer生成3D场景中可控的6自由度物体操作轨迹。
- 提出了一种多模态Transformer框架GMT,用于生成目标导向的物体轨迹
- 结合3D包围盒几何、点云环境、语义对象类别和目标姿态
Feeling the Space: Egomotion-Aware Video Representation for Efficient and Accurate 3D Scene Understanding
Motion-MLLM利用运动数据增强MLLM,提升3D场景理解的效率和准确性。
- 提出Motion-MLLM框架,融合运动数据和视觉信息
- 设计级联运动-视觉关键帧过滤模块
LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition
LaDe提出了一种新的潜在扩散框架,用于生成和分解可编辑的多层图形媒体设计。
- 提出了一种新的潜在扩散框架LaDe
- 支持文本到图像生成、文本到图层设计生成和图层分解三个任务
VideoAtlas: Navigating Long-Form Video in Logarithmic Compute
VideoAtlas通过分层网格结构实现长视频的无损、可导航表示,并结合RLM实现高效视频理解。
- 提出VideoAtlas:一种用于表示长视频的无损、可导航的分层网格结构。
- 提出Video-RLM:结合VideoAtlas和递归语言模型的视频理解框架。
Interpretable Traffic Responsibility from Dashcam Video via Legal Multi Agent Reasoning
提出C-TRAIL数据集和一个两阶段框架,用于从行车记录仪视频中推断交通责任。
- 提出了C-TRAIL多模态法律数据集,包含行车记录仪视频和对应的法律条文
- 提出了一个两阶段框架,包括交通事件理解模块和法律多智能体框架
Differential Attention-Augmented BiomedCLIP with Asymmetric Focal Optimization for Imbalanced Multi-Label Video Capsule Endoscopy Classification
针对VCE图像多标签分类,提出了基于BiomedCLIP和不对称Focal优化的框架,提升不平衡数据集性能。
- 引入差分注意力机制抑制噪声
- 采用多种优化策略处理类别不平衡问题
FailureMem: A Failure-Aware Multimodal Framework for Autonomous Software Repair
FailureMem是一个多模态自动软件修复框架,通过记忆失败经验提升修复成功率。
- 提出混合工作流-Agent架构,平衡结构化定位与灵活推理
- 引入主动感知工具,实现区域级视觉定位
Multi-Source Evidence Fusion for Audio Question Answering
提出多源证据融合的音频问答系统,在Interspeech 2026挑战赛中获得第一,大幅领先。
- 多源证据融合
- 可靠性分层声学工具
ChopGrad: Pixel-Wise Losses for Latent Video Diffusion via Truncated Backpropagation
ChopGrad通过截断反向传播降低视频扩散模型训练的显存占用。
- 提出ChopGrad截断反向传播方案
- 理论分析证明其有效性
Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients
该论文提出了一种细粒度后训练量化方法,利用量化感知集成梯度提升LVLM量化性能。
- 提出基于量化感知集成梯度的细粒度量化策略
- 将量化粒度从模态级别提升到token级别
Evidence Packing for Cross-Domain Image Deepfake Detection with LVLMs
提出了一种无需微调LVLM的图像Deepfake检测框架SCEP,通过证据驱动推理提高检测泛化性。
- 提出Semantic Consistent Evidence Pack (SCEP)框架
- 使用证据驱动推理代替全图推理
Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor
论文提出了一个用于检测和理解有害幽默的多模态、多语言基准数据集,并评估了现有模型。
- 构建了包含文本、图像和视频的多模态、多语言有害幽默数据集
- 提出了区分安全、显性和隐性有害幽默的标注指南
Concept-to-Pixel: Prompt-Free Universal Medical Image Segmentation
C2P提出了一种无需提示的通用医学图像分割框架,利用多模态LLM进行知识蒸馏,实现跨模态的泛化。
- 提出 Concept-to-Pixel (C2P) 框架,实现无需提示的通用医学图像分割。
- 利用多模态LLM将医学概念蒸馏为可学习的语义token,并引入几何token来约束结构。
SARE: Sample-wise Adaptive Reasoning for Training-free Fine-grained Visual Recognition
SARE提出了一种样本自适应的推理框架,用于无需训练的细粒度视觉识别。
- 提出样本自适应推理框架SARE
- 结合快速检索和精细推理的级联设计
Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation
MoBaNet提出一种参数高效、模态平衡的对称融合框架,用于多模态遥感语义分割。
- 提出 Cross-modal Prompt-Injected Adapter (CPIA)
- 提出 Difference-Guided Gated Fusion Module (DGFM)
Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos
提出SynRL框架,利用合成视频学习可迁移的时间基元,提升视频推理能力。
- 提出了SynRL框架,用于学习时间基元
- 使用程序化生成的合成视频进行训练,成本效益高
WeatherReasonSeg: A Benchmark for Weather-Aware Reasoning Segmentation in Visual Language Models
提出 WeatherReasonSeg 基准,评估 VLM 在恶劣天气下的推理分割能力。
- 构建了可控的合成天气推理数据集,用于细粒度的鲁棒性分析
- 构建了真实世界恶劣天气推理分割数据集,使用掩码引导的 LLM 提示生成语义一致的查询
FINER: MLLMs Hallucinate under Fine-grained Negative Queries
针对MLLM在细粒度负查询下产生幻觉的问题,提出了FINER基准和FINER-Tuning方法。
- 提出了FINER基准,用于评估MLLM在细粒度负查询下的幻觉问题
- 分析了MLLM在多种场景下的幻觉现象
Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment
针对CDFSL中CLIP模型局部对齐问题,提出循环一致性和语义锚定机制,提升局部视觉-语言对齐和可解释性。
- 发现CDFSL中CLIP模型存在局部不对齐问题
- 提出循环一致性学习,利用自监督信息进行局部视觉-语言对齐
ReLaGS: Relational Language Gaussian Splatting
ReLaGS构建了分层语言蒸馏高斯场景和3D语义场景图,用于开放词汇3D感知和推理。
- 提出了一种无需场景特定训练的3D场景构建框架
- 引入了高斯裁剪机制和多视角语言对齐策略
LoGSAM: Parameter-Efficient Cross-Modal Grounding for MRI Segmentation
LoGSAM利用语音转录和少量参数更新,实现MRI图像肿瘤的自动分割。
- 提出LoGSAM框架,实现语音驱动的肿瘤分割
- 参数高效的跨模态Grounding方法
HeiSD: Hybrid Speculative Decoding for Embodied Vision-Language-Action Models with Kinematic Awareness
HeiSD框架通过混合推测解码加速具身视觉-语言-动作模型的推理速度,并保持任务成功率。
- 分析了drafter-based和retrieval-based SD在VLA模型中的优缺点
- 提出了HeiSD框架,包含基于检索的SD优化方法和基于运动学的融合度量
Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models
视频微调能提升视频理解能力,但可能牺牲静态图像理解能力,存在时空理解的权衡。
- 系统研究了视频微调对MLLM时空理解能力的影响
- 发现视频微调存在时空理解的权衡,提升视频性能可能牺牲静态图像性能
Learning Coordinate-based Convolutional Kernels for Continuous SE(3) Equivariant and Efficient Point Cloud Analysis
提出了一种新的SE(3)等变卷积方法ECKConv,提高了点云分析的效率和性能。
- 提出基于坐标的等变卷积核ECKConv
- 利用双陪集空间实现SE(3)等变性
AdapTS: Lightweight Teacher-Student Approach for Multi-Class and Continual Visual Anomaly Detection
AdapTS是一种轻量级的教师-学生框架,用于多类和持续视觉异常检测。
- 提出了AdapTS框架,适用于多类和持续视觉异常检测。
- 使用轻量级adapter注入,减少了内存占用。
MM-OVSeg:Multimodal Optical-SAR Fusion for Open-Vocabulary Segmentation in Remote Sensing
提出MM-OVSeg,一个基于光图和SAR图像融合的遥感开放词汇分割框架,解决恶劣天气下的分割问题。
- 提出了一种跨模态统一流程,用于多传感器表征对齐。
- 设计了一个双编码器融合模块,集成了多视觉基础模型的分层特征。
KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition
提出了KineVLA框架,通过双层动作分解实现对精细运动指令的理解与执行,并在数据集上验证了其优越性。
- 提出了一个富含运动学信息的VLA任务
- 提出了KineVLA框架,解耦目标层不变性和运动学层可变性
PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation
PCA-Seg提出并行成本聚合方法,解决开放词汇语义分割中语义和空间信息的干扰问题。
- 提出并行成本聚合(PCA)范式
- 设计专家驱动的感知学习(EPL)模块
EI: Early Intervention for Multimodal Imaging based Disease Recognition
提出一种用于多模态医学图像疾病识别的早期干预框架,解决信息融合和数据稀缺问题。
- 提出早期干预(EI)框架,利用参考模态指导目标模态嵌入
- 提出低秩混合适配(MoR)方法,高效微调视觉基础模型
Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation
Omni-I2C是一个用于评估LMMs将图像转化为代码能力的高保真综合基准。
- 提出了Omni-I2C基准,包含1080个高质量样本
- 涵盖多种主题、图像模态和编程语言
UAV-CB: A Complex-Background RGB-T Dataset and Local Frequency Bridge Network for UAV Detection
提出针对复杂背景下无人机检测的RGB-T数据集UAV-CB和局部频率桥网络LFBNet。
- 构建了新的RGB-T无人机检测数据集UAV-CB
- 提出了局部频率桥网络LFBNet,用于RGB-T融合
UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models
UniSAFE是一个评估统一多模态模型安全性的综合基准,揭示了现有模型在多模态情境下的安全漏洞。
- 提出了首个针对统一多模态模型的系统级安全基准UniSAFE
- 构建了包含6802个实例,覆盖7种模态组合的测试数据集
VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection
提出VirPro框架,利用视觉信息提升弱监督单目3D目标检测性能,解决文本描述多样性不足问题。
- 提出Visual-referred Probabilistic Prompt Learning (VirPro)框架
- 设计Adaptive Prompt Bank (APB)存储场景相关的提示
VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation
VLM2Rec提出了一种基于VLM的序列推荐框架,解决了多模态数据中的模态崩溃问题。
- 发现了VLM在多模态序列推荐中存在模态崩溃问题
- 提出了弱模态惩罚对比学习以平衡模态利用
AdaZoom-GUI: Adaptive Zoom-based GUI Grounding with Instruction Refinement
AdaZoom-GUI通过指令优化和自适应缩放提升VLM在GUI界面定位的准确性和效率。
- 提出了指令优化模块,提升指令理解
- 设计了自适应缩放策略,优化小元素定位
ManiTwin: Scaling Data-Generation-Ready Digital Object Dataset to 100K
ManiTwin提出了一种自动化流程,高效生成大规模、高质量的机器人操作数据。
- 构建了包含10万个高质量3D资产的ManiTwin-100K数据集
- 提出一种高效的数据生成流程,可将单张图像转换为仿真可用的3D资产
SparkVSR: Interactive Video Super-Resolution via Sparse Keyframe Propagation
SparkVSR提出了一种交互式的视频超分辨率框架,利用稀疏关键帧作为控制信号。
- 提出一种交互式视频超分辨率框架SparkVSR。
- 使用稀疏关键帧作为用户可控的信号。
Surg$Σ$: A Spectrum of Large-Scale Multimodal Data and Foundation Models for Surgical Intelligence
Surg$Σ$框架提供大规模多模态手术数据和模型,旨在提升手术智能的泛化性和可解释性。
- 构建了大规模多模态手术数据集Surg$Σ$-DB
- 设计了统一的数据模式和分层推理标注
WildDepth: A Multimodal Dataset for 3D Wildlife Perception and Depth Estimation
WildDepth是一个用于动物3D感知和深度估计的多模态数据集,包含RGB和LiDAR数据。
- 构建了大规模的动物RGB-LiDAR同步数据集WildDepth
- 提出了基于多模态数据融合的深度估计和3D重建方法
IOSVLM: A 3D Vision-Language Model for Unified Dental Diagnosis from Intraoral Scans
提出了IOSVLM,一种用于口腔扫描3D统一牙科诊断的视觉语言模型。
- 提出了一个端到端的3D视觉语言模型IOSVLM。
- 构建了一个大型多源IOS诊断VQA数据集IOSVQA。
SpecMoE: Spectral Mixture-of-Experts Foundation Model for Cross-Species EEG Decoding
SpecMoE模型利用频谱信息进行跨物种脑电解码,性能优于现有方法。
- 提出了基于STFT图和高斯平滑掩码的预训练方法
- 设计了SpecHi-Net模型,用于高效信号重构
Retrieving Counterfactuals Improves Visual In-Context Learning
CIRCLES通过检索反事实样例,提升视觉上下文学习中视觉语言模型(VLMs)的推理能力。
- 提出CIRCLES框架,通过属性引导的组合图像检索构建反事实样例集
- 通过反事实样例提升VLMs对因果关系的推理能力
The Cost of Reasoning: Chain-of-Thought Induces Overconfidence in Vision-Language Models
CoT推理会降低VLM的不确定性估计质量,导致模型过度自信,但一致性方法仍然有效。
- 揭示了CoT推理导致VLM过度自信的现象
- 指出了隐式答案条件化是造成过度自信的主要原因
$x^2$-Fusion: Cross-Modality and Cross-Dimension Flow Estimation in Event Edge Space
提出了$x^2$-Fusion,通过事件边缘空间统一多模态特征,提升光流和场景流估计精度。
- 提出了事件边缘空间,作为多模态特征统一的潜在空间
- 提出了可靠性感知自适应融合,提升在退化场景下的稳定性
Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation
Kestrel是一个免训练的LVLM幻觉缓解框架,通过视觉 grounding 和证据验证的自精炼机制减少幻觉。
- 提出 Kestrel 框架,结合视觉 grounding 和证据验证自精炼
- 利用 LVLM 评估证据的真伪,降低过度修正风险
BUSSARD: Normalizing Flows for Bijective Universal Scene-Specific Anomalous Relationship Detection
BUSSARD利用归一化流检测场景图中的异常关系,性能优于现有方法并具备更强的鲁棒性。
- 提出了一种基于归一化流的异常关系检测模型BUSSARD
- 在SARD数据集上取得了比SOTA更好的AUROC结果
FlowComposer: Composable Flows for Compositional Zero-Shot Learning
FlowComposer提出了一种基于流匹配的CZSL框架,显式融合属性和对象特征,提升模型泛化能力。
- 提出了FlowComposer框架,显式融合属性和对象特征。
- 设计了泄漏引导的增强方案,利用残余特征。
MLLM-based Textual Explanations for Face Comparison
分析了MLLM在人脸识别解释上的可靠性,发现其解释存在幻觉问题,并提出了评估框架。
- 系统分析MLLM生成的人脸识别解释的可靠性
- 揭示了MLLM解释中存在的幻觉问题
Rationale Matters: Learning Transferable Rubrics via Proxy-Guided Critique for VLMReward Models
提出Proxy-GRM,通过代理引导的评价标准验证,提升视觉-语言模型奖励模型的标准质量。
- 提出Proxy-GRM框架,显式优化奖励模型的中间评价标准。
- 引入轻量级代理,预测偏好排序,并以此作为评价标准质量的奖励。
FSMC-Pose: Frequency and Spatial Fusion with Multiscale Self-calibration for Cattle Mounting Pose Estimation
FSMC-Pose通过频率空间融合和多尺度自校准,提升复杂环境下牛只骑跨姿态估计的准确性。
- 提出轻量级的频率-空间融合网络CattleMountNet,用于分离牛只和背景
- 设计多尺度自校准头SC2Head,减少动物重叠造成的结构错位
BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization
BATQuant通过块级优化实现对MXFP4量化的鲁棒性,显著提升MLLM/LLM性能。
- 提出块级仿射变换,防止跨块异常值传播
- 引入全局和私有Kronecker分解,降低存储和运行时开销
V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models
V-DyKnow基准测试评估VLMs在时间敏感知识上的表现,揭示了模型在事实更新和跨模态一致性方面的局限性。
- 提出了V-DyKnow基准测试,用于评估VLMs的时间敏感知识
- 分析了VLMs在跨模态和输入扰动下的可靠性
VIEW2SPACE: Studying Multi-View Visual Reasoning from Sparse Observations
研究稀疏多视角视觉推理,提出VIEW2SPACE基准和Grounded Chain-of-Thought方法。
- 提出 VIEW2SPACE 多视角推理基准数据集
- 设计 Grounded Chain-of-Thought with Visual Evidence 方法
ExpressMind: A Multimodal Pretrained Large Language Model for Expressway Operation
ExpressMind是一个专为高速公路运营设计的预训练多模态大语言模型,提升智能交通认知能力。
- 构建了行业首个全栈高速公路数据集
- 提出了基于自监督学习和无监督学习的双层LLM预训练范式
On the Emotion Understanding of Synthesized Speech
现有语音情感识别模型难以泛化到合成语音,因为合成语音与人类语音存在表征不匹配,且SLM倾向于从文本语义推断情感。
- 揭示了语音情感识别模型在合成语音上的泛化性问题
- 指出现有SER模型利用非鲁棒的捷径而非捕捉根本特征
Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition
HyDRA通过混合证据演绎推理解决开放词汇多模态情感识别中的歧义性问题,并提供可解释的证据。
- 提出HyDRA,一种混合证据演绎推理架构
- 采用强化学习进行分层奖励塑造,优化推理轨迹
GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models
GAP-MLLM通过几何对齐预训练,增强MLLM在3D空间感知任务中的性能。
- 提出GAP-MLLM框架,显式激活MLLM的结构感知能力
- 引入视觉提示联合任务,预测稀疏点云和语义标签
Evo-Retriever: LLM-Guided Curriculum Evolution with Viewpoint-Pathway Collaboration for Multimodal Document Retrieval
Evo-Retriever利用LLM指导的课程演化,通过多视角-路径协同提升多模态文档检索性能。
- 提出了基于LLM指导的课程演化检索框架Evo-Retriever
- 设计了多视角图像对齐方法增强细粒度匹配
Visual Distraction Undermines Moral Reasoning in Vision-Language Models
视觉输入会干扰视觉语言模型的道德推理,绕过基于文本的安全机制,造成安全隐患。
- 揭示了视觉输入对视觉语言模型道德推理的负面影响
- 提出了多模态道德困境模拟(MDS)基准测试
CD-FKD: Cross-Domain Feature Knowledge Distillation for Robust Single-Domain Generalization in Object Detection
提出CD-FKD,通过跨域特征知识蒸馏提升目标检测模型在单领域泛化中的鲁棒性。
- 提出Cross-Domain Feature Knowledge Distillation (CD-FKD)方法
- 利用全局和实例级特征蒸馏增强学生网络的泛化能力
IRIS: A Real-World Benchmark for Inverse Recovery and Identification of Physical Dynamic Systems from Monocular Video
IRIS基准数据集,用于从视频中进行物理动态系统的逆向恢复和辨识研究。
- 构建高保真真实世界视频数据集IRIS
- 定义标准化评估协议
LenghuSky-8: An 8-Year All-Sky Cloud Dataset with Star-Aware Masks and Alt-Az Calibration for Segmentation and Nowcasting
发布LenghuSky-8八年全天云图数据集,含星敏感掩膜和高精度校准,用于云分割和短时预报。
- 构建了长时间序列全天云图数据集,数据质量高
- 提出了基于DINOv3特征的云分割方法,精度高
Cross-modal learning for plankton recognition
提出一种基于自监督跨模态学习的浮游生物识别方法,有效利用图像和光学测量数据,减少标注需求。
- 提出基于对比学习的跨模态浮游生物识别方法
- 利用光学测量数据辅助图像识别,减少人工标注
HGP-Mamba: Integrating Histology and Generated Protein Features for Mamba-based Multimodal Survival Risk Prediction
HGP-Mamba是一种基于Mamba的多模态框架,结合组织学和生成的蛋白特征进行癌症生存风险预测。
- 提出一种高效的蛋白特征提取器 (PFE)
- 引入Local Interaction-aware Mamba (LiAM) 用于细粒度特征交互
Fanar 2.0: Arabic Generative AI Stack
Fanar 2.0是卡塔尔的以阿拉伯语为中心的生成式AI平台,在资源有限的情况下取得了显著的性能提升。
- 建立了以阿拉伯语为中心的完整生成式AI平台
- 在资源约束下,通过数据质量控制、持续预训练和模型合并实现了性能提升
DermaFlux: Synthetic Skin Lesion Generation with Rectified Flows for Enhanced Image Classification
DermaFlux利用Rectified Flows生成高质量皮肤病灶图像,提升分类性能。
- 提出DermaFlux生成框架
- 使用LoRA进行参数高效微调
Semantic One-Dimensional Tokenizer for Image Reconstruction and Generation
提出SemTok,一种将图像压缩为具有高级语义的1D离散token的语义Tokenizer。
- 提出了2D到1D的tokenization方案
- 提出了语义对齐约束
InViC: Intent-aware Visual Cues for Medical Visual Question Answering
InViC通过意图感知视觉线索增强医学VQA中MLLM对图像的关注,提高临床可靠性。
- 提出了InViC框架,显式增强MLLM对视觉证据的利用
- 设计了Cue Tokens Extraction (CTE) 模块,提取关键视觉线索
NeSy-Route: A Neuro-Symbolic Benchmark for Constrained Route Planning in Remote Sensing
NeSy-Route是一个用于遥感约束路径规划的大规模神经符号基准。
- 提出了NeSy-Route基准,用于评估遥感中的约束路径规划能力
- 开发了自动数据生成框架,生成具有最优解的多样化路径规划任务
VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents
提出了一个名为VisBrowse-Bench的新型视觉原生搜索基准,用于评估多模态浏览代理的视觉推理能力。
- 提出了VisBrowse-Bench基准数据集,包含169个VQA实例
- 提出了一个代理工作流,用于驱动浏览代理主动收集和推理视觉信息
Persistent Story World Simulation with Continuous Character Customization
EverTale通过持续角色定制实现持久故事世界模拟,提升角色一致性和视觉故事质量。
- 提出All-in-One-World Character Integrator
- 引入基于MLLM的Character Quality Gate
FG-SGL: Fine-Grained Semantic Guidance Learning via Motion Process Decomposition for Micro-Gesture Recognition
提出FG-SGL框架,利用细粒度语义指导微手势识别,提升对细微动作差异的感知能力。
- 提出FG-SGL框架,融合细粒度和类别语义指导。
- 构建细粒度文本数据集,描述微手势的动态过程。
Hyperbolic Multimodal Generative Representation Learning for Generalized Zero-Shot Multimodal Information Extraction
提出一种双曲多模态生成表示学习框架HMGRL,解决广义零样本多模态信息抽取问题。
- 提出双曲多模态生成表示学习框架HMGRL
- 在双曲空间重建变分信息瓶颈和自编码器
When Thinking Hurts: Mitigating Visual Forgetting in Video Reasoning via Frame Repetition
针对视频问答中视觉信息丢失问题,提出FrameRepeat框架,通过帧重复增强视觉线索。
- 提出FrameRepeat框架,自动识别并重复关键帧。
- 提出Add-One-In (AOI)训练策略,利用MLLM输出概率生成监督信号。
Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models
提出EVPV方法,通过显式视觉前提验证来提升视觉-语言过程奖励模型的可靠性。
- 提出EVPV框架,解耦感知不确定性和逻辑评估
- 利用视觉检查表和约束提取器进行视觉前提验证
Reliable Reasoning in SVG-LLMs via Multi-Task Multi-Reward Reinforcement Learning
CTRL-S通过多任务多奖励强化学习提升SVG-LLM的推理能力和生成质量。
- 提出CTRL-S框架,引入CoT进行SVG生成推理
- 构建高质量SVG-Sophia数据集
KidsNanny: A Two-Stage Multimodal Content Moderation Pipeline Integrating Visual Classification, Object Detection, OCR, and Contextual Reasoning for Child Safety
提出KidsNanny多模态内容审核框架,结合视觉和文本分析提高儿童安全内容检测效率。
- 提出了一个两阶段多模态内容审核架构KidsNanny
- 结合视觉分类、目标检测、OCR和上下文推理
360° Image Perception with MLLMs: A Comprehensive Benchmark and a Training-Free Method
针对MLLM在360°图像理解的不足,提出了360Bench基准测试和无训练的Free360框架。
- 提出了360Bench,一个高分辨率360°图像VQA基准。
- 系统评估了MLLM和增强方法在360°图像理解方面的能力。
Towards Generalizable Robotic Manipulation in Dynamic Environments
论文提出了DOMINO数据集和PUMA模型,用于提升VLA模型在动态环境下的机器人操作能力。
- 构建了大规模动态操作数据集DOMINO
- 提出了动态感知VLA架构PUMA
Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models
提出DeepVision-VLA,增强VLA模型视觉表征,提升机器人操作性能。
- 提出DeepVision-VLA框架,利用VL-MoT增强视觉信息。
- 引入Action-Guided Visual Pruning (AGVP)剪枝,降低计算开销。
From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation
提出PRIMO R1框架,利用强化学习提升视频MLLM在机器人操作中的过程推理能力,实现更精准的监督。
- 提出PRIMO R1框架,将视频MLLM转化为主动“评论员”
- 利用强化学习激励显式的思维链生成,用于进度估计
Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models
提出一个多阶段诊断框架,通过认知状态空间追踪视觉语言模型中的幻觉问题。
- 提出新的幻觉诊断范式,将幻觉视为动态认知病理
- 构建基于信息论探针的认知状态空间,实现幻觉检测
ViX-Ray: A Vietnamese Chest X-Ray Dataset for Vision-Language Models
该论文发布了包含5400张越南胸部X光片的ViX-Ray数据集,用于评估和提升VLM在越南临床领域的表现。
- 创建了ViX-Ray越南胸部X光片数据集
- 分析了数据集中的语言模式
RSGen: Enhancing Layout-Driven Remote Sensing Image Generation with Diverse Edge Guidance
RSGen通过多样化边缘引导,提升布局驱动的遥感图像生成效果,优化目标检测。
- 提出RSGen框架,利用边缘信息增强遥感图像生成
- 使用图像到图像生成增强边缘图的多样性
Evaluating Time Awareness and Cross-modal Active Perception of Large Models via 4D Escape Room Task
提出了EscapeCraft-4D环境,评估大模型在时序感知和跨模态主动感知方面的能力。
- 提出了EscapeCraft-4D环境
- 评估了现有模型在时序感知和跨模态融合方面的不足
Unlocking the Value of Text: Event-Driven Reasoning and Multi-Level Alignment for Time Series Forecasting
VoT模型利用事件驱动推理和多层次对齐,提升文本在时间序列预测中的价值。
- 提出Event-driven Reasoning,结合文本信息和LLM推理能力
- 提出Historical In-context Learning,指导LLM进行有效的推理
Music Genre Classification: A Comparative Analysis of Classical Machine Learning and Deep Learning Approaches
论文比较了经典机器学习和深度学习方法在尼泊尔音乐流派分类上的应用,并提出了新的数据集。
- 构建了一个包含8个尼泊尔音乐流派的新数据集
- 比较了9种分类模型在尼泊尔音乐流派分类上的性能
SEA-Vision: A Multilingual Benchmark for Comprehensive Document and Scene Text Understanding in Southeast Asia
SEA-Vision,一个东南亚多语言文档和场景文本理解的综合基准。
- 构建了包含11种东南亚语言的文档和场景文本理解基准SEA-Vision
- SEA-Vision包含文档解析和文本中心视觉问答(TEC-VQA)两个任务
Detection of Autonomous Shuttles in Urban Traffic Images Using Adaptive Residual Context
提出Adaptive Residual Context(ARC)架构,用于在城市交通图像中高效检测自动驾驶车辆。
- 提出ARC架构,解决新目标检测的灾难性遗忘问题
- 通过Context-Guided Bridge连接上下文分支和任务分支,保留预训练表示
AI Evasion and Impersonation Attacks on Facial Re-Identification with Activation Map Explanations
提出一种新的对抗性补丁生成框架,用于攻击人脸重识别系统,可实现逃逸和模仿攻击。
- 提出基于条件编码器-解码器的对抗补丁生成框架,无需迭代优化。
- 利用双重对抗目标优化补丁,包括拉取和推送项。
Multimodal Cyber-physical Interaction in XR: Hybrid Doctoral Thesis Defense
提出了一个支持混合XR博士论文答辩的多模态框架,并成功进行了首次实践。
- 提出支持多种参与方式的XR框架
- 集成全身动作捕捉实现自然交互
Faster Inference of Flow-Based Generative Models via Improved Data-Noise Coupling
LOOM-CFM通过跨minibatch优化数据噪声耦合,加速Flow-Based生成模型的推理。
- 提出LOOM-CFM方法,扩展minibatch OT的范围
- 提升Flow-Based生成模型采样速度-质量权衡
Dataset Diversity Metrics and Impact on Classification Models
研究数据集多样性指标与模型性能的相关性,发现部分指标与模型表现相关。
- 评估多种数据集多样性指标
- 分析指标与下游任务性能的相关性
Flash-Unified: A Training-Free and Task-Aware Acceleration Framework for Native Unified Models
FlashU框架通过任务感知优化,在统一模型中实现生成和理解任务的加速,且保持性能。
- 首次系统分析了统一模型中的参数专业化现象
- 提出了无需训练的任务感知加速框架FlashU
IConE: Batch Independent Collapse Prevention for Self-Supervised Representation Learning
IConE提出了一种不依赖batch size的自监督学习方法,通过全局可学习实例嵌入防止表征坍塌。
- 提出了IConE框架,解耦了坍塌预防和batch size
- 引入了可学习的辅助实例嵌入,通过多样性目标正则化
AGCD: Agent-Guided Cross-Modal Decoding for Weather Forecasting
AGCD提出一种利用多智能体和跨模态解码进行天气预报的框架,提升预测精度和物理一致性。
- 提出Agent-Guided Cross-modal Decoding (AGCD) 框架
- 利用MLLMs生成状态条件物理先验知识
Directional Embedding Smoothing for Robust Vision Language Models
该论文扩展了RESTA防御,通过方向性嵌入平滑,增强了视觉语言模型抵抗越狱攻击的鲁棒性。
- 将RESTA防御扩展到VLMs
- 提出方向性嵌入噪声,提升防御效果
HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning
提出了HalDec-Bench,一个评估图像描述幻觉检测器性能的基准,包含多样的模型和幻觉类型。
- 构建了HalDec-Bench基准,用于评估幻觉检测器。
- 提供了不同幻觉类型的细粒度标注。
Multi-turn Physics-informed Vision-language Model for Physics-grounded Anomaly Detection
提出物理信息指导的多轮对话视觉语言模型,显著提升物理异常检测性能。
- 提出物理信息指导的指令微调框架
- 引入多轮对话分解因果推理
HYDRA: Unifying Multi-modal Generation and Understanding via Representation-Harmonized Tokenization
HYDRA通过Representation-Harmonized Tokenization统一多模态生成与理解,达到新的SOTA。
- 提出HYDRA-TOK,一种representation-harmonized ViT
- 引入Generation-Semantic Bottleneck (GSB) 机制
Efficient Document Parsing via Parallel Token Prediction
论文提出了一种并行Token预测方法PTP,加速VLM文档解析,提升效率和泛化能力。
- 提出并行Token预测方法PTP,加速文档解析
- 设计数据生成流程,提供大规模高质量训练数据
Multimodal Connectome Fusion via Cross-Attention for Autism Spectrum Disorder Classification Using Graph Learning
论文提出一种基于图学习和交叉注意力的多模态融合框架,用于自闭症谱系障碍分类。
- 提出基于图学习的多模态融合框架
- 引入非对称Transformer交叉注意力机制
Question-guided Visual Compression with Memory Feedback for Long-Term Video Understanding
提出QViC-MF框架,利用问题引导的记忆反馈机制,提升长视频理解任务性能。
- 提出 Question-guided Visual Compression with Memory Feedback (QViC-MF) 框架
- 设计 Question-guided Multimodal Selective Attention (QMSA) 模块
DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer
提出DAIT,利用中间教师网络自适应地将VLM知识迁移到轻量级分类器,提升细粒度图像分类性能。
- 提出DAIT框架,解决VLM到轻量级模型知识蒸馏的对齐问题
- 引入可训练的中间教师网络,提取任务相关的判别性视觉线索
Vision-Language Model Based Multi-Expert Fusion for CT Image Classification
提出一种多专家融合框架,用于解决多源CT图像的COVID-19检测问题。
- 提出肺部感知的3D专家模型
- 开发基于MedSigLIP的切片级和跨切片专家模型
VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents
VAREX是一个用于评估多模态模型从政府表格中抽取结构化数据的基准。
- 提出了VAREX基准,用于评估多模态模型结构化数据抽取能力
- 使用了Reverse Annotation pipeline生成确定性ground truth
MMKU-Bench: A Multimodal Update Benchmark for Diverse Visual Knowledge
提出MMKU-Bench,一个用于多模态知识更新的综合评估基准,包含更新知识和未知知识两种场景。
- 构建了一个多模态知识更新的综合评估基准MMKU-Bench
- 涵盖更新知识和未知知识两种场景,促进不同知识类型学习的比较分析
Learning from Limited and Incomplete Data: A Multimodal Framework for Predicting Pathological Response in NSCLC
该论文提出一种多模态深度学习框架,利用CT影像和临床数据预测NSCLC新辅助治疗后的主要病理反应。
- 提出基于基础模型CT特征提取方法
- 设计缺失感知架构处理不完整的临床数据
AnoleVLA: Lightweight Vision-Language-Action Model with Deep State Space Models for Mobile Manipulation
AnoleVLA是一种轻量级视觉-语言-动作模型,利用深度状态空间模型高效处理多模态序列,提升移动机器人的操作性能。
- 提出了轻量级VLA模型AnoleVLA
- 使用深度状态空间模型处理视觉和文本输入
VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
VTC-Bench是一个评估MLLM工具使用能力的综合基准,包含32种OpenCV工具和680个问题。
- 提出了VTC-Bench,一个用于评估MLLM工具使用能力的基准。
- VTC-Bench包含32种OpenCV工具,支持复杂的工具组合和长时程规划。
MER-Bench: A Comprehensive Benchmark for Multimodal Meme Reappraisal
提出了Meme Reappraisal任务,构建了MER-Bench数据集,并提出了评估框架。
- 提出了Meme Reappraisal任务
- 构建了MER-Bench数据集
Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing
论文提出IdtVP提示策略和Re3-DAPO强化学习算法,提升VLM在化学反应图解析中的准确性和泛化能力。
- 提出Identifier as Visual Prompting (IdtVP)
- 引入Re3-DAPO强化学习算法
Clue Matters: Leveraging Latent Visual Clues to Empower Video Reasoning
ClueNet通过挖掘视觉线索增强视频推理能力,提升VideoQA性能,并缓解幻觉问题。
- 提出ClueNet框架,利用视觉线索进行视频推理
- 解耦监督学习,对线索提取和链式推理进行对齐
Edit2Interp: Adapting Image Foundation Models from Spatial Editing to Video Frame Interpolation with Few-Shot Learning
利用图像编辑模型的空间先验知识,通过少量样本微调实现视频帧插值。
- 提出了一种利用图像编辑模型进行视频帧插值的方法
- 证明了图像编辑模型的空间理解能力可以转化为时间推理能力
Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos
提出MAGIC3模型,通过建模跨模态一致性来检测短视频中的假新闻。
- 提出MAGIC3模型,显式建模跨三模态一致性
- 利用多风格LLM重写来获得风格鲁棒的文本表示
MMSpec: Benchmarking Speculative Decoding for Vision-Language Models
论文提出了MMSpec基准测试,评估视觉语言模型中推测解码的加速效果,并提出了ViSkip方法。
- 构建了MMSpec基准测试,包含600个多模态样本
- 发现了文本LLM推测解码方法在多模态场景下的退化现象
Anchoring Emotions in Text: Robust Multimodal Fusion for Mimicry Intensity Estimation
TAEMI利用文本锚定和跨模态注意力机制,提升了情感模仿强度的估计精度,尤其在数据缺失情况下表现鲁棒。
- 提出TAEMI框架,用于情感模仿强度估计
- 引入Text-Anchored Dual Cross-Attention机制
RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting
RS-WorldModel统一遥感理解与未来预测,提出新数据集RSWBench-1.1M并超越现有模型。
- 提出统一遥感世界模型RS-WorldModel
- 构建大规模遥感数据集RSWBench-1.1M
MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning
提出了MM-CondChain基准,用于评估MLLM在视觉组合推理方面的能力,并发现现有模型表现不足。
- 提出了MM-CondChain基准,用于评估视觉组合推理能力。
- 设计了一个agentic合成流程,可扩展地构建基准数据。
GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing
GRADE基准测试学科知识驱动的图像编辑推理能力,揭示现有模型在该领域的不足。
- 提出了GRADE基准数据集,包含10个学科领域的520个样本
- 提出了多维度评估协议,评估学科推理、视觉一致性和逻辑可读性
Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing
AutoGaze通过自回归方式选择关键视频帧,减少计算量,提升多模态大模型处理长视频的能力。
- 提出AutoGaze模块,显著减少视频处理中的冗余计算。
- 在多个视频基准测试上取得了优异的结果。
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models
EndoCoT通过迭代细化潜在思想状态,并将其与扩散模型的去噪过程桥接,增强了MLLM的推理能力。
- 提出了EndoCoT框架,增强了MLLM在扩散模型中的推理能力
- 引入迭代思想引导模块,激活MLLM的推理潜力
SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning
SciMDR提出一种合成和重构框架,构建大规模科学多模态文档推理数据集,提升模型在科学QA任务中的表现。
- 提出 synthesize-and-reground 框架
- 构建大规模科学多模态文档推理数据集 SciMDR
SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation
SceneAssistant通过视觉反馈迭代优化,实现开放词汇的3D场景生成。
- 提出基于视觉反馈的3D场景生成框架
- 利用VLM进行空间推理和规划
ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models
ForensicZip通过Forgery驱动的token压缩,加速多模态取证模型并保持检测性能。
- 提出了ForensicZip框架,用于取证视觉语言模型的token压缩。
- 利用Birth-Death Optimal Transport问题建模时间token演化,识别伪造痕迹。
BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning
BehaviorVLM提出了一种无需微调的视觉语言模型,用于动物行为的姿态估计和行为理解。
- 提出BehaviorVLM,一个统一的视觉语言框架
- 无需任务特定的微调
LatentGeo: Learnable Auxiliary Constructions in Latent Space for Multimodal Geometric Reasoning
LatentGeo通过学习隐空间表示来解决多模态几何推理中辅助线构建的难题。
- 提出了LatentGeo框架,学习连续的隐空间视觉表示
- 设计了三阶段课程学习方法,逐步对齐和内化隐空间表示
GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows
GlyphBanana通过agentic workflow和glyph模板注入,提升文本渲染的精确度,尤其在复杂字符和公式渲染方面。
- 提出了 GlyphBanana,一个用于精确文本渲染的agentic workflow
- 设计了专门用于复杂字符和公式渲染的 benchmark
Linking Perception, Confidence and Accuracy in MLLMs
论文研究MLLM的置信度校准问题,提出CDRL和CA-TTS框架,提升模型性能并实现置信度感知。
- 揭示MLLM的置信度误校准问题
- 提出Confidence-Driven Reinforcement Learning (CDRL)方法
EgoIntent: An Egocentric Step-level Benchmark for Understanding What, Why, and Next
提出了EgoIntent,一个用于评估第一视角视频中细粒度意图理解的基准数据集。
- 提出了EgoIntent基准数据集,包含3014个步骤和15个场景
- 定义了三个意图理解维度:What, Why, Next
Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D
Hoi3DGen通过高质量交互数据和文本到3D流程,显著提升了3D人机交互生成的质量和保真度。
- 构建了高质量的3D人机交互数据集
- 提出了一个完整的文本到3D的生成框架
EvoTok: A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation
EvoTok提出了一种统一的图像Tokenizer,通过残差演化过程弥合视觉理解和生成之间的差距。
- 提出EvoTok,一种统一的图像Tokenizer。
- 通过残差向量量化实现图像的演化式表示。
Paper Title: LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments
LoV3D利用3D视觉语言模型,结合区域体积评估进行纵向脑MRI分析,辅助阿尔茨海默病诊断。
- 提出了LoV3D:一个3D视觉语言模型管线,用于分析纵向脑MRI。
- 引入了临床加权的验证器,用于优化诊断输出,无需人工标注。
Continual Learning with Vision-Language Models via Semantic-Geometry Preservation
提出SeGP-CL方法,通过语义几何保持解决VLM持续学习中的灾难性遗忘问题,提升稳定性和前向迁移能力。
- 提出语义几何保持的持续学习框架SeGP-CL
- 使用对抗锚点探测易漂移区域并进行跨模态几何蒸馏
HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios
提出了HomeSafe-Bench,评估VLMs在家庭环境中不安全行为检测的能力,并提出了一种高效的检测架构HD-Guard。
- 提出了HomeSafe-Bench基准测试
- 设计了Hierarchical Dual-Brain Guard (HD-Guard)架构
Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling
提出一种基于双向跨注意力和时间建模的多模态情感识别框架,提升了非约束环境下的情感识别性能。
- 提出基于CLIP和Wav2Vec 2.0的视觉和音频特征提取方法
- 设计双向跨注意力融合模块,增强跨模态上下文信息
Learning Transferable Sensor Models via Language-Informed Pretraining
SLIP通过语言信息预训练传感器模型,提升跨领域零样本迁移能力,实现语义理解和生成推理。
- 提出SLIP框架,用于学习语言对齐的传感器表示。
- 结合对比对齐和传感器条件描述,提升判别理解和生成推理能力。
Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting
ProtoSR通过融合自由文本知识,提升了结构化放射报告生成模型的细粒度判别能力,在Rad-ReStruct数据集上取得领先成果。
- 提出 ProtoSR 模型,融合自由文本知识提升结构化报告精度
- 构建了基于 MIMIC-CXR 的多模态知识库,包含图像和文本信息
Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models
提出Think While Watching框架,提升MLLM在连续视频流上的多轮推理能力,并减少输出token。
- 提出了Memory-anchored流式视频推理框架
- 构建了三阶段多轮CoT数据集并采用阶段匹配训练策略
ZeroSense:How Vision matters in Long Context Compression
论文提出一种解耦评估框架和ZeroSense基准,用于更准确评估视觉文本压缩的质量。
- 提出解耦评估框架,消除下游模型语义推断的影响
- 构建ZeroSense基准,确保测试样本低语义相关性
Multimodal classification of Radiation-Induced Contrast Enhancements and tumor recurrence using deep learning
提出RICE-NET模型,利用多模态深度学习区分脑胶质瘤术后复发和放射性损伤。
- 提出RICE-NET模型
- 整合纵向MRI数据和放疗剂量分布
VTEdit-Bench: A Comprehensive Benchmark for Multi-Reference Image Editing Models in Virtual Try-On
提出了VTEdit-Bench,用于评估通用图像编辑模型在虚拟试穿任务中的性能。
- 构建了VTEdit-Bench基准数据集,包含多种复杂虚拟试穿场景。
- 提出了VTEdit-QA,一个基于VLM的、参考感知的评估器。
Cross-Resolution Attention Network for High-Resolution PM2.5 Prediction
提出CRAN-PM模型,利用跨分辨率注意力高效预测高分辨率PM2.5浓度。
- 提出基于Vision Transformer的CRAN-PM模型
- 引入跨分辨率注意力融合不同分辨率数据
OSCBench: Benchmarking Object State Change in Text-to-Video Generation
提出了OSCBench基准测试,用于评估文本到视频生成模型对物体状态变化的理解能力。
- 构建了OSCBench基准测试数据集
- 提出了基于MLLM的自动评估方法
Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks
提出显式逻辑通道验证和增强多模态大语言模型在零样本任务中的表现。
- 提出显式逻辑通道(ELC)用于验证和增强MLLM。
- 提出一致性率(CR)用于跨通道验证和模型选择。
BackdoorIDS: Zero-shot Backdoor Detection for Pretrained Vision Encoder
BackdoorIDS是一种零样本的视觉编码器后门检测方法,基于注意力的劫持和恢复现象。
- 提出了一种零样本后门检测方法BackdoorIDS
- 利用输入掩码过程中注意力变化检测后门
IDRL: An Individual-Aware Multimodal Depression-Related Representation Learning Framework for Depression Diagnosis
IDRL框架通过解耦多模态表示和个体感知融合,提升抑郁症诊断的准确性和鲁棒性。
- 提出IDRL框架,用于多模态抑郁症诊断
- 解耦多模态表示为抑郁症相关和不相关空间
Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans
HouseMind通过tokenization统一了建筑平面图的理解、生成和编辑,提高了空间推理和可控性。
- 提出了一种新的多模态大语言模型HouseMind
- 引入了离散房间实例token构建统一词汇
Does AI See like Art Historians? Interpreting How Vision Language Models Recognize Artistic Style
该论文分析了视觉语言模型识别艺术风格的机制,并与艺术史家的认知进行对比。
- 揭示VLM预测艺术风格的驱动概念
- 量化评估VLM与艺术史家认知的一致性
Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity
该论文针对文本到图像生成中的颜色逼真度问题,提出了数据集、评估指标和优化方法。
- 提出了用于评估颜色逼真度的Color Fidelity Dataset (CFD)
- 提出了用于客观评估颜色逼真度的Color Fidelity Metric (CFM)
GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
GroundCount通过结合目标检测模块增强VLM,显著提升了计数任务的准确率和效率。
- 提出了 GroundCount 框架,提升了 VLM 的计数准确率
- 发现位置编码对计数任务至关重要,但对不同模型影响不同
Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition
提出一种结合对比学习和视频质量评估的视频识别方法SSL-V3,提升低质量视频识别的准确率。
- 提出结合VQA的自监督学习视频识别框架SSL-V3
- 使用Combined-SSL机制将VQA融入视频分类
Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment
提出一种终身模仿学习框架,利用多模态潜在空间和增量调整实现策略持续优化。
- 提出基于多模态潜在空间的终身模仿学习框架
- 引入增量特征调整机制,稳定任务嵌入
GLM-OCR Technical Report
GLM-OCR提出了一种高效的0.9B参数多模态模型,用于文档理解,具有高性能和高效率。
- 提出Multi-Token Prediction机制加速解码
- 采用PP-DocLayout-V3进行布局分析
From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers
ARMADA框架有效将视觉-语言模型的知识迁移到纯语言模型,无需昂贵的多模态预训练。
- 提出ARMADA跨模态知识蒸馏框架
- 无需多模态预训练或调整教师模型
Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding
提出了跨模态距离不变位置编码DIPE,缓解了MLLM长文本中视觉信息衰减问题。
- 提出跨模态距离不变位置编码DIPE
- 缓解了长文本场景下的视觉信息衰减问题
6ABOS: An Open-Source Atmospheric Correction Framework for the EnMAP Hyperspectral Mission Based on 6S
论文提出6ABOS,一个基于6S的EnMAP高光谱影像大气校正开源框架,适用于水体反射率提取。
- 自动化EnMAP高光谱影像大气校正
- 基于6S辐射传输模型的物理反演
HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation
提出HanMoVLM,用于中国艺术绘画的专业评估,提升VLM在艺术领域的理解和评估能力。
- 构建HanMo-Bench数据集,包含拍卖级真迹和AI生成作品
- 提出HanMoVLM模型,并采用专家验证的Chain-of-Thought推理
CodePercept: Code-Grounded Visual STEM Perception for MLLMs
该论文通过代码作为感知媒介,提升MLLM在STEM领域的可视化感知能力。
- 揭示MLLM在STEM领域视觉推理上的瓶颈是感知能力
- 构建大规模Image-Caption-Code数据集ICC-1M
UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark
提出CTCNet,用于复杂环境下的无人机交通场景理解,并构建了大规模多模态数据集Traffic-VQA。
- 提出Cross-spectral Traffic Cognition Network (CTCNet)
- 设计Prototype-Guided Knowledge Embedding (PGKE)模块
WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
WalkGPT通过深度感知分割实现基于视觉语言的行人导航,解决现有模型对空间理解的不足。
- 提出了WalkGPT模型,用于深度感知的行人导航引导
- 引入MSQP和CTP模块,实现精细的视觉语言 grounding 和深度推理
UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations
UniCom通过压缩连续语义表示,统一多模态理解与生成,实现卓越的图像编辑可控性。
- 提出了基于压缩连续表示的统一多模态框架UniCom
- 证明了降低通道维度比空间下采样更有效
A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction
提出了一种平台无关的多模态数字人建模框架,支持AI驱动的人机交互研究。
- 设计了平台无关的数字人建模框架
- 集成了OpenBCI Galea头显作为统一的多模态传感层
Are Video Reasoning Models Ready to Go Outside?
提出ROVA框架,增强视频理解模型在真实扰动下的鲁棒性,并构建了PVRBench基准测试。
- 提出ROVA训练框架,提升模型在扰动环境下的鲁棒性
- 引入难度感知在线训练策略,自适应选择信息量大的样本
R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment
针对CG图像质量评估,提出基于检索增强的VLM框架R4-CGQA,提升VLM对CG图像质量的评估能力。
- 构建了包含CG图像及质量描述的数据集
- 提出了基于检索增强的双流框架R4-CGQA
UniStitch: Unifying Semantic and Geometric Features for Image Stitching
UniStitch统一几何和语义特征,用于提升图像拼接性能。
- 提出Neural Point Transformer (NPT) 模块
- 设计Adaptive Mixture of Experts (AMoE) 模块
Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues
提出一种基于视觉-语言模型的AIRT缺陷认知分析框架,无需训练即可检测碳纤维复合材料的内部缺陷。
- 提出了一种基于视觉-语言模型的AIRT缺陷认知分析框架
- 设计了AIRT-VLM适配器,增强缺陷可见性并对齐热成像域与VLM表示
IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation
提出了IMTBench,一个多场景跨模态图像机器翻译评测基准,用于评估端到端图像翻译系统的性能。
- 构建了包含2500个样本的多场景图像翻译基准数据集IMTBench
- 提出了多方面的评估指标,包括翻译质量、背景保持、图像质量和跨模态对齐分数
BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion
BEACON通过预测BEV可负担性热图,解决语言条件下的遮挡导航问题。
- 提出BEACON模型,用于预测遮挡场景下的BEV可负担性热图
- 将空间线索注入VLM并融合深度信息
PathMem: Toward Cognition-Aligned Memory Transformation for Pathology MLLMs
PathMem提出一种记忆增强的病理学MLLM框架,有效融合结构化知识并提升诊断推理能力。
- 提出PathMem框架,融合长期记忆和工作记忆
- 引入Memory Transformer,动态转换知识
Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation
ACADiff利用临床信息指导扩散模型,用于脑部多模态图像补全,提升诊断性能。
- 提出ACADiff框架,用于合成缺失的脑部影像模态
- 利用GPT-4o编码的prompt进行临床指导
Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports
提出CourtSI数据集和基准,用于评估VLMs在运动场景中的空间智能,揭示模型差距。
- 构建了首个大规模运动场景空间智能数据集CourtSI
- 提出了高质量评估基准CourtSI-Bench,并进行严格的人工验证
InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
InternVL-U是一个轻量级的多模态统一模型,以40亿参数实现了高效的理解、推理、生成和编辑能力。
- 提出了轻量级多模态统一模型InternVL-U (4B)
- 采用统一上下文建模和模态特定模块化设计
MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities
提出了 MissBench,用于评估多模态情感分析模型在不平衡缺失模态下的性能,并提供评估指标MEI和MLI。
- 提出了MissBench基准测试框架
- 定义了Modality Equity Index (MEI)和Modality Learning Index (MLI)两个诊断指标
VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models
VLM-Loc利用视觉语言模型进行点云地图中的文本定位,提升复杂环境下的定位精度。
- 提出VLM-Loc框架,利用VLM进行空间推理
- 将点云转换为BEV图像和场景图,编码几何和语义信息
Ego: Embedding-Guided Personalization of Vision-Language Models
提出一种高效的视觉语言模型个性化方法Ego,通过内部注意力机制提取视觉token,实现概念记忆和描述。
- 提出了一种基于视觉token的个性化方法
- 无需额外训练,提升效率和泛化性
LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control
LogoDiffuser提出一种免训练的多语言logo生成方法,通过可控注意力机制融合文字和视觉元素。
- 提出免训练的多语言logo生成方法LogoDiffuser
- 利用基于图像的字符输入,实现鲁棒的字符结构控制
Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments
SACA框架通过步进式对比对齐,从不完美轨迹中提取密集监督,提升VLN-CE任务性能。
- 提出Step-Aware Contrastive Alignment (SACA) 框架
- 设计感知步进式审计器评估每步进展
EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning
论文提出了EXPLORE-Bench基准,用于评估MLLM在长时程自我中心场景预测中的推理能力。
- 提出了EXPLORE-Bench基准数据集,包含长动作序列和结构化场景标注。
- 系统评估了现有MLLM在长时程自我中心推理任务上的性能。
Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT
提出CVS方法,通过评估问题对答案有效性的影响,实现视觉语言SFT的无训练数据选择。
- 提出CVS,一种无训练的数据选择方法
- 利用问题对答案有效性影响来评估样本质量
MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models
论文提出了MUGEN基准测试LALMs的多音频理解能力,并提出了改进策略。
- 提出了MUGEN基准测试
- 揭示了LALMs在多音频理解方面的弱点
OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences
提出了OOD-MMSafe基准测试MLLM在因果链中识别潜在风险的能力,并提出CASPO框架提升模型安全性。
- 提出了OOD-MMSafe基准测试
- 揭示了MLLM模型在识别潜在风险方面的因果盲视
TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR
提出TriFusion-SR,一种用于联合三模态医学图像融合和超分辨率的框架。
- 提出基于小波的条件扩散框架,用于联合三模态融合和超分辨率。
- 引入Rectified Wavelet Features (RWF) 校正潜在系数。
TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering
TemporalDoRA通过时序建模改进了手术视频问答的鲁棒性,并提出了REAL-Colon-VQA数据集。
- 提出TemporalDoRA,一种时序感知的PEFT方法
- 提出REAL-Colon-VQA数据集,用于评估语言变异敏感性
AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering
论文提出了一个大规模自动构建的越南语视觉问答数据集,并探索了Transformer架构。
- 构建大规模越南语VQA数据集
- 基于Transformer架构探索越南语VQA
Logics-Parsing-Omni Technical Report
Omni Parsing框架统一多模态数据解析,实现从感知到认知的递进式解析,并构建了相关数据集和模型。
- 提出Omni Parsing框架,统一多模态解析流程
- 构建了包含文档、图像和音视频的统一分类体系
MM-tau-p$^2$: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings
提出了MM-tau-p$^2$基准,用于评估具身用户适应性的多模态Agent的鲁棒性。
- 提出了MM-tau-p$^2$基准,用于评估多模态Agent
- 引入了12个新的评估指标
X-GS: An Extensible Open Framework Unifying 3DGS Architectures with Downstream Multimodal Models
X-GS框架统一了3DGS架构,赋能多模态模型,实现实时的语义增强在线SLAM。
- 提出了X-GS框架,统一多种3DGS技术。
- 设计了X-GS-Perceiver,实现高效的几何与姿态共优化,并从视觉基础模型提取语义特征。
Grounding Synthetic Data Generation With Vision and Language Models
提出基于视觉-语言模型的合成数据生成和评估框架,用于遥感图像增强,并构建了ARAS400k数据集。
- 提出基于视觉-语言模型的合成数据生成和评估框架
- 构建大规模遥感增强数据集ARAS400k
More than the Sum: Panorama-Language Models for Adverse Omni-Scenes
提出全景语言模型PLM,用于理解复杂全景场景,超越传统多视角拼接。
- 提出全景语言模型范式PLM
- 构建大规模全景VQA数据集PanoVQA
GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning
GeoAlignCLIP通过多粒度一致性学习增强遥感图像中文本对齐,提升细粒度视觉语言理解。
- 提出了GeoAlignCLIP框架,实现遥感图像中细粒度对齐
- 学习多粒度语义对齐并结合模内一致性
ALARM: Audio-Language Alignment for Reasoning Models
ALARM模型通过自复述和多音频编码器融合,提升了音频推理能力,并在多项基准测试中取得领先。
- 提出了自复述方法以适应推理LLM
- 融合压缩多个音频编码器以增强表示
Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization
提出了一种基于强化学习的后训练策略,提升统一视觉语言模型的多模态交错生成能力。
- 提出了一种基于强化学习的后训练策略,无需大规模多模态交错数据集。
- 提出了统一的策略优化框架,扩展了Group Relative Policy Optimization (GRPO)到多模态设置。
Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning
该论文探讨了驾驶场景下VLM的一致性和时间推理能力,并提出了改进方案。
- 揭示了VLM在驾驶场景中一致性和时间推理的局限性
- 构建了用于评估未来场景推理的FutureVQA数据集
Evolving Prompt Adaptation for Vision-Language Models
EvoPrompt通过控制prompt的进化路径,实现VLMs在小样本学习中的稳定和知识保留。
- 提出了EvoPrompt框架,用于稳定且知识保留的VLM微调。
- 引入了Modality-Shared Prompt Projector (MPP)生成分层prompt。
Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity
PruneSID通过协同重要性和多样性,高效压缩VLM中的视觉Token,提升推理速度。
- 提出了一种训练无关的视觉Token压缩方法PruneSID
- 设计了Principal Semantic Components Analysis (PSCA) 用于token聚类
MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning
MORE-R1通过强化学习引导LVLM进行逐步推理,显著提升了多模态对象-实体关系抽取性能。
- 提出了一种新的模型MORE-R1,用于多模态对象-实体关系抽取。
- 利用强化学习进行逐步推理,增强了LVLM处理复杂场景的能力。
OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks
OmniEarth是一个遥感视觉-语言模型的综合评估基准,包含感知、推理和鲁棒性三个维度。
- 提出了OmniEarth基准数据集
- 定义了28个细粒度遥感任务
TopoOR: A Unified Topological Scene Representation for the Operating Room
TopoOR提出了一种新的手术室场景拓扑表示方法,提升手术过程理解和预测能力。
- 提出了TopoOR,一种新的手术室场景拓扑表示方法
- 设计了高阶注意力机制,保留流形结构和模态特征
EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation
EvoDriveVLA通过协同感知-规划蒸馏,提升自动驾驶视觉-语言-动作模型的性能和稳定性。
- 提出了一种协同感知-规划蒸馏框架EvoDriveVLA
- 利用自锚定视觉蒸馏,通过轨迹引导的关键区域感知来正则化学生网络表示
Open-World Motion Forecasting
提出开放世界运动预测框架,解决现实场景中目标类别动态变化的问题。
- 提出了开放世界运动预测问题设定。
- 构建了端到端的类增量运动预测框架。
From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation
该论文提出了一种基于IMLE的分布蒸馏框架,将流模型提炼为单步策略,实现机器人实时多模态轨迹控制。
- 提出基于IMLE的分布蒸馏框架
- 使用双向Chamfer距离促进模式覆盖和保真度
ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts
ICDAR 2025 DIMT挑战赛关注复杂布局文档图像的端到端机器翻译。
- 提出了DIMT挑战赛,促进多模态文档理解研究
- 设计了OCR-free和OCR-based两种track
OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
该论文提出OddGridBench基准测试MLLM在细粒度视觉差异识别上的能力,并提出OddGrid-GRPO进行优化。
- 提出OddGridBench基准测试
- 揭示现有MLLM在细粒度视觉差异识别方面的不足
SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation
SpaceSense-Bench:大规模多模态航天器感知与姿态估计基准数据集。
- 构建了大规模多模态航天器感知数据集
- 提供像素级和点云级的语义分割标签以及精确的6DoF姿态真值
CLoE: Expert Consistency Learning for Missing Modality Segmentation
CLoE通过专家一致性学习解决医学图像分割中模态缺失问题,提升分割精度。
- 提出CLoE框架,通过一致性学习提高缺失模态分割的鲁棒性。
- 引入模态专家一致性和区域专家一致性,分别关注全局和局部一致性。
IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework
IntroSVG通过生成器-评论家框架,结合渲染反馈,提升文本到SVG的生成质量。
- 提出Introspective SVG Generation Framework (IntroSVG)
- 使用统一的VLM作为生成器和评论家
FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models
针对VLMs微调中前景注意力漂移问题,提出自适应前景引导的提示调优方法。
- 提出Foreground Reliability Gate,提升前景质量
- 设计Foreground Distillation Compensation模块,引导视觉注意力
CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation
CoCo提出一种代码驱动的CoT推理框架,用于精确、可控的文本到图像生成,并构建了CoCo-10K数据集。
- 提出Code-as-CoT (CoCo) 框架
- 构建了CoCo-10K数据集
CAST: Modeling Visual State Transitions for Consistent Video Retrieval
CAST模型通过预测视觉状态转换,提升了视频检索的一致性和时间连贯性。
- 提出了Consistent Video Retrieval (CVR)任务
- 设计了CAST模型,用于建模视觉状态转换
Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization
提出了一种检索增强方法RAF,提升无模板头部avatar的表情泛化能力。
- 提出了检索增强方法RAF,用于训练无模板头部avatar
- 通过检索邻近表情特征,扩大了表情覆盖范围
UNBOX: Unveiling Black-box visual models with Natural-language
UNBOX利用LLM和扩散模型,在纯语义搜索下揭示黑盒视觉模型的内在逻辑和潜在偏差。
- 提出了UNBOX框架,用于在完全无数据、无梯度和无反向传播的约束下进行类别的模型剖析。
- 利用大型语言模型和文本到图像的扩散模型将激活最大化转化为纯粹的语义搜索。
Boosting MLLM Spatial Reasoning with Geometrically Referenced 3D Scene Representations
论文提出GR3D方法,增强MLLM对三维空间推理能力,无需额外训练,提升了zero-shot性能。
- 提出GR3D几何参考3D场景表示方法
- GR3D提升MLLM在3D空间推理任务的性能
MetaWorld-X: Hierarchical World Modeling via VLM-Orchestrated Experts for Humanoid Loco-Manipulation
MetaWorld-X提出了一个基于VLM专家分层世界模型,用于解决人形机器人复杂操作任务。
- 提出基于VLM的分层世界模型MetaWorld-X
- 设计专家策略(SEP)和智能路由机制(IRM)
BioGait-VLM: A Tri-Modal Vision-Language-Biomechanics Framework for Interpretable Clinical Gait Assessment
BioGait-VLM通过融合视觉、语言和生物力学信息,提升步态分析的泛化性和可解释性。
- 提出了一种三模态的Vision-Language-Biomechanics框架BioGait-VLM
- 引入时间证据提取分支和生物力学标记分支
Beyond Hungarian: Match-Free Supervision for End-to-End Object Detection
提出一种无需匈牙利算法的DETR训练方法,通过跨注意力机制实现query和目标的隐式匹配。
- 提出基于跨注意力的Query选择模块(CAQS)
- 实现了无需显式匹配的端到端目标检测
Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos
Echo2ECG利用多视角超声心动图增强ECG特征,提高心脏表型预测和检索性能。
- 提出了Echo2ECG多模态自监督学习框架
- 利用多视角Echos丰富ECG表征,捕捉心脏形态结构
Reading $\neq$ Seeing: Diagnosing and Closing the Typography Gap in Vision-Language Models
VLMs在文本识别上表现出色,但在排版识别方面存在差距,论文对此进行了系统研究和改进。
- 发现了VLMs在排版识别上的差距,尤其是在字体样式方面
- 构建了评估VLMs排版能力的框架和数据集
Global Cross-Modal Geo-Localization: A Million-Scale Dataset and a Physical Consistency Learning Framework
论文提出了一个大规模跨模态地理定位数据集CORE,并提出了物理规律感知的跨模态地理定位框架PLANET。
- 构建了百万级全球跨模态地理定位数据集CORE
- 提出了物理规律感知的跨模态地理定位网络PLANET
Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images
提出Visual Self-Fulfilling Alignment,通过威胁图像训练VLM提升安全性,无需安全标签。
- 提出了一种新的VLM安全对齐方法VSFA。
- VSFA利用威胁相关图像进行无标签训练,提升VLM的安全性。
X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection
提出X-AVDT,利用生成器内部音视频一致性线索,提高深度伪造检测的鲁棒性和泛化性。
- 提出X-AVDT检测器,利用音视频交叉注意力特征进行深度伪造检测
- 提出MMDF数据集,包含多种生成模型的深度伪造数据
R2F: Repurposing Ray Frontiers for LLM-free Object Navigation
提出一种无需LLM的实时目标导航方法R2F,显著提升导航效率。
- 重新利用ray frontiers进行目标导航
- 提出R2F-VLN,扩展到自由形式语言指令
Can Vision-Language Models Solve the Shell Game?
该论文揭示了视觉语言模型在时空推理上的局限性,并提出了基于时空轨迹生成的解决方案。
- 提出了VET-Bench,一个用于评估VLMs时空推理能力的合成数据集。
- 证明了固定深度Transformer-based VLMs在跟踪无法区分的对象时存在理论上的局限性。
StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation
提出StructBiHOI框架,用于生成长时程双手与物体交互的结构化动作。
- 提出StructBiHOI框架,解耦时序联合规划与帧级动作优化
- 使用jointVAE和maniVAE分别建模长期关节演化和精细手部姿态
Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma
该论文提出了一种基于Rectified Flow的AI模型,用于预测脑肿瘤患者放疗后的MRI图像。
- 提出基于Rectified Flow的脑部MRI图像生成模型
- 实现快速且真实的放疗后MRI预测
M$^3$-ACE: Rectifying Visual Perception in Multimodal Math Reasoning via Multi-Agentic Context Engineering
M³-ACE通过多智能体协作校正视觉感知,提升多模态数学推理性能。
- 提出M³-ACE框架,解耦感知和推理
- 引入Summary Tool和Refine Tool,支持稳定多轮协作
Local-Global Prompt Learning via Sparse Optimal Transport
SOT-GLP通过稀疏最优传输实现局部-全局提示学习,提升视觉语言模型在少样本分类和OOD检测上的性能。
- 提出了SOT-GLP方法,结合全局和局部提示学习
- 利用V-V注意力构建类别条件稀疏patch集合
Learning Multiple Utterance-Level Attribute Representations with a Unified Speech Encoder
提出一种统一的后训练框架,使语音基础模型能够生成多种类型的语句级表示。
- 提出统一的后训练框架
- 学习多个语句级属性表示
Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness
提出一种概念引导微调方法,通过对齐模型内部相关性与概念掩码,提升ViT模型的鲁棒性。
- 提出概念引导微调框架,增强ViT鲁棒性
- 利用LLM和VLM自动生成概念掩码,无需人工标注
Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation
提出一种检索增强的Text-to-CT生成方法,利用检索到的解剖结构信息指导生成,提高图像质量和临床一致性。
- 提出了检索增强的Text-to-CT生成方法
- 利用3D视觉-语言编码器检索语义相关的临床案例
Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm
综述多模态数学推理研究,提出统一的感知-对齐-推理范式,并探讨未来方向。
- 系统分析了多模态数学推理的研究现状
- 提出了理解和比较不同方法的四个关键问题
Novel Semantic Prompting for Zero-Shot Action Recognition
论文提出SP-CLIP框架,通过语义提示增强视觉语言模型,提升零样本动作识别性能。
- 提出基于结构化语义提示的零样本动作识别方法
- 设计多层次抽象的语义提示,包含意图、运动、物体交互
Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization
SBARThez利用多模态、多语言嵌入和实体注入提升摘要的准确性和简洁性。
- 提出SBARThez框架,支持跨语言摘要和多模态输入
- 引入命名实体注入机制,提升生成摘要的事实一致性
FlowTouch: View-Invariant Visuo-Tactile Prediction
FlowTouch提出了一种视角不变的视觉-触觉预测模型,利用局部3D网格实现跨域泛化。
- 提出了FlowTouch模型,用于视角不变的视觉-触觉预测
- 利用局部3D网格编码信息,提高模型的泛化能力
Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data
提出了一种利用合成视觉数据在零视听资源下进行视听语音识别的框架。
- 提出零视听资源下的视听语音识别框架
- 利用唇形同步静态面部图像生成合成视觉流
SiMO: Single-Modality-Operable Multimodal Collaborative Perception
SiMO提出一种单模态可操作的多模态协同感知框架,解决模态失效问题,提升鲁棒性。
- 提出Length-Adaptive Multi-Modal Fusion (LAMMA) 适应模态缺失
- 提出Pretrain-Align-Fuse-RD训练策略,解决模态竞争问题
Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction
提出一种面向LALM的歧义情感识别方法,通过分布推理和链式思考提升模型对复杂情感的理解。
- 提出歧义感知目标函数,对齐预测与人类感知分布
- 提出结构化的歧义感知链式思考监督,引导情感线索推理
Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors
提出两种多模态融合策略,RGIF和RGMAF,用于提升异构传感器下无人机检测的鲁棒性和精度。
- 提出Registration-aware Guided Image Fusion (RGIF)
- 提出Reliability-Gated Modality-Attention Fusion (RGMAF)
ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection
提出ALOOD方法,利用语言表示进行LiDAR OOD目标检测,提升自动驾驶安全性。
- 提出基于语言表示的LiDAR OOD目标检测方法ALOOD
- 将OOD检测转化为zero-shot分类任务
MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals
MERLIN提出了针对电磁信号的低信噪比鲁棒多模态LLM框架,并构建了数据集和基准。
- 构建大规模电磁信号-文本数据集EM-100k
- 提出综合性的电磁信号基准EM-Bench
SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action
论文提出一种神经科学启发的视觉-语言-动作三元架构SaiVLA-0,实现高效计算和可复现性。
- 提出Cerebrum-Pons-Cerebellum三元架构
- 引入固定比例调度和两阶段特征缓存以实现计算感知
SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving
提出了场景自适应的混合专家VLA模型SAMoE-VLA,用于提升自动驾驶决策的稳定性和安全性。
- 提出了场景自适应的混合专家机制,基于BEV特征进行专家选择
- 引入了条件跨模态因果注意力机制,整合世界状态、语言意图和行动历史
Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models
利用多模态大语言模型生成缺陷图像,提升电力线绝缘子缺陷检测效果。
- 提出基于MLLM的缺陷图像生成方法
- 使用双参考条件和人工验证提高图像多样性和标签准确性
Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling
提出了一种基于LVLM的关系建模方法,用于提升跨视角无人机地理定位的准确性。
- 提出了基于LVLM的联合关系建模方法
- 设计了关系感知损失函数,使用软标签进行优化
Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout
针对ABAWE表情识别挑战,提出了一种鲁棒的多模态框架,有效处理模态缺失和数据不平衡问题。
- 提出基于安全交叉注意力和模态Dropout的多模态框架
- 采用Focal Loss和滑动窗口软投票策略缓解数据不平衡
Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline
提出用于多模态终身理解的MM-Lifelong数据集和递归多模态Agent(ReMA)模型,解决现有模型记忆瓶颈和全局定位崩溃问题。
- 构建了大规模多模态终身学习数据集MM-Lifelong
- 提出了递归多模态Agent(ReMA)模型,有效缓解记忆瓶颈和全局定位崩溃问题
HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token
该论文提出了一种在视觉语言模型生成文本前预测幻觉风险的方法。
- 提出预生成幻觉检测方法HALP
- 探究不同模型内部表示对幻觉检测的有效性
Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry
论文研究了AI在多模态协同场景下构建共同基础的难题,并提出了DPIP数据集进行评估。
- 提出了DPIP协同任务和多模态数据集
- 评估了LLMs和DEL在共同基础建模上的表现
NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries
NaiLIA提出了一种多模态美甲设计检索方法,能更好地理解复杂的用户意图和颜色偏好。
- 提出NaiLIA多模态检索方法
- 引入基于置信度得分的松弛损失
OpenFrontier: General Navigation with Visual-Language Grounded Frontiers
OpenFrontier提出了一种免训练的视觉语言导航框架,利用语义先验实现高效的零样本导航。
- 提出OpenFrontier框架,无需训练即可实现视觉语言导航
- 将导航问题转化为稀疏子目标识别和到达问题
WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation
WavSLM通过蒸馏WavLM表征,实现单流语音语言建模,无需文本监督。
- 提出WavSLM单流语音语言模型
- 使用WavLM蒸馏学习语音表征
Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh
构建了孟加拉国首个国家级多语种平行多模态语料库,覆盖多种濒危语言。
- 创建了孟加拉国少数民族语言的大规模多语种语料库
- 系统性的田野调查和数据收集方法
Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum
Wiki-R1通过课程学习强化学习框架,提升MLLM在知识库VQA上的推理能力,达到SOTA。
- 提出了基于数据生成的课程强化学习框架Wiki-R1
- 设计了可控的课程数据生成方法,控制样本难度
Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards
提出ASR-TRA,一种基于强化学习的测试时自适应框架,提升ASR在噪声和口音环境下的鲁棒性。
- 提出了一种基于强化学习的测试时自适应框架ASR-TRA
- 利用音频-文本语义对齐作为奖励信号
Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems
论文提出一种基于数字孪生的纺织品分拣系统,利用VLM进行分类和异物识别。
- 提出数字孪生驱动的纺织品分拣系统
- 评估了多种VLM在纺织品分类任务上的性能
Mario: Multimodal Graph Reasoning with Large Language Models
Mario提出了一个统一的框架,利用LLM在多模态图上进行推理,解决跨模态一致性和异构模态偏好的问题。
- 提出了图条件VLM设计,通过对比学习提升跨模态一致性
- 提出了模态自适应图指令微调机制,利用可学习的路由选择最佳模态配置
Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models
提出一种复杂度感知的自适应VLA框架,通过视觉信息判断任务复杂度,提升推理效率和鲁棒性。
- 提出了复杂度感知的自适应推理框架,提升VLA模型的效率。
- 利用视觉信息进行任务复杂度检测,实现Act, Think, Abstain三种执行策略。
UniPAR: A Unified Framework for Pedestrian Attribute Recognition
UniPAR提出了一个统一的Transformer框架,用于处理多种模态下的行人属性识别任务。
- 提出了统一的Transformer框架UniPAR用于PAR
- 引入统一数据调度策略和动态分类头
Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series
Aura框架通过整合多维外部因素,显著提升了航空时间序列预测的准确性和适应性。
- 提出Aura框架,显式组织和编码异构外部信息。
- 针对航空维护场景,识别并利用三种不同的外部因素。
UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark
提出了 UniM 基准,用于评估多模态大模型在任意模态组合的理解和生成能力。
- 提出了 UniM 数据集,包含 31K 多模态实例
- 提出了 UniM 评估套件,评估模型语义正确性、结构完整性和连贯性
A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset
该研究提出一种基于多目视觉和颜色注意力机制的蓝光应急车辆检测系统。
- 构建了欧洲应急车辆蓝光图像数据集 ABLDataset
- 提出了基于颜色注意力机制的 RT-DETR 蓝光检测算法
Enhancing Zero-shot Commonsense Reasoning by Integrating Visual Knowledge via Machine Imagination
通过机器想象补充视觉知识,增强零样本常识推理能力,有效缓解文本知识的偏差。
- 提出Imagine框架,将图像生成器融入推理流程。
- 构建合成数据集,模拟视觉问答场景,辅助视觉上下文利用。
VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters
VisionPangu是一个17亿参数的多模态模型,通过高质量监督提升图像细节描述能力。
- 提出了一个紧凑型多模态模型VisionPangu
- 利用DOCCI数据集提升语义连贯性和描述丰富性
AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM
AdaIAT通过自适应地增强生成文本的注意力来减轻LVLM中的幻觉问题,并保持语言连贯性。
- 提出Attention to Generated Text (IAT)方法,减轻幻觉。
- 提出Adaptive IAT (AdaIAT),自适应控制干预时间和幅度。
Authorize-on-Demand: Dynamic Authorization with Legality-Aware Intellectual Property Protection for VLMs
提出了一种新的动态授权与合法性感知的VLM知识产权保护框架,支持按需授权和自适应部署。
- 提出AoD-IP框架,实现VLM的动态授权
- 引入双路径推理机制,联合预测输入合法性和任务特定输出
FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation
FedAFD提出了一种新的多模态联邦学习框架,通过对抗融合和蒸馏提升客户端和服务器端的学习效果。
- 提出了双层对抗对齐策略,缓解模态和任务差异
- 设计了细粒度融合模块,自适应整合全局知识
Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation
提出了用于多模态脑肿瘤分割的联邦学习框架FedMEPD,解决了模态异构和个性化问题。
- 提出了联邦模态特定编码器以处理模态间异构性。
- 提出了部分个性化的多模态融合解码器以满足个体需求。
Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation
提出一个两阶段结构驱动的图像-文本对比学习框架,用于自动生成CT报告,提高临床效率。
- 引入结构感知的图像-文本对比学习
- 提出基于文本相似性的软伪标签缓解假阴性
K-Gen: A Multimodal Language-Conditioned Approach for Interpretable Keypoint-Guided Trajectory Generation
K-Gen利用多模态大语言模型和关键点引导生成 interpretable 自动驾驶轨迹,性能优于现有方法。
- 提出了一种基于关键点引导的多模态轨迹生成框架K-Gen
- 利用MLLM结合视觉和文本信息进行轨迹生成
Low-Resource Guidance for Controllable Latent Audio Diffusion
提出一种低资源、可控的潜在音频扩散方法,通过选择性时频引导和潜在控制头实现细粒度音频控制。
- 提出选择性TFG和LatCHs实现低成本控制
- 在latent space操作避免昂贵的解码步骤
FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering
FocusGraph提出了一种图结构的帧选择框架,用于长视频问答,提升推理效率和性能。
- 提出了基于图结构的场景字幕LLM选择器,用于选择关键帧
- 设计了无训练的 Patch-wise Sparse-Flow Retention (PSFR) 方法选择关键帧
RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation
RANGER模型通过专家混合和自适应检索重排序,提升病理报告生成的质量。
- 提出了一种基于稀疏门控专家混合(MoE)的病理报告生成框架RANGER。
- 引入自适应检索重排序模块,减少噪声并改善语义对齐。
CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video
CubeComposer原生生成4K分辨率360°视频,提升VR沉浸式体验。
- 提出时空自回归扩散模型CubeComposer
- 设计立方体面上下文管理机制,提升效率
FeedAIde: Guiding App Users to Submit Rich Feedback Reports by Asking Context-Aware Follow-Up Questions
FeedAIde利用多模态大语言模型,通过情境感知提问,引导用户提交更完善的App反馈报告。
- 提出了一种情境感知的交互式反馈方法FeedAIde
- 使用多模态大语言模型进行自适应提问
Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild
构建了首个大规模文档解析物理重建基准Real5-OmniDocBench,用于评估VLM在真实场景下的鲁棒性。
- 构建了Real5-OmniDocBench基准
- 实现了OmniDocBench的完整物理重建
GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning
提出一种基于视觉-语言推理的杂乱衣物检索方案,实现安全准确的单件衣物抓取。
- 提出基于视觉-语言推理的衣物检索流程
- 利用SAM2进行衣物分割,增强VLM对衣物状态的感知
Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
Crab$^{+}$通过显式合作解决AV-LLM中的负迁移问题,实现更全面的视听场景理解。
- 提出AV-UIE v2数据集,包含详细推理过程。
- 设计统一接口对齐异构任务。
FastWave: Optimized Diffusion Model for Audio Super-Resolution
FastWave提出了一种优化的扩散模型用于音频超分辨率,降低了计算成本并提高了训练速度。
- 提出FastWave模型,参数量小,计算复杂度低
- 在音频超分辨率任务上,性能优于NU-Wave 2
DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval
针对组合图像检索的判别性查询嵌入,提出可学习属性权重和目标相对负采样。
- 提出可学习的属性权重,强调与修改文本相关的视觉特征。
- 引入目标相对负采样,选择信息量更大的负样本。
When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models
利用人脸空想性错觉,分析多种视觉模型在歧义情况下的判别能力,揭示了表征选择对模型行为的影响。
- 提出了一个用于分析视觉模型在歧义情况下行为的诊断框架。
- 使用人脸空想性错觉作为受控探针,研究不同视觉模型的检测、定位、不确定性和偏差。
RIVER: A Real-Time Interaction Benchmark for Video LLMs
论文提出了RIVER Bench,一个评估视频LLM实时交互能力的新基准,并提供了一种改进方法。
- 提出了RIVER Bench,用于评估视频LLM的实时交互能力
- 设计了Retrospective Memory, Live-Perception, Proactive Anticipation三个任务
GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery
GeoSeg提出一种免训练的遥感图像推理驱动分割框架,无需标注数据即可进行精准分割。
- 提出GeoSeg框架,实现零样本遥感图像分割
- 引入偏差感知坐标精细化,校正定位偏差
Phi-4-reasoning-vision-15B Technical Report
Phi-4-reasoning-vision-15B是一个紧凑型开源多模态推理模型,注重数据质量和架构设计。
- 构建了小型高效的多模态推理模型
- 验证了数据质量对模型性能的关键作用
BLOCK: An Open-Source Bi-Stage MLLM Character-to-Skin Pipeline for Minecraft
BLOCK是一个开源的二阶段MLLM Minecraft皮肤生成流程,通过MLLM和FLUX.2模型实现像素级皮肤生成。
- 提出BLOCK开源皮肤生成流程
- 设计基于MLLM的3D预览合成阶段
Towards Generalized Multimodal Homography Estimation
提出一种新的多模态单应性估计方法,通过合成数据和网络设计增强泛化能力。
- 提出一种新的训练数据合成方法
- 设计一种新的网络结构利用跨尺度信息并解耦颜色信息
N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition
提出了一种n-gram注入Transformer解码器的方法,用于手写文本识别中的动态语言模型自适应,提升跨领域识别精度。
- 提出n-gram注入Transformer解码器的方法
- 实现了动态语言模型自适应
DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models
DeepScan是一个免训练框架,通过层级扫描、重聚焦和证据增强推理,提升LVLM的视觉理解能力。
- 提出DeepScan框架,无需训练即可提升LVLM的视觉理解能力
- 提出层级扫描方法,有效减轻干扰上下文的影响
Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning
预训练VLA模型在持续学习中表现出惊人的抗遗忘能力,简单经验回放即可有效。
- 发现预训练VLA模型抗遗忘能力强
- 验证简单经验回放(ER)在VLA上的有效性
Utonia: Toward One Encoder for All Point Clouds
提出Utonia,一个统一的自监督点云Transformer编码器,适用于多个领域。
- 提出一个统一的跨域点云编码器Utonia
- 证明了Utonia在不同领域之间的迁移能力
ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation
ULTRA提出了一个统一框架,实现人形机器人自主全身运动操作,提升了感知和任务规范下的泛化能力。
- 提出物理驱动的神经重定向算法
- 学习统一的多模态控制器
Beyond Language Modeling: An Exploration of Multimodal Pretraining
研究原生多模态模型,揭示视觉和语言数据互补性,发现视觉比语言更需要数据。
- 提出Representation Autoencoder (RAE) 作为统一视觉表示
- 证明视觉和语言数据具有互补性,促进下游能力提升
LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
LoGeR提出一种混合记忆模块,用于提升长视频序列三维重建的全局一致性。
- 提出混合记忆模块,结合参数化和非参数化记忆
- 实现无需后优化的超长序列稠密三维重建
UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?
该论文提出了UniG2U-Bench,评估统一模型在多模态理解中生成能力的有效性。
- 提出了UniG2U-Bench基准测试,包含7个类别和30个子任务
- 评估了30多个模型,揭示了统一模型的性能弱点和优势
COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design
COP-GEN利用扩散Transformer对多模态地球观测数据进行条件生成建模。
- 提出COP-GEN,一种多模态隐扩散Transformer模型。
- 实现了任意到任意的条件生成,包括零样本模态转换。
Conditioned Activation Transport for T2I Safety Steering
提出CAT框架,通过条件激活传输,在保证图像质量的同时降低T2I模型生成不安全内容。
- 构建 SafeSteerDataset 对比数据集
- 提出基于几何的条件机制和非线性传输图的 CAT 框架
AWDiff: An a trous wavelet diffusion model for lung ultrasound image synthesis
提出AWDiff模型,利用小波变换和扩散模型进行肺部超声图像生成,提升图像质量。
- 提出了AWDiff模型
- 结合小波变换和扩散模型
TinyIceNet: Low-Power SAR Sea Ice Segmentation for On-Board FPGA Inference
TinyIceNet:低功耗SAR海冰分割网络,用于星载FPGA推理,实现近实时海冰监测。
- 提出TinyIceNet,一种紧凑型语义分割网络
- 针对星载SAR图像进行了硬件算法协同设计
Design Generative AI for Practitioners: Exploring Interaction Approaches Aligned with Creative Practice
论文提出三种与设计实践对齐的生成式AI交互方法,提升设计师对AI输出的控制力。
- 提出三种新的交互方法:DesignPrompt, FusAIn, DesignTrace
- 强调在设计流程的不同阶段分配控制权的重要性
EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education
提出EduAIGV-1k数据集和EduVQA模型,评估AI生成教育视频质量。
- 构建了首个AI生成教育视频质量评估基准数据集EduAIGV-1k
- 提出了细粒度的标注方法,包括感知质量和提示对齐
Semi-Supervised Few-Shot Adaptation of Vision-Language Models
针对医学图像分类小样本学习中的类别不平衡问题,提出一种半监督方法,利用无标签数据提升模型性能。
- 提出一种基于文本信息伪标签传播的半监督学习方法
- 应用于医学图像分类的小样本学习
TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval
TRACE通过生成式推理和判别式表示学习,提升通用多模态检索性能,实现任务自适应。
- 提出TRACE框架,融合生成式推理和判别式表示学习
- 构建M-BEIR-CoT数据集,用于训练推理模型
3D-DRES: Detailed 3D Referring Expression Segmentation
提出了新的3D Referring Expression Segmentation任务(3D-DRES),并构建了数据集DetailRefer和基线模型DetailBase。
- 提出了3D-DRES任务,实现phrase到3D instance的映射
- 构建了包含54,432个描述的DetailRefer数据集
LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval
LLandMark是一个多智能体框架,用于地标感知的多模态交互式视频检索,提升越南场景的检索效果。
- 提出 LLandMark 多智能体框架,用于多模态视频检索
- 引入地标知识代理,增强基于 CLIP 的语义匹配
Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models
提出Think-as-You-See (TaYS),一个针对视频流的并行化CoT推理框架,提升LVLM在视频理解任务中的效率和响应速度。
- 提出TaYS框架,实现视频流的并行化CoT推理
- 引入时间对齐的推理单元、流式注意力机制和双KV缓存
Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis
提出一种多模态先验引导的重要性采样方法,用于稀疏视角下的新视角合成。
- 提出多模态先验引导的重要性采样机制
- 设计粗到细的Gaussian表示
Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models
该论文通过探针实验揭示LVLMs处理图结构数据时,节点和边信息编码的阶段性差异。
- 发现LVLMs中节点信息在视觉编码器中较早编码,而边信息则较晚编码。
- 揭示边信息在线性可分性方面在视觉编码器和语言模型中存在差异。
CoFL: Continuous Flow Fields for Language-Conditioned Navigation
CoFL通过预测连续流场实现语言条件导航,无需离散动作预测,并在真实场景中实现了zero-shot部署。
- 提出了一种端到端的语言条件导航策略CoFL
- 设计了一种基于程序化标注的大规模BEV图像-指令数据集
BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation
BrandFusion提出一个多智能体框架,用于在文生视频中无缝集成品牌,提升商业价值。
- 提出了在文生视频中无缝集成品牌的新任务
- 提出了BrandFusion多智能体框架,包含离线品牌知识库构建和在线提示优化阶段
Structure-Aware Text Recognition for Ancient Greek Critical Editions
研究了VLM在古希腊文本识别中的应用,提出了数据集并评估了模型性能。
- 构建了大规模的古希腊文本合成数据集
- 建立了古希腊文本识别的真实扫描数据集基准
OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets
研究了MLLM在文档信息提取中是否需要OCR,发现强大MLLM可媲美OCR+MLLM。
- 评估了MLLM在文档信息提取中的性能
- 提出了自动化的分层错误分析框架
ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion
ITO通过多重对齐和训练时融合,提升图像-文本对比学习的模态一致性和表征能力。
- 提出ITO框架,结合多重对齐和训练时融合
- 多重对齐增强了图像-文本对应关系的监督
Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing
针对遥感VQA中MLLM的幻觉问题,提出一种无需训练的推理方法RADAR,提升性能并减少幻觉。
- 提出了RSHBench,一个用于细粒度诊断幻觉的基准
- 提出了RADAR,一种无需训练的推理方法,利用注意力机制引导定位和推理
iGVLM: Dynamic Instruction-Guided Vision Encoding for Question-Aware Multimodal Understanding
iGVLM通过动态指令引导的视觉编码,提升了多模态模型在复杂推理任务中的性能。
- 提出iGVLM框架,解耦表示分支和动态调节分支
- 引入MM4诊断探针,用于评估多查询多指令下的逻辑一致性
ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling
ShareVerse提出了一种多智能体一致性视频生成框架,用于共享世界建模。
- 构建大规模多智能体交互数据集
- 提出空间拼接策略确保多视角几何一致性
Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory
提出M3IRT框架,用于评估MLLM的跨模态推理能力,并优化多模态benchmark。
- 提出了多模态多维度项目反应理论框架(M3IRT)
- 利用M3IRT评估MLLM的跨模态推理能力和问题难度
physfusion: A Transformer-based Dual-Stream Radar and Vision Fusion Framework for Open Water Surface Object Detection
提出PhysFusion,利用雷达和视觉信息融合,提升水面目标检测精度和鲁棒性。
- 提出物理信息雷达编码器(PIR Encoder)
- 设计雷达引导的交互式融合模块(RIFM)
LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving
提出LaST-VLA框架,通过潜在时空推理提升自动驾驶视觉-语言-动作模型性能,解决语义-感知解耦和感知-符号冲突。
- 提出Latent Spatio-Temporal CoT框架
- 引入双重特征对齐机制,从3D基础模型和世界模型中提取几何约束和动态预测信息
SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation
SeeThrough3D通过显式建模遮挡关系,实现了3D布局条件下的高质量图像生成。
- 提出了遮挡感知3D场景表示(OSCR)
- 利用遮挡信息进行图像生成
Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning
VLMs推理能力不足源于训练数据中的报告偏差,扩大规模不能解决,需有针对性地数据标注。
- 揭示VLMs推理能力不足的根本原因是训练数据中的报告偏差
- 证明扩大数据规模、模型规模和语言种类不能有效提升VLMs的推理能力
Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?
提出一种基于检索增强的测试时适配器,利用少量带标注样本提升开放词汇分割性能。
- 提出检索增强测试时适配器,融合文本和视觉支持特征
- 实现了学习型的、针对每个查询的特征融合,提升了模态协同
A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations
提出了一个用于对话情绪识别的混合专家模型MiSTER-E,有效融合语音和文本信息。
- 提出了MiSTER-E模型,解耦了模态特定上下文建模和多模态信息融合
- 引入了监督对比损失和KL散度正则化,增强模态一致性
Large Multimodal Models as General In-Context Classifiers
论文研究了大型多模态模型在上下文学习中的分类能力,并提出了CIRCLE方法提升开放世界分类效果。
- 论证了LMMs在上下文学习中作为分类器的潜力。
- 提出了CIRCLE方法,提升LMMs在开放世界分类中的鲁棒性。
MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction
MovieTeller利用工具增强和渐进式抽象生成ID一致且连贯的电影梗概。
- 提出了一种无需微调,工具增强的电影梗概生成框架
- 利用外部人脸识别工具建立事实基础
Efficient Encoder-Free Fourier-based 3D Large Multimodal Model
Fase3D提出了一种高效的无编码器傅里叶变换3D场景大模型,显著提升3D数据处理效率。
- 提出基于傅里叶变换的3D场景LMM
- 引入点云序列化和快速傅里叶变换(FFT)近似自注意力
The Trinity of Consistency as a Defining Principle for General World Models
论文提出世界模型应基于一致性三位一体原则,并构建了评估基准CoW-Bench。
- 提出了Modal, Spatial, Temporal一致性三位一体原则
- 提出了CoW-Bench多帧推理与生成基准
No Labels, No Look-Ahead: Unsupervised Online Video Stabilization with Classical Priors
提出一种新的无监督在线视频稳定框架,无需配对数据,性能优于现有方法。
- 提出一种新的无监督在线视频稳定框架
- 设计了基于经典pipeline的多线程缓冲机制
WARM-CAT: : Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning
WARM-CAT通过积累无监督知识和动态调整原型,解决组合零样本学习中的分布偏移问题。
- 提出 Warm-Started Test-Time Comprehensive Knowledge Accumulation (WARM-CAT) 方法
- 设计自适应更新权重控制原型调整程度,灵活适应分布偏移
Cytoarchitecture in Words: Weakly Supervised Vision-Language Modeling for Human Brain Microscopy
提出一种基于弱监督的视觉-语言模型,用于描述人脑显微图像中的细胞结构。
- 提出了一种基于标签介导的图像-文本弱监督学习方法
- 将现有的细胞结构视觉基础模型(CytoNet)与大型语言模型相连接
Learning Disease-Sensitive Latent Interaction Graphs From Noisy Cardiac Flow Measurements
提出一种基于物理信息的潜在关系图框架,用于建模心脏血流特征,以诊断心脏疾病。
- 提出基于物理信息的潜在关系图模型
- 应用于主动脉缩窄和左心室辅助装置数据
WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval
WISER通过检索-验证-精炼流程,结合图像和文本检索,实现无需训练的零样本组合图像检索。
- 提出WISER框架,融合T2I和I2I检索,建模意图和不确定性。
- 设计自适应融合模块,根据置信度选择精炼或融合双路径检索结果。
SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling
SubspaceAD是一种无需训练的少样本异常检测方法,基于预训练模型特征和子空间建模。
- 提出无需训练的少样本异常检测方法SubspaceAD
- 利用预训练DINOv2提取特征并进行PCA降维
Modeling Expert AI Diagnostic Alignment via Immutable Inference Snapshots
该论文提出通过不变的推理快照建模专家AI诊断对齐框架,提高临床决策支持系统的人工对齐评估。
- 提出诊断对齐框架,使用不变推理状态
- 结合VLM、BERT和SLMI进行医学实体提取和推理
SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy
SPM-Bench是一个用于评估LLM在扫描探针显微镜领域的自动多模态基准测试,具有高权威性和低成本。
- 提出了SPM-Bench基准测试
- 设计了全自动数据合成流水线
MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis
MM-NeuroOnco构建了大规模脑肿瘤MRI多模态诊断基准,并提出了NeuroOnco-GPT模型。
- 构建了大规模多模态脑肿瘤MRI诊断数据集MM-NeuroOnco
- 提出了多模型协作的自动医学信息补全和质量控制流程
MViR: Multi-View Visual-Semantic Representation for Fake News Detection
MViR通过多视角视觉语义表示提升假新闻检测性能,融合图像和文本信息。
- 提出多视角视觉语义表示框架(MViR)
- 使用金字塔空洞卷积捕获多视角视觉语义特征
MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding
MSJoE通过联合优化MLLM和采样器,提升长视频理解效率和准确率。
- 提出MSJoE框架,联合演化MLLM和轻量级关键帧采样器
- 引入查询推理,提升关键帧选择的准确性
Where Vision Becomes Text: Locating the OCR Routing Bottleneck in Vision-Language Models
该论文通过因果干预探究了视觉语言模型中OCR信息的路由机制和瓶颈位置。
- 揭示了不同架构VLMs中OCR瓶颈的位置差异
- 发现OCR信号是低维的且具有跨数据集的迁移性
Towards Multimodal Domain Generalization with Few Labels
提出了一个半监督多模态域泛化框架,解决了数据量少和域偏移的问题。
- 提出了半监督多模态域泛化(SSMDG)问题
- 提出了包含三个关键组件的统一框架
From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models
DPE是一种诊断驱动的迭代训练方法,通过诊断盲点动态调整数据,持续提升LMMs性能。
- 提出Diagnostic-driven Progressive Evolution (DPE) 训练框架
- 利用多智能体标注和质量控制大规模多模态数据
A data- and compute-efficient chest X-ray foundation model beyond aggressive scaling
提出CheXficient模型,通过主动数据管理实现高效的胸部X光影像基础模型预训练。
- 提出一种数据和计算高效的医学影像基础模型预训练方法
- CheXficient模型在更少的数据和计算资源下达到与全数据模型相当甚至更优的性能
TrajTok: Learning Trajectory Tokens enables better Video Understanding
提出TrajTok视频tokenizer,通过联合训练动态分割视频轨迹,提升视频理解性能和效率。
- 提出端到端视频tokenizer模块TrajTok,与下游任务联合训练。
- TrajTok通过隐式聚类提取时空轨迹,无需外部分割和跟踪流水线。
Imagination Helps Visual Reasoning, But Not Yet in Latent Space
论文揭示了现有多模态大语言模型中隐空间推理的无效性,并提出显式文本想象方法CapImagine。
- 揭示了隐空间推理中输入与隐状态、隐状态与答案之间的断连
- 提出了基于显式文本想象的视觉推理方法CapImagine
SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation
SPATIALALIGN框架通过DPO微调T2V模型,提升视频中动态空间关系与文本提示的对齐。
- 提出了SPATIALALIGN自提升框架
- 设计了基于几何的DSR-SCORE指标
AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation
AMLRIS通过对齐感知掩码学习提升指代图像分割效果,关注可信线索。
- 提出Alignment-Aware Masked Learning (AML)训练策略
- 显式估计像素级视觉-语言对齐
Asymmetric Idiosyncrasies in Multimodal Models
研究了Caption模型和Text-to-Image模型之间的风格差异,并提出了一种新的量化方法。
- 提出了一种基于分类的框架,用于量化Caption模型的风格特征。
- 发现Caption模型的风格特征在生成的图像中显著消失。
HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models
HulluEdit通过正交子空间编辑,单次推理有效减少大视觉语言模型中的对象幻觉,同时保持通用能力。
- 提出HulluEdit,一种单次、无参考的幻觉缓解框架
- 引入正交子空间编辑,将隐藏状态分解为视觉证据、先验冲突和残差不确定性
SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs
针对3D LVLM在3D空间感知上的不足,提出了基于球坐标的位置编码SoPE,增强了模型对3D几何结构的理解。
- 提出了基于球坐标的位置编码SoPE
- 引入了多尺度频率混合策略
No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings
提出了一种无需真实caption的membership inference攻击方法MoFit,有效识别扩散模型训练集成员。
- 提出MoFit框架,实现caption-free的membership inference攻击
- 通过优化图像扰动,构建过拟合生成流形的surrogate
SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses
提出了首个智能眼镜VQA基准SUPERGLASSES,并构建了检索增强的智能眼镜Agent SUPERLENS。
- 构建了首个基于真实智能眼镜数据的VQA基准数据集SUPERGLASSES
- 评估了26个VLM模型在该基准上的表现,揭示了现有模型的局限性
ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport
ViCLIP-OT是首个越南语图像-文本检索基础模型,结合对比学习和最优传输损失。
- 提出了专门为越南语图像-文本检索设计的ViCLIP-OT模型
- 集成了CLIP风格的对比学习和SIGROT损失,增强跨模态一致性
NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors
NoLan通过动态抑制语言先验,有效缓解了大型视觉语言模型中的对象幻觉问题。
- 系统分析了视觉编码器和语言解码器在对象幻觉生成中的作用,发现语言先验是主要原因
- 提出了NoLan框架,一种无需训练的动态抑制语言先验的方法
WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs
WeaveTime解决了视频LLM在流式处理中时间感知不足的问题,提升了准确性和效率。
- 提出了时间感知问题Time-Agnosticism
- 设计了流式顺序感知增强Temporal Reconstruction
Brain3D: Brain Report Automation via Inflated Vision Transformers in 3D
Brain3D利用3D视觉Transformer和分阶段对齐方法,实现脑肿瘤MRI自动报告生成。
- 提出Brain3D框架,用于从3D脑肿瘤MRI生成放射报告
- 将预训练2D医学编码器扩展到3D架构
RGB-Event HyperGraph Prompt for Kilometer Marker Recognition based on Pre-trained Foundation Models
提出了一种基于RGB-Event数据和预训练模型的公里标识别方法,并构建了大规模数据集EvMetro5K。
- 提出了基于RGB-Event HyperGraph Prompt的KMR方法
- 构建了大规模RGB-Event数据集EvMetro5K
World Guidance: World Modeling in Condition Space for Action Generation
WoG通过条件空间建模,提升VLA模型动作生成的精细度和泛化性。
- 提出WoG框架,将未来观测映射到紧凑的条件空间。
- 联合预测压缩条件和未来动作,实现有效的条件空间世界建模。
PatchDenoiser: Parameter-efficient multi-scale patch learning and fusion denoiser for medical images
PatchDenoiser通过多尺度patch学习和融合,高效降噪医学图像,保留细节。
- 提出了一种轻量级的医学图像降噪框架PatchDenoiser
- 采用多尺度patch学习和空间感知融合策略
Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation
GLoTran通过全局-局部双重感知提升MLLM在高分辨率富文本图像翻译任务上的性能。
- 提出GLoTran框架,利用全局图像和局部文本切片增强视觉感知
- 构建大规模高分辨率富文本图像翻译数据集GLoD
MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving
MindDriver通过渐进式多模态推理,提升VLM在自动驾驶中的规划能力,并提出数据标注和强化微调方法。
- 提出了渐进式多模态推理框架MindDriver
- 开发了反馈引导的自动数据标注流程
MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models
提出了MEDSYN基准,评估MLLM在复杂临床病例中多证据融合的诊断能力,揭示了模型在跨模态证据利用上的不足。
- 提出了MEDSYN多模态临床基准
- 揭示了MLLM在诊断中跨模态证据利用的差距
How to Take a Memorable Picture? Empowering Users with Actionable Feedback
提出MemFeed任务,利用MLLM提供图像记忆性改进的自然语言反馈,并构建了MemBench基准。
- 提出Memorability Feedback (MemFeed) 任务
- 提出 MemCoach 方法,基于 MLLM 提供图像记忆性改进的自然语言反馈
GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task
GFPL框架通过生成式联邦原型学习解决资源受限和数据不平衡的联邦学习问题。
- 提出基于GMM的原型生成方法
- 设计基于Bhattacharyya距离的原型聚合策略
DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs
DynamicGTR通过动态选择图拓扑表示提升VLM在图问答任务中的性能,实现精度和简洁性的平衡。
- 提出DynamicGTR框架,动态选择最优图拓扑表示
- 提升VLM在图算法问答任务中的性能
FewMMBench: A Benchmark for Multimodal Few-Shot Learning
FewMMBench基准测试用于评估多模态大语言模型在少样本学习方面的能力。
- 提出了FewMMBench基准,用于评估MLLM的少样本学习能力
- 涵盖了多样的多模态理解任务,例如属性识别和时间推理
UniVBench: Towards Unified Evaluation for Video Foundation Models
UniVBench旨在统一评估视频基础模型在理解、生成、编辑和重建等方面的能力。
- 提出了UniVBench基准测试,用于统一评估视频基础模型
- 包含了视频理解、生成、编辑和重建四个核心任务
Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models
提出了FAQ基准测试,提升VLM在视频深度伪造时间一致性推理能力。
- 提出了FAQ基准测试,用于评估VLM在视频深度伪造时间推理能力。
- FAQ包含三个层级:面部感知、时间深度伪造定位和取证推理。
Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization
提出一种难度感知的分组归一化方法Durian,提升多模态LLM的推理能力。
- 提出了难度感知的分组归一化方法Durian
- 通过视觉熵和模型置信度来定义样本难度
SigVLP: Sigmoid Volume-Language Pre-Training for Self-Supervised CT-Volume Adaptive Representation Learning
SigVLP提出了一种新的视觉-语言预训练方法,通过分块和旋转位置编码解决CT体积数据变异性问题。
- 提出SigVLP模型,使用旋转位置编码适应不同尺寸的CT体积。
- 使用分块的CT体积和器官级别文本信息进行更细粒度的监督。
TranX-Adapter: Bridging Artifacts and Semantics within MLLMs for Robust AI-generated Image Detection
TranX-Adapter 通过优化 MLLM 中语义和伪影特征的融合,提升 AI 生成图像检测的鲁棒性。
- 提出 TranX-Adapter,一种轻量级的融合适配器
- 引入 Task-aware Optimal-Transport Fusion,利用 Jensen-Shannon 散度传递伪影信息
Learning spatially adaptive sparsity level maps for arbitrary convolutional dictionaries
提出一种基于神经网络的自适应稀疏度图卷积字典学习方法,增强了解释性和鲁棒性。
- 提出改进的网络结构和训练策略,实现滤波器置换不变性
- 允许在推理时更换卷积字典
Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models
提出动态多模态激活引导方法,通过语义感知的干预缓解大型视觉语言模型中的幻觉问题。
- 揭示LVLM中真实性和视觉感知能力激活模式的差异
- 提出动态多模态激活引导方法(Dynamic Multimodal Activation Steering)
Following the Diagnostic Trace: Visual Cognition-guided Cooperative Network for Chest X-Ray Diagnosis
VCC-Net利用视觉认知指导胸部X光诊断,提升AI辅助诊断的可靠性和可解释性。
- 提出VCC-Net,实现视觉认知引导的协同诊断范式
- 利用眼动追踪或鼠标捕捉放射科医生的视觉搜索轨迹和注意力模式
Multi-Vector Index Compression in Any Modality
针对多模态晚期交互检索,提出基于注意力引导聚类的索引压缩方法,提升检索效率。
- 提出注意力引导聚类(AGC)压缩多向量文档表示
- 证明AGC优于其他压缩方法,如序列重塑和记忆tokens
Spa3R: Predictive Spatial Field Modeling for 3D Visual Reasoning
Spa3R通过自监督学习,从2D图像中提取3D空间信息,提升VLM的空间推理能力。
- 提出 Predictive Spatial Field Modeling (PSFM) 范式
- 构建 Spa3R 框架,从多视角图像学习统一的空间表示
XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence
XMorph通过LLM辅助的混合深度智能,实现可解释的脑肿瘤诊断,提高了诊断准确率。
- 提出信息加权边界归一化(IWBN)机制,增强肿瘤形态表示
- 开发结合GradCAM++和LLM文本解释的双通道可解释AI模块
Seeing Through Words: Controlling Visual Retrieval Quality with Language Models
提出一种质量可控的文本到图像检索方法,利用语言模型扩展短查询并控制图像质量。
- 提出质量可控检索新范式
- 利用生成式语言模型进行查询补全
CG-DMER: Hybrid Contrastive-Generative Framework for Disentangled Multimodal ECG Representation Learning
提出CG-DMER框架,通过对比生成学习解耦多模态ECG表征,提升心电图分析性能。
- 提出空间-时间掩码建模,捕捉ECG精细时空依赖
- 设计表征解耦和对齐策略,减少模态偏差
UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics
UDVideoQA数据集旨在评估视频语言模型在城市交通场景下多物体时空推理能力。
- 提出了一个新的交通视频问答数据集UDVideoQA
- 设计了统一的标注流程和层级推理结构
Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads
利用DeepSpeed加速Vision Transformer在图像任务上的分布式训练,评估其性能和可扩展性。
- 评估DeepSpeed在ViT上的加速效果
- 分析了不同GPU配置下的训练效率
VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation
VAUQ提出一种视觉感知的不确定性量化框架,用于评估LVLM对视觉依赖预测的置信度。
- 提出Image-Information Score (IS)来量化视觉信息对预测的影响
- 提出基于核心区域掩码的策略以放大显著区域的影响
CrystaL: Spontaneous Emergence of Visual Latents in MLLMs
CrystaL通过对齐完整和损坏图像的潜在表示,提升多模态大语言模型视觉理解能力。
- 提出CrystaL框架,无需额外标注即可提升视觉信息保留
- 通过对齐注意力模式和预测分布,提炼任务相关的视觉语义
Are Multimodal Large Language Models Good Annotators for Image Tagging?
该论文分析了MLLM在图像标注中的应用潜力,并提出了TagLLM框架提高标注质量。
- 分析MLLM在图像标注中的能力和局限性
- 提出TagLLM框架,包括候选标签生成和标签消歧义两个模块
EKF-Based Depth Camera and Deep Learning Fusion for UAV-Person Distance Estimation and Following in SAR Operations
论文提出一种基于EKF融合深度相机和深度学习的无人机人员距离估计和跟随系统。
- 融合深度相机和单目相机信息进行人员距离估计
- 使用YOLO-pose进行深度学习滤波和相机-人体距离估计
LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding
LongVideo-R1提出了一种高效的、基于推理的多模态Agent,用于低成本的长视频理解。
- 提出了LongVideo-R1 Agent,用于高效长视频理解。
- 引入推理模块,利用视觉线索导航视频上下文。
TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering
TextPecker通过量化结构异常来提升视觉文本渲染的保真度和语义对齐。
- 提出了TextPecker,一种可插拔的结构异常感知强化学习策略。
- 构建了带有字符级结构异常注释的识别数据集。
E-MMKGR: A Unified Multimodal Knowledge Graph Framework for E-commerce Applications
E-MMKGR构建电商多模态知识图谱,通过GNN学习统一的物品表示,提升推荐和搜索效果。
- 提出E-MMKGR框架,解决模态扩展性和任务泛化性问题
- 构建电商领域的多模态知识图谱E-MMKG
Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization
提出一种基于数据增强的联邦学习方法,解决跨模态医学图像分割泛化问题。
- 提出全局强度非线性增强方法(GIN)以模拟模态差异。
- 验证GIN在联邦学习框架下跨模态分割的有效性。
Modality-Guided Mixture of Graph Experts with Entropy-Triggered Routing for Multimodal Recommendation
提出MAGNET模型,通过模态引导的图专家网络和熵触发路由,提升多模态推荐效果。
- 提出模态引导的图专家网络MAGNET
- 引入交互条件专家路由和结构感知图增强
PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding
PromptCD提出一种测试时行为控制方法,通过对比学习提升LLM和VLM的可靠性和安全性。
- 提出Polarity-Prompt Contrastive Decoding (PromptCD),一种测试时行为控制方法。
- 将对比解码扩展到更广泛的增强目标,适用于LLM和VLM。
How Foundational Skills Influence VLM-based Embodied Agents:A Native Perspective
提出了NativeEmbodied基准,用于评估VLM驱动的具身智能体在原生低级动作空间中的技能。
- 提出了NativeEmbodied基准,包含复杂场景中的高层任务和针对基础技能的低层任务。
- 分析了现有VLM在具身智能体技能方面的不足。
SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement
提出SurgAtt-Tracker,通过时序重排序和运动感知优化,实现稳定准确的手术视野关注点追踪。
- 提出SurgAtt-Tracker框架
- 构建大规模手术关注点数据集SurgAtt-1.16M
Physics-based phenomenological characterization of cross-modal bias in multimodal models
该论文提出了一种基于物理现象的解释性方法,用于分析多模态LLM中的跨模态偏差和公平性问题。
- 提出了基于物理现象的解释性方法来分析MLLM偏差
- 使用物理代理模型描述Transformer动态,分析跨模态偏差
A Very Big Video Reasoning Suite
论文提出了一个大规模视频推理数据集VBVR,并构建了可验证的评估框架VBVR-Bench,用于研究视频推理能力。
- 构建了大规模视频推理数据集VBVR
- 提出了可验证的评估框架VBVR-Bench
NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning
NovaPlan利用闭环视频语言规划,实现零样本长程机器人操作任务。
- 提出NovaPlan框架,融合VLM规划和几何机器人执行
- 利用视频生成提取关键点和手部姿态作为运动学先验
StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues
StructXLIP通过提取图像结构信息,增强视觉语言模型的跨模态对齐,提升检索性能。
- 提出StructXLIP框架,利用图像边缘信息增强VLM
- 引入结构中心损失,优化图像与文本结构表示的对齐
HeatPrompt: Zero-Shot Vision-Language Modeling of Urban Heat Demand from Satellite Images
HeatPrompt利用视觉-语言模型和卫星图像,零样本预测城市热需求,提升预测精度。
- 提出HeatPrompt零样本热需求预测框架
- 利用预训练VLM提取语义特征进行热需求建模
Contextual Safety Reasoning and Grounding for Open-World Robots
CORE框架利用VLM进行在线上下文推理和环境感知,实现开放世界中机器人的情境安全。
- 提出了CORE安全框架,实现基于VLM的上下文安全推理
- 将上下文安全规则与物理环境对齐,进行空间定位
A Computationally Efficient Multidimensional Vision Transformer
提出一种基于张量余弦积(Cproduct)的高效视觉Transformer,降低计算和内存成本。
- 提出基于张量余弦积的Transformer框架
- 设计了新的Cproduct-based视觉Transformer架构(TCP-ViT)
RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection
RL-RIG利用强化学习和反射机制,提升图像生成模型在空间推理上的能力。
- 提出 RL-RIG 框架,结合强化学习和反射机制
- 引入 Generate-Reflect-Edit 范式,模仿思维链推理
Discover, Segment, and Select: A Progressive Mechanism for Zero-shot Camouflaged Object Segmentation
提出了一种用于零样本伪装对象分割的渐进式发现-分割-选择(DSS)机制。
- 提出了 Feature-coherent Object Discovery (FOD) 模块
- 提出了 Semantic-driven Mask Selection (SMS) 模块
ApET: Approximation-Error Guided Token Compression for Efficient VLMs
ApET通过近似误差引导的token压缩方法,在保证性能的同时显著提升了VLMs的推理效率。
- 提出基于近似误差的视觉Token压缩框架ApET
- 无需依赖attention,兼容FlashAttention等高效attention kernel
M3S-Net: Multimodal Feature Fusion Network Based on Multi-scale Data for Ultra-short-term PV Power Forecasting
M3S-Net利用多尺度数据和新型跨模态融合,显著提升了超短期光伏功率预测精度。
- 提出多尺度局部通道选择网络,精确提取薄云特征
- 设计基于FFT的多尺度序列到图像分析网络,解耦气象数据周期性
TextShield-R1: Reinforced Reasoning for Tampered Text Detection
TextShield-R1是首个基于强化学习的MLLM篡改文本检测方案,提升了篡改文本检测的准确性和可解释性。
- 提出基于强化学习的MLLM篡改文本检测框架TextShield-R1
- 引入Forensic Continual Pre-training进行预训练
Open-vocabulary 3D scene perception in industrial environments
提出一种适用于工业环境的免训练开放词汇3D感知方法,解决现有模型泛化性差的问题。
- 提出一种免训练的开放词汇3D感知流水线
- 使用领域适配的VLFM 'IndustrialCLIP'进行开放词汇查询
TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding
TraceVision提出一种轨迹感知的视觉-语言模型,提升空间理解和交互能力。
- 提出TraceVision模型,融合视觉特征和轨迹信息
- 设计几何简化方法提取轨迹关键点
Multimodal Dataset Distillation Made Simple by Prototype-Guided Data Synthesis
提出一种基于原型引导数据合成的无学习多模态数据集蒸馏框架,提高跨架构泛化能力。
- 提出一种无学习的多模态数据集蒸馏框架
- 使用CLIP提取图像-文本对齐嵌入,获得原型
VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving Environments
提出VGGT-MPR,利用VGGT解决自动驾驶环境下的多模态地点识别问题,实现高性能检索和重排序。
- 提出VGGT-MPR框架,用于多模态地点识别。
- 利用VGGT提取几何特征,并进行深度预测增强。
Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision
提出DeepfakeJudge框架,通过自举生成-评估过程提升深度伪造检测模型推理能力并进行评估。
- 构建了包含多种伪造类型的OOD benchmark和带有视觉推理标签的人工标注子集。
- 提出了DeepfakeJudge框架,用于可扩展的推理监督和评估。
Universal Pose Pretraining for Generalizable Vision-Language-Action Policies
Pose-VLA通过解耦和预训练,提升VLA模型在机器人任务上的泛化性和效率。
- 提出Pose-VLA解耦范式,分离空间先验学习和具体动作对齐
- 引入离散姿态token作为通用表示,融合3D数据和机器人轨迹
DReX: An Explainable Deep Learning-based Multimodal Recommendation Framework
DReX是一个可解释的深度学习多模态推荐框架,通过增量更新优化用户和物品表示。
- 提出了一种统一的多模态推荐框架DReX
- 利用交互级别的多模态反馈增量细化用户和物品表示
Iconographic Classification and Content-Based Recommendation for Digitized Artworks
本文提出一个基于Iconclass词汇表,结合YOLOv8和推荐算法的数字化艺术品分类和推荐系统。
- 自动化艺术品iconographic分类
- 基于内容的艺术品推荐
TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures
提出TeHOR框架,利用文本和外观信息指导3D人体和物体联合重建,提升语义一致性和视觉逼真度。
- 引入文本描述以实现非接触人-物交互的重建
- 融入外观信息以获取全局上下文,提升重建质量
Evaluating the Impact of Data Anonymization on Image Retrieval
该论文系统性地评估了数据匿名化对基于内容的图像检索性能的影响。
- 提出了一个评估数据匿名化对CBIR影响的框架
- 评估了不同匿名化方法和程度对CBIR的影响
Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness
针对视觉语言模型在罕见物体推理上的不足,提出一种高效的即插即用模块,提升模型性能。
- 提出了多模态类别嵌入学习方法,利用视觉基础模型和文本描述弥补罕见物体训练数据不足。
- 设计了基于注意力的增强模块,精细化视觉 tokens,改善模型对细节的感知。
CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning
CLCR通过跨层语义协同表示,解决了多模态学习中语义不对齐和误差传播的问题,提升了表征质量。
- 提出跨层语义协同表示(CLCR)框架
- 设计层内协同交换域(IntraCED)和层间协同聚合域(InterCAD)
Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis
提出了Tri-Subspace Disentanglement框架,通过解耦子空间提升多模态情感分析性能。
- 提出Tri-Subspace Disentanglement (TSD) 框架
- 设计Subspace-Aware Cross-Attention (SACA) 融合模块
VALD: Multi-Stage Vision Attack Detection for Efficient LVLM Defense
提出一种高效的LVLM对抗攻击检测防御方法,结合图像变换和数据整合,无需训练。
- 提出一种多阶段的对抗攻击检测机制
- 结合图像变换和Agent数据整合来恢复模型正确行为
A Multimodal Framework for Aligning Human Linguistic Descriptions with Visual Perceptual Data
该论文提出一个多模态框架,用于对齐人类语言描述和视觉感知数据,并验证了其有效性。
- 提出一个整合语言和视觉信息的计算框架
- 使用SIFT和UQI模拟人类感知分类
When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs
针对VLA中视觉偏见导致的counterfactual failures,提出了LIBERO-CF基准和CAG缓解方法。
- 提出了LIBERO-CF,一个评估VLA counterfactual failures的基准。
- 揭示了现有VLA模型中counterfactual failures的普遍性。
Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting
该论文提出了M-Attack-V2,通过精细化细节攻击显著提升了黑盒LVLM对抗攻击的成功率。
- 提出了Multi-Crop Alignment (MCA)降低梯度方差
- 提出了Auxiliary Target Alignment (ATA)构建平滑目标流形
A.R.I.S.: Automated Recycling Identification System for E-Waste Classification Using Deep Learning
A.R.I.S. 通过深度学习 YOLOx 模型,实现了高效的电子垃圾自动分类和回收。
- 提出了基于 YOLOx 的电子垃圾自动分类系统 A.R.I.S.
- 实现了金属、塑料、电路板的实时分类
CORAL: Correspondence Alignment for Improved Virtual Try-On
CORAL通过显式对齐人-物对应关系提升虚拟试穿效果,改善细节保留。
- 分析了Diffusion Transformer中3D attention的对应关系
- 提出了Correspondence Alignment (CORAL) 框架
Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment
提出ArtToMus框架,用于直接将艺术作品转化为音乐,无需文本转换。
- 构建ArtSound数据集,包含艺术作品-音乐对
- 提出ArtToMus框架,直接将视觉信息映射到音乐
AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games
提出了AI GameStore,通过玩人类游戏来评估通用人工智能,并评估了VLMs的性能。
- 提出了AI GameStore平台
- 利用LLM合成新的代表性人类游戏
RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward
RetouchIQ提出了一种基于通用奖励模型的MLLM图像润饰框架,提升了图像编辑的语义一致性和感知质量。
- 提出了RetouchIQ框架,用于指令驱动的可执行图像编辑。
- 提出了通用奖励模型,利用RL微调MLLM来评估编辑结果。
GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking
GraphThinker通过构建事件图增强视频推理,利用强化学习减少幻觉。
- 提出GraphThinker模型,利用事件图增强视频推理
- 引入视觉注意力奖励强化视觉 grounding,减少幻觉
LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs
LATA通过Laplacian平滑改进医学VLM的校准不确定性,提升预测效率和类别平衡。
- 提出了LATA,一种训练和标签无关的校准方法。
- 使用Laplacian平滑零样本概率,提高预测精度。
QuPAINT: Physics-Aware Instruction Tuning Approach to Quantum Material Discovery
提出QuPAINT框架,利用物理先验知识提升量子材料光学图像识别能力。
- 提出Synthia物理驱动的合成数据生成器
- 构建QMat-Instruct大规模量子材料指令数据集
EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models
EAGLE利用专家模型引导MLLM,无需微调即可提升工业异常检测的准确性和可解释性。
- 提出EAGLE框架,无需微调即可提高MLLM异常检测性能
- 利用专家模型指导MLLM关注异常区域,提升可解释性
A Contrastive Variational AutoEncoder for NSCLC Survival Prediction with Missing Modalities
提出一种多模态对比变分自编码器,用于解决非小细胞肺癌生存预测中模态缺失问题。
- 提出多模态对比变分自编码器(MCVAE)处理模态缺失问题。
- 引入学习门控机制的融合瓶颈,标准化模态贡献。
SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery
SpectralGCD利用CLIP跨模态相似性,通过谱滤波和知识蒸馏实现高效广义类别发现。
- 提出SpectralGCD框架,利用跨模态图像-概念相似性
- 引入谱滤波,自动保留相关概念
Visual Model Checking: Graph-Based Inference of Visual Routines for Image Retrieval
提出一种结合形式验证和深度学习的图像检索框架,提升复杂关系查询的可信度和可验证性。
- 将形式验证融入图像检索
- 提出基于图的视觉推理方法
SubQuad: Near-Quadratic-Free Structure Inference with Distribution-Balanced Objectives in Adaptive Receptor framework
SubQuad通过优化流程和目标函数,实现了免疫组库分析的加速、减负和公平性提升。
- 提出了 antigen-aware 的近亚二次检索方法
- 设计了可微分门控模块自适应融合对齐和嵌入通道
EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection
EA-Swin利用嵌入无关的Swin Transformer有效检测AI生成视频,并提出了新的EA-Video数据集。
- 提出EA-Swin模型,一种嵌入无关的Swin Transformer
- 构建EA-Video数据集,包含多样化的AI生成视频
Inferring Height from Earth Embeddings: First insights using Google AlphaEarth
利用AlphaEarth Embeddings和深度学习模型进行地表高度推断的研究,效果初步验证。
- 探索了Earth Embeddings在区域地表高度映射中的应用潜力
- 评估了U-Net和U-Net++在高度推断中的表现
EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models
EntropyPrune通过矩阵熵指导视觉token剪枝,加速多模态大语言模型推理。
- 提出了基于矩阵熵的视觉token剪枝框架EntropyPrune。
- 发现了“熵坍塌层”(ECL),作为剪枝阶段选择的原则性标准。
Selective Training for Large Vision Language Models via Visual Information Gain
论文提出一种基于视觉信息增益的选择性训练方法,提升LVLM的视觉 grounding 能力并缓解语言偏见。
- 提出视觉信息增益(VIG)度量视觉输入带来的预测不确定性减少
- 提出VIG引导的选择性训练方案,优先训练高VIG样本和tokens
BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning
BadCLIP++提出了一种隐蔽且持久的多模态对比学习后门攻击框架,有效抵抗检测和微调。
- 提出语义融合QR微触发器,增强隐蔽性
- 引入目标对齐子集选择,强化低注入率下的信号
TimeOmni-VL: Unified Models for Time Series Understanding and Generation
TimeOmni-VL提出了一种视觉中心的时间序列统一模型,用于理解和生成任务,并引入了Bi-TSI和TSUMM-Suite。
- 提出了TimeOmni-VL框架,统一时间序列理解和生成
- 引入了保真度双向映射Bi-TSI,实现时间序列和图像之间的转换
Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning
提出一种基于显著性感知的多路径推理方法SAP,解决视觉语言模型推理中视觉信息利用不足的问题。
- 提出显著性感知原则(SAP)用于视觉语言推理
- 支持多路径推理,并行探索不同推理行为
Are Object-Centric Representations Better At Compositional Generalization?
研究表明,在组合泛化任务中,当数据受限时,面向对象的表征优于密集表征。
- 提出了新的视觉问答基准测试,用于评估组合泛化能力
- 比较了有无对象中心偏置的视觉编码器的性能
Learning Situated Awareness in the Real World
提出了SAW-Bench,一个评估模型在真实世界视频中具身感知能力的基准。
- 构建了真实世界具身感知的视频数据集SAW-Bench
- 定义了六种具身感知任务
A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification
提出CLIP-MHAdapter,一种基于注意力机制的CLIP轻量级适配方法,用于街景图像属性分类。
- 提出CLIP-MHAdapter模型
- 在Global StreetScapes数据集上取得SOTA结果
Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding
提出视频分类拆分任务,无需额外数据即可将粗粒度类别拆分为细粒度子类别,提升视频理解精度。
- 提出类别拆分任务,用于细粒度视频理解。
- 提出零样本拆分方法,利用视频分类器的潜在组合结构。
DressWild: Feed-Forward Pose-Agnostic Garment Sewing Pattern Generation from In-the-Wild Images
DressWild提出了一种从单张自然图像生成服装缝纫图案和3D模型的feed-forward方法。
- 提出DressWild,一个高效的服装图案生成pipeline
- 利用视觉语言模型(VLMs)解决姿势变化问题
Fast and Scalable Analytical Diffusion
提出了一种高效的Analytical Diffusion模型GoldDiff,通过动态选择“Golden Subset”加速推理,显著提升了模型的可扩展性。
- 发现后验渐进集中现象
- 提出Dynamic Time-Aware Golden Subset Diffusion (GoldDiff)框架
Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing
提出Visual Self-Refine框架,利用像素级视觉反馈提升LVLM在图表解析中的准确性。
- 提出Visual Self-Refine (VSR)范式
- 提出ChartVSR模型应用于图表解析
RoboGene: Boosting VLA Pre-training via Diversity-Driven Agentic Framework for Real-World Task Generation
RoboGene自动化生成多样且符合物理规律的机器人任务,提升VLA预训练效果。
- 提出RoboGene框架,用于自动化生成机器人任务
- 结合多样性驱动采样、自反思机制和人机协作
Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems
论文针对印度场景设计高效OCR系统,提出两种训练策略并构建了两个SOTA模型。
- 提出两种针对印度语境的多语言OCR训练策略
- 构建了Chitrapathak系列OCR模型,并在Telugu上达到SOTA
Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model
提出一种基于金字塔特征提取和UNI基础模型的自动病理报告生成框架。
- 提出基于UNI和Transformer解码器的分层视觉语言框架
- 采用多分辨率金字塔式patch选择和图像预处理
ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding
ReMoRa通过精炼的运动表征,提升多模态大语言模型在长视频理解上的性能。
- 提出ReMoRa,一种基于压缩表示的视频MLLM
- 使用运动表征编码时间动态,减少计算冗余
Spatial Audio Question Answering and Reasoning on Dynamic Source Movements
该论文研究了动态声源运动场景下的空间音频问答,并提出了相应的解决方案。
- 提出了运动中心的空间音频增强框架
- 设计了带有思考模式的端到端多模态微调方法
RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion
RefineFormer3D是一种高效的3D医学图像分割模型,兼顾精度和效率。
- 提出RefineFormer3D,一种轻量级transformer架构
- 使用GhostConv3D进行高效特征提取
HyPCA-Net: Advancing Multimodal Fusion in Medical Image Analysis
HyPCA-Net提出了一种混合并行融合的级联注意力网络,用于提升多模态医学图像分析的性能和效率。
- 提出了计算高效的残差自适应学习注意力模块,用于捕捉精细的模态特定表征。
- 提出了双视角级联注意力模块,用于学习不同模态之间鲁棒的共享表征。
Factored Latent Action World Models
FLAM分解场景为独立因子,学习隐变量动作,提升多实体环境下视频生成质量和策略学习。
- 提出了一种分解的隐变量动作模型FLAM
- FLAM在复杂多实体环境中建模更准确
Meteorological data and Sky Images meets Neural Models for Photovoltaic Power Forecasting
论文提出了一种结合气象数据、天空图像和光伏历史数据的混合深度学习光伏功率预测方法。
- 提出了一种结合天空图像、气象数据和光伏历史数据的多模态光伏功率预测方法
- 验证了气象数据(尤其是长波辐射)对光伏功率预测的有效性
ViTaB-A: Evaluating Multimodal Large Language Models on Visual Table Attribution
该论文评估了多模态大语言模型在视觉表格属性归因任务上的表现,发现其归因能力远低于问答能力。
- 提出了视觉表格属性归因(ViTaB-A)的评估任务
- 评估了不同模型在不同表格格式和提示策略下的归因能力
ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models
提出了ChartEditBench基准,用于评估多模态大模型在多轮图表编辑中的能力。
- 提出了 ChartEditBench 基准数据集
- 设计了评估多轮图表编辑能力的框架
MRC-GAT: A Meta-Relational Copula-Based Graph Attention Network for Interpretable Multimodal Alzheimer's Disease Diagnosis
MRC-GAT模型通过结合多模态数据和图注意力网络,实现了阿尔茨海默病的高精度诊断。
- 提出Meta-Relational Copula-Based Graph Attention Network (MRC-GAT) 模型
- 引入copula-based相似性对齐,整合多模态特征
CAMEL: An ECG Language Model for Forecasting Cardiac Events
CAMEL是首个用于预测心脏事件的ECG语言模型,优于现有方法。
- 提出首个用于预测心脏事件的ECG语言模型CAMEL
- 引入ECGForecastBench基准测试
Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation
CEMRAG通过融合临床概念和多模态RAG,提升放射报告生成的可解释性和准确性。
- 提出Concept-Enhanced Multimodal RAG (CEMRAG)框架
- 将视觉表示分解为可解释的临床概念
CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving
提出CARE Drive框架,评估自动驾驶视觉语言模型对人类理由的响应性,提高决策可解释性。
- 提出CARE Drive框架,评估视觉语言模型在自动驾驶中的理由响应性
- 通过上下文扰动测量决策对人类理由的敏感度
How Vision Becomes Language: A Layer-wise Information-Theoretic Analysis of Multimodal Reasoning
论文通过信息论方法分析多模态Transformer中视觉信息如何转化为语言。
- 提出了PID Flow,一种适用于高维神经表征的PID框架
- 揭示了多模态Transformer中模态转导模式:视觉信息早期主导,语言信息后期主导
Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs
提出PADE方法,利用LVLM内部注意力动态增强视觉核心区域,缓解幻觉问题。
- 发现LVLM中正向注意力动态(PAD)能揭示核心视觉区域
- 提出Positive Attention Dynamics Enhancement (PADE)干预方法
Semantic-Guided 3D Gaussian Splatting for Transient Object Removal
提出语义引导的3D高斯溅射方法,有效去除多视角重建中的瞬态物体,提升重建质量。
- 提出基于视觉-语言模型的语义过滤框架
- 利用CLIP相似度进行高斯 opacity 正则化和剪枝
Emergent Morphing Attack Detection in Open Multi-modal Large Language Models
首次系统评估开源多模态大语言模型在人脸变形攻击检测中的零样本能力,效果显著。
- 首次系统性评估开源MLLM在人脸变形攻击检测中的零样本性能
- 证明了MLLM在无需微调的情况下具备检测人脸变形攻击的能力
ActionCodec: What Makes for Good Action Tokenizers
该论文研究了Vision-Language-Action模型中动作Tokenizers的设计原则,并提出了ActionCodec。
- 提出了VLA优化视角的动作Tokenizer设计原则
- 设计了高性能动作Tokenizer ActionCodec
ThermEval: A Structured Benchmark for Evaluation of Vision-Language Models on Thermal Imagery
提出了用于评估视觉语言模型在热成像上的性能的结构化基准ThermEval,揭示了现有模型在该领域的不足。
- 构建了大规模热成像视觉问答数据集ThermEval-B,包含像素级温度信息。
- 评估了多种VLM在热成像上的表现,发现模型在温度推理等方面存在缺陷。
Orthogonalized Multimodal Contrastive Learning with Asymmetric Masking for Structured Representations
COrAL框架通过正交化和非对称掩码,显式建模多模态数据的冗余、独特和协同信息,提升表征质量。
- 提出COrAL框架,显式建模冗余、独特和协同的多模态信息。
- 采用正交约束解耦共享和模态特定特征,确保信息分离。
AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
AnchorWeave通过局部几何记忆融合解决长时视频生成中全局三维重建不一致问题。
- 提出AnchorWeave框架,利用局部几何记忆进行视频生成
- 设计覆盖驱动的局部记忆检索方法
Web-Scale Multimodal Summarization using CLIP-Based Semantic Alignment
提出了一种基于CLIP语义对齐的Web规模多模态摘要框架。
- Web规模多模态摘要框架
- 基于CLIP的语义对齐检索
CT-Bench: A Benchmark for Multimodal Lesion Understanding in Computed Tomography
CT-Bench数据集发布,包含CT病灶标注和多模态问答,用于提升AI病灶理解能力。
- 构建首个CT病灶级别的多模态Benchmark数据集CT-Bench
- 提供病灶图像、元数据及多任务视觉问答
RF-GPT: Teaching AI to See the Wireless World
RF-GPT通过视觉编码器和LLM理解RF信号,实现无线通信领域的高级推理。
- 提出了一种射频语言模型(RFLM)RF-GPT
- 利用多模态LLM处理和理解射频频谱图
VIPA: Visual Informative Part Attention for Referring Image Segmentation
提出VIPA框架,通过视觉信息部分注意力机制提升指代图像分割精度。
- 提出VIPA框架,利用视觉信息部分注意力进行图像分割
- 设计视觉表达式生成器(VEG),提取信息丰富的视觉tokens
GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture
提出GOT-JEPA,利用模型预测预训练框架和OccuSolver提升通用目标跟踪的泛化性和遮挡处理能力。
- 提出GOT-JEPA模型预测预训练框架
- 提出OccuSolver遮挡处理模块
Universal Algorithm-Implicit Learning
提出通用元学习框架和算法隐式学习概念,Transformer实现跨域、跨模态和高类别任务的元学习。
- 提出算法隐式学习框架
- 设计TAIL元学习模型
Is Information Density Uniform when Utterances are Grounded on Perception and Discourse?
研究发现视觉和语篇 grounding 使信息分布更均匀,支持上下文相关的UID假设。
- 首次在视觉 grounding 环境下验证 UID 假设
- 使用多语言视觉语言模型在多种语言上进行实验
VIGIL: Tackling Hallucination Detection in Image Recontextualization
VIGIL提出了多模态图像重构中幻觉检测基准,并构建了多阶段检测流水线。
- 构建了细粒度的图像重构幻觉分类基准数据集VIGIL
- 提出了多阶段幻觉检测流水线
VariViT: A Vision Transformer for Variable Image Sizes
VariViT针对可变尺寸图像设计,通过改进的位置编码和批处理策略提升ViT在医学图像上的性能。
- 提出处理可变图像尺寸的ViT模型VariViT
- 设计新的位置编码调整方案以适应不同数量的图像块
MATEO: A Multimodal Benchmark for Temporal Reasoning and Planning in LVLMs
MATEO是一个多模态基准,用于评估LVLM在时间推理和规划方面的能力,特别是针对真实世界的任务。
- 提出了MATEO基准数据集,用于评估LVLM的时间推理能力
- 构建了一个高质量的多模态食谱数据集,包含图像和步骤分解
DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving
DriveFine通过混合扩散VLA模型,结合生成与精炼专家,提升自动驾驶决策的精确性和鲁棒性。
- 提出了一种masked diffusion VLA模型DriveFine
- 设计了可插拔的block-MoE结构,实现生成与精炼专家解耦
MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation
MoRL通过强化学习和链式运动推理,统一运动理解与生成,显著提升逻辑推理和感知真实性。
- 提出了基于可验证奖励的强化学习统一多模态运动模型MoRL
- 引入了链式运动(CoM)推理方法,增强推理能力
Error Patterns in Historical OCR: A Comparative Analysis of TrOCR and a Vision-Language Model
比较TrOCR和Qwen在历史文本OCR上的误差模式,分析其对学术研究的影响。
- 揭示了TrOCR和Qwen在历史文本OCR误差上的差异。
- 提出了基于假设的误差分析方法。
Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment
验证方法比策略学习更有效地提升视觉-语言-动作对齐,并提出了CoVer框架。
- 提出test-time验证方法提升VLA模型性能
- 提出对比验证器CoVer,提升计算效率和数据利用率
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling
UniT提出多模态链式思考测试时扩展框架,提升统一模型在复杂任务中的推理能力。
- 提出UniT框架,实现多模态链式思考测试时扩展
- 验证了统一模型在短推理轨迹上训练后,可泛化到更长的推理链
Categorical Flow Maps
提出Categorical Flow Maps,加速类别数据的少步生成,实现优异性能。
- 提出Categorical Flow Maps方法
- 基于flow matching的类别数据生成
Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching
UniDFlow通过解耦理解和生成,优化多模态偏好对齐,实现多模态任务的SOTA性能。
- 提出UniDFlow统一离散流匹配框架
- 使用低秩适配器解耦理解和生成
DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing
DeepGen 1.0提出轻量级多模态模型,在图像生成和编辑方面表现出色。
- 提出Stacked Channel Bridging (SCB)结构
- 设计数据驱动的三阶段训练策略
ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images
提出ExStrucTiny基准数据集,用于评估通用视觉语言模型在文档图像结构化信息抽取方面的能力。
- 构建了ExStrucTiny基准数据集,包含多样文档类型和抽取场景
- 提出了一个结合人工和合成数据的新型数据生成流程
Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education
论文提出了视觉推理基准VRB,用于评估MLLM解决小学视觉问题的能力,揭示了模型在空间推理方面的局限性。
- 提出了视觉推理基准VRB数据集
- 评估了MLLM在解决小学视觉问题上的能力
SAM3-LiteText: An Anatomical Study of the SAM3 Text Encoder for Efficient Vision-Language Segmentation
SAM3-LiteText通过知识蒸馏,大幅减少SAM3文本编码器参数,提升视觉语言分割效率。
- 分析了视觉语言分割中文本提示的冗余性
- 提出了轻量级文本编码框架SAM3-LiteText
3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting
提出3DGSNav,利用3D高斯溅射增强视觉语言模型在对象导航中的空间推理能力。
- 将3D高斯溅射作为VLMs的持久记忆
- 设计结构化视觉提示和CoT提示
HLA: Hadamard Linear Attention
论文提出Hadamard线性注意力(HLA),旨在以更高阶有理函数近似softmax,提高效率。
- 提出Hadamard线性注意力(HLA)
- 使用更高阶有理函数近似softmax
KAN-FIF: Spline-Parameterized Lightweight Physics-based Tropical Cyclone Estimation on Meteorological Satellite
提出KAN-FIF轻量级框架,用于气象卫星上热带气旋的物理信息预测,精度高、速度快、参数少。
- 提出基于KAN的特征交互框架KAN-FIF
- 实验证明KAN-FIF在参数量和推理速度上优于现有模型
Geometry of Uncertainty: Learning Metric Spaces for Multimodal State Estimation in RL
提出一种新型强化学习状态估计方法,通过学习度量空间提升多模态信息融合的鲁棒性。
- 提出基于度量空间的无显式概率建模的状态估计方法
- 引入多模态隐变量转移模型
Can Local Vision-Language Models improve Activity Recognition over Vision Transformers? -- Case Study on Newborn Resuscitation
论文研究局部视觉-语言模型在新生儿复苏活动识别上的应用,并超越了ViT。
- 探索局部VLM在新生儿复苏活动识别中的潜力
- 使用LoRA微调VLM,显著提升了活动识别的F1分数
Spatial Chain-of-Thought: Bridging Understanding and Generation Models for Spatial Reasoning Generation
提出Spatial Chain-of-Thought框架,提升扩散模型在空间理解和推理生成方面的能力。
- 提出SCoT框架,弥合MLLM推理和扩散模型生成能力
- 训练增强布局感知能力的扩散模型
Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion
该论文评估了VLMs在法语PDF转Markdown上的性能,并提出了新的评估基准。
- 提出了法语PDF到Markdown转换的新基准
- 设计了针对具体错误模式的单元测试式评估方法
TAVAE: A VAE with Adaptable Priors Explains Contextual Modulation in the Visual Cortex
论文提出了任务可适应的VAE模型(TAVAE),用于解释视觉皮层中的上下文调制现象。
- 提出了Task-Amortized VAE (TAVAE)
- 验证了视觉系统可以按需学习灵活的任务特定上下文先验
IncompeBench: A Permissively Licensed, Fine-Grained Benchmark for Music Information Retrieval
提出了IncompeBench,一个用于音乐信息检索的高质量、开放许可基准测试集。
- 构建了包含1574个音乐片段、500个查询和超过125000个相关性判断的基准测试集
- 使用了多阶段流程,确保了高质量的人工标注数据
Learning Perceptual Representations for Gaming NR-VQA with Multi-Task FR Signals
提出一种多任务学习框架,利用FR指标作为监督信号,提升游戏视频的无参考视频质量评估。
- 提出基于FR指标的多任务学习框架MTL-VQA
- 自适应任务权重分配策略
Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception
提出Region-to-Image Distillation方法,提升MLLM在细粒度多模态感知上的单次推理能力。
- 提出 Region-to-Image Distillation 训练方法
- 构建细粒度多模态感知基准 ZoomBench
JEPA-VLA: Video Predictive Embedding is Needed for VLA Models
该论文提出JEPA-VLA模型,通过融入视频预测嵌入提升VLA模型在机器人操作任务中的性能和泛化性。
- 发现现有VLA模型视觉表示的局限性
- 提出JEPA-VLA模型,融合视频预测嵌入
Hi-SAM: A Hierarchical Structure-Aware Multi-modal Framework for Large-Scale Recommendation
Hi-SAM通过解耦语义标记和分层Transformer结构,提升多模态推荐系统的效果,并在大规模场景下验证有效性。
- 提出了解耦语义标记器(DST),解决模态间语义纠缠问题
- 提出了分层记忆锚点Transformer(HMAT),考虑用户交互层级结构
Code2Worlds: Empowering Coding LLMs for 4D World Generation
Code2Worlds框架利用编码LLM生成具有物理规律的动态4D世界,解决多尺度和语义物理鸿沟问题。
- 提出了双流架构解耦对象生成与环境编排
- 建立了物理感知闭环机制迭代优化模拟代码
Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation
提出自适应去偏Tsallis熵(ADTE)用于测试时自适应,解决CLIP模型在不平衡数据上的偏差问题。
- 发现Tsallis熵(TE)更适合表征有偏分布
- 提出自适应去偏Tsallis熵(ADTE),通过类别相关的参数q^l进行自适应调整
Mask What Matters: Mitigating Object Hallucinations in Multimodal Large Language Models with Object-Aligned Visual Contrastive Decoding
该论文提出了一种基于目标对齐视觉对比解码的方法,旨在缓解多模态大语言模型中的目标幻觉问题。
- 提出了目标对齐的视觉对比解码方法
- 利用自监督视觉Transformer中的目标中心注意力
Adapting Vision-Language Models for E-commerce Understanding at Scale
针对电商场景,论文提出了一种适配通用视觉语言模型的方法,并构建了新的评估体系。
- 提出电商场景下适配通用VLM的策略
- 构建全面的电商产品理解评估套件
STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning
提出STVG-R1,通过视觉提示和强化学习,在时空视频定位任务上实现SOTA。
- 提出基于视觉提示的STVG框架,避免跨模态对齐
- 引入强化学习优化时序准确性、空间一致性和结构化格式
Beyond Pixels: Vector-to-Graph Transformation for Reliable Schematic Auditing
提出Vector-to-Graph方法,解决MLLM在工程图审核中结构盲视问题,提升审核准确率。
- 提出Vector-to-Graph (V2G) 转换方法,将CAD图转换为属性图
- 证明了像素方法在工程图理解上的局限性
U-Net with Hadamard Transform and DCT Latent Spaces for Next-day Wildfire Spread Prediction
TD-FusionUNet模型利用哈达玛变换和DCT进行野火蔓延预测,在精度和效率间取得平衡。
- 提出TD-FusionUNet模型,融合哈达玛变换和DCT
- 引入随机边缘裁剪和高斯混合模型预处理技术
EmoSpace: Fine-Grained Emotion Prototype Learning for Immersive Affective Content Generation
EmoSpace提出了一种基于视觉-语言对齐的细粒度情感原型学习框架,用于生成沉浸式情感内容。
- 提出EmoSpace框架,实现情感感知内容生成
- 引入动态、可解释的情感原型,实现细粒度情感控制
SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving
SToRM通过监督式Token缩减,在保证性能的同时显著降低多模态LLM在自动驾驶中的计算成本。
- 提出Supervised Token Reduction框架SToRM
- 设计轻量级的重要性预测器
GENIUS: Generative Fluid Intelligence Evaluation Suite
GENIUS评估UMM在生成式流体智力方面的能力,提出新的评估标准和方法。
- 定义了生成式流体智力 (GFI) 的三个基本要素
- 提出了 GENIUS 评估套件,用于评估模型的 GFI
GameDevBench: Evaluating Agentic Capabilities Through Game Development
GameDevBench是一个评估智能体游戏开发能力的多模态基准测试。
- 提出了GameDevBench基准测试,用于评估智能体在游戏开发中的能力。
- 定义了132个基于教程的游戏开发任务,需要多模态理解和复杂代码实现。
Chatting with Images for Introspective Visual Thinking
ViLaVT通过语言引导的特征调制,增强了LVLM在多图和视频空间推理上的能力。
- 提出了一种新的框架“chatting with images”,通过语言引导视觉特征调制进行视觉操作
- 设计了ViLaVT,一个具有动态视觉编码器的LVLM,用于交互式视觉推理
Simultaneous Speech-to-Speech Translation Without Aligned Data
Hibiki-Zero无需对齐数据即可实现同步语音翻译,并通过强化学习优化延迟。
- 提出了无需词级对齐数据的语音翻译方法
- 使用GRPO优化延迟的同时保持翻译质量
Divide, Harmonize, Then Conquer It: Shooting Multi-Commodity Flow Problems with Multimodal Language Models
Pram利用多模态语言模型解决多商品流问题,实现高效且鲁棒的资源分配。
- 提出Pram,一种基于MLM的多商品流问题解决方法
- 将原问题分解为子问题,利用MLM进行求解
When Fusion Helps and When It Breaks: View-Aligned Robustness in Same-Source Financial Imaging
研究金融图像表示的多视角学习和对抗鲁棒性,探索融合策略对预测性能的影响。
- 揭示标签噪声对金融时间序列预测的影响
- 分析了早期和晚期融合策略在金融图像预测中的优劣
The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems
CLEF 2026 FinMMEval Lab推出首个多语言多模态金融LLM评估框架,包含三个互联任务。
- 首个多语言多模态金融LLM评估框架
- 提供三个互联的金融任务:金融考试问答、多语言金融问答和金融决策
Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation
提出Chart Specification,通过结构化表示和细粒度监督提升VLM图表转代码的结构保真度。
- 提出Chart Specification结构化中间表示
- 设计Spec-Align Reward进行结构正确性反馈
Flow caching for autoregressive video generation
FlowCache提出了一种针对自回归视频生成的缓存框架,显著加速视频生成。
- 提出了针对自回归视频生成的FlowCache缓存框架
- 引入了chunkwise缓存策略,动态适应每个chunk的denoising特性
Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training
该论文解释了RL在VLM后训练中泛化性优于SFT的原因,并提出难度引导的SFT方法。
- 揭示了数据难度对VLM泛化性能的影响
- 提出了难度引导的SFT(DC-SFT)方法,提升OOD泛化能力
From Steering to Pedalling: Do Autonomous Driving VLMs Generalize to Cyclist-Assistive Spatial Perception and Planning?
论文提出了CyclingVQA基准测试,评估VLMs在自行车辅助空间感知和规划中的泛化能力。
- 提出了CyclingVQA基准测试,用于评估VLMs在自行车辅助场景下的性能
- 评估了31+个VLMs在CyclingVQA上的表现,揭示了现有模型的不足
Reinforced Curriculum Pre-Alignment for Domain-Adaptive VLMs
提出了一种基于强化学习和课程学习的领域自适应VLM训练方法RCPA。
- 提出了一种新的VLM后训练范式RCPA,用于领域自适应。
- 引入课程感知的渐进调制机制,平衡领域知识学习和通用能力保持。
A Diffusion-Based Generative Prior Approach to Sparse-view Computed Tomography
该论文提出了一种基于扩散模型的生成先验方法,用于解决稀疏视图CT重建问题。
- 结合扩散模型和迭代优化算法
- 改进图像生成、模型和迭代算法
From Representational Complementarity to Dual Systems: Synergizing VLM and Vision-Only Backbones for End-to-End Driving
该论文研究了VLM和纯视觉backbone在端到端驾驶中的互补性,并提出了结合二者优势的混合驾驶方案。
- 发现VLM和纯视觉backbone在驾驶行为上的差异性
- 提出了HybridDriveVLA,结合VLM和纯视觉backbone的优势
TwiFF (Think With Future Frames): A Large-Scale Dataset for Dynamic Visual Reasoning
提出了一个大规模动态视觉推理数据集TwiFF-2.7M,并提出了相应的TwiFF模型,在动态视觉问答任务上取得了显著提升。
- 提出了大规模动态视觉推理数据集TwiFF-2.7M
- 提出了高质量的评估基准TwiFF-Bench
Multimodal Priors-Augmented Text-Driven 3D Human-Object Interaction Generation
提出MP-HOI框架,利用多模态先验指导文本驱动的3D人-物交互动作生成,提升交互真实性。
- 利用多模态数据先验指导HOI生成
- 增强的对象表示,引入几何关键点等
VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model
VLA-JEPA通过无泄漏的状态预测,提升视觉-语言-动作模型在泛化性和鲁棒性方面的表现。
- 提出了VLA-JEPA预训练框架,解决像素变化导致的偏差。
- 引入了无泄漏状态预测,利用未来帧的潜在表示作为监督。
Fake-HR1: Rethinking reasoning of vision language model for synthetic image detection
Fake-HR1自适应地进行推理,提升了图像合成检测的效率和性能。
- 提出了Fake-HR1混合推理模型
- 设计了两阶段训练框架HFT和HGRPO
Coupled Inference in Diffusion Models for Semantic Decomposition
提出基于扩散模型的耦合推理框架,用于语义分解任务,优于传统谐振器网络。
- 提出基于扩散模型的语义分解框架
- 引入重建驱动的引导项耦合扩散过程
VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization
论文提出VersaViT,通过多任务协作训练优化MLLM中的视觉骨干网络,提升其在视觉任务上的性能。
- 发现MLLM的视觉编码器在密集特征表示方面存在不足
- 提出VersaViT,一种新型多任务协作训练框架
Reason-IAD: Knowledge-Guided Dynamic Latent Reasoning for Explainable Industrial Anomaly Detection
Reason-IAD通过知识引导和动态推理提升工业异常检测的准确性和可解释性。
- 提出了一个知识引导的检索增强模块,融入领域知识。
- 设计了一个基于熵的潜在推理机制,鼓励稳定预测。
ARK: A Dual-Axis Multimodal Retrieval Benchmark along Reasoning and Knowledge
提出了ARK基准,用于评估多模态检索在知识和推理方面的能力,并分析了现有模型的不足。
- 提出了ARK基准数据集,包含知识领域和推理技能两个维度
- 分析了现有模型在知识密集型和推理密集型检索中的差距
SAKED: Mitigating Hallucination in Large Vision-Language Models via Stability-Aware Knowledge Enhanced Decoding
SAKED通过稳定知识解码降低LVLM幻觉,提升视觉语言模型的可靠性。
- 提出知识稳定性评分KSS
- 提出SAKED解码方法,抑制噪声并利用可靠知识
Covo-Audio Technical Report
Covo-Audio提出了一个7B参数的端到端语音LLM,在多项任务中表现出色。
- 提出了Covo-Audio模型
- 验证了语音LLM在多种音频任务上的能力
Explainability in Generative Medical Diffusion Models: A Faithfulness-Based Analysis on MRI Synthesis
研究通过忠实度分析,提升医学扩散模型在MRI合成中的可解释性,增强AI在医疗应用中的可信度。
- 提出了基于忠实度的可解释性框架
- 分析了ProtoPNet, EPPNet, ProtoPool等方法的表现
Self-Supervised Learning as Discrete Communication
提出一种基于离散通信的自监督学习方法,通过二元编码学习结构化视觉表示。
- 将自监督学习建模为师生网络间的离散通信过程
- 提出一种编码率正则化项,鼓励有效利用约束信道,促进结构化表示
VideoAfford: Grounding 3D Affordance from Human-Object-Interaction Videos via Multimodal Large Language Model
该论文提出VideoAfford,利用多模态大语言模型进行视频中3D可供性的学习和推理。
- 构建了视频-3D交互可供性数据集VIDA
- 提出了基于多模态大语言模型的VideoAfford模型
Towards Training-free Multimodal Hate Localisation with Large Language Models
LELA是首个基于LLM的无训练视频仇恨内容定位框架,优于现有无训练基线。
- 提出首个无训练的LLM视频仇恨内容定位框架LELA
- 利用多模态captioning和多阶段prompting实现细粒度定位
MieDB-100k: A Comprehensive Dataset for Medical Image Editing
MieDB-100k是一个大规模、高质量的医学图像编辑数据集,促进医学图像编辑模型的发展。
- 构建大规模、高质量、多样化的医学图像编辑数据集MieDB-100k
- 提出包含感知、修改和转换三种编辑任务的数据集分类方法
Delving into Spectral Clustering with Vision-Language Representations
该论文提出一种基于视觉-语言表征的谱聚类方法,显著提升了聚类性能。
- 提出基于视觉-语言模型中跨模态对齐的谱聚类方法
- 引入神经正切核并使用积极名词进行锚定
Singpath-VL Technical Report
Singpath-VL是一种用于宫颈细胞学AI辅助诊断的多模态大模型,通过合成数据集和微调实现。
- 构建大规模宫颈细胞学图像-描述合成数据集
- 提出基于Qwen3-VL-4B的宫颈细胞学专用MLLM Singpath-VL
Attention to details, logits to truth: visual-aware attention and logits enhancement to mitigate hallucinations in LVLMs
提出了一种训练自由的视觉注意力干预算法,通过增强任务相关视觉token的注意力来减少LVLM中的幻觉。
- 提出了一种基于视觉-文本相似性的注意力重分配算法
- 将视觉注意力值注入到beam search解码中
Bridging Efficiency and Transparency: Explainable CoT Compression in Multimodal Large Reasoning Models
提出XMCC,一种可解释的多模态CoT压缩器,通过强化学习优化压缩决策,提升推理效率并提供可解释性。
- 提出XMCC压缩器,优化多模态推理CoT
- 使用强化学习进行CoT压缩决策
Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions
该论文提出了一种新颖的知识蒸馏框架Align-TI,用于压缩多模态大语言模型,提升性能。
- 提出Align-TI框架,利用token交互进行知识蒸馏
- 引入IVA模块,对齐视觉信息提取能力
ArtifactLens: Hundreds of Labels Are Enough for Artifact Detection with VLMs
ArtifactLens利用少量标注数据,解锁预训练VLM的伪影检测能力,在AIGC领域实现SOTA。
- 提出 ArtifactLens 系统,用少量标注数据实现高效伪影检测。
- 在多个伪影数据集上取得了最先进的结果。
ArcFlow: Unleashing 2-Step Text-to-Image Generation via High-Precision Non-Linear Flow Distillation
ArcFlow通过非线性流蒸馏加速文本到图像的生成,实现高质量快速生成。
- 提出ArcFlow框架,利用非线性流近似教师轨迹
- 使用连续动量过程混合来参数化速度场
GEBench: Benchmarking Image Generation Models as GUI Environments
GEBench提出了一个评估GUI图像生成模型在动态交互和时间一致性方面的基准。
- 提出了GEBench基准数据集
- 提出了GE-Score评估指标
Gesturing Toward Abstraction: Multimodal Convention Formation in Collaborative Physical Tasks
研究人机协作中语言和手势如何演化为高效的共享抽象,并构建多模态协同模型。
- 揭示了物理协作中语言和手势抽象的形成机制
- 提出了多模态环境下的概率性约定形成模型
AnomSeer: Reinforcing Multimodal LLMs to Reason for Time-Series Anomaly Detection
AnomSeer通过强化MLLM对时序数据结构细节的推理,提升了异常检测、定位和解释的精度。
- 提出AnomSeer框架,用于增强MLLM的时序异常检测能力
- 引入专家CoT生成精细化推理过程
TiFRe: Text-guided Video Frame Reduction for Efficient Video Multi-modal Large Language Models
TiFRe通过文本引导的帧采样和帧匹配融合,在减少计算成本的同时提升视频语言任务性能。
- 提出了文本引导的帧采样(TFS)策略,利用LLM和CLIP选择关键帧
- 提出了帧匹配和融合(FMM)机制,将非关键帧信息融入关键帧
Any-to-All MRI Synthesis: A Unified Foundation Model for Nasopharyngeal Carcinoma and Its Downstream Applications
开发了一种用于鼻咽癌MRI图像合成的统一基础模型,提升RT规划准确性。
- 提出了一种基于对比视觉表征学习和VLA的统一基础模型。
- 实现了任意模态到任意模态的MRI合成。
Omni-Video 2: Scaling MLLM-Conditioned Diffusion for Unified Video Generation and Editing
Omni-Video 2利用MLLM理解用户指令,指导视频扩散模型实现统一的视频生成与编辑。
- 提出基于MLLM的视频编辑框架
- 设计轻量级适配器以复用预训练扩散模型
Zero-shot System for Automatic Body Region Detection for Volumetric CT and MR Images
提出基于预训练模型的零样本方法,用于CT和MR图像的自动身体区域检测。
- 提出三种零样本身体区域检测流程。
- 评估了分割驱动的规则系统、MLLM和分割感知MLLM。
OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence
OV-Encoder通过编解码器对齐的稀疏性,在多模态理解上取得显著性能提升。
- 提出Codec Patchification,聚焦关键区域
- 引入3D RoPE,统一时空推理
An Attention Mechanism for Robust Multimodal Integration in a Global Workspace Architecture
论文提出一种顶向下注意力机制,增强全局工作空间架构在多模态任务中的噪声鲁棒性和泛化能力。
- 提出了一种用于全局工作空间的顶向下注意力机制
- 证明了该机制提升了多模态系统的噪声鲁棒性
Learning Self-Correction in Vision-Language Models via Rollout Augmentation
该论文提出了一种通过rollout增强学习视觉语言模型自校正能力的方法,并在多个基准测试中取得了领先成果。
- 提出了 correction-specific rollouts (Octopus) 框架,增强自校正示例
- 引入 response-masking 策略,解耦自校正和直接推理
Vista: Scene-Aware Optimization for Streaming Video Question Answering under Post-Hoc Queries
Vista针对流式视频QA,提出场景感知的优化方案,实现高效且可扩展的推理。
- 场景感知分割
- 场景感知压缩
Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition
提出Demo-ICL任务和基准,用于评估MLLM从视频演示中学习的能力,并提出Demo-ICL模型。
- 定义了Demo-driven Video In-Context Learning任务
- 构建了Demo-ICL-Bench基准数据集
BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models
提出BiManiBench基准测试MLLM在双臂操作中的空间推理、规划和控制能力。
- 提出了BiManiBench双臂操作基准测试
- 评估了MLLM在双臂任务中的性能
E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs
提出了电商短视频理解基准E-VAds,并设计了基于RL的推理模型E-VAds-R1。
- 提出了多模态信息密度评估框架,量化了电商视频的复杂性
- 构建了电商短视频理解基准E-VAds,包含高质量视频和开放式问答对
What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning
论文提出了一个用于评估LVLMs视觉推理过程奖励模型的综合基准测试。
- 定义了7种细粒度的错误类型,揭示了专用PRM的必要性。
- 构建了一个包含1206条人工标注推理轨迹的综合基准。
CoTZero: Annotation-Free Human-Like Vision Reasoning via Hierarchical Synthetic CoT
CoTZero通过无标注的分层合成CoT数据,提升视觉语言模型的人类水平视觉推理能力。
- 提出了无标注的CoTZero范式
- 设计了双阶段数据合成方法,模拟人类认知过程
UReason: Benchmarking the Reasoning Paradox in Unified Multimodal Models
论文提出了UReason基准测试,揭示了统一多模态模型中推理在视觉合成中的悖论现象。
- 提出了UReason基准测试,包含2000个实例,覆盖五种推理任务。
- 设计了一种评估框架,比较直接生成、推理引导生成和去语境化生成。
V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval
V-Retrver通过视觉证据驱动的Agent推理,提升通用多模态检索的准确性和可靠性。
- 提出V-Retrver框架,利用Agent进行视觉证据驱动的推理
- 引入课程学习策略,训练证据收集检索Agent
Diffusion Model's Generalization Can Be Characterized by Inductive Biases toward a Data-Dependent Ridge Manifold
论文刻画了扩散模型的泛化能力,提出了基于数据依赖的脊流形,并分析了推理过程中的reach-align-slide现象。
- 提出了描述扩散模型泛化能力的脊流形概念
- 分析了推理过程中的reach-align-slide动态
GenArena: How Can We Achieve Human-Aligned Evaluation for Visual Generation Tasks?
GenArena提出一种基于pairwise比较的视觉生成模型评估框架,提升了评估的稳定性和与人类感知的对齐。
- 发现了pointwise评估方法的局限性
- 提出了基于pairwise比较的GenArena评估框架
RISE-Video: Can Video Generators Decode Implicit World Rules?
提出RISE-Video基准测试,评估视频生成模型在理解隐式世界规则方面的推理能力。
- 提出了RISE-Video基准测试
- 设计了多维评估协议
LSA: Localized Semantic Alignment for Enhancing Temporal Consistency in Traffic Video Generation
LSA通过对齐语义特征增强交通视频生成的时间一致性,无需额外控制信号。
- 提出LSA框架,用于增强视频生成的时间一致性
- 使用语义特征一致性损失来微调预训练模型
OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention
OmniVideo-R1通过查询意图和模态注意力增强音视频推理能力,提升了混合模态理解性能。
- 提出基于自监督学习的查询式 grounding 方法
- 提出基于对比学习的模态注意力融合方法
Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning
提出FSR框架,模拟人类视觉机制,有效剪枝VLMs中的视觉tokens,提升效率与精度。
- 提出 Focus-Scan-Refine (FSR) 框架
- 结合视觉重要性和指令相关性,聚焦关键证据
Variational Speculative Decoding: Rethinking Draft Training from Token Likelihood to Sequence Acceptance
提出了变分推测解码VSD,通过优化草稿路径来加速LLM和MLLM的推理,提高解码效率。
- 提出了Variational Speculative Decoding (VSD)框架
- 使用变分推断优化草稿训练,最大化目标模型接受概率
Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification
提出了AGFF-Embed,自适应融合全局和细粒度信息的MLLM嵌入,并结合EGA提升性能。
- 提出AGFF-Embed模型,融合全局和细粒度感知
- 利用MLLM生成不同语义维度的嵌入
Ethology of Latent Spaces
该论文研究了视觉语言模型(VLM)潜在空间的政治和文化倾向,揭示了模型间的显著差异。
- 揭示了VLM潜在空间并非中性,存在模型特定敏感性
- 提出了计算潜在政治化、涌现偏差等概念
Exploring AI-Augmented Sensemaking of Patient-Generated Health Data: A Mixed-Method Study with Healthcare Professionals in Cardiac Risk Reduction
研究了LLM如何辅助医护人员理解患者健康数据,提升临床决策效率。
- 评估了LLM在PGHD理解中的应用
- 提出了AI辅助临床工作流的设计建议
Shiva-DiT: Residual-Based Differentiable Top-$k$ Selection for Efficient Diffusion Transformers
Shiva-DiT通过残差学习的可微Top-k选择加速Diffusion Transformer。
- 提出基于残差的可微Top-k选择方法,实现高效DiT剪枝
- 引入上下文感知路由和自适应比率策略,自动学习剪枝策略
LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation
LoGoSeg通过融合局部和全局特征,实现了高效且泛化性强的开放词汇语义分割。
- 提出对象存在先验以减少幻觉
- 引入区域感知对齐模块以建立区域级视觉-文本对应
TangramSR: Can Vision-Language Models Reason in Continuous Geometric Space?
该论文提出了一种迭代精炼框架,提升视觉语言模型在几何空间推理方面的能力。
- 设计了模拟人类认知机制的迭代精炼框架
- 通过无训练的验证-精炼代理,显著提升了几何推理的IoU
VLN-Pilot: Large Vision-Language Model as an Autonomous Indoor Drone Operator
VLN-Pilot利用大型视觉语言模型实现室内无人机自主导航,无需人工遥控。
- 提出VLN-Pilot框架,利用VLLM控制室内无人机
- 实现基于自然语言指令的无人机自主导航
A Unified Multimodal Framework for Dataset Construction and Model-Based Diagnosis of Ameloblastoma
构建多模态数据集,开发AI模型辅助成釉细胞瘤诊断与治疗决策。
- 构建了成釉细胞瘤多模态数据集
- 开发了基于多模态数据的深度学习模型
DECO: Decoupled Multimodal Diffusion Transformer for Bimanual Dexterous Manipulation with a Plugin Tactile Adapter
DECO提出了一种解耦多模态扩散Transformer,用于灵巧双臂操作。
- 提出了DECO框架,用于解耦多模态条件
- 引入触觉适配器,增强感知能力
XEmoGPT: An Explainable Multimodal Emotion Recognition Framework with Cue-Level Perception and Reasoning
XEmoGPT提出了一种可解释的多模态情感识别框架,提升了情感线索感知和推理能力。
- 提出XEmoGPT框架,增强情感线索感知和推理
- 构建大规模情感线索数据集EmoCue,促进线索级推理
SOMA-1M: A Large-Scale SAR-Optical Multi-resolution Alignment Dataset for Multi-Task Remote Sensing
SOMA-1M是一个大规模、多分辨率、像素级对齐的SAR-光学遥感数据集,促进多模态遥感算法研究。
- 构建大规模多分辨率SAR-光学对齐数据集SOMA-1M
- 提出严格的粗到细图像匹配框架,保证像素级对齐
LMMRec: LLM-driven Motivation-aware Multimodal Recommendation
LMMRec利用LLM提取动机,融合多模态信息,提升推荐系统性能。
- 提出LMMRec框架,利用LLM理解用户和物品动机
- 采用双编码器结构和对比学习,实现跨模态对齐
Benchmarking Affordance Generalization with BusyBox
提出了BusyBox,一个评估VLA模型在操作具有熟悉物理特征的新物体时泛化能力的物理基准。
- 提出了BusyBox基准,用于评估VLA模型的affordance generalization能力
- BusyBox由可互换和旋转的模块组成,可创建具有不同外观但相同 affordance 的变体
Once Correct, Still Wrong: Counterfactual Hallucination in Multilingual Vision-Language Models
论文揭示了多语言视觉-语言模型在非西方文化背景下的反事实幻觉问题,并提出了新的评估基准。
- 提出了M2CQA基准测试,用于评估中东北非文化背景下的多语言视觉-语言模型的反事实幻觉
- 提出了CounterFactual Hallucination Rate (CFHR)指标,用于衡量模型在正确回答真实语句后接受反事实语句的可能性
Parallel Swin Transformer-Enhanced 3D MRI-to-CT Synthesis for MRI-Only Radiotherapy Planning
提出一种基于并行Swin Transformer的3D MRI合成CT方法,用于MRI引导的放疗计划。
- 提出并行Swin Transformer增强的Med2Transformer架构
- 利用双Swin Transformer分支建模局部细节和长程依赖
Dolphin-v2: Universal Document Parsing via Scalable Anchor Prompting
Dolphin-v2通过可扩展的Anchor Prompting实现了通用文档解析,提升了多种文档的解析性能。
- 针对拍摄文档的鲁棒解析
- 更细粒度的元素检测与语义属性提取
VRIQ: Benchmarking and Analyzing Visual-Reasoning IQ of VLMs
VRIQ基准测试VLMs的视觉推理能力,发现感知是主要瓶颈。
- 提出VRIQ基准测试,评估VLMs的视觉推理能力
- 分析了VLMs在视觉推理上的弱点,发现感知是主要瓶颈
Reinforced Attention Learning
RAL通过强化学习直接优化多模态LLM的内部注意力分布,提升感知能力和跨模态对齐。
- 提出Reinforced Attention Learning (RAL)框架
- 将强化学习应用于优化多模态LLM的注意力分布
When LLaVA Meets Objects: Token Composition for Vision-Language-Models
Mask-LLaVA通过结合多层次视觉特征,实现了视觉语言模型的高效推理,减少了计算需求。
- 提出Mask-LLaVA框架,利用多层次视觉特征进行高效视觉表示
- 在测试时动态调整token数量,无需重新训练即可保持性能
Toward Reliable and Explainable Nail Disease Classification: Leveraging Adversarial Training and Grad-CAM Visualization
本文提出了一种基于深度学习的指甲疾病分类方法,利用对抗训练和Grad-CAM可视化提高模型的可靠性和可解释性。
- 利用InceptionV3等CNN模型进行指甲疾病分类
- 应用对抗训练增强模型鲁棒性
OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
OmniSIFT提出了一种模态非对称的token压缩框架,用于优化多模态大模型的效率。
- 提出了模态非对称的token压缩框架OmniSIFT
- 设计了时空视频剪枝模块和视觉引导的音频选择模块
VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?
VISTA-Bench揭示了现有VLM在理解视觉化文本时存在显著的性能下降,与纯文本理解能力有较大差距。
- 提出了VISTA-Bench基准测试,用于评估VLM对视觉化文本的理解能力
- 发现了VLM在视觉化文本理解上的显著性能差距
NeuroCanvas: VLLM-Powered Robust Seizure Detection by Reformulating Multichannel EEG as Image
NeuroCanvas利用VLLM将多通道脑电信号转化为图像,实现高效鲁棒的癫痫检测。
- 提出了NeuroCanvas框架,用于癫痫检测。
- 引入熵引导通道选择器(ECS)解决多通道异构性问题。
A Dual-TransUNet Deep Learning Framework for Multi-Source Precipitation Merging and Improving Seasonal and Extreme Estimates
提出了一个双阶段TransUNet框架,用于融合多源降水数据,提升季节性和极端降水估计。
- 开发了双阶段TransUNet降水融合框架DDL-MSPMF
- 提高了季节性降水估计的准确性(R=0.75; RMSE=2.70 mm/day)
Alignment Drift in Multimodal LLMs: A Two-Phase, Longitudinal Evaluation of Harm Across Eight Model Releases
纵向评估了多模态LLM的安全性,发现其抗对抗性攻击能力随迭代发生漂移。
- 构建了多模态LLM对抗性攻击基准测试集
- 评估了多个MLLM版本的安全性,发现了安全性漂移现象
Adaptive Prompt Elicitation for Text-to-Image Generation
APE通过视觉查询交互式地帮助用户优化文本到图像生成的提示词,提升图像与用户意图的对齐。
- 提出了自适应提示词诱导(APE)技术
- 利用信息论框架形式化交互式意图推理
ERNIE 5.0 Technical Report
ERNIE 5.0 是一个统一多模态理解和生成的原生自回归基础模型,具有弹性训练和MoE架构。
- 提出了统一多模态理解和生成的原生自回归基础模型ERNIE 5.0
- 采用超稀疏混合专家(MoE)架构和模态无关的专家路由
Annotation Free Spacecraft Detection and Segmentation using Vision Language Models
提出一种基于视觉语言模型(VLM)的无标注航天器检测与分割框架,显著提升了航天器图像处理性能。
- 提出annotation-free的航天器检测与分割流程
- 利用预训练VLM自动生成伪标签
DRMOT: A Dataset and Framework for RGBD Referring Multi-Object Tracking
提出RGBD指代多目标跟踪任务,构建DRSet数据集,提出DRTrack框架。
- 提出RGBD指代多目标跟踪任务(DRMOT)
- 构建用于DRMOT的DRSet数据集
AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation
AGILE利用Agentic生成方法,从视频中重建鲁棒的、物理上合理的交互物体。
- 提出基于VLM引导的Agentic生成流程,合成完整物体网格。
- 提出稳健的anchor-and-track策略,摆脱对SfM的依赖。
PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective
PIO-FVLM通过目标导向的视觉token缩减加速VLM推理,保持性能的同时显著提升效率。
- 提出了一种训练无关的视觉token缩减方法PIO-FVLM
- 利用层局部代理损失指导token重要性排序
LEAD: Layer-wise Expert-aligned Decoding for Faithful Radiology Report Generation
LEAD方法通过层级专家对齐解码,提升放射报告生成的准确性并减少幻觉。
- 提出Layer-wise Expert-aligned Decoding (LEAD)方法
- 设计多专家模块提取病理特征并融入解码层
VILLAIN at AVerImaTeC: Verifying Image-Text Claims via Multi-Agent Collaboration
VILLAIN系统通过多智能体协作,使用视觉-语言模型验证图像-文本声明,并在AVerImaTeC任务中取得领先。
- 提出基于prompt的多智能体协作框架
- 利用知识库和网络信息增强证据
Understanding Degradation with Vision Language Model
提出DU-VLM模型,用于理解图像退化并用于图像复原,通过分层结构预测任务和多模态链式思考实现。
- 重新定义图像退化理解为分层结构预测任务
- 提出DU-VLM模型,基于autoregressive next-token prediction范式
EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models
EgoActor通过VLM将高层指令转化为机器人具体的空间感知行为。
- 提出了EgoActing任务,将任务规划与机器人行为相结合
- 提出了EgoActor模型,一个统一且可扩展的视觉-语言模型
BrainVista: Modeling Naturalistic Brain Dynamics as Multimodal Next-Token Prediction
BrainVista通过多模态自回归框架模拟自然状态下大脑的动态预测,实现先进的fMRI编码。
- 提出BrainVista多模态自回归框架
- 引入Network-wise Tokenizers和Spatial Mixer Head
Model-Dowser: Data-Free Importance Probing to Mitigate Catastrophic Forgetting in Multimodal Large Language Models
Model-Dowser通过参数重要性评估进行稀疏微调,有效缓解多模态大模型中的灾难性遗忘。
- 提出Model-Dowser方法,通过评估参数重要性缓解灾难性遗忘
- 该方法在不访问数据情况下选择性地保留重要参数
Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition
该论文提出一种新的多模态大型语言模型(MLLM)方法,用于解决GMNER中的模态偏差问题,提升性能。
- 揭示了MLLMs在GMNER中存在的模态偏差问题(视觉偏差和文本偏差)
- 提出了模态感知一致性推理(MCR)方法,包括MRSI和CVO
Vision-aligned Latent Reasoning for Multi-modal Large Language Model
VaLR通过动态生成视觉对齐的潜在token,提升MLLM在多步推理中的视觉信息保持能力。
- 提出Vision-aligned Latent Reasoning (VaLR)框架
- VaLR通过对齐MLLM中间嵌入与视觉编码器嵌入来保持视觉知识
Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search
Seg-ReSearch通过交错推理和外部搜索,突破MLLM的知识瓶颈,提升了分割性能。
- 提出Seg-ReSearch分割范式,结合推理和外部搜索
- 设计分层奖励机制,优化训练过程
No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data
该论文研究了五种突厥语机器翻译,利用合成数据和检索方法优化了翻译效果。
- 针对五种突厥语的机器翻译模型构建
- 利用合成数据微调模型,提升翻译效果
Med-MMFL: A Multimodal Federated Learning Benchmark in Healthcare
提出了首个综合性的医学多模态联邦学习(MMFL)基准Med-MMFL,促进该领域研究。
- 提出了医学多模态联邦学习基准Med-MMFL
- 涵盖多种模态、任务和联邦场景
History-Guided Iterative Visual Reasoning with Self-Correction
提出H-GIVR框架,通过历史信息引导迭代视觉推理,动态纠错,提高多模态大模型的推理准确性。
- 提出历史引导的迭代视觉推理框架H-GIVR
- 利用历史推理信息动态纠正视觉理解错误
When and Where to Attack? Stage-wise Attention-Guided Adversarial Attack on Large Vision Language Models
SAGA是一种基于注意力机制的对抗攻击方法,能高效攻击大型视觉语言模型。
- 发现区域注意力得分与对抗损失敏感性正相关
- 提出Stage-wise Attention-Guided Attack (SAGA)框架
Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models
该论文比较了视觉语言模型在文本和图像形式的空间n-back任务中的工作记忆表现,发现文本形式表现更优。
- 评估了视觉语言模型在视觉和文本空间n-back任务中的性能差异
- 分析了模型在不同任务中的错误模式和干扰因素
Explicit Uncertainty Modeling for Active CLIP Adaptation with Dual Prompt Tuning
提出基于双Prompt调整的主动CLIP适应框架,显式建模不确定性以优化样本选择。
- 提出双Prompt调整方法,包括正向和负向Prompt
- 显式建模预测标签的置信度,用于不确定性估计
Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner
CoFT提出了一种无需人工标注的视觉语言模型微调框架,通过双模型协作提升性能。
- 提出 Collaborative Fine-Tuning (CoFT)框架
- 引入双提示学习策略,建模伪标签纯净度
Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement
该论文提出了一种层自适应的视觉定位和解码增强方法,提升了视觉问答任务的性能。
- 提出了基于query的视觉激活度量VAQ
- 提出了层自适应的推理流程LASER
Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision
提出Guided Verifier框架,通过动态验证器实时监督MLLM推理过程,减少错误传播,提升推理能力。
- 提出Guided Verifier框架,实现动态过程监督
- 构建CoRe数据集用于训练验证器,针对多模态幻觉问题
ECG-R1: Protocol-Guided and Modality-Agnostic MLLM for Reliable ECG Interpretation
ECG-R1通过协议引导和模态解耦,提升MLLM在心电图判读的可靠性。
- 提出协议引导的指令数据生成方法
- 设计了模态解耦架构,提高鲁棒性和跨模态一致性
KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing
KVSmooth通过平滑KV-Cache,缓解多模态大语言模型中的幻觉问题,无需额外训练。
- 提出KVSmooth方法,有效减少MLLM的幻觉现象
- KVSmooth是training-free和plug-and-play的,易于应用
QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization
QVLA提出了一种面向具身控制的动作中心量化框架,有效压缩VLA模型并提升性能。
- 提出QVLA:一种动作中心量化框架
- 引入细粒度的通道级比特分配策略