高相关度论文

最新论文

Multimodal Learning 7/10

Generative World Renderer

Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan et al.

提出了一个大规模高质量游戏数据集用于训练生成式渲染模型,并提出了VLM评估方法。

2026-04-02 PDF
Multimodal Learning 9/10

Steerable Visual Representations

Jona Ruthardt, Manu Gaur, Deva Ramanan et al.

提出可控视觉表征,通过早期融合文本信息到视觉编码器中,实现对图像特征的精细控制。

2026-04-02 PDF
Multimodal Learning 8/10

VOID: Video Object and Interaction Deletion

Saman Motamed, William Harvey, Benjamin Klein et al.

提出VOID框架,利用因果推理和视频扩散模型实现物理上合理的视频对象移除。

2026-04-02 PDF

分类浏览