ActionParty: Multi-Subject Action Binding in Generative Video Games
ActionParty提出了一种多主体行动绑定的视频生成模型,可控制多个智能体在视频游戏中互动。
Daily arXiv paper tracking with AI-powered analysis
ActionParty提出了一种多主体行动绑定的视频生成模型,可控制多个智能体在视频游戏中互动。
ModMap通过跨模态特征映射和跨视角调制,在3D异常检测中取得了领先性能。
提出可控视觉表征,通过早期融合文本信息到视觉编码器中,实现对图像特征的精细控制。
提出Batched Contextual Reinforcement方法,提高LLM推理效率和准确率,发现任务规模效应。
MetaNav通过空间记忆、历史感知规划和反思纠正,提升了视觉语言导航的效率和鲁棒性。
提出SimpleStream基线,仅用滑动窗口即可媲美复杂流视频理解模型,揭示感知-记忆权衡。
提出用户回复生成作为探测LLM交互意识的方法,发现交互意识与任务准确率解耦,可通过后训练提升。
提出VOID框架,利用因果推理和视频扩散模型实现物理上合理的视频对象移除。
Omni123通过统一文本到2D和3D生成,利用2D数据提升3D建模效果。
提出一种自适应预算遗忘框架,通过相关性评分和有界优化来管理长期对话代理的记忆,提升性能并减少虚假记忆。
ActionParty提出了一种多主体行动绑定的视频生成模型,可控制多个智能体在视频游戏中互动。
ModMap通过跨模态特征映射和跨视角调制,在3D异常检测中取得了领先性能。
提出Batched Contextual Reinforcement方法,提高LLM推理效率和准确率,发现任务规模效应。
MetaNav通过空间记忆、历史感知规划和反思纠正,提升了视觉语言导航的效率和鲁棒性。
提出SimpleStream基线,仅用滑动窗口即可媲美复杂流视频理解模型,揭示感知-记忆权衡。
提出用户回复生成作为探测LLM交互意识的方法,发现交互意识与任务准确率解耦,可通过后训练提升。
提出VOID框架,利用因果推理和视频扩散模型实现物理上合理的视频对象移除。
提出了一种针对Transformer模型中Softmax计算瓶颈的快速近似方法HCCS,优化了int8推理速度并保持精度。
Omni123通过统一文本到2D和3D生成,利用2D数据提升3D建模效果。
提出一种自适应预算遗忘框架,通过相关性评分和有界优化来管理长期对话代理的记忆,提升性能并减少虚假记忆。
该论文提出了一种基于Agentic AI的自动化资产管理框架,旨在提升投资效率和决策质量。
De Jure提出了一种全自动的监管规则结构化抽取方法,无需人工标注,并能有效提升抽取质量。
SKILL0框架通过在训练时逐步移除技能上下文,实现LLM智能体技能的参数化内化,提升零样本自主能力。
提出一种利用冻结的预训练模型进行安全文本到图像生成的推理时能量引导框架。
研究时变动态系统下的强化学习控制问题,提出一种基于模型的自适应数据缓存算法。
该论文构建了一个基于本地LLaMA模型的Electron-Ion Collider (EIC) 领域RAG问答系统。
SPAR提出了一种单次Any-Resolution ViT,通过知识蒸馏实现高效的高分辨率开放词汇分割。