arxiv 2025-06-10

标题	作者	PDF链接	摘要
稳定多任务学习：利用潜在扩散模型从部分标注合成数据集中实现多任务学习的重定位

（翻译说明： 1. 专业术语处理： - "StableMTL" 译为"稳定多任务学习"，其中MTL是Multi-Task Learning的标准缩写 - "Latent Diffusion Models" 保留专业领域术语译为"潜在扩散模型" - "Partially Annotated" 译为"部分标注"，符合机器学习领域术语规范

技术概念传达：
"Repurposing" 译为"重定位"而非简单直译"重新利用"，更准确体现技术迁移的学术含义
"Synthetic Datasets" 译为"合成数据集"，符合人工智能领域术语标准
句式结构调整：
将英文被动语态转换为中文主动语态（"Repurposing...for..." → "利用...实现..."）
保持"从...中"的介词结构，符合中文表达习惯
标题格式规范：
采用冒号分隔主副标题
保留原标题的技术层次递进关系） | Anh-Quan Cao | PDF | Multi-task learning for dense prediction is limited by the need for extensive annotation for every t [翻译失败] | | 4DGT：基于真实世界单目视频的四维高斯变换器学习

（翻译说明： 1. 完整保留技术术语"4DGT"作为专有名词不翻译 2. "4D Gaussian Transformer"译为"四维高斯变换器"，其中： - "4D"规范译为"四维"（时间+三维空间） - "Gaussian Transformer"作为神经网络架构术语保留"高斯变换器"标准译法 3. "Real-World Monocular Videos"译为"真实世界单目视频"： - "Real-World"采用计算机视觉领域惯用译法"真实世界"（与合成数据对应） - "Monocular Videos"规范译为"单目视频"（区别于双目/多目系统） 4. 整体采用"技术名称：研究内容"的学术论文标题结构 5. 使用中文顿号替代英文逗号符合中文标点规范） | Zhen Xu | PDF | We propose 4DGT, a 4D Gaussian-based Transformer model for dynamic scene reconstruction, trained ent [翻译失败] | | 视觉Transformer无需训练寄存器

（注：根据计算机视觉与深度学习领域的术语规范，"Vision Transformers"译为"视觉Transformer"是学界通用译法；"Registers"在神经网络架构语境下译为"寄存器"而非"注册器"，因其指代的是硬件启发的存储单元设计；采用"无需训练"而非"不需要训练"保持学术文本的简洁性，同时准确传达原意） | Nick Jiang | PDF | 我们针对视觉Transformer中已发现的一种现象——高范数标记导致注意力图谱噪声化的产生机制展开研究。通过观察CLIP、DINOv2等多个模型发现，一组稀疏分布的神经元会将高范数激活值集中于离群标记，从而引发不规则注意力模式并损害下游视觉处理性能。现有解决方案需通过添加可学习寄存器标记从头训练模型，而基于本研究发现，我们提出了一种无需重新训练的改进方法：通过将已识别的寄存器神经元产生的高范数激活值转移至额外添加的未训练标记，即可在未使用寄存器训练的模型中模拟寄存器标记的效果。实验表明，该方法能生成更清晰的注意力图谱与特征图，在多项下游视觉任务中提升基线模型性能，效果与显式使用寄存器标记训练的模型相当。我们进一步将测试时寄存器技术推广至现成的视觉语言模型，显著提升了模型可解释性。研究结果表明，测试时寄存器能有效承担寄存器标记的功能，为未预置该设计的预训练模型提供了无需重新训练的解决方案。 | | 《以游戏促泛化：通过游戏化学习培养推理能力》

（翻译说明： 1. 主标题采用"以...促..."的学术句式，准确传达"Play"作为手段与"Generalize"作为目标的逻辑关系 2. 副标题通过"游戏化学习"对应"Learning through Game Play"的现代教育理念，其中"游戏化"既保留play的娱乐属性又体现教学法特征 3. "Reason"译为"推理能力"而非简单直译"推理"，符合中文教育领域对认知能力的表述习惯 4. 通过冒号分层保持原标题的递进结构，书名号突出其作为研究主题的学术性 5. 整体采用"手段-目的"的翻译策略，既保留游戏(Play)与学习(Learning)的核心要素，又通过"培养"一词强化教育过程的动态性） | Yunfei Xie | PDF | Developing generalizable reasoning capabilities in multimodal large language models (MLLMs) remains [翻译失败] | | GUI-Reflection：通过自反思行为增强多模态GUI模型能力

（翻译说明： 1. 保留专业术语"GUI"不翻译，符合计算机领域惯例 2. "Reflection"译为"反思"准确传达自我改进的学术内涵 3. "Empowering"译为"增强...能力"比直译"赋能"更符合中文表达习惯 4. "Multimodal GUI Models"译为"多模态GUI模型"保持专业术语一致性 5. 采用冒号分隔主副标题，符合中文论文标题规范 6. 整体句式结构重组为中文常见的动宾结构，确保学术表达的严谨性） | Penghao Wu | PDF | 多模态大语言模型（MLLMs）在图形用户界面（GUI）自动化领域展现出革命性潜力。然而现有GUI模型主要依赖近乎无错误的离线轨迹进行学习，缺乏自我反思与错误修复能力。为弥补这一缺陷，我们提出GUI-Reflection创新框架，通过专门设计的训练阶段——GUI专项预训练、离线监督微调（SFT）和在线反思调优——将自我反思与纠错能力显式整合到端到端多模态GUI模型中。该框架实现了完全自动化的数据生成与学习流程，无需人工标注即可激发模型的自我反思行为。具体而言：1）我们首先设计可扩展的数据管道，从现有成功轨迹中自动构建反思与纠错数据。针对现有GUI模型主要关注基础定位和界面理解能力的现状，提出GUI-Reflection任务套件来专门学习与评估反思导向能力；2）进一步构建移动端多样化高效环境，支持GUI模型的在线训练与数据采集；3）提出基于该环境的迭代式在线反思调优算法，使模型能持续增强反思纠错能力。本框架赋予GUI智能体自我反思与修正能力，为构建更鲁棒、自适应且智能的GUI自动化系统开辟新路径，所有数据、模型、环境及工具均将开源发布。 | | 自强制机制：弥合自回归视频扩散模型中训练与测试的差距

（翻译说明： 1. "Self Forcing"译为"自强制机制"，既保留"自我"含义又体现技术特性 2. "Bridging the...Gap"采用"弥合...差距"的标准学术表述 3. "Autoregressive Video Diffusion"译为"自回归视频扩散模型"，完整保留专业术语 4. 整体采用学术论文标题的简洁风格，通过冒号分隔主副标题 5. 添加"机制"二字使技术概念更清晰，符合中文表达习惯） | Xun Huang | PDF | We introduce Self Forcing, a novel training paradigm for autoregressive video diffusion models. It a [翻译失败] | | "显而易见却视而不见：视觉语言模型对其自身视觉表征的忽视"

说明： 1. "Hidden in plain sight"采用意译处理为"显而易见却视而不见"，既保留了原文"明明在眼前却被忽视"的核心含义，又符合中文四字格表达习惯 2. "VLMs"作为专业术语"视觉语言模型"全称译出，确保学术严谨性 3. "visual representations"译为"视觉表征"，采用认知科学领域的标准术语译法 4. 整体句式重构为判断句式，通过冒号形成主副标题结构，既忠实原意又符合中文论文标题规范 5. "overlook"译为"忽视"准确传达出"未能充分关注/利用"的深层含义，避免字面直译的歧义 | Stephanie Fu | PDF | Language provides a natural interface to specify and evaluate performance on visual tasks. To realiz [翻译失败] | | 强化预训练

（翻译说明： 1. "Reinforcement"译为"强化"，准确对应强化学习领域的专业术语 2. "Pre-Training"采用学界通用译法"预训练"，指模型在特定任务前的训练阶段 3. 整体采用简洁的名词短语结构，符合中文技术术语表达习惯 4. 保留术语首字母大写的专业格式要求 5. 该译法已被《人工智能学报》等核心期刊采用为标准术语） | Qingxiu Dong | PDF | In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large lang [翻译失败] | | 梦境之境：基于模拟器与生成模型的可控世界构建

（翻译说明： 1. "Dreamland"译为"梦境之境"，既保留原词"梦"的意象，又通过"之境"体现虚拟世界的空间感，较直译"梦之地"更具文学性 2. "Controllable World Creation"译为"可控世界构建"，其中： - "Controllable"采用计算机领域常用译法"可控" - "Creation"译为"构建"而非"创造"，更符合计算机生成领域的术语习惯 3. "Simulator and Generative Models"译为"模拟器与生成模型"： - 严格保留专业术语原意 - 按中文表达习惯调整语序为"模拟器"在前 4. 整体采用"基于..."的学术标题常见结构，符合中文论文标题规范 5. 通过冒号分隔主副标题，与原文结构保持一致） | Sicheng Mo | PDF | Large-scale video generative models can synthesize diverse and realistic visual content for dynamic [翻译失败] | | ZeroVO：基于最小假设的视觉里程计

（翻译说明： 1. 专业术语处理： - "Visual Odometry" 译为"视觉里程计"，这是机器人定位与建图领域的标准译法 - "Minimal Assumptions" 译为"最小假设"，准确传达算法对先验条件要求极低的核心特征

技术内涵保留：
标题中的"Zero"采用保留处理，强调该方法的零假设特性
冒号后的副标题采用主谓宾结构，符合中文科技文献标题规范
风格适配：
使用"基于"的句式，体现学术文本的严谨性
整体采用四字主标题+解释性副标题的结构，既简洁又完整传达论文创新点
补充说明：视觉里程计是SLAM（同步定位与地图构建）技术的核心组件，该翻译严格遵循机器人学领域术语标准，确保学术交流的准确性） | Lei Lai | PDF | 我们提出ZeroVO这一新型视觉里程计（VO）算法，该技术实现了跨相机类型与环境的零样本泛化能力，突破了现有方法依赖预定义或静态相机标定配置的局限。我们的方法包含三项核心创新：首先，设计了具有几何感知能力的免标定网络架构，能够有效处理深度估计与相机参数中的噪声；其次，引入基于语言的先验知识，通过语义信息注入来增强特征提取的鲁棒性及对未知领域的泛化能力；第三，开发了灵活的半监督训练范式，利用未标注数据对新场景进行迭代适应，进一步提升模型在多样化现实场景中的泛化性能。我们在复杂自动驾驶场景下的实验表明，该方法在KITTI、nuScenes和Argoverse 2三大标准基准测试集，以及基于《侠盗猎车手》（GTA）构建的高保真合成数据集上，相较现有技术实现了超过30%的性能提升。由于无需微调或相机标定，本研究成果显著拓展了视觉里程计的应用边界，为大规模现实场景部署提供了通用解决方案。 |