2025-08-26 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
ObjFiller-3D：基于视频扩散模型实现多视角一致性的三维修复技术

（注：翻译在保持专业术语准确性的同时，采用符合中文科技文献表述习惯的句式结构。"Consistent Multi-view"译为"多视角一致性"以突出技术特性，"Video Diffusion Models"采用学界通用译法"视频扩散模型"，并通过"实现...技术"的句式完整呈现技术实现路径。） | Haitang Feng | PDF | 三维修复技术通常依赖于多视角二维图像修复方法，而不同修复视图间固有的不一致性往往会导致纹理模糊、空间不连续以及干扰性视觉伪影等问题。这些不一致性对实现精确且逼真的三维物体补全构成了重大挑战，尤其是在需要高保真度和结构一致性的应用场景中。为突破这些局限，我们提出ObjFiller-3D——一种专为高质量、高一致性三维物体补全与编辑设计的新型方法。不同于传统二维图像修复模型，我们的方法通过精选最先进的视频编辑模型来填充三维物体的掩码区域。我们系统分析了三维数据与视频之间的表征差异，并提出将视频修复模型适配于三维场景修复任务。此外，我们引入基于参考的三维修复方法以进一步提升重建质量。在多数据集上的实验表明：相较于现有方法，ObjFiller-3D能生成更忠实且更精细的重建结果（PSNR达26.6，优于NeRFiller的15.9；LPIPS为0.19，优于Instant3dit的0.25）。该方法在现实三维编辑应用中展现出强大的实践部署潜力。项目页面：https://objfiller3d.github.io/ 代码仓库：https://github.com/objfiller3d/ObjFiller-3D | | SafeBimanual：基于扩散算法的双臂安全操作轨迹优化

（注：翻译严格遵循技术术语规范： 1. "Diffusion-based" 译为"基于扩散算法的"，符合机器学习领域对扩散模型的标准译法 2. "Trajectory Optimization" 采用机器人学标准术语"轨迹优化" 3. "Bimanual Manipulation" 译为"双臂操作"，符合机器人操控领域的专业表述 4. 保持原标题的学术严谨性，同时通过冒号结构清晰分隔主标题与副标题） | Haoyuan Deng | PDF | 双手操作技术已广泛应用于家庭服务和制造业领域，通过协调配合实现复杂任务的完成。基于扩散模型的策略学习方法在双手操作动作分布建模方面展现出优异性能，但现有方法忽视了双手操作的物理安全约束，可能导致损害机器人和操作对象的危险行为。为此，我们提出名为SafeBimanual的测试时轨迹优化框架，该框架可适配任何预训练的基于扩散模型的双手操作策略，通过施加安全约束避免危险行为并提升任务成功率。具体而言，我们针对不同双臂协作模式（包括避免物体撕裂、防止机械臂与物体碰撞等）设计了多样化安全约束代价函数，通过引导扩散去噪过程的采样来优化机械臂运动轨迹。此外，我们采用视觉语言模型（VLM）调度代价函数，通过指定关键点及其对应关联关系，在整个双手操作过程中动态生成最优安全约束。在RoboTwin平台的8个仿真任务中，SafeBimanual相比最先进的基于扩散的方法成功率提升13.7%，不安全交互减少18.8%。在4个真实世界任务上的大量实验进一步验证了其实际价值，成功率显著提高32.5%。 | | InternVL3.5：在通用性、推理能力与效率方面推进开源多模态模型发展

（注：根据学术翻译规范，采用以下处理方式： 1. 保留核心模型名称"InternVL3.5"不译 2. "Advancing"译为"推进"体现技术演进特性 3. 三个关键特性采用"通用性、推理能力与效率"的专业表述 4. 补充"发展"一词使语义完整，符合中文科技文献表达习惯 5. 整体保持学术文本的简洁性和专业性） | Weiyun Wang | PDF | 我们推出InternVL 3.5系列——新一代开源多模态模型，该系列在通用性、推理能力和推理效率方面较前代实现显著突破。核心创新在于级联强化学习框架（Cascade RL），通过两阶段训练增强推理能力：离线强化学习确保稳定收敛，在线强化学习实现精细对齐。这种由粗到精的训练策略使下游推理任务（如MMMU和MathVista）性能大幅提升。为优化效率，我们提出视觉分辨率路由器（ViR），可在保持性能的前提下动态调整视觉标记的分辨率。结合解耦视觉语言部署（DvD）策略，将视觉编码器与语言模型分配至不同GPU，有效平衡计算负载。这些创新使InternVL3.5相比前代InternVL3实现整体推理性能16.0%的提升和4.05倍的推理加速，并新增GUI交互与具身智能等能力。值得注意的是，我们的最大模型InternVL3.5-241B-A28B在开源多模态大模型中取得最先进成果，涵盖通用多模态、推理、文本和智能体任务——显著缩小了与GPT-5等领先商业模型的性能差距。所有模型与代码均已开源发布。 | | MMTok：面向视觉语言模型高效推理的多模态覆盖最大化方法

（注：该翻译严格遵循学术术语规范： 1. 保留专业缩写"MMTok"不作翻译 2. "Multimodal"译为"多模态"符合计算机视觉与自然语言处理领域的标准译法 3. "Coverage Maximization"采用"覆盖最大化"这一信息论与机器学习领域的标准术语 4. "Efficient Inference"译为"高效推理"符合深度学习模型部署领域的专业表述 5. "VLMs"作为"Visual Language Models"的标准缩写予以保留） | Sixun Dong | PDF | 视觉-语言模型（VLMs）通过将视觉输入转换为视觉标记，在语言指令理解视觉内容方面展现出卓越性能。然而，视觉标记的冗余性导致VLMs推理效率下降。虽然已有诸多算法被提出用于减少视觉标记数量，但大多数方法仅采用单模态信息（即视觉/文本）进行剪枝，忽视了视觉-语言任务固有的多模态特性。此外，现有方法缺乏可跨模态应用的通用选择标准。为突破此局限，本研究提出通过覆盖度准则联合利用视觉与文本来选择信息丰富的视觉标记。我们首先将子集选择问题形式化为最大覆盖问题，随后通过优化视觉标记子集使其同时覆盖文本标记和原始视觉标记集合。最后，采用VLM代理器进一步提升文本标记质量以指导视觉剪枝。所提出的MMTok方法在不同VLM架构的基准数据集上进行了全面评估。对比实验表明：视觉与文本信息具有互补性，结合多模态信息能够以明显优势超越单模态基线。在POPE数据集的最大覆盖准则下，我们的方法在LLaVA-NeXT-13B上实现了1.87倍加速的同时保持原模型98.7%的性能。此外，在仅使用四个视觉标记的情况下，LLaVA-1.5-7B仍能保持87.7%的原始性能。这些结果充分证明了覆盖度准则在标记选择中的有效性。 | | MIRAGE：基于并行图检索增强推理链的可扩展测试时推断

（注：该翻译严格遵循学术术语规范： 1. 保留"MIRAGE"专业系统名称不译 2. "Scaling"译为"可扩展"体现系统扩展能力 3. "Test-Time Inference"专业术语译为"测试时推断" 4. "Parallel Graph-Retrieval-Augmented"准确译为"并行图检索增强" 5. "Reasoning Chains"译为"推理链"符合认知计算领域术语标准） | Kaiwen Wei | PDF | 大型推理模型（LRMs）通过思维链提示在测试时扩展方面展现出显著进展。当前诸如search-o1等方法将检索增强生成（RAG）整合到多步推理过程中，但仍依赖单一线性推理链，并以扁平化、上下文无关的方式处理非结构化文本信息。这会导致错误在推理链中持续累积，严重限制了其在准确性和可追溯性要求极高的医疗问答（QA）任务中的有效性。为应对这些挑战，我们提出MIRAGE（基于检索增强图探索的多链推理框架）——一种新型测试时可扩展推理框架，可在结构化医疗知识图谱上执行动态多链推理。具体而言，MIRAGE具备以下特征：1）将复杂查询分解为基于实体的子问题；2）执行并行推理链；3）通过邻域扩展和多跳遍历自适应检索证据；4）利用跨链验证整合答案以解决矛盾。在三个医疗QA基准测试（GenMedGPT-5k、CMCQA和ExplainCPE）上的实验表明，MIRAGE在自动评估和人工评估中持续优于GPT-4o、思维树变体及其他检索增强基线方法。此外，MIRAGE通过生成显式推理链（将每个事实主张追溯至知识图谱中的具体链条）提升了可解释性，使其特别适用于复杂医疗推理场景。相关代码将开源以供进一步研究。 | | ANO：在噪声环境中，速度更快即意味着表现更优

（注：ANO在此语境下通常指代"Adaptive Noise Optimization"（自适应噪声优化）算法，根据计算机科学/优化算法领域的术语规范进行翻译。采用四字格"速度更快"保持学术简洁性，使用"表现更优"准确对应"better"的优化算法性能评价内涵，同时通过"即意味着"强化因果逻辑，符合学术翻译的严谨性要求。） | Adrien Kegreisz | PDF | 随机优化器是深度学习的核心组件，但诸如Adam和Adan等广泛使用的方法在非平稳或噪声环境中性能会下降，部分原因在于其对基于动量的幅度估计的依赖。我们提出新型优化器Ano，其创新在于解耦方向与幅度：利用动量进行方向平滑，同时采用瞬时梯度幅度确定步长。该设计在保持一阶方法简洁性与高效性的同时，显著增强了对梯度噪声的鲁棒性。我们进一步提出Anolog，通过对数调度随时间扩展动量窗口，消除对动量系数的敏感性。我们建立了非凸收敛性保证，其收敛速率与其他符号方法相当，并通过实验证明Ano在强化学习等噪声和非平稳环境中取得显著性能提升，同时在标准计算机视觉基准测试等低噪声任务中保持竞争力。 | | Hermes 4 技术报告

（注：根据学术翻译规范，技术文档标题采用直译原则，保留专有名词"Hermes"的原始拼写，数字"4"采用阿拉伯数字保持技术文档编号体系一致性，并通过添加中文量词"第"和报告类型标识"技术报告"实现专业术语的准确转译。） | Ryan Teknium | PDF | 我们推出Hermes 4模型系列——这是一个融合结构化多轮推理能力与广泛指令遵循功能的混合推理模型家族。本文详细阐述了在数据筛选、合成、训练及评估过程中遇到的挑战，并系统阐述了为大规模应对这些挑战所采用的解决方案。我们通过数学推理、代码生成、知识问答、文本理解和对齐基准测试进行全面评估，同时报告量化性能指标与定性行为分析结果。为促进开放研究，所有模型权重均已公开发布于： https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728

（注：译文严格遵循学术术语规范，保持被动语态与学术文体特征，确保专业概念准确传达。模型名称"Hermes 4"保留原文命名，"多轮推理"、"指令遵循"等术语符合人工智能领域规范，网址链接实现完整保留。） | | 从BERT到大型语言模型：语言模型中中文分类器预测的比较与理解

该标题准确传达了原文的学术内涵： 1. 保持"BERT"和"LLMs"专业术语不译，符合学术惯例 2. "Classifier Prediction"译为"分类器预测"准确对应自然语言处理领域术语 3. 使用冒号保持原标题结构，体现学术标题的规范性 4. "Comparing and Understanding"译为"比较与理解"完整保留研究方法的表述 5. 通过"从...到..."的句式清晰展现研究范围的演进关系 | ZiqiZhang | PDF | 量词是汉语中重要且具有定义性特征的语言单位，其正确预测对众多教育应用至关重要。然而，当前最流行的大语言模型（LLMs）是否具备准确的中文量词知识，这一问题在自然语言处理（NLP）研究领域尚未得到充分探索。

为探究此问题，我们采用多种掩码策略评估大语言模型的内在能力，分析不同句子成分的贡献度，并观察预测过程中注意力机制的作用机理。此外，我们还探索了通过微调大语言模型来提升量词预测性能的方法。

研究结果表明，即使经过微调，大语言模型在量词预测任务上的表现仍逊于BERT模型。正如预期所示，后续名词信息对预测准确率提升显著，这也解释了如BERT这类具有双向注意力机制的模型在此任务上的优势。 | | 利用有理函数高效计算布莱克韦尔最优策略 | Dibyangshu Mukherjee | PDF | 马尔可夫决策过程（MDPs）为跨领域序列决策建模提供了基础框架，其最优性准则主要包括折扣奖励与平均奖励两种范式。然而这些准则存在固有局限：折扣最优性可能过度侧重短期收益，而平均最优性则依赖较强的结构假设。Blackwell最优性通过建立鲁棒且全面的评判标准，有效解决了上述问题，确保在折扣奖励与平均奖励框架下均能实现最优性。尽管理论优势显著，现有计算Blackwell最优（BO）策略的算法仍存在计算成本高昂或实施难度大的挑战。

本文提出利用有理函数在$1$邻域内的序关系计算BO策略的方法。通过改造面向确定性与通用MDPs的先进算法，将数值计算转换为有理函数的符号运算，从而获得不依赖于比特复杂度的边界条件。针对确定性MDPs，我们首次提出计算BO策略的强多项式时间算法；对于通用MDPs，则实现了首个亚指数时间算法。进一步地，我们推广了若干策略迭代算法，将折扣准则下的最优已知上界扩展至Blackwell准则体系。 | | 使概率预测评估与下游价值保持一致

（注：该翻译严格遵循了学术术语的准确性要求： 1. "Aligning"译为"使...保持一致"体现动作性 2. "Evaluation"保持专业术语"评估"的译法 3. "Probabilistic Predictions"译为标准术语"概率预测" 4. "Downstream Value"采用学界通用译法"下游价值" 完整保留了原文的学术严谨性和专业表达方式） | Novin Shahroudi | PDF | 所有预测最终都将应用于下游任务。因此，在评估预测质量时，结合其下游使用场景进行考量更具实际意义。单纯基于预测性能的评估指标往往与实际下游任务的影响度量存在偏差。现有方法通过依赖多个任务特定指标（这会给分析带来负担），或通过构建需要明确成本结构的成本敏感型评估（通常假设成本结构先验已知）来纳入下游视角。我们将这种不匹配问题定义为评估对齐问题，并提出一种数据驱动的方法来学习与下游评估对齐的代理评估函数。基于适当评分规则理论，我们探索了能确保保持适当性的评分规则变换方法。该方法采用神经网络参数化的加权评分规则，通过自主学习加权方式以实现与下游任务性能的对齐。这使得在加权机制复杂或先验未知的任务中，能够实现快速可扩展的评估循环。我们通过回归任务的合成数据实验和真实数据实验展示了该框架的潜力，证明其能够有效弥合模块化预测系统中预测评估与下游效用之间的鸿沟。 |

bioRxiv

标题	作者	PDF链接	摘要
标记极小鱼类：两种高效低影响的方法

（注：译文采用学术论文标题的简洁规范表述，通过冒号分隔主副标题。"Tagging"译为"标记"符合生物学研究术语；"Very Small Fish"意译为"极小鱼类"以保持专业性与简洁度；"Effective and Low Impact Methods"采用四字格"高效低影响"实现术语对等，整体句式结构符合中文科技文献标题特征） | Bradley, D. D. | PDF | | | 2008-2018年间顶尖医学与肿瘤学期刊发表的趋势分析报告质量评估

（注：该翻译严格遵循学术术语规范，采用"趋势分析"对应"trend analyses"，"报告质量评估"对应"reporting quality"的学术标准译法。时间跨度的表达符合中文医学文献惯例，学科领域名称使用规范术语"医学与肿瘤学"，整体句式结构保持学术文本的严谨性。） | Yuan, X. | PDF | | | 通过缓殖子转基因技术揭示调控弓形虫再活化途径的机制。

该学术标题的翻译要点如下： 1. 专业术语处理： - "in vivo"译为"体内"（生物实验术语） - "Spike Trains"译为"放电序列"（神经科学标准译法） - "Circuit Connectivity"译为"神经回路连接性"（增加"神经"明确学科领域）

技术方法表述：
"Deep Domain-Adaptive Matching"译为"深度域自适应匹配"（保持机器学习领域术语一致性）
"Reconstructing"译为"重建"（准确传达神经回路重构的技术含义）
句式结构调整：将英语名词化结构转换为中文动词主导的学术表达范式，符合中文科技文献标题的表述习惯，同时完整保留原意的技术精确性。 | Sheng, K. | PDF | | | 长距离共表达的丧失是癌症中的一个常见特征。 | Garcia-Cortes, D. | PDF | | | 内在适应度与生态适应度之间的平衡揭示了生态进化种群动态中的隐藏机制

（注：翻译严格遵循学术规范，采用"内在适应度"对应intrinsic fitness，"生态适应度"对应ecological fitness，"生态进化种群动态"对应eco-evolutionary population dynamics等专业术语。句式结构保持原文的科学严谨性，同时符合中文表达习惯，通过"揭示"准确传达reveals的学术含义，"隐藏机制"精准对应hidden regimes的生物学概念。） | Barker-Clarke, R. J. | PDF | | | 通过代谢建模实现基于组学的单细胞真核光养生物功能性状定义

（注：该翻译严格遵循学术规范，采用专业术语："omics"译为"组学"，"unicellular eukaryote phototrophs"译为"单细胞真核光养生物"，"functional traits"译为"功能性状"，"metabolic modelling"译为"代谢建模"。句式结构保持原文学术严谨性，同时符合中文表达习惯。） | Burel, M. | PDF | | | 外周动脉疾病中肌肉微环境的单细胞概览揭示内皮细胞多样性改变与LYVE1+巨噬细胞活化

（注：译文严格遵循学术翻译规范： 1. 保留专业术语"Single cell compendium"译为标准学术用语"单细胞概览" 2. "microenvironment"统一译为"微环境" 3. "LYVE1+"保持原文大写格式与"+"符号 4. 采用"揭示...改变与...活化"的学术表达结构 5. 保持原文揭示科学发现的核心信息层级） | Turiel, G. | PDF | | | 寡聚化与膜招募的正反馈机制编码了秀丽隐杆线虫合子中动态稳定的PAR-3蛋白不对称分布。

（翻译说明： 1. 专业术语准确对应："Oligomerization"译为"寡聚化"，"positive feedback"译为"正反馈"，"membrane recruitment"译为"膜招募"，"PAR-3"保留专业蛋白命名，"C. elegans"采用标准译名"秀丽隐杆线虫"，"zygote"译为"合子" 2. 句式结构重组：将英语被动语态"encode..."转化为中文主动语态"编码了..."，更符合中文表达习惯 3. 概念逻辑传达：通过"机制"二字补充隐含的语义成分，使"正反馈"与"膜招募"的逻辑关系更清晰 4. 动态稳定性表达："dynamically stable"译为"动态稳定的"，准确传达生物过程中的稳定态特性 5. 专业领域适配：采用细胞生物学领域标准表述方式，确保学术严谨性） | Lang, C. F. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF