2025-10-26 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
HoloCine：电影级多镜头长视频叙事的整体生成

（注：译文采用"电影级"对应"cinematic"以体现专业制作水准，"多镜头长视频"准确传达"multi-shot long video"的技术概念，"整体生成"完整保留"holistic generation"的学术内涵，同时通过冒号结构保持原标题的学术严谨性） | Yihao Meng | PDF | 当前最先进的文生视频模型虽能生成独立片段，却难以构建具有连贯性的多镜头叙事——而这正是故事讲述的核心。我们通过HoloCine模型弥合这一"叙事鸿沟"，该模型能够整体生成完整场景，确保从首个镜头到最终画面的全局一致性。我们的架构通过两项创新实现精准导演控制：窗口交叉注意力机制将文本提示定位至特定镜头，而稀疏镜头间自注意力模式（镜头内稠密计算，镜头间稀疏连接）则保障分钟级生成所需的效率。除在叙事连贯性上树立新标杆外，HoloCine还展现出卓越的涌现能力：对角色与场景的持久记忆，以及对电影技法的直觉把握。本工作标志着从片段合成到自动化电影制作的关键转变，使端到端的电影创作成为可触及的未来。代码已开源：https://holo-cine.github.io/。 | | 层组合器：基于空间感知分层画布的交互式个性化文本到图像生成

该翻译保留了以下关键要素： 1. "LayerComposer"译为"层组合器"，准确体现图层组合功能 2. "Interactive Personalized T2I"完整译为"交互式个性化文本到图像生成"，其中T2I作为专业术语展开为"文本到图像" 3. "Spatially-Aware Layered Canvas"译为"空间感知分层画布"，精准传达空间定位与分层结构概念 4. 整体采用学术文献标准的四字格标题结构，符合中文论文标题规范 5. 通过连接词"基于"建立技术逻辑关系，保持学术表达的严谨性 | Guocheng Gordon Qian | PDF | 尽管现有个性化生成模型具有令人印象深刻的视觉保真度，但其缺乏对空间构图的交互控制，且在多主体场景下的扩展性欠佳。为突破这些局限，我们提出LayerComposer——一个支持交互式个性化多主体文生图的创新框架。本研究的核心贡献包括：（1）分层画布：一种将每个主体置于独立图层的新型表征方法，实现无遮挡构图；（2）锁定机制：在保持选定图层高保真度的同时，允许其余图层灵活适应周边语境。与专业图像编辑软件类似，所提出的分层画布支持用户通过直观的图层操作来放置、缩放或锁定输入主体。我们的通用锁定机制无需改变模型架构，而是通过固有位置编码与创新的互补数据采样策略实现。大量实验表明，在多主体个性化图像生成任务中，LayerComposer在空间控制与身份保持方面均优于当前最先进方法。 | | 迈向通用模态转换：基于对比与预测的潜在扩散桥接方法

（该翻译在保持学术严谨性的同时，通过以下处理实现专业表达： 1. "General Modality Translation"译为"通用模态转换"准确对应跨模态学习领域术语 2. "Contrastive and Predictive"采用"对比与预测的"体现两种核心方法的并列关系 3. "Latent Diffusion Bridge"译为"潜在扩散桥接"既保留潜在扩散模型的技术特性，又通过"桥接"准确传达跨模态连接功能 4. 整体采用"迈向...方法"的句式结构，符合中文论文标题的表述惯例） | Nimrod Berman | PDF | 生成建模的最新进展已使扩散模型成为从复杂数据分布中采样的前沿工具。尽管这些模型在图像、音频等单模态领域取得了显著成功，但将其能力扩展到模态翻译——即在不同感官模态间转换信息——仍是一个待解决的挑战。现有方法通常依赖限制性假设，包括共享维度、高斯源先验和模态专用架构，这限制了其普适性与理论根基。本文提出潜在去噪扩散桥接模型（LDDBM），这是一个基于潜在变量扩展的去噪扩散桥接模型的通用模态翻译框架。通过在共享潜在空间中操作，我们的方法能够学习任意模态间的桥梁，无需对齐维度。我们引入对比对齐损失以增强配对样本间的语义一致性，并设计了适用于潜在空间噪声预测的领域无关编码器-解码器架构。此外，我们提出预测损失以引导训练实现准确的跨域翻译，并探索了多种提升训练稳定性的策略。本方法支持任意模态对，在多视图到三维形状生成、图像超分辨率及多视图场景合成等多样模态翻译任务中表现优异。综合实验与消融研究验证了框架的有效性，为通用模态翻译建立了新的强基准。更多信息请访问项目页面：https://sites.google.com/view/lddbm/home。 | | VAMOS：一种支持能力调制与可控导航的分层视觉-语言-动作模型

（解析说明： 1. 保留首字母缩略词"VAMOS"不译以保持术语一致性 2. "Hierarchical"译为"分层"准确体现模型架构特性 3 "Vision-Language-Action"采用连字符统一处理为"视觉-语言-动作"，符合多模态研究领域的表述惯例 4. "Capability-Modulated"译为"能力调制"准确传达性能可调节的技术内涵 5. "Steerable Navigation"译为"可控导航"既保留专业术语特征又符合中文表达习惯 6. 整体采用"定语前置+核心词"的中文学术标题结构，确保专业性与可读性平衡） | Mateo Guaman Castro | PDF | 机器人导航领域的一个根本性挑战在于：如何学习能够适应多样化环境的策略，同时符合特定机器人形态的独特物理约束与能力（例如四足机器人可攀爬楼梯，而轮式机器人则无法）。我们提出VAMOS——一种分层视觉语言动作模型，其核心创新在于将语义规划与具身 grounding 解耦：通用规划器从多样化的开放世界数据中学习，而专用功能可供性模型则在安全低成本的仿真环境中学习机器人的物理约束与能力。通过精心设计接口实现高低层分离，高层规划器直接在图像空间生成候选路径，再由功能可供性模型进行评估与重排序。真实环境实验表明，VAMOS在室内及复杂室外导航任务中的成功率均优于当前最先进的基于模型的方法和端到端学习方法。我们的分层设计还实现了腿式与轮式机器人的跨形态导航，并能通过自然语言便捷引导。真实环境消融实验证实，专用模型是实现具身 grounding 的关键，使得单一高层规划器可部署于物理结构迥异的轮式与腿式机器人。最终，该模型显著提升了单机器人可靠性，通过拒绝物理不可行方案将成功率提升至三倍。项目网站：https://vamos-vla.github.io/ | | KL正则化强化学习旨在解决模型坍塌问题 | Anthony GX-Chen | PDF | 普遍认为，优化反向KL散度会导致"模式聚焦"行为，而优化前向KL散度则产生"质量覆盖"效果——若目标是从多个多样化模式中采样，后者通常更受青睐。我们通过数学证明和实验验证表明：这种直觉认知未必适用于基于反向/前向KL正则化的强化学习（例如语言模型中常用的方法）。实际上，反向/前向KL的选择决定了由正则化系数参数化的最优目标分布族。模式覆盖能力主要取决于其他因素，包括正则化强度、奖励函数与参考概率之间的相对尺度等。进一步研究发现，常用设置（如低正则化强度和等值可验证奖励）往往会导致单峰目标分布，这意味着优化目标在构造上就缺乏多样性。基于这些发现，我们构建了一个简洁可扩展且理论依据充分的算法。该算法对奖励量级进行最小化调整，却能优化目标分布使其在所有高质量采样模式上均保持高概率。实验表明，这一简单改进能有效提升大型语言模型与化学语言模型的微调效果，在无需外部多样性信号的情况下，同时增强解决方案的质量与多样性，且在使用前向或反向KL散度单独优化失效时仍能保持良好性能。 | | GSWorld：面向机器人操作的闭环逼真仿真套件 | Guangqi Jiang | PDF | 本文提出GSWorld——一个结合三维高斯泼溅与物理引擎的、具备照片级真实感的鲁棒性机器人操作仿真器。我们的框架倡导实现“开发闭环”：通过对真实机器人数据学习策略进行可复现评估，以及无需真实机器人的仿真到现实策略训练，完成操作策略的完整开发流程。为实现多样化场景的照片级渲染，我们提出名为GSDF（高斯场景描述文件）的新型资源格式，该格式将网格表面高斯表征与机器人URDF及其他物体模型相融合。通过标准化重建流程，我们构建了包含3种单臂/双臂操作机器人实体及40余个物体的GSDF数据库。将GSDF与物理引擎结合后，我们展示了若干即时应用场景：（1）通过照片级渲染实现零样本仿真到现实的像素到动作操作策略学习；（2）采用自动化高质量DAgger数据收集实现策略在部署环境中的自适应；（3）在仿真环境中对真实机器人操作策略进行可复现基准测试；（4）通过虚拟遥操作收集仿真数据；（5）零样本仿真到现实的视觉强化学习。项目网站：https://3dgsworld.github.io/。 | | SpectraMorph：基于结构化隐空间学习的自监督高光谱图像超分辨率方法

（注：翻译采用学术论文标题的常见结构，通过冒号分隔主副标题。"Structured Latent Learning"译为"结构化隐空间学习"，体现对潜在表征的结构化约束；"Self-Supervised Hyperspectral Super-Resolution"译为"自监督高光谱图像超分辨率"，准确对应计算机视觉领域的专业术语；整体译文既保持专业准确性，又符合中文论文标题的表述规范。） | Ritik Shah | PDF | 高光谱传感器能捕获每个像素的密集光谱数据，但其空间分辨率较低，导致边界模糊和混合像元效应。通过多光谱、RGB或全色相机等协同配准的辅助传感器可提供高分辨率空间细节，这推动了基于高光谱与多光谱图像融合的超分辨率技术发展。现有深度学习方法虽性能优异，但依赖缺乏可解释性的黑盒回归器，且在多光谱波段数极少时往往失效。我们提出SpectraMorph——一种具有结构化潜空间的物理引导自监督融合框架。该方法通过解混瓶颈替代直接回归：从低分辨率高光谱图像中提取端元光谱特征，利用紧凑型多层感知机从多光谱图像预测类丰度图，最后通过线性混合模型重建光谱。整个训练过程基于多光谱传感器的光谱响应函数以自监督方式实现。SpectraMorph不仅能生成可解释的中间结果，在一分钟内完成训练，即使面对单波段（全色）多光谱数据仍保持稳健性能。在合成与真实数据集上的实验表明，该框架持续优于当前最先进的无监督/自监督基线方法，同时与监督基线模型保持强劲竞争力。 | | 小稿大判：基于推测的信息密集型视觉推理 | Yuhan Liu | PDF | 大型视觉语言模型（VLIM）在多模态理解领域取得了显著进展，但在处理信息密集型图像时仍面临挑战——这类图像往往密集交织着文本标注与细粒度图形元素。核心难点在于如何精准定位密集布局中的关键线索，并通过多跳推理整合分散的证据。我们提出"推测性裁决"框架，该无需训练的方案受推测解码思想启发，将多个轻量级草案专家与大型裁决模型相结合。在草案阶段，小型VLM作为草案专家生成提供多样化定位候选的推理路径；在裁决阶段，强VLM综合这些路径生成最终答案，在控制计算成本的同时提升答案正确率。为进一步优化效率与精度，SV引入共识专家选择机制，仅将高一致性的推理路径提交裁决。实验表明，SV在InfographicVQA、ChartMuseum、ChartQAPro和HR-Bench 4K等具有挑战性的信息密集型高分辨率视觉问答基准上均取得稳定提升。通过从多个部分正确的推理路径中合成有效洞察，SV相比大型专有模型或训练流程同时实现了错误修正与成本优化。代码已开源：https://github.com/Tinaliu0123/speculative-verdict | | 关于LLM生成文本的可检测性探究：究竟何为LLM生成文本？ | Mingmeng Geng | PDF | 随着大语言模型（LLM）的广泛使用，众多研究者已将目光投向对其生成文本的检测。然而对于检测目标——即“LLM生成文本”——始终缺乏统一且精确的界定。使用场景的差异性与大语言模型的多样性进一步增加了检测难度，当前普遍认定的检测目标往往仅代表大语言模型潜在生成文本的一个子集。人类对模型输出的编辑行为，以及大语言模型对使用者产生的潜移默化影响，正在模糊机器生成文本与人类书写文本的界限。现有基准测试与评估方法未能充分涵盖检测器实际应用中的多样化条件，导致检测器的数值结果常被误读，其实际意义正在减弱。因此，检测器在特定条件下仍具应用价值，但对其结果的解读应保持审慎，仅可作为参考依据而非决定性指标。 | | 人工智能、机器人技术及更广阔领域的深度探索研究 | Xueyan Zou | PDF | 随着人工智能与机器人技术研究迅猛发展（年发文量已超万篇），研究人员愈发难以全面追踪领域进展。快速演变的趋势、跨学科研究的兴起，以及探索非本专业领域的需求共同加剧了这一挑战。为应对这些问题，我们提出一种通用分析框架，能够系统审视任何研究领域：识别新兴趋势，发掘跨领域机遇，并为新研究提供具体切入点。本研究提出"真实深度研究"综合框架，将其应用于人工智能与机器人技术领域，特别聚焦基础模型与机器人技术的最新进展。我们还将分析范围简要延伸至其他科学领域。正文详述了RDR框架的构建过程，附录则呈现各分析主题的详尽结果。期待本研究能为人工智能及相关领域的研究者提供启示。 |

bioRxiv

标题	作者	PDF链接	摘要
突触周围胶质细胞中活动依赖性线粒体转运驱动运动功能

解析： 1. "Activity-dependent" 译为"活动依赖性"，是神经科学常用术语 2. "mitochondrial transport" 采用"线粒体转运"的标准译法 3. "peri-synaptic glia" 译为"突触周围胶质细胞"，准确体现解剖位置 4. "drives motor function" 译为"驱动运动功能"，保持动词的驱动含义 5. 整体采用倒装结构，符合中文科技论文标题表达习惯 6. 保留原文的因果逻辑关系：线粒体转运→功能驱动 7. 使用"中...驱动"的句式，确保专业性与流畅度统一

（注：译文采用学术论文标题常用结构，通过冒号分层明确研究对象与核心发现。专业术语处理方式： 1. "Harpin superfamily"保留专业缩写"harpin"并译为"超家族" 2. "Pseudomonas syringae"采用植物病理学标准译名"丁香假单胞菌" 3. "Hypersensitive response"使用植物免疫学固定译法"过敏性反应" 4. 通过"新成员"准确对应"new member"的学术表述，保持标题简洁性与专业性） | Lal, K. | PDF | | | 新型KCNT1相关癫痫功能获得性小鼠模型

（注：该译文采用学术文献常用表达方式，保留"predicts"的主动语态以体现生物学动态关系，物种学名遵循双名法规范。针对"early-life reproduction"这一专业概念，采用"早期繁殖"既准确传达生命史阶段特征，又符合中文动物生态学表述惯例。） | Cattelan, S. | PDF | | | 作为新型分类群分布外检测器的朴素贝叶斯分类器++

说明： 1. 完整保留专业术语： - "Naïve Bayes Classifier" 译为"朴素贝叶斯分类器"（机器学习标准译名） - "++" 保持符号不变（表示增强版本） - "Out-of-Distribution Detector" 译为"分布外检测器"（ML领域标准术语） - "Novel Taxa" 译为"新型分类群"（生物分类学专业术语）

句式结构采用中文科技论文常用表达方式，使用"作为...的..."的学术句式
特别注意处理了特殊字符"ï"（Naïve中的分音符），确保准确转写为"朴素" | Ramjattun, K. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF