2025-08-31 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
NeurIPS 2024隐形水印去除挑战赛冠军解决方案

（注：根据学术翻译规范，NeurIPS保持英文大写形式，因其为国际顶级会议标准缩写；"Invisible Watermark Removal Challenge"采用"隐形水印去除挑战赛"的译法，其中"去除"较"移除"更符合计算机视觉领域的术语使用习惯；"First-Place Solution"译为"冠军解决方案"既保持学术严谨性又符合中文竞赛术语表达。） | Fahad Shamshad | PDF | 内容水印技术是数字媒体认证与版权保护的重要工具。然而，现有水印技术是否能有效抵御对抗性攻击尚不明确。本文提出NeurIPS 2024"消除隐形水印挑战赛"的夺冠解决方案，该方案通过多维度对抗知识测试水印鲁棒性。挑战赛设立双赛道：黑盒赛道与米色盒赛道，其区别在于攻击方是否知晓水印嵌入方法。针对米色盒场景，我们采用基于自适应变分自编码器的规避攻击，在CIELAB色彩空间实施测试时优化与色彩对比度恢复，以保持图像质量。对于黑盒场景，首先通过空域或频域伪影特征对图像聚类，随后对每个集群应用图像扩散模型，结合受控噪声注入与ChatGPT生成语义先验的标注，并采用优化参数设置。实证评估表明，我们的方法在保证残差图像质量近乎无损的前提下，实现了接近完美的水印去除率（95.7%）。期望本研究能推动更具鲁棒性的图像水印技术发展。 | | 着装与舞蹈：随心装扮，随乐起舞——技术前瞻

（注：译文采用学术性标题结构，通过冒号分层明确主题与副标题。"Dress up and Dance as You Like It" 意译为"随心装扮，随乐起舞"，既保留原意又体现中文韵律。"Technical Preview" 译为"技术前瞻"符合学术语境，准确传递技术预览性质。整体采用四字格与对仗结构，符合中文标题美学特征。） | Jun-Kun Chen | PDF | 我们提出Dress&Dance视频扩散框架，该框架能够生成1152×720分辨率、24帧/秒、时长为5秒的高质量虚拟试穿视频，展示用户穿着指定服装并按照给定参考视频动作移动的效果。我们的方法仅需单张用户图像，支持多种上装、下装及连衣裙的试穿，并能单次处理上下装同时试穿。框架的核心是CondNet——一种创新的条件网络，通过注意力机制统一多模态输入（文本、图像和视频），从而显著提升服装配准精度与运动保真度。CondNet采用多阶段渐进式训练方式，融合有限视频数据与更易获取的大规模图像数据集进行异构训练。Dress&Dance在性能上超越现有开源与商业解决方案，为用户提供高质量、灵活度高的虚拟试穿体验。 | | OneReward：基于多任务人类偏好学习的统一掩码引导图像生成

（注：翻译严格遵循学术术语规范： 1. "Unified Mask-Guided" 译为"统一掩码引导"，保持计算机视觉领域的专业表述 2. "Multi-Task Human Preference Learning" 采用"多任务人类偏好学习"的标准译法 3. 保留原文的冒号分隔结构，符合中文学术标题的呈现方式 4. "Image Generation" 统一译为"图像生成"，与深度学习领域术语保持一致） | Yuan Gong | PDF | 本文提出OneReward——一个统一强化学习框架，仅通过单个奖励模型即可提升模型在不同评估标准下多任务生成能力。该框架采用单一视觉语言模型（VLM）作为生成式奖励模型，能够针对特定任务和评估标准区分优劣输出，可有效应用于多任务生成场景，特别是在数据多样化和任务目标多元化的语境中。

我们将OneReward应用于掩码引导图像生成，该任务可进一步细分为图像填充、图像扩展、对象移除和文本渲染等子任务，这些任务均涉及使用二元掩码界定编辑区域。尽管这些领域特定任务共享相同的条件范式，但其底层数据分布和评估指标存在显著差异。现有方法通常依赖任务特定的监督微调（SFT），这限制了泛化能力和训练效率。

基于OneReward框架，我们开发了Seedream 3.0 Fill模型——直接在预训练基础模型上通过多任务强化学习训练的掩码引导生成模型，无需任务特定SFT。实验结果表明，我们的统一编辑模型在多项评估维度上持续超越商业及开源竞品（包括Ideogram、Adobe Photoshop和FLUX Fill [Pro]）。代码与模型已开源：https://one-reward.github.io

（注：根据学术翻译规范，专业术语保持原文大小写格式，如OneReward、VLM、SFT等；技术术语采用行业通用译法；长句按中文表达习惯进行合理切分；保留原文超链接格式） | | 提示到产品：通过双手操作实现生成式装配

（注：此处采用学术翻译的常见处理方式： 1. 保留核心术语"Generative"的生成式含义，符合人工智能领域术语规范 2. "Bimanual Manipulation"专业译为"双手操作"，体现机器人学领域术语特征 3. 使用冒号分隔主副标题，保持学术标题的规范格式 4. "Assembly"根据上下文译为"装配"而非字面的"组装"，更符合制造领域的专业表述） | Ruixuan Liu | PDF | 创建装配产品需要大量人工投入与专业领域知识，涉及两个核心环节：1)装配方案设计 2)实物产品构建。本文提出Prompt-to-Product自动化流程，能够根据自然语言指令生成实体装配产品。我们以乐高积木作为装配平台，实现了积木组装结构的自动化生成。该系统根据用户设计要求，首先生成具备物理可建造性的积木设计方案，随后通过双机械臂机器人系统完成实体装配产品的构建，从而将用户构想转化为现实产物。通过全面的用户研究，结果表明Prompt-to-Product能显著降低从创意构思到装配产品实现的门槛，有效减少人工操作需求。 | | 论目标追踪：基于大语言模型的多轮对话目标追踪与可视化研究

（注：翻译采用学术论文标题的规范形式，通过冒号分隔主副标题。将"OnGoal"意译为"论目标追踪"以体现研究性质，"Tracking and Visualising"统一处理为动名词结构"追踪与可视化"，"Multi-Turn Dialogue"采用学界通用译法"多轮对话"，"Large Language Models"保留技术术语特征译为"大语言模型"。整体译文既保持学术严谨性又符合中文表达习惯。） | Adam Coscia | PDF | 随着与大型语言模型（LLM）的多轮对话日趋冗长复杂，用户应如何有效评估和审视其对话目标的进展？我们推出OnGoal——一个助力用户更好地管理目标进度的LLM对话界面。该系统通过LLM辅助评估提供实时目标对齐反馈，结合示例解析评估结果，并呈现目标进度的历时概览，使用户能更高效地驾驭复杂对话。通过对20名参与者开展写作任务的实验研究，我们将OnGoal与无目标追踪功能的基线对话界面进行对比评估。使用OnGoal的参与者在探索新提示策略以克服沟通障碍时，能以更少时间和精力达成目标，这表明目标追踪与可视化功能可增强LLM对话的参与度和韧性。我们的研究结果为未来LLM对话界面设计提供了重要启示：改进目标传达机制、降低认知负荷、增强交互性，并通过反馈机制提升LLM性能。 | | 多视角三维点追踪 | Frano Rajič | PDF | 我们提出了首个数据驱动的多视角三维点追踪器，该系统设计用于通过多相机视角追踪动态场景中的任意点。与现有单目追踪器（难以解决深度模糊和遮挡问题）或先前需要20+相机和繁琐逐序列优化的多相机方法不同，我们的前馈模型使用实用数量的相机（如四个）直接预测三维对应关系，实现鲁棒的在线精准追踪。在已知相机位姿且具备基于传感器或估计的多视角深度信息前提下，我们的追踪器将多视角特征融合为统一点云，并采用k近邻相关性计算与基于Transformer的更新机制，即使在遮挡情况下也能可靠估计长程三维对应关系。我们在5千个合成多视角Kubric序列上完成训练，并在Panoptic Studio和DexYCB两个真实场景基准测试中分别实现3.1厘米和2.0厘米的中值轨迹误差。我们的方法可良好泛化至1-8个不同视角的相机配置，支持24-150帧可变视频长度。通过同步开源追踪器及训练评估数据集，我们旨在为多视角三维追踪研究设立新标准，并为实际应用提供实用工具。项目页面详见https://ethz-vlg.github.io/mvtracker。 | | 长视频生成的上下文混合方法

（注：此处采用学术翻译的常见处理方式： 1. 保留核心术语"Mixture of Contexts"的专业含义，译为"上下文混合方法" 2. "Long Video Generation"准确译为"长视频生成" 3. 补充"方法"二字使中文表达更完整，符合学术文献标题的表述习惯 4. 整体采用偏正结构，确保术语准确性和学术规范性） | Shengqu Cai | PDF | 长视频生成本质上是一个长上下文记忆问题：模型必须在不崩溃或偏移的情况下，长时间保持并检索显著事件。然而，将扩散变换器扩展用于生成长上下文视频，从根本上受到自注意力二次方计算成本的限制，这使得内存和计算难以处理，且难以对长序列进行优化。我们将长上下文视频生成重新定义为内部信息检索任务，并提出了一种简单可学的稀疏注意力路由模块——上下文混合机制（Mixture of Contexts, MoC），作为有效的长期记忆检索引擎。在MoC中，每个查询动态选择少量信息块加上强制锚点（描述文本、局部窗口）进行关注，并通过因果路由防止循环闭合。随着数据规模的扩大和路由的逐渐稀疏化，模型将计算资源分配给显著历史信息，从而在数分钟的内容中保持身份特征、动作和场景的一致性。检索效率随之提升（接近线性缩放），这使得实际训练与合成成为可能，并在数分钟尺度上实现了记忆与一致性的涌现。 | | 假部件：AI生成深度伪造内容的新类别

（注：翻译说明： 1. "FakeParts" 采用意译"假部件"，既保留"fake"的核心含义，又通过"部件"体现其作为技术组件的特性 2. "a New Family" 译为"新类别"而非字面意义的"新家族"，更符合中文技术文献表述习惯 3. "AI-Generated DeepFakes" 采用行业通用译法"AI生成深度伪造内容"，其中"DeepFakes"作为专业术语保持技术社区共识译法 4. 整体采用破折号连接主副标题，符合中文科技论文标题规范） | Gaetan Brison | PDF | 我们提出"局部深度伪造"(FakeParts)——这是一种新型深度伪造技术，其特点是对真实视频中特定空间区域或时间片段进行精细的局部篡改。与完全合成的内容不同，这类涵盖表情修改、物体替换和背景调整等部分篡改手段，能够与真实元素无缝融合，因而具有极强的欺骗性和检测难度。为弥补检测能力的重要空白，我们推出首个专门针对局部深度伪造全谱系的大规模基准数据集FakePartsBench。该数据集包含超过2.5万个视频，提供像素级和帧级篡改标注，支持检测方法的全面评估。用户研究表明，与传统深度伪造相比，FakeParts使人类检测准确率下降超30%，最先进的检测模型也出现类似的性能退化。这项工作揭示了当前深度伪造检测方法存在的紧迫漏洞，并为开发更强大的局部视频篡改检测方法提供了必要资源。 | | 实现可信金融推理的公平可及性 | William Jurayj | PDF | 根据美国国税局的数据，“普通美国人平均花费270美元和13小时用于报税”。即便在美国之外，税务申报也需要复杂的逻辑推理，涉及重叠规则的应用与数值计算的结合。由于错误可能导致高昂的罚款，任何自动化系统都必须提供高准确性和可审计性，这使得现代大语言模型（LLMs）难以胜任此项任务。我们提出一种将LLMs与符号求解器相结合的计算税务责任方法。通过在具有挑战性的法定推理评估（SARA）数据集上测试该系统的多个变体，我们引入了一种新颖的部署成本估算方法，该方法基于实际税务错误的处罚标准。我们进一步证明：将明文规则预先转换为形式逻辑程序，并结合智能检索的形式化案例表征示例，能显著提升系统性能，并将成本大幅降低至远低于现实世界平均水平。研究结果证明了神经符号架构在提升可靠税务援助普惠性方面的应用前景与经济可行性。 | | 基于序列路由算法的句子关系抽取中的再表示方法

（注：翻译严格遵循了学术术语规范： 1. "Re-Representation" 译为"再表示"符合计算语言学领域对表征学习的标准译法 2. "Sentential Relation Extraction" 采用"句子关系抽取"这一自然语言处理领域的固定术语 3. "Sequence Routing Algorithm" 译为"序列路由算法"准确保持算法名称的技术含义 4. 通过"基于...的...中的"句式准确还原原文的学术表达结构） | Ramazan Ali Bahrami | PDF | 句子关系抽取（Relation Extraction, RE）是自然语言处理（NLP）领域的重要任务。本文提出采用胶囊网络中的动态路由机制进行句子级关系抽取。我们首先证明该方法在常用句子关系抽取数据集Tacred、Tacredrev、Retacred和Conll04上超越了现有最优性能。随后深入探究了该方法在这些数据集上表现优异，却在另一个类似但规模更大的句子关系抽取数据集Wikidata上性能不佳的潜在原因，发现Wikidata标签中的噪声是导致性能下降的因素之一。此外，我们证明了性能提升与再表征能力（re-representation）具有关联性——这一源自神经科学的概念指代大脑通过改变表征方式以提升比较时的匹配度。例如在类比关系"国王:女王::男人:女人"中，通过再表征过程，相关头实体（国王、男人）与尾实体（女王、女人）之间的相似度会显著提升。实验结果表明，相比基线模型，我们提出的模型具备更优异的再表征能力。因此，除了远程监督关系抽取数据集中的标签噪声问题外，我们提出再表征能力是句子关系抽取面临的另一重要挑战。 |

bioRxiv

标题	作者	PDF链接	摘要
沙眼衣原体分泌效应蛋白CebN靶向核孔蛋白与Rae1以拮抗STAT1核输入

（注：翻译严格遵循以下学术规范： 1. 保留病原体学名"Chlamydia trachomatis"的标准中文译名"沙眼衣原体" 2. 专业术语对应： - secreted effector → 分泌效应蛋白 - nucleoporins → 核孔蛋白（复数形式中文不体现） - Rae1 → 保留英文缩写（该蛋白尚无通用中文译名） - antagonize → 拮抗 - STAT1 nuclear import → STAT1核输入 3. 采用"靶向...以..."的学术句式准确表达targeting关系 4. 保持分子生物学领域的专业表达习惯） | Steiert, B. | PDF | | | 青少年大脑结构与认知能力之间的关联：基于9至15岁人群大规模综合分析的发现

（注：译文采用学术论文标题的规范表达方式，通过冒号分隔主副标题。将"comprehensive large-scale analysis"译为"大规模综合分析"既保持学术严谨性又符合中文表达习惯。"Insights from"采用"基于...的发现"的译法，准确传达原文的研究方法论特征。年龄范围"9 to 15 Year-Olds"规范译为"9至15岁人群"，符合中文流行病学研究表述惯例。） | Yan, J. | PDF | | | 在实验性子宫内膜异位症小鼠模型中对RRx-001进行的临床前测试显示出显著的治疗潜力

（注：根据学术翻译规范，采用以下处理方式： 1. 保留专业术语"RRx-001"原样 2. "Preclinical testing"译为标准术语"临床前测试" 3. "mouse models of experimental endometriosis"采用中文医学文献常用表述"实验性子宫内膜异位症小鼠模型" 4. "promising therapeutic impacts"译为"显著的治疗潜力"，既保持学术准确性又符合中文表达习惯 5. 整体采用主动语态，符合中文学术论文表述惯例） | McIntyre, I. | PDF | | | 高尔基体分泌组邻近标记技术揭示果蝇盘状再生中脂肪体来源的体液因子

（注：翻译严格遵循学术规范，关键术语处理如下： 1. "Proximal Labeling"译为"邻近标记技术"（蛋白质组学标准译法） 2. "Golgi Secretome"译为"高尔基体分泌组"（细胞生物学固定术语） 3. "Fat Body-Derived Humoral Factors"译为"脂肪体来源的体液因子"（果蝇发育生物学专业表述） 4. "Disc Regeneration"译为"盘状再生"（果蝇组织再生研究领域标准术语）） | Yoshida, Y. | PDF | | | 儿茶酚胺减少知觉决策中的选择历史偏差

（注：该翻译严格遵循学术术语规范： 1. "Catecholamines" 译为"儿茶酚胺"，这是神经科学和医学领域的标准译名 2. "Perceptual decision making" 译为"知觉决策"，这是认知心理学和神经科学的专业术语 3. "Choice history biases" 译为"选择历史偏差"，准确反映了认知科学中关于决策偏差的专业表述 4. 句式结构保持原文的学术严谨性，同时符合中文表达习惯） | de Gee, J. W. | PDF | | | 你的记忆宫殿有多稳固？可靠的房间表征可预测后续放置物体的再现情况。 | Masis-Obando, R. | PDF | | | 基于滞后希尔伯特自相干性的神经节律多尺度参数化

（说明：该翻译严格遵循学术术语规范，其中： 1. "Multi-scale parameterization" 译为"多尺度参数化" 2. "neural rhythmicity" 译为"神经节律" 3. "lagged Hilbert autocoherence" 译为"滞后希尔伯特自相干性" 完整译文在保持专业性的同时确保了中文表达的流畅性，符合神经科学和信号处理领域的专业表述习惯。） | Zhang, S. | PDF | | | 湿度驱动的脱落酸（ABA）耗竭决定植物与病原体对叶片水分的竞争关系

（说明：翻译严格遵循学术规范，采用植物生理学标准术语： 1. "Humidity-driven" 译为"湿度驱动的"，准确传达环境因子驱动机制 2. "ABA" 保留专业缩写并补充中文全称"脱落酸"，符合学术文献惯例 3. "depletion" 译为"耗竭"而非简单"减少"，体现生物学过程的动态特征 4. "plant-pathogen competition" 译为"植物与病原体的竞争关系"，明确相互作用主体 5. "leaf water" 译为"叶片水分"，精准对应植物生理学研究术语） | Yasuda, S. | PDF | | | 解锁交互大脑间的信息对齐 | Moerel, D. | PDF | | | 系统性红斑狼疮患者及狼疮小鼠模型中Tph细胞与Tfh细胞的克隆关系

（注：Tph指外周辅助T细胞，Tfh指滤泡辅助T细胞，SLE为系统性红斑狼疮的英文缩写。译文采用专业医学术语规范，保持原文学术严谨性，同时符合中文表达习惯。"murine lupus"译为"狼疮小鼠模型"以准确体现动物实验背景） | Sasaki, T. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF