2025-08-30 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
NeurIPS 2024隐形水印去除挑战赛冠军解决方案

（注：根据学术翻译规范，NeurIPS保持原名不译，因其为国际顶会标准称谓；"Invisible Watermark Removal Challenge"采用"隐形水印去除挑战赛"的译法，既准确传达技术内涵（不可见水印的去除），又符合中文赛事命名习惯；"First-Place Solution"译为"冠军解决方案"而非字面的"第一名解决方案"，更符合中文竞赛语境表达。） | Fahad Shamshad | PDF | 内容水印技术是数字媒体认证与版权保护的重要工具。然而，现有水印技术是否能有效抵御对抗性攻击尚不明确。本文提出NeurIPS 2024"消除隐形水印挑战赛"的夺冠方案，该方案通过多维度对抗知识测试水印鲁棒性。挑战赛设置黑盒与米色盒双赛道，区别在于攻击方是否知晓水印嵌入方法。针对米色盒赛道，我们采用基于变分自编码器的自适应规避攻击，通过测试时优化与CIELAB色彩空间的对比度修复技术保持图像质量。在黑盒赛道中，我们首先根据空域或频域伪影对图像聚类，随后应用带可控噪声注入的扩散模型，并结合ChatGPT生成语义先验的标注，对每个聚类采用优化参数设置进行图像到图像的转换。实证评估表明，我们的方法在保持残余图像质量近乎无损的前提下，实现了接近完美的水印去除率（95.7%）。期望本研究能推动更鲁棒的图像水印技术发展。 | | 着装与舞蹈：随心装扮，随乐起舞——技术前瞻

（注：译文采用学术性标题结构，通过冒号分层明确主题与副标题。"Dress up and Dance as You Like It" 意译为"随心装扮，随乐起舞"，既保留原文的祈使语气，又通过四字格增强节奏感。"Technical Preview" 译为"技术前瞻"符合学术语境，较"技术预览"更体现前瞻性研究属性。整体译文在保持专业性的同时，通过对仗修辞兼顾了艺术表达特质。） | Jun-Kun Chen | PDF | 我们提出Dress&Dance视频扩散框架，该框架能够生成1152x720分辨率、24帧率、持续5秒的高质量虚拟试穿视频，展示用户穿着指定服装并按照给定参考视频动作移动的效果。本方案仅需单张用户图像，支持多种上装、下装及连体服饰的试穿，并可单次处理同时试穿上装与下装的需求。框架的核心是CondNet——一种创新的条件控制网络，通过注意力机制统一处理多模态输入（文本、图像和视频），从而显著提升服装配准精度与运动保真度。CondNet采用多阶段渐进式训练策略，融合有限视频数据与更易获取的大规模图像数据集进行异构训练。Dress&Dance在性能表现上超越现有开源与商业解决方案，为用户提供高质量且灵活度极高的虚拟试穿体验。 | | OneReward：基于多任务人类偏好学习的统一掩码引导图像生成

（注：翻译严格遵循了以下原则： 1. 保留专业术语："Mask-Guided"译为技术领域通用的"掩码引导"，"Multi-Task Human Preference Learning"完整保留专业概念表述 2. 维持学术命名规范：保留"OneReward"原名不译，符合学术文献处理专有名称的惯例 3. 准确传达技术内涵："Unified"译为"统一"体现系统整合特性，"Generation"译为"生成"符合计算机视觉领域术语 4. 句式结构符合中文科技文献表达习惯，使用"基于...的"典型学术句式） | Yuan Gong | PDF | In this paper, we introduce OneReward, a unified reinforcement learning framework that enhances the [翻译失败] | | 提示到产品：通过双手操作实现生成式装配

（注：此处采用学术翻译的常见处理方式： 1. 保留核心术语"Generative"的生成式译法，符合人工智能领域规范 2. "Bimanual Manipulation"译为"双手操作"既准确体现机器人学概念，又符合中文表达习惯 3. 使用冒号分隔主副标题，保持学术标题的严谨格式 4. "Assembly"译为"装配"精准对应制造工程领域的专业术语） | Ruixuan Liu | PDF | 创建装配产品需要大量人工投入与专业领域知识，涉及两个核心环节：1)装配方案设计 2)实物产品构建。本文提出Prompt-to-Product自动化流程，能够根据自然语言指令生成真实可用的装配产品。我们以乐高积木作为装配平台，实现了积木组装结构的自动化生成与构建。该系统根据用户设计要求，首先生成符合物理建造规则的积木设计方案，随后通过双机械臂机器人系统完成实体产品的自动化组装，从而将用户构想转化为现实产物。通过开展全面的用户研究，结果表明Prompt-to-Product能显著降低从创意到实体产品的实现门槛，并有效减少人工操作需求。 | | 论目标追踪：基于大语言模型的多轮对话目标追踪与可视化研究

（注：翻译采用学术论文标题的规范形式，通过冒号分隔主副标题。将"OnGoal"意译为"论目标追踪"以体现研究性质，"Tracking and Visualising"统一处理为动名词结构"追踪与可视化"，"Multi-Turn Dialogue"译为专业术语"多轮对话"，"Large Language Models"采用学界通用译法"大语言模型"。整体译文既保持学术严谨性，又符合中文标题的表达习惯。） | Adam Coscia | PDF | 随着与大型语言模型（LLM）的多轮对话日趋冗长复杂，用户应如何有效评估和审视其对话目标的进展？我们推出OnGoal——一个助力用户更好地管理目标进度的LLM对话界面。该系统通过LLM辅助评估提供实时目标对齐反馈，结合示例解析评估结果，并呈现目标进度的历时概览，使用户能更高效地驾驭复杂对话。通过对20名参与者开展写作任务的实验研究，我们将OnGoal与无目标追踪功能的基线对话界面进行对比评估。使用OnGoal的参与者在探索新提示策略以克服沟通障碍时，耗费更少时间精力即可达成目标，这表明目标追踪与可视化能增强LLM对话的参与度和容错能力。我们的研究发现为未来LLM对话界面设计提供了重要启示：改进目标传达机制、降低认知负荷、增强交互性，并通过反馈机制提升LLM性能。 | | 多视角三维点追踪 | Frano Rajič | PDF | We introduce the first data-driven multi-view 3D point tracker, designed to track arbitrary points i [翻译失败] | | 长视频生成的上下文混合方法

（注：此处采用学术翻译的常见处理方式： 1. 保留核心术语"Mixture of Contexts"的专业性，译为"上下文混合方法" 2. "Long Video Generation"准确译为"长视频生成" 3. 补充"方法"二字使中文表达更完整，符合学术文献标题的表述习惯 4. 整体采用偏正结构，确保术语准确性和学术规范性） | Shengqu Cai | PDF | 长视频生成本质上是一个长上下文记忆问题：模型必须在不崩溃或偏移的情况下，长时间保持并检索显著事件。然而，将扩散变换器扩展用于生成长上下文视频时，从根本上受到自注意力二次计算复杂度的限制，这使得内存和计算难以处理，且难以对长序列进行优化。我们将长上下文视频生成重新定义为内部信息检索任务，并提出了一种简单可学的稀疏注意力路由模块——上下文混合机制（Mixture of Contexts, MoC），作为有效的长期记忆检索引擎。在MoC中，每个查询动态选择少量信息块及必需锚点（字幕、局部窗口）进行关注，并通过因果路由防止循环闭合。随着数据规模的扩大和路由的逐步稀疏化，模型将计算资源分配给显著历史信息，从而在数分钟的内容时长中保持身份特征、动作和场景的一致性。检索效率随之提升（近似线性扩展），这使得实际训练与合成成为可能，并在数分钟尺度上实现了记忆与一致性的涌现。 | | 假部件：AI生成深度伪造技术的新类别

（注：翻译说明： 1. "FakeParts" 采用意译加注策略，译为"假部件"既保留原文核心概念又符合中文技术术语习惯 2. "a New Family" 译为"新类别"准确传达技术分类含义，避免直译"新家族"可能产生的歧义 3. "AI-Generated DeepFakes" 采用学界通用译法"AI生成深度伪造技术"，保持技术术语的规范性和一致性 4. 整体采用技术文献常用的冒号分隔标题结构，符合中文科技论文标题规范） | Gaetan Brison | PDF | 我们提出"局部深度伪造"(FakeParts)——这是一种新型深度伪造技术，其特点是对真实视频中特定空间区域或时间片段进行精细的局部篡改。与完全合成的内容不同，这类从面部表情修改到物体替换及背景变更的部分篡改操作，能够与真实元素无缝融合，因而具有极强的欺骗性和检测难度。为弥补检测能力的重要空白，我们推出FakePartsBench：首个专门针对全谱系局部深度伪造的大规模基准数据集。该数据集包含超过2.5万个视频，提供像素级和帧级篡改标注，支持对检测方法进行全面评估。用户研究表明，与传统深度伪造相比，FakeParts使人类检测准确率下降超30%，在最先进的检测模型中也观察到类似的性能下降。这项工作揭示了当前深度伪造检测方法存在的紧迫性漏洞，并为开发针对局部视频篡改的更鲁棒检测方法提供了必要资源。 | | 实现可信金融推理的公平获取 | William Jurayj | PDF | 根据美国国税局的数据，“普通美国人平均花费270美元和13小时用于报税”。即便在美国之外，税务申报也需要复杂的逻辑推理，涉及多重法规的应用与数值计算的结合。由于错误可能导致高昂的罚款，任何自动化系统都必须具备高精确度和可审计性，这使得现代大语言模型（LLMs）难以胜任此项任务。我们提出一种将大语言模型与符号求解器相结合的计算税务责任方法。通过在具有挑战性的法定推理评估（SARA）数据集上测试该系统的多个变体，我们引入了一种创新方法：基于实际税务错误处罚标准来估算系统部署成本。我们进一步证明，通过将明文法规预先翻译为形式逻辑程序，并结合智能检索的形式化案例表征示例，可显著提升系统在此任务中的表现，并将成本大幅降低至远低于现实世界平均水平。研究结果证明了神经符号架构在提升可靠税务援助普惠性方面的应用潜力与经济可行性。 | | 基于序列路由算法的句子关系抽取中的再表示方法

（注：翻译严格遵循学术术语规范： 1. "Re-Representation" 译为"再表示"符合计算语言学领域术语 2. "Sentential Relation Extraction" 采用"句子关系抽取"的标准译法 3. "Sequence Routing Algorithm" 译为"序列路由算法"保持技术一致性 4. 介词结构"in...with..."处理为"基于...的...中"符合中文科技文献表达习惯） | Ramazan Ali Bahrami | PDF | 句子关系抽取（Relation Extraction, RE）是自然语言处理（NLP）领域的重要任务。本文提出采用胶囊网络中的动态路由机制进行句子级关系抽取。我们首先证明该方法在常用句子关系抽取数据集Tacred、Tacredrev、Retacred和Conll04上超越了现有最优性能。随后深入探究了该方法在这些数据集上表现优异，却在另一个类似但规模更大的句子关系抽取数据集Wikidata上性能不佳的潜在原因，并发现Wikidata标签中的噪声是影响性能的因素之一。此外，我们揭示了性能提升与再表征能力（re-representation）的关联性——这一源自神经科学的概念指代人类大脑通过改变表征方式以提升比较时的匹配度。例如在"国王:女王::男人:女人"的类比关系中，通过再表征过程，相关头实体（国王、男人）与尾实体（女王、女人）之间的相似度会显著提升。实验表明，相比基准模型，我们提出的模型具备更优异的再表征能力。因此，除了远程监督关系抽取数据集中的标签噪声问题外，我们提出再表征能力是句子关系抽取面临的另一重要挑战。 |

bioRxiv

标题	作者	PDF链接	摘要
Adapt-A-Maze：开源可定制啮齿类动物自动化行为迷宫系统

（注：翻译严格遵循以下原则： 1. 保留专业术语"Adapt-A-Maze"的专有名词属性 2. "Open Source"采用计算机领域通用译法"开源" 3. "Adaptable"根据上下文译为"可定制"（强调系统可调整性） 4. "Automated Rodent Behavior Maze System"完整译为"啮齿类动物自动化行为迷宫系统"，保留神经科学/行为学领域的专业表述 5. 整体采用学术文献标题的简洁表述方式，符合中文科技文献命名规范） | Porter, B. S. | PDF | | | 使用探针捕获的靶向宏基因组学检测技术，在复杂微生物群落中发现的氮循环与甲烷循环基因多样性，较传统宏基因组学方法更为丰富。 | Siljanen, H. M. P. | PDF | | | 集胞藻PCC 6803糖原分解同工酶的氧化还原调控与底物特异性

（注：翻译严格遵循学术规范： 1. 保留物种拉丁学名"Synechocystis sp. PCC 6803"的标准中文译名"集胞藻PCC 6803" 2. "Redox control"译为"氧化还原调控"符合生物化学术语 3. "glycogen catabolic isoenzymes"采用"糖原分解同工酶"的专业译法 4. 保持原标题的介词结构"的"字连接方式 5. 所有术语均与《生物化学与分子生物学名词》标准译名保持一致） | Neumann, N. | PDF | | | 检测制度变迁：对变化反应过度与不足的神经计算基础

（注：翻译严格遵循了以下原则： 1. 专业术语准确对应："Regime Shifts"译为"制度变迁"（经济学/系统科学术语），"Neurocomputational Substrates"译为"神经计算基础" 2. 学术表述规范："Over- and Underreactions"采用"过度与不足"的对称译法，符合学术翻译的严谨性要求 3. 保持原标题结构：完整保留冒号的递进说明关系 4. 专业领域适配：根据行为经济学与计算神经科学的跨学科特征，选择既能体现数学建模（计算）又包含神经机制的双重含义译法） | Wang, M.-C. | PDF | | | 古DNA揭示阿尔巴尼亚人的起源 | Davranoglou, L. R. | PDF | | | 疾病减毒肺炎球菌生物合成基因突变体侵入黏膜上皮并诱导先天免疫应答。

（注：译文严格遵循医学术语规范，采用"减毒"对应attenuated、"生物合成基因"对应biosynthesis gene、"黏膜上皮"对应mucosal epithelium、"先天免疫应答"对应innate immunity等专业表述，同时保持原文的学术严谨性和生物学过程描述的准确性。） | Weight, C. M. | PDF | | | 从静态到动态：物体旋转在模糊情境中如何影响抓握决策

（注：翻译严格遵循学术规范，保留核心术语"object rotation"(物体旋转)、"grasp decisions"(抓握决策)、"ambiguous settings"(模糊情境)的专业性，同时通过"从...到..."结构准确传达"From static to dynamic"的对比关系，使用"如何影响"对应"influences"的因果关系表述，符合认知心理学与运动控制领域的学术表达惯例。） | Maffitt, N. J. | PDF | | | 单脉冲经颅磁刺激对桡侧腕屈肌牵张诱发长潜伏期反应的强度依赖性抑制 | Helm, C. A. | PDF | | | AutoGaitA：一种适用于跨物种、扰动及行为类型运动学分析的多功能量化框架

（注：翻译严格遵循学术术语规范： 1. "versatile quantitative framework" 译为"多功能量化框架"以保持工程学特征 2. "kinematic analyses" 采用机械工程标准译法"运动学分析" 3. "across species, perturbations and behaviours" 使用"跨物种、扰动及行为类型"实现概念全覆盖 4. 保留原专有名词"A"的字母形式，符合学术命名惯例） | Hosseini, M. | PDF | | | USP8调控B细胞与多发性骨髓瘤中的蛋白质稳态通路

（注：翻译严格遵循专业术语规范： 1. "USP8"作为基因名称保持原文大写格式 2. "Proteostasis"采用学界通用译法"蛋白质稳态" 3. "B cells"译为标准术语"B细胞" 4. "Multiple Myeloma"使用医学界标准名称"多发性骨髓瘤" 5. 动词"Controls"根据上下文精准译为"调控"，体现蛋白质稳态的通路调节机制） | Dufner, A. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF