2025-08-29 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
NeurIPS 2024隐形水印去除挑战赛冠军解决方案

（注：根据学术翻译规范，NeurIPS保持原名不译，因其为国际顶会标准称谓；"Invisible Watermark Removal Challenge"译为"隐形水印去除挑战赛"以准确反映技术内容；"First-Place Solution"采用"冠军解决方案"的表述符合中文竞赛术语习惯，同时保留学术严谨性。） | Fahad Shamshad | PDF | 内容水印技术是数字媒体认证与版权保护的重要工具。然而，现有水印技术是否能有效抵御对抗性攻击尚不明确。我们提出了NeurIPS 2024"消除隐形水印"挑战赛的夺冠解决方案，该方案通过多维度对抗知识测试来评估水印鲁棒性。本次挑战赛设立双赛道：黑盒赛道与米色盒赛道，其区分依据在于攻击方是否知晓水印嵌入方所采用的具体算法。针对米色盒赛道，我们采用基于自适应变分自编码器的规避攻击，通过测试时优化策略并结合CIELAB色彩空间的对比度恢复技术来保持图像质量。在黑盒赛道中，我们首先根据图像在空域或频域的伪影特征进行聚类分析，随后对每个聚类组别应用图像到图像的扩散模型，通过控制噪声注入并结合ChatGPT生成描述的语义先验，采用优化参数设置进行水印去除。实证评估表明，我们的方法在几乎不影响残余图像质量的前提下（图像质量保持率高达95.7%），成功实现了近乎完美的水印去除效果。我们希望这些攻击方法能推动更鲁棒的图像水印技术发展。 | | 着装与舞蹈：随心装扮，随乐起舞——技术前瞻

（注：译文采用学术性标题结构，通过冒号分层明确主题与副标题。"Dress up and Dance as You Like It" 意译为"随心装扮，随乐起舞"，既保留原意又体现中文韵律美。"Technical Preview" 译为"技术前瞻"符合学术语境，较"技术预览"更具前瞻性与专业性。整体译文在保持学术严谨性的同时，通过四字格与对仗结构增强中文可读性。） | Jun-Kun Chen | PDF | 我们推出Dress&Dance视频扩散框架，该框架能够生成1152x720分辨率、24帧/秒的高质量5秒虚拟试穿视频，展示用户穿着指定服装并按照给定参考视频动作移动的效果。本方案仅需单张用户图像，支持多种上装、下装及连体服饰，并可单次处理上下装同时试穿。框架的核心是CondNet——一种创新的条件网络，通过注意力机制统一多模态输入（文本、图像和视频），从而显著提升服装配准精度与运动保真度。CondNet采用多阶段渐进式训练方式，融合有限视频数据与更易获取的大规模图像数据集进行异构训练。Dress&Dance在性能上超越现有开源与商业解决方案，为用户提供高质量、灵活度卓越的虚拟试穿体验。 | | OneReward：基于多任务人类偏好学习的统一掩码引导图像生成

（注：翻译严格遵循以下原则： 1. 保留专业术语："Mask-Guided"译为"掩码引导"，"Multi-Task Human Preference Learning"译为"多任务人类偏好学习" 2. 保持技术准确性："Unified"译为"统一"体现系统整合特性 3. 符合中文论文标题规范：使用冒号分隔主副标题 4. 术语统一："Image Generation"标准译为"图像生成" 5. 保持学术严谨性：使用"基于"替代"通过"更符合中文论文表述习惯） | Yuan Gong | PDF | In this paper, we introduce OneReward, a unified reinforcement learning framework that enhances the [翻译失败] | | 提示到产品：通过双手操作实现生成式装配

（注：翻译严格遵循了学术术语的准确性： 1. "Prompt-to-Product" 译为"提示到产品"，保持生成式AI领域的术语特征 2. "Generative Assembly" 译为"生成式装配"，准确传达通过算法生成装配方案的技术内涵 3. "Bimanual Manipulation" 专业译为"双手操作"，特指机器人技术中双机械臂协同作业的技术范式） | Ruixuan Liu | PDF | 创建装配产品需要大量人工投入与专业领域知识，具体涉及：1）装配方案设计 2）实体产品构建。本文提出Prompt-to-Product自动化流程，能够根据自然语言指令生成真实可用的装配产品。我们以乐高积木作为装配平台，实现了积木组装结构的自动化生成流程。该系统根据用户设计要求，首先生成符合物理构建规则的积木设计方案，随后通过双机械臂机器人系统完成实体装配产品的构建，从而将用户想象转化为现实产物。通过全面用户研究，结果表明Prompt-to-Product能显著降低从创意构思到装配产品实现的门槛，并有效减少人工投入。 | | 论目标导向：基于大语言模型的多轮对话目标追踪与可视化研究

（注：翻译严格遵循学术规范，保留核心术语"Goal"的专业译法"目标"，"Large Language Models"译为"大语言模型"这一学界通用表述。动词"Tracking"和"Visualizing"采用动宾结构的专业译法"追踪"与"可视化"，介词短语"in Multi-Turn Dialogue"准确处理为"在多轮对话中"的状语结构，整体句式符合中文科技论文标题的简洁性要求。） | Adam Coscia | PDF | 随着与大型语言模型（LLM）的多轮对话日趋冗长复杂，用户如何更好地评估和审视其对话目标的进展？我们推出OnGoal——一种帮助用户更有效管理目标进度的LLM对话界面。该系统通过LLM辅助评估提供实时目标对齐反馈，结合示例解析评估结果，并呈现随时间推移的目标进展全景视图，使用户能更高效地驾驭复杂对话。通过对20名参与者开展写作任务的实验研究，我们将OnGoal与无目标追踪的基础对话界面进行对比评估。使用OnGoal的参与者在探索新提示策略以克服沟通障碍时，能以更少时间和精力达成目标，这表明目标追踪与可视化能增强LLM对话的参与度和韧性。我们的研究结果为未来LLM对话界面设计提供了重要启示：改进目标传达机制、降低认知负荷、增强交互性，并通过反馈机制提升LLM性能。 | | 多视角三维点追踪 | Frano Rajič | PDF | We introduce the first data-driven multi-view 3D point tracker, designed to track arbitrary points i [翻译失败] | | 长视频生成的上下文混合方法

（注：此处采用学术翻译的常见处理方式： 1. 保留核心术语"Mixture of Contexts"的专业性，译为"上下文混合" 2. "Long Video Generation"准确译为"长视频生成" 3. 补充"方法"二字使中文表达更完整，符合学术文献标题的表述习惯 4. 整体采用简洁专业的学术翻译风格，避免口语化表达） | Shengqu Cai | PDF | 长视频生成本质上是一个长上下文记忆问题：模型必须在不崩溃或偏离的情况下，长时间保留并检索显著事件。然而，将扩散变换器扩展生成长上下文视频时，从根本上受到自注意力机制二次方计算成本的限制，这使得内存和计算难以处理，且难以对长序列进行优化。我们将长上下文视频生成重新定义为内部信息检索任务，并提出了一种简单可学的稀疏注意力路由模块——上下文混合机制（Mixture of Contexts, MoC），作为有效的长期记忆检索引擎。在MoC中，每个查询动态选择少量信息块及强制锚点（描述文本、局部窗口）进行关注，并通过因果路由防止循环闭合。随着数据规模的扩大和路由的逐步稀疏化，模型将计算资源分配给显著历史信息，从而在数分钟的内容中保持身份特征、动作和场景的一致性。检索效率随之提升（接近线性缩放），这使得实际训练与合成成为可能，并在数分钟尺度上实现了记忆与一致性的涌现。 | | 假部件：AI生成深度伪造内容的新类别

（注：翻译说明： 1. "FakeParts" 采用意译"假部件"，既保留"fake"的核心含义，又通过"部件"体现其作为技术组件的特性 2. "a New Family" 译为"新类别"而非字面意义的"新家族"，更符合中文技术文献表述习惯 3. "AI-Generated DeepFakes" 统一采用行业标准译法"AI生成深度伪造内容"，其中"DeepFakes"作为专业术语保持技术社区通用译法 4. 整体采用学术论文标题常见的冒号分隔结构，保持原标题的学术严谨性） | Gaetan Brison | PDF | 我们提出"局部伪造"(FakeParts)——这是一种新型深度伪造技术，其特点是对真实视频的特定空间区域或时间片段进行精细的局部篡改。与完全合成的内容不同，这类从面部表情修改到物体替换及背景变更的部分篡改操作，能够与真实元素无缝融合，因而具有极强的欺骗性和检测难度。为弥补检测能力的重要空白，我们推出FakePartsBench——首个专门针对全谱系局部深度伪造的大规模基准数据集。该数据集包含超过2.5万个视频，提供像素级和帧级篡改标注，支持检测方法的全面评估。用户研究表明，与传统深度伪造相比，FakeParts使人类检测准确率下降超30%，在最先进的检测模型中也观察到类似的性能下降。这项工作揭示了当前深度伪造检测方法存在的紧迫漏洞，并为开发更强大的局部视频篡改检测方法提供了必要资源。 | | 实现可信金融推理的公平获取 | William Jurayj | PDF | 根据美国国税局的数据，“普通美国人平均花费270美元和13小时用于申报税务”。即便在美国之外，税务申报同样需要复杂的逻辑推理，涉及多重法规的交叠应用与数值计算。由于错误可能导致高昂的罚款，任何自动化系统都必须具备高准确性和可审计性，这使得现代大语言模型（LLMs）难以胜任此项任务。我们提出一种将大语言模型与符号求解器相结合的计算税务责任方法。通过在具有挑战性的法定推理评估（SARA）数据集上测试该系统的多种变体，我们引入了一种创新方法：基于实际税务错误处罚标准来估算系统部署成本。研究进一步表明，将明文法规的前期形式化逻辑转换与智能检索的形式化案例表征示例相结合，可显著提升系统性能，并将成本控制在远低于现实世界平均值的水平。我们的研究成果证明了神经符号架构在提升可靠税务援助服务普惠性方面的潜力与经济可行性。 | | 基于序列路由算法的句子关系抽取中的再表示方法

（注：翻译严格遵循学术术语规范： 1. "Re-Representation" 译为"再表示"符合计算语言学领域对表征学习的标准译法 2. "Sentential Relation Extraction" 采用"句子关系抽取"这一自然语言处理领域的固定术语 3. "Sequence Routing Algorithm" 译为"序列路由算法"保持算法名称的准确性 4. 介词结构"in...with..." 处理为"基于...的...中"符合中文科技论文标题的表述习惯） | Ramazan Ali Bahrami | PDF | 句子关系抽取（Relation Extraction, RE）是自然语言处理（NLP）领域的重要任务。本文提出采用胶囊网络中的动态路由机制进行句子级关系抽取。我们首先证明该方法在常用句子关系抽取数据集（Tacred、Tacredrev、Retacred和Conll04）上超越了现有最优性能。随后深入探究了该方法在这些数据集上表现优异，却在另一个类似但规模更大的句子关系抽取数据集Wikidata上性能不佳的潜在原因，并确定Wikidata标签中的噪声是影响性能的因素之一。此外，我们发现性能提升与再表征能力存在关联性——这一源自神经科学的概念指代大脑通过改变表征方式以提升比对时的匹配度。例如在类比关系"国王:女王::男人:女人"中，通过再表征过程，相关头实体（国王、男人）与尾实体（女王、女人）之间的相似度会显著提升。实验结果表明，相比基线模型，我们提出的模型具备更优异的再表征能力。基于此，我们提出除了远程监督关系抽取数据集中的标签噪声问题外，再表征能力也是句子关系抽取面临的重要挑战。 |

bioRxiv

标题	作者	PDF链接	摘要
星形胶质细胞GABA转运调控时间信息处理的精确性

（注：该翻译严格遵循神经科学领域术语规范： 1. "Astrocytic" 专业译为"星形胶质细胞的"而非"星细胞的" 2. "GABA transport" 采用标准译法"GABA转运"（非"运输"） 3. "fidelity" 在神经科学语境下译为"精确性"（非"保真度"） 4. "temporal processing" 译为"时间信息处理"以准确反映神经时序编码概念） | Wagner, V. | PDF | | | 细胞周期蛋白CLB2的mRNA定位与蛋白质合成将细胞周期进程与芽殖生长相连接

（注：翻译严格遵循学术规范： 1. "Developmental Dynamics"译为"发育动力学特征"以体现动态过程与特性 2. "Cardiogenesis"采用专业术语"心脏发育"而非字面直译 3. "multi-omic"译为当前学界通用表述"多组学" 4. "Trisomy 21"保留医学标准命名"21三体综合征" 5. 通过"参考"与"异常表现"的对应措辞，准确传达reference与disruption的学术内涵） | Cranley, J. | PDF | | | 互补性脊椎动物Wac模型表现出与德桑托-希纳维综合征相关的表型特征

（注：根据学术翻译规范： 1. 保留专业术语"Wac"不译 2. "DeSanto-Shinawi Syndrome"采用医学文献标准译名"德桑托-希纳维综合征" 3. "Complimentary"在此语境下译为"互补性"以符合遗传学术语 4. "phenotypes"准确译为"表型特征"以保持生物学概念完整性） | Lee, K.-H. | PDF | | | DNA O-MAP技术揭示了与特定基因组位点相关的分子邻近关系

（注：根据分子生物学领域术语规范，"molecular neighborhoods"译为"分子邻近关系"以体现其空间构象特征；"uncovers"采用"揭示"符合学术表达习惯；"specific genomic loci"译为"特定基因组位点"是领域标准译法） | Liu, Y. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF