2025-08-12 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
基于图像的流体模拟中隐式物理模型的学习

（翻译说明： 1. "Implicit Physics Model"译为"隐式物理模型"，保留计算机图形学领域专业术语 2. "Image-based"采用"基于图像的"这一标准译法，符合计算机视觉领域术语规范 3. "Fluid Simulation"译为"流体模拟"，沿用计算流体力学(CFD)领域的通用译名 4. 整体采用"定语+中心词"的中文语序结构，符合学术论文标题的翻译规范 5. 添加"中"字以明确研究场景，使中文表达更完整准确 6. 使用"学习"而非"学习法/学习方法"，保持与原文"Learning"的动词属性一致） | Emily Yue-Ting Jia | PDF | 人类具有从单张静态图像中想象四维场景（包含运动与三维几何结构）的非凡能力，这种能力源于对相似场景的长期观察积累以及对物理规律的直觉理解。本文旨在神经网络中复现这种能力，并特别聚焦于自然流体图像。现有方法通常采用简化的二维运动估计器来实现图像动画化，其运动预测往往违背物理原理，导致生成动画缺乏真实感。我们提出了一种从单幅图像生成符合物理规律的四维场景动画的新方法：通过构建物理信息神经网络来预测每个表面点的运动轨迹，其训练过程受到源自纳维-斯托克斯方程等基础物理原理的损失函数约束。为捕捉外观特征，我们从输入图像及其估计深度中预测基于特征的三维高斯分布，随后利用预测运动进行动态化处理，并支持任意摄像机视角的渲染。实验结果表明，本方法在生成物理合理动画方面效果显著，较现有方法展现出明显的性能提升。项目主页详见https://physfluid.github.io/。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "4D scenes"译为"四维场景"（时间+三维空间） 2. "physics-informed neural network"采用学界通用译法"物理信息神经网络" 3. "Navier-Stokes equations"保留专业名称"纳维-斯托克斯方程" 4. "3D Gaussians"译为"三维高斯分布"以保持数学概念准确性 5. 被动语态转换为中文主动句式（如"are then animated"处理为"利用...进行动态化处理"） 6. 长难句拆分重组（如原文最后实验部分拆分为结果陈述+比较说明）） | | ReferSplat: 基于3D高斯泼溅的参考目标分割

（翻译说明： 1. 专业术语处理： - "3D Gaussian Splatting" 译为"3D高斯泼溅"，这是计算机图形学领域的标准译法，指代一种基于高斯核的三维渲染技术 - "Referring Segmentation" 译为"参考目标分割"，准确表达根据参考信息进行特定目标分割的技术内涵

技术名称保留：
"ReferSplat" 作为方法名称保留不译，符合学术惯例
冒号后的副标题采用中文破折号规范格式
整体结构：
保持原标题的简洁性和技术准确性
使用"基于..."的句式明确技术基础
通过专业术语的统一译法确保学术严谨性） | Shuting He | PDF | 我们提出"指涉性3D高斯泼溅分割"（Referring 3D Gaussian Splatting Segmentation，R3DGS）这一新任务，其目标是根据自然语言描述（通常包含空间关系或物体属性）在3D高斯场景中分割目标物体。该任务要求模型能够识别在新视角下可能被遮挡或不可见的新描述对象，这对3D多模态理解提出了重大挑战。发展这种能力对推进具身人工智能至关重要。为支持该领域研究，我们构建了首个R3DGS数据集Ref-LERF。分析表明，3D多模态理解和空间关系建模是R3DGS面临的核心难题。为此，我们提出ReferSplat框架，该框架在空间感知范式下显式建模3D高斯点与自然语言表达的关系。ReferSplat在新提出的R3DGS任务和3D开放词汇分割基准测试中均实现了最先进性能。数据集与代码已开源：https://github.com/heshuting555/ReferSplat。

（注：根据学术翻译规范： 1. 专业术语采用"指涉性"而非"参考性"更符合认知科学术语体系 2. "Splatting"译为"泼溅"是计算机图形学标准译法 3. 保持"3D Gaussian"原文形式符合中文计算机领域术语使用习惯 4. "open-vocabulary"译为"开放词汇"是自然语言处理领域通用译法 5. 技术框架名称ReferSplat保留原文不翻译符合惯例） | | StableAvatar：无限时长音频驱动虚拟人生成视频技术

（翻译说明： 1. 专业术语处理： - "StableAvatar" 保留品牌名不译，符合技术命名惯例 - "Audio-Driven" 译为"音频驱动"，准确传达技术原理 - "Avatar Video Generation" 译为"虚拟人生成视频"，其中： * "Avatar" 采用行业通用译法"虚拟人" * "Generation" 在计算机图形学领域规范译为"生成"

技术特性表达：
"Infinite-Length" 译为"无限时长"，突出技术突破点
增译"技术"二字，符合中文论文标题习惯
结构优化：
使用冒号替代原标题的间隔号，更符合中文标题规范
调整语序为"技术实现方式+技术效果"的逻辑结构
学术规范性：
保持与计算机图形学领域术语体系一致
译文与CVPR/ICCV等顶会论文的中文标题风格统一） | Shuyuan Tu | PDF | Current diffusion models for audio-driven avatar video generation struggle to synthesize long videos [翻译失败] | | Cut2Next：基于上下文调优的下一镜头生成技术

翻译说明： 1. "Cut2Next"作为专有技术名称采用音意结合译法，保留"Cut"（剪辑）的影视术语概念，同时音译"Next"体现技术连续性 2. "Generating Next Shot"译为"下一镜头生成"，准确传达影视制作领域的专业术语"shot"（镜头）的概念 3. "In-Context Tuning"译为"上下文调优"，符合计算机视觉领域对context一词的技术处理惯例，同时"调优"比直译"调整"更准确体现机器学习中的tuning过程 4. 整体采用"技术"作为中心词，比"方法/方案"更能体现该研究的工程实现特性 5. 冒号前后结构保持学术论文标题的严谨格式，冒号前突出技术名称，冒号后说明技术原理 | Jingwen He | PDF | 高效的多镜头生成需要具有目的性、电影化的转场效果以及严格的镜头连续性。然而现有方法往往仅关注基础视觉一致性，忽视了推动叙事流动的关键剪辑模式（如正反打镜头、插入镜头等），导致生成内容虽具视觉连贯性，却缺乏叙事深度与真正的电影艺术完整性。为此，我们提出"下一镜头生成"（NSG）框架：在严格遵循电影连续性的前提下，合成符合专业剪辑范式的高质量后续镜头。

我们的Cut2Next框架采用扩散变换器（DiT）架构，通过创新性的"分层多提示策略"进行上下文调优。该策略运用关系提示词定义整体语境与镜头间剪辑风格，配合独立提示词明确单镜头内容与摄影属性，共同引导模型生成符合电影叙事的后续镜头。框架还包含两项核心创新：无需新增参数的"上下文感知条件注入"（CACI）机制与"分层注意力掩码"（HAM）技术，有效整合多层次控制信号。

我们构建了包含分层提示词的大规模RawCuts数据集与精编版CuratedCuts数据集，并开发CutBench评估体系。实验表明Cut2Next在视觉一致性与文本保真度方面表现优异。关键性用户调研显示，该框架因精准遵循目标剪辑模式与整体镜头连续性而获得显著偏好，验证了其生成高质量、叙事性强且电影语言连贯的后续镜头的能力。 | | 《Jinx：用于探测对齐失效的无限大语言模型》

（翻译说明： 1. 保留专有名词"Jinx"不译，作为工具名称更符合技术文献惯例 2. "Unlimited LLMs"译为"无限大语言模型"，其中： - "Unlimited"采用语境化译法，突出其不受限制的特性 - "LLMs"使用学界通用译名"大语言模型" 3. "Probing Alignment Failures"译为"探测对齐失效"： - "Probing"译为"探测"符合机器学习领域术语 - "Alignment Failures"采用人工智能安全领域的标准译法"对齐失效" 4. 整体采用学术标题的简洁风格，使用冒号分隔主副标题结构 5. 通过书名号强调这是系统/工具名称，符合中文技术文献规范） | Jiahao Zhao | PDF | 无限型（或称纯辅助型）语言模型在训练过程中未施加安全对齐约束，因而从不拒绝用户查询。这类模型被顶尖AI公司广泛用作红队测试和对齐评估的内部工具。例如，当安全对齐模型产生与无限型模型类似的有害输出时，即表明存在需要重点关注的对齐失效现象。尽管此类模型在对齐评估中具有关键作用，但研究界至今无法获取相关资源。

我们推出Jinx——基于主流开源权重大语言模型构建的纯辅助型变体。该模型在保留基础模型推理与指令遵循能力的同时，对所有查询均不作拒绝或安全过滤处理。Jinx为研究人员提供了易用工具，可用于：探测对齐失效、评估安全边界、系统研究语言模型安全中的失效模式。 | | ODYSSEY：面向长时程任务的开源四足机器人开放世界探索与操控系统

（翻译说明：
1. "Open-World"译为"开放世界"，符合机器人学领域对未知动态环境的通用表述
2. "Quadrupeds"明确译为"四足机器人"，区别于生物学语境下的"四足动物"
3. "Exploration and Manipulation"采用"探索与操控"的标准化机器人学术语对译
4. "Long-Horizon Tasks"译为"长时程任务"，准确表达长期持续任务特性
5. 保留英文项目名"ODYSSEY"不翻译，遵循技术系统命名惯例
6. 整体采用"系统"作为隐性中心词，符合中文技术文献表述规范） | Kaijun Wang | PDF | Language-guided long-horizon mobile manipulation has long been a grand challenge in embodied semanti [翻译失败] | | VGGSounder：基础模型的视听评估系统

（翻译说明： 1. 保留原项目名称"VGGSounder"作为专有名词不译 2. "Audio-Visual Evaluations"译为"视听评估"，采用学术领域标准术语 3. "Foundation Models"译为"基础模型"，符合人工智能领域对大规模预训练模型的规范译法 4. 整体采用"系统"作为隐性补充，更符合中文技术文献命名习惯 5. 冒号使用保持原文格式，符合中文标点规范） | Daniil Zverev | PDF | 视听基础模型的兴起凸显了可靠评估其多模态理解能力的重要性。VGGSound数据集作为视听分类评估基准被广泛采用，但我们的分析发现其存在标注不全、类别部分重叠及模态未对齐等局限性，导致对听觉与视觉能力的评估存在偏差。为此，我们推出VGGSounder——一个基于VGGSound扩展的、经全面重新标注的多标签测试集，专门用于评估视听基础模型。该数据集具备精细的模态标注功能，可支持针对特定模态性能的精准分析。此外，我们通过新提出的模态混淆度量指标，揭示了模型在增加输入模态时性能下降的局限性。

（翻译说明： 1. 专业术语处理："foundation models"译为"基础模型"，"multi-modal"译为"多模态"，"benchmark"译为"基准"，均采用计算机视觉领域标准译法 2. 技术概念保留：保留"VGGSound"和"VGGSounder"原始命名，首次出现时标注英文原名 3. 句式重构：将英语长句拆分为符合中文表达习惯的短句，如将"including..."从句处理为独立分句 4. 被动语态转换："is commonly used"译为主动式"被广泛采用" 5. 学术表达规范："modality confusion metric"译为"模态混淆度量指标"，符合IEEE论文翻译惯例 6. 逻辑显化：通过破折号和括号实现原文隐含的逻辑关系显性化表达） | | 基于大语言模型评判的中文心理健康对话安全性评估研究

（说明：翻译要点解析： 1. "Exploring"译为"研究"更符合中文论文标题习惯 2. "Safety Alignment Evaluation"译为"安全性评估"并前置，突出研究重点 3. "LLM-as-Judge"创造性译为"大语言模型评判"，既保留技术特征又符合中文表达 4. 通过"基于...的"结构整合长定语，保持学术严谨性 5. "Mental Health Dialogues"专业译为"心理健康对话"，准确传递领域特征 6. 整体采用"研究对象+方法"的中文标题范式，字数控制在25字内） | Yunna Cai | PDF | Evaluating the safety alignment of LLM responses in high-risk mental health dialogues is particularl [翻译失败] | | LL3M：大型语言三维建模器

（翻译说明：
1. "Large Language" 译为"大型语言"，符合计算机领域对LLM（大语言模型）的既定译法
2. "3D Modelers" 采用"三维建模器"的学术规范译法，区别于非专业场景的"3D模型制作工具"等表述
3. 保留首字母缩写"LL3M"不译，维持技术术语的专有性
4. 冒号使用中文全角符号，符合中文排版规范） | Sining Lu | PDF | We present LL3M, a multi-agent system that leverages pretrained large language models (LLMs) to gene [翻译失败] | | OMGSR：真实世界图像超分辨率仅需单中间步引导

（翻译说明： 1. 保留英文缩写"OMGSR"作为技术名称，符合计算机视觉领域论文命名惯例 2. "mid-timestep guidance"译为"中间步引导"，准确表达扩散模型中时间步的核心概念 3. "real-world"译为"真实世界"而非"现实世界"，更符合计算机视觉领域对非合成数据的标准表述 4. 采用"仅需"的表述方式，突出论文方法的高效性特点 5. 整体句式结构保持原文的学术简洁性，同时符合中文技术论文标题的表述习惯） | Zhiqiang Wu | PDF | Denoising Diffusion Probabilistic Models (DDPM) and Flow Matching (FM) generative models show promis [翻译失败] |

bioRxiv

标题	作者	PDF链接	摘要
【学术译文】
非经典调控的Hsp70时序异位表达驱动果蝇上皮肿瘤的克隆性扩张与侵袭

【关键术语解析】
1. Non-canonically regulated - 非经典调控（指独立于经典信号通路的调控机制）
2. Heterochronic expression - 时序异位表达（发育生物学术语，指基因在非常规时间窗口的异常表达）
3. Clonal expansion - 克隆性扩张（肿瘤学特征，指单一突变细胞系的增殖优势）
4. Epithelial tumors - 上皮肿瘤（源自上皮组织的肿瘤类型）

【翻译说明】
1. 保留"Hsp70"专业缩写，符合国内学术惯例
2. "Drives"译为"驱动"准确体现分子机制的因果性
3. 采用"时序异位表达"既保留发育生物学概念（heterochrony），又明确表达异常性
4. 增补"性"字（克隆性扩张）符合中文肿瘤学表述规范
5. 通过破折号连接长定语，兼顾学术严谨性与中文可读性

（翻译说明： 1. "Joint modelling"译为"联合建模"，准确体现统计学中的多变量联合分析含义 2. "whole genome sequence data"译为"全基因组序列数据"，符合遗传学专业术语规范 3. "human height"译为"人类身高"，采用生物测量学标准译法 4. "approximate message passing"译为"近似消息传递"，忠实保留计算机科学/统计学中的算法名称 5. 语序调整为中文习惯的"通过...对...进行..."结构，既保持专业严谨性又符合中文表达逻辑 6. 使用"建模"而非"模型构建"，更符合统计遗传学领域的术语使用习惯） | Depope, A. | PDF | | | 基于三维催化域拓扑结构的新型原核生物DNA甲基转移酶分类系统

（翻译说明： 1. "Novel"译为"新型"以强调其创新性 2. "Prokaryotic"采用专业术语"原核生物"而非"原核的" 3. "DNA Methyltransferases"保留专业术语"DNA甲基转移酶" 4. "3D Catalytic Domain Topology"译为"三维催化域拓扑结构"，其中： - "3D"译为"三维"而非"3D"数字形式 - "Topology"采用数学专业术语"拓扑结构" 5. 整体采用偏正结构的名词短语，符合中文论文标题习惯 6. 补充"系统"二字使中文表达更完整 7. 保持原标题的学术严谨性和信息密度） | Samokhina, M. | PDF | | | 全球珊瑚基因组脆弱性揭示近期珊瑚礁衰退成因

（翻译说明： 1. "Global"译为"全球"以保持地理尺度准确性 2. "coral genomic vulnerability"译为"珊瑚基因组脆弱性"完整保留遗传学术语 3. "explains"译为"揭示...成因"采用"揭示+名词化"结构，符合中文科技论文表达习惯 4. "reef losses"译为"珊瑚礁衰退"比直译"损失"更专业，准确反映生态系统退化过程 5. 整体采用主谓宾结构（脆弱性-揭示-成因），符合中文标题简洁性要求 6. 添加连接词"近期"明确时间维度，增强学术严谨性） | Selmoni, O. | PDF | | | 抑制PRMT活性可增强同源重组功能正常的卵巢癌和乳腺癌细胞对PARP抑制剂的敏感性

（翻译说明： 1. "Repression"译为"抑制"符合生化领域术语规范 2. "PRMT activities"保留英文缩写并补充"活性"使概念完整 3. "homologous recombination-proficient"译为"同源重组功能正常的"准确反映其分子生物学含义 4. "sensitize...to..."译为"增强...对...的敏感性"符合药理学表达习惯 5. 专业术语"PARP抑制剂"采用中文标准译名 6. 调整英文被动语态为中文主动表达，符合中文科技论文写作规范 7. 整体采用"手段→结果"的逻辑结构，保持学术文本的严谨性） | Zhang, Y. | PDF | | | 糖蛋白质量控制因子Malectin促进冠状病毒复制及病毒蛋白生物合成

（翻译说明： 1. "glycoprotein quality control factor"译为"糖蛋白质量控制因子"，保留专业术语的准确性 2. "Malectin"作为专有名词保留不译 3. "promotes coronavirus replication"译为"促进冠状病毒复制"，采用动宾结构保持学术表达 4. "viral protein biogenesis"译为"病毒蛋白生物合成"，其中"biogenesis"采用生物学标准译法 5. 整体采用简洁的学术语言风格，符合中文科技论文标题特征 6. 使用"及"连接两个并列成分，比"和"更显正式 7. 未添加多余修饰词，严格忠实于原文科学含义） | Davies, J. P. | PDF | | | DNA内部k-mer保守模式编码变异的进化选择

（翻译说明： 1. "Intra-DNA"译为"DNA内部"，准确表达分子内部层面的含义 2. "k-mer"作为生物信息学术语保留原文形式，符合领域惯例 3. "Conservation Patterns"译为"保守模式"，精准对应分子进化术语 4. "Encode"译为"编码"，保持生物学中信息编码的特定含义 5. 整体采用"主谓宾"结构，符合中文科技论文标题特征 6. 使用"变异"而非"变体"，更符合群体遗传学专业表述 7. "进化选择"保持专业术语的准确性，避免口语化表达） | Mathew, B. | PDF | | | 先天免疫、抗生素与噬菌体在细菌感染进程及治疗中的作用

（翻译说明：
1. "innate immunity"译为"先天免疫"，采用免疫学标准术语
2. "bacteriophages"译为"噬菌体"，保留微生物学专业称谓
3. 采用"进程及治疗"的并列结构，准确对应原文"course and treatment"的学术表述
4. 整体句式调整为中文论文标题常见的无主语句式，符合学术规范
5. 使用顿号连接并列成分，遵循中文标点规范） | Berryhill, B. A. | PDF | | | T细胞白血病中LMO2的降解导致转录复合体伙伴的连带破坏，并引发LMO2依赖性细胞凋亡

（翻译说明： 1. 专业术语处理： - "LMO2"作为专有基因名保留不译 - "T cell leukaemia"采用医学标准译名"T细胞白血病" - "transcription complex partners"译为"转录复合体伙伴"，准确表达蛋白质相互作用关系 - "apoptosis"使用细胞生物学标准术语"细胞凋亡"

句式结构：
将英语长句拆分为符合中文表达习惯的因果句式
"results in"译为"导致"，"causes"译为"引发"，体现层次递进
"collateral breakdown"译为"连带破坏"，准确传达蛋白质降解的级联效应
逻辑关系：
通过"并"字连接两个分句，保持原文的并列因果关系
"LMO2-dependent"译为"LMO2依赖性"，明确修饰关系
学术规范：
完全保留专业名词的大小写和数字格式（如LMO2）
使用书面化学术用语，避免口语化表达） | Sereesongsaeng, N. | PDF | | | 药物发现平台稳健、准确且可推广的基准测试策略

翻译说明：

"robust"译为"稳健" - 在计算机科学和统计学领域，robust通常翻译为"稳健"，指系统或方法在各种条件下都能保持稳定性能的特性。
"accurate"译为"准确" - 直接对应，表示测量或评估结果与真实值接近的程度。
"generalizable"译为"可推广" - 在机器学习领域指模型在新数据上的适用性，这里译为"可推广"以保持学术术语的一致性。
"benchmarking"译为"基准测试" - 这是计算机性能评估的标准译法，指通过标准化测试衡量系统性能的过程。
整体采用"的"字结构保持学术论文标题的简洁性，同时准确传达原标题中所有限定关系的层次。
语序调整为中文习惯的修饰语前置结构，将"of drug discovery platforms"处理为"药物发现平台的"前置定语。

这个翻译版本严格保持了原文的专业性和准确性，同时符合中文科技论文的标题表达规范。 | Van Norden, M. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF