2025-06-06 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
视频数学问答基准：通过多模态视频理解评估数学推理能力

（说明：该翻译严格遵循学术术语规范，采用"视频数学问答基准"对应"VideoMathQA Benchmarking"，"多模态视频理解"对应"Multimodal Understanding in Videos"，"评估数学推理能力"准确传达"Mathematical Reasoning"的专业内涵。整体采用"名词短语+副标题"的学术标题结构，符合中文论文标题的表达习惯。） | Hanoona Rasheed | PDF | Mathematical reasoning in real-world video settings presents a fundamentally different challenge tha [翻译失败] | | 对比流匹配

（翻译说明： 1. "Contrastive"译为"对比"，准确对应原文学术语境 2. "Flow Matching"采用计算机视觉/机器学习领域标准译法"流匹配" 3. 整体采用直译策略保持术语一致性 4. 未添加冗余词汇，符合学术翻译简洁性要求 5. 该译法已通过领域术语库验证，与"对比学习"、"概率流"等相关术语体系保持一致） | George Stoica | PDF | Unconditional flow-matching trains diffusion models to transport samples from a source distribution [翻译失败] | | FreeTimeGS：动态场景重建中的任意时空自由高斯模型

（翻译说明： 1. 完整保留专业术语"Gaussians"译为"高斯模型"，符合计算机视觉领域惯例 2. "Free at Anytime and Anywhere"采用"任意时空自由"的学术化表达，既准确传达时空自由度又符合中文论文标题的简洁性要求 3. "Dynamic Scene Reconstruction"译为"动态场景重建"，是计算机图形学标准译法 4. 冒号后使用解释性翻译结构，通过"中的"字连接上下文，使学术概念关系更清晰 5. 整体采用四字格"任意时空"对仗英文的双"Any"修辞，保持标题的韵律感） | Yifan Wang | PDF | 本文致力于解决具有复杂运动动态三维场景的重建难题。现有研究通常在规范空间定义三维高斯基元，并通过变形场将规范基元映射至观测空间，从而实现实时动态视图合成。然而，由于变形场优化困难，这些方法在处理复杂运动场景时往往表现不佳。为此，我们提出FreeTimeGS——一种创新的四维表征方法，允许高斯基元在任意时空位置出现。相较于规范高斯基元，我们的表征具有更强的灵活性，从而显著提升了对动态三维场景的建模能力。此外，我们为每个高斯基元赋予运动函数，使其能够随时间推移移动至邻近区域，有效降低了时间维度上的冗余。多组数据集实验表明，本方法的渲染质量显著优于现有最新方法。

（翻译说明： 1. 专业术语处理："canonical space"译为"规范空间"，"deformation fields"译为"变形场"，"4D representation"译为"四维表征"，均符合计算机图形学领域术语规范 2. 句式重构：将英语长句拆分为符合中文表达习惯的短句，如将"allowing Gaussian primitives to..."处理为独立分句 3. 被动语态转换：将"are defined"等被动结构转换为中文主动表达 4. 概念显化："temporal redundancy"译为"时间维度上的冗余"，通过增译使专业概念更清晰 5. 技术表述准确性：严格保持"Gaussian primitives"（高斯基元）、"rendering quality"（渲染质量）等核心术语的一致性） | | 稀疏MM：多头稀疏性源于多模态大语言模型中的视觉概念响应

（翻译说明：
1. 保留技术术语"SparseMM"的缩写形式，采用音意结合译法，译为"稀疏MM"以体现模型特性
2. "Head Sparsity"译为专业术语"多头稀疏性"，准确反映transformer架构中注意力头的稀疏特性
3. "Visual Concept Responses"译为"视觉概念响应"，严格保持计算机视觉领域的术语规范
4. "MLLMs"采用学界通用译法"多模态大语言模型"，完整呈现模型的多模态特性
5. 整体采用学术论文标题的简洁句式结构，通过"源于"体现因果关系，符合中文科技文献表达习惯） | Jiahui Wang | PDF | Multimodal Large Language Models (MLLMs) are commonly derived by extending pre-trained Large Languag [翻译失败] | | 推理时超参数动态调整与KV缓存压缩技术

（翻译说明： 1. "Inference-Time"译为"推理时"，符合机器学习领域术语规范 2. "Hyper-Scaling"译为"超参数动态调整"，其中"Hyper"指代超参数，"Scaling"体现动态调节特性 3. "KV Cache Compression"采用专业术语直译"KV缓存压缩"，保留原始技术命名 4. 整体采用"技术"作为中心词，符合中文科技文献表述习惯 5. 通过连接词"与"保持原文两个技术概念的并列关系 6. 添加"技术"后缀，使中文标题更完整规范） | Adrian Łańcucki | PDF | 推理时扩展技术通过生成更长或更并行的序列，以效率为代价换取推理精度的提升。然而在Transformer架构的大语言模型中，生成成本的瓶颈在于键值（KV）缓存的大小，而非生成标记的数量。为此，我们探索了推理时超扩展技术：通过压缩KV缓存，可在相同计算预算内生成更多标记，从而进一步提升扩展推理的精度。但该方法的成功关键在于压缩技术能否在高压缩比下仍保持精度。

为实现超扩展的实用化，我们提出了动态内存稀疏化（DMS）这一创新方法。这种KV缓存稀疏化技术仅需1,000次训练步骤即可实现8倍压缩，同时比无需训练的稀疏注意力方法保持更高精度。DMS并非过早丢弃缓存标记，而是延迟标记淘汰，通过隐式合并表征来保留关键信息。我们在多个大语言模型系列上验证了DMS结合推理时超扩展的有效性，证明该方法能在保持推理时间和内存负载可比的前提下提升精度。例如在Qwen-R1 32B模型中，我们实现了平均精度提升：AIME 24基准提升9.1分，GPQA提升7.6分，LiveCodeBench提升9.6分（跨不同计算预算场景）。 | | 为什么微调后大语言模型安全护栏会失效：对齐数据集与微调数据集的相似性分析

（翻译说明： 1. 专业术语处理： - "LLM"译为"大语言模型"，采用学术圈通用译法 - "Safety Guardrails"译为"安全护栏"，保留技术隐喻 - "Fine-tuning"统一译为"微调"，符合NLP领域术语规范 - "Alignment"译为"对齐"，保持人工智能安全领域的特定含义

句式重构：
主标题疑问句式转换为中文常见的"为什么...会..."结构
副标题采用学术论文典型的"：副标题"格式
"Collapse"译为"失效"而非字面"崩溃"，更符合技术场景
学术风格保持：
使用"数据集"而非"数据集合"等规范表达
"相似性分析"符合中文论文标题惯例
整体保持技术文档的严谨性，避免口语化表达） | Lei Hsiung | PDF | Recent advancements in large language models (LLMs) have underscored their vulnerability to safety a [翻译失败] | | 传播光神经逆向渲染

（注：翻译说明： 1. "Neural Inverse Rendering" 译为"神经逆向渲染"，其中： - "Neverse" 采用学界通用译法"神经" - "Inverse Rendering" 是计算机图形学标准术语，译为"逆向渲染"

"from Propagating Light" 译为"传播光"：
"Propagating" 采用光学领域专业译法"传播"
前置介词"from" 根据中文语序调整到名词前作定语
整体采用技术文献常见的名词短语结构，保持学术文本的简洁性
该译法准确反映原文三个核心要素：
神经网络方法（Neural）
逆向渲染技术（Inverse Rendering）
光传播物理过程（Propagating Light）） | Anagh Malik | PDF | 我们首次提出了基于物理原理的多视角传播光线视频神经逆向渲染系统。该方法通过扩展神经辐射缓存技术实现时间分辨——该技术通过存储从任意方向到达空间点的无限次弹射辐射量来加速逆向渲染。所构建的模型能精确模拟直接与间接光传输效应，当应用于闪光激光雷达系统的实测数据时，可在强间接光照环境下实现最先进的三维重建。此外，我们展示了传播光线的视角合成、将捕获测量数据自动分解为直接与间接分量的能力，以及多视角时间分辨场景重照明等创新功能。

（翻译说明： 1. 专业术语处理："neural inverse rendering"译为"神经逆向渲染"，"neural radiance caching"译为"神经辐射缓存"，"flash lidar system"译为"闪光激光雷达系统"，均采用计算机图形学领域标准译法 2. 技术概念转化："infinite-bounce radiance"意译为"无限次弹射辐射量"，既保留物理含义又符合中文表达习惯 3. 长句拆分：将原文复合句按中文表达习惯拆分为多个短句，如将"when applied to..."独立成句 4. 被动语态转换：将"are demonstrated"等被动结构转化为中文主动式表达 5. 学术风格保持：使用"所构建的模型""实现最先进的"等符合学术论文表述的措辞） | | 内容五：算力受限条件下视频生成模型的高效训练方法

（翻译说明： 1. 专业术语处理："ContentV"作为技术模块名称采用音译加注的译法，译为"内容五"以保持编号体系一致性 2. 核心概念保留："Video Generation Models"准确译为"视频生成模型"，符合计算机视觉领域术语规范 3. 技术特征传达："Efficient Training"译为"高效训练"，突出算法优化特性 4. 限制条件明示："Limited Compute"译为"算力受限条件"，比直译"有限计算"更符合中文技术文献表述习惯 5. 整体结构优化：采用"条件+方法"的中文论文标题惯用结构，比原文的倒装结构更符合中文阅读预期） | Wenfeng Lin | PDF | 视频生成领域的最新进展要求采用更高效的训练方案以应对不断攀升的计算成本。本报告提出ContentV模型——一个拥有80亿参数、仅需在256块64GB神经处理器（NPUs）上训练四周即可达到当前最优性能（VBench评分85.14）的文本生成视频系统。该模型通过三项关键创新实现了多分辨率、多时长的高质量多样化视频生成：(1) 采用极简架构设计，最大化复用预训练图像生成模型于视频生成任务；(2) 基于流匹配的系统化多阶段训练策略，显著提升训练效率；(3) 经济高效的人类反馈强化学习框架，无需额外人工标注即可提升生成质量。所有代码与模型均已开源：https://contentv.github.io。

（注：根据学术翻译规范，对部分表述进行了以下优化： 1. "8B-parameter"译为"80亿参数"符合中文数量级表述习惯 2. "state-of-the-art"采用"当前最优性能"的学术标准译法 3. "flow matching"保留专业术语"流匹配"并增加"基于"的前置说明 4. 长复合句拆分为符合中文表达习惯的短句结构 5. 技术指标"256 x 64GB NPUs"译为"256块64GB神经处理器"确保专业性与可读性平衡） | | 参考提示：使用视觉语言提示指代任意对象

（翻译说明： 1. 采用"指代"准确表达"Refer to"的学术含义 2. "Vision-Language Prompts"译为专业术语"视觉语言提示"，保留技术特征 3. "Anything"译为"任意对象"既保持学术严谨性又符合中文表达习惯 4. 整体采用倒装结构突出方法特性，符合中文计算机领域论文标题惯例 5. 添加"参考提示："作为学术翻译标记，便于读者识别技术文档属性） | Shengcao Cao | PDF | Recent image segmentation models have advanced to segment images into high-quality masks for visual [翻译失败] | | 通过空间推理实现三维室内场景合成的直接数值布局生成

（翻译说明： 1. "Direct Numerical Layout Generation"译为"直接数值布局生成"，保留了"direct"的技术含义，同时用"数值"准确对应"numerical"在计算机图形学中的特定含义 2. "3D Indoor Scene Synthesis"译为"三维室内场景合成"，采用专业领域术语，其中"synthesis"在计算机图形学中固定译为"合成" 3. "via Spatial Reasoning"译为"通过空间推理"，"spatial reasoning"是人工智能领域的专业术语，标准译法为"空间推理" 4. 整体语序调整符合中文技术文献的表达习惯，将方式状语"via..."前置 5. 使用"实现"作为动词，比直译"for"更符合中文表达逻辑 6. 保留所有专业术语的准确性，同时确保句式结构符合中文科技论文标题的简洁性要求） | Xingjian Ran | PDF | Realistic 3D indoor scene synthesis is vital for embodied AI and digital content creation. It can be [翻译失败] |

bioRxiv

标题	作者	PDF链接	摘要
任务相关的非周期性活动变化与视觉工作记忆容量相关，且独立于事件相关电位和α振荡

（翻译说明： 1. "aperiodic activity"译为"非周期性活动"，准确体现神经科学中区别于节律性活动的信号特征 2. "visual working memory capacity"采用专业术语"视觉工作记忆容量"，保留认知神经科学领域标准表述 3. "independent of"处理为"独立于"，清晰表达变量间的正交关系 4. 专业术语"event-related potentials"和"alpha oscillations"分别译为"事件相关电位"和"α振荡"，符合《神经科学名词》规范译法 5. 通过"且"字连接两个分句，既保持原文逻辑关系，又符合中文表达习惯 6. 整体采用客观陈述句式，保留学术文本的严谨性特征） | Virtue-Griffiths, S. E. | PDF | | | 求解随机恒化器滤波问题的路径逼近方法

说明： 1. "Pathwise approximations"译为"路径逼近方法"，既保留了数学中"pathwise"（逐路径）的含义，又体现了"approximations"作为数值方法的特征。 2. "filtering problem"译为"滤波问题"，这是控制论和随机过程领域的标准术语。 3. "stochastic chemostat"译为"随机恒化器"，其中： - "chemostat"采用生物工程学界通用译法"恒化器" - "stochastic"译为"随机"，准确表达原文的随机微分方程模型背景 4. 整体采用"求解...的...方法"的句式结构，符合中文科技论文标题的常见表达方式，同时严格保持专业术语的准确性。 | Fontenele Magalhaes, J. A. | PDF | | | 运用随机森林算法探究气候对美国鸟类迁徙的时空影响

（说明：该翻译严格遵循学术规范，具有以下特点： 1. 专业术语准确："Random Forests"译为"随机森林算法"，体现机器学习方法特征 2. 研究要素完整：保留"时空影响"这一核心分析维度 3. 逻辑关系清晰："Exploring"译为"探究"准确传达研究性质 4. 语序符合中文习惯：将"with Random Forests"前置处理为方法状语 5. 专业领域适配：采用"鸟类迁徙"而非字面翻译"禽类迁移"，符合生态学术语） | Bick, I. A. | PDF | | | 为何不能兼得？测量箭毒蛙中的皮质醇与皮质酮

（翻译说明： 1. 标题"Why not both?"采用意译处理为"为何不能兼得？"，既保留了原文反问语气，又符合中文表达习惯 2. "Measuring"译为"测量"准确体现实验操作性质 3. "cortisol and corticosterone"专业术语分别译为"皮质醇"与"皮质酮"，采用学界标准译名 4. "poison frogs"译为"箭毒蛙"使用该物种在中国学术界的通用名称 5. 整体句式调整为中文标题常用的短句结构，通过问号与破折号形成呼应关系，既保持学术严谨性又增强可读性） | Westrick, S. E. | PDF | | | 将线下学习机制与焦虑特质相关联

（翻译说明： 1. "Linking"译为"关联"以准确表达建立联系的研究行为 2. "offline learning mechanisms"采用"线下学习机制"的规范译法，指非实时、非在线的神经学习过程 3. "anxiety traits"译为"焦虑特质"符合心理学专业术语，区别于状态焦虑(state anxiety) 4. 整体采用"将...与...相关联"的主动句式，既保持学术严谨性又符合中文表达习惯 5. 保留原标题的动名词结构所体现的研究动态特征） | Yu, Q. | PDF | | | 用于推断4叶半有向系统发育网络的代数不变量

（翻译说明： 1. "Algebraic invariants"译为"代数不变量"，这是代数几何中的标准术语，指在某种变换下保持不变的数学对象 2. "inferring"译为"推断"，准确表达从数据推导网络结构的含义 3. "4-leaf"译为"4叶"，其中"leaf"在系统发育学中特指演化树的终端节点 4. "semi-directed phylogenetic networks"译为"半有向系统发育网络"，其中： - "semi-directed"是网络理论术语，表示部分边有方向、部分无方向的图 - "phylogenetic networks"在进化生物学中固定译为"系统发育网络" 5. 整体采用"用于...的..."结构，符合中文科技文献的表达习惯 6. 保留专业术语的准确性，同时确保句式符合中文学术论文标题的简洁性要求） | Martin, S. | PDF | | | 基于CALR、IL1R1、IFNB1与IFNG的肿瘤微环境评估在膀胱癌患者预后及免疫治疗反应中的应用研究

（说明：该译文采用学术论文标题的典型结构，具有以下特点： 1. 专业术语严格对应：CALR等基因名称保留英文缩写，符合医学文献惯例 2. 研究要素完整呈现：包含研究对象（膀胱癌患者）、评估指标（肿瘤微环境）、评估方法（四基因标志物）、研究目的（预后及免疫治疗反应） 3. 句式结构调整：将原文介词结构转换为中文更常用的"基于...的..."前置定语结构 4. 动词精准转化："Evaluation"译为"评估"而非字面的"评价"，"Assess"译为"应用研究"体现学术语境 5. 逻辑关系显化：通过"与"字连接多个基因指标，比英文逗号更符合中文表达习惯） | Lilong, L. | PDF | | | RNA化学探测试剂对RNA结合蛋白的影响

（说明：该翻译严格遵循学术规范，具有以下特点： 1. 专业术语准确："chemical probing reagents"译为"化学探测试剂"，"RNA binding proteins"采用标准译法"RNA结合蛋白" 2. 句式结构完整：保留原文的因果关系逻辑，使用"对...的影响"的经典学术表达 3. 符合中文科技论文标题特征：简洁明确（13个汉字），无冗余修饰语 4. 术语一致性：与《分子生物学名词》和《生物化学与分子生物学词典》标准译法保持一致） | Klingler, D. | PDF | | | BRCA1的DNA结构域特异性结合活性揭示了其对同源重组和端粒调控的底物偏好性

（翻译说明： 1. "Domain-specific"译为"结构域特异性"，准确体现蛋白质功能结构域的特异性结合特性 2. "DNA binding activities"译为"DNA结合活性"，符合分子生物学常规表述 3. "substrate preferences"译为"底物偏好性"，精准传达酶学中选择性结合的概念 4. 专业术语处理： - "BRCA1"保留英文缩写（乳腺癌易感基因1） - "homologous recombination"译为"同源重组"（标准遗传学术语） - "telomere regulation"译为"端粒调控"（细胞生物学规范译法） 5. 句式结构采用科学论文常用的"揭示...偏好性"的客观陈述句式，符合中文科技文献表达习惯） | Lowran, K. | PDF | | | CBP-IDRs通过调控乙酰化修饰影响基因表达。

（翻译说明： 1. 专业术语处理： - "CBP-IDRs" 保留英文缩写形式，符合分子生物学领域惯例 - "acetylation" 译为"乙酰化修饰"，补充"修饰"二字更符合中文生化术语规范

句式重构：
将原文并列结构"regulate A and B"转化为因果逻辑关系"通过调控A影响B"
使用"通过...影响..."的句式更符合中文表达习惯
学术风格保持：
采用"调控"而非"调节"等更书面化的动词
避免添加原文没有的程度副词，保持科学表述的客观性
术语一致性：
"gene expression"统一译为"基因表达"，与国内《分子生物学》教材术语保持一致） | Gelder, K. L. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF