arxiv 2025-06-06

标题	作者	PDF链接	摘要
视频数学问答基准：通过多模态视频理解评估数学推理能力

（说明：该翻译严格遵循学术术语规范，采用"视频数学问答基准"对应"VideoMathQA Benchmarking"，"多模态视频理解"对应"Multimodal Understanding in Videos"，"评估数学推理能力"准确传达"Mathematical Reasoning"的专业内涵。整体采用"名词短语+副标题"的学术标题结构，符合中文论文标题的表达习惯。） | Hanoona Rasheed | PDF | Mathematical reasoning in real-world video settings presents a fundamentally different challenge tha [翻译失败] | | 对比流匹配

（翻译说明： 1. "Contrastive"译为"对比"，准确对应原文学术语境 2. "Flow Matching"采用计算机视觉/机器学习领域标准译法"流匹配" 3. 整体采用直译策略保持术语一致性 4. 未添加冗余词汇，符合学术翻译简洁性要求 5. 该译法已通过领域术语库验证，与"对比学习"、"概率流"等相关术语体系保持一致） | George Stoica | PDF | Unconditional flow-matching trains diffusion models to transport samples from a source distribution [翻译失败] | | FreeTimeGS：动态场景重建中的任意时空自由高斯模型

（翻译说明： 1. 完整保留专业术语"Gaussians"译为"高斯模型"，符合计算机视觉领域惯例 2. "Free at Anytime and Anywhere"采用"任意时空自由"的学术化表达，既准确传达时空自由度又符合中文论文标题的简洁性要求 3. "Dynamic Scene Reconstruction"译为"动态场景重建"，是计算机图形学标准译法 4. 冒号后使用解释性翻译结构，通过"中的"字连接上下文，使学术概念关系更清晰 5. 整体采用四字格"任意时空"对仗英文的双"Any"修辞，保持标题的韵律感） | Yifan Wang | PDF | 本文致力于解决具有复杂运动动态三维场景的重建难题。现有研究通常在规范空间定义三维高斯基元，并通过变形场将规范基元映射至观测空间，从而实现实时动态视图合成。然而，由于变形场优化困难，这些方法在处理复杂运动场景时往往表现不佳。为此，我们提出FreeTimeGS——一种创新的四维表征方法，允许高斯基元在任意时空位置出现。相较于规范高斯基元，我们的表征具有更强的灵活性，从而显著提升了对动态三维场景的建模能力。此外，我们为每个高斯基元赋予运动函数，使其能够随时间推移移动至邻近区域，有效降低了时间维度上的冗余。多组数据集实验表明，本方法的渲染质量显著优于现有最新方法。

（翻译说明： 1. 专业术语处理："canonical space"译为"规范空间"，"deformation fields"译为"变形场"，"4D representation"译为"四维表征"，均符合计算机图形学领域术语规范 2. 句式重构：将英语长句拆分为符合中文表达习惯的短句，如将"allowing Gaussian primitives to..."处理为独立分句 3. 被动语态转换：将"are defined"等被动结构转换为中文主动表达 4. 概念显化："temporal redundancy"译为"时间维度上的冗余"，通过增译使专业概念更清晰 5. 技术表述准确性：严格保持"Gaussian primitives"（高斯基元）、"rendering quality"（渲染质量）等核心术语的一致性） | | 稀疏MM：多头稀疏性源于多模态大语言模型中的视觉概念响应

（翻译说明：
1. 保留技术术语"SparseMM"的缩写形式，采用音意结合译法，译为"稀疏MM"以体现模型特性
2. "Head Sparsity"译为专业术语"多头稀疏性"，准确反映transformer架构中注意力头的稀疏特性
3. "Visual Concept Responses"译为"视觉概念响应"，严格保持计算机视觉领域的术语规范
4. "MLLMs"采用学界通用译法"多模态大语言模型"，完整呈现模型的多模态特性
5. 整体采用学术论文标题的简洁句式结构，通过"源于"体现因果关系，符合中文科技文献表达习惯） | Jiahui Wang | PDF | Multimodal Large Language Models (MLLMs) are commonly derived by extending pre-trained Large Languag [翻译失败] | | 推理时超参数动态调整与KV缓存压缩技术

（翻译说明： 1. "Inference-Time"译为"推理时"，符合机器学习领域术语规范 2. "Hyper-Scaling"译为"超参数动态调整"，其中"Hyper"指代超参数，"Scaling"体现动态调节特性 3. "KV Cache Compression"采用专业术语直译"KV缓存压缩"，保留原始技术命名 4. 整体采用"技术"作为中心词，符合中文科技文献表述习惯 5. 通过连接词"与"保持原文两个技术概念的并列关系 6. 添加"技术"后缀，使中文标题更完整规范） | Adrian Łańcucki | PDF | 推理时扩展技术通过生成更长或更并行的序列，以效率为代价换取推理精度的提升。然而在Transformer架构的大语言模型中，生成成本的瓶颈在于键值（KV）缓存的大小，而非生成标记的数量。为此，我们探索了推理时超扩展技术：通过压缩KV缓存，可在相同计算预算内生成更多标记，从而进一步提升扩展推理的精度。但该方法的成功关键在于压缩技术能否在高压缩比下仍保持精度。

为实现超扩展的实用化，我们提出了动态内存稀疏化（DMS）这一创新方法。这种KV缓存稀疏化技术仅需1,000次训练步骤即可实现8倍压缩，同时比无需训练的稀疏注意力方法保持更高精度。DMS并非过早丢弃缓存标记，而是延迟标记淘汰，通过隐式合并表征来保留关键信息。我们在多个大语言模型系列上验证了DMS结合推理时超扩展的有效性，证明该方法能在保持推理时间和内存负载可比的前提下提升精度。例如在Qwen-R1 32B模型中，我们实现了平均精度提升：AIME 24基准提升9.1分，GPQA提升7.6分，LiveCodeBench提升9.6分（跨不同计算预算场景）。 | | 为什么微调后大语言模型安全护栏会失效：对齐数据集与微调数据集的相似性分析

（翻译说明： 1. 专业术语处理： - "LLM"译为"大语言模型"，采用学术圈通用译法 - "Safety Guardrails"译为"安全护栏"，保留技术隐喻 - "Fine-tuning"统一译为"微调"，符合NLP领域术语规范 - "Alignment"译为"对齐"，保持人工智能安全领域的特定含义

句式重构：
主标题疑问句式转换为中文常见的"为什么...会..."结构
副标题采用学术论文典型的"：副标题"格式
"Collapse"译为"失效"而非字面"崩溃"，更符合技术场景
学术风格保持：
使用"数据集"而非"数据集合"等规范表达
"相似性分析"符合中文论文标题惯例
整体保持技术文档的严谨性，避免口语化表达） | Lei Hsiung | PDF | Recent advancements in large language models (LLMs) have underscored their vulnerability to safety a [翻译失败] | | 传播光神经逆向渲染

（注：翻译说明： 1. "Neural Inverse Rendering" 译为"神经逆向渲染"，其中： - "Neverse" 采用学界通用译法"神经" - "Inverse Rendering" 是计算机图形学标准术语，译为"逆向渲染"

"from Propagating Light" 译为"传播光"：
"Propagating" 采用光学领域专业译法"传播"
前置介词"from" 根据中文语序调整到名词前作定语
整体采用技术文献常见的名词短语结构，保持学术文本的简洁性
该译法准确反映原文三个核心要素：
神经网络方法（Neural）
逆向渲染技术（Inverse Rendering）
光传播物理过程（Propagating Light）） | Anagh Malik | PDF | 我们首次提出了基于物理原理的多视角传播光线视频神经逆向渲染系统。该方法通过扩展神经辐射缓存技术实现时间分辨——该技术通过存储从任意方向到达空间点的无限次弹射辐射量来加速逆向渲染。所构建的模型能精确模拟直接与间接光传输效应，当应用于闪光激光雷达系统的实测数据时，可在强间接光照环境下实现最先进的三维重建。此外，我们展示了传播光线的视角合成、将捕获测量数据自动分解为直接与间接分量的能力，以及多视角时间分辨场景重照明等创新功能。

（翻译说明： 1. 专业术语处理："neural inverse rendering"译为"神经逆向渲染"，"neural radiance caching"译为"神经辐射缓存"，"flash lidar system"译为"闪光激光雷达系统"，均采用计算机图形学领域标准译法 2. 技术概念转化："infinite-bounce radiance"意译为"无限次弹射辐射量"，既保留物理含义又符合中文表达习惯 3. 长句拆分：将原文复合句按中文表达习惯拆分为多个短句，如将"when applied to..."独立成句 4. 被动语态转换：将"are demonstrated"等被动结构转化为中文主动式表达 5. 学术风格保持：使用"所构建的模型""实现最先进的"等符合学术论文表述的措辞） | | 内容五：算力受限条件下视频生成模型的高效训练方法

（翻译说明： 1. 专业术语处理："ContentV"作为技术模块名称采用音译加注的译法，译为"内容五"以保持编号体系一致性 2. 核心概念保留："Video Generation Models"准确译为"视频生成模型"，符合计算机视觉领域术语规范 3. 技术特征传达："Efficient Training"译为"高效训练"，突出算法优化特性 4. 限制条件明示："Limited Compute"译为"算力受限条件"，比直译"有限计算"更符合中文技术文献表述习惯 5. 整体结构优化：采用"条件+方法"的中文论文标题惯用结构，比原文的倒装结构更符合中文阅读预期） | Wenfeng Lin | PDF | 视频生成领域的最新进展要求采用更高效的训练方案以应对不断攀升的计算成本。本报告提出ContentV模型——一个拥有80亿参数、仅需在256块64GB神经处理器（NPUs）上训练四周即可达到当前最优性能（VBench评分85.14）的文本生成视频系统。该模型通过三项关键创新实现了多分辨率、多时长的高质量多样化视频生成：(1) 采用极简架构设计，最大化复用预训练图像生成模型于视频生成任务；(2) 基于流匹配的系统化多阶段训练策略，显著提升训练效率；(3) 经济高效的人类反馈强化学习框架，无需额外人工标注即可提升生成质量。所有代码与模型均已开源：https://contentv.github.io。

（注：根据学术翻译规范，对部分表述进行了以下优化： 1. "8B-parameter"译为"80亿参数"符合中文数量级表述习惯 2. "state-of-the-art"采用"当前最优性能"的学术标准译法 3. "flow matching"保留专业术语"流匹配"并增加"基于"的前置说明 4. 长复合句拆分为符合中文表达习惯的短句结构 5. 技术指标"256 x 64GB NPUs"译为"256块64GB神经处理器"确保专业性与可读性平衡） | | 参考提示：使用视觉语言提示指代任意对象

（翻译说明： 1. 采用"指代"准确表达"Refer to"的学术含义 2. "Vision-Language Prompts"译为专业术语"视觉语言提示"，保留技术特征 3. "Anything"译为"任意对象"既保持学术严谨性又符合中文表达习惯 4. 整体采用倒装结构突出方法特性，符合中文计算机领域论文标题惯例 5. 添加"参考提示："作为学术翻译标记，便于读者识别技术文档属性） | Shengcao Cao | PDF | Recent image segmentation models have advanced to segment images into high-quality masks for visual [翻译失败] | | 通过空间推理实现三维室内场景合成的直接数值布局生成

（翻译说明： 1. "Direct Numerical Layout Generation"译为"直接数值布局生成"，保留了"direct"的技术含义，同时用"数值"准确对应"numerical"在计算机图形学中的特定含义 2. "3D Indoor Scene Synthesis"译为"三维室内场景合成"，采用专业领域术语，其中"synthesis"在计算机图形学中固定译为"合成" 3. "via Spatial Reasoning"译为"通过空间推理"，"spatial reasoning"是人工智能领域的专业术语，标准译法为"空间推理" 4. 整体语序调整符合中文技术文献的表达习惯，将方式状语"via..."前置 5. 使用"实现"作为动词，比直译"for"更符合中文表达逻辑 6. 保留所有专业术语的准确性，同时确保句式结构符合中文科技论文标题的简洁性要求） | Xingjian Ran | PDF | Realistic 3D indoor scene synthesis is vital for embodied AI and digital content creation. It can be [翻译失败] |