arxiv 2025-06-07

标题	作者	PDF链接	摘要
视频数学问答：通过视频多模态理解评估数学推理能力

（翻译说明： 1. "VideoMathQA"采用复合名词直译+意译结合，译为"视频数学问答"既保留原缩写形式又体现功能特征 2. "Benchmarking"译为"评估"而非字面"基准测试"，更符合中文教育测量学术语习惯 3. "Mathematical Reasoning"标准译法"数学推理"，与认知科学术语体系保持一致 4. "Multimodal Understanding"译为"多模态理解"，直接对应人工智能领域术语 5. 介词短语"in Videos"前置处理为定语"视频"，符合中文修饰语前置的语法特征 6. 整体采用学术论文标题的简洁风格，通过冒号分层实现概念递进，保持原标题的学术严谨性） | Hanoona Rasheed | PDF | Mathematical reasoning in real-world video settings presents a fundamentally different challenge tha [翻译失败] | | 对比流匹配

（翻译说明： 1. "Contrastive"译为"对比"，准确对应机器学习领域中的对比学习方法概念 2. "Flow Matching"译为"流匹配"，保留原文本在生成模型领域的专业术语 3. 采用简洁的名词短语结构，符合中文计算机学术语的表达习惯 4. 整体翻译与近年来ICML、NeurIPS等顶会论文的中文译法保持一致 5. 未添加冗余词汇，严格保持术语的简洁性和专业性） | George Stoica | PDF | Unconditional flow-matching trains diffusion models to transport samples from a source distribution [翻译失败] | | FreeTimeGS：动态场景重建中随时随地自由生成的高斯模型

（翻译说明： 1. 完整保留专业术语"Gaussians"译为"高斯模型"，符合计算机视觉领域术语规范 2. "Free"采用双重意译：既体现"自由生成"的技术特性，又暗含"免费开源"的潜在含义 3 "Anytime and Anywhere"译为"随时随地"，既保持口语化表达又准确传递技术特性 4. "Dynamic Scene Reconstruction"严格译为"动态场景重建"，符合计算机图形学标准译法 5. 冒号后采用四字短语结构，保持学术标题的简洁性 6. 整体采用"主标题+副标题"结构，与原文格式完全对应） | Yifan Wang | PDF | 本文致力于解决具有复杂运动的动态三维场景重建难题。现有研究通常在规范空间定义三维高斯基元，并通过变形场将规范基元映射至观测空间，从而实现实时动态视图合成。然而由于变形场优化困难，这些方法在处理复杂运动场景时往往表现不佳。为此，我们提出FreeTimeGS——一种允许高斯基元在任意时空位置出现的新型四维表征方法。相较于规范高斯基元，我们的表征具有更强的灵活性，从而显著提升了对动态三维场景的建模能力。此外，我们为每个高斯基元赋予运动函数，使其能够随时间推移移动至相邻区域，这种机制有效降低了时间维度上的冗余度。在多组数据集上的实验表明，本方法的渲染质量显著优于现有最新技术。 | | 稀疏多模态模型（SparseMM）：大语言多模态模型中视觉概念响应引发的头部稀疏性

（翻译说明： 1. 专业术语处理： - "SparseMM"采用"稀疏多模态模型"的学术规范译法，保留缩写形式 - "MLLMs"译为"大语言多模态模型"，符合当前AI领域对Multimodal Large Language Models的标准译法 - "Head Sparsity"译为"头部稀疏性"，准确保持神经网络架构术语

句式重构：
将英文被动语态"Emerges from"转化为中文主动态"引发"，更符合中文表达习惯
使用"："替代原标题中的冒号，更符合中文标题规范
概念完整性：
保留"视觉概念响应"的完整技术表述，避免过度简化
"稀疏性"前添加"头部"限定词，精确反映原意指神经网络特定层的稀疏特性
学术风格保持：
采用"模型""引发""特性"等学术用语
整体结构维持论文标题的简洁性与专业性） | Jiahui Wang | PDF | Multimodal Large Language Models (MLLMs) are commonly derived by extending pre-trained Large Languag [翻译失败] | | 推理时基于KV缓存压缩的超参数动态缩放

（翻译说明： 1. "Inference-Time"译为"推理时"，符合机器学习领域术语规范 2. "Hyper-Scaling"采用"超参数动态缩放"的译法，其中： - "Hyper"译为"超参数"而非简单直译"超级"，更准确反映技术含义 - "Scaling"译为"动态缩放"体现参数可调节特性 3. "KV Cache Compression"保留专业缩写"KV"（键值），完整译为"KV缓存压缩" 4. 整体采用"基于...的..."结构，符合中文技术文献表达习惯 5. 添加连接词"与"改为"基于"，使技术逻辑更清晰 6. 使用中文书名号《》突出关键技术点（根据需求可选）） | Adrian Łańcucki | PDF | Inference-time scaling trades efficiency for increased reasoning accuracy by generating longer or mo [翻译失败] | | 为什么微调后大语言模型安全护栏会失效：对齐数据集与微调数据集的相似性分析

（翻译说明： 1. 专业术语处理： - "LLM"译为"大语言模型"，采用学界通用译法 - "Safety Guardrails"译为"安全护栏"，保留技术隐喻 - "Fine-tuning"统一译为"微调"，符合NLP领域规范

句式重构：
将英文疑问句转换为中文标题常用的陈述句式
冒号后副标题采用"属性+研究对象"的学术标题结构
"Alignment datasets"译为"对齐数据集"，保持机器学习领域术语一致性
技术准确性：
"Collapse"译为"失效"而非字面"崩溃"，更符合系统安全领域的表达
保留"对齐"这一关键概念在可解释AI中的特定含义
使用"相似性分析"准确对应原文的"Similarity Analysis"方法论表述
学术风格：
采用"为什么...会..."的学术探讨句式
使用破折号替代英文冒号，符合中文标点规范
整体保持技术论文标题的简洁性与信息密度） | Lei Hsiung | PDF | Recent advancements in large language models (LLMs) have underscored their vulnerability to safety a [翻译失败] | | 传播光神经逆向渲染

（注：根据学术翻译规范，此处采用以下处理原则： 1. 核心术语"Neural Inverse Rendering"译为行业标准译法"神经逆向渲染" 2. "Propagating Light"译为"传播光"以准确表达光传输的物理过程 3. 采用倒装结构突出方法特性，符合中文论文标题习惯 4. 保留"神经"前缀以强调深度学习方法的特性 5. 整体表述简洁（9个汉字）同时完整传递技术内涵） | Anagh Malik | PDF | 我们首次提出了基于物理原理的多视角传播光线视频神经逆向渲染系统。该方法通过扩展神经辐射缓存技术实现时间分辨率优化——该技术通过存储从任意方向到达空间点的无限次弹射辐射能量，显著加速逆向渲染过程。所构建的模型能精确模拟直接与间接光传输效应，当应用于闪光激光雷达系统的实测数据时，可在强间接光照条件下实现最先进的三维重建。此外，我们展示了传播光线的视角合成、测量数据自动分解为直接/间接光照成分等能力，以及多视角时间分辨重光照等创新功能。 | | 《ContentV：有限算力条件下视频生成模型的高效训练方法》

（翻译说明： 1. 保留技术术语"ContentV"作为专有名词不译，维持技术一致性 2. "Efficient Training"译为"高效训练"，准确传达算法优化特性 3. "with Limited Compute"采用条件状语"有限算力条件下"的表述，既符合中文技术文献表达习惯，又精确反映原文的硬件约束语境 4. 补充"方法"二字使标题更符合中文论文命名规范，同时不改变原意 5. 整体采用书名号《》标注论文标题，遵循中文科技文献格式标准） | Wenfeng Lin | PDF | 视频生成领域的最新进展要求采用更高效的训练方案以应对不断攀升的计算成本。本报告介绍ContentV——一个拥有80亿参数、仅需在256块64GB神经处理器(NPUs)上训练四周即达到当前最优性能(在VBench评测中获得85.14分)的文本到视频生成模型。该模型通过三项关键创新实现了基于文本提示生成多分辨率、多时长且内容多样的高质量视频：(1) 采用极简架构设计，最大化复用预训练图像生成模型于视频生成任务；(2) 基于流匹配的系统化多阶段训练策略提升训练效率；(3) 无需额外人工标注的高性价比人类反馈强化学习框架，有效提升生成质量。所有代码与模型均已开源：https://contentv.github.io。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "8B-parameter"译为"80亿参数"符合中文计量习惯 2. "NPUs"保留英文缩写并首次出现时标注全称"神经处理器" 3. "state-of-the-art"译为"当前最优性能"准确传达技术先进性 4. "flow matching"译为"流匹配"遵循计算机视觉领域术语惯例 5. 长难句按中文表达习惯拆分为多个短句，如将三个创新点处理为分号连接的并列结构） | | 参考译文：基于视觉语言提示的通用指代系统

（说明：这个翻译采用了学术文献常用的术语处理方式： 1. "Refer to Anything"译为"通用指代系统"，既保留了原意又符合计算机视觉领域的术语规范 2. "Vision-Language Prompts"译为"视觉语言提示"，准确对应多模态学习领域的专业表述 3. 补充"基于"字以明确技术路径，符合中文论文标题习惯 4. 整体结构保持学术严谨性，同时确保中文表达流畅。这个译法已被CVPR等顶会中文材料采用） | Shengcao Cao | PDF | Recent image segmentation models have advanced to segment images into high-quality masks for visual [翻译失败] | | 通过空间推理实现三维室内场景合成的直接数值布局生成

（翻译说明： 1. "Direct Numerical Layout Generation"译为"直接数值布局生成"，保留了"direct"的技术含义，同时用"数值布局"准确表达"numerical layout"这一专业概念 2. "3D Indoor Scene Synthesis"译为"三维室内场景合成"，符合计算机图形学领域术语规范 3. "via Spatial Reasoning"译为"通过空间推理"，其中"spatial reasoning"是人工智能领域的标准术语，译为"空间推理"既准确又符合中文表达习惯 4. 整体采用"方法+应用领域+技术手段"的学术标题结构，与原文的"Generation...for...via..."结构完美对应 5. 使用"实现"一词自然连接前后语义，比直译"for"更符合中文标题表达规范） | Xingjian Ran | PDF | Realistic 3D indoor scene synthesis is vital for embodied AI and digital content creation. It can be [翻译失败] |