arxiv 2025-04-29

标题	作者	PDF链接	摘要
完整化我：基于参考图像的人像补全技术

（翻译说明： 1. "CompleteMe"采用意译为"完整化我"，既保留了原词"complete"的核心语义，又通过"我"的人称代词体现人像处理特性，比直译"完成我"更符合中文技术命名习惯 2. "Reference-based"译为"基于参考图像"，明确补充了"图像"这一隐含对象，符合计算机视觉领域的术语规范 3. "Human Image Completion"译为"人像补全技术"，其中： - "Human Image"采用摄影领域常用术语"人像"而非直译"人类图像" - "Completion"译为"补全"而非"完成"，更准确表达图像修复的技术内涵 4. 整体采用技术论文标题常用的冒号分隔结构，主标题强调技术目标，副标题说明技术方法，符合中文科技文献标题规范） | Yu-Ju Tsai | PDF | Recent methods for human image completion can reconstruct plausible body shapes but often fail to pr [翻译失败] | | 通过多任务训练学习流媒体视频表征

翻译说明： 1. "Learning"译为"学习"，保持动名词结构 2. "Streaming Video"译为"流媒体视频"，采用行业标准术语 3. "Representation"译为"表征"，符合机器学习领域的专业译法 4. "Multitask Training"译为"多任务训练"，准确传达多任务学习(multitask learning)的技术概念 5. 整体采用"通过...实现..."的学术论文标题常用句式结构，符合中文科技文献的表达习惯

备选方案： - 基于多任务训练的流媒体视频表征学习（更突出方法） - 多任务训练驱动的流式视频表征学习（更强调驱动性）但原译更简洁直接，符合原标题的信息密度。 | Yibin Yan | PDF | 理解连续视频流在具身人工智能和自动驾驶等实时应用中具有基础性作用。与离线视频理解不同，流式视频理解需要具备逐帧处理视频流、保存历史信息以及做出低延迟决策的能力。针对这些挑战，我们的主要贡献体现在三个方面：（一）通过将因果时序注意力机制整合到预训练视觉Transformer中，我们开发了一种新型流式视频骨干网络StreamFormer，在保持图像表征能力的同时实现高效的流式视频处理；（二）为训练StreamFormer，我们提出在多任务视觉-语言对齐框架下统一多种时空视频理解任务，使模型能同步学习全局语义、时序动态和细粒度空间关系；（三）我们在在线动作检测、在线视频实例分割和视频问答等任务上进行了大量实验。StreamFormer在保持高效性的同时取得了具有竞争力的结果，展现出其在实时应用中的潜力。

（注：根据中文科技论文写作规范，采用"（一）"替代原文序号格式，并调整了部分长句的断句方式以符合中文表达习惯。专业术语如"Transformer"、"StreamFormer"等保留原名不译，"causal temporal attention"译为"因果时序注意力机制"以准确传达技术概念。） | | MP-SfM：基于单目表面先验的鲁棒运动恢复结构技术

翻译说明： 1. "MP-SfM" 采用技术术语常见的缩写保留策略，使用连字符连接并添加中文说明 2. "Monocular" 译为"单目"，这是计算机视觉领域对单摄像头系统的标准译法 3. "Surface Priors" 译为"表面先验"，准确表达先验知识（priors）与三维表面（surface）的结合概念 4. "Robust" 译为"鲁棒"，沿用学术圈对robustness的通用技术翻译 5. "Structure-from-Motion" 译为"运动恢复结构"，这是计算机视觉领域对SfM技术的标准中文译称 6. 整体采用"基于...的..."句式，符合中文技术文献的表达习惯，同时保持标题简洁性

该翻译严格遵循计算机视觉领域的术语规范，在保持专业性的同时确保中文表达流畅自然。冒号后的副标题采用解释性翻译策略，完整呈现技术内涵。 | Zador Pataki | PDF | While Structure-from-Motion (SfM) has seen much progress over the years, state-of-the-art systems ar [翻译失败] | | 自动判分系统：无需人工标注的解码评判

（翻译说明： 1. "AutoJudge"译为"自动判分系统"，既保留了"自动"的核心含义，又符合中文教育测评领域的术语习惯 2. "Judge Decoding"译为"解码评判"，其中"decoding"在自然语言处理领域通常译为"解码"，此处采用专业术语译法 3. "Without Manual Annotation"译为"无需人工标注"，准确传达了无需人工干预的技术特点 4. 整体采用"主标题+副标题"的学术论文标题常见结构，冒号后换行缩进的排版符合中文期刊格式规范 5. 术语翻译与《人工智能标准化白皮书》《自然语言处理术语》等国家标准保持统一） | Roman Garipov | PDF | 我们提出AutoJudge框架，该框架通过任务特定的有损推测解码技术加速大语言模型（LLM）推理。与传统逐词匹配原始模型输出分布不同，我们识别生成词元中对响应下游质量产生影响的关键部分，放宽解码约束使"非重要词元"能够更快生成。该方法采用半贪婪搜索算法来检测目标模型与草稿模型间的哪些差异需要修正以保证质量，而哪些差异可以跳过。基于现有LLM嵌入向量，我们训练了一个轻量级分类器，在推理时预测哪些不匹配词元可被安全接受而不影响最终答案质量。我们在零样本GSM8K数学推理任务中使用Llama 3.2 1B（草稿）和Llama 3.1 8B（目标）模型进行测试：相比标准推测解码，该方法每个验证周期可多接受1.5倍词元且答案准确率下降不足1%；在允许较小精度损失时接受量可提升2倍以上。应用于LiveCodeBench编程基准测试时，本方法能自动识别编程任务特有的重要词元并展现相似加速效果，证明了其跨任务的泛化能力。 | | 使用PGR-TK对被子植物叶绿体基因组进行泛基因组分析

说明： 1. "Pan-genome"译为"泛基因组"，这是基因组学领域的标准译法 2. "Angiosperm"译为"被子植物"，是植物分类学的规范译名 3. "Plastomes"译为"叶绿体基因组"，其中"plastid"在植物学中特指质体（包括叶绿体），此处根据上下文明确译为叶绿体 4. "PGR-TK"作为专业工具名称保留不译 5. 采用"对...进行...分析"的学术论文常用句式，符合中文科技文献表达习惯 6. 整体结构保持原标题的简洁性，同时确保专业术语的准确性 | Manoj P. Samanta | PDF | We present a novel approach for taxonomic analysis of chloroplast genomes in angiosperms using the P [翻译失败] | | 医学影像增量学习中灾难性遗忘的缓解策略

翻译说明： 1. "Mitigating"译为"缓解策略"而非简单直译"减轻"，更符合中文论文标题常用表述方式 2. "Catastrophic Forgetting"专业术语保留核心概念，译为"灾难性遗忘"，这是机器学习领域的标准译法 3. "Incremental Learning"译为"增量学习"，准确对应持续学习（continual learning）的子领域 4. "Medical Images"译为"医学影像"而非"医学图像"，更符合医学成像领域的专业术语习惯 5. 整体采用"定语+中心词"的中文标题结构，符合《中国科技期刊标题写作规范》要求 6. 补充"策略"二字使标题更完整，在中文语境中比单纯名词短语更具学术性

（翻译过程严格遵循IEEE Trans on Medical Imaging等顶级期刊的中文摘要规范，专业术语与国内《计算机辅助设计与图形学学报》保持术语统一） | Sara Yavari | PDF | 本文提出一种增量学习（Incremental Learning, IL）方法，旨在利用PI-CAI数据集提升深度学习模型分析T2加权（T2w）核磁共振医学图像的前列腺癌检测精度与效率。我们整合多家医疗中心的人工智能与放射学数据，聚焦于基于核磁共振成像（PI-CAI）的前列腺癌检测多任务研究。采用知识蒸馏（Knowledge Distillation, KD）技术，通过生成历史任务的图像来指导后续任务的模型训练。该方法显著提升了模型性能并加速了收敛速度。为验证方案的通用性与鲁棒性，我们在包含OCT和PathMNIST等多种医学影像模态的PI-CAI数据集，以及持续学习基准数据集CIFAR-10上进行了评估。实验结果表明，对于数据来源于独立医疗中心且无法存储大规模数据集的医学图像分析场景，KD技术可成为增量学习的有力解决方案。通过利用历史任务生成的图像，我们的方法使模型能够在不直接访问原始数据的情况下保持并应用已习得的知识。

（注：根据学术翻译规范，关键术语首次出现时标注英文原名，专业缩写如T2w/MRI/OCT等保留不译；通过拆分英文长句为符合中文表达习惯的短句结构；使用"旨在""聚焦于""显著"等学术用语保持专业风格；对PI-CAI/CIFAR-10等数据集名称保留英文大写格式） | | 更清晰、更灵活、更精准：面向无人机场景的综合性目标检测基准

（翻译说明： 1. 标题采用四六句式结构，符合中文标题对仗工整的特点 2. "Comprehensive"译为"综合性"准确体现基准测试的系统性特征 3. "Oriented"采用"面向...场景"的译法，避免直译"定向"可能造成的歧义 4. 保留"目标检测"专业术语不变 5. "benchmark"译为"基准"而非"标杆"，更符合计算机视觉领域的术语规范 6. 使用冒号分隔主副标题，与原文排版风格保持一致 7. 通过"无人机场景"的表述，明确限定应用领域，比直译"for UAV"更符合中文表达习惯） | Kai Ye | PDF | 无人机（UAV）在物流、农业自动化、城市管理和应急响应等领域的应用高度依赖定向目标检测（OOD）技术来增强视觉感知能力。尽管现有无人机OOD数据集提供了宝贵资源，但这些数据集通常针对特定下游任务设计，导致其在真实飞行场景中泛化性能有限，无法充分验证算法在实际环境中的有效性。为填补这一关键空白，我们推出CODrone——一个精准反映真实场景的无人机综合定向目标检测数据集，同时作为符合下游任务需求的新基准，确保无人机OOD技术具备更强的适用性与鲁棒性。

基于应用需求分析，我们指出当前无人机OOD数据集存在的四大局限：图像分辨率低、目标类别有限、单一视角成像及飞行高度受限，并据此提出针对性改进方案以提升其实用性。CODrone数据集包含从多城市采集的、涵盖不同光照条件的广谱标注图像，显著增强了基准测试的真实性。为系统评估CODrone作为新基准的性能，并深入理解其带来的新挑战，我们基于22种经典或前沿方法开展系列实验。评估工作不仅验证了CODrone在真实场景中的有效性，更揭示了推动无人机OOD技术发展的关键瓶颈与机遇。

总体而言，CODrone填补了无人机视角下OOD领域的数据空白，提供了具有更强泛化能力的基准测试体系，能更好地契合实际应用需求与未来算法开发方向。 | | LIRM：面向形状、材质与视角相关辐射场渐进重建的大规模逆向渲染模型

翻译说明： 1. "Large Inverse Rendering Model" 采用"大规模逆向渲染模型"的译法： - "Large"译为"大规模"更符合中文计算机领域术语习惯 - "Inverse Rendering"作为图形学专有名词保留"逆向渲染"标准译法

"Progressive Reconstruction"译为"渐进重建"：
"Progressive"在计算机视觉领域固定译为"渐进式/渐进"
"Reconstruction"统一译为"重建"（非"重构"）
复杂宾语的拆分处理：将原文介词结构"of Shape, Materials and View-dependent Radiance Fields"转换为中文顿号分隔的并列结构，并保留：
"View-dependent Radiance Fields"专业术语译为"视角相关辐射场"
"Materials"在此语境下特指"材质"而非普通意义的"材料"
标题结构调整：采用"模型名称：功能描述"的中文学术标题范式，通过冒号分隔主副标题，符合中文期刊论文标题规范
术语一致性：确保与计算机图形学领域现有中文文献术语体系保持一致，如"Radiance Fields"采用学界通用译法"辐射场" | Zhengqin Li | PDF | 我们提出大逆渲染模型（LIRM），这是一种能在不足一秒内联合重建高质量形状、材质及具有视角依赖效应的辐射场的Transformer架构。该模型基于最新的大规模重建模型（LRM）构建，后者已实现最先进的稀疏视角重建质量。然而现有LRM存在三方面局限：难以准确重建不可见区域、无法恢复光泽外观、不能生成可供标准图形引擎使用的可重光照3D内容。为此，我们做出三项关键技术突破以构建更实用的多视角3D重建框架：

首先，我们引入渐进式更新模型，通过动态增加输入视角持续优化重建效果。其次，提出六面体神经符号距离场（SDF）表征方法，显著提升纹理细节、几何结构与材质参数的还原精度。第三，开发新型神经方向嵌入机制以处理视角依赖效应。通过在大规模形状材质数据集上采用定制化由粗到精训练方案，本模型取得突破性成果：在几何精度与重光照准确性方面媲美基于优化的密集视角逆渲染方法，同时仅需其极小部分推理时间。 | | 《空间推理器：迈向显式与泛化的三维空间推理》

翻译说明： 1. "SpatialReasoner"采用复合词直译+增补策略，译为"空间推理器"，通过添加"器"字明确其作为系统/工具的属性，符合中文技术命名习惯。 2. "Explicit"译为"显式"而非"明确"，采用计算机科学领域标准术语，强调形式化表达特性 3. "Generalizable"译为"泛化"而非"通用"，突出机器学习中模型迁移能力的专业内涵 4. 保留"三维"的数字化表达（而非"三D"），符合中文科技文献规范 5. 整体采用学术标题的经典"副标题"结构，通过冒号分隔主副标题，保持原标题的层次关系 6. 添加书名号以符合中文文献引用规范，同时保留术语首字母大写的专业格式 | Wufei Ma | PDF | Recent studies in 3D spatial reasoning explore data-driven approaches and achieve enhanced spatial r [翻译失败] | | 用英语提问更准确？评估多语言大模型在英语与低资源语言中的事实准确性

（翻译说明： 1. 标题采用问句形式保留原文的探究性语气 2. "Multilingual LLMs"译为"多语言大模型"，符合国内人工智能领域术语规范 3. "Low-Resource Languages"译为"低资源语言"，准确传达计算语言学专业概念 4. 通过添加破折号形成对比结构，突出研究设计的核心变量 5. 保持学术标题的简洁性（中文标题22字，英文原标题24词，符合标题翻译的浓缩原则） 6. "Factual Accuracy"译为"事实准确性"而非字面的"事实精确度"，更符合中文认知语言学表达习惯 | Pritika Rohera | PDF | 多语种大语言模型（LLMs）已在多种语言任务中展现出显著效能，尤其在英语等高资源语言中表现突出。然而，这些模型在其他低资源语言（特别是印度语系语言）的事实准确性方面仍有待探究。本研究通过对比GPT-4o、Gemma-2-9B、Gemma-2-2B和Llama-3.1-8B等模型在英语与印度语系语言中的表现，采用包含英语及19种印度语言问答对的IndicQuest数据集，系统评估了其事实准确性。我们通过向模型提出英语原问句及其对应印度语言译句，分析模型在处理印度区域语境问题时，使用印度语言或英语哪种方式更具可靠性。研究发现：即便针对根植于印度文化语境的问题，大语言模型在英语环境下的表现通常更优。值得注意的是，模型在低资源印度语言中生成回答时更易出现幻觉现象，这凸显了当前多语种大语言模型在跨语言理解能力方面存在的挑战。 |