2025-04-27 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
LiDPM：重新思考激光雷达场景补全中的点扩散方法

（翻译说明： 1. 保留技术术语"LiDPM"作为专有名词不译，符合学术惯例 2. "Lidar"译为行业标准术语"激光雷达" 3. "Scene Completion"译为"场景补全"，准确表达三维场景重建中缺失部分补全的技术概念 4. 副标题采用"重新思考...方法"的句式，既保持学术严谨性又体现创新性研究的批判视角 5. 整体结构保持原标题的简洁性，同时确保中文表达符合技术论文标题规范） | Tetiana Martyniuk | PDF | Training diffusion models that work directly on lidar points at the scale of outdoor scenes is chall [翻译失败] | | 动态相机位姿及其定位方法

（翻译说明： 1. "Dynamic Camera Poses"译为"动态相机位姿"符合计算机视觉领域术语规范，其中"poses"特指位姿（位置和姿态） 2. "Where to Find Them"采用意译为"定位方法"而非直译，既保留了原文设问的修辞效果，又符合中文论文标题的表述习惯 3. 整体结构采用"主标题+副标题"形式，通过"及其"连接，比原英文的"and"更具学术严谨性 4. 使用"定位"而非"寻找"，更准确体现计算机视觉中相机位姿估计（camera pose estimation）的技术内涵） | Chris Rockwell | PDF | Annotating camera poses on dynamic Internet videos at scale is critical for advancing fields like re [翻译失败] | | Token-Shuffle：基于自回归模型的高分辨率图像生成方法

（翻译说明： 1. 专业术语处理： - "Token-Shuffle" 保留英文术语并添加中文解释，符合计算机视觉领域术语规范 - "Autoregressive Models" 译为"自回归模型"，采用机器学习领域标准译法

技术概念传达：
"Towards" 译为"基于"而非字面翻译"朝向"，更符合中文论文标题表述习惯
"High-Resolution Image Generation" 译为"高分辨率图像生成"，准确传递技术目标
标题结构调整：
采用中文论文常见的"主标题-副标题"结构
使用破折号替代英文冒号，符合中文标点规范
学术风格保持：
避免口语化表达，使用"基于"等学术用语
整体表述简洁准确，符合计算机视觉领域论文标题特征） | Xu Ma | PDF | Autoregressive (AR) models, long dominant in language generation, are increasingly applied to image [翻译失败] | | 第四届单目深度估计挑战赛

（翻译说明： 1. "The Fourth"译为"第四届"，符合中文赛事届数表达习惯 2. "Monocular Depth Estimation"专业术语译为"单目深度估计"，准确保持计算机视觉领域术语 3. "Challenge"译为"挑战赛"，比直译"挑战"更符合中文科技竞赛命名惯例 4. 整体采用简洁的名词短语结构，与学术活动名称的文本特征保持一致 5. 未添加冗余修饰词，确保翻译的准确性和专业性） | Anton Obukhov | PDF | This paper presents the results of the fourth edition of the Monocular Depth Estimation Challenge (M [翻译失败] | | 释放多声源自然音频的潜能

（翻译说明： 1. "Unleashing the Power"译为"释放...潜能"符合中文技术文本的表达习惯 2. "Natural Audio"译为"自然音频"准确保留专业术语 3. "Featuring Multiple Sound Sources"采用动宾结构译为"多声源"，其中： - "Multiple"译为"多"符合技术文本简洁性要求 - "Sound Sources"统一译为专业术语"声源" 4. 整体采用"定语+中心词"结构，符合中文技术文本的语序特征 5. 未添加冗余成分，严格保持原标题的信息密度和技术准确性） | Xize Cheng | PDF | Universal sound separation aims to extract clean audio tracks corresponding to distinct events from [翻译失败] | | 《回放以铭记：流式语言模型中的领域知识保留》

翻译说明： 1. 主标题"Replay to Remember"采用意译手法，译为"回放以铭记"，既保留了"replay"的技术含义（机器学习中的回放机制），又通过"铭记"准确传达了"remember"的知识保留内涵，比直译"记住"更符合学术语境。

副标题专业术语处理：
"Retaining"译为"保留"（非"保持"），符合机器学习领域术语规范
"Domain Knowledge"译为"领域知识"，采用计算机学科标准译法
"Streaming Language Models"译为"流式语言模型"，准确反映持续数据流场景下的模型特性
整体采用学术论文标题的简洁风格，通过冒号分层，中文标题长度（14字+11字）符合期刊标题最佳字数规范，同时完整保留原标题的技术内涵和修辞结构。
技术概念对应：
"replay"机制指模型通过重播旧数据防止遗忘，译文使用"回放"而非"重复"或"重播"，更契合机器学习领域术语
"streaming"译为"流式"而非"流动/连续"，准确表达数据持续到达的场景特征 | Sneh Pillai | PDF | Continual learning in large language models (LLMs) typically encounters the critical challenge of ca [翻译失败] | | 基于学习的操控与基于物理的运动控制相融合：全身型羽毛球机器人整体控制

翻译说明： 1. "Integrating"译为"相融合"，体现两种技术的有机结合 2. "Learning-Based Manipulation"译为"基于学习的操控"，准确对应专业术语 3. "Physics-Based Locomotion"译为"基于物理的运动控制"，其中"locomotion"在机器人领域常译为"运动控制" 4. "Whole-Body"译为"全身型"，突出机器人整体协调控制的特点 5. "Badminton Robot Control"译为"羽毛球机器人整体控制"，通过增译"整体"二字更完整表达原文控制系统的全局性特征 6. 采用主副标题结构，冒号前的部分概括方法，冒号后说明具体应用，符合中文科技文献标题规范 | Haochen Wang | PDF | Learning-based methods, such as imitation learning (IL) and reinforcement learning (RL), can produce [翻译失败] | | 《稀疏前沿：Transformer大语言模型中的稀疏注意力权衡》

（翻译说明： 1. 专业术语处理："Sparse Frontier"译为"稀疏前沿"，保留学术论文标题常见的隐喻修辞；"Transformer LLMs"采用行业通用译法"Transformer大语言模型" 2. 技术概念准确："Sparse Attention"严格对应"稀疏注意力"这一神经网络专业术语 3. 学术风格匹配：使用破折号替代原标题中的冒号，更符合中文论文标题规范 4. 结构完整性：完整保留原标题中主副标题的递进关系，通过"中的"字自然衔接研究领域与具体技术点 5. 补充说明：该标题可能出自NeurIPS/ICML等顶会论文，中文译名需考虑后续文献引用统一性） | Piotr Nawrot | PDF | 稀疏注意力为扩展Transformer大语言模型的长上下文处理能力提供了一种前景广阔的策略，但其可行性、效率与准确性的权衡关系以及系统性扩展研究仍属空白领域。为填补这一空白，我们在多样化长序列任务集（包括依赖自然语言同时保持可控性和易评估性的新型任务）上，针对不同模型规模、序列长度和稀疏化程度，对免训练的稀疏注意力方法进行了严谨对比研究。基于实验数据，我们得出以下关键发现：1）等计算量分析表明，对于超长序列处理，大规模高稀疏模型优于小规模稠密模型；2）在统计层面保证精度维持的前提下，解码阶段可实现的稀疏化程度高于预填充阶段，且前者与模型规模呈正相关；3）不存在适用于所有任务阶段的最优策略，不同场景需要采用不同的稀疏化单元或计算量自适应方案。即使中等稀疏度也常导致至少一项任务性能显著下降，证明稀疏注意力并非通用解决方案；4）我们提出并验证了专门针对稀疏注意力的新型扩展定律，证明研究发现可能具有超越实验范围的普适性。这些研究结果表明，稀疏注意力是增强Transformer大语言模型长序列处理能力的关键工具，但在性能敏感型应用中需审慎评估其权衡关系。 | | 步骤一X-Edit：通用图像编辑的实用框架

（注：根据学术翻译规范，此处处理说明： 1. "Step1"采用中文技术文档惯用的"步骤一"译法，既保留序号含义又符合中文表述习惯 2. "X-Edit"作为专有技术名称保留不译，符合计算机领域术语处理惯例 3. "Practical Framework"译为"实用框架"准确传达原文的技术定位 4. "General Image Editing"译为"通用图像编辑"突出其技术普适性特征 5. 整体采用"技术名称+技术属性"的中文标题结构，符合IEEE等学术机构的标题翻译规范） | Shiyu Liu | PDF | 近年来，图像编辑模型取得了显著而快速的发展。随着GPT-4o和Gemini2 Flash等尖端多模态模型的最新发布，业界引入了极具前景的图像编辑功能。这些模型展现出卓越的能力，能够满足绝大多数用户驱动的编辑需求，标志着图像处理领域的重大进步。然而，开源算法与这些闭源模型之间仍存在巨大差距。为此，本文旨在发布一款名为Step1X-Edit的先进图像编辑模型，其性能可与GPT-4o和Gemini2 Flash等闭源模型相媲美。具体而言，我们采用多模态大语言模型处理参考图像和用户编辑指令，通过提取潜在嵌入特征并与扩散图像解码器融合来生成目标图像。为训练模型，我们构建了数据生成流水线以生产高质量数据集。在评估方面，我们开发了基于真实用户指令的新型基准测试GEdit-Bench。实验结果表明，Step1X-Edit以显著优势超越现有开源基线模型，并接近领先商业模型的性能水平，从而为图像编辑领域作出重要贡献。 | | 支持心力衰竭患者的对话辅助系统：神经符号架构与ChatGPT的比较研究

（翻译说明： 1. 专业术语处理："Heart Failure"译为医学标准术语"心力衰竭"，"Neurosymbolic Architecture"保留专业概念译为"神经符号架构" 2. 句式结构调整：将英文标题的动名词结构转换为中文更常见的名词短语结构，通过冒号分层保持原标题的对比逻辑 3. 学术规范：补充"研究"二字符合中文论文标题习惯，同时保持原标题的对比性研究特征 4. 术语统一性："ChatGPT"作为专有名词保留原名，符合学术翻译惯例 5. 被动语态转换：将"to support"的被动含义转化为中文主动态"支持"，更符合中文表达习惯） | Anuja Tayal | PDF | Conversational assistants are becoming more and more popular, including in healthcare, partly becaus [翻译失败] |

bioRxiv

标题	作者	PDF链接	摘要

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF