arxiv 2025-05-26

标题	作者	PDF链接	摘要
《伦理阶梯：通过多步诱导探究大语言模型在复杂道德困境中的价值优先级》

（翻译说明： 1. 主标题采用"阶梯"意象忠实对应"Staircase"的隐喻，同时保留"Ethics"的学科严谨性 2. 副标题处理要点： - "Probing"译为"探究"体现研究性质 - "LLM"保留技术领域通用缩写"大语言模型" - "Multi-Step Induction"译为"多步诱导"准确传达实验方法 - "Complex Moral Dilemmas"译为"复杂道德困境"符合伦理学专业术语 3. 整体采用学术标题的简洁风格，通过冒号分层呈现研究主题与方法，符合中文社科论文标题规范） | Ya Wu | PDF | Ethical decision-making is a critical aspect of human judgment, and the growing use of LLMs in decis [翻译失败] | | 区域编码网络REN：基于图像块编码器的快速高效区域特征提取方法

（翻译说明： 1. 采用"区域编码网络"作为REN的译名，既保留缩写又体现网络特性 2. 副标题采用技术功能描述式译法，将"Patch-Based"译为专业术语"基于图像块" 3. "Fast and Efficient"译为"快速高效"符合中文四字格表达习惯 4. "Encoders"根据上下文译为"特征提取方法"更符合计算机视觉领域术语 5. 整体采用学术论文标题的简洁风格，主副标题用冒号分隔，符合中文期刊标题规范） | Savya Khosla | PDF | We introduce the Region Encoder Network (REN), a fast and effective model for generating region-base [翻译失败] | | 《赞誉抑或败笔：面向大语言模型阿拉伯诗歌理解的多体裁跨时代基准评测》

（翻译说明： 1. 标题采用主副标题结构，主标题"Fann or Flop"译为押韵对仗的"赞誉抑或败笔"，既保留原标题的双关修辞（Fann在阿拉伯语中意为"艺术"，Flop指失败作品），又通过"抑或"体现学术研究的辩证性 2. "Multigenre, Multiera"译为"多体裁跨时代"，其中"跨时代"比直译"多时代"更符合中文社科术语习惯 3. "Benchmark"译为专业术语"基准评测"，比"基准测试"更贴合人文学科研究场景 4. 介词结构"for Arabic Poetry Understanding in LLMs"处理为副标题的定语成分，采用"面向...的"学术论文标题常用句式 5. 整体保留原标题的学术严谨性，同时通过"赞誉/败笔"的文学化表达呼应诗歌研究主题） | Wafa Alghallabi | PDF | Arabic poetry stands as one of the most sophisticated and culturally embedded forms of expression in [翻译失败] | | 《WonderPlay：基于单幅图像与动作输入的动态三维场景生成技术》

（译文说明： 1. 保留核心品牌名"WonderPlay"不译，维持技术标识性 2. "Dynamic 3D Scene Generation"译为"动态三维场景生成"，其中： - "Dynamic"采用计算机图形学标准译法"动态" - "3D Scene"遵循行业惯例译作"三维场景" 3. "from a Single Image and Actions"处理为"基于单幅图像与动作输入"，其中： - 增译"输入"二字明确技术参数属性 - "Actions"译为"动作"而非"行为"，更符合计算机视觉领域术语 4. 整体采用"技术"作为范畴词收尾，符合中文论文标题命名规范 5. 书名号使用遵循中文科技文献标题格式要求） | Zizhang Li | PDF | WonderPlay is a novel framework integrating physics simulation with video generation for generating [翻译失败] | | 建议将"Generative Distribution Embeddings"翻译为：

生成式分布嵌入

翻译说明： 1. "Generative"译为"生成式"，这是机器学习领域的标准译法，与"生成对抗网络"(GAN)等术语保持一致 2. "Distribution"译为"分布"，这是概率统计和机器学习中的规范译法 3. "Embeddings"译为"嵌入"，这是表示学习领域的通用译法

该术语完整保留了原文的技术含义，符合中文机器学习领域的术语规范，且保持了学术表达的准确性。 | Nic Fishman | PDF | 许多现实问题需要在多尺度上进行推理，这就要求模型不仅能处理单个数据点，更要能处理整个数据分布。我们提出生成式分布嵌入（GDE）框架，将自编码器提升至分布空间。在该框架中，编码器作用于样本集合，解码器则被替换为旨在匹配输入分布的生成器。通过将条件生成模型与满足"分布不变性"准则的编码器网络耦合，该框架实现了对分布表征的学习。我们证明GDE能学习嵌入Wasserstein空间的预测充分统计量，其潜在空间距离可近似恢复W_2距离，潜在空间插值可近似恢复高斯分布及高斯混合分布的最优传输轨迹。在合成数据集上系统评估表明，GDE相较现有方法始终表现出更强性能。我们随后将GDE应用于计算生物学六大核心问题：基于谱系追踪数据（15万细胞）的细胞群体表征学习、单细胞转录组扰动效应预测（100万细胞）、细胞表型扰动效应预测（2000万单细胞图像）、组织特异性DNA甲基化模式建模（2.53亿序列）、合成酵母启动子设计（3400万序列）以及病毒蛋白序列的时空建模（100万序列）。 | | 《首终搜索：大型语言模型中的高效测试时扩展方法》

（翻译说明： 1. "First Finish Search"采用意译结合专业术语规范，译为"首终搜索"，既保留"First Finish"的算法特征，又符合中文搜索技术命名惯例 2. "Efficient Test-Time Scaling"译为"高效测试时扩展"，其中： - "Test-Time"严格对应机器学习领域的"测试时"概念 - "Scaling"译为"扩展"准确表达模型规模调整的含义 3. 副标题采用破折号连接，符合中文论文标题格式规范 4. 整体译文在保持学术严谨性的同时，通过"方法"的补充使中文标题更完整，符合国内计算机学科论文标题习惯） | Aradhye Agarwal | PDF | 测试时缩放（Test-time scaling, TTS）通过在推理过程中动态分配计算资源，为提升大语言模型的推理能力提供了新思路。现有TTS方法虽有效，但通常依赖冗长的解码路径或需要生成大量样本，导致标记使用量增加和推理延迟上升。我们观察到一项惊人现象：在推理任务中，较短的推理轨迹比长轨迹更可能得出正确答案。受此启发，我们提出"首达搜索"（First Finish Search, FFS）——一种无需训练的并行解码策略，该策略同时启动n个独立样本，并在任一样本完成时立即返回结果。我们在四个推理模型（DeepSeek-R1、R1-Distill-Qwen-32B、QwQ-32B和Phi-4-Reasoning-Plus）和四个数据集（AIME24、AIME25-I、AIME25-II和GPQA Diamond）上，将FFS与简单解码、束搜索、多数投票及预算强制等方法进行对比评估。实验表明，DeepSeek-R1模型结合FFS在AIME数据集上达到82.23%准确率，较其独立准确率提升15%，几乎媲美OpenAI o4-mini的表现。理论分析揭示了选择最短轨迹停止的合理性，并界定了早期停止可能次优的条件。FFS的优雅简洁证明，简单的TTS策略也能取得卓越效果，这揭示了推理阶段简单方法尚未开发的潜力。 | | 迷失于干草堆：细小的针更难被大语言模型寻获

（翻译说明： 1. 保留原文隐喻性标题风格，将"Haystack"译为"干草堆"，"Needles"译为"针"，符合中文"大海捞针"的习语表达习惯 2. "Smaller Needles"译为"细小的针"既保持字面准确，又暗含"更困难"的隐含意义 3. "LLMs"采用专业术语译法"大语言模型"，全称与缩写形式与中文计算机领域规范一致 4. 使用被动语态"被...寻获"保持学术客观性，同时通过"更难"强化比较级含义 5. 冒号后的解释性标题采用主谓宾结构，符合中文标题语法特征） | Owen Bianchi | PDF | Large language models (LLMs) face significant challenges with needle-in-a-haystack tasks, where rele [翻译失败] | | TokBench：视觉生成前的视觉分词器评估框架

（翻译说明： 1. 专有名词"TokBench"保留不译，符合计算机领域术语惯例 2. "Evaluating"译为"评估"而非"评价"，更符合系统性能测试的语境 3. "Visual Tokenizer"译为"视觉分词器"，准确对应计算机视觉中"tokenizer"的标准译法 4. "before Visual Generation"采用"前"的简洁译法，并通过增译"框架"二字使中文更完整 5. 整体采用技术报告标题的简洁风格，使用冒号分隔主副标题，符合中文科技文献标题规范） | Junfeng Wu | PDF | 本研究揭示了视觉分词器与变分自编码器在保留细粒度特征方面的局限性，并提出了针对两类高挑战性视觉内容（文本与人脸）的重建性能评估基准。图像分词技术通过离散标记的建模简洁性，显著推动了视觉生成与多模态建模的发展，尤其在自回归模型中表现突出。自回归模型通常依赖图像分词器将图像压缩为离散标记进行序列预测，而扩散模型则多在连续潜空间运行以降低计算成本。然而，这两种视觉压缩方法均不可避免地造成视觉信息损失，从而制约了视觉生成质量的上限。

为评估此类压缩损失对人类最敏感的视觉元素（文本与人脸）的影响，我们首先从现有数据集中筛选并构建了兼具清晰度与多样性的文本和人脸图像集。针对文本重建，采用OCR模型量化重建文本的识别准确率；对于人脸重建，则通过测量原始与重建人脸的特征相似度来评估保真度。该方法具有高度轻量化特性，仅需2GB内存和4分钟即可完成评估。

基于该基准，我们系统分析了不同尺度下各类图像分词器与变分自编码器对文本和人脸的重建质量。实验结果表明，现代视觉分词器仍难以有效保留细粒度特征，尤其在较小尺度下表现更为明显。我们进一步将该评估框架扩展至视频领域，对视频分词器进行了全面分析。此外，研究发现传统指标无法准确反映人脸与文本的重建性能，而本文提出的度量指标可形成有效补充。 | | 《接纳矛盾：理论不自洽无碍构建负责任人工智能系统之路》

翻译说明： 1. 主标题"Embracing Contradiction"译为"接纳矛盾"，采用矛盾辩证法中的专业术语表述，准确传达原文对理论对立统一性的认知态度。

副标题处理为冒号分隔的中文标题惯用结构，其中：
"Theoretical Inconsistency"译为"理论不自洽"，严格对应科学哲学术语，较"不一致"更准确体现逻辑体系的内在矛盾性
"Impede the Road"译为"无碍...之路"，文言化处理保持学术庄重感
"Responsible AI Systems"译为"负责任人工智能系统"，采用学界通用译法（参考IEEE标准）
整体保留原文的悖论修辞风格，通过"无碍"与"矛盾"的语义张力，再现原文挑战传统认知范式的理论立场。句式结构重组符合中文社科论文标题的表述习惯，如"构建...之路"的动态化处理。 | Gordon Dai | PDF | 本立场文件提出，负责任人工智能（RAI）指标间常见的理论不一致性——如公平性定义的差异或准确性与隐私间的权衡——应被视为有价值的特征而非待消除的缺陷。我们认为，通过将指标视为分歧目标来驾驭这些不一致性，可产生三大关键优势：（1）规范多元性：保留全套可能相互矛盾的指标，能确保RAI内在的多元道德立场与利益相关者价值得到充分表征；（2）认识完整性：采用多重（有时相互冲突）的指标，能更全面地捕捉多面向的伦理概念，从而比任何单一简化定义保留更高的信息保真度；（3）隐式正则化：对理论冲突目标进行联合优化，可避免对特定指标的过拟合，引导模型在现实复杂性下获得泛化性更强、鲁棒性更优的解决方案。相比之下，通过简化或删减指标来强制实现理论一致性的做法，可能窄化价值多样性、丧失概念深度并损害模型性能。因此我们主张推动RAI理论与实践的范式转变：从受困于不一致性，转向界定可接受的不一致性阈值，并阐明实践中实现稳健近似一致性的作用机制。 | | 通过调制表征学习提升开放集识别性能

（翻译说明： 1. "Boosting"译为"提升"，准确传达性能改进的含义 2. "Open Set Recognition"作为专业术语保留标准译法"开放集识别" 3. "Modulated Representation Learning"译为"调制表征学习"，其中： - "Modulated"采用信号处理领域通用译法"调制" - "Representation Learning"采用机器学习领域标准术语"表征学习" 4. 整体采用"通过...提升..."的主动句式，符合中文技术文献表达习惯 5. 保持学术文本的简洁性，避免冗余修饰词） | Amit Kumar Kundu | PDF | The open set recognition (OSR) problem aims to identify test samples from novel semantic classes tha [翻译失败] |