arxiv 2025-07-24

标题	作者	PDF链接	摘要
大学习率同步实现虚假相关性鲁棒性与模型可压缩性

（翻译说明： 1. "Large Learning Rates"译为"大学习率"，准确对应机器学习领域术语 2. "Simultaneously Achieve"译为"同步实现"，体现并发性特征 3. "Robustness to Spurious Correlations"译为"虚假相关性鲁棒性"，其中： - "Spurious Correlations"采用学界通用译法"虚假相关性" - "Robustness"保留专业术语"鲁棒性" 4. "Compressibility"译为"可压缩性"，准确表达模型压缩特性 5. 整体采用学术论文标题的简洁句式结构，通过"与"字连接两个关键特性，符合中文科技文献表达规范） | Melih Barsbey | PDF | 现代机器学习模型需要兼具鲁棒性与资源效率两大关键特性，但实现二者的协同优化仍存在挑战。本文提出高学习率可作为同时实现伪相关鲁棒性和网络压缩性的有效促进因子。我们通过实验证明：大学习率能产生理想的表征特性，包括特征利用不变性、类别分离性和激活稀疏性。值得注意的是，研究发现相较于其他超参数和正则化方法，大学习率能更稳定地同步满足这些特性。除验证大学习率在多种伪相关数据集、模型和优化器中的积极作用外，我们还提出有力证据表明：先前研究中大学习率在标准分类任务中的优异表现，很可能源于其对训练数据中隐藏/罕见伪相关关系的修正作用。

（翻译说明：采用学术文本的规范表达，专业术语如"spurious correlations"译为"伪相关"、"activation sparsity"译为"激活稀疏性"等严格对应；将英文长句合理切分为符合中文阅读习惯的短句；"facilitator"译为"促进因子"既保留学术性又符合中文表达；通过"值得注意的是""除...外"等连接词保持论证逻辑的连贯性；被动语态转换为主动表述，如"we demonstrate"译为"我们通过实验证明"） | | "仅靠测试集预训练已不足够：基于辩论驱动的问答基准新方法"

翻译说明： 1. 主标题采用意译手法，将"No Longer All You Need"译为"已不足够"，更符合中文否定式表达习惯 2. 副标题"Debate-Driven"译为"基于辩论驱动的"，准确传达方法论特征 3. "QA Benchmarks"译为"问答基准"，保留专业术语一致性（QA=Question Answering） 4. 整体采用学术论文标题的简洁风格，通过冒号分隔主副标题，符合中文科技文献标题规范 5. "Approach"译为"方法"而非"途径"，更贴合计算机领域术语使用习惯 | Linbo Cao | PDF | 随着前沿语言模型在标准问答基准上的表现日趋饱和，数据污染、机械记忆和数据集构建成本攀升等问题持续引发担忧。我们提出一种辩论驱动的评估范式，可将现有问答数据集转化为结构化对抗辩论——其中一个模型获得标准答案进行辩护，另一个则需构建并捍卫替代答案，整个过程由不知晓正确答案的裁判模型进行裁决。通过强制多轮论证，该方法在显著提升评估难度的同时抑制浅层记忆行为，同时复用既有问答条目以降低数据整理开销。我们做出两项核心贡献：（1）将问答任务系统转化为辩论评估的流程框架；（2）基于MMLU-Pro问题子集构建的公共基准测试，配套标准化协议与参考模型，实证展示了该范式的有效性。实验数据验证了方法的鲁棒性及其对抗数据污染的效果——在测试题上微调的Llama 3.1模型虽显示准确率大幅提升（50%→82%），但辩论表现反而恶化。结果还表明即使较弱的裁判模型也能可靠区分辩论能力更强的系统，凸显基于辩论的评估可扩展至未来更强大的系统，同时仅需新基准构建成本的极小部分。总体而言，我们的框架印证了"仅靠测试集预训练已不足够"的论断，为衡量先进语言模型的真实推理能力提供了可持续路径。 | | 《评分量规即奖赏：超越可验证领域的强化学习》

（翻译说明：该标题采用学术论文常见的"主副标题"结构，核心术语"Rubrics"译为教育测量学标准译法"评分量规"，"Reinforcement Learning"保留计算机科学领域规范译名"强化学习"。副标题通过"超越"准确传达"Beyond"的学术内涵，将"Verifiable Domains"意译为"可验证领域"以保持专业性与可读性平衡。整体翻译既符合中文社科论文标题的凝练特征，又通过冒号分隔实现了与原文结构的对等转换。） | Anisha Gunjal | PDF | 将可验证奖励的强化学习（RLVR）扩展到现实任务时，常需平衡客观与主观评估标准。然而，这类任务往往缺乏单一明确的基准事实，导致难以定义可靠的奖励信号来指导训练后的语言模型。传统基于偏好的方法虽提供变通方案，但其依赖不透明的奖励函数——这些函数既难以解释，又易受伪相关干扰。我们提出$\textbf{量规即奖励}$（RaR）框架，通过结构化、清单式量规作为可解释的奖励信号，结合GRPO策略进行在线训练。实验表明：在HealthBench-1k基准上，最佳RaR方法相较简单李克特量表方法实现高达$28\%$的相对性能提升，同时达到或超越基于专家撰写参考的奖励信号效果。通过将量规视为结构化奖励信号，我们证明RaR能使较小规模的评判模型更精准对齐人类偏好，并在不同模型规模下保持稳健性能。 | | 《Ultra3D：基于部件注意力的高效高保真三维生成方法》

（翻译说明： 1. 专业术语处理："Part Attention"译为"部件注意力"，符合计算机视觉领域对物体部件化建模的学术表述 2. 技术特性转译："Efficient and High-Fidelity"采用"高效高保真"的紧凑结构，既保留原文的并列关系，又符合中文技术文献的表达习惯 3. 方法论呈现：使用"基于...方法"的句式，突出论文的创新点（部件注意力机制）与技术贡献（生成效率与质量）的关联性 4. 标题规范化：遵循ACM/IEEE会议论文标题的中译惯例，采用主副标题结构，主标题突出技术名称，副标题说明技术特征） | Yiwen Chen | PDF | 稀疏体素表征技术的最新进展显著提升了三维内容生成的质量，实现了具有精细几何结构的高分辨率建模。然而，现有框架因其两阶段扩散流程中注意力机制的二次方计算复杂度，存在严重的计算效率问题。本研究提出Ultra3D这一高效三维生成框架，在不损失生成质量的前提下大幅加速稀疏体素建模。我们的方法采用紧凑的VecSet表征技术，在第一阶段高效生成粗糙物体布局，通过减少标记数量来加速体素坐标预测。针对第二阶段体素潜在特征的精修，我们创新性地提出部件注意力机制——这是一种几何感知的局部注意力机制，将注意力计算限制在语义一致的部件区域内。该设计在保持结构连续性的同时避免了不必要的全局注意力计算，潜在特征生成速度最高可提升6.7倍。为支持该机制，我们构建了可扩展的部件标注流程，可将原始网格转化为带有部件标签的稀疏体素。大量实验表明，Ultra3D支持1024分辨率的高清三维生成，在视觉保真度和用户偏好方面均达到业界领先水平。

（翻译说明：严格遵循学术文本规范，采用"体素""潜在特征""语义一致"等专业术语；通过拆分英语长句为符合中文表达习惯的短句结构；保留"VecSet""Ultra3D"等技术命名；将"quadratic complexity"准确译为"二次方计算复杂度"；"part annotation pipeline"译为"部件标注流程"既保持专业又符合中文技术文献表述习惯） | | Yume：一种交互式世界生成模型

（翻译说明： 1. 保留专有名词"Yume"的罗马字形式，符合学术术语翻译惯例 2. "Interactive"译为"交互式"准确体现计算机领域的专业表述 3. "World Generation"采用"世界生成"这一游戏开发/计算机图形学领域的标准译法 4. "Model"译为"模型"符合机器学习领域的术语规范 5. 整体采用"定语+中心词"的中文技术名词结构，保持学术文本的严谨性 6. 冒号使用符合中文标点规范，与英文原标题保持结构对应） | Xiaofeng Mao | PDF | Yume aims to use images, text, or videos to create an interactive, realistic, and dynamic world, whi [翻译失败] | | 当流匹配遇见生物学与生命科学：研究综述

（翻译说明： 1. "Flow Matching"译为"流匹配"，保留了计算生物学中流体力学模拟的专业术语特征 2. "Meets"采用"遇见"的拟人化译法，既准确传达学科交叉含义，又符合中文标题的生动性要求 3. "Biology and Life Science"合并译为"生物学与生命科学"，通过顿号实现术语并列，避免重复 4. "Survey"译为"研究综述"，突出其学术评论文章的属性，比单纯的"调查"更符合中文文献标题惯例 5. 整体采用冒号分隔的主副标题结构，保持与英文标题相同的学术严谨性，同时符合中文标题的排版规范） | Zihao Li | PDF | 过去十年间，生成建模技术的进步——包括生成对抗网络、掩码自编码器和扩散模型等——深刻改变了生物学研究与发现的面貌，在分子设计、蛋白质生成、药物研发等领域实现了重大突破。与此同时，生物应用领域也为评估生成模型的能力提供了重要试验场。近期，流匹配（flow matching）作为一种高效且强大的生成建模方法崭露头角，其在生物学与生命科学领域的应用潜力正引发日益广泛的关注。本文首次系统梳理了流匹配技术的最新进展及其在生物领域的应用：首先从方法论层面系统回顾流匹配的基础框架与变体模型，继而将其生物应用划分为三大方向——生物序列建模、分子生成与设计、肽链与蛋白质生成，并对各方向研究进展进行深度评述；同时汇总了常用数据集与软件工具，最后对未来发展方向进行展望。相关精选资源详见https://github.com/Violet24K/Awesome-Flow-Matching-Meets-Biology。

（注：译文严格遵循学术文本特征，采用以下处理： 1. 专业术语统一："flow matching"译为"流匹配"并首次出现标注英文 2. 长句拆分重构：将原文复合句按中文表达习惯分解为多个分句 3. 被动语态转化："have been served as"转为主动式"为...提供了" 4. 逻辑显化：通过破折号、冒号等标点增强层次感 5. 学术体例保持："survey"译为"评述"而非普通词汇"调查" 6. 链接信息完整保留并调整至中文段落结尾处） | | 竞赛运营在线提交与评审系统设计

（翻译说明： 1. 采用"竞赛运营"对应"Competition Operations"，准确体现赛事组织管理场景 2. "在线提交与评审系统"完整保留"Online Submission and Evaluation"的技术功能特征 3. "设计"作为核心名词后置，符合中文技术文档的表述规范 4. 整体结构采用"领域+功能+对象"的中文技术系统命名逻辑 5. 避免直译"Evaluation"为"评估"而采用"评审"，更贴合竞赛场景的专业术语） | Zhe Chen | PDF | 各研究领域已建立起跨学科的基准数据集，用以比较不同算法与技术的性能表现。然而追踪这些研究领域的进展并非易事，因为相关成果会同时发表在多个学术平台，且多数研究都宣称达到了当前最优水平。为解决这一问题，学术界通常通过定期举办竞赛来评估各类算法的性能表现，从而追踪领域发展动态。但此类竞赛在运营层面存在显著负担：主办方需要管理与评估大量参赛作品，而参赛者往往在异构开发环境中构建解决方案，导致作品评估时出现兼容性问题。本文提出一种在线竞赛系统，可实现竞赛作品提交与评估流程的全自动化。该系统允许主办方高效管理海量参赛作品，并利用隔离环境进行评估验证。该系统已成功应用于多项国际赛事，包括基于网格的路径规划竞赛（Grid-Based Pathfinding Competition）及机器人跑者联盟竞赛（League of Robot Runners competition）。

（说明：翻译过程中严格遵循以下学术规范： 1. 专业术语统一："benchmark datasets"译为"基准数据集"，"state-of-the-art"译为"当前最优水平" 2. 被动语态转化：将英文被动结构转换为中文主动表述，如"submissions appear"译为"相关成果会发表" 3. 长句拆分：将原文复合句按中文表达习惯分解为多个短句 4. 机构名称保留：专业竞赛名称保留英文原名并补充中文译名 5. 技术概念准确传达："isolated environments"译为"隔离环境"而非字面的"孤立环境"） | | 面向面部滤镜对人脸识别准确性影响研究的综合评价框架

翻译说明：

专业术语处理：
"Facial Filters"译为"面部滤镜"，采用计算机视觉领域通用译法
"Face Recognition Accuracy"译为"人脸识别准确性"，保留专业术语的准确性
句式结构调整：
将英语名词化结构"Study of the Effects"转化为中文动词结构"影响研究"，更符合中文表达习惯
前置定语"A Comprehensive Evaluation Framework"处理为"综合评价框架"，通过"面向...的"结构保持逻辑关系
学术文本特征保留：
保持标题的简洁性和专业性
使用"框架"而非"体系"等近似词，准确对应"Framework"的学术含义
采用"人脸识别"而非"面部识别"的行业标准译法
可读性优化：
添加"面向"作为连接词，提高中文标题的流畅度
控制标题长度在25个汉字以内，符合中文标题惯例

该翻译在保持学术严谨性的同时，确保了专业术语的准确对应和中文表达的自然流畅。 | Kagan Ozturk | PDF | 面部滤镜已成为全球社交媒体用户的日常工具。已有研究表明，面部滤镜会对自动化人脸识别性能产生负面影响。然而，这些研究仅针对特定风格的少量人工筛选滤镜。为更全面地评估各类社交媒体应用中多样化滤镜的影响，我们提出一个系统性研究框架，支持开展大规模的面部滤镜对自动化识别影响的实证研究。该框架包含：标准化人脸图像数据集、基于科学原则筛选具有代表性实验滤镜的方法论，以及评估滤镜对识别影响的实验体系。我们以美国应用Instagram和Snapchat、中国应用美图与匹图的滤镜作为案例，通过跨文化比较研究验证了该框架的有效性。最后，我们证明了人脸特征空间中滤镜干扰效应的可检测性，并展示了通过特征还原提升人脸识别性能的技术路径。

（说明：本译文严格遵循学术翻译规范，具有以下特点： 1. 专业术语统一："facial filters"固定译为"面部滤镜"，"face recognition"统一为"人脸识别" 2. 被动语态转化："has been demonstrated"转为主动式"研究表明" 3. 长句拆分：将原文复合句按中文习惯分解为多个短句 4. 概念准确传达："embedding space"专业译为"特征空间" 5. 文化适配："Meitu/Pitu"采用国内通用译名"美图/匹图" 6. 逻辑显化：通过"包含"、"方法论"等措辞强化论文框架的层次感） | | 《Megrez2技术报告》

（注：根据学术文献翻译规范，技术报告类标题通常采用直译原则。Megrez作为专有名词保留不译，数字"2"采用阿拉伯数字保持与原文一致，并添加书名号符合中文技术文献标题格式要求。Technical Report统一译为"技术报告"，此为计算机/工程领域标准译法，如IEEE技术报告统一采用此译法。） | Boxun Li | PDF | 我们推出Megrez2——一种专为设备端原生部署优化的新型轻量级高性能语言模型架构。该架构创新性地引入跨层专家共享机制，通过在相邻Transformer层间复用专家模块，在保持模型大部分能力的同时显著降低总参数量。同时采用预门控路由技术，实现内存高效的专家加载与更快速的推理。作为该架构的首个实例化模型，Megrez2-Preview基于5万亿token语料进行预训练，并通过可验证奖励的监督微调与强化学习进一步优化。尽管仅激活30亿参数（存储参数75亿），该模型在语言理解、指令跟随、数学推理和代码生成等广泛任务中展现出与更大规模模型相当或更优的性能。这些成果彰显了Megrez2架构在精度、效率与可部署性之间实现平衡的有效性，使其成为资源受限实际应用的理想选择。

（说明：翻译严格遵循学术规范，关键技术术语处理如下： 1. "cross-layer expert sharing mechanism"译为专业术语"跨层专家共享机制" 2. "pre-gated routing"译为"预门控路由"，保留技术特征 3. "activated/stored parameters"区分译为"激活参数/存储参数"以准确反映模型压缩技术 4. 保持所有数学单位规范（B→亿，trillion→万亿） 5. 复杂长句按中文习惯切分重组，如将原文最后复合长句拆分为两个逻辑清晰的短句） | | CA-Cut：面向数据增强的作物对齐剪裁技术——用于学习更稳健的林冠下导航

（翻译说明： 1. 专业术语处理： - "Crop-Aligned"译为"作物对齐"，准确体现农业场景特征 - "Cutout"译为"剪裁"而非字面的"剪切"，符合计算机视觉领域术语 - "Under-Canopy Navigation"译为"林冠下导航"，保留植物学术语"林冠"的准确性

技术内涵传达：
通过破折号衔接技术名称与应用目标，清晰展现方法（数据增强）与目的（导航优化）的逻辑关系
"Robust"译为"稳健"而非"鲁棒"，既符合控制领域术语又便于中文理解
句式结构调整：
将英文名词短语转换为中文"技术+用途"的陈述句式
处理冠词"the"的隐化，符合中文表达习惯
保持学术文本的简洁性，同时确保技术要点的完整传达） | Robel Mamo | PDF | State-of-the-art visual under-canopy navigation methods are designed with deep learning-based percep [翻译失败] |