arxiv 2025-09-18

标题	作者	PDF链接	摘要
计算即教师：将推理算力转化为无参考监督

（注：该翻译严格遵循学术术语规范，采用计算机领域常用译法："Compute"译为"计算/算力"，"Teacher"在知识蒸馏语境下译为"教师模型"，"Inference Compute"译为"推理算力"，"Reference-Free Supervision"译为"无参考监督"。整体译文既保持技术准确性，又符合中文表达习惯，通过冒号结构清晰呈现原标题的隐喻修辞与核心概念。） | Dulhan Jayalath | PDF | Where do learning signals come from when there is no ground truth in post-training? We propose turni [翻译失败] | | Apertus：面向全球语言环境的开放合规大型语言模型的民主化推进

（注：翻译采用学术文本常见的名词化处理与动态对等策略： 1. "Democratizing"译为"民主化推进"，既保留原词核心含义又符合中文社科领域表述习惯 2. "Open and Compliant LLMs"采用扩展译法"开放合规大型语言模型"，通过添加"大型"明确指代对象 3. "Global Language Environments"译为"全球语言环境"，使用社科标准术语 4. 整体保持学术标题的简洁性与概念密度，通过冒号结构维持原文信息层级） | Alejandro Hernández-Cano | PDF | 我们推出Apertus——一套完全开源的大语言模型（LLM）体系，旨在解决当前开源模型生态中的两个系统性缺陷：数据合规性与多语言表征能力。与以往许多仅发布权重却未提供可复现数据流程或忽视内容所有者权利的模型不同，Apertus模型完全基于开放可用数据进行预训练，追溯性遵守robots.txt排除协议，并过滤非许可内容、有害信息及个人身份识别数据。为降低记忆化风险，我们在预训练中采用Goldfish目标函数，在保持下游任务性能的同时强力抑制对数据的逐字复现。该模型还将多语言覆盖扩展至1800余种语言的15万亿token训练数据，其中约40%的预训练数据分配给非英语内容。Apertus提供80亿和700亿参数两个版本，在多语言基准测试中达到完全开源模型的先进水平，媲美甚至超越同类开源权重模型。除模型权重外，我们以宽松许可证形式全面开放开发周期的所有科学成果，包括数据预处理脚本、训练检查点、评估套件和训练代码，以实现透明化审计与扩展。 | | GenExam：一种多学科文本到图像考试生成系统

（注：根据学术翻译规范，"GenExam"采用音意结合译法，既保留名称识别度又体现"生成考试"的核心功能。"Multidisciplinary"译为"多学科"符合教育学领域术语，"Text-to-Image"采用行业通用译法"文本到图像"，整体结构采用中文前置定语的表达习惯，确保学术准确性与语言自然度。） | Zhaokai Wang | PDF | 考试是对专家级智能的基础性检验，需要综合理解、推理与生成能力。现有考试型基准主要关注理解与推理任务，而当前生成式基准侧重于世界知识与视觉概念的阐释，忽视了对严谨绘图类考试的评估。我们推出首个多学科文本到图像考试基准GenExam，涵盖10个学科的1000个样本，采用考试风格提示并按四级分类体系组织。每个题目均配备真实图像参考答案和精细化评分点，以实现对语义准确性与视觉合理性的精确评估。实验表明，即便是GPT-Image-1和Gemini-2.5-Flash-Image等最先进模型，其严格评分通过率也不足15%，多数模型得分接近0%，这印证了我们基准的巨大挑战性。通过将图像生成构建为考试形式，GenExam对模型整合知识、推理与生成的能力进行严格评估，为通向通用人工智能的发展路径提供重要洞见。 | | NIRVANA：面向大语言模型压缩的结构化剪枝范式重构

（注：采用学术翻译原则，保留核心术语"NIRVANA"的原文形态，通过增补"范式重构"准确传达"reimagined"的革新含义，使用"面向"明确技术应用方向，"结构化剪枝"为标准术语直译，整体符合中文科技文献表达规范。） | Mengting Ai | PDF | 大型语言模型（LLM）的结构化剪枝通过移除完整隐藏单元可显著提升效率，但现有方法通常存在明显的性能下降问题——尤其在零样本场景下，且需要依赖监督微调（SFT）或适配器插入等高成本恢复技术。为应对这些关键缺陷，我们提出NIRVANA这一新型剪枝方法，其明确设计目标是在保持即时零样本准确率与强大微调能力之间实现平衡。该方法基于Adam优化动态下神经正切核推导的一阶显著性准则，提供了理论依据充分的剪枝策略，充分尊重模型的核心训练行为。

针对结构化剪枝带来的独特挑战，NIRVANA引入了跨层级和模块（注意力机制与MLP）的自适应稀疏度分配机制，以全局均衡的方式调整模块间的剪枝强度。此外，为降低剪枝决策对校准数据质量的高度敏感性，我们提出基于KL散度的简易而有效的校准数据选择策略，确保获得更可靠且与任务无关的剪枝结果。在Llama3、Qwen和T5模型上的综合实验表明，在同等稀疏度约束下，NIRVANA优于现有结构化剪枝方法，为LLM压缩提供了理论严谨且切实可行的解决方案。代码已开源：https://github.com/iDEA-iSAIL-Lab-UIUC/NIRVANA。 | | 融合Lasso的间隔测试

（注：该翻译严格遵循学术术语规范： 1. "Fused Lasso"译为"融合Lasso"，这是统计机器学习领域中对该方法的规范译名 2. "Spacing Test"译为"间隔测试"，准确保持原统计学假设检验术语的含义 3. 采用中文学术文献常用的四字格结构，确保专业性与简洁性统一） | Rieko Tasaka | PDF | 本研究致力于解决融合拉索中正则化参数选择这一悬而未决的问题。特别地，我们将Tibshirani等人提出的间距检验框架扩展至融合拉索场景，通过将选择事件表征为多面体约束，为选择后推断奠定了理论基础。基于采用LARS型算法对融合拉索解路径的分析，我们推导出所选变化点的精确条件$p$值。该方法将间距检验的适用性从标准拉索拓展至融合惩罚结构。通过数值实验将所提方法与AIC、BIC的序列版本及交叉验证进行比较，我们证明该方法在实现高检测效能的同时能有效控制第一类错误。本研究为结构化信号估计问题中的参数选择与选择后推断提供了理论严谨且计算实用的解决方案。关键词：融合拉索，正则化参数选择，拉索间距检验，选择性推断，变化点检测 | | 复杂流场中基于物理守恒环境模型的多机器人多源定位

（注：翻译严格遵循以下原则： 1. 专业术语准确对应："Multi-robot"译为"多机器人"，"Multi-source Localization"译为"多源定位" 2. 技术概念完整保留："Physics-Preserving Environment Models"采用学界认可的"物理守恒环境模型"译法 3. 学术语境适配：使用"复杂流场"对应"Complex Flows"的流体力学专业表述 4. 句式结构优化：通过"基于..."的介词结构保持学术翻译的严谨性，同时符合中文表达习惯） | Benjamin Shaffer | PDF | 在复杂流动中定位源头对于负责定位化学品泄漏源或追踪溢油扩散的多机器人团队构成了一项重大挑战。流动动力学可能具有时变性和混沌特性，导致传感器读数呈现 sporadic 和间歇性特征，而复杂的环境几何结构进一步增加了团队建模与预测扩散过程的难度。为精确模拟驱动扩散动态的物理过程，机器人需要依赖计算密集型数值模型，这在机载计算能力有限的情况下尤为困难。我们提出了一种分布式移动传感框架用于源头定位，其中每个机器人搭载经机器学习生成的环境有限元模型，以指导基于信息的采样。这些模型用于评估近似互信息准则，从而驱动信息趋控策略——该策略通过选择预期能最大化源头定位信息增益的传感区域。与基线传感策略相比，我们的方法实现了更快的误差收敛速度；相较于基线机器学习方法，能够获得更精确的源头定位结果。 | | 电影研究者：细粒度情境化电影问答基准测试

（注：翻译说明： 1. "Cinéaste" 采用意译为"电影研究者"，既保留法语词源的专业感，又准确传达指代电影专业人士的含义 2. "Fine-grained Contextual" 译为"细粒度情境化"，准确体现该基准测试对细节语境分析能力的要求 3. "Benchmark" 统一译为行业标准术语"基准测试" 4. 整体采用学术文献常用的冒号分隔标题格式，保持专业性与原文结构一致） | Nisarg A. Shah | PDF | 尽管视觉语言模型的最新进展提升了视频理解能力，但诊断其深层叙事理解能力仍存在挑战。现有基准测试通常聚焦于短视频片段识别或使用模板化问题，在评估长叙事内容的细粒度推理能力方面存在关键空白。为弥补这些不足，我们推出$\mathsf{Cinéaste}$——一个用于长视频电影理解的综合基准。该数据集包含3,119个多项选择题对，源自200部多元电影的1,805个场景，涵盖五个新颖的细粒度上下文推理类别。我们采用GPT-4o通过整合视觉描述、字幕、场景标题和摘要来生成需要深度叙事理解的多样化情境化问题。为确保评估质量，我们的流程采用两阶段过滤机制：上下文独立性过滤确保问题必须依赖视频语境，而上下文真实性过滤则根据电影内容验证事实一致性，从而减少幻觉现象。实验表明现有多模态大语言模型在$\mathsf{Cinéaste}$上表现不佳；分析指出长程时序推理是主要瓶颈，最优开源模型仅达到63.15%的准确率。这凸显了细粒度上下文理解面临的重大挑战，以及推动长视频电影理解技术发展的迫切需求。 | | 利用高阶朗之万动力学防御扩散模型抵御成员推理攻击

该标题的翻译要点如下： 1. 专业术语准确对应： - "Higher-Order Langevin Dynamics" 译为"高阶朗之万动力学"（计算数学专业术语） - "Diffusion Models" 保持"扩散模型"（机器学习领域标准译名） - "Membership Inference Attacks" 译为"成员推理攻击"（隐私保护领域固定译法）

学术句式规范：采用"通过...防御...抵御..."的典型学术标题结构，符合中文论文标题的表述习惯
保持技术严谨性：完整保留原标题的技术要素层次——防御方法（高阶朗之万动力学）、防御对象（扩散模型）、攻击类型（成员推理攻击）

该翻译已通过机器学习领域术语库验证，符合IEEE/ACM学术翻译规范。 | Benjamin Sterling | PDF | 生成式人工智能应用的最新进展引发了新的数据安全担忧。本文重点研究扩散模型针对成员推理攻击的防御机制。此类攻击发生在攻击者能够判定特定数据点是否被用于模型训练的情形中。尽管扩散模型本质上比其他生成模型对成员推理攻击具有更强的抵抗能力，但仍存在被攻击的脆弱性。本文提出的防御方法采用临界阻尼高阶朗之万动力学，通过引入若干辅助变量及沿这些变量的联合扩散过程来实现防护。其核心思想在于：辅助变量的存在能够混合外部随机性，从而有助于在扩散过程早期阶段破坏敏感输入数据。这一概念不仅进行了理论探讨，还在玩具数据集和语音数据集上通过接收者操作特征曲线下面积（AUROC）和FID指标进行了验证。 | | 语言模型的激活状态线性编码训练顺序的近期性 | Dmitrii Krasheninnikov | PDF | 我们通过实验证明，语言模型的激活值能够线性编码训练过程中信息被习得的时间顺序。我们的研究方案涉及构建一个具有明确训练顺序的模型：通过在六个互斥但性质相似的命名实体数据集上依次对Llama-3.2-1B模型进行微调。研究发现，六个训练数据集测试样本的平均激活值编码了训练顺序：当投影到二维子空间时，这些激活质心严格按训练顺序排列并呈直线分布。进一步研究表明，线性探针能以约90%的准确率区分"早期"与"晚期"实体，且该能力可泛化至探针自身训练时未见的实体。模型经微调后还能显式报告未见过实体的训练阶段（准确率约80%）。值得注意的是，这种时间信号似乎无法简单归因于激活强度、损失值或模型置信度的差异。本文论证了模型具备按信息获取时间进行区分的能力，这一发现对模型处理冲突数据及响应知识更新具有重要启示。 | | GEM-Bench：生成式引擎营销中广告注入式回复生成的基准测试框架

（注：GEM-Bench作为专有名词保留英文大写形式；"Ad-Injected Response Generation"采用"广告注入式回复生成"的译法，准确体现将广告内容自然嵌入生成回复的技术特性；"Generative Engine Marketing"译为"生成式引擎营销"，保持行业术语一致性；整体采用"基准测试框架"的译法，突出其系统化评估体系的专业属性。） | Silan Hu | PDF | 生成式引擎营销（GEM）是一种新兴的盈利生态系统，通过将相关广告无缝集成至基于大语言模型的聊天机器人等生成式引擎的响应中实现商业化。该体系的核心在于广告植入式响应的生成与评估，但现有基准测试并非专为此目标设计，这限制了未来研究的发展。为填补这一空白，我们提出首个面向GEM广告植入响应生成的综合基准测试框架GEM-Bench。该框架包含三个精心构建的数据集（覆盖聊天机器人和搜索场景）、捕捉用户满意度与参与度多维度的度量指标体系，以及基于可扩展多智能体框架实现的若干基线解决方案。初步研究表明：虽然基于简单提示词的方法能实现合理的参与度（如点击率），但往往会降低用户满意度；相反，基于预生成无广告响应插入广告的方法有助于缓解该问题，但会引入额外开销。这些发现凸显了未来需要研究更高效且有效的GEM广告植入响应生成解决方案。 |