arxiv 2025-08-24

标题	作者	PDF链接	摘要
规模化群体推理：实现多样化与高质量生成

该标题可拆解为三个核心术语的精准对应： 1. Scaling Group - 规模化群体（强调可扩展的群体计算架构） 2. Inference - 推理（特指机器学习中的推断过程） 3. Diverse and High-Quality Generation - 多样化与高质量生成（保持原文形容词并列结构）

建议采用学术翻译中常见的冒号分隔结构，既保留术语准确性，又符合中文论文标题的表述规范。其中"Scaling Group"译为"规模化群体"而非字面的"缩放群体"，更符合分布式计算领域的专业表述；"Inference"采用机器学习领域标准译法"推理"；生成质量的双重标准完整保留原文的并列关系。 | Gaurav Parmar | PDF | 生成模型通常独立采样输出结果，近期出现的推理阶段引导与扩展算法主要致力于提升单一样本的质量。然而在实际应用中，用户往往需要针对每个提示词获取一组多图像输出（例如4-8张），此时独立采样容易导致结果冗余，既限制了用户选择空间，也阻碍了创意探索。本研究提出一种可扩展的群体推理方法，在提升样本组整体质量的同时显著增强其多样性。我们将群体推理构建为二次整数分配问题：将候选输出建模为图节点，通过选择子集来优化样本质量（一元项）并最大化群体多样性（二元项）。为显著提升运行效率，我们采用中间预测结果对候选集进行渐进剪枝，使该方法能够扩展到大规模候选集。大量实验表明，相较于独立采样基线及最新推理算法，本方法在群体多样性与质量方面均有显著提升。该框架具有广泛的泛化能力，可适用于文本生成图像、图像生成图像、图像提示生成及视频生成等多种任务，使生成模型能够将多个输出视为有机整体而非独立样本。 | | CineScale：高分辨率电影级视觉生成的免费增益方案

（注：采用"免费增益方案"既保留"Free Lunch"的隐喻内涵，又符合中文技术文献表达习惯；"电影级视觉生成"准确传达"Cinematic Visual Generation"的专业语义；冒号后的副标题结构符合中文学术标题规范） | Haonan Qiu | PDF | 视觉扩散模型取得了显著进展，但由于缺乏高分辨率数据和有限的计算资源，这类模型通常只能在较低分辨率下训练，这限制了其生成高保真度高清图像或视频的能力。近期研究开始探索无需调参的策略，以挖掘预训练模型在更高分辨率视觉生成方面的潜力。然而，这些方法仍易产生带有重复模式的低质量视觉内容。关键问题在于当模型生成超出其训练分辨率的视觉内容时，高频信息的不可避免增加会导致误差累积，进而产生不良的重复模式。本研究提出CineScale——一种创新的推理范式来实现更高分辨率的视觉生成。针对两类视频生成架构带来的不同问题，我们为每种架构设计了专用变体。与现有局限于高分辨率文生图（T2I）和文生视频（T2V）的基线方法不同，CineScale基于最先进的开源视频生成框架，进一步实现了高分辨率图生视频（I2V）和视频生视频（V2V）的合成。大量实验验证了我们的范式在扩展图像和视频模型高分辨率生成能力方面的优越性。值得注意的是，我们的方法无需任何微调即可实现8K图像生成，仅需极少量LoRA微调就能达成4K视频生成。生成视频样本请访问我们的网站：https://eyeline-labs.github.io/CineScale/。 | | 指令引导图像编辑的视觉自回归建模

该翻译严格遵循学术术语规范： 1. "Visual Autoregressive Modeling" 译为"视觉自回归建模"，保留自回归模型的专业表述 2. "Instruction-Guided" 译为"指令引导"，准确传达通过指令进行控制的技术特征 3. "Image Editing" 译为"图像编辑"，采用计算机视觉领域标准术语 4. 整体语序符合中文学术表达习惯，同时完整保留原技术概念的准确性 | Qingyang Mao | PDF | 扩散模型的最新进展为指令引导的图像编辑带来了显著的视觉保真度提升。然而，其全局去噪过程本质上会将编辑区域与整个图像上下文纠缠在一起，导致非预期的伪修改并削弱对编辑指令的遵循能力。相比之下，自回归模型通过将图像合成构建为离散视觉标记的序列化过程，提供了独特的范式。其因果性与组合性机制天然规避了基于扩散方法在指令遵循方面的挑战。本文提出VAREdit——一种视觉自回归（VAR）框架，将图像编辑重新定义为下一尺度预测问题。在源图像特征和文本指令的条件下，VAREdit通过生成多尺度目标特征来实现精确编辑。该范式的核心挑战在于如何有效条件化源图像标记。我们发现最精细尺度的源特征无法有效指导较粗糙目标特征的预测。为弥合这一差距，我们引入了尺度对齐参考（SAR）模块，将尺度匹配的条件信息注入到首个自注意力层中。VAREdit在编辑遵循度和效率方面均取得显著突破：在标准基准测试中，其GPT平衡分数比主流扩散方法高出30%以上；完成512×512图像编辑仅需1.2秒，比同等规模的UltraEdit快2.2倍。模型已开源：https://github.com/HiDream-ai/VAREdit。 | | SceneGen：单图像三维场景单次前馈生成技术

（注：翻译采用学术文献常见的"技术/方法"补充说明方式，既保留了核心术语"SceneGen"的原文形态，又通过冒号后的解释性翻译准确传达了技术特性： 1. "Single-Image"译为"单图像"符合计算机视觉领域术语规范 2. "3D Scene Generation"采用"三维场景生成"的标准译法 3. "One Feedforward Pass"专业译为"单次前馈"，其中"前馈"特指神经网络的前向传播过程 4. 整体通过技术说明句式保持学术严谨性，同时确保中文读者能准确理解该方法的核心创新点） | Yanxu Meng | PDF | 三维内容生成技术因其在虚拟/增强现实（VR/AR）与具身人工智能领域的应用价值，近期引发广泛研究关注。本研究致力于解决单张场景图像中合成多个三维资产的挑战性任务，具体贡献包括：（一）提出SceneGen创新框架，以场景图像及对应物体掩码作为输入，无需优化过程或资产检索即可同步生成具有几何结构与纹理的多个三维资产；（二）设计新型特征聚合模块，在特征提取阶段融合视觉与几何编码器的局部与全局场景信息，结合位置预测头实现单次前向传播即可生成三维资产及其相对空间位置；（三）证明框架可直接扩展至多图像输入场景——尽管仅基于单图像输入训练，但架构设计支持通过多图像输入提升生成质量；（四）通过大量定量与定性实验验证方法的高效性与强健生成能力。我们相信该范式为高质量三维内容生成提供了创新解决方案，有望推动下游任务的实际应用。代码与模型将公开于：https://mengmouxu.github.io/SceneGen。 | | ATLAS：解耦骨骼与形态参数以实现富有表现力的参数化人体建模

（注：该翻译严格遵循学术术语规范，其中： - "Decoupling" 译为"解耦"，符合计算机图形学/参数化建模领域的专业表述 - "Skeletal and Shape Parameters" 采用"骨骼与形态参数"的译法，准确区分人体建模中骨架结构与外形轮廓两类参数 - "Expressive Parametric Human Modeling" 译为"富有表现力的参数化人体建模"，完整保留原文在计算机图形学领域的专业内涵） | Jinhyung Park | PDF | 参数化人体模型能够通过广泛姿态、体形和面部表情实现富有表现力的三维人体表征，这类模型通常通过对已配准三维网格学习基函数而构建。然而，现有人体网格建模方法难以捕捉不同身体姿态和体形的细节变化，这主要源于训练数据多样性不足和建模假设的局限性。此外，当前主流范式先采用线性基函数优化外部体表，再从表面顶点回归内部骨骼关节点。这种方法导致内部骨架与外部软组织之间形成异常依赖关系，限制了对身高和骨骼长度的直接控制。为解决这些问题，我们提出ATLAS模型——一个基于240台同步相机采集的60万次高分辨率扫描训练而成的高保真人体模型。与现有方法不同，我们通过将网格表征锚定在人体骨骼上，实现了形状基与骨骼基的显式解耦。这种解耦机制增强了形状表达能力，支持细粒度身体属性定制，并能独立于外部软组织特征进行关键点拟合。ATLAS在拟合未知受试者的多种姿态时表现出更高精度，定量评估表明：相较于线性模型，我们的非线性姿态校正方法能更有效地捕捉复杂姿态特征。 | | 通过具备秩感知束GRPO的Transformer模型发现隐藏代数结构

（注：GRPO为专业术语缩写，采用首字母直译保留；Rank-Aware Beam译为"秩感知束"以保持计算机科学领域的术语准确性；代数结构作为数学专业术语直接对应） | Jaeha Lee | PDF | 近期研究进一步扩展了Transformer模型在逻辑推理与符号计算方面的能力。本文重点探究其在函数分解背景下发现非线性潜在模式的潜力，聚焦于多元多项式分解这一具有挑战性的代数任务。该问题在科学与工程领域具有广泛应用，已被证明属于NP难问题，对精确性和洞察力均有极高要求。我们的贡献主要体现在三个方面：首先，开发了能够精细控制问题复杂度的合成数据生成流程；其次，通过监督学习训练Transformer模型，并从规模扩展行为和泛化能力等四个关键维度进行评估；第三，提出了波束分组相对策略优化（BGRPO）——一种适用于困难代数问题的秩感知强化学习方法。采用BGRPO进行微调可在将波束宽度缩减至一半的同时提升准确率，使推理计算量降低约75%。此外，我们的模型在多项式简化任务中展现出竞争优势，在多类场景下性能超越Mathematica软件。 | | 连续动作空间下多智能体强化学习中对抗攻击的分布式检测

（注：该翻译严格遵循学术术语规范： 1. "Distributed Detection" 译为"分布式检测"，符合计算机科学领域术语标准 2. "Adversarial Attacks" 译为"对抗攻击"，保持机器学习领域专业表述 3. "Multi-Agent Reinforcement Learning" 采用学界通用译法"多智能体强化学习" 4. "Continuous Action Space" 译为"连续动作空间"，准确反映强化学习中的动作空间概念译文结构完整保留原标题的技术要素和逻辑关系，符合中文科技文献标题的简洁性要求。） | Kiarash Kazari | PDF | 我们致力于解决连续动作空间下协作多智能体强化学习系统遭受对抗攻击的检测问题。提出了一种去中心化检测器，该检测器仅依赖智能体的局部观测信息，并利用可观测智能体正常行为的统计特征进行检测。所提出的检测器采用深度神经网络将智能体正常行为近似为参数化多元高斯分布。基于预测的概率密度函数，我们定义了正态性评分并给出其均值与方差的特征描述。这一特征描述使我们能够采用双端CUSUM（累积和）过程来检测正态性评分与其均值的偏离，从而实现实时异常行为检测。我们在多智能体PettingZoo测试环境中针对多种最先进攻击方法进行评估，结果表明本方法能有效检测具有显著影响的对抗攻击。特别值得注意的是，在所有测试环境中，针对最具影响力的攻击，该方法以超过0.95的AUC-ROC评分显著优于离散动作空间的对应方案。 | | Intern-S1：一款科学多模态基础模型

（注：该翻译严格遵循学术术语规范： 1. "Intern-S1" 保留原名不译，符合学术代号翻译惯例 2. "Scientific Multimodal" 译为"科学多模态"，准确对应专业领域术语 3. "Foundation Model" 采用学界通用译法"基础模型"，符合人工智能领域术语标准 4. 整体采用中文科技文献常用的冒号分隔命名格式，保持学术文本的严谨性） | Lei Bai | PDF | 近年来，开源基础模型大量涌现，在部分广受关注的领域取得显著进展，其性能已十分接近闭源模型。然而在高价值但更具挑战性的科学专业领域，这些领域要么仍依赖专家模型，要么通用基础模型的进展显著滞后于热门领域，远不足以支撑科学研究转型，导致开源模型与闭源模型在这些科学领域存在巨大差距。为弥合这一差距并探索通往通用人工智能（AGI）的路径，我们推出Intern-S1——一个具备通用理解推理能力且拥有多科学模态数据分析专长的专业通才模型。该模型是拥有280亿激活参数和2410亿总参数的多模态混合专家（MoE）模型，基于5T token（其中包含超过2.5T科学领域token）进行持续预训练。在后训练阶段，Intern-S1在InternBootCamp中先后经历离线和在线强化学习（RL）训练，我们提出混合奖励机制（MoR）以协同推进超过1000项任务的RL训练。通过算法、数据与训练系统的整合创新，Intern-S1在在线RL训练中达到顶级性能。在综合评估基准测试中，Intern-S1在通用推理任务上展现出开源模型中的竞争优势，在科学领域显著优于开源模型，并在分子合成规划、反应条件预测、晶体热力学稳定性预测等专业任务中超越闭源前沿模型。我们的模型已在https://huggingface.co/internlm/Intern-S1开放获取。 | | Waver：以波动方式实现逼真视频生成

（注：翻译采用技术术语"波动"对应"Wave"的动词化专业含义，通过冒号结构保持原标题的层次感。"Lifelike"译为"逼真"准确体现生成视频的真实性特征，"Generation"采用行业通用译法"生成"。整体译文在保持学术准确性的同时，兼顾了中文表达的简洁性与技术概念的传达效果。） | Yifu Zhang | PDF | 我们推出Waver——一个面向统一图像与视频生成的高性能基础模型。该模型能够直接生成时长为5至10秒、原生分辨率为720p的视频，并支持后续升级至1080p。通过单一集成框架，Waver可同步实现文本生成视频（T2V）、图像生成视频（I2V）及文本生成图像（T2I）三大功能。我们采用混合流式DiT架构以增强多模态对齐能力并加速训练收敛。为确保训练数据质量，我们建立了完整的数据清洗流程，通过人工标注并训练基于MLLM的视频质量评估模型来筛选最优样本。此外，我们提供了详细的训练与推理方案以促进高质量视频生成。基于这些技术创新，Waver在捕捉复杂运动方面表现卓越，实现了视频合成中卓越的运动幅度与时序一致性。值得注意的是，根据Artificial Analysis平台截至2025年7月30日北京时间10时的数据，该模型在T2V和I2V排行榜均位列前三甲，持续超越现有开源模型，并与最先进的商业解决方案持平或更优。我们希望本技术报告能助力学界更高效地训练高质量视频生成模型，加速视频生成技术的发展进程。官方页面：https://github.com/FoundationVision/Waver。 | | LiveMCP-101：基于挑战性查询的MCP智能体压力测试与诊断分析

（注：译文采用学术论文标题的规范表达方式，保留核心术语"MCP"的英文缩写形式以维持专业性。"Stress Testing"译为"压力测试"符合计算机领域术语标准，"Diagnosing"译为"诊断分析"体现系统性检测内涵。"Challenging Queries"译为"挑战性查询"准确传达高难度测试场景的学术概念，整体结构符合中文学术标题的简洁性与专业性要求。） | Ming Yin | PDF | 工具调用已成为AI智能体与现实世界交互并解决复杂任务的关键能力。尽管模型上下文协议（MCP）为工具集成提供了强大的标准化框架，但在衡量AI智能体如何在真实动态场景中有效使用多样化MCP工具解决多步骤任务方面，仍存在显著的基准测试空白。本研究推出LiveMCP-101基准测试集，包含101个经过精心设计的真实场景查询——这些查询通过迭代式大语言模型重写和人工审核优化，需要协调使用包括网络搜索、文件操作、数学推理和数据分析在内的多种MCP工具。此外，我们创新性地采用基于真实执行计划而非原始API输出的评估方法，更准确地反映现实环境中的动态特性。实验表明，即使最先进的大语言模型成功率也低于60%，凸显出工具协调方面的重大挑战。详细的消融实验和错误分析进一步揭示了不同的故障模式及令牌使用效率问题，为改进现有模型指明了具体方向。LiveMCP-101为评估现实世界智能体能力设立了严格标准，推动通过工具使用可靠执行复杂任务的自主AI系统发展。 |