2025-08-23 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
规模化群体推理：实现多样化与高质量生成

（注：该翻译采用学术术语规范，精准传递原文核心概念： 1. "Scaling"译为"规模化"，体现系统扩展特性 2. "Group Inference"译为"群体推理"，保持机器学习领域术语准确性 3. "Diverse and High-Quality Generation"采用"多样化与高质量生成"的并列结构，完整保留原文的技术目标表述 4. 使用冒号分隔主副标题，符合中文科技文献标题规范） | Gaurav Parmar | PDF | 生成模型通常独立采样输出结果，近期基于推理时段的引导与扩展算法主要致力于提升单一样本的质量。然而在实际应用中，用户往往需要针对每个提示词获取一组多图像输出（例如4-8张），此时独立采样容易导致结果冗余，既限制了用户选择空间，也阻碍了创意探索。本研究提出一种可扩展的群体推理方法，在提升样本组整体质量的同时显著增强其多样性。我们将群体推理构建为二次整数分配问题：将候选输出建模为图节点，通过选择子集来优化样本质量（一元项）并最大化群体多样性（二元项）。为显著提升运行效率，我们采用中间预测结果对候选集进行渐进剪枝，使该方法能够扩展到大规模候选集。大量实验表明，相较于独立采样基线及最新推理算法，本方法在群体多样性与质量方面均实现显著提升。该框架具有广泛的任务适应性，涵盖文本到图像、图像到图像、图像提示以及视频生成等多个领域，使生成模型能够将多重输出视为有机整体而非独立样本。 | | CineScale：高分辨率电影级视觉生成的免费增益方案

（注：翻译采用学术技术类文本的常见处理方式： 1. 保留"CineScale"专业术语不译，维持技术品牌识别度 2. "Free Lunch"译为"免费增益"既符合中文技术文献表达习惯，又准确传达"无需额外成本即可获得性能提升"的核心概念 3. "Cinematic Visual Generation"译为"电影级视觉生成"精准体现该技术面向专业影视级画质生成的定位 4. 整体采用冒号分隔的学术标题结构，符合中文论文标题规范） | Haonan Qiu | PDF | 视觉扩散模型取得了显著进展，但由于缺乏高分辨率数据和有限的计算资源，这类模型通常只能在较低分辨率下进行训练，这限制了其生成高保真度高清图像或视频的能力。近期研究开始探索无需调参的策略，以挖掘预训练模型在更高分辨率视觉生成方面的潜力。然而，这些方法仍易产生带有重复图案的低质量视觉内容。关键问题在于当模型生成超出其训练分辨率的视觉内容时，高频信息的不可避免增加会导致误差累积，进而产生不良的重复模式。本研究提出CineScale——一种创新的推理范式来实现更高分辨率的视觉生成。针对两类视频生成架构带来的不同问题，我们为每种架构设计了专用变体方案。与现有局限于高分辨率文生图（T2I）和文生视频（T2V）的基线方法不同，CineScale基于最先进的开源视频生成框架，进一步实现了高分辨率图生视频（I2V）和视频生视频（V2V）的合成。大量实验验证了我们的范式在扩展图像和视频模型高分辨率生成能力方面的优越性。值得注意的是，该方法无需微调即可实现8K图像生成，仅需最小程度的LoRA微调就能完成4K视频生成。生成视频样本请访问我们的网站：https://eyeline-labs.github.io/CineScale/。 | | 指令引导图像编辑的视觉自回归建模

该学术术语的翻译要点如下： 1. "Visual Autoregressive Modeling" 译为"视觉自回归建模"，准确保持机器学习领域专业术语的规范性 2. "Instruction-Guided" 采用"指令引导"的译法，符合人机交互领域的术语惯例 3. "Image Editing" 译为"图像编辑"，保持计算机视觉领域的通用译法 4. 整体采用偏正结构，符合中文科技文献的标题命名规范 5. 保留原文的技术内涵：强调通过自回归模型实现基于指令的图像编辑这一核心概念

这个翻译既保持了学术术语的准确性，又符合中文表达习惯，适合在学术论文、技术报告等正式场合使用。 | Qingyang Mao | PDF | 扩散模型的最新进展为指令引导的图像编辑带来了显著的视觉保真度提升。然而，其全局去噪过程本质上会将编辑区域与整个图像上下文纠缠在一起，导致非预期的伪修改并削弱对编辑指令的遵循度。相比之下，自回归模型通过将图像合成构建为离散视觉标记的序列化过程，提供了截然不同的范式。其因果性与组合性机制天然规避了基于扩散方法存在的指令遵循难题。本文提出VAREdit——一种将图像编辑重构为下一尺度预测问题的视觉自回归（VAR）框架。通过以源图像特征和文本指令为条件，VAREdit生成多尺度目标特征以实现精准编辑。该范式的核心挑战在于如何有效条件化源图像标记。我们发现最精细尺度的源特征无法有效指导较粗糙目标特征的预测。为弥合这一差距，我们引入了尺度对齐参考（SAR）模块，将尺度匹配的条件信息注入到首个自注意力层中。VAREdit在编辑遵循度和效率方面均取得显著进步：在标准基准测试中，其GPT平衡分数比主流扩散方法高出30%以上；完成512×512图像编辑仅需1.2秒，比同等规模的UltraEdit快2.2倍。模型已开源：https://github.com/HiDream-ai/VAREdit。 | | SceneGen：单图像三维场景单次前馈生成技术

（注：翻译采用学术文献常见的"技术/方法"后缀补充，既保持术语准确性（Feedforward Pass译为"前馈"符合神经网络领域规范），又通过"单次"明确强调原题"One"的核心突破，同时符合中文科技文献标题常用的四字格表达习惯） | Yanxu Meng | PDF | 三维内容生成技术因其在虚拟/增强现实（VR/AR）与具身人工智能领域的应用价值，近期受到学界广泛关注。本研究致力于解决单张场景图像中合成多个三维资产的挑战性任务。具体而言，我们的贡献包括四个方面：（一）提出SceneGen新型框架，该框架以场景图像及对应物体掩码作为输入，同步生成具有几何结构与纹理的多个三维资产。值得注意的是，SceneGen无需优化过程或资产检索即可运行；（二）设计新型特征聚合模块，在特征提取阶段整合来自视觉与几何编码器的局部与全局场景信息。结合位置预测头，该模块实现了单次前向传播即可生成三维资产及其相对空间位置；（三）验证SceneGen对多图像输入场景的直接扩展能力。尽管仅使用单图像输入进行训练，我们的架构设计能够通过多图像输入提升生成性能；（四）大量定量与定性实验证实了本方法的高效性与强健的生成能力。我们相信该范式为高质量三维内容生成提供了创新解决方案，有望推动其在下游任务中的实际应用。代码与模型将公开于：https://mengmouxu.github.io/SceneGen。 | | ATLAS：解耦骨骼与形态参数以实现富有表现力的参数化人体建模

（注：该翻译严格遵循学术术语规范，其中： - "Decoupling" 译为"解耦"，准确体现参数分离的技术概念 - "Skeletal and Shape Parameters" 采用"骨骼与形态参数"的标准译法 - "Expressive Parametric Human Modeling" 译为"富有表现力的参数化人体建模"，完整保留原文的学术表述 - 冒号后的副标题采用破折号衔接，符合中文科技文献标题格式规范） | Jinhyung Park | PDF | 参数化人体模型能够通过广泛学习配准三维网格的基础特征，提供具有高度表现力的三维人体表征，涵盖多样化的姿态、体型和面部表情。然而，现有人体网格建模方法因训练数据多样性不足和建模假设的局限性，难以有效捕捉不同身体姿态与体型的细节变化。更值得注意的是，现有通用范式通常先采用线性基函数优化外部体表，再从表面顶点回归内部骨骼关节点。这种方法会导致内部骨骼与外部软组织之间形成非理想关联，从而限制了对身高和骨骼长度的直接控制能力。

为解决这些问题，我们提出ATLAS模型——一个基于240台同步相机采集的60万张高分辨率扫描数据构建的高保真人体模型。与现有方法不同，我们通过将网格表征锚定在人体骨骼框架上，实现了形状基与骨骼基的显式解耦。这种解耦机制增强了形状表达能力，支持细粒度身体属性定制，并能独立于外部软组织特征进行关键点拟合。实验表明，ATLAS在处理未见过的多样化姿态样本时展现出更高精度，定量评估证明我们的非线性姿态校正方法相比线性模型能更有效地捕捉复杂姿态特征。 | | 通过具有秩感知束GRPO的Transformer模型发现隐藏代数结构

（注：GRPO为专业术语缩写，根据学术翻译规范保留原缩写形式；"Rank-Aware Beam"译为"秩感知束"以准确体现算法特性；整体采用学术文献常用被动语态句式，符合中文科技文献表达习惯） | Jaeha Lee | PDF | 近期研究进一步扩展了Transformer模型在逻辑推理与符号计算方面的能力。本文重点探究其在函数分解背景下发现非线性潜在模式的性能，聚焦于多元多项式分解这一具有挑战性的代数任务。该问题在科学与工程领域具有广泛应用，已被证明属于NP难问题，对精确性与洞察力均有极高要求。我们的贡献主要体现在三个方面：首先，开发了能够精细控制问题复杂度的合成数据生成流程；其次，通过监督学习训练Transformer模型，并从规模扩展行为和泛化能力等四个关键维度进行评估；最后，提出了束分组相对策略优化（BGRPO）——一种适用于困难代数问题的秩感知强化学习方法。采用BGRPO进行微调可在将束宽度缩减高达50%的同时提升准确率，使推理计算量降低约75%。此外，我们的模型在多项式简化任务中展现出竞争优势，在多类场景下性能超越Mathematica。 | | 连续动作空间下多智能体强化学习中的对抗攻击分布式检测

（注：翻译严格遵循了以下原则： 1. 专业术语准确对应："Distributed Detection"译为"分布式检测"，"Adversarial Attacks"译为"对抗攻击"，"Multi-Agent Reinforcement Learning"译为"多智能体强化学习"，"Continuous Action Space"译为"连续动作空间" 2. 保持学术文本的严谨性：使用"下"替代"的"来体现"in"的领域限定关系 3. 语序符合中文表达习惯：将长定语"with Continuous Action Space"转换为前置定语"连续动作空间下" 4. 避免歧义：明确"Multi-Agent"译为"多智能体"而非"多代理"以符合强化学习领域术语规范） | Kiarash Kazari | PDF | 我们致力于解决针对连续动作空间下协作多智能体强化学习的对抗攻击检测问题。提出了一种去中心化检测器，该检测器仅依赖智能体的局部观测信息，并利用可观测智能体正常行为的统计特征进行检测。所提出的检测器采用深度神经网络将智能体正常行为近似为参数化多元高斯分布。基于预测的概率密度函数，我们定义了正态性评分并给出其均值与方差的特征描述。这一特征描述使我们能够采用双端CUSUM（累积和）过程来检测正态性评分与其均值的偏离，从而实现实时异常行为检测。我们在多智能体PettingZoo测试环境中针对多种最先进攻击方法进行评估，结果表明我们的方法能有效检测具有显著影响的对抗攻击。特别值得注意的是，在所有测试环境中，面对最具影响力的攻击时，该方法以超过0.95的AUC-ROC评分显著优于离散动作空间的对应方案。 | | Intern-S1：一种科学多模态基础模型

（注：该翻译严格遵循学术术语规范： 1. "Intern-S1" 保留原名不译，符合学术代号翻译惯例 2. "Scientific" 译为"科学"准确体现其研究领域属性 3. "Multimodal" 采用计算机领域标准译法"多模态" 4. "Foundation Model" 参照人工智能领域共识译为"基础模型" 完整译名准确传达了原模型作为面向科学领域的多模态基础架构的核心概念） | Lei Bai | PDF | 近年来，开源基础模型大量涌现，在部分广受关注的领域取得显著进展，其性能已十分接近闭源模型。然而在高价值但更具挑战性的科学专业领域，这些领域要么仍依赖专家模型，要么通用基础模型的进展显著滞后于热门领域，远不足以支撑科研变革，导致开源模型与闭源模型在这些科学领域存在巨大差距。为弥合这一差距并探索通向通用人工智能（AGI）的路径，我们推出Intern-S1——一个具备通用理解推理能力且拥有多模态科学数据分析专长的专业通才模型。该多模态专家混合模型（MoE）激活参数量达280亿，总参数量达2410亿，基于5T token（其中包含超过2.5T科学领域token）进行持续预训练。在后训练阶段，Intern-S1在InternBootCamp中先后经历离线和在线强化学习（RL）训练，我们提出奖励混合机制（MoR）以协同推进超过1000项任务的同步RL训练。通过算法、数据与训练系统的整合创新，Intern-S1在在线RL训练中达到顶级性能。在综合评估基准测试中，Intern-S1在通用推理任务上展现出开源模型中的竞争优势，在科学领域显著优于开源模型，并在分子合成规划、反应条件预测、晶体热力学稳定性预测等专业任务中超越闭源前沿模型。我们的模型已发布于https://huggingface.co/internlm/Intern-S1。 | | Waver：以波动方式实现逼真视频生成

（注：译文采用意译策略，既保留"Wave"的核心意象（波动/波形），又通过"以...方式"的句式结构体现技术路径。专业术语"Lifelike Video Generation"译为"逼真视频生成"，符合计算机图形学领域术语规范，同时通过冒号分隔保持学术标题的严谨性。） | Yifu Zhang | PDF | 我们推出Waver——一个面向统一图像与视频生成的高性能基础模型。该模型能够直接生成长度5至10秒、原生分辨率720p的视频，并支持后续升级至1080p。通过单一集成框架，Waver同步支持文本生成视频（T2V）、图像生成视频（I2V）及文本生成图像（T2I）三大功能。我们创新性地采用混合流式DiT架构，显著增强多模态对齐能力并加速训练收敛。为确保训练数据质量，我们建立了完整的数据处理流程，通过人工标注并训练基于MLLM的视频质量评估模型来筛选最优样本。此外，我们提供了详细的训练与推理方案以促进高质量视频生成。基于这些技术突破，Waver在捕捉复杂运动方面表现卓越，实现了卓越的运动幅度表现与时间一致性。值得注意的是，根据Artificial Analysis平台截至2025年7月30日北京时间10时的数据，该模型在T2V和I2V榜单均位列前三甲，持续超越现有开源模型，达到甚至超越业界顶尖商业解决方案水平。我们希望本技术报告能助力学界更高效地训练高质量视频生成模型，加速视频生成技术发展。官方页面：https://github.com/FoundationVision/Waver。 | | LiveMCP-101：基于挑战性查询的MCP智能体压力测试与诊断分析

（注：翻译在保持专业性的基础上采用学术文献标题的常见结构： 1. 保留"MCP"技术术语不译以保持专业性 2. "Stress Testing"译为"压力测试"符合计算机领域术语规范 3. "Diagnosing"译为"诊断分析"体现系统性检测含义 4. "Challenging Queries"译为"挑战性查询"准确传达技术概念 5. 使用冒号分隔主副标题符合中文学术标题规范） | Ming Yin | PDF | 工具调用已成为AI智能体与现实世界交互并解决复杂任务的关键能力。尽管模型上下文协议（MCP）为工具集成提供了强大的标准化框架，但在衡量AI智能体如何在真实动态场景中有效使用多样化MCP工具解决多步骤任务方面，仍存在显著的基准测试空白。本研究推出LiveMCP-101基准测试集，包含101个经过精心筛选的真实场景查询——这些查询通过迭代式大语言模型重写和人工审核优化，需要协调使用包括网络搜索、文件操作、数学推理和数据分析在内的多种MCP工具。此外，我们创新性地采用基于真实执行计划而非原始API输出的评估方法，更准确地反映现实环境中的动态特性。实验表明，即使最先进的大语言模型成功率也低于60%，凸显出工具协同方面的重大挑战。详细的消融实验和错误分析进一步揭示了不同的故障模式及token使用效率问题，为现有模型的改进指明了具体方向。LiveMCP-101为评估现实世界智能体能力设立了严格标准，推动通过工具使用可靠执行复杂任务的自主AI系统发展。 |

bioRxiv

标题	作者	PDF链接	摘要
恐惧条件反射跨代影响嗅觉感觉神经元频率的偏向性

（注：该翻译严格遵循学术术语规范： 1. "Fear conditioning" 译为专业心理学/神经科学术语"恐惧条件反射" 2. "olfactory sensory neuron" 采用标准神经生物学译法"嗅觉感觉神经元" 3. "biases...frequencies" 根据上下文译为"影响...频率的偏向性"，准确传达神经元群体频率分布发生偏向性变化的科学内涵 4. "across generations" 译为"跨代"，符合表观遗传学领域的专业表述） | Liff, C. W. | PDF | | | PHR1与PHL1介导快速高光响应及对高光合活性的适应过程 | Ackermann, L. | PDF | | | 正则化偏相关在修正广泛混杂因素的同时，可提供可靠的功能连接性估计

（注：该翻译严格遵循神经影像学领域的专业术语规范： 1. "Regularized partial correlation" 译为"正则化偏相关"——保留统计学中的"正则化"概念与"偏相关"专业表述 2. "functional connectivity" 采用神经科学标准译法"功能连接性" 3. "widespread confounding" 译为"广泛混杂因素"准确体现统计学中confounding variables的概念 4. 句式结构采用中文学术文献常见的"在...的同时"逻辑连接方式，确保专业性与可读性平衡） | Peterson, K. L. | PDF | | | 多对相位调制时域干涉电刺激与功能磁共振成像联合应用 | Savvateev, I. | PDF | | | 基于二元回归的共现亲和性贝叶斯估计

（注：该翻译严格遵循学术术语规范： 1. "Age and maturation stage" 译为"年龄与成熟阶段" 2. "fibrinogen" 保留专业术语"纤维蛋白原" 3. "oligodendroglia" 采用神经科学标准译名"少突胶质细胞" 4. "linked consequences" 译为"关联性后果"以准确传达原文中变量间的因果关系译文在保持学术准确性的同时，符合中文表达习惯和医学论文标题的简洁性要求） | Blaszczyk, G. J. | PDF | | | 外周胶质细胞与神经元共同调控果蝇神经肌肉接头处活动诱导的突触重塑 | Chang, Y.-C. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF