2025-08-22 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
规模化群体推理：实现多样化与高质量生成

（注：该翻译采用学术文本常见的"副标题"结构，通过冒号分隔主从信息。"Scaling"译为"规模化"体现系统扩展特性，"Group Inference"译为"群体推理"准确传达并行计算内涵，"Diverse and High-Quality Generation"采用四字格"多样化与高质量"保持术语简洁性，整体符合计算机领域学术翻译规范） | Gaurav Parmar | PDF | 生成模型通常独立采样输出结果，近期基于推理时段的引导与扩展算法主要致力于提升单一样本的质量。然而在实际应用中，用户往往需要针对每个提示词获取多张图像（通常为4-8张），此时独立采样容易导致输出结果高度重复，既限制了用户选择空间，也阻碍了创意探索。本研究提出一种可扩展的群体推理方法，在提升样本组整体质量的同时显著增强其多样性。我们将群体推理构建为二次整数分配问题：将候选输出建模为图节点，通过选择最优子集来同步优化样本质量（一元项）与群体多样性（二元项）。为显著提升运行效率，我们采用中间预测结果对候选集进行渐进剪枝，使该方法能够扩展到大规模候选集场景。大量实验表明，相较于独立采样基线及最新推理算法，本方法在群体多样性与质量方面均实现显著提升。该框架具有广泛的跨任务适应性，涵盖文本到图像、图像到图像、图像提示以及视频生成等多个领域，使生成模型能够将多重输出视为有机整体而非独立样本。 | | CineScale：高分辨率电影级视觉生成的免费增益方案

（注：采用学术翻译策略，保留核心术语"CineScale"不译以维持专业性，"Free Lunch"译为"免费增益"既保留经济学隐喻又符合中文技术文献表达习惯，"Cinematic Visual Generation"译为"电影级视觉生成"准确传递行业特定概念，整体句式采用中文技术论文标题常用的冒号分隔结构） | Haonan Qiu | PDF | 视觉扩散模型取得了显著进展，但由于缺乏高分辨率训练数据和计算资源受限，这类模型通常只能在有限分辨率下进行训练，这限制了其生成高保真度高清图像或视频的能力。近期研究开始探索无需调参的策略，以挖掘预训练模型在更高分辨率视觉生成方面的潜力。然而，这些方法仍易产生带有重复图案的低质量视觉内容。关键问题在于当模型生成超出其训练分辨率的视觉内容时，高频信息的不可避免增加会导致误差累积，进而产生不良的重复模式。本研究提出CineScale——一种创新的推理范式来实现更高分辨率的视觉生成。针对两类视频生成架构带来的不同问题，我们为每种架构设计了专用变体方案。与现有局限于高分辨率文生图（T2I）和文生视频（T2V）的基线方法不同，CineScale基于最先进的开源视频生成框架，进一步实现了高分辨率图生视频（I2V）和视频生视频（V2V）的合成能力。大量实验验证了我们的范式在扩展图像和视频模型高分辨率生成能力方面的优越性。值得注意的是，我们的方法无需任何微调即可实现8K图像生成，并通过极少量LoRA微调实现4K视频生成。生成视频样本请访问我们的网站：https://eyeline-labs.github.io/CineScale/。 | | 指令引导图像编辑的视觉自回归建模

该翻译严格遵循学术术语规范： 1. "Visual Autoregressive Modeling" 译为"视觉自回归建模"，保留计量经济学中"自回归"的专业表述 2. "Instruction-Guided" 采用"指令引导"的标准译法，符合人机交互领域的术语惯例 3. "Image Editing" 译为"图像编辑"，准确对应计算机图形学专业术语 4. 整体语序调整符合中文学术表达习惯，同时完整保留原技术名称的逻辑关系 | Qingyang Mao | PDF | 扩散模型的最新进展为指令引导的图像编辑带来了显著的视觉保真度提升。然而，其全局去噪过程本质上会将编辑区域与整幅图像上下文纠缠在一起，导致非预期的伪修改并削弱对编辑指令的遵循度。相比之下，自回归模型通过将图像合成构建为离散视觉标记的序列化过程，提供了独特的范式。其因果性与组合性机制天然规避了基于扩散方法存在的指令遵循难题。本文提出VAREdit——一种将图像编辑重构为下一尺度预测问题的视觉自回归（VAR）框架。通过以源图像特征和文本指令为条件，VAREdit生成多尺度目标特征以实现精准编辑。该范式的核心挑战在于如何有效条件化源图像标记。我们发现最精细尺度的源特征无法有效指导较粗糙目标特征的预测。为弥合这一差距，我们引入了尺度对齐参考（SAR）模块，将尺度匹配的条件信息注入到首个自注意力层中。VAREdit在编辑遵循度和效率方面均取得显著突破：在标准基准测试中，其GPT平衡分数较主流扩散方法提升30%以上；完成512×512图像编辑仅需1.2秒，比同等规模的UltraEdit快2.2倍。模型已开源：https://github.com/HiDream-ai/VAREdit。 | | SceneGen：单图像三维场景单次前馈生成技术

（注：翻译采用学术文献常见的"技术术语+功能描述"结构： 1. 保留原文核心技术名称"SceneGen"不译 2. "Single-Image"译为"单图像"符合计算机视觉领域术语规范 3. "3D Scene Generation"译为"三维场景生成"准确对应专业概念 4. "One Feedforward Pass"译为"单次前馈"精确体现神经网络前向传播特性 5. 整体采用技术名称+功能说明的句式，符合中文论文标题表述习惯） | Yanxu Meng | PDF | 三维内容生成技术因其在虚拟/增强现实（VR/AR）与具身人工智能领域的应用价值，近期引发广泛研究关注。本研究致力于解决单张场景图像中合成多个三维资产的挑战性任务。具体而言，我们的贡献包括四个方面：（一）提出SceneGen新型框架，该框架以场景图像及对应物体掩码作为输入，同步生成具有几何结构与纹理的多个三维资产。值得注意的是，SceneGen无需优化过程或资产检索即可运行；（二）设计新型特征聚合模块，在特征提取阶段整合来自视觉与几何编码器的局部与全局场景信息。结合位置预测头，该设计实现了单次前向传播即可生成三维资产及其相对空间位置；（三）验证SceneGen对多图像输入场景的直接扩展能力。尽管仅使用单图像输入进行训练，我们的架构设计能够通过多图像输入提升生成性能；（四）大量定量与定性实验证实了该方法的高效性与强健的生成能力。我们相信该范式为高质量三维内容生成提供了创新解决方案，有望推动其在下游任务中的实际应用。代码与模型将公开于：https://mengmouxu.github.io/SceneGen。 | | ATLAS：解耦骨骼与形态参数以实现高表现力参数化人体建模

该标题可拆解为三个核心部分进行专业翻译： 1. ATLAS - 保留英文专有名词不译，作为模型名称 2. Decoupling Skeletal and Shape Parameters - 技术核心译为"解耦骨骼与形态参数"，其中： - Decoupling 采用计算机图形学标准译法"解耦" - Skeletal 对应"骨骼"参数（控制姿态） - Shape 译为"形态"参数（控制体型） 3. Expressive Parametric Human Modeling - 译为"高表现力参数化人体建模"，其中： - Expressive 强调模型表达能力，增加"高"字体现程度 - Parametric Modeling 采用专业术语"参数化建模" - Human Modeling 译为"人体建模"符合计算机图形学领域惯例

整个翻译保持了学术文本的精确性，同时符合中文表达习惯，准确传达了原技术通过分离骨骼与形态参数来提升人体模型表现力的核心创新点。 | Jinhyung Park | PDF | 参数化人体模型能够通过广泛学习配准三维网格的基础特征，提供具有高度表现力的三维人体表征，涵盖多样化姿态、体型和面部表情。然而，现有人体网格建模方法因训练数据多样性不足和建模假设受限，难以有效捕捉不同身体姿态与体型的细节变化。现有通用范式通常先采用线性基优化外部体表，再从表面顶点回归内部骨骼关节点。这种方法会导致内部骨骼与外部软组织之间产生不良耦合，限制了直接调控身高和骨长的能力。

为解决这些问题，我们提出ATLAS模型——一个基于240台同步相机采集的60万张高分辨率扫描数据构建的高保真人体模型。与现有方法不同，我们通过将网格表征锚定在人体骨骼上，实现了形状基与骨骼基的显式解耦。这种解耦机制增强了形状表现力，支持细粒度身体属性定制，并能独立于外部软组织特征进行关键点拟合。ATLAS在拟合未知受试者的多样化姿态时表现出更高精度，定量评估表明：相较于线性模型，我们的非线性姿态校正方法能更有效地捕捉复杂姿态。 | | 通过具备秩感知束GRPO的Transformer模型发现隐藏代数结构 | Jaeha Lee | PDF | 近期研究进一步扩展了Transformer模型在逻辑推理与符号计算方面的能力。本文重点探究其在函数分解背景下发现非线性潜在模式的潜力，聚焦于极具挑战性的多元多项式分解这一代数任务。该问题在科学与工程领域具有广泛应用，被证明属于NP难问题，对精确性与洞察力均有极高要求。我们的贡献主要体现在三个方面：首先，开发了能够精细控制问题复杂度的合成数据生成流程；其次，通过监督学习训练Transformer模型，并从规模扩展行为和泛化能力等四个关键维度进行评估；最后，提出了束分组相对策略优化（BGRPO）——一种适用于困难代数问题的秩感知强化学习方法。采用BGRPO进行微调可在将束宽度缩减高达50%的同时提升准确率，使推理计算量降低约75%。此外，我们的模型在多项式简化任务中展现出竞争优势，在多类场景下性能超越Mathematica。 | | 连续动作空间中多智能体强化学习的对抗攻击分布式检测

（注：该翻译严格遵循学术术语规范： 1. "Distributed Detection" 译为"分布式检测"，符合计算机领域术语标准 2. "Adversarial Attacks" 保留专业表述"对抗攻击" 3. "Multi-Agent Reinforcement Learning" 采用学界通用译法"多智能体强化学习" 4. "Continuous Action Space" 译为"连续动作空间"，准确传达强化学习专业概念 5. 语序调整符合中文学术表达习惯，同时保持专业术语的精确性） | Kiarash Kazari | PDF | 我们致力于解决连续动作空间下协作多智能体强化学习系统遭受对抗攻击的检测问题。提出了一种去中心化检测器，该检测器仅依赖智能体的局部观测信息，并利用可观测智能体正常行为的统计特征进行检测。该检测器采用深度神经网络将智能体的正常行为近似为参数化多元高斯分布。基于预测的概率密度函数，我们定义了正态性评分并给出其均值与方差的特征描述。这种特征描述使我们能够采用双边CUSUM（累积和）程序来检测正态性评分与其均值的偏离，从而实现实时异常行为检测。我们在多智能体PettingZoo测试平台上针对多种先进攻击方法进行评估，实验结果表明我们的方法能有效检测具有显著影响的对抗攻击。特别值得注意的是，在所有测试环境中，针对最具影响力的攻击，本方法以超过0.95的AUC-ROC评分显著优于离散动作空间的对应方案。 | | Intern-S1：一种科学多模态基础模型

（注：该翻译严格遵循学术术语规范： 1. "Intern-S1" 保留原名不译，符合学术代号翻译惯例 2. "Scientific" 译为"科学"准确体现学科属性 3. "Multimodal" 采用计算机领域标准译法"多模态" 4. "Foundation Model" 参照人工智能领域统一术语译为"基础模型" 整体译文保持学术文本的简洁性和专业性，符合中文科技文献表达习惯） | Lei Bai | PDF | 近年来，开源基础模型大量涌现，在部分广受关注的领域取得显著进展，其性能已十分接近闭源模型。然而在高价值但更具挑战性的科学专业领域，这些领域要么仍依赖专家模型，要么通用基础模型的进展显著滞后于热门领域，远不足以支撑科研变革，导致开源模型与闭源模型在这些科学领域存在巨大差距。为弥合这一差距并探索通向通用人工智能（AGI）的路径，我们推出Intern-S1——一个具备通用理解推理能力且拥有多模态科学数据分析专长的专业通才模型。该模型是多模态混合专家（MoE）架构，拥有280亿激活参数与2410亿总参数，基于5T token（其中包含超过2.5T科学领域token）进行持续预训练。在后训练阶段，Intern-S1在InternBootCamp中先后经历离线和在线强化学习（RL）训练，我们提出混合奖励机制（MoR）以协同推进超过1000项任务的RL训练。通过算法、数据与训练系统的整合创新，Intern-S1在在线RL训练中达到顶级性能。在综合评估基准测试中，Intern-S1在通用推理任务上展现出开源模型中的竞争优势，在科学领域显著超越其他开源模型，并在分子合成规划、反应条件预测、晶体热力学稳定性预测等专业任务中超越闭源前沿模型。我们的模型已发布于https://huggingface.co/internlm/Intern-S1。 | | Waver：以波动方式实现逼真视频生成

（注：译文采用意译策略，既保留"Wave"的核心意象（波动/挥手），又通过"实现逼真视频生成"准确传达技术目标。"Wave Your Way"巧妙转化为"以波动方式"，既呼应原文的互动性表达，又符合中文技术文献的表述规范。整体翻译在保持学术准确性的同时，兼顾了品牌命名的生动性。） | Yifu Zhang | PDF | 我们推出Waver——一个面向统一图像与视频生成的高性能基础模型。该模型能够直接生成长度5至10秒、原生分辨率720p的视频，并支持后续升级至1080p。通过单一集成框架，Waver可同步实现文本生成视频（T2V）、图像生成视频（I2V）及文本生成图像（T2I）三大功能。我们提出混合流DiT架构以增强多模态对齐能力并加速训练收敛。为确保训练数据质量，建立了完整的数据治理流程，通过人工标注并训练基于MLLM的视频质量评估模型来筛选最优样本。此外，我们提供了详细的训练与推理方案以促进高质量视频生成。基于这些创新，Waver在捕捉复杂运动方面表现卓越，实现了卓越的运动幅度与视频合成的时间一致性。值得注意的是，在Artificial Analysis平台的T2V和I2V排行榜（数据截至2025年7月30日北京时间10时）中均位列前三甲，持续超越现有开源模型，达到或超越了当前最先进的商业解决方案水平。我们希望本技术报告能助力学界更高效地训练高质量视频生成模型，加速视频生成技术的发展。官方页面：https://github.com/FoundationVision/Waver。 | | LiveMCP-101：基于挑战性查询的MCP智能体压力测试与诊断分析

（注：翻译严格遵循技术文档规范，保留"MCP"作为专业术语不译，采用"智能体"对应"Agents"的学术译法。"Stress Testing"译为"压力测试"符合计算机领域术语标准，"Diagnosing"译为"诊断分析"体现系统性检测内涵。"Challenging Queries"译为"挑战性查询"准确传达高复杂度测试场景的技术概念。） | Ming Yin | PDF | 工具调用已成为AI智能体与现实世界交互并解决复杂任务的关键能力。尽管模型上下文协议（MCP）为工具集成提供了强大的标准化框架，但在衡量AI智能体如何在真实动态场景中有效使用多样化MCP工具完成多步骤任务方面，仍存在显著的基准测试空白。本研究推出LiveMCP-101基准测试集，包含101个经过精心设计的真实场景查询——这些查询通过迭代式大语言模型重写和人工审核优化，需要协调使用包括网络搜索、文件操作、数学推理和数据分析在内的多种MCP工具。此外，我们创新性地采用基于真实执行计划而非原始API输出的评估方法，更准确地反映现实环境的动态特性。实验表明，即使最先进的大语言模型成功率也低于60%，凸显出工具协调方面的重大挑战。详细的消融实验和错误分析进一步揭示了不同的故障模式及token使用效率问题，为现有模型的改进指明了具体方向。LiveMCP-101为评估现实世界智能体能力设立了严格标准，推动通过工具使用可靠执行复杂任务的自主AI系统向前发展。 |

bioRxiv

标题	作者	PDF链接	摘要
夜间人工光照改变一年生草本植物的形态、物候及繁殖能力	Xiao, L.	PDF
揭示核心：连接家族性与散发性帕金森病的关键枢纽基因

（注：翻译严格遵循学术规范，保留"Hub Genes"作为专业术语的准确译法"枢纽基因"，同时采用"揭示核心"的意译方式准确传达"Unraveling the Core"的科研内涵。句式结构符合中文学术语境，通过冒号实现主副标题的逻辑衔接，确保学术表达的精确性与流畅性。） | Singh, S. | PDF | | | 小鼠海马体中空间记忆对突触mRNA乙酰化的动态调控

（注：译文采用学术论文标题的常见表达方式： 1. 将"Dynamic regulation"译为"动态调控"符合分子生物学规范 2. "mRNA acetylation"保留专业术语直译为"mRNA乙酰化" 3. 使用"空间记忆"准确对应"spatial memory"这一神经科学专业术语 4. 通过"对...的"结构保持原文的逻辑关系，同时符合中文标题表达习惯 5. 补充"中"字使地点状语"in mouse hippocampus"的表达更符合中文语境） | Zhou, H.-Q. | PDF | | | 肉食动物大脑的比较神经影像学研究：新皮质沟回解剖学

（注：翻译严格遵循了学术术语的准确性： 1. "Comparative neuroimaging" 译为"比较神经影像学研究"以符合中文论文标题习惯 2. "carnivoran brain" 专业译为"肉食动物大脑"而非字面直译 3. "Neocortical sulcal anatomy" 准确译为"新皮质沟回解剖学"，其中"sulcal"特指脑沟的解剖特征） | Boch, M. | PDF | | | tbea：贝叶斯进化分析前后处理工具集

（注：CV.eDNA作为专有名词保留原格式，采用"计算机视觉"与"DNA宏条形码"的标准学科译法。"hybrid approach"译为"混合方法"准确体现多技术融合特性，"invertebrate biomonitoring"译为"无脊椎动物生物监测"符合生态学领域术语规范。） | Blair, J. D. | PDF | | | 由抗原突变积累驱动的癌症-免疫协同进化

（注：翻译严格遵循了以下原则： 1. 专业术语准确对应："In Vitro Transcription"译为"体外转录"，"Direct RNA Nanopore sequencing"译为"直接RNA纳米孔测序" 2. 保持学术严谨性："Simultaneous detection"译为"同时检测"而非"同步检测" 3. 语序符合中文科技文献表达习惯 4. 完整保留技术方法的核心要素：检测对象（RNA修饰）、方法学组合（体外转录+纳米孔测序）） | Mulroney, L. M. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF