跳转至

2025-10-29 每日论文

来源 独立页面
arXiv arXiv
bioRxiv bioRxiv
medRxiv medRxiv

arXiv

标题 作者 PDF链接 摘要
生成式视点拼接 Chonghyuk Song PDF 自回归视频扩散模型能够生成稳定且与历史帧一致的长序列,但其无法利用未来帧的约束条件指导当前帧生成。在基于预设相机轨迹的摄像引导视频生成任务中,这一缺陷会导致生成场景与相机轨迹发生碰撞,进而引发自回归过程的快速崩溃。为此,我们提出生成式视点缝合技术(GVS),通过并行采样完整序列确保生成场景精准遵循预设相机轨迹的每个区段。我们的核心贡献是开发了一种采样算法,将机器人规划领域的扩散缝合技术拓展至视频生成领域。尽管此类缝合方法通常需要专门训练的模型,但GVS兼容任何采用“扩散强制”训练的开箱即用视频模型——我们证明这种主流序列扩散框架已具备缝合所需的基础特性。我们进一步提出全向引导技术,通过联合过去与未来帧的约束条件增强缝合时序一致性,并藉此实现闭环机制以保障长程连贯性。总体而言,GVS实现的摄像引导视频生成具有稳定性、无碰撞特性、帧间一致性,并能适配多种预设相机路径(包括奥斯卡·路特斯瓦德的彭罗斯阶梯)。完整动态效果请参阅:https://andrewsonga.github.io/gvs。
基于度量路径的均匀离散扩散模型在视频生成中的应用

这个翻译保留了原文的学术性和专业性: 1. "Uniform Discrete Diffusion"译为"均匀离散扩散模型",准确对应了扩散模型领域的专业术语 2. "Metric Path"译为"度量路径",符合数学和机器学习领域的术语习惯 3. "Video Generation"译为"视频生成",是计算机视觉领域的标准译法 4. 整体采用"基于...的...在...中的应用"的学术句式,符合中文科技论文的表达规范 | Haoge Deng | PDF | 连续空间视频生成技术发展迅猛,而离散方法因误差累积与长程上下文不一致问题发展滞后。本研究重新审视离散生成建模,提出具有度量路径的均匀离散扩散框架(URSA),这一简洁而强大的架构成功弥合了离散方法与连续方法在可扩展视频生成领域的差距。URSA的核心是将视频生成任务构建为离散时空标记的迭代式全局优化过程,其融合了两项关键设计:线性化度量路径与分辨率相关时间步偏移机制。这些设计使URSA能够高效扩展至高分辨率图像合成与长时序视频生成,同时显著减少推理步数。此外,我们提出异步时序微调策略,将插值、图像转视频等多种任务统一于单一模型中。在具有挑战性的视频与图像生成基准测试中,大量实验表明URSA持续超越现有离散方法,并达到与最先进连续扩散方法相媲美的性能。代码与模型已开源于:https://github.com/baaivision/URSA | | MoE中的路由机制至关重要:通过显式路由指导扩展扩散变换器 | Yujie Wei | PDF | 专家混合模型(MoE)已成为扩展模型容量同时保持计算效率的强大范式。尽管该范式在大型语言模型(LLMs)中取得显著成功,但现有将MoE应用于扩散变换器(DiTs)的尝试收效有限。我们认为这一差距源于语言与视觉标记的根本差异:语言标记具有语义密集性和显著的标记间差异性,而视觉标记则呈现空间冗余性和功能异质性,这阻碍了视觉MoE中的专家专业化。为此,我们提出ProMoE——一个具有显式路由指导的双阶段路由器的MoE框架,可有效促进专家专业化。具体而言,该框架通过条件路由根据功能角色将图像标记划分为条件集和无条件集,并借助基于语义内容的可学习原型,通过原型路由优化条件图像标记的分配。此外,原型路由实现的潜在空间基于相似度的专家分配,为引入显式语义指导提供了天然机制,我们验证了此类指导对视觉MoE至关重要。基于此,我们提出路由对比损失函数,显式增强原型路由过程,促进专家内部一致性与专家间多样性。在ImageNet基准上的大量实验表明,ProMoE在整流流和DDPM两种训练目标下均超越现有最优方法。代码与模型将公开发布。 | | 一种用于线性约束双层优化的单循环一阶算法 | Wei Shen | PDF | 我们研究一类双层优化问题,其下层问题具有强凸性且包含耦合线性约束。为克服超目标函数可能存在的非光滑性及海森矩阵带来的计算挑战,我们采用罚函数法与增广拉格朗日法将原问题重构为单层优化形式。特别地,通过精确刻画重构函数与原始超目标函数在数值和导数层面的逼近程度,我们建立了二者间的强理论关联。基于此重构框架,我们提出面向线性约束双层优化的单循环一阶算法(SFLCB)。通过严格的非渐近收敛速率分析,证明该算法较现有双循环算法实现显著提升——收敛阶由$O(\epsilon^{-3}\log(\epsilon^{-1}))$优化至$O(\epsilon^{-3})$。实验数据验证了理论结论,并展现SFLCB算法的实际效能。仿真代码详见https://github.com/ShenGroup/SFLCB。 | | 目标绑定是否自然出现在大型预训练视觉Transformer中? | Yihao Li | PDF | 物体绑定——即大脑将共同表征物体的多种特征整合为统一整体的能力——是人类认知的核心功能。该机制将低层次感知特征组合成高层次物体表征,以高效且组合式的方式存储于记忆中,并支撑人类对个体物体实例的推理。尽管前人研究常通过显式施加以物体为中心的注意力机制(如槽位注意力)来验证这些优势,但预训练视觉Transformer(ViT)是否自然涌现这种能力尚不明确。直觉上这种可能性存在:识别哪些图像块属于同一物体应对下游预测任务有益,从而可能引导注意力机制。基于自注意力二次计算特性的启发,我们提出假设:ViT能够表征两个图像块是否属于同一物体(我们称之为“同物体关系”)。通过相似性探针从ViT各层的图像块嵌入中解码该关系,准确率超过90%。关键发现是:这种物体绑定能力在自监督ViT(DINO、MAE、CLIP)中稳定涌现,但在ImageNet监督训练模型中出现显著弱化,表明绑定并非架构衍生的简单副产品,而是通过特定预训练目标获得的能力。我们进一步发现“同物体关系”编码在物体特征顶部的低维子空间中,且该信号会主动引导注意力。从模型激活中消融该关系会降低下游性能并违背学习目标,证明涌现的物体绑定天然服务于预训练目标。我们的发现挑战了“ViT缺乏物体绑定”的固有观点,揭示了“哪些部件属于同一整体”这类符号化知识如何在联结主义系统中自然涌现。 | | MetricX-25与GemSpanEval:谷歌翻译参与WMT25评估共享任务的提交系统

(注:采用学术文献标准译法,保留专有名词原貌并添加中文说明。MetricX-25作为算法模型名称保持原文,GemSpanEval作为评估工具名保留原拼写,WMT25遵循国际会议命名惯例,Shared Task按计算语言学领域惯例译为"共享任务") | Juraj Juraska | PDF | 本文介绍了我们为WMT25统一翻译评估共享任务提交的系统方案。在质量评分预测子任务中,我们通过改进输入格式与训练协议,开发了新一代MetricX系统;针对错误片段检测子任务,我们构建了GemSpanEval新型模型,该模型经训练可同步预测错误片段及其严重程度与分类。两个系统均基于最新多语言开放权重模型Gemma 3,并采用WMT公开数据进行了微调。实验表明:采用仅编码器架构并配备回归头的MetricX-25模型,经训练可有效预测MQM与ESA质量分数,其性能显著超越前代系统;而采用仅解码器架构的GemSpanEval模型在错误片段检测任务中,与强大的仅编码器序列标注基线xCOMET相比具有竞争力。通过将错误片段检测构建为生成式任务,我们指导模型同步输出每个预测错误片段的上下文信息,从而确保错误片段的判定具有明确指向性。 | | ComboBench:大型语言模型能否操控物理设备玩转虚拟现实游戏? | Shuqing Li | PDF | 虚拟现实(VR)游戏要求玩家通过控制器与头戴式显示器(HMD),将高层次语义动作转化为精确的设备操作。虽然人类能基于常识与具身认知直觉性地完成这种转换,但大语言模型(LLM)能否有效复现这种能力仍待探索。本文提出评估基准ComboBench,通过《半衰期:爱莉克斯》《Into the Radius》《Moss: Book II》《Vivecraft》四款热门VR游戏中的262个场景,系统评估LLM将语义动作转化为VR设备操作序列的能力。我们测试了GPT-3.5、GPT-4、GPT-4o、Gemini-1.5-Pro、LLaMA-3-8B、Mixtral-8x7B和GLM-4-Flash七款模型,并与人工标注真值及人类表现进行对比。研究发现:性能领先的模型(如Gemini-1.5-Pro)虽展现出强大的任务分解能力,但在流程推理与空间理解方面仍逊于人类;不同游戏间表现差异显著,表明模型对交互复杂度敏感;少量示例即可大幅提升性能,这为针对性增强LLM的VR操作能力指明方向。所有实验材料已发布于https://sites.google.com/view/combobench。 | | 代理数据协议:统一数据集以实现多样化、高效的大型语言模型代理微调

该翻译方案具有以下特点: 1. 专业术语准确对应:"Agent Data Protocol"译为"代理数据协议","LLM Agents"译为"大型语言模型代理" 2. 技术概念完整传达:通过"统一数据集"准确表达"Unifying Datasets"的核心含义 3. 目标表述清晰:"多样化、高效"对应"Diverse, Effective","微调"对应"Fine-tuning" 4. 句式结构符合中文表达习惯,采用冒号分隔主标题与副标题的学术规范格式 5. 保持技术文档的严谨性,同时确保中文读者能够准确理解协议的技术目标与价值 | Yueqi Song | PDF | 关于AI智能体大规模监督微调的公开研究成果仍相对稀缺,这主要源于智能体训练数据收集面临的特殊挑战。本研究指出,核心瓶颈并非底层数据源的匮乏,而是海量数据分散在异构的格式、工具与接口中。为此,我们提出智能体数据协议——一种轻量级表征语言,可作为连接多源格式智能体数据集与下游统一训练流程的"中间语言"。ADP的设计在表达能力上足以涵盖多样化任务(包括API/工具调用、网页浏览、编程开发、软件工程及通用智能体工作流),同时保持解析与训练的简易性,无需针对每个数据集进行工程化改造。实验环节中,我们将13个现有智能体训练数据集统一转换为ADP格式,并将标准化后的数据适配至多个主流智能体框架的训练就绪格式。基于这些数据的监督微调实验表明:相较于基线模型平均性能提升约20%,在标准编程、网页浏览、工具使用及研究基准测试中达到或逼近最先进水平,且无需领域特定调优。所有代码与数据均已开源发布,以期ADP能助力降低标准化、可扩展、可复现的智能体训练门槛。 | | 通义DeepResearch技术报告 | Tongyi DeepResearch Team | PDF | 我们推出通义深度研究——一款具备自主行为能力的智能大语言模型,专门针对长周期、深层次信息探索的研究任务而设计。为激发自主深度研究能力,该模型通过端到端训练框架开发,融合智能中间训练与智能后训练机制,实现跨复杂任务的可扩展推理与信息检索。我们构建了高度可扩展的全自动数据合成流程,无需依赖高成本人工标注,全面支撑所有训练阶段。通过为每个阶段构建定制化交互环境,系统确保全流程稳定一致的交互体验。通义深度研究模型总参数量达305亿,每令牌激活参数仅33亿,在包括"人类终极考试"、BrowseComp、BrowseComp-ZH、WebWalkerQA、xbench-DeepSearch、FRAMES及xbench-DeepSearch-2510等一系列智能深度研究基准测试中均达到最先进性能。现开源模型架构、训练框架及完整解决方案,以赋能学术社区。 | | 贪心采样在强化学习人类反馈中被证明是高效方法 | Di Wu | PDF | 基于人类反馈的强化学习(RLHF)已成为大语言模型后训练的关键技术。尽管其经验成果显著,但学界对RLHF的理论认知仍显不足——相较于经典强化学习,仅通过偏好反馈学习KL正则化目标会带来额外挑战。现有研究主要基于奖励驱动的布拉德利-特里偏好模型,并沿用了乐观或悲观估计的传统框架。本研究则突破性地采用通用偏好模型(其实际价值近期已获验证),实现了相较现有成果量级层面的性能突破。值得关注的是,这些突破源自直接采用经验估计的算法(即贪婪采样策略),而非前人研究中的乐观或悲观估计构建方法。这一发现根植于KL正则化目标下最优策略类的独特结构特性,我们进一步将其特化至BT模型,揭示了RLHF中贪婪采样策略出人意料的有效性。 |

bioRxiv

标题 作者 PDF链接 摘要
簇群大小决定人类细胞中转录工厂的内部结构 Semeraro, M. PDF
地面甲虫金属色泽变异的基因组图谱 Weng, Y.-M. PDF
核形态系统基因组学揭示隐藻质体在红藻门内具有深远且古老的起源 Novak, L. V. F. PDF
环境调控下的领鞭毛虫克隆-聚集型多细胞性

(注:该翻译严格遵循学术术语规范: 1. "Environmentally regulated"译为"环境调控下的",体现生态发育生物学概念 2. "clonal-aggregative"译为"克隆-聚集型",准确对应发育生物学中通过克隆分裂后聚集形成多细胞结构的特定类型 3. "multicellularity"译为"多细胞性",符合进化生物学中对生物复杂性的专业表述 4. 保留"choanoflagellate"的标准译名"领鞭毛虫",该译名在动物起源研究中具有特定学术意义) | Ros-Rocher, N. | PDF | | | 生态因素而非社会因素解释了头足类动物的脑容量 | Basava, K. | PDF | | | omnideconv:一个用于利用单细胞信息进行批量RNA-seq数据解卷积的统一框架与基准测试平台

该翻译保留了以下关键要素: 1. 专业术语准确性: - "deconvolution"译为"解卷积"(计算生物学标准译法) - "bulk RNA-seq"译为"批量RNA-seq"(学界通用译法) - "benchmarking"译为"基准测试"(计算机领域标准术语)

  1. 框架特征呈现:
  2. "unifying framework"译为"统一框架"体现工具整合性
  3. 通过"与"字连接并列功能,符合中文表达习惯
  4. "单细胞信息"准确对应"single-cell-informed"的技术内涵

  5. 学术文本规范:

  6. 保持工具名"omnideconv"原文不变
  7. 使用冒号分隔主副标题
  8. 采用"平台"补充隐含的系统功能属性 | Dietrich, A. | PDF | | | 作为时间适应的结果,感官表征得到改善 | Brands, A. M. | PDF | | | 强迫症中的认知序列受到前额叶皮层斜坡活动的支持 | Doyle, H. | PDF | | | 减少R2*与磁化率脑图中由心脏搏动所致噪声的K空间采样策略

(注:该翻译严格遵循以下学术规范: 1. 保留专业术语"K-space"为"K空间","R2*"保持标准符号形式 2. 准确转换"cardiac pulsatility"为"心脏搏动"这一生理学术语 3. 将"magnetic susceptibility"规范译为"磁化率" 4. 采用"脑图"对应"brain maps"的影像学术语 5. 保持"采样策略"与"sampling strategies"的技术对应关系 6. 完整呈现"噪声诱导"的技术因果关系链) | Raynaud, Q. | PDF | | | KCNC1癫痫性脑病新型小鼠模型中快速放电神经元兴奋性受损

解析: 1. "Impaired excitability" 译为"兴奋性受损",准确对应神经科学术语 2. "fast-spiking neurons" 采用专业译法"快速放电神经元",特指特定类型的GABA能中间神经元 3. "novel mouse model" 译为"新型小鼠模型",符合生物医学文献表述规范 4. "KCNC1 epileptic encephalopathy" 保留基因名称KCNC1不翻译,后接"癫痫性脑病"这一标准临床术语 5. 整体语序调整为中文常用的前置修饰结构,符合学术翻译规范 | Wengert, E. R. | PDF | |

medRxiv

标题 作者 PDF链接 摘要
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF