跳转至

2025-10-02 每日论文

来源 独立页面
arXiv arXiv
bioRxiv bioRxiv
medRxiv medRxiv

arXiv

标题 作者 PDF链接 摘要
缝合:多模态扩散变换器中无需训练的位置控制

(注:该翻译保持了以下专业要素: 1. "Stitch"译为"缝合"对应计算机图形学/图像处理领域的专业术语 2. "Training-Free"准确译为"无需训练"体现免训练特性 3 "Position Control"译为"位置控制"符合控制论术语规范 4 "Multimodal Diffusion Transformers"完整保留"多模态扩散变换器"这一专业架构名称 整体译文既符合中文表达习惯,又完整保留了原文的技术内涵。) | Jessica Bader | PDF | 近年来,文生图(T2I)生成模型发展迅猛,但准确捕捉"上方""右侧"等空间关系仍是持续存在的挑战。早期方法通过外部位置控制改进了空间关系跟随能力,然而随着模型架构演进至提升图像质量的阶段,这些技术已无法兼容现代模型。我们提出Stitch——一种无需训练即可通过自动生成边界框将外部位置控制融入多模态扩散变换器(MMDiT)的方法。该技术通过在指定边界框内生成独立对象并无缝拼接,既能保证空间准确性又能呈现视觉吸引力。研究发现,特定注意力头可在生成过程中捕获隔离和裁剪独立对象所需信息,无需完成整幅图像。我们在PosEval基准测试中评估Stitch,该基准扩展了基础GenEval任务的概念,包含五项针对位置关系的新任务。测试表明,即使顶级模型在基于位置的生成方面仍有显著提升空间。在Qwen-Image、FLUX和SD3.5上的实验证明,Stitch能持续增强基础模型,使FLUX在GenEval位置任务上提升218%,在PosEval上提升206%。Stitch与Qwen-Image组合在PosEval上实现最优结果,较先前模型提升54%,所有成果均在无需训练的前提下将位置控制集成至主流模型。代码已发布于https://github.com/ExplainableML/Stitch。 | | TTT3R:将三维重建作为测试时训练方法 | Xingyu Chen | PDF | 现代循环神经网络因其线性时间复杂度,已成为三维重建领域具有竞争力的架构。然而,当应用超出训练上下文长度时,其性能会显著下降,暴露出长度泛化能力有限的问题。本研究从测试时训练的角度重新审视三维重建基础模型,将其设计框架转化为在线学习问题。基于该视角,我们利用记忆状态与输入观测之间的对齐置信度,推导出记忆更新的闭式学习率,以平衡历史信息保留与新观测适应的关系。这种无需重新训练的技术TTT3R显著提升了长度泛化能力,在全局位姿估计任务上较基线方法实现2倍性能提升,同时仅需6GB显存即可在20帧/秒的速率下处理数千张图像。代码详见:https://rover-xingyu.github.io/TTT3R | | 不同随机种子下语言模型的收敛性与发散性 | Finlay Fehlauer | PDF | 本文研究了不同随机种子训练下语言模型的收敛性,通过计算各种子间每词元KL散度的期望值来衡量收敛程度。通过比较模型规模与训练检查点对收敛的影响,我们识别出四阶段收敛模式:(i)初始均匀阶段;(ii)急剧收敛阶段;(iii)急剧发散阶段;(iv)缓慢再收敛阶段。进一步发现,较大模型在训练后期再收敛速度更快,而较小模型始终无法实现再收敛,这表明学习稳定分布可能需要特定模型规模。针对特定词频和词性标注的细化分析表明,不同语言学范畴的收敛存在不均衡性:高频词与功能词比低频词与实义词收敛更快更稳定。本研究总体揭示了影响模型训练中分布稳定性学习的关键因素。 | | 查询-上下文:一种用于图像生成与编辑的统一多模态模型 | Yuxin Song | PDF | 统一多模态模型(UMMs)在文本到图像生成(T2I)与编辑(TI2I)任务中展现出卓越性能,其实现形式既包括将强大视觉语言模型(VLM)与基于扩散的生成器耦合的组装式统一框架,也包含早期融合理解与生成模态的朴素统一多模态模型。我们认为,在当前统一框架中,多模态生成推理的关键能力——包括指令理解、语义 grounding 及图像参照以实现身份保持与忠实重建——本质上与高保真合成能力相互纠缠。本文提出Query-Kontext这一创新方法,通过由多模态输入编码生成的语义线索与粗粒度图像条件构成的“kontext”桥梁,连接VLM与扩散模型。该设计将复杂的多模态生成推理能力委托给强大的VLM,同时保留扩散模型的高质量视觉合成职能。为实现这一目标,我们提出三阶段渐进式训练策略:首先通过多模态kontext令牌将VLM连接至轻量级扩散头,释放VLM的生成推理能力;随后将该头部扩展至大规模预训练扩散模型以增强视觉细节与真实感;最后引入底层图像编码器提升图像保真度,并在下游任务中进行指令微调。此外,我们构建了整合真实数据、合成数据与开源数据的全流程数据管道,覆盖图像生成、指令驱动编辑、定制化生成及多主体组合等多模态参照-图像场景。实验表明,我们的方法在保持强劲统一基线性能的同时,在多个场景下甚至超越任务专用型前沿方法。 | | SPATA:面向精细化透明数据卡片的系统性模式分析框架

(注:SPATA作为专有名词保留不译,通过冒号后的完整释义准确传达其技术内涵。采用"系统性模式分析"对应Systematic Pattern Analysis,以"精细化透明数据卡片"对译Detailed and Transparent Data Cards,通过添加"框架"二字完善专业语境表达,符合中文计算机学科术语规范。) | João Vitorino | PDF | 由于人工智能(AI)易受数据扰动和对抗样本影响,在部署任何机器学习(ML)模型前进行全面的鲁棒性评估至关重要。然而,检查模型的决策边界并识别潜在漏洞通常需要访问训练和测试数据集,这可能对数据隐私与保密性构成风险。为提升涉及敏感数据或管理关键基础设施的机构透明度,必须允许在不公开私有数据集的前提下对AI系统进行外部验证。本文提出系统性模式分析(SPATA)——一种将任意表格数据集转换为统计模式的领域无关表征的确定性方法,以提供更详尽透明的数据卡片。SPATA将每个数据实例投影至离散空间进行分析比较,同时确保数据零泄漏。这些投影数据集可可靠用于评估不同特征对ML模型鲁棒性的影响,并生成可解释的行为说明,从而助力构建更可信的AI系统。 | | 在城市尺度下对以自我为中心的视觉惯性SLAM进行基准测试 | Anusha Krishnan | PDF | 利用机载传感器实现精确的六自由度同步定位与地图构建(SLAM)技术,对于采集以自我为中心数据的可穿戴设备至关重要。这类设备面临特殊挑战,包括运动模式与观察视角的更大多样性、普遍存在的动态视觉内容,以及因时变传感器校准而受影响的长时间作业场景。尽管SLAM技术近期发展迅速,但学术研究仍受限于未能反映这些挑战或缺乏高精度真实位姿标注的基准数据集。本文提出一个包含自我中心多模态数据的视觉-惯性SLAM新型数据集与基准测试体系。我们通过配备多种传感器的类眼镜设备,在市中心记录了长达数小时、覆盖数公里的运动轨迹。通过运用测绘工具获取控制点作为间接位姿标注,实现了公制尺度、厘米级精度且适用于城市规模的定位标注。这使得评估极端运动轨迹(如夜间步行或车载行进)成为可能。实验表明,学术界开发的先进系统尚无法稳健应对这些挑战,我们进一步识别了导致该现象的核心组件。此外,我们设计了具有不同难度等级的测试赛道,以促进对尚不成熟方法的深度分析与评估。数据集与基准测试平台详见https://www.lamaria.ethz.ch。 | | 事故基准:车辆事故及更广泛场景中多模态理解与推理的基准评测 | Shangding Gu | PDF | 随着多模态模型的快速发展,亟需建立能够严格评估安全关键型动态现实场景中理解与推理能力的基准。我们推出AccidentBench——一个融合交通事故场景与跨域安全关键场景的大规模基准,涵盖航空与水域中强调时空推理的场景(如导航、方位判定、多载具运动)。该基准包含约2000段视频及超过19000组人工标注的问答对,涵盖短/中/长三种视频时长与易/中/难三个难度层级。任务设计系统化检验核心能力:时序理解推理、空间理解推理及意图理解推理。通过整合以事故为中心的交通场景与更广泛的空域水域安全关键场景,AccidentBench构建出基于物理现实的综合测试平台,用于评估模型在真实环境变异下的性能。对前沿模型(如Gemini-2.5 Pro与GPT-5)的评估表明,即使最强模型在最难任务和最长视频上的准确率仅约18%,揭示出现有模型在现实时空推理与意图推理方面存在显著不足。AccidentBench旨在暴露这些关键缺陷,推动开发更安全、更鲁棒、更契合现实安全挑战的多模态模型。代码与数据集已开源:https://github.com/SafeRL-Lab/AccidentBench | | 通过音节语音标记化扩展口语语言模型 | Nicholas Lee | PDF | 口语模型通常将从自监督学习语音模型中提取的高帧率标记作为离散化语音单元。由于最成功的语言模型基于Transformer架构,使用自注意力机制处理这些长标记序列的成本极高——因为注意力计算复杂度随序列长度呈平方级增长。近期一项自监督学习研究引入了音节级语音标记化方法,该方法不仅更具可解释性,还能通过显著压缩标记长度(4-5赫兹)实现更好的可扩展性。然而,这种标记化方法在口语建模中的价值尚未得到充分探索。我们首次系统研究了音节标记化在口语建模中的应用,通过在不同训练数据规模下对一系列口语理解基准进行评估发现:音节标记在显著降低训练与推理成本的同时(训练时间缩短2倍以上,浮点运算量减少5倍),能够达到甚至超越传统高帧率标记的性能。我们的研究结果表明,音节级语言建模是实现高效长上下文口语模型的一条重要路径。 | | OmniRetarget:面向人形机器人全身移动操作与场景交互的交互保持数据生成方法

(注:该翻译在保持专业术语准确性的基础上,采用符合中文科技文献表达习惯的句式结构。其中: 1. "Humanoid Whole-Body Loco-Manipulation" 译为"人形机器人全身移动操作",准确体现人形机器人在移动过程中执行操作任务的技术内涵 2. "Interaction-Preserving" 译为"交互保持",精准传达保持原始交互特性的数据生成理念 3. 通过添加"方法"二字,符合中文学术标题常见的命名规范 4. 使用顿号连接并列成分,遵循中文标点使用规范) | Lujie Yang | PDF | 当前人形机器人复杂技能教学的主流范式,是将人体运动重定向为运动学参考以训练强化学习策略。然而现有重定向流程常因人体与机器人间的显著形体差异而产生足部滑动、穿模等物理失真现象。更重要的是,常规重定向方法忽略了表达性移动与移动操作中至关重要的人-物、人-环境交互关系。为此,我们提出OmniRetarget——基于交互网格的交互保持型数据生成引擎,通过显式建模并保持智能体、地形与操作对象间的关键空间及接触关系,在最小化人体与机器人网格间拉普拉斯形变的同时施加运动学约束,生成运动学可行的轨迹。该交互保持机制更支持从单次演示高效扩展至不同机器人构型、地形与物体配置的数据增强。我们通过重定向OMOMO、LAFAN1及自建动捕数据集进行系统评估,生成超过8小时的轨迹数据,在运动学约束满足度与接触保持方面均优于现有基线。此类高质量数据使本体感知强化学习策略仅需5项奖励函数及跨任务通用域随机化设置,无需任何课程学习,即可在Unitree G1人形机器人上成功执行长达30秒的跑酷与移动操作任务。 | | 拓展边界:运用测量树形图拓宽人工智能的测评维度

(注:译文采用意译策略,通过"拓展边界"对应"Branching Out"的双关语义,既体现分支延伸的意象又暗含领域拓展之意。"测量树形图"准确传达"Measurement Trees"的技术概念,同时以"测评维度"动态呈现"Measurement and Evaluation"的复合内涵,使专业术语在中文语境中既保持学术严谨性又符合表达习惯。) | Craig Greenberg | PDF | 本文提出了一种新型度量标准——\textit{测量树},这类创新指标通过将不同构念整合为可被测量的多层级表征形式。与传统产生单一数值、向量、曲面或分类结果的度量方法不同,测量树生成具有层次结构的有向图,其中每个节点通过用户自定义的聚合方法对其子节点进行汇总。为响应近期扩大人工智能系统评估范围的倡议,测量树通过整合异质性证据(包括但不限于智能体行为、商业指标、能效数据、社会技术信号或安全指标)来增强度量透明度。我们给出了具体定义与实例,通过大规模测量实验验证其实用价值,并配套开源Python代码库。通过实现复杂构念的透明化测量方法,本研究为构建更全面、更可解释的人工智能评估体系奠定了理论基础。 |

bioRxiv

标题 作者 PDF链接 摘要
从顽石中取血:无需额外神经数据提升神经推断能力 Halpern, D. J. PDF
跨物种细菌人工染色体转基因研究揭示:长程调控驱动大脑催产素受体表达及社会行为的变异 Zhang, Q. PDF
用于增强双光子成像的40 MHz飞秒激光重复频率分频器 Tang, S. PDF
通过eIF2β调控衰老过程中线粒体轴突分布维持神经元自噬

(该翻译采用"通过...调控...维持..."的句式清晰呈现作用机制,保留"eIF2β"专业术语不翻译,使用"轴突分布"准确对应axonal distribution,并通过"神经元自噬"精准表达neuronal autophagy这一专业概念,整体符合中文科技论文标题的表述规范) | Shinno, K. | PDF | | | 迈向通过函数分配掩码超字符串实现高效k-Mer集合运算

该标题可拆解为三个核心部分: 1. "Function-Assigned Masked Superstrings"(函数分配掩码超字符串) - 指通过特定函数对掩码处理的超字符串进行数据分配的技术方法

  1. "k-Mer Set Operations"(k-Mer集合运算)
  2. 涉及生物信息学中DNA序列k-mer片段的集合操作

  3. "Towards Efficient"(实现高效)

  4. 体现对算法效率的优化追求

建议采用直译加专业释义的方式,既保持术语准确性又符合中文表达习惯。在生物信息学语境中,"k-Mer"通常保留英文写法,"掩码超字符串"是计算机科学领域的标准译法。 | Sladky, O. | PDF | | | 运动偏向反映了视觉与本体感觉参考框架之间的错位。 | Wang, T. | PDF | | | ntRoot:基于基因组数据的大规模人类祖先计算推断 | Warren, R. L. | PDF | | | 将出生后小鼠皮质星形胶质细胞直接谱系转化为少突胶质细胞谱系细胞

(注:该翻译严格遵循以下学术规范: 1. 保留"direct lineage conversion"专业术语译为"直接谱系转化" 2. "postnatal"准确译为发育生物学标准术语"出生后" 3. "cortical astrocytes"采用神经科学规范译名"皮质星形胶质细胞" 4. "oligodendrocyte lineage cells"译为"少突胶质细胞谱系细胞",完整保留谱系概念) | Bajohr, J. | PDF | | | 纳米团簇与信号传导:KRAS G12C和KRAS G12D对脂质酰基链重塑的响应呈现等位基因特异性差异

(注:翻译时采用学术文献常用表达方式,将"nanoclustering and signaling"处理为并列名词短语,通过冒号建立主题说明关系。"allele-specific manner"译为"等位基因特异性差异"既保留专业术语特征,又符合中文表达习惯。通过"响应"与"呈现"的动词搭配,准确传达原文中脂质重塑与KRAS亚型动态响应的科学内涵。) | Arora, N. | PDF | | | 从地图到模型:任务态功能磁共振成像小型研究可靠性综述 | Sadil, P. | PDF | |

medRxiv

标题 作者 PDF链接 摘要
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF