2025-10-07 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
TopInG：基于持续性理据过滤的拓扑可解释图学习	Cheng Xin	PDF	图神经网络（GNNs）在多个科学领域展现出卓越成效，但其在关键决策中的应用常因可解释性不足而受限。近期，本质可解释图神经网络通过识别图中的理据子结构来揭示模型预测依据，已成为研究热点。然而，当底层理据子图结构复杂多变时，现有方法仍面临挑战。本研究提出TopInG：拓扑可解释图学习框架——一种基于持续同调理论的新型拓扑框架，用于识别具有持续性的理据子图。TopInG采用理据滤层学习方法模拟理据子图的自回归生成过程，并引入名为“拓扑差异”的自适应拓扑约束，以强化理据子图与无关子图之间的持续拓扑区分。我们通过理论证明，在特定条件下损失函数可通过真实标注实现唯一优化。大量实验表明，TopInG能有效应对关键挑战：处理多形态理据子图、平衡预测性能与可解释性、缓解伪相关性。实验结果显示，本方法在预测精度和解释质量上均优于当前最先进的方法。
纸浆动态：基于构图感知的多模态相机与人体运动生成

说明： 1. 保留专业术语"multimodal"的标准译法"多模态" 2. "Framing-aware"译为"基于构图感知"，准确传达摄影构图的技术概念 3. "Pulp Motion"采用意译"纸浆动态"，既保留原项目名称特征又符合中文表达习惯 4. 整体采用技术文献常用的"定语+主体"结构，确保专业性与可读性统一 | Robin Courant | PDF | 将人体运动与摄像机轨迹生成分开处理，忽视了电影摄影的核心原则：演员表演与镜头调度在屏幕空间中的紧密互动。本文首次将该任务构建为文本条件的联合生成，旨在保持稳定屏幕构图的同时，生成两种异构但本质关联的模态——人体运动与摄像机轨迹。我们提出一个与模型无关的简易框架，通过辅助模态强化多模态一致性：将人体关节点投影至摄像机形成的屏幕构图。这种屏幕构图为不同模态间搭建了自然有效的桥梁，既促进一致性又实现更精确的联合分布。我们首先设计联合自编码器学习共享潜空间，并建立从人体与摄像机潜变量到构图潜变量的轻量线性变换。随后引入辅助采样技术，利用该线性变换引导生成过程朝向一致的构图模态。为支撑此研究，我们同步提出PulpMotion数据集——包含丰富文本描述与高质量人体动作的人体运动-摄像机轨迹数据集。基于DiT与MAR架构的广泛实验表明，本方法在生成构图协调的人体-摄像机运动方面具有普适性与有效性，同时提升双模态的文本对齐效果。定性实验结果呈现出更具电影美学意义的构图效果，为此任务树立了新标杆。代码、模型及数据请访问\href{https://www.lix.polytechnique.fr/vista/projects/2025_pulpmotion_courant/}{项目主页}。 | | 论文转视频：基于科研论文的自动视频生成技术 | Zeyu Zhu | PDF | 学术演示视频已成为科研传播的重要媒介，但其制作过程仍高度依赖人工——通常需要耗费数小时进行幻灯片设计、录制与剪辑，才能产出时长仅2至10分钟的短片。与自然视频不同，演示视频生成面临独特挑战：需处理研究论文的输入信息、密集的多模态内容（文本、图表、数据），并协调幻灯片、字幕、语音及人像画面等多个对齐通道。为应对这些挑战，我们首次构建了PaperTalker基准数据集，包含101篇研究论文及其作者制作的演示视频、幻灯片和讲者元数据。我们进一步设计了四项定制化评估指标——元相似度、演示竞技场、演示问答和IP记忆——以量化视频向观众传递论文信息的效果。基于此，我们提出首个多智能体学术演示视频生成框架PaperTalker，通过创新性树搜索视觉选择实现幻灯片生成与布局优化，同步整合光标定位、字幕生成、语音合成及人像渲染技术，并采用逐页并行生成策略提升效率。在Paper2Video平台上的实验表明，本方法生成的演示视频在信息保真度与内容丰富度上均优于现有基线，为实现自动化即用型学术视频生成迈出关键一步。数据集、智能体及代码已开源：https://github.com/showlab/Paper2Video。 | | 从含噪轨迹到稳定梯度：面向大型推理模型对齐的偏差-方差优化偏好优化

（该翻译通过以下方式实现学术准确性： 1. 专业术语处理： - "Noisy Traces"译为"含噪轨迹"符合机器学习领域对噪声数据的表述惯例 - "Stable Gradients"译为"稳定梯度"保持深度学习领域的标准术语 - "Bias-Variance Optimized"采用"偏差-方差优化"这一统计学习标准译法

技术概念传达：
"Preference Optimization"译为"偏好优化"准确反映强化学习从人类反馈中学习的核心方法
"Aligning"译为"对齐"符合AI安全领域对模型价值对齐的标准表述
"Large Reasoning Models"译为"大型推理模型"准确描述具有复杂推理能力的大规模语言模型
句式结构优化：采用破折号连接的主副标题结构，既保持原文技术逻辑链条（从数据噪声处理到梯度稳定，最终实现模型对齐），又符合中文论文标题的表述规范） | Mingkang Zhu | PDF | Large reasoning models (LRMs) generate intermediate reasoning traces before producing final answers, [翻译失败] | | VChain：面向视频生成推理的视觉思维链

（注：采用"视觉思维链"这一学界通用译法，既保留"思维链"(Chain of Thought)的核心概念，又通过"视觉"前缀准确体现视觉模态特性，符合计算机视觉与多媒体生成领域的术语规范。） | Ziqi Huang | PDF | 当前视频生成模型虽能输出流畅且视觉吸引人的片段，但在合成具有连贯因果链的复杂动态场景时仍存在困难。如何精准建模随时间推移的视觉结果与状态转换，始终是核心挑战。相比之下，大型语言与多模态模型（如GPT-4o）展现出强大的视觉状态推理与未来预测能力。为融合双方优势，我们提出VChain——一种创新的推理时视觉思维链框架，将多模态模型的视觉推理信号注入视频生成过程。该框架包含专属流水线，通过大型多模态模型生成稀疏关键帧作为场景快照，进而仅在关键时间点指导预训练视频生成器进行稀疏推理时微调。我们的方法具备调优高效性，仅引入极小开销且无需密集监督。在复杂多步骤场景上的大量实验表明，VChain能显著提升生成视频的质量。 | | 视频生成中的角色融合 | Tingting Liao | PDF | 设想憨豆先生闯入《猫和老鼠》的世界——我们能否生成跨次元角色自然互动的视频？本文研究文本到视频生成中的跨角色交互问题，其核心挑战在于保持角色身份特征与行为逻辑的同时，实现连贯的跨语境交互。该任务面临双重困境：既存在角色原本互无交集的情况，又因风格混合易导致"风格失真"——写实角色呈现卡通化或反之。我们提出创新框架，通过跨角色嵌入技术学习多模态数据中的身份特征与行为逻辑，结合跨角色增强技术生成合成共现数据与混合风格数据以强化训练。两项技术协同作用，使原本毫无交集的角色既能自然互动，又保持各自风格的真实性。在包含10个角色的卡通与真人剧集精选测试集上，实验结果表明本方法在身份保持度、交互自然度及风格失真鲁棒性方面均有显著提升，为生成式叙事开创了新范式。更多结果与视频请访问项目主页：https://tingtingliao.github.io/mimix/ | | 学习解读语言模型中的权重差异 | Avichal Goel | PDF | 微调（预训练）语言模型是更新其内部参数知识并将其专门应用于新任务和领域的标准方法。然而，相应的模型权重变化（"权重差异"）通常不具备可解释性。虽然检查微调数据集可以大致了解模型可能发生的变化，但这些数据集往往不公开或体量过大难以直接处理。为实现以自然语言全面理解权重差异的目标，我们提出差异解释调优法（DIT），该方法通过训练模型使其能够描述自身因微调产生的改变。我们的方案采用带标注的合成权重差异数据来训练DIT适配器，该适配器可应用于兼容的微调后模型，使其能够描述自身的变化过程。通过两个概念验证场景（报告隐藏行为与总结微调后知识）的实证，我们证明该方法能使模型使用精确的自然语言描述其微调引发的改变。 | | 事实性至关重要：当图像生成与编辑邂逅结构化视觉 | Le Zhuo | PDF | 尽管现代视觉生成模型在创作具有美学吸引力的自然图像方面表现出色，但在生成或编辑结构化视觉内容（如图表、示意图和数学图形）时仍存在困难。这类任务需要构图规划、文本渲染和多模态推理能力以确保事实准确性。为此，我们首次对该领域展开全面系统的研究，涵盖数据构建、模型训练与评估基准建立三大维度。首先，我们通过可执行绘图程序构建了包含130万对高质量结构化图像的大规模数据集，并辅以思维链推理标注进行数据增强。基于此，我们训练出融合视觉语言模型与FLUX.1 Kontext架构的统一模型，通过轻量级连接器实现增强的多模态理解。采用三阶段训练课程逐步实现特征对齐、知识注入和推理增强生成，并在推理阶段通过外部推理器进一步提升性能。最后，我们推出包含1,700余个挑战性实例的全新基准StructBench及其配套评估指标StructScore——该指标采用多轮问答协议来评估细粒度事实准确性。对15个主流模型的评估表明，即使领先的闭源系统仍远未达到理想效果。我们的模型在编辑任务中表现优异，推理增强策略在不同架构中均带来稳定提升。通过公开数据集、模型与评估基准，我们致力于推动结构化视觉内容统一多模态基础模型的发展。 | | 先完成，再完善：扩散大语言模型的测试时词级交叉验证

（该翻译采用学术论文标题的经典结构，通过冒号分隔主副标题。将"Finish First, Perfect Later"意译为对仗工整的四字格言形式，既保留原意又符合中文表达习惯。"Test-Time"译为"测试时"准确体现时序概念，"Token-Level"采用"词级"这一NLP领域标准术语，"Cross-Validation"沿用机器学习领域通用译法"交叉验证"，整体保持专业性与可读性的平衡。） | Runchu Tian | PDF | 扩散大语言模型（dLLMs）近期作为自回归模型的重要替代方案崭露头角，其优势在于支持并行加速解码和双向上下文建模。然而，离散扩散大语言模型的原始解码策略存在关键缺陷：一旦某个标记被接受，后续步骤中将无法修正。这导致早期错误会在迭代过程中持续累积，同时损害中间预测结果与最终输出质量。针对此问题，我们提出Tolerator（标记级交叉验证优化策略）——一种无需重新训练的解码方法，通过预测标记间的交叉验证实现优化。与现有单向渐进式解掩码方法不同，Tolerator采用双阶段处理流程：（i）序列填充阶段；（ii）通过重新掩码部分标记并解码，同时将其余标记作为上下文的迭代优化阶段。该设计使得已接受的标记在必要时可被重新评估与修正，从而获得更可靠的扩散解码输出。我们在涵盖语言理解、代码生成和数学推理的五个标准基准上评估Tolerator。实验表明，在相同计算资源下，本方法相较基线模型实现了持续性能提升。这些发现印证了解码算法对释放扩散大语言模型全部潜能的关键作用。相关代码与数据已公开。 | | TeachLM：基于真实学习数据对大型语言模型进行教育领域后训练 | Janos Perczel | PDF | 生成式人工智能革新教育的潜力，正受到大语言模型教学局限性的制约。核心问题在于缺乏能够真实反映学生学习过程的高质量训练数据。即时工程虽作为权宜之计出现，但基于规则的自然语言提示在编码复杂教学策略方面存在固有局限。为弥补这一缺陷，我们推出TeachLM——通过对先进模型进行参数高效微调而优化的教学专用大语言模型。该模型基于Polygence平台记录的10万小时一对一纵向师生互动数据集进行训练，该数据经过严格匿名化处理以保护隐私。我们采用参数高效微调技术开发出真实学生模型，能够生成高保真度的合成师生对话。基于此能力，我们提出创新的多轮评估方案，利用合成对话生成实现对大语言模型对话能力的快速、可扩展且可复现的评估。实验结果表明，基于真实学习数据的微调显著提升了对话与教学效能：学生发言时长翻倍，提问方式得到优化，对话轮次增加50%，并能实现更高程度的个性化教学。 |

bioRxiv

标题	作者	PDF链接
表面引导计算量化三维空间中细胞形态与分子信号的动态相互作用	Zhou, F. Y.	PDF
自私遗传元件与其宿主防御之间的军备竞赛	Qiu, B.	PDF
大规模功能连接组指纹识别预训练支持功能性神经影像学的泛化与迁移学习

该标题的翻译要点如下： 1. "Functional Connectome Fingerprinting"译为"功能连接组指纹识别"，其中： - 连接组(connectome)是神经科学专有名词，指神经连接图谱 - 指纹识别(fingerprinting)在此语境特指基于脑连接特征的个体识别技术 2. "Generalization and Transfer Learning"采用机器学习领域标准译法"泛化与迁移学习" 3. "Functional Neuroimaging"译为"功能性神经影像学"，区别于结构性神经影像学 4. 通过"预训练支持"的动词结构保持原文动态语义，符合中文标题表达习惯 5. 使用"大规模"对应"Large-Scale"，准确传达研究体量维度

解析： 1. "Thymic self-recognition-mediated" 译为"胸腺自我识别介导的"，准确表述了胸腺内通过自身抗原识别触发的机制 2. "TCR signal strength" 采用专业术语"TCR信号强度"（T细胞受体信号强度） 3. "modulates" 译为"调节"，符合学术语境 4. "antigen-specific CD8+ T cell pathogenicity" 译为"抗原特异性CD8+ T细胞的致病性"，完整保留免疫学概念 5. "non-obese diabetic mice" 标准译法"非肥胖糖尿病小鼠"，这是常用的1型糖尿病研究模型NOD小鼠的规范译名

说明： 1. 保留核心术语"Virtual Colon"直译为"虚拟结肠"，符合医学术语规范 2. "Spatiotemporal modelling"译为"时空建模"，准确体现时间和空间维度 3. "metabolic interactions"译为"代谢相互作用"，保持生物化学专业表述 4. "computational colonic environment"译为"计算结肠环境"，突出计算机模拟特性 5. 整体采用"主题词：说明性副标题"的中文学术标题常见结构 6. 术语统一："colonic"在标题中保持"结肠"的规范译法，与主标题形成对应 | Marinos, G. | PDF | | | Mac1 ADP-核糖水解酶是SARS-CoV-2的治疗靶点 | Suryawanshi, R. K. | PDF | | | BMP4分化疗法虚拟临床试验：数字孪生技术助力胶质母细胞瘤试验方案优化

（注：采用"虚拟临床试验"对应"Virtual Clinical Trials"，"数字孪生技术"对应"Digital Twins"，"胶质母细胞瘤"为"Glioblastoma"标准医学术语翻译，"试验方案优化"在保持原意基础上更符合中文医学文献表达习惯） | Harbour, N. | PDF | | | 单核多组学分析揭示皮克病与阿尔茨海默病的共有及特异性通路

该研究采用单细胞核多组学技术，通过系统比较两种神经退行性疾病的分子机制，发现： 1. 共享通路：涉及突触功能障碍、线粒体代谢异常和神经炎症反应 2. 特异性通路： - 皮克病特征性表现为tau蛋白病理性聚集相关通路异常 - 阿尔茨海默病突出表现为β淀粉样蛋白沉积相关通路紊乱 3. 分子交叉：鉴定出两种疾病共同影响的基因调控网络及表观遗传修饰模式

（该翻译采用"术语直译+功能阐释"的复合译法，既保留"CNValidatron"的技术品牌标识，又通过补充说明完整呈现其通过计算机视觉技术验证PennCNV检测结果的核心功能，同时以"精准高效"对应原文的"Accurate And Efficient"，符合学术翻译的精确性要求） | Montalbano, S. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF