2025-09-25 每日论文
arXiv
| 标题 |
作者 |
PDF链接 |
摘要 |
| EditVerse:通过上下文学习统一图像与视频的编辑与生成 |
Xuan Ju |
PDF |
基础模型的最新进展凸显出统一化与规模化发展的明确趋势,在多领域展现出涌现能力。尽管图像生成与编辑已快速从任务专用框架转向统一架构,但由于模型结构限制与数据稀缺,视频生成与编辑领域仍处于碎片化状态。本研究提出EditVerse——首个实现图像与视频生成编辑一体化的统一框架。通过将文本、图像、视频等所有模态表示为统一标记序列,EditVerse利用自注意力机制实现强大的上下文学习、自然的跨模态知识迁移,并能灵活处理任意分辨率与时长的输入输出。针对视频编辑训练数据匮乏的难题,我们设计了可扩展数据流水线,精心构建23.2万条视频编辑样本,并将其与大规模图像视频数据集结合进行联合训练。此外,我们推出首个指令式视频编辑基准EditVerseBench,涵盖多任务场景与分辨率维度。大量实验与用户研究表明,EditVerse在实现跨模态涌现编辑生成能力的同时,以显著优势超越现有开源与商业模型,达到最先进性能水平。 |
| PhysCtrl:基于可控与物理基础视频生成的生成式物理模型 |
Chen Wang |
PDF |
现有视频生成模型能够根据文本或图像生成逼真视频,但在物理合理性与三维可控性方面存在不足。为突破这些局限,我们提出PhysCtrl——一种基于物理原理的图像到视频生成新框架,具备物理参数与力控制功能。其核心是生成式物理网络,通过以物理参数和作用力为条件的扩散模型,学习四种材料(弹性体、沙粒、塑性黏土和刚性体)的物理动力学分布。我们将物理动力学表示为三维点轨迹,并基于物理模拟器生成的大规模合成数据集(包含55万段动画)进行训练。通过新型时空注意力模块模拟粒子相互作用,并在训练过程中加入基于物理的约束条件以增强物理合理性,从而改进扩散模型。实验表明,PhysCtrl生成的物理基础运动轨迹具有高度真实性,将其用于驱动图像到视频模型时,可生成视觉效果与物理合理性均优于现有方法的高保真可控视频。项目页面:https://cwchenwang.github.io/physctrl |
| 能够思考、对话更优的语言模型 |
Adithya Bhaskar |
PDF |
Reinforcement learning with verifiable rewards (RLVR) improves language model |
| reasoning by using rul [翻译失败] |
|
|
|
| 嵌入Gemma:强大轻量的文本表征 |
Henrique Schechter Vera |
PDF |
我们推出EmbeddingGemma——基于Gemma 3语言模型系列的全新轻量级开放文本嵌入模型。通过创新的训练方案,我们采用编码器-解码器初始化与几何嵌入蒸馏策略,系统性地从大型模型中提取知识。借助扩散正则化器增强模型鲁棒性与表达能力,并通过融合多组优化混合方案的检查点确保泛化性能。在涵盖多语言、英语和代码领域的海量文本嵌入基准(MTEB)测试中,EmbeddingGemma(300M参数量)实现了最先进的性能表现。值得注意的是,该模型以不足5亿参数量的规模超越此前所有专利及开放模型,其性能可媲美参数量翻倍的模型,展现出卓越的性价比优势。这种领先优势在模型权重量化或嵌入输出截断场景下依然保持,使得EmbeddingGemma特别适合设备端应用等低延迟、高吞吐场景。我们通过消融实验验证了关键设计选择,并将模型开源以推动后续研究。 |
| 制药制造中复杂热力学的过程知情预测 |
Ramona Rubini |
PDF |
对复杂物理系统进行精确时间序列预测是现代工业监测与控制的核心支撑。尽管深度学习模型在捕捉复杂动态特性方面表现出色,但目前由于物理不一致性和鲁棒性不足,其实际部署受到限制,从而制约了在受控环境中的可靠性。本文针对药品冷冻干燥过程中的温度预测,提出了过程感知预测(PIF)模型。我们系统研究了从经典方法(如自回归积分滑动平均模型ARIMA和指数平滑模型ETS)到现代深度学习架构(包括科尔莫戈罗夫-阿诺德网络KANs)的多种模型。通过比较三种融合过程轨迹先验的损失函数构建方式:固定权重损失、动态不确定性损失和基于残差的注意力(RBA)机制,我们不仅评估了所有模型的精度和物理一致性,还检验了其对传感器噪声的鲁棒性。此外,我们在新工艺的迁移学习场景中测试了最优模型的实际泛化能力。研究结果表明,PIF模型在预测精度、物理合理性和噪声适应能力方面均优于纯数据驱动模型。这项工作为制药行业关键应用开发可靠且可泛化的预测解决方案提供了技术路线图。 |
| 基于合成数据的无分布保证统计推断 |
Meshi Bashari |
PDF |
高质量合成数据的快速涌现——无论是通过先进AI模型生成,还是从相关任务中收集的辅助数据——为统计推断带来了机遇与挑战。本文提出一种通用合成驱动推断框架(GESPI),该框架可适配任何统计推断流程,通过融合合成数据与真实数据安全提升样本效率。我们的框架既能利用高质量合成数据增强统计功效,又能在合成数据质量不佳时自适应地回归仅使用真实数据的标准推断方法。该方法无需对合成数据做任何分布假设即可将误差控制在用户指定范围内,且误差随合成数据质量提升而递减。这种灵活性使其能与合规预测、风险控制、假设检验及多重检验程序无缝衔接,且无需修改基础推断方法。我们在标注数据有限的挑战性任务中验证了方法的优势,包括AlphaFold蛋白质结构预测,以及大型推理模型在复杂数学问题上的性能比较。 |
| 无需编码器的虚拟试穿姿态条件设定与姿态控制高效实现 |
Qi Li |
PDF |
随着在线购物的持续增长,虚拟试穿(VTON)技术需求激增,该技术通过将商品图像叠加至用户照片,使消费者能够直观预览穿戴效果。实现高效VTON的关键挑战在于姿态控制——既要确保商品与用户身形精准对齐,又需支持多角度姿态以提升沉浸感。然而,将姿态条件融入VTON模型存在三大难点:选择最优姿态表征方法、在不增加参数的前提下实现姿态融合,以及平衡姿态保持与灵活控制之间的张力。 |
本研究基于仅通过通道拼接实现参考图像融合的基线VTON模型(无需外部编码器、控制网络或复杂注意力层),探索在纯拼接范式下引入姿态控制的方案。我们通过空间维度拼接姿态数据,对比姿态图与骨骼关键点两种表征方式的效果,且全程未给基线模型增加任何参数或模块。实验表明,采用姿态图进行空间拼接的效果最佳,既能强化姿态保持能力,又提升了输出结果的真实感。此外,我们提出混合掩码训练策略,结合精细化掩码与边界框掩码,使模型能够适应不同姿态场景下的灵活商品融合需求。 |
| 格厄兹语形态合成器:应对形态复杂性及资源限制 | Gebrearegawi Gebremariam | PDF | 吉兹语是一种古老的闪族语言,以其独特的字母系统闻名。该文字体系被用于提格里尼亚语、阿姆哈拉语等多种语言的书写,在阿克苏姆王国时期对埃塞俄比亚的文化与宗教发展起到了关键作用。作为埃塞俄比亚和厄立特里亚的礼仪语言,吉兹语至今仍具有重要地位,两国国民身份文件多以吉兹语记录。这些文献资料是研究埃塞俄比亚与厄立特里亚哲学思想、艺术创造、知识体系和文明发展的珍贵原始素材。吉兹语具有复杂的形态结构,蕴含丰富的屈折与派生形态变化。由于缺乏标注语言数据、语料库、标记数据集及词典资源,目前尚未开发出可用的自然语言处理工具。为此,我们提出基于规则的吉兹语形态合成器,根据语言形态结构从词根生成表层词汇。我们采用代表所有动词形态结构的1,102个样本动词进行系统测试评估,该系统以97.4%的性能表现超越基线模型,表明后续研究应构建兼顾语言形态变体的综合系统。
关键词:吉兹语,自然语言处理,形态学,形态合成器,基于规则 |
| 时空有向图学习在账户盗用欺诈检测中的应用 | Mohsen Nayebi Kerdabadi | PDF | 账户接管欺诈在零售银行领域构成重大挑战,需要在严格延迟条件下实现高召回率,同时最大限度降低合法用户的操作摩擦。生产系统通常依赖表格型梯度提升决策树(如XGBoost)对独立会话进行评分,这种方法忽略了在线活动中具有协调攻击和"欺诈团伙"特征的关系性与时序性结构。我们提出ATLAS框架,将ATO检测重新定义为时序有向会话图上的时空节点分类问题。该框架通过共享标识符(账户、设备、IP地址)关联实体,并采用时间窗口和时效性约束来规范连接关系,从而实现因果关联的时序消息传递以及仅使用评分时可用标签的延迟感知标签传播,确保无前瞻性且无数据泄露。我们通过邻域采样训练的归纳式GraphSAGE变体,在包含超1亿节点和约10亿边的大型会话图上实现了ATLAS的系统化部署。在Capital One的高风险数字产品实践中,ATLAS使AUC提升6.38%,客户摩擦减少超50%,在提升欺诈捕获能力的同时显著改善了用户体验。 |
| 自适应事件触发策略梯度在多智能体强化学习中的应用 | Umer Siddique | PDF | 传统多智能体强化学习(MARL)方法依赖于时间触发执行机制,即智能体以固定时间间隔采样并通信动作。这种方式通常存在计算成本高、通信密集的局限性。为突破这一限制,我们提出ET-MAPG(事件触发的多智能体策略梯度强化学习)框架,通过联合学习智能体的控制策略与事件触发策略。与现有将两种机制解耦的研究不同,ET-MAPG将其整合为统一的学习过程,使智能体既能学习执行何种动作,也能学习何时触发动作执行。针对需智能体间通信的场景,我们进一步提出AET-MAPG——一种基于注意力机制的变体,利用自注意力机制学习选择性通信模式。AET-MAPG使智能体不仅能决策何时触发动作,还能确定与哪些智能体通信及交换何种信息,从而优化协同效率。两种方法均可与任意策略梯度类MARL算法结合。在多类MARL基准测试中的大量实验表明,我们的方法在达到与先进时间触发基线相当性能的同时,显著降低了计算负载与通信开销。 |
bioRxiv
| 标题 |
作者 |
PDF链接 |
摘要 |
| 跨声音频率的腹语术后效的广泛泛化 |
Ege, R. |
PDF |
|
| 内质网的超微结构特性调控突触周围星形胶质细胞突起中的微域信号传导 |
Denizot, A. |
PDF |
|
| CTCF介导基于活性-接触模式的顺式调控枢纽形成 |
Anene Nzelu, G. |
PDF |
|
| 原钙黏蛋白8与转录因子Dbx1的双向互作调控大脑皮层发育 |
Cwetsch, A. W. |
PDF |
|
| 抑制性回路调控果蝇理毛行为中的腿部运动 |
Syed, D. S. |
PDF |
|
| 风险因素、脑结构与神经递质系统:一项大规模多变量研究 |
Nicolaisen-Sobesky, E. |
PDF |
|
| 催产素通过选择性调节内侧前额叶皮层中间神经元促进雌性大鼠的社交行为 |
Schimmer, S. |
PDF |
|
| 寒冷与孤寂:格陵兰岛全域蚊群微生物丰度低且无核心菌群 |
Rojas-Guerrero, D. |
PDF |
|
| 尖锐波、爆发与相干性:鸣禽发声回路活动受行为状态影响 |
Lorenz, C. |
PDF |
|
| 皮层表征漂移的统计特性可实现稳健解码 |
Micou, C. |
PDF |
|
medRxiv