2025-07-11 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
多模态模型中预训练词共现对组合泛化能力的影响

（翻译说明： 1. "Impact"译为"影响"，准确传达原文的因果研究关系 2. "Pretraining Word Co-occurrence"译为"预训练词共现"，保留计算语言学专业术语 3. "Compositional Generalization"译为"组合泛化能力"，其中"组合性"是认知科学核心概念，"能力"为符合中文表达习惯的补充 4. "Multimodal Models"译为"多模态模型"，采用人工智能领域的标准译法 5. 整体采用"前置定语+中心词"的学术标题结构，符合中文科技论文标题规范 6. 通过"中"字结构突出研究对象（词共现）与研究属性（预训练）的逻辑关系） | Helen Qu | PDF | CLIP and large multimodal models (LMMs) have better accuracy on examples involving concepts that are [翻译失败] | | 可追溯证据增强的视觉基础推理：评估与方法论

（翻译说明： 1. "Traceable Evidence Enhanced"译为"可追溯证据增强"，其中： - "Traceable"采用计算机科学领域标准译法"可追溯" - "Enhanced"译为"增强"符合人工智能领域术语惯例 2. "Visual Grounded Reasoning"译为"视觉基础推理"： - "Grounded"在此语境下译为"基础"（而非"接地"）更准确体现其指代基于视觉数据的推理特性 - 该译法与CVPR等顶级会议中对该术语的处理保持一致 3. 冒号后结构处理为中文标题惯用的间隔号分隔，符合学术论文标题翻译规范 4. 整体采用"定语+中心词"的典型中文科技论文标题结构，在准确传达原意的同时确保专业性和可读性） | Haochen Wang | PDF | Models like OpenAI-o3 pioneer visual grounded reasoning by dynamically referencing visual regions, j [翻译失败] | | 《PyVision：基于动态工具集的智能视觉代理系统》

翻译说明： 1. "PyVision"作为专有技术名词保留不译 2. "Agentic"译为"智能代理"既体现人工智能的自主性（agentic原意），又符合中文技术文献表述习惯 3. "Dynamic Tooling"译为"动态工具集"： - "动态"准确对应dynamic的技术含义 - "工具集"比直译"工具"更能体现系统化、可扩展的技术架构特征 4. 整体采用"系统"作为中心词，符合中文技术命名规范 5. 使用书名号《》突出技术平台名称，符合中文技术文献格式要求 6. 通过冒号分隔主副标题，保持原文信息结构的同时确保中文表达流畅

替代方案考量： - "具身视觉"（放弃）：过于哲学化，不符合工程文献特征 - "动态工具链"（放弃）：偏重线性流程，不能完全体现tooling的集成特性 - "自主视觉"（放弃）：弱化了agentic包含的代理交互维度 | Shitian Zhao | PDF | LLMs are increasingly deployed as agents, systems capable of planning, reasoning, and dynamically ca [翻译失败] | | MGVQ：VQ-VAE能否超越VAE？基于多组量化的通用型分词器研究

（翻译说明： 1. 完整保留专业术语缩写"MGVQ/VQ-VAE/VAE"，符合计算机视觉领域命名惯例 2. "Multi-group Quantization"译为"多组量化"，准确体现向量量化的分组技术特征 3. "Generalizable Tokenizer"译为"通用型分词器"，其中"generalizable"采用"通用型"而非字面直译，更符合中文论文标题表述习惯 4. 问句形式通过"能否"自然转化，保留原文的探讨性语气 5 冒号后增加"基于"使中文句式更流畅，同时严格保持技术含义不变 6. 整体采用学术论文标题的简洁风格，未添加冗余修饰词） | Mingkai Jia | PDF | 向量量化变分自编码器（VQ-VAEs）是将连续视觉数据压缩为离散标记的基础模型。现有方法虽尝试改进量化策略以提升重建质量，但VQ-VAEs与VAEs之间仍存在显著差距。为缩小这一差距，我们提出\NickName——一种增强离散码本表征能力的新方法，通过优化码本训练过程并最小化信息损失，从而显著提升重建质量。具体而言，我们提出保留潜在维度以维持编码特征，并引入一组子码本进行量化。此外，我们构建了包含512p和2k分辨率的综合零样本基准测试集，用于严格评估现有方法的重建性能。\NickName~在所有VQ-VAE模型中实现了\textbf{ImageNet及8个零样本基准测试的最优性能}。值得注意的是，相较于SD-VAE，我们在ImageNet上以rFID $\textbf{0.49}$ vs $\textbf{0.91}$显著胜出，并在所有零样本基准测试中取得更优的PSNR值。这些结果凸显了\NickName~在重建任务中的优越性，为高清图像处理中的保真度保持开辟了新路径。代码将发布于https://github.com/MKJia/MGVQ。

（注：根据学术规范，原文中的占位符\NickName应替换为论文实际方法名称。译文采用技术报告常见处理方式保留占位符，实际发表时需替换为具体命名。） | | 面向最小程序搜索的单次自适应图像标记化方法

（翻译说明： 1. 专业术语处理： - "Single-pass"译为"单次"，在计算机科学中特指一次性处理数据的算法 - "Adaptive Image Tokenization"译为"自适应图像标记化"，保留了图像处理领域的专业术语 - "Minimum Program Search"译为"最小程序搜索"，符合程序合成研究领域的术语规范

技术准确性考量：
"Tokenization"严格译为"标记化"而非"分词"，因该技术涉及将图像转换为离散符号的过程
使用"面向"而非"用于"，更符合中文计算机论文标题的表述习惯
句式结构调整：
将英文后置定语转换为中文前置定语
添加"方法"二字使技术名称更完整，符合中文论文标题惯例
领域适配性：
该翻译适用于计算机视觉与程序合成交叉领域的学术场景
保持了原文的技术精确性和学术严谨性） | Shivam Duggal | PDF | 根据算法信息理论（AIT）的观点，智能表征会将数据压缩为能够重构其内容的最短可能程序，从而展现出较低的柯尔莫哥洛夫复杂度（KC）。然而当前大多数视觉表征学习系统对所有输入都采用固定长度的表征方式，忽视了数据在复杂度或熟悉度上的差异。近期提出的自适应分词方法通过分配可变长度表征来解决这一问题，但通常需要在测试时对多种编码进行搜索以找到最具预测性的方案。受柯尔莫哥洛夫复杂度原理启发，我们提出了一种单次前向自适应分词器KARL，该模型通过单次前向传播即可预测图像所需的适当分词数量，并在达到近似KC值时停止生成。分词数量在此作为最小描述长度的代理指标。KARL的训练过程与"逆向强化学习"范式高度相似，它通过学习基于目标重建质量的条件化分词停止预测机制。KARL在保持单次前向运算的同时，其性能与最新自适应分词器相当。我们提出了KARL的缩放定律，分析了编码器/解码器规模、连续与离散分词等因素的影响。此外，我们通过概念性研究将自适应图像分词与算法信息理论进行类比，考察了在结构vs噪声、分布内vs分布外熟悉度等维度上预测的图像复杂度（KC）——结果显示其预测结果与人类直觉具有一致性。 | | “跳过一层还是循环迭代？预训练大语言模型的测试时深度自适应”

这个翻译考虑了以下几点： 1. 保留了技术术语的准确性："Layer"译为"层"，"Loop"译为"循环"，"Pretrained LLMs"译为"预训练大语言模型" 2. 将测试时深度自适应（Test-Time Depth Adaptation）作为核心概念完整呈现 3. 使用疑问句式保持原标题的探索性语气 4. "Depth Adaptation"译为"深度自适应"而非字面的"深度适应"，更符合机器学习领域的术语习惯 5. 保持了学术标题的简洁性和专业性，同时确保中文表达自然流畅 | Ziyue Li | PDF | 预训练神经网络能否在不进行任何微调的情况下，根据不同输入自适应调整其架构？对于简单任务是否需要所有层，而现有层数又是否足以应对复杂挑战？我们发现，预训练大语言模型（LLM）的各层可作为独立模块进行灵活重组，从而为每个测试样本构建出更优且可能更浅的定制化模型。具体而言，预训练模型的每一层均可被跳过/剪枝或像循环神经网络（RNN）那样重复使用，并能以任意顺序与其他层堆叠，最终为每个样本生成独特的层链（CoLa）。这种组合式架构极大拓展了现有研究的边界——无论是循环式预训练模块、层剪枝还是早期退出网络。我们开发了蒙特卡洛树搜索（MCTS）协议，从数学和常识推理基准数据中为每个样本探索并确定最优CoLa配置。与固定深度的静态模型相比，CoLa支持捷径路径（快速思考）、同一层的循环调用（深度思考）以及两者结合，为不同输入提供更灵活的动态架构。通过对MCTS优化的CoLa进行深入分析，我们获得两项关键发现：（1）在原始LLM预测正确的样本中，超过75%可通过更短的CoLa路径获得相同结果，表明推理效率存在巨大提升空间；（2）在原始预测错误的样本中，超过60%可通过特定CoLa配置实现正确预测，显示性能改进潜力显著。这些结果揭示了固定架构预训练LLM在不同样本推理中的局限性，为解锁测试时深度自适应泛化能力开辟了新途径。 | | 《涂鸦关键点：基于草图的少样本关键点检测》

（翻译说明： 1. 主标题"Doodle Your Keypoints"采用意译手法，"Doodle"译为"涂鸦"既保留绘画特征又符合中文表达习惯 2. "Keypoints"统一译为专业术语"关键点"，与计算机视觉领域术语体系保持一致 3. 副标题采用学术论文标题的标准译法："基于...的..."结构 4. "Few-Shot"译为"少样本"，准确传达机器学习领域"小样本学习"的专业概念 5. "Sketch-Based"译为"基于草图的"，其中"草图"对应计算机图形学专业术语 6. 整体采用四六骈体结构，符合中文科技论文标题对仗工整的审美要求） | Subhajit Maity | PDF | 关键点检测作为现代机器感知的核心环节，在少样本学习场景下面临显著挑战——尤其是当无法获取与查询数据同分布的源数据时。本研究通过引入草图（人类表达的常见形式）作为无源替代方案，成功填补了这一空白。然而，该方法仍需解决跨模态嵌入学习和用户特定草图风格处理两大难题。我们提出的创新框架通过原型化架构设计，结合基于网格的定位器和原型域适应技术，有效克服了这些障碍。大量实验结果表明，该框架在新型关键点识别和跨类别少样本收敛方面均取得了显著成效。

（翻译说明： 1. 专业术语处理："prototypical setup"译为"原型化架构设计"符合计算机领域术语规范 2. 句式重构：将原文复合长句拆分为符合中文表达习惯的短句，如将"combined with..."处理为独立分句 3. 概念显化："source-free alternative"译为"无源替代方案"既保留学术准确性又提升可读性 4. 被动语态转换：将"challenges arise"等被动结构转化为中文主动表达 5. 学术风格保持：使用"显著成效""面临显著挑战"等符合学术论文表述的措辞） | | 《脑视觉解码的多粒度评估》

说明： 1. 专业术语处理： - "Multigranular"译为"多粒度"，符合计算机视觉与神经科学领域的术语规范 - "Brain Visual Decoding"译为"脑视觉解码"，准确表达通过神经信号重建视觉信息的研究方向

学术标题特征保留：
采用研究论文标题常用的名词短语结构
使用书名号《》符合中文期刊论文标题规范
避免添加动词，保持标题的静态学术特征
领域适应性：
该译法在神经工程、计算神经科学和脑机接口领域具有通用性
与"神经解码"、"视觉重建"等相关术语体系保持一致性
结构优化：
将英文后置定语转换为中文前置定语
保持"评估"作为核心词的位置突显性
整体控制在12字以内，符合中文标题简洁性要求 | Weihao Xia | PDF | Existing evaluation protocols for brain visual decoding predominantly rely on coarse metrics that ob [翻译失败] | | 面向视频大模型免训练加速的多粒度时空令牌融合方法

（翻译说明： 1. "Multi-Granular"译为"多粒度"，准确体现多层次特征分析的技术内涵 2. "Spatio-Temporal"采用专业术语"时空"，保持计算机视觉领域术语一致性 3. "Token Merging"译为"令牌融合"，符合Transformer架构术语规范 4. "Training-Free Acceleration"译为"免训练加速"，突出无需重新训练的技术特性 5. 整体采用"方法"作为中心词，符合中文论文标题习惯 6. 补充"面向视频大模型"的前置限定，使研究对象更明确 7. 保持学术严谨性的同时，通过"免训练"等表述增强技术亮点呈现） | Jeongseok Hyun | PDF | 视频大语言模型（LLMs）通过利用大量时空标记实现了强大的视频理解能力，但其计算量会随标记数量呈二次方增长。针对这一问题，我们提出了一种无需训练的时空标记合并方法STTM。我们的核心洞见在于利用视频数据中局部空间和时间维度的冗余性——这一特性在先前研究中被忽视。STTM首先通过四叉树结构进行由粗到细的搜索，将每帧图像转化为多粒度空间标记；随后在时间维度执行定向成对合并。这种解耦式合并方法在六个视频问答基准测试中均优于现有标记缩减技术。值得注意的是，在50%标记预算下，STTM仅以0.5%准确率下降实现2倍加速；在30%预算下，仅2%准确率损失即可获得3倍加速。此外，STTM具有查询无关性，可对同一视频的不同问题复用键值缓存。项目页面详见https://www.jshyun.me/projects/sttm。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "quadratic computational scaling"译为"二次方增长"而非字面直译 2. "query-agnostic"采用计算机领域通用译法"查询无关性" 3. "KV cache"保留专业缩写"键值缓存"而非全称翻译 4. 技术指标"2× speed-up"等统一使用中文数字规范"2倍加速" 5. 百分数表述严格遵循中文科技论文格式"50%"→"50%"） | | 自动化评估大型语言模型的专家级医学推理能力

（翻译说明： 1. 采用"自动化评估"对应"Automating...Evaluation"，突出方法学特征 2. "专家级医学推理能力"准确传达"Expert-Level Medical Reasoning"的专业层级和技术内涵 3. 保留"大型语言模型"的标准术语译法 4. 整体结构符合中文科技论文标题的简洁规范，通过"的"字结构实现名词短语的精准转换 5. 未添加原文没有的动词，严格保持原标题的名词性短语特征） | Shuang Zhou | PDF | 随着大语言模型（LLMs）日益融入临床决策流程，确保其推理过程透明可信至关重要。然而现有医学推理能力评估策略存在评估效度不足或扩展性欠佳的问题，且缺乏严谨的基准体系。为此，我们推出MedThink-Bench——一个专为严格、可解释且可扩展的医学推理评估设计的基准平台。该平台涵盖十大医学领域的500道高难度问题，每道题均附有专家撰写的分步骤推理依据。基于此，我们提出LLM-w-Ref新型评估框架，通过细粒度推理链和"大模型即裁判"机制，在保持扩展性的同时以专家级精度评估中间推理过程。实验表明，LLM-w-Ref与专家评判结果呈现显著正相关。对12个前沿大模型的测试显示，较小模型（如MedGemma-27B）可超越更大规模的商业模型（如OpenAI-o3）。总体而言，MedThink-Bench为评估大语言模型的医学推理能力提供了基础工具，将推动其在临床实践中的安全负责任应用。

（翻译说明：采用学术文本特有的复合句式结构，保留"benchmark/scalability/rationales"等专业术语的规范译法；将"LLM-as-a-Judge"创造性译为"大模型即裁判"既保持技术特征又符合中文表达；通过"效度""细粒度推理链"等措辞确保医学评估的专业性；最后一句采用破折号衔接实现长句拆分，符合中文多用短分句的表达习惯） |

bioRxiv

标题	作者	PDF链接	摘要
《运动知觉的因果性失连接组学：基于经颅磁刺激诱发BOLD响应的研究启示》

说明： 1. "Causal disconnectomics"译为"因果性失连接组学"，既保留了"disconnectomics"作为新兴神经科学术语的学科属性（连接组学+失连接），又通过"因果性"准确传达了TMS干预的实验范式特征。

"motion perception"采用心理学标准译法"运动知觉"，区别于一般意义上的"运动感知"。
副标题处理为"基于...的研究启示"的句式，既符合中文论文标题习惯，又完整保留了"TMS-induced BOLD responses"的技术细节（经颅磁刺激诱发的血氧水平依赖响应）。
整体采用"研究领域：技术方法+成果类型"的中文标题结构，与原文"主题：方法学贡献"的架构保持对应，同时通过冒号和破折号实现层级区分。 | Raffin, E. | PDF | | | 大西洋-北极极锋带真核浮游植物基因表达变化

（翻译说明：
1. "eukaryotic phytoplankton"译为"真核浮游植物"，准确区分原核浮游生物
2. "Atlantic-Arctic polar front"采用地理学标准译名"大西洋-北极极锋带"
3. 保留"gene expression"专业术语"基因表达"不变
4. 句式结构调整为中文惯用的前置定语结构，符合《中国科技论文编写规范》要求
5. 补充"带"字更完整传达极锋（polar front）作为过渡带的地理特征） | Fremont, P. | PDF | | | 基质相关细胞外囊泡通过呈现VI型胶原调控平滑肌细胞的黏附与定向迁移。

（翻译说明： 1. "Matrix-associated extracellular vesicles"译为"基质相关细胞外囊泡"，准确保留细胞生物学专业术语 2. "modulate"译为"调控"，符合生物学语境中该术语的常规译法 3. "smooth muscle cell"译为"平滑肌细胞"，采用医学标准术语 4. "adhesion and directionality"译为"黏附与定向迁移"，其中"directionality"在细胞生物学中特指细胞迁移的方向性特征 5. "presenting collagen VI"译为"呈现VI型胶原"，准确表达细胞外基质成分的展示机制 6. 整体采用主动语态，符合中文科技论文表达习惯 7. 保留专业术语的大小写规范（如VI型胶原）和数字表达方式） | Kapustin, A. N. | PDF | | | VGLUT介导的多巴胺能神经变性保护作用的性别二态性机制

（说明：该翻译严格遵循学术规范，具有以下特点： 1. 专业术语准确："Sexually dimorphic"译为"性别二态性"，"dopaminergic neurodegeneration"译为"多巴胺能神经变性"符合神经科学术语标准 2. 结构完整：保留原文的"mechanisms of...protection from..."逻辑关系，译为"保护作用的...机制" 3. 被动语态转化：将英文被动结构"mediated protection"自然转化为中文主动表达"介导的保护作用" 4. 定语处理：复杂定语"VGLUT-mediated"采用前置短句处理，符合中文多用短句的特点 5. 专业缩略语保留：VGLUT（囊泡谷氨酸转运体）作为领域公认缩略语直接保留，符合国内神经科学文献惯例） | Buck, S. A. | PDF | | | 出生后最初数周内大脑外侧裂周围区域静息态结构与功能关系的评估

（翻译说明：
1. "perisylvian region" 专业译为"外侧裂周围区域"，这是神经解剖学标准术语
2. "resting state" 统一译为"静息态"，符合功能磁共振研究领域的规范表述
3. "structural-functional relationships" 译为"结构与功能关系"，准确传达多模态神经影像研究的核心内容
4. 时间状语"during the early weeks after birth" 采用中文前置的表述方式，更符合医学文献的叙述逻辑
5. 整体采用"评估"而非"评价"，更贴近原文"Assessment"的学术严谨性） | Namiranian, R. | PDF | | | 前运动皮层神经元间逐步演变的共调制模式在执行动作与观察动作时传递动态相似的信号

（翻译说明： 1. "Progressively shifting patterns"译为"逐步演变的模式"，准确传达渐进性变化特征 2. "co-modulation"译为"共调制"，采用神经科学标准术语 3. "dynamically similar signals"译为"动态相似的信号"，保留"dynamic"的动态含义 4. 采用中文科技论文常用的长句结构，通过"在...时"准确表达时间关系 5. 保持"premotor cortex neurons"（前运动皮层神经元）的专业术语一致性 6. 整体语序符合中文表达习惯，同时严格保持原文的科学严谨性） | Zhao, Z. | PDF | | | 早期生活压力会引发性别特异性的行为变化及蓝斑神经元兴奋性的同步改变

（翻译说明： 1. "Early life stress"译为"早期生活压力"，符合发育心理学领域的术语规范 2. "sex-specific"采用"性别特异性"的译法，准确传达生物学差异含义 3. "parallel"在此语境下译为"同步"而非字面的"平行"，更符合神经电生理学特征描述 4. "locus coeruleus"保留专业术语"蓝斑"的规范译名 5. 整体语序调整为中文惯用的因果表达方式，将"induces"译为"会引发"使行文更流畅 6. 补充连接词"及"以符合中文学术表达的衔接习惯） | Brannan, S. G. | PDF | | | 突触机制调控纹状体直接通路神经元的时空动态及运动输出

（翻译说明： 1. "Synaptic mechanisms"译为"突触机制"，采用神经科学领域标准术语 2. "modulate"译为"调控"，准确传达神经调节的主动过程 3. "striatal direct pathway neurons"译为"纹状体直接通路神经元"，保留基底神经节环路研究的专业表述 4. "spatiotemporal dynamics"译为"时空动态"，符合计算神经科学文献惯例 5. 采用"及"连接并列结构，保持学术语言的简洁性 6. 整体句式结构遵循中文表达习惯，同时严格保持专业术语的准确性） | Marshall, J. J. | PDF | | | 有限观测中临界点的涌现与瞬态动力学

（翻译说明： 1. "tipping points"译为"临界点"，符合数学/物理学界对系统状态突变关键点的专业表述 2. "emergence"译为"涌现"，准确体现复杂系统科学中"从量变到质变"的特性 3. "transient dynamics"译为"瞬态动力学"，与动力系统理论中"暂态过程"的专业术语保持一致 4. "finite observations"译为"有限观测"，突出实验科学中数据采集的约束条件 5. 整体采用"的"字结构保持学术文本的严谨性，同时通过"与"连接两个并列核心概念，符合中文科技论文标题特征） | Cobo-Lopez, S. | PDF | | | 二氢神经酰胺去饱和酶缺失通过破坏胶质细胞内质网和脂滴稳态驱动神经退行性变

（翻译说明： 1. 专业术语准确对应： - dihydroceramide desaturase → 二氢神经酰胺去饱和酶（脂质代谢关键酶） - neurodegeneration → 神经退行性变（神经科学标准译法） - endoplasmic reticulum → 内质网（细胞生物学标准术语） - lipid droplet → 脂滴（细胞器专业名称） - glial cells → 胶质细胞（神经科学规范译法）

句式结构重组：
将英文被动语态"drives...by disrupting"转换为中文主动句式"通过...驱动"
将复杂状语"in glial cells"提前至中文习惯的修饰位置
专业表达规范：
保持"稳态"（homeostasis）的生物学标准译法
使用"驱动"（drives）体现分子机制研究的表述特点
采用"破坏...稳态"的病理学标准表述方式
符合中文科技论文标题特征：
控制长度在25字以内
突出核心机制（酶缺失-细胞器紊乱-病理结果）
保持专业性与可读性的平衡） | Zhu, Y. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF