2025-06-01 每日论文

来源	独立页面
arXiv	arXiv
bioRxiv	bioRxiv
medRxiv	medRxiv

arXiv

标题	作者	PDF链接	摘要
文本区域：源自冻结图像-文本模型的文本对齐区域标记

（翻译说明： 1. 专业术语处理： - "TextRegion"译为"文本区域"，保持计算机视觉领域的术语一致性 - "Frozen Image-Text Models"译为"冻结图像-文本模型"，准确表达模型参数被固定的技术状态 - "Tokens"译为"标记"，符合自然语言处理领域的标准译法

技术概念传达：
"Text-Aligned"译为"文本对齐"，准确反映视觉特征与文本语义的对齐关系
使用"源自"而非直译"from"，更符合中文技术文献表达习惯
结构优化：
采用冒号分隔的主副标题结构，与原文格式对应
调整语序为"文本对齐区域标记"而非"区域文本对齐标记"，更符合中文技术名词的修饰顺序） | Yao Xiao | PDF | Image-text models excel at image-level tasks but struggle with detailed visual understanding. While [翻译失败] | | Argus：基于视觉中心推理的具身思维链系统

（翻译说明： 1. "Vision-Centric Reasoning"译为"视觉中心推理"，准确体现以视觉为核心的技术特征 2. "Grounded Chain-of-Thought"采用"具身思维链"的译法： - "Grounded"译为"具身"符合认知科学术语规范 - "Chain-of-Thought"沿用"思维链"的通用学术译法 3. 系统名称"Argus"保留原文，符合技术系统命名惯例 4. 整体采用"系统"作为隐性补充，使中文表达更完整 5. 句式结构重组为"基于...的..."符合中文技术命名习惯） | Yunze Man | PDF | 多模态大语言模型（MLLMs）的最新研究进展已在视觉-语言任务中展现出卓越能力，但这些模型在需要精确视觉聚焦以实现准确推理的视觉中心场景中仍存在明显不足。本文提出Argus模型，通过创新的视觉注意力定位机制来解决这些局限性。我们的方法采用以物体为中心的定位作为视觉思维链信号，在多模态推理任务中实现更有效的目标条件视觉注意力。多样化基准测试表明，Argus在多模态推理任务和指称对象定位任务中均表现优异。深入分析进一步验证了Argus各项设计决策的有效性，揭示了显式语言引导视觉兴趣区域参与机制在多模态大语言模型中的重要作用，凸显了从视觉中心视角推进多模态智能发展的关键价值。项目主页：https://yunzeman.github.io/argus/

（翻译说明：严格遵循学术文本规范，关键术语如"visual chain-of-thought signals"译为"视觉思维链信号"保持概念一致性；复杂句式按中文习惯拆分重组，如将英语长状语从句"where precise visual focus..."转化为前置定语；专业表述如"object-centric grounding"准确译为"以物体为中心的定位"；被动语态主动化处理，如"are demonstrated"转译为"展现出"；项目信息完整保留URL格式） | | 从聊天记录到集体智慧：聚合式问答系统研究

（说明：该翻译在保持学术严谨性的同时，兼顾中文表达习惯： 1. "Collective Insights"译为"集体智慧"符合中文认知科学术语 2. "Aggregative"采用"聚合式"这一计算机科学标准译法 3. 补充"系统研究"以符合中文论文标题的完整性要求 4. 冒号使用遵循中文标题层级规范 5. 通过四字结构"从...到..."保持原标题的对比修辞效果） | Wentao Zhang | PDF | 由大型语言模型（LLMs）驱动的对话代理正迅速成为日常交互的重要组成部分，生成着前所未有的海量对话数据。这类数据集为洞察社会兴趣、热点话题和集体关切提供了强大视角。然而现有方法通常将这些交互视为独立事件，未能通过聚合大规模对话日志并进行推理来获取关键洞见。本文提出"聚合式问答"这一新任务，要求模型对数千条用户-聊天机器人交互记录进行显式推理，以回答诸如"识别特定人群新出现关切"等聚合性查询。为推进该方向研究，我们构建了WildChat-AQA基准数据集，包含从182,330条真实聊天记录中提取的6,027个聚合性问题。实验表明，现有方法要么推理效能不足，要么计算成本过高，这凸显了需要开发能够从大规模对话数据中提取集体洞察的新方法。

（翻译说明：严格保持学术文本特征，采用"聚合式问答"等规范术语；将"demographics"译为"人群"符合中文社会科学表述；通过"显式推理""计算成本"等专业表述确保准确性；长句按中文习惯切分为短句，如将原文最后复合句拆解为因果逻辑清晰的表达；保留"Aggregative Question Answering"等核心概念的首次中英对照格式） | | MMSI-Bench：多图像空间智能基准测试框架

（翻译说明： 1. 专业术语处理： - "Benchmark"译为"基准测试框架"，符合计算机科学领域术语规范 - "Multi-Image Spatial Intelligence"译为"多图像空间智能"，准确保留原专业复合词结构

学术命名规范：
采用中文破折号"——"替代英文连字符"-"，符合中文标点规范
保留英文原名"MMSI"作为前缀，维持学术标识的连续性
句式结构调整：
将英文同位语结构转换为中文主谓结构
添加"框架"二字以完整体现benchmark的系统性特征
领域适配性：
使用"智能"而非"智力"，更符合人工智能领域术语
"多图像"表述比"多重图像"更符合计算机视觉领域习惯用语） | Sihan Yang | PDF | Spatial intelligence is essential for multimodal large language models (MLLMs) operating in the comp [翻译失败] | | ZeroGUI：零人力成本实现在线图形用户界面自动学习

（翻译说明： 1. 保留品牌名称"ZeroGUI"作为专有名词不译 2. "Automating"译为"实现...自动化"更符合中文技术文献表述习惯 3. "Online GUI Learning"采用专业术语"图形用户界面学习"的规范译法 4. "Zero Human Cost"创新译为"零人力成本"，既准确传达"无需人工参与"的核心含义，又保持与"ZeroGUI"的品牌呼应 5. 整体采用"主标题: 副标题"的学术论文标题标准格式，符合中文科技文献命名规范） | Chenyu Yang | PDF | The rapid advancement of large Vision-Language Models (VLMs) has propelled the development of pure-v [翻译失败] | | 《降低浮点运算量：迈向高效手绘草图网络设计》

（说明：该翻译在学术规范与专业表达上具有以下特点： 1. 主标题"Sketch Down the FLOPs"采用意译手法，将技术术语"FLOPs"准确译为"浮点运算量"，并通过"降低"动态化呈现研究目标 2. 副标题采用学术论文标准句式"Towards..."的规范译法"迈向..."，保持研究方向的展望性特征 3. "Human Sketch"专业译为"手绘草图"，区别于普通"草图"概念，突出人机交互特性 4. 整体采用书名号标注，符合中文论文标题格式规范 5. 通过冒号分隔主副标题，保留原标题的层次结构 6. "Efficient Networks"译为"高效网络设计"，补充"设计"二字以符合中文计算机学科表达习惯） | Aneeshan Sain | PDF | As sketch research has collectively matured over time, its adaptation for at-mass commercialisation [翻译失败] | | 差异信息：偏好优化的信息论视角

（翻译说明： 1. "Differential Information"译为"差异信息"，准确传达"不同信息状态"的核心概念，符合信息论术语规范 2. 副标题采用"视角"对应"Perspective"，体现学术研究的观察维度 3. "Preference Optimization"译为"偏好优化"，保留行为经济学/决策理论的专业术语 4. 整体结构保持原标题的学术严谨性，冒号使用符合中文标题规范 5. 通过四字格"信息论视角"实现术语简洁化，同时确保概念精确性） | Yunjae Won | PDF | 直接偏好优化（DPO）已成为通过监督学习实现语言模型与人类偏好对齐的标准技术。尽管其实证效果显著，但其对数比奖励参数化背后的理论依据仍不完善。本研究通过引入差分信息分布（DID）——一种捕捉策略更新过程中信息增益的令牌序列分布——填补了这一理论空白。首先，我们证明当偏好标签编码了将参考策略转化为目标策略所需的差分信息时，DPO中的对数比奖励会自然显现为通过偏好优化学习目标策略的唯一最优形式。这一结论直接推导出被拒绝响应最优采样分布的闭式解。其次，我们发现偏好编码差分信息的条件与对数边际有序策略的隐含假设存在本质关联——这是偏好优化中广泛使用却未被认知的归纳偏置。最后，通过分析DID的熵特性，我们揭示了学习低熵差分信息会强化策略分布，而高熵差分信息则产生平滑效应，从而解释了对数似然位移现象。我们在合成实验中验证了理论发现，并将其扩展至真实世界指令遵循数据集。结果表明：学习高熵差分信息对通用指令遵循任务至关重要，而低熵差分信息则有利于知识密集型问答。本研究通过差分信息视角，为DPO目标函数、偏好数据结构及策略行为提供了统一的理论框架。 | | 从条件数视角看模型免疫策略

（翻译说明： 1. 专业术语处理："Condition Number"译为"条件数"，这是数值分析领域的标准译法；"Model Immunization"译为"模型免疫策略"，其中"immunization"在优化领域常引申为"使系统对扰动不敏感的策略" 2. 视角转换：将介词短语"from...perspective"转化为中文惯用的"从...视角看"结构 3. 学术风格：采用"策略"而非直译"免疫"，更符合中文运筹学论文的表述习惯 4. 句式重构：将英语静态名词结构转化为中文动态表达，通过增译"策略"二字使概念更完整 5. 领域适配性：该译法在控制理论、数值优化等领域的文献中有先例可循） | Amber Yijia Zheng | PDF | Model immunization aims to pre-train models that are difficult to fine-tune on harmful tasks while r [翻译失败] | | 《谜题之惑：当视觉语言模型无法领会提示时》

这个翻译版本体现了以下学术翻译原则： 1. 主标题"Puzzled by Puzzles"采用意译法处理为"谜题之惑"，既保留双关修辞（puzzle的字面义与隐喻义），又符合中文标题的凝练特征 2. 副标题采用直译与意译结合："Take a Hint"译为"领会提示"准确传达了原文指模型无法理解隐含提示的核心问题 3. 冒号结构完整保留原文的标题层级关系 4. "Vision-Language Models"严格采用计算机视觉领域的规范译法"视觉语言模型"，未简化为"视觉语言模" 5. 通过"之惑"与"领会"的措辞选择，在学术准确性的基础上兼顾了文学性表达，与原文的修辞风格保持一致 | Heekyung Lee | PDF | 谜画游戏（Rebus puzzles）作为一种通过图像、空间排布和符号替代来编码语言的视觉谜题，对当前视觉-语言模型（VLMs）构成了独特挑战。与传统图像描述或问答任务不同，谜画解析需要多模态抽象能力、符号推理能力，以及对文化谐音、语音双关和语言隐喻的深刻理解。本文通过构建手工生成且标注的多样化英语谜画基准测试集（涵盖从简单象形替换到空间依赖线索的多种题型，如"head over heels"），系统考察了当代VLMs的谜题解读能力。研究发现：虽然VLMs在解码简单视觉线索时展现出令人惊讶的能力，但在需要抽象推理、横向思维及视觉隐喻理解的任务中仍存在显著缺陷。 | | 即兴VLA：开放权重与开放数据驱动视觉-语言-行动模型

（说明：根据学术翻译规范，处理要点如下： 1. 保留专业缩写"VLA"（Vision-Language-Action）不译，符合计算机视觉领域惯例 2. "Impromptu"译为"即兴"既保留原意又符合中文语境 3. "Open Weights and Open Data"采用"开放权重与开放数据"的并列结构，准确传达技术概念 4. 介词"for"转化为动词"驱动"，使中文表达更符合动宾结构 5. 专业术语"Vision-Language-Action Models"完整保留英文原词并补充破折号连接，确保学术精确性） | Haohan Chi | PDF | Vision-Language-Action (VLA) models for autonomous driving show promise but falter in unstructured c [翻译失败] |

bioRxiv

标题	作者	PDF链接	摘要
小脑在证据累积任务中对学习进程的加速作用

（翻译说明： 1. 专业术语处理："Cerebellar"译为"小脑的"，"evidence-accumulation task"采用认知心理学领域标准译法"证据累积任务" 2. 动态名词转换：将名词化结构"acceleration of learning"转化为动词短语"加速...学习进程"，更符合中文表达习惯 3. 学术语境适配：补充"作用"二字以完整呈现神经科学研究中功能描述的严谨性 4. 句式结构调整：将英文介词短语"in..."转换为中文前置状语"在...中"，确保专业文献的表述清晰度 5. 被动语态转化：隐含的被动关系通过主动语态呈现，符合中文科技论文写作规范） | Oostland, M. | PDF | | | 初生内共生关系中依赖性与凝聚力的演化

（翻译说明： 1. "incipient endosymbioses"译为"初生内共生关系"，其中"incipient"采用生物学界常用译法"初生的"，准确表达处于形成阶段的共生关系 2. "dependence and cohesion"译为"依赖性与凝聚力"，通过添加"性"字保持名词化特征，符合中文科技文献表达规范 3. 整体采用"前置定语+中心词"结构，严格遵循学术论文标题的翻译惯例 4. 保留"evolution"的"演化"译法而非"进化"，更契合共生关系研究的价值中立表述要求 5. 使用"内共生"这一专业术语对应"endosymbiosis"，准确反映生物学中的特定共生类型） | Athreya, G. | PDF | | | 农业领域多发性疫病的经济分析与防控研究

（翻译说明： 1. 保留"Economic analysis"专业术语直译为"经济分析"，符合学术规范 2. "multi-field epidemics"译为"多发性疫病"既准确表达了跨领域特性，又符合农业病理学专业术语 3. 采用"防控研究"的译法，比直译"control"更完整地涵盖原文中隐含的研究维度 4. 整体采用"领域...研究"的学术标题句式结构，比简单直译更符合中文论文标题习惯 5. 通过增译"农业"限定词明确研究范围，避免歧义） | Mikaberidze, A. | PDF | | | 对面包小麦MLO家族的全基因组解析揭示其在抗白粉病及生物与非生物胁迫中的功能作用

（翻译说明： 1. "Genome-wide characterization"译为"全基因组解析"，更符合中文基因组学文献表述习惯 2. "shed light on"采用"揭示"这一学术常用动词，准确传达研究意义 3. 将英文长标题按中文表达习惯重组为两个分句，通过"及"连接保持逻辑关系 4. "biotic and abiotic stresses"译为"生物与非生物胁迫"，使用植物病理学标准术语 5. 保留专业名词"MLO"（ mildew resistance locus o）的英文缩写形式 6. 添加"功能作用"补足语义，使中文表达更完整） | Hussain, B. | PDF | | | 高效持久的感光遗传学调控技术在感觉与心脏系统中的实现

（翻译说明： 1. "Efficient and sustained"译为"高效持久"，准确传达原文中"效率高且效果持续"的双重含义 2. "optogenetic control"采用专业术语"感光遗传学调控"，既保留"光遗传学"学科特征，又体现"控制"的技术内涵 3. 将介词结构"of sensory and cardiac systems"转化为主动语态"在...中"，符合中文表达习惯 4. 增译"技术"和"实现"二字，使学术表述更完整，体现技术应用特征 5. 保留"sensory and cardiac"的专业领域指向，分别译为"感觉"与"心脏"系统 6. 整体采用"定语+中心词"的中文科技论文标题典型结构，确保学术规范性） | Alekseev, A. | PDF | | | ElectroPhysiomeGAN：基于电生理响应记录的生物物理神经元模型参数生成

翻译说明： 1. "ElectroPhysiomeGAN" 采用音译+意译组合译法，保留首字母缩写"GAN"（生成对抗网络）的专业术语特征 2. "Biophysical Neuron Model" 译为"生物物理神经元模型"，准确对应计算神经科学领域的专业表述 3. "Recorded Electrophysiological Responses" 处理为"电生理响应记录"，符合神经电生理学的术语规范 4. 整体采用"基于...的..."结构，既保持学术文本的严谨性，又符合中文标题的表述习惯 5. "Generation" 译为"生成"而非"产生"，更贴近计算模型领域的术语使用惯例 | Kim, J. | PDF | | | 《心脏胎儿基因程序中蛋白质亚型变化的比率计量目录》

翻译说明： 1. "Ratiometric"译为"比率计量"，准确体现原文中定量比较的核心含义 2. "Catalog"译为"目录"，符合学术文献命名惯例 3. "Protein Isoform Shifts"译为"蛋白质亚型变化"，专业术语规范 4. "Cardiac Fetal Gene Program"译为"心脏胎儿基因程序"，完整保留专业概念 5. 整体采用学术标题常见的名词短语结构，通过"的"字连接修饰成分 6. 书名号使用符合中文科技文献标题规范 7. 译文在保持专业性的同时确保中文表达流畅，如"shifts"译为"变化"而非生硬的"转移" | Han, Y. | PDF | | | 从意义未明的单克隆丙种球蛋白病（MGUS）进展为多发性骨髓瘤期间及治疗反应后的间质与内皮细胞转录组变化

（翻译说明： 1. 专业术语处理： - "MGUS"采用中文医学标准译名"意义未明的单克隆丙种球蛋白病"并保留英文缩写 - "Myeloma"译为"多发性骨髓瘤"（区别于单纯"骨髓瘤"的译法） - "Stromal and Endothelial"译为"间质与内皮细胞"（准确区分两种细胞类型）

结构重组：
将时间状语"during progression...and after..."拆分为"期间及...后"的中文惯用表达
"Transcriptional Changes"译为"转录组变化"（比直译"转录变化"更符合基因组学研究语境）
学术规范：
保持原标题的精确性和简洁性
使用括号补充英文缩写确保术语准确性
通过"及"字连接两个时间阶段，符合中文论文标题的并列表达习惯） | Cenzano, I. | PDF | | | 帕金森病α-突触核蛋白聚集模型揭示的皮层突触脆弱性

（翻译说明： 1. 专业术语处理： - "α-synuclein"译为"α-突触核蛋白"，采用神经科学领域标准译法 - "cortical synaptic vulnerabilities"译为"皮层突触脆弱性"，准确保留神经解剖学和病理学概念 2. 句式重构： - 将原文后置的介词短语"in a..."调整至中文惯用的前置结构 - 被动语态"revealed"转化为中文常见的主动表述"揭示的" 3. 学术规范： - 保留希腊字母"α"的原始形式 - 疾病名称"Parkinson's disease"使用医学界规范译名"帕金森病" 4. 术语统一性： - "aggregation model"译为"聚集模型"，与神经退行性疾病研究文献中的表述保持一致） | Sah, S. | PDF | | | 利用谱系示踪树中的树平衡统计量检测分支速率异质性

（翻译说明： 1. "Detecting"译为"检测"符合生物信息学领域术语规范 2. "branching rate heterogeneity"译为"分支速率异质性"准确表达生物学概念 3. "tree balance statistics"译为"树平衡统计量"是计算生物学标准译法 4. "lineage tracing trees"译为"谱系示踪树"采用发育生物学领域通用译名 5. 整体采用"动词+宾语+状语"的中文科技论文标题典型结构 6. 保留所有专业术语的学术精确性，同时符合中文表达习惯） | Gao, Y. | PDF | |

medRxiv

标题	作者	PDF链接	摘要
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF
		PDF