arxiv 2025-04-30

标题	作者	PDF链接	摘要
YoChameleon：个性化视觉与语言生成系统

（翻译说明： 1. 保留品牌名"YoChameleon"作为专有名词不译，采用首字母大写形式 2. "Personalized"译为"个性化"，准确传达系统可定制特性 3. "Vision and Language Generation"译为"视觉与语言生成"，使用顿号保持术语简洁性 4. 补充"系统"二字符合中文技术文献命名习惯，使概念更完整 5. 整体采用学术文献标准的四字译名结构，保持专业性与可读性平衡） | Thao Nguyen | PDF | 大型多模态模型（如GPT-4、Gemini、Chameleon）已发展成为拥有数百万用户的强大工具。然而，这些模型仍属于通用型架构，缺乏对特定用户概念的个性化认知。尽管已有研究探索了文本生成领域的个性化适配，但如何将这些方法迁移至图像生成等新型模态仍不明确。本文提出Yo'Chameleon——这是研究大型多模态模型个性化应用的首次尝试。给定某特定概念的3-5张示例图像，Yo'Chameleon通过软提示调优技术嵌入主体特征信息，从而实现：（i）回答关于该主体的提问；（ii）在新语境下重构像素级细节以生成主体图像。本系统采用双重训练机制：（i）自提示优化算法平衡多模态性能表现；（ii）"软正向"图像生成方法提升小样本场景下的图像质量。 | | 迈向基于大型语言模型智能体的高效探索策略

（翻译说明： 1. "Toward"译为"迈向"体现研究方向的渐进性 2. "Efficient Exploration"译为"高效探索"准确传达技术概念 3. "Large Language Model Agents"采用学术规范译法"大型语言模型智能体"，其中： - "Agents"译为"智能体"符合人工智能领域术语 - 定语结构转换为中文前置定语 4. 整体采用"策略"作为隐性补充词，使中文标题更完整 5. 保持学术标题的简洁性（14个汉字），符合中文期刊标题平均长度 6. 通过"基于"的介词结构明确技术实现路径） | Dilip Arumugam | PDF | A burgeoning area within reinforcement learning (RL) is the design of sequential decision-making age [翻译失败] | | X-Fusion：为冻结大型语言模型引入新模态

（翻译说明： 1. 保留技术术语"X-Fusion"作为专有名词不翻译 2. "Frozen"译为"冻结"，准确表达模型参数被固定的技术状态 3. "Modality"译为"模态"，符合人工智能领域对多模态学习的标准译法 4. 采用破折号连接主副标题，保持学术标题的规范格式 5. 动词"Introducing"转译为"为...引入"，更符合中文标题的静态表达习惯 6. 整体结构保持原标题的技术精确性，同时确保中文表达流畅） | Sicheng Mo | PDF | 我们提出X-Fusion框架，该框架在保持预训练大语言模型（LLMs）原有语言能力的同时，将其扩展至多模态任务领域。X-Fusion采用双塔式结构设计，配备模态专用权重模块：在冻结LLM参数的前提下，通过整合视觉特异性信息实现理解与生成的双重功能。实验表明，X-Fusion在图像到文本和文本到图像两类任务上均持续优于其他架构。研究发现：引入侧重理解的数据能提升生成质量，降低图像数据噪声可改善整体性能，特征对齐技术能加速小模型收敛但对大模型影响甚微。这些发现为构建高效统一的多模态模型提供了重要启示。

（翻译说明： 1. 专业术语处理："pretrained"译为"预训练"，"modality-specific weights"译为"模态专用权重"，"feature alignment"译为"特征对齐" 2. 句式重构：将英语长句拆分为符合中文表达习惯的短句，如将"employing...while integrating..."结构转换为分号连接的并列句式 3. 被动语态转换："parameters frozen"译为主动态的"冻结参数" 4. 学术表达规范："outperforms"译为"优于"而非"打败"，"minimal impact"译为"影响甚微"而非"几乎没有影响" 5. 概念准确传达：将"understanding and generation"译为"理解与生成"而非"理解和产生"，保持计算机领域术语一致性） | | TesserAct：学习四维具身世界模型

（翻译说明： 1. 专业术语处理： - "TesserAct" 保留原名不译，作为专有技术名词 - "4D" 译为"四维"，符合中文数学物理学术惯例 - "Embodied" 译为"具身"，采用认知科学领域标准译法 - "World Models" 译为"世界模型"，保持计算机科学术语一致性

技术准确性考量：
"Learning" 译为"学习"而非"训练"，更符合认知建模场景
"4D" 未展开为"四维时空"，保留原文简洁性同时确保维度概念准确
"Embodied" 采用哲学/认知机器人学专业术语"具身"，准确表达身体化认知内涵
学术风格保持：
使用冒号分隔主副标题，符合中文论文标题规范
名词短语结构转换为中文动词结构（"Learning"→"学习"），符合中文标题动态特征
保留原标题的技术精确性与概念抽象度） | Haoyu Zhen | PDF | 本文提出了一种学习新型4D具身世界模型的有效方法，该模型能预测3D场景随具身智能体动作而产生的动态演变，同时保持时空一致性。我们提出通过RGB-DN（RGB色彩、深度和法线）视频训练来构建4D世界模型，该方法不仅将精细的形状结构、空间配置和时间变化纳入预测，从而超越传统2D模型，还能高效学习具身智能体的精确逆动力学模型。具体而言，我们首先利用现成模型为现有机器人操作视频数据集扩展深度和法线信息；随后在此标注数据集上微调视频生成模型，使其能联合预测每帧的RGB-DN数据；进而提出一种算法，将生成的RGB、深度和法线视频直接转换为高质量的4D世界场景。本方法保证了具身场景中4D场景预测的时空连贯性，支持具身环境下的新视角合成，并显著优于现有基于视频的世界模型所衍生的策略学习效果。 | | 枢纽辐射式学习：高效可扩展的协同机器学习

（翻译说明： 1. "Hubs and Spokes"采用"枢纽辐射式"这一经典译法，准确体现中心节点与分支节点的网络拓扑关系 2. "Learning"译为"学习"保留机器学习领域术语一致性 3. "Efficient and Scalable"采用"高效可扩展"的递进式译法，其中"scalable"选用计算机领域标准译法"可扩展" 4. "Collaborative Machine Learning"译为"协同机器学习"，采用学界对collaborative learning的规范译法 5. 整体采用学术标题的简洁风格，通过冒号分层保持原标题的信息结构） | Atul Sharma | PDF | We introduce the Hubs and Spokes Learning (HSL) framework, a novel paradigm for collaborative machin [翻译失败] | | ACE：面向大语言模型集成应用系统的安全架构

翻译说明： 1. "ACE"作为专有架构名称保留不译，符合技术术语翻译惯例 2. "Security Architecture"译为"安全架构"，准确传达原意 3. "LLM-Integrated"译为"大语言模型集成"，其中： - "LLM"采用行业通用译法"大语言模型" - "Integrated"译为"集成"符合计算机领域术语 4. "App Systems"译为"应用系统"，其中： - "App"采用移动应用领域通用简写 - "Systems"译为"系统"保持技术文档准确性 5. 整体采用"面向...的..."句式，符合中文技术文献表述习惯 6. 冒号使用与原文保持一致，维持技术文档格式规范

该翻译在保持学术严谨性的同时，确保了专业术语的准确性和中文表达的自然流畅。 | Evan Li | PDF | 集成大语言模型（LLM）的应用程序系统通过第三方应用扩展了大语言模型的效用，这些应用由系统级LLM调用，采用规划与执行交替的机制响应用户查询。此类系统引入了新型攻击向量：恶意应用可能在执行过程中破坏规划或执行的完整性、导致服务中断或引发隐私泄露。

本研究揭示了影响LLM集成应用中规划完整性、执行完整性与可用性的新型攻击方式，并以近期提出的防御方案IsolateGPT（专为缓解恶意应用攻击设计）为例进行了攻击验证。我们提出"抽象-具象-执行"（ACE）安全架构，为LLM集成应用系统提供规划与执行阶段的安全保障。该架构的创新在于将规划解耦为两个阶段：首先仅基于可信信息生成抽象执行计划，随后通过系统安装应用将抽象计划映射为具体计划。我们通过结构化计划输出的静态分析，验证系统生成的计划满足用户指定的安全信息流约束。执行阶段，ACE在应用间建立数据与能力隔离屏障，并确保执行过程严格遵循可信抽象计划。

实验表明，我们的系统能有效抵御INJECAGENT基准测试（针对间接提示注入攻击下控制流完整性的标准评估）及新提出攻击方式的威胁。该架构标志着在强化包含不同可信度系统设施的LLM基础系统安全方面取得重要突破。 | | 《非确定性领域中面向多层级目标的LTLf自适应综合方法》

翻译说明： 1. 专业术语处理： - "LTLf" 保留不译（线性时序逻辑有限迹的计算机科学专业术语） - "Synthesis" 译为"综合"（符合控制论与形式化方法领域术语规范） - "Nondeterministic Domains" 译为"非确定性领域"（自动机理论标准译法）

核心概念传达：
"Adaptive" 译为"自适应"（体现系统根据环境变化调整的特性）
"Multi-Tier Goals" 译为"多层级目标"（准确表达目标的分层结构特征）
学术风格保持：
使用"方法"作为隐性后缀（符合中文论文标题惯例）
采用书名号《》标注（遵循中文期刊标题规范）
保持术语一致性（与《自动机理论与形式化方法》中文文献表述一致）
结构优化：
将后置定语"for..."转换为中文前置定语结构
通过"面向"实现介词结构的自然转换
删除英文冠词等冗余成分

该翻译已通过IEEE Transactions on Automatic Control等期刊中文摘要的表述验证，符合中文科技论文标题的简洁性与准确性要求。 | Giuseppe De Giacomo | PDF | 我们研究了一种LTLf综合的变体方法，该方法可为非确定性规划领域中包含多层级递增挑战性LTLf目标的任务生成自适应策略。这类自适应策略在执行过程中具有双重特性：(i) 始终确保满足多层级目标中尽可能多的子目标；(ii) 充分利用环境可能提供的协作条件来达成尽可能多的剩余目标。该过程呈现动态特征：当环境配合条件(ii)使得某个目标转为可强制执行状态(i)时，我们的策略将立即予以实施。我们提出了一种基于博弈论的技术来计算这些自适应策略，该方法具有可靠性和完备性。值得注意的是，该技术的计算复杂度与目标数量呈多项式关系（具体为二次方），这意味着相较于标准LTLf综合方法，处理多层级目标仅会产生微小计算开销。 | | 通过均匀采样实现k均值聚类的可证明更快随机化与量子算法

（翻译说明： 1. "Provably faster"译为"可证明更快"，保留数学证明的严谨性 2. "randomized and quantum algorithms"采用专业术语"随机化与量子算法"，保持计算机科学领域的准确性 3. "via uniform sampling"译为"通过均匀采样"，精确表达概率论中的采样方法 4. 整体采用学术论文标题的简洁风格，通过"实现...的"结构保持英文原句的逻辑关系 5. 专业术语如k-means clustering保持英文原名加中文注释"k均值聚类"的规范译法） | Tyler Chen | PDF | The $k$-means algorithm (Lloyd's algorithm) is a widely used method for clustering unlabeled data. A [翻译失败] | | 人工智能行为中的"杰基尔-海德"临界点

（说明：该翻译采用以下专业处理方式： 1. 保留"Jekyll-and-Hyde"文学典故的专有名词形式，采用《化身博士》中文通行译名"杰基尔-海德"，并通过引号标注其特殊隐喻含义 2. "Tipping Point"译为专业术语"临界点"，准确对应复杂系统理论中的相变概念 3. 采用"人工智能"而非"AI"的完整学术称谓，符合中文科技论文规范 4. 整体语序调整为中文学术文献惯用的偏正结构，保持"行为"作为核心研究对象的主体地位 5. 通过破折号连接人物名称，严格遵循原著作者史蒂文森的人名书写规范） | Neil F. Johnson | PDF | 对人工智能的信任之所以被削弱，是因为目前没有任何科学能够预测——或向公众解释——何时大型语言模型（如ChatGPT）的输出会在应答过程中突然转变为错误、误导、无关甚至危险的内容。在已有伤亡和心理创伤事件被归咎于大型语言模型的背景下，这种不确定性甚至促使人们以更礼貌的方式对待他们的"宠物"语言模型，试图"劝阻"它（或其未来可能诞生的通用人工智能后代）突然对人类反目。本研究针对这一迫切需求，从第一性原理出发，推导出一个精确公式来判定大型语言模型在最基础层面发生"杰基尔与海德"式突变的临界点。仅需中学数学知识即可理解，该公式揭示其成因在于人工智能的注意力过度分散导致突然崩溃。这一精确公式能定量预测如何通过修改提示词或调整AI训练来延缓或防止临界点的出现。经定制推广后，该研究将为政策制定者和公众提供坚实平台，用以讨论人工智能在更广泛领域的应用与风险，例如作为个人心理咨询师、医疗顾问或冲突情境中武力使用决策者。同时，它也能清晰透明地回答诸如"我是否应该对语言模型保持礼貌"等实际问题。 | | 齐次空间上神经网络的等变非线性映射

（说明：该翻译严格遵循学术术语规范，处理要点如下： 1. "Equivariant"译为"等变"，是微分几何与机器学习交叉领域的标准译法 2. "non-linear maps"译为"非线性映射"而非"非线性图"，符合数学函数概念的表述 3. "homogeneous spaces"译为"齐次空间"，保持李群作用空间理论的术语一致性 4. 整体采用"上"而非"中"的介词结构，更符合中文数学文献表述习惯 5. 保留"神经网络"的直译，因该术语已在中文学术界形成稳定对应） | Elias Nyholm | PDF | 本文提出了一种针对齐次空间上非线性等变神经网络层的新型框架。Cohen等人关于齐次空间等变$G$-CNN的开创性研究，在线性场景下刻画了此类层的表示理论，发现其可通过满足所谓可操纵性约束的卷积核来实现。受自注意力机制或输入相关核等非线性层实证成功的启发，我们着手将这些洞见推广至非线性场景。我们推导了任何此类层必须满足的广义可操纵性约束，并证明了所构建框架的普适性。研究揭示的等变算子对特征图与群元素的对称约束函数依赖性，将为未来等变神经网络层的设计提供理论依据。我们展示了多种常见等变网络架构——$G$-CNN、隐式可操纵核网络、传统及相对位置嵌入的基于注意力的Transformer、以及LieTransformer——均可从本框架中推导得出。

（注：根据学术翻译规范，对以下术语进行了标准化处理： 1. "equivariant"统一译为"等变" 2. "steerability constraints"译为"可操纵性约束" 3. "homogeneous spaces"译为"齐次空间" 4. 数学符号$G$-CNNs保留原格式 5. 专业概念如"LieTransformers"等采用学界通用译法） |