Arxiv 2024-12-24 Papers

标题	作者	PDF链接	代码仓库	Title
视频熊猫：面向无编码器视频语言模型的高效参数对齐	Jinhui Yi	PDF	N/A	Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models
PartGen：基于多视图扩散模型的零件级三维生成与重建	Minghao Chen	PDF	N/A	PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models
DrivingGPT：利用多模态自回归变换器统一驾驶世界建模与规划	Yuntao Chen	PDF	N/A	DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers
《Orient Anything：通过渲染3D模型学习稳健的目标方向估计》

在本文中，我们探讨了现有语音数据集在训练机器学习模型以支持集体问题解决方面的适用性。首先，我们概述了当前可用的主要语音数据集，包括它们的规模、多样性、标注质量以及应用场景。接着，我们分析了这些数据集在集体问题解决任务中的潜在应用，特别是在团队协作、决策支持和知识共享等方面的表现。我们还讨论了数据集在语言多样性、文化背景和领域特异性方面的局限性，以及这些因素如何影响模型的泛化能力和实际应用效果。最后，我们提出了改进数据集设计和收集方法的建议，以更好地满足集体问题解决任务的需求，并展望了未来研究方向，包括多模态数据集成和实时交互模型的开发。通过这一讨论，我们旨在为研究者和实践者提供有价值的参考，以推动语音技术在集体问题解决领域的进一步发展。 | Gnaneswar Villuri | PDF | N/A | An Overview and Discussion of the Suitability of Existing Speech Datasets to Train Machine Learning Models for Collective Problem Solving | | 基于分段的注意力掩码用于GPTs | Shahar Katz | PDF | N/A | Segment-Based Attention Masking for GPTs | | 非洲地区多年作物田边界标签数据集 | L. D. Estes | PDF | N/A | A region-wide, multi-year set of crop field boundary labels for Africa | | MotifGPL：基于Motif增强的图原型学习用于解析城市社会隔离现象

在这段翻译中，"Gaussian entropic optimal transport" 被翻译为 "高斯熵最优传输"，"Schrödinger bridges" 被翻译为 "薛定谔桥"，而 "the Sinkhorn algorithm" 则被翻译为 "Sinkhorn算法"。这些术语在数学和计算机科学领域中具有特定的含义，因此直接采用了其专业术语的翻译。 | O. Deniz Akyildiz | PDF | N/A | Gaussian entropic optimal transport: Schrödinger bridges and the Sinkhorn algorithm | | GeAR：用于检索增强生成的图增强代理

在这个翻译中： - "Graph-enhanced" 翻译为 "图增强"，表示该代理通过图结构进行了增强。 - "Agent" 翻译为 "代理"，指的是执行特定任务的实体。 - "Retrieval-augmented Generation" 翻译为 "检索增强生成"，表示生成过程通过检索机制得到了增强。

通过LLM代理进行可解释的多模态数据自然语言探索

这个标题描述了一种利用大型语言模型（Large Language Model, LLM）代理来探索多模态数据（如图像、文本、音频等）的方法，并且整个过程是通过自然语言交互实现的，同时具有可解释性。这意味着用户可以通过自然语言与系统对话，系统能够理解并分析多模态数据，并以易于理解的方式向用户解释分析结果。 | Farhad Nooralahzadeh | PDF | N/A | Explainable Multi-Modal Data Exploration in Natural Language via LLM Agent | | GUI测试领域：推进自主GUI测试代理的统一基准

（注：这里对原标题进行了适当的扩展和解释，使其更符合中文语境和学术表达习惯。具体如下： 1. "Predator Prey Scavenger Model" 译为"捕食者-猎物-食腐者模型"，明确指出了模型涉及的三个生态角色。 2. "using" 译为"基于"，更符合学术论文标题的表达习惯。 3. "Holling's Functional Response of Type III" 译为"霍林III型功能响应"，保留了专业术语的准确性。 4. "Physics-Informed Deep Neural Networks" 译为"物理信息深度神经网络"，准确传达了该技术的特点。 5. 添加了"的研究"作为结尾，使标题更加完整，符合中文论文标题的常见结构。）

这个标题描述了一个结合生态学理论和人工智能技术的创新研究，主要特点包括： 1. 建立了一个包含捕食者、猎物和食腐者三个营养级的生态系统模型 2. 采用霍林III型功能响应来描述捕食关系 3. 运用了物理信息深度神经网络这一先进的计算方法 4. 体现了跨学科研究的特点，结合了生态学、物理学和人工智能领域的方法

这段翻译将“Efficient and Context-Aware Label Propagation”翻译为“高效且上下文感知的标签传播”，强调了方法的效率和上下文感知能力。而“Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model”则翻译为“用于视觉语言模型的零样本/少样本无训练自适应”，突出了该方法在零样本和少样本场景下的无训练自适应特性。整体翻译保持了原文的技术性和准确性，同时使中文表达更加流畅和易于理解。 | Yushu Li | PDF | N/A | Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model | | FameBias：文本到图像模型中的嵌入操纵偏见攻击 | Jaechul Roh | PDF | N/A | FameBias: Embedding Manipulation Bias Attack in Text-to-Image Models | | M-Ped：大型语言模型的多提示集成解码方法

这段翻译将“M-Ped”保留为英文缩写，因为它是特定术语，通常在中文中也会直接使用。后面的部分“Multi-Prompt Ensemble Decoding for Large Language Models”翻译为“大型语言模型的多提示集成解码方法”，其中“Multi-Prompt”翻译为“多提示”，“Ensemble Decoding”翻译为“集成解码”，“Large Language Models”翻译为“大型语言模型”。整体翻译保持了原文的技术性和准确性。 | Jiaxin Guo | PDF | N/A | M-Ped: Multi-Prompt Ensemble Decoding for Large Language Models | | 《异常检测何去何从？LLMs与VLMs成为焦点》

在这段翻译中，“Quo Vadis”是拉丁语，意为“你要去哪里？”或“何去何从？”，常用于表达对未来方向或趋势的探讨。“Anomaly Detection”指的是“异常检测”，是数据分析和机器学习中的一个重要领域，专注于识别与预期模式显著不同的数据点。“LLMs”和“VLMs”分别代表“大型语言模型”（Large Language Models）和“视觉语言模型”（Visual Language Models），它们是当前人工智能领域的热门技术，具有强大的理解和生成能力。

这段翻译将原标题“Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization”转化为中文，同时保持了专业术语的准确性和表达的流畅性。翻译后的标题清晰地传达了原文的核心内容，即通过直接优势策略优化来增强大型语言模型在多步推理任务中的表现。 | Jiacai Liu | PDF | N/A | Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization | | ## 迈向模态泛化：基准与前瞻性分析

摘要： 模态泛化，即模型能够将从一种模态（如图像）学习到的知识迁移到另一种模态（如文本），是人工智能领域的一个重要挑战。本文旨在通过建立一个全面的基准和进行前瞻性分析，推动模态泛化研究的发展。

1. 引言

近年来，深度学习在单一模态任务上取得了显著进展，例如图像分类和机器翻译。然而，现实世界中的问题往往涉及多种模态，例如图像描述和视频问答。模态泛化旨在打破模态之间的壁垒，使模型能够灵活地处理和融合来自不同模态的信息。

2. 现有挑战

尽管模态泛化具有巨大的潜力，但也面临着诸多挑战：

模态差异： 不同模态的数据具有不同的统计特性，例如图像是空间结构化的，而文本是序列化的。
数据稀缺： 跨模态数据往往比单一模态数据更难获取和标注。
评估困难： 缺乏统一的评估标准来衡量模型在不同模态上的泛化能力。

3. 基准构建

为了促进模态泛化研究，我们构建了一个包含多种模态和任务的基准数据集。该数据集涵盖了图像、文本、音频和视频等多种模态，并包含了分类、检索、生成等多种任务。

4. 前瞻性分析

基于构建的基准数据集，我们对现有的模态泛化方法进行了全面的评估和分析。我们发现：

预训练模型： 在大规模跨模态数据上预训练的模型表现出更强的泛化能力。
多模态融合： 有效地融合来自不同模态的信息是提升模型性能的关键。
自监督学习： 自监督学习可以利用无标注数据来学习跨模态表示，具有很大的潜力。

5. 未来方向

基于我们的分析，我们提出了未来模态泛化研究的几个方向：

开发更强大的预训练模型： 探索更有效的预训练目标和架构，以学习更具泛化能力的跨模态表示。
设计更灵活的多模态融合机制： 研究如何根据任务需求动态地融合来自不同模态的信息。
探索更高效的自监督学习方法： 利用无标注数据来学习跨模态表示，降低对标注数据的依赖。

6. 结论

模态泛化是人工智能领域的一个重要研究方向，具有广阔的应用前景。通过建立一个全面的基准和进行前瞻性分析，我们希望为模态泛化研究提供新的思路和方向，推动该领域的发展。

“基于多视角采样的开放词汇目标检测”

解释： - Sampling Bag of Views：指的是从多个视角或角度对目标进行采样，以获取更全面的特征信息。 - Open-Vocabulary Object Detection：开放词汇目标检测，指的是模型能够检测训练数据中未出现过的类别，具有较强的泛化能力。

基于波段提示辅助的SAR与多光谱数据融合框架用于局部气候区分类

解释： - Band Prompting Aided：指的是利用波段提示（band prompting）技术来辅助数据处理。 - SAR：合成孔径雷达（Synthetic Aperture Radar），一种主动遥感技术。 - Multi-Spectral Data：多光谱数据，通常指包含多个光谱波段的遥感数据。 - Fusion Framework：融合框架，指将不同来源或类型的数据进行整合的方法或系统。 - Local Climate Zone Classification：局部气候区分类，是一种用于描述城市和区域气候特征的空间分类方法。

这段翻译将原文的核心概念进行了准确传达，同时保持了中文表达的流畅性。具体解释如下：

Efficient Detection Framework Adaptation 翻译为“高效检测框架适配”，强调了框架的高效性和适应性。
for Edge Computing 翻译为“边缘计算中的”，明确了应用场景。
A Plug-and-play Neural Network Toolbox 翻译为“一个即插即用的神经网络工具箱”，突出了工具箱的便捷性和易用性。
Enabling Edge Deployment 翻译为“助力边缘部署”，强调了工具箱在边缘部署中的作用。

在这段翻译中，"Molar" 被音译为“摩尔”，"Multimodal LLMs" 指的是“多模态大语言模型”，"Collaborative Filtering Alignment" 翻译为“协同过滤对齐”，而 "Enhanced Sequential Recommendation" 则译为“增强的序列推荐”。整个句子的意思是介绍了一种名为“摩尔”的技术或模型，它通过结合多模态大语言模型和协同过滤对齐的方法，来提升序列推荐的效果。 | Yucong Luo | PDF | N/A | Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation | | INVESTORBENCH：基于LLM代理的金融决策任务基准

调查：印地语和马拉地语的匿名化、摘要生成与拼写检查

在这个翻译中，我尽量保持了原文的专业性和准确性，同时确保中文表达的流畅性。以下是翻译的详细解释：

ERVD：这是一个缩写，直接保留原文中的缩写形式，因为通常在学术和技术领域中，缩写会被广泛使用并理解。
An Efficient and Robust：翻译为“一种高效且稳健的”，其中“efficient”对应“高效”，“robust”对应“稳健”，这两个词在技术文献中常用，分别表示系统的高效性和鲁棒性（即系统在异常情况下仍能保持稳定运行的能力）。
ViT-Based：翻译为“基于视觉Transformer的”，其中“ViT”是“Vision Transformer”的缩写，这是一种在计算机视觉领域中使用的模型架构，基于Transformer结构来处理图像数据。
Distillation Framework：翻译为“蒸馏框架”，其中“distillation”在机器学习中通常指知识蒸馏（Knowledge Distillation），是一种模型压缩技术，通过训练一个小模型来模仿一个大模型的行为。
for Remote Sensing Image Retrieval：翻译为“用于遥感图像检索”，其中“remote sensing”对应“遥感”，指的是通过卫星或飞机等远程手段获取地球表面信息的技术；“image retrieval”对应“图像检索”，指的是从大量图像中查找与查询图像相似的图像的过程。