Arxiv 2025-02-12 Papers

标题	作者	PDF链接	代码仓库	Title
多自回归预测用于交互建模	Neerja Thakkar	PDF	N/A	Poly-Autoregressive Prediction for Modeling Interactions
节奏共享：一种生物启发的范式，用于神经网络中的零样本适应与学习	Hoony Kang	PDF	N/A	Rhythmic sharing: A bio-inspired paradigm for zero-shot adaptation and learning in neural networks
一种基于VLM生成迭代关键点奖励的机器人操作的真实-模拟-真实方法	Shivansh Patel	PDF	N/A	A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards
SwiftSketch: 一种用于图像到矢量草图生成的扩散模型	Ellie Arar	PDF	N/A	SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation
效用工程：分析与控制人工智能中的涌现价值系统	Mantas Mazeika	PDF	N/A	Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs
CineMaster：一个用于电影级文本到视频生成的3D感知与可控框架	Qinghe Wang	PDF	N/A	CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation
通过LLM生成的对抗性示例跨语言检验多语言嵌入模型	Andrianos Michail	PDF	N/A	Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples
PASS的联合传输与波束赋形：基于优化还是基于学习？	Xiaoxia Xu	PDF	N/A	Joint Transmit and Pinching Beamforming for PASS: Optimization-Based or Learning-Based?
PulseCheck457：大型多模态模型综合空间推理能力的诊断基准	Xingrui Wang	PDF	N/A	PulseCheck457: A Diagnostic Benchmark for Comprehensive Spatial Reasoning of Large Multimodal Models
使用多尺度隐式神经表示进行快速全脑介观尺度活体磁共振成像	Jun Lyu	PDF	N/A	Rapid Whole Brain Mesoscale In-vivo MR Imaging using Multi-scale Implicit Neural Representation
必要与充分预言机：迈向强化学习的计算分类学	Dhruv Rohatgi	PDF	N/A	Necessary and Sufficient Oracles: Toward a Computational Taxonomy For Reinforcement Learning
基于集成的方法来量化基于LLM分类的不确定性	Srijith Rajamohan	PDF	N/A	Ensemble based approach to quantifying uncertainty of LLM based classifications
以下是这段文字的中文翻译：

“无界目标函数随机优化的集中不等式及其在去噪分数匹配中的应用”

翻译说明： - Concentration Inequalities 译为“集中不等式”，这是概率论中常用的术语，指描述随机变量偏离其期望值的概率界限的不等式。 - Stochastic Optimization 译为“随机优化”，指在优化问题中引入随机性（如随机梯度下降等）。 - Unbounded Objectives 译为“无界目标函数”，指目标函数的值可能无限大或无限小。 - Denoising Score Matching 译为“去噪分数匹配”，是一种用于生成模型或密度估计的技术。

可扩展的双层损失平衡用于多任务学习

在这段翻译中，"QA-Expand" 是一个专有名词，通常指代一种技术或方法，因此保留原样不翻译。"Multi-Question Answer Generation" 指的是生成多个问题及其答案的过程，翻译为“多问题回答生成”。"Enhanced Query Expansion" 指的是在信息检索中通过某种方式增强查询扩展的效果，翻译为“增强查询扩展”。"Information Retrieval" 是信息检索领域的专业术语，翻译为“信息检索”。

蝾螈技术报告

"通过双向对齐引导的联合预测进行遥感图像分割"

翻译解释： - Referring：指的是某种方法或技术。 - Remote Sensing Image Segmentation：遥感图像分割，即对遥感图像中的不同区域进行分类和划分。 - Bidirectional Alignment：双向对齐，表示在两个方向上进行对齐或匹配。 - Guided：引导，表示该方法是通过某种方式指导或优化的。 - Joint Prediction：联合预测，表示多个任务或模块共同参与预测。

整体翻译为：“通过双向对齐引导的联合预测进行遥感图像分割”。 | Tianxiang Zhang | PDF | N/A | Referring Remote Sensing Image Segmentation via Bidirectional Alignment Guided Joint Prediction | | 通过循环对齐推理增强自回归思维链 | Qifan Yu | PDF | N/A | Enhancing Auto-regressive Chain-of-Thought through Loop-Aligned Reasoning | | 签名核的数值方案 | Thomas Cass | PDF | N/A | Numerical Schemes for Signature Kernels | | mmE5：通过高质量合成数据改进多模态多语言嵌入 | Haonan Chen | PDF | N/A | mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data | | 使用MIDAS研究西班牙语咨询：一个西班牙语的动机性访谈数据集 | Aylin Gunal | PDF | N/A | Examining Spanish Counseling with MIDAS: a Motivational Interviewing Dataset in Spanish | | 核双层优化的学习理论 | Fares El Khoury | PDF | N/A | Learning Theory for Kernel Bilevel Optimization | | 多跳中继网络中的弹性量化共识 | Liwei Yuan | PDF | N/A | Resilient Quantized Consensus in Multi-Hop Relay Networks | | 迈向提示泛化：基于语法感知的跨提示自动作文评分 | Heejin Do | PDF | N/A | Towards Prompt Generalization: Grammar-aware Cross-Prompt Automated Essay Scoring | | CordViP：基于对应关系的视觉运动策略，用于现实世界中的灵巧操作 | Yankai Fu | PDF | N/A | CordViP: Correspondence-based Visuomotor Policy for Dexterous Manipulation in Real-World | | Monge SAM：基于损失几何的鲁棒重参数化不变锐度感知最小化 | Albert Kjøller Jacobsen | PDF | N/A | Monge SAM: Robust Reparameterization-Invariant Sharpness-Aware Minimization Based on Loss Geometry | | $\texttt{LucidAtlas}$：学习不确定性感知、协变量解耦、个体化地图表示 | Yining Jiao | PDF | N/A | $\texttt{LucidAtlas}$: Learning Uncertainty-Aware, Covariate-Disentangled, Individualized Atlas Representations | | 更好的嵌入与耦合Adam | Felix Stollenwerk | PDF | N/A | Better Embeddings with Coupled Adam | | 复合草图+文本查询用于检索具有难以捉摸名称和复杂交互的对象 | Prajwal Gatti | PDF | N/A | Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions | | 从干草堆到针：零样本分类中的标签空间缩减 | Nathan Vandemoortele | PDF | N/A | From Haystack to Needle: Label Space Reduction for Zero-shot Classification | | 通过共性拉近距离：利用共享群体增强超图对比学习 | Daeyoung Roh | PDF | N/A | Closer through commonality: Enhancing hypergraph contrastive learning with shared groups | | 生物纳米物联网中的分子通信语义学习 | Hanlin Cai | PDF | N/A | Semantic Learning for Molecular Communication in Internet of Bio-Nano Things | | 手写文本识别：综述 | Carlos Garrido-Munoz | PDF | N/A | Handwritten Text Recognition: A Survey | | 基于多保真度模拟的推理适用于计算成本高昂的模拟器 | Anastasia N. Krouglova | PDF | N/A | Multifidelity Simulation-based Inference for Computationally Expensive Simulators | | 解决线性排序问题的语义解析算法 | Maha Alkhairy | PDF | N/A | A Semantic Parsing Algorithm to Solve Linear Ordering Problems | | 通过联合偏回归进行逆协方差矩阵和偏相关矩阵的稀疏估计 | Samuel Erickson | PDF | N/A | Sparse Estimation of Inverse Covariance and Partial Correlation Matrices via Joint Partial Regression | | 以下是将“Strong bounds for large-scale Minimum Sum-of-Squares Clustering”翻译成中文的结果：

大规模最小平方和聚类的强边界

分层多智能体框架用于碳高效液冷数据中心集群

摘要： 计算病理学，作为人工智能在医疗领域的重要应用之一，正经历着由基础模型带来的革命性变革。这些模型，例如大型语言模型和视觉模型，在海量数据上进行预训练，展现出强大的泛化能力和迁移学习潜力，为病理图像的自动分析、诊断和预测开辟了新的可能性。然而，将基础模型应用于计算病理学也面临着数据、模型、评估和伦理等方面的挑战。本文旨在全面回顾计算病理学中基础模型的最新进展，深入探讨其带来的机遇和挑战，并分析其对病理学研究和临床实践产生的深远影响。我们将重点关注以下几个方面：

基础模型在计算病理学中的应用： 包括图像分类、分割、检测、预后预测等任务，以及多模态数据融合和可解释性方面的进展。
挑战与机遇： 数据获取与标注、模型泛化能力、计算资源需求、伦理与隐私等问题，以及如何利用基础模型推动计算病理学的发展。
未来方向： 包括更高效的基础模型架构、更可靠的评估方法、更完善的伦理规范等，以及基础模型如何与其他技术结合，推动计算病理学迈向新的高度。

“那是在谈论什么？一个用于科学演讲的视频到文本摘要数据集”

UniCoRN（Unified Commented Retrieval Network）是一个结合了大型多模态模型（LMMs, Large Multimodal Models）的统一注释检索网络。该网络旨在通过整合多模态数据（如文本、图像等）来实现更高效的注释和检索功能。UniCoRN利用先进的深度学习技术，能够处理复杂的多模态信息，并为用户提供精准的检索结果和丰富的注释内容。 | Maximilian Jaritz | PDF | N/A | UniCoRN: Unified Commented Retrieval Network with LMMs | | 多视图导向的GPLVM：表达能力与效率 | Zi Yang | PDF | N/A | Multi-View Oriented GPLVM: Expressiveness and Efficiency | | 推理时稀疏注意力与非对称索引 | Pierre-Emmanuel Mazaré | PDF | N/A | Inference-time sparse attention with asymmetric indexing | | FloVD：光流与视频扩散模型相结合，实现增强型相机控制视频合成 | Wonjoon Jin | PDF | N/A | FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis | | 过度思考的危险：审视代理任务中的推理-行动困境 | Alejandro Cuadron | PDF | N/A | The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks | | 学习关键步骤级别的人类技能生成器 | Yilu Wu | PDF | N/A | Learning Human Skill Generators at Key-Step Levels | | 使用无人机图像进行种植园监测：数据集与性能综述 | Yashwanth Karumanchi | PDF | N/A | Plantation Monitoring Using Drone Images: A Dataset and Performance Review | | 保持距离：在$\mathbb{S}_d$上学习分散嵌入 | Evgeniia Tokarchuk | PDF | N/A | Keep your distance: learning dispersed embeddings on $\mathbb{S}_d$ | | 通过剔除错误标记的简单样本来增强样本选择 | Suqin Yuan | PDF | N/A | Enhancing Sample Selection by Cutting Mislabeled Easy Examples | | TRISHUL：面向基于大型视觉语言模型的GUI代理的区域识别与屏幕层次结构理解 | Kunal Singh | PDF | N/A | TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents | | 以下是这段文字的中文翻译：

取你所需：具有信道适应能力的灵活多任务语义通信