Arxiv 2025-02-10 Papers

标题	作者	PDF链接	代码仓库	Title
EVEv2：无编码器视觉-语言模型的改进基线	Haiwen Diao	PDF	N/A	EVEv2: Improved Baselines for Encoder-Free Vision-Language Models
动态API空间推理的视觉代理AI	Damiano Marsili	PDF	N/A	Visual Agentic AI for Spatial Reasoning with a Dynamic API
Matryoshka Quantization 可以翻译为“套娃量化”或“嵌套量化”。这个术语通常用于描述一种分层次或多层次的量化方法，类似于俄罗斯套娃（Matryoshka dolls）的结构，即一层套一层。在技术领域，特别是在机器学习和数据压缩中，这种量化方法可能指的是对数据进行多层次的量化处理，每一层都对应不同的精度或粒度。	Pranav Nair	PDF	N/A	Matryoshka Quantization
DeepCrossAttention：增强Transformer残差连接	Mike Heddes	PDF	N/A	DeepCrossAttention: Supercharging Transformer Residual Connections
RelGNN：用于关系深度学习的复合消息传递	Tianlang Chen	PDF	N/A	RelGNN: Composite Message Passing for Relational Deep Learning
Lumina-Video：基于多尺度Next-DiT的高效灵活视频生成	Dongyang Liu	PDF	N/A	Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT
探索学习数学推理中结果奖励的极限	Chengqi Lyu	PDF	N/A	Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning
KARST：用于视觉分类的多核Kronecker自适应与重缩放传输	Yue Zhu	PDF	N/A	KARST: Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission for Visual Classification
学习在观测数据下的最优分类策略	Yuxuan Han	PDF	N/A	Learning an Optimal Assortment Policy under Observational Data
迈向互联网规模的智能体训练	Brandon Trabucco	PDF	N/A	Towards Internet-Scale Training For Agents
提升可解释人工智能模型性能的约束概念优化方法	Geyu Liang	PDF	N/A	Enhancing Performance of Explainable AI Models with Constrained Concept Refinement
ENFORCE: 基于自适应深度神经投影的精确非线性约束学习	Giacomo Lastrucci	PDF	N/A	ENFORCE: Exact Nonlinear Constrained Learning with Adaptive-depth Neural Projection
关于大型语言模型（LLMs）中思维的出现 I：寻找正确的直觉	Guanghao Ye	PDF	N/A	On the Emergence of Thinking in LLMs I: Searching for the Right Intuition
ReasonFlux：通过扩展思维模板的分层LLM推理	Ling Yang	PDF	N/A	ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates
无监督粒子追踪与神经形态计算	Emanuele Coradin	PDF	N/A	Unsupervised Particle Tracking with Neuromorphic Computing
为最坏情况训练，为最好情况规划：理解掩码扩散中的标记顺序	Jaeyeon Kim	PDF	N/A	Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions
利用稀疏性进行长上下文推理：在商用GPU上实现百万令牌上下文	Ryan Synk	PDF	N/A	Exploiting Sparsity for Long Context Inference: Million Token Contexts on Commodity GPUs
所有模型都是错误的吗？无分布经验模型证伪的基本限制	Manuel M. Müller	PDF	N/A	Are all models wrong? Fundamental limits in distribution-free empirical model falsification
历史引导的视频扩散	Kiwhan Song	PDF	N/A	History-Guided Video Diffusion
何时、何地以及为何要平均权重？	Niccolò Ajroldi	PDF	N/A	When, Where and Why to Average Weights?
文本到SQL的合理化模型	Gaetano Rossiello	PDF	N/A	Rationalization Models for Text-to-SQL
SAMRefiner：驯服“分割一切”模型以实现通用掩码优化	Yuqi Lin	PDF	N/A	SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement
稀疏自编码器在视觉模型科学严谨解释中的应用	Samuel Stevens	PDF	N/A	Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models
在人工智能时代构建统一代理建模框架的案例	Elizaveta Semenova	PDF	N/A	Case for a unified surrogate modelling framework in the age of AI
什么构成了一个好的前馈计算图？	Alex Vitvitskyi	PDF	N/A	What makes a good feedforward computational graph?
加速病理学中人工智能模型的数据处理和基准测试	Andrew Zhang	PDF	N/A	Accelerating Data Processing and Benchmarking of AI Models for Pathology
激励战略分类中的理想努力模式：因果关系与不确定性的作用	Valia Efthymiou	PDF	N/A	Incentivizing Desirable Effort Profiles in Strategic Classification: The Role of Causality and Uncertainty
漫游：通过物体运动敏感性实现视觉注意力的仿生方法	Giulia D Angelo	PDF	N/A	Wandering around: A bioinspired approach to visual attention through object motion sensitivity
梯度多重归一化用于无状态和可扩展的大规模语言模型训练	Meyer Scetbon	PDF	N/A	Gradient Multi-Normalization for Stateless and Scalable LLM Training
ViSIR：基于视觉Transformer的地球系统模型单图像重建方法	Ehsan Zeraatkar	PDF	N/A	ViSIR: Vision Transformer Single Image Reconstruction Method for Earth System Models
关于神经偏微分方程的物理解释的说明	Sauro Succi	PDF	N/A	A note on the physical interpretation of neural PDE's
通过对抗性编码复活饱和的LLM基准测试	Igor Ivanov	PDF	N/A	Resurrecting saturated LLM benchmarks with adversarial encoding
VersaPRM：通过合成推理数据实现的多领域过程奖励模型	Thomas Zeng	PDF	N/A	VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data
低功耗基于脉冲的RRAM交叉阵列可穿戴分析	Abhiroop Bhattacharjee	PDF	N/A	Low-power Spike-based Wearable Analytics on RRAM Crossbars
通过深度学习提升肺炎诊断与严重程度评估：一种整合CNN分类与感染分割的综合方法	S Kumar Reddy Mallidi	PDF	N/A	Enhancing Pneumonia Diagnosis and Severity Assessment through Deep Learning: A Comprehensive Approach Integrating CNN Classification and Infection Segmentation
Señorita-2M：一个由视频专家创建的高质量基于指令的通用视频编辑数据集	Bojia Zi	PDF	N/A	Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists
基于动态损失的样本重加权以改进大型语言模型预训练	Daouda Sow	PDF	N/A	Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining
FlexDeMo：用于完全和混合分片训练的分离动量优化	Mogens Henrik From	PDF	N/A	FlexDeMo: Decoupled Momentum Optimization for Fully and Hybrid Sharded Training
人工智能（AI）在土木工程中的应用	Temitope Funmilayo Awolusi	PDF	N/A	Application of Artificial Intelligence (AI) in Civil Engineering
高斯近似与随机梯度下降的乘数自举法	Marina Sheshukova	PDF	N/A	Gaussian Approximation and Multiplier Bootstrap for Stochastic Gradient Descent
学习音乐表现以用于音乐表演问答	Xingjian Diao	PDF	N/A	Learning Musical Representations for Music Performance Question Answering
TEMSET-24K：基于手术时间线分割的多部分内窥镜视频索引密集标注数据集	Muhammad Bilal	PDF	N/A	TEMSET-24K: Densely Annotated Dataset for Indexing Multipart Endoscopic Videos using Surgical Timeline Segmentation
RSAttAE：一种基于信息感知的注意力机制自编码器推荐系统	Amirhossein Dadashzadeh Taromi	PDF	N/A	RSAttAE: An Information-Aware Attention-based Autoencoder Recommender System
1B规模的LLM能否超越405B规模的LLM？重新思考计算最优的测试时扩展	Runze Liu	PDF	N/A	Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
FairDropout：通过使用与样本绑定的Dropout来增强少数群体的泛化能力	Geraldin Nanfack	PDF	N/A	FairDropout: Using Example-Tied Dropout to Enhance Generalization of Minority Groups
机器学习在健康领域的最新进展、应用与开放挑战：2024年ML4H研讨会圆桌会议思考

在2024年ML4H（机器学习与健康）研讨会上，研究人员围绕机器学习在健康领域的最新进展、应用以及面临的开放挑战展开了深入讨论。此次圆桌会议汇集了来自学术界、工业界和医疗领域的专家，共同探讨了机器学习技术在健康领域的潜力和挑战。

首先，会议回顾了近年来机器学习在健康领域取得的重要进展。从疾病诊断到个性化治疗，机器学习技术正在逐步改变医疗行业的面貌。特别是在医学影像分析、基因组学和药物研发等领域，机器学习算法已经展现出显著的优势。例如，深度学习模型在癌症早期筛查中的应用，大大提高了诊断的准确性和效率。

然而，尽管取得了诸多进展，机器学习在健康领域的应用仍面临诸多挑战。数据隐私和安全问题、算法的可解释性、以及模型在不同人群中的泛化能力，都是亟待解决的问题。此外，如何将机器学习技术有效整合到现有的医疗系统中，也是一个重要的研究方向。

会议还探讨了未来可能的研究方向和应用场景。专家们一致认为，跨学科合作将是推动机器学习在健康领域进一步发展的关键。通过结合医学、计算机科学和数据科学等多学科的知识，有望开发出更加智能和高效的医疗解决方案。

这段翻译将“RAILS”这一缩写保留，同时将“Risk-Aware Iterated Local Search”翻译为“风险感知迭代局部搜索算法”，以突出其算法特性。接着，“for Joint SLA Decomposition and Service Provider Management”被翻译为“面向联合SLA分解与服务提供商管理”，明确了算法的应用方向。最后，“in Multi-Domain Networks”翻译为“在多域网络中”，限定了算法的应用环境。整体翻译保持了原文的专业性和准确性。 | Cyril Shih-Huan Hsu | PDF | N/A | RAILS: Risk-Aware Iterated Local Search for Joint SLA Decomposition and Service Provider Management in Multi-Domain Networks | | 通过言语效能刺激提升大型语言模型的自我效能与表现 | Rui Chen | PDF | N/A | Boosting Self-Efficacy and Performance of Large Language Models via Verbal Efficacy Stimulations | | 自动评估医疗领域大型语言模型：超越问答功能 | Anna Arias-Duart | PDF | N/A | Automatic Evaluation of Healthcare LLMs Beyond Question-Answering | | 以下是这段英文的中文翻译：

"用于可听设备的深度音频表示评估"

解释： - "Evaluation" 翻译为 "评估" - "Deep Audio Representations" 翻译为 "深度音频表示" - "Hearables" 翻译为 "可听设备"（指耳机、助听器等可穿戴音频设备）

可微分时间对齐网络用于时间序列联合对齐与平均

翻译解释： - Diffeomorphic：可微分的，指一种平滑且可逆的变换。 - Temporal Alignment：时间对齐，指将不同时间序列在时间轴上进行对齐。 - Nets：网络，通常指神经网络。 - Time-series：时间序列，指按时间顺序排列的数据点。 - Joint Alignment and Averaging：联合对齐与平均，指同时对多个时间序列进行对齐并计算其平均值。

基于Group-CLIP不确定性建模的群体重识别

解释： - Group-CLIP：指的是一种基于CLIP（Contrastive Language–Image Pretraining）模型的群体识别方法。 - Uncertainty Modeling：不确定性建模，指在模型中对不确定性进行量化或建模的过程。 - Group Re-Identification：群体重识别，指在视频监控或多摄像头系统中，对同一群体在不同场景或时间下的识别与匹配。

结构保持的对比学习用于时空序列

这个翻译保留了原文的核心含义，其中： - “Structure-preserving” 翻译为“结构保持的”，表示在学习过程中保持数据的结构特性。 - “contrastive learning” 翻译为“对比学习”，是一种自监督学习方法。 - “spatial time series” 翻译为“时空序列”，指的是具有空间和时间维度的序列数据。

"面向基于强盗算法的提示调优，用于野外基础代理"

其中： - "bandit-based" 翻译为 "基于强盗算法的" - "prompt-tuning" 翻译为 "提示调优" - "in-the-wild" 翻译为 "野外的" 或 "实际环境中的" - "foundation agents" 翻译为 "基础代理"

这段文字可以翻译为：

意料之外：金融领域的长上下文问答容错机制

解释：

Expect the Unexpected: 直译为“期待意料之外的事情”，这里可以理解为“应对突发情况”或“未雨绸缪”。
FailSafe: 指“容错机制”或“故障保护机制”，确保系统在出现错误时仍能正常运行。
Long Context QA: 指“长上下文问答”，即能够理解和处理包含大量上下文信息的问答系统。
for Finance: 指“应用于金融领域”。

整体含义：

这段文字描述了一种应用于金融领域的长上下文问答系统，该系统具备容错机制，能够应对各种突发情况，确保在复杂的金融环境中稳定可靠地运行。

其他可能的翻译：

未雨绸缪：金融长文本问答的容错之道
防患未然：金融领域长上下文问答的故障保护
有备无患：打造金融领域稳定可靠的长文本问答系统

提示驱动的持续图学习

这个术语可以拆解为以下几个部分： - 提示驱动 (Prompt-Driven)：指通过提示（Prompt）来引导或驱动学习过程。 - 持续学习 (Continual Learning)：指模型能够在不遗忘旧知识的情况下，持续学习新任务或新数据。 - 图学习 (Graph Learning)：指基于图结构（如社交网络、知识图谱等）进行的学习任务。