Arxiv 2025-01-23 Papers

标题	作者	PDF链接	代码仓库	Title
Fast3R：实现1000+张图像的3D重建单次前向传递	Jianing Yang	PDF	N/A	Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass
CRPO：基于置信度奖励驱动的机器翻译偏好优化	Guofeng Cui	PDF	N/A	CRPO: Confidence-Reward Driven Preference Optimization for Machine Translation
我们能通过思维链生成图像吗？让我们一步步验证并加强图像生成过程。	Ziyu Guo	PDF	N/A	Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step
迈向稳健的多模态开放集测试时间适应：通过自适应熵感知优化	Hao Dong	PDF	N/A	Towards Robust Multimodal Open-set Test-time Adaptation via Adaptive Entropy-aware Optimization
GeoPixel：基于像素定位的遥感大型多模态模型	Akashah Shabbir	PDF	N/A	GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing
Breeze 2 模型系列：基于Llama的传统中文大型语言模型，具备视觉感知和函数调用功能	Chan-Jan Hsu	PDF	N/A	The Breeze 2 Herd of Models: Traditional Chinese LLMs Based on Llama with Vision-Aware and Function-Calling Capabilities
IMAGINE-E：最先进文本到图像模型的图像生成智能评估	Jiayi Lei	PDF	N/A	IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models
长视频理解中的时间偏好优化	Rui Li	PDF	N/A	Temporal Preference Optimization for Long-Form Video Understanding
提升视频生成技术：结合人类反馈的优化方法	Jie Liu	PDF	N/A	Improving Video Generation with Human Feedback
PBM-VFL：具有特征和样本隐私保护的纵向联邦学习	Linh Tran	PDF	N/A	PBM-VFL: Vertical Federated Learning with Feature and Sample Privacy
二进制扩散概率模型	Vitaliy Kinakh	PDF	N/A	Binary Diffusion Probabilistic Model
分析大型语言模型（LLMs）中的印度语言能力	Aatman Vaidya	PDF	N/A	Analysis of Indic Language Capabilities in LLMs
关于表格数据蒸馏的表示学习	Inwon Kang	PDF	N/A	On Learning Representations for Tabular Data Distillation
以下是该段文字的中文翻译：

面向多模态大语言模型的隐私保护个性化联邦提示学习

这个标题描述了一种针对多模态大语言模型（Multimodal Large Language Models, MLLMs）的隐私保护和个性化学习方法。具体来说，它结合了以下技术： 1. 隐私保护：确保数据在训练过程中不会被泄露。 2. 个性化：根据用户或设备的特定需求进行定制化学习。 3. 联邦学习：一种分布式学习方法，数据不需要集中存储，而是在本地设备上进行训练。 4. 提示学习（Prompt Learning）：通过设计提示（prompts）来引导模型生成特定输出。

“眼动作为在情境化AI系统中传递用户注意力的信号”

一种用于正交不变约束下有界秩矩阵优化的空间解耦框架

翻译说明： - "space-decoupling framework" 翻译为“空间解耦框架”。 - "optimization on bounded-rank matrices" 翻译为“有界秩矩阵优化”。 - "orthogonally invariant constraints" 翻译为“正交不变约束”。

稀疏张量块模型中的一致性谱聚类

翻译说明： - "Consistent" 译为 "一致性"，表示方法具有稳定、可靠的性质 - "spectral clustering" 译为 "谱聚类"，是一种基于图论的聚类方法 - "sparse tensor block models" 译为 "稀疏张量块模型"，指具有稀疏特性的张量块结构模型

基于局部对齐的变分U-Net用于两种不同场强下乳腺MRI数据的联合肿瘤提取与配准（VALOR-Net）

翻译说明： 1. Variational U-Net with Local Alignment 翻译为“基于局部对齐的变分U-Net”，突出了方法的特性。 2. Joint Tumor Extraction and Registration 翻译为“联合肿瘤提取与配准”，强调了方法的双重功能。 3. Breast MRI Data Acquired at Two Different Field Strengths 翻译为“两种不同场强下乳腺MRI数据”，明确了数据的来源和特性。 4. VALOR-Net 保留了英文缩写，便于学术引用和识别。

基于倾向性驱动的不确定性学习用于无源主动领域自适应中的样本探索

“一种用于家务分配的EFX定向的多项式时间算法”

解释： - Polynomial-Time Algorithm：多项式时间算法，指算法的时间复杂度是输入规模的多项式函数。 - EFX：EFX代表“Envy-Free up to any item”（无嫉妒性，至多任何一项），是公平分配问题中的一种公平性标准。 - Orientations：定向，这里指将家务分配给不同参与者的方式。 - Chores：家务，指需要分配给参与者的任务或工作。

这段翻译将英文标题“A Survey of Code-switched Arabic NLP: Progress, Challenges, and Future Directions”转化为中文，同时保持了原文的学术性和专业性。标题中的“Code-switched Arabic NLP”指的是在阿拉伯语中出现的代码转换现象的自然语言处理研究，翻译为“阿拉伯语代码转换的自然语言处理”以准确传达原意。同时，“Progress, Challenges, and Future Directions”分别对应“进展、挑战与未来方向”，以全面概括研究综述的内容。 | Injy Hamed | PDF | N/A | A Survey of Code-switched Arabic NLP: Progress, Challenges, and Future Directions | | 重新思考少样本分类中的样本关系 | Guowei Yin | PDF | N/A | Rethinking the Sample Relations for Few-Shot Classification | | GeomGS: 基于LiDAR引导的几何感知高斯溅射用于机器人定位 | Jaewon Lee | PDF | N/A | GeomGS: LiDAR-Guided Geometry-Aware Gaussian Splatting for Robot Localization | | M3PT：一种用于多模态、多方社交信号预测的Transformer模型，具备人物感知的分块注意力机制 | Yiming Tang | PDF | N/A | M3PT: A Transformer for Multimodal, Multi-Party Social Signal Prediction with Person-aware Blockwise Attention | | 使用深度学习进行负荷与可再生能源预测以保障电网稳定性 | Kamal Sarkar | PDF | N/A | Load and Renewable Energy Forecasting Using Deep Learning for Grid Stability | | VIGS SLAM：基于IMU的大规模3D高斯溅射SLAM | Gyuhyeon Pak | PDF | N/A | VIGS SLAM: IMU-based Large-Scale 3D Gaussian Splatting SLAM | | YOLOv8到YOLO11：架构深入对比全面回顾 | Priyanto Hidayatullah | PDF | N/A | YOLOv8 to YOLO11: A Comprehensive Architecture In-depth Comparative Review | | ExLM: 重新思考掩码语言模型中$\texttt{[MASK]}$标记的影响 | Kangjie Zheng | PDF | N/A | ExLM: Rethinking the Impact of $\texttt{[MASK]}$ Tokens in Masked Language Models | | 迈向智能设计：一个基于时尚风格与纹理的自驱动框架用于协同服装合成 | Minglong Dong | PDF | N/A | Towards Intelligent Design: A Self-driven Framework for Collocated Clothing Synthesis Leveraging Fashion Styles and Textures | | 通过随机最小二乘值迭代实现基于聚合状态的并发学习 | Yan Chen | PDF | N/A | Concurrent Learning with Aggregated States via Randomized Least Squares Value Iteration | | 时间序列嵌入方法在分类任务中的应用：综述 | Yasamin Ghahremani | PDF | N/A | Time Series Embedding Methods for Classification Tasks: A Review | | 大型语言模型能否理解个性化推荐中的偏好？ | Zhaoxuan Tan | PDF | N/A | Can Large Language Models Understand Preferences in Personalized Recommendation? | | 超越任务多样性：序列多任务线性赌博机的可证明表示迁移 | Thang Duong | PDF | N/A | Beyond Task Diversity: Provable Representation Transfer for Sequential Multi-Task Linear Bandits | | AEON：用于稳健学习的实例依赖性分布内和分布外标签噪声的自适应估计 | Arpit Garg | PDF | N/A | AEON: Adaptive Estimation of Instance-Dependent In-Distribution and Out-of-Distribution Label Noise for Robust Learning | | 从图像到点云：一种无需标注训练的高效跨媒体盲质量评估解决方案 | Yipeng Liu | PDF | N/A | From Images to Point Clouds: An Efficient Solution for Cross-media Blind Quality Assessment without Annotated Training | | 快速且可证明的张量列车格式张量补全：通过预条件黎曼梯度下降法实现 | Fengmiao Bian | PDF | N/A | Fast and Provable Tensor-Train Format Tensor Completion via Precondtioned Riemannian Gradient Descent | | 照我们所做，而非你所想：大型语言模型的从众性 | Zhiyuan Weng | PDF | N/A | Do as We Do, Not as You Think: the Conformity of Large Language Models | | 可扩展的评估框架用于肌肉骨骼MRI中的基础模型：将计算创新与临床实用性相结合