Arxiv 2025-01-08 Papers

标题	作者	PDF链接	代码仓库	Title
涡虫神经网络：从基础两侧对称动物塑造现代人工神经网络架构的进化模式	Ziyuan Huang	PDF	N/A	Planarian Neural Networks: Evolutionary Patterns from Basic Bilateria Shaping Modern Artificial Neural Network Architectures
EditAR：基于自回归模型的统一条件生成	Jiteng Mu	PDF	N/A	EditAR: Unified Conditional Generation with Autoregressive Models
ConceptMaster：无需测试时调优的扩散Transformer模型上的多概念视频定制	Yuzhou Huang	PDF	N/A	ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning
在数值稳定性的边缘进行探索	Lucas Prieto	PDF	N/A	Grokking at the Edge of Numerical Stability
测试时优化用于领域自适应开放词汇分割	Ulindu De Silva	PDF	N/A	Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation
重新排序上下文以增强多模态检索生成	Matin Mortaheb	PDF	N/A	Re-ranking the Context for Multimodal Retrieval Augmented Generation
EpiCoder：在代码生成中涵盖多样性与复杂性	Yaoxiang Wang	PDF	N/A	EpiCoder: Encompassing Diversity and Complexity in Code Generation
超越视觉：通过语言基础使用异构传感器微调通用机器人策略	Joshua Jones	PDF	N/A	Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding
软件缺陷预测中量子与经典支持向量分类器的比较分析：一项探索性研究	Md Nadim	PDF	N/A	Comparative Analysis of Quantum and Classical Support Vector Classifiers for Software Bug Prediction: An Exploratory Study
SPAR3D: 基于单张图像的3D物体稳定点感知重建	Zixuan Huang	PDF	N/A	SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images
URSA：理解与验证多模态数学中的思维链推理	Ruilin Luo	PDF	N/A	URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
在算法偏差评估中实现足够的统计功效：ABROCA测试	Conrad Borchers	PDF	N/A	Toward Sufficient Statistical Power in Algorithmic Bias Assessment: A Test for ABROCA
迈向LLMs的系统2推理：学习如何通过元思维链进行思考	Violet Xiang	PDF	N/A	Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought
RadGPT：构建3D图像-文本肿瘤数据集	Pedro R. A. S. Bassi	PDF	N/A	RadGPT: Constructing 3D Image-Text Tumor Datasets
使用中间结构化表示增强视觉语言模型中的金融视觉问答能力	Archita Srivastava	PDF	N/A	Enhancing Financial VQA in Vision Language Models using Intermediate Structured Representations
DRIVINGVQA：通过驾驶理论测试分析视觉语言模型在现实世界场景中的视觉链式推理能力	Charles Corbière	PDF	N/A	DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests
《它们是相同的吗？探索多模态大语言模型在视觉对应关系上的不足》	Yikang Zhou	PDF	N/A	Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs
自然变分退火用于多模态优化	Tâm Le Minh	PDF	N/A	Natural Variational Annealing for Multimodal Optimization
提升虚拟试穿体验：通过合成配对与误差感知噪声调度	Nannan Li	PDF	N/A	Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling
HyFusion：用于高光谱图像融合的增强接收场变压器

机器人运动控制中的信息物理隐写术

解释： - Cyber-Physical：信息物理系统，指通过计算、通信和控制技术将物理世界与信息世界深度融合的系统。 - Steganography：隐写术，一种将信息隐藏在其他载体（如图像、音频或运动数据）中的技术。 - Robotic Motion Control：机器人运动控制，涉及对机器人运动的规划、执行和优化。

人类乳腺癌中正常和非典型有丝分裂图例的组织学数据集（AMi-Br）

联邦微调大型语言模型（LLMs）：框架比较与研究方向的翻译如下：

"所见即所编：基于掩码运动建模的图像引导视频编辑"

这个翻译保留了原文的核心含义，同时使其更符合中文表达习惯。主要改动包括： 1. 将"Edit as You See"翻译为"所见即所编"，既保留了原文的简洁性，又体现了视频编辑的直观性。 2. 将"Image-guided"翻译为"图像引导"，更符合技术术语的表达。 3. 将"Masked Motion Modeling"翻译为"掩码运动建模"，准确传达了技术概念。

这个翻译适用于学术论文标题或技术文档，既专业又易于理解。如果您需要更通俗或更专业的表达，我可以进一步调整。