Arxiv 2025-02-18 Papers

标题	作者	PDF链接	代码仓库	Title
多模态Mamba：通过二次到线性蒸馏实现的仅解码器多模态状态空间模型	Bencheng Liao	PDF	N/A	Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation
Re-Align：通过检索增强的直接偏好优化对齐视觉语言模型	Shuo Xing	PDF	N/A	Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization
RAD：通过基于大规模3D高斯散射（3DGS）的强化学习训练端到端驾驶策略	Hao Gao	PDF	N/A	RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
SoFar：语言引导的定向桥梁连接空间推理与物体操作	Zekun Qi	PDF	N/A	SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation
预训练自回归机器人模型与四维表示	Dantong Niu	PDF	N/A	Pre-training Auto-regressive Robotic Models with 4D Representations
UniGuardian：一种统一防御机制，用于检测大型语言模型中的提示注入、后门攻击和对抗性攻击	Huawei Lin	PDF	N/A	UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models
迈向生物医学应用中的量子张量分解	Myson Burch	PDF	N/A	Towards Quantum Tensor Decomposition in Biomedical Applications
AIDE：代码空间中的AI驱动探索	Zhengyao Jiang	PDF	N/A	AIDE: AI-Driven Exploration in the Space of Code
定理证明器作为合成数据生成的评判者	Joshua Ong Jun Leang	PDF	N/A	Theorem Prover as a Judge for Synthetic Data Generation
不眠之夜，甜蜜时光：为真实教练代理互动创建具有健康状况的合成用户	Taedong Yun	PDF	N/A	Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions
RHINO：从人类示范中学习实时人形-人类-物体交互	Jingxiao Chen	PDF	N/A	RHINO: Learning Real-Time Humanoid-Human-Object Interaction from Human Demonstrations
AV-Flow：将文本转化为视听化的人机交互体验	Aggelina Chatziagapi	PDF	N/A	AV-Flow: Transforming Text to Audio-Visual Human-like Interactions
学习在因果发现中依赖不完美专家的判断	Oscar Clivio	PDF	N/A	Learning to Defer for Causal Discovery with Imperfect Experts
通过主成分分析重新思考多样化人类偏好学习	Feng Luo	PDF	N/A	Rethinking Diverse Human Preference Learning through Principal Component Analysis
Magma：多模态AI代理的基础模型	Jianwei Yang	PDF	N/A	Magma: A Foundation Model for Multimodal AI Agents
噪声调节对于去噪生成模型是否必要？	Qiao Sun	PDF	N/A	Is Noise Conditioning Necessary for Denoising Generative Models?
SongGen：一种用于文本到歌曲生成的单阶段自回归Transformer模型	Zihan Liu	PDF	N/A	SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation
通过监督式链式思考推理促进长上下文理解	Jingyang Lin	PDF	N/A	Facilitating Long Context Understanding via Supervised Chain-of-Thought Reasoning
RuozhiBench：用逻辑谬误和误导性前提评估大语言模型	Zenan Zhai	PDF	N/A	RuozhiBench: Evaluating LLMs with Logical Fallacies and Misleading Premises
自然推理：在复杂环境中利用280万挑战性问题进行推理	Weizhe Yuan	PDF	N/A	NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions
为大型语言模型调整心理语言学研究：核心指代情境中的性别包容性语言	Marion Bartl	PDF	N/A	Adapting Psycholinguistic Research for LLMs: Gender-inclusive Language in a Coreference Context
STEER-ME：评估大型语言模型的微观经济推理能力	Narun Raman	PDF	N/A	STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models
大型语言模型在统计编程中的性能评估	Xinyi Song	PDF	N/A	Performance Evaluation of Large Language Models in Statistical Programming
近最优的线性上下文多臂老虎机中的隐私学习	Fan Chen	PDF	N/A	Near-Optimal Private Learning in Linear Contextual Bandits
运动特征在时间感知中的影响	Rosa Illan Castillo	PDF	N/A	The influence of motion features in temporal perception
带有多亚克可行性步骤的约束在线凸优化	Spencer Hutchinson	PDF	N/A	Constrained Online Convex Optimization with Polyak Feasibility Steps
EOC中的MLPs：特征学习的动态	Dávid Terjék	PDF	N/A	MLPs at the EOC: Dynamics of Feature Learning
提升临床问答系统的多任务学习：一种结合答案提取与医学分类的联合方法	Priyaranjan Pattnayak	PDF	N/A	Improving Clinical Question Answering with Multi-Task Learning: A Joint Approach for Answer Extraction and Medical Categorization
MatterChat：面向材料科学的多模态大语言模型	Yingheng Tang	PDF	N/A	MatterChat: A Multi-Modal LLM for Material Science
增强不确定性量化的变分自编码器用于贝叶斯逆问题的求解	Andrea Tonini	PDF	N/A	Enhanced uncertainty quantification variational autoencoders for the solution of Bayesian inverse problems
WeedsGalore：一个基于无人机的多光谱和多时相数据集，用于农业玉米田中的作物和杂草分割	Ekin Celikkan	PDF	N/A	WeedsGalore: A Multispectral and Multitemporal UAV-based Dataset for Crop and Weed Segmentation in Agricultural Maize Fields
理解并纠正视觉语言模型（VLMs）中的安全感知失真	Xiaohan Zou	PDF	N/A	Understanding and Rectifying Safety Perception Distortion in VLMs
Text2World：大型语言模型在符号世界模型生成中的基准测试	Mengkang Hu	PDF	N/A	Text2World: Benchmarking Large Language Models for Symbolic World Model Generation
tn4ml: 面向机器学习的张量网络训练与定制	Ema Puljak	PDF	N/A	tn4ml: Tensor Network Training and Customization for Machine Learning
神经差分熵估计器用于互信息	Haoran Ni	PDF	N/A	A Neural Difference-of-Entropies Estimator for Mutual Information
深度生成模型在个性化图像生成中的应用：十年综述	Yuxiang Wei	PDF	N/A	Personalized Image Generation with Deep Generative Models: A Decade Survey
BOLIMES：基于Boruta和LIME优化的基因表达分类特征选择方法	Bich-Chung Phan	PDF	N/A	BOLIMES: Boruta and LIME optiMized fEature Selection for Gene Expression Classification
L4P：低层次四维视觉感知统一框架	Abhishek Badki	PDF	N/A	L4P: Low-Level 4D Vision Perception Unified
KAPPA：一个基于关键词的通用专利分析框架	Xin Xia	PDF	N/A	KAPPA: A Generic Patent Analysis Framework with Keyphrase-Based Portraits
RobuRCDet：提升鸟瞰图中雷达-摄像头融合的鲁棒性用于3D目标检测	Jingtong Yue	PDF	N/A	RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection
交互式代理以克服软件工程中的歧义	Sanidhya Vijayvargiya	PDF	N/A	Interactive Agents to Overcome Ambiguity in Software Engineering
将1568个标记压缩至单一向量并还原：探索嵌入空间容量的极限	Yuri Kuratov	PDF	N/A	Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity
人工智能辅助决策与人类学习	Gali Noti	PDF	N/A	AI-Assisted Decision Making with Human Learning
改进大型多模态模型在仇恨表情包检测中的微调	Jingbiao Mei	PDF	N/A	Improved Fine-Tuning of Large Multimodal Models for Hateful Meme Detection
SimpleVQA: 多模态大语言模型的多模态事实性评估	Xianfu Cheng	PDF	N/A	SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models
在真实量子硬件上对MedMNIST数据集进行基准测试	Gurinder Singh	PDF	N/A	Benchmarking MedMNIST dataset on real quantum hardware
LAMD：基于上下文驱动的Android恶意软件检测与分类与LLMs	Xingzhi Qian	PDF	N/A	LAMD: Context-driven Android Malware Detection and Classification with LLMs
AEIA-MN：评估多模态LLM驱动的移动代理在主动环境注入攻击下的鲁棒性	Yurun Chen	PDF	N/A	AEIA-MN: Evaluating the Robustness of Multimodal LLM-Powered Mobile Agents Against Active Environmental Injection Attacks
$k$-Graph：一种用于可解释时间序列聚类的图嵌入方法	Paul Boniol	PDF	N/A	$k$-Graph: A Graph Embedding for Interpretable Time Series Clustering
我们还需要人工标注者吗？提示大型语言模型进行方面情感四元组预测	Nils Constantin Hellwig	PDF	N/A	Do we still need Human Annotators? Prompting Large Language Models for Aspect Sentiment Quad Prediction
利用机器学习增强电网巡检	Diogo Lavado	PDF	N/A	Enhancing Power Grid Inspections with Machine Learning
从视觉序列生成自然语言：挑战与未来方向	Aditya K Surikuchi	PDF	N/A	Natural Language Generation from Visual Sequences: Challenges and Future Directions
HPSS：启发式提示策略搜索用于大型语言模型评估器	Bosi Wen	PDF	N/A	HPSS: Heuristic Prompting Strategy Search for LLM Evaluators
似然比正则化分位数回归：将保形预测适应于高维协变量偏移	Sunay Joshi	PDF	N/A	Likelihood-Ratio Regularized Quantile Regression: Adapting Conformal Prediction to High-Dimensional Covariate Shifts
这是谁的故事？通过推断作者风格来个性化故事生成	Nischal Ashok Kumar	PDF	N/A	Whose story is it? Personalizing story generation by inferring author styles
一个用于高效病理图像分析的深度学习框架	Peter Neidlinger	PDF	N/A	A deep learning framework for efficient pathology image analysis
代理深度图推理生成自组织知识网络	Markus J. Buehler	PDF	N/A	Agentic Deep Graph Reasoning Yields Self-Organizing Knowledge Networks
脆弱性感知分类：理解风险与提升泛化能力	Chen Yang	PDF	N/A	Fragility-aware Classification for Understanding Risk and Improving Generalization
野外自然物体的检测与地理定位：以棕榈树为例	Kangning Cui	PDF	N/A	Detection and Geographic Localization of Natural Objects in the Wild: A Case Study on Palms
在未观测到的混杂因素下进行高效且精准的离策略学习	Konstantin Hess	PDF	N/A	Efficient and Sharp Off-Policy Learning under Unobserved Confounding
Oreo：一个插件式上下文重建器，用于增强检索增强生成	Sha Li	PDF	N/A	Oreo: A Plug-in Context Reconstructor to Enhance Retrieval-Augmented Generation
平均值的平均值：在无校准和无约束相机设置下的人类定位（扩展版）	Tianyi Zhang	PDF	N/A	Mean of Means: Human Localization with Calibration-free and Unconstrained Camera Settings (extended version)
LLM驱动的主动数据系统	Sepanta Zeighami	PDF	N/A	LLM-Powered Proactive Data Systems
HOMIE：人形机器人的同构外骨骼驾驶舱操控与移动系统	Qingwei Ben	PDF	N/A	HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit
迈向RPA评估设计指南：基于大型语言模型的角色扮演代理调查	Chaoran Chen	PDF	N/A	Towards a Design Guideline for RPA Evaluation: A Survey of Large Language Model-Based Role-Playing Agents
自适应知识图谱增强医疗问答：弥合大型语言模型与不断发展的医学知识之间的差距	Mohammad Reza Rezaei	PDF	N/A	Adaptive Knowledge Graphs Enhance Medical Question Answering: Bridging the Gap Between LLMs and Evolving Medical Knowledge
整合强化学习、动作模型学习与数值规划以应对复杂任务	Yarin Benyamin	PDF	N/A	Integrating Reinforcement Learning, Action Model Learning, and Numeric Planning for Tackling Complex Tasks
语言障碍：评估CNN和Transformer架构在语音质量估计中的跨语言表现	Wafaa Wardah	PDF	N/A	Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation
你需要模仿才能获得名声：用多代理对话解决会议记录稀缺问题	Frederic Kirstein	PDF	N/A	You need to MIMIC to get FAME: Solving Meeting Transcript Scarcity with a Multi-Agent Conversations
超图中的边着色聚类：超越最小化不满足边	Alex Crane	PDF	N/A	Edge-Colored Clustering in Hypergraphs: Beyond Minimizing Unsatisfied Edges
随机设计线性和核回归模型的渐近乐观性	Hengrui Luo	PDF	N/A	Asymptotic Optimism of Random-Design Linear and Kernel Regression Models
个性化基于预测分数的Top-k集合查询	Sohrab Namazi Nia	PDF	N/A	Personalized Top-k Set Queries Over Predicted Scores
DiLoCo中重叠通信与计算的急切更新	Satyen Kale	PDF	N/A	Eager Updates For Overlapped Communication and Computation in DiLoCo
以下是这段文字的中文翻译：

用于解释图像分类器的自由辩论式交流

使用神经音频编解码器的高保真音乐声码器

摘要：

本文探讨了将桌面角色扮演游戏 (TRPG) 录音作为说话人日志 (diarization) 挑战的潜力。TRPG 录音具有独特的特征，例如多个说话者、重叠语音、即兴对话以及背景噪音，这些特征使其成为开发更强大、更通用的说话人日志系统的理想测试平台。

引言：

说话人日志是指识别和分割音频流中不同说话者的过程。它在各种应用中至关重要，例如自动语音识别、语音分析和信息检索。然而，传统的说话人日志系统在处理具有挑战性的录音（例如 TRPG 录音）时常常会遇到困难。

TRPG 录音作为说话人日志挑战：

TRPG 录音为说话人日志系统提出了几个独特的挑战：

多个说话者： TRPG 通常涉及四到六名玩家，他们同时说话，导致频繁的重叠语音。
即兴对话： TRPG 对话通常是即兴的，缺乏脚本化的结构，这使得识别说话者转换变得更加困难。
背景噪音： TRPG 录音通常包含背景噪音，例如骰子滚动声、纸张沙沙声和笑声，这些噪音会干扰说话人日志系统。
情感表达： TRPG 玩家经常使用不同的声音和口音来扮演他们的角色，这增加了说话人日志的复杂性。

利用 TRPG 录音开发更强大的说话人日志系统：

尽管存在这些挑战，TRPG 录音也为开发更强大、更通用的说话人日志系统提供了宝贵的机会：

丰富的训练数据： TRPG 录音提供了大量多样化的训练数据，涵盖了各种语音模式、背景噪音和情感表达。
现实世界的复杂性： TRPG 录音捕捉了现实世界对话的复杂性，这对于训练能够处理具有挑战性的音频条件的说话人日志系统至关重要。
评估和改进： TRPG 录音可以作为评估说话人日志系统性能的基准，并确定需要改进的领域。

结论：

TRPG 录音为说话人日志研究提供了一个独特且具有挑战性的测试平台。通过利用这些录音的独特特征，我们可以开发更强大、更通用的说话人日志系统，这些系统可以应用于各种现实世界的应用。

未来工作：

未来的研究方向包括：

开发专门针对 TRPG 录音的说话人日志算法。
创建包含 TRPG 录音的公开数据集，以促进该领域的研究。
探索将说话人日志技术应用于 TRPG 录音的其他应用，例如自动生成字幕和分析玩家互动。 | Lian Remme | PDF | N/A | Playing with Voices: Tabletop Role-Playing Game Recordings as a Diarization Challenge | | 通过轮廓采样的超声心动图临床指标估计中的不确定性传播 | Thierry Judge | PDF | N/A | Uncertainty Propagation for Echocardiography Clinical Metric Estimation via Contour Sampling | | 趋势：一种空白替换信息隐藏方法 | Malte Hellmeier | PDF | N/A | TREND: A Whitespace Replacement Information Hiding Method | | CausalMan：一个基于物理的大规模因果关系模拟器 | Nicholas Tagliapietra | PDF | N/A | CausalMan: A physics-based simulator for large-scale causality | | 可扩展的模型合并与渐进式分层蒸馏 | Jing Xu | PDF | N/A | Scalable Model Merging with Progressive Layer-wise Distillation | | 智能翻译，而非硬翻：带有质量感知延迟的级联翻译系统 | António Farinhas | PDF | N/A | Translate Smart, not Hard: Cascaded Translation Systems with Quality-Aware Deferral | | 多新颖性：通过推理时的多视角头脑风暴提高大型语言模型生成内容的多样性和新颖性 | Arash Lagzian | PDF | N/A | Multi-Novelty: Improve the Diversity and Novelty of Contents Generated by Large Language Models via inference-time Multi-Views Brainstorming | | 强子量热计的神经形态读出 | Enrico Lupi | PDF | N/A | Neuromorphic Readout for Hadron Calorimeters | | 球形密集文本到图像合成 | Timon Winter | PDF | N/A | Spherical Dense Text-to-Image Synthesis | | 快速数据感知神经架构搜索通过超级网络加速评估 | Emil Njor | PDF | N/A | Fast Data Aware Neural Architecture Search via Supernet Accelerated Evaluation | | 最小贝叶斯风险解码的理论保证 | Yuki Ichihara | PDF | N/A | Theoretical Guarantees for Minimum Bayes Risk Decoding |